JP2021047538A

JP2021047538A - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP2021047538A
Application number: JP2019168734A
Authority: JP
Inventors: 元牟田; Hajime Muta; 康夫馬塲; Yasuo Baba; 矢野　光太郎; Kotaro Yano; 光太郎矢野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2021-03-25
Anticipated expiration: 2039-09-17
Also published as: EP3796256A1; US20210082141A1; CN112598725A; US11721036B2; JP7383435B2

Abstract

【課題】混雑シーンにおける対象物の流れの計測精度を向上させる。【解決手段】複数の画像を含む動画像を取得する。画像中の対象物の密度分布を推定する。密度分布から、画像中の対象物の位置を推定する。複数の画像中の対象物の位置から、対象物の流れを計測する。【選択図】図２

Description

本発明は画像処理装置、画像処理方法、及びプログラムに関し、特にビデオカメラ又は防犯カメラ等で撮像された動画像の解析技術に関する。

近年、カメラ等で撮像された動画像から、撮影領域における対象物（例えば人）の流れ（例えば人数又は方向）、すなわち人流を解析する装置が提案されている。対象物の流れを測定するためには、動画像から対象物を検出することが必要である。特許文献１は、定点カメラで撮像された画像に含まれる人物領域を検出し、人物の数を計測する方法を開示している。

特開２００７−２０１５５６号公報

例えば群衆を撮像する場合のように、対象物が混雑しているシーン（混雑シーン）において対象物の流れを精度よく測定するためには、このようなシーンにおいても対象物の位置を精度よく検出することが求められる。一方、特許文献１では、画像が人物で占められている領域を検出することにより人物を検出している。この方法では、人物同士の重なりが大きくなると人物の検出精度が低下するため、混雑シーンにおいて流れの測定精度が低下する。

本発明は、混雑シーンにおける対象物の流れの計測精度を向上させることを目的とする。

本発明の目的を達成するために、例えば、本発明の画像処理装置は以下の構成を備える。すなわち、
複数の画像を含む動画像を取得する取得手段と、
前記画像中の対象物の密度分布を推定する密度推定手段と、
前記密度分布から、前記画像中の前記対象物の位置を推定する位置推定手段と、
前記複数の画像中の前記対象物の位置から、前記対象物の流れを計測する計測手段と、
を備えることを特徴とする。

混雑シーンにおける対象物の流れの計測精度を向上させる。

画像処理装置のハードウェア構成の一例を示す図。画像処理装置の機能構成の一例を示す図。画像処理装置の処理の流れの一例を示す図。入力画像から部分画像を抽出する方法の一例を示す図。部分画像の中央領域及びマージン領域を説明する図。入力画像における人物の密度分布推定の一例を示す図。密度分布からの人物の位置座標推定の一例を示す図。位置マップから人物の位置座標を求める処理の一例を示す図。異なる時刻における人物の位置座標同士のマッチング方法を示す図。マッチングで用いられるコスト行列及びマッチング結果の一例を示す図。マッチングにより人物の移動軌跡を求める処理の一例を示す図。人物の予測位置に基づくマッチング方法を示す図。移動軌跡が途切れた場合に移動軌跡を補完する方法を示す図。人物の移動軌跡から流量を計測する方法の一例を示す図。人物の移動軌跡から流量を計測する方法の一例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

図１は、本発明の一実施形態に係る画像処理装置１００のハードウェア構成例を示す。画像処理装置１００は、制御装置１１、記憶装置１２、演算装置１３、入力装置１４、出力装置１５、及びＩ／Ｆ装置１６を有する。

制御装置１１は、画像処理装置１００の全体を制御する装置である。記憶装置１２は、制御装置１１の動作に必要なプログラム及びデータを保持する。演算装置１３は、制御装置１１からの制御に基づき、必要な演算処理を実行する。例えば、演算装置１３は、後述するニューラルネットワーク演算を行ってもよい。入力装置１４は、ヒューマンインターフェースデバイス等であり、ユーザの操作による入力を取得する。出力装置１５は、ディスプレイ等であり、画像処理装置１００が生成した処理結果等をユーザに提示する。

Ｉ／Ｆ装置１６は、ユニバーサルシリアルバス、イーサネット（登録商標）、若しくは光ケーブル等の有線インターフェース、又はＷｉ−Ｆｉ若しくはＢｌｕｅｔｏｏｔｈ（登録商標）等の無線インターフェースである。Ｉ／Ｆ装置１６を解して、他の装置を画像処理装置１００に接続することができる。例えば、Ｉ／Ｆ装置１６にはカメラ等の撮像装置を接続することができ、Ｉ／Ｆ装置１６を介して画像処理装置１００は撮像画像を取得することができる。別の例として、画像処理装置１００は、Ｉ／Ｆ装置１６を介して処理結果を外部に送信することができる。さらなる例として、画像処理装置１００は、動作に必要なプログラム又はデータ等をＩ／Ｆ装置１６を介して取得することができる。

後述する画像処理装置１００の機能は、例えば、プロセッサ（例えば制御装置１１）が、メモリ（例えば記憶装置１２）上のプログラムに従って動作することにより実現することができる。上記の記憶装置１２又はその他の記憶媒体は、このようなプログラムを格納することができる。もっとも、後述する画像処理装置１００の少なくとも一部の機能は、専用のハードウェアによって実現されてもよい。また、本発明の一実施形態に係る画像処理装置は、例えばネットワークを介して接続された複数の装置によって構成されていてもよい。

図２は、本発明の一実施形態に係る画像処理装置１００の機能構成例を示す。画像処理装置１００は、機能構成として、取得部２０１、密度推定部２０２、座標推定部２０３、追跡部２０４、計測部２０５を有している。

取得部２０１は、複数の画像を含む動画像を取得する。取得部２０１が取得した動画像に対して、対象物の流れを計測するための解析が行われる。対象物の流れとは、画像上での対象物の流れであってもよいし、画像解析により推定される現実空間における対象物の流れであってもよい。なお、解析の対象物は特に限定されず、人物、自転車若しくはバイク等の乗り物、車若しくはトラック等の車両、又は家畜等の動物等が挙げられる。

動画像とは、例えば、ストリーミング、動画ファイル、フレーム毎に保存された一連の画像ファイル、又はメディアに保存された動画等であり、これらは複数のフレーム画像を含んでいる。複数の画像のそれぞれは、例えば、同一の場所にある撮像装置により異なる時刻に撮像されていてもよい。取得部２０１は、ＣＭＯＳセンサー若しくはＣＣＤセンサー等の固体撮像素子、又はこれらの固体撮像素子を備えるカメラ等の撮像装置から動画像を取得することができる。また、取得部２０１は、ハードディスク若しくはＳＳＤ等の記憶装置、又は記録メディア等から、動画像データを取得してもよい。

密度推定部２０２は、取得部２０１が取得した画像を用いて、流れの計測対象である対象物の、画像中での密度分布を推定する。密度分布とは、画像において、流量計測の対象物（例えば人物の頭部等）が存在すると推定される箇所を表現したものである。密度分布は、画像中で対象物が存在すると推定された領域を示すことができる。密度分布は、例えば、対象物が存在する可能性が高い位置を中心とする、対象物の大きさに応じた一様分布であってもよい。また、密度分布は、対象物が存在する可能性が高い位置に極大を持つような任意の分布であってもよい。後者の例としては、例えば、ガウス分布が挙げられる。密度分布は、対象物が存在する可能性を示していてもよい。密度推定部２０２は、画像中の各位置における対象物の密度を表す密度マップを、密度分布を表す情報として出力することができる。なお、この密度マップの解像度は、画像と同じであってもよいし、画像より低くてもよい。

画像中で対象物が重なる場合に、密度推定部２０２は、それぞれの対象物に対応する密度分布が重ね合わされた密度分布を求めてもよい。この密度分布は、１つの対象物に対応する密度分布における密度の総和が１となるように規格化されていてもよい。この場合、密度推定部２０２が生成する密度分布における密度の総和は、画像中の対象物の数に対応する。

密度推定部２０２が密度分布を推定する方法としては、様々な方法を利用できる。例えば、画像、又は画像から抽出された特徴量、又はこれらの双方を、ニューラルネットワークに入力する方法が挙げられる。このようなニューラルネットワークとしては、例えば、畳み込みニューラルネットワーク、逆畳み込みニューラルネットワーク、これらのその双方が連結されたオートエンコーダー、及びＵ−Ｎｅｔ等のショートカットを持つネットワーク、等が挙げられる。密度推定部２０２が用いるニューラルネットワークは、画像が入力されると対象物の密度分布を出力するように、予め学習されている。このような学習は、学習用の画像と、上記のような画像の密度分布を表す教師データと、を用いて行うことができる。例えば、ニューラルネットワークからの出力値の総和が対象物の数となるように、すなわち出力値が画像の各位置の対象物の密度を表すように、学習を行うことができる。

座標推定部２０３は、密度推定部２０２により得られた密度分布から、画像中の対象物の位置を推定する。例えば、座標推定部２０３は、推定された対象物の位置の座標を出力することができる。対象物の位置の座標とは、画像における対象物の代表点の座標である。対象物の代表点は、例えば、対象物である人物の頭部中心であってもよい。

座標推定部２０３が位置を推定する方法は特に限定されず、例えば密度分布の重心を対象物の位置として推定してもよい。一方で、密度推定部２０２が出力する１つの対象物に対応する密度分布の境界はぼやけることがあり、また、この境界は様々な形状を有している。さらに、１つの対象物に対応する密度分布同士が重なり合うことにより、密度分布が複雑な形状を有する可能性がある。さらには、特定の状況で密度推定部２０２が想定外の出力をすることもあり得る。一実施形態においては、座標推定部２０３はニューラルネットワークを用いて対象物の位置を推定する。ニューラルネットワークを用いることにより、入力される密度分布にかかわらず、事前に定義された一定の演算量で位置の推定結果を得ることができる。このため、座標推定部２０３は、密度推定部２０２が出力する様々な密度分布に対応可能である。

座標推定部２０３が用いるニューラルネットワークは、例えば、密度分布を表す密度マップが入力されると、密度マップの各位置についての２クラス分類の推定結果を確率で表す、位置マップを出力することができる。座標推定部２０３は、このように、画像の各位置について対象物の代表点を表すかどうかを識別する２クラス分類を行うことができる。この２クラス分類においては、密度マップの各位置が対象物の位置座標を表すなら推定結果は１に、対象物の位置座標を表さないなら推定結果は０となる。位置マップ７０１は、密度マップの各位置について、対象物の位置座標を表す確率を表すことができる。このような位置マップはほとんどの要素が０であるスパースなものであるため、スパースな出力を扱える２クラス分類問題に帰着させることで、このような位置マップを生成するニューラルネットワークの学習が容易となる。

このようなニューラルネットワークとしては、例えば、畳み込みニューラルネットワーク、逆畳み込みニューラルネットワーク、これらのその双方が連結されたオートエンコーダー、及びＵ−Ｎｅｔ等のショートカットを持つネットワーク、等が挙げられる。また、座標推定部２０３が用いるニューラルネットワークは、０以上１以下の値域を持つ出力層を持つことができる。このような出力層としては、例えば、ステップ関数、シグモイド関数、又はソフトマックス関数等が挙げられる。このような出力層を持つニューラルネットワークは、２クラス分類問題に適した出力を与えることができる。

座標推定部２０３が用いるニューラルネットワークは、密度マップが入力されると対象物の位置を出力するように、予め学習されている。このような学習は、例えば、学習用の密度マップと、人物の位置に対応する要素が１であり、それ以外の要素が０である、密度マップに対応する位置マップを表す教師データと、を用いて行うことができる。

計測部２０５は、座標推定部２０３により推定された、複数の画像中の対象物の位置から、対象物の流れを計測する。計測部２０５は、例えば、対象物の流量、又は対象物の流れの向きなどを計測することができる。流量とは、例えば、あらかじめ設定された計測領域又は計測線を通過する対象物の数であってもよい。例えば、計測部２０５は、計測領域によって区切られる一方の領域から他方の領域へと移動した対象物の数を計測することができる。計測領域として線分（計測線）を用いる場合、計測部２０５は、計測線を交差した対象物の数を計測することができる。

このような計測領域は、撮影シーンに基づき予め決められていてもよい。この場合、計測部２０５は、予め決められた計測領域の設定値を記憶装置１２等のメモリから取得してもよい。また、計測部２０５は、出力装置１５に表示された画像を参照しながら入力装置１４に接続されたヒューマンインターフェースデバイス等を操作することによってユーザが入力した設定値を取得してもよい。

計測領域は、１つであってもよいし、複数であってもよい。また、計測領域の形状は特に限定されず、例えば、任意の折れ線、曲線、多角形、円形、若しくは楕円形、又は任意の閉曲線からなる図形であってもよい。また、計測領域は、太さのない線であってもよいし、太さを有する線（又は長い矩形）であってもよい。このような計測領域は、線又は矩形等の任意のガイド図形を基準に設定されてもよい。例えば、ガイド図形に従う形状の計測領域が、画像中の特定の位置に設けられてもよい。このようなガイド図形は１つであっても複数であってもよい。また、ガイド図形が、幅を大きくする等の方法により拡張されてもよい。

対象物の位置に基づいて対象物の流れを計測する方法は特に限定されないが、本実施形態において計測部２０５は、追跡部２０４による対象物の追跡結果を用いて計測を行う。追跡部２０４は、対象物の位置を追跡する。追跡部２０４は、座標推定部２０３により推定された対象物の位置に基づいて、対象物の位置を追跡することができる。例えば、追跡部２０４は、複数の画像のそれぞれにおいて推定された対象物の位置に基づいて、同一と推定される対象物について、時間にわたる位置の変化を追跡することができる。

一実施形態において追跡部２０４は、座標推定部２０３が出力した対象物の位置座標に基づいて、対象物の位置座標を追跡することにより、対象物の移動軌跡を得る。追跡部２０４は、複数の画像のうちの第１の時刻における第１の画像中の対象物の位置と、複数の画像のうちの第２の時刻における第２の画像中の対象物の位置と、を対応付けることができる。このような対応付けを繰り返すことにより、追跡部２０４は対象物の移動軌跡を得ることができる。

例えば、追跡部２０４は、複数の異なる時刻における画像中の対象物の位置座標リストを用いて追跡を行うことができる。例えば、密度推定部２０２及び座標推定部２０３は、同じ場所を同じ画角で異なる時刻に撮像することにより得られた複数の画像のそれぞれに対して上記の処理を行うことにより、それぞれの画像に対応する対象物の位置座標リストを生成することができる。追跡部２０４は、異なる時刻間で、位置座標リストに示される対象物の位置座標をマッチングすることにより、対象物の移動軌跡を得ることができる。この場合、計測部２０５は、例えば移動軌跡が計測線と交差しているかどうかを判定することにより、対象物の流量を計測することができる。具体的な処理例については図３を参照しながら後述する。

本実施形態に係る画像処理装置１００の処理例を、図３を参照して説明する。以下では、人物の流量計測を行う例について説明する。具体的には、あらかじめ設定された計測領域を通過する人数が計測される。

ステップＳ３０１において取得部２０１は動画像を取得する。また、取得部２０１は、流量計測に用いられる複数の画像を動画像から取得する。例えば、取得部２０１は、計測開始時刻から計測終了時刻までの間の複数回の撮像により得られた複数の画像を取得することができる。なお、取得部２０１は、撮像装置から各フレーム画像を順次取得してもよい。以下では、ステップＳ３０１で取得される複数の画像のそれぞれを入力画像と呼ぶ。ステップＳ３０２及びＳ３０３の処理は、入力画像のそれぞれについて行われる。

取得部２０１は、入力画像から、１つ又は複数の部分画像を抽出してもよい。取得部２０１は、複数の画像のそれぞれから、画像の一部である１以上の部分画像を抽出することができる。このように入力画像よりも小さいサイズを有する部分画像を用いることで、ステップＳ３０２以降の処理量を減らすことができる。このような構成により、リアルタイムでの流量計測が容易となる。入力画像から抽出される部分画像の領域は、あらかじめ設定されていてもよい。また、部分画像の領域はユーザにより設定されてもよい。例えば、ユーザが入力装置１４に接続したヒューマンインターフェースデバイス等をユーザが操作することにより、出力装置１５に表示された入力画像上の部分領域を設定することができる。部分画像の領域の設定方法及び具体的な形状は特に限定されない。例えば、取得部２０１は、ユーザが指定した領域に基づいて、抽出される部分領域を自動的に決定してもよい。取得部２０１は、既に説明したように計測領域のユーザ指定を取得することができる。この場合、取得部２０１は、指定された計測領域に基づいて部分画像の領域を自動的に設定してもよい。例えば、取得部２０１は、計測領域を含むように入力画像から部分画像を抽出することができる。

また、取得部２０１は、図４（Ａ）のように、入力画像４００の全体を複数の領域へと分割してもよい。この場合、複数の領域から選択された１以上の領域のそれぞれから部分画像を抽出してもよい。例えば、図４（Ａ）に示すように入力画像４００に計測領域４０１を設定した場合、計測領域４０１を包含する、太枠で囲まれた矩形領域から、流量計測に使用する部分画像を抽出することができる。また、図４（Ｂ）のように、入力画像４０２の一部に、計測領域４０３を包含する１つ又は複数の矩形領域を設定することができる。そして、こうして設定された矩形領域から、流量計測に使用する部分画像を抽出することができる。

図４（Ａ）（Ｂ）において部分画像の形状は矩形であるが、部分画像の形状は、例えば、任意の多角形、円形、若しくは楕円形、又は任意の閉曲線からなる図形であってもよい。また、計測領域の形状が線分ではなく、例えば、任意の折れ線、曲線、多角形、円形、若しくは楕円形、又は任意の閉曲線からなる図形である場合にも、同様の手法で部分画像を抽出することができる。

ところで、カメラ等の撮像装置により得られた入力画像内では、位置により計測対象となる人物の映る大きさが異なることがある。したがって、画像内の位置に応じて部分画像の大きさを変えることができる。例えば、部分画像の大きさと人物の大きさとの比がほぼ一定となるように、部分画像の大きさを決定し、この大きさに応じて部分画像を抽出することができる。ここで、人物の大きさとは、例えば、人物の頭部と肩を包含する部分の大きさ、人物の頭部の大きさ、人物の全身の大きさ等でありうる。図４（Ａ）（Ｂ）はこのように部分画像の大きさを変化させる例を示す。すなわち、図４（Ａ）（Ｂ）においては、すなわち遠くの人物が映る領域、すなわち入力画像の上方において、部分画像の大きさが小さくなっている。

このように部分画像を設定した場合、ステップＳ３０２及びＳ３０３の処理は、入力画像中の部分画像のそれぞれについて行うことができる。すなわち、密度推定部２０２は、それぞれの部分画像中の対象物の密度分布を推定し、座標推定部２０３は、それぞれの部分画像についての密度分布から対象物の位置を推定することができる。一方で、ステップＳ３０２及びＳ３０３における推定結果の精度は、部分画像の境界領域（周辺領域）において低くなる傾向がある。このため、一実施形態においては、部分画像中に中央領域を規定し、この中央領域から検出された人物に関して、ステップＳ３０５における流量計測を行うことができる。このような構成によれば、精度の高い人物検出結果を用いて流量計測が行われるため、計測精度が向上する。

部分画像に中央領域を規定する方法としては、例えば図５（Ａ）に示すように、部分画像５００の内側に、中央領域５０１、及び部分画像５００の境界線と中央領域５０１の境界線とに囲まれたマージン領域５０２を規定する方法が挙げられる。図５（Ａ）の例において、中央領域５０１は矩形であるが、中央領域５０１の形状は特に限定されない。例えば、中央領域５０１の形状は、多角形、円形、楕円形、又は任意の閉曲線など、部分画像５００の内部に含まれる任意の形状でありうる。

マージン領域の大きさは、流量計測の対象となる人物の大きさに合わせて設定することができる。例えば、マージン領域を、人物の検出に必要な部分を含むことができる大きさに設定することができる。図５（Ｂ）はその一例を示す。図５（Ｂ）では、部分画像５００のマージン領域５０２が、流量計測の対象となる人物５０３又は人物５０４の検出に必要な部分を含むことができる大きさに設定されている。より具体的には、人物の頭部と肩を含むことができるように、マージン領域の大きさが設定されている。他の例としては、人物の頭部のみ、あるいは人物の全身がマージン領域に含まれるように、マージン領域を設定してもよい。

入力画像から複数の部分画像を抽出する場合、隣接する部分画像が互いに重なるように部分画像の領域を設定することができる。例えば、取得部２０１は、画像を複数の領域に分割することができる。そして、取得部２０１は、複数の領域から選択された１以上の領域のそれぞれについて、領域（中央領域）及びこの領域の周辺にあるマージン領域から、部分画像を抽出することができる。図５（Ｃ）はそのような分割の一例を示す。図５（Ｃ）においては、隣り合う２つの部分画像５０５及び部分画像５０６が互いに部分的に重なり合っている。より具体的には、部分画像５０５の中央領域５０７と、部分画像５０６の中央領域５０８との間に隙間ができないように、部分画像５０５及び部分画像５０６が抽出されている。検出対象である人物５１０が部分画像５０５のマージン領域５１２にある場合であっても、部分画像５０５に隣接する部分画像５０６の中央領域５０８から人物５１０を検出できる。

図５（Ｃ）に示されるように、各部分画像の中央領域同士を隙間なく隣接させることにより、いずれかの部分画像の中央領域で計測対象となる人物を検出することができるため、計測精度が向上する。このような部分画像の抽出方法としては、入力画像を複数の領域に分割し、それぞれの領域（中央領域に相当）及び周りのマージン領域から、１つの部分画像を抽出する方法が挙げられる。さらに、各部分画像のマージン領域を確保しつつ、必要最小限の面積で計測領域をカバーできる分割方法を、最適化計算等で決定してもよい。図５（Ｄ）においては、入力画像５２０に設定された計測領域５２１に沿って、それぞれがマージン領域を有する複数の部分画像５２２が抽出されている。

以下の説明において、入力画像は、入力画像そのもの、又は部分画像を指すものとする。すなわち、ステップＳ３０２及びＳ３０３の処理は、入力画像に対して、又は入力画像中の部分画像のそれぞれに対して、行うことができる。

ステップＳ３０２において、密度推定部２０２は、上述のように、取得部２０１が取得した入力画像を元に計測対象となる人物の密度分布を推定する。図６（Ａ）の例では、密度推定部２０２は、入力画像６００における人物６０１の頭部位置の密度分布を推定する。密度推定部２０２は、図６（Ｂ）に示すように、人物６０１の頭部位置の密度分布６０３を示す密度マップ６０２を生成している。

なお、密度推定部２０２が用いる入力画像は１つに限定されず、密度推定部２０２は複数の入力画像を用いて密度分布を推定してもよい。例えば、密度推定部２０２は、複数の入力画像をニューラルネットワークに入力することにより、密度分布を推定してもよい。密度推定部２０２が用いる複数の入力画像は、例えば、動画像に含まれる、複数の異なるフレームの画像であってもよい。また、密度推定部２０２が出力する密度分布も１つには限定されない。例えば密度推定部２０２は、複数の入力画像にそれぞれ対応している、複数の密度分布を出力してもよい。密度推定部２０２が複数の密度分布を出力する場合、後続する座標推定部２０３には全ての密度分布が入力されてもよいし、選択された一部の密度分布が入力されてもよい。

ステップＳ３０３において座標推定部２０３は、上述のように、密度推定部２０２が出力した密度分布を元に人物の位置座標を推定する。例えば座標推定部２０３は、図７（Ａ）に示す密度マップ７００をニューラルネットワークに入力することにより、図７（Ｂ）に示す位置マップ７０１を出力することができる。位置マップ７０１は、人物の位置座標が、位置マップ７０１における要素の位置と一致している場合を示す。この場合、１人の人物について１つの要素の値（確率値）が大きくなるため、このような要素の位置を人物の位置座標として判定することができる。

一方で、図７（Ｃ）に示す位置マップ７０２のように、人物の位置座標が、位置マップ７０２における要素の位置（すなわち格子点の位置）からずれる場合、１人の人物について複数の要素の値（確率値）が大きくなる。このように、入力画像の互いに隣接する複数の位置が、対象物の位置を表すと推定されることがある。この場合、座標推定部２０３は、対象物の位置を表すと推定された、入力画像の互いに隣接する複数の位置に基づいて、対象物の位置を求めることができる。例えば、座標推定部２０３は、複数の要素に分かれている確率値を１つにまとめることにより、人物の位置座標を決定することができる。

例えば図８（Ａ）〜（Ｃ）に示すように、座標推定部２０３は、ニューラルネットワークから出力された位置マップ８００に対して３×３のｍａｘｐｏｏｌｉｎｇを適用することによってマップ８０１を得ることができる。そして、座標推定部２０３は、位置マップ８００と、マップ８０１とを、要素ごとに比較することができる。この場合、座標推定部２０３は、マップ８０２に示されるように、位置マップ８００とマップ８０１との間で値が一致している要素の座標を、人物の位置座標として判定することができる。ｍａｘｐｏｏｌｉｎｇのカーネルサイズは３×３に限定されず、５×５などの別のサイズであってもよい。また、ｍａｘｐｏｏｌｉｎｇの処理は、単独で行われてもよいし、座標推定部２０３が用いるニューラルネットワークの出力層の次にｍａｘｐｏｏｌｉｎｇ層を追加することにより行われてもよい。

複数の確率値をまとめる方法はこの方法には限定されず、座標推定部２０３は、例えばｗａｔｅｒｓｈｅｄ等の、他の極大値検出法を用いてもよい。また、座標推定部２０３は、確率値が検出された複数の要素をクラスタリングし、各クラスタの中心座標を人物の位置座標とする方法を用いてもよい。クラスタリングの方法としては、例えば、階層クラスタリング又はＫ平均法などが挙げられる。クラスタの中心座標は、クラスタ内の要素座標の単純平均でもよいし、クラスタ内の要素のうち最大の確率値を持つ要素座標でもよいし、又は、各要素の要素座標の存在確率等による重みづけ平均値でもよい。

なお、座標推定部２０３が用いるニューラルネットワークが出力する位置マップにおいては、人物の位置座標に対応しない要素が、ノイズである微小な確率値を持っているかもしれない。このようなノイズがノイズが乗っている状態で、図８の例に示すように隣接する要素の確率値を１点にまとめる処理を行うと、微小なノイズを持つ要素の座標が人物の位置座標と判定されてしまうかもしれない。このため、座標推定部２０３は、ニューラルネットワークが出力した位置マップにおいて、閾値以下の、ノイズとみなせるような微小な確率値をゼロに修正してから、確率値を１点にまとめる処理、及び人物の位置座標の判定を行ってもよい。

ステップＳ３０４において追跡部２０４は、座標推定部２０３が出力した位置座標を元に人物の位置座標を追跡し、人物の移動軌跡を得る。上記のように、ステップＳ３０２及びＳ３０３の処理を、異なる時刻に得られた入力画像のそれぞれについて行うことにより、複数の異なる時刻における入力画像に含まれる人物の位置座標リストを得ることができる。図９は、時刻ｔ_１における位置座標リスト９００と、時刻ｔ_１より後の時刻ｔ_２における位置座標リスト９０１を示す。それぞれの位置座標リスト９００，９０１には、入力画像から検出された人物の位置が示されている。追跡部２０４は、位置座標リスト９００と位置座標リスト９０１との間で、人物の位置のマッチング９０２（対応付け）を行うことにより、時刻ｔ_１から時刻ｔ_２までの人物の移動軌跡９０３を得ることができる。

マッチング方法は特に限定されない。追跡部２０４は、例えば、マッチング結果に基づいて算出されるコストの総和が小さくなるように、マッチングを行うことができる。このようなマッチングを行うためのアルゴリズムとしては、例えば、ハンガリアンマッチング、線形計画法、又はニューラルネットワーク等が挙げられる。参照することができるコストの例としては、人物間の距離等が挙げられる。また、入力画像間での人物の画像情報の類似度に基づくコストを用いることもできる。さらに、１つの種類のコストが用いられてもよく、複数の書類のコストが組み合わせて用いられてもよい。例えば、人物間の距離と、入力画像間での人物の画像情報の類似度と、の双方に基づいてコストが算出されてもよい。追跡部２０４は、このようなコストが最小となるようにマッチングを行うことができる。

以下では、図１０を参照して、人物間の距離をコストとして用いる例について説明する。図１０（Ａ）に示される入力画像１０００には、人物の位置座標Ａ，Ｂ，Ｃが示されている。また、入力画像１０００の前フレームの画像からは、人物の位置座標ｂ，ｃ，ｄが検出されている。なお、この例においては、位置座標ｂと位置座標Ｂは同じ人物の位置座標であり、位置座標ｃと位置座標Ｃも同じ別の人物の位置座標である。したがって、位置座標の組（ｂ，Ｂ）及び（ｃ，Ｃ）を含むマッチング結果が正解である。

一方で、追跡部２０４が、人物間の距離の総和が最小になるようにマッチングを行うと、位置座標の組（ｃ，Ｂ）及び（ｂ，Ｃ）が得られる可能性がある。そこで、追跡部２０４は、距離ｂＢに対応するコストと距離ｃＣに対応するコストとの和が、距離ｃＢに対応するコストと距離Ｃｂに対応するコストとの和より小さくなるように、コストを定義することができる。一実施形態において、距離ｄに対するコストは、距離２ｄに対応するコストの半分よりも小さい。例えば、長い距離Ｃｂをより強調するような距離の尺度を用いてコストを定義することができる。このような距離の尺度としては、平方ユークリッド距離等が挙げられる。

また、入力画像１０００の位置座標Ａに映っている人物は、前フレームの撮像時には撮像範囲外の位置座標ａに存在しており、撮像範囲内に移動してきた。さらに、前フレームの画像において位置座標ｄに映っていた人物は、入力画像１０００の撮像時には撮像範囲外の位置座標Ｄに移動していた。このような場合、位置座標Ａ，ｄとマッチングされるべき位置座標ａ，Ｄは、入力画像１０００及び前フレームの入力画像からは検出されない。このような例において、入力画像１０００の撮像範囲内から検出された全ての位置座標を、人物間の距離の総和が最小になるようにマッチングすると、正しくないマッチング結果が得られる可能性がある。例えば、図１０（Ａ）の例では、位置座標の組（Ａ，ｂ）、（Ｂ，ｃ）、及び（Ｃ，ｄ）が得られるかもしれない。

一実施形態において、追跡部２０４は、位置座標Ａ，ｄのような孤立した位置座標がマッチングされないように、マッチングを行うことができる。例えば、マッチングの最大距離ｒを設定することができる。この場合、追跡部２０４は、最大距離ｒよりも離れている位置座標同士がマッチングしないように、マッチングを行うことができる。

図１０（Ｂ）（Ｃ）は、孤立した位置座標がマッチングされないようにするための、ハンガリアンマッチングで用いるコスト行列及びマッチング結果の例を示す。図１０（Ｂ）において、Ｂ，Ｃ，ｂ，ｃは、それぞれ図１０（Ａ）に示す位置座標Ｂ，Ｃ，ｂ，ｃに対応する。位置座標Ａ，ｄは、自分以外の全ての位置座標との距離が最大距離ｒを越えている、孤立した位置座標である。このため、位置座標Ａ，ｄが他の位置座標とマッチングされないように、位置座標Ａ，ｄに関するコストは図１０（Ｂ）のコスト行列から除外されている。追跡部２０４は、このようなコスト行列を、例えば平方ユークリッド距離に基づいて生成することができる。図１０（Ｂ）の例では、コストの総和が最小となるように、太枠で示される位置座標の組（Ｂ，ｂ）及び（Ｃ，ｃ）が得られている。

図１０（Ｃ）に示す別の例において、Ａ，Ｂ，Ｃ，ｂ，ｃ，ｄは、それぞれ図１０（Ａ）に示す位置座標Ａ，Ｂ，Ｃ，ｂ，ｃ，ｄ（以下実座標と呼ぶ）に対応する。図１０（Ｃ）の例では、追跡部２０４は、最初に実座標同士のコスト行列を、例えば平方ユークリッド距離に基づいて生成する。続いて、追跡部２０４は、入力画像１０００から検出された実座標である位置座標Ａ，Ｂ，Ｃと同じ数である３つのダミー、すなわちｘ１、ｘ２、及びｘ３に対応する列を追加する。さらに、追跡部２０４は、前フレームの画像から検出された実座標である位置座標ｂ，ｃ，ｄと同じ数である数３つのダミー、すなわちＸ１、Ｘ２、及びＸ３に対応する行を追加する。そして、追跡部２０４は、ダミーと任意の実座標との間のコストを、最大距離ｒよりも大きい値ｒ_１を用いて設定し、距離がｒよりも大きい実座標同士の間のコストを、ｒ_１よりもさらに大きいｒ_２を用いて設定する。すなわち、ｒ＜ｒ_１＜ｒ_２である。追跡部２０４は、このようなコスト行列を、例えば平方ユークリッド距離に基づいて生成することができる。このようなコスト行列を用いてマッチングを行うと、孤立した実座標は他の実座標とはマッチングせず、ダミーとマッチングする。また、余ったダミーはダミー同士でマッチングする。図１０（Ｃ）では、コスト行列を用いたマッチングの結果が太枠で示されている。追跡部２０４は、これらのダミーとのマッチング結果を除外することにより、マッチング結果を得ることができる。

さらなる別の例において、追跡部２０４は、マッチングを行う前に、最大距離ｒの範囲内にある位置座標同士をグルーピングしてもよい。この場合、追跡部２０４は、グループごとに、グループに含まれる位置座標同士のマッチングを行うことができる。例えば、追跡部２０４は、各グループについて個別に図１０（Ｂ）又は図１０（Ｃ）に示すようなコスト行列を生成し、マッチングを行うことができる。図１０（Ａ）に示されるような孤立した位置座標Ａ，ｄは、このようなグルーピングにより取り除かれる。このような方法によれば、人物の数、すなわち検出された位置座標の数が多い場合に、処理速度を向上させることができる。グルーピングの方法は特に限定されないが、例えば、孤立した位置座標を含むコスト行列又は隣接グラフを用いて連結されていない独立したグラフを探索する方法が挙げられる。また、階層クラスタリング又はＫ平均法等のクラスタリング法を用いることもできる。

上記のように、追跡部２０４は、入力画像から検出された人物の位置座標と、前の時刻に撮像された画像から検出された人物の位置座標と、をマッチングさせることができる。一方で、追跡部２０４は、以前に得られたマッチング結果を参照して、このマッチングを行ってもよい。

一実施形態において、追跡部２０４は、時刻ｔ_１における位置座標と、時刻ｔ_２における位置座標と、のマッチング結果を参照して、時刻ｔ_２における位置座標と、時刻ｔ_２より後の時刻ｔ_３における位置座標と、をマッチングさせる。例えば図１１の例では、追跡部２０４は、時刻ｔ_１と時刻ｔ_２との間での位置座標のマッチング結果１１００と、時刻ｔ_３における位置座標リスト１１０１と、のマッチング１１０２を行っている。このような処理により、時刻ｔ_１から時刻ｔ_２を経て時刻ｔ_３に至る人物の移動軌跡１１０３が得られる。このような処理をさらに後の時刻における位置座標に対して繰り返すことで、長時間にわたる同一人物の移動軌跡を得ることができる。

この際に追跡部２０４は、時刻ｔ_２における位置座標、及び時刻ｔ_３における位置座標に加えて、時刻ｔ_２における人物の移動方向又は移動速度を用いて、マッチングを行うことができる。すなわち、追跡部２０４は、時刻ｔ_２における人物の移動方向又は移動速度と矛盾しない時刻ｔ_３における位置座標を、時刻ｔ_２における位置座標と優先的にマッチングさせることができる。

例えば追跡部２０４は、少なくとも時刻ｔ_２における入力画像中の対象物の位置に基づいて、時刻ｔ_３における入力画像中の対象物の位置を予測することができる。図１２（Ａ）は、時刻ｔ_２と時刻ｔ_３との間での人物の位置座標の動きの例を示す。この例では、時刻ｔ_２において位置座標ｂ，ｃが、時刻ｔ_３において位置座標Ｂ，Ｃが、それぞれ検出されている。この例では、人物同士が接近しているため、誤った（Ｂ，ｃ）というマッチング結果が得られる可能性がある。追跡部２０４は、図１２（Ｂ）に示すように、時刻ｔ_３における人物の予測位置座標ｂ^＊，ｃ^＊を用いてマッチングを行うことにより、マッチング精度を向上させることができる。

追跡部２０４は、時刻ｔ_３における人物の予測位置座標ｂ^＊，ｃ^＊を、時刻ｔ_３より前の時刻における移動軌跡から求めることができる。例えば、追跡部２０４は、時刻ｔ_２までのマッチング結果に基づいて得られた移動軌跡を用いて、人物の予測位置座標ｂ^＊，ｃ^＊を求めることができる。図１２（Ｂ）の例では、時刻ｔ_１における位置座標ｂ’と時刻ｔ_２における位置座標ｂとがマッチングされており、時刻ｔ_１における位置座標ｃ’と時刻ｔ_２における位置座標ｃとがマッチングされている。この例において追跡部２０４は、時刻ｔ_１から時刻ｔ_２に至る移動軌跡１２０１から、時刻ｔ_３の予測位置座標１２０２（ｂ^＊，ｃ^＊）を求めることができる。予測位置座標の計算方法は特に限定されない。例えば追跡部２０４は、時刻ｔ_１及び時刻ｔ_２の位置座標を用いて、線形外挿により時刻ｔ_３の予測位置座標を求めることができる。

そして、追跡部２０４は、上述の方法に従って、予測位置座標１２０２（ｂ^＊，ｃ^＊）と、検出された時刻ｔ_３における位置座標１２０３（Ｂ，Ｃ）とのマッチング１２０４を行う。このように、追跡部２０４は、検出された時刻ｔ_２における位置座標ｂ，ｃの代わりに、時刻ｔ_３における予測位置座標ｂ^＊，ｃ^＊を、検出された時刻ｔ_３における位置座標Ｂ，Ｃとマッチングさせる。この方法によれば、位置座標ｂ，ｃよりも、予測位置座標ｂ^＊，ｃ^＊の方が、位置座標Ｂ，Ｃと近接していることが期待されるので、マッチングの精度を向上させることができる。予測位置座標ｂ^＊，ｃ^＊と位置座標Ｂ，Ｃとのマッチング結果に基づいて、追跡部２０４は、位置座標Ｂ，Ｃと位置座標ｂ，ｃとをマッチングさせることができる。こうして、時刻ｔ_１から時刻ｔ_２を経て時刻ｔ_３に至る移動軌跡１２０５が得られる。

なお、時刻ｔ_３における予測位置座標の計算には、２つの時刻（時刻ｔ_１，ｔ_２）における位置座標を用いる代わりに、時刻ｔ_３より前の複数の時刻における位置座標を用いてもよい。

何らかの理由で、取得部２０１が取得する入力画像が欠落する、密度推定部２０２による人物の密度分布が欠落する、又は座標推定部２０３が人物の位置座標を検出しないことがあるかもしれない。例えば図１３（Ａ）の例に示すように、時刻ｔ_３における人物の位置１３０４が検出されず、時刻ｔ_４で再検出されることがある。このように人物の移動軌跡が途切れている場合、人物は計測領域を表す線分１３０１及び１３０２を通過していないと判定されるかもしれない。このような事象を避けるため、図１３（Ｂ）に示すように、追跡部２０４は、時刻ｔ_３の予測位置座標１３０５を用いることで、途切れた移動軌跡を埋め合わせることができる。このような方法により、移動軌跡が途切れていても、人物が計測領域を通過したと判定することが可能となる。時刻ｔ_３の予測位置座標１３０５は、上述のように求めることができる。

例えば、追跡部２０４は、時刻ｔ_３において人物が予測位置座標１３０５に存在すると予測し、予測位置座標１３０５を通る人物の移動軌跡を生成することができる。なお、追跡部２０４は、このように生成された移動軌跡が時刻ｔ_３以降に検出された位置座標とマッチングしない場合、人物の移動軌跡から予測位置座標１３０５を除外してもよい。

人物の移動軌跡が途切れた場合における、人物の位置座標の推定は上記の方法に限定されない。例えば、追跡部２０４は、テンプレートマッチング等の物体追跡方法を用いて、人物の位置座標を予測してもよい。さらに、人物の位置座標の不検出が２フレーム以上にわたる場合でも、予測位置座標の計算を繰り返すことで人物の移動軌跡を追跡することができる。

さらに、追跡部２０４は、時刻ｔ_２における人物の位置座標と、時刻ｔ_４における人物の位置座標とをマッチングさせてもよい。この際に、追跡部２０４は、時刻ｔ_２（及び時刻ｔ_１等のより前の時刻）における人物の位置座標から、時刻ｔ_４における人物の予測位置座標を求めてもよい。上記のように、この予測位置座標を時刻ｔ_４において検出された人物の位置座標とマッチングさせることにより、時刻ｔ_２までの人物の移動軌跡を、時刻ｔ_４において検出された人物の位置座標とマッチングさせることができる。この場合、時刻ｔ_２において検出された位置座標から、時刻ｔ_４において検出された位置座標へと向かう人物の移動軌跡を求めることができる。この場合において、追跡部２０４は、さらに時刻ｔ_３における人物の予測位置座標をさらに求めてもよい。そして、追跡部２０４は、時刻ｔ_２において検出された位置座標から、時刻ｔ_３における予測位置座標を通って、時刻ｔ_４において検出された位置座標へと向かう人物の移動軌跡を求めてもよい。

なお、図９に示す例において、マッチングに用いられる位置座標リスト９００，９０１においては、それぞれの位置に対応する人物は特定されていない。もっとも、それぞれの位置に対応する人物が、画像識別処理等により識別されてもよい。この場合、追跡部２０４は、人物を識別する情報を参照して、異なる時刻における人物の位置座標をマッチングさせてもよい。

Ｓ３０５において、計測部２０５は、追跡部２０４が出力した人物の移動軌跡を元に、人物の流量を計測する。例えば、計測部２０５は、追跡部２０４が出力した人物の移動軌跡が、設定した計測領域と交差したかどうかを判定することで、人物の流量を計測することができる。なお、計測領域の設定方法は上述のとおりである。図４（Ａ）（Ｂ）を参照して説明したように、ステップＳ３０１において部分画像が抽出される領域を設定する際に、計測領域４０１，４０３が設定されていてもよい。

計測領域が線分である場合の人物の流量の計測方法例を、図１４を参照して説明する。図１４（Ａ）には、時刻ｔ_１における入力画像１４００と、計測領域である線分１４０１が示されている。また、入力画像１４００からは、人物１４０２の位置座標１４０３、及び人物１４０４の位置座標１４０５が検出されている。同様に、図１４（Ｂ）には、時刻ｔ_２における入力画像１４０６が示されている。入力画像１４０６からは、人物１４０２の位置座標１４０７が検出されており、位置座標１４０３から位置座標１４０７に至る移動軌跡１４０９が得られている。また、入力画像１４０６からは、人物１４０４の位置座標１４０８が検出されており、位置座標１４０５から位置座標１４０８に至る移動軌跡１４１０が得られている。

図１４（Ｂ）の例において計測部２０５は、移動軌跡１４０９は線分１４０１と交差していると判定することができ、したがって、人物１４０２は線分１４０１を通過したと判定することができる。同様に計測部２０５は、移動軌跡１４１０も線分１４０１と交差していると判定することができ、したがって、人物１４０４も線分１４０１を通過したと判定することができる。ここで、計測部２０５はさらに、人物１４０４は人物１４０２とは逆方向に線分１４０１を通過したと判定してもよい。移動軌跡と線分との交差判定は、例えば、線分と線分との交差判定等の幾何学的な方法で行うことができる。

一実施形態において計測部２０５は、人物が計測領域で分けられる一方の領域から他方の領域へと移動した場合に、人物は計測領域を通過したと判定する。一方で計測部２０５は、計測領域上に人物が存在する間は、人物は計測領域を通過したと判定しない。すなわち、計測部２０５は、一方の領域から計測領域を超えて他方の領域へと移動した人物の数を計測するが、こうして計測された人物の数は、一方の領域から計測領域へと移動したが他方の領域へと移動していない人物の数を含まない。

例えば、図１５には、計測領域である線分１５００と、人物の移動軌跡１５０１とが示されている。この例において、計測部２０５は、ａ，ｄ，ｆの３カ所において、人物が線分１５００を下から上に通過したと判定することができ、ｃ，ｅの２カ所において、人物が線分１５００を上から下に通過したと判定することができる。一方で、計測部２０５は、人物が線分１５００上にちょうど乗っているｂ，ｇにおいては、人物は線分１５００を通過していないと判定することができる。上述のように、線分１５００は太さを有する線分（すなわち矩形領域）であってもよく、この場合、人物が線分１５００上に存在する間は計測領域を通過したと判定されない。

このような判定を各人物の移動軌跡について行うことにより、計測部２０５は人物の流量を計測することができる。図１５に示す例の場合、計測部２０５は、線分１５００の下から上への累積通過数と、上から下への累積通過数とを、それぞれの方向への人物の流量として計測することができる。ここで、図１５を参照して説明したように、計測領域上に人物が存在する間には人物は計測領域を通過したと判定しないことにより、計測領域付近における人物の細かな動きに由来する、累積通過数の重複カウントを避けることができる。

計測部２０５は、各人物の計測領域の移動方向ごとの累積通過数の差分を、人物の流量として算出してもよい。具体的には、計測部２０５は、一方の領域から他方の領域へと通過した人物の数と、他方の領域から一方の領域へと通過した人物の数と、の差分を算出することができる。例えば、図１５の場合、移動軌跡１５０１で表される人物の、線分１５００の下から上への累積通過数は３回であり、上から下への累積通過数は２回である。計測部２０５は、移動方向ごとの累積通過数の差分を取ることで、線分１５００の下から上に１人の人物が通過したと判定することができる。

上述の通り、計測領域の形状は特に限定されない。例えば、計測領域が所定の領域を囲む閉曲線である場合、計測部２０５は、この領域へと入る人物の流量と、この領域から出る人物の流量とを計測することができる。

本実施形態によれば、画像中で対象物が重なっている場合であっても、まず密度分布が推定され、この密度分布から対象物の位置が推定される。このため、特許文献１のように画像からそれぞれの対象物を直接検出する場合と比較して、混雑したシーンにおける対象物の位置推定精度を向上させることができる。また、位置推定結果を示す位置マップはスパース性が高い（例えば、ほとんどの位置において値が０になる）ため、ニューラルネットワークを用いて画像から直接対象物の位置推定を行うことは容易ではない。一方、本実施形態によれば、密度マップの各位置についての２クラス分類問題を解くことで位置推定結果を得ることができるので、位置推定が容易となる。一実施形態においては、このような効果を得るために、取得部２０１、密度推定部２０２、及び座標推定部２０３がステップＳ３０１〜Ｓ３０３の処理を行う一方で、追跡部２０４及び計測部２０５が行うステップＳ３０４〜Ｓ３０５の処理を省略できる。

また、本実施形態によれば、対象物の位置座標がフレーム間で追跡されるため、精度よく対象物の流れを計測することができる。一実施形態においては、このような効果を得るために、追跡部２０４及び計測部２０５がステップＳ３０４〜Ｓ３０５の処理を行う一方で、取得部２０１、密度推定部２０２、及び座標推定部２０３が行うステップＳ３０１〜Ｓ３０３の処理を省略できる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１００：画像処理装置、２０１：取得部、２０２：密度推定部、２０３：座標推定部、２０４：追跡部、２０５：計測部

Claims

複数の画像を含む動画像を取得する取得手段と、
前記画像中の対象物の密度分布を推定する密度推定手段と、
前記密度分布から、前記画像中の前記対象物の位置を推定する位置推定手段と、
前記複数の画像中の前記対象物の位置から、前記対象物の流れを計測する計測手段と、
を備えることを特徴とする画像処理装置。
前記密度分布は、前記画像中で前記対象物が存在すると推定された領域を示すことを特徴とする、請求項１に記載の画像処理装置。
前記位置推定手段は、前記画像の各位置について前記対象物の代表点を表すかどうかを識別する２クラス分類を行うことを特徴とする、請求項１又は２に記載の画像処理装置。
前記位置推定手段は、前記画像において互いに隣接する、前記対象物の位置を表すと推定された複数の位置に基づいて、前記対象物の位置を求めることを特徴とする、請求項１から３のいずれか１項に記載の画像処理装置。
前記取得手段は、前記複数の画像のそれぞれから、前記画像の一部である１以上の部分画像を抽出し、
前記密度推定手段は、それぞれの前記部分画像中の対象物の密度分布を推定することを特徴とする、請求項１から４のいずれかに記載の画像処理装置。
前記取得手段は、前記対象物の流れが計測される計測領域を前記部分画像が含むように、前記画像から前記部分画像を抽出することを特徴とする、請求項５に記載の画像処理装置。
前記取得手段は、前記計測領域のユーザ指定を取得し、前記ユーザ指定に基づいて前記部分画像を抽出する領域を設定することを特徴とする、請求項６に記載の画像処理装置。
前記取得手段は、前記画像を複数の領域に分割し、前記複数の領域から選択された１以上の領域のそれぞれについて、前記領域及び前記領域のマージン領域から前記部分画像を抽出することを特徴とする、請求項５から７のいずれか１項に記載の画像処理装置。
前記密度推定手段は、前記画像の各位置についての前記対象物の密度を表す、前記画像の密度マップを生成し、
前記位置推定手段は、前記密度マップの各位置について前記対象物の代表点を表すかどうかを識別する２クラス分類を行うことを特徴とする、請求項１から８のいずれか１項に記載の画像処理装置。
前記計測手段は、前記対象物の流れが計測される計測領域によって区切られる一方の領域から他方の領域へと移動した前記対象物の数を計測することを特徴とする、請求項１から９のいずれか１項に記載の画像処理装置。
前記計測手段は、前記一方の領域から前記計測領域を超えて前記他方の領域へと移動した前記対象物の数を計測し、前記計測された対象物の数は、前記一方の領域から前記計測領域へと移動したが前記他方の領域へと移動していない前記対象物の数を含まないことを特徴とする、請求項１０に記載の画像処理装置。
前記計測手段は、前記一方の領域から前記他方の領域へと通過した前記対象物の数と、前記他方の領域から前記一方の領域へと通過した前記対象物の数と、の差分を算出することを特徴とする、請求項１０又は１１に記載の画像処理装置。
前記複数の画像のうちの第１の時刻における第１の画像中の前記対象物の位置と、前記複数の画像のうちの第２の時刻における第２の画像中の前記対象物の位置と、を対応付ける対応付け手段をさらに備えることを特徴とする、請求項１から１２のいずれか１項に記載の画像処理装置。
前記対応付け手段は、
少なくとも前記第２の画像中の前記対象物の位置に基づいて、前記第２の時刻より後の第３の時刻における第３の画像中の前記対象物の位置を予測し、
前記第３の時刻における前記第３の画像中の予測された前記対象物の位置と、前記第３の画像中の前記対象物の位置と、に基づいて、前記第２の画像中の前記対象物の位置と、前記第３の画像中の前記対象物の位置と、を対応付ける
ことを特徴とする、請求項１３に記載の画像処理装置。
前記密度推定手段は、ニューラルネットワークを用いて前記密度分布を推定することを特徴とする、請求項１から１４のいずれか１項に記載の画像処理装置。
前記位置推定手段は、ニューラルネットワークを用いて前記対象物の位置を推定することを特徴とする、請求項１から１５のいずれか１項に記載の画像処理装置。
画像処理装置が行う画像処理方法であって、
複数の画像を含む動画像を取得する工程と、
前記画像中の対象物の密度分布を推定する工程と、
前記密度分布から、前記画像中の前記対象物の位置を推定する工程と、
前記複数の画像中の前記対象物の位置から、前記対象物の流れを計測する工程と、
を含むことを特徴とする画像処理方法。
コンピュータを、請求項１から１６のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラム。