JP2021196899A

JP2021196899A - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP2021196899A
Application number: JP2020103229A
Authority: JP
Inventors: 康夫馬塲; Yasuo Baba; 元牟田; Hajime Muta; 光太郎矢野; Kotaro Yano
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2021-12-27

Abstract

【課題】特に混雑状況下において、動画像における対象物の追跡精度を向上させる。【解決手段】動画像を取得する。動画像に基づいて、特定期間における対象物の動きを推定する。推定によって得られた、第１の期間における対象物の動きを示す情報と、第２の期間における対象物の動きを示す情報と、のマッチングにより、第１の期間及び第２の期間にわたる対象物の移動軌跡を生成する。【選択図】図２

Description

本発明は画像処理装置、画像処理方法、及びプログラムに関し、特にビデオカメラ又は防犯カメラ等で撮像された動画像の解析技術に関する。

近年、カメラ等で撮像された動画像から、撮影領域における対象物（例えば人）の流れ（例えば人数又は方向）を解析する装置が提案されている。このような流れを解析するためには、まず、計測対象である人物の検出及び追跡が行われる。特許文献１は、検出された頭部の画像特徴量の一致の程度に基づいて、各フレームにおける頭部が同一の人物であるかどうかを判別することにより、人物の追跡を行う方法を提案している。また、非特許文献１は、各フレームで検出されたオブジェクト点同士を貪欲な方法で対応付けることで、オブジェクトの点の追跡を行う方法が開示されている。

特開２０１０−２７３１１２号公報

Khurram Shafique and Mubarak Shah. "A Non-Iterative Greedy Algorithm for Multi-frame Point Correspondence", IEEE transactions on pattern analysis and machine intelligence (2005).

対象物の流れを高精度で計測するためには、対象物の追跡を高精度に行うことが求められる。特許文献１に記載された方法では、頭部の画像特徴量の一致の程度に基づいて人物の追跡が行われるが、頭部が隠れると画像特徴量の品質が低下するため、特に混雑シーンにおいて追跡の程度が低下しやすい。また、非特許文献１に記載された異なるフレーム上の点同士を対応付ける方法においては、仮に時刻の差をΔｔ、点の平均移動速度をｖとすると、点の位置は平均してｖΔｔだけずれることになる。点の密度が小さい場合は、点の周囲ｖΔｔに他の点がある確率は小さいため、対応付けは高い確率で成功する。しかし、点の密度が大きくなるに従い、点の周囲ｖΔｔに他の点が出現する確率が大きくなるため、点の対応付けに失敗しやすくなり、点の追跡精度が低下する。

本発明は、特に混雑状況下において、動画像における対象物の追跡精度を向上させることを目的とする。

本発明の目的を達成するために、本発明の一実施形態に係る画像処理装置は以下の構成を備える。すなわち、
動画像を取得する取得手段と、
前記動画像に基づいて、特定期間における対象物の動きを推定する推定手段と、
前記推定手段によって得られた、第１の期間における対象物の動きを示す情報と、第２の期間における対象物の動きを示す情報と、のマッチングにより、前記第１の期間及び前記第２の期間にわたる前記対象物の移動軌跡を生成する追跡手段と、
を備える。

特に混雑状況下において、動画像における対象物の追跡精度を向上させることができる。

画像処理装置のハードウェア構成の一例を示す図。画像処理装置の機能構成の一例を示す図。画像処理装置の処理の流れの一例を示す図。入力画像から部分画像を抽出する方法の一例を示す図。部分画像の中央領域及びマージン領域を説明する図。入力画像における人物の密度分布推定の一例を示す図。密度分布からの人物の位置座標推定の一例を示す図。位置マップから人物の位置座標を求める処理の一例を示す図。速度分布を推定する処理の一例を示す図。移動ベクトルを空いてする処理の一例を示す図。マッチングにより人物の移動軌跡を求める処理の一例を示す図。マッチングで用いられるコスト行列及びマッチング結果の一例を示す図。移動軌跡が途切れた場合に移動軌跡を補完する方法を示す図。人物の移動軌跡から流量を計測する方法の一例を示す図。人物の移動軌跡から流量を計測する方法の一例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［実施形態１］
図１は、本発明の一実施形態に係る画像処理装置１００のハードウェア構成例を示す。画像処理装置１００は、制御装置１１、記憶装置１２、演算装置１３、入力装置１４、出力装置１５、及びＩ／Ｆ装置１６を有する。

制御装置１１は、画像処理装置１００の全体を制御する装置である。記憶装置１２は、制御装置１１の動作に必要なプログラム及びデータを保持する。演算装置１３は、制御装置１１からの制御に基づき、必要な演算処理を実行する。例えば、演算装置１３は、後述するニューラルネットワーク演算を行ってもよい。入力装置１４は、ヒューマンインターフェースデバイス等であり、ユーザの操作による入力を取得する。出力装置１５は、ディスプレイ等であり、画像処理装置１００が生成した処理結果等をユーザに提示する。

Ｉ／Ｆ装置１６は、ユニバーサルシリアルバス、イーサネット（登録商標）、若しくは光ケーブル等の有線インターフェース、又はＷｉ−Ｆｉ若しくはＢｌｕｅｔｏｏｔｈ（登録商標）等の無線インターフェースである。Ｉ／Ｆ装置１６を介して、他の装置を画像処理装置１００に接続することができる。例えば、Ｉ／Ｆ装置１６にはカメラ等の撮像装置を接続することができ、Ｉ／Ｆ装置１６を介して画像処理装置１００は撮像画像を取得することができる。別の例として、画像処理装置１００は、Ｉ／Ｆ装置１６を介して処理結果を外部に送信することができる。さらなる例として、画像処理装置１００は、動作に必要なプログラム又はデータ等をＩ／Ｆ装置１６を介して取得することができる。

後述する画像処理装置１００の機能は、例えば、プロセッサ（例えば制御装置１１）が、メモリ（例えば記憶装置１２）上のプログラムに従って動作することにより実現することができる。上記の記憶装置１２又はその他の記憶媒体は、このようなプログラムを格納することができる。もっとも、後述する画像処理装置１００の少なくとも一部の機能は、専用のハードウェアによって実現されてもよい。また、本発明の一実施形態に係る画像処理装置は、例えばネットワークを介して接続された複数の装置によって構成されていてもよい。

図２は、本発明の一実施形態に係る画像処理装置１００の機能構成例を示す。画像処理装置１００は、機能構成として、取得部２０１、密度推定部２０２、座標推定部２０３、速度推定部２０４、移動推定部２０５、追跡部２０６、計測部２０７を有している。

取得部２０１は動画像を取得する。取得部２０１が取得した動画像に対して、対象物の流れを計測するための解析が行われる。対象物の流れとは、画像上での対象物の流れであってもよいし、画像解析により推定される現実空間における対象物の流れであってもよい。なお、解析の対象物は特に限定されず、人物、自転車若しくはバイク等の乗り物、車若しくはトラック等の車両、又は家畜等の動物等が挙げられる。

動画像とは、例えば、ストリーミング、動画ファイル、フレーム毎に保存された一連の画像ファイル、又はメディアに保存された動画等であり、これらは複数のフレーム画像を含んでいる。複数の画像のそれぞれは、例えば、同一の場所にある撮像装置により異なる時刻に撮像されていてもよい。取得部２０１は、ＣＭＯＳセンサー若しくはＣＣＤセンサー等の固体撮像素子、又はこれらの固体撮像素子を備えるカメラ等の撮像装置から動画像を取得することができる。また、取得部２０１は、ハードディスク若しくはＳＳＤ等の記憶装置、又は記録メディア等から、動画像データを取得してもよい。

密度推定部２０２、座標推定部２０３、速度推定部２０４、及び移動推定部２０５は、取得部２０１が取得した動画像に基づいて、特定期間における対象物の動きを推定する。以下では、本実施形態に係る対象物の動きの推定方法について説明する。本実施形態では、密度推定部２０２及び座標推定部２０３が対象物の位置座標を、速度推定部２０４が対象物の速度分布を、動画像に基づいてそれぞれ推定する。そして、移動推定部２０５は位置座標及び速度分布に基づいて特定期間における対象物の動きを推定する。しかしながら、対象物の動きの推定方法が以下の方法に限定されるわけではない。

密度推定部２０２及び座標推定部２０３は、動画像における対象物の位置座標を推定する。本実施形態において、密度推定部２０２及び座標推定部２０３は、取得部２０１が取得した動画像に含まれる１以上の画像に基づいて、画像上の対象物の位置座標を推定することができる。例えば、密度推定部２０２及び座標推定部２０３は、時刻ｔ_１における第１の画像に基づいて、第１の画像上の対象物の座標を推定することができ、時刻ｔ_２における第２の画像に基づいて、第２の画像上の対象物の座標を推定することができる。本実施形態では、対象物の密度分布に基づいて対象物の座標が推定されるが、対象物の座標の推定方法は以下の方法には限られない。

密度推定部２０２は、取得部２０１が取得した動画像に含まれる画像を用いて、流れの計測対象である対象物の、動画像に含まれる画像上の密度分布を推定する。密度分布とは、画像において、流量計測の対象物（例えば人物の頭部等）が存在すると推定される箇所を表現したものである。密度分布は、画像中で対象物が存在すると推定された領域を示すことができる。密度分布は、例えば、対象物が存在する可能性が高い位置を中心とする、対象物の大きさに応じた一様分布であってもよい。また、密度分布は、対象物が存在する可能性が高い位置に極大を持つような任意の分布であってもよい。後者の例としては、例えば、ガウス分布が挙げられる。密度分布は、対象物が存在する可能性を示していてもよい。密度推定部２０２は、画像中の各位置における対象物の密度を表す密度マップを、密度分布を表す情報として出力することができる。なお、この密度マップの解像度は、画像と同じであってもよいし、画像より低くてもよい。

画像中で対象物が重なる場合に、密度推定部２０２は、それぞれの対象物に対応する密度分布が重ね合わされた密度分布を求めてもよい。この密度分布は、１つの対象物に対応する密度分布における密度の総和が１となるように規格化されていてもよい。この場合、密度推定部２０２が生成する密度分布における密度の総和は、画像中の対象物の数に対応する。

密度推定部２０２が密度分布を推定する方法としては、様々な方法を利用できる。例えば、画像、又は画像から抽出された特徴量、又はこれらの双方を、ニューラルネットワークに入力する方法が挙げられる。このようなニューラルネットワークとしては、例えば、畳み込みニューラルネットワーク、逆畳み込みニューラルネットワーク、これらのその双方が連結されたオートエンコーダー、及びＵ−Ｎｅｔ等のショートカットを持つネットワーク、等が挙げられる。密度推定部２０２が用いるニューラルネットワークは、画像が入力されると対象物の密度分布を出力するように、予め学習されている。このような学習は、学習用の画像と、上記のような画像の密度分布を表す教師データと、を用いて行うことができる。例えば、ニューラルネットワークからの出力値の総和が対象物の数となるように、すなわち出力値が画像の各位置の対象物の密度を表すように、学習を行うことができる。

座標推定部２０３は、密度推定部２０２により得られた密度分布から、画像中の対象物の位置座標を推定する。例えば、座標推定部２０３は、推定された対象物の代表点の位置の座標を出力することができる。対象物の代表点は、例えば、対象物である人物の頭部中心であってもよい。

座標推定部２０３が位置を推定する方法は特に限定されず、例えば密度分布の重心を対象物の位置として推定してもよい。一方で、座標推定部２０３は、密度分布に基づいて画像の各位置が対象物の代表点を表すかどうかを識別する２クラス分類を行うことにより、対象物の位置座標を推定してもよい。

密度推定部２０２が出力する１つの対象物に対応する密度分布の境界はぼやけることがあり、また、この境界は様々な形状を有している。さらに、１つの対象物に対応する密度分布同士が重なり合うことにより、密度分布が複雑な形状を有する可能性がある。さらには、特定の状況で密度推定部２０２が想定外の出力をすることもあり得る。一実施形態においては、座標推定部２０３はニューラルネットワークを用いて対象物の位置を推定する。ニューラルネットワークを用いることにより、入力される密度分布にかかわらず、事前に定義された一定の演算量で位置の推定結果を得ることができる。このため、座標推定部２０３は、密度推定部２０２が出力する様々な密度分布に対応可能である。

座標推定部２０３が用いるニューラルネットワークは、例えば、密度分布を表す密度マップが入力されると、密度マップの各位置についての２クラス分類の推定結果を確率で表す、位置マップを出力することができる。座標推定部２０３は、このように、画像の各位置について対象物の代表点を表すかどうかを識別する２クラス分類を行うことができる。この２クラス分類においては、密度マップの各位置が対象物の位置座標を表すなら推定結果は１に、対象物の位置座標を表さないなら推定結果は０となる。位置マップ７０１は、密度マップの各位置について、対象物の位置座標を表す確率を表すことができる。このような位置マップはほとんどの要素が０であるスパースなものであるため、スパースな出力を扱える２クラス分類問題に帰着させることで、このような位置マップを生成するニューラルネットワークの学習が容易となる。

このようなニューラルネットワークとしては、例えば、畳み込みニューラルネットワーク、逆畳み込みニューラルネットワーク、これらのその双方が連結されたオートエンコーダー、及びＵ−Ｎｅｔ等のショートカットを持つネットワーク、等が挙げられる。また、座標推定部２０３が用いるニューラルネットワークは、０以上１以下の値域を持つ出力層を持つことができる。このような出力層としては、例えば、ステップ関数、シグモイド関数、又はソフトマックス関数等が挙げられる。このような出力層を持つニューラルネットワークは、２クラス分類問題に適した出力を与えることができる。

座標推定部２０３が用いるニューラルネットワークは、密度マップが入力されると対象物の位置を出力するように、予め学習されている。このような学習は、例えば、学習用の密度マップと、人物の位置に対応する要素が１であり、それ以外の要素が０である、密度マップに対応する位置マップを表す教師データと、を用いて行うことができる。

速度推定部２０４は、動画像の各位置について特定期間における対象物の移動量を表現する速度分布を推定する。本実施形態において、速度推定部２０４は、取得部２０１が取得した動画像に含まれる１以上の画像に基づいて、画像上の対象物の速度分布を推定する。この速度分布は、特定期間における対象物の移動方向及び移動量を表現する。以下の例において、速度推定部２０４は、推定された速度分布として、Ｘ方向速度分布とＹ方向速度分布とを生成する。Ｘ方向速度分布は、動画像の各位置について特定期間における対象物のＸ軸方向への移動量を表現し、Ｙ方向速度分布は、動画像の各位置について特定期間における対象物のＹ軸方向への移動量を表現する。しかしながら、速度分布の構成はこの例に限定されない。例えば、速度分布は、対象物の移動方向を表現する移動方向分布と、対象物の移動距離の絶対値を表現する移動距離分布と、により表現されてもよい。

図９（Ａ）〜（Ｄ）を参照して速度分布について説明する。図９（Ａ）には時刻ｔ_１における入力画像９００が、図９（Ｂ）には時刻ｔ_２における入力画像９０２が示されている。入力画像９００及び入力画像９０２は、動画像に含まれる、異なる時刻に撮像された画像である。図９（Ｃ）（Ｄ）に示すＸ方向速度分布９０４及びＹ方向速度分布９０６は、それぞれ、時刻ｔ_１から時刻ｔ_２の間における、Ｘ軸方向及びＹ軸方向の対象物の移動量を表し、入力画像９００及び入力画像９０２に基づいて得られる。なお、本明細書において、時刻ｔ_ｎは時刻ｔ_ｍ（ｍ＜ｎ）より後の時刻を表す。

図９（Ａ）〜（Ｄ）の例は、ｉ番目の頭部である頭部ｉが、時刻ｔ_１において位置９０１に、時刻ｔ_２において位置９０３に存在している場合を表す。位置９０１の座標は（ｘ_ｉ１，ｙ_ｉ１）であり、位置９０３の座標は（ｘ_ｉ２，ｙ_ｉ２）である。ここで、Ｘ方向速度分布９０４における領域９０５は、位置（ｘ_ｉ２，ｙ_ｉ２）を中心とした、半径ｒ_ｉの円であり、関数ｘ_ｉ２−ｘ_ｉ１で表される値を有している。また、Ｙ方向速度分布９０６における領域９０７は、位置（ｘ_ｉ２，ｙ_ｉ２）を中心とした、半径ｒ_ｉの円であり、関数ｙ_ｉ２−ｙ_ｉ１で表される値を有している。半径ｒ_ｉの値は特に限定されず、固定値であってもよいし、頭部ｉの画像上のサイズｓ_ｉの関数で表される値であってもよい。

このように、速度推定部２０４が生成する速度分布は、所定の時刻（例えばｔ_２）においてある位置（ｘ_ｉ２，ｙ_ｉ２）に存在する被写体について、この被写体の速度（所定時間内の移動量）を表すことができる。速度推定部２０４が生成する速度分布の具体的な形式は図９（Ａ）〜（Ｄ）の例には限定されない。また、速度推定部２０４が生成する速度分布は、時刻ｔ_１においてある位置（ｘ_ｉ１，ｙ_ｉ１）に存在する被写体について、この被写体の速度を表してもよい。この場合、領域９０５，９０７は、位置（ｘ_ｉ１，ｙ_ｉ１）を中心とした円であってもよい。

速度推定部２０４が速度分布を推定する方法としては、様々な方法を利用できる。例えば、画像、又は画像から抽出された特徴量、又はこれらの双方を、ニューラルネットワークに入力する方法が挙げられる。このようなニューラルネットワークとしては、例えば、畳み込みニューラルネットワーク、逆畳み込みニューラルネットワーク、これらのその双方が連結されたオートエンコーダー、及びＵ−Ｎｅｔ等のショートカットを持つネットワーク、等が挙げられる。速度推定部２０４が用いるニューラルネットワークは、画像が入力されると対象物の速度分布を出力するように、予め学習されている。例えば、ニューラルネットワークは、時刻ｔ_１に撮像された第１の画像及び時刻ｔ_２に撮像された第２の画像が入力されると、上記の速度分布を出力するように学習されていてもよい。このような学習は、学習用の画像と、上記のような対象物の速度分布を表す教師データと、を用いて行うことができる。このような手法によれば、速度推定部２０４は、動画像に含まれる２枚の画像から速度分布を生成することができる。

一方で、速度推定部２０４が速度分布を推定するために用いる画像の枚数は２枚に限定されず、１枚だけであっても、３枚以上であってもよい。例えば、速度推定部２０４は、時刻ｔ_２に撮像された１枚の画像を用いて、時刻ｔ_２より固定時間幅だけ前の時刻ｔ_０から、時刻ｔ_２までの間における、対象物の移動量を表現する速度分布を推定することができる。別の例として、速度推定部２０４は、１枚の画像が入力されると、前回に入力された画像の撮像時刻と、今回入力した画像の撮像時刻との間における対象物の速度を表現する速度分布を出力するように学習されたニューラルネットワークを用いることもできる。この場合には、ニューラルネットワークとして、ＬＳＴＭ又はＧＲＵ等の、状態を扱うことのできるリカレントニューラルネットワークを用いることができる。さらに、速度推定部２０４は、３枚以上の画像を用いて速度分布を推定してもよい。例えば、速度推定部２０４は、そのうち２枚の撮像時刻間における対象物の移動量を表現する速度分布を推定してもよい。

移動推定部２０５は、特定期間における対象物の動きを示す、動画像における対象物の動きベクトルを導出する。本実施形態において移動推定部２０５は、座標推定部２０３が推定した対象物の位置座標と、速度推定部２０４が推定した対象物の速度分布とに基づき、特定期間における対象物の移動ベクトルを推定する。上記のとおり、速度推定部２０４は、時刻ｔ_１から時刻ｔ_２の間における対象物の速度分布を推定することができる。また、座標推定部２０３は、時刻ｔ_２における対象物の位置座標を推定することができる。上述のように、時刻ｔ_１において頭部ｉは座標（ｘ_ｉ１，ｙ_ｉ１）にあり、時刻ｔ_２において頭部ｉは座標（ｘ_ｉ２，ｙ_ｉ２）にある。このとき、移動推定部２０５が推定する、頭部ｉの時刻ｔ_１からｔ_２までの移動ベクトルｉの始点は時刻ｔ_１における頭部ｉの座標であり、終点は時刻ｔ_２における頭部ｉの座標である。移動推定部２０５は、座標推定部２０３により位置が推定された全ての対象物に対する移動ベクトルのリストを生成することができる。以下、移動ベクトルｉを得る方法の例について説明する。

移動ベクトルｉの始点である座標（ｘ_ｉ２，ｙ_ｉ２）は、座標推定部２０３によって推定されている。移動推定部２０５は、座標（ｘ_ｉ１，ｙ_ｉ１）を求めるために、まず、時刻ｔ_１から時刻ｔ_２の間における頭部ｉの移動量（ｘ_ｉｄ，ｙ_ｉｄ）を求める。移動推定部２０５は、速度推定部２０４によって推定された速度分布を利用することにより頭部ｉの移動量を求めることができる。

上述のように、速度分布における座標（ｘ_ｉ２，ｙ_ｉ２）付近の値は、頭部ｉの移動量を示す。したがって、移動推定部２０５は、速度分布における、対象物の位置座標を基準として定められる領域の値に基づいて、特定期間における対象物の移動量を推定することができる。例えば、移動推定部２０５は、Ｘ方向速度分布における座標（ｘ_ｉ２，ｙ_ｉ２）付近にある、任意の領域内の要素の平均値や中央値を、ｘ_ｉｄとして算出することができる。この領域は、例えば、座標（ｘ_ｉ２，ｙ_ｉ２）を中心とする固定長の半径を持つ円領域であってもよい。同様に、移動推定部２０５は、Ｙ方向速度分布を用いてｙ_ｉｄを求めることができる。そして、ｘ_ｉ１＝ｘ_ｉ２−ｘ_ｉｄ、ｙ_ｉ１＝ｙ_ｉ２−ｙ_ｉｄの関係を用いて、座標（ｘ_ｉ１，ｙ_ｉ１）を求めることができる。このように、移動推定部２０５は、速度分布に基づいて推定された対象物の移動量と、対象物の位置座標とに基づいて、推定された対象物の動きを示す、頭部ｉに対応する移動ベクトルｉを求めることができる。

もっとも、移動推定部２０５による移動ベクトルの求め方は、上述の方法に限定されない。例えば、移動推定部２０５は、時刻ｔ_１における頭部ｉの位置座標と、時刻ｔ_１から時刻ｔ_２の間における頭部ｉの移動量とに基づいて、頭部の移動ベクトルを求めてもよい。

追跡部２０６は、第１の期間における対象物の動きを示す情報と、第２の期間における対象物の動きを示す情報と、のマッチングにより、第１の期間及び第２の期間にわたる対象物の移動軌跡を生成する。本実施形態においては、移動推定部２０５が、対象物の動きを示す情報として、第１の期間（例えば時刻ｔ_１から時刻ｔ_２）における対象物の第１の移動ベクトルを生成することができる。また、移動推定部２０５は、第２の期間（例えば時刻ｔ_２から時刻ｔ_３）までの対象物の第２の移動ベクトルも生成することができる。追跡部２０６は、これらの移動ベクトルのマッチングにより、対象物の位置座標を追跡することができる。

対象物の移動軌跡は、対象物の位置座標を時系列順に並べたリストにより表すことができる。移動推定部２０５により推定された移動ベクトルは、それぞれ異なる時刻における対象物の位置を表すため、長さ２の移動軌跡であると解釈することができる。追跡部２０６は、長さ３以上の移動軌跡を得るために、２つ以上の異なる期間についての対象物の移動ベクトルのリストを用いる。追跡部２０６は、異なる期間についての移動ベクトルのリストの間で、移動ベクトルのマッチングを行い、マッチングされた移動ベクトルを繋げることにより、対象物のより長い移動軌跡を得ることができる。

追跡部２０６は、同一の対象物についての移動ベクトルであると推定される、異なる期間についての移動ベクトルをマッチングすることにより、複数の期間にわたる（又は３つ以上の異なる時刻における）対象物の位置座標を追跡することができる。このようなマッチングを複数の期間の移動ベクトルについて繰り返すことにより、追跡部２０６は対象物の移動軌跡を得ることができる。具体的なマッチング方法については後述する。

計測部２０７は、追跡部２０６による対象物の移動軌跡を用いて、対象物の流れを計測する。計測部２０７は、例えば、対象物の流量、又は対象物の流れの向きなどを計測することができる。流量とは、例えば、あらかじめ設定された計測領域又は計測線を通過する対象物の数であってもよい。例えば、計測部２０７は、計測領域によって区切られる一方の領域から他方の領域へと移動した対象物の数を計測することができる。計測領域として線分（計測線）を用いる場合、計測部２０７は、計測線を交差した対象物の数を計測することができる。

このような計測領域は、撮影シーンに基づき予め決められていてもよい。この場合、計測部２０７は、予め決められた計測領域の設定値を記憶装置１２等のメモリから取得してもよい。また、計測部２０７は、出力装置１５に表示された画像を参照しながら入力装置１４に接続されたヒューマンインターフェースデバイス等を操作することによってユーザが入力した設定値を取得してもよい。

計測領域は、１つであってもよいし、複数であってもよい。また、計測領域の形状は特に限定されず、例えば、任意の折れ線、曲線、多角形、円形、若しくは楕円形、又は任意の閉曲線からなる図形であってもよい。また、計測領域は、太さのない線であってもよいし、太さを有する線（又は長い矩形）であってもよい。このような計測領域は、線又は矩形等の任意のガイド図形を基準に設定されてもよい。例えば、ガイド図形に従う形状の計測領域が、画像中の特定の位置に設けられてもよい。このようなガイド図形は１つであっても複数であってもよい。また、ガイド図形が、幅を大きくする等の方法により拡張されてもよい。

本実施形態に係る画像処理装置１００の処理例を、図３を参照して説明する。以下では、人物の流量計測を行う例について説明する。具体的には、あらかじめ設定された計測領域を通過する人数が計測される。

ステップＳ３０１において取得部２０１は動画像を取得する。また、取得部２０１は、流量計測に用いられる複数の画像を動画像から取得する。例えば、取得部２０１は、計測開始時刻から計測終了時刻までの間の複数回の撮像により得られた複数の画像を取得することができる。なお、取得部２０１は、撮像装置から各フレーム画像を順次取得してもよい。以下では、ステップＳ３０１で取得される複数の画像のそれぞれを入力画像と呼ぶ。ステップＳ３０２及びＳ３０３の処理は、入力画像のそれぞれについて行われる。例えば、時刻ｔ_２に撮像された第２の画像と、時刻ｔ_３に撮像された第３の画像とのそれぞれについて、ステップＳ３０２及びＳ３０３で密度分布及び位置座標を推定することができる。また、以下の例において、ステップＳ３０４及びＳ３０５の処理は、連続して撮像された入力画像のセットのそれぞれについて行われる。例えば、時刻ｔ_１に撮像された第１の画像と、時刻ｔ_２に撮像された第２の画像とに基づいて、ステップＳ３０４及びＳ３０５で時刻ｔ_１から時刻ｔ_２までの速度分布及び移動ベクトルを得ることができる。

取得部２０１は、入力画像から、１つ又は複数の部分画像を抽出してもよい。取得部２０１は、複数の画像のそれぞれから、画像の一部である１以上の部分画像を抽出することができる。このように入力画像よりも小さいサイズを有する部分画像を用いることで、ステップＳ３０２以降の処理量を減らすことができる。このような構成により、リアルタイムでの流量計測が容易となる。入力画像から抽出される部分画像の領域は、あらかじめ設定されていてもよい。また、部分画像の領域はユーザにより設定されてもよい。例えば、ユーザが入力装置１４に接続したヒューマンインターフェースデバイス等をユーザが操作することにより、出力装置１５に表示された入力画像上の部分領域を設定することができる。部分画像の領域の設定方法及び具体的な形状は特に限定されない。例えば、取得部２０１は、ユーザが指定した領域に基づいて、抽出される部分領域を自動的に決定してもよい。取得部２０１は、既に説明したように計測領域のユーザ指定を取得することができる。この場合、取得部２０１は、指定された計測領域に基づいて部分画像の領域を自動的に設定してもよい。例えば、取得部２０１は、計測領域を含むように入力画像から部分画像を抽出することができる。

また、取得部２０１は、図４（Ａ）のように、入力画像４００の全体を複数の領域へと分割してもよい。この場合、複数の領域から選択された１以上の領域のそれぞれから部分画像を抽出してもよい。例えば、図４（Ａ）に示すように入力画像４００に計測領域４０１を設定した場合、計測領域４０１を包含する、太枠で囲まれた矩形領域から、流量計測に使用する部分画像を抽出することができる。また、図４（Ｂ）のように、入力画像４０２の一部に、計測領域４０３を包含する１つ又は複数の矩形領域を設定することができる。そして、こうして設定された矩形領域から、流量計測に使用する部分画像を抽出することができる。

図４（Ａ）（Ｂ）において部分画像の形状は矩形であるが、部分画像の形状は、例えば、任意の多角形、円形、若しくは楕円形、又は任意の閉曲線からなる図形であってもよい。また、計測領域の形状が線分ではなく、例えば、任意の折れ線、曲線、多角形、円形、若しくは楕円形、又は任意の閉曲線からなる図形である場合にも、同様の手法で部分画像を抽出することができる。

ところで、カメラ等の撮像装置により得られた入力画像内では、位置により計測対象となる人物の映る大きさが異なることがある。したがって、画像内の位置に応じて部分画像の大きさを変えることができる。例えば、部分画像の大きさと人物の大きさとの比がほぼ一定となるように、部分画像の大きさを決定し、この大きさに応じて部分画像を抽出することができる。ここで、人物の大きさとは、例えば、人物の頭部と肩を包含する部分の大きさ、人物の頭部の大きさ、人物の全身の大きさ等でありうる。図４（Ａ）（Ｂ）はこのように部分画像の大きさを変化させる例を示す。すなわち、図４（Ａ）（Ｂ）においては、すなわち遠くの人物が映る領域、すなわち入力画像の上方において、部分画像の大きさが小さくなっている。

このように部分画像を設定した場合、ステップＳ３０２〜Ｓ３０５の処理は、入力画像中の部分画像のそれぞれについて行うことができる。すなわち、密度推定部２０２は、それぞれの部分画像中の対象物の密度分布を推定し、座標推定部２０３は、それぞれの部分画像についての密度分布から対象物の位置を推定することができる。また、速度推定部２０４は、それぞれ部分画像について対象物の速度分布を推定し、移動推定部２０５は、それぞれの部分画像における対象物の動きを推定することができる。

一方で、ステップＳ３０２〜３０５における推定結果の精度は、部分画像の境界領域（周辺領域）において低くなる傾向がある。このため、一実施形態においては、部分画像中に中央領域を規定し、この中央領域から検出された人物に関して、ステップＳ３０７における流量計測を行うことができる。このような構成によれば、精度の高い人物検出結果を用いて流量計測が行われるため、計測精度が向上する。

部分画像に中央領域を規定する方法としては、例えば図５（Ａ）に示すように、部分画像５００の内側に、中央領域５０１、及び部分画像５００の境界線と中央領域５０１の境界線とに囲まれたマージン領域５０２を規定する方法が挙げられる。図５（Ａ）の例において、中央領域５０１は矩形であるが、中央領域５０１の形状は特に限定されない。例えば、中央領域５０１の形状は、多角形、円形、楕円形、又は任意の閉曲線など、部分画像５００の内部に含まれる任意の形状でありうる。

マージン領域の大きさは、流量計測の対象となる人物の大きさに合わせて設定することができる。例えば、マージン領域を、人物の検出に必要な部分を含むことができる大きさに設定することができる。図５（Ｂ）はその一例を示す。図５（Ｂ）では、部分画像５００のマージン領域５０２が、流量計測の対象となる人物５０３又は人物５０４の検出に必要な部分を含むことができる大きさに設定されている。より具体的には、人物の頭部と肩を含むことができるように、マージン領域の大きさが設定されている。他の例としては、人物の頭部のみ、あるいは人物の全身がマージン領域に含まれるように、マージン領域を設定してもよい。

入力画像から複数の部分画像を抽出する場合、隣接する部分画像が互いに重なるように部分画像の領域を設定することができる。例えば、取得部２０１は、画像を複数の領域に分割することができる。そして、取得部２０１は、複数の領域から選択された１以上の領域のそれぞれについて、領域（中央領域）及びこの領域の周辺にあるマージン領域から、部分画像を抽出することができる。図５（Ｃ）はそのような分割の一例を示す。図５（Ｃ）においては、隣り合う２つの部分画像５０５及び部分画像５０６が互いに部分的に重なり合っている。より具体的には、部分画像５０５の中央領域５０７と、部分画像５０６の中央領域５０８との間に隙間ができないように、部分画像５０５及び部分画像５０６が抽出されている。検出対象である人物５１０が部分画像５０５のマージン領域５１２にある場合であっても、部分画像５０５に隣接する部分画像５０６の中央領域５０８から人物５１０を検出できる。

図５（Ｃ）に示されるように、各部分画像の中央領域同士を隙間なく隣接させることにより、いずれかの部分画像の中央領域で計測対象となる人物を検出することができるため、計測精度が向上する。このような部分画像の抽出方法としては、入力画像を複数の領域に分割し、それぞれの領域（中央領域に相当）及び周りのマージン領域から、１つの部分画像を抽出する方法が挙げられる。さらに、各部分画像のマージン領域を確保しつつ、必要最小限の面積で計測領域をカバーできる分割方法を、最適化計算等で決定してもよい。図５（Ｄ）においては、入力画像５２０に設定された計測領域５２１に沿って、それぞれがマージン領域を有する複数の部分画像５２２が抽出されている。

以下の説明において、入力画像は、入力画像そのもの、又は部分画像を指すものとする。すなわち、ステップＳ３０２〜Ｓ３０５の処理は、入力画像に対して、又は入力画像中の部分画像のそれぞれに対して、行うことができる。

ステップＳ３０２において、密度推定部２０２は、上述のように、取得部２０１が取得した入力画像を元に計測対象となる人物の密度分布を推定する。図６（Ａ）の例では、密度推定部２０２は、入力画像６００における人物６０１の頭部位置の密度分布を推定する。密度推定部２０２は、図６（Ｂ）に示すように、人物６０１の頭部位置の密度分布６０３を示す密度マップ６０２を生成している。

なお、密度推定部２０２が用いる入力画像は１つに限定されず、密度推定部２０２は複数の入力画像を用いて密度分布を推定してもよい。例えば、密度推定部２０２は、複数の入力画像をニューラルネットワークに入力することにより、密度分布を推定してもよい。密度推定部２０２が用いる複数の入力画像は、例えば、動画像に含まれる、複数の異なるフレームの画像であってもよい。また、密度推定部２０２が出力する密度分布も１つには限定されない。例えば密度推定部２０２は、複数の入力画像にそれぞれ対応している、複数の密度分布を出力してもよい。密度推定部２０２が複数の密度分布を出力する場合、後続する座標推定部２０３には全ての密度分布が入力されてもよいし、選択された一部の密度分布が入力されてもよい。

ステップＳ３０３において座標推定部２０３は、上述のように、密度推定部２０２が出力した密度分布を元に人物の位置座標を推定する。例えば座標推定部２０３は、図７（Ａ）に示す密度マップ７００をニューラルネットワークに入力することにより、図７（Ｂ）に示す位置マップ７０１を出力することができる。位置マップ７０１は、人物の位置座標が、位置マップ７０１における要素の位置と一致している場合を示す。この場合、１人の人物について１つの要素の値（確率値）が大きくなるため、このような要素の位置を人物の位置座標として判定することができる。

一方で、図７（Ｃ）に示す位置マップ７０２のように、人物の位置座標が、位置マップ７０２における要素の位置（すなわち格子点の位置）からずれる場合、１人の人物について複数の要素の値（確率値）が大きくなる。このように、入力画像の互いに隣接する複数の位置が、対象物の位置を表すと推定されることがある。この場合、座標推定部２０３は、対象物の位置を表すと推定された、入力画像の互いに隣接する複数の位置に基づいて、対象物の位置を求めることができる。例えば、座標推定部２０３は、複数の要素に分かれている確率値を１つにまとめることにより、人物の位置座標を決定することができる。

例えば図８（Ａ）〜（Ｃ）に示すように、座標推定部２０３は、ニューラルネットワークから出力された位置マップ８００に対して３×３のｍａｘｐｏｏｌｉｎｇを適用することによってマップ８０１を得ることができる。そして、座標推定部２０３は、位置マップ８００と、マップ８０１とを、要素ごとに比較することができる。この場合、座標推定部２０３は、マップ８０２に示されるように、位置マップ８００とマップ８０１との間で値が一致している要素の座標を、人物の位置座標として判定することができる。ｍａｘｐｏｏｌｉｎｇのカーネルサイズは３×３に限定されず、５×５などの別のサイズであってもよい。また、ｍａｘｐｏｏｌｉｎｇの処理は、単独で行われてもよいし、座標推定部２０３が用いるニューラルネットワークの出力層の次にｍａｘｐｏｏｌｉｎｇ層を追加することにより行われてもよい。

複数の確率値をまとめる方法はこの方法には限定されず、座標推定部２０３は、例えばｗａｔｅｒｓｈｅｄ等の、他の極大値検出法を用いてもよい。また、座標推定部２０３は、確率値が検出された複数の要素をクラスタリングし、各クラスタの中心座標を人物の位置座標とする方法を用いてもよい。クラスタリングの方法としては、例えば、階層クラスタリング又はＫ平均法などが挙げられる。クラスタの中心座標は、クラスタ内の要素座標の単純平均でもよいし、クラスタ内の要素のうち最大の確率値を持つ要素座標でもよいし、又は、各要素の要素座標の存在確率等による重みづけ平均値でもよい。

なお、座標推定部２０３が用いるニューラルネットワークが出力する位置マップにおいては、人物の位置座標に対応しない要素が、ノイズである微小な確率値を持っているかもしれない。このようなノイズが乗っている状態で、図８の例に示すように隣接する要素の確率値を１点にまとめる処理を行うと、微小なノイズを持つ要素の座標が人物の位置座標と判定されてしまうかもしれない。このため、座標推定部２０３は、ニューラルネットワークが出力した位置マップにおいて、閾値以下の、ノイズとみなせるような微小な確率値をゼロに修正してから、確率値を１点にまとめる処理、及び人物の位置座標の判定を行ってもよい。

ステップＳ３０４において、速度推定部２０４は、上述のように、取得部２０１が取得した入力画像を元に計測対象となる人物の速度分布を推定する。この例において、速度推定部２０４は、時刻ｔ_１に撮像された第１の画像と、時刻ｔ_２に撮像された第２の画像とに基づいて、時刻ｔ_１から時刻ｔ_２までの人物の速度分布を推定することができる。また、速度推定部２０４は、時刻ｔ_２に撮像された第２の画像と、時刻ｔ_３に撮像された第３の画像とに基づいて、時刻ｔ_２から時刻ｔ_３までの人物の速度分布を推定することができる。

ステップＳ３０５において、移動推定部２０５は、座標推定部２０３が推定した流量計測対象となる人物の位置座標と、速度推定部２０４が推定した流量計測対象となる人物の速度分布とに基づき、上述のように人物の移動ベクトルリストを得る。図１０（Ａ）〜（Ｆ）は、移動ベクトルの算出方法の例を示す。図１０（Ａ）には、時刻ｔ_１における第１の画像１０００が、図１０（Ｂ）には、時刻ｔ_２における第２の画像１００２が示されている。ある頭部ｉは、時刻ｔ_１において位置１００１に、時刻ｔ_２において位置１００３に存在している。図１０（Ｃ）に示す、座標推定部２０３が第２の画像１００２に基づいて生成することができる位置座標マップ１００４は、時刻ｔ_２における頭部ｉの推定された位置座標１００５を示している。図１０（Ｄ）（Ｅ）に示す、時刻ｔ_１から時刻ｔ_２の間におけるＸ方向速度分布マップ１００６及びＹ方向速度分布マップ１００９は、速度推定部２０４が第１の画像１０００及び第２の画像１００２に基づいて生成することができる。

移動推定部２０５は、時刻ｔ_１から時刻ｔ_２の間における頭部ｉの移動量（ｘ_ｉｄ，ｙ_ｉｄ）のＸ成分を、Ｘ方向速度分布マップ１００６の領域１００７内の平均値によって求めることができる。また、移動推定部２０５は、頭部ｉの移動量のＹ成分を、Ｙ方向速度分布マップ１００９の領域１０１０内の平均値によって求めることができる。領域１００７及び領域１０１０は、ステップＳ３０４において得られた速度分布マップに示される、頭部ｉの速度分布に対応する領域１００８及び領域１０１１よりも小さくなるように設定することができる。反対に、領域１００７及び領域１０１０が、領域１００８及び領域１０１１を超えない程度に大きな面積を持つように、速度推定部２０４（又は速度推定部２０４が用いるニューラルネットワーク）の学習を行うことができる。このような構成により、ステップＳ３０４で推定された速度分布がムラ又は異常出力値を有していたとしても、これらの影響が低減され、頭部ｉの移動量を安定して求めることが容易となる。

移動推定部２０５は、時刻ｔ_２における第２の画像から検出された頭部のそれぞれについて、上記の方法で移動ベクトルを求めることができる。こうして、移動推定部２０５は、すべての頭部についての移動ベクトルのリストである移動ベクトルリスト１０１２を生成することができる。図１０（Ｆ）において、移動ベクトル１０１３は頭部ｉに対応する移動ベクトルである。

ステップＳ３０６において追跡部２０６は、移動推定部２０５が出力した移動ベクトルリストを元に人物の位置座標を追跡し、人物の移動軌跡を得る。ステップＳ３０２〜Ｓ３０５の処理により、図１１に示す、時刻ｔ_１から時刻ｔ_２の間の移動ベクトルリストＶ_１２１１００と、時刻ｔ_２から時刻ｔ_３の間の移動ベクトルリストＶ_２３１１０１とが得られる。本実施形態において、追跡部２０６は、移動ベクトルリストＶ_１２１１００と、移動ベクトルリストＶ_２３１１０１に対してマッチング１１０２を実施することで、人物の移動軌跡１１０３を得る。

マッチング方法は特に限定されない。追跡部２０６は、例えば、マッチング結果に基づいて算出されるコストの総和が小さくなるように、マッチングを行うことができる。このようなマッチングを行うためのアルゴリズムとしては、例えば、ハンガリアンマッチング、線形計画法、又はニューラルネットワーク等が挙げられる。

本実施形態では、第１の期間における第１の動きベクトルの終点の位置と、第２の期間における第２の動きベクトルの始点の位置と、に基づいてマッチングが行われる。ここで、第２の期間（例えば時刻ｔ_２から時刻ｔ_３まで）は、第１の期間（例えば時刻ｔ_１から時刻ｔ_２まで）よりも後の期間である。より具体的には、追跡部２０６は、第１の動きベクトルの終点の位置と、第２の動きベクトルの始点の位置と、の距離に基づくコストがより小さくなるようにマッチングを行う。この例では、マッチングにおけるコストとして、移動ベクトルリストＶ_１２に含まれる移動ベクトルｖ_ａの終点ｐと、移動ベクトルリストＶ_２３に含まれる移動ベクトルｖ_ｂの始点ｑとの間の距離が用いられる。ここで、時刻ｔ_１から時刻ｔ_２までの第１の期間の終了時刻と、時刻ｔ_２から時刻ｔ_３までの第２の期間の開始時刻と、は一致している。すなわち、点ｐと点ｑは、いずれも時刻ｔ_２における頭部の推定位置を表す。よって、移動ベクトルｖ_ａと移動ベクトルｖ_ｂが同一人物を指すならば、点ｐと点ｑとは理想的には非常に近い位置に存在する。このため、このように定義されたコストを用いることにより、マッチング精度を向上させることができる。

一方で、第１の期間の終了時刻と第２の開始時刻とが一致している必要はない。この場合でも、上記のように動きベクトルをマッチングさせる手法によれば、第１の期間の開始時刻における対象物の位置座標と第２の期間の開始時刻における対象物の位置座標とをマッチングさせる手法よりも、マッチング精度を向上させることができる。

以下では、上記の定義に基づくコストを用いた場合について説明するが、他のコストを用いてもよい。例えば、移動ベクトルの長さ又は方向をコストの計算に用いてもよい。また、移動ベクトルの位置に基づいて人物の画像情報の特徴量を抽出し、特徴量の類似度に基づいてコストを計算してもよい。さらに、１つの種類のコストが用いられてもよく、複数の種類のコストが組み合わせて用いられてもよい。例えば、点ｐと点ｑとの間の距離と、人物の画像情報の類似度と、の双方に基づいてコストが算出されてもよい。追跡部２０６は、このようなコストが最小となるようにマッチングを行うことができる。

図１２を参照して、移動ベクトルリストＶ_１２に含まれる移動ベクトルの終点と、移動ベクトルリストＶ_２３に含まれる移動ベクトルの始点との間のマッチングについて説明する。図１２（Ａ）には、入力画像の領域１２００が示されている。また、位置座標ｂ〜ｄは、それぞれ移動ベクトルリストＶ_１２に含まれる移動ベクトルの終点を表す。さらに、位置座標Ａ〜Ｃは、それぞれ移動ベクトルリストＶ_２３に含まれる移動ベクトルの始点を表す。

この場合、一例として、コストの総和が最小になるようにマッチングを行うことができる。この場合、図１２（Ａ）の例では、（ｃ，Ｂ）及び（ｂ，Ｃ）がマッチングされるかもしれない。

一方で、長い距離がより強調されるようにマッチングを行うことができる。例えば、距離ｄに対するコストが、距離２ｄに対応するコストの半分よりも小さくなるように、コストを定義することができる。具体例として、上記の終点ｐと始点ｑとの間の平方ユークリッド距離を、コストとして用いることができる。このように平方ユークリッド距離を用いる場合、距離ｂＢと距離ｃＣの和が、距離ｃＢと距離Ｃｂの和より小さくなり、このため、（ｂ，Ｂ）及び（ｃ，Ｃ）がマッチングされる。このような構成によれば、（ｂ，Ｃ）のように離れた座標のマッチングが起こりにくくなるので、マッチング結果がより正確になることが期待される。

また、図１２（Ａ）において、時刻ｔ_２において位置座標Ａにいる人物は、時刻ｔ_１において領域１２００の外に存在していた。また、時刻ｔ_２において位置座標ｄにいる人物は、時刻ｔ_３において領域１２００の外に存在していた。本実施形態の手法によれば、このような孤立した位置座標Ａ，ｄを始点又は終点とする移動ベクトルが生じる可能性がある。このような例において、領域１２００内から検出された全ての移動ベクトルの始点又は終点の位置座標を、人物間の距離の総和が最小になるようにマッチングすると、正しくないマッチング結果が得られる可能性がある。例えば、図１２（Ａ）の例では、位置座標の組（Ａ，ｂ）、（Ｂ，ｃ）、及び（Ｃ，ｄ）が得られるかもしれない。

一実施形態において、追跡部２０６は、位置座標Ａ，ｄのような孤立した位置座標がマッチングされないように、マッチングを行うことができる。例えば、マッチングの最大距離ｒを設定することができる。この場合、追跡部２０６は、最大距離ｒよりも離れている位置座標同士がマッチングしないように、マッチングを行うことができる。

図１２（Ｂ）（Ｃ）は、孤立した位置座標がマッチングされないようにするための、ハンガリアンマッチングで用いるコスト行列及びマッチング結果の例を示す。図１２（Ｂ）において、Ｂ，Ｃ，ｂ，ｃは、それぞれ図１２（Ａ）に示す位置座標Ｂ，Ｃ，ｂ，ｃに対応する。位置座標Ａ，ｄは、全ての位置座標との距離が最大距離ｒを越えている、孤立した位置座標である。このため、位置座標Ａ，ｄが他の位置座標とマッチングされないように、位置座標Ａ，ｄに関するコストは図１２（Ｂ）のコスト行列から除外されている。追跡部２０６は、このようなコスト行列を、例えば平方ユークリッド距離に基づいて生成することができる。図１２（Ｂ）の例では、コストの総和が最小となるように、太枠で示される位置座標の組（Ｂ，ｂ）及び（Ｃ，ｃ）が得られている。

図１２（Ｃ）に示す別の例において、Ａ，Ｂ，Ｃ，ｂ，ｃ，ｄは、それぞれ図１２（Ａ）に示す位置座標Ａ，Ｂ，Ｃ，ｂ，ｃ，ｄ（以下実座標と呼ぶ）に対応する。図１２（Ｃ）の例では、追跡部２０６は、最初に実座標同士のコスト行列を、例えば平方ユークリッド距離に基づいて生成する。続いて、追跡部２０６は、位置座標Ａ，Ｂ，Ｃと同じ数である３つのダミー、すなわちｘ１、ｘ２、及びｘ３に対応する列を追加する。さらに、追跡部２０６は、位置座標ｂ，ｃ，ｄと同じ数である数３つのダミー、すなわちＸ１、Ｘ２、及びＸ３に対応する行を追加する。そして、追跡部２０６は、ダミーと任意の実座標との間のコストを、最大距離ｒよりも大きい値ｒ_１を用いて設定し、距離がｒよりも大きい実座標同士の間のコストを、ｒ_１よりもさらに大きいｒ_２を用いて設定する。すなわち、ｒ＜ｒ_１＜ｒ_２である。追跡部２０６は、このようなコスト行列を、例えば平方ユークリッド距離に基づいて生成することができる。このようなコスト行列を用いてマッチングを行うと、孤立した実座標は他の実座標とはマッチングせず、ダミーとマッチングする。また、余ったダミーはダミー同士でマッチングする。図１２（Ｃ）では、コスト行列を用いたマッチングの結果が太枠で示されている。追跡部２０６は、これらのダミーとのマッチング結果を除外することにより、マッチング結果を得ることができる。

さらなる別の例において、追跡部２０６は、マッチングを行う前に、最大距離ｒの範囲内にある位置座標同士をグルーピングしてもよい。この場合、追跡部２０６は、グループごとに、グループに含まれる位置座標同士のマッチングを行うことができる。例えば、追跡部２０６は、各グループについて個別に図１２（Ｂ）又は図１２（Ｃ）に示すようなコスト行列を生成し、マッチングを行うことができる。図１２（Ａ）に示されるような孤立した位置座標Ａ，ｄは、このようなグルーピングにより取り除かれる。このような方法によれば、人物の数、すなわち検出された位置座標の数が多い場合に、処理速度を向上させることができる。グルーピングの方法は特に限定されないが、例えば、孤立した位置座標を含むコスト行列又は隣接グラフを用いて連結されていない独立したグラフを探索する方法が挙げられる。また、階層クラスタリング又はＫ平均法等のクラスタリング法を用いることもできる。

このように追跡部２０６は、図１１に示す時刻ｔ_１から時刻ｔ_２までの移動ベクトルｖ_ａ１１０４の終点と、時刻ｔ_２から時刻ｔ_３までの移動ベクトルｖ_ｂ１１０５の始点と、をマッチングさせることができる。そして、追跡部２０６は、移動ベクトルｖ_ａ１１０４の始点、移動ベクトルｖ_ａ１１０４の終点、および移動ベクトルｖ_ｂ１１０５の終点の３点を繋げることで、ある人物に対応する時刻ｔ_１から時刻ｔ_３の間の移動軌跡１１０６を得ることができる。このようなマッチング処理をさらに後の時刻における移動ベクトル（例えば時刻ｔ_３から時刻ｔ_４までの移動ベクトル）に対して繰り返すことで、さらに長時間にわたる同一人物の移動軌跡を得ることができる。

上記のように、移動ベクトルと移動ベクトルをマッチングする方式によれば、例えば時刻ｔ_１及び時刻ｔ_２においてそれぞれ検出された人物、すなわち点と点をマッチングする方式に比べて、精度よく移動軌跡を得ることができる。

何らかの理由で、取得部２０１が取得する入力画像が欠落する、密度推定部２０２による人物の密度分布が欠落する、座標推定部２０３が人物の位置座標を検出しない、又は速度推定部２０４による人物の速度分布が欠落することがあるかもしれない。これらの理由で、特定の時刻間における人物の移動ベクトルが得られない可能性がある。例えば、図１３（Ａ）には、ある人物の時刻ｔ_１から時刻ｔ_２の間の移動ベクトル１３０３が示されている。図１３（Ａ）にはまた、同人物の時刻ｔ_２から時刻ｔ_３の間の移動ベクトル１３０４、及び同人物の時刻ｔ_３から時刻ｔ_４の間の移動ベクトル１３０５が示されている。理想的には、これら３つの移動ベクトル１３０３〜１３０５が検出され及びマッチングされることにより繋がって１つの移動軌跡となる。しかしながら、移動ベクトル１３０４が何らかの理由で欠落したことにより、人物の移動軌跡が途切れると、この人物の移動軌跡が計測領域の線分１３０１を通過していないと誤判定される可能性がある。

このような事象を避けるため、追跡部２０６は、第１の期間における対象物の動きを示す情報に基づいて第２の期間における対象物の動きを推定することができる。例えば図１３（Ｂ）に示すように、追跡部２０６は、移動ベクトル１３０３を用いて予測される、時刻ｔ_２から時刻ｔ_３の間の移動ベクトル１３０６を用いることで、途切れた移動軌跡を埋め合わせることができる。このような方法により、移動軌跡が途切れていても、人物が計測領域を通過したと判定することが可能となる。追跡部２０６は、第１の期間における対象物の動きを示す情報にマッチングする第２の期間における対象物の動きを示す情報が見つからない場合に、第２の期間における対象物の動きを推定してもよい。

移動ベクトル１３０６の予測には、様々な方法が利用できる。例えば追跡部２０６は、移動ベクトル１３０３と同じ方向及び大きさを持ち、始点が移動ベクトル１３０３の終点と一致する移動ベクトル１３０６を判定することができる。また、移動ベクトル１３０６の予測には、移動ベクトル１３０３だけでなく、それよりさらに前の時刻における移動ベクトルを使用してもよい。なお、追跡部２０６は、このように生成された移動ベクトル１３０６が、時刻ｔ_３以降の移動ベクトルとマッチングしない場合、人物の移動軌跡から移動ベクトル１３０６を除外してもよい。

人物の移動軌跡が途切れた場合における人物の位置の推定方法は、移動ベクトルによる方法に限定されない。例えば、テンプレートマッチングなどの既知の物体追跡方法を用いて、時刻ｔ_３における人物の位置を予測することにより、人物の移動軌跡を推定してもよい。さらに、移動ベクトルの欠落が２フレーム以上にわたる場合でも、移動ベクトルの推定を繰り返すことで人物の移動軌跡を追跡することができる。

ステップＳ３０７において、計測部２０７は、追跡部２０６が出力した人物の移動軌跡を元に、人物の流量を計測する。例えば、計測部２０７は、追跡部２０６が出力した人物の移動軌跡が、設定した計測領域と交差したかどうかを判定することで、人物の流量を計測することができる。なお、計測領域の設定方法は上述のとおりである。図４（Ａ）（Ｂ）を参照して説明したように、ステップＳ３０１において部分画像が抽出される領域を設定する際に、計測領域４０１，４０３が設定されていてもよい。

計測領域が線分である場合の人物の流量の計測方法例を、図１４を参照して説明する。図１４（Ａ）には、時刻ｔ_１における入力画像１４００と、計測領域である線分１４０１が示されている。また、入力画像１４００からは、人物１４０２の位置座標１４０３、及び人物１４０４の位置座標１４０５が検出されている。同様に、図１４（Ｂ）には、時刻ｔ_２における入力画像１４０６が示されている。入力画像１４０６からは、人物１４０２の位置座標１４０７が検出されており、位置座標１４０３から位置座標１４０７に至る移動軌跡１４０９が得られている。また、入力画像１４０６からは、人物１４０４の位置座標１４０８が検出されており、位置座標１４０５から位置座標１４０８に至る移動軌跡１４１０が得られている。

図１４（Ｂ）の例において計測部２０７は、移動軌跡１４０９は線分１４０１と交差していると判定することができ、したがって、人物１４０２は線分１４０１を通過したと判定することができる。同様に計測部２０７は、移動軌跡１４１０も線分１４０１と交差していると判定することができ、したがって、人物１４０４も線分１４０１を通過したと判定することができる。ここで、計測部２０７はさらに、人物１４０４は人物１４０２とは逆方向に線分１４０１を通過したと判定してもよい。移動軌跡と線分との交差判定は、例えば、線分と線分との交差判定等の幾何学的な方法で行うことができる。

一実施形態において計測部２０７は、人物が計測領域で分けられる一方の領域から他方の領域へと移動した場合に、人物は計測領域を通過したと判定する。一方で計測部２０７は、計測領域上に人物が存在する間は、人物は計測領域を通過したと判定しない。すなわち、計測部２０７は、一方の領域から計測領域を超えて他方の領域へと移動した人物の数を計測するが、こうして計測された人物の数は、一方の領域から計測領域へと移動したが他方の領域へと移動していない人物の数を含まない。

例えば、図１５には、計測領域である線分１５００と、人物の移動軌跡１５０１とが示されている。この例において、計測部２０７は、ａ，ｄ，ｆの３カ所において、人物が線分１５００を下から上に通過したと判定することができ、ｃ，ｅの２カ所において、人物が線分１５００を上から下に通過したと判定することができる。一方で、計測部２０７は、人物が線分１５００上にちょうど乗っているｂ，ｇにおいては、人物は線分１５００を通過していないと判定することができる。上述のように、線分１５００は太さを有する線分（すなわち矩形領域）であってもよく、この場合、人物が線分１５００上に存在する間は計測領域を通過したと判定されない。

このような判定を各人物の移動軌跡について行うことにより、計測部２０７は人物の流量を計測することができる。図１５に示す例の場合、計測部２０７は、線分１５００の下から上への累積通過数と、上から下への累積通過数とを、それぞれの方向への人物の流量として計測することができる。ここで、図１５を参照して説明したように、計測領域上に人物が存在する間には人物は計測領域を通過したと判定しないことにより、計測領域付近における人物の細かな動きに由来する、累積通過数の重複カウントを避けることができる。

計測部２０７は、各人物の計測領域の移動方向ごとの累積通過数の差分を、人物の流量として算出してもよい。具体的には、計測部２０７は、一方の領域から他方の領域へと通過した回数と、他方の領域から一方の領域へと通過した回数と、の差分を算出することができる。例えば、図１５の場合、移動軌跡１５０１で表される人物の、線分１５００の下から上への累積通過数は３回であり、上から下への累積通過数は２回である。計測部２０７は、移動方向ごとの累積通過数の差分を取ることで、線分１５００の下から上に１人の人物が通過したと判定することができる。このような累積通過数の差分に基づく通過判定は、人物（又は移動軌跡）ごとに行うことができる。

上述の通り、計測領域の形状は特に限定されない。例えば、計測領域が所定の領域を囲む閉曲線である場合、計測部２０７は、この領域へと入る人物の流量と、この領域から出る人物の流量とを計測することができる。

以上説明したように、本実施形態においては、画像フレーム間において移動ベクトル同士のマッチングが行われる。このため、マッチング精度を向上させることができ、対象物の移動軌跡をより正確に推定することができる。また、このように推定された移動軌跡を用いることにより、対象物の流量の測定精度を向上させることができる。

また、上述の例において、密度推定部２０２及び座標推定部２０３は動画像における対象物の位置座標を推定し、速度推定部２０４は動画像の各位置について特定期間における対象物の移動量を表現する速度分布を推定した。そして、移動推定部２０５は、位置座標及び速度分布に基づいて特定期間における対象物の動きを推定した。このような手法によれば、対象物同士の重なりがある画像を入力として、対象物の位置座標及び移動ベクトルを推定することができる。このため、混雑したシーンにおいても対象物の座標及び移動ベクトルを精度よく求めることができるという効果が得られる。

なお、上述の実施形態においては、マッチングにより得られた移動軌跡に基づいて対象物の流量の測定が行われた。一方で、移動推定部２０５が推定した各時刻間の移動ベクトルに基づいて、流量の測定を行ってもよい。この場合には移動ベクトルのマッチングを省略することができる。

［実施形態２］
実施形態２において、速度推定部２０４は、動画像における対象物の位置座標と速度分布とを同時に推定する。このため、本実施形態において密度推定部２０２は省略することができる。以下では、実施形態１と同じ部分については説明を省略し、異なる点のみについて説明する。

本実施形態において速度推定部２０４は、取得部２０１が取得した画像に基づき、流量計測対象となる対象物の密度分布と速度分布とを同時に推定する。速度推定部２０４は、２枚の入力画像を用いて、対象物の密度分布、対象物のＸ方向速度分布、及び対象物のＹ方向速度分布の３つを同時に推定することができる。例えば、ステップＳ３０２において、速度推定部２０４は、時刻ｔ_１における第１の画像と、時刻ｔ_２における第２の画像とを用いることができる。そして、速度推定部２０４は、時刻ｔ_２における人物の対象物の密度分布、並びに時刻ｔ_１から時刻ｔ_２までの対象物のＸ方向速度分布及びＹ方向速度分布を推定することができる。この場合、ステップＳ３０４は省略することができる。

速度推定部２０４が密度分布及び速度分布を推定する方法としては、様々な方法を利用できる。例えば、画像、又は画像から抽出された特徴量、又はこれらの双方を、ニューラルネットワークに入力する方法が挙げられる。このようなニューラルネットワークとしては、例えば、畳み込みニューラルネットワーク、逆畳み込みニューラルネットワーク、これらのその双方が連結されたオートエンコーダー、及びＵ−Ｎｅｔ等のショートカットを持つネットワーク、等が挙げられる。速度推定部２０４が用いるニューラルネットワークは、画像が入力されると対象物の密度分布及び速度分布を出力するように、予め学習されている。

本実施形態のように、密度分布と速度分布とを同時に推定することにより、実施形態１に比べて対象物の移動ベクトルの推定にかかる時間を短縮することができる。

［実施形態３］
実施形態３において、座標推定部２０３は、密度分布を用いずに対象物の位置を推定する。このため、本実施形態において密度推定部２０２は省略することができる。以下では、実施形態１又は実施形態２と同じ部分については説明を省略し、異なる点のみについて説明する。

本実施形態において座標推定部２０３は、取得部２０１が取得した入力画像を用いて、対象物の密度分布を用いずに、計測対象となる対象物の位置座標を直接推定する。例えば、ステップＳ３０３において、座標推定部２０３は、時刻ｔ_２における第２の画像を用いて、時刻ｔ_２における人物の位置マップを、密度マップを用いずに生成することができる。そして、座標推定部２０３は、実施形態１と同様の処理を用いて、位置マップから人物の位置座標を推定することができる。この場合、ステップＳ３０２は省略することができる。

座標推定部２０３が入力画像から位置マップを推定する方法としては、様々な方法を利用できる。例えば、画像、又は画像から抽出された特徴量、又はこれらの双方を、ニューラルネットワークに入力する方法が挙げられる。座標推定部２０３が用いるニューラルネットワークは、２クラス分類問題に適した出力が得られるように、０以上１以下の値域を持つ出力層を持っていてもよい。

なお、本実施形態は実施形態２と組み合わせてもよい。この場合、速度推定部２０４は、取得部２０１が取得した入力画像を用いて、対象物の位置座標及び速度分布を推定することができる。

本実施形態のように、入力画像から直接位置座標を推定することにより、実施形態１に比べて対象物の移動ベクトルの推定にかかる時間を短縮することができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１００：画像処理装置、２０１：取得部、２０２：密度推定部、２０３：座標推定部、２０４：速度推定部、２０５：移動推定部、２０６：追跡部、２０７：計測部

Claims

動画像を取得する取得手段と、
前記動画像に基づいて、特定期間における対象物の動きを推定する推定手段と、
前記推定手段によって得られた、第１の期間における対象物の動きを示す情報と、第２の期間における対象物の動きを示す情報と、のマッチングにより、前記第１の期間及び前記第２の期間にわたる前記対象物の移動軌跡を生成する追跡手段と、
を備えることを特徴とする画像処理装置。
前記推定手段は、前記特定期間における対象物の動きを示す、前記動画像における前記対象物の動きベクトルを導出し、
前記追跡手段は、前記第１の期間における対象物の第１の動きベクトルと、前記第２の期間における対象物の第２の動きベクトルと、のマッチングにより、前記第１の期間及び前記第２の期間にわたる前記対象物の移動軌跡を生成することを特徴とする、請求項１に記載の画像処理装置。
前記第２の期間は前記第１の期間より後の期間であり、
前記追跡手段は、前記第１の動きベクトルの終点の位置と、前記第２の動きベクトルの始点の位置と、に基づいて前記マッチングを行うことを特徴とする、請求項２に記載の画像処理装置。
前記追跡手段は、前記第１の動きベクトルの終点の位置と、前記第２の動きベクトルの始点の位置と、の距離に基づくコストがより小さくなるように前記マッチングを行うことを特徴とする、請求項３に記載の画像処理装置。
前記第１の期間の終了時刻と、前記第２の期間の開始時刻とが一致することを特徴とする、請求項１から４のいずれか１項に記載の画像処理装置。
前記推定手段は、前記動画像に含まれる、前記第１の期間の開始時刻に撮像された画像と、前記第１の期間の終了時刻に撮像された画像と、に基づいて、前記第１の期間における対象物の動きを推定し、前記動画像に含まれる、前記第２の期間の開始時刻に撮像された画像と、前記第２の期間の終了時刻に撮像された画像と、に基づいて、前記第２の期間における対象物の動きを推定することを特徴とする、請求項１から５のいずれか１項に記載の画像処理装置。
前記追跡手段は、前記第１の期間における対象物の動きを示す情報にマッチングする前記第２の期間における対象物の動きを示す情報が見つからない場合、前記第１の期間における対象物の動きを示す情報に基づいて前記第２の期間における対象物の動きを推定することを特徴とする、請求項１から６のいずれか１項に記載の画像処理装置。
前記推定手段は、前記動画像における前記対象物の位置座標と、前記動画像の各位置について前記特定期間における前記対象物の移動量を表現する速度分布とを推定し、前記位置座標及び速度分布に基づいて前記特定期間における前記対象物の動きを推定することを特徴とする、請求項１から７のいずれか１項に記載の画像処理装置。
前記推定手段は、前記動画像に含まれる画像上の前記対象物の密度分布を推定し、前記密度分布に基づいて前記画像の各位置が前記対象物の代表点を表すかどうかを識別する２クラス分類を行うことにより、前記対象物の位置座標を推定することを特徴とする、請求項８に記載の画像処理装置。
前記推定手段は、前記動画像における前記対象物の位置座標と速度分布とを同時に推定することを特徴とする、請求項８又は９に記載の画像処理装置。
前記速度分布は、前記動画像の各位置について前記特定期間における対象物のＸ軸方向への移動量を表現するＸ方向速度分布と、前記動画像の各位置について前記特定期間における対象物のＹ軸方向への移動量を表現するＹ方向速度分布と、を含むことを特徴とする、請求項８から１０のいずれか１項に記載の画像処理装置。
前記推定手段は、前記速度分布における、前記対象物の位置座標を基準として定められる領域の値に基づいて、前記特定期間における前記対象物の移動量を推定し、前記対象物の位置座標及び前記対象物の移動量に基づいて前記対象物の動きを推定することを特徴とする、請求項８から１１のいずれか１項に記載の画像処理装置。
前記推定手段は、ニューラルネットワークを用いて前記位置座標及び前記速度分布の少なくとも１つを推定することを特徴とする、請求項８から１２のいずれか１項に記載の画像処理装置。
前記取得手段は、前記動画像に含まれるそれぞれの画像から、前記画像の一部である１以上の部分画像を抽出し、
前記推定手段は、それぞれの前記部分画像中の対象物の動きを推定することを特徴とする、請求項１から１３のいずれか１項に記載の画像処理装置。
前記取得手段は、前記画像を複数の領域に分割し、前記複数の領域から選択された１以上の領域のそれぞれについて、前記領域及び前記領域のマージン領域から前記部分画像を抽出することを特徴とする、請求項１４に記載の画像処理装置。
前記対象物の移動軌跡に基づいて、１以上の前記対象物の流れを計測する計測手段をさらに備えることを特徴とする、請求項１から１５のいずれか１項に記載の画像処理装置。
前記計測手段は、前記対象物の流れが計測される計測領域によって区切られる一方の領域から他方の領域へと移動した前記対象物の数と、前記他方の領域から前記一方の領域へと移動した前記対象物の数と、の差分を算出することを特徴とする、請求項１６に記載の画像処理装置。
動画像を取得する取得手段と、
前記動画像における対象物の位置座標と、前記動画像の各位置について特定期間における前記対象物の移動量を表現する速度分布とを推定し、前記位置座標及び前記速度分布に基づいて前記特定期間における前記対象物の動きを推定する推定手段と、
を備えることを特徴とする画像処理装置。
画像処理装置が行う画像処理方法であって、
動画像を取得する工程と、
前記動画像に基づいて、特定期間における対象物の動きを推定する工程と、
推定により得られた、第１の期間における対象物の動きを示す情報と、第２の期間における対象物の動きを示す情報と、のマッチングにより、前記第１の期間及び前記第２の期間にわたる前記対象物の移動軌跡を生成する工程と、
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１乃至１８の何れか１項に記載の画像処理装置の各手段として機能させるためのプログラム。