JP7383435B2 - 画像処理装置、画像処理方法、及びプログラム - Google Patents

画像処理装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
JP7383435B2
JP7383435B2 JP2019168734A JP2019168734A JP7383435B2 JP 7383435 B2 JP7383435 B2 JP 7383435B2 JP 2019168734 A JP2019168734 A JP 2019168734A JP 2019168734 A JP2019168734 A JP 2019168734A JP 7383435 B2 JP7383435 B2 JP 7383435B2
Authority
JP
Japan
Prior art keywords
image
image processing
density
person
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019168734A
Other languages
English (en)
Other versions
JP2021047538A5 (ja
JP2021047538A (ja
Inventor
元 牟田
康夫 馬塲
光太郎 矢野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019168734A priority Critical patent/JP7383435B2/ja
Priority to US17/021,297 priority patent/US11721036B2/en
Priority to CN202010966844.7A priority patent/CN112598725A/zh
Priority to EP20196124.0A priority patent/EP3796256A1/en
Publication of JP2021047538A publication Critical patent/JP2021047538A/ja
Publication of JP2021047538A5 publication Critical patent/JP2021047538A5/ja
Application granted granted Critical
Publication of JP7383435B2 publication Critical patent/JP7383435B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)

Description

本発明は画像処理装置、画像処理方法、及びプログラムに関し、特にビデオカメラ又は防犯カメラ等で撮像された動画像の解析技術に関する。
近年、カメラ等で撮像された動画像から、撮影領域における対象物(例えば人)の流れ(例えば人数又は方向)、すなわち人流を解析する装置が提案されている。対象物の流れを測定するためには、動画像から対象物を検出することが必要である。特許文献1は、定点カメラで撮像された画像に含まれる人物領域を検出し、人物の数を計測する方法を開示している。
特開2007-201556号公報
例えば群衆を撮像する場合のように、対象物が混雑しているシーン(混雑シーン)において対象物の流れを精度よく測定するためには、このようなシーンにおいても対象物の位置を精度よく検出することが求められる。一方、特許文献1では、画像が人物で占められている領域を検出することにより人物を検出している。この方法では、人物同士の重なりが大きくなると人物の検出精度が低下するため、混雑シーンにおいて流れの測定精度が低下する。
本発明は、混雑シーンにおける対象物の流れの計測精度を向上させることを目的とする。
本発明の目的を達成するために、例えば、本発明の画像処理装置は以下の構成を備える。すなわち、
画像中において対象物が存在すると推定される領域を表す密度分布を推定する密度推定手段と、
前記密度推定手段により推定される密度分布を表す密度マップの各位置について前記対象物の代表点を表すか否かを識別することにより、前記画像中における前記対象物の位置を推定する位置推定手段と、
前記位置推定手段により推定される複数の前記画像中の前記対象物の位置を対応付けする対応付け手段と、
前記対応付け手段により対応付けられる複数の前記画像中の前記対象物の位置に基づいて、計測線を通過した前記対象物の数を計測する計測手段と、
を備えることを特徴とする。
混雑シーンにおける対象物の流れの計測精度を向上させる。
画像処理装置のハードウェア構成の一例を示す図。 画像処理装置の機能構成の一例を示す図。 画像処理装置の処理の流れの一例を示す図。 入力画像から部分画像を抽出する方法の一例を示す図。 部分画像の中央領域及びマージン領域を説明する図。 入力画像における人物の密度分布推定の一例を示す図。 密度分布からの人物の位置座標推定の一例を示す図。 位置マップから人物の位置座標を求める処理の一例を示す図。 異なる時刻における人物の位置座標同士のマッチング方法を示す図。 マッチングで用いられるコスト行列及びマッチング結果の一例を示す図。 マッチングにより人物の移動軌跡を求める処理の一例を示す図。 人物の予測位置に基づくマッチング方法を示す図。 移動軌跡が途切れた場合に移動軌跡を補完する方法を示す図。 人物の移動軌跡から流量を計測する方法の一例を示す図。 人物の移動軌跡から流量を計測する方法の一例を示す図。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
図1は、本発明の一実施形態に係る画像処理装置100のハードウェア構成例を示す。画像処理装置100は、制御装置11、記憶装置12、演算装置13、入力装置14、出力装置15、及びI/F装置16を有する。
制御装置11は、画像処理装置100の全体を制御する装置である。記憶装置12は、制御装置11の動作に必要なプログラム及びデータを保持する。演算装置13は、制御装置11からの制御に基づき、必要な演算処理を実行する。例えば、演算装置13は、後述するニューラルネットワーク演算を行ってもよい。入力装置14は、ヒューマンインターフェースデバイス等であり、ユーザの操作による入力を取得する。出力装置15は、ディスプレイ等であり、画像処理装置100が生成した処理結果等をユーザに提示する。
I/F装置16は、ユニバーサルシリアルバス、イーサネット(登録商標)、若しくは光ケーブル等の有線インターフェース、又はWi-Fi若しくはBluetooth(登録商標)等の無線インターフェースである。I/F装置16を解して、他の装置を画像処理装置100に接続することができる。例えば、I/F装置16にはカメラ等の撮像装置を接続することができ、I/F装置16を介して画像処理装置100は撮像画像を取得することができる。別の例として、画像処理装置100は、I/F装置16を介して処理結果を外部に送信することができる。さらなる例として、画像処理装置100は、動作に必要なプログラム又はデータ等をI/F装置16を介して取得することができる。
後述する画像処理装置100の機能は、例えば、プロセッサ(例えば制御装置11)が、メモリ(例えば記憶装置12)上のプログラムに従って動作することにより実現することができる。上記の記憶装置12又はその他の記憶媒体は、このようなプログラムを格納することができる。もっとも、後述する画像処理装置100の少なくとも一部の機能は、専用のハードウェアによって実現されてもよい。また、本発明の一実施形態に係る画像処理装置は、例えばネットワークを介して接続された複数の装置によって構成されていてもよい。
図2は、本発明の一実施形態に係る画像処理装置100の機能構成例を示す。画像処理装置100は、機能構成として、取得部201、密度推定部202、座標推定部203、追跡部204、計測部205を有している。
取得部201は、複数の画像を含む動画像を取得する。取得部201が取得した動画像に対して、対象物の流れを計測するための解析が行われる。対象物の流れとは、画像上での対象物の流れであってもよいし、画像解析により推定される現実空間における対象物の流れであってもよい。なお、解析の対象物は特に限定されず、人物、自転車若しくはバイク等の乗り物、車若しくはトラック等の車両、又は家畜等の動物等が挙げられる。
動画像とは、例えば、ストリーミング、動画ファイル、フレーム毎に保存された一連の画像ファイル、又はメディアに保存された動画等であり、これらは複数のフレーム画像を含んでいる。複数の画像のそれぞれは、例えば、同一の場所にある撮像装置により異なる時刻に撮像されていてもよい。取得部201は、CMOSセンサー若しくはCCDセンサー等の固体撮像素子、又はこれらの固体撮像素子を備えるカメラ等の撮像装置から動画像を取得することができる。また、取得部201は、ハードディスク若しくはSSD等の記憶装置、又は記録メディア等から、動画像データを取得してもよい。
密度推定部202は、取得部201が取得した画像を用いて、流れの計測対象である対象物の、画像中での密度分布を推定する。密度分布とは、画像において、流量計測の対象物(例えば人物の頭部等)が存在すると推定される箇所を表現したものである。密度分布は、画像中で対象物が存在すると推定された領域を示すことができる。密度分布は、例えば、対象物が存在する可能性が高い位置を中心とする、対象物の大きさに応じた一様分布であってもよい。また、密度分布は、対象物が存在する可能性が高い位置に極大を持つような任意の分布であってもよい。後者の例としては、例えば、ガウス分布が挙げられる。密度分布は、対象物が存在する可能性を示していてもよい。密度推定部202は、画像中の各位置における対象物の密度を表す密度マップを、密度分布を表す情報として出力することができる。なお、この密度マップの解像度は、画像と同じであってもよいし、画像より低くてもよい。
画像中で対象物が重なる場合に、密度推定部202は、それぞれの対象物に対応する密度分布が重ね合わされた密度分布を求めてもよい。この密度分布は、1つの対象物に対応する密度分布における密度の総和が1となるように規格化されていてもよい。この場合、密度推定部202が生成する密度分布における密度の総和は、画像中の対象物の数に対応する。
密度推定部202が密度分布を推定する方法としては、様々な方法を利用できる。例えば、画像、又は画像から抽出された特徴量、又はこれらの双方を、ニューラルネットワークに入力する方法が挙げられる。このようなニューラルネットワークとしては、例えば、畳み込みニューラルネットワーク、逆畳み込みニューラルネットワーク、これらのその双方が連結されたオートエンコーダー、及びU-Net等のショートカットを持つネットワーク、等が挙げられる。密度推定部202が用いるニューラルネットワークは、画像が入力されると対象物の密度分布を出力するように、予め学習されている。このような学習は、学習用の画像と、上記のような画像の密度分布を表す教師データと、を用いて行うことができる。例えば、ニューラルネットワークからの出力値の総和が対象物の数となるように、すなわち出力値が画像の各位置の対象物の密度を表すように、学習を行うことができる。
座標推定部203は、密度推定部202により得られた密度分布から、画像中の対象物の位置を推定する。例えば、座標推定部203は、推定された対象物の位置の座標を出力することができる。対象物の位置の座標とは、画像における対象物の代表点の座標である。対象物の代表点は、例えば、対象物である人物の頭部中心であってもよい。
座標推定部203が位置を推定する方法は特に限定されず、例えば密度分布の重心を対象物の位置として推定してもよい。一方で、密度推定部202が出力する1つの対象物に対応する密度分布の境界はぼやけることがあり、また、この境界は様々な形状を有している。さらに、1つの対象物に対応する密度分布同士が重なり合うことにより、密度分布が複雑な形状を有する可能性がある。さらには、特定の状況で密度推定部202が想定外の出力をすることもあり得る。一実施形態においては、座標推定部203はニューラルネットワークを用いて対象物の位置を推定する。ニューラルネットワークを用いることにより、入力される密度分布にかかわらず、事前に定義された一定の演算量で位置の推定結果を得ることができる。このため、座標推定部203は、密度推定部202が出力する様々な密度分布に対応可能である。
座標推定部203が用いるニューラルネットワークは、例えば、密度分布を表す密度マップが入力されると、密度マップの各位置についての2クラス分類の推定結果を確率で表す、位置マップを出力することができる。座標推定部203は、このように、画像の各位置について対象物の代表点を表すかどうかを識別する2クラス分類を行うことができる。この2クラス分類においては、密度マップの各位置が対象物の位置座標を表すなら推定結果は1に、対象物の位置座標を表さないなら推定結果は0となる。位置マップ701は、密度マップの各位置について、対象物の位置座標を表す確率を表すことができる。このような位置マップはほとんどの要素が0であるスパースなものであるため、スパースな出力を扱える2クラス分類問題に帰着させることで、このような位置マップを生成するニューラルネットワークの学習が容易となる。
このようなニューラルネットワークとしては、例えば、畳み込みニューラルネットワーク、逆畳み込みニューラルネットワーク、これらのその双方が連結されたオートエンコーダー、及びU-Net等のショートカットを持つネットワーク、等が挙げられる。また、座標推定部203が用いるニューラルネットワークは、0以上1以下の値域を持つ出力層を持つことができる。このような出力層としては、例えば、ステップ関数、シグモイド関数、又はソフトマックス関数等が挙げられる。このような出力層を持つニューラルネットワークは、2クラス分類問題に適した出力を与えることができる。
座標推定部203が用いるニューラルネットワークは、密度マップが入力されると対象物の位置を出力するように、予め学習されている。このような学習は、例えば、学習用の密度マップと、人物の位置に対応する要素が1であり、それ以外の要素が0である、密度マップに対応する位置マップを表す教師データと、を用いて行うことができる。
計測部205は、座標推定部203により推定された、複数の画像中の対象物の位置から、対象物の流れを計測する。計測部205は、例えば、対象物の流量、又は対象物の流れの向きなどを計測することができる。流量とは、例えば、あらかじめ設定された計測領域又は計測線を通過する対象物の数であってもよい。例えば、計測部205は、計測領域によって区切られる一方の領域から他方の領域へと移動した対象物の数を計測することができる。計測領域として線分(計測線)を用いる場合、計測部205は、計測線を交差した対象物の数を計測することができる。
このような計測領域は、撮影シーンに基づき予め決められていてもよい。この場合、計測部205は、予め決められた計測領域の設定値を記憶装置12等のメモリから取得してもよい。また、計測部205は、出力装置15に表示された画像を参照しながら入力装置14に接続されたヒューマンインターフェースデバイス等を操作することによってユーザが入力した設定値を取得してもよい。
計測領域は、1つであってもよいし、複数であってもよい。また、計測領域の形状は特に限定されず、例えば、任意の折れ線、曲線、多角形、円形、若しくは楕円形、又は任意の閉曲線からなる図形であってもよい。また、計測領域は、太さのない線であってもよいし、太さを有する線(又は長い矩形)であってもよい。このような計測領域は、線又は矩形等の任意のガイド図形を基準に設定されてもよい。例えば、ガイド図形に従う形状の計測領域が、画像中の特定の位置に設けられてもよい。このようなガイド図形は1つであっても複数であってもよい。また、ガイド図形が、幅を大きくする等の方法により拡張されてもよい。
対象物の位置に基づいて対象物の流れを計測する方法は特に限定されないが、本実施形態において計測部205は、追跡部204による対象物の追跡結果を用いて計測を行う。追跡部204は、対象物の位置を追跡する。追跡部204は、座標推定部203により推定された対象物の位置に基づいて、対象物の位置を追跡することができる。例えば、追跡部204は、複数の画像のそれぞれにおいて推定された対象物の位置に基づいて、同一と推定される対象物について、時間にわたる位置の変化を追跡することができる。
一実施形態において追跡部204は、座標推定部203が出力した対象物の位置座標に基づいて、対象物の位置座標を追跡することにより、対象物の移動軌跡を得る。追跡部204は、複数の画像のうちの第1の時刻における第1の画像中の対象物の位置と、複数の画像のうちの第2の時刻における第2の画像中の対象物の位置と、を対応付けることができる。このような対応付けを繰り返すことにより、追跡部204は対象物の移動軌跡を得ることができる。
例えば、追跡部204は、複数の異なる時刻における画像中の対象物の位置座標リストを用いて追跡を行うことができる。例えば、密度推定部202及び座標推定部203は、同じ場所を同じ画角で異なる時刻に撮像することにより得られた複数の画像のそれぞれに対して上記の処理を行うことにより、それぞれの画像に対応する対象物の位置座標リストを生成することができる。追跡部204は、異なる時刻間で、位置座標リストに示される対象物の位置座標をマッチングすることにより、対象物の移動軌跡を得ることができる。この場合、計測部205は、例えば移動軌跡が計測線と交差しているかどうかを判定することにより、対象物の流量を計測することができる。具体的な処理例については図3を参照しながら後述する。
本実施形態に係る画像処理装置100の処理例を、図3を参照して説明する。以下では、人物の流量計測を行う例について説明する。具体的には、あらかじめ設定された計測領域を通過する人数が計測される。
ステップS301において取得部201は動画像を取得する。また、取得部201は、流量計測に用いられる複数の画像を動画像から取得する。例えば、取得部201は、計測開始時刻から計測終了時刻までの間の複数回の撮像により得られた複数の画像を取得することができる。なお、取得部201は、撮像装置から各フレーム画像を順次取得してもよい。以下では、ステップS301で取得される複数の画像のそれぞれを入力画像と呼ぶ。ステップS302及びS303の処理は、入力画像のそれぞれについて行われる。
取得部201は、入力画像から、1つ又は複数の部分画像を抽出してもよい。取得部201は、複数の画像のそれぞれから、画像の一部である1以上の部分画像を抽出することができる。このように入力画像よりも小さいサイズを有する部分画像を用いることで、ステップS302以降の処理量を減らすことができる。このような構成により、リアルタイムでの流量計測が容易となる。入力画像から抽出される部分画像の領域は、あらかじめ設定されていてもよい。また、部分画像の領域はユーザにより設定されてもよい。例えば、ユーザが入力装置14に接続したヒューマンインターフェースデバイス等をユーザが操作することにより、出力装置15に表示された入力画像上の部分領域を設定することができる。部分画像の領域の設定方法及び具体的な形状は特に限定されない。例えば、取得部201は、ユーザが指定した領域に基づいて、抽出される部分領域を自動的に決定してもよい。取得部201は、既に説明したように計測領域のユーザ指定を取得することができる。この場合、取得部201は、指定された計測領域に基づいて部分画像の領域を自動的に設定してもよい。例えば、取得部201は、計測領域を含むように入力画像から部分画像を抽出することができる。
また、取得部201は、図4(A)のように、入力画像400の全体を複数の領域へと分割してもよい。この場合、複数の領域から選択された1以上の領域のそれぞれから部分画像を抽出してもよい。例えば、図4(A)に示すように入力画像400に計測領域401を設定した場合、計測領域401を包含する、太枠で囲まれた矩形領域から、流量計測に使用する部分画像を抽出することができる。また、図4(B)のように、入力画像402の一部に、計測領域403を包含する1つ又は複数の矩形領域を設定することができる。そして、こうして設定された矩形領域から、流量計測に使用する部分画像を抽出することができる。
図4(A)(B)において部分画像の形状は矩形であるが、部分画像の形状は、例えば、任意の多角形、円形、若しくは楕円形、又は任意の閉曲線からなる図形であってもよい。また、計測領域の形状が線分ではなく、例えば、任意の折れ線、曲線、多角形、円形、若しくは楕円形、又は任意の閉曲線からなる図形である場合にも、同様の手法で部分画像を抽出することができる。
ところで、カメラ等の撮像装置により得られた入力画像内では、位置により計測対象となる人物の映る大きさが異なることがある。したがって、画像内の位置に応じて部分画像の大きさを変えることができる。例えば、部分画像の大きさと人物の大きさとの比がほぼ一定となるように、部分画像の大きさを決定し、この大きさに応じて部分画像を抽出することができる。ここで、人物の大きさとは、例えば、人物の頭部と肩を包含する部分の大きさ、人物の頭部の大きさ、人物の全身の大きさ等でありうる。図4(A)(B)はこのように部分画像の大きさを変化させる例を示す。すなわち、図4(A)(B)においては、すなわち遠くの人物が映る領域、すなわち入力画像の上方において、部分画像の大きさが小さくなっている。
このように部分画像を設定した場合、ステップS302及びS303の処理は、入力画像中の部分画像のそれぞれについて行うことができる。すなわち、密度推定部202は、それぞれの部分画像中の対象物の密度分布を推定し、座標推定部203は、それぞれの部分画像についての密度分布から対象物の位置を推定することができる。一方で、ステップS302及びS303における推定結果の精度は、部分画像の境界領域(周辺領域)において低くなる傾向がある。このため、一実施形態においては、部分画像中に中央領域を規定し、この中央領域から検出された人物に関して、ステップS305における流量計測を行うことができる。このような構成によれば、精度の高い人物検出結果を用いて流量計測が行われるため、計測精度が向上する。
部分画像に中央領域を規定する方法としては、例えば図5(A)に示すように、部分画像500の内側に、中央領域501、及び部分画像500の境界線と中央領域501の境界線とに囲まれたマージン領域502を規定する方法が挙げられる。図5(A)の例において、中央領域501は矩形であるが、中央領域501の形状は特に限定されない。例えば、中央領域501の形状は、多角形、円形、楕円形、又は任意の閉曲線など、部分画像500の内部に含まれる任意の形状でありうる。
マージン領域の大きさは、流量計測の対象となる人物の大きさに合わせて設定することができる。例えば、マージン領域を、人物の検出に必要な部分を含むことができる大きさに設定することができる。図5(B)はその一例を示す。図5(B)では、部分画像500のマージン領域502が、流量計測の対象となる人物503又は人物504の検出に必要な部分を含むことができる大きさに設定されている。より具体的には、人物の頭部と肩を含むことができるように、マージン領域の大きさが設定されている。他の例としては、人物の頭部のみ、あるいは人物の全身がマージン領域に含まれるように、マージン領域を設定してもよい。
入力画像から複数の部分画像を抽出する場合、隣接する部分画像が互いに重なるように部分画像の領域を設定することができる。例えば、取得部201は、画像を複数の領域に分割することができる。そして、取得部201は、複数の領域から選択された1以上の領域のそれぞれについて、領域(中央領域)及びこの領域の周辺にあるマージン領域から、部分画像を抽出することができる。図5(C)はそのような分割の一例を示す。図5(C)においては、隣り合う2つの部分画像505及び部分画像506が互いに部分的に重なり合っている。より具体的には、部分画像505の中央領域507と、部分画像506の中央領域508との間に隙間ができないように、部分画像505及び部分画像506が抽出されている。検出対象である人物510が部分画像505のマージン領域512にある場合であっても、部分画像505に隣接する部分画像506の中央領域508から人物510を検出できる。
図5(C)に示されるように、各部分画像の中央領域同士を隙間なく隣接させることにより、いずれかの部分画像の中央領域で計測対象となる人物を検出することができるため、計測精度が向上する。このような部分画像の抽出方法としては、入力画像を複数の領域に分割し、それぞれの領域(中央領域に相当)及び周りのマージン領域から、1つの部分画像を抽出する方法が挙げられる。さらに、各部分画像のマージン領域を確保しつつ、必要最小限の面積で計測領域をカバーできる分割方法を、最適化計算等で決定してもよい。図5(D)においては、入力画像520に設定された計測領域521に沿って、それぞれがマージン領域を有する複数の部分画像522が抽出されている。
以下の説明において、入力画像は、入力画像そのもの、又は部分画像を指すものとする。すなわち、ステップS302及びS303の処理は、入力画像に対して、又は入力画像中の部分画像のそれぞれに対して、行うことができる。
ステップS302において、密度推定部202は、上述のように、取得部201が取得した入力画像を元に計測対象となる人物の密度分布を推定する。図6(A)の例では、密度推定部202は、入力画像600における人物601の頭部位置の密度分布を推定する。密度推定部202は、図6(B)に示すように、人物601の頭部位置の密度分布603を示す密度マップ602を生成している。
なお、密度推定部202が用いる入力画像は1つに限定されず、密度推定部202は複数の入力画像を用いて密度分布を推定してもよい。例えば、密度推定部202は、複数の入力画像をニューラルネットワークに入力することにより、密度分布を推定してもよい。密度推定部202が用いる複数の入力画像は、例えば、動画像に含まれる、複数の異なるフレームの画像であってもよい。また、密度推定部202が出力する密度分布も1つには限定されない。例えば密度推定部202は、複数の入力画像にそれぞれ対応している、複数の密度分布を出力してもよい。密度推定部202が複数の密度分布を出力する場合、後続する座標推定部203には全ての密度分布が入力されてもよいし、選択された一部の密度分布が入力されてもよい。
ステップS303において座標推定部203は、上述のように、密度推定部202が出力した密度分布を元に人物の位置座標を推定する。例えば座標推定部203は、図7(A)に示す密度マップ700をニューラルネットワークに入力することにより、図7(B)に示す位置マップ701を出力することができる。位置マップ701は、人物の位置座標が、位置マップ701における要素の位置と一致している場合を示す。この場合、1人の人物について1つの要素の値(確率値)が大きくなるため、このような要素の位置を人物の位置座標として判定することができる。
一方で、図7(C)に示す位置マップ702のように、人物の位置座標が、位置マップ702における要素の位置(すなわち格子点の位置)からずれる場合、1人の人物について複数の要素の値(確率値)が大きくなる。このように、入力画像の互いに隣接する複数の位置が、対象物の位置を表すと推定されることがある。この場合、座標推定部203は、対象物の位置を表すと推定された、入力画像の互いに隣接する複数の位置に基づいて、対象物の位置を求めることができる。例えば、座標推定部203は、複数の要素に分かれている確率値を1つにまとめることにより、人物の位置座標を決定することができる。
例えば図8(A)~(C)に示すように、座標推定部203は、ニューラルネットワークから出力された位置マップ800に対して3×3のmax poolingを適用することによってマップ801を得ることができる。そして、座標推定部203は、位置マップ800と、マップ801とを、要素ごとに比較することができる。この場合、座標推定部203は、マップ802に示されるように、位置マップ800とマップ801との間で値が一致している要素の座標を、人物の位置座標として判定することができる。max poolingのカーネルサイズは3×3に限定されず、5×5などの別のサイズであってもよい。また、max poolingの処理は、単独で行われてもよいし、座標推定部203が用いるニューラルネットワークの出力層の次にmax pooling層を追加することにより行われてもよい。
複数の確率値をまとめる方法はこの方法には限定されず、座標推定部203は、例えばwatershed等の、他の極大値検出法を用いてもよい。また、座標推定部203は、確率値が検出された複数の要素をクラスタリングし、各クラスタの中心座標を人物の位置座標とする方法を用いてもよい。クラスタリングの方法としては、例えば、階層クラスタリング又はK平均法などが挙げられる。クラスタの中心座標は、クラスタ内の要素座標の単純平均でもよいし、クラスタ内の要素のうち最大の確率値を持つ要素座標でもよいし、又は、各要素の要素座標の存在確率等による重みづけ平均値でもよい。
なお、座標推定部203が用いるニューラルネットワークが出力する位置マップにおいては、人物の位置座標に対応しない要素が、ノイズである微小な確率値を持っているかもしれない。このようなノイズがノイズが乗っている状態で、図8の例に示すように隣接する要素の確率値を1点にまとめる処理を行うと、微小なノイズを持つ要素の座標が人物の位置座標と判定されてしまうかもしれない。このため、座標推定部203は、ニューラルネットワークが出力した位置マップにおいて、閾値以下の、ノイズとみなせるような微小な確率値をゼロに修正してから、確率値を1点にまとめる処理、及び人物の位置座標の判定を行ってもよい。
ステップS304において追跡部204は、座標推定部203が出力した位置座標を元に人物の位置座標を追跡し、人物の移動軌跡を得る。上記のように、ステップS302及びS303の処理を、異なる時刻に得られた入力画像のそれぞれについて行うことにより、複数の異なる時刻における入力画像に含まれる人物の位置座標リストを得ることができる。図9は、時刻tにおける位置座標リスト900と、時刻tより後の時刻tにおける位置座標リスト901を示す。それぞれの位置座標リスト900,901には、入力画像から検出された人物の位置が示されている。追跡部204は、位置座標リスト900と位置座標リスト901との間で、人物の位置のマッチング902(対応付け)を行うことにより、時刻tから時刻tまでの人物の移動軌跡903を得ることができる。
マッチング方法は特に限定されない。追跡部204は、例えば、マッチング結果に基づいて算出されるコストの総和が小さくなるように、マッチングを行うことができる。このようなマッチングを行うためのアルゴリズムとしては、例えば、ハンガリアンマッチング、線形計画法、又はニューラルネットワーク等が挙げられる。参照することができるコストの例としては、人物間の距離等が挙げられる。また、入力画像間での人物の画像情報の類似度に基づくコストを用いることもできる。さらに、1つの種類のコストが用いられてもよく、複数の書類のコストが組み合わせて用いられてもよい。例えば、人物間の距離と、入力画像間での人物の画像情報の類似度と、の双方に基づいてコストが算出されてもよい。追跡部204は、このようなコストが最小となるようにマッチングを行うことができる。
以下では、図10を参照して、人物間の距離をコストとして用いる例について説明する。図10(A)に示される入力画像1000には、人物の位置座標A,B,Cが示されている。また、入力画像1000の前フレームの画像からは、人物の位置座標b,c,dが検出されている。なお、この例においては、位置座標bと位置座標Bは同じ人物の位置座標であり、位置座標cと位置座標Cも同じ別の人物の位置座標である。したがって、位置座標の組(b,B)及び(c,C)を含むマッチング結果が正解である。
一方で、追跡部204が、人物間の距離の総和が最小になるようにマッチングを行うと、位置座標の組(c,B)及び(b,C)が得られる可能性がある。そこで、追跡部204は、距離bBに対応するコストと距離cCに対応するコストとの和が、距離cBに対応するコストと距離Cbに対応するコストとの和より小さくなるように、コストを定義することができる。一実施形態において、距離dに対するコストは、距離2dに対応するコストの半分よりも小さい。例えば、長い距離Cbをより強調するような距離の尺度を用いてコストを定義することができる。このような距離の尺度としては、平方ユークリッド距離等が挙げられる。
また、入力画像1000の位置座標Aに映っている人物は、前フレームの撮像時には撮像範囲外の位置座標aに存在しており、撮像範囲内に移動してきた。さらに、前フレームの画像において位置座標dに映っていた人物は、入力画像1000の撮像時には撮像範囲外の位置座標Dに移動していた。このような場合、位置座標A,dとマッチングされるべき位置座標a,Dは、入力画像1000及び前フレームの入力画像からは検出されない。このような例において、入力画像1000の撮像範囲内から検出された全ての位置座標を、人物間の距離の総和が最小になるようにマッチングすると、正しくないマッチング結果が得られる可能性がある。例えば、図10(A)の例では、位置座標の組(A,b)、(B,c)、及び(C,d)が得られるかもしれない。
一実施形態において、追跡部204は、位置座標A,dのような孤立した位置座標がマッチングされないように、マッチングを行うことができる。例えば、マッチングの最大距離rを設定することができる。この場合、追跡部204は、最大距離rよりも離れている位置座標同士がマッチングしないように、マッチングを行うことができる。
図10(B)(C)は、孤立した位置座標がマッチングされないようにするための、ハンガリアンマッチングで用いるコスト行列及びマッチング結果の例を示す。図10(B)において、B,C,b,cは、それぞれ図10(A)に示す位置座標B,C,b,cに対応する。位置座標A,dは、自分以外の全ての位置座標との距離が最大距離rを越えている、孤立した位置座標である。このため、位置座標A,dが他の位置座標とマッチングされないように、位置座標A,dに関するコストは図10(B)のコスト行列から除外されている。追跡部204は、このようなコスト行列を、例えば平方ユークリッド距離に基づいて生成することができる。図10(B)の例では、コストの総和が最小となるように、太枠で示される位置座標の組(B,b)及び(C,c)が得られている。
図10(C)に示す別の例において、A,B,C,b,c,dは、それぞれ図10(A)に示す位置座標A,B,C,b,c,d(以下実座標と呼ぶ)に対応する。図10(C)の例では、追跡部204は、最初に実座標同士のコスト行列を、例えば平方ユークリッド距離に基づいて生成する。続いて、追跡部204は、入力画像1000から検出された実座標である位置座標A,B,Cと同じ数である3つのダミー、すなわちx1、x2、及びx3に対応する列を追加する。さらに、追跡部204は、前フレームの画像から検出された実座標である位置座標b,c,dと同じ数である数3つのダミー、すなわちX1、X2、及びX3に対応する行を追加する。そして、追跡部204は、ダミーと任意の実座標との間のコストを、最大距離rよりも大きい値rを用いて設定し、距離がrよりも大きい実座標同士の間のコストを、rよりもさらに大きいrを用いて設定する。すなわち、r<r<rである。追跡部204は、このようなコスト行列を、例えば平方ユークリッド距離に基づいて生成することができる。このようなコスト行列を用いてマッチングを行うと、孤立した実座標は他の実座標とはマッチングせず、ダミーとマッチングする。また、余ったダミーはダミー同士でマッチングする。図10(C)では、コスト行列を用いたマッチングの結果が太枠で示されている。追跡部204は、これらのダミーとのマッチング結果を除外することにより、マッチング結果を得ることができる。
さらなる別の例において、追跡部204は、マッチングを行う前に、最大距離rの範囲内にある位置座標同士をグルーピングしてもよい。この場合、追跡部204は、グループごとに、グループに含まれる位置座標同士のマッチングを行うことができる。例えば、追跡部204は、各グループについて個別に図10(B)又は図10(C)に示すようなコスト行列を生成し、マッチングを行うことができる。図10(A)に示されるような孤立した位置座標A,dは、このようなグルーピングにより取り除かれる。このような方法によれば、人物の数、すなわち検出された位置座標の数が多い場合に、処理速度を向上させることができる。グルーピングの方法は特に限定されないが、例えば、孤立した位置座標を含むコスト行列又は隣接グラフを用いて連結されていない独立したグラフを探索する方法が挙げられる。また、階層クラスタリング又はK平均法等のクラスタリング法を用いることもできる。
上記のように、追跡部204は、入力画像から検出された人物の位置座標と、前の時刻に撮像された画像から検出された人物の位置座標と、をマッチングさせることができる。一方で、追跡部204は、以前に得られたマッチング結果を参照して、このマッチングを行ってもよい。
一実施形態において、追跡部204は、時刻tにおける位置座標と、時刻tにおける位置座標と、のマッチング結果を参照して、時刻tにおける位置座標と、時刻tより後の時刻tにおける位置座標と、をマッチングさせる。例えば図11の例では、追跡部204は、時刻tと時刻tとの間での位置座標のマッチング結果1100と、時刻tにおける位置座標リスト1101と、のマッチング1102を行っている。このような処理により、時刻tから時刻tを経て時刻tに至る人物の移動軌跡1103が得られる。このような処理をさらに後の時刻における位置座標に対して繰り返すことで、長時間にわたる同一人物の移動軌跡を得ることができる。
この際に追跡部204は、時刻tにおける位置座標、及び時刻tにおける位置座標に加えて、時刻tにおける人物の移動方向又は移動速度を用いて、マッチングを行うことができる。すなわち、追跡部204は、時刻tにおける人物の移動方向又は移動速度と矛盾しない時刻tにおける位置座標を、時刻tにおける位置座標と優先的にマッチングさせることができる。
例えば追跡部204は、少なくとも時刻tにおける入力画像中の対象物の位置に基づいて、時刻tにおける入力画像中の対象物の位置を予測することができる。図12(A)は、時刻tと時刻tとの間での人物の位置座標の動きの例を示す。この例では、時刻tにおいて位置座標b,cが、時刻tにおいて位置座標B,Cが、それぞれ検出されている。この例では、人物同士が接近しているため、誤った(B,c)というマッチング結果が得られる可能性がある。追跡部204は、図12(B)に示すように、時刻tにおける人物の予測位置座標b,cを用いてマッチングを行うことにより、マッチング精度を向上させることができる。
追跡部204は、時刻tにおける人物の予測位置座標b,cを、時刻tより前の時刻における移動軌跡から求めることができる。例えば、追跡部204は、時刻tまでのマッチング結果に基づいて得られた移動軌跡を用いて、人物の予測位置座標b,cを求めることができる。図12(B)の例では、時刻tにおける位置座標b’と時刻tにおける位置座標bとがマッチングされており、時刻tにおける位置座標c’と時刻tにおける位置座標cとがマッチングされている。この例において追跡部204は、時刻tから時刻tに至る移動軌跡1201から、時刻tの予測位置座標1202(b,c)を求めることができる。予測位置座標の計算方法は特に限定されない。例えば追跡部204は、時刻t及び時刻tの位置座標を用いて、線形外挿により時刻tの予測位置座標を求めることができる。
そして、追跡部204は、上述の方法に従って、予測位置座標1202(b,c)と、検出された時刻tにおける位置座標1203(B,C)とのマッチング1204を行う。このように、追跡部204は、検出された時刻tにおける位置座標b,cの代わりに、時刻tにおける予測位置座標b,cを、検出された時刻tにおける位置座標B,Cとマッチングさせる。この方法によれば、位置座標b,cよりも、予測位置座標b,cの方が、位置座標B,Cと近接していることが期待されるので、マッチングの精度を向上させることができる。予測位置座標b,cと位置座標B,Cとのマッチング結果に基づいて、追跡部204は、位置座標B,Cと位置座標b,cとをマッチングさせることができる。こうして、時刻tから時刻tを経て時刻tに至る移動軌跡1205が得られる。
なお、時刻tにおける予測位置座標の計算には、2つの時刻(時刻t,t)における位置座標を用いる代わりに、時刻tより前の複数の時刻における位置座標を用いてもよい。
何らかの理由で、取得部201が取得する入力画像が欠落する、密度推定部202による人物の密度分布が欠落する、又は座標推定部203が人物の位置座標を検出しないことがあるかもしれない。例えば図13(A)の例に示すように、時刻tにおける人物の位置1304が検出されず、時刻tで再検出されることがある。このように人物の移動軌跡が途切れている場合、人物は計測領域を表す線分1301及び1302を通過していないと判定されるかもしれない。このような事象を避けるため、図13(B)に示すように、追跡部204は、時刻tの予測位置座標1305を用いることで、途切れた移動軌跡を埋め合わせることができる。このような方法により、移動軌跡が途切れていても、人物が計測領域を通過したと判定することが可能となる。時刻tの予測位置座標1305は、上述のように求めることができる。
例えば、追跡部204は、時刻tにおいて人物が予測位置座標1305に存在すると予測し、予測位置座標1305を通る人物の移動軌跡を生成することができる。なお、追跡部204は、このように生成された移動軌跡が時刻t以降に検出された位置座標とマッチングしない場合、人物の移動軌跡から予測位置座標1305を除外してもよい。
人物の移動軌跡が途切れた場合における、人物の位置座標の推定は上記の方法に限定されない。例えば、追跡部204は、テンプレートマッチング等の物体追跡方法を用いて、人物の位置座標を予測してもよい。さらに、人物の位置座標の不検出が2フレーム以上にわたる場合でも、予測位置座標の計算を繰り返すことで人物の移動軌跡を追跡することができる。
さらに、追跡部204は、時刻tにおける人物の位置座標と、時刻tにおける人物の位置座標とをマッチングさせてもよい。この際に、追跡部204は、時刻t(及び時刻t等のより前の時刻)における人物の位置座標から、時刻tにおける人物の予測位置座標を求めてもよい。上記のように、この予測位置座標を時刻tにおいて検出された人物の位置座標とマッチングさせることにより、時刻tまでの人物の移動軌跡を、時刻tにおいて検出された人物の位置座標とマッチングさせることができる。この場合、時刻tにおいて検出された位置座標から、時刻tにおいて検出された位置座標へと向かう人物の移動軌跡を求めることができる。この場合において、追跡部204は、さらに時刻tにおける人物の予測位置座標をさらに求めてもよい。そして、追跡部204は、時刻tにおいて検出された位置座標から、時刻tにおける予測位置座標を通って、時刻tにおいて検出された位置座標へと向かう人物の移動軌跡を求めてもよい。
なお、図9に示す例において、マッチングに用いられる位置座標リスト900,901においては、それぞれの位置に対応する人物は特定されていない。もっとも、それぞれの位置に対応する人物が、画像識別処理等により識別されてもよい。この場合、追跡部204は、人物を識別する情報を参照して、異なる時刻における人物の位置座標をマッチングさせてもよい。
S305において、計測部205は、追跡部204が出力した人物の移動軌跡を元に、人物の流量を計測する。例えば、計測部205は、追跡部204が出力した人物の移動軌跡が、設定した計測領域と交差したかどうかを判定することで、人物の流量を計測することができる。なお、計測領域の設定方法は上述のとおりである。図4(A)(B)を参照して説明したように、ステップS301において部分画像が抽出される領域を設定する際に、計測領域401,403が設定されていてもよい。
計測領域が線分である場合の人物の流量の計測方法例を、図14を参照して説明する。図14(A)には、時刻tにおける入力画像1400と、計測領域である線分1401が示されている。また、入力画像1400からは、人物1402の位置座標1403、及び人物1404の位置座標1405が検出されている。同様に、図14(B)には、時刻tにおける入力画像1406が示されている。入力画像1406からは、人物1402の位置座標1407が検出されており、位置座標1403から位置座標1407に至る移動軌跡1409が得られている。また、入力画像1406からは、人物1404の位置座標1408が検出されており、位置座標1405から位置座標1408に至る移動軌跡1410が得られている。
図14(B)の例において計測部205は、移動軌跡1409は線分1401と交差していると判定することができ、したがって、人物1402は線分1401を通過したと判定することができる。同様に計測部205は、移動軌跡1410も線分1401と交差していると判定することができ、したがって、人物1404も線分1401を通過したと判定することができる。ここで、計測部205はさらに、人物1404は人物1402とは逆方向に線分1401を通過したと判定してもよい。移動軌跡と線分との交差判定は、例えば、線分と線分との交差判定等の幾何学的な方法で行うことができる。
一実施形態において計測部205は、人物が計測領域で分けられる一方の領域から他方の領域へと移動した場合に、人物は計測領域を通過したと判定する。一方で計測部205は、計測領域上に人物が存在する間は、人物は計測領域を通過したと判定しない。すなわち、計測部205は、一方の領域から計測領域を超えて他方の領域へと移動した人物の数を計測するが、こうして計測された人物の数は、一方の領域から計測領域へと移動したが他方の領域へと移動していない人物の数を含まない。
例えば、図15には、計測領域である線分1500と、人物の移動軌跡1501とが示されている。この例において、計測部205は、a,d,fの3カ所において、人物が線分1500を下から上に通過したと判定することができ、c,eの2カ所において、人物が線分1500を上から下に通過したと判定することができる。一方で、計測部205は、人物が線分1500上にちょうど乗っているb,gにおいては、人物は線分1500を通過していないと判定することができる。上述のように、線分1500は太さを有する線分(すなわち矩形領域)であってもよく、この場合、人物が線分1500上に存在する間は計測領域を通過したと判定されない。
このような判定を各人物の移動軌跡について行うことにより、計測部205は人物の流量を計測することができる。図15に示す例の場合、計測部205は、線分1500の下から上への累積通過数と、上から下への累積通過数とを、それぞれの方向への人物の流量として計測することができる。ここで、図15を参照して説明したように、計測領域上に人物が存在する間には人物は計測領域を通過したと判定しないことにより、計測領域付近における人物の細かな動きに由来する、累積通過数の重複カウントを避けることができる。
計測部205は、各人物の計測領域の移動方向ごとの累積通過数の差分を、人物の流量として算出してもよい。具体的には、計測部205は、一方の領域から他方の領域へと通過した人物の数と、他方の領域から一方の領域へと通過した人物の数と、の差分を算出することができる。例えば、図15の場合、移動軌跡1501で表される人物の、線分1500の下から上への累積通過数は3回であり、上から下への累積通過数は2回である。計測部205は、移動方向ごとの累積通過数の差分を取ることで、線分1500の下から上に1人の人物が通過したと判定することができる。
上述の通り、計測領域の形状は特に限定されない。例えば、計測領域が所定の領域を囲む閉曲線である場合、計測部205は、この領域へと入る人物の流量と、この領域から出る人物の流量とを計測することができる。
本実施形態によれば、画像中で対象物が重なっている場合であっても、まず密度分布が推定され、この密度分布から対象物の位置が推定される。このため、特許文献1のように画像からそれぞれの対象物を直接検出する場合と比較して、混雑したシーンにおける対象物の位置推定精度を向上させることができる。また、位置推定結果を示す位置マップはスパース性が高い(例えば、ほとんどの位置において値が0になる)ため、ニューラルネットワークを用いて画像から直接対象物の位置推定を行うことは容易ではない。一方、本実施形態によれば、密度マップの各位置についての2クラス分類問題を解くことで位置推定結果を得ることができるので、位置推定が容易となる。一実施形態においては、このような効果を得るために、取得部201、密度推定部202、及び座標推定部203がステップS301~S303の処理を行う一方で、追跡部204及び計測部205が行うステップS304~S305の処理を省略できる。
また、本実施形態によれば、対象物の位置座標がフレーム間で追跡されるため、精度よく対象物の流れを計測することができる。一実施形態においては、このような効果を得るために、追跡部204及び計測部205がステップS304~S305の処理を行う一方で、取得部201、密度推定部202、及び座標推定部203が行うステップS301~S303の処理を省略できる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
100:画像処理装置、201:取得部、202:密度推定部、203:座標推定部、204:追跡部、205:計測部

Claims (20)

  1. 画像中において対象物が存在すると推定される領域を表す密度分布を推定する密度推定手段と、
    前記密度推定手段により推定される密度分布を表す密度マップの各位置について前記対象物の代表点を表すか否かを識別することにより、前記画像中における前記対象物の位置を推定する位置推定手段と、
    前記位置推定手段により推定される複数の前記画像中の前記対象物の位置を対応付けする対応付け手段と、
    前記対応付け手段により対応付けられる複数の前記画像中の前記対象物の位置に基づいて、計測線を通過した前記対象物の数を計測する計測手段と、
    を備えることを特徴とする画像処理装置。
  2. 前記位置推定手段は、前記密度マップの各位置について前記対象物の代表点である確率を表す位置マップを生成することを特徴とする、請求項1に記載の画像処理装置。
  3. 前記位置推定手段は、前記密度マップを学習済みモデルに入力することによ生成される第1の位置マップと、前記第1の位置マップをプーリングすることにより生成される第2の位置マップを生成し、前記第1の位置マップと前記第2の位置マップとの間で値が一致している要素の座標を、前記対象物の位置として推定する、請求項1又は2に記載の画像処理装置。
  4. 前記位置推定手段は、前記画像において互いに隣接する、前記対象物の位置を表すと推定された複数の位置に基づいて、前記対象物の位置を求めることを特徴とする、請求項1からのいずれか1項に記載の画像処理装置。
  5. 記画像から、前記画像の一部である1以上の部分画像を抽出する取得手段を更に有し、
    前記密度推定手段は、前1以上の部分画像中の対象物の密度分布を推定することを特徴とする、請求項1からのいずれか1項に記載の画像処理装置。
  6. 前記取得手段は、前記計測線前記部分画像まれるように、前記画像から前記1以上の部分画像を抽出することを特徴とする、請求項に記載の画像処理装置。
  7. 前記取得手段は、ユーザによる指定に基づいて前記1以上の部分画像を抽出する領域を前記画像に設定することにより、前記1以上の部分画像を抽出することを特徴とする、請求項又はに記載の画像処理装置。
  8. 前記取得手段は、前記部分画像に中央領域とマージン領域を設定し、かつ前記画像から複数の前記部分画像を抽出する場合に、隣り合う2つの前記部分画像の前記中央領域どうしが隣接するように前記部分画像を抽出し、
    前記密度推定手段は、前記部分画像の前記中央領域に含まれる前記対象物の密度分布を推定する
    ことを特徴とする、請求項からのいずれか1項に記載の画像処理装置。
  9. 前記取得手段は、前記対象物の大きさに基づいて前記マージン領域の大きさを設定することを特徴とする、請求項8に記載の画像処理装置。
  10. 前記計測手段は、前記計測線によって区切られる一方の領域から他方の領域へと移動した前記対象物の数を計測することを特徴とする、請求項1からのいずれか1項に記載の画像処理装置。
  11. 前記計測手段は、前記一方の領域から前記計測線を超えて前記他方の領域へと移動した前記対象物の数を計測し、前記計測された対象物の数は、前記一方の領域から前記計測線へと移動したが前記他方の領域へと移動していない前記対象物の数を含まないことを特徴とする、請求項10に記載の画像処理装置。
  12. 前記計測手段は、前記一方の領域から前記他方の領域へと通過した前記対象物の数と、前記他方の領域から前記一方の領域へと通過した前記対象物の数と、の差分を算出することを特徴とする、請求項10又は11に記載の画像処理装置。
  13. 前記対応付け手段は、複数の前記画像のうちの第1の時刻に対応する第1の画像中の前記対象物の位置と、複数の前記画像のうちの第2の時刻に対応する第2の画像中の前記対象物の位置と、を対応付けることを特徴とする、請求項1から12のいずれか1項に記載の画像処理装置。
  14. 前記対応付け手段は、前記第1の画像中の前記対象物の位置と前記第2の画像中の前記対象物の位置とを対応付けることにより前記対象物毎の移動軌跡を出力し、
    前記計測手段は、前記移動軌跡が前記計測線と交差する前記対象物の数を計測する、請求項13に記載の画像処理装置。
  15. 前記対応付け手段は、前記第1の画像中の前記対象物の位置と前記第2の画像中の前記対象物の位置とを結ぶ距離に基づいたコストを算出し、前記第1の画像中の前記対象物の位置と前記第2の画像中の前記対象物の位置との組合せのそれぞれの前記コストが最小となる組合せに基づいて対応付けを行う、ことを特徴とする、請求項13又は14に記載の画像処理装置。
  16. 前記対応付け手段は、
    少なくとも前記第2の画像中の前記対象物の位置に基づいて、前記第2の時刻より後の第3の時刻における第3の画像中の前記対象物の位置を予測し、
    前記第3の時刻における前記第3の画像中の予測された前記対象物の位置と、前記第3の画像中の前記対象物の位置と、に基づいて、前記第2の画像中の前記対象物の位置と、前記第3の画像中の前記対象物の位置と、を対応付ける
    ことを特徴とする、請求項13から15の何れか1項に記載の画像処理装置。
  17. 前記密度推定手段は、ニューラルネットワークを用いて前記密度分布を推定することを特徴とする、請求項1から16のいずれか1項に記載の画像処理装置。
  18. 前記位置推定手段は、ニューラルネットワークを用いて前記対象物の位置を推定することを特徴とする、請求項1から17のいずれか1項に記載の画像処理装置。
  19. 画像処理装置が行う画像処理方法であって、
    画像中において対象物が存在すると推定される領域を表す密度分布を推定する密度推定工程と、
    前記密度推定工程において推定される密度分布を表す密度マップの各位置について前記対象物の代表点を表すか否かを識別することにより、前記画像中における前記対象物の位置を推定する位置推定工程と、
    前記位置推定工程において推定される複数の前記画像中の前記対象物の位置を対応付けする対応付け工程と、
    前記対応付け工程において対応付けられる複数の前記画像中の前記対象物の位置に基づいて、計測線を通過した前記対象物の数を計測する計測工程と、
    を含むことを特徴とする画像処理方法。
  20. コンピュータを、請求項1から18のいずれか1項に記載の画像処理装置として機能させるためのプログラム。
JP2019168734A 2019-09-17 2019-09-17 画像処理装置、画像処理方法、及びプログラム Active JP7383435B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019168734A JP7383435B2 (ja) 2019-09-17 2019-09-17 画像処理装置、画像処理方法、及びプログラム
US17/021,297 US11721036B2 (en) 2019-09-17 2020-09-15 Image processing apparatus, image processing method, and computer-readable medium
CN202010966844.7A CN112598725A (zh) 2019-09-17 2020-09-15 图像处理设备、图像处理方法和计算机可读介质
EP20196124.0A EP3796256A1 (en) 2019-09-17 2020-09-15 Image processing apparatus, image processing method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019168734A JP7383435B2 (ja) 2019-09-17 2019-09-17 画像処理装置、画像処理方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2021047538A JP2021047538A (ja) 2021-03-25
JP2021047538A5 JP2021047538A5 (ja) 2022-09-07
JP7383435B2 true JP7383435B2 (ja) 2023-11-20

Family

ID=72517157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019168734A Active JP7383435B2 (ja) 2019-09-17 2019-09-17 画像処理装置、画像処理方法、及びプログラム

Country Status (4)

Country Link
US (1) US11721036B2 (ja)
EP (1) EP3796256A1 (ja)
JP (1) JP7383435B2 (ja)
CN (1) CN112598725A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7468391B2 (ja) * 2021-02-09 2024-04-16 株式会社Jvcケンウッド 撮像装置および撮像処理方法
CN116311084B (zh) * 2023-05-22 2024-02-23 青岛海信网络科技股份有限公司 一种人群聚集的检测方法及视频监控设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009211311A (ja) 2008-03-03 2009-09-17 Canon Inc 画像処理装置及び方法
US20160088288A1 (en) 2014-09-18 2016-03-24 Vivotek Inc. Stereo camera and automatic range finding method for measuring a distance between stereo camera and reference plane
CN106407946A (zh) 2016-09-29 2017-02-15 北京市商汤科技开发有限公司 跨线计数方法和深度神经网络训练方法、装置和电子设备
CN110210603A (zh) 2019-06-10 2019-09-06 长沙理工大学 人群的计数模型构建方法、计数方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007201556A (ja) 2006-01-23 2007-08-09 Fujifilm Corp 混雑情報提供システム及び方法
WO2012111138A1 (ja) * 2011-02-18 2012-08-23 株式会社日立製作所 歩行者移動情報検出装置
CN103871082A (zh) * 2014-03-31 2014-06-18 百年金海科技有限公司 一种基于安防视频图像的人流量统计方法
US20160019698A1 (en) * 2014-07-21 2016-01-21 Florida Atlantic University Systems and methods for people counting in sequential images
CN107944327A (zh) * 2016-10-10 2018-04-20 杭州海康威视数字技术股份有限公司 一种人数统计方法及装置
CN109508583B (zh) * 2017-09-15 2020-11-06 杭州海康威视数字技术股份有限公司 一种人群分布特征的获取方法和装置
EP3547211B1 (en) * 2018-03-30 2021-11-17 Naver Corporation Methods for training a cnn and classifying an action performed by a subject in an inputted video using said cnn
CN110188597B (zh) * 2019-01-04 2021-06-15 北京大学 基于注意力机制循环缩放的人群计数与定位方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009211311A (ja) 2008-03-03 2009-09-17 Canon Inc 画像処理装置及び方法
US20160088288A1 (en) 2014-09-18 2016-03-24 Vivotek Inc. Stereo camera and automatic range finding method for measuring a distance between stereo camera and reference plane
CN106407946A (zh) 2016-09-29 2017-02-15 北京市商汤科技开发有限公司 跨线计数方法和深度神经网络训练方法、装置和电子设备
CN110210603A (zh) 2019-06-10 2019-09-06 长沙理工大学 人群的计数模型构建方法、计数方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Weihong Ren,外3名,Fusing Crowd Density Maps and Visual Object Trackers for People Tracking in Crowd Scenes,2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018年06月18日,pp. 5353-5362

Also Published As

Publication number Publication date
US11721036B2 (en) 2023-08-08
CN112598725A (zh) 2021-04-02
EP3796256A1 (en) 2021-03-24
US20210082141A1 (en) 2021-03-18
JP2021047538A (ja) 2021-03-25

Similar Documents

Publication Publication Date Title
Hall et al. Probabilistic object detection: Definition and evaluation
CN109670474B (zh) 一种基于视频的人体姿态估计方法、装置及设备
CN107784282B (zh) 对象属性的识别方法、装置及系统
US9881217B2 (en) Method for detecting crowd density, and method and apparatus for detecting interest degree of crowd in target position
JP6664163B2 (ja) 画像識別方法、画像識別装置及びプログラム
Soo Park et al. Social saliency prediction
Chen et al. Video object segmentation via dense trajectories
Wojek et al. Monocular 3d scene understanding with explicit occlusion reasoning
CN104376576A (zh) 一种目标跟踪方法及装置
CN110084836A (zh) 基于深度卷积特征分层响应融合的目标跟踪方法
JP4682820B2 (ja) オブジェクト追跡装置及びオブジェクト追跡方法、並びにプログラム
Rajagopalan et al. Detecting self-stimulatory behaviours for autism diagnosis
US20130335571A1 (en) Vision based target tracking for constrained environments
JP2014093023A (ja) 物体検出装置、物体検出方法及びプログラム
JP2018022340A (ja) 画像処理装置、情報処理方法及びプログラム
JP7518609B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP7383435B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP2021503139A (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN111178276A (zh) 图像处理方法、图像处理设备及计算机可读存储介质
CN106406507B (zh) 图像处理方法以及电子设备
CN113793362A (zh) 基于多镜头视频的行人轨迹提取方法和装置
JP7538631B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US20230368409A1 (en) Storage medium, model training method, and model training device
JP2021149687A (ja) 物体認識装置、物体認識方法及び物体認識プログラム
JP7448006B2 (ja) 物体位置推定装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220826

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231108

R151 Written notification of patent or utility model registration

Ref document number: 7383435

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151