JP7218804B2

JP7218804B2 - 処理装置、処理方法及びプログラム

Info

Publication number: JP7218804B2
Application number: JP2021525513A
Authority: JP
Inventors: 健全劉; 俊男李
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2023-02-07
Anticipated expiration: 2039-06-13
Also published as: EP3985606A4; EP3985606A1; JPWO2020250388A1; WO2020250388A1; US20220245850A1

Description

本発明は、処理装置、処理方法及びプログラムに関する。

特許文献１は、トレーニング画像と事業店舗位置を識別する情報とで機械学習を行う技術を開示している。そして、特許文献１は、パノラマ画像、視野が１８０°より大きい画像等をトレーニング画像にできることを開示している。
非特許文献１は、３Ｄ－ＣＮＮ（convolutional neural network）に基づき動画像が示す人物行動を推定する技術を開示している。

特表２０１８－５２４６７８号

Kensho Hara、他２名、" Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?"、［online］、Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 6546-6555)、［令和１年５月２８日検索］、インターネット<URL: http://openaccess.thecvf.com/content_cvpr_2018/papers/Hara_Can_Spatiotemporal_3D_CVPR_2018_paper.pdf>

従来の人物行動を推定する技術では、画像内の複数の人物各々の行動を同時に高精度に推定することができなかった。本発明は、画像内の複数の人物各々の行動を同時に高精度に推定することを目的とする。

本発明によれば、
時系列な複数の画像から、前記画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成する第１の生成手段と、
複数の前記画像各々において人物が存在する位置を示す人物位置情報を生成する第２の生成手段と、
前記人物位置情報で示される人物が存在する位置における前記３次元特徴情報が示す特徴の時間変化に基づき、複数の前記画像が示す人物行動を推定する推定手段と、
を有する処理装置が提供される。

また、本発明によれば、
コンピュータが、
時系列な複数の画像から、前記画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成し、
複数の前記画像各々において人物が存在する位置を示す人物位置情報を生成し、
前記人物位置情報で示される人物が存在する位置における前記３次元特徴情報が示す特徴の時間変化に基づき、複数の前記画像が示す人物行動を推定する処理方法が提供される。

また、本発明によれば、
コンピュータを、
時系列な複数の画像から、前記画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成する第１の生成手段、
複数の前記画像各々において人物が存在する位置を示す人物位置情報を生成する第２の生成手段、
前記人物位置情報で示される人物が存在する位置における前記３次元特徴情報が示す特徴の時間変化に基づき、複数の前記画像が示す人物行動を推定する推定手段、
として機能させるプログラムが提供される。

本発明によれば、画像内の複数の人物各々の行動を同時に高精度に推定することができる。

上述した目的、および、その他の目的、特徴および利点は、以下に述べる好適な実施の形態、および、それに付随する以下の図面によって、さらに明らかになる。

パノラマ展開の手法を説明する図である。本実施形態のシステムの全体像を説明するための図である。本実施形態の画像処理装置及び処理装置のハードウエア構成の一例を示す図である。本実施形態の画像処理装置の機能ブロック図の一例である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理の流れの一例を示すフローチャートである。本実施形態の画像処理装置の処理の流れの一例を示すフローチャートである。本実施形態の画像処理装置の処理の流れの一例を示すフローチャートである。本実施形態の画像処理装置の機能ブロック図の一例である。本実施形態の処理装置の機能ブロック図の一例である。本実施形態の処理装置の処理の流れの一例を示すフローチャートである。本実施形態の処理装置の実施例を説明するための図である。

＜システムの全体像及び概要＞
まず、図２を用いて、本実施形態のシステムの全体像及び概要を説明する。本実施形態のシステムは、画像処理装置１０と、処理装置２０とを有する。

画像処理装置１０は、入力された魚眼画像をパノラマ展開し、パノラマ画像を生成する。画像処理装置１０は、図１を用いて説明した手法で魚眼画像をパノラマ展開するが、魚眼画像のイメージサークル内画像の中心を一律に基準点（ｘ_ｃ、ｙ_ｃ）に設定するのでなく、基準点（ｘ_ｃ、ｙ_ｃ）を適切に設定する手段を備える。その詳細は後述する。このような画像処理装置１０が生成するパノラマ画像は、起立した人物の身体が伸びる方向がばらつく不都合が軽減されている。

処理装置２０は、入力された複数のパノラマ画像（動画像）が示す人物行動を推定する。処理装置２０は、３Ｄ－ＣＮＮに基づき、時系列な複数の２次元の画像（パノラマ画像）から、画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成するとともに、複数の画像各々において人物が存在する位置を示す人物位置情報を生成する。そして、処理装置２０は、人物位置情報で示される人物が存在する位置における３次元特徴情報が示す特徴の時間変化に基づき、複数の画像が示す人物行動を推定する。このような処理装置２０によれば、３次元特徴情報の中の人物に関係する情報のみを用いて人物行動の推定を行うことができるので、推定精度が向上する。

＜ハードウエア構成＞
以下、本実施形態のシステムの構成を詳細に説明する。まず、画像処理装置１０及び処理装置２０のハードウエア構成の一例を説明する。画像処理装置１０及び処理装置２０各々が備える各機能部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

図３は、画像処理装置１０及び処理装置２０各々のハードウエア構成を例示するブロック図である。図３に示すように、画像処理装置１０及び処理装置２０各々は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。画像処理装置１０及び処理装置２０各々は周辺回路４Ａを有さなくてもよい。なお、画像処理装置１０及び処理装置２０各々は物理的及び／又は論理的に分かれた複数の装置で構成されてもよいし、物理的及び／又は論理的に一体となった１つの装置で構成されてもよい。画像処理装置１０及び処理装置２０各々が物理的及び／又は論理的に分かれた複数の装置で構成される場合、複数の装置各々が上記ハードウエア構成を備えることができる。

バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵ、ＧＰＵ（Graphics Processing Unit）などの演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。入出力インターフェイス３Ａは、入力装置、外部装置、外部サーバ、外部センサー、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

＜画像処理装置１０の機能構成＞
次に、画像処理装置１０の機能構成を詳細に説明する。図４に、画像処理装置１０の機能ブロック図の一例を示す。図示するように、画像処理装置１０は、画像取得部１１と、検出部１２と、重力方向特定部１３と、基準点決定部１４と、記憶部１５と、補完円形画像生成部１６と、展開部１７とを有する。

画像取得部１１は、魚眼画像を取得する。本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと（能動的な取得）」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等を含んでもよい。また、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること（受動的な取得）」、たとえば、配信（または、送信、プッシュ通知等）されるデータを受信すること等を含んでもよい。また、「取得」とは、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集（テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等）などして新たなデータを生成し、当該新たなデータを取得すること」を含んでもよい。

検出部１２は、魚眼画像のイメージサークル内画像の中から、複数の人物各々の身体の所定の複数点を検出する。そして、重力方向特定部１３は、検出部１２が検出した所定の複数点に基づき、複数の人物各々の位置における重力方向（鉛直方向）を特定する。

例えば、検出部１２は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と平行になる身体の複数点（２点）を検出してもよい。このような２点の組み合わせとしては、（両肩の真ん中、腰の真ん中）、（頭の先、腰の真ん中）、（頭の先、両肩の真ん中）等が例示されるが、これらに限定されない。この例の場合、重力方向特定部１３は、各人物に対応して検出された２点のうちの所定の１点から他方の点に向かう方向を、重力方向として特定する。

他の例として、検出部１２は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と垂直になる身体の複数点（２点）を検出してもよい。このような２点の組み合わせとしては、（右肩、左肩）、（右腰、左腰）等が例示されるが、これらに限定されない。この例の場合、重力方向特定部１３は、各人物に対応して検出された２点の中点を通り、かつ、２点を結ぶ線と垂直な線が延伸する方向を、重力方向として特定する。

なお、検出部１２は、あらゆる画像解析の技術を利用して、上述した身体の複数点を検出することができる。検出部１２は、「標準レンズ（例えば画角４０°前後～６０°前後）カメラで生成された画像に存在する人物各々の身体の所定の複数点を検出するアルゴリズム」と同じアルゴリズムで魚眼画像を解析することで、複数の人物各々の身体の所定の複数点を検出することができる。

しかし、魚眼画像内では、起立した人物の身体が伸びる方向がばらつき得る。そこで、検出部１２は、魚眼画像を回転させながら画像の解析を行ってもよい。すなわち、検出部１２は、魚眼画像のイメージサークル内画像を回転させ、回転した後のイメージサークル内画像を解析して人物の身体の所定の複数点を検出する処理を、複数の回転角度に対して行ってもよい。

図５乃至図８を用いて、当該処理の概要を説明する。図５の例では、魚眼画像Ｆのイメージサークル内画像Ｃ１内に５人の人物Ｍ１乃至Ｍ５が存在する。５人の人物Ｍ１乃至Ｍ５はいずれも起立しているが、身体が伸びる方向はばらついている。

検出部１２は、まず図５に示す回転状態で画像を解析し、各人物の両肩の真ん中Ｐ１と腰の真ん中Ｐ２を検出する処理を行う。この場合、検出部１２は、身体が伸びる方向が図の上下方向に近い人物Ｍ１及びＭ２の点Ｐ１及びＰ２を検出できたが、その他の人物の点Ｐ１及びＰ２は検出できていない。

次に、検出部１２は、魚眼画像Ｆを９０°回転させる。すると、図６の状態となる。検出部１２は、この回転状態で画像を解析し、各人物の両肩の真ん中Ｐ１と腰の真ん中Ｐ２を検出する処理を行う。この場合、検出部１２は、身体が伸びる方向が図の上下方向に近い人物Ｍ５の点Ｐ１及びＰ２を検出できたが、その他の人物の点Ｐ１及びＰ２は検出できていない。

次に、検出部１２は、魚眼画像Ｆを９０°回転させる。すると、図７の状態となる。検出部１２は、この回転状態で画像を解析し、各人物の両肩の真ん中Ｐ１と腰の真ん中Ｐ２を検出する処理を行う。この場合、検出部１２は、身体が伸びる方向が図の上下方向に近い人物Ｍ４の点Ｐ１及びＰ２を検出できたが、その他の人物の点Ｐ１及びＰ２は検出できていない。

次に、検出部１２は、魚眼画像Ｆを９０°回転させる。すると、図８の状態となる。検出部１２は、この回転状態で画像を解析し、各人物の両肩の真ん中Ｐ１と腰の真ん中Ｐ２を検出する処理を行う。この場合、検出部１２は、身体が伸びる方向が図の上下方向に近い人物Ｍ３の点Ｐ１及びＰ２を検出できたが、その他の人物の点Ｐ１及びＰ２は検出できていない。

このように、検出部１２は、魚眼画像を回転させながら画像を解析することで、身体が伸びる方向がばらついている複数の人物各々の身体の所定の複数点を検出することができる。なお、上記例では９０°づつ回転したが、あくまで一例でありこれに限定されない。

図４に戻り、基準点決定部１４は、魚眼画像内の複数の人物各々の位置における重力方向に基づき、基準点（ｘ_ｃ、ｙ_ｃ）を決定する。そして、基準点決定部１４は、決定した基準点（ｘ_ｃ、ｙ_ｃ）を記憶部１５に記憶させる。

基準点決定部１４は、複数の人物各々の位置を通り、かつ、複数の人物各々の位置における重力方向に延伸した直線が１点で交わる場合、交わる点を基準点（ｘ_ｃ、ｙ_ｃ）とする。

一方、複数の人物各々の位置を通り、かつ、複数の人物各々の位置における重力方向に延伸した直線が１点で交わらない場合、基準点決定部１４は、複数の直線各々からの距離が所定条件を満たす点を基準点（ｘ_ｃ、ｙ_ｃ）とする。

検出部１２が、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と平行になる身体の複数点（２点）を検出する場合、「複数の人物各々の位置を通り、かつ、複数の人物各々の位置における重力方向に延伸した直線」は、検出部１２が検出した２点を結ぶ線であってもよい。

そして、検出部１２は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と垂直になる身体の複数点（２点）を検出する場合、「複数の人物各々の位置を通り、かつ、複数の人物各々の位置における重力方向に延伸した直線」は、検出部１２が検出した２点の中点を通り、かつ、２点を結ぶ線と垂直な線であってもよい。

図９は、基準点決定部１４による処理の概念を示す。図示する例では、検出部１２は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と平行になる身体の複数点Ｐ１及びＰ２を検出している。そして、「複数の人物各々の位置を通り、かつ、複数の人物各々の位置における重力方向に延伸した直線Ｌ１乃至Ｌ５」は、検出部１２が検出した点Ｐ１及びＰ２を結ぶ線である。図示する例の場合、複数の直線Ｌ１乃至Ｌ５は１点で交わらない。このため、検出部１２は、複数の直線Ｌ１乃至Ｌ５各々からの距離が所定条件を満たす点を基準点（ｘ_ｃ、ｙ_ｃ）とする。所定条件は、例えば「複数の直線各々との距離の和が最小」であるが、これに限定されない。

例えば、検出部１２は、以下の式（１）乃至（３）に基づき、所定条件を満たす点を算出することができる。

まず、式（１）により、直線Ｌ１乃至Ｌ５各々を示す。ｋ_ｉは各直線の傾きで、ｃ_ｉは各直線の切片である。式（２）及び式（３）により、直線Ｌ１乃至Ｌ５各々との距離の和が最小となる点を基準点（ｘ_ｃ、ｙ_ｃ）として算出することができる。

図４に戻り、補完円形画像生成部１６は、基準点（ｘ_ｃ、ｙ_ｃ）が魚眼画像のイメージサークル内画像の中心と異なる場合、補完円形画像を生成する。補完円形画像は、イメージサークル内画像に補完画像を加えた円形の画像であって、基準点（ｘ_ｃ、ｙ_ｃ）が中心となる画像である。なお、補完円形画像は、基準点（ｘ_ｃ、ｙ_ｃ）からイメージサークル内画像の外周上の点までの距離の最大値が半径となり、イメージサークル内画像が内接してもよい。イメージサークル内画像に加える補完画像は、単色（例：黒）の画像であってもよいし、任意のパターン画像であってもよいし、その他であってもよい。

図１０に、補完円形画像生成部１６が生成した補完円形画像Ｃ２の一例を示す。魚眼画像Ｆのイメージサークル内画像Ｃ１に黒単色の補完画像を加えて、補完円形画像Ｃ２が生成されている。補完円形画像Ｃ２は、基準点（ｘ_ｃ、ｙ_ｃ）が中心である。そして、補完円形画像Ｃ２の半径ｒは、基準点（ｘ_ｃ、ｙ_ｃ）からイメージサークル内画像Ｃ１の外周上の点までの距離の最大値である。なお、イメージサークル内画像Ｃ１は補完円形画像Ｃ２に内接している。

なお、基準点（ｘ_ｃ、ｙ_ｃ）が魚眼画像のイメージサークル内画像の中心と一致する場合、補完円形画像生成部１６は補完円形画像を生成しない。

図４に戻り、展開部１７は、基準点（ｘ_ｃ、ｙ_ｃ）に基づき魚眼画像をパノラマ展開し、パノラマ画像を生成する。なお、展開部１７は、基準点（ｘ_ｃ、ｙ_ｃ）が魚眼画像のイメージサークル内画像の中心と異なる場合、すなわち補完円形画像生成部１６が保管円形画像を生成した場合、補完円形画像をパノラマ展開してパノラマ画像を生成する。一方、基準点（ｘ_ｃ、ｙ_ｃ）が魚眼画像のイメージサークル内画像の中心と一致する場合、すなわち補完円形画像生成部１６が保管円形画像を生成しなかった場合、展開部１７は、魚眼画像のイメージサークル内画像をパノラマ展開してパノラマ画像を生成する。展開部１７は、図１を用いて説明した手法を用いて、パノラマ展開することができる。

なお、展開部１７は、人物と重ならない基準線Ｌ_ｓを決定し、基準線Ｌ_ｓから補完円形画像又はイメージサークル内画像を切り開いて、パノラマ画像を生成することができる。このようにすれば、画像内の人物がパノラマ画像内で２つの部分に分離する不都合を抑制できる。例えば、展開部１７は、検出部１２が検出した各人物の身体の複数点から所定距離以内には基準線Ｌ_ｓを設定せず、上記検出した複数点から所定距離以上離れた場所に基準線Ｌ_ｓを設定してもよい。

次に、画像処理装置１０の処理の流れの一例を説明する。なお、各処理の詳細は上述したので、ここでの説明は適宜省略する。まず、図１１のフローチャートを用いて、基準点（ｘ_ｃ、ｙ_ｃ）を決定する処理の流れの一例を説明する。

魚眼画像が入力されると、検出部１２は、イメージサークル内画像の中から、複数の人物各々の身体の所定の複数点を検出する（Ｓ１０）。例えば、検出部１２は、各人物の両肩の真ん中Ｐ１と腰の真ん中Ｐ２を検出する。

ここで、図１２のフローチャートを用いて、Ｓ１０の処理の流れの一例を説明する。まず、検出部１２は、イメージサークル内画像を解析し、複数の人物各々の身体の所定の複数点を検出する（Ｓ２０）。その後、検出部１２は、イメージサークル内画像を所定角度回転する（Ｓ２１）。所定角度は例えば９０°であるが、これに限定されない。

そして、検出部１２は、回転後のイメージサークル内画像を解析し、複数の人物各々の身体の所定の複数点を検出する（Ｓ２２）。そして、回転角度の合計が３６０°に達していない場合（Ｓ４３のＮｏ）、検出部１２は、Ｓ２１に戻り同様の処理を繰り返す。一方、回転角度の合計が３６０°に達した場合（Ｓ４３のＹｅｓ）、検出部１２は処理を終了する。

このように、検出部１２は、イメージサークル内画像を回転させ、回転した後のイメージサークル内画像を解析して人物の身体の所定の複数点を検出する処理を、複数の回転角度に対して行うことができる。

図１１に戻り、Ｓ１０の後、重力方向特定部１３は、Ｓ１０で検出された所定の複数点に基づき複数の人物各々の位置における重力方向を特定する（Ｓ１１）。例えば、重力方向特定部１３は、各人物の両肩の真ん中Ｐ１から腰の真ん中Ｐ２に向かう方向を、各人物の位置における重力方向として特定する。

次いで、基準点決定部１４は、複数の人物各々の位置を通り、各々の位置における重力方向に延伸した直線を算出する（Ｓ１２）。そして、複数の直線が１点で交わる場合（Ｓ１３のＹｅｓ）、基準点決定部１４は、交わる点を基準点（ｘ_ｃ、ｙ_ｃ）とする（Ｓ１４）。一方、複数の直線が１点で交わらない場合（Ｓ１３のＮｏ）、基準点決定部１４は、複数の直線各々からの距離が所定条件（例：最短）を満たす点を求め、その点を基準点（ｘ_ｃ、ｙ_ｃ）とする（Ｓ１５）。

次に、図１３のフローチャートを用いて、魚眼画像からパノラマ画像を生成する処理の流れの一例を説明する。

図１１の処理で決定した基準点（ｘ_ｃ、ｙ_ｃ）が魚眼画像のイメージサークル内画像の中心と一致する場合（Ｓ３０のＹｅｓ）、展開部１７は、図１を用いて説明した手法を用いて、その魚眼画像のイメージサークル内画像をパノラマ展開し、パノラマ画像を生成する（Ｓ３３）。すなわち、この場合、補完円形画像の生成、及び、補完円形画像のパノラマ展開は実施されない。

一方、図１１の処理で決定した基準点（ｘ_ｃ、ｙ_ｃ）が魚眼画像のイメージサークル内画像の中心と一致しない場合（Ｓ３０のＮｏ）、補完円形画像生成部１６は、補完円形画像を生成する（Ｓ３１）。補完円形画像は、イメージサークル内画像に補完画像を加えた円形の画像であって、基準点（ｘ_ｃ、ｙ_ｃ）が中心となる画像である。なお、補完円形画像は、基準点（ｘ_ｃ、ｙ_ｃ）からイメージサークル内画像の外周上の点までの距離の最大値が半径となり、イメージサークル内画像が内接してもよい。イメージサークル内画像に加える補完画像は、単色（例：黒）の画像であってもよいし、任意のパターン画像であってもよいし、その他であってもよい。

そして、展開部１７は、図１を用いて説明した手法を用いて、その補完円形画像をパノラマ展開し、パノラマ画像を生成する（Ｓ３２）。

なお、画像処理装置１０は、パノラマ展開の対象の全ての魚眼画像に対して、上述した基準点（ｘ_ｃ、ｙ_ｃ）を決定する処理を行ってもよい。しかし、監視カメラ等の場合は、カメラの位置や向きは固定された状態で複数の魚眼画像が生成される。このような複数の魚眼画像の場合、基準点（ｘ_ｃ、ｙ_ｃ）を一度算出すれば、全ての魚眼画像にその基準点（ｘ_ｃ、ｙ_ｃ）を適用できる。このため、画像処理装置１０は、最初に入力された魚眼画像に対してのみ上述した基準点（ｘ_ｃ、ｙ_ｃ）を決定する処理、及び、決定した基準点（ｘ_ｃ、ｙ_ｃ）に基づくパノラマ展開を行い、以降に入力された魚眼画像に対しては、上述した基準点（ｘ_ｃ、ｙ_ｃ）を決定する処理を行わず、記憶部１５に記憶されている基準点（ｘ_ｃ、ｙ_ｃ）に基づくパノラマ展開を行ってもよい。

ここで、画像処理装置１０の変形例を説明する。図１４の機能ブロック図に示すように、画像処理装置１０は、検出部１２、重力方向特定部１３及び基準点決定部１４を有さなくてもよい。そして、画像処理装置１０は、基準点受付部１８を有してもよい。基準点受付部１８は、任意の手段で、魚眼画像内の任意の１点を基準点（ｘ_ｃ、ｙ_ｃ）とするユーザ入力を受付ける。画像取得部１１、補完円形画像生成部１６及び展開部１７の構成は、上述の通りである。この変形例の場合、基準点（ｘ_ｃ、ｙ_ｃ）は画像処理装置１０により算出されるのでなく、ユーザ入力により決定される。

＜処理装置２０の機能構成＞
次に、処理装置２０の機能構成を詳細に説明する。処理装置２０は、機械学習の技術を利用して、時系列な複数の画像が示す人物行動を推定する。

図１５に、処理装置２０の機能ブロック図の一例を示す。図示するように、処理装置２０は、入力受付部２１と、第１の生成部２２と、第２の生成部２３と、推定部２４とを有する。

入力受付部２１は、時系列な複数の画像の入力を受付ける。例えば、画像処理装置１０により生成された時系列な複数のパノラマ画像が入力される。

第１の生成部２２は、時系列な複数の画像から、画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成する。例えば、第１の生成部２２は、３ＤＣＮＮ（例えば、３ＤＲｅｓｎｅｔ等の畳み込み深層学習ネットワークなどであるが、これに限定されない）に基づき３次元特徴情報を生成することができる。

第２の生成部２３は、複数の画像各々において人物が存在する位置を示す人物位置情報を生成する。画像内に複数の人物が存在する場合、第２の生成部２３は、複数の人物各々が存在する位置を示す人物位置情報を生成することができる。例えば、第２の生成部２３は、人物のシルエット（全身）を画像内で抽出し、抽出したシルエットを内包する画像内のエリアを示す人物位置情報を生成する。例えば、第２の生成部２３は、深層学習技術に基づき、より具体的には平面の画像や映像の中からあらゆる物体（例えば、人）を高速かつ高精度に認識する「物体認識の深層学習ネットワーク」に基づき人物位置情報を生成することができる。物体認識の深層学習ネットワークとしては、Ｍａｓｋ－ＲＣＮＮ、ＲＣＮＮ、ＦａｓｔＲＣＮＮ、ＦａｓｔｅｒＲＣＮＮ等が例示されるが、これらに限定されない。

推定部２４は、人物位置情報で示される人物が存在する位置における３次元特徴情報が示す特徴の時間変化に基づき、複数の画像が示す人物行動を推定する。例えば、推定部２４は、人物位置情報で示される人物が存在する位置を除く位置における値を所定値（例：０）に変更する補正を３次元特徴情報に対して行った後、補正後の３次元特徴情報に基づき複数の画像が示す人物行動を推定することができる。推定部２４は、予め機械学習で生成された推定モデルと、補正後の３次元特徴情報とに基づき、人物行動を推定することができる。

ここで、図１６のフローチャートを用いて、処理装置２０の処理の流れの一例を説明する。

まず、入力受付部２１が、時系列な複数の画像を取得する（Ｓ４０）。

すると、第１の生成部２２は、時系列な複数の画像から、画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成する（Ｓ４１）。また、第２の生成部２３は、複数の画像各々において人物が存在する位置を示す人物位置情報を生成する（Ｓ４２）。

そして、推定部２４は、人物位置情報で示される人物が存在する位置における３次元特徴情報が示す特徴の時間変化に基づき、複数の画像が示す人物行動を推定する（Ｓ４３）。

次に、図１７を用いて、処理装置２０の実施例を説明する。なお、あくまで一例であり、これに限定されない。

まず、処理装置２０に、１６フレーム分の時系列な画像（１６×２４５１×８００）が入力される。すると、処理装置２０は、３ＤＣＮＮ（例えば、３ＤＲｅｓｎｅｔ等の畳み込み深層学習ネットワークなどであるが、これに限定されない）に基づき、この１６フレーム分の画像から、５１２チャンネルに畳み込まれた３次元特徴情報（５１２×７７×２５）を生成する。また、処理装置２０は、Ｍａｓｋ－ＲＣＮＮ等の物体認識の深層学習ネットワークに基づき、１６フレーム分の画像各々において人物が存在する位置を示す人物位置情報を生成する。図示する例では、人物位置情報は、各人物を内包する複数の矩形のエリア各々の位置を示す。

次いで、処理装置２０は、人物位置情報で示される人物が存在する位置を除く位置における値を所定値（例：０）に変更する補正を３次元特徴情報に対して行う。その後、処理装置２０は、Average Poolingでデータを５１２×１×３にまとめた後、flattenでデータを１次元に変換する（１５３６）。次いで、処理装置２０は、当該１次元のデータをfully-connected層に入力し、複数のカテゴリ（人物行動）各々に該当する確率（出力値）を得る。図示する例では、１９のカテゴリが定義・学習されている。１９のカテゴリは、「歩く」、「走る」、「手を振る」、「物を拾う」、「物を捨てる」、「ジャケットを脱ぐ」、「ジャケットを着る」、「電話を掛ける」、「スマートフォンを使う」、「おやつを食べる」、「階段を上がる」、「階段を下る」、「水を飲む」、「握手」、「他人のポケットから物を取る」、「他人に物を渡す」、「他人を押す」、「カードをかざして駅構内に入る」、「カードをかざして駅改札を出る」であるが、これらに限定されない。例えば、処理装置２０は、当該確率が閾値以上のカテゴリに対応する人物行動が、その画像で示されていると推定する。

なお、上記流れと逆方向にトレースすることで、当該確率が閾値以上のカテゴリ（人物行動）が示される画像内の位置を算出することができる。

＜作用効果＞
以上説明した本実施形態の画像処理装置１０によれば、魚眼画像のイメージサークル内画像の中心を一律に基準点（ｘ_ｃ、ｙ_ｃ）としてパノラマ展開するのでなく、魚眼画像内の適切な位置を基準点（ｘ_ｃ、ｙ_ｃ）としてパノラマ展開することができる。このため、パノラマ画像において、起立した人物の身体が伸びる方向がばらつく不都合を抑制できる。結果、標準レンズカメラで生成された画像（学習データ）に基づく機械学習で生成された推定モデルに当該パノラマ画像を入力することで、画像が示す人物行動を高精度に推定することが可能となる。

また、本実施形態の画像処理装置１０によれば、画像に含まれる複数の人物各々の身体の所定の複数点を検出し、当該複数点に基づき複数の人物各々の位置における重力方向を特定した後、複数の人物各々の位置における重力方向に基づき基準点（ｘ_ｃ、ｙ_ｃ）を決定することができる。このような画像処理装置１０によれば、上記不都合を抑制する上で適切な基準点（ｘ_ｃ、ｙ_ｃ）を高精度に決定することができる。

また、本実施形態の画像処理装置１０によれば、魚眼画像を回転させながら、複数の人物各々の身体の所定の複数点を検出することができる。このため、魚眼画像内で起立した人物の身体が伸びる方向がばらついていても、標準レンズカメラで生成された画像に対する画像解析処理と同様の処理により、魚眼画像内の複数の人物各々の身体の所定の複数点を高精度に検出することができる。

また、本実施形態の画像処理装置１０によれば、決定した基準点（ｘ_ｃ、ｙ_ｃ）が魚眼画像のイメージサークル内画像の中心と異なる場合、イメージサークル内画像に補完画像を加えた円形の画像であって、決定した基準点（ｘ_ｃ、ｙ_ｃ）が中心となる補完円形画像を生成し、当該補完円形画像をパノラマ展開することができる。このため、決定した基準点（ｘ_ｃ、ｙ_ｃ）が魚眼画像のイメージサークル内画像の中心と異なる場合であっても、図１に開示の手法を用いて魚眼画像をパノラマ展開することができる。

また、本実施形態の画像処理装置１０によれば、人物と重ならないように基準線Ｌ_ｓを決定し、基準線Ｌ_ｓから補完円形画像又はイメージサークル内画像を切り開いてパノラマ画像を生成することができる。このため、画像内の人物がパノラマ画像内で２つの部分に分離する不都合を抑制できる。結果、当該パノラマ画像に基づき、画像が示す人物行動を高精度に推定することが可能となる。

また、本実施形態の画像処理装置１０によれば、例えば、監視カメラ等、カメラの位置や向きが固定された状態で複数の画像が生成される場合を考慮し、一度算出された基準点（ｘ_ｃ、ｙ_ｃ）を記憶部１５に記憶しておき、以降、記憶部１５に記憶されている基準点（ｘ_ｃ、ｙ_ｃ）に基づくパノラマ展開を行うことができる。すなわち、全ての魚眼画像に対して基準点（ｘ_ｃ、ｙ_ｃ）を決定する処理を行うのでなく、１つの魚眼画像に対してのみ基準点（ｘ_ｃ、ｙ_ｃ）を決定する処理を行い、他の魚眼画像に対しては基準点（ｘ_ｃ、ｙ_ｃ）を決定する処理を省略することができる。結果、画像処理装置１０による処理負担を軽減できる。

また、本実施形態の処理装置２０によれば、３Ｄ－ＣＮＮに基づき画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成した後、その中から人物が検出された位置の情報のみを抽出し（その他の情報を無効化）、３次元特徴情報の中の人物に関係する情報のみを用いて人物行動の推定を行うことができる。不要な情報をなくし、必要な情報のみに絞って推定を行うことができるので、推定精度が向上するほか、コンピュータの処理負担が軽減する。

＜変形例＞
ここで、本実施形態の変形例を説明する。魚眼画像が入力されると、パノラマ画像を出力する画像処理装置１０は、処理装置２０へのパノラマ画像の入力以外の目的で利用されてもよい。また、処理装置２０には、画像処理装置１０が生成したパノラマ画像が入力されてもよいし、他の装置が生成したパノラマ画像が入力されてもよいし、標準レンズカメラで生成された画像が入力されてもよい。

また、上記実施形態では画像処理装置１０と処理装置２０とを分けて記載したが、画像処理装置１０と処理装置２０とは物理的及び／又は論理的に分かれて構成されてもよいし、物理的及び／又は論理的に一体となって構成されてもよい。

以上、実施形態（及び実施例）を参照して本願発明を説明したが、本願発明は上記実施形態（及び実施例）に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。
１．時系列な複数の画像から、前記画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成する第１の生成手段と、
複数の前記画像各々において人物が存在する位置を示す人物位置情報を生成する第２の生成手段と、
前記人物位置情報で示される人物が存在する位置における前記３次元特徴情報が示す特徴の時間変化に基づき、複数の前記画像が示す人物行動を推定する推定手段と、
を有する処理装置又は処理システム。
２．前記第１の生成手段は、３ＤＣＮＮ（convolutional neural network）に基づき前記３次元特徴情報を生成し、
前記第２の生成手段は、物体認識の深層学習ネットワークに基づき前記人物位置情報を生成する
１に記載の処理装置又は処理システム。
３．前記第２の生成手段は、前記画像内に複数の人物が存在する場合、複数の人物各々が存在する位置を示す前記人物位置情報を生成する
１又は２に記載の処理装置又は処理システム。
４．前記推定手段は、前記人物位置情報で示される人物が存在する位置を除く位置における値を所定値に変更する補正を前記３次元特徴情報に対して行った後、補正後の前記３次元特徴情報に基づき複数の前記画像が示す人物行動を推定する
１から３のいずれかに記載の処理装置又は処理システム。
５．コンピュータが、
時系列な複数の画像から、前記画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成し、
複数の前記画像各々において人物が存在する位置を示す人物位置情報を生成し、
前記人物位置情報で示される人物が存在する位置における前記３次元特徴情報が示す特徴の時間変化に基づき、複数の前記画像が示す人物行動を推定する処理方法。
６．コンピュータを、
時系列な複数の画像から、前記画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成する第１の生成手段、
複数の前記画像各々において人物が存在する位置を示す人物位置情報を生成する第２の生成手段、
前記人物位置情報で示される人物が存在する位置における前記３次元特徴情報が示す特徴の時間変化に基づき、複数の前記画像が示す人物行動を推定する推定手段、
として機能させるプログラム。

Claims

時系列な複数の画像から、前記画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成する第１の生成手段と、
複数の前記画像各々において人物が存在する位置を示す人物位置情報を生成する第２の生成手段と、
前記人物位置情報で示される人物が存在する位置における前記３次元特徴情報が示す特徴の時間変化に基づき、複数の前記画像が示す人物行動を推定する推定手段と、
を有する処理装置。
前記第１の生成手段は、３ＤＣＮＮ（convolutional neural network）に基づき前記３次元特徴情報を生成し、
前記第２の生成手段は、物体認識の深層学習ネットワークに基づき前記人物位置情報を生成する
請求項１に記載の処理装置。
前記第２の生成手段は、前記画像内に複数の人物が存在する場合、複数の人物各々が存在する位置を示す前記人物位置情報を生成する
請求項１又は２に記載の処理装置。
前記推定手段は、前記人物位置情報で示される人物が存在する位置を除く位置における値を所定値に変更する補正を前記３次元特徴情報に対して行った後、補正後の前記３次元特徴情報に基づき複数の前記画像が示す人物行動を推定する
請求項１から３のいずれか１項に記載の処理装置。
コンピュータが、
時系列な複数の画像から、前記画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成し、
複数の前記画像各々において人物が存在する位置を示す人物位置情報を生成し、
前記人物位置情報で示される人物が存在する位置における前記３次元特徴情報が示す特徴の時間変化に基づき、複数の前記画像が示す人物行動を推定する処理方法。
コンピュータを、
時系列な複数の画像から、前記画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成する第１の生成手段、
複数の前記画像各々において人物が存在する位置を示す人物位置情報を生成する第２の生成手段、
前記人物位置情報で示される人物が存在する位置における前記３次元特徴情報が示す特徴の時間変化に基づき、複数の前記画像が示す人物行動を推定する推定手段、
として機能させるプログラム。