JP2022143122A

JP2022143122A - 画像処理方法、撮像制御方法、プログラム、画像処理装置および撮像装置

Info

Publication number: JP2022143122A
Application number: JP2021043464A
Authority: JP
Inventors: 健一郎野村; Kenichiro Nomura
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2022-10-03
Also published as: US20240089580A1; EP4309149A1; CN117043827A; WO2022195375A1

Abstract

【課題】画像処理方法を提供すること。【解決手段】本画像処理方法は、コンピュータが、画像を取得するステップを実行する（Ｓ１０１）。本画像処理方法は、また、取得された画像から人物領域の位置を特定するステップを実行する（Ｓ１０３）。本画像処理方法は、さらに、特定された人物領域の位置に基づいて検出対象領域を設定するステップを実行する（Ｓ１０６）。さらに、画像処理方法は、また、画像における検出対象領域に基づいて人物の状態を検出するステップを実行する（Ｓ１０７）。【選択図】図６

Description

本発明は、画像処理技術に関し、より詳細には、画像処理方法、撮像制御方法、プログラム、画像処理装置および撮像装置に関する。

従来より、深層学習を用いて画像から人物の姿勢などを検出する技術が知られている。また、上記姿勢や顔表情またはジェスチャーなどの所定の人物の状態を検出した時に、自動撮影を行う技術が知られている。例えば、特許第４２２７２５７号明細書（特許文献１）は、被写体の顔、姿勢、動作を認識し、顔、姿勢、動作が所定の状態になった時に自動撮影する構成を開示する。また、特許第６７２９０４３号明細書（特許文献２）は、精度良く、画像内の人物の位置を特定することを目的とした技術を開示し、より具体的には、検出した人物領域に他の物体が重畳する場合、他の物体が移動体であれば人物の姿勢に基づいて人物位置を特定し、他の物体が非移動体であれば、人物領域の所定位置を人物位置と特定する構成を開示する。

しかしながら、上記従来技術は、画面内から人物の状態を検出する際に検出時間の短縮と検出精度とを両立させるという観点から改良の余地があった。

本開示は、上記点に鑑みてなされたものであり、画面内から人物の状態を検出する際に検出時間の短縮と検出精度とを両立させることが可能な画像処理方法を提供することを目的とする。

本開示では、上記課題を解決するために、下記特徴を有する画像処理方法を提供する。本画像処理方法は、コンピュータが、画像を取得するステップと、取得された画像から人物領域の位置を特定するステップと、特定された前記人物領域の位置に基づいて検出対象領域を設定するステップと、画像における前記検出対象領域に基づいて人物の状態を検出するステップとを実行する。

上記構成により、画面内から人物の状態を検出する際に検出時間の短縮と検出精度とを両立させることが可能となる。

図１は、本実施形態による全天球撮像装置の断面図である。図２は、本実施形態による全天球撮像装置のハードウェアブロック図である。図３は、本実施形態による全天球撮像装置における画像処理全体の流れを説明する図である。図４（Ａ）は、全天球画像の生成における画像データフロー図であり、図４（Ｂ）は、全天球画像のデータ構造を平面で表した図であり、図４（Ｃ）は、全天球画像のデータ構造を球面で表した図である。図５は、第１の実施形態による人物の姿勢検出に基づく撮像制御を実現するための機能ブロック図である。図６は、第１の実施形態による人物の姿勢検出に基づく撮像制御を示すフローチャートである。図７は、第１の実施形態による全天球撮像装置における、全天球画像の一方の端部領域を他方の端部に繋がるように端部領域を複製する処理および変更後の画像での検出対象領域の設定について説明する図である。図８は、第１の実施形態による全天球撮像装置における姿勢検出処理について説明する図である。図９は、第２の実施形態による人物の姿勢検出に基づく撮像制御を実現するための機能ブロック図である。図１０は、第２の実施形態による人物の姿勢検出に基づく撮像制御を示すフローチャートである。図１１は、第２の実施形態による全天球撮像装置における、フレーム間の差分を検出する処理および複製の要否を判断する処理について説明する図である。図１２は、第２の実施形態による全天球撮像装置における、検出対象領域の広げ方を例示する図である。図１３は、第２の実施形態による全天球撮像装置における、検出処理のために画像を複製する処理を説明する図である。

以下、本実施形態について説明するが、実施形態は、以下に説明する実施形態に限定されるものではない。なお、以下の実施形態では、画像処理装置および撮像装置の一例として、２つの魚眼レンズを備える全天球撮像装置１０を用いて説明する。

以下、図１および図２を参照しながら、本実施形態による全天球撮像装置１０の全体構成について説明する。図１は、本実施形態による全天球撮像装置１０の断面図である。図１に示す全天球撮像装置１０は、撮像体１２と、上記撮像体１２およびコントローラやバッテリなどの部品を保持する筐体１４と、上記筐体１４に設けられた撮影ボタン１８とを備える。

図１に示す撮像体１２は、２つのレンズ光学系２０Ａ，２０Ｂと、２つの撮像素子２２Ａ，２２Ｂとを含み構成される。撮像素子２２Ａ，２２Ｂは、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）センサやＣＣＤ（Charge Coupled Device）センサなどである。レンズ光学系２０は、例えば６群７枚や１０群１４枚の魚眼レンズとして構成される。魚眼レンズは、図１に示す実施形態では、１８０度（＝３６０度／ｎ；光学系数ｎ＝２）より大きい全画角を有し、好適には、１９０度以上の画角を有する。なお、説明する実施形態では、１８０度以上の全画角を有する２つの魚眼レンズを用いるものとして説明するが、全体として所定の画角が得られる限り、３つ以上のレンズ光学系および撮像素子を含んでいてもよい。また、説明する実施形態では、魚眼レンズを用いるものとして説明するが、全体として所定の画角が得られる限り、魚眼レンズに代えて、他の広角レンズや超広角レンズを用いることは妨げられない。

２つのレンズ光学系２０Ａ，２０Ｂの光学素子（レンズ、プリズム、フィルタおよび開口絞り）は、撮像素子２２Ａ，２２Ｂに対して位置関係が定められる。レンズ光学系２０Ａ，２０Ｂの光学素子の光軸が、対応する撮像素子２２の受光領域の中心部に直交して位置するように、かつ、受光領域が、対応する魚眼レンズの結像面となるように位置決めが行われる。なお、説明する実施形態では、視差を低減するために、２つのレンズ光学系２０Ａ，２０Ｂにより集光された光を、２つの９０度プリズムによって２つの撮像素子２２Ａ，２２Ｂに振り割ける屈曲光学系を採用するものとするが、これに限定されるものではく、視差をより低減するために３回屈折構造としてもよいし、コストを低減するべくストレート光学系であってもよい。

図１に示す実施形態では、レンズ光学系２０Ａ，２０Ｂは、同一仕様のものであり、それぞれの光軸が合致するようにして、互いに逆向きに組み合わせられる。撮像素子２２Ａ，２２Ｂは、受光した光分布を画像信号に変換し、コントローラ上の画像処理ブロックに順次、画像を出力する。詳細は後述するが、撮像素子２２Ａ，２２Ｂでそれぞれ撮像された画像は、合成処理されて、これにより、立体角４πステラジアンの画像（以下「全天球画像」と参照する。）が生成される。全天球画像は、撮影地点から見渡すことのできる全ての方向を撮影したものとなる。なお、説明する実施形態では、全天球画像を生成するものとして説明するが、水平面のみ３６０度を撮影した全周画像、いわゆる３６０度パノラマ画像であってもよく、全天球または水平面３６０度の全景のうちの一部を撮影した画像（例えば、水平３６０度、水平線から垂直９０度を撮影した全天周（ドーム）画像）であってもよい。また、全天球画像は、静止画として取得することもできるし、動画として取得することもできる。

図２、本実施形態による全天球撮像装置１０のハードウェア構成を示す。全天球撮像装置１０は、デジタル・スチルカメラ・プロセッサ（以下、単にプロセッサと称する）１００と、鏡胴ユニット１０２と、プロセッサ１００に接続される種々のコンポーネントから構成されている。鏡胴ユニット１０２は、上述した２組のレンズ光学系２０Ａ，２０Ｂと、撮像素子２２Ａ，２２Ｂとを有している。撮像素子２２は、プロセッサ１００内のＣＰＵ（Central Processing Unit）１３０からの制御指令により制御される。ＣＰＵ１３０の詳細については後述する。

プロセッサ１００は、ＩＳＰ（Image Signal Processor）１０８と、ＤＭＡＣ（Direct Memory Access Controller）１１０と、メモリアクセスの調停のためのアービタ（ＡＲＢＭＥＭＣ）１１２とを含む。さらにプロセッサ１００は、メモリアクセスを制御するＭＥＭＣ（Memory Controller）１１４と、歪曲補正・画像合成ブロック１１８と、顔検出ブロック１１９とを含んでいる。ＩＳＰ１０８Ａ，１０８Ｂは、それぞれ、撮像素子２２Ａ，２２Ｂの信号処理を経て入力された画像に対し、自動露出（ＡＥ：Automatic Exposure）制御、ホワイトバランス設定やガンマ設定を行う。なお、図２では、２つの撮像素子２２Ａ，２２Ｂに対応して２つのＩＳＰ１０８Ａ，１０８Ｂが設けられているが、特に限定されるものではなく、２つの撮像素子２２Ａ，２２Ｂに対し１つのＩＳＰが設けられてもよい。

ＭＥＭＣ１１４には、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）１１６が接続されている。そして、ＳＤＲＡＭ１１６には、ＩＳＰ１０８Ａ，１０８Ｂおよび歪曲補正・画像合成ブロック１１８において処理を施す際に、データが一時的に保存される。歪曲補正・画像合成ブロック１１８は、レンズ光学系２０および撮像素子２２の２つの組から得られた２つの撮像画像に対し、モーションセンサ１２０からの情報を利用して歪曲補正とともに天頂補正などを施し、補正後の画像を合成する。モーションセンサ１２０は、３軸加速度センサ、３軸角速度センサおよび地磁気センサなどを含み得る。顔検出ブロック１１９は、画像から顔検出を行い、人物の顔の位置を特定する。なお、顔検出ブロック１１９とともに、これに代えて、人物の全身像、猫や犬など動物の顔、車や花などの他の被写体を認識する物体認識ブロックが設けられてもよい。

プロセッサ１００は、さらに、ＤＭＡＣ１２２と、画像処理ブロック１２４と、ＣＰＵ１３０と、画像データ転送部１２６と、ＳＤＲＡＭＣ（SDRAM Controller）１２８と、メモリカード制御ブロック１４０と、ＵＳＢ（Universal Serial Bus）ブロック１４６と、ペリフェラル・ブロック１５０と、音声ユニット１５２と、シリアルブロック１５８と、ＬＣＤドライバ１６２と、ブリッジ１６８とを含む。

ＣＰＵ１３０は、全天球撮像装置１０の各部の動作を制御する。画像処理ブロック１２４は、画像データに対し各種画像処理を施す。プロセッサ１００には、リサイズブロック１３２が設けられ、リサイズブロック１３２は、画像データのサイズを補間処理により拡大または縮小するためのブロックである。プロセッサ１００には、また、静止画圧縮ブロック１３４が設けられ、静止画圧縮ブロック１３４は、ＪＰＥＧ（Joint Photographic Experts Group）、ＴＩＦＦ（Tagged Image File Format）などの静止画圧縮および伸張を行うコーデック・ブロックである。静止画圧縮ブロック１３４は、生成された全天球画像の静止画データを生成するために用いられる。プロセッサ１００には、さらに、動画圧縮ブロック１３６が設けられ、動画圧縮ブロック１３６は、ＭＰＥＧ（Moving Picture Experts Group）－４ＡＶＣ（Advanced Video Coding）／Ｈ．２６４などの動画圧縮および伸張を行うコーデック・ブロックである。動画圧縮ブロック１３６は、生成された全天球画像の動画データを生成するために用いられる。また、プロセッサ１００には、パワーコントローラ１３７が設けられている。

画像データ転送部１２６は、画像処理ブロック１２４で画像処理された画像を転送する。ＳＤＲＡＭＣ１２８は、プロセッサ１００に接続されるＳＤＲＡＭ１３８を制御し、ＳＤＲＡＭ１３８には、プロセッサ１００内で画像データに各種処理を施す際に、画像データが一時的に保存される。メモリカード制御ブロック１４０は、メモリカードスロット１４２に挿入されたメモリカードおよびフラッシュＲＯＭ（Read Only Memory）１４４に対する読み書きを制御する。メモリカードスロット１４２は、全天球撮像装置１０にメモリカードを着脱可能に装着するためのスロットである。ＵＳＢブロック１４６は、ＵＳＢコネクタ１４８を介して接続されるパーソナル・コンピュータなどの外部機器とのＵＳＢ通信を制御する。ペリフェラル・ブロック１５０には、電源スイッチ１６６が接続される。

音声ユニット１５２は、ユーザが音声信号を入力するマイク１５６と、記録された音声信号を出力するスピーカ１５４とに接続され、音声入出力を制御する。シリアルブロック１５８は、パーソナル・コンピュータなどの外部機器とのシリアル通信を制御し、無線ＮＩＣ（Network Interface Card）１６０が接続される。ＬＣＤ（Liquid Crystal Display）ドライバ１６２は、ＬＣＤモニタ１６４を駆動するドライブ回路であり、ＬＣＤモニタ１６４に各種状態を表示するための信号に変換する。図２に示すもののほか、ＨＤＭＩ（High-Definition Multimedia Interface、登録商標）などの映像インタフェースが設けられていてもよい。

フラッシュＲＯＭ１４４には、ＣＰＵ１３０が解読可能なコードで記述された制御プログラムや各種パラメータが格納される。電源スイッチ１６６の操作によって電源がオン状態になると、上記制御プログラムがメインメモリにロードされ、ＣＰＵ１３０は、メインメモリに読み込まれたプログラムに従って、装置各部の動作を制御する。また同時に、制御に必要なデータがＳＤＲＡＭ１３８と、図示しないローカルＳＲＡＭ（Static Random Access Memory）とに一時的に保存される。なお、書き換え可能なフラッシュＲＯＭ１４４を使用することで、制御プログラムや制御するためのパラメータを変更することが可能となり、機能のバージョンアップを容易に行うことができる。

図３は、本実施形態における全天球撮像装置１０における画像処理全体の流れを説明する図であり、主要な機能ブロックが示されている。図３に示すように、撮像素子２２Ａおよび撮像素子２２Ｂの各々によって、所定の露出条件パラメータのもとで画像が撮像される。続いて、撮像素子２２Ａおよび撮像素子２２Ｂの各々から出力された画像に対し、図２に示したＩＳＰ１０８Ａ，１０８Ｂにより、第１画像信号処理（処理１）の処理が行われる。第１画像信号処理の処理としては、オプティカル・ブラック（ＯＢ）補正処理、欠陥画素補正処理、リニア補正処理、シェーディング補正処理および領域分割平均処理が実行され、その結果はメモリに保存される。

第１画像信号処理（ＩＳＰ１）の処理が完了すると、続いて、ＩＳＰ１０８Ａ，１０８Ｂにより、第２画像信号処理（処理２）が行われる。第２画像信号処理として、ホワイトバランス（WB (White Balance)ゲイン）処理１７６、ガンマ（γ）補正処理、ベイヤー補間処理、ＹＵＶ変換処理、エッジ強調（ＹＣＦＬＴ）処理および色補正処理が実行され、その結果はメモリに保存される。

撮像素子２２Ａから出力されたベイヤーＲＡＷの画像に対して、ＩＳＰ１０８Ａにより第１画像信号処理が行われ、その画像がメモリに保存される。撮像素子２２Ｂから出力されたベイヤーＲＡＷの画像に対しても同様に、ＩＳＰ１０８Ｂにより第１画像信号処理が行われ、その画像がメモリに保存される。

なお、両眼の画像の画像境界部分の明るさが合うように、領域分割平均処理によって得られたエリア積算値を用いて、各撮像素子２２Ａ，２２Ｂが適正露出に設定されてもよい（複眼ＡＥ）。また、撮像素子２２が、独立な簡易ＡＥ処理機能を有し、撮像素子２２Ａおよび撮像素子２２Ｂの各々が単独で適正露出に設定できるようになっていてもよい。

第２画像信号処理が終了したデータは、歪曲補正・画像合成ブロック１１８により歪曲補正・合成処理が行われ、全天球画像が生成される。歪曲補正・合成処理の過程で、適宜、モーションセンサ１２０からの情報を得て天頂補正および回転補正が行われる。撮像された画像の保存を行う場合、画像は、静止画であれば、例えば図２に示した静止画圧縮ブロック１３４で適宜ＪＰＥＧ圧縮され、メモリに保存され、ファイル保存（タグ付け）が行われる。動画であれば、画像は、図２に示した動画圧縮ブロック１３６で適宜ＭＰＥＧ－４ＡＶＣ／Ｈ．２６４などの動画フォーマットへ圧縮され、メモリに保存され、ファイル保存（タグ付け）が行われる。さらに、データがＳＤカードなどのメディアに保存されてもよい。スマートフォンなどの情報処理装置５０に転送する際には、無線ＬＡＮ（Wi-Fi）やBluetooth（登録商標）などを使用して転送が行われる。

以下、図４を参照しながら、全天球画像の生成および生成される全天球画像について説明する。図４（Ａ）は、全天球画像生成における各画像のデータ構造および画像のデータフローを説明する。まず、撮像素子２２Ａ，２２Ｂ各々で直接撮像される画像は、全天球のうちの概ね半球を視野に収めた画像である。レンズ光学系２０に入射した光は、所定の射影方式に従って撮像素子２２の受光領域に結像される。ここで撮像される画像は、受光領域が平面エリアを成す２次元の撮像素子で撮像されたものであり、平面座標系で表現された画像データとなる。また、典型的には、得られる画像は、図４（Ａ）において「部分画像Ａ」および「部分画像Ｂ」で示されるように、各撮影範囲が投影されたイメージサークル全体を含む魚眼画像として構成される。

これら複数の撮像素子２２Ａ，２２Ｂで撮像された複数の部分画像が、歪み補正および合成処理されて、１つの全天球画像が構成される。合成処理では、平面画像として構成される各部分画像から、まず、相補的な各半球部分を含む各画像が生成される。そして、各半球部分を含む２つの画像が、重複領域のマッチングに基づいて位置合わせ（スティッチング処理）され、画像合成され、全天球全体を含む全天球画像が生成される。各半球部分の画像には他の画像との重複領域が含まれるが、画像合成においては、自然なつなぎ目となるように重複領域についてブレンディングが行われる。

図４（Ｂ）は、本実施形態で用いられる全天球画像の画像データのデータ構造を平面で表して説明する図である。図４（Ｃ）は、全天球画像の画像データのデータ構造を球面で表して説明する図である。図４（Ｂ）に示すように、全天球画像の画像データは、所定の軸に対してなされる垂直角度φと、所定の軸周りの回転角に対応する水平角度θとを座標とした画素値の配列として表現される。垂直角度φは、０度～１８０度（あるいは－９０度～＋９０度）の範囲となり、水平角度θは、０度～３６０度（あるいは－１８０度～＋１８０度）の範囲となる。

全天球フォーマットの各座標値（θ，φ）は、図４（Ｃ）に示すように、撮影地点を中心とした全方位を表す球面上の各点と対応付けられており、全方位が全天球画像上に対応付けられる。魚眼レンズで撮像された部分画像の平面座標と、全天球画像の球面上の座標とは、所定の変換テーブルにて対応付けされる。変換テーブルは、それぞれのレンズ光学系の設計データ等に基づいて、所定の投影モデルに従い製造元等で予め作成されたデータであり、部分画像を全天球画像へ変換するデータである。

上述したように、深層学習を用いて画像から人物の姿勢、ジェスチャーまたは顔表情を検出し、所定の姿勢、ジェスチャーまたは顔表情を検出した時に自動撮影を行う技術が知られている。

上述した人物の姿勢、ジェスチャー、顔表情に基づく撮像制御は、画像処理によって被写体となる人物の状態を検出するものであり、被写体となる人物（検出対象）が、画面内においてある程度の割合を占めることが多い。しかしながら、画面内に出来るだけ写り込まないようにして、特定の姿勢や姿勢変化により撮像装置を遠隔操作しようとする用途では、操作者は、画面内に占める割合は小さくなる傾向がある。すなわち、操作者が画面内に入るのは遠隔操作するためであり、操作者は主要被写体ではないといえる。

上述した人物の状態を検出する際、検出時間を短縮するために、画像を縮小することにより検出処理を行う画素数を減らして検出処理を行うことが一般的である。しかしながら、処理精度と検出時間はトレードオフの関係があり、画像を縮小して検出動作を行うと検出精度が低下する。さらに、検出対象である操作者の画面を占める割合が少ない場合は、検出対象が占める画素数が少ないため、画像全体を縮小してしまうとますます画素数が少なくなり、姿勢変化の検出精度が悪化する。

さらに、上述したような全天球撮像装置１０では、全天球画像特有の困難も伴う。例えば、魚眼画像では、撮像した人物の歪が大きく、また複数の魚眼画像の境に人物がいる場合（複数の魚眼画像間で人物が跨る状態）に姿勢検出精度が低くなってしまう。複数の魚眼画像を一度Equirectangular（エクイレクタングラー）の画像にした後、繋ぎ合わせて全天球画像にし、全天球画像上で検出を行うことで、赤道付近の歪が軽減され、かつ、複数の画像間で人物が分割されなくなり人物の姿勢検出精度の向上が期待できるが、それでもなお、以下説明するように、困難が伴う。

より具体的には、撮像装置から操作者までの距離が同じでも、撮像装置におけるレンズが広角になるほど人物が画面内に占める割合は小さくなるが、水平方向３６０度の画角を有する全天球画像では、特に、人物が画面内に占める割合は小さくなる。全天球画像では、２つの魚眼画像が接合されているため、複数の魚眼画像間の境界に人物がいる場合の人物が分割されてしまうことを一定程度防止できる場合もある。しかしながら、全天球画像は、水平方向３６０度で循環するため、周辺部ないし端部で切れてしまっており、この画像端で人物が分割されると、人物の姿勢検出精度が低下する。特に、図1に示すような２つの撮像部が表裏に設けられ、レンズ正面が全天球画像の中央部に対応付けられる構成では、撮影者自身は、画面内に写り込みたくない場合、画像の中央に位置しないように撮像装置の側面で遠隔操作することが多い。そのような場合に、全天球画像の両端部で人物が分かれてしまう。

上記点に鑑みて、本実施形態による全天球撮像装置１０は、画像を取得し、まず取得された画像から人物領域の位置を特定し、特定された前記人物領域の位置に基づいて検出対象領域を設定する。そして、画像における、設定された検出対象領域に基づいて人物の状態を検出する。上記構成により、画像全体に対して検出処理を行うのではなく、画面内において人物がいる領域を特定し、この特定された人物がいる領域に基づいて限定した範囲で検出処理を行うことで、検出処理を行う画素数を減らし、検出時間を短縮する。画像を縮小するのではないため、画面内における人物の画素数は変わらず、検出精度の悪化が防止される。これにより、画面内から人物の状態を検出する際に検出時間の短縮と検出精度とを両立させること可能となる。

より好ましい実施形態では、少なくとも一方の方向で循環する全天球画像であることに対応して、少なくとも検出対象領域において、全天球画像の一方の端部領域が他方の端部に繋がるように端部領域を複製することができる。上記好ましい実施形態の構成により、全天球画像をエクイレクタングラー画像とした際に検出対象が両端部に分かれてしまっても人物を精度高く検出することが可能となる。

以下、図５～図８を参照しながら、第１の実施形態による全天球撮像装置１０が実行する人物の姿勢検出に基づく撮像制御について、より詳細に説明する。

図５は、第１の実施形態による人物の姿勢検出に基づく撮像制御を実現するための機能ブロック図である。図５に示す機能ブロック２００は、全天球画像生成部２１０と、画像取得部２２０と、複製部２３０と、位置特定部２４０と、領域設定部２５０と、姿勢検出部２６０と、撮像制御部２７０とを含み構成される。

全天球画像生成部２１０は、撮像素子２２によって撮像され、歪曲補正・画像合成ブロック１１８により合成された全天球画像（エクイレクタングラー画像）を生成する。なお、人物の姿勢検出に基づく撮像制御は、シャッターボタンを押す前の本番撮影前の制御であり得るが、説明する実施形態においては、本番撮影前の段階でも魚眼画像から全天球画像への変換が行われ、この変換後の全天球画像が姿勢検出の処理対象となる点に留意されたい。

画像取得部２２０は、処理対象の画像を取得する。全天球撮像装置１０において、取得される画像は、少なくとも第１の方向で３６０度の画角を有する画像であり、より具体的には、水平方向３６０度、垂直方向１８０度分（水平方向３６０度を含むため反対側と併せて水平３６０度垂直３６０度）の全天球画像である。

全天球画像は、撮影範囲としては水平方向で循環する画像であるものの、画像データとしては、所定の水平位置を端部とした１枚の画像であり、この端部に人物が位置する場合、人物を含む領域が分かれてしまい姿勢検出の精度に影響を及ぼす虞がある。そこで、本実施形態による複製部２３０は、画像端部でのこの不連続性に対処するために、全天球画像の一方の端部領域が他方の端部に繋がるようにこの端部領域を複製し、この複製を他方の端部に付加する。複製部２３０は、後述する位置特定部２４０により人物領域の位置を特定する処理を行う前の段階で複製を行う。

位置特定部２４０は、取得された画像から人物領域の位置を特定する。人物領域の位置には、任意の技術を提供することが可能であり、これまで知られた軽量な人物検出や顔検出などを適用することができる。上述したように、本実施形態においては、位置特定部２４０は、全天球画像の一方の端部領域の複製を全天球画像の他方の端部に付加した変更後の画像に基づいて、人物領域の位置を特定する。なお、人物領域の位置は、説明する実施形態では、取得された画像に基づき人物検出を行ことによって、もしくは取得された画像に基づき顔検出を行うことによって検出することとするが、他の実施形態では、連続して取得された複数のフレームの画像の差分に基づき動体検出を行うことによって検出することもできる。

領域設定部２５０は、特定された人物領域の位置に基づいて、全天球画像に対し検出対象領域を設定する。検出対象領域の設定は、全天球画像の一部に対して設定され、この一部を対象として後述する検出処理が行われてもよいし、全天球画像における検出対象領域に相当する部分の画像を複製し、この複製データに対し検出処理を実行してもよい。

姿勢検出部２６０は、設定された検出対象領域を処理対象とし、全天球画像における検出対象領域の画像特徴に基づいて人物の姿勢を検出する。この際に、好ましくは、検出対象領域を縮小しない。あるいは、姿勢検出部２６０が使用する深層学習モデルの入力層に適合させてトリミングや白塗または黒塗、縮小を行ったとしても、全天球画像の全体を縮小するのではなく一部の限定された検出対象領域を縮小等するのことになるため、画素数の減少を抑えることができる。姿勢検出部２６０は、好ましくは、取得された画像に基づく人物の骨格検出と、検出された骨格に基づく姿勢検出とを含むとができる。骨格検出や姿勢検出には、深層学習モデルを用いることができる。

撮像制御部２７０は、上述までの処理で検出された人物の姿勢に基づいて撮像体１２を制御する。より具体的には、特定の姿勢を検出して、検出された姿勢に応じて、シャッターを切る（撮影する）、タイマーを設定する、もしくは撮影パラメータやモードを変更する、といったカメラの機能に関する制御を行う。

図６は、第１の実施形態による人物の姿勢検出に基づく撮像制御を示すフローチャートである。

図６に示す処理は、全天球撮像装置１０の起動または姿勢検出に基づく撮像制御機能の起動により、画像フレームの生成が開始されたことに応答して、各フレーム毎に実行される。なお、図６は、人物を検出して、所定の姿勢を検出してシャッターを切るまでの一連のフローを表し、撮像素子２２Ａ，２２ＢからＩＳＰ１０８Ａ，１０８Ｂを通ってＳＤＲＡＭに出力された１フレームのエクイレクタングラー形式の全天球画像毎に行うものとして説明する。しかしながら、特に限定されるものではなく、他の実施形態では、一定のフレーム間隔毎に行ってもよい。

ステップＳ１０１では、プロセッサは、画像取得部２２０により、全天球画像生成部２１０が生成された１フレーム分の全天球画像を取得する。ステップＳ１０２では、プロセッサは、複製部２３０により、全天球画像の一方の端部領域が他方の端部に繋がるように、端部領域を複製し、複製を画像の他方の端部に付加した変更後の画像を生成する。

図７は、本実施形態による全天球撮像装置において、全天球画像の一方の端部領域を他方の端部に繋がるように端部領域を複製する処理を説明する。図６に示すステップＳ１０２では、図７（Ａ）および図７（Ｂ）に示すように、全天球画像の一方の端部領域Ｔを他方の端部Ｓに複製Ｔ’させた変更後の全天球画像を作成する。簡便には、複製するサイズは固定で、画像が３８４０ｘ１９２０の解像度（ＡｘＢ）である場合は、例えば、元の全天球画像に対して、固定で左端から水平画像サイズの１０％である３８４ｘ１９２０（ＣｘＢ）を右端に複製し、４２２４ｘ１９２０（Ｄ×Ｂ）の変更の全天球画像を生成する。

ステップＳ１０３では、プロセッサは、位置特定部２４０により、変更後の全天球画像から人物領域の位置を特定する。これにより、図７（Ｃ）に示すような、検出した人物Ｐを含む矩形エリア（検出枠）Ｒを表す座標（ｐｘ，ｐｙ）および大きさ（高さＨおよび幅Ｗ）が出力される。ここで、人物を複数検出した場合は、検出した人数分座標および大きさが出力されるものとする。なお、ステップＳ１０３の人物領域の位置を特定する処理は、任意の人物検出アルゴリズムを用いることができる。例えば統計学習方式を用いたＳＶＭ（サポートベクターマシン）やＡｄａＢｏｏｓｔなどの技術を利用することができる。これらの技術は、一般的に、姿勢検出処理などと比較して軽量である。なお、説明する実施形態では、人物検出が行われるものとして説明するが、顔検出が行われてもよい。

また、場合によっては、図７の左端の複製元画像領域と右側の複製先画像領域の両方で同じ被写体が検出され得る。その場合は、複製先画像領域を含む領域での検出結果を用いることとしてもよいし、あるいは、複製元画像領域と複製先画像領域の両方で検出された結果を含めてもよい。

ステップＳ１０４で、プロセッサは、人物が検出されたか否かを判定する。ステップＳ１０４で、人物が１人も検出されなかったと判定された場合（ＮＯ）は、ステップＳ１１２へ処理が分岐され、当該フレームに対する処理が終了する。一方、ステップＳ１０４で、少なくとも１人の人物が検出されたと判定された場合（ＹＥＳ）は、ステップＳ１０５へ処理が進められる。ステップＳ１０５では、プロセッサは、Ｎを初期値０に設定し、ＮＭＡＸに検出された人物数を設定し、ステップＳ１０６～ステップＳ１１０で、特定した人物の数だけ、人物毎に処理を繰り返す。なお、検出した人物を処理する順番は、検出した人物の矩形エリアの面積が広いものを優してもよい。

ステップＳ１０６では、プロセッサは、領域設定部２５０により、特定された人物領域の位置に基づいて検出対象領域を設定する。ここでは、人物検出や顔検出での検出枠（位置（ｐｘ、ｐｙ）、大きさ（Ｗ、Ｈ））をそのまま検出対象領域に設定してもよいし、これに対して所定のマージンを加えた領域としてもよい。

ステップＳ１０７では、プロセッサは、姿勢検出部２６０により、画像における検出対象領域に基づいて人物の状態、より具体的には人物の姿勢を検出する。設定された検出対象領域の座標部分を切り出した画像に対して姿勢検出が行われる。例えば、座標（ｐｘ、ｐｙ）＝（３２００，４６０）で、大きさＷ＝１８０、Ｈ＝８００の場合は、（３２００，４６０）から（３３８００，１２６０）の８００ｘ１８０の矩形範囲が切り出される。姿勢検出部２６０は、切り出した部分に対して骨格検出を行う。なお、姿勢検出部２６０による骨格検出は、切り出した画像に対してではなく、設定された検出対象領域の部分のみを検出対象して行っても良い。骨格検出は、深層学習により学習されたニューラルネットワークにより実行されてもよく、画像を入力として、人物のボディパーツの座標が出力される。骨格検出は、例えば、図８に示すように人物のボディパーツを０～１７の１８個に分けて検出するものであってよく、各ボディパーツの位置（ｘ座標、ｙ座標）が出力される。例えば、番号４および番号７は手首、番号１４および番号１５は目の位置を表す。

ステップＳ１０８では、プロセッサは、姿勢検出部２６０により、所定の姿勢が検出されたか否かを判定する。ステップＳ１０８では、骨格検出結果の座標に基づいて、所定の姿勢であるか否かが判定される。所定の姿勢とカメラ制御の関係を表１に例示する。

表１に例示するように、検出した骨格の４（右手首）または７（左手首）のＹ座標が１４（右目）または１５（左目）のＹ座標より上であることを条件として、目よりも手首の位置が上にきていると判断し、所定の姿勢と判定され、Ｓ１１１でシャッターを切る動作（撮影）を行うことができる。複数の姿勢が判定された場合は、表１に例示されているように優先度が設定され、優先度の高いものを判定結果を採用することができる。なお、説明する実施形態では、静的な姿勢を検出するものとして説明するが、姿勢の時系列を含む姿勢の動的な変化を検出して、カメラ制御を行ってもよい。

ステップＳ１０８で、まだ所定の姿勢が検出されていないと判定された場合（ＮＯ）は、ステップＳ１０９へ処理を分岐させる。ステップＳ１０９では、Ｎをインクリメントし、ステップＳ１１０で、ＮがＮＭＡＸに達しているか否かを判定する。ステップＳ１１０で、ＮがＮＭＡＸに達していると判定された場合（ＹＥＳ）は、ステップＳ１１２へ処理が分岐され、当該フレームに対する処理が終了する。一方、まだＮがＮＭＡＸに達していないと判定された場合（ＮＯ）は、ステップＳ１０６にループさせて、残りの検出された人物についての処理を継続する。

再びステップＳ１０８へ戻ると、ステップＳ１０８で、所定の姿勢が検出されたと判定された場合（ＹＥＳ）は、ステップＳ１１１に処理が分岐される。ステップＳ１１１では、プロセッサは、撮像制御部２７０により、表１に例示した条件に対応したカメラ制御を行い、ステップＳ１１２で当該フレームに対する処理が終了する。例えば、シャッターを切る動作として、撮像した画像をファイルとして記録することができる。

以上説明した実施形態によれば、画面内から人物の姿勢を検出する際に検出時間の短縮と検出精度とを両立させることが可能となる。特に、限定した検出対象範囲が設定されるため、遠くに離れた人物の姿勢を精度よく、高速に検出することが可能となる。

以下、図９～図１３を参照しながら、第２の実施形態による全天球撮像装置１０が実行する人物の姿勢検出に基づく撮像制御について説明する。上述した第１の実施形態では、人物領域の検出および人物領域の位置の特定の段階で、全天球画像の一方の端部領域の複製を他方の端部に付加する処理を行い、この変更後の画像に基づいて、人物領域の位置の特定および人物の姿勢の検出を行うものであった。これに対し、以下、説明する第２の実施形態では、端部領域の複製および付加の処理の前に、人物領域の位置を特定し、人物領域の位置および大きさに応じた検出対象領域を設定し、必要な場合にだけ、全天球画像の一方の端部領域の複製を他方の端部に付加する処理を行って、人物の姿勢の検出を行うものである。

図９は、第２の実施形態による人物の姿勢検出に基づく撮像制御を実現するための機能ブロック図である。図９に示す機能ブロック３００は、全天球画像生成部３１０と、画像取得部３２０と、位置特定部３３０と、サイズ決定部３４０と、要否判定部３５０と、複製部３６０と、領域設定部３７０と、姿勢検出部３８０と、撮像制御部３９０とを含み構成される。なお、図９に示す機能ブロックは、特に断りがない限り、図５に示す同一名称の機能ブロックと同一または類似の機能を有するものとして詳細な説明は割愛する。

全天球画像生成部３１０は、撮像素子２２によって撮像され、歪曲補正・画像合成ブロック１１８により合成された全天球画像を生成する。本実施形態においても、本番撮影前の段階でも魚眼画像から全天球画像への変換が行われる。画像取得部３２０は、処理対象の画像を取得する。

位置特定部３３０は、取得された画像から人物領域の位置を特定する。人物領域の位置の特定には、任意の技術を提供することが可能であり、これまで知られた軽量な人物検出や顔検出、動体検出などを適用することができる。なお、第２の実施形態においては、位置特定部３３０は、元の全天球画像に基づいて、人物領域の位置を特定する。そのため、人物領域の位置は、第２の実施形態では、連続して取得された複数のフレームの画像の差分に基づき動体検出を行うことによって行うことが好ましい。その方が、人物が境界に位置する場合に、人物の一部からでも好適に人物領域を検出することができるためである。

サイズ決定部３４０は、特定された人物領域の大きさに基づいて、設定するべき検出対象領域の位置および大きさを決定する。ここでは、動体検出での検出枠（位置（ｐｘ、ｐｙ）、大きさ（Ｗ、Ｈ））に対して所定のマージンを加えた領域とするものとすることができる。

要否判定部３５０は、設定するべき検出対象領域の位置および大きさに基づいて、複製を行う必要があるか否かを判定する。検出対象領域の位置および大きさによっては、設定するべき検出対象領域が全天球画像の範囲からはみ出てしまう場合がある。要否判定部３５０は、設定するべき検出対象領域の位置および大きさから、全天球画像の範囲からはみ出てしてしまわないかを判定し、はみ出してしまう場合には、複製が必要であると決定する。

複製部３６０は、第１の実施形態と同様に、画像端部でのこの不連続性に対処するために、少なくとも設定すべき検出対象領域において、全天球画像の一方の端部領域が他方の端部に繋がるようにこの端部領域を複製し、この複製を他方の端部に付加する処理を行う。第２の実施形態による複製部２３０は、上述した位置特定部３３０による人物領域の位置を特定する処理の後の段階で複製を行うが、要否判定部３５０により複製を行う必要があると判定された場合にだけ複製を行う。

領域設定部３７０は、特定された人物領域の位置に基づいて、全天球画像に対し検出対象領域を設定する。検出対象領域の設定は、全天球画像の一部に対して設定され、この一部を対象として後述する検出処理が行われてもよいし、検出処理のために全天球画像における検出対象領域に相当する部分の画像を別途複製（切り出し）し、この複製データを検出処理の対象としてもよい。また、検出処理のために相当部分の画像を複製する場合において、上述した複製は、第１の実施形態と同様に、全天球画像の一方の端部領域の複製を他方の端部に付加する処理を行って、変更後の画像から検出対象領域に相当する部分の画像を複製してもよい。あるいは、検出対象領域に含まれる全天球画像の部分を別途複製（切り出し）した後に、検出対象領域の不足する部分のみの全天球画像の他方の端部領域から複製し付加する処理を行ってもよい。

姿勢検出部２６０は、設定された検出対象領域を処理対象とし、全天球画像における検出対象領域の画像特徴に基づいて人物の姿勢を検出する。この際に、好ましくは、検出対象領域を縮小しない。あるいは、姿勢検出部２６０が使用する深層学習モデルの入力層に適合させてトリミングや白塗または黒塗、縮小を行ったとしても、全天球画像の全体を縮小するのではなく一部の限定された検出対象領域を縮小等する。このため、画素数の減少を抑えることができる。

撮像制御部２７０は、上述までの処理で検出された人物の姿勢に基づいて撮像体１２を制御する。

図１０は、第２の実施形態による人物の姿勢検出に基づく撮像制御を示すフローチャートである。

図１０に示す処理は、全天球撮像装置１０の起動または姿勢検出に基づく撮像制御機能の起動により、各フレーム毎に実行される。第１の実施形態と同様に、図１０に示す処理をフレーム毎に行ってもよいし、一定のフレーム間隔毎に行ってもよい。

ステップＳ２０１では、プロセッサは、画像取得部３２０により、全天球画像生成部２１０が生成された１フレーム分の全天球画像を取得する。ステップＳ２０２では、プロセッサは、位置特定部３３０により、全天球画像から動体検出で人物領域の位置および大きさを特定する。

図１１は、第２の実施形態による全天球撮像装置における、フレーム間の差分を検出する処理および複製の要否を判断する処理について説明する図である。図１１（Ａ）および（Ｂ）は、連続する２つのフレームを模式的に示し、前回のフレームと今回のフレームの差分によって動体部分Ｍを人物Ｐを含む人物領域として矩形エリアを表す座標（ｐｘ、ｐｙ）と大きさ（高さＨ，幅Ｗ）が出力される。

再び図１０を参照すると、ステップＳ２０３では、プロセッサは、人物が検出されたか否かを判定する。ステップＳ２０３で、人物が１人も検出されなかったと判定された場合（ＮＯ）は、ステップＳ２１４へ処理が分岐され、当該フレームに対する処理が終了する。一方、ステップＳ２０３で、少なくとも１人の人物が検出されたと判定された場合（ＹＥＳ）は、ステップＳ２０４へ処理が進められる。ステップＳ２０４では、プロセッサは、Ｎを初期値０に設定し、ＮＭＡＸに検出された人物（動体）数を設定し、ステップＳ２０５～ステップＳ２１２で、特定した人物の数だけ、人物毎に処理を繰り返す。

ステップＳ２０５～２０８では、動体部分を人物領域とし、人物領域の大きさに応じて検出枠を広げ、検出枠の範囲で検出対象範囲を設定し、その際に、必要に応じて、全天球画像の一方の端部領域を他方の端部に複製付加する。

より具体的には、ステップS２０５では、プロセッサは、サイズ決定部３４０により、特定された人物領域の位置および大きさに基づいて、設定するべき検出対象領域の位置および大きさを決定する。

図１２は、第２の実施形態による全天球撮像装置における、検出対象領域の広げ方を例示する図である。図１２において、ステップＳ２０２で検出した結果が高さＨと幅Ｗの検出枠ｄｃｔ＿ｂｏｘ２であるとする。その場合、検出対象領域は、もとの出力結果の幅Ｗに対して左右に５０％ずつ（Ｗ／２）だけ広げ、高さＨに対しても上下に５０％ずつ（Ｈ／２）だけ広げ、ｄｃｔ＿ｂｏｘ２の範囲を設定することができる。なお、高さ方向に広げた際に上または下の端に達した場合は上限（Ｙ＝０）または下限（例えばＹ=１９２０）に制限することができる。

ステップS２０６では、プロセッサは、検出対象領域（検出枠に対して検出対象領域が固定で定まる場合は、検出枠であってよい。）の位置および大きさに基づいて、複製を行う必要があるか否かを判定する。特定の実施形態において、特定した人物領域が画面端に位置し、かつ、人物領域の大きさに応じて決定した検出対象領域の位置および大きさから、検出対象領域が画像の端を超えるか否かで、複製の要否を判断することができる。

具体的は、まず、人物領域が画面端に位置するか否か判定することができる。図１１（Ｃ）は、人物領域が画面端に位置するか否かを判断する処理を説明する。図１１（Ｃ）に示すように、全天球画像には、画面端に位置すると判断するための境界が、左右に設定されている。左側の境界は、ｌｅ＿ｘｒａｎｇｅであり、右の境界は、ｒｅ＿ｘｒａｎｇｅである。３８４０ｘ１９２０の水平サイズの１０％に境界を設定する場合は、左右境界までの幅ｌｅ＿ｘｒａｎｇｅ，ｒｅ＿ｘｒａｎｇｅは、３８４である。上述した例では、ｐｘまたはｐｘ＋ｗが、ｘ座標０～ｌｅ＿ｘｒａｎｇｅまたは１９２０-ｒｅ＿ｘｒａｎｇｅ～１９２０の範囲に存在する場合は、人物領域が画面端に位置すると判定する。人物領域が画面端に位置すると判定された場合は、さらに、人物領域の大きさに応じて検出対象領域の大きさをとした場合に全天球画像の端を超えるか否かに応じて、複製の要否が判断される。

ステップS２０６で、複製が必要と判定された場合（ＹＥＳ）は、ステップＳ２０７へ処理が分岐される。ステップＳ２０７では、プロセッサは、複製部３６０により、検出対象領域において、全天球画像の一方の端部領域が他方の端部に繋がるように、端部領域を複製し、複製を画像の他方の端部に付加した変更後の画像を生成する。ステップＳ２０８では、プロセッサは、領域設定部３７０により、検出対象領域を設定する。

上述したように、検出処理のために相当部分の画像を別途複製（切り出し）する場合において、上述した複製は、検出対象領域に含まれる全天球画像の部分を複製した後に、検出対象領域の不足する部分のみに他方の端部領域から複製した画像を付加する処理を行ってもよい。図１３は、検出対象領域に含まれる全天球画像の部分を複製した後に、検出対象領域の不足する部分のみに他方の端部領域から複製し付加する処理を説明する。

図１３のように左端で検出された人物領域であるｄｃｔ＿ｂｏｘ１を上下左右に５０％広げる場合、左側が画像端を超過してしまうことになる。このため、右端から超過分である水平Ｗ／２－ｐｘ、垂直２Ｈの領域を複製して、トリミング領域に付加する。

ステップＳ２０９では、プロセッサは、姿勢検出部３８０により、画像における検出対象領域に基づいて人物の状態、より具体的には人物の姿勢を検出する。ステップＳ２１０では、プロセッサは、姿勢検出部２６０により、所定の姿勢が検出されたか否かを判定する。ステップＳ２１０では、骨格検出結果の座標に基づいて、所定の姿勢であるか否かが判定される。

ステップＳ２１０で、まだ所定の姿勢が検出されていないと判定された場合（ＮＯ）は、ステップＳ２１１へ処理を分岐させる。ステップＳ２１１では、Ｎをインクリメントし、ステップＳ２１２で、ＮがＮＭＡＸに達しているか否かを判定する。ステップＳ２１２で、ＮがＮＭＡＸに達していると判定された場合（ＹＥＳ）は、ステップＳ２１４へ処理が分岐され、当該フレームに対する処理が終了する。一方、ステップＳ２１２で、まだＮがＮＭＡＸに達していないと判定された場合（ＮＯ）は、ステップＳ２０５にループさせて、残りの検出された人物についての処理を継続する。

再びステップＳ２１０へ戻ると、ステップＳ２１０で、所定の姿勢が検出されたと判定された場合（ＹＥＳ）は、ステップＳ２１３に処理が分岐される。ステップＳ２１３では、プロセッサは、撮像制御部３９０により、例えば表１に例示した条件に対応したカメラ制御を行い、ステップＳ２１４で当該フレームに対する処理が終了する。例えば、シャッターを切る動作として、撮像した画像をファイルとして記録することができる。

なお、第２の実施形態においては、姿勢検出処理の最後に、次フレームでの動体検出で用いるため、現在のフレームを保存する。

第２の実施形態によれば、画面内から人物の姿勢を検出する際に検出時間の短縮と検出精度とを両立させることが可能となる。特に、限定した検出対象範囲が設定されるため、遠くに離れた人物の姿勢を精度よく、高速に検出することが可能となる。第２の実施形態では、特に、フレーム毎に画像の端部の複製が行われるわけではなく、検出対象領域が画像の端部を跨る場合のみ、複製が行われる。このため、第１の実施形態と比較しても、処理時間を少なくする効果が期待される。

以上説明した実施形態によれば、画面内から人物の状態を検出する際に検出時間の短縮と検出精度とを両立させることが可能となる。特に、画面内において人物が占める割合が少ない場合であっても、短い検出時間で検出可能となる。また、上記構成により、面内において人物が占める割合が少ない場合でも短い検出時間で検出できるので、特定の姿勢や姿勢変化に基づく撮像装置の遠隔操作を好適に適用することが可能となる。

なお、上述した各実施形態では、エクイレクタングラー画像を具体例として説明している。上述した実施形態は、全天球画像特有の部分もあるため、エクイレクタングラー画像を対象とする場合に好適に用いることができるが、特に限定されるわけではない。他の実施形態では、処理対象となる画像は、エクイレクタングラー画像に限定されるものではない。また、検出する人物の状態として、人物の骨格検出に基づく姿勢を例示したが、これに限定されるものではない。人物の全身からの姿勢を検出する場合に限定されず、人物の顔の表情（目や口の動き）、人物の体の部位の状態（手を用いたサイン）を検出することとしてもよい。

上記で説明した実施形態の各機能は、一または複数の処理回路によって実現することが可能である。ここで、本実施形態における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウエアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC（Application Specific Integrated Circuit）、DSP（digital signal processor）、FPGA（field programmable gate array）、SOC(System on a chip)、GPUおよび従来の回路モジュール等のデバイスを含むものとする。

また上記機能は、アセンブラ、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）、などのレガシープログラミング言語やオブジェクト指向プログラミング言語などで記述されたコンピュータ実行可能なプログラムにより実現でき、ＲＯＭ、ＥＥＰＲＯＭ、ＥＰＲＯＭ、フラッシュメモリ、フレキシブルディスク、ＣＤ－ＲＯＭ、ＣＤ－ＲＷ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＤＶＤ－ＲＷ、ブルーレイディスク、ＳＤカード、ＭＯなど装置可読な記録媒体に格納して、あるいは電気通信回線を通じて頒布することができる。

これまで本発明の一実施形態に係る画像処理装置、画像処理システム、画像処理方法およびプログラムについて説明してきたが、本発明は上述した実施形態に限定されるものではなく、他の実施形態の追加、変更または削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

１０…全天球撮像装置、１２…撮像体、１４…筐体、１８…撮影ボタン、２０…レンズ光学系、２２…撮像素子、１００…プロセッサ、１０２…鏡胴ユニット，１０８…ＩＳＰ、１１０，１２２…ＤＭＡＣ、１１２…アービタ（ＡＲＢＭＥＭＣ）、１１４…ＭＥＭＣ、１１６，１３８…ＳＤＲＡＭ、１１８…歪曲補正・画像合成ブロック、１１９…顔検出ブロック、１２０…モーションセンサ、１２４…画像処理ブロック、１２６…画像データ転送部、１２８…ＳＤＲＡＭＣ、１３０…ＣＰＵ、１３２…リサイズブロック、１３４…静止画圧縮ブロック、１３６…動画圧縮ブロック、１４０…メモリカード制御ブロック、１４２…メモリカードスロット、１４４…フラッシュＲＯＭ、１４６…ＵＳＢブロック、１４８…ＵＳＢコネクタ、１５０…ペリフェラル・ブロック、１５２…音声ユニット、１５４…スピーカ、１５６…マイク、１５８…シリアルブロック、１６０…無線ＮＩＣ、１６２…ＬＣＤドライバ、１６４…ＬＣＤモニタ、１６６…電源スイッチ、１６８…ブリッジ、２００，３００…機能ブロック、２１０，３１０…全天球画像生成部、２２０，３２０…画像取得部、２３０，３６０…複製部、２４０，３３０…位置特定部、２５０，３７０…領域設定部、２６０，３８０…姿勢検出部２６０、２７０，３９０…撮像制御部、３４０…サイズ決定部、３５０…要否判定部

特許第４２２７２５７号明細書特許第６７２９０４３号明細書

Claims

画像処理方法であって、コンピュータが、
画像を取得するステップと、
取得された画像から人物領域の位置を特定するステップと、
特定された前記人物領域の位置に基づいて検出対象領域を設定するステップと、
画像における前記検出対象領域に基づいて人物の状態を検出するステップと
を実行する、画像処理方法。
取得された前記画像は、少なくとも一方の方向で循環する画像であり、前記画像処理方法は、前記コンピュータが、
少なくとも前記検出対象領域において、前記画像の一方の端部領域が他方の端部に繋がるように前記端部領域を複製するステップ
をさらに実行する、請求項１に記載の画像処理方法。
前記複製するステップは、前記特定するステップの前に実行され、前記特定するステップでは、
前記画像の一方の前記端部領域の複製を前記画像の他方の端部に付加した画像に基づいて、前記人物領域の位置の特定および前記人物の状態の検出が行われることを特徴とする、請求項２に記載の画像処理方法。
前記複製するステップは、前記特定するステップの後に実行され、
特定された前記人物領域の大きさに基づいて検出対象領域の位置および大きさを決定するステップと、
前記検出対象領域の位置および大きさに基づいて、複製を行う必要があるか否かを判定するステップと
を実行し、前記判定するステップで、複製を行う必要があると判定された場合に、前記複製を行うステップが行われ、前記画像の一方の前記端部領域の複製を前記画像の他方の端部に付加した画像に基づいて、前記人物の状態の検出が行われる、請求項２に記載の画像処理方法。
取得された前記画像は、少なくとも第１の方向で３６０度の画角を有する、請求項２～４のいずれか１項に記載の画像処理方法。
前記検出は、取得された前記画像に基づく前記人物の骨格検出と、検出された骨格に基づく姿勢検出とを含む、請求項１～５のいずれか１項に記載の画像処理方法。
前記人物領域の位置を特定するステップは、
取得された画像に基づき人物検出を行ことによって、取得された画像に基づき顔検出を行うことによって、または、連続して取得された複数のフレームの画像の差分に基づき動体検出を行うことによって、前記人物領域の位置を特定することを特徴とする、請求項１～６のいずれか１項に記載の画像処理方法。
請求項１～７のいずれか１項に記載の画像処理方法を含む撮像制御方法であって、前記コンピュータは、撮像手段を備える装置を制御しており、前記コンピュータが、
前記画像処理方法を実行するステップと、
検出された前記人物の状態に基づいて、撮像手段を制御するステップと
を実行する、撮像制御方法。
請求項１～８のいずれか１項に記載の方法をコンピュータに実行させるためのプログラム。
画像を取得する画像取得部と、
取得された画像から人物領域の位置を特定する位置特定部と、
特定された前記人物領域の位置に基づいて検出対象領域を設定する領域設定部と、
画像における前記検出対象領域に基づいて人物の状態を検出する検出部と
を含む、画像処理装置。
取得された前記画像は、少なくとも一方の方向で循環する画像であり、前記画像処理装置は、
少なくとも前記検出対象領域において、前記画像の一方の端部領域が他方の端部に繋がるように前記端部領域を複製する複製部
をさらに含む、請求項１０に記載の画像処理装置。
前記複製部は、前記位置特定部により人物領域の位置が特定される前に前記複製を実行し、前記位置特定部は、前記画像の一方の前記端部領域の複製を前記画像の他方の端部に付加した画像に基づいて、前記人物領域の位置を特定することを特徴とする、請求項１１に記載の画像処理装置。
特定された前記人物領域の大きさに基づいて検出対象領域の位置および大きさを決定する決定部と、
前記検出対象領域の位置および大きさに基づいて、複製を行う必要があるか否かを判定する判定部と
をさらに含み、前記複製部は、前記判定部により複製を行う必要があると判定された場合に、前記複製を行い、前記検出部は、前記画像の一方の前記端部領域の複製を前記画像の他方の端部に付加した画像に基づいて、前記人物の状態の検出を行う、請求項１１に記載の画像処理装置。
取得された前記画像は、少なくとも第１の方向で３６０度の画角を有する、請求項１０～１３のいずれか１項に記載の画像処理装置。
前記検出は、取得された前記画像に基づく前記人物の骨格検出と、検出された骨格に基づく姿勢検出とを含む、請求項１０～１４のいずれか１項に記載の画像処理装置。
請求項１０～１３のいずれか１項に記載の画像処理装置と、
撮像手段と、
検出された前記人物の状態に基づいて撮像手段を制御する撮像制御部と
を含む、撮像装置。