JP2022143122A - 画像処理方法、撮像制御方法、プログラム、画像処理装置および撮像装置 - Google Patents
画像処理方法、撮像制御方法、プログラム、画像処理装置および撮像装置 Download PDFInfo
- Publication number
- JP2022143122A JP2022143122A JP2021043464A JP2021043464A JP2022143122A JP 2022143122 A JP2022143122 A JP 2022143122A JP 2021043464 A JP2021043464 A JP 2021043464A JP 2021043464 A JP2021043464 A JP 2021043464A JP 2022143122 A JP2022143122 A JP 2022143122A
- Authority
- JP
- Japan
- Prior art keywords
- image
- person
- detection
- image processing
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000003384 imaging method Methods 0.000 title claims description 95
- 238000012545 processing Methods 0.000 title claims description 83
- 238000000034 method Methods 0.000 title claims description 56
- 238000001514 detection method Methods 0.000 claims abstract description 197
- 230000010076 replication Effects 0.000 claims description 4
- 230000003362 replicative effect Effects 0.000 claims 1
- 230000036544 posture Effects 0.000 description 68
- 230000008569 process Effects 0.000 description 40
- 238000012937 correction Methods 0.000 description 19
- 230000003287 optical effect Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 230000006835 compression Effects 0.000 description 11
- 238000007906 compression Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 230000033001 locomotion Effects 0.000 description 8
- 230000009467 reduction Effects 0.000 description 7
- 230000002194 synthesizing effect Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000008921 facial expression Effects 0.000 description 4
- 210000000707 wrist Anatomy 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- VJTAZCKMHINUKO-UHFFFAOYSA-M chloro(2-methoxyethyl)mercury Chemical compound [Cl-].COCC[Hg+] VJTAZCKMHINUKO-UHFFFAOYSA-M 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000003705 background correction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/147—Details of sensors, e.g. sensor lenses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/16—Image acquisition using multiple overlapping images; Image stitching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/17—Image acquisition using hand-held instruments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Signal Processing (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Vascular Medicine (AREA)
- Image Processing (AREA)
- Studio Devices (AREA)
- Image Analysis (AREA)
Abstract
【課題】 画像処理方法を提供すること。【解決手段】本画像処理方法は、コンピュータが、画像を取得するステップを実行する(S101)。本画像処理方法は、また、取得された画像から人物領域の位置を特定するステップを実行する(S103)。本画像処理方法は、さらに、特定された人物領域の位置に基づいて検出対象領域を設定するステップを実行する(S106)。さらに、画像処理方法は、また、画像における検出対象領域に基づいて人物の状態を検出するステップを実行する(S107)。【選択図】 図6
Description
本発明は、画像処理技術に関し、より詳細には、画像処理方法、撮像制御方法、プログラム、画像処理装置および撮像装置に関する。
従来より、深層学習を用いて画像から人物の姿勢などを検出する技術が知られている。また、上記姿勢や顔表情またはジェスチャーなどの所定の人物の状態を検出した時に、自動撮影を行う技術が知られている。例えば、特許第4227257号明細書(特許文献1)は、被写体の顔、姿勢、動作を認識し、顔、姿勢、動作が所定の状態になった時に自動撮影する構成を開示する。また、特許第6729043号明細書(特許文献2)は、精度良く、画像内の人物の位置を特定することを目的とした技術を開示し、より具体的には、検出した人物領域に他の物体が重畳する場合、他の物体が移動体であれば人物の姿勢に基づいて人物位置を特定し、他の物体が非移動体であれば、人物領域の所定位置を人物位置と特定する構成を開示する。
しかしながら、上記従来技術は、画面内から人物の状態を検出する際に検出時間の短縮と検出精度とを両立させるという観点から改良の余地があった。
本開示は、上記点に鑑みてなされたものであり、画面内から人物の状態を検出する際に検出時間の短縮と検出精度とを両立させることが可能な画像処理方法を提供することを目的とする。
本開示では、上記課題を解決するために、下記特徴を有する画像処理方法を提供する。本画像処理方法は、コンピュータが、画像を取得するステップと、取得された画像から人物領域の位置を特定するステップと、特定された前記人物領域の位置に基づいて検出対象領域を設定するステップと、画像における前記検出対象領域に基づいて人物の状態を検出するステップとを実行する。
上記構成により、画面内から人物の状態を検出する際に検出時間の短縮と検出精度とを両立させることが可能となる。
以下、本実施形態について説明するが、実施形態は、以下に説明する実施形態に限定されるものではない。なお、以下の実施形態では、画像処理装置および撮像装置の一例として、2つの魚眼レンズを備える全天球撮像装置10を用いて説明する。
以下、図1および図2を参照しながら、本実施形態による全天球撮像装置10の全体構成について説明する。図1は、本実施形態による全天球撮像装置10の断面図である。図1に示す全天球撮像装置10は、撮像体12と、上記撮像体12およびコントローラやバッテリなどの部品を保持する筐体14と、上記筐体14に設けられた撮影ボタン18とを備える。
図1に示す撮像体12は、2つのレンズ光学系20A,20Bと、2つの撮像素子22A,22Bとを含み構成される。撮像素子22A,22Bは、CMOS(Complementary Metal Oxide Semiconductor)センサやCCD(Charge Coupled Device)センサなどである。レンズ光学系20は、例えば6群7枚や10群14枚の魚眼レンズとして構成される。魚眼レンズは、図1に示す実施形態では、180度(=360度/n;光学系数n=2)より大きい全画角を有し、好適には、190度以上の画角を有する。なお、説明する実施形態では、180度以上の全画角を有する2つの魚眼レンズを用いるものとして説明するが、全体として所定の画角が得られる限り、3つ以上のレンズ光学系および撮像素子を含んでいてもよい。また、説明する実施形態では、魚眼レンズを用いるものとして説明するが、全体として所定の画角が得られる限り、魚眼レンズに代えて、他の広角レンズや超広角レンズを用いることは妨げられない。
2つのレンズ光学系20A,20Bの光学素子(レンズ、プリズム、フィルタおよび開口絞り)は、撮像素子22A,22Bに対して位置関係が定められる。レンズ光学系20A,20Bの光学素子の光軸が、対応する撮像素子22の受光領域の中心部に直交して位置するように、かつ、受光領域が、対応する魚眼レンズの結像面となるように位置決めが行われる。なお、説明する実施形態では、視差を低減するために、2つのレンズ光学系20A,20Bにより集光された光を、2つの90度プリズムによって2つの撮像素子22A,22Bに振り割ける屈曲光学系を採用するものとするが、これに限定されるものではく、視差をより低減するために3回屈折構造としてもよいし、コストを低減するべくストレート光学系であってもよい。
図1に示す実施形態では、レンズ光学系20A,20Bは、同一仕様のものであり、それぞれの光軸が合致するようにして、互いに逆向きに組み合わせられる。撮像素子22A,22Bは、受光した光分布を画像信号に変換し、コントローラ上の画像処理ブロックに順次、画像を出力する。詳細は後述するが、撮像素子22A,22Bでそれぞれ撮像された画像は、合成処理されて、これにより、立体角4πステラジアンの画像(以下「全天球画像」と参照する。)が生成される。全天球画像は、撮影地点から見渡すことのできる全ての方向を撮影したものとなる。なお、説明する実施形態では、全天球画像を生成するものとして説明するが、水平面のみ360度を撮影した全周画像、いわゆる360度パノラマ画像であってもよく、全天球または水平面360度の全景のうちの一部を撮影した画像(例えば、水平360度、水平線から垂直90度を撮影した全天周(ドーム)画像)であってもよい。また、全天球画像は、静止画として取得することもできるし、動画として取得することもできる。
図2、本実施形態による全天球撮像装置10のハードウェア構成を示す。全天球撮像装置10は、デジタル・スチルカメラ・プロセッサ(以下、単にプロセッサと称する)100と、鏡胴ユニット102と、プロセッサ100に接続される種々のコンポーネントから構成されている。鏡胴ユニット102は、上述した2組のレンズ光学系20A,20Bと、撮像素子22A,22Bとを有している。撮像素子22は、プロセッサ100内のCPU(Central Processing Unit)130からの制御指令により制御される。CPU130の詳細については後述する。
プロセッサ100は、ISP(Image Signal Processor)108と、DMAC(Direct Memory Access Controller)110と、メモリアクセスの調停のためのアービタ(ARBMEMC)112とを含む。さらにプロセッサ100は、メモリアクセスを制御するMEMC(Memory Controller)114と、歪曲補正・画像合成ブロック118と、顔検出ブロック119とを含んでいる。ISP108A,108Bは、それぞれ、撮像素子22A,22Bの信号処理を経て入力された画像に対し、自動露出(AE:Automatic Exposure)制御、ホワイトバランス設定やガンマ設定を行う。なお、図2では、2つの撮像素子22A,22Bに対応して2つのISP108A,108Bが設けられているが、特に限定されるものではなく、2つの撮像素子22A,22Bに対し1つのISPが設けられてもよい。
MEMC114には、SDRAM(Synchronous Dynamic Random Access Memory)116が接続されている。そして、SDRAM116には、ISP108A,108Bおよび歪曲補正・画像合成ブロック118において処理を施す際に、データが一時的に保存される。歪曲補正・画像合成ブロック118は、レンズ光学系20および撮像素子22の2つの組から得られた2つの撮像画像に対し、モーションセンサ120からの情報を利用して歪曲補正とともに天頂補正などを施し、補正後の画像を合成する。モーションセンサ120は、3軸加速度センサ、3軸角速度センサおよび地磁気センサなどを含み得る。顔検出ブロック119は、画像から顔検出を行い、人物の顔の位置を特定する。なお、顔検出ブロック119とともに、これに代えて、人物の全身像、猫や犬など動物の顔、車や花などの他の被写体を認識する物体認識ブロックが設けられてもよい。
プロセッサ100は、さらに、DMAC122と、画像処理ブロック124と、CPU130と、画像データ転送部126と、SDRAMC(SDRAM Controller)128と、メモリカード制御ブロック140と、USB(Universal Serial Bus)ブロック146と、ペリフェラル・ブロック150と、音声ユニット152と、シリアルブロック158と、LCDドライバ162と、ブリッジ168とを含む。
CPU130は、全天球撮像装置10の各部の動作を制御する。画像処理ブロック124は、画像データに対し各種画像処理を施す。プロセッサ100には、リサイズブロック132が設けられ、リサイズブロック132は、画像データのサイズを補間処理により拡大または縮小するためのブロックである。プロセッサ100には、また、静止画圧縮ブロック134が設けられ、静止画圧縮ブロック134は、JPEG(Joint Photographic Experts Group)、TIFF(Tagged Image File Format)などの静止画圧縮および伸張を行うコーデック・ブロックである。静止画圧縮ブロック134は、生成された全天球画像の静止画データを生成するために用いられる。プロセッサ100には、さらに、動画圧縮ブロック136が設けられ、動画圧縮ブロック136は、MPEG(Moving Picture Experts Group)-4 AVC(Advanced Video Coding)/H.264などの動画圧縮および伸張を行うコーデック・ブロックである。動画圧縮ブロック136は、生成された全天球画像の動画データを生成するために用いられる。また、プロセッサ100には、パワーコントローラ137が設けられている。
画像データ転送部126は、画像処理ブロック124で画像処理された画像を転送する。SDRAMC128は、プロセッサ100に接続されるSDRAM138を制御し、SDRAM138には、プロセッサ100内で画像データに各種処理を施す際に、画像データが一時的に保存される。メモリカード制御ブロック140は、メモリカードスロット142に挿入されたメモリカードおよびフラッシュROM(Read Only Memory)144に対する読み書きを制御する。メモリカードスロット142は、全天球撮像装置10にメモリカードを着脱可能に装着するためのスロットである。USBブロック146は、USBコネクタ148を介して接続されるパーソナル・コンピュータなどの外部機器とのUSB通信を制御する。ペリフェラル・ブロック150には、電源スイッチ166が接続される。
音声ユニット152は、ユーザが音声信号を入力するマイク156と、記録された音声信号を出力するスピーカ154とに接続され、音声入出力を制御する。シリアルブロック158は、パーソナル・コンピュータなどの外部機器とのシリアル通信を制御し、無線NIC(Network Interface Card)160が接続される。LCD(Liquid Crystal Display)ドライバ162は、LCDモニタ164を駆動するドライブ回路であり、LCDモニタ164に各種状態を表示するための信号に変換する。図2に示すもののほか、HDMI(High-Definition Multimedia Interface、登録商標)などの映像インタフェースが設けられていてもよい。
フラッシュROM144には、CPU130が解読可能なコードで記述された制御プログラムや各種パラメータが格納される。電源スイッチ166の操作によって電源がオン状態になると、上記制御プログラムがメインメモリにロードされ、CPU130は、メインメモリに読み込まれたプログラムに従って、装置各部の動作を制御する。また同時に、制御に必要なデータがSDRAM138と、図示しないローカルSRAM(Static Random Access Memory)とに一時的に保存される。なお、書き換え可能なフラッシュROM144を使用することで、制御プログラムや制御するためのパラメータを変更することが可能となり、機能のバージョンアップを容易に行うことができる。
図3は、本実施形態における全天球撮像装置10における画像処理全体の流れを説明する図であり、主要な機能ブロックが示されている。図3に示すように、撮像素子22Aおよび撮像素子22Bの各々によって、所定の露出条件パラメータのもとで画像が撮像される。続いて、撮像素子22Aおよび撮像素子22Bの各々から出力された画像に対し、図2に示したISP108A,108Bにより、第1画像信号処理(処理1)の処理が行われる。第1画像信号処理の処理としては、オプティカル・ブラック(OB)補正処理、欠陥画素補正処理、リニア補正処理、シェーディング補正処理および領域分割平均処理が実行され、その結果はメモリに保存される。
第1画像信号処理(ISP1)の処理が完了すると、続いて、ISP108A,108Bにより、第2画像信号処理(処理2)が行われる。第2画像信号処理として、ホワイトバランス(WB (White Balance)ゲイン)処理176、ガンマ(γ)補正処理、ベイヤー補間処理、YUV変換処理、エッジ強調(YCFLT)処理および色補正処理が実行され、その結果はメモリに保存される。
撮像素子22Aから出力されたベイヤーRAWの画像に対して、ISP108Aにより第1画像信号処理が行われ、その画像がメモリに保存される。撮像素子22Bから出力されたベイヤーRAWの画像に対しても同様に、ISP108Bにより第1画像信号処理が行われ、その画像がメモリに保存される。
なお、両眼の画像の画像境界部分の明るさが合うように、領域分割平均処理によって得られたエリア積算値を用いて、各撮像素子22A,22Bが適正露出に設定されてもよい(複眼AE)。また、撮像素子22が、独立な簡易AE処理機能を有し、撮像素子22Aおよび撮像素子22Bの各々が単独で適正露出に設定できるようになっていてもよい。
第2画像信号処理が終了したデータは、歪曲補正・画像合成ブロック118により歪曲補正・合成処理が行われ、全天球画像が生成される。歪曲補正・合成処理の過程で、適宜、モーションセンサ120からの情報を得て天頂補正および回転補正が行われる。撮像された画像の保存を行う場合、画像は、静止画であれば、例えば図2に示した静止画圧縮ブロック134で適宜JPEG圧縮され、メモリに保存され、ファイル保存(タグ付け)が行われる。動画であれば、画像は、図2に示した動画圧縮ブロック136で適宜MPEG-4 AVC/H.264などの動画フォーマットへ圧縮され、メモリに保存され、ファイル保存(タグ付け)が行われる。さらに、データがSDカードなどのメディアに保存されてもよい。スマートフォンなどの情報処理装置50に転送する際には、無線LAN(Wi-Fi)やBluetooth(登録商標)などを使用して転送が行われる。
以下、図4を参照しながら、全天球画像の生成および生成される全天球画像について説明する。図4(A)は、全天球画像生成における各画像のデータ構造および画像のデータフローを説明する。まず、撮像素子22A,22B各々で直接撮像される画像は、全天球のうちの概ね半球を視野に収めた画像である。レンズ光学系20に入射した光は、所定の射影方式に従って撮像素子22の受光領域に結像される。ここで撮像される画像は、受光領域が平面エリアを成す2次元の撮像素子で撮像されたものであり、平面座標系で表現された画像データとなる。また、典型的には、得られる画像は、図4(A)において「部分画像A」および「部分画像B」で示されるように、各撮影範囲が投影されたイメージサークル全体を含む魚眼画像として構成される。
これら複数の撮像素子22A,22Bで撮像された複数の部分画像が、歪み補正および合成処理されて、1つの全天球画像が構成される。合成処理では、平面画像として構成される各部分画像から、まず、相補的な各半球部分を含む各画像が生成される。そして、各半球部分を含む2つの画像が、重複領域のマッチングに基づいて位置合わせ(スティッチング処理)され、画像合成され、全天球全体を含む全天球画像が生成される。各半球部分の画像には他の画像との重複領域が含まれるが、画像合成においては、自然なつなぎ目となるように重複領域についてブレンディングが行われる。
図4(B)は、本実施形態で用いられる全天球画像の画像データのデータ構造を平面で表して説明する図である。図4(C)は、全天球画像の画像データのデータ構造を球面で表して説明する図である。図4(B)に示すように、全天球画像の画像データは、所定の軸に対してなされる垂直角度φと、所定の軸周りの回転角に対応する水平角度θとを座標とした画素値の配列として表現される。垂直角度φは、0度~180度(あるいは-90度~+90度)の範囲となり、水平角度θは、0度~360度(あるいは-180度~+180度)の範囲となる。
全天球フォーマットの各座標値(θ,φ)は、図4(C)に示すように、撮影地点を中心とした全方位を表す球面上の各点と対応付けられており、全方位が全天球画像上に対応付けられる。魚眼レンズで撮像された部分画像の平面座標と、全天球画像の球面上の座標とは、所定の変換テーブルにて対応付けされる。変換テーブルは、それぞれのレンズ光学系の設計データ等に基づいて、所定の投影モデルに従い製造元等で予め作成されたデータであり、部分画像を全天球画像へ変換するデータである。
上述したように、深層学習を用いて画像から人物の姿勢、ジェスチャーまたは顔表情を検出し、所定の姿勢、ジェスチャーまたは顔表情を検出した時に自動撮影を行う技術が知られている。
上述した人物の姿勢、ジェスチャー、顔表情に基づく撮像制御は、画像処理によって被写体となる人物の状態を検出するものであり、被写体となる人物(検出対象)が、画面内においてある程度の割合を占めることが多い。しかしながら、画面内に出来るだけ写り込まないようにして、特定の姿勢や姿勢変化により撮像装置を遠隔操作しようとする用途では、操作者は、画面内に占める割合は小さくなる傾向がある。すなわち、操作者が画面内に入るのは遠隔操作するためであり、操作者は主要被写体ではないといえる。
上述した人物の状態を検出する際、検出時間を短縮するために、画像を縮小することにより検出処理を行う画素数を減らして検出処理を行うことが一般的である。しかしながら、処理精度と検出時間はトレードオフの関係があり、画像を縮小して検出動作を行うと検出精度が低下する。さらに、検出対象である操作者の画面を占める割合が少ない場合は、検出対象が占める画素数が少ないため、画像全体を縮小してしまうとますます画素数が少なくなり、姿勢変化の検出精度が悪化する。
さらに、上述したような全天球撮像装置10では、全天球画像特有の困難も伴う。例えば、魚眼画像では、撮像した人物の歪が大きく、また複数の魚眼画像の境に人物がいる場合(複数の魚眼画像間で人物が跨る状態)に姿勢検出精度が低くなってしまう。複数の魚眼画像を一度Equirectangular(エクイレクタングラー)の画像にした後、繋ぎ合わせて全天球画像にし、全天球画像上で検出を行うことで、赤道付近の歪が軽減され、かつ、複数の画像間で人物が分割されなくなり人物の姿勢検出精度の向上が期待できるが、それでもなお、以下説明するように、困難が伴う。
より具体的には、撮像装置から操作者までの距離が同じでも、撮像装置におけるレンズが広角になるほど人物が画面内に占める割合は小さくなるが、水平方向360度の画角を有する全天球画像では、特に、人物が画面内に占める割合は小さくなる。全天球画像では、2つの魚眼画像が接合されているため、複数の魚眼画像間の境界に人物がいる場合の人物が分割されてしまうことを一定程度防止できる場合もある。しかしながら、全天球画像は、水平方向360度で循環するため、周辺部ないし端部で切れてしまっており、この画像端で人物が分割されると、人物の姿勢検出精度が低下する。特に、図1に示すような2つの撮像部が表裏に設けられ、レンズ正面が全天球画像の中央部に対応付けられる構成では、撮影者自身は、画面内に写り込みたくない場合、画像の中央に位置しないように撮像装置の側面で遠隔操作することが多い。そのような場合に、全天球画像の両端部で人物が分かれてしまう。
上記点に鑑みて、本実施形態による全天球撮像装置10は、画像を取得し、まず取得された画像から人物領域の位置を特定し、特定された前記人物領域の位置に基づいて検出対象領域を設定する。そして、画像における、設定された検出対象領域に基づいて人物の状態を検出する。上記構成により、画像全体に対して検出処理を行うのではなく、画面内において人物がいる領域を特定し、この特定された人物がいる領域に基づいて限定した範囲で検出処理を行うことで、検出処理を行う画素数を減らし、検出時間を短縮する。画像を縮小するのではないため、画面内における人物の画素数は変わらず、検出精度の悪化が防止される。これにより、画面内から人物の状態を検出する際に検出時間の短縮と検出精度とを両立させること可能となる。
より好ましい実施形態では、少なくとも一方の方向で循環する全天球画像であることに対応して、少なくとも検出対象領域において、全天球画像の一方の端部領域が他方の端部に繋がるように端部領域を複製することができる。上記好ましい実施形態の構成により、全天球画像をエクイレクタングラー画像とした際に検出対象が両端部に分かれてしまっても人物を精度高く検出することが可能となる。
以下、図5~図8を参照しながら、第1の実施形態による全天球撮像装置10が実行する人物の姿勢検出に基づく撮像制御について、より詳細に説明する。
図5は、第1の実施形態による人物の姿勢検出に基づく撮像制御を実現するための機能ブロック図である。図5に示す機能ブロック200は、全天球画像生成部210と、画像取得部220と、複製部230と、位置特定部240と、領域設定部250と、姿勢検出部260と、撮像制御部270とを含み構成される。
全天球画像生成部210は、撮像素子22によって撮像され、歪曲補正・画像合成ブロック118により合成された全天球画像(エクイレクタングラー画像)を生成する。なお、人物の姿勢検出に基づく撮像制御は、シャッターボタンを押す前の本番撮影前の制御であり得るが、説明する実施形態においては、本番撮影前の段階でも魚眼画像から全天球画像への変換が行われ、この変換後の全天球画像が姿勢検出の処理対象となる点に留意されたい。
画像取得部220は、処理対象の画像を取得する。全天球撮像装置10において、取得される画像は、少なくとも第1の方向で360度の画角を有する画像であり、より具体的には、水平方向360度、垂直方向180度分(水平方向360度を含むため反対側と併せて水平360度垂直360度)の全天球画像である。
全天球画像は、撮影範囲としては水平方向で循環する画像であるものの、画像データとしては、所定の水平位置を端部とした1枚の画像であり、この端部に人物が位置する場合、人物を含む領域が分かれてしまい姿勢検出の精度に影響を及ぼす虞がある。そこで、本実施形態による複製部230は、画像端部でのこの不連続性に対処するために、全天球画像の一方の端部領域が他方の端部に繋がるようにこの端部領域を複製し、この複製を他方の端部に付加する。複製部230は、後述する位置特定部240により人物領域の位置を特定する処理を行う前の段階で複製を行う。
位置特定部240は、取得された画像から人物領域の位置を特定する。人物領域の位置には、任意の技術を提供することが可能であり、これまで知られた軽量な人物検出や顔検出などを適用することができる。上述したように、本実施形態においては、位置特定部240は、全天球画像の一方の端部領域の複製を全天球画像の他方の端部に付加した変更後の画像に基づいて、人物領域の位置を特定する。なお、人物領域の位置は、説明する実施形態では、取得された画像に基づき人物検出を行ことによって、もしくは取得された画像に基づき顔検出を行うことによって検出することとするが、他の実施形態では、連続して取得された複数のフレームの画像の差分に基づき動体検出を行うことによって検出することもできる。
領域設定部250は、特定された人物領域の位置に基づいて、全天球画像に対し検出対象領域を設定する。検出対象領域の設定は、全天球画像の一部に対して設定され、この一部を対象として後述する検出処理が行われてもよいし、全天球画像における検出対象領域に相当する部分の画像を複製し、この複製データに対し検出処理を実行してもよい。
姿勢検出部260は、設定された検出対象領域を処理対象とし、全天球画像における検出対象領域の画像特徴に基づいて人物の姿勢を検出する。この際に、好ましくは、検出対象領域を縮小しない。あるいは、姿勢検出部260が使用する深層学習モデルの入力層に適合させてトリミングや白塗または黒塗、縮小を行ったとしても、全天球画像の全体を縮小するのではなく一部の限定された検出対象領域を縮小等するのことになるため、画素数の減少を抑えることができる。姿勢検出部260は、好ましくは、取得された画像に基づく人物の骨格検出と、検出された骨格に基づく姿勢検出とを含むとができる。骨格検出や姿勢検出には、深層学習モデルを用いることができる。
撮像制御部270は、上述までの処理で検出された人物の姿勢に基づいて撮像体12を制御する。より具体的には、特定の姿勢を検出して、検出された姿勢に応じて、シャッターを切る(撮影する)、タイマーを設定する、もしくは撮影パラメータやモードを変更する、といったカメラの機能に関する制御を行う。
図6は、第1の実施形態による人物の姿勢検出に基づく撮像制御を示すフローチャートである。
図6に示す処理は、全天球撮像装置10の起動または姿勢検出に基づく撮像制御機能の起動により、画像フレームの生成が開始されたことに応答して、各フレーム毎に実行される。なお、図6は、人物を検出して、所定の姿勢を検出してシャッターを切るまでの一連のフローを表し、撮像素子22A,22BからISP108A,108Bを通ってSDRAMに出力された1フレームのエクイレクタングラー形式の全天球画像毎に行うものとして説明する。しかしながら、特に限定されるものではなく、他の実施形態では、一定のフレーム間隔毎に行ってもよい。
ステップS101では、プロセッサは、画像取得部220により、全天球画像生成部210が生成された1フレーム分の全天球画像を取得する。ステップS102では、プロセッサは、複製部230により、全天球画像の一方の端部領域が他方の端部に繋がるように、端部領域を複製し、複製を画像の他方の端部に付加した変更後の画像を生成する。
図7は、本実施形態による全天球撮像装置において、全天球画像の一方の端部領域を他方の端部に繋がるように端部領域を複製する処理を説明する。図6に示すステップS102では、図7(A)および図7(B)に示すように、全天球画像の一方の端部領域Tを他方の端部Sに複製T’させた変更後の全天球画像を作成する。簡便には、複製するサイズは固定で、画像が3840x1920の解像度(AxB)である場合は、例えば、元の全天球画像に対して、固定で左端から水平画像サイズの10%である384x1920(CxB)を右端に複製し、4224x1920(D×B)の変更の全天球画像を生成する。
ステップS103では、プロセッサは、位置特定部240により、変更後の全天球画像から人物領域の位置を特定する。これにより、図7(C)に示すような、検出した人物Pを含む矩形エリア(検出枠)Rを表す座標(px,py)および大きさ(高さHおよび幅W)が出力される。ここで、人物を複数検出した場合は、検出した人数分座標および大きさが出力されるものとする。なお、ステップS103の人物領域の位置を特定する処理は、任意の人物検出アルゴリズムを用いることができる。例えば統計学習方式を用いたSVM(サポートベクターマシン)やAdaBoostなどの技術を利用することができる。これらの技術は、一般的に、姿勢検出処理などと比較して軽量である。なお、説明する実施形態では、人物検出が行われるものとして説明するが、顔検出が行われてもよい。
また、場合によっては、図7の左端の複製元画像領域と右側の複製先画像領域の両方で同じ被写体が検出され得る。その場合は、複製先画像領域を含む領域での検出結果を用いることとしてもよいし、あるいは、複製元画像領域と複製先画像領域の両方で検出された結果を含めてもよい。
ステップS104で、プロセッサは、人物が検出されたか否かを判定する。ステップS104で、人物が1人も検出されなかったと判定された場合(NO)は、ステップS112へ処理が分岐され、当該フレームに対する処理が終了する。一方、ステップS104で、少なくとも1人の人物が検出されたと判定された場合(YES)は、ステップS105へ処理が進められる。ステップS105では、プロセッサは、Nを初期値0に設定し、NMAXに検出された人物数を設定し、ステップS106~ステップS110で、特定した人物の数だけ、人物毎に処理を繰り返す。なお、検出した人物を処理する順番は、検出した人物の矩形エリアの面積が広いものを優してもよい。
ステップS106では、プロセッサは、領域設定部250により、特定された人物領域の位置に基づいて検出対象領域を設定する。ここでは、人物検出や顔検出での検出枠(位置(px、py)、大きさ(W、H))をそのまま検出対象領域に設定してもよいし、これに対して所定のマージンを加えた領域としてもよい。
ステップS107では、プロセッサは、姿勢検出部260により、画像における検出対象領域に基づいて人物の状態、より具体的には人物の姿勢を検出する。設定された検出対象領域の座標部分を切り出した画像に対して姿勢検出が行われる。例えば、座標(px、py)=(3200,460)で、大きさW=180、H=800の場合は、(3200,460)から(33800,1260)の800x180の矩形範囲が切り出される。姿勢検出部260は、切り出した部分に対して骨格検出を行う。なお、姿勢検出部260による骨格検出は、切り出した画像に対してではなく、設定された検出対象領域の部分のみを検出対象して行っても良い。骨格検出は、深層学習により学習されたニューラルネットワークにより実行されてもよく、画像を入力として、人物のボディパーツの座標が出力される。骨格検出は、例えば、図8に示すように人物のボディパーツを0~17の18個に分けて検出するものであってよく、各ボディパーツの位置(x座標、y座標)が出力される。例えば、番号4および番号7は手首、番号14および番号15は目の位置を表す。
ステップS108では、プロセッサは、姿勢検出部260により、所定の姿勢が検出されたか否かを判定する。ステップS108では、骨格検出結果の座標に基づいて、所定の姿勢であるか否かが判定される。所定の姿勢とカメラ制御の関係を表1に例示する。
表1に例示するように、検出した骨格の4(右手首)または7(左手首)のY座標が14(右目)または15(左目)のY座標より上であることを条件として、目よりも手首の位置が上にきていると判断し、所定の姿勢と判定され、S111でシャッターを切る動作(撮影)を行うことができる。複数の姿勢が判定された場合は、表1に例示されているように優先度が設定され、優先度の高いものを判定結果を採用することができる。なお、説明する実施形態では、静的な姿勢を検出するものとして説明するが、姿勢の時系列を含む姿勢の動的な変化を検出して、カメラ制御を行ってもよい。
ステップS108で、まだ所定の姿勢が検出されていないと判定された場合(NO)は、ステップS109へ処理を分岐させる。ステップS109では、Nをインクリメントし、ステップS110で、NがNMAXに達しているか否かを判定する。ステップS110で、NがNMAXに達していると判定された場合(YES)は、ステップS112へ処理が分岐され、当該フレームに対する処理が終了する。一方、まだNがNMAXに達していないと判定された場合(NO)は、ステップS106にループさせて、残りの検出された人物についての処理を継続する。
再びステップS108へ戻ると、ステップS108で、所定の姿勢が検出されたと判定された場合(YES)は、ステップS111に処理が分岐される。ステップS111では、プロセッサは、撮像制御部270により、表1に例示した条件に対応したカメラ制御を行い、ステップS112で当該フレームに対する処理が終了する。例えば、シャッターを切る動作として、撮像した画像をファイルとして記録することができる。
以上説明した実施形態によれば、画面内から人物の姿勢を検出する際に検出時間の短縮と検出精度とを両立させることが可能となる。特に、限定した検出対象範囲が設定されるため、遠くに離れた人物の姿勢を精度よく、高速に検出することが可能となる。
以下、図9~図13を参照しながら、第2の実施形態による全天球撮像装置10が実行する人物の姿勢検出に基づく撮像制御について説明する。上述した第1の実施形態では、人物領域の検出および人物領域の位置の特定の段階で、全天球画像の一方の端部領域の複製を他方の端部に付加する処理を行い、この変更後の画像に基づいて、人物領域の位置の特定および人物の姿勢の検出を行うものであった。これに対し、以下、説明する第2の実施形態では、端部領域の複製および付加の処理の前に、人物領域の位置を特定し、人物領域の位置および大きさに応じた検出対象領域を設定し、必要な場合にだけ、全天球画像の一方の端部領域の複製を他方の端部に付加する処理を行って、人物の姿勢の検出を行うものである。
図9は、第2の実施形態による人物の姿勢検出に基づく撮像制御を実現するための機能ブロック図である。図9に示す機能ブロック300は、全天球画像生成部310と、画像取得部320と、位置特定部330と、サイズ決定部340と、要否判定部350と、複製部360と、領域設定部370と、姿勢検出部380と、撮像制御部390とを含み構成される。なお、図9に示す機能ブロックは、特に断りがない限り、図5に示す同一名称の機能ブロックと同一または類似の機能を有するものとして詳細な説明は割愛する。
全天球画像生成部310は、撮像素子22によって撮像され、歪曲補正・画像合成ブロック118により合成された全天球画像を生成する。本実施形態においても、本番撮影前の段階でも魚眼画像から全天球画像への変換が行われる。画像取得部320は、処理対象の画像を取得する。
位置特定部330は、取得された画像から人物領域の位置を特定する。人物領域の位置の特定には、任意の技術を提供することが可能であり、これまで知られた軽量な人物検出や顔検出、動体検出などを適用することができる。なお、第2の実施形態においては、位置特定部330は、元の全天球画像に基づいて、人物領域の位置を特定する。そのため、人物領域の位置は、第2の実施形態では、連続して取得された複数のフレームの画像の差分に基づき動体検出を行うことによって行うことが好ましい。その方が、人物が境界に位置する場合に、人物の一部からでも好適に人物領域を検出することができるためである。
サイズ決定部340は、特定された人物領域の大きさに基づいて、設定するべき検出対象領域の位置および大きさを決定する。ここでは、動体検出での検出枠(位置(px、py)、大きさ(W、H))に対して所定のマージンを加えた領域とするものとすることができる。
要否判定部350は、設定するべき検出対象領域の位置および大きさに基づいて、複製を行う必要があるか否かを判定する。検出対象領域の位置および大きさによっては、設定するべき検出対象領域が全天球画像の範囲からはみ出てしまう場合がある。要否判定部350は、設定するべき検出対象領域の位置および大きさから、全天球画像の範囲からはみ出てしてしまわないかを判定し、はみ出してしまう場合には、複製が必要であると決定する。
複製部360は、第1の実施形態と同様に、画像端部でのこの不連続性に対処するために、少なくとも設定すべき検出対象領域において、全天球画像の一方の端部領域が他方の端部に繋がるようにこの端部領域を複製し、この複製を他方の端部に付加する処理を行う。第2の実施形態による複製部230は、上述した位置特定部330による人物領域の位置を特定する処理の後の段階で複製を行うが、要否判定部350により複製を行う必要があると判定された場合にだけ複製を行う。
領域設定部370は、特定された人物領域の位置に基づいて、全天球画像に対し検出対象領域を設定する。検出対象領域の設定は、全天球画像の一部に対して設定され、この一部を対象として後述する検出処理が行われてもよいし、検出処理のために全天球画像における検出対象領域に相当する部分の画像を別途複製(切り出し)し、この複製データを検出処理の対象としてもよい。また、検出処理のために相当部分の画像を複製する場合において、上述した複製は、第1の実施形態と同様に、全天球画像の一方の端部領域の複製を他方の端部に付加する処理を行って、変更後の画像から検出対象領域に相当する部分の画像を複製してもよい。あるいは、検出対象領域に含まれる全天球画像の部分を別途複製(切り出し)した後に、検出対象領域の不足する部分のみの全天球画像の他方の端部領域から複製し付加する処理を行ってもよい。
姿勢検出部260は、設定された検出対象領域を処理対象とし、全天球画像における検出対象領域の画像特徴に基づいて人物の姿勢を検出する。この際に、好ましくは、検出対象領域を縮小しない。あるいは、姿勢検出部260が使用する深層学習モデルの入力層に適合させてトリミングや白塗または黒塗、縮小を行ったとしても、全天球画像の全体を縮小するのではなく一部の限定された検出対象領域を縮小等する。このため、画素数の減少を抑えることができる。
撮像制御部270は、上述までの処理で検出された人物の姿勢に基づいて撮像体12を制御する。
図10は、第2の実施形態による人物の姿勢検出に基づく撮像制御を示すフローチャートである。
図10に示す処理は、全天球撮像装置10の起動または姿勢検出に基づく撮像制御機能の起動により、各フレーム毎に実行される。第1の実施形態と同様に、図10に示す処理をフレーム毎に行ってもよいし、一定のフレーム間隔毎に行ってもよい。
ステップS201では、プロセッサは、画像取得部320により、全天球画像生成部210が生成された1フレーム分の全天球画像を取得する。ステップS202では、プロセッサは、位置特定部330により、全天球画像から動体検出で人物領域の位置および大きさを特定する。
図11は、第2の実施形態による全天球撮像装置における、フレーム間の差分を検出する処理および複製の要否を判断する処理について説明する図である。図11(A)および(B)は、連続する2つのフレームを模式的に示し、前回のフレームと今回のフレームの差分によって動体部分Mを人物Pを含む人物領域として矩形エリアを表す座標(px、py)と大きさ(高さH,幅W)が出力される。
再び図10を参照すると、ステップS203では、プロセッサは、人物が検出されたか否かを判定する。ステップS203で、人物が1人も検出されなかったと判定された場合(NO)は、ステップS214へ処理が分岐され、当該フレームに対する処理が終了する。一方、ステップS203で、少なくとも1人の人物が検出されたと判定された場合(YES)は、ステップS204へ処理が進められる。ステップS204では、プロセッサは、Nを初期値0に設定し、NMAXに検出された人物(動体)数を設定し、ステップS205~ステップS212で、特定した人物の数だけ、人物毎に処理を繰り返す。
ステップS205~208では、動体部分を人物領域とし、人物領域の大きさに応じて検出枠を広げ、検出枠の範囲で検出対象範囲を設定し、その際に、必要に応じて、全天球画像の一方の端部領域を他方の端部に複製付加する。
より具体的には、ステップS205では、プロセッサは、サイズ決定部340により、特定された人物領域の位置および大きさに基づいて、設定するべき検出対象領域の位置および大きさを決定する。
図12は、第2の実施形態による全天球撮像装置における、検出対象領域の広げ方を例示する図である。図12において、ステップS202で検出した結果が高さHと幅Wの検出枠dct_box2であるとする。その場合、検出対象領域は、もとの出力結果の幅Wに対して左右に50%ずつ(W/2)だけ広げ、高さHに対しても上下に50%ずつ(H/2)だけ広げ、dct_box2の範囲を設定することができる。なお、高さ方向に広げた際に上または下の端に達した場合は上限(Y=0)または下限(例えばY=1920)に制限することができる。
ステップS206では、プロセッサは、検出対象領域(検出枠に対して検出対象領域が固定で定まる場合は、検出枠であってよい。)の位置および大きさに基づいて、複製を行う必要があるか否かを判定する。特定の実施形態において、特定した人物領域が画面端に位置し、かつ、人物領域の大きさに応じて決定した検出対象領域の位置および大きさから、検出対象領域が画像の端を超えるか否かで、複製の要否を判断することができる。
具体的は、まず、人物領域が画面端に位置するか否か判定することができる。図11(C)は、人物領域が画面端に位置するか否かを判断する処理を説明する。図11(C)に示すように、全天球画像には、画面端に位置すると判断するための境界が、左右に設定されている。左側の境界は、le_xrangeであり、右の境界は、re_xrangeである。3840x1920の水平サイズの10%に境界を設定する場合は、左右境界までの幅le_xrange,re_xrangeは、384である。上述した例では、pxまたはpx+wが、x座標0~le_xrangeまたは1920-re_xrange~1920の範囲に存在する場合は、人物領域が画面端に位置すると判定する。人物領域が画面端に位置すると判定された場合は、さらに、人物領域の大きさに応じて検出対象領域の大きさをとした場合に全天球画像の端を超えるか否かに応じて、複製の要否が判断される。
ステップS206で、複製が必要と判定された場合(YES)は、ステップS207へ処理が分岐される。ステップS207では、プロセッサは、複製部360により、検出対象領域において、全天球画像の一方の端部領域が他方の端部に繋がるように、端部領域を複製し、複製を画像の他方の端部に付加した変更後の画像を生成する。ステップS208では、プロセッサは、領域設定部370により、検出対象領域を設定する。
上述したように、検出処理のために相当部分の画像を別途複製(切り出し)する場合において、上述した複製は、検出対象領域に含まれる全天球画像の部分を複製した後に、検出対象領域の不足する部分のみに他方の端部領域から複製した画像を付加する処理を行ってもよい。図13は、検出対象領域に含まれる全天球画像の部分を複製した後に、検出対象領域の不足する部分のみに他方の端部領域から複製し付加する処理を説明する。
図13のように左端で検出された人物領域であるdct_box1を上下左右に50%広げる場合、左側が画像端を超過してしまうことになる。このため、右端から超過分である水平W/2-px、垂直2Hの領域を複製して、トリミング領域に付加する。
ステップS209では、プロセッサは、姿勢検出部380により、画像における検出対象領域に基づいて人物の状態、より具体的には人物の姿勢を検出する。ステップS210では、プロセッサは、姿勢検出部260により、所定の姿勢が検出されたか否かを判定する。ステップS210では、骨格検出結果の座標に基づいて、所定の姿勢であるか否かが判定される。
ステップS210で、まだ所定の姿勢が検出されていないと判定された場合(NO)は、ステップS211へ処理を分岐させる。ステップS211では、Nをインクリメントし、ステップS212で、NがNMAXに達しているか否かを判定する。ステップS212で、NがNMAXに達していると判定された場合(YES)は、ステップS214へ処理が分岐され、当該フレームに対する処理が終了する。一方、ステップS212で、まだNがNMAXに達していないと判定された場合(NO)は、ステップS205にループさせて、残りの検出された人物についての処理を継続する。
再びステップS210へ戻ると、ステップS210で、所定の姿勢が検出されたと判定された場合(YES)は、ステップS213に処理が分岐される。ステップS213では、プロセッサは、撮像制御部390により、例えば表1に例示した条件に対応したカメラ制御を行い、ステップS214で当該フレームに対する処理が終了する。例えば、シャッターを切る動作として、撮像した画像をファイルとして記録することができる。
なお、第2の実施形態においては、姿勢検出処理の最後に、次フレームでの動体検出で用いるため、現在のフレームを保存する。
第2の実施形態によれば、画面内から人物の姿勢を検出する際に検出時間の短縮と検出精度とを両立させることが可能となる。特に、限定した検出対象範囲が設定されるため、遠くに離れた人物の姿勢を精度よく、高速に検出することが可能となる。第2の実施形態では、特に、フレーム毎に画像の端部の複製が行われるわけではなく、検出対象領域が画像の端部を跨る場合のみ、複製が行われる。このため、第1の実施形態と比較しても、処理時間を少なくする効果が期待される。
以上説明した実施形態によれば、画面内から人物の状態を検出する際に検出時間の短縮と検出精度とを両立させることが可能となる。特に、画面内において人物が占める割合が少ない場合であっても、短い検出時間で検出可能となる。また、上記構成により、面内において人物が占める割合が少ない場合でも短い検出時間で検出できるので、特定の姿勢や姿勢変化に基づく撮像装置の遠隔操作を好適に適用することが可能となる。
なお、上述した各実施形態では、エクイレクタングラー画像を具体例として説明している。上述した実施形態は、全天球画像特有の部分もあるため、エクイレクタングラー画像を対象とする場合に好適に用いることができるが、特に限定されるわけではない。他の実施形態では、処理対象となる画像は、エクイレクタングラー画像に限定されるものではない。また、検出する人物の状態として、人物の骨格検出に基づく姿勢を例示したが、これに限定されるものではない。人物の全身からの姿勢を検出する場合に限定されず、人物の顔の表情(目や口の動き)、人物の体の部位の状態(手を用いたサイン)を検出することとしてもよい。
上記で説明した実施形態の各機能は、一または複数の処理回路によって実現することが可能である。ここで、本実施形態における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウエアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)、SOC(System on a chip)、GPUおよび従来の回路モジュール等のデバイスを含むものとする。
また上記機能は、アセンブラ、C、C++、C#、Java(登録商標)、などのレガシープログラミング言語やオブジェクト指向プログラミング言語などで記述されたコンピュータ実行可能なプログラムにより実現でき、ROM、EEPROM、EPROM、フラッシュメモリ、フレキシブルディスク、CD-ROM、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、ブルーレイディスク、SDカード、MOなど装置可読な記録媒体に格納して、あるいは電気通信回線を通じて頒布することができる。
これまで本発明の一実施形態に係る画像処理装置、画像処理システム、画像処理方法およびプログラムについて説明してきたが、本発明は上述した実施形態に限定されるものではなく、他の実施形態の追加、変更または削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
10…全天球撮像装置、12…撮像体、14…筐体、18…撮影ボタン、20…レンズ光学系、22…撮像素子、100…プロセッサ、102…鏡胴ユニット,108…ISP、110,122…DMAC、112…アービタ(ARBMEMC)、114…MEMC、116,138…SDRAM、118…歪曲補正・画像合成ブロック、119…顔検出ブロック、120…モーションセンサ、124…画像処理ブロック、126…画像データ転送部、128…SDRAMC、130…CPU、132…リサイズブロック、134…静止画圧縮ブロック、136…動画圧縮ブロック、140…メモリカード制御ブロック、142…メモリカードスロット、144…フラッシュROM、146…USBブロック、148…USBコネクタ、150…ペリフェラル・ブロック、152…音声ユニット、154…スピーカ、156…マイク、158…シリアルブロック、160…無線NIC、162…LCDドライバ、164…LCDモニタ、166…電源スイッチ、168…ブリッジ、200,300…機能ブロック、210,310…全天球画像生成部、220,320…画像取得部、230,360…複製部、240,330…位置特定部、250,370…領域設定部、260,380…姿勢検出部260、270,390…撮像制御部、340…サイズ決定部、350…要否判定部
Claims (16)
- 画像処理方法であって、コンピュータが、
画像を取得するステップと、
取得された画像から人物領域の位置を特定するステップと、
特定された前記人物領域の位置に基づいて検出対象領域を設定するステップと、
画像における前記検出対象領域に基づいて人物の状態を検出するステップと
を実行する、画像処理方法。 - 取得された前記画像は、少なくとも一方の方向で循環する画像であり、前記画像処理方法は、前記コンピュータが、
少なくとも前記検出対象領域において、前記画像の一方の端部領域が他方の端部に繋がるように前記端部領域を複製するステップ
をさらに実行する、請求項1に記載の画像処理方法。 - 前記複製するステップは、前記特定するステップの前に実行され、前記特定するステップでは、
前記画像の一方の前記端部領域の複製を前記画像の他方の端部に付加した画像に基づいて、前記人物領域の位置の特定および前記人物の状態の検出が行われることを特徴とする、請求項2に記載の画像処理方法。 - 前記複製するステップは、前記特定するステップの後に実行され、
特定された前記人物領域の大きさに基づいて検出対象領域の位置および大きさを決定するステップと、
前記検出対象領域の位置および大きさに基づいて、複製を行う必要があるか否かを判定するステップと
を実行し、前記判定するステップで、複製を行う必要があると判定された場合に、前記複製を行うステップが行われ、前記画像の一方の前記端部領域の複製を前記画像の他方の端部に付加した画像に基づいて、前記人物の状態の検出が行われる、請求項2に記載の画像処理方法。 - 取得された前記画像は、少なくとも第1の方向で360度の画角を有する、請求項2~4のいずれか1項に記載の画像処理方法。
- 前記検出は、取得された前記画像に基づく前記人物の骨格検出と、検出された骨格に基づく姿勢検出とを含む、請求項1~5のいずれか1項に記載の画像処理方法。
- 前記人物領域の位置を特定するステップは、
取得された画像に基づき人物検出を行ことによって、取得された画像に基づき顔検出を行うことによって、または、連続して取得された複数のフレームの画像の差分に基づき動体検出を行うことによって、前記人物領域の位置を特定することを特徴とする、請求項1~6のいずれか1項に記載の画像処理方法。 - 請求項1~7のいずれか1項に記載の画像処理方法を含む撮像制御方法であって、前記コンピュータは、撮像手段を備える装置を制御しており、前記コンピュータが、
前記画像処理方法を実行するステップと、
検出された前記人物の状態に基づいて、撮像手段を制御するステップと
を実行する、撮像制御方法。 - 請求項1~8のいずれか1項に記載の方法をコンピュータに実行させるためのプログラム。
- 画像を取得する画像取得部と、
取得された画像から人物領域の位置を特定する位置特定部と、
特定された前記人物領域の位置に基づいて検出対象領域を設定する領域設定部と、
画像における前記検出対象領域に基づいて人物の状態を検出する検出部と
を含む、画像処理装置。 - 取得された前記画像は、少なくとも一方の方向で循環する画像であり、前記画像処理装置は、
少なくとも前記検出対象領域において、前記画像の一方の端部領域が他方の端部に繋がるように前記端部領域を複製する複製部
をさらに含む、請求項10に記載の画像処理装置。 - 前記複製部は、前記位置特定部により人物領域の位置が特定される前に前記複製を実行し、前記位置特定部は、前記画像の一方の前記端部領域の複製を前記画像の他方の端部に付加した画像に基づいて、前記人物領域の位置を特定することを特徴とする、請求項11に記載の画像処理装置。
- 特定された前記人物領域の大きさに基づいて検出対象領域の位置および大きさを決定する決定部と、
前記検出対象領域の位置および大きさに基づいて、複製を行う必要があるか否かを判定する判定部と
をさらに含み、前記複製部は、前記判定部により複製を行う必要があると判定された場合に、前記複製を行い、前記検出部は、前記画像の一方の前記端部領域の複製を前記画像の他方の端部に付加した画像に基づいて、前記人物の状態の検出を行う、請求項11に記載の画像処理装置。 - 取得された前記画像は、少なくとも第1の方向で360度の画角を有する、請求項10~13のいずれか1項に記載の画像処理装置。
- 前記検出は、取得された前記画像に基づく前記人物の骨格検出と、検出された骨格に基づく姿勢検出とを含む、請求項10~14のいずれか1項に記載の画像処理装置。
- 請求項10~13のいずれか1項に記載の画像処理装置と、
撮像手段と、
検出された前記人物の状態に基づいて撮像手段を制御する撮像制御部と
を含む、撮像装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021043464A JP2022143122A (ja) | 2021-03-17 | 2021-03-17 | 画像処理方法、撮像制御方法、プログラム、画像処理装置および撮像装置 |
CN202280014996.4A CN117043827A (zh) | 2021-03-17 | 2022-02-21 | 图像处理方法、记录介质、图像处理装置以及摄像装置 |
PCT/IB2022/051503 WO2022195375A1 (en) | 2021-03-17 | 2022-02-21 | Image processing method, recording medium, image processing apparatus, and image-capturing apparatus |
US18/275,626 US20240089580A1 (en) | 2021-03-17 | 2022-02-21 | Image processing method, recording medium, image processing apparatus, and image-capturing apparatus |
EP22707247.7A EP4309149A1 (en) | 2021-03-17 | 2022-02-21 | Image processing method, recording medium, image processing apparatus, and image-capturing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021043464A JP2022143122A (ja) | 2021-03-17 | 2021-03-17 | 画像処理方法、撮像制御方法、プログラム、画像処理装置および撮像装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022143122A true JP2022143122A (ja) | 2022-10-03 |
Family
ID=80623563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021043464A Pending JP2022143122A (ja) | 2021-03-17 | 2021-03-17 | 画像処理方法、撮像制御方法、プログラム、画像処理装置および撮像装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240089580A1 (ja) |
EP (1) | EP4309149A1 (ja) |
JP (1) | JP2022143122A (ja) |
CN (1) | CN117043827A (ja) |
WO (1) | WO2022195375A1 (ja) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56149004A (en) | 1980-04-22 | 1981-11-18 | Nippon Sheet Glass Co Ltd | Production of synthetic resin optical transmission body |
JP4227257B2 (ja) | 1999-08-12 | 2009-02-18 | キヤノン株式会社 | カメラ |
US10666860B2 (en) * | 2012-09-11 | 2020-05-26 | Ricoh Company, Ltd. | Image processor, image processing method and program, and imaging system |
WO2018033822A1 (ja) | 2016-08-17 | 2018-02-22 | 株式会社半導体エネルギー研究所 | 表示装置 |
US11126257B2 (en) * | 2018-04-17 | 2021-09-21 | Toyota Research Institute, Inc. | System and method for detecting human gaze and gesture in unconstrained environments |
JP7188240B2 (ja) * | 2019-04-01 | 2022-12-13 | オムロン株式会社 | 人検出装置および人検出方法 |
JP7383911B2 (ja) * | 2019-06-27 | 2023-11-21 | 株式会社リコー | 撮像システム、画像処理装置、撮像装置およびプログラム |
-
2021
- 2021-03-17 JP JP2021043464A patent/JP2022143122A/ja active Pending
-
2022
- 2022-02-21 US US18/275,626 patent/US20240089580A1/en active Pending
- 2022-02-21 CN CN202280014996.4A patent/CN117043827A/zh active Pending
- 2022-02-21 EP EP22707247.7A patent/EP4309149A1/en active Pending
- 2022-02-21 WO PCT/IB2022/051503 patent/WO2022195375A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20240089580A1 (en) | 2024-03-14 |
EP4309149A1 (en) | 2024-01-24 |
CN117043827A (zh) | 2023-11-10 |
WO2022195375A1 (en) | 2022-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6115606B2 (ja) | 撮像装置および撮像システム | |
CN110060206B (zh) | 图像处理系统、图像生成装置和生成图像的方法 | |
JP4218712B2 (ja) | 顔検出装置、撮像装置および顔検出方法 | |
WO2018214365A1 (zh) | 图像校正方法、装置、设备、系统及摄像设备和显示设备 | |
TWI380233B (ja) | ||
JP2017208619A (ja) | 画像処理装置、画像処理方法、プログラム及び撮像システム | |
JP2014057156A (ja) | 撮像制御装置、撮像制御方法およびプログラム | |
JP6119235B2 (ja) | 撮像制御装置、撮像システム、撮像制御方法およびプログラム | |
JP2016149734A (ja) | 動画表示装置およびプログラム | |
JP2019012881A (ja) | 撮像制御装置及びその制御方法 | |
US10009545B2 (en) | Image processing apparatus and method of operating the same | |
US20220230275A1 (en) | Imaging system, image processing apparatus, imaging device, and recording medium | |
JP7424076B2 (ja) | 画像処理装置、画像処理システム、撮像装置、画像処理方法およびプログラム | |
US9900503B1 (en) | Methods to automatically fix flash reflection at capture time | |
JP6299116B2 (ja) | 撮像装置、撮像方法および記録媒体 | |
JP2020123837A (ja) | 撮像装置、撮像方法およびプログラム | |
JP2022143122A (ja) | 画像処理方法、撮像制御方法、プログラム、画像処理装置および撮像装置 | |
US10051192B1 (en) | System and apparatus for adjusting luminance levels of multiple channels of panoramic video signals | |
JP7379884B2 (ja) | 撮像装置、画像処理システム、方法およびプログラム | |
JP7451888B2 (ja) | 撮像装置、撮像システム、方法およびプログラム | |
JP2017192111A (ja) | 画像処理装置、画像処理装置の制御方法及びプログラム | |
JP6811935B2 (ja) | 撮像装置、画像処理方法及びプログラム | |
JP2021145190A (ja) | 画像処理装置、画像処理方法、撮像装置、画像処理システムおよびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240119 |