JP7024736B2 - 画像処理装置、および画像処理方法、並びにプログラム - Google Patents
画像処理装置、および画像処理方法、並びにプログラム Download PDFInfo
- Publication number
- JP7024736B2 JP7024736B2 JP2018567346A JP2018567346A JP7024736B2 JP 7024736 B2 JP7024736 B2 JP 7024736B2 JP 2018567346 A JP2018567346 A JP 2018567346A JP 2018567346 A JP2018567346 A JP 2018567346A JP 7024736 B2 JP7024736 B2 JP 7024736B2
- Authority
- JP
- Japan
- Prior art keywords
- parallax
- image
- unit
- pixel
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 219
- 238000003672 processing method Methods 0.000 title claims description 12
- 238000001514 detection method Methods 0.000 claims description 193
- 238000000034 method Methods 0.000 claims description 180
- 230000008569 process Effects 0.000 claims description 161
- 238000004364 calculation method Methods 0.000 claims description 104
- 238000001914 filtration Methods 0.000 claims description 67
- 239000000470 constituent Substances 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 description 25
- 238000012937 correction Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- MGIUUAHJVPPFEV-ABXDCCGRSA-N magainin ii Chemical compound C([C@H](NC(=O)[C@H](CCCCN)NC(=O)CNC(=O)[C@@H](NC(=O)CN)[C@@H](C)CC)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC=1NC=NC=1)C(=O)N[C@@H](CO)C(=O)N[C@@H](C)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)NCC(=O)N[C@@H](CCCCN)C(=O)N[C@@H](C)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](C(C)C)C(=O)NCC(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CO)C(O)=O)C1=CC=CC=C1 MGIUUAHJVPPFEV-ABXDCCGRSA-N 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 230000036760 body temperature Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/271—Image signal generators wherein the generated image signals comprise depth maps or disparity maps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/143—Sensing or illuminating at different wavelengths
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/25—Image signal generators using stereoscopic image cameras using two or more image sensors with different characteristics other than in their location or field of view, e.g. having different resolutions or colour pickup characteristics; using image signals from one sensor to control the characteristics of another sensor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/254—Image signal generators using stereoscopic image cameras in combination with electromagnetic radiation sources for illuminating objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/275—Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
- H04N13/279—Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Electromagnetism (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
上記の非特許文献1では、ビームスプリッターを用いて、可視光カメラと遠赤外線カメラの光軸を合わせているが、装置が大掛かりになり、コストの増加につながる。
また、2つのカメラの組み合わせや設置位置の制約などから、物理的に光軸を合わせることが不可能な場合もある。
例えば、事前にチャートなどを用いてキャリブレーションを行い、実際の撮影時に対象物体とカメラの位置関係によって生じる視差ずれに対してステレオマッチングを用いて画素毎にずれ量を補正する方法である。
ブロックサイズに関しては、小さ過ぎるとノイズに対するロバスト性が低下し視差推定結果が不安定になる。一方、大き過ぎると物体境界で前景と背景の視差が混ざることで視差推定精度が低下する。
一般的に、物体検出では、検出対象となる物体が画像のどこに、どれくらいの大きさで写っているか事前に分からないため、様々な大きさに拡大または縮小した異なる解像度の画像を生成し、これらの複数の画像の各々に対して画像全体に渡って検出処理を行う。このような処理が必要となるため、計算量が多くなってしまうという問題がある。
異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出部を有し、
前記物体検出部は、
前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出部と、
前記視差算出部の生成した視差マップを適用して物体検出処理を実行する分類部を有し、
前記視差算出部は、
複数の異なる解像度対応の視差マップを生成して前記分類部に出力する画像処理装置にある。
画像処理装置において実行する画像処理方法であり、
物体検出部が、異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出処理ステップを実行し、
前記物体検出処理ステップは、
視差算出部において、前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出ステップと、
分類部において、前記視差算出ステップにおいて生成した視差マップを適用して物体検出処理を実行する分類処理ステップを有し、
前記視差算出ステップは、
複数の異なる解像度対応の視差マップを生成して前記分類部に出力する画像処理方法にある。
画像処理装置において画像処理を実行させるプログラムであり、
物体検出部に、異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出処理ステップを実行させ、
前記物体検出処理ステップにおいて、
視差算出部において、前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出ステップと、
分類部において、前記視差算出ステップにおいて生成した視差マップを適用して物体検出処理を実行する分類処理ステップを実行させ、
前記視差算出ステップにおいては、
複数の異なる解像度対応の視差マップを生成して前記分類部に出力させるプログラムにある。
具体的には、例えば異なる視点から撮影された2つの画像を入力して視差を算出し、視差マップを生成する視差算出部と、視差マップを適用して物体検出処理を実行する分類部を有する。視差算出部は、等倍解像度画像を適用したステレオマッチング処理を実行し、処理結果から複数の解像度対応のコストボリュームを生成し、各解像度対応のコストボリュームを利用して複数の異なる解像度対応の視差マップと、物体候補領域マップを生成して分類部に出力する。
これらの処理により、高精度かつ効率的な視差マップ生成、物体検出処理を実行する装置、方法が実現される。
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
1.本開示の画像処理装置の構成と処理について
2.画像処理部の構成と処理について
3.視差算出部の構成と処理について
3-1.画素マッチング部の実行する処理について
3-2.コストボリュームフィルタリング部の実行する処理について
3-3.視差決定部の実行する処理について
4.その他の実施例について
4-1.画素マッチング部における一致度(Similarity)算出処理の変更例について
4-2.コストボリュームフィルタリング部におけるコストボリュームフィルタリング処理の変更例について
4-3.視差決定部における視差決定処理の変更例について
4-4.視差決定部における物体候補領域マップの生成処理の変更例について
5.画像処理装置のハードウェア構成例について
6.本開示の構成のまとめ
図1以下を参照して本開示の画像処理装置の構成と処理について説明する。
まず、図1以下を参照して本開示の画像処理装置が処理対象とする画像について説明する。
なお、以下に説明する実施例では、2つの異なる視点からの撮影画像の組み合わせとして、可視光画像と、遠赤外線画像を適用した実施例について説明する。
すなわち、2つの異なる視点からの撮影画像である可視光画像と、遠赤外線画像を入力し、これらの画像を適用した画像処理を実行する例について説明する。
なお、赤外線は、図1に示すように、
波長が約0.7~1μmの近赤外線、
波長が約3~5μmの中赤外線、
波長が約8~14μmの遠赤外線、
このように区分される。
ただし、本開示の処理は、遠赤外線画像に限らず、その他の赤外光画像を利用した処理にも適用可能である。
図2(1)の可視光画像は、RGB各画素からなるベイヤ配列の例を示している。このベイヤ配列は、多くの可視光撮影カメラの撮像素子に利用されている。
撮像素子の各画素は、RまたはGまたはB各波長光の光量に応じた電気信号を出力する。
具体的には、例えば人の体温等、温度に応じた濃淡画素値からなるモノクロ画像が生成される。
ただし、図2(1),(2)に示すように、一般的に赤外光画像撮像素子は、可視光画像撮像素子に比較して、解像度が低くなる。これは赤外光、特に遠赤外光は波長光が長く、高密度の画素配列を持つ撮像素子が利用しにくい等の理由である。
なお、本開示の画像処理装置には、撮像装置に限らず、例えば撮像装置の撮影画像を入力して画像処理を実行するPC等の情報処理装置も含まれる。
以下では、本開示の画像処理装置100の一例として、撮像装置の構成と処理について説明する。
以下の実施例において説明する撮影処理以外の画像処理は、撮像装置に限らず、PC等の情報処理装置において実行可能である。
撮像部106は、通常の可視光画像の撮影を行う可視光画像撮像部107と、遠赤外線画像を撮影する赤外光画像撮像部108を有する。
なお、前述したように、本開示の処理は、可視光画像と遠赤外線画像の組み合わせに限らず、その他の画像の組み合わせ、例えば可視光画像と赤外光画像の組み合わせ、あるいは可視光画像と可視光画像の組み合わせにも適用可能である。
以下においては、本開示の一つの実施例として、可視光画像と遠赤外線画像を適用した実施例について説明する。
異なる視点からの2つの画像の対応画素、すなわち同一位置の画素には同一の被写体画像が撮影されず、視差に応じた被写体ずれが発生する。
なお、これらの撮影タイミングの制御は制御部101によって行われる。
コーデック103は、撮影画像の圧縮、伸長処理等の符号化、復号処理を実行する。
入力部104は、例えばユーザ操作部であり、撮影開始、終了、様々なモード設定等の制御情報を入力する。
出力部105は表示部、スピーカ等によって構成され、撮影画像、スルー画等の表示、音声出力等に利用される。
この画像処理の具体例については、以下の各実施例において後段で説明する。
次に、図3を参照して説明した画像処理装置100の画像処理部120の具体的な構成と処理について説明する。
図4に示すように、画像処理部120は、キャリブレーション実行部140、物体検出部200を有する。
従って、可視光画像撮像部107が撮影した第1画像131と、遠赤外線画像撮像部108が撮影した第2画像132は、各画像の歪、倍率、解像度などの特性が異なる。
物体検出部200は、キャリブレーション後の補正第1画像151と、補正第2画像152を適用した物体検出処理、例えば人の検出処理を行う。
物体検出部200は、処理結果として、物体検出結果170を出力する。例えば人の検出結果である。
物体検出部200は、図5に示す通り、特徴量抽出部210、視差算出部220、分類部230を有する。
物体検出部200の特徴量抽出部210、視差算出部220、分類部230は、いずれもキャリブレーション後の補正第1画像151と、補正第2画像152を入力して処理を実行する。
抽出する特徴量は、画像に応じた特徴量である。
例えば、可視光画像である補正第1画像151からは、輝度、色情報、勾配情報などを抽出する。
また、遠赤外線画像である補正第2画像152からは、温度、勾配情報などを抽出する。
前述したように、遠赤外線画像は、例えば人の体温等、温度に応じた濃淡画素値からなるモノクロ画像であり、このモノクロ画像の画素値の示す温度や、その画素値の勾配情報等が特徴量として抽出される。
(a)可視光画像である補正第1画像151から抽出した第1画像特徴量211、
(b)遠赤外線画像である補正第2画像152から抽出した第2画像特徴量212、
これらの特徴量情報は、視差算出部220と、分類部230に入力される。
視差マップは、例えば、補正第1画像151の構成画素(x,y)各々について、補正第2画像152の対応画素の位置ずれd(ピクセル)を示したマップである。
補正第1画像151の構成画素(x,y)の画像に対応する画像が撮影されている補正第2画像152の対応画素の画素位置は、(x+d,y)となる。
視差算出部220は、複数の異なる解像度対応の複数の視差マップ225を生成する。
この処理の詳細については、後段で説明する。
視差算出部220は、物体候補領域マップ226についても、視差マップ225と同様、複数の異なる解像度対応の複数の物体候補領域マップ226を生成する。
分類部230は、視差算出部220の生成した視差マップ225と、物体候補領域マップ226を入力し、さらに特徴量抽出部210から第1画像特徴量211、第2画像特徴量212を入力する。
この判定処理には、可視光画像である補正第1画像151と、遠赤外線画像である補正第2画像152の同領域内の特徴量情報211,212が利用される。
分類部230は、特徴量を機械学習済みの分類器に通すことによって、各画像領域に検出対象の物体が存在するか否か、例えば人が存在するか否かの判定結果を生成する。
すなわち、図5に示す物体検出結果170を生成して出力する。
次に、図6を参照して視差算出部220の具体的構成と処理の詳細を説明する。
図6に示すように、視差算出部220は、画素マッチング部221、コストボリュームフィルタリング部222、および視差決定部223を有する。
以下、これら各構成部の実行する処理の詳細について、順次、説明する。
まず、視差算出部220の画素マッチング部221の実行する処理について説明する。
図7は、画素マッチング部221の実行する処理を説明するフローチャートである。
このフローチャートの各ステップの処理について、順次、説明する。
まず、画素マッチング部221は、ステップS101において、
(a)キャリブレーション後の可視光画像である補正第1画像151と、第1画像特徴量211、
(b)キャリブレーション後の遠赤外線画像である補正第2画像152と、第2画像特徴量212、
これらを入力する。
次に、画素マッチング部221は、ステップS102において、次のステップS103において実行するサーチレンジ区間決定処理に適用するパラメータを取得する。
具体的には、検出対象物体の大きさ(実物大L)や、基線長B等のパラメータを取得する。
例えば、検出対象を人とした場合、人の身長を検出対象物の大きさLに設定する。
具体的には、例えば、L=170cmの設定とする。
基線長Bは、2つの画像を撮影したカメラの光軸間距離である。図3を参照して説明した可視光画像撮像部107と、遠赤外線画像撮像部108の光軸間の距離を基線長Bとして取得する。
次に、画素マッチング部221は、ステップS103において、サーチレンジ区間の決定処理を行い、ステップS104において、候補視差の設定を行う、
サーチレンジ区間とは、第1画像の対応点を第2画像から探索する場合に設定する第2画像の探索区間である。
また、候補視差とは、上記探索区間において、実際に対応点か否かを判定する対象となる画素位置対応の視差である。
このステップS103~S104の処理の詳細について、以下説明する。
従って、対応点を見つけることができる最適な領域をサーチレンジとして決定することが処理の効率化と精度の向上を実現する要因となる。
図8には、
(A)画像撮影構成例
(B)撮影画像例
これらの図を示している。
この検出対象物(人)を含む画像を、2つのカメラ、すなわち図に示すカメラ1、カメラ2で撮影する。
このカメラ1、カメラ2は、本実施例では、図3を参照して説明した可視光画像撮像部107と、遠赤外線画像撮像部108に相当する。
第1画像は、カメラ1による撮影画像であり、第2画像は、カメラ2による撮影画像である。
カメラ1と、カメラ2は基線長B[m]に相当する距離、離間した位置から画像撮影を行っており、同一被写体の画素位置(対応点)は、水平方向にずれている。
このずれ量が視差d[pixel(画素)]である。
また、カメラ1による撮影画像である第1画像に撮影された検出対象物(人)の画像上での大きさ(高さ)をh[pixel(画素)]とする。
Z=(f/h)L・・・・(式1)
d=(fB/Z)・・・(式2)
d=(B/L)h・・・(式3)
基線長Bはカメラキャリブレーションによって得られる値である。検出対象物体の高さL[m]は、例えば検出対象が歩行者の場合、人の平均身長を用いるとよい。
しかし、画像上の人の大きさ(高さ)hは、検出対象物体が画像上でどれくらいの大きさに映っているか事前にはわからないため、一意には定まらない。
このように、撮影画像上での検出対象物の大きさは、その対象物とカメラ間の距離に応じて異なるものとなる。
例えば撮影画像から複数の異なる解像度の画像を生成して、生成した複数の解像度画像に対して、順次、物体検出処理を繰り返し実行する。
このような処理が、一般的な物体検出処理として行われる処理である。
図9には、以下の3種類の画像を用いた物体検出処理例を示している。
(ステップ1)等倍解像度画像を用いた物体検出処理
(ステップ2)S1倍解像度画像(S1倍縮小画像)を用いた物体検出処理
(ステップ3)S2倍解像度画像(S2倍縮小画像)を用いた物体検出処理
S1=1/2、
S2=1/4
等である。この場合、
S1倍解像度画像は元の等倍解像度画像の1/2の解像度を持つ縮小画像となる。
また、S2倍解像度画像は元の等倍解像度画像の1/4の解像度を持つ縮小画像となる。
(ステップ1)に示す等倍解像度画像は、カメラによって撮影された画像であり、拡大や縮小等の解像度変換処理は行っておらず、カメラによる撮影画像自体の解像度を有する画像、すなわち等倍解像度画像である。
図に示すwidth、heightはそれぞれ等倍解像度画像の横サイズ[pixel]と縦サイズ[pixel]を表す。
図に示すbox_w、box_hはそれぞれ検出ウィンドウの横サイズ[pixel]と縦サイズ[pixel]を表す。
図に示す(ステップ1)の例では、右下に検出対象物である「人」の画像領域があるが、人の画像サイズが、検出ウィンドウのサイズ(w×h)より大きいため、この検出ウィンドウ内に人の画像があると判定することができず、検出失敗となる。
すなわち、同じサイズ(w×h)を持つ検出ウィンドウを適用して、S1倍解像度画像の左上端から下右端まで、検出ウィンドウを移動し、すべての画素領域について、検出対象物に対応する特徴量を有するか否かを判定する。
図に示す(ステップ2)の例でも、右下に検出対象物である「人」の画像領域があるが、このステップ2でも、まだ人の画像サイズが、検出ウィンドウのサイズ(w×h)より大きいため、この検出ウィンドウ内に人の画像があると判定することができず、検出失敗となる。
すなわち、同じサイズ(w×h)を持つ検出ウィンドウを適用して、S2倍解像度画像の左上端から下右端まで、検出ウィンドウを移動し、すべての画素領域について、検出対象物に対応する特徴量を有するか否かを判定する。
図に示す(ステップ3)の例では、右下の検出対象物である「人」の画像の画像サイズが、検出ウィンドウのサイズ(w×h)に一致し、この検出ウィンドウ内に人の画像があると判定することができ、検出に成功する。
すなわち、複数のサイズ(複数の解像度)の画像を生成して、各画像に対して検出ウィンドウを順次、スライドさせて一致度判定を行う物体検出処理を繰り返す必要がある。
検出ウィンドウサイズが検出対象物の大きさに一致して、検出対象物が検出された場合、検出対象物体の画像上でのサイズ(h)=検出ウィンドウサイズ(box_h)と仮定して、前述の(式3)のhにbox_hを代入して、(式3)に従って、検出対象物に対する視差d[pixel]を求めることができる。
この(式3)によって算出した視差dを利用して、前述の(式2)や(式1)を適用すれば、検出対象物までの距離Zを算出することができる。
その検出対象物体の画像上でのサイズ(h)=検出ウィンドウサイズ(box_h)と仮定して、前述の(式3)のhにbox_hを代入して、(式3)に従って算出される視差d[pixel]は、等倍解像度画像上の画素の位置ずれ画素数には相当しない。
従って、(式3)によって算出した視差dを利用して、前述の(式2)や(式1)を適用しても検出対象物までの距離Zを算出することができない。
具体的には、S1倍解像度画像の場合はh=box_h/S1、S2倍解像度画像の場合はh=box_h/S2とすればよい。
(a)等倍解像度画像対応の視差マップ
(b)S1倍解像度画像対応の視差マップ
(c)S2解像度画像対応の視差マップ
これら3種類の解像度画像対応の視差マップを生成して出力する。
出力視差マップの解像度が等倍解像度の場合は、h=box_h、
出力視差マップの解像度がS1倍解像度画像の場合はh=box_h/S1、
出力視差マップの解像度がS2倍解像度画像の場合はh=box_h/S2、
このように検出ウィンドウサイズを等倍解像度におけるサイズに換算して、上記(式3)に従った視差dを算出して各解像度対応の視差マップ225を生成して出力する。
なお、本開示の構成では、最終的に出力する視差マップの解像度に応じた最適なサーチレンジ、ブロックサイズを設定する。
しかし、例えば、検出対象物体が人である場合、身長には個人差(例えば、大人と子ども)があり、また姿勢変化によってもその高さが変わる。
例えば、出力視差マップの解像度が等倍解像度の場合、(式3)によって算出された視差d=d0であった場合、±2画素のマージンを考慮し、サーチレンジ区間0を、
サーチレンジ区間0=d0-2、d0-1、d0、d0+1、d0+2
として設定する。
一方の画像を基準画像として、他方の画像を対応点探索画像としたとき、対応点探索画像において、基準画像と同一位置の画素位置から視差d0分ずらした位置を中心として、水平方向に-2画素~+2画素の領域をサーチレンジ区間とする設定である。
すなわち±2画素のマージンを設定としている。
例えば、最終的に出力したい視差マップの解像度がS1倍解像度の場合に、(式3)によって算出された視差値がd1であった場合、サーチレンジ区間1を、
サーチレンジ区間1=d1-4、d1-2、d1、d1+2、d1+4
というよううに、候補視差の画素間隔を2画素おきにするなどしてもよい。
この処理により、計算量の削減、余分な探索によるマッチング誤りを削減することができる。
次に、画素マッチング部221は、図7に示すフローのステップS105において、等倍解像度画像を適用したステレオマッチング処理を実行する。
具体的には、ステップS103,S104において決定したサーチレンジ区間の候補視差対応画素の一致度を算出して、異なる視点からの撮影画像である可視光画像と遠赤外線画像、すなわち、図5に示す補正第1画像151と、補正第2画像152の対応点探索を行う。
すなわち、画素マッチング判定処理である。
図5に示す特徴量抽出部210は、可視光画像と遠赤外線画像、すなわち、図5に示す補正第1画像151と、補正第2画像152から、以下の特徴量を取得しているものとする。
可視光画像(補正第1画像151)の各画素(x,y)対応の勾配強度Mag1と、勾配方向Ori1、
遠赤外線画像(補正第2画像152)の各画素(x,y)対応の勾配強度Mag2と、勾配方向Ori2、
Similarity(x,y,d)=min(Mag1(x,y),Mag2(x+d,y))Φ(x,y,d)・・・(式4)
(x,y):一致度算出対象となる一方の画像の画素位置を示す座標、
d:一致度算出対象となる2つの画像の位置ずれ画素数(=候補視差)、
Φ(x,y,d)=(cos(2θ(x,y,d)))+1)/2・・・(式5)、
θ(x,y,d)=Ori1(x,y)-Ori2(x+d,y)・・・(式6)、
である。
勾配強度「min(Mag1(x,y),Mag2(x+d,y))」
で重み付けすることで、一致度を算出する。
なお、前述したように、一致度の評価方法には、この方法に限らず、入力されるセンサー情報(画像)に応じて、様々な方法を用いることができる。
次に、画素マッチング部221は、ステップS106において、すべての画素に関するステップS105のステレオマッチング処理が終了したか否かを判定し、未終了の場合は、未処理画素についてステップS105の処理を継続する。
すべての画素のステレオマッチング処理が終了した場合は、処理を終了する。
この処理の結果、図10に示すような、すべての候補視差に対して、画素単位の一致度を画像の構成画素各々に設定したコストプレーンの束(スタック)からなるコストボリュームが生成される。
Similarity(x,y,d)=min(Mag1(x,y),Mag2(x+d,y))Φ(x,y,d)
上記一致度の値を画像の構成画素各々に設定した画像(コストプレーン)の束(スタック)からなるコストボリュームが生成される。
図10に示すように、コストボリューム300は、複数のコストプレーン301-1~nによって構成される。
コストプレーン301-nの各々は、視差dの最小値~最大値、例えばd=0~∞までの各視差に対応する一致度の値を画像の構成画素各々に設定した画像に相当する。
具体的には、例えば一致度が高いほど黒に近く、一致度が低いほど白に近い画素値が各画素に設定されたモノクロ画像である。
あるいは、一致度が高いほど白に近く、一致度が低いほど黒に近い画素値を各画素に設定したモノクロ画像としてもよい。
あるいは一致度に応じた色を設定した画像でもよいし、一致度を示す数値を画素位置に対応付けたマップとして構成としてもよい。
具体的には、例えば、視差d=0は、カメラからの距離が遠い被写体に対応する視差であり、カメラからの距離が遠い被写体の画素領域が黒、または黒に近いグレー等に設定された画像となる。
具体的には、例えば、視差d=∞は、カメラからの距離が近い被写体に対応する視差であり、カメラからの距離が近い被写体の画素領域が黒、または黒に近いグレー等に設定された画像となる。
(1)コストプレーンa:視差d=大(=カメラからの距離=近い)
(2)コストプレーンb:視差d=中(=カメラからの距離=中)
(3)コストプレーンc:視差d=小(=カメラからの距離=遠い)
次に、図6に示す視差算出部220のコストボリュームフィルタリング部222の実行する処理について説明する。
コストボリュームフィルタリング部222は、図10、図11を参照して説明したコストボリュームのフィルタリング処理により、複数の異なる解像度対応のコストボリュームを生成する。
(a)等倍解像度コストボリューム生成用コストプレーンを適用した等倍解像度のコストボリュームの生成処理、
(b)S1倍解像度コストボリューム生成用コストプレーンを適用したS1倍解像度のコストボリュームの生成処理、
(c)S2倍解像度コストボリューム生成用コストプレーンを適用したS2倍解像度のコストボリュームの生成処理、
これらの複数の異なる解像度のコストボリュームの生成を行う。
(1)コストプレーンa:視差d=大(=カメラからの距離=近い)
(2)コストプレーンb:視差d=中(=カメラからの距離=中)
(3)コストプレーンc:視差d=小(=カメラからの距離=遠い)
S1=1/2、
S2=1/4
等である。この場合、
S1倍解像度画像は元の等倍解像度画像の1/2の低解像度を持つ縮小画像となる。
また、S2倍解像度画像は元の等倍解像度画像の1/4の低解像度を持つ縮小画像となる。
このフローチャートの各ステップの処理について、順次、説明する。
まず、コストボリュームフィルタリング部222は、ステップS201において、図10を参照して説明したコストボリュームから1つの処理対象のコストプレーンを選択する。
例えばn枚のコストプレーン1~nがある場合、その中の1つのコストプレーンを順次、選択する。
次に、コストボリュームフィルタリング部222は、ステップS202において、ステップ設定処理を実行する。ステップとは、フィルタリングする画素、いわゆる間引き処理を行う画素の間隔である。
コストボリュームフィルタリング部222では、フィルタリングする画素の間隔を変えることで高解像度画像(等倍解像度画像)のコストボリュームから低解像度画像のコストボリュームを生成する。
ステップS202におけるステップ設定は、このフィルタリングする画素の間隔設定処理である。
すなわち、視差算出部220から分類部230に出力する視差マップの解像度に応じて、ステップ設定(フィルタリング画素間隔)は異なる。例えば、以下の設定とする。
出力視差マップが、等倍解像度の場合は、ステップ設定(フィルタリング画素間隔)=1画素、
出力視差マップが、S1倍解像度の場合は、ステップ設定(フィルタリング画素間隔)=(1/S1)画素、
出力視差マップが、S2倍解像度の場合は、ステップ設定(フィルタリング画素間隔)=(1/S2)画素、
上記設定とする。
S1=1/2の場合、出力視差マップが1/2倍解像度画像となり、この場合は、ステップ設定(フィルタリング画素間隔)=(1/S1)=2画素となる。
S2=1/4の場合、出力視差マップが1/4倍解像度画像となり、この場合は、ステップ設定(フィルタリング画素間隔)=(1/S2)=4画素となる。
また、例えばS1=1/2であり、1/2の縮小画像に相当する低解像度画像を生成する場合は、ステップ設定(フィルタリング画素間隔)=(1/S1)画素=2画素であり、2画素を1画素に設定する処理が行われる。
さらに、例えばS2=1/4であり、1/4の縮小画像に相当する低解像度画像を生成する場合は、ステップ設定(フィルタリング画素間隔)=(1/S2)画素=4画素であり、4画素を1画素に設定する処理が行われる。
次に、コストボリュームフィルタリング部222は、ステップS203において、フィルタのブロックサイズ(カーネルサイズ)を設定する。
フィルタのブロックサイズ(カーネルサイズ)は、各解像度画像の生成に適用するフィルタサイズに相当し、各解像度(等倍/S1倍/S2倍)画像の構成画素値を算出する際に、参照すべき周囲画素の画素領域を規定するブロックのサイズである。
図14に示すように、出力視差マップが、等倍解像度の場合は、
フィルタブロックサイズ(カーネルサイズ)=(box_w,box_h)、
フィルタブロックサイズ(カーネルサイズ)=(box_w/S1,box_h/S1)、
フィルタブロックサイズ(カーネルサイズ)=(box_w/S2,box_h/S2)、
上記設定とする。
この検出ウィンドウは、後段の分類部230において、各検出ウィンドウ内の物体が検出対象物であるか否か、例えば人であるか否かを判定する際に適用される検出ウィンドウのサイズに相当する。
次に、コストボリュームフィルタリング部222は、ステップS204において、ステップS202で設定したステップ設定(フィルタリング画素間隔)と、ステップS203で設定したブロックサイズ(カーネルサイズ)の設定に従って、フィルタ処理を実行する。
コストボリューム300を構成するコストプレーン中、
図14は、視差d=小(=カメラからの距離=遠い)のグループに属するコストプレーンに対するフィルタ処理を示す図であり、例えばサーチレンジ区間0の各候補視差のコストプレーンに対する平均化フィルタの適用処理として実行される。
画素(x,y)におけるフィルタリング後の値(一致度:Similarity(x,y,d))は、次式(式7)で示される。
画素(x,y)におけるフィルタリング後の値(一致度:Similarity(x,y,d))は、次式(式8)で示される。
画素(x,y)におけるフィルタリング後の値(一致度:Similarity(x,y,d))は、次式(式9)で示される。
この結果、例えば、図17に示すように、以下の3種類の異なる解像度対応のコストボリュームが生成される。
(1)等解像度コストボリューム
(2)S1倍解像度コストボリューム
(3)S2倍解像度コストボリューム
また、コストボリュームフィルタリング部222ではフィルタリングする画素の間隔を変えることで、高解像度のコストボリュームから低解像度のコストボリュームを生成する。
次に、図6に示す視差算出部220の視差決定部223の実行する処理について説明する。
視差決定部223は、コストボリュームフィルタリング部222から入力する各解像度のコストボリュームの各画素に対して、もっとも一致度が高くなる視差値を決定し、視差マップを生成する。
図17に示すフローチャートを参照して視差算出部220の視差決定部223の実行する処理について説明する。
まず、視差決定部223は、ステップS301において、処理対象とするコストボリュームの解像度を選択する。
(1)等解像度コストボリューム
(2)S1倍解像度コストボリューム
(3)S2倍解像度コストボリューム
次に、視差決定部223は、ステップS302において、処理対象として選択した解像度のコストボリュームに基づいて、視差の決定処理を行い、各解像度対応の視差マップを生成する。
図14~図17を参照して説明した1つの解像度のコストボリュームには複数のコストプレーンが含まれる。
例えば一致度(Similarity)が高いほど黒(低輝度)、低いほど白(高輝度)となる設定の画素値が設定されている。
この処理を式として示すと、以下の(式10)によって表すことができる。
上記(式10)の処理を、選択した解像度のコストボリュームの各画素に対して行う。
この処理により、1つの解像度対応の視差マップを生成する。
視差マップは、各画素位置(x,y)に、上記(式10)に従って算出される差D(x,y)の値を設定したマップである。
次に、視差決定部223は、ステップS303において、物体候補画素の判定処理を実行し、物体領域候補マップを生成する。
ステップS302の視差決定処理において算出された各画素対応の視差D(x,y)、あるいは視差D(x,y)における一致度に基づいて、
物体、例えば人等の検出対象物の存在確率が高い領域(画素領域)を表す物体候補領域マップを生成する。
例えば、人の輪郭などでは、双方の画像に共通するエッジがあるため、信頼性の高い一致度が得られる。
具体的には、例えば人の存在する正解の候補視差において、一致度(Similarity)の値は高くなり、それ以外の視差値では、低い値となる。
具体的には、上記の(式10)を用いた視差決定処理において、視差決定時の一致度(Similarity)の値が、予め規定したしきい値以上の場合、その画素を物体候補画素として選択しマーキングする。例えば、物体候補画素を1、それ以外を0とした物体候補領域マップを生成する。
次に、視差決定部223は、ステップS304において、ステップS302k視差決定処理と、ステップS303の物体候補画素判定に基づく物体候補領域マップの生成が完了したか否かを判定する。
未処理画像がある場合は、未処理画素に対して、ステップS302~S303の処理を繰り返す。
すべての画素についての処理が終了し、1つの解像度のコストボリュームに対する処理が終了したと判定した場合は、ステップS305に進む。
次に、視差決定部223は、ステップS305において、全ての解像度のコストボリュームに対する処理が完了したか否かを判定する。
未処理の解像度のコストボリュームがある場合は、未処理の解像度のコストボリュームに対して、ステップS301~S304の処理を繰り返す。
すべての解像度のコストボリュームについての処理が終了したと判定した場合は、処理を終了する。
(1)等解像度コストボリューム対応の視差マップと、物体候補領域マップ、
(2)S1倍解像度コストボリューム対応の視差マップと、物体候補領域マップ、
(3)S2倍解像度コストボリューム対応の視差マップと、物体候補領域マップ、
この処理において、分類部230は、物体候補領域マップを用い、物体候補画素のみを処理対象とした分類処理を行う。この限定された領域に対する処理を行うことで、計算量を削減することができる。
説明したように、複数の解像度の画像上で検出ウィンドウをスライディングさせながら検出処理を行うため、計算量が膨大となる。これに対して、本開示の処理では、生成した物体候補領域マップを用い、物体候補画素のみ、後段の分類処理を行うことで、計算量を削減することができる。
以上、本開示の画像処理についての実施例について説明したが、上記実施例の構成や、処理は、いくつかの点で変更可能である。
以下、これらの変更例について説明する。
上述した実施例1では、視差算出部220の画素マッチング部221において、複数の異なる視点からの2つの撮影画像に基づく一致度(Similarity)算出処理を行っている。
Similarity(x,y,d)=min(Mag1(x,y),Mag2(x+d,y))Φ(x,y,d)・・・(式4)
可視光画像(補正第1画像151)の各画素(x,y)対応の勾配強度Mag1と、勾配方向Ori1、
遠赤外線画像(補正第2画像152)の各画素(x,y)対応の勾配強度Mag2と、勾配方向Ori2、
これらの特徴量であり、図5に示す特徴量抽出部210において抽出されるものとして説明したが、
上述した実施例1では、視差算出部220のコストボリュームフィルタリング部222において、コストプレーンに対するフィルタ処理において適用するフィルタとして、平均化フィルタを適用した処理として実行することを説明した。
また、平均化フィルタを適用した処理を行う場合には、積分イメージを用いた高速化手法などを用いる構成としてもよい。
上述した実施例1では、視差算出部220の視差決定部223において、特定の選択解像度のコストボリュームに含まれる複数のコストプレーン各々について、同一の画素位置(対応画素位置)の画素値(一致度)を比較して、最も一致度の高いコストプレーンを選択し、そのコストプレーンの視差dをその画素位置の視差dとして決定する視差決定処理を前述した(式10)によって算出することを説明した。
視差マップは、各画素位置(x,y)に、上記(式10)に従って算出される差D(x,y)の値を設定したマップである。
上述した実施例1では、視差算出部220の視差決定部223において、視差決定処理において算出した各画素対応の視差D(x,y)、あるいは視差D(x,y)における一致度に基づいて、物体、例えば人等の検出対象物の存在確率が高い領域(画素領域)を表す物体候補領域マップを生成する処理について説明した。
具体的には、上記の(式10)を用いた視差決定処理において、視差決定時の一致度(Similarity)の値が、予め規定したしきい値以上の場合、その画素を物体候補画素として選択しマーキングする。例えば、物体候補画素を1、それ以外を0とした物体候補領域マップを生成する処理例について説明した。
また、ステレオマッチングのブロックサイズを、物体検出器のパラメータ(検出ウィンドウサイズおよび検出処理時の画像解像度)から決定することで、ブロックサイズを検出対象物体に最適化し、ステレオマッチングの性能を向上させることができる。
また、ステレオマッチングの結果で得られた一致度に関するスコアをもとに、物体が存在する確率が高い候補領域を決定し、その領域のみに後段の分類処理を行うことで、物体検出器の計算量の削減を行うことができる。
次に、図20を参照して画像処理装置のハードウェア構成例について説明する。
図20は、本開示の処理を実行する画像処理装置のハードウェア構成例を示す図である。
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
(1) 異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出部を有し、
前記物体検出部は、
前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出部と、
前記視差算出部の生成した視差マップを適用して物体検出処理を実行する分類部を有し、
前記視差算出部は、
複数の異なる解像度対応の視差マップを生成して前記分類部に出力する画像処理装置。
前記2つの画像の等倍解像度画像を適用した対応点探索処理であるステレオマッチング処理を実行する画素マッチング部を有する(1)に記載の画像処理装置。
前記物体検出処理における検出対象物の高さL、および画像上の高さh、および前記2つの画像を撮影した2つのカメラ間の距離に相当する基線長Bの少なくともいずれかの値を適用して、対応点探索領域であるサーチレンジ区間を決定する(2)に記載の画像処理装置。
前記ステレオマッチング処理の実行結果として、画素単位の一致度を画像の構成画素各々に設定したコストプレーンの束(スタック)からなるコストボリュームを生成する(2)または(3)に記載の画像処理装置。
前記画素マッチング部の生成した前記コストボリュームのフィルタリング処理により、複数の異なる解像度対応のコストボリュームを生成するコストボリュームフィルタリング部を有する(4)に記載の画像処理装置。
フィルタリング対象の画素の間隔であるステップの設定、および、フィルタリング処理に際して参照する参照画素の範囲を規定するカーネルサイズを、出力するコストボリュームの解像度に応じて変更してフィルタリング処理を行う(5)に記載の画像処理装置。
平均化フィルタを適用してフィルタリング処理を行う(5)または(6)に記載の画像処理装置。
前記コストボリュームフィルタリング部の生成した複数の異なる解像度対応のコストボリュームの各々に対応する視差マップと、物体候補領域マップを生成する視差決定部を有する(5)~(7)いずれかに記載の画像処理装置。
処理対象として選択した解像度のコストボリュームに含まれる複数のコストプレーン各々について、同一の画素位置(対応画素位置)の画素値(一致度)を比較して、最も一致度の高いコストプレーンを選択し、そのコストプレーンの視差dをその画素位置の視差Dとして決定する視差決定処理を実行し、該視差決定処理において決定した視差Dを画素に対応付けた視差マップを生成する(8)に記載の画像処理装置。
前記視差決定処理において決定した各画素対応の視差D(x,y)、あるいは視差D(x,y)における一致度に基づいて、
検出対象物の存在確率が高い領域(画素領域)を表す物体候補領域マップを生成する(9)に記載の画像処理装置。
前記視差算出部の生成した複数の異なる解像度対応の視差マップと、物体候補領域マップを入力し、
入力したデータを利用した機械学習処理により、物体検出処理を実行する(8)~(10)いずれかに記載の画像処理装置。
物体検出アルゴリズムであるACF(Aggregated Channel Features)を適用して物体検出処理を実行する(11)に記載の画像処理装置。
物体検出部が、異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出処理ステップを実行し、
前記物体検出処理ステップは、
視差算出部において、前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出ステップと、
分類部において、前記視差算出ステップにおいて生成した視差マップを適用して物体検出処理を実行する分類処理ステップを有し、
前記視差算出ステップは、
複数の異なる解像度対応の視差マップを生成して前記分類部に出力する画像処理方法。
物体検出部に、異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出処理ステップを実行させ、
前記物体検出処理ステップにおいて、
視差算出部において、前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出ステップと、
分類部において、前記視差算出ステップにおいて生成した視差マップを適用して物体検出処理を実行する分類処理ステップを実行させ、
前記視差算出ステップにおいては、
複数の異なる解像度対応の視差マップを生成して前記分類部に出力させるプログラム。
具体的には、例えば異なる視点から撮影された2つの画像を入力して視差を算出し、視差マップを生成する視差算出部と、視差マップを適用して物体検出処理を実行する分類部を有する。視差算出部は、等倍解像度画像を適用したステレオマッチング処理を実行し、処理結果から複数の解像度対応のコストボリュームを生成し、各解像度対応のコストボリュームを利用して複数の異なる解像度対応の視差マップと、物体候補領域マップを生成して分類部に出力する。
これらの処理により、高精度かつ効率的な視差マップ生成、物体検出処理を実行する装置、方法が実現される。
20 遠赤外線画像
100 画像処理装置
101 制御部
102 記憶部
103 コーデック
104 入力部
105 出力部
106 撮像部
107 可視光画像撮像部
108 遠赤外線画像撮像部
111 第1撮像素子
112 第2撮像素子
131 第1画像
132 第2画像
140 キャリブレーション実行部
151 補正第1画像
152 補正第1画像
170 物体検出結果
200 物体検出部
210 特徴量抽出部
211 第1画像特徴量
212 第2画像特徴量
220 視差算出部
221 画素マッチング部
222 コストボリュームフィルタリング部
223 視差決定部
225 視差マップ
226 物体領域候補マップ
230 分類部
300 コストボリューム
301 コストプレーン
501 CPU
502 ROM
503 RAM
504 バス
505 入出力インタフェース
506 入力部
507 出力部
508 記憶部
509 通信部
510 ドライブ
511 リムーバブルメディア
521 撮像部
522 表示部
Claims (11)
- 異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出部を有し、
前記物体検出部は、
前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出部と、
前記視差算出部の生成した視差マップを適用して物体検出処理を実行する分類部を有し、
前記視差算出部は、
前記2つの画像の等倍解像度画像を適用した対応点探索処理であるステレオマッチング処理を実行して画素単位の一致度を画像の構成画素各々に設定したコストプレーンの束(スタック)からなるコストボリュームを生成する画素マッチング部と、
前記画素マッチング部の生成した前記コストボリュームのフィルタリング処理により、複数の異なる解像度対応のコストボリュームを生成するコストボリュームフィルタリング部と、
前記コストボリュームフィルタリング部の生成した複数の異なる解像度対応のコストボリュームの各々に対応する視差マップと、物体候補領域マップを生成して前記分類部に出力する視差決定部を有する画像処理装置。 - 前記画素マッチング部は、
前記物体検出処理における検出対象物の高さL、および画像上の高さh、および前記2つの画像を撮影した2つのカメラ間の距離に相当する基線長Bの少なくともいずれかの値を適用して、対応点探索領域であるサーチレンジ区間を決定する請求項1に記載の画像処理装置。 - 前記コストボリュームフィルタリング部は、
フィルタリング対象の画素の間隔であるステップの設定、および、フィルタリング処理に際して参照する参照画素の範囲を規定するカーネルサイズを、出力するコストボリュームの解像度に応じて変更してフィルタリング処理を行う請求項1に記載の画像処理装置。 - 前記コストボリュームフィルタリング部は、
平均化フィルタを適用してフィルタリング処理を行う請求項1に記載の画像処理装置。 - 前記視差決定部は、
処理対象として選択した解像度のコストボリュームに含まれる複数のコストプレーン各々について、同一の画素位置(対応画素位置)の画素値(一致度)を比較して、最も一致度の高いコストプレーンを選択し、そのコストプレーンの視差dをその画素位置の視差Dとして決定する視差決定処理を実行し、該視差決定処理において決定した視差Dを画素に対応付けた視差マップを生成する請求項1に記載の画像処理装置。 - 前記視差決定部は、
前記視差決定処理において決定した各画素対応の視差D(x,y)、あるいは視差D(x,y)における一致度に基づいて、
検出対象物の存在確率が高い領域(画素領域)を表す物体候補領域マップを生成する請求項5に記載の画像処理装置。 - 前記分類部は、
前記視差算出部の生成した複数の異なる解像度対応の視差マップと、物体候補領域マップを入力し、
入力したデータを利用した機械学習処理により、物体検出処理を実行する請求項1に記載の画像処理装置。 - 前記分類部は、
物体検出アルゴリズムであるACF(Aggregated Channel Features)を適用して物体検出処理を実行する請求項7に記載の画像処理装置。 - 前記異なる視点から撮影された2つの画像は、可視光画像と遠赤外線画像である請求項1に記載の画像処理装置。
- 画像処理装置において実行する画像処理方法であり、
物体検出部が、異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出処理ステップを実行し、
前記物体検出処理ステップは、
視差算出部において、前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出ステップと、
分類部において、前記視差算出ステップにおいて生成した視差マップを適用して物体検出処理を実行する分類処理ステップを有し、
前記視差算出ステップは、
前記2つの画像の等倍解像度画像を適用した対応点探索処理であるステレオマッチング処理を実行して画素単位の一致度を画像の構成画素各々に設定したコストプレーンの束(スタック)からなるコストボリュームを生成する画素マッチング処理と、
生成した前記コストボリュームのフィルタリング処理により、複数の異なる解像度対応のコストボリュームを生成するコストボリュームフィルタリング処理と、
生成した複数の異なる解像度対応のコストボリュームの各々に対応する視差マップと、物体候補領域マップを生成して前記分類部に出力する視差決定処理を実行するステップである画像処理方法。 - 画像処理装置において画像処理を実行させるプログラムであり、
物体検出部に、異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出処理ステップを実行させ、
前記物体検出処理ステップにおいて、
視差算出部において、前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出ステップと、
分類部において、前記視差算出ステップにおいて生成した視差マップを適用して物体検出処理を実行する分類処理ステップを実行させ、
前記視差算出ステップにおいては、
前記2つの画像の等倍解像度画像を適用した対応点探索処理であるステレオマッチング処理を実行して画素単位の一致度を画像の構成画素各々に設定したコストプレーンの束(スタック)からなるコストボリュームを生成する画素マッチング処理と、
生成した前記コストボリュームのフィルタリング処理により、複数の異なる解像度対応のコストボリュームを生成するコストボリュームフィルタリング処理と、
生成した複数の異なる解像度対応のコストボリュームの各々に対応する視差マップと、物体候補領域マップを生成して前記分類部に出力する視差決定処理を実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017020055 | 2017-02-07 | ||
JP2017020055 | 2017-02-07 | ||
PCT/JP2018/001782 WO2018147059A1 (ja) | 2017-02-07 | 2018-01-22 | 画像処理装置、および画像処理方法、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018147059A1 JPWO2018147059A1 (ja) | 2019-11-21 |
JP7024736B2 true JP7024736B2 (ja) | 2022-02-24 |
Family
ID=63107360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018567346A Active JP7024736B2 (ja) | 2017-02-07 | 2018-01-22 | 画像処理装置、および画像処理方法、並びにプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11272163B2 (ja) |
JP (1) | JP7024736B2 (ja) |
WO (1) | WO2018147059A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI637350B (zh) * | 2018-01-09 | 2018-10-01 | 緯創資通股份有限公司 | 產生視差圖的方法及其影像處理裝置與系統 |
US11060864B1 (en) * | 2019-01-22 | 2021-07-13 | Tp Lab, Inc. | Controller for measuring distance from reference location and real size of object using a plurality of cameras |
JP7156511B2 (ja) * | 2019-04-22 | 2022-10-19 | 日本電気株式会社 | 物体検出装置、物体検出システム、物体検出方法及びプログラム |
WO2021224955A1 (ja) * | 2020-05-07 | 2021-11-11 | 三菱電機株式会社 | 自己位置推定装置、航行制御装置、画像生成装置、人工衛星システム及び自己位置推定方法 |
CN112150532A (zh) * | 2020-08-25 | 2020-12-29 | 北京迈格威科技有限公司 | 图像处理的方法、装置、电子设备和计算机可读介质 |
JP7434138B2 (ja) * | 2020-11-17 | 2024-02-20 | 株式会社日立製作所 | 物体認識装置および物体認識方法 |
JP7450668B2 (ja) | 2022-06-30 | 2024-03-15 | 維沃移動通信有限公司 | 顔認識方法、装置、システム、電子機器および読み取り可能記憶媒体 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080036576A1 (en) | 2006-05-31 | 2008-02-14 | Mobileye Technologies Ltd. | Fusion of far infrared and visible images in enhanced obstacle detection in automotive applications |
JP2011048416A (ja) | 2009-08-25 | 2011-03-10 | Konica Minolta Holdings Inc | 画像処理装置および画像処理方法 |
JP2013117969A (ja) | 2011-12-01 | 2013-06-13 | Sony Corp | 多重解像度手順を利用してロバストな深度マップを生成するためのシステム及び方法 |
JP2014096062A (ja) | 2012-11-09 | 2014-05-22 | Yamaguchi Univ | 画像処理方法及び画像処理装置 |
JP2014106732A (ja) | 2012-11-27 | 2014-06-09 | Sony Computer Entertainment Inc | 情報処理装置および情報処理方法 |
JP2016038886A (ja) | 2014-08-11 | 2016-03-22 | ソニー株式会社 | 情報処理装置および情報処理方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69328230T2 (de) | 1992-12-01 | 2000-08-10 | Canon K.K., Tokio/Tokyo | Entfernungbildverarbeitungsvorrichtung und -verfahren |
JPH06176107A (ja) * | 1992-12-04 | 1994-06-24 | Canon Inc | 距離画像処理方法及び装置 |
KR100902343B1 (ko) * | 2007-11-08 | 2009-06-12 | 한국전자통신연구원 | 로봇 영상 시스템 및 검출 방법 |
US8831335B2 (en) * | 2008-11-25 | 2014-09-09 | Nec Solution Innovators, Ltd. | Stereo matching processing apparatus, stereo matching processing method and computer-readable recording medium |
US9485495B2 (en) * | 2010-08-09 | 2016-11-01 | Qualcomm Incorporated | Autofocus for stereo images |
JP5942203B2 (ja) * | 2011-06-17 | 2016-06-29 | パナソニックIpマネジメント株式会社 | ステレオ画像処理装置およびステレオ画像処理方法 |
WO2014049919A1 (ja) * | 2012-09-27 | 2014-04-03 | パナソニック株式会社 | ステレオ画像処理装置およびステレオ画像処理方法 |
WO2015025073A1 (en) * | 2013-08-19 | 2015-02-26 | Nokia Corporation | Method, apparatus and computer program product for object detection and segmentation |
US9195904B1 (en) * | 2014-05-08 | 2015-11-24 | Mitsubishi Electric Research Laboratories, Inc. | Method for detecting objects in stereo images |
US9704254B2 (en) * | 2015-03-27 | 2017-07-11 | Intel Corporation | Stereo image matching by shape preserving filtering of a cost volume in a phase domain |
US9626590B2 (en) * | 2015-09-18 | 2017-04-18 | Qualcomm Incorporated | Fast cost aggregation for dense stereo matching |
US10321112B2 (en) * | 2016-07-18 | 2019-06-11 | Samsung Electronics Co., Ltd. | Stereo matching system and method of operating thereof |
-
2018
- 2018-01-22 US US16/474,946 patent/US11272163B2/en active Active
- 2018-01-22 JP JP2018567346A patent/JP7024736B2/ja active Active
- 2018-01-22 WO PCT/JP2018/001782 patent/WO2018147059A1/ja active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080036576A1 (en) | 2006-05-31 | 2008-02-14 | Mobileye Technologies Ltd. | Fusion of far infrared and visible images in enhanced obstacle detection in automotive applications |
JP2011048416A (ja) | 2009-08-25 | 2011-03-10 | Konica Minolta Holdings Inc | 画像処理装置および画像処理方法 |
JP2013117969A (ja) | 2011-12-01 | 2013-06-13 | Sony Corp | 多重解像度手順を利用してロバストな深度マップを生成するためのシステム及び方法 |
JP2014096062A (ja) | 2012-11-09 | 2014-05-22 | Yamaguchi Univ | 画像処理方法及び画像処理装置 |
JP2014106732A (ja) | 2012-11-27 | 2014-06-09 | Sony Computer Entertainment Inc | 情報処理装置および情報処理方法 |
JP2016038886A (ja) | 2014-08-11 | 2016-03-22 | ソニー株式会社 | 情報処理装置および情報処理方法 |
Non-Patent Citations (1)
Title |
---|
宇戸 寿幸、外4名,"多重解像度解析を用いた距離画像の高速な位置合わせ",電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2005年07月08日,Vol.105, No.177,pp.33-38 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2018147059A1 (ja) | 2019-11-21 |
US11272163B2 (en) | 2022-03-08 |
WO2018147059A1 (ja) | 2018-08-16 |
US20190349572A1 (en) | 2019-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7024736B2 (ja) | 画像処理装置、および画像処理方法、並びにプログラム | |
US11206346B2 (en) | Imaging device and operating method thereof | |
US10909707B2 (en) | System and methods for measuring depth using an array of independently controllable cameras | |
WO2019085792A1 (en) | Image processing method and device, readable storage medium and electronic device | |
US10303983B2 (en) | Image recognition apparatus, image recognition method, and recording medium | |
CN107077743B (zh) | 用于阵列相机的动态校准的系统和方法 | |
JP5954668B2 (ja) | 画像処理装置、撮像装置および画像処理方法 | |
US20200098119A1 (en) | Image processing device, image processing method, and image processing program | |
JP6577703B2 (ja) | 画像処理装置及び画像処理方法、プログラム、記憶媒体 | |
KR20140000195A (ko) | 입체 카메라를 위한 자동초점 | |
US8774551B2 (en) | Image processing apparatus and image processing method for reducing noise | |
JP2010045613A (ja) | 画像識別方法および撮像装置 | |
WO2018061508A1 (ja) | 撮像素子、画像処理装置、および画像処理方法、並びにプログラム | |
KR20230110618A (ko) | 영상 보정 방법, 장치 및 시스템, 전자 장치 | |
US20230127009A1 (en) | Joint objects image signal processing in temporal domain | |
BR102015004240A2 (pt) | aparelho de processamento de imagem e método para controlar o mesmo | |
US20110085026A1 (en) | Detection method and detection system of moving object | |
US20150002637A1 (en) | Apparatus and method for generating stereoscopic image through installation of external camera | |
US12035033B2 (en) | DNN assisted object detection and image optimization | |
US10332259B2 (en) | Image processing apparatus, image processing method, and program | |
US20130076868A1 (en) | Stereoscopic imaging apparatus, face detection apparatus and methods of controlling operation of same | |
JP2018046372A (ja) | 撮像装置、システム、プログラム | |
EP3001381A1 (en) | Method for building a set of color correspondences from a set of feature correspondences in a set of corresponding images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220111 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220124 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7024736 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |