JP2023079211A - イメージ処理装置及び方法 - Google Patents
イメージ処理装置及び方法 Download PDFInfo
- Publication number
- JP2023079211A JP2023079211A JP2022188155A JP2022188155A JP2023079211A JP 2023079211 A JP2023079211 A JP 2023079211A JP 2022188155 A JP2022188155 A JP 2022188155A JP 2022188155 A JP2022188155 A JP 2022188155A JP 2023079211 A JP2023079211 A JP 2023079211A
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature map
- image processing
- processing method
- target area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000003672 processing method Methods 0.000 claims abstract description 166
- 238000005070 sampling Methods 0.000 claims description 52
- 238000013527 convolutional neural network Methods 0.000 claims description 49
- 238000003384 imaging method Methods 0.000 claims description 24
- 230000001131 transforming effect Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 230000006870 function Effects 0.000 description 38
- 238000010586 diagram Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 18
- 230000003287 optical effect Effects 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 11
- 239000000284 extract Substances 0.000 description 9
- 238000011176 pooling Methods 0.000 description 9
- 238000012937 correction Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000003190 augmentative effect Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000013519 translation Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007665 sagging Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
- G06T3/047—Fisheye or wide-angle transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】本開示はイメージ処理装置及び方法を提供する【解決手段】イメージ処理方法は、第1イメージの特徴マップを取得し、特徴マップに基づいて第1イメージからターゲット領域を検出するステップと、検出されたターゲット領域を補正するステップ及び補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップとを含む。また、イメージ処理方法は、人工知能モデルを用いて実行されることができる。【選択図】図1
Description
本開示はイメージ処理方法及び装置に関する。
イメージを処理する前に、オブジェクト処理効果を保障するために全体イメージを補正した後、補正された全体イメージを基準にしてオブジェクトを処理する。例えば、魚眼カメラで撮影した魚眼イメージは明確な歪みを含むことがある。一般的なイメージ処理方法は、魚眼イメージのうちオブジェクトを処理する前に全体の魚眼イメージを補正し、補正された全体イメージに基づいてオブジェクトを処理する(例えば、オブジェクト認識、分割及び姿勢推定)。しかし、このようなイメージ処理方式は、全体イメージを補正するときオブジェクトが大幅に増加し、後続するオブジェクトの処理効果が小さくなるだけでなく、イメージ処理速度が遅くなる。このような観点から、オブジェクト処理効果を向上させたりイメージ処理速度を向上させたりすることのできるより優れたイメージ処理技術が求められている。
本発明の目的は、イメージ処理装置及び方法を提供することにある。
一実施形態に係るイメージ処理方法は、第1イメージの特徴マップを生成し、前記特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップと、検出されたターゲット領域を補正するステップと、補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップとを含む。
ここで、 前記第1イメージの特徴マップを生成し、前記特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップは、少なくとも1つのスケーリングされたイメージから前記第1イメージの特徴を抽出して前記第1イメージの少なくとも1つの特徴マップを生成するステップと、前記少なくとも1つの特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップとを含むことができる。
ここで、 前記第1イメージの特徴マップを生成し、前記特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップは、少なくとも1つのスケーリングされたイメージから前記第1イメージの特徴を抽出して前記第1イメージの少なくとも1つの特徴マップを生成するステップと、前記少なくとも1つの特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップとを含むことができる。
ここで、前記少なくとも1つのスケーリングされたイメージから前記第1イメージの特徴を抽出して前記第1イメージの少なくとも1つの特徴マップを生成するステップは、前記少なくとも1つのスケーリングされたイメージそれぞれに対して、畳み込み神経網(畳み込みニューラルネットワーク)で畳み込み動作を行って前記少なくとも1つのスケールそれぞれの特徴マップを生成するステップを含み、前記少なくとも1つのスケーリングされたイメージそれぞれに対して前記畳み込み神経網は、前記少なくとも1つの位置それぞれに対応する畳み込みカーネルを用いて、前記スケーリングされたイメージ上の少なくとも1つの位置それぞれに対して前記畳み込み動作を行うことができる。
ここで、前記少なくとも1つのスケーリングされたイメージそれぞれに対して前記畳み込み神経網で前記畳み込み動作を行って前記少なくとも1つのスケールそれぞれの特徴マップを生成するステップは、前記少なくとも1つのスケーリングされたイメージ上の前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップと、前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置に応じて前記畳み込み動作を行って前記少なくとも1つのスケールそれぞれの特徴マップを生成するステップとを含むことができる。
ここで、前記少なくとも1つのスケーリングされたイメージ上の前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップは、前記第1イメージのイメージングモデルにより、3次元空間で前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップと、前記3次元空間における前記畳み込みカーネルのサンプリング位置及び前記イメージングモデルにより、前記スケーリングされたイメージで前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップとを含むことができる。
ここで、前記少なくとも1つの特徴マップは、複数の特徴マップであり、前記少なくとも1つの特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップは、前記複数の特徴マップで隣接するスケールの特徴マップを融合し、少なくとも1つの融合した特徴マップに基づいて前記第1イメージからターゲット領域を検出することができる。
ここで、前記検出されたターゲット領域を補正するステップは、前記第1イメージの特徴マップで前記検出されたターゲット領域に対応する第1特徴領域を第1ターゲット領域特徴マップとして決定するステップと、前記第1ターゲット領域特徴マップを空間的に変換し、変換された第1ターゲット領域特徴マップを生成するステップとを含み、前記補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップは、前記変換された第1ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトを処理するステップを含むことができる。
ここで、前記第1ターゲット領域特徴マップを空間的に変換し、前記変換された第1ターゲット領域特徴マップを生成するステップは、前記第1イメージのイメージングモデル及び前記検出されたターゲット領域により前記ターゲット領域に対応する仮想カメラを生成するステップと、前記第1ターゲット領域特徴マップを前記仮想カメラに空間的に変換し、前記変換された第1ターゲット領域特徴マップを生成するステップとを含むことができる。
ここで、前記変換された第1ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトを処理するステップは、前記変換された第1ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトの第1属性情報を生成するステップと、前記第1属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップとを含むことができる。
本発明のイメージ処理方法は、前記第1イメージに関連する第2イメージを生成するステップと、前記第2イメージに基づいて前記オブジェクトの第2属性情報を生成するステップとをさらに含み、前記第1属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップは、前記第1属性情報及び前記第2属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップを含むことができる。
ここで、前記ターゲット領域に対応するオブジェクトを処理するステップは、前記オブジェクトに対するオブジェクト認識、オブジェクト分割及びオブジェクト姿勢推定のうち少なくとも1つを行うステップを含むことができる。
ここで、前記第1属性情報は、前記オブジェクトのカテゴリー情報、前記オブジェクトのマスク情報、前記オブジェクトのキーポイント情報、及び前記オブジェクトの姿勢情報のうち少なくとも1つを含むことができる。
ここで、前記第1属性情報は、前記オブジェクトの第1キーポイント情報及び初期姿勢情報を含み、前記第2属性情報は、前記オブジェクトの第2キーポイント情報を含み、前記第1属性情報及び前記第2属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップは、前記初期姿勢情報、前記第1キーポイント情報、及び前記第2キーポイント情報に基づいて前記オブジェクトの最終姿勢情報を推定するステップを含むことができる。
ここで、前記第2イメージに基づいて前記オブジェクトの前記第2属性情報を生成するステップは、前記初期姿勢情報及び前記第1イメージを生成する第1カメラのパラメータ、及び前記第2イメージを生成する第2カメラのパラメータに基づいて、前記第2イメージで前記オブジェクトに対応するターゲット領域を決定するステップと、前記第2イメージ上の前記オブジェクトに対応するターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップとを含むことができる。
ここで、前記初期姿勢情報及び前記第1イメージを生成する前記第1カメラのパラメータ、及び前記第2イメージを生成する前記第2カメラのパラメータに基づいて、前記第2イメージで前記オブジェクトに対応するターゲット領域を決定するステップは、前記初期姿勢情報及び前記第1カメラのパラメータに基づいて前記第1カメラの座標系で前記オブジェクトの初期姿勢情報を決定するステップと、前記第1カメラの座標系における前記オブジェクトの初期姿勢情報及び前記第2カメラのパラメータに基づいて前記第2カメラの座標系で前記オブジェクトの初期姿勢情報を決定するステップと、前記第2カメラの座標系における前記オブジェクトの初期姿勢情報により前記第2イメージで前記オブジェクトに対応するターゲット領域を決定するステップとを含むことができる。
ここで、前記第2イメージ上の前記オブジェクトに対応するターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップは、前記第2イメージ上の前記オブジェクトに対応するターゲット領域を補正するステップと、前記第2イメージ上の補正されたターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップとを含むことができる。
ここで、前記第2イメージ上の前記オブジェクトに対応するターゲット領域を補正するステップは、前記第2イメージの特徴マップを生成するステップと、前記第2イメージの特徴マップで前記第2イメージ上のターゲット領域に対応する第2特徴領域を第2ターゲット領域特徴マップとして決定するステップと、前記第2ターゲット領域特徴マップを空間的に変換し、変換された第2ターゲット領域特徴マップを生成するステップとを含み、前記第2イメージ上の補正されたターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップは、前記変換された第2ターゲット領域特徴マップに基づいて前記オブジェクトの第2キーポイント情報を生成するステップを含むことができる。
一実施形態に係るイメージ処理方法は、畳み込み神経網を用いて、第1イメージ上の少なくとも1つの位置それぞれに対応する畳み込みカーネルを用いて前記第1イメージに対して畳み込み動作を行って前記第1イメージの特徴マップを生成するステップと、前記第1イメージの特徴マップに基づいて前記第1イメージのうちのオブジェクトを処理するステップとを含む。
一実施形態に係るプロセッサを含むイメージ処理装置は、前記プロセッサは、第1イメージの特徴マップを生成し、前記特徴マップに基づいて前記第1イメージからターゲット領域を検出し、検出されたターゲット領域を補正し、補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理することができる。
一実施形態に係るイメージ処理方法は、第1イメージに基づいてそれぞれ異なるスケールの複数のスケーリングされたイメージを生成するステップと、前記スケーリングされたイメージに基づいて複数の特徴マップを生成するステップ(前記複数の特徴マップそれぞれは、前記スケーリングされたイメージのうち1つに対応する)と、2以上の特徴マップを融合するステップと、前記融合した特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップと、前記複数の特徴マップのうち他の1つを用いて前記検出されたターゲット領域を補正するステップと、前記補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップとを含む。
ここで、前記複数の特徴マップのうち他の1つの解像度は、前記2以上の特徴マップの解像度よりも高いことを特徴とする。
本発明によると、イメージ処理装置及び方法を提供することができる。
以下、添付の図面を参照して実施形態について詳説する。しかし、本明細書で開示する特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示したものであり、実施形態は様々な異なる形態で実施され、本発明は本明細書で説明した実施形態に限定されるものではない。実施形態に対する全ての変更、均等物ないし代替物が権利範囲に含まれているものと理解されなければならない。
実施形態で用いられる用語は、単に、説明を目的として使用されたものであり、限定しようとする意図として解釈されることはない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
また、添付図面を参照して説明することにおいて、図面符号に関係なく、同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略することにする。実施形態の説明において、関連する公知技術に対する具体的な説明が実施形態の要旨を不要に曖昧にするものと判断される場合、その詳細な説明を省略する。
本開示の背景技術で言及したように、従来のイメージ処理方法において、全体イメージを補正する過程でオブジェクトが大幅に増加し、後続するオブジェクトの処理効果がないだけでなく、処理速度も遅くなる。一方、1つ以上の実施形態のイメージ処理方法は、オブジェクト処理に対する効果及びイメージ処理速度を向上させることができる。例えば、1つ以上の実施形態のイメージ処理方法は、ターゲット領域を検出した後、検出されたターゲット領域のみを補正することでオブジェクトが大幅に増加することを防止し、後続するオブジェクト処理効果を向上させ、関係のない領域を補正しないことからイメージ処理速度を向上させ得る。
以下では、本開示の一実施形態に係るイメージ処理装置及び方法について、添付の図1~図13を参照して詳細に説明する。
図1は、一実施形態に係るイメージ処理方法のフローチャートである。
以下で説明するステップS110~ステップS130は順次に行われるが、必ず順次に行われなくてもよい。例えば、ステップS110~ステップS130は互いに異なる順に行われてもよく、ステップS110~ステップS130のうち少なくとも2ステップが並列又は同時に行われてもよい。また、図示された例示の意図及び範囲を超えることなく、ステップS110~ステップS130のうち1つ以上は省略されてもよい。図1を参照して後述するステップS110~ステップS130は次の通りである。図1は、本開示で説明された電子装置(例えば、図11に示すイメージ処理装置1100、図12に示すイメージ処理装置1200及び/又は図13に示す電子装置1300)の1つ以上の構成要素によって行われてもよい。
図1を参照すると、イメージ処理方法は、ステップS110において、第1イメージの特徴マップを取得(例えば、決定又は生成)し、特徴マップに基づいて第1イメージのうちターゲット領域を検出する。ここで、ターゲット領域は、関心領域(ROI、Region of Interest)(例えば、候補オブジェクト領域)であってもよい。ここで、第1イメージはオブジェクトの変形のある全てのイメージであってもよい。例えば、第1イメージは、魚眼イメージであってもよく、例えば、魚眼ステレオカメラで撮影した左側魚眼イメージ及び右側魚眼イメージの1つであってもよいが、これに限定されない。
ステップS110において、イメージ処理方法は、少なくとも1つのスケール(例えば、第1イメージの少なくとも1つのスケーリングされたイメージ)から第1イメージの特徴を抽出し、第1イメージの少なくとも1つの特徴マップを取得し、少なくとも1つの特徴マップに基づいて第1イメージのうちのターゲット領域を検出することができる。
一般的なイメージ処理方法は、第1イメージから特徴を抽出する前に第1イメージを完全に補正しなければならない。一方、実施形態に係るイメージ処理方法は、各スケールで第1イメージの特徴を直接抽出することができる。したがって、イメージ処理方法は、全体の第1イメージを補正する時間消耗を減らすだけでなく、従来のイメージ処理方法に比べて抽出された特徴の正確度も向上させ得る。
イメージ処理方法は、畳み込み神経網で第1イメージに対して畳み込み動作を行って各スケールの特徴マップを取得することができる。ここで、畳み込み神経網は、第1イメージ上の少なくとも1つの位置のうち各位置に対して、各位置に対応する畳み込みカーネル関数を用いて畳み込み動作を行ってもよい。以下、一実施形態に係る畳み込み神経網を「変形可能な畳み込み神経網(CNN、Convolutional Neural Network)」のように記載する。
前述したように、魚眼イメージのような第1イメージはオブジェクト歪みや変形を含む。一般的な畳み込み神経網(畳み込みカーネル関数は、常に固定されている)を使用するイメージ処理方法は、サンプリングの歪みが発生して特徴抽出が困難であるか、又は正確でないこともある。しかし、本開示の一実施形態に係る変形可能なCNNを使用するイメージ処理方法のCNNは、第1イメージ上の少なくとも1つの位置のうち各位置に対して、各位置に対応する畳み込みカーネル関数を用いて畳み込み動作を行うことができる。したがって、本開示のイメージ処理方法は、オブジェクトの変形のあるイメージで一般的なCNNを使用するとき発生するサンプリングの歪みを防止し、より正確に特徴を抽出することができるため、後続するステップでこのような特徴を用いてオブジェクト処理効果を向上させることができる。例えば、変形可能なCNNは、魚眼イメージの中心部分と周辺部分のイメージ解像度の変化に適応できることから、より正確に特徴を抽出することができ、魚眼イメージでオブジェクトの処理効果を向上させることができる。
図2は、一実施形態に係るイメージ処理方法で変形可能なCNNを用いてマルチスケールで第1イメージの特徴を抽出する概略的な過程を示す図である。
図2の例示において、第1イメージが魚眼イメージである場合、イメージ処理方法は、3つのスケールに対応する第1イメージの3つのスケーリングされたイメージから第1イメージの特徴を抽出することができる。ここで、スケールの個数は3つに限定されることなく、1以上の任意の正の整数であってもよい。また、第1イメージは魚眼イメージに限定されることなく、オブジェクトの変形が存在する任意のイメージであってもよい。
図2に示すように、イメージ処理方法は、3つのスケール(例えば、1/2スケール、1/4スケール、1/8スケール)それぞれで変形可能なCNN210,212,214をそれぞれ用いて魚眼イメージ特徴を抽出することができる。対応するように、魚眼イメージ220は、各スケールにより縮小されるが、例えば、第1イメージ220の大きさの1/2に縮小されてスケーリングされたイメージ222、第1イメージ220の大きさの1/4に縮小されてスケーリングされたイメージ224、及び第1イメージ220の大きさの1/8に縮小されてスケーリングされたイメージ226に調整されてもよい。
上述したように、変形可能なCNN210,212,214は、第1イメージ220上の少なくとも1つの位置のうち各位置に対して、各位置に対応する畳み込みカーネル関数を用いて畳み込み動作を行うことができる。即ち、第1イメージ220上の少なくとも1つの位置のうち、各位置(例えば、互いに異なる)は1つのそれ自体の畳み込みカーネル関数に対応する。即ち、各位置の畳み込みカーネル関数は常に固定されているものではなく、変わり得る。この位置はピクセルポイントになる。したがって、一実施形態によれば、イメージ処理方法は、畳み込み動作を行うとき、まず、第1イメージ220上の少なくとも1つの位置のうち各位置に対応する畳み込みカーネル関数のサンプリング位置を取得することができる。そして、イメージ処理方法は、各位置に対応する畳み込みカーネル関数のサンプリング位置に応じて畳み込み動作を行い、各スケールの特徴マップを取得することができる。
ここで、畳み込みカーネル関数のサンプリング位置は、第1イメージ220のイメージングモデルにより決定されてもよい。例えば、各スケールにおいて、第1イメージ220のイメージングモデルにより第1イメージ220上の少なくとも1つの位置のうち、各位置に対応する畳み込みカーネル関数のサンプリング位置を予め算出(例えば、決定)し、算出されたサンプリング位置を、例えば、ルックアップテーブル(LUT;Look Up Table)に格納することができる。LUTは予め格納されてもよく、各スケールで畳み込み動作を行うために使用され、各スケールで特徴マップを取得することができる。図2に示した様々な変形可能なCNN210,212,214から構成されたピラミッドの各スケールに対して、該当スケールの第1イメージ220上の少なくとも1つの位置のうち、各位置に対応する畳み込みカーネル関数のサンプリング位置が全て予め算出されて格納されているため、上述した第1イメージ220上の少なくとも1つの位置のうち、各位置に対応する畳み込みカーネル関数のサンプリング位置を取得することは、例えば、予め格納されたLCUから各位置に対応する畳み込みカーネル関数のサンプリング位置を取得することである。
図3は、一実施形態に係るイメージ処理方法で変形可能なCNN畳み込みカーネル関数のサンプリング位置を決定する図である。
図3を参照すると、変形可能なCNNの畳み込みカーネル関数のサンプリング位置を決定する方式を簡略に説明する。
一実施形態によれば、イメージ処理方法は、イメージングモデルにより3次元空間で各位置の畳み込みカーネル関数のサンプリング位置を決定することができる。そして、イメージ処理方法は、3次元空間における畳み込みカーネル関数のサンプリング位置及びイメージングモデルにより、第1イメージで各位置に対応する畳み込みカーネル関数のサンプリング位置を決定することができる。
図3に示す例示において、イメージ処理方法は、第1イメージを魚眼イメージに仮定するので、イメージングモデルは魚眼イメージのイメージングモデルであってもよい。以下で、魚眼イメージのイメージングモデルは、「魚眼カメラモデル」のように称してもよい。非制限的な例として、魚眼カメラモデルは、Kannala-Brandtモデルであってもよい。
図3に示すように、例えば、イメージ処理方法は、まず、魚眼イメージ上の各位置と魚眼カメラモデルの光学中心(図3に示す点Oc)を連結して1つの光線(図3においてOcとピクセルポイントAを連結している直線)を決定する。次に、イメージ処理方法は、魚眼カメラモデルのパラメータ(「魚眼カメラの内部パラメータ」に称する)により該当光線が光学中心を通過する入射光線が偏向して発生するかを決定することができる。例えば、魚眼カメラモデルがKannala-Brandtモデルである場合、入射光線は、下記の数式(1)の例により決定されることができる。
ここで、θdは、ピクセル位置と光学中心を連結する線と魚眼カメラモデルの光学軸(図3でOcZcが位置してい線)との間の角度であり、θは、入射光線と魚眼カメラの光学軸がなしている角度であり、k1~k4は多項式の係数である。
入射光線が決定されると、イメージ処理方法は、該当入射光線(図3に示す光線OcP)と魚眼カメラモデルの交差点(図3の点B)を決定することができる。最後に、イメージ処理方法は、該当の交差点を経由して魚眼カメラモデルの球面と接する3次元ローカル平面格子で3次元空間における畳み込みカーネル関数のサンプリング位置を選択することができる。例えば、イメージ処理方法は、該当3次元ローカルの平面格子で等間隔の均一なサンプリングでサンプリングポイントセットを選択することができる。図3に示すように、イメージ処理方法は、該当の交差点周辺に9個のサンプリングポイントを等間隔として選択する「3次元空間における畳み込みカーネル関数サンプリングポイント320」を選択することができる。
イメージ処理方法は、3次元空間で各位置の畳み込みカーネル関数のサンプリング位置が決定されると、魚眼カメラモデルによる光線投影を介して3次元空間における畳み込みカーネル関数のサンプリング位置を魚眼イメージ310にマッピングし、魚眼イメージ310上で魚眼イメージ上の各位置に対応する畳み込みカーネル関数のサンプリング位置を決定することができる。例えば、図3に示すように、イメージ処理方法は、Kannala-Brandtモデルに基づいて光線投影を介して3次元空間のうち9個のサンプリングポイント320を魚眼イメージ平面にそれぞれマッピングし、魚眼イメージでも対応するように9個のサンプリングポイントに該当する「魚眼イメージ平面の畳み込みカーネル関数のサンプリングポイント330」を取得することができる。このような9個のサンプリングポイント330は、行われる畳み込み動作に使用されるピクセルAに対応する畳み込みカーネル関数のサンプリング位置である。
上述したように、図3と結合して第1イメージ上の少なくとも1つの位置のうち、各位置に対応する畳み込みカーネル関数のサンプリング位置を決定する非制限的な例示的な方法について説明した。一実施形態によれば、各スケールで全て変形可能なCNNを用いて、各位置に対応する畳み込みカーネル関数のサンプリング位置に応じて畳み込み動作を行い、各スケールの特徴マップを取得することができる。
一実施形態において、少なくとも1つの特徴マップは複数の特徴マップであってもよい。この場合、一実施形態によれば、少なくとも1つの特徴マップに基づいて第1イメージからターゲット領域を検出することは、複数の特徴マップで隣接しているスケールの特徴マップを融合し、少なくとも1つの融合した特徴マップに基づいて第1イメージからターゲット領域を検出することを含む。例えば、特徴マップをターゲット領域提案ネットワークに入力し、第1イメージのうちのターゲット領域を検出することができる。ここで、ターゲット領域提案ネットワークは、予め学習された畳み込み神経網であってもよいが、これに限定されることはない。ターゲット領域提案ネットワークは、入力した特徴マップに対して第1イメージのうちのターゲット領域を検出できるように予め学習され得る。
図4は、一実施形態に係るイメージ処理方法でマルチスケール特徴を融合する例を示す図である。
図4を参照すると、イメージ処理方法は、ピラミッド状の変形可能なCNNによって抽出されたマルチスケール特徴に対して、異なるスケール間の特徴融合をさらに行うことができる。一実施形態において、イメージ処理方法は、図4に示すように、低解像度特徴マップをアップサンプリングした後、隣接するスケールの上位レイヤ特徴マップと融合(例えば、ピクセル単位で加算)することで、融合された特徴マップが低解像度特徴マップのうちの意味的情報を含むだけでなく、高解像度特徴マップのうちのイメージ細部情報も含み得る。
例えば、スケーリングされたイメージ226に基づいて特徴マップ410が生成され、スケーリングされたイメージ224に基づいて上位レイヤ特徴マップが生成され、イメージ処理方法は、特徴マップ410をアップサンプリングし、アップサンプリングされた特徴マップを上位階層特徴マップと融合し、融合された特徴マップとして特徴マップ412を生成することができる。
したがって、少なくとも1つの融合した特徴マップに基づいて第1イメージのうちのターゲット領域を検出することで、一実施形態のイメージ処理方法はターゲット領域をより正確に検出することができる。
特徴を融合した後、低解像度特徴は、例えば、オブジェクト領域の提案、ポジショニング及び/又は分類に使われて算出コストを節約することができる。そして、高解像度特徴は、オブジェクトの細部属性(例えば、キーポイント、オブジェクトマスクマップ及び/又は6DoF(自由度)姿勢)を推定する正確性を保障することができる。
例えば、ターゲット領域提案ネットワーク420を介して第1イメージ220のうちのターゲット領域を検出するために、イメージ処理方法は、相対的に低い解像度の特徴マップ(例えば、図4に示す特徴マップ(1)410及び特徴マップ(2)412を使用でき、相対的に高い解像度を有する特徴マップ(例えば、図4に示す特徴マップ413(特徴マップ3))を使用しない。これによって、算出コストをさらに節約することができる。融合された特徴マップで相対的に高い解像度の特徴マップ(例えば、図4に示す特徴マップ(3)413)は、後続する検出されたターゲット領域に対する補正(「変形を防止するターゲット領域をプーリング430」)に使用されてもよい。ここで、ターゲット領域がROIである場合、「変形を防止するターゲット領域をプーリング」は、「変形を防止するROIプーリング」に称してもよい。変形を防止するターゲット領域をプーリング430は、オブジェクト姿勢推定などに使用される(440)(例えば、以下で説明する特徴抽出及びオブジェクトキーポイント予測、オブジェクトマスクマップ取得及びオブジェクト姿勢推定など)。
イメージ処理方法は、ステップS110で第1イメージのうちのターゲット領域が検出されると、ステップS120において、検出されたターゲット領域を補正する。一実施形態において、まず、イメージ処理方法は、第1イメージの特徴マップから検出されたターゲット領域に対応する第1特徴領域を決定して第1ターゲット領域特徴マップに使用することができる。次に、イメージ処理方法は、第1ターゲット領域特徴マップを空間的に変換すると、変換された第1ターゲット領域特徴マップを生成することができる。第1ターゲット領域特徴マップを空間的に変換すれば、ターゲット領域に対する補正が実現され得る。例えば、前述したように、マルチスケールで複数の特徴マップを取得して特徴マップを融合すると、融合された特徴マップのうち相対的に高解像度の特徴マップ(例えば、図4に示す例示の特徴マップ413のように、融合された特徴マップのうち最も高い解像度の特徴マップ、即ち、融合された最大スケールの特徴マップ)から検出されたターゲット領域に対応する第1特徴領域を決定することができる。図4に示すように、特徴マップ(3)413から検出されたターゲット領域に対応する第1特徴領域を決定して第1ターゲット領域特徴マップとして使用することができる。イメージ処理方法は、複数のターゲット領域が検出されると、それぞれのターゲット領域に対応する第1ターゲット領域特徴マップを決定する。第1ターゲット領域特徴マップが決定されると、イメージ処理方法は、それぞれの第1ターゲット領域特徴マップに対して空間的に変換し、それぞれのターゲット領域を補正することができる。
一実施形態によれば、イメージ処理方法は、第1イメージのイメージングモデル及び検出されたターゲット領域により、ターゲット領域に対応する仮想カメラを生成し、第1ターゲット領域特徴マップを仮想カメラに空間的に変換し、変換された第1ターゲット領域特徴マップを生成することができる。本開示において、イメージ処理方法は、全体イメージ又は全てのターゲット領域に対して同じ仮想カメラを使用せず、それぞれ検出されたターゲット領域に対して対応する仮想カメラを生成することで、補正時にオブジェクトの形状が増加することを防止することができる。例えば、このような本開示のイメージ処理方法は、魚眼レンズの視野角の端でよく発生する形状の垂れを防止することができる。また、変形を防止するターゲット領域をプーリングした場合、第1ターゲット領域特徴マップは既存のカメラと同じ幾何学的形態に変換され、後続オブジェクト処理モデルの訓練や予測を行うのに特徴マップの使用が有利なこともある。
一実施形態によれば、仮想カメラの光学軸に対応する光線は、イメージングモデルを経由して屈折され、検出されたターゲット領域の中心を通過する。また、仮想カメラの光学軸は、イメージングモデルの光学中心を示す。
図5は、一実施形態に係るイメージ処理方法で変形を防止する関心領域のプーリングの例を示す図である。
図5の例示において、第1イメージが魚眼イメージである場合、イメージ処理方法で第1イメージのイメージングモデルは魚眼カメラモデルであってもよい。図5に示すように、ターゲット領域に対して生成した仮想カメラの光学軸は点Ocと点Fを連結して決定された直線になる。該当直線に対応する光線は、魚眼カメラモデル(図5に示す球状)を通過して屈折された後、ターゲット領域のピクセル中心を通過する(図5に示す点E)。また、ターゲット領域仮想カメラのイメージ平面は、魚眼カメラモデルの球面に接し、イメージのy軸はZc-Oc-Pによって定義された平面にある。
一実施形態において、イメージ処理方法は仮想カメラを生成するとき、まず、ターゲット領域のピクセル中心である点Eと魚眼カメラモデルの光学中心Ocを連結して直線を決定することができる。次に、イメージ処理方法は、魚眼カメラモデルのパラメータにより該当直線が対応する光線が光学中心を通過した入射光線のうち、どのような光線の偏向によるものであるかを決定する。例えば、魚眼カメラモデルがKannala-Brandtモデルである場合、図3を参照して言及した数式(1)にて入射光線を決定することができる。したがって、その重複する説明は省略する。該当の入射光線に対応する直線が仮想カメラの光学軸である。イメージ処理方法は、光学軸が決定されると、光学軸に垂直である平面を仮想カメラの平面として決定することができる。ここで、仮想カメラの平面は、魚眼カメラモデルの球面に接する平面であってもよいが、これに限定されることはない。図5に示すように、仮想カメラの焦点距離Fは、図5に示す光学中心Ocと仮想カメラ平面の中心Fとの間の距離である。仮想カメラの平面ターゲット領域の仮想カメラの焦点距離Fはターゲット領域の大きさに応じて動的に算出され、変形を防止するためのターゲット領域特徴イメージのイメージ高さHとイメージ幅Wが固定された大きさを有することができる。
イメージ処理方法は、それぞれのターゲット領域に対して対応する仮想カメラを生成した後、各ターゲット領域の第1ターゲット領域特徴マップを生成された仮想カメラで空間的に変形させ、それぞれの変換された第1ターゲット領域特徴マップを生成することができる。例えば、イメージ処理方法は、イメージングモデルにより第1ターゲット領域特徴マップのうちの各特徴ポイントを対応する仮想カメラ平面にマッピングし、変換された第1ターゲット領域特徴マップを取得することができる。例えば、各特徴ポイントをイメージングモデルの光学中心に連結して1つの光線を決定し、イメージングモデルのパラメータにより該当光線に対応する入射光線及び仮想カメラ平面の交差点を決定し、このような交差点により変換された第1ターゲット領域特徴マップを取得することができる。
上述したように、イメージ処理方法は、第1ターゲット領域特徴マップを変換することによりターゲット領域の補正を実現することができる。
また、イメージ処理方法はステップS130において、補正されたターゲット領域に基づいて、ターゲット領域に対応するオブジェクトを処理する。例えば、変換された第1ターゲット領域特徴マップに基づいて、ターゲット領域に対応するオブジェクトを処理することができる。例えば、イメージ処理方法は、変換された第1ターゲット領域特徴マップに基づいて、ターゲット領域に対応するオブジェクトの第1属性情報を取得し、第1属性情報によりターゲット領域に対応するオブジェクトを処理する。例えば、イメージ処理方法は、変換された第1ターゲット領域特徴マップに基づいて、少なくとも1つの畳み込み神経網を用いてターゲット領域に対応するオブジェクトの第1属性情報を取得する。例えば、第1属性情報は、オブジェクトカテゴリー情報、マスク情報、キーポイント情報、及び/又は姿勢情報のうち少なくとも1つを含んでもよいが、これに限定されない。対応するように、イメージ処理方法は、互いに異なる属性情報により、ターゲット領域に対応するオブジェクトに対して互いに異なる処理を行ってもよい。例えば、イメージ処理方法は、オブジェクトに対して、オブジェクト認識、オブジェクト分割、及び/又はオブジェクト姿勢推定のうち少なくとも1つを行ってもよい。イメージ処理方法は、変換された第1ターゲット領域特徴マップに基づいて少なくとも1つの畳み込み神経網を用いて姿勢情報を取得できるが、オブジェクトのキーポイント情報を取得した後、n点透視(PnP、Perspective-n-Point)アルゴリズムなどを用いてオブジェクトの姿勢情報を決定してもよい。
第1イメージにオブジェクト変形が存在する場合、一実施形態に係るイメージ処理方法は、第1イメージ以外の他のイメージを用いてオブジェクトを処理することで、オブジェクトを処理した結果の正確度を更に向上させ得る。本開示の一実施形態によれば、イメージ処理方法は、第1イメージに関連する第2イメージを取得し、第2イメージに基づいてオブジェクトの第2属性情報を取得することをさらに含んでもよい。この場合、第1属性情報によりターゲット領域に対応するオブジェクトを処理することは、第1属性情報及び第2属性情報によりターゲット領域に対応するオブジェクトを処理することを含んでもよい。このような方式でオブジェクト処理効果をさらに向上させ得る。ここで、第2イメージも変形されたイメージであってもよい。上述したように、第1イメージは、左側魚眼イメージ及び右側魚眼イメージのいずれか1つであってもよく、ここで、第2イメージは、左側魚眼イメージ及び右側魚眼イメージのうち他の1つであってもよい。方法により、左側魚眼イメージ及び右側魚眼イメージの全てに基づいてオブジェクトをより正確に処理でき、例えば、オブジェクトの姿勢をより正確に推定することができる。
図6は、一実施形態に係るイメージ処理方法でオブジェクトの姿勢を推定する概略的な過程を示す図である。
例えば、本開示の一実施形態によれば、例えば、オブジェクトの姿勢推定をより正確に行うために、第1属性情報はオブジェクトの第1キーポイント情報(図面のうち、オブジェクトの2次元キーポイントに対応する(左側図))及び初期姿勢情報(図面の初期オブジェクト姿勢に対応する)を含んでもよい。
そして、第2属性情報は、オブジェクトの第2キーポイント情報(図面のうち、オブジェクトの2次元キーポイントに対応する(右側図))を含んでもよい。第1属性情報及び第2属性情報によりターゲット領域に対応するオブジェクトを処理することは、第1キーポイント情報、初期姿勢情報、及び第2キーポイント情報に基づいてオブジェクトの最終姿勢情報を推定することを含む(図面の立体6Dof姿勢最適化に対応する)。例えば、イメージ処理方法は、初期姿勢情報、第1イメージを生成する第1カメラのパラメータ、及び第2イメージを生成する第2カメラのパラメータに基づいて、第2イメージでオブジェクトに対応するターゲット領域を決定することができる。
そして、イメージ処理方法は、第2イメージ上のオブジェクトに対応するターゲット領域に基づいてオブジェクトの第2キーポイント情報を取得する動作を行って、オブジェクトの第2キーポイント情報を取得することができる。例えば、図6に示すように、第1イメージ及び第2イメージがそれぞれの左側魚眼イメージ及び右側魚眼イメージである場合、イメージ処理方法は、左側魚眼イメージ610に対してイメージ特徴抽出及びオブジェクト属性情報予測を行い612、オブジェクトの2次元キーポイント614と初期オブジェクト姿勢616を取得する。その後、イメージ処理方法は、初期オブジェクト姿勢616とステレオ魚眼カメラパラメータにより右側魚眼イメージでオブジェクトに対応するターゲット領域を決定624する(図6において、「オブジェクト領域投影624」という)。次に、イメージ処理方法は、右側魚眼イメージ620上の対応するターゲット領域に基づいてオブジェクトの2次元キーポイント632を取得することができる。次に、イメージ処理方法は、初期オブジェクト姿勢616、左側魚眼イメージにより取得した2次元キーポイント614、及び右側魚眼イメージにより取得した2次元キーポイント632に基づいて、オブジェクトの最終姿勢情報(例えば、初期姿勢情報に対して最適化)を推定640する。例えば、ステップ640において、イメージ処理方法は、オブジェクトの6Dof姿勢を推定することができる。
オブジェクト姿勢推定作業の目標は、オブジェクト座標系からカメラ座標系への回転及び並進を推定することにある。したがって、姿勢情報は、カメラ座標系の選択と密接に関わっている。オブジェクト姿勢推定を行うとき、ターゲット領域に対して生成された仮想カメラで生成した変換された第1ターゲット領域特徴マップを使用する場合、取得した初期姿勢情報は依然として仮想カメラ座標系の情報であるため、これを実際のカメラ(例えば、魚眼カメラ座標系)で再び切り替えて推定された姿勢情報を出力しなければならない。又は、後続ステップで、より正確な姿勢推定のために、初期姿勢情報を上述した第2キーポイント情報と結合して使用する場合にも、初期姿勢情報を実際のカメラ座標系に切り替える必要がある。
したがって、初期姿勢情報、第1イメージを生成する第1カメラのパラメータ及び第2イメージを生成する第2カメラのパラメータに基づいて第2イメージでオブジェクトに対応するターゲット領域を決定することは、初期姿勢情報及び第1カメラパラメータに基づいて第1カメラの座標系でオブジェクトの初期姿勢情報を決定し、第1カメラの座標系におけるオブジェクトの初期姿勢情報及び第2カメラのパラメータに基づいて第2カメラの座標系でオブジェクトの初期姿勢情報を決定し、第2カメラの座標系におけるオブジェクトの初期姿勢情報により第2イメージでオブジェクトに対応するターゲット領域を決定することを含む。即ち、イメージ処理方法は、仮想カメラ座標系における初期姿勢情報を実際のカメラ座標系における初期姿勢情報に切り替えた後、実際のカメラ座標系における初期姿勢情報を用いて第2イメージでオブジェクトに対応するターゲット領域を決定することができる。
例えば、第1イメージ及び第2イメージがそれぞれ左側魚眼イメージ及び右側魚眼イメージである場合、イメージ処理方法は、左側魚眼イメージに基づいて推定したオブジェクトの初期姿勢を右側魚眼イメージに投影し、右側魚眼イメージで対応する候補オブジェクト領域を決定することができる。例えば、イメージ処理方法は、ターゲット領域仮想カメラのパラメータ行列をKv、仮想カメラのカメラ座標系をOv-XvYvZvに仮定することができる。イメージ処理方法は、魚眼イメージ遠近補正イメージのカメラ内部パラメータをKcといい、左側魚眼カメラのカメラ座標系をOc-XcYcZcという。ターゲット領域にある仮想カメラの座標系で推定した姿勢情報は、回転行列Rvと並進ベクトルTvに表現され、これについて下記の数式(2)の例を介して、Oc-XcYcZc座標系における回転行列Rcと並進ベクトルTcに切り替えられる。
そして、イメージ処理方法は、決定された左右2つの魚眼カメラの外部パラメータを介して、左側魚眼カメラ座標系と右側魚眼カメラ座標系との間の回転及び並進変換を取得し、これから左側魚眼カメラの座標系におけるオブジェクトを右側魚眼カメラ座標系に回転及び並進変換することができる。次に、イメージ処理方法は、右側魚眼カメラの内部パラメータ(魚眼イメージのイメージングモデルのパラメータ)を用いて、右側魚眼イメージのイメージ平面にオブジェクトを投影し、右側魚眼イメージでオブジェクトに対応するターゲット領域を決定することができる。
上述したように、イメージ処理方法は、第2イメージでオブジェクトに対応するターゲット領域が決定されると、第2イメージ上のオブジェクトに対応するターゲット領域に基づいて、オブジェクトの第2キーポイント情報を取得することができる。例えば、イメージ処理方法は、第2イメージ上のオブジェクトに対応するターゲット領域を補正した後、補正されたターゲット領域に基づいてオブジェクトの第2キーポイント情報を取得してもよい。選択的に、イメージ処理方法は、第1イメージ上のターゲット領域を補正する同じ方式(即ち、上述した変形を防止するターゲット領域のプーリング)で、第2イメージ上の対応するターゲット領域を補正することができる。
図6を参照すると、イメージ処理方法は、右側魚眼イメージ620で第2イメージの特徴マップ622を取得した後、第2イメージ上のターゲット領域に対応する第2特徴領域を、第2ターゲット領域特徴マップとして第2イメージの特徴マップにて決定することができる。次に、第2ターゲット領域特徴マップを空間的に変換し、変換された第2ターゲット領域特徴マップを生成626する。
最後に、イメージ処理方法は、変換された第2ターゲット領域特徴マップに基づいて、オブジェクトの2次元キーポイント情報を取得632する。
例えば、イメージ処理方法は、第1イメージの特徴マップを取得する同じ方式で第2イメージの特徴マップを取得することができる。即ち、イメージ処理方法は、変形可能なCNNを用いて第2イメージの特徴マップを取得できる。その重複する説明は省略する。また、選択的に、算出量を減らして2次元キーポイント情報抽出の正確性を保障するために、第2イメージの特徴マップは、単に第2イメージのよりも高い解像度の特徴マップであってもよい。例えば、図6に示すように、イメージ処理方法は算出コストを減らし、2次元キーポイント特徴を正確に抽出するために、右側魚眼イメージから高解像度特徴のみを抽出して高解像度特徴マップ622を取得することができる。
また、イメージ処理方法は第1ターゲット領域特徴マップを空間的に変換し、変換された第1ターゲット領域特徴マップを生成する同じ方式で、第2ターゲット領域特徴マップを空間的に変換し、変換された第2ターゲット領域特徴マップを生成することができる。その重複する説明は省略する。
同様に、イメージ処理方法は、変換された第2ターゲット領域特徴マップを取得626した後、図6に示すように、変換された第2ターゲット領域特徴マップに基づいて、少なくとも1つの畳み込み神経網628,630を用いてオブジェクトの2次元キーポイント情報632を取得することができる。
第2キーポイント情報が取得されると、イメージ処理方法は、初期姿勢情報616、第1キーポイント情報614、及び2次元キーポイント情報632に基づいてオブジェクトの最終姿勢情報640を推定することができる。例えば、イメージ処理方法は、2つのイメージ(第1イメージと第2イメージ)でオブジェクトの2次元キーポイント再投影誤差の合計を最小化することによって、オブジェクトの最終姿勢情報を決定することができる。即ち、ステップ640は、初期姿勢を最適化することにある。例えば、誤差を最小化する最適化は、Lev-Marアルゴリズムのような非線型最適化アルゴリズムを使用してもよい。例えば、第1イメージ及び第2イメージが左側魚眼イメージ及び右側魚眼イメージである場合、最終姿勢を推定することは、下記の数式(3)の例のように表現される。
ここで、初期姿勢情報を示す回転行列Rと並進ベクトルTが左側魚眼座標系に定義されており、左側魚眼カメラのターゲット領域の仮想カメラ座標系から左側魚眼カメラ座標系への変換を[Rvl-fl,Tvl-fl]に仮定すると、左側魚眼カメラの座標系における初期姿勢情報の回転行列Rv (l)及び変換Tv (l)は下記の数式(4)の例のように表現されてもよい。
ここで、右側魚眼カメラのターゲット領域の仮想カメラ座標系から右側魚眼カメラ座標系への変換は[Rvr-fr,Tvr-fr]であり、右側魚眼カメラ座標系における初期姿勢情報の回転行列Rv (r)及び変換ベクトルTv (r)は下記の数式(5)のように表現されてもよい。
ここで、[R(r),Tv (r)]は、初期姿勢情報と右側魚眼カメラとの間の回転及び並進パラメータに基づいて取得された初期姿勢情報を、右側魚眼座標系において示したものである。Piは、オブジェクトの3次元モデルに定義されたキーポイントであり、i=1、...、Nである。ここで、Nはオブジェクトのキーポイント数である。pi (lv)は左側魚眼イメージのターゲット領域仮想カメラから抽出したi番目のキーポイント位置であり、pi (rv)は右側魚眼イメージから抽出したi番目のキーポイント位置である。また、Kv (l)及びKv (r)はそれぞれ左側魚眼カメラと右側魚眼カメラの行列である。
上述したように、図6を参照して本開示の一実施形態に係る具体的なイメージ処理方法、即ち、オブジェクトの姿勢を推定する方法について説明した。図6に示されたオブジェクト姿勢推定方法によりオブジェクトの姿勢をさらに正確に推定することができる。
上記のように、図1~図6に結合して本開示の一実施形態に係るイメージ処理方法及びその例示について説明した。イメージ処理方法は、イメージ処理速度とオブジェクト処理効果を向上させ得る。
上述したイメージ処理方法に対するより明確な理解を容易にするために、図7を参照して上述したイメージ処理方法について簡略に説明する。
図7は、一実施形態に係るイメージ処理方法でイメージを処理する過程を概略的に示す図である。図8は、一実施形態に係るイメージ処理方法でイメージを処理する過程を概略的に示す図である。図8は、図7に示す例をより具体化した図である。
図7の例示において、第1イメージは左側魚眼イメージ710であり、第2イメージは右側魚眼イメージ750である。イメージ処理方法は、左側魚眼イメージ710に基づいて先に説明した変形可能なCNNから構成されたピラミッド(図面のうち変形可能ピラミッドネットワーク720に対応する)を用いて複数の特徴マップを取得することができる。例えば、図8に示すように、左側魚眼イメージ710は、各スケールに応じて、第1イメージ220の大きさの1/2の大きさに縮小されたスケーリングされたイメージ811、第1イメージ220の大きさの1/4の大きさに縮小されたスケーリングされたイメージ812、及び第1イメージ220の大きさの1/8の大きさに縮小されたスケーリングされたイメージ813に縮小されてもよい。
イメージ処理方法は、上述した変形可能なCNNに基づいて複数のスケールされたイメージ811,812,813から特徴を抽出融合して3つの特徴マップ821,822,823を生成することができる。
イメージ処理方法は、3つの特徴マップ821,822,823のうち2つの低解像度特徴マップ821,822に基づいてターゲット領域提案ネットワーク741(例えば、畳み込み神経網など)を用いて、左側魚眼イメージ710のうちのターゲット領域を検出することができる。
その後、イメージ処理方法は、検出されたオブジェクト領域を補正(図7において「変形を防止するターゲット領域のプーリング(pooling)742」という)することができる。例えば、融合した高解像度特徴マップ823から検出されたターゲット領域に対応するターゲット領域特徴マップが決定されると、魚眼レンズのパラメータ830(即ち、魚眼イメージのイメージングモデルのパラメータ)により決定されたターゲット領域特徴マップを空間的に変換し、変換されたターゲット領域特徴マップを生成することができる。その次に、イメージ処理方法は、少なくとも1つのCNN743,744を用いて、オブジェクトカテゴリー840、オブジェクトマスクマップ746、2次元キーポイント(左側図)747、初期化姿勢748のようなオブジェクトの属性情報を取得することができる。
イメージ処理方法は、推定されたオブジェクトの姿勢をより正確にするために、図7の例示において、右側魚眼イメージ750に基づいてキーポイント情報(図7に示す「2次元キーポイント(右側図)774」)を取得した後、左側魚眼イメージ710により取得した初期化姿勢748及び2次元キーポイント(左側図)747と結合し、6Dof姿勢を推定780することができる。例えば、イメージ処理方法は、図7に示すように、変形可能なCNN760を用いて右側魚眼イメージの特徴マップを取得してもよい。例えば、イメージ処理方法は、図8に示すように、変形可能なCNNを用いて右側魚眼イメージの高解像度特徴マップ860をしてもよい。そして、イメージ処理方法は、初期姿勢情報748とステレオ魚眼レンズの内部及び外部パラメータ830に基づいてオブジェクト領域の投影を実行850し、右側魚眼イメージ750上のオブジェクトに対応するターゲット領域を決定することができる。そして、イメージ処理方法は、変形を防止するターゲット領域のプーリングを用いて該当ターゲット領域を補正することができる。例えば、イメージ処理方法は、右側魚眼イメージ750の高解像度特徴マップ860で該当ターゲット領域に対応するターゲット領域特徴マップを決定し、これを空間的に変形し、変換されたターゲット領域特徴マップを生成771する。変換されたターゲット領域特徴マップは、少なくとも1つのCNN772,773に入力され、最終的に2次元キーポイント(右側図)774を取得することができる。
最後に、イメージ処理方法は、初期化姿勢748、左側魚眼イメージで取得した2次元キーポイントの左側図747、及び右側魚眼イメージから取得した2次元キーポイントの右側図774に基づいてオブジェクト姿勢を最適化780できる。
図7及び図8に示す実施形態において、イメージ処理方法は、左側魚眼イメージ710に対してピラミッド720を構成したが、ここで、低解像度特徴マップ821,822は、ターゲット領域提案ネットワーク741(即ち、関心領域予測)に使用され、高解像度特徴マップ823は、2次元キーポイント747の正確な抽出に使用される。イメージ処理方法は、左側魚眼イメージ710で予めターゲット領域を予測するので、右側魚眼イメージ750に対して高解像度の特徴のみを算出する。このように、イメージ処理方法は算出量を効率よく減らし、同時に、左側魚眼イメージ710により取得した2次元キーポイント情報747と結合して姿勢を推定することから、姿勢推定がより正確になる。キーポイント特徴は、オブジェクト6DoF姿勢を決定するために効果的である。図7の例示では、左側及び右側魚眼イメージからキーポイントを抽出し、キーポイント再投影誤差を最小化して姿勢推定を最適化する。
図7及び図8の実施形態によれば、イメージ処理方法は、ステレオ魚眼イメージを用いて3次元オブジェクト分割及び姿勢推定を迅速に実現することができる。当該の技術は、拡張現実などのように、環境で3次元オブジェクトの姿勢を認識して相互作用しなければならない作業シナリオに使用され得る。例えば、拡張現実技術は、ユーザの前の実際の場面に仮想コンテンツを追加してユーザに実感できる情報経験を提供することができる。3次元空間で高品質の仮想現実融合効果をユーザに提供するために、拡張現実システムは、周辺事物の3次元状態に対して、高い精密度のリアルタイム処理及び理解能力を備えなければならない。一方、自律走行のようなシナリオで、環境のうち車両のような物体に対する分割及び姿勢推定も必要である。
図9は、一実施形態に係るイメージ処理方法が適用されるシナリオの例を示す図である。
図9に示すように、ユーザがステレオ魚眼カメラが装着された拡張現実メガネ910を着用した状態で、一実施形態に係るイメージ処理方法は、ステレオ魚眼イメージ(左側魚眼イメージ及び右側魚眼イメージ)に基づいてステレオ魚眼イメージのうち実際のオブジェクト(例えば、テーブル)の3次元姿勢を推定することができる。拡張現実メガネ910は、オブジェクトの3次元姿勢が推定されると、実際のオブジェクトの3次元姿勢により仮想の3次元グラフィックコンテンツ(例えば、エンジン)を実際のオブジェクトの表面に重複表示920することによって、ユーザの拡張現実経験を向上させることができる。
上記の説明において、図1に示すイメージ処理方法を説明することにおいて、変形可能なCNNを用いて第1イメージの特徴を抽出して第1イメージの特徴マップを取得し、取得した特徴マップに基づいて第1イメージのうちのターゲット領域を検出し、ターゲット領域を補正した後、補正されたターゲット領域に基づいてオブジェクトを処理することについて説明した。しかし、イメージ処理方法は、変形可能なCNNを用いてオブジェクトの変形が存在するオブジェクトの特徴を抽出して特徴マップを取得した後、取得した特徴マップに基づいてオブジェクトを直接処理してもよい。即ち、イメージ処理方法は、先に説明した変形可能なCNNを単独で用いてオブジェクト処理を行うが、それから従来の技術でオブジェクト変形のある全体イメージを補正する時間消耗を防止し、変形可能なCNNを使用することで、一般的なCNNでオブジェクト変形のあるイメージを抽出するときに生じるサンプリングの歪みを防止し、イメージ特徴をより正確に抽出して後続のオブジェクト処理効果を改善することができる。
したがって、本開示の他の実施形態によれば、図10に示したイメージ処理方法が提供されてもよい。
図10は、他の実施形態に係るイメージ処理方法のフローチャートである。
以下で説明するステップS1010及びステップS1020は順次に行われるが、必ず順次に行われなくてもよい。例えば、ステップS1010及びステップS1020は互いに異なる順に行われてもよく、ステップS1010及びステップS1020のうち少なくとも2ステップは並列又は同時に行われてもよい。また、図示された例示の意図及び範囲を超過しないながらも、ステップS1010及びステップS1020のうち1つ以上は省略されてもよい。図10を参照して後述するステップS1010及びステップS1020は次の通りである。図10は、本開示で説明された電子装置(例えば、図11に示すイメージ処理装置1100、図12に示すイメージ処理装置1200及び/又は図13に示す電子装置1300)の1つ以上の構成要素によって行われてもよい。
図10を参照すると、イメージ処理方法は、ステップS1010において、畳み込み神経網を用いて第1イメージに対して畳み込み動作を行い、第1イメージの特徴マップを取得する。ここで、畳み込み神経網は、第1イメージ上の少なくとも1つの位置のうち各位置に対して、各位置に対応する畳み込みカーネル関数を用いて畳み込み動作を行ってもよい。例えば、第1イメージは、オブジェクトの変形が存在するイメージであってもよい。
例えば、ステップS1010において、イメージ処理方法は、第1イメージ上の少なくとも1つの位置のうち、各位置に対応する畳み込みカーネル関数のサンプリング位置を取得することができる。ここで、畳み込みカーネル関数のサンプリング位置は、第1イメージのイメージングモデルにより決定されてもよい。次に、イメージ処理方法は、各位置に対応する畳み込みカーネル関数のサンプリング位置に応じて、畳み込み動作を行って特徴マップを取得することができる。例えば、畳み込みカーネル関数のサンプリング位置はイメージングモデルにより、3次元空間で各位置の畳み込みカーネル関数のサンプリング位置を決定し、3次元空間における畳み込みカーネル関数のサンプリング位置及びイメージングモデルにより、第1イメージで各位置に対応する畳み込みカーネル関数のサンプリング位置を決定する方式を介して決定され得る。変形可能なCNNが行う動作については、上記の説明で詳しく説明したので、その重複する説明は省略する。
イメージ処理方法は、ステップS1020において、特徴マップに基づいて第1イメージのうちのオブジェクトを処理する。上述したように、イメージ処理方法は、特徴マップを取得した後、特徴マップに基づいて第1イメージのターゲット領域を検出し、検出されたターゲット領域を補正し、補正されたターゲット領域に基づいてターゲット領域に対応するオブジェクトを処理することができる。動作の詳しい内容は、上記の図1に示すイメージ処理方法で説明されるので、その重複する説明は省略する。
図10に示したイメージ処理方法は、全体イメージを補正する時間消耗を減らし、一般的なCNNでイメージを抽出するとき生じるサンプリングの歪みを避けることができるため、イメージをより正確に抽出し、後続するイメージ処理効果を改善することができる。
図11は、一実施形態に係るイメージ処理装置のブロック図である。
図11を参照すると、イメージ処理装置1100は、検出部1101、補正部1102、及びイメージ処理部1103を含む。例えば、検出部1101は、第1イメージの特徴マップを取得し、特徴マップに基づいて第1イメージのうちのターゲット領域を検出する。補正部1102は、検出されたターゲット領域を補正する。イメージ処理部1103は、補正されたターゲット領域に基づいてターゲット領域に対応するオブジェクトを処理することができる。
図1に示されたイメージ処理方法は、図11に示されたイメージ処理装置1100によって実行され、検出部1101でステップS110を行い、補正部1102でステップS120を行い、イメージ処理部1103でステップS130を行ってもよい。図11に示す検出部1101、補正部1102、及びイメージ処理部1103が行う動作に関する任意の細部事項は、図1に示す説明を参照できるため、その重複する説明は省略する。
図12は、他の実施形態に係るイメージ処理装置のブロック図である。
図12を参照すると、イメージ処理装置1200は、取得部1201及びイメージ処理部1202を含む。
具体的に、取得部1201は、畳み込み神経網を用いて第1イメージに対して畳み込み動作を行い、第1イメージの特徴マップを取得することができる。ここで、畳み込み神経網は、第1イメージ上の少なくとも1つの位置のうち各位置に対して、各位置に対応する畳み込みカーネル関数を用いて畳み込み動作を行ってもよい。
イメージ処理部1202は、特徴マップに基づいて第1イメージのうちのオブジェクトを処理することができる。
図10に示すイメージ処理方法は、図12に示すイメージ処理装置1200によって行われてもよい。取得部1201はステップS1010を実行し、イメージ処理部1202はステップS1020を行う。
図12の取得部1201及びイメージ処理部1202が行う動作に関する任意の詳細は、図10の説明を参照できるため、その重複する説明は省略する
また、イメージ処理装置1100及びイメージ処理装置1200で対応する処理をそれぞれ行う構成に区分して説明したが、イメージ処理装置1100、1200が特定構成に分割されていないか、構成間に明確な境界がない場合にも各構成において処理を実行することは自明である。また、イメージ処理装置1100及びイメージ処理装置1200は、他の構成、例えば、格納部などをさらに含んでもよい。
また、イメージ処理装置1100及びイメージ処理装置1200で対応する処理をそれぞれ行う構成に区分して説明したが、イメージ処理装置1100、1200が特定構成に分割されていないか、構成間に明確な境界がない場合にも各構成において処理を実行することは自明である。また、イメージ処理装置1100及びイメージ処理装置1200は、他の構成、例えば、格納部などをさらに含んでもよい。
図13は、一実施形態に係る電子機器のブロック図である。
図13を参照すると、電子機器1300は、メモリ1301(例えば、少なくとも1つのメモリ)及びプロセッサ1302(例えば、少なくとも1つのプロセッサ)を含んでもよい。メモリ1301は、コンピュータで実行可能な命令語を格納し、プロセッサ1302によってコンピュータで実行可能な命令語が行われることにより、プロセッサ1302が本開示の実施形態のイメージ処理方法を実行することを可能にする。上述したイメージ処理方法は、人工知能モデルを用いて行われてもよい。
メモリ1301は、プロセッサ1302によって行われるとき、プロセッサ1302が参照と共に本開示の図1~図12に説明された動作及び方法のうち任意の1つ、任意の組み合わせ、又は、全てを行うように構成している命令語を格納する非一時的なコンピュータで読み出し可能な格納媒体やこれを含んでもよい。プロセッサ1302は、図1~図12を参照して本開示に説明された動作及び方法のうち、任意の1つ、任意の組み合わせ、又は、全てを行ってもよい。
上述した様々な構成のうち少なくとも1つは、人工知能(AI,Artificial Intelligence)モデルを介して実現されてもよい。AIに関する機能は、不揮発性メモリ、揮発性メモリ及びプロセッサを介して行われてもよい。
少なくとも1つのプロセッサ1302は、中央処理ユニット(CPU)、アプリケーションプロセッサ(AP)などのような汎用プロセッサや、グラフィック処理ユニット(GPU)、視覚処理ユニット(VPU)及び/又は神経網処理ユニット(NPU)のようなAI専用プロセッサのような純粋グラフィック処理ユニットであってもよい。
少なくとも1つのプロセッサ1302は、不揮発性メモリ及び揮発性メモリに格納されている予め定義された動作規則又は人工知能(AI)モデルにより入力データの処理を制御することができる。少なくとも1つのプロセッサ1302は、訓練又は学習を介して予め定められる動作規則又は人工知能モデルを提供する。ここで、学習を通した提供は、学習アルゴリズムを様々な学習データに適用して予め定義された動作規則又は所望する特性を有するAIモデルを取得することを意味する。該当学習は、実施形態に係るAIが行われる装置そのもので行われてもよく、及び/又は別途のサーバ/システムを介して実現されてもよい。
学習アルゴリズムは、マルチ学習データを用いて予め定められる目標装置(例えば、ロボット)を訓練して目標装置を決定したり、予測したり、許容したりする制御する方法である。該当学習アルゴリズムは、例えば、教師あり学習(supervised learning)、教師なし学習、半教師あり学習、又は強化学習を含むが、これに限定されない。
本開示の電子機器で行われるイメージ処理方法において、人工知能モデルの入力データとして入力イメージを用いてターゲット領域を処理した後の出力イメージを取得することができる。
AIモデルは、訓練を介して取得されてもよい。ここで、「訓練を通した取得」とは、訓練アルゴリズムを介して複数の訓練データで基本AIモデルを訓練させ、所望する特徴(又は、目的)を行うように構成された予め定義された動作規則又はAIモデルを取得することを意味する。
例えば、AIモデルには、複数の神経網レイヤが含まれてもよい。複数の神経網レイヤそれぞれは複数の加重値を含み、神経網算出は、以前レイヤの算出結果と複数の加重値との間の算出によって行われてもよい。神経網は、例えば、畳み込み神経網(CNN)、深層神経網(DNN)、再帰型神経網(RNN)、制限ボルツマンマシーン(RBM)、深層信念ネットワーク(DBN)、双方向再帰型深層ネットワーク(BRDNN)、敵対的生成ネットワーク(GAN)及び深層Qネットワークを含むが、これに限定されない。
例えば、電子機器は、PCコンピュータ、タブレット装置、個人携帯情報端末、スマートフォン、又は、上記の命令語セットを実行できる他の装置であってもよい。ここで、電子機器は、単一電子機器である必要はなく、個別的又は共同に上述した命令語(又は、命令語セット)を実行できる任意の装置又は回路の集合であってもよい。電子機器は、また、統合制御システム又はシステム管理器の一部であってもよく、ローカル又は遠隔に(例えば、無線送信を介して)インターフェースに接続される携帯用電子機器から構成されてもよい。
電子機器でプロセッサは、中央処理装置(CPU)、グラフィック処理装置(GPU)、プログラム可能論理装置、特殊目的プロセッサシステム、マイクロコントローラ又はマイクロプロセッサーを含んでもよい。プロセッサは、また、アナログプロセッサ、デジタルプロセッサ、マイクロプロセッサー、マルチコアプロセッサ、プロセッサアレイ、ネットワークプロセッサなどを含むが、これに限定されない。
プロセッサは、メモリに格納された命令語又はコードを実行することができる。ここで、メモリは、データを格納してもい。命令語及びデータは、また、ネットワークインターフェース装置を介してネットワークを通じて送受信され、ここで、ネットワークインターフェース装置は、任意の知られている送信プロトコルを採択することができる。
メモリは、RAMやフラッシュメモリを集積回路マイクロプロセッサ内に配置するなどの方式でプロセッサと統合されてもよい。さらに、メモリは、外部ディスクドライブ、格納アレイ、又は、データベースシステムによって使用される任意の他の格納装置のような別途の装置を含んでもよい。メモリとプロセッサの動作は結合されてもよく、又は、例えば、I/Oポート、ネットワーク接続などを介して通信し、プロセッサがメモリに格納されたファイルを読出すことができる。
また、電子機器は、ビデオディスプレイ(例えば、液晶ディスプレイ)及びユーザ相互作用インターフェース(例えば、キーボード、マウス、タッチ入力装置など)を含んでもよい。電子機器の全ての構成要素は、バス及び/又はネットワークを介して接続されてもよい。
実施形態に係る方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。上記で説明したハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行され、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態に結合又は組み合わせられてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
したがって、本開示の保護範囲は、実施形態の全ての変形及びこの等価物を含み得る。
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行され、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態に結合又は組み合わせられてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
したがって、他の具現、他の実施形態および特許請求の範囲と均等なものも後述する特許請求範囲の範囲に属する。
[1]
[1]
Claims (20)
- 第1イメージの特徴マップを生成し、前記特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップと、
検出されたターゲット領域を補正するステップと、
補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップと、
を含むイメージ処理方法。 - 前記第1イメージの特徴マップを生成し、前記特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップは、
少なくとも1つのスケーリングされたイメージから前記第1イメージの特徴を抽出して前記第1イメージの少なくとも1つの特徴マップを生成するステップと、
前記少なくとも1つの特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップと、
を含む、請求項1に記載のイメージ処理方法。 - 前記少なくとも1つのスケーリングされたイメージから前記第1イメージの特徴を抽出して前記第1イメージの少なくとも1つの特徴マップを生成するステップは、前記少なくとも1つのスケーリングされたイメージそれぞれに対して、畳み込み神経網で畳み込み動作を行って前記少なくとも1つのスケールそれぞれの特徴マップを生成するステップを含み、
前記少なくとも1つのスケーリングされたイメージそれぞれに対して前記畳み込み神経網は、前記少なくとも1つの位置それぞれに対応する畳み込みカーネルを用いて、前記スケーリングされたイメージ上の少なくとも1つの位置それぞれに対して前記畳み込み動作を行う、請求項2に記載のイメージ処理方法。 - 前記少なくとも1つのスケーリングされたイメージそれぞれに対して前記畳み込み神経網で前記畳み込み動作を行って前記少なくとも1つのスケールそれぞれの特徴マップを生成するステップは、
前記少なくとも1つのスケーリングされたイメージ上の前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップと、
前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置に応じて前記畳み込み動作を行って前記少なくとも1つのスケールそれぞれの特徴マップを生成するステップと、
を含む、請求項3に記載のイメージ処理方法。 - 前記少なくとも1つのスケーリングされたイメージ上の前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップは、
前記第1イメージのイメージングモデルにより、3次元空間で前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップと、
前記3次元空間における前記畳み込みカーネルのサンプリング位置及び前記イメージングモデルにより、前記スケーリングされたイメージで前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップと、
を含む、請求項4に記載のイメージ処理方法。 - 前記少なくとも1つの特徴マップは、
複数の特徴マップであり、
前記少なくとも1つの特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップは、前記複数の特徴マップで隣接するスケールの特徴マップを融合し、少なくとも1つの融合した特徴マップに基づいて前記第1イメージからターゲット領域を検出する、請求項2に記載のイメージ処理方法。 - 前記検出されたターゲット領域を補正するステップは、
前記第1イメージの特徴マップで前記検出されたターゲット領域に対応する第1特徴領域を第1ターゲット領域特徴マップとして決定するステップと、
前記第1ターゲット領域特徴マップを空間的に変換し、変換された第1ターゲット領域特徴マップを生成するステップと、
を含み、
前記補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップは、前記変換された第1ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトを処理するステップを含む、請求項1に記載のイメージ処理方法。 - 前記第1ターゲット領域特徴マップを空間的に変換し、前記変換された第1ターゲット領域特徴マップを生成するステップは、
前記第1イメージのイメージングモデル及び前記検出されたターゲット領域により前記ターゲット領域に対応する仮想カメラを生成するステップと、
前記第1ターゲット領域特徴マップを前記仮想カメラに空間的に変換し、前記変換された第1ターゲット領域特徴マップを生成するステップと、
を含む、請求項7に記載のイメージ処理方法。 - 前記変換された第1ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトを処理するステップは、
前記変換された第1ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトの第1属性情報を生成するステップと、
前記第1属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップと、
を含む、請求項7に記載のイメージ処理方法。 - 前記第1イメージに関連する第2イメージを生成するステップと、
前記第2イメージに基づいて前記オブジェクトの第2属性情報を生成するステップと、
をさらに含み、
前記第1属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップは、前記第1属性情報及び前記第2属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップを含む、請求項9に記載のイメージ処理方法。 - 前記ターゲット領域に対応するオブジェクトを処理するステップは、前記オブジェクトに対するオブジェクト認識、オブジェクト分割及びオブジェクト姿勢推定のうち少なくとも1つを行うステップを含む、請求項9に記載のイメージ処理方法。
- 前記第1属性情報は、前記オブジェクトのカテゴリー情報、前記オブジェクトのマスク情報、前記オブジェクトのキーポイント情報、及び前記オブジェクトの姿勢情報のうち少なくとも1つを含む、請求項9に記載のイメージ処理方法。
- 前記第1属性情報は、前記オブジェクトの第1キーポイント情報及び初期姿勢情報を含み、
前記第2属性情報は、前記オブジェクトの第2キーポイント情報を含み、
前記第1属性情報及び前記第2属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップは、前記初期姿勢情報、前記第1キーポイント情報、及び前記第2キーポイント情報に基づいて前記オブジェクトの最終姿勢情報を推定するステップを含む、請求項10に記載のイメージ処理方法。 - 前記第2イメージに基づいて前記オブジェクトの前記第2属性情報を生成するステップは、
前記初期姿勢情報及び前記第1イメージを生成する第1カメラのパラメータ、及び前記第2イメージを生成する第2カメラのパラメータに基づいて、前記第2イメージで前記オブジェクトに対応するターゲット領域を決定するステップと、
前記第2イメージ上の前記オブジェクトに対応するターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップと、
を含む、請求項13に記載のイメージ処理方法。 - 前記初期姿勢情報及び前記第1イメージを生成する前記第1カメラのパラメータ、及び前記第2イメージを生成する前記第2カメラのパラメータに基づいて、前記第2イメージで前記オブジェクトに対応するターゲット領域を決定するステップは、
前記初期姿勢情報及び前記第1カメラのパラメータに基づいて前記第1カメラの座標系で前記オブジェクトの初期姿勢情報を決定するステップと、
前記第1カメラの座標系における前記オブジェクトの初期姿勢情報及び前記第2カメラのパラメータに基づいて前記第2カメラの座標系で前記オブジェクトの初期姿勢情報を決定するステップと、
前記第2カメラの座標系における前記オブジェクトの初期姿勢情報により前記第2イメージで前記オブジェクトに対応するターゲット領域を決定するステップと、
を含む、請求項14に記載のイメージ処理方法。 - 前記第2イメージ上の前記オブジェクトに対応するターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップは、
前記第2イメージ上の前記オブジェクトに対応するターゲット領域を補正するステップと、
前記第2イメージ上の補正されたターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップと、
を含む、請求項14に記載のイメージ処理方法。 - 前記第2イメージ上の前記オブジェクトに対応するターゲット領域を補正するステップは、
前記第2イメージの特徴マップを生成するステップと、
前記第2イメージの特徴マップで前記第2イメージ上のターゲット領域に対応する第2特徴領域を第2ターゲット領域特徴マップとして決定するステップと、
前記第2ターゲット領域特徴マップを空間的に変換し、変換された第2ターゲット領域特徴マップを生成するステップと、
を含み、
前記第2イメージ上の補正されたターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップは、前記変換された第2ターゲット領域特徴マップに基づいて前記オブジェクトの第2キーポイント情報を生成するステップを含む、請求項16に記載のイメージ処理方法。 - 請求項1に記載の方法を実行するためのプログラムが記録されていることを特徴とするコンピュータで読み出し可能な記録媒体。
- 畳み込み神経網を用いて、第1イメージ上の少なくとも1つの位置それぞれに対応する畳み込みカーネルを用いて前記第1イメージに対して畳み込み動作を行って前記第1イメージの特徴マップを生成するステップと、
前記第1イメージの特徴マップに基づいて前記第1イメージのうちのオブジェクトを処理するステップと、
を含むイメージ処理方法。 - プロセッサを含むイメージ処理装置であって、
前記プロセッサは、
第1イメージの特徴マップを生成し、前記特徴マップに基づいて前記第1イメージからターゲット領域を検出し、
検出されたターゲット領域を補正し、
補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理する、イメージ処理装置。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111421144.0 | 2021-11-26 | ||
CN202111421144.0A CN116188349A (zh) | 2021-11-26 | 2021-11-26 | 图像处理方法、装置、电子设备及存储介质 |
KR1020220122436A KR20230078502A (ko) | 2021-11-26 | 2022-09-27 | 이미지 처리 장치 및 방법 |
KR10-2022-0122436 | 2022-09-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023079211A true JP2023079211A (ja) | 2023-06-07 |
Family
ID=84363081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022188155A Pending JP2023079211A (ja) | 2021-11-26 | 2022-11-25 | イメージ処理装置及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230169755A1 (ja) |
EP (1) | EP4187483A1 (ja) |
JP (1) | JP2023079211A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152400B (zh) * | 2023-10-30 | 2024-03-19 | 武汉苍穹融新科技有限公司 | 交通道路上多路连续视频与三维孪生场景融合方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104584071B (zh) * | 2012-08-23 | 2018-01-26 | 日本电气株式会社 | 物体识别装置、物体识别方法 |
-
2022
- 2022-11-25 JP JP2022188155A patent/JP2023079211A/ja active Pending
- 2022-11-25 EP EP22209621.6A patent/EP4187483A1/en active Pending
- 2022-11-28 US US17/994,659 patent/US20230169755A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4187483A1 (en) | 2023-05-31 |
US20230169755A1 (en) | 2023-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10740897B2 (en) | Method and device for three-dimensional feature-embedded image object component-level semantic segmentation | |
US11315266B2 (en) | Self-supervised depth estimation method and system | |
JP7155271B2 (ja) | 画像処理システム及び画像処理方法 | |
US11514642B2 (en) | Method and apparatus for generating two-dimensional image data describing a three-dimensional image | |
WO2020206708A1 (zh) | 障碍物的识别方法、装置、计算机设备和存储介质 | |
WO2022156626A1 (zh) | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
JP7345664B2 (ja) | 不確実性を有するランドマーク位置推定のための画像処理システムおよび方法 | |
CN109919971B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
WO2020048484A1 (zh) | 超分辨图像重建方法、装置、终端和存储介质 | |
JP2014520333A (ja) | 3次元画像モデル適応のための方法および装置 | |
JP7441917B2 (ja) | 顔に対する射影歪み補正 | |
JP7064257B2 (ja) | 画像深度確定方法及び生き物認識方法、回路、装置、記憶媒体 | |
US11941781B2 (en) | Method and apparatus for restoring image | |
WO2021098545A1 (zh) | 一种姿势确定方法、装置、设备、存储介质、芯片及产品 | |
JP2024026745A (ja) | 人工知能ニューラルネットワークの推論または訓練に対する、故意に歪みを制御する撮像装置の利用 | |
JP2023079211A (ja) | イメージ処理装置及び方法 | |
CN112991537A (zh) | 城市场景重建方法、装置、计算机设备和存储介质 | |
CN108876704B (zh) | 人脸图像变形的方法、装置及计算机存储介质 | |
KR20230078502A (ko) | 이미지 처리 장치 및 방법 | |
JP2022153857A (ja) | 画像処理装置、画像処理方法、移動装置、及びコンピュータプログラム | |
US11080920B2 (en) | Method of displaying an object | |
WO2023066143A1 (zh) | 全景图像的图像分割方法、装置、计算机设备和存储介质 | |
US20210042607A1 (en) | Cross-domain metric learning system and method | |
US20240062495A1 (en) | Deformable neural radiance field for editing facial pose and facial expression in neural 3d scenes | |
JP2023098597A (ja) | 映像処理方法及び装置 |