JP2023079211A - イメージ処理装置及び方法 - Google Patents

イメージ処理装置及び方法 Download PDF

Info

Publication number
JP2023079211A
JP2023079211A JP2022188155A JP2022188155A JP2023079211A JP 2023079211 A JP2023079211 A JP 2023079211A JP 2022188155 A JP2022188155 A JP 2022188155A JP 2022188155 A JP2022188155 A JP 2022188155A JP 2023079211 A JP2023079211 A JP 2023079211A
Authority
JP
Japan
Prior art keywords
image
feature map
image processing
processing method
target area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022188155A
Other languages
English (en)
Inventor
へ バオ
Bao He
ワン ハオ
Hao Wang
知▲よん▼ 金
Jiyeon Kim
現盛 張
Hyun-Sung Chang
ワン チアン
Qiang Wang
性勳 洪
Sung-Hoon Hong
リ ウエイミン
Weiming Li
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202111421144.0A external-priority patent/CN116188349A/zh
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2023079211A publication Critical patent/JP2023079211A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • G06T3/047Fisheye or wide-angle transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】本開示はイメージ処理装置及び方法を提供する【解決手段】イメージ処理方法は、第1イメージの特徴マップを取得し、特徴マップに基づいて第1イメージからターゲット領域を検出するステップと、検出されたターゲット領域を補正するステップ及び補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップとを含む。また、イメージ処理方法は、人工知能モデルを用いて実行されることができる。【選択図】図1

Description

本開示はイメージ処理方法及び装置に関する。
イメージを処理する前に、オブジェクト処理効果を保障するために全体イメージを補正した後、補正された全体イメージを基準にしてオブジェクトを処理する。例えば、魚眼カメラで撮影した魚眼イメージは明確な歪みを含むことがある。一般的なイメージ処理方法は、魚眼イメージのうちオブジェクトを処理する前に全体の魚眼イメージを補正し、補正された全体イメージに基づいてオブジェクトを処理する(例えば、オブジェクト認識、分割及び姿勢推定)。しかし、このようなイメージ処理方式は、全体イメージを補正するときオブジェクトが大幅に増加し、後続するオブジェクトの処理効果が小さくなるだけでなく、イメージ処理速度が遅くなる。このような観点から、オブジェクト処理効果を向上させたりイメージ処理速度を向上させたりすることのできるより優れたイメージ処理技術が求められている。
本発明の目的は、イメージ処理装置及び方法を提供することにある。
一実施形態に係るイメージ処理方法は、第1イメージの特徴マップを生成し、前記特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップと、検出されたターゲット領域を補正するステップと、補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップとを含む。
ここで、 前記第1イメージの特徴マップを生成し、前記特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップは、少なくとも1つのスケーリングされたイメージから前記第1イメージの特徴を抽出して前記第1イメージの少なくとも1つの特徴マップを生成するステップと、前記少なくとも1つの特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップとを含むことができる。
ここで、前記少なくとも1つのスケーリングされたイメージから前記第1イメージの特徴を抽出して前記第1イメージの少なくとも1つの特徴マップを生成するステップは、前記少なくとも1つのスケーリングされたイメージそれぞれに対して、畳み込み神経網(畳み込みニューラルネットワーク)で畳み込み動作を行って前記少なくとも1つのスケールそれぞれの特徴マップを生成するステップを含み、前記少なくとも1つのスケーリングされたイメージそれぞれに対して前記畳み込み神経網は、前記少なくとも1つの位置それぞれに対応する畳み込みカーネルを用いて、前記スケーリングされたイメージ上の少なくとも1つの位置それぞれに対して前記畳み込み動作を行うことができる。
ここで、前記少なくとも1つのスケーリングされたイメージそれぞれに対して前記畳み込み神経網で前記畳み込み動作を行って前記少なくとも1つのスケールそれぞれの特徴マップを生成するステップは、前記少なくとも1つのスケーリングされたイメージ上の前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップと、前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置に応じて前記畳み込み動作を行って前記少なくとも1つのスケールそれぞれの特徴マップを生成するステップとを含むことができる。
ここで、前記少なくとも1つのスケーリングされたイメージ上の前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップは、前記第1イメージのイメージングモデルにより、3次元空間で前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップと、前記3次元空間における前記畳み込みカーネルのサンプリング位置及び前記イメージングモデルにより、前記スケーリングされたイメージで前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップとを含むことができる。
ここで、前記少なくとも1つの特徴マップは、複数の特徴マップであり、前記少なくとも1つの特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップは、前記複数の特徴マップで隣接するスケールの特徴マップを融合し、少なくとも1つの融合した特徴マップに基づいて前記第1イメージからターゲット領域を検出することができる。
ここで、前記検出されたターゲット領域を補正するステップは、前記第1イメージの特徴マップで前記検出されたターゲット領域に対応する第1特徴領域を第1ターゲット領域特徴マップとして決定するステップと、前記第1ターゲット領域特徴マップを空間的に変換し、変換された第1ターゲット領域特徴マップを生成するステップとを含み、前記補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップは、前記変換された第1ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトを処理するステップを含むことができる。
ここで、前記第1ターゲット領域特徴マップを空間的に変換し、前記変換された第1ターゲット領域特徴マップを生成するステップは、前記第1イメージのイメージングモデル及び前記検出されたターゲット領域により前記ターゲット領域に対応する仮想カメラを生成するステップと、前記第1ターゲット領域特徴マップを前記仮想カメラに空間的に変換し、前記変換された第1ターゲット領域特徴マップを生成するステップとを含むことができる。
ここで、前記変換された第1ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトを処理するステップは、前記変換された第1ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトの第1属性情報を生成するステップと、前記第1属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップとを含むことができる。
本発明のイメージ処理方法は、前記第1イメージに関連する第2イメージを生成するステップと、前記第2イメージに基づいて前記オブジェクトの第2属性情報を生成するステップとをさらに含み、前記第1属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップは、前記第1属性情報及び前記第2属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップを含むことができる。
ここで、前記ターゲット領域に対応するオブジェクトを処理するステップは、前記オブジェクトに対するオブジェクト認識、オブジェクト分割及びオブジェクト姿勢推定のうち少なくとも1つを行うステップを含むことができる。
ここで、前記第1属性情報は、前記オブジェクトのカテゴリー情報、前記オブジェクトのマスク情報、前記オブジェクトのキーポイント情報、及び前記オブジェクトの姿勢情報のうち少なくとも1つを含むことができる。
ここで、前記第1属性情報は、前記オブジェクトの第1キーポイント情報及び初期姿勢情報を含み、前記第2属性情報は、前記オブジェクトの第2キーポイント情報を含み、前記第1属性情報及び前記第2属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップは、前記初期姿勢情報、前記第1キーポイント情報、及び前記第2キーポイント情報に基づいて前記オブジェクトの最終姿勢情報を推定するステップを含むことができる。
ここで、前記第2イメージに基づいて前記オブジェクトの前記第2属性情報を生成するステップは、前記初期姿勢情報及び前記第1イメージを生成する第1カメラのパラメータ、及び前記第2イメージを生成する第2カメラのパラメータに基づいて、前記第2イメージで前記オブジェクトに対応するターゲット領域を決定するステップと、前記第2イメージ上の前記オブジェクトに対応するターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップとを含むことができる。
ここで、前記初期姿勢情報及び前記第1イメージを生成する前記第1カメラのパラメータ、及び前記第2イメージを生成する前記第2カメラのパラメータに基づいて、前記第2イメージで前記オブジェクトに対応するターゲット領域を決定するステップは、前記初期姿勢情報及び前記第1カメラのパラメータに基づいて前記第1カメラの座標系で前記オブジェクトの初期姿勢情報を決定するステップと、前記第1カメラの座標系における前記オブジェクトの初期姿勢情報及び前記第2カメラのパラメータに基づいて前記第2カメラの座標系で前記オブジェクトの初期姿勢情報を決定するステップと、前記第2カメラの座標系における前記オブジェクトの初期姿勢情報により前記第2イメージで前記オブジェクトに対応するターゲット領域を決定するステップとを含むことができる。
ここで、前記第2イメージ上の前記オブジェクトに対応するターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップは、前記第2イメージ上の前記オブジェクトに対応するターゲット領域を補正するステップと、前記第2イメージ上の補正されたターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップとを含むことができる。
ここで、前記第2イメージ上の前記オブジェクトに対応するターゲット領域を補正するステップは、前記第2イメージの特徴マップを生成するステップと、前記第2イメージの特徴マップで前記第2イメージ上のターゲット領域に対応する第2特徴領域を第2ターゲット領域特徴マップとして決定するステップと、前記第2ターゲット領域特徴マップを空間的に変換し、変換された第2ターゲット領域特徴マップを生成するステップとを含み、前記第2イメージ上の補正されたターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップは、前記変換された第2ターゲット領域特徴マップに基づいて前記オブジェクトの第2キーポイント情報を生成するステップを含むことができる。
一実施形態に係るイメージ処理方法は、畳み込み神経網を用いて、第1イメージ上の少なくとも1つの位置それぞれに対応する畳み込みカーネルを用いて前記第1イメージに対して畳み込み動作を行って前記第1イメージの特徴マップを生成するステップと、前記第1イメージの特徴マップに基づいて前記第1イメージのうちのオブジェクトを処理するステップとを含む。
一実施形態に係るプロセッサを含むイメージ処理装置は、前記プロセッサは、第1イメージの特徴マップを生成し、前記特徴マップに基づいて前記第1イメージからターゲット領域を検出し、検出されたターゲット領域を補正し、補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理することができる。
一実施形態に係るイメージ処理方法は、第1イメージに基づいてそれぞれ異なるスケールの複数のスケーリングされたイメージを生成するステップと、前記スケーリングされたイメージに基づいて複数の特徴マップを生成するステップ(前記複数の特徴マップそれぞれは、前記スケーリングされたイメージのうち1つに対応する)と、2以上の特徴マップを融合するステップと、前記融合した特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップと、前記複数の特徴マップのうち他の1つを用いて前記検出されたターゲット領域を補正するステップと、前記補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップとを含む。
ここで、前記複数の特徴マップのうち他の1つの解像度は、前記2以上の特徴マップの解像度よりも高いことを特徴とする。
本発明によると、イメージ処理装置及び方法を提供することができる。
一実施形態に係るイメージ処理方法のフローチャートである。 一実施形態に係るイメージ処理方法で変形可能なCNNを用いてマルチスケールで第1イメージの特徴を抽出する概略的な過程を示す図である。 一実施形態に係るイメージ処理方法で変形可能なCNN畳み込みカーネルのサンプリング位置を決定する図である。 一実施形態に係るイメージ処理方法でマルチスケール特徴を融合する例を示す図である。 一実施形態に係るイメージ処理方法で変形を防止する関心領域のプーリングの例を示す図である。 一実施形態に係るイメージ処理方法でオブジェクトの姿勢を推定する概略的な過程を示す図である。 一実施形態に係るイメージ処理方法でイメージを処理する過程を概略的に示す図である。 一実施形態に係るイメージ処理方法でイメージを処理する過程を概略的に示す図である。 一実施形態に係るイメージ処理方法が適用されるシナリオの例を示す図である。 他の実施形態に係るイメージ処理方法のフローチャートである。 一実施形態に係るイメージ処理装置のブロック図である。 他の実施形態に係るイメージ処理装置のブロック図である。 一実施形態に係る電子機器のブロック図である。
以下、添付の図面を参照して実施形態について詳説する。しかし、本明細書で開示する特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示したものであり、実施形態は様々な異なる形態で実施され、本発明は本明細書で説明した実施形態に限定されるものではない。実施形態に対する全ての変更、均等物ないし代替物が権利範囲に含まれているものと理解されなければならない。
実施形態で用いられる用語は、単に、説明を目的として使用されたものであり、限定しようとする意図として解釈されることはない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
また、添付図面を参照して説明することにおいて、図面符号に関係なく、同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略することにする。実施形態の説明において、関連する公知技術に対する具体的な説明が実施形態の要旨を不要に曖昧にするものと判断される場合、その詳細な説明を省略する。
本開示の背景技術で言及したように、従来のイメージ処理方法において、全体イメージを補正する過程でオブジェクトが大幅に増加し、後続するオブジェクトの処理効果がないだけでなく、処理速度も遅くなる。一方、1つ以上の実施形態のイメージ処理方法は、オブジェクト処理に対する効果及びイメージ処理速度を向上させることができる。例えば、1つ以上の実施形態のイメージ処理方法は、ターゲット領域を検出した後、検出されたターゲット領域のみを補正することでオブジェクトが大幅に増加することを防止し、後続するオブジェクト処理効果を向上させ、関係のない領域を補正しないことからイメージ処理速度を向上させ得る。
以下では、本開示の一実施形態に係るイメージ処理装置及び方法について、添付の図1~図13を参照して詳細に説明する。
図1は、一実施形態に係るイメージ処理方法のフローチャートである。
以下で説明するステップS110~ステップS130は順次に行われるが、必ず順次に行われなくてもよい。例えば、ステップS110~ステップS130は互いに異なる順に行われてもよく、ステップS110~ステップS130のうち少なくとも2ステップが並列又は同時に行われてもよい。また、図示された例示の意図及び範囲を超えることなく、ステップS110~ステップS130のうち1つ以上は省略されてもよい。図1を参照して後述するステップS110~ステップS130は次の通りである。図1は、本開示で説明された電子装置(例えば、図11に示すイメージ処理装置1100、図12に示すイメージ処理装置1200及び/又は図13に示す電子装置1300)の1つ以上の構成要素によって行われてもよい。
図1を参照すると、イメージ処理方法は、ステップS110において、第1イメージの特徴マップを取得(例えば、決定又は生成)し、特徴マップに基づいて第1イメージのうちターゲット領域を検出する。ここで、ターゲット領域は、関心領域(ROI、Region of Interest)(例えば、候補オブジェクト領域)であってもよい。ここで、第1イメージはオブジェクトの変形のある全てのイメージであってもよい。例えば、第1イメージは、魚眼イメージであってもよく、例えば、魚眼ステレオカメラで撮影した左側魚眼イメージ及び右側魚眼イメージの1つであってもよいが、これに限定されない。
ステップS110において、イメージ処理方法は、少なくとも1つのスケール(例えば、第1イメージの少なくとも1つのスケーリングされたイメージ)から第1イメージの特徴を抽出し、第1イメージの少なくとも1つの特徴マップを取得し、少なくとも1つの特徴マップに基づいて第1イメージのうちのターゲット領域を検出することができる。
一般的なイメージ処理方法は、第1イメージから特徴を抽出する前に第1イメージを完全に補正しなければならない。一方、実施形態に係るイメージ処理方法は、各スケールで第1イメージの特徴を直接抽出することができる。したがって、イメージ処理方法は、全体の第1イメージを補正する時間消耗を減らすだけでなく、従来のイメージ処理方法に比べて抽出された特徴の正確度も向上させ得る。
イメージ処理方法は、畳み込み神経網で第1イメージに対して畳み込み動作を行って各スケールの特徴マップを取得することができる。ここで、畳み込み神経網は、第1イメージ上の少なくとも1つの位置のうち各位置に対して、各位置に対応する畳み込みカーネル関数を用いて畳み込み動作を行ってもよい。以下、一実施形態に係る畳み込み神経網を「変形可能な畳み込み神経網(CNN、Convolutional Neural Network)」のように記載する。
前述したように、魚眼イメージのような第1イメージはオブジェクト歪みや変形を含む。一般的な畳み込み神経網(畳み込みカーネル関数は、常に固定されている)を使用するイメージ処理方法は、サンプリングの歪みが発生して特徴抽出が困難であるか、又は正確でないこともある。しかし、本開示の一実施形態に係る変形可能なCNNを使用するイメージ処理方法のCNNは、第1イメージ上の少なくとも1つの位置のうち各位置に対して、各位置に対応する畳み込みカーネル関数を用いて畳み込み動作を行うことができる。したがって、本開示のイメージ処理方法は、オブジェクトの変形のあるイメージで一般的なCNNを使用するとき発生するサンプリングの歪みを防止し、より正確に特徴を抽出することができるため、後続するステップでこのような特徴を用いてオブジェクト処理効果を向上させることができる。例えば、変形可能なCNNは、魚眼イメージの中心部分と周辺部分のイメージ解像度の変化に適応できることから、より正確に特徴を抽出することができ、魚眼イメージでオブジェクトの処理効果を向上させることができる。
図2は、一実施形態に係るイメージ処理方法で変形可能なCNNを用いてマルチスケールで第1イメージの特徴を抽出する概略的な過程を示す図である。
図2の例示において、第1イメージが魚眼イメージである場合、イメージ処理方法は、3つのスケールに対応する第1イメージの3つのスケーリングされたイメージから第1イメージの特徴を抽出することができる。ここで、スケールの個数は3つに限定されることなく、1以上の任意の正の整数であってもよい。また、第1イメージは魚眼イメージに限定されることなく、オブジェクトの変形が存在する任意のイメージであってもよい。
図2に示すように、イメージ処理方法は、3つのスケール(例えば、1/2スケール、1/4スケール、1/8スケール)それぞれで変形可能なCNN210,212,214をそれぞれ用いて魚眼イメージ特徴を抽出することができる。対応するように、魚眼イメージ220は、各スケールにより縮小されるが、例えば、第1イメージ220の大きさの1/2に縮小されてスケーリングされたイメージ222、第1イメージ220の大きさの1/4に縮小されてスケーリングされたイメージ224、及び第1イメージ220の大きさの1/8に縮小されてスケーリングされたイメージ226に調整されてもよい。
上述したように、変形可能なCNN210,212,214は、第1イメージ220上の少なくとも1つの位置のうち各位置に対して、各位置に対応する畳み込みカーネル関数を用いて畳み込み動作を行うことができる。即ち、第1イメージ220上の少なくとも1つの位置のうち、各位置(例えば、互いに異なる)は1つのそれ自体の畳み込みカーネル関数に対応する。即ち、各位置の畳み込みカーネル関数は常に固定されているものではなく、変わり得る。この位置はピクセルポイントになる。したがって、一実施形態によれば、イメージ処理方法は、畳み込み動作を行うとき、まず、第1イメージ220上の少なくとも1つの位置のうち各位置に対応する畳み込みカーネル関数のサンプリング位置を取得することができる。そして、イメージ処理方法は、各位置に対応する畳み込みカーネル関数のサンプリング位置に応じて畳み込み動作を行い、各スケールの特徴マップを取得することができる。
ここで、畳み込みカーネル関数のサンプリング位置は、第1イメージ220のイメージングモデルにより決定されてもよい。例えば、各スケールにおいて、第1イメージ220のイメージングモデルにより第1イメージ220上の少なくとも1つの位置のうち、各位置に対応する畳み込みカーネル関数のサンプリング位置を予め算出(例えば、決定)し、算出されたサンプリング位置を、例えば、ルックアップテーブル(LUT;Look Up Table)に格納することができる。LUTは予め格納されてもよく、各スケールで畳み込み動作を行うために使用され、各スケールで特徴マップを取得することができる。図2に示した様々な変形可能なCNN210,212,214から構成されたピラミッドの各スケールに対して、該当スケールの第1イメージ220上の少なくとも1つの位置のうち、各位置に対応する畳み込みカーネル関数のサンプリング位置が全て予め算出されて格納されているため、上述した第1イメージ220上の少なくとも1つの位置のうち、各位置に対応する畳み込みカーネル関数のサンプリング位置を取得することは、例えば、予め格納されたLCUから各位置に対応する畳み込みカーネル関数のサンプリング位置を取得することである。
図3は、一実施形態に係るイメージ処理方法で変形可能なCNN畳み込みカーネル関数のサンプリング位置を決定する図である。
図3を参照すると、変形可能なCNNの畳み込みカーネル関数のサンプリング位置を決定する方式を簡略に説明する。
一実施形態によれば、イメージ処理方法は、イメージングモデルにより3次元空間で各位置の畳み込みカーネル関数のサンプリング位置を決定することができる。そして、イメージ処理方法は、3次元空間における畳み込みカーネル関数のサンプリング位置及びイメージングモデルにより、第1イメージで各位置に対応する畳み込みカーネル関数のサンプリング位置を決定することができる。
図3に示す例示において、イメージ処理方法は、第1イメージを魚眼イメージに仮定するので、イメージングモデルは魚眼イメージのイメージングモデルであってもよい。以下で、魚眼イメージのイメージングモデルは、「魚眼カメラモデル」のように称してもよい。非制限的な例として、魚眼カメラモデルは、Kannala-Brandtモデルであってもよい。
図3に示すように、例えば、イメージ処理方法は、まず、魚眼イメージ上の各位置と魚眼カメラモデルの光学中心(図3に示す点Oc)を連結して1つの光線(図3においてOcとピクセルポイントAを連結している直線)を決定する。次に、イメージ処理方法は、魚眼カメラモデルのパラメータ(「魚眼カメラの内部パラメータ」に称する)により該当光線が光学中心を通過する入射光線が偏向して発生するかを決定することができる。例えば、魚眼カメラモデルがKannala-Brandtモデルである場合、入射光線は、下記の数式(1)の例により決定されることができる。
Figure 2023079211000002

ここで、θdは、ピクセル位置と光学中心を連結する線と魚眼カメラモデルの光学軸(図3でOcZcが位置してい線)との間の角度であり、θは、入射光線と魚眼カメラの光学軸がなしている角度であり、k1~k4は多項式の係数である。
入射光線が決定されると、イメージ処理方法は、該当入射光線(図3に示す光線OcP)と魚眼カメラモデルの交差点(図3の点B)を決定することができる。最後に、イメージ処理方法は、該当の交差点を経由して魚眼カメラモデルの球面と接する3次元ローカル平面格子で3次元空間における畳み込みカーネル関数のサンプリング位置を選択することができる。例えば、イメージ処理方法は、該当3次元ローカルの平面格子で等間隔の均一なサンプリングでサンプリングポイントセットを選択することができる。図3に示すように、イメージ処理方法は、該当の交差点周辺に9個のサンプリングポイントを等間隔として選択する「3次元空間における畳み込みカーネル関数サンプリングポイント320」を選択することができる。
イメージ処理方法は、3次元空間で各位置の畳み込みカーネル関数のサンプリング位置が決定されると、魚眼カメラモデルによる光線投影を介して3次元空間における畳み込みカーネル関数のサンプリング位置を魚眼イメージ310にマッピングし、魚眼イメージ310上で魚眼イメージ上の各位置に対応する畳み込みカーネル関数のサンプリング位置を決定することができる。例えば、図3に示すように、イメージ処理方法は、Kannala-Brandtモデルに基づいて光線投影を介して3次元空間のうち9個のサンプリングポイント320を魚眼イメージ平面にそれぞれマッピングし、魚眼イメージでも対応するように9個のサンプリングポイントに該当する「魚眼イメージ平面の畳み込みカーネル関数のサンプリングポイント330」を取得することができる。このような9個のサンプリングポイント330は、行われる畳み込み動作に使用されるピクセルAに対応する畳み込みカーネル関数のサンプリング位置である。
上述したように、図3と結合して第1イメージ上の少なくとも1つの位置のうち、各位置に対応する畳み込みカーネル関数のサンプリング位置を決定する非制限的な例示的な方法について説明した。一実施形態によれば、各スケールで全て変形可能なCNNを用いて、各位置に対応する畳み込みカーネル関数のサンプリング位置に応じて畳み込み動作を行い、各スケールの特徴マップを取得することができる。
一実施形態において、少なくとも1つの特徴マップは複数の特徴マップであってもよい。この場合、一実施形態によれば、少なくとも1つの特徴マップに基づいて第1イメージからターゲット領域を検出することは、複数の特徴マップで隣接しているスケールの特徴マップを融合し、少なくとも1つの融合した特徴マップに基づいて第1イメージからターゲット領域を検出することを含む。例えば、特徴マップをターゲット領域提案ネットワークに入力し、第1イメージのうちのターゲット領域を検出することができる。ここで、ターゲット領域提案ネットワークは、予め学習された畳み込み神経網であってもよいが、これに限定されることはない。ターゲット領域提案ネットワークは、入力した特徴マップに対して第1イメージのうちのターゲット領域を検出できるように予め学習され得る。
図4は、一実施形態に係るイメージ処理方法でマルチスケール特徴を融合する例を示す図である。
図4を参照すると、イメージ処理方法は、ピラミッド状の変形可能なCNNによって抽出されたマルチスケール特徴に対して、異なるスケール間の特徴融合をさらに行うことができる。一実施形態において、イメージ処理方法は、図4に示すように、低解像度特徴マップをアップサンプリングした後、隣接するスケールの上位レイヤ特徴マップと融合(例えば、ピクセル単位で加算)することで、融合された特徴マップが低解像度特徴マップのうちの意味的情報を含むだけでなく、高解像度特徴マップのうちのイメージ細部情報も含み得る。
例えば、スケーリングされたイメージ226に基づいて特徴マップ410が生成され、スケーリングされたイメージ224に基づいて上位レイヤ特徴マップが生成され、イメージ処理方法は、特徴マップ410をアップサンプリングし、アップサンプリングされた特徴マップを上位階層特徴マップと融合し、融合された特徴マップとして特徴マップ412を生成することができる。
したがって、少なくとも1つの融合した特徴マップに基づいて第1イメージのうちのターゲット領域を検出することで、一実施形態のイメージ処理方法はターゲット領域をより正確に検出することができる。
特徴を融合した後、低解像度特徴は、例えば、オブジェクト領域の提案、ポジショニング及び/又は分類に使われて算出コストを節約することができる。そして、高解像度特徴は、オブジェクトの細部属性(例えば、キーポイント、オブジェクトマスクマップ及び/又は6DoF(自由度)姿勢)を推定する正確性を保障することができる。
例えば、ターゲット領域提案ネットワーク420を介して第1イメージ220のうちのターゲット領域を検出するために、イメージ処理方法は、相対的に低い解像度の特徴マップ(例えば、図4に示す特徴マップ(1)410及び特徴マップ(2)412を使用でき、相対的に高い解像度を有する特徴マップ(例えば、図4に示す特徴マップ413(特徴マップ3))を使用しない。これによって、算出コストをさらに節約することができる。融合された特徴マップで相対的に高い解像度の特徴マップ(例えば、図4に示す特徴マップ(3)413)は、後続する検出されたターゲット領域に対する補正(「変形を防止するターゲット領域をプーリング430」)に使用されてもよい。ここで、ターゲット領域がROIである場合、「変形を防止するターゲット領域をプーリング」は、「変形を防止するROIプーリング」に称してもよい。変形を防止するターゲット領域をプーリング430は、オブジェクト姿勢推定などに使用される(440)(例えば、以下で説明する特徴抽出及びオブジェクトキーポイント予測、オブジェクトマスクマップ取得及びオブジェクト姿勢推定など)。
イメージ処理方法は、ステップS110で第1イメージのうちのターゲット領域が検出されると、ステップS120において、検出されたターゲット領域を補正する。一実施形態において、まず、イメージ処理方法は、第1イメージの特徴マップから検出されたターゲット領域に対応する第1特徴領域を決定して第1ターゲット領域特徴マップに使用することができる。次に、イメージ処理方法は、第1ターゲット領域特徴マップを空間的に変換すると、変換された第1ターゲット領域特徴マップを生成することができる。第1ターゲット領域特徴マップを空間的に変換すれば、ターゲット領域に対する補正が実現され得る。例えば、前述したように、マルチスケールで複数の特徴マップを取得して特徴マップを融合すると、融合された特徴マップのうち相対的に高解像度の特徴マップ(例えば、図4に示す例示の特徴マップ413のように、融合された特徴マップのうち最も高い解像度の特徴マップ、即ち、融合された最大スケールの特徴マップ)から検出されたターゲット領域に対応する第1特徴領域を決定することができる。図4に示すように、特徴マップ(3)413から検出されたターゲット領域に対応する第1特徴領域を決定して第1ターゲット領域特徴マップとして使用することができる。イメージ処理方法は、複数のターゲット領域が検出されると、それぞれのターゲット領域に対応する第1ターゲット領域特徴マップを決定する。第1ターゲット領域特徴マップが決定されると、イメージ処理方法は、それぞれの第1ターゲット領域特徴マップに対して空間的に変換し、それぞれのターゲット領域を補正することができる。
一実施形態によれば、イメージ処理方法は、第1イメージのイメージングモデル及び検出されたターゲット領域により、ターゲット領域に対応する仮想カメラを生成し、第1ターゲット領域特徴マップを仮想カメラに空間的に変換し、変換された第1ターゲット領域特徴マップを生成することができる。本開示において、イメージ処理方法は、全体イメージ又は全てのターゲット領域に対して同じ仮想カメラを使用せず、それぞれ検出されたターゲット領域に対して対応する仮想カメラを生成することで、補正時にオブジェクトの形状が増加することを防止することができる。例えば、このような本開示のイメージ処理方法は、魚眼レンズの視野角の端でよく発生する形状の垂れを防止することができる。また、変形を防止するターゲット領域をプーリングした場合、第1ターゲット領域特徴マップは既存のカメラと同じ幾何学的形態に変換され、後続オブジェクト処理モデルの訓練や予測を行うのに特徴マップの使用が有利なこともある。
一実施形態によれば、仮想カメラの光学軸に対応する光線は、イメージングモデルを経由して屈折され、検出されたターゲット領域の中心を通過する。また、仮想カメラの光学軸は、イメージングモデルの光学中心を示す。
図5は、一実施形態に係るイメージ処理方法で変形を防止する関心領域のプーリングの例を示す図である。
図5の例示において、第1イメージが魚眼イメージである場合、イメージ処理方法で第1イメージのイメージングモデルは魚眼カメラモデルであってもよい。図5に示すように、ターゲット領域に対して生成した仮想カメラの光学軸は点Ocと点Fを連結して決定された直線になる。該当直線に対応する光線は、魚眼カメラモデル(図5に示す球状)を通過して屈折された後、ターゲット領域のピクセル中心を通過する(図5に示す点E)。また、ターゲット領域仮想カメラのイメージ平面は、魚眼カメラモデルの球面に接し、イメージのy軸はZc-Oc-Pによって定義された平面にある。
一実施形態において、イメージ処理方法は仮想カメラを生成するとき、まず、ターゲット領域のピクセル中心である点Eと魚眼カメラモデルの光学中心Ocを連結して直線を決定することができる。次に、イメージ処理方法は、魚眼カメラモデルのパラメータにより該当直線が対応する光線が光学中心を通過した入射光線のうち、どのような光線の偏向によるものであるかを決定する。例えば、魚眼カメラモデルがKannala-Brandtモデルである場合、図3を参照して言及した数式(1)にて入射光線を決定することができる。したがって、その重複する説明は省略する。該当の入射光線に対応する直線が仮想カメラの光学軸である。イメージ処理方法は、光学軸が決定されると、光学軸に垂直である平面を仮想カメラの平面として決定することができる。ここで、仮想カメラの平面は、魚眼カメラモデルの球面に接する平面であってもよいが、これに限定されることはない。図5に示すように、仮想カメラの焦点距離Fは、図5に示す光学中心Ocと仮想カメラ平面の中心Fとの間の距離である。仮想カメラの平面ターゲット領域の仮想カメラの焦点距離Fはターゲット領域の大きさに応じて動的に算出され、変形を防止するためのターゲット領域特徴イメージのイメージ高さHとイメージ幅Wが固定された大きさを有することができる。
イメージ処理方法は、それぞれのターゲット領域に対して対応する仮想カメラを生成した後、各ターゲット領域の第1ターゲット領域特徴マップを生成された仮想カメラで空間的に変形させ、それぞれの変換された第1ターゲット領域特徴マップを生成することができる。例えば、イメージ処理方法は、イメージングモデルにより第1ターゲット領域特徴マップのうちの各特徴ポイントを対応する仮想カメラ平面にマッピングし、変換された第1ターゲット領域特徴マップを取得することができる。例えば、各特徴ポイントをイメージングモデルの光学中心に連結して1つの光線を決定し、イメージングモデルのパラメータにより該当光線に対応する入射光線及び仮想カメラ平面の交差点を決定し、このような交差点により変換された第1ターゲット領域特徴マップを取得することができる。
上述したように、イメージ処理方法は、第1ターゲット領域特徴マップを変換することによりターゲット領域の補正を実現することができる。
また、イメージ処理方法はステップS130において、補正されたターゲット領域に基づいて、ターゲット領域に対応するオブジェクトを処理する。例えば、変換された第1ターゲット領域特徴マップに基づいて、ターゲット領域に対応するオブジェクトを処理することができる。例えば、イメージ処理方法は、変換された第1ターゲット領域特徴マップに基づいて、ターゲット領域に対応するオブジェクトの第1属性情報を取得し、第1属性情報によりターゲット領域に対応するオブジェクトを処理する。例えば、イメージ処理方法は、変換された第1ターゲット領域特徴マップに基づいて、少なくとも1つの畳み込み神経網を用いてターゲット領域に対応するオブジェクトの第1属性情報を取得する。例えば、第1属性情報は、オブジェクトカテゴリー情報、マスク情報、キーポイント情報、及び/又は姿勢情報のうち少なくとも1つを含んでもよいが、これに限定されない。対応するように、イメージ処理方法は、互いに異なる属性情報により、ターゲット領域に対応するオブジェクトに対して互いに異なる処理を行ってもよい。例えば、イメージ処理方法は、オブジェクトに対して、オブジェクト認識、オブジェクト分割、及び/又はオブジェクト姿勢推定のうち少なくとも1つを行ってもよい。イメージ処理方法は、変換された第1ターゲット領域特徴マップに基づいて少なくとも1つの畳み込み神経網を用いて姿勢情報を取得できるが、オブジェクトのキーポイント情報を取得した後、n点透視(PnP、Perspective-n-Point)アルゴリズムなどを用いてオブジェクトの姿勢情報を決定してもよい。
第1イメージにオブジェクト変形が存在する場合、一実施形態に係るイメージ処理方法は、第1イメージ以外の他のイメージを用いてオブジェクトを処理することで、オブジェクトを処理した結果の正確度を更に向上させ得る。本開示の一実施形態によれば、イメージ処理方法は、第1イメージに関連する第2イメージを取得し、第2イメージに基づいてオブジェクトの第2属性情報を取得することをさらに含んでもよい。この場合、第1属性情報によりターゲット領域に対応するオブジェクトを処理することは、第1属性情報及び第2属性情報によりターゲット領域に対応するオブジェクトを処理することを含んでもよい。このような方式でオブジェクト処理効果をさらに向上させ得る。ここで、第2イメージも変形されたイメージであってもよい。上述したように、第1イメージは、左側魚眼イメージ及び右側魚眼イメージのいずれか1つであってもよく、ここで、第2イメージは、左側魚眼イメージ及び右側魚眼イメージのうち他の1つであってもよい。方法により、左側魚眼イメージ及び右側魚眼イメージの全てに基づいてオブジェクトをより正確に処理でき、例えば、オブジェクトの姿勢をより正確に推定することができる。
図6は、一実施形態に係るイメージ処理方法でオブジェクトの姿勢を推定する概略的な過程を示す図である。
例えば、本開示の一実施形態によれば、例えば、オブジェクトの姿勢推定をより正確に行うために、第1属性情報はオブジェクトの第1キーポイント情報(図面のうち、オブジェクトの2次元キーポイントに対応する(左側図))及び初期姿勢情報(図面の初期オブジェクト姿勢に対応する)を含んでもよい。
そして、第2属性情報は、オブジェクトの第2キーポイント情報(図面のうち、オブジェクトの2次元キーポイントに対応する(右側図))を含んでもよい。第1属性情報及び第2属性情報によりターゲット領域に対応するオブジェクトを処理することは、第1キーポイント情報、初期姿勢情報、及び第2キーポイント情報に基づいてオブジェクトの最終姿勢情報を推定することを含む(図面の立体6Dof姿勢最適化に対応する)。例えば、イメージ処理方法は、初期姿勢情報、第1イメージを生成する第1カメラのパラメータ、及び第2イメージを生成する第2カメラのパラメータに基づいて、第2イメージでオブジェクトに対応するターゲット領域を決定することができる。
そして、イメージ処理方法は、第2イメージ上のオブジェクトに対応するターゲット領域に基づいてオブジェクトの第2キーポイント情報を取得する動作を行って、オブジェクトの第2キーポイント情報を取得することができる。例えば、図6に示すように、第1イメージ及び第2イメージがそれぞれの左側魚眼イメージ及び右側魚眼イメージである場合、イメージ処理方法は、左側魚眼イメージ610に対してイメージ特徴抽出及びオブジェクト属性情報予測を行い612、オブジェクトの2次元キーポイント614と初期オブジェクト姿勢616を取得する。その後、イメージ処理方法は、初期オブジェクト姿勢616とステレオ魚眼カメラパラメータにより右側魚眼イメージでオブジェクトに対応するターゲット領域を決定624する(図6において、「オブジェクト領域投影624」という)。次に、イメージ処理方法は、右側魚眼イメージ620上の対応するターゲット領域に基づいてオブジェクトの2次元キーポイント632を取得することができる。次に、イメージ処理方法は、初期オブジェクト姿勢616、左側魚眼イメージにより取得した2次元キーポイント614、及び右側魚眼イメージにより取得した2次元キーポイント632に基づいて、オブジェクトの最終姿勢情報(例えば、初期姿勢情報に対して最適化)を推定640する。例えば、ステップ640において、イメージ処理方法は、オブジェクトの6Dof姿勢を推定することができる。
オブジェクト姿勢推定作業の目標は、オブジェクト座標系からカメラ座標系への回転及び並進を推定することにある。したがって、姿勢情報は、カメラ座標系の選択と密接に関わっている。オブジェクト姿勢推定を行うとき、ターゲット領域に対して生成された仮想カメラで生成した変換された第1ターゲット領域特徴マップを使用する場合、取得した初期姿勢情報は依然として仮想カメラ座標系の情報であるため、これを実際のカメラ(例えば、魚眼カメラ座標系)で再び切り替えて推定された姿勢情報を出力しなければならない。又は、後続ステップで、より正確な姿勢推定のために、初期姿勢情報を上述した第2キーポイント情報と結合して使用する場合にも、初期姿勢情報を実際のカメラ座標系に切り替える必要がある。
したがって、初期姿勢情報、第1イメージを生成する第1カメラのパラメータ及び第2イメージを生成する第2カメラのパラメータに基づいて第2イメージでオブジェクトに対応するターゲット領域を決定することは、初期姿勢情報及び第1カメラパラメータに基づいて第1カメラの座標系でオブジェクトの初期姿勢情報を決定し、第1カメラの座標系におけるオブジェクトの初期姿勢情報及び第2カメラのパラメータに基づいて第2カメラの座標系でオブジェクトの初期姿勢情報を決定し、第2カメラの座標系におけるオブジェクトの初期姿勢情報により第2イメージでオブジェクトに対応するターゲット領域を決定することを含む。即ち、イメージ処理方法は、仮想カメラ座標系における初期姿勢情報を実際のカメラ座標系における初期姿勢情報に切り替えた後、実際のカメラ座標系における初期姿勢情報を用いて第2イメージでオブジェクトに対応するターゲット領域を決定することができる。
例えば、第1イメージ及び第2イメージがそれぞれ左側魚眼イメージ及び右側魚眼イメージである場合、イメージ処理方法は、左側魚眼イメージに基づいて推定したオブジェクトの初期姿勢を右側魚眼イメージに投影し、右側魚眼イメージで対応する候補オブジェクト領域を決定することができる。例えば、イメージ処理方法は、ターゲット領域仮想カメラのパラメータ行列をKv、仮想カメラのカメラ座標系をOv-XvYvZvに仮定することができる。イメージ処理方法は、魚眼イメージ遠近補正イメージのカメラ内部パラメータをKcといい、左側魚眼カメラのカメラ座標系をOc-XcYcZcという。ターゲット領域にある仮想カメラの座標系で推定した姿勢情報は、回転行列Rvと並進ベクトルTvに表現され、これについて下記の数式(2)の例を介して、Oc-XcYcZc座標系における回転行列Rcと並進ベクトルTcに切り替えられる。
Figure 2023079211000003

ここで、inv( )は行列のインバースを求める関数である。
そして、イメージ処理方法は、決定された左右2つの魚眼カメラの外部パラメータを介して、左側魚眼カメラ座標系と右側魚眼カメラ座標系との間の回転及び並進変換を取得し、これから左側魚眼カメラの座標系におけるオブジェクトを右側魚眼カメラ座標系に回転及び並進変換することができる。次に、イメージ処理方法は、右側魚眼カメラの内部パラメータ(魚眼イメージのイメージングモデルのパラメータ)を用いて、右側魚眼イメージのイメージ平面にオブジェクトを投影し、右側魚眼イメージでオブジェクトに対応するターゲット領域を決定することができる。
上述したように、イメージ処理方法は、第2イメージでオブジェクトに対応するターゲット領域が決定されると、第2イメージ上のオブジェクトに対応するターゲット領域に基づいて、オブジェクトの第2キーポイント情報を取得することができる。例えば、イメージ処理方法は、第2イメージ上のオブジェクトに対応するターゲット領域を補正した後、補正されたターゲット領域に基づいてオブジェクトの第2キーポイント情報を取得してもよい。選択的に、イメージ処理方法は、第1イメージ上のターゲット領域を補正する同じ方式(即ち、上述した変形を防止するターゲット領域のプーリング)で、第2イメージ上の対応するターゲット領域を補正することができる。
図6を参照すると、イメージ処理方法は、右側魚眼イメージ620で第2イメージの特徴マップ622を取得した後、第2イメージ上のターゲット領域に対応する第2特徴領域を、第2ターゲット領域特徴マップとして第2イメージの特徴マップにて決定することができる。次に、第2ターゲット領域特徴マップを空間的に変換し、変換された第2ターゲット領域特徴マップを生成626する。
最後に、イメージ処理方法は、変換された第2ターゲット領域特徴マップに基づいて、オブジェクトの2次元キーポイント情報を取得632する。
例えば、イメージ処理方法は、第1イメージの特徴マップを取得する同じ方式で第2イメージの特徴マップを取得することができる。即ち、イメージ処理方法は、変形可能なCNNを用いて第2イメージの特徴マップを取得できる。その重複する説明は省略する。また、選択的に、算出量を減らして2次元キーポイント情報抽出の正確性を保障するために、第2イメージの特徴マップは、単に第2イメージのよりも高い解像度の特徴マップであってもよい。例えば、図6に示すように、イメージ処理方法は算出コストを減らし、2次元キーポイント特徴を正確に抽出するために、右側魚眼イメージから高解像度特徴のみを抽出して高解像度特徴マップ622を取得することができる。
また、イメージ処理方法は第1ターゲット領域特徴マップを空間的に変換し、変換された第1ターゲット領域特徴マップを生成する同じ方式で、第2ターゲット領域特徴マップを空間的に変換し、変換された第2ターゲット領域特徴マップを生成することができる。その重複する説明は省略する。
同様に、イメージ処理方法は、変換された第2ターゲット領域特徴マップを取得626した後、図6に示すように、変換された第2ターゲット領域特徴マップに基づいて、少なくとも1つの畳み込み神経網628,630を用いてオブジェクトの2次元キーポイント情報632を取得することができる。
第2キーポイント情報が取得されると、イメージ処理方法は、初期姿勢情報616、第1キーポイント情報614、及び2次元キーポイント情報632に基づいてオブジェクトの最終姿勢情報640を推定することができる。例えば、イメージ処理方法は、2つのイメージ(第1イメージと第2イメージ)でオブジェクトの2次元キーポイント再投影誤差の合計を最小化することによって、オブジェクトの最終姿勢情報を決定することができる。即ち、ステップ640は、初期姿勢を最適化することにある。例えば、誤差を最小化する最適化は、Lev-Marアルゴリズムのような非線型最適化アルゴリズムを使用してもよい。例えば、第1イメージ及び第2イメージが左側魚眼イメージ及び右側魚眼イメージである場合、最終姿勢を推定することは、下記の数式(3)の例のように表現される。
Figure 2023079211000004

ここで、初期姿勢情報を示す回転行列Rと並進ベクトルTが左側魚眼座標系に定義されており、左側魚眼カメラのターゲット領域の仮想カメラ座標系から左側魚眼カメラ座標系への変換を[Rvl-fl,Tvl-fl]に仮定すると、左側魚眼カメラの座標系における初期姿勢情報の回転行列Rv (l)及び変換Tv (l)は下記の数式(4)の例のように表現されてもよい。
Figure 2023079211000005

ここで、右側魚眼カメラのターゲット領域の仮想カメラ座標系から右側魚眼カメラ座標系への変換は[Rvr-fr,Tvr-fr]であり、右側魚眼カメラ座標系における初期姿勢情報の回転行列Rv (r)及び変換ベクトルTv (r)は下記の数式(5)のように表現されてもよい。
Figure 2023079211000006

ここで、[R(r),Tv (r)]は、初期姿勢情報と右側魚眼カメラとの間の回転及び並進パラメータに基づいて取得された初期姿勢情報を、右側魚眼座標系において示したものである。Piは、オブジェクトの3次元モデルに定義されたキーポイントであり、i=1、...、Nである。ここで、Nはオブジェクトのキーポイント数である。pi (lv)は左側魚眼イメージのターゲット領域仮想カメラから抽出したi番目のキーポイント位置であり、pi (rv)は右側魚眼イメージから抽出したi番目のキーポイント位置である。また、Kv (l)及びKv (r)はそれぞれ左側魚眼カメラと右側魚眼カメラの行列である。
上述したように、図6を参照して本開示の一実施形態に係る具体的なイメージ処理方法、即ち、オブジェクトの姿勢を推定する方法について説明した。図6に示されたオブジェクト姿勢推定方法によりオブジェクトの姿勢をさらに正確に推定することができる。
上記のように、図1~図6に結合して本開示の一実施形態に係るイメージ処理方法及びその例示について説明した。イメージ処理方法は、イメージ処理速度とオブジェクト処理効果を向上させ得る。
上述したイメージ処理方法に対するより明確な理解を容易にするために、図7を参照して上述したイメージ処理方法について簡略に説明する。
図7は、一実施形態に係るイメージ処理方法でイメージを処理する過程を概略的に示す図である。図8は、一実施形態に係るイメージ処理方法でイメージを処理する過程を概略的に示す図である。図8は、図7に示す例をより具体化した図である。
図7の例示において、第1イメージは左側魚眼イメージ710であり、第2イメージは右側魚眼イメージ750である。イメージ処理方法は、左側魚眼イメージ710に基づいて先に説明した変形可能なCNNから構成されたピラミッド(図面のうち変形可能ピラミッドネットワーク720に対応する)を用いて複数の特徴マップを取得することができる。例えば、図8に示すように、左側魚眼イメージ710は、各スケールに応じて、第1イメージ220の大きさの1/2の大きさに縮小されたスケーリングされたイメージ811、第1イメージ220の大きさの1/4の大きさに縮小されたスケーリングされたイメージ812、及び第1イメージ220の大きさの1/8の大きさに縮小されたスケーリングされたイメージ813に縮小されてもよい。
イメージ処理方法は、上述した変形可能なCNNに基づいて複数のスケールされたイメージ811,812,813から特徴を抽出融合して3つの特徴マップ821,822,823を生成することができる。
イメージ処理方法は、3つの特徴マップ821,822,823のうち2つの低解像度特徴マップ821,822に基づいてターゲット領域提案ネットワーク741(例えば、畳み込み神経網など)を用いて、左側魚眼イメージ710のうちのターゲット領域を検出することができる。
その後、イメージ処理方法は、検出されたオブジェクト領域を補正(図7において「変形を防止するターゲット領域のプーリング(pooling)742」という)することができる。例えば、融合した高解像度特徴マップ823から検出されたターゲット領域に対応するターゲット領域特徴マップが決定されると、魚眼レンズのパラメータ830(即ち、魚眼イメージのイメージングモデルのパラメータ)により決定されたターゲット領域特徴マップを空間的に変換し、変換されたターゲット領域特徴マップを生成することができる。その次に、イメージ処理方法は、少なくとも1つのCNN743,744を用いて、オブジェクトカテゴリー840、オブジェクトマスクマップ746、2次元キーポイント(左側図)747、初期化姿勢748のようなオブジェクトの属性情報を取得することができる。
イメージ処理方法は、推定されたオブジェクトの姿勢をより正確にするために、図7の例示において、右側魚眼イメージ750に基づいてキーポイント情報(図7に示す「2次元キーポイント(右側図)774」)を取得した後、左側魚眼イメージ710により取得した初期化姿勢748及び2次元キーポイント(左側図)747と結合し、6Dof姿勢を推定780することができる。例えば、イメージ処理方法は、図7に示すように、変形可能なCNN760を用いて右側魚眼イメージの特徴マップを取得してもよい。例えば、イメージ処理方法は、図8に示すように、変形可能なCNNを用いて右側魚眼イメージの高解像度特徴マップ860をしてもよい。そして、イメージ処理方法は、初期姿勢情報748とステレオ魚眼レンズの内部及び外部パラメータ830に基づいてオブジェクト領域の投影を実行850し、右側魚眼イメージ750上のオブジェクトに対応するターゲット領域を決定することができる。そして、イメージ処理方法は、変形を防止するターゲット領域のプーリングを用いて該当ターゲット領域を補正することができる。例えば、イメージ処理方法は、右側魚眼イメージ750の高解像度特徴マップ860で該当ターゲット領域に対応するターゲット領域特徴マップを決定し、これを空間的に変形し、変換されたターゲット領域特徴マップを生成771する。変換されたターゲット領域特徴マップは、少なくとも1つのCNN772,773に入力され、最終的に2次元キーポイント(右側図)774を取得することができる。
最後に、イメージ処理方法は、初期化姿勢748、左側魚眼イメージで取得した2次元キーポイントの左側図747、及び右側魚眼イメージから取得した2次元キーポイントの右側図774に基づいてオブジェクト姿勢を最適化780できる。
図7及び図8に示す実施形態において、イメージ処理方法は、左側魚眼イメージ710に対してピラミッド720を構成したが、ここで、低解像度特徴マップ821,822は、ターゲット領域提案ネットワーク741(即ち、関心領域予測)に使用され、高解像度特徴マップ823は、2次元キーポイント747の正確な抽出に使用される。イメージ処理方法は、左側魚眼イメージ710で予めターゲット領域を予測するので、右側魚眼イメージ750に対して高解像度の特徴のみを算出する。このように、イメージ処理方法は算出量を効率よく減らし、同時に、左側魚眼イメージ710により取得した2次元キーポイント情報747と結合して姿勢を推定することから、姿勢推定がより正確になる。キーポイント特徴は、オブジェクト6DoF姿勢を決定するために効果的である。図7の例示では、左側及び右側魚眼イメージからキーポイントを抽出し、キーポイント再投影誤差を最小化して姿勢推定を最適化する。
図7及び図8の実施形態によれば、イメージ処理方法は、ステレオ魚眼イメージを用いて3次元オブジェクト分割及び姿勢推定を迅速に実現することができる。当該の技術は、拡張現実などのように、環境で3次元オブジェクトの姿勢を認識して相互作用しなければならない作業シナリオに使用され得る。例えば、拡張現実技術は、ユーザの前の実際の場面に仮想コンテンツを追加してユーザに実感できる情報経験を提供することができる。3次元空間で高品質の仮想現実融合効果をユーザに提供するために、拡張現実システムは、周辺事物の3次元状態に対して、高い精密度のリアルタイム処理及び理解能力を備えなければならない。一方、自律走行のようなシナリオで、環境のうち車両のような物体に対する分割及び姿勢推定も必要である。
図9は、一実施形態に係るイメージ処理方法が適用されるシナリオの例を示す図である。
図9に示すように、ユーザがステレオ魚眼カメラが装着された拡張現実メガネ910を着用した状態で、一実施形態に係るイメージ処理方法は、ステレオ魚眼イメージ(左側魚眼イメージ及び右側魚眼イメージ)に基づいてステレオ魚眼イメージのうち実際のオブジェクト(例えば、テーブル)の3次元姿勢を推定することができる。拡張現実メガネ910は、オブジェクトの3次元姿勢が推定されると、実際のオブジェクトの3次元姿勢により仮想の3次元グラフィックコンテンツ(例えば、エンジン)を実際のオブジェクトの表面に重複表示920することによって、ユーザの拡張現実経験を向上させることができる。
上記の説明において、図1に示すイメージ処理方法を説明することにおいて、変形可能なCNNを用いて第1イメージの特徴を抽出して第1イメージの特徴マップを取得し、取得した特徴マップに基づいて第1イメージのうちのターゲット領域を検出し、ターゲット領域を補正した後、補正されたターゲット領域に基づいてオブジェクトを処理することについて説明した。しかし、イメージ処理方法は、変形可能なCNNを用いてオブジェクトの変形が存在するオブジェクトの特徴を抽出して特徴マップを取得した後、取得した特徴マップに基づいてオブジェクトを直接処理してもよい。即ち、イメージ処理方法は、先に説明した変形可能なCNNを単独で用いてオブジェクト処理を行うが、それから従来の技術でオブジェクト変形のある全体イメージを補正する時間消耗を防止し、変形可能なCNNを使用することで、一般的なCNNでオブジェクト変形のあるイメージを抽出するときに生じるサンプリングの歪みを防止し、イメージ特徴をより正確に抽出して後続のオブジェクト処理効果を改善することができる。
したがって、本開示の他の実施形態によれば、図10に示したイメージ処理方法が提供されてもよい。
図10は、他の実施形態に係るイメージ処理方法のフローチャートである。
以下で説明するステップS1010及びステップS1020は順次に行われるが、必ず順次に行われなくてもよい。例えば、ステップS1010及びステップS1020は互いに異なる順に行われてもよく、ステップS1010及びステップS1020のうち少なくとも2ステップは並列又は同時に行われてもよい。また、図示された例示の意図及び範囲を超過しないながらも、ステップS1010及びステップS1020のうち1つ以上は省略されてもよい。図10を参照して後述するステップS1010及びステップS1020は次の通りである。図10は、本開示で説明された電子装置(例えば、図11に示すイメージ処理装置1100、図12に示すイメージ処理装置1200及び/又は図13に示す電子装置1300)の1つ以上の構成要素によって行われてもよい。
図10を参照すると、イメージ処理方法は、ステップS1010において、畳み込み神経網を用いて第1イメージに対して畳み込み動作を行い、第1イメージの特徴マップを取得する。ここで、畳み込み神経網は、第1イメージ上の少なくとも1つの位置のうち各位置に対して、各位置に対応する畳み込みカーネル関数を用いて畳み込み動作を行ってもよい。例えば、第1イメージは、オブジェクトの変形が存在するイメージであってもよい。
例えば、ステップS1010において、イメージ処理方法は、第1イメージ上の少なくとも1つの位置のうち、各位置に対応する畳み込みカーネル関数のサンプリング位置を取得することができる。ここで、畳み込みカーネル関数のサンプリング位置は、第1イメージのイメージングモデルにより決定されてもよい。次に、イメージ処理方法は、各位置に対応する畳み込みカーネル関数のサンプリング位置に応じて、畳み込み動作を行って特徴マップを取得することができる。例えば、畳み込みカーネル関数のサンプリング位置はイメージングモデルにより、3次元空間で各位置の畳み込みカーネル関数のサンプリング位置を決定し、3次元空間における畳み込みカーネル関数のサンプリング位置及びイメージングモデルにより、第1イメージで各位置に対応する畳み込みカーネル関数のサンプリング位置を決定する方式を介して決定され得る。変形可能なCNNが行う動作については、上記の説明で詳しく説明したので、その重複する説明は省略する。
イメージ処理方法は、ステップS1020において、特徴マップに基づいて第1イメージのうちのオブジェクトを処理する。上述したように、イメージ処理方法は、特徴マップを取得した後、特徴マップに基づいて第1イメージのターゲット領域を検出し、検出されたターゲット領域を補正し、補正されたターゲット領域に基づいてターゲット領域に対応するオブジェクトを処理することができる。動作の詳しい内容は、上記の図1に示すイメージ処理方法で説明されるので、その重複する説明は省略する。
図10に示したイメージ処理方法は、全体イメージを補正する時間消耗を減らし、一般的なCNNでイメージを抽出するとき生じるサンプリングの歪みを避けることができるため、イメージをより正確に抽出し、後続するイメージ処理効果を改善することができる。
図11は、一実施形態に係るイメージ処理装置のブロック図である。
図11を参照すると、イメージ処理装置1100は、検出部1101、補正部1102、及びイメージ処理部1103を含む。例えば、検出部1101は、第1イメージの特徴マップを取得し、特徴マップに基づいて第1イメージのうちのターゲット領域を検出する。補正部1102は、検出されたターゲット領域を補正する。イメージ処理部1103は、補正されたターゲット領域に基づいてターゲット領域に対応するオブジェクトを処理することができる。
図1に示されたイメージ処理方法は、図11に示されたイメージ処理装置1100によって実行され、検出部1101でステップS110を行い、補正部1102でステップS120を行い、イメージ処理部1103でステップS130を行ってもよい。図11に示す検出部1101、補正部1102、及びイメージ処理部1103が行う動作に関する任意の細部事項は、図1に示す説明を参照できるため、その重複する説明は省略する。
図12は、他の実施形態に係るイメージ処理装置のブロック図である。
図12を参照すると、イメージ処理装置1200は、取得部1201及びイメージ処理部1202を含む。
具体的に、取得部1201は、畳み込み神経網を用いて第1イメージに対して畳み込み動作を行い、第1イメージの特徴マップを取得することができる。ここで、畳み込み神経網は、第1イメージ上の少なくとも1つの位置のうち各位置に対して、各位置に対応する畳み込みカーネル関数を用いて畳み込み動作を行ってもよい。
イメージ処理部1202は、特徴マップに基づいて第1イメージのうちのオブジェクトを処理することができる。
図10に示すイメージ処理方法は、図12に示すイメージ処理装置1200によって行われてもよい。取得部1201はステップS1010を実行し、イメージ処理部1202はステップS1020を行う。
図12の取得部1201及びイメージ処理部1202が行う動作に関する任意の詳細は、図10の説明を参照できるため、その重複する説明は省略する
また、イメージ処理装置1100及びイメージ処理装置1200で対応する処理をそれぞれ行う構成に区分して説明したが、イメージ処理装置1100、1200が特定構成に分割されていないか、構成間に明確な境界がない場合にも各構成において処理を実行することは自明である。また、イメージ処理装置1100及びイメージ処理装置1200は、他の構成、例えば、格納部などをさらに含んでもよい。
図13は、一実施形態に係る電子機器のブロック図である。
図13を参照すると、電子機器1300は、メモリ1301(例えば、少なくとも1つのメモリ)及びプロセッサ1302(例えば、少なくとも1つのプロセッサ)を含んでもよい。メモリ1301は、コンピュータで実行可能な命令語を格納し、プロセッサ1302によってコンピュータで実行可能な命令語が行われることにより、プロセッサ1302が本開示の実施形態のイメージ処理方法を実行することを可能にする。上述したイメージ処理方法は、人工知能モデルを用いて行われてもよい。
メモリ1301は、プロセッサ1302によって行われるとき、プロセッサ1302が参照と共に本開示の図1~図12に説明された動作及び方法のうち任意の1つ、任意の組み合わせ、又は、全てを行うように構成している命令語を格納する非一時的なコンピュータで読み出し可能な格納媒体やこれを含んでもよい。プロセッサ1302は、図1~図12を参照して本開示に説明された動作及び方法のうち、任意の1つ、任意の組み合わせ、又は、全てを行ってもよい。
上述した様々な構成のうち少なくとも1つは、人工知能(AI,Artificial Intelligence)モデルを介して実現されてもよい。AIに関する機能は、不揮発性メモリ、揮発性メモリ及びプロセッサを介して行われてもよい。
少なくとも1つのプロセッサ1302は、中央処理ユニット(CPU)、アプリケーションプロセッサ(AP)などのような汎用プロセッサや、グラフィック処理ユニット(GPU)、視覚処理ユニット(VPU)及び/又は神経網処理ユニット(NPU)のようなAI専用プロセッサのような純粋グラフィック処理ユニットであってもよい。
少なくとも1つのプロセッサ1302は、不揮発性メモリ及び揮発性メモリに格納されている予め定義された動作規則又は人工知能(AI)モデルにより入力データの処理を制御することができる。少なくとも1つのプロセッサ1302は、訓練又は学習を介して予め定められる動作規則又は人工知能モデルを提供する。ここで、学習を通した提供は、学習アルゴリズムを様々な学習データに適用して予め定義された動作規則又は所望する特性を有するAIモデルを取得することを意味する。該当学習は、実施形態に係るAIが行われる装置そのもので行われてもよく、及び/又は別途のサーバ/システムを介して実現されてもよい。
学習アルゴリズムは、マルチ学習データを用いて予め定められる目標装置(例えば、ロボット)を訓練して目標装置を決定したり、予測したり、許容したりする制御する方法である。該当学習アルゴリズムは、例えば、教師あり学習(supervised learning)、教師なし学習、半教師あり学習、又は強化学習を含むが、これに限定されない。
本開示の電子機器で行われるイメージ処理方法において、人工知能モデルの入力データとして入力イメージを用いてターゲット領域を処理した後の出力イメージを取得することができる。
AIモデルは、訓練を介して取得されてもよい。ここで、「訓練を通した取得」とは、訓練アルゴリズムを介して複数の訓練データで基本AIモデルを訓練させ、所望する特徴(又は、目的)を行うように構成された予め定義された動作規則又はAIモデルを取得することを意味する。
例えば、AIモデルには、複数の神経網レイヤが含まれてもよい。複数の神経網レイヤそれぞれは複数の加重値を含み、神経網算出は、以前レイヤの算出結果と複数の加重値との間の算出によって行われてもよい。神経網は、例えば、畳み込み神経網(CNN)、深層神経網(DNN)、再帰型神経網(RNN)、制限ボルツマンマシーン(RBM)、深層信念ネットワーク(DBN)、双方向再帰型深層ネットワーク(BRDNN)、敵対的生成ネットワーク(GAN)及び深層Qネットワークを含むが、これに限定されない。
例えば、電子機器は、PCコンピュータ、タブレット装置、個人携帯情報端末、スマートフォン、又は、上記の命令語セットを実行できる他の装置であってもよい。ここで、電子機器は、単一電子機器である必要はなく、個別的又は共同に上述した命令語(又は、命令語セット)を実行できる任意の装置又は回路の集合であってもよい。電子機器は、また、統合制御システム又はシステム管理器の一部であってもよく、ローカル又は遠隔に(例えば、無線送信を介して)インターフェースに接続される携帯用電子機器から構成されてもよい。
電子機器でプロセッサは、中央処理装置(CPU)、グラフィック処理装置(GPU)、プログラム可能論理装置、特殊目的プロセッサシステム、マイクロコントローラ又はマイクロプロセッサーを含んでもよい。プロセッサは、また、アナログプロセッサ、デジタルプロセッサ、マイクロプロセッサー、マルチコアプロセッサ、プロセッサアレイ、ネットワークプロセッサなどを含むが、これに限定されない。
プロセッサは、メモリに格納された命令語又はコードを実行することができる。ここで、メモリは、データを格納してもい。命令語及びデータは、また、ネットワークインターフェース装置を介してネットワークを通じて送受信され、ここで、ネットワークインターフェース装置は、任意の知られている送信プロトコルを採択することができる。
メモリは、RAMやフラッシュメモリを集積回路マイクロプロセッサ内に配置するなどの方式でプロセッサと統合されてもよい。さらに、メモリは、外部ディスクドライブ、格納アレイ、又は、データベースシステムによって使用される任意の他の格納装置のような別途の装置を含んでもよい。メモリとプロセッサの動作は結合されてもよく、又は、例えば、I/Oポート、ネットワーク接続などを介して通信し、プロセッサがメモリに格納されたファイルを読出すことができる。
また、電子機器は、ビデオディスプレイ(例えば、液晶ディスプレイ)及びユーザ相互作用インターフェース(例えば、キーボード、マウス、タッチ入力装置など)を含んでもよい。電子機器の全ての構成要素は、バス及び/又はネットワークを介して接続されてもよい。
実施形態に係る方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。上記で説明したハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行され、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態に結合又は組み合わせられてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
したがって、本開示の保護範囲は、実施形態の全ての変形及びこの等価物を含み得る。
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行され、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態に結合又は組み合わせられてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
したがって、他の具現、他の実施形態および特許請求の範囲と均等なものも後述する特許請求範囲の範囲に属する。


[1]

Claims (20)

  1. 第1イメージの特徴マップを生成し、前記特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップと、
    検出されたターゲット領域を補正するステップと、
    補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップと、
    を含むイメージ処理方法。
  2. 前記第1イメージの特徴マップを生成し、前記特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップは、
    少なくとも1つのスケーリングされたイメージから前記第1イメージの特徴を抽出して前記第1イメージの少なくとも1つの特徴マップを生成するステップと、
    前記少なくとも1つの特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップと、
    を含む、請求項1に記載のイメージ処理方法。
  3. 前記少なくとも1つのスケーリングされたイメージから前記第1イメージの特徴を抽出して前記第1イメージの少なくとも1つの特徴マップを生成するステップは、前記少なくとも1つのスケーリングされたイメージそれぞれに対して、畳み込み神経網で畳み込み動作を行って前記少なくとも1つのスケールそれぞれの特徴マップを生成するステップを含み、
    前記少なくとも1つのスケーリングされたイメージそれぞれに対して前記畳み込み神経網は、前記少なくとも1つの位置それぞれに対応する畳み込みカーネルを用いて、前記スケーリングされたイメージ上の少なくとも1つの位置それぞれに対して前記畳み込み動作を行う、請求項2に記載のイメージ処理方法。
  4. 前記少なくとも1つのスケーリングされたイメージそれぞれに対して前記畳み込み神経網で前記畳み込み動作を行って前記少なくとも1つのスケールそれぞれの特徴マップを生成するステップは、
    前記少なくとも1つのスケーリングされたイメージ上の前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップと、
    前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置に応じて前記畳み込み動作を行って前記少なくとも1つのスケールそれぞれの特徴マップを生成するステップと、
    を含む、請求項3に記載のイメージ処理方法。
  5. 前記少なくとも1つのスケーリングされたイメージ上の前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップは、
    前記第1イメージのイメージングモデルにより、3次元空間で前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップと、
    前記3次元空間における前記畳み込みカーネルのサンプリング位置及び前記イメージングモデルにより、前記スケーリングされたイメージで前記少なくとも1つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップと、
    を含む、請求項4に記載のイメージ処理方法。
  6. 前記少なくとも1つの特徴マップは、
    複数の特徴マップであり、
    前記少なくとも1つの特徴マップに基づいて前記第1イメージからターゲット領域を検出するステップは、前記複数の特徴マップで隣接するスケールの特徴マップを融合し、少なくとも1つの融合した特徴マップに基づいて前記第1イメージからターゲット領域を検出する、請求項2に記載のイメージ処理方法。
  7. 前記検出されたターゲット領域を補正するステップは、
    前記第1イメージの特徴マップで前記検出されたターゲット領域に対応する第1特徴領域を第1ターゲット領域特徴マップとして決定するステップと、
    前記第1ターゲット領域特徴マップを空間的に変換し、変換された第1ターゲット領域特徴マップを生成するステップと、
    を含み、
    前記補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップは、前記変換された第1ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトを処理するステップを含む、請求項1に記載のイメージ処理方法。
  8. 前記第1ターゲット領域特徴マップを空間的に変換し、前記変換された第1ターゲット領域特徴マップを生成するステップは、
    前記第1イメージのイメージングモデル及び前記検出されたターゲット領域により前記ターゲット領域に対応する仮想カメラを生成するステップと、
    前記第1ターゲット領域特徴マップを前記仮想カメラに空間的に変換し、前記変換された第1ターゲット領域特徴マップを生成するステップと、
    を含む、請求項7に記載のイメージ処理方法。
  9. 前記変換された第1ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトを処理するステップは、
    前記変換された第1ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトの第1属性情報を生成するステップと、
    前記第1属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップと、
    を含む、請求項7に記載のイメージ処理方法。
  10. 前記第1イメージに関連する第2イメージを生成するステップと、
    前記第2イメージに基づいて前記オブジェクトの第2属性情報を生成するステップと、
    をさらに含み、
    前記第1属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップは、前記第1属性情報及び前記第2属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップを含む、請求項9に記載のイメージ処理方法。
  11. 前記ターゲット領域に対応するオブジェクトを処理するステップは、前記オブジェクトに対するオブジェクト認識、オブジェクト分割及びオブジェクト姿勢推定のうち少なくとも1つを行うステップを含む、請求項9に記載のイメージ処理方法。
  12. 前記第1属性情報は、前記オブジェクトのカテゴリー情報、前記オブジェクトのマスク情報、前記オブジェクトのキーポイント情報、及び前記オブジェクトの姿勢情報のうち少なくとも1つを含む、請求項9に記載のイメージ処理方法。
  13. 前記第1属性情報は、前記オブジェクトの第1キーポイント情報及び初期姿勢情報を含み、
    前記第2属性情報は、前記オブジェクトの第2キーポイント情報を含み、
    前記第1属性情報及び前記第2属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップは、前記初期姿勢情報、前記第1キーポイント情報、及び前記第2キーポイント情報に基づいて前記オブジェクトの最終姿勢情報を推定するステップを含む、請求項10に記載のイメージ処理方法。
  14. 前記第2イメージに基づいて前記オブジェクトの前記第2属性情報を生成するステップは、
    前記初期姿勢情報及び前記第1イメージを生成する第1カメラのパラメータ、及び前記第2イメージを生成する第2カメラのパラメータに基づいて、前記第2イメージで前記オブジェクトに対応するターゲット領域を決定するステップと、
    前記第2イメージ上の前記オブジェクトに対応するターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップと、
    を含む、請求項13に記載のイメージ処理方法。
  15. 前記初期姿勢情報及び前記第1イメージを生成する前記第1カメラのパラメータ、及び前記第2イメージを生成する前記第2カメラのパラメータに基づいて、前記第2イメージで前記オブジェクトに対応するターゲット領域を決定するステップは、
    前記初期姿勢情報及び前記第1カメラのパラメータに基づいて前記第1カメラの座標系で前記オブジェクトの初期姿勢情報を決定するステップと、
    前記第1カメラの座標系における前記オブジェクトの初期姿勢情報及び前記第2カメラのパラメータに基づいて前記第2カメラの座標系で前記オブジェクトの初期姿勢情報を決定するステップと、
    前記第2カメラの座標系における前記オブジェクトの初期姿勢情報により前記第2イメージで前記オブジェクトに対応するターゲット領域を決定するステップと、
    を含む、請求項14に記載のイメージ処理方法。
  16. 前記第2イメージ上の前記オブジェクトに対応するターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップは、
    前記第2イメージ上の前記オブジェクトに対応するターゲット領域を補正するステップと、
    前記第2イメージ上の補正されたターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップと、
    を含む、請求項14に記載のイメージ処理方法。
  17. 前記第2イメージ上の前記オブジェクトに対応するターゲット領域を補正するステップは、
    前記第2イメージの特徴マップを生成するステップと、
    前記第2イメージの特徴マップで前記第2イメージ上のターゲット領域に対応する第2特徴領域を第2ターゲット領域特徴マップとして決定するステップと、
    前記第2ターゲット領域特徴マップを空間的に変換し、変換された第2ターゲット領域特徴マップを生成するステップと、
    を含み、
    前記第2イメージ上の補正されたターゲット領域に基づいて前記オブジェクトの前記第2キーポイント情報を生成するステップは、前記変換された第2ターゲット領域特徴マップに基づいて前記オブジェクトの第2キーポイント情報を生成するステップを含む、請求項16に記載のイメージ処理方法。
  18. 請求項1に記載の方法を実行するためのプログラムが記録されていることを特徴とするコンピュータで読み出し可能な記録媒体。
  19. 畳み込み神経網を用いて、第1イメージ上の少なくとも1つの位置それぞれに対応する畳み込みカーネルを用いて前記第1イメージに対して畳み込み動作を行って前記第1イメージの特徴マップを生成するステップと、
    前記第1イメージの特徴マップに基づいて前記第1イメージのうちのオブジェクトを処理するステップと、
    を含むイメージ処理方法。
  20. プロセッサを含むイメージ処理装置であって、
    前記プロセッサは、
    第1イメージの特徴マップを生成し、前記特徴マップに基づいて前記第1イメージからターゲット領域を検出し、
    検出されたターゲット領域を補正し、
    補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理する、イメージ処理装置。
JP2022188155A 2021-11-26 2022-11-25 イメージ処理装置及び方法 Pending JP2023079211A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN202111421144.0 2021-11-26
CN202111421144.0A CN116188349A (zh) 2021-11-26 2021-11-26 图像处理方法、装置、电子设备及存储介质
KR1020220122436A KR20230078502A (ko) 2021-11-26 2022-09-27 이미지 처리 장치 및 방법
KR10-2022-0122436 2022-09-27

Publications (1)

Publication Number Publication Date
JP2023079211A true JP2023079211A (ja) 2023-06-07

Family

ID=84363081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022188155A Pending JP2023079211A (ja) 2021-11-26 2022-11-25 イメージ処理装置及び方法

Country Status (3)

Country Link
US (1) US20230169755A1 (ja)
EP (1) EP4187483A1 (ja)
JP (1) JP2023079211A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152400B (zh) * 2023-10-30 2024-03-19 武汉苍穹融新科技有限公司 交通道路上多路连续视频与三维孪生场景融合方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104584071B (zh) * 2012-08-23 2018-01-26 日本电气株式会社 物体识别装置、物体识别方法

Also Published As

Publication number Publication date
EP4187483A1 (en) 2023-05-31
US20230169755A1 (en) 2023-06-01

Similar Documents

Publication Publication Date Title
US10740897B2 (en) Method and device for three-dimensional feature-embedded image object component-level semantic segmentation
US11315266B2 (en) Self-supervised depth estimation method and system
JP7155271B2 (ja) 画像処理システム及び画像処理方法
US11514642B2 (en) Method and apparatus for generating two-dimensional image data describing a three-dimensional image
WO2020206708A1 (zh) 障碍物的识别方法、装置、计算机设备和存储介质
WO2022156626A1 (zh) 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品
JP7345664B2 (ja) 不確実性を有するランドマーク位置推定のための画像処理システムおよび方法
CN109919971B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
WO2020048484A1 (zh) 超分辨图像重建方法、装置、终端和存储介质
JP2014520333A (ja) 3次元画像モデル適応のための方法および装置
JP7441917B2 (ja) 顔に対する射影歪み補正
JP7064257B2 (ja) 画像深度確定方法及び生き物認識方法、回路、装置、記憶媒体
US11941781B2 (en) Method and apparatus for restoring image
WO2021098545A1 (zh) 一种姿势确定方法、装置、设备、存储介质、芯片及产品
JP2024026745A (ja) 人工知能ニューラルネットワークの推論または訓練に対する、故意に歪みを制御する撮像装置の利用
JP2023079211A (ja) イメージ処理装置及び方法
CN112991537A (zh) 城市场景重建方法、装置、计算机设备和存储介质
CN108876704B (zh) 人脸图像变形的方法、装置及计算机存储介质
KR20230078502A (ko) 이미지 처리 장치 및 방법
JP2022153857A (ja) 画像処理装置、画像処理方法、移動装置、及びコンピュータプログラム
US11080920B2 (en) Method of displaying an object
WO2023066143A1 (zh) 全景图像的图像分割方法、装置、计算机设备和存储介质
US20210042607A1 (en) Cross-domain metric learning system and method
US20240062495A1 (en) Deformable neural radiance field for editing facial pose and facial expression in neural 3d scenes
JP2023098597A (ja) 映像処理方法及び装置