JP2023079211A

JP2023079211A - イメージ処理装置及び方法

Info

Publication number: JP2023079211A
Application number: JP2022188155A
Authority: JP
Inventors: へバオ; Bao He; ワンハオ; Hao Wang; 知▲よん▼ 金; Jiyeon Kim; 現盛張; Hyun-Sung Chang; ワンチアン; Qiang Wang; 性勳洪; Sung-Hoon Hong; リウエイミン; Weiming Li
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-11-26
Filing date: 2022-11-25
Publication date: 2023-06-07
Also published as: EP4187483A1; US20230169755A1

Abstract

【課題】本開示はイメージ処理装置及び方法を提供する【解決手段】イメージ処理方法は、第１イメージの特徴マップを取得し、特徴マップに基づいて第１イメージからターゲット領域を検出するステップと、検出されたターゲット領域を補正するステップ及び補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップとを含む。また、イメージ処理方法は、人工知能モデルを用いて実行されることができる。【選択図】図１

Description

本開示はイメージ処理方法及び装置に関する。

イメージを処理する前に、オブジェクト処理効果を保障するために全体イメージを補正した後、補正された全体イメージを基準にしてオブジェクトを処理する。例えば、魚眼カメラで撮影した魚眼イメージは明確な歪みを含むことがある。一般的なイメージ処理方法は、魚眼イメージのうちオブジェクトを処理する前に全体の魚眼イメージを補正し、補正された全体イメージに基づいてオブジェクトを処理する（例えば、オブジェクト認識、分割及び姿勢推定）。しかし、このようなイメージ処理方式は、全体イメージを補正するときオブジェクトが大幅に増加し、後続するオブジェクトの処理効果が小さくなるだけでなく、イメージ処理速度が遅くなる。このような観点から、オブジェクト処理効果を向上させたりイメージ処理速度を向上させたりすることのできるより優れたイメージ処理技術が求められている。

本発明の目的は、イメージ処理装置及び方法を提供することにある。

一実施形態に係るイメージ処理方法は、第１イメージの特徴マップを生成し、前記特徴マップに基づいて前記第１イメージからターゲット領域を検出するステップと、検出されたターゲット領域を補正するステップと、補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップとを含む。
ここで、前記第１イメージの特徴マップを生成し、前記特徴マップに基づいて前記第１イメージからターゲット領域を検出するステップは、少なくとも１つのスケーリングされたイメージから前記第１イメージの特徴を抽出して前記第１イメージの少なくとも１つの特徴マップを生成するステップと、前記少なくとも１つの特徴マップに基づいて前記第１イメージからターゲット領域を検出するステップとを含むことができる。

ここで、前記少なくとも１つのスケーリングされたイメージから前記第１イメージの特徴を抽出して前記第１イメージの少なくとも１つの特徴マップを生成するステップは、前記少なくとも１つのスケーリングされたイメージそれぞれに対して、畳み込み神経網（畳み込みニューラルネットワーク）で畳み込み動作を行って前記少なくとも１つのスケールそれぞれの特徴マップを生成するステップを含み、前記少なくとも１つのスケーリングされたイメージそれぞれに対して前記畳み込み神経網は、前記少なくとも１つの位置それぞれに対応する畳み込みカーネルを用いて、前記スケーリングされたイメージ上の少なくとも１つの位置それぞれに対して前記畳み込み動作を行うことができる。

ここで、前記少なくとも１つのスケーリングされたイメージそれぞれに対して前記畳み込み神経網で前記畳み込み動作を行って前記少なくとも１つのスケールそれぞれの特徴マップを生成するステップは、前記少なくとも１つのスケーリングされたイメージ上の前記少なくとも１つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップと、前記少なくとも１つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置に応じて前記畳み込み動作を行って前記少なくとも１つのスケールそれぞれの特徴マップを生成するステップとを含むことができる。

ここで、前記少なくとも１つのスケーリングされたイメージ上の前記少なくとも１つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップは、前記第１イメージのイメージングモデルにより、３次元空間で前記少なくとも１つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップと、前記３次元空間における前記畳み込みカーネルのサンプリング位置及び前記イメージングモデルにより、前記スケーリングされたイメージで前記少なくとも１つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップとを含むことができる。

ここで、前記少なくとも１つの特徴マップは、複数の特徴マップであり、前記少なくとも１つの特徴マップに基づいて前記第１イメージからターゲット領域を検出するステップは、前記複数の特徴マップで隣接するスケールの特徴マップを融合し、少なくとも１つの融合した特徴マップに基づいて前記第１イメージからターゲット領域を検出することができる。

ここで、前記検出されたターゲット領域を補正するステップは、前記第１イメージの特徴マップで前記検出されたターゲット領域に対応する第１特徴領域を第１ターゲット領域特徴マップとして決定するステップと、前記第１ターゲット領域特徴マップを空間的に変換し、変換された第１ターゲット領域特徴マップを生成するステップとを含み、前記補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップは、前記変換された第１ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトを処理するステップを含むことができる。

ここで、前記第１ターゲット領域特徴マップを空間的に変換し、前記変換された第１ターゲット領域特徴マップを生成するステップは、前記第１イメージのイメージングモデル及び前記検出されたターゲット領域により前記ターゲット領域に対応する仮想カメラを生成するステップと、前記第１ターゲット領域特徴マップを前記仮想カメラに空間的に変換し、前記変換された第１ターゲット領域特徴マップを生成するステップとを含むことができる。

ここで、前記変換された第１ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトを処理するステップは、前記変換された第１ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトの第１属性情報を生成するステップと、前記第１属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップとを含むことができる。

本発明のイメージ処理方法は、前記第１イメージに関連する第２イメージを生成するステップと、前記第２イメージに基づいて前記オブジェクトの第２属性情報を生成するステップとをさらに含み、前記第１属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップは、前記第１属性情報及び前記第２属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップを含むことができる。

ここで、前記ターゲット領域に対応するオブジェクトを処理するステップは、前記オブジェクトに対するオブジェクト認識、オブジェクト分割及びオブジェクト姿勢推定のうち少なくとも１つを行うステップを含むことができる。

ここで、前記第１属性情報は、前記オブジェクトのカテゴリー情報、前記オブジェクトのマスク情報、前記オブジェクトのキーポイント情報、及び前記オブジェクトの姿勢情報のうち少なくとも１つを含むことができる。

ここで、前記第１属性情報は、前記オブジェクトの第１キーポイント情報及び初期姿勢情報を含み、前記第２属性情報は、前記オブジェクトの第２キーポイント情報を含み、前記第１属性情報及び前記第２属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップは、前記初期姿勢情報、前記第１キーポイント情報、及び前記第２キーポイント情報に基づいて前記オブジェクトの最終姿勢情報を推定するステップを含むことができる。

ここで、前記第２イメージに基づいて前記オブジェクトの前記第２属性情報を生成するステップは、前記初期姿勢情報及び前記第１イメージを生成する第１カメラのパラメータ、及び前記第２イメージを生成する第２カメラのパラメータに基づいて、前記第２イメージで前記オブジェクトに対応するターゲット領域を決定するステップと、前記第２イメージ上の前記オブジェクトに対応するターゲット領域に基づいて前記オブジェクトの前記第２キーポイント情報を生成するステップとを含むことができる。

ここで、前記初期姿勢情報及び前記第１イメージを生成する前記第１カメラのパラメータ、及び前記第２イメージを生成する前記第２カメラのパラメータに基づいて、前記第２イメージで前記オブジェクトに対応するターゲット領域を決定するステップは、前記初期姿勢情報及び前記第１カメラのパラメータに基づいて前記第１カメラの座標系で前記オブジェクトの初期姿勢情報を決定するステップと、前記第１カメラの座標系における前記オブジェクトの初期姿勢情報及び前記第２カメラのパラメータに基づいて前記第２カメラの座標系で前記オブジェクトの初期姿勢情報を決定するステップと、前記第２カメラの座標系における前記オブジェクトの初期姿勢情報により前記第２イメージで前記オブジェクトに対応するターゲット領域を決定するステップとを含むことができる。

ここで、前記第２イメージ上の前記オブジェクトに対応するターゲット領域に基づいて前記オブジェクトの前記第２キーポイント情報を生成するステップは、前記第２イメージ上の前記オブジェクトに対応するターゲット領域を補正するステップと、前記第２イメージ上の補正されたターゲット領域に基づいて前記オブジェクトの前記第２キーポイント情報を生成するステップとを含むことができる。

ここで、前記第２イメージ上の前記オブジェクトに対応するターゲット領域を補正するステップは、前記第２イメージの特徴マップを生成するステップと、前記第２イメージの特徴マップで前記第２イメージ上のターゲット領域に対応する第２特徴領域を第２ターゲット領域特徴マップとして決定するステップと、前記第２ターゲット領域特徴マップを空間的に変換し、変換された第２ターゲット領域特徴マップを生成するステップとを含み、前記第２イメージ上の補正されたターゲット領域に基づいて前記オブジェクトの前記第２キーポイント情報を生成するステップは、前記変換された第２ターゲット領域特徴マップに基づいて前記オブジェクトの第２キーポイント情報を生成するステップを含むことができる。

一実施形態に係るイメージ処理方法は、畳み込み神経網を用いて、第１イメージ上の少なくとも１つの位置それぞれに対応する畳み込みカーネルを用いて前記第１イメージに対して畳み込み動作を行って前記第１イメージの特徴マップを生成するステップと、前記第１イメージの特徴マップに基づいて前記第１イメージのうちのオブジェクトを処理するステップとを含む。

一実施形態に係るプロセッサを含むイメージ処理装置は、前記プロセッサは、第１イメージの特徴マップを生成し、前記特徴マップに基づいて前記第１イメージからターゲット領域を検出し、検出されたターゲット領域を補正し、補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理することができる。

一実施形態に係るイメージ処理方法は、第１イメージに基づいてそれぞれ異なるスケールの複数のスケーリングされたイメージを生成するステップと、前記スケーリングされたイメージに基づいて複数の特徴マップを生成するステップ（前記複数の特徴マップそれぞれは、前記スケーリングされたイメージのうち１つに対応する）と、２以上の特徴マップを融合するステップと、前記融合した特徴マップに基づいて前記第１イメージからターゲット領域を検出するステップと、前記複数の特徴マップのうち他の１つを用いて前記検出されたターゲット領域を補正するステップと、前記補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップとを含む。

ここで、前記複数の特徴マップのうち他の１つの解像度は、前記２以上の特徴マップの解像度よりも高いことを特徴とする。

本発明によると、イメージ処理装置及び方法を提供することができる。

一実施形態に係るイメージ処理方法のフローチャートである。一実施形態に係るイメージ処理方法で変形可能なＣＮＮを用いてマルチスケールで第１イメージの特徴を抽出する概略的な過程を示す図である。一実施形態に係るイメージ処理方法で変形可能なＣＮＮ畳み込みカーネルのサンプリング位置を決定する図である。一実施形態に係るイメージ処理方法でマルチスケール特徴を融合する例を示す図である。一実施形態に係るイメージ処理方法で変形を防止する関心領域のプーリングの例を示す図である。一実施形態に係るイメージ処理方法でオブジェクトの姿勢を推定する概略的な過程を示す図である。一実施形態に係るイメージ処理方法でイメージを処理する過程を概略的に示す図である。一実施形態に係るイメージ処理方法でイメージを処理する過程を概略的に示す図である。一実施形態に係るイメージ処理方法が適用されるシナリオの例を示す図である。他の実施形態に係るイメージ処理方法のフローチャートである。一実施形態に係るイメージ処理装置のブロック図である。他の実施形態に係るイメージ処理装置のブロック図である。一実施形態に係る電子機器のブロック図である。

以下、添付の図面を参照して実施形態について詳説する。しかし、本明細書で開示する特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示したものであり、実施形態は様々な異なる形態で実施され、本発明は本明細書で説明した実施形態に限定されるものではない。実施形態に対する全ての変更、均等物ないし代替物が権利範囲に含まれているものと理解されなければならない。

実施形態で用いられる用語は、単に、説明を目的として使用されたものであり、限定しようとする意図として解釈されることはない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

また、添付図面を参照して説明することにおいて、図面符号に関係なく、同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略することにする。実施形態の説明において、関連する公知技術に対する具体的な説明が実施形態の要旨を不要に曖昧にするものと判断される場合、その詳細な説明を省略する。

本開示の背景技術で言及したように、従来のイメージ処理方法において、全体イメージを補正する過程でオブジェクトが大幅に増加し、後続するオブジェクトの処理効果がないだけでなく、処理速度も遅くなる。一方、１つ以上の実施形態のイメージ処理方法は、オブジェクト処理に対する効果及びイメージ処理速度を向上させることができる。例えば、１つ以上の実施形態のイメージ処理方法は、ターゲット領域を検出した後、検出されたターゲット領域のみを補正することでオブジェクトが大幅に増加することを防止し、後続するオブジェクト処理効果を向上させ、関係のない領域を補正しないことからイメージ処理速度を向上させ得る。

以下では、本開示の一実施形態に係るイメージ処理装置及び方法について、添付の図１～図１３を参照して詳細に説明する。

図１は、一実施形態に係るイメージ処理方法のフローチャートである。

以下で説明するステップＳ１１０～ステップＳ１３０は順次に行われるが、必ず順次に行われなくてもよい。例えば、ステップＳ１１０～ステップＳ１３０は互いに異なる順に行われてもよく、ステップＳ１１０～ステップＳ１３０のうち少なくとも２ステップが並列又は同時に行われてもよい。また、図示された例示の意図及び範囲を超えることなく、ステップＳ１１０～ステップＳ１３０のうち１つ以上は省略されてもよい。図１を参照して後述するステップＳ１１０～ステップＳ１３０は次の通りである。図１は、本開示で説明された電子装置（例えば、図１１に示すイメージ処理装置１１００、図１２に示すイメージ処理装置１２００及び／又は図１３に示す電子装置１３００）の１つ以上の構成要素によって行われてもよい。

図１を参照すると、イメージ処理方法は、ステップＳ１１０において、第１イメージの特徴マップを取得（例えば、決定又は生成）し、特徴マップに基づいて第１イメージのうちターゲット領域を検出する。ここで、ターゲット領域は、関心領域（ＲＯＩ、ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）（例えば、候補オブジェクト領域）であってもよい。ここで、第１イメージはオブジェクトの変形のある全てのイメージであってもよい。例えば、第１イメージは、魚眼イメージであってもよく、例えば、魚眼ステレオカメラで撮影した左側魚眼イメージ及び右側魚眼イメージの１つであってもよいが、これに限定されない。

ステップＳ１１０において、イメージ処理方法は、少なくとも１つのスケール（例えば、第１イメージの少なくとも１つのスケーリングされたイメージ）から第１イメージの特徴を抽出し、第１イメージの少なくとも１つの特徴マップを取得し、少なくとも１つの特徴マップに基づいて第１イメージのうちのターゲット領域を検出することができる。

一般的なイメージ処理方法は、第１イメージから特徴を抽出する前に第１イメージを完全に補正しなければならない。一方、実施形態に係るイメージ処理方法は、各スケールで第１イメージの特徴を直接抽出することができる。したがって、イメージ処理方法は、全体の第１イメージを補正する時間消耗を減らすだけでなく、従来のイメージ処理方法に比べて抽出された特徴の正確度も向上させ得る。

イメージ処理方法は、畳み込み神経網で第１イメージに対して畳み込み動作を行って各スケールの特徴マップを取得することができる。ここで、畳み込み神経網は、第１イメージ上の少なくとも１つの位置のうち各位置に対して、各位置に対応する畳み込みカーネル関数を用いて畳み込み動作を行ってもよい。以下、一実施形態に係る畳み込み神経網を「変形可能な畳み込み神経網（ＣＮＮ、ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）」のように記載する。

前述したように、魚眼イメージのような第１イメージはオブジェクト歪みや変形を含む。一般的な畳み込み神経網（畳み込みカーネル関数は、常に固定されている）を使用するイメージ処理方法は、サンプリングの歪みが発生して特徴抽出が困難であるか、又は正確でないこともある。しかし、本開示の一実施形態に係る変形可能なＣＮＮを使用するイメージ処理方法のＣＮＮは、第１イメージ上の少なくとも１つの位置のうち各位置に対して、各位置に対応する畳み込みカーネル関数を用いて畳み込み動作を行うことができる。したがって、本開示のイメージ処理方法は、オブジェクトの変形のあるイメージで一般的なＣＮＮを使用するとき発生するサンプリングの歪みを防止し、より正確に特徴を抽出することができるため、後続するステップでこのような特徴を用いてオブジェクト処理効果を向上させることができる。例えば、変形可能なＣＮＮは、魚眼イメージの中心部分と周辺部分のイメージ解像度の変化に適応できることから、より正確に特徴を抽出することができ、魚眼イメージでオブジェクトの処理効果を向上させることができる。

図２は、一実施形態に係るイメージ処理方法で変形可能なＣＮＮを用いてマルチスケールで第１イメージの特徴を抽出する概略的な過程を示す図である。

図２の例示において、第１イメージが魚眼イメージである場合、イメージ処理方法は、３つのスケールに対応する第１イメージの３つのスケーリングされたイメージから第１イメージの特徴を抽出することができる。ここで、スケールの個数は３つに限定されることなく、１以上の任意の正の整数であってもよい。また、第１イメージは魚眼イメージに限定されることなく、オブジェクトの変形が存在する任意のイメージであってもよい。

図２に示すように、イメージ処理方法は、３つのスケール（例えば、１／２スケール、１／４スケール、１／８スケール）それぞれで変形可能なＣＮＮ２１０，２１２，２１４をそれぞれ用いて魚眼イメージ特徴を抽出することができる。対応するように、魚眼イメージ２２０は、各スケールにより縮小されるが、例えば、第１イメージ２２０の大きさの１／２に縮小されてスケーリングされたイメージ２２２、第１イメージ２２０の大きさの１／４に縮小されてスケーリングされたイメージ２２４、及び第１イメージ２２０の大きさの１／８に縮小されてスケーリングされたイメージ２２６に調整されてもよい。

上述したように、変形可能なＣＮＮ２１０，２１２，２１４は、第１イメージ２２０上の少なくとも１つの位置のうち各位置に対して、各位置に対応する畳み込みカーネル関数を用いて畳み込み動作を行うことができる。即ち、第１イメージ２２０上の少なくとも１つの位置のうち、各位置（例えば、互いに異なる）は１つのそれ自体の畳み込みカーネル関数に対応する。即ち、各位置の畳み込みカーネル関数は常に固定されているものではなく、変わり得る。この位置はピクセルポイントになる。したがって、一実施形態によれば、イメージ処理方法は、畳み込み動作を行うとき、まず、第１イメージ２２０上の少なくとも１つの位置のうち各位置に対応する畳み込みカーネル関数のサンプリング位置を取得することができる。そして、イメージ処理方法は、各位置に対応する畳み込みカーネル関数のサンプリング位置に応じて畳み込み動作を行い、各スケールの特徴マップを取得することができる。

ここで、畳み込みカーネル関数のサンプリング位置は、第１イメージ２２０のイメージングモデルにより決定されてもよい。例えば、各スケールにおいて、第１イメージ２２０のイメージングモデルにより第１イメージ２２０上の少なくとも１つの位置のうち、各位置に対応する畳み込みカーネル関数のサンプリング位置を予め算出（例えば、決定）し、算出されたサンプリング位置を、例えば、ルックアップテーブル（ＬＵＴ；ＬｏｏｋＵｐＴａｂｌｅ）に格納することができる。ＬＵＴは予め格納されてもよく、各スケールで畳み込み動作を行うために使用され、各スケールで特徴マップを取得することができる。図２に示した様々な変形可能なＣＮＮ２１０，２１２，２１４から構成されたピラミッドの各スケールに対して、該当スケールの第１イメージ２２０上の少なくとも１つの位置のうち、各位置に対応する畳み込みカーネル関数のサンプリング位置が全て予め算出されて格納されているため、上述した第１イメージ２２０上の少なくとも１つの位置のうち、各位置に対応する畳み込みカーネル関数のサンプリング位置を取得することは、例えば、予め格納されたＬＣＵから各位置に対応する畳み込みカーネル関数のサンプリング位置を取得することである。

図３は、一実施形態に係るイメージ処理方法で変形可能なＣＮＮ畳み込みカーネル関数のサンプリング位置を決定する図である。

図３を参照すると、変形可能なＣＮＮの畳み込みカーネル関数のサンプリング位置を決定する方式を簡略に説明する。

一実施形態によれば、イメージ処理方法は、イメージングモデルにより３次元空間で各位置の畳み込みカーネル関数のサンプリング位置を決定することができる。そして、イメージ処理方法は、３次元空間における畳み込みカーネル関数のサンプリング位置及びイメージングモデルにより、第１イメージで各位置に対応する畳み込みカーネル関数のサンプリング位置を決定することができる。

図３に示す例示において、イメージ処理方法は、第１イメージを魚眼イメージに仮定するので、イメージングモデルは魚眼イメージのイメージングモデルであってもよい。以下で、魚眼イメージのイメージングモデルは、「魚眼カメラモデル」のように称してもよい。非制限的な例として、魚眼カメラモデルは、Ｋａｎｎａｌａ－Ｂｒａｎｄｔモデルであってもよい。

図３に示すように、例えば、イメージ処理方法は、まず、魚眼イメージ上の各位置と魚眼カメラモデルの光学中心（図３に示す点Ｏｃ）を連結して１つの光線（図３においてＯｃとピクセルポイントＡを連結している直線）を決定する。次に、イメージ処理方法は、魚眼カメラモデルのパラメータ（「魚眼カメラの内部パラメータ」に称する）により該当光線が光学中心を通過する入射光線が偏向して発生するかを決定することができる。例えば、魚眼カメラモデルがＫａｎｎａｌａ－Ｂｒａｎｄｔモデルである場合、入射光線は、下記の数式（１）の例により決定されることができる。

ここで、θ_dは、ピクセル位置と光学中心を連結する線と魚眼カメラモデルの光学軸（図３でＯｃＺｃが位置してい線）との間の角度であり、θは、入射光線と魚眼カメラの光学軸がなしている角度であり、ｋ１～ｋ４は多項式の係数である。

入射光線が決定されると、イメージ処理方法は、該当入射光線（図３に示す光線ＯｃＰ）と魚眼カメラモデルの交差点（図３の点Ｂ）を決定することができる。最後に、イメージ処理方法は、該当の交差点を経由して魚眼カメラモデルの球面と接する３次元ローカル平面格子で３次元空間における畳み込みカーネル関数のサンプリング位置を選択することができる。例えば、イメージ処理方法は、該当３次元ローカルの平面格子で等間隔の均一なサンプリングでサンプリングポイントセットを選択することができる。図３に示すように、イメージ処理方法は、該当の交差点周辺に９個のサンプリングポイントを等間隔として選択する「３次元空間における畳み込みカーネル関数サンプリングポイント３２０」を選択することができる。

イメージ処理方法は、３次元空間で各位置の畳み込みカーネル関数のサンプリング位置が決定されると、魚眼カメラモデルによる光線投影を介して３次元空間における畳み込みカーネル関数のサンプリング位置を魚眼イメージ３１０にマッピングし、魚眼イメージ３１０上で魚眼イメージ上の各位置に対応する畳み込みカーネル関数のサンプリング位置を決定することができる。例えば、図３に示すように、イメージ処理方法は、Ｋａｎｎａｌａ－Ｂｒａｎｄｔモデルに基づいて光線投影を介して３次元空間のうち９個のサンプリングポイント３２０を魚眼イメージ平面にそれぞれマッピングし、魚眼イメージでも対応するように９個のサンプリングポイントに該当する「魚眼イメージ平面の畳み込みカーネル関数のサンプリングポイント３３０」を取得することができる。このような９個のサンプリングポイント３３０は、行われる畳み込み動作に使用されるピクセルＡに対応する畳み込みカーネル関数のサンプリング位置である。

上述したように、図３と結合して第１イメージ上の少なくとも１つの位置のうち、各位置に対応する畳み込みカーネル関数のサンプリング位置を決定する非制限的な例示的な方法について説明した。一実施形態によれば、各スケールで全て変形可能なＣＮＮを用いて、各位置に対応する畳み込みカーネル関数のサンプリング位置に応じて畳み込み動作を行い、各スケールの特徴マップを取得することができる。

一実施形態において、少なくとも１つの特徴マップは複数の特徴マップであってもよい。この場合、一実施形態によれば、少なくとも１つの特徴マップに基づいて第１イメージからターゲット領域を検出することは、複数の特徴マップで隣接しているスケールの特徴マップを融合し、少なくとも１つの融合した特徴マップに基づいて第１イメージからターゲット領域を検出することを含む。例えば、特徴マップをターゲット領域提案ネットワークに入力し、第１イメージのうちのターゲット領域を検出することができる。ここで、ターゲット領域提案ネットワークは、予め学習された畳み込み神経網であってもよいが、これに限定されることはない。ターゲット領域提案ネットワークは、入力した特徴マップに対して第１イメージのうちのターゲット領域を検出できるように予め学習され得る。

図４は、一実施形態に係るイメージ処理方法でマルチスケール特徴を融合する例を示す図である。

図４を参照すると、イメージ処理方法は、ピラミッド状の変形可能なＣＮＮによって抽出されたマルチスケール特徴に対して、異なるスケール間の特徴融合をさらに行うことができる。一実施形態において、イメージ処理方法は、図４に示すように、低解像度特徴マップをアップサンプリングした後、隣接するスケールの上位レイヤ特徴マップと融合（例えば、ピクセル単位で加算）することで、融合された特徴マップが低解像度特徴マップのうちの意味的情報を含むだけでなく、高解像度特徴マップのうちのイメージ細部情報も含み得る。

例えば、スケーリングされたイメージ２２６に基づいて特徴マップ４１０が生成され、スケーリングされたイメージ２２４に基づいて上位レイヤ特徴マップが生成され、イメージ処理方法は、特徴マップ４１０をアップサンプリングし、アップサンプリングされた特徴マップを上位階層特徴マップと融合し、融合された特徴マップとして特徴マップ４１２を生成することができる。

したがって、少なくとも１つの融合した特徴マップに基づいて第１イメージのうちのターゲット領域を検出することで、一実施形態のイメージ処理方法はターゲット領域をより正確に検出することができる。

特徴を融合した後、低解像度特徴は、例えば、オブジェクト領域の提案、ポジショニング及び／又は分類に使われて算出コストを節約することができる。そして、高解像度特徴は、オブジェクトの細部属性（例えば、キーポイント、オブジェクトマスクマップ及び／又は６ＤｏＦ（自由度）姿勢）を推定する正確性を保障することができる。

例えば、ターゲット領域提案ネットワーク４２０を介して第１イメージ２２０のうちのターゲット領域を検出するために、イメージ処理方法は、相対的に低い解像度の特徴マップ（例えば、図４に示す特徴マップ（１）４１０及び特徴マップ（２）４１２を使用でき、相対的に高い解像度を有する特徴マップ（例えば、図４に示す特徴マップ４１３（特徴マップ３））を使用しない。これによって、算出コストをさらに節約することができる。融合された特徴マップで相対的に高い解像度の特徴マップ（例えば、図４に示す特徴マップ（３）４１３）は、後続する検出されたターゲット領域に対する補正（「変形を防止するターゲット領域をプーリング４３０」）に使用されてもよい。ここで、ターゲット領域がＲＯＩである場合、「変形を防止するターゲット領域をプーリング」は、「変形を防止するＲＯＩプーリング」に称してもよい。変形を防止するターゲット領域をプーリング４３０は、オブジェクト姿勢推定などに使用される（４４０）（例えば、以下で説明する特徴抽出及びオブジェクトキーポイント予測、オブジェクトマスクマップ取得及びオブジェクト姿勢推定など）。

イメージ処理方法は、ステップＳ１１０で第１イメージのうちのターゲット領域が検出されると、ステップＳ１２０において、検出されたターゲット領域を補正する。一実施形態において、まず、イメージ処理方法は、第１イメージの特徴マップから検出されたターゲット領域に対応する第１特徴領域を決定して第１ターゲット領域特徴マップに使用することができる。次に、イメージ処理方法は、第１ターゲット領域特徴マップを空間的に変換すると、変換された第１ターゲット領域特徴マップを生成することができる。第１ターゲット領域特徴マップを空間的に変換すれば、ターゲット領域に対する補正が実現され得る。例えば、前述したように、マルチスケールで複数の特徴マップを取得して特徴マップを融合すると、融合された特徴マップのうち相対的に高解像度の特徴マップ（例えば、図４に示す例示の特徴マップ４１３のように、融合された特徴マップのうち最も高い解像度の特徴マップ、即ち、融合された最大スケールの特徴マップ）から検出されたターゲット領域に対応する第１特徴領域を決定することができる。図４に示すように、特徴マップ（３）４１３から検出されたターゲット領域に対応する第１特徴領域を決定して第１ターゲット領域特徴マップとして使用することができる。イメージ処理方法は、複数のターゲット領域が検出されると、それぞれのターゲット領域に対応する第１ターゲット領域特徴マップを決定する。第１ターゲット領域特徴マップが決定されると、イメージ処理方法は、それぞれの第１ターゲット領域特徴マップに対して空間的に変換し、それぞれのターゲット領域を補正することができる。

一実施形態によれば、イメージ処理方法は、第１イメージのイメージングモデル及び検出されたターゲット領域により、ターゲット領域に対応する仮想カメラを生成し、第１ターゲット領域特徴マップを仮想カメラに空間的に変換し、変換された第１ターゲット領域特徴マップを生成することができる。本開示において、イメージ処理方法は、全体イメージ又は全てのターゲット領域に対して同じ仮想カメラを使用せず、それぞれ検出されたターゲット領域に対して対応する仮想カメラを生成することで、補正時にオブジェクトの形状が増加することを防止することができる。例えば、このような本開示のイメージ処理方法は、魚眼レンズの視野角の端でよく発生する形状の垂れを防止することができる。また、変形を防止するターゲット領域をプーリングした場合、第１ターゲット領域特徴マップは既存のカメラと同じ幾何学的形態に変換され、後続オブジェクト処理モデルの訓練や予測を行うのに特徴マップの使用が有利なこともある。

一実施形態によれば、仮想カメラの光学軸に対応する光線は、イメージングモデルを経由して屈折され、検出されたターゲット領域の中心を通過する。また、仮想カメラの光学軸は、イメージングモデルの光学中心を示す。

図５は、一実施形態に係るイメージ処理方法で変形を防止する関心領域のプーリングの例を示す図である。

図５の例示において、第１イメージが魚眼イメージである場合、イメージ処理方法で第１イメージのイメージングモデルは魚眼カメラモデルであってもよい。図５に示すように、ターゲット領域に対して生成した仮想カメラの光学軸は点Ｏｃと点Ｆを連結して決定された直線になる。該当直線に対応する光線は、魚眼カメラモデル（図５に示す球状）を通過して屈折された後、ターゲット領域のピクセル中心を通過する（図５に示す点Ｅ）。また、ターゲット領域仮想カメラのイメージ平面は、魚眼カメラモデルの球面に接し、イメージのｙ軸はＺｃ－Ｏｃ－Ｐによって定義された平面にある。

一実施形態において、イメージ処理方法は仮想カメラを生成するとき、まず、ターゲット領域のピクセル中心である点Ｅと魚眼カメラモデルの光学中心Ｏｃを連結して直線を決定することができる。次に、イメージ処理方法は、魚眼カメラモデルのパラメータにより該当直線が対応する光線が光学中心を通過した入射光線のうち、どのような光線の偏向によるものであるかを決定する。例えば、魚眼カメラモデルがＫａｎｎａｌａ－Ｂｒａｎｄｔモデルである場合、図３を参照して言及した数式（１）にて入射光線を決定することができる。したがって、その重複する説明は省略する。該当の入射光線に対応する直線が仮想カメラの光学軸である。イメージ処理方法は、光学軸が決定されると、光学軸に垂直である平面を仮想カメラの平面として決定することができる。ここで、仮想カメラの平面は、魚眼カメラモデルの球面に接する平面であってもよいが、これに限定されることはない。図５に示すように、仮想カメラの焦点距離Ｆは、図５に示す光学中心Ｏｃと仮想カメラ平面の中心Ｆとの間の距離である。仮想カメラの平面ターゲット領域の仮想カメラの焦点距離Ｆはターゲット領域の大きさに応じて動的に算出され、変形を防止するためのターゲット領域特徴イメージのイメージ高さＨとイメージ幅Ｗが固定された大きさを有することができる。

イメージ処理方法は、それぞれのターゲット領域に対して対応する仮想カメラを生成した後、各ターゲット領域の第１ターゲット領域特徴マップを生成された仮想カメラで空間的に変形させ、それぞれの変換された第１ターゲット領域特徴マップを生成することができる。例えば、イメージ処理方法は、イメージングモデルにより第１ターゲット領域特徴マップのうちの各特徴ポイントを対応する仮想カメラ平面にマッピングし、変換された第１ターゲット領域特徴マップを取得することができる。例えば、各特徴ポイントをイメージングモデルの光学中心に連結して１つの光線を決定し、イメージングモデルのパラメータにより該当光線に対応する入射光線及び仮想カメラ平面の交差点を決定し、このような交差点により変換された第１ターゲット領域特徴マップを取得することができる。

上述したように、イメージ処理方法は、第１ターゲット領域特徴マップを変換することによりターゲット領域の補正を実現することができる。

また、イメージ処理方法はステップＳ１３０において、補正されたターゲット領域に基づいて、ターゲット領域に対応するオブジェクトを処理する。例えば、変換された第１ターゲット領域特徴マップに基づいて、ターゲット領域に対応するオブジェクトを処理することができる。例えば、イメージ処理方法は、変換された第１ターゲット領域特徴マップに基づいて、ターゲット領域に対応するオブジェクトの第１属性情報を取得し、第１属性情報によりターゲット領域に対応するオブジェクトを処理する。例えば、イメージ処理方法は、変換された第１ターゲット領域特徴マップに基づいて、少なくとも１つの畳み込み神経網を用いてターゲット領域に対応するオブジェクトの第１属性情報を取得する。例えば、第１属性情報は、オブジェクトカテゴリー情報、マスク情報、キーポイント情報、及び／又は姿勢情報のうち少なくとも１つを含んでもよいが、これに限定されない。対応するように、イメージ処理方法は、互いに異なる属性情報により、ターゲット領域に対応するオブジェクトに対して互いに異なる処理を行ってもよい。例えば、イメージ処理方法は、オブジェクトに対して、オブジェクト認識、オブジェクト分割、及び／又はオブジェクト姿勢推定のうち少なくとも１つを行ってもよい。イメージ処理方法は、変換された第１ターゲット領域特徴マップに基づいて少なくとも１つの畳み込み神経網を用いて姿勢情報を取得できるが、オブジェクトのキーポイント情報を取得した後、ｎ点透視（ＰｎＰ、Ｐｅｒｓｐｅｃｔｉｖｅ－ｎ－Ｐｏｉｎｔ）アルゴリズムなどを用いてオブジェクトの姿勢情報を決定してもよい。

第１イメージにオブジェクト変形が存在する場合、一実施形態に係るイメージ処理方法は、第１イメージ以外の他のイメージを用いてオブジェクトを処理することで、オブジェクトを処理した結果の正確度を更に向上させ得る。本開示の一実施形態によれば、イメージ処理方法は、第１イメージに関連する第２イメージを取得し、第２イメージに基づいてオブジェクトの第２属性情報を取得することをさらに含んでもよい。この場合、第１属性情報によりターゲット領域に対応するオブジェクトを処理することは、第１属性情報及び第２属性情報によりターゲット領域に対応するオブジェクトを処理することを含んでもよい。このような方式でオブジェクト処理効果をさらに向上させ得る。ここで、第２イメージも変形されたイメージであってもよい。上述したように、第１イメージは、左側魚眼イメージ及び右側魚眼イメージのいずれか１つであってもよく、ここで、第２イメージは、左側魚眼イメージ及び右側魚眼イメージのうち他の１つであってもよい。方法により、左側魚眼イメージ及び右側魚眼イメージの全てに基づいてオブジェクトをより正確に処理でき、例えば、オブジェクトの姿勢をより正確に推定することができる。

図６は、一実施形態に係るイメージ処理方法でオブジェクトの姿勢を推定する概略的な過程を示す図である。

例えば、本開示の一実施形態によれば、例えば、オブジェクトの姿勢推定をより正確に行うために、第１属性情報はオブジェクトの第１キーポイント情報（図面のうち、オブジェクトの２次元キーポイントに対応する（左側図））及び初期姿勢情報（図面の初期オブジェクト姿勢に対応する）を含んでもよい。

そして、第２属性情報は、オブジェクトの第２キーポイント情報（図面のうち、オブジェクトの２次元キーポイントに対応する（右側図））を含んでもよい。第１属性情報及び第２属性情報によりターゲット領域に対応するオブジェクトを処理することは、第１キーポイント情報、初期姿勢情報、及び第２キーポイント情報に基づいてオブジェクトの最終姿勢情報を推定することを含む（図面の立体６Ｄｏｆ姿勢最適化に対応する）。例えば、イメージ処理方法は、初期姿勢情報、第１イメージを生成する第１カメラのパラメータ、及び第２イメージを生成する第２カメラのパラメータに基づいて、第２イメージでオブジェクトに対応するターゲット領域を決定することができる。

そして、イメージ処理方法は、第２イメージ上のオブジェクトに対応するターゲット領域に基づいてオブジェクトの第２キーポイント情報を取得する動作を行って、オブジェクトの第２キーポイント情報を取得することができる。例えば、図６に示すように、第１イメージ及び第２イメージがそれぞれの左側魚眼イメージ及び右側魚眼イメージである場合、イメージ処理方法は、左側魚眼イメージ６１０に対してイメージ特徴抽出及びオブジェクト属性情報予測を行い６１２、オブジェクトの２次元キーポイント６１４と初期オブジェクト姿勢６１６を取得する。その後、イメージ処理方法は、初期オブジェクト姿勢６１６とステレオ魚眼カメラパラメータにより右側魚眼イメージでオブジェクトに対応するターゲット領域を決定６２４する（図６において、「オブジェクト領域投影６２４」という）。次に、イメージ処理方法は、右側魚眼イメージ６２０上の対応するターゲット領域に基づいてオブジェクトの２次元キーポイント６３２を取得することができる。次に、イメージ処理方法は、初期オブジェクト姿勢６１６、左側魚眼イメージにより取得した２次元キーポイント６１４、及び右側魚眼イメージにより取得した２次元キーポイント６３２に基づいて、オブジェクトの最終姿勢情報（例えば、初期姿勢情報に対して最適化）を推定６４０する。例えば、ステップ６４０において、イメージ処理方法は、オブジェクトの６Ｄｏｆ姿勢を推定することができる。

オブジェクト姿勢推定作業の目標は、オブジェクト座標系からカメラ座標系への回転及び並進を推定することにある。したがって、姿勢情報は、カメラ座標系の選択と密接に関わっている。オブジェクト姿勢推定を行うとき、ターゲット領域に対して生成された仮想カメラで生成した変換された第１ターゲット領域特徴マップを使用する場合、取得した初期姿勢情報は依然として仮想カメラ座標系の情報であるため、これを実際のカメラ（例えば、魚眼カメラ座標系）で再び切り替えて推定された姿勢情報を出力しなければならない。又は、後続ステップで、より正確な姿勢推定のために、初期姿勢情報を上述した第２キーポイント情報と結合して使用する場合にも、初期姿勢情報を実際のカメラ座標系に切り替える必要がある。

したがって、初期姿勢情報、第１イメージを生成する第１カメラのパラメータ及び第２イメージを生成する第２カメラのパラメータに基づいて第２イメージでオブジェクトに対応するターゲット領域を決定することは、初期姿勢情報及び第１カメラパラメータに基づいて第１カメラの座標系でオブジェクトの初期姿勢情報を決定し、第１カメラの座標系におけるオブジェクトの初期姿勢情報及び第２カメラのパラメータに基づいて第２カメラの座標系でオブジェクトの初期姿勢情報を決定し、第２カメラの座標系におけるオブジェクトの初期姿勢情報により第２イメージでオブジェクトに対応するターゲット領域を決定することを含む。即ち、イメージ処理方法は、仮想カメラ座標系における初期姿勢情報を実際のカメラ座標系における初期姿勢情報に切り替えた後、実際のカメラ座標系における初期姿勢情報を用いて第２イメージでオブジェクトに対応するターゲット領域を決定することができる。

例えば、第１イメージ及び第２イメージがそれぞれ左側魚眼イメージ及び右側魚眼イメージである場合、イメージ処理方法は、左側魚眼イメージに基づいて推定したオブジェクトの初期姿勢を右側魚眼イメージに投影し、右側魚眼イメージで対応する候補オブジェクト領域を決定することができる。例えば、イメージ処理方法は、ターゲット領域仮想カメラのパラメータ行列をＫｖ、仮想カメラのカメラ座標系をＯｖ－ＸｖＹｖＺｖに仮定することができる。イメージ処理方法は、魚眼イメージ遠近補正イメージのカメラ内部パラメータをＫｃといい、左側魚眼カメラのカメラ座標系をＯｃ－ＸｃＹｃＺｃという。ターゲット領域にある仮想カメラの座標系で推定した姿勢情報は、回転行列Ｒｖと並進ベクトルＴｖに表現され、これについて下記の数式（２）の例を介して、Ｏｃ－ＸｃＹｃＺｃ座標系における回転行列Ｒｃと並進ベクトルＴｃに切り替えられる。

ここで、ｉｎｖ（）は行列のインバースを求める関数である。

そして、イメージ処理方法は、決定された左右２つの魚眼カメラの外部パラメータを介して、左側魚眼カメラ座標系と右側魚眼カメラ座標系との間の回転及び並進変換を取得し、これから左側魚眼カメラの座標系におけるオブジェクトを右側魚眼カメラ座標系に回転及び並進変換することができる。次に、イメージ処理方法は、右側魚眼カメラの内部パラメータ（魚眼イメージのイメージングモデルのパラメータ）を用いて、右側魚眼イメージのイメージ平面にオブジェクトを投影し、右側魚眼イメージでオブジェクトに対応するターゲット領域を決定することができる。

上述したように、イメージ処理方法は、第２イメージでオブジェクトに対応するターゲット領域が決定されると、第２イメージ上のオブジェクトに対応するターゲット領域に基づいて、オブジェクトの第２キーポイント情報を取得することができる。例えば、イメージ処理方法は、第２イメージ上のオブジェクトに対応するターゲット領域を補正した後、補正されたターゲット領域に基づいてオブジェクトの第２キーポイント情報を取得してもよい。選択的に、イメージ処理方法は、第１イメージ上のターゲット領域を補正する同じ方式（即ち、上述した変形を防止するターゲット領域のプーリング）で、第２イメージ上の対応するターゲット領域を補正することができる。

図６を参照すると、イメージ処理方法は、右側魚眼イメージ６２０で第２イメージの特徴マップ６２２を取得した後、第２イメージ上のターゲット領域に対応する第２特徴領域を、第２ターゲット領域特徴マップとして第２イメージの特徴マップにて決定することができる。次に、第２ターゲット領域特徴マップを空間的に変換し、変換された第２ターゲット領域特徴マップを生成６２６する。

最後に、イメージ処理方法は、変換された第２ターゲット領域特徴マップに基づいて、オブジェクトの２次元キーポイント情報を取得６３２する。

例えば、イメージ処理方法は、第１イメージの特徴マップを取得する同じ方式で第２イメージの特徴マップを取得することができる。即ち、イメージ処理方法は、変形可能なＣＮＮを用いて第２イメージの特徴マップを取得できる。その重複する説明は省略する。また、選択的に、算出量を減らして２次元キーポイント情報抽出の正確性を保障するために、第２イメージの特徴マップは、単に第２イメージのよりも高い解像度の特徴マップであってもよい。例えば、図６に示すように、イメージ処理方法は算出コストを減らし、２次元キーポイント特徴を正確に抽出するために、右側魚眼イメージから高解像度特徴のみを抽出して高解像度特徴マップ６２２を取得することができる。

また、イメージ処理方法は第１ターゲット領域特徴マップを空間的に変換し、変換された第１ターゲット領域特徴マップを生成する同じ方式で、第２ターゲット領域特徴マップを空間的に変換し、変換された第２ターゲット領域特徴マップを生成することができる。その重複する説明は省略する。

同様に、イメージ処理方法は、変換された第２ターゲット領域特徴マップを取得６２６した後、図６に示すように、変換された第２ターゲット領域特徴マップに基づいて、少なくとも１つの畳み込み神経網６２８，６３０を用いてオブジェクトの２次元キーポイント情報６３２を取得することができる。

第２キーポイント情報が取得されると、イメージ処理方法は、初期姿勢情報６１６、第１キーポイント情報６１４、及び２次元キーポイント情報６３２に基づいてオブジェクトの最終姿勢情報６４０を推定することができる。例えば、イメージ処理方法は、２つのイメージ（第１イメージと第２イメージ）でオブジェクトの２次元キーポイント再投影誤差の合計を最小化することによって、オブジェクトの最終姿勢情報を決定することができる。即ち、ステップ６４０は、初期姿勢を最適化することにある。例えば、誤差を最小化する最適化は、Ｌｅｖ－Ｍａｒアルゴリズムのような非線型最適化アルゴリズムを使用してもよい。例えば、第１イメージ及び第２イメージが左側魚眼イメージ及び右側魚眼イメージである場合、最終姿勢を推定することは、下記の数式（３）の例のように表現される。

ここで、初期姿勢情報を示す回転行列Ｒと並進ベクトルＴが左側魚眼座標系に定義されており、左側魚眼カメラのターゲット領域の仮想カメラ座標系から左側魚眼カメラ座標系への変換を[R_vl-fl,T_vl-fl]に仮定すると、左側魚眼カメラの座標系における初期姿勢情報の回転行列R_v ^(l)及び変換T_v ^(l)は下記の数式（４）の例のように表現されてもよい。

ここで、右側魚眼カメラのターゲット領域の仮想カメラ座標系から右側魚眼カメラ座標系への変換は[R_vr-fr,T_vr-fr]であり、右側魚眼カメラ座標系における初期姿勢情報の回転行列R_v ^(r)及び変換ベクトルT_v ^(r)は下記の数式（５）のように表現されてもよい。

ここで、[R^(r),T_v ^(r)]は、初期姿勢情報と右側魚眼カメラとの間の回転及び並進パラメータに基づいて取得された初期姿勢情報を、右側魚眼座標系において示したものである。Ｐｉは、オブジェクトの３次元モデルに定義されたキーポイントであり、ｉ＝１、．．．、Ｎである。ここで、Ｎはオブジェクトのキーポイント数である。p_i ^(lv)は左側魚眼イメージのターゲット領域仮想カメラから抽出したｉ番目のキーポイント位置であり、p_i ^(rv)は右側魚眼イメージから抽出したｉ番目のキーポイント位置である。また、K_v ^(l)及びK_v ^(r)はそれぞれ左側魚眼カメラと右側魚眼カメラの行列である。

上述したように、図６を参照して本開示の一実施形態に係る具体的なイメージ処理方法、即ち、オブジェクトの姿勢を推定する方法について説明した。図６に示されたオブジェクト姿勢推定方法によりオブジェクトの姿勢をさらに正確に推定することができる。

上記のように、図１～図６に結合して本開示の一実施形態に係るイメージ処理方法及びその例示について説明した。イメージ処理方法は、イメージ処理速度とオブジェクト処理効果を向上させ得る。

上述したイメージ処理方法に対するより明確な理解を容易にするために、図７を参照して上述したイメージ処理方法について簡略に説明する。

図７は、一実施形態に係るイメージ処理方法でイメージを処理する過程を概略的に示す図である。図８は、一実施形態に係るイメージ処理方法でイメージを処理する過程を概略的に示す図である。図８は、図７に示す例をより具体化した図である。

図７の例示において、第１イメージは左側魚眼イメージ７１０であり、第２イメージは右側魚眼イメージ７５０である。イメージ処理方法は、左側魚眼イメージ７１０に基づいて先に説明した変形可能なＣＮＮから構成されたピラミッド（図面のうち変形可能ピラミッドネットワーク７２０に対応する）を用いて複数の特徴マップを取得することができる。例えば、図８に示すように、左側魚眼イメージ７１０は、各スケールに応じて、第１イメージ２２０の大きさの１／２の大きさに縮小されたスケーリングされたイメージ８１１、第１イメージ２２０の大きさの１／４の大きさに縮小されたスケーリングされたイメージ８１２、及び第１イメージ２２０の大きさの１／８の大きさに縮小されたスケーリングされたイメージ８１３に縮小されてもよい。

イメージ処理方法は、上述した変形可能なＣＮＮに基づいて複数のスケールされたイメージ８１１，８１２，８１３から特徴を抽出融合して３つの特徴マップ８２１，８２２，８２３を生成することができる。

イメージ処理方法は、３つの特徴マップ８２１，８２２，８２３のうち２つの低解像度特徴マップ８２１，８２２に基づいてターゲット領域提案ネットワーク７４１（例えば、畳み込み神経網など）を用いて、左側魚眼イメージ７１０のうちのターゲット領域を検出することができる。

その後、イメージ処理方法は、検出されたオブジェクト領域を補正（図７において「変形を防止するターゲット領域のプーリング（ｐｏｏｌｉｎｇ）７４２」という）することができる。例えば、融合した高解像度特徴マップ８２３から検出されたターゲット領域に対応するターゲット領域特徴マップが決定されると、魚眼レンズのパラメータ８３０（即ち、魚眼イメージのイメージングモデルのパラメータ）により決定されたターゲット領域特徴マップを空間的に変換し、変換されたターゲット領域特徴マップを生成することができる。その次に、イメージ処理方法は、少なくとも１つのＣＮＮ７４３，７４４を用いて、オブジェクトカテゴリー８４０、オブジェクトマスクマップ７４６、２次元キーポイント（左側図）７４７、初期化姿勢７４８のようなオブジェクトの属性情報を取得することができる。

イメージ処理方法は、推定されたオブジェクトの姿勢をより正確にするために、図７の例示において、右側魚眼イメージ７５０に基づいてキーポイント情報（図７に示す「２次元キーポイント（右側図）７７４」）を取得した後、左側魚眼イメージ７１０により取得した初期化姿勢７４８及び２次元キーポイント（左側図）７４７と結合し、６Ｄｏｆ姿勢を推定７８０することができる。例えば、イメージ処理方法は、図７に示すように、変形可能なＣＮＮ７６０を用いて右側魚眼イメージの特徴マップを取得してもよい。例えば、イメージ処理方法は、図８に示すように、変形可能なＣＮＮを用いて右側魚眼イメージの高解像度特徴マップ８６０をしてもよい。そして、イメージ処理方法は、初期姿勢情報７４８とステレオ魚眼レンズの内部及び外部パラメータ８３０に基づいてオブジェクト領域の投影を実行８５０し、右側魚眼イメージ７５０上のオブジェクトに対応するターゲット領域を決定することができる。そして、イメージ処理方法は、変形を防止するターゲット領域のプーリングを用いて該当ターゲット領域を補正することができる。例えば、イメージ処理方法は、右側魚眼イメージ７５０の高解像度特徴マップ８６０で該当ターゲット領域に対応するターゲット領域特徴マップを決定し、これを空間的に変形し、変換されたターゲット領域特徴マップを生成７７１する。変換されたターゲット領域特徴マップは、少なくとも１つのＣＮＮ７７２，７７３に入力され、最終的に２次元キーポイント（右側図）７７４を取得することができる。

最後に、イメージ処理方法は、初期化姿勢７４８、左側魚眼イメージで取得した２次元キーポイントの左側図７４７、及び右側魚眼イメージから取得した２次元キーポイントの右側図７７４に基づいてオブジェクト姿勢を最適化７８０できる。

図７及び図８に示す実施形態において、イメージ処理方法は、左側魚眼イメージ７１０に対してピラミッド７２０を構成したが、ここで、低解像度特徴マップ８２１，８２２は、ターゲット領域提案ネットワーク７４１（即ち、関心領域予測）に使用され、高解像度特徴マップ８２３は、２次元キーポイント７４７の正確な抽出に使用される。イメージ処理方法は、左側魚眼イメージ７１０で予めターゲット領域を予測するので、右側魚眼イメージ７５０に対して高解像度の特徴のみを算出する。このように、イメージ処理方法は算出量を効率よく減らし、同時に、左側魚眼イメージ７１０により取得した２次元キーポイント情報７４７と結合して姿勢を推定することから、姿勢推定がより正確になる。キーポイント特徴は、オブジェクト６ＤｏＦ姿勢を決定するために効果的である。図７の例示では、左側及び右側魚眼イメージからキーポイントを抽出し、キーポイント再投影誤差を最小化して姿勢推定を最適化する。

図７及び図８の実施形態によれば、イメージ処理方法は、ステレオ魚眼イメージを用いて３次元オブジェクト分割及び姿勢推定を迅速に実現することができる。当該の技術は、拡張現実などのように、環境で３次元オブジェクトの姿勢を認識して相互作用しなければならない作業シナリオに使用され得る。例えば、拡張現実技術は、ユーザの前の実際の場面に仮想コンテンツを追加してユーザに実感できる情報経験を提供することができる。３次元空間で高品質の仮想現実融合効果をユーザに提供するために、拡張現実システムは、周辺事物の３次元状態に対して、高い精密度のリアルタイム処理及び理解能力を備えなければならない。一方、自律走行のようなシナリオで、環境のうち車両のような物体に対する分割及び姿勢推定も必要である。

図９は、一実施形態に係るイメージ処理方法が適用されるシナリオの例を示す図である。

図９に示すように、ユーザがステレオ魚眼カメラが装着された拡張現実メガネ９１０を着用した状態で、一実施形態に係るイメージ処理方法は、ステレオ魚眼イメージ（左側魚眼イメージ及び右側魚眼イメージ）に基づいてステレオ魚眼イメージのうち実際のオブジェクト（例えば、テーブル）の３次元姿勢を推定することができる。拡張現実メガネ９１０は、オブジェクトの３次元姿勢が推定されると、実際のオブジェクトの３次元姿勢により仮想の３次元グラフィックコンテンツ（例えば、エンジン）を実際のオブジェクトの表面に重複表示９２０することによって、ユーザの拡張現実経験を向上させることができる。

上記の説明において、図１に示すイメージ処理方法を説明することにおいて、変形可能なＣＮＮを用いて第１イメージの特徴を抽出して第１イメージの特徴マップを取得し、取得した特徴マップに基づいて第１イメージのうちのターゲット領域を検出し、ターゲット領域を補正した後、補正されたターゲット領域に基づいてオブジェクトを処理することについて説明した。しかし、イメージ処理方法は、変形可能なＣＮＮを用いてオブジェクトの変形が存在するオブジェクトの特徴を抽出して特徴マップを取得した後、取得した特徴マップに基づいてオブジェクトを直接処理してもよい。即ち、イメージ処理方法は、先に説明した変形可能なＣＮＮを単独で用いてオブジェクト処理を行うが、それから従来の技術でオブジェクト変形のある全体イメージを補正する時間消耗を防止し、変形可能なＣＮＮを使用することで、一般的なＣＮＮでオブジェクト変形のあるイメージを抽出するときに生じるサンプリングの歪みを防止し、イメージ特徴をより正確に抽出して後続のオブジェクト処理効果を改善することができる。

したがって、本開示の他の実施形態によれば、図１０に示したイメージ処理方法が提供されてもよい。

図１０は、他の実施形態に係るイメージ処理方法のフローチャートである。

以下で説明するステップＳ１０１０及びステップＳ１０２０は順次に行われるが、必ず順次に行われなくてもよい。例えば、ステップＳ１０１０及びステップＳ１０２０は互いに異なる順に行われてもよく、ステップＳ１０１０及びステップＳ１０２０のうち少なくとも２ステップは並列又は同時に行われてもよい。また、図示された例示の意図及び範囲を超過しないながらも、ステップＳ１０１０及びステップＳ１０２０のうち１つ以上は省略されてもよい。図１０を参照して後述するステップＳ１０１０及びステップＳ１０２０は次の通りである。図１０は、本開示で説明された電子装置（例えば、図１１に示すイメージ処理装置１１００、図１２に示すイメージ処理装置１２００及び／又は図１３に示す電子装置１３００）の１つ以上の構成要素によって行われてもよい。

図１０を参照すると、イメージ処理方法は、ステップＳ１０１０において、畳み込み神経網を用いて第１イメージに対して畳み込み動作を行い、第１イメージの特徴マップを取得する。ここで、畳み込み神経網は、第１イメージ上の少なくとも１つの位置のうち各位置に対して、各位置に対応する畳み込みカーネル関数を用いて畳み込み動作を行ってもよい。例えば、第１イメージは、オブジェクトの変形が存在するイメージであってもよい。

例えば、ステップＳ１０１０において、イメージ処理方法は、第１イメージ上の少なくとも１つの位置のうち、各位置に対応する畳み込みカーネル関数のサンプリング位置を取得することができる。ここで、畳み込みカーネル関数のサンプリング位置は、第１イメージのイメージングモデルにより決定されてもよい。次に、イメージ処理方法は、各位置に対応する畳み込みカーネル関数のサンプリング位置に応じて、畳み込み動作を行って特徴マップを取得することができる。例えば、畳み込みカーネル関数のサンプリング位置はイメージングモデルにより、３次元空間で各位置の畳み込みカーネル関数のサンプリング位置を決定し、３次元空間における畳み込みカーネル関数のサンプリング位置及びイメージングモデルにより、第１イメージで各位置に対応する畳み込みカーネル関数のサンプリング位置を決定する方式を介して決定され得る。変形可能なＣＮＮが行う動作については、上記の説明で詳しく説明したので、その重複する説明は省略する。

イメージ処理方法は、ステップＳ１０２０において、特徴マップに基づいて第１イメージのうちのオブジェクトを処理する。上述したように、イメージ処理方法は、特徴マップを取得した後、特徴マップに基づいて第１イメージのターゲット領域を検出し、検出されたターゲット領域を補正し、補正されたターゲット領域に基づいてターゲット領域に対応するオブジェクトを処理することができる。動作の詳しい内容は、上記の図１に示すイメージ処理方法で説明されるので、その重複する説明は省略する。

図１０に示したイメージ処理方法は、全体イメージを補正する時間消耗を減らし、一般的なＣＮＮでイメージを抽出するとき生じるサンプリングの歪みを避けることができるため、イメージをより正確に抽出し、後続するイメージ処理効果を改善することができる。

図１１は、一実施形態に係るイメージ処理装置のブロック図である。

図１１を参照すると、イメージ処理装置１１００は、検出部１１０１、補正部１１０２、及びイメージ処理部１１０３を含む。例えば、検出部１１０１は、第１イメージの特徴マップを取得し、特徴マップに基づいて第１イメージのうちのターゲット領域を検出する。補正部１１０２は、検出されたターゲット領域を補正する。イメージ処理部１１０３は、補正されたターゲット領域に基づいてターゲット領域に対応するオブジェクトを処理することができる。

図１に示されたイメージ処理方法は、図１１に示されたイメージ処理装置１１００によって実行され、検出部１１０１でステップＳ１１０を行い、補正部１１０２でステップＳ１２０を行い、イメージ処理部１１０３でステップＳ１３０を行ってもよい。図１１に示す検出部１１０１、補正部１１０２、及びイメージ処理部１１０３が行う動作に関する任意の細部事項は、図１に示す説明を参照できるため、その重複する説明は省略する。

図１２は、他の実施形態に係るイメージ処理装置のブロック図である。

図１２を参照すると、イメージ処理装置１２００は、取得部１２０１及びイメージ処理部１２０２を含む。

具体的に、取得部１２０１は、畳み込み神経網を用いて第１イメージに対して畳み込み動作を行い、第１イメージの特徴マップを取得することができる。ここで、畳み込み神経網は、第１イメージ上の少なくとも１つの位置のうち各位置に対して、各位置に対応する畳み込みカーネル関数を用いて畳み込み動作を行ってもよい。

イメージ処理部１２０２は、特徴マップに基づいて第１イメージのうちのオブジェクトを処理することができる。

図１０に示すイメージ処理方法は、図１２に示すイメージ処理装置１２００によって行われてもよい。取得部１２０１はステップＳ１０１０を実行し、イメージ処理部１２０２はステップＳ１０２０を行う。

図１２の取得部１２０１及びイメージ処理部１２０２が行う動作に関する任意の詳細は、図１０の説明を参照できるため、その重複する説明は省略する
また、イメージ処理装置１１００及びイメージ処理装置１２００で対応する処理をそれぞれ行う構成に区分して説明したが、イメージ処理装置１１００、１２００が特定構成に分割されていないか、構成間に明確な境界がない場合にも各構成において処理を実行することは自明である。また、イメージ処理装置１１００及びイメージ処理装置１２００は、他の構成、例えば、格納部などをさらに含んでもよい。

図１３は、一実施形態に係る電子機器のブロック図である。

図１３を参照すると、電子機器１３００は、メモリ１３０１（例えば、少なくとも１つのメモリ）及びプロセッサ１３０２（例えば、少なくとも１つのプロセッサ）を含んでもよい。メモリ１３０１は、コンピュータで実行可能な命令語を格納し、プロセッサ１３０２によってコンピュータで実行可能な命令語が行われることにより、プロセッサ１３０２が本開示の実施形態のイメージ処理方法を実行することを可能にする。上述したイメージ処理方法は、人工知能モデルを用いて行われてもよい。

メモリ１３０１は、プロセッサ１３０２によって行われるとき、プロセッサ１３０２が参照と共に本開示の図１～図１２に説明された動作及び方法のうち任意の１つ、任意の組み合わせ、又は、全てを行うように構成している命令語を格納する非一時的なコンピュータで読み出し可能な格納媒体やこれを含んでもよい。プロセッサ１３０２は、図１～図１２を参照して本開示に説明された動作及び方法のうち、任意の１つ、任意の組み合わせ、又は、全てを行ってもよい。

上述した様々な構成のうち少なくとも１つは、人工知能（ＡＩ，ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）モデルを介して実現されてもよい。ＡＩに関する機能は、不揮発性メモリ、揮発性メモリ及びプロセッサを介して行われてもよい。

少なくとも１つのプロセッサ１３０２は、中央処理ユニット（ＣＰＵ）、アプリケーションプロセッサ（ＡＰ）などのような汎用プロセッサや、グラフィック処理ユニット（ＧＰＵ）、視覚処理ユニット（ＶＰＵ）及び／又は神経網処理ユニット（ＮＰＵ）のようなＡＩ専用プロセッサのような純粋グラフィック処理ユニットであってもよい。

少なくとも１つのプロセッサ１３０２は、不揮発性メモリ及び揮発性メモリに格納されている予め定義された動作規則又は人工知能（ＡＩ）モデルにより入力データの処理を制御することができる。少なくとも１つのプロセッサ１３０２は、訓練又は学習を介して予め定められる動作規則又は人工知能モデルを提供する。ここで、学習を通した提供は、学習アルゴリズムを様々な学習データに適用して予め定義された動作規則又は所望する特性を有するＡＩモデルを取得することを意味する。該当学習は、実施形態に係るＡＩが行われる装置そのもので行われてもよく、及び／又は別途のサーバ／システムを介して実現されてもよい。

学習アルゴリズムは、マルチ学習データを用いて予め定められる目標装置（例えば、ロボット）を訓練して目標装置を決定したり、予測したり、許容したりする制御する方法である。該当学習アルゴリズムは、例えば、教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、教師なし学習、半教師あり学習、又は強化学習を含むが、これに限定されない。

本開示の電子機器で行われるイメージ処理方法において、人工知能モデルの入力データとして入力イメージを用いてターゲット領域を処理した後の出力イメージを取得することができる。

ＡＩモデルは、訓練を介して取得されてもよい。ここで、「訓練を通した取得」とは、訓練アルゴリズムを介して複数の訓練データで基本ＡＩモデルを訓練させ、所望する特徴（又は、目的）を行うように構成された予め定義された動作規則又はＡＩモデルを取得することを意味する。

例えば、ＡＩモデルには、複数の神経網レイヤが含まれてもよい。複数の神経網レイヤそれぞれは複数の加重値を含み、神経網算出は、以前レイヤの算出結果と複数の加重値との間の算出によって行われてもよい。神経網は、例えば、畳み込み神経網（ＣＮＮ）、深層神経網（ＤＮＮ）、再帰型神経網（ＲＮＮ）、制限ボルツマンマシーン（ＲＢＭ）、深層信念ネットワーク（ＤＢＮ）、双方向再帰型深層ネットワーク（ＢＲＤＮＮ）、敵対的生成ネットワーク（ＧＡＮ）及び深層Ｑネットワークを含むが、これに限定されない。

例えば、電子機器は、ＰＣコンピュータ、タブレット装置、個人携帯情報端末、スマートフォン、又は、上記の命令語セットを実行できる他の装置であってもよい。ここで、電子機器は、単一電子機器である必要はなく、個別的又は共同に上述した命令語（又は、命令語セット）を実行できる任意の装置又は回路の集合であってもよい。電子機器は、また、統合制御システム又はシステム管理器の一部であってもよく、ローカル又は遠隔に（例えば、無線送信を介して）インターフェースに接続される携帯用電子機器から構成されてもよい。

電子機器でプロセッサは、中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、プログラム可能論理装置、特殊目的プロセッサシステム、マイクロコントローラ又はマイクロプロセッサーを含んでもよい。プロセッサは、また、アナログプロセッサ、デジタルプロセッサ、マイクロプロセッサー、マルチコアプロセッサ、プロセッサアレイ、ネットワークプロセッサなどを含むが、これに限定されない。

プロセッサは、メモリに格納された命令語又はコードを実行することができる。ここで、メモリは、データを格納してもい。命令語及びデータは、また、ネットワークインターフェース装置を介してネットワークを通じて送受信され、ここで、ネットワークインターフェース装置は、任意の知られている送信プロトコルを採択することができる。

メモリは、ＲＡＭやフラッシュメモリを集積回路マイクロプロセッサ内に配置するなどの方式でプロセッサと統合されてもよい。さらに、メモリは、外部ディスクドライブ、格納アレイ、又は、データベースシステムによって使用される任意の他の格納装置のような別途の装置を含んでもよい。メモリとプロセッサの動作は結合されてもよく、又は、例えば、Ｉ／Ｏポート、ネットワーク接続などを介して通信し、プロセッサがメモリに格納されたファイルを読出すことができる。

また、電子機器は、ビデオディスプレイ（例えば、液晶ディスプレイ）及びユーザ相互作用インターフェース（例えば、キーボード、マウス、タッチ入力装置など）を含んでもよい。電子機器の全ての構成要素は、バス及び／又はネットワークを介して接続されてもよい。

実施形態に係る方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。上記で説明したハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行され、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態に結合又は組み合わせられてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

したがって、本開示の保護範囲は、実施形態の全ての変形及びこの等価物を含み得る。

したがって、他の具現、他の実施形態および特許請求の範囲と均等なものも後述する特許請求範囲の範囲に属する。

[1]

Claims

第１イメージの特徴マップを生成し、前記特徴マップに基づいて前記第１イメージからターゲット領域を検出するステップと、
検出されたターゲット領域を補正するステップと、
補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップと、
を含むイメージ処理方法。
前記第１イメージの特徴マップを生成し、前記特徴マップに基づいて前記第１イメージからターゲット領域を検出するステップは、
少なくとも１つのスケーリングされたイメージから前記第１イメージの特徴を抽出して前記第１イメージの少なくとも１つの特徴マップを生成するステップと、
前記少なくとも１つの特徴マップに基づいて前記第１イメージからターゲット領域を検出するステップと、
を含む、請求項１に記載のイメージ処理方法。
前記少なくとも１つのスケーリングされたイメージから前記第１イメージの特徴を抽出して前記第１イメージの少なくとも１つの特徴マップを生成するステップは、前記少なくとも１つのスケーリングされたイメージそれぞれに対して、畳み込み神経網で畳み込み動作を行って前記少なくとも１つのスケールそれぞれの特徴マップを生成するステップを含み、
前記少なくとも１つのスケーリングされたイメージそれぞれに対して前記畳み込み神経網は、前記少なくとも１つの位置それぞれに対応する畳み込みカーネルを用いて、前記スケーリングされたイメージ上の少なくとも１つの位置それぞれに対して前記畳み込み動作を行う、請求項２に記載のイメージ処理方法。
前記少なくとも１つのスケーリングされたイメージそれぞれに対して前記畳み込み神経網で前記畳み込み動作を行って前記少なくとも１つのスケールそれぞれの特徴マップを生成するステップは、
前記少なくとも１つのスケーリングされたイメージ上の前記少なくとも１つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップと、
前記少なくとも１つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置に応じて前記畳み込み動作を行って前記少なくとも１つのスケールそれぞれの特徴マップを生成するステップと、
を含む、請求項３に記載のイメージ処理方法。
前記少なくとも１つのスケーリングされたイメージ上の前記少なくとも１つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップは、
前記第１イメージのイメージングモデルにより、３次元空間で前記少なくとも１つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップと、
前記３次元空間における前記畳み込みカーネルのサンプリング位置及び前記イメージングモデルにより、前記スケーリングされたイメージで前記少なくとも１つの位置それぞれに対応する前記畳み込みカーネルのサンプリング位置を決定するステップと、
を含む、請求項４に記載のイメージ処理方法。
前記少なくとも１つの特徴マップは、
複数の特徴マップであり、
前記少なくとも１つの特徴マップに基づいて前記第１イメージからターゲット領域を検出するステップは、前記複数の特徴マップで隣接するスケールの特徴マップを融合し、少なくとも１つの融合した特徴マップに基づいて前記第１イメージからターゲット領域を検出する、請求項２に記載のイメージ処理方法。
前記検出されたターゲット領域を補正するステップは、
前記第１イメージの特徴マップで前記検出されたターゲット領域に対応する第１特徴領域を第１ターゲット領域特徴マップとして決定するステップと、
前記第１ターゲット領域特徴マップを空間的に変換し、変換された第１ターゲット領域特徴マップを生成するステップと、
を含み、
前記補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理するステップは、前記変換された第１ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトを処理するステップを含む、請求項１に記載のイメージ処理方法。
前記第１ターゲット領域特徴マップを空間的に変換し、前記変換された第１ターゲット領域特徴マップを生成するステップは、
前記第１イメージのイメージングモデル及び前記検出されたターゲット領域により前記ターゲット領域に対応する仮想カメラを生成するステップと、
前記第１ターゲット領域特徴マップを前記仮想カメラに空間的に変換し、前記変換された第１ターゲット領域特徴マップを生成するステップと、
を含む、請求項７に記載のイメージ処理方法。
前記変換された第１ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトを処理するステップは、
前記変換された第１ターゲット領域特徴マップに基づいて前記ターゲット領域に対応するオブジェクトの第１属性情報を生成するステップと、
前記第１属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップと、
を含む、請求項７に記載のイメージ処理方法。
前記第１イメージに関連する第２イメージを生成するステップと、
前記第２イメージに基づいて前記オブジェクトの第２属性情報を生成するステップと、
をさらに含み、
前記第１属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップは、前記第１属性情報及び前記第２属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップを含む、請求項９に記載のイメージ処理方法。
前記ターゲット領域に対応するオブジェクトを処理するステップは、前記オブジェクトに対するオブジェクト認識、オブジェクト分割及びオブジェクト姿勢推定のうち少なくとも１つを行うステップを含む、請求項９に記載のイメージ処理方法。
前記第１属性情報は、前記オブジェクトのカテゴリー情報、前記オブジェクトのマスク情報、前記オブジェクトのキーポイント情報、及び前記オブジェクトの姿勢情報のうち少なくとも１つを含む、請求項９に記載のイメージ処理方法。
前記第１属性情報は、前記オブジェクトの第１キーポイント情報及び初期姿勢情報を含み、
前記第２属性情報は、前記オブジェクトの第２キーポイント情報を含み、
前記第１属性情報及び前記第２属性情報により前記ターゲット領域に対応するオブジェクトを処理するステップは、前記初期姿勢情報、前記第１キーポイント情報、及び前記第２キーポイント情報に基づいて前記オブジェクトの最終姿勢情報を推定するステップを含む、請求項１０に記載のイメージ処理方法。
前記第２イメージに基づいて前記オブジェクトの前記第２属性情報を生成するステップは、
前記初期姿勢情報及び前記第１イメージを生成する第１カメラのパラメータ、及び前記第２イメージを生成する第２カメラのパラメータに基づいて、前記第２イメージで前記オブジェクトに対応するターゲット領域を決定するステップと、
前記第２イメージ上の前記オブジェクトに対応するターゲット領域に基づいて前記オブジェクトの前記第２キーポイント情報を生成するステップと、
を含む、請求項１３に記載のイメージ処理方法。
前記初期姿勢情報及び前記第１イメージを生成する前記第１カメラのパラメータ、及び前記第２イメージを生成する前記第２カメラのパラメータに基づいて、前記第２イメージで前記オブジェクトに対応するターゲット領域を決定するステップは、
前記初期姿勢情報及び前記第１カメラのパラメータに基づいて前記第１カメラの座標系で前記オブジェクトの初期姿勢情報を決定するステップと、
前記第１カメラの座標系における前記オブジェクトの初期姿勢情報及び前記第２カメラのパラメータに基づいて前記第２カメラの座標系で前記オブジェクトの初期姿勢情報を決定するステップと、
前記第２カメラの座標系における前記オブジェクトの初期姿勢情報により前記第２イメージで前記オブジェクトに対応するターゲット領域を決定するステップと、
を含む、請求項１４に記載のイメージ処理方法。
前記第２イメージ上の前記オブジェクトに対応するターゲット領域に基づいて前記オブジェクトの前記第２キーポイント情報を生成するステップは、
前記第２イメージ上の前記オブジェクトに対応するターゲット領域を補正するステップと、
前記第２イメージ上の補正されたターゲット領域に基づいて前記オブジェクトの前記第２キーポイント情報を生成するステップと、
を含む、請求項１４に記載のイメージ処理方法。
前記第２イメージ上の前記オブジェクトに対応するターゲット領域を補正するステップは、
前記第２イメージの特徴マップを生成するステップと、
前記第２イメージの特徴マップで前記第２イメージ上のターゲット領域に対応する第２特徴領域を第２ターゲット領域特徴マップとして決定するステップと、
前記第２ターゲット領域特徴マップを空間的に変換し、変換された第２ターゲット領域特徴マップを生成するステップと、
を含み、
前記第２イメージ上の補正されたターゲット領域に基づいて前記オブジェクトの前記第２キーポイント情報を生成するステップは、前記変換された第２ターゲット領域特徴マップに基づいて前記オブジェクトの第２キーポイント情報を生成するステップを含む、請求項１６に記載のイメージ処理方法。
請求項１に記載の方法を実行するためのプログラムが記録されていることを特徴とするコンピュータで読み出し可能な記録媒体。
畳み込み神経網を用いて、第１イメージ上の少なくとも１つの位置それぞれに対応する畳み込みカーネルを用いて前記第１イメージに対して畳み込み動作を行って前記第１イメージの特徴マップを生成するステップと、
前記第１イメージの特徴マップに基づいて前記第１イメージのうちのオブジェクトを処理するステップと、
を含むイメージ処理方法。
プロセッサを含むイメージ処理装置であって、
前記プロセッサは、
第１イメージの特徴マップを生成し、前記特徴マップに基づいて前記第１イメージからターゲット領域を検出し、
検出されたターゲット領域を補正し、
補正されたターゲット領域に基づいて前記ターゲット領域に対応するオブジェクトを処理する、イメージ処理装置。