JP7363883B2 - 画像処理の方法、デバイス及びコンピュータ可読記憶媒体 - Google Patents

画像処理の方法、デバイス及びコンピュータ可読記憶媒体 Download PDF

Info

Publication number
JP7363883B2
JP7363883B2 JP2021208765A JP2021208765A JP7363883B2 JP 7363883 B2 JP7363883 B2 JP 7363883B2 JP 2021208765 A JP2021208765 A JP 2021208765A JP 2021208765 A JP2021208765 A JP 2021208765A JP 7363883 B2 JP7363883 B2 JP 7363883B2
Authority
JP
Japan
Prior art keywords
depth map
reference image
dense
constraint
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021208765A
Other languages
English (en)
Other versions
JP2022100299A (ja
Inventor
ヤン リー
ニー ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2022100299A publication Critical patent/JP2022100299A/ja
Application granted granted Critical
Publication of JP7363883B2 publication Critical patent/JP7363883B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本開示の実施形態は画像処理分野に関し、より具体的には、画像処理のための方法、デバイス及びコンピュータ可読記憶媒体に関する。
一般的に多くの場面では、深度を有しない1台のカメラで、興味のある対象を撮影する。例えば医療分野では、病変を特定するため、又は手術を行うために、単眼式内視鏡を使用して患者の内臓器官(例えば、胃)を撮影する。また、ゲーム・レジャーの分野では、ユーザの手足を追跡するために、端末機器のカメラでユーザを撮影している。
このようにして取得された画像には、深度情報がない。そのため、複数の画像から、興味のある対象の深度情報を取得するか、又は興味のある対象の3次元(3D)画像を再構成するための各種方法が提出されている。しかし、取得された深度情報又は再構成された3D画像の精度には、まだ向上の余地がある。
本開示の実施例は、画像処理のための方法、デバイス及びコンピュータ可読記憶媒体を提供する。
本開示の第1の態様では、画像処理の方法が提供される。当該方法は、参照対象に対する異なる位置で参照カメラによって捉えられる、参照対象の第1参照画像及び第2参照画像を取得することと、第1参照画像と第2参照画像に基づいて、第1損失と第2損失を決定することと、第1損失と第2損失に少なくとも基づいて、深度推定モデルに学習させて、学習済みの深度推定モデルを取得することと、を含む。第1損失は、同じ参照画像の異なる深度マップ間の差に関し、第2損失は、異なる参照画像の深度の一致性に関する。
本開示の第2の態様では、画像処理の方法が提供される。当該方法は、ターゲット対象のシーケンスターゲット画像を取得することと、第1の態様の方法で学習させた深度推定モデルを用いて、シーケンスターゲット画像の少なくとも1つのターゲット画像に対応する深度マップを生成することと、を含む。シーケンスターゲット画像は、ターゲット対象に対する異なる位置でターゲットカメラによって捉えられる。
本開示の第3の態様では、電子デバイスが提供される。当該電子デバイスは少なくとも1つの処理回路を含む。少なくとも1つの処理回路は、参照対象に対する異なる位置で参照カメラによって捉えられる、参照対象の第1参照画像及び第2参照画像を取得し、第1参照画像と第2参照画像に基づいて、第1損失と第2損失を決定し、第1損失と第2損失に少なくとも基づいて、深度推定モデルに学習させて、学習済みの深度推定モデルを取得するように設定される。第1損失は、同じ参照画像の異なる深度マップ間の差に関し、第2損失は、異なる参照画像の深度の一致性に関する。
本開示の第4の態様では、電子デバイスが提供される。当該電子デバイスは少なくとも1つの処理回路を含む。少なくとも1つの処理回路は、ターゲット対象のシーケンスターゲット画像を取得することと、第1の態様の方法で学習させた深度推定モデルを用いて、シーケンスターゲット画像の少なくとも1つのターゲット画像に対応する深度マップを生成することと、を含む。シーケンスターゲット画像は、ターゲット対象に対する異なる位置でターゲットカメラによって捉えられる。
本開示の第5の態様では、コンピュータ可読記憶媒体が提供される。当該コンピュータ可読記憶媒体には、マシン可読命令が記憶されており、当該マシン可読命令は、デバイスにより実行された場合に、当該デバイスに、本開示の第1の態様に記載の方法を実行させる。
本開示の第6の態様では、コンピュータ可読記憶媒体が提供される。当該コンピュータ可読記憶媒体には、マシン可読命令が記憶されており、当該マシン可読命令は、デバイスにより実行された場合に、当該デバイスに、本開示の第2の態様に記載の方法を実行させる。
発明の概要部分は、一連の概念を簡略化して紹介するためのものである。これらについては、以下の実施形態においてさらに説明を行う。発明の概要部分の記述は、本開示の重要又は必要な特徴を標記することを意図したものではなく、本開示の範囲を限定することも意図していない。本開示のその他の特徴は、以下の説明により容易に理解できるはずである。
本発明の目的、利点、及びその他の特徴は、以下の開示内容及び請求項から、より明らかになるはずである。ここでは、あくまで例示を目的として、図面を参照して好ましい実施形態の非限定的な説明を行う。
本開示の実施形態にかかる画像処理システムの概略ブロック図を示す。
本開示のいくつかの実施形態にかかる画像処理デバイスの概略ブロック図を示す。
本開示のいくつかの実施形態にかかる画像間の特徴マッチングの概略図を示す。
本開示のいくつかの実施形態にかかる画像間の特徴マッチングの概略図を示す。
本開示のいくつかの実施形態にかかる深度推定モデルの学習の模式図を示す。
本開示の別のいくつかの実施形態にかかる深度推定モデルの学習の模式図を示す。
本開示の実施形態にかかる、画像処理に用いられる例示的方法のフローチャートを示す。
本開示の実施形態にかかる、画像処理に用いられる例示的方法のフローチャートを示す。
本開示の実施形態を実施可能な例示的なコンピューティングデバイスの概略ブロック図を示す。
各図において、同一又は対応する図面符号は、同一又は対応する部分を示す。
以下、図面を参照しつつ、本開示の実施形態についてより詳細に説明する。図には本開示のいくつかの実施形態が示されているが、本開示は様々な形式で実現することが可能であり、ここに記載された実施形態に限定されると解釈すべきではなく、これらの実施形態は本開示を、より徹底的且つ完全に理解するために提供されるものである。この点は理解されなければならない。また、本開示の図面及び実施形態は例示的なものにすぎず、本開示の保護範囲を限定するためのものではない点も、理解されなければならない。
本開示の実施形態の説明において、「含む」及び類似の用語は開放的なもの、すなわち「…を含むが、これらに限定されない」と理解されるべきである。用語「…に基づいて」は、「少なくとも部分的に基づく」と理解されるべきである。用語「1つの実施形態」又は「当該実施形態」は、「少なくとも1つの実施形態」と理解されるべきである。用語「第1」、「第2」等は、異なるか又は同一の対象を示すことができる。以下の文中ではさらに、その他の明確な定義及び暗黙の定義が含まれる可能性がある。
文中で用いられる「回路」という用語は、ハードウェア回路、及び/又は、ハードウェア回路とソフトウェアとの組合せを指すことができる。例えば、回路は、アナログ及び/又はデジタルのハードウェア回路とソフトウェア/ファームウェアとの組合せであってもよい。別の例として回路は、ソフトウェアを備えたハードウェアプロセッサのいずれかの部分であってもよい。ハードウェアプロセッサは(複数の)デジタル信号処理器、ソフトウェア、及び(複数の)メモリを含み、それらは、様々な機能を実行するようデバイスを動作させるために協働する。さらに別の例で回路は、例えばマイクロプロセッサ又はマイクロプロセッサの一部といったハードウェア回路及び/又はプロセッサであってもよく、操作のためにソフトウェア/ファームウェアを必要とするが、操作に必要とされない場合にはソフトウェアはなくてもよい。文中で用いられる「回路」という用語には、ハードウェア回路又はプロセッサのみの実装、又は、ハードウェア回路又はプロセッサの一部にそれ(又はそれら)に付随するソフトウェア及び/又はファームウェアを加えた実装も含まれる。
本開示の実施形態では、「モデル」という用語は、入力を処理し、対応する出力を提供することができる。ニューラルネットワークモデルを例とすると、通常は入力層、出力層、及び入力層と出力層との間にある1つ又は複数の隠れ層を含む。深層学習のアプリケーションで使用されるモデル(「深層学習モデル」とも称される)は通常、隠れ層を多く含むことで、ネットワークの深さを拡張する。ニューラルネットワークモデルの各層は、前の層の出力が次の層の入力として使用されるように順次接続されており、入力層はニューラルネットワークモデルへの入力を受け取り、出力層の出力はニューラルネットワークモデルの最終出力となる。ニューラルネットワークモデルの各層は、1つ又は複数のノード(処理ノード又はニューロンとも称される)を含み、各ノードは前の層からの入力を処理する。文中では、「ニューラルネットワーク」、「モデル」、「ネットワーク」、及び「ニューラルネットワークモデル」という用語を互換的に使用することができる。
本開示の実施形態では、「デンス深度マップ」という用語は、以下のような深度マップを指すことができる。このような深度マップは、対象の完全な3次元画像を再構成するのに十分な深度情報を有する。例えば、デンス深度マップを表す行列の各要素がいずれも、深度情報を含む。これに対応して、スパース深度マップを表す行列の複数の要素は、深度情報を含まなくてよい。
上述の内容で簡単に触れたように、一般的に多くの場面では、深度を有しない1台のカメラで、興味のある対象を撮影する。そのため、深度情報のない複数の画像から、興味のある対象の深度情報を取得するか、又は、興味のある対象の3D画像を再構成する必要があるが、本明細書ではこうしたことを総称して「単眼視の3D再構成」と呼ぶ。
医療分野を例にとると、すでにロボットによる手術が広く応用されている。ロボット手術の際には、通常、医師がロボット手術における各種手術器具を操作できるように、外科医に対し外科手術を可視化するために、カメラを集積した内視鏡が用いられる。各種制約のため、内視鏡には通常1台のカメラしか搭載されておらず、そのため捉えられた器官の映像は深度情報を有しない。この場合、医師が映像のフレームだけで深度情報を認識することは困難である。また、侵襲型医療検査ロボットのようないくつかの医療用ロボットのアプリケーションは、検査及び治療を支援することができるが、これには正確な3D再構成及びナビゲーションが必要である。
このような医用画像の深度推定は多くの課題に直面している。課題の一つは、照明条件の悪さである。人体組織は閉じた構造をしているため、内視鏡は、使用時に光源を備える必要がある。検査又は手術の際、光源は内視鏡と共に移動する。光源の移動により、内視鏡が取得する映像(以下、内視鏡映像と称する)のフレーム間の光度が一定であるとは保証できない。もう一つの課題は、画質の問題である。内視鏡は検査又は手術の際に常に移動しているため、内視鏡映像の多くのフレーム内に、動きのあるアーチファクト及び不鮮明さが存在する。また、内視鏡映像のフレームのコントラストは通常高くなく、テクスチャが不明瞭である。これは、人間の組織が通常似たようなテクスチャを有するためである。
医用画像又は他の場面での画像に基づいて3D再構成を行う解決手段がすでにいくつか提出されている。例えば、機械学習技術の発展により、ニューラルネットワークを用いて画像のデンス深度マップを予測する解決手段が提出されている。ニューラルネットワークを用いた従来の解決手段は、ネットワーク学習用の真値がないため、通常、教師なし又は自己教師ありである。これら従来の解決手段のうち、いくつかは光源移動の影響を考慮しておらず、また別のいくつかは自己学習において真値として使用するスパース深度情報の精度に限界がある。
上述の問題及び/又は他の潜在的問題のうち1つ以上を解決するために、本開示の実施形態は、画像処理に用いられる解決手段を提出する。この解決手段では、同じ参照画像の異なる深度マップ間の差に関する第1制約と、異なる参照画像の深度の一致性に関する第2制約とを用いて、深度推定モデルに一緒に学習させることで、深度推定モデルのより適切な教師付き学習を実現する。第1制約は、例えばスパース深度損失であってもよく、第2制約は、例えば深度の一致性損失であってもよい。第1制約と第2制約の組合せを使用することで、過剰平滑の問題を回避することができる。この方法により、得られた深度推定モデルがより正確な深度情報を提供することができる。
以下、図面と結びつけて本開示の例示的な実施形態について詳細に説明する。
例示的システム
図1Aは、本開示の実施形態にかかる画像処理システム100の概略ブロック図を示す。図1Aに示すように、システム100は、データ収集装置110、データ前処理装置120、スパース再構成装置130、モデル学習装置140、及びモデル適用装置150を備えることができる。いくつかの実施形態では、上述の複数の装置はそれぞれ、異なる物理デバイスに実装することができる。任意で、上述の複数のデバイスのうち少なくとも一部は、同一の物理デバイスに実装されてもよい。例えば、データ収集装置110、データ前処理装置120、スパース再構成装置130、及びモデル学習装置140を、同一の物理デバイスに実装し、モデル適用装置150を別の物理デバイスに実装してもよい。
データ収集装置110は、生データ101を収集することができる。生データ101は、任意のフォーマットの画像データを含むことができる。生データ101は、同一のカメラで捉えた対象の映像であってもよい。映像を捉える際には、カメラ又は対象が動いていてもよい。任意で、生データ101は、同一のカメラで対象に対して異なる位置で捉えた一連の静止画像であってもよい。
データ前処理装置120は、生データ101を処理して、モデル学習用のシーケンス画像セット102を生成することができる。シーケンス画像セット102は、複数のシーケンスの画像を含むことができる。同一シーケンス内の複数の画像は同じ対象を含むことができる。異なるシーケンスの画像は、同じ又は異なる対象を含むことができる。生データ101に映像が含まれる場合、各シーケンスの画像は、所定時間(例えば、5秒)持続する複数のフレームを含むことができる。例示として、各シーケンスの画像は、検査又は手術の際に単眼式内視鏡で捉えた、患者の胃の映像における複数のフレームを含んでもよい。
データ前処理装置120は、生データ101の画像(例えば、映像のフレーム又は静止画像)をフィルタリングして、例えば、鮮明さが閾値に満たない画像、又は輝度が閾値に満たない画像を除去してもよい。また、データ前処理装置120は、フィルタリングされた画像を、複数シーケンスの画像に分割してもよい。文中、モデル学習用のシーケンス画像セット102の画像を「参照画像」と称し、参照画像に捉えられた対象を「参照対象」とも称することができる。
シーケンス画像セット102は、スパース再構成装置130に提供することができる。スパース再構成装置130は、シーケンス画像セット102に基づいて、参照対象のスパース点群103を生成することができる。このためにスパース再構成装置130は、異なる参照画像の中から特徴マッチング点を決定し、特徴マッチング点を用いてスパース深度マップの再構成を行い、スパース点群103を生成してもよい。以下では図2及び図3を参照して、スパース再構成装置130がスパース点群103を生成する例示的な操作について説明する。図1Aには示されていないが、スパース再構成装置130は、シーケンス画像セット102に基づいて、参照画像を捉えるカメラ(本明細書では「参照カメラ」とも称することができる)が、各参照画像を捉える際の姿勢を推定してもよい。
シーケンス画像セット102及びスパース点群103は、モデル学習装置140に共に提供して、深度推定モデル104に学習させるために用いることができる。深度推定モデル104は、ターゲット対象の異なる画像に基づいてターゲット対象のデンス深度マップを生成するように、学習させることができる。任意の適切なネットワーク構造を利用して、深度推定モデル104を実現することができる。本開示の範囲は、この点において限定されない。
学習済みの深度推定モデル104は、モデル適用装置150に提供することができる。モデル適用装置150は、ターゲット対象のシーケンスターゲット画像105を取得することができる。シーケンスターゲット画像105は、同一のカメラ(本明細書では「ターゲットカメラ」とも称される)によって、ターゲット対象に対する異なる位置で捉えられた複数の画像を含むことができる。例えば、シーケンスターゲット画像105は、検査又は手術の際に単眼式内視鏡によって捉えられたターゲット患者の胃の映像における複数のフレームであってもよい。
モデル適用装置150は、深度推定モデル104を用いて、シーケンスターゲット画像105の少なくとも1つに対応するデンス深度マップ106を生成することができる。例えば、モデル適用装置150は、シーケンスターゲット画像105のそれぞれの画像に対応するデンス深度マップを生成してもよい。具体的な場面に応じて、デンス深度マップ106をさらに処理してもよい。
いくつかの実施形態において、モデル適用装置150又は他の適切な装置は、シーケンスターゲット画像105に対応する複数のデンス深度マップ106に基づいて、ターゲット対象の3D画像を生成してもよい。つまり、デンス深度マップ106はさらに、ターゲット対象の3D再構成のために使用してもよい。いくつかの実施形態では、モデル適用装置150又は他の適切な装置は、シーケンスターゲット画像105に対応する複数のデンス深度マップ106に基づいて、ターゲット対象の姿勢を識別してもよい。すなわち、デンス深度マップ106はさらに、ターゲット対象の姿勢識別のために使用されてもよい。
深度推定モデル104は、様々な分野に適用することができる。例えば医療分野では、深度推定モデル104は、患者の検査中又は手術中に、患者の器官の3D画像を再構成するために患者の器官のデンス深度マップを生成するのに用いることができる。再構成された3D画像は、医師による病変特定、又は手術実施をより適切に補助することができる。別の例として、ゲームやレジャーの分野では、深度推定モデル104は、ユーザとのインタラクション中に、ユーザの姿勢を識別するためにユーザのデンス深度マップを生成するのに用いることができる。識別された姿勢を利用してエンターテインメント性とインタラクティブ性を高めることができる。以上の内容は、深度推定モデル104が適用され得る分野の例示に過ぎず、本開示の範囲を限定することは意図していない。
図1Aに示すシステム100は、本開示の実施形態を実現可能な1つの例示に過ぎず、本開示の範囲を限定することを意図していないことを理解されたい。本開示の実施形態は、他のシステム又はアーキテクチャにも同様に適用される。例えば、いくつかの実施形態では、画像処理システムは、データ収集装置110、データ前処理装置120、及びスパース再構成装置130を含まなくてもよい。モデル学習装置140は、深度推定モデル104に学習させるためのトレーニングデータを外部から、又はその他の適切な方法で取得してもよい。トレーニングデータは例えば、シーケンス画像セット102、スパース点群103、又はシーケンス画像セット102内の参照画像に対応するスパース深度マップ等である。
図1Bは、本開示のいくつかの実施形態にかかる画像処理デバイス160の概略ブロック図を示す。画像処理デバイス160は、学習済みの深度推定モデル104を含むか、又は配置することができる。理解すべき点として、画像処理デバイス160はさらに、他のモデルを含むか、又は他のモデルを配置してもよい。
図1Bに示すように、画像処理デバイス160は、シーケンス入力画像107を受信することができる。いくつかの実施形態では、シーケンス入力画像107は、画像収集装置(例えば、図1Aに示すデータ収集装置110)によって取得されたターゲット対象の一連の生の画像であってもよい。このような実施形態では、画像処理デバイス160は、シーケンス入力画像107を前処理して、深度推定モデル104に入力するためのシーケンス画像セットを取得してもよい。例えば、画像処理デバイス160は、図1Aに示すデータ前処理装置120を含んでもよい。いくつかの実施形態では、シーケンス入力画像107は、前処理によって取得されたターゲット対象のシーケンス画像セットであってもよい。
画像処理デバイス160は、シーケンス入力画像107に基づいて深度推定モデル104に従って、処理結果108を生成して提供することができる。例えば、画像処理デバイス160は、シーケンス入力画像107に基づいて深度推定モデル104に従って、ターゲット対象の複数のデンス深度マップを生成してもよい。その後、画像処理デバイス160は、複数のデンス深度マップに対しさらなる処理を行って、処理結果108を生成してもよい。
いくつかの実施形態では、画像処理デバイス160は、複数のデンス深度マップに基づいて、ターゲット対象の3D画像を生成して処理結果108としてもよい。すなわち、このような実施形態では、画像処理デバイス160は、ターゲット対象の3D再構成のための装置であってもよい。いくつかの実施形態では、画像処理デバイス160は、複数のデンス深度マップに基づいてターゲット対象の姿勢を識別してもよい。すなわち、このような実施形態では、デンス深度マップ106は、ターゲット対象の姿勢識別のための装置であってもよい。
例示として、医療分野では、画像処理デバイス160は、内視鏡検査又は手術で用いられるデバイスであってもよい。シーケンス入力画像107は、内視鏡を搭載したカメラによって取得された患者の器官の画像であってもよい。処理結果108は、医師による病変特定又は手術実施のために供される、患者の器官の3D画像であってもよい。
以上、本開示の実施形態にかかる画像処理システム及び画像処理デバイスの例示を説明した。以下では、図2~図4Bと結びつけて、いくつかの装置の例示的な操作について説明する。
スパース再構成装置の例示的操作
以下、図2及び図3を結びつけて、図1Aに示すスパース再構成装置130が実行する操作について、さらに詳細に説明する。図2は、シーケンス画像セット102から取得された参照対象250の参照画像201及び参照画像202を示す。参照画像201及び参照画像202は、参照カメラによって、参照対象250に対して異なる位置で捉えられる。参照画像201と参照画像202は、同一シーケンスの画像における2つの参照画像であってもよい。いくつかの実施形態では、参照画像201及び参照画像202は、映像ストリーム内で隣接する2つのフレームであってもよい。いくつかの実施形態では、参照画像201及び参照画像202は、映像ストリームにおいて所定の数離れた2つのフレームであってもよい。例えば、参照画像201は第iフレームであり、参照画像202は第i+jフレームであってもよい。ここで、iは正の整数であり、jは例えば2、3等であってもよい。
図2ではシーケンス画像セット102から一対の参照画像を取得して処理することしか示されていないが、理解すべき点として、これらは単に例示を目的としており、本開示の範囲に対する何らかの限定を暗示するものではない。いくつかの実施形態においてスパース再構成装置130は、シーケンス画像セット102から2つより多い参照画像を取得して処理してもよい。また、スパース再構成装置130は、シーケンス画像セット102から複数ペアの画像を順に取得して処理してもよい。
図2に示すように、スパース再構成装置130は、特徴マッチングモジュール210を含むことができる。特徴マッチングモジュール210は、参照画像201及び参照画像202の画像特徴に基づいて、参照画像201及び参照画像202において複数ペアの画素を決定することができる。各ペアの画素は、参照画像201の第1画素と、参照画像202の第2画素とを含むことができる。第1画素と第2画素は、画像特徴に応じてマッチングされる。したがって、このような画素のペアは、マッチング画素又はマッチング特徴点と称されてもよい。図2は、第1画素211と第2画素221、第1画素212と第2画素222、及び第1画素213と第2画素223を含む、3つのペアのマッチング画素を模式的に示す。
特徴マッチングモジュール210は、例えば最大安定極値領域(MSER)やHarriesアフィン(Harries-Affine)のような、任意の適切な特徴マッチングアルゴリズムを使用して、マッチング画素を決定することができる。考慮される画像特徴は、色の特徴、テクスチャの特徴、勾配の特徴、形状の特徴等を含むことができるが、これらに限定されない。本開示の範囲は、この点において限定されない。また、図2で示したマッチング画素数はあくまでも模式的なものである。特徴マッチングモジュール210は、画像特徴ごとにマッチングされる画素をもっと多く決定してもよい。
いくつかの実施形態では、スパース再構成装置130は、特徴マッチングによって決定されたマッチング画素に基づいて、参照対象250のスパース点群103を生成することができる。例えば、スパース再構成装置130は、マッチング画素に基づいて、スパース深度マップに関するデータを生成してもよい。その後、スパース再構成装置130は、運動回復構造(SfM)を用いてマッチング画素により、スパース点群103を構築してもよい。構築されたスパース点群103は、複数ペアの画素にそれぞれ対応する複数の点を含むことができる。スパース点群103の他に、スパース再構成装置130はさらに、参照画像201及び参照画像202を捉える参照カメラの姿勢を推定してもよい。任意で、例えば自己位置推定と地図作成の同時実行(SLAM:Simultaneous Localisation and Map Construction)のような任意の適切な方法を使用して、スパース点群103を構築してもよい。
いくつかの実施形態では、スパース再構成装置130は、特徴マッピングによって決定されたマッチング画素を拡張して、参照画像201及び参照画像202においてより多くのマッチング画素を決定してもよい。例えば、スパース再構成装置130は、局所領域拡張アルゴリズムを使用して、より多くのマッチング画素を決定してもよい。
図3を参照すると、このような実施形態では、スパース再構成装置130は、領域拡張モジュール310をさらに含んでいてもよい。領域拡張モジュール310は、領域アフィン変換に基づいて、マッチング画素をより多く決定することができる。追加として、領域拡張モジュール310はさらに、領域アフィン変換に基づいて、最初に決定されたマッチング画素からミスマッチング画素を排除してもよい。
具体的には、領域拡張モジュール310は、決定されたマッチング画素に基づいて、参照画像201と参照画像202との間のアフィン変換を決定し、当該アフィン変換と決定済みのマッチング画素とに基づいて、より多くのマッチング画素を決定することができる。例えば、領域拡張モジュール310は、第1画素211及び第2画素221に基づいて、第1画素211及び第2画素221の近傍の局所領域のためのアフィン変換を決定してもよい。その後、領域拡張モジュール310は、第1画素211を中心として外側に拡張して、第1画素211の周囲のより多い画素又は画素ブロックを決定することができる(例えば、8方向に向かって拡張する)。拡張された画素又は画素ブロックをアフィン変換に基づいて参照画像202にマッピングすることで、対応する画素又は画素ブロックを決定することができる。続いて領域拡張モジュール310は、参照画像201の拡張された画素と、参照画像202内の対応する画素とが、画像特徴ごとにマッチングするかどうかに基づいて、新たなマッチング画素を決定するか、又はアフィン変換を調整することができる。
図3の例示では、参照画像201の第1画素311と、参照画像202の第2画素321とが、マッチング画素として決定される。類似の方法で、参照画像201の第1画素312と参照画像202の第2画素322とがマッチング画素として決定され、参照画像201の第1画素313と参照画像202の第2画素323とがマッチング画素として決定される。図3から理解できるように、領域拡張を利用して、2つの参照画像におけるマッチング画素数を増やすことができる。
領域拡張モジュール310は、任意の適切なアルゴリズムを利用して、領域アフィン変換を実施することができる。また、図3に示すように領域アフィン変換を利用してマッチング画素数を増やすことは、あくまで模式的なものであり、本開示の範囲を限定する意図はない。
その後、スパース再構成装置130は、SfMを用いて、マッチング画素(特徴マッチングにより最初に決定されたマッチング画素と、領域拡張により追加されたマッチング画素とを含む)によりスパース点群103を構築することができる。スパース点群103に加えて、スパース再構成装置130はさらに、参照画像201及び参照画像202を捉える参照カメラの姿勢を推定してもよい。
カメラの姿勢推定及びスパース再構成では、マッチング画素の数と位置精度が極めて重要な役割を果たす。領域拡張により、より多くのマッチング画素を取得することができ、ミスマッチング画素を排除することができる。例示として、Harriesアフィンを使って初期に決定したマッチング画素は約120画素で、ミスマッチング画素が比較的多い。領域拡張を経て、マッチング画素数を約2600画素まで増やすことができ、元のミスマッチング画素を排除することができる。ミスマッチング画素の排除によりマッチングの精度を向上させ、カメラ姿勢の推定精度をさらに向上させることができる。以下に具体的に説明するように、マッチング画素数の増加によって、スパース点群がより豊富になることで、深度推定モデル104の学習がより適切に制約される。
また、医療分野、特に内視鏡の使用においては、光源の高速移動、テクスチャ情報の不足、低い画像コントラスト等の要因により、内視鏡画像における特徴点のマッチングが課題である。このような場合、ここで提出する局所領域拡張に基づく特徴マッチングを用いて、スパース再構成を効果的に改善することができる。
モデル学習装置の例示的操作
以下、図4A及び図4Bを結びつけて、図1Aに示すモデル学習装置140が実行する操作について、さらに詳細に説明する。モデル学習装置140は、参照画像201及び参照画像202に基づいて深度推定モデル104に学習させることができる。具体的に、モデル学習装置140は、深度推定モデル104に学習させるための制約を決定することができる。このような制約は、同じ参照画像の異なる深度マップ間の差に関する第1制約と、異なる参照画像の深度の一致性に関する第2制約とを含むことができる。第1制約は、同じ参照画像における密度の異なる深度マップ間の差に関連することができ、例えば、第1制約は後述するスパース深度損失(SDL:sparse depth loss)であってもよい。任意で、第1制約は、同じ参照画像における、密度は同じだが深度情報が異なる2つ以上の深度マップ間の差に関連してもよい。例えば、このような2つ以上の深度マップは、異なる方法で取得されてもよい。
ニューラルネットワークで深度推定モデル104を実現する場合、深度推定モデル104に学習させるための制約を、深度推定モデル104に学習させる目標関数又は損失とみなすことができる。例示として、第1制約は、密度が異なる深度マップ間の差に関するスパース深度損失(SDL)であってもよく、第2損失は、異なる画像の深度の一致性に関する深度の一致性損失(DCL)であってもよい。他の方法で深度推定モデル104を実現する場合、深度推定モデル104に学習させるための制約は、他のタイプの最適化目標であってもよい。以下、SDLとDCLをそれぞれ第1制約と第2制約の例示として、モデル学習装置104の操作を説明する。
図4Aに示すように、モデル学習装置140は、参照画像201に対応するスパース深度マップ401と、参照画像202に対応するスパース深度マップ402とを取得することができる。モデル学習装置140は、任意の適切な方法でスパース深度マップを取得することができる。いくつかの実施形態において、モデル学習装置140は、別の装置からスパース深度マップ401及びスパース深度マップ402を受信してもよい。この別の装置は例えば、シーケンス画像の画像特徴に基づいて、シーケンス画像内の所定画像に対応するスパース深度マップを生成するために用いることができる。
Figure 0007363883000001
Figure 0007363883000002
Figure 0007363883000003
Figure 0007363883000004
モデル学習装置140は、自己教師あり方式で深度推定モデル104に学習させることができる。図4Aに示すように、参照画像201及び参照画像202に基づいて深度推定モデル104に従って、参照画像201に対応するデンス深度マップ403-1と、参照画像202に対応するデンス深度マップ404-1とを生成することができる。モデル学習装置140はさらに、スパース深度マップ401、デンス深度マップ403-1、スパース深度マップ402、及びデンス深度マップ404-1の少なくとも一部に基づいて、SDL及びDCLを決定することができる。
以下、SDLの決定について説明する。モデル学習装置140は、スパース深度マップ401、デンス深度マップ403-1、スパース深度マップ402、及びデンス深度マップ404-1に基づき、SDLを決定することができる。デンス深度マップ(例えば、デンス深度マップ403-1)の分布は、対応するスパース深度マップ(例えば、スパース深度マップ401)の分布と一致しないので、いくつかの実施形態では、モデル学習装置140は、後続の損失計算の正確さを確保するために、対応するデンス深度マップの範囲をスパース深度マップの範囲に従って拡大縮小することができる。
具体的には、モデル学習装置140は、スパース深度マップ401に対するデンス深度マップ403-1の拡大縮小係数(「第1拡大縮小係数」とも称される)と、スパース深度マップ402に対するデンス深度マップ404-1の拡大縮小係数(「第2拡大縮小係数」とも称される)とを決定することができる。モデル学習装置140は、拡大縮小層410を含むことができる。拡大縮小層410は、第1拡大縮小係数に基づきデンス深度マップ403-1をデンス深度マップ403-2になるように拡大縮小し、第2拡大縮小係数に基づきデンス深度マップ404-1をデンス深度マップ404-2になるように拡大縮小することができる。
図4Aに示すように、モデル学習装置140はさらに、スパース深度マップ401とデンス深度マップ403-2との差(「第1の差」とも称する)を決定し、スパース深度マップ402とデンス深度マップ404-2との差(「第2の差」とも称する)を決定することができる。モデル学習装置140は、第1の差と第2の差に基づいて、SDLを決定することができる。
Figure 0007363883000005
Figure 0007363883000006
拡大縮小の操作を経た後、スパース深度マップ401の深度分布は、拡大縮小されたデンス深度マップ403-2の深度分布と基本的に一致する。こうすることで、SDLの計算の正確性を確保することができる。
Figure 0007363883000007
SfM等の方法を用いて取得されるスパース深度マップは任意のスケールを有するので、シーケンス画像セット102の参照画像が、例えば異なる単眼内視鏡映像からの異なるソースを有する場合、平均二乗誤差(MSE)に比較的大きな損失値が生じ、過剰適合につながる可能性がある。本開示の実施形態では、式(6)で定義されるSDLを使用することで、学習中に損失関数が拡大縮小の不変性を有するように保証することができる。
Figure 0007363883000008
以上、スパース深度損失の計算について説明した。理解されるように、スパース深度情報が存在する場合にのみ、SDLが参照画像の局所領域を制約することができる。しかし、スパース深度情報は実際には、参照画像のごく一部の画素しかカバーしていない。これでは、SDLのみを考慮した場合、学習過程で参照画像のほとんどの画素が制約を受けないことになる。そのため、参照画像間の幾何学的な制約も用いることで、対応するデンス深度マップの一致性をさらに確保する必要がある。したがって、モデル学習装置140はさらに、異なる画像における深度の一致性に関するDCLを用いて、深度推定モデル104に学習させてもよい。
Figure 0007363883000009
モデル学習装置140は、変換層420を含むことができる。変換層420は、相対的な姿勢を用いて、デンス深度マップ404-2を参照画像201に対応する変換深度マップ405に変換し、デンス深度マップ403-2を参照画像202に対応する変換深度マップ406に変換することができる。変換深度マップ405と変換深度マップ406は、歪んだデンス深度マップとみなすことができる。その後、モデル学習装置140は、デンス深度マップ403-2と変換深度マップ405との差、及び、デンス深度マップ404-2と変換深度マップ406との差に基づいて、DCLを決定することができる。
Figure 0007363883000010
Figure 0007363883000011
Figure 0007363883000012
図4Aの例示及び上記の説明では、モデル学習装置140は、拡大縮小されたデンス深度マップ403-2及び拡大縮小されたデンス深度マップ404-2を、対応する変換深度マップ、すなわち、歪んだデンス深度マップに変換する。他のいくつかの実施形態では、モデル学習装置140は、拡大縮小されていないデンス深度マップ403-1とデンス深度マップ404-1とに基づいて、歪んだデンス深度マップを生成し、深度の一致性損失を決定してもよい。
Figure 0007363883000013
いくつかの実施形態では、SDL及びDCLに加えて、異なる画像の強度の差に関する光度損失(PL:Photometric Loss)を用いて、深度推定モデル104に学習させてもよい。モデル学習装置140は、参照画像201及び参照画像202を捉える際の参照カメラの相対的な姿勢、参照画像201の強度分布及び参照画像202の強度分布に基づいて光度損失を決定してもよい。
Figure 0007363883000014
Figure 0007363883000015
Figure 0007363883000016
深度の一致性損失は、2つの参照画像のデンス深度マップの一致性を調整することができる。深度の一致性損失を用いることで、学習済みの深度予測モデル104によって推定されるデンス深度マップの全体構造を、より真実のものとすることができる。しかし、これでは、スパース深度情報の制約がない位置での深度推定の精度を保証することができない。したがって、この実施形態では、追加された光度損失によって、推定深度の精度をさらに向上させることができる。
上述したようにいくつかの実施形態において、第1制約は、同じ参照画像における、密度は同じだが深度情報が異なる2つ以上の深度マップ間の差に関連することができる。図4Bは、本開示の別のいくつかの実施形態にかかる深度推定モデルの学習の模式図を示す。以下、図4Bと図4Aの相違点のみを説明する。
図4Aに示すスパース深度マップ401及びスパース深度マップ402を取得する代わりに、モデル学習装置140は、図4Bに示すように、参照画像201に対応するデンス深度マップ408(「第3のデンス深度マップ」とも称される)と、参照画像202に対応するデンス深度マップ409(「第4のデンス深度マップ」とも称される)とを取得することができる。理解されるように、デンス深度マップ408とデンス深度マップ403-1は、同じ密度を有するが異なる深度情報を有することができる。同様に、デンス深度マップ409とデンス深度マップ404-1は、同じ密度を有するが異なる深度情報を有することができる。
デンス深度マップ408及びデンス深度マップ409は、深度推定モデル104以外の任意の適切な方法で取得することができる。例えば、デンス深度マップ408及びデンス深度マップ409は、学習済みのニューラルネットワーク(例えば、畳み込みニューラルネットワークCNN)を使用して生成してもよい。また例えば、デンス深度マップ408及びデンス深度マップ409は、センサ測定により得られてもよい。
図4Bに示すように、モデル学習装置140は、デンス深度マップ403-1、デンス深度マップ408、デンス深度マップ404-1、及びデンス深度マップ409に基づいて、例えば示された深度損失(DL)のような第1制約を決定することができる。デンス深度マップ403-1とデンス深度マップ408との間、及び、デンス深度マップ404-1とデンス深度マップ409との間で深度分布が異なる場合はさらに、図4Aを参照して説明したように、拡大縮小層410を用いてデンス深度マップ403-1とデンス深度マップ404-1を拡大縮小することができる。
例示的方法
図5は、本開示の実施形態にかかる、画像処理に用いられる例示的方法500のフローチャートを示す。例えば、方法500は、図1Aに示すシステム100の少なくとも一部(例えばモデル学習装置140)によって実行してもよい。以下、図1A~図4Bと結びつけて方法500を説明する。理解すべき点として、方法500はさらに、図示されていない付加的ブロックを含んでもよく、且つ/又は示されたいくつかのブロックを省略してもよい。本開示の範囲は、この点において限定されない。
ブロック510において、参照対象の第1参照画像(例えば、参照画像201)及び参照対象の第2参照画像(例えば、参照画像202)を取得する。第1参照画像と第2参照画像は、参照対象に対する異なる位置で参照カメラによって捉えられる。
ブロック520において、第1参照画像と第2参照画像に基づいて、第1制約と第2制約を決定する。第1制約は、同じ参照画像の異なる深度マップ間の差に関し、第2制約は、異なる参照画像の深度の一致性に関する。
いくつかの実施形態では、第1制約と第2制約を決定するために、第1参照画像に対応する第1のデンス深度マップ(例えば、デンス深度マップ403-1)及び第3のデンス深度マップ(例えば、デンス深度マップ408)、並びに第2参照画像に対応する第2のデンス深度マップ(例えば、デンス深度マップ404-1)及び第4のデンス深度マップ(例えば、デンス深度マップ409)を取得してもよい。例えば、第1参照画像と第2参照画像に基づいて深度推定モデルに従って、第1のデンス深度マップと第2のデンス深度マップを生成してもよい。第1のデンス深度マップと第3のデンス深度マップは異なる深度情報を有し、第2のデンス深度マップと第4のデンス深度マップは異なる深度情報を有する。さらに、第1のデンス深度マップ、第2のデンス深度マップ、第3のデンス深度マップ及び第4のデンス深度マップに基づいて、第1制約を決定してもよい。また、第1のデンス深度マップと第2のデンス深度マップに基づいて、第2制約を決定してもよい。
いくつかの実施形態では、第1制約と第2制約を決定するために、第1参照画像に対応する第1のスパース深度マップ(例えば、スパース深度マップ401)及び第1のデンス深度マップ(例えば、デンス深度マップ403-1)、並びに第2参照画像に対応する第2のスパース深度マップ(例えば、スパース深度マップ402)及び第2のデンス深度マップ(例えば、デンス深度マップ404-1)を取得してもよい。さらに、第1のスパース深度マップ、第1のデンス深度マップ、第2のスパース深度マップ、及び第2のデンス深度マップに基づいて、第1制約を決定し、第1のデンス深度マップと第2のデンス深度マップに基づいて、第2制約を決定してもよい。
いくつかの実施形態では、第1のスパース深度マップと第2のスパース深度マップを取得するために、第1参照画像及び第2参照画像の画像特徴に基づいて、複数のペアの画素を決定してもよい。各ペアの画素は、第1参照画像における第1画素(例えば、図2に示す画素211)と第2参照画像における第2画素(例えば、図2に示す画素221)とを含み、第2画素は画像特徴に従って第1画素とマッチングされる。さらに、複数ペアの画素に少なくとも基づいて、図1Aに示すスパース点群103のような参照対象の点群を構築してもよい。当該点群は、複数ペアの画素にそれぞれ対応する複数の点を少なくとも含む。さらに、点群と、第1参照画像を捉える際の参照カメラの姿勢とに基づいて、第1のスパース深度マップを決定するとともに、点群と、第2参照画像を捉える際の参照カメラの姿勢とに基づいて第2のスパース深度マップを決定してもよい。
いくつかの実施形態において、参照対象の点群を構築することは、複数ペアの画素に基づいて、第1参照画像と第2参照画像との間のアフィン変換を決定することと、複数ペアの画素とアフィン変換とに基づいて、第1参照画像及び第2参照画像において別の複数ペアの画素(例えば、図3に示す画素311と画素321、画素312と画素322、画素313と画素323)を決定することと、複数ペアの画素と別の複数ペアの画素とに基づいて点群を構築することと、を含むことができる。点群は、別の複数ペアの画素に対応する複数の点も含む。
いくつかの実施形態では、第1のスパース深度マップに対する第1のデンス深度マップの第1拡大縮小係数と、第2のスパース深度マップに対する第2のデンス深度マップの第2拡大縮小係数とを決定してもよい。例えば、式(4)に従って拡大縮小係数を決定してもよい。さらに、第1のスパース深度マップと、第1拡大縮小係数に基づき拡大縮小された第1のデンス深度マップ(例えば、図4に示すデンス深度マップ403-2)との間の第1の差を決定してもよい。さらに、第2のスパース深度マップと、第2拡大縮小係数に基づき拡大縮小された第2のデンス深度マップ(例えば、図4に示すデンス深度マップ404-2)との間の第2の差を決定してもよい。さらに、第1の差と第2の差に基づいて、第1制約を決定してもよい。
いくつかの実施形態では、第1参照画像及び第2参照画像を捉える際の参照カメラの相対的な姿勢を用いて、第2のデンス深度マップを第1参照画像に対応する第1変換深度マップ(例えば、図4に示す変換深度マップ405)に変換してもよい。さらに、相対的な姿勢を用いて、第1のデンス深度マップを第2参照画像に対応する第2変換深度マップ(例えば、図4に示す変換深度マップ406)に変換してもよい。さらに、第1のデンス深度マップと第1変換深度マップとの差、及び、第2のデンス深度マップと第2変換深度マップとの差に基づいて、第2制約を決定してもよい。
いくつかの実施形態では、第1参照画像及び第2参照画像を捉える際の参照カメラの相対的な姿勢を用いて、拡大縮小された第2のデンス深度マップ(例えば、図4に示すデンス深度マップ404-2)を第1参照画像に対応する第1変換深度マップ(例えば、図4に示す変換深度マップ405)に変換してもよい。さらに、相対的な姿勢を用いて、拡大縮小された第1のデンス深度マップ(例えば、図4に示すデンス深度マップ403-2)を第2参照画像に対応する第2変換深度マップ(例えば、図4に示す変換深度マップ406)に変換してもよい。さらに、拡大縮小された第1のデンス深度マップと第1変換深度マップとの差、及び、拡大縮小された第2のデンス深度マップと第2変換深度マップとの差に基づいて、第2制約を決定してもよい。
ブロック530において、第1制約(例えば、スパース深度損失)と第2制約(例えば、深度の一致性損失)に少なくとも基づいて、深度推定モデルに学習させて、学習済みの深度推定モデルを取得する。
いくつかの実施形態では、第1参照画像及び第2参照画像を捉える際の参照カメラの相対的な姿勢と、第1参照画像の強度分布と、第2参照画像の強度分布とに基づいて、第3制約を決定してもよい。第3制約は、異なる画像の強度の差に関する。例えば、式(12)に基づき光度損失を決定してもよい。その後、第1制約、第2制約、及び第3制約に基づいて、深度推定モデル104に学習させてもよい。
いくつかの実施形態において、第1参照画像及び第2参照画像は、映像において隣接する2つのフレーム、又は、映像において所定の数離れた2つのフレームのうちの少なくとも1つを含むことができる。
いくつかの実施形態において、映像は単眼式内視鏡で生成されてもよい。
表1は、異なる損失を使用して学習させた深度推定モデルの性能比較を示す。表1は、深度推定モデルが出力するデンス深度マップとスパース深度マップとの平均二乗誤差を、性能比較の指標として示す。
Figure 0007363883000017
表1において、「スキーム1」は、SDLのみを用いて深度推定モデルに学習させたスキームを示す。「スキーム2」は、スパースオプティカルフロー損失(SFL)とDCLを用いたスキームを示す。「スキーム3」は、本開示の実施形態にかかる、SDLとDCLを用いたスキームである。表1に示す実験データにより、本開示の実施形態のスキームが、学習させる深度推定モデルの性能を効果的に向上させ得ることを証明することができる。
図6は、本開示の実施形態にかかる、画像処理に用いられる例示的方法600のフローチャートを示す。例えば、方法600は、図1Aに示すシステム100の少なくとも一部(例えばモデル適用装置150)、又は図1Bに示す画像処理デバイス160によって実行してもよい。理解すべき点として、方法600はさらに、図示されていない付加的ブロックを含んでもよく、且つ/又は示されたいくつかのブロックを省略してもよい。本開示の範囲は、この点において限定されない。
ブロック610では、例えば図1Aに示すシーケンスターゲット画像105のような、ターゲット対象のシーケンスターゲット画像を取得する。シーケンスターゲット画像は、ターゲット対象に対する異なる位置でターゲットカメラによって捉えられる。
ブロック620において、学習済みの深度推定モデル104を用いて、シーケンスターゲット画像の少なくとも1つのターゲット画像に対応する深度マップを生成する。
いくつかの実施形態では、ブロック620において、シーケンスターゲット画像に対応するシーケンス深度マップを生成してもよい。方法600はさらに、シーケンス深度マップに基づいてターゲット対象の三次元画像を生成することを含んでもよい。いくつかの実施形態では、方法600はさらに、シーケンス深度マップに基づいてターゲット対象の姿勢を識別してもよい。
例示的デバイス
図7は、本開示の実施形態を実施可能な例示的コンピューティングデバイス700の概略ブロック図を示す。例えば、図1Aに示すシステム100の1つ又は複数の装置は、デバイス700によって実施することができる。図に示すように、デバイス700は、中央プロセッサユニット(CPU)701を含む。CPU701は、リードオンリーメモリ(ROM)702に記憶されたコンピュータプログラムの命令、又は記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムの命令に基づき、各種の適切な動作及び処理を実行することができる。RAM703にはさらに、デバイス700の操作に必要な各種プログラム及びデータを記憶することができる。CPU701、ROM702及びRAM703はバス704を介して互いに接続されている。入力/出力(I/O)インタフェース705もバス704に接続されている。
デバイス700における複数のコンポーネントは、I/Oインタフェース705に接続されている。複数のコンポーネントには、キーボード、マウス等の入力ユニット706、様々な種類のディスプレイ、スピーカ等の出力ユニット707、磁気ディスク、光ディスク等の記憶ユニット708、及びネットワークインタフェースカード、モデム、無線通信送受信機等の通信ユニット709が含まれる。通信ユニット709によって、デバイス700は、インターネットのようなコンピュータネットワーク及び/又は各種電信ネットワークを介して、他のデバイスと情報/データを交換することができる。
プロセッサユニット401は、例えば方法500及び600のような上述した各プロセス及び処理を実行するように設定することができる。例えば、いくつかの実施形態において、方法500及び600は、コンピュータソフトウェアプログラムとして実現可能であり、記憶ユニット708のようなマシン可読媒体に、有形記憶されている。いくつかの実施形態において、コンピュータプログラムの一部又は全部は、ROM702及び/又は通信ユニット709を経由してデバイス700にロード及び/又はインストールすることができる。コンピュータプログラムがRAM703にロードされCPU701により実行されると、上述した方法500及び600の一つ又は複数のステップを実行することができる。
いくつかの実施形態において、電子デバイスは少なくとも1つの処理回路を含む。少なくとも1つの処理回路は、参照対象に対する異なる位置で参照カメラによって捉えられる、参照対象の第1参照画像及び第2参照画像を取得し、第1参照画像と第2参照画像に基づいて、第1制約と第2制約を決定し、第1制約と第2制約に少なくとも基づいて、深度推定モデルに学習させて、学習済みの深度推定モデルを取得するように設定される。第1制約は、同じ参照画像の異なる深度マップ間の差に関し、第2制約は、異なる参照画像の深度の一致性に関する。
いくつかの実施形態において、少なくとも1つの処理回路は、第1参照画像に対応する第1のスパース深度マップ及び第1のデンス深度マップ、並びに第2参照画像に対応する第2のスパース深度マップ及び第2のデンス深度マップを取得し、第1のスパース深度マップ、第1のデンス深度マップ、第2のスパース深度マップ、及び第2のデンス深度マップに基づいて、第1制約を決定し、第1のデンス深度マップと第2のデンス深度マップに基づいて、第2制約を決定するように設定される。
いくつかの実施形態において、少なくとも1つの処理回路は、第1参照画像に対応する第1のデンス深度マップ及び第3のデンス深度マップ、並びに第2参照画像に対応する第2のデンス深度マップ及び第4のデンス深度マップを取得し、第1のデンス深度マップ、第2のデンス深度マップ、第3のデンス深度マップ及び第4のデンス深度マップに基づいて、第1制約を決定し、第1のデンス深度マップと第2のデンス深度マップに基づいて、第2制約を決定するように設定される。第1のデンス深度マップと第3のデンス深度マップは異なる深度情報を有し、第2のデンス深度マップと第4のデンス深度マップは異なる深度情報を有する。
いくつかの実施形態において、少なくとも1つの処理回路は、第1参照画像及び第2参照画像の画像特徴に基づいて、複数ペアの画素を決定し、複数ペアの画素に少なくとも基づいて、参照対象の点群を構築し、点群と、第1参照画像を捉える際の参照カメラの姿勢とに基づいて、第1のスパース深度マップを決定するとともに、点群と、第2参照画像を捉える際の参照カメラの姿勢とに基づいて第2のスパース深度マップを決定するように設定される。各ペアの画素は、第1参照画像における第1画素と第2参照画像における第2画素とを含み、第2画素は画像特徴に従って第1画素とマッチングされる。点群は、複数ペアの画素にそれぞれ対応する複数の点を少なくとも含む。
いくつかの実施形態において、少なくとも1つの処理回路は、複数ペアの画素に基づいて、第1参照画像と第2参照画像との間のアフィン変換を決定し、複数ペアの画素とアフィン変換とに基づいて、第1参照画像及び第2参照画像から別の複数ペアの画素を決定し、複数ペアの画素と別の複数ペアの画素とに基づいて点群を構築するように設定される。点群は、別の複数ペアの画素に対応する複数の点も含む。
いくつかの実施形態において、少なくとも1つの処理回路は、第1のスパース深度マップに対する第1のデンス深度マップの第1拡大縮小係数と、第2のスパース深度マップに対する第2のデンス深度マップの第2拡大縮小係数とを決定し、第1のスパース深度マップと、第1拡大縮小係数に基づき拡大縮小された第1のデンス深度マップとの間の第1の差を決定し、第2のスパース深度マップと、第2拡大縮小係数に基づき拡大縮小された第2のデンス深度マップとの間の第2の差を決定し、第1の差と第2の差に基づいて、第1制約を決定するように設定される。
いくつかの実施形態において、少なくとも1つの処理回路は、第1参照画像及び第2参照画像を捉える際の参照カメラの相対的な姿勢を用いて、第2のデンス深度マップを第1参照画像に対応する第1変換深度マップに変換し、相対的な姿勢を用いて、第1のデンス深度マップを第2参照画像に対応する第2変換深度マップに変換し、第1のデンス深度マップと第1変換深度マップとの差、及び、第2のデンス深度マップと第2変換深度マップとの差に基づいて、第2制約を決定するように設定される。
いくつかの実施形態において、少なくとも1つの処理回路は、第1参照画像及び第2参照画像を捉える際の参照カメラの相対的な姿勢と、第1参照画像の強度分布と、第2参照画像の強度分布とに基づいて、異なる参照画像の強度の差に関する第3制約を決定し、第1制約、第2制約、及び第3制約に基づいて、深度推定モデルに学習させるように設定される。
いくつかの実施形態において、第1参照画像及び第2参照画像は、映像において隣接する2つのフレーム、又は、映像において所定の数離れた2つのフレームのうちの少なくとも1つを含む。
いくつかの実施形態において、映像は単眼式内視鏡で生成される。
いくつかの実施形態において、コンピューティングデバイスは、少なくとも1つの処理回路を含む。少なくとも1つの処理回路は、ターゲット対象のシーケンスターゲット画像を取得し、請求項1~8のいずれか1項の方法で学習させた深度推定モデルを用いて、シーケンスターゲット画像の少なくとも1つのターゲット画像に対応する深度マップを生成するように設定される。シーケンスターゲット画像は、ターゲット対象に対する異なる位置でターゲットカメラによって捉えられる。
いくつかの実施形態において、少なくとも1つの処理回路は、シーケンスターゲット画像に対応するシーケンス深度マップを生成するように設定される。また、少なくとも1つの処理回路はさらに、デンスシーケンス深度マップと、ターゲットカメラの内部パラメータとに少なくとも基づいて、ターゲット対象の三次元画像を生成するように設定される。
本開示は、システム、方法、及び/又はコンピュータプログラム製品として実現することができる。本開示がシステムとして実現される場合、文中に記載されているコンポーネントは、単一のデバイスで実装できることに加えて、クラウドコンピューティングアーキテクチャとして実装することができる。クラウドコンピューティング環境では、これらのコンポーネントはリモート配置することができ、本開示に記載されている機能を実現するために協働することができる。クラウドコンピューティングは、コンピューティング、ソフトウェア、データアクセス及びストレージサービスを提供することができる。こうしたサービスを提供するシステム又はハードウェアの物理的な場所や設定は、エンドユーザが知る必要はない。クラウドコンピューティングでは、適切なプロトコルを使用して、ワイドエリアネットワーク(インターネット等)を介してサービスを提供することができる。例えば、クラウドコンピューティングプロバイダは、ワイドエリアネットワークを介してアプリケーションを提供する。それらは、ブラウザ又はその他の任意のコンピューティング・コンポーネントを介してアクセスすることが可能である。クラウドコンピューティングのコンポーネント及び対応データは、リモートのサーバに保存することができる。クラウドコンピューティング環境のコンピューティングリソースは、リモートのデータセンターに集約してもよいし、こうしたコンピューティングリソースを分散させてもよい。クラウドインフラは、ユーザにとっては単一のアクセスポイントとして提示されていても、共有データセンターを通じてサービスを提供することができる。したがって、文中で説明した様々な機能は、クラウドコンピューティングアーキテクチャを使用して、リモートのサービスプロバイダから提供することができる。任意で、通常のサーバから提供してもよいし、クライアント端末に直接又はその他の方法でインストールしてもよい。また、本開示はコンピュータプログラム製品として実現することができる。当該コンピュータプログラム製品は、本開示の各態様を実行するための、コンピュータ可読プログラム命令が格納されたコンピュータ可読記憶媒体を備えることができる。
コンピュータ可読記憶媒体は、命令実行デバイスにより使用される命令を保持し記憶することができる有形デバイスであり得る。コンピュータ可読記憶媒体は、命令実行デバイスにより使用される命令を保持し記憶することができる有形デバイスであり得る。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁気記憶装置、半導体記憶装置又は上述の任意の適切な組合せであり得るが、これらに限られない。コンピュータ可読記憶媒体のより具体的な例として(全てではない)、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去・書き込み可能なリードオンリーメモリ(EPROM又はフラッシュメモリ)、スタティックRAM(SRAM:Static Random Access Memory)、携帯型コンパクトディスクリードオンリーメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリースティック、フロッピーディスク、機械的エンコーダディスク、例えば命令が記憶されているパンチカード又は溝内の突起構造、及び上述の任意の適切な組合せが含まれる。ここで使用されるコンピュータ可読記憶媒体は、例えば無線電波若しくは他の自由伝播する電磁波、導波若しくは他の送信媒体を介して伝播する電磁波(例えば、光ケーブルを介する光パルス)、又は電線で送信される電気信号のような、瞬時の信号そのものであるとは解釈されない。
ここで説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算/処理デバイスにダウンロードすることができ、又は、ネットワーク、例えばインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/若しくは無線ネットワークを介して外部のコンピュータ若しくは外部記憶装置にダウンロードすることができる。ネットワークは、銅線送信ケーブル、光ケーブル送信、無線送信、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び/又はエッジサーバを含むことができる。各計算/処理デバイスにおけるネットワークインタフェースカード又はネットワークインタフェースは、コンピュータ可読プログラム命令をネットワークから受信し、当該コンピュータ可読プログラム命令を転送し、各計算/処理デバイスのコンピュータ可読記憶媒体に記憶されるようにする。
本開示の操作を実行するためのコンピュータプログラム命令は、アセンブラ指示文、命令セットアーキテクチャ(ISA:Instruction Set Architecture、機械語命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、又は、1種類若しくは複数種類のプログラミング言語の任意の組合せで記述されたソースコード若しくは対象コードであり得る。前記プログラミング言語は、Smalltalk、C++等のオブジェクト指向のプログラミング言語、及び、「C」言語又は類似のプログラミング語言のような一般的なプロセス式プログラミング言語を含む。コンピュータ可読プログラム命令は、全てユーザコンピュータ上で実行してもよいし、部分的にユーザコンピュータ上で実行してもよいし、1つの独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行するとともにリモートコンピュータ上で部分的に実行してもよいし、或いは、全てリモートコンピュータ又はサーバ上で実行してもよい。リモートコンピュータにかかる状況において、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータに接続することができるか、又は、外部のコンピュータに接続することができる(例えばインターネットサービスプロバイダを利用しインターネットを介して接続する)。いくつかの実施形態では、コンピュータ可読プログラム命令のステータス情報を利用して、例えばプログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブルロジックアレイ(PLA)のような電子回路をパーソナライズすることができる。当該電子回路は、コンピュータ可読プログラム命令を実行することで、本開示の各態様を実現することができる。
ここでは、本開示の実施形態にかかる方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照して、本開示の各態様を説明した。理解すべき点として、フローチャート及び/又はブロック図の各ブロック並びにフローチャート及び/又はブロック図の各ブロックの組合せは、いずれも、コンピュータ可読プログラム命令により実現可能である。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラミング可能なデータ処理装置のプロセッサユニットに提供されて、マシンを生成することができ、これらの命令がコンピュータ又は他のプログラミング可能なデータ処理装置のプロセッサユニットにより実行された場合、フローチャート及び/又はブロック図の1つ又は複数のブロックで規定された機能/動作を実現する装置が生成される。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶されてもよい。これらの命令によって、コンピュータ、プログラミング可能なデータ処理装置及び/又はその他のデバイスは特定の方法で動作を行う。したがって、命令が記憶されているコンピュータ可読媒体は、フローチャート及び/又はブロック図の1つ又は複数のブロックで規定された機能/動作を実現する各態様の命令が含まれている製品を含む。
コンピュータ可読プログラム命令を、コンピュータ、他のプログラミング可能なデータ処理装置又は他のデバイスにロードして、コンピュータ、他のプログラミング可能なデータ処理装置又は他のデバイス上で一連の操作ステップを実行させ、コンピュータが実施するプロセスを生成してもよい。こうすることで、コンピュータ、他のプログラミング可能なデータ処理装置又は他のデバイスで実行される命令に、フローチャート及び/又はブロック図の1つ又は複数のブロックで規定された機能/動作を実現させる。
図中のフローチャート及びブロック図は、本開示の複数の実施形態にかかるシステム、方法、コンピュータプログラム製品の実現可能なアーキテクチャ、機能及び操作を表している。この点において、フローチャート又はブロック図の各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を示すことができ、前記モジュール、プログラムセグメント又は命令の一部は、規定されたロジック機能を実現するための1つ又は複数の実行可能な命令を含む。代替としてのいくつかの実現形態において、ブロック内に表記された機能は、図中の表記と異なる順序で発生してもよい。例えば、2つの連続するブロックは実際には基本的に並行して実行されてもよいし、場合によっては反対の順序で実行されてもよい。これは、関係する機能によって定められる。また、注意すべき点として、ブロック図及び/又はフローチャートの各ブロック、並びにブロック図及び/又はフローチャートのブロックの組合せは、規定された機能又は動作を実行する、ハードウェアに基づく専用システムで実現してもよいし、或いは、専用のハードウェアとコンピュータ命令との組合せにより実現してもよい。
以上、本開示の各実施形態を説明したが、上述した説明は、例示的なもので、全て網羅したものではなく、開示された各実施形態に限定されない。説明した各実施形態の範囲及び精神から逸脱しない状況において、当業者が複数の修正及び変更を行うことができることは明らかである。ここで使用された用語は、各実施形態の原理、実際の応用又は市場での技術改良について最適な説明を行うこと、又は当業者に本明細書で開示された各実施形態を理解させることを意図して、選択したものである。

Claims (13)

  1. 参照対象に対する異なる位置で参照カメラによって捉えられる、前記参照対象の第1参照画像及び第2参照画像を取得することと、
    前記第1参照画像と前記第2参照画像に基づいて、第1制約と第2制約を決定することと、
    前記第1制約と前記第2制約に少なくとも基づいて、深度推定モデルに学習させて、学習済みの前記深度推定モデルを取得することと、
    を含み、
    前記第1制約と前記第2制約を決定することは、
    前記第1参照画像に対応する第1のスパース深度マップ及び第1のデンス深度マップ、並びに前記第2参照画像に対応する第2のスパース深度マップ及び第2のデンス深度マップを取得することと、
    前記第1のスパース深度マップ、前記第1のデンス深度マップ、前記第2のスパース深度マップ、及び前記第2のデンス深度マップに基づいて、前記第1制約を決定することと、
    前記第1のデンス深度マップと前記第2のデンス深度マップに基づいて、前記第2制約を決定することと、
    を含み、
    前記第1のデンス深度マップと前記第2のデンス深度マップに基づいて、前記第2制約を決定することは、
    前記第1参照画像及び前記第2参照画像を捉える際の前記参照カメラの相対的な姿勢を用いて、前記第2のデンス深度マップを、前記第1参照画像に対応する第1変換深度マップに変換することと、
    前記相対的な姿勢を用いて、前記第1のデンス深度マップを、前記第2参照画像に対応する第2変換深度マップに変換することと、
    前記第1のデンス深度マップと前記第1変換深度マップとの差、及び、前記第2のデンス深度マップと前記第2変換深度マップとの差に基づいて、前記第2制約を決定することと、
    を含む、
    画像処理の方法。
  2. 前記第1制約と前記第2制約を決定することは、
    前記第1参照画像に対応する第1のデンス深度マップ及び第3のデンス深度マップ、並びに前記第2参照画像に対応する第2のデンス深度マップ及び第4のデンス深度マップを取得することと、
    前記第1のデンス深度マップ、前記第2のデンス深度マップ、前記第3のデンス深度マップ及び前記第4のデンス深度マップに基づいて、前記第1制約を決定することと、
    前記第1のデンス深度マップと前記第2のデンス深度マップに基づいて、前記第2制約を決定することと、
    を含み、
    前記第1のデンス深度マップと前記第3のデンス深度マップは異なる深度情報を有し、前記第2のデンス深度マップと前記第4のデンス深度マップは異なる深度情報を有する、
    請求項1に記載の方法。
  3. 前記第1のスパース深度マップと前記第2のスパース深度マップを取得することは、
    前記第1参照画像及び前記第2参照画像の画像特徴に基づいて、複数ペアの画素を決定することと、
    前記複数ペアの画素に少なくとも基づいて、前記複数ペアの画素にそれぞれ対応する複数の点を少なくとも含む前記参照対象の点群を構築することと、
    前記点群と、前記第1参照画像を捉える際の前記参照カメラの姿勢とに基づいて、前記第1のスパース深度マップを決定することと、
    前記点群と、前記第2参照画像を捉える際の前記参照カメラの姿勢とに基づいて、前記第2のスパース深度マップを決定することと、
    を含み、
    各ペアの画素は、前記第1参照画像における第1画素と前記第2参照画像における第2画素とを含み、前記第2画素は、前記画像特徴に従って前記第1画素とマッチングされる、
    請求項に記載の方法。
  4. 前記参照対象の前記点群を構築することは、
    前記複数ペアの画素に基づいて、前記第1参照画像と前記第2参照画像との間のアフィン変換を決定することと、
    前記複数ペアの画素と前記アフィン変換とに基づいて、前記第1参照画像及び前記第2参照画像から別の複数ペアの画素を決定することと、
    前記複数ペアの画素と前記別の複数ペアの画素とに基づいて前記点群を構築することと、
    を含み、
    前記点群は、前記別の複数ペアの画素に対応する複数の点も含む、
    請求項に記載の方法。
  5. 前記第1のスパース深度マップ、前記第1のデンス深度マップ、前記第2のスパース深度マップ、及び前記第2のデンス深度マップに基づいて、前記第1制約を決定することは、
    前記第1のスパース深度マップに対する前記第1のデンス深度マップの第1拡大縮小係数と、前記第2のスパース深度マップに対する前記第2のデンス深度マップの第2拡大縮小係数とを決定することと、
    前記第1のスパース深度マップと、前記第1拡大縮小係数に基づき拡大縮小された前記第1のデンス深度マップとの間の第1の差を決定することと、
    前記第2のスパース深度マップと、前記第2拡大縮小係数に基づき拡大縮小された前記第2のデンス深度マップとの間の第2の差を決定することと、
    前記第1の差と前記第2の差に基づいて、前記第1制約を決定することと、
    を含む、
    請求項に記載の方法。
  6. 前記第1制約と前記第2制約に少なくとも基づいて、前記深度推定モデルに学習させることは、
    前記第1参照画像及び前記第2参照画像を捉える際の前記参照カメラの相対的な姿勢と、前記第1参照画像の強度分布と、前記第2参照画像の強度分布とに基づいて、異なる参照画像の強度の差に関する第3制約を決定することと、
    前記第1制約、前記第2制約、及び前記第3制約に基づいて、前記深度推定モデルに学習させることと、
    を含む、
    請求項1に記載の方法。
  7. 前記第1参照画像及び前記第2参照画像は、
    映像において隣接する2つのフレーム、又は、
    映像において所定の数離れた2つのフレーム
    のうちの少なくとも1つを含む、
    請求項1に記載の方法。
  8. 前記映像は単眼式内視鏡で生成される、
    請求項に記載の方法。
  9. ターゲット対象に対する異なる位置でターゲットカメラによって捉えられる、前記ターゲット対象のシーケンスターゲット画像を取得することと、
    請求項1~のいずれか1項に記載の方法により学習させた深度推定モデルを用いて、前記シーケンスターゲット画像の少なくとも1つのターゲット画像に対応する深度マップを生成することと、
    を含む、
    画像処理の方法。
  10. 前記シーケンスターゲット画像の少なくとも1つのターゲット画像に対応する深度マップを生成することは、
    前記シーケンスターゲット画像に対応するシーケンス深度マップを生成することを含み、
    さらに、
    前記シーケンス深度マップに少なくとも基づいて、前記ターゲット対象の三次元画像を生成することを含む、
    請求項に記載の方法。
  11. 請求項1~のいずれか1項に記載の方法を実行するように設定される少なくとも1つの処理回路を備える、
    電子デバイス。
  12. 少なくとも1つの処理回路を含み、
    前記少なくとも1つの処理回路は、
    ターゲット対象に対する異なる位置でターゲットカメラによって捉えられる、前記ターゲット対象のシーケンスターゲット画像を取得し、
    請求項1~のいずれか1項に記載の方法により学習させた深度推定モデルを用いて、前記シーケンスターゲット画像の少なくとも1つのターゲット画像に対応する深度マップを生成するように設定される、
    コンピューティングデバイス。
  13. マシン可読命令を含み、
    前記マシン可読命令は、デバイスにより実行される場合、前記デバイスに、請求項1~1のいずれか1項に記載の方法を実行させる、
    コンピュータ可読プログラム。
JP2021208765A 2020-12-23 2021-12-22 画像処理の方法、デバイス及びコンピュータ可読記憶媒体 Active JP7363883B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011545921.8 2020-12-23
CN202011545921.8A CN114663575A (zh) 2020-12-23 2020-12-23 图像处理的方法、设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2022100299A JP2022100299A (ja) 2022-07-05
JP7363883B2 true JP7363883B2 (ja) 2023-10-18

Family

ID=82023225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021208765A Active JP7363883B2 (ja) 2020-12-23 2021-12-22 画像処理の方法、デバイス及びコンピュータ可読記憶媒体

Country Status (3)

Country Link
US (1) US12118737B2 (ja)
JP (1) JP7363883B2 (ja)
CN (1) CN114663575A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12087007B2 (en) * 2021-03-31 2024-09-10 Auris Health, Inc. Vision-based 6DOF camera pose estimation in bronchoscopy
US20230083014A1 (en) * 2021-09-14 2023-03-16 Black Sesame Technologies Inc. Depth estimation based on data fusion of image sensor and depth sensor frames
US20230111306A1 (en) * 2021-10-13 2023-04-13 GE Precision Healthcare LLC Self-supervised representation learning paradigm for medical images
CN118505773B (zh) * 2024-07-17 2024-10-18 神鳍科技(上海)有限公司 一种无监督的单目深度和光流估计方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200195910A1 (en) 2018-12-14 2020-06-18 Samsung Electronics Co., Ltd. Apparatus including multiple cameras and image processing method
JP2020123114A (ja) 2019-01-30 2020-08-13 日本電信電話株式会社 深度超解像装置、深度超解像方法、及びプログラム
CN112037150A (zh) 2020-09-07 2020-12-04 贝壳技术有限公司 孔洞修复模型训练及修复方法、装置、系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7190842B2 (ja) * 2017-11-02 2022-12-16 キヤノン株式会社 情報処理装置、情報処理装置の制御方法及びプログラム
CN110610486B (zh) * 2019-08-28 2022-07-19 清华大学 单目图像深度估计方法及装置
CN111145238B (zh) * 2019-12-12 2023-09-22 中国科学院深圳先进技术研究院 单目内窥镜图像的三维重建方法、装置及终端设备
CN111784757B (zh) * 2020-06-30 2024-01-23 北京百度网讯科技有限公司 深度估计模型的训练方法、深度估计方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200195910A1 (en) 2018-12-14 2020-06-18 Samsung Electronics Co., Ltd. Apparatus including multiple cameras and image processing method
JP2020123114A (ja) 2019-01-30 2020-08-13 日本電信電話株式会社 深度超解像装置、深度超解像方法、及びプログラム
CN112037150A (zh) 2020-09-07 2020-12-04 贝壳技术有限公司 孔洞修复模型训练及修复方法、装置、系统

Also Published As

Publication number Publication date
US12118737B2 (en) 2024-10-15
CN114663575A (zh) 2022-06-24
JP2022100299A (ja) 2022-07-05
US20220198693A1 (en) 2022-06-23

Similar Documents

Publication Publication Date Title
JP7363883B2 (ja) 画像処理の方法、デバイス及びコンピュータ可読記憶媒体
Mahmood et al. Unsupervised reverse domain adaptation for synthetic medical images via adversarial training
Song et al. Mis-slam: Real-time large-scale dense deformable slam system in minimal invasive surgery based on heterogeneous computing
Shen et al. Context-aware depth and pose estimation for bronchoscopic navigation
CN113496489B (zh) 内窥镜图像分类模型的训练方法、图像分类方法和装置
Zhou et al. Real-time dense reconstruction of tissue surface from stereo optical video
CN112802185B (zh) 面向微创手术空间感知的内窥镜图像三维重构方法和系统
CN111080778B (zh) 一种双目内窥镜软组织图像的在线三维重建方法
CN112614169A (zh) 基于深度学习网络的2d/3d脊椎ct层级配准方法
CN114863225B (zh) 图像处理模型训练方法、生成方法、装置、设备及介质
CN113822289A (zh) 图像降噪模型的训练方法、装置、设备及存储介质
CN116997928A (zh) 使用诊断图像生成解剖模型的方法和设备
Karaoglu et al. Adversarial domain feature adaptation for bronchoscopic depth estimation
Chen et al. FRSR: Framework for real-time scene reconstruction in robot-assisted minimally invasive surgery
CN114399527A (zh) 单目内窥镜无监督深度和运动估计的方法及装置
Zhou et al. Real-time nonrigid mosaicking of laparoscopy images
Tao et al. SVT-SDE: spatiotemporal vision transformers-based self-supervised depth estimation in stereoscopic surgical videos
Zhou et al. Synchronizing detection and removal of smoke in endoscopic images with cyclic consistency adversarial nets
Wei et al. Stereo dense scene reconstruction and accurate laparoscope localization for learning-based navigation in robot-assisted surgery
Yang et al. 3D reconstruction from endoscopy images: A survey
Rodriguez et al. Nr-slam: Non-rigid monocular slam
CN114584675B (zh) 一种自适应视频增强方法和装置
CN113538335A (zh) 一种无线胶囊内窥镜的体内相对定位方法和装置
CN116091378A (zh) 图像处理的方法和电子设备
Jin Development of endoscopic SLAM and the challenges

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230214

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230918

R151 Written notification of patent or utility model registration

Ref document number: 7363883

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151