JP7337268B2 - 三次元エッジ検出方法、装置、コンピュータプログラム及びコンピュータ機器 - Google Patents

三次元エッジ検出方法、装置、コンピュータプログラム及びコンピュータ機器 Download PDF

Info

Publication number
JP7337268B2
JP7337268B2 JP2022522367A JP2022522367A JP7337268B2 JP 7337268 B2 JP7337268 B2 JP 7337268B2 JP 2022522367 A JP2022522367 A JP 2022522367A JP 2022522367 A JP2022522367 A JP 2022522367A JP 7337268 B2 JP7337268 B2 JP 7337268B2
Authority
JP
Japan
Prior art keywords
detection result
dimensional
edge detection
result
object detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022522367A
Other languages
English (en)
Other versions
JP2022552663A (ja
Inventor
露▲艷▼ 柳
▲カイ▼ ▲馬▼
冶▲楓▼ ▲鄭▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022552663A publication Critical patent/JP2022552663A/ja
Application granted granted Critical
Publication of JP7337268B2 publication Critical patent/JP7337268B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/20Contour coding, e.g. using detection of edges
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

関連出願への相互参照
本願は、2020年2月20日に中国特許局に提出された、出願番号が202010104850.1であり、出願名称が「三次元エッジ検出方法、装置、記憶媒体及びコンピュータ機器」である中国特許出願の優先権を主張し、その全ての内容が参照により本願に組み込まれる。
本願は、コンピュータ技術分野に関し、特に、三次元エッジ検出方法、装置、記憶媒体及びコンピュータ機器に関する。
コンピュータ技術の発展に伴い、画像処理はますます一般化になっている。エッジ検出は、画像処理及びコンピュータビジョンの基本的な問題であり、セマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクトトラッキングなど、他のコンピュータビジョンタスクに重要な情報を提供できる。しかしながら、現在のエッジ検出のほとんどは二次元画像のエッジ検出であり、三次元画像のエッジ検出の問題を解決する技術はほとんどなく、且つまれな三次元画像のエッジ検出の正確さも低い。このような問題に対する効果的な解決策はまだ提案されていない。
本願により提供される各実施例によれば、三次元エッジ検出方法、装置、記憶媒体及びコンピュータ機器を提供する。
コンピュータ機器が実行する、三次元エッジ検出方法であって、
三次元画像の各二次元スライスの二次元オブジェクト検出結果及び二次元エッジ検出結果を取得する、ステップと、
各前記二次元オブジェクト検出結果を三次元オブジェクト検出結果に積み重ね、各前記二次元エッジ検出結果を三次元エッジ検出結果に積み重ねる、ステップと、
前記三次元画像の特徴マップ、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って符号化を実行して、符号化結果を取得する、ステップと、
前記符号化結果、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って復号化を実行して、前記三次元画像の最適化された三次元エッジ検出結果を取得する、ステップと、を含む。
三次元エッジ検出装置であって、
三次元画像の各二次元スライスの二次元オブジェクト検出結果及び二次元エッジ検出結果を取得し、各前記二次元オブジェクト検出結果を三次元オブジェクト検出結果に積み重ね、各前記二次元エッジ検出結果を三次元エッジ検出結果に積み重ねるように構成される、取得モジュールと、
前記三次元画像の特徴マップ、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って符号化を実行して、符号化結果を取得するように構成される、符号化モジュールと、
前記符号化結果、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って復号化を実行して、前記三次元画像の最適化された三次元エッジ検出結果を取得するように構成される、復号化モジュールと、を備える。
コンピュータ可読命令が記憶された不揮発性記憶媒体であって、前記コンピュータ可読命令が1つ又は複数のプロセッサによって実行されるときに、前記1つ又は複数のプロセッサに、三次元エッジ検出方法を実行させる。
メモリと、プロセッサとを備える、コンピュータ機器であって、前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令が前記プロセッサによって実行されるときに、前記プロセッサに、三次元エッジ検出方法を実行させる。
本願の1つ又は複数の実施例の詳細は、以下の図面及び説明に記載されている。本願の他の特徴、目的及び利点は、明細書、添付の図面及び特許請求の範囲からより明らかになる。
本願実施例における技術的解決策をより明確にするために、下記において、説明に必要な図面を簡単に説明する。勿論、下記の図面は本願の一部の実施例に過ぎず、当業者は、創造的な労力を要することなく、これらの図面に基づいて他の図面を得ることもできる。
一実施例における三次元エッジ検出方法の適用環境図である。 一実施例における三次元エッジ微細検出ネットワークの概略構造図である。 別の実施例における三次元エッジ微細検出ネットワークの概略構造図である。 一実施例における三次元エッジ検出方法が適用されるネットワークの概略構造図である。 一実施例におけるオブジェクト検出モデルの概略構造図である。 一実施例におけるエッジ検出モデルの概略構造図である。 一実施例における様々なエッジ検出方法の検出結果の比較図である。 一実施例における2つのエッジ検出方法の検出結果の連続性の比較図である。 一実施例における三次元エッジ検出装置の構造ブロック図である。 別の実施例における三次元エッジ検出装置の構造ブロック図である。 一実施例におけるコンピュータ機器の構造ブロック図である。
本願の目的、技術的解決策及び利点をより明確に説明するために、以下では、添付の図面を参照して、本願を更に詳細に説明する。本明細書に記載の具体的な実施例は、本願を説明するためにのみ使用され、本願を限定するものではないことを理解されたい。
人工知能(Artificial Intelligence、AI)は、デジタルコンピュータ又はデジタルコンピュータによって制御される機械を使用して、人間の知能をシミュレート、拡張及び拡大し、環境を知覚し、知識を取得し、知識を使用して最良の結果を得る理論、方法、技術、及びアプリケーションシステムである。言い換えれば、人工知能は、知能の本質を理解しようとし、人間の知能に類似した方法で応答できる新型のインテリジェントマシン(intelligent machine)を生産しようとするコンピュータ科学の包括的な技術である。人工知能は、様々なインテリジェントマシンの設計原理及び実現方法を研究して、機械が知覚、推論及び意思決定の機能を有するようにすることである。
人工知能技術は、ハードウェアレベルの技術とソフトウェアレベルの技術の両方を含む幅広い分野に関する包括的な学科である。人工知能の基本技術には、通常、センサ、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理技術、動作/相互作用システム、メカトロニクスなどの技術が含まれる。人工知能ソフトウェア技術には、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習などが含まれる。
ここで、コンピュータビジョン(Computer Vision、 CV)は、機械が「見る」ようにする方法を研究する科学であり、さらに、人間の目の代わりに、カメラ及びコンピュータを使用して、ターゲットを認識、追跡、測定などを実行する機械ビジョンであり、グラフィックス処理をさらに実行して、コンピュータ処理を、人間の目で観察すること又は検出のための画像を械器に伝送することよりも適したものにすることである。コンピュータビジョンは、科学学科として、関連する理論と技術を研究し、画像又は多次元データから情報を取得できる人工知能システムを構築しようとする。コンピュータビジョン技術には、通常、画像処理、画像認識、画像セマンティック理解、画像検索、OCR(optical character recognition)、ビデオ処理、ビデオセマンティック理解、ビデオコンテンツ/行動認識、三次元オブジェクト再構築、3D技術、仮想現実、拡張現実、同期測位及びマップの構築が含まれ、さらに、顔認識や指紋認識などの一般的な生物学的特徴認識技術も含まれる。
機械学習(Machine Learning、ML)は、確率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの様々な分野に関連するマルチフィールド学際である。機械学習は、コンピュータが人間の学習行動をシミュレート又は実現して、新しい知識やスキルを取得し、既存の知識構造を再編成して性能を継続的に向上させる方法を専門的に研究する。機械学習は人工知能のコアであり、コンピュータが知能を有するようにするための基本的な方法であり、人工知能の様々な分野に適用される。機械学習及び深層学習には、通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納的学習(inductive learning)、実演学習(Learning from Demonstration)などの技術が含まれる。
人工知能技術の研究と進歩に伴い、人工知能技術は、一般的なスマートホーム、スマートウェアラブル機器、仮想アシスタント、スマートスピーカ、スマートマーケティング、無人運転、自動運転、ドローン、ロボット、スマート医療、スマートカスタマーサービスなどの様々な分野で研究及び適用され、技術の発展に伴い、人工知能技術は、より多くの分野に適用され、ますます重要な価値を発揮すると考えられる。
本願実施例で提供される解決策は、人工知能コンピュータビジョン、機械学習/深層学習などの技術に関連し、具体的には、以下の実施例を使用して説明する。
本願実施例における三次元エッジ検出は、画像処理及びコンピュータビジョンの基礎であり、三次元画像に対して三次元エッジ検出を実行して、三次元エッジ検出結果を取得することにより、他のコンピュータビジョンに、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーション又はオブジェクトトラッキングなどの重要な情報を提供でき、非常に基本的であるが、非常に重要なコンピュータビジョンタスクでもある。実際の応用では、三次元エッジ検出結果は、多くの医療画像のセグメンテーション又は検出タスクに役立つ。
図1に示されるように、一実施例では、三次元エッジ検出方法を提供する。本実施例は、主に、当該方法がコンピュータ機器に適用される場合を例として説明する。当該コンピュータ機器は、具体的には、端末又はサーバなどであり得る。図1を参照すると、当該三次元エッジ検出方法は、具体的には、以下のステップを含む。
ステップS102において、三次元画像の各二次元スライスの二次元オブジェクト検出結果及び二次元エッジ検出結果を取得する。
ここで、三次元画像は、3つの次元で情報を有する画像である。三次元画像を、その1つの次元で分割を実行して、三次元画像の各二次元スライスを取得する。通常、三次元画像の三次元は、高さ、幅、及び深さの3つの次元と見なすことができ、三次元画像の二次元スライスは、深さの次元で三次元画像に対して分割を実行することであり、異なる二次元スライスは異なる深さの位置に対応する。もちろん、他の実施例では、三次元画像に対して他の次元で分割を実行でき、ここでは限定しない。
具体的には、コンピュータ機器は、二次元画像に対してオブジェクト検出を実行する方法を使用して、三次元画像の各二次元スライスを処理して、三次元画像の各二次元スライスの二次元オブジェクト検出結果を取得し、二次元画像に対してエッジ検出を実行するアルゴリズムを使用して、三次元画像の各二次元スライスを処理して、三次元画像の各二次元スライスの二次元エッジ検出結果を取得することができる。ここで、オブジェクト検出を具体的に実行する方法及びエッジ検出を具体的に実行する方法については、後続の実施例の詳細な説明を参照できる。
ここで、オブジェクト検出の目的は、画像内のオブジェクトが配置された画素点領域を認識することであり、エッジ検出の目的は、画像内の、画素のグレースケールが大幅に変化する画素点を認識することである。エッジは、通常、オブジェクトと背景との間に存在する。オブジェクト検出及びエッジ検出は両方、画素レベルの検出であり得、即ち、検出タスクに従って、各画素点が属するカテゴリを決定する。本願実施例では、オブジェクト検出は、オブジェクトを検出するだけでよく、オブジェクトを分類、即ち、異なるオブジェクトを区別する必要がなく、どんなオブジェクトであるか決定しなくてもよい。
ステップS104において、各二次元オブジェクト検出結果を三次元オブジェクト検出結果に積み重ね、各二次元エッジ検出結果を三次元エッジ検出結果に積み重ねる。
具体的には、三次元画像を、その1つの次元で1つ以上のフレームの二次元スライスに分割し、これらの二次元スライスの間には一定の順序関係が存在し、即ち、各フレームの二次元スライスは、当該分割された次元での1つの位置(深さ値など)に対応し、これらの二次元スライスの二次元オブジェクト検出結果を、対応する二次元スライスの間の順序関係に従って積み重ねて、三次元オブジェクト検出結果を取得でき、これらの二次元スライスの二次元エッジ検出結果を、対応する二次元スライスの間の順序関係に従って積み重ねて、三次元エッジ検出結果を取得することができる。
ステップS106において、三次元画像の特徴マップ、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って符号化を実行して、符号化結果を取得する。
ここで、特徴マップは、画像の特徴を反映するために使用され、画像の特徴の存在の一形態である。特徴マップは、画像の元のRGBの3チャネルマップ、又は画像に対して畳み込み動作を実行して出力されたFeature Mapなどである。
画像に対して符号化を実行する場合、一般的な方法は、画像の特徴マップに対して直接符号化を実行することであることに留意されたい。しかしながら、本願実施例では、特徴マップ、三次元オブジェクト検出結果及び三次元エッジ検出結果の3種類の異なるデータに従って、符号化を実行する。さらに、この3種類のデータに対して特定の演算を実行した後、演算結果に対して符号化を実行することもできる。このようにして、符号化のプロセスで、三次元オブジェクト検出結果及び三次元エッジ検出結果を参照して、より有用な情報を取得することができる。
具体的には、コンピュータ機器は、エンコーダを使用して、三次元画像の特徴マップ、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って符号化を実行して、符号化結果を取得することができる。さらに、コンピュータ機器は、三次元画像の色特徴マップと、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算して、次にエンコーダを使用して前記演算結果に対して符号化を実行して、符号化結果を取得する。
一実施例では、ステップS106は、三次元画像の特徴マップ、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って、一回以上の符号化を実行する、ステップであって、毎回の符号化の入力は、三次元オブジェクト検出結果及び三次元エッジ検出結果を使用して、前回の符号化の出力に対して演算を実行した演算結果であり、毎回の符号化の出力は異なり、且つすべて三次元画像の特徴マップである、ステップと、最後の符号化によって出力された特徴マップを取得して、符号化結果を取得する、ステップと、を含む。
具体的には、コンピュータ機器は、エンコーダを使用して符号化を実行でき、当該エンコーダは、1つ以上の符号化段階を含み得、それにより、三次元画像の特徴マップ、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って、一回以上の符号化動作を実行することができる。このようにして、エンコーダの入力に対して、1つ以上のレベルの符号化動作を実行することにより、取得された符号化結果は、より正確に特徴を表示することができる。ここで、エンコーダの各符号化段階の入力はすべて、三次元オブジェクト検出結果及び三次元エッジ検出結果を使用して、前の符号化段階の出力に対して演算を実行した後の演算結果である。このようにして、各符号化段階で、三次元オブジェクト検出結果及び三次元エッジ検出結果を参照でき、符号化の有効性を向上させることができる。エンコーダの各符号化段階の出力はすべて、三次元画像の特徴マップであり、且つエンコーダの各符号化段階で出力された特徴マップは異なる。コンピュータ機器は、最後の符号化段階で出力された特徴マップを符号化結果として使用する。
1つの特定の実施例では、コンピュータ機器は、三次元エッジ微細検出ネットワーク(Joint Edge Refinement Network)を介して符号化プロセスを実現することができる。図2を参照すると、三次元エッジ微細検出ネットワークは、エンコーダを含み、当該エンコーダは、4つの符号化段階を含み得、各符号化段階は、2つの畳み込みモジュールを含み得、各畳み込みモジュールは、畳み込み層、活性化関数層及び正規化層を含み得る。ここで、活性化関数は、具体的には、ReLU関数等であり得、正規化は、グループ正規化(Group Normalization)などであり得る。
図2に示されるモジュールの構造は例示のみであり、三次元エッジ微細検出ネットワークの構造を限定するものではなく、実際の三次元エッジ微細検出ネットワークは、図2に示されるものより多い又は少ないコンポーネントを含み得、図2に含まれる構造のパラメータも異なることができることに留意されたい。
一実施例では、三次元画像の特徴マップ、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って、一回以上の符号化を実行する、ステップは、三次元画像の色特徴マップと、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算した後、現在の符号化を実行する、ステップと、現在の符号化の出力と、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算した後、最後の符号化まで次回の符号化を実行する、ステップと、を含む。
オブジェクト検出は、画像内のオブジェクトが配置された画素点領域を認識することであり、エッジ検出は、画像内の、画素のグレースケールが大幅に変化する画素点を認識することであることが理解できる。エッジは、通常、オブジェクトと背景との間に存在するため、オブジェクト検出と、エッジ検出とには一定の類似性があると考えられる。オブジェクト検出の結果がDobjであり、エッジ検出の結果がDedgであると仮定すると、この2つの結果の間には次のような論理関係が存在する。
Figure 0007337268000001
そうすると、
Figure 0007337268000002
であり得、ここで、F(・)、g(・)は、異なるエッジ検出演算子であり、Iは、入力された画像特徴であり、
Figure 0007337268000003
は、Dedgより正確なエッジ検出の結果である。一般に、オブジェクト検出とエッジ検出の交点(即ち、ドット積演算)はエッジ検出であり、オブジェクト検出とエッジ検出の和集合(即ち、加算演算)は、オブジェクト検出であることが理解できる。そうすると、g(I)・Dobj+Dedgを使用してエッジ検出結果を取得し、当該エッジ検出結果に対してエッジ検出演算子も使用して、より正確なエッジ検出結果を取得することができる。
具体的には、コンピュータ機器は、三次元画像の色特徴マップと、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算し、次に演算結果を最初の符号化段階の入力として使用し、続いて、当該符号化段階で出力された特徴マップと、三次元検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算し、最後の符号化段階で符号化結果が出力されるまで、演算結果を、次回の符号化段階の入力として使用する。
三次元画像の特徴マップ、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って、初回の符号化を実行するとき、符号化出力がない場合、三次元画像の特徴マップは、三次元画像の元のRGB色チャネル特徴マップであり得、後続の符号化を実行する場合、前回の符号化で出力された特徴マップを使用することができる。
1つの特定の実施例では、図3を参照すると、コンピュータ機器は、相互学習モジュール(Mutual、M)を介して、三次元画像の特徴マップと、三次元オブジェクト検出結果のドット積演算し、次に三次元エッジ検出結果を加算する演算を実現することができる。即ち、相互学習モジュール(M)の入力は、三次元画像の特徴マップ(F)、三次元オブジェクト検出結果(O)及び三次元エッジ検出結果(E)であり、出力は、新しい三次元画像の特徴マップ(F)である。具体的には、相互学習モジュール(M)は、三次元画像の特徴マップ(F)と、三次元オブジェクト検出結果(O)に対してドット積演算
Figure 0007337268000004
を実行し、次に三次元エッジ検出結果(E)を加算
Figure 0007337268000005
して、新しい三次元画像の特徴マップ(F)を出力する。ここで、最初の相互学習モジュール(M)の場合、三次元画像の特徴マップ(F)は、三次元画像の色特徴マップであり、後続の相互学習モジュール(M)の場合、三次元画像の特徴マップ(F)は、符号化して出力された特徴マップである。
引き続き図3を参照すると、コンピュータ機器は、三次元画像の色特徴マップ、三次元オブジェクト検出結果及び三次元エッジ検出結果を、相互学習モジュール(M)に入力することができ、相互学習モジュール(M)は、新しい特徴マップをエンコーダの第1符号化段階に出力し、第1符号化段階で符号化された出力は、三次元オブジェクト検出結果及び三次元エッジ検出結果と一緒に相互学習モジュール(M)に入力され、相互学習モジュール(M)は、新しい特徴マップをエンコーダの第2符号化段階に出力し、第2符号化段階で符号化された出力は、三次元オブジェクト検出結果及び三次元エッジ検出結果と一緒に相互学習モジュール(M)に入力され、相互学習モジュール(M)は、新しい特徴マップをエンコーダの第3符号化段階に出力し、第3符号化段階で符号化された出力は、三次元オブジェクト検出結果及び三次元エッジ検出結果と一緒に相互学習モジュール(M)に入力され、相互学習モジュール(M)は、新しい特徴マップをエンコーダの第4符号化段階に出力し、第4符号化段階で符号化された出力は、符号化結果である。図3に示されるモジュールの構造は例示のみであり、三次元エッジ微細検出ネットワークの構造を限定するものではなく、実際の三次元エッジ微細検出ネットワークは、図3に示されるものより多い又は少ないコンポーネントを含み得、図3に含まれる構造のパラメータも異なることができることに留意されたい。
第1符号化段階前の相互学習モジュール(M)の場合、符号化がまだ実行されていないため、g(I)・Dobj+Dedgのg(I)は、画像の元の色特徴マップであり、符号化は、1つのエッジ検出演算子と見なすことができ、そうすると、第1符号化段階の動作は、F(g(I)・Dobj+Dedg)を実行する演算と見なすことができることが理解できる。後続の符号化段階前の相互学習モジュール(M)は、すでに符号化されたため、g(I)・Dobj+DedgのIは、前の符号化段階で入力された画像特徴であり、符号化は、1つのエッジ検出演算子と見なすことができ、g(I)は、前の符号化段階で出力された画像特徴である。
本実施例では、各符号化において、三次元画像の色特徴マップと、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算した後に符号化を実行し、それにより、符号化するとき、対象のオブジェクトが配置された領域に焦点を当てて、既存の潜在的なエッジ検出結果も入力特徴マップで強化されるため、符号化出力は、より正確に特徴を表示することができる。
上記の実施例では、データに対して1回以上の符号化、即ち、1つ以上のレベルの符号化動作を実行することによって、取得された符号化出力は、より正確に特徴を表示することができる。
ステップS108において、符号化結果、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って復号化を実行して、三次元画像の最適化された三次元エッジ検出結果を取得する。
ステップS104において、二次元エッジ検出結果を積み重ねることによって取得された三次元エッジ検出結果は、比較的に正確な検出結果であることに留意されたい。最適化された三次元エッジ検出結果は、二次元エッジ検出結果を積み重ねて取得された三次元エッジ検出結果より正確さが高く、オブジェクトの実際のエッジにより適合する。最適化された三次元エッジ検出結果は、最適化アルゴリズムを使用して、二次元エッジ検出結果を積み重ねて取得された三次元エッジ検出結果を最適化した結果に限らず、二次元エッジ検出結果を積み重ねて取得された三次元エッジ検出結果を、三次元画像のエッジ検出を実行する具体的なプロセスに適用して、取得された三次元エッジ検出結果でもあり得る。
さらに、符号化結果に対して復号化を実行する場合、一般的な方法は、符号化結果に対して直接復号化することであることに留意されたい。しかしながら、本願実施例では、符号化結果、三次元オブジェクト検出結果及び三次元エッジ検出結果の3種類の異なるデータに従って、復号化を実行する。さらに、この3種類のデータに対して特定の演算を実行した後、演算結果に対して復号化を実行することもできる。このようにして、復号化のプロセスで、三次元オブジェクト検出結果及び三次元エッジ検出結果を参照して、より有用な情報を取得することができる。
具体的には、コンピュータ機器は、デコーダを使用して、符号化結果、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って復号化を実行して、復号化結果、即ち、三次元画像の最適化された三次元エッジ検出結果を取得することができる。さらに、コンピュータ機器は、符号化結果と、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算し、次にデコーダを使用して、前記演算された演算結果に対して復号化を実行して、復号化結果、即ち、三次元画像の最適化された三次元エッジ検出結果を取得することができる。
1つの特定の実施例では、三次元画像の最適化された三次元エッジ検出結果は、2種類の画素値を含む三次元画像であり得る。ここで、1種類の画素値は、対応する画素点がエッジ上の画素点であることを表し、もう1種類の画素値は、対応する画素点が非エッジ上の画素点であることを表す。
1つの特定の実施例では、三次元画像の最適化された三次元エッジ検出結果は、三次元確率行列であり得る。ここで、各行列位置の確率値は、三次元画像に対応する画素点が、エッジ上に属する画素点である確率であり、確率が事前に設定された閾値より大きい場合、エッジ上の画素点であると見なす。
一実施例では、ステップS108は、符号化結果、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って、一回以上の復号化を実行する、ステップであって、毎回の復号化の入力は、三次元オブジェクト検出結果及び三次元エッジ検出結果を使用して、前回の復号化の出力に対して演算を実行した演算結果を含む、ステップと、最後の復号化の出力を取得して、三次元画像の最適化された三次元エッジ検出結果を取得する、ステップと、を含む。
具体的には、コンピュータ機器は、デコーダを使用して復号化を実行でき、当該デコーダは、1つ以上の復号化段階を含み得、それにより、符号化結果、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って、一回以上の復号化動作を実行することができる。デコーダの入力に対して、1つ以上のレベルの復号化動作を実行するため、符号化を実行して取得された特徴を、正確に出力空間にマッピングすることができる。ここで、デコーダの各復号化段階の入力はすべて、三次元オブジェクト検出結果及び三次元エッジ検出結果を使用して、前の復号化段階の出力に対して演算を実行した後の演算結果を含む。このようにして、各復号化段階において、三次元オブジェクト検出結果及び三次元エッジ検出結果を参照して、復号化の有効性を向上させることができる。デコーダの各復号化段階の出力はすべて、三次元画像の特徴マップであり、且つデコーダの各復号化段階で出力された特徴マップは異なる。出力空間は、三次元境界であるか否かの検出結果であり得る。
最後の復号化段階で出力された特徴マップは、三次元画像の最適化された三次元エッジ検出結果であり得ることが理解できる。当該最適化された三次元エッジ検出結果は、具体的には、三次元画像の各画素点の分類マップであり得る。当該分類マップ上の画素点の画素値は、三次元画像に対応する画素点が属するカテゴリを表す。ここでのカテゴリは、2種類を含み、1種類は、エッジに属するカテゴリで、もう1種類は、エッジに属さないカテゴリである。例えば、分類マップ上の画素点の画素値は、0と1を含み、0は、三次元画像に対応する画素点が、エッジ画素点ではないことを表し、1は、三次元画像に対応する画素点が、エッジ画素点であることを表す。つまり、三次元画像に対して符号化及び復号化を実行する2つのプロセス、即ち、三次元画像に対して三次元エッジ検出を実行するプロセスでは、三次元画像内の各画素点が、三次元エッジの画素点であるか否かを決定する。
別の実施例では、当該最適化された三次元エッジ検出結果は、具体的には、三次元画像の各画素点が、エッジ画素点である確率分布マップであり得る。当該確率分布マップ上の画素点の画素値は、三次元画像に対応する画素点が、エッジ画素点である確率を表す。
1つの特定の実施例では、引き続き図2を参照すると、三次元エッジ微細検出ネットワークは、デコーダを含み得、当該デコーダは、3つの復号化段階を含み得、各復号化段階は、2つの畳み込みモジュールを含み得、各畳み込みモジュールは、畳み込み層、活性化関数層及び正規化層を含み得る。ここで、活性化関数は、具体的には、ReLU関数等であり得、正規化は、グループ正規化(Group Normalization)などであり得る。
別の実施例では、毎回の復号化の入力はまた、現在の復号化段階にスキップ接続(Skip Connection)された符号化段階の出力を含み得る。このようにして、復号化するとき、前の符号化によって抽出された画像の特徴と組み合わせ、それにより、復号化の正確さを向上させることができる。例えば、エンコーダが4つの段階を含み、デコーダが3つの段階を含むと仮定すると、最初の符号化段階と第3復号化段階をスキップ接続し、2番目の符号化段階と2番目の復号化段階をスキップ接続し、3番目の符号化段階と最初の復号化段階をスキップ接続することができる。
他の実施例では、データに対して1回以上の復号化、即ち、1つ以上のレベルの復号化動作を実行することによって、取得された復号化の出力が画素点に対する分類結果は、より正確になる。
一実施例では、符号化結果、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って、一回以上の復号化を実行する、ステップは、符号化結果と、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算した後、現在の復号化を実行する、ステップと、現在の復号化の出力と、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算した後、最後の復号化まで次の復号化を実行する、ステップと、を含む。
具体的には、コンピュータ機器は、符号化結果と、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算し、次に演算結果を最初の復号化段階の入力として使用し、続いて、当該復号化段階で出力された特徴マップと、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算し、最後の復号化段階が三次元画像の最適化された三次元エッジ検出結果が出力されるまで、演算結果を、次の復号化段階の入力として使用する。
別の実施例では、コンピュータ機器は、符号化結果と、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算し、次に演算結果と、最初の復号化段階にスキップ接続された符号化段階の出力を一緒に、最初の復号化段階の入力として使用し、続いて、当該復号化段階で出力された特徴マップと、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算し、最後の復号化段階の出力まで、演算結果と、現在の復号化段階にスキップ接続された符号化段階の出力を一緒に、次の復号化段階の入力として使用する。
上記の実施例では、各復号化において、三次元画像の特徴マップと、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算した後に復号化を実行し、それにより、復号化するとき、対象のオブジェクトが配置された領域に焦点を当てて、既存の潜在的なエッジ検出結果も入力特徴マップで強化されるため、復号化の正確さを向上させることができる。
一実施例では、当該三次元エッジ検出方法はさらに、サンプリング率が異なる1つ以上の拡張畳み込みを介して復号化結果を処理して、1つ以上の特徴マップを取得する、ステップであって、1つ以上の特徴マップのサイズは異なる、ステップと、1つ以上の特徴マップを接続した後に畳み込み動作を実行して、マルチスケール学習結果を取得する、ステップと、を含む。符号化結果、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って、一回以上の復号化を実行する、ステップは、マルチスケール学習結果、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って、1回以上の復号化を実行する、ステップを含む。
ここで、拡張畳み込み(Atrous Convolutions)は、拡張畳み込み(Dilated Convolutions)とも呼ばれ、標準の畳み込み層に「拡張率(Dilation Rate)」と呼ばれるパラメータを導入したものであり、当該パラメータは、畳み込みカーネルがデータを処理するときの各値の間隔を定義する。拡張畳み込みの目的は、プーリング(pooling)(pooling層は情報の損失を引き起こす)なしで同じ計算量である場合、より大きな受容野を提供することである。
具体的には、コンピュータ機器は、サンプリング率が異なる1つ以上の拡張畳み込みを介して復号化結果を処理して、1つ以上の特徴マップを取得することができる。異なるサンプリング率は、異なる畳み込みカーネルサイズ及び/又は異なる拡張率であり得るため、このようにして取得された1つ以上の特徴マップのサイズも異なる。コンピュータ機器はまた、1つ以上の特徴マップを接続した後に畳み込み動作を実行して、マルチスケール学習結果を取得する。当該マルチスケール学習結果は、三次元画像の特徴マップでもあり得る。
1つの特定の実施例では、コンピュータ機器は、マルチスケール学習モジュールを介して、「サンプリング率が異なる1つ以上の拡張畳み込みを介して復号化結果を処理して、1つ以上の特徴マップを取得する、ステップであって、1つ以上の特徴マップのサイズは異なり、1つ以上の特徴マップを接続した後に畳み込み動作を実行して、マルチスケール学習結果を取得する」、ステップを実現でき、当該マルチスケール学習モジュールは、具体的には、空間ピラミッド構造(Atrous Spatial Pyramid Pooling、ASPP)であり得る。引き続き図2を参照すると、三次元エッジ微細検出ネットワークはさらに、エンコーダとデコーダとの間に位置するASPPモジュールを含む。ASPPモジュールの入力は、第4符号化段階で出力された符号化結果であり、ASPPモジュールは、入力に対して1つ以上のスケールの特徴抽出を実行した後、マルチスケールの学習結果を出力する。
上記の実施例では、マルチスケールの拡張畳み込みを介して符号化結果に対して動作を実行することにより、より豊富なマルチスケール及びマルチビューの画像特徴を抽出でき、後続の復号化動作に役立つ。
一実施例では、マルチスケール学習結果、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って、1回以上の復号化を実行する、ステップは、マルチスケール学習結果と、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算した後、現在の復号化を実行する、ステップと、現在の復号化の出力と、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算した後、最後の復号化まで次の復号化を実行する、ステップと、を含む。
一実施例では、マルチスケール学習結果、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って、1回以上の復号化を実行する、ステップは、マルチスケール学習結果と、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算した後、中間の符号化の出力と共に現在の復号化を実行する、ステップと、現在の復号化の出力と、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算した後、最後の復号化まで中間の符号化の前回の符号化の出力と共に、次回の符号化を実行する、ステップと、を含む。
具体的には、コンピュータ機器は、マルチスケール学習結果と、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算し、次に演算結果と、最初の復号化段階にスキップ接続された符号化段階の出力を一緒に、最初の復号化段階の入力として使用し、続いて、当該復号化段階で出力された特徴マップと、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算し、最後の復号化段階の出力まで、演算結果と、現在の復号化段階にスキップ接続された符号化段階の出力を一緒に、次の復号化段階の入力として使用する。
引き続き図3を参照すると、コンピュータ機器は、マルチスケール学習結果、三次元オブジェクト検出結果及び三次元エッジ検出結果を相互学習モジュール(M)に入力し、相互学習モジュール(M)の出力と、第3符号化段階の出力を一緒に、デコーダの第1復号化段階に入力し、第1復号化段階で復号化された出力と、三次元オブジェクト検出結果及び三次元エッジ検出結果を一緒に、相互学習モジュール(M)に入力し、相互学習モジュール(M)の出力と、第2符号化段階の出力を一緒に、デコーダの第2復号化段階に入力し、第2復号化段階で復号化された出力と、三次元オブジェクト検出結果及び三次元エッジ検出結果を一緒に、相互学習モジュール(M)に入力し、相互学習モジュール(M)の出力と、第1符号化段階の出力を一緒に、デコーダの第3復号化段階に入力することができ、第3復号化段階で復号化された出力は、三次元画像の最適化された三次元エッジ検出結果(Subtle 3D Edge)である。
上記の実施例では、復号化動作を実行するとき、スキップ接続された符号化段階で出力された特徴マップを一緒に復号化するため、後続の復号化の入力により、画像特徴が明確になるだけでなく、前の符号化によって抽出された画像特徴と組み合わせることができ、それにより、復号化の正確さを向上させることができる。
このようにして、二次元エッジ検出結果を積み重ねて取得された三次元エッジ検出結果に基づいて、三次元画像の特徴マップに対して符号化及び復号化を実行した後、最適化された三次元エッジ検出結果を取得し、それにより、微細な三次元エッジ(Subtle 3D Edge)を取得することができる。当該微細な三次元エッジは、セグメンテーション、検出、追跡などの様々な医用画像タスクのために、より多くて、より豊富な特徴、及び他の観点からの補助的な結果を提供でき、より正確な医用画像支援診断を実現するのに役立つ。
上記の三次元エッジ検出方法において、三次元画像の各二次元スライスの二次元オブジェクト検出結果及び二次元エッジ検出結果を取得した後、三次元オブジェクト検出結果及び三次元エッジ検出結果を積み重ね、次に三次元画像の特徴マップ、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って符号化を実行し、次に三次元オブジェクト検出結果及び三次元エッジ検出結果を組み合わせて復号化を実行して、三次元画像の最適化された三次元エッジ検出結果を取得する。このようにして、三次元画像に対して三次元エッジ検出を実行するとき、三次元画像の各二次元スライスの二次元検出結果を三次元エッジ検出に使用することにより、二次元検出結果の特徴と三次元データの空間構造の連続性を巧みに相互に補完でき、さらに、三次元エッジ検出の正確さを向上させることができ、そして、二次元検出結果は、オブジェクト検出及びエッジ検出の2種類の検出結果を含み、この2種類の検出結果は、相互に学習し、相互に促進することもできるため、三次元エッジ検出の正確さを更に向上させることができる。
一実施例では、上記実施例におけるステップS106及びステップS108は、三次元エッジ微細検出ネットワーク(Joint Edge Refinement Network)を介して実現することができる。当該三次元エッジ微細検出ネットワークは、エンコーダ及びデコーダを含み得る。当該エンコーダは、複数の符号化段階を含み得、当該デコーダは、複数の復号化段階を含み得る。
ここで、最初の符号化段階の入力は、三次元画像の色特徴マップ、三次元オブジェクト検出結果及び三次元エッジ検出結果に対して演算を実行した演算結果であり得、非最初の符号化段階の入力は、前の符号化段階の出力、三次元オブジェクト検出結果及び三次元エッジ検出結果に対して演算を実行した演算結果であり得る。最初の復号化段階の入力は、符号化結果、三次元オブジェクト検出結果及び三次元エッジ検出結果に対して演算を実行した演算結果であり得、非最初の復号化段階の入力は、前の復号化段階の出力、三次元オブジェクト検出結果及び三次元エッジ検出結果に対して演算を実行した演算結果であり得る。
別の実施例では、符号化(復号化)段階の入力に含まれる3種類のデータの演算結果において、相互学習モジュールを介して、この3種類のデータの間の演算を実現することができる。
別の実施例では、毎回の復号化の入力はさらに、現在の復号化段階にスキップ接続された符号化段階の出力を含み得る。
別の実施例では、当該三次元エッジ微細検出ネットワークはさらに、エンコーダとデコーダとの間に位置するマルチスケール学習モジュール(ASPPなど)を含み得る。マルチスケール学習モジュールの入力は、最後の符号化段階の出力である。この場合、最初の復号化段階の入力は、マルチスケール学習モジュールの出力、三次元オブジェクト検出結果及び三次元エッジ検出結果に対して演算を実行した演算結果であり得る。
上記の実施例は、本願の三次元エッジ微細検出ネットワークのいくつかの実施形態を説明するのみであり、その説明は、具体的かつ詳細であるが、本願の三次元エッジ微細検出ネットワークを限定するものとして解釈されるべきではない。当業者にとって、本願の三次元エッジ微細検出ネットワークの構想から逸脱することなく、いくつかの改善又は修正を加えることもでき、これらの改善及び修正も本願によって保護される三次元エッジ微細検出ネットワークに属するべきであることに留意されたい。
上記の実施例によって提供される三次元エッジ微細検出ネットワークは、トレーニングラベルを備えたトレーニングサンプルに対して深層監視(Deep Supervision)学習を実行することによって取得することができる。引き続き図2を参照すると、当該ネットワークに含まれる構造は、深層監視(Deep Supervision)学習を介して取得することができる。
具体的には、三次元エッジ微細検出ネットワークに入力されるトレーニングサンプルは、三次元画像サンプル、三次元画像サンプルの各二次元スライスの二次元オブジェクト検出結果を積み重ねて取得された三次元オブジェクト検出結果、及び三次元画像サンプルの各二次元スライスの二次元エッジ検出結果を積み重ねて取得された三次元エッジ検出結果である。トレーニングサンプルのトレーニングラベルは、三次元画像サンプルの三次元エッジラベルである。コンピュータ機器は、トレーニングサンプル及びトレーニングラベルに従って、損失関数を構築し、監視ありで三次元エッジ微細検出ネットワークをトレーニングすることができる。
1つの特定の実施例では、上記の監視ありトレーニングの損失関数は、Dice Loss損失関数であり得、当該損失関数は、以下の式2に示される通りである。
Figure 0007337268000006
ここで、Nは、三次元画像内の画素点の数であり、piは、i番目の画素点がエッジ画素点である確率であり、yiは、i番目の画素点のトレーニングラベルである。
一実施例では、三次元画像の各二次元スライスの二次元オブジェクト検出結果及び二次元エッジ検出結果を取得する、ステップは、三次元画像の各二次元スライスの二次元初期オブジェクト検出結果及び二次元初期エッジ検出結果を取得する、ステップと、三次元画像の各二次元スライスの場合、二次元スライスの色特徴マップと、二次元スライスの二次元初期エッジ検出検出結果に対してドット積演算を実行し、次に二次元スライスの二次元初期オブジェクト検出結果を加算した後、オブジェクト検出を実行して、二次元スライスの二次元ターゲットオブジェクト検出結果を取得する、ステップと、三次元画像の各二次元スライスに対して畳み込み動作を実行する場合、畳み込み動作の出力及び対応する二次元スライスの二次元オブジェクト検出結果に従って、各二次元スライスの二次元ターゲットエッジ検出結果を取得する、ステップと、を含む。
コンピュータ機器は、異なるネットワークを使用して、オブジェクト検出及びエッジ検出を独立して実行することができることに留意されたい。例えば、オブジェクト検出モデル(Object Detection Module)を使用してオブジェクト検出を実行し、エッジ検出モデル(Edge Detection Module)を使用してエッジ検出を実行する。ただし、オブジェクト検出及びエッジ検出には、相互に学習し、相互に影響を与え、相互に促進できる多くの特徴があるため、オブジェクト検出及びエッジ検出から抽出された特徴は、ネットワークトレーニング及びネットワーク使用のプロセスで相互に転送することができる。
前述の実施例で説明した式1、及び関連する論理原理の説明と組み合わせると、コンピュータ機器は、相互学習モジュールを介して、オブジェクト検出及びエッジ検出から抽出された特徴の相互伝送を実現することができる。相互学習モジュールは、具体的には、g(I)・Dobj+Dedgのような演算、即ち、画像特徴及びオブジェクト検出結果に対してドット積演算を実行し、次にエッジ検出結果を加算する演算を実行することができる。
具体的には、コンピュータ機器は、監視ありで事前に、オブジェクト検出モデル及びエッジ検出モデルをそれぞれトレーニングすることができる。事前トレーニングした後、次に相互学習モジュールを介して、この2つのモデルと接続して、相互オブジェクト及びエッジ検出ネットワーク(Mutual Object and Edge Detection Network)を取得し、相互オブジェクト及びエッジ検出ネットワークを更にトレーニングする。例えば、図4を参照すると、相互オブジェクト及びエッジ検出ネットワークは、オブジェクト検出モデルの前に、相互学習モジュールを追加し、及び/又はエッジ検出モデル後に相互学習モジュールを追加することができる。
ここで、事前トレーニングして取得されたオブジェクト検出モデル及びエッジ検出モデルは、二次元画像に従って、当該二次元画像の初期二次元検出結果を取得するために使用される。更にトレーニングして取得された相互オブジェクト及びエッジ検出ネットワークは、二次元画像に従って、当該二次元画像のターゲットの二次元オブジェクト検出結果を取得するために使用される。当該ターゲットの二次元オブジェクト検出結果は、ステップS106及びステップS108などの三次元検出結果に積み重ねるために使用される。
このようにして、コンピュータ機器は、三次元画像の各二次元スライスを、事前トレーニングして取得されたオブジェクト検出モデルにそれぞれ入力して、各二次元スライスの二次元初期オブジェクト検出結果を取得し、三次元画像の各二次元スライスを、事前トレーニングして取得されたエッジ検出モデルに入力して、各二次元スライスの二次元初期エッジ検出結果を取得することができる。その後、コンピュータ機器は、三次元画像の各二次元スライスを、相互オブジェクト及びエッジ検出ネットワークに入力し、相互オブジェクト及びエッジ検出ネットワークにおけるオブジェクト検出モデルの前の相互学習モジュールは、二次元スライスの色特徴マップと、二次元スライスの二次元初期エッジ検出検出結果に対してドット積演算を実行し、次に二次元スライスの二次元初期オブジェクト検出結果を加算した後、相互オブジェクト及びエッジ検出ネットワークにおけるオブジェクト検出モデルに入力して、二次元スライスの二次元ターゲットオブジェクト検出結果を出力する。相互オブジェクト及びエッジ検出ネットワークにおけるエッジ検出モデルは、二次元スライスに対して畳み込み動作を実行し、相互オブジェクト及びエッジ検出ネットワークにおけるエッジ検出モデルの後の相互学習モジュールは、畳み込み動作の出力及び二次元オブジェクト検出結果に対してドット積演算を実行し、次に畳み込み動作の出力を加算した後、二次元スライスの二次元ターゲットエッジ検出結果を取得する。
上記の実施例では、オブジェクト検出及びエッジ検出は、相互に学習し、相互に促進するため、取得された二次元検出結果がより正確になり、それにより、後続の三次元検出における参照データがより正確になることができる。
一実施例では、三次元画像の各二次元スライスの場合、二次元スライスの色特徴マップと、二次元スライスの二次元初期オブジェクト検出検出結果に対してドット積演算を実行し、次に二次元スライスの二次元初期オブジェクト検出結果を加算した後、オブジェクト検出を実行して、二次元スライスの二次元ターゲットオブジェクト検出結果を取得する、ステップは、三次元画像の各フレームの二次元スライスの場合、二次元スライスの色特徴マップと、二次元スライスの二次元初期オブジェクト検出結果に対してドット積演算を実行し、次に二次元スライスの二次元初期オブジェクト検出結果を加算して、処理対象となるデータとして使用する、ステップと、処理対象となるデータに対して1回以上の符号化及び一回以上の復号化を実行して、最後の復号化によって出力された、二次元スライスの二次元ターゲットオブジェクト検出結果を取得する、ステップと、をそれぞれ実行する、ステップを含む。
具体的には、コンピュータ機器は、エンコーダを使用して符号化を実行し、デコーダを使用して復号化を実行でき、当該エンコーダは、1つ以上の符号化段階を含み得、当該デコーダは、1つ以上の復号化段階を含み得る。このようにして、コンピュータ機器は、二次元スライスの色特徴マップと、二次元スライスの二次元初期オブジェクト検出結果に対してドット積演算を実行し、次に二次元スライスの二次元初期オブジェクト検出結果を加算して、処理対象となるデータとして使用し、次に処理対象となるデータを最初の符号化段階の入力として使用し、続いて、最後の符号化段階で符号化結果が出力されるまで、当該符号化段階で出力された特徴マップを、次回の符号化段階の入力として使用する。次に、当該符号化結果を最初の復号化段階の入力として使用し、続いて、最後の復号化段階で二次元ターゲットオブジェクト検出結果を出力されるまで、当該復号化段階で出力された特徴マップを、次の復号化段階の入力として使用する。
本願実施例におけるエンコーダと、ステップS106におけるエンコーダは、異なるエンコーダであり、それらの構造は異なり、符号化されたデータの次元も異なることに留意されたい。本願実施例におけるデコーダと、ステップS106におけるデコーダは、異なるデコーダであり、それらの構造は異なり、復号化されたデータの次元も異なる。
別の実施例では、符号化段階はさらに、復号化段階にスキップ接続することができる。この場合、デコーダの最初の復号化段階の入力は、最後の符号化段階の出力及びスキップ接続された符号化段階の出力であり得、後続の復号化段階の入力は、前の復号化段階の出力及びスキップ接続された符号化段階の出力であり得る。
上記の実施例では、二次元画像に対して符号化を実行する場合、初期検出結果と演算を実行した後、更に符号化対象として使用し、符号化するとき、初期検出結果を参照し、特定の領域に焦点を当てて、より有用な情報を抽出することができ、そして、1回以上の符号化により、特徴がより正確に表示でき、一回以上の復号化により、取得された復号化の出力が画素点に対する分類結果は、より正確になることができる。
一実施例では、処理対象となるデータに対して1回以上の符号化及び一回以上の復号化を実行して、最後の復号化によって出力された、二次元スライスの二次元ターゲットオブジェクト検出結果を取得する、ステップは、処理対象となるデータに対して一回以上の符号化を実行して、最後の復号化によって出力されたオブジェクト検出結果を取得する、ステップと、サンプリング率が異なる1つ以上の拡張畳み込みを介してオブジェクト検出結果を処理して、1つ以上の特徴マップを取得する、ステップであって、1つ以上の特徴マップのサイズは異なる、ステップと、1つ以上の特徴マップを接続した後に畳み込み動作を実行して、マルチスケール学習結果を取得する、ステップと、マルチスケール学習結果に対して一回以上の復号化を実行して、最後の復号化によって出力された、二次元スライスの二次元ターゲットオブジェクト検出結果を取得する、ステップと、を含む。
具体的には、コンピュータ機器は、エンコーダを使用して符号化を実行し、デコーダを使用して復号化を実行でき、当該エンコーダは、1つ以上の符号化段階を含み得、当該デコーダは、1つ以上の復号化段階を含み得る。このようにして、コンピュータ機器は、二次元スライスの色特徴マップと、二次元スライスの二次元初期オブジェクト検出結果に対してドット積演算を実行し、次に二次元スライスの二次元初期オブジェクト検出結果を加算して、処理対象となるデータとして使用し、次に処理対象となるデータを最初の符号化段階の入力として使用し、続いて、最後の符号化段階で符号化結果が出力されるまで、当該符号化段階で出力された特徴マップを、次回の符号化段階の入力として使用することができる。
次に、サンプリング率が異なる1つ以上の拡張畳み込みを介してオブジェクト検出結果を処理して、1つ以上の特徴マップを取得し、1つ以上の特徴マップのサイズは異なり、1つ以上の特徴マップを接続した後に畳み込み動作を実行して、マルチスケール学習結果を取得する。当該プロセスは、具体的には、マルチスケール学習モジュールを介して実現することができる。マルチスケール学習モジュールの構造は、具体的には、ASPPの構造である。
その後、当該マルチスケール学習結果を最初の復号化段階の入力として使用し、続いて、最後の復号化段階で二次元ターゲットオブジェクト検出結果を出力されるまで、当該復号化段階で出力された特徴マップを、次の復号化段階の入力として使用する。もちろん、別の実施例では、符号化段階はさらに、復号化段階にスキップ接続することができる。この場合、デコーダの最初の復号化段階の入力は、マルチスケール学習モジュールの出力及びスキップ接続された符号化段階の出力であり得、後続の復号化段階の入力は、前の復号化段階の出力及びスキップ接続された符号化段階の出力であり得る。
上記の実施例では、マルチスケールの拡張畳み込みを介して符号化結果に対して動作を実行することにより、より豊富なマルチスケール及びマルチビューの画像特徴を抽出でき、後続の復号化動作に役立つ。
1つの特定の実施例では、図5を参照すると、オブジェクト検出モデルの入力(Input)は、三次元画像の二次元スライスであり、出力(Output)は、二次元スライスのオブジェクト検出結果である。オブジェクト検出モデルは、エンコーダ、デコーダ及びエンコーダとデコーダとの間に位置するASPPモジュールを含む。エンコーダは、1つの入力層及び4つの符号化段階を含む。入力層は、1つの残差モジュールを含み、4つの符号化段階は、それぞれ、4つ、6つ、6つ、4つの残差モジュールを含む。各符号化段階の入力と出力は加算演算で接続され、各符号化段階の後はすべて1つの畳み込み動作(3×3などのカーネルサイズ)及び平均プーリング演算動作(2×2などのカーネルサイズ)に接続し、特徴マップをダウンサンプリング(特徴マップを半分のサイズにダウンサンプリングするなど)する。デコーダは、4つの復号化段階及び1つの出力畳み込み層を含む。各復号化段階は、2つの残差モジュールを含み、各復号化段階の前に、1つのアップサンプリング(ダブルアップサンプリングなど)及び畳み込み動作(1×1などのカーネルサイズ)が実行される。符号化段階と復号化段階は、スキップ接続することができ、入力層と出力層もスキップ接続することができる。ここで、各残差モジュールは、2つの畳み込みモジュールを含み、各畳み込みモジュールは、畳み込み層、正規化層及び活性化関数層を含む。正規化は、バッチ正規化(Batch Normalization)であり得る。活性化関数は、ReLU関数であり得る。オブジェクト検出モデルをトレーニングする場合、損失関数をLsegと記録して、監視ありのトレーニングを実行することができる。
図5に示されるモデルの構造は例示のみであり、オブジェクト検出モデルの構造を限定するものではなく、実際のオブジェクト検出モデルは、図5に示されるものより多い又は少ないコンポーネントを含み得、図5に含まれる構造のパラメータも異なることができることに留意されたい。
具体的には、コンピュータ機器は、トレーニングサンプル(二次元画像)及びトレーニングサンプルのトレーニングラベル(オブジェクト検出ラベル)に従って、損失関数を構築し、監視ありでオブジェクト検出モデルをトレーニングすることができる。
1つの特定の実施例では、上記の監視ありトレーニングの損失関数は、二項分類のクロスエントロピー(cross-entropy)損失関数であり得、当該損失関数は、以下の式3に示される通りである。
Figure 0007337268000007
ここで、yは、画像の画素レベルラベルであり、pは、モデルによって予測された、ラベルが1である画素がこのカテゴリに属する確率値である。ラベルが1であることは、具体的には、画素点がオブジェクトの画素点であることを表すことができる。
一実施例では、三次元画像の各二次元スライスに対して畳み込み動作を実行する場合、畳み込み動作の出力及び対応する二次元スライスの二次元オブジェクト検出結果に従って、各二次元スライスの二次元ターゲットエッジ検出結果を取得する、ステップは、三次元画像の各フレームの二次元スライスの場合、二次元スライスに対して1段階以上の畳み込み動作を実行する、ステップと、各段階の出力と、二次元スライスの二次元初期オブジェクト検出結果に対してドット積演算を実行し、次に現在の段階の出力を加算して、段階検出結果を取得する、ステップと、各段階検出結果を組み合わせて、二次元スライスの二次元ターゲットエッジ検出結果を取得する、ステップと、をそれぞれ実行する、ステップを含む。
具体的には、コンピュータ機器は、各フレームの二次元スライスに対して、1段階以上の畳み込み動作を実行し、次に各段階の出力と、二次元スライスの二次元初期オブジェクト検出結果に対してドット積演算を実行し、次に現在の段階の出力を加算して、段階検出結果を取得し、各段階検出結果と組み合わせて、二次元スライスの二次元ターゲットエッジ検出結果を取得ことができる。
ここで、各段階は、1つ以上の畳み込み層を含む。各段階の検出結果は、二次元スライスの二次元ターゲットエッジ検出結果としても使用され得る。各段階の検出結果と組み合わせることは、各段階の検出結果を要素ごとで加算(Element-wise Addition)することであり得る。
別の実施例では、各段階の出力は、当該段階に含まれる各畳み込み層の出力を、要素ごとで加算した結果であり得る。各畳み込み層の出力は、まず、畳み込み動作を実行した後、次に、要素ごとで加算することができる。各段階の出力と、二次元スライスの二次元初期オブジェクト検出結果に対してドット積演算を実行する前に、ダウンサンプリング動作、畳み込み動作、及びアップサンプリング動作を実行することができる。
上記の実施例では、データに対して1段階以上の畳み込み動作を実行し、各段階で出力とオブジェクト検出結果に対して演算を実行して、当該段階のエッジ検出結果を取得することにより、オブジェクト検出結果と組み合わせて、エッジ検出の正確さを向上させることができ、そして、各段階での検出結果と組み合わせて、二次元スライスの二次元ターゲットエッジ検出結果を取得することにより、各段階で抽出された情報を統合して、エッジ検出の正確さを向上させることができる。
1つの特定の実施例では、エッジ検出モデルの入力(Input)は、三次元画像の二次元スライスであり、出力(Output)は、二次元スライスのエッジ検出結果である。エッジ検出モデルは、1つ以上の畳み込み層を含み、これらの畳み込み層は、1つ以上の段階に分割される。例えば、図6を参照すると、エッジ検出モデルは、カーネルサイズが3×3である16個の畳み込み層を含み、これらの畳み込み層は、5つの段階に分割され、最初の段階は、2つの畳み込み層を含み、2番目、3番目の段階は、3つの畳み込み層を含み、4番目、5番目の段階は、4つの畳み込み層を含む。各段階における各畳み込み層はすべて、1つのカーネルサイズが1×1である畳み込み動作に接続した後に加算され、各段階の特徴マップを取得し、当該特徴マップは、1×1の畳み込み動作及びダブルアップサンプリングを実行した後、オブジェクト検出結果と一緒に、前述の相互学習モジュールMに入力され、取得された5つの出力を接続して、二次元スライスのエッジ検出結果を取得する。ここで、各段階では、当該段階の特徴マップを取得した後、特徴マップに対してダブルダウンサンプリングを実行するために、1つのプーリング動作を実行することができる。図6に示されるモデルの構造は例示のみであり、オブジェクト検出モデルの構造を限定するものではなく、実際のオブジェクト検出モデルは、図6に示されるものより多い又は少ないコンポーネントを含み得、図6に含まれる構造のパラメータも異なることができることに留意されたい。
ここで、相互学習モジュールM(g(I)・Dobj+Dedg)の各変数の値は、具体的には、以下の通りである。g(I)とDedgは両方、現在の段階で出力された特徴マップが畳み込み動作及びアップサンプリングを実行した後の結果であり、Dobjは、事前トレーニングされたオブジェクト検出モデルによって出力されたオブジェクト検出結果である。オブジェクト検出モデルをトレーニングする場合、損失関数をLedgeと記録して、監視ありのトレーニングを実行することができ、損失関数を構築する場合、各段階ごとに1つの損失関数を構築でき、当該各段階の損失関数は、現在の段階及び現在の段階の前の各段階のモデルパラメータをトレーニング及び更新するために使用されるか、又は、現在の段階のモデルパラメータのみをトレーニング及び更新するために使用される。
具体的には、コンピュータ機器は、トレーニングサンプル(二次元画像)及びトレーニングサンプルのトレーニングラベル(エッジ検出ラベル)に従って、監視トレーニング損失関数を構築し、監視ありでオブジェクト検出モデルをトレーニングすることができる。
1つの特定の実施例では、上記の監視ありトレーニングの損失関数は、Focal loss損失関数であり得、当該損失関数は、以下の数式8に示される通りである。
Figure 0007337268000008
ここで、pは、モデルによって予測された、ラベルが1である画素がこのカテゴリに属する確率値であり、αは、ラベルが1である重み因子であり、γは、調節制御因子(1-p)γを調節するための調節制御可能なフォーカス因子である。ラベルが1であることは、具体的には、画素点がエッジの画素点であることを表すことができる。Mを経過した後の各段階の出力は、前の段階の出力、及び要素ごとで加算されたすべての段階の出力を含む、合計6つの出力に対して、Ledgeのバックプロパゲーション及び勾配更新を実行する。
例えば、図6に示されるように、この6つの出力は、最初の相互学習モジュールの出力、最初、2番目の相互学習モジュールの出力の要素ごとで加算(Element-wise Addition)された結果、最初、2番目、3番目の相互学習モジュールの出力の要素ごとで加算された結果、最初、2番目、3番目、4番目の相互学習モジュールの出力の要素ごとで加算された結果、最初、2番目、3番目、4番目、5番目の相互学習モジュールの出力の要素ごとで加算された結果、及び最初、2番目、3番目、4番目、5番目の相互学習モジュールの出力が接続(Concatention)された結果を含む。
ここで、事前トレーニングされたエッジ検出モデルは、相互学習モジュールを含まなくてもよい。即ち、各段階の特徴マップに対して畳み込み動作及びアップサンプリングを実行した後に、要素ごとで加算して、二次元画像のエッジ検出結果を取得する。
1つの特定の実施例では、引き続き図4を参照すると、相互オブジェクト及びエッジ検出ネットワークの入力(Input)は、三次元画像の二次元スライスである。二次元スライスは、相互オブジェクト及びエッジ検出ネットワークにおけるオブジェクト検出モデルに入力される前に、まず、相互学習モジュールによって処理される。相互学習モジュールは、3つの入力を含み、それぞれ、三次元画像の二次元スライス、二次元スライスの二次元初期オブジェクト検出結果及び二次元スライスの二次元初期エッジ検出結果である。二次元スライスの二次元初期オブジェクト検出結果は、事前トレーニングして取得したオブジェクト検出モデルを介して取得され、二次元スライスの二次元初期エッジ検出結果は、事前トレーニングして取得されたエッジ検出モデルを介して取得される。ここで、相互学習モジュールに含まれる3つの入力はさらに、それぞれ、三次元画像の二次元スライス、二次元スライスの二次元初期オブジェクト検出結果、及び相互オブジェクト及びエッジ検出ネットワークにおけるエッジ検出モデルの出力であり得る。相互オブジェクト及びエッジ検出ネットワークにおけるオブジェクト検出モデルの出力は、二次元スライスの二次元ターゲットオブジェクト検出結果である。
さらに、二次元スライスが、相互オブジェクト及びエッジ検出ネットワークにおけるエッジ検出モデルに入力された後、エッジ検出モデルの各段階の出力は、相互学習モジュールによって処理された後に積み重ねられて、二次元スライスの二次元ターゲットオブジェクト検出結果を取得する。各段階の後に接続される相互学習モジュールは、2つの入力を含み、それぞれ、当該段階の出力及び二次元スライスの二次元初期オブジェクト検出結果である。ここで、相互学習モジュールg(I)・Dobj+Dedgのg(I)とDedgは両方、当該段階の出力であるため、入力は2つのみである。
事前トレーニングして取得されたオブジェクト検出モデルは、相互オブジェクト及びエッジ検出ネットワークにおけるオブジェクト検出モデルのモデル構造と同じであるが、モデルパラメータは異なり、相互オブジェクト及びエッジ検出ネットワークにおけるオブジェクト検出モデルは、事前トレーニングして取得されたオブジェクト検出モデルに基づいて更にトレーニングして取得されることに留意されたい。事前トレーニングして取得されたエッジ検出モデルは、相互オブジェクト及びエッジ検出ネットワークにおけるエッジ検出モデルのモデル構造と同じであるが、モデルパラメータは異なり、相互オブジェクト及びエッジ検出ネットワークにおけるエッジ検出モデルは、事前トレーニングして取得されたエッジ検出モデルに基づいて更にトレーニングして取得される。オブジェクト検出モデルのモデル構造は、図5に示されるモデル構造を参照でき、エッジ検出モデルのモデル構造は、図6に示されるモデル構造を参照できる。
ここで、事前トレーニングして取得されたオブジェクト検出モデル及びエッジ検出モデルが相互学習モジュールに関連付けられた後、更にトレーニングされる場合、オブジェクト検出モデルに接続される相互学習モジュールの入力は、三次元画像の二次元スライス、事前トレーニングされたオブジェクト検出モデルの出力、及び事前トレーニングされたエッジ検出モデルの出力であるか、又は、三次元画像の二次元スライス、事前トレーニングされたオブジェクト検出モデルの出力、及び現在のエッジ検出モデルリアルタイム出力である。つまり、g(I)・Dobj+DedgのDobjは、メロディで取得されたモデルの固定出力であり、g(I)・Dobj+DedgのDedgは、トレーニング中のモデルのリアルタイム出力であるか、又は、事前トレーニングして取得されたモデルの固定出力であり得る。エッジ検出モデルの各段階に接続される相互学習モジュールの入力は、各段階のリアルタイム出力及び現在のオブジェクト検出モデルのリアルタイム出力であるか、又は、各段階のリアルタイム出力及び事前トレーニングされたオブジェクト検出モデルの出力であり得る。つまり、g(I)・Dobj+Dedgのg(I)とDedgは両方、エッジ検出モデルの各段階のリアルタイム出力であり、g(I)・Dobj+DedgのDobjは、トレーニング中のモデルのリアルタイム出力であるか、又は、事前トレーニングして取得されたモデルの固定出力であり得る。
三次元画像の各二次元スライスの二次元ターゲットオブジェクト検出結果及び二次元ターゲットエッジ検出結果を取得した後、各二次元ターゲットオブジェクト検出結果を三次元オブジェクト検出結果に積み重ね、各二次元ターゲットエッジ検出結果を三次元エッジ検出結果に積み重ねることができる。三次元画像、三次元オブジェクト検出結果及び三次元エッジ検出結果を三次元エッジ微細検出ネットワークに入力して、出力の最適化された三次元エッジ検出結果、微細な三次元エッジ画像を取得する。三次元エッジ微細検出ネットワークのモデル構造は、図2に示されるモデル構造を参照できる。
二次元畳み込みニューラルネットワークは、二次元データから画像の豊富なテクスチャ、構造などの特徴を学習でき、三次元畳み込みニューラルネットワークは、三次元データから空間構造の連続性に関連する情報を学習でき、この2つの部分は、相互に補完できることが理解できる。また、エッジ検出タスクとオブジェクト検出タスクには、いくつかの類似点があり、この2つのタスクは相互に学習し、相互に促進することもできる。上記の考慮事項に基づいて、本願によって提供される実施例は、二次元及び三次元データにおけるマルチレベル及びマルチスケールの特徴の共同学習を実現することにより、三次元オブジェクトエッジを正確に検出する。本願によって提供される実施例に関連するネットワーク構造は、2つの段階を含み、第1段階は、相互オブジェクト及びエッジ検出ネットワークであり、当該段階では、単一の二次元画像内のオブジェクトの豊富な構造、テクスチャ、エッジ、及びセマンティック機能の学習に焦点を当てる。第2段階は、三次元エッジ微細検出ネットワークであり、当該段階では、前の段階で学習したオブジェクトとエッジの検出結果を組み合わせて、連続的で微細な三次元オブジェクトエッジをさらに学習する。このようにして、本願で提供される実施例は、三次元オブジェクトの実際のエッジに適合する三次元エッジを正確に検出することができる。
さらに、コンピュータ機器はさらに、本願実施例の三次元エッジ検出方法及び既存の複数のエッジ検出アルゴリズムに基づいて、テストの比較を実行する。既存のエッジ検出アルゴリズムは、例えば、以下の通りである。
(1)Holistically-Nested Edge Detection、HED
(2)Richer Convolutional Features for Edge Detection、RCF
(3)Bi-Directional Cascade Network for Perceptual Edge Detection、BDCN
1つの特定の実施例では、図7に示されるように、図7は、本願実施例で提供される三次元エッジ検出方法によって取得された検出結果と、他のエッジ検出アルゴリズムによって取得された検出結果の比較図である。これには、三次元画像内の1つの二次元スライス(Original)、境界検出ラベル(Label)、最初の既存のエッジ検出アルゴリズム(HED)の検出結果、2番目の既存のエッジ検出アルゴリズム(RCF)の検出結果、3番目の既存のエッジ検出アルゴリズム(BDCN)の検出結果及び本願の三次元エッジ検出方法(Proposed)の検出結果が含まれる。図7から分かるように、本願実施例で提供される三次元エッジ検出方法の検出結果は、より正確であり、オブジェクトの実際のエッジにより適合する。既存のHED、RCF及びBDCNアルゴリズムは、様々な程度でオブジェクトのエッジを正確に検出できるが、そのエッジ検出結果は粗く、実際のエッジに適合できない。
1つの特定の実施例では、図8に示されるように、図8は、本願実施例で提供される三次元エッジ検出方法による、エッジ検出における連続する5つのフレームの二次元スライスのエッジ検出結果と、二次元エッジ検出アルゴリズムRCFによる、同じ5つのフレームの二次元スライスのエッジ検出結果の比較図である。図8から分かるように、本願実施例で提供される三次元エッジ検出方法の検出結果は、良好な連続性を有する。これは、本願実施例で提供される三次元エッジ検出方法において、異なる画像の直接的な空間連続性を学習することにより、二次元エッジ検出アルゴリズムで見逃しやすい情報を完成させることができるためである。
さらに、コンピュータ機器はさらに、本願実施例の三次元エッジ検出方法及び既存のエッジ検出アルゴリズム(HED和RCF)に基づいて、エッジ検出指標における実験結果の比較を実行する。
Figure 0007337268000009
上記の表1には、本願実施例によって提供される三次元エッジ検出方法と、既存の二次元エッジ検出アルゴリズムHEDと、RCFとのエッジ検出指標ODS
Figure 0007337268000010
及びOIS
Figure 0007337268000011
における実験結果の比較が示される。表1から分かるように、本願実施例で提供される三次元エッジ検出方法は、各エッジ検出測定指標において、既存の二次元エッジ検出アルゴリズムよりも優れている。
上記の各実施例のフローチャートにおける各ステップが、矢印で示されるように順番に表示されているが、これらのステップは、必ずしも矢印で示される順序で実行されるわけではないことを理解されたい。本明細書で明記されていない限り、これらのステップの実行は厳密な順序に限定されず、これらのステップは他の順序で実行できる。そして、各実施例のステップの少なくとも一部は、複数のサブステップ又は複数の段階を含むことができる。これらのサブステップ又は段階は、必ずしも同時に実行される必要はなく、異なる時間に実行されてもよい。これらのサブステップ又は段階の実行順序も、必ずしも順次に実行される必要はなく、他のステップ、又は他のステップのサブステップ又は段階の少なくとも一部と、順番に又は交互に実行できる。
図9に示されるように、一実施例では、三次元エッジ検出装置900を提供する。図9を参照すると、当該三次元エッジ検出装置900は、取得モジュール901、符号化モジュール902及び復号化モジュール903を備える。三次元エッジ検出装置における各モジュールは、全体的又は部分的に、ソフトウェア、ハードウェア、又はそれらの組み合わせによって実現できる。
取得モジュール901は、三次元画像の各二次元スライスの二次元オブジェクト検出結果及び二次元エッジ検出結果を取得し、各前記二次元オブジェクト検出結果を三次元オブジェクト検出結果に積み重ね、各二次元エッジ検出結果を三次元エッジ検出結果に積み重ねるように構成される。
符号化モジュール902は、三次元画像の特徴マップ、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って符号化を実行して、符号化結果を取得するように構成される。
復号化モジュール903は、符号化結果、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って復号化を実行して、三次元画像の最適化された三次元エッジ検出結果を取得するように構成される。
一実施例では、符号化モジュール902はさらに、三次元画像の特徴マップ、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って、一回以上の符号化を実行し、毎回の符号化の入力は、三次元オブジェクト検出結果及び三次元エッジ検出結果を使用して、前回の符号化の出力に対して演算を実行した演算結果であり、毎回の符号化の出力は異なり、且つすべて三次元画像の特徴マップであり、及び最後の符号化によって出力された特徴マップを取得して、符号化結果を取得するように構成される。
一実施例では、符号化モジュール902はさらに、三次元画像の色特徴マップと、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算した後、現在の符号化を実行し、及び現在の符号化の出力と、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算した後、最後の符号化まで次回の符号化を実行するように構成される。
一実施例では、復号化モジュール903はさらに、符号化結果、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って、一回以上の復号化を実行し、毎回の復号化の入力は、三次元オブジェクト検出結果及び三次元エッジ検出結果を使用して前回の復号化の出力に対して演算を実行した演算結果を含み、及び最後の復号化の出力を取得して、三次元画像の最適化された三次元エッジ検出結果を取得するように構成される。
図10に示されるように、一実施例では、三次元エッジ検出装置900はさらに、サンプリング率が異なる1つ以上の拡張畳み込みを介して復号化結果を処理して、1つ以上の特徴マップを取得し、1つ以上の特徴マップのサイズは異なり、及び1つ以上の特徴マップを接続した後に畳み込み動作を実行して、マルチスケール学習結果を取得するように構成される、マルチスケール処理モジュール904を備える。復号化モジュール903はさらに、マルチスケール学習結果、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って、1回以上の復号化を実行するように構成される。
一実施例では、復号化モジュール903はさらに、マルチスケール学習結果と、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算した後、中間の符号化の出力と共に現在の復号化を実行し、及び現在の復号化の出力と、三次元オブジェクト検出結果に対してドット積演算を実行し、次に三次元エッジ検出結果を加算した後、最後の復号化まで中間の符号化の前回の符号化の出力と共に、次回の符号化を実行するように構成される。
一実施例では、取得モジュール901はさらに、三次元画像の各二次元スライスの二次元初期オブジェクト検出結果及び二次元初期エッジ検出結果を取得し、三次元画像の各二次元スライスの場合、二次元スライスの色特徴マップと、二次元スライスの二次元初期オブジェクト検出結果に対してドット積演算を実行し、次に二次元スライスの二次元初期オブジェクト検出結果を加算した後、オブジェクト検出を実行して、二次元スライスの二次元ターゲットオブジェクト検出結果を取得し、及び三次元画像の各二次元スライスに対して畳み込み動作を実行する場合、畳み込み動作の出力及び対応する二次元スライスの二次元オブジェクト検出結果に従って、各二次元スライスの二次元ターゲットエッジ検出結果を取得するように構成される。
一実施例では、取得モジュール901はさらに、三次元画像の各フレームの二次元スライスの場合、二次元スライスの色特徴マップと、二次元スライスの二次元初期オブジェクト検出結果に対してドット積演算を実行し、次に二次元スライスの二次元初期オブジェクト検出結果を加算して、処理対象となるデータとして使用する、ステップと、処理対象となるデータに対して1回以上の符号化及び一回以上の復号化を実行して、最後の復号化によって出力された、二次元スライスの二次元ターゲットオブジェクト検出結果を取得する、ステップと、をそれぞれ実行するように構成される。
一実施例では、取得モジュール901はさらに、処理対象となるデータに対して一回以上の符号化を実行して、最後の復号化によって出力されたオブジェクト検出結果を取得し、サンプリング率が異なる1つ以上の拡張畳み込みを介してオブジェクト検出結果を処理して、1つ以上の特徴マップを取得し、1つ以上の特徴マップのサイズは異なり、1つ以上の特徴マップを接続した後に畳み込み動作を実行して、マルチスケール学習結果を取得し、及びマルチスケール学習結果に対して一回以上の復号化を実行して、最後の復号化によって出力された、二次元スライスの二次元ターゲットオブジェクト検出結果を取得するように構成される。
一実施例では、取得モジュール901はさらに、三次元画像の各フレームの二次元スライスの場合、二次元スライスに対して1段階以上の畳み込み動作を実行する、ステップと、各段階の出力と、二次元スライスの二次元初期オブジェクト検出結果に対してドット積演算を実行し、次に現在の段階の出力を加算して、段階検出結果を取得する、ステップと、各段階検出結果を組み合わせて、二次元スライスの二次元ターゲットエッジ検出結果を取得する、ステップと、をそれぞれ実行するように構成される。
上記の三次元エッジ検出装置は、三次元画像の各二次元スライスの二次元オブジェクト検出結果及び二次元エッジ検出結果を取得した後、三次元オブジェクト検出結果及び三次元エッジ検出結果を積み重ね、次に三次元画像の特徴マップ、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って符号化を実行し、次に三次元オブジェクト検出結果及び三次元エッジ検出結果を組み合わせて復号化を実行して、三次元画像の最適化された三次元エッジ検出結果を取得するように構成される。このようにして、三次元画像に対して三次元エッジ検出を実行するとき、三次元画像の各二次元スライスの二次元検出結果を三次元エッジ検出に使用することにより、二次元検出結果の特徴と三次元データの空間構造の連続性を巧みに補完しあうことができ、それにより、三次元エッジ検出の正確さを向上させることができ、そして、二次元検出結果は、オブジェクト検出及びエッジ検出の2種類の検出結果を含み、この2種類の検出結果は、相互に学習し、相互に促進することもできるため、三次元エッジ検出の正確さを更に向上させることができる。
図11には、一実施例におけるコンピュータ機器の内部構造図が示されている。図11に示されるように、当該コンピュータ機器は、システムバスを介して接続されるプロセッサ、メモリ及びネットワークインターフェースを備える。ここで、メモリは、不揮発性記憶媒体及び内部メモリを備える。当該コンピュータ機器の不揮発性記憶媒体には、オペレーティングシステムが記憶され、さらに、コンピュータプログラムも記憶され得、当該コンピュータプログラムがプロセッサによって実行されるときに、前記プロセッサに、三次元エッジ検出方法を実現させる。当該内部メモリには、コンピュータプログラムも記憶され得、当該コンピュータプログラムがプロセッサによって実行されるときに、前記プロセッサに、三次元エッジ検出方法を実行させる。当業者なら自明であるが、図11に示される構造は、本願の解決策に関連する構造の一部のブロック図にすぎず、本願の解決策が適用されるコンピュータ機器に対する限定を構成しない。具体的には、コンピュータ機器は、図に示されるよりも多い又は少ないコンポーネントを含んでもよいか、又は特定のコンポーネントを組み合わせてもよいか、又は異なるコンポーネント配置を有してもよい。
一実施例では、本願で提供される三次元エッジ検出装置は、コンピュータプログラムの形で実現され得、コンピュータプログラムは、図11に示されるコンピュータ機器で実行することができる。コンピュータ機器のメモリには、当該三次元エッジ検出装置を構成する各プログラムモジュール、例えば、図9に示される取得モジュール901、符号化モジュール902及び復号化モジュール903を記憶することができる。各プログラムモジュールで構成されるコンピュータプログラムは、プロセッサに、本明細書で説明される本願の各実施例の三次元エッジ検出方法を実行させる。
例えば、図11に示されるコンピュータ機器は、図9に示される三次元エッジ検出装置における取得モジュール901を介して、三次元画像の各二次元スライスの二次元オブジェクト検出結果及び二次元エッジ検出結果を取得する、ステップと、各二次元オブジェクト検出結果を三次元オブジェクト検出結果に積み重ね、各二次元エッジ検出結果を三次元エッジ検出結果に積み重ねる、ステップと、を実行することができる。符号化モジュール902を介して、三次元画像の特徴マップ、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って符号化を実行して、符号化結果を取得する、ステップを実行する。復号化モジュール903を介して、符号化結果、三次元オブジェクト検出結果及び三次元エッジ検出結果に従って復号化を実行して、三次元画像の最適化された三次元エッジ検出結果を取得する、ステップを実行する。
一実施例では、メモリと、プロセッサとを備える、コンピュータ機器を提供し、前記メモリには、コンピュータプログラムが記憶され、前記コンピュータプログラムが前記プロセッサによって実行されるときに、前記プロセッサに、上記の三次元エッジ検出方法を実行させる。ここで、三次元エッジ検出方法のステップは、上記の各実施例の三次元エッジ検出方法におけるステップであり得る。
一実施例では、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータプログラムが前記プロセッサによって実行されるときに、前記プロセッサに、上記の三次元エッジ検出方法を実行させる。ここで、三次元エッジ検出方法のステップは、上記の各実施例の三次元エッジ検出方法におけるステップであり得る。
一実施例では、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムにはコンピュータ命令が含まれ、当該コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から当該コンピュータ命令を読み取り、前記プロセッサは当該コンピュータ命令を実行することにより、当該コンピュータ機器に、上記の各方法の実施例におけるステップを実行させる。
当業者なら自明であるが、上記の実施例における各方法において、その全部又は一部のプロセスが、関連のハードウェアに、コンピュータプログラムによる命令で、実行されることができる。前記プログラムは、コンピュータ可読記憶媒体に記憶されてもよく、当該プログラムが実行されるときに、上記の各方法の実施例におけるプロセスを実行することができる。ここで、本願の各実施例で任意引用するメモリ、ストレージ、データベース又は他の媒体はすべて、不揮発性及び/又は揮発性メモリを含み得る。不揮発性メモリは、読み取り専用メモリ(ROM)、プログラム可能な読み取り専用メモリ(PROM)、電気的なプログラムが可能なROM(EPROM)、電気的な消去/プログラムが可能なROM(EEPROM)又はフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含み得る。限定的ではない例として、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、拡張型SDRAM(ESDRAM)、同期接続(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)、及びメモリバス(Rambus)ダイナミックRAM(RDRAM)など、様々な形のRAMが利用可能であり得る。
上記の実施例の各技術的特徴は、任意に組み合わせることができ、説明を簡潔にするために、上記の実施例における各技術的特徴の、すべての可能な組み合わせについては説明されていないが、これらの技術的特徴の組み合わせに矛盾がない限り、すべて本明細書の範囲に含まれると見なすべきである。
上記の実施例は、本願のいくつかの実施形態のみを表し、それらの説明は、より具体的かつ詳細であるが、本願の保護範囲を限定するものとして解釈されるべきではない。当業者にとって、本願の原理から逸脱することなく、いくつかの改善又は修正を加えることもでき、これらの改善及び修正も本願の保護範囲と見なされるべきであることに留意されたい。したがって、本願の保護範囲は、添付の特許請求の範囲を基準とすべきである。
900 三次元エッジ検出装置
901 取得モジュール
902 符号化モジュール
903 復号化モジュール
904 マルチスケール処理モジュール

Claims (13)

  1. コンピュータ機器が実行する、三次元エッジ検出方法であって、
    三次元画像の各二次元スライスの二次元オブジェクト検出結果及び二次元エッジ検出結果を取得する、ステップと、
    各前記二次元オブジェクト検出結果を積み重ねることによって、三次元オブジェクト検出結果を取得するステップと、
    各前記二次元エッジ検出結果を積み重ねることによって、三次元エッジ検出結果を取得するステップと、
    前記三次元画像の特徴マップ、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って符号化を実行して、符号化結果を取得する、ステップであって、前記三次元画像の特徴マップ及び前記三次元オブジェクト検出結果に対してドット積(dot product)演算を実行し、前記ドット積演算の結果と前記三次元エッジ検出結果とを加算し、前記加算された結果に対して前記符号化を実行して、前記符号化結果を取得する、ステップと、
    前記符号化結果、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って復号化を実行して、前記三次元画像の第2の三次元エッジ検出結果を取得するステップであって、前記符号化結果及び前記三次元オブジェクト検出結果に対してドット積演算を実行し、前記ドット積演算の結果と前記三次元エッジ検出結果とを加算し、前記加算された結果に対して前記復号化を実行し、前記第2の三次元エッジ検出結果を取得する、ステップと、
    を含む、三次元エッジ検出方法。
  2. 前記三次元画像の特徴マップ、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って符号化を実行して、符号化結果を取得する、前記ステップは、
    前記三次元画像の特徴マップ、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って、一回以上の符号化を実行する、ステップであって、毎回の符号化の入力は、前記三次元オブジェクト検出結果及び前回の符号化の出力に対してドット積演算を実行し、次に前記三次元エッジ検出結果を加算した演算結果であり、毎回の符号化の出力は異なり、且つすべて前記三次元画像の特徴マップである、ステップと、
    最後の符号化によって出力された特徴マップを取得して、符号化結果を取得する、ステップと、
    を含む、請求項1に記載の三次元エッジ検出方法。
  3. 前記三次元画像の特徴マップ、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って、一回以上の符号化を実行する、前記ステップは、
    前記三次元画像の色特徴マップと、前記三次元オブジェクト検出結果に対してドット積演算を実行し、次に前記三次元エッジ検出結果を加算した後、現在の符号化を実行する、ステップと、
    現在の符号化の出力と前記三次元オブジェクト検出結果に対してドット積演算を実行し、次に前記三次元エッジ検出結果を加算した後、最後の符号化まで次回の符号化を実行する、ステップと、
    を含む、請求項2に記載の三次元エッジ検出方法。
  4. 前記符号化結果、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って復号化を実行して、前記三次元画像の第2の三次元エッジ検出結果を取得する、前記ステップは、
    前記符号化結果、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って、一回以上の復号化を実行する、ステップであって、毎回の復号化の入力は、前記三次元オブジェクト検出結果と前回の符号化の出力に対してドット積演算を実行し、次に前記三次元エッジ検出結果を加算した演算結果を含む、ステップと、
    最後の復号化の出力を取得して、前記三次元画像の前記第2の三次元エッジ検出結果を取得する、ステップと、
    を含む、請求項1に記載の三次元エッジ検出方法。
  5. 前記三次元エッジ検出方法は、
    サンプリング率が異なる1つ以上の拡張畳み込み(dilated convolution)を介して前記符号化結果を処理して、1つ以上の特徴マップを取得する、ステップであって、前記1つ以上の特徴マップのサイズは異なる、ステップと、
    前記1つ以上の特徴マップを接続した後に畳み込み動作を実行して、マルチスケール学習結果を取得する、ステップと、を更に含み、
    前記符号化結果、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って、一回以上の復号化を実行する、前記ステップは、
    前記マルチスケール学習結果、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って、1回以上の復号化を実行する、ステップを含む、
    請求項4に記載の三次元エッジ検出方法。
  6. 前記マルチスケール学習結果、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って、1回以上の復号化を実行する、前記ステップは、
    前記マルチスケール学習結果と前記三次元オブジェクト検出結果に対してドット積演算を実行し、次に前記三次元エッジ検出結果を加算した後、中間の符号化(intermediate encoding)の出力と共に現在の復号化を実行する、ステップと、
    現在の復号化の出力と前記三次元オブジェクト検出結果に対してドット積演算を実行し、次に前記三次元エッジ検出結果を加算した後、最後の復号化まで前記中間の符号化の前回の符号化の出力と共に、次回の復号化を実行する、ステップと、
    を含む、請求項5に記載の三次元エッジ検出方法。
  7. 三次元画像の各二次元スライスの二次元オブジェクト検出結果及び二次元エッジ検出結果を取得する、前記ステップは、
    三次元画像の各二次元スライスの二次元初期オブジェクト検出結果及び二次元初期エッジ検出結果を取得する、ステップと、
    前記三次元画像の各二次元スライスの場合、前記二次元スライスの色特徴マップと、前記二次元スライスの二次元初期オブジェクト検出結果に対してドット積演算を実行し、次に前記二次元スライスの二次元初期オブジェクト検出結果を加算した後、オブジェクト検出を実行して、前記二次元スライスの二次元ターゲットオブジェクト検出結果を取得する、ステップと、
    前記三次元画像の各二次元スライスに対して畳み込み動作を実行する場合、畳み込み動作の出力及び対応する二次元スライスの二次元オブジェクト検出結果に従って、各二次元スライスの二次元ターゲットエッジ検出結果を取得する、ステップと、
    を含む、請求項1に記載の三次元エッジ検出方法。
  8. 前記三次元画像の各二次元スライスの場合、前記二次元スライスの色特徴マップと、前記二次元スライスの二次元初期オブジェクト検出結果に対してドット積演算を実行し、次に前記二次元スライスの二次元初期オブジェクト検出結果を加算した後、オブジェクト検出を実行して、前記二次元スライスの二次元ターゲットオブジェクト検出結果を取得する、前記ステップは、
    前記三次元画像の各フレームの二次元スライスに対して、
    前記二次元スライスの色特徴マップと、前記二次元スライスの二次元初期オブジェクト検出結果に対してドット積演算を実行し、次に前記二次元スライスの二次元初期オブジェクト検出結果を加算して、処理対象となるデータとして使用する、ステップと、
    前記処理対象となるデータに対して1回以上の符号化及び一回以上の復号化を実行して、最後の復号化によって出力された前記二次元スライスの二次元ターゲットオブジェクト検出結果を取得する、ステップと、をそれぞれ実行する、ステップ
    を含む、請求項7に記載の三次元エッジ検出方法。
  9. 前記処理対象となるデータに対して1回以上の符号化及び一回以上の復号化を実行して、最後の復号化によって出力された前記二次元スライスの二次元ターゲットオブジェクト検出結果を取得する、前記ステップは、
    前記処理対象となるデータに対して1回以上の符号化を実行して、最後の復号化によって出力されたオブジェクト検出結果を取得する、ステップと、
    サンプリング率が異なる1つ以上の拡張畳み込みを介して前記オブジェクト検出結果を処理して、1つ以上の特徴マップを取得する、ステップであって、前記1つ以上の特徴マップのサイズは異なる、ステップと、
    前記1つ以上の特徴マップを接続した後に畳み込み動作を実行して、マルチスケール学習結果を取得する、ステップと、
    前記マルチスケール学習結果に対して一回以上の復号化を実行して、最後の復号化によって出力された前記二次元スライスの二次元ターゲットオブジェクト検出結果を取得する、ステップと、
    を含む、請求項8に記載の三次元エッジ検出方法。
  10. 前記三次元画像の各二次元スライスに対して畳み込み動作を実行する場合、畳み込み動作の出力及び対応する二次元スライスの二次元オブジェクト検出結果に従って、各二次元スライスの二次元ターゲットエッジ検出結果を取得する、前記ステップは、
    前記三次元画像の各フレームの二次元スライスに対して、
    前記二次元スライスに対して1段階以上の畳み込み動作を実行する、ステップと、
    各段階の出力と、前記二次元スライスの二次元初期オブジェクト検出結果に対してドット積演算を実行し、次に現在の段階の出力を加算して、段階検出結果を取得する、ステップと、
    各前記段階検出結果を組み合わせて、前記二次元スライスの二次元ターゲットエッジ検出結果を取得する、ステップと、をそれぞれ実行する、ステップ
    を含む、請求項7に記載の三次元エッジ検出方法。
  11. 三次元エッジ検出装置であって、
    三次元画像の各二次元スライスの二次元オブジェクト検出結果及び二次元エッジ検出結果を取得し、各前記二次元オブジェクト検出結果を積み重ねることによって、三次元オブジェクト検出結果を取得し、各前記二次元エッジ検出結果を積み重ねることによって、三次元エッジ検出結果を取得するように構成される、取得モジュールと、
    前記三次元画像の特徴マップ、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って符号化を実行して、符号化結果を取得するように構成される、符号化モジュールであって、前記三次元画像の特徴マップ及び前記三次元オブジェクト検出結果に対してドット積(dot product)演算を実行し、前記ドット積演算の結果と前記三次元エッジ検出結果とを加算し、加算された結果に対して前記符号化を実行して、前記符号化結果を取得するように構成される、符号化モジュールと、
    前記符号化結果、前記三次元オブジェクト検出結果及び前記三次元エッジ検出結果に従って復号化を実行して、前記三次元画像の第2の三次元エッジ検出結果を取得するように構成される、復号化モジュールであって、前記符号化結果及び前記三次元オブジェクト検出結果に対してドット積演算を実行し、前記ドット積演算の結果と前記三次元エッジ検出結果とを加算し、加算された結果に対して前記復号化を実行し、前記第2の三次元エッジ検出結果を取得するように構成される、復号化モジュールと、
    を備える、三次元エッジ検出装置。
  12. メモリと、プロセッサとを備える、コンピュータ機器であって、
    前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令が前記プロセッサによって実行されるときに、前記プロセッサに、請求項1ないし10のいずれか一項に記載の三次元エッジ検出方法を実行させる、コンピュータ機器。
  13. コンピュータプログラムであって、
    コンピュータに、請求項1ないし10のいずれか一項に記載の三次元エッジ検出方法を実行させる、コンピュータプログラム。
JP2022522367A 2020-02-20 2020-10-15 三次元エッジ検出方法、装置、コンピュータプログラム及びコンピュータ機器 Active JP7337268B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010104850.1A CN111325766B (zh) 2020-02-20 2020-02-20 三维边缘检测方法、装置、存储介质和计算机设备
CN202010104850.1 2020-02-20
PCT/CN2020/121120 WO2021164280A1 (zh) 2020-02-20 2020-10-15 三维边缘检测方法、装置、存储介质和计算机设备

Publications (2)

Publication Number Publication Date
JP2022552663A JP2022552663A (ja) 2022-12-19
JP7337268B2 true JP7337268B2 (ja) 2023-09-01

Family

ID=71172782

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022522367A Active JP7337268B2 (ja) 2020-02-20 2020-10-15 三次元エッジ検出方法、装置、コンピュータプログラム及びコンピュータ機器

Country Status (5)

Country Link
US (1) US20220215558A1 (ja)
EP (1) EP4016454A4 (ja)
JP (1) JP7337268B2 (ja)
CN (1) CN111325766B (ja)
WO (1) WO2021164280A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325766B (zh) * 2020-02-20 2023-08-25 腾讯科技(深圳)有限公司 三维边缘检测方法、装置、存储介质和计算机设备
CN112991465A (zh) * 2021-03-26 2021-06-18 禾多科技(北京)有限公司 相机标定方法、装置、电子设备和计算机可读介质
CN115222745B (zh) * 2022-09-21 2022-12-13 南通未来文化科技有限公司 基于光学信息的古筝面板材料检测方法
CN115841625B (zh) * 2023-02-23 2023-06-06 杭州电子科技大学 一种基于改进U-Net模型的遥感建筑物影像提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005211671A (ja) 2005-01-31 2005-08-11 Toshiba Corp 放射線治療計画装置
US20070003016A1 (en) 2005-06-30 2007-01-04 Thomas Brunner Method for contour visualization of regions of interest in 2D fluoroscopy images
JP2008173167A (ja) 2007-01-16 2008-07-31 Ziosoft Inc 領域修正方法
WO2018156778A1 (en) 2017-02-22 2018-08-30 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Detection of prostate cancer in multi-parametric mri using random forest with instance weighting & mr prostate segmentation by deep learning with holistically-nested networks

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2978500C (en) * 2015-03-04 2022-07-05 Institute of Mineral Resources, Chinese Academy of Geological Sciences Method for automatically extracting tectonic framework of potential field data
CN107025642B (zh) * 2016-01-27 2018-06-22 百度在线网络技术(北京)有限公司 基于点云数据的车辆轮廓检测方法和装置
KR102610030B1 (ko) * 2016-11-15 2023-12-04 매직 립, 인코포레이티드 큐보이드 검출을 위한 딥 러닝 시스템
EP3600047A1 (en) * 2017-03-30 2020-02-05 Hologic, Inc. System and method for hierarchical multi-level feature image synthesis and representation
EP3468182A1 (en) * 2017-10-06 2019-04-10 InterDigital VC Holdings, Inc. A method and apparatus for encoding a point cloud representing three-dimensional objects
CN109410185B (zh) * 2018-10-10 2019-10-25 腾讯科技(深圳)有限公司 一种图像分割方法、装置和存储介质
CN111126242B (zh) * 2018-10-16 2023-03-21 腾讯科技(深圳)有限公司 肺部图像的语义分割方法、装置、设备及存储介质
CN109598727B (zh) * 2018-11-28 2021-09-14 北京工业大学 一种基于深度神经网络的ct图像肺实质三维语义分割方法
CN109598722B (zh) * 2018-12-10 2020-12-08 杭州帝视科技有限公司 基于递归神经网络的图像分析方法
CN109872325B (zh) * 2019-01-17 2022-11-15 东北大学 基于双路三维卷积神经网络的全自动肝脏肿瘤分割方法
CN110276408B (zh) * 2019-06-27 2022-11-22 腾讯科技(深圳)有限公司 3d图像的分类方法、装置、设备及存储介质
CN110599492B (zh) * 2019-09-19 2024-02-06 腾讯科技(深圳)有限公司 图像分割模型的训练方法、装置、电子设备及存储介质
CN110648337A (zh) * 2019-09-23 2020-01-03 武汉联影医疗科技有限公司 髋关节分割方法、装置、电子设备和存储介质
CN111325766B (zh) * 2020-02-20 2023-08-25 腾讯科技(深圳)有限公司 三维边缘检测方法、装置、存储介质和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005211671A (ja) 2005-01-31 2005-08-11 Toshiba Corp 放射線治療計画装置
US20070003016A1 (en) 2005-06-30 2007-01-04 Thomas Brunner Method for contour visualization of regions of interest in 2D fluoroscopy images
JP2008173167A (ja) 2007-01-16 2008-07-31 Ziosoft Inc 領域修正方法
WO2018156778A1 (en) 2017-02-22 2018-08-30 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Detection of prostate cancer in multi-parametric mri using random forest with instance weighting & mr prostate segmentation by deep learning with holistically-nested networks

Also Published As

Publication number Publication date
CN111325766B (zh) 2023-08-25
US20220215558A1 (en) 2022-07-07
WO2021164280A1 (zh) 2021-08-26
EP4016454A1 (en) 2022-06-22
CN111325766A (zh) 2020-06-23
EP4016454A4 (en) 2023-01-04
JP2022552663A (ja) 2022-12-19

Similar Documents

Publication Publication Date Title
US11810377B2 (en) Point cloud segmentation method, computer-readable storage medium, and computer device
JP7337268B2 (ja) 三次元エッジ検出方法、装置、コンピュータプログラム及びコンピュータ機器
Kundu et al. 3d-rcnn: Instance-level 3d object reconstruction via render-and-compare
Kuo et al. Mask2cad: 3d shape prediction by learning to segment and retrieve
CN111429460B (zh) 图像分割方法、图像分割模型训练方法、装置和存储介质
CN110796111B (zh) 图像处理方法、装置、设备及存储介质
CN111915627B (zh) 语义分割方法、网络、设备及计算机存储介质
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN110781894A (zh) 点云语义分割方法、装置及电子设备
CN116129141A (zh) 医学数据处理方法、装置、设备、介质和计算机程序产品
CN116823850A (zh) 基于U-Net和Transformer融合改进的心脏MRI分割方法及系统
CN114677349A (zh) 编解码端边缘信息增强和注意引导的图像分割方法及系统
CN113554655B (zh) 基于多特征增强的光学遥感图像分割方法及装置
Jonsson Channel-coded feature maps for computer vision and machine learning
CN113822846A (zh) 医学图像中确定感兴趣区域的方法、装置、设备及介质
CN115984583B (zh) 数据处理方法、装置、计算机设备、存储介质和程序产品
Vinodkumar et al. Deep Learning for 3D Reconstruction, Augmentation, and Registration: A Review Paper
Ding Scene parsing with deep neural networks
Molinuevo Gómez Self-supervised foreground segmentation by sequences of images without camera motion
Xie A Tiny Diagnostic Dataset and Diverse Modules for Learning-Based Optical Flow Estimation
Yang et al. An Expansion Convolution Method Based on Local Region Parameter Sharing
Ergül Visual semantic segmentation with diminished supervision
WANG et al. Full-automatic Segmentation Algorithm of Brain Tumor Based on RFE-UNet and Hybrid Focal Loss Function
Lu et al. Scene-Aware Feature Matching
Xu Applications of Markov Random Field Optimization and 3D Neural Network Pruning in Computer Vision

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220413

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230822

R150 Certificate of patent or registration of utility model

Ref document number: 7337268

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150