JP7237870B2 - 画像処理装置、画像処理方法及び画像処理システム - Google Patents
画像処理装置、画像処理方法及び画像処理システム Download PDFInfo
- Publication number
- JP7237870B2 JP7237870B2 JP2020018599A JP2020018599A JP7237870B2 JP 7237870 B2 JP7237870 B2 JP 7237870B2 JP 2020018599 A JP2020018599 A JP 2020018599A JP 2020018599 A JP2020018599 A JP 2020018599A JP 7237870 B2 JP7237870 B2 JP 7237870B2
- Authority
- JP
- Japan
- Prior art keywords
- amodal
- mask
- image processing
- overlap
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 91
- 238000003672 processing method Methods 0.000 title claims description 4
- 230000011218 segmentation Effects 0.000 claims description 79
- 238000012549 training Methods 0.000 claims description 25
- 230000006854 communication Effects 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 17
- 238000000605 extraction Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000007689 inspection Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 11
- 239000010410 layer Substances 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 239000000463 material Substances 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000003709 image segmentation Methods 0.000 description 6
- 241000282412 Homo Species 0.000 description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000008867 communication pathway Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10116—X-ray image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Description
画像分割(image segmentation)の手段の一つとして、深層学習を用いた画像セグメンテーション用ニューラルネットワークが知られている。画像セグメンテーション用ニューラルネットワークを用いることにより、複数のオブジェクトが写っている画像の場合、それぞれのオブジェクトのカテゴリー及び領域を高精度に判定することが可能となり、これらの画像セグメンテーション用ニューラルネットワークが様々な分野に適用されている。
非特許文献1には「可視画素を越えて情報を捕捉し、完全なシーン構造について複雑な推論を必要とする詳細な画像アノテーションを提案する。具体的には、本発明者らが各画像のアモダルセグメンテーションを作成し、可視ピクセルだけでなく、各領域の全範囲がマークされる。アノテータは画像内のすべての顕著な領域の輪郭を描き、名前を付け、部分的な奥行き順序を指定する。その結果、各領域の可視部分および遮蔽部分、図形・地面エッジ情報、意味ラベル、およびオブジェクト重複を含む豊富なシーン構造が得られる」技術が記載されている。
しかし、非特許文献1では、2つのオブジェクトに重なりがある画像で、前面のオブジェクトのみが写っている画像に最適化された方式であり、X線画像等のような、例えば3つ以上のオブジェクトが重複して写る画像や(すなわち、「重度重複」(heavy occlusion))、オブジェクトの材質が色や透明性の度合いで表されている画像への適用については想定されていない。従って、非特許文献1に記載のアモダルセグメンテーション手段をこのような画像に適用しても、それぞれのオブジェクトのカテゴリー及び領域を判別する精度は限定的とならざるをえない。
(ハードウエア構成)
通信ネットワーク202は、例えばローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、衛星ネットワーク、ケーブルネットワーク、Wi―Fiネットワーク、またはそれらの任意の組み合わせを含むものであってもよい。また、X線装置211と画像処理装置201の接続は、有線であってもよく、無線であってもよい。
なお、図2では、X線画像を処理する構成として、X線装置211を含む場合の構成を一例として示しているが、本発明はこれに限定されず、X線装置211は、例えば任意のカメラ、センサ、又は画像処理の対象となる入力画像を提供する他の装置であってもよい。
なお、画像処理装置201に含まれるそれぞれの機能部は、図1に示すコンピュータシステム300における画像処理アプリケーション350を構成するソフトウエアモジュールであってもよく、独立した専用ハードウェアデバイスであってもよい。また、上記の機能部は、同一のコンピューティング環境に実施されてもよく、分散されたコンピューティング環境に実施されてもよい。例えば、第1のアモダルマスクのセットを生成するアモダルセグメンテーション部210をX線装置211や遠隔のサーバに実装し、それ以外の機能部を画像処理装置201に実装する構成も可能である。
つまり、1つの画素に対して1つのアノテーションラベルのみを付与するシングルチャンネルグラウンドトゥルースとは異なり、本発明に係るマルチチャンネルグラウンドトゥルースでは、1つの画素に対して複数のアノテーションラベルを付与することが可能となるため、同じ画素において複数のオブジェクトが重なっている場合であっても、それぞれのオブジェクトに関する情報が維持され、それぞれのオブジェクトの完全な形状・輪郭を
特定することができる。
このマルチチャンネルグラウンドトゥルースを用いて画像処理装置201を訓練することで、オブジェクトが重なっている場合でも、それぞれのオブジェクトのカテゴリー及び完全な形状・輪郭を示すアモダルマスクを生成するネットワークを訓練することができる。
なお、このマルチチャンネルグラウンドトゥルースは、後述するユーザインターフェースを介してユーザ(アノテータ)によって作成されてもよい。
ただし、本発明はX線画像に限定されず、自動運転の車のセンサに撮影された、人間、車、建物等が重なっている画像であってもよく、オブジェクトが重なっていない画像であってもよい。
更に、これらの第1のアモダルマスク364は、並行に、独立して生成され、サイズは入力画像361と同じ高さ及び幅のサイズに変更される。サイズ変更後、これらの第1のアモダルマスク364はチャンネル(又はレイヤー)と呼ばれる3次元構造に配置され、図2に示すストレージ部225等に保存される。
なお、この重なりセグメンテーションネットワーク366の詳細については後述する。
これにより、それぞれのオブジェクトが重なっている重なり領域の境界(座標等)を高精度で識別することができ、後述する重なりマスクをより容易に生成することができる。
本発明に係るマルチチャンネルグラウンドトゥルースによって訓練されたものである。ここでのマルチチャンネルグラウンドトゥルースとは、所定のトレーニング用画像604におけるオブジェクト毎に、他のオブジェクトに隠されている領域も含めて、当該オブジェクトのカテゴリー及び完全な形状・輪郭を指定するアノテーションラベルを含む情報である。言い換えれば、このグラウンドトゥルースは、所定のトレーニング用画像604に対する所望のセグメンテーション結果を表すものである。
このマルチチャンネルグラウンドトゥルースを用いて画像処理装置201を訓練することで、複数のオブジェクトが重なっている場合でも、それぞれのオブジェクトのカテゴリー及び完全な形状・輪郭を示すアモダルマスクを生成するネットワークを訓練することができる。
なお、ここでのパラメータ更新620は、いわゆるEnd-to-End式で行われる。つまり、特徴抽出部362、アモダルセグメンテーション部210、及び重なりセグメンテーション部215のパラメータが同時に更新される。
なお、それぞれのオブジェクトに付与されたカテゴリーを示すラベルは、入力画像に対する異なるチャンネル(レイヤー)として保存される。これにより、1つの画像に対して、オブジェクトの数だけのチャンネルが生成され、それぞれのチャンネルには、異なるオブジェクトに対して付与されたアノテーションラベルが保存される。
ここで入力される境界座標も、ステップS701で入力されたカテゴリーを指定する情報と共に、それぞれのオブジェクトに該当するチャンネルにおいてアノテーションラベルとして保存される。
なお、オブジェクトの一部が他のオブジェクトによって隠されている場合には、ユーザは、隠されている部分も含めて、オブジェクトの輪郭を予測して境界座標を入力することが望ましい。また、ここでは、ユーザは後述するアノテーションルールに従ってアノテーションを行うことが望ましい。
なお、ここでは、上述したカテゴリー情報、境界座標情報、及びその他の情報(材質等)を1つのファイルに保存し、画素単位アノテーション情報(pixel wise annotation information)を別のファイルに保存してもよい。
また、ステップS704でシングルチャンネルグラウンドトゥルースが選択された場合には、オブジェクト毎に生成されたチャンネルが、1つの画素に対して1つのアノテーションラベルを含む単一のチャンネルに結合される。ここで、1つの画素に対して複数のアノテーションラベルが存在する場合、どのアノテーションラベルを残し、どのアノテーションラベルを削除するかの判定は、例えば後述するアノテーションルールや、所定の基準に基づいて行われてもよい。
更に、アノテータはカテゴリー情報ウインドウ805に表示されているボタンを押すことで、ラベルを保存したり、ラベルを追加したり、ファイルを保存したり、ファイルをロードしたり、ファイルのディレクトリを開いたり、次に画像に進んだりすることができる。
なお、以下では、X線の画像を一例として説明するが、本発明はX線画像に限定されない。
アノテーションルールテーブル900では、それぞれの重なり状態905毎に、当該重なりにおけるアノテーションルール910、おすすめのチャンネル順番、及び当該重なり状態の画像の一例を示す。
例えば、一例として、金属等の密度が高いオブジェクト(一般的にX線画像で青・黒等の色で示される)を最も上方のチャンネルとし、無機・軽金属のオブジェクト(一般的にX線画像で緑等の色で示される)をその下方のチャンネルとし、有機のオブジェクト(一般的にX線画像で黄色等の色で示される)を最も下方のオブジェクトとすることが望ましい。
なお、以上では、本発明に係るアノテーションルールテーブル900の一例を説明したが、本発明はアノテーションルールテーブル900に示されるルールに限定されず、アノテータは画像処理装置の応用形態に応じて、アノテーションラベルを適宜に行ってもよい。
なお、斯かる画像の場合には、人間、車、動物等の前景のオブジェクトに加えて、空、道路、建物等の背景のオブジェクトのアモダルマスクを生成する必要があり、そのためには、本発明の実施形態に係るパノプティックセグメンテーションシステム1100が用いられる。ここでのパノプティックセグメンテーションシステム1100とは、いわゆるインスタンスセグメンテーション(instance segmentation;インスタンス分割)及びセマンティックセグメンテーション(semantic segmentation;意味的分割)を組みわせることにより、特定の画像における各画素に対して、当該画素のカテゴリーを示すアノテーションラベルと、インスタンスID(当該画素がどのオブジェクトに属するかを示す数値)とを付与する手段である。
セマンティックアモダルセグメンテーションネットワーク1106は、例えばFCN(Fully Convolutional Network)等の既存のセマンティックセグメンテーションネットワーク(semantic segmentation network;意味的分割ネットワーク)から構成されたものであり、上述したマルチチャンネルグラウンドトゥルースによって訓練された後、特徴抽出部1102により生成された特徴マップに基づいて、入力画像における前景オブジェクト及び前景オブジェクトがラベル化されたセマンティックアモダルマスク1107(semantic amodal mask;意味的アモダルマスク)を生成する。
このセマンティックアモダルマスク1107は、入力画像1101と同様の高さ及び幅を有しており、当該入力画像1101における前景オブジェクトと背景オブジェクトの和に等しい数のチャンネルを有する。それぞれのチャンネルは、1つのオブジェクトカテゴリーのマスクを含む。
201 画像処理装置
202 通信ネットワーク
203 プロセッサ
204 I/Oインターフェース
205 ネットワークインターフェース
206 ユーザI/Oインターフェース
207 メモリ
210 アモダルセグメンテーション部
211 X線装置
212 バス
215 重なりセグメンテーション部
220 アモダルマスク修正部
225 ストレージ部
Claims (10)
- 画像処理装置であって、
複数のオブジェクトが少なくとも部分的に重なっている入力画像に対して、前記オブジェクト毎に、特定の画素が当該オブジェクトに属する確率を示す第1のアモダルマスクのセットを生成するアモダルセグメンテーション部と、
前記オブジェクト毎に生成した第1のアモダルマスクのセットを結合した集約マスクと、前記入力画像に基づいて生成された特徴マップとに基づいて、前記複数のオブジェクトが前記入力画像において重なっている重なり領域のみに該当する重なりマスクを生成する重なりセグメンテーション部と、
前記重なりマスクと、前記集約マスクとを用いて、前記入力画像における各画素に対して、少なくとも当該画素に該当する各オブジェクトのカテゴリーを示すアノテーションラベルを含む第2のアモダルマスクを生成し、出力するアモダルマスク修正部と、
を含む画像処理装置。 - 前記第2のアモダルマスクは、
前記重なり領域における画素に対して、前記重なり領域において重なっているオブジェクト毎に、少なくとも当該オブジェクトのカテゴリーを示すアノテーションラベルを個別のチャンネルに格納するマルチチャンネルアモダルマスクであることを特徴とする、請求項1に記載の画像処理装置。 - 前記画像処理装置は、
グラウンドトゥルース作成部を更に含み、
前記グラウンドトゥルース作成部は、
複数のオブジェクトが少なくとも部分的に重なっているトレーニング用画像に対して、それぞれのオブジェクトのカテゴリー及び境界座標を指定するアノテーションラベルの入力をユーザから受信し、
前記アノテーションラベルに基づいて、前記トレーニング用画像の画素毎に、当該画素がどのオブジェクトに属するかを示すグラウンドトゥルースを生成する、
ことを特徴とする、請求項1に記載の画像処理装置。 - 前記アモダルセグメンテーション部は、
畳み込みニューラルネットワークを含み、
前記畳み込みニューラルネットワークは、前記トレーニング用画像と、前記トレーニング用画像について生成されたグラウンドトゥルースを用いて訓練される、
ことを特徴とする、請求項3に記載の画像処理装置。 - 前記重なりセグメンテーション部は、
エンコーダー・デコーダーモデルを含み、
前記エンコーダー・デコーダーモデルは、
前記特徴マップを精緻化し、セマンティック情報を抽出する畳み込みレイヤーのセットと、
前記特徴マップを所望のサイズに調整する逆畳み込みレイヤーのセットとを含む、
ことを特徴とする、請求項1に記載の画像処理装置。 - 前記集約マスクが前記エンコーダー・デコーダーモデルの入力レイヤーに加えて、それ以降の下流のレイヤーにも入力される、
ことを特徴とする、請求項5に記載の画像処理装置。 - 前記入力画像に基づいて生成された特徴マップに基づいて、前記入力画像における各画素に対して、当該画素に該当するオブジェクトのカテゴリーを示すセマンティックアモダルマスクを生成するセマンティックアモダルセグメンテーション部と、
前記セマンティックアモダルマスクから背景オブジェクトのインスタンスを抜粋し、前記第2のアモダルマスクから前景オブジェクトのインスタンスを抜粋し、前記背景オブジェクトのインスタンスと、前記前景オブジェクトのインスタンスとを結合することで、オブジェクト毎に、当該オブジェクトのカテゴリーを示すアノテーションラベルと、一意なインスタンスIDとを個別のチャンネルに格納するアモダルパノプティックマスクを生成するパノプティックマスク生成部と、
を更に含むことを特徴とする、請求項1に記載の画像処理装置。 - 前記入力画像は、
半透明なオブジェクトが複数重なっているX線画像であることを特徴とする、請求項1に記載の画像処理装置。 - 画像処理方法であって、
複数のオブジェクトが少なくとも部分的に重なっている入力画像に対して、前記オブジェクト毎に、特定の画素が当該オブジェクトに属する確率を示す第1のアモダルマスクのセットを生成する工程と、
前記オブジェクト毎に生成した第1のアモダルマスクのセットを結合した集約マスクと、前記入力画像に基づいて生成された特徴マップとに基づいて、前記複数のオブジェクトが前記入力画像において重なっている重なり領域のみに該当する重なりマスクを生成する工程と、
前記重なりマスクと、前記集約マスクとを用いて、前記入力画像における各画素に対して、少なくとも当該画素に該当する各オブジェクトのカテゴリーを示すアノテーションラベルを含む第2のアモダルマスクを生成し、出力する工程と、
を含む画像処理方法。 - 画像処理システムであって、
前記画像処理システムにおいて、
X線画像を取得するX線装置と、
入力画像におけるそれぞれのオブジェクトの全体の輪郭を示すアモダルマスクを生成する画像処理装置とが通信ネットワークを介して接続されており、
前記画像処理装置は、
前記通信ネットワークを介して、前記X線装置から、複数のオブジェクトが少なくとも部分的に重なっている入力画像を受信し、前記入力画像に対して、前記オブジェクト毎に、特定の画素が当該オブジェクトに属する確率を示す第1のアモダルマスクのセットを生成するアモダルセグメンテーション部と、
前記オブジェクト毎に生成した第1のアモダルマスクのセットを結合した集約マスクと、前記入力画像に基づいて生成された特徴マップとに基づいて、前記複数のオブジェクトが前記入力画像において重なっている重なり領域のみに該当する重なりマスクを生成する重なりセグメンテーション部と、
前記重なりマスクと、前記集約マスクとを用いて、前記入力画像における各画素に対して、少なくとも当該画素に該当する各オブジェクトのカテゴリーを示すアノテーションラベルを含む第2のアモダルマスクを生成し、出力するアモダルマスク修正部と、
を含む画像処理システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020018599A JP7237870B2 (ja) | 2020-02-06 | 2020-02-06 | 画像処理装置、画像処理方法及び画像処理システム |
US17/071,452 US11587301B2 (en) | 2020-02-06 | 2020-10-15 | Image processing device, image processing method, and image processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020018599A JP7237870B2 (ja) | 2020-02-06 | 2020-02-06 | 画像処理装置、画像処理方法及び画像処理システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021125007A JP2021125007A (ja) | 2021-08-30 |
JP7237870B2 true JP7237870B2 (ja) | 2023-03-13 |
Family
ID=77177221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020018599A Active JP7237870B2 (ja) | 2020-02-06 | 2020-02-06 | 画像処理装置、画像処理方法及び画像処理システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11587301B2 (ja) |
JP (1) | JP7237870B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11379992B2 (en) * | 2019-05-14 | 2022-07-05 | Matterport, Inc. | Patch expansion for segmentation network training |
CN112528786B (zh) * | 2020-11-30 | 2023-10-31 | 北京百度网讯科技有限公司 | 车辆跟踪方法、装置及电子设备 |
CN114663844A (zh) * | 2020-12-22 | 2022-06-24 | 富泰华工业(深圳)有限公司 | 区分对象的方法、计算机装置及存储介质 |
US20230104262A1 (en) * | 2021-10-06 | 2023-04-06 | Adobe Inc. | Panoptic segmentation refinement network |
CN115984309B (zh) * | 2021-12-10 | 2024-03-15 | 北京百度网讯科技有限公司 | 用于训练图像分割模型和图像分割的方法、装置 |
US20230252638A1 (en) * | 2022-02-04 | 2023-08-10 | Argo Ai,Llc | Systems and methods for panoptic segmentation of images for autonomous driving |
JP2023163420A (ja) * | 2022-04-28 | 2023-11-10 | 株式会社スペースリー | 三次元モデル生成装置及び三次元モデル生成プログラム |
WO2024053846A1 (en) * | 2022-09-07 | 2024-03-14 | Samsung Electronics Co., Ltd. | A method and device for personalised image segmentation and processing |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7382907B2 (en) * | 2004-11-22 | 2008-06-03 | Carestream Health, Inc. | Segmenting occluded anatomical structures in medical images |
US9918691B2 (en) * | 2014-10-30 | 2018-03-20 | Koninklijke Philips N.V. | Device and method for determining image quality of a radiogram image |
US11699235B2 (en) * | 2019-11-20 | 2023-07-11 | Baidu Usa Llc | Way to generate tight 2D bounding boxes for autonomous driving labeling |
-
2020
- 2020-02-06 JP JP2020018599A patent/JP7237870B2/ja active Active
- 2020-10-15 US US17/071,452 patent/US11587301B2/en active Active
Non-Patent Citations (1)
Title |
---|
Patrick Follmann et al.,Learning to See the Invisible: End-to-End Trainable Amodal Instance Segmentation,[online],2019年,https://ieeexplore.ieee.org/document/8658806,pp.1328-1336 |
Also Published As
Publication number | Publication date |
---|---|
US20210248408A1 (en) | 2021-08-12 |
JP2021125007A (ja) | 2021-08-30 |
US11587301B2 (en) | 2023-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7237870B2 (ja) | 画像処理装置、画像処理方法及び画像処理システム | |
CN110785736B (zh) | 自动代码生成 | |
CN108073555B (zh) | 用于从电子文档生成虚拟现实环境的方法和系统 | |
US11176415B2 (en) | Assisted image annotation | |
AU2017216604B2 (en) | Concept canvas: spatial semantic image search | |
EP3183640B1 (en) | Device and method of providing handwritten content in the same | |
CN104471564B (zh) | 在将数据变换成可消费内容时创建变型 | |
US9875220B2 (en) | Panoptic visualization document printing | |
Zhang et al. | Weakly supervised emotion intensity prediction for recognition of emotions in images | |
US11586918B2 (en) | Methods and systems for automatically detecting design elements in a two-dimensional design document | |
US20130188875A1 (en) | Vector Graphics Classification Engine | |
US11914951B2 (en) | Semantically-guided template generation from image content | |
JP2003295993A (ja) | グラフィック入力及び表示システム、このシステムにおいてユーザインタフェースを利用する方法、並びに、コンピュータが使用可能な媒体から成る製品 | |
Manandhar et al. | Learning structural similarity of user interface layouts using graph networks | |
EP2711897B1 (en) | Panoptic visualization document differencing | |
KR102017894B1 (ko) | 판옵틱 가시화 도큐먼트 레이아웃 | |
US10970320B2 (en) | Systems and methods for coordinate-based search | |
TW201523421A (zh) | 決定用於擷取的文章之圖像 | |
GB2556378A (en) | Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media | |
US20240212367A1 (en) | Text identification in layered digital content | |
CN117875448A (zh) | 数据标注方法、计算机设备及存储介质 | |
JP2022129792A (ja) | 領域変換装置、領域変換方法及び領域変換システム | |
CN117472251A (zh) | 一种文档查看方法、装置、电子设备和存储介质 | |
EP2879063A1 (en) | Panoptic visualization document printing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7237870 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |