JP7237870B2 - 画像処理装置、画像処理方法及び画像処理システム - Google Patents

画像処理装置、画像処理方法及び画像処理システム Download PDF

Info

Publication number
JP7237870B2
JP7237870B2 JP2020018599A JP2020018599A JP7237870B2 JP 7237870 B2 JP7237870 B2 JP 7237870B2 JP 2020018599 A JP2020018599 A JP 2020018599A JP 2020018599 A JP2020018599 A JP 2020018599A JP 7237870 B2 JP7237870 B2 JP 7237870B2
Authority
JP
Japan
Prior art keywords
amodal
mask
image processing
overlap
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020018599A
Other languages
English (en)
Other versions
JP2021125007A (ja
Inventor
紫薇 ▲とう▼
全 孔
直人 秋良
智一 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2020018599A priority Critical patent/JP7237870B2/ja
Priority to US17/071,452 priority patent/US11587301B2/en
Publication of JP2021125007A publication Critical patent/JP2021125007A/ja
Application granted granted Critical
Publication of JP7237870B2 publication Critical patent/JP7237870B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10116X-ray image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像処理装置、画像処理方法、及び画像処理システムに関する。
近年、IT化の進展に伴い、社会に多数のセンサが配置され、極めて大量のデータが蓄積されている。そうした中、集積された画像データを活用する様々な方策が検討されている。特に、写真、動画、画像等の映像コンテンツが増える中、その映像におけるオブジェクトを自在に特定し、複数のオブジェクトが重なり合った画像についても、特定の画像をその背景又は他のオブジェクトから分割するニーズが高まっている。
画像分割(image segmentation)の手段の一つとして、深層学習を用いた画像セグメンテーション用ニューラルネットワークが知られている。画像セグメンテーション用ニューラルネットワークを用いることにより、複数のオブジェクトが写っている画像の場合、それぞれのオブジェクトのカテゴリー及び領域を高精度に判定することが可能となり、これらの画像セグメンテーション用ニューラルネットワークが様々な分野に適用されている。
しかし、従来の画像セグメンテーション用ニューラルネットワークは主に、各画素には1つのオブジェクトまたは背景が写っていることを前提としており、X線装置等で撮影された、例えば2つ以上の半透明なオブジェクトが1画素に重なり合う複雑な画像の場合には、他のオブジェクトに隠されている領域も含めて、オブジェクトの完全な形状を判別すること(いわゆるアモダルセグメンテーション(amodal segmentation))が困難である。
このアモダルセグメンテーションの一例として、例えばZhu, Yan et al(非特許文献1)による研究がある。
非特許文献1には「可視画素を越えて情報を捕捉し、完全なシーン構造について複雑な推論を必要とする詳細な画像アノテーションを提案する。具体的には、本発明者らが各画像のアモダルセグメンテーションを作成し、可視ピクセルだけでなく、各領域の全範囲がマークされる。アノテータは画像内のすべての顕著な領域の輪郭を描き、名前を付け、部分的な奥行き順序を指定する。その結果、各領域の可視部分および遮蔽部分、図形・地面エッジ情報、意味ラベル、およびオブジェクト重複を含む豊富なシーン構造が得られる」技術が記載されている。
Zhu, Yan et al. "Semantic Amodal Segmentation." CVPR (2015)。
上記の非特許文献1には、人間のアノテータによって作成されたアノテーションラベルをトレーニング用データとして訓練されたニューラルネットワークは、オブジェクトの全体の輪郭を予測する。
しかし、非特許文献1では、2つのオブジェクトに重なりがある画像で、前面のオブジェクトのみが写っている画像に最適化された方式であり、X線画像等のような、例えば3つ以上のオブジェクトが重複して写る画像や(すなわち、「重度重複」(heavy occlusion))、オブジェクトの材質が色や透明性の度合いで表されている画像への適用については想定されていない。従って、非特許文献1に記載のアモダルセグメンテーション手段をこのような画像に適用しても、それぞれのオブジェクトのカテゴリー及び領域を判別する精度は限定的とならざるをえない。
そこで、本発明は、多くのオブジェクトが重なっている複雑な画像の場合でも、オブジェクト毎に、当該オブジェクトのカテゴリー及び完全な形状を高精度で示すマルチチャンネルアノテーションラベルを含むアモダルマスクを生成するアモダルセグメンテーション手段を提供することを目的とする。
上記の課題を解決するために、代表的な本発明の画像処理装置の一つは、複数のオブジェクトが少なくとも部分的に重なっている入力画像に対して、オブジェクト毎に、特定の画素が当該オブジェクトに属する確率を示す第1のアモダルマスクのセットを生成するアモダルセグメンテーション部と、オブジェクト毎に生成した第1のアモダルマスクのセットを結合した集約マスクと、入力画像に基づいて生成された特徴マップとをエンコーダー・デコーダーモデルによって処理することで、複数のオブジェクトが入力画像において重なっている重なり領域のみに該当する重なりマスクを生成する重なりセグメンテーション部と、重なりマスクと、集約マスクとを用いて、画素毎に、当該画素がどのオブジェクトに属するかを示すアノテーションラベルを含む第2のアモダルマスクを生成するアモダルマスク修正部とを含む。
本発明によれば、たとえ多くのオブジェクトが重なっている複雑な画像の場合であっても、オブジェクト毎に、当該オブジェクトのカテゴリー及び完全な形状を高精度で示すマルチチャンネルアノテーションラベルを含むアモダルマスクを生成するアモダルセグメンテーション手段を提供することができる。
図1は、本発明の実施形態を実施するためのコンピュータシステムを示す図である。 図2は、本発明の実施形態に係る画像処理システムの構成の一例を示す図である。 図3は、本発明の実施形態に係る画像処理装置によって実行されるアモダルマスク生成処理の流れを示す図である。 図4は、本発明の実施形態に係る集約マスクを生成する処理の一例を示す図である。 図5は、本発明の実施形態に係る重なりマスクを生成するためのニューラルネットワークの構成の一例を示す図である。 図6は、本発明の実施形態に係る画像処理装置におけるアモダルセグメンテーション部及び重なりセグメンテーション部を訓練する処理の流れを示す図である。 図7は、本発明の実施形態に係る画像処理装置の訓練に用いられるマルチチャンネルグラウンドトゥルースを生成する処理の流れを示す図である。 図8は、本発明の実施形態に係る画像処理装置の訓練に用いられるマルチチャンネルグラウンドトゥルースを生成するためのユーザインターフェースの一例を示す図である。 図9は、本発明の実施形態に係るマルチチャンネルグラウンドトゥルースを生成する際にユーザの参考情報となるアノテーションルールの一例を示す図である。 図10は、本発明の実施形態に係る画像処理手段をX線荷物検査に適用した場合の一例を示す図である。 図11は、本発明の実施形態に係るパノプティックマスクを生成するためのパノプティックセグメンテーションシステムの一例を示す図である。
以下、図面を参照して、従来例及び本発明の実施形態について説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
(ハードウエア構成)
まず、図1を参照して、本開示の実施形態を実施するためのコンピュータシステム300について説明する。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム300の主要コンポーネントは、1つ以上のプロセッサ302、メモリ304、端末インターフェース312、ストレージインタフェース314、I/O(入出力)デバイスインタフェース316、及びネットワークインターフェース318を含む。これらのコンポーネントは、メモリバス306、I/Oバス308、バスインターフェースユニット309、及びI/Oバスインターフェースユニット310を介して、相互的に接続されてもよい。
コンピュータシステム300は、プロセッサ302と総称される1つ又は複数の汎用プログラマブル中央処理装置(CPU)302A及び302Bを含んでもよい。ある実施形態では、コンピュータシステム300は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム300は単一のCPUシステムであってもよい。各プロセッサ302は、メモリ304に格納された命令を実行し、オンボードキャッシュを含んでもよい。
ある実施形態では、メモリ304は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体(揮発性又は不揮発性のいずれか)を含んでもよい。メモリ304は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ304は、画像処理アプリケーション350を格納していてもよい。ある実施形態では、画像処理アプリケーション350は、後述する機能をプロセッサ302上で実行する命令又は記述を含んでもよい。
ある実施形態では、画像処理アプリケーション350は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、画像処理アプリケーション350は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス(図示せず)が、バスインターフェースユニット309、プロセッサ302、またはコンピュータシステム300の他のハードウェアと直接通信するように提供されてもよい。
コンピュータシステム300は、プロセッサ302、メモリ304、表示システム324、及びI/Oバスインターフェースユニット310間の通信を行うバスインターフェースユニット309を含んでもよい。I/Oバスインターフェースユニット310は、様々なI/Oユニットとの間でデータを転送するためのI/Oバス308と連結していてもよい。I/Oバスインターフェースユニット310は、I/Oバス308を介して、I/Oプロセッサ(IOP)又はI/Oアダプタ(IOA)としても知られる複数のI/Oインタフェースユニット312,314,316、及び318と通信してもよい。
表示システム324は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置326に提供することができる。また、コンピュータシステム300は、データを収集し、プロセッサ302に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。
例えば、コンピュータシステム300は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサ、及び加速度データ、運動データ等を収集するモーションセンサ等を含んでもよい。これ以外のタイプのセンサも使用可能である。表示システム324は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置326に接続されてもよい。
I/Oインタフェースユニットは、様々なストレージ又はI/Oデバイスと通信する機能を備える。例えば、端末インタフェースユニット312は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザI/Oデバイス320の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザI/Oデバイス320及びコンピュータシステム300に対して入力データや指示を入力し、コンピュータシステム300からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザI/Oデバイス320を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されてもよい。
ストレージインタフェース314は、1つ又は複数のディスクドライブや直接アクセスストレージ装置322(通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい)の取り付けが可能である。ある実施形態では、ストレージ装置322は、任意の二次記憶装置として実装されてもよい。メモリ304の内容は、ストレージ装置322に記憶され、必要に応じてストレージ装置322から読み出されてもよい。I/Oデバイスインタフェース316は、プリンタ、ファックスマシン等の他のI/Oデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース318は、コンピュータシステム300と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク330であってもよい。
ある実施形態では、コンピュータシステム300は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム(クライアント)からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム300は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。
次に、図2を参照して、本発明の実施形態に係る画像処理システムについて説明する。
図2は、本発明の実施形態に係る画像処理システム200の構成の一例を示す図である。図2に示すように、本発明に係る画像処理システム200は、主にX線装置211、通信ネットワーク202、及び画像処理装置201からなる。X線装置211及び画像処理装置201は、通信ネットワーク202を介して接続されている。
通信ネットワーク202は、例えばローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、衛星ネットワーク、ケーブルネットワーク、Wi―Fiネットワーク、またはそれらの任意の組み合わせを含むものであってもよい。また、X線装置211と画像処理装置201の接続は、有線であってもよく、無線であってもよい。
X線装置211は、X線画像を撮影する装置である。X線装置211は、例えばX線を放射するX線発生器と、反射するX線を検出し、解析するX線検出器とからなる。本発明に係るX線装置211の種類は特に限定されず、荷物用のX線装置であってもよく、後方散乱X線検査装置であってもよく、医療用のX線装置であってもよい。X線装置211は、所定の被写体のX線画像を撮影し、通信ネットワーク202を介して画像処理装置201に送信するように構成されている。
なお、図2では、X線画像を処理する構成として、X線装置211を含む場合の構成を一例として示しているが、本発明はこれに限定されず、X線装置211は、例えば任意のカメラ、センサ、又は画像処理の対象となる入力画像を提供する他の装置であってもよい。
画像処理装置201は、本発明に係る画像処理手段を実行するためのコンピューティングデバイスである。画像処理装置201は、例えばデスクトップコンピューター、サーバーコンピューター、ラップトップコンピューター、タブレットコンピューター、ワークステーション、携帯端末、または他の種類のコンピューティングデバイスであってもよく、本発明では特に限定されない。
図2に示すように、画像処理装置201は、メモリ207に格納された命令を実行するためのプロセッサ203と、画像処理装置201の内部・外部デバイス間の通信を制御するためのI/インターフェース204と、通信ネットワーク202を介しての通信を制御するためのネットワークインターフェース205と、ユーザからの入力を受け付けるためのユーザI/Oインターフェース206と、本発明の実施形態に係る画像処理手段のそれぞれの機能を実行するための機能部を格納するメモリ207と、これらの構成要素の双方通信を制御するためのバス212とを含む。
図2に示すように、メモリ207は、例えば、複数のオブジェクトが少なくとも部分的に重なっている入力画像に対して、オブジェクト毎に、特定の画素が当該オブジェクトに属する確率を示す第1のアモダルマスクのセットを生成するアモダルセグメンテーション部210と、オブジェクト毎に生成した第1のアモダルマスクのセットを結合した集約マスクと、入力画像に基づいて生成された特徴マップとをエンコーダー・デコーダーモデルによって処理することで、複数のオブジェクトが入力画像において重なっている重なり領域のみに該当する重なりマスクを生成する重なりセグメンテーション部215と、重なりマスクと、集約マスクとを用いて、画素毎に、当該画素がどのオブジェクトに属するかを示すアノテーションラベルを含む第2のアモダルマスクを生成するアモダルマスク修正部220と、各種情報を保存するためのストレージ部225とを含む。
なお、画像処理装置201に含まれるそれぞれの機能部は、図1に示すコンピュータシステム300における画像処理アプリケーション350を構成するソフトウエアモジュールであってもよく、独立した専用ハードウェアデバイスであってもよい。また、上記の機能部は、同一のコンピューティング環境に実施されてもよく、分散されたコンピューティング環境に実施されてもよい。例えば、第1のアモダルマスクのセットを生成するアモダルセグメンテーション部210をX線装置211や遠隔のサーバに実装し、それ以外の機能部を画像処理装置201に実装する構成も可能である。
以上説明した構成により、通信ネットワーク202を介してX線装置211等の外部装置から受け付けた入力画像を画像処理装置201により処理することで、オブジェクト毎に、当該オブジェクトのカテゴリー及び完全な形状を高精度で示すマルチチャンネルアノテーションラベルを含むアモダルマスクを生成することができる。
次に、図3を参照して、本発明の実施形態に係る画像処理装置によって実行されるアモダルマスク生成処理の流れについて説明する。
図3は、本発明の実施形態に係る画像処理装置201によって実行されるアモダルマスク生成処理360の流れを示す図である。
上述したように、従来のデータセットアノテーションでは、1つのアノテーションラベルが1つの画素に付与される。このアノテーションラベルは、少なくとも当該画素のカテゴリー(人間、車、建物等の所定のオブジェクトの種類)を指定するメタデータである。それぞれの画素が1つのアノテーションラベルに対応するため、ある画像の各画素に対して付与されたアノテーションラベルを格納するアノテーションファイルはシングルチャンネル(単一層)の情報となる。
画像セグメンテーション用のニューラルネットワークを訓練するためのグラウンドトゥルースを作成する際、この従来のシングルチャンネルアノテーション手段をX線画像等の、多くの半透明なオブジェクトが重なる画像に適用すると、アノテーションを行っているユーザは、1つの画素において重なっている複数のオブジェクト間の関係を考慮し、当該画素に1つのオブジェクトに該当するアノテーションラベルを付与しなければならず、それ以外のオブジェクトに関するアノテーションラベルを付与することができない(つまり、シングルチャンネルアノテーションでは、1つの画素に対して1つのオブジェクトのアノテーションラベルしか付与することができない)。
従って、このシングルチャンネルのグラウンドトゥルースを用いて訓練された画像セグメンテーション用のニューラルネットワークは、1つの画素について1つだけのオブジェクトを判別するように訓練されたため、複数のオブジェクトが重なっている画像に適用すると、全てのオブジェクトの完全な形状や輪郭を検出することができず、応用可能な分野が限られてしまう。
そこで、本発明は、図3に示すアモダルマスク生成処理360を用いることで、多くのオブジェクトが重なっている複雑な画像の場合でも、それぞれのオブジェクトのカテゴリー及び完全な形状を高精度で示すマルチチャンネルアノテーションラベルを含むアモダルマスクを生成するアモダルセグメンテーション手段を提供することを目的とする。
図3に示す画像処理装置201は、本発明に係るマルチチャンネルグラウンドトゥルースによって訓練されたものである。ここでのマルチチャンネルグラウンドトゥルースとは、所定のトレーニング用画像におけるオブジェクト毎に、他のオブジェクトに隠されている領域も含めて、当該オブジェクトのカテゴリー及び完全な形状・輪郭を指定するアノテーションラベルを含む情報である。
つまり、1つの画素に対して1つのアノテーションラベルのみを付与するシングルチャンネルグラウンドトゥルースとは異なり、本発明に係るマルチチャンネルグラウンドトゥルースでは、1つの画素に対して複数のアノテーションラベルを付与することが可能となるため、同じ画素において複数のオブジェクトが重なっている場合であっても、それぞれのオブジェクトに関する情報が維持され、それぞれのオブジェクトの完全な形状・輪郭を
特定することができる。
このマルチチャンネルグラウンドトゥルースを用いて画像処理装置201を訓練することで、オブジェクトが重なっている場合でも、それぞれのオブジェクトのカテゴリー及び完全な形状・輪郭を示すアモダルマスクを生成するネットワークを訓練することができる。
なお、このマルチチャンネルグラウンドトゥルースは、後述するユーザインターフェースを介してユーザ(アノテータ)によって作成されてもよい。
まず、特徴抽出部362は、画像処理装置201の処理対象となる入力画像361を受け付け、入力画像361に対する特徴マップを生成する。上述したように、入力画像361は、例えばX線画像等のような、複数のオブジェクトが重なっており、オブジェクトの材質が色や透明性の度合いで表されている画像であってもよい。この入力画像361は、例えば図2に示すX線装置211から提供される、荷物検査の際に撮影された荷物のX線画像であってもよい。
ただし、本発明はX線画像に限定されず、自動運転の車のセンサに撮影された、人間、車、建物等が重なっている画像であってもよく、オブジェクトが重なっていない画像であってもよい。
特徴抽出部362は、入力画像361に対して所定の畳み込み演算を行うことで、入力画像361のそれぞれの画素の属性を特徴値として表す畳み込みニューラルネットワークである。一般的には、畳み込み演算とは、所定の関数gを平行移動しながら別の関数fに重ね足し合わせる二項演算である。この畳み込み演算を入力画像361に対して行うことで、当該画像の属性を表す畳み込み特徴を抽出することができる。従って、ここでは、特徴抽出部362は、1つ以上の畳み込み演算及び非線形変換を施すことで、入力画像361の属性を表す畳み込み特徴を特徴マップ(フィーチャーマップ)として抽出することができる。後述するように、これらの特徴は、入力画像361におけるオブジェクトのカテゴリー及び領域(形状・輪郭など)を予測するために用いられる。
次に、特徴抽出部362によって生成された入力画像361に対する特徴マップは、本発明に係るアモダルセグメンテーション部210のアモダルセグメンテーションネットワーク363に転送される。このアモダルセグメンテーションネットワーク363は、特徴抽出部362によって生成された入力画像361に対する特徴マップの特徴に基づいて、他のオブジェクトに隠されている領域も含めて、入力画像361において重なっているそれぞれのオブジェクトの完全な形状・輪郭を示す第1のアモダルマスク364のセット(すなわち、1つ以上)を生成する。
このアモダルセグメンテーションネットワーク363は、例えば、特徴抽出部362によって生成された入力画像361に対する特徴マップの特徴に示されるオブジェクトのカテゴリーに基づいて、他のオブジェクトとの重なりにより部分的に隠されているオブジェクトの領域の座標を予測する畳み込みニューラルネットワークであってもよい。例えば、特徴抽出の結果、あるオブジェクトが携帯電話というカテゴリーに該当すると判定された場合には、アモダルセグメンテーションネットワーク363は、既存の携帯電話の大きさに応じて、携帯電話として判定されたオブジェクトの領域の座標を予測することでアモダルマスクを生成してもよい。
また、この第1のアモダルマスク364は、入力画像361におけるオブジェクト毎に生成されるため、入力画像361において2つのオブジェクトが重なっている場合には、2つの第1のアモダルマスクを含むセットが生成される(重なっている2つのオブジェクトのそれぞれの全体の形状・輪郭の予測を示す2つの第1のアモダルマスク)。
更に、これらの第1のアモダルマスク364は、並行に、独立して生成され、サイズは入力画像361と同じ高さ及び幅のサイズに変更される。サイズ変更後、これらの第1のアモダルマスク364はチャンネル(又はレイヤー)と呼ばれる3次元構造に配置され、図2に示すストレージ部225等に保存される。
なお、ここで生成される第1のアモダルマスクはセグメンテーションの暫定的な中間結果であり、入力画像361におけるそれぞれのオブジェクトの完全な形状・輪郭が正しく判別されていない可能性がある。そのため、この第1のアモダルマスク364を後述する重なりセグメンテーション部215及びアモダルマスク修正部220によって処理することにより、第1のアモダルマスク364より精度の高い分離結果を表す第2のアモダルマスク369を得ることができる。この第2のアモダルマスク369は、重なり領域における画素に対して、当該重なり領域において重なっているオブジェクト毎に、少なくとも当該オブジェクトのカテゴリーを示すアノテーションラベルを個別のチャンネルに格納するマルチチャンネルアモダルマスクである。
次に、アモダルセグメンテーション部210のアモダルセグメンテーションネットワーク363によって生成される第1のアモダルマスクのセットは、重なりセグメンテーション部215に転送され、マスク集約部365に入力される。このマスク集約部365は、複数の第1のアモダルマスク364を互いに結合し、それぞれの第1のアモダルマスク364が重なった集約マスクを生成する機能部である。このマスク集約部の処理の詳細については後述する。
次に、マスク集約部365によって生成される集約マスクは、重なりセグメンテーションネットワーク366に入力される。この重なりセグメンテーションネットワーク366は、マスク集約部365によって生成される集約マスク(図示せず)と、特徴抽出部362によって生成された入力画像361に対する特徴マップとに基づいて、入力画像310において複数のオブジェクトが重なっている重なり領域のみを示す重なりマスク367を生成する。この重なりマスク367は、入力画像310において複数のオブジェクトが重なっている重なり領域のみを示すため、第1のアモダルマスク364を修正するための制限条件として用いられる。
なお、この重なりセグメンテーションネットワーク366の詳細については後述する。
次に、重なりセグメンテーション部215の重なりセグメンテーションネットワーク366に生成された重なりマスク367は、アモダルマスク修正部220に転送され、マスク修正部368に入力される。このマスク修正部368は、入力画像310において複数のオブジェクトが重なっている重なり領域のみを示す重なりマスク367を用いて入力画像361において重なっているそれぞれのオブジェクトの完全な形状・輪郭を示す第1のアモダルマスク364を修正することで、入力画像361において重なっているそれぞれのオブジェクトの完全な形状・輪郭を、第1のアモダルマスク364より高精度で示す第2のアモダルマスクを生成することができる。
以上説明した構成を用いることにより、多くのオブジェクトが重なっている複雑な画像の場合でも、オブジェクト毎に、当該オブジェクトのカテゴリー及び完全な形状を高精度で示すマルチチャンネルアノテーションラベルを含むアモダルマスクを生成するアモダルセグメンテーション手段を提供することが可能となる。
次に、図4を参照して、本発明の実施形態に係る集約マスクを生成する処理について説明する。
図4は、本発明の実施形態に係る集約マスクを生成する処理400の一例を示す図である。上述したように、本発明に係るアモダルセグメンテーション部は、入力画像から抽出された特徴マップに基づいて、他のオブジェクトに隠されている領域も含めて、入力画像361において重なっているそれぞれのオブジェクトの完全な形状・輪郭を示す第1のアモダルマスクのセットを生成する。例えば、入力画像361において2つのオブジェクトが重なっている場合には、それぞれのオブジェクトの全体の形状・輪郭を示す2つの第1のアモダルマスク401a、401bを含むセットが生成されてもよい。
これらの第1のアモダルマスク401a、401bは、それぞれの画素が特定のオブジェクトに属する確率値を表現するものである。より具体的には、2つのオブジェクトA及びBが部分的に重なっている場合、オブジェクトAについて生成されたアモダルマスクには、オブジェクトAとオブジェクトBが重なっていない領域の画素は、オブジェクトAに属している確率が高い。同様に、オブジェクトBについて生成されたアモダルマスクには、オブジェクトAとオブジェクトBが重なっていない領域の画素は、オブジェクトBに属している確率が高い。しかし、両方のアモダルマスクにおいて、オブジェクトAとオブジェクトBが重なっている領域の画素については、どのオブジェクトに属しているかとの判定が難しいため、オブジェクトAにも、オブジェクトBにも属している確率が高い。
上述したように、本発明に係るマスク集約部は、第1のアモダルマスク401a、401bを互いに結合し、画素毎の確率を加算することで、それぞれの第1のアモダルマスク401a、401bを組み合わせた、重なり領域における画素の確率値が高い(すなわち、所定の確率値以上)集約マスク410を生成することができる。
これにより、それぞれのオブジェクトが重なっている重なり領域の境界(座標等)を高精度で識別することができ、後述する重なりマスクをより容易に生成することができる。
次に、図5を参照して、本発明の実施形態に係る重なりマスクを生成するためのニューラルネットワークの構成について説明する。
図5は、本発明の実施形態に係る重なりマスクを生成するためのニューラルネットワークの構成の一例を示す図である。上述したように、本発明に係る画像処理装置は、マスク集約部によって生成される集約マスク410と、特徴抽出部によって生成される特徴マップに基づいて、入力画像において複数のオブジェクトが重なっている重なり領域のみを示す重なりマスク367を生成する重なりセグメンテーションネットワーク366を含む。
より具体的には、この重なりセグメンテーションネットワーク366は、重なりマスク367を生成するために構成されたエンコーダデコーダーモデル550を含んでもよい。このエンコーダデコーダーモデル550は、特徴マップを精緻化し、より多くのローカル又はグローバルなセマンティック情報を抽出する畳み込みレイヤーと、特徴マップを所望のサイズに調整する逆畳み込みレイヤーを含んでもよい。
また、図5に示すように、集約マスク410は、エンコーダデコーダーモデル550の入力レイヤーのみならず、それ以降の下流のレイヤーにも入力される。このように、複数のオブジェクトが重なっている領域において高い確率値を有する集約マスクを下流のレイヤーにも入力することで、それぞれのレイヤーにおいて行われる重なり領域の予測の精度が向上し、重なり領域のみを示す重なりマスク367を高精度で生成することができる。
次に、図6を参照して、本発明の実施形態に係る画像処理装置におけるアモダルセグメンテーション部及び重なりセグメンテーション部を訓練する処理の流れについて説明する。
図6は、本発明の実施形態に係る画像処理装置201におけるアモダルセグメンテーション部及び重なりセグメンテーション部を訓練する処理600の流れを示す図である。図6に示す画像処理装置201は、図3を参照して説明した画像処理装置201と実質的に同様であるため、繰り返しとなる説明を省略し、訓練処理600に係る要素を中心に説明する。
上述したように、本発明に係る画像処理装置201におけるニューラルネットワークは、
本発明に係るマルチチャンネルグラウンドトゥルースによって訓練されたものである。ここでのマルチチャンネルグラウンドトゥルースとは、所定のトレーニング用画像604におけるオブジェクト毎に、他のオブジェクトに隠されている領域も含めて、当該オブジェクトのカテゴリー及び完全な形状・輪郭を指定するアノテーションラベルを含む情報である。言い換えれば、このグラウンドトゥルースは、所定のトレーニング用画像604に対する所望のセグメンテーション結果を表すものである。
このマルチチャンネルグラウンドトゥルースを用いて画像処理装置201を訓練することで、複数のオブジェクトが重なっている場合でも、それぞれのオブジェクトのカテゴリー及び完全な形状・輪郭を示すアモダルマスクを生成するネットワークを訓練することができる。
まず、所定のトレーニング用画像604に対するマルチチャンネルグラウンドトゥルース610が作成される。このマルチチャンネルグラウンドトゥルース610の作成は、例えば後述するユーザインターフェースを用いてユーザ(アノテータ)によって行われてもよい。
次に、損失計算615が計算される。この損失計算とは、現在のネットワーク(つまり、アモダルセグメンテーション部210及び重なりセグメンテーション部215)の結果と、所望の結果を表すマルチチャンネルグラウンドトゥルース610との差を定量的に表現するための計算である。ここでの損失計算615は、重なりセグメンテーション部215から出力される重なりマスク367と、アモダルセグメンテーション部210から出力される第1のアモダルマスクと、ユーザから入力されるマルチチャンネルグラウンドトゥルース610とを所定の損失関数で処理することにより計算されてもよい。
次に、損失計算615の出力に基づいて、パラメータ更新620が行われる。このパラメータ更新とは、損失計算615のフィードバックに基づいて、マルチチャンネルグラウンドトゥルースに示されるセグメンテーション結果により近い結果を出力できるように、特徴抽出部362、アモダルセグメンテーション部210、及び重なりセグメンテーション部215のレイヤーのパラメータを更新することを意味する。このパラメータ更新は、例えば勾配降下法(gradient descent)等、任意の手段によって行われてもよい。
なお、ここでのパラメータ更新620は、いわゆるEnd-to-End式で行われる。つまり、特徴抽出部362、アモダルセグメンテーション部210、及び重なりセグメンテーション部215のパラメータが同時に更新される。
このように画像処理装置201をマルチチャンネルグラウンドトゥルースを用いて画像処理装置201を訓練することにより、複数のオブジェクトが画像において重なっている重なり領域の特徴をそれぞれのニューラルネットワークに学習させることができ、より高精度のアモダルマスクを生成させることができる。
次に、図7を参照して、本発明の実施形態に係る画像処理装置の訓練に用いられるマルチチャンネルグラウンドトゥルースを生成する処理の流れについて説明する。
図7は、本発明の実施形態に係る画像処理装置の訓練に用いられるマルチチャンネルグラウンドトゥルースを生成する処理700の流れを示す図である。このマルチチャンネルグラウンドトゥルースを生成する処理700は、例えば後述するユーザインターフェースを用いてユーザ(アノテータ)によって行われてもよい。
まず、ステップS701では、人間のユーザ(アノテータ)のアノテーション対象となる画像(例えば、X線画像等)が入力された後、ユーザは、後述するユーザインタフェース上で、オブジェクト毎に、当該オブジェクトのカテゴリーを指定する情報(ラベル)を入力する。ここで、ユーザは、例えば、特定のオブジェクトに属する画素をマウス等で選択した後、選択したオブジェクトのカテゴリーを所定の予め用意されている選択肢から選んでもよく、新たなカテゴリーを指定してもよい。例えば、ユーザはあるオブジェクトを「携帯電話」として指定し、他のオブジェクトを「小説」として指定してもよい。また、ここでは、ユーザはオブジェクトのカテゴリーに加えて、オブジェクトの他の特徴(例えば、材質等)を指定する情報も入力してもよい。
なお、それぞれのオブジェクトに付与されたカテゴリーを示すラベルは、入力画像に対する異なるチャンネル(レイヤー)として保存される。これにより、1つの画像に対して、オブジェクトの数だけのチャンネルが生成され、それぞれのチャンネルには、異なるオブジェクトに対して付与されたアノテーションラベルが保存される。
次に、ステップS702では、ユーザは、画像におけるオブジェクト毎に、当該オブジェクトの領域の境界の座標を入力する。ここでの境界座標とは、特定のオブジェクトの輪郭を規定する画素座標(pixel coordinate)である。この境界座標を入力するためには、ユーザは、例えば、オブジェクトの輪郭をなぞる複数の画素を連続的に選択してもよく、マウスや指等でオブジェクトの輪郭をなぞる線を書いて、始点と終点をつなげることでオブジェクトの輪郭を規定する閉鎖空間を入力してもよい。また、1つのオブジェクトに対して、複数の閉鎖空間を規定することも可能である(例えば、環状のオブジェクトの場合)。
ここで入力される境界座標も、ステップS701で入力されたカテゴリーを指定する情報と共に、それぞれのオブジェクトに該当するチャンネルにおいてアノテーションラベルとして保存される。
なお、オブジェクトの一部が他のオブジェクトによって隠されている場合には、ユーザは、隠されている部分も含めて、オブジェクトの輪郭を予測して境界座標を入力することが望ましい。また、ここでは、ユーザは後述するアノテーションルールに従ってアノテーションを行うことが望ましい。
次に、ステップS703では、入力画像における全てのオブジェクトに対するアノテーションが終了した後、ステップS701で入力されたカテゴリーを指定する情報と、ステップS702で入力されたオブジェクトの領域の境界の座標をアノテーションラベルとして、テキスト形式で保存する。例えば、ここでのアノテーションラベルは、xml、txt、pkl、又はhkl等の形式で保存されてもよい。
なお、ここでは、上述したカテゴリー情報、境界座標情報、及びその他の情報(材質等)を1つのファイルに保存し、画素単位アノテーション情報(pixel wise annotation information)を別のファイルに保存してもよい。
次に、ステップS704、ユーザは、希望のアノテーションラベルの種類(マルチチャンネルかシングルチャンネル)を選択する。マルチチャンネルのアノテーションラベルが選択された場合には、オブジェクト毎に生成され、当該オブジェクトのカテゴリー及び座標を指定する画素単位のアノテーションラベルを含むチャンネルが3次元のマトリックスとして保存される。これにより、複数のオブジェクトが重なっている領域における画素に対して、オブジェクトの数だけのアノテーションラベルを含むマルチチャンネルグラウンドトゥルースが生成される。
また、ステップS704でシングルチャンネルグラウンドトゥルースが選択された場合には、オブジェクト毎に生成されたチャンネルが、1つの画素に対して1つのアノテーションラベルを含む単一のチャンネルに結合される。ここで、1つの画素に対して複数のアノテーションラベルが存在する場合、どのアノテーションラベルを残し、どのアノテーションラベルを削除するかの判定は、例えば後述するアノテーションルールや、所定の基準に基づいて行われてもよい。
次に、ステップS707では、次の入力画像が入力され、本処理はステップS701に戻る。
以上説明したマルチチャンネルグラウンドトゥルースを生成する処理700を行うことにより、本発明に係る画像処理装置を訓練するためのマルチチャンネルグラウンドトゥルースを簡単な入力で作成することが可能となる。
次に、図8を参照して、本発明の実施形態に係る画像処理装置の訓練に用いられるマルチチャンネルグラウンドトゥルースを生成するためのユーザインターフェースについて説明する。
図8は、本発明の実施形態に係る画像処理装置の訓練に用いられるマルチチャンネルグラウンドトゥルースを生成するためのユーザインターフェース800の一例を示す図である。上述したように、本発明に係るマルチチャンネルグラウンドトゥルースは、図8に示すユーザインターフェース800を用いてアノテータ(人間のユーザ)によって入力される。図8に示すように、ユーザインターフェース800は、ラベルウインドウ801、編集ウインドウ802、ラベルチャンネルウインドウ803、オブジェクト情報ウインドウ804、及びカテゴリー情報ウインドウ805を含む。
ラベルウインドウ801では、アノテーションの対象となる画像のアノテーションラベル付きのマスクが表示される。ラベルウインドウ801では、重なっているオブジェクトの全体の輪郭を見やすくするため、それぞれのオブジェクトが半透明で異なる色で示される。
編集ウインドウ802では、アノテータは表示されているアノテーションの対象となる画像に対して、それぞれのオブジェクトの領域の境界を規定する座標を入力する。この境界座標を入力するためには、アノテータは、例えば、オブジェクトの輪郭をなぞる複数の画素を連続的に選択してもよく、マウスや指等でオブジェクトの輪郭をなぞる線を書いて、始点と終点をつなげることでオブジェクトの輪郭を規定する閉鎖空間を入力してもよい。
ラベルチャンネルウインドウ803では、ユーザは、アノテーションの対象となる画像に対して生成される複数(オブジェクトの数だけ)のチャンネルの内、特定のチャンネルを1つ選択することができる。上述したように、それぞれのチャンネルには、1つのオブジェクトと、当該オブジェクトに付与されているアノテーションラベルが含まれる。特定のチャンネルを選択した後、ユーザは、当該チャンネルのオブジェクトに付与されているアノテーションラベルを編集することができる。また、アノテーションラベルが付与されていないオブジェクトに対してアノテーションラベルが付与されると、当該オブジェクトのための新たなチャンネルが自動的に生成される。これにより、ユーザはマルチチャンネルグラウンドトゥルースを構成する複数のチャンネルのラベルを容易に編集し、管理することができる。
オブジェクト情報ウインドウ804では、編集ウインドウ802で編集中のオブジェクトに関する情報が表示される。例えば、図8に示すように、オブジェクト情報ウインドウ804では、編集中のオブジェクトのオブジェクト番号、カテゴリー、材質、及び選択中の画素の座標が表示される。オブジェクト番号及び座標は、アノテータの編集操作に合わせて自動的に更新される。カテゴリーの情報や材質の情報は、例えば上述した特徴抽出部によって抽出された特徴に基づいたものであってもよく、アノテータに入力されたものであってもよい。
カテゴリー情報ウインドウ805では、編集中の画像におけるオブジェクトのカテゴリーのリストが表示されている。アノテータは、カテゴリーラベルリストに列挙されているカテゴリーを選択した後、編集ウインドウ802において特定のオブジェクトを選択することで、当該オブジェクトを選択したカテゴリーとして指定することができる。また、このカテゴリー情報ウインドウ805では、ユーザは自由に新たなカテゴリーを追加したり、リスト中の特定のカテゴリーを削除したりすることができる。
更に、アノテータはカテゴリー情報ウインドウ805に表示されているボタンを押すことで、ラベルを保存したり、ラベルを追加したり、ファイルを保存したり、ファイルをロードしたり、ファイルのディレクトリを開いたり、次に画像に進んだりすることができる。
上述したユーザインターフェース800を用いることで、本発明に係るマルチチャンネルグラウンドトゥルースを簡単な操作で作成することができ、画像処理装置の訓練を促進することができる。
次に、図9を参照して、本発明の実施形態に係るマルチチャンネルグラウンドトゥルースを生成する際にユーザの参考情報となるアノテーションルールについて説明する。
図9は、本発明の実施形態に係るマルチチャンネルグラウンドトゥルースを生成する際にユーザの参考情報となるアノテーションルールテーブル900の一例を示す図である。
上述したように、アノテータがユーザインターフェース(例えば、図8に示すユーザインターフェース800)を用いてオブジェクトにアノテーションラベルを付与する際に、オブジェクトの透明性及び重なり状態等によって、オブジェクトの境界線の判定や、(シングルチャンネルグラウンドトゥルースを生成する場合)チャンネルの順番の判定が難しいことがある。従って、本発明では、有意義なアノテーションラベルの作成を容易にするため、アノテーションルールテーブル900をアノテータの参考情報として提供する。このアノテーションルールテーブル900に従ってアノテーションラベルを付与することにより、より良質なマルチチャンネルグラウンドトゥルースを作成することができる。
なお、以下では、X線の画像を一例として説明するが、本発明はX線画像に限定されない。
図9に示すように、アノテーションルールテーブル900は、重なり状態905、アノテーションルール910、チャンネル順番915、及び例920の情報を含む。
重なり状態905は、重なり無、透明重なり、半透明重なりの3つのケースを含む。ここでは、重なり無とは、画像におけるオブジェクトが重なっていない状態を意味する。透明重なりとは、画像におけるオブジェクトが重なっており、かつ重なっているオブジェクトが透明な状態(それぞれのオブジェクトの輪郭を識別することができる)を意味する。半透明重なりとは、画像におけるオブジェクトが重なっており、かつ重なっているオブジェクトが半透明な状態(それぞれのオブジェクトの輪郭を識別することができない)を意味する。
アノテーションルールテーブル900では、それぞれの重なり状態905毎に、当該重なりにおけるアノテーションルール910、おすすめのチャンネル順番、及び当該重なり状態の画像の一例を示す。
例えば、重なり無及び透明重なりの場合には、それぞれのオブジェクトの輪郭(境界)が判別しやすいため、アノテータはこの輪郭に沿ってアノテーションラベルを付与する。しかし、重なっているオブジェクトの材質等によってオブジェクトが半透明な場合には、オブジェクトの輪郭が識別しにくいことがある。そのため、この場合には、アノテータは、オブジェクトの色及びカテゴリー(携帯電話、ペットボトル等)に基づいて輪郭を予測し、この予測した輪郭に沿ってアノテーションを付与する。
上述したように、本発明に係るマルチチャンネルグラウンドトゥルース生成する場合、それぞれのチャンネルが互いに並行で独立したものであり、1つの画素に対して複数のアノテーションラベルを付与することが可能であるため、チャンネルの順番(つまり、重なっているオブジェクトの内、どのオブジェクトを上方とし、どのオブジェクトを下方とするか)を考慮する必要はない。ただし、シングルチャンネルグラウンドトゥルースを生成する際には、1つの画素(原則として、最も上方のオブジェクトの画素)に対して1つのアノテーションラベルしか付与することができないため、その場合には、チャンネルの順番を考慮する必要がある。
重なり無の場合には、重なっているオブジェクトがないため、チャンネルの順番を考慮する必要はない。一方、透明重なり又は半透明重なりの場合には、密度がより高いオブジェクトを上方のチャンネルとし、密度がより低いものを下方のチャンネルとすることが望ましい。これは、オブジェクトの密度が高ければ高いほど、輪郭が明確で識別しやすい傾向があり、より良質なグラウンドトゥルースに繋がるからである。
例えば、一例として、金属等の密度が高いオブジェクト(一般的にX線画像で青・黒等の色で示される)を最も上方のチャンネルとし、無機・軽金属のオブジェクト(一般的にX線画像で緑等の色で示される)をその下方のチャンネルとし、有機のオブジェクト(一般的にX線画像で黄色等の色で示される)を最も下方のオブジェクトとすることが望ましい。
このように、アノテータは以上説明したアノテーションルールに従ってアノテーションラベルを付与することにより、本発明に係る画像処理装置を訓練するための良質なマルチチャンネルグラウンドトゥルースを生成することができる。
なお、以上では、本発明に係るアノテーションルールテーブル900の一例を説明したが、本発明はアノテーションルールテーブル900に示されるルールに限定されず、アノテータは画像処理装置の応用形態に応じて、アノテーションラベルを適宜に行ってもよい。
次に、図10を参照して本発明の実施形態に係る画像処理手段をX線荷物検査に適用した場合の一例について説明する。
図10は、本発明の実施形態に係る画像処理手段をX線荷物検査に適用した場合のX線荷物検査インターフェース1000の一例を示す図である。このX線荷物検査インターフェース1000は、例えば、空港等で設置される荷物検査用のX線装置と連携して、本発明の画像処理装置によって処理された荷物のX線画像のセグメンテーション結果を表示するために用いられてもよい。
図9に示すように、本発明に係るX線荷物検査インターフェース1000は、荷物確認ウインドウ1010と、検出オブジェクトウインドウ1020と、検出オブジェクト情報ウインドウ1030とを含む。
荷物確認ウインドウ1010では、X線装置によって撮影された荷物のX線画像が表示される。また、この荷物確認ウインドウ1010では、特定のオブジェクト(例えば、持ち込み禁止のオブジェクトカテゴリーに該当する可能性が高いオブジェクト)は、検査員に見やすくするために、色付きの枠で強調表示されてもよい。
検出オブジェクトウインドウ1020では、X線装置によって撮影された荷物のX線画像におけるそれぞれのオブジェクトの画像が別々に表示される。また、ここでのオブジェクト画像は、検査員に見やすくするために拡大表示されてもよい。
検出オブジェクト情報ウインドウ1030では、検出オブジェクトウインドウ1020で表示されているオブジェクトの詳細情報が表示される。例えば、図9に示すように、検出されたオブジェクトカテゴリー(携帯電話、ペットボトル)が表示されてもよい。また、ここで表示されるオブジェクトの画像は、例えば、本発明の画像処理装置によって生成された、オブジェクトの全体の形状・輪郭を示すアモダルマスクであってもよい。更に、検出されたオブジェクトのカテゴリーが持ち込み禁止として予め設定されたオブジェクトカテゴリーに該当する場合(例えば、所定の類似度基準を満たす場合)には、危険な物体が荷物に含まれていることを検査員に通知するための警告も表示されてもよい。
このように、空港等で設置される荷物検査用のX線装置と連携して、本発明の画像処理装置によって処理された荷物のX線画像のセグメンテーション結果をX線荷物検査インターフェース1000に表示することにより、持ち込み禁止のオブジェクトを検出する精度を向上させることができ、空港・飛行機の安全性を向上させることができる。
次に、図11を参照して、本発明の実施形態に係るパノプティックマスクを生成するためのパノプティックセグメンテーションシステムについて説明する。
図11は、本発明の実施形態に係るパノプティックマスクを生成するためのパノプティックセグメンテーションシステム1100の一例を示す図である。
以上では、本発明の実施形態に係る画像処理装置を用いてX線画像を処理する場合を一例として説明したが、本発明はこれに限定されず、X線画像以外の画像にも適用可能である。例えば、本発明に係る画像処理装置は、車、建物、動物、人間等の不透明なオブジェクトが重なっている画像の場合にも、それぞれのオブジェクトの全体の形状・輪郭を示すアモダルマスクを生成することができる。
なお、斯かる画像の場合には、人間、車、動物等の前景のオブジェクトに加えて、空、道路、建物等の背景のオブジェクトのアモダルマスクを生成する必要があり、そのためには、本発明の実施形態に係るパノプティックセグメンテーションシステム1100が用いられる。ここでのパノプティックセグメンテーションシステム1100とは、いわゆるインスタンスセグメンテーション(instance segmentation;インスタンス分割)及びセマンティックセグメンテーション(semantic segmentation;意味的分割)を組みわせることにより、特定の画像における各画素に対して、当該画素のカテゴリーを示すアノテーションラベルと、インスタンスID(当該画素がどのオブジェクトに属するかを示す数値)とを付与する手段である。
図11に示すように、本発明に係るパノプティックセグメンテーションシステム1100は、特徴抽出部1102と、アモダルセグメンテーション部1103と、アモダルパノプティックセグメンテーション部1150を主に含む。特徴抽出部1102は、所定の入力画像1101に対する特徴マップを生成する機能部である。また、アモダルセグメンテーション部1103は、特徴抽出部1102により生成された特徴マップに基づいて、入力画像1101におけるそれぞれのオブジェクトの全体の形状・輪郭を示すアモダルマスクを生成する機能部である。この特徴抽出部1102及びアモダルセグメンテーション部1103は、図3を参照して説明した特徴抽出部362及びアモダルセグメンテーション部210と実質的に同様であるため、ここでその説明を省略する。
また、図11に示すように、アモダルパノプティックセグメンテーション部1150は、セマンティックアモダルセグメンテーションネットワーク(semantic amodal segmentation network;意味的アモダル分割ネットワーク)1106と、パノプティックマスク生成部1108とを含む。
セマンティックアモダルセグメンテーションネットワーク1106は、例えばFCN(Fully Convolutional Network)等の既存のセマンティックセグメンテーションネットワーク(semantic segmentation network;意味的分割ネットワーク)から構成されたものであり、上述したマルチチャンネルグラウンドトゥルースによって訓練された後、特徴抽出部1102により生成された特徴マップに基づいて、入力画像における前景オブジェクト及び前景オブジェクトがラベル化されたセマンティックアモダルマスク1107(semantic amodal mask;意味的アモダルマスク)を生成する。
このセマンティックアモダルマスク1107は、入力画像1101と同様の高さ及び幅を有しており、当該入力画像1101における前景オブジェクトと背景オブジェクトの和に等しい数のチャンネルを有する。それぞれのチャンネルは、1つのオブジェクトカテゴリーのマスクを含む。
パノプティックマスク生成部1108は、アモダルセグメンテーション部1103により生成されるアモダルマスク1104と、セマンティックアモダルセグメンテーションネットワーク1106により生成されたセマンティックアモダルマスク1107を組み合わせることでアモダルパノプティックマスク1109を生成する。より具体的には、パノプティックマスク生成部1108は、前景オブジェクトのインスタンス(オブジェクトの全体の形状・輪郭を示すマスク)をアモダルマスク1104から抜粋し、背景オブジェクトのインスタンスをセマンティックアモダルマスク1107から抜粋し、抜粋した前景オブジェクトのインスタンス及び背景オブジェクトのインスタンスを組み合わせることでアモダルパノプティックマスク1109を生成する。
このアモダルパノプティックマスク1109では、入力画像1101における各画素には、当該画素に写るオブジェクトのカテゴリーを示すアノテーションラベルと、一意なインスタンスID(当該画素がどのオブジェクトインスタンスに属するかを示す数値)とが付されている。また、このアモダルパノプティックマスク1109は、入力画像1101と同様の高さ及び幅を有しており、アモダルマスク1104から抜粋した前景オブジェクトのインスタンスと、セマンティックアモダルマスク1107から抜粋した背景オブジェクトのインスタンスとの和に等しい数のチャンネルを有する。
このように、本発明に係るアモダルセグメンテーション手段をセマンティックアモダルセグメンテーションに組み合わせたパノプティックセグメンテーションシステム1100を用いることにより、任意の画像に対して、当該画像におけるオブジェクトの完全な形状・輪郭を示すセグメンテーション結果を得ることができる。
以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
200 画像処理システム
201 画像処理装置
202 通信ネットワーク
203 プロセッサ
204 I/Oインターフェース
205 ネットワークインターフェース
206 ユーザI/Oインターフェース
207 メモリ
210 アモダルセグメンテーション部
211 X線装置
212 バス
215 重なりセグメンテーション部
220 アモダルマスク修正部
225 ストレージ部

Claims (10)

  1. 画像処理装置であって、
    複数のオブジェクトが少なくとも部分的に重なっている入力画像に対して、前記オブジェクト毎に、特定の画素が当該オブジェクトに属する確率を示す第1のアモダルマスクのセットを生成するアモダルセグメンテーション部と、
    前記オブジェクト毎に生成した第1のアモダルマスクのセットを結合した集約マスクと、前記入力画像に基づいて生成された特徴マップとに基づいて、前記複数のオブジェクトが前記入力画像において重なっている重なり領域のみに該当する重なりマスクを生成する重なりセグメンテーション部と、
    前記重なりマスクと、前記集約マスクとを用いて、前記入力画像における各画素に対して、少なくとも当該画素に該当する各オブジェクトのカテゴリーを示すアノテーションラベルを含む第2のアモダルマスクを生成し、出力するアモダルマスク修正部と、
    を含む画像処理装置。
  2. 前記第2のアモダルマスクは、
    前記重なり領域における画素に対して、前記重なり領域において重なっているオブジェクト毎に、少なくとも当該オブジェクトのカテゴリーを示すアノテーションラベルを個別のチャンネルに格納するマルチチャンネルアモダルマスクであることを特徴とする、請求項1に記載の画像処理装置。
  3. 前記画像処理装置は、
    グラウンドトゥルース作成部を更に含み、
    前記グラウンドトゥルース作成部は、
    複数のオブジェクトが少なくとも部分的に重なっているトレーニング用画像に対して、それぞれのオブジェクトのカテゴリー及び境界座標を指定するアノテーションラベルの入力をユーザから受信し、
    前記アノテーションラベルに基づいて、前記トレーニング用画像の画素毎に、当該画素がどのオブジェクトに属するかを示すグラウンドトゥルースを生成する、
    ことを特徴とする、請求項1に記載の画像処理装置。
  4. 前記アモダルセグメンテーション部は、
    畳み込みニューラルネットワークを含み、
    前記畳み込みニューラルネットワークは、前記トレーニング用画像と、前記トレーニング用画像について生成されたグラウンドトゥルースを用いて訓練される、
    ことを特徴とする、請求項3に記載の画像処理装置。
  5. 前記重なりセグメンテーション部は、
    エンコーダー・デコーダーモデルを含み、
    前記エンコーダー・デコーダーモデルは、
    前記特徴マップを精緻化し、セマンティック情報を抽出する畳み込みレイヤーのセットと、
    前記特徴マップを所望のサイズに調整する逆畳み込みレイヤーのセットとを含む、
    ことを特徴とする、請求項1に記載の画像処理装置。
  6. 前記集約マスクが前記エンコーダー・デコーダーモデルの入力レイヤーに加えて、それ以降の下流のレイヤーにも入力される、
    ことを特徴とする、請求項5に記載の画像処理装置。
  7. 前記入力画像に基づいて生成された特徴マップに基づいて、前記入力画像における各画素に対して、当該画素に該当するオブジェクトのカテゴリーを示すセマンティックアモダルマスクを生成するセマンティックアモダルセグメンテーション部と、
    前記セマンティックアモダルマスクから背景オブジェクトのインスタンスを抜粋し、前記第2のアモダルマスクから前景オブジェクトのインスタンスを抜粋し、前記背景オブジェクトのインスタンスと、前記前景オブジェクトのインスタンスとを結合することで、オブジェクト毎に、当該オブジェクトのカテゴリーを示すアノテーションラベルと、一意なインスタンスIDとを個別のチャンネルに格納するアモダルパノプティックマスクを生成するパノプティックマスク生成部と、
    を更に含むことを特徴とする、請求項1に記載の画像処理装置。
  8. 前記入力画像は、
    半透明なオブジェクトが複数重なっているX線画像であることを特徴とする、請求項1に記載の画像処理装置。
  9. 画像処理方法であって、
    複数のオブジェクトが少なくとも部分的に重なっている入力画像に対して、前記オブジェクト毎に、特定の画素が当該オブジェクトに属する確率を示す第1のアモダルマスクのセットを生成する工程と、
    前記オブジェクト毎に生成した第1のアモダルマスクのセットを結合した集約マスクと、前記入力画像に基づいて生成された特徴マップとに基づいて、前記複数のオブジェクトが前記入力画像において重なっている重なり領域のみに該当する重なりマスクを生成する工程と、
    前記重なりマスクと、前記集約マスクとを用いて、前記入力画像における各画素に対して、少なくとも当該画素に該当する各オブジェクトのカテゴリーを示すアノテーションラベルを含む第2のアモダルマスクを生成し、出力する工程と、
    を含む画像処理方法。
  10. 画像処理システムであって、
    前記画像処理システムにおいて、
    X線画像を取得するX線装置と、
    入力画像におけるそれぞれのオブジェクトの全体の輪郭を示すアモダルマスクを生成する画像処理装置とが通信ネットワークを介して接続されており、
    前記画像処理装置は、
    前記通信ネットワークを介して、前記X線装置から、複数のオブジェクトが少なくとも部分的に重なっている入力画像を受信し、前記入力画像に対して、前記オブジェクト毎に、特定の画素が当該オブジェクトに属する確率を示す第1のアモダルマスクのセットを生成するアモダルセグメンテーション部と、
    前記オブジェクト毎に生成した第1のアモダルマスクのセットを結合した集約マスクと、前記入力画像に基づいて生成された特徴マップとに基づいて、前記複数のオブジェクトが前記入力画像において重なっている重なり領域のみに該当する重なりマスクを生成する重なりセグメンテーション部と、
    前記重なりマスクと、前記集約マスクとを用いて、前記入力画像における各画素に対して、少なくとも当該画素に該当する各オブジェクトのカテゴリーを示すアノテーションラベルを含む第2のアモダルマスクを生成し、出力するアモダルマスク修正部と、
    を含む画像処理システム。
JP2020018599A 2020-02-06 2020-02-06 画像処理装置、画像処理方法及び画像処理システム Active JP7237870B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020018599A JP7237870B2 (ja) 2020-02-06 2020-02-06 画像処理装置、画像処理方法及び画像処理システム
US17/071,452 US11587301B2 (en) 2020-02-06 2020-10-15 Image processing device, image processing method, and image processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020018599A JP7237870B2 (ja) 2020-02-06 2020-02-06 画像処理装置、画像処理方法及び画像処理システム

Publications (2)

Publication Number Publication Date
JP2021125007A JP2021125007A (ja) 2021-08-30
JP7237870B2 true JP7237870B2 (ja) 2023-03-13

Family

ID=77177221

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020018599A Active JP7237870B2 (ja) 2020-02-06 2020-02-06 画像処理装置、画像処理方法及び画像処理システム

Country Status (2)

Country Link
US (1) US11587301B2 (ja)
JP (1) JP7237870B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11379992B2 (en) * 2019-05-14 2022-07-05 Matterport, Inc. Patch expansion for segmentation network training
CN112528786B (zh) * 2020-11-30 2023-10-31 北京百度网讯科技有限公司 车辆跟踪方法、装置及电子设备
CN114663844A (zh) * 2020-12-22 2022-06-24 富泰华工业(深圳)有限公司 区分对象的方法、计算机装置及存储介质
US20230104262A1 (en) * 2021-10-06 2023-04-06 Adobe Inc. Panoptic segmentation refinement network
CN115984309B (zh) * 2021-12-10 2024-03-15 北京百度网讯科技有限公司 用于训练图像分割模型和图像分割的方法、装置
US20230252638A1 (en) * 2022-02-04 2023-08-10 Argo Ai,Llc Systems and methods for panoptic segmentation of images for autonomous driving
JP2023163420A (ja) * 2022-04-28 2023-11-10 株式会社スペースリー 三次元モデル生成装置及び三次元モデル生成プログラム
WO2024053846A1 (en) * 2022-09-07 2024-03-14 Samsung Electronics Co., Ltd. A method and device for personalised image segmentation and processing

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7382907B2 (en) * 2004-11-22 2008-06-03 Carestream Health, Inc. Segmenting occluded anatomical structures in medical images
US9918691B2 (en) * 2014-10-30 2018-03-20 Koninklijke Philips N.V. Device and method for determining image quality of a radiogram image
US11699235B2 (en) * 2019-11-20 2023-07-11 Baidu Usa Llc Way to generate tight 2D bounding boxes for autonomous driving labeling

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Patrick Follmann et al.,Learning to See the Invisible: End-to-End Trainable Amodal Instance Segmentation,[online],2019年,https://ieeexplore.ieee.org/document/8658806,pp.1328-1336

Also Published As

Publication number Publication date
US20210248408A1 (en) 2021-08-12
JP2021125007A (ja) 2021-08-30
US11587301B2 (en) 2023-02-21

Similar Documents

Publication Publication Date Title
JP7237870B2 (ja) 画像処理装置、画像処理方法及び画像処理システム
CN110785736B (zh) 自动代码生成
CN108073555B (zh) 用于从电子文档生成虚拟现实环境的方法和系统
US11176415B2 (en) Assisted image annotation
AU2017216604B2 (en) Concept canvas: spatial semantic image search
EP3183640B1 (en) Device and method of providing handwritten content in the same
CN104471564B (zh) 在将数据变换成可消费内容时创建变型
US9875220B2 (en) Panoptic visualization document printing
Zhang et al. Weakly supervised emotion intensity prediction for recognition of emotions in images
US11586918B2 (en) Methods and systems for automatically detecting design elements in a two-dimensional design document
US20130188875A1 (en) Vector Graphics Classification Engine
US11914951B2 (en) Semantically-guided template generation from image content
JP2003295993A (ja) グラフィック入力及び表示システム、このシステムにおいてユーザインタフェースを利用する方法、並びに、コンピュータが使用可能な媒体から成る製品
Manandhar et al. Learning structural similarity of user interface layouts using graph networks
EP2711897B1 (en) Panoptic visualization document differencing
KR102017894B1 (ko) 판옵틱 가시화 도큐먼트 레이아웃
US10970320B2 (en) Systems and methods for coordinate-based search
TW201523421A (zh) 決定用於擷取的文章之圖像
GB2556378A (en) Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media
US20240212367A1 (en) Text identification in layered digital content
CN117875448A (zh) 数据标注方法、计算机设备及存储介质
JP2022129792A (ja) 領域変換装置、領域変換方法及び領域変換システム
CN117472251A (zh) 一种文档查看方法、装置、电子设备和存储介质
EP2879063A1 (en) Panoptic visualization document printing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230301

R150 Certificate of patent or registration of utility model

Ref document number: 7237870

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150