JP7237870B2

JP7237870B2 - 画像処理装置、画像処理方法及び画像処理システム

Info

Publication number: JP7237870B2
Application number: JP2020018599A
Authority: JP
Inventors: 紫薇 ▲とう▼; 全孔; 直人秋良; 智一村上
Original assignee: Hitachi Solutions Ltd
Current assignee: Hitachi Solutions Ltd
Priority date: 2020-02-06
Filing date: 2020-02-06
Publication date: 2023-03-13
Anticipated expiration: 2040-02-06
Also published as: US20210248408A1; JP2021125007A; US11587301B2

Description

本発明は、画像処理装置、画像処理方法、及び画像処理システムに関する。

近年、ＩＴ化の進展に伴い、社会に多数のセンサが配置され、極めて大量のデータが蓄積されている。そうした中、集積された画像データを活用する様々な方策が検討されている。特に、写真、動画、画像等の映像コンテンツが増える中、その映像におけるオブジェクトを自在に特定し、複数のオブジェクトが重なり合った画像についても、特定の画像をその背景又は他のオブジェクトから分割するニーズが高まっている。
画像分割（ｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ）の手段の一つとして、深層学習を用いた画像セグメンテーション用ニューラルネットワークが知られている。画像セグメンテーション用ニューラルネットワークを用いることにより、複数のオブジェクトが写っている画像の場合、それぞれのオブジェクトのカテゴリー及び領域を高精度に判定することが可能となり、これらの画像セグメンテーション用ニューラルネットワークが様々な分野に適用されている。

しかし、従来の画像セグメンテーション用ニューラルネットワークは主に、各画素には１つのオブジェクトまたは背景が写っていることを前提としており、Ｘ線装置等で撮影された、例えば２つ以上の半透明なオブジェクトが１画素に重なり合う複雑な画像の場合には、他のオブジェクトに隠されている領域も含めて、オブジェクトの完全な形状を判別すること（いわゆるアモダルセグメンテーション（ａｍｏｄａｌｓｅｇｍｅｎｔａｔｉｏｎ））が困難である。

このアモダルセグメンテーションの一例として、例えばＺｈｕ，Ｙａｎｅｔａｌ（非特許文献１）による研究がある。
非特許文献１には「可視画素を越えて情報を捕捉し、完全なシーン構造について複雑な推論を必要とする詳細な画像アノテーションを提案する。具体的には、本発明者らが各画像のアモダルセグメンテーションを作成し、可視ピクセルだけでなく、各領域の全範囲がマークされる。アノテータは画像内のすべての顕著な領域の輪郭を描き、名前を付け、部分的な奥行き順序を指定する。その結果、各領域の可視部分および遮蔽部分、図形・地面エッジ情報、意味ラベル、およびオブジェクト重複を含む豊富なシーン構造が得られる」技術が記載されている。

Ｚｈｕ，Ｙａｎｅｔａｌ． "ＳｅｍａｎｔｉｃＡｍｏｄａｌＳｅｇｍｅｎｔａｔｉｏｎ．" ＣＶＰＲ（２０１５）。

上記の非特許文献１には、人間のアノテータによって作成されたアノテーションラベルをトレーニング用データとして訓練されたニューラルネットワークは、オブジェクトの全体の輪郭を予測する。
しかし、非特許文献１では、２つのオブジェクトに重なりがある画像で、前面のオブジェクトのみが写っている画像に最適化された方式であり、Ｘ線画像等のような、例えば３つ以上のオブジェクトが重複して写る画像や（すなわち、「重度重複」（ｈｅａｖｙｏｃｃｌｕｓｉｏｎ））、オブジェクトの材質が色や透明性の度合いで表されている画像への適用については想定されていない。従って、非特許文献１に記載のアモダルセグメンテーション手段をこのような画像に適用しても、それぞれのオブジェクトのカテゴリー及び領域を判別する精度は限定的とならざるをえない。

そこで、本発明は、多くのオブジェクトが重なっている複雑な画像の場合でも、オブジェクト毎に、当該オブジェクトのカテゴリー及び完全な形状を高精度で示すマルチチャンネルアノテーションラベルを含むアモダルマスクを生成するアモダルセグメンテーション手段を提供することを目的とする。

上記の課題を解決するために、代表的な本発明の画像処理装置の一つは、複数のオブジェクトが少なくとも部分的に重なっている入力画像に対して、オブジェクト毎に、特定の画素が当該オブジェクトに属する確率を示す第１のアモダルマスクのセットを生成するアモダルセグメンテーション部と、オブジェクト毎に生成した第１のアモダルマスクのセットを結合した集約マスクと、入力画像に基づいて生成された特徴マップとをエンコーダー・デコーダーモデルによって処理することで、複数のオブジェクトが入力画像において重なっている重なり領域のみに該当する重なりマスクを生成する重なりセグメンテーション部と、重なりマスクと、集約マスクとを用いて、画素毎に、当該画素がどのオブジェクトに属するかを示すアノテーションラベルを含む第２のアモダルマスクを生成するアモダルマスク修正部とを含む。

本発明によれば、たとえ多くのオブジェクトが重なっている複雑な画像の場合であっても、オブジェクト毎に、当該オブジェクトのカテゴリー及び完全な形状を高精度で示すマルチチャンネルアノテーションラベルを含むアモダルマスクを生成するアモダルセグメンテーション手段を提供することができる。

図１は、本発明の実施形態を実施するためのコンピュータシステムを示す図である。図２は、本発明の実施形態に係る画像処理システムの構成の一例を示す図である。図３は、本発明の実施形態に係る画像処理装置によって実行されるアモダルマスク生成処理の流れを示す図である。図４は、本発明の実施形態に係る集約マスクを生成する処理の一例を示す図である。図５は、本発明の実施形態に係る重なりマスクを生成するためのニューラルネットワークの構成の一例を示す図である。図６は、本発明の実施形態に係る画像処理装置におけるアモダルセグメンテーション部及び重なりセグメンテーション部を訓練する処理の流れを示す図である。図７は、本発明の実施形態に係る画像処理装置の訓練に用いられるマルチチャンネルグラウンドトゥルースを生成する処理の流れを示す図である。図８は、本発明の実施形態に係る画像処理装置の訓練に用いられるマルチチャンネルグラウンドトゥルースを生成するためのユーザインターフェースの一例を示す図である。図９は、本発明の実施形態に係るマルチチャンネルグラウンドトゥルースを生成する際にユーザの参考情報となるアノテーションルールの一例を示す図である。図１０は、本発明の実施形態に係る画像処理手段をＸ線荷物検査に適用した場合の一例を示す図である。図１１は、本発明の実施形態に係るパノプティックマスクを生成するためのパノプティックセグメンテーションシステムの一例を示す図である。

以下、図面を参照して、従来例及び本発明の実施形態について説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
（ハードウエア構成）

まず、図１を参照して、本開示の実施形態を実施するためのコンピュータシステム３００について説明する。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム３００の主要コンポーネントは、１つ以上のプロセッサ３０２、メモリ３０４、端末インターフェース３１２、ストレージインタフェース３１４、Ｉ／Ｏ（入出力）デバイスインタフェース３１６、及びネットワークインターフェース３１８を含む。これらのコンポーネントは、メモリバス３０６、Ｉ／Ｏバス３０８、バスインターフェースユニット３０９、及びＩ／Ｏバスインターフェースユニット３１０を介して、相互的に接続されてもよい。

コンピュータシステム３００は、プロセッサ３０２と総称される１つ又は複数の汎用プログラマブル中央処理装置（ＣＰＵ）３０２Ａ及び３０２Ｂを含んでもよい。ある実施形態では、コンピュータシステム３００は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム３００は単一のＣＰＵシステムであってもよい。各プロセッサ３０２は、メモリ３０４に格納された命令を実行し、オンボードキャッシュを含んでもよい。

ある実施形態では、メモリ３０４は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体（揮発性又は不揮発性のいずれか）を含んでもよい。メモリ３０４は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ３０４は、画像処理アプリケーション３５０を格納していてもよい。ある実施形態では、画像処理アプリケーション３５０は、後述する機能をプロセッサ３０２上で実行する命令又は記述を含んでもよい。

ある実施形態では、画像処理アプリケーション３５０は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、画像処理アプリケーション３５０は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス（図示せず）が、バスインターフェースユニット３０９、プロセッサ３０２、またはコンピュータシステム３００の他のハードウェアと直接通信するように提供されてもよい。

コンピュータシステム３００は、プロセッサ３０２、メモリ３０４、表示システム３２４、及びＩ／Ｏバスインターフェースユニット３１０間の通信を行うバスインターフェースユニット３０９を含んでもよい。Ｉ／Ｏバスインターフェースユニット３１０は、様々なＩ／Ｏユニットとの間でデータを転送するためのＩ／Ｏバス３０８と連結していてもよい。Ｉ／Ｏバスインターフェースユニット３１０は、Ｉ／Ｏバス３０８を介して、Ｉ／Ｏプロセッサ（ＩＯＰ）又はＩ／Ｏアダプタ（ＩＯＡ）としても知られる複数のＩ／Ｏインタフェースユニット３１２，３１４，３１６、及び３１８と通信してもよい。

表示システム３２４は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置３２６に提供することができる。また、コンピュータシステム３００は、データを収集し、プロセッサ３０２に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。

例えば、コンピュータシステム３００は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサ、及び加速度データ、運動データ等を収集するモーションセンサ等を含んでもよい。これ以外のタイプのセンサも使用可能である。表示システム３２４は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置３２６に接続されてもよい。

Ｉ／Ｏインタフェースユニットは、様々なストレージ又はＩ／Ｏデバイスと通信する機能を備える。例えば、端末インタフェースユニット３１２は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザＩ／Ｏデバイス３２０の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザＩ／Ｏデバイス３２０及びコンピュータシステム３００に対して入力データや指示を入力し、コンピュータシステム３００からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザＩ／Ｏデバイス３２０を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されてもよい。

ストレージインタフェース３１４は、１つ又は複数のディスクドライブや直接アクセスストレージ装置３２２（通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい）の取り付けが可能である。ある実施形態では、ストレージ装置３２２は、任意の二次記憶装置として実装されてもよい。メモリ３０４の内容は、ストレージ装置３２２に記憶され、必要に応じてストレージ装置３２２から読み出されてもよい。Ｉ／Ｏデバイスインタフェース３１６は、プリンタ、ファックスマシン等の他のＩ／Ｏデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース３１８は、コンピュータシステム３００と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク３３０であってもよい。

ある実施形態では、コンピュータシステム３００は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム（クライアント）からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム３００は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。

次に、図２を参照して、本発明の実施形態に係る画像処理システムについて説明する。

図２は、本発明の実施形態に係る画像処理システム２００の構成の一例を示す図である。図２に示すように、本発明に係る画像処理システム２００は、主にＸ線装置２１１、通信ネットワーク２０２、及び画像処理装置２０１からなる。Ｘ線装置２１１及び画像処理装置２０１は、通信ネットワーク２０２を介して接続されている。
通信ネットワーク２０２は、例えばローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、衛星ネットワーク、ケーブルネットワーク、Ｗｉ―Ｆｉネットワーク、またはそれらの任意の組み合わせを含むものであってもよい。また、Ｘ線装置２１１と画像処理装置２０１の接続は、有線であってもよく、無線であってもよい。

Ｘ線装置２１１は、Ｘ線画像を撮影する装置である。Ｘ線装置２１１は、例えばＸ線を放射するＸ線発生器と、反射するＸ線を検出し、解析するＸ線検出器とからなる。本発明に係るＸ線装置２１１の種類は特に限定されず、荷物用のＸ線装置であってもよく、後方散乱Ｘ線検査装置であってもよく、医療用のＸ線装置であってもよい。Ｘ線装置２１１は、所定の被写体のＸ線画像を撮影し、通信ネットワーク２０２を介して画像処理装置２０１に送信するように構成されている。
なお、図２では、Ｘ線画像を処理する構成として、Ｘ線装置２１１を含む場合の構成を一例として示しているが、本発明はこれに限定されず、Ｘ線装置２１１は、例えば任意のカメラ、センサ、又は画像処理の対象となる入力画像を提供する他の装置であってもよい。

画像処理装置２０１は、本発明に係る画像処理手段を実行するためのコンピューティングデバイスである。画像処理装置２０１は、例えばデスクトップコンピューター、サーバーコンピューター、ラップトップコンピューター、タブレットコンピューター、ワークステーション、携帯端末、または他の種類のコンピューティングデバイスであってもよく、本発明では特に限定されない。

図２に示すように、画像処理装置２０１は、メモリ２０７に格納された命令を実行するためのプロセッサ２０３と、画像処理装置２０１の内部・外部デバイス間の通信を制御するためのＩ／インターフェース２０４と、通信ネットワーク２０２を介しての通信を制御するためのネットワークインターフェース２０５と、ユーザからの入力を受け付けるためのユーザＩ／Oインターフェース２０６と、本発明の実施形態に係る画像処理手段のそれぞれの機能を実行するための機能部を格納するメモリ２０７と、これらの構成要素の双方通信を制御するためのバス２１２とを含む。

図２に示すように、メモリ２０７は、例えば、複数のオブジェクトが少なくとも部分的に重なっている入力画像に対して、オブジェクト毎に、特定の画素が当該オブジェクトに属する確率を示す第１のアモダルマスクのセットを生成するアモダルセグメンテーション部２１０と、オブジェクト毎に生成した第１のアモダルマスクのセットを結合した集約マスクと、入力画像に基づいて生成された特徴マップとをエンコーダー・デコーダーモデルによって処理することで、複数のオブジェクトが入力画像において重なっている重なり領域のみに該当する重なりマスクを生成する重なりセグメンテーション部２１５と、重なりマスクと、集約マスクとを用いて、画素毎に、当該画素がどのオブジェクトに属するかを示すアノテーションラベルを含む第２のアモダルマスクを生成するアモダルマスク修正部２２０と、各種情報を保存するためのストレージ部２２５とを含む。
なお、画像処理装置２０１に含まれるそれぞれの機能部は、図１に示すコンピュータシステム３００における画像処理アプリケーション３５０を構成するソフトウエアモジュールであってもよく、独立した専用ハードウェアデバイスであってもよい。また、上記の機能部は、同一のコンピューティング環境に実施されてもよく、分散されたコンピューティング環境に実施されてもよい。例えば、第１のアモダルマスクのセットを生成するアモダルセグメンテーション部２１０をＸ線装置２１１や遠隔のサーバに実装し、それ以外の機能部を画像処理装置２０１に実装する構成も可能である。

以上説明した構成により、通信ネットワーク２０２を介してＸ線装置２１１等の外部装置から受け付けた入力画像を画像処理装置２０１により処理することで、オブジェクト毎に、当該オブジェクトのカテゴリー及び完全な形状を高精度で示すマルチチャンネルアノテーションラベルを含むアモダルマスクを生成することができる。

次に、図３を参照して、本発明の実施形態に係る画像処理装置によって実行されるアモダルマスク生成処理の流れについて説明する。

図３は、本発明の実施形態に係る画像処理装置２０１によって実行されるアモダルマスク生成処理３６０の流れを示す図である。

上述したように、従来のデータセットアノテーションでは、１つのアノテーションラベルが１つの画素に付与される。このアノテーションラベルは、少なくとも当該画素のカテゴリー（人間、車、建物等の所定のオブジェクトの種類）を指定するメタデータである。それぞれの画素が１つのアノテーションラベルに対応するため、ある画像の各画素に対して付与されたアノテーションラベルを格納するアノテーションファイルはシングルチャンネル（単一層）の情報となる。

画像セグメンテーション用のニューラルネットワークを訓練するためのグラウンドトゥルースを作成する際、この従来のシングルチャンネルアノテーション手段をＸ線画像等の、多くの半透明なオブジェクトが重なる画像に適用すると、アノテーションを行っているユーザは、１つの画素において重なっている複数のオブジェクト間の関係を考慮し、当該画素に１つのオブジェクトに該当するアノテーションラベルを付与しなければならず、それ以外のオブジェクトに関するアノテーションラベルを付与することができない（つまり、シングルチャンネルアノテーションでは、１つの画素に対して１つのオブジェクトのアノテーションラベルしか付与することができない）。

従って、このシングルチャンネルのグラウンドトゥルースを用いて訓練された画像セグメンテーション用のニューラルネットワークは、１つの画素について１つだけのオブジェクトを判別するように訓練されたため、複数のオブジェクトが重なっている画像に適用すると、全てのオブジェクトの完全な形状や輪郭を検出することができず、応用可能な分野が限られてしまう。

そこで、本発明は、図３に示すアモダルマスク生成処理３６０を用いることで、多くのオブジェクトが重なっている複雑な画像の場合でも、それぞれのオブジェクトのカテゴリー及び完全な形状を高精度で示すマルチチャンネルアノテーションラベルを含むアモダルマスクを生成するアモダルセグメンテーション手段を提供することを目的とする。

図３に示す画像処理装置２０１は、本発明に係るマルチチャンネルグラウンドトゥルースによって訓練されたものである。ここでのマルチチャンネルグラウンドトゥルースとは、所定のトレーニング用画像におけるオブジェクト毎に、他のオブジェクトに隠されている領域も含めて、当該オブジェクトのカテゴリー及び完全な形状・輪郭を指定するアノテーションラベルを含む情報である。
つまり、１つの画素に対して１つのアノテーションラベルのみを付与するシングルチャンネルグラウンドトゥルースとは異なり、本発明に係るマルチチャンネルグラウンドトゥルースでは、１つの画素に対して複数のアノテーションラベルを付与することが可能となるため、同じ画素において複数のオブジェクトが重なっている場合であっても、それぞれのオブジェクトに関する情報が維持され、それぞれのオブジェクトの完全な形状・輪郭を
特定することができる。
このマルチチャンネルグラウンドトゥルースを用いて画像処理装置２０１を訓練することで、オブジェクトが重なっている場合でも、それぞれのオブジェクトのカテゴリー及び完全な形状・輪郭を示すアモダルマスクを生成するネットワークを訓練することができる。
なお、このマルチチャンネルグラウンドトゥルースは、後述するユーザインターフェースを介してユーザ（アノテータ）によって作成されてもよい。

まず、特徴抽出部３６２は、画像処理装置２０１の処理対象となる入力画像３６１を受け付け、入力画像３６１に対する特徴マップを生成する。上述したように、入力画像３６１は、例えばＸ線画像等のような、複数のオブジェクトが重なっており、オブジェクトの材質が色や透明性の度合いで表されている画像であってもよい。この入力画像３６１は、例えば図２に示すＸ線装置２１１から提供される、荷物検査の際に撮影された荷物のＸ線画像であってもよい。
ただし、本発明はＸ線画像に限定されず、自動運転の車のセンサに撮影された、人間、車、建物等が重なっている画像であってもよく、オブジェクトが重なっていない画像であってもよい。

特徴抽出部３６２は、入力画像３６１に対して所定の畳み込み演算を行うことで、入力画像３６１のそれぞれの画素の属性を特徴値として表す畳み込みニューラルネットワークである。一般的には、畳み込み演算とは、所定の関数ｇを平行移動しながら別の関数ｆに重ね足し合わせる二項演算である。この畳み込み演算を入力画像３６１に対して行うことで、当該画像の属性を表す畳み込み特徴を抽出することができる。従って、ここでは、特徴抽出部３６２は、１つ以上の畳み込み演算及び非線形変換を施すことで、入力画像３６１の属性を表す畳み込み特徴を特徴マップ（フィーチャーマップ）として抽出することができる。後述するように、これらの特徴は、入力画像３６１におけるオブジェクトのカテゴリー及び領域（形状・輪郭など）を予測するために用いられる。

次に、特徴抽出部３６２によって生成された入力画像３６１に対する特徴マップは、本発明に係るアモダルセグメンテーション部２１０のアモダルセグメンテーションネットワーク３６３に転送される。このアモダルセグメンテーションネットワーク３６３は、特徴抽出部３６２によって生成された入力画像３６１に対する特徴マップの特徴に基づいて、他のオブジェクトに隠されている領域も含めて、入力画像３６１において重なっているそれぞれのオブジェクトの完全な形状・輪郭を示す第１のアモダルマスク３６４のセット（すなわち、１つ以上）を生成する。

このアモダルセグメンテーションネットワーク３６３は、例えば、特徴抽出部３６２によって生成された入力画像３６１に対する特徴マップの特徴に示されるオブジェクトのカテゴリーに基づいて、他のオブジェクトとの重なりにより部分的に隠されているオブジェクトの領域の座標を予測する畳み込みニューラルネットワークであってもよい。例えば、特徴抽出の結果、あるオブジェクトが携帯電話というカテゴリーに該当すると判定された場合には、アモダルセグメンテーションネットワーク３６３は、既存の携帯電話の大きさに応じて、携帯電話として判定されたオブジェクトの領域の座標を予測することでアモダルマスクを生成してもよい。

また、この第１のアモダルマスク３６４は、入力画像３６１におけるオブジェクト毎に生成されるため、入力画像３６１において２つのオブジェクトが重なっている場合には、２つの第１のアモダルマスクを含むセットが生成される（重なっている２つのオブジェクトのそれぞれの全体の形状・輪郭の予測を示す２つの第１のアモダルマスク）。
更に、これらの第１のアモダルマスク３６４は、並行に、独立して生成され、サイズは入力画像３６１と同じ高さ及び幅のサイズに変更される。サイズ変更後、これらの第１のアモダルマスク３６４はチャンネル（又はレイヤー）と呼ばれる３次元構造に配置され、図２に示すストレージ部２２５等に保存される。

なお、ここで生成される第１のアモダルマスクはセグメンテーションの暫定的な中間結果であり、入力画像３６１におけるそれぞれのオブジェクトの完全な形状・輪郭が正しく判別されていない可能性がある。そのため、この第１のアモダルマスク３６４を後述する重なりセグメンテーション部２１５及びアモダルマスク修正部２２０によって処理することにより、第１のアモダルマスク３６４より精度の高い分離結果を表す第２のアモダルマスク３６９を得ることができる。この第２のアモダルマスク３６９は、重なり領域における画素に対して、当該重なり領域において重なっているオブジェクト毎に、少なくとも当該オブジェクトのカテゴリーを示すアノテーションラベルを個別のチャンネルに格納するマルチチャンネルアモダルマスクである。

次に、アモダルセグメンテーション部２１０のアモダルセグメンテーションネットワーク３６３によって生成される第１のアモダルマスクのセットは、重なりセグメンテーション部２１５に転送され、マスク集約部３６５に入力される。このマスク集約部３６５は、複数の第１のアモダルマスク３６４を互いに結合し、それぞれの第１のアモダルマスク３６４が重なった集約マスクを生成する機能部である。このマスク集約部の処理の詳細については後述する。

次に、マスク集約部３６５によって生成される集約マスクは、重なりセグメンテーションネットワーク３６６に入力される。この重なりセグメンテーションネットワーク３６６は、マスク集約部３６５によって生成される集約マスク（図示せず）と、特徴抽出部３６２によって生成された入力画像３６１に対する特徴マップとに基づいて、入力画像３１０において複数のオブジェクトが重なっている重なり領域のみを示す重なりマスク３６７を生成する。この重なりマスク３６７は、入力画像３１０において複数のオブジェクトが重なっている重なり領域のみを示すため、第１のアモダルマスク３６４を修正するための制限条件として用いられる。
なお、この重なりセグメンテーションネットワーク３６６の詳細については後述する。

次に、重なりセグメンテーション部２１５の重なりセグメンテーションネットワーク３６６に生成された重なりマスク３６７は、アモダルマスク修正部２２０に転送され、マスク修正部３６８に入力される。このマスク修正部３６８は、入力画像３１０において複数のオブジェクトが重なっている重なり領域のみを示す重なりマスク３６７を用いて入力画像３６１において重なっているそれぞれのオブジェクトの完全な形状・輪郭を示す第１のアモダルマスク３６４を修正することで、入力画像３６１において重なっているそれぞれのオブジェクトの完全な形状・輪郭を、第１のアモダルマスク３６４より高精度で示す第２のアモダルマスクを生成することができる。

以上説明した構成を用いることにより、多くのオブジェクトが重なっている複雑な画像の場合でも、オブジェクト毎に、当該オブジェクトのカテゴリー及び完全な形状を高精度で示すマルチチャンネルアノテーションラベルを含むアモダルマスクを生成するアモダルセグメンテーション手段を提供することが可能となる。

次に、図４を参照して、本発明の実施形態に係る集約マスクを生成する処理について説明する。

図４は、本発明の実施形態に係る集約マスクを生成する処理４００の一例を示す図である。上述したように、本発明に係るアモダルセグメンテーション部は、入力画像から抽出された特徴マップに基づいて、他のオブジェクトに隠されている領域も含めて、入力画像３６１において重なっているそれぞれのオブジェクトの完全な形状・輪郭を示す第１のアモダルマスクのセットを生成する。例えば、入力画像３６１において２つのオブジェクトが重なっている場合には、それぞれのオブジェクトの全体の形状・輪郭を示す２つの第１のアモダルマスク４０１ａ、４０１ｂを含むセットが生成されてもよい。

これらの第１のアモダルマスク４０１ａ、４０１ｂは、それぞれの画素が特定のオブジェクトに属する確率値を表現するものである。より具体的には、２つのオブジェクトＡ及びＢが部分的に重なっている場合、オブジェクトＡについて生成されたアモダルマスクには、オブジェクトＡとオブジェクトＢが重なっていない領域の画素は、オブジェクトＡに属している確率が高い。同様に、オブジェクトＢについて生成されたアモダルマスクには、オブジェクトＡとオブジェクトＢが重なっていない領域の画素は、オブジェクトＢに属している確率が高い。しかし、両方のアモダルマスクにおいて、オブジェクトＡとオブジェクトＢが重なっている領域の画素については、どのオブジェクトに属しているかとの判定が難しいため、オブジェクトＡにも、オブジェクトＢにも属している確率が高い。

上述したように、本発明に係るマスク集約部は、第１のアモダルマスク４０１ａ、４０１ｂを互いに結合し、画素毎の確率を加算することで、それぞれの第１のアモダルマスク４０１ａ、４０１ｂを組み合わせた、重なり領域における画素の確率値が高い（すなわち、所定の確率値以上）集約マスク４１０を生成することができる。
これにより、それぞれのオブジェクトが重なっている重なり領域の境界（座標等）を高精度で識別することができ、後述する重なりマスクをより容易に生成することができる。

次に、図５を参照して、本発明の実施形態に係る重なりマスクを生成するためのニューラルネットワークの構成について説明する。

図５は、本発明の実施形態に係る重なりマスクを生成するためのニューラルネットワークの構成の一例を示す図である。上述したように、本発明に係る画像処理装置は、マスク集約部によって生成される集約マスク４１０と、特徴抽出部によって生成される特徴マップに基づいて、入力画像において複数のオブジェクトが重なっている重なり領域のみを示す重なりマスク３６７を生成する重なりセグメンテーションネットワーク３６６を含む。

より具体的には、この重なりセグメンテーションネットワーク３６６は、重なりマスク３６７を生成するために構成されたエンコーダデコーダーモデル５５０を含んでもよい。このエンコーダデコーダーモデル５５０は、特徴マップを精緻化し、より多くのローカル又はグローバルなセマンティック情報を抽出する畳み込みレイヤーと、特徴マップを所望のサイズに調整する逆畳み込みレイヤーを含んでもよい。

また、図５に示すように、集約マスク４１０は、エンコーダデコーダーモデル５５０の入力レイヤーのみならず、それ以降の下流のレイヤーにも入力される。このように、複数のオブジェクトが重なっている領域において高い確率値を有する集約マスクを下流のレイヤーにも入力することで、それぞれのレイヤーにおいて行われる重なり領域の予測の精度が向上し、重なり領域のみを示す重なりマスク３６７を高精度で生成することができる。

次に、図６を参照して、本発明の実施形態に係る画像処理装置におけるアモダルセグメンテーション部及び重なりセグメンテーション部を訓練する処理の流れについて説明する。

図６は、本発明の実施形態に係る画像処理装置２０１におけるアモダルセグメンテーション部及び重なりセグメンテーション部を訓練する処理６００の流れを示す図である。図６に示す画像処理装置２０１は、図３を参照して説明した画像処理装置２０１と実質的に同様であるため、繰り返しとなる説明を省略し、訓練処理６００に係る要素を中心に説明する。

上述したように、本発明に係る画像処理装置２０１におけるニューラルネットワークは、
本発明に係るマルチチャンネルグラウンドトゥルースによって訓練されたものである。ここでのマルチチャンネルグラウンドトゥルースとは、所定のトレーニング用画像６０４におけるオブジェクト毎に、他のオブジェクトに隠されている領域も含めて、当該オブジェクトのカテゴリー及び完全な形状・輪郭を指定するアノテーションラベルを含む情報である。言い換えれば、このグラウンドトゥルースは、所定のトレーニング用画像６０４に対する所望のセグメンテーション結果を表すものである。
このマルチチャンネルグラウンドトゥルースを用いて画像処理装置２０１を訓練することで、複数のオブジェクトが重なっている場合でも、それぞれのオブジェクトのカテゴリー及び完全な形状・輪郭を示すアモダルマスクを生成するネットワークを訓練することができる。

まず、所定のトレーニング用画像６０４に対するマルチチャンネルグラウンドトゥルース６１０が作成される。このマルチチャンネルグラウンドトゥルース６１０の作成は、例えば後述するユーザインターフェースを用いてユーザ（アノテータ）によって行われてもよい。

次に、損失計算６１５が計算される。この損失計算とは、現在のネットワーク（つまり、アモダルセグメンテーション部２１０及び重なりセグメンテーション部２１５）の結果と、所望の結果を表すマルチチャンネルグラウンドトゥルース６１０との差を定量的に表現するための計算である。ここでの損失計算６１５は、重なりセグメンテーション部２１５から出力される重なりマスク３６７と、アモダルセグメンテーション部２１０から出力される第１のアモダルマスクと、ユーザから入力されるマルチチャンネルグラウンドトゥルース６１０とを所定の損失関数で処理することにより計算されてもよい。

次に、損失計算６１５の出力に基づいて、パラメータ更新６２０が行われる。このパラメータ更新とは、損失計算６１５のフィードバックに基づいて、マルチチャンネルグラウンドトゥルースに示されるセグメンテーション結果により近い結果を出力できるように、特徴抽出部３６２、アモダルセグメンテーション部２１０、及び重なりセグメンテーション部２１５のレイヤーのパラメータを更新することを意味する。このパラメータ更新は、例えば勾配降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）等、任意の手段によって行われてもよい。
なお、ここでのパラメータ更新６２０は、いわゆるＥｎｄ－ｔｏ－Ｅｎｄ式で行われる。つまり、特徴抽出部３６２、アモダルセグメンテーション部２１０、及び重なりセグメンテーション部２１５のパラメータが同時に更新される。

このように画像処理装置２０１をマルチチャンネルグラウンドトゥルースを用いて画像処理装置２０１を訓練することにより、複数のオブジェクトが画像において重なっている重なり領域の特徴をそれぞれのニューラルネットワークに学習させることができ、より高精度のアモダルマスクを生成させることができる。

次に、図７を参照して、本発明の実施形態に係る画像処理装置の訓練に用いられるマルチチャンネルグラウンドトゥルースを生成する処理の流れについて説明する。

図７は、本発明の実施形態に係る画像処理装置の訓練に用いられるマルチチャンネルグラウンドトゥルースを生成する処理７００の流れを示す図である。このマルチチャンネルグラウンドトゥルースを生成する処理７００は、例えば後述するユーザインターフェースを用いてユーザ（アノテータ）によって行われてもよい。

まず、ステップＳ７０１では、人間のユーザ（アノテータ）のアノテーション対象となる画像（例えば、Ｘ線画像等）が入力された後、ユーザは、後述するユーザインタフェース上で、オブジェクト毎に、当該オブジェクトのカテゴリーを指定する情報（ラベル）を入力する。ここで、ユーザは、例えば、特定のオブジェクトに属する画素をマウス等で選択した後、選択したオブジェクトのカテゴリーを所定の予め用意されている選択肢から選んでもよく、新たなカテゴリーを指定してもよい。例えば、ユーザはあるオブジェクトを「携帯電話」として指定し、他のオブジェクトを「小説」として指定してもよい。また、ここでは、ユーザはオブジェクトのカテゴリーに加えて、オブジェクトの他の特徴（例えば、材質等）を指定する情報も入力してもよい。
なお、それぞれのオブジェクトに付与されたカテゴリーを示すラベルは、入力画像に対する異なるチャンネル（レイヤー）として保存される。これにより、１つの画像に対して、オブジェクトの数だけのチャンネルが生成され、それぞれのチャンネルには、異なるオブジェクトに対して付与されたアノテーションラベルが保存される。

次に、ステップＳ７０２では、ユーザは、画像におけるオブジェクト毎に、当該オブジェクトの領域の境界の座標を入力する。ここでの境界座標とは、特定のオブジェクトの輪郭を規定する画素座標（ｐｉｘｅｌｃｏｏｒｄｉｎａｔｅ）である。この境界座標を入力するためには、ユーザは、例えば、オブジェクトの輪郭をなぞる複数の画素を連続的に選択してもよく、マウスや指等でオブジェクトの輪郭をなぞる線を書いて、始点と終点をつなげることでオブジェクトの輪郭を規定する閉鎖空間を入力してもよい。また、１つのオブジェクトに対して、複数の閉鎖空間を規定することも可能である（例えば、環状のオブジェクトの場合）。
ここで入力される境界座標も、ステップＳ７０１で入力されたカテゴリーを指定する情報と共に、それぞれのオブジェクトに該当するチャンネルにおいてアノテーションラベルとして保存される。
なお、オブジェクトの一部が他のオブジェクトによって隠されている場合には、ユーザは、隠されている部分も含めて、オブジェクトの輪郭を予測して境界座標を入力することが望ましい。また、ここでは、ユーザは後述するアノテーションルールに従ってアノテーションを行うことが望ましい。

次に、ステップＳ７０３では、入力画像における全てのオブジェクトに対するアノテーションが終了した後、ステップＳ７０１で入力されたカテゴリーを指定する情報と、ステップＳ７０２で入力されたオブジェクトの領域の境界の座標をアノテーションラベルとして、テキスト形式で保存する。例えば、ここでのアノテーションラベルは、ｘｍｌ、ｔｘｔ、ｐｋｌ、又はｈｋｌ等の形式で保存されてもよい。
なお、ここでは、上述したカテゴリー情報、境界座標情報、及びその他の情報（材質等）を１つのファイルに保存し、画素単位アノテーション情報（ｐｉｘｅｌｗｉｓｅａｎｎｏｔａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）を別のファイルに保存してもよい。

次に、ステップＳ７０４、ユーザは、希望のアノテーションラベルの種類（マルチチャンネルかシングルチャンネル）を選択する。マルチチャンネルのアノテーションラベルが選択された場合には、オブジェクト毎に生成され、当該オブジェクトのカテゴリー及び座標を指定する画素単位のアノテーションラベルを含むチャンネルが３次元のマトリックスとして保存される。これにより、複数のオブジェクトが重なっている領域における画素に対して、オブジェクトの数だけのアノテーションラベルを含むマルチチャンネルグラウンドトゥルースが生成される。
また、ステップＳ７０４でシングルチャンネルグラウンドトゥルースが選択された場合には、オブジェクト毎に生成されたチャンネルが、１つの画素に対して１つのアノテーションラベルを含む単一のチャンネルに結合される。ここで、１つの画素に対して複数のアノテーションラベルが存在する場合、どのアノテーションラベルを残し、どのアノテーションラベルを削除するかの判定は、例えば後述するアノテーションルールや、所定の基準に基づいて行われてもよい。

次に、ステップＳ７０７では、次の入力画像が入力され、本処理はステップＳ７０１に戻る。

以上説明したマルチチャンネルグラウンドトゥルースを生成する処理７００を行うことにより、本発明に係る画像処理装置を訓練するためのマルチチャンネルグラウンドトゥルースを簡単な入力で作成することが可能となる。

次に、図８を参照して、本発明の実施形態に係る画像処理装置の訓練に用いられるマルチチャンネルグラウンドトゥルースを生成するためのユーザインターフェースについて説明する。

図８は、本発明の実施形態に係る画像処理装置の訓練に用いられるマルチチャンネルグラウンドトゥルースを生成するためのユーザインターフェース８００の一例を示す図である。上述したように、本発明に係るマルチチャンネルグラウンドトゥルースは、図８に示すユーザインターフェース８００を用いてアノテータ（人間のユーザ）によって入力される。図８に示すように、ユーザインターフェース８００は、ラベルウインドウ８０１、編集ウインドウ８０２、ラベルチャンネルウインドウ８０３、オブジェクト情報ウインドウ８０４、及びカテゴリー情報ウインドウ８０５を含む。

ラベルウインドウ８０１では、アノテーションの対象となる画像のアノテーションラベル付きのマスクが表示される。ラベルウインドウ８０１では、重なっているオブジェクトの全体の輪郭を見やすくするため、それぞれのオブジェクトが半透明で異なる色で示される。

編集ウインドウ８０２では、アノテータは表示されているアノテーションの対象となる画像に対して、それぞれのオブジェクトの領域の境界を規定する座標を入力する。この境界座標を入力するためには、アノテータは、例えば、オブジェクトの輪郭をなぞる複数の画素を連続的に選択してもよく、マウスや指等でオブジェクトの輪郭をなぞる線を書いて、始点と終点をつなげることでオブジェクトの輪郭を規定する閉鎖空間を入力してもよい。

ラベルチャンネルウインドウ８０３では、ユーザは、アノテーションの対象となる画像に対して生成される複数（オブジェクトの数だけ）のチャンネルの内、特定のチャンネルを１つ選択することができる。上述したように、それぞれのチャンネルには、１つのオブジェクトと、当該オブジェクトに付与されているアノテーションラベルが含まれる。特定のチャンネルを選択した後、ユーザは、当該チャンネルのオブジェクトに付与されているアノテーションラベルを編集することができる。また、アノテーションラベルが付与されていないオブジェクトに対してアノテーションラベルが付与されると、当該オブジェクトのための新たなチャンネルが自動的に生成される。これにより、ユーザはマルチチャンネルグラウンドトゥルースを構成する複数のチャンネルのラベルを容易に編集し、管理することができる。

オブジェクト情報ウインドウ８０４では、編集ウインドウ８０２で編集中のオブジェクトに関する情報が表示される。例えば、図８に示すように、オブジェクト情報ウインドウ８０４では、編集中のオブジェクトのオブジェクト番号、カテゴリー、材質、及び選択中の画素の座標が表示される。オブジェクト番号及び座標は、アノテータの編集操作に合わせて自動的に更新される。カテゴリーの情報や材質の情報は、例えば上述した特徴抽出部によって抽出された特徴に基づいたものであってもよく、アノテータに入力されたものであってもよい。

カテゴリー情報ウインドウ８０５では、編集中の画像におけるオブジェクトのカテゴリーのリストが表示されている。アノテータは、カテゴリーラベルリストに列挙されているカテゴリーを選択した後、編集ウインドウ８０２において特定のオブジェクトを選択することで、当該オブジェクトを選択したカテゴリーとして指定することができる。また、このカテゴリー情報ウインドウ８０５では、ユーザは自由に新たなカテゴリーを追加したり、リスト中の特定のカテゴリーを削除したりすることができる。
更に、アノテータはカテゴリー情報ウインドウ８０５に表示されているボタンを押すことで、ラベルを保存したり、ラベルを追加したり、ファイルを保存したり、ファイルをロードしたり、ファイルのディレクトリを開いたり、次に画像に進んだりすることができる。

上述したユーザインターフェース８００を用いることで、本発明に係るマルチチャンネルグラウンドトゥルースを簡単な操作で作成することができ、画像処理装置の訓練を促進することができる。

次に、図９を参照して、本発明の実施形態に係るマルチチャンネルグラウンドトゥルースを生成する際にユーザの参考情報となるアノテーションルールについて説明する。

図９は、本発明の実施形態に係るマルチチャンネルグラウンドトゥルースを生成する際にユーザの参考情報となるアノテーションルールテーブル９００の一例を示す図である。

上述したように、アノテータがユーザインターフェース（例えば、図８に示すユーザインターフェース８００）を用いてオブジェクトにアノテーションラベルを付与する際に、オブジェクトの透明性及び重なり状態等によって、オブジェクトの境界線の判定や、（シングルチャンネルグラウンドトゥルースを生成する場合）チャンネルの順番の判定が難しいことがある。従って、本発明では、有意義なアノテーションラベルの作成を容易にするため、アノテーションルールテーブル９００をアノテータの参考情報として提供する。このアノテーションルールテーブル９００に従ってアノテーションラベルを付与することにより、より良質なマルチチャンネルグラウンドトゥルースを作成することができる。
なお、以下では、Ｘ線の画像を一例として説明するが、本発明はＸ線画像に限定されない。

図９に示すように、アノテーションルールテーブル９００は、重なり状態９０５、アノテーションルール９１０、チャンネル順番９１５、及び例９２０の情報を含む。

重なり状態９０５は、重なり無、透明重なり、半透明重なりの３つのケースを含む。ここでは、重なり無とは、画像におけるオブジェクトが重なっていない状態を意味する。透明重なりとは、画像におけるオブジェクトが重なっており、かつ重なっているオブジェクトが透明な状態（それぞれのオブジェクトの輪郭を識別することができる）を意味する。半透明重なりとは、画像におけるオブジェクトが重なっており、かつ重なっているオブジェクトが半透明な状態（それぞれのオブジェクトの輪郭を識別することができない）を意味する。
アノテーションルールテーブル９００では、それぞれの重なり状態９０５毎に、当該重なりにおけるアノテーションルール９１０、おすすめのチャンネル順番、及び当該重なり状態の画像の一例を示す。

例えば、重なり無及び透明重なりの場合には、それぞれのオブジェクトの輪郭（境界）が判別しやすいため、アノテータはこの輪郭に沿ってアノテーションラベルを付与する。しかし、重なっているオブジェクトの材質等によってオブジェクトが半透明な場合には、オブジェクトの輪郭が識別しにくいことがある。そのため、この場合には、アノテータは、オブジェクトの色及びカテゴリー（携帯電話、ペットボトル等）に基づいて輪郭を予測し、この予測した輪郭に沿ってアノテーションを付与する。

上述したように、本発明に係るマルチチャンネルグラウンドトゥルース生成する場合、それぞれのチャンネルが互いに並行で独立したものであり、１つの画素に対して複数のアノテーションラベルを付与することが可能であるため、チャンネルの順番（つまり、重なっているオブジェクトの内、どのオブジェクトを上方とし、どのオブジェクトを下方とするか）を考慮する必要はない。ただし、シングルチャンネルグラウンドトゥルースを生成する際には、１つの画素（原則として、最も上方のオブジェクトの画素）に対して１つのアノテーションラベルしか付与することができないため、その場合には、チャンネルの順番を考慮する必要がある。

重なり無の場合には、重なっているオブジェクトがないため、チャンネルの順番を考慮する必要はない。一方、透明重なり又は半透明重なりの場合には、密度がより高いオブジェクトを上方のチャンネルとし、密度がより低いものを下方のチャンネルとすることが望ましい。これは、オブジェクトの密度が高ければ高いほど、輪郭が明確で識別しやすい傾向があり、より良質なグラウンドトゥルースに繋がるからである。
例えば、一例として、金属等の密度が高いオブジェクト（一般的にＸ線画像で青・黒等の色で示される）を最も上方のチャンネルとし、無機・軽金属のオブジェクト（一般的にＸ線画像で緑等の色で示される）をその下方のチャンネルとし、有機のオブジェクト（一般的にＸ線画像で黄色等の色で示される）を最も下方のオブジェクトとすることが望ましい。

このように、アノテータは以上説明したアノテーションルールに従ってアノテーションラベルを付与することにより、本発明に係る画像処理装置を訓練するための良質なマルチチャンネルグラウンドトゥルースを生成することができる。
なお、以上では、本発明に係るアノテーションルールテーブル９００の一例を説明したが、本発明はアノテーションルールテーブル９００に示されるルールに限定されず、アノテータは画像処理装置の応用形態に応じて、アノテーションラベルを適宜に行ってもよい。

次に、図１０を参照して本発明の実施形態に係る画像処理手段をＸ線荷物検査に適用した場合の一例について説明する。

図１０は、本発明の実施形態に係る画像処理手段をＸ線荷物検査に適用した場合のＸ線荷物検査インターフェース１０００の一例を示す図である。このＸ線荷物検査インターフェース１０００は、例えば、空港等で設置される荷物検査用のＸ線装置と連携して、本発明の画像処理装置によって処理された荷物のＸ線画像のセグメンテーション結果を表示するために用いられてもよい。

図９に示すように、本発明に係るＸ線荷物検査インターフェース１０００は、荷物確認ウインドウ１０１０と、検出オブジェクトウインドウ１０２０と、検出オブジェクト情報ウインドウ１０３０とを含む。

荷物確認ウインドウ１０１０では、Ｘ線装置によって撮影された荷物のＸ線画像が表示される。また、この荷物確認ウインドウ１０１０では、特定のオブジェクト（例えば、持ち込み禁止のオブジェクトカテゴリーに該当する可能性が高いオブジェクト）は、検査員に見やすくするために、色付きの枠で強調表示されてもよい。

検出オブジェクトウインドウ１０２０では、Ｘ線装置によって撮影された荷物のＸ線画像におけるそれぞれのオブジェクトの画像が別々に表示される。また、ここでのオブジェクト画像は、検査員に見やすくするために拡大表示されてもよい。

検出オブジェクト情報ウインドウ１０３０では、検出オブジェクトウインドウ１０２０で表示されているオブジェクトの詳細情報が表示される。例えば、図９に示すように、検出されたオブジェクトカテゴリー（携帯電話、ペットボトル）が表示されてもよい。また、ここで表示されるオブジェクトの画像は、例えば、本発明の画像処理装置によって生成された、オブジェクトの全体の形状・輪郭を示すアモダルマスクであってもよい。更に、検出されたオブジェクトのカテゴリーが持ち込み禁止として予め設定されたオブジェクトカテゴリーに該当する場合（例えば、所定の類似度基準を満たす場合）には、危険な物体が荷物に含まれていることを検査員に通知するための警告も表示されてもよい。

このように、空港等で設置される荷物検査用のＸ線装置と連携して、本発明の画像処理装置によって処理された荷物のＸ線画像のセグメンテーション結果をＸ線荷物検査インターフェース１０００に表示することにより、持ち込み禁止のオブジェクトを検出する精度を向上させることができ、空港・飛行機の安全性を向上させることができる。

次に、図１１を参照して、本発明の実施形態に係るパノプティックマスクを生成するためのパノプティックセグメンテーションシステムについて説明する。

図１１は、本発明の実施形態に係るパノプティックマスクを生成するためのパノプティックセグメンテーションシステム１１００の一例を示す図である。

以上では、本発明の実施形態に係る画像処理装置を用いてＸ線画像を処理する場合を一例として説明したが、本発明はこれに限定されず、Ｘ線画像以外の画像にも適用可能である。例えば、本発明に係る画像処理装置は、車、建物、動物、人間等の不透明なオブジェクトが重なっている画像の場合にも、それぞれのオブジェクトの全体の形状・輪郭を示すアモダルマスクを生成することができる。
なお、斯かる画像の場合には、人間、車、動物等の前景のオブジェクトに加えて、空、道路、建物等の背景のオブジェクトのアモダルマスクを生成する必要があり、そのためには、本発明の実施形態に係るパノプティックセグメンテーションシステム１１００が用いられる。ここでのパノプティックセグメンテーションシステム１１００とは、いわゆるインスタンスセグメンテーション（ｉｎｓｔａｎｃｅｓｅｇｍｅｎｔａｔｉｏｎ；インスタンス分割）及びセマンティックセグメンテーション（ｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ；意味的分割）を組みわせることにより、特定の画像における各画素に対して、当該画素のカテゴリーを示すアノテーションラベルと、インスタンスＩＤ（当該画素がどのオブジェクトに属するかを示す数値）とを付与する手段である。

図１１に示すように、本発明に係るパノプティックセグメンテーションシステム１１００は、特徴抽出部１１０２と、アモダルセグメンテーション部１１０３と、アモダルパノプティックセグメンテーション部１１５０を主に含む。特徴抽出部１１０２は、所定の入力画像１１０１に対する特徴マップを生成する機能部である。また、アモダルセグメンテーション部１１０３は、特徴抽出部１１０２により生成された特徴マップに基づいて、入力画像１１０１におけるそれぞれのオブジェクトの全体の形状・輪郭を示すアモダルマスクを生成する機能部である。この特徴抽出部１１０２及びアモダルセグメンテーション部１１０３は、図３を参照して説明した特徴抽出部３６２及びアモダルセグメンテーション部２１０と実質的に同様であるため、ここでその説明を省略する。

また、図１１に示すように、アモダルパノプティックセグメンテーション部１１５０は、セマンティックアモダルセグメンテーションネットワーク（ｓｅｍａｎｔｉｃａｍｏｄａｌｓｅｇｍｅｎｔａｔｉｏｎｎｅｔｗｏｒｋ；意味的アモダル分割ネットワーク）１１０６と、パノプティックマスク生成部１１０８とを含む。
セマンティックアモダルセグメンテーションネットワーク１１０６は、例えばＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）等の既存のセマンティックセグメンテーションネットワーク（ｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎｎｅｔｗｏｒｋ；意味的分割ネットワーク）から構成されたものであり、上述したマルチチャンネルグラウンドトゥルースによって訓練された後、特徴抽出部１１０２により生成された特徴マップに基づいて、入力画像における前景オブジェクト及び前景オブジェクトがラベル化されたセマンティックアモダルマスク１１０７（ｓｅｍａｎｔｉｃａｍｏｄａｌｍａｓｋ；意味的アモダルマスク）を生成する。
このセマンティックアモダルマスク１１０７は、入力画像１１０１と同様の高さ及び幅を有しており、当該入力画像１１０１における前景オブジェクトと背景オブジェクトの和に等しい数のチャンネルを有する。それぞれのチャンネルは、１つのオブジェクトカテゴリーのマスクを含む。

パノプティックマスク生成部１１０８は、アモダルセグメンテーション部１１０３により生成されるアモダルマスク１１０４と、セマンティックアモダルセグメンテーションネットワーク１１０６により生成されたセマンティックアモダルマスク１１０７を組み合わせることでアモダルパノプティックマスク１１０９を生成する。より具体的には、パノプティックマスク生成部１１０８は、前景オブジェクトのインスタンス（オブジェクトの全体の形状・輪郭を示すマスク）をアモダルマスク１１０４から抜粋し、背景オブジェクトのインスタンスをセマンティックアモダルマスク１１０７から抜粋し、抜粋した前景オブジェクトのインスタンス及び背景オブジェクトのインスタンスを組み合わせることでアモダルパノプティックマスク１１０９を生成する。

このアモダルパノプティックマスク１１０９では、入力画像１１０１における各画素には、当該画素に写るオブジェクトのカテゴリーを示すアノテーションラベルと、一意なインスタンスＩＤ（当該画素がどのオブジェクトインスタンスに属するかを示す数値）とが付されている。また、このアモダルパノプティックマスク１１０９は、入力画像１１０１と同様の高さ及び幅を有しており、アモダルマスク１１０４から抜粋した前景オブジェクトのインスタンスと、セマンティックアモダルマスク１１０７から抜粋した背景オブジェクトのインスタンスとの和に等しい数のチャンネルを有する。

このように、本発明に係るアモダルセグメンテーション手段をセマンティックアモダルセグメンテーションに組み合わせたパノプティックセグメンテーションシステム１１００を用いることにより、任意の画像に対して、当該画像におけるオブジェクトの完全な形状・輪郭を示すセグメンテーション結果を得ることができる。

以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

２００画像処理システム
２０１画像処理装置
２０２通信ネットワーク
２０３プロセッサ
２０４Ｉ/Ｏインターフェース
２０５ネットワークインターフェース
２０６ユーザＩ/Ｏインターフェース
２０７メモリ
２１０アモダルセグメンテーション部
２１１Ｘ線装置
２１２バス
２１５重なりセグメンテーション部
２２０アモダルマスク修正部
２２５ストレージ部

Claims

画像処理装置であって、
複数のオブジェクトが少なくとも部分的に重なっている入力画像に対して、前記オブジェクト毎に、特定の画素が当該オブジェクトに属する確率を示す第１のアモダルマスクのセットを生成するアモダルセグメンテーション部と、
前記オブジェクト毎に生成した第１のアモダルマスクのセットを結合した集約マスクと、前記入力画像に基づいて生成された特徴マップとに基づいて、前記複数のオブジェクトが前記入力画像において重なっている重なり領域のみに該当する重なりマスクを生成する重なりセグメンテーション部と、
前記重なりマスクと、前記集約マスクとを用いて、前記入力画像における各画素に対して、少なくとも当該画素に該当する各オブジェクトのカテゴリーを示すアノテーションラベルを含む第２のアモダルマスクを生成し、出力するアモダルマスク修正部と、
を含む画像処理装置。
前記第２のアモダルマスクは、
前記重なり領域における画素に対して、前記重なり領域において重なっているオブジェクト毎に、少なくとも当該オブジェクトのカテゴリーを示すアノテーションラベルを個別のチャンネルに格納するマルチチャンネルアモダルマスクであることを特徴とする、請求項１に記載の画像処理装置。
前記画像処理装置は、
グラウンドトゥルース作成部を更に含み、
前記グラウンドトゥルース作成部は、
複数のオブジェクトが少なくとも部分的に重なっているトレーニング用画像に対して、それぞれのオブジェクトのカテゴリー及び境界座標を指定するアノテーションラベルの入力をユーザから受信し、
前記アノテーションラベルに基づいて、前記トレーニング用画像の画素毎に、当該画素がどのオブジェクトに属するかを示すグラウンドトゥルースを生成する、
ことを特徴とする、請求項１に記載の画像処理装置。
前記アモダルセグメンテーション部は、
畳み込みニューラルネットワークを含み、
前記畳み込みニューラルネットワークは、前記トレーニング用画像と、前記トレーニング用画像について生成されたグラウンドトゥルースを用いて訓練される、
ことを特徴とする、請求項３に記載の画像処理装置。
前記重なりセグメンテーション部は、
エンコーダー・デコーダーモデルを含み、
前記エンコーダー・デコーダーモデルは、
前記特徴マップを精緻化し、セマンティック情報を抽出する畳み込みレイヤーのセットと、
前記特徴マップを所望のサイズに調整する逆畳み込みレイヤーのセットとを含む、
ことを特徴とする、請求項１に記載の画像処理装置。
前記集約マスクが前記エンコーダー・デコーダーモデルの入力レイヤーに加えて、それ以降の下流のレイヤーにも入力される、
ことを特徴とする、請求項５に記載の画像処理装置。
前記入力画像に基づいて生成された特徴マップに基づいて、前記入力画像における各画素に対して、当該画素に該当するオブジェクトのカテゴリーを示すセマンティックアモダルマスクを生成するセマンティックアモダルセグメンテーション部と、
前記セマンティックアモダルマスクから背景オブジェクトのインスタンスを抜粋し、前記第２のアモダルマスクから前景オブジェクトのインスタンスを抜粋し、前記背景オブジェクトのインスタンスと、前記前景オブジェクトのインスタンスとを結合することで、オブジェクト毎に、当該オブジェクトのカテゴリーを示すアノテーションラベルと、一意なインスタンスＩＤとを個別のチャンネルに格納するアモダルパノプティックマスクを生成するパノプティックマスク生成部と、
を更に含むことを特徴とする、請求項１に記載の画像処理装置。
前記入力画像は、
半透明なオブジェクトが複数重なっているＸ線画像であることを特徴とする、請求項１に記載の画像処理装置。
画像処理方法であって、
複数のオブジェクトが少なくとも部分的に重なっている入力画像に対して、前記オブジェクト毎に、特定の画素が当該オブジェクトに属する確率を示す第１のアモダルマスクのセットを生成する工程と、
前記オブジェクト毎に生成した第１のアモダルマスクのセットを結合した集約マスクと、前記入力画像に基づいて生成された特徴マップとに基づいて、前記複数のオブジェクトが前記入力画像において重なっている重なり領域のみに該当する重なりマスクを生成する工程と、
前記重なりマスクと、前記集約マスクとを用いて、前記入力画像における各画素に対して、少なくとも当該画素に該当する各オブジェクトのカテゴリーを示すアノテーションラベルを含む第２のアモダルマスクを生成し、出力する工程と、
を含む画像処理方法。
画像処理システムであって、
前記画像処理システムにおいて、
Ｘ線画像を取得するＸ線装置と、
入力画像におけるそれぞれのオブジェクトの全体の輪郭を示すアモダルマスクを生成する画像処理装置とが通信ネットワークを介して接続されており、
前記画像処理装置は、
前記通信ネットワークを介して、前記Ｘ線装置から、複数のオブジェクトが少なくとも部分的に重なっている入力画像を受信し、前記入力画像に対して、前記オブジェクト毎に、特定の画素が当該オブジェクトに属する確率を示す第１のアモダルマスクのセットを生成するアモダルセグメンテーション部と、
前記オブジェクト毎に生成した第１のアモダルマスクのセットを結合した集約マスクと、前記入力画像に基づいて生成された特徴マップとに基づいて、前記複数のオブジェクトが前記入力画像において重なっている重なり領域のみに該当する重なりマスクを生成する重なりセグメンテーション部と、
前記重なりマスクと、前記集約マスクとを用いて、前記入力画像における各画素に対して、少なくとも当該画素に該当する各オブジェクトのカテゴリーを示すアノテーションラベルを含む第２のアモダルマスクを生成し、出力するアモダルマスク修正部と、
を含む画像処理システム。