JP6525912B2

JP6525912B2 - 画像分類装置、方法およびプログラム

Info

Publication number: JP6525912B2
Application number: JP2016057865A
Authority: JP
Inventors: 嘉郎北村
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2016-03-23
Filing date: 2016-03-23
Publication date: 2019-06-05
Anticipated expiration: 2036-03-23
Also published as: US10198669B2; US20170277977A1; JP2017174039A

Description

本発明は、複数の処理層が階層的に接続されたニューラルネットワークにより、３次元画像を複数のクラスに分類する画像分類装置、方法およびプログラムに関するものである。

近年、医療機器（例えば多検出器型ＣＴ（Computed Tomography）等）の進歩により質の高い高解像度の３次元画像が画像診断に用いられるようになってきている。ここで、３次元画像は多数の２次元画像から構成され情報量が多いため、医師が所望の観察部位を見つけ診断することに時間を要する場合がある。そこで、注目する臓器を認識し、注目する臓器を含む３次元画像から、例えば最大値投影法（ＭＩＰ（Maximum Intensity Projection）法）および最小値投影法（ＭｉｎＩＰ（Minimum Intensity Projection）法）等の方法を用いて、注目する臓器を抽出してＭＩＰ表示等を行ったり、３次元画像のボリュームレンダリング（ＶＲ（Volume Rendaring））表示を行ったりすることにより、臓器全体や病変の視認性を高め、診断の効率化を図ることが行われている。

また、３次元画像をＶＲ表示する場合、注目する臓器、組織および構造等の構造物を抽出し、抽出した構造物の３次元画像の各画素位置の信号値（ＣＴ画像の場合はＣＴ値）に応じて、各画素の信号値に色（Ｒ，Ｇ，Ｂ）および不透明度（オパシティ）が設定される。この場合、注目する部位に応じて色および不透明度を設定したカラーテンプレートを用意しておくことにより、部位に応じて所望のカラーテンプレートを選択すれば、ボリュームレンダリング画像（ＶＲ画像）において、注目する部位を可視化することができる。

また、３次元画像から構造物を抽出するためには、３次元画像において構造物を検出する必要がある。ここで、画像における注目する画素を複数のクラスに分類するために、複数の処理層が階層的に接続されることにより構築されたニューラルネットワークによる演算を実行する演算処理装置が提案されている。特に、２次元の画像を複数クラスに分類するための演算処理装置においては、いわゆる畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）が提案されている（特許文献１，２参照）。

畳み込みニューラルネットワークでは、入力されるデータに対する前段の階層により得られる異なる複数の演算結果データ、すなわち特徴量の抽出結果データに対して、畳み込み層において各種カーネルを用いて畳み込み演算処理を行い、これにより得られる特徴量のデータを、さらにプーリング層においてプーリングすることによって、特徴量のデータ量を減らしている。さらに、プーリングによる処理結果データに対して、次段以降の処理層においてさらなる演算処理を行うことにより、特徴量の認識率を向上させて、入力されたデータを複数のクラスに分類することができる。

例えば、２次元の画像を複数のクラスに分類する畳み込みニューラルネットワークにおいては、入力される画像に対して、畳み込み層において各種カーネルを用いた畳み込み処理を行い、畳み込み処理により得られた特徴量データからなる特徴量マップをプーリング層においてプーリングし、プーリングにより得られた特徴量マップに対して、プーリング層以降の処理層においてさらなる演算を行って、入力された画像における処理対象となる画素をクラス分類することができる。ここで、プーリングはデータ量を減らし、対象領域における幾何情報の相違を吸収し、対象領域の特徴をロバストに取得する効果がある。具体的には、畳み込み処理により得られた特徴量マップにおける２×２画素の領域について、４つの画素値の最大値、最小値または平均値等を算出することをプーリングとすることができる。

このような、畳み込みニューラルネットワークを上述した３次元画像に適用して、３次元画像を複数のクラスに分類することが考えられる。例えば、３次元画像において注目する構造物を検出するに際し、３次元画像を入力として、３次元画像における処理対象となる画素を、注目する構造物とそうでない構造物という複数のクラスに分類するように、畳み込みニューラルネットワークに学習させることにより、入力された３次元画像の対象とする画素を、注目する構造物とそうでない構造物とに精度よくクラス分けすることが可能となる。

特開２０１５−２１５８３７号公報特開２０１６−００６６２６号公報

しかしながら、３次元画像は２次元画像と比較して画素数が多いため、畳み込みニューラルネットワークによるクラス分類を行う際に、演算量が多大なものとなる。また、演算時に非常に多くのメモリを消費する。さらに、画素数が多くなると、畳み込みニューラルネットワークに入力される画像が取りうるパターンが非常に多くなる。このため、３次元画像をクラス分けする畳み込みニューラルネットワークを構築するためには、学習のために莫大な量のデータが必要となる。この場合、入力されるデータ量を少なくすることが考えられる。しかしながら、データ量を少なくすると、クラス分類の精度が低下する。

本発明は、上記事情に鑑みなされたものであり、ニューラルネットワークを用いて、少ない演算量にて３次元画像を複数のクラスに精度よく分類できるようにすることを目的とする。

本発明による画像分類装置は、複数の処理層が階層的に接続されたニューラルネットワークにより、３次元画像を複数のクラスに分類する画像分類装置であって、
ニューラルネットワークが、３次元画像を複数の処理パラメータによって投影処理することにより生成された複数の２次元画像のそれぞれに対して、畳み込み処理を行う畳み込み層と、
畳み込み処理がなされた複数の２次元画像のそれぞれにおける同一位置の値をプーリングするプーリング層とを備えたことを特徴とするものである。

「３次元画像を複数のクラスに分類する」とは、３次元画像を構成する各画素を、３次元画像に含まれる構造物のいずれかに属するものに分類すること、または３次元画像を構成する各画素を、３次元画像に含まれる特定の構造物とそれ以外の構造物とに属するものに分類することを意味する。例えば、前者の場合、３次元画像を構成する各画素を、心臓、肺および肝臓のいずれに属するものかに分類するものとなる。後者の場合、３次元画像を構成する各画素を、血管と血管でないものに分類するものとなる。なお、後者のように３次元画像を複数のクラスに分類すれば、３次元画像に特定の構造物が含まれるか否かを判断するようにニューラルネットワークを構築することができる。また、「３次元画像を複数のクラスに分類する」とは、３次元画像自体または３次元画像の一部の領域を、特定の部位のいずれかに属するものに分類することをも意味する。例えば、３次元画像自体を胸部または腹部のような部位に分類することをも意味する。また、３次元画像のある領域を胸部、他の領域を腹部というように分類することをも意味する。

畳み込み層は少なくとも１つ備えていればよく、プーリング層も少なくとも１つ備えていればよい。この場合、１つの畳み込み層に対して１つのプーリング層を備えていてもよく、複数の畳み込み層に対して１つのプーリング層を備えていてもよい。

なお、本発明による画像分類装置は、３次元画像を構成する各画素を複数のクラスに分類するものであってもよい。

また、本発明による画像分類装置においては、投影処理はボリュームレンダリングであり、パラメータは色、不透明度、および投影する対象を定義するマスクの少なくとも１つであってもよい。

「投影する対象を定義するマスク」とは、３次元画像に含まれる特定の構造物のみが２次元画像に含まれるように、投影処理するためのマスクを意味する。例えば、心臓領域および心室領域のみを投影した２次元画像を生成する場合、３次元画像における心臓領域のみが投影された２次元画像が生成されるマスク、および心室領域のみが投影された２次元画像が生成されるマスクを、複数のパラメータとして用いることができる。

また、本発明による画像分類装置においては、投影処理は最大値投影処理、最小値投影処理および平均値投影処理のいずれかであり、パラメータは投影する際の視線方向に対する始点位置と終点位置であってもよい。

また、本発明による画像分類装置においては、２次元画像は、３次元画像に対して設定されたサブウィンドウについての２次元画像であってもよい。

また、本発明による画像分類装置においては、複数の２次元画像を生成する２次元画像生成手段をさらに備えるものであってもよい。

本発明による画像分類方法は、複数の処理層が階層的に接続されたニューラルネットワークにより、３次元画像を複数のクラスに分類する画像分類方法であって、
ニューラルネットワークが、畳み込み層およびプーリング層を備え、
畳み込み層が、３次元画像を複数の処理パラメータによって投影処理することにより生成された複数の２次元画像のそれぞれに対して、畳み込み処理を行い、
プーリング層が、畳み込み処理がなされた複数の２次元画像のそれぞれにおける同一位置の値をプーリングすることを特徴とするものである。

なお、本発明による画像分類方法をコンピュータに実行させるためのプログラムとして提供してもよい。

本発明によれば、ニューラルネットワークの畳み込み層において、３次元画像を複数の処理パラメータによって投影処理することにより生成された複数の２次元画像のそれぞれに対して畳み込み処理が行われ、プーリング層において、畳み込み処理がなされた複数の２次元画像のそれぞれにおける同一位置の値がプーリングされる。このように、本発明によれば、３次元画像から生成された複数の２次元画像を入力としているため、３次元画像を入力する場合と比較して、ニューラルネットワークに入力される画像のデータ量を低減することができる。また、２次元画像は３次元処理を複数のパラメータによって投影処理することにより生成されており、畳み込み処理がなされた複数の２次元画像のそれぞれにおける同一位置の値がプーリング層において、プーリングされる。このため、プーリング層において、ニューラルネットワークに対して複数の処理パラメータに対する普遍性を獲得することができ、これにより、入力される複数の２次元画像に対するクラス分類の精度を向上できる。したがって、本発明によれば、少ない演算量にて３次元画像を複数のクラスに分類することができる。

本発明の実施形態による画像分類装置を適用した、診断支援システムの概要を示すハードウェア構成図コンピュータに画像分類プログラムをインストールすることにより実現される画像分類装置の概略構成を示す図３次元画像におけるサブウィンドウの設定を説明するための図畳み込みニューラルネットワークの構成を概念的に示す図畳み込み処理を説明するための図プーリングを説明するための図本実施形態において行われる処理を示すフローチャート投影処理を行う場合の複数の処理パラメータを説明するための図畳み込みニューラルネットワークの他の例を示す図畳み込みニューラルネットワークの他の例を示す図

以下、図面を参照して本発明の実施形態について説明する。図１は、本発明の実施形態による画像分類装置を適用した、診断支援システムの概要を示すハードウェア構成図である。図１に示すように、このシステムでは、本実施形態による画像分類装置１、３次元画像撮影装置２、および画像保管サーバ３が、ネットワーク４を経由して通信可能な状態で接続されている。

３次元画像撮影装置２は、被検体の手術の対象となる部位を撮影することにより、その部位を表す３次元画像Ｖ０を生成する装置であり、具体的には、ＣＴ装置、ＭＲＩ（Magnetic Resonance Imaging）装置、およびＰＥＴ(Positron Emission Tomography )装置等である。この３次元画像撮影装置２により生成された３次元画像Ｖ０は画像保管サーバ３に送信され、保存される。

画像保管サーバ３は、各種データを保存して管理するコンピュータであり、大容量外部記憶装置およびデータベース管理用ソフトウェアを備えている。画像保管サーバ３は、有線あるいは無線のネットワーク４を介して他の装置と通信を行い、画像データ等を送受信する。具体的には３次元画像撮影装置２で生成された３次元画像Ｖ０等の画像データをネットワーク経由で取得し、大容量外部記憶装置等の記録媒体に保存して管理する。なお、画像データの格納形式およびネットワーク４経由での各装置間の通信は、ＤＩＣＯＭ（Digital Imaging and COmmunication in Medicine）等のプロトコルに基づいている。

画像分類装置１は、１台のコンピュータに、本発明の画像分類プログラムをインストールしたものである。コンピュータは、診断を行う医師が直接操作するワークステーションまたはパーソナルコンピュータでもよいし、それらとネットワークを介して接続されたサーバコンピュータでもよい。評価プログラムは、ＤＶＤ（Digital Versatile Disc）あるいはＣＤ−ＲＯＭ（Compact Disk Read Only Memory）等の記録媒体に記録されて配布され、その記録媒体からコンピュータにインストールされる。または、ネットワークに接続されたサーバコンピュータの記憶装置、もしくはネットワークストレージに、外部からアクセス可能な状態で記憶され、要求に応じて医師が使用するコンピュータにダウンロードされ、インストールされる。

図２は、コンピュータに画像分類プログラムをインストールすることにより実現される画像分類装置の概略構成を示す図である。図２に示すように、画像分類装置１は、標準的なワークステーションの構成として、ＣＰＵ（Central Processing Unit）１１、メモリ１２およびストレージ１３を備えている。また、画像分類装置１には、ディスプレイ１４と、マウス等の入力部１５とが接続されている。

ストレージ１３には、ネットワーク４を経由して画像保管サーバ３から取得した３次元画像Ｖ０、後述するように画像分類装置１での処理に必要な情報を含む各種情報が記憶されている。

また、メモリ１２には、画像分類プログラムが記憶されている。また、メモリ１２は、画像分類プログラムが処理を行う際の作業領域にもなる。画像分類プログラムは、ＣＰＵ１１に実行させる処理として、３次元画像撮影装置２が取得した３次元画像Ｖ０を取得する画像取得処理、３次元画像Ｖ０を複数の処理パラメータによって投影処理することにより複数の２次元画像を生成する２次元画像生成処理、および複数の処理層が階層的に接続された畳み込みニューラルネットワークにより、３次元画像Ｖ０を複数のクラスに分類する分類処理を規定する。なお、本実施形態の画像分類装置１は、３次元画像Ｖ０の各画素を血管および非血管の２クラスに分類するものとする。

そして、ＣＰＵ１１がプログラムに従いこれらの処理を実行することで、コンピュータは、画像取得部２１、２次元画像生成部２２、および畳み込みニューラルネットワーク（以下、ＣＮＮとする）２３として機能する。なお、画像分類装置１は、画像取得処理、２次元画像生成処理、およびＣＮＮ２３におけるクラス分類の処理をそれぞれ行う複数のプロセッサを備えるものであってもよい。

画像取得部２１は、画像保管サーバ３から３次元画像Ｖ０を取得する。画像取得部２１は、３次元画像Ｖ０が既にストレージ１３に記憶されている場合には、ストレージ１３から取得するようにしてもよい。

２次元画像生成部２２は、３次元画像Ｖ０を複数の処理パラメータによって投影処理することにより複数の２次元画像を生成する。本実施形態においては、３次元画像Ｖ０に対して３次元のサブウィンドウを設定し、サブウィンドウ内の画像を、複数の処理パラメータによってボリュームレンダリングして、複数の２次元画像を生成する。

すなわち、サブウィンドウ内の３次元画像Ｖ０に対して、視点位置となる投影面から仮想的な光線を照射し、３次元画像Ｖ０の各信号値に対応した色（Ｒ，Ｇ，Ｂ）および不透明度（オパシティ）に基づいて、物体内部からの仮想的な反射光による３次元画像を作成する。そして、この３次元画像から投影面に物体内部の３次元構造を透視する投影画像を２次元画像として生成する。

なお、色および不透明度はカラーテンプレートに定義されており、本実施形態においては、複数種類のカラーテンプレートが複数の処理パラメータとして用意されている。２次元画像生成部２２は、サブウィンドウ内の３次元画像Ｖ０の各画素位置の信号値を、複数のカラーテンプレートのそれぞれに設定された色および不透明度に基づいて、投影画像の画素値に変換して、複数の２次元画像を生成する。本実施形態においては、３種類のカラーテンプレートを用いて３つの２次元画像Ｇ１〜Ｇ３を生成するものとする。なお、カラーテンプレートには、色のみを定義してもよく、不透明度のみを定義してもよい。

このように複数の処理パラメータにより生成された２次元画像Ｇ１〜Ｇ３においては、パラメータに応じて、血管が確認しにくかったり、動脈のみが確認できたり、動脈および静脈の双方が確認できたりすることとなる。

２次元画像生成部２２は、サブウィンドウの３次元画像Ｖ０上における位置および傾きを変更しながら、位置および傾きが変更されたサブウィンドウの位置のそれぞれにおいて、複数の処理パラメータにより複数の２次元画像を生成する。すなわち、図３に示すように、２次元画像生成部２２は、３次元画像Ｖ０においてサブウィンドウＷ１を設定し、サブウィンドウＷ１内の画像を、複数の処理パラメータによってボリュームレンダリングして、複数の２次元画像を生成する。２次元画像生成部２２は、さらに、サブウィンドウＷ１とは異なる位置および傾きのサブウィンドウＷ２を設定し、サブウィンドウＷ２内の画像を、複数の処理パラメータによってボリュームレンダリングして、複数の２次元画像を生成する。なお、図３に示すように、サブウィンドウＷ１，Ｗ２は、視線方向の最も手前の面を実線で示した、３次元のウィンドウとなる。そして、２次元画像生成部２２は、サブウィンドウの位置および傾きを変更しながら、３次元画像Ｖ０の全領域に対してサブウィンドウを設定して、複数の処理パラメータにより複数の２次元画像を生成する。なお、ＣＮＮ２３には、サブウィンドウ毎に複数の２次元画像が入力され、処理に供されることとなる。

ＣＮＮ２３は、２次元画像Ｇ１〜Ｇ３を入力とし、２次元画像Ｇ１〜Ｇ３における中心位置にある画素が、血管であるか非血管であるかのクラス分類結果を出力する。図４はＣＮＮ２３の構成を概念的に示す図である。図４に示すように、ＣＮＮ２３は、畳み込み層３１、プーリング層３２、および全結合層３３を含む複数の処理層が階層的に接続されて構成されている。

畳み込み層３１は、あらかじめ定められたカーネルを用いて、複数の２次元画像Ｇ１〜Ｇ３に対して畳み込み処理を行う。図５は畳み込み処理を説明するための図である。図５に示すように、畳み込み層３１は、カーネル３５を適用して、２次元画像Ｇ１〜Ｇ３に対して畳み込み処理を行う。カーネル３５はｎ×ｎ画素サイズ（例えばｎ＝３）を有し、各要素に重みが設定されている。例えば、２次元画像Ｇ１〜Ｇ３のエッジを強調する微分フィルタのような重みが設定されている。畳み込み層３１は、カーネル３５の注目画素をずらしながら、２次元画像Ｇ１〜Ｇ３の全体にカーネル３５を適用する。すなわち、カーネル３５により２次元画像Ｇ１〜Ｇ３をフィルタリングする。さらに、畳み込み層３１は、畳み込みされた値に対して、シグモイド関数等の活性化関数を適用し、特徴量マップＦ１〜Ｆ３を出力する。なお、２次元画像Ｇ１〜Ｇ３の画素サイズをｘｇ，ｙｇ、カーネル３５のサイズをｘｋ，ｙｋとしたときに、特徴量マップＦ１〜Ｆ３の画素サイズｘｔ，ｙｔは下記の式（１）により表される。

ｘｔ＝ｘｇ−ｘｋ＋１
ｙｔ＝ｙｇ−ｙｋ＋１（１）
なお、図４においては、畳み込み層３１は、２次元画像Ｇ１〜Ｇ３のそれぞれに対応する、丸形状で表す３つのユニットを有するものとしているが、１つのユニットのみを有するものとし、２次元画像Ｇ１〜Ｇ３を順次処理するものとしてもよい。

プーリング層３２は、畳み込み層３１が出力した特徴量マップＦ１〜Ｆ３をプーリングする。図６はプーリングを説明するための図である。図６に示すように、本実施形態においては、特徴量マップＦ１〜Ｆ３における同一位置の３つの値を１つの値にプーリングし、特徴量マップＦ１〜Ｆ３と同一サイズの特徴量マップＦ１１を出力する。具体的には、３つの値の最大値をプーリングする。なお、３つの値の平均値または最小値をプーリングしてもよい。このようなプーリングにより、２次元画像Ｇ１〜Ｇ３における位置の特徴を失うことなく、全結合層３３に入力される特徴量マップＦ１１のデータ量を低減できる。

また、ＣＮＮ２３に入力される２次元画像Ｇ１〜Ｇ３は、異なる処理パラメータによって投影処理されているため、血管が確認しにくかったり、動脈のみが確認できたり、動脈および静脈の双方が確認できたりするものが含まれる。プーリング層３２において、上述したように、３つの値の最大値等をプーリングすることにより、処理パラメータによらずに、最大値等がプーリングされるため、ＣＮＮ２３において、２次元画像Ｇ１〜Ｇ３を生成した際の複数の処理パラメータに対する普遍性を獲得することができる。

全結合層３３は、一般的な多層ニューラルネットワークと同様の構造をなしており、複数の処理層間のユニットが全て繋がっている層である。なお、図４においてユニットは丸形状で示されている。また、ユニット間の結合は入力側から出力側に向かう矢印により示されている。全結合層３３には、特徴量マップＦ１１が入力され、２次元画像Ｇ１〜Ｇ３を生成した際のサブウィンドウの中心位置における画素が血管であるか非血管であるかのクラス分類結果を出力する。ここで、全結合層３３におけるある１つの処理層のユニットに対する前段の処理層の複数のユニットからの入力をｘｊ、出力をｙｉ、ユニット間の結合の重みをｗｉｊ、バイアスをｂｉとすると、出力ｙｉは下記の式（２）により表される。なお、式（２）におけるｆは、シグモイド関数等の活性化関数である。式（２）における重みｗｉｊおよびバイアスｂｉが後述する学習により算出される。

全結合層３３の最終階層である出力層は、サブウィンドウの中心位置の画素が血管であるか否かを表すクラス分類結果を出力する。例えば、血管である場合には１、血管でない場合には０を出力する。これにより、ＣＮＮ２３によって、サブウィンドウの中心位置にある画素を血管および非血管の２つのクラスに分類することができる。

次に、ＣＮＮ２３の学習について説明する。ＣＮＮ２３の学習は周知の誤差逆伝搬法を用いる。ＣＮＮ２３の学習のために、それぞれ多数の正の教師データおよび負の教師データを用意する。正の教師データは、サブウィンドウと同一サイズを有し、中心位置の画素が血管である、ボリュームレンダリングにより生成された２次元画像である。負の教師データは、サブウィンドウと同一サイズを有し、中心位置の画素が血管でない、ボリュームレンダリングにより生成された２次元画像である。なお、教師データを生成する際には、ある３次元画像に設定されたサブウィンドウ内の画像を、２次元画像Ｇ１〜Ｇ３を生成した際の同一の複数の処理パラメータにより３次元画像を投影処理することにより、１つのサブウィンドウ内の画像に対して３つの複数の教師データが生成される。

そして、ＣＮＮ２３に教師データを入力して、クラス分類結果を出力させる。次いで、出力された結果を教師データと比較し、正解か不正解かに応じて、出力側から入力側に向かって、全結合層３３に含まれるユニットの各階層間における結合の重みおよびバイアスを修正する。結合の重みおよびバイアスの修正を、多数の正負の教師データを用いて、あらかじめ定められた回数、または出力されるクラス分類結果の正解率が１００％になるまで繰り返し行い、学習を終了する。

次いで、本実施形態において行われる処理について説明する。図７は本実施形態において行われる処理を示すフローチャートである。まず、画像取得部２１が３次元画像Ｖ０を取得し（ステップＳＴ１）、２次元画像生成部２２が３次元画像Ｖ０を複数の処理パラメータによって投影処理することにより複数の２次元画像Ｇ１〜Ｇ３を生成する（ステップＳＴ２）。そして、ＣＮＮ２３が複数の２次元画像Ｇ１〜Ｇ３の入力を受け付け（ステップＳＴ３）、クラス分類結果を出力し（ステップＳＴ４）、処理を終了する。

なお、サブウィンドウの３次元画像Ｖ０上における位置および傾きを変更しつつ複数の２次元画像を生成し、上記クラス分類の処理を行うことにより、３次元画像Ｖ０に含まれる各画素が血管であるか否かの判定結果を出力することができる。この判定結果を用いることにより、３次元画像Ｖ０から血管を抽出し、抽出した血管のボリュームレンダリング画像等をディスプレイ１４に表示することができる。

このように、本実施形態においては、畳み込み層３１において、３次元画像Ｖ０を複数の処理パラメータによって投影処理することにより生成された複数の２次元画像Ｇ１〜Ｇ３のそれぞれに対して畳み込み処理を行い、プーリング層３２において、畳み込み処理がなされた複数の２次元画像、すなわち特徴量マップＦ１〜Ｆ３のそれぞれにおける同一位置の値をプーリングするようにしたものである。このように、本実施形態によれば、３次元画像Ｖ０から生成された複数の２次元画像Ｇ１〜Ｇ３を入力としているため、３次元画像Ｖ０を入力する場合と比較して、ＣＮＮ２３に入力される画像のデータ量を低減することができる。また、２次元画像Ｇ１〜Ｇ３は３次元画像Ｖ０を複数のパラメータによって投影処理することにより生成されており、畳み込み処理により生成された特徴量マップＦ１〜Ｆ３のそれぞれにおける同一位置の値がプーリング層３２において、プーリングされる。このため、プーリング層３２において、ＣＮＮ２３に対して複数の処理パラメータに対する普遍性を獲得することができ、これにより、入力される複数の２次元画像Ｇ１〜Ｇ３に対するクラス分類の精度を向上できる。したがって、本発明によれば、少ない演算量にて３次元画像Ｖ０を複数のクラスに分類することができる。

なお、上記実施形態においては、３次元画像Ｖ０に含まれる各画素を血管および非血管の２つのクラスに分類しているが、３以上の複数のクラスに分類するようにＣＮＮ２３を構築することも可能である。例えば、３次元画像Ｖ０に含まれる各画素を心臓、肺およびそれ以外の構造物の３つのクラスに分類するようにＣＮＮ２３を構築することも可能である。この場合、教師データは、画像の中心位置が心臓の正の教師データ、画像の中心位置が肺の正の教師データ、および画像の中心位置が心臓でも肺でもない負の教師データを多数用意して、ＣＮＮ２３の学習を行えばよい。

また、上記実施形態において、３次元画像Ｖ０自体を特定の部位の何れかに属するものに分類するように、ＣＮＮ２３を構築してもよい。例えば、３次元画像Ｖ０自体を胸部または腹部のような部位に分類するものとなるように、ＣＮＮ２３を構築してもよい。また、３次元画像Ｖ０の一部の領域を特定の部位の何れかに属するものに分類するように、ＣＮＮ２３を構築してもよい。例えば、３次元画像Ｖ０のある領域を胸部、他の領域を腹部に分類するものとなるように、ＣＮＮ２３を構築してもよい。

また、上記実施形態においては、２次元画像生成部２２において、サブウィンドウ内の画像を、複数の処理パラメータによってボリュームレンダリングして、複数の２次元画像を生成している。しかしながら、サブウィンドウ内の画像に対して、複数の処理パラメータによって最大値投影処理、最小値投影処理および平均値投影処理のいずれかの処理を行って、複数の２次元画像を生成してもよい。この場合、複数の処理パラメータは、投影する際の視線方向に対する始点位置と終点位置とすればよい。具体的には、図８に示すように、視線方向を示す矢印上において、始点位置および終点位置のペア（Ｓ１，Ｅ１）、（Ｓ２，Ｅ２）、（Ｓ３，Ｅ３）を設定し、各始点位置および終点位置の間において、最大値投影処理、最小値投影処理および平均値投影処理を行って、複数の２次元画像を生成すればよい。

また、上記実施形態においては、ＣＮＮ２３を１つの畳み込み層３１および１つのプーリング層３２を有するものとしているが、複数の畳み込み層３１および複数のプーリング層３２を有するものとしてもよい。例えば、図９に示すように、３つの畳み込み層３１Ａ〜３１Ｃおよび畳み込み層３１Ａ〜３１Ｃからの出力をそれぞれプーリングする３つのプーリング層３２Ａ〜３２Ｃを備えるようにＣＮＮ２３を構築してもよい。この場合、各畳み込み層３１Ａ〜３１Ｃには、それぞれ３つの２次元画像Ｇ１〜Ｇ３が入力され、それぞれ３つの特徴量マップＦＡ１〜ＦＡ３，ＦＢ１〜ＦＢ３，ＦＣ１〜ＦＣ３が出力される。各畳み込み層３１Ａ〜３１Ｃで使用されるカーネル３５Ａ〜３５Ｃは、それぞれ異なる特徴量マップを生成するように設定される。したがって、各畳み込み層３１Ａ〜３１Ｃから出力される特徴量マップＦＡ１〜ＦＡ３，ＦＢ１〜ＦＢ３，ＦＣ１〜ＦＣ３はそれぞれ２次元画像Ｇ１〜Ｇ３の異なる特徴を表すものとなる。

特徴量マップＦＡ１〜ＦＡ３，ＦＢ１〜ＦＢ３，ＦＣ１〜ＦＣ３は、それぞれプーリング層３２Ａ〜３２Ｃによりプーリングされ、特徴量マップＦＡ１１〜ＦＣ１１が出力される。特徴量マップＦＡ１１〜ＦＣ１１は全結合層３３に入力され、全結合層３３からクラス分類結果が出力される。

また、図１０に示すように、畳み込み層３１およびプーリング層３２に加えて、特徴量マップＦ１１に畳み込み層３１とは異なる畳み込み処理を行う畳み込み層３６、および畳み込み層３６の出力をプーリングするプーリング層３７を設けるようにしてもよい。この場合、プーリング層３７は、畳み込み層３６が出力する特徴量マップにおける、例えば２×２画素の領域の４つの値の最大値、最小値または平均値等を抽出することにより、プーリングを行うものである。なお、プーリング層３７の後段にさらに畳み込み層およびプーリングを設けてもよい。また、図９に示すＣＮＮ２３におけるプーリング層３２Ａ〜３２Ｃの後段に、図１０と同様にさらなる畳み込み層およびプーリング層を設けてもよい。

また、上記実施形態において、２次元画像を生成する際に、３次元画像Ｖ０における投影する対象を定義する複数のマスクを処理パラメータとして用いてもよい。例えば、３次元画像Ｖ０における心臓領域、心室領域および心房領域を抽出するマスクＭ１〜Ｍ３を用意し、３次元画像Ｖ０をマスクＭ１〜Ｍ３を用いてボリュームレンダリングすることにより、３つの２次元画像を生成してもよい。この場合、３つの２次元画像の色および不透明度は一定としてもよく、上記と同様に複数種類のカラーテンプレートを用意して、投影した領域毎に異なる色および不透明度を有する２次元画像を生成してもよい。この場合においても、カラーテンプレートには、色のみを定義してもよく、不透明度のみを定義してもよい。また、この場合、より多くの２次元画像が生成されることとなるため、ＣＮＮ２３においては、上記実施形態よりも多くの畳み込み層を有するものとすればよい。

１画像分類装置
２３次元画像撮影装置
３画像保管サーバ
４ネットワーク
１１ＣＰＵ
１２メモリ
１３ストレージ
１４ディスプレイ
１５入力部
２１画像取得部
２２２次元画像生成部
２３畳み込みニューラルネットワーク（ＣＮＮ）
３１、３６畳み込み層
３２、３７プーリング層
３３全結合層
３５カーネル

Claims

複数の処理層が階層的に接続されたニューラルネットワークにより、３次元画像を複数のクラスに分類する画像分類装置であって、
前記ニューラルネットワークが、前記３次元画像を複数の処理パラメータによって投影処理することにより生成された複数の２次元画像のそれぞれに対して、畳み込み処理を行う畳み込み層と、
前記畳み込み処理がなされた前記複数の２次元画像のそれぞれにおける同一位置の値をプーリングするプーリング層とを備えたことを特徴とする画像分類装置。
前記３次元画像を構成する各画素を前記複数のクラスに分類する請求項１記載の画像分類装置。
前記投影処理はボリュームレンダリングであり、前記パラメータは色、不透明度、および投影する対象を定義するマスクの少なくとも１つである請求項１または２記載の画像分類装置。
前記投影処理は最大値投影処理、最小値投影処理および平均値投影処理のいずれかであり、前記パラメータは投影する際の視線方向に対する始点位置と終点位置である請求項１または２記載の画像分類装置。
前記２次元画像は、前記３次元画像に対して設定されたサブウィンドウについての２次元画像である請求項１から４のいずれか１項記載の画像分類装置。
前記複数の２次元画像を生成する２次元画像生成手段をさらに備えた請求項１から５のいずれか１項記載の画像分類装置。
複数の処理層が階層的に接続されたニューラルネットワークにより、３次元画像を複数のクラスに分類する画像分類方法であって、
前記ニューラルネットワークが、畳み込み層およびプーリング層を備え、
前記畳み込み層が、前記３次元画像を複数の処理パラメータによって投影処理することにより生成された複数の２次元画像のそれぞれに対して畳み込み処理を行い、
前記プーリング層が、前記畳み込み処理がなされた前記複数の２次元画像のそれぞれにおける同一位置の値をプーリングすることを特徴とする画像分類方法。
複数の処理層が階層的に接続されたニューラルネットワークにより、３次元画像を複数のクラスに分類する画像分類方法をコンピュータに実行させるための画像分類プログラムであって、
前記ニューラルネットワークが、畳み込み層およびプーリング層を備え、
前記畳み込み層が、前記３次元画像を複数の処理パラメータによって投影処理することにより生成された複数の２次元画像のそれぞれに対して畳み込み処理を行う手順と、
前記プーリング層が、前記畳み込み処理がなされた前記複数の２次元画像のそれぞれにおける同一位置の値をプーリングする手順とをコンピュータに実行させることを特徴とする画像分類プログラム。