JP6665999B2

JP6665999B2 - データ処理装置、決定木生成方法、識別装置及びプログラム

Info

Publication number: JP6665999B2
Application number: JP2015145634A
Authority: JP
Inventors: 朝春喜友名; 上條　憲一; 憲一上條; 亨宇坂元; 明典橋口; 時也阿部
Original assignee: NEC Corp; Keio University
Current assignee: NEC Corp; Keio University
Priority date: 2015-07-23
Filing date: 2015-07-23
Publication date: 2020-03-13
Anticipated expiration: 2035-07-23
Also published as: JP2017026482A

Description

本発明は、データ処理装置、決定木生成方法、識別装置及びプログラムに関する。特に、細胞画像から生成された特徴量ベクトルを処理するデータ処理装置、決定木生成方法、識別装置及びプログラムに関する。

患者から臓器の一部を検体として採取し、当該検体を薄く切断した断面を顕微鏡にて観察する病理診断が行われている。例えば、肝臓癌が疑われる患者から肝細胞を採取し、当該肝細胞を撮影することで得られる病理画像（肝病理画像）を医師が確認し、癌の悪性度（グレード）を判定することが行われている。

しかし、上記のような病理診断自体の作業量は膨大であり、医師の負担が大きいものとなっている。そのため、医師の負担を軽減することを目的とした画像処理技術、情報処理技術等の技術開発が行われている。

例えば、特許文献１には、病理画像から細胞核、空孔、細胞質、間質等を中心とするサブイメージを抽出すると同時に、細胞核の色情報を抽出し、両者を特徴候補として記憶することにより、より高い精度で腫瘍の有無、及び腫瘍の良性・悪性を判定する技術が開示されている。また、非特許文献１に、決定木の生成方法に関する詳細が開示されている。

特開２００６−１５３７４２号公報

Roman Timofeev、"Classification and Regression Trees (CART) Theory and Applications"、２００４年１２月２０日、［online］、［平成２７年６月２６日検索］、インターネット〈URL：http://edoc.hu-berlin.de/master/timofeev-roman-2004-12-20/PDF/timofeev.pdf〉

なお、上記先行技術文献の各開示を、本書に引用をもって繰り込むものとする。以下の分析は、本発明者らによってなされたものである。

例えば、特許文献１に開示されるように、医師による病理診断をサポートする病理画像解析技術が存在する。しかし、上記技術は、患者が癌に罹患しているか否かの判定（癌、非癌の判定）に留まっており、上記の判定が下された理由、根拠を積極的に開示しようとするものではない。つまり、病理画像（細胞画像）に現れている種々の特徴からどのような理由、過程により判定結果が算出されているのかを、医師等は容易に理解することができない。細胞画像に現れている特徴と判定結果との関係が、医師等にとって理解しがたいものである場合、当該判定結果をどの程度信用して良いか分からず、医師等の負担を軽減するための技術が十分活用できているとは言い難い状況にある。

本発明は、細胞画像の特徴量から得られる判定結果の根拠が容易に理解可能な識別規則を生成する、データ処理装置、決定木生成方法、識別装置及びプログラムを提供することを目的とする。

本発明の第１の視点によれば、細胞画像に与えられたラベルと、前記細胞画像から抽出された複数の特徴量と、を１組とする学習データを入力する入力部と、サンプルの前記ラベルに相当する情報を識別するための決定木を、前記学習データに基づいて生成する、決定木生成部と、を備える、データ処理装置が提供される。
特に、細胞画像に与えられたラベルと、前記細胞画像から抽出された複数の特徴量と、を１組とする学習データを入力する入力部と、
サンプルの前記ラベルに相当する情報を識別するための決定木を、前記学習データに基づいて生成する、決定木生成部と、
前記複数の特徴量のなかから、前記決定木生成部による決定木の生成に用いられる特徴量を選択する、特徴量選択部と、を備え
前記特徴量選択部は、
前記学習データに基づく決定木の生成と、
前記生成された決定木の分岐条件に含まれる特徴量それぞれの品質の算出と、
前記品質が算出された特徴量それぞれの重要度の算出と、
前記算出された重要度に基づき、前記学習データに含まれる複数の特徴量から所定の数の特徴量を削除して新たな学習データを生成することと、
前記新たな学習データに含まれる特徴量が、所定の条件を満たすか否かの判定と、
を複数回繰り返すことで、前記決定木生成部による決定木の生成に用いられる特徴量の絞り込みを行う、
データ処理装置が提供される。

本発明の第２の視点によれば、細胞画像に与えられたラベルと、前記細胞画像から抽出された複数の特徴量と、を１組とする学習データを入力するステップと、サンプルの前記ラベルに相当する情報を識別するための決定木を、前記学習データに基づいて生成するステップと、を含む、決定木生成方法が提供される。
特に、細胞画像に与えられたラベルと、前記細胞画像から抽出された複数の特徴量と、を１組とする学習データを入力するステップと、
サンプルの前記ラベルに相当する情報を識別するための決定木を、前記学習データに基づいて生成するステップと、
前記複数の特徴量のなかから、決定木の生成に用いられる特徴量を選択するステップと、を含み、
前記特徴量を選択するステップにおいて、
前記学習データに基づく決定木の生成と、
前記生成された決定木の分岐条件に含まれる特徴量それぞれの品質の算出と、
前記品質が算出された特徴量それぞれの重要度の算出と、
前記算出された重要度に基づき、前記学習データに含まれる複数の特徴量から所定の数の特徴量を削除して新たな学習データを生成することと、
前記新たな学習データに含まれる特徴量が、所定の条件を満たすか否かの判定と、
を複数回繰り返すことで、決定木の生成に用いられる特徴量の絞り込みを行う、
決定木生成方法が提供される

本発明の第３の視点によれば、上記の決定木生成方法により生成された決定木を用いて、サンプルの識別を行う識別装置が提供される。

本発明の第４の視点によれば、細胞画像に与えられたラベルと、前記細胞画像から抽出された複数の特徴量と、を１組とする学習データを入力する処理と、サンプルの前記ラベルに相当する情報を識別するための決定木を、前記学習データに基づいて生成する処理と、をデータ処理装置に搭載されたコンピュータに実行させるプログラムが提供される。
特に、細胞画像に与えられたラベルと、前記細胞画像から抽出された複数の特徴量と、を１組とする学習データを入力する処理と、
サンプルの前記ラベルに相当する情報を識別するための決定木を、前記学習データに基づいて生成する処理と、
前記複数の特徴量のなかから、決定木の生成に用いられる特徴量を選択する処理と、をデータ処理装置に搭載されたコンピュータに実行させ、
前記特徴量を選択する処理において、
前記学習データに基づく決定木の生成と、
前記生成された決定木の分岐条件に含まれる特徴量それぞれの品質の算出と、
前記品質が算出された特徴量それぞれの重要度の算出と、
前記算出された重要度に基づき、前記学習データに含まれる複数の特徴量から所定の数の特徴量を削除して新たな学習データを生成することと、
前記新たな学習データに含まれる特徴量が、所定の条件を満たすか否かの判定と、
を複数回繰り返すことで、決定木の生成に用いられる特徴量の絞り込みを行う、
プログラムが提供される。
なお、このプログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。記憶媒体は、半導体メモリ、ハードディスク、磁気記録媒体、光記録媒体等の非トランジェント（non-transient）なものとすることができる。本発明は、コンピュータプログラム製品として具現することも可能である。

本発明の各視点によれば、細胞画像の特徴量から得られる判定結果の根拠が容易に理解可能な識別規則を生成することに寄与するデータ処理装置、決定木生成方法、識別装置及びプログラムが、提供される。

一実施形態の概要を説明するための図である。第１の実施形態に係る病理画像処理システムの構成の一例を示す図である。学習データ生成装置の内部構成の一例を示す図である。注視領域画像データの一例とラベル情報の一例を示す図である。特徴量ベクトル生成部が生成する特徴量を説明するための図である。細胞核領域の一例を示す図である。特徴量ベクトル生成部による特徴量に対する統計処理を説明するための図である。学習データ生成装置が生成する学習データの一例を示す図である。データ処理装置の内部構成の一例を示す図である。特徴量選択部が参照する第１の選択ポリシの一例を示す図である。第１の選択処理を実行した結果の学習データの一例を示す図である。特徴量選択部が参照する第２の選択ポリシの一例を示す図である。特徴量選択部の第２選択処理の一例を示すフローチャートである。特徴量選択部が生成する決定木の一例を示す図である。特徴量の品質を説明するための図である。特徴量選択部による特徴量の絞り込みを説明するための図である。第２の選択処理を実行した結果の学習データの一例を示す図である。データ処理装置の動作の一例を示すフローチャートである。決定木の生成に使用する学習データの一例を示す図である。図１９に示す学習データから得られる決定木の一例を示す図である。決定木によるグレーディング結果の一例を示す図である。第２の実施形態に係る病理画像処理システムの構成の一例を示す図である。付随情報の一例を示す図である。第２の実施形態に係るデータ処理装置の内部構成の一例を示す図である。決定木による分類結果の一例を示す図である。第２の実施形態の解析部による解析結果の一例を示す図である。決定木による分類結果ごとの抗癌剤の有効性を説明するための図である。付随情報の別の一例を示す図である。第２の実施形態による解析部の解析結果をグラフ化した図である。データ処理装置の別の内部構成の一例を示す図である。注視領域ＩＤに対応する患者の癌再発情報をラベルとして用いる場合のラベル情報の一例を示す図である。

初めに、一実施形態の概要について説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、この概要の記載はなんらの限定を意図するものではない。

一実施形態に係るデータ処理装置１００は、入力部１０１と、決定木生成部１０２と、を備える。入力部１０１は、細胞画像に与えられたラベルと、細胞画像から抽出された複数の特徴量と、を１組とする学習データを入力する。決定木生成部１０２は、サンプルのラベルに相当する情報を識別するための決定木を、学習データに基づいて生成する。

データ処理装置１００は、細胞画像を特徴量付ける複数の特徴量（特徴量ベクトル）を受け付ける。データ処理装置１００は、当該特徴量を用いて、細胞画像に与えられたラベル（例えば、癌細胞のグレード）を識別するための決定木を生成する。決定木は、葉が分類（クラスラベル）を表し、枝がその分類に至るまでの根拠を示す木構造を有する。従って、細胞画像のグレーディング等に利用する識別規則を決定木により生成することで、医師等は当該識別規則による判定結果、予測結果の根拠を容易に理解することができる。

以下に具体的な実施の形態について、図面を参照してさらに詳しく説明する。なお、各実施形態において同一構成要素には同一の符号を付し、その説明を省略する。

［第１の実施形態］
第１の実施形態について、図面を用いてより詳細に説明する。

図２は、第１の実施形態に係る病理画像処理システムの構成の一例を示す図である。図２を参照すると、病理画像処理システムには、学習データ生成装置１０と、データ処理装置２０と、識別装置３０と、が含まれる。

なお、第１の実施形態では、患者の肝臓から採取した細胞から取得される細胞画像をシステムの対象として説明する。但し、細胞及び臓器を限定する趣旨でではなく、他の臓器から採取した細胞でも良いことは勿論である。

学習データ生成装置１０は、細胞画像から抽出された注視領域（ＲＯＩ；Region Of Interest）に係る画像データ（以下、注視領域画像データと表記する）と、上記注視領域に対応するグレードを含むラベル情報と、を入力する。

医師等により取得された細胞画像の一部を顕微鏡に搭載されたＣＣＤ（Charge Coupled Device）カメラにて撮像して得られる画像が注視領域画像データである。

ラベル情報に含まれる注視領域画像データのグレード（注視領域画像データに与えられるラベル）は、各注視領域画像データを医師が確認し、当該医師の知見に基づきグレード０（Ｇ０）からグレード４（Ｇ４）の間で定められるものとする。なお、第１の実施形態では、グレードが整数値の場合を例に説明するが、グレードは必ずしも整数でなくてもよく、例えばグレード２．５などとしてもよい。この場合は、回帰決定木を用いることによって、整数の場合と同様な手順で分類を実行可能である。あるいは、医師によるグレードが整数ではない場合には、学習データ生成装置１０は、小数点以下を切り上げる、切り下げる、四捨五入する等の処理によりグレードを整数に変更してもよい。

学習データ生成装置１０は、複数の注視領域画像データと、当該複数の注視領域画像データそれぞれに対応するラベル情報と、を入力する。

学習データ生成装置１０は、注視領域画像データとラベル情報に基づいて学習データを生成し、データ処理装置２０に出力する。

データ処理装置２０は、入力した学習データに基づき、肝細胞のグレーディング（格付け）を行うための識別規則（識別モデル、識別ルール又は識別関数）を生成する。より具体的には、データ処理装置２０は、入力した学習データに基づき、決定木を生成する。データ処理装置２０が生成した決定木（識別規則）は識別装置３０に提供される。

識別装置３０は、グレーディングが行われていないサンプルの特徴量（特徴量ベクトル）を入力する。識別装置３０は、データ処理装置２０から提供された決定木を予測モデルとして用いて、上記入力した特徴量に対する応答（決定木の葉に付されたクラスラベル）を出力する（識別結果を出力する）。即ち、データ処理装置２０は、サンプルのグレード（ラベルに相当する情報）を識別するための決定木を学習データに基づき生成する。また、識別装置３０は、データ処理装置２０が生成した決定木を用いて、サンプルデータのグレーディングを行う。

図３は、学習データ生成装置１０の内部構成の一例を示す図である。図３を参照すると、学習データ生成装置１０は、入力部１１と、特徴量ベクトル生成部１２と、学習データ出力部１３と、ＨＤＤ（Hard Disk Drive）等からなる記憶部１４と、を備える。なお、学習データ生成装置１０を操作するための操作デバイス（キーボード、マウス等）や表示デバイスの図示は省略している。また、入力部１１を初めとする各部は、記憶部１４にアクセスし、データの書き込み、読み出しが可能に構成されている。

入力部１１は、上述の注視領域画像データとラベル情報を入力する手段である。各注視領域画像データには識別子（ＩＤ；Identifier）が与えられており、入力部１１は注視領域画像データと当該画像データを識別する識別子（以下、注視領域ＩＤと表記する）を入力する。例えば、入力部１１は、図４（ａ）に示すような複数の注視領域画像データを入力する。なお、入力部１１が入力する注視領域画像データは、グレースケール画像であってもカラー画像であってもよく、画像の形式（画像の階調、色彩のフォーマット等）に限定はない。

ラベル情報は、注視領域ＩＤと医師等により判定されたグレードが１組となるテーブル情報として入力される。例えば、入力部１１は、図４（ｂ）に示すような複数の注視領域画像データそれぞれに対応する注視領域ＩＤにより関連付けられたグレードを含むラベル情報を入力する。

入力部１１は、入力した複数の注視領域画像データと対応するラベル情報を、特徴量ベクトル生成部１２に引き渡す。

特徴量ベクトル生成部１２は、注視領域画像データを特徴付ける特徴量ベクトルを算出する。なお、特徴量ベクトル生成部１２は、１枚の注視領域画像データから複数種類の特徴量を生成し、且つ、各種類の特徴量に対する統計処理により複数の特徴量からなる特徴量ベクトルを生成する。第１の実施形態では、特徴量ベクトル生成部１２は、図５に示すような１２種類の特徴量を生成するものとする。

初めに、特徴量ベクトル生成部１２は、入力した注視領域画像データに含まれる細胞核の領域（以下、細胞核領域と表記する）を抽出する。例えば、図４を参照すると、特徴量ベクトル生成部１２は、細胞核領域２０１、２０２のような領域を順次抽出する。その際、特徴量ベクトル生成部１２は、細胞核領域とそれ以外の領域との間の輝度差（コントラスト）等を利用して細胞核領域を抽出する。

次に、特徴量ベクトル生成部１２は、抽出した細胞核領域に対して特徴量算出処理を施すことで各種の特徴量を算出する。ここでは、例えば、図６に示すような細胞核領域が抽出されたものとする。この場合、細胞核の大きさ（細胞核の面積；特徴量Ｆ１、図５参照）を算出する際には、特徴量ベクトル生成部１２は、図６に示す灰色の領域（細胞核領域）を構成する画素の数を計数する。その後、特徴量ベクトル生成部１２は、画素の計数値に所定の定数（１画素の面積に相当する細胞の大きさ）を乗算し、その結果を特徴量Ｆ１とする。あるいは、特徴量ベクトル生成部１２は、細胞核領域を構成する画素数（ピクセル数）を特徴量Ｆ１としてもよい。

また、特徴量ベクトル生成部１２は、細胞核領域の境界をなす画素（図６に示す境界線２１１上の画素）の数を計数し、その結果に基づき細胞核の周長（特徴量Ｆ２）を算出する。

細胞核の大きさ（面積）とその周長が得られると、下記の式（１）により、特徴量ベクトル生成部１２は、細胞核の円形度（特徴量Ｆ３）を算出することができる。

但し、Ｓが細胞核の面積であり、Ｌは細胞核の周長である。

特徴量ベクトル生成部１２は、細胞核領域を楕円形状と扱い、その長軸（例えば、図６に示す長軸２１２）をなす画素数を計数し、その結果から細胞核の楕円長軸長（特徴量Ｆ４）を算出できる。また、特徴量ベクトル生成部１２は、楕円形状の短軸（図６に示す短軸２１３）をなす画素数を計数し、その結果から細胞核の楕円短軸長（特徴量Ｆ５）を算出できる。さらに、特徴量ベクトル生成部１２は、細胞核の楕円長軸長に対する楕円短軸長の比を算出することで、特徴量Ｆ６を算出する。

特徴量ベクトル生成部１２は、細胞核領域やその周辺の画素値（濃度、輝度値）を用いて、特徴量Ｆ７〜Ｆ１１を算出する。例えば、特徴量ベクトル生成部１２は、細胞核が染色されている場合には、細胞核領域の蛍光領域と非蛍光領域を最も効率よく分離できる閾値を算出し、当該閾値を特徴量Ｆ７として算出する。

また、特徴量ベクトル生成部１２は、細胞核領域の画素値からグレーレベルの同時生起行例（ＧＬＣＭ；Gray Level Co-occurrence Matrix）を算出し、当該ＧＬＣＭ値から細胞核領域の角度別２次モーメント（ＡＳＭ；Angular Second Moment、特徴量Ｆ８）、コントラスト（特徴量Ｆ９）、一様性（特徴量Ｆ１０）、エントロピー（ＥＮＴ；Entropy、特徴量Ｆ１１）等の特徴量を算出できる。さらに、特徴量ベクトル生成部１２は、細胞核領域の核密度（ＮＤｅｎｓ；Nuclear Density）を計算することで特徴量（Ｆ１２）を算出できる。

特徴量ベクトル生成部１２は、注視領域画像データを特徴付ける特徴量として、少なくとも、細胞核の大きさ（特徴量Ｆ１）、細胞核の円形度（特徴量Ｆ３）、細胞核のコントラスト（特徴量Ｆ９）、細胞核の一様性（特徴量Ｆ１０）を生成する。

特徴量ベクトル生成部１２は、注視領域画像データに含まれる全ての細胞核（細胞核領域）について、注視領域画像データを特徴付ける特徴量Ｆ１〜Ｆ１２を算出する。その結果、例えば、１枚の注視領域画像データに１００個の細胞核領域が含まれていれば、特徴量Ｆ１〜Ｆ１２のそれぞれについて１００個の特徴量が算出される。

特徴量ベクトル生成部１２は、１枚の注視領域画像データから算出した複数の特徴量それぞれについて統計処理を施すことで、当該特徴量を代表する複数の指標を算出する。なお、以降の説明において、特定の特徴量Ｆを代表する統計値（指標）をハイフンと数字を用いて表記する。例えば、図５を参照すると、細胞核の大きさに係る特徴量Ｆ１を例に取ると、細胞核の大きさは、Ｆ１−１〜Ｆ１−５により代表される。なお、各特徴量から算出される複数の統計値もまた、細胞核の特徴を特徴付ける値に相違はないので、特徴量と表記する。例えば、５つの特徴量Ｆ１−１〜Ｆ１−５は、特徴量Ｆ１を代表する統計値である。

特徴量ベクトル生成部１２は、例えば、上述のようにして算出した特徴量Ｆ１に関する度数分布（ヒストグラム）を生成する。ここでは、例えば、図７（ａ）に示すよう度数分布が得られたものとする。次に、特徴量ベクトル生成部１２は、生成した度数分布から累積分布（図７（ｂ）参照）を生成し、当該累積分布から得られるパーセンタイル値を計算することで、細胞核の大きさに関する特徴量Ｆ１−１〜Ｆ１−５を算出する。

他の特徴量Ｆ２〜Ｆ１２に関しても、個別の特徴量を算出した後、当該特徴量の度数分布、累積分布を生成することで、各特徴量を代表する複数の特徴量が生成される。特徴量ベクトル生成部１２は、上記のような処理を繰り返すことで、１枚の注視領域画像データから６０（１２×５）個の特徴量を算出する。即ち、特徴量ベクトル生成部１２は、各注視領域画像データを特徴付ける特徴量ベクトルを算出する。

特徴量ベクトル生成部１２は、入力部１１から取得したラベル情報と、注視領域画像データごとに算出した複数の特徴量と、を学習データ出力部１３に引き渡す。

学習データ出力部１３は、特徴量ベクトル生成部１２から取得した情報に基づき、学習データを生成する。具体的には、学習データ出力部１３は、注視領域ＩＤと、ラベル情報（注視領域画像データのグレード）と、特徴量ベクトル（６０個の特徴量）と、を結合して得られる情報を学習データとして生成する（図８参照）。即ち、学習データ出力部１３は、注視領域画像データを識別する識別子（注視領域ＩＤ）と、各注視領域画像データに与えられたラベル（細胞画像のグレード）と、注視領域画像データから抽出された複数の特徴量（特徴量ベクトル）と、を１組とする学習データを生成し、出力する。

学習データ出力部１３は、生成した学習データをデータ処理装置２０に出力する。なお、学習データ生成装置１０からデータ処理装置２０への学習データの入出力は、ＵＳＢ（Universal Serial Bus）メモリ等の外部記憶装置を用いても良いし、ネットワーク、データベースサーバ等を用いても良い。

図９は、データ処理装置２０の内部構成の一例を示す図である。図９を参照すると、データ処理装置２０は、入力部２１と、特徴量選択部２２と、決定木生成部２３と、出力部２４と、ＨＤＤ等からなる記憶部２５と、を備える。なお、データ処理装置２０を操作するための操作デバイス（キーボード、マウス等）や表示デバイスの図示は省略している。また、入力部２１を初めとする各部は、記憶部２５にアクセスし、データの書き込み、読み出しが可能に構成されている。

入力部２１は、学習データ生成装置１０が出力する学習データを入力する手段である。入力部２１は、取得した学習データを特徴量選択部２２に引き渡す。

特徴量選択部２２は、取得した学習データに含まれる特徴量ベクトル（複数の特徴量；上記の例では６０個の特徴量）から、決定木生成部２３による決定木の生成に用いられる特徴量を選択する手段である。具体的には、特徴量選択部２２は、第１の選択処理と、第２の選択処理と、を実行し、最終的に決定木生成部２３が利用する特徴量を絞り込む。

特徴量選択部２２は、記憶部２５に格納された第１の選択ポリシを参照しつつ、第１の選択処理を実行する。例えば、第１の選択ポリシとして図１０に示すような情報が、記憶部２５に格納されている。

図１０を参照すると、第１の選択ポリシには利用する特徴量の種別は特徴量Ｆ１〜Ｆ１１であることが示されているので、特徴量選択部２２は、学習データの特徴量ベクトルに含まれる特徴量Ｆ１〜Ｆ１２のうち、特徴量Ｆ１２を除外した特徴量Ｆ１〜Ｆ１１を選択する。

さらに、第１の選択ポリシには、特徴量を代表する複数の統計値のうち、いずれを採用するかに関する情報が含まれ、当該情報は「中央値（メディアン）」と記載されているので、特徴量選択部２２は、中央値に該当する特徴量を選択する。具体的には、図８を参照すると、細胞核の大きさに関する特徴量Ｆ１を代表する特徴量Ｆ１−１〜Ｆ１−５のうち、特徴量Ｆ１−３が中央値に該当（図７（ｂ）参照）するので、特徴量選択部２２は、細胞核の大きさに関する特徴量Ｆ１を代表する特徴量として特徴量Ｆ１−３を選択する。このように、特徴量選択部２２は、第１の選択ポリシに従い、各特徴量を代表する複数の特徴量（統計値）から１つの特徴量を選択する。

特徴量選択部２２が、図８に示す学習データに対して、第１の選択処理を実行したが結果が図１１に示されている。図１１に示すように、特徴量選択部２２は、第１の選択処理を実行することで、６０個の特徴量から１１個の特徴量に絞り込みを行っている。

特徴量選択部２２は、第１の選択処理が終了した学習データに対し、記憶部２５に格納された第２の選択ポリシに従い、第２の選択処理を実行する。

例えば、第２の選択ポリシとして図１２に示すような情報が、記憶部２５に格納されている。第２の選択ポリシの「分析モデル＝決定木」は、学習データ（例えば、図１１に示す学習データ）に対し、ラベル（グレード）を目的変数（被説明変数）とし、特徴量を説明変数として決定木による分析モデルを生成することを意味する。そして、当該決定木による分析モデルを用いて、特徴量（説明変数）の重要度を評価し、重要度が低い２つの特徴量を削除し、最終的に特徴量を４つに絞り込むことを、第２の選択ポリシは示す。

ここでは、図１３を参照しつつ、特徴量選択部２２による上記第２の選択処理について説明する。

初めに、特徴量選択部２２は記憶部２５に格納された第２の選択ポリシを参照する（ステップＳ１０１）。

次に、特徴量選択部２２は、第２の選択ポリシに記載された「分析モデル＝決定木」に従い、第１の選択処理が終了した学習データに基づき決定木の生成を行う（ステップＳ１０２）。なお、特徴量選択部２２や後述する決定木生成部２３による決定木の生成には、ＣＡＲＴ（Classification And Regression Trees）アルゴリズムやＩＤ（Iterative Dichotomiser）３等のアルゴリズムを使用することができる。また、ジニ係数やエントロピーを計算することで決定木の分岐条件を生成することができる。

ここでは、例えば、図１４に示すような決定木が得られたものとする。なお、図１４に示す決定木の分岐条件３０１〜３０７において、変数Ｘ、Ｙ、Ｚは特徴量Ｆ１−３〜Ｆ１１−３のいずれかである。

次に、特徴量選択部２２は、生成された決定木の分岐条件（図１４の例では、分岐条件３０１〜３０７）に含まれる各説明変数（特徴量）それぞれの品質（Quality）を算出する（ステップＳ１０３）。具体的には、特徴量選択部２２は、下記の式（２）を用いて、各説明変数のジニ係数Ｇを算出する。

但し、式（２）のＰｉはクラスｉの確率を示す。

ジニ係数Ｇを計算した特徴量選択部２２は、ジニ係数Ｇが最小となる変数Ｘの値を最適な分割点（Best Split Point）Ｘｓと定める。あるいは、特徴量選択部２２は、例えば、図１４に示すような決定木生成の際にジニ係数を利用していれば、算出したジニ係数を利用して分割点Ｘｓを特定してもよい。

特徴量選択部２２は、下記の式（３）を用いて、分割点Ｘｓにおける変数Ｘの品質Ｑ（Ｘ、Ｘｓ）を算出する。

・・・（３）

式（３）のＮは変数の総数、Ｎ_Ｌは左側の子ノードに分類される変数の数、Ｎ_Ｒは右側の子ノードに分類される変数の数を示す。式（３）のＩ_｛Ａ｝は指示関数（Indicator Function）を表し、条件Ａが成立する場合に「１」、それ以外（条件Ａが不成立）の場合に「０」を出力する関数である。

式（３）に示されたＩ_{｛Ｃｉ＝Ｎｅｇ｝}は、クラス（カテゴリ）ＣｉがＮｅｇａｔｉｖｅの場合に「１」、それ以外の場合に「０」を出力する指示関数である。また、Ｉ_{｛Ｘｉ＞Ｘｓ｝}は、ＸｉがＸｓよりも大きい場合に「１」、それ以外の場合に「０」を出力する指示関数である。式（３）の記載、Ｉ_｛Ａ｝Ｉ_｛Ｂ｝は条件Ａと条件Ｂが同時に成立する場合に「１」を出力し、それ以外の場合には「０」を出力することを意味する。従って、式（３）のＩ_{｛Ｃｉ＝Ｎｅｇ｝}Ｉ_{｛Ｘｉ≦Ｘｓ｝}の総和は、Ｎｅｇａｔｉｖｅクラスに属し、且つ、その特徴量がＸｓ以下のデータに関する和となる。式（３）に示される他の指示関数の積も同様の意味を有する。例えば、式（３）のＩ_{｛Ｃｉ＝Ｐｏｓ｝}Ｉ_{｛Ｘｉ≦Ｘｓ｝}の総和は、Ｐｏｓｉｔｉｖｅクラスに属し、且つ、その特徴量がＸｓ以下のデータに関する和となる。

例えば、図１５に示すように、変数Ｘが分割点Ｘｓにより最適に分割されているものとする。この場合、Ｎ＝１０、ＮＬ＝５、ＮＲ＝５であるので、式（３）を適用すると、分割点Ｘｓにおける変数Ｘの品質Ｑ（Ｘ、Ｘｓ）は、Ｑ（Ｘ、Ｘｓ）＝（４^２＋１^２）／５＋（０^２＋５^２）／５＝８．４と計算される。

図１４に示す例では、分岐条件３０１〜３０７それぞれに用いられている変数（Ｘ、Ｙ、Ｚ）の品質が算出される。なお、図１４では、各分岐条件での品質Ｑを、当該分岐条件にて用いられている変数とその符号により、分岐条件内に併記している。例えば、分岐条件３０１では、変数Ｘが用いられているので、分岐条件３０１における品質ＱをＱ（Ｘ、３０１）と表記している。

次に、特徴量選択部２２は、品質が算出された特徴量それぞれの重要度（Importance）を算出する（ステップＳ１０４）。具体的には、決定木の分岐条件それぞれの品質の総和に対する各変数（特徴量）の品質の割合から特徴量の重要度が算出される。例えば、図１４に示す例では、変数Ｘの重要度は式（４）、変数Ｙの重要度は式（５）、変数Ｚの重要度は式（６）によりそれぞれ算出できる。

次に、特徴量選択部２２は、第２の選択ポリシに含まれる「絞り込み方法」に従い、特徴量の絞り込みを行う（ステップＳ１０５）。例えば、特徴量選択部２２が図１１に示す学習データに対して決定木を作成し、各変数の重要度を降順（重要度が高い順）に並べた結果が図１６（ａ）のとおりであるとすると、下位２つの特徴量Ｆ２−３、Ｆ１１−３が削除される。なお、図１６において、灰色にて色づけされた行は、特徴量選択部２２による絞り込みにより削除される行である。このように、特徴量選択部２２は、先のステップにて算出された重要度に基づき、学習データに含まれる複数の特徴量から所定の数の特徴量を削除して新たな学習データを生成する。

次に、特徴量選択部２２は、第２の選択ポリシに含まれる「終了条件」に、上記の新たな学習データが合致するか否かを判定する（ステップＳ１０６）。ここでは、「終了条件＝特徴量の数が４」であるので、特徴量選択部２２は、特徴量の数が４つにまで絞り込めているか否かを判定する。

新たな学習データが終了条件を満たしていなければ（ステップＳ１０６、Ｎｏ分岐）、特徴量選択部２２は、ステップＳ１０２に戻り処理を継続する。即ち、特徴量選択部２２は、特徴量が絞り込まれた新たな学習データを使って、再び決定木を作成し、当該決定木の分岐条件をなす変数の品質、重要度を算出し、重要度の低い特徴量を削除する。

新たな学習データが終了条件を満たしていれば（ステップＳ１０６、Ｙｅｓ分岐）、特徴量選択部２２は処理を終了する。

上記のような絞り込みの結果、図１６（ａ）に示す特徴量は、図１６（ｂ）、図１６（ｃ）のように絞り込まれていき、最終的に図１６（ｄ）に示す特徴量（上から４つの特徴量）となる。

特徴量選択部２２により２段階の特徴量の絞り込みが行われた結果の学習データは、図１７のとおりとなる。特徴量選択部２２は、第１の選択処理及び第２の選択処理の実施により特徴量が絞り込まれた学習データ（例えば、図１７に示す学習データ）を、決定木生成部２３に引き渡す。

決定木生成部２３は、取得した学習データに基づき、識別規則を生成する。具体的には、決定木生成部２３は、図１７に示す学習データに基づき、決定木を生成する。決定木生成部２３は、決定木を生成する際、不純度が「０」となるまで、あるいは、予め定めた深さに決定木の分岐が到達するまで、分割する変数の選択と、データの部分集合の分割と、を繰り返す。決定木生成部２３は、生成した決定木を出力部２４に引き渡す。

出力部２４は、例えば、取得した決定木を「Ｉｆ−Ｔｈｅｎ」の形式にて外部装置（例えば、識別装置３０）に出力する。あるいは、出力部２４は、「Ｉｆ−Ｔｈｅｎ」の形式を、例えば図１４のように可視化し、画像データとして出力してもよい。

なお、第１の選択ポリシや第２の選択ポリシは、ユーザが任意にその内容を変更可能に構成されていることが望ましい。決定木生成部２３による決定木の生成の際に利用する特徴量が異なると、分岐条件（グレーディングの根拠、理由）や分類結果（識別結果、グレーディング）もまた異なるものとなる。そのため、同じ細胞画像から抽出された特徴量を含む学習データ（例えば、６０個の特徴量を含む学習データ）をデータ処理装置２０に入力したとしても、決定木の生成に利用する特徴量を変更することで、学習データの基礎となったサンプル（注視領域画像データを抽出したサンプル）に対する多角的、多面的な研究、解析が実現可能となる。

上述のデータ処理装置２０の動作をまとめると図１８に示すとおりとなる。

ステップＳ０１において、データ処理装置２０は、学習データを学習データ生成装置１０から入力する。

ステップＳ０２において、データ処理装置２０は、第１及び第２の選択処理の実行することにより、入力した学習データに含まれる特徴量の絞り込みを行う。

ステップＳ０３において、データ処理装置２０は、絞り込まれた特徴量を含む学習データを用いて、決定木を生成する。

ステップＳ０４において、データ処理装置２０は、決定木を外部に出力する。

［適用例］
次に、第１の実施形態にて説明した決定木の生成方法を適用した場合の例について説明する。ここでは、１１０５人の患者の肝細胞から生成した注視領域画像データ（細胞画像の一部）から特徴量ベクトルを生成し、最終的に４つの特徴量に絞り込んだ学習データ（図１９参照）から決定木を生成した場合を説明する。なお、図１９において、細胞核の大きさに関する特徴量Ｆ１−３は、細胞核領域をなす画素数を用いている。

図２０は、図１９に示す学習データから得られる決定木の一例を示す図である。なお、決定木の算出にあたり、決定木の深さを「４」としている。また、図２０以降に示す決定木において、分岐条件を満たす場合には左側に分岐し、満たさない場合には右側に分岐するものとする。さらに、同じグレードであっても異なる分類結果に振り分けられることがあるので、分類結果のクラスラベル（グレードＧ０〜Ｇ４）を区別する目的でアルファベットを付与している。例えば、同じグレードＧ２であっても、分類結果４０１〜４０５に分類され得るので、これらを区別するためにＧ２ａ〜Ｇ２ｅを分類結果に表記している。

図２０を参照すると、グレードがＧ３未満か否かは、ルートノードからの最初の分岐条件にて用いられる細胞核の円形度（特徴量Ｆ３−３）に大きく依存することが分かる。また、上述のように同じグレードＧ２であっても、５種類の分類結果に振り分けられることが分かる。換言するならば、同じグレードであっても、異なる分類結果に属する注視領域画像データは異なる特徴を有すると言える。

このように、決定木により示される識別規則は「Ｉｆ−Ｔｈｅｎ」の形式により表現されるので、図２０に示すような可視化が容易である。そのため、医師等が可視化された決定木を参照することで、グレーディングの理由や根拠を容易に理解できる。例えば、図２０に接した医師等は、円形度が高いのでグレードが低く与えられている、細胞核が大きいので高いグレードが与えられている、と言ったグレーディングの根拠、理由を得ることができる。あるいは、葉（クラスラベル）のノードからルートノードに向けて分岐条件を確認（決定木の流れを遡るように確認）することで、医師等は、各クラスラベルの特徴を把握することができる。

決定木生成部２３が生成する決定木の深さは、深いほど分類の精度は高くなる。図２１は、図１９に示す学習データから、決定木の深さを２０まで許容した場合のグレーディング結果（図２１（ａ））と、決定木の深さを４まで許容した場合のグレーディング結果（図２１（ｂ））と、を示す図である。図２１に示すグレードＧ０ｔ〜Ｇ４ｔは医師による判断（ラベル；真値、True）を示し、グレードＧ０ｐ〜Ｇ４ｐは生成された決定木を適用することで得られるグレードの予測値（Prediction）を示す。

図２１の縦と横のグレーディングが交差する箇所（図の灰色の箇所）は、医師による判定と決定木による予測が一致していることを示し、当該交差箇所に含まれる数が多いほど当該決定木によるグレーディングの精度が高いことを示す。具体的には、決定木の深さを「２０」に設定した場合には、その精度は９６．２％となる。一方、決定木の深さを「４」に設定した場合には、その精度は５６．７％となる。

このように、決定木の深さを深くするほどグレーディングの精度は向上するが、生成された決定木の深さが深ければ深いほど、決定木によるグレーディングの根拠は医師等にとって理解しがたいものとなる。つまり、決定木によるグレーディングの精度と、決定木によるグレーディングの根拠、理由の理解容易性には、トレードオフの関係が存在する。従って、精度と理解容易性の関係が最適となるような深さにより決定木を生成することが望ましい。

以上のように、第１の実施形態に係るデータ処理装置２０は、識別規則の生成に利用する特徴量の影響度（重要度）を把握する目的で決定木を利用している。また、データ処理装置２０は、複数の特徴量のうち、グレーディング結果に大きな影響を与える特徴量を残しつつ、影響の小さい特徴量を削除することで、最終的に利用する特徴量を絞り込んでいる。特徴量を絞り込むことで、決定木生成部２３が生成する決定木のサイズを小さくし、グレーディングの根拠や理由に対する理解容易性を高めている。

また、データ処理装置２０は、決定木の生成、特徴量の評価、特徴量の絞り込みという手順を１度に限り行うのではなく、同じ手順を複数回行うことで特徴量の絞り込みを行っている。このような複数回の絞り込みを行う理由は、特徴量の間に存在する複雑な関係の影響を可能な限り排除し、グレーディングの精度を高めるためである。例えば、特徴量Ａと特徴量Ｂが、細胞核の同じ特徴を表現する場合には、これらの特徴量を同時に決定木の生成に利用する必要性は低い。例えば、特徴量Ａを優先的に利用するとすれば、特徴量Ｂの結果に対する影響は低くなり、特徴量Ｂは削除しても影響は少ない。対して、特徴量Ａと特徴量Ｂが同時に利用されることで、分類の精度が高くなることもある。この場合、特徴量Ａが利用される場合には特徴量Ｂの影響度も高くなるが、特徴量Ａが利用されなければ特徴量Ｂの利用価値（結果に対する影響度）も低くなる。このように、特徴量の重要性は他の特徴量の存在に左右されるため、特徴量の組み合わせごとに各特徴量の重要度は変化する。例えば、図１６（ａ）を参照すると、特徴量Ｆ３−３の重要度は５番目となっている。一方、特徴量を順次絞り込んでいった結果の図１６（ｄ）では、特徴量Ｆ３-３の重要度は１番目となっている。つまり、使用する特徴量の数が少ない場合には特徴量Ｆ３−３の影響は大きいと言える。図１６（ａ）の段階で重要度の高い４つの特徴量を選択すると、特徴量Ｆ３−３は除外され、少数の特徴量にて影響度の高い特徴量Ｆ３−３が用いられないという不都合が生じる。このような不都合を回避するため、データ処理装置２０では、決定木の生成、特徴量の評価、特徴量の絞り込みという手順を繰り返しているのである。

決定木には、目的変数を非線形に分離可能であり、決定木の深さを十分にとれば高い精度が得られる利点がある。また、決定木による識別規則は容易に可視化が可能であり、分類結果に対する根拠、理由の理解が容易という利点もある。これらの利点は、他の分析モデル、学習モデル（例えば、サポートベクターマシン（ＳＶＭ；Support Vector Machine））には存在しない、又は希薄なものである。第１の実施形態に係るデータ処理装置２０は、提供される学習データに基づき、決定木を識別規則として生成することで、分類の精度と理解容易性の両立をなしている。

［第２の実施形態］
続いて、第２の実施形態について図面を参照して詳細に説明する。

第１の実施形態では、学習データから決定木を生成することを説明したが、第２の実施形態では、上記決定木のさらなる活用について説明する。

図２２は、第２の実施形態に係る病理画像処理システムの構成の一例を示す図である。図２２を参照すると、学習データ生成装置１０ａは、注視領域ＩＤにより関連付けられた注視領域画像データの付随情報を、注視領域画像データ及びラベル情報に加えて、入力する。学習データ生成装置１０ａは、第１の実施形態にて説明した方法により学習データを生成し、データ処理装置２０ａに出力する。学習データ生成装置１０ａが取得した付随情報は、学習データと共にデータ処理装置２０ａに提供される。

データ処理装置２０ａは、第１の実施形態にて説明した方法により、決定木を生成する。データ処理装置２０ａは、生成された決定木による分類結果それぞれが有する特徴を、付随情報に基づき解析する機能を有する。具体的には、データ処理装置２０ａは、決定木、その分類結果及び付随情報を利用して、種々の解析データや解析画像を解析結果として生成し、出力する。

図２３は、付随情報の一例を示す図である。なお、図２３には理解の容易のため、ラベルも併記している。図２３に示す付随情報は、注視領域ＩＤにて関連付けられる注視領域画像データの元になった肝病理画像を採取した患者に投与した抗癌剤と当該抗癌剤の効果（＋は効果あり、−は効果なし）に関する情報を含むものである。学習データ生成装置１０ａの学習データ出力部１３は、学習データに上記付随情報を添えてデータ処理装置２０ａに出力する。なお、図２３以降に示す抗癌剤Ａ〜Ｄやその効果は、データ処理装置２０ａの動作を説明するための仮想的な事例（データ）である。

図２４は、第２の実施形態に係るデータ処理装置２０ａの内部構成の一例を示す図である。第１の実施形態に係るデータ処理装置２０とデータ処理装置２０ａの相違点は、データ処理装置２０ａの各部が付随情報を扱えるように構成されている点と、解析部２６を備える点と、生成された決定木による分類結果が解析部２６に引き渡される点である。

図２５は、データ処理装置２０ａの決定木生成部２３が生成する決定木による分類結果の一例を示す図である。図２５に示すように、決定木生成部２３は、生成された決定木による各分類結果（各クラスラベル）それぞれに属する注視領域ＩＤの一覧を、分類結果として解析部２６に引き渡す。図２３と図２５を参照すると、注視領域ＩＤにより各分類結果に属する注視領域画像データと、当該注視領域画像データを提供した患者に投与した抗癌剤の効果と、が関係づけられる。例えば、注視領域ＩＤ＝１に対応する患者から取得した注視領域画像データは「Ｇ２ａ」のグレードに分類されると共に、当該患者に投与した抗癌剤のうち、少なくとも抗癌剤Ａ、Ｂ、Ｄは有効であることが、図２３及び図２５から理解される。

解析部２６は、上記の情報（決定木、分類結果、付随情報）に基づき、決定木による分類結果それぞれが有する特徴を解析する手段である。例えば、解析部２６は、分類結果それぞれに振り分けられた注視領域ＩＤに対応する患者への各種抗癌剤の有効性を解析する。具体的には、解析部２６は、以下の手順により抗癌剤の有効性を解析する。

初めに、解析部２６は、分類結果それぞれに含まれる注視領域ＩＤを取得する。次に、解析部２６は、付随情報を参照し、上記取得した注視領域ＩＤごとの各抗癌剤の効果を取得する。その後、解析部２６は、分類結果（グレード；クラスラベル）及び抗癌剤ごとに、抗癌剤が有効であることを示すデータの割合を計算し、その割合が閾値（例えば、５０％以上；多数決）であれば、その抗癌剤は有効であると判定する。

例えば、図２５の分類結果に示されたグレードＧ２ａを例にとると、当該グレードには注視領域ＩＤ＝１、２、３により特定される注視領域画像データが少なくとも含まれる。次に、図２３に示す付随情報を参照すると、注視領域ＩＤ＝１、２、３に関する抗癌剤投与の結果が得られる。例えば、抗癌剤Ａを例に取ると、３人の患者（注視領域ＩＤ＝１〜３に対応する患者）のうち２人の患者に有効（＋が２個存在）であるので、抗癌剤Ａが有効であることを示すデータの割合は６６．６％と計算される。従って、グレードＧ２ａに属する注視領域ＩＤから特定される患者に対し、抗癌剤Ａは有効であると判定される。

なお、解析部２６が、抗癌剤の有効性を判断する際の閾値（上記の例では５０％）は、全ての抗癌剤に共通するものであっても良いし、個別に閾値を設定してもよい。例えば、抗癌剤Ａに対する有効性の判断を慎重にしたい場合には、閾値を高めに（例えば、８０％等）に設定してもよい。あるいは、解析部２６は、グレードごとの抗癌剤の有効性を算出した結果、当該抗癌剤が有効であることを示すデータが所定の範囲内（例えば、４０％〜６０％等の範囲）にある場合には、当該抗癌剤の効果は「不明」としてもよい。

解析部２６は、上記のような判定を、分類結果の各グレード及び抗癌剤ごとに実施し、図２６に示すような解析結果を得る。解析部２６は、当該解析結果と決定木を出力部２４に引き渡す。

出力部２４は、決定木と解析結果を用いて、決定木による各分類結果（グレード）に振り分けられた患者（注視領域ＩＤにより関連付けられた患者の集合）に対する抗癌剤の有効性を示すデータを生成し、外部装置や表示デバイスに出力する。

例えば、出力部２４は、図２７に示すような画像データを生成し、外部に出力する。なお、図２７では、理解の容易のためグレードＧ２ａとグレードＧ２ｂに関する抗癌剤の有効性に限り図示している。図２７を参照すると、同じグレードＧ２に振り分けられる患者であっても、Ｇ２ａとＧ２ｂとでは、抗癌剤の有効性に顕著な相違が存在することが確認できる。図２７に示すような情報に接した医師等は、Ｇ２ａのグレードに振り分けられる患者には抗癌剤Ｂが有効ではないこと、Ｇ２ｂに振り分けられる患者には抗癌剤Ｄが有効であること、等の所見を得ることができる。

このように、データ処理装置２０ａに提供される付随情報が、注視領域ＩＤに対応する患者に対する抗癌剤の有効性に関する結果である場合には、データ処理装置２０ａは、分類結果それぞれに含まれる注視領域ＩＤに対応する患者への抗癌剤の有効性を示す解析結果を出力することができる。

なお、データ処理装置２０ａによるデータの解析は、抗癌剤の有効性に限定されない。付随情報の内容を変更することで、他の解析を行うことも可能である。例えば、付随情報として、図２８に示される情報がデータ処理装置２０ａに入力されたものとする。図２８に示す付随情報は、注視領域ＩＤにより関連付けられた患者に癌が再発した日数を含むものである。

解析部２６は、分類結果のグレードごとに、時間経過に伴う癌再発の確率を計算し、解析結果として算出する。具体的には、解析部２６は、図２９に示すようなグラフに係るデータを解析結果として算出し、出力部２４に引き渡す。

図２９を参照すると、「Ｇ１ａ」のグレードに振り分けられた患者は、採取されたサンプルの範囲内では癌再発の可能性がないことが分かる。また、「Ｇ２ａ」と「Ｇ２ｂ」のグレードに振り分けられた患者の癌再発の傾向は、それぞれ異なることが分かる。具体的には、日数が１０００日未満であれば、グレードＧ２ａとＧ２ｂそれぞれに割り振られた患者の癌再発率に顕著な差はないが、日数が１０００日を越えると両者の間の癌再発率に顕著な相違が認められる。

このように、データ処理装置２０ａに提供される付随情報が、注視領域ＩＤに対応する患者が癌を再発するまでの期間に関する情報である場合には、分類結果それぞれに含まれる注視領域ＩＤに対応する患者の癌再発に関する傾向を解析結果として出力することができる。

以上のように、第２の実施形態に係る病理画像処理システムでは、付随情報を解析することで、決定木による分類結果（グレード）それぞれに顕著な特徴を示す情報を、医師等に提供できる。

なお、上記実施形態にて説明した病理画像処理システムの構成は例示であって、システムの構成を限定する趣旨ではない。例えば、データ処理装置２０の機能の一部が学習データ生成装置１０に組み込まれていてもよい。例えば、第１の実施形態にて説明したデータ処理装置２０での特徴量の絞り込みの全部又は一部を学習データ生成装置１０にて実行してもよい。あるいは、学習データ生成装置１０に替えて、注視領域画像データから特徴量ベクトルを抽出する装置を用意すると共に、データ処理装置２０にラベル情報を直接入力し、データ処理装置２０の内部にて学習データを生成してもよい。あるいは、識別装置３０の機能がデータ処理装置２０に含まれていてもよい。この場合、図３０に示すように、データ処理装置２０ｂは、決定木生成部２３が生成する決定木を用いて、サンプルデータの予測を行う識別部２７を備えることになる。また、入力部２１は、サンプルデータを入力し、出力部２４は識別結果を出力する。

上記実施形態では、注視領域画像データのグレードをラベル情報として用いているが、ラベルは注視領域画像データ（細胞画像）のグレードに限定されるものではない。例えば、ラベルとして患者の癌再発に関する情報を用いてもよい。例えば、図３１に示すように、注視領域ＩＤに対応する患者の癌再発情報（長期再発なし、早期再発）をラベルとして用いてもよい。この場合、第１の実施形態にて説明した特徴量の抽出、特徴量の絞り込み、決定木の作成により、注視領域画像データの細胞核が有する特徴（例えば、細胞核の大きさ、円形度等）を分岐条件とする癌再発に関する決定木（予測モデル）を得ることができる（図２０に相当する決定木を得ることができる）。また、第２の実施形態にて説明した方法と同じ手順により、当該ラベルと患者が癌を再発するまでの日数を付随情報とすることで、決定木の各分類結果に含まれる患者の癌再発までの傾向に関する情報を得ることができる（図２９に相当するグラフを得ることができる）。

上記実施形態では、注視領域画像データから特徴量ベクトルを算出し、学習データを生成する学習データ生成装置を含むシステム構成（図２、図２２）を説明したが、特徴量ベクトルの算出は学習データ生成装置（情報処理装置、コンピュータ）によるものに限定されない。例えば、医師等により算出された特徴量（特徴量ベクトル）を利用しても良いし、装置が算出した特徴量と医師等が算出した特徴量を組み合わせてもよい。即ち、データ処理装置２０に提供される学習データには複数のサンプルそれぞれを特徴付ける特徴量ベクトルが含まれていれば、当該特徴量ベクトルの生成手法等はどのようなものであってもよい。

また、識別装置３０にて利用する決定木（識別規則）もデータ処理装置２０が生成する決定木に限定されるものではない。即ち、上記実施形態にて説明した手法、手順により生成された決定木であれば、その生成主体は情報処理装置（コンピュータ）に限定されずどのようなものであってもよい。即ち、学習データ（細胞画像の識別子、ラベル、特徴量を含むデータ）を用意し、当該学習データから生成された決定木を用いることで、サンプルのグレーディングを行うことができる。

上記実施形態では、１２種類の特徴量を算出する場合について説明したが、算出する特徴量の種類を限定する趣旨ではない。例えば、細胞核領域のテクスチャを示す特徴量として、コントラスト（特徴量Ｆ９）や一様性（特徴量Ｆ１０）を示したが、フーリエ変換やウェーブレット変換等によるテクスチャ解析により得られる特徴量を用いてもよい。

上記実施形態では、特徴量ベクトル生成部１２は、複数の特徴量の累積分布から得られるパーセンタイル値を、当該特徴量を代表する統計値として算出する場合について説明した。しかし、他の統計値を用いることができるのは当然である。例えば、複数の特徴量から得られる分散値、最頻値等の統計値を用いてもよい。また、データ処理装置２０の特徴量選択部２２は、同じ種類の特徴量から１つの特徴量（統計値）を選択する場合について説明したが、同じ種類の特徴量から複数の特徴量を選択してもよい。例えば、細胞核の大きさに関する特徴量の中間値（特徴量Ｆ１−３）と細胞核の大きさの分散値が選択されてもよい。

また、学習データ生成装置１０の特徴量ベクトル生成部１２や、データ処理装置２０の特徴量選択部２２、決定木生成部２３等の各部が行う処理は、これらの装置（学習データ生成装置１０、データ処理装置２０）に搭載されたコンピュータに、そのハードウェアを用いて、上述した各処理を実行させるコンピュータプログラムにより実現できる。つまり、上記各部が行う機能を何らかのハードウェア、及び／又は、ソフトウェアで実行する手段があればよい。

さらに、コンピュータの記憶部に、コンピュータプログラムをインストールすることにより、コンピュータを学習データ生成装置１０、データ処理装置２０、識別装置３０として機能させることができる。さらにまた、上述したコンピュータプログラムをコンピュータに実行させることにより、コンピュータにより学習データ生成方法、決定木生成方法、決定木による予測方法等を実行することができる。また、そのプログラムは、ネットワークを介してダウンロードするか、或いは、プログラムを記憶した記憶媒体を用いて、更新することができる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。

［付記１］
上述の第１の視点に係るデータ処理装置のとおりである。
［付記２］
前記複数の特徴量のなかから、前記決定木生成部による決定木の生成に用いられる特徴量を選択する、特徴量選択部をさらに備える、付記１のデータ処理装置。
［付記３］
前記特徴量選択部は、
前記学習データに基づく決定木の生成と、
前記生成された決定木の分岐条件に含まれる特徴量それぞれの品質の算出と、
前記品質が算出された特徴量それぞれの重要度の算出と、
前記算出された重要度に基づき、前記学習データに含まれる複数の特徴量から所定の数の特徴量を削除して新たな学習データを生成することと、
前記新たな学習データに含まれる特徴量が、所定の条件を満たすか否かの判定と、
を繰り返すことで、前記決定木生成部による決定木の生成に用いられる特徴量の選択を行う、付記２のデータ処理装置。
［付記４］
前記入力部は、前記学習データと共に、前記細胞画像を識別する識別子により前記細胞画像に関連付けられた付随情報を入力し、
前記決定木生成部による決定木による分類結果それぞれが有する特徴を、前記付随情報に基づき解析する、解析部をさらに備える、付記１乃至３のいずれか一に記載のデータ処理装置。
［付記５］
前記解析部は、
前記付随情報が、前記細胞画像の識別子に対応する患者に対する抗癌剤の有効性に関する結果である場合には、前記分類結果それぞれに含まれる前記細胞画像の識別子に対応する患者への抗癌剤の有効性を解析結果として出力する、付記４のデータ処理装置。
［付記６］
前記解析部は、
前記付随情報が、前記細胞画像の識別子に対応する患者が癌を再発するまでの期間に関する情報である場合には、前記分類結果それぞれに含まれる前記細胞画像の識別子に対応する患者の癌再発に関する傾向を解析結果として出力する、付記４のデータ処理装置。
［付記７］
前記決定木生成部が生成する決定木には、前記細胞画像に含まれる細胞核の大きさ、円形度、一様性及びコントラストのうち少なくとも１つが分岐条件に含まれる、付記１乃至６のいずれか一に記載のデータ処理装置。
［付記８］
前記決定木生成部が生成する決定木は、ルートノードからの最初の分岐条件に、前記細胞画像に含まれる細胞核の円形度を含む、付記１乃至７のいずれか一に記載のデータ処理装置。
［付記９］
前記細胞画像は、肝細胞から得られる画像であり、前記細胞画像に与えられたラベルは前記肝細胞の癌に関するグレード又は患者の癌再発に関する情報である、付記１乃至８のいずれか一に記載のデータ処理装置。
［付記１０］
上述の第２の視点に係る決定木生成方法のとおりである。
［付記１１］
上述の第３の視点に係る識別装置のとおりである。
［付記１２］
上述の第４の視点に係るプログラムのとおりである。
なお、付記１０〜１２の形態は、付記１の形態と同様に、付記２の形態〜付記９の形態に展開することが可能である。

なお、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の全開示の枠内において種々の開示要素（各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む）の多様な組み合わせ、ないし、選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。

１０、１０ａ学習データ生成装置
１１、２１、１０１入力部
１２特徴量ベクトル生成部
１３学習データ出力部
１４、２５、３４記憶部
２０、２０ａ、２０ｂデータ処理装置
２２特徴量選択部
２３、１０２決定木生成部
２４出力部
２６解析部
２７識別部
３０識別装置
１００データ処理装置
２０１、２０２細胞核領域
２１１境界線
２１２長軸長
２１３短軸長
３０１〜３０７分岐条件
４０１〜４０５分類結果

Claims

細胞画像に与えられたラベルと、前記細胞画像から抽出された複数の特徴量と、を１組とする学習データを入力する入力部と、
サンプルの前記ラベルに相当する情報を識別するための決定木を、前記学習データに基づいて生成する、決定木生成部と、
前記複数の特徴量のなかから、前記決定木生成部による決定木の生成に用いられる特徴量を選択する、特徴量選択部と、を備え
前記特徴量選択部は、
前記学習データに基づく決定木の生成と、
前記生成された決定木の分岐条件に含まれる特徴量それぞれの品質の算出と、
前記品質が算出された特徴量それぞれの重要度の算出と、
前記算出された重要度に基づき、前記学習データに含まれる複数の特徴量から所定の数の特徴量を削除して新たな学習データを生成することと、
前記新たな学習データに含まれる特徴量が、所定の条件を満たすか否かの判定と、
を複数回繰り返すことで、前記決定木生成部による決定木の生成に用いられる特徴量の絞り込みを行う、
データ処理装置。
前記特徴量選択部は、
決定木の分岐条件それぞれの品質の総和に対する特徴量の品質の割合を前記特徴量の重要度として算出する、請求項１に記載のデータ処理装置。
前記入力部は、前記学習データと共に、前記細胞画像を識別する識別子により前記細胞画像に関連付けられた付随情報を入力し、
前記決定木生成部による決定木による分類結果それぞれが有する特徴を、前記付随情報に基づき解析する、解析部をさらに備える、請求項１又は２に記載のデータ処理装置。
前記解析部は、
前記付随情報が、前記細胞画像の識別子に対応する患者に対する抗癌剤の有効性に関する結果である場合には、前記分類結果それぞれに含まれる前記細胞画像の識別子に対応する患者への抗癌剤の有効性を解析結果として出力する、請求項３のデータ処理装置。
前記解析部は、
前記付随情報が、前記細胞画像の識別子に対応する患者が癌を再発するまでの期間に関する情報である場合には、前記分類結果それぞれに含まれる前記細胞画像の識別子に対応する患者の癌再発に関する傾向を解析結果として出力する、請求項３のデータ処理装置。
前記決定木生成部が生成する決定木には、前記細胞画像に含まれる細胞核の大きさ、円形度、一様性及びコントラストのうち少なくとも１つが分岐条件に含まれる、請求項１乃至５のいずれか一項に記載のデータ処理装置。
前記決定木生成部が生成する決定木は、ルートノードからの最初の分岐条件に、前記細胞画像に含まれる細胞核の円形度を含む、請求項１乃至６のいずれか一項に記載のデータ処理装置。
前記細胞画像は、肝細胞から得られる画像であり、前記細胞画像に与えられたラベルは前記肝細胞の癌に関するグレード又は患者の癌再発に関する情報である、請求項１乃至７のいずれか一項に記載のデータ処理装置。
細胞画像に与えられたラベルと、前記細胞画像から抽出された複数の特徴量と、を１組とする学習データを入力するステップと、
サンプルの前記ラベルに相当する情報を識別するための決定木を、前記学習データに基づいて生成するステップと、
前記複数の特徴量のなかから、決定木の生成に用いられる特徴量を選択するステップと、を含み、
前記特徴量を選択するステップにおいて、
前記学習データに基づく決定木の生成と、
前記生成された決定木の分岐条件に含まれる特徴量それぞれの品質の算出と、
前記品質が算出された特徴量それぞれの重要度の算出と、
前記算出された重要度に基づき、前記学習データに含まれる複数の特徴量から所定の数の特徴量を削除して新たな学習データを生成することと、
前記新たな学習データに含まれる特徴量が、所定の条件を満たすか否かの判定と、
を複数回繰り返すことで、決定木の生成に用いられる特徴量の絞り込みを行う、
決定木生成方法。
請求項９の決定木生成方法により生成された決定木を用いて、サンプルの識別を行う識別装置。
細胞画像に与えられたラベルと、前記細胞画像から抽出された複数の特徴量と、を１組とする学習データを入力する処理と、
サンプルの前記ラベルに相当する情報を識別するための決定木を、前記学習データに基づいて生成する処理と、
前記複数の特徴量のなかから、決定木の生成に用いられる特徴量を選択する処理と、をデータ処理装置に搭載されたコンピュータに実行させ、
前記特徴量を選択する処理において、
前記学習データに基づく決定木の生成と、
前記生成された決定木の分岐条件に含まれる特徴量それぞれの品質の算出と、
前記品質が算出された特徴量それぞれの重要度の算出と、
前記算出された重要度に基づき、前記学習データに含まれる複数の特徴量から所定の数の特徴量を削除して新たな学習データを生成することと、
前記新たな学習データに含まれる特徴量が、所定の条件を満たすか否かの判定と、
を複数回繰り返すことで、決定木の生成に用いられる特徴量の絞り込みを行う、
プログラム。