JP2005092291A - データ分類支援方法および装置、プログラムおよびそのプログラムを記録した記録媒体 - Google Patents

データ分類支援方法および装置、プログラムおよびそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2005092291A
JP2005092291A JP2003320851A JP2003320851A JP2005092291A JP 2005092291 A JP2005092291 A JP 2005092291A JP 2003320851 A JP2003320851 A JP 2003320851A JP 2003320851 A JP2003320851 A JP 2003320851A JP 2005092291 A JP2005092291 A JP 2005092291A
Authority
JP
Japan
Prior art keywords
classification
map
data
cell
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003320851A
Other languages
English (en)
Inventor
Minoru Okamoto
稔 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sysmex Corp
Original Assignee
Sysmex Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sysmex Corp filed Critical Sysmex Corp
Priority to JP2003320851A priority Critical patent/JP2005092291A/ja
Priority to US10/938,116 priority patent/US7877238B2/en
Publication of JP2005092291A publication Critical patent/JP2005092291A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】正しい分類結果が得られていない可能性があることを使用者に認識させることが可能なデータ分類支援方法およびデータ分類支援装置を提供する。
【解決手段】このデータ分類支援方法は、1段目の自己組織化マップ103aを用いて、未知データ(検体データ)をいずれかのセルに配置するステップと、検体データが配置されたセルが属する第1分類領域Cをさらに分類するための2段目のグループCの自己組織化マップ103bを用いて、検体データをグループCの自己組織化マップ103bのいずれかのセルに配置するステップと、検体データが配置されたセルが属さない第2分類領域Bをさらに分類するためのグループBの自己組織化マップ103bを用いて、検体データをグループBの自己組織化マップ103bのいずれかのセルに配置するステップと、1段目の自己組織化マップ103a、2段目のグループBおよびグループCの自己組織化マップ103bを表示するステップとを備えている。
【選択図】図1

Description

この発明は、データ分類支援方法および装置、プログラムおよびそのプログラムを記録した記録媒体に関し、特に、複数のセルの集合体からなる複数の分類領域を含む分類マップを用いて未知データをいずれかのセルに配置させるデータ分類支援方法および装置、プログラムおよびそのプログラムを記録した記録媒体に関する。
従来、複数のセルの集合体からなる複数の分類領域を含む分類マップを用いて未知データをいずれかのセルに配置させるデータ分類支援方法が知られている。また、このようなデータ分類支援方法に用いられる分類マップとして、たとえば、T.Kohonen氏が提案した自己組織化マップ(SOM:Self−Organizing Maps)が知られている。ここで、自己組織化マップ(SOM)を用いたデータ分類支援方法では、未知データを多次元のベクトルとして扱い、その未知データを、自己組織化アルゴリズムを用いて類似度の高いセルに配置するとともに、そのセルが属する分類領域に分類して、2次元の自己組織化マップ上に表示する(たとえば、特許文献1参照)。
上記特許文献1には、情報入力手段から入力された情報を大分類手段で自己組織化マップ上に類似度の高い情報毎に大まかに分類し、この大分類された結果を振り分け、この振り分けられた情報について、詳細分類手段で詳細な分類を行い、この分類結果を最終的に1つの自己組織化マップ上に配置する方法が開示されている。
特開2003−6211号公報
しかしながら、上記特許文献1に開示された方法では、大分類で類似度が高いとされた領域についてのみ詳細分類手段による分類が行われ、大分類で類似度が高いとされない領域については詳細分類手段による分類が行われないので、使用者は、類似度が高いとされない領域に関する他の分類結果が得られる可能性のあることを認識することができないという問題点がある。特に、大分類手段における分類がいずれの分類であるかが微妙である場合には、類似度が高いとされない領域についても正しい分類結果が得られる可能性がある。このような場合にも、上記特許文献1による方法では、使用者は、詳細分類手段により正しい分類結果が得られていない可能性があることを認識することができないという問題点がある。
この発明は、上記のような課題を解決するためになされたものであり、この発明の一つの目的は、正しい分類結果が得られていない可能性があることを使用者に認識させることが可能なデータ分類支援方法およびデータ分類支援装置を提供することである。
課題を解決するための手段および発明の効果
この発明の第1の局面によるデータ分類支援方法は、複数のセルの集合体からなる複数の分類領域を含む分類マップを用いて未知データをいずれかのセルに配置するデータ分類支援方法であって、第1分類領域と第2分類領域とを含む第1分類マップを用いて、未知データをいずれかのセルに配置するステップと、未知データが配置されたセルが属する、第1分類マップの第1分類領域をさらに分類するための第2分類マップを用いて、未知データを第2分類マップのいずれかのセルに配置するステップと、未知データが配置されたセルが属さない、第1分類マップの第2分類領域をさらに分類するための第3分類マップを用いて、未知データを第3分類マップのいずれかのセルに配置するステップと、第1分類マップ、第2分類マップおよび第3分類マップを表示するステップとを備えている。
この第1の局面によるデータ分類支援方法では、上記のように、未知データが配置されたセルが属する、第1分類マップの第1分類領域をさらに分類するための第2分類マップを用いて、未知データを第2分類マップのいずれかのセルに配置するとともに、未知データが配置されたセルが属さない、第1分類マップの第2分類領域をさらに分類するための第3分類マップを用いて、未知データを第3分類マップのいずれかのセルに配置した後、第1分類マップ、第2分類マップおよび第3分類マップを表示することによって、第3分類マップの表示により第2マップの分類結果以外の分類結果が得られる可能性のあることを使用者に認識させることができる。これにより、正しい分類結果が得られていない可能性があることを使用者に認識させることができる。
上記第1の局面によるデータ分類支援方法において、好ましくは、未知データが第1分類マップの第1分類領域および第2分類領域に属する可能性を算出するステップと、算出された可能性を、第1分類マップ、第2分類マップおよび第3分類マップとともに表示するステップとをさらに備える。このように構成すれば、使用者は、未知データが、第2分類マップに対応する第1分類領域および第3分類マップに対応する第2分類領域に属する可能性を視覚的に認識することができる。
上記第1分類マップの可能性を表示するステップを含むデータ分類支援方法において、好ましくは、可能性の大きさは、第1分類マップと、第2分類マップおよび第3分類マップとを結ぶ線の太さによって表示される。このように構成すれば、容易に、使用者は、未知データが第2分類マップおよび第3分類マップに属する可能性を視覚的に認識することができる。
上記第1分類マップの可能性を表示するステップを含むデータ分類支援方法において、好ましくは、可能性の大きさは、割合を示す数値によって表示される。このように構成すれば、使用者は、未知データが第2分類マップおよび第3分類マップに属する可能性を数値的に正確に認識することができる。
上記第1の局面によるデータ分類支援方法において、好ましくは、第2分類マップは、第3分類領域を含み、未知データが第2分類マップの第3分類領域に属する可能性を算出するステップをさらに備える。このように構成すれば、使用者は、未知データが第2分類マップの第3分類領域に属する可能性を数値的に正確に認識することができる。
上記第1の局面によるデータ分類支援方法において、好ましくは、第3分類マップは、第4分類領域を含み、未知データが第3分類マップの第4分類領域に属する可能性を算出するステップをさらに備える。使用者は、未知データが第3分類マップの第4分類領域に属する可能性を数値的に正確に認識することができる。
上記第1の局面によるデータ分類支援方法において、好ましくは、未知データは、臨床検査データである。このように構成すれば、臨床検査データを分類して、第1〜第3分類マップを表示することによって、第3分類マップの表示により第2分類マップの分類結果(疾患名)以外の分類結果(疾患名)が得られる可能性のあることを使用者に認識させることができる。
上記第1の局面によるデータ分類支援方法において、好ましくは、分類マップは、自己組織化マップである。このように構成すれば、自己組織化マップにより、容易に、未知データに最も近いセルベクトルデータを有する最小セルを決定することができる。
この発明の第2の局面によるデータ分類支援方法を実行するためのプログラムは、複数のセルの集合体からなる複数の分類領域を含む分類マップを用いて未知データをいずれかの前記セルに配置するデータ分類支援方法を実行するためのプログラムであって、第1分類領域と第2分類領域とを含む第1分類マップを用いて、未知データをいずれかのセルに配置するステップと、未知データが配置されたセルが属する、第1分類マップの第1分類領域をさらに分類するための第2分類マップを用いて、未知データを第2分類マップのいずれかのセルに配置するステップと、未知データが配置されたセルが属さない、第1分類マップの第2分類領域をさらに分類するための第3分類マップを用いて、未知データを第3分類マップのいずれかのセルに配置するステップと、第1分類マップ、第2分類マップおよび第3分類マップを表示するステップとを備えたデータ分類支援方法を実行するためのプログラムである。
この第2の局面によるデータ分類支援方法を実行するためのプログラムでは、上記のように、未知データが配置されたセルが属する、第1分類マップの第1分類領域をさらに分類するための第2分類マップを用いて、未知データを第2分類マップのいずれかのセルに配置するとともに、未知データが配置されたセルが属さない、第1分類マップの第2分類領域をさらに分類するための第3分類マップを用いて、未知データを第3分類マップのいずれかのセルに配置した後、第1分類マップ、第2分類マップおよび第3分類マップを表示することによって、第3分類マップの表示により第2分類マップの分類結果以外の分類結果が得られる可能性のあることを使用者に認識させることができる。これにより、正しい分類結果が得られていない可能性があることを使用者に認識させることができる。
この場合、上記第2の局面によるプログラムを記録したコンピュータ読み取り可能な記録媒体を用いるのが好ましい。
この発明の第3の局面によるデータ分類支援装置は、複数のセルの集合体からなる複数の分類領域を含む分類マップを用いて未知データをいずれかのセルに配置するデータ分類支援装置であって、第1分類領域と第2分類領域とを含む第1分類マップを用いて、未知データをいずれかのセルに配置する第1セル配置手段と、未知データが配置されたセルが属する、第1分類マップの第1分類領域をさらに分類するための第2分類マップを用いて、未知データを第2分類マップのいずれかのセルに配置する第2セル配置手段と、未知データが配置されたセルが属さない、第1分類マップの第2分類領域をさらに分類するための第3分類マップを用いて、未知データを第3分類マップのいずれかのセルに配置する第3セル配置手段と、第1分類マップ、第2分類マップおよび第3分類マップを表示する表示手段とを備えている。
この第3の局面によるデータ分類支援装置では、上記のように、未知データが配置されたセルが属する、第1分類マップの第1分類領域をさらに分類するための第2分類マップを用いて、未知データを第2分類マップのいずれかのセルに配置する第2セル配置手段と、未知データが配置されたセルが属さない、第1分類マップの第2分類領域をさらに分類するための第3分類マップを用いて、未知データを第3分類マップのいずれかのセルに配置する第3セル配置手段と、第1分類マップ、第2分類マップおよび第3分類マップを表示する表示手段とを設けることによって、第3分類マップの表示により第2分類マップの分類結果以外の分類結果が得られる可能性のあることを使用者に認識させることができる。これにより、正しい分類結果が得られていない可能性があることを使用者に認識させることができる。
以下、本発明の実施形態を図面に基づいて説明する。なお、本実施形態では、臨床検査データ(未知データ)を所定の疾患(分類領域)に分類する場合に本発明を適用した例について説明する。
図1〜図6は、本発明の一実施形態によるデータ分類支援方法を用いて臨床検査データを所定の疾患に分類する場合に、コンピュータ端末のディスプレイ上に表示される解析結果画面および選択画面を示した図である。また、図7〜図13は、本発明の一実施形態によるデータ分類支援方法を説明するための図である。以下、本実施形態によるデータ分類支援方法について説明する。
まず、図1〜図3を参照して、本実施形態によるデータ分類支援方法を用いて臨床検査データを所定の疾患(分類領域)に分類する場合に、コンピュータ端末(クライアント)のディスプレイ上に表示される解析結果画面について説明する。なお、このコンピュータ端末(クライアント)は、サーバ(図示せず)に接続されており、登録されたユーザIDとパスワードでログイン後に利用することができる。このコンピュータ端末(クライアント)は、本発明の「データ分類支援装置」の一例である。
図1に示した解析結果画面(画面1)には、患者を特定する属性データを表示する患者属性データ表示部101と、患者属性データ表示部101に表示された患者の検体データを表示する検体データ表示部102と、ツリー表示(階層表示)された自己組織化マップ103を表示する自己組織化マップ表示部と、最終的な疾患可能性割合を表示する疾患可能性割合表示部104とが設けられている。図2には、図1に示した解析結果画面(画面1)のツリー表示(階層表示)された自己組織化マップ103の3段目のグループC1をクリックした場合に表示される解析詳細ポップアップ画面(画面2−1)が示されている。また、図3には、図2に示した解析詳細ポップアップ画面(画面2−1)の表示切替(中央)タブ107をクリックした場合に表示される解析詳細ポップアップ画面(画面2−2)が示されている。図2では、未知データが属する発火セル(最小セル)が自己組織化マップ上の端部(右下)に位置するように表示されており、図3では、未知データが属する発火セル(最小セル)が自己組織化マップ上の中心に位置するように表示されている。また、図2および図3に示した解析詳細ポップアップ画面では、自己組織化マップとともに、各要素毎に、ヒストグラム20と、対象検体(未知データ)および類似検体のベクトル要素値とが表示される。ここで、要素1は白血球数であり、要素2は赤血球数であり、要素3はヘモグロビン量である。要素1についてのヒストグラム20は、横軸が白血球数、縦軸が頻度を示している。要素2についてのヒストグラム20は、横軸が赤血球数、縦軸が頻度を示している。要素3についてのヒストグラム20は、横軸がヘモグロビン量、縦軸が頻度を示している。なお、他の要素としては、ヘマトクリット値や平均赤血球容積(MCV)などの臨床検査データを用いることができる。
なお、図4には、図1に示した解析結果画面(画面1)において、検体データ(未知データ)を選択する場合に、検体データ選択タブ105をクリックした際に表示される検体データ選択ポップアップ画面(画面3)が示されている。図5には、図4に示した検体データ選択ポップアップ画面(画面3)のファイル読み込みタブ31をクリックした場合に表示される検体データ選択ポップアップ画面(画面3−1)が示されている。また、図6には、図1に示した解析結果画面(画面1)において、使用する自己組織化マップを選択する場合に、支援マップ選択タブ106をクリックした際に表示される支援マップ選択ポップアップ画面(画面4)が示されている。
次に、図1〜図13を参照して、コンピュータ端末(クライアント)を用いて行う本実施形態によるデータ分類支援方法について説明する。なお、以下に説明するデータ分類支援方法を行う前に、予め、本実施形態によるデータ分類支援方法を実行するためのプログラムが格納されたFDやCDなどの記録媒体をコンピュータ端末(クライアント)またはサーバに組み込むかまたは上記記録媒体からコンピュータ端末(クライアント)またはサーバにプログラムをインストールする必要がある。本実施形態によるデータ分類支援方法では、自己組織化マップ(支援マップ)の選択を行った後、未知データの分類を行う。具体的には、まず、図1に示した解析結果画面(画面1)の支援マップ選択タブ106をクリックすると、図6に示した支援マップ選択ポップアップ画面(画面4)が開く。この画面4において、プルダウンメニュー32でサーバデータベース(サーバDB)内のマップ生成元の施設を選択する。これにより、その施設が作成した自己組織化マップがプルダウンメニュー33に反映される。そして、プルダウンメニュー33において、プルダウンメニュー32により選択した施設の自己組織化マップの中から所望の疾患に分類された自己組織化マップを選択する。プルダウンメニュー33で自己組織化マップを選択すると、解説表示部34に、選択した自己組織化マップの解説が表示される。
ここで、図7を参照して、本実施形態で用いる自己組織化マップについて説明する。本実施形態で用いる自己組織化マップは、図7に示すような自己組織化マップ学習テーブル構造および自己組織化マップテーブル構造に基づいて作成される。図7に示す自己組織化マップ学習テーブル構造において、横方向に配置された要素1〜要素NeのNe個(Ne次元)の要素から1つの学習データが構成されている。この学習データは、医師によって判断された実際の患者のデータである。図7に示した例では、学習データがNs個ある場合が示されている。また、各学習データに対応して医師が実際に判断した疾患名(クラス1〜クラスM)が示されている。このような各学習データと、それらに対応して医師が実際に判断した疾患名(クラス1〜クラスM)とに基づいて、公知の自己組織化アルゴリズムにより、セルベクトルデータおよびそのセルベクトルデータの属するクラス(分類領域)が決定されて2次元の自己組織化マップ(図7の右上の図参照)上に表示される。この自己組織化マップは、n×n=n個のセルから構成されている。なお、セルベクトルデータとは、学習データを自己組織化アルゴリズムを用いて学習することにより得られるデータを意味する。各セルのセルベクトルデータは、学習データと同様、要素1〜要素NeのNe個(Ne次元)の要素から構成されている。なお、各セルは、必ずセルベクトルデータを有する。その一方、各セルは、学習データを有する場合と有しない場合とがある。
図7に示したような自己組織化マップが所定の施設によって作成され、サーバデータベース(サーバDB)内に保存されている。そして、図6に示した画面4において、そのような自己組織化マップを選択する。
図6に示した画面4において、支援マップ(自己組織化マップ)を選択した後、その支援マップ(自己組織化マップ)を用いて、検体データ(未知データ)の分類が行われる。具体的には、図8に示すように、まず、ステップ41において、1段目の自己組織化マップ103a(図1参照)で、検体データ(未知データ)の分類処理を行う。この検体データ(未知データ)の分類処理について、図9および図10を参照して詳細に説明する。
本実施形態による自己組織化マップの分類処理では、まず、図9に示すように、ステップ51において、未知データ(検体データ)の読み込みを行う。この未知データ(検体データ)の読み込みは、図1に示した解析結果画面(画面1)の検体データ選択タブ105をクリックすることにより行う。具体的には、図1に示した画面1の検体データ選択タブ105をクリックすると、図4に示す検体データ選択ポップアップ画面(画面3)が表示される。この画面3において、ファイル読み込みタブ31をクリックすると、図5に示す検体データ選択ポップアップ画面(画面3−1)が開く。この画面3−1で所定の検体データファイル(CSVファイルまたはXMLファイル(MMLファイル))を選択してファイルを読み込む。これにより、その読み込んだファイルの検体データリスト一覧が図4の画面3に表示される。画面3に表示された検体データリスト一覧の中から、解析したい検体をクリックすることにより、検体データの選択が行われる。これにより、図4に示す画面3が閉じ、図1に示した解析結果画面(画面1)の検体データ表示部102に、読み込んだ検体データが表示される。なお、この検体データ(未知データ)は、上記学習データおよびセルベクトルデータと同様、要素1〜要素NeのNe個(Ne次元)の要素から構成されている。
図9に示したステップ51において上記のように検体データ(未知データ)を読み込んだ後、ステップ52において、セルベクトルデータと未知データ(検体データ)とを比較する。
本実施形態では、図9に示すステップ52において、セルベクトルデータと未知データ(検体データ)とを比較することによって、ステップ53において、未知データに1番目に近いセルベクトルデータを有するセル(発火セル)を最小セルとして決定するとともに、2番目からn番目に近いセルベクトルデータを有するセルを類似セルとして決定する。なお、nは、2以上の整数であり、本実施形態では「11」に設定されている。
この後、図9に示すステップ54において、可能性割合の算出を行う。この可能性割合の計算法を以下に説明する。クラス(分類領域)の個数をM、クラス(分類領域)cの学習データの個数をNcとする。また、クラス(分類領域)cに属するj番目の学習ベクトルをScjとする。i番目のセルベクトルEiに対するクラス(分類領域)cの割合値Eicは、Eic=Kc/Kで計算する。ここで、本実施形態では、Eiとして、未知データ(検体データ)を用いる。全てのクラス(分類領域)(c=1〜M)についてのEicを求め、未知データ(検体データ)のクラス(分類領域)割合値とする。但し、KcおよびKは以下の式(1)および式(2)によって求める。
Figure 2005092291
上記式(1)において、f()はガウス関数を利用する。
なお、式(1)のEiとして、未知データの代わりに最小セルのセルベクトルデータを用いてもよい。また、f()として、ガウス関数に代えてデルタ関数などを用いてもよい。
図9に示したステップ54において、上記のように可能性割合を算出した後、ステップ55において、自己組織化マップを作成する。
自己組織化マップを作成する際の手順としては、図10に示すように、まず、ステップ61において、最小セルマークをメモリ上の自己組織化マップに作成する。本実施形態における最小セルマーク1aは、図2に示すように、検体データ(未知データ)が最も近い最小セル1の地点を示す「×」を用いる。また、ステップ62において、検体データ(未知データ)に2番目からn番目(11番目)に近い類似セル2を示す類似セルマーク2aをメモリ上の自己組織化マップに作成する。この類似セルマーク2aは、図2に示すように、類似セル2の領域を示す四角形状(□)を用いる。
本実施形態では、図2に示すように、自己組織化マップ上に、未知データに最も距離の近い最小セル(発火セル)1が最小セルマーク1aにより表示される。この場合、ただ1つのセル(最小セル1)の座標を示すだけでは、その周囲セルのセルベクトルデータと未知データとの距離関係が不明である。そこで、本実施形態では、未知データに最も距離の近い最小セル1だけでなく、その周囲にある距離の近い類似セル2群もマーク表示する。これにより、未知データ(検体データ)と類似セル2との関係も視覚化することが可能となる。この場合、類似セルマーク2aは、未知データと類似セル2のセルベクトルデータとの距離によって変化を持たせる。具体的には、図2に示すように、類似セルマーク2aの「□」の線の太さを未知データの距離が遠くなるにしたがって小さくするように変化させる。なお、本実施形態では、類似セルマーク2aの「□」の線のうちの最も細い線を、1つのセル領域を示す枠線よりも太く示すことにより、類似セルマーク2aの「□」の線とセル領域を示す枠線とを識別可能に示している。
なお、カラー表示可能な画面では、類似セルマーク2aの「□」の線の色を、セル領域を示す枠線の色と異ならせることにより、類似セルマーク2aの「□」の線と、セル領域を示す枠線との太さを異ならせることなく、類似セルマーク2aの「□」の線とセル領域を示す枠線とを識別可能に示すことが可能である。また、カラー表示可能な画面では、最小セルマーク1aの色を、類似セルマーク2aの色およびセル領域を示す枠線の色と異ならせるのが好ましい。
また、最小セルマーク1aおよび類似セルマーク2aによりマーク表示されるセル群のエリアは、しきい値Sを用いることにより変化させることが可能である。しきい値Sによって距離Lを算出し、未知データ(検体データ)と、あるセルとの距離がLよりも小さい時、そのセルを最小セル1および類似セル2として表示する。距離Lは、以下の式により算出する。
L=自己組織化マップ上の全ての隣接セル間のベクトル間距離の平均×S
本実施形態では、しきい値Sを、未知データ(検体データ)に1番目から11番目(n番目)に近いセル(最小セル1および類似セル2)がマーク表示されるように設定している。
上記のようにして、図9に示したステップ55において自己組織化マップが作成される。これにより、図8に示したステップ41に示した検体データ(未知データ)の1段目の自己組織化マップによる分類処理が完了する。
その後、図8に示したステップ42において、1段目の自己組織化マップ103aと2段目の自己組織化マップ103bとを結ぶ線の太さを、図9に示したステップ54で算出した可能性割合に基づいて決定する。具体的には、可能性割合が大きいほど、線が太くなるように決定する。そして、図8に示したステップ43において、2段目の自己組織化マップ103bで、検体データ(未知データ)の分類処理を行う。この分類処理では、上述した分類処理(図9参照)および自己組織化マップ作成処理(図10参照)と同様の処理が行われる。この2段目の自己組織化マップ103bでは、1段目の自己組織化マップ103bに表示された3つのクラス(分類領域)に対応するグループA、グループBおよびグループCの3つの自己組織化マップが作成される。
2段目の自己組織化マップ103bで分類処理および自己組織化マップ作成処理を行った後、図8に示したステップ44において、2段目の自己組織化マップ103bと3段目の自己組織化マップ103cとを結ぶ線の太さを、図9に示したステップ54で算出した可能性割合に基づいて決定する。その後、図8に示したステップ45において、3段目の自己組織化マップ103cで、検体データ(未知データ)の分類処理を行う。この分類処理では、上述した分類処理(図9参照)および自己組織化マップ作成処理(図10参照)と同様の処理が行われる。この3段目の自己組織化マップ103cでは、2段目のグループA、グループBおよびグループCの3つの自己組織化マップ103bの各々に表示された2つのクラス(分類領域)に対応して、各2つずつ(合計6つ)の自己組織化マップ103cが作成される。そして、図8に示したステップ46において、図1に示すように、解析結果画面(画面1)に、1段目、2段目および3段目の自己組織化マップ103a〜103cがツリー状(階層状)に表示される。なお、本実施形態では、自己組織化マップ103a〜103cをツリー状(階層状)に表示する際に、1段目の自己組織化マップ103aと2段目の自己組織化マップ103bとを結ぶ線の近傍、および、2段目の自己組織化マップ103bと3段目の自己組織化マップ103cとを結ぶ線の近傍には、それぞれ、可能性割合が数値で表示される。
本実施形態によるツリー状の自己組織化マップの詳細としては、まず、1段目の自己組織化マップ103aには、3つの分類領域A、BおよびCを有する総括的な自己組織化マップが表示される。なお、この1段目の自己組織化マップ103aは、本発明の「第1分類マップ」の一例であり、分類領域Cは、本発明の「第1分類領域」の一例であり、分類領域Bは、本発明の「第2分類領域」の一例である。また、2段目の自己組織化マップ103bでは、0%の可能性割合を有するとともに分類領域A1およびA2を有するグループAと、10%の可能性割合を有するとともに分類領域B1およびB2を有するグループBと、90%の可能性割合を有するとともに分類領域C1およびC2を有するグループCとの3つの自己組織化マップが表示される。なお、この2段目の自己組織化マップ103bのうち、グループCの自己組織化マップは、本発明の「第2分類マップ」の一例であり、分類領域C1は、本発明の「第3分類領域」の一例である。グループBの自己組織化マップは、本発明の「第3分類マップ」の一例であり、分類領域B1は、本発明の「第4分類領域」の一例である。本実施形態では、このように、2段目の自己組織化マップ103bを表示する際に、最小セル1が属する分類領域Cに対応するグループCの自己組織化マップのみならず、最小セル1が属さない分類領域AおよびBに対応するグループAおよびグループBの自己組織化マップも表示される。これにより、グループCによる分類結果以外の分類結果(グループBの分類結果)が得られる可能性があることが使用者に容易に認識される。
また、2段目の0%の可能性割合を有するグループAの自己組織化マップは、3段目の0%の可能性割合を有するグループA1の自己組織化マップと0%の可能性割合を有するグループA2の自己組織化マップとに分割される。また、2段目の10%の可能性割合を有するグループBの自己組織化マップは、3段目の10%の可能性割合を有するグループB1の自己組織化マップと、0%の可能性割合を有するグループB2の自己組織化マップとに分割される。また、2段目の90%の可能性割合を有するグループCの自己組織化マップは、3段目の90%の可能性割合を有するグループC1の自己組織化マップと、0%の可能性割合を有するグループC2の自己組織化マップとに分割される。
次に、図8に示したステップ47において、図1に示した解析結果画面(画面1)の自己組織化マップ103のたとえば3段目のグループC1の自己組織化マップがクリックされているかどうかが判断される。クリックされた場合には、図2に示す解析詳細ポップアップ画面(画面2−1)が表示される。
ここで、図1および図2を参照して、図1に示した画面1の疾患可能性割合表示部104および3段目の対応する自己組織化マップ103cの下に表示される最終的な疾患可能性割合について説明する。最終的な疾患可能性割合としては、3段目のグループC1に属する疾患(3)が89%の可能性割合であり、同じグループC1に属する疾患(4)が1%の可能性割合である。また、3段目のグループB1に属する疾患(8)が7%の可能性割合であり、同じグループB1に属する疾患(9)が3%の可能性割合である。より詳細には、90%の可能性割合を有するグループC1の自己組織化マップの拡大図(図2参照)に示すように、疾患(3)を示すクラス(分類領域)11(ハッチング(斜線)がない領域)に、検体データ(未知データ)が最も近い最小セル1および2番目から11番目に近い類似セル2が存在するので、このクラス11に対応する疾患(3)が89%の可能性割合と大きくなり、最小セル1および類似セル2が属しないクラス12(ハッチング(斜線)がある領域)に対応する疾患(4)の可能性は1%と小さくなる。また、拡大図は図示されていないが、10%の可能性割合を有する3段目のグループB1の自己組織化マップ(図1参照)中において、1番目に近い最小セル1と、2番目から11番目に近い類似セル2のうちのいくつかとが存在する一方のクラス(分類領域13)は、7%の可能性割合を有する疾患(8)に対応し、2番目から11番目に近い類似セル2のうちの残りが存在する他方のクラス(分類領域14)は、疾患(8)の可能性割合よりも小さい3%の可能性割合を有する疾患(9)に対応する。
次に、図2、図3および図11を参照して、図2に示した解析詳細ポップアップ画面(画面2−1)における中央表示処理について説明する。図11に示すステップ71では、図2に示した解析詳細ポップアップ画面(画面2−1)において、表示切替タブ(中央)107がクリックされているかどうかが判断される。クリックされている場合には、図2に示した解析詳細ポップアップ画面(画面2−1)の自己組織化マップの右下に最小セル1が表示された状態から最小セル1が自己組織化マップの中心になるように、メモリ上の自己組織化マップを移動させる。これにより、図3の解析詳細ポップアップ画面(画面2−2)に示すような自己組織化マップの中心に最小セル1が配置されるような表示に切り替わる。なお、図3に示した中央表示から図2に示した標準表示へは、図3に示した表示切替(標準)タブ108をクリックすることにより切り替わる。
次に、図12および図13を参照して、図2および図3に示したヒストグラム20の作成処理について説明する。ヒストグラム20を作成する際には、まず、図9に示した自己組織化マップ分類処理のステップ51〜53と同様、図12に示すステップ81〜83において、未知データ読み込み、セルベクトルデータと未知データとの比較および最小・類似セルの決定を行う。この後、ステップ84において、図2および図3の解析詳細ポップアップ画面(画面2−1、画面2−2)に表示された自己組織化マップの2つのクラス(分類領域)11および12の学習データに基づいて、各要素毎に2つのクラス(分類領域)11および12のヒストグラム20aおよび20bを作成する。図2および図3に示すように、クラス(分類領域)11のヒストグラム20aは実線で示され、クラス(分類領域)12のヒストグラム20bは一点鎖線で示されている。この後、図12に示したステップ85において、最小セル1および類似セル2に含まれる学習データに基づいて、各要素毎に、最小セル1および類似セル2のヒストグラム20c(図2および図3参照)を作成する。この最小セル1および類似セル2のヒストグラム20cは、点線で示されている。
この後、図12に示したステップ86において、未知データ(検体データ)の位置データをヒストグラム上に縦の実線(図2および図3参照)で示す。これにより、図2および図3に示されるようなヒストグラム20が作成される。なお、ステップ84および85において、学習データに基づいてヒストグラム20a〜20cが作成されるが、図13に示すように、学習データ3が存在するセルと学習データ3が存在しないセルとがあるので、ステップ84および85では、学習データが存在するセルのみについてヒストグラムが作成される。
なお、図2および図3に示すヒストグラム20を見ると、全ての要素について、縦の実線で示された未知データ(検体データ)は、分類領域(クラス)11の学習データに基づいて作成された実線のヒストグラム20aのピーク値近傍に位置することがわかる。また、全ての要素について、最小セル1および類似セル2の学習データに基づいて作成された点線のヒストグラム20cも、未知データ(検体データ)を示す縦の実線と重なっていることがわかる。また、全ての要素について、縦の実線で示された未知データ(検体データ)は、分類領域(クラス)12の学習データに基づいて作成された一点鎖線のヒストグラム20bに重なっていないことがわかる。これにより、図2および図3に示すグループC1の自己組織化マップが正しいことを推測することができる。また、各要素ごとに、ヒストグラム20が表示されるので、各要素ごとに、未知データ(検体データ)とヒストグラムとを比較することが可能になる。これにより、未知データと類似検体との関係をより正確に視覚的に認識することが可能になる。
また、図2および図3に示した画面2−1および画面2−2では、各要素毎のヒストグラム20に対応する対象検体(未知データ)の各要素毎のベクトル要素値が表示される。また、最小セル1および類似セル2のうち学習データが存在するものの中から、検体データ(未知データ)に近いものから順に3つの学習データのベクトル要素値が類似検体として表示される。
本実施形態では、上記のように、2段目の自己組織化マップ103bを表示する際に、最小セル1が属する1段目の自己組織化マップ103aの分類領域Cに対応するグループCの自己組織化マップのみならず、最小セル1が属さない分類領域AおよびBに対応するグループAおよびグループBの自己組織化マップも表示することによって、グループCによる分類結果以外の分類結果(グループBの分類結果)が得られる可能性があることを使用者に容易に認識させることができる。これにより、正しい分類結果が得られていない可能性があることを使用者に認識させることができる。
また、本実施形態では、ツリー表示された自己組織化マップ103において、可能性割合を線の太さによって表示することにより、可能性割合を視覚的に容易に認識することができる。また、可能性割合を示す線の近傍に可能性割合を数値で表示することによって、使用者は、各自己組織化マップの可能性割合を視覚的に容易に認識することができる。
また、図1に示した解析結果画面(画面1)において、自己組織化マップ103とともに、その分類領域に属する可能性割合(疾患可能性割合)を表示することによって、どの疾患にどの可能性で該当するのかを容易に認識することができる。
なお、今回開示された実施形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施形態の説明ではなく特許請求の範囲によって示され、さらに特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれる。
たとえば、上記実施形態では、本発明の分類マップの一例としての自己組織化マップ(SOM)を用いて未知データの分類を行う例を示したが、本発明はこれに限らず、自己組織化マップ以外の分類マップを用いて未知データの分類を行う場合にも、同様に適用可能である。
また、上記実施形態では、ツリー表示された自己組織化マップ103において、可能性割合を線の太さおよび数値の両方で表示する例を示したが、本発明はこれに限らず、可能性割合を線の太さおよび数値のいずれか一方、または、他の方法で表示してもよい。
また、上記実施形態では、図2および図3に示した自己組織化マップ上の各分類領域(各クラス)をハッチングの有無により視覚的に識別可能にする例を示したが、実際のカラー表示画面上では、自己組織化マップ上の各分類領域(各クラス)に対応して色を異ならせるのが好ましい。
また、上記実施形態では、図1に示した画面1のグループC1の自己組織化マップをクリックした場合に表示される画面を、画面2−1および画面2−2(図2および図3参照)の一例として示したが、本発明はこれに限らず、画面1の他の自己組織化マップ(たとえば、グループB1の自己組織化マップ)をクリックした場合にも、画面2−1および画面2−2(図2および図3参照)と同様の画面を表示することができる。この場合、画面1においてクリックされた自己組織化マップの拡大図、ヒストグラム、検体データおよび類似検体データが画面2−1(画面2−2)に表示される。
また、上記実施形態では、検体データ(未知データ)をデータベースから読み込む例について説明したが、本発明はこれに限らず、使用者が検体データ(未知データ)をコンピュータ端末から手入力するようにしてもよい。また、上記実施形態のデータ分類支援方法をWEBサービスとして使用者に提供する場合などには、ネットワーク上に送信された検体データ(未知データ)を含むメッセージをコンピュータ端末またはサーバが受け取るようにしてもよい。
また、上記実施形態では、サーバデータベース(サーバDB)内に保存された所定の施設により作成された自己組織化マップを選択して用いる例を示したが、本発明はこれに限らず、インターネット上の所定のホームページから所定の施設により作成された自己組織化マップをダウンロードして用いるようにしてもよい。
本発明の一実施形態によるデータ分類支援方法による解析結果画面(画面1)を示した図である。 図1に示した解析結果画面の解析詳細画面(標準表示)(画面2−1)を示した図である。 図1に示した解析結果画面の解析詳細画面(中心表示)(画面2−2)を示した図である。 本発明の一実施形態のデータ分類支援方法による検体データ選択画面(画面3)を示した図である。 図4に示した検体データ選択画面のファイル読み込み画面(画面3−1)を示した図である。 本発明の一実施形態のデータ分類支援方法による支援マップ選択画面(画面4)を示した図である。 本発明の一実施形態のデータ分類支援方法による自己組織化マップテーブル構造を示した図である。 本発明の一実施形態のデータ分類支援方法による未知データ分類ルーチンを説明するためのフローチャートである。 本発明の一実施形態のデータ分類支援方法による自己組織化マップの分類処理を説明するためのフローチャートである。 本発明の一実施形態のデータ分類支援方法による自己組織化マップの作成処理を説明するためのフローチャートである。 本発明の一実施形態のデータ分類支援方法による中央表示処理を説明するためのフローチャートである。 本発明の一実施形態のデータ分類支援方法によるヒストグラム作成処理を説明するためのフローチャートである。 本発明の一実施形態によるデータ分類支援方法において、学習データが存在するセルと学習データが存在しないセルとを説明するための図である。
符号の説明
1 最小セル
2 類似セル
103 自己組織化マップ(分類マップ)
103a 1段目の自己組織化マップ(第1分類マップ)
A 分類領域
B 分類領域(第2分類領域)
C 分類領域(第1分類領域)
103b 2段目の自己組織化マップ(第2分類マップ(C)、第3分類マップ(B))
C1 分類領域(第3類領域)
C2 分類領域
B1 分類領域(第4類領域)
B2 分類領域
103c 3段目の自己組織化マップ
104 疾患可能性割合表示部

Claims (11)

  1. 複数のセルの集合体からなる複数の分類領域を含む分類マップを用いて未知データをいずれかの前記セルに配置するデータ分類支援方法であって、
    第1分類領域と第2分類領域とを含む第1分類マップを用いて、前記未知データをいずれかのセルに配置するステップと、
    前記未知データが配置された前記セルが属する、前記第1分類マップの第1分類領域をさらに分類するための第2分類マップを用いて、前記未知データを前記第2分類マップのいずれかのセルに配置するステップと、
    前記未知データが配置された前記セルが属さない、前記第1分類マップの第2分類領域をさらに分類するための第3分類マップを用いて、前記未知データを前記第3分類マップのいずれかのセルに配置するステップと、
    前記第1分類マップ、前記第2分類マップおよび前記第3分類マップを表示するステップとを備えた、データ分類支援方法。
  2. 前記未知データが前記第1分類マップの前記第1分類領域および前記第2分類領域に属する可能性を算出するステップと、
    前記算出された可能性を、前記第1分類マップ、前記第2分類マップおよび前記第3分類マップとともに表示するステップとをさらに備える、請求項1に記載のデータ分類支援方法。
  3. 前記可能性の大きさは、前記第1分類マップと、前記第2分類マップおよび前記第3分類マップとを結ぶ線の太さによって表示される、請求項2に記載のデータ分類支援方法。
  4. 前記可能性の大きさは、割合を示す数値によって表示される、請求項2または3に記載のデータ分類方法。
  5. 前記第2分類マップは、第3分類領域を含み、
    前記未知データが前記第2分類マップの第3分類領域に属する可能性を算出するステップをさらに備える、請求項1〜4のいずれか1項に記載のデータ分類支援方法。
  6. 前記第3分類マップは、第4分類領域を含み、
    前記未知データが前記第3分類マップの第4分類領域に属する可能性を算出するステップをさらに備える、請求項1〜5のいずれか1項に記載のデータ分類支援方法。
  7. 前記未知データは、臨床検査データである、請求項1〜6のいずれか1項に記載のデータ分類支援方法。
  8. 前記分類マップは、自己組織化マップである、請求項1〜7のいずれか1項に記載のデータ分類支援方法。
  9. 複数のセルの集合体からなる複数の分類領域を含む分類マップを用いて未知データをいずれかの前記セルに配置するデータ分類支援方法を実行するためのプログラムであって、
    第1分類領域と第2分類領域とを含む第1分類マップを用いて、前記未知データをいずれかのセルに配置するステップと、
    前記未知データが配置された前記セルが属する、前記第1分類マップの第1分類領域をさらに分類するための第2分類マップを用いて、前記未知データを前記第2分類マップのいずれかのセルに配置するステップと、
    前記未知データが配置された前記セルが属さない、前記第1分類マップの第2分類領域をさらに分類するための第3分類マップを用いて、前記未知データを前記第3分類マップのいずれかのセルに配置するステップと、
    前記第1分類マップ、前記第2分類マップおよび前記第3分類マップを表示するステップとを備えたデータ分類支援方法を実行するためのプログラム。
  10. 請求項9に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
  11. 複数のセルの集合体からなる複数の分類領域を含む分類マップを用いて未知データをいずれかの前記セルに配置するデータ分類支援装置であって、
    第1分類領域と第2分類領域とを含む第1分類マップを用いて、前記未知データをいずれかのセルに配置する第1セル配置手段と、
    前記未知データが配置された前記セルが属する、前記第1分類マップの第1分類領域をさらに分類するための第2分類マップを用いて、前記未知データを前記第2分類マップのいずれかのセルに配置する第2セル配置手段と、
    前記未知データが配置された前記セルが属さない、前記第1分類マップの第2分類領域をさらに分類するための第3分類マップを用いて、前記未知データを前記第3分類マップのいずれかのセルに配置する第3セル配置手段と、
    前記第1分類マップ、前記第2分類マップおよび前記第3分類マップを表示する表示手段とを備えた、データ分類支援装置。
JP2003320851A 2003-09-12 2003-09-12 データ分類支援方法および装置、プログラムおよびそのプログラムを記録した記録媒体 Pending JP2005092291A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003320851A JP2005092291A (ja) 2003-09-12 2003-09-12 データ分類支援方法および装置、プログラムおよびそのプログラムを記録した記録媒体
US10/938,116 US7877238B2 (en) 2003-09-12 2004-09-10 Data classification supporting method, computer readable storage medium, and data classification supporting apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003320851A JP2005092291A (ja) 2003-09-12 2003-09-12 データ分類支援方法および装置、プログラムおよびそのプログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2005092291A true JP2005092291A (ja) 2005-04-07

Family

ID=34452692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003320851A Pending JP2005092291A (ja) 2003-09-12 2003-09-12 データ分類支援方法および装置、プログラムおよびそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2005092291A (ja)

Similar Documents

Publication Publication Date Title
US10733726B2 (en) Pathology case review, analysis and prediction
Pol et al. Unstable taxa in cladistic analysis: identification and the assessment of relevant characters
CN109919230B (zh) 基于循环特征金字塔的医学图像肺结节检测方法
AU2014237346B2 (en) System and method for reviewing and analyzing cytological specimens
CN110335259B (zh) 一种医学影像识别方法、装置和存储介质
CN113892148A (zh) 用于计算病理学的可解释的AI(xAI)平台
US20040218806A1 (en) Method of classifying defects
JP2015087903A (ja) 情報処理装置及び情報処理方法
JP4563755B2 (ja) 標本画像の表示方法、標本画像表示用プログラム、そのプログラムを記録した記録媒体および標本画像表示用端末装置
US10089518B2 (en) Graphical user interface for analysis of red blood cells
JP7313942B2 (ja) 評価支援方法、評価支援システム、プログラム
CN114864107A (zh) 一种临床路径变异分析方法、设备及存储介质
CN113222913A (zh) 一种电路板缺陷检测定位方法、装置和存储介质
CN111406294B (zh) 自动生成用于实验室仪器的规则
CN113158821A (zh) 基于多模态的眼部检测数据的处理方法、装置及终端设备
US7877238B2 (en) Data classification supporting method, computer readable storage medium, and data classification supporting apparatus
JP6425468B2 (ja) 教師データ作成支援方法、画像分類方法、教師データ作成支援装置および画像分類装置
US20220261998A1 (en) Adaptive machine learning system for image-based biological sample constituent analysis
US11830622B2 (en) Processing multimodal images of tissue for medical evaluation
JP2005092291A (ja) データ分類支援方法および装置、プログラムおよびそのプログラムを記録した記録媒体
JP2005092290A (ja) データ分類支援方法および装置、プログラムおよびそのプログラムを記録した記録媒体
JP2005092289A (ja) データ分類支援方法および装置、プログラムおよびそのプログラムを記録した記録媒体
JP2005092287A (ja) データ分類支援方法および装置、プログラムおよびそのプログラムを記録した記録媒体
US20120110531A1 (en) Defect and yield prediction for segments of an integrated circuit
JP2023530070A (ja) 電子画像を処理して組織マップ可視化を生成するシステム及び方法