JP5307996B2 - 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム - Google Patents

判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム Download PDF

Info

Publication number
JP5307996B2
JP5307996B2 JP2007230142A JP2007230142A JP5307996B2 JP 5307996 B2 JP5307996 B2 JP 5307996B2 JP 2007230142 A JP2007230142 A JP 2007230142A JP 2007230142 A JP2007230142 A JP 2007230142A JP 5307996 B2 JP5307996 B2 JP 5307996B2
Authority
JP
Japan
Prior art keywords
sample
subset
samples
discriminant
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007230142A
Other languages
English (en)
Other versions
JP2008090833A (ja
Inventor
谷野元彦
笠井康弘
岡山利次
田村卓郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DNA Chip Research Inc
BITS Co Ltd
Original Assignee
DNA Chip Research Inc
BITS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DNA Chip Research Inc, BITS Co Ltd filed Critical DNA Chip Research Inc
Priority to JP2007230142A priority Critical patent/JP5307996B2/ja
Publication of JP2008090833A publication Critical patent/JP2008090833A/ja
Application granted granted Critical
Publication of JP5307996B2 publication Critical patent/JP5307996B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、コンピュータシステムによって実行され、任意の外的基準変数(特徴)に従って評価対象のサンプルを複数の群の何れかに分類するための1以上の判別因子(変量の項目)の組み合わせ(判別因子セット)を特定する方法、この判別因子セットを特定するシステム、及びコンピュータシステムにこの特定方法を実行させるためのソフトウェアプログラムに関する。
例えば、生命科学分野においては、近年の測定機器や実験手法の発達により、生物個体における遺伝学的な多様性や、様々な状態における生体臓器・組織・細胞の特徴を、膨大な種類の分子や変異の存在(頻度)として得ることが可能となった。例えば、DNAマイクロアレイによって、臓器・組織に含まれる数万種類以上のmRNAの頻度を同時に測定することが可能であり、1測定サンプル内のmRNAの頻度(転写物発現プロファイル)や、測定サンプル間でのmRNAの相対的な頻度の違い(転写物発現パターン)を知ることができる。また、SNP(1塩基多型)の測定により、生物個体に大量に存在し、生物の個性を決定する重要な因子である1塩基置換やその組合せ(プロタイプ)の情報が得られる。このような大規模な情報を利用して、評価対象のサンプルをサブグループ(特定の群)へ割り付ける方法や評価方法として、以下に示す手法が参考になる。
まず、非特許文献1に、サンプルを分別する一般的な手法として判別分析が開示されている。
また、非特許文献2に、マイクロアレイ解析においてサンプルを分類する手法として、サポートベクターマシンを利用することが提案されている。
次に、非特許文献3に、病理解析の分野において、Weighted vote methodを急性骨髄性白血病と急性リンパ性白血病との鑑別診断に用いた方法が開示されている。
また、非特許文献4に、マイクロアレイデータをWeighted vote methodによって分別する際の判別性能及び過剰適応リスクの推定を、観測情報にノイズを加えた判別力(判別精度と同義)の分散で評価することが提案されている。
さらに、非特許文献5に、遺伝子発現データに基づいて臨床診断を行う際に、複数のサンプルを判別器(あるアルゴリズムの基で判別を行う判別因子のセット、若しくはそれを用いたアルゴリズム)生成のトレーニング用とその検証用との2群にランダムに分類するという操作を繰り返し行うことにより、診断精度の評価を行うことが提案されている。ここで、判別のためのアルゴリズムとしては、遺伝子発現プロファイルによる臨床診断などに用いられる対角線形判別解析(DLDA:Diagonal linear discriminant analysis)などが知られている。
http://aoki2.si.gunma-u.ac.jp/lecture/Discriminant/index.html Brown MP, Grundy WN, Lin D, Cristianini N, Sugnet CW, Furey TS, Ares M Jr, Haussler D. "Knowledge-based analysis of microarray gene expression data by using support vector machines." Proc Natl Acad Sci U S A. 2000 Jan 4;97(1):262-7. Golub TR, Slonim DK, Tamayo P, Huard C, Gaasenbeek M, Mesirov JP, Coller H, Loh ML, Downing JR, Caligiuri MA, Bloomfield CD, Lander ES. "Molecular classification of cancer: class discovery and class prediction by gene expression monitoring." Science. 1999 Oct 15;286(5439):531-7. Suzuki I, Oba S, Hirayama J, Ishii S."A Selection Criterion for Robust Classifiers by Considering the Variance of Test Performance"The Institute of Electronics, information and Communication Engineers (IEICE), Technical Committee Conference, "Randomness and prediction---from fundamentals to applications" Barrier A, Boelle PY, Roser F, Gregg J, Tse C, Brault D, Lacaine F, Houry S, Huguier M, Franc B, Flahault A, Lemoine A, Dudoit S. "Stage II colon cancer prognosis prediction by tumor gene expression profiling." J. Clin. Oncol. 2006 Oct 10;24(29):4685-91. Epub 2006 Sep 11.
しかしながら、上記した従来の方法は、何れも解決すべき課題が存在し、多くの場合において、サンプルの説明変数を活用した判別や判別器の評価が十分に行われていないのが現状である。
例えば、非特許文献1の判別分析は、生命科学分野における数万種類の遺伝子発現プロファイルのように判別因子(説明変量の項目)の次元が非常に多い場合には適用できない。これは、判別因子の次元が多い場合にこの手法を単純に適用しても、判別を行う超平面の自由度が高過ぎて一意の判別面に定まらなくなってしまうため、本来の要因を反映した判別器を得ることは難しいからである。そのため、この判別分析は、既知のサンプルに対してはオーバーフィッティングにより高い精度を得ることができたとしても、何れのサブグループに属するかが未知のサンプルに対しては、判別能力(精度)が著しく低下する結果となる。
非特許文献2のサポートベクターマシンによるマイクロアレイ解析は、線形や非線形の二群判別では優れているが、ノイズに弱く「はずれ値」による影響を受けやすく、サンプル(学習データ)が増えると計算量が膨大となってサンプルの分類に膨大な時間がかかるという実用面での問題を含んでいる。そのため、判別因子を試行的に種々選択することが困難で、判別因子の次元を下げた場合の解析結果の妥当性を評価することが実質的に不可能となる。
非特許文献3のWeighted vote methodによる方法は、現在、ライフサイエンス分野でバイオマーカー探索等において、最も広く用いられている判別器生成方法である。この方法は、ノイズや空値に強い、判別因子の次元が増えた場合にも極端に精度が悪化することはない、などの利点があるが、一方で、データの質とサンプル数に応じた判別因子の選択の方法論が確定されていない。そのため、別の知見によって、関連する判別因子が特定されている場合には妥当な手法であるが、機序が解明されておらず、また、膨大な判別因子候補が存在して信号が完全にノイズに埋もれているケースでは、この手法を単独で適用しても妥当な結果は得られない。
非特許文献4のWeighted vote methodの評価方法は、Weighted vote methodを用いた判別器生成方法において、リスクファクターとして判別因子数と観測値(説明変数)のノイズレベルを考慮して過剰適応リスクを推定しているが、説明変数の選択が追加的に単順位でしか扱われていない上、サンプル及び説明変数の次元数による過剰適応リスクの問題が未解決である。
非特許文献5のモンテカルロ交叉検定による方法は、多数のサンプルから所定次元でサンプルを抽出する際に抽出基準のバイアスファクターを変えることによって、外的基準変数(特徴)が未知のサンプルに対する判別器の判別力を評価するものである。この方法は、有限で既知のサンプルデータセットに対して判別力の蓋然的な推定を行うことは可能であるが、判別器を生成する判別因子と分割したサンプル群の次元が妥当かどうか、また、未知のサンプルが増えた場合の判別精度の変化がどうなるか、といった点の評価は十分に行えない。そのため、未知のサンプルに対する予測精度を把握できないという問題がある。
このように、何れの手法も、生命科学のような大量のサンプルデータの処理には不向きであったり、サンプル次元が小さく判別因子次元が大きな場合の過剰適応リスクを考慮した判別器の生成(判別因子セットの特定)を行うことができないなどの課題がある。
本発明は、上記課題を解決するためになされたものであり、大量のサンプルデータを処理でき、過剰適応を排除して判別精度(判別力)の高い判別器(判別因子セット)を生成できる方法、システム及びコンピュータソフトウェアプログラムを得ることを目的とする。
本発明によれば、入力手段、コンピュータプログラムを記憶する記憶装置、及びコンピュータプログラムを呼び出してサンプルのデータを分析する制御手段を備えたコンピュータシステムによって実行され、任意の外的基準変数(特徴)に従って評価対象のサンプルをあるアルゴリズムの基で複数の群の何れかに分類するための1以上の判別因子(変量の項目)の組み合わせ(判別因子セット)を特定する方法であって、前記記憶装置は、多数のサンプルについて観測・計測された多数の判別因子ごとの説明変数(変量)であって分析に適さないノイズを含む可能性があるものと、各サンプルが前記外的基準変数に従って分類された群のデータとを含むサンプルデータファイルを備え、この方法は、前記制御手段が、前記入力手段を介して、多数のサンプルからなるサンプル集合の中から分析対象とするサンプルの次元数の指定、及び多数の判別因子群の中から分析対象とする判別因子の次元数の指定を夫々受け付ける次元数指定受付工程と、前記サンプルデータファイルの中から、所定の抽出基準に従って、前記指定された各次元数のサンプル及び判別因子を夫々抽出し、これらを組み合わせて複数のサンプル及び複数の判別因子からなるサブセットを生成するサブセット生成工程と、前記サンプルデータファイルから、前記生成されたサブセットに含まれる複数のサンプル及び複数の判別因子における説明変数と、当該複数のサンプルの群のデータとを夫々抽出する抽出工程と、抽出した複数の判別因子をパラメータとする関数を作成し、その関数に前記抽出した複数の説明変数のうち、特定の群に分類されたサンプルの説明変数を代入して当該サブセットの基準判別精度として出力する基準判別精度算出工程と、前記サブセットに含まれる複数のサンプルの群のデータをランダムに置換(シャッフル)する群データ置換工程と、前記置換後の群データに基づいて、特定の群に分類されたサンプルの説明変数を前記作成した関数に代入して当該サブセットの比較判別精度として出力する比較判別精度算出工程と、前記比較判別精度が、前記基準判別精度と比べて有意に低くなっていることの統計的判定に基づいて、当該サブセットが、前記サンプルの次元数に対して判別因子の次元数が多いことにより発生する過剰適応に該当しないかを判断する過剰適応判断工程と、過剰適応に該当しないと判断された前記サブセットの判別因子を判別因子セットとして出力する判別因子セット出力工程とを実行することを特徴とする方法、この方法を好適に実行するシステム、及びこの方法をコンピュータシステムに実行させるためのコンピュータソフトウェアプログラムが提供される。
ここで、上記「サンプル」には、例えば、生物個体や、生物個体の血液、口腔粘膜、毛髪、毛根、爪、生体検査や手術によって摘出された臓器断片などの臓器組織、それ以外の生物個体の部分、若しくは生物個体の部分から回収可能な染色体構造等が含まれる。
「外的基準変数(特徴)」には、例えば、特定の疾患における健常者と罹患者、特定の疾患の罹患者における特定の合併症の有無、特定の疾患の罹患者の予後における同疾患の再発の有無、ガン疾患における転移の有無、ガン疾患における特定臓器組織への転移の有無、特定の薬剤に対する効果や薬剤抵抗性若しくは副作用の有無、特定の生物の昼と夜の状態、特定の生物の胎児齢などが含まれる。この外的基準変数の種類によっては、一定の確率で誤った情報(説明変数)を含んでいる場合がある。例えば、病理診断においては確定診断ではないため、一定の確率で誤った情報を含んでいる可能性がある。
「判別因子(変量の項目)」は、例えば、サンプルにおける絶対量、相対量若しくは有無によって特定される、生物個体のバイオメトリクス(体長、体重、年齢など)、ゲノム転写物、タンパク質、化合物若しくはその他の分子の量の指標となる生化学的検査数値、マイクロサテライトやSNP(1塩基多様性)などの生物多様性因子、若しくは生物個体の疾患履歴、食事・生活状態などの生体情報などを示す項目名が含まれる。
「説明変数(変量)」は、前記判別因子ごとの実際に観測・計測された値や情報であり、例えば、マイクロアレイ実験によって得られる転写物頻度の絶対測定値や、複数のサンプル間若しくは説明因子間の相対測定値、生物個体特性である重さ(体重)、長さ(身長)、個数、有無などのデータが含まれる。すなわち、説明変数の型(データ形式)は、実数であることも、また、複数の所属範疇(通常、整数0,1,2,3,…, rで表す、真偽値の場合は、0,1のみ)であることもある。この説明変数は、どの型においても、観測の失敗や入力漏れ等の理由で欠損値が存在する場合でも、その欄は空値(φなど)で記録されていることが望ましい。また、この説明変数に、分析に適さないノイズデータが多数含まれているほど、本発明は従来技術に比してより有効に機能する。
上記した構成によれば、多数のサンプルデータを解析して、サンプルや説明の次元に応じた過剰適応リスクを評価・排除しながら、判別精度の高い判別因子セットを得ることができる。従来は、判別器(判別因子セット)の信頼性を高めるためにサンプル数を増やす必要があったが、本発明によれば、限られたサンプル数であっても、過剰適応リスクを検討しつつ、解析に用いるサンプルや判別因子の数(次元)を選択して判別器を得ることが可能になる。また、サンプル数が少ない場合には、必要な数だけ追加できるようになる。
また、本解析結果を運用する過程においても、判別器生成のために利用可能なサンプルの増加や、測定技術向上による観測情報のノイズ低減による、過剰適応リスクの低下の過程を定量的に示すことが可能となる。
本発明によれば、大量のサンプルデータを処理でき、過剰適応を排除して判別精度(判別力)の高い判別器(判別因子セット)を生成できる方法、システム及びコンピュータソフトウェアプログラムを得ることができる。具体的には、利用可能なサンプル集合に基づく判別器生成において、サンプル数、説明変数、判別因子数に依存する過剰適応リスクを定量的に評価可能であり、限られたサンプル数においても、解析に用いるサンプル数、説明変数、判別因子数を選択して判別器を得ることが可能となり、もしくは、追加が必要なサンプル数を検討することができるようになる。
以下、本発明の最良の実施形態を、図面を参照して具体的に説明する。以下の説明においては、請求項に記載した「判別因子セット」及び「判別精度」を、夫々「判別器」及び「判別力」と表記する。
図1は、本発明の一実施形態に係る判別器生成システムの概略構成を示す図である。このシステム1は、本発明に係るコンピュータプログラムがインストールされた利用者用クライアントシステム2と解析提供サーバシステム3とが、WWWなどの通信ネットワークを介して接続されて構成される。これらの各システム2、3は、何れも1又は2以上の汎用のコンピュータシステムで構成され、ハードウェア構成は同一である。なお、利用者用クライアントシステム2及び解析提供サーバシステム3を1台のコンピュータで構成することもできる。
(利用者用クライアントシステムの概略構成)
利用者用クライアントシステム2は、汎用のパーソナルコンピュータであり、制御手段としてのCPU5に、RAM6、HDDやROMなどの記憶装置7、及び入出力インタフェース(I/F)8が通信バス9を介して接続され、この入出力I/F8に、LEDディスプレイなどのディスプレイ装置10、マウスやキーボードなどの入力装置11、モデム等の通信デバイス12、CD−ROMやDVD−ROMなどのリムーバブル記録媒体用のドライブ13等が接続されたハードウェア構成を有する。後述する本発明の特徴的な処理機能は、前記記憶装置7のプログラム格納部14にインストールされたコンピュータソフトウェア(情報表示ソフトウェア15やクライアントシステムソフトウェア16)がCPU5によってRAM6上に呼び出され、OS(オペレーションシステム)と協働して実行されることで実現される。
また記憶装置7は、前記プログラム格納部14の他、クライアントシステムソフトウェア16の動作を補助する利用情報格納部(サンプルデータファイル)17を備えている。この利用情報格納部17は、サンプルラベル(サンプルID)、判別因子ラベル(判別因子ID)、観測値(説明変数)、解析パラメータ、解析結果、各判別因子がサブセットとして抽出可能な回数(目標抽出回数)、などの情報を格納するものである。前記プログラム格納部14及び利用情報格納部17は、何れもHDDなどの記憶装置7に確保された一定の記憶領域である。この利用情報格納部17に格納されたデータは、判別器生成のために後述する解析提供サーバシステム3の解析情報一時格納部20に送られる。また、この利用情報格納部17は、解析提供サーバシステム3が生成した判別器情報(複数の判別因子の組合せ等)を受け取って格納する。この判別器情報は、情報表示ソフトウェア15によって利用される。
前記情報表示ソフトウェア15は、本発明のユーザインタフェースであり、例えばWebブラウザやスプレッドシートの様な汎用ソフトウェアである。この情報表示ソフトウェア15は、以下の諸機能を備えている。
・ドライブ13やネットワークを介して利用者クライアントシステム2にサンプルデータを読み込み利用者情報格納部17に格納する機能
・利用情報格納部17からサンプルデータを読み出してクライアントシステムソフトウェア16を介して解析提供サーバシステム3の後述する解析提供ソフトウェア22にデータを送信する機能
・解析ソフトウェア23が解析した結果を受け取って利用情報格納部17に格納する機能
・サンプルデータや前記解析結果を利用情報格納部17から読み出して利用者用クライアントシステム2のディスプレイ装置10に表示する機能
(クライアントシステムソフトウェアの機能)
前記クライアントシステムソフトウェア16は、以下の各機能を備えている。これらの機能のうちの一部は、前記情報表示ソフトウェア15や解析提供ソフトウェア22に行わせることもできる。
・ユーザが前記入力装置11から入力したサンプルデータの所在、すなわち、外部の分析機器や測定機器、情報解析ソフトウェア等によって生成されたサンプルデータを、インターネットやドライブ13によってファイルシステムを介して取得し、利用情報格納部17に格納するサンプルデータ取得機能
・パラメータ入力画面(図5参照)をディスプレイ装置10に表示させて、ユーザから解析対象サンプルデータや解析パラメータ(サンプルや判別因子の次元数など)の入力を受け付け、入力された情報を解析提供サーバシステム3に送信し、解析提供サーバシステム3から解析結果を受信して利用情報格納部17に格納する解析実行機能(次元数指定受付手段)
・利用情報格納部17に格納したサンプル情報(サンプルIDや膨大な説明変数データなどの図5に例示するデータ)や解析結果(図6参照)を選択的に読み出してディスプレイ装置に表示すると共に、表示されたサンプルデータの加工や解析結果について、群データやフラグ、検証結果などの情報を利用情報格納部17に登録する情報表示機能
(解析提供サーバシステムの概略構成)
前記解析提供サーバシステム3は、WWWネットワークを通じて利用者用クライアントシステム2に対して判別器生成のための解析機能を提供するWEBサーバである。この解析提供サーバシステム3は、解析工程において一時的にデータを保持する補助記憶装置である解析情報一時格納部20と、ユーザログイン情報や利用履歴等、解析提供サーバシステム3の利用者に関する情報を格納するユーザ情報格納部21と、利用者用クライアントシステム2の情報表示ソフトウェア15からアクセスされた場合に、前記解析情報一時格納部20から必要な情報を検索し、必要に応じて加工して受け渡す解析提供ソフトウェア22と、判別器生成のための解析を実施する解析ソフトウェア23とを備えている。この解析ソフトウェア23は、具体的に以下の諸機能を備えている。なお、以下の機能の一部は、前記情報表示ソフトウェア15やクライアントシステムソフトウェア16に実行させることもできる。
サブセット生成機能:クライアントシステムソフトウェア16から送信された前記サンプルデータの中から、ランダムに若しくはユーザが指定したバイアスをかけた抽出基準に従って、前記指定された各次元数のサンプル及び判別因子を夫々抽出し、これらを組み合わせて複数のサンプル及び複数の判別因子からなるサブセットを生成して前記解析情報一時格納部20に格納する機能である。後述するように、本実施例ではサブセットの生成を所定回数繰り返す。
データ抽出機能:前記サンプルデータから、前記生成されたサブセットに含まれる複数のサンプル及び複数の判別因子における説明変数(観測値)と、当該複数のサンプルの群のデータ(外部基準変数)とを夫々抽出して前記解析情報一時格納部20に格納する機能である。
基準判別精度算出機能:抽出された複数の判別因子をパラメータとする関数を作成し、その関数に前記抽出した複数の説明変数のうち、特定の群に分類されたサンプルの説明変数を代入して当該サブセットの基準判別精度として出力する機能である。基準判別精度は、例えば、「85%」のような百分率や「90Pt」「0.75」のような絶対値やポイント形式として出力する。また、関数としては、従来の判別器生成に利用されるロジスティック関数などを適宜使用できる。
群データ置換(シャッフル)機能:生成されたサブセットに含まれる複数のサンプルの群のデータをランダムに置換(シャッフル)する機能である。群データを置換した前後で基準判別精度を比較することで、サブセットに含まれる複数の判別因子セットが判別器として有効かどうかを判断できる。すなわち、置換前後で判別精度がほとんど変わらなかったり、置換後の検証用判別精度が統計的に見て異常に低い場合は、そのサブセットは過剰適応の状態と判断でき、判別器としては利用できない。過剰適応の判断手法については後に詳述する。ここで、群データの置換に加えて、若しくはこれに代えて、前記サブセットに含まれる1以上の判別因子の説明変数をランダムに置換(シャッフル)することもできる。
比較判別精度算出機能:前記置換後の群データに基づいて、特定の群に分類されたサンプルの説明変数を前記作成した関数に代入して当該サブセットの比較判別精度として出力する機能である。この比較判別精度も前記基準判別精度と同じ形式で出力する。また、群データの置換及び比較判別精度の算出は、統計的判断が可能な個数の比較判別制度を算出するまで繰り返し実行するのが好ましい。
過剰適応判断機能:前記比較判別精度が、前記基準判別精度と比べて有意に低くなっていることの統計的判定に基づいて、当該サブセットが、前記サンプルの次元数に対して判別因子の次元数が多いことにより発生する過剰適応に該当しないかを判断する機能である。このような過剰適応を判断することで、ランダムに選択された各サブセットの判別因子群が判別器として有効かどうかを判定できると共に、サンプルや判別因子の次元数の変更を促すことができる。
判別因子セット出力機能:過剰適応に該当しないと判断された前記サブセットの複数の判別因子を判別因子セットとして出力する機能である。出力された判別因子セットに対しては、後述するように、種々の検証が行われる。
信頼性指標出力機能:前記出力された判別因子セットの基準判別精度を、前記記憶装置に格納された過剰適応による判別精度の標準値と比較して、サンプル及び判別因子の次元数の組合せの信頼性を示す指標(一致率、偏差値など)を出力する機能である。
検証用サブセット生成機能:前記サブセット生成機能で抽出されなかったサンプルを含む検証用サブセットを多数生成する機能である。
検証用判別精度算出機能:前記サブセット生成機能で作成された関数に、前記多数の検証用サブセットに含まれるサンプルの説明変数を適用して検証用判別精度を夫々算出する機能である。
基準判別精度検証機能:前記判別因子セット出力機能で出力された判別因子セットの基準判別精度と、前記検証用判別精度とを比較照合して、当該基準判別精度の信頼性を検証する機能である。具体的には、算出された多数の検証用判別精度の中で所定の基準精度(例えば、50%や、特定の群に属するサンプルの割合など)よりも高いものの全て又は一部の多数決に従って特定した検証用判別精度の範囲に前記判別因子セットの基準判別精度が含まれるか、若しくは前記算出された多数の検証用判別精度の中で所定の基準精度よりも高いものの全て又は一部の平均値と比較して前記判別因子セットの基準判別精度が統計的に有意に相違するか、に基づいて、当該基準判別精度の信頼性を検証する。
また、前記サンプルが複数の抽出基準に従って夫々選択される場合には、その抽出基準毎の複数のサブセットの基準判別精度を比較することで、判別精度に寄与する副次的な判別因子の有無を判定して出力することもできる。
抽出回数積算機能:前記基準判別精度算出機能で算出されたサブセットの基準判別精度が一定値(例えば、70%)以上である場合に、当該サブセットに含まれる複数の判別因子の抽出回数を夫々積算する機能である。
判別因子除外機能:積算した抽出回数が前記目標抽出回数に達した場合に、当該判別因子を判別因子セットの構成候補として解析情報一時格納部20(記憶装置)に格納すると共に、この判別因子を、サブセットに含める判別因子の抽出対象候補から除外する機能である。この「除外」は、例えば、対象となる判別因子の抽出可能フラグを削除することで行う。
第2の基準判別精度算出機能:前記判別因子セットの構成候補として登録された複数の判別因子を用いて、前記基準判別精度算出機能と同様の手法、若しくはこれと異なる手法で第2の基準判別精度を算出する機能である。
判別因子セット構成候補出力機能:算出された第2の基準判別精度が周知の統計的手法に基づいて妥当性が認められた場合に、当該複数の判別因子を判別因子セットの構成候補として出力する機能である。なお、上記した抽出回数積算機能、判別因子除外機能、第2の基準判別精度算出機能、及び判別因子セット構成候補出力機能は、判別因子セットの構成候補が一定数蓄積されるまで繰り返す。
データ整備機能:前記サンプルデータファイルに含まれる多数の説明変数について不正値、欠損値、若しくは多重共線性が存在する場合に、当該不正値の除去、欠損値の補充、多重共線性の除去、若しくは標準化を行って説明変数を整備する機能である。
解析提供ソフトウェア22は、前記利用者用クライアントシステム2から利用者情報を取得して、ユーザ情報格納部21を参照してユーザの個人情報等を特定し、当該ユーザの利用可能な解析メニューや、過去の利用実績を提供する機能を有する。例えば、ユーザが過去に実施した解析とそこで設定したパラメータを参照し、新たな解析に利用することを可能とする。
また、この解析提供ソフトウェア22と、利用者用クライアントシステム2の情報表示ソフトウェア15及びクライアントシステムソフトウェア16との間で非同期通信などの方法で情報交換を行わせることで、解析パラメータの変更による解析結果の影響をリアルタイムに取得・表示することも可能である。
(データの内容)
次に、図2を参照して本システムが解析の対象とするサンプルデータの内容を具体的に説明する。サンプルデータは、サンプル1〜mで表されるm個のサンプルについて、解析対象となるサンプルのサブグループ(群データ)を示す外部基準変数(特徴)と、1〜nで表されるn個の判別因子ごとの説明変数(変量)と、を有する。
すなわち、このサンプルデータは、サンプルを一方の軸に、外部基準変数及び判別因子を他方の軸に取るサンプルデータマトリックスT1として表すことができる。サンプルデータマトリックスT1は、サンプルを特定可能なサンプル名ラベル(ID)T2、外部基準変数の種類を特定可能な外部基準変数名ラベルT3、外部基準変数の値T4,判別因子を特定可能な判別因子名ラベルT5、各サンプルの判別因子ごとの値である説明変数T6、及び後述する説明変数の抽出方法として「優先順抽出」が選択されている場合に利用される優先値T8の値T9、で構成される。
サンプル名ラベルT2は、サンプルデータマトリックスT1内において各サンプルをユニークに特定可能なIDである。
外部基準変数名ラベルT3は、サンプルデータマトリックスT1に含まれるサンプルをサブグループに分類する値を含む行の識別名であり、1つのサンプルデータマトリックスT1中に複数行存在することも可能である。例えば、第1行目で「癌の罹患者(1)か健常者(0)か」のサブグループに分類し、第2行目で罹患者のサブグループを発症部位によって「胃癌(1)」「肺癌(2)」「膵臓癌(3)」のように更にグループ分けし、第3行目で罹患者のサブグループを「転移なし(0)」と「転移あり(1)」に更にグループ分けすることができる。
外部基準変数値T4は、所属カラムのサンプルに対する所属行の外部基準変数の値であり(上記した「癌罹患者(1)」「胃癌(1)」など)、同一行内で2種類の値(2群)を持つ場合や、3種類以上の値(分類要素)を持つ場合が存在する。
判別器の生成においては、ユーザに判別対象とする外部基準変数名ラベルT3を指定させる。また、分類要素が3種類以上ある外部基準変数においては、分割したい分類要素をグループとして指定できるように構成する。分割したい分類要素は、別途外部基準変数名ラベルT3の行に記載することもできる。
判別因子名ラベルT5は、サンプルデータマトリックスT1内で各判別因子をユニークに特定可能なIDである。
説明変数T6は、所属カラムのサンプルに対する、所属行の説明変数の値である。値の型は、実数であることも、所属範疇を表す整数や記号であることも、0か1で表される真偽値であることもある。この説明変数値T6は、観測値測定の失敗等の理由により値が存在しない場合、欠損値を示す記号(T7として示すφなど)を記載することが望ましい。
優先値T8は、後述する情報処理工程のステップM3において、試行する判別因子の抽出方法として「優先順抽出」が選択されている場合に、本カラムT8の値である優先値T9の値によって、抽出する判別因子T5を選択する。図2においては、優先値として正の整数を用い、昇順に重要度が少なくなる形式としているが、例えば、観測データから計算可能な実数を値としてとることも有効である。また、行方向に同様の優先値が用意されている場合、サンプルの抽出方法として優先順抽出が選択可能となり、後述する情報処理工程ステップM3におけるサンプルの選択において、当該行を用いてサンプルの優先的な選択が実施される。
(解析ソフトウェアの情報処理の工程)
次に、図3のフローチャートを参照して、前記解析ソフトウェア23が実行する情報処理の工程を説明する。以下の説明においては、サンプルとしてヒト、外部基準変数としてある疾患の健常者/罹患者の情報、判別因子として網羅的な遺伝子と遺伝子発現パターンが与えられ、ヒトサンプルのデータを解析することで罹患者かどうかの判別が可能な判別器を生成する例を示す。すなわち、多数のヒトサンプルのデータ(外的基準変数、判別因子ごとの説明変数の値など)を解析することで、評価対象のヒトサンプル(未知のサンプル)が外的基準変数の何れに該当するかを高い精度で判別できる、複数の判別因子を組み合わせたセットを生成する場合の処理工程である。
まず、利用者クライアントシステム2における情報表示ソフトウェア14が、ユーザからパラメータ(サンプルや判別因子の次元数)の入力を受け付け(次元数指定受付工程)、サンプルデータ及び実行命令が設定されると、解析提供サーバシステム3の解析提供ソフトウェア22に伝えられ、解析提供サーバシステム3のCPU(制御手段)によって解析ソフトウェア23が起動される。この解析ソフトウェア23は、サンプルデータの情報量の範囲で設定された、試行するサンプル数及び判別因子の数の範囲(次元)、過剰適応テストの実行有無と実行する場合の試行回数、判別解析における予測式のパラメータ決定の収束判定基準値、判別因子候補カウント数、判別因子候補の抽出数を初期値としてプログラムにセットする(ステップM1)。
次いで、解析ソフトウェア23は前記利用情報格納部17(サンプルデータファイル)からサンプルデータを取得する(ステップM2)。ここでサンプルデータとは、サンプル名ラベル(T2)、外的基準変数名ラベル(T3)、判別因子名ラベル(T5)、説明変数(T6)などからなる、解析に用いられる一連のオリジナルデータであり、ここでは、全データの実数値若しくはデータへのアクセスハンドルを取得する。なお、上記したように、本実施形態においては、説明変数(T6)について欠損値の補充や標準化といった前処理が行われており(データ不備判定工程、説明変数整備工程)、そのまま判別解析に利用できる状態になっている。
続いて、ステップM1でセットされた試行数(次元)分のサンプル及び判別因子を、サンプルデータから切り出してサブセットを生成する(ステップM3:サブセット生成工程)。具体的には、前記情報表示ソフトウェア15によってディスプレイ装置に表示されたパラメータ設定画面からユーザが指定した内容に従って、所定の優先順若しくはランダムに指定数のサンプル及び判別因子を選択し、選択されたサンプルに関するサンプル名ラベル、外部基準変数、及び選択されたサンプル及び判別因子における説明変数を抽出する。なお、指定された次元数のサンプル及び判別因子を選択してサブセットを生成してから、そのサンプル及び判別因子の説明変数を抽出するようにしても(M1→M3→M2)、同様の結果が得られる。
次いで、生成されたサブセットについて、判別解析(ステップM4)と過剰適応テスト(ステップM5〜M12)とを実施する。判別解析の詳細な処理工程(M4:S1〜S12)については後述する。
過剰適応テストは、具体的には、まず、抽出した複数の判別因子をパラメータとする関数を作成し、その関数に前記抽出した複数の説明変数のうち、特定の群に分類されたサンプルの説明変数を代入して当該サブセットの基準判別精度を算出する(ステップM5)。
次いで、このサブセットに含まれる複数のサンプルの群のデータをランダムにシャッフルする(ステップM6)。ここで、サンプル間での個々の説明変数をシャッフルしたり、あるいは、外的基準変数若しくは個々の説明変数を、統計的に類似の分布を持つ値(ダミーの値)にランダムに置換することも有効である。
次いで、前記置換後の群データに基づいて、特定の群に分類されたサンプルデータを選択し、これらの説明変数を前記作成した関数に代入して当該サブセットの比較判別精度を算出する(ステップM7)。
次いで、前記比較判別精度が、前記基準判別精度と比べて有意に低くなっていることの統計的判定に基づいて、当該サブセットが過剰適応に該当しないかを判断する(ステップM8)。過剰適応に該当しないと判断した場合は(ステップM8のYes)、前記サブセットの複数の判別因子を判別因子セットとして出力する(ステップM9)。一方、比較判別精度と基準判別精度とが統計的に有意なレベルで相違しなかったり、比較判別精度が全サンプルの特定グループの割合に比べて著しく低いなど、過剰適応であると判断された場合は(ステップM8のNo)、その判断結果と基準判別精度とを前記解析情報一時格納部20に格納する(ステップM10)。このような過剰適応テストを、指定回数に達するまで繰り返すと共に(ステップM11)、算出された複数回の基準判別精度の値を集計する(ステップM12)。これにより、外的基準変数が判別に値しない組合せにおいて、過剰適応により生成された判別器による判別精度の推定を行うことができる。
上記ステップM3〜M12を、サブセットについて指定された試行回数だけ繰り返した後(ステップM13)、試行された当該サブセットの判別因子の数が指定された次元数以上である場合に(ステップM14のYes)、サブセットのサンプルの数はそのまま変更せず判別因子だけを一定数増やして選択し直してさらに処理を繰り返す(ステップM15)。試行された判別因子の数が指定された次元数未満であれば(ステップM14のNo)、この試行判別因子の数を初期化する(ステップM16)。
次いで、試行された当該サブセットのサンプル数が指定された次元数以上である場合に(ステップM17のYes)、サブセットの判別因子の数はそのまま変更せずサンプルだけを一定数増やして選択し直してサブセットの生成に戻る(ステップM18)。一方、試行されたサンプルの数が指定された次元数未満であれば(ステップM17のNo)、この処理を終了する。
これにより、指定範囲の次元数のサンプル及び判別因子からなるサンプルサブセットにおいて、判別器とその判別精度を得ることができると共に、過剰適応状態で生成される不適当な判別器の判別精度の推定値を求めることもできる。また、この時、サンプルまたは判別因子の一方の数を固定することにより、何れかの数の変更によって生じる判別器とその判別精度の変動や、過剰適応状態で生成される不適当な判別器の判別精度の推定値の変動を夫々求めることもできる。
(判別解析の情報処理プロセス)
次に、図4のフローチャートを参照して、前記判別解析の情報処理プロセス(ステップM4)を詳細に説明する。
まず、判別因子候補の選択までにかかるステップS2〜S10の実行回数をカウントするための判別因子候補選択処理試行回数カウンタnを初期化する(ステップS1)。
次に、試行回数解析対象であるサンプルサブセットに含まれる各判別因子が、何回、判別因子候補に選択されたかを示す被候補カウンタを0にクリアする(ステップS2)。
次に、判別因子候補選択処理試行回数カウンタnをカウントアップする(ステップS3)。次に、前記利用者クライアントシステム2によって設定された次元数だけ判別因子をランダムに選択し(ステップS4)、選択された判別因子により判別処理を実行する(ステップS5)。ここで判別処理とは、一般的な判別アルゴリズムによる判別器の生成のことであり、例えば、ロジスティック判別分析などを用いることが可能である。
生成された判別器の判別力が利用者クライアントシステム2における情報表示ソフトウェア14において設定された目標判別力以上である場合(ステップS6のYes)、判別器に含まれる判別因子の被候補カウンタの値をインクリメントし(ステップS7)、被候補カウンタの値が利用者クライアントシステム2における情報表示ソフトウェア14において設定された目標回数に達したかどうかを確認する(ステップS8:抽出回数積算工程)。一方、判別力が目標値に達しない場合は(ステップS6のNo)、ステップS3に戻って判別因子候補選択処理試行回数カウンタnをカウントアップしながら処理を繰り返す。
被候補カウンタnが目標回数に達した判別因子がある場合は(ステップS8のYes)、その判別因子を「判別因子候補」と判断して判別因子ラベルと試行回数とを解析情報一時格納部20に格納する(ステップS9)。ここで、このカウンタの値が大きいほど、指定判別力に関与する判別因子が得られにくいことを示す。一方、被候補カウンタnが目標回数に達した判別因子がない場合は(ステップS8のNo)、ステップS3に戻って判別因子候補選択処理試行回数カウンタnをカウントアップしながら処理を繰り返す。
次いで、判別因子候補数が利用者クライアントシステム2において設定された目標数に達した場合(ステップS10のNo)、判別因子候補選択のため処理を終了する(ステップS11)。一方、判別因子候補数が設定された目標数に達していない場合(ステップS10のYes)は、ステップS2に戻って処理を繰り返す。このように、判別因子候補の選択処理を一定数実行した場合に、指定個数の判別因子候補が得られなくても処理を停止することによって、システムの処理を効率良く実行可能である。
得られた1以上の判別因子候補により、一般的な判別アルゴリズムによって判別器を生成する(ステップS12)。ここでの判別器の生成においては、ステップS5と違うアルゴリズム(例えば、Weighted Vote法など)を用いることが好ましい。
得られた判別器は、サンプルの選択において判別器生成用に含まれないサンプルを未知のサンプルとみなして交叉検定の手法により判別器の判定と正解を比較することで、外的規準による精度評価を行うことが可能となる。この際、適正に選択された判別器候補は、未知のサンプルに対しても良好な判別力を持つことを以って、選択の適正度の傍証とすることができる。
ここで、多数の判別因子セットの候補がある場合には、判別結果を一つ一つ集計することで、どの群に分類されるかを集計可能である。この集計結果の最も多い群に分類されるものを最終判別結果として多数決で判別を行う。どれだけ多数の判別器に支持されて判定されたかの比率を指数化することで、これを判別の確度指数として用いることができる。目的に応じて拮抗する判別の場合は、中間ゾーンを判別保留とすることもできる。
(パラメータ設定ユーザインタフェースの例)
次に、図5の情報入力画面等の例を参照して、本発明の動作及び機能を具体的に説明する。
まず、図5は、利用者用クライアントシステム2におけるパラメータ設定ユーザインタフェースの例である。本実施例において、ユーザインタフェースは、解析提供ソフトウェア22が提供するWebページ501として実装されている。
まず、本システムの利用者は、サンプルデータ選択ユーザインタフェース502によって、実験装置や解析ソフトウェアによって、或いは手入力された、前記図2に示した内容を含むサンプルデータファイルを選択する。
上記選択されたサンプルデータファイルは一旦、解析提供サーバシステム3に送られ、解析提供ソフトウェア22によってフォーマット及び内容のチェックが行われ、問題が無ければ、ファイル名503、利用可能な外部基準変数504、サンプルと判別因子の数505が表示される。本ユーザインタフェースでは、指定した外部基準変数において2種類の内の何れか、若しくは1種類とその他の値を持つサンプル分別器を生成・評価することを目的としている。
加えて、前述のステップM3におけるサンプル選択において過剰適応テストのためにサンプルの数の変化を設定するパラメータ506においては、サンプル数の開始、終了及び変化量、加えて、該当数のサンプルの選択にサンプルデータに用意された優先値を用いるか若しくはランダムに選択するかが設定できる。
また、同じくステップM3における判別因子選択において過剰適応テストのために判別因子の数の変化を設定するパラメータ507においては、判別因子の数の開始、終了及び変化量、加えて、該当数の判別因子の選択に、サンプルデータに用意された優先値を用いるか若しくはランダムに選択するかを選択する。
また、前記のパラメータ506若しくはパラメータ507において、サンプル若しくは判別因子をランダムに選択する設定を選択した場合、前述のステップM8でチェックする試行回数の上限パラメータ508が用意される。
次に、前述のステップS5において実施する判別処理のアルゴリズムの選択509、ステップS6に利用する同処理における判別力510、ステップS8に利用する被候補カウンタ511、要求する判別因子候補数512を入力するユーザインタフェースが用意されている。
次に、判別因子候補によって判別器を生成するためのアルゴリズムを選択するパラメータ513を選択するユーザインタフェースが用意されている。
上記の設定パラメータは、Submitボタン514をクリックすることにより、解析提供サーバシステム3に送信され、解析提供ソフトウェア22を介して解析ソフトウェア23によって解析処理が実行される。
(解析結果の表示画面の例)
次に、図6の表示画面等の例を参照して、本発明の動作及び機能を説明する。
図6は、解析ソフトウェア23の出力が解析提供ソフトウェア22によって加工され、利用者用クライアントシステム2に送信され、情報表示ソフトウェアによって表示された例である。本実施例において、ユーザインタフェースは、解析提供ソフトウェア22が生成するWebページとして実装されている。
まず、解析結果全体表示モード601においては、解析対象情報603が表示され、解析された範囲における数のサンプル及び判別因子における判別力のグラフ605及び表606が表示される。グラフ及び表は、通常解析/過剰適応テスト選択パラメータ604により表示対象を切り替えることができる。また、詳細にチェックしたいサンプル数及び判別因子の数をセットしてSubmitボタン608をクリックし、詳細情報表示602を行うことができる。詳細情報表示602においては、指定されたサンプル数及び判別因子の数に対する解析の詳細内容を詳細情報グラフ609及び詳細情報テーブル610の形態で表示される。この例においては、詳細情報表示においては、指定された数のサンプル及び判別因子に対して、試行回数、判別因子数の変化に伴う判別力の変化を百分率で表示している。
(変形例)
なお、この発明は上記の実施形態に限定されるものではなく、発明の要旨を変更しない範囲で種々変形可能である。
例えば、上記の実施形態では、判別器が複数の判別因子の組み合わせである場合を説明したが、サンプルデータを解析した結果、1の判別因子によって判別器が構成される場合もあり得る。
図1は、本発明の実施形態のシステム構成を示す概略図である。 図2は、同、オリジナルのサンプルデータの例である。 図3は、同、全体の処理工程を示すフローチャートである。 図4は、同、判別解析の処理工程を示すフローチャートである。 図5は、同、システムにおける解析パラメータ入力画面の一例を示す図である。 図6は、同、システムにおける解析結果表示画面の一例を示す図である。
符号の説明
1…判別器生成システム
2…利用者用クライアントシステム
3…解析提供サーバシステム
5…CPU
6…RAM
7…記憶装置
8…入出力インタフェース
9…通信バス
10…ディスプレイ装置
11…入力装置
12…通信デバイス
13…ドライブ
14…プログラム格納部
15…情報表示ソフトウェア
16…クライアントシステムソフトウェア
17…利用情報格納部
20…解析情報一時格納部
21…ユーザ情報格納部
22…解析提供ソフトウェア
23…データ格納部

Claims (11)

  1. 入力手段、コンピュータプログラムを記憶する記憶装置、及びコンピュータプログラムを呼び出してサンプルのデータを分析する制御手段を備えたコンピュータシステムによって実行され、任意の外的基準変数(特徴)に従って評価対象のサンプルをあるアルゴリズムの基で複数の群の何れかに分類するための1以上の判別因子(変量の項目)の組み合わせ(判別因子セット)を特定する方法であって、
    前記記憶装置は、多数のサンプルについて観測・計測された多数の判別因子ごとの説明変数(変量)であって分析に適さないノイズを含む可能性があるものと、各サンプルが前記外的基準変数に従って分類された群のデータとを含むサンプルデータファイルを備え、
    この方法は、前記制御手段が、
    前記入力手段を介して、多数のサンプルからなるサンプル集合の中から分析対象とするサンプルの次元数の指定、及び多数の判別因子群の中から分析対象とする判別因子の次元数の指定を夫々受け付ける次元数指定受付工程と、
    前記サンプルデータファイルの中から、所定の抽出基準に従って、前記指定された各次元数のサンプル及び判別因子を夫々抽出し、これらを組み合わせて複数のサンプル及び複数の判別因子からなるサブセットを生成するサブセット生成工程と、
    前記サンプルデータファイルから、前記生成されたサブセットに含まれる複数のサンプル及び複数の判別因子における説明変数と、当該複数のサンプルの群のデータとを夫々抽出する抽出工程と、
    抽出した複数の判別因子をパラメータとする関数を作成し、その関数に前記抽出した複数の説明変数のうち、特定の群に分類されたサンプルの説明変数を代入して当該サブセットの基準判別精度として出力する基準判別精度算出工程と、
    前記サブセットに含まれる複数のサンプルの群のデータをランダムに置換(シャッフル)する群データ置換工程と、
    前記置換後の群データに基づいて、特定の群に分類されたサンプルの説明変数を前記作成した関数に代入して当該サブセットの比較判別精度として出力する比較判別精度算出工程と、
    前記比較判別精度が、前記基準判別精度と比べて有意に低くなっていることの統計的判定に基づいて、当該サブセットが、前記サンプルの次元数に対して判別因子の次元数が多いことにより発生する過剰適応に該当しないかを判断する過剰適応判断工程と、
    過剰適応に該当しないと判断された前記サブセットの判別因子を判別因子セットとして出力する判別因子セット出力工程と
    を実行することを特徴とする方法。
  2. 請求項1の方法において、
    前記サンプルは、生物個体や、生物個体の血液、口腔粘膜、毛髪、毛根、爪、生体検査や手術によって摘出された臓器断片などの臓器組織、それ以外の生物個体の部分、若しくは生物個体の部分から回収可能な染色体構造であり、
    前記説明変数は、絶対量、相対量若しくは有無によって特定される、生物個体のバイオメトリクス(体長、体重、年齢など)、ゲノム転写物、タンパク質、化合物若しくはその他の分子の量の指標となる生化学的検査数値、マイクロサテライトやSNP(1塩基多様性)などの生物多様性因子、若しくは生物個体の疾患履歴、食事・生活状態などの生体情報であり、
    前記外的基準変数(特徴)は、特定の疾患における健常者と罹患者、特定の疾患の罹患者における特定の合併症の有無、特定の疾患の罹患者の予後における同疾患の再発の有無、ガン疾患における転移の有無、ガン疾患における特定臓器組織への転移の有無、特定の薬剤に対する効果や薬剤抵抗性若しくは副作用の有無、特定の生物の昼と夜の状態、特定の生物の胎児齢の何れかである
    ことを特徴とする方法。
  3. 請求項1の方法において、
    さらに、前記制御手段が、前記判別因子セット出力工程において出力された判別因子セットの基準判別精度を、前記記憶装置に格納された過剰適応による判別精度の標準値と比較して、サンプル及び判別因子の次元数の組合せの信頼性を示す信頼性指標を出力する信頼性指標出力工程を実行することを特徴とする方法。
  4. 請求項1の方法において、
    前記比較精度判別算出工程は、統計的判断が可能な個数の比較判別精度を算出するまで処理を繰り返し実行することを特徴とする方法。
  5. 請求項1の方法において、
    前記群データ置換工程は、群データの置換に加えて、若しくはこれに代えて、前記サブセットに含まれる1以上の判別因子の説明変数をランダムに置換(シャッフル)することを特徴とする方法。
  6. 請求項1の方法において、
    前記サブセット生成工程は、指定された次元数のサンプル及び判別因子を異なる抽出基準に従って夫々抽出するものであることを特徴とする方法。
  7. 請求項1の方法において、
    さらに、前記制御手段が、
    前記サブセット生成工程で抽出されなかったサンプルを含む検証用サブセットを生成する検証用サブセット生成工程と、
    前記サブセット生成工程で作成された関数に、前記検証用サブセットに含まれるサンプルの説明変数を適用して検証用判別精度を算出する検証用判別精度算出工程と、
    前記判別因子セット出力工程で出力された判別因子セットの基準判別精度と前記検証用判別精度とを比較照合して、当該基準判別精度の信頼性を検証する基準判別精度検証工程と
    を実行することを特徴とする方法。
  8. 請求項7の方法において、
    前記検証用サブセット生成工程は、多数の検証用サブセットを生成するものであり、
    前記検証用判別精度算出工程は、生成された多数の検証用サブセットについて検証用判別精度を夫々算出するものであり、
    前記基準判別精度検証工程は、算出された多数の検証用判別精度の中で所定の基準精度よりも高いものの全て又は一部の多数決に従って特定した検証用判別精度の範囲に前記判別因子セットの基準判別精度が含まれるか、若しくは前記算出された多数の検証用判別精度の中で所定の基準精度よりも高いものの全て又は一部の平均値と比較して前記判別因子セットの基準判別精度が統計的に有意に近似するか、に基づいて、当該基準判別精度の信頼性を検証するものである
    ことを特徴とする方法。
  9. 請求項7の方法において、
    前記基準判別精度検証工程は、前記サンプルが複数の抽出基準に従って夫々選択される場合に、その抽出基準毎の複数のサブセットの基準判別精度を比較することで、判別精度に寄与する副次的な判別因子の有無を判定して出力することを特徴とする方法。
  10. 入力装置、コンピュータプログラムを記憶する記憶装置、コンピュータプログラムを呼び出してサンプルのデータを解析する制御手段を備え、任意の外的基準変数(特徴)に従って評価対象のサンプルをあるアルゴリズムの基で複数の群の何れかに分類するための1以上の判別因子(変量の項目)の組み合わせ(判別因子セット)を特定するシステムであって、
    多数のサンプルについて観測・計測された多数の判別因子ごとの説明変数(変量)であって分析に適さないノイズを含む可能性があるものと、各サンプルが前記外的基準変数に従って分類された群のデータとを含むサンプルデータファイルと、
    前記入力装置を介して、多数のサンプルからなるサンプル集合の中から分析対象とするサンプルの次元数の指定、及び多数の判別因子群の中から分析対象とする判別因子の次元数の指定を夫々受け付ける次元数指定受付手段と、
    前記サンプルデータファイルの中から、所定の抽出基準に従って、前記指定された各次元数のサンプル及び判別因子を夫々抽出し、これらを組み合わせて複数のサンプル及び複数の判別因子からなるサブセットを生成するサブセット生成手段と、
    前記サンプルデータファイルから、前記生成されたサブセットに含まれる複数のサンプル及び複数の判別因子における説明変数と、当該複数のサンプルの群のデータとを夫々抽出する抽出手段と、
    抽出した複数の判別因子をパラメータとする関数を作成し、その関数に前記抽出した複数の説明変数のうち、特定の群に分類されたサンプルの説明変数を代入して当該サブセットの基準判別精度として出力する基準判別精度算出手段と、
    前記サブセットに含まれる複数のサンプルの群のデータをランダムに置換(シャッフル)する群データ置換手段と、
    前記置換後の群データに基づいて、特定の群に分類されたサンプルの説明変数を前記作成した関数に代入して当該サブセットの比較判別精度として出力する比較判別精度算出手段と、
    前記比較判別精度が、前記基準判別精度と比べて有意に低くなっていることの統計的判定に基づいて、当該サブセットが、前記サンプルの次元数に対して判別因子の次元数が多いことにより発生する過剰適応に該当しないかを判断する過剰適応判断手段と、
    過剰適応に該当しないと判断された前記サブセットの判別因子を判別因子セットとして出力する判別因子セット出力手段と
    を備えたことを特徴とするシステム。
  11. 入力手段、記憶装置及び制御手段を備えたコンピュータシステムの前記記憶装置に格納され、このコンピュータシステムに任意の外的基準変数(特徴)に従って評価対象のサンプルをあるアルゴリズムの基で複数の群の何れかに分類するための1以上の判別因子(変量の項目)の組み合わせ(判別因子セット)を特定させるためのコンピュータソフトウェアプログラムであって、
    前記記憶装置は、多数のサンプルについて観測・計測された多数の判別因子ごとの説明変数(変量)であって分析に適さないノイズを含む可能性があるものと、各サンプルが前記外的基準変数に従って分類された群のデータとを含むサンプルデータファイルを備え、
    このソフトウェアプログラムは、
    前記入力手段を介して、多数のサンプルからなるサンプル集合の中から分析対象とするサンプルの次元数の指定、及び多数の判別因子群の中から分析対象とする判別因子の次元数の指定を夫々受け付ける次元数指定受付工程と、
    前記サンプルデータファイルの中から、所定の抽出基準に従って、前記指定された各次元数のサンプル及び判別因子を夫々抽出し、これらを組み合わせて複数のサンプル及び複数の判別因子からなるサブセットを生成するサブセット生成工程と、
    前記サンプルデータファイルから、前記生成されたサブセットに含まれる複数のサンプル及び複数の判別因子における説明変数と、当該複数のサンプルの群のデータとを夫々抽出する抽出工程と、
    抽出した複数の判別因子をパラメータとする関数を作成し、その関数に前記抽出した複数の説明変数のうち、特定の群に分類されたサンプルの説明変数を代入して当該サブセットの基準判別精度として出力する基準判別精度算出工程と、
    前記サブセットに含まれる複数のサンプルの群のデータをランダムに置換(シャッフル)する群データ置換工程と、
    前記置換後の群データに基づいて、特定の群に分類されたサンプルの説明変数を前記作成した関数に代入して当該サブセットの比較判別精度として出力する比較判別精度算出工程と、
    前記比較判別精度が、前記基準判別精度と比べて有意に低くなっていることの統計的判定に基づいて、当該サブセットが、前記サンプルの次元数に対して判別因子の次元数が多いことにより発生する過剰適応に該当しないかを判断する過剰適応判断工程と、
    過剰適応に該当しないと判断された前記サブセットの判別因子を判別因子セットとして出力する判別因子セット出力工程と
    を前記コンピュータシステムに実行させることを特徴とするソフトウェアプログラム。
JP2007230142A 2006-09-06 2007-09-05 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム Active JP5307996B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007230142A JP5307996B2 (ja) 2006-09-06 2007-09-05 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006241203 2006-09-06
JP2006241203 2006-09-06
JP2007230142A JP5307996B2 (ja) 2006-09-06 2007-09-05 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム

Publications (2)

Publication Number Publication Date
JP2008090833A JP2008090833A (ja) 2008-04-17
JP5307996B2 true JP5307996B2 (ja) 2013-10-02

Family

ID=39374863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007230142A Active JP5307996B2 (ja) 2006-09-06 2007-09-05 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム

Country Status (1)

Country Link
JP (1) JP5307996B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134773A (ja) * 2008-12-05 2010-06-17 Dna Chip Research Inc 生理的状態分析方法、生理的状態分析システム、及びコンピュータシステムに生理的状態を分析するための処理を実行させるコンピュータプログラム
JP2012256182A (ja) * 2011-06-08 2012-12-27 Sharp Corp データ解析装置、データ解析方法およびデータ解析プログラム
CN104584022B (zh) * 2012-06-21 2018-11-16 菲利普莫里斯生产公司 一种生成生物标记签名的系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19635758C1 (de) * 1996-09-03 1997-11-20 Siemens Ag Verfahren und Vorrichtung zur rechnergestützten Generierung mindestens eines künstlichen Trainingsdatenvektors für ein neuronales Netz
EP1236173A2 (en) * 1999-10-27 2002-09-04 Biowulf Technologies, LLC Methods and devices for identifying patterns in biological systems
WO2003085548A1 (fr) * 2002-04-04 2003-10-16 Ishihara Sangyo Kaisha, Ltd. Dispositif et procede d'analyse de donnees

Also Published As

Publication number Publication date
JP2008090833A (ja) 2008-04-17

Similar Documents

Publication Publication Date Title
Tan et al. Ensemble machine learning on gene expression data for cancer classification
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
JP2013513387A (ja) 循環器疾患の診断と分類のためのバイオマーカーアッセイ
US9940383B2 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
EP2864918B1 (en) Systems and methods for generating biomarker signatures
Benso et al. A cDNA microarray gene expression data classifier for clinical diagnostics based on graph theory
JP7275334B2 (ja) 個人の生物学的ステータスを予測するためのシステム、方法および遺伝子シグネチャ
Chicco et al. An enhanced Random Forests approach to predict heart failure from small imbalanced gene expression data
JP5307996B2 (ja) 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム
KR102124193B1 (ko) 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법
CN111540410B (zh) 用于预测个体的吸烟状况的系统和方法
CN116312800A (zh) 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质
Koestler et al. A recursively partitioned mixture model for clustering time-course gene expression data
Jung et al. A machine learning method for selection of genetic variants to increase prediction accuracy of type 2 diabetes mellitus using sequencing data
CN111164701A (zh) 针对靶标定序的定点噪声模型
AU2019446735B2 (en) Method for discovering marker for predicting risk of depression or suicide using multi-omics analysis, marker for predicting risk of depression or suicide, and method for predicting risk of depression or suicide using multi-omics analysis
CN108182347B (zh) 一种大规模跨平台基因表达数据分类方法
Aljouie et al. Cross-validation and cross-study validation of chronic lymphocytic leukaemia with exome sequences and machine learning
Arslan A Novel Bayesian Rank-Based Framework for the Classification of High-Dimensional Biological Data
Deng et al. Introduction to the development and validation of predictive biomarker models from high-throughput data sets
CN111944901A (zh) 一种特征mRNA表达谱组合及肾乳头状细胞癌早期预测方法
KR20220111847A (ko) 복합 생체 표지 네트워크 기반 질병 위험도 진단 방법
CN111944898A (zh) 一种特征mRNA表达谱组合及肾透明细胞癌早期预测方法
CN112020565A (zh) 用于确保基于测序的测定的有效性的质量控制模板

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080125

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130628

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5307996

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250