JP2005038256A - 有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体 - Google Patents

有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体 Download PDF

Info

Publication number
JP2005038256A
JP2005038256A JP2003275628A JP2003275628A JP2005038256A JP 2005038256 A JP2005038256 A JP 2005038256A JP 2003275628 A JP2003275628 A JP 2003275628A JP 2003275628 A JP2003275628 A JP 2003275628A JP 2005038256 A JP2005038256 A JP 2005038256A
Authority
JP
Japan
Prior art keywords
information
sample
factor
group
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003275628A
Other languages
English (en)
Inventor
Akito Daiba
昭人 臺場
Satoru Ito
哲 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JGS KK
JGS KK
Original Assignee
JGS KK
JGS KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JGS KK, JGS KK filed Critical JGS KK
Priority to JP2003275628A priority Critical patent/JP2005038256A/ja
Publication of JP2005038256A publication Critical patent/JP2005038256A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 複数の因子を含む標本を用いる多変量解析やパターン認識などに有効な因子を選択し、因子の数を効果的に絞り込むことができる有効因子情報選択装置等を提供することを課題とする。
【解決手段】 本発明にかかる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体は、標本識別情報、標本属性情報、および、複数の因子情報を含む標本情報の集合を取得し、取得された標本情報の集合から、任意に選択された2つの標本属性情報のうちの1つを持つ第1標本情報群、および、他の1つを持つ第2標本情報群を選択し、選択された第1標本情報群および第2標本情報群の各因子情報の平均情報および標準偏差情報を算出し、算出された第1標本情報群および第2標本情報群の各因子情報の平均情報および標準偏差情報に基づいて、判定式1から判定式4のうち少なくとも一つを適用し、判定条件を満たす有効な因子情報を選択する。
【選択図】 図1

Description

本発明は、有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体に関し、特に、複数の因子を含む標本を用いる多変量解析やパターン認識などに有効な因子を選択し、因子の数を効果的に絞り込むことができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体に関するものである。
近年の技術の発達に伴い、様々な分野において、取得できるデータ量が飛躍的に増加している。そのため、どのようなデータを得るかはもちろんのこと、得た膨大なデータをどのように処理してどのような情報を引き出すかが各分野において大きな課題となっている。例えば、DNAマイクロアレイ等では、これまで生物学者が経験したことのない膨大な量のデータがもたらされており、これらの膨大な量のデータの保存と解析について、DNAマイクロアレイを用いる研究者は悩んでいる(例えば、非特許文献1参照。)。
ここで、特に問題となるのは因子の数が多い場合である。例えば、因子が2個の場合、両因子の相関があるかないか、そして、相関があるとすればどのような相関であるかを見ることはさほど困難ではない。具体的には両因子をxとyのグラフに置くだけで、相関の強弱等が直感的に見える場合も珍しくはない。一方、因子の数が多い場合、どの因子とどの因子が関連して動いているのか、そして、その関連はどのようなものであるか、また、関連のない因子はどれであるか等の問題を解決するためには、複数の因子に関するデータを基に各因子間の相互関連を分析する統計的手法である多変量解析が必要である。
従来の多変量解析について、以下に簡単に説明する。多変量解析はすでに確立された統計的手法であり、例えば、経済学、気象学、医学、マーケティング等の分野で広く用いられている。また、多変量解析では、目的因子(「結果」;例えば広告費と売上の関係における売上)の有無、および、データ形態(カテゴリーデータか、数値データか)によって、主成分分析、重回帰分析、クラスター分析等の手法が選択される(例えば、非特許文献2参照。)。
しかしながら、多変量解析を用いることによって、因子の数が多い場合の上述した問題がすべて解決されるわけではない。例えば、多変量解析では上述のように主成分分析、重回帰分析、クラスター分析等の手法が選択されるが、これらの従来の解析手法は全ての因子を一括して計算させるため、因子の数が100を超えるとデータ量や計算時間も膨大になり、データ処理が実質不可能である。
具体的には、マーケットリサーチにおける多変量解析などにおいて膨大な計算時間を要するという問題が挙げられる。マーケットリサーチでは主成分分析や重回帰分析などを用いた多変量解析が主に行われており、因子の数は数百〜数万に及ぶ。そして、因子全体から導出された主成分や個々の因子に割り当てた重みなどによって予測値が計算される。
しかし、ノイズとなる因子が含まれていると、導出された結果の誤差が大きくなり、目的機能を達成しないことが多くなる。また、予測値の計算は最小二乗法により連立方程式の解を導きだす方式で計算されるため、因子数が増加すると大規模な行列計算を繰り返すことになり、計算量が累乗的に増加する。この結果、計算時間も膨大となり、例えば数日を要する場合が多い。
また、膨大な計算時間を要するという問題は、例えば、パターン認識においても同様である。パターン認識とは、観測したパターンを予め学習によって獲得された概念の一つに対応させることである。そして、パターン認識には、例えば、閾値による認識、ファジー推論、ニューラルネットワーク、MT(マハラノビス・タグチ)システム等の従来技術が挙げられ、パターン認識は多変量解析と同様に多くの因子を取扱う。
しかし、パターン認識においては、ノイズとなる因子が含まれている場合、または、標本の数が因子の数よりも少ない場合には、認識率が著しく低下することが問題となる。また、多くの因子を扱うことにより多変量解析と同様に計算時間が膨大となる。
また、多変量解析やパターン認識では、一般に因子数の2〜3倍の標本が必要とされており、これだけの標本が用意できない場合、「行列計算のノルムが算出できない」などの原因から、解析結果が安定しなかったり、解析結果を得ることができなかったりすることがある。したがって、因子数が増えると必要とされる標本数も増えるが、現実的には必要とされる標本数を揃えることが困難であることが多い。
具体的には、DNAマイクロアレイ解析において、DNAマイクロアレイやDNAチップから採取できる発現データは数百から数万種の発現情報に及ぶが、それに見合った標本数の収集は現実的ではない。
従来、DNAマイクロアレイにおける遺伝子発現データ解析方法は、DNAマイクロアレイの発達に伴った遺伝子の発現パターンの解析として開発されてきた。つまり、当初最も開発された酵母などのcDNA(complementary DNA:相補的DNA)のマイクロアレイデータを用いて、それぞれの遺伝子の発現パターンの特徴から、DNAマイクロアレイ上のすべての遺伝子を網羅的に分類することを目的とした遺伝子発現解析である(例えば、非特許文献3参照。)。
しかし、DNAマイクロアレイは一度に数百から数千、数万の遺伝子の発現を同時に測定できる技術であるが、一方で測定数の膨大さゆえに、必要な標本数を揃えたとしても、数万からなる因子について分析するには高速なコンピュータを利用しても数日もの計算時間が必要となる。具体的には、このような網羅的発現解析においては、DNAマイクロアレイで得られたデータすべてをクラス分けし、即ちすべての遺伝子を有効な因子として扱い、その中に含まれる未知の遺伝子をクラスから機能推定するため、計算が煩雑になり、また、計算に必要な時間が膨大であった。
このように、多変量解析やパターン認識などにおいては、計算時間の膨大さなどを改善するために、複数の因子から有効な因子を選択して用いることが重要な課題となっている。
ここで、従来の有効な因子を選択する手法について説明する。
例えば、非特許文献2の「変数選択の方法」と題するセクションにおいて、「1.変数(因子)相互で高い相関のものの一方を落とす。」や、「2.将来設計のできない変数(因子)を落とす。」により、変数(因子)の数を10未満にするよう指示している。また、非特許文献2では変数(因子)の選択をクラスター分析により行う例が示されている。
また、パターン認識における有効な因子を選択する周知の手法としては、例えば、人間が重要と思われる因子の組合せを推定する手法、ランダムもしくは直行表などにより因子の組合せを数組作成し各組間の認識率を比較し有効と思われる因子セットを決定する手法、などが挙げられる。
また、多変量解析における有効な因子を選択する周知の手法として、「特徴化」という手法が使われることがある。「特徴化」とは、測定した値だけではノイズの影響などでデータの持つ特異性を検出できない場合に、それらの測定値になんらかの数値処理を行い、より特異性の高いパラメータを導出することである。そして、特徴化によって得られた特徴化パラメータは様々な解析や判別に利用される。
従来、特徴化において、全ての因子を同一のルールで加工する試みが多く行われている。例えば、非特許文献4の第3章「倍率変化」において、測定値が倍率(比率)であるため、1より大きい比率の場合1〜∞の間の値をとり、1より小さい比率の場合0〜1の間の値をとるが、数列としてみれば非対称な関係であるため、これを補正する方法が紹介されている。また、例えば、測定誤差(ノイズの影響)を低減する試みとして、log値を採用した事例が、例えば非特許文献5などに紹介されている。さらに、例えば、同じ目的で測定データをカテゴリデータに変換する事例が非特許文献6などで紹介されている。
また、最近ではDNAマイクロアレイ解析の利用形態のひとつとして、臨床データと結びついた解析手法(癌の分類や薬剤感受性の分類)が報告されはじめてきており(例えば、非特許文献7参照。)、このなかで有効な遺伝子の選択が行われている。
非特許文献7では、まず、遺伝子についてグループの発見を、次元を削減しながら行い、ついで、患者について分類を行っている。具体的には、まず、有効な遺伝子の選択を主成分分析(PCA;Principal component analysis)とニューラルネットワークを用いて行いつつ、遺伝子のグルーピングを並行して行って、DNAマイクロアレイ上の6567種類の遺伝子から96種類の遺伝子に絞り込んでいる。ついで、各患者の96種類の遺伝子のデータを定量化し、患者ごとの階層クラスタリングによるグルーピングを行っている。その結果、臨床的に分類の難しい癌を遺伝子発現に基づいて正確に分類することが可能となったことが、非特許文献7では報告されている。なお、一般にDNAマイクロアレイによる臨床データ解析では、上述した非特許文献7のように解析の目的のためにどの遺伝子を用いるかを予め決めず、まず数百あるいは数千の遺伝子の発現パターンを解析してどの遺伝子データを使うかの絞込みを行い、そのうえで個々の患者の遺伝子発現データを解析するということが通常行われる。
Nature Genetics Supplement, 481−489, vol. 32 Dec., 2002 菅民郎著、「多変量解析の実践」、現代数学社 Eisen,et.al., Proc. Natl. Acd. Sci., 1998, 95, p.14863−14868 「DNAマイクロアレイデータ解析入門」、羊土社 「A Gene−Expression signature as a predictor of survival in breast cancer」, The New England Journal of Medicine, Vol.347, No.25 − December 19,2002 「特徴的ルール生成を用いた遺伝子発現解析」、情報処理学会第65回全国大会−3T5B−5 J.Khan,et.al., Nature Medicine, 2001, Vol.7, Num.6, p.673−679
しかしながら、多変量解析やパターン認識において、計算機上で自動的に有効な因子を選択する効果的な方法は確立しておらず、最終的には人間の経験やカンによる因子選択が行われている、という問題点がある。以下、本問題点について具体的に説明する。
従来技術による人間の経験やカンによる因子選択では、選択の根拠を示すことが難しいうえ、重要な因子を取りこぼす可能性も高い。また、有意義な因子群を有効に決定できないために、解析結果の安定性や作業の効率を犠牲にしつつ、すべての因子を使って判別分析やパターン認識を行っているケースが多くある。
また、パターン認識における従来の有効な因子を選択する手法では有効な因子を取りこぼす事も多く、また、因子をセットとして扱うため各因子の重要度も判明しない。さらに、これら手法においても、因子数が100を超えると、認識率の高い因子セットを決定するのが困難であり、現状の一般的な計算機資源では実質的に不可能である。
また、非特許文献2に示されているクラスター分析で有効な因子を選択する手法は、例えばDNAマイクロアレイのように変数(因子)が数千にも及ぶような解析では非現実的なものである。また、非特許文献4の第5章「クラスター解析」では「階層型クラスター化法がうまくいかないのは、遺伝子の数が非常に多い(数千以上に及ぶ)場合である。この問題を軽減する一つの方法はどの実験条件によっても有意な変化を示さない遺伝子を解析対象から除くことである。」と述べており、そもそも変数(因子)の選択のためにクラスター分析を行っているはずのものが、いつのまにか問題が出発地点にまで戻ってしまっている。
また、上述した「特徴化」という手法は、全測定値に同種の処理(ノイズの除去等)を施して、測定誤差の影響を低減する効果を目的としたものにすぎず、特定因子間にある微弱な情報から特徴化パラメータを導出し、それらによる解析や判別、すなわち有効な因子の導出と選択を可能とするものではない。
また、非特許文献7における手法は遺伝子の絞込み(選択)に膨大な計算時間を要する。また、一般的に、遺伝子の絞りこみは、絞り込んだ遺伝子項目を用いた患者のグルーピングの結果によって検証することになるのだが、実際にその検証と並行して絞込みを行うことは、一般の解析方法では膨大な時間を要するため現実的ではない。
このように、従来のシステム等は数々の問題点を有しており、その結果、多変量解析システムおよびパターン認識システムの利用者および管理者のいずれにとっても、利便性が悪く、また、利用効率が悪いものであった。
本発明は上記問題点に鑑みてなされたもので、複数の因子を含む標本を用いる多変量解析やパターン認識などに有効な因子を選択し、因子の数を効果的に絞り込むことができ、特に、疾病に関連する遺伝子群や薬効に関連する因子(遺伝子群)を容易に抽出することができる、有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することを目的としている。
このような目的を達成するために、請求項1に記載の有効因子情報選択装置は、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択装置において、上記標本情報の集合である標本情報集合を取得する標本情報集合取得手段と、上記標本情報集合取得手段にて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択手段と、上記標本情報群選択手段にて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出手段と、上記平均情報・標準偏差情報算出手段にて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式1から判定式4(判定式において、nは正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された2つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択手段とを備えたことを特徴とする。

「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」 < 「第1標本情報群における因子情報の平均情報」 ・・・(判定式1)

「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」 > 「第1標本情報群における因子情報の平均情報」 ・・・(判定式2)

「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」 < 「第2標本情報群における因子情報の平均情報」 ・・・(判定式3)

「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」 > 「第2標本情報群における因子情報の平均情報」 ・・・(判定式4)
この装置によれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択し、選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、群間の乖離を判定する判定式1から判定式4(判定式において、nは分布(バラツキ)の幅を表す数値であり、正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された2つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択するので、基本統計量(平均、標準偏差など)を用いて、因子情報の分布が群間で明確に異なる因子情報を、多変量解析やパターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。
また、この装置によれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間において因子情報の分布の明らかな違いを示す有効な因子情報を選択することができる。
また、この装置によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間において因子情報の分布の明らかな違いを示す、不特定多数の集団から特定の群を判別させるために有効な因子情報を選択することができる。
また、本発明に記載の有効因子情報選択装置は、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択装置において、上記標本情報の集合である標本情報集合を取得する標本情報集合取得手段と、上記標本情報集合取得手段にて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択手段と、上記標本情報群選択手段にて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、分散共分散行列情報または相関行列情報を算出する分散共分散行列情報・相関行列情報算出手段と、上記分散共分散行列情報・相関行列情報算出手段にて算出された上記第1標本情報群および上記第2標本情報群の上記分散共分散行列情報または上記相関行列情報の各行列成分情報の差に基づいて、上記有効な上記因子情報を選択する分散共分散行列情報・相関行列情報基準有効因子情報選択手段とを備えたことを特徴とする。
この装置によれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択し、選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出し、算出された第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択するので、群間で因子情報間の分散、共分散、相関等の性質が明らかに異なる因子情報を、多変量解析、および、パターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。
すなわち、分散分析やマハラノビス距離などを用いた分析においてはデータ間の相関関係を用いて計算を行い判定式に入力するため、因子間の相関関係の大小が判別の結果に大きく影響している。従って、本発明においては、同一因子数からなる群間のそれぞれで分散・共分散行列、もしくは、相関行列を求め、群間における各因子間の差を求め、その差の比較することによって、有効な因子情報を効果的に選択する。また、これを前提として、各群の分散・共分散もしくは分散・共分散行列を標準偏差で割った相関行列などを求め、その群間における各要素間の差を求め、その差が大きなものについて有効な因子とする。
また、この装置によれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大きさを数値化することにより、有効な因子情報を選択することができる。
また、この装置によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大小に基づいて、有効な因子情報を選択することができる。
また、本発明に記載の有効因子情報選択装置は、上記に記載の有効因子情報選択装置において、上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、変動係数情報を算出する変動係数情報算出手段と、上記変動係数情報算出手段にて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記変動係数情報に基づいて、上記有効な上記因子情報を選択する変動係数情報基準有効因子情報選択手段とをさらに備えたことを特徴とする。
この装置によれば、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択するので、変動係数情報に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、各因子情報の変動係数情報に基づいてより詳細に選択することができる。
すなわち、データの分析において最も重要なことの1つは分析の元となる因子の測定精度である。この測定精度が悪い場合、つまり、当該因子のバラツキが大きい場合は、正確な分析ができなくなる。この装置はこの点に着目し、各群の因子毎にCV値(変動係数)を算出し、変動の少ない、つまり、変動係数の小さい因子情報を有効な因子情報として選択する。また、この装置によるCV値による探索や、棄却検定など他の手法を適宜組み合わせることにより、より効果的な因子選択を行うことが可能となる。
また、この装置によれば、因子情報の取りうる値の幅が狭い、つまり、測定精度の高い因子情報を、各因子情報の変動係数情報に基づいてより有効な因子情報として短時間かつ効果的に選択することができる。
また、本発明に記載の有効因子情報選択装置は、上記に記載の有効因子情報選択装置において、上記第1標本情報群および上記第2標本情報群に含まれる各上記因子情報に対して棄却検定を実行する棄却検定実行手段と、上記棄却検定実行手段にて実行された上記第1標本情報群および上記第2標本情報群に含まれる各上記因子情報に対する上記棄却検定の検定値に基づいて、上記有効な上記因子情報を選択する棄却検定値基準有効因子情報選択手段とをさらに備えたことを特徴とする。
この装置によれば、第1標本情報群および第2標本情報群に含まれる各因子情報に対して棄却検定を実行し、実行された第1標本情報群および第2標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択するので、棄却検定の検定値に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、群間の有意差を検定する周知手法である棄却検定の検定値に基づいてより詳細に選択することができる。
また、請求項2に記載の有効因子情報選択装置は、請求項1に記載の有効因子情報選択装置において、上記第1標本情報群および上記第2標本情報群の上記標本情報ごとに、任意に選択された2つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出手段と、上記特徴化パラメータ情報算出手段にて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択手段とをさらに備えたことを特徴とする。
この装置によれば、第1標本情報群および第2標本情報群の標本情報ごとに、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、算出された特徴化パラメータ情報に基づいて、有効な因子情報を選択するので、特徴化パラメータ情報による有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、特徴化パラメータ情報に基づいて(例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて)より詳細に選択することができる。
すなわち、一般に多変量解析やパターン認識に用いる因子が取る値の分布が明確に異なる場合は良好な解析結果を得やすいが、逆に、群間において因子が取る値の分布が似ている場合は当該因子から有意差を検出することができず、良好な解析結果を得ることができない場合がある。そこで、この装置では、有意差を検出することのできない因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択する。
また、相関関係の強い因子同士であっても因子が取る値の変動幅が大きい場合、分散も大きくなり、揺らぎの大きい因子となってしまうため、解析や判別において良い結果を得られない場合がある。そこで、この装置は、当該揺らぎの大きい因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択することができる。
つまり、この装置によれば、因子情報が取りうる値の分布が似ている因子情報同士の場合、または、因子情報が取りうる値の変動幅が大きく、相関関係の強い因子情報同士の場合には、特徴化パラメータ情報を算出しその複数の因子間の差や比を求めることにより、有効な因子情報を短時間かつ効果的に選択することができる。
また、本発明に記載の有効因子情報選択装置は、上記に記載の有効因子情報選択装置において、上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報、ならびに、上記第1標本情報群および上記第2標本情報群のそれぞれにおける上記分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するマハラノビス距離算出用パラメータ情報算出手段をさらに備えたことを特徴とする。
この装置によれば、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第1標本情報群および第2標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するので、当該マハラノビス距離算出用パラメータ情報を用いて、例えば、パターン認識や、多変量解析の一つである判別分析などを効率よく行うことができる。
また、請求項3に記載の有効因子情報選択装置は、請求項1または2に記載の有効因子情報選択装置において、上記因子情報は遺伝子の発現に関する遺伝子発現情報であることを特徴とする。
この装置によれば、因子情報は遺伝子の発現に関する遺伝子発現情報であるので、DNA発現解析を行うための有効な遺伝子情報の選択を短時間かつ効果的に行うことができる。
また、この装置によれば、DNAマイクロアレイで得られた遺伝子発現情報に基づいて、例えば、特定の疾病に関連する遺伝子群や、薬効に関連する遺伝子群などの同定を容易に行うことができる。
また、この装置によれば、同定された遺伝子を使って、例えば、治療方法や薬剤などの選択を容易に行うことができる。
また、本発明は有効因子情報選択方法に関するものであり、請求項4に記載の有効因子情報選択方法は、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法において、上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択ステップと、上記標本情報群選択ステップにて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出ステップと、上記平均情報・標準偏差情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式1から判定式4(判定式において、nは正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された2つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択ステップとを含むことを特徴とする。

「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」 < 「第1標本情報群における因子情報の平均情報」 ・・・(判定式1)

「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」 > 「第1標本情報群における因子情報の平均情報」 ・・・(判定式2)

「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」 < 「第2標本情報群における因子情報の平均情報」 ・・・(判定式3)

「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」 > 「第2標本情報群における因子情報の平均情報」 ・・・(判定式4)
この方法によれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択し、選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、群間の乖離を判定する判定式1から判定式4(判定式において、nは分布(バラツキ)の幅を表す数値であり、正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された2つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択するので、基本統計量(平均、標準偏差など)を用いて、因子情報の分布が群間で明確に異なる因子情報を、多変量解析やパターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。
また、この方法によれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間において因子情報の分布の明らかな違いを示す有効な因子情報を選択することができる。
また、この方法によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間において因子情報の分布の明らかな違いを示す、不特定多数の集団から特定の群を判別させるために有効な因子情報を選択することができる。
また、本発明に記載の有効因子情報選択方法は、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法において、上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択ステップと、上記標本情報群選択ステップにて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、分散共分散行列情報または相関行列情報を算出する分散共分散行列情報・相関行列情報算出ステップと、上記分散共分散行列情報・相関行列情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群の上記分散共分散行列情報または上記相関行列情報の各行列成分情報の差に基づいて、上記有効な上記因子情報を選択する分散共分散行列情報・相関行列情報基準有効因子情報選択ステップとを含むことを特徴とする。
この方法によれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択し、選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出し、算出された第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択するので、群間で因子情報間の分散、共分散、相関等の性質が明らかに異なる因子情報を、多変量解析、および、パターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。
すなわち、分散分析やマハラノビス距離などを用いた分析においてはデータ間の相関関係を用いて計算を行い判定式に入力するため、因子間の相関関係の大小が判別の結果に大きく影響している。従って、本発明においては、同一因子数からなる群間のそれぞれで分散・共分散行列、もしくは、相関行列を求め、群間における各因子間の差を求め、その差の比較することによって、有効な因子情報を効果的に選択する。また、これを前提として、各群の分散・共分散もしくは分散・共分散行列を標準偏差で割った相関行列などを求め、その群間における各要素間の差を求め、その差が大きなものについて有効な因子とする。
また、この方法によれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大きさを数値化することにより、有効な因子情報を選択することができる。
また、この方法によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大小に基づいて、有効な因子情報を選択することができる。
また、本発明に記載の有効因子情報選択方法は、上記に記載の有効因子情報選択方法において、上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、変動係数情報を算出する変動係数情報算出ステップと、上記変動係数情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記変動係数情報に基づいて、上記有効な上記因子情報を選択する変動係数情報基準有効因子情報選択ステップとをさらに含むことを特徴とする。
この方法によれば、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択するので、変動係数情報に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、各因子情報の変動係数情報に基づいてより詳細に選択することができる。
すなわち、データの分析において最も重要なことの1つは分析の元となる因子の測定精度である。この測定精度が悪い場合、つまり、当該因子のバラツキが大きい場合は、正確な分析ができなくなる。この方法はこの点に着目し、各群の因子毎にCV値(変動係数)を算出し、変動の少ない、つまり、変動係数の小さい因子情報を有効な因子情報として選択する。また、この方法によるCV値による探索や、棄却検定など他の手法を適宜組み合わせることにより、より効果的な因子選択を行うことが可能となる。
また、この方法によれば、因子情報の取りうる値の幅が狭い、つまり、測定精度の高い因子情報を、各因子情報の変動係数情報に基づいてより有効な因子情報として短時間かつ効果的に選択することができる。
また、本発明に記載の有効因子情報選択方法は、上記に記載の有効因子情報選択方法において、上記第1標本情報群および上記第2標本情報群に含まれる各上記因子情報に対して棄却検定を実行する棄却検定実行ステップと、上記棄却検定実行ステップにて実行された上記第1標本情報群および上記第2標本情報群に含まれる各上記因子情報に対する上記棄却検定の検定値に基づいて、上記有効な上記因子情報を選択する棄却検定値基準有効因子情報選択ステップとをさらに含むことを特徴とする。
この方法によれば、第1標本情報群および第2標本情報群に含まれる各因子情報に対して棄却検定を実行し、実行された第1標本情報群および第2標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択するので、棄却検定の検定値に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、群間の有意差を検定する周知手法である棄却検定の検定値に基づいてより詳細に選択することができる。
また、請求項5に記載の有効因子情報選択方法は、請求項4に記載の有効因子情報選択方法において、上記第1標本情報群および上記第2標本情報群の上記標本情報ごとに、任意に選択された2つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出ステップと、上記特徴化パラメータ情報算出ステップにて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択ステップとをさらに含むことを特徴とする。
この方法によれば、第1標本情報群および第2標本情報群の標本情報ごとに、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、算出された特徴化パラメータ情報に基づいて、有効な因子情報を選択するので、特徴化パラメータ情報による有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、特徴化パラメータ情報に基づいて(例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて)より詳細に選択することができる。
すなわち、一般に多変量解析やパターン認識に用いる因子が取る値の分布が明確に異なる場合は良好な解析結果を得やすいが、逆に、群間において因子が取る値の分布が似ている場合は当該因子から有意差を検出することができず、良好な解析結果を得ることができない場合がある。そこで、この方法では、有意差を検出することのできない因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択する。
また、相関関係の強い因子同士であっても因子が取る値の変動幅が大きい場合、分散も大きくなり、揺らぎの大きい因子となってしまうため、解析や判別において良い結果を得られない場合がある。そこで、この方法は、当該揺らぎの大きい因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択することができる。
つまり、この方法によれば、因子情報が取りうる値の分布が似ている因子情報同士の場合、または、因子情報が取りうる値の変動幅が大きく、相関関係の強い因子情報同士の場合には、特徴化パラメータ情報を算出しその複数の因子間の差や比を求めることにより、有効な因子情報を短時間かつ効果的に選択することができる。
また、本発明に記載の有効因子情報選択方法は、上記に記載の有効因子情報選択方法において、上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報、ならびに、上記第1標本情報群および上記第2標本情報群のそれぞれにおける上記分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するマハラノビス距離算出用パラメータ情報算出ステップをさらに含むことを特徴とする。
この方法によれば、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第1標本情報群および第2標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するので、当該マハラノビス距離算出用パラメータ情報を用いて、例えば、パターン認識や、多変量解析の一つである判別分析などを効率よく行うことができる。
また、請求項6に記載の有効因子情報選択方法は、請求項4または5に記載の有効因子情報選択方法において、上記因子情報は遺伝子の発現に関する遺伝子発現情報であることを特徴とする。
この方法によれば、因子情報は遺伝子の発現に関する遺伝子発現情報であるので、DNA発現解析を行うための有効な遺伝子情報の選択を短時間かつ効果的に行うことができる。
また、この方法によれば、DNAマイクロアレイで得られた遺伝子発現情報に基づいて、例えば、特定の疾病に関連する遺伝子群や、薬効に関連する遺伝子群などの同定を容易に行うことができる。
また、この方法によれば、同定された遺伝子を使って、例えば、治療方法や薬剤などの選択を容易に行うことができる。
また、本発明はプログラムに関するものであり、請求項7に記載の有効因子情報選択方法をコンピュータに実行させることを特徴とするプログラムは、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法をコンピュータに実行させるプログラムにおいて、上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択ステップと、上記標本情報群選択ステップにて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出ステップと、上記平均情報・標準偏差情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式1から判定式4(判定式において、nは正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された2つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択ステップとを含むことを特徴とする。

「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」 < 「第1標本情報群における因子情報の平均情報」 ・・・(判定式1)

「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」 > 「第1標本情報群における因子情報の平均情報」 ・・・(判定式2)

「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」 < 「第2標本情報群における因子情報の平均情報」 ・・・(判定式3)

「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」 > 「第2標本情報群における因子情報の平均情報」 ・・・(判定式4)
このプログラムによれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択し、選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、群間の乖離を判定する判定式1から判定式4(判定式において、nは分布(バラツキ)の幅を表す数値であり、正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された2つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択するので、基本統計量(平均、標準偏差など)を用いて、因子情報の分布が群間で明確に異なる因子情報を、多変量解析やパターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。
また、このプログラムによれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間において因子情報の分布の明らかな違いを示す有効な因子情報を選択することができる。
また、このプログラムによれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間において因子情報の分布の明らかな違いを示す、不特定多数の集団から特定の群を判別させるために有効な因子情報を選択することができる。
また、本発明に記載のプログラムは、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法をコンピュータに実行させるプログラムにおいて、上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択ステップと、上記標本情報群選択ステップにて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、分散共分散行列情報または相関行列情報を算出する分散共分散行列情報・相関行列情報算出ステップと、上記分散共分散行列情報・相関行列情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群の上記分散共分散行列情報または上記相関行列情報の各行列成分情報の差に基づいて、上記有効な上記因子情報を選択する分散共分散行列情報・相関行列情報基準有効因子情報選択ステップとを含むことを特徴とする。
このプログラムによれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択し、選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出し、算出された第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択するので、群間で因子情報間の分散、共分散、相関等の性質が明らかに異なる因子情報を、多変量解析、および、パターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。
すなわち、分散分析やマハラノビス距離などを用いた分析においてはデータ間の相関関係を用いて計算を行い判定式に入力するため、因子間の相関関係の大小が判別の結果に大きく影響している。従って、本発明においては、同一因子数からなる群間のそれぞれで分散・共分散行列、もしくは、相関行列を求め、群間における各因子間の差を求め、その差の比較することによって、有効な因子情報を効果的に選択する。また、これを前提として、各群の分散・共分散もしくは分散・共分散行列を標準偏差で割った相関行列などを求め、その群間における各要素間の差を求め、その差が大きなものについて有効な因子とする。
また、このプログラムによれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大きさを数値化することにより、有効な因子情報を選択することができる。
また、このプログラムによれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大小に基づいて、有効な因子情報を選択することができる。
また、本発明に記載のプログラムは、上記に記載のプログラムにおいて、上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、変動係数情報を算出する変動係数情報算出ステップと、上記変動係数情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記変動係数情報に基づいて、上記有効な上記因子情報を選択する変動係数情報基準有効因子情報選択ステップとをさらに含むことを特徴とする。
このプログラムによれば、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択するので、変動係数情報に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、各因子情報の変動係数情報に基づいてより詳細に選択することができる。
すなわち、データの分析において最も重要なことの1つは分析の元となる因子の測定精度である。この測定精度が悪い場合、つまり、当該因子のバラツキが大きい場合は、正確な分析ができなくなる。このプログラムはこの点に着目し、各群の因子毎にCV値(変動係数)を算出し、変動の少ない、つまり、変動係数の小さい因子情報を有効な因子情報として選択する。また、このプログラムによるCV値による探索や、棄却検定など他の手法を適宜組み合わせることにより、より効果的な因子選択を行うことが可能となる。
また、このプログラムによれば、因子情報の取りうる値の幅が狭い、つまり、測定精度の高い因子情報を、各因子情報の変動係数情報に基づいてより有効な因子情報として短時間かつ効果的に選択することができる。
また、本発明に記載のプログラムは、上記に記載のプログラムにおいて、上記第1標本情報群および上記第2標本情報群に含まれる各上記因子情報に対して棄却検定を実行する棄却検定実行ステップと、上記棄却検定実行ステップにて実行された上記第1標本情報群および上記第2標本情報群に含まれる各上記因子情報に対する上記棄却検定の検定値に基づいて、上記有効な上記因子情報を選択する棄却検定値基準有効因子情報選択ステップとをさらに含むことを特徴とする。
このプログラムによれば、第1標本情報群および第2標本情報群に含まれる各因子情報に対して棄却検定を実行し、実行された第1標本情報群および第2標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択するので、棄却検定の検定値に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、群間の有意差を検定する周知手法である棄却検定の検定値に基づいてより詳細に選択することができる。
また、請求項8に記載のプログラムは、請求項7に記載のプログラムにおいて、上記第1標本情報群および上記第2標本情報群の上記標本情報ごとに、任意に選択された2つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出ステップと、上記特徴化パラメータ情報算出ステップにて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択ステップとをさらに含むことを特徴とする。
このプログラムによれば、第1標本情報群および第2標本情報群の標本情報ごとに、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、算出された特徴化パラメータ情報に基づいて、有効な因子情報を選択するので、特徴化パラメータ情報による有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、特徴化パラメータ情報に基づいて(例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて)より詳細に選択することができる。
すなわち、一般に多変量解析やパターン認識に用いる因子が取る値の分布が明確に異なる場合は良好な解析結果を得やすいが、逆に、群間において因子が取る値の分布が似ている場合は当該因子から有意差を検出することができず、良好な解析結果を得ることができない場合がある。そこで、このプログラムでは、有意差を検出することのできない因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択する。
また、相関関係の強い因子同士であっても因子が取る値の変動幅が大きい場合、分散も大きくなり、揺らぎの大きい因子となってしまうため、解析や判別において良い結果を得られない場合がある。そこで、このプログラムは、当該揺らぎの大きい因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択することができる。
つまり、このプログラムによれば、因子情報が取りうる値の分布が似ている因子情報同士の場合、または、因子情報が取りうる値の変動幅が大きく、相関関係の強い因子情報同士の場合には、特徴化パラメータ情報を算出しその複数の因子間の差や比を求めることにより、有効な因子情報を短時間かつ効果的に選択することができる。
また、本発明に記載のプログラムは、上記に記載のプログラムにおいて、上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報、ならびに、上記第1標本情報群および上記第2標本情報群のそれぞれにおける上記分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するマハラノビス距離算出用パラメータ情報算出ステップをさらに含むことを特徴とする。
このプログラムによれば、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第1標本情報群および第2標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するので、当該マハラノビス距離算出用パラメータ情報を用いて、例えば、パターン認識や、多変量解析の一つである判別分析などを効率よく行うことができる。
また、請求項9に記載のプログラムは、請求項7または8に記載のプログラムにおいて、上記因子情報は遺伝子の発現に関する遺伝子発現情報であることを特徴とする。
このプログラムによれば、因子情報は遺伝子の発現に関する遺伝子発現情報であるので、DNA発現解析を行うための有効な遺伝子情報の選択を短時間かつ効果的に行うことができる。
また、このプログラムによれば、DNAマイクロアレイで得られた遺伝子発現情報に基づいて、例えば、特定の疾病に関連する遺伝子群や、薬効に関連する遺伝子群などの同定を容易に行うことができる。
また、このプログラムによれば、同定された遺伝子を使って、例えば、治療プログラムや薬剤などの選択を容易に行うことができる。
また、本発明は記録媒体に関するものであり、請求項10に記載の記録媒体は、上記請求項7から9のいずれか一つに記載されたプログラムを記録したことを特徴とする。
この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、請求項7から9のいずれか一つに記載されたプログラムをコンピュータを利用して実現することができ、これら各方法と同様の効果を得ることができる。
本発明によれば、基本統計量(平均、標準偏差など)を用いて、因子情報の分布が群間で明確に異なる因子情報を、多変量解析やパターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間において因子情報の分布の明らかな違いを示す有効な因子情報を選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間において因子情報の分布の明らかな違いを示す、不特定多数の集団から特定の群を判別させるために有効な因子情報を選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、群間で因子情報間の分散、共分散、相関等の性質が明らかに異なる因子情報を、多変量解析、および、パターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。
すなわち、分散分析やマハラノビス距離などを用いた分析においてはデータ間の相関関係を用いて計算を行い判定式に入力するため、因子間の相関関係の大小が判別の結果に大きく影響している。従って、本発明においては、同一因子数からなる群間のそれぞれで分散・共分散行列、もしくは、相関行列を求め、群間における各因子間の差を求め、その差の比較することによって、有効な因子情報を効果的に選択する。また、これを前提として、各群の分散・共分散もしくは分散・共分散行列を標準偏差で割った相関行列などを求め、その群間における各要素間の差を求め、その差が大きなものについて有効な因子とする。
また、本発明によれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大きさを数値化することにより、有効な因子情報を選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大小に基づいて、有効な因子情報を選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、変動係数情報に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、各因子情報の変動係数情報に基づいてより詳細に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。
すなわち、データの分析において最も重要なことの1つは分析の元となる因子の測定精度である。この測定精度が悪い場合、つまり、当該因子のバラツキが大きい場合は、正確な分析ができなくなる。この発明はこの点に着目し、各群の因子毎にCV値(変動係数)を算出し、変動の少ない、つまり、変動係数の小さい因子情報を有効な因子情報として選択する。また、この発明によるCV値による探索や、棄却検定など他の手法を適宜組み合わせることにより、より効果的な因子選択を行うことが可能となる。
また、本発明によれば、因子情報の取りうる値の幅が狭い、つまり、測定精度の高い因子情報を、各因子情報の変動係数情報に基づいてより有効な因子情報として短時間かつ効果的に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、棄却検定の検定値に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、群間の有意差を検定する周知手法である棄却検定の検定値に基づいてより詳細に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、特徴化パラメータ情報による有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、特徴化パラメータ情報に基づいて(例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて)より詳細に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。
すなわち、一般に多変量解析やパターン認識に用いる因子が取る値の分布が明確に異なる場合は良好な解析結果を得やすいが、逆に、群間において因子が取る値の分布が似ている場合は当該因子から有意差を検出することができず、良好な解析結果を得ることができない場合がある。そこで、この発明では、有意差を検出することのできない因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択する。
また、相関関係の強い因子同士であっても因子が取る値の変動幅が大きい場合、分散も大きくなり、揺らぎの大きい因子となってしまうため、解析や判別において良い結果を得られない場合がある。そこで、この発明は、当該揺らぎの大きい因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択することができる。
つまり、本発明によれば、因子情報が取りうる値の分布が似ている因子情報同士の場合、または、因子情報が取りうる値の変動幅が大きく、相関関係の強い因子情報同士の場合には、特徴化パラメータ情報を算出しその複数の因子間の差や比を求めることにより、有効な因子情報を短時間かつ効果的に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、当該マハラノビス距離算出用パラメータ情報を用いて、例えば、パターン認識や、多変量解析の一つである判別分析などを効率よく行うことができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、DNA発現解析を行うための有効な遺伝子情報の選択を短時間かつ効果的に行うことができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、DNAマイクロアレイで得られた遺伝子発現情報に基づいて、例えば、特定の疾病に関連する遺伝子群や、薬効に関連する遺伝子群などの同定を容易に行うことができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。
さらに、本発明によれば、同定された遺伝子を使って、例えば、治療プログラムや薬剤などの選択を容易に行うことができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。
以下に、本発明にかかる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
[本発明の概要]
以下、本発明の概要について図1および図2を用いて説明し、その後、本発明の構成および処理等について詳細に説明する。図1は本発明の第1の基本原理を示す原理構成図である。
まず、標本を一意に識別するための標本識別情報(例えば、標本番号や標本名など)、標本の属性を示す標本属性情報(例えば、疾患の名称、疾患の治療効果(例えば、インターフェロン投与効果の有無など)など)、および、複数の因子情報(例えば、各遺伝子の発現量に関する情報など)を含む標本情報の集合である標本情報集合(例えば、DNAマイクロアレイにより取得された発現情報データ集合など)を取得する(ステップS1−1)。
ついで、ステップS1−1にて取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群および他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択する(ステップS1−2)。なお、図1に示す例においては、標本属性情報が、インターフェロン投与効果に関して“無効”の属性を持つ標本情報の群を第1標本情報群として選択し、また、標本属性情報が“著効”の属性を持つ標本情報の群を第2標本情報群として選択している。
ここで、選択された第1標本情報群および第2標本情報群に含まれる因子情報の中に、数値情報でない、定性的な情報である因子情報が含まれている場合、当該定性的な情報である因子情報を既存の数量化手法(例えば、数量化I類、数量化II類、数量化III類、数量
化IV類など)に基づいて数値化してもよい。
ついで、ステップS1−2にて選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出する(ステップS1−3)。
さらに、ステップS1−3にて算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、下記に示す、群間の乖離を判定する判定式1から判定式4(判定式において、nは分布(バラツキ)の幅を表す数値であり、正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された2つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択する(ステップS1−4)。

「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」 < 「第1標本情報群における因子情報の平均情報」 ・・・(判定式1)

「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」 > 「第1標本情報群における因子情報の平均情報」 ・・・(判定式2)

「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」 < 「第2標本情報群における因子情報の平均情報」 ・・・(判定式3)

「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」 > 「第2標本情報群における因子情報の平均情報」 ・・・(判定式4)
これにより、図1に示す例においては、任意に選択された2つの標本属性情報(”無効”と”著効”)について、多変量解析またはパターン認識を行う際に有効な因子情報(遺伝子1の発現量、遺伝子3の発現量など)を選択することができる。
つぎに、本発明の第2の基本原理について、図2を参照して説明する。図2は本発明の第2の基本原理を示す原理構成図である。
まず、標本を一意に識別するための標本識別情報(例えば、標本番号や標本名など)、標本の属性を示す標本属性情報(例えば、疾患の名称、疾患の治療効果(例えば、インターフェロン投与効果の有無など)など)、および、複数の因子情報(例えば、各遺伝子の発現量に関する情報など)を含む標本情報の集合である標本情報集合(例えば、DNAマイクロアレイにより取得された発現情報データ集合など)を取得する(ステップS2−1)。
ついで、ステップS2−1にて取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群および他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択する(ステップS2−2)。なお、図2に示す例においては、標本属性情報が、インターフェロン投与効果に関して“無効”の属性を持つ標本情報の群を第1標本情報群として選択し、また、標本属性情報が“著効”の属性を持つ標本情報の群を第2標本情報群として選択している。
ここで、選択された第1標本情報群および第2標本情報群に含まれる因子情報の中に、数値情報でない、定性的な情報である因子情報が含まれている場合、当該定性的な情報である因子情報を既存の数量化手法(例えば、数量化I類、数量化II類、数量化III類、数量
化IV類など)に基づいて数値化してもよい。
ついで、ステップS2−2にて第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出する(ステップS2−3)。なお、図2に示す例においては、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、相関行列情報を算出した結果を示している。
さらに、ステップS2−3にて算出された第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択する(例えば、当該差を2で割った値が設定された値(例えば、±0.5など)以上である因子情報を有効な因子情報として選択する)(ステップS2−4)。
これにより、図2に示す例においては、任意に選択された2つの標本属性情報(”無効”と”著効”)について、多変量解析またはパターン認識を行う際に有効な因子情報(遺伝子1の発現量、遺伝子3の発現量など)を選択することができる。
ここで、上述したステップS1−3およびステップS1−4に示す有効な因子情報を選択する手法、ならびに、ステップS2−3およびステップS2−4に示す有効な因子情報を選択する手法と、以下の(1)〜(3)に示す各有効な因子情報を選択する手法とを任意に組み合わせて、有効な因子情報を選択してもよい。
(1)第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択する(例えば、両群の変動係数情報が設定された値(例えば、0.1など)未満である因子情報を有効な因子情報として選択する)。
(2)第1標本情報群および第2標本情報群に含まれる各因子情報に対して棄却検定(例えば、F検定、T検定などの群間の差を検定する手法)を実行し、実行された第1標本情報群および第2標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択する(例えば、棄却検定の検定値が設定された有意水準(例えば0.05など)未満である因子情報を有効な因子情報として選択する)。
(3)第1標本情報群および第2標本情報群の標本情報ごとに、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、算出された特徴化パラメータ情報に基づいて(例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて)、有効な因子情報を選択する。
また、上述した本発明の第1の基本原理および第2の基本原理において、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第1標本情報群および第2標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出してもよい。
ここで、上述した本発明の第1の基本原理および第2の基本原理においては、因子情報を遺伝子の発現に関する情報(遺伝子発現情報)とした場合を一例として説明した。これにより、本発明は、DNAマイクロアレイなどにより取得した複数の遺伝子発現情報からDNA発現解析に有効な遺伝子情報を選択することができる。また、因子情報はこの場合に限定されるものではなく、本発明はあらゆる分野の因子の選択に適用することができる。
また、本発明により選択された有効な因子情報を含む標本情報に基づいて、例えば、閾値による認識、ファジー推論、ニューラルネットワーク、MTシステムなどの既存のパターン認識を行うことにより、精度の高い認識を実現させることができる。
また、本発明により選択された有効な因子情報を含む標本情報に基づいて、例えば、DNAマイクロアレイで得られた遺伝子発現情報をもとに特定の疾病に関連する因子(遺伝子)群を同定したり、薬効に関連する因子(遺伝子)群を同定したりすることが容易に行うことができる。
また、同定された遺伝子群を使って、例えば、治療方法の選択、薬剤の選択などを行うことができる。
また、本発明により、目的とする群が2つの場合(例えば、薬剤投与効果がある群とない群)は、対象となる機能(例えば、薬剤投与効果あり)を持つ群とそれ以外の群に分けることができ、群間において有効な因子情報(遺伝子発現情報)を選択することができる。
また、本発明により、標本情報集合を複数の群に分割して、各群間において、違いを示す因子情報(遺伝子発現情報)を抽出することができる。
[システム構成]
まず、本システムの構成について説明する。図24は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。本システムは、概略的に、有効因子情報選択装置100と、配列情報や発現情報等に関する外部データベースやホモロジー検索等の外部プログラム等を提供する外部システム200とを、ネットワーク300を介して通信可能に接続して構成されている。
図24においてネットワーク300は、有効因子情報選択装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。
図24において外部システム200は、ネットワーク300を介して、有効因子情報選択装置100と相互に接続され、利用者に対して配列情報や発現情報等に関する外部データベースやホモロジー検索やモチーフ検索等の外部プログラムを実行するウェブサイトを提供する機能を有する。
ここで、外部システム200は、WEBサーバやASPサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。
図24において有効因子情報選択装置100は、概略的に、有効因子情報選択装置100の全体を統括的に制御するCPU等の制御部102、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部104、入力装置112や出力装置114に接続される入出力制御インターフェース部108、および、各種のデータベースやテーブルなどを格納する記憶部106を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、この有効因子情報選択装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。
記憶部106に格納される各種のデータベースやテーブル(標本情報集合ファイル106a〜マハラノビス距離算出用パラメータ情報ファイル106i)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
これら記憶部106の各構成要素のうち、標本情報集合ファイル106aは、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を格納する標本情報集合格納手段である。ここで、標本情報集合ファイル106aに格納される情報について図25を参照して説明する。図25は、本実施形態における標本情報集合ファイル106aに格納される情報の一例を示す図である。
図25に示すように、この標本情報集合ファイル106aに格納される情報は、標本識別情報と、複数の因子情報(図25に示す、因子情報1、因子情報2、因子情報3など)と、標本属性情報とを相互に関連付けて構成されている。
また、標本情報群ファイル106bは、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を格納する標本情報群格納手段である。ここで、標本情報群ファイル106bに格納される情報について図26を参照して説明する。図26は、本実施形態における標本情報群ファイル106bに格納される情報の一例を示す図である。
図26に示すように、この標本情報群ファイル106bに格納される情報は、第1標本情報群および第2標本情報群について、標本識別情報と、複数の因子情報(図26に示す、因子情報1、因子情報2、因子情報3など)と、標本属性情報とを相互に関連付けて構成されている。
また、平均情報・標準偏差情報ファイル106cは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報を格納する平均情報・標準偏差情報格納手段である。ここで、平均情報・標準偏差情報ファイル106cに格納される情報について図27を参照して説明する。図27は、本実施形態における平均情報・標準偏差情報ファイル106cに格納される情報の一例を示す図である。
図27に示すように、この平均情報・標準偏差情報ファイル106cに格納される情報は、第1標本情報群および第2標本情報群について、複数の因子情報(図27に示す、因子情報1、因子情報2、因子情報3など)の平均情報と標準偏差情報とを相互に関連付けて構成されている。
また、分散共分散行列情報・相関行列情報ファイル106dは、第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報を格納する分散共分散行列情報・相関行列情報格納手段である。ここで、分散共分散行列情報・相関行列情報ファイル106dに格納される情報について図28を参照して説明する。図28は、本実施形態における分散共分散行列情報・相関行列情報ファイル106dに格納される情報の一例を示す図である。
図28に示すように、この分散共分散行列情報・相関行列情報ファイル106dに格納される情報は、第1標本情報群および第2標本情報群について、複数の因子情報(図28に示す、因子情報1、因子情報2、因子情報3など)間の分散・共分散または相関係数を相互に関連付けて構成されている。
また、変動係数情報ファイル106eは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報を格納する変動係数情報格納手段である。ここで、変動係数情報ファイル106eに格納される情報について図29を参照して説明する。図29は、本実施形態における変動係数情報ファイル106eに格納される情報の一例を示す図である。
図29に示すように、この変動係数情報ファイル106eに格納される情報は、第1標本情報群および第2標本情報群について、複数の因子情報(図29に示す、因子情報1、因子情報2、因子情報3など)の変動係数情報を相互に関連付けて構成されている。
また、棄却検定値ファイル106fは、第1標本情報群および第2標本情報群に含まれる各因子情報に対する、後述する棄却検定実行手段にて実行された棄却検定の検定値を格納する棄却検定値格納手段である。ここで、棄却検定値ファイル106fに格納される情報について図30を参照して説明する。図30は、本実施形態における棄却検定値ファイル106fに格納される情報の一例を示す図である。
図30に示すように、この棄却検定値ファイル106fに格納される情報は、複数の因子情報(図30に示す、因子情報1、因子情報2、因子情報3など)の棄却検定の検定値を相互に関連付けて構成されている。
また、特徴化パラメータ情報ファイル106gは、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を格納する特徴化パラメータ情報格納手段である。ここで、特徴化パラメータ情報ファイル106gに格納される情報について図31を参照して説明する。図31は、本実施形態における特徴化パラメータ情報ファイル106gに格納される情報の一例を示す図である。
図31に示すように、この特徴化パラメータ情報ファイル106gに格納される情報は、第1標本情報群および第2標本情報群について、標本識別情報と、特徴化パラメータ情報と、当該特徴化パラメータ情報が各因子情報間の差または比のいずれかであるかを示す計算式とを相互に関連付けて構成されている。
また、有効因子情報ファイル106hは、後述する平均情報・標準偏差情報基準有効因子情報選択手段、分散共分散行列情報・相関行列情報基準有効因子情報選択手段、変動係数情報基準有効因子情報選択手段、棄却検定値基準有効因子情報選択手段、特徴化パラメータ情報基準有効因子情報選択手段のうち少なくとも一つにて選択された有効な因子情報を格納する有効因子情報格納手段である。ここで、有効因子情報ファイル106hに格納される情報について図32を参照して説明する。図32は、本実施形態における有効因子情報ファイル106hに格納される情報の一例を示す図である。
図32に示すように、この有効因子情報ファイル106hに格納される情報は、有効因子情報として選択された各因子情報(図32に示す、因子情報1、因子情報3など)で構成されている。
また、マハラノビス距離算出用パラメータ情報ファイル106iは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第1標本情報群および第2標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて算出されたマハラノビス距離算出用パラメータ情報を格納するマハラノビス距離算出用パラメータ情報格納手段である。ここで、マハラノビス距離算出用パラメータ情報ファイル106iに格納される情報について図33を参照して説明する。図33は、本実施形態におけるマハラノビス距離算出用パラメータ情報ファイル106iに格納される情報の一例を示す図である。
図33に示すように、このマハラノビス距離算出用パラメータ情報ファイル106iに格納される情報は、第1標本情報群および第2標本情報群について、因子情報(図32に示す、因子情報1、因子情報2など)間の分散・共分散と各因子情報の平均情報・標準偏差情報とを相互に関連付けて構成されている。
また、図24において、通信制御インターフェース部104は、有効因子情報選択装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。
また、図24において、入出力制御インターフェース部108は、入力装置112や出力装置114の制御を行う。ここで、出力装置114としては、モニタ(家庭用テレビを含む)の他、スピーカを用いることができる(なお、以下においては出力装置114をモニタとして記載する場合がある)。また、入力装置112としては、キーボード、マウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。
また、図24において、制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、標本情報集合取得部102a、標本情報群選択部102b、平均情報・標準偏差情報算出部102c、平均情報・標準偏差情報基準有効因子情報選択部102d、分散共分散行列情報・相関行列情報算出部102e、分散共分散行列情報・相関行列情報基準有効因子情報選択部102f、変動係数情報算出部102g、変動係数情報基準有効因子情報選択部102h、棄却検定実行部102i、棄却検定値基準有効因子情報選択部102j、特徴化パラメータ情報算出部102k、特徴化パラメータ情報基準有効因子情報選択部102m、および、マハラノビス距離算出用パラメータ情報算出部102nを備えて構成されている。
このうち、標本情報集合取得部102aは、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得する標本情報集合取得手段である。
また、標本情報群選択部102bは、標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択する標本情報群選択手段である。
また、平均情報・標準偏差情報算出部102cは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出手段である。
また、平均情報・標準偏差情報基準有効因子情報選択部102dは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、下記に示す、群間の乖離を判定する判定式1から判定式4(判定式において、nは分布(バラツキ)の幅を表す数値であり、正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された2つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択手段である。

「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」 < 「第1標本情報群における因子情報の平均情報」 ・・・(判定式1)

「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」 > 「第1標本情報群における因子情報の平均情報」 ・・・(判定式2)

「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」 < 「第2標本情報群における因子情報の平均情報」 ・・・(判定式3)

「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」 > 「第2標本情報群における因子情報の平均情報」 ・・・(判定式4)
また、分散共分散行列情報・相関行列情報算出部102eは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出する分散共分散行列情報・相関行列情報算出手段である。
また、分散共分散行列情報・相関行列情報基準有効因子情報選択部102fは、第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択する分散共分散行列情報・相関行列情報基準有効因子情報選択手段である。
また、変動係数情報算出部102gは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出する変動係数情報算出手段である。
また、変動係数情報基準有効因子情報選択部102hは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択する変動係数情報基準有効因子情報選択手段である。
また、棄却検定実行部102iは、第1標本情報群および第2標本情報群に含まれる各因子情報に対して棄却検定を実行する棄却検定実行手段である。
また、棄却検定値基準有効因子情報選択部102jは、第1標本情報群および第2標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択する棄却検定値基準有効因子情報選択手段である。
また、特徴化パラメータ情報算出部102kは、第1標本情報群および第2標本情報群の標本情報ごとに、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出手段である。
また、特徴化パラメータ情報基準有効因子情報選択部102mは、特徴化パラメータ情報に基づいて、有効な因子情報を選択する特徴化パラメータ情報基準有効因子情報選択手段である。
また、マハラノビス距離算出用パラメータ情報算出部102nは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第1標本情報群および第2標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するマハラノビス距離算出用パラメータ情報算出手段である。
なお、これら各部によって行なわれる処理の詳細については、後述する。
[システムの処理]
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に図3から図7等を参照して詳細に説明する。
まず、メイン処理の詳細について、図3等を参照して説明する。図3は、本実施形態における本システムのメイン処理の一例を示すフローチャートである。
まず、有効因子情報選択装置100は、標本情報集合取得部102aの処理により、標本を一意に識別するための標本識別情報(例えば、標本番号や標本名など)、標本の属性を示す標本属性情報(例えば、疾患の名称、疾患の治療効果(例えば、インターフェロン投与効果の有無など)など)、および、複数の因子情報(例えば、各遺伝子の発現量に関する情報など)を含む標本情報の集合である標本情報集合(例えば、DNAマイクロアレイにより取得された発現情報データ集合など)を取得し、標本情報集合ファイル106aの所定の記憶領域に格納する(ステップSA−1)。
ついで、有効因子情報選択装置100は、標本情報群選択部102bの処理により、ステップSA−1にて取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群および他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択し、標本情報群ファイル106bの所定の記憶領域に格納する(ステップSA−2)。
ここで、選択された第1標本情報群および第2標本情報群に含まれる因子情報の中に、数値情報でない、定性的な情報である因子情報が含まれている場合、有効因子情報選択装置100は、制御部102の処理により、当該定性的な情報である因子情報を既存の数量化手法(例えば、数量化I類、数量化II類、数量化III類、数量化IV類など)に基づいて数
値化してもよい。
ついで、有効因子情報選択装置100は、平均情報・標準偏差情報算出部102cの処理により、ステップSA−2にて選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出し、平均情報・標準偏差情報ファイル106cの所定の記憶領域に格納する(ステップSA−3)。
さらに、有効因子情報選択装置100は、平均情報・標準偏差情報基準有効因子情報選択部102dの処理により、ステップSA−3にて算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、下記に示す、群間の乖離を判定する判定式1から判定式4(判定式において、nは分布(バラツキ)の幅を表す数値であり、正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された2つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択し、有効因子情報ファイル106hの所定の記憶領域に格納する(ステップSA−4)。

「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」 < 「第1標本情報群における因子情報の平均情報」 ・・・(判定式1)

「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」 > 「第1標本情報群における因子情報の平均情報」 ・・・(判定式2)

「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」 < 「第2標本情報群における因子情報の平均情報」 ・・・(判定式3)

「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」 > 「第2標本情報群における因子情報の平均情報」 ・・・(判定式4)
ここで、上述したステップSA−3およびステップSA−4に示す有効な因子情報を選択する手法の代わりに、以下に示す有効な因子情報を選択する手法を用いて有効な因子情報を選択してもよい。
具体的には、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出し、算出された第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択してもよい(例えば、当該差を2で割った値が設定された値(例えば±0.5など)以上である因子情報を有効な因子情報として選択してもよい)(分散共分散行列情報・相関行列情報基準有効因子情報選択処理)。
ここで、分散共分散行列情報・相関行列情報算出部102eおよび分散共分散行列情報・相関行列情報基準有効因子情報選択部102fにて行われる分散共分散行列情報・相関行列情報基準有効因子情報選択処理について、図4を参照して詳細に説明する。図4は、本実施形態における本システムの分散共分散行列情報・相関行列情報基準有効因子情報選択処理の一例を示すフローチャートである。
まず、有効因子情報選択装置100は、分散共分散行列情報・相関行列情報算出部102eの処理により、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出し、分散共分散行列情報・相関行列情報ファイル106dの所定の記憶領域に格納する(ステップSB−1)。
ついで、有効因子情報選択装置100は、分散共分散行列情報・相関行列情報基準有効因子情報選択部102fの処理により、ステップSB−1にて算出された第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択し(例えば、当該差を2で割った値が設定された値(例えば±0.5など)以上である因子情報を有効な因子情報として選択し)、有効因子情報ファイル106hの所定の記憶領域に格納する(ステップSB−2)。これにて、分散共分散行列情報・相関行列情報基準有効因子情報選択処理が終了する。
ここで、上述したステップSA−3およびステップSA−4に示す有効な因子情報を選択する手法、ならびに、ステップSB−1およびステップSB−2に示す有効な因子情報を選択する手法と、以下の(1)〜(3)に示す各有効な因子情報を選択する手法とを任意に組み合わせて、有効な因子情報を選択してもよい。
(1)第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択する(例えば、両群の変動係数情報が設定された値(例えば0.1など)未満である因子情報を有効な因子情報として選択する)(変動係数情報基準有効因子情報選択処理)。
ここで、変動係数情報算出部102gおよび変動係数情報基準有効因子情報選択部102hにて行われる変動係数情報基準有効因子情報選択処理について、図5を参照して詳細に説明する。図5は、本実施形態における本システムの変動係数情報基準有効因子情報選択処理の一例を示すフローチャートである。
まず、有効因子情報選択装置100は、変動係数情報算出部102gの処理により、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、変動係数情報ファイル106eの所定の記憶領域に格納する(ステップSC−1)。
ついで、有効因子情報選択装置100は、変動係数情報基準有効因子情報選択部102hの処理により、ステップSC−1にて算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択し(例えば、両群の変動係数情報が設定された値(例えば0.1など)未満である因子情報を有効な因子情報として選択し)、有効因子情報ファイル106hの所定の記憶領域に格納する(ステップSC−2)。これにて、変動係数情報基準有効因子情報選択処理が終了する。
(2)第1標本情報群および第2標本情報群に含まれる各因子情報に対して棄却検定(例えば、F検定、T検定などの群間の差を検定する手法)を実行し、実行された第1標本情報群および第2標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択する(例えば、棄却検定の検定値が設定された有意水準(例えば0.05など)未満である因子情報を有効な因子情報として選択する)(棄却検定値基準有効因子情報選択処理)。
ここで、棄却検定実行部102iおよび棄却検定値基準有効因子情報選択部102jにて行われる棄却検定値基準有効因子情報選択処理について、図6を参照して詳細に説明する。図6は、本実施形態における本システムの棄却検定値基準有効因子情報選択処理の一例を示すフローチャートである。
まず、有効因子情報選択装置100は、棄却検定実行部102iの処理により、第1標本情報群および第2標本情報群に含まれる各因子情報に対して棄却検定(例えば、F検定、T検定などの群間の差を検定する手法)を実行し、実行された第1標本情報群および第2標本情報群における各因子情報に対する棄却検定の検定値を棄却検定値ファイル106fの所定の記憶領域に格納する(ステップSD−1)。
ついで、有効因子情報選択装置100は、棄却検定値基準有効因子情報選択部102jの処理により、ステップSD−1にて実行された第1標本情報群および第2標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択し(例えば、棄却検定の検定値が設定された有意水準(例えば0.05など)未満である因子情報を有効な因子情報として選択し)、有効因子情報ファイル106hの所定の記憶領域に格納する(ステップSD−2)。これにて、棄却検定値基準有効因子情報選択処理が終了する。
(3)第1標本情報群および第2標本情報群の標本情報ごとに、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、算出された特徴化パラメータ情報に基づいて(例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて)、有効な因子情報を選択する(特徴化パラメータ情報基準有効因子情報選択処理)。
ここで、特徴化パラメータ情報算出部102kおよび特徴化パラメータ情報基準有効因子情報選択部102mにて行われる特徴化パラメータ情報基準有効因子情報選択処理について、図7を参照して詳細に説明する。図7は、本実施形態における本システムの特徴化パラメータ情報基準有効因子情報選択処理の一例を示すフローチャートである。
まず、有効因子情報選択装置100は、特徴化パラメータ情報算出部102kの処理により、第1標本情報群および第2標本情報群の標本情報ごとに、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、特徴化パラメータ情報ファイル106gの所定の記憶領域に格納する(ステップSE−1)。
ついで、有効因子情報選択装置100は、特徴化パラメータ情報基準有効因子情報選択部102mの処理により、ステップSE−1にて算出された特徴化パラメータ情報に基づいて(例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて)、有効な因子情報を選択し、有効因子情報ファイル106hの所定の記憶領域に格納する(ステップSE−2)。これにて、特徴化パラメータ情報基準有効因子情報選択処理が終了する。
また、上述した各有効な因子情報を選択する手法により有効な因子情報を選択した後に、マハラノビス距離算出用パラメータ情報算出部102nの処理により、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第1標本情報群および第2標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出し、マハラノビス距離算出用パラメータ情報ファイル106iの所定の記憶領域に格納してもよい。
ここで、上述した本実施形態においては、因子情報を遺伝子の発現に関する情報(遺伝子発現情報)とした場合を一例として説明した。これにより、本発明は、DNAマイクロアレイなどにより取得した複数の遺伝子発現情報からDNA発現解析に有効な遺伝子情報を選択することができる。また、因子情報はこの場合に限定されるものではなく、本発明はあらゆる分野の因子の選択に適用することができる。
また、本発明により選択された有効な因子情報を含む標本情報に基づいて、例えば、閾値による認識、ファジー推論、ニューラルネットワーク、MTシステムなどの既存のパターン認識を行うことにより、精度の高い認識を実現させることができる。
また、本発明により選択された有効な因子情報を含む標本情報に基づいて、例えば、DNAマイクロアレイで得られた遺伝子発現情報をもとに特定の疾病に関連する因子(遺伝子)群を同定したり、薬効に関連する因子(遺伝子)群を同定したりすることが容易に行うことができる。
また、同定された遺伝子群を使って、例えば、治療方法の選択、薬剤の選択などを行うことができる。
また、本発明により、目的とする群が2つの場合(例えば、薬剤投与効果がある群とない群)は、対象となる機能(例えば、薬剤投与効果あり)を持つ群とそれ以外の群に分けることができ、群間において有効な因子情報(遺伝子発現情報)を選択することができる。
また、本発明により、標本情報集合を複数の群に分割して、各群間において、違いを示す因子情報(遺伝子発現情報)を抽出することができる。
これにて、メイン処理が終了する。
[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
例えば、有効因子情報選択装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、有効因子情報選択装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
また、有効因子情報選択装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
例えば、有効因子情報選択装置100の各部または各装置が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じて有効因子情報選択装置100に機械的に読み取られる。
すなわち、ROMまたはHDなどの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAM等にロードされることによって実行され、CPUと協働して制御部102を構成する。また、このコンピュータプログラムは、有効因子情報選択装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
記憶部106に格納される各種のデータベース等(標本情報集合ファイル106a〜マハラノビス距離算出用パラメータ情報ファイル106i)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
また、有効因子情報選択装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
さらに、有効因子情報選択装置100等の分散・統合の具体的形態は明細書および図面に示すものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる(例えば、グリッド・コンピューティングなど)。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。
また、ネットワーク300は、有効因子情報選択装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC−P方式等の携帯回線交換網/携帯パケット交換網や、無線呼出網や、Bluetooth等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
(実施例1:統計量の差による探索)
まず、インターフェロン投与前のC型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各因子の群毎の平均情報および標準偏差情報に基づいて遺伝子を選択した場合の一例である実施例1の詳細について、図8、図24等を参照して説明する。
ここで、実施例1および後述する実施例2〜実施例6において用いる遺伝子発現情報は、C型肝炎患者のインターフェロン治療前の肝臓バイオプシーのサンプルから得られたRNAについてDNAマイクロアレイを用いた解析を行って得たものである。なお、組織からのRNAの抽出、標識工程、ハイブリダイゼーション、および、スキャニングによる遺伝子発現情報の数値化は常法により行った(例えば、「「DNAマイクロアレイ実践マニュアル」、羊土社、2002」参照。)。また、当該DNAマイクロアレイは、インターフェロン関連遺伝子、サイトカイン関連遺伝子、免疫応答関連遺伝子、肝臓特異的発現遺伝子、細胞周期関連遺伝子、アポトーシス関連遺伝子等の計718個の遺伝子を搭載している。
本実施例1および後述する実施例2〜実施例6において、当該DNAマイクロアレイはC型肝炎患者のインターフェロン治療におけるインターフェロン感受性を予測することを目的としている。しかし、当該DNAマイクロアレイに搭載されている718個の遺伝子の結果をすべて用いて解析を行うと、ノイズが高く、明確な結果が得られない。
そこで、本実施例1では、まず、上述した本実施形態における有効因子情報選択装置100(図24)が、標本情報集合取得部102aの処理により、718個の遺伝子発現情報とインターフェロン投与後効果に関する標本属性情報と標本識別情報とを含む標本情報の集合を取得した。
ここで、標本属性情報のうち、「無効」はインターフェロン投与中にもかかわらずGPT値の正常化を認めず、異常値が持続する場合である。また、上述の「無効以外」は「著効(インターフェロン投与中からGPT値の改善を認め、投与終了後24週間以上正常値を維持する場合)」または「再燃(インターフェロン投与中からGPT値の改善を認めるが、投与終了後24週間以内に再上昇し、異常値が持続する場合)」である。
ついで、有効因子情報選択装置100は、上述した標本情報群選択部102bの処理により、取得した標本情報集合からインターフェロン投与後効果(C型肝炎ウイルスの消滅)が現れた(無効以外の)グループである第1標本情報群(10因子(遺伝子)、22標本)およびインターフェロン投与後効果が現れなかった(無効の)グループである第2標本情報群(10因子(遺伝子)、13標本)を選択した。
ついで、有効因子情報選択装置100は、上述した平均情報・標準偏差情報算出部102cの処理により、平均情報および標準偏差情報を算出し、さらに上述した平均情報・標準偏差情報基準有効因子情報選択部102dの処理により、718個の遺伝子から有効な遺伝子の選択を行った。本実施例1では、実際に行った718個の遺伝子のうち10個の遺伝子に関する分析結果を図8に示す。
なお、本実施例1においては、対象としている2群間のデータの差が少ないため、判定式1〜4に含まれる「n」を「1」を超える値に設定すると選択される因子情報の数が減少する。一方、「n」を「1」未満の値(例えば0.5など)に設定すると選択される因子情報の数が多くなり、別の有効な因子情報の選択の手法を更に行わなければならない。そこで、適量の遺伝子を選択するために、上述した平均情報・標準偏差情報基準有効因子情報選択部102dの判定式1〜判定式4に含まれる「n」には、「1」を設定した。
通常、群間の有意差を検討する場合、判定式1〜4に含まれる「n」には、例えば、「1」〜「3」の値を設定してもよい。しかし、上述した平均情報・標準偏差情報基準有効因子情報選択部102dにて行われる有効な因子情報を選択する手法は、群間の因子情報の度数分布の中心が近い位置にあり、有意差の検討が困難である場合に用いることを想定している。そのため、実際では、「n」には「0.5」〜「1.5」の値を設定することが好ましい。ただし、最終的には、対象により解決しようとする問題の重要性やデータ量などを踏まえて、解析者が任意に決定してもよい。
図8は、インターフェロン投与前のC型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各因子における各群の平均情報および標準偏差情報に基づく分析結果の一例を示す図である。なお、図8には、因子情報ごとに、第1標本情報群および第2標本情報群の平均情報(図8における「mean」の欄)・標準偏差情報(図8における「σ」の欄)・平均情報+標準偏差情報(図8における「+1σ」の欄)・平均情報−標準偏差情報(図8における「−1σ」の欄)、および、判定式の判断結果(判定式1または2の判定条件を満たしたか否かの結果、判定式3または4の判定条件を満たしたか否かの結果)が示されている。
図8に示すように、第1標本情報群および第2標本情報群において、本実施形態における判定式1または判定式2、および、判定式3または判定式4を満たした因子(遺伝子)は、因子情報が「3」、「7」、「8」の計3因子である。
(実施例2:分散・共分散もしくは相関係数の差による探索)
次に、インターフェロン投与前のC型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて遺伝子を選択した場合の一例である実施例2の詳細について、図9から図11、図24等を参照して説明する。
一般に、分散分析やマハラノビス距離などは因子間の相関関係を用いて計算を行い判定式に入力するので、因子間の相関関係の大小が判別の結果に大きく影響する。
そこで、本実施例2では、まず各群の分散共分散行列情報または相関行列情報を求め、ついで分散共分散行列情報または相関行列情報の各行列成分情報の群間の差に基づいて有効な因子を選択した。
具体的には、本実施例2では、まず、上述した本実施形態における有効因子情報選択装置100(図24)は、分散共分散行列情報・相関行列情報算出部102eの処理により、同一因子数からなる群(インターフェロン投与後効果が現れた(無効以外の)グループである第1標本情報群(10因子(遺伝子)、22標本)およびインターフェロン投与後効果が現れなかった(無効の)グループである第2標本情報群(10因子(遺伝子)、13標本))ごとに相関行列情報を求めた。
ついで、有効因子情報選択装置100は、上述した分散共分散行列情報・相関行列情報基準有効因子情報選択部102fにて相関行列情報の各行列成分情報の群間の差を求め、当該差を2で割った値が設定された値である±0.5以上である因子情報を有効な因子情報として選択した。本実施例2では、実際に行った718個の遺伝子のうち10個の遺伝子に関する分析結果を図9〜図11に示す。
なお、本実施例2においては、相関の性質が明らかに異なる因子情報を選択するため、相関行列情報の各行列成分情報の群間の差が「±0.5以上」である因子情報を有効な因子情報として選択したが、かかる場合に限定されることなく、解析者により任意に設定してもよい。
なお、通常、相関係数が「0.7以上」あると「相関関係がある」と見なされる(例えば、「「多変量解析の実践(上)(6章「変数選択の方法」)」、現代数学社」参照。)。また、本実施例における、上述した分散共分散行列情報・相関行列情報基準有効因子情報選択部102fにて行われる有効な因子情報を選択する手法では、本実施例2において、2群の相関係数の差を求めて、当該差を2で割っている。
ここで、この値を「0.5以上」に設定すれば、相関係数にして1以上の差があることになり相関の性質が明らかに異なる因子情報、つまり、2因子間の関係が大きく変わる因子情報を選択することができる。なお、相関係数の差が1である場合は、例えば、第1標本情報群の因子情報の相関係数が「1」であり、第2標本情報群の因子情報の相関係数が「0」である場合や、第1標本情報群の因子情報の相関係数が「0.5」であり、第2標本情報群の因子情報の相関係数が「−0.5」である場合や、第1標本情報群の因子情報の相関係数が「−0.9」であり、第2標本情報群の因子情報の相関係数が「0.1」である場合などが挙げられる。
図9は、第1標本情報群における相関行列情報の一例を示す図である。また、図10は、第2標本情報群における相関行列情報の一例を示す図である。さらに、図11は、図9に示す第1標本情報群における相関行列情報の各行列成分情報から図10に示す第2標本情報群における相関行列情報の各行列成分情報の差をとり、当該差を2で割った各行列成分情報からなる相関行列情報の一例を示す図である。なお、図9〜図11には、因子情報間ごとの相関係数が行列の形で示されている。
図11に示すように、第1標本情報群および第2標本情報群において、選択された因子(遺伝子)は、因子情報が「3」、「4」、「5」、「9」、「10」の計5因子である。
(実施例3:複合的な手法(変動係数)による探索)
次に、インターフェロン投与前のC型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各群の変動係数情報に基づいて遺伝子を選択した場合の一例である実施例3の詳細について、図12、図24等を参照して説明する。
一般に、データの分析において最も重要なことの一つに分析の元となる因子の測定精度が挙げられる。例えば、因子のバラツキが大きい場合、正確な分析ができなくなる。
そこで、本実施例3では、まず、上述した本実施形態における有効因子情報選択装置100(図24)は、変動係数情報算出部102gの処理により、各群(インターフェロン投与後効果が現れた(無効以外の)グループである第1標本情報群(10因子(遺伝子)、22標本)およびインターフェロン投与後効果が現れなかった(無効の)グループである第2標本情報群(10因子(遺伝子)、13標本))の因子情報ごとに変動係数情報を算出する。
ついで、有効因子情報選択装置100は、上述した変動係数情報基準有効因子情報選択部102hの処理により、両群の変動係数情報が設定された値である0.1未満の因子情報を有効な因子情報として選択した。本実施例3では、実際に行った718個の遺伝子のうち10個の遺伝子に関する分析結果を図12に示す。
なお、本実施例3においては、変動係数情報が安定した、測定時の再現性が高い因子情報を選択するため、両群の変動係数情報が「0.1未満」の因子情報を有効な因子情報として選択したが、かかる場合に限定されることなく、解析者により任意に設定してもよい。
ここで、変動係数は標準偏差を平均で割った値であり、変動係数が小さいとデータのバラツキが少ない傾向にあることを示す。本実施例3では、変動係数が安定している因子情報を選択するため、平均値に対して10%変動する因子情報を選択する目的で、「0.1」と設定した。
図12は、インターフェロン投与前のC型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各群の変動係数情報に基づく分析結果の一例を示す図である。なお、図12には、因子情報ごとに、第1標本情報群および第2標本情報群の平均情報(図12における「mean」の欄)・標準偏差情報(図12における「σ」の欄)・変動係数情報(図12における「変動係数」の欄)、および、因子情報の選択結果により採用されたか否かを示す情報(図12における「採用」の欄)が示されている。
図12に示すように、第1標本情報群および第2標本情報群において、共に変動係数情報が0.1未満の因子(遺伝子)は、因子情報が「8」の因子である。
(実施例4:複合的な手法(棄却検定)による探索)
次に、インターフェロン投与前のC型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、群間における棄却検定の検定値に基づいて遺伝子を選択した場合の一例である実施例4の詳細について、図13、図24等を参照して説明する。
上述した実施例3同様、一般に、データの分析において最も重要なことの一つに分析の元となる因子の測定精度が挙げられる。例えば、因子のバラツキが大きい場合、正確な分析ができなくなる。
そこで、本実施例4では、まず、上述した本実施形態における有効因子情報選択装置100(図24)は、棄却検定実行部102iの処理により、群間(インターフェロン投与後効果が現れたグループ(無効以外)である第1標本情報群(10因子(遺伝子)、22標本)およびインターフェロン投与後効果が現れなかったグループ(無効)である第2標本情報群(10因子(遺伝子)、13標本))でF検定を実行した。
ついで、有効因子情報選択装置100は、上述した棄却検定値基準有効因子情報選択部102jの処理により、F検定の検定値が設定した有意水準である5%(0.05)未満である因子情報を有効な因子情報として選択した。本実施例4では、実際に行った718個の遺伝子のうち10個の遺伝子に関する分析結果を図13に示す。
なお、本実施例4においては、一つの群の標本数が30未満であったため、棄却検定にはF検定を用いたが、かかる場合に限定されることなく、例えばT検定などの群間の差を検定する手法を用いてもよい。また、本実施例4では90%以上の信頼値を目標としているため、95%の信頼値を目安として、群間の有意差の水準(有意水準)を5%と設定したが、問題の重要度などに応じて、有意水準は5%(0.05)の他、例えば10%(0.10)や1%(0.01)など解析者が任意に設定した値を用いてもよい。
図13は、インターフェロン投与前のC型肝炎患者から採取した肝細胞より得た遺伝子発現情報の棄却検定の検定値に基づく分析結果の一例を示す図である。なお、図13には、因子情報ごとに、群間におけるF検定値(図13における「F検定値」の欄)および因子情報の選択結果(図13における「水準」の欄)が示されている。
図13に示すように、第1標本情報群および第2標本情報群において、F検定の検定値が0.05未満の因子(遺伝子)は、因子情報が「1」の因子である。
(実施例5:特徴化パラメータの導出)
次に、上述した本実施形態における特徴化パラメータ情報算出部102kにて算出された特徴化パラメータ情報についての一例である実施例5について、図14から図17、図24等を参照して説明する。
図14は、因子情報が取る値の分布が群間で明確に異なる場合のグラフの一例を示す図である。また、図15は、因子情報が取る値の分布が群間で似ている場合のグラフの一例を示す図である。また、図16は、特徴化パラメータ情報の算出結果の一例を示す図である。さらに、図17は、特徴化前後におけるデータのグラフの一例を示す図である。
一般に、多変量解析やパターン認識では、図14に示すように群間において因子が取る値の分布が明確に異なる場合は、良好な解析結果を得やすい。
一方、図15に示すように因子が取る値の分布が似ている場合は、当該因子から有意な差を検出することができず、良好な解析結果が得られない場合がある。また、相関関係の強い因子同士であっても因子が取りうる値の変動幅が大きいと分散が大きくなり、つまり揺らぎの大きい因子となってしまい、解析や判別のための良い因子とならない場合がある。具体的には、因子が、例えば0〜65535(本実施例5におけるスキャナの読み取り値の範囲)のように取りうる値の変動幅が大きい場合分散が大きくなり、分散や相関係数を使った分析では精度が落ちる場合がある。
その場合、複数の因子間の差や比を求める(特徴化パラメータを導出する)ことで、群間の差を明確にすることができ、より有効な解析結果を得ることができる。例えば、相関関係の強い因子同士場合、当該因子間の比を用いると、一般的には取りうる値の幅が狭くなり、測定精度が上がる。具体的には、図16に示すように、因子1、因子2ともに分散が大きいため(図16における「分散」の欄)、結果が揺らぎやすくなるが、上述した本実施形態における有効因子情報選択装置100(図24)が、特徴化パラメータ情報算出部102kの処理により、比(因子1/因子2)をとり当該比を特徴化パラメータ情報(図16における「特徴化パラメータ(比)」の欄)とすると、分散が小さくなり結果が安定することがわかる。
そこで、本実施例5では、C型肝炎患者のmRNA発現量をDNAマイクロアレイで取得したデータに対して、上述した本実施形態における有効因子情報選択装置100が、特徴化パラメータ情報算出部102kおよび特徴化パラメータ情報基準有効因子情報選択部102mの処理により、2つの因子情報の差である特徴化パラメータ情報に基づく有効な因子情報の選択を行った。
その結果、図17に示すように、特徴化前は遺伝子ごとの取る値にバラツキが大きかったのが(図17の上のグラフ参照。)、例えば遺伝子発現情報の差を取ることでバラツキが小さくなっている(図17の下のグラフ参照。)。
従って、例えば当該差を特徴化パラメータ情報とすることにより、データのバラツキを抑えてより正確な解析が可能となることが示唆された。
次に、特徴化パラメータ情報が有効であるかについて実際にデータを解析して確認した結果について、図18および図19を参照して説明する。
まず、特徴化パラメータ情報を使わず、選択された遺伝子の情報のみを用いて判別分析を行った結果を図18に示す。
図18は、特徴化パラメータ情報を用いずに選択された遺伝子発現情報のみを用いて判別分析を行った結果の一例を示す図である。なお、図18、および、後述する図19、図21〜図23において、表中の縦(行)の欄の「無効」、「無効以外」は、本発明により選択した遺伝子(図19では、特徴化パラメータ情報)によって解析した結果であり、一方、横(列)の欄の「無効」、「無効以外」は、臨床で実際に治療した結果である。
図18に示すように、「無効」であると予測された6標本のうち、臨床結果においても「無効」と判定されたものが5標本(正解率83%)であり、「無効以外」であると予測された16標本のうち、臨床結果においても「無効以外」と判定されたものが11標本(正解率69%)であることがわかる。
次に、同様のデータについて、本発明により特徴化を行い、特徴化パラメータA(差)および特徴化パラメータB(比)を求めて、判別分析を行った結果を図19に示す。
図19は、特徴化パラメータ情報を用いて判別分析を行った結果の一例を示す図である。
図19に示すように、「無効」であると予測された8標本のうち、臨床結果においても「無効」と判定されたものが7標本(正解率88%)であり、「無効以外」であると予測された14標本のうち、臨床結果においても「無効以外」と判定されたものが11標本(正解率79%)であることがわかる。
以上から、本実施例5において特徴化パラメータ情報が有効であることが示された。
(実施例6:絞り込み結果および選択因子を用いた解析の結果)
次に、図34に示す手順により選択された遺伝子を用いた解析の一例である実施例6について、図20から図23、図24、図34等を参照して説明する。
まず、本実施例6における、有効な遺伝子の選択の手順(有効因子解析を用いた判別用データベースの生成)について、図34を参照して説明する。図34は、本実施例6における有効な遺伝子を選択し、判定用データベースを作成する手順の一例を示すフローチャートである。
まず、上述した有効因子情報選択装置100は、標本情報集合取得部102aの処理により、標本情報の集合を取得する。
ついで、有効因子情報選択装置100は、標本情報群選択部102bの処理により、標本情報集合から、標本属性情報が「判別対象(基準)」である判別対象群(基準群)および「判別対象外(非基準)」である判別対象外群(非基準群)を選択する(ステップSF−1)。
ついで、基準群および非基準群に含まれる遺伝子発現情報が数値以外の定性的なデータである場合(ステップSF−2)、有効因子情報選択装置100は、平均情報・標準偏差情報算出部102cの処理により、既存の数量化手法(例えば、数量化I類、数量化II類
、数量化III類、数量化IV類など)に基づいて、基準群および非基準群に含まれる遺伝子発
現情報を数量化する(ステップSF−3)。
ついで、有効因子情報選択装置100は、平均情報・標準偏差情報算出部102cの処理により、ステップSF−1にて選択された基準群および非基準群において、各遺伝子発現情報の平均情報および標準偏差情報を算出し、平均情報・標準偏差情報基準有効因子情報選択部102dの処理により、算出された基準群および非基準群における各遺伝子発現情報の平均情報および標準偏差情報に基づいて、有効な因子情報を選択する(ステップSF−4)。
ここで、ステップSF−4において、分散共分散行列情報・相関行列情報算出部102eおよび分散共分散行列情報・相関行列情報基準有効因子選択部102fの処理により、基準群および非基準群において、分散共分散行列情報または相関行列情報を算出し、算出された分散共分散行列情報または相関行列情報の各行列成分情報の群間の差に基づいて、有効な因子情報をさらに選択してもよい。
ついで、有効因子情報選択装置100は、特徴化パラメータ情報算出部102kの処理により、ステップSF−4にて選択された遺伝子発現情報に基づいて、特徴化パラメータ情報を算出する(特徴化パラメータ情報の導出)(ステップSF−5)。
さらに、有効因子情報選択装置100は、マハラノビス距離算出用パラメータ情報算出部102nの処理により、ステップSF−5にて特徴化した基準群の遺伝子発現情報に基づいて、マハラノビス距離算出用パラメータ情報(平均情報、標準偏差情報、および、分散共分散行列情報の逆行列)を算出し、ステップSF−4にて選択された因子情報(遺伝子発現情報)、および、ステップSF−5にて導出された特徴化パラメータ情報と共にデータベースを作成し、記憶部106の所定の記憶領域に格納する(ステップSF−6)。
つぎに、上述した図34に示す有効な遺伝子の選択の手順により718個の遺伝子を絞り込んだ結果について、図20を参照して説明する。
図20は、図34に示す有効な遺伝子の選択の手順により718個の遺伝子から絞り込まれた17個の遺伝子を示す図である。
図20に示すように、本発明により718個の遺伝子を絞り込んだ結果、17個の遺伝子が有効遺伝子として選択された。この結果、インターフェロンとリバビリンの併用療法において、17個の遺伝子の発現状況を事前に調べることにより、治療効果を予測することができることが判明した。
なお、本実施例6では、これら17個の遺伝子を使い、マハラノビス距離による判別分析を行うため、上述した本実施形態における有効因子情報選択装置100(図24)が、マハラノビス距離算出用パラメータ情報算出部102nの処理により算出したマハラノビス距離算出用パラメータ情報を用いて、以下のマハラノビス距離による判別分析を行った。
次に、本発明により臨床検体を用いて選択された17個の遺伝子による解析が有効であるかについて確認した結果を、図21から図23を参照して説明する。
実施例6では、インターフェロン投与前のC型肝炎患者42名の肝生検組織からRNAを抽出し、DNAマイクロアレイで取得したデータから本発明により選択された17個の遺伝子の値について、数式5に示すマハラノビス距離を算出し、当該マハラノビス距離の大小でインターフェロンに対する感受性を判定した。

マハラノビス距離2 = [(各因子(遺伝子)の値 − 因子(遺伝子)毎の平均値 )の行例]×
[第1標本情報群または第2標本情報群の分散共分散行列の逆 行例]×
[(各因子(遺伝子)の値 − 因子(遺伝子)毎の平均値) の転置行例] ・・・(数式5)
まず、本発明により臨床検体を用いて選択された17個の遺伝子を使って判別分析を行った結果を図21に示す。
図21は、絞り込まれた17個の遺伝子から算出したマハラノビス距離の大小でインターフェロンに対する感受性を判定した結果の一例を示す図である。
図21に示すように、本発明により選択された遺伝子で解析すると42名のうち7名が「無効」と判定され、それらはすべて臨床的にも「無効」であった。また、「無効以外」と判定された35名のうち32名が実際に「無効以外」であった。つまり、予測において「無効」と判定されたものは臨床において100%の確率で「無効」であり、予測において「無効以外」と判定されたもののうち、91%が「無効以外」であった。
ついで、使用可能な測定結果を得られた(バックグラウンドより高い値が得られた)234個の遺伝子すべてを使って判別分析を行った結果を図22に示す。
図22は、使用可能な測定結果を得られた234個の遺伝子から算出したマハラノビス距離の大小でインターフェロンに対する感受性を判定した結果の一例を示す図である。
図22に示すように、「無効」であると予測された5標本のうち、臨床結果においても「無効」と判定されたものが1標本(正解率20%)であり、「無効以外」であると予測された37標本のうち、臨床結果においても「無効以外」と判定されたものが28標本(正解率76%)であることがわかる。
さらに、学術的にインターフェロン投与効果に影響を与えていると報告されている遺伝子群を既知の文献データベースより59個の遺伝子選択し、それらを用いて解析を行った結果を図23に示す。なお、59個の遺伝子には、本発明により選択された17個の遺伝子のうち5個が含まれている。
図23は、学術的にインターフェロン投与効果に影響を与えていると報告されている遺伝子群を文献から59個選択し、59個の遺伝子から算出したマハラノビス距離の大小でインターフェロンに対する感受性を判定した結果の一例を示す図である。
図23に示すように、「無効」であると予測された22標本のうち、臨床結果においても「無効」と判定されたものが10標本(正解率45%)であり、「無効以外」であると予測された20標本のうち、臨床結果においても「無効以外」と判定されたものが20標本(正解率100%)であることがわかる。
以上の結果より、本発明により選択された17個の遺伝子による解析結果は、選択前の結果と比較してより臨床結果を反映していることが示された。また、本発明は、文献的に重要とされている遺伝子を選択する場合より高い効果が得られることも示された。
以上のように、本発明にかかる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体は、特に、複数の因子を含む標本を用いる多変量解析やパターン認識などに有効な因子を選択し、因子の数を効果的に絞り込むことができる。
これにより、本発明にかかる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体は、DNAマイクロアレイのデータ解析の分野に極めて有用である。また、本発明にかかる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体は、産業上多くの分野、特に多変量解析やパターン認識を用いる、医薬品、医療、食品、化粧品、マーケティング(例えば、インターネット上のホームページ・アクセス情報に基づいたカスタマー動向の分析など)等の分野で広く実施することができ、極めて有用である。
本発明の第1の基本原理を示す原理構成図である。 本発明の第2の基本原理を示す原理構成図である。 本実施形態における本システムのメイン処理の一例を示すフローチャートである。 本実施形態における本システムの分散共分散行列情報・相関行列情報基準有効因子情報選択処理の一例を示すフローチャートである。 本実施形態における本システムの変動係数情報基準有効因子情報選択処理の一例を示すフローチャートである。 本実施形態における本システムの棄却検定値基準有効因子情報選択処理の一例を示すフローチャートである。 本実施形態における本システムの特徴化パラメータ情報基準有効因子情報選択処理の一例を示すフローチャートである。 インターフェロン投与前のC型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各因子における各群の平均情報および標準偏差情報に基づく分析結果の一例を示す図である。 第1標本情報群における相関行列情報の一例を示す図である。 第2標本情報群における相関行列情報の一例を示す図である。 図9に示す第1標本情報群における相関行列情報の各行列成分情報から図10に示す第2標本情報群における相関行列情報の各行列成分情報の差をとり、当該差を2で割った各行列成分情報からなる相関行列情報の一例を示す図である。 インターフェロン投与前のC型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各群の変動係数情報に基づく分析結果の一例を示す図である。 インターフェロン投与前のC型肝炎患者から採取した肝細胞より得た遺伝子発現情報の棄却検定の検定値に基づく分析結果の一例を示す図である。 因子情報が取る値の分布が群間で明確に異なる場合のグラフの一例を示す図である。 因子情報が取る値の分布が群間で似ている場合のグラフの一例を示す図である。 特徴化パラメータ情報の算出結果の一例を示す図である。 特徴化前後におけるデータのグラフの一例を示す図である。 特徴化パラメータ情報を用いずに選択された遺伝子発現情報のみを用いて判別分析を行った結果の一例を示す図である。 特徴化パラメータ情報を用いて判別分析を行った結果の一例を示す図である。 図34に示す有効な遺伝子の選択の手順により718個の遺伝子から絞り込まれた17個の遺伝子を示す図である。 絞り込まれた17個の遺伝子から算出したマハラノビス距離の大小でインターフェロンに対する感受性を判定した結果の一例を示す図である。 使用可能な測定結果を得られた234個の遺伝子から算出したマハラノビス距離の大小でインターフェロンに対する感受性を判定した結果の一例を示す図である。 学術的にインターフェロン投与効果に影響を与えていると報告されている遺伝子群を文献から59個選択し、59個の遺伝子から算出したマハラノビス距離の大小でインターフェロンに対する感受性を判定した結果の一例を示す図である。 本発明が適用される本システムの構成の一例を示すブロック図である。 本実施形態における標本情報集合ファイル106aに格納される情報の一例を示す図である。 本実施形態における標本情報群ファイル106bに格納される情報の一例を示す図である。 本実施形態における平均情報・標準偏差情報ファイル106cに格納される情報の一例を示す図である。 本実施形態における分散共分散行列情報・相関行列情報ファイル106dに格納される情報の一例を示す図である。 本実施形態における変動係数情報ファイル106eに格納される情報の一例を示す図である。 本実施形態における棄却検定値ファイル106fに格納される情報の一例を示す図である。 本実施形態における特徴化パラメータ情報ファイル106gに格納される情報の一例を示す図である。 本実施形態における有効因子情報ファイル106hに格納される情報の一例を示す図である。 本実施形態におけるマハラノビス距離算出用パラメータ情報ファイル106iに格納される情報の一例を示す図である。 本実施例6における有効な遺伝子を選択し、判定用データベースを作成する手順の一例を示すフローチャートである。
符号の説明
100 有効因子情報選択装置
102 制御部
102a 標本情報集合取得部
102b 標本情報群選択部
102c 平均情報・標準偏差情報算出部
102d 平均情報・標準偏差情報基準有効因子情報選択部
102e 分散共分散行列情報・相関行列情報算出部
102f 分散共分散行列情報・相関行列情報基準有効因子情報選択 部
102g 変動係数情報算出部
102h 変動係数情報基準有効因子情報選択部
102i 棄却検定実行部
102j 棄却検定値基準有効因子情報選択部
102k 特徴化パラメータ情報算出部
102m 特徴化パラメータ情報基準有効因子情報選択部
102n マハラノビス距離算出用パラメータ情報算出部
104 通信制御インターフェース部
106 記憶部
106a 標本情報集合ファイル
106b 標本情報群ファイル
106c 平均情報・標準偏差情報ファイル
106d 分散共分散行列情報・相関行列情報ファイル
106e 変動係数情報ファイル
106f 棄却検定値ファイル
106g 特徴化パラメータ情報ファイル
106h 有効因子情報ファイル
106i マハラノビス距離算出用パラメータ情報ファイル
108 入出力制御インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク

Claims (10)

  1. 標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択装置において、
    上記標本情報の集合である標本情報集合を取得する標本情報集合取得手段と、
    上記標本情報集合取得手段にて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択手段と、
    上記標本情報群選択手段にて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出手段と、
    上記平均情報・標準偏差情報算出手段にて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式1から判定式4(判定式において、nは正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された2つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択手段と、

    「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」 < 「第1標本情報群における因子情報の平均情報」 ・・・(判定式1)

    「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」 > 「第1標本情報群における因子情報の平均情報」 ・・・(判定式2)

    「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」 < 「第2標本情報群における因子情報の平均情報」 ・・・(判定式3)

    「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」 > 「第2標本情報群における因子情報の平均情報」 ・・・(判定式4)

    を備えたことを特徴とする有効因子情報選択装置。
  2. 上記第1標本情報群および上記第2標本情報群の上記標本情報ごとに、任意に選択された2つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出手段と、
    上記特徴化パラメータ情報算出手段にて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択手段と、
    をさらに備えたことを特徴とする請求項1に記載の有効因子情報選択装置。
  3. 上記因子情報は遺伝子の発現に関する遺伝子発現情報であること、
    を特徴とする請求項1または2に記載の有効因子情報選択装置。
  4. 標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法において、
    上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、
    上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択ステップと、
    上記標本情報群選択ステップにて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出ステップと、
    上記平均情報・標準偏差情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式1から判定式4(判定式において、nは正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された2つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択ステップと、

    「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」 < 「第1標本情報群における因子情報の平均情報」 ・・・(判定式1)

    「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」 > 「第1標本情報群における因子情報の平均情報」 ・・・(判定式2)

    「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」 < 「第2標本情報群における因子情報の平均情報」 ・・・(判定式3)

    「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」 > 「第2標本情報群における因子情報の平均情報」 ・・・(判定式4)

    を含むことを特徴とする有効因子情報選択方法。
  5. 上記第1標本情報群および上記第2標本情報群の上記標本情報ごとに、任意に選択された2つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出ステップと、
    上記特徴化パラメータ情報算出ステップにて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択ステップと、
    をさらに含むことを特徴とする請求項4に記載の有効因子情報選択方法。
  6. 上記因子情報は遺伝子の発現に関する遺伝子発現情報であること、
    を特徴とする請求項4または5に記載の有効因子情報選択方法。
  7. 標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法をコンピュータに実行させるプログラムにおいて、
    上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、
    上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択ステップと、
    上記標本情報群選択ステップにて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出ステップと、
    上記平均情報・標準偏差情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式1から判定式4(判定式において、nは正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された2つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択ステップと、

    「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」 < 「第1標本情報群における因子情報の平均情報」 ・・・(判定式1)

    「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」 > 「第1標本情報群における因子情報の平均情報」 ・・・(判定式2)

    「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」 < 「第2標本情報群における因子情報の平均情報」 ・・・(判定式3)

    「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」 > 「第2標本情報群における因子情報の平均情報」 ・・・(判定式4)

    を含む有効因子情報選択方法をコンピュータに実行させることを特徴とするプログラム。
  8. 上記第1標本情報群および上記第2標本情報群の上記標本情報ごとに、任意に選択された2つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出ステップと、
    上記特徴化パラメータ情報算出ステップにて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択ステップと、
    をさらに含むことを特徴とする請求項7に記載のプログラム。
  9. 上記因子情報は遺伝子の発現に関する遺伝子発現情報であること、
    を特徴とする請求項7または8に記載のプログラム。
  10. 上記請求項7から9のいずれか一つに記載されたプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2003275628A 2003-07-16 2003-07-16 有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体 Pending JP2005038256A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003275628A JP2005038256A (ja) 2003-07-16 2003-07-16 有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003275628A JP2005038256A (ja) 2003-07-16 2003-07-16 有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体

Publications (1)

Publication Number Publication Date
JP2005038256A true JP2005038256A (ja) 2005-02-10

Family

ID=34212217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003275628A Pending JP2005038256A (ja) 2003-07-16 2003-07-16 有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体

Country Status (1)

Country Link
JP (1) JP2005038256A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009178057A (ja) * 2008-01-29 2009-08-13 Miyazakiken Sangyo Shien Zaidan インターフェロンとリバビリンとの併用治療効果の検出方法および検出キット
US8140456B2 (en) 2005-12-02 2012-03-20 Yamaguchi University Method and system of extracting factors using generalized Fisher ratios
JP2012533103A (ja) * 2009-07-08 2012-12-20 ワールドワイド・イノベイティブ・ネットワーク 患者における薬物の有効性を予測する方法
WO2018047251A1 (ja) * 2016-09-07 2018-03-15 株式会社日立ハイテクノロジーズ データ分析システム、データ分析端末、及び、データ分析方法
US10586022B2 (en) 2011-12-05 2020-03-10 Omnicell, Inc. System and method for managing inventory at dispensing units
JP2020154891A (ja) * 2019-03-20 2020-09-24 株式会社 日立産業制御ソリューションズ 外れ値要因推定支援装置、外れ値要因推定支援方法及び外れ値要因推定支援プログラム
CN113782121A (zh) * 2021-08-06 2021-12-10 中国中医科学院中医药信息研究所 随机分组方法、装置、计算机设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140456B2 (en) 2005-12-02 2012-03-20 Yamaguchi University Method and system of extracting factors using generalized Fisher ratios
JP2009178057A (ja) * 2008-01-29 2009-08-13 Miyazakiken Sangyo Shien Zaidan インターフェロンとリバビリンとの併用治療効果の検出方法および検出キット
JP2012533103A (ja) * 2009-07-08 2012-12-20 ワールドワイド・イノベイティブ・ネットワーク 患者における薬物の有効性を予測する方法
US10586022B2 (en) 2011-12-05 2020-03-10 Omnicell, Inc. System and method for managing inventory at dispensing units
WO2018047251A1 (ja) * 2016-09-07 2018-03-15 株式会社日立ハイテクノロジーズ データ分析システム、データ分析端末、及び、データ分析方法
JP2020154891A (ja) * 2019-03-20 2020-09-24 株式会社 日立産業制御ソリューションズ 外れ値要因推定支援装置、外れ値要因推定支援方法及び外れ値要因推定支援プログラム
CN113782121A (zh) * 2021-08-06 2021-12-10 中国中医科学院中医药信息研究所 随机分组方法、装置、计算机设备及存储介质
CN113782121B (zh) * 2021-08-06 2024-03-19 中国中医科学院中医药信息研究所 随机分组方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
Lähnemann et al. Eleven grand challenges in single-cell data science
Weber et al. Comparison of clustering methods for high‐dimensional single‐cell flow and mass cytometry data
Yu et al. Graph-based consensus clustering for class discovery from gene expression data
Shannon et al. Analyzing microarray data using cluster analysis
Kuehn et al. Using GenePattern for gene expression analysis
Franks et al. Feature specific quantile normalization enables cross-platform classification of molecular subtypes using gene expression data
Smith et al. Using quality scores and longer reads improves accuracy of Solexa read mapping
Pyne et al. Automated high-dimensional flow cytometric data analysis
JP2009520278A (ja) 科学情報知識管理のためのシステムおよび方法
JP2011520206A (ja) 医療分析システム
US20200395095A1 (en) Method and system for generating and comparing genotypes
Ploner et al. Correlation test to assess low-level processing of high-density oligonucleotide microarray data
Yang et al. Gaining confidence in biological interpretation of the microarray data: the functional consistence of the significant GO categories
JP2015043782A (ja) 遺伝子及び老化判定方法
KR20220069943A (ko) 단일 세포 rna-seq 데이터 처리
Yu et al. Class discovery from gene expression data based on perturbation and cluster ensemble
Matos et al. Research techniques made simple: mass cytometry analysis tools for decrypting the complexity of biological systems
Pavel et al. Network analysis of microarray data
Wang et al. FSSA: a novel method for identifying functional signatures from structural alignments
JP2005038256A (ja) 有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体
US20060265135A1 (en) Bio-information analyzer, bio-information analysis method and bio-information analysis program
JP2004535612A (ja) 遺伝子発現データの管理システムおよび方法
Grewal et al. Analysis of expression data: an overview
JP4461240B2 (ja) 遺伝子発現プロファイル検索装置、遺伝子発現プロファイル検索方法およびプログラム
JP2004187562A (ja) Dnaマイクロアレイデータ解析方法、dnaマイクロアレイデータ解析装置、プログラム、および、記録媒体