JP2005038256A

JP2005038256A - 有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体

Info

Publication number: JP2005038256A
Application number: JP2003275628A
Authority: JP
Inventors: Akito Daiba; 昭人臺場; Satoru Ito; 哲伊藤
Original assignee: JGS KK
Current assignee: JGS KK
Priority date: 2003-07-16
Filing date: 2003-07-16
Publication date: 2005-02-10

Abstract

【課題】複数の因子を含む標本を用いる多変量解析やパターン認識などに有効な因子を選択し、因子の数を効果的に絞り込むことができる有効因子情報選択装置等を提供することを課題とする。
【解決手段】本発明にかかる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体は、標本識別情報、標本属性情報、および、複数の因子情報を含む標本情報の集合を取得し、取得された標本情報の集合から、任意に選択された２つの標本属性情報のうちの１つを持つ第１標本情報群、および、他の１つを持つ第２標本情報群を選択し、選択された第１標本情報群および第２標本情報群の各因子情報の平均情報および標準偏差情報を算出し、算出された第１標本情報群および第２標本情報群の各因子情報の平均情報および標準偏差情報に基づいて、判定式１から判定式４のうち少なくとも一つを適用し、判定条件を満たす有効な因子情報を選択する。
【選択図】図１

Description

本発明は、有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体に関し、特に、複数の因子を含む標本を用いる多変量解析やパターン認識などに有効な因子を選択し、因子の数を効果的に絞り込むことができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体に関するものである。

近年の技術の発達に伴い、様々な分野において、取得できるデータ量が飛躍的に増加している。そのため、どのようなデータを得るかはもちろんのこと、得た膨大なデータをどのように処理してどのような情報を引き出すかが各分野において大きな課題となっている。例えば、ＤＮＡマイクロアレイ等では、これまで生物学者が経験したことのない膨大な量のデータがもたらされており、これらの膨大な量のデータの保存と解析について、ＤＮＡマイクロアレイを用いる研究者は悩んでいる（例えば、非特許文献１参照。）。

ここで、特に問題となるのは因子の数が多い場合である。例えば、因子が２個の場合、両因子の相関があるかないか、そして、相関があるとすればどのような相関であるかを見ることはさほど困難ではない。具体的には両因子をｘとｙのグラフに置くだけで、相関の強弱等が直感的に見える場合も珍しくはない。一方、因子の数が多い場合、どの因子とどの因子が関連して動いているのか、そして、その関連はどのようなものであるか、また、関連のない因子はどれであるか等の問題を解決するためには、複数の因子に関するデータを基に各因子間の相互関連を分析する統計的手法である多変量解析が必要である。

従来の多変量解析について、以下に簡単に説明する。多変量解析はすでに確立された統計的手法であり、例えば、経済学、気象学、医学、マーケティング等の分野で広く用いられている。また、多変量解析では、目的因子（「結果」；例えば広告費と売上の関係における売上）の有無、および、データ形態（カテゴリーデータか、数値データか）によって、主成分分析、重回帰分析、クラスター分析等の手法が選択される（例えば、非特許文献２参照。）。

しかしながら、多変量解析を用いることによって、因子の数が多い場合の上述した問題がすべて解決されるわけではない。例えば、多変量解析では上述のように主成分分析、重回帰分析、クラスター分析等の手法が選択されるが、これらの従来の解析手法は全ての因子を一括して計算させるため、因子の数が１００を超えるとデータ量や計算時間も膨大になり、データ処理が実質不可能である。

具体的には、マーケットリサーチにおける多変量解析などにおいて膨大な計算時間を要するという問題が挙げられる。マーケットリサーチでは主成分分析や重回帰分析などを用いた多変量解析が主に行われており、因子の数は数百〜数万に及ぶ。そして、因子全体から導出された主成分や個々の因子に割り当てた重みなどによって予測値が計算される。

しかし、ノイズとなる因子が含まれていると、導出された結果の誤差が大きくなり、目的機能を達成しないことが多くなる。また、予測値の計算は最小二乗法により連立方程式の解を導きだす方式で計算されるため、因子数が増加すると大規模な行列計算を繰り返すことになり、計算量が累乗的に増加する。この結果、計算時間も膨大となり、例えば数日を要する場合が多い。

また、膨大な計算時間を要するという問題は、例えば、パターン認識においても同様である。パターン認識とは、観測したパターンを予め学習によって獲得された概念の一つに対応させることである。そして、パターン認識には、例えば、閾値による認識、ファジー推論、ニューラルネットワーク、ＭＴ（マハラノビス・タグチ）システム等の従来技術が挙げられ、パターン認識は多変量解析と同様に多くの因子を取扱う。

しかし、パターン認識においては、ノイズとなる因子が含まれている場合、または、標本の数が因子の数よりも少ない場合には、認識率が著しく低下することが問題となる。また、多くの因子を扱うことにより多変量解析と同様に計算時間が膨大となる。

また、多変量解析やパターン認識では、一般に因子数の２〜３倍の標本が必要とされており、これだけの標本が用意できない場合、「行列計算のノルムが算出できない」などの原因から、解析結果が安定しなかったり、解析結果を得ることができなかったりすることがある。したがって、因子数が増えると必要とされる標本数も増えるが、現実的には必要とされる標本数を揃えることが困難であることが多い。

具体的には、ＤＮＡマイクロアレイ解析において、ＤＮＡマイクロアレイやＤＮＡチップから採取できる発現データは数百から数万種の発現情報に及ぶが、それに見合った標本数の収集は現実的ではない。

従来、ＤＮＡマイクロアレイにおける遺伝子発現データ解析方法は、ＤＮＡマイクロアレイの発達に伴った遺伝子の発現パターンの解析として開発されてきた。つまり、当初最も開発された酵母などのｃＤＮＡ（ｃｏｍｐｌｅｍｅｎｔａｒｙＤＮＡ：相補的ＤＮＡ）のマイクロアレイデータを用いて、それぞれの遺伝子の発現パターンの特徴から、ＤＮＡマイクロアレイ上のすべての遺伝子を網羅的に分類することを目的とした遺伝子発現解析である（例えば、非特許文献３参照。）。

しかし、ＤＮＡマイクロアレイは一度に数百から数千、数万の遺伝子の発現を同時に測定できる技術であるが、一方で測定数の膨大さゆえに、必要な標本数を揃えたとしても、数万からなる因子について分析するには高速なコンピュータを利用しても数日もの計算時間が必要となる。具体的には、このような網羅的発現解析においては、ＤＮＡマイクロアレイで得られたデータすべてをクラス分けし、即ちすべての遺伝子を有効な因子として扱い、その中に含まれる未知の遺伝子をクラスから機能推定するため、計算が煩雑になり、また、計算に必要な時間が膨大であった。

このように、多変量解析やパターン認識などにおいては、計算時間の膨大さなどを改善するために、複数の因子から有効な因子を選択して用いることが重要な課題となっている。

ここで、従来の有効な因子を選択する手法について説明する。

例えば、非特許文献２の「変数選択の方法」と題するセクションにおいて、「１．変数（因子）相互で高い相関のものの一方を落とす。」や、「２．将来設計のできない変数（因子）を落とす。」により、変数（因子）の数を１０未満にするよう指示している。また、非特許文献２では変数（因子）の選択をクラスター分析により行う例が示されている。

また、パターン認識における有効な因子を選択する周知の手法としては、例えば、人間が重要と思われる因子の組合せを推定する手法、ランダムもしくは直行表などにより因子の組合せを数組作成し各組間の認識率を比較し有効と思われる因子セットを決定する手法、などが挙げられる。

また、多変量解析における有効な因子を選択する周知の手法として、「特徴化」という手法が使われることがある。「特徴化」とは、測定した値だけではノイズの影響などでデータの持つ特異性を検出できない場合に、それらの測定値になんらかの数値処理を行い、より特異性の高いパラメータを導出することである。そして、特徴化によって得られた特徴化パラメータは様々な解析や判別に利用される。

従来、特徴化において、全ての因子を同一のルールで加工する試みが多く行われている。例えば、非特許文献４の第３章「倍率変化」において、測定値が倍率（比率）であるため、１より大きい比率の場合１〜∞の間の値をとり、１より小さい比率の場合０〜１の間の値をとるが、数列としてみれば非対称な関係であるため、これを補正する方法が紹介されている。また、例えば、測定誤差（ノイズの影響）を低減する試みとして、ｌｏｇ値を採用した事例が、例えば非特許文献５などに紹介されている。さらに、例えば、同じ目的で測定データをカテゴリデータに変換する事例が非特許文献６などで紹介されている。

また、最近ではＤＮＡマイクロアレイ解析の利用形態のひとつとして、臨床データと結びついた解析手法（癌の分類や薬剤感受性の分類）が報告されはじめてきており（例えば、非特許文献７参照。）、このなかで有効な遺伝子の選択が行われている。

非特許文献７では、まず、遺伝子についてグループの発見を、次元を削減しながら行い、ついで、患者について分類を行っている。具体的には、まず、有効な遺伝子の選択を主成分分析（ＰＣＡ；Ｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ）とニューラルネットワークを用いて行いつつ、遺伝子のグルーピングを並行して行って、ＤＮＡマイクロアレイ上の６５６７種類の遺伝子から９６種類の遺伝子に絞り込んでいる。ついで、各患者の９６種類の遺伝子のデータを定量化し、患者ごとの階層クラスタリングによるグルーピングを行っている。その結果、臨床的に分類の難しい癌を遺伝子発現に基づいて正確に分類することが可能となったことが、非特許文献７では報告されている。なお、一般にＤＮＡマイクロアレイによる臨床データ解析では、上述した非特許文献７のように解析の目的のためにどの遺伝子を用いるかを予め決めず、まず数百あるいは数千の遺伝子の発現パターンを解析してどの遺伝子データを使うかの絞込みを行い、そのうえで個々の患者の遺伝子発現データを解析するということが通常行われる。

ＮａｔｕｒｅＧｅｎｅｔｉｃｓＳｕｐｐｌｅｍｅｎｔ，４８１−４８９，ｖｏｌ．３２Ｄｅｃ．，２００２菅民郎著、「多変量解析の実践」、現代数学社Ｅｉｓｅｎ，ｅｔ．ａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃｄ．Ｓｃｉ．，１９９８，９５，ｐ．１４８６３−１４８６８「ＤＮＡマイクロアレイデータ解析入門」、羊土社「ＡＧｅｎｅ−Ｅｘｐｒｅｓｓｉｏｎｓｉｇｎａｔｕｒｅａｓａｐｒｅｄｉｃｔｏｒｏｆｓｕｒｖｉｖａｌｉｎｂｒｅａｓｔｃａｎｃｅｒ」，ＴｈｅＮｅｗＥｎｇｌａｎｄＪｏｕｒｎａｌｏｆＭｅｄｉｃｉｎｅ，Ｖｏｌ．３４７，Ｎｏ．２５ − Ｄｅｃｅｍｂｅｒ１９，２００２「特徴的ルール生成を用いた遺伝子発現解析」、情報処理学会第６５回全国大会−３Ｔ５Ｂ−５Ｊ．Ｋｈａｎ，ｅｔ．ａｌ．，ＮａｔｕｒｅＭｅｄｉｃｉｎｅ，２００１，Ｖｏｌ．７，Ｎｕｍ．６，ｐ．６７３−６７９

しかしながら、多変量解析やパターン認識において、計算機上で自動的に有効な因子を選択する効果的な方法は確立しておらず、最終的には人間の経験やカンによる因子選択が行われている、という問題点がある。以下、本問題点について具体的に説明する。

従来技術による人間の経験やカンによる因子選択では、選択の根拠を示すことが難しいうえ、重要な因子を取りこぼす可能性も高い。また、有意義な因子群を有効に決定できないために、解析結果の安定性や作業の効率を犠牲にしつつ、すべての因子を使って判別分析やパターン認識を行っているケースが多くある。

また、パターン認識における従来の有効な因子を選択する手法では有効な因子を取りこぼす事も多く、また、因子をセットとして扱うため各因子の重要度も判明しない。さらに、これら手法においても、因子数が１００を超えると、認識率の高い因子セットを決定するのが困難であり、現状の一般的な計算機資源では実質的に不可能である。

また、非特許文献２に示されているクラスター分析で有効な因子を選択する手法は、例えばＤＮＡマイクロアレイのように変数（因子）が数千にも及ぶような解析では非現実的なものである。また、非特許文献４の第５章「クラスター解析」では「階層型クラスター化法がうまくいかないのは、遺伝子の数が非常に多い（数千以上に及ぶ）場合である。この問題を軽減する一つの方法はどの実験条件によっても有意な変化を示さない遺伝子を解析対象から除くことである。」と述べており、そもそも変数（因子）の選択のためにクラスター分析を行っているはずのものが、いつのまにか問題が出発地点にまで戻ってしまっている。

また、上述した「特徴化」という手法は、全測定値に同種の処理（ノイズの除去等）を施して、測定誤差の影響を低減する効果を目的としたものにすぎず、特定因子間にある微弱な情報から特徴化パラメータを導出し、それらによる解析や判別、すなわち有効な因子の導出と選択を可能とするものではない。

また、非特許文献７における手法は遺伝子の絞込み（選択）に膨大な計算時間を要する。また、一般的に、遺伝子の絞りこみは、絞り込んだ遺伝子項目を用いた患者のグルーピングの結果によって検証することになるのだが、実際にその検証と並行して絞込みを行うことは、一般の解析方法では膨大な時間を要するため現実的ではない。

このように、従来のシステム等は数々の問題点を有しており、その結果、多変量解析システムおよびパターン認識システムの利用者および管理者のいずれにとっても、利便性が悪く、また、利用効率が悪いものであった。

本発明は上記問題点に鑑みてなされたもので、複数の因子を含む標本を用いる多変量解析やパターン認識などに有効な因子を選択し、因子の数を効果的に絞り込むことができ、特に、疾病に関連する遺伝子群や薬効に関連する因子（遺伝子群）を容易に抽出することができる、有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することを目的としている。

このような目的を達成するために、請求項１に記載の有効因子情報選択装置は、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択装置において、上記標本情報の集合である標本情報集合を取得する標本情報集合取得手段と、上記標本情報集合取得手段にて取得された上記標本情報集合から、任意に選択された２つの上記標本属性情報のうちの１つの上記標本属性情報を持つ上記標本情報の群である第１標本情報群、および、他の１つの上記標本属性情報を持つ上記標本情報の群である第２標本情報群を選択する標本情報群選択手段と、上記標本情報群選択手段にて選択された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出手段と、上記平均情報・標準偏差情報算出手段にて算出された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式１から判定式４（判定式において、ｎは正の実数である。）のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された２つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択手段とを備えたことを特徴とする。

「第２標本情報群における因子情報の平均情報」＋ｎ×「第２標本情報群における因子情報の標準偏差情報」＜「第１標本情報群における因子情報の平均情報」・・・（判定式１）

「第２標本情報群における因子情報の平均情報」−ｎ×「第２標本情報群における因子情報の標準偏差情報」＞「第１標本情報群における因子情報の平均情報」・・・（判定式２）

「第１標本情報群における因子情報の平均情報」＋ｎ×「第１標本情報群における因子情報の標準偏差情報」＜「第２標本情報群における因子情報の平均情報」・・・（判定式３）

「第１標本情報群における因子情報の平均情報」−ｎ×「第１標本情報群における因子情報の標準偏差情報」＞「第２標本情報群における因子情報の平均情報」・・・（判定式４）

この装置によれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された２つの標本属性情報のうちの１つの標本属性情報を持つ標本情報の群である第１標本情報群、および、他の１つの標本属性情報を持つ標本情報の群である第２標本情報群を選択し、選択された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出し、算出された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、群間の乖離を判定する判定式１から判定式４（判定式において、ｎは分布（バラツキ）の幅を表す数値であり、正の実数である。）のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された２つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択するので、基本統計量（平均、標準偏差など）を用いて、因子情報の分布が群間で明確に異なる因子情報を、多変量解析やパターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。

また、この装置によれば、標本情報において同一の属性を持つ標本情報群が２つある場合（例えば、薬剤投与効果の有るグループと、無いグループの２つの標本情報群がある場合など）には、対象となる機能をもつ標本情報群（例えば、薬剤投与効果が有るグループ）とそれ以外の標本情報群（例えば、薬剤投与効果が無いグループ）を選択して、２つの標本情報群間において因子情報の分布の明らかな違いを示す有効な因子情報を選択することができる。

また、この装置によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に２つの標本情報群を選択して、任意の２つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間において因子情報の分布の明らかな違いを示す、不特定多数の集団から特定の群を判別させるために有効な因子情報を選択することができる。

また、本発明に記載の有効因子情報選択装置は、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択装置において、上記標本情報の集合である標本情報集合を取得する標本情報集合取得手段と、上記標本情報集合取得手段にて取得された上記標本情報集合から、任意に選択された２つの上記標本属性情報のうちの１つの上記標本属性情報を持つ上記標本情報の群である第１標本情報群、および、他の１つの上記標本属性情報を持つ上記標本情報の群である第２標本情報群を選択する標本情報群選択手段と、上記標本情報群選択手段にて選択された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報について、分散共分散行列情報または相関行列情報を算出する分散共分散行列情報・相関行列情報算出手段と、上記分散共分散行列情報・相関行列情報算出手段にて算出された上記第１標本情報群および上記第２標本情報群の上記分散共分散行列情報または上記相関行列情報の各行列成分情報の差に基づいて、上記有効な上記因子情報を選択する分散共分散行列情報・相関行列情報基準有効因子情報選択手段とを備えたことを特徴とする。

この装置によれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された２つの標本属性情報のうちの１つの標本属性情報を持つ標本情報の群である第１標本情報群、および、他の１つの標本属性情報を持つ標本情報の群である第２標本情報群を選択し、選択された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出し、算出された第１標本情報群および第２標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択するので、群間で因子情報間の分散、共分散、相関等の性質が明らかに異なる因子情報を、多変量解析、および、パターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。

すなわち、分散分析やマハラノビス距離などを用いた分析においてはデータ間の相関関係を用いて計算を行い判定式に入力するため、因子間の相関関係の大小が判別の結果に大きく影響している。従って、本発明においては、同一因子数からなる群間のそれぞれで分散・共分散行列、もしくは、相関行列を求め、群間における各因子間の差を求め、その差の比較することによって、有効な因子情報を効果的に選択する。また、これを前提として、各群の分散・共分散もしくは分散・共分散行列を標準偏差で割った相関行列などを求め、その群間における各要素間の差を求め、その差が大きなものについて有効な因子とする。

また、この装置によれば、標本情報において同一の属性を持つ標本情報群が２つある場合（例えば、薬剤投与効果の有るグループと、無いグループの２つの標本情報群がある場合など）には、対象となる機能をもつ標本情報群（例えば、薬剤投与効果が有るグループ）とそれ以外の標本情報群（例えば、薬剤投与効果が無いグループ）を選択して、２つの標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大きさを数値化することにより、有効な因子情報を選択することができる。

また、この装置によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に２つの標本情報群を選択して、任意の２つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大小に基づいて、有効な因子情報を選択することができる。

また、本発明に記載の有効因子情報選択装置は、上記に記載の有効因子情報選択装置において、上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報について、変動係数情報を算出する変動係数情報算出手段と、上記変動係数情報算出手段にて算出された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報の上記変動係数情報に基づいて、上記有効な上記因子情報を選択する変動係数情報基準有効因子情報選択手段とをさらに備えたことを特徴とする。

この装置によれば、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、算出された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択するので、変動係数情報に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、各因子情報の変動係数情報に基づいてより詳細に選択することができる。

すなわち、データの分析において最も重要なことの１つは分析の元となる因子の測定精度である。この測定精度が悪い場合、つまり、当該因子のバラツキが大きい場合は、正確な分析ができなくなる。この装置はこの点に着目し、各群の因子毎にＣＶ値（変動係数）を算出し、変動の少ない、つまり、変動係数の小さい因子情報を有効な因子情報として選択する。また、この装置によるＣＶ値による探索や、棄却検定など他の手法を適宜組み合わせることにより、より効果的な因子選択を行うことが可能となる。

また、この装置によれば、因子情報の取りうる値の幅が狭い、つまり、測定精度の高い因子情報を、各因子情報の変動係数情報に基づいてより有効な因子情報として短時間かつ効果的に選択することができる。

また、本発明に記載の有効因子情報選択装置は、上記に記載の有効因子情報選択装置において、上記第１標本情報群および上記第２標本情報群に含まれる各上記因子情報に対して棄却検定を実行する棄却検定実行手段と、上記棄却検定実行手段にて実行された上記第１標本情報群および上記第２標本情報群に含まれる各上記因子情報に対する上記棄却検定の検定値に基づいて、上記有効な上記因子情報を選択する棄却検定値基準有効因子情報選択手段とをさらに備えたことを特徴とする。

この装置によれば、第１標本情報群および第２標本情報群に含まれる各因子情報に対して棄却検定を実行し、実行された第１標本情報群および第２標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択するので、棄却検定の検定値に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、群間の有意差を検定する周知手法である棄却検定の検定値に基づいてより詳細に選択することができる。

また、請求項２に記載の有効因子情報選択装置は、請求項１に記載の有効因子情報選択装置において、上記第１標本情報群および上記第２標本情報群の上記標本情報ごとに、任意に選択された２つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出手段と、上記特徴化パラメータ情報算出手段にて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択手段とをさらに備えたことを特徴とする。

この装置によれば、第１標本情報群および第２標本情報群の標本情報ごとに、任意に選択された２つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、算出された特徴化パラメータ情報に基づいて、有効な因子情報を選択するので、特徴化パラメータ情報による有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、特徴化パラメータ情報に基づいて（例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて）より詳細に選択することができる。

すなわち、一般に多変量解析やパターン認識に用いる因子が取る値の分布が明確に異なる場合は良好な解析結果を得やすいが、逆に、群間において因子が取る値の分布が似ている場合は当該因子から有意差を検出することができず、良好な解析結果を得ることができない場合がある。そこで、この装置では、有意差を検出することのできない因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択する。

また、相関関係の強い因子同士であっても因子が取る値の変動幅が大きい場合、分散も大きくなり、揺らぎの大きい因子となってしまうため、解析や判別において良い結果を得られない場合がある。そこで、この装置は、当該揺らぎの大きい因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択することができる。

つまり、この装置によれば、因子情報が取りうる値の分布が似ている因子情報同士の場合、または、因子情報が取りうる値の変動幅が大きく、相関関係の強い因子情報同士の場合には、特徴化パラメータ情報を算出しその複数の因子間の差や比を求めることにより、有効な因子情報を短時間かつ効果的に選択することができる。

また、本発明に記載の有効因子情報選択装置は、上記に記載の有効因子情報選択装置において、上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報、ならびに、上記第１標本情報群および上記第２標本情報群のそれぞれにおける上記分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するマハラノビス距離算出用パラメータ情報算出手段をさらに備えたことを特徴とする。

この装置によれば、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第１標本情報群および第２標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するので、当該マハラノビス距離算出用パラメータ情報を用いて、例えば、パターン認識や、多変量解析の一つである判別分析などを効率よく行うことができる。

また、請求項３に記載の有効因子情報選択装置は、請求項１または２に記載の有効因子情報選択装置において、上記因子情報は遺伝子の発現に関する遺伝子発現情報であることを特徴とする。

この装置によれば、因子情報は遺伝子の発現に関する遺伝子発現情報であるので、ＤＮＡ発現解析を行うための有効な遺伝子情報の選択を短時間かつ効果的に行うことができる。

また、この装置によれば、ＤＮＡマイクロアレイで得られた遺伝子発現情報に基づいて、例えば、特定の疾病に関連する遺伝子群や、薬効に関連する遺伝子群などの同定を容易に行うことができる。

また、この装置によれば、同定された遺伝子を使って、例えば、治療方法や薬剤などの選択を容易に行うことができる。

また、本発明は有効因子情報選択方法に関するものであり、請求項４に記載の有効因子情報選択方法は、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法において、上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された２つの上記標本属性情報のうちの１つの上記標本属性情報を持つ上記標本情報の群である第１標本情報群、および、他の１つの上記標本属性情報を持つ上記標本情報の群である第２標本情報群を選択する標本情報群選択ステップと、上記標本情報群選択ステップにて選択された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出ステップと、上記平均情報・標準偏差情報算出ステップにて算出された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式１から判定式４（判定式において、ｎは正の実数である。）のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された２つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択ステップとを含むことを特徴とする。

「第２標本情報群における因子情報の平均情報」＋ｎ×「第２標本情報群における因子情報の標準偏差情報」＜「第１標本情報群における因子情報の平均情報」・・・（判定式１）

「第２標本情報群における因子情報の平均情報」−ｎ×「第２標本情報群における因子情報の標準偏差情報」＞「第１標本情報群における因子情報の平均情報」・・・（判定式２）

「第１標本情報群における因子情報の平均情報」＋ｎ×「第１標本情報群における因子情報の標準偏差情報」＜「第２標本情報群における因子情報の平均情報」・・・（判定式３）

「第１標本情報群における因子情報の平均情報」−ｎ×「第１標本情報群における因子情報の標準偏差情報」＞「第２標本情報群における因子情報の平均情報」・・・（判定式４）

この方法によれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された２つの標本属性情報のうちの１つの標本属性情報を持つ標本情報の群である第１標本情報群、および、他の１つの標本属性情報を持つ標本情報の群である第２標本情報群を選択し、選択された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出し、算出された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、群間の乖離を判定する判定式１から判定式４（判定式において、ｎは分布（バラツキ）の幅を表す数値であり、正の実数である。）のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された２つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択するので、基本統計量（平均、標準偏差など）を用いて、因子情報の分布が群間で明確に異なる因子情報を、多変量解析やパターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。

また、この方法によれば、標本情報において同一の属性を持つ標本情報群が２つある場合（例えば、薬剤投与効果の有るグループと、無いグループの２つの標本情報群がある場合など）には、対象となる機能をもつ標本情報群（例えば、薬剤投与効果が有るグループ）とそれ以外の標本情報群（例えば、薬剤投与効果が無いグループ）を選択して、２つの標本情報群間において因子情報の分布の明らかな違いを示す有効な因子情報を選択することができる。

また、この方法によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に２つの標本情報群を選択して、任意の２つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間において因子情報の分布の明らかな違いを示す、不特定多数の集団から特定の群を判別させるために有効な因子情報を選択することができる。

また、本発明に記載の有効因子情報選択方法は、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法において、上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された２つの上記標本属性情報のうちの１つの上記標本属性情報を持つ上記標本情報の群である第１標本情報群、および、他の１つの上記標本属性情報を持つ上記標本情報の群である第２標本情報群を選択する標本情報群選択ステップと、上記標本情報群選択ステップにて選択された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報について、分散共分散行列情報または相関行列情報を算出する分散共分散行列情報・相関行列情報算出ステップと、上記分散共分散行列情報・相関行列情報算出ステップにて算出された上記第１標本情報群および上記第２標本情報群の上記分散共分散行列情報または上記相関行列情報の各行列成分情報の差に基づいて、上記有効な上記因子情報を選択する分散共分散行列情報・相関行列情報基準有効因子情報選択ステップとを含むことを特徴とする。

この方法によれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された２つの標本属性情報のうちの１つの標本属性情報を持つ標本情報の群である第１標本情報群、および、他の１つの標本属性情報を持つ標本情報の群である第２標本情報群を選択し、選択された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出し、算出された第１標本情報群および第２標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択するので、群間で因子情報間の分散、共分散、相関等の性質が明らかに異なる因子情報を、多変量解析、および、パターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。

また、この方法によれば、標本情報において同一の属性を持つ標本情報群が２つある場合（例えば、薬剤投与効果の有るグループと、無いグループの２つの標本情報群がある場合など）には、対象となる機能をもつ標本情報群（例えば、薬剤投与効果が有るグループ）とそれ以外の標本情報群（例えば、薬剤投与効果が無いグループ）を選択して、２つの標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大きさを数値化することにより、有効な因子情報を選択することができる。

また、この方法によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に２つの標本情報群を選択して、任意の２つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大小に基づいて、有効な因子情報を選択することができる。

また、本発明に記載の有効因子情報選択方法は、上記に記載の有効因子情報選択方法において、上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報について、変動係数情報を算出する変動係数情報算出ステップと、上記変動係数情報算出ステップにて算出された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報の上記変動係数情報に基づいて、上記有効な上記因子情報を選択する変動係数情報基準有効因子情報選択ステップとをさらに含むことを特徴とする。

この方法によれば、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、算出された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択するので、変動係数情報に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、各因子情報の変動係数情報に基づいてより詳細に選択することができる。

すなわち、データの分析において最も重要なことの１つは分析の元となる因子の測定精度である。この測定精度が悪い場合、つまり、当該因子のバラツキが大きい場合は、正確な分析ができなくなる。この方法はこの点に着目し、各群の因子毎にＣＶ値（変動係数）を算出し、変動の少ない、つまり、変動係数の小さい因子情報を有効な因子情報として選択する。また、この方法によるＣＶ値による探索や、棄却検定など他の手法を適宜組み合わせることにより、より効果的な因子選択を行うことが可能となる。

また、この方法によれば、因子情報の取りうる値の幅が狭い、つまり、測定精度の高い因子情報を、各因子情報の変動係数情報に基づいてより有効な因子情報として短時間かつ効果的に選択することができる。

また、本発明に記載の有効因子情報選択方法は、上記に記載の有効因子情報選択方法において、上記第１標本情報群および上記第２標本情報群に含まれる各上記因子情報に対して棄却検定を実行する棄却検定実行ステップと、上記棄却検定実行ステップにて実行された上記第１標本情報群および上記第２標本情報群に含まれる各上記因子情報に対する上記棄却検定の検定値に基づいて、上記有効な上記因子情報を選択する棄却検定値基準有効因子情報選択ステップとをさらに含むことを特徴とする。

この方法によれば、第１標本情報群および第２標本情報群に含まれる各因子情報に対して棄却検定を実行し、実行された第１標本情報群および第２標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択するので、棄却検定の検定値に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、群間の有意差を検定する周知手法である棄却検定の検定値に基づいてより詳細に選択することができる。

また、請求項５に記載の有効因子情報選択方法は、請求項４に記載の有効因子情報選択方法において、上記第１標本情報群および上記第２標本情報群の上記標本情報ごとに、任意に選択された２つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出ステップと、上記特徴化パラメータ情報算出ステップにて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択ステップとをさらに含むことを特徴とする。

この方法によれば、第１標本情報群および第２標本情報群の標本情報ごとに、任意に選択された２つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、算出された特徴化パラメータ情報に基づいて、有効な因子情報を選択するので、特徴化パラメータ情報による有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、特徴化パラメータ情報に基づいて（例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて）より詳細に選択することができる。

すなわち、一般に多変量解析やパターン認識に用いる因子が取る値の分布が明確に異なる場合は良好な解析結果を得やすいが、逆に、群間において因子が取る値の分布が似ている場合は当該因子から有意差を検出することができず、良好な解析結果を得ることができない場合がある。そこで、この方法では、有意差を検出することのできない因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択する。

また、相関関係の強い因子同士であっても因子が取る値の変動幅が大きい場合、分散も大きくなり、揺らぎの大きい因子となってしまうため、解析や判別において良い結果を得られない場合がある。そこで、この方法は、当該揺らぎの大きい因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択することができる。

つまり、この方法によれば、因子情報が取りうる値の分布が似ている因子情報同士の場合、または、因子情報が取りうる値の変動幅が大きく、相関関係の強い因子情報同士の場合には、特徴化パラメータ情報を算出しその複数の因子間の差や比を求めることにより、有効な因子情報を短時間かつ効果的に選択することができる。

また、本発明に記載の有効因子情報選択方法は、上記に記載の有効因子情報選択方法において、上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報、ならびに、上記第１標本情報群および上記第２標本情報群のそれぞれにおける上記分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するマハラノビス距離算出用パラメータ情報算出ステップをさらに含むことを特徴とする。

この方法によれば、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第１標本情報群および第２標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するので、当該マハラノビス距離算出用パラメータ情報を用いて、例えば、パターン認識や、多変量解析の一つである判別分析などを効率よく行うことができる。

また、請求項６に記載の有効因子情報選択方法は、請求項４または５に記載の有効因子情報選択方法において、上記因子情報は遺伝子の発現に関する遺伝子発現情報であることを特徴とする。

この方法によれば、因子情報は遺伝子の発現に関する遺伝子発現情報であるので、ＤＮＡ発現解析を行うための有効な遺伝子情報の選択を短時間かつ効果的に行うことができる。

また、この方法によれば、ＤＮＡマイクロアレイで得られた遺伝子発現情報に基づいて、例えば、特定の疾病に関連する遺伝子群や、薬効に関連する遺伝子群などの同定を容易に行うことができる。

また、この方法によれば、同定された遺伝子を使って、例えば、治療方法や薬剤などの選択を容易に行うことができる。

また、本発明はプログラムに関するものであり、請求項７に記載の有効因子情報選択方法をコンピュータに実行させることを特徴とするプログラムは、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法をコンピュータに実行させるプログラムにおいて、上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された２つの上記標本属性情報のうちの１つの上記標本属性情報を持つ上記標本情報の群である第１標本情報群、および、他の１つの上記標本属性情報を持つ上記標本情報の群である第２標本情報群を選択する標本情報群選択ステップと、上記標本情報群選択ステップにて選択された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出ステップと、上記平均情報・標準偏差情報算出ステップにて算出された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式１から判定式４（判定式において、ｎは正の実数である。）のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された２つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択ステップとを含むことを特徴とする。

「第２標本情報群における因子情報の平均情報」＋ｎ×「第２標本情報群における因子情報の標準偏差情報」＜「第１標本情報群における因子情報の平均情報」・・・（判定式１）

「第２標本情報群における因子情報の平均情報」−ｎ×「第２標本情報群における因子情報の標準偏差情報」＞「第１標本情報群における因子情報の平均情報」・・・（判定式２）

「第１標本情報群における因子情報の平均情報」＋ｎ×「第１標本情報群における因子情報の標準偏差情報」＜「第２標本情報群における因子情報の平均情報」・・・（判定式３）

「第１標本情報群における因子情報の平均情報」−ｎ×「第１標本情報群における因子情報の標準偏差情報」＞「第２標本情報群における因子情報の平均情報」・・・（判定式４）

このプログラムによれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された２つの標本属性情報のうちの１つの標本属性情報を持つ標本情報の群である第１標本情報群、および、他の１つの標本属性情報を持つ標本情報の群である第２標本情報群を選択し、選択された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出し、算出された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、群間の乖離を判定する判定式１から判定式４（判定式において、ｎは分布（バラツキ）の幅を表す数値であり、正の実数である。）のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された２つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択するので、基本統計量（平均、標準偏差など）を用いて、因子情報の分布が群間で明確に異なる因子情報を、多変量解析やパターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。

また、このプログラムによれば、標本情報において同一の属性を持つ標本情報群が２つある場合（例えば、薬剤投与効果の有るグループと、無いグループの２つの標本情報群がある場合など）には、対象となる機能をもつ標本情報群（例えば、薬剤投与効果が有るグループ）とそれ以外の標本情報群（例えば、薬剤投与効果が無いグループ）を選択して、２つの標本情報群間において因子情報の分布の明らかな違いを示す有効な因子情報を選択することができる。

また、このプログラムによれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に２つの標本情報群を選択して、任意の２つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間において因子情報の分布の明らかな違いを示す、不特定多数の集団から特定の群を判別させるために有効な因子情報を選択することができる。

また、本発明に記載のプログラムは、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法をコンピュータに実行させるプログラムにおいて、上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された２つの上記標本属性情報のうちの１つの上記標本属性情報を持つ上記標本情報の群である第１標本情報群、および、他の１つの上記標本属性情報を持つ上記標本情報の群である第２標本情報群を選択する標本情報群選択ステップと、上記標本情報群選択ステップにて選択された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報について、分散共分散行列情報または相関行列情報を算出する分散共分散行列情報・相関行列情報算出ステップと、上記分散共分散行列情報・相関行列情報算出ステップにて算出された上記第１標本情報群および上記第２標本情報群の上記分散共分散行列情報または上記相関行列情報の各行列成分情報の差に基づいて、上記有効な上記因子情報を選択する分散共分散行列情報・相関行列情報基準有効因子情報選択ステップとを含むことを特徴とする。

このプログラムによれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された２つの標本属性情報のうちの１つの標本属性情報を持つ標本情報の群である第１標本情報群、および、他の１つの標本属性情報を持つ標本情報の群である第２標本情報群を選択し、選択された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出し、算出された第１標本情報群および第２標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択するので、群間で因子情報間の分散、共分散、相関等の性質が明らかに異なる因子情報を、多変量解析、および、パターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。

また、このプログラムによれば、標本情報において同一の属性を持つ標本情報群が２つある場合（例えば、薬剤投与効果の有るグループと、無いグループの２つの標本情報群がある場合など）には、対象となる機能をもつ標本情報群（例えば、薬剤投与効果が有るグループ）とそれ以外の標本情報群（例えば、薬剤投与効果が無いグループ）を選択して、２つの標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大きさを数値化することにより、有効な因子情報を選択することができる。

また、このプログラムによれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に２つの標本情報群を選択して、任意の２つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大小に基づいて、有効な因子情報を選択することができる。

また、本発明に記載のプログラムは、上記に記載のプログラムにおいて、上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報について、変動係数情報を算出する変動係数情報算出ステップと、上記変動係数情報算出ステップにて算出された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報の上記変動係数情報に基づいて、上記有効な上記因子情報を選択する変動係数情報基準有効因子情報選択ステップとをさらに含むことを特徴とする。

このプログラムによれば、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、算出された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択するので、変動係数情報に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、各因子情報の変動係数情報に基づいてより詳細に選択することができる。

すなわち、データの分析において最も重要なことの１つは分析の元となる因子の測定精度である。この測定精度が悪い場合、つまり、当該因子のバラツキが大きい場合は、正確な分析ができなくなる。このプログラムはこの点に着目し、各群の因子毎にＣＶ値（変動係数）を算出し、変動の少ない、つまり、変動係数の小さい因子情報を有効な因子情報として選択する。また、このプログラムによるＣＶ値による探索や、棄却検定など他の手法を適宜組み合わせることにより、より効果的な因子選択を行うことが可能となる。

また、このプログラムによれば、因子情報の取りうる値の幅が狭い、つまり、測定精度の高い因子情報を、各因子情報の変動係数情報に基づいてより有効な因子情報として短時間かつ効果的に選択することができる。

また、本発明に記載のプログラムは、上記に記載のプログラムにおいて、上記第１標本情報群および上記第２標本情報群に含まれる各上記因子情報に対して棄却検定を実行する棄却検定実行ステップと、上記棄却検定実行ステップにて実行された上記第１標本情報群および上記第２標本情報群に含まれる各上記因子情報に対する上記棄却検定の検定値に基づいて、上記有効な上記因子情報を選択する棄却検定値基準有効因子情報選択ステップとをさらに含むことを特徴とする。

このプログラムによれば、第１標本情報群および第２標本情報群に含まれる各因子情報に対して棄却検定を実行し、実行された第１標本情報群および第２標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択するので、棄却検定の検定値に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、群間の有意差を検定する周知手法である棄却検定の検定値に基づいてより詳細に選択することができる。

また、請求項８に記載のプログラムは、請求項７に記載のプログラムにおいて、上記第１標本情報群および上記第２標本情報群の上記標本情報ごとに、任意に選択された２つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出ステップと、上記特徴化パラメータ情報算出ステップにて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択ステップとをさらに含むことを特徴とする。

このプログラムによれば、第１標本情報群および第２標本情報群の標本情報ごとに、任意に選択された２つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、算出された特徴化パラメータ情報に基づいて、有効な因子情報を選択するので、特徴化パラメータ情報による有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、特徴化パラメータ情報に基づいて（例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて）より詳細に選択することができる。

すなわち、一般に多変量解析やパターン認識に用いる因子が取る値の分布が明確に異なる場合は良好な解析結果を得やすいが、逆に、群間において因子が取る値の分布が似ている場合は当該因子から有意差を検出することができず、良好な解析結果を得ることができない場合がある。そこで、このプログラムでは、有意差を検出することのできない因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択する。

また、相関関係の強い因子同士であっても因子が取る値の変動幅が大きい場合、分散も大きくなり、揺らぎの大きい因子となってしまうため、解析や判別において良い結果を得られない場合がある。そこで、このプログラムは、当該揺らぎの大きい因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択することができる。

つまり、このプログラムによれば、因子情報が取りうる値の分布が似ている因子情報同士の場合、または、因子情報が取りうる値の変動幅が大きく、相関関係の強い因子情報同士の場合には、特徴化パラメータ情報を算出しその複数の因子間の差や比を求めることにより、有効な因子情報を短時間かつ効果的に選択することができる。

また、本発明に記載のプログラムは、上記に記載のプログラムにおいて、上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報、ならびに、上記第１標本情報群および上記第２標本情報群のそれぞれにおける上記分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するマハラノビス距離算出用パラメータ情報算出ステップをさらに含むことを特徴とする。

このプログラムによれば、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第１標本情報群および第２標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するので、当該マハラノビス距離算出用パラメータ情報を用いて、例えば、パターン認識や、多変量解析の一つである判別分析などを効率よく行うことができる。

また、請求項９に記載のプログラムは、請求項７または８に記載のプログラムにおいて、上記因子情報は遺伝子の発現に関する遺伝子発現情報であることを特徴とする。

このプログラムによれば、因子情報は遺伝子の発現に関する遺伝子発現情報であるので、ＤＮＡ発現解析を行うための有効な遺伝子情報の選択を短時間かつ効果的に行うことができる。

また、このプログラムによれば、ＤＮＡマイクロアレイで得られた遺伝子発現情報に基づいて、例えば、特定の疾病に関連する遺伝子群や、薬効に関連する遺伝子群などの同定を容易に行うことができる。

また、このプログラムによれば、同定された遺伝子を使って、例えば、治療プログラムや薬剤などの選択を容易に行うことができる。

また、本発明は記録媒体に関するものであり、請求項１０に記載の記録媒体は、上記請求項７から９のいずれか一つに記載されたプログラムを記録したことを特徴とする。

この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、請求項７から９のいずれか一つに記載されたプログラムをコンピュータを利用して実現することができ、これら各方法と同様の効果を得ることができる。

本発明によれば、基本統計量（平均、標準偏差など）を用いて、因子情報の分布が群間で明確に異なる因子情報を、多変量解析やパターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、標本情報において同一の属性を持つ標本情報群が２つある場合（例えば、薬剤投与効果の有るグループと、無いグループの２つの標本情報群がある場合など）には、対象となる機能をもつ標本情報群（例えば、薬剤投与効果が有るグループ）とそれ以外の標本情報群（例えば、薬剤投与効果が無いグループ）を選択して、２つの標本情報群間において因子情報の分布の明らかな違いを示す有効な因子情報を選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に２つの標本情報群を選択して、任意の２つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間において因子情報の分布の明らかな違いを示す、不特定多数の集団から特定の群を判別させるために有効な因子情報を選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、群間で因子情報間の分散、共分散、相関等の性質が明らかに異なる因子情報を、多変量解析、および、パターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、標本情報において同一の属性を持つ標本情報群が２つある場合（例えば、薬剤投与効果の有るグループと、無いグループの２つの標本情報群がある場合など）には、対象となる機能をもつ標本情報群（例えば、薬剤投与効果が有るグループ）とそれ以外の標本情報群（例えば、薬剤投与効果が無いグループ）を選択して、２つの標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大きさを数値化することにより、有効な因子情報を選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に２つの標本情報群を選択して、任意の２つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大小に基づいて、有効な因子情報を選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、変動係数情報に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、各因子情報の変動係数情報に基づいてより詳細に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

すなわち、データの分析において最も重要なことの１つは分析の元となる因子の測定精度である。この測定精度が悪い場合、つまり、当該因子のバラツキが大きい場合は、正確な分析ができなくなる。この発明はこの点に着目し、各群の因子毎にＣＶ値（変動係数）を算出し、変動の少ない、つまり、変動係数の小さい因子情報を有効な因子情報として選択する。また、この発明によるＣＶ値による探索や、棄却検定など他の手法を適宜組み合わせることにより、より効果的な因子選択を行うことが可能となる。

また、本発明によれば、因子情報の取りうる値の幅が狭い、つまり、測定精度の高い因子情報を、各因子情報の変動係数情報に基づいてより有効な因子情報として短時間かつ効果的に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、棄却検定の検定値に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、群間の有意差を検定する周知手法である棄却検定の検定値に基づいてより詳細に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、特徴化パラメータ情報による有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、特徴化パラメータ情報に基づいて（例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて）より詳細に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

すなわち、一般に多変量解析やパターン認識に用いる因子が取る値の分布が明確に異なる場合は良好な解析結果を得やすいが、逆に、群間において因子が取る値の分布が似ている場合は当該因子から有意差を検出することができず、良好な解析結果を得ることができない場合がある。そこで、この発明では、有意差を検出することのできない因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択する。

また、相関関係の強い因子同士であっても因子が取る値の変動幅が大きい場合、分散も大きくなり、揺らぎの大きい因子となってしまうため、解析や判別において良い結果を得られない場合がある。そこで、この発明は、当該揺らぎの大きい因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択することができる。

つまり、本発明によれば、因子情報が取りうる値の分布が似ている因子情報同士の場合、または、因子情報が取りうる値の変動幅が大きく、相関関係の強い因子情報同士の場合には、特徴化パラメータ情報を算出しその複数の因子間の差や比を求めることにより、有効な因子情報を短時間かつ効果的に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、当該マハラノビス距離算出用パラメータ情報を用いて、例えば、パターン認識や、多変量解析の一つである判別分析などを効率よく行うことができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、ＤＮＡ発現解析を行うための有効な遺伝子情報の選択を短時間かつ効果的に行うことができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、ＤＮＡマイクロアレイで得られた遺伝子発現情報に基づいて、例えば、特定の疾病に関連する遺伝子群や、薬効に関連する遺伝子群などの同定を容易に行うことができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

さらに、本発明によれば、同定された遺伝子を使って、例えば、治療プログラムや薬剤などの選択を容易に行うことができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

以下に、本発明にかかる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。

［本発明の概要］
以下、本発明の概要について図１および図２を用いて説明し、その後、本発明の構成および処理等について詳細に説明する。図１は本発明の第１の基本原理を示す原理構成図である。

まず、標本を一意に識別するための標本識別情報（例えば、標本番号や標本名など）、標本の属性を示す標本属性情報（例えば、疾患の名称、疾患の治療効果（例えば、インターフェロン投与効果の有無など）など）、および、複数の因子情報（例えば、各遺伝子の発現量に関する情報など）を含む標本情報の集合である標本情報集合（例えば、ＤＮＡマイクロアレイにより取得された発現情報データ集合など）を取得する（ステップＳ１−１）。

ついで、ステップＳ１−１にて取得された標本情報集合から、任意に選択された２つの標本属性情報のうちの１つの標本属性情報を持つ標本情報の群である第１標本情報群および他の１つの標本属性情報を持つ標本情報の群である第２標本情報群を選択する（ステップＳ１−２）。なお、図１に示す例においては、標本属性情報が、インターフェロン投与効果に関して“無効”の属性を持つ標本情報の群を第１標本情報群として選択し、また、標本属性情報が“著効”の属性を持つ標本情報の群を第２標本情報群として選択している。

ここで、選択された第１標本情報群および第２標本情報群に含まれる因子情報の中に、数値情報でない、定性的な情報である因子情報が含まれている場合、当該定性的な情報である因子情報を既存の数量化手法（例えば、数量化I類、数量化II類、数量化III類、数量
化IV類など）に基づいて数値化してもよい。

ついで、ステップＳ１−２にて選択された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出する（ステップＳ１−３）。

さらに、ステップＳ１−３にて算出された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、下記に示す、群間の乖離を判定する判定式１から判定式４（判定式において、ｎは分布（バラツキ）の幅を表す数値であり、正の実数である。）のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された２つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択する（ステップＳ１−４）。

「第２標本情報群における因子情報の平均情報」＋ｎ×「第２標本情報群における因子情報の標準偏差情報」＜「第１標本情報群における因子情報の平均情報」・・・（判定式１）

「第２標本情報群における因子情報の平均情報」−ｎ×「第２標本情報群における因子情報の標準偏差情報」＞「第１標本情報群における因子情報の平均情報」・・・（判定式２）

「第１標本情報群における因子情報の平均情報」＋ｎ×「第１標本情報群における因子情報の標準偏差情報」＜「第２標本情報群における因子情報の平均情報」・・・（判定式３）

「第１標本情報群における因子情報の平均情報」−ｎ×「第１標本情報群における因子情報の標準偏差情報」＞「第２標本情報群における因子情報の平均情報」・・・（判定式４）

これにより、図１に示す例においては、任意に選択された２つの標本属性情報（”無効”と”著効”）について、多変量解析またはパターン認識を行う際に有効な因子情報（遺伝子１の発現量、遺伝子３の発現量など）を選択することができる。

つぎに、本発明の第２の基本原理について、図２を参照して説明する。図２は本発明の第２の基本原理を示す原理構成図である。

まず、標本を一意に識別するための標本識別情報（例えば、標本番号や標本名など）、標本の属性を示す標本属性情報（例えば、疾患の名称、疾患の治療効果（例えば、インターフェロン投与効果の有無など）など）、および、複数の因子情報（例えば、各遺伝子の発現量に関する情報など）を含む標本情報の集合である標本情報集合（例えば、ＤＮＡマイクロアレイにより取得された発現情報データ集合など）を取得する（ステップＳ２−１）。

ついで、ステップＳ２−１にて取得された標本情報集合から、任意に選択された２つの標本属性情報のうちの１つの標本属性情報を持つ標本情報の群である第１標本情報群および他の１つの標本属性情報を持つ標本情報の群である第２標本情報群を選択する（ステップＳ２−２）。なお、図２に示す例においては、標本属性情報が、インターフェロン投与効果に関して“無効”の属性を持つ標本情報の群を第１標本情報群として選択し、また、標本属性情報が“著効”の属性を持つ標本情報の群を第２標本情報群として選択している。

ついで、ステップＳ２−２にて第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出する（ステップＳ２−３）。なお、図２に示す例においては、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、相関行列情報を算出した結果を示している。

さらに、ステップＳ２−３にて算出された第１標本情報群および第２標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択する（例えば、当該差を２で割った値が設定された値（例えば、±０．５など）以上である因子情報を有効な因子情報として選択する）（ステップＳ２−４）。

これにより、図２に示す例においては、任意に選択された２つの標本属性情報（”無効”と”著効”）について、多変量解析またはパターン認識を行う際に有効な因子情報（遺伝子１の発現量、遺伝子３の発現量など）を選択することができる。

ここで、上述したステップＳ１−３およびステップＳ１−４に示す有効な因子情報を選択する手法、ならびに、ステップＳ２−３およびステップＳ２−４に示す有効な因子情報を選択する手法と、以下の（１）〜（３）に示す各有効な因子情報を選択する手法とを任意に組み合わせて、有効な因子情報を選択してもよい。

（１）第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、算出された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択する（例えば、両群の変動係数情報が設定された値（例えば、０．１など）未満である因子情報を有効な因子情報として選択する）。

（２）第１標本情報群および第２標本情報群に含まれる各因子情報に対して棄却検定（例えば、Ｆ検定、Ｔ検定などの群間の差を検定する手法）を実行し、実行された第１標本情報群および第２標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択する（例えば、棄却検定の検定値が設定された有意水準（例えば０．０５など）未満である因子情報を有効な因子情報として選択する）。

（３）第１標本情報群および第２標本情報群の標本情報ごとに、任意に選択された２つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、算出された特徴化パラメータ情報に基づいて（例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて）、有効な因子情報を選択する。

また、上述した本発明の第１の基本原理および第２の基本原理において、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第１標本情報群および第２標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出してもよい。

ここで、上述した本発明の第１の基本原理および第２の基本原理においては、因子情報を遺伝子の発現に関する情報（遺伝子発現情報）とした場合を一例として説明した。これにより、本発明は、ＤＮＡマイクロアレイなどにより取得した複数の遺伝子発現情報からＤＮＡ発現解析に有効な遺伝子情報を選択することができる。また、因子情報はこの場合に限定されるものではなく、本発明はあらゆる分野の因子の選択に適用することができる。

また、本発明により選択された有効な因子情報を含む標本情報に基づいて、例えば、閾値による認識、ファジー推論、ニューラルネットワーク、ＭＴシステムなどの既存のパターン認識を行うことにより、精度の高い認識を実現させることができる。

また、本発明により選択された有効な因子情報を含む標本情報に基づいて、例えば、ＤＮＡマイクロアレイで得られた遺伝子発現情報をもとに特定の疾病に関連する因子（遺伝子）群を同定したり、薬効に関連する因子（遺伝子）群を同定したりすることが容易に行うことができる。

また、同定された遺伝子群を使って、例えば、治療方法の選択、薬剤の選択などを行うことができる。

また、本発明により、目的とする群が２つの場合（例えば、薬剤投与効果がある群とない群）は、対象となる機能（例えば、薬剤投与効果あり）を持つ群とそれ以外の群に分けることができ、群間において有効な因子情報（遺伝子発現情報）を選択することができる。

また、本発明により、標本情報集合を複数の群に分割して、各群間において、違いを示す因子情報（遺伝子発現情報）を抽出することができる。

［システム構成］
まず、本システムの構成について説明する。図２４は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。本システムは、概略的に、有効因子情報選択装置１００と、配列情報や発現情報等に関する外部データベースやホモロジー検索等の外部プログラム等を提供する外部システム２００とを、ネットワーク３００を介して通信可能に接続して構成されている。

図２４においてネットワーク３００は、有効因子情報選択装置１００と外部システム２００とを相互に接続する機能を有し、例えば、インターネット等である。

図２４において外部システム２００は、ネットワーク３００を介して、有効因子情報選択装置１００と相互に接続され、利用者に対して配列情報や発現情報等に関する外部データベースやホモロジー検索やモチーフ検索等の外部プログラムを実行するウェブサイトを提供する機能を有する。

ここで、外部システム２００は、ＷＥＢサーバやＡＳＰサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム２００の各機能は、外部システム２００のハードウェア構成中のＣＰＵ、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。

図２４において有効因子情報選択装置１００は、概略的に、有効因子情報選択装置１００の全体を統括的に制御するＣＰＵ等の制御部１０２、通信回線等に接続されるルータ等の通信装置（図示せず）に接続される通信制御インターフェース部１０４、入力装置１１２や出力装置１１４に接続される入出力制御インターフェース部１０８、および、各種のデータベースやテーブルなどを格納する記憶部１０６を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、この有効因子情報選択装置１００は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク３００に通信可能に接続されている。

記憶部１０６に格納される各種のデータベースやテーブル（標本情報集合ファイル１０６ａ〜マハラノビス距離算出用パラメータ情報ファイル１０６ｉ）は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。

これら記憶部１０６の各構成要素のうち、標本情報集合ファイル１０６ａは、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を格納する標本情報集合格納手段である。ここで、標本情報集合ファイル１０６ａに格納される情報について図２５を参照して説明する。図２５は、本実施形態における標本情報集合ファイル１０６ａに格納される情報の一例を示す図である。

図２５に示すように、この標本情報集合ファイル１０６ａに格納される情報は、標本識別情報と、複数の因子情報（図２５に示す、因子情報１、因子情報２、因子情報３など）と、標本属性情報とを相互に関連付けて構成されている。

また、標本情報群ファイル１０６ｂは、任意に選択された２つの標本属性情報のうちの１つの標本属性情報を持つ標本情報の群である第１標本情報群、および、他の１つの標本属性情報を持つ標本情報の群である第２標本情報群を格納する標本情報群格納手段である。ここで、標本情報群ファイル１０６ｂに格納される情報について図２６を参照して説明する。図２６は、本実施形態における標本情報群ファイル１０６ｂに格納される情報の一例を示す図である。

図２６に示すように、この標本情報群ファイル１０６ｂに格納される情報は、第１標本情報群および第２標本情報群について、標本識別情報と、複数の因子情報（図２６に示す、因子情報１、因子情報２、因子情報３など）と、標本属性情報とを相互に関連付けて構成されている。

また、平均情報・標準偏差情報ファイル１０６ｃは、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報を格納する平均情報・標準偏差情報格納手段である。ここで、平均情報・標準偏差情報ファイル１０６ｃに格納される情報について図２７を参照して説明する。図２７は、本実施形態における平均情報・標準偏差情報ファイル１０６ｃに格納される情報の一例を示す図である。

図２７に示すように、この平均情報・標準偏差情報ファイル１０６ｃに格納される情報は、第１標本情報群および第２標本情報群について、複数の因子情報（図２７に示す、因子情報１、因子情報２、因子情報３など）の平均情報と標準偏差情報とを相互に関連付けて構成されている。

また、分散共分散行列情報・相関行列情報ファイル１０６ｄは、第１標本情報群および第２標本情報群の分散共分散行列情報または相関行列情報を格納する分散共分散行列情報・相関行列情報格納手段である。ここで、分散共分散行列情報・相関行列情報ファイル１０６ｄに格納される情報について図２８を参照して説明する。図２８は、本実施形態における分散共分散行列情報・相関行列情報ファイル１０６ｄに格納される情報の一例を示す図である。

図２８に示すように、この分散共分散行列情報・相関行列情報ファイル１０６ｄに格納される情報は、第１標本情報群および第２標本情報群について、複数の因子情報（図２８に示す、因子情報１、因子情報２、因子情報３など）間の分散・共分散または相関係数を相互に関連付けて構成されている。

また、変動係数情報ファイル１０６ｅは、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の変動係数情報を格納する変動係数情報格納手段である。ここで、変動係数情報ファイル１０６ｅに格納される情報について図２９を参照して説明する。図２９は、本実施形態における変動係数情報ファイル１０６ｅに格納される情報の一例を示す図である。

図２９に示すように、この変動係数情報ファイル１０６ｅに格納される情報は、第１標本情報群および第２標本情報群について、複数の因子情報（図２９に示す、因子情報１、因子情報２、因子情報３など）の変動係数情報を相互に関連付けて構成されている。

また、棄却検定値ファイル１０６ｆは、第１標本情報群および第２標本情報群に含まれる各因子情報に対する、後述する棄却検定実行手段にて実行された棄却検定の検定値を格納する棄却検定値格納手段である。ここで、棄却検定値ファイル１０６ｆに格納される情報について図３０を参照して説明する。図３０は、本実施形態における棄却検定値ファイル１０６ｆに格納される情報の一例を示す図である。

図３０に示すように、この棄却検定値ファイル１０６ｆに格納される情報は、複数の因子情報（図３０に示す、因子情報１、因子情報２、因子情報３など）の棄却検定の検定値を相互に関連付けて構成されている。

また、特徴化パラメータ情報ファイル１０６ｇは、任意に選択された２つの有効な因子情報の差または比である特徴化パラメータ情報を格納する特徴化パラメータ情報格納手段である。ここで、特徴化パラメータ情報ファイル１０６ｇに格納される情報について図３１を参照して説明する。図３１は、本実施形態における特徴化パラメータ情報ファイル１０６ｇに格納される情報の一例を示す図である。

図３１に示すように、この特徴化パラメータ情報ファイル１０６ｇに格納される情報は、第１標本情報群および第２標本情報群について、標本識別情報と、特徴化パラメータ情報と、当該特徴化パラメータ情報が各因子情報間の差または比のいずれかであるかを示す計算式とを相互に関連付けて構成されている。

また、有効因子情報ファイル１０６ｈは、後述する平均情報・標準偏差情報基準有効因子情報選択手段、分散共分散行列情報・相関行列情報基準有効因子情報選択手段、変動係数情報基準有効因子情報選択手段、棄却検定値基準有効因子情報選択手段、特徴化パラメータ情報基準有効因子情報選択手段のうち少なくとも一つにて選択された有効な因子情報を格納する有効因子情報格納手段である。ここで、有効因子情報ファイル１０６ｈに格納される情報について図３２を参照して説明する。図３２は、本実施形態における有効因子情報ファイル１０６ｈに格納される情報の一例を示す図である。

図３２に示すように、この有効因子情報ファイル１０６ｈに格納される情報は、有効因子情報として選択された各因子情報（図３２に示す、因子情報１、因子情報３など）で構成されている。

また、マハラノビス距離算出用パラメータ情報ファイル１０６ｉは、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第１標本情報群および第２標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて算出されたマハラノビス距離算出用パラメータ情報を格納するマハラノビス距離算出用パラメータ情報格納手段である。ここで、マハラノビス距離算出用パラメータ情報ファイル１０６ｉに格納される情報について図３３を参照して説明する。図３３は、本実施形態におけるマハラノビス距離算出用パラメータ情報ファイル１０６ｉに格納される情報の一例を示す図である。

図３３に示すように、このマハラノビス距離算出用パラメータ情報ファイル１０６ｉに格納される情報は、第１標本情報群および第２標本情報群について、因子情報（図３２に示す、因子情報１、因子情報２など）間の分散・共分散と各因子情報の平均情報・標準偏差情報とを相互に関連付けて構成されている。

また、図２４において、通信制御インターフェース部１０４は、有効因子情報選択装置１００とネットワーク３００（またはルータ等の通信装置）との間における通信制御を行う。すなわち、通信制御インターフェース部１０４は、他の端末と通信回線を介してデータを通信する機能を有する。

また、図２４において、入出力制御インターフェース部１０８は、入力装置１１２や出力装置１１４の制御を行う。ここで、出力装置１１４としては、モニタ（家庭用テレビを含む）の他、スピーカを用いることができる（なお、以下においては出力装置１１４をモニタとして記載する場合がある）。また、入力装置１１２としては、キーボード、マウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。

また、図２４において、制御部１０２は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部１０２は、機能概念的に、標本情報集合取得部１０２ａ、標本情報群選択部１０２ｂ、平均情報・標準偏差情報算出部１０２ｃ、平均情報・標準偏差情報基準有効因子情報選択部１０２ｄ、分散共分散行列情報・相関行列情報算出部１０２ｅ、分散共分散行列情報・相関行列情報基準有効因子情報選択部１０２ｆ、変動係数情報算出部１０２ｇ、変動係数情報基準有効因子情報選択部１０２ｈ、棄却検定実行部１０２ｉ、棄却検定値基準有効因子情報選択部１０２ｊ、特徴化パラメータ情報算出部１０２ｋ、特徴化パラメータ情報基準有効因子情報選択部１０２ｍ、および、マハラノビス距離算出用パラメータ情報算出部１０２ｎを備えて構成されている。

このうち、標本情報集合取得部１０２ａは、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得する標本情報集合取得手段である。

また、標本情報群選択部１０２ｂは、標本情報集合から、任意に選択された２つの標本属性情報のうちの１つの標本属性情報を持つ標本情報の群である第１標本情報群、および、他の１つの標本属性情報を持つ標本情報の群である第２標本情報群を選択する標本情報群選択手段である。

また、平均情報・標準偏差情報算出部１０２ｃは、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出手段である。

また、平均情報・標準偏差情報基準有効因子情報選択部１０２ｄは、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、下記に示す、群間の乖離を判定する判定式１から判定式４（判定式において、ｎは分布（バラツキ）の幅を表す数値であり、正の実数である。）のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された２つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択手段である。

「第２標本情報群における因子情報の平均情報」＋ｎ×「第２標本情報群における因子情報の標準偏差情報」＜「第１標本情報群における因子情報の平均情報」・・・（判定式１）

「第２標本情報群における因子情報の平均情報」−ｎ×「第２標本情報群における因子情報の標準偏差情報」＞「第１標本情報群における因子情報の平均情報」・・・（判定式２）

「第１標本情報群における因子情報の平均情報」＋ｎ×「第１標本情報群における因子情報の標準偏差情報」＜「第２標本情報群における因子情報の平均情報」・・・（判定式３）

「第１標本情報群における因子情報の平均情報」−ｎ×「第１標本情報群における因子情報の標準偏差情報」＞「第２標本情報群における因子情報の平均情報」・・・（判定式４）

また、分散共分散行列情報・相関行列情報算出部１０２ｅは、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出する分散共分散行列情報・相関行列情報算出手段である。

また、分散共分散行列情報・相関行列情報基準有効因子情報選択部１０２ｆは、第１標本情報群および第２標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択する分散共分散行列情報・相関行列情報基準有効因子情報選択手段である。

また、変動係数情報算出部１０２ｇは、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出する変動係数情報算出手段である。

また、変動係数情報基準有効因子情報選択部１０２ｈは、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択する変動係数情報基準有効因子情報選択手段である。

また、棄却検定実行部１０２ｉは、第１標本情報群および第２標本情報群に含まれる各因子情報に対して棄却検定を実行する棄却検定実行手段である。

また、棄却検定値基準有効因子情報選択部１０２ｊは、第１標本情報群および第２標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択する棄却検定値基準有効因子情報選択手段である。

また、特徴化パラメータ情報算出部１０２ｋは、第１標本情報群および第２標本情報群の標本情報ごとに、任意に選択された２つの有効な因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出手段である。

また、特徴化パラメータ情報基準有効因子情報選択部１０２ｍは、特徴化パラメータ情報に基づいて、有効な因子情報を選択する特徴化パラメータ情報基準有効因子情報選択手段である。

また、マハラノビス距離算出用パラメータ情報算出部１０２ｎは、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第１標本情報群および第２標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するマハラノビス距離算出用パラメータ情報算出手段である。

なお、これら各部によって行なわれる処理の詳細については、後述する。

［システムの処理］
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に図３から図７等を参照して詳細に説明する。

まず、メイン処理の詳細について、図３等を参照して説明する。図３は、本実施形態における本システムのメイン処理の一例を示すフローチャートである。

まず、有効因子情報選択装置１００は、標本情報集合取得部１０２ａの処理により、標本を一意に識別するための標本識別情報（例えば、標本番号や標本名など）、標本の属性を示す標本属性情報（例えば、疾患の名称、疾患の治療効果（例えば、インターフェロン投与効果の有無など）など）、および、複数の因子情報（例えば、各遺伝子の発現量に関する情報など）を含む標本情報の集合である標本情報集合（例えば、ＤＮＡマイクロアレイにより取得された発現情報データ集合など）を取得し、標本情報集合ファイル１０６ａの所定の記憶領域に格納する（ステップＳＡ−１）。

ついで、有効因子情報選択装置１００は、標本情報群選択部１０２ｂの処理により、ステップＳＡ−１にて取得された標本情報集合から、任意に選択された２つの標本属性情報のうちの１つの標本属性情報を持つ標本情報の群である第１標本情報群および他の１つの標本属性情報を持つ標本情報の群である第２標本情報群を選択し、標本情報群ファイル１０６ｂの所定の記憶領域に格納する（ステップＳＡ−２）。

ここで、選択された第１標本情報群および第２標本情報群に含まれる因子情報の中に、数値情報でない、定性的な情報である因子情報が含まれている場合、有効因子情報選択装置１００は、制御部１０２の処理により、当該定性的な情報である因子情報を既存の数量化手法（例えば、数量化I類、数量化II類、数量化III類、数量化IV類など）に基づいて数
値化してもよい。

ついで、有効因子情報選択装置１００は、平均情報・標準偏差情報算出部１０２ｃの処理により、ステップＳＡ−２にて選択された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出し、平均情報・標準偏差情報ファイル１０６ｃの所定の記憶領域に格納する（ステップＳＡ−３）。

さらに、有効因子情報選択装置１００は、平均情報・標準偏差情報基準有効因子情報選択部１０２ｄの処理により、ステップＳＡ−３にて算出された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、下記に示す、群間の乖離を判定する判定式１から判定式４（判定式において、ｎは分布（バラツキ）の幅を表す数値であり、正の実数である。）のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された２つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択し、有効因子情報ファイル１０６ｈの所定の記憶領域に格納する（ステップＳＡ−４）。

「第２標本情報群における因子情報の平均情報」＋ｎ×「第２標本情報群における因子情報の標準偏差情報」＜「第１標本情報群における因子情報の平均情報」・・・（判定式１）

「第２標本情報群における因子情報の平均情報」−ｎ×「第２標本情報群における因子情報の標準偏差情報」＞「第１標本情報群における因子情報の平均情報」・・・（判定式２）

「第１標本情報群における因子情報の平均情報」＋ｎ×「第１標本情報群における因子情報の標準偏差情報」＜「第２標本情報群における因子情報の平均情報」・・・（判定式３）

「第１標本情報群における因子情報の平均情報」−ｎ×「第１標本情報群における因子情報の標準偏差情報」＞「第２標本情報群における因子情報の平均情報」・・・（判定式４）

ここで、上述したステップＳＡ−３およびステップＳＡ−４に示す有効な因子情報を選択する手法の代わりに、以下に示す有効な因子情報を選択する手法を用いて有効な因子情報を選択してもよい。

具体的には、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出し、算出された第１標本情報群および第２標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択してもよい（例えば、当該差を２で割った値が設定された値（例えば±０．５など）以上である因子情報を有効な因子情報として選択してもよい）（分散共分散行列情報・相関行列情報基準有効因子情報選択処理）。

ここで、分散共分散行列情報・相関行列情報算出部１０２ｅおよび分散共分散行列情報・相関行列情報基準有効因子情報選択部１０２ｆにて行われる分散共分散行列情報・相関行列情報基準有効因子情報選択処理について、図４を参照して詳細に説明する。図４は、本実施形態における本システムの分散共分散行列情報・相関行列情報基準有効因子情報選択処理の一例を示すフローチャートである。

まず、有効因子情報選択装置１００は、分散共分散行列情報・相関行列情報算出部１０２ｅの処理により、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出し、分散共分散行列情報・相関行列情報ファイル１０６ｄの所定の記憶領域に格納する（ステップＳＢ−１）。

ついで、有効因子情報選択装置１００は、分散共分散行列情報・相関行列情報基準有効因子情報選択部１０２ｆの処理により、ステップＳＢ−１にて算出された第１標本情報群および第２標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択し（例えば、当該差を２で割った値が設定された値（例えば±０．５など）以上である因子情報を有効な因子情報として選択し）、有効因子情報ファイル１０６ｈの所定の記憶領域に格納する（ステップＳＢ−２）。これにて、分散共分散行列情報・相関行列情報基準有効因子情報選択処理が終了する。

ここで、上述したステップＳＡ−３およびステップＳＡ−４に示す有効な因子情報を選択する手法、ならびに、ステップＳＢ−１およびステップＳＢ−２に示す有効な因子情報を選択する手法と、以下の（１）〜（３）に示す各有効な因子情報を選択する手法とを任意に組み合わせて、有効な因子情報を選択してもよい。

（１）第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、算出された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択する（例えば、両群の変動係数情報が設定された値（例えば０．１など）未満である因子情報を有効な因子情報として選択する）（変動係数情報基準有効因子情報選択処理）。

ここで、変動係数情報算出部１０２ｇおよび変動係数情報基準有効因子情報選択部１０２ｈにて行われる変動係数情報基準有効因子情報選択処理について、図５を参照して詳細に説明する。図５は、本実施形態における本システムの変動係数情報基準有効因子情報選択処理の一例を示すフローチャートである。

まず、有効因子情報選択装置１００は、変動係数情報算出部１０２ｇの処理により、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、変動係数情報ファイル１０６ｅの所定の記憶領域に格納する（ステップＳＣ−１）。

ついで、有効因子情報選択装置１００は、変動係数情報基準有効因子情報選択部１０２ｈの処理により、ステップＳＣ−１にて算出された第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択し（例えば、両群の変動係数情報が設定された値（例えば０．１など）未満である因子情報を有効な因子情報として選択し）、有効因子情報ファイル１０６ｈの所定の記憶領域に格納する（ステップＳＣ−２）。これにて、変動係数情報基準有効因子情報選択処理が終了する。

（２）第１標本情報群および第２標本情報群に含まれる各因子情報に対して棄却検定（例えば、Ｆ検定、Ｔ検定などの群間の差を検定する手法）を実行し、実行された第１標本情報群および第２標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択する（例えば、棄却検定の検定値が設定された有意水準（例えば０．０５など）未満である因子情報を有効な因子情報として選択する）（棄却検定値基準有効因子情報選択処理）。

ここで、棄却検定実行部１０２ｉおよび棄却検定値基準有効因子情報選択部１０２ｊにて行われる棄却検定値基準有効因子情報選択処理について、図６を参照して詳細に説明する。図６は、本実施形態における本システムの棄却検定値基準有効因子情報選択処理の一例を示すフローチャートである。

まず、有効因子情報選択装置１００は、棄却検定実行部１０２ｉの処理により、第１標本情報群および第２標本情報群に含まれる各因子情報に対して棄却検定（例えば、Ｆ検定、Ｔ検定などの群間の差を検定する手法）を実行し、実行された第１標本情報群および第２標本情報群における各因子情報に対する棄却検定の検定値を棄却検定値ファイル１０６ｆの所定の記憶領域に格納する（ステップＳＤ−１）。

ついで、有効因子情報選択装置１００は、棄却検定値基準有効因子情報選択部１０２ｊの処理により、ステップＳＤ−１にて実行された第１標本情報群および第２標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択し（例えば、棄却検定の検定値が設定された有意水準（例えば０．０５など）未満である因子情報を有効な因子情報として選択し）、有効因子情報ファイル１０６ｈの所定の記憶領域に格納する（ステップＳＤ−２）。これにて、棄却検定値基準有効因子情報選択処理が終了する。

（３）第１標本情報群および第２標本情報群の標本情報ごとに、任意に選択された２つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、算出された特徴化パラメータ情報に基づいて（例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて）、有効な因子情報を選択する（特徴化パラメータ情報基準有効因子情報選択処理）。

ここで、特徴化パラメータ情報算出部１０２ｋおよび特徴化パラメータ情報基準有効因子情報選択部１０２ｍにて行われる特徴化パラメータ情報基準有効因子情報選択処理について、図７を参照して詳細に説明する。図７は、本実施形態における本システムの特徴化パラメータ情報基準有効因子情報選択処理の一例を示すフローチャートである。

まず、有効因子情報選択装置１００は、特徴化パラメータ情報算出部１０２ｋの処理により、第１標本情報群および第２標本情報群の標本情報ごとに、任意に選択された２つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、特徴化パラメータ情報ファイル１０６ｇの所定の記憶領域に格納する（ステップＳＥ−１）。

ついで、有効因子情報選択装置１００は、特徴化パラメータ情報基準有効因子情報選択部１０２ｍの処理により、ステップＳＥ−１にて算出された特徴化パラメータ情報に基づいて（例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて）、有効な因子情報を選択し、有効因子情報ファイル１０６ｈの所定の記憶領域に格納する（ステップＳＥ−２）。これにて、特徴化パラメータ情報基準有効因子情報選択処理が終了する。

また、上述した各有効な因子情報を選択する手法により有効な因子情報を選択した後に、マハラノビス距離算出用パラメータ情報算出部１０２ｎの処理により、第１標本情報群および第２標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第１標本情報群および第２標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出し、マハラノビス距離算出用パラメータ情報ファイル１０６ｉの所定の記憶領域に格納してもよい。

ここで、上述した本実施形態においては、因子情報を遺伝子の発現に関する情報（遺伝子発現情報）とした場合を一例として説明した。これにより、本発明は、ＤＮＡマイクロアレイなどにより取得した複数の遺伝子発現情報からＤＮＡ発現解析に有効な遺伝子情報を選択することができる。また、因子情報はこの場合に限定されるものではなく、本発明はあらゆる分野の因子の選択に適用することができる。

これにて、メイン処理が終了する。

［他の実施の形態］
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。

例えば、有効因子情報選択装置１００がスタンドアローンの形態で処理を行う場合を一例に説明したが、有効因子情報選択装置１００とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。

また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。

この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。

また、有効因子情報選択装置１００に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。

例えば、有効因子情報選択装置１００の各部または各装置が備える処理機能、特に制御部１０２にて行なわれる各処理機能については、その全部または任意の一部を、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）および当該ＣＰＵにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じて有効因子情報選択装置１００に機械的に読み取られる。

すなわち、ＲＯＭまたはＨＤなどの記憶部１０６などには、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）と協働してＣＰＵに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、ＲＡＭ等にロードされることによって実行され、ＣＰＵと協働して制御部１０２を構成する。また、このコンピュータプログラムは、有効因子情報選択装置１００に対して任意のネットワーク３００を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。

また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるＲＯＭ、ＲＡＭ、ＨＤ等の任意の「固定用の物理媒体」、あるいは、ＬＡＮ、ＷＡＮ、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。

また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。

記憶部１０６に格納される各種のデータベース等（標本情報集合ファイル１０６ａ〜マハラノビス距離算出用パラメータ情報ファイル１０６ｉ）は、ＲＡＭ、ＲＯＭ等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。

また、有効因子情報選択装置１００は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア（プログラム、データ等を含む）を実装することにより実現してもよい。

さらに、有効因子情報選択装置１００等の分散・統合の具体的形態は明細書および図面に示すものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる（例えば、グリッド・コンピューティングなど）。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をＣＧＩ（ＣｏｍｍｏｎＧａｔｅｗａｙＩｎｔｅｒｆａｃｅ）を用いて実現してもよい。

また、ネットワーク３００は、有効因子情報選択装置１００と外部システム２００とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、ＬＡＮ（有線／無線の双方を含む）や、ＶＡＮや、パソコン通信網や、公衆電話網（アナログ／デジタルの双方を含む）や、専用回線網（アナログ／デジタルの双方を含む）や、ＣＡＴＶ網や、ＩＭＴ２０００方式、ＧＳＭ方式またはＰＤＣ／ＰＤＣ−Ｐ方式等の携帯回線交換網／携帯パケット交換網や、無線呼出網や、Ｂｌｕｅｔｏｏｔｈ等の局所無線網や、ＰＨＳ網や、ＣＳ、ＢＳまたはＩＳＤＢ等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。

（実施例１：統計量の差による探索）
まず、インターフェロン投与前のＣ型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各因子の群毎の平均情報および標準偏差情報に基づいて遺伝子を選択した場合の一例である実施例１の詳細について、図８、図２４等を参照して説明する。

ここで、実施例１および後述する実施例２〜実施例６において用いる遺伝子発現情報は、Ｃ型肝炎患者のインターフェロン治療前の肝臓バイオプシーのサンプルから得られたＲＮＡについてＤＮＡマイクロアレイを用いた解析を行って得たものである。なお、組織からのＲＮＡの抽出、標識工程、ハイブリダイゼーション、および、スキャニングによる遺伝子発現情報の数値化は常法により行った（例えば、「「ＤＮＡマイクロアレイ実践マニュアル」、羊土社、２００２」参照。）。また、当該ＤＮＡマイクロアレイは、インターフェロン関連遺伝子、サイトカイン関連遺伝子、免疫応答関連遺伝子、肝臓特異的発現遺伝子、細胞周期関連遺伝子、アポトーシス関連遺伝子等の計７１８個の遺伝子を搭載している。

本実施例１および後述する実施例２〜実施例６において、当該ＤＮＡマイクロアレイはＣ型肝炎患者のインターフェロン治療におけるインターフェロン感受性を予測することを目的としている。しかし、当該ＤＮＡマイクロアレイに搭載されている７１８個の遺伝子の結果をすべて用いて解析を行うと、ノイズが高く、明確な結果が得られない。

そこで、本実施例１では、まず、上述した本実施形態における有効因子情報選択装置１００（図２４）が、標本情報集合取得部１０２ａの処理により、７１８個の遺伝子発現情報とインターフェロン投与後効果に関する標本属性情報と標本識別情報とを含む標本情報の集合を取得した。

ここで、標本属性情報のうち、「無効」はインターフェロン投与中にもかかわらずＧＰＴ値の正常化を認めず、異常値が持続する場合である。また、上述の「無効以外」は「著効（インターフェロン投与中からＧＰＴ値の改善を認め、投与終了後２４週間以上正常値を維持する場合）」または「再燃（インターフェロン投与中からＧＰＴ値の改善を認めるが、投与終了後２４週間以内に再上昇し、異常値が持続する場合）」である。

ついで、有効因子情報選択装置１００は、上述した標本情報群選択部１０２ｂの処理により、取得した標本情報集合からインターフェロン投与後効果（Ｃ型肝炎ウイルスの消滅）が現れた（無効以外の）グループである第１標本情報群（１０因子（遺伝子）、２２標本）およびインターフェロン投与後効果が現れなかった（無効の）グループである第２標本情報群（１０因子（遺伝子）、１３標本）を選択した。

ついで、有効因子情報選択装置１００は、上述した平均情報・標準偏差情報算出部１０２ｃの処理により、平均情報および標準偏差情報を算出し、さらに上述した平均情報・標準偏差情報基準有効因子情報選択部１０２ｄの処理により、７１８個の遺伝子から有効な遺伝子の選択を行った。本実施例１では、実際に行った７１８個の遺伝子のうち１０個の遺伝子に関する分析結果を図８に示す。

なお、本実施例１においては、対象としている２群間のデータの差が少ないため、判定式１〜４に含まれる「ｎ」を「１」を超える値に設定すると選択される因子情報の数が減少する。一方、「ｎ」を「１」未満の値（例えば０．５など）に設定すると選択される因子情報の数が多くなり、別の有効な因子情報の選択の手法を更に行わなければならない。そこで、適量の遺伝子を選択するために、上述した平均情報・標準偏差情報基準有効因子情報選択部１０２ｄの判定式１〜判定式４に含まれる「ｎ」には、「１」を設定した。

通常、群間の有意差を検討する場合、判定式１〜４に含まれる「ｎ」には、例えば、「１」〜「３」の値を設定してもよい。しかし、上述した平均情報・標準偏差情報基準有効因子情報選択部１０２ｄにて行われる有効な因子情報を選択する手法は、群間の因子情報の度数分布の中心が近い位置にあり、有意差の検討が困難である場合に用いることを想定している。そのため、実際では、「ｎ」には「０．５」〜「１．５」の値を設定することが好ましい。ただし、最終的には、対象により解決しようとする問題の重要性やデータ量などを踏まえて、解析者が任意に決定してもよい。

図８は、インターフェロン投与前のＣ型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各因子における各群の平均情報および標準偏差情報に基づく分析結果の一例を示す図である。なお、図８には、因子情報ごとに、第１標本情報群および第２標本情報群の平均情報（図８における「ｍｅａｎ」の欄）・標準偏差情報（図８における「σ」の欄）・平均情報＋標準偏差情報（図８における「＋１σ」の欄）・平均情報−標準偏差情報（図８における「−１σ」の欄）、および、判定式の判断結果（判定式１または２の判定条件を満たしたか否かの結果、判定式３または４の判定条件を満たしたか否かの結果）が示されている。

図８に示すように、第１標本情報群および第２標本情報群において、本実施形態における判定式１または判定式２、および、判定式３または判定式４を満たした因子（遺伝子）は、因子情報が「３」、「７」、「８」の計３因子である。

（実施例２：分散・共分散もしくは相関係数の差による探索）
次に、インターフェロン投与前のＣ型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて遺伝子を選択した場合の一例である実施例２の詳細について、図９から図１１、図２４等を参照して説明する。

一般に、分散分析やマハラノビス距離などは因子間の相関関係を用いて計算を行い判定式に入力するので、因子間の相関関係の大小が判別の結果に大きく影響する。

そこで、本実施例２では、まず各群の分散共分散行列情報または相関行列情報を求め、ついで分散共分散行列情報または相関行列情報の各行列成分情報の群間の差に基づいて有効な因子を選択した。

具体的には、本実施例２では、まず、上述した本実施形態における有効因子情報選択装置１００（図２４）は、分散共分散行列情報・相関行列情報算出部１０２ｅの処理により、同一因子数からなる群（インターフェロン投与後効果が現れた（無効以外の）グループである第１標本情報群（１０因子（遺伝子）、２２標本）およびインターフェロン投与後効果が現れなかった（無効の）グループである第２標本情報群（１０因子（遺伝子）、１３標本））ごとに相関行列情報を求めた。

ついで、有効因子情報選択装置１００は、上述した分散共分散行列情報・相関行列情報基準有効因子情報選択部１０２ｆにて相関行列情報の各行列成分情報の群間の差を求め、当該差を２で割った値が設定された値である±０．５以上である因子情報を有効な因子情報として選択した。本実施例２では、実際に行った７１８個の遺伝子のうち１０個の遺伝子に関する分析結果を図９〜図１１に示す。

なお、本実施例２においては、相関の性質が明らかに異なる因子情報を選択するため、相関行列情報の各行列成分情報の群間の差が「±０．５以上」である因子情報を有効な因子情報として選択したが、かかる場合に限定されることなく、解析者により任意に設定してもよい。

なお、通常、相関係数が「０．７以上」あると「相関関係がある」と見なされる（例えば、「「多変量解析の実践（上）（６章「変数選択の方法」）」、現代数学社」参照。）。また、本実施例における、上述した分散共分散行列情報・相関行列情報基準有効因子情報選択部１０２ｆにて行われる有効な因子情報を選択する手法では、本実施例２において、２群の相関係数の差を求めて、当該差を２で割っている。

ここで、この値を「０．５以上」に設定すれば、相関係数にして１以上の差があることになり相関の性質が明らかに異なる因子情報、つまり、２因子間の関係が大きく変わる因子情報を選択することができる。なお、相関係数の差が１である場合は、例えば、第１標本情報群の因子情報の相関係数が「１」であり、第２標本情報群の因子情報の相関係数が「０」である場合や、第１標本情報群の因子情報の相関係数が「０．５」であり、第２標本情報群の因子情報の相関係数が「−０．５」である場合や、第１標本情報群の因子情報の相関係数が「−０．９」であり、第２標本情報群の因子情報の相関係数が「０．１」である場合などが挙げられる。

図９は、第１標本情報群における相関行列情報の一例を示す図である。また、図１０は、第２標本情報群における相関行列情報の一例を示す図である。さらに、図１１は、図９に示す第１標本情報群における相関行列情報の各行列成分情報から図１０に示す第２標本情報群における相関行列情報の各行列成分情報の差をとり、当該差を２で割った各行列成分情報からなる相関行列情報の一例を示す図である。なお、図９〜図１１には、因子情報間ごとの相関係数が行列の形で示されている。

図１１に示すように、第１標本情報群および第２標本情報群において、選択された因子（遺伝子）は、因子情報が「３」、「４」、「５」、「９」、「１０」の計５因子である。

（実施例３：複合的な手法（変動係数）による探索）
次に、インターフェロン投与前のＣ型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各群の変動係数情報に基づいて遺伝子を選択した場合の一例である実施例３の詳細について、図１２、図２４等を参照して説明する。

一般に、データの分析において最も重要なことの一つに分析の元となる因子の測定精度が挙げられる。例えば、因子のバラツキが大きい場合、正確な分析ができなくなる。

そこで、本実施例３では、まず、上述した本実施形態における有効因子情報選択装置１００（図２４）は、変動係数情報算出部１０２ｇの処理により、各群（インターフェロン投与後効果が現れた（無効以外の）グループである第１標本情報群（１０因子（遺伝子）、２２標本）およびインターフェロン投与後効果が現れなかった（無効の）グループである第２標本情報群（１０因子（遺伝子）、１３標本））の因子情報ごとに変動係数情報を算出する。

ついで、有効因子情報選択装置１００は、上述した変動係数情報基準有効因子情報選択部１０２ｈの処理により、両群の変動係数情報が設定された値である０．１未満の因子情報を有効な因子情報として選択した。本実施例３では、実際に行った７１８個の遺伝子のうち１０個の遺伝子に関する分析結果を図１２に示す。

なお、本実施例３においては、変動係数情報が安定した、測定時の再現性が高い因子情報を選択するため、両群の変動係数情報が「０．１未満」の因子情報を有効な因子情報として選択したが、かかる場合に限定されることなく、解析者により任意に設定してもよい。

ここで、変動係数は標準偏差を平均で割った値であり、変動係数が小さいとデータのバラツキが少ない傾向にあることを示す。本実施例３では、変動係数が安定している因子情報を選択するため、平均値に対して１０％変動する因子情報を選択する目的で、「０．１」と設定した。

図１２は、インターフェロン投与前のＣ型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各群の変動係数情報に基づく分析結果の一例を示す図である。なお、図１２には、因子情報ごとに、第１標本情報群および第２標本情報群の平均情報（図１２における「ｍｅａｎ」の欄）・標準偏差情報（図１２における「σ」の欄）・変動係数情報（図１２における「変動係数」の欄）、および、因子情報の選択結果により採用されたか否かを示す情報（図１２における「採用」の欄）が示されている。

図１２に示すように、第１標本情報群および第２標本情報群において、共に変動係数情報が０．１未満の因子（遺伝子）は、因子情報が「８」の因子である。

（実施例４：複合的な手法（棄却検定）による探索）
次に、インターフェロン投与前のＣ型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、群間における棄却検定の検定値に基づいて遺伝子を選択した場合の一例である実施例４の詳細について、図１３、図２４等を参照して説明する。

上述した実施例３同様、一般に、データの分析において最も重要なことの一つに分析の元となる因子の測定精度が挙げられる。例えば、因子のバラツキが大きい場合、正確な分析ができなくなる。

そこで、本実施例４では、まず、上述した本実施形態における有効因子情報選択装置１００（図２４）は、棄却検定実行部１０２ｉの処理により、群間（インターフェロン投与後効果が現れたグループ（無効以外）である第１標本情報群（１０因子（遺伝子）、２２標本）およびインターフェロン投与後効果が現れなかったグループ（無効）である第２標本情報群（１０因子（遺伝子）、１３標本））でＦ検定を実行した。

ついで、有効因子情報選択装置１００は、上述した棄却検定値基準有効因子情報選択部１０２ｊの処理により、Ｆ検定の検定値が設定した有意水準である５％（０．０５）未満である因子情報を有効な因子情報として選択した。本実施例４では、実際に行った７１８個の遺伝子のうち１０個の遺伝子に関する分析結果を図１３に示す。

なお、本実施例４においては、一つの群の標本数が３０未満であったため、棄却検定にはＦ検定を用いたが、かかる場合に限定されることなく、例えばＴ検定などの群間の差を検定する手法を用いてもよい。また、本実施例４では９０％以上の信頼値を目標としているため、９５％の信頼値を目安として、群間の有意差の水準（有意水準）を５％と設定したが、問題の重要度などに応じて、有意水準は５％（０．０５）の他、例えば１０％（０．１０）や１％（０．０１）など解析者が任意に設定した値を用いてもよい。

図１３は、インターフェロン投与前のＣ型肝炎患者から採取した肝細胞より得た遺伝子発現情報の棄却検定の検定値に基づく分析結果の一例を示す図である。なお、図１３には、因子情報ごとに、群間におけるＦ検定値（図１３における「Ｆ検定値」の欄）および因子情報の選択結果（図１３における「水準」の欄）が示されている。

図１３に示すように、第１標本情報群および第２標本情報群において、Ｆ検定の検定値が０．０５未満の因子（遺伝子）は、因子情報が「１」の因子である。

（実施例５：特徴化パラメータの導出）
次に、上述した本実施形態における特徴化パラメータ情報算出部１０２ｋにて算出された特徴化パラメータ情報についての一例である実施例５について、図１４から図１７、図２４等を参照して説明する。

図１４は、因子情報が取る値の分布が群間で明確に異なる場合のグラフの一例を示す図である。また、図１５は、因子情報が取る値の分布が群間で似ている場合のグラフの一例を示す図である。また、図１６は、特徴化パラメータ情報の算出結果の一例を示す図である。さらに、図１７は、特徴化前後におけるデータのグラフの一例を示す図である。

一般に、多変量解析やパターン認識では、図１４に示すように群間において因子が取る値の分布が明確に異なる場合は、良好な解析結果を得やすい。

一方、図１５に示すように因子が取る値の分布が似ている場合は、当該因子から有意な差を検出することができず、良好な解析結果が得られない場合がある。また、相関関係の強い因子同士であっても因子が取りうる値の変動幅が大きいと分散が大きくなり、つまり揺らぎの大きい因子となってしまい、解析や判別のための良い因子とならない場合がある。具体的には、因子が、例えば０〜６５５３５（本実施例５におけるスキャナの読み取り値の範囲）のように取りうる値の変動幅が大きい場合分散が大きくなり、分散や相関係数を使った分析では精度が落ちる場合がある。

その場合、複数の因子間の差や比を求める（特徴化パラメータを導出する）ことで、群間の差を明確にすることができ、より有効な解析結果を得ることができる。例えば、相関関係の強い因子同士場合、当該因子間の比を用いると、一般的には取りうる値の幅が狭くなり、測定精度が上がる。具体的には、図１６に示すように、因子１、因子２ともに分散が大きいため（図１６における「分散」の欄）、結果が揺らぎやすくなるが、上述した本実施形態における有効因子情報選択装置１００（図２４）が、特徴化パラメータ情報算出部１０２ｋの処理により、比（因子１／因子２）をとり当該比を特徴化パラメータ情報（図１６における「特徴化パラメータ（比）」の欄）とすると、分散が小さくなり結果が安定することがわかる。

そこで、本実施例５では、Ｃ型肝炎患者のｍＲＮＡ発現量をＤＮＡマイクロアレイで取得したデータに対して、上述した本実施形態における有効因子情報選択装置１００が、特徴化パラメータ情報算出部１０２ｋおよび特徴化パラメータ情報基準有効因子情報選択部１０２ｍの処理により、２つの因子情報の差である特徴化パラメータ情報に基づく有効な因子情報の選択を行った。

その結果、図１７に示すように、特徴化前は遺伝子ごとの取る値にバラツキが大きかったのが（図１７の上のグラフ参照。）、例えば遺伝子発現情報の差を取ることでバラツキが小さくなっている（図１７の下のグラフ参照。）。

従って、例えば当該差を特徴化パラメータ情報とすることにより、データのバラツキを抑えてより正確な解析が可能となることが示唆された。

次に、特徴化パラメータ情報が有効であるかについて実際にデータを解析して確認した結果について、図１８および図１９を参照して説明する。

まず、特徴化パラメータ情報を使わず、選択された遺伝子の情報のみを用いて判別分析を行った結果を図１８に示す。

図１８は、特徴化パラメータ情報を用いずに選択された遺伝子発現情報のみを用いて判別分析を行った結果の一例を示す図である。なお、図１８、および、後述する図１９、図２１〜図２３において、表中の縦（行）の欄の「無効」、「無効以外」は、本発明により選択した遺伝子（図１９では、特徴化パラメータ情報）によって解析した結果であり、一方、横（列）の欄の「無効」、「無効以外」は、臨床で実際に治療した結果である。

図１８に示すように、「無効」であると予測された６標本のうち、臨床結果においても「無効」と判定されたものが５標本（正解率８３％）であり、「無効以外」であると予測された１６標本のうち、臨床結果においても「無効以外」と判定されたものが１１標本（正解率６９％）であることがわかる。

次に、同様のデータについて、本発明により特徴化を行い、特徴化パラメータＡ（差）および特徴化パラメータＢ（比）を求めて、判別分析を行った結果を図１９に示す。

図１９は、特徴化パラメータ情報を用いて判別分析を行った結果の一例を示す図である。

図１９に示すように、「無効」であると予測された８標本のうち、臨床結果においても「無効」と判定されたものが７標本（正解率８８％）であり、「無効以外」であると予測された１４標本のうち、臨床結果においても「無効以外」と判定されたものが１１標本（正解率７９％）であることがわかる。

以上から、本実施例５において特徴化パラメータ情報が有効であることが示された。

（実施例６：絞り込み結果および選択因子を用いた解析の結果）
次に、図３４に示す手順により選択された遺伝子を用いた解析の一例である実施例６について、図２０から図２３、図２４、図３４等を参照して説明する。

まず、本実施例６における、有効な遺伝子の選択の手順（有効因子解析を用いた判別用データベースの生成）について、図３４を参照して説明する。図３４は、本実施例６における有効な遺伝子を選択し、判定用データベースを作成する手順の一例を示すフローチャートである。

まず、上述した有効因子情報選択装置１００は、標本情報集合取得部１０２ａの処理により、標本情報の集合を取得する。

ついで、有効因子情報選択装置１００は、標本情報群選択部１０２ｂの処理により、標本情報集合から、標本属性情報が「判別対象（基準）」である判別対象群（基準群）および「判別対象外（非基準）」である判別対象外群（非基準群）を選択する（ステップＳＦ−１）。

ついで、基準群および非基準群に含まれる遺伝子発現情報が数値以外の定性的なデータである場合（ステップＳＦ−２）、有効因子情報選択装置１００は、平均情報・標準偏差情報算出部１０２ｃの処理により、既存の数量化手法（例えば、数量化I類、数量化II類
、数量化III類、数量化IV類など）に基づいて、基準群および非基準群に含まれる遺伝子発
現情報を数量化する（ステップＳＦ−３）。

ついで、有効因子情報選択装置１００は、平均情報・標準偏差情報算出部１０２ｃの処理により、ステップＳＦ−１にて選択された基準群および非基準群において、各遺伝子発現情報の平均情報および標準偏差情報を算出し、平均情報・標準偏差情報基準有効因子情報選択部１０２ｄの処理により、算出された基準群および非基準群における各遺伝子発現情報の平均情報および標準偏差情報に基づいて、有効な因子情報を選択する（ステップＳＦ−４）。

ここで、ステップＳＦ−４において、分散共分散行列情報・相関行列情報算出部１０２ｅおよび分散共分散行列情報・相関行列情報基準有効因子選択部１０２ｆの処理により、基準群および非基準群において、分散共分散行列情報または相関行列情報を算出し、算出された分散共分散行列情報または相関行列情報の各行列成分情報の群間の差に基づいて、有効な因子情報をさらに選択してもよい。

ついで、有効因子情報選択装置１００は、特徴化パラメータ情報算出部１０２ｋの処理により、ステップＳＦ−４にて選択された遺伝子発現情報に基づいて、特徴化パラメータ情報を算出する（特徴化パラメータ情報の導出）（ステップＳＦ−５）。

さらに、有効因子情報選択装置１００は、マハラノビス距離算出用パラメータ情報算出部１０２ｎの処理により、ステップＳＦ−５にて特徴化した基準群の遺伝子発現情報に基づいて、マハラノビス距離算出用パラメータ情報（平均情報、標準偏差情報、および、分散共分散行列情報の逆行列）を算出し、ステップＳＦ−４にて選択された因子情報（遺伝子発現情報）、および、ステップＳＦ−５にて導出された特徴化パラメータ情報と共にデータベースを作成し、記憶部１０６の所定の記憶領域に格納する（ステップＳＦ−６）。

つぎに、上述した図３４に示す有効な遺伝子の選択の手順により７１８個の遺伝子を絞り込んだ結果について、図２０を参照して説明する。

図２０は、図３４に示す有効な遺伝子の選択の手順により７１８個の遺伝子から絞り込まれた１７個の遺伝子を示す図である。

図２０に示すように、本発明により７１８個の遺伝子を絞り込んだ結果、１７個の遺伝子が有効遺伝子として選択された。この結果、インターフェロンとリバビリンの併用療法において、１７個の遺伝子の発現状況を事前に調べることにより、治療効果を予測することができることが判明した。

なお、本実施例６では、これら１７個の遺伝子を使い、マハラノビス距離による判別分析を行うため、上述した本実施形態における有効因子情報選択装置１００（図２４）が、マハラノビス距離算出用パラメータ情報算出部１０２ｎの処理により算出したマハラノビス距離算出用パラメータ情報を用いて、以下のマハラノビス距離による判別分析を行った。

次に、本発明により臨床検体を用いて選択された１７個の遺伝子による解析が有効であるかについて確認した結果を、図２１から図２３を参照して説明する。

実施例６では、インターフェロン投与前のＣ型肝炎患者４２名の肝生検組織からＲＮＡを抽出し、ＤＮＡマイクロアレイで取得したデータから本発明により選択された１７個の遺伝子の値について、数式５に示すマハラノビス距離を算出し、当該マハラノビス距離の大小でインターフェロンに対する感受性を判定した。

マハラノビス距離² ＝［（各因子（遺伝子）の値 − 因子（遺伝子）毎の平均値）の行例］×
［第１標本情報群または第２標本情報群の分散共分散行列の逆行例］×
［（各因子（遺伝子）の値 − 因子（遺伝子）毎の平均値）の転置行例］・・・（数式５）

まず、本発明により臨床検体を用いて選択された１７個の遺伝子を使って判別分析を行った結果を図２１に示す。

図２１は、絞り込まれた１７個の遺伝子から算出したマハラノビス距離の大小でインターフェロンに対する感受性を判定した結果の一例を示す図である。

図２１に示すように、本発明により選択された遺伝子で解析すると４２名のうち７名が「無効」と判定され、それらはすべて臨床的にも「無効」であった。また、「無効以外」と判定された３５名のうち３２名が実際に「無効以外」であった。つまり、予測において「無効」と判定されたものは臨床において１００％の確率で「無効」であり、予測において「無効以外」と判定されたもののうち、９１％が「無効以外」であった。

ついで、使用可能な測定結果を得られた（バックグラウンドより高い値が得られた）２３４個の遺伝子すべてを使って判別分析を行った結果を図２２に示す。

図２２は、使用可能な測定結果を得られた２３４個の遺伝子から算出したマハラノビス距離の大小でインターフェロンに対する感受性を判定した結果の一例を示す図である。

図２２に示すように、「無効」であると予測された５標本のうち、臨床結果においても「無効」と判定されたものが１標本（正解率２０％）であり、「無効以外」であると予測された３７標本のうち、臨床結果においても「無効以外」と判定されたものが２８標本（正解率７６％）であることがわかる。

さらに、学術的にインターフェロン投与効果に影響を与えていると報告されている遺伝子群を既知の文献データベースより５９個の遺伝子選択し、それらを用いて解析を行った結果を図２３に示す。なお、５９個の遺伝子には、本発明により選択された１７個の遺伝子のうち５個が含まれている。

図２３は、学術的にインターフェロン投与効果に影響を与えていると報告されている遺伝子群を文献から５９個選択し、５９個の遺伝子から算出したマハラノビス距離の大小でインターフェロンに対する感受性を判定した結果の一例を示す図である。

図２３に示すように、「無効」であると予測された２２標本のうち、臨床結果においても「無効」と判定されたものが１０標本（正解率４５％）であり、「無効以外」であると予測された２０標本のうち、臨床結果においても「無効以外」と判定されたものが２０標本（正解率１００％）であることがわかる。

以上の結果より、本発明により選択された１７個の遺伝子による解析結果は、選択前の結果と比較してより臨床結果を反映していることが示された。また、本発明は、文献的に重要とされている遺伝子を選択する場合より高い効果が得られることも示された。

以上のように、本発明にかかる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体は、特に、複数の因子を含む標本を用いる多変量解析やパターン認識などに有効な因子を選択し、因子の数を効果的に絞り込むことができる。

これにより、本発明にかかる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体は、ＤＮＡマイクロアレイのデータ解析の分野に極めて有用である。また、本発明にかかる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体は、産業上多くの分野、特に多変量解析やパターン認識を用いる、医薬品、医療、食品、化粧品、マーケティング（例えば、インターネット上のホームページ・アクセス情報に基づいたカスタマー動向の分析など）等の分野で広く実施することができ、極めて有用である。

本発明の第１の基本原理を示す原理構成図である。本発明の第２の基本原理を示す原理構成図である。本実施形態における本システムのメイン処理の一例を示すフローチャートである。本実施形態における本システムの分散共分散行列情報・相関行列情報基準有効因子情報選択処理の一例を示すフローチャートである。本実施形態における本システムの変動係数情報基準有効因子情報選択処理の一例を示すフローチャートである。本実施形態における本システムの棄却検定値基準有効因子情報選択処理の一例を示すフローチャートである。本実施形態における本システムの特徴化パラメータ情報基準有効因子情報選択処理の一例を示すフローチャートである。インターフェロン投与前のＣ型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各因子における各群の平均情報および標準偏差情報に基づく分析結果の一例を示す図である。第１標本情報群における相関行列情報の一例を示す図である。第２標本情報群における相関行列情報の一例を示す図である。図９に示す第１標本情報群における相関行列情報の各行列成分情報から図１０に示す第２標本情報群における相関行列情報の各行列成分情報の差をとり、当該差を２で割った各行列成分情報からなる相関行列情報の一例を示す図である。インターフェロン投与前のＣ型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各群の変動係数情報に基づく分析結果の一例を示す図である。インターフェロン投与前のＣ型肝炎患者から採取した肝細胞より得た遺伝子発現情報の棄却検定の検定値に基づく分析結果の一例を示す図である。因子情報が取る値の分布が群間で明確に異なる場合のグラフの一例を示す図である。因子情報が取る値の分布が群間で似ている場合のグラフの一例を示す図である。特徴化パラメータ情報の算出結果の一例を示す図である。特徴化前後におけるデータのグラフの一例を示す図である。特徴化パラメータ情報を用いずに選択された遺伝子発現情報のみを用いて判別分析を行った結果の一例を示す図である。特徴化パラメータ情報を用いて判別分析を行った結果の一例を示す図である。図３４に示す有効な遺伝子の選択の手順により７１８個の遺伝子から絞り込まれた１７個の遺伝子を示す図である。絞り込まれた１７個の遺伝子から算出したマハラノビス距離の大小でインターフェロンに対する感受性を判定した結果の一例を示す図である。使用可能な測定結果を得られた２３４個の遺伝子から算出したマハラノビス距離の大小でインターフェロンに対する感受性を判定した結果の一例を示す図である。学術的にインターフェロン投与効果に影響を与えていると報告されている遺伝子群を文献から５９個選択し、５９個の遺伝子から算出したマハラノビス距離の大小でインターフェロンに対する感受性を判定した結果の一例を示す図である。本発明が適用される本システムの構成の一例を示すブロック図である。本実施形態における標本情報集合ファイル１０６ａに格納される情報の一例を示す図である。本実施形態における標本情報群ファイル１０６ｂに格納される情報の一例を示す図である。本実施形態における平均情報・標準偏差情報ファイル１０６ｃに格納される情報の一例を示す図である。本実施形態における分散共分散行列情報・相関行列情報ファイル１０６ｄに格納される情報の一例を示す図である。本実施形態における変動係数情報ファイル１０６ｅに格納される情報の一例を示す図である。本実施形態における棄却検定値ファイル１０６ｆに格納される情報の一例を示す図である。本実施形態における特徴化パラメータ情報ファイル１０６ｇに格納される情報の一例を示す図である。本実施形態における有効因子情報ファイル１０６ｈに格納される情報の一例を示す図である。本実施形態におけるマハラノビス距離算出用パラメータ情報ファイル１０６ｉに格納される情報の一例を示す図である。本実施例６における有効な遺伝子を選択し、判定用データベースを作成する手順の一例を示すフローチャートである。

符号の説明

１００有効因子情報選択装置
１０２制御部
１０２ａ標本情報集合取得部
１０２ｂ標本情報群選択部
１０２ｃ平均情報・標準偏差情報算出部
１０２ｄ平均情報・標準偏差情報基準有効因子情報選択部
１０２ｅ分散共分散行列情報・相関行列情報算出部
１０２ｆ分散共分散行列情報・相関行列情報基準有効因子情報選択部
１０２ｇ変動係数情報算出部
１０２ｈ変動係数情報基準有効因子情報選択部
１０２ｉ棄却検定実行部
１０２ｊ棄却検定値基準有効因子情報選択部
１０２ｋ特徴化パラメータ情報算出部
１０２ｍ特徴化パラメータ情報基準有効因子情報選択部
１０２ｎマハラノビス距離算出用パラメータ情報算出部
１０４通信制御インターフェース部
１０６記憶部
１０６ａ標本情報集合ファイル
１０６ｂ標本情報群ファイル
１０６ｃ平均情報・標準偏差情報ファイル
１０６ｄ分散共分散行列情報・相関行列情報ファイル
１０６ｅ変動係数情報ファイル
１０６ｆ棄却検定値ファイル
１０６ｇ特徴化パラメータ情報ファイル
１０６ｈ有効因子情報ファイル
１０６ｉマハラノビス距離算出用パラメータ情報ファイル
１０８入出力制御インターフェース部
１１２入力装置
１１４出力装置
２００外部システム
３００ネットワーク

Claims

標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択装置において、
上記標本情報の集合である標本情報集合を取得する標本情報集合取得手段と、
上記標本情報集合取得手段にて取得された上記標本情報集合から、任意に選択された２つの上記標本属性情報のうちの１つの上記標本属性情報を持つ上記標本情報の群である第１標本情報群、および、他の１つの上記標本属性情報を持つ上記標本情報の群である第２標本情報群を選択する標本情報群選択手段と、
上記標本情報群選択手段にて選択された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出手段と、
上記平均情報・標準偏差情報算出手段にて算出された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式１から判定式４（判定式において、ｎは正の実数である。）のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された２つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択手段と、

「第２標本情報群における因子情報の平均情報」＋ｎ×「第２標本情報群における因子情報の標準偏差情報」＜「第１標本情報群における因子情報の平均情報」・・・（判定式１）

「第２標本情報群における因子情報の平均情報」−ｎ×「第２標本情報群における因子情報の標準偏差情報」＞「第１標本情報群における因子情報の平均情報」・・・（判定式２）

「第１標本情報群における因子情報の平均情報」＋ｎ×「第１標本情報群における因子情報の標準偏差情報」＜「第２標本情報群における因子情報の平均情報」・・・（判定式３）

「第１標本情報群における因子情報の平均情報」−ｎ×「第１標本情報群における因子情報の標準偏差情報」＞「第２標本情報群における因子情報の平均情報」・・・（判定式４）

を備えたことを特徴とする有効因子情報選択装置。
上記第１標本情報群および上記第２標本情報群の上記標本情報ごとに、任意に選択された２つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出手段と、
上記特徴化パラメータ情報算出手段にて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択手段と、
をさらに備えたことを特徴とする請求項１に記載の有効因子情報選択装置。
上記因子情報は遺伝子の発現に関する遺伝子発現情報であること、
を特徴とする請求項１または２に記載の有効因子情報選択装置。
標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法において、
上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、
上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された２つの上記標本属性情報のうちの１つの上記標本属性情報を持つ上記標本情報の群である第１標本情報群、および、他の１つの上記標本属性情報を持つ上記標本情報の群である第２標本情報群を選択する標本情報群選択ステップと、
上記標本情報群選択ステップにて選択された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出ステップと、
上記平均情報・標準偏差情報算出ステップにて算出された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式１から判定式４（判定式において、ｎは正の実数である。）のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された２つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択ステップと、

「第２標本情報群における因子情報の平均情報」＋ｎ×「第２標本情報群における因子情報の標準偏差情報」＜「第１標本情報群における因子情報の平均情報」・・・（判定式１）

「第２標本情報群における因子情報の平均情報」−ｎ×「第２標本情報群における因子情報の標準偏差情報」＞「第１標本情報群における因子情報の平均情報」・・・（判定式２）

「第１標本情報群における因子情報の平均情報」＋ｎ×「第１標本情報群における因子情報の標準偏差情報」＜「第２標本情報群における因子情報の平均情報」・・・（判定式３）

「第１標本情報群における因子情報の平均情報」−ｎ×「第１標本情報群における因子情報の標準偏差情報」＞「第２標本情報群における因子情報の平均情報」・・・（判定式４）

を含むことを特徴とする有効因子情報選択方法。
上記第１標本情報群および上記第２標本情報群の上記標本情報ごとに、任意に選択された２つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出ステップと、
上記特徴化パラメータ情報算出ステップにて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択ステップと、
をさらに含むことを特徴とする請求項４に記載の有効因子情報選択方法。
上記因子情報は遺伝子の発現に関する遺伝子発現情報であること、
を特徴とする請求項４または５に記載の有効因子情報選択方法。
標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法をコンピュータに実行させるプログラムにおいて、
上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、
上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された２つの上記標本属性情報のうちの１つの上記標本属性情報を持つ上記標本情報の群である第１標本情報群、および、他の１つの上記標本属性情報を持つ上記標本情報の群である第２標本情報群を選択する標本情報群選択ステップと、
上記標本情報群選択ステップにて選択された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出ステップと、
上記平均情報・標準偏差情報算出ステップにて算出された上記第１標本情報群および上記第２標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式１から判定式４（判定式において、ｎは正の実数である。）のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された２つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択ステップと、

「第２標本情報群における因子情報の平均情報」＋ｎ×「第２標本情報群における因子情報の標準偏差情報」＜「第１標本情報群における因子情報の平均情報」・・・（判定式１）

「第２標本情報群における因子情報の平均情報」−ｎ×「第２標本情報群における因子情報の標準偏差情報」＞「第１標本情報群における因子情報の平均情報」・・・（判定式２）

「第１標本情報群における因子情報の平均情報」＋ｎ×「第１標本情報群における因子情報の標準偏差情報」＜「第２標本情報群における因子情報の平均情報」・・・（判定式３）

「第１標本情報群における因子情報の平均情報」−ｎ×「第１標本情報群における因子情報の標準偏差情報」＞「第２標本情報群における因子情報の平均情報」・・・（判定式４）

を含む有効因子情報選択方法をコンピュータに実行させることを特徴とするプログラム。
上記第１標本情報群および上記第２標本情報群の上記標本情報ごとに、任意に選択された２つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出ステップと、
上記特徴化パラメータ情報算出ステップにて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択ステップと、
をさらに含むことを特徴とする請求項７に記載のプログラム。
上記因子情報は遺伝子の発現に関する遺伝子発現情報であること、
を特徴とする請求項７または８に記載のプログラム。
上記請求項７から９のいずれか一つに記載されたプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。