JP2009008442A

JP2009008442A - 外れサンプルの決定方法

Info

Publication number: JP2009008442A
Application number: JP2007167934A
Authority: JP
Inventors: Hideo Akiyama; 英雄秋山; Shiori Tomoda; 史緒里友田
Original assignee: Toray Industries Inc
Current assignee: Toray Industries Inc
Priority date: 2007-06-26
Filing date: 2007-06-26
Publication date: 2009-01-15

Abstract

【課題】生物学的事象の２群判定制度の向上を目的に外れサンプルを排除して、相関の高いサンプル群を絞り込む方法を提供する。
【解決手段】生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に外れサンプルを決定する方法であって、（１）複数のサンプルにおける複数遺伝子の発現レベルを測定する工程、（２）前記複数のサンプルから任意の１つのサンプルを選択し、各遺伝子の発現プロファイルを変数として、前記任意の１つのサンプル以外の他の全ての各サンプルに対する相関係数値を決定し、決定された相関係数値を平均化する工程、（３）工程（２）のサンプルの選択、相関係数値の決定、及び相関係数値の平均化を、残りの全サンプルについても実施し、さらに全サンプルについて決定された平均相関係数値を基準化する工程、（４）工程（３）で得られた全サンプルについて基準化された平均相関係数値を赤池情報量規準に基づいて比較し、外れサンプルを選択する工程、を含む上記方法。
【選択図】図２

Description

本発明は、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択するための方法を提供する。

本発明はまた、そのような外れサンプルを選択するためのプログラムを記録したコンピュータ読取り可能な記録媒体、及び該記録媒体を搭載した外れサンプルを選択し出力するための装置に関する。

近年、ＤＮＡマイクロアレイやＤＮＡチップを利用する手法は組織病理学的診断のために実用化されつつある。この手法は、アレイ上の構造既知の多数のポリヌクレオチドと、生物由来の組織サンプルから調製された核酸とのハイブリダイゼーションを検出し、特定の遺伝子の発現と疾患との相関関係を決定し病理学的診断を行うことを含む。しかし、そのような相関関係を決定する際の問題点の１つは、疾患関連遺伝子の同定に悪影響を及ぼす外れサンプルをどのようにして決定するかということである。

階層的クラスタリングにおける従来の外れサンプルの決定法は、各遺伝子の発現プロファイルを変数として相関係数を求め、相関係数値で比較し、外れサンプルを決定することを含む（非特許文献１）。しかし、この手法では、閾値の設定が、測定者により恣意的であるため、正当性に欠ける場合がある。

また、外れサンプルを決定するための別の従来法は、組織特異的に発現変動する遺伝子の抽出のために、赤池情報量規準（ＡＩＣ）法による外れ値検定により相関の低い遺伝子を絞り込むことを含む（非特許文献２）。具体的には、組織由来の複数サンプルの遺伝子プロファイルを決定し、参照サンプルに対する測定サンプルの遺伝子発現変動比を基準化し、ＡＩＣにより、サンプル特異的に変動する遺伝子を外れ値として検定する。ここで、赤池情報量規準は、統計モデルの良さを評価するための指標であり、モデルの複雑さと、データとの適合度とのバランスを取るために使用される（非特許文献３）。

しかし、ＡＩＣによる外れ値の算出を実施する前の段階において、分類目的、入力値、基準化などのファクターが結果を大きく左右する。したがって、これらのファクターをいかに設定するかが、例えば組織病理学的診断結果に大きく影響すると考えられる。

ＭｉｃｒｏａｒｒａｙＧｅｎｅＥｘｐｒｅｓｓｉｏｎＤａｔａＡｎａｌｙｓｉｓ：ＡＢｅｇｉｎｎｅｒ’ｓＧｕｉｄｅ（ＨｅｌｅｎＣ．Ｃａｕｓｔｏｎ，ＡｌｖｉｓＢｒａｚｍａ，ＪｏｈｎＱｕａｃｋｅｎｂｕｓｈ．ＢｌａｃｋｗｅｌｌＰｕｂ（２００３／０５））Ｋ．Ｋａｄｏｔａら，ＰｈｙｓｉｏｌＧｅｎｏｍｉｃｓ１２：２５１−２５９，２００３Ｈ．Ａｋａｉｋｅ，ＡｎｎＩｎｓｔＳｔａｔｉｓｔｍａｔｈ２２：２０３−２１７，１９７０

本発明の目的は、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に外れサンプルを決定することであり、閾値の設定が恣意的でなくかつ論理的である方法を提供することである。

本発明の別の目的は、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択するためのプログラムを記録したコンピュータ読み取り可能な記録媒体、並びに、該記録媒体を搭載した、複数のサンプルから外れサンプルを選択し出力するための装置を提供することである。

本発明は、要約すると、以下の特徴を含む。

本発明は、第１の態様において、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に外れサンプルを決定する方法であって、
次の工程：
（１）複数のサンプルにおける複数遺伝子の発現レベルを測定する工程、
（２）前記複数のサンプルから任意の１つのサンプルを選択し、各遺伝子の発現プロファイルを変数として、前記任意の１つのサンプル以外の他の全ての各サンプルに対する相関係数値を決定し、決定された相関係数値を平均化する工程、
（３）工程（２）のサンプルの選択、相関係数値の決定、及び相関係数値の平均化を、残りの全サンプルについても実施し、さらに全サンプルについて決定された平均相関係数値を基準化する工程、
（４）工程（３）で得られた全サンプルについて基準化された平均相関係数値を赤池情報量規準に基づいて比較し、外れサンプルを選択する工程、
を含む上記方法を提供する。

その一実施形態において、工程（２）におけるサンプル間での相関係数値が、ピアソンの積率相関係数、スピアマンの順位相関係数又はケンドールの順位相関係数である。

別の実施形態において、工程（４）において、工程（３）で基準化した平均係数値について、各サンプルを外れ値とみなしたときの赤池情報量規準値を求め、該赤池情報量規準値が最小となるようなサンプルを外れサンプルとして決定する。

別の実施形態において、工程（１）において、遺伝子の発現レベルがマイクロアレイを用いて測定される。

別の実施形態において、遺伝子の発現レベルが、マイクロアレイ上の核酸に、生物の細胞もしくは組織に由来するｍＲＮＡ、非コーディングＲＮＡ、ｍＲＮＡから誘導された核酸、又は非コーディングＲＮＡから誘導された核酸をハイブリダイゼーションさせることによって測定される。

本明細書中で使用する「核酸」なる用語は、ＤＮＡ又はＲＮＡ、特にｍＲＮＡ、非コーディングＲＮＡ、ｃＤＮＡ、又はａＲＮＡを指す。

別の実施形態において、特定の事象が疾患である。

別の実施形態において、疾患が癌である。

本発明はまた、別の態様において、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、該プログラムが、コンピュータに、複数のサンプルにおける複数の遺伝子の発現レベルを入力する機能、該複数のサンプルから任意の１つのサンプルを選択する機能、各遺伝子の発現プロファイルを変数として、該１つのサンプルの、他の全ての各サンプルに対する相関係数値を決定する機能、各サンプルにおいて決定された相関係数値を平均化する機能、該サンプルの選択、相関係数値の決定及び相関係数値の平均化を残りの全サンプルについても実施する機能、該平均化した相関係数値を基準化する機能、サンプル間の相関を赤池情報量規準によって比較する機能、複数のサンプルに影響を与える任意のサンプルを外れサンプルとして選択する機能、及び該外れサンプルを出力する機能、を実現させるためのプログラムを含む、上記記録媒体を提供する。

本発明はさらに、別の態様において、上記の記録媒体を搭載したことを特徴とする、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択し出力するための装置を提供する。

その実施形態において、本発明の装置は、事象予測スコアリングシステムをさらに含むことができる。

本発明により、遺伝子の発現レベルに基づいて例えば病理学的診断を実施する際に、患者由来の複数のサンプルの中から、従来法と比べてより高い信頼性又はより高い精度をもって外れサンプルを検出することが可能であり、これによって特定の疾患との相関性の高いサンプル群を絞り込むことができる。

本発明は、上記のとおり、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に外れサンプルを決定する方法を提供する。

この方法の特徴は、サンプル間での相関を評価し、得られた相関係数値を平均化し、全サンプルの平均相関係数値を基準化する手法を採用することにある。これによって、サンプル間での特定の事象について外れ値を検定し、外れ値と認められたサンプルはデータとして採用されない、これによって該特定の事象について相関の高いサンプル群を絞り込むことが可能になる。従来の方法では、各遺伝子の発現プロファイルを変数として相関係数を求め、相関係数で比較し、外れサンプルを決定しており、この方法では、閾値の設定がかなり恣意的であり正当性に欠ける場合があるという問題点があった。これに対し、本発明の方法は、閾値の設定が恣意的でなく、論理的に外れサンプルを決定することができるため、判定結果の信頼性が顕著に増大するという利点がある。

本明細書中で使用する「外れサンプル」なる用語は、他のサンプルと比べて一定の基準から外れるサンプル、すなわち質の悪いデータを有するサンプル、を意味する。具体的には、この用語は、ＤＮＡマイクロアレイやＤＮＡチップを使用して生物学的サンプルについて、ある生物学的事象の変化を検出する場合、事象と測定値との相関から外れるサンプルをいう。ここで、測定値とは、サンプル中に含まれる物質の量又はレベルの測定値を指す。物質は、ある事象の変化に伴ってそのレベルが変動する物質であり、本発明では特に遺伝子の発現産物、すなわちｍＲＮＡ、非コーディングＲＮＡ及びそれから誘導された対応するｃＤＮＡ、ａＲＮＡなど、並びに翻訳産物であるタンパク質を含む。したがって、本明細書中で使用する「遺伝子の発現レベル」とは、そのような遺伝子に対応するｍＲＮＡ、非コーディングＲＮＡ、ｍＲＮＡから誘導された核酸、非コーディングＲＮＡから誘導された核酸、ｃＤＮＡ、ａＲＮＡ、タンパク質、ポリペプチド、ペプチドなどの遺伝子関連物質のレベルを指す。そして、複数のサンプル間の１つの遺伝子の発現レベルの変化又は差異を示す特性が発現プロファイルである。

本明細書中で使用する「生物由来のサンプル」とは、動物（例えば哺乳動物（ヒトを含む）、鳥類などの脊椎動物、昆虫などの無脊椎動物など）、植物、微生物（例えば酵母、菌類、細菌など）などの生物から得られたあらゆるサンプルを意味し、例えば組織、細胞、体液（例えば血液、髄液、リンパ液、精液、尿、羊水など）、細胞又は組織抽出液などを含む。本発明の方法によれば、遺伝子の発現レベルを測定するために、必要に応じてサンプルからｍＲＮＡ、非コーディングＲＮＡを分離し、さらにｃＤＮＡ又はａＲＮＡを合成してもよい。

本明細書中で使用する「特定の事象」とは、事象の前後において遺伝子の発現プロファイルが変化するようなあらゆる事象を指す。そのような事象には、正常に対する異常状態、例えば疾患（転移性癌を含む癌、アレルギー性疾患、代謝疾患、血液疾患、老人性疾患など）、薬剤投与前後の薬剤に対する生体内応答の変化、ストレスの前後における生物応答の変化、例えば植物ストレス（例えば病害虫、乾燥、塩害、低温、高温などに対するストレス）の前後における生物応答の変化、疾患モデル動物を用いた薬剤に対する生体内応答性の変化などが含まれる。

以下に、本発明方法の各工程について説明する。

第１の工程は、複数のサンプルにおける複数遺伝子の発現レベルを測定することを含む。

遺伝子の発現レベルを測定するために、まず生物からサンプルを採取する。サンプルとして、事象の前後において遺伝子の発現プロファイルが変化するサンプルを少なくとも２種類準備する。サンプルとして、例えば組織（動物組織、植物組織など）、細胞（動物細胞、植物細胞、微生物細胞など）、体液（血液、髄液、リンパ液、精液、尿、羊水など）などが好ましく使用される。サンプルの採取法は、特に限定されないが、例えば動物については、生検、外科的切除など、植物については、成長点、根、カルスなどの植物組織の切除などを含む。測定に先立ち、測定すべき対象に応じてサンプルを前処理することが好ましい。測定対象がタンパク質、ポリペプチド又はペプチドである場合、サンプルを機械的又は化学的に処理し可溶性画分を得たのち、限外ろ過、ゲルろ過などの手法により、上記物質を含む画分を例えば分子量範囲１，０００〜１０，０００、１０，０００〜１００，０００などにサイズ分離する。また、測定対象が核酸である場合、サンプルからフェノール／グアジニウム法などの公知の手法により全ＲＮＡを調製し、オリゴｄＴプライマーを鋳型に逆転写酵素により合成を行う手法、逆転写酵素／ポリメラーゼ反応により合成を行う手法により、ｃＤＮＡ、ａＲＮＡを調製する。ｍＲＮＡの分離、精製、及びａＲＮＡ、ｃＤＮＡの合成については、種々の関連キット（例えばＡＲＢｒｏｗｎ社、Ｉｎｖｉｔｒｏｇｅｎ社、Ｅｐｉｃｅｎｔｒｅ社、Ａｍｂｉｏｎ社などの製品）が市販されているので、それらを使用することができる。

次に、上記のようにして得られたサンプルを用いて、事象の前後における遺伝子の発現レベルを測定する。

測定対象がタンパク質、ポリペプチド又はペプチドである場合、例えば質量分析法によってそれらの同定或いはそれらの量又はレベルを測定することが可能である。蛋白質質量分析法は、通常、タンパク質サンプルを還元アルキル化し、トリプシンなどのタンパク加水分解酵素で分解し分子量約１０，０００以下のサイズに断片化したのち、蛋白質質量分析装置、例えばマトリクス支援レーザー脱離イオン化（ＭＡＬＤＩ）法を用いたＭＡＬＤＩ−ＴＯＦ型装置、イオントラップ型装置、四重極型装置、フーリエ変換型装置などを用いて質量／荷電数（ｍ／ｚ）比とピーク強度の関係を示す、所謂マスフィンガープリントに基づいてタンパク質、ポリペプチド又はペプチドを同定することができる。同定に際しては、ＭＡＳＣＯＴ検索ソフトを用いてデータベース（例えばＳＷＩＳＳＰＲＯＴ、ＮＣＢＩ−ｎｒ）に登録されたデータから同一のマスフィンガーの存在について検索することができる。あるいは、例えば構造既知のタンパク質、ポリペプチド又はペプチドに対する抗体をアレイ上に含むタンパク質マイクロアレイを準備し、サンプル中のタンパク質、ポリペプチド又はペプチドのレベルを測定することができる。

このとき、検出及び定量は酵素、放射性同位元素、蛍光物質、化学発光物質などのラベルをコンジュゲートしたＩｇＧなどの二次抗体を使用する所謂サンドイッチ法によって行うことができる。酵素ラベルには、例えばペルオキシダーゼ、アルカリホスファターゼなどの酵素を含む。放射性同位元素ラベルには、リン、ヨウ素、イオウなどの同位元素（例えば^３２Ｐ、^１２５Ｉ、^３５Ｓなど）が含まれる。蛍光ラベルには、フルオレサミン、ローダミン、ダンシル、それらの誘導体などが含まれる。化学発光ラベルには、ルミノール系、ルシフェラーゼ−ルシフェリン系などが含まれる。好ましいラベルは、蛍光ラベル及び放射性同位元素ラベルである。結合したラベルの強度に基づいてタンパク質、ポリペプチド又はペプチドの存在レベルを決定する。

測定対象が核酸である場合、既知の核酸がアレイ上に結合されたマイクロアレイを使用して、サンプルから調製された核酸（ｍＲＮＡ、非コーディングＲＮＡ、ｃＤＮＡ、ａＲＮＡなど）の存在又はレベルを測定することができる。マイクロアレイは、市販品、例えばＧｅｎｅＣｈｉｐ（商標）（Ａｆｆｙｍｅｔｒｉｘ）や３Ｄ−Ｇｅｎｅ（商標）（東レ株式会社）などを使用することができる。この手法によって、ある事象の前後で発現変動が起こる可能性のある数千種類の遺伝子を抽出することができるが、この中から、配列重複を起こさないかつ配列特異性が高い遺伝子配列部分を選択し、それを自動ＤＮＡ合成機で合成し、新しいＤＮＡマイクロアレイ上にスポッターを用いてＤＮＡマイクロアレイ又はＤＮＡチップを作製し、これを遺伝子発現レベルの測定に使用することもできる。

サンプルから調製した核酸を放射性同位体、蛍光物質（例えばシアニン色素Ｃｙ３、Ｃｙ５）などのラベルで標識し、マイクロアレイ上の核酸とハイブリダイゼーションを行い、結合したラベルの強度に基づいて発現レベルを決定する。ハイブリダイゼーションの条件は、ストリンジェントな条件が好ましく、そのような条件は、以下のものに限定されないが、例えば４２℃、１５時間以上のハイブリダーゼーション、その後の２×ＳＳＣ／０．１％ＳＤＳ、１×ＳＳＣ、０．２×ＳＳＣでの順次の洗浄、或いは０．５×ＳＳＣ／０．１％ＳＤＳ、０．２×ＳＳＣ／０．１％ＳＤＳ、０．０５×ＳＳＣを含む。ここで、１×ＳＳＣは、１５０ｍＭ塩化ナトリウム（ＮａＣｌ）及び１５ｍＭクエン酸ナトリウムからなる水溶液である。

第２の工程は、上記複数のサンプルから任意の１つのサンプルを選択し、各遺伝子の発現プロファイルを変数として、該任意の１つのサンプル以外の任意の他の１つのサンプルに対する相関を評価することを含む。この選択及び評価は、下記の平均化とともに、別の任意のサンプルを選択し、それ以外の他のサンプルに対する相関を評価し、平均化する、というように全サンプルについて実施する。サンプル間での相関評価は、例えばピアソンの積率相関係数、スピアマンの順位相関係数又はケンドールの順位相関係数のいずれかを決定し、それを指標として評価することができる。

相関は、類似性の度合いを表す用語であり、相関係数は、２つのデータ列間の相関を示す統計学的な指標である。相関係数は、−１から＋１の間の実数値をとり、＋１に近いときは２つのデータ列間に正の相関があることを示し、逆に−１に近いときは負の相関があることを示す。また、０に近いほど、相関がないか又は非常に低いことを示す。

ピアソンの積率相関係数ｒは、次式のとおり、２変数ＸとＹがｎ組あるとするとき、変数Ｘと変数Ｙの共分散を、各変数の標準偏差の積で割算した値である。

スピアマンの順位相関係数は、統計学において順位データから求められる相関の指標である。データ中の生のスコアを順位に変換し、各ペアにおける２つの変数の順位の差を計算する。例えば、変数ＸとＹについて、ｎ組のケースを考えるとき、各変数について小さい方から順位をつけ（同じ順位がある場合には、平均順位を付ける）、両者の順位の差をとり、これをｄ_ｉとする。スピアマンの順位相関係数ｒ_ｓは、次式によって求めることができる。

ケンドールの順位相関係数（ｒ_ｋ）は、例えば、変数ＸとＹについて、ｎ組のケースを考えるとき、各変数について小さい方から順位をつけ、変数Ｘについて小さい順に並べ変え（同じ順位の場合には平均順位をつける）、変数Ｙ_ｉ（ｉ＝１，２，．．，ｎ−１）について、Ｙ_ｉ＜Ｙ_ｊの個数をＰｉ、Ｙ_ｉ＞Ｙ_ｊの個数をＱｉとする（ｊ＝１＋１，ｉ＋２，．．，ｎ）とき、次式によって求めることができる。

上記の３つの相関係数の求め方のさらなる詳細については、統計学の教科書、例えばＭｉｃｒｏａｒｒａｙＧｅｎｅＥｘｐｒｅｓｓｉｏｎＤａｔａＡｎａｌｙｓｉｓ：ＡＢｅｇｉｎｎｅｒ’ｓＧｕｉｄｅ（ＨｅｌｅｎＣ．Ｃａｕｓｔｏｎ，ＡｌｖｉｓＢｒａｚｍａ，ＪｏｈｎＱｕａｃｋｅｎｂｕｓｈ．ＢｌａｃｋｗｅｌｌＰｕｂ（２００３））などに記載されているので、それを参照することができる。

第３の工程は、上記工程２によって得られた各サンプルの相関係数値を平均化し、さらに全サンプルにおける平均相関係数値を基準化することを含む。この工程は、本発明の方法において特徴的な工程である。

全サンプル（ｎ）の相関係数値の合計を（ｎ−１）で割算し平均値を求める。さらに、各サンプルの平均相関係数を、標準偏差が１、平均が０となるように基準化する。平均相関係数を基準化するとは、各サンプルの平均相関係数値から全体の平均値を引き、さらに各サンプルの標準偏差で割ることで、０を基点とし、標準偏差（分散）が１の正規分布化（Ｚ変換）することを意味する。従来の外れサンプルの決定法では、各サンプルにおける相関係数で比較し、平均化および平均値の基準化を行わないため、閾値の設定が、恣意的であり、例えば閾値の設定を０．５以上とするとき０．５未満は全て排除されるし、或いは閾値の設定を０．６としたがそれが不都合なとき設定を０．７に変更するなど恣意的に行われる。このことは、測定者によって異なる評価結果を与える可能性が大きいことを意味する。これに対して、本発明のように平均相関係数を基準化するときには、手法が恣意的でなく論理的に外れサンプルを決定することができる。

第４の工程は、工程３によって得られた複数のサンプルにおける相関を赤池情報量規準（ＡＩＣ）に基づいて比較し、外れサンプルを選択することを含む。

具体的には、工程３で基準化した値について、各サンプルを外れ値とみなしたときの赤池情報量規準値を求め、該赤池情報量規準値が最小となるようなサンプルを外れサンプルとして決定する。

ＡＩＣは、統計モデルの良さを評価するための指標である。例えば、ある測定データを統計的に説明するモデルを作成することを考える場合、パラメータの数や次数を増やせば増やすほど、その測定データとの適合度を高めることができる。しかし、その反面、ノイズなどの偶発的な（測定対象の構造と無関係な）変動にも無理にあわせてしまうため、同種のデータには合わなくなる。この問題を避けるには、モデル化のパラメータ数を抑える必要があるが、実際にどの数に抑えるかは難しい問題である。ＡＩＣは、この問題に一つの解を与える。具体的にはＡＩＣ最小のモデルを選択すれば、多くの場合、良いモデルが選択できる。

ＡＩＣは、次式から求めることができる。

（ここで、Ｌは最大尤度、ｋは自由パラメータの数である。）

ＡＩＣにはいくつかのバージョンがある。例えば、サンプル数が少ない場合の補正を加えたＡＩＣｃの式は、次の通りである。

（ここで、ｎはサンプル数である。）

ｎが大きくなるにつれてＡＩＣｃは、ＡＩＣへと収束してゆく。

本発明の方法では、任意の１又は複数のサンプルを外れ値とみなして、ＡＩＣ値を上記の式から算出しＡＩＣ値が最小となるとき、それらのサンプルを外れサンプルと決定する。外れサンプルは、疾患などの事象の予測スコアリングシステムの判定信頼度を低下させる、一定品質以下のサンプルであるため、該判定信頼度を高めるうえで、予測スコアリングシステムの形成時に排除されるべきサンプルである。

したがって、本発明の方法により外れサンプルが排除された残りのサンプルは一定品質以上のものであり、そのようなサンプルからのデータを予測スコアリングシステムに使用することができる。特定の事象の前後における各サンプルが本発明方法により得られるとき、予測スコアリングシステムに導入された各サンプルのデータは、識別面を境にして区別的に分類される。そのような予測スコアリングシステムには、例えばサポートベクターマシン（ＳＶＭ）、Ｋ−ｎｅａｒｅｓｔｎｅｉｇｈｂｏｕｒ法、Ｎｅｕｒａｌｎｅｔｗｏｒｋｓなどの使用が含まれる。ＳＶＭは、２つのクラス（又は２つの群）をどのように分類するかという問題を解くために作られた学習機械であり、線形及び非線形の両方の識別器である。ＳＶＭでは、訓練サンプルを完全に識別する超平面と、訓練サンプルとの最小距離を評価関数として用い、これを最大にするように超平面を決定する。サンプルは、超平面の周囲にあり、超平面をサポートしているように見えるため、サポートベクターと呼ばれる。ＳＶＭの詳細は、例えば麻生英樹著、統計科学のフロンテア６、パターン認識と学習の統計学２００４年岩波書店に記載されている。外れサンプルを排除したデータを基にして作成された予測スコアリングシステムに、試験サンプルからの遺伝子発現レベルに関するデータを割り付けるとき、該サンプルが、事象の前後の２つのクラスのいずれに該当するかを、高い信頼度をもって決定することができる。

後述の実施例では、食道癌病変部サンプルと食道非癌組織サンプル（正常組織）について、本発明の方法により外れサンプルを排除し、ＳＶＭの判別式で判別したとき、判別面を境に各組織が２つのクラスにほぼ正確に（約９０％の精度で）分類することができたことが示されている（図１）。

本発明はさらに、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択するためのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。

このプログラムは、コンピュータに、複数のサンプルにおける複数の遺伝子の発現レベルを入力する機能、該複数のサンプルから任意の１つのサンプルを選択する機能、各遺伝子の発現プロファイルを変数として、該１つのサンプルの、任意の他の１つのサンプルに対する相関を評価する機能、、各サンプルにおける相関係数値を平均化する機能、該選択、評価及び平均化を全サンプルについて実施する機能、該平均化した相関係数値を基準化する機能、該サンプルの相関を赤池情報量規準によって比較する機能、複数のサンプルに影響を与える任意のサンプルを外れサンプルとして選択する機能、及び該外れサンプルを出力する機能、を実現させるためのプログラムを含む。

第１の機能である、複数のサンプルにおける複数の遺伝子の発現レベルを入力する機能は、特定の事象の前後のサンプル、例えば正常と異常（例えば正常組織と、癌などの異常組織）のサンプル、薬剤投与前後のサンプルなどにおける遺伝子の発現レベル（例えばｍＲＮＡ、非コーディングＲＮＡ、ｍＲＮＡから誘導された核酸、非コーディングＲＮＡから誘導された核酸、ｃＤＮＡ又はａＲＮＡ、或いはタンパク質、ポリペプチド又はペプチド、の量又はレベル）の測定値をデータベースに入力し、データとして記憶、保存することを含む。

第２の機能である、複数のサンプルから任意の１つのサンプルを選択する機能は、事象の前後の各サンプルに対し保存された測定値を含むデータベースから、任意の１つのサンプルを選択することを含む。

第３の機能である、各遺伝子の発現プロファイルを変数として、該１つのサンプルの、他の全ての各サンプルに対する相関係数値を決定する機能は、サンプル間の相関を評価するためのものであり、相関係数値は、例えばピアソンの積率相関係数、スピアマンの順位相関係数又はケンドールの順位相関係数を求める式（上記）によって決定されうる。例示した相関係数を求める各式の変数に測定値を入力し、サンプル数（ｎ）を入力することによって相関係数が自動計算されうる。

第４の機能である、各サンプルにおいて決定された相関係数値を平均化する機能は、相関係数値の総和を求め、これを（サンプル数（ｎ）−１）で割算し、平均値を算出することを含む。

第５の機能である、前記サンプルの選択、相関係数値の決定及び相関係数値の平均化を残りの全サンプルについても実施する機能は、任意の別のサンプルを選択し、そのサンプルの、他の全ての各サンプルに対する相関を評価することを、全サンプルが選択されるまで繰り返すことを含む。

第６の機能である、該平均化した相関係数値を基準化する機能は、各サンプルの平均相関係数を標準偏差（分散）が１、平均が０となるように基準化することを含む。具体的に、基準化とは、各サンプルの平均相関係数値から全体の平均値を引き、さらに各サンプルの標準偏差で割ることで、０を基点とし、標準偏差が１の正規分布化（Ｚ変換）することを意味する。

第７の機能である、サンプル間の相関を赤池情報量規準（ＡＩＣ）によって比較する機能は、基準化した平均相関係数値について、各サンプル（１又は複数）を外れ値とみなしたときのＡＩＣ値を上記式から算出することを含む。

第８の機能である、複数のサンプルに影響を与える任意のサンプルを外れサンプルとして選択する機能は、上で算出されたＡＩＣ値が最小となるサンプルを外れサンプルと決定することを含む。

第９の機能である、該外れサンプルを出力する機能は、決定された外れサンプルを出力することを含む。

本発明の外れ値決定システムのフロー図の概要を、図２に示した。図から、本発明の方法に基づくフローの概要が理解されるだろう。

本発明は更にまた、上記の記録媒体を搭載したことを特徴とする、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択し出力するための装置を提供する。

本発明の装置は、特定の事象の前後における複数のサンプルから、一定品質以下の、或いは質の悪い、サンプルを選択し、それを出力することを特徴とする。これによって得られるサンプル群は、いずれも相関の高いサンプルから構成されるため、ＳＶＭなどの事象予測スコアリングシステムにデータを入力するとき２つのクラスに高い精度で分類される。したがって、本発明の装置は、このような事象予測スコアリングシステムをさらに含むことができる。事象予測スコアリングシステムは、例えば病理学的診断に利用される場合、検査サンプルが特定の疾患に関わるか否かを予測、結果の評点付け、及び結果を評価するために使用される。

上で詳細に説明したように、本発明の方法及び装置は、マイクロアレイ法を利用した網羅的遺伝子発現解析（階層的クラスタリングを含む）による、特定事象の前後における遺伝子発現プロファイルの変化を正確に捕らえるために威力を発揮することができるだろう。

本発明を、以下の実施例によってさらに具体的に説明するが、本発明の範囲は、それらの実施例によって制限されないものとする。

１．実験者の臨床病理学的所見
インフォームドコンセントを得た食道ガン患者から、食道ガン摘出手術時又は食道生検実施時に食道の摘出組織を得た。摘出された組織片について肉眼的及び／又は病理組織学的に食道ガン組織を判断し、食道ガン病変部と正常組織部を分けてただちに凍結し、液体窒素中で保存した。

２．全ＲＮＡ抽出とｃＤＮＡの調製
試料として食道ガン患者の食道組織における食道ガン病変部の組織、及び同一食道組織における非ガン組織（正常組織）を用いた。おのおのの組織から、Ｔｒｉｚｏｌｒｅａｇｅｎｔ（Ｉｎｖｉｔｒｏｇｅｎ社）を用いて、同社推奨のプロトコールによりｔｏｔａｌＲＮＡを調製した。

上述の方法で得られた全ＲＮＡ１マイクログラム（ｍｉｃｒｏｇ）について、ｏｌｉｇｏ（ｄＴ）プライマー及びランダムノナマーを併用し、ＣｙＳｃｒｉｂｅＦｉｒｓｔ−ＳｔｒａｎｄＣＤＮＡＬａｂｅｌｉｎｇＫｉｔ（ＧＥヘルスケア社）を用いてメーカー推奨のプロトコールで逆転写反応を行った。正常組織由来又は食道ガン組織由来の全ＲＮＡにはＣｙ３−ｄＵＴＰ（ＧＥヘルスケア社）を、リファレンスであるＨｕｍａｎＲｅｆｅｒｅｎｃｅ全ＲＮＡ（Ｓｔｒａｔａｇｅｎｅ社）にはＣｙ５−ｄＵＴＰ（ＧＥヘルスケア社）を添加して、メーカー推奨のプロトコールで逆転写反応時にｃＤＮＡの標識を行った。標識されたｃＤＮＡはＱＩＡｑｕｉｃｋＰＣＲｐｕｒｉｆｉｃａｔｉｏｎＫｉｔ（ＱＩＡＧＥＮ社）で精製してからハイブリダイズに用いた。

３．オリゴＤＮＡマイクロアレイの作製
オリゴＤＮＡマイクロアレイとしてはＡｆｆｙｍｅｔｒｉｘ社ＧｅｎｅＣｈｉｐ^ＴＭ（ＨｕｍａｎＧｅｎｏｍｅＵ１３３Ａ）及び本明細書中で述べる方法に従って作製したＤＮＡチップを使用した。

ＤＮＡチップの作製方法を以下に示す。最初に搭載するオリゴＤＮＡの種類を決定するために、Ａｆｆｙｍｅｔｒｉｘ社ＧｅｎｅＣｈｉｐ^ＴＭを用いて遺伝子の絞込みを行った。ＧｅｎｅＣｈｉｐ^ＴＭの操作については、ＣｏｍｐｌｅｔｅＧｅｎｅＣｈｉｐ^ＴＭＩｎｓｔｒｕｍｅｎｔＳｙｓｔｅｍなどの同社の定める手順に基づいて実施した。ＣｏｍｐｌｅｔｅＧｅｎｅＣｈｉｐ^ＴＭを用いた解析の結果、食道ガンによって発現変動が起こる可能性がある遺伝子及び実験対照となりうる遺伝子を計８９６１種抽出した。

抽出した８９６１種の遺伝子について、配列の重複をおこさないように配列特異性が高い部位の配列６０〜７０残基をそれぞれ選択して合成した。４倍に希釈したＳｏｌｕｔｉｏｎＩ（タカラバイオ社）に３０μＭとなるように溶解した、８９６１種の６０又は７０ｍｅｒからなる合成オリゴＤＮＡを、ＭＡＴＳＵＮＡＭＩＤＮＡマイクロアレイ用コートグラスＤＭＳＯ対応ＴｙｐｅＩアミノ修飾オリゴＤＮＡ固定コート（松浪硝子工業株式会社）上にスポッター（ＧＭＳ４１７ａｒｒａｙｅｒ，Ａｆｆｙｍｅｔｒｉｘ社）を用いて湿度環境５０〜６０％でスポットした。

４．ハイブリダイゼーション
標識したｃＤＮＡ１μｇをアンチセンスオリゴカクテル（ＱＩＡＧＥＮ）に溶解し、Ｇａｐカバーグラス（松浪硝子工業）を載せたＤＮＡチップにアプライし、４２℃で１６時間ハイブリダイズを行った。ハイブリダイズ終了後、ＤＮＡチップを２ｘＳＳＣ／０．１％ＳＤＳ、１ｘＳＳＣ、０．２ｘＳＳＣで順次洗浄した。

５．遺伝子発現量の測定
上述の方法によりハイブリダイゼーションを行ったＤＮＡチップをＡｇｉｌｅｎｔマイクロアレイスキャナー（Ａｇｉｌｅｎｔ社）を用いてスキャンし、画像を取得して蛍光強度を数値化した。統計学的処理はＳｐｅｅｄＴ．著「Ｓｔａｔｉｓｔｉｃａｌａｎａｌｙｓｉｓｏｆｇｅｎｅｅｘｐｒｅｓｓｉｏｎｍｉｃｒｏａｒｒａｙｄａｔａ」Ｃｈａｐｍａｎ＆Ｈａｌｌ／ＣＲＣ，及びＣａｕｓｔｏｎＨ．Ｃ．ら著「Ａｂｅｇｉｎｎｅｒ’ｓｇｕｉｄｅＭｉｃｒｏａｒｒａｙｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａａｎａｌｙｓｉｓ」Ｂｌａｃｋｗｅｌｌｐｕｂｌｉｓｈｉｎｇを参考にして行った。すなわちハイブリダイズ後の画像解析から得られたデータについて、それぞれの対数値をとり、ＬＯＷＥＳＳ（ｌｏｃａｌｌｙｗｅｉｇｈｔｅｄｓｃａｔｔｅｒｐｌｏｔｓｍｏｏｔｈｅｒ）による平滑化を行った。

６．外れサンプルの決定方法の確認（ピアソンの積率相関係数）
上述の方法により得られた、食道ガン患者の食道組織における食道ガン病変部の組織１例、及び同一食道組織における非ガン組織（正常組織）１４例のリファレンスｔｏｔａｌＲＮＡ由来に対する蛍光強度比について、ピアソンの積率相関係数を算出したあとでこれらを平均化した結果、病変部組織と正常組織との相関係数が０．５以上となり、正の相関があることが示された（表１）。すなわち、ピアソンの積率相関係数の数値から外れサンプルである病変部組織サンプルを除去できなかった。

７．外れサンプルの決定方法の確認（赤池情報量基準）
上述と同様に、食道ガン患者の食道組織における食道ガン病変部の組織１例、及び同一食道組織における非ガン組織（正常組織）１４例のリファレンスｔｏｔａｌＲＮＡ由来に対する蛍光強度比について、ピアソンの積率相関係数を算出したあとでこれらを平均化し、各サンプルの平均相関係数を分散が１、平均が０となるように基準化した（表２）。基準化した値について、各サンプルを外れ値とみなした場合の赤池情報量規準（ＡＩＣ）値を算出したところ、病変部組織サンプルを外れ値とみなした場合に赤池情報量規準値が最小となったため、本１サンプルを外れサンプルと決定した。すなわち、赤池情報量基準により病変部組織サンプルが統計的に外れサンプルであることが示された（表３）。

８．外れサンプルの決定
上述の方法（５）により得られた、食道ガン患者の食道組織における食道ガン病変部の組織（６８例）、及び同一食道組織における非ガン組織（正常組織）（７５例）のリファレンスｔｏｔａｌＲＮＡ由来に対する蛍光強度比について、ピアソンの積率相関係数を算出したあとでこれらを平均化し、各サンプルの平均相関係数を分散が１、平均が０となるように基準化した（表４、５）。基準化した値について、各サンプルを外れ値とみなした場合の赤池情報量規準（ＡＩＣ）値を算出したところ、病変部組織サンプルではＴ１１、Ｔ２９、非ガン組織サンプルではＮ４５、Ｎ４７及びＮ５６を外れ値とみなした場合に赤池情報量規準値が最小となったため、これらの５サンプルを外れサンプルと決定した（表６、７）。

９．予測スコアリングシステム
全サンプル１４３例のうち、食道ガン摘出手術時に採取されたサンプル１０４例を教師としてＧｅｎｏｍｉｃＰｒｏｆｉｌｅｒ（三井情報開発）に搭載したＳＶＭを用いる判別式を作成した。この判別式により、食道生検実施時に採取されたサンプル３９例のデータに対して、データの予測を行った。なおカーネルは、ｌｉｎｅａｒｋｅｒｎｅｌを用いた。また遺伝子は二群間（食道ガン病変部と正常組織部）でのｔ検定のｐ値をもとに選別したところ、ｐ値が小さい遺伝子から１４種を用いたときに予測率８９．７％が得られた。さらに、上述の手法により外れサンプルに決定した５例を除く９９例を教師とした場合も、同様にして食道生検実施時に採取されたサンプル３９例のデータに対する予測を行った。このときにはｐ値が小さい遺伝子から７種を用いたときに予測率が８９．７％に達した（図１）。このことから外れサンプルを除いた場合により精度の高い予測ができたことが確認され、外れサンプルの検出方法として有効であることが示された。

上記表１〜表７を以下に記載する。

表１は、食道非ガン組織（正常組織）サンプル１４例、食道ガン病変部サンプル１例における遺伝子発現プロファイルの平均相関係数値を示す。

表２は、食道非ガン組織（正常組織）サンプル１４例、食道ガン病変部サンプル１例における遺伝子発現プロファイルの基準化済み平均相関係数値を示す。

表３は、食道非ガン組織（正常組織）サンプル１４例、食道ガン病変部サンプル１例の平均相関係数に基づく赤池情報量規準値を示す。

表４は、食道ガン病変部サンプル６８例における遺伝子発現プロファイルの基準化済み平均相関係数値を示す。

表５は、食道非ガン組織（正常組織）サンプル７５例における遺伝子発現プロファイルの基準化済み平均相関係数値を示す。

表６は、食道ガン病変部サンプルの平均相関係数に基づく赤池情報量規準値を示す。

表７は、食道非ガン組織（正常組織）サンプルの平均相関係数に基づく赤池情報量規準値を示す。

本発明により、特定の事象におけるサンプル間での外れサンプルを高い信頼度をもって検出することが可能になったことから、例えば癌などの臨床病理学的診断において疾患の予測率が格段に向上した。本発明は、医療分野を含めて、動物や植物における種々の事象前後での遺伝子発現レベルの変化が生じる事象に関わるサンプルを高い信頼度で予測することを可能にするため、産業上有用である。

外れ値サンプルを除いたときの判別式による判別結果（縦軸：判別面からの距離）を示す。本発明の外れサンプルを検出するためのフロー図を示す。

Claims

生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に外れサンプルを決定する方法であって、
次の工程：
（１）複数のサンプルにおける複数遺伝子の発現レベルを測定する工程、
（２）前記複数のサンプルから任意の１つのサンプルを選択し、各遺伝子の発現プロファイルを変数として、前記任意の１つのサンプル以外の他の全ての各サンプルに対する相関係数値を決定し、決定された相関係数値を平均化する工程、
（３）工程（２）のサンプルの選択、相関係数値の決定、及び相関係数値の平均化を、残りの全サンプルについても実施し、さらに全サンプルについて決定された平均相関係数値を基準化する工程、
（４）工程（３）で得られた全サンプルについて基準化された平均相関係数値を赤池情報量規準に基づいて比較し、外れサンプルを選択する工程、
を含む、上記方法。
工程（２）におけるサンプル間の相関係数値が、ピアソンの積率相関係数、スピアマンの順位相関係数又はケンドールの順位相関係数である請求項１に記載の方法。
工程（４）において、工程（３）で基準化した平均相関係数値について、各サンプルを外れ値とみなしたときの赤池情報量規準値を求め、該赤池情報量規準値が最小となるようなサンプルを外れサンプルとして決定する、請求項１に記載の方法。
工程（１）において、遺伝子の発現レベルがマイクロアレイを用いて測定される、請求項１に記載の方法。
遺伝子発現レベルが、マイクロアレイ上の核酸に、生物の細胞もしくは組織に由来するｍＲＮＡ、非コーディングＲＮＡ、ｍＲＮＡから誘導された核酸、又は非コーディングＲＮＡから誘導された核酸をハイブリダイゼーションさせることによって測定される、請求項４に記載の方法。
特定の事象が疾患である、請求項１〜５のいずれか１項に記載の方法。
疾患が癌である、請求項６に記載の方法。
生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、該プログラムが、コンピュータに、複数のサンプルにおける複数の遺伝子の発現レベルを入力する機能、該複数のサンプルから任意の１つのサンプルを選択する機能、各遺伝子の発現プロファイルを変数として、該１つのサンプルの、他の全ての各サンプルに対する相関係数値を決定する機能、各サンプルにおいて決定された相関係数値を平均化する機能、該サンプルの選択、相関係数値の決定及び相関係数値の平均化を残りの全サンプルについても実施する機能、該平均化した相関係数値を基準化する機能、サンプル間の相関を赤池情報量規準によって比較する機能、複数のサンプルに影響を与える任意のサンプルを外れサンプルとして選択する機能、及び該外れサンプルを出力する機能、を実現させるためのプログラムを含む、上記記録媒体。
請求項８に記載の記録媒体を搭載したことを特徴とする、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択し出力するための装置。
事象予測スコアリングシステムをさらに含む、請求項９に記載の装置。