JP2009008442A - 外れサンプルの決定方法 - Google Patents

外れサンプルの決定方法 Download PDF

Info

Publication number
JP2009008442A
JP2009008442A JP2007167934A JP2007167934A JP2009008442A JP 2009008442 A JP2009008442 A JP 2009008442A JP 2007167934 A JP2007167934 A JP 2007167934A JP 2007167934 A JP2007167934 A JP 2007167934A JP 2009008442 A JP2009008442 A JP 2009008442A
Authority
JP
Japan
Prior art keywords
sample
samples
correlation coefficient
gene
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007167934A
Other languages
English (en)
Inventor
Hideo Akiyama
英雄 秋山
Shiori Tomoda
史緒里 友田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toray Industries Inc
Original Assignee
Toray Industries Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toray Industries Inc filed Critical Toray Industries Inc
Priority to JP2007167934A priority Critical patent/JP2009008442A/ja
Publication of JP2009008442A publication Critical patent/JP2009008442A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】生物学的事象の2群判定制度の向上を目的に外れサンプルを排除して、相関の高いサンプル群を絞り込む方法を提供する。
【解決手段】生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に外れサンプルを決定する方法であって、(1)複数のサンプルにおける複数遺伝子の発現レベルを測定する工程、(2)前記複数のサンプルから任意の1つのサンプルを選択し、各遺伝子の発現プロファイルを変数として、前記任意の1つのサンプル以外の他の全ての各サンプルに対する相関係数値を決定し、決定された相関係数値を平均化する工程、(3)工程(2)のサンプルの選択、相関係数値の決定、及び相関係数値の平均化を、残りの全サンプルについても実施し、さらに全サンプルについて決定された平均相関係数値を基準化する工程、(4)工程(3)で得られた全サンプルについて基準化された平均相関係数値を赤池情報量規準に基づいて比較し、外れサンプルを選択する工程、を含む上記方法。
【選択図】図2

Description

本発明は、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択するための方法を提供する。
本発明はまた、そのような外れサンプルを選択するためのプログラムを記録したコンピュータ読取り可能な記録媒体、及び該記録媒体を搭載した外れサンプルを選択し出力するための装置に関する。
近年、DNAマイクロアレイやDNAチップを利用する手法は組織病理学的診断のために実用化されつつある。この手法は、アレイ上の構造既知の多数のポリヌクレオチドと、生物由来の組織サンプルから調製された核酸とのハイブリダイゼーションを検出し、特定の遺伝子の発現と疾患との相関関係を決定し病理学的診断を行うことを含む。しかし、そのような相関関係を決定する際の問題点の1つは、疾患関連遺伝子の同定に悪影響を及ぼす外れサンプルをどのようにして決定するかということである。
階層的クラスタリングにおける従来の外れサンプルの決定法は、各遺伝子の発現プロファイルを変数として相関係数を求め、相関係数値で比較し、外れサンプルを決定することを含む(非特許文献1)。しかし、この手法では、閾値の設定が、測定者により恣意的であるため、正当性に欠ける場合がある。
また、外れサンプルを決定するための別の従来法は、組織特異的に発現変動する遺伝子の抽出のために、赤池情報量規準(AIC)法による外れ値検定により相関の低い遺伝子を絞り込むことを含む(非特許文献2)。具体的には、組織由来の複数サンプルの遺伝子プロファイルを決定し、参照サンプルに対する測定サンプルの遺伝子発現変動比を基準化し、AICにより、サンプル特異的に変動する遺伝子を外れ値として検定する。ここで、赤池情報量規準は、統計モデルの良さを評価するための指標であり、モデルの複雑さと、データとの適合度とのバランスを取るために使用される(非特許文献3)。
しかし、AICによる外れ値の算出を実施する前の段階において、分類目的、入力値、基準化などのファクターが結果を大きく左右する。したがって、これらのファクターをいかに設定するかが、例えば組織病理学的診断結果に大きく影響すると考えられる。
Microarray Gene Expression Data Analysis: A Beginner’s Guide (Helen C. Causton, Alvis Brazma, John Quackenbush. Blackwell Pub (2003/05)) K. Kadotaら, Physiol Genomics 12:251−259, 2003 H. Akaike, Ann Inst Statist math 22:203−217, 1970
本発明の目的は、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に外れサンプルを決定することであり、閾値の設定が恣意的でなくかつ論理的である方法を提供することである。
本発明の別の目的は、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択するためのプログラムを記録したコンピュータ読み取り可能な記録媒体、並びに、該記録媒体を搭載した、複数のサンプルから外れサンプルを選択し出力するための装置を提供することである。
本発明は、要約すると、以下の特徴を含む。
本発明は、第1の態様において、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に外れサンプルを決定する方法であって、
次の工程:
(1)複数のサンプルにおける複数遺伝子の発現レベルを測定する工程、
(2)前記複数のサンプルから任意の1つのサンプルを選択し、各遺伝子の発現プロファイルを変数として、前記任意の1つのサンプル以外の他の全ての各サンプルに対する相関係数値を決定し、決定された相関係数値を平均化する工程、
(3)工程(2)のサンプルの選択、相関係数値の決定、及び相関係数値の平均化を、残りの全サンプルについても実施し、さらに全サンプルについて決定された平均相関係数値を基準化する工程、
(4)工程(3)で得られた全サンプルについて基準化された平均相関係数値を赤池情報量規準に基づいて比較し、外れサンプルを選択する工程、
を含む上記方法を提供する。
その一実施形態において、工程(2)におけるサンプル間での相関係数値が、ピアソンの積率相関係数、スピアマンの順位相関係数又はケンドールの順位相関係数である。
別の実施形態において、工程(4)において、工程(3)で基準化した平均係数値について、各サンプルを外れ値とみなしたときの赤池情報量規準値を求め、該赤池情報量規準値が最小となるようなサンプルを外れサンプルとして決定する。
別の実施形態において、工程(1)において、遺伝子の発現レベルがマイクロアレイを用いて測定される。
別の実施形態において、遺伝子の発現レベルが、マイクロアレイ上の核酸に、生物の細胞もしくは組織に由来するmRNA、非コーディングRNA、mRNAから誘導された核酸、又は非コーディングRNAから誘導された核酸をハイブリダイゼーションさせることによって測定される。
本明細書中で使用する「核酸」なる用語は、DNA又はRNA、特にmRNA、非コーディングRNA、cDNA、又はaRNAを指す。
別の実施形態において、特定の事象が疾患である。
別の実施形態において、疾患が癌である。
本発明はまた、別の態様において、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、該プログラムが、コンピュータに、複数のサンプルにおける複数の遺伝子の発現レベルを入力する機能、該複数のサンプルから任意の1つのサンプルを選択する機能、各遺伝子の発現プロファイルを変数として、該1つのサンプルの、他の全ての各サンプルに対する相関係数値を決定する機能、各サンプルにおいて決定された相関係数値を平均化する機能、該サンプルの選択、相関係数値の決定及び相関係数値の平均化を残りの全サンプルについても実施する機能、該平均化した相関係数値を基準化する機能、サンプル間の相関を赤池情報量規準によって比較する機能、複数のサンプルに影響を与える任意のサンプルを外れサンプルとして選択する機能、及び該外れサンプルを出力する機能、を実現させるためのプログラムを含む、上記記録媒体を提供する。
本発明はさらに、別の態様において、上記の記録媒体を搭載したことを特徴とする、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択し出力するための装置を提供する。
その実施形態において、本発明の装置は、事象予測スコアリングシステムをさらに含むことができる。
本発明により、遺伝子の発現レベルに基づいて例えば病理学的診断を実施する際に、患者由来の複数のサンプルの中から、従来法と比べてより高い信頼性又はより高い精度をもって外れサンプルを検出することが可能であり、これによって特定の疾患との相関性の高いサンプル群を絞り込むことができる。
本発明は、上記のとおり、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に外れサンプルを決定する方法を提供する。
この方法の特徴は、サンプル間での相関を評価し、得られた相関係数値を平均化し、全サンプルの平均相関係数値を基準化する手法を採用することにある。これによって、サンプル間での特定の事象について外れ値を検定し、外れ値と認められたサンプルはデータとして採用されない、これによって該特定の事象について相関の高いサンプル群を絞り込むことが可能になる。従来の方法では、各遺伝子の発現プロファイルを変数として相関係数を求め、相関係数で比較し、外れサンプルを決定しており、この方法では、閾値の設定がかなり恣意的であり正当性に欠ける場合があるという問題点があった。これに対し、本発明の方法は、閾値の設定が恣意的でなく、論理的に外れサンプルを決定することができるため、判定結果の信頼性が顕著に増大するという利点がある。
本明細書中で使用する「外れサンプル」なる用語は、他のサンプルと比べて一定の基準から外れるサンプル、すなわち質の悪いデータを有するサンプル、を意味する。具体的には、この用語は、DNAマイクロアレイやDNAチップを使用して生物学的サンプルについて、ある生物学的事象の変化を検出する場合、事象と測定値との相関から外れるサンプルをいう。ここで、測定値とは、サンプル中に含まれる物質の量又はレベルの測定値を指す。物質は、ある事象の変化に伴ってそのレベルが変動する物質であり、本発明では特に遺伝子の発現産物、すなわちmRNA、非コーディングRNA及びそれから誘導された対応するcDNA、aRNAなど、並びに翻訳産物であるタンパク質を含む。したがって、本明細書中で使用する「遺伝子の発現レベル」とは、そのような遺伝子に対応するmRNA、非コーディングRNA、mRNAから誘導された核酸、非コーディングRNAから誘導された核酸、cDNA、aRNA、タンパク質、ポリペプチド、ペプチドなどの遺伝子関連物質のレベルを指す。そして、複数のサンプル間の1つの遺伝子の発現レベルの変化又は差異を示す特性が発現プロファイルである。
本明細書中で使用する「生物由来のサンプル」とは、動物(例えば哺乳動物(ヒトを含む)、鳥類などの脊椎動物、昆虫などの無脊椎動物など)、植物、微生物(例えば酵母、菌類、細菌など)などの生物から得られたあらゆるサンプルを意味し、例えば組織、細胞、体液(例えば血液、髄液、リンパ液、精液、尿、羊水など)、細胞又は組織抽出液などを含む。本発明の方法によれば、遺伝子の発現レベルを測定するために、必要に応じてサンプルからmRNA、非コーディングRNAを分離し、さらにcDNA又はaRNAを合成してもよい。
本明細書中で使用する「特定の事象」とは、事象の前後において遺伝子の発現プロファイルが変化するようなあらゆる事象を指す。そのような事象には、正常に対する異常状態、例えば疾患(転移性癌を含む癌、アレルギー性疾患、代謝疾患、血液疾患、老人性疾患など)、薬剤投与前後の薬剤に対する生体内応答の変化、ストレスの前後における生物応答の変化、例えば植物ストレス(例えば病害虫、乾燥、塩害、低温、高温などに対するストレス)の前後における生物応答の変化、疾患モデル動物を用いた薬剤に対する生体内応答性の変化などが含まれる。
以下に、本発明方法の各工程について説明する。
第1の工程は、複数のサンプルにおける複数遺伝子の発現レベルを測定することを含む。
遺伝子の発現レベルを測定するために、まず生物からサンプルを採取する。サンプルとして、事象の前後において遺伝子の発現プロファイルが変化するサンプルを少なくとも2種類準備する。サンプルとして、例えば組織(動物組織、植物組織など)、細胞(動物細胞、植物細胞、微生物細胞など)、体液(血液、髄液、リンパ液、精液、尿、羊水など)などが好ましく使用される。サンプルの採取法は、特に限定されないが、例えば動物については、生検、外科的切除など、植物については、成長点、根、カルスなどの植物組織の切除などを含む。測定に先立ち、測定すべき対象に応じてサンプルを前処理することが好ましい。測定対象がタンパク質、ポリペプチド又はペプチドである場合、サンプルを機械的又は化学的に処理し可溶性画分を得たのち、限外ろ過、ゲルろ過などの手法により、上記物質を含む画分を例えば分子量範囲1,000〜10,000、10,000〜100,000などにサイズ分離する。また、測定対象が核酸である場合、サンプルからフェノール/グアジニウム法などの公知の手法により全RNAを調製し、オリゴdTプライマーを鋳型に逆転写酵素により合成を行う手法、逆転写酵素/ポリメラーゼ反応により合成を行う手法により、cDNA、aRNAを調製する。mRNAの分離、精製、及びaRNA、cDNAの合成については、種々の関連キット(例えばAR Brown社、Invitrogen社、Epicentre社、Ambion社などの製品)が市販されているので、それらを使用することができる。
次に、上記のようにして得られたサンプルを用いて、事象の前後における遺伝子の発現レベルを測定する。
測定対象がタンパク質、ポリペプチド又はペプチドである場合、例えば質量分析法によってそれらの同定或いはそれらの量又はレベルを測定することが可能である。蛋白質質量分析法は、通常、タンパク質サンプルを還元アルキル化し、トリプシンなどのタンパク加水分解酵素で分解し分子量約10,000以下のサイズに断片化したのち、蛋白質質量分析装置、例えばマトリクス支援レーザー脱離イオン化(MALDI)法を用いたMALDI−TOF型装置、イオントラップ型装置、四重極型装置、フーリエ変換型装置などを用いて質量/荷電数(m/z)比とピーク強度の関係を示す、所謂マスフィンガープリントに基づいてタンパク質、ポリペプチド又はペプチドを同定することができる。同定に際しては、MASCOT検索ソフトを用いてデータベース(例えばSWISSPROT、NCBI−nr)に登録されたデータから同一のマスフィンガーの存在について検索することができる。あるいは、例えば構造既知のタンパク質、ポリペプチド又はペプチドに対する抗体をアレイ上に含むタンパク質マイクロアレイを準備し、サンプル中のタンパク質、ポリペプチド又はペプチドのレベルを測定することができる。
このとき、検出及び定量は酵素、放射性同位元素、蛍光物質、化学発光物質などのラベルをコンジュゲートしたIgGなどの二次抗体を使用する所謂サンドイッチ法によって行うことができる。酵素ラベルには、例えばペルオキシダーゼ、アルカリホスファターゼなどの酵素を含む。放射性同位元素ラベルには、リン、ヨウ素、イオウなどの同位元素(例えば32P、125I、35Sなど)が含まれる。蛍光ラベルには、フルオレサミン、ローダミン、ダンシル、それらの誘導体などが含まれる。化学発光ラベルには、ルミノール系、ルシフェラーゼ−ルシフェリン系などが含まれる。好ましいラベルは、蛍光ラベル及び放射性同位元素ラベルである。結合したラベルの強度に基づいてタンパク質、ポリペプチド又はペプチドの存在レベルを決定する。
測定対象が核酸である場合、既知の核酸がアレイ上に結合されたマイクロアレイを使用して、サンプルから調製された核酸(mRNA、非コーディングRNA、cDNA、aRNAなど)の存在又はレベルを測定することができる。マイクロアレイは、市販品、例えばGeneChip(商標)(Affymetrix)や3D−Gene(商標)(東レ株式会社)などを使用することができる。この手法によって、ある事象の前後で発現変動が起こる可能性のある数千種類の遺伝子を抽出することができるが、この中から、配列重複を起こさないかつ配列特異性が高い遺伝子配列部分を選択し、それを自動DNA合成機で合成し、新しいDNAマイクロアレイ上にスポッターを用いてDNAマイクロアレイ又はDNAチップを作製し、これを遺伝子発現レベルの測定に使用することもできる。
サンプルから調製した核酸を放射性同位体、蛍光物質(例えばシアニン色素Cy3、Cy5)などのラベルで標識し、マイクロアレイ上の核酸とハイブリダイゼーションを行い、結合したラベルの強度に基づいて発現レベルを決定する。ハイブリダイゼーションの条件は、ストリンジェントな条件が好ましく、そのような条件は、以下のものに限定されないが、例えば42℃、15時間以上のハイブリダーゼーション、その後の2×SSC/0.1%SDS、1×SSC、0.2×SSCでの順次の洗浄、或いは0.5×SSC/0.1%SDS、0.2×SSC/0.1%SDS、0.05×SSCを含む。ここで、1×SSCは、150mM塩化ナトリウム(NaCl)及び15mMクエン酸ナトリウムからなる水溶液である。
第2の工程は、上記複数のサンプルから任意の1つのサンプルを選択し、各遺伝子の発現プロファイルを変数として、該任意の1つのサンプル以外の任意の他の1つのサンプルに対する相関を評価することを含む。この選択及び評価は、下記の平均化とともに、別の任意のサンプルを選択し、それ以外の他のサンプルに対する相関を評価し、平均化する、というように全サンプルについて実施する。サンプル間での相関評価は、例えばピアソンの積率相関係数、スピアマンの順位相関係数又はケンドールの順位相関係数のいずれかを決定し、それを指標として評価することができる。
相関は、類似性の度合いを表す用語であり、相関係数は、2つのデータ列間の相関を示す統計学的な指標である。相関係数は、−1から+1の間の実数値をとり、+1に近いときは2つのデータ列間に正の相関があることを示し、逆に−1に近いときは負の相関があることを示す。また、0に近いほど、相関がないか又は非常に低いことを示す。
ピアソンの積率相関係数rは、次式のとおり、2変数XとYがn組あるとするとき、変数Xと変数Yの共分散を、各変数の標準偏差の積で割算した値である。
Figure 2009008442
スピアマンの順位相関係数は、統計学において順位データから求められる相関の指標である。データ中の生のスコアを順位に変換し、各ペアにおける2つの変数の順位の差を計算する。例えば、変数XとYについて、n組のケースを考えるとき、各変数について小さい方から順位をつけ(同じ順位がある場合には、平均順位を付ける)、両者の順位の差をとり、これをdとする。スピアマンの順位相関係数rは、次式によって求めることができる。
Figure 2009008442
ケンドールの順位相関係数(r)は、例えば、変数XとYについて、n組のケースを考えるとき、各変数について小さい方から順位をつけ、変数Xについて小さい順に並べ変え(同じ順位の場合には平均順位をつける)、変数Y(i=1,2,..,n−1)について、Y<Yの個数をPi、Y>Yの個数をQiとする(j=1+1,i+2,..,n)とき、次式によって求めることができる。
Figure 2009008442
上記の3つの相関係数の求め方のさらなる詳細については、統計学の教科書、例えばMicroarray Gene Expression Data Analysis: A Beginner’s Guide (Helen C. Causton, Alvis Brazma, John Quackenbush. Blackwell Pub (2003))などに記載されているので、それを参照することができる。
第3の工程は、上記工程2によって得られた各サンプルの相関係数値を平均化し、さらに全サンプルにおける平均相関係数値を基準化することを含む。この工程は、本発明の方法において特徴的な工程である。
全サンプル(n)の相関係数値の合計を(n−1)で割算し平均値を求める。さらに、各サンプルの平均相関係数を、標準偏差が1、平均が0となるように基準化する。平均相関係数を基準化するとは、各サンプルの平均相関係数値から全体の平均値を引き、さらに各サンプルの標準偏差で割ることで、0を基点とし、標準偏差(分散)が1の正規分布化(Z変換)することを意味する。従来の外れサンプルの決定法では、各サンプルにおける相関係数で比較し、平均化および平均値の基準化を行わないため、閾値の設定が、恣意的であり、例えば閾値の設定を0.5以上とするとき0.5未満は全て排除されるし、或いは閾値の設定を0.6としたがそれが不都合なとき設定を0.7に変更するなど恣意的に行われる。このことは、測定者によって異なる評価結果を与える可能性が大きいことを意味する。これに対して、本発明のように平均相関係数を基準化するときには、手法が恣意的でなく論理的に外れサンプルを決定することができる。
第4の工程は、工程3によって得られた複数のサンプルにおける相関を赤池情報量規準(AIC)に基づいて比較し、外れサンプルを選択することを含む。
具体的には、工程3で基準化した値について、各サンプルを外れ値とみなしたときの赤池情報量規準値を求め、該赤池情報量規準値が最小となるようなサンプルを外れサンプルとして決定する。
AICは、統計モデルの良さを評価するための指標である。例えば、ある測定データを統計的に説明するモデルを作成することを考える場合、パラメータの数や次数を増やせば増やすほど、その測定データとの適合度を高めることができる。しかし、その反面、ノイズなどの偶発的な(測定対象の構造と無関係な)変動にも無理にあわせてしまうため、同種のデータには合わなくなる。この問題を避けるには、モデル化のパラメータ数を抑える必要があるが、実際にどの数に抑えるかは難しい問題である。AICは、この問題に一つの解を与える。具体的にはAIC最小のモデルを選択すれば、多くの場合、良いモデルが選択できる。
AICは、次式から求めることができる。
Figure 2009008442
(ここで、Lは最大尤度、kは自由パラメータの数である。)
AICにはいくつかのバージョンがある。例えば、サンプル数が少ない場合の補正を加えたAICcの式は、次の通りである。
Figure 2009008442
(ここで、nはサンプル数である。)
nが大きくなるにつれてAICcは、AICへと収束してゆく。
本発明の方法では、任意の1又は複数のサンプルを外れ値とみなして、AIC値を上記の式から算出しAIC値が最小となるとき、それらのサンプルを外れサンプルと決定する。外れサンプルは、疾患などの事象の予測スコアリングシステムの判定信頼度を低下させる、一定品質以下のサンプルであるため、該判定信頼度を高めるうえで、予測スコアリングシステムの形成時に排除されるべきサンプルである。
したがって、本発明の方法により外れサンプルが排除された残りのサンプルは一定品質以上のものであり、そのようなサンプルからのデータを予測スコアリングシステムに使用することができる。特定の事象の前後における各サンプルが本発明方法により得られるとき、予測スコアリングシステムに導入された各サンプルのデータは、識別面を境にして区別的に分類される。そのような予測スコアリングシステムには、例えばサポートベクターマシン(SVM)、K−nearest neighbour法、Neural networksなどの使用が含まれる。SVMは、2つのクラス(又は2つの群)をどのように分類するかという問題を解くために作られた学習機械であり、線形及び非線形の両方の識別器である。SVMでは、訓練サンプルを完全に識別する超平面と、訓練サンプルとの最小距離を評価関数として用い、これを最大にするように超平面を決定する。サンプルは、超平面の周囲にあり、超平面をサポートしているように見えるため、サポートベクターと呼ばれる。SVMの詳細は、例えば麻生英樹著、統計科学のフロンテア6、パターン認識と学習の統計学2004年岩波書店に記載されている。外れサンプルを排除したデータを基にして作成された予測スコアリングシステムに、試験サンプルからの遺伝子発現レベルに関するデータを割り付けるとき、該サンプルが、事象の前後の2つのクラスのいずれに該当するかを、高い信頼度をもって決定することができる。
後述の実施例では、食道癌病変部サンプルと食道非癌組織サンプル(正常組織)について、本発明の方法により外れサンプルを排除し、SVMの判別式で判別したとき、判別面を境に各組織が2つのクラスにほぼ正確に(約90%の精度で)分類することができたことが示されている(図1)。
本発明はさらに、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択するためのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。
このプログラムは、コンピュータに、複数のサンプルにおける複数の遺伝子の発現レベルを入力する機能、該複数のサンプルから任意の1つのサンプルを選択する機能、各遺伝子の発現プロファイルを変数として、該1つのサンプルの、任意の他の1つのサンプルに対する相関を評価する機能、、各サンプルにおける相関係数値を平均化する機能、該選択、評価及び平均化を全サンプルについて実施する機能、該平均化した相関係数値を基準化する機能、該サンプルの相関を赤池情報量規準によって比較する機能、複数のサンプルに影響を与える任意のサンプルを外れサンプルとして選択する機能、及び該外れサンプルを出力する機能、を実現させるためのプログラムを含む。
第1の機能である、複数のサンプルにおける複数の遺伝子の発現レベルを入力する機能は、特定の事象の前後のサンプル、例えば正常と異常(例えば正常組織と、癌などの異常組織)のサンプル、薬剤投与前後のサンプルなどにおける遺伝子の発現レベル(例えばmRNA、非コーディングRNA、mRNAから誘導された核酸、非コーディングRNAから誘導された核酸、cDNA又はaRNA、或いはタンパク質、ポリペプチド又はペプチド、の量又はレベル)の測定値をデータベースに入力し、データとして記憶、保存することを含む。
第2の機能である、複数のサンプルから任意の1つのサンプルを選択する機能は、事象の前後の各サンプルに対し保存された測定値を含むデータベースから、任意の1つのサンプルを選択することを含む。
第3の機能である、各遺伝子の発現プロファイルを変数として、該1つのサンプルの、他の全ての各サンプルに対する相関係数値を決定する機能は、サンプル間の相関を評価するためのものであり、相関係数値は、例えばピアソンの積率相関係数、スピアマンの順位相関係数又はケンドールの順位相関係数を求める式(上記)によって決定されうる。例示した相関係数を求める各式の変数に測定値を入力し、サンプル数(n)を入力することによって相関係数が自動計算されうる。
第4の機能である、各サンプルにおいて決定された相関係数値を平均化する機能は、相関係数値の総和を求め、これを(サンプル数(n)−1)で割算し、平均値を算出することを含む。
第5の機能である、前記サンプルの選択、相関係数値の決定及び相関係数値の平均化を残りの全サンプルについても実施する機能は、任意の別のサンプルを選択し、そのサンプルの、他の全ての各サンプルに対する相関を評価することを、全サンプルが選択されるまで繰り返すことを含む。
第6の機能である、該平均化した相関係数値を基準化する機能は、各サンプルの平均相関係数を標準偏差(分散)が1、平均が0となるように基準化することを含む。具体的に、基準化とは、各サンプルの平均相関係数値から全体の平均値を引き、さらに各サンプルの標準偏差で割ることで、0を基点とし、標準偏差が1の正規分布化(Z変換)することを意味する。
第7の機能である、サンプル間の相関を赤池情報量規準(AIC)によって比較する機能は、基準化した平均相関係数値について、各サンプル(1又は複数)を外れ値とみなしたときのAIC値を上記式から算出することを含む。
第8の機能である、複数のサンプルに影響を与える任意のサンプルを外れサンプルとして選択する機能は、上で算出されたAIC値が最小となるサンプルを外れサンプルと決定することを含む。
第9の機能である、該外れサンプルを出力する機能は、決定された外れサンプルを出力することを含む。
本発明の外れ値決定システムのフロー図の概要を、図2に示した。図から、本発明の方法に基づくフローの概要が理解されるだろう。
本発明は更にまた、上記の記録媒体を搭載したことを特徴とする、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択し出力するための装置を提供する。
本発明の装置は、特定の事象の前後における複数のサンプルから、一定品質以下の、或いは質の悪い、サンプルを選択し、それを出力することを特徴とする。これによって得られるサンプル群は、いずれも相関の高いサンプルから構成されるため、SVMなどの事象予測スコアリングシステムにデータを入力するとき2つのクラスに高い精度で分類される。したがって、本発明の装置は、このような事象予測スコアリングシステムをさらに含むことができる。事象予測スコアリングシステムは、例えば病理学的診断に利用される場合、検査サンプルが特定の疾患に関わるか否かを予測、結果の評点付け、及び結果を評価するために使用される。
上で詳細に説明したように、本発明の方法及び装置は、マイクロアレイ法を利用した網羅的遺伝子発現解析(階層的クラスタリングを含む)による、特定事象の前後における遺伝子発現プロファイルの変化を正確に捕らえるために威力を発揮することができるだろう。
本発明を、以下の実施例によってさらに具体的に説明するが、本発明の範囲は、それらの実施例によって制限されないものとする。
1.実験者の臨床病理学的所見
インフォームドコンセントを得た食道ガン患者から、食道ガン摘出手術時又は食道生検実施時に食道の摘出組織を得た。摘出された組織片について肉眼的及び/又は病理組織学的に食道ガン組織を判断し、食道ガン病変部と正常組織部を分けてただちに凍結し、液体窒素中で保存した。
2.全RNA抽出とcDNAの調製
試料として食道ガン患者の食道組織における食道ガン病変部の組織、及び同一食道組織における非ガン組織(正常組織)を用いた。おのおのの組織から、Trizol reagent(Invitrogen社)を用いて、同社推奨のプロトコールによりtotalRNAを調製した。
上述の方法で得られた全RNA 1マイクログラム(micro g)について、oligo(dT)プライマー及びランダムノナマーを併用し、CyScribe First−Strand CDNA Labeling Kit(GEヘルスケア社)を用いてメーカー推奨のプロトコールで逆転写反応を行った。正常組織由来又は食道ガン組織由来の全RNAにはCy3−dUTP(GEヘルスケア社)を、リファレンスであるHuman Reference 全RNA(Stratagene社)にはCy5−dUTP(GEヘルスケア社)を添加して、メーカー推奨のプロトコールで逆転写反応時にcDNAの標識を行った。標識されたcDNAはQIA quick PCR purification Kit(QIAGEN社)で精製してからハイブリダイズに用いた。
3.オリゴDNAマイクロアレイの作製
オリゴDNAマイクロアレイとしてはAffymetrix社GeneChipTM(Human Genome U133 A)及び本明細書中で述べる方法に従って作製したDNAチップを使用した。
DNAチップの作製方法を以下に示す。最初に搭載するオリゴDNAの種類を決定するために、Affymetrix社GeneChipTMを用いて遺伝子の絞込みを行った。GeneChipTMの操作については、Complete GeneChipTM Instrument Systemなどの同社の定める手順に基づいて実施した。Complete GeneChipTMを用いた解析の結果、食道ガンによって発現変動が起こる可能性がある遺伝子及び実験対照となりうる遺伝子を計8961種抽出した。
抽出した8961種の遺伝子について、配列の重複をおこさないように配列特異性が高い部位の配列60〜70残基をそれぞれ選択して合成した。4倍に希釈したSolution I(タカラバイオ社)に30μMとなるように溶解した、8961種の60又は70merからなる合成オリゴDNAを、MATSUNAMI DNAマイクロアレイ用コートグラスDMSO対応 TypeIアミノ修飾オリゴDNA固定コート(松浪硝子工業株式会社)上にスポッター(GMS417arrayer,Affymetrix社)を用いて湿度環境50〜60%でスポットした。
4.ハイブリダイゼーション
標識したcDNA 1μgをアンチセンスオリゴカクテル(QIAGEN)に溶解し、Gapカバーグラス(松浪硝子工業)を載せたDNAチップにアプライし、42℃で16時間ハイブリダイズを行った。ハイブリダイズ終了後、DNAチップを2xSSC/0.1%SDS、1xSSC、0.2xSSCで順次洗浄した。
5.遺伝子発現量の測定
上述の方法によりハイブリダイゼーションを行ったDNAチップをAgilentマイクロアレイスキャナー(Agilent社)を用いてスキャンし、画像を取得して蛍光強度を数値化した。統計学的処理はSpeed T.著「Statistical analysis of gene expression microarray data」Chapman & Hall/CRC,及びCauston H.C.ら著「A beginner’s guide Microarray gene expression data analysis」Blackwell publishingを参考にして行った。すなわちハイブリダイズ後の画像解析から得られたデータについて、それぞれの対数値をとり、LOWESS(locally weighted scatterplot smoother)による平滑化を行った。
6.外れサンプルの決定方法の確認(ピアソンの積率相関係数)
上述の方法により得られた、食道ガン患者の食道組織における食道ガン病変部の組織1例、及び同一食道組織における非ガン組織(正常組織)14例のリファレンスtotalRNA由来に対する蛍光強度比について、ピアソンの積率相関係数を算出したあとでこれらを平均化した結果、病変部組織と正常組織との相関係数が0.5以上となり、正の相関があることが示された(表1)。すなわち、ピアソンの積率相関係数の数値から外れサンプルである病変部組織サンプルを除去できなかった。
7.外れサンプルの決定方法の確認(赤池情報量基準)
上述と同様に、食道ガン患者の食道組織における食道ガン病変部の組織1例、及び同一食道組織における非ガン組織(正常組織)14例のリファレンスtotalRNA由来に対する蛍光強度比について、ピアソンの積率相関係数を算出したあとでこれらを平均化し、各サンプルの平均相関係数を分散が1、平均が0となるように基準化した(表2)。基準化した値について、各サンプルを外れ値とみなした場合の赤池情報量規準(AIC)値を算出したところ、病変部組織サンプルを外れ値とみなした場合に赤池情報量規準値が最小となったため、本1サンプルを外れサンプルと決定した。すなわち、赤池情報量基準により病変部組織サンプルが統計的に外れサンプルであることが示された(表3)。
8.外れサンプルの決定
上述の方法(5)により得られた、食道ガン患者の食道組織における食道ガン病変部の組織(68例)、及び同一食道組織における非ガン組織(正常組織)(75例)のリファレンスtotalRNA由来に対する蛍光強度比について、ピアソンの積率相関係数を算出したあとでこれらを平均化し、各サンプルの平均相関係数を分散が1、平均が0となるように基準化した(表4、5)。基準化した値について、各サンプルを外れ値とみなした場合の赤池情報量規準(AIC)値を算出したところ、病変部組織サンプルではT11、T29、非ガン組織サンプルではN45、N47及びN56を外れ値とみなした場合に赤池情報量規準値が最小となったため、これらの5サンプルを外れサンプルと決定した(表6、7)。
9.予測スコアリングシステム
全サンプル143例のうち、食道ガン摘出手術時に採取されたサンプル104例を教師としてGenomic Profiler(三井情報開発)に搭載したSVMを用いる判別式を作成した。この判別式により、食道生検実施時に採取されたサンプル39例のデータに対して、データの予測を行った。なおカーネルは、linear kernelを用いた。また遺伝子は二群間(食道ガン病変部と正常組織部)でのt検定のp値をもとに選別したところ、p値が小さい遺伝子から14種を用いたときに予測率89.7%が得られた。さらに、上述の手法により外れサンプルに決定した5例を除く99例を教師とした場合も、同様にして食道生検実施時に採取されたサンプル39例のデータに対する予測を行った。このときにはp値が小さい遺伝子から7種を用いたときに予測率が89.7%に達した(図1)。このことから外れサンプルを除いた場合により精度の高い予測ができたことが確認され、外れサンプルの検出方法として有効であることが示された。
上記表1〜表7を以下に記載する。
表1は、食道非ガン組織(正常組織)サンプル14例、食道ガン病変部サンプル1例における遺伝子発現プロファイルの平均相関係数値を示す。
Figure 2009008442
表2は、食道非ガン組織(正常組織)サンプル14例、食道ガン病変部サンプル1例における遺伝子発現プロファイルの基準化済み平均相関係数値を示す。
Figure 2009008442
表3は、食道非ガン組織(正常組織)サンプル14例、食道ガン病変部サンプル1例の平均相関係数に基づく赤池情報量規準値を示す。
Figure 2009008442
表4は、食道ガン病変部サンプル68例における遺伝子発現プロファイルの基準化済み平均相関係数値を示す。
Figure 2009008442
表5は、食道非ガン組織(正常組織)サンプル75例における遺伝子発現プロファイルの基準化済み平均相関係数値を示す。
Figure 2009008442
表6は、食道ガン病変部サンプルの平均相関係数に基づく赤池情報量規準値を示す。
Figure 2009008442
表7は、食道非ガン組織(正常組織)サンプルの平均相関係数に基づく赤池情報量規準値を示す。
Figure 2009008442
本発明により、特定の事象におけるサンプル間での外れサンプルを高い信頼度をもって検出することが可能になったことから、例えば癌などの臨床病理学的診断において疾患の予測率が格段に向上した。本発明は、医療分野を含めて、動物や植物における種々の事象前後での遺伝子発現レベルの変化が生じる事象に関わるサンプルを高い信頼度で予測することを可能にするため、産業上有用である。
外れ値サンプルを除いたときの判別式による判別結果(縦軸:判別面からの距離)を示す。 本発明の外れサンプルを検出するためのフロー図を示す。

Claims (10)

  1. 生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に外れサンプルを決定する方法であって、
    次の工程:
    (1)複数のサンプルにおける複数遺伝子の発現レベルを測定する工程、
    (2)前記複数のサンプルから任意の1つのサンプルを選択し、各遺伝子の発現プロファイルを変数として、前記任意の1つのサンプル以外の他の全ての各サンプルに対する相関係数値を決定し、決定された相関係数値を平均化する工程、
    (3)工程(2)のサンプルの選択、相関係数値の決定、及び相関係数値の平均化を、残りの全サンプルについても実施し、さらに全サンプルについて決定された平均相関係数値を基準化する工程、
    (4)工程(3)で得られた全サンプルについて基準化された平均相関係数値を赤池情報量規準に基づいて比較し、外れサンプルを選択する工程、
    を含む、上記方法。
  2. 工程(2)におけるサンプル間の相関係数値が、ピアソンの積率相関係数、スピアマンの順位相関係数又はケンドールの順位相関係数である請求項1に記載の方法。
  3. 工程(4)において、工程(3)で基準化した平均相関係数値について、各サンプルを外れ値とみなしたときの赤池情報量規準値を求め、該赤池情報量規準値が最小となるようなサンプルを外れサンプルとして決定する、請求項1に記載の方法。
  4. 工程(1)において、遺伝子の発現レベルがマイクロアレイを用いて測定される、請求項1に記載の方法。
  5. 遺伝子発現レベルが、マイクロアレイ上の核酸に、生物の細胞もしくは組織に由来するmRNA、非コーディングRNA、mRNAから誘導された核酸、又は非コーディングRNAから誘導された核酸をハイブリダイゼーションさせることによって測定される、請求項4に記載の方法。
  6. 特定の事象が疾患である、請求項1〜5のいずれか1項に記載の方法。
  7. 疾患が癌である、請求項6に記載の方法。
  8. 生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、該プログラムが、コンピュータに、複数のサンプルにおける複数の遺伝子の発現レベルを入力する機能、該複数のサンプルから任意の1つのサンプルを選択する機能、各遺伝子の発現プロファイルを変数として、該1つのサンプルの、他の全ての各サンプルに対する相関係数値を決定する機能、各サンプルにおいて決定された相関係数値を平均化する機能、該サンプルの選択、相関係数値の決定及び相関係数値の平均化を残りの全サンプルについても実施する機能、該平均化した相関係数値を基準化する機能、サンプル間の相関を赤池情報量規準によって比較する機能、複数のサンプルに影響を与える任意のサンプルを外れサンプルとして選択する機能、及び該外れサンプルを出力する機能、を実現させるためのプログラムを含む、上記記録媒体。
  9. 請求項8に記載の記録媒体を搭載したことを特徴とする、生物由来のサンプルにおいて遺伝子の発現レベルに基づいて特定の事象を識別する際に複数のサンプルから外れサンプルを選択し出力するための装置。
  10. 事象予測スコアリングシステムをさらに含む、請求項9に記載の装置。
JP2007167934A 2007-06-26 2007-06-26 外れサンプルの決定方法 Pending JP2009008442A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007167934A JP2009008442A (ja) 2007-06-26 2007-06-26 外れサンプルの決定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007167934A JP2009008442A (ja) 2007-06-26 2007-06-26 外れサンプルの決定方法

Publications (1)

Publication Number Publication Date
JP2009008442A true JP2009008442A (ja) 2009-01-15

Family

ID=40323678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007167934A Pending JP2009008442A (ja) 2007-06-26 2007-06-26 外れサンプルの決定方法

Country Status (1)

Country Link
JP (1) JP2009008442A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106404842A (zh) * 2016-11-29 2017-02-15 国网浙江省电力公司电力科学研究院 一种金相组织评估测试方法
WO2020080271A1 (ja) * 2018-10-17 2020-04-23 株式会社日立ハイテク 異常判定方法、および自動分析装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106404842A (zh) * 2016-11-29 2017-02-15 国网浙江省电力公司电力科学研究院 一种金相组织评估测试方法
WO2020080271A1 (ja) * 2018-10-17 2020-04-23 株式会社日立ハイテク 異常判定方法、および自動分析装置
CN112955749A (zh) * 2018-10-17 2021-06-11 株式会社日立高新技术 异常判定方法和自动分析装置
JPWO2020080271A1 (ja) * 2018-10-17 2021-12-02 株式会社日立ハイテク 異常判定方法、および自動分析装置
JP7299914B2 (ja) 2018-10-17 2023-06-28 株式会社日立ハイテク 異常判定方法、および自動分析装置
CN112955749B (zh) * 2018-10-17 2023-12-12 株式会社日立高新技术 异常判定方法和自动分析装置

Similar Documents

Publication Publication Date Title
US20240079092A1 (en) Systems and methods for deriving and optimizing classifiers from multiple datasets
CN104903468B (zh) 用于帕金森氏病的新诊断MiRNA标志物
JP2014531202A (ja) 喫煙状態を判定するための方法および組成物
CA2877436C (en) Systems and methods for generating biomarker signatures
Alagaratnam et al. Serum protein profiling in mice: identification of Factor XIIIa as a potential biomarker for muscular dystrophy
CN106661623A (zh) 使用miRNA生物标志物相对于多发性硬化诊断视神经脊髓炎
RU2719160C2 (ru) Способы, носители и наборы для улучшенного анализа сравнительной геномной гибридизации
US10295540B1 (en) Systems and methods for phenotypic classification using biological samples of different sample types
CN113201590B (zh) 用于评估肝细胞癌早期复发风险的lncRNA、评估方法及装置
WO2015079060A2 (en) Mirnas as advanced diagnostic tool in patients with cardiovascular disease, in particular acute myocardial infarction (ami)
KR20160086145A (ko) 유방암의 예후 예측용 유전자 선별방법
JP2009008442A (ja) 外れサンプルの決定方法
CN116312800A (zh) 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质
CN108588218B (zh) 一种血清miRNA组合的微创检测试剂盒
ZA200503797B (en) Product and method
US20030194701A1 (en) Diffuse large cell lymphoma diagnosis and outcome prediction by expression analysis
WO2010000320A1 (en) In vitro diagnosis/prognosis method and kit for assessment of tolerance in liver transplantation
AU2019446735B2 (en) Method for discovering marker for predicting risk of depression or suicide using multi-omics analysis, marker for predicting risk of depression or suicide, and method for predicting risk of depression or suicide using multi-omics analysis
JP2008090833A (ja) 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム
WO2018077225A1 (en) The primary site of metastatic cancer identification method and system thereof
WO2024062867A1 (ja) 対象のがん罹患の可能性を分析する方法
US20230332235A1 (en) Biomarkers for diagnosing a disease such as heart or cardiovascular disease
EP4023770A1 (en) A method of examining genes for the diagnosis of thyroid tumors, a set for the diagnosis of thyroid tumors and application
WO2004092365A1 (ja) 肝障害関連遺伝子群の抽出選択法およびそれを用いた肝障害もしくは肝機能評価・診断方法
KR20200085144A (ko) 모체 시료 중 태아 분획을 결정하는 방법