JP2006271385A

JP2006271385A - 大腸癌の予測方法

Info

Publication number: JP2006271385A
Application number: JP2006086448A
Authority: JP
Inventors: Kikuya Katou; 菊也加藤; Kyoko Iwao; 恭子岩尾; Shinzaburo Noguchi; 眞三郎野口; Akira Matoba; 亮的場
Original assignee: Hitachi Software Engineering Co Ltd; DNA Chip Research Inc
Current assignee: Hitachi Software Engineering Co Ltd; DNA Chip Research Inc
Priority date: 2001-03-14
Filing date: 2006-03-27
Publication date: 2006-10-12

Abstract

【課題】癌の予測方法及びドラッグデザイン方法の提供。
【解決手段】大腸癌組織検体及び正常組織検体から遺伝子を採取し、遺伝子の発現量を測定し、各遺伝子につき、大腸癌組織検体における発現が正常組織検体における発現と比べて低発現、中程度及び高発現の何れであるかを判定し、大腸癌組織検体を採取した大腸癌の状態と前記遺伝子の発現パターンとを関連付けた上で、状態が不明である大腸癌組織検体について、前記遺伝子の発現量を測定し、各遺伝子につき、その発現量が低発現、中程度及び高発現の何れに相当するかを判定し、その発現パターンから大腸癌の状態を予測することを特徴とする大腸癌の状態を予測する方法。
【選択図】なし

Description

本発明は、癌の予測方法及びドラッグデザイン方法に関する。特に、本発明は癌の悪性度を評価するための遺伝子診断に有用な癌の予測方法に関する。また本発明は、上記予測方法により得られた結果を利用したドラッグデザイン方法に関する。

乳癌及び大腸癌をはじめとする種々の固形癌は、症例によって悪性度が異なる。それぞれの症例における癌の悪性度によって治療法が変わってくるため、予後を予測することは極めて重要である。現在、癌の予後診断は、CT、X線などによる画像分析、組織型のタイピングなどの病理学的分析、及び腫瘍マーカーを利用した分析などにより行われている。例えば、乳癌及び大腸癌の分子腫瘍マーカーとしてCEAがよく知られている。しかしながらこのマーカーは早期癌での陽性率が低く、進行癌になってから検出されることが多いため、癌の診断に十分とはいえない。この他、癌の悪性度について種々の予測法が開発されてきた。しかし、悪性度との相関関係は部分的であり、予測結果は満足できるものではなかった。

最近、DNAチップをはじめとする技術により、遺伝子の発現状態を体系的に解析できるようになってきた。そのため、遺伝子の発現状態から癌の悪性度を予測できる可能性が出てきた。

一方、癌が遺伝子異常を原因とする疾病であることが次第に明らかとなり、これら原因遺伝子の検索とその遺伝子異常の検出による癌の遺伝子診断が、臨床医学の分野において注目されている。癌の遺伝子診断は、癌によって被るリスクを予知し、癌を予防又は早期治療する上で必要性が高い。

CANCER RESEARCH, 59(1999) p.5656-5661

本発明は、癌の予測方法及びドラッグデザイン方法を提供することを目的とする。

本発明者は、上記課題を解決するために鋭意研究を行った結果、癌の原発巣から得られた遺伝子の発現量を多変量解析し、その解析結果によって癌を予測し得ることに成功し、本発明を完成するに至った。

すなわち、本発明は、癌の分類方法であって、以下の工程：
(a) 検体から遺伝子を採取してその発現量を測定し、
(b) 測定された遺伝子のうち少なくとも１つの遺伝子を選択し、
(c) 選択された遺伝子について前記発現量の測定結果を多変量解析し、
(d) 前記多変量解析結果を指標として前記遺伝子の発現パターンが類似する群ごとに検体を分類すること、
を含む前記分類方法である。

また本発明は、癌の予測方法であって、以下の工程：
(a) 検体から遺伝子を採取してその発現量を測定し、
(b) 測定された遺伝子のうち少なくとも１つの遺伝子を選択し、
(c) 選択された遺伝子について前記発現量の測定結果を多変量解析し、
(d) 前記多変量解析結果を指標として前記遺伝子の発現パターンが類似する群ごとに検体を分類し、
(e) 得られる分類結果から癌の状態を予測すること、
を含む前記予測方法である。

上記予測方法において、さらに、癌の状態に特徴的な発現パターンを決定し、癌を予測しようとする癌の検体から採取した遺伝子の発現パターンを前記特徴的な発現パターンと比較する工程が含まれてもよい。

癌の状態としては、癌の有無、癌の悪性度、癌の転移の有無及び癌の再発の有無からなる群から選ばれる少なくとも１つが挙げられる。癌の転移としてはリンパ節転移が含まれ、また再発としては早期再発が含まれる。

選択される遺伝子は、表１の１〜27に示される塩基配列を含む遺伝子群I、表２の28〜153に示される塩基配列を含む遺伝子群II、及び／又は表３の154〜289に示される塩基配列を含む遺伝子群IIIから選ばれるものが挙げられる。また、表１の１〜27に示される塩基配列を含む遺伝子群I、表２の28〜153に示される塩基配列を含む遺伝子群II及び／又は表３の154〜289に示される塩基配列を含む遺伝子群IIIから選ばれる少なくとも１つの遺伝子と、遺伝子群I、II及びIIIを除く他の少なくとも１つの遺伝子との組み合わせであってもよい。

検体の分類は、ホルモン受容体陽性群及び／又は陰性群を指標とするものを例示することができる。ホルモン受容体としてはエストロゲン受容体が挙げられる。

癌としては、例えば、乳癌、胃癌、食道癌、口腔癌、大腸癌、直腸癌、肛門癌、膵臓癌、肺癌、腎癌、膀胱癌、卵巣癌、子宮癌、皮膚癌、メラノーマ、中枢神経腫瘍、末梢神経腫瘍、歯肉癌、咽頭癌、顎癌、肝癌、前立腺癌、白血病、多発性骨髄腫、及び悪性リンパ腫からなる群より選択されるものが挙げられ、特に乳癌又は大腸癌が好ましい。
多変量解析は、クラスター分析により行うことができる。

また本発明は、大腸癌の状態を予測する方法であって、
大腸癌組織検体及び正常組織検体から遺伝子を採取し、
遺伝子の発現量を測定し、
各遺伝子につき、大腸癌組織検体における発現が正常組織検体における発現と比べて低発現、中程度及び高発現の何れであるかを判定し、
大腸癌組織検体を採取した大腸癌の状態と前記遺伝子の発現パターンとを関連付けた上で、状態が不明である大腸癌組織検体について、前記遺伝子の発現量を測定し、
各遺伝子につき、その発現量が低発現、中程度及び高発現の何れに相当するかを判定し、
その発現パターンから大腸癌の状態を予測する
ことを特徴とする大腸癌の状態を予測する方法である。

上記方法においては、前記遺伝子の発現パターンを大腸癌の状態と関係付けるまでの工程を、前以って、多数の大腸癌組織検体及び正常組織検体を用いて行っておいてもよい。あるいは、前記遺伝子の発現パターンを大腸癌の状態と関係付けるまでの工程を、状態が不明である大腸癌組織検体について遺伝子の発現量を測定する際に行ってもよい。

大腸癌の状態としては、癌の有無、癌の悪性度、癌の転移の有無、及び癌の再発の有無からなる群から選ばれる少なくとも１つが挙げられる。
また、遺伝子は、配列番号28〜153に示される塩基配列を含む遺伝子、及び配列番号154〜289に示される塩基配列を含む遺伝子からなる群から選ばれることが好ましい。

さらに、本発明は、前記予測方法により予測された癌の状態がハイリスクであると判断された検体に発現する遺伝子の発現を抑制するように薬物を設計することを特徴とするドラッグデザイン方法である。そのような遺伝子としては、表１の４、７若しくは20、表２の28、29、31、32、35、43、49〜53、67、70、72、73、75〜79、81、84、86〜92、94〜99、104〜111、113、114、117若しくは122〜153、又は表３の155、162、163、167〜169、171、172、174、175、177〜180、188、190、193、198、211、222、242〜253、255〜257、259〜261、263若しくは265に示される塩基配列を有するものあるいはこれらの組合せが挙げられる。上記遺伝子の発現を抑制する薬物としては、当該遺伝子のアンチセンス核酸が挙げられる。また、本発明は、前記予測方法により予測された癌の状態がハイリスクであると判断された検体に発現する遺伝子の発現を増大させるように薬物を設計することを特徴とするドラッグデザイン方法である。そのような遺伝子としては、表１の１、２、３、５、６、８、９、10、11、12、13、14、15、16、17、18、19若しくは21、表２の30、33、34、36〜42、44〜48、54〜66、68、69、71、74、80、82、83、85、93、100〜103、112、115、116若しくは118〜121、又は表３の154、156〜161、164〜166、170、173、176、181〜187、189、191、192、194〜197、199〜210、212〜221、223〜241、254、258、262、264若しくは266〜289に示される塩基配列を有するものあるいはこれらの組合せが挙げられる。上記遺伝子の発現を増大する薬物としては、当該遺伝子を組み込んだターゲティングベクターが挙げられる。

またさらに、本発明は、癌の原発巣から単離された癌遺伝子の発現量を解析する手段と、得られる解析結果を指標として癌の状態を同定する手段とを含んでなる、コンピュータを癌の状態の予測システムとして機能させるためのプログラムである。

さらに、本発明は、癌の原発巣から単離された癌遺伝子の発現量を解析する手段と、得られる解析結果を指標として癌の状態の有無を同定する手段とを含んでなる、コンピュータを癌の状態の予測システムとして機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。

また本発明は、コンピュータを大腸癌の状態の予測システムとして機能させるためのプログラムであって、
入力手段から入力された、大腸癌及び正常組織検体由来の遺伝子の発現量のデータを多変量解析するステップ（ａ）と、
前記多変量解析の結果に基づいて、大腸癌の状態と前記遺伝子の発現パターンとを関係付けるステップ（ｂ）と、
入力手段から入力された、大腸癌組織検体についての前記遺伝子の発現量のデータから、当該大腸癌組織検体における前記遺伝子の発現パターンを特定するステップ（ｃ）と、
ステップ（ｃ）において特定された発現パターンを、ステップ（ｂ）において大腸癌の状態と関係付けられた発現パターンと比較し、大腸癌組織検体における大腸癌の状態を予測するステップ（ｄ）と、
をコンピュータに実行させるためのプログラムである。

上記プログラムにおいて、前記多変量解析は、各遺伝子につき、大腸癌組織検体における発現が正常組織検体における発現と比べて低発現、中程度及び高発現の何れであるかを判定する工程を含みうる。

また、上記プログラムは、コンピュータにステップ（ａ）及び（ｂ）のみを実行させることが可能であり、且つ、コンピュータにステップ（ａ）及び（ｂ）を前以って実行させて得られた大腸癌の状態と発現パターンとを関係付けたデータを利用してステップ（ｃ）及び（ｄ）を実行させることが可能である。

大腸癌の状態としては、癌の有無、癌の悪性度、癌の転移の有無、及び癌の再発の有無からなる群から選ばれる少なくとも１つが挙げられる。

本発明により、癌の予測方法及びドラッグデザイン方法が提供される。本発明の方法は、癌の悪性度を評価するための遺伝子診断に有用である。また本発明の方法の結果は、医薬設計に有用である。

以下、本発明を詳細に説明する。本願は、2001年３月14日に出願された日本国特許出願2001-73063号、2001年４月６日に出願された特許出願2001-108503号及び2001年８月２日に出願された特許出願2001-234807号の優先権を主張するものであり、上記特許出願の明細書及び／又は図面に記載される内容を包含する。

本発明の方法は、ある遺伝子の発現パターンの違いにより、検体をいくつかの群に分類し、その分類結果から癌の状態に特徴的な発現パターンを決定することを特徴とする。本発明の方法の概要を図１に示す。まず、正常及び癌検体を含む多数の検体を採取し（図１(e)参照）、それらの検体から、癌の原発巣由来の遺伝子の発現量を測定する（図１(f)参照）。これらの検体における遺伝子の発現量の測定操作を、文献調査などにより選抜した遺伝子の全て（図１(c)参照）について行う。次に、発現量を測定した遺伝子の中から多変量解析に有用な遺伝子を選択する。そして、選択された遺伝子を多変量解析などのデータ分析にかけ（図１(g)参照）、前記検体を発現パターンが類似する群ごとに少数の群（グループ）に分類する。少数の群に分類するための指標の数（つまり分類されるグループ数）としては、20以下、好ましくは10以下、さらに好ましくは２つである。例えば、ホルモン受容体が陽性である群と陰性である群とに分類するとすれば、分類される群の数は2種類となる（但し、陽性群及び陰性群が混在する群が生じる場合もある）。そして、得られる分類結果から特定の癌の状態に特徴的な発現パターンを決定する（図１(h)参照）。この分類したパターンを利用することにより、癌の状態を予測しようとする検体の発現パターンを上記分類パターンに当てはめて、癌の状態を予測する。さらに、分類結果から、癌の転移の有無又は悪性度を知ることも可能である。続いて、癌の状態の予測方法における発現パターン解析の結果を使用して、悪性度等の異なる癌の状態に特異的な遺伝子を決定し、その遺伝子の発現又は遺伝子産物の活性を調節するための医薬を設計する。

１．遺伝子発現の定量
遺伝子発現を定量するために、検体からRNAを単離する。遺伝子の単離は、公知の任意の手法を採用することができる。例えば、グアニジンイソチオシアネート法により調製されたRNAからcDNAを合成する方法により調製する方法などが挙げられる。単離及び定量する遺伝子としては、癌の原発巣由来の遺伝子、免疫グロブリンをコードする遺伝子など、種々の遺伝子が挙げられ、文献調査などによって癌の予測に関係すると考えられる遺伝子を多数選択することができる。

遺伝子発現データは、任意の手法により得ることができ、特に限定されるものではない。例えば、競合PCR法、TaqMan PCR法、ノーザンブロット法等により遺伝子の発現データを得ることができる。

(1) 競合PCR
競合PCR法は、複数の試料に含まれる同一の遺伝子を同一の反応系で増幅させて遺伝子発現量を定量するための方法である。その一つにアダプター付加競合PCR法がある（図２参照）。すなわち、少なくとも２種類の試料に含まれる同一のcDNAのそれぞれに種類の異なるアダプター配列を付加し、このアダプター配列が付加されたcDNAを含む各試料を混合した後に上記cDNAを増幅し、増幅されたcDNAの量比を求めることを特徴とするものであり、いわゆるアダプター付加競合PCRと呼ばれる（特許第2905192号公報参照）。アダプター付加競合PCR法の概要を簡単に説明する。

まず、定量の対象となるcDNAが含まれる少なくとも２種類の試料を調製する（簡単のため、2種類の試料を例に説明する）。次に、特定の制限酵素で試料中のcDNAをそれぞれ切断した後、当該切断部位にアダプターを付加する。アダプターとは、増幅を行った際に増幅されたcDNAを区別することができるように設計されたオリゴヌクレオチドを意味し、cDNAの制限酵素切断部位に連結できるように二本鎖として設計されるものである。アダプターは、一方の試料中のcDNAに付加するアダプターの長さと他方の試料中のcDNAに付加するアダプターの長さとが異なるように設計するか、あるいは一方の試料中のcDNAに付加するアダプター及び他方の試料中のcDNAに付加するアダプターに含まれる制限酵素認識部位が少なくとも１箇所含まれるように設計するか、あるいは一方の試料中のcDNAに付加するアダプターのヌクレオチド配列と他方の試料中のcDNAに付加するアダプターのヌクレオチド配列とが異なるように設計することができる（図２においてA及びBを例として示す）。これらのアダプターは、化学合成により得ることができ、また、アダプターを蛍光標識又は放射性同位元素により標識してもよい。

前記のようにしてアダプターが付加されたcDNAを含む試料をそれぞれ混合（好ましくは等量混合）した後、これら試料に含まれるcDNAを鋳型として増幅を行う。増幅は、例えばポリメラーゼ連鎖反応（PCR）により行われる。増幅後、オートシークエンサー（ファルマシア社等）又はイメージスキャナー（Molecular Dynamics社）により、また、放射性同位元素を用いた場合はデンシトメーター等により増幅産物の検出を行う。図２の下部において示すように、異なるアダプターを付加した配列の標識に由来するシグナル量の差異によりcDNAを定量することができる。

(2) TaqMan PCR 法
TaqMan PCR 法は、鋳型、プライマー、及び標識されたプローブの混合反応系（反応チューブ）において、増幅反応と蛍光強度の測定とを同時に実施するものであり、鋳型にハイブリダイズした特定のプローブから放出された蛍光レポーター色素をリアルタイムで検出し、検出器に連結したコンピューターでPCR産物を自動的に分析する方法である（リアルタイムPCR法ともいう）。このリアルタイム検出PCR法自体は公知であり、そのための装置及びキットも市販されている。従って、本発明においては、このような市販の装置及びキットを用いて遺伝子発現の検出を行なうことができる（例えばABI社製TaqMan PCR キット又はTaqMan EZ RT-PCR キット等）。

(3) ノーザンブロット法
ノーザンブロット法は、細胞中で発現している遺伝子転写産物（mRNA）のサイズや存在量を解析する方法である。細胞から抽出した全RNA又はmRNAを変性アガロースゲル電気泳動し、ナイロンメンブレン又はニトロセルロース膜などに写し取り、膜上で固定する。目的遺伝子とのハイブリダイゼーションを行うことで、遺伝子のmRNAのサイズ、存在量の解析を行う。

ノーザンブロット法を行うための装置やキットも市販されており、例えばメッセージメーカー試薬セット、全自動電気泳動ブロッティング装置（Labimap社製）等を使用することができる。

(4) PCR法による検出
前記遺伝子検出用のプライマー、すなわちPCRのフォワードプライマー（センスプライマーともいう）及びリバースプライマー（アンチセンスプライマーともいう）は、遺伝子の塩基配列から、PCRによる増幅効率を考慮して、増幅断片が約50〜200bpとなるように設計及び合成する。なお、リバースプライマーは、設計の基礎となる配列に相補的となるように設計する。プライマーの設計は、上記基礎となる配列のうち1種類又は２種類以上の配列の中から複数の配列を任意に選択して行うことができる。

上記プライマーは、通常の化学合成、例えばApplied Biosystems社製のDNA自動合成装置を用いた化学合成により得ることができる（以下同様）。なお、アダプター付加競合PCRの場合は、アダプター付加部位よりポリA側にリバースプライマーのみを設計すればよい。

(5) プローブ
本発明において使用されるプローブは、オリゴヌクレオチドに、例えばリポーター蛍光色素及びクエンチャー蛍光色素を結合させて標識したものを使用することができる。

遺伝子検出用プローブのオリゴヌクレオチド部分は、本発明において使用される遺伝子の全部又は一部の配列に基づいて設計することができる。あるいは、これらの遺伝子の全部又は一部の塩基配列とストリンジェントな条件下でハイブリダイズすることができ、かつ、連続する少なくとも15塩基の配列を有するオリゴヌクレオチドを挙げることができる。

ここで、「ストリンジェントな条件」とは、リアルタイムPCRでTaqManプローブを使う場合プローブとプライマーが、同時に鋳型DNAと会合又はハイブリダイズを形成する条件を意味し、具体的には、通常の緩衝液中で60〜65℃の条件をいう。従って、本発明に使用されるプローブは、上記ストリンジェントな条件で検出目的のDNAにハイブリダイズすることができる限り、１又は数個（例えば１〜10個）の塩基に欠失、置換、付加等の変異があってもよい。また、プローブの配列が、ハイブリダイズすべき領域の塩基配列に対して1〜10％程度のミスマッチがあっても、上記ストリンジェントな条件でハイブリダイズすることができる限り、上記プローブは本発明において使用することができる。

前記リポーター蛍光色素は、リポーター蛍光色素が前記クエンチャー蛍光色素と同一のプローブに結合されている場合には蛍光共鳴エネルギー転移によりその蛍光強度が抑制され、前記クエンチャー蛍光色素と同一のプローブに結合されていない状態では蛍光強度が抑制されないものである。リポーター蛍光色素としては、FAM(6-カルボキシ-フルオレッセイン）などのフルオレッセイン系蛍光色素が好ましく、クエンチャー蛍光色素としては、TAMRA(6-カルボキシ-テトラメチル-ローダミン）などのローダミン系蛍光色素が好ましい。これらの蛍光色素は公知であり、容易に入手可能である。リポーター蛍光色素及びクエンチャー蛍光色素の結合位置は特に限定されないが、通常、プローブのオリゴヌクレオチド部の一端（好ましくは５’末端）にリポーター蛍光色素が、他端にクエンチャー蛍光色素を結合する。

２．遺伝子の選択
上記の通り発現量を測定した遺伝子の中から後述する多変量解析に有用な遺伝子を選択する。「有用な遺伝子」とは、前記発現量が測定された遺伝子の中から選ばれる遺伝子であって、後述の多変量解析を行ったときに発現量の違いを区別又は分類し得る遺伝子を意味する。本発明においては、先ず、予後などの予測のための発現定量に用いる遺伝子を選択する。ここで、発現定量に用いる遺伝子は、癌の検体を分類するのに有用な遺伝子であって所定の基準を満たすものであり、予測する癌の種類に応じて選択される。本発明において、予後などの予測に用いる遺伝子の種類は、癌の原発巣に発現する遺伝子である限り特に限定されるものではない。癌の種類としては、例えば乳癌、胃癌、食道癌、口腔癌、大腸癌、直腸癌、肛門癌、膵臓癌、肺癌、腎癌、膀胱癌、卵巣癌、子宮癌、皮膚癌、メラノーマ、中枢神経腫瘍、末梢神経腫瘍、歯肉癌、咽頭癌、顎癌、肝癌、前立腺癌、白血病、多発性骨髄腫、悪性リンパ腫等が挙げられ、これらの群から選択される少なくとも一種の癌で発現する遺伝子を使用することができる。遺伝子の選択方法は、癌によって異なる。例えば、ホルモン受容体の発現による選択、他のクラスター分析の結果による選択、リンパ節転移の有無による選択、再発の有無による選択、予後因子による選択、組織型による選択等が挙げられる。ここで、転移としては、リンパ節転移を例示できる。また、再発としては早期再発が挙げられる。早期再発とは、術後２年以内の全身性の再発を意味する。以上のように、腫瘍組織の分類に有用な遺伝子を選び出し、多変量解析を行うことにより、発現プロファイルからみれば癌発現の特徴を持ったグループに分けることができる。

乳癌を予測する場合は、乳癌の性質を決める上で重要な働きをしている点で、ホルモン受容体、特にエストロゲン受容体の発現の有無を区別する遺伝子が好ましい。また大腸癌を予測する場合には、遺伝子の発現パターンによりクラスター分析を行って統計学的に有意な数のクラスターに分類し、その結果から転移及び／又は予後因子に関するクラスターに属する遺伝子群を選択することが好ましい。転移及び／又は予後因子に関するクラスターは、上記分類したクラスターそれぞれについて主成分分析又は階層的クラスター分析により発現パターンでサンプルを分類し、この分類と予後及び／又は予後因子との関係を調べることにより、選択することができる。従ってこのような場合には、全遺伝子に関して予め多変量解析することによって、多変量解析に有用な遺伝子を選択することになる。

本発明において、例えば上記エストロゲン受容体の発現の有無を区別する遺伝子を使って癌の検体を分類すると、悪性度の違いにより転移又は再発との関係を導くことができる。「エストロゲン受容体の有無を区別する遺伝子」とは、検体から単離された遺伝子の発現量を求めて後述の多変量解析（例えばクラスター分析）を行ったときに、エストロゲン受容体が陽性群の検体と陰性群の検体に分類することができるような遺伝子をいう。すなわち、複数の検体（正常及び癌組織）を採取し、これにエストロゲン受容体に対する抗体と反応させて陽性又は陰性のどちらであるかを判断する。この結果と、上記遺伝子の発現結果との間でクラスター分析をしたときにエストロゲン受容体陽性群と陰性群とに分けることができる遺伝子を本発明では選択する。

また本発明において、例えば上記クラスター分析により転移及び／又は予後因子に関するクラスターに属する遺伝子群を使って癌の検体を分類すると、悪性度の違いにより転移又は再発との関係を導くことができる。

遺伝子の選択では、上記所定の基準に基づいて遺伝子を選択する前に、癌検体における発現遺伝子量の変動と正常検体における発現遺伝子量の変動との郡内変動の比率を計算し、当該比率が所定の条件を満たす遺伝子を予め選択しておいてもよい。

ここで、群内変動（V_g）は、次式I:

により示され、それぞれ正常検体群と癌検体群内の平均との差の2乗の和を意味する。この比率は、解析の対象となる遺伝子の種類、症例の数、遺伝子の数等によって適宜変更することができるが、通常は1.10〜1.20、好ましくは1.18以上（例えば1.18〜1.20）である。

乳癌を例とした場合、遺伝子の選択は、エストロゲン受容体の発現の有無を分散分析の原理を応用することにより行うことが可能である。最初に、上記正常検体と癌検体との郡内変動の比率を1.20とすることにより、例えば2412個の遺伝子の中から152個の遺伝子を予め選択することができる。続いて、例えば、各症例の組織又は細胞サンプル（例えば血液、摘出病変部、生検サンプル等）について、エストロゲン受容体に対する抗体を用いて常法（例えばELISA、RIA等）によりエストロゲン受容体の発現の有無を検出し、エストロゲン受容体が陽性の群と陰性の群とに分ける。そして、それぞれの発現量の群内の変動（群内変動という）、及び群全体の変動（全体変動という）の比率を計算し、当該比率が所定の条件を満たす遺伝子を選択する。

ここで、全体変動（V_t）は、次式II：

により示され、それぞれの値と陽性群及び陰性群全体の平均との差の2乗の和を意味する。

群内変動（V_g）は上記と同様であり、次式I:

により示され、それぞれの各サンプルの検出値と陽性群又は陰性群内の平均との差の2乗の和を意味する。

上記比率は、解析の対象となる遺伝子の種類、症例の数、遺伝子の数等によって適宜変更することができるが、通常は1.10〜1.20、好ましくは「全体変動/群内変動」が1.18以上（例えば1.18〜1.20）である。

本発明において、エストロゲン受容体陽性（ER+）の群及び陰性（ER-）の群に分けることを指標とすると、以下の表１の「番号」の欄の１〜27番に示す27種類の遺伝子（遺伝子群Iとする）を選択することができ（表１）、これらの遺伝子が多変量解析に使用される。これらの遺伝子は、多変量解析を行ったときにエストロゲン受容体の発現の有無を区別することができる遺伝子である。

多変量解析においては、上記遺伝子群Iの中から任意に1種以上を組合せることができる。例えば、表１の「番号」の欄の１〜21番に示される遺伝子を使用することが好ましい。さらに、発現量が測定された遺伝子群の中から、遺伝子群Iに属する遺伝子以外の遺伝子を１種以上組み合わせることもできる。遺伝子群Iの遺伝子以外の遺伝子は、遺伝子群Iの遺伝子とは全く異なる性質を有するものでも類似する性質を有するものでもよい。例えば、免疫グロブリンをコードする遺伝子その他の遺伝子を選択することができる。

また、大腸癌を例とした場合、遺伝子の選択は、遺伝子の発現パターンによりクラスター分析を行って統計学的に有意な数のクラスターに分類し、その結果から、多変量解析を行うために好ましいクラスターに属する遺伝子群を選択することにより行うことができる。本発明において多変量解析を行うために好ましいクラスターは、例えば転移及び／又は予後因子に関するクラスターである。転移及び／又は予後因子に関するクラスターは、上記分類したクラスターそれぞれについて主成分分析又は階層的クラスター分析により発現パターンでサンプルを分類し、この分類と予後及び／又は予後因子との関係を基準又は指標とすることにより、選択することができる。

本発明において、大腸癌に関する遺伝子1536個をクラスター分析することにより44のクラスターに分類されるが、その中で、転移に関するクラスターはクラスターNo.14であり、予後因子に関するクラスターはクラスターNo.42〜44である。クラスターNo.14に属する遺伝子として、以下の表２の「番号」の欄の28〜153番に示す126種類の遺伝子（遺伝子群IIとする）を選択することができ、これらの遺伝子が多変量解析に使用される。また、クラスターNo.42〜44に属する遺伝子として、以下の表３の「番号」の欄の154〜289番に示す136種類の遺伝子（遺伝子群IIIとする）を選択することができ、これらの遺伝子が多変量解析に使用される。これらの遺伝子は、多変量解析を行ったときに転移又は予後との関連性がある遺伝子である。

多変量解析においては、上記遺伝子群II及び／又は遺伝子群IIIの中から任意に1種以上を組合せることができる。例えば、表２の30、33、34、36〜42、44〜48、54〜66、68、69、71、74、80、82、83、85、93、100〜103、112、115、116若しくは118〜121に示される遺伝子、又は表３の155、162、163、167〜169、171、172、174、175、177〜180、188、190、193、198、211、222、242〜253、255〜257、259〜261、263若しくは265に示される遺伝子を使用することが好ましい。さらに、発現量が測定された遺伝子群の中から、遺伝子群II及び／又はIIIに属する遺伝子以外の遺伝子を１種以上組み合わせることもできる。遺伝子群II及び／又はIIIの遺伝子以外の遺伝子は、遺伝子群II及び／又はIIIの遺伝子とは全く異なる性質を有するものでも類似する性質を有するものでもよい。例えば、免疫グロブリンをコードする遺伝子その他の遺伝子を選択することができる。

３．多変量解析
測定された遺伝子の発現量は、多変量解析法によって解析される。多変量解析とは、多数の統計的変量の、相互依存関係や従属的関係の解析を目的とする統計的手法を指し、ｎ個の対象のおのおのについてｐ種類の変数の値が観察されている形式を基本とする多変数データを実際的に解析するために種々の手法がある。多変量解析法としては、限定するものではないが、クラスター分析、主成分分析、判別分析などがある。

(1) クラスター分析
クラスター分析は、一般的には、多変量解析の分野において多数の観測対象（サンプル）に対して、特定の計算基準（評価基準）により、「類似するもの（又は類似しないもの）」を集めて分類する手法を意味する。すなわち、クラスター分析は、観測された多数のサンプルに対して、類似（非類似）するもの同士を同一グループに単に「分類」するものをいう。

クラスター分析には階層的クラスター分析と非階層的クラスター分析とがある。階層的クラスター分析は、個々のサンプルをひとつのクラスターと考え、それに近いものから併合していき、最終的にひとつの集団にまとめる方法である。これに対し、非階層的クラスター分析は、予め作成するクラスター数を指示し、その数を目標としてデータの中から特定の割合でランダムに選ばれたデータに対し階層的クラスター分析を行い、与えられたクラスター数になったところで、次に、先の分析では行われなかったデータを様々な形でできあがったクラスターに併合していく操作を行う方法である。階層的クラスター分析は、サンプルの類似性を樹形図（デンドログラム）という形で可視的に理解することができ、また生物学の分野ではよく用いられる手法であることから、本発明においては階層的クラスター分析を行うことが好ましい。

(1-1) 階層的クラスター分析
階層的クラスター分析では、「類似」するサンプル（クラスター）同士を統合し、これを上位の階層のクラスターとする。この「類似」の尺度として「距離」の概念が使用されている。n個のサンプルについてｐ種の変量で観測したデータ{x_ij}(i=1,2,・・・,n; j=1,2,・・・,p)があるとすると、{x_ij}は表４のようになる。

上記与えられた観測データに基づいてクラスター分析をするには、サンプル間の類似度を表す「距離行列」を作成する。距離としてはユークリッド距離、重み付きユークリッド距離、標準ユークリッド距離、ピアソン積率相関係数等を計算する。

ユークリッド距離はごく普通の距離であり、個体X_iがp個の属性（変量）で計測されており、ｊ番目の属性の値をX_ijとすると、次式III：

により示される。

重み付きユークリッド距離は、次式IV:

により示される。

重み付きユークリッド距離は、属性によって距離に対する影響度を変えたいときに使用される距離である。重みkjを小さくすれば、属性ｊの距離に対する寄与は小さくなり（データの類似度が低い）、重みを大きくすれば、距離に対する寄与は大きくなる（データの類似度が高い）。

標準ユークリッド距離は、次式V:

により示される。この式は、すべての属性を分散＝１になるように規準化したものであり、属性の計測単位の違いなどにより、意図しない「重み」がついてしまうことを避けるために用いられる。距離を計算するときには、原点の位置がどこであっても同じであるため、全ての属性を平均＝０、分散＝１となるように規準化して、その値を用いてユークリッド距離を計算すればよい。

ケース１（x₁, x₂, ・・・, x_i, ・・・, x_n）とケース２（y₁, y₂, ・・・, y_i, ・・・, y_n）との距離ｒ（ピアソン積率相関係数）は、下記式VI：

に示される。

上記の距離の概念を基にして、クラスターとクラスターとの間の距離、又はクラスターと個体間との距離を計算し、クラスターを統合する。統合するための分類方法は以下のものが挙げられる。
最近隣法：それぞれのクラスターに属する個体間の距離のうち、最小値をクラスター間の距離とする。この方法は、最も近接するサンプル間の距離が短いクラスターほど互いに類似するクラスターとしてクラスター統合する方法である。
最遠隣法：それぞれのクラスターに属する個体間の距離のうち、最大値をクラスター間の距離とする。この方法は、最も遠く離れているサンプル間の距離が短いクラスターほど互いに類似するクラスターとしてクラスター統合する方法である。
重心間距離法：それぞれのクラスターの重心間の距離を、クラスター間の距離とする。この方法は、含まれるサンプルの重心が近い関係にあるクラスターほど類似するクラスターとしてクラスター統合する方法である。
ウォード法：クラスターを融合させる際に、クラスター内のユークリッド距離の二乗の和を最小にする方法である。
平均距離：それぞれのクラスターに属する個体間の距離すべての平均値をクラスター間の距離とする。

上記分類手法により、「最短距離」の関係にあるクラスターを類似するとして、これを統合して上位の階層のクラスターとする。一つの階層のクラスターが作成された後は、再びクラスター間の距離を計算し、距離行列を作成し、最短距離にあるクラスターを求めてさらに一つ上の階層のクラスターを作成する。このようにして、最終的に樹形図（デンドログラム）を作成する。

樹形図において所定の階層で統合されたクラスター内のサンプルは、何らかの類似関係により統合されたものである。その類似関係にあるサンプルは、共通してある性質を有しているということができ、その性質を明らかにすることによりそのクラスターの集団の特性を明らかにすることができる。例えば、癌の悪性度を指標として癌が良性か悪性かに注目すると、一のクラスターに属する癌は良性であり、他のクラスターに属する癌は悪性である、という特性を明らかにすることができる。

例えば、分散分析によってエストロゲン受容体に着目して特定の遺伝子を選択し、クラスター分析を行うと、乳癌の検体は、(i) ほとんどの症例がエストロゲン受容体陽性の群、(ii)ほとんどの症例がエストロゲン受容体陰性の群、(iii)エストロゲン受容体陽性と陰性とが混在する群のように分類することができる。対象となる検体がどの群に属するかを調べることによって、転移又は再発が生じやすいのか、生じにくいのか等の悪性度を予測することが可能となる。

また、階層的クラスター分析により作成した樹形図の枝の間の信頼度を計算するために、限定するものではないが、例えばブートストラップ（Bootstrap）法を行ってもよい。ブートストラップ法は、無作為抽出されたｎ個の標本のそれぞれに１／ｎという確率を与える経験的確率分布を考え、続いてこの確率分布からの重複を許すｎ個の無作為標本を考えて、この無作為再抽出標本から得られた推定値をブートストラップ反復推定値（bootstrap replicate）と呼び、さらにこの無作為再抽出をB回反復して得られたB個のブートストラップ反復推定値から、もとの推定量に対する分散（誤差）のブートストラップ推定値を計算するものである。ブートストラップ法は、例えば確率分布の正規性を仮定できなかったり、複雑な統計量のためにその分布について十分に理解できない場合に、信頼性を評価するために行うことができる。Bootstrap法は当業者に周知の統計学的手法であり、そのソフトウエアもまた多数知られている。本発明に有用なソフトウエアとしては、例えばGeneMaths^TM（Applied Maths社）、Amos（E-works社）などが挙げられる。

なお、クラスター分析によって得られた分類を使って、新たな癌の検体を分類するには、クラスター分析や判別分析などの多変量解析を用いる方法がある。クラスター分析を用いる方法としては、分類に使った検体のデータと予測を行う検体のデータとを同時にクラスター分析を行う方法や、樹状図の分岐を逆にたどって分類する方法がある。また、判定基準が単純な場合は、算術計算で行うことができる。

(1-2) 非階層的クラスター分析
非階層的クラスター分析としては、自己組織化マップ（SOM）による方法、K-means法などが知られている。

自己組織化マップによる方法は、ｋ次元に配置したノードのそれぞれに癌を分類するというものである。自己組織化マップは、手法はクラスター分析と類似するが、操作ごとにすべての癌について再分類される点が特徴である。自己組織化マップによる方法は、階層的クラスター分析と同様、発現パターンの分類及び癌の予測の２段階に用いることができる。また、上記階層的クラスター分析と組み合わせてSOMを行うことによって、樹形図内のサンプルやクラスター同士の順番を定めることができる（Chu, S. et al., Science 282, 699, 1998；Tamayo, P., et al., Proc. Natl. Acad. Sci. USA 96, 2907, 1999）。

K-means法は、ｋ個の初期クラスター中心を適当に決め、続いて全てのデータを最も近いクラスター中心のクラスターに分類し、それにより新たにできたクラスターの重心をクラスター中心と定め、その新たなクラスター中心が全て前のものと同じであれば分類を終了するというものである。K-means法は、計算効率がよく、短時間にクラスター分析結果を得ることができる。

上述したクラスター分析は当業者に周知の統計学的手法であり、クラスター分析を行うためのソフトウエアもまた多数知られている。本発明に有用なソフトウエアとしては、例えばGeneMaths^TM（Applied Maths社）、SAS/STATソフトウエア（SAS Institute社）、Genesight^TMVersion 2.0（Biodiscovery社）などが挙げられる。

(2) 主成分分析
主成分分析とは、多変量の計測値から変量間の相関を無くし、しかもより低次元の変量によって元の計測値の特性を記述する手法である。本発明においては、遺伝子発現情報に含まれている種々の原因によるノイズを除き、遺伝子発現の変化のみを抽出するために主成分分析を用いる。それにより、遺伝子発現情報に関して統計学的に有意な結果を得ることができる。

例えば、変数がx、y、wの３個である場合の主成分分析を考えてみる。主成分はz＝ax＋by＋cwというように変数の一次結合（重みつきの和）として表され、個体毎の（x, y, w）の値を代入することにより主成分値が求められる。通常は、各変数は平均０、標準偏差１に標準化され、一次結合の重みはその変数と主成分との相関係数（例えば、aはxとzの相関係数）になっている。

主成分分析を具体的に説明するため、前記表４に示すように、ｐ種の変数から構成されているｎ個のデータ群に対して主成分分析を行い、第１主成分得点及び第２主成分得点及び第３主成分得点を算出する方法に関して例示する。

主成分分析を行う際には、まずデータの備える特徴としての情報量の損失が最小となるように、第１主成分ｆを決定する。具体的には、表４に示すデータから、ｆの分散が最大となるように、第１主成分ｆの固有ベクトルＡ＝（a1, a2, a3 ・・・, ap）のa1、a2、a3 ・・・及びapの値を決定する。なお、a1、a2、a3 ・・・apは、a1^２＋a2^２＋a3^２＋・・・ap^２＝１を満たすように算出される。このとき、各データの備える情報量である第１主成分得点f1〜fnは、次式VIIで表される：
f1＝a1・x11＋a2・x12＋a3・x13
f2＝a1・x21＋a2・x22＋a3・x23
・
・ (VII)
fi＝a1・xi1＋a2・xi2＋a3・xi3
・
・
fn＝a1・xn1＋a2・xn2＋a3・xn3

各fiの値が異なるほど各データの特徴がはっきりと理解できるため、ｆの分散が最大になれば、最も多くの情報量を第１主成分ｆで吸収することができる。

第２主成分も同様に、第１主成分では吸収できない情報量に関して、情報量の損失が最小となるように、第２主成分ｇの固有ベクトルＢ＝（b1, b2, b3 ・・・, bp）のb1、b2、b3 ・・・及びbpの値が算出される。ｉ番目のデータの第２主成分得点をgiとすると、gi＝b1・xi1＋b2・xi2＋b3・xi3と表すことができる。

第３主成分も同様に、第３主成分ｈの固有ベクトルＣ＝（c1, c2, c3 ・・・, cp）のc1、c2、c3 ・・・及びcpの値が算出され、ｉ番目のデータの第３主成分得点をhiとすると、hi＝c1・xi1＋c2・xi2＋c3・xi3と表すことができる。

具体的には、表４に示すデータから、分散・共分散行列を求め、分散が最大化する固有値及び固有ベクトルから、各主成分が計算される。

上述した主成分分析は当業者に周知の統計学的手法であり、主成分分析を行うためのソフトウエアもまた多数知られている。本発明に有用なソフトウエアとしては、例えばGeneMaths^TM（Applied Maths社）、SAS/STATソフトウエア（SAS Institute社）などが挙げられる。

(3) 判別分析
判別分析とは、ある個体が複数の群や集団のいずれに属するかを多変量データに基づいて統計的に判別すると共に、その判別方式の妥当性を分析する解析法である。判別の基本的な考え方は、判別したい個体と各群との距離を定義して、その距離で最も近い群に属すると推定することである。参照する特性が１つの場合には、統計的な距離は、次式VIII：
（個体測定値−群平均値）／（群の標準偏差）（VIII）
で測り、一般的にはこれを拡張したマハラノビス距離を用いることが多い。

本発明では、クラスター分析の結果得られた分類を元にして、この分類を遺伝子の発現パターンから判別する判別関数を作成する。この判別関数を用いて、予測したい症例のそれぞれについて、どのグループに属するか判別を行う。

一方、多変量分析の変数を特定の遺伝子の発現の有無又は強弱に着目すると、ある群は特定の遺伝子が高く発現している集団であり、他の群は当該特定の遺伝子が低く発現している集団のように分類することができる。特定の遺伝子は、上記全体変動と群内変動との比率に応じて適宜選択することができる。クラスター分析の結果、対象となる検体がどの群に属するかを調べることによって、転移又は再発が生じやすいのか、生じにくいのか等を予測することが可能となる。

４．癌の予測
上記の通り得られた多変量分析結果から癌の状態を予測する。そのために、まず癌の状態に特徴的な発現パターンを決定する。癌の状態とは、癌の罹患の有無又はその進行度を意味する。例えば(a)癌に罹患しているか否か（癌の有無）、(b)罹患しているとすればその悪性度はどの程度進行しているのか（癌の悪性度）、(c)転移はしているのか、(d)再発するのか、などを癌の状態として例示することができる。ここで、悪性度を判断する指標としては、早期再発、死亡までの時間、腫瘍径などが挙げられる。

上記遺伝子の発現結果を多変量解析すると、リンパ節転移や早期再発と関連のある群とそうでない群との分類結果を得ることができる。リンパ節転移や再発は、予後と癌の悪性度に大きく関係するため、予後を予測する上で重要な因子である。そして、グループごとのホルモン受容体、リンパ節転移、再発の出現頻度は統計学的に有意に異なる。従って、新しい症例について表１の１〜27、表２の28〜153、表３の154〜289に示す配列を有する遺伝子(好ましくは表１の１〜21に示す配列、表２の30、33、34、36〜42、44〜48、54〜66、68、69、71、74、80、82、83、85、93、100〜103、112、115、116、118〜121に示す配列、及び／又は表３の155、162、163、167〜169、171、172、174、175、177〜180、188、190、193、198、211、222、242〜253、255〜257、259〜261、263、265に示す配列を有する遺伝子)、及び場合により癌の分類に有用と考えられる他の遺伝子の発現量を「１．遺伝子発現の定量」の項に記載の方法で調べたり、あるいはその遺伝子によりコードされるタンパク質の産物を後述する「６．抗体の作製及び検出」の項に記載の方法で定量して、検体の発現パターンが既に得られた癌の分類のどのグループに属するかを決定すれば、予後を予測することができる。

５．癌の状態の同定システム
本発明の同定システムは、(a)被検サンプルから単離された遺伝子の発現量を解析する手段と、(b)得られる解析結果を指標として癌の状態を予測する手段とを含む。上記(a)の解析手段は、ある原発巣由来の癌細胞又は癌組織及び正常組織における複数の遺伝子について、それぞれの遺伝子の発現量をそれぞれ検出する手段（「検出エンジン」ともいう）、並びに得られる検出値を分析する手段（「分析エンジン」ともいう）により構成される。

(1) 遺伝子発現の検出エンジン
本発明において、遺伝子発現の検出は、前記の通り得られた検出データをデジタル化し、そのデジタル情報を使用することができる。

(2) 分析エンジン
分析エンジンは、検出エンジンにより得られたデータ（遺伝子発現量）に基づいて、多変量解析処理、例えばクラスター分析処理を行う手段である。この分析処理によれば、発現量が高い遺伝子の群及び発現量が低い遺伝子の群に分類することができる。また、この手段により、例えばエストロゲン受容体の発現が、陽性の群、陰性の群、及び陽性と陰性との混合群に分類することができる。

ここで、本発明の予測システムの構成例を示すブロック図を示す（図３）。
図３に示す予測システムは、CPU301、ROM302、RAM303、入力部304、送信/受信部305、出力部306、ハードディスクドライブ(HDD)307及びCD-ROMドライブ308を備える。

CPU301は、ROM302、RAM303又はHDD307に記憶されているプログラムに従って、癌の状態の予測システム全体を制御し、後述する予測処理を実行する。ROM302は、予測システムの動作に必要な処理を命令するプログラム等を格納する。RAM303は、予測処理を実行する上で必要なデータを一時的に格納する。入力部304は、キーボードやマウス等であり、予測処理を実行する上で必要な条件を入力するとき等に操作される。送信／受信部305は、CPU301の命令に基づいて、通信回線を介してデータベース310等との間でデータの送受信処理を実行する。出力部306は、入力部304から入力された各種条件、発現遺伝子の検出データ等を、CPU301からの命令に基づいて表示処理を実行する。なお、出力部306としては、コンピュータのディスプレイ又はプリンターなどが例示される。HDD307は、細胞又は組織における各種遺伝子の発現パターン情報を格納し、CPU301の命令に基づいて、格納しているプログラム又はデータ等を読み出し、例えばRAM303に格納する。CD-ROMドライブ308は、CPU301の指示に基づいて、CD-ROM309に格納されている予測プログラムから、プログラム又はデータ等を読み出し、例えばRAM303に格納する。

CPU301は、入力部などから受け取ったデータを出力部306に供給するとともに、データベースから受け取ったデータに基づいて癌の転移又は再発の予測を実行する。データベースとは、前記の通り得られた遺伝子の発現量（絶対量及び相対量の両者を含む）の情報を蓄積したものをいう。

図４及び５は、遺伝子の発現パターンを解析した場合において、図３に示すプログラムによる癌の状態の予測処理を行ったときの例を示すフローチャートである。

図４において、多変量解析装置としてクラスター分析装置401を例に説明する。クラスター分析装置401は、上記予測処理を行うためのクラスター生成を行う。まず、外部データベース検索入力手段402により、遺伝子発現データを入力する。外部データベース検索入力手段402は、好ましくは所定のキーワードにより、既存の種々の外部データベースにアクセスして、多変量解析（例えばクラスター分析）をしようとするサンプルデータを収集する機能を有するようにする。データ入力が確定するまでは、上記データの入力作業を繰り返す。なお、データの入力により、それぞれの組織又は細胞から得られた情報は、サンプルデータ記憶手段403に記憶され、クラスター分析に供され、又はデータベースに登録されるものとする。

次に、データ最適化手段404は、上記サンプルデータ記憶手段403からサンプルデータを入力し、データを多変量解析のために最適化する。データ最適化には、中央値による標準化、z-スコアによる標準化、最大値と最小値の設定、対数変換などの方法の中から使用するサンプルに最適なものを使って行う。

変量一覧出力手段405は、クラスター分析等が行われるサンプルデータの変量を一覧表示する。

次に、ユーザーは、変量一覧出力手段405によって一覧表示された変量から、変量選択手段406の機能により変量を選択する。

変量一覧出力手段405による変量の選択は、単数又は複数の特定の変量を自由に選択できるようにする。通常は、変量の候補は多数であるため、ユーザーはそれら変量から任意のものを選択することができるようにする。

ユーザーにより特定の変量が選択されると、この情報はサンプルデータとともに評価用サンプルデータファイル生成手段407に入力され、評価用サンプルデータファイル生成手段407により評価用サンプルのデータファイルが生成される。

次に、上記評価用クラスターのデータファイルは、評価手段408に送られ、評価手段408によってクラスター分離度が評価される。クラスター分離度を評価する評価式は、種々の形で定義することができる。

上記評価手段408によるクラスター分離度の評価の結果は、クラスター分類手段409に渡される。クラスター分類手段409は、評価手段408による評価結果を入力し、評価条件設定手段412に設定されている評価条件を参照し、最適なクラスター分類を決定し、クラスター分類の継続停止条件が設定されている場合には、クラスター分類の継続と停止を判断する。クラスター分類の継続停止条件が設定されていない場合には、クラスター分類手段409はユーザーにクラスター分類の継続と停止を判断させる。クラスター分類手段409は、クラスター分類の継続を決定した場合は、その回の処理で得られた最適なクラスター分類と、クラスター分類を継続する旨の信号を出力する。このクラスター分類を継続する旨の信号は、後に樹形図編集手段411の処理後に変量一覧出力手段405の処理に戻す命令となる。

一方、クラスター分類手段409がクラスター分類の停止を決定した場合は、その段階で最適なクラスター分類を特定し、クラスター分類を中止する旨の信号を出力する。このクラスター分類を中止する旨の信号は、後に樹形図編集手段411の処理後にクラスター分析の処理を終了する命令となる。

クラスター分類手段409の処理が終了すると、次に、樹形図生成手段410の処理が開始される。樹形図生成手段410は、クラスター分類手段409によって決定されたクラスター分類を入力し、当該クラスター分類に基づく樹形図と、各クラスター分類に係る変量の属性とを表示する。樹形図生成手段410によってクラスター分類樹形図が生成されることにより、ユーザーは現在のクラスター分類の状態を視覚的に把握できる。樹形図生成手段410においては、樹形図の作成に合わせて、その作成のもとになった遺伝子発現量を視覚的に把握するため、例えば色や模様を付したセルを表示させる。次に、樹形図編集手段411は、ユーザーに樹形図生成手段410によって生成されたクラスター分類樹形図に対して表示装置画面上でクラスター分類の追加、変更、削除の編集をさせる。クラスター分類の追加、変更、削除は、所定のクラスターを指定して、その下位にさらに分類すべきクラスターの変量を指定したり、複数のクラスターを統合したり、あるいは、所定のクラスター分類の枝を削除するなど、画面上でユーザーが処理命令入力装置を用いて行う。樹形図編集手段411は、画面上のユーザーの編集作業を支援する種々のツールを提供するとともに、ユーザーによるクラスター分類の編集の意味を読み取り、それに応じて各クラスターのデータファイルを自動修正する。また、好ましくは樹形図編集手段411は、クラスター分類手段409によるクラスター分類の継続停止の判断を提示し、ユーザーに最終判断を入力させる。

この結果、クラスター分類の繰返し処理を継続する場合には、処理は変量一覧出力手段405に戻され、上述した変量一覧出力手段405から樹形図編集手段411までの処理が繰り返される。

以上のように解析されたデータから、被検対象の癌の検体がどのクラスターに分類されたかを調べ、癌の転移又は再発の可能性などの状態を判断することができる。

クラスター分析の結果を予測する装置を図５に示す。予測装置501は、外部データベース検索入力手段502、サンプルデータ記憶手段503、データ最適化手段504、変量一覧出力手段505、変量選択手段506及び評価用サンプルデータファイル生成手段507を経て得られるデータファイルと、図４のクラスター分析装置により出力されたクラスター513を経て設定される評価条件とが、評価手段508において統合できる処理手段となっている。外部データベース入力手段502から評価用サンプルデータファイル生成手段507までの手段は、図４のクラスター分析装置と同様の処理を行う手段である。図４の出力であるクラスターに基づいて予測処理を行うときは、クラスター513を評価条件設定手段512に入力し、評価手段508、予測手段509、予測結果生成手段510及び予測結果編集手段511の処理を行う。あるサンプルデータを、図４の出力であるクラスターに含めて予測したい場合は、外部データベース検索入力手段502から評価用サンプルデータファイル生成手段507までの処理を行い、評価手段508において評価条件設定手段512からのクラスターデータと統合させる。

予測手段509の処理が終了すると、次に、予測結果生成手段510の処理が開始される。予測結果生成手段510は、予測手段509によって決定された予測結果を入力し、当該予測結果に基づく図と、各クラスター分類に係る変量の属性とを表示する。予測結果生成手段510によって予測結果図が生成されることにより、ユーザーは予測状態を視覚的に把握できる。予測結果生成手段510においては、予測結果図の作成に合わせて、その作成のもとになった遺伝子発現量を視覚的に把握するため、例えば文字で表示したり、色や模様を付したセルを表示させる。次に、予測結果編集手段511は、ユーザーに予測結果生成手段510によって生成された予測結果図に対して表示装置画面上でクラスター分類の追加、変更、削除の編集をさせる。予測結果編集手段511は、画面上のユーザーの編集作業を支援する種々のツールを提供するとともに、ユーザーによる予測結果の編集の意味を読み取り、それに応じて各予測結果のデータファイルを自動修正する。また、好ましくは予測結果編集手段511は、予測手段509による予測の継続停止の判断を提示し、ユーザーに最終判断を入力させる。

この結果、予測の繰返し処理を継続する場合には、処理は変量一覧出力手段505に戻され、上述した変量一覧出力手段505から予測結果編集手段511までの処理が繰り返される。

100〜500症例、10個以上の遺伝子について発現量を測定しておいて、予め、これらのデータを母集団データとして蓄積し、測定対象となる遺伝子について、上記親データとともにクラスター分析を行うと、測定対象の遺伝子は、いずれかのグループに属するように分類される。分類されたグループが、癌の転移又は再発の確率が低いものであった場合は、そのクラスター分析の対象となった個体における癌の転移又は再発は生じ難いと予測することができる。

本発明においては、癌の転移又は再発の予測処理手段プログラムのほか、そのプログラムを記録した記録媒体も提供する。記録媒体はコンピュータ読み取り可能であり、フロッピーディスク（FD）、磁気光ディスク（MO）、CD-ROM、ハードディスク、ROM、RAM等が含まれる。

６．抗体の作製及び検出
本発明においては、遺伝子の発現量を測定するために、その遺伝子によりコードされるタンパク質の産物を定量することができる。タンパク質産物は、当該タンパク質に対する抗体を用いて免疫学的に定量することができる。以下に抗体の作製方法とその定量に関して説明する。
(1) タンパク質の発現・精製
(i) 発現ベクターの作製
タンパク質発現用組換えベクターは、上記遺伝子を適当なベクターに連結することにより得ることができ、形質転換体は、本発明の組換えベクターを、目的遺伝子が発現し得るように宿主中に導入することにより得ることができる。

ベクターには、宿主微生物で自律的に増殖し得るファージ又はプラスミドが使用される。プラスミド DNAとしては、大腸菌、枯草菌又は酵母由来のプラスミドなどが挙げられ、ファージDNAとしてはλファージが挙げられる。さらに、レトロウイルス又はワクシニアウイルスなどの動物ウイルス、バキュロウイルスなどの昆虫ウイルスベクターを用いることもできる。

ベクターに本発明の遺伝子を挿入するには、まず、精製されたDNAを適当な制限酵素で切断し、適当なベクター DNAの制限酵素部位又はマルチクローニングサイトに挿入してベクターに連結する方法などが採用される。

DNA断片とベクター断片とを連結させるには、公知のDNAリガーゼを用いる。そして、DNA断片とベクター断片とをアニーリングさせた後連結させ、組換えベクターを作製する。

形質転換に使用する宿主としては、目的の遺伝子を発現できるものであれば特に限定されるものではない。例えば、細菌（大腸菌、枯草菌等）、酵母、動物細胞（COS細胞、CHO細胞等）、昆虫細胞が挙げられる。

宿主への遺伝子の導入方法は公知であり、任意の方法（例えばカルシウムイオンを用いる方法、エレクトロポレーション法、スフェロプラスト法、酢酸リチウム法、リン酸カルシウム法、リポフェクション法等）が挙げられる。

(ii) タンパク質の調製
本発明において、上記遺伝子の発現タンパク質は、目的遺伝子を保有する前記形質転換体を培養し、その培養物から採取することにより得ることができる。「培養物」とは、(a)培養上清、(b)培養細胞若しくは培養菌体又はその破砕物のいずれをも意味するものである。本発明の形質転換体を培地に培養する方法は、宿主の培養に用いられる通常の方法に従って行われる。培養は、通常、振盪培養又は通気攪拌培養などを行う。培養中は必要に応じてアンピシリンやテトラサイクリン等の抗生物質を培地に添加してもよい。

培養後、目的タンパク質が菌体内又は細胞内に生産される場合には、菌体又は細胞を破砕することによりタンパク質を抽出する。また、目的タンパク質が菌体外又は細胞外に生産される場合には、培養液をそのまま使用するか、遠心分離等により菌体又は細胞を除去する。その後、タンパク質の単離精製に用いられる一般的な生化学的方法、例えば硫酸アンモニウム沈殿、ゲルクロマトグラフィー、イオン交換クロマトグラフィー、アフィニティークロマトグラフィー等を単独で又は適宜組み合わせて用いることにより、前記培養物中から目的のタンパク質を単離精製することができる。目的のタンパク質が得られたか否かは、SDS-ポリアクリルアミドゲル電気泳動等により確認することができる。

なお、本発明においては、精製されたタンパク質全体のみならず、その部分断片も使用することができる。「部分断片」という用語は、表１〜３の１〜289に示すいずれかの遺伝子、及び場合により上記同等の機能を有する他の遺伝子によりコードされるタンパク質のアミノ酸配列から選択されるアミノ酸残基を含む限り、特に長さに関係なく使用する。

部分断片は、ペプチド断片として通常のペプチド合成等により調製することができる。ペプチドの化学合成は常法手段を採用することができる。例えば、アジド法、酸クロライド法、酸無水物法、混合酸無水物法、DCC 法、活性エステル法、カルボイミダゾール法、酸化還元法等が挙げられる。また、その合成は、固相合成法及び液相合成法のいずれでもよい。なお、本発明においては、市販の自動ペプチド合成装置（例えば島津製作所社の自動ペプチド合成装置PSSM-8）を使用して合成することもできる。

(2) 抗体の作製
本発明において「抗体」とは、抗原である前記タンパク質又はその部分断片に結合し得る抗体分子全体又はその断片(例えば、Fab又はF(ab’)₂断片)を意味し、ポリクローナル抗体であってもモノクローナル抗体であってもよい。本発明において、抗体（ポリクローナル抗体及びモノクローナル抗体）は例えば以下の手法により製造することができる。

(i) モノクローナル抗体
前記のようにして作製したタンパク質又はその断片を抗原として、哺乳動物、例えばラット、マウス、ウサギなどに投与する。必要に応じてフロイント完全アジュバント(FCA)、フロイント不完全アジュバント(FIA)等のアジュバントを用いることもできる。免疫は、主として静脈内、皮下、腹腔内に注入することにより行われる。また、免疫の間隔は特に限定されず、数日から数週間間隔で、１〜10回の免疫を行う。そして、最終の免疫日から１〜60日後に抗体産生細胞を採集する。抗体産生細胞としては、脾臓細胞、リンパ節細胞、末梢血細胞等が挙げられる。

ハイブリドーマを得るため、抗体産生細胞とミエローマ細胞との細胞融合を行う。抗体産生細胞と融合させるミエローマ細胞として、一般に入手可能な株化細胞を使用することができる。使用する細胞株としては、薬剤選択性を有し、未融合の状態ではHAT選択培地(ヒポキサンチン、アミノプテリン、チミジンを含む)で生存できず、抗体産生細胞と融合した状態でのみ生存できる性質を有するものが好ましい。ミエローマ細胞としては、例えば P3X63-Ag.8.U1(P3U1)、NS-Iなどのマウスミエローマ細胞株が挙げられる。

次に、上記ミエローマ細胞と抗体産生細胞とを細胞融合させる。細胞融合は、血清を含まないDMEM、RPMI-1640培地などの動物細胞培養用培地中で、抗体産生細胞とミエローマ細胞とを混合し（抗体産生細胞とミエローマ細胞との細胞比5:1が好ましい）、細胞融合促進剤（例えばポリエチレングリコール等）の存在のもとで融合反応を行う。また、エレクトロポレーションを利用した市販の細胞融合装置を用いて細胞融合させることもできる。

細胞融合処理後の細胞から目的とするハイブリドーマを選別する。例えば、細胞懸濁液をウシ胎児血清含有RPMI-1640培地などで適当に希釈後、マイクロタイタープレート上にまく。各ウエルに選択培地を加え、以後適当に選択培地を交換して培養を行う。その結果、選択培地で培養開始後、14日前後から生育してくる細胞をハイブリドーマとして得ることができる。

次に、増殖してきたハイブリドーマの培養上清中に、目的タンパク質に反応する抗体が存在するか否かをスクリーニングする。ハイブリドーマのスクリーニングは、通常の方法に従えばよく、例えば酵素免疫測定法、放射性免疫測定法等を採用することができる。融合細胞のクローニングは、限界希釈法等により行い、目的のモノクローナル抗体を産生するハイブリドーマを樹立する。

樹立したハイブリドーマからモノクローナル抗体を採取する方法として、通常の細胞培養法又は腹水形成法等を採用することができる。
上記抗体の採取方法において抗体の精製が必要とされる場合は、硫安塩析法、イオン交換クロマトグラフィー、ゲル濾過、アフィニティークロマトグラフィーなどの公知の方法を適宜選択して、又はこれらを組み合わせることにより精製することができる。

(ii)ポリクローナル抗体の作製
ポリクローナル抗体を作製する場合は、前記と同様に動物を免疫し、最終の免疫日から６〜60日後に、酵素免疫測定法(ELISA(enzume-linked immunosorbent assy)又は EIA(enzyme immunoassay))、放射性免疫測定法(RIA；radioimmuno assay)等で抗体価を測定し、最大の抗体価を示した日に採血し、抗血清を得る。その後は、抗血清中のポリクローナル抗体の反応性をELISA法などで測定する。

(3) 検出
タンパク質は、例えばウエスタンブロッティング、ラジオイムノアッセイ、ELISAなどの周知技術により検出することができる。タンパク質の検出にあたり、市販のキットを使用することもできる。

７．本発明の方法から得られた結果に基づくドラッグデザイン
一般には、疾患の発症に関連する標的分子の活性部位を特異的に不活性化する化合物をデザインしたり、不活性化されたタンパクの高次構造を変化させることによってその機能を回復させるような化合物をスクリーニングするシステムが検討されている。同じ診断名又は類似の症状を有する疾患であっても、その背景となる疾患を起こす仕組みの違いが分子レベルで明らかとなれば、それらの違いを考慮に入れた薬物の使い分けなど、医療の個別化（オーダーメイド医療）を行うことができる。

癌の状態（悪性度等）は、その癌自体の遺伝子だけではなく、その他の遺伝子も関係することにより定まることが知られており、これらの遺伝子の発現は個人により多様である。本発明においても、遺伝子発現パターンは、癌自体の遺伝子のほか癌とは無関係の遺伝子も関与している。本発明は、そのような癌の状態との関連性を示す遺伝子の発現結果を利用して、その中の特定の遺伝子をターゲティングし、癌の治療に有用な薬物を設計することにより、癌の悪性度等を低減させ、癌の治療を行うものである。すなわち、本発明の方法により予測された癌の状態（癌の有無、癌の悪性度、癌の転移の有無又は癌の再発の有無）がハイリスクであると判断された検体を、ローリスクであると予測される発現パターンを有するように遺伝子発現を調節することが可能である。例えば、悪性度が高いときに現れる発現パターンを有していた遺伝子の発現を、悪性度が低いときに現れる発現パターンとなるように遺伝子の発現を抑制又は増大できる薬物を設計する。ここで、「ハイリスク」とは、病理学上癌の悪性度が高い状態、１箇所以上に転移が生じている状態、複数種の癌が併発している状態、又は癌が治癒しても36箇月以内には再発してしまう状態を意味し、これらの状態の少なくとも１つの状態が現れるものをいう。「ローリスク」とは、病理学上癌の悪性度が高くない状態、転移がない状態、又は５年以上は再発しない状態を意味する。これらの条件は一例であり、治療法の改良により変更しうる。

その結果、癌の転移・再発の可能性を低減させ、悪性度は改善される。また、悪性度の高い癌に対し効果的に予防し（転移予防又は再発予防を含む）、又は治療することができる。

まず、発現を調節すべきターゲット遺伝子を選択する。本発明の方法により悪性度が高いと予測される遺伝子の発現パターンの結果から、発現パターンの高い遺伝子群と発現パターンの低い遺伝子群とに分類し、その分類された各遺伝子をターゲットとする。ターゲットとする遺伝子は、１つ以上選択することができ、クラスター分析に使用した複数の遺伝子をターゲットとしてもよい。

ターゲット遺伝子を決定した後、その遺伝子の発現又は遺伝子産物の活性を調節するような医薬を設計する。本明細書において、「遺伝子の発現又は遺伝子産物の活性の調節」とは、遺伝子発現又は遺伝子産物の活性を、阻止、低減、増大又は促進することを意味する。

遺伝子の発現を抑制することを目的とする場合は、該遺伝子の発現を直接抑制する医薬を設計する。一般的な方法としては、アンチセンス法が挙げられる。あるいは、遺伝子発現の産物（タンパク質）の機能を抑制するように医薬を設計することも可能である。この場合は、当該タンパク質に対する抗体を使用することができる。また、当該タンパク質の活性の阻害剤を使用してもよい。

アンチセンス法は、ターゲット遺伝子の配列にアンチセンス配列を特異的に結合させて、ターゲット遺伝子の発現を抑えるというものである。好ましくは、高発現する遺伝子の発現を抑制する。「高発現する」とは、平均値より高いmRNAの細胞内濃度を意味する。アンチセンス配列は、ターゲット配列の少なくとも一部分に特異的にハイブリダイズすることができる核酸配列である。アンチセンス配列は、細胞mRNA又はゲノムDNAに結合して翻訳又は転写をブロックし、ターゲット遺伝子の発現を阻害するものである。アンチセンス配列は、ターゲット遺伝子の翻訳又は転写をブロックする限り任意の核酸物質を使用することができる。例えば、DNA、RNA、又は任意の核酸擬似物が挙げられる。従って、表１〜３の１〜289に示すいずれかの塩基配列を有する遺伝子、及び場合により同等の機能を有する他の遺伝子のうち、悪性度の高い癌検体に発現する遺伝子を選択し、その一部の配列に相補的となるようにアンチセンス核酸（オリゴヌクレオチド）配列を設計する。本発明において発現を抑制するターゲット遺伝子としては、そのうち表１の４、７及び20、表２の28、29、31、32、35、43、49〜53、67、70、72、73、75〜79、81、84、86〜92、94〜99、104〜111、113、114、117及び122〜153、並びに表３の155、162、163、167〜169、171、172、174、175、177〜180、188、190、193、198、211、222、242〜253、255〜257、259〜261、263及び265に示す配列を有する遺伝子が挙げられ、これらの遺伝子の１つ又は複数を使用することが好ましい。

設計すべきアンチセンス核酸配列の長さは、目的遺伝子の発現を抑制し得る限り特に限定されるものではないが、例えば10〜50塩基、好ましくは15〜25塩基である。オリゴヌクレオチドは、公知手法により容易に化学合成することができる。

アンチセンス配列は、発現ベクターを用いた種々の投与方法で目的の場所（癌細胞等）に到達させることができる。投与は、公知の任意の手法、例えばキメラウイルス若しくはコロイド分散系などの組換え発現ベクターを用いた手法、又はレトロウイルスベクター若しくはアデノ随伴ウイルスベクターを含む種々のウイルスベクターを用いた手法により行うことができる。

本発明の目的のために、アンチセンスオリゴヌクレオチドの分子類似体も使用することができる。分子類似体は、高安定性、分布特異性などを有するものである。分子類似体には、化学的に反応性である基、例えば鉄結合エチレンジアミン四酢酸をアンチセンスオリゴヌクレオチドに結合させたものが挙げられる。

アンチセンス遺伝子治療に使用し得るベクターには、アデノウイルス、ヘルペスウイルス、ワクシニアウイルス、レトロウイルスなどのRNAウイルスが含まれるが、これらに限定されるものではない。

目的の組織又は細胞にアンチセンス配列を投与するために使用し得る他の遺伝子送達機構には、コロイド分散系、リポソーム誘導系、人工ウイルスエンベロープなどが含まれる。例えば、送達系は巨大分子複合体、ナノカプセル、ミクロスフェア、ビーズ、水中油型乳剤、ミセル、混合ミセル、リポソーム等を利用することができる。

本発明のドラッグデザインにおいては、本発明の癌の予測方法により得られた結果から決定されたターゲット遺伝子の配列と（好ましくは特異的に）結合することができるアンチセンスオリゴヌクレオチドを、治療上有効な量で投与し、該遺伝子のmRNAの翻訳を阻止するものである。例えば、アンチセンスオリゴヌクレオチドの投与形態としては、通常の静脈内、動脈内等の全身投与のほか、癌組織に局所投与を行うことができる。さらに、カテーテル技術、外科的手術等と組み合わせた投与形態を採用することもできる。

アンチセンスオリゴヌクレオチドの投与量は、年齢、性別、症状、投与経路、投与回数、剤型によって異なるが、当技術分野で慣例的な手法を用いて適宜決定することができる。

抗体を使用する場合は、ポリクローナル抗体であるとモノクローナル抗体であるとを問わない。また、抗体断片を使用することができる。抗体は、前記「５．抗体の作製及び検出」の項に記載の方法に基づいて調製することができる。

抗体の投与量は、年齢、性別、症状、投与経路、投与回数、剤型によって異なるが、当技術分野で慣例的な手法を用いて適宜決定することができる。

なお、抗体を投与（非経口投与）する場合は、静脈内注射（点滴を含む）、筋肉内注射、腹腔内注射、皮下注射、坐剤などの製剤形態を選択することができ、注射用製剤の場合は単位投与量アンプル又は多投与量容器の状態で提供される。

一方、遺伝子の発現を増大させることを目的とする場合は、該遺伝子の発現を直接増大させる医薬を設計する。一般的な方法としては、ターゲット遺伝子を組み込んだベクター（ターゲティングベクター）の使用が挙げられる。ターゲティングベクターとは、プロモーター配列に連結した発現遺伝子の核酸配列を意味する。好ましくは、低発現する遺伝子を発現するようにベクターを使用する。「低発現する」とは、平均値より低いmRNAの細胞内濃度を意味する。

遺伝子の発現を増大させる１つの方法は、ターゲット遺伝子の配列に強力な発現調節配列（プロモーター）を連結させて、ターゲット遺伝子の発現を増大させるというものである。まず、ターゲット遺伝子の上流に宿主細胞で機能可能なプロモーターを機能可能な形で連結させ、これをウイルスベクターなどのベクターに組み込むことにより、ターゲット遺伝子を宿主細胞中で高発現させることが可能なターゲティングベクターを構築することができる。ここで、「機能可能な形で連結させる」とは、ターゲット遺伝子が導入される宿主細胞においてプロモーターの制御下にターゲット遺伝子が発現されるように、該プロモーターとターゲット遺伝子とを連結させることを意味する。すなわち、強力なプロモーターの作用によってターゲット遺伝子の発現が増大する。従って、表１〜３の１〜289に示すいずれかの塩基配列を有する遺伝子、及び場合により同等の機能を有する他の遺伝子のうち、悪性度の高い癌献体に低発現する遺伝子を選択し、その遺伝子に強力なプロモーターを連結する。本発明において、発現を増大させるターゲット遺伝子としては、そのうち表１の１、２、３、５、６、８、９、10、11、12、13、14、15、16、17、18、19及び21、表２の30、33、34、36〜42、44〜48、54〜66、68、69、71、74、80、82、83、85、93、100〜103、112、115、116及び118〜121、並びに表３の154、156〜161、164〜166、170、173、176、181〜187、189、191、192、194〜197、199〜210、212〜221、223〜241、254、258、262、264及び266〜289に示す配列を有する遺伝子が挙げられ、これらの遺伝子の１つ又は複数を使用することが好ましい。

宿主細胞で機能可能な強力なプロモーターとしては、例えば、宿主が動物細胞である場合には、ラウス肉腫ウイルス（RSV）プロモーター、サイトメガロウイルス（CMV）プロモーター、シミアンウイルス（SV40）の初期または後期プロモーター、マウス乳頭腫ウイルス（MMTV）プロモーター、CAGプロモーター等を挙げることができるが、これらに限定されるものではない。

ターゲット遺伝子及びプロモーターを組み込むベクターは、宿主細胞において利用可能なベクター、例えば、宿主細胞中で複製可能な遺伝情報を含み、自立的に増殖できるものであって、宿主細胞からの単離、精製が可能であり、検出可能なマーカーを有するベクターである。そこで、ベクターには、ターゲット遺伝子及びプロモーターの他、所望によりエンハンサーなどのシスエレメント、スプライシングシグナル、ポリA付加シグナル、選択マーカー、リボソーム結合配列（SD配列）などを連結することができる。なお、選択マーカーとしては、例えばジヒドロ葉酸還元酵素遺伝子、アンピシリン耐性遺伝子、ネオマイシン耐性遺伝子等が挙げられる。ベクターの例としては、哺乳動物細胞を宿主細胞とする場合、pRC/RSV、pRC/CMV（Invitrogen社製）等のプラスミド、ウシパピローマウイルスプラスミドpBPV（Amersham Pharmacia社製）、EBウイルスプラスミドpCEP4（Invitrogen社製）等のウイルス由来の自律複製起点を含むベクター、ワクシニアウイルス、レトロウイルス及びアデノウイルス等のウイルスベクターを挙げることができるが、これらに限定されるものではない。

また、宿主細胞において機能可能なプロモーターを予め保有するベクターを使用する場合には、該ベクター保有のプロモーターとターゲット遺伝子とが機能可能な形で連結するように、該プロモーターの下流にターゲット遺伝子を挿入すればよい。例えば、前述のプラスミドpRC/RSV、pRC/CMV等は、動物細胞で機能可能なプロモーターの下流にクローニング部位が設けられており、該クローニング部位にターゲット遺伝子を挿入し動物細胞へ導入することにより、ターゲット遺伝子を発現させることができる。

ターゲット遺伝子及びプロモーターをベクターに組み込むには、まず精製されたDNAを適当なベクターDNAの制限酵素部位又はマルチクローニングサイトに挿入してベクターに組み込む方法などが採用される。

このようにして作製されたターゲティングベクターは、患者に直接投与（in vivo法）してもよいし、または患者から採取した細胞、好ましくは幹細胞に導入して、ターゲット遺伝子を発現する細胞を選択してからその細胞を投与してもよい（ex vivo法）。ターゲティングベクターの直接投与は、例えば静脈内注射（点滴を含む）、筋肉内注射、腹腔内注射、皮下注射などの製剤形態により行うことができる。また、ターゲティングベクターの細胞導入は、例えば、リン酸カルシウム法、DEAEデキストラン法、エレクトロポレーション法、又はリポフェクション法等の一般的な遺伝子導入法を用いて行うことができる。ターゲット遺伝子を発現する細胞の選択は選択マーカーを利用して行うことができ、この方法は当技術分野で周知である。ターゲット遺伝子を発現する細胞の投与もまた、ターゲティングベクターの直接投与の場合と同様の製剤形態で投与することができる。

本発明のさらなるドラッグデザインにおいては、本発明の癌の予測方法により得られた結果から決定されたターゲット遺伝子の配列と、それに連結されたプロモーターとを組み込んだターゲティングベクターを、治療上有効な量で、直接又は該ベクターを導入した細胞を投与し、該遺伝子の発現を増大させるものである。

ターゲティングベクターの投与量は、年齢、性別、症状、投与経路、投与回数、剤型によって異なるが、当技術分野で慣例的な手法を用いて適宜決定することができる。

また、ターゲット遺伝子の発現産物を直接投与してもよく、その場合には、発現産物を通常の組換えタンパク質産生方法を利用して大量に入手することができる。例えば大腸菌などを利用してターゲット遺伝子の発現産物を産生させることができる。ターゲット遺伝子の発現産物は、上述のターゲティングベクターの製剤形態と同様にして投与することができ、その投与量は、年齢、性別、症状、投与経路、投与回数、剤型によって異なるが、当技術分野で慣例的な手法を用いて適宜決定することができる。

各種製剤は、製剤上通常用いられる賦形剤、崩壊剤、潤滑剤、界面活性剤、分散剤、緩衝剤、保存剤、溶解補助剤、防腐剤、安定化剤、等張化剤等などを適宜選択し、常法により製造することができる。

以下、実施例により本発明をさらに具体的に説明する。但し、本発明はこれら実施例にその技術的範囲が限定されるものではない。

乳癌検体を利用したアダプター付加競合PCR
アダプター付加競合PCR法を使って110症例（98症例の乳癌、1症例の男性乳癌、1症例の甲状腺癌、10例の正常組織）について2412個の遺伝子の発現量を測定した。

具体的に説明すると、組織を粉砕した後、グアニジンイソチオシアネート法で得られた上記癌又は組織由来の全RNA(３μg)を含む蒸留水７μlに、化学合成したビオチン化オリゴ (dT)18 プライマーを加えて70℃で２〜３分加熱したのち、37℃で１時間保温してcDNAを合成した。得られた一本鎖cDNAに、DNA合成酵素を含む反応液をそれぞれ加え、16℃で１時間、さらに室温で１時間反応させ、二本鎖cDNAを合成した。

反応終了後、0.25M EDTA(pH7.5) 3μl 及び5M NaCl 2μlを加えた後、フェノール抽出及びエタノール沈殿を行った。得られたcDNAを蒸留水120 μlに溶解した。制限酵素による切断反応終了後、75℃で10分加熱し、９倍量の蒸留水で希釈して以下のアダプター付加反応に使用した。

遺伝子特異的プライマー及びアダプタープライマーを用いて、PCR反応を行った。上記組成の各反応液について、94℃で30秒、55℃で１分及び72℃で１分を１サイクルとしてこれを30〜35サイクル行い、その後、72℃で20分反応させた。反応終了後、37℃で１時間保温した。

最終産物を熱変性後、0.5μlをABI 3700 DNA Analyzerにより解析しそれぞれの遺伝子における発現量を求めた。

乳癌に関するクラスター分析
分類に有用な遺伝子群として、下記式：
（癌検体の分散）/ （正常検体の分散） ≧ 1.20
となるような条件を満たす遺伝子を選択した。その結果、上記条件を満たす遺伝子として152個の遺伝子を選択した。続いて、この152個の遺伝子からさらに、エストロゲン受容体陽性群と陰性群との発現レベルの差により（p＜3.85×10^-5）、21個の遺伝子を単離（選択）した。単離した遺伝子の一覧を表１（前記）に示す。表１において、1番から21番までの配列が単離された遺伝子である。

次に、上記遺伝子群を用いて、これらの遺伝子の発現パターンを使ってクラスター分析を行った。図６にその結果を模式的に示した。図６には、縦方向に179の症例が、横方向に21個の遺伝子名が並べてある。遺伝子名は、A群については図の左側から順にGS7435、GS2307及びGS2828である。B群については、左側からGS2632、GS7288、GS6601、GS7583、GS7116、GS7715、GS6770、GS2471、GS6711、GS1176、GS7001、GS690、GS1472、GS6784、GS7012、GS7632、GS1957及びGS7264である。それぞれのセル（四角）が遺伝子の発現状態を表している。白（□）が高発現、黒（■）が低発現、灰色が中程度の発現状態を示している。灰色は、色が薄くなるほど発現が高く、色が濃くなるほど発現が低いことを意味する。本実施例において低発現とはアダプター付加競合PCRを行ったときの発現量が-1.3以上-0.3以下を意味し、中程度とは発現量が-0.3より大きく0.3未満を意味し、高発現とは、発現量が0.3以上1.3以下を意味する。「発現量」とは、測定値を中央値で標準化した後、上限を20、下限を0.5とした後対数変換したものを意味する。

図６において、「L1」の列に記載した数値は、検体番号を意味し、作業のために便宜的につけたものである。「L2」の列に記載した白丸又は黒丸はエストロゲン受容体の発現の有無を示しており、「○」が陽性、「●」が陰性である。「L3」の列に記載した白丸又は黒丸はリンパ節転移の有無（個数）を示しており、「○」が０個、「●」が１〜３個、「●●」が４個以上である。図６に示したように、症例は4群（I,II,III,IV）、遺伝子群は2群（A,B）に分かれる。

症例群と遺伝子群(A群及びB群)との関係は表５の通りである。

リンパ節転移との関係は表６の通りである。

I群は転移が少なく、III群は転移が多い。
さらに、上記と同様にして、下記式：
（癌検体の分散）/ （正常検体の分散） ≧ 1.15
となるような条件を満たし、またエストロゲン受容体陽性群と陰性群との発現レベルの違いにより遺伝子を選択した場合には、表１の1〜27に示す塩基配列を有する遺伝子が選択される。

また、（癌検体の分散）/ （正常検体の分散） ≧ 1.10
となるように設定すると、表１の１〜27に示す塩基配列を有する遺伝子のほかにも他の遺伝子が選択される。従って、これらの選択された遺伝子の発現量について多変量解析を行い、同様にいくつかのグループに分けることによって、予後を予測するための情報を得ることができる。

乳癌の転移及び早期再発の予測
本実施例では、乳癌の301症例について転移及び早期再発の予測を行った。実施例２において選択した21個の遺伝子を使ってクラスター分析を行った。結果は以下の通りである。
1. エストロゲン受容体陽性群（図７の分子グループ1aと1b）
この群におけるリンパ節転移が認められた症例は143例中45例であり(31%)、早期再発は60例中5例であった(8%)
2. エストロゲン受容体陽性と陰性の混在群（図７の分子グループ2aと2b）
リンパ節転移は101例中47であり(47%)、早期再発は49例中14例であった（29%）
3. エストロゲン受容体陰性群（図７の分子グループ3）
リンパ節転移は44例中21であり(48%)、早期再発は10例中4例であった(40%)。
以上の結果を表７に示す。

また、図７中、「ER」はエストロゲン受容体（陽性は＋、陰性は−）を表し、「LN」はリンパ節転移を表し（個数）、「REC」は再発（陽性又は陰性）を表す。

図７及び表７より、エストロゲン受容体陰性群は早期再発になる可能性が高いといえる。早期再発例は必ず死亡するので、本発明の方法により得られた結果は、医学的に予後を知る上で重要な情報となる。

乳癌の予測
実施例３で得られた癌の予測のための分子グループと、既知の臨床学的パラメータとを組み合わせることにより、乳癌の予後をできる限り正確に予測することができる。表８に、臨床学的パラメータと、そのCox回帰分析により求めた予後診断のための有意性を示す。

表８に示す情報を用いて、複数のパラメータから癌検体の予後を正確に予測する。特に、R.R.値（早期再発に対する相対危険度）は、分子グループが最も高い。従って、従来の臨床学的パラメータと比較して分子グループによる癌の予測は精度が高いといえる。

大腸癌検体を利用したアダプター付加競合PCR
アダプター付加競合PCR法を使って115症例（105症例の大腸癌、10症例の正常組織）について1536個の遺伝子の発現量を測定した。
PCR反応及び遺伝子発現量の定量は、実施例１と同様に行った。

クラスター分析による遺伝子の選択
上記1536遺伝子の発現パターンを使ってクラスター分析を行った。図８にその結果を模式的に示した。図８には、縦方向に115の症例が、横方向に1536個の遺伝子の発現結果が並べてある。図６と同様に、それぞれのセル（四角）が遺伝子の発現状態を表している。白（□）が高発現、黒（■）が低発現、灰色が中程度の発現状態を示している。灰色は、色が薄くなるほど発現が高く、色が濃くなるほど発現が低いことを意味する。低発現とは発現量が-1.301以上-0.3以下を意味し、中程度とは発現量が-0.3より大きく0.3未満を意味し、高発現とは、発現量が0.3以上1.301以下を意味する。クラスター分析の結果、1536個の遺伝子を88のクラスターに分けることができた。

上述のようにクラスター分析した遺伝子の中から、図８のクラスターNo.14を転移（M）クラスターとして選択し、またクラスターNo.42〜44を予後（P）クラスターとして選択した。No.14及びNo.42〜44のクラスターは、以下の実施例７に記載するクラスター分析を予め行ったところ、それぞれ転移及び予後に関連していることが予測されたため選択した。

クラスターNo.14に含まれる遺伝子を表２（前記）に示す。表２において、28番から153番までの配列がMクラスターとして選択した遺伝子である。またクラスターNo.42〜44に含まれる遺伝子を表３（前記）に示す。表３において、154番から289番までの配列がPクラスターとして選択した遺伝子である。

多変量解析（クラスター分析）
実施例６において選択した遺伝子群を用いてクラスター分析を行った。Mクラスターに属する遺伝子のクラスター分析を図９に示し、Pクラスターに属する遺伝子のクラスター分析を図10に示す。図９には、縦方向に115の症例が、横方向にMクラスターの126個の遺伝子が並べてある。それぞれのセル（四角）が遺伝子の発現状態を表している。また、Meは転移を、Prは予後を示す。「Me」に示すカラムの色は、黒、白及びグレーがそれぞれ転移癌検体、転移なし癌検体、及び正常検体を示す。また「Pr」に示すカラムの色は、黒、白、淡いグレー及び濃いグレーがそれぞれ予後が悪い検体、予後が中程度の癌検体、予後が良好の癌検体、及び正常検体を示す。予後が「悪い」とは、大腸癌の原発巣治療後の予後において、２年以内に原癌死したことを指し、「中程度」とは、２〜５年以内に原癌死したか又は生存している場合には観察期間が４年以内であることを指し、そして「良好」とは、生存しており、観察期間が４年以上経過していることを指す。

図10には、縦方向に115の症例が、横方向にPクラスターの136個の遺伝子が並べてある。42、43、44の数字は、図８に示すクラスター分析におけるクラスターNo.を表す。それぞれのセル（四角）が遺伝子の発現状態を表している。また、図の右側の「Me」に示すカラムの色は、黒、白及びグレーがそれぞれ転移癌検体、転移なし癌検体、及び正常検体を示す。また図の右側の「Pr」に示すカラムの色は、黒、白、淡いグレー及び濃いグレーがそれぞれ予後が悪い検体、予後が中程度の癌検体、予後が良好の癌検体、及び正常検体を示す。

図９及び図10より、Mクラスターでは図の下部に転移検体の症例が集まっており、またPクラスターでは図の上部に予後が悪い検体及び転移献体の症例が集まっている。従って、これらの遺伝子を利用したクラスター分析により、転移及び予後の臨床因子と関連がある分類を行うことができたと考えられ、本発明者は、Mクラスターを転移と関連する群、Pクラスターを予後及び転移と関連する群として選択した。

多変量解析（主成分分析）
実施例７において行ったMクラスターとPクラスターのクラスター分析による結果に関して、統計学的に有意な値を求めるため、主成分分析を行った。その結果をそれぞれ図11及び12に示す。図11において、転移癌検体を●で、転移なし癌検体を＋で、正常検体を×で示す。また図12において、予後が悪い検体を●で、予後が中程度の検体を□で、予後が良好な検体を＋で、正常検体を×で示す。

上記主成分分析により、図11及び12に示す破線で示す境界線を引くことができる。図11及び12から表９に示す数値を決定した。この境界線は、第１主成分の平均値を意味する。

表９に示す数値は、第１主成分の値が正の場合には陽性、負の場合には陰性としてそれぞれのクラスターの評価を行ったものである。この評価はχ²検定により行い、χ²検定は、p＝0.01のときに6.63であり、この値以上の場合には、それぞれの比率が有意に異なり、癌の予測に有用であるといえる。従って、表９より、Pクラスターの遺伝子を利用すると予後及び転移の両者を、Mクラスターの遺伝子を利用すると転移を判断するのに有用である。。

さらに本発明者は、MクラスターとPクラスターとを組み合わせて主成分分析を行った。その結果を図13に示す。図中、横軸の第１主成分はPクラスターの第１主成分であり、縦軸の第１主成分はMクラスターの第１主成分である。転移癌検体を●で、転移なし癌検体を×で示す。主成分分析により、図に示す破線で示す境界線を引くことができる。この境界線は、第１主成分の平均値を意味する。図13から、表10に示す数値を決定した。

表10において、四分区画とは、図13に示す境界線を境とした区画を指し、第１の四分区画は図13の右上の区画、第２の四分区画は右下の区画、第３の四分区画は左上の区画、そして第４の四分区画は左下の区画である。

表10から、P及びMクラスターに属する遺伝子の発現パターンを多変量解析して第１の四分区画に分類されるものは、転移する確率が低く（11.3％）、それ以外の区画に分類されるものは、転移する確率は高いと言える。また転移に関しては、χ²検定の値がMクラスターを用いたものよりもM及びPクラスターを組み合わせた場合の方が高いため、この組み合わせによって、より効率的に大腸癌の転移を判定できると考えられる。大腸癌の予後の予測については、表10に示すM及びPクラスターの組み合わせでは統計学的に有意に予測できないため、表９に示すように、Pクラスターの遺伝子を利用することが好ましいと考えられる。

本明細書で引用した全ての刊行物、特許及び特許出願は、そのまま参考として本明細書に取り入れるものとする。

本発明の癌の予測方法の概要を示す図である。アダプター付加競合PCRの概要を示す図である。転移又は再発同定システムのブロック図である。転移又は再発同定プログラムによる処理例を示すフローチャートの図である。転移又は再発同定プログラムによる処理例を示すフローチャートの図である。乳癌に関する、179症例分の遺伝子におけるクラスター分析結果を示す図である。乳癌の301症例分の遺伝子におけるクラスター分析結果を示す図である。大腸癌に関する、115症例分の遺伝子におけるクラスター分析結果を示す図である。 Mクラスターに属する遺伝子におけるクラスター分析結果を示す図である。 Pクラスターに属する遺伝子におけるクラスター分析結果を示す図である。 Mクラスターに関する主成分分析結果を示す図である。 Pクラスターに関する主成分分析結果を示す図である。 MクラスターとPクラスターに関する主成分分析結果を示す図である。

符号の説明

301：CPU、 302：ROM、 303：RAM、 304：入力部、 305：送信/受信部、
306：出力部、 307：HDD、 308：CD-ROMドライブ、 309：CD-ROM、
310：データベース
401：クラスター分析装置、 402：外部データベース検索入力手段、
403：サンプルデータ記憶手段、 404：データ最適化手段、 405：変量一覧出力手段、
406：変量選択手段、 407：評価用サンプルデータファイル生成手段、
408：評価手段、 409：クラスター分類手段、 410：樹形図生成手段、
411：樹形図編集手段、 412：評価条件設定手段
501：予測装置、 502：外部データベース検索入力手段、
503：サンプルデータ記憶手段、 504：データ最適化手段、 505：変量一覧出力手段、
506：変量選択手段、 507：評価用サンプルデータファイル生成手段、
508：評価手段、 509：予測手段、 510：予測結果生成手段、
511、予測結果編集手段、 512：評価条件設定手段、 513：クラスター

Claims

大腸癌組織検体及び正常組織検体から遺伝子を採取し、
遺伝子の発現量を測定し、
各遺伝子につき、大腸癌組織検体における発現が正常組織検体における発現と比べて低発現、中程度及び高発現の何れであるかを判定し、
大腸癌組織検体を採取した大腸癌の状態と前記遺伝子の発現パターンとを関連付けた上で、状態が不明である大腸癌組織検体について、前記遺伝子の発現量を測定し、
各遺伝子につき、その発現量が低発現、中程度及び高発現の何れに相当するかを判定し、
その発現パターンから大腸癌の状態を予測する
ことを特徴とする大腸癌の状態を予測する方法。
前記遺伝子の発現パターンを大腸癌の状態と関係付けるまでの工程を、前以って、多数の大腸癌組織検体及び正常組織検体を用いて行っておく、請求項１に記載の方法。
前記遺伝子の発現パターンを大腸癌の状態と関係付けるまでの工程を、状態が不明である大腸癌組織検体について遺伝子の発現量を測定する際に行う、請求項１に記載の方法。
大腸癌の状態が、癌の有無、癌の悪性度、癌の転移の有無、及び癌の再発の有無からなる群から選ばれる少なくとも１つである請求項１乃至３のいずれか一項に記載の方法。
遺伝子が配列番号28〜153に示される塩基配列を含む遺伝子、及び配列番号154〜289に示される塩基配列を含む遺伝子からなる群から選ばれる、請求項１乃至４のいずれか一項に記載の方法。
配列番号28、29、31、32、35、43、49〜53、67、70、72、73、75〜79、81、84、86〜92、94〜99、104〜111、113、114、117、122〜153、155、162、163、167〜169、171、172、174、175、177〜180、188、190、193、198、211、222、242〜253、255〜257、259〜261、263及び265に示される塩基配列を含む遺伝子からなる群から選ばれる１つ以上の遺伝子について、その発現を抑制するように薬物を設計することを特徴とするドラッグデザイン方法。
薬物がアンチセンス核酸である、請求項６に記載のドラッグデザイン方法。
配列番号30、33、34、36〜42、44〜48、54〜66、68、69、71、74、80、82、83、85、93、100〜103、112、115、116、118〜121、154、156〜161、164〜166、170、173、176、181〜187、189、191、192、194〜197、199〜210、212〜221、223〜241、254、258、262、264及び266〜289に示される塩基配列を有する遺伝子中の１つ以上の遺伝子について、その発現を増大させるように薬物を設計することを特徴とするドラッグデザイン方法。
薬物がターゲティングベクターである、請求項８に記載のドラッグデザイン方法。
コンピュータを大腸癌の状態の予測システムとして機能させるためのプログラムであって、
入力手段から入力された、大腸癌及び正常組織検体由来の遺伝子の発現量のデータを多変量解析するステップ（ａ）と、
前記多変量解析の結果に基づいて、大腸癌の状態と前記遺伝子の発現パターンとを関係付けるステップ（ｂ）と、
入力手段から入力された、大腸癌組織検体についての前記遺伝子の発現量のデータから、当該大腸癌組織検体における前記遺伝子の発現パターンを特定するステップ（ｃ）と、
ステップ（ｃ）において特定された発現パターンを、ステップ（ｂ）において大腸癌の状態と関係付けられた発現パターンと比較し、大腸癌組織検体における大腸癌の状態を予測するステップ（ｄ）と、
をコンピュータに実行させるためのプログラム。
前記多変量解析が、各遺伝子につき、大腸癌組織検体における発現が正常組織検体における発現と比べて低発現、中程度及び高発現の何れであるかを判定する工程を含む、請求項１０に記載のプログラム。
コンピュータにステップ（ａ）及び（ｂ）のみを実行させることが可能であり、且つ、コンピュータにステップ（ａ）及び（ｂ）を前以って実行させて得られた大腸癌の状態と発現パターンとを関係付けたデータを利用してステップ（ｃ）及び（ｄ）を実行させることが可能である、請求項１０又は１１に記載のプログラム。
大腸癌の状態が、癌の有無、癌の悪性度、癌の転移の有無、及び癌の再発の有無からなる群から選ばれる少なくとも１つである請求項１０乃至１２のいずれか一項に記載のプログラム。