JP5632382B2

JP5632382B2 - 遺伝子コピー数変化のパターンに基づいた非小細胞肺癌のゲノム分類

Info

Publication number: JP5632382B2
Application number: JP2011534716A
Authority: JP
Inventors: セミザロフ，デイミトリ; ルウ，シン; ジヤン，コー; レシニエフスキー，リツク・アール
Original assignee: アッヴィ・インコーポレイテッド
Priority date: 2008-10-31
Filing date: 2009-10-28
Publication date: 2014-11-26
Anticipated expiration: 2029-10-28
Also published as: US8498820B2; WO2010051314A2; US20100145893A1; WO2010051314A3; EP2362958A2; JP2012513048A; CN102696034B; CN102696034A; CA2739457A1; MX2011004588A

Description

関連出願への相互参照
本出願は、２００８年１０月３１日に出願された米国特許出願第６１／１１０，３１７号の優先権を主張するものであり、その内容は参照により本明細書に組み込まれている。

本出願は、「ＭＥＴＨＯＤＳＦＯＲＡＳＳＥＭＢＬＩＮＧＰＡＮＥＬＳＯＦＣＡＮＣＥＲＣＥＬＬＬＩＮＥＳＦＯＲＵＳＥＩＮＴＥＳＴＩＮＧＴＨＥＥＦＦＩＣＡＣＹＯＦＯＮＥＯＲＭＯＲＥＰＨＡＲＭＡＣＥＵＴＩＣＡＬＣＯＭＰＯＳＩＴＩＯＮＳ」という名称の出願（ＤｉｍｉｔｒｉＳｅｍｉｚａｒｏｖ、ＸｉｎＬｕ、ＫｅＺｈａｎｇ、およびＲｉｃｋＬｅｓｎｉｅｗｓｋｉ、発明者；２００９年１０月２８日に出願され、２００８年１０月３１日に出願された米国特許出願第６１／１１０，２８１号の優先権を主張するものである）も参照により組み込む。

連邦政府による資金提供を受けた研究開発の記載
該当なし

コンパクトディスク上の材料の参照
該当なし

配列表
本出願は、ＥＦＳ−Ｗｅｂ経由で提出された配列表を含有し、これによってその全体が参照により組み込まれる。２００９年１０月２７日に作成された前記ＡＳＣＩＩコピーは、９６７０ＷＯＯ１．ｔｘｔと名前が付けられており、サイズは１，１１０バイトである。

発明の分野
本発明は、非小細胞肺癌（ＮＳＣＬＣ）に関連する腫瘍、癌細胞系および対象の試料のゲノムサブグループを定義するための方法に関する。本発明は、対象に施すための１種以上の治療介入の有効性を試験することに使用するために、ゲノムサブグループによって腫瘍、癌細胞系および対象の試料のパネルを構築するための方法にも関する。

関連技術の記述
癌は、臨床経過、転帰および治療への応答性における相当な変動性を特徴とするゲノム疾患である。この変動性の根底にある主要因子は、癌に固有の遺伝的異質性である。病理組織学的なサブタイプが同じである個々の腫瘍は、細胞ＤＮＡにおいて異なる異常を有する。

ＮＳＣＬＣは、世界的な癌による死亡率の最も一般的な原因である（Ｐａｒｋｉｎ、２００１年）。現在、ＮＳＣＬＣは、細胞の特定の物理的特性を強調するために種々の染色手順と併用されることも多い顕微鏡の下での組織像−細胞解剖学の視覚的検査によって特徴付けされている。ＮＳＣＬＣの主要な組織学的サブタイプは、腺癌（肺癌の最も一般的な形態）、肺扁平上皮癌（ＳＱ）および大細胞肺癌（ＬＣＬＣ）である（ＴｒａｖｉｓおよびＳｏｂｉｎ、１９９９年）。早期のＮＳＣＬＣの患者の約４０％が、腫瘍を外科的除去した後５年以内に再発している｛Ｈｏｆｆｍａｎ、２０００年、＃３９｝。ＮＳＣＬＣを治療するための現在の治療法は、一部の患者のみに有効であり、ＮＳＣＬＣが互いに異なるという事実を強調している。病理組織学的に同じ群内の腫瘍は、著しく異なる臨床経過をたどり、療法に対する応答が異なる。したがって、現在の組織学に基づいたＮＳＣＬＣの病期決定は、疾患の臨床経過または治療の転帰を予測するのに不十分である。

肺腫瘍の表現型の多様性は、遺伝子コピー数の異常のパターンにおける対応する多様性を伴う。染色体異常は、いくつもの発達障害および癌に関連する有害事象である。体細胞における染色体領域の増幅および欠失は、癌を導く主要因子の１つであると考えられている。そこで、肺癌における遺伝子コピー数のパターンを系統的に検査することが、肺癌のゲノム科学に基づいた分子分類学の土台となり得る。予後的に重要な再発性染色体異常は、古典的な細胞遺伝学的分析または蛍光インサイツハイブリダイゼーション法（ＦＩＳＨ）（ＬｅｖｓｋｙおよびＳｉｎｇｅｒ、２００３年）によって、個々に検出され得る。しかし、ＦＩＳＨ分析は、適用したプローブパネルによって定義された限られた染色体の遺伝子座のセットのみを調べるので、遺伝学的異常の全範囲を検出することはできない。より有利な診断ツールは、疾患の微細な分類に基づくことになる。対象のＮＳＣＬＣの遺伝的な状態に基づいて治療に対して合理的に患者選定をすることが可能になる。

ＴｒａｖｉｓおよびＳｏｂｉｎ、１９９９年Ｈｏｆｆｍａｎ、２０００年ＬｅｖｓｋｙおよびＳｉｎｇｅｒ、２００３年

第１の態様において、本発明は、
（ａ）少なくとも１つのＮＳＣＬＣ細胞を含む、細胞系または腫瘍を含む複数のｍ個の試料を得るステップ、
（ｂ）ステップ（ａ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含むデータセットを取得するステップ、
（ｃ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータをデータセットから削除すること
を含む、データセットにおいて正常細胞が混入した試料を同定し、混入試料をデータセットから削除するステップ、
（ｄ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もるステップ、
（ｅ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、式（１１）を用いてアルゴリズムの発散を計算するステップ、

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）
（２）ステップ（ｅ）（１）において計算された発散が、アルゴリズムの乗法的更新の前の１００ステップに対して計算された発散と比較して約０．００１％超減少していない場合にアルゴリズムを停止するステップ、
（３）アルゴリズムを、選択された実行回数ランダムに繰り返し、式（１２）を用いてアルゴリズムの各実行に対してＨのピアソン相関係数行列を計算するステップ、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ、Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｄ）からのサブグループの数である。）
（４）ステップ（ｅ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均するステップ、および
（５）試料を、１引く（ステップ（ｅ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによってｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットするステップ
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てるステップ、
（ｆ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または細胞系試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定するステップ、および
（ｇ）必要に応じて、ステップ（ｆ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価するステップ
を含む、非小細胞肺癌ゲノムサブグループのデータベースを得るための方法を対象とする。

第２の態様において、本発明は、
（ａ）
（ｉ）少なくとも１つのＮＳＣＬＣ腫瘍またはＮＳＣＬＣ細胞系を含む複数のｍ個の試料を得ること、
（ｉｉ）ステップ（ｉ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第１のデータセットを取得すること、
（ｉｉｉ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、および
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータを第１のデータセットから削除すること
を含む、第１のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第１のデータセットから削除すること、
（ｉｖ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
（ｖ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、式（１１）を用いてアルゴリズムの発散を計算すること、

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）
（２）ステップ（ｖ）（１）において計算された発散が、アルゴリズムの乗法的更新の前の１００ステップに対して計算された発散と比較して、約０．００１％超減少していない場合にアルゴリズムを停止すること、
（３）アルゴリズムを、選択された実行回数ランダムに繰り返し、式（１２）を用いてアルゴリズムの各実行に対してＨのピアソン相関係数行列を計算すること、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｉｖ）からのサブグループの数である。）
（４）ステップ（ｖ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および、
（５）データセット内の腫瘍および細胞系を、１引く（ステップ（ｖ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによって、ｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てること、
（ｖｉ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが各試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、および
（ｖｉｉ）必要に応じて、ステップ（ｖｉ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価すること
を含む方法によって開発されたデータベースを準備すること、
（ｂ）ＮＳＣＬＣ細胞を含有すると疑われる試料を準備すること、
（ｃ）ステップ（ｉｉ）からのものと同じ、少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第２のデータセットＶｓａｍｐｌｅを取得すること、および
（ｄ）Ｖｓａｍｐｌｅからの試料を、Ｖｓａｍｐｌｅを、ステップ（ｉ）−（ｖｉｉ）において決定されたクラスターと比較することによって分類すること
を含む、ＮＳＣＬＣ腫瘍またはＮＳＣＬＣ細胞系を分類する方法を対象とする。

第３の態様において、本発明は、
（ａ）
（ｉ）少なくとも１つのＮＳＣＬＣ腫瘍またはＮＳＣＬＣ細胞系を含む複数のｍ個の試料を得ること、
（ｉｉ）ステップ（ｉ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第１のデータセットを取得すること、
（ｉｉｉ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータを第１のデータセットから削除すること
を含む、第１のデータセットにおいて、正常細胞が混入した試料を同定し、混入試料を第１のデータセットから削除すること、
（ｉｖ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
（ｖ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、式（１１）を用いてアルゴリズムの発散を計算すること、

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）
（２）ステップ（ｖ）（１）において計算された発散が、アルゴリズムの乗法的更新の前の１００ステップに対して計算された発散と比較して約０．００１％超減少していない場合にアルゴリズムを停止すること、
（３）アルゴリズムを、選択された実行回数ランダムに繰り返し、式（１２）を用いてアルゴリズムの各実行に対してＨのピアソン相関係数行列を計算すること、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｉｖ）からのサブグループの数である。）
（４）ステップ（ｖ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
（５）データセット内の腫瘍および細胞系を、１引く（ステップ（ｖ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによってｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てること、
（ｖｉ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが各試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、
（ｖｉｉ）必要に応じて、ステップ（ｖｉ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価すること、および
（ｖｉｉｉ）ステップ（ｖｉ）において選択された各クラスターから少なくとも１つのＮＳＣＬＣ細胞を選択し、ゲノムサブグループによって定義されたパネルに構築すること
を含む方法で構築された、ゲノムサブグループによって分類されたＮＳＣＬＣ細胞のパネルから、各サブグループからの少なくとも１つのＮＳＣＬＳ細胞系を選択すること、
（ｂ）各サブグループからの少なくとも１つのＮＳＣＬＣ細胞を治療介入と接触させること、
（ｃ）各サブグループからの少なくとも１つのＮＳＣＬＣ細胞を抑えるまたは死滅させるための治療介入の有効性をアッセイすること、
（ｄ）治療介入を、各サブグループからの少なくとも１つのＮＳＣＬＣ細胞を抑えるまたは死滅させるための治療介入の決定された有効性によって分類し、１つのサブグループからの少なくとも１つのＮＳＣＬＣ細胞を抑えるまたは死滅させるが、別のサブグループからのＮＳＣＬＣ細胞を抑えない、または死滅させないことにより、このサブグループのＮＳＣＬＣ細胞を抑えるまたは死滅させるための治療介入の特異性が示されること、
を含む、非小細胞肺癌（ＮＳＣＬＣ）細胞を抑えるまたは死滅させるための治療介入を分類する方法を対象とする。治療介入は、放射線療法、化学療法、レーザー療法、光線力学的療法および生物学的療法であり得る。治療介入が化学療法である場合、化学療法は、アリムタ、エルロチニブ、ゲフィチニブ、シスプラチン、ゲムシタビン、パクリタキセル、ビノレルビン、エピルビシン、ビンデシン、ロニダミン、イホスファミド、カルボプラチンおよびドセタキセルおよびイホスファミドからなる群から選択される活性薬剤を含む少なくとも１つの医薬組成物を投与することを含み得る。化学療法は、２種以上の活性薬剤を投与することを含み得る。

第４の態様において、本発明は、
（ａ）
（ｉ）少なくとも１つのＮＳＣＬＣ腫瘍またはＮＳＣＬＣ細胞系を含む複数のｍ個の試料を得ること、
（ｉｉ）ステップ（ｉ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第１のデータセットを取得すること、
（ｉｉｉ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、および
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータを第１のデータセットから削除すること
を含む、第１のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第１のデータセットから削除すること、
（ｉｖ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
（ｖ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、式（１１）を用いてアルゴリズムの発散を計算すること、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｉｖ）からのサブグループの数である。）
（４）ステップ（ｖ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
（５）データセット内の腫瘍および細胞系を、１引く（ステップ（ｖ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによって、ｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てること、
（ｖｉ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが各試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、
（ｖｉｉ）必要に応じて、ステップ（ｖｉ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価すること、および
（ｖｉｉｉ）ステップ（ｖｉ）において選択された各クラスターから少なくとも１つの試料を選択し、ゲノムサブグループによって定義されたパネルに構築すること
を含む、データベースを構築すること、
（ｂ）ステップ（ａ）のデータベースを分析して各サブグループに対して特徴的なコピー数の異常を決定すること、および
（ｃ）各サブグループについての決定された特徴的なコピー数の異常に基づいて、複数のプローブを設計し、各プローブをゲノムサブグループに割り当てること
を含む、試料からのＮＳＣＬＣ細胞を分類するためのプローブパネルを構築する方法を対象とする。

第５の態様において、本発明は、ＮＳＣＬＣ腫瘍試料を分類するためのプローブパネルを含むキットを対象とする。プローブパネル内のプローブは、例えば、ＦＩＳＨプローブであり得る。

第６の態様において、本発明は、
（ａ）
（ｉ）少なくとも１つのＮＳＣＬＣ腫瘍またはＮＳＣＬＣ細胞系を含む複数のｍ個の試料を得ること、
（ｉｉ）ステップ（ｉ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第１のデータセットを取得すること、
（ｉｉｉ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、および
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータを第１のデータセットから削除すること
を含む、第１のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第１のデータセットから削除すること、
（ｉｖ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
（ｖ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、式（１１）を用いてアルゴリズムの発散を計算すること、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｉｖ）からのサブグループの数である。）
（４）ステップ（ｖ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
（５）データセット内の腫瘍および細胞系を、１引く（ステップ（ｖ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによって、ｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てること、
（ｖｉ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが各試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、および
（ｖｉｉ）必要に応じて、ステップ（ｖｉ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価すること
についての説明を含む、データベースを構築するための説明書、ならびに
（ｂ）必要に応じて、
ＨＣＣ８２７、ＮＣＩ−Ｈ１４３７、ＮＣＩ−Ｈ１５６３、ＮＣＩ−Ｈ１５６８、ＮＣＩ−Ｈ１６２３、ＮＣＩ−Ｈ１６５１、ＮＣＩ−Ｈ１６９３、ＮＣＩ−Ｈ１７５５、ＮＣＩ−Ｈ１７９３、ＮＣＩ−Ｈ１８３８、ＮＣＩ−Ｈ１９４４、ＮＣＩ−Ｈ１９７５、ＮＣＩ−Ｈ１９９３、ＮＣＩ−Ｈ２０２３、ＮＣＩ−Ｈ２０７３、ＮＣＩ−Ｈ２０８５、ＮＣＩ−Ｈ２０８７、ＮＣＩ−Ｈ２１２２、ＮＣＩ−Ｈ２１２６、ＮＣＩ−Ｈ２２２８、ＮＣＩ−Ｈ２２９１、ＮＣＩ−Ｈ２３、ＮＣＩ−Ｈ２３４２、ＮＣＩ−Ｈ２３４７、ＮＣＩ−Ｈ６４７、ＮＣＩ−Ｈ９２０、ＮＣＩ−Ｈ９６９、ＣＬＳ−５４、ＬＸ−２８９、ＳＫ−ＬＵ−１、Ｈ２８８２、Ｃａｌｕ−６、Ｈ３５８およびＨ４６０からなる群から選択される第１の細胞系、
ＮＣＩ−Ｈ２４０５、ＮＣＩ−Ｈ５２２、ＳＫ−ＭＥＳ−１、Ｈ１５７、Ｈ１８１９、Ｈ２００９、Ｈ２８８７、ＨＣＣ１１７１、ＨＣＣ１３５９、ＨＣＣ１５、ＨＣＣ１９３、ＨＣＣ３６６、ＨＣＣ４６１、ＨＣＣ５１５、ＨＣＣ７８、ＨＯＰ−６２、ＨＯＰ−９２およびＮＣＩ−Ｈ２６６からなる群から選択される第２の細胞系および
Ａ５４９、Ｃａｌｕ−３、ＮＣＩ−Ｈ１７３４、ＮＣＩ−Ｈ８３８およびＨＣＣ９５からなる群から選択される第３の細胞系、
またはそれらの単離ゲノムＤＮＡ
を含む、ＮＳＣＬＣ腫瘍試料を分類するためのキットを対象とする。

本発明のすべての態様において、教師なしクラスタリングアルゴリズムは、階層クラスタリングであってよく、コーフェン相関またはベイズ情報量規準が、データセットから最終的なクラスターの数を規定するために独立にまたは一緒に用いられ得る。

本発明のすべての態様において、複数の試料（ｍ個）は、
ＨＣＣ８２７、ＮＣＩ−Ｈ１４３７、ＮＣＩ−Ｈ１５６３、ＮＣＩ−Ｈ１５６８、ＮＣＩ−Ｈ１６２３、ＮＣＩ−Ｈ１６５１、ＮＣＩ−Ｈ１６９３、ＮＣＩ−Ｈ１７５５、ＮＣＩ−Ｈ１７９３、ＮＣＩ−Ｈ１８３８、ＮＣＩ−Ｈ１９４４、ＮＣＩ−Ｈ１９７５、ＮＣＩ−Ｈ１９９３、ＮＣＩ−Ｈ２０２３、ＮＣＩ−Ｈ２０７３、ＮＣＩ−Ｈ２０８５、ＮＣＩ−Ｈ２０８７、ＮＣＩ−Ｈ２１２２、ＮＣＩ−Ｈ２１２６、ＮＣＩ−Ｈ２２２８、ＮＣＩ−Ｈ２２９１、ＮＣＩ−Ｈ２３、ＮＣＩ−Ｈ２３４２、ＮＣＩ−Ｈ２３４７、ＮＣＩ−Ｈ６４７、ＮＣＩ−Ｈ９２０、ＮＣＩ−Ｈ９６９、ＣＬＳ−５４、ＬＸ−２８９、ＳＫ−ＬＵ−１、Ｈ２８８２、Ｃａｌｕ−６、Ｈ３５８およびＨ４６０からなる群から選択される第１の細胞系、
ＮＣＩ−Ｈ２４０５、ＮＣＩ−Ｈ５２２、ＳＫ−ＭＥＳ−１、Ｈ１５７、Ｈ１８１９、Ｈ２００９、Ｈ２８８７、ＨＣＣ１１７１、ＨＣＣ１３５９、ＨＣＣ１５、ＨＣＣ１９３、ＨＣＣ３６６、ＨＣＣ４６１、ＨＣＣ５１５、ＨＣＣ７８、ＨＯＰ−６２、ＨＯＰ−９２およびＮＣＩ−Ｈ２６６からなる群から選択される第２の細胞系および
Ａ５４９、Ｃａｌｕ−３、ＮＣＩ−Ｈ１７３４、ＮＣＩ−Ｈ８３８およびＨＣＣ９５からなる群から選択される第３の細胞系
を含み得る。一部の態様において、ｍは、前述した細胞系すべてを含む。

本発明の一部の態様において、ＮＳＣＬＣ細胞は細胞系からのものである。

ゲノム科学に基づいた、腫瘍を分類する手順のワークフローを示す図である。階層クラスタリングを用いることによって、予想される生成クラスター数を導くための、ＮＳＣＬＣデータセットのデンドログラムを示す図である。ＮＳＣＬＣ腫瘍および細胞系のＣＧＨデータを、ゲノム非負値行列因子分解（ｇＮＭＦ）によって４つのクラスターに分類したヒートマップを示す図である。各行は試料を表し、各列はＳＮＰ遺伝子座を表す。赤色、白色および青色は、それぞれ、コピー数が多いこと、コピー数が正常であること、コピー数が少ないことを示す。水平な黒線は、異なるゲノムサブグループを分離している。垂直の空間は、染色体１−２２を分離している。細胞系は緑色の円で強調されている。（ａ）４つのクラスターを別々に検討した；および（ｂ）クラスター１と２を合わせた、４つのＮＳＣＬＣクラスターにおいて臨床的にアノテートされた試料についての、再発するまでの時間（ＴＴＲ）のカプランマイヤー曲線を示すグラフである。４つのクラスターを別々に検討した；およびクラスター１と残りの３つのクラスターを比較した、４つのクラスターに割り当てられた検証試料についてのＴＴＲのカプランマイヤー曲線を示すグラフである。４つのクラスターを別々に検討した；クラスター１と残りの３つのクラスターを比較した、４つのクラスターに割り当てられた検証試料間の全生存（ＯＳ）のカプランマイヤー曲線を示すグラフである。クラスターを表すために存在するすべての腫瘍および細胞系を使用した、４つのクラスターに割り当てられた検証試料間の、（ａ）ＴＴＲ；および（ｂ）ＯＳ、のカプランマイヤー曲線を示すグラフである。

発明の詳細な記述
本発明は、ＮＳＣＬＣ腫瘍を評価し、分類し、階層化すること、ならびにＮＳＣＬＣ腫瘍に対する治療介入の有効性を評価することを提供する。本発明は、マイクロアレイに基づいた比較的なゲノムハイブリダイゼーション技法を利用して、ゲノム全域にわたる規模で遺伝子コピー数の異常性を検出し、したがって、ＤＮＡコピー数の変化を伴う染色体異常の全ゲノム的な考察を提供する。以前の病理組織学に基づいた分類スキームと異なり、本発明の方法は、臨床的介入において観察される変動性の背後の主要因子であるＮＳＣＬＣ細胞の遺伝的異質性を確かめる。

本発明の方法は、ＮＳＣＬＣをゲノムサブグループ化して、ＮＳＣＬＣに対する標的療法の発見および開発を容易にすること、ならびにそれらの療法に対する感受性が高いと思われるＮＳＣＬＣを有する個別の患者集団を定義することを可能にする。この患者群の階層化も、臨床試験の設計において非常に有用である。

本発明のクラスタリング手順によって定義されたサブグループは、起源および腫瘍発生の機構が異なることを示す別個のパターンのゲノム異常を保有した。この知見は、異なるサブグループは、各サブグループに特有な別個の臨床的挙動および治療介入への感受性を表すことを示唆している。このようなことは、例えば、乳癌におけるＨＥＲ２の増幅、肺癌におけるＥＧＦＲの増幅および神経芽細胞腫におけるＭＹＣＮの増幅などの他のコピー数の異常について以前観察されている（例えば、（Ａｎａｎｄら、２００３年；Ｈｉｒｓｃｈら、２００６年；Ｓｅｅｇｅｒら、１９８５年；Ｖｏｇｅｌら、２００２年を参照されたい）。

本発明の方法は、新規の計算アルゴリズムによって可能になり、複雑な、ゲノム全般にわたるコピー数の変化のパターンを分析することに基づいている。本発明の方法は、ＮＳＣＬＣのゲノムサブタイプを完全に特徴付けすることおよび臨床的挙動と治療介入のより正確な相関を生成させることを提供する。

提案したゲノム分類法は、（ｉ）試料セットが十分に大きかったこと（約３００の試料）および（ｉｉ）試料は種々の供給源から取得され、したがってバイアスの可能性が排除されているので、ＮＳＣＬＣの対象の全集団に対して妥当である。

そこで、一態様において、本発明は、高解像度の比較的なゲノムハイブリダイゼーション（ＣＧＨ）を使用してＮＳＣＬＣ試料をプロファイリングする方法および外注の統計的アルゴリズムを用いてコピー数のプロファイルを分類する方法を提供する。得られたＮＳＣＬＣの分類は、薬物に対する患者の応答を予測し、前臨床モデルを選択するために使用され得る。

本発明の方法は、ゲノム異常性のパターンに基づいてＮＳＣＬＣを分類し、したがって、疾患の分子サブグループを決定することを可能にする。

別の態様において、本発明は、ＮＳＣＬＣ細胞のゲノムサブグループを定義または分類するために使用され得る独特の計算アルゴリズムを利用する。一般に、計算アルゴリズムは、
１．機械学習アルゴリズム（ランダムフォレストなど）を適用して、正常細胞が著しく混入した試料を同定し、削除するステップ、
２．教師なしクラスタリング（階層クラスタリングなど）を使用して、データをゲノム非負値行列因子分解（ｇＮＭＦ）モデルに適合させる前に、予想されるクラスター数を見積もるステップ、
３．ｇＮＭＦの多数のランダムスタートを使用し、続いてｇＮＭＦから得られたＨ行列の相関を距離行列として適用して試料を分類するステップ、
４．腫瘍および癌細胞系を、ｇＮＭＦアルゴリズムを使用していくつかの予想されるクラスター数に分類し、続いてコーフェン相関係数およびベイズ情報量規準（ＢＩＣ）を使用して最良モデルを選択し、最終的なクラスターの数を決定するステップ、および
５．必要に応じて、１０倍安定性検定を適用してクラスターの安定性を評価するステップ
を含む。

一実施形態において、（１）ＮＳＣＬＣ細胞試料からゲノムＤＮＡ（ｇＤＮＡ）を抽出するステップ、（２）ｇＤＮＡをマイクロアレイにハイブリダイズし、マイクロアレイを分析してマイクロアレイ上にスポットされた各プローブについて生のシグナルを取得するステップ、（３）各遺伝子座のコピー数を決定し、コピー数の変化領域を検出するステップ、（４）データの品質管理を行うステップ、（５）コピー数のデータを平滑化し、分割アルゴリズムを用いて次元を縮小するステップ、（６）階層クラスタリングによって見積もられたクラスターの見積もり数に対してｇＮＭＦを用いて、平滑化されたデータを分類するステップ、（７）コーフェン相関および／またはベイズ情報量規準を用いて最良の分類モデルを選択するステップおよび（８）必要に応じて、ｇＮＭＦ分類の安定性を検定するステップを含む本発明は、ＮＳＣＬＣ細胞を分類する。

本発明の方法は、前臨床試験モデルのパネルにおける親腫瘍の完全な表示を提供することによって、前臨床試験モデルの合理的な選択を容易にし、前臨床試験の予測性を改善する。どんな理論にも縛られることは希望しないが、本発明の基本原理は、以下の通りである。ヒトの腫瘍の表現型を決定するために、コピー数の変化（ＣＮＡ）のパターンが示されている。したがって、腫瘍集団のサブグループがＣＮＡのパターンによって定義され、次いで少なくとも１つの細胞系が各サブグループに見合うように選択され、現在利用可能なモデルのセットよりもＮＳＣＬＣ細胞集団の多様性を適切に表す細胞系のパネルが開発され得る。これらの細胞系のパネルは、治療介入を試験することに使用され得る。さらに、これらのデータベースは、患者のＮＳＣＬＣ腫瘍をより細かく分類することを可能にし、癌を有効に治療する可能性が高い、精密な治療介入の処方を可能にする。

本発明の方法は、治療介入および前臨床試験モデルを合理的に選択することを容易にする。

定義
ゲノム全般にわたるコピー数のプロファイル、または「コピー数」は、２つ以上の遺伝子座のＤＮＡコピー数の測定値である。コピー数のプロファイルは、細胞が本質的に野生型であり、各遺伝子座が２つのコピーで存在している（二倍体のため、性染色体を除く）場合、または野生型の異常体、すなわち、遺伝子座の増幅および欠失を含有する場合に評価することができる。増幅および欠失は、エレメントの一部およびエレメントの全体、または多くのエレメントに同時に影響を与え得る。コピー数のプロファイルにより、増幅または欠失の正確な数は必ずしも決定されないが、遺伝学的異常性を含有する領域および異常性が欠失であるか増幅であるかは同定される。

一部の実施形態において、「野生型」ゲノムは、試料の遺伝子型を決定する状況において使用されるとき、必ずしも野生型の試料が厳密に二倍体であることを意味しない。本発明に照らして、「野生型」ゲノムは、ＮＳＣＬＣなどの特定の病態を現していない、または現しそうにない細胞から取り出したゲノムである。例えば、野生型ゲノムは、対象によって健康な、正常細胞から提供され、同じ対象のＮＳＣＬＣ細胞と比較され得る。
「ベイズ情報量規準」または「ＢＩＣ」は、モデル選択に対する統計的基準として使用されるパラメトリック法を指す。ＢＩＣは、Ｓｃｈｗａｒｚ，Ｇ．によって、ＡｎｎａｌｓｏｆＳｔａｔｉｓｔｉｃｓ６巻（２号）：４６１−４６４頁（１９７８年）において、「Ｅｓｔｉｍａｔｉｎｇｔｈｅｄｉｍｅｎｓｉｏｎｏｆａｍｏｄｅｌ」に記載されている。ＢＩＣは式（１）によって定義される：
ＢＩＣ＝−２＊ｌｎＬ＋ｋｌｎ（ｎ）（１）
式中、Ｌは、モデルがデータにどれくらい正確に近似しているかを測定する尤度であり、ｋはモデルにおいて使用されるパラメータの数であり、ｎは試料の数である。二次の項、ｋ＊ｌｎ（ｎ）は、過剰適合を回避するためにモデルにおいて使用されるパラメータの数のペナルティとして機能する。

「コーフェン相関係数」または「コーフェン相関」は互換的に使用され、最終的なクラスタリングを導くために使用されるデンドログラムが、元のモデル化されていないデータポイントとのペアワイズ距離をどれだけ忠実に保存したかを測定するために用いられるアルゴリズムを指す。本発明における使用に関して、元のデータＸ_ｉがデンドログラムＴ_ｉによってモデル化されている場合、距離の測定値は式（２）によって定義される：
ｘ（ｉ，ｊ）＝｜Ｘ_ｉ−Ｘ_ｊ｜（２）
ｉ番目の試料とｊ番目の試料の間の距離、およびｔ（ｉ，ｊ）＝モデルポイント、Ｔ_ｉとＴ_ｊの間のデンドログラムの距離であり、この距離はこれらの２つのポイントが最初に一緒に連結されるノードの高さである。

それから、ｘがｘ（ｉ，ｊ）の平均であり、ｔがｔ（ｉ，ｊ）の平均である場合、コーフェン相関係数ｃは式（３）によって定義される：

ｒが増加するにつれて、コーフェン相関は特定のポイントで劇的に減少し、したがって、最良のクラスター数に対応する（Ｃａｒｒａｓｃｏら、２００６年；Ｍａｈｅｒら、２００６年）。

「クラスター解析」は、「データ分割」としても公知であり、目的物（観測値、個体、事例またはデータ行とも称される）の集団をサブセット、サブグループまたは「クラスター」にグループ分けまたは分割し、各クラスター内の目的物が互いに、異なるクラスターに割り当てられた目的物よりも密接に関連しているようにする。クラスター解析の目標のすべての中核をなすのは、クラスタリングされた個々の目的物間の類似性（または非類似性性）の程度の観念である。クラスタリングの種類の例は、階層クラスタリングおよびｋ−平均クラスタリングである。

「階層クラスタリング」は、クラスターの階層を構築すること（集塊性）または解体すること（分裂的）を指す。この階層の伝統的な表示は、デンドログラムであり、その一方の端に個々のエレメントがあり、他方にすべてのエレメントを含有する単一のクラスターがある。集塊性のアルゴリズムは、木の葉から始まるが、一方、分裂的なアルゴリズムは根から始まる。階層クラスタリングを行うための方法は、当技術分野で周知である。

階層クラスタリング手法は、生物医学的な研究において、生体試料をその遺伝子発現パターンに基づいてクラスタリングし、試料集団におけるサブグループ構造を導くために広く使用されている（Ｂｈａｔｔａｃｈａｒｊｅｅら、２００１年；Ｈｅｄｅｎｆａｌｋら、２００３年；Ｓｏｔｉｒｉｏｕら、２００３年；Ｗｉｌｈｅｌｍら、２００２年）。例えば、階層クラスタリングは、６４のヒト腫瘍細胞系を、１１６１の選択された遺伝子の発現パターン基づいていくつかのクラスターにグループ分けし、異なるクラスターの分子的特徴を導くために使用されている（Ｒｏｓｓら、２０００年）。

「機械学習」は、コンピュータに「学習」させることを可能にするアルゴリズムおよび技法を設計および開発することに関連する人工知能のサブフィールドを指す。一般に、帰納的学習および演繹的学習の２種類がある。帰納的な機械学習の方法は、データセットからルールおよびパターンを抽出する。機械学習研究の主要な焦点は、計算的方法および統計的方法によって、データから自動的に情報を抽出することである。分類学に系統立てられたいくつもの機械学習アルゴリズムは、アルゴリズムの所望の転帰に基づいて、当業者に公知である。これらとしては、（１）教師あり学習（例えば、ランダムフォレスト）、（２）教師なし学習（例えば、主成分分析、ベクトル量子化など）（３）半教師あり学習、（４）強化学習、（５）トランスダクションおよび（６）学習の学習が挙げられる。

「非負値行列因子分解」（ＮＭＦ）は、部分に基づいた、非負データの線形表現を見出すためのアルゴリズムを指す。非負値行列因子分解は、もともとは、画像解析において使用するための数学的ツールとして開発された（ＬｅｅおよびＳｅｕｎｇ、１９９９年；ＬｅｅおよびＳｅｕｎｇ、２００１年）。ＮＭＦは、遺伝子発現データを分析するためにゲノム科学において採用された（Ｂｒｕｎｅｔら、２００４年）。具体的には、ＮＭＦは、遺伝子コピー数のデータの分析において使用するために適合され、遺伝子コピー数の分析に使用されるこの方法の変形型はゲノム非負値行列因子分解（ｇＮＭＦ）と称される（Ｃａｒｒａｓｃｏら、２００６年；Ｍａｈｅｒら、２００６年）。試料セットに対して平滑化されたコピー数のデータのｎｘｍ行列Ｖ（ｎはセグメントの数であり、ｍは試料の数である）を与えると、ｇＮＭＦアルゴリズムは式（４）に示すように行列Ｖをｎｘｒ行列Ｗおよびｒｘｍ行列Ｈに因子分解する：
Ｖ＝Ｗ＊Ｈ＋ｅ（４）
（式中、Ｗは各サブグループに対する標準モデルとみなすことができ、Ｈは各サブグループに属する各試料の相対的な重量とみなすことができ、ｅはモデル適合の剰余を表し、ｒはクラスタリングされるサブグループの数である（通常ｍよりもずっと小さい））。入力としてｒおよびＶを与えると、ｇＮＭＦアルゴリズムはまずＷおよびＨの初期値をランダムに設定し、次いで、式（５）および（６）に従った乗法更新ルールを用いてＷおよびＨを繰り返し更新する：

式中、ａは１からｒまでにわたり、μは１からｍまでにわたり、ｉは１からｎまでにわたる。

「ピアソンの線形非類似性」は、式（７）を指す：

式中、

は長さｎの２つのベクトルであり、

は式（８）を有するピアソンの線形相関である：

式中、試料の標準偏差ｓ_ｘおよびｓ_ｙは式（９）を有し：

試料の平均は式（１０）を有する：

「ランダムフォレスト」は、予測木を、独立にサンプリングされたランダムベクターの値に各木が依存するように、またフォレスト内のすべての木が同じ分布を持つように組み合わせて使用する教師あり学習アルゴリズムを指す（Ｂｒｅｉｍａｎ、２００１年）。

ランダムフォレストは、多くの分類木を成長させる。新しい目的物を入力ベクターから分類するために、入力ベクターをフォレスト内の木それぞれに置く。各木から分類が与えられ、それは木がクラスに「投票する」と言われる。フォレストは、最も多い票（フォレスト内のすべての木にわたって）を有する分類を選出する。各木は以下の通り成長する：
１．訓練セット内の事象の数がＮである場合、Ｎ個の事象をランダムにサンプリングするが、元のデータからの置き換えがある。この試料は、木を成長させるための訓練セットになる。
２．ｍ個の入力変数がある場合、数ｍ＜＜Ｍは、各ノードにおいて、ｍ個の変数がＭからランダムに選択され、ノードを分割するためにこれらのｍ個の変数に対する最良の分割が使用されるように特定される。ｍの値はフォレストが成長する間、一定に保たれる。
３．各木は可能な限りの最大規模まで成長させる。剪定はしない。

フォレストのエラー発生率は２つの因子に左右される：
１．フォレスト内の任意の２つの木間の相関。相関が大きくなるとフォレストのエラー発生率が増加する。
２．フォレスト内の個々の木それぞれの強度。エラー発生率が低い木は強力な分類器である。個々の木の強度が増加すると、フォレストのエラー発生率が減少する。

オリゴヌクレオチドまたはポリヌクレオチドは、長さが少なくとも２ヌクレオチド、好ましくは少なくとも８ヌクレオチド、より好ましくは少なくとも２０ヌクレオチドまでにわたる核酸またはポリヌクレオチドに特異的にハイブリダイズする化合物である。ポリヌクレオチドとしては、デオキシリボ核酸（ＤＮＡ）またはリボ核酸（ＲＮＡ）が挙げられる。ポリヌクレオチドの別の例は、ペプチド核酸（ＰＮＡ）である。

プローブは、特定の標的に認識され得る表面固定分子である。

固体支持体、支持体および基質は互換的に使用され、１つまたは複数の硬質または半硬質の表面を有する材料または材料群を指す。

「ハイブリダイゼーション」は、ワトソン・クリックの塩基対合または非標準の塩基対合によって複合体を形成するために十分相補的な核酸配列間の複合体の形成を指す。例えば、プライマーが標的配列（鋳型）と「ハイブリダイズする」際、そのような複合体（またはハイブリッド）は、例えば、ＤＮＡ合成を開始するためにＤＮＡポリメラーゼが必要とするプライマー機能を果たすために十分に安定である。ハイブリダイズする配列は、安定なハイブリッドをもたらすために完全な相補性を有する必要はない。多くの場合、安定なハイブリッドは、約１０％未満の塩基がミスマッチである場合に形成される。本明細書で使用する、「相補的な」という用語は、アッセイ条件下で、一般に約８０％超、約８１％超、約８２％超、約８３％超、約８４％超、約８５％超、約８６％超、約８７％超、約８８％超、約８９％超、約９０％超、約９１％超、約９２％超、約９３％超、約９４％超、約９５％超、約９６％超、約９７％超、約９８％超または約９９％超の相同性でその相補物と安定な二本鎖を形成するオリゴヌクレオチドを指す。当業者は、少なくとも所望のレベルの相補性を有する配列が安定にハイブリダイズするが、低い相補性を有する配列は安定にハイブリダイズしないように、ハイブリダイゼーション条件の厳密性をどのように見積もり、調整するかを理解している。ハイブリダイゼーション条件およびパラメータの例は周知である（Ａｕｓｕｂｅｌ、１９８７年；ＳａｍｂｒｏｏｋおよびＲｕｓｓｅｌｌ、２００１年）。

核酸アレイ（「アレイ」）は、固体支持体に付着した核酸プローブを含む。アレイは、一般には、異なる既知の位置で基質の表面に結合する、複数の異なる核酸プローブを含む。これらのアレイは、マイクロアレイとも記載され、「チップ」は、当技術分野において例えば米国特許第５，１４３，８５４号、５，４４５，９３４号、５，７４４，３０５号、５，６７７，１９５号、６，０４０，１９３号、５，４２４，１８６号および（Ｆｏｄｏｒら、１９９１）に一般に記載されている。これらのアレイは、一般に、フォトリソグラフィー法および固相合成法の組合せを組み込んだ機械的な合成方法または光指向性合成方法を使用して作製され得る。機械的な合成を使用するアレイの合成技法は、例えば、米国特許第５，３８４，２６１号に記載されている。平面のアレイ表面が好ましいが、アレイは実質的にどんな形状の表面にも作り上げることができ、多重の表面にさえ作り上げることができる。アレイは、例えば、米国特許第５，７７０，３５８号、５，７８９，１６２号、５，７０８，１５３号、６，０４０，１９３号および５，８００，９９２号に記載のように、ビーズ、ゲル、ポリマー表面、光ファイバーなどのファイバー、ガラスまたは任意の他の適切な基質上の核酸であり得る。アレイは、すべてを含んだデバイスでの診断または他の操作が可能になるように一括され得る。例えば、米国特許第５，８５６，１７４号および５，９２２，５９１号を参照されたい。

アレイは、一塩基多型（ＳＮＰ）を使用して、ゲノム全体を包含するように設計され得る。例えば、アレイは、ヒトゲノム中の１１６，２０４個の一塩基多型（ＳＮＰ）遺伝子座を包含し得、マーカー間の平均距離は２３．６ｋｂＳＮＰ遺伝子座である。

「標識された」および「検出可能な標識（または作用剤または部分）で標識された」は、互換的に使用され、実体（例えば、ＤＮＡ断片、プライマーまたはプローブ）が、例えば、別の実体（例えば増幅産物）に結合した後に可視化され得ることを明示する。検出可能な標識は、その標識が測定され得るシグナルを生成し、その強度が結合した実体の量に関連する（例えば、比例する）ように選択され得る。プライマーおよびプローブなどの核酸分子を標識および／または検出するための多種多様なシステムが周知である。標識された核酸は、分光的な方法、光化学的な方法、生化学的な方法、免疫化学的な方法、電気的な方法、光学的な方法、化学的な方法または他の方法によって直接的または間接的に検出可能な標識を組み込むまたはコンジュゲートすることによって調製され得る。適切な検出可能な作用剤としては、放射線核種、蛍光体、化学発光剤、微粒子、酵素、比色標識、磁気標識、ハプテンなどが挙げられる。

「プローブ」は、ＣＧＨマイクロアレイ、ＳＮＰマイクロアレイまたは適切な条件下で標的配列の少なくとも一部分と選択的にハイブリダイズすることができる、当技術分野で公知の任意の他のマイクロアレイと関連して使用するために設計されたオリゴヌクレオチドを指す。一般に、プローブ配列は、「相補的」（すなわち、コード鎖またはセンス鎖（＋）に対して相補的）または「逆相補的」（すなわち、アンチセンス鎖（−）に対して相補的）のいずれかであると同定される。プローブは、約１０−１００ヌクレオチド、好ましくは約１５−７５ヌクレオチド、最も好ましくは約１５−５０ヌクレオチドの長さを有することができる。

「医薬組成物」または「薬物」は互換的に使用され、小分子（例えば、一般には非ペプチド性の活性薬剤を含有する薬物）であろうと生物製剤（例えば、ペプチド、タンパク質または抗体に基づいた薬物、ペグ化などの修飾を伴う任意の薬物を含む）であろうと、少なくとも１種の癌に罹患している対象または患者を治療するために使用され得る任意の作用剤を指す。

「細胞」は、腫瘍、細胞系、または対象に由来し得る。

「療法」または「治療レジメン」は、疾患の影響または症状を低減または除去すること、または１つの状態から二次的な好ましくない状態に疾患が進行するのを防ぐことを意図した治療過程を指す。治療レジメンは、処方された薬物、外科的手術または放射線治療を含み得る。対象の腫瘍のコピー数のプロファイルは、選択された療法の副作用および有効性にも影響を及ぼす可能性がある。本発明において、対象の腫瘍のコピー数のプロファイルは、最も有効である可能性が高い療法または治療レジメンを決定するために使用され得る。

「対象」または「患者」は、哺乳動物および非哺乳動物を含む。哺乳動物の例としては、ヒト、チンパンジーおよび類人猿種およびサル種などの他の霊長類；ウシ、ウマ、ヒツジ、ヤギ、ブタなどの家畜動物；ウサギ、イヌおよびネコなどの家庭動物；ラット、マウスおよびモルモットなどのげっ歯類を含めた実験動物が挙げられる。非哺乳動物の例としては、鳥類および魚類が挙げられる。

「治療する」「治療すること」および「治療」は、予防的および／または治療的に、疾患または状態の症状を緩和する、和らげるまたは改善すること、追加の症状を予防すること、根底にある症状の代謝性の原因を改善または予防すること、疾患または症状を阻害すること、例えば、疾患または状態の発生を抑えること、疾患または状態を軽減すること、疾患または状態の退縮を引き起こすこと、疾患または状態によって引き起こされた状態を軽減すること、または疾患または状態の症状を止めることを意味する。

発明の実施
本発明の方法において、コピー数のプロファイルの参照データベースが作成され、そこでＮＳＣＬＣ細胞を含む複数（ｍ個）の試料におけるゲノムのコピー数が決定される（ｍは１から５，０００，０００までの整数である。例えば、複数の試料は、２個、５個、１０個、１５個、２０個、２５個、５０個、１００個、２００個、５００個、１，０００個、１０，０００個、５０，０００個、１００，０００個の試料、２５０，０００個の試料、５００，０００個、１，０００，０００個の試料などであり得る）。次に、ＮＳＣＬＣ細胞はコピー数のパターン、コピー数のプロファイルに従ってゲノムサブグループに分類される。これらのサブグループのそれぞれは、遺伝子型に基づいた分類を表すだけではなく、種々の治療介入に対する特徴的な応答性も示すことが予想される。例えば、サブグループの１つが放射線に対して感受性である一方、別のサブグループは化学療法などの薬学的介入に対して感受性である可能性がある。

コピー数の変化は、ＮＳＣＬＣに罹患している、または罹患する危険性がある対象から得られ得るＮＳＣＬＣ細胞において検出される。そのような細胞は、常用の技法を使用して得られ得る。例えば、腫瘍は、癌に罹患しているまたは罹患している疑いがある対象から外科的に解剖され、次いで、即座に、例えば−８０℃で凍結され得る。

対象を分類することを可能にする、異なるサブグループのデータベースを開発するために、ＮＳＣＬＣ腫瘍および癌細胞系が、商業的にまたは公共の供給源から得られ得る。有用な細胞系セットを表１に示す。表１は、実施例（以下を参照されたい）において使用された腫瘍試料も列挙している。表中、ＡＴＴＣは、ＡｍｅｒｉｃａｎＴｙｐｅＣｕｌｔｕｒｅＣｏｌｌｅｃｔｉｏｎ（Ｍａｎａｓｓｕｓ、ＶＡ）であり、ＤＳＭＺは、ＤｅｕｔｓｃｈｅＳａｍｍｌｕｎｇｖｏｎＭｉｋｒｏｏｒｇａｎｉｓｍｅｎｕｎｄＺｅｌｌｋｕｌｔｕｒｅｎＧｍｂＨ（Ｂｒａｕｎｓｃｈｗｅｉｇ、Ｇｅｒｍａｎｙ）であり、ＣＬＳは、ＣｅｌｌＬｉｎｅＳｅｒｖｉｃｅ（Ｇｅｒｍａｎｙ）である。

ＮＳＣＬＣ細胞および癌細胞系からの追加のコピー数およびコピー数の変化の情報は、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ（ＮＣＢＩ）から入手可能なＧｅｎｅＥｘｐｒｅｓｓｉｏｎＯｍｎｉｂｕｓ（ＧＥＯ）、ＤａｎａＦａｒｂｅｒＣａｎｃｅｒＩｎｓｔｉｔｕｔｅのウェブサイトからの、オンラインのＢｒｏａｄＩｎｓｔｉｔｕｔｅ／ＤａｎａＦａｒｂｅｒＣａｎｃｅｒＩｎｓｔｉｔｕｔｅｉｎｔｅｒｎｅｔＰｏｒｔａｌなどからなど、いくつもの市販の供給源または公共の供給源から得られ得る。

腫瘍および癌細胞系が得られたら、ゲノムＤＮＡ（ｇＤＮＡ）は、フェノールクロロホルム抽出、塩析、消化なしの抽出などの常用の技法を使用して、またはＤＮＥａｓｙ（登録商標）キットまたはＱＩＡＡＭＰ（登録商標）キット（Ｑｉａｇｅｎ、Ｖａｌｅｎｃｉａ、ＣＡ）などの市販のキットを使用することによって、腫瘍または細胞系のそれぞれから抽出される。次に、腫瘍または細胞系のそれぞれから得られたｇＤＮＡは、分析を容易にするために修飾または変更され得る。例えば、プライマー配列またはアダプター配列が、常用の技法を使用してｇＤＮＡにライゲーションされ得る。例えば、ｇＤＮＡは最初に、ＨｉｎｄＩＩＩまたはＸｂａＩなどの制限エンドヌクレアーゼで消化され得る。消化されたら、１つ以上のプライマー配列またはアダプター配列が消化されたｇＤＮＡにライゲーションされ得る。アダプターは粘着性の４塩基対突出を認識するものであることが好ましい。

単離されたＤＮＡは慣例的な方法を使用して増幅される。有用な核酸の増幅方法としては、ポリメラーゼ連鎖反応（ＰＣＲ）が挙げられる。ＰＣＲは、それぞれが参照により本明細書に組み込まれている、いくつもの参照文献に記載されている（Ｉｎｎｉｓ、１９９０年；Ｉｎｎｉｓら、１９９５年；ＭｃＰｈｅｒｓｏｎら、１９９１年；Ｓａｉｋｉら、１９８６年；Ｓｎｉｎｓｋｙら、１９９９年）；および米国特許第４，６８３，１９５号、４，６８３，２０２号および４，８８９，８１８号。ＰＣＲの変形型としては、ＴＡＱＭＡＮ（登録商標）に基づいたアッセイ（Ｈｏｌｌａｎｄら、１９９１年）および逆転写酵素ポリメラーゼ連鎖反応（ＲＴ−ＰＣＲ、例えば、それぞれが参照により本明細書に組み込まれている米国特許第５，３２２，７７０号および５，３１０，６５２号に記載されている）が挙げられる。

一般に、プライマーの対が、標的核酸の相補鎖とハイブリダイズさせるために、単離されたｇＤＮＡに添加される。腫瘍または癌細胞系から得られたｇＤＮＡが消化され、プライマー配列またはアダプター配列にライゲーションされれば、そのときは、増幅方法において使用されたプライマーの１つがアダプター配列を認識することが好ましい。増幅方法において使用されたプライマーが、２５０から２０００までの塩基対のサイズ範囲で断片を増幅することも好ましい。

増幅が完了すると、生じた増幅ＤＮＡは、ＭＩＮＥＬＵＴＥ（登録商標）９６ＵＦＰＣＲＰｕｒｉｆｉｃａｔｉｏｎシステム（Ｑｉａｇｅｎ）などの常用の技法を使用して精製される。精製された後、増幅ＤＮＡは、次いで超音波処理またはＤＮａｓｅＩなどの酵素的消化などの常用の技法を使用して断片化される。断片化された後、ＤＮＡは検出可能な標識で標識される。ＤＮＡおよびＤＮＡ断片を標識する方法は周知である。

多種多様な検出可能な標識はいずれも使用され得る。適切な検出可能な標識としては、種々のリガンド、放射線核種（例えば、^３２Ｐ、^３５Ｓ、^３Ｈ、^１４Ｃ、^１２５１、^１３１Ｉなど）；蛍光色素；化学発光剤（例えば、アクリジニウムエステル、安定化ジオキセタンなど）；スペクトルで解像可能な無機蛍光半導体ナノ結晶（例えば、量子ドット）、金属ナノ粒子（例えば、金、銀、銅および白金）またはナノクラスター；酵素（例えば、西洋ワサビペルオキシダーゼ、ベータガラクトシダーゼ、ルシフェラーゼ、アルカリホスファターゼ）；比色標識（例えば、色素、コロイド金など）；磁気標識（例えば、ＤＹＮＡＢＥＡＤＳ（商標））；およびビオチン、ジゴキシゲニンまたは他のハプテンおよびタンパク質が挙げられるが、これらに限定されない。

増幅されたら、断片化されたＤＮＡは検出可能な標識で標識され、常用の技法を使用してマイクロアレイにハイブリダイズされる。マイクロアレイは、ゲノムの増加および減少を探すために比較的なゲノムハイブリダイゼーション（ＣＧＨ）において使用され得るオリゴヌクレオチド、遺伝子またはゲノムクローンを含有し得る。あるいは、マイクロアレイは、一塩基多型（ＳＮＰ）などの突然変異または多型を検出するオリゴヌクレオチドまたはゲノムクローンを含有し得る。マイクロアレイは、当技術分野で公知の常用の技法を使用して製造され得る。あるいは、市販のマイクロアレイが使用され得る。使用され得るマイクロアレイの例は、ＡＦＦＹＭＥＴＲＩＸ（登録商標）ＧＥＮＥＣＨＩＰ（登録商標）Ｍａｐｐｉｎｇ１００ＫＳｅｔＳＮＰＡｒｒａｙ（Ｍａｔｓｕｚａｋｉら、２００４年）（Ａｆｆｙｍｅｔｒｉｘ、Ｉｎｃ．、ＳａｎｔａＣｌａｒａ、ＣＡ）、ＡｇｉｌｅｎｔＨｕｍａｎＧｅｎｏｍｅａＣＧＨＭｉｃｒｏａｒｒａｙ４４Ｂ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ、Ｉｎｃ．、ＳａｎｔａＣｌａｒａ、ＣＡ）、Ｉｌｌｕｍｉｎａマイクロアレイ（Ｉｌｌｕｍｉｎａ、Ｉｎｃ．、ＳａｎＤｉｅｇｏ、ＣＡ）、ＮｉｍｂｌｅｇｅｎａＣＧＨマイクロアレイ（Ｎｉｍｂｌｅｇｅｎ、Ｉｎｃ．、Ｍａｄｉｓｏｎ、ＷＩ）などである。

ハイブリダイゼーションされた後、マイクロアレイは、ハイブリダイズしていない核酸を取り除くために常用の技法を使用して洗浄される。洗浄された後、マイクロアレイは、リーダーまたはスキャナーで分析される。リーダーおよびスキャナーの例としては、ＧＥＮＥＣＨＩＰ（登録商標）Ｓｃａｎｎｅｒ３０００Ｇ７（Ａｆｆｙｍｅｔｒｉｘ、Ｉｎｃ．）、ＡｇｉｌｅｎｔＤＮＡＭｉｃｒｏａｒｒａｙＳｃａｎｎｅｒ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ、Ｉｎｃ．）、ＧＥＮＥＰＩＸ（登録商標）４０００Ｂ（ＭｏｌｅｃｕｌａｒＤｅｖｉｃｅｓ、Ｓｕｎｎｙｖａｌｅ、ＣＡ）などが挙げられる。マイクロアレイに含有されるプローブから集められたシグナルは、ＡｆｆｙｍｅｔｒｉｘまたはＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓによって供給されているものなどの市販のソフトウェアを使用して分析され得る。例えば、ＡｆｆｙｍｅｔｒｉｘからのＧＥＮＥＣＨＩＰ（登録商標）Ｓｃａｎｎｅｒ３０００Ｇ７が使用される場合、ＡＦＦＹＭＥＴＲＩＸ（登録商標）ＧＥＮＥＣＨＩＰ（登録商標）ＯｐｅｒａｔｉｎｇＳｏｆｔｗａｒｅが使用され得る。ＡＦＦＹＭＥＴＲＩＸ（登録商標）ＧＥＮＥＣＨＩＰ（登録商標）ＯｐｅｒａｔｉｎｇＳｏｆｔｗａｒｅは、すべてのプローブからのシグナルを検出するＡＦＦＹＭＥＴＲＩＸ（登録商標）ＧＥＮＥＣＨＩＰ（登録商標）スキャナーからの生データ（シグナル）または特徴データ（シグナル）を収集し、抽出する。生データまたは特徴データは、ＣＥＬファイル（ＣＥＬファイルの形式はＷｉｎｄｏｗｓ（登録商標）ＩＮＩ形式と同様のＡＳＣＩＩテキストファイルである。）、ＣＨＩＰファイル、ＣＮＴファイル、メタプローブセットファイルまたはプレーンテキストファイルなどの任意の適切なファイル形式の１つに電子的に保管され得る。

マイクロアレイから収集および抽出されたデータは、各染色体上の遺伝子座のそれぞれにおけるコピー数を決定するため、およびコピー数の変化領域を定義するために処理される。そのような処理は、バイナリーサーキュラー（ＢｉｎａｒｙＣｉｒｃｕｌａｒ）分割（Ｏｌｓｈｅｎら、２００４年）、ＤＮＡの増加および減少の分析（ＧａｉｎａｎｄＬｏｓｓＡｎａｌｙｓｉｓｏｆＤＮＡ）（ＧＬＡＤ）（Ｈｕｐｅら、２００４年）、隠れマルコフモデルに基づいた手法（Ｆｒｉｄｌｙａｎｄら、２００４年；Ｚｈａｏら、２００４年）、またはクラスタリング手法（Ｗａｎｇら、２００５年）などの公知のアルゴリズムを用いて行われ得る。あるいは、ＰＡＲＴＥＫ（登録商標）ＧＥＮＯＭＩＣＳＵＩＴＥ（商標）ソフトウェア、例えば６．０８．０１０３バージョン（Ｐａｒｔｅｋ、Ｓｔ．Ｌｏｕｉｓ、ＭＯから入手可能）、ＧｅｎｅＰａｔｔｅｒｎ（オンラインで入手可能；（Ｒｅｉｃｈら、２００６年））およびｄＣｈｉｐ（オンラインで入手可能；（ＬｉおよびＨｕｎｇＷｏｎｇ、２００１年；ＬｉおよびＷｏｎｇ、２００１年）などの市販のソフトウェアが使用され得る。

例えば、ＰＡＲＴＥＫ（登録商標）ＧＥＮＯＭＩＣＳＵＩＴＥ（商標）ソフトウェア、例えば６．０８．０１０３バージョンが使用される場合、スキャナーによって検出される、マイクロアレイ中のすべてのプローブからのシグナルを含有するＣＥＬファイルがソフトウェアにローディングされ得る。コピー数は、あらかじめ設定した基線（あらかじめ設定した基線を確立するために使用された数は決定的ではなく、整数（ｎ）であり、ｎは１から１００までである。例えば、あらかじめ設定した基線は２であり得る。）に対して補正した後、マイクロアレイから決定された腫瘍または癌細胞系の試料についてのシグナル強度と、参照または対照のシグナル強度を比較することによって計算される。使用される参照または対照は、同じマイクロアレイプラットフォームによって測定される腫瘍試料と同じ患者からの正常な組織試料のセットまたは正常な組織の対であり得る。参照または対照は、少なくとも５個の試料、少なくとも１０個の試料、少なくとも１５個の試料、少なくとも２０個の試料、少なくとも２５個の試料、少なくとも３０個の試料、少なくとも３５個の試料、少なくとも４０個の試料、少なくとも４５個の試料、少なくとも５０個の試料、少なくとも７５個の試料、少なくとも１００個の試料、少なくとも１５０個の試料、少なくとも２００個の試料、などを含むことができる。

次いで、得られたコピー数のデータは分割され、各試料においてコピー数の変化領域が検出される。コピー数の変化領域の分割および検出は、以下の制御パラメータを使用して得られ得る：
（ｉ）コピー数領域は少なくとも１００個のプローブを含有しなければならない；
（ｉｉ）コピー数領域の平均コピー数と隣接するコピー数領域を比較したｐ値は０．００００１未満でなければならない；
（ｉｉｉ）トランジションのシグナル／ノイズ比は０．１超でなければならない。
コピー数の変化領域は、これらの領域における平均コピー数が実質的に１．６５未満である（欠失）または２．６５超である（増加）場合に、０．０１を下回るｐ値を伴って検出され得る。

腫瘍試料はコピー数の変化のシグナルを弱める可能性がある正常細胞を相当な割合で含有する可能性があるので、機械学習アルゴリズムは、腫瘍試料および癌細胞系試料のコピー数のパターンと正常試料のコピー数のパターンの間の差異を捕捉するために使用され得る。そのようなアルゴリズムは、さらなる分析から正常細胞が混入した腫瘍試料を同定し、排除するために使用され得る。したがって、このアルゴリズムは、データの品質管理に役立ち、「データの品質管理アルゴリズム」と称される。

データの品質管理アルゴリズムは、本明細書で前記したように、腫瘍試料および癌細胞系試料からのコピー数の変化領域の数が最も多い試料のサブセット（以下、第１の試料セット）を選択することを含む。正常な試料セットも選択される（以下、第２の試料セット）。これらの第１の試料セットおよび第２の試料セットは、第１の試料セットと第２の試料セットの間の差異を最もよく表すようにアルゴリズムのパラメータを合わせることによって、試料が「正常」試料または「腫瘍」試料のいずれであるかを分類するための機械学習アルゴリズムを開発するための訓練セットとして使用される。訓練された分類器は、各試料に対してスコアを割り当てるために、残りの腫瘍または癌細胞系の試料に適用される。このスコアは、各試料の、正常細胞が混入している確率を表す。５０％を超える混入確率を有する試料は、続くクラスタリング解析から除外される。この目的で使用され得る機械学習アルゴリズムとしては、ランダムフォレスト（ＲＦ）（Ｂｒｅｉｍａｎ、２００１年）、サポートベクターマシン（ＳＶＭ）（Ｖａｐｎｉｋ、１９９５年）、再帰的ＳＶＭ（Ｚｈａｎｇら、２００６年）、最小角度回帰（ＬＡＲＳ）（Ｅｆｒｏｎら、２００４年）などが挙げられる。

マイクロアレイから得られたコピー数のデータは密度が高くノイズが多い傾向があるので、コピー数のデータは、ノイズレベルを低下させ、次元を縮小させ（「次元縮小」とも称される）、データの複雑さを低減するために平滑化され得る。データの平滑化は、最初に、常用の技法を使用して、各試料において有意に増加または欠失したコピー数領域を検出することによって行われ得る。そのような領域が同定されたら、隣接する領域が、同様のコピー数の変化を有する場合、およびこれらの領域間の距離が５００キロ塩基未満である場合、合併され得る。次いで、ゲノム全体が、データセット内のすべての試料からの区切り点の連結を使用して分割され得、各セグメントのコピー数が、各セグメント内のＳＮＰプローブのコピー数を平均することによって計算され得る（Ｃａｒｒａｓｃｏら、２００６年）。データの平滑化によって、各試料からのコピー数の増加および欠失が良好に解像され得る。

データの平滑化および次元縮小をした後、データセットは、腫瘍および癌細胞系の試料のそれぞれの間の相対的な類似性の概要を得るため、およびこれまでにデータ内に存在しているサブグループの数（本明細書ではｒ個のサブグループとも称される）の見積もり（例えば、大まかな見積もり）を得るために、教師なしクラスタリング手法に供される。データの平滑化および次元縮小をした後、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリング手法が、「データセット」またはＶと称される平滑化された腫瘍および細胞系のコピー数のデータセットに適用される。クラスタリングパターンが、データセット内の予想されるサブグループの数、ｒの範囲を導くために、プロットされ、視覚的に検査され得る（データセット内の予想されるサブグループの数の範囲は、１から１００までの整数（ｎ）になる）。使用され得る教師なしクラスタリング手法の例としては、階層クラスタリング、主成分分析（ＰＣＡ）（Ｐｅａｒｓｏｎ、１９０１年）または多次元尺度構成法（ＭＤＳ）（ＢｏｒｇおよびＧｒｏｅｎｅｎ、２００５年）が挙げられるが、これらに限定されない。次いで、サブグループの数（それぞれが「ｒ値」と称され、各ｒ値は１から１００までの整数である。）が、ゲノム非負値行列因子分解（「ｇＮＭＦ」）を使用したクラスタリング解析において入力として使用される。

以前のｇＮＭＦのクラスターＣＧＨデータへの適用において（Ｃａｒｒａｓｃｏら、２００６年；Ｍａｈｅｒら、２００６年）、アルゴリズムは、所定のステップ数（例えば１００）の後、腫瘍または癌細胞系の試料のサブグループの割り当てに変化がなかったところで停止された。模擬データならびに実際のＣＧＨデータを用いた試験に基づいて、この基準は、ｇＮＭＦアルゴリズムをあまりにも早く停止する（例えば、終結させる）と考えられる。したがって、ｇＮＭＦアルゴリズムは、選択されたステップ数（選択されたステップ数は決定的ではなく、例えば、５ステップ、１０ステップ、２５ステップ、５０ステップ、１００ステップ、２００ステップなど、１から１０００までの整数（ｎ）である。）の乗法的更新の後に、データセットからのアルゴリズムの発散が式（１１）を使用して計算されるように改変され得る：

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）。

上記の式を使用して、反復性のアルゴリズムは、上記で計算された発散が、前の、または事前に選択された、アルゴリズムの乗法的更新のステップ数（例えば１００）に対して計算された発散と比較して、約０．００１％超減少していない場合に停止する（本明細書では「停止基準」とも称される）。ｇＮＭＦアルゴリズムに対するこの改変によってクラスタリングの正確度が有意に改善されたことが分かっている。

ｇＮＭＦは確率論的な手順であるので、アルゴリズムは、異なる初期値から開始された場合、異なる転帰を生成し得る。クラスタリングアルゴリズムの性能をさらに改善するために、新規の複数開始戦略が開発された。各データセットについて、この戦略は上記の停止基準を使用し、ｇＮＭＦアルゴリズムをランダムに開始し、選択された実行回数繰り返す（アルゴリズムがランダムに開始され繰り返され得る、選択された実行回数は、例えば、１、５、１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、１００、１２５、１５０、１７５、２００、２２５、２５０、２７５、３００、３５０など、１から１０００までの整数（ｎ）である。）ことを含む。アルゴリズムがそのランダムに選択された実行回数を完了したら、これらの実行のそれぞれに対して、式（１２）を使用してＨのピアソン相関係数行列が計算される：

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはサブグループの数（本明細書においてあらかじめ決定された）である）。各実行に対してＨのピアソン相関係数行列が決定されたら、相関行列が平均される。最終的なクラスタリングの結果は、１引く（距離行列として平均相関行列）を用いた教師なしクラスタリング手法（例えば、階層クラスタリングアルゴリズムなど）を実行し、デンドログラムをｒ個のサブグループにカットすることによって導かれ得る。

例えば、ｇＮＭＦアルゴリズムがランダムに２００回実行された場合、２００回の実行後、２００回のランダムなｇＮＭＦの実行のそれぞれの出力からのＨのピアソン相関係数行列が、上記の式を使用して計算される。次いで、２００回の実行を通して相関行列が平均される。最終的なクラスタリングの結果は、１引く（距離行列として平均相関行列）を使用した階層クラスタリングアルゴリズムを実行し、デンドログラムをｒ個のサブグループにカットすることによって導かれ得る。

最終的なクラスタリングの結果が得られたら、次いで、コーフェン相関係数、ベイズ情報量規準（ＢＩＣ）またはコーフェン相関とＢＩＣの組合せが、これらの腫瘍および細胞系の試料の遺伝子パターンの分布を最も反映する最良のモデル（すなわち、最良のクラスター数およびクラスターの１つへの各試料の最良の割り当て）を選択するために用いられる。対数正規分布が、ＤＮＡコピー数の適合に広く使用されているので（Ｈｏｄｇｓｏｎら、２００１年）、この分析において使用され得る。尤度を計算するために、各クラスター内の試料は、各セグメントの平均コピー数が対数正規分布に従う場合、同じ多変量対数正規分布に由来すると仮定され得る。セグメント間の相関が弱い場合、独立性が計算におけるセグメント間に仮定され得る。この場合、得られる対数尤度、式（１３）は、

（式中、ｒはクラスターの数であり、ｎ_ｉはクラスターｉ内の試料の数であり、ｍはセグメントの数であり、ｙ_ｉｊはｉ番目のクラスター内のｊ番目の試料のｔ番目の対数変換されたコピー数であり、μ_ｉｔはｉ番目のクラスター内のｔ番目の対数変換されたコピー数の平均であり、σ_ｉｔはｉ番目のクラスター内のｔ番目の対数変換されたコピー数の標準偏差である。このとき、特定されたモデルにおけるパラメータの数ｋは２×ｒ×ｍになる。）である。

何度も、教師なしクラスタリングにおいて最良のモデルを選択するための基準としてコーフェン相関係数およびＢＩＣの両方を用いる場合、これらの２つのアルゴリズムは多くの場合同じモデルを選択する。

１０倍安定性検定の手順が、クラスタリングの結果の安定性を評価するために使用され得る。１０倍安定性検定は以下の通り行われ得る。データセットに対してｇＮＭＦを実行し、試料をクラスターに割り当てた後、少なくとも約１０％の腫瘍および癌細胞系の試料が除外され、２回目の上記の改変ｇＮＭＦアルゴリズムが、残りの９０％の腫瘍および癌細胞系の試料に対して実行される（少なくとも約１５％の腫瘍および癌細胞系の試料が除外される場合、２回目の上記のｇＮＭＦアルゴリズムが、残りの８５％の腫瘍および癌細胞系の試料に対して実行される、など。）。次いで、異なるクラスターに割り当てられた試料の数が、この並べ替えの結果として計算される。この検定は、当技術分野で公知の常用の技法を使用してエラー発生率を導くために、選択された回数繰り返される（この検定は、１回から１０００回まで繰り返され得る。例えば、この検定は、１回、２０回、２５回、５０回、１００回、２００回、５００回、７５０回、１０００回など、繰り返され得る。）。このエラー発生率は、腫瘍および癌細胞系の試料の並べ替えに関してクラスタリングの結果の安定性を表す。この１０倍安定性検定は、同じデータセット（腫瘍および癌細胞系の試料）を用いた教師なしクラスタリング手法（例えば階層クラスタリング）において使用され得る。

これらの方法を使用して、ＮＳＣＬＣ細胞を有する腫瘍およびＮＳＣＬＣ細胞系が、ゲノムサブグループに分類され得る。最初に、十分な数のＮＳＣＬＣ腫瘍およびＮＳＣＬＣ細胞系が、上記の方法体系を使用して別個のサブグループにクラスタリングされる。これらのサブグループのそれぞれから、サブグループのそれぞれからの少なくとも１つの細胞系が選択され、パネルに加えられ、したがって、各パネルはゲノムサブグループを含む。したがって、得られたパネルはＮＳＣＬＣのすべてのゲノムサブタイプを適切に表している。このパネルは、ＮＳＣＬＣに対する医薬組成物または薬物の試験の前臨床モデルとして使用され得、したがって、検討している腫瘍の種類のゲノム多様性の総括的な適用範囲をもたらし得る。

適用
診断パネルを構築すると、ＮＳＣＬＣの診断に対する感受性が増加する。これから対象はＮＳＣＬＣについて診断されるだけでなく、対象は、分類パネルにおける対象のＮＳＣＬＣ遺伝子型の分類に基づいてＮＳＣＬＣの「ゲノム型」についても診断され得る。このように、治療の成功を高め、対象の生活の質を改善する標的治療介入が施され得る。

本発明の診断方法において、少なくとも１つのＮＳＣＬＣ細胞を含有すると疑われる試料を得る。次いで、試料中の細胞は、元の診断パネルを確立するために使用されたものと同じプローブおよびパラメータ、またはコピー数の変化を検出することができる任意の他のプローブおよびパラメータのセットを使用したマイクロアレイに供され、マイクロアレイ分析からのデータセットは、どのサブグループと対象のＮＳＣＬＣの遺伝子型が似ているかを決定するために処理される。次いで、対象のＮＳＣＬＣの遺伝子型がそのサブグループに割り当てられる。

サブグループの情報から、治療介入および試行実験が設計される。例えば、ＮＳＣＬＣの遺伝子型に関連して治療の成功についてデータが入手可能になるので、対象は、対象のＮＳＣＬＣの遺伝子型およびサブグループの分類に基づいて、最も高いＮＳＣＬＣの治療確率を有する治療を施され得る。このように、最も侵襲性の治療（外科手術）が信頼でき、対象の寛解および治療中の高い生活の質の両方の可能性が高くなるので、試行錯誤の治療が大幅に減少する。対象の生活の質は、治療期間および治療介入の数が減少するため、改善される。

治療が確立されていない場合、治療介入は、細胞パネルのデータを使用して決定され得る。例えば、細胞系Ｌ、Ｕ、Ｎ、ＧおよびＳが単一のサブグループに入る場合、これらは潜在的な有効性に対する種々の治療オプションのインビトロにおける試験に供され得る。クラスター内の最多数の細胞系に対する有害作用を有するのに有効な治療介入は、それらの介入が対象を有効に治療する可能性が最も高いことを表している。

ＮＳＣＬＣに対する治療介入としては、侵襲性の外科手術（楔状切除術、肺葉切除術、肺切除術およびスリーブ切除術）、放射線療法（放射線手術を含む）、化学療法、レーザー療法、光線力学的療法（投与された後、光線によって局所的に活性化される医薬組成物を投与すること。）生物学的療法（ＮＳＣＬＣと闘うために対象の免疫系を増強すること。）および単純な「待機療法」が挙げられる。化学治療介入としては、エルロチニブ、ゲフィチニブ、アリムタ、シスプラチン、ゲムシタビン、パクリタキセル、ビノレルビン、エピルビシン、ビンデシン、ロニダミン、イホスファミド、カルボプラチンおよびドセタキセル、またはこれらの組合せを投与することを含む。組合せとしては、シスプラチンとエピルビシン、ビンデシンとロニダミン、ビンデシンとシスプラチン、ゲムシタビン、シスプラチンとビノレルビン、パクリタキセルとイホスファミド、ビノレルビンとイホスファミド、ゲムシタビンとビノレルビン、パクリタキセとカルボプラチン；最後に、パクリタキセルとゲムシタビンが挙げられる（Ｃｌｅｇｇら、２００２年）。

代表的な細胞系および腫瘍試料は、ＮＳＣＬＣを治療するための治療介入の能力を評価するインビトロにおける試験に供され得る。例えば、細胞系は、単独および組み合わせた種々の化学療法剤に対するその感受性についてアッセイされ得る。複数の細胞系が１つ以上の介入に対して同様に応答する場合、そのときはそれらの介入が対象に施すために選択される。したがって、細胞パネルは、インビトロで、最終的に、ＮＳＣＬＣコピー数のプロファイルに基づいた治療に役立つ行列をもたらす実在の治療データによって増大し得る。

別の実施形態において、本発明の方法は、ＮＳＣＬＣ細胞を分類するためのプローブパネルを構築することを対象とする。ゲノムサブグループのデータベースは、各サブグループに対して、最も特徴的なコピー数の異常について分析され、プローブが、これらの領域を検出するために設計される。プローブは、元のマイクロアレイ分析手順において使用される、または個別の特性に対して設計および最適化されたプローブのサブセットであり得る。一実施形態において、そのようなプローブは、ＦＩＳＨプローブである。別の実施形態において、そのようなプローブパネルはキットで提供される。

他の実施形態において、キットは、ＮＳＣＬＣ細胞を分類するために提供され、例えば、ゲノムサブグループによってＮＳＣＬＣ細胞を分類するデータベースを構築するための説明書、および、各細胞系またはｇＤＮＡがゲノムサブグループを表している少なくとも第１、第２および第３の細胞系またはそれらの単離ゲノムＤＮＡを含有する。例えば、第１の細胞系またはｇＤＮＡは、ＨＣＣ８２７、ＮＣＩ−Ｈ１４３７、ＮＣＩ−Ｈ１５６３、ＮＣＩ−Ｈ１５６８、ＮＣＩ−Ｈ１６２３、ＮＣＩ−Ｈ１６５１、ＮＣＩ−Ｈ１６９３、ＮＣＩ−Ｈ１７５５、ＮＣＩ−Ｈ１７９３、ＮＣＩ−Ｈ１８３８、ＮＣＩ−Ｈ１９４４、ＮＣＩ−Ｈ１９７５、ＮＣＩ−Ｈ１９９３、ＮＣＩ−Ｈ２０２３、ＮＣＩ−Ｈ２０７３、ＮＣＩ−Ｈ２０８５、ＮＣＩ−Ｈ２０８７、ＮＣＩ−Ｈ２１２２、ＮＣＩ−Ｈ２１２６、ＮＣＩ−Ｈ２２２８、ＮＣＩ−Ｈ２２９１、ＮＣＩ−Ｈ２３、ＮＣＩ−Ｈ２３４２、ＮＣＩ−Ｈ２３４７、ＮＣＩ−Ｈ６４７、ＮＣＩ−Ｈ９２０、ＮＣＩ−Ｈ９６９、ＣＬＳ−５４、ＬＸ−２８９、ＳＫ−ＬＵ−１、Ｈ２８８２、Ｃａｌｕ−６、Ｈ３５８およびＨ４６０であり得；第２の細胞系またはｇＤＮＡは、ＮＣＩ−Ｈ２４０５、ＮＣＩ−Ｈ５２２、ＳＫ−ＭＥＳ−１、Ｈ１５７、Ｈ１８１９、Ｈ２００９、Ｈ２８８７、ＨＣＣ１１７１、ＨＣＣ１３５９、ＨＣＣ１５、ＨＣＣ１９３、ＨＣＣ３６６、ＨＣＣ４６１、ＨＣＣ５１５、ＨＣＣ７８、ＨＯＰ−６２、ＨＯＰ−９２およびＮＣＩ−Ｈ２６６であり得；および第３の細胞系またはｇＤＮは、Ａ５４９、Ｃａｌｕ−３、ＮＣＩ−Ｈ１７３４、ＮＣＩ−Ｈ８３８およびＨＣＣ９５であり得る。キットは、プローブパネルならびに正常であるまたはＮＳＣＬＣ細胞でない、対照の細胞系またはｇＤＮＡを含み得る。

（実施例）
以下の実施例は例示する目的のみのものであり、特許請求された発明を限定するものと解釈されるべきではない。所期の発明を同様に首尾よく実行することができる種々の代替の技法および手順が、当業者にとって利用可能である。

ＮＳＣＬＣを分類することを対象とする本発明の方法は、図１に要約されている。

細胞系および組織試料
本発明者らは、ＮＳＣＬＣ分類モデルを確立するために、５７の細胞系および２４５の腫瘍試料を使用した。この研究に使用された細胞系および腫瘍の供給源は上記の表１に列挙されている。腫瘍試料は、種々の供給源から調達された。

ステップ１：ＤＮＡの抽出およびＳＮＰアレイへのハイブリダイゼーション
ＡＦＦＹＭＥＴＲＩＸ（登録商標）ＧＥＮＥＣＨＩＰ（登録商標）Ｍａｐｐｉｎｇ１００ＫＳｅｔＳＮＰアレイ（Ｍａｔｓｕｚａｋｉら、２００４年）（Ａｆｆｙｍｅｔｒｉｘ、Ｉｎｃ．、ＳａｎｔａＣｌａｒａ、ＣＡ）は、ヒトゲノムにおける一塩基多型（ＳＮＰ）遺伝子座１１６，２０４個を包含し、マーカー間の平均距離は２３．６ｋｂである。アレイセットは、２つのチップ、Ｘｂａ２４０およびＨｉｎｄ２４０を含む。アッセイは、製造者の指示に従って行われた。簡単に述べると、高分子量のゲノムＤＮＡが、各腫瘍からの組織３０ｍｇまたは各細胞系からの細胞５×１０^６個から、ＱＩＡＧＥＮ（登録商標）ＤＮＥＡＳＹ（登録商標）キット（Ｑｉａｇｅｎ、Ｖａｌｅｎｃｉａ、ＣＡ）を使用して抽出された。ゲノムＤＮＡ２５０ナノグラムが、ＨｉｎｄＩＩＩまたはＸｂａＩのいずれかによって消化された。次いでアダプター（ＸｂａＩ、５’ｔｃｔａｇａｇａｔｃａｇｇｃｇｔｃｔｇｔｃｇｔｇｃｔｃａｔａａ３’；配列番号２；ＨｉｎｄＩＩＩ、５’ａｃｇｔａｇａｔｃａｇｇｃｇｔｃｔｇｔｃｇｔｇｃｔｃａｔａａ３’；配列番号：３）が、粘着性４塩基対（ｂｐ）突出を認識する消化断片にライゲーションされた。アダプター配列（５’ａｔｔａｔｇａｇｃａｃｇａｃａｇａｃｇｃｃｔｇａｔｃｔ３’配列番号１）を認識する一般的なプライマーが、ＧＥＮＥＡＭＰ（登録商標）ＰＣＲＳｙｓｔｅｍ９７００（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ、ＦｏｓｔｅｒＣｉｔｙ、ＣＡ）において２５０−２，０００ｂｐサイズ範囲で断片を優先的に増幅させるために最適化されたＰＣＲ条件を用いて、アダプターにライゲーションされたＤＮＡ断片を増幅させるために使用された。ＭＩＮＥＬＵＴＥ（登録商標）９６ＵＦＰＣＲ精製システム（Ｑｉａｇｅｎ）を用いた精製後、ＰＣＲ産物は断片化され、ビオチンで標識され、ＧＥＮＥＣＨＩＰ（登録商標）Ｍａｐｐｉｎｇ１００ＫＳｅｔに１６時間ハイブリダイズされた。アレイは、ＦｌｕｉｄｉｃｓＳｔａｔｉｏｎＦ−４５０（Ａｆｆｙｍｅｔｒｉｘ）を使用して洗浄され、ＧＥＮＥＣＨＩＰ（登録商標）Ｓｃａｎｎｅｒ３０００Ｇ７（Ａｆｆｙｍｅｔｒｉｘ）を使用してスキャンされた。ＧＥＮＥＣＨＩＰ（登録商標）オペレーティングソフトウェア（ＧＣＯＳ）でＧＥＮＥＣＨＩＰ（登録商標）スキャナーから特徴データを収集し、抽出した。

コピー数のデータは、ＡＦＦＹＭＥＴＲＩＸ（登録商標）ＳＮＰマイクロアレイ、ＡｇｉｌｅｎｔａＣＧＨマイクロアレイ（Ａｇｉｌｅｎｔ、Ｉｎｃ．、ＳａｎｔａＣｌａｒａ、ＣＡ）、ＩＬＬＵＭＩＮＡ（登録商標）マイクロアレイ（Ｉｌｌｕｍｉｎａ、Ｉｎｃ．、ＳａｎＤｉｅｇｏ、ＣＡ）およびＮＩＭＢＬＥＧＥＮ（登録商標）ａＣＧＨマイクロアレイ（Ｎｉｍｂｌｅｇｅｎ、Ｉｎｃ．、Ｍａｄｉｓｏｎ、ＷＩ）の他のバージョンなどの他のＳＮＰまたはＣＧＨマイクロアレイプラットフォームを使用しても得られ得る。

ステップ２：コピー数の決定およびコピー数の変化の検出
ＧｅｎｏｍｉｃＳｕｉｔｅソフトウェア（バージョン６．０８．０１０３）（Ｐａｒｔｅｋ；Ｓｔ．Ｌｏｕｉｓ、ＭＯ）が、各遺伝子座のコピー数を決定し、コピー数の変化領域を定義するためのデータを低レベル処理するために使用された。すべてのＳＮＰプローブに対するシグナルを含有するＣＥＬファイルが、ソフトウェアにローディングされ、コピー数が、腫瘍または細胞系の試料に対するシグナル強度を、基線２に対して補正された、正常な雌性組織試料４８個の参照セットに対するシグナル強度と比較することによって計算された。参照セットは、同じマイクロアレイプラットフォームによって測定された、他の正常試料のセットまたは腫瘍試料と同じ患者からの対合正常組織からなってもよい。

得られたプローブレベルのコピー数のデータは分割され、各試料におけるコピー数の変化領域が検出された。具体的には、プローブレベルのコピー数は、以下の制御パラメータを使用して領域に分割された：
（ｉ）領域は少なくとも１００個のプローブを含有しなければならない；
（ｉｉ）領域の平均コピー数と隣接するコピー数領域を比較したｐ値は０．００００１未満でなければならない；
（ｉｉｉ）トランジションのシグナル／ノイズ比は０．１超でなければならない。
コピー数の変化領域は、これらの領域の平均コピー数が１．６５未満である（欠失）または２．６５超である（増加）場合に、０．０１を下回るｐ値を伴って検出された。

コピー数の分割およびコピー数の変化の検出は、バイナリーサーキュラー（ＢｉｎａｒｙＣｉｒｃｕｌａｒ）分割（Ｏｌｓｈｅｎら、２００４年）、ＤＮＡの増加および減少の分析（ＧａｉｎａｎｄＬｏｓｓＡｎａｌｙｓｉｓｏｆＤＮＡ）（ＧＬＡＤ）（Ｈｕｐｅら、２００４年）、隠れマルコフモデルに基づいた手法（Ｆｒｉｄｌｙａｎｄら、２００４年）（Ｚｈａｏら、２００４年）、またはクラスタリング手法（Ｗａｎｇら、２００５年）などの他のアルゴリズムによっても活性化され得る。これらの方法は、ＧｅｎｅＰａｔｔｅｒｎ（Ｒｅｉｃｈら、２００６年）およびｄＣｈｉｐ（ＬｉおよびＨｕｎｇＷｏｎｇ、２００１年；ＬｉおよびＷｏｎｇ、２００１年）などのいくつかのソフトウェアパッケージにおいて実行されている。

ステップ３：データの品質管理
腫瘍試料は、腫瘍細胞に存在するコピー数の変化のシグナルを弱める、相当な割合の正常細胞を含有する可能性がある。腫瘍試料と正常試料のコピー数のパターン間の差異を捕捉するための機械学習アルゴリズムが展開され、次いでさらなる分析から、正常物が混入した試料を同定し、排除するために使用された。最初に、コピー数の変化領域の数が最も多い試料のサブセットおよび正常試料のセットが選択された。これら２つの試料群は、パラメータを、腫瘍と正常試料との間の差異を最もよく表すように合わせることによって正常試料と腫瘍試料を分類するために、機械学習アルゴリズム（ランダムフォレスト：ＲＦ（Ｂｒｅｉｍａｎ、２００１））を訓練するために使用された。次に、訓練された分類アルゴリズムは、残りの試料に適用され；分類子は、正常細胞が混入している試料の確率を表すスコアを各試料に割り当てた。正常細胞混入の確率スコアが５０％を超える試料は、クラスタリング解析から除外された。

ステップ４：データの平滑化および次元の縮小
ＳＮＰマイクロアレイによって得られたコピー数のデータ密度は高く、相当量のノイズがあった。したがって、コピー数のデータは、ノイズ、次元およびクラスタリング解析の複雑さを縮小するために平滑化された。各試料における有意に増加または欠失した領域の検出後、隣接する領域は、それらの領域が同様のコピー数変化を有し、それらの領域の距離が５００ｋｂ未満の場合、合併された。ＤＮＡセグメントが、データセット内のすべての試料からの区切り点の連結を使用することによって形成された。各セグメント内のプローブの平均コピー数が、さらなる分析に使用された。このステップにより、ハイスループット分析におけるＤＮＡの増加および欠失の明確な解像が可能になった。

ステップ５：予想されるサブグループの数を決定するための階層クラスタリングを用いたパイロットクラスタリング解析
各データセットについて、本発明者らは、ピアソンの非類似性（（１−ｒ）／２で定義され、ｒはピアソン相関である）を用いて腫瘍および細胞系のＣＧＨデータを階層クラスタリングした。階層クラスタリングパターンは、データセット内の予想されるサブグループの数の範囲を導くために、プロットされ、視覚的に検査された。次いで、これらの数は、ゲノム非負値行列因子分解を用いたクラスタリング解析において入力として使用された。

ステップ６：腫瘍および細胞系のＣＧＨデータのｇＮＭＦクラスタリング
ｇＮＭＦアルゴリズムが、ステップ５において決定されたクラスター数の範囲を使用して腫瘍および細胞系のＣＧＨデータを分類するために使用された。各クラスター数について、ｇＮＭＦアルゴリズムが、我々が開発した停止基準を用いて２００回実行された。次いで、分類モデルが、１引く（Ｈの相関行列の平均）に対する階層クラスタリングによって導かれた。

ステップ７：コーフェン相関およびベイズ情報量規準（ＢＩＣ）を用いたモデル選択
上記のｇＮＭＦ手順は、最初の階層クラスタリング解析において選出された、いくつかの予想されるｒ値（サブグループの数）を用いて実行され、サブグループの数が異なるいくつかのモデルが構成された。次いで、コーフェン相関係数およびベイズ情報量規準（ＢＩＣ）が、腫瘍および細胞系の試料の遺伝子パターンの分布を最もよく反映した最良モデルを選択するために使用された（サブグループの数および各試料のサブグループの１つへの割り当て）。

コーフェン相関係数およびＢＩＣの両方が、教師なしクラスタリングにおいて腫瘍および細胞系の試料の遺伝子パターンの分布を最もよく反映したモデルを選択するための基準として使用された。これらの２つの基準は、多くの場合同じモデルを指すことが分かった。最良モデルが選出された後、ＮＳＣＬＣの腫瘍試料および細胞系のそれぞれが、選択されたモデルに基づいてゲノムサブグループの１つに割り当てられた。将来プロファイリングされる追加のＮＳＣＬＣ腫瘍試料も、それらのゲノムパターンに基づいてサブグループの１つに割り当てられ得る。

ステップ８：クラスタリングの安定性の１０倍安定性検定
１０倍安定性検定の手順が、分類結果の安定性を評価するために展開された。データセットに対してｇＮＭＦを実行し、腫瘍および細胞系の試料をサブグループに割り当てた後、１０％の試料がランダムに除外され、同じ手順が残りの９０％の試料に対して適用された。この並べ替えによって異なるサブグループに割り当てられた試料の数が計算された。この除外検定は、試料の並べ替えに関してクラスタリングの結果の安定性を表すエラー発生率を導くために、２００回繰り返された。同じデータセットに対して同じ手順を用いた階層クラスタリングの安定性も評価され、常にｇＮＭＦクラスタリングよりもはるかに高いことが見出された。

結果
ステップ１−２。３０２のＮＳＣＬＣの腫瘍および細胞系の試料が調製され、データは実施例２および３に記載の通り処理された。全部で１１４１９のコピー数が有意に変化したセグメントが検出された。

ステップ３。データの品質管理の手順が、ＮＳＣＬＣのＣＧＨデータに対して適用された。正常細胞が著しく混入していることが分かった腫瘍試料はなかった。すべての試料が分析に使用された。

ステップ４。ＣＧＨデータの次元は８１７２セグメントまで縮小された。

ステップ５。階層クラスタリングが、クラスターの数を見積もるためのＮＳＣＬＣデータセットに対する最初の解析として使用された。クラスタリングのデンドログラムは図２に示されている。デンドログラムの視覚的な検査により、データに３−８個の主要なクラスターが存在することが示唆された。

ステップ６。ｇＮＭＦアルゴリズムが、腫瘍および細胞系のＣＧＨデータを分類するために、３−８個の範囲のクラスター数を用いて使用された。ｇＮＭＦアルゴリズムは、各クラスター数について、我々が開発した停止基準を用いて２００回実行された。次いで、分類モデルが、１引く（Ｈの相関行列の平均）に対する階層クラスタリングによって導かれた。

ステップ７。コーフェン相関およびＢＩＣが、ステップ６において適合されたｇＮＭＦモデルに対して計算された。結果は表２に列挙されており、ｒは各モデルにおけるクラスターの数を示す。表２に示されている結果から、本発明者らは、４つのクラスターを持つモデルが最小のＢＩＣを有し、クラスター数４とクラスター数５の間で、コーフェン相関が最大の減少を示したことを見出した。したがって、４個のクラスターが、このデータセットに対して最良の選出であった。４個のクラスターを持つｇＮＭＦの出力のヒートマップは図３に示されている。

２４５のＮＳＣＬＣ腫瘍試料が、それらのコピー数の変化のパターンに基づいて４つのサブグループに分類され、細胞系が適切なサブグループに割り当てられた。各クラスターについての腫瘍試料の数および細胞系の素性は表３に列挙されている。

ステップ８。１０倍安定性検定が、４つのクラスターを持つｇＮＭＦモデルに対して適用された。エラー発生率は１４．２４％であった。比較として、ステップ５において３−８個のクラスターに平滑化されたコピー数のデータを用いて導かれた階層クラスタリングのデンドログラムがカットされ、同じ１０倍検定を使用してクラスターの安定性が検定された。エラー発生率は１９．４５％−２５．６５％で、ｇＮＭＦモデルのエラー発生率よりもはるかに高かった。

クラスタリングの手順によって定義された４つのサブグループは、異なる起源および腫瘍発生の機構を意味する別個のパターンのゲノム異常を有した。この知見は、異なるサブグループが、各サブグループに特有な別個の臨床的挙動および治療介入への感受性を表すことを示唆している。

転帰−アノテートされた腫瘍試料を使用したゲノムクラスタリングの結果の検証
同定されたＮＳＣＬＣゲノムクラスターが生物学的に有意義な差異を有するかどうかを決定するために、２セットの腫瘍試料が、疾患転帰のアノテーションに使用された。２つの転帰パラメータ、再発するまでの時間（ＴＴＲ）および全生存（ＯＳ）が使用された。

ＮＳＣＬＣの分類に使用された２４５のＮＳＣＬＣ腫瘍試料（実施例１を参照されたい）の中で、疾患転帰の情報（全生存および再発するまでの時間）は、ＲｕｓｈＵｎｉｖｅｒｓｉｔｙＭｅｄｉｃａｌＣｅｎｔｅｒ、Ｃｈｉｃａｇｏ、Ｉｌｌｉｎｏｉｓにおいて収集された１１１の試料について利用可能であった。クラスター１、２、３および４において転帰−アノテートされた試料の数は、それぞれ、９、３、２１および７８であった。それらのＴＴＲを比較するログランク検定により、０．０００６の有意なＰ値が示された。クラスター２は３つの試料のみであったので、クラスター１とクラスター２を一緒に合わせようと努めた。組み合わされた試料は、他の２つのクラスターよりも有意に少ないＴＴＲを有し、Ｐ値は０．０３９７であった。カプランマイヤー曲線が図４に示されている。

コピー数の変化に基づいた癌分類についての教師なしクラスタリングアルゴリズムおよび癌患者の異なるサブグループを表すように選択された細胞系モデルをさらに検証するために、７１のＮＳＣＬＣ腫瘍試料を使用した追加試験が、転帰の情報に関連して使用された（以下の表４）。

試料は処理され、ＤＮＡは抽出され、増幅され、Ａｆｆｙｍｅｔｒｉｘの実験プロトコールに従ってＡｆｆｙｍｅｔｒｉｘＳＮＰ６．０アレイにハイブリダイズされた（実施例２−３を参照されたい）。これらの腫瘍のコピー数は、２７０の正常対照のＨａｐＭａｐセットと比較することによって計算された。コピー数は、Ｐａｒｔｅｋソフトウェア６．０９．０３１０を使用して分割された（実施例３を参照されたい）。

検証試料を４つのＮＳＣＬＣクラスターに割り当てるために、転帰−アノテートされた腫瘍試料のピアソン相関係数が、最初の３つのクラスターの代表的な細胞系のそれぞれに対して計算された（実施例４−９を参照されたい）。４番目のクラスターは代表的な細胞系を有さなかったので、４番目のクラスター内のすべての腫瘍試料がその代表として使用され、検証試料に対するそれらのピアソン相関係数が計算された。次いで、検証試料は検証試料と最も高い相関係数を有する代表的な細胞系または腫瘍を含有したクラスターに割り当てられた。最後に、異なるクラスターに割り当てられた検証試料のＴＴＲおよびＯＳの差異が、ログランク検定を使用して比較され、それらのカプランマイヤー曲線がプロットされた（実施例４−９を参照されたい）。

４つのクラスター間のＴＴＲの差異は、検証試料に対してＰ値が０．０４５４で、有意である。さらに、カプランマイヤー曲線は、他のクラスターと比較してクラスター１内の試料に対して有意に少ないＴＴＲを示した（図５を参照されたい）。クラスター２、３および４内の試料を合わせ、クラスター１内の試料と比較すると、Ｐ値は０．００９４である。

４つのクラスター間のＯＳにおける差異は、検証試料に対して有意でなかったが（Ｐ値＝０．２５）、カプランマイヤー曲線は、他のクラスターと比較してクラスター１内の試料に対してＯＳが低い傾向を示した（図６を参照されたい）。クラスター２、３および４内の試料を合わせ、クラスター１内の試料と比較すると、Ｐ値はわずかに有意である（Ｐ値＝０．１１６）。

あるいは、我々がすでに定義したクラスター内のすべての腫瘍および細胞系が、クラスターを表すために使用され、検証試料と現存試料の間の最も高いピアソン相関係数によって検証試料を４つのクラスターに割り当てた。この分析において、ＴＴＲおよびＯＳのどちらも、４つのクラスター間の有意差を示し、Ｐ値はそれぞれ、４．７Ｅ−５および０．００２４であった。クラスター１に割り当てられた試料は、他のクラスターに割り当てられた試料よりも有意に少ないＴＴＲおよびＯＳを有した（図７を参照されたい）。

結論として、転帰−アノテートされた試料は、同定されたＮＳＣＬＣゲノムのクラスターが生物学的に有意義な差異を有するかどうかを決定するために、データセットならびに独立した試料において使用された。結果は、患者における再発するまでの時間および全生存においてクラスターは有意に異なり、これはゲノム分類が疾患の経過における差異と相関していることを示し、また、異なるクラスターを表している細胞系は、異なる臨床転帰を予測するためのモデルとして使用され得ることを示している。

Claims

非小細胞肺癌ゲノムサブグループのデータベースを得るための方法であって、
（ａ）少なくとも１つのＮＳＣＬＣ細胞を含む、細胞系または腫瘍を含む複数のｍ個の試料を得るステップ、
（ｂ）ステップ（ａ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含むデータセットを取得するステップ、
（ｃ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータをデータセットから削除すること、
を含む、データセットにおいて正常細胞が混入した試料を同定し、混入試料をデータセットから削除するステップ、
（ｄ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もるステップ、
（ｅ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、式（１１）を用いてアルゴリズムの発散を計算するステップ、

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）
（２）ステップ（ｅ）（１）において計算された発散が、アルゴリズムの乗法的更新の前の１００ステップに対して計算された発散と比較して約０．００１％超減少していない場合にアルゴリズムを停止するステップ、
（３）アルゴリズムを、選択された実行回数ランダムに繰り返し、式（１２）を用いてアルゴリズムの各実行に対してＨのピアソン相関係数行列を計算するステップ、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｄ）からのサブグループの数である。）
（４）ステップ（ｅ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均するステップ、および
（５）試料を、１引く（ステップ（ｅ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによってｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットするステップ
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てるステップ、
（ｆ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または細胞系試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定するステップ、および
（ｇ）必要に応じて、ステップ（ｆ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価するステップ
を含む、方法。
ＮＳＣＬＣ腫瘍またはＮＳＣＬＣ細胞系を分類する方法であって、
（ａ）
（ｉ）少なくとも１つのＮＳＣＬＣ腫瘍またはＮＳＣＬＣ細胞系を含む複数のｍ個の試料を得ること、
（ｉｉ）ステップ（ｉ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第１のデータセットを取得すること、
（ｉｉｉ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータを第１のデータセットから削除すること
を含む、第１のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第１のデータセットから削除すること、
（ｉｖ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
（ｖ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、式（１１）を用いてアルゴリズムの発散を計算すること、

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）
（２）ステップ（ｖ）（１）において計算された発散が、アルゴリズムの乗法的更新の前の１００ステップに対して計算された発散と比較して約０．００１％超減少していない場合にアルゴリズムを停止すること、
（３）アルゴリズムを、選択された実行回数ランダムに繰り返し、式（１２）を用いてアルゴリズムの各実行に対してＨのピアソン相関係数行列を計算すること、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｉｖ）からのサブグループの数である。）
（４）ステップ（ｖ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
（５）データセット内の腫瘍および細胞系を、１引く（ステップ（ｖ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによってｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てること、
（ｖｉ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが各試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、および
（ｖｉｉ）必要に応じて、ステップ（ｖｉ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価すること
を含む方法によって開発されたデータベースを準備すること、
（ｂ）ＮＳＣＬＣ細胞を含有すると疑われる試料を準備すること、
（ｃ）ステップ（ｉｉ）からのものと同じ、少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第２のデータセットＶｓａｍｐｌｅを取得すること、
（ｄ）Ｖｓａｍｐｌｅからの試料を、Ｖｓａｍｐｌｅをステップ（ｉ）−（ｖｉｉ）において決定されたクラスターと比較することによって分類すること
を含む、方法。
教師なしクラスタリングアルゴリズムが階層クラスタリングである、請求項１または２の方法。
データセットから最終的なクラスターの数を規定するためにコーフェン相関が使用される、請求項１または２の方法。
データセットから最終的なクラスターの数を規定するためにベイズ情報量規準が使用される、請求項１または２の方法。
データセットから最終的なクラスターの数を規定するためにコーフェン相関およびベイズ情報量規準が使用される、請求項１または２の方法。
複数の試料（ｍ個）が、
ＨＣＣ８２７、ＮＣＩ−Ｈ１４３７、ＮＣＩ−Ｈ１５６３、ＮＣＩ−Ｈ１５６８、ＮＣＩ−Ｈ１６２３、ＮＣＩ−Ｈ１６５１、ＮＣＩ−Ｈ１６９３、ＮＣＩ−Ｈ１７５５、ＮＣＩ−Ｈ１７９３、ＮＣＩ−Ｈ１８３８、ＮＣＩ−Ｈ１９４４、ＮＣＩ−Ｈ１９７５、ＮＣＩ−Ｈ１９９３、ＮＣＩ−Ｈ２０２３、ＮＣＩ−Ｈ２０７３、ＮＣＩ−Ｈ２０８５、ＮＣＩ−Ｈ２０８７、ＮＣＩ−Ｈ２１２２、ＮＣＩ−Ｈ２１２６、ＮＣＩ−Ｈ２２２８、ＮＣＩ−Ｈ２２９１、ＮＣＩ−Ｈ２３、ＮＣＩ−Ｈ２３４２、ＮＣＩ−Ｈ２３４７、ＮＣＩ−Ｈ６４７、ＮＣＩ−Ｈ９２０、ＮＣＩ−Ｈ９６９、ＣＬＳ−５４、ＬＸ−２８９、ＳＫ−ＬＵ−１、Ｈ２８８２、Ｃａｌｕ−６、Ｈ３５８およびＨ４６０からなる群から選択される第１の細胞系、
ＮＣＩ−Ｈ２４０５、ＮＣＩ−Ｈ５２２、ＳＫ−ＭＥＳ−１、Ｈ１５７、Ｈ１８１９、Ｈ２００９、Ｈ２８８７、ＨＣＣ１１７１、ＨＣＣ１３５９、ＨＣＣ１５、ＨＣＣ１９３、ＨＣＣ３６６、ＨＣＣ４６１、ＨＣＣ５１５、ＨＣＣ７８、ＨＯＰ−６２、ＨＯＰ−９２およびＮＣＩ−Ｈ２６６からなる群から選択される第２の細胞系および
Ａ５４９、Ｃａｌｕ−３、ＮＣＩ−Ｈ１７３４、ＮＣＩ−Ｈ８３８およびＨＣＣ９５からなる群から選択される第３の細胞系
を含む、請求項１または２の方法。
複数の試料（ｍ個）が、ＣＬＳ−５４、ＬＸ−２８９、ＳＫ−ＬＵ−１、ＳＫ−ＭＥＳ−１、Ｈ１５７、Ｈ１８１９、Ｈ２００９、Ｈ２８８２、Ｈ２８８７、ＨＣＣ１１７１、ＨＣＣ１３５９、ＨＣＣ１５、ＨＣＣ１９３、ＨＣＣ３６６、ＨＣＣ４６１、ＨＣＣ５１５、ＨＣＣ７８、ＨＣＣ９５、ＨＯＰ−６２、ＨＯＰ−９２、ＮＣＩ−Ｈ２６６、ＮＣＩ−Ｈ１４３７、ＮＣＩ−Ｈ１５６３、ＮＣＩ−Ｈ１５６８、ＮＣＩ−Ｈ１６２３、ＮＣＩ−Ｈ１６５１、ＮＣＩ−Ｈ１６９３、ＮＣＩ−Ｈ１７３４、ＮＣＩ−Ｈ１７５５、ＮＣＩ−Ｈ１７９３、ＮＣＩ−Ｈ１８３８、ＮＣＩ−Ｈ１９４４、ＮＣＩ−Ｈ１９７５、ＮＣＩ−Ｈ１９９３、ＮＣＩ−Ｈ２０２３、ＮＣＩ−Ｈ２０７３、ＮＣＩ−Ｈ２０８５、ＮＣＩ−Ｈ２０８７、ＮＣＩ−Ｈ２１２２、ＮＣＩ−Ｈ２１２６、ＮＣＩ−Ｈ２２２８、ＮＣＩ−Ｈ２２９１、ＮＣＩ−Ｈ２３、ＮＣＩ−Ｈ２３４２、ＮＣＩ−Ｈ２３４７、ＮＣＩ−Ｈ２４０５、ＮＣＩ−Ｈ５２２、ＮＣＩ−Ｈ６４７、ＮＣＩ−Ｈ８３８、ＮＣＩ−Ｈ９２０、ＮＣＩ−Ｈ９６９、Ａ５４９、Ｃａｌｕ−３、ＨＣＣ８２７、Ｃａｌｕ−６、Ｈ３５８およびＨ４６０細胞系からなる、請求項１または２の方法。
非小細胞肺癌（ＮＳＣＬＣ）細胞を抑えるまたは死滅させるための治療介入を分類する方法であって、
（ａ）
（ｉ）少なくとも１つのＮＳＣＬＣ腫瘍またはＮＳＣＬＣ細胞系を含む複数のｍ個の試料を得ること、
（ｉｉ）ステップ（ｉ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第１のデータセットを取得すること、
（ｉｉｉ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータを第１のデータセットから削除すること
を含む、第１のデータセットにおいて、正常細胞が混入した試料を同定し、混入試料を第１のデータセットから削除すること、
（ｉｖ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
（ｖ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、式（１１）を用いてアルゴリズムの発散を計算すること、

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）
（２）ステップ（ｖ）（１）において計算された発散が、アルゴリズムの乗法的更新の前の１００ステップに対して計算された発散と比較して約０．００１％超減少していない場合にアルゴリズムを停止すること、
（３）アルゴリズムを、選択された実行回数ランダムに繰り返し、式（１２）を用いてアルゴリズムの各実行に対してＨのピアソン相関係数行列を計算すること、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｉｖ）からのサブグループの数である。）
（４）ステップ（ｖ）の（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
（５）データセット内の腫瘍および細胞系を、１引く（ステップ（ｖ）の（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによってｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てること、
（ｖｉ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが各試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、
（ｖｉｉ）必要に応じて、ステップ（ｖｉ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価すること、および
（ｖｉｉｉ）ステップ（ｖｉ）において選択された各クラスターから少なくとも１つのＮＳＣＬＣ細胞を選択し、ゲノムサブグループによって定義されたパネルに構築すること
を含む方法で構築された、ゲノムサブグループによって分類されたＮＳＣＬＣ細胞のパネルから、各サブグループからの少なくとも１つのＮＳＣＬＳ細胞系を選択すること、
（ｂ）各サブグループからの少なくとも１つのＮＳＣＬＣ細胞を治療介入と接触させること、
（ｃ）各サブグループからの少なくとも１つのＮＳＣＬＣ細胞を抑えるまたは死滅させるための治療介入の有効性をアッセイすること、
（ｄ）治療介入を、各サブグループからの少なくとも１つのＮＳＣＬＣ細胞を抑えるまたは死滅させるための治療介入の決定された有効性によって分類し、１つのサブグループからの少なくとも１つのＮＳＣＬＣ細胞を抑えるまたは死滅させるが、別のサブグループからのＮＳＣＬＣ細胞を抑えない、または死滅させないことにより、このサブグループのＮＳＣＬＣ細胞を抑えるまたは死滅させるための治療介入の特異性が示されること、
を含む、方法。
教師なしクラスタリングアルゴリズムが階層クラスタリングである、請求項９の方法。
データセットから最終的なクラスターの数を規定するためにコーフェン相関が使用される、請求項９の方法。
データセットから最終的なクラスターの数を規定するためにベイズ情報量規準が使用される、請求項９の方法。
データセットから最終的なクラスターの数を規定するためにコーフェン相関およびベイズ情報量規準が使用される、請求項９の方法。
ＮＳＣＬＣ細胞が細胞系からのものである、請求項９の方法。
複数の試料（ｍ個）が、
ＨＣＣ８２７、ＮＣＩ−Ｈ１４３７、ＮＣＩ−Ｈ１５６３、ＮＣＩ−Ｈ１５６８、ＮＣＩ−Ｈ１６２３、ＮＣＩ−Ｈ１６５１、ＮＣＩ−Ｈ１６９３、ＮＣＩ−Ｈ１７５５、ＮＣＩ−Ｈ１７９３、ＮＣＩ−Ｈ１８３８、ＮＣＩ−Ｈ１９４４、ＮＣＩ−Ｈ１９７５、ＮＣＩ−Ｈ１９９３、ＮＣＩ−Ｈ２０２３、ＮＣＩ−Ｈ２０７３、ＮＣＩ−Ｈ２０８５、ＮＣＩ−Ｈ２０８７、ＮＣＩ−Ｈ２１２２、ＮＣＩ−Ｈ２１２６、ＮＣＩ−Ｈ２２２８、ＮＣＩ−Ｈ２２９１、ＮＣＩ−Ｈ２３、ＮＣＩ−Ｈ２３４２、ＮＣＩ−Ｈ２３４７、ＮＣＩ−Ｈ６４７、ＮＣＩ−Ｈ９２０、ＮＣＩ−Ｈ９６９、ＣＬＳ−５４、ＬＸ−２８９、ＳＫ−ＬＵ−１、Ｈ２８８２、Ｃａｌｕ−６、Ｈ３５８およびＨ４６０からなる群から選択される第１の細胞系、
ＮＣＩ−Ｈ２４０５、ＮＣＩ−Ｈ５２２、ＳＫ−ＭＥＳ−１、Ｈ１５７、Ｈ１８１９、Ｈ２００９、Ｈ２８８７、ＨＣＣ１１７１、ＨＣＣ１３５９、ＨＣＣ１５、ＨＣＣ１９３、ＨＣＣ３６６、ＨＣＣ４６１、ＨＣＣ５１５、ＨＣＣ７８、ＨＯＰ−６２、ＨＯＰ−９２およびＮＣＩ−Ｈ２６６からなる群から選択される第２の細胞系および
Ａ５４９、Ｃａｌｕ−３、ＮＣＩ−Ｈ１７３４、ＮＣＩ−Ｈ８３８およびＨＣＣ９５からなる群から選択される第３の細胞系
を含む、請求項９の方法。
複数の試料（ｍ個）が、ＣＬＳ−５４、ＬＸ−２８９、ＳＫ−ＬＵ−１、ＳＫ−ＭＥＳ−１、Ｈ１５７、Ｈ１８１９、Ｈ２００９、Ｈ２８８２、Ｈ２８８７、ＨＣＣ１１７１、ＨＣＣ１３５９、ＨＣＣ１５、ＨＣＣ１９３、ＨＣＣ３６６、ＨＣＣ４６１、ＨＣＣ５１５、ＨＣＣ７８、ＨＣＣ９５、ＨＯＰ−６２、ＨＯＰ−９２、ＮＣＩ−Ｈ２６６、ＮＣＩ−Ｈ１４３７、ＮＣＩ−Ｈ１５６３、ＮＣＩ−Ｈ１５６８、ＮＣＩ−Ｈ１６２３、ＮＣＩ−Ｈ１６５１、ＮＣＩ−Ｈ１６９３、ＮＣＩ−Ｈ１７３４、ＮＣＩ−Ｈ１７５５、ＮＣＩ−Ｈ１７９３、ＮＣＩ−Ｈ１８３８、ＮＣＩ−Ｈ１９４４、ＮＣＩ−Ｈ１９７５、ＮＣＩ−Ｈ１９９３、ＮＣＩ−Ｈ２０２３、ＮＣＩ−Ｈ２０７３、ＮＣＩ−Ｈ２０８５、ＮＣＩ−Ｈ２０８７、ＮＣＩ−Ｈ２１２２、ＮＣＩ−Ｈ２１２６、ＮＣＩ−Ｈ２２２８、ＮＣＩ−Ｈ２２９１、ＮＣＩ−Ｈ２３、ＮＣＩ−Ｈ２３４２、ＮＣＩ−Ｈ２３４７、ＮＣＩ−Ｈ２４０５、ＮＣＩ−Ｈ５２２、ＮＣＩ−Ｈ６４７、ＮＣＩ−Ｈ８３８、ＮＣＩ−Ｈ９２０、ＮＣＩ−Ｈ９６９、Ａ５４９、Ｃａｌｕ−３、ＨＣＣ８２７、Ｃａｌｕ−６、Ｈ３５８およびＨ４６０細胞系からなる、請求項９の方法。
治療介入が、放射線療法、化学療法、レーザー療法、光線力学的療法および生物学的療法からなる群から選択される少なくとも１つを含む、請求項９の方法。
治療介入が化学療法であり、化学療法が、エルロチニブ、ゲフィチニブ、アリムタ、シスプラチン、ゲムシタビン、パクリタキセル、ビノレルビン、エピルビシン、ビンデシン、ロニダミン、イホスファミド、カルボプラチンおよびドセタキセルおよびイホスファミドからなる群から選択される活性薬剤を含む少なくとも１つの医薬組成物を投与することを含む、請求項１７の方法。
化学療法が２種以上の活性薬剤を投与することを含む、請求項１８の方法。
試料からのＮＳＣＬＣ細胞を分類するためのプローブパネルを構築する方法であって、
（ａ）
（ｉ）少なくとも１つのＮＳＣＬＣ腫瘍またはＮＳＣＬＣ細胞系を含む複数のｍ個の試料を得ること、
（ｉｉ）ステップ（ｉ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第１のデータセットを取得すること、
（ｉｉｉ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、および
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータを第１のデータセットから削除すること
を含む、第１のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第１のデータセットから削除すること、
（ｉｖ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
（ｖ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、式（１１）を用いてアルゴリズムの発散を計算するステップ、

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）
（２）ステップ（ｖ）（１）において計算された発散が、アルゴリズムの乗法的更新の前の１００ステップに対して計算された発散と比較して約０．００１％超減少していない場合にアルゴリズムを停止すること、
（３）アルゴリズムを、選択された実行回数ランダムに繰り返し、式（１２）を用いてアルゴリズムの各実行に対してＨのピアソン相関係数行列を計算すること、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｉｖ）からのサブグループの数である。）
（４）ステップ（ｖ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
（５）データセット内の腫瘍および細胞系を、１引く（ステップ（ｖ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによって、ｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てること、
（ｖｉ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが各試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、
（ｖｉｉ）必要に応じて、ステップ（ｖｉ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価すること、および
（ｖｉｉｉ）ステップ（ｖｉ）において選択された各クラスターから少なくとも１つの試料を選択し、ゲノムサブグループによって定義されたパネルに構築すること
を含む、データベースを構築すること、
（ｂ）ステップ（ａ）のデータベースを分析して各サブグループに対して特徴的なコピー数の異常を決定すること、および
（ｃ）各サブグループについての決定された特徴的なコピー数の異常に基づいて、複数のプローブを設計し、各プローブをゲノムサブグループに割り当てること
を含む、方法。