JP5608169B2

JP5608169B2 - 遺伝子コピー数の変化のパターンに基づいた悪性メラノーマのゲノム分類

Info

Publication number: JP5608169B2
Application number: JP2011534724A
Authority: JP
Inventors: セミザロフ，デイミトリ; ルウ，シン; ジヤン，コー; レシニエフスキー，リツク・アール
Original assignee: アッヴィ・インコーポレイテッド
Priority date: 2008-10-31
Filing date: 2009-10-28
Publication date: 2014-10-15
Anticipated expiration: 2029-10-28
Also published as: EP2359284A2; MX2011004604A; US8498821B2; JP2012507799A; WO2010051319A2; WO2010051319A9; CN102203789A; CN102203789B; US20100145897A1; CA2739461A1

Description

（関連出願の相互参照）
本出願は、２００８年１０月３１日に出願された米国特許出願第６１／１１０，３０８号の優先権を主張するものであり、その内容は参照により本明細書に組み込まれている。

本出願は、「ＭＥＴＨＯＤＳＦＯＲＡＳＳＥＭＢＬＩＮＧＰＡＮＥＬＳＯＦＣＡＮＣＥＲＣＥＬＬＬＩＮＥＳＦＯＲＵＳＥＩＮＴＥＳＴＩＮＧＴＨＥＥＦＦＩＣＡＣＹＯＦＯＮＥＯＲＭＯＲＥＰＨＡＲＭＡＣＥＵＴＩＣＡＬＣＯＭＰＯＳＩＴＩＯＮＳ」という名称の出願（ＤｉｍｉｔｒｉＳｅｍｉｚａｒｏｖ、ＸｉｎＬｕ、ＫｅＺｈａｎｇ、およびＲｉｃｋＬｅｓｎｉｅｗｓｋｉ、発明者；２００９年１０月２８日に出願され、２００８年１０月３１日に出願された米国特許出願第６１／１１０，２８１号の優先権を主張するものである）も参照により組み込む。

連邦政府による資金提供を受けた研究開発の記載
該当なし

コンパクトディスク資料の参照
該当なし

本発明は、悪性メラノーマ（ＭＭ）に関連する腫瘍、癌細胞系および対象の試料のゲノムサブグループを定義するための方法に関する。本発明は、対象に施すための１種以上の治療介入の有効性を試験することに使用するために、ゲノムサブグループによって腫瘍、癌細胞系および対象の試料のパネルを構築するための方法にも関する。

癌は、臨床経過、転帰および治療への応答性における相当な変動性を特徴とするゲノム疾患である。この変動性の根底にある主要因子は、癌に固有の遺伝的異質性である。病理組織学的なサブタイプが同じである個々の腫瘍は、細胞ＤＮＡにおいて異なる異常を有する。

皮膚の悪性メラノーマは、西欧諸国において発生率が上昇している、非常に攻撃的な型の皮膚癌である（ＴｕｃｋｅｒおよびＧｏｌｄｓｔｅｉｎ、２００３年）。メラノーマは、予測不可能な臨床転帰、攻撃的な増殖の可能性および現存する化学療法レジメンへの抵抗を持つ異種疾患である。臨床的、形態学的および細胞学的な変化のスペクトルおよび個別の病期を欠くので、個々のメラノーマ患者の臨床転帰を予測することは難しい（Ｏｎｋｅｎら、２００４年；Ｗｅｙｅｒｓら、１９９９年）。

癌の分類を改善することは、抗癌薬を発見するために重要である。現在、前臨床モデルは、マウスにおける腫瘍形成および培養物中での増殖および他のパラメータに対するそれらの有用性、適応性に基づいて選択されているが、それらのモデルは親腫瘍の遺伝的異質性を表していない。このことは、前臨床モデルにおいて優れた応答を示した作用剤に対する、臨床試験での低い応答につながる。

メラノーマ腫瘍の表現型の多様性は、遺伝子コピー数の異常のパターンにおける対応する多様性を伴う。染色体異常は、多くの発達障害および癌に関連する有害事象である。体細胞内で発生する染色体領域の増幅および欠失は、癌を導く主要因子の１つであると考えられている。したがって、悪性メラノーマにおける遺伝子コピー数のパターンを系統的に検査することが、悪性メラノーマのゲノム科学に基づいた分子分類学の土台となり得る。予後的に重要な再発性染色体異常は、古典的な細胞遺伝学的分析または蛍光インサイツハイブリダイゼーション法（ＦＩＳＨ）（ＬｅｖｓｋｙおよびＳｉｎｇｅｒ、２００３年）によって、個々に検出され得る。しかし、ＦＩＳＨ分析は、適用したプローブパネルによって定義された限られた染色体の遺伝子座のセットのみを調べるので、遺伝学的異常の全範囲を検出することはできない。より有利な診断ツールは、疾患の微細な分類に基づくことになる。対象のＭＭの遺伝的な状態に基づいて治療に対して合理的に患者選定をすることが可能になる。

ＴｕｃｋｅｒおよびＧｏｌｄｓｔｅｉｎ、２００３年Ｏｎｋｅｎら、２００４年Ｗｅｙｅｒｓら、１９９９年ＬｅｖｓｋｙおよびＳｉｎｇｅｒ、２００３年

第１の態様において、本発明は、
（ａ）少なくとも１つのＭＭ細胞を含む、細胞系または腫瘍を含む複数のｍ個の試料を得るステップ、
（ｂ）ステップ（ａ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含むデータセットを取得するステップ、
（ｃ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータをデータセットから削除すること
を含む、データセットにおいて正常細胞が混入した試料を同定し、混入試料をデータセットから削除するステップ、
（ｄ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もるステップ、
（ｅ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、次式を用いてアルゴリズムの発散を計算するステップ、

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）
（２）ステップ（ｅ）（１）において計算された発散が、アルゴリズムの乗法的更新の前の１００ステップに対して計算された発散と比較して約０．００１％超減少していない場合にアルゴリズムを停止するステップ、
（３）アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してＨのピアソン相関係数行列を計算するステップ、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ、Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｄ）からのサブグループの数である。）
（４）ステップ（ｅ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均するステップ、および
（５）データセット内の腫瘍および細胞系を、１引く（ステップ（ｅ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによってｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットするステップ
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てるステップ、
（ｆ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または癌細胞系試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定するステップ、および
（ｇ）場合によって、ステップ（ｆ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価するステップ
を含む、悪性メラノーマ（ＭＭ）ゲノムサブグループのデータベースを得るための方法に関する。

第２の態様において、本発明は、
（ａ）
（ｉ）少なくとも１つのＭＭ腫瘍またはＭＭ細胞系を含む複数のｍ個の試料を得ること、
（ｉｉ）ステップ（ｉ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第１のデータセットを取得すること、
（ｉｉｉ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、および
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータを第１のデータセットから削除すること
を含む、第１のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第１のデータセットから削除すること、
（ｉｖ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
（ｖ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、次式を用いてアルゴリズムの発散を計算すること、

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）
（２）ステップ（ｖ）（１）において計算された発散が、アルゴリズムの乗法的更新の前の１００ステップに対して計算された発散と比較して、約０．００１％超減少していない場合にアルゴリズムを停止すること、
（３）アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してＨのピアソン相関係数行列を計算すること、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｉｖ）からのサブグループの数である。）
（４）ステップ（ｖ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および、
（５）データセット内の腫瘍および細胞系を、１引く（ステップ（ｖ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによって、ｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てること、
（ｖｉ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または癌細胞系試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、および
（ｖｉｉ）場合によって、ステップ（ｖｉ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価すること
を含む方法によって開発されたデータベースを準備すること、
（ｂ）ＭＭ細胞を含有すると疑われる試料を準備すること、
（ｃ）ステップ（ｉｉ）からのものと同じ、少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第２のデータセットＶｓａｍｐｌｅを取得すること、および
（ｄ）Ｖｓａｍｐｌｅからの試料を、Ｖｓａｍｐｌｅを、ステップ（ｉ）−（ｖｉｉ）において決定されたクラスターと比較することによって分類すること
を含む、ＭＭ腫瘍またはＭＭ細胞系を分類する方法に関する。

第３の態様において、本発明は、
（ａ）
（ｉ）ＭＭ細胞を含む複数のｍ個の試料を得ること、
（ｉｉ）ステップ（ｉ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第１のデータセットを取得すること、
（ｉｉｉ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータを第１のデータセットから削除すること
を含む、第１のデータセットにおいて、正常細胞が混入した試料を同定し、混入試料を第１のデータセットから削除すること、
（ｉｖ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
（ｖ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、次式を用いてアルゴリズムの発散を計算すること、

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）
（２）ステップ（ｖ）（１）において計算された発散が、アルゴリズムの乗法的更新の前の１００ステップに対して計算された発散と比較して約０．００１％超減少していない場合にアルゴリズムを停止すること、
（３）アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してＨのピアソン相関係数行列を計算すること、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｉｖ）からのサブグループの数である。）
（４）ステップ（ｖ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
（５）データセット内の試料を、１引く（ステップ（ｖ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによってｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てること、
（ｖｉ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが各試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、
（ｖｉｉ）場合によって、ステップ（ｖｉ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価すること、および
（ｖｉｉｉ）ステップ（ｖｉ）において選択された各クラスターから少なくとも１つのＭＭ細胞系を選択し、ゲノムサブグループによって定義されたパネルに構築すること
を含む方法で構築された、ゲノムサブグループによって分類されたＭＭ細胞のパネルから、各サブグループからの少なくとも１つのＭＭ細胞系を選択すること、
（ｂ）各サブグループからの少なくとも１つのＭＭ細胞を治療介入と接触させること、
（ｃ）各サブグループからの少なくとも１つのＭＭ細胞を抑えるまたは死滅させるための治療介入の有効性をアッセイすること、
（ｄ）治療介入を、各サブグループからの少なくとも１つのＭＭ細胞を抑えるまたは死滅させるための治療介入の決定された有効性によって分類し、１つのサブグループからの少なくとも１つのＭＭ細胞系を抑えるまたは死滅させるが、別のサブグループからのＭＭ細胞系を抑えない、または死滅させないことにより、このサブグループのＭＭ細胞系を抑えるまたは死滅させるための治療介入の特異性が示されること、
を含む、悪性メラノーマ（ＭＭ）細胞を抑えるまたは死滅させるための治療介入を分類する方法に関する。治療介入は、化学療法、生体応答修飾物質、ワクチン免疫療法または生化学療法であり得る。治療介入が生体応答修飾物質である場合、それはインターフェロン、インターロイキン−２、モノクローナル抗体および腫瘍壊死因子アルファ、またはそれらの組合せなどの活性薬剤を含む医薬組成物であり得る。

第４の態様において、本発明は、
（ａ）
（ｉ）少なくとも１つのＭＭ細胞を含む複数のｍ個の試料を得ること、
（ｉｉ）ステップ（ｉ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第１のデータセットを取得すること、
（ｉｉｉ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、および
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータを第１のデータセットから削除すること
を含む、第１のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第１のデータセットから削除すること、
（ｉｖ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
（ｖ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、次式を用いてアルゴリズムの発散を計算すること、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｉｖ）からのサブグループの数である。）
（４）ステップ（ｖ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
（５）データセット内の腫瘍および細胞系を、１引く（ステップ（ｖ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによって、ｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てること、
（ｖｉ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または癌細胞系のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、
（ｖｉｉ）場合によって、ステップ（ｖｉ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価すること、および
（ｖｉｉｉ）ステップ（ｖｉ）において選択された各クラスターから少なくとも１つの試料を選択し、ゲノムサブグループによって定義されたパネルに構築すること
を含む、データベースを構築すること、
（ｂ）ステップ（ａ）のデータベースを分析して各サブグループに対して特徴的なコピー数の異常を決定すること、および
（ｃ）各サブグループについての決定された特徴的なコピー数の異常に基づいて、複数のプローブを設計し、各プローブをゲノムサブグループに割り当てること
を含む、試料からのＭＭ細胞を分類するためのプローブパネルを構築する方法に関する。

第５の態様において、本発明は、ＭＭ腫瘍試料を分類するためのプローブパネルを含むキットに関する。プローブパネル内のプローブは、例えば、ＦＩＳＨプローブであり得る。

第６の態様において、本発明は、
（ａ）データベースを構築するための説明書であって、
（ｉ）少なくとも１つのＭＭ細胞を含む複数のｍ個の試料を得ること、
（ｉｉ）ステップ（ｉ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第１のデータセットを取得すること、
（ｉｉｉ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、および
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータを第１のデータセットから削除すること
を含む、第１のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第１のデータセットから削除すること、
（ｉｖ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
（ｖ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、次式を用いてアルゴリズムの発散を計算すること、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｉｖ）からのサブグループの数である。）
（４）ステップ（ｖ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
（５）データセット内の腫瘍および細胞系を、１引く（ステップ（ｖ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによって、ｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てること、
（ｖｉ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または癌細胞系試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、および
（ｖｉｉ）場合によって、ステップ（ｖｉ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価すること
についての説明を含む、前記データベースを構築するための説明書、ならびに
（ｂ）場合によって、第１、第２、第３、第４、第５、第６の細胞系またはこれらの単離ゲノムＤＮＡであって、
ここで、
第１の細胞系は、ＳＫＭＥＬ１１９、ＨＳ９４４、ＷＭ１３６６およびＷＭ８８からなる群から選択され、
第２の細胞系は、ＷＭ３２４８であり、
第３の細胞系は、１２０５ＬＵであり、
第４の細胞系は、４５１ＬＵ、ＳＫＭＥＬ１９、ＳＫＭＥＬ２８、ＳＫＭＥＬ３０、ＳＫＭＥＬ６３、ＷＭ３５、ＷＭ９８３およびＷＭ９８３Ｃからなる群から選択され、
第５の細胞系は、ＷＭ３２１１、Ｍ１４、ＭＥＷＯ、ＳＫＭＥＬ２、ＳＫＭＥＬ５、ＵＡＣＣ２５７、ＵＡＣＣ６２、ＷＭ１２２、ＷＭ１３６６２、ＷＭ２３９Ａ、ＷＭ３２１１２、ＷＭ３２４８２、ＷＭ７９３Ｂおよび５０１ＭＥＬからなる群から選択され、および
第６の細胞系は、ＭＡＬＭＥ３ＭまたはＷＭ８８２である前記細胞系
を含む、ＭＭ腫瘍試料を分類するためのキット。

本発明のすべての態様において、教師なしクラスタリングアルゴリズムは、階層クラスタリングであってよく、コーフェン相関またはベイズ情報量規準が、データセットから最終的なクラスターの数を規定するために独立にまたは一緒に用いられ得る。

本発明の全態様において、複数の試料（ｍ個）は、第１、第２、第３、第４、第５、第６の細胞系を含み、
ここで、
第１の細胞系は、ＳＫＭＥＬ１１９、ＨＳ９４４、ＷＭ１３６６およびＷＭ８８からなる群から選択され、
第２の細胞系は、ＷＭ３２４８であり、
第３の細胞系は、１２０５ＬＵであり、
第４の細胞系は、４５１ＬＵ、ＳＫＭＥＬ１９、ＳＫＭＥＬ２８、ＳＫＭＥＬ３０、ＳＫＭＥＬ６３、ＷＭ３５、ＷＭ９８３およびＷＭ９８３Ｃからなる群から選択され、
第５の細胞系は、ＷＭ３２１１、Ｍ１４、ＭＥＷＯ、ＳＫＭＥＬ２、ＳＫＭＥＬ５、ＵＡＣＣ２５７、ＵＡＣＣ６２、ＷＭ１２２、ＷＭ１３６６２、ＷＭ２３９Ａ、ＷＭ３２１１２、ＷＭ３２４８２、ＷＭ７９３Ｂおよび５０１ＭＥＬからなる群から選択され、および
第６の細胞系は、ＭＡＬＭＥ３ＭまたはＷＭ８８２である。

本発明の一部の態様において、ＭＭ細胞は細胞系からのものである。

ゲノム科学に基づいた、腫瘍を分類する手順のワークフローを示す図である。階層クラスタリングを用いることによって、予想される生成クラスター数を導くための、ＭＭデータセットのデンドログラムを示す図である。ＭＭ腫瘍および細胞系のＣＧＨデータを、６つのクラスターに分類したヒートマップを示す図である。各行は試料を表し、各列はＳＮＰ遺伝子座を表す。赤色、白色および青色は、それぞれ、コピー数が多いこと、コピー数が正常であること、コピー数が少ないことを示す。水平な黒線は、異なるクラスターを分離している。垂直の空間は、染色体１−２２を分離している。細胞系は緑色の円で強調されている。

本発明は、ＭＭ腫瘍を評価し、分類し、階層化すること、ならびにＭＭ腫瘍に対する治療介入の有効性を評価することを提供する。本発明は、マイクロアレイに基づいた比較的なゲノムハイブリダイゼーション技法を利用して、ゲノム全域にわたる規模で遺伝子コピー数の異常性を検出し、したがって、ＤＮＡコピー数の変化を伴う染色体異常の全ゲノム的な考察を提供する。以前の病理組織学に基づいた分類スキームと異なり、本発明の方法は、臨床的介入において観察される変動性の背後の主要因子であるＭＭ細胞の遺伝的異質性を確かめる。

本発明の方法は、ＭＭをゲノムサブグループ化して、ＭＭに対する標的療法の発見および開発を容易にすること、ならびにそれらの療法に対する感受性が高いと思われるＭＭを有する個別の患者集団を定義することを可能にする。この患者群の階層化も、臨床試験の設計において非常に有用である。

本発明のクラスタリング手順によって定義されたサブグループは、起源および腫瘍発生の機構が異なることを示す別個のパターンのゲノム異常を保有した。この知見は、異なるサブグループは、各サブグループに特有な別個の臨床的挙動および治療介入への感受性を表すことを示唆している。このようなことは、乳癌におけるＨＥＲ２の増幅、肺癌におけるＥＧＦＲの増幅、神経芽細胞腫におけるＭＹＣＮの増幅などの他のコピー数の異常について以前観察されている（例えば、（Ａｎａｎｄら、２００３年；Ｈｉｒｓｃｈら、２００６年；Ｓｅｅｇｅｒら、１９８５年；Ｖｏｇｅｌら、２００２年を参照されたい））。

本発明の方法は、新規の計算アルゴリズムによって可能になり、複雑な、ゲノム全般にわたるコピー数の変化のパターンを分析することに基づいている。本発明の方法は、ＭＭのゲノムサブタイプを完全に特徴付けすることおよび臨床的挙動と治療介入のより正確な相関を生成させることを提供する。

提案したゲノム分類法は、（ｉ）試料セットが十分に大きかったこと（約１１０の試料）および（ｉｉ）試料は種々の供給源から取得され、したがってバイアスの可能性が排除されているので、ＭＭの対象の全集団に対して妥当である。

そこで、一態様において、本発明は、高解像度の比較的なゲノムハイブリダイゼーション（ＣＧＨ）を使用してＭＭ試料をプロファイリングする方法および外注の統計的アルゴリズムを用いてコピー数のプロファイルを分類する方法を提供する。得られたＭＭの分類は、薬物に対する患者の応答を予測し、前臨床モデルを選択するために使用され得る。

本発明の方法は、ゲノム異常性のパターンに基づいてＭＭを分類し、したがって、疾患の分子サブグループを決定することを可能にする。

別の態様において、本発明は、ＭＭ細胞のゲノムサブグループを定義または分類するために使用され得る独特の計算アルゴリズムを利用する。一般に、計算アルゴリズムは、
１．機械学習アルゴリズム（ランダムフォレストなど）を適用して、正常細胞が著しく混入した試料を同定し、削除するステップ、
２．教師なしクラスタリング（階層クラスタリングなど）を使用して、データをゲノム非負値行列因子分解（ｇＮＭＦ）モデルに適合させる前に、予想されるクラスター数を見積もるステップ、
３．ｇＮＭＦの多数のランダムスタートを使用し、続いてｇＮＭＦから得られたＨ行列の相関を距離行列として適用して試料を分類するステップ、
４．腫瘍および癌細胞系を、ｇＮＭＦアルゴリズムを使用していくつかの予想されるクラスター数に分類し、続いてコーフェン相関係数およびベイズ情報量規準（ＢＩＣ）を使用して最良モデルを選択し、最終的なクラスターの数を決定するステップ、および
５．場合によって、１０倍安定性検定を適用してクラスターの安定性を評価するステップ
を含む。

一実施形態において、（１）ＭＭ細胞試料からゲノムＤＮＡ（ｇＤＮＡ）を抽出するステップ、（２）ｇＤＮＡをマイクロアレイにハイブリダイズし、マイクロアレイを分析してマイクロアレイ分析で使用された各プローブについて生のシグナルを取得するステップ、（３）各遺伝子座のコピー数を決定し、コピー数の変化領域を検出するステップ、（４）データの品質管理を行うステップ、（５）コピー数のデータを平滑化し、分割アルゴリズムを用いて次元を縮小するステップ、（６）階層クラスタリングによって見積もられたクラスターの見積もり数に対してｇＮＭＦを用いて、平滑化されたデータを分類するステップ、（７）コーフェン相関および／またはベイズ情報量規準を用いて最良の分類モデルを選択するステップおよび（８）場合によって、ｇＮＭＦ分類の安定性を検定するステップを含む本発明は、ＭＭ細胞を分類する。

本発明の方法は、前臨床試験モデルのパネルにおける親腫瘍の完全な表示を提供することによって、前臨床試験モデルの合理的な選択を容易にし、前臨床試験の予測性を改善する。どんな理論にも縛られることは希望しないが、本発明の基本原理は、以下の通りである。ヒトの腫瘍の表現型を決定するために、コピー数の変化（ＣＮＡ）のパターンが示されている。したがって、腫瘍集団のサブグループがＣＮＡのパターンによって定義され、次いで少なくとも１つの細胞系が各サブグループに見合うように選択され、現在利用可能なモデルのセットよりもＭＭ細胞集団の多様性を適切に表す細胞系のパネルが開発され得る。これらの細胞系のパネルは、治療介入を試験することに使用され得る。さらに、これらのデータベースは、患者のＭＭ腫瘍をより細かく分類することを可能にし、癌を有効に治療する可能性が高い、精密な治療介入の処方を可能にする。

本発明の方法は、治療介入および前臨床試験モデルを合理的に選択することを容易にする。

定義
ゲノム全般にわたるコピー数のプロファイル、または「コピー数」は、２つ以上の遺伝子座のＤＮＡコピー数の測定値である。コピー数のプロファイルは、細胞が本質的に野生型であり、各遺伝子座が２つのコピーで存在している（二倍体のため、性染色体を除く）場合、または野生型の異常体、すなわち、遺伝子座の増幅および欠失を含有する場合に評価することができる。増幅および欠失は、エレメントの一部およびエレメントの全体、または多くのエレメントに同時に影響を与え得る。コピー数のプロファイルにより、増幅または欠失の正確な数は必ずしも決定されないが、遺伝学的異常性を含有する領域および異常性が欠失であるか増幅であるかは同定される。

一部の実施形態において、「野生型」ゲノムは、試料の遺伝子型を決定する状況において使用されるとき、必ずしも野生型の試料が厳密に二倍体であることを意味しない。本発明に照らして、「野生型」ゲノムは、ＭＭなどの特定の病態を現していない、または現しそうにない細胞から取り出したゲノムである。例えば、野生型ゲノムは、対象によって健康な、正常細胞から提供され、同じ対象のＭＭ細胞と比較され得る。

「ベイズ情報量規準」または「ＢＩＣ」は、モデル選択に対する統計的基準として使用されるパラメトリック法を指す。ＢＩＣは、（Ｓｃｈｗａｒｚ、１９７８年）によって記載されている。ＢＩＣは式（１）によって定義される：
ＢＩＣ＝−２＊ｌｎＬ＋ｋｌｎ（ｎ）（１）
式中、Ｌは、モデルがデータにどれくらい正確に近似しているかを測定する尤度であり、ｋはモデルにおいて使用されるパラメータの数であり、ｎは試料の数である。二次の項、ｋ＊ｌｎ（ｎ）は、過剰適合を回避するためにモデルにおいて使用されるパラメータの数のペナルティとして機能する。

「コーフェン相関係数」または「コーフェン相関」は互換的に使用され、最終的なクラスタリングを導くために使用されるデンドログラムが、元のモデル化されていないデータポイントとのペアワイズ距離をどれだけ忠実に保存したかを測定するために用いられるアルゴリズムを指す。本発明における使用に関して、元のデータＸ_ｉがデンドログラムＴ_ｉによってモデル化されている場合、距離の測定値は式（２）によって定義される：
ｘ（ｉ，ｊ）＝｜Ｘ_ｉ−Ｘ_ｊ｜（２）
ｉ番目の試料とｊ番目の試料の間の距離、およびｔ（ｉ，ｊ）＝モデルポイント、Ｔ_ｉとＴ_ｊの間のデンドログラムの距離であり、この距離はこれらの２つのポイントが最初に一緒に連結される結節の高さである。

それから、ｘがｘ（ｉ，ｊ）の平均であり、ｔがｔ（ｉ，ｊ）の平均である場合、コーフェン相関係数ｃは式（３）によって定義される：

ｒが増加するにつれて、コーフェン相関は特定のポイントで劇的に減少し、したがって、最良のクラスター数に対応する（Ｃａｒｒａｓｃｏら、２００６年；Ｍａｈｅｒら、２００６年）。

「クラスター解析」は、「データ分割」としても公知であり、目的物（観測値、個体、事例またはデータ行とも称される）の集団をサブセット、サブグループまたは「クラスター」にグループ分けまたは分割し、各クラスター内の目的物が互いに、異なるクラスターに割り当てられた目的物よりも密接に関連しているようにする。クラスター解析の目標のすべての中核をなすのは、クラスタリングされた個々の目的物間の類似性（または非類似性性）の程度の観念である。クラスタリングの種類の例は、階層クラスタリングおよびｋ−平均クラスタリングである。

「階層クラスタリング」は、クラスターの階層を構築すること（集塊性）または解体すること（分裂的）を指す。この階層の伝統的な表示は、デンドログラムであり、その一方の端に個々のエレメントがあり、他方にすべてのエレメントを含有する単一のクラスターがある。集塊性のアルゴリズムは、木の葉から始まるが、一方、分裂的なアルゴリズムは根から始まる。階層クラスタリングを行うための方法は、当技術分野で周知である。

階層クラスタリング手法は、生物医学的な研究において、生体試料をその遺伝子発現パターンに基づいてクラスタリングし、試料集団におけるサブグループ構造を導くために広く使用されている（Ｂｈａｔｔａｃｈａｒｊｅｅら、２００１年；Ｈｅｄｅｎｆａｌｋら、２００３年；Ｓｏｔｉｒｉｏｕら、２００３年；Ｗｉｌｈｅｌｍら、２００２年）。例えば、階層クラスタリングは、６４のヒト腫瘍細胞系を、１１６１の選択された遺伝子の発現パターン基づいていくつかのクラスターにグループ分けし、異なるクラスターの分子的特徴を導くために使用されている（Ｒｏｓｓら、２０００年）。

「機械学習」は、コンピュータに「学習」させることを可能にするアルゴリズムおよび技法を設計および開発することに関連する人工知能のサブフィールドを指す。一般に、帰納的学習および演繹的学習の２種類がある。帰納的な機械学習の方法は、データセットからルールおよびパターンを抽出する。機械学習研究の主要な焦点は、計算的方法および統計的方法によって、データから自動的に情報を抽出することである。分類学に系統立てられたいくつもの機械学習アルゴリズムは、アルゴリズムの所望の転帰に基づいて、当業者に公知である。これらとしては、（１）教師あり学習（例えば、ランダムフォレスト）、（２）教師なし学習（例えば、主成分分析、ベクトル量子化など）（３）半教師あり学習、（４）強化学習、（５）トランスダクションおよび（６）学習の学習が挙げられる。

「非負値行列因子分解」（ＮＭＦ）は、部分に基づいた、非負データの線形表現を見出すためのアルゴリズムを指す。非負値行列因子分解は、もともとは、画像解析において使用するための数学的ツールとして開発された（ＬｅｅおよびＳｅｕｎｇ、１９９９年；ＬｅｅおよびＳｅｕｎｇ、２００１年）。ＮＭＦは、遺伝子発現データを分析するためにゲノム科学において採用された（Ｂｒｕｎｅｔら、２００４年）。具体的には、ＮＭＦは、遺伝子コピー数のデータの分析において使用するために適合され、遺伝子コピー数の分析に使用されるこの方法の変形型はゲノム非負値行列因子分解（ｇＮＭＦ）と称される（Ｃａｒｒａｓｃｏら、２００６年；Ｍａｈｅｒら、２００６年）。試料セットに対して平滑化されたコピー数のデータのｎｘｍ行列Ｖ（ｎはセグメントの数であり、ｍは試料の数である）を与えると、ｇＮＭＦアルゴリズムは式（４）に示すように行列Ｖをｎｘｒ行列Ｗおよびｒｘｍ行列Ｈに因子分解する：
Ｖ＝Ｗ＊Ｈ＋ｅ（４）
（式中、Ｗは各サブグループに対する標準モデルとみなすことができ、Ｈは各サブグループに属する各試料の相対的な重量とみなすことができ、ｅはモデル適合の剰余を表し、ｒはクラスタリングされるサブグループの数である（通常ｍよりもずっと小さい））。入力としてｒおよびＶを与えると、ｇＮＭＦアルゴリズムはまずＷおよびＨの初期値をランダムに設定し、次いで、式（５）および（６）に従った乗法更新ルールを用いてＷおよびＨを繰り返し更新する：

式中、ａは１からｒまでにわたり、μは１からｍまでにわたり、ｉは１からｎまでにわたる。

「ピアソンの線形非類似性」は、式（７）を指す：

式中、ｘ→およびｙ→は長さｎの２つのベクトルであり、ρ（ｘ→、ｙ→）は式（８）を有するピアソンの線形相関である：

式中、試料の標準偏差ｓ_ｘおよびｓ_ｙは式（９）を有し：

試料の平均は式（１０）を有する：

「ランダムフォレスト」は、予測木を、独立にサンプリングされたランダムベクターの値に各木が依存するように、またフォレスト内のすべての木が同じ分布を持つように組み合わせて使用する教師あり学習アルゴリズムを指す（Ｂｒｅｉｍａｎ、２００１年）。

ランダムフォレストは、多くの分類木を成長させる。新しい目的物を入力ベクターから分類するために、入力ベクターをフォレスト内の木それぞれに置く。各木から分類が与えられ、それは木がクラスに「投票する」と言われる。フォレストは、最も多い票（フォレスト内のすべての木にわたって）を有する分類を選出する。各木は以下の通り成長する：
１．訓練セット内の事象の数がｎである場合、ｎ個の事象をランダムにサンプリングするが、元のデータからの置き換えがある。この試料は、木を成長させるための訓練セットになる。
２．ｍ個の入力変数がある場合、数ｍ＜＜Ｍは、各結節において、ｍ個の変数がＭからランダムに選択され、結節を分割するためにこれらのｍ個の変数に対する最良の分割が使用されるように特定される。ｍの値はフォレストが成長する間、一定に保たれる。
３．各木は可能な限りの最大規模まで成長させる。剪定はしない。

フォレストのエラー発生率は２つの因子に左右される：
１．フォレスト内の任意の２つの木間の相関。相関が大きくなるとフォレストのエラー発生率が増加する。
２．フォレスト内の個々の木それぞれの強度。エラー発生率が低い木は強力な分類器である。個々の木の強度が増加すると、フォレストのエラー発生率が減少する。

オリゴヌクレオチドまたはポリヌクレオチドは、長さが少なくとも２ヌクレオチド、好ましくは少なくとも８ヌクレオチド、より好ましくは少なくとも２０ヌクレオチドまでにわたる核酸またはポリヌクレオチドに特異的にハイブリダイズする化合物である。ポリヌクレオチドとしては、デオキシリボ核酸（ＤＮＡ）またはリボ核酸（ＲＮＡ）が挙げられる。ポリヌクレオチドの別の例は、ペプチド核酸（ＰＮＡ）である。

プローブは、特定の標的に認識され得る表面固定分子である。

「固体支持体」、「支持体」および「基質」は互換的に使用され、１つ以上の硬質または半硬質の表面を有する材料または材料群を指す。

「ハイブリダイゼーション」は、ワトソン・クリックの塩基対合または非標準の塩基対合によって複合体を形成するために十分相補的な核酸配列間の複合体の形成を指す。例えば、プライマーが標的配列（鋳型）と「ハイブリダイズする」際、そのような複合体（またはハイブリッド）は、例えば、ＤＮＡ合成を開始するためにＤＮＡポリメラーゼが必要とするプライマー機能を果たすために十分に安定である。ハイブリダイズする配列は、安定なハイブリッドをもたらすために完全な相補性を有する必要はない。多くの場合、安定なハイブリッドは、約１０％未満の塩基がミスマッチである場合に形成される。本明細書で使用する、「相補的な」という用語は、アッセイ条件下で、一般に約８０％超、約８１％超、約８２％超、約８３％超、約８４％超、約８５％超、約８６％超、約８７％超、約８８％超、約８９％超、約９０％超、約９１％超、約９２％超、約９３％超、約９４％超、約９５％超、約９６％超、約９７％超、約９８％超または約９９％超の相同性でその相補物と安定な二本鎖を形成するオリゴヌクレオチドを指す。当業者は、少なくとも所望のレベルの相補性を有する配列が安定にハイブリダイズするが、低い相補性を有する配列は安定にハイブリダイズしないように、ハイブリダイゼーション条件の厳密性をどのように見積もり、調整するかを理解している。ハイブリダイゼーション条件およびパラメータの例は周知である（Ａｕｓｕｂｅｌ、１９８７年；ＳａｍｂｒｏｏｋおよびＲｕｓｓｅｌｌ、２００１年）。

核酸アレイ（「アレイ」）は、固体支持体に付着した核酸プローブを含む。アレイは、一般には、異なる既知の位置で基質の表面に結合する、複数の異なる核酸プローブを含む。これらのアレイは、マイクロアレイとも記載され、「チップ」は、当技術分野において例えばＵ．Ｓ．Ｐａｔ．Ｎｏ．５，１４３，８５４、５，４４５，９３４、５，７４４，３０５、５，６７７，１９５、６，０４０，１９３、５，４２４，１８６および（Ｆｏｄｏｒら、１９９１）に一般に記載されている。これらのアレイは、一般に、フォトリソグラフィー法および固相合成法の組合せを組み込んだ機械的な合成方法または光指向性合成方法を使用して作製され得る。機械的な合成を使用するアレイの合成技法は、例えば、Ｕ．Ｓ．Ｐａｔ．Ｎｏ．５，３８４，２６１に記載されている。平面のアレイ表面が好ましいが、アレイは実質的にどんな形状の表面にも作り上げることができ、多重の表面にさえ作り上げることができる。アレイは、例えば、Ｕ．Ｓ．Ｐａｔ．Ｎｏ．５，７７０，３５８、５，７８９，１６２、５，７０８，１５３、６，０４０，１９３および５，８００，９９２に記載のように、ビーズ、ゲル、ポリマー表面、光ファイバーなどのファイバー、ガラスまたは任意の他の適切な基質上の核酸であり得る。アレイは、すべてを含んだデバイスでの診断または他の操作が可能になるように一括され得る。例えば、Ｕ．Ｓ．Ｐａｔ．Ｎｏ．５，８５６，１７４および５，９２２，５９１を参照されたい。

アレイは、一塩基多型（ＳＮＰ）を使用して、ゲノム全体を包含するように設計され得る。例えば、アレイは、ヒトゲノム中の１１６，２０４個の一塩基多型（ＳＮＰ）遺伝子座を包含し得、マーカー間の平均距離は２３．６ｋｂＳＮＰ遺伝子座である。

「標識された」および「検出可能な標識（または作用剤または部分）で標識された」は、互換的に使用され、実体（例えば、ＤＮＡ断片、プライマーまたはプローブ）が、例えば、別の実体（例えば増幅産物）に結合した後に可視化され得ることを明示する。検出可能な標識は、その標識が測定され得るシグナルを生成し、その強度が結合した実体の量に関連する（例えば、比例する）ように選択され得る。プライマーおよびプローブなどの核酸分子を標識および／または検出するための多種多様なシステムが周知である。標識された核酸は、分光的な方法、光化学的な方法、生化学的な方法、免疫化学的な方法、電気的な方法、光学的な方法、化学的な方法または他の方法によって直接的または間接的に検出可能な標識を組み込むまたはコンジュゲートすることによって調製され得る。適切な検出可能な作用剤としては、放射線核種、蛍光体、化学発光剤、微粒子、酵素、比色標識、磁気標識、ハプテンなどが挙げられる。

「プローブ」は、ＣＧＨマイクロアレイ、ＳＮＰマイクロアレイまたは適切な条件下で標的配列の少なくとも一部分と選択的にハイブリダイズすることができる、当技術分野で公知の任意の他のマイクロアレイと関連して使用するために設計されたオリゴヌクレオチドを指す。一般に、プローブ配列は、「相補的」（すなわち、コード鎖またはセンス鎖（＋）に対して相補的）または「逆相補的」（すなわち、アンチセンス鎖（−）に対して相補的）のいずれかであると同定される。プローブは、約１０−１００ヌクレオチド、好ましくは約１５−７５ヌクレオチド、最も好ましくは約１５−５０ヌクレオチドの長さを有することができる。

「医薬組成物」または「薬物」は互換的に使用され、小分子（例えば、一般には非ペプチド性の活性薬剤を含有する薬物）であろうと生物製剤（例えば、ペプチド、タンパク質または抗体に基づいた薬物、ペグ化などの修飾を伴う任意の薬物を含む）であろうと、少なくとも１種の癌に罹患している対象または患者を治療するために使用され得る任意の作用剤を指す。

「細胞」は、腫瘍、細胞系、または対象に由来し得る。

「療法」または「治療レジメン」は、疾患の影響または症状を低減または除去すること、または１つの状態から二次的な好ましくない状態に疾患が進行するのを防ぐことを意図した治療過程を指す。治療レジメンは、処方された薬物、外科的手術または放射線治療を含み得る。対象の腫瘍のコピー数のプロファイルは、選択された療法の副作用および有効性にも影響を及ぼす可能性がある。本発明において、対象の腫瘍のコピー数のプロファイルは、最も有効である可能性が高い療法または治療レジメンを決定するために使用され得る。

「対象」または「患者」は、哺乳動物および非哺乳動物を含む。哺乳動物の例としては、ヒト、チンパンジーおよび類人猿種およびサル種などの他の霊長類；ウシ、ウマ、ヒツジ、ヤギ、ブタなどの家畜動物；ウサギ、イヌおよびネコなどの家庭動物；ラット、マウスおよびモルモットなどのげっ歯類を含めた実験動物が挙げられる。非哺乳動物の例としては、鳥類および魚類が挙げられる。

「治療する」「治療すること」および「治療」は、予防的および／または治療的に、疾患または状態の症状を緩和する、和らげるまたは改善すること、追加の症状を予防すること、根底にある症状の代謝性の原因を改善または予防すること、疾患または症状を阻害すること、例えば、疾患または状態の発生を抑えること、疾患または状態を軽減すること、疾患または状態の退縮を引き起こすこと、疾患または状態によって引き起こされた状態を軽減すること、または疾患または状態の症状を止めることを意味する。

発明の実施
本発明の方法において、コピー数のプロファイルの参照データベースが作成され、そこでＭＭ細胞を含む複数（ｍ個）の試料におけるゲノムのコピー数が決定される（ｍは１から５，０００，０００までの整数である。例えば、複数の試料は、２個、５個、１０個、１５個、２０個、２５個、５０個、１００個、２００個、５００個、１，０００個、１０，０００個、５０，０００個、１００，０００個の試料、２５０，０００個の試料、５００，０００個、１，０００，０００個の試料などであり得る）。次に、ＭＭ細胞はコピー数のパターン、コピー数のプロファイルに従ってゲノムサブグループに分類される。これらのサブグループのそれぞれは、遺伝子型に基づいた分類を表すだけではなく、種々の治療介入に対する特徴的な応答性も示すことが予想される。例えば、サブグループの１つが放射線に対して感受性である一方、別のサブグループは化学療法などの薬学的介入に対して感受性である可能性がある。

コピー数の変化は、ＭＭに罹患している、または罹患する危険性がある対象から得られ得るＭＭ細胞において検出される。そのような細胞は、常用の技法を使用して得られ得る。例えば、腫瘍は、癌に罹患しているまたは罹患している疑いがある対象から外科的に解剖され、次いで、即座に、例えば−８０℃で凍結され得る。

対象を分類することを可能にする、異なるサブグループのデータベースを開発するために、ＭＭ腫瘍および癌細胞系が、商業的にまたは公共の供給源から得られ得る。有用な細胞系セットを表１に示す。表中、ＡＴＴＣは、ＡｍｅｒｉｃａｎＴｙｐｅＣｕｌｔｕｒｅＣｏｌｌｅｃｔｉｏｎ（Ｍａｎａｓｓｕｓ、ＶＡ）であり、ＣＬＳは、ＣｅｌｌＬｉｎｅＳｅｒｖｉｃｅ（Ｇｅｒｍａｎｙ）であり、ＤＳＭＺは、ＤｅｕｔｓｃｈｅＳａｍｍｌｕｎｇｖｏｎＭｉｋｒｏｏｒｇａｎｉｓｍｅｎｕｎｄＺｅｌｌｋｕｌｔｕｒｅｎＧｍｂＨ（Ｂｒａｕｎｓｃｈｗｅｉｇ、Ｇｅｒｍａｎｙ）である。

ＭＭ細胞および癌細胞系からの追加のコピー数およびコピー数の変化の情報は、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ（ＮＣＢＩ）から入手可能なＧｅｎｅＥｘｐｒｅｓｓｉｏｎＯｍｎｉｂｕｓ（ＧＥＯ）、ＤａｎａＦａｒｂｅｒＣａｎｃｅｒＩｎｓｔｉｔｕｔｅのウェブサイトからの、オンラインのＢｒｏａｄＩｎｓｔｉｔｕｔｅ／ＤａｎａＦａｒｂｅｒＣａｎｃｅｒＩｎｓｔｉｔｕｔｅｉｎｔｅｒｎｅｔＰｏｒｔａｌなどからなど、いくつもの市販の供給源または公共の供給源から得られ得る。

腫瘍および癌細胞系が得られたら、ゲノムＤＮＡ（ｇＤＮＡ）は、フェノールクロロホルム抽出、塩析、消化なしの抽出などの常用の技法を使用して、またはＤＮＥａｓｙ（登録商標）キットまたはＱＩＡＡＭＰ（登録商標）キット（Ｑｉａｇｅｎ、Ｖａｌｅｎｃｉａ、ＣＡ）などの市販のキットを使用することによって、腫瘍または細胞系のそれぞれから抽出される。次に、腫瘍または細胞系のそれぞれから得られたｇＤＮＡは、分析を容易にするために修飾または変更され得る。例えば、プライマー配列またはアダプター配列が、常用の技法を使用してｇＤＮＡにライゲーションされ得る。例えば、ｇＤＮＡは最初に、ＨｉｎｄＩＩＩまたはＸｂａＩなどの制限エンドヌクレアーゼで消化され得る。消化されたら、１つ以上のプライマー配列またはアダプター配列が消化されたｇＤＮＡにライゲーションされ得る。アダプターは粘着性の４塩基対突出を認識するものであることが好ましい。

単離されたＤＮＡは慣例的な方法を使用して増幅される。有用な核酸の増幅方法としては、ポリメラーゼ連鎖反応（ＰＣＲ）が挙げられる。ＰＣＲは、それぞれが参照により本明細書に組み込まれている、いくつもの参照文献に記載されている（Ｉｎｎｉｓ、１９９０年；Ｉｎｎｉｓら、１９９５年；ＭｃＰｈｅｒｓｏｎら、１９９１年；Ｓａｉｋｉら、１９８６年；Ｓｎｉｎｓｋｙら、１９９９年）；およびＵ．Ｓ．ＰａｔｅｎｔＮｏ．４，６８３，１９５、４，６８３，２０２および４，８８９，８１８。ＰＣＲの変形型としては、ＴＡＱＭＡＮ（登録商標）に基づいたアッセイ（Ｈｏｌｌａｎｄら、１９９１年）および逆転写酵素ポリメラーゼ連鎖反応（ＲＴ−ＰＣＲ、例えば、それぞれが参照により本明細書に組み込まれているＵ．Ｓ．ＰａｔｅｎｔＮｏ．５，３２２，７７０および５，３１０，６５２に記載されている）が挙げられる。

一般に、プライマーの対が、標的核酸の相補鎖とハイブリダイズさせるために、単離されたｇＤＮＡに添加される。腫瘍または癌細胞系から得られたｇＤＮＡが消化され、プライマー配列またはアダプター配列にライゲーションされれば、そのときは、増幅方法において使用されたプライマーの１つがアダプター配列を認識することが好ましい。増幅方法において使用されたプライマーが、２５０から２０００までの塩基対のサイズ範囲で断片を増幅することも好ましい。

増幅が完了すると、生じた増幅ＤＮＡは、ＭＩＮＥＬＵＴＥ（登録商標）９６ＵＦＰＣＲＰｕｒｉｆｉｃａｔｉｏｎシステム（Ｑｉａｇｅｎ）などの常用の技法を使用して精製される。精製された後、増幅ＤＮＡは、次いで超音波処理またはＤＮａｓｅＩなどの酵素的消化などの常用の技法を使用して断片化される。断片化された後、ＤＮＡは検出可能な標識で標識される。ＤＮＡおよびＤＮＡ断片を標識する方法は周知である。

多種多様な検出可能な標識はいずれも使用され得る。適切な検出可能な標識としては、種々のリガンド、放射線核種（例えば、^３２Ｐ、^３５Ｓ、^３Ｈ、^１４Ｃ、^１２５１、^１３１Ｉなど）；蛍光色素；化学発光剤（例えば、アクリジニウムエステル、安定化ジオキセタンなど）；スペクトルで解像可能な無機蛍光半導体ナノ結晶（例えば、量子ドット）、金属ナノ粒子（例えば、金、銀、銅および白金）またはナノクラスター；酵素（例えば、西洋ワサビペルオキシダーゼ、ベータガラクトシダーゼ、ルシフェラーゼ、アルカリホスファターゼ）；比色標識（例えば、色素、コロイド金など）；磁気標識（例えば、ＤＹＮＡＢＥＡＤＳ（商標））；およびビオチン、ジゴキシゲニンまたは他のハプテンおよびタンパク質が挙げられるが、これらに限定されない。

増幅されたら、断片化されたＤＮＡは検出可能な標識で標識され、常用の技法を使用してマイクロアレイにハイブリダイズされる。マイクロアレイは、ゲノムの増加および減少を探すために比較的なゲノムハイブリダイゼーション（ＣＧＨ）において使用され得るオリゴヌクレオチド、遺伝子またはゲノムクローンを含有し得る。あるいは、マイクロアレイは、一塩基多型（ＳＮＰ）などの突然変異または多型を検出するオリゴヌクレオチドまたはゲノムクローンを含有し得る。マイクロアレイは、当技術分野で公知の常用の技法を使用して製造され得る。あるいは、市販のマイクロアレイが使用され得る。使用され得るマイクロアレイの例は、ＡＦＦＹＭＥＴＲＩＸ（登録商標）ＧＥＮＥＣＨＩＰ（登録商標）Ｍａｐｐｉｎｇ１００ＫＳｅｔＳＮＰＡｒｒａｙ（Ｍａｔｓｕｚａｋｉら、２００４年）（Ａｆｆｙｍｅｔｒｉｘ、Ｉｎｃ．、ＳａｎｔａＣｌａｒａ、ＣＡ）、ＡｇｉｌｅｎｔＨｕｍａｎＧｅｎｏｍｅａＣＧＨＭｉｃｒｏａｒｒａｙ４４Ｂ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ、Ｉｎｃ．、ＳａｎｔａＣｌａｒａ、ＣＡ）、Ｉｌｌｕｍｉｎａマイクロアレイ（Ｉｌｌｕｍｉｎａ、Ｉｎｃ．、ＳａｎＤｉｅｇｏ、ＣＡ）、ＮｉｍｂｌｅｇｅｎａＣＧＨマイクロアレイ（Ｎｉｍｂｌｅｇｅｎ、Ｉｎｃ．、Ｍａｄｉｓｏｎ、ＷＩ）などである。

ハイブリダイゼーションされた後、マイクロアレイは、ハイブリダイズしていない核酸を取り除くために常用の技法を使用して洗浄される。洗浄された後、マイクロアレイは、リーダーまたはスキャナーで分析される。リーダーおよびスキャナーの例としては、ＧＥＮＥＣＨＩＰ（登録商標）Ｓｃａｎｎｅｒ３０００Ｇ７（Ａｆｆｙｍｅｔｒｉｘ、Ｉｎｃ．）、ＡｇｉｌｅｎｔＤＮＡＭｉｃｒｏａｒｒａｙＳｃａｎｎｅｒ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ、Ｉｎｃ．）、ＧＥＮＥＰＩＸ（登録商標）４０００Ｂ（ＭｏｌｅｃｕｌａｒＤｅｖｉｃｅｓ、Ｓｕｎｎｙｖａｌｅ、ＣＡ）などが挙げられる。マイクロアレイに含有されるプローブから集められたシグナルは、ＡｆｆｙｍｅｔｒｉｘまたはＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓによって供給されているものなどの市販のソフトウェアを使用して分析され得る。例えば、ＡｆｆｙｍｅｔｒｉｘからのＧＥＮＥＣＨＩＰ（登録商標）Ｓｃａｎｎｅｒ３０００Ｇ７が使用される場合、ＡＦＦＹＭＥＴＲＩＸ（登録商標）ＧＥＮＥＣＨＩＰ（登録商標）ＯｐｅｒａｔｉｎｇＳｏｆｔｗａｒｅが使用され得る。ＡＦＦＹＭＥＴＲＩＸ（登録商標）ＧＥＮＥＣＨＩＰ（登録商標）ＯｐｅｒａｔｉｎｇＳｏｆｔｗａｒｅは、すべてのプローブからのシグナルを検出するＡＦＦＹＭＥＴＲＩＸ（登録商標）ＧＥＮＥＣＨＩＰ（登録商標）スキャナーからの生データ（シグナル）または特徴データ（シグナル）を収集し、抽出する。生データまたは特徴データは、ＣＥＬファイル（ＣＥＬファイルの形式はＷｉｎｄｏｗｓ(登録商標）ＩＮＩ形式と同様のＡＳＣＩＩテキストファイルである。）、ＣＨＩＰファイル、ＣＮＴファイル、メタプローブセットファイルまたはプレーンテキストファイルなどの任意の適切なファイル形式の１つに電子的に保管され得る。

マイクロアレイから収集および抽出されたデータは、各染色体上の遺伝子座のそれぞれにおけるコピー数を決定するため、およびコピー数の変化領域を定義するために処理される。そのような処理は、バイナリーサーキュラー（ＢｉｎａｒｙＣｉｒｃｕｌａｒ）分割（Ｏｌｓｈｅｎら、２００４年）、ＤＮＡの増加および減少の分析（ＧａｉｎａｎｄＬｏｓｓＡｎａｌｙｓｉｓｏｆＤＮＡ）（ＧＬＡＤ）（Ｈｕｐｅら、２００４年）、隠れマルコフモデルに基づいた手法（Ｆｒｉｄｌｙａｎｄら、２００４年；Ｚｈａｏら、２００４年）、またはクラスタリング手法（Ｗａｎｇら、２００５年）などの公知のアルゴリズムを用いて行われ得る。あるいは、ＰＡＲＴＥＫ（登録商標）ＧＥＮＯＭＩＣＳＵＩＴＥ（商標）ソフトウェア、例えば６．０８．０１０３バージョン（Ｐａｒｔｅｋ、Ｓｔ．Ｌｏｕｉｓ、ＭＯから入手可能）、ＧｅｎｅＰａｔｔｅｒｎ（オンラインで入手可能；（Ｒｅｉｃｈら、２００６年））およびｄＣｈｉｐ（オンラインで入手可能；（ＬｉおよびＨｕｎｇＷｏｎｇ、２００１年；ＬｉおよびＷｏｎｇ、２００１年）などの市販のソフトウェアが使用され得る。

例えば、ＰＡＲＴＥＫ（登録商標）ＧＥＮＯＭＩＣＳＵＩＴＥ（商標）ソフトウェア、例えば６．０８．０１０３バージョンが使用される場合、スキャナーによって検出される、マイクロアレイ中のすべてのプローブからのシグナルを含有するＣＥＬファイルがソフトウェアにローディングされ得る。コピー数は、あらかじめ設定した基線（あらかじめ設定した基線を確立するために使用された数は決定的ではなく、整数（ｎ）であり、ｎは１から１００までである。例えば、あらかじめ設定した基線は２であり得る。）に対して補正した後、マイクロアレイから決定された腫瘍または癌細胞系の試料についてのシグナル強度と、参照または対照のシグナル強度を比較することによって計算される。使用される参照または対照は、同じマイクロアレイプラットフォームによって測定される腫瘍試料と同じ患者からの正常な組織試料のセットまたは正常な組織の対であり得る。参照または対照は、少なくとも５個の試料、少なくとも１０個の試料、少なくとも１５個の試料、少なくとも２０個の試料、少なくとも２５個の試料、少なくとも３０個の試料、少なくとも３５個の試料、少なくとも４０個の試料、少なくとも４５個の試料、少なくとも５０個の試料、少なくとも７５個の試料、少なくとも１００個の試料、少なくとも１５０個の試料、少なくとも２００個の試料、などを含むことができる。

次いで、得られたコピー数のデータは分割され、各試料においてコピー数の変化領域が検出される。コピー数の変化領域の分割および検出は、以下の制御パラメータを使用して得られ得る：
（ｉ）コピー数領域は少なくとも１００個のプローブを含有しなければならない；
（ｉｉ）コピー数領域の平均コピー数と隣接するコピー数領域を比較したｐ値は０．００００１未満でなければならない；
（ｉｉｉ）トランジションのシグナル／ノイズ比は０．１超でなければならない。
コピー数の変化領域は、これらの領域における平均コピー数が実質的に１．６５未満である（欠失）または２．６５超である（増加）場合に、０．０１を下回るｐ値を伴って検出され得る。

腫瘍試料はコピー数の変化のシグナルを弱める可能性がある正常細胞を相当な割合で含有する可能性があるので、機械学習アルゴリズムは、腫瘍試料および癌細胞系試料のコピー数のパターンと正常試料のコピー数のパターンの間の差異を捕捉するために使用され得る。そのようなアルゴリズムは、さらなる分析から正常細胞が混入した腫瘍試料を同定し、排除するために使用され得る。したがって、このアルゴリズムは、データの品質管理に役立ち、「データの品質管理アルゴリズム」と称される。

データの品質管理アルゴリズムは、本明細書で前記したように、腫瘍試料および癌細胞系試料からのコピー数の変化領域の数が最も多い試料のサブセット（以下、第１の試料セット）を選択することを含む。正常な試料セットも選択される（以下、第２の試料セット）。これらの第１の試料セットおよび第２の試料セットは、第１の試料セットと第２の試料セットの間の差異を最もよく表すようにアルゴリズムのパラメータを合わせることによって、試料が「正常」試料または「腫瘍」試料のいずれであるかを分類するための機械学習アルゴリズムを開発するための訓練セットとして使用される。訓練された分類器は、各試料に対してスコアを割り当てるために、残りの腫瘍または癌細胞系の試料に適用される。このスコアは、各試料の、正常細胞が混入している確率を表す。５０％を超える混入確率を有する試料は、続くクラスタリング解析から除外される。この目的で使用され得る機械学習アルゴリズムとしては、ランダムフォレスト（ＲＦ）（Ｂｒｅｉｍａｎ、２００１年）、サポートベクターマシン（ＳＶＭ）（Ｖａｐｎｉｋ、１９９５年）、再帰的ＳＶＭ（Ｚｈａｎｇら、２００６年）、最小角度回帰（ＬＡＲＳ）（Ｅｆｒｏｎら、２００４年）などが挙げられる。

マイクロアレイから得られたコピー数のデータは密度が高くノイズが多い傾向があるので、コピー数のデータは、ノイズレベルを低下させ、次元を縮小させ（「次元縮小」とも称される）、データの複雑さを低減するために平滑化され得る。データの平滑化は、最初に、常用の技法を使用して、各試料において有意に増加または欠失したコピー数領域を検出することによって行われ得る。そのような領域が同定されたら、隣接する領域が、同様のコピー数の変化を有する場合、およびこれらの領域間の距離が５００キロ塩基未満である場合、合併され得る。次いで、ゲノム全体が、データセット内のすべての試料からの区切り点の連結を使用して分割され得、各セグメントのコピー数が、各セグメント内のＳＮＰプローブのコピー数を平均することによって計算され得る（Ｃａｒｒａｓｃｏら、２００６年）。データの平滑化によって、各試料からのコピー数の増加および欠失が良好に解像され得る。

データの平滑化および次元縮小をした後、データセットは、腫瘍および癌細胞系の試料のそれぞれの間の相対的な類似性の概要を得るため、およびこれまでにデータ内に存在しているサブグループの数（本明細書ではｒ個のサブグループとも称される）の見積もり（例えば、大まかな見積もり）を得るために、教師なしクラスタリング手法に供される。データの平滑化および次元縮小をした後、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリング手法が、「データセット」またはＶと称される平滑化された腫瘍および細胞系のコピー数のデータセットに適用される。クラスタリングパターンが、データセット内の予想されるサブグループの数、ｒの範囲を導くために、プロットされ、視覚的に検査され得る（データセット内の予想されるサブグループの数の範囲は、１から１００までの整数（ｎ）になる）。使用され得る教師なしクラスタリング手法の例としては、階層クラスタリング、主成分分析（ＰＣＡ）（Ｐｅａｒｓｏｎ、１９０１年）または多次元尺度構成法（ＭＤＳ）（ＢｏｒｇおよびＧｒｏｅｎｅｎ、２００５年）が挙げられるが、これらに限定されない。次いで、サブグループの数（それぞれが「ｒ値」と称され、各ｒ値は１から１００までの整数である。）が、ゲノム非負値行列因子分解（「ｇＮＭＦ」）を使用したクラスタリング解析において入力として使用される。

以前のｇＮＭＦのクラスターＣＧＨデータへの適用において（Ｃａｒｒａｓｃｏら、２００６年；Ｍａｈｅｒら、２００６年）、アルゴリズムは、所定のステップ数（例えば１００）の後、腫瘍または癌細胞系の試料のサブグループの割り当てに変化がなかったところで停止された。模擬データならびに実際のＣＧＨデータを用いた試験に基づいて、この基準は、ｇＮＭＦアルゴリズムをあまりにも早く停止する（例えば、終結させる）と考えられる。したがって、ｇＮＭＦアルゴリズムは、選択されたステップ数（選択されたステップ数は決定的ではなく、例えば、５ステップ、１０ステップ、２５ステップ、５０ステップ、１００ステップ、２００ステップなど、１から１０００までの整数（ｎ）である。）の乗法的更新の後に、データセットからのアルゴリズムの発散が式（１１）を使用して計算されるように改変され得る：

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）。

上記の式を使用して、反復性のアルゴリズムは、上記で計算された発散が、前の、または事前に選択された、アルゴリズムの乗法的更新のステップ数（例えば１００）に対して計算された発散と比較して、約０．００１％超減少していない場合に停止する（本明細書では「停止基準」とも称される）。ｇＮＭＦアルゴリズムに対するこの改変によってクラスタリングの正確度が有意に改善されたことが分かっている。

ｇＮＭＦは確率論的な手順であるので、アルゴリズムは、異なる初期値から開始された場合、異なる転帰を生成し得る。クラスタリングアルゴリズムの性能をさらに改善するために、新規の複数開始戦略が開発された。各データセットについて、この戦略は上記の停止基準を使用し、ｇＮＭＦアルゴリズムをランダムに開始し、選択された実行回数繰り返す（アルゴリズムがランダムに開始され繰り返され得る、選択された実行回数は、例えば、１、５、１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、１００、１２５、１５０、１７５、２００、２２５、２５０、２７５、３００、３５０など、１から１０００までの整数（ｎ）である。）ことを含む。アルゴリズムがそのランダムに選択された実行回数を完了したら、これらの実行のそれぞれに対して、式（１２）を使用してＨのピアソン相関係数行列が計算される：

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはサブグループの数（本明細書においてあらかじめ決定された）である）。各実行に対してＨのピアソン相関係数行列が決定されたら、相関行列が平均される。最終的なクラスタリングの結果は、１引く（距離行列として平均相関行列）を用いた教師なしクラスタリング手法（例えば、階層クラスタリングアルゴリズムなど）を実行し、デンドログラムをｒ個のサブグループにカットすることによって導かれ得る。

例えば、ｇＮＭＦアルゴリズムがランダムに２００回実行された場合、２００回の実行後、２００回のランダムなｇＮＭＦの実行のそれぞれの出力からのＨのピアソン相関係数行列が、上記の式を使用して計算される。次いで、２００回の実行を通して相関行列が平均される。最終的なクラスタリングの結果は、１引く（距離行列として平均相関行列）を使用した階層クラスタリングアルゴリズムを実行し、デンドログラムをｒ個のサブグループにカットすることによって導かれ得る。

最終的なクラスタリングの結果が得られたら、次いで、コーフェン相関係数、ベイズ情報量規準（ＢＩＣ）またはコーフェン相関とＢＩＣの組合せが、これらの腫瘍および細胞系の試料の遺伝子パターンの分布を最も反映する最良のモデル（すなわち、最良のクラスター数およびクラスターの１つへの各試料の最良の割り当て）を選択するために用いられる。対数正規分布が、ＤＮＡコピー数の適合に広く使用されているので（Ｈｏｄｇｓｏｎら、２００１年）、この分析において使用され得る。尤度を計算するために、各クラスター内の試料は、各セグメントの平均コピー数が対数正規分布に従う場合、同じ多変量対数正規分布に由来すると仮定され得る。セグメント間の相関が弱い場合、独立性が計算におけるセグメント間に仮定され得る。この場合、得られる対数尤度、式（１３）は、

（式中、ｒはクラスターの数であり、ｎ_ｉはクラスターｉ内の試料の数であり、ｍはセグメントの数であり、ｙ_ｉｊはｉ番目のクラスター内のｊ番目の試料のｔ番目の対数変換されたコピー数であり、μ_ｉｔはｉ番目のクラスター内のｔ番目の対数変換されたコピー数の平均であり、σ_ｉｔはｉ番目のクラスター内のｔ番目の対数変換されたコピー数の標準偏差である。このとき、特定されたモデルにおけるパラメータの数ｋは２×ｒ×ｍになる。）である。

何度も、教師なしクラスタリングにおいて最良のモデルを選択するための基準としてコーフェン相関係数およびＢＩＣの両方を用いる場合、これらの２つのアルゴリズムは多くの場合同じモデルを選択する。

１０倍安定性検定の手順が、クラスタリングの結果の安定性を評価するために使用され得る。１０倍安定性検定は以下の通り行われ得る。データセットに対してｇＮＭＦを実行し、試料をクラスターに割り当てた後、少なくとも約１０％の腫瘍および癌細胞系の試料が除外され、２回目の上記の改変ｇＮＭＦアルゴリズムが、残りの９０％の腫瘍および癌細胞系の試料に対して実行される（少なくとも約１５％の腫瘍および癌細胞系の試料が除外される場合、２回目の上記のｇＮＭＦアルゴリズムが、残りの８５％の腫瘍および癌細胞系の試料に対して実行される、など。）。次いで、異なるクラスターに割り当てられた試料の数が、この並べ替えの結果として計算される。この検定は、当技術分野で公知の常用の技法を使用してエラー発生率を導くために、選択された回数繰り返される（この検定は、１回から１０００回まで繰り返され得る。例えば、この検定は、１回、２０回、２５回、５０回、１００回、２００回、５００回、７５０回、１０００回など、繰り返され得る。）。このエラー発生率は、腫瘍および癌細胞系の試料の並べ替えに関してクラスタリングの結果の安定性を表す。この１０倍安定性検定は、同じデータセット（腫瘍および癌細胞系の試料）を用いた教師なしクラスタリング手法（例えば階層クラスタリング）において使用され得る。

これらの方法を使用して、ＭＭ細胞を有する腫瘍およびＭＭ細胞系が、ゲノムサブグループに分類され得る。最初に、十分な数のＭＭ腫瘍およびＭＭ細胞系が、上記の方法体系を使用して別個のサブグループにクラスタリングされる。これらのサブグループのそれぞれから、サブグループのそれぞれからの少なくとも１つの細胞系が選択され、パネルに加えられ、したがって、各パネルはゲノムサブグループを含む。したがって、得られたパネルはＭＭのすべてのゲノムサブタイプを適切に表している。このパネルは、ＭＭに対する医薬組成物または薬物の試験の前臨床モデルとして使用され得、したがって、検討している腫瘍の種類のゲノム多様性の総括的な適用範囲をもたらし得る。

適用
診断パネルを構築すると、ＭＭの診断に対する感受性が増加する。これから対象はＭＭについて診断されるだけでなく、対象は、分類パネルにおける対象のＭＭ遺伝子型の分類に基づいてＭＭの「ゲノム型」についても診断され得る。このように、治療の成功を高め、対象の生活の質を改善する標的治療介入が施され得る。

本発明の診断方法において、少なくとも１つのＭＭ細胞を含有すると疑われる試料を得る。次いで、試料中の細胞は、元の診断パネルを確立するために使用されたものと同じプローブおよびパラメータ、またはコピー数の変化を検出することができる任意の他のプローブおよびパラメータのセットを使用したマイクロアレイに供され、マイクロアレイ分析からのデータセットは、どのサブグループと対象のＭＭの遺伝子型が似ているかを決定するために処理される。次いで、対象のＭＭの遺伝子型がそのサブグループに割り当てられる。

サブグループの情報から、治療介入および試行実験が設計される。例えば、ＭＭの遺伝子型に関連して治療の成功についてデータが入手可能になるので、対象は、対象のＭＭの遺伝子型およびサブグループの分類に基づいて、最も高いＭＭの治療確率を有する治療を施され得る。このように、最も侵襲性の治療（外科手術）が信頼でき、対象の寛解および治療中の高い生活の質の両方の可能性が高くなるので、試行錯誤の治療が大幅に減少する。対象の生活の質は、治療期間および治療介入の数が減少するため、改善される。

治療が確立されていない場合、治療介入は、細胞パネルのデータを使用して決定され得る。例えば、細胞系Ｓ、Ｋ、ＩおよびＮが単一のサブグループに入る場合、これらは潜在的な有効性に対する種々の治療オプションのインビトロにおける試験に供され得る。クラスター内の最多数の細胞系に対する有害作用を有するのに有効な治療介入は、それらの介入が対象を有効に治療する可能性が最も高いことを表している。

発生部位を越えて転移していないメラノーマを含めたＭＭに対する治療介入は、
一次病巣の顕微鏡的に判定された病期（ｍｉｃｒｏｓｔａｇｅ）に釣り合ったマージンを伴う外科的切除である；厚さが２ｍｍ以下である病巣のほとんどに対して、放射状再切除マージンは１ｃｍになる。

Ｂｒｅｓｌｏｗｔｈｉｃｋｎｅｓｓが２ｍｍ以上であるメラノーマの治療は、通常、Ｂｒｅｓｌｏｗｔｈｉｃｋｎｅｓｓおよび解剖学的位置に基づいたマージンを伴う外科的切除である。厚さが２ｍｍから４ｍｍまでを超えるメラノーマのほとんどに対して、放射状切除マージンは２ｃｍから３ｃｍまでになる。４ｍｍを超えるＢｒｅｓｌｏｗｔｈｉｃｋｎｅｓｓを有するメラノーマを持つ対象は、通常、高用量のインターフェロンを用いたアジュバント療法について考慮される。

局所リンパ節に転移している一部のメラノーマは、原発腫瘍の広範囲局所切除および関係している局所リンパ節の除去で治療され得る。アジュバント高用量インターフェロンにより生存期間が延長し得る。現在利用可能なアジュバント化学療法では通常生存期間が改善されない。

遠隔部位に転移しているメラノーマは、標準療法で治療することが難しいが、高用量インターロイキン−２（ＩＬ−２）は一部の対象において応答を生じ得る。他の治療としては、化学療法、生体応答修飾物質（特異的なモノクローナル抗体、インターフェロン、ＩＬ−２または腫瘍壊死因子アルファなど）、ワクチン免疫療法または生化学療法（化学免疫療法）の組合せが挙げられる。

代表的な細胞系および腫瘍試料は、ＭＭを治療するための治療介入の能力を評価するインビトロにおける試験に供され得る。例えば、細胞系は、単独および組み合わせた種々の化学療法剤に対するその感受性についてアッセイされ得る。複数の細胞系が１つ以上の介入に対して同様に応答する場合、そのときはそれらの介入が対象に施すために選択される。したがって、細胞パネルは、インビトロで、最終的に、ＭＭコピー数のプロファイルに基づいた治療に役立つ行列をもたらす実在の治療データによって増大し得る。

別の実施形態において、本発明の方法は、ＭＭ細胞を分類するためのプローブパネルを構築することに関する。ゲノムサブグループのデータベースは、各サブグループに対して、最も特徴的なコピー数の異常について分析され、プローブが、これらの領域を検出するために設計される。プローブは、元のマイクロアレイ分析手順において使用される、または個別の特性に対して設計および最適化されたプローブのサブセットであり得る。一実施形態において、そのようなプローブは、ＦＩＳＨプローブである。別の実施形態において、そのようなプローブパネルはキットで提供される。

他の実施形態において、キットは、ＭＭ細胞を分類するために提供され、例えば、ゲノムサブグループによってＭＭ細胞を分類するデータベースを構築するための説明書、および、各細胞系またはｇＤＮＡがゲノムサブグループを表している少なくとも第１、第２、第３、第４、第５および第６の細胞系またはそれらの単離ゲノムＤＮＡを含有する。例えば、第１の細胞系またはｇＤＮＡは、ＳＫＭＥＬ１１９、ＨＳ９４４、ＷＭ１３６６、ＷＭ８８であり得；第２の細胞系は、ＷＭ３２４８であり得；第３の細胞系は、１２０５ＬＵであり得；第４の細胞系は、４５１ＬＵ、ＳＫＭＥＬ１９、ＳＫＭＥＬ２８、ＳＫＭＥＬ３０、ＳＫＭＥＬ６３、ＷＭ３５、ＷＭ９８３またはＷＭ９８３Ｃであり得；第５の細胞系は、ＷＭ３２１１、Ｍ１４、ＭＥＷＯ、ＳＫＭＥＬ２、ＳＫＭＥＬ５、ＵＡＣＣ２５７、ＵＡＣＣ６２、ＷＭ１２２、ＷＭ１３６６２、ＷＭ２３９Ａ、ＷＭ３２１１２、ＷＭ３２４８２、ＷＭ７９３Ｂまたは５０１ＭＥＬであり得；および第６の細胞系は、ＭＥＬＭＥ３ＭまたはＷＭ８８２であり得る。

キットは、プローブパネルならびに正常であるまたはＭＭ細胞でない、対照の細胞系またはｇＤＮＡを含み得る。

（実施例）
以下の実施例は例示する目的のみのものであり、特許請求された発明を限定するものと解釈されるべきではない。所期の発明を同様に首尾よく実行することができる種々の代替の技法および手順が、当業者にとって利用可能である。

ＭＭを分類することに関する本発明の方法は、図１に要約されている。

細胞系および腫瘍組織試料のＣＧＨデータ
本発明者らは、３０のメラノーマ細胞系および１０９のメラノーマの短期培養物についてのＣＧＨデータを、種々の発表された供給源（Ｇｒｅｓｈｏｃｋら、２００７年；Ｌｉｎら、２００８年）から集め、メラノーマの分類モデルを確立した。この研究において使用された細胞系の供給源は表１に列挙されている。これらのデータは、ＡｆｆｙｍｅｔｒｉｘのＧＥＮＥＣＨＩＰ（登録商標）Ｍａｐｐｉｎｇ２５０ＫＳＴＹＳＮＰアレイを使用して、製造者の指示に従って取得された。

コピー数のデータは、ＡＦＦＹＭＥＴＲＩＸ（登録商標）ＳＮＰマイクロアレイ、ＡｇｉｌｅｎｔａＣＧＨマイクロアレイ（Ａｇｉｌｅｎｔ、Ｉｎｃ．、ＳａｎｔａＣｌａｒａ、ＣＡ）、ＩＬＬＵＭＩＮＡ（登録商標）マイクロアレイ（Ｉｌｌｕｍｉｎａ、Ｉｎｃ．、ＳａｎＤｉｅｇｏ、ＣＡ）およびＮＩＭＢＬＥＧＥＮ（登録商標）ａＣＧＨマイクロアレイ（Ｎｉｍｂｌｅｇｅｎ、Ｉｎｃ．、Ｍａｄｉｓｏｎ、ＷＩ）の他のバージョンなどの他のＳＮＰまたはＣＧＨマイクロアレイプラットフォームを使用しても得られ得る。

ステップ２：コピー数の決定およびコピー数の変化の検出
ＧｅｎｏｍｉｃＳｕｉｔｅソフトウェア（バージョン６．０８．０１０３）（Ｐａｒｔｅｋ；Ｓｔ．Ｌｏｕｉｓ、ＭＯ）が、各遺伝子座のコピー数を決定し、コピー数の変化領域を定義するためのデータを低レベル処理するために使用された。すべてのＳＮＰプローブに対するシグナルを含有するＣＥＬファイルが、ソフトウェアにローディングされ、コピー数が、腫瘍または細胞系の試料に対するシグナル強度を、基線２に対して補正された、正常な雌性組織試料９０個の参照セットに対するシグナル強度と比較することによって計算された。参照セットは、同じマイクロアレイプラットフォームによって測定された、他の正常試料のセットまたは腫瘍試料と同じ患者からの対合正常組織からなってもよい。

得られたプローブレベルのコピー数のデータは分割され、各試料におけるコピー数の変化領域が検出された。具体的には、プローブレベルのコピー数は、以下の制御パラメータを使用して領域に分割された：
（ｉ）領域は少なくとも１００個のプローブを含有しなければならない；
（ｉｉ）領域の平均コピー数と隣接するコピー数領域を比較したｐ値は０．００００１未満でなければならない；
（ｉｉｉ）トランジションのシグナル／ノイズ比は０．１超でなければならない。
コピー数の変化領域は、これらの領域の平均コピー数が１．６５未満である（欠失）または２．６５超である（増加）場合に、０．０１を下回るｐ値を伴って検出された。

コピー数の分割およびコピー数の変化の検出は、バイナリーサーキュラー（ＢｉｎａｒｙＣｉｒｃｕｌａｒ）分割（Ｏｌｓｈｅｎら、２００４年）、ＤＮＡの増加および減少の分析（ＧａｉｎａｎｄＬｏｓｓＡｎａｌｙｓｉｓｏｆＤＮＡ）（ＧＬＡＤ）（Ｈｕｐｅら、２００４年）、隠れマルコフモデルに基づいた手法（Ｆｒｉｄｌｙａｎｄら、２００４年）（Ｚｈａｏら、２００４年）、またはクラスタリング手法（Ｗａｎｇら、２００５年）などの他のアルゴリズムによっても活性化され得る。これらの方法は、ＧｅｎｅＰａｔｔｅｒｎ（Ｒｅｉｃｈら、２００６年）およびｄＣｈｉｐ（ＬｉおよびＨｕｎｇＷｏｎｇ、２００１年；ＬｉおよびＷｏｎｇ、２００１年）などのいくつかのソフトウェアパッケージにおいて実行されている。

ステップ３：データの品質管理
腫瘍試料は、腫瘍細胞に存在するコピー数の変化のシグナルを弱める、相当な割合の正常細胞を含有する可能性がある。腫瘍試料と正常試料のコピー数のパターン間の差異を捕捉するための機械学習アルゴリズムが展開され、次いでさらなる分析から、正常物が混入した試料を同定し、排除するために使用された。最初に、コピー数の変化領域の数が最も多い試料のサブセットおよび正常試料のセットが選択された。これら２つの試料群は、パラメータを、腫瘍と正常試料との間の差異を最もよく表すように合わせることによって正常試料と腫瘍試料を分類するために、機械学習アルゴリズム（ランダムフォレスト：ＲＦ（Ｂｒｅｉｍａｎ、２００１））を訓練するために使用された。次に、訓練された分類アルゴリズムは、残りの試料に適用され；分類子は、正常細胞が混入している試料の確率を表すスコアを各試料に割り当てた。正常細胞混入の確率スコアが５０％を超える試料は、クラスタリング解析から除外された。

ステップ４：データの平滑化および次元の縮小
ＳＮＰマイクロアレイによって得られたコピー数のデータ密度は高く、相当量のノイズがあった。したがって、コピー数のデータは、ノイズ、次元およびクラスタリング解析の複雑さを縮小するために平滑化された。各試料における有意に増加または欠失した領域の検出後、隣接する領域は、それらの領域が同様のコピー数変化を有し、それらの領域の距離が５００ｋｂ未満の場合、合併された。ＤＮＡセグメントが、データセット内のすべての試料からの区切り点の連結を使用することによって形成された。各セグメント内のプローブの平均コピー数が、さらなる分析に使用された。このステップにより、ハイスループット分析におけるＤＮＡの増加および欠失の明確な解像が可能になった。

ステップ５：予想されるサブグループの数を決定するための階層クラスタリングを用いたパイロットクラスタリング解析
各データセットについて、本発明者らは、ピアソンの非類似性（（１−ｒ）／２で定義され、ｒはピアソン相関である）を用いて腫瘍および細胞系のＣＧＨデータを階層クラスタリングした。階層クラスタリングパターンは、データセット内の予想されるサブグループの数の範囲を導くために、プロットされ、視覚的に検査された。次いで、これらの数は、ゲノム非負値行列因子分解を用いたクラスタリング解析において入力として使用された。

ステップ６：腫瘍および細胞系のＣＧＨデータのｇＮＭＦクラスタリング
ｇＮＭＦアルゴリズムが、ステップ５において決定された範囲のクラスター数を使用して腫瘍および細胞系のＣＧＨデータを分類するために使用された。各クラスター数について、ｇＮＭＦアルゴリズムが、我々が開発した停止基準を用いて２００回実行された。次いで、分類モデルが、１引く（Ｈの相関行列の平均）に対する階層クラスタリングによって導かれた。

ステップ７：ベイズ情報量規準（ＢＩＣ）を用いたモデル選択
上記のｇＮＭＦ手順は、最初の階層クラスタリング解析において選出された、いくつかの予想されるｒ値（サブグループの数）を用いて実行され、サブグループの数が異なるいくつかのモデルが構成された。次いで、ベイズ情報量規準（ＢＩＣ）が、腫瘍および細胞系の試料の遺伝子パターンの分布を最もよく反映した最良モデルを選択するために使用された（サブグループの数および各試料のサブグループの１つへの割り当て）。

ＢＩＣが、教師なしクラスタリングにおいてこれらの腫瘍および細胞系の試料の遺伝子パターン分布を最もよく反映しているモデルを選択するための基準として使用された。最良モデルが選出された後、メラノーマの腫瘍試料および細胞系のそれぞれが、選択されたモデルに基づいてゲノムサブグループの１つに割り当てられた。将来プロファイリングされる追加のメラノーマ腫瘍試料も、それらのゲノムパターンに基づいてサブグループの１つに割り当てられ得る。

ステップ８：クラスタリングの安定性の１０倍安定性検定
１０倍安定性検定の手順が、分類結果の安定性を評価するために展開された。データセットに対してｇＮＭＦを実行し、腫瘍および細胞系の試料をサブグループに割り当てた後、１０％の試料がランダムに除外され、同じ手順が残りの９０％の試料に対して適用された。この並べ替えによって異なるサブグループに割り当てられた試料の数が計算された。この除外検定は、試料の並べ替えに関してクラスタリングの結果の安定性を表すエラー発生率を導くために、２００回繰り返された。同じデータセットに対して同じ手順を用いた階層クラスタリングの安定性も評価され、常にｇＮＭＦクラスタリングよりもはるかに高いことが見出された。

結果
ステップ１−２。１３９のＭＭの腫瘍および細胞系の試料のＣＧＨデータが、実施例１および２に記載の通り処理された。全部で５６１６のコピー数が有意に変化したセグメントが検出された。

ステップ３。データの品質管理の手順が、ＭＭのＣＧＨデータに対して適用された。２９の腫瘍試料について、正常細胞が著しく混入していることが分かった。残りの混入していない８０の腫瘍試料および３０の細胞系がその後の分析に使用された。

ステップ４。ＣＧＨデータの次元は４６３７まで縮小された。

ステップ５。階層クラスタリングが、クラスターの数を見積もるためのＭＭデータセットに対する最初の解析として使用された。クラスタリングのデンドログラムは図２に示されている。デンドログラムの視覚的な検査により、データに２−７個の主要なクラスターが存在することが示唆された。

ステップ６。ｇＮＭＦアルゴリズムが、腫瘍および細胞系のＣＧＨデータを分類するために、２−７個の範囲のクラスター数を用いて使用された。ｇＮＭＦアルゴリズムは、各クラスター数について、我々が開発した停止基準を用いて２００回実行された。次いで、分類モデルが、１引く（Ｈの相関行列の平均）に対する階層クラスタリングによって導かれた。

ステップ７。ｇＮＭＦモデルに対するＢＩＣが、ステップ６において適合された。結果は表２に列挙されており、ｒは各モデルにおけるクラスターの数を示す。表２から、本発明者らは、６つのクラスターを持つモデルが最小のＢＩＣを有することを見出した。したがって、４個のクラスターが、このデータセットに対して最良の選出であった。６個のクラスターを持つｇＮＭＦの出力のヒートマップは図３に示されている。

８０のＭＭの腫瘍試料が、それらのコピー数の変化のパターンに基づいて６つのサブグループに分類され、細胞系が適切なサブグループに割り当てられた。各クラスターについての腫瘍試料の数および細胞系の素性は表３に列挙されている。

表３．ＭＭの各サブグループ内のＭＭの腫瘍の数および細胞系の素性

ステップ８。１０倍安定性検定が、４つのクラスターを持つｇＮＭＦモデルに対して適用された。クラスタリングの安定性の１０倍検定。エラー発生率は２６．４２％であった。比較として、ステップ５において平滑化されたコピー数のデータを用いて導かれた階層クラスタリングのデンドログラムが２−７個のクラスターにカットされ、同じ１０倍検定を使用してクラスターの安定性が検定された。エラー発生率は１７．９４％−３２．１４％であった。

クラスタリングの手順によって定義された６つのサブグループは、異なる起源および腫瘍発生の機構を意味する別個のパターンのゲノム異常を有し、それらが、各サブグループに特有な別個の臨床的挙動および治療介入への感受性を表すことを示唆している。

Claims

悪性メラノーマゲノムサブグループのデータベースを得るための方法であって、
（ａ）少なくとも１つのＭＭ細胞を含む、複数のｍ個の試料を得るステップ、
（ｂ）ステップ（ａ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含むデータセットを取得するステップ、
（ｃ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータをデータセットから削除すること、
を含む、データセットにおいて正常細胞が混入した試料を同定し、混入試料をデータセットから削除するステップ、
（ｄ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もるステップ、
（ｅ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、次式を用いてアルゴリズムの発散を計算するステップ、

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）
（２）ステップ（ｅ）（１）において計算された発散が、アルゴリズムの乗法的更新の前の１００ステップに対して計算された発散と比較して約０．００１％超減少していない場合にアルゴリズムを停止するステップ、
（３）アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してＨのピアソン相関係数行列を計算するステップ、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｄ）からのサブグループの数である。）
（４）ステップ（ｅ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均するステップ、および
（５）データセット内の腫瘍および細胞系を、１引く（ステップ（ｅ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによってｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットするステップ
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てるステップ、
（ｆ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または癌細胞系試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定するステップ、および
（ｇ）場合によって、ステップ（ｆ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価するステップ
を含む、前記悪性メラノーマゲノムサブグループのデータベースを得るための方法。
ＭＭ腫瘍またはＭＭ細胞系を分類する方法であって、
（ａ）
（ｉ）少なくとも１つのＭＭ腫瘍またはＭＭ細胞系を含む複数のｍ個の試料を得ること、
（ｉｉ）ステップ（ｉ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第１のデータセットを取得すること、
（ｉｉｉ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータを第１のデータセットから削除すること
を含む、第１のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第１のデータセットから削除すること、
（ｉｖ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
（ｖ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、次式を用いてアルゴリズムの発散を計算すること、

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）
（２）ステップ（ｖ）（１）において計算された発散が、アルゴリズムの乗法的更新の前の１００ステップに対して計算された発散と比較して約０．００１％超減少していない場合にアルゴリズムを停止すること、
（３）アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してＨのピアソン相関係数行列を計算すること、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｉｖ）からのサブグループの数である。）
（４）ステップ（ｖ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
（５）データセット内の腫瘍および細胞系を、１引く（ステップ（ｖ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによってｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てること、
（ｖｉ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または癌細胞系試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、および
（ｖｉｉ）場合によって、ステップ（ｖｉ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価すること
を含む方法によって開発されたデータベースを準備すること、
（ｂ）ＭＭ細胞を含有すると疑われる試料を準備すること、
（ｃ）ステップ（ｉｉ）からのものと同じ、少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第２のデータセットＶｓａｍｐｌｅを取得すること、
（ｄ）Ｖｓａｍｐｌｅからの試料を、Ｖｓａｍｐｌｅをステップ（ｉ）−（ｖｉｉ）において決定されたクラスターと比較することによって分類すること
を含む、前記ＭＭ腫瘍またはＭＭ細胞系を分類する方法。
教師なしクラスタリングアルゴリズムが階層クラスタリングである、請求項１または２に記載の方法。
データセットから最終的なクラスターの数を規定するためにコーフェン相関が使用される、請求項１または２に記載の方法。
データセットから最終的なクラスターの数を規定するためにベイズ情報量規準が使用される、請求項１または２に記載の方法。
データセットから最終的なクラスターの数を規定するためにコーフェン相関およびベイズ情報量規準が使用される、請求項１または２に記載の方法。
複数の試料（ｍ個）が、第１、第２、第３、第４、第５、第６の細胞系であって、
ここで、
第１の細胞系は、ＳＫＭＥＬ１１９、ＨＳ９４４、ＷＭ１３６６およびＷＭ８８からなる群から選択され、
第２の細胞系は、ＷＭ３２４８であり、
第３の細胞系は、１２０５ＬＵであり、
第４の細胞系は、４５１ＬＵ、ＳＫＭＥＬ１９、ＳＫＭＥＬ２８、ＳＫＭＥＬ３０、ＳＫＭＥＬ６３、ＷＭ３５、ＷＭ９８３およびＷＭ９８３Ｃからなる群から選択され、
第５の細胞系は、ＷＭ３２１１、Ｍ１４、ＭＥＷＯ、ＳＫＭＥＬ２、ＳＫＭＥＬ５、ＵＡＣＣ２５７、ＵＡＣＣ６２、ＷＭ１２２、ＷＭ１３６６２、ＷＭ２３９Ａ、ＷＭ３２１１２、ＷＭ３２４８２、ＷＭ７９３Ｂおよび５０１ＭＥＬからなる群から選択され、および
第６の細胞系は、ＭＡＬＭＥ３ＭまたはＷＭ８８２である前記細胞系
を含む、請求項１または２に記載の方法。
複数の試料（ｍ個）が、ＳＫＭＥＬ１１９、ＨＳ９４４、ＷＭ１３６６、ＷＭ８８；ＷＭ３２４８；１２０５ＬＵ；４５１ＬＵ、ＳＫＭＥＬ１９、ＳＫＭＥＬ２８、ＳＫＭＥＬ３０、ＳＫＭＥＬ６３；ＷＭ３５、ＷＭ９８３、ＷＭ９８３Ｃ、ＷＭ３２１１、Ｍ１４、ＭＥＷＯ、ＳＫＭＥＬ２、ＳＫＭＥＬ５、ＵＡＣＣ２５７、ＵＡＣＣ６２、ＷＭ１２２、ＷＭ１３６６２、ＷＭ２３９Ａ、ＷＭ３２１１２、ＷＭ３２４８２、ＷＭ７９３Ｂ、５０１ＭＥＬ、ＭＡＬＭＥ３ＭおよびＷＭ８８２からなる、請求項１または２に記載の方法。
（ａ）
（ｉ）ＭＭ細胞を含む複数のｍ個の試料を得ること、
（ｉｉ）ステップ（ｉ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第１のデータセットを取得すること、
（ｉｉｉ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータを第１のデータセットから削除すること
を含む、第１のデータセットにおいて、正常細胞が混入した試料を同定し、混入試料を第１のデータセットから削除すること、
（ｉｖ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
（ｖ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、次式を用いてアルゴリズムの発散を計算すること、

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）
（２）ステップ（ｖ）（１）において計算された発散が、アルゴリズムの乗法的更新の前の１００ステップに対して計算された発散と比較して約０．００１％超減少していない場合にアルゴリズムを停止すること、
（３）アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してＨのピアソン相関係数行列を計算すること、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｉｖ）からのサブグループの数である。）
（４）ステップ（ｖ）の（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
（５）データセット内の試料を、１引く（ステップ（ｖ）の（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによってｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てること、
（ｖｉ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが各試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、
（ｖｉｉ）場合によって、ステップ（ｖｉ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価すること、および
（ｖｉｉｉ）ステップ（ｖｉ）において選択された各クラスターから少なくとも１つのＭＭ細胞を選択し、ゲノムサブグループによって定義されたパネルに構築すること
を含む方法で構築された、ゲノムサブグループによって分類されたＭＭ細胞のパネルから、各サブグループからの少なくとも１つのＭＭ細胞系を選択すること、
（ｂ）各サブグループからの少なくとも１つのＭＭ細胞を治療介入と接触させること、
（ｃ）各サブグループからの少なくとも１つのＭＭ細胞を抑えるまたは死滅させるための治療介入の有効性をアッセイすること、
（ｄ）治療介入を、各サブグループからの少なくとも１つのＭＭ細胞を抑えるまたは死滅させるための治療介入の決定された有効性によって分類し、１つのサブグループからの少なくとも１つのＭＭ細胞を抑えるまたは死滅させるが、別のサブグループからのＭＭ細胞を抑えない、または死滅させないことにより、このサブグループのＭＭ細胞を抑えるまたは死滅させるための治療介入の特異性が示されること、
を含む、悪性メラノーマ（ＭＭ）細胞を抑えるまたは死滅させるための治療介入を分類する方法。
教師なしクラスタリングアルゴリズムが階層クラスタリングである、請求項９に記載の方法。
データセットから最終的なクラスターの数を規定するためにコーフェン相関が使用される、請求項９に記載の方法。
データセットから最終的なクラスターの数を規定するためにベイズ情報量規準が使用される、請求項９に記載の方法。
データセットから最終的なクラスターの数を規定するためにコーフェン相関およびベイズ情報量規準が使用される、請求項９に記載の方法。
ＭＭ細胞が細胞系からのものである、請求項９に記載の方法。
複数の試料（ｍ個）が、第１、第２、第３、第４、第５、第６の細胞系であって、
ここで、
第１の細胞系は、ＳＫＭＥＬ１１９、ＨＳ９４４、ＷＭ１３６６およびＷＭ８８からなる群から選択され、
第２の細胞系は、ＷＭ３２４８であり、
第３の細胞系は、１２０５ＬＵであり、
第４の細胞系は、４５１ＬＵ、ＳＫＭＥＬ１９、ＳＫＭＥＬ２８、ＳＫＭＥＬ３０、ＳＫＭＥＬ６３、ＷＭ３５、ＷＭ９８３およびＷＭ９８３Ｃからなる群から選択され、
第５の細胞系は、ＷＭ３２１１、Ｍ１４、ＭＥＷＯ、ＳＫＭＥＬ２、ＳＫＭＥＬ５、ＵＡＣＣ２５７、ＵＡＣＣ６２、ＷＭ１２２、ＷＭ１３６６２、ＷＭ２３９Ａ、ＷＭ３２１１２、ＷＭ３２４８２、ＷＭ７９３Ｂおよび５０１ＭＥＬからなる群から選択され、および
第６の細胞系は、ＭＡＬＭＥ３ＭまたはＷＭ８８２である前記細胞系
を含む、請求項９に記載の方法。
複数の試料（ｍ個）が、ＳＫＭＥＬ１１９、ＨＳ９４４、ＷＭ１３６６、ＷＭ８８；ＷＭ３２４８；１２０５ＬＵ；４５１ＬＵ、ＳＫＭＥＬ１９、ＳＫＭＥＬ２８、ＳＫＭＥＬ３０、ＳＫＭＥＬ６３；ＷＭ３５、ＷＭ９８３、ＷＭ９８３Ｃ、ＷＭ３２１１、Ｍ１４、ＭＥＷＯ、ＳＫＭＥＬ２、ＳＫＭＥＬ５、ＵＡＣＣ２５７、ＵＡＣＣ６２、ＷＭ１２２、ＷＭ１３６６２、ＷＭ２３９Ａ、ＷＭ３２１１２、ＷＭ３２４８２、ＷＭ７９３Ｂおよび５０１ＭＥＬ、ＭＡＬＭＥ３ＭおよびＷＭ８８２からなる、請求項９に記載の方法。
治療介入が、化学療法、生体応答修飾物質、ワクチン免疫療法または生化学療法を含む、請求項９に記載の方法。
治療介入が生体応答修飾物質によるものであり、生体応答修飾物質が、インターフェロン、インターロイキン−２、モノクローナル抗体および腫瘍壊死因子アルファからなる群から選択される活性薬剤を含む少なくとも１つの医薬組成物を投与することを含む、請求項１７に記載の方法。
生体応答修飾物質が２種以上の活性薬剤を投与することを含む、請求項１８に記載の方法。
（ａ）
（ｉ）少なくとも１つのＭＭ細胞を含む複数のｍ個の試料を得ること、
（ｉｉ）ステップ（ｉ）において得られた各試料から、各染色体からの少なくとも１つの遺伝子座からのコピー数の変化の情報を含む第１のデータセットを取得すること、
（ｉｉｉ）
（１）腫瘍試料と正常試料の間の差異を表すパラメータに合わせた機械学習アルゴリズムをデータに適用すること、
（２）機械学習アルゴリズムによって決定される、正常細胞の混入に対する確率スコアを各試料に割り当てること、および
（３）正常細胞を含有する確率が５０％以上であるとスコア化する各試料についてのデータを第１のデータセットから削除すること
を含む、第１のデータセットにおいて正常細胞が混入した試料を同定し、混入試料を第１のデータセットから削除すること、
（ｉｖ）データセット内のサブグループの数ｒを、ピアソンの線形非類似性アルゴリズムを用いた教師なしクラスタリングをデータセットに適用することによって見積もること、
（ｖ）データセット内の各試料を、
（１）乗法的更新を１００ステップ行うごとに、次式を用いてアルゴリズムの発散を計算するステップ、

（式中、Ｖ_ｉｊは行列Ｖのｉ行ｊ列目であり、（ＷＨ）_ｉｊは行列（Ｗ＊Ｈ）のｉ行ｊ列目であり、ｉは１からｎまでにわたり、ｎはデータセット内のセグメントの数であり、ｊは１からｍまでにわたり、ｍはデータセット内の試料の数である。）
（２）ステップ（ｖ）（１）において計算された発散が、アルゴリズムの乗法的更新の前の１００ステップに対して計算された発散と比較して約０．００１％超減少していない場合にアルゴリズムを停止すること、
（３）アルゴリズムを、選択された実行回数ランダムに繰り返し、次式を用いてアルゴリズムの各実行に対してＨのピアソン相関係数行列を計算すること、

（式中、Ｃは相関行列であり、Ｃ_ｉ，ｊは行列Ｃのｉ行ｊ列目であり、Ｈ_，ｉおよびＨ_，ｊは行列Ｈにおけるｉ列目およびｊ列目のベクトルであり、ρ（Ｈ_，ｉ，Ｈ_，ｊ）はＨ_，ｉとＨ_，ｊ間のピアソン相関係数であり、ｉおよびｊは１からｍまでにわたり、ｍはデータセット内の試料の数であり、ｋは１からｒまでにわたり、ｒはステップ（ｉｖ）からのサブグループの数である。）
（４）ステップ（ｖ）（３）から得られたアルゴリズムの各実行について、ピアソン相関係数行列を平均相関行列に達するまで平均すること、および
（５）データセット内の腫瘍および細胞系を、１引く（ステップ（ｖ）（４）において決定された平均相関行列）を用いた教師なしクラスタリングアルゴリズムを適用することによって、ｒ個のサブグループに割り当て、デンドログラムをｒ個のクラスターにカットすること
を含む改変ゲノム非負値行列因子分解（ｇＮＭＦ）アルゴリズムを用いて少なくとも１つのクラスターに割り当てること、
（ｖｉ）コーフェン相関関数、ベイズ情報量規準またはこれらの組合せを適用して、データセットから、それぞれが腫瘍または細胞系試料のそれぞれについてゲノムサブグループを定義する最終的なクラスターの数を規定すること、
（ｖｉｉ）場合によって、ステップ（ｖｉ）において選択された最終的なクラスターの数の安定性を、１０倍の安定性検定を用いて評価すること、および
（ｖｉｉｉ）ステップ（ｖｉ）において選択された各クラスターから少なくとも１つの試料を選択し、ゲノムサブグループによって定義されたパネルに構築すること
を含む、データベースを構築すること、
（ｂ）ステップ（ａ）のデータベースを分析して各サブグループに対して特徴的なコピー数の異常を決定すること、および
（ｃ）各サブグループについての決定された特徴的なコピー数の異常に基づいて、複数のプローブを設計し、各プローブをゲノムサブグループに割り当てること
を含む、試料からのＭＭ細胞を分類するためのプローブパネルを構築する方法。