JP2023531572A

JP2023531572A - 前立腺癌の分子分類器

Info

Publication number: JP2023531572A
Application number: JP2022523714A
Authority: JP
Inventors: ジョンバートレット; デイヴィッドバーマン; ポールボウトロス; ジャックラポワント; アクセルトムソン; ヴァスンダラヴェンカテスワラン; ラルフブットヤン; シモーヌシェヴァリエ; ナディアボウファイド; ジョンオケッロ; パラックスパテル; 厚成河嶋; リーアンナイン－ワー; ロバートルサーフ; ジェーンバヤニ; リンニューエン; ポールパーク; ワリードエブラヒミザデ
Original assignee: オンタリオ・インスティテュート・フォー・キャンサー・リサーチ（オーアイシーアール）
Priority date: 2020-06-18
Filing date: 2021-06-18
Publication date: 2023-07-25
Also published as: CA3208969A1; EP4010490A4; CN114555823A; WO2021253134A1; BR112022025425A2; US20230105654A1; AU2021291728A1; CA3148876A1; EP4010490A1

Abstract

本明細書には、前立腺癌を有する対象における疾患進行リスクを予測する方法が記載されており、この方法は、ａ）腫瘍細胞由来のＲＮＡおよびＤＮＡ材料を含有するサンプルを提供するステップと、ｂ）表６にＰＲＯＮＴＯ－ｅまたはＰＲＯＮＴＯ－ｍについて列挙される患者特徴の実質的に全ておよび表６に記載される参照または対照特徴の一部または全部の値を決定または測定するステップと、ｃ）前記患者特徴を参照または対照特徴と比較するステップと、ｄ）前記患者特徴値を入力データとして採用する分類器を使用して予測スコアを計算するステップとを含み、分類器は、早期前立腺癌患者の集団からのサンプルについて以前に訓練されている。【選択図】図４

Description

〔関連出願〕
本出願は、２０２０年６月１８日に出願された米国仮出願第６３／０４０，６９２号の優先権を主張し、その内容は参照によりその全体が組み込まれるものとする。

本発明は、分子分類器（ｍｏｌｅｃｕｌａｒｃｌａｓｓｉｆｉｅｒｓ）に関し、より詳細には、前立腺癌の分類器に関する。

前立腺癌（ＣａＰ）は癌死の主要な原因であるが、生検で確認された症例の大半は根治的治療を行わずに安全に経過観察することができるほど無痛性である［１，２］。進行性前立腺癌の最も強力なバイオマーカは、外科的に切除された前立腺の包括的な病理学的検査により決定されるグリソングレードである。グリソングレードが低い癌は、グリソングレード３＋３＝６またはＷＨＯグレードグループ（ＧＧ）１［３］と定義され、転移や死亡のリスクは無視できるほど小さい［４，５］。悪性度の高い癌（ＷＨＯＧＧ２～ＧＧ５）には根治的治療が必要である。悪性度分類スキームが核形態および有糸分裂数を優先するほとんどの癌種とは異なり、前立腺癌に対するＧＧは腺の構造のみに焦点を当てている。良性前立腺およびＧＧ１前立腺癌細胞によって形成される腺はいずれも、単一の管腔を取り囲む１層の管腔上皮細胞を特徴とする。全ての癌細胞は、類似した環境を占め、頂端面では内腔と直接接触し、その基底部では間質となり、残りの４辺で他の癌細胞と接触する。この配置は、周囲の血管からの酸素および栄養を同様に取り入れるのに適している。対照的に、高悪性度癌（ＧＧ２～ＧＧ５）は、複数の管腔を有する融合腺様構造を形成するか、または管腔を全く形成しない。これは、細胞－細胞相互作用、分化、および代謝に関してはるかに大きな可塑性を反映している。これらの異なる配置で増殖する能力は、前立腺の外への転移性沈着物として増殖する能力に対応する。このように、癌の代謝、上皮の可塑性、上皮－間質相互作用は前立腺癌の進行における重要なテーマである［６－９］。ＧＧに関連する腺構造の分子的裏付けは、進行性前立腺癌の診断バイオマーカ開発のための方向性を提供するものである。

米国、カナダ、ヨーロッパではアクティブサーベイランス（ＡＳ）がＧＧ１癌の標準治療となっている［１０～１３］。前立腺特異抗原（ＰＳＡ）値と一連のコア生検で患者をモニタリングし、補助的に画像診断を受けることもある［１０］。前立腺摘除術に基づくＧＧは非常に有益であるが、現在の方法では針生検に基づいてＧＧ１とＧＧ２を正確に分離することができず、大きなジレンマが提示されている。コア生検におけるサンプリングエラーおよび観察者間のばらつきのため、生検の悪性度分類が不正確に外科的ＧＧを反映している症例は３６～６７％である［１４～１７］。これらの不正確さの結果、男性たちが誤ったリスクカテゴリーに分類されることになる。ＡＳに適格な患者は積極的な外科的介入（根治的前立腺全摘除術）を受け、進行性の高悪性度癌を有する真のリスクに関する不確実性のために、過度の病的状態に陥ることがある。逆に、治癒不能な転移病変の広がりを防ぐために必要な治療を間に合わせることができない患者もいる。

生検時のＧＧの不正確な報告は、ＣａＰのコア生検サンプリングに基づくリスク層別化を改善するための分子的アプローチの動機付けとなっている［１８］。しかし、生検ＧＧの既存の分子分類法では、ＧＧ１とＧＧ２を正確に区別することができない［１９，２０］。

一態様では、前立腺癌を有する対象における疾患進行リスクを予測する方法であって、ａ）腫瘍細胞由来のＲＮＡおよびＤＮＡ材料を含有するサンプル（試料）を提供するステップと、ｂ）表６のＰＲＯＮＴＯ－ｅについて列挙されるｍＲＮＡおよびコピー数異常（ＣＮＡ）特徴を含む３５３個の患者特徴の実質的に全て、並びに表６に記載される参照または対照特徴（ｒｅｆｅｒｅｎｃｅｏｒｃｏｎｔｒｏｌｆｅａｔｕｒｅｓ）の一部または全部の値を決定または測定するステップと、ｃ）前記患者特徴を参照または対照特徴と比較するステップと、ｄ）前記患者特徴値を入力データ（ｉｎｐｕｔ）として採用する分類器を使用して予測スコアを計算するステップであって、分類器が早期前立腺癌患者の集団からのサンプルについて事前に訓練（ｔｒａｉｎｅｄ）されているステップとを含む方法が提供される。

一態様では、前立腺癌を有する対象における疾患進行リスクを予測する方法であって、ａ）腫瘍細胞由来のＲＮＡおよびＤＮＡ材料を含有するサンプルを提供するステップと、ｂ）表６のＰＲＯＮＴＯ－ｍについて列挙されるｍＲＮＡ、ＣＮＡ、メチル化および臨床的特徴、並びに表６に示されたいくつかの又は全ての参照又は対照特徴を含む９４の患者特徴の実質的に全てを決定または測定するステップと、ｃ）前記患者特徴を参照または対照特徴と比較するステップ、およびｄ）前記患者特徴値を入力データとして採用する分類器を使用して予測スコアを計算するステップであって、分類器が早期前立腺癌患者の集団由来のサンプルについて事前に訓練されているステップとを含む方法が提供される。

一態様では、前立腺癌患者における疾患進行リスクを予測するコンピュータ実装方法が提供され、この方法は、ａ）少なくとも１つのプロセッサにおいて、前立腺癌腫瘍に関するＰＲＯＮＴＯ－ｅまたはＰＲＯＮＴＯ－ｍ分類器に対応する請求項１または７に定義される患者特徴の実質的に全てを反映するデータと、表６に記載される参照または対照特徴の一部または全部を受信するステップと、ｂ）少なくとも１つのプロセッサにおいて、患者特徴に基づいて患者プロファイルを構築するステップと、ｃ）少なくとも１つのプロセッサにおいて、前記患者プロファイルを参照または対照と比較するステップと、ｄ）少なくとも１つのプロセッサにおいて、前記患者プロファイルを入力データとして採用する分類器を使用して予測スコアを計算するステップであって、分類器は、早期前立腺癌患者の集団からのサンプルについて事前に訓練されているステップを含む。

一態様において、プロセッサおよび、プロセッサに接続されたメモリとを有する汎用コンピュータと共に使用するためのコンピュータプログラム製品が提供され、コンピュータプログラム製品は、エンコードされたコンピュータメカニズムを有するコンピュータ読み取り可能な記憶媒体を備え、コンピュータプログラムメカニズムは、コンピュータのメモリにロードされてもよく、コンピュータに請求項１３～１５のいずれか１項に記載の方法を実行させることができる。

一態様では、請求項１６に記載のコンピュータプログラム製品を記憶するためのデータ構造を記憶したコンピュータ読み取り可能な記憶媒体が提供される。

一態様では、前立腺癌患者における疾患進行リスクを予測するためのデバイスが提供され、デバイスは、少なくとも１つのプロセッサおよび、少なくとも１つのプロセッサと通信する電子メモリを備え、電子メモリがプロセッサ実行可能コードを記憶し、少なくとも１つのプロセッサを実行する際に、少なくとも１つのプロセッサに以下を行わせる。ａ）前立腺癌腫瘍に関するＰＲＯＮＴＯ－ｅまたはＰＲＯＮＴＯ－ｍ分類器に対応する、請求項１または７に定義される患者特徴の実質的に全て、および表６に記載される参照または対照特徴の一部または全部を反映するデータを受信し、ｂ）前記患者特徴を参照または対照特徴と比較させ、ｃ）前記患者プロファイルを入力データとして採用する分類器を使用して、少なくとも１つのプロセッサで予測スコアを計算し、分類器は、早期前立腺癌患者の集団からのサンプルについて事前に訓練されていることを特徴とする。

本発明の好ましい実施形態のこれらおよび他の特徴は、添付の図面を参照する以下の詳細な説明でより明らかになるであろう。

アプローチの概要図である。反復クロスバリデーションからのトップ２５分類器の性能を示す図である。マルチモーダル分類器ＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍの性能を示す図である。マルチモーダル分類器ＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍの性能を示す図である。マルチモーダル分類器ＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍの性能を示す図である。ＧＧと有意な単変量関連を有する分子的特徴（ｑ値＜０．１）を示す図である。方法を移植するためのコンピュータ装置の図である。ＧＧ分類器設計の概要図である。異なる操作点（ｏｐｅｒａｔｉｎｇｐｏｉｎｔｓ）におけるＰＲＯＮＴＯ－ｅとＰＲＯＮＴＯ－ｍの結果を示す図である。同じ症例から採取した低悪性度サンプルと高悪性度サンプルの分子プロファイル間の類似度を示す図である。ＰＲＯＮＴＯ－ｅの臨床的影響のポテンシャルを示す図である。

図１．アプローチの概要
（Ａ）症例をトレーニング（訓練）コホートとバリデーション（検証）コホートに分けた。各切除腫瘍から高悪性度および低悪性度両方のサンプルを抽出した（すなわち、各症例について）。（Ｂ）ＧＧに関連する４３１遺伝子／遺伝子座をプロファイリングした。（Ｃ）機械学習パイプラインを用いてＧＧ分類器を開発した。第１に、１又は１以上のデータ型を選択した。第２に、関連データを、５区分のクロスバリデーション（ｆｉｖｅ－ｆｏｌｄｃｒｏｓｓ－ｖａｌｉｄａｔｉｏｎ）のために分割した。第３に（任意）、ＧＧと有意な単変量相関のない特徴を廃棄した。第４に、機械学習アルゴリズムを選択した後、分類器を４つのパーティションで訓練し、第５のパーティションでテストした。

図２．反復クロスバリデーションからのトップ２５分類器の性能。
各列は分類器を表す。上のパネルは、分類器によって使用されるデータセット、それを訓練するために使用される機械学習アルゴリズム、サンプル重み付け（すなわち、エンベロープ）スキーム、および使用される訓練サンプルの種類を示す（方法を参照のこと）。ＡＵＣパネルにおいて、各ボックスは、クロスバリデーションの１０００回の反復からの平均ＡＵＣを要約する。

平均統計量は、ｘ_ｍｅａｎ＝（ｘ_ｌｏｗ＋ｘ_ｈｉｇｈ）／２として計算された。ここで、ｘ_ｌｏｗとｘ_ｈｉｇｈは、それぞれローグレードまたはハイグレードのサンプルのみから計算された統計量である。分類器は、ＡＵＣが減少する順に並べた。略語：ＡＵＣ－曲線下面積、ＢＣＲ－生化学的再発、ＣＡＰＲＡ－前立腺癌リスク評価（ＣａｎｃｅｒｏｆｔｈｅＰｒｏｓｔａｓｔｅＲｉｓｋＡｓｓｅｓｓｍｅｎｔ）、ＣＮ＿ＭＬＰＡ－コピー数、ＭＬＰＡプラットフォーム、ＣＮ＿ＮＳ－コピー数、ＮａｎｏＳｔｒｉｎｇプラットフォーム；ＧＧ－グリーソングレード、ＭＳＰ－メチル化特異的ＰＣＲ。

図３．マルチモーダル分類器ＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍの性能。
（Ａ－Ｃ）マルチモーダル分類器、すなわち、異なるタイプのデータを使用する分類器は、クロスバリデーション（交差検証）においてシングルモード分類器より性能が優れている。各分類器のＴＰ率（Ａ）、ＦＰ率（Ｂ）およびＡＵＣ（Ｃ）を、１０００回繰り返したクロスバリデーションから計算した（ボックスは繰り返しを要約する）。各繰り返しにおいて、各統計量は、各症例の高悪性度サンプルのみまたは低悪性度サンプルのみを使用して計算された。高悪性度統計量と低悪性度統計量の平均は、「平均」セクションに示されている。所与の分類器によって使用される入力データの種類は、（Ｃ）のキーに示され、ＣＡＰＲＡは臨床データのみを使用する。マルチモーダル分類器は、クロスバリデーションによるトップパフォーマンス分類器である。（Ｄ）マルチモーダル分類器の検証性能。バリデーションコホートにおける各症例について、１つのサンプルを無作為に選択し、統計量を代表的なサンプルを用いて計算した。このプロセスを１０００回繰り返し、各点は、繰り返しにわたる中央値（すなわち、サンプリングベースのＡＵＣ）を示し、下側および上側のエラーバーは、それぞれ、第１および第３の四分位を示す。（Ａ－Ｃ）ＣＮＡは、ＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍがＭＬＰＡからのＣＮＡデータのみを使用するので、ＭＬＰＡからのＣＮＡデータを指す。（Ｅ）同じバリデーション症例からの低悪性度および高悪性度サンプルの予測クラス間の一致度。（Ｆ）一致した場合のうち、正しく予測できた割合。

各パーセンテージを計算するために使用されたバリデーション症例の総数を棒グラフの上に示す。ＰＲＯＮＴＯ－ｅとＰＲＯＮＴＯ－ｍでは、分類器のデータ要件がサンプルごとに異なるため、数値が異なることに注意する。

図４．ＧＧと有意な単変量関連を有する分子的特徴（ｑ値＜０．１）
各有意な分子的特徴について、左側のプロットは、

この差は、各コホートについて、１症例につき１つの代表サンプルを無作為に１０００回抽出し、点が中央値を、交線の両端が第１四分位と第３四分位を示したものである。
右側のプロットは、トレーニングコホートｑ値とバリデーションコホートｑ値との組み合わせから得られるｑ値（すなわち、調整されたｐ）を示し、特徴とＧＧとの間の単変量関連の有意性を表す（方法を参照のこと）。ｍＲＮＡ特徴分析ではトレーニング３３２例、バリデーション２００例、メチル化特徴分析ではトレーニング３１８例、バリデーション２０２例を用いた。標的遺伝子については、上皮または間質コンパートメントにおける優先的な発現が示されている［５４］。

図５．方法を移植するためのコンピュータ装置
本明細書に記載する１または１以上の実施形態を可能にするためのプラットフォームを提供するための、適切に構成されたコンピュータ装置、および関連する通信網、装置、ソフトウェアおよびファームウェア。

図６．ＧＧ分類器設計の概要
ＧＧ分類器は、患者プロファイルを入力として取得し、プロファイルは、潜在的に、異なるデータタイプの特徴（臨床的特徴を含む、図示せず）を含む。

いくつかの可能な機械学習アルゴリズム（方法を参照）のうちの１つでトレーニングされる。すなわち、最終的な分類器出力はイエスまたはノーである。

図７．異なる操作点（ｏｐｅｒａｔｉｎｇｐｏｉｎｔｓ）におけるＰＲＯＮＴＯ－ｅとＰＲＯＮＴＯ－ｍ
（Ａ）各症例の低悪性度のみまたは高悪性度のみのサンプルについてのＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍ分類器のバリデーションＲＯＣ曲線。予測スコアは、分類器の数値出力であり、操作点をｘとすると、スコア＞＝ｘは、病理学的ＧＧ＞＝２を予測し、一方、スコア＜ｘは、病理学的ＧＧ１を予測する。曲線は、異なる操作点における真陽性率および偽陽性率を示す。
（Ｂ）ＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍ分類器の予測スコア分布。ボックスは、トレーニングコホートの全サンプルに適用された分類器からのスコア分布を示し、それらのソースケースのＧＧで分ける。予想されるように、どちらの分類器でも、ＧＧの高い症例からのサンプルほどスコアが高くなる傾向がある。赤い線は、選択された操作点０．５を示す。

図８．同じ症例から採取した低悪性度サンプルと高悪性度サンプルの分子プロファイル間の類似度。
ＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍはＭＬＰＡからのＣＮＡデータのみを使用するため、ＣＮＡはＭＬＰＡからのＣＮＡデータを指す。
略語：メチル－メチル化。

図９．ＰＲＯＮＴＯ－ｅの臨床的影響のポテンシャル
アクティブサーベイランスが推奨される患者１０００例の診断用生検に適用された場合のＰＲＯＮＴＯ－ｅ分類器の仮想的性能。１０００人のアクティブサーベイランス患者およびＰＲＯＮＴＯ－ｅの予測性能を想定し、図は真陽性および偽陽性、真陰性および偽陰性の仮定数、およびこれらの患者サブセットが検査結果によってどのように影響されるかを示している。検査結果が陽性であれば、診断から３ヵ月または６ヵ月後に早期の生検を実施するきっかけとなり、その結果、悪性度が上がり、その後の治療が実施される可能性がある。検査結果が陰性であれば、その代わりに診断から１２ヵ月後に生検が実施されることになる。

以下の説明では、本発明を十分に理解するために、多くの具体的な詳細が記載される。しかしながら、本発明は、これらの具体的な詳細なしに実施され得ることが理解される。

癌悪性度は早期前立腺癌（ＣａＰ）における疾患進行の最も強力な予測因子である。腫瘍内の不均一性および観察者間のばらつきは、診断用生検における精度を制限し、臨床的有用性を低下させる。ゴールドスタンダードとして前立腺切除術の病理学的検査を用いて、前立腺癌の悪性度を示す強固な客観的バイオマーカを開発し、検証した。

根治的前立腺摘除術を低リスクおよび中リスクＣａＰ患者から収集し、トレーニングコホート（ｎ＝３３３）またはバリデーションコホート（ｎ＝２０２）のいずれかに割り付けた。腫瘍内の不均一性を統合するために、各症例を２箇所で別々にサンプリングした。本発明者らは、１００コピー数異常（ＣＮＡ）および１４ＤＮＡハイパーメチル化遺伝子座により補完された、ＣａＰ代謝、ストロマシグナル伝達、および上皮可塑性にエンリッチ（ｅｎｒｉｃｈｅｄ）された３４２のｍＲＮＡをプロファイリングした。１２の異なる機械学習アルゴリズムに臨床的、病理学的および分子的変数を当てはめ、病理学的グレードグループの４１，０００以上の候補分類器（１対≧２）を、トレーニングデータで生成した。本発明者らは、より高い真陽性（ＴＰ）率および受信者操作曲線下面積（ＡＵＣ）を有する分類器を優先順位付けすることによる検証のために、２つの分類器、ＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍを選択した。

ＰＲＯＮＴＯ－ｅ分類器は３５３のｍＲＮＡおよびＣＮＡの特徴を含み、一方、ＰＲＯＮＴＯ－ｍ分類器は９４のｍＲＮＡ、ＣＮＡ、メチル化および臨床的特徴を含む。分類器（ＰＲＯＮＴＯ－ｅ、ＰＲＯＮＴＯ－ｍ）は、独立して検証され、それぞれ真陽性率は０．８０２と０．８１０、偽陽性率は０．４０３と０．３９８、ＡＵＣは０．７９９と０．７８６であった。

２つの多重遺伝子分類器が開発され、別々のコホートで検証され、それぞれ異なる種類のゲノムデータを統合することにより優れた性能を達成した。分類器の採用は、患者の罹患率を増加させることなく、現行のアクティブサーベイランスアプローチを改善することができた。

一態様では、前立腺癌を有する対象における疾患進行リスクを予測する方法が提供され、方法は、ａ）腫瘍細胞由来のＲＮＡおよびＤＮＡ材料を含有するサンプルを提供するステップと、ｂ）表６にＰＲＯＮＴＯ－ｅについて列挙されるｍＲＮＡおよびコピー数異常（ＣＮＡ）特徴を含む３５３個の患者特徴の実質的に全てについての値および表６に記載される参照または対照特徴の一部または全部を決定または測定するステップと、ｃ）前記患者特徴を参照または対照特徴と比較するステップおよびｄ）前記患者特徴値を入力データとして採用する分類器を使用して予測スコアを計算するステップであって、分類器が初期前立腺癌患者の集団からのサンプルについて事前に訓練されているステップとを含む。

いくつかの実施形態では、３５３の患者特徴の実質的全ては、３５３の患者特徴の全てである。

本明細書中で使用される場合、用語「コントロール（対照）」は、予後判定または分類に使用できる特定の値またはデータセットを指す。
例えば、ｍＲＮＡを含む患者特徴、コピー数異常（ＣＮＡ）特徴、または転帰クラスに関連する試験サンプルから得られる臨床特徴などが挙げられる。当業者であれば、試験サンプルとコントロールとの間の比較が、使用されるコントロールに依存することを理解するであろう。

癌に関して本明細書で使用される「低リスク」または「低尤度（ｌｏｗｌｉｋｅｌｉｈｏｏｄ）」という用語は、一般集団または対照集団と比較して、癌のリスクが統計的に有意に低いことを指す。対応して、癌に関して本明細書で使用される「高リスク」または「高尤度（ｈｉｇｈｌｉｋｅｌｉｈｏｏｄ）」は、一般集団または対照集団と比較して、癌のリスクが統計的に有意に高いことを指す。

「サンプル」という用語は、本明細書中で使用される場合、本明細書中で参照されるＤＮＡまたはＲＮＡ材料についてアッセイされ得る被験者からの任意の体液（ｆｌｕｉｄ）、細胞または組織試料を指す。

一態様では、前立腺癌を有する対象における疾患進行リスクを予測する方法が提供され、方法は、ａ）腫瘍細胞由来のＲＮＡおよびＤＮＡ材料を含有するサンプルを提供するステップと、ｂ）表６にＰＲＯＮＴＯ－ｍについて列挙されるｍＲＮＡ、ＣＮＡ、メチル化および臨床的特徴を含む９４の患者特徴の実質的にすべて、並びにの表６に記載される参照または対照特徴の一部または全部を決定または測定するステップと、ｃ）前記患者特徴を参照または対照特徴と比較するステップと、ｄ）前記患者特徴値を入力データとして採用する分類器を使用して予測スコアを計算するステップであって、前記分類器が初期前立腺癌患者の集団由来のサンプルについて事前に訓練されているステップとを含む。

いくつかの実施形態では、９４個の患者バイオマーカの実質的に全ては、９４個の患者バイオマーカ全てである。

いくつかの実施形態では、予測スコアを決定することは、患者の腫瘍を病理学的グリーソングレードグループ（ＧＧ）クラスに分類することを含む。

いくつかの実施形態において、患者の腫瘍は、

スコアが＜０．５である場合には病理学的ＧＧ１クラスに分類される。

いくつかの実施形態では、患者が病理学的ＧＧ１クラスに分類される場合、アクティブサーベイランスで患者を管理することをさらに含む。

さらに外科手術、内分泌療法、化学療法、放射線療法、ホルモン療法、遺伝子療法、熱療法、または超音波療法で患者を治療することを含む。

本システムおよび方法は、様々な実施形態で実施することができる。好適に構成されたコンピュータ装置、および関連する通信網、装置、ソフトウェアおよびファームウェアは、上述の１又は１以上の実施形態を可能にするためのプラットフォームを提供することができる。一例として、図５は、記憶部１０４およびランダムアクセスメモリ１０６に接続された中央処理ユニット（「ＣＰＵ」）１０２を含むことができる汎用コンピュータ装置１００を示す。ＣＰＵ１０２は、オペレーティングシステム１０１、アプリケーションプログラム１０３、およびデータ１２３を処理することができる。オペレーティングシステム１０１、アプリケーションプログラム１０３、およびデータ１２３は、記憶部１０４に記憶され、必要に応じてメモリ１０６にロードされてもよい。コンピュータ装置１００は、ＣＰＵ１０２から集中的な画像処理計算をオフロードし、これらの計算をＣＰＵ１０２と並行して実行するために、ＣＰＵ１０２およびメモリ１０６に動作的に接続されるグラフィックスプロセッシングユニット（ＧＰＵ）１２２をさらに含んでもよい。オペレータ１０７は、ビデオインターフェース１０５によって接続されたビデオディスプレイ１０８と、Ｉ／Ｏインターフェース１０９によって接続されたキーボード１１５、マウス１１２、ディスクドライブまたはソリッドステートドライブ１１４などの様々な入出力装置を使用して、コンピュータ装置１００と対話することができる。既知の態様では、マウス１１２は、ビデオディスプレイ１０８内のカーソルの動きを制御し、ビデオディスプレイ１０８内に現れる様々なグラフィカル・ユーザ・インタフェース（ＧＵＩ）制御をマウスボタンで操作するように構成することができる。ディスクドライブまたはソリッドステートドライブ１１４は、コンピュータ可読媒体１１６を受け入れるように構成してもよい。コンピュータ装置１００は、ネットワークインターフェース１１１を介してネットワークの一部を形成してもよく、これにより、コンピュータ装置１００は、他の好適に構成されたデータ処理システム（図示せず）と通信することができる。１つまたは複数の異なるタイプのセンサ１３５を使用して、様々なソースからの入力を受信することができる。

本システムおよび方法は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータまたはワイヤレスハンドヘルドを含む事実上あらゆる態様のコンピュータ装置上で実施することができる。本システムおよび方法は、１つまたは複数のコンピュータ装置が、本発明による方法における様々なプロセスステップのそれぞれを実施することを可能にするコンピュータプログラムコードを含むコンピュータ可読／使用可能媒体として実装することもできる。動作全体を実行するコンピュータ装置が複数ある場合、コンピュータ装置は、動作の様々なステップを分散するようにネットワーク化される。コンピュータ可読媒体またはコンピュータ使用可能媒体という用語は、プログラムコードの任意のタイプの物理的実施形態のうちの１つまたは複数を含むことを理解されたい。特に、コンピュータ可読／使用可能媒体は、コンピュータ及び／又はストレージシステムに関連するメモリなど、計算装置の１つまたは複数のデータ記憶部分上の、１つまたは複数のポータブルストレージ製品（例えば、光ディスク、磁気ディスク、テープなど）上で実施されるプログラムコードを備えることができる。

一態様では、前立腺癌患者における疾患進行リスクを予測するコンピュータ実装方法が提供され、この方法は、ａ）少なくとも１つのプロセッサで、前立腺癌腫瘍に関するＰＲＯＮＴＯ－ｅまたはＰＲＯＮＴＯ－ｍ分類器に対応する請求項１または７に定義される患者特徴の実質的に全てを反映するデータおよび、表６に記載される参照または対照特徴の一部または全部を受信するステップと、ｂ）少なくとも１つのプロセッサで、患者特徴に基づいて患者プロファイルを構築するステップと、ｃ）少なくとも１つのプロセッサで、前記患者プロファイルを参照または対照と比較するステップと、ｄ）少なくとも１つのプロセッサで、前記患者プロファイルを入力データとして採用する分類器を使用して予測スコアを計算するステップであって、分類器は、早期前立腺癌患者の集団からのサンプルについて事前に訓練されているステップを含む。

一態様において、プロセッサと、プロセッサに接続されたメモリとを有する汎用コンピュータと共に使用するためのコンピュータプログラム製品が提供され、コンピュータプログラム製品は、エンコードされたコンピュータメカニズムを有するコンピュータ読み取り可能な記憶媒体を備え、コンピュータプログラムメカニズムは、コンピュータのメモリにロードされてもよく、コンピュータに請求項１３～１５のいずれか１項に記載の方法を実行させることができる。

一態様では、請求項１６に記載のコンピュータプログラム製品を記憶するためのデータ構造を記憶したコンピュータ可読媒体が提供される。

一態様では、前立腺癌患者における疾患進行リスクを予測するためのデバイスが提供され、デバイスは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信する電子メモリを備え、電子メモリは、プロセッサ実行可能コードを記憶し、少なくとも１つのプロセッサを実行する際に、少なくとも１つのプロセッサに以下を行わせる。ａ）前立腺癌腫瘍に関するＰＲＯＮＴＯ－ｅまたはＰＲＯＮＴＯ－ｍ分類器に対応する、請求項１または７に定義される患者特徴の実質的にすべて、および表６に記載される参照または対照特徴の一部または全てを反映するデータを受信させ、ｂ）前記患者特徴を参照または対照特徴と比較させ、ｃ）前記患者プロファイルを入力データとして採用する分類器を使用して、少なくとも１つのプロセッサで予測スコアを計算させ、分類器は、早期前立腺癌患者の集団からのサンプルについて事前に訓練されている。

本発明の利点は、以下の実施例によってさらに説明される。本明細書に記載される実施例およびそれらの特定の詳細は、説明のためにのみ提示され、本発明の特許請求の範囲を限定するものとして解釈されるべきではない。

例
材料および方法
患者サンプル：

分類器を訓練し、検証するために、根治的前立腺全摘除術サンプルを、キングストン総合病院（１９９９～２０１２年の診断）、ＭｃＧｉｌｌ大学保健センターのモントリオール総合病院（１９９４～２０１３年）およびロンドン健康科学センター（ＬｏｎｄｏｎＨｅａｌｔｈＳｃｉｅｎｃｅｓＣｅｎｔｒｅ、ＬＨＳＣ）（２００４～２００９年）のローカル電子カルテを用いて同定した。最初の選択基準は、（ｉ）コア生検でＧＧ１またはＧＧ２の診断を確認、（ｉｉ）根治的前立腺摘除術を受けた、および（ｉｉｉ）手術前に治療歴がない、とした。臨床病期がＴ３またはそれ以上の患者は除外した。症例をトレーニングコホートまたはバリデーションコホートのいずれかに割り付けた。

全症例について、診断用コア生検と根治的前立腺全摘除術の両方の中央病理診断が専門病理医（ＦＢ、ＭＭ、ＤＢ、ＴＪ）によって実施された。可能な場合には、ＤＮＡおよびＲＮＡを、存在する場合には比較的高いＧＧ領域と低いＧＧ領域にエンリッチされた優勢な腫瘍焦点（ｄｏｍｉｎａｎｔｔｕｍｏｒｆｏｃｕｓ）の２つの領域から得られたパンチコアから抽出し（図１Ａ）［２１］、このアプローチのために最適化されたプロトコルを使用した［２２、２３］。実施された全ての分析は、インフォームドコンセントの放棄を可能にした地域倫理審査委員会（表３）によって承認された。全体として、本発明者らは、トレーニングセットについて３３３症例から６３３サンプルを収集し、バリデーションセットについて２０２症例から３４６サンプルを収集した（表４のＣＯＮＳＯＲＴデータを参照のこと）。

トレーニングコホートおよびバリデーションコホートの臨床病理学的特徴を表１に要約する。

２つの分類器（α＝０．０１）を検証する検出力は８９％であった。

分類器の候補となる特徴の選択：
ＧＧの生態（ｂｉｏｌｏｇｙ）を反映する複数の機能的側面について、トランスクリプトーム（ｍＲＮＡ量）、ゲノム（ＤＮＡコピー数変化、ＣＮＡ）およびエピゲノムレベル（ＤＮＡメチル化）での分子的特徴を調べた（図１Ｂ）。４３１の遺伝子／遺伝子座（１つの遺伝子／遺伝子座が複数の特徴によって評価されることがある）を評価する４６２の分子的特徴のリストが、詳細な文献調査および研究チームのメンバーが主導する多数の研究からの情報提供により作成された［２５－３０］（方法を参照のこと；表６）。また、診断時に評価した４つの臨床的特徴と、それらをＣａｎｃｅｒｏｆｔｈｅＰｒｏｓｔａｔｅＲｉｓｋＡｓｓｅｓｓｍｅｎｔ（ＣＡＰＲＡ）リスク群に統合した５つ目の臨床的特徴も含めた［３１］。合計で、腫瘍サンプルを記述するために４６７の特徴を使用した（表６）。

分子プロファイリングの一元化：
本発明者らは、４つの分子診断プラットフォームを採用した。そのうちの３つは、癌の分子診断のために現在臨床的に使用されている。ｍＲＮＡ分析は、この研究のために開発された特定のコードセットを有するＮａｎｏｓｔｒｉｎｇＮ－ｃｏｕｎｔｅｒプラットフォーム［３２］を用いて行った。ＣＮＡ分析は、このプロジェクトのために特別に開発されたマルチプレックスライゲーション依存性プローブ増幅（ＭＬＰＡ）ベースのアッセイおよびカスタムＮａｎｏＳｔｒｉｎｇコピー数コードセット［３３］［３４］の両方を用いて行った（Ｅｂｒａｈｉｍｉｚａｄｅｈら投稿。最後に、メチル化特異的ポリメラーゼ連鎖反応（ＭＳＰ）を用いてエピジェネティックプロファイリングを行った［２６］。両コホートの全てのサンプルは、それらのＲＮＡおよびＤＮＡの収量から考えて、可能な限り多くのプラットフォームでプロファイリングした。

予後分類器の開発と検証：
トレーニングデータおよびバリデーションデータの両方を、補足的方法（ＳｕｐｐｌｅｍｅｎｔａｒｙＭｅｔｈｏｄｓ）に記載されるように前処理した。教師付き機械学習パイプラインを作成し（図１Ｃ；ＳｕｐｐｌｅｍｅｎｔａｒｙＭｅｔｈｏｄｓ）、患者のプロファイル（特徴値で構成）を入力とし、病理学的前立腺摘除術ＧＧをエンドポイントとする分類器を開発した。

トレーニングデータを用いて、４１，０００以上（＞４１，０００）のＧＧ分類器を、５区分のクロスバリデーションにおいて１２の異なる機械学習アルゴリズムに選択された特徴を供することによって評価した。具体的には、受信者操作曲線下面積（ＡＵＣ）、ＴＰ、ＦＰ、および真陰性（ＴＮ）率を、各分類器について計算した。この一連の指標は、各症例からの低悪性度または高悪性度のサンプルのみを用いて計算し、低悪性度および高悪性度の統計量の平均を計算した。クロスバリデーションにより、より高いＴＰ率およびＡＵＣを有するものに優先順位を付けることによって、検証用に２つの分類器を選択した。

本発明者らは、上記のように統計量を計算し、また、性能統計量を計算するためにバリデーションコホートにおいて患者一人当たり１つのサンプル（高悪性度または低悪性度）をランダムに選択し、このプロセスを１０００回繰り返すことによって、分類器を検証した。これらのサンプリングに基づく統計量は、臨床診療をよりよくシミュレートする。全ての統計解析は、Ｒソフトウェアフレームワーク（ｖ３．４．３）［３５］、機械学習パッケージｍｌｒ（ｖ２．１５．０）［３６］およびプロットパッケージＢｏｕｔｒｏｓＬａｂ．ｐｌｏｔｔｉｎｇｇｅｎｅｒａｌ（ｖ５．９．８）［３７］を用いて行った。

倫理審査
全ての研究は、Ｔｒｉ－ＣｏｕｎｃｉｌＰｏｌｉｃｙＳｔａｔｅｍｅｎｔ（ＴＣＰＳ２）に従い、各参加機関の研究倫理委員会で研究プロトコルの倫理承認を得た後に実施した（表３）。

特徴の選択
ＣＮＡ特徴：ＭＬＰＡアッセイ

マルチプレックスライゲーション依存性プローブ増幅（ＭＬＰＡ）アッセイを開発して、前立腺癌における臨床転帰と以前に関連したコピー数変化（ＣＮＡ；表６）について１４の遺伝子座を評価した（ＣａＰ；Ｅｂｒａｈｉｍｉｚａｄｅｈら投稿）。アッセイされた遺伝子座には、ＭＹＣオンコジーン［Ｓ１－３］、ＰＴＥＮ［Ｓ４－７］、ＴＰ５３［Ｓ２，８，９］、ＣＤＫＮ１Ｂ［Ｓ１０，１１］およびＲＢ１［Ｓ１２，１３］腫瘍抑制因子、ＧＡＢＡＲＡＰＬ２［Ｓ１３，１４］およびＰＤＰＫ１［Ｓ１５，１６］などの転移に関連する遺伝子座、ＲＷＤＤ３［Ｓ１７－２０］、ＧＴＦ２Ｈ２［Ｓ２１－２４］およびＷＲＮ［Ｓ１３，２５－２７］などのゲノム安定性の維持に関連する遺伝子座、およびＣａＰサブタイプに関連する遺伝子であるＣＨＤ１［Ｓ１３，２８，２９］、ＭＡＰ３Ｋ７［Ｓ１３，２８，３０］、ＮＫＸ３－１［Ｓ１３］およびＰＤＺＤ２［Ｓ３１，３２］を含む。

ＣＮＡ特徴：ＣＰＣ－ＧＥＮＥＮａｎｏＳｔｒｉｎｇアッセイ
ＤＮＡＣＮＡアッセイを用いて、ＣａｎａｄｉａｎＰｒｏｓｔａｔｅＣａｎｃｅｒＧｅｎｏｍｅＮｅｔｗｏｒｋ（ＣＰＣ－ＧＥＮＥ）は、低～中リスクのＣａＰ患者において、ゲノム変化率と生化学的無再発生存率の低下との関連を同定し、ＣＮＡ特徴を用いて患者の転帰を予測する分類器を開発した［Ｓ３３］。ＮａｎｏＳｔｒｉｎｇＣＮＡアッセイは、これらの特徴についての値を導出するように設計され［Ｓ３４］、本明細書では、９２個のＣＮＡ特徴：８５個の遺伝子座（１５１個の遺伝子を含む）および文献中のＣａＰに関連する７個のさらなる遺伝子を含むアッセイを使用した（表６）。

ｍＲＮＡの特徴：
以下の研究による遺伝子リストを組み合わせることにより、ｍＲＮＡ量遺伝子パネル（ＮａｎｏＳｔｒｉｎｇＲＮＡアッセイ用）を作成した。

ｍＲＮＡの特徴：ＣＰＣ－ＧＥＮＥ
ＣＰＣ－ＧＥＮＥは、中リスク患者由来のサンプルのＲＮＡ量プロファイル作成を実施し［Ｓ３５］、これらのデータの単変量解析により、予後不良と関連する２０の遺伝子が同定された。これらの遺伝子に、Ｔａｙｌｏｒら［Ｓ３６］によるＲＮＡデータの同様の単変量解析と予測モデリングで同定された３０個の遺伝子を補足した。

ｍＲＮＡ特徴：幹細胞の特徴
遺伝子リストは、４つのアンドロゲン受容体（ＡＲ）＋ＣａＰ細胞株（ＬＮＣａＰ、ＬＡＰＣ４、ＣＷＲ２２ｒｖ１およびＶＣａＰ）を幹様表現型に「再プログラム」して得られた［Ｓ３７］。各細胞株のＡｇｉｌｅｎｔＧｅｎｅＣｈｉｐ分析は、親細胞と再プログラム細胞の間で有意な存在量変化を伴う転写物を明らかにした。次に、これらの転写物を細胞株間で比較し、リプログラミングに関連する１３２の一般的に変化した遺伝子のランク付けリストを導出した。この特徴から、［Ｓ３７］に記載されたように再発、転移およびＣａＰ特異的死亡の傾向が同定された。このリストの上位５０の遺伝子はＲＮＡパネルに含まれていた。

ｍＲＮＡの特徴：上皮間葉転換（ＥＭＴ）の特徴
ＧＥＯ２Ｒプログラムおよび多重検定補正のためのＢｅｎｊａｍｉｎｉ－Ｈｏｃｈｂｅｒｇ法を用いて、３次元培養（ＧＥＯ＃ＧＳＥ１９４２６）［Ｓ３８］で浸潤性増殖を行っているＰＣ－３、ＰＣ－３Ｍ、ＡＬＶＡ－３１、ＲＷＰＥ－２－ｗ９９細胞株からの遺伝子発現データを比較し、４種類の細胞株のうち少なくとも３種類で調節不全の遺伝子１６６９個を同定した。これらの遺伝子は、ＳＡＢｉｏｓｃｉｅｎｃｅｓｑＲＴ－ＰＣＲアレイのＥＭＴ関連遺伝子と相互参照された。得られた３３個の重複遺伝子を、Ｓｔｒｉｎｇｖ９．１およびＧｅｎｅＭａｎｉａアルゴリズム［Ｓ３９，４０］を使用して、ネットワーク構築のためのシードリストとして使用した。得られたネットワークから、経路を結ぶ共通のノーダルポイントを含む３７の重要な遺伝子をＲＮＡパネルに含めた。

ｍＲＮＡの特徴：上皮の成長と分化に対する間質の影響。
胚性前立腺間質［Ｓ４１－４３］にエンリッチされていると同定された３１８個の遺伝子のリストについて、がん関連線維芽細胞にも発現する遺伝子および公表されている４つのデータセット［Ｓ３６、４４－４６］において臨床的および病理学的エンドポイント（再発、ＣａＰ死亡およびグリーソンスコア）との関連性をエンリッチするようにフィルターをかけた。複数のデータセットにおいて、グレードグループ（ＧＧ）及び／又は再発に関連する遺伝子を優先順位付けすることによって８０個の遺伝子のリストを作成した。

ｍＲＮＡの特徴：腫瘍細胞の代謝
Ｓｔｒｉｎｇｖ９．１およびＧｅｎｅＭａｎｉａアルゴリズム［Ｓ４７］を用いて、ステロール調節エレメント結合タンパク質１（ＳＲＥＢＰ１）、インスリン成長因子（ＩＧＦ）、ＡＲおよびサイトカインシグナル伝達抑制因子１（ＳＯＣＳ１）のシグナル伝達経路を結びつけるｉｎｓｉｌｉｃｏ遺伝子ネットワーク解析により、ＣａＰ代謝に関連する８６の候補遺伝子を同定した。これらの遺伝子について、発見コホートおよび検証コホートに関するＮａｎｏｓｔｒｉｎｇｎＣｏｕｎｔｅｒアッセイにより発現解析を行ったところ、各コホートには、個々の腫瘍由来の３２個のＧｌｅａｓｏｎパターン３および、３２個のＧｌｅａｓｏｎパターン４の焦点（ｆｏｃｉ）が含まれた。Ｍａｎｎ－ＷｈｉｔｎｅｙＵ検定（ｐ＜０．０５）を用いた単変量解析は、２５の差次的発現遺伝子を同定した。

ｍＲＮＡの特徴：前立腺の恒常性
この研究は、良性前立腺の恒常性を、ステロイドホルモンによる成長と分化、およびＣａＰにおけるこれらの通路の調節異常のモデルとして活用した。この一連の研究を代表する転写物には、ＦＥＲ、ＰＴＫ２、ＦＬＴ１、ＬＹＮ、ＳＲＣ、ＪＡＫ１、ＪＡＫ３、ＭＡＲＫ３、ＳＴＡＴ３、ＳＴＡＴ５Ａ、ＥＤＦ１、ＷＮＴ１１、ＩＴＧＡＶ、ＩＴＧＡ２、およびＩＴＧＶ５が含まれた。

メチル化とｍＲＮＡの特徴：ＣｐＧアイランドの高メチル化
ＣａＰにおいてＣｐＧアイランドが高メチル化されている遺伝子（ｎ＝１４）を文献から同定し、これらの遺伝子のＤＮＡメチル化を、［Ｓ４８］に記載されるようなメチル化特異的ＰＣＲを用いてアッセイして、これらのメチル化特徴についての値を得た（表６）。これらの遺伝子（ＵＣＨＬ１を除く）は、さらに７つのエピジェネティック修飾および調節遺伝子：ＤＮＭＴ１、ＥＺＨ２、ＨＤＡＣ１、ＨＩＣ１、ＫＣＮＫ２、ＳＲＰ１４およびＴＥＲＴとともに、ＲＮＡパネルにも加えられた。

要約すると、これらの研究の各々からの遺伝子を照合することにより、さらなるハウスキーピング遺伝子を有する３４２個の遺伝子（表６を参照のこと）を含む新規なＮａｎｏＳｔｒｉｎｇｍＲＮＡパネルが得られた（補足方法を参照のこと）。ＮａｎｏＳｔｒｉｎｇアッセイを用いて、それぞれの遺伝子のｍＲＮＡ量を測定し、ｍＲＮＡの特徴の値を求めた。

臨床的特徴
ＣａｎｃｅｒｏｆｔｈｅＰｒｏｓｔａｔｅＲｉｓｋＡｓｓｅｓｓｍｅｎｔ（ＣＡＰＲＡ）スコアは、１）診断時年齢、２）診断時ＰＳＡ（単位：ｎｇ／ｍｌ）、３）生検ＧＧ（すなわち、臨床ＧＧ）、４）臨床Ｔ病期、５）癌に関与する生検コアの割合という５つの臨床的特徴を用いて算出される［Ｓ４９］。患者のＣＡＰＲＡスコアは、ＣＡＰＲＡリスク群（低、中、高）を割り当てるために順番に使用することができ、本発明者らの候補予後分類器は、任意選択でこの群の特徴を使用した。あるいは、最初の４つの臨床的特徴は、分類器によって直接使用することができる。診断時の年齢が利用できない場合には、根治的前立腺摘除術時の年齢（利用可能な場合）を用いた。診断時のＰＳＡが利用できない場合には、術前ＰＳＡ（利用可能な場合）を用いた。

臨床病期Ｔは、Ｔ１とＴ２の２つの値に単純化され、それぞれ０と１として分類器に表現された。

前処理訓練およびバリデーションデータ
ｍＲＮＡ量データ
使用する正規化手法を選択するために、ＮａｎｏＳｔｒｉｎｇＮｏｒｍＲパッケージ（ｖ１．１．２２；［Ｓ５０］）でサポートされる９６の異なる方法を、パラメータ値の異なる組み合わせ、すなわちＢａｃｋｇｒｏｕｎｄ＝｛ｎｏｎｅ、ｍｅａｎ．２ｓｄ、ｍａｘ｝、ＣｏｄｅＣｏｕｎｔ＝｛ｎｏｎｅ、ｓｕｍ、ｇｅｏ．ｍｅａｎ｝、ＳａｍｐｌｅＣｏｎｔｅｎｔ＝｛ｎｏｎｅ、ｈｏｕｓｅｋｅｅｐｉｎｇ．ｓｕｍ、ｈｏｕｓｅｋｅｅｐｉｎｇ．ｇｅｏ．ｍｅａｎ、ｔｏｔａｌ．ｓｕｍ、ｔｏｐ．ｍｅａｎ｝、ＯｔｈｅｒＮｏｒｍ＝｛ｎｏｎｅ、ｒａｎｋ．ｎｏｒｍａｌ｝で試行した。それ以外のパラメータはｒｏｕｎｄ．ｖａｌｕｅｓ＝ＦＡＬＳＥ，ｔａｋｅ．ｌｏｇ＝ＴＲＵＥとデフォルト値を使用した。各正規化手法を評価するために、得られた正規化データを用いていくつかのメトリクスを計算した。
これらのメトリクスは以下を含む。

１）低アバンダンスハウスキーピング遺伝子の正規化カウントが中レベルアバンダンスハウスキーピング遺伝子の正規化カウントより有意に低く、高アバンダンス遺伝子と比較して中アバンダンス遺伝子で同様に低い場合には合格（片側スチューデントｔ検定Ｐ＜０．０５）、それ以外は不合格。

２）ダイナミックレンジは、低アバンダンスハウスキーピング遺伝子の平均値に対する高アバンダンスハウスキーピング遺伝子の平均値正規化カウントの増加率として測定される。

３）カートリッジ間で複製された対照サンプルの正規化カウント間の一致。ここで、値が大きいほどバッチ効果が小さいことを示唆する。

４）非正規サンプルの数。内因性遺伝子全体の正規化されたカウントの分布がシャピロ－ウィルク検定の正規性（ＦＤＲ調整済ｑ＜０．１）に合格しない場合、サンプルは非正規分布である。

５）有意なコホート共変量の数、すなわち、正規化カウントを予測する線形モデルにおいて、患者の由来（ＭｃＧｉｌｌＵｎｉｖｅｒｓｉｔｙＨｅａｌｔｈＣｅｎｔｒｅのＫｉｎｇｓｔｏｎＧｅｎｅｒａｌＨｏｓｐｉｔａｌ／ＭｏｎｔｒｅａｌＨｏｓｐｉｔａｌ）が有意な共変量である遺伝子。ここで、ＧＧおよび生化学的再発状態は他の共変量である（ＦＤＲ調整済ｐ＜０．１）。

６）サンプルの正規化された総数カウントとそのソース組織ブロックの年齢との相関。

７）不合格となったサンプルの割合；サンプルは以下の場合に不合格となることがある。
ａ）ハウスキーピング遺伝子の正規化カウント＝０。
ｂ）ハウスキーピング遺伝子を正規化したカウントでＺスコアを計算した後、任意｜Ｚ｜＞５。
ｃ）ＣｏｄｅＣｏｕｎｔ正規化を行った場合、正規化係数＜０．３または＞３。
ｄ）サンプルに異常なバックグラウンドレベルがある（｜Ｚ｜＞５）。
ｅ）ＳａｍｐｌｅＣｏｕｎｔ正規化を実施した場合、ＲＮＡ含量値＜１。
ｆ）ＳａｍｐｌｅＣｏｕｎｔ正規化を行った場合、サンプルは異常値ＲＮＡ含量値（｜Ｚ｜＞５）を有する。
ｇ）内在性遺伝子の欠損割合が０．９を超え（＞０．９）、

メトリック１に合格し、カートリッジ間一致度が０．９を超え（＞０．９）、かつ訓練サンプルの１０％未満（＜１０％）が失敗した手法のみを考慮して、メトリック２～７によって個別に最初にランク付けすることにより、方法をランク付けした。次にＤＥＣＯＲ法（ＣｏｎｓＲａｎｋパッケージｖ２．０．１；［Ｓ５１］）で生成したコンセンサスランキングをした。このランク付けに基づいて、Ｂａｃｋｇｒｏｕｎｄ＝ｎｏｎｅ、ＣｏｄｅＣｏｕｎｔ＝ｎｏｎｅ、ＳａｍｐｌｅＣｏｎｔｅｎｔ＝ｈｏｕｓｅｋｅｅｐｉｎｇ．ｓｕｍ、目標値（ｔａｒｇｅｔｖａｌｕｅ）＝５０００（訓練データに基づいて大まかに推定された）、およびＯｔｈｅｒＮｏｒｍ＝ｎｏｎｅの正規化方法を選択した。

ＭＬＰＡＣＮＡデータ
１つまたは２つのプローブが各遺伝子を標的とし、各テストサンプルを２回ずつアッセイした。各複製について、各テストプローブからのシグナルを１０個の参照プローブの各々からのシグナルで割った結果、７つの比率のセットを得た。プローブは、３つの参照サンプル（新鮮な健康な女性のゲノム、正常なＦＦＰＥ腎臓組織、正常なＦＦＰＥ乳房リンパ節組織）（Ｐｒｏｍｅｇａ）のうち少なくとも２つで、複製物の比率の９５％信頼区間がそのプローブの９５％信頼区間の外にあるとき、ＣＮＡに対して陽性と見なされた。プローブは、その複製物の両方について陽性であった場合、テストサンプルについて陽性であるとみなされた。複製物間に不一致が存在する場合、プローブはＣＮＡについて陰性であるとみなされた。複製物のいずれも品質管理に合格しなかった場合（Ｅｂｒａｈｉｍｉｚａｄｅｈ投稿）、所与のテストサンプル中の所与のプローブにＣＮＡステータスを割り当てなかった。ある遺伝子の全てのプローブが陽性であった場合、その遺伝子はテストサンプルにおいてＣＮＡ陽性とみなされ、不一致がある場合、その遺伝子は陰性とみなされ、それ以外は、ＣＮＡのステータスは割り当てられなかった。ＲＷＤＤ３、ＧＴＦ２Ｈ２、ＣＨＤ１、ＭＡＰ３Ｋ７、ＮＫＸ３－１、ＷＲＮ、ＰＴＥＮ、ＣＤＫＮ１Ｂ、ＲＢ１、ＧＡＢＡＲＡＰＬ２およびＴＰ５３遺伝子については欠失のみが考えられ、ＭＹＣ、ＰＤＰＫ１およびＰＤＺＤ２遺伝子については増加のみが考えられた。

ＮａｎｏＳｔｒｉｎｇＣＮＡデータ
データは、前述の［Ｓ３４］のように前処理された。

メチル化データ
Ｃ_ｑは、前述の［Ｓ４８］のように計算した。所定のテストサンプルｔおよび標的遺伝子ｇについて、以下のようにメチル化レベルを計算した。ｍ_{ｔ，ｇ，ｉ，ｊ，ｋ，ｌ}＝（Ｃ_{ｑｐ，ｇ，ｉ}－Ｃ_{ｑｐ，ｒ，ｊ}）－（Ｃ_{ｑｔ，ｇ，ｋ}－Ｃ_{ｑｔ，ｒ，ｌ}）
ここで、
ｐはテストサンプルと同じプレート上の正のコントロールサンプルを示し、
ｒはリファレンスシーケンス（ＡＬＵ）を示し、
ｉ、ｊ、ｋ、ｌはレプリケート数を示す。

次いで、正規化されたメチル化レベルを以下のように定義した。
ｍ_ｔ，ｇ＝中央_{ｉ，ｊ，ｋ，ｌ}（ｍ_{ｔ，ｇ，ｉ，ｊ，ｋ，ｌ}）

予後分類器の開発のための機械学習パイプライン
本発明者らは、予後分類器の開発のための様々な方法論を網羅的に評価するためのパイプラインを構築した。具体的には、パイプラインは、教師あり機械学習の手法を用いて、患者プロファイルを入力データとして、予後良好または予後不良を予測する（すなわち、それぞれ、陰性および陽性をテストする）分類器を開発する。本願では、ＧＧを前立腺摘除標本（すなわち病理学的ＧＧ）に二値化し、ＧＧ１のみを有する患者を陰性ゴールドスタンダード、

患者の真のクラスを定義した（補足図１）。

パイプラインは、１）データセット、２）パーティション、３）特徴量の削減、および４）クロスバリデーションの４つの主要ステージから構成される（図１Ｃ）。

第１段階は、トレーニングデータセットの準備に焦点を当てる。トレーニングデータセットには、患者－サンプル特徴の行列（すなわち、各行は患者プロファイルを表す）および、行列内の各サンプルに対して１つの値を有する真のクラス値のセットとが含まれる。パイプラインは、異なるプラットフォームによって生成された入力データを取得することができる。本願では、臨床／ＣＡＰＲＡ、ＲＮＡ量、ＭＬＰＡ／ＮａｎｏＳｔｒｉｎｇＣＮＡおよびメチル化データを有する。各プラットフォームごとに、このステージでは、データセットを欠損データのないサンプルに縮小する。複数のプラットフォームが所望される場合、データセットは、関心のある各プラットフォームからのデータを有するサンプルにも縮小される。最後に、不変特徴、すなわち、全ての残りのサンプルにわたって同じ値を有する特徴が、データセットから除去される。

第２の段階は、クロスバリデーションを繰り返すためのトレーニングデータセットの分割に焦点を当てる。データセットは、所望のオプションに従って、患者ごとに、低悪性度サンプルのみ、高悪性度サンプルのみ、または無作為に選択されたサンプルに縮小される。デフォルトでは、このステージは、１０００回繰り返される５区分のクロスバリデーションを準備し、したがって、このステージは、５つの等しいサイズのサブセットへのデータセットの１０００分割を作成する。各候補パーティショニングについて、各サンプルは、最初に、５つのサブセットのうちの１つにランダムに割り当てられる。本発明者らのトレーニングサンプルが異なる機関（すなわち、キングストン総合病院、ＭｃＧｉｌｌ大学保健センターのモントリオール病院）から得られたものであるので、もしパーティショニングが真のクラス、生化学的再発ステータス（本願での真のクラスに関連し得る）、およびサンプルの由来に関してバランスがとれているならば、パーティショニングは保持される。具体的には、パーティショニングにおけるサブセットの各ペアについて、両側フィッシャーの正確確率検定を使用して、各特性との関連性を試験する。潜在的な関連性のいずれかが有意である場合（ｐ＜０．０５）、バランスのとれたものが得られるまで、別の候補パーティショニングが生成される。

第３段階は、特徴の削減に焦点を当てている。ｘ－ｆｏｌｄクロスバリデーションの場合、各パーティションはｘ個のトレーニングサブセットを可能にする。この段階では、不変特徴、すなわち、全てのサンプルにわたって同じ値を有する特徴が、各トレーニングサブセットから除去される。所望であれば、次に、各残りの特徴は、真のクラスとの単変量関連性についてテストされる（例えば、両側マン・ホイットニ－Ｕ検定を用いて）。有意な関連性を有する特徴（例えば、Ｐ＜０．０１または０．０５）が保持される。

第４段階は、ｍｌｒパッケージｖ２．１５．０［Ｓ５２］（図６）を使用して、所望の機械学習アルゴリズムを用いて、ｘ－ｆｏｌｄクロスバリデーションを繰り返し実行する。アルゴリズムのオプション（括弧内はｍｌｒ実装識別子）には、決定木（ｃｌａｓｓｉｆ．ｒｐａｒｔ）、ｆｌｅｘｉｂｌｅｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓ（ｃｌａｓｓｉｆ．ｅａｒｔｈ）、ｌａｓｓｏまたはＥｌａｓｔｉｃＮｅｔ正則化を伴うＧＬＭ（ｌａｓｓｏｏｒｅｌａｓｔｉｃｎｅｔｒｅｇｕｌａｒｉｚａｔｉｏｎ）、交差検証ラムダ（ｃｌａｓｓｉｆ．ｃｖｇｌｍｎｅｔ）、ｋ最近傍（ｃｌａｓｓｉｆ．ｋｋｎｎ）、線形判別分析（ｃｌａｓｓｉｆ．ｌｄａ）、ロジスティック回帰（ｃｌａｓｓｉｆ．ｌｏｇｒｅｇ）、ナイーブベイズ（ｃｌａｓｓｉｆ．ｎａｉｖｅＢａｙｅｓ）、最近傍縮小重心（ｃｌａｓｓｉｆ．ｐａｍｒ）、二次判別分析（ｃｌａｓｓｉｆ．ｑｄａ）、ランダムフォレスト（ｃｌａｓｓｉｆ．ｒａｎｇｅｒ）、正則化判別分析（ｃｌａｓｓｉｆ．ｒｄａ），サポートベクターマシン（ｃｌａｓｓｉｆ．ｓｖｍ）などがある。アルゴリズムの選択にかかわらず、クロスバリデーションの繰り返しは、重み付けされていないサンプルを用いて実行される（すなわち、全てのサンプルは、デフォルトで等しく重み付けされる）。

サンプルの重み付けをサポートするアルゴリズムの場合、この段階は、負／正のゴールドスタンダードクラスの異なる重み付け、すなわち、３０％／７０％、４０％／６０％、５０％／５０％、６０％／４０％、７０％／３０％をクロスバリデーションする。具体的には、ｗ_ｎ％／（１００－ｗ_ｎ）％重み付けでは、それぞれ負と正のサンプルにｗ_ｎ／ｐ_ｎと（１００－ｗ_ｎ）／（１－ｐ_ｎ）の重みが割り当てられる。ここでｐ_ｎは負のゴールドスタンダードクラスのサンプルの比率である。したがって、全ての負のサンプルの総重みは、全体的なｗ_ｎ％を構成し、全ての正のサンプルの総重みは、全体的な（１００－ｗ_ｎ）％を構成する。他の全ての機械学習アルゴリズムパラメータについては、デフォルト値が使用される。

クロスバリデーションでは、分類器は、所与の機械学習アルゴリズム、データセット（前の段階で準備された）、およびサンプル重み付けを用いて、ｘ倍の（ｘ－１）について訓練される。この訓練が３回の試みの後に失敗した場合、パイプラインは、次の（ｘ－１）倍のデータを用いた訓練にスキップする。成功した場合、結果として得られる分類器は、２つの視点、すなわち、ｉ）各ケースからの低悪性度サンプルのみ、およびｉｉ）各ケースからの高悪性度サンプルのみから残りのフォールドのデータ（ｆｏｌｄｏｆｄａｔａ）に対してテストされる。それぞれの観点について、パイプラインは、ｘ回に渡って平均した受信者操作曲線下面積（ＡＵＣ）を計算し、０．５の操作点を用いて、

真陽性（ＴＰ）、偽陽性（ＦＰ）および真陰性（ＴＮ）の比率をｘ区分の全ての患者で計算する。さらに、これらの統計値のそれぞれについて、パイプラインは２つの観点［例：ＡＵＣ_ｍｅａｎ＝（ＡＵＣ_ｌｏｗ＋ＡＵＣ_ｈｉｇｈ）／２］から値の平均を報告する。最後に、パイプラインはさらに、クロスバリデーションの繰り返しにわたる（例えば、１０００のパーティショニングにわたる）中央値統計量を計算することによって要約する。

グレードグループ分類器ＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍのバリデーションパイプラインは、パイプラインがサポートする全ての可能な手法を徹底的にテストし、それによって最適な手法を網羅的に探索することを可能にした。検証のための手法の選定には、主に２つの要素がある。第１に、我々は、クロスバリデーションによるＡＵＣ値が大きい手法を望んだが、それは、それらが対応する分類器のより全体的な性能を示唆するからである。第二に、いくつかのＧＧ１症例（ＦＰ率により定量化）を過剰治療する代償として、これらの症例に対するより早期の介入を優先した臨床医との相談に従い、

上位２５のパフォーマンスの分類器は、０．７７２～０．７９０の範囲のＡＵＣを有し（図２）、それらの大部分は、正則化（ｒｅｇｕｌａｒｉｚｅｄ）判別分析またはサポートベクターマシンのいずれかを使用する。ＰＲＯＮＴＯ－ｍは、上位２５の分類器の中で唯一、ＴＰ率の制約（ＴＰレート＝０．８００、ＡＵＣ＝０．７７４）を満たしいる。バリデーションには、ＰＲＯＮＴＯ－ｅ（ＴＰ率＝０．８３３、ＡＵＣ＝０．７７０）を選択した。表５は、これら２つの分類器を生成に用いた手法を説明する。

次いで、選択された各手法は、必要なサンプルおよび特徴のデータを有する患者に限定した非分割トレーニングコホートを用いて、分類器をトレーニングするために使用された。クロスバリデーションと同様に、ＡＵＣ、ＴＰ率およびＦＰ率の平均値を算出した。ここで平均値は、低悪性度サンプルのみの値および高悪性度サンプルのみの値である。腫瘍内不均一性が知られているにもかかわらず［Ｓ５３］、診断時に生検サンプルの悪性度が腫瘍全体の全体的な悪性度をどの程度表しているかは不明である。この臨床シナリオをより良く模倣するために、バリデーションコホート中の各患者について、１つのサンプルをランダムに選択し、統計量を代表サンプルを用いて計算し、このプロセスを１０００回繰り返した。これらの繰り返しにおいて、ＡＵＣ、ＴＰ率、およびＦＰ率の中央値を計算した（すなわち、サンプリングベースの統計量）。

分子プロファイル間の類似度
この解析では、同一患者からのサンプルの分子プロファイル間の類似度（すなわち、低悪性度および高悪性度サンプルプロファイル間の類似度）を計算したため、サンプルが１つのみの患者は除外した。全てのプラットフォームで、欠損値のないプロファイルのみを考慮した（どのような特徴についても）。ＣＮＡプロファイルについては、検証済み分類器がこのプラットフォームからのＣＮＡ特徴のみを使用しているため、まずＭＬＰＡプラットフォームからの特徴にプロファイルを限定した。本発明者らは、ＣＮＡプロファイル間のペアワイズ類似性を、両方のサンプルが同じＣＮＡステータス（すなわち、変化または非変化）を有する特徴の割合として定義した。ＲＮＡ量およびメチル化プロファイルについては、本発明者らは、ペアワイズ類似度を特徴量間の一致係数と定義した。

単変量特徴解析

統計的検定からのｐ値は、同じプラットフォームからの全ての特徴にわたり、Ｂｅｎｊａｍｉｎｉ－Ｈｏｃｈｂｅｒｇ法を用いて調整した（その結果、ｑ値を得た）。サンプリング手順およびその後の統計計算を１０００回繰り返し、繰り返しにおける中央値、第１四分位値および第３の四分位値が計算できた。この特徴解析は、トレーニングデータおよびバリデーションデータとは別々に実施した。両コホートにわたる所与の特徴の単変量関連の有意性を推定するために、重み付きＺ法を使用して、各コホートからの中央値ｑ値を組み合わせ、各ｑ値を計算に用いた症例数で重み付けをした［Ｓ５４］。

結果
コホート／サンプルの概要トレーニングおよびバリデーションコホートにわたり、５３５例の前立腺摘除術症例からのサンプルについて、９５４のｍＲＮＡ、８４５のＮａｎｏＳｔｒｉｎｇ－ＣＮＡ、７９４のＭＬＰＡ－ＣＮＡ、および８４７のメチル化プロファイルの作成に成功した。また、４９２例のＣＡＰＲＡスコアも作成した。

ＧＧ分類器の開発および検証
分類器は、２つのサイトからの３３３症例について訓練され、独立した検証のために第３のサイトからの２０２症例を確保した（表４）。

早期介入の臨床的必要性から特異度よりも優先され、その結果、バリデーションのために上位２つのパフォーマンスの分類器、ＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍが選択された（表５）。ＧＧ＞２サンプルの症例については、これらの分類器はいずれもその症例の高悪性度サンプルのみを使用して訓練された。上位２５のパフォーマンスの分類器の性能統計（ＡＵＣによる）を図２に示す。ＰＲＯＮＴＯ－ｅは、３４２個のｍＲＮＡ量および１１個のＣＮＡ特徴を含む３５３個の特徴（表６）、並びにランダムフォレストを使用する。ＰＡＲＳＥ－ｍはより少ない特徴（合計で９４個）を使用するが、利用可能なデータカテゴリーが多く（ｍＲＮＡ６４個、ＣＮＡ１４個、メチル化１２個、臨床４個表６）、サポートベクターマシンを使用する。各症例からの低悪性度または高悪性度サンプルのみを用いて計算された性能統計値、および低悪性度および高悪性度の統計値の平均を図３Ａ～Ｃおよび表２に示す。

前立腺癌において腫瘍内の不均一性が報告されている［３８］にもかかわらず、１症例につき１つの無作為抽出サンプルを用いて計算したところ、性能統計値に顕著な安定性が認められた（図３Ｄ）。このプロセスは、生検でのサンプリングエラーを模倣しており、両分類器のバリデーション性能は、これまでに検証された有害な病理学的バイオマーカのものを超える特性を得た［１９，２０］（表２）。

検証された分類器は、頻繁に同じ症例からのペアサンプル間で一貫したＧＧ分類を提供した。つまり、ＰＲＯＮＴＯ－ｅについて７０．８％、およびＰＲＯＮＴＯ－ｍについて７３．９％であり、サンプリングエラーに対する高度の耐性を示す。

その傾向はＰＲＯＮＴＯ－ｍについても認められた（図３Ｆ）。

グレードグループの分子的特徴どの分子的特徴がＧＧと最も強く関連しているかを調べた。単変量解析により、２２の転写物の存在量と９の遺伝子座でのメチル化は、ＧＧと有意な関連を示した（調整済ｐ＜０．１、方法を参照；図４）。細胞型に特異的な発現パターンを識別することができたところでは、一部の転写産物は上皮または間質における優先的発現と関連していた［３９］。間質および上皮コンパートメントについても、同様の優先的発現率が認められた。同様に、それぞれの分子的特徴と高いＧＧとの関連についても、正負の割合がほぼ同じであった。興味深いことに、ＣＮＡ特徴については、ＧＧとの有意な単変量関連は同定されなかったが、ＧＧの多変量分類器にそれらを含めることで性能が改善した（図３Ｃ）。

クロスバリデーションにおけるマルチモーダル分類器のＣＡＰＲＡより優れた性能
ＣＡＰＲＡスコアは前立腺癌の予後に関する現在の臨床標準を表しており、診断時年齢や生検のＧＧなどの非分子的特徴のみを用いて算出される［Ｓ４９］。重要なことに、ＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍ分類器の両方が、クロスバリデーションにおいてＣＡＰＲＡ分類器よりも性能が優れ、ＴＰ率およびＡＵＣが高い（図３Ａ、Ｃ）。

ＧＧ分類器と腫瘍内不均一性
バリデーションコホートの各症例からの低悪性度または高悪性度サンプルのみを用いて計算されたＲＯＣ曲線は、腫瘍全体の悪性度に対するサンプルの悪性度によって分類器の性能に違いがあることを示している（図７Ａ）。ＰＲＯＮＴＯ－ｍ分類器のＲＯＣ曲線は、ＰＲＯＮＴＯ－ｅ分類器の曲線よりも乖離（ｄｉｖｅｒｇｅｎｔ）している。

ＰＲＯＮＴＯ－ｍ対ＰＲＯＮＴＯ－ｅではより広くなっている（図７Ｂ）。

同一症例から採取したサンプルの入力プロファイル（ＤＮＡ、ＲＮＡ）を比較することにより、検証済み分類器に対する腫瘍内不均一性の潜在的影響を検討した。

しかしながら、ＣＮＡおよびＲＮＡデータの両方について、類似度の中央値は、ＧＧサブセットに関係なく、０．９より大きく（図８）、これらの分子入力プロファイルは、症例内でかなり一貫性があることを示す。

議論
ここでは、独立した患者集団におけるＧＧ分類器の開発とＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍ分類器の検証について報告する。これらの結果は、多様な分子（例えば、ｍＲＮＡやＣＮＡ）の特徴を組み込むことで、有意な価値を加えることができることを示唆している（図３Ｃ）。

ＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍはいずれも、現在のアプローチに対する顕著な改善を示している。３つの市販のバイオマーカ検査は、生検組織について、診断時の早期ＣａＰの管理に関する情報を提供するために設計されている［４０］。Ｐｒｏｌａｒｉｓは、細胞周期進行遺伝子のＲＮＡ発現データを臨床的／病理学的パラメータ（ＭｙｒｉａｄＧｅｎｅｔｉｃｓ）と組み合わせて用い、１０年間の前立腺特異的死亡率のリスクを報告している［４１］。ＣａＰｓは典型的には５０～６５歳で診断され、死亡の大半は診断から２０～２５年後に起こることを考えると［４２］、ＰｒｏｌａｒｉｓはＡＳ前後の判断には十分適していない可能性がある。１７遺伝子ｑＰＣＲに基づく検査であるＯｎｃｏｔｙｐｅＤＸｐｒｏｓｔａｔｅ（ＧｅｎｏｍｉｃＨｅａｌｔｈ社）および定量的なｉｎｓｉｔｕプロテオミクス検査であるＰｒｏＭａｒｋ（ＭｅｔａｍａｒｋＧｅｎｅｔｉｃｓ社）［２２、４３］は、

これらの中級リスクの患者がＡＳを選択する上でグレーゾーンに置かれていることである。ＣＡＰＲＡの臨床的および病理学的ノモグラムにＯｎｃｏｔｙｐｅＤｘゲノム前立腺スコア（ＧＰＳ）を加えると、ＣＡＰＲＡ単独（ＡＵＣ＝０．６３）と比較して、有害な病理所見のＡＵＣがごくわずかに改善した（ＡＵＣ＝０．６７）［２０、４４］。ＰｒｏＭａｒｋの方がやや優れており、ＮＣＣＮ（ＮａｔｉｏｎａｌＣｏｍｐｒｅｈｅｎｓｉｖｅＣａｎｃｅｒＮｅｔｗｏｒｋ）ガイドラインにより予後良好と分類された患者にのみ用いた場合、「病状良好（ｆａｖｏｒａｂｌｅｐａｔｈｏｌｏｇｙ）」という単独の判定では、生検時のＡＵＣが０．６９であったのが［１９］、０．７５に上昇した［２、４５］。

ＯｎｃｏｔｙｐｅＤｘとＰｒｏＭａｒｋはいずれも腫瘍の不均一性に対する耐性を報告している［１９，２０］。これらの結果は、ＣａＰの侵攻性を媒介し、腫瘍全体のＧＧを反映し、表現型の腫瘍の不均一性の領域にわたって一貫して存在する測定可能なクローン性変化が存在することを示唆している［４６，４７］。今回の研究では、腫瘍の不均一性に耐性を示し、サンプリングに基づくＡＵＣが０．７９９（ＰＲＯＮＴＯ－ｅ）および０．７８６（ＰＲＯＮＴＯ－ｍ）であることを実証した２つの新しいＧＧの分類法を導き出し、独立して検証した。

ＰＲＯＮＴＯ－ｅは、ｍＲＮＡ量およびＤＮＡＣＮＡタイプに分けられた３５３の特徴を含む。よりコンパクトなＰＡＲＳＥ－ｍは、ｍＲＮＡ量、ＤＮＡＣＮＡ、およびＤＮＡメチル化タイプに分けられた９４の特徴を含み、手術前の臨床的および病理学的特徴（年齢、臨床ステージ、およびＰＳＡ、生検ＧＧ）を含む。両方の分類器は、ＧＧが最も正確な前立腺切除組織に由来しているにもかかわらず、サンプリングエラーに耐性があるため、生検組織に使用する場合、ＡＳか臨床管理か（ＡＳｖｅｒｓｕｓｃｌｉｎｉｃａｌｍａｎａｇｅｍｅｎｔ）の判断により良い情報を提供できる可能性が高い。現在、統計的に検出力のあるコホートからの生検サンプルを用いて分類器を検証する作業が進行中である。

ＯｎｃｏｔｙｐｅＤｘとＰｒｏｌａｒｉｓを同じ患者に実施すると、しばしば相反する推奨が得られる［４８］。それにもかかわらず、このテストは生検の頻度と過剰治療を減らす可能性を示しており［４０］、より正確な検査が、より優れているとまではいかなくても、同様の潜在的影響をもたらすことを示唆する。ＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍの性能がコア生検で検証されれば、これらのアッセイは、この影響を劇的に改善する可能性がある。ＡＳのために選択された１０００人の仮定（ｈｙｐｏｔｈｅｔｉｃａｌ）の男性の診断生検に、各検証済み分類器をモデル適用することは比較的簡単であり、これらの男性の３３％がＡＳ中にアップグレードされると想定される［４９］。

検査陽性者（男性１０００人中５３４人）のうち、２６７人がＴＰであり、早期の反復生検および治療が有益であると思われる。検査陰性の男性４６６人のうち、偽陰性となるのはわずか１３．５％（６３人）であろう。ＦＰ判定された全症例の２６．７％については、生検を追加するのではなく、より早期の最初のＡＳ生検を行うことを提案する。これらの患者に対する早期生検は、さらなる病的状態なしに低ＧＧ疾患の病理学的な安心（ｒｅａｓｓｕｒａｎｃｅ）を提供するであろう。ＰＲＯＮＴＯ－ｅの仮定的な結果も同様である（図９）。時間の経過とともに、このようなテストの使用は、低リスクと同定された患者の大部分に対するサーベイランスを緩和し、集団ベースで、生検の実施数を減少させることが可能である。

今回の研究により、ＰＲＯＮＴＯ－ｅおよびＰＲＯＮＴＯ－ｍは、サンプリングエラーに強いＧＧの分子バイオマーカとして確立され、したがって診断用生検でうまく機能する可能性が高いことが明らかになった。それらの臨床における性能を完全に検証するために、更なる研究が必要であり、進行中である。多病巣性ＣａＰは、生検によって高悪性度の「優性」病巣または「指標」病巣をサンプル採取できないまま、あまり重要でない低悪性度病巣を採取する可能性があるという点で、あらゆる生検検査の潜在的な落とし穴である。この現象は、生検と前立腺摘除の間にグレードアップした症例の２０～３０％を説明すると推定されている［１５，５０］。生検組織に対する分類器の性能はまた、小さな生検組織サンプルからの核酸収量が制限されることによっても損なわれる可能性がある。この制限は、外科用検体と比較して生検における分類器の性能を改善することが期待される因子によってバランスをとるべきであり、これには、生検組織で観察される高品質の核酸［５１］や、臨床アッセイにおいてより高感度で正確な大規模並列配列決定技術［５２］を採用する機会が含まれる。

いくつかの研究では、生検分類を手術後の転帰と関連付けているが、ＡＳを受けている男性の検査結果と転帰とを結びつける情報はほとんどない。ＡＳ患者の生検におけるＰＲＯＮＴＯ－ｅとＰＲＯＮＴＯ－ｍの更なる検証が必要である。全体として、これらの結果は、トランスクリプトーム、エピゲノム、およびゲノムの特徴を組み合わせることで、ＣａＰ組織についての臨床に関連するバイオマーカの性能を改善できることを示している。この結果は、他の生物試料の種類（例、血液または尿）および腫瘍部位に利点があり得ることを示唆している。

本発明の好ましい実施形態を本明細書に記載したが、本発明の精神または添付の特許請求の範囲から逸脱することなく、これに対して変形を加えることができることは、当業者には理解されるであろう。以下の参考文献リスト中のものを含む、本明細書中に開示される全ての文献は、参考として援用される。

Claims

前立腺癌を有する対象における疾患進行リスクを予測する方法であって、前記方法が
ａ）腫瘍細胞由来のＲＮＡおよびＤＮＡ材料を含有するサンプルを提供するステップと、
ｂ）表６のＰＲＯＮＴＯ－ｅについて列挙されるｍＲＮＡおよびコピー数異常（ＣＮＡ）特徴を含む３５３の患者特徴の実質的に全て、並びに表６に記載される参照または対照特徴の一部または全部の値を決定または測定するステップと、
ｃ）前記患者特徴を参照または対照特徴と比較するステップと、
ｄ）患者特徴値を入力データとして採用する分類器を用いて予測スコアを計算するステップであって、前記分類器が、早期前立腺癌患者の集団からのサンプルについて事前に訓練されているステップとを含む方法。
３５３の患者特徴の実質的に全てが３５３の患者特徴の全てである、請求項１に記載の方法。
予測スコアを決定することが、患者の腫瘍を病理学的グリーソングレードグループ（ＧＧ）クラスに分類することを含む、請求項１～２のいずれか１項に記載の方法。
患者の腫瘍を、

あるいは、スコアが＜０．５である場合には病理学的ＧＧ１クラスに分類する、請求項１～３のいずれか１項に記載の方法。
患者が病理学的ＧＧ１クラスに分類される場合に、アクティブサーベイランスで患者を管理することをさらに含む、請求項３～４のいずれか１項に記載の方法。
外科手術、内分泌療法、化学療法、放射線療法、ホルモン療法、遺伝子療法、熱療法、または超音波療法で患者を治療することをさらに含む、請求項３～４のいずれか１項に記載の方法。
前立腺癌を有する対象における疾患進行リスクを予測する方法であって、前記方法が、
ａ）腫瘍細胞由来のＲＮＡおよびＤＮＡ材料を含有するサンプルを提供するステップと、
ｂ）表６のＰＲＯＮＴＯ－ｍについて列挙されるｍＲＮＡ、ＣＮＡ、メチル化および臨床的特徴を含む９４の患者特徴の実質的に全て、並びに表６に記載された参照又は対照特徴の一部または全部を決定または測定するステップと、
ｃ）前記患者特徴を参照又は対照特徴と比較するステップ、および
ｄ）前記患者特徴の値を入力データとして採用する分類器を用いて予測スコアを計算するステップであって、前記分類器が、早期前立腺癌患者の集団からのサンプルについて事前に訓練されているステップとを含む方法。
９４の患者バイオマーカの実質的に全てが９４の患者バイオマーカの全てである、請求項７に記載の方法。
予測スコアを決定することが、患者の腫瘍を病理学的グリーソングレードグループ（ＧＧ）に分類することを含む、請求項７又は８に記載の方法。
患者の腫瘍を、

スコアが＜０．５である場合には病理学的ＧＧ１クラスに分類する、請求項７～９のいずれか１項に記載の方法。
患者が病理学的ＧＧ１クラスに分類される場合、アクティブサーベイランスで患者を管理することをさらに含む、請求項９又は１０に記載の方法。
外科手術、内分泌療法、化学療法、放射線療法、ホルモン療法、遺伝子療法、熱療法、または超音波療法で患者を治療することをさらに含む、請求項９または１０に記載の方法。
前立腺癌患者における疾患進行リスクを予測するコンピュータ実装方法であって、前記方法が、
ａ）少なくとも１つのプロセッサにおいて、前立腺癌腫瘍に関するＰＲＯＮＴＯ－ｅ又はＰＲＯＮＴＯ－ｍ分類器に対応して請求項１または７に定義される患者特徴の実質的に全てを反映するデータ、および表６に記載される参照または対照特徴の一部または全部を受信するステップと、
ｂ）少なくとも１つのプロセッサにおいて、患者特徴に基づく患者プロファイルを構築するステップと、
ｃ）少なくとも１つのプロセッサにおいて、前記患者プロファイルを参照または対照と比較するステップと、
ｄ）少なくとも１つのプロセッサにおいて、前記患者プロファイルを入力データとして採用する分類器を用いて予測スコアを計算し、前記分類器は、早期前立腺癌患者の集団からのサンプルについて事前に訓練されているステップを含む、コンピュータ実装方法。
ＰＲＯＮＴＯ－ｅの場合には実質的に全ての患者特徴が３５３の患者特徴の全てであり、ＰＲＯＮＴＯ－ｍの場合には９４の患者特徴の全てである、請求項１３に記載の方法。
前記予測スコアを計算することが、患者の腫瘍を病理学的ＧＧクラスに分類することを含む、請求項１３または１４に記載の方法。
一つのプロセッサおよび前記プロセッサに接続されたメモリとを有する汎用コンピュータと共に使用するためのコンピュータプログラム製品であって、前記コンピュータプログラム製品が、エンコードされたコンピュータメカニズムを有するコンピュータ読み取り可能な記憶媒体を備え、コンピュータプログラムメカニズムが、コンピュータのメモリにロードされても良く、前記コンピュータに請求項１３～１５のいずれか１つに記載の方法を実行させ得る、コンピュータプログラム製品。
請求項１６に記載のコンピュータプログラム製品を記憶するためのデータ構造を記憶したコンピュータ読み取り可能な媒体。
前立腺癌患者における疾患進行リスクを予測するための装置であって、前記装置が、
少なくとも１つのプロセッサおよび、
少なくとも１つのプロセッサと通信する電子メモリを備え、前記電子メモリが、少なくとも１つのプロセッサを実行する際に、少なくとも１つのプロセッサに、
ａ）前立腺癌腫瘍に関するＰＲＯＮＴＯ－ｅまたはＰＲＯＮＴＯ－ｍ分類器に対応して請求項１または７に定義される患者特徴の実質的に全て、および表６に記載される参照または対照特徴の一部または全部を反映するデータを受信し、
ｂ）前記患者特徴を参照または対照特徴と比較させ、および
ｃ）少なくとも１つのプロセッサで、患者プロファイルを入力データとして採用する分類器を用いて予測スコアを計算させ、前記分類器は、早期前立腺癌患者の集団からのサンプルについて事前に訓練されていることを特徴とする、
プロセッサ実行可能なコードを記憶する装置。
前記患者特徴の実質的に全てが、ＰＲＯＮＴＯ－ｅの場合には３５３の患者特徴の全てであり、ＰＲＯＮＴＯ－ｍの場合には９４の患者バイオマーカの全てである、請求項１８に記載の装置。
前記予測スコアを計算することが、患者の腫瘍を病理学的ＧＧクラスに分類することを含む、請求項１８または１９に記載の装置。