JP2022521791A

JP2022521791A - 病原体検出のための配列決定データを使用するためのシステムおよび方法

Info

Publication number: JP2022521791A
Application number: JP2021550012A
Authority: JP
Inventors: ロザックマー，アリアン; ラウ，デニス; エー．カーン，アリー
Original assignee: テンパスラブズ，インコーポレイテッド
Priority date: 2019-02-26
Filing date: 2020-02-26
Publication date: 2022-04-12
Also published as: US20200273576A1; EP3931360A1; US11043304B2; US20210272695A1; WO2020176620A1; EP3931360A4

Abstract

発癌性病原性感染に関連する第１の癌状態発癌性病原性感染に関連しない第２の癌状態を識別するように分類器を訓練するためのシステムおよび方法が提供される。癌の病理に寄与する発癌性病原性感染に関連する癌および発癌性病原性感染に関連しない癌を識別するためのシステムおよび方法が提供される。癌が発癌性病原性感染に関連しているかどうかに基づいて癌を治療するためのシステムおよび方法が提供される。

Description

関連出願の相互参照
この出願は、２０１９年２月２６日に出願された米国仮特許出願第６２／８１０，８４９号の優先権を主張し、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。

本開示は、概して、癌性組織由来の発現プロファイルを使用して、癌患者における発癌性病原性感染を検出することに関する。

精密腫瘍学は、例えば、個々の腫瘍の特有の病理学、ゲノム、エピジェネティック、および／またはトランスクリプトームのプロファイルからなる、特定の個人に対して癌治療を調整する実践である。対照的に、従来の癌治療は、単に治療されている癌の型に基づく。例えば、従来、すべての乳癌は、第１の治療レジメンで治療され、一方、すべての肺癌は、第２の治療レジメンで治療されるであろう。精密腫瘍学は、同じ型の癌、例えば乳癌と診断された異なる患者が同じ治療レジメンに対して非常に異なって反応したという多くの観察から生まれた。時間の経過とともに、研究者らは、個々の癌が特定の治療法にどのように反応するかについて、ある程度の予測を容易にするゲノム、エピジェネティック、およびトランスクリプトームマーカーを特定してきた。

標的療法の使用は、特に無増悪生存の観点で、癌患者の転帰において顕著な改善をもたらした。Ｒａｄｏｖｉｃｈｅｔａｌ．，Ｏｎｃｏｔａｒｇｅｔ，７：５６４９１－５００（２０１６）。３，７４３人の患者由来の進行期腫瘍の遺伝子検査を含み、患者の約１９％が腫瘍生物学に基づいて一致した標的療法を受けた、ＩＭＰＡＣＴ試験から報告された最近の証拠は、一致した治療を受けた患者おいて１６．２％に対し、一致しなかった治療を受けた患者において５．２％の奏効率を示した。Ｂａｎｋｈｅａｄ，“ＩＭＰＡＣＴＴｒｉａｌ：ＳｕｐｐｏｒｔｆｏｒＴａｒｇｅｔｅｄＣａｎｃｅｒＴｘＡｐｐｒｏａｃｈｅｓ，”ＭｅｄＰａｇｅＴｏｄａｙ，Ｊｕｎｅ５，２０１８。ＩＭＰＡＣＴ研究では、分子的に一致した治療を受けた患者の３年全生存率は、一致しない患者の２倍超であることもわかった（１５％対７％）。Ｉｄ．；ＡＳＣＯＰｏｓｔ，“２０１８ＡＳＣＯ：ＩＭＰＡＣＴＴｒｉａｌＭａｔｃｈｅｓＴｒｅａｔｍｅｎｔｔｏＧｅｎｅｔｉｃＣｈａｎｇｅｓｉｎｔｈｅＴｕｍｏｒｔｏＩｍｐｒｏｖｅＳｕｒｖｉｖａｌＡｃｒｏｓｓＭｕｌｔｉｐｌｅＣａｎｃｅｒｃｏｎｄｉｔｉｏｎｓ，”ＴｈｅＡＳＣＯＰＯＳＴ，Ｊｕｎｅ６，２０１８。遺伝子検査によってケアの軌道が変わる患者の割合の推定値は、約１０％～５０％超まで広く変化する。Ｆｅｒｎａｎｄｅｓｅｔａｌ．，Ｃｌｉｎｉｃｓ，７２：５８８－９４（２０１７）。

特定のゲノム変化を対象とした療法は、例えば、メラノーマ、結腸直腸癌、および非小細胞肺癌についてのｔｈｅＮａｔｉｏｎａｌＣｏｍｐｒｅｈｅｎｓｉｖｅＣａｎｃｅｒＮｅｔｗｏｒｋ（ＮＣＣＮ）ガイドラインにおいて示唆されているように、すでにいくつかの腫瘍型において標準のケアある。ＮＣＣＮガイドラインにおけるいくつかのよく知られた変異は、個々のアッセイまたは小型次世代配列決定（ＮＧＳ）パネルを使用して癌患者において特定され得る。しかしながら、最大数の癌患者が個別化された腫瘍学の恩恵を受けるためには、適応外薬の指標、併用療法、または組織非依存性免疫療法の使用を促進するために、より包括的な病理学的、ゲノム、エピジェネティック、および／またはトランスクリプトームの解析が必要である。Ｓｃｈｗａｅｄｅｒｌｅｅｔａｌ．，ＪＡＭＡＯｎｃｏｌ．，２：１４５２－５９（２０１６）、Ｓｃｈｗａｅｄｅｒｌｅｅｔａｌ．，ＪＣｌｉｎＯｎｃｏｌ．，３２：３８１７－２５（２０１５）、およびＷｈｅｌｅｒｅｔａｌ．，ＣａｎｃｅｒＲｅｓ．，７６：３６９０－７０１（２０１６）。

発癌性病原体感染の存在は、すべての癌の１０～１２％を占める。例えば、胃癌は、世界で３番目に多い癌による死亡の一般的原因であり、２０１２年においては７０万人超が胃癌を病因とすると推定されている。Ｆｅｒｌａｙ，ｅｔａｌ．，“ＣａｎｃｅｒＩｎｃｉｄｅｎｃｅａｎｄＭｏｒｔａｌｉｔｙＷｏｒｌｄｗｉｄｅ，”ＩＡＲＣＣａｎｃｅｒＢａｓｅ１１［Ｉｎｔｅｒｎｅｔ］，Ｌｙｏｎ，Ｆｒａｎｃｅ：ＩｎｔｅｒｎａｔｉｏｎａｌＡｇｅｎｃｙｆｏｒＲｅｓｅａｒｃｈｏｎＣａｎｃｅｒ（２０１３）。遺伝的要因に加えて、胃の発癌は、エプスタインバーウイルス（ＥＢＶ）感染を含む複数の環境要因に関連していると考えられている。Ｂｕｒｋｅｅｔａｌ．，ＭｏｄＰａｔｈｏｌ．，３：３７７－３８０（１９９０）。実際、最近の癌ゲノムアトラス研究は、ＥＢＶ陽性胃癌を特定の亜型として定義する分子分類を提供した。ＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓＲｅｓｅａｒｃｈＮｅｔｗｏｒｋ，Ｎａｔｕｒｅ，５１３（７５１７）：２０２－０９（２０１４）。

したがって、そのような発癌性病原体の存在は、関連する癌の予後に影響を及ぼす。したがって、対象が発癌性病原体に関連して頻繁に発生することが知られている型の癌を有する場合、対象の治療選択肢を変える可能性があるため、対象の病原体状態の知見が重要である。例えば、ＨＰＶ陽性の頭頸部癌について放射線療法または化学療法の用量減少の利点を調査する多くの臨床試験は、有望な結果を示している。加えて、病原体関連腫瘍は、より高いレベルの炎症および免疫浸潤を示す可能性が高く、免疫療法の優れた候補となる。

従来の発癌性病原体診断の欠点は、対象が特定の病原体に感染しているかどうかを判断するために、最初に対象を癌と診断するために使用された、または癌の病期を評価するために使用されたアッセイとは個別に分けて、完全に独立したアッセイが実行されることである。例えば、ＥＢＶの場合、切除された組織、生検、または血液についてのｉｎｓｉｔｕハイブリダイゼーション（ＩＳＨ）もしくはポリメラーゼ連鎖反応（ＰＣＲ）、または血清試料についての酵素結合免疫吸着測定法（ＥＬＩＳＡ）もしくは免疫蛍光測定法（ＩＦＡ）などの個別の検査室方法が、ＥＢＶ感染を検出するために実行される。これは、診断の費用を増加させ、場合によっては、発癌性病原体に関連することが知られている型の癌が診断された後にのみ病原体検査が実行されて、病原体アッセイの結果が得られるまで対象の治療計画の作成を遅らせるため、不十分である。

上記の背景を考慮すると、当該技術分野において必要とされるのは、病原体検出のための別個の独立したアッセイを必要とせずに、所与の病原体検出の存在を直接決定する病原体検出のための改善されたシステムおよび方法である。

したがって、癌の病理に寄与する発癌性病原体感染に関連する癌および発癌性病原体感染に関連しない癌を識別するための改善された方法が提供される。それらの癌が発癌性病原体感染に関連しているかどうかに基づいて、癌患者を治療するための改善された方法も提供される。本開示は、例えば、発癌性病原体感染に関連しない癌よりも発癌性病原体感染に関連する癌において差次的に発現される遺伝子のセットを特定するための方法を提供することによって、これらの必要性に対処する。本開示はまた、発癌性病原体感染に関連する癌および発癌性病原体感染に関連しない癌を、２つの型の癌において差次的に調節される特定された遺伝子に基づいて、識別するように分類器を訓練するための方法を提供する。したがって、訓練された分類器を使用して、発癌性病原体感染に関連するか、または発癌性病原体感染に関連しないかのいずれかとして患者における癌を分類するための方法も提供される。これらの方法は、次に、それら癌が発癌性病原体感染に関連しているかどうかに基づいて、患者の異なる治療を可能にする。

本開示の一態様は、第１の癌状態および第２の癌状態を識別するように分類器を訓練するための方法を提供し、第１の癌状態は、第１の発癌性病原体による感染に関連し、第２の癌状態は、発癌性病原体を含まない状態に関連する。方法は、コンピュータで、データセットを取得することを含み、それは、ある種の複数の対象における各それぞれの対象について、（ｉ）対応する複数の存在量値であって、対応する複数の存在量値における各それぞれの存在量値は、それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、対応する複数の存在量値と、（ｉｉ）それぞれの対象の癌状態の指標であって、それぞれの対象が第１の癌状態、または第２の癌状態を有するかどうかを特定する、癌状態の指標と、を含み、複数の対象は、第１の癌状態に罹患している第１の対象のサブセットおよび第２の状態に罹患している第２の対象のサブセットを含む。

次に、方法は、複数の対象におけるそれぞれの対象の対応する複数の存在量値および癌状態のそれぞれの指標を使用して識別遺伝子セットを特定することを含み、識別遺伝子セットは、複数の遺伝子のサブセットを含む。

いくつかの実施形態において、識別遺伝子セットの特定は、回帰アルゴリズムを使用して、複数の対象にわたる癌状態のそれぞれの指標に対する複数の対象にわたる複数の存在量値のすべてまたはサブセットに基づいてデータセットを回帰し、それにより、複数の回帰係数における、対応する回帰係数を、複数の遺伝子における各それぞれの遺伝子に対して割り当てることと、係数閾値を満たす回帰アルゴリズムによって係数が割り当てられた識別遺伝子セットについて、複数の遺伝子においてそれらの遺伝子を選択することと、を含む。

いくつかの代替の実施形態において、識別遺伝子セットの特定は、複数のセットにおける各セットが、第１の癌状態に罹患している２つ以上の対象および第２の状態に罹患している２つ以上の対象を含む、複数のセットにデータセットを分割することと、回帰アルゴリズムを使用して、それぞれのセットの対象にわたる癌状態のそれぞれの指標に対するそれぞれのセットの対象にわたる複数の存在量値のすべてまたはサブセットに基づいて、複数のセットにおける各それぞれのセットを独立して回帰し、それにより、複数の回帰係数における、対応する回帰係数を、複数の遺伝子における各それぞれの遺伝子に対して割り当てることと、複数のセットの少なくとも閾値パーセンテージについての係数閾値を満たす回帰アルゴリズムによって係数が割り当てられた識別遺伝子セットについて、複数の遺伝子においてそれらの遺伝子を選択することと、を含む。いくつかの実施形態において、複数のセットは、５～５０個のセット（例えば、１０個のセット）からなる。

いくつかの実施形態において、係数閾値は、ゼロである。対応する回帰係数の絶対値がゼロより大きい場合、係数閾値が満たされる。

いくつかの実施形態において、上で開示された回帰アルゴリズムは、ロジスティック回帰である。いくつかのそのような実施形態において、ロジスティック回帰は以下を想定している：

式中、ｘ_ｉ＝（ｘ_ｉ１、ｘ_ｉ２、…、ｘ_ｉｋ）は、ｉ番目の対応する対象の腫瘍試料由来の複数の遺伝子について対応する複数の存在量値であり、Ｙ∈｛０、１｝は、対応する対象ｉが第１の癌状態を有する場合に値「１」を有し、対応する対象ｉが第２の癌状態を有する場合に値「０」を有するクラスラベルであり、Ｐ（Ｙ＝１｜ｘ_ｉ）は、ｉ番目の対応する対象が第１の癌クラスのメンバーである推定確率である。さらに、β_０は、切片であり、β_ｊ＝（ｊ＝１、．．．ｋ）は、複数の回帰係数であり、複数の回帰係数における各それぞれの回帰係数は、複数の遺伝子における対応する遺伝子に対するものである。そのような実施形態において、ｉ番目の対応する対象は、Ｐ（Ｙ＝１／ｘ_ｉ）が事前定義された閾値（０．５）を超える場合、第１の癌クラスに割り当てられ、そうでない場合、第２の癌クラスに割り当てられる。

いくつかの実施形態において、ロジスティック回帰は、ロジスティック最小絶対収縮および選択演算子（ＬＡＳＳＯ）回帰である。そのような実施形態において、ロジスティックＬＡＳＳＯ推定器

．．．

は、以下の負の対数尤度の最小化として定義される。
最小

、
制約

を受ける。

いくつかの実施形態において、回帰アルゴリズムは、Ｌ１またはＬ２正則化を伴うロジスティック回帰である。

方法はさらに、複数の対象にわたる識別遺伝子セットのそれぞれの存在量値および癌状態のそれぞれの指標を使用して、識別遺伝子セットについてのそれぞれの存在量値の関数として第１の癌状態および第２の癌状態を識別するように分類器（例えば、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズム）を訓練することを含む。

本開示の別の態様は、対象における第１の癌状態および第２の癌状態を識別するための方法を提供し、第１の癌状態は、第１の発癌性病原体による感染に関連し、第２の癌状態は、発癌性病原体を含まない状態に関連する。方法は、対象についてのデータセットを取得することを含み、データセットは、複数の存在量値を含み、複数の存在量値における各それぞれの存在量値は、対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。次に、方法は、データセットを、本明細書に記載の方法論のいずれか１つに従って訓練された分類器に入力することを含む。

本開示の別の態様は、ヒト対象における第１の癌状態および第２の癌状態を識別するための複数の核酸プローブを提供し、第１の癌状態は、発癌性病原体感染に関連し、第２の癌状態は、発癌性病原体を含まない状態に関連する。核酸プローブは、発癌性病原体感染に関連する癌において差次的に発現されると特定された遺伝子の配列と相補的または同一である核酸配列を有する。

本開示の別の態様は、第１の型の癌を有する対象における第１の癌状態および第２の癌状態を識別するための方法を提供し、第１の癌状態は、第１の発癌性病原体による感染に関連し、第２の癌状態は、発癌性病原体を含まない状態に関連する。方法は、対象についてのデータセットを取得することを含み、データセットは、複数の存在量値（例えば、相対的ｍＲＮＡ発現値）を有し、複数の存在量値における各それぞれの存在量値は、対象由来の癌性組織における、識別遺伝子セットにおける、対応する遺伝子の発現レベルを定量化する。次に、方法は、対象の癌性組織における識別遺伝子セットについての存在量値に基づいて、少なくとも第１の癌状態および第２の癌状態を識別するように訓練された分類器にデータセットを入力し、それによって対象の癌状態を決定することを含む。

いくつかの実施形態において、第１の型の癌は、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、頭頸部癌、卵巣癌、肝胆道癌、子宮頸癌、甲状腺癌、または膀胱癌である。

いくつかの実施形態において、データセットは、対象由来の癌性組織のゲノムにおける１つ以上の遺伝子座での１つ以上の変異対立遺伝子についての変異対立遺伝子カウントをさらに含む。

いくつかの実施形態において、第１の癌状態は、エプスタインバーウイルス（ＥＢＶ）、Ｂ型肝炎ウイルス（ＨＢＶ）、Ｃ型肝炎ウイルス（ＨＣＶ）、ヒトパピローマウイルス（ＨＰＶ）、ヒトＴ細胞リンパ球向性ウイルス（ＨＴＬＶ－１）、カポジ関連肉腫ウイルス（ＫＳＨＶ）、およびメルケル細胞ポリオーマウイルス（ＭＣＶ）からなる群から選択される第１の発癌性病原体による感染に関連する。

いくつかの実施形態において、第１の癌状態は、ヒトパピローマウイルス（ＨＰＶ）に関連する子宮頸癌、ＨＰＶに関連する頭頸部癌、エプスタインバーウイルス（ＥＢＶ）に関連する胃癌、ＥＢＶに関連する鼻咽頭癌、ＥＢＶに関連するバーキットリンパ腫、ＥＢＶに関連するホジキンリンパ腫、Ｂ型肝炎ウイルス（ＨＢＶ）に関連する肝臓癌、Ｃ型肝炎ウイルス（ＨＣＶ）に関連する肝臓癌、カポジ関連肉腫ウイルス（ＫＳＨＶ）に関連するカポジ肉腫、ヒトＴ細胞リンパ球向性ウイルス（ＨＴＬＶ－１）に関連する成人Ｔ細胞白血病／リンパ腫、およびメルケル細胞ポリオーマウイルス（ＭＣＶ）に関連するメルケル細胞癌からなる群から選択される。

いくつかの実施形態において、第１の癌状態は、ヒトパピローマウイルス（ＨＰＶ）発癌性ウイルスによる感染に関連し、第２の癌状態は、ＨＰＶを含まない状態に関連し、識別遺伝子セットは、表３に記載の遺伝子から選択される少なくとも５つの遺伝子を含む。いくつかの実施形態において、第１の癌状態は、ヒトパピローマウイルス（ＨＰＶ）による感染に関連する子宮頸癌である。いくつかの実施形態において、第１の癌状態は、ヒトパピローマウイルス（ＨＰＶ）による感染に関連する頭頸部癌である。いくつかの実施形態において、識別遺伝子セットは、表３に記載の遺伝子から選択される少なくとも１０個の遺伝子を含む。いくつかの実施形態において、識別遺伝子セットは、表３に記載の遺伝子から選択される少なくとも２０個の遺伝子を含む。いくつかの実施形態において、識別遺伝子セットは、少なくとも表３に記載の遺伝子の２４個すべてを含む。いくつかの実施形態において、データセットはまた、対象由来の癌性組織のゲノムにおけるＴＰ５３（ＥＮＳＧ０００００１４１５１０）およびＣＤＫＮ２Ａ（ＥＮＳＧ０００００１４７８８９）についての変異対立遺伝子カウントを含む。

いくつかの実施形態において、方法はまた、分類器の結果が、ヒト癌患者がＨＰＶ発癌性ウイルスに感染していることを示す場合、ＨＰＶ感染に関連する子宮頸癌の治療のために調整された第１の療法を実施すること、および、分類器の結果が、ヒト癌患者がＨＰＶ発癌性ウイルスに感染していないことを示す場合、ＨＰＶ感染に関連しない子宮頸癌の治療のために調整された第２の療法を実施すること、によって、子宮頸癌について対象を治療することを含む。いくつかの実施形態において、ＨＰＶ感染に関連する子宮頸癌の治療のために調整された第１の療法は、治療用ワクチンまたは養子細胞療法を含む。いくつかの実施形態において、ＨＰＶ感染に関連しない子宮頸癌の治療のために調整された第２の療法は、化学療法である。いくつかの実施形態において、化学療法は、シスプラチンと、５－フルオロウラシル、パクリタキセル、およびベバシズマブからなる群から選択される第２の治療薬との共投与を含む。

いくつかの実施形態において、方法はまた、分類器の結果が、ヒト癌患者がＨＰＶ発癌性ウイルスに感染していることを示す場合、ＨＰＶ感染に関連する頭頸部癌の治療のために調整された第１の療法を実施すること、および、分類器の結果が、ヒト癌患者がＨＰＶ発癌性ウイルスに感染していないことを示す場合、ＨＰＶ感染に関連しない頭頸部癌の治療のために調整された第２の療法を実施すること、によって、頭頸部癌について対象を治療することを含む。いくつかの実施形態において、ＨＰＶ感染に関連する頭頸部癌の治療のために調整された第１の療法は、治療用ワクチン、免疫チェックポイント阻害剤、またはＰＩ３Ｋ阻害剤を含む。いくつかの実施形態において、ＨＰＶ感染に関連しない頭頸部癌の治療のために調整された第２の療法は、化学療法を含む。いくつかの実施形態において、化学療法は、シスプラチンの投与を含み、第２の療法はまた、同時放射線療法または術後化学放射線療法を含む。

いくつかの実施形態において、第１の癌状態は、エプスタインバーウイルス（ＥＢＶ）発癌性ウイルスによる感染に関連し、第２の癌状態は、ＥＢＶを含まない状態に関連し、識別遺伝子セットは、表４に記載の遺伝子から選択される少なくとも５つの遺伝子を含む。いくつかの実施形態において、第１の癌状態は、エプスタインバーウイルス（ＥＢＶ）による感染に関連する胃癌である。いくつかの実施形態において、識別遺伝子セットは、表４に記載の９つの遺伝子すべてを含む。いくつかの実施形態において、データセットはまた、対象由来の癌性組織のゲノムにおけるＴＰ５３（ＥＮＳＧ０００００１４１５１０）およびＰＩＫ３ＣＡ（ＥＮＳＧ０００００１２１８７９）についての変異対立遺伝子カウントを含む。

いくつかの実施形態において、方法はまた、分類器の結果が、ヒト癌患者がＥＢＶ発癌性ウイルスに感染していることを示す場合、ＥＢＶ感染に関連する胃癌の治療のために調整された第１の療法を実施すること、および、分類器の結果が、ヒト癌患者がＥＢＶ発癌性ウイルスに感染していないことを示す場合、ＥＢＶ感染に関連しない胃癌の治療のために調整された第２の療法を実施すること、によって、胃癌について対象を治療することを含む。いくつかの実施形態において、ＥＢＶ感染に関連する胃癌の治療のために調整された第１の療法は、免疫チェックポイント阻害剤を含む。いくつかの実施形態において、ＥＢＶ感染に関連しない胃癌の治療のために調整された第２の療法は、化学療法を含む。いくつかの実施形態において、化学療法は、パクリタキセル、カルボプラチン、シスプラチン、５－フルオロウラシル、およびオキサリプラチンからなる群から選択される治療薬の投与を含む。

いくつかの実施形態において、方法はまた、分類器の結果が、ヒト癌患者が第１の発癌性病原体に感染していることを示す場合、第１の発癌性病原体による感染に関連する第１の型の癌の治療のために調整された第１の療法を実施すること、および、分類器の結果が、ヒト癌患者が第１の発癌性病原体に感染していないことを示す場合、発癌性病原体を含まない状態に関連する第１の型の癌の治療のために調整された第２の療法を実施すること、によって、癌について対象を治療することを含む。

いくつかの実施形態において、分類器は、（１）ある種の複数の対象における各それぞれの対象について、（ｉ）対応する複数の存在量値であって、対応する複数の存在量値における各それぞれの存在量値は、それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、対応する複数の存在量値と、（ｉｉ）それぞれの対象の癌状態の指標であって、それぞれの対象が第１の癌状態、または第２の癌状態を有するかどうかを特定する、癌状態の指標と、を含み、複数の対象は、第１の癌状態に罹患している第１の対象のサブセットおよび第２の状態に罹患している第２の対象のサブセットを含む、データセットを取得することと、（２）複数の対象におけるそれぞれの対象の対応する複数の存在量値および癌状態のそれぞれの指標を使用して識別遺伝子セットを特定することであって、識別遺伝子セットは、複数の遺伝子のサブセットを含む、特定することと、（３）複数の対象にわたる識別遺伝子セットについてのそれぞれの存在量値および癌状態のそれぞれの指標を使用して、識別遺伝子セットについてのそれぞれの存在量値の関数として、第１の癌状態および第２の癌状態を識別するように分類器を訓練することと、を含む、方法によって訓練された。

他の実施形態は、本明細書に記載の方法に関連するシステム、携帯型消費者デバイス、およびコンピュータ可読媒体を対象としている。

本明細書に開示されるように、適用可能な場合、本明細書に開示される任意の実施形態は、任意の態様に適用し得る。

本開示の追加の態様および利点は、以下の詳細な説明から当業者に容易に明らかになり、本開示の例示的な実施形態のみが示され、説明される。理解されるように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、すべて本開示から逸脱することなく、様々な明白な点で修正し得る。したがって、図面および明細書は、本質的に例示的なものと見なされるべきであり、限定的なものとして見なされるべきではない。

本開示のいくつかの実施形態による、例示的なコンピューティングデバイスのブロック図を示す。本開示のいくつかの実施形態による、例示的なコンピューティングデバイスのブロック図を示す。本開示のいくつかの実施形態による、第１の発癌性病原体による感染に関連する第１の癌状態および発癌性病原体を含まない状態に関連する第２の癌状態を識別するように分類器を訓練するためのプロセスおよび特徴のフローチャートを提供し、任意のブロックは破線のボックスで示される。本開示のいくつかの実施形態による、第１の発癌性病原体による感染に関連する第１の癌状態および発癌性病原体を含まない状態に関連する第２の癌状態を識別するように分類器を訓練するためのプロセスおよび特徴のフローチャートを提供し、任意のブロックは破線のボックスで示される。本開示のいくつかの実施形態による、第１の発癌性病原体による感染に関連する第１の癌状態および発癌性病原体を含まない状態に関連する第２の癌状態を識別するように分類器を訓練するためのプロセスおよび特徴のフローチャートを提供し、任意のブロックは破線のボックスで示される。本開示のいくつかの実施形態による、第１の発癌性病原体による感染に関連する第１の癌状態および発癌性病原体を含まない状態に関連する第２の癌状態を識別するように分類器を訓練するためのプロセスおよび特徴のフローチャートを提供し、任意のブロックは破線のボックスで示される。本開示のいくつかの実施形態による、第１の発癌性病原体による感染に関連する第１の癌状態および発癌性病原体を含まない状態に関連する第２の癌状態を識別するように分類器を訓練するためのプロセスおよび特徴のフローチャートを提供し、任意のブロックは破線のボックスで示される。本開示のいくつかの実施形態による、第１の発癌性病原体による感染に関連する第１の癌状態および発癌性病原体を含まない状態に関連する第２の癌状態を識別し、任意で癌の発癌性病原体状態に基づいて癌状態を治療するためのプロセスおよび特徴のフローチャートを提供する。本開示のいくつかの実施形態による、ＨＰＶ発癌性ウイルス感染に関連する第１の癌状態およびＨＰＶ発癌性ウイルス感染に関連しない第２の癌状態を識別するように分類器を訓練するためのＴＧＣＡ訓練および試験データセットの構成の内訳を提供する。本開示のいくつかの実施形態による、ＨＰＶ発癌性ウイルス感染に関連する第１の癌状態およびＨＰＶ発癌性ウイルス感染に関連しない第２の癌状態を識別するために有用な癌性組織の特徴を示す。本開示のいくつかの実施形態による、ＨＰＶ発癌性ウイルス感染に関連する第１の癌状態およびＨＰＶ発癌性ウイルス感染に関連しない第２の癌状態を識別するための、訓練データセットに対して訓練されたサポートベクトルマシンについての性能測定基準を示す。本開示のいくつかの実施形態による、ＨＰＶ発癌性ウイルス感染に関連する第１の癌状態およびＨＰＶ発癌性ウイルス感染に関連しない第２の癌状態を識別するための、検証データセットに対して訓練されたサポートベクトルマシンについて性能測定基準を示す。本開示のいくつかの実施形態による、ＥＢＶ発癌性ウイルス感染に関連する第１の癌状態およびＥＢＶ発癌性ウイルス感染に関連しない第２の癌状態を識別するように分類器を訓練するためのＴＧＣＡ訓練および試験データセットの構成の内訳を提供する。本開示のいくつかの実施形態による、ＥＢＶ発癌性ウイルス感染に関連する第１の癌状態およびＨＰＶ発癌性ウイルス感染に関連しない第２の癌状態を識別するために有用な癌性組織の特徴を示す。本開示のいくつかの実施形態による、ＥＢＶ発癌性ウイルス感染に関連する第１の癌状態およびＥＢＶ発癌性ウイルス感染に関連しない第２の癌状態を識別するための、訓練データセットに対して訓練されたサポートベクトルマシンについての性能測定基準を示す。本開示のいくつかの実施形態による、ＥＢＶ発癌性ウイルス感染に関連する第１の癌状態およびＥＢＶ発癌性ウイルス感染に関連しない第２の癌状態を識別するための、検証データセットに対して訓練されたサポートベクトルマシンについて性能測定基準を示す。本開示のいくつかの実施形態による、実施例３において、頭頸部癌および子宮頸癌の組織試料におけるＨＰＶウイルス感染に関連する頭頸部癌および子宮頸癌において差次的に発現されると特定された遺伝子の発現特徴の主成分分析を示す。本開示のいくつかの実施形態による、実施例４において、頭頸部癌および子宮頸癌の組織試料におけるＥＢＶウイルス感染に関連する胃癌において差次的に発現されると特定された遺伝子の発現特徴の主成分分析を示す。本開示のいくつかの実施形態による、ＨＰＶ陽性の頭頸部扁平上皮癌の報告例を示す。本開示のいくつかの実施形態による、ＨＰＶ陽性子宮頸癌の報告例を示す。

図面のいくつかの図を通して、同様の参照番号は、対応する部分を指す。

本開示は、癌病理に寄与する発癌性病原体感染に関連する癌を、発癌性病原体感染に関連しない癌と区別するために有用なシステムおよび方法を提供する。本開示はさらに、癌が発癌性病原体感染に関連するかどうかに基づいて、癌患者を治療するのに有用なシステムおよび方法を提供する。

有利なことに、本明細書に記載のシステムおよび方法は、追加の診断アッセイを必要とせずに、癌における発癌性病原体の検出を可能にする。驚くべきことに、発癌性病原体感染は、腫瘍生検におけるｍＲＮＡ発現レベルに基づいて特定し得ることがわかった。したがって、これらの病原体の核酸またはタンパク質成分を特定するために開発された追加のアッセイは、本開示によって不要とされる。むしろ、単一のｍＲＮＡ発現分析を実行して、癌の転写プロファイルの特徴付け、およびそれが発癌性病原体感染に関連しているかどうかの決定の両方を行うことができる。例えば、実施例３において報告されているように、ｍＲＮＡ発現データおよび２つの対立遺伝子状態のみに対して訓練されたサポートベクトルマシン分類器は、９９％の特異度および９９％の感度で頭頸部癌および子宮頸癌におけるＨＰＶ感染を特定した。同様に、実施例４において報告されるように、ｍＲＮＡ発現データおよび２つの対立遺伝子状態のみに対して訓練されたサポートベクトルマシン分類器は、９９％の特異度および９５％の感度で胃癌におけるＥＢＶ感染を特定した。

例えば、一態様において、本開示は、第１の癌状態が第１の発癌性病原体による感染に関連し、第２の癌状態が発癌性病原体を含まない状態に関連する、第１および第２の癌状態を識別するように分類器を訓練するための方法を提供する。方法によれば、図４Ａを参照して、ある種の複数の対象における各それぞれの対象についての対応する複数の存在量値を有するデータセットが得られる。各それぞれの存在量値は、それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。データセットはさらに、データセットによって追跡された各それぞれの対象の癌状態の指標を含む。癌状態の指標は、対象が第１または第２の癌状態（例えば、図４Ａに示されるように、ＨＰＶ陽性の頭頸部癌または子宮頸癌、またはＨＰＶ陰性の頭頸部癌または子宮頸癌）を有するかどうかを特定する。

いくつかの実施形態において、対象の各々は、同じ起源を有する特定の癌（例えば、図５Ａに示されるような胃癌）を有し、対象が第１の癌クラスにあるか第２の癌クラスにあるかを描写するのは、発癌性病原体にも罹患している癌を有する対象の予後が、発癌性病原体に罹患していない癌を有する対象の予後とは異なるといった、この癌に関連すると知られている発癌性病原体（例えば、図５Ａの場合はＥＢＶウイルス）にも対象が罹患しているかどうかである。データセットによって追跡された対象のいくつか（第１の対象のサブセット）は、第１の癌状態に罹患し、一方、データセットによって追跡された対象のいくつか（第２の対象のサブセット）は、第２の状態に罹患する。次に、識別遺伝子セットは、複数の対象におけるそれぞれの対象の対応する複数の存在量値および癌状態のそれぞれの指標を使用して特定される。識別遺伝子セットは、複数の遺伝子のサブセットを含む。概して、そのような遺伝子の存在量レベル（例えば、発現）は、第１および第２の癌状態を識別する。識別遺伝子セットに関する詳細は、図２Ｃのブロック２１８を参照して以下に開示される。図４Ｂは、ＨＰＶ関連癌（頭頸部癌および子宮頸癌）についての識別遺伝子セットを示し、一方、図５Ｂは、ＥＢＶ関連癌（胃癌）についての識別遺伝子セットを示している。

複数の対象にわたる識別遺伝子セットについてのそれぞれの存在量値および癌状態のそれぞれの指標を使用して、識別遺伝子セットについてのそれぞれの存在量値の関数として第１および第２の癌状態を識別するように分類器を訓練する。いくつかの任意の実施形態において、訓練された分類器を使用して、試験の複数の存在量値を訓練された分類器に入力することによって、試験対象を第１の癌または第２の状態に分類する（または、試験対象が第１または第２の癌状態を有する尤度を決定する）。そのような実施形態において、試験の複数の存在量値における各それぞれの存在量値は、試験対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。いくつかの任意の実施形態において、訓練された分類器の結果を使用して、試験対象が第１の癌状態または第２の癌状態を有するという決定（または、試験対象が第１または第２の癌状態を有する尤度）に基づいて試験対象の治療的介入または画像化を提供する。

定義
本開示で使用される用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明の説明および特許請求の範囲の中で使用するとき、単数形「ａ」、「ａｎ」および「ｔｈｅ」は、文脈において特に明確な指示がない限り、複数形も含むことを意図する。また、本明細書で使用するとき、「および／または」という用語は、列挙する関連項目の１つ以上の任意のおよびあり得るすべての組み合わせを指し、包含することも理解されるであろう。さらに本明細書で使用されるとき、「備える（ｃｏｍｐｒｉｓｅｓ）」および／または「備えている（ｃｏｍｐｒｉｓｉｎｇ）」という用語は、述べた特徴、完全体、ステップ、動作、要素、および／または構成要素が存在することを規定するが、１つ以上の他の特徴、完全体、ステップ、動作、要素、構成要素、および／またはそれらのグループが存在すること、もしくは追加されることを除外しないことも理解されるであろう。

本明細書で使用されるとき、「もし」という用語は、文脈に応じて「場合」もしくは「とき」、または「決定することに応じて」もしくは「検出することに応じて」を意味するものと解釈されてもよい。同様に、「決定される場合」または「（述べた条件または事象を）検出される場合」という句は、文脈に応じて「決定するとき」もしくは「決定することに応じて」、または「（述べた条件または事象を）検出するとき」もしくは「（述べた条件または事象を）検出することに応じて」を意味するものと解釈され得る。

また、第１、第２などの用語は、様々な要素を説明するために本明細書で使用されることがあるが、これらの要素はこれらの用語によって限定されるべきではないことも理解されるであろう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、本開示の範囲から逸脱することなく、第１の対象を第２の対象と称することができ、同様に、第２の対象を第１の対象と称することができる。第１の対象および第２の対象は、両方とも同じ対象であるが、同じ対象ではない。さらに、「対象」、「ユーザ」、および「患者」という用語は、本明細書では互換的に使用される。

本明細書で使用される場合、「対象」という用語は、ヒト（例えば、男性のヒト、女性のヒト、胎児、妊娠中の女性、子供など）、非ヒト哺乳類、または非ヒト動物を含むがこれらに限定されない任意の生きた、または生きていない有機体を指す。哺乳類、爬虫類、鳥類、両生類、魚、有蹄動物、反芻動物、ウシ属（例、ウシ）、ウマ科（例、ウマ）、ヤギおよびヒツジ（例、ヒツジ、ヤギ）、イノシシ科（例、ブタ）、ラクダ科（例、ラクダ、ラマ、アルパカ）、サル、類人猿（例、ゴリラ、チンパンジー）、クマ科蹠行性肉食動物（例、クマ）、家禽、イヌ、ネコ、マウス、ラット、魚、イルカ、クジラ、サメを含むがこれらに限定されない任意のヒトまたは非ヒト動物が対象として役立ち得る。いくつかの実施形態において、対象は、任意の段階の男性または女性（例えば、男性、女性、または子供）である。

本明細書で使用される場合、「対照」、「対照試料」、「参照」、「参照試料」、「正常」、および「正常試料」という用語は、特定の状態を有さない、またはそうでない場合は健常である対象由来の試料を表す。一例において、本明細書に開示される方法は、腫瘍を有する対象に対して実施され得、参照試料は、対象の健常な組織から採取された試料である。参照試料は、対象またはデータベースから取得し得る。参照は、例えば、対象由来の試料の配列決定から得られた配列リードをマッピングするために使用される参照ゲノムであり得る。参照ゲノムは、生物学的試料および体質試料由来の配列リードをアラインメントし、比較することができる一倍体または二倍体ゲノムを指し得る。体質試料の例は、対象から得られた白血球のＤＮＡであり得る。一倍体ゲノムについては、各遺伝子座には１つのヌクレオチドだけ存在し得る。二倍体ゲノムについては、ヘテロ接合遺伝子座が特定され得、各ヘテロ接合遺伝子座は２つの対立遺伝子を有し得、いずれかの対立遺伝子は遺伝子座へのアラインメントについての一致を可能にし得る。

本明細書で使用される場合、「遺伝子座」という用語は、ゲノム内の、すなわち特定の染色体上の位置（例えば、部位）を指す。いくつかの実施形態において、遺伝子座は、ゲノム内の、すなわち特定の染色体上の単一のヌクレオチド位置を指す。いくつかの実施形態において、遺伝子座は、例えば、癌ゲノム内の連続するヌクレオチドの変異（例えば、置換、挿入、または欠失）によって定義されるような、ゲノム内のヌクレオチド位置の小さなグループを指す。正常な哺乳動物細胞は二倍体ゲノムを有しているため、正常な哺乳動物ゲノム（例えば、ヒトゲノム）は、概して、ゲノムにおけるすべての遺伝子座の２つのコピー、または常染色体上にあるすべての遺伝子座の少なくとも２つのコピー、すなわち、母系常染色体の１つのコピーおよび父系常染色体上の１つのコピーを有する。

本明細書で使用される場合、「対立遺伝子」という用語は、染色体遺伝子座での１つ以上のヌクレオチドの特定の配列を指す。

本明細書で使用される場合、「参照対立遺伝子」という用語は、種の集団内のその染色体遺伝子座で表される優勢な対立遺伝子（例えば、「野生型」配列）、または種についての参照ゲノム内で事前定義されている対立遺伝子のいずれかである染色体遺伝子座での１つ以上のヌクレオチドの配列を指す。

本明細書で使用される場合、「変異対立遺伝子」という用語は、種の集団内のその染色体遺伝子座で表される優勢な対立遺伝子ではない（例えば、「野生型」配列ではない）、または種についての参照ゲノム内で事前定義されている対立遺伝子ではないいずれかである染色体遺伝子座での１つ以上のヌクレオチドの配列を指す。

本明細書で使用される場合、「一塩基変異」または「ＳＮＶ」という用語は、ヌクレオチド配列、例えば、個体から読み取られた配列の位置（例えば、部位）での１つのヌクレオチドの異なるヌクレオチドへの置換を指す。第１の核酸塩基Ｘから第２の核酸塩基Ｙへの置換は、「Ｘ＞Ｙ」として示され得る。例えば、シトシンからチミンへのＳＮＶは、「Ｃ＞Ｔ」として示され得る。

本明細書で使用される場合、「変異」または「変異体」という用語は、１つ以上の細胞の遺伝物質における検出可能な変化を指す。特定の例において、１つ以上の変異が癌細胞に見出され得、癌細胞を特定し得る（例えば、ドライバーおよびパッセンジャーの変異）。変異は、明白な細胞から娘細胞に伝達する可能性がある。当業者は、親細胞における遺伝子変異（例えば、ドライバー変異）が、娘細胞において追加の異なる変異（例えば、パッセンジャー変異）を誘発し得ることを理解するであろう。変異は、概して核酸において起こる。特定の例において、変異は、１つ以上のデオキシリボ核酸またはその断片における検出可能な変化であり得る。変異は、概して、核酸における新しい位置に追加、欠失、置換、反転、または転置されたヌクレオチドを指す。変異は、自然発生の変異または実験的に誘発された変異であり得る。特定の組織の配列における変異は、「組織特異的対立遺伝子」の例である。例えば、腫瘍は、正常細胞では起こらない遺伝子座での対立遺伝子をもたらす変異を有し得る。「組織特異的対立遺伝子」の別の例は、胎児組織で起こるが母体組織では起こらない胎児特異的対立遺伝子である。

本明細書で使用される場合、「癌」、「癌性組織」、または「腫瘍」という用語は、塊の成長が正常組織の成長を上回り、調整されていない組織の異常な塊を指す。癌または腫瘍は、以下の特徴に応じて「良性」または「悪性」として定義することができる：形態および機能性を含む細胞分化の程度、成長速度、局所浸潤および転移。「良性」腫瘍は十分に分化することができ、悪性腫瘍よりも成長が遅いという特徴があり、原発部位に局在したままである。加えて、場合によっては、良性腫瘍には、離れた部位に侵入、浸潤、または転移する能力を有していない。「悪性」腫瘍は、低分化（退形成）であり得、進行性の侵入、浸潤、および周囲の組織の破壊を伴う特徴的に急速な成長を有する。さらに、悪性腫瘍は、離れた部位に転移する能力を有し得る。したがって、癌細胞は、その成長が正常組織の成長と協調していない組織の異常な塊内に見られる細胞である。したがって、「腫瘍試料」は、本明細書に記載のとおり、対象の腫瘍から得られた、またはそれに由来する生物学的試料を指す。

本明細書で使用される場合、「発癌性病原体感染に関連する癌状態」は、概して、または特定の発癌性病原体に関して、特定の癌に罹患している癌対象が、特定の癌に関連すると知られる病原体（例えば、ウイルス）にさらに罹患している状態を指す。

本明細書で使用される場合、「発癌性病原体感染に関連しない癌状態」は、概して、または特定の発癌性病原体に関して、特定の癌に罹患している癌対象が、特定の癌に関連すると知られる病原体（例えば、ウイルス）に特に罹患していない状態を指す。

本明細書で使用される場合、「配列決定（ｓｅｑｕｅｎｃｉｎｇ）」、「配列決定（ｓｅｑｕｅｎｃｅｄｅｔｅｒｍｉｎａｔｉｏｎ）」および本明細書で使用される同類の用語は、概して、核酸またはタンパク質などの生体高分子の順序を決定するために使用され得るありとあらゆる生化学的プロセスを指す。例えば、配列決定データは、ｍＲＮＡ転写物またはゲノム遺伝子座などの核酸分子におけるヌクレオチド塩基のすべてまたは一部を含み得る。

本明細書で使用される場合、「配列リード」または「リード」という用語は、本明細書に記載されるかまたは当技術分野で既知の任意の配列決定プロセスによって産生されるヌクレオチド配列を指す。リードは、核酸断片の一端から生成され得（「シングルエンドリード」）、場合によっては、核酸の両端から生成されることもある（例えば、ペアエンドリード、ダブルエンドリード）。配列リードの長さは、多くの場合、特定の配列決定技術に関連する。例えば、ハイスループット法は、サイズが数十～数百塩基対（ｂｐ）まで変化し得る配列リードを提供する。いくつかの実施形態において、配列リードは、約１５ｂｐ～９００ｂｐ長（例えば、約２０ｂｐ、約２５ｂｐ、約３０ｂｐ、約３５ｂｐ、約４０ｂｐ、約４５ｂｐ、約５０ｂｐ、約５５ｂｐ、約６０ｂｐ、約６５ｂｐ、約７０ｂｐ、約７５ｂｐ、約８０ｂｐ、約８５ｂｐ、約９０ｂｐ、約９５ｂｐ、約１００ｂｐ、約１１０ｂｐ、約１２０ｂｐ、約１３０、約１４０ｂｐ、約１５０ｂｐ、約２００ｂｐ、約２５０ｂｐ、約３００ｂｐ、約３５０ｂｐ、約４００ｂｐ、約４５０ｂｐ、または約５００ｂｐ）の平均、中央値、または平均の長さのものである。いくつかの実施形態において、配列リードは、約１０００ｂｐ、２０００ｂｐ、５０００ｂｐ、１０，０００ｂｐ、または５０，０００ｂｐ以上の平均、中央値、または平均の長さのものである。例えば、ナノポア配列決定は、サイズが数十～数百、数千塩基対まで変化し得る配列リードを提供し得る。Ｉｌｌｕｍｉｎａ並列配列決定は、それほど変化しない配列リードを提供し得、例えば、ほとんどの配列リードは２００ｂｐ未満にし得る。配列リード（または配列決定リード）は、核酸分子（例えば、一連のヌクレオチド）に対応する配列情報を指し得る。例えば、配列リードは、核酸断片の一部由来の一連のヌクレオチド（例えば、約２０～約１５０）に対応し得るか、核酸断片の一端または両端の一連のヌクレオチドに対応し得るか、または核酸断片全体のヌクレオチドに対応し得る。配列リードは、様々な方法で、例えば、配列決定技術を使用して、またはプローブ、例えば、ハイブリダイゼーションアレイもしくは捕捉プローブ、または、ポリメラーゼ連鎖反応（ＰＣＲ）、もしくは単一のプライマーを使用する線形増幅、もしくは等温増幅などの増幅技術を使用して得ることができる。

本明細書で使用される場合、「リードセグメント」または「リード」という用語は、個体から得られた配列リードおよび／または個体から得られた試料由来の最初の配列リードに由来するヌクレオチド配列を含む任意のヌクレオチド配列を指す。例えば、リードセグメントは、アラインメントされた配列リード、折りたたまれた配列リード、または縫い合わせられたリードを指し得る。さらに、リードセグメントは、一塩基変異などの個々のヌクレオチド塩基を指し得る。

本明細書で使用される場合、「リード深度」、「配列決定深度」、または「深度」という用語は、所与の位置、領域、または遺伝子座で個体から得られた試料由来のリードセグメントの総数を指す。遺伝子座は、ヌクレオチドのように小さくても、染色体腕のように大きくても、ゲノム全体のように大きくても可能である。配列決定深度は、「Ｙｘ」、例えば５０ｘ、１００ｘなどで表すことができ、「Ｙ」は、遺伝子座が配列リードでカバーされた回数を指す。いくつかの実施形態において、深度は、ゲノムにわたって、エクソームにわたって、または標的配列決定パネルにわたっての平均配列決定深度を指す。配列決定深度は、複数の遺伝子座、全ゲノムに適用することもでき、この場合、Ｙは、遺伝子座または半数体ゲノム、全ゲノム、または全エクソームがそれぞれ配列決定される平均回数を指す。平均深度が引用される場合、データセットに含まれる異なる遺伝子座についての実際の深度は、値の範囲を超えて及ぶことができる。ウルトラディープ配列決定は、遺伝子座での配列決定深度において少なくとも１００ｘを指し得る。

本明細書で使用される場合、「配列決定幅」という用語は、特定の参照エクソーム（例えば、ヒト参照エクソーム）、特定の参照ゲノム（例えば、ヒト参照ゲノム）、またはエクソームまたはゲノムの一部のいくつの割合が分析されたかを指す。割合の分母は反復マスクされたゲノムであり得、したがって１００％は、マスクされた部分を除いたすべての参照ゲノムに対応し得る。反復マスクされたエクソームまたはゲノムは、配列反復がマスクされているエクソームまたはゲノムを指し得る（例えば、配列リードはエクソームまたはゲノムのマスクされていない部分にアラインメントする）。エクソームまたはゲノムの任意の部分をマスクすることができ、したがって、参照エクソームまたはゲノムの任意の特定の部分に焦点を合わせることができる。ブロード配列決定は、エクソームまたはゲノムの少なくとも０．１％を配列決定および分析することを指す。

本明細書で使用される場合、「参照エクソーム」という用語は、対象由来の特定された配列を参照するために使用され得る任意の有機体または病原体由来の任意の組織の、部分的か完全かにかかわらず、任意の特定の既知の、配列決定された、または特徴付けられたエクソームを指す。ヒト対象だけでなく他の多くの生物について使用される例示的な参照エクソームは、実施例１および２に提供されている。

本明細書で使用される場合、「参照ゲノム」という用語は、対象由来の特定された配列を参照するために使用され得る任意の有機体または病原体の、部分的か完全かにかかわらず、任意の特定の既知の、配列決定された、または特徴付けられたゲノムを指す。ヒト対象および多くの他の有機体について使用される例示的な参照ゲノムは、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ（「ＮＣＢＩ」）またはｔｈｅＵｎｉｖｅｒｓｉｔｙｏｆＣａｌｉｆｏｒｎｉａ，ＳａｎｔａＣｒｕｚ（ＵＣＳＣ）がホストするオンラインゲノムブラウザにおいて提供される。「ゲノム」とは、核酸配列で表現された、有機体または病原体の完全な遺伝情報を指す。本明細書で使用される場合、参照配列または参照ゲノムは、多くの場合、個体または複数の個体由来の組み立てられた、または部分的に組み立てられたゲノム配列である。いくつかの実施形態において、参照ゲノムは、１人以上のヒト個体由来の組み立てられた、または部分的に組み立てられたゲノム配列である。参照ゲノムは、種の遺伝子のセットの代表的な例と見なし得る。いくつかの実施形態において、参照ゲノムは、染色体に割り当てられた配列を含む。例示的なヒト参照ゲノムは、ＮＣＢＩビルド３４（ＵＣＳＣ同等物：ｈｇ１６）、ＮＣＢＩビルド３５（ＵＣＳＣ同等物：ｈｇ１７）、ＮＣＢＩビルド３６．１（ＵＣＳＣ同等物：ｈｇ１８）、ＧＲＣｈ３７（ＵＣＳＣ同等物：ｈｇ１９）、およびＧＲＣｈ３８（ＵＣＳＣ同等物：ｈｇ３８）を含むが、これらに限定されない。

本明細書で使用される場合、「アッセイ」という用語は、物質、例えば、核酸、タンパク質、細胞、組織、または器官の特性を決定するための技術を指す。アッセイ（例えば、第１のアッセイまたは第２のアッセイ）は、試料における核酸のコピー数の変化、試料における核酸のメチル化状態、試料における核酸の断片サイズ分布、試料における核酸の変異状態、または試料における核酸の断片化パターンを決定するための技術を含み得る。当業者に知られている任意のアッセイを使用して、本明細書に記載の核酸の特性のうちのいずれかを検出し得る。核酸の特性は、配列、ゲノム同一性、コピー数、１つ以上のヌクレオチド位置でのメチル化状態、核酸のサイズ、１つ以上のヌクレオチド位置での核酸における変異の有無、および核酸の断片化パターン（例えば、核酸が断片化するヌクレオチド位置）を含み得る。アッセイまたは方法は、特定の感度および／または特異度を有し得、診断ツールとしてのそれらの相対的な有用性を、ＲＯＣ－ＡＵＣ統計を使用して測定し得る。

「分類」という用語は、試料の特定の特性に関連付けられている任意の数字またはその他の記号を指す場合がある。例えば、「＋」記号（または「陽性」という単語）は、試料が欠失または増幅を有するものとして分類されていることを示すことができる。別の例において、「分類」という用語は、発癌性病原体感染状態、対象および／または試料における腫瘍組織の量、対象および／または試料における腫瘍のサイズ、対象における腫瘍の病期、対象および／または試料における腫瘍負荷、ならびに対象における腫瘍転移の存在を指し得る。分類は、二値（例えば、正または負）であるか、またはより多くのレベルの分類（例えば、１～１０または０～１のスケール）を有することもできる。「カットオフ」および「閾値」という用語は、操作において使用される所定の数を指し得る。例えば、カットオフサイズは、それを上回ると断片が除外されるサイズを指し得る。閾値は、それを上回るか、または下回ると特定の分類が適用される値であり得る。これらの用語のいずれかは、これらの文脈のいずれかで使用され得る。

本明細書で使用される場合、「相対的存在量」という用語は、特定の特徴（例えば、エクソームの特定の領域にアラインメントする）を有する第１の量の核酸断片の、特定の特徴（例えば、エクソームの特定の領域にアラインメントする）を有する第２の量の核酸断片に対する比を指し得る。一例において、相対的存在量は、試料における特定の遺伝子（例えば、エクソームの特定の領域にアラインメントする）をコードするｍＲＮＡ転写産物の数の、試料におけるｍＲＮＡ転写産物の総数に対する比を指し得る。

本明細書で使用される「訓練されていない分類器」という用語は、訓練データセットで訓練されていない分類器を指す。

本明細書で使用される場合、「有効量」または「治療有効量」は、治療時に有益なまたは所望の臨床結果に影響を与えるのに十分な量である。有効量は、１つ以上の用量で対象に投与され得る。治療に関して、有効量は、疾患の進行を緩和、改善、安定化、逆転、または遅らせる、そうでなければ疾患の病理学的結果を減少させるのに十分な量である。有効量は、概して、個別に医師によって決定され、当業者の技術の範囲内である。有効量を達成するための適切な投薬量を決定する際には、通常、いくつかの要因が考慮される。これらの要因は、対象の年齢、性別、および体重、治療される状態、状態の重症度、ならびに投与される治療薬の形態および有効濃度を含む。

本明細書で使用される場合、「感度」または「真陽性率」（ＴＰＲ）という用語は、真陽性の数を真陽性および偽陰性の数の合計で割ったものを指す。感度は、真に状態を有する母集団の割合を正しく特定するためのアッセイまたは方法の能力を特徴づけることができる。例えば、感度は、癌を有する集団内の対象の数を正しく特定する方法の能力を特徴づけることができる。別の例において、感度は、癌を示す１つ以上のマーカーを正しく特定する方法の能力を特徴づけることができる。

本明細書で使用される場合、「特異度」または「真陰性率」（ＴＮＲ）という用語は、真陰性の数を真陰性および偽陽性の数の合計で割ったものを指す。特異度は、真に状態を有さない母集団の割合を正しく特定するアッセイまたは方法の能力を特徴づけることができる。例えば、特異度は、癌を有さない集団内の対象の数を正しく特定する方法の能力を特徴づけることができる。別の例において、特異度は、癌を示す１つ以上のマーカーを正しく特定する方法の能力を特徴づける。

本開示で使用される用語は、特定の場合を説明することのみを目的としており、限定することを意図するものではない。本明細書で使用される場合、単数形「ａ」、「ａｎ」および「ｔｈｅ」は、文脈において特に明確な指示がない限り、複数形も含むことを意図する。さらに、「含んでいる（ｉｎｃｌｕｄｉｎｇ）」、「含む（ｉｎｃｌｕｄｅｓ）」、「有している（ｈａｖｉｎｇ）」、「有する（ｈａｓ）」、「有する（ｗｉｔｈ）」、またはそれらの異形の用語が、詳細な説明および／または特許請求の範囲のいずれかにおいて使用される限り、そのような用語は、「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」という用語と同様の方法で包括的であることを意図する。

説明のための適用例を参照して、いくつかの態様を以下に説明する。本明細書に記載の特徴の完全な理解を提供するために、多数の特定の詳細、関係、および方法が示されていることを理解されたい。しかしながら、当業者は、本明細書に記載の特徴が、特定の詳細のうちの１つ以上を有さないか、または他の方法で実施できることを容易に認識するであろう。いくつかの行為は異なる順序で、および／または他の行為または事象と同時に起こり得るため、本明細書に記載の特徴は、行為または事象の図解された順序によって制限されない。さらに、本明細書に記載の特徴に従った方法論を実施するために、図示されたすべての行為または事象が必要とされるわけではない。

ここで実施形態を詳細に参照すると、その例は添付の図面に示される。以下の詳細な説明では、本開示の完全な理解を提供するために、多数の特定の詳細が記載される。しかしながら、本開示がこれらの具体的な詳細なしで実践されてもよいことは当業者には明らかであろう。他の例では、既知の方法、手順、構成要素、回路、およびネットワークは、実施形態の態様を不必要に曖昧にしないように詳細には説明されない。

システムの実施形態の例
本開示のいくつかの態様の概要および本開示において使用されるいくつかの定義が提供されたので、次に、例示的なシステムの詳細を図１と併せて説明する。図１は、いくつかの実装形態によるシステム１００を示すブロック図である。いくつかの実装形態におけるデバイス１００は、１つ以上の処理ユニットＣＰＵ１０２（プロセッサとも呼ばれる）、１つ以上のネットワークインターフェース１０４、ユーザインターフェース１０６、非永続メモリ１１１、永続メモリ１１２、およびこれらのコンポーネントを相互接続するための１つ以上の通信バス１１４を含む。１つ以上の通信バス１１４は、任意で、システムコンポーネント間の通信を相互接続および制御する回路（チップセットと呼ばれることもある）を含む。非永続メモリ１１１は、典型的には、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリなどの高速ランダムアクセスメモリを含み、一方、永続メモリ１１２は、典型的には、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくは他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、磁気ディスクストレージデバイス、光ディスクストレージデバイス、フラッシュメモリデバイス、または他の不揮発性ソリッドステートストレージデバイスものを含む。永続メモリ１１２は、任意で、ＣＰＵ１０２から遠隔に配置された１つ以上のストレージデバイスを含む。永続メモリ１１２、および非永続メモリ１１２内の不揮発性メモリデバイスは、非一時的コンピュータ可読記憶媒体を備える。いくつかの実装形態において、非永続メモリ１１１、または非一時的コンピュータ可読記憶媒体は、以下のプログラム、モジュール、データ構造体、またはそれらのサブセットを、場合には永続メモリ１１２と組み合わせて、格納する。
・様々な基本的なシステムサービスを処理し、ハードウェアに依存するタスクを実行するための手順を含む、任意のオペレーティングシステム１１６；
・システム１００を他のデバイスおよび／または通信ネットワーク１０５と接続するための任意のネットワーク通信モジュール（または命令）１１８；
・発癌性病原体感染に関連する第１の癌状態を、発癌性病原体感染に関連しない第２の癌状態と区別する分類器を訓練するための任意の分類器訓練モジュール１２０；
・１つ以上の訓練対象１２４由来の発現データを含む、訓練対象１２２由来の腫瘍試料についてのデータセットのための任意のデータ格納であり、発現データは、複数の遺伝子１２６の各々についての複数の存在量データを含み、１つ以上の遺伝子１２７、および癌状態１２８の各々についての複数の変異対立遺伝子についてサポートする；
・発癌性病原体感染に関連する第１の癌状態を、発癌性病原体感染に関連しない第２の癌状態と区別する分類器を検証するための任意の分類器検証モジュール１３０；
・１つ以上の訓練対象由来の発現データを含む、検証対象由来の腫瘍試料についてのデータセットのための任意のデータ格納であり、発現データは、複数の遺伝子および癌状態の各々についての複数の存在量データを含む；
・分類器、例えば、分類器訓練モジュール１２０を使用して訓練されたものを使用して、発癌性病原体感染に関連する第１の癌状態、または発癌性病原体感染に関連しない第２の癌状態のいずれかとして、患者における癌を分類するための任意の患者分類モジュール１３４；
・１人以上の癌患者１４０由来の発現データを含む癌患者１３６についてのデータ構築物のための任意のデータ格納であり、発現データは、複数の遺伝子１４２の各々についての複数の存在量データを含む；ならびに
・１人以上の癌患者１４４由来の変異対立遺伝子データを含む、癌患者１３８についてのデータ構築物のための任意のデータ格納であり、変異対立遺伝子データは、１つ以上の遺伝子１４６の各々についての変異対立遺伝子についての複数のサポートを含む。

様々な実装形態において、上記で特定された要素のうちの１つ以上は、前述のメモリデバイスのうちの１つ以上に格納され、上記の機能を実行するための一連の命令に対応する。上記で特定されたモジュール、データまたはプログラム（例えば、命令のセット）は、別々のソフトウェアプログラム、手順、データセットまたはモジュールとして実装される必要はなく、したがって、これらのモジュールおよびデータの様々なサブセットは、様々な実装形態において組み合わされ得るか、またはそうでなければ再構成され得る。いくつかの実装形態において、非永続メモリ１１１は、任意で、上記の特定されたモジュールおよびデータ構造体のサブセットを格納する。さらに、いくつかの実施形態において、メモリは、上述していない追加のモジュールおよびデータ構造体を格納する。いくつかの実施形態において、上記で特定された要素のうちの１つ以上は、視覚化システム１００以外のコンピュータシステムに格納され、それは、視覚化システム１００が必要なときにそのようなデータの全部または一部を検索し得るように、視覚化システム１００によってアドレス指定可能である。

図１は「システム１００」を示しているが、図は、本明細書に記載の実装形態の構造概略図としてではなく、コンピュータシステムに存在し得る様々な特徴の機能的説明として意図されている。実際に、そして当業者によって認識されるように、別々に示されたアイテムは、組み合わせることができ、いくつかのアイテムは、別々にすることができる。さらに、図１は、非永続メモリ１１１内の特定のデータおよびモジュールを示しているが、これらのデータおよびモジュールの一部またはすべては、永続メモリ１１２内にあることができる。

分類器訓練
本開示によるシステムは、図１を参照して開示されているが、本開示による方法の概要は、図２Ａと併せて提供される。図２Ａのブロック２０４では、データセットが取得される。データセットは、ある種の複数の対象における各それぞれの対象についての対応する複数の存在量値を含む。各それぞれの存在量値は、それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。データセットはさらに、データセットによって追跡された各それぞれの対象の癌状態の指標を含む。癌状態の指標は、対象が第１または第２の癌状態を有するかどうかを特定する。

いくつかの実施形態において、対象の各々は、同じ起源を有する特定の癌（例えば、胃癌）を有し、対象が第１の癌クラスにあるか第２の癌クラスにあるかを描写するのは、発癌性病原体にも罹患している癌を有する対象の予後が、発癌性病原体に罹患していない癌を有する対象の予後とは異なるといった、この癌に関連すると知られている発癌性病原体にも対象が罹患しているかどうかである。例えば、特定の発癌性病原体がエプスタインバーウイルス（ＥＢＶ）である場合、対象の各々は、胃癌腫瘍を有し、それぞれの対象が第１または第２の癌クラスであるかどうかを決定するのは、対象が、ＥＢＶにも罹患しているかどうかである。

いくつかの実施形態において、対象の各々は、一連の癌に関連する癌を有し、対象が第１の癌クラスにあるか第２の癌クラスにあるかを描写するのは、発癌性病原体に罹患している一連の癌におけるそれぞれの癌を有するそれらの対象の予後が、発癌性病原体に罹患していないそれぞれの癌を有するそれらの対象の予後とは異なるといった、この一連の癌におけるそれぞれの癌のうちのいずれかに関連すると知られている発癌性病原体にも対象が罹患しているかどうかである。例えば、特定の発癌性病原体がヒトパピローマウイルス（ＨＰＶ）である場合、一連の癌は頭頸部扁平上皮癌および子宮頸癌である。つまり、各対象は、頭頸部扁平上皮癌または子宮頸癌を有しており、それぞれの対象が第１または第２の癌クラスであるかどうかを決定するのは、対象が、ＨＰＶにも感染しているかどうかである。

いくつかの実施形態において、対象の各々は、以下の表１に記載の同じ行の列２に記載される癌を有し、対象が第１の癌クラスにあるか第２の癌クラスにあるかを描写するのは、対象が以下の表１の同じ行の列１の病原体にも罹患しているかどうかである。例えば、ＦｌｏｒａａｎｄＢｏｎａｎｎｉ，Ｃａｒｃｉｎｏｇｅｎｅｓｉｓ３２（６），ｐｐ．７８７－７９５を参照されたく、それは参照により本明細書に組み込まれる。

本明細書で使用される場合、「ヒト腸内細菌叢」という用語は、ヒト消化管に生息するすべての微生物を指し、そのサブセットは発癌性であることが見出されている。例えば、結腸癌または結腸直腸癌を引き起こす、またはそれらと相関していると仮定されている病原体は、硫化物生成細菌（例えば、Ｆｕｓｏｂａｃｔｅｒｉｕｍ、Ｄｅｓｕｌｆｏｖｉｂｒｉｏ、およびＢｉｌｏｐｈｉｌａｗａｄｓｗｏｒｔｈｉａ）、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｂｏｖｉｓ、およびＦｕｓｏｂａｃｔｅｒｉｕｍｎｕｃｌｅａｔｕｍを含む。詳細については、Ｄａｈｍｕｓｅｔａｌ．，２０１８，ＪＧａｓｔｒｏｉｎｔｅｓｔＯｎｃｏｌ．，９（４），ｐｐ．７６９－７７を参照されたく、その内容は、すべての目的のために、その全体が本明細書に組み込まれる。

データセットによって追跡された対象のいくつか（第１の対象のサブセット）は、第１の癌状態に罹患し、一方、データセットによって追跡された対象のいくつか（第２の対象のサブセット）は、第２の状態に罹患する。このようなデータセットに関する詳細は、図２Ｂのブロック２０２を参照して以下に開示されている。

次に、図２Ａのブロック２１８において、識別遺伝子セットは、複数の対象におけるそれぞれの対象の対応する複数の存在量値および癌状態のそれぞれの指標を使用して特定される。識別遺伝子セットは、複数の遺伝子のサブセットを含む。概して、そのような遺伝子の存在量レベル（例えば、発現）は、第１の癌状態および第２の癌状態を識別する。識別遺伝子セットに関する詳細は、図２Ｃのブロック２１８を参照して以下に開示されている。

次に、図２Ａのブロック２４２において、複数の対象にわたる識別遺伝子セットについてのそれぞれの存在量値および癌状態のそれぞれの指標を使用して、識別遺伝子セットについてのそれぞれの存在量値の関数として第１および第２の癌状態を識別するように分類器を訓練する。識別遺伝子セットに基づくそのような分類器の訓練に関する詳細は、図２Ｅのブロック２４２を参照して以下に開示されている。

さらに、図２Ａのブロック２４６を参照して、いくつかの任意の実施形態において、訓練された分類器を使用して、試験の複数の存在量値を分類器に入力することによって、試験対象を第１の癌または第２の状態に分類する（または、試験対象が第１または第２の癌状態を有する尤度を決定する）。そのような実施形態において、試験の複数の存在量値における各それぞれの存在量値は、試験対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。試験対象は、その試験の複数の存在量値が分類器を訓練するために使用されなかった対象である。さらに、典型的な例において、試験対象は、対象が第１または第２の癌状態を有するかどうかが確認されていない対象である。本開示による訓練された分類器を使用する試験対象の診断に関する詳細は、図２Ｅのブロック２４６を参照して以下に開示される。

さらに、図２Ａのブロック２４８を参照して、いくつかの任意の実施形態において、訓練された分類器の結果を使用して、試験対象が第１の癌状態または第２の癌状態を有するという決定（または、試験対象が第１または第２の癌状態を有する尤度）に基づいて試験対象の治療的介入または画像化を提供する。複数の試験遺伝子の存在量データに対する訓練された分類器の適用の結果として生じるそのような治療選択肢に関する詳細は、図２Ｅのブロック２４８を参照して以下に開示される。

開示された方法の概要が図２Ａに関連して提供されたので、注目は、開示された方法に関するさらなる詳細を提供する図２Ｂ～２Ｅに移る。

ブロック２０２。図２Ａのブロック２０２を参照すると、第１の癌状態および第２の癌状態を識別するように分類器を訓練するための方法が提供される。上で論じたように、第１の癌状態は、第１の発癌性病原体による感染に関連し、第２の癌状態は、発癌性病原体を含まない状態に関連している。発癌性病原体感染に関連することが知られている癌の非限定的な例を、図３を参照して以下に説明する。したがって、いくつかの実施形態において、第１の癌状態は、例えば以下に記載されるように、特定の発癌性病原体感染に関連する特定の型の癌であり、第２の癌状態は、特定の発癌性病原体感染に関連しない同じ特定の型の癌である。例えば、一実施形態において、第１の癌状態は、ＨＰＶ感染に関連する子宮頸癌であり、第２の癌状態は、病原体感染に関連しない子宮頸癌である。

ブロック２０４。図２Ａのブロック２０４を参照すると、単一種の複数の対象における各それぞれの対象についての対応する複数の存在量値を含むデータセットが得られる。対応する複数の存在量値における各それぞれの存在量値は、それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。データセットはさらに、それぞれの対象の癌状態の指標を含む。癌状態の指標は、それぞれの対象が第１または第２の癌状態を有するかどうかを特定する。複数の対象は、第１の癌状態に罹患している第１の対象のサブセット、および第２の状態に罹患している第２の対象のサブセットを含む。

ブロック２０６。ブロック２０６を参照すると、いくつかの実施形態において、対応する複数の存在量値は、ＲＮＡ－ｓｅｑによって得られる。ＲＮＡ－ｓｅｑは、次世代配列決定に基づくＲＮＡプロファイリングについての方法論であり、複数の対象にわたる遺伝子発現パターンの測定および比較を可能にする。いくつかの実施形態において、「配列リード」と呼ばれる数百万の短い一連のものは、対象の腫瘍組織から得られる入力ＲＮＡから調製されたｃＤＮＡのランダムな位置を配列決定することから生成される。次に、これらのリードを参照ゲノムにコンピュータでマッピングして、「転写マップ」を明らかにすることができ、各遺伝子にアラインメントされた配列リードの数は、その発現レベルの尺度（例えば、存在量）をもたらす。次世代配列決定は、Ｓｈｅｎｄｕｒｅ，２００８，“Ｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎＤＮＡｓｅｑｕｅｎｃｉｎｇ，”Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌｏｇｙ２６，ｐｐ．１１３５－１１４５に開示されており、それは参照により本明細書に組み込まれる。ＲＮＡ－ｓｅｑは、Ｎａｇａｌａｋｓｈｍｉｅｔａｌ．，２００８，“ＴｈｅｔｒａｎｓｃｒｉｐｔｉｏｎａｌｌａｎｄｓｃａｐｅｏｆｔｈｅｙｅａｓｔｇｅｎｏｍｅｄｅｆｉｎｅｄｂｙＲＮＡｓｅｑｕｅｎｃｉｎｇ，”Ｓｃｉｅｎｃｅ３２０，ｐｐ．１３４４－１３４９、およびＦｉｎｏｔｅｌｌａｎｄＣａｍｉｌｌｏ，２０１４，“ＭｅａｓｕｒｉｎｇｄｉｆｆｅｒｅｎｔｉａｌｇｅｎｅｅｘｐｒｅｓｓｉｏｎｗｉｔｈＲＮＡ－ｓｅｑ：ｃｈａｌｌｅｎｇｅｓａｎｄｓｔｒａｔｅｇｉｅｓｆｏｒｄａｔａａｎａｌｙｓｉｓ，”ＢｒｉｅｆｉｎｇｓｉｎＦｕｎｃｔｉｏｎａｌＧｅｎｏｍｉｃｓ１４（２），ｐｐ．１３０－１４２に開示されており、それらの各々は参照により本明細書に組み込まれる。

ブロック２０６に従って、複数の対象における各対象の各腫瘍試料について、目的の試料中のＲＮＡは、最初に断片化され、相補的ＤＮＡ（ｃＤＮＡ）に逆転写される。次いで、得られたｃＤＮＡは増幅され、次世代ＤＮＡ配列決定（ＮＧＳ）に供される。原則として、ＲＮＡ－ｓｅｑについては、任意のＮＧＳ技術を使用し得る。いくつかの実施形態において、Ｉｌｌｕｍｉｎａ配列決定装置（ｉｌｌｕｍｉｎａ．ｃｏｍのインターネットを参照）が使用される。Ｗａｎｇ，Ｚ．，ｅｔａｌ．，“ＲＮＡ－Ｓｅｑ：ａｒｅｖｏｌｕｔｉｏｎａｒｙｔｏｏｌｆｏｒｔｒａｎｓｃｒｉｐｔｏｍｉｃｓ，”ＮａｔＲｅｖＧｅｎｅｔ．，１０（１）：５７－６３（２００９）を参照されたく、それは参照により本明細書に組み込まれる。次いで、そのような各試料について生成された数百万の短いリードが参照ゲノムにマッピングされ、「カウント」と呼ばれる各遺伝子にアラインメントされたリードの数が、調査のもとでの試料における遺伝子発現レベルのデジタル測定値をもたらす。

いくつかの代替の実施形態において、ＲＮＡ－ｓｅｑを使用するのではなく、マイクロアレイを使用して、遺伝子存在量値を測定する。そのようなマイクロアレイは、Ｗａｎｇｅｔａｌ．，２００９，“ＲＮＡ－Ｓｅｑ：ａｒｅｖｏｌｕｔｉｏｎａｒｙｔｏｏｌｆｏｒｔｒａｎｓｃｒｉｐｔｏｍｉｃｓ，”ＮａｔＲｅｖＧｅｎｅｔ１０，ｐｐ．５７－６３、Ｒｏｙｅｔａｌ．，２０１１，“Ａｃｏｍｐａｒｉｓｏｎｏｆａｎａｌｏｇａｎｄｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｔｒａｎｓｃｒｉｐｔｏｍｉｃｔｏｏｌｓｆｏｒｍａｍｍａｌｉａｎｓｔｕｄｉｅｓ，”ＢｒｉｅｆＦｕｎｃｔＧｅｎｏｍｉｃ１０：１３５－１５０、Ｓｈｅｎｄｕｒｅ，２００８，“Ｔｈｅｂｅｇｉｎｎｉｎｇｏｆｔｈｅｅｎｄｆｏｒｍｉｃｒｏａｒｒａｙｓ？，”ＮａｔＭｅｔｈｏｄｓ５，ｐｐ．５８５－５８７、Ｃｌｏｏｎａｎｅｔａｌ．，２００８，“Ｓｔｅｍｃｅｌｌｔｒａｎｓｃｒｉｐｔｏｍｅｐｒｏｆｉｌｉｎｇｖｉａｍａｓｓｉｖｅ－ｓｃａｌｅｍＲＮＡｓｅｑｕｅｎｃｉｎｇ，”Ｎａｔ．Ｍｅｔｈｏｄｓ５，ｐｐ．６１３－６１９、Ｍｏｒｔａｚａｖｉｅｔａｌ．，２００８，“ＭａｐｐｉｎｇａｎｄｑｕａｎｔｉｆｙｉｎｇｍａｍｍａｌｉａｎｔｒａｎｓｃｒｉｐｔｏｍｅｓｂｙＲＮＡ－Ｓｅｑ，”ＮａｔＭｅｔｈｏｄｓ５，ｐｐ．６２１－６２８、およびＢｕｌｌａｒｄｅｔａｌ．，２０１０，“ＥｖａｌｕａｔｉｏｎｏｆｓｔａｔｉｓｔｉｃａｌｍｅｔｈｏｄｓｆｏｒｎｏｒｍａｌｉｚａｔｉｏｎａｎｄｄｉｆｆｅｒｅｎｔｉａｌｅｘｐｒｅｓｓｉｏｎｉｎｍＲＮＡ－Ｓｅｑｅｘｐｅｒｉｍｅｎｔｓ”ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ１１，ｐ．９４に開示されており、それらの各々は参照により本明細書に組み込まれる。

ＲＮＡ－ｓｅｑデータ分析パイプラインの第１の計算ステップはリードマッピングであり、リードは、リード配列に一致する遺伝子領域を特定することにより、参照ゲノムまたはトランスクリプトームにアラインメントされる。このタスクについては、様々なアラインメントツールのうちのいずれかを使用し得る。例えば、Ｈａｔｅｍｅｔａｌ．，２０１３，“Ｂｅｎｃｈｍａｒｋｉｎｇｓｈｏｒｔｓｅｑｕｅｎｃｅｍａｐｐｉｎｇｔｏｏｌｓ，”ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ１４，ｐ．１８４、およびＥｎｇｓｔｒｏｍｅｔａｌ．，“ＳｙｓｔｅｍａｔｉｃｅｖａｌｕａｔｉｏｎｏｆｓｐｌｉｃｅｄａｌｉｇｎｍｅｎｔｐｒｏｇｒａｍｓｆｏｒＲＮＡ－ｓｅｑｄａｔａ，ＮａｔＭｅｔｈｏｄｓ１０，ｐｐ．１１８５－１１９１を参照されたく、それらの各々は参照により本明細書に組み込まれる。いくつかの実施形態において、マッピングプロセスは、参照ゲノムまたはリードのいずれかのインデックスを構築することによって始まり、次いで、それを使用して、リードがアラインメントする可能性が高い参照配列における一連の位置を検索する。この可能なマッピング位置のサブセットが特定されると、これらの候補領域で、より低速でより感度の高いアルゴリズムを使用してアラインメントが実行される。例えば、Ｈａｔｅｍｅｔａｌ．，２０１３，“Ｂｅｎｃｈｍａｒｋｉｎｇｓｈｏｒｔｓｅｑｕｅｎｃｅｍａｐｐｉｎｇｔｏｏｌｓ，”ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ１４：ｐ．１８４、およびＦｌｉｃｅｋａｎｄＢｉｒｎｅｙ，２００９，“Ｓｅｎｓｅｆｒｏｍｓｅｑｕｅｎｃｅｒｅａｄｓ：ｍｅｔｈｏｄｓｆｏｒａｌｉｇｎｍｅｎｔａｎｄａｓｓｅｍｂｌｙ，”ＮａｔＭｅｔｈｏｄｓ６（Ｓｕｐｐｌ．１１），Ｓ６－Ｓ１２を参照されたく、それらの各々は参照により本明細書に組み込まれる。いくつかの実施形態において、マッピングツールは、ハッシュテーブルを利用するか、またはＢｕｒｒｏｗｓ－Ｗｈｅｅｌｅｒ変換（ＢＷＴ）を利用する方法論である。例えば、ＬｉａｎｄＨｏｍｅｒ，２０１０，“Ａｓｕｒｖｅｙｏｆｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔａｌｇｏｒｉｔｈｍｓｆｏｒｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇ，”ＢｒｉｅｆＢｉｏｉｎｆｏｒｍａｔｉｃｓ１１，ｐｐ．４７３－４８３を参照されたく、それは参照により本明細書に組み込まれる。

マッピング後、その存在量（例えば、発現）レベルの推定値を提供するために、エクソン、転写産物、または遺伝子などの各コーディングユニットにアラインメントされたリードを使用してカウントを計算する。いくつかの実施形態において、そのようなカウントは、遺伝子のエクソンと重複するリードの総数を考慮する。しかしながら、いくつかの例において、配列リードの一部が既知のエクソンの境界の外側にマッピングされるため、代替の実施形態は、遺伝子の全長を考慮し、イントロン由来のリードもカウントする。さらに、いくつかの実施形態において、スプライシングされたリードを使用して、遺伝子の異なるスプライシングアイソフォームの存在量をモデル化する。例えば、Ｔｒａｐｎｅｌｌｅｔａｌ．，２０１０，“ＴｒａｎｓｃｒｉｐｔａｓｓｅｍｂｌｙａｎｄｑｕａｎｔｉｆｉｃａｔｉｏｎｂｙＲＮＡ－Ｓｅｑｒｅｖｅａｌｓｕｎａｎｎｏｔａｔｅｄｔｒａｎｓｃｒｉｐｔｓａｎｄｉｓｏｆｏｒｍｓｗｉｔｃｈｉｎｇｄｕｒｉｎｇｃｅｌｌｄｉｆｆｅｒｅｎｔｉａｔｉｏｎ，”ＮａｔＢｉｏｔｅｃｈｎｏｌ２８，ｐｐ．５１１－５１５、およびＧａｔｔｏｅｔａｌ，２０１４， “Ｆｉｎｅ－Ｓｐｌｉｃｅ，ｅｎｈａｎｃｅｄｓｐｌｉｃｅｊｕｎｃｔｉｏｎｄｅｔｅｃｔｉｏｎａｎｄｑｕａｎｔｉｆｉｃａｔｉｏｎ：ａｎｏｖｅｌｐｉｐｅｌｉｎｅｂａｓｅｄｏｎｔｈｅａｓｓｅｓｓｍｅｎｔｏｆｄｉｖｅｒｓｅＲＮＡ－Ｓｅｑａｌｉｇｎｍｅｎｔｓｏｌｕｔｉｏｎｓ，”ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ４２，ｐ．ｅ７１を参照されたく、それらの各々は参照により本明細書に組み込まれる。

上で説明したように、ＲＮＡ－ｓｅｑデータからの遺伝子存在量の定量化は、典型的には、２つの計算ステップ、参照ゲノムまたはトランスクリプトームへのリードのアラインメント、およびアラインメントされたリードに基づく遺伝子およびアイソフォーム存在量のその後の推定、を通じて分析パイプラインにおいて実装される。残念ながら、最も使用されているＲＮＡ－Ｓｅｑ技術によって生成されたリードは、概して、それらが試料採取された転写産物よりもはるかに短い。結果として、類似の配列を有する転写産物の存在において、特定の遺伝子に短い配列リードを一意に割り当てることが常に可能であるとは限らない。そのような配列リードは、参照ゲノムの２つ以上の領域と相同であるため、「マルチリード」と呼ばれる。いくつかの実施形態において、そのようなマルチリードは廃棄される、すなわち、それらは遺伝子存在量カウントに寄与しない。いくつかの実施形態において、曖昧さを解決するために、ＭＭＳＥＱまたはＲＳＥＭなどのプログラムが使用される。例えば、Ｔｕｒｒｏｅｔａｌ．，２０１１，“Ｈａｐｌｏｔｙｐｅａｎｄｉｓｏｆｏｒｍｓｐｅｃｉｆｉｃｅｘｐｒｅｓｓｉｏｎｅｓｔｉｍａｔｉｏｎｕｓｉｎｇｍｕｌｔｉ－ｍａｐｐｉｎｇＲＮＡｓｅｑｒｅａｄｓ，”ＧｅｎｏｍｅＢｉｏｌ１２，ｐ．Ｒ１３、およびＮｉｃｏｌａｅｅｔａｌ．，“ＥｓｔｉｍａｔｉｏｎｏｆａｌｔｅｒｎａｔｉｖｅｓｐｌｉｃｉｎｇｉｓｏｆｏｒｍｆｒｅｑｕｅｎｃｉｅｓｆｒｏｍＲＮＡ－Ｓｅｑｄａｔａ，”ＡｌｇｏｒｉｔｈｍｓＭｏｌＢｉｏｌ６，ｐ．９を参照されたく、それらの各々は参照により本明細書に組み込まれる。

ＲＮＡ－ｓｅｑの別の態様は、配列リードカウントの正規化である。いくつかの実施形態において、これは、異なる配列決定深度を考慮に入れるための正規化を含む。例えば、Ｌｉｎｅｔａｌ．，２０１１，“Ｃｏｍｐａｒａｔｉｖｅｓｔｕｄｉｅｓｏｆｄｅｎｏｖｏａｓｓｅｍｂｌｙｔｏｏｌｓｆｏｒｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｔｅｃｈｎｏｌｏｇｉｅｓ，”Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２７，ｐｐ．２０３１－２０３７、ＲｏｂｉｎｓｏｎＯｓｈｌａｃｋ，２０１０，“ＡｓｃａｌｉｎｇｎｏｒｍａｌｉｚａｔｉｏｎｍｅｔｈｏｄｆｏｒｄｉｆｆｅｒｅｎｔｉａｌｅｘｐｒｅｓｓｉｏｎａｎａｌｙｓｉｓｏｆＲＮＡ－ｓｅｑｄａｔａ，”ＧｅｎｏｍｅＢｉｏｌ１１，ｐ．Ｒ２５、およびＬｉｅｔａｌ．，２０１２，“Ｎｏｒｍａｌｉｚａｔｉｏｎ，ｔｅｓｔｉｎｇ，ａｎｄｆａｌｓｅｄｉｓｃｏｖｅｒｙｒａｔｅｅｓｔｉｍａｔｉｏｎｆｏｒＲＮＡ－ｓｅｑｕｅｎｃｉｎｇｄａｔａ，Ｂｉｏｓｔａｔｉｓｔｉｃｓ１３，ｐｐ．５２３－５３８を参照されたく、それらの各々は参照により本明細書に組み込まれる。いくつかの実施形態において、配列リードカウントは、遺伝子長バイアスを説明するために正規化される。ＦｉｎｏｔｅｌｌａｎｄＣａｍｉｌｌｏ，２０１４，“ＭｅａｓｕｒｉｎｇｄｉｆｆｅｒｅｎｔｉａｌｇｅｎｅｅｘｐｒｅｓｓｉｏｎｗｉｔｈＲＮＡ－ｓｅｑ：ｃｈａｌｌｅｎｇｅｓａｎｄｓｔｒａｔｅｇｉｅｓｆｏｒｄａｔａａｎａｌｙｓｉｓ，”ＢｒｉｅｆｉｎｇｓｉｎＦｕｎｃｔｉｏｎａｌＧｅｎｏｍｉｃｓ１４（２），ｐｐ．１３０－１４２を参照されたく、それは参照により本明細書に組み込まれる。

ブロック２０８。図２Ｂのブロック２０８を参照すると、いくつかの実施形態において、複数の対象における各対象は、第１の型の癌に罹患している。言い換えれば、いくつかの実施形態において、データベース１２２における各対象は、同じ型の癌に罹患している。いくつかのそのような実施形態において、複数の対象における各対象は、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、頭頸部癌、卵巣癌、肝胆道癌、子宮頸癌、甲状腺癌、または膀胱癌を有する。

ブロック２１０。図２Ｂのブロック２０８を参照すると、いくつかの実施形態において、複数の対象における各対象は、第１の病期の第１の型の癌に罹患している。言い換えれば、いくつかの実施形態において、データベース１２２における各対象は、同じ型の癌に罹患し、該癌は同じ病期である。いくつかのそのような実施形態において、複数の対象における各対象は、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、頭頸部癌、卵巣癌、肝胆道癌、子宮頸癌、甲状腺癌、または膀胱癌を有する。さらに、そのような実施形態において、複数の対象における各対象における該癌の病期は、Ｉ期、ＩＩ期、ＩＩＩ期、またはＩＶ期の癌である。

ブロック２１２～２１４。図２Ｂのブロック２１２および図２Ｃのブロック２１４を参照すると、開示された方法において使用されるコホートは、対象をスクリーニングして第１または第２の癌状態を有するかどうかを確認するのに適した性能を有する分類器を開発するのに十分なサイズである。したがって、いくつかの実施形態において、複数の対象は１００個の対象を含み、第１の対象のサブセット（第１の癌状態を有するもの）は２０個の対象を含み、第２の対象のサブセット（第２の癌状態を有するもの）は２０個の対象を含む。これはほんの一例である。他の実施形態において、複数の対象は１０００個の対象を含み、第１の対象のサブセットは１００個の対象を含み、第２の対象のサブセットは１００個の対象を含む。さらに他の実施形態において、複数の対象は、１００個、５００個、２０００個、４０００個、または１００００個の対象を含み、第１の対象のサブセットは、１００個の対象、５００個の対象、または１０００個の対象を含み、第２の対象のサブセットは、１００個の対象、５００個の対象、または１０００個の対象で構成される。いくつかの実施形態において、対象のうちのより多くが、第２の癌状態よりも第１の癌状態を有する。例えば、いくつかの実施形態において、データセット１２２における対象の、１０パーセント超、２０パーセント超、３０パーセント超、４０パーセント超、５０パーセント超、６０パーセント超、７０パーセント超、８０パーセント超、または９０パーセント超が第１の癌状態であり、残りが第２の癌状態である。

ブロック２１６。図２Ｃのブロック２１６を参照すると、いくつかの実施形態において、開示された方法は、ヒトである訓練対象で使用される。データセット１２２における各訓練対象は同じ種由来であるが、種がヒトである必要はない。いくつかの実施形態において、種は、イヌ、ウシ、ブタ、またはいくつかの他の種である。

ブロック２１８。図２Ｃのブロック２１８を参照すると、単一種の複数の対象における各それぞれの対象についての対応する複数の存在量値を含むデータセット１２２が取得されると、データセット１２２は、データセット１２２の複数の対象におけるそれぞれの対象の存在量値および癌状態のそれぞれの指標を使用して識別遺伝子セットを特定するために使用される。識別遺伝子セットは、複数の遺伝子のサブセットを含む。本開示のいくつかの実施形態による識別遺伝子セットを特定するための特定の方法は、ブロック２２６～２４０を参照して以下に詳述される。

ブロック２２０～２２４。図２Ｃのブロック２２０を参照すると、いくつかの実施形態において、検討中の種はヒトであり、複数の遺伝子（存在量データが考慮される）は、１００００個以上の遺伝子を含み、例えば、ｘＧｅｎＥｘｏｍｅＲｅｓｅａｒｃｈＰａｎｅｌｖ１．０（ＩＤＴ）は、１９，３９６個の遺伝子を含む３９Ｍｂのターゲット領域にまたがっており（Ｎｇｕｙｅｎ，Ａ．，ｅｔａｌ．，“ＭｕｌｔｉｐｌｅｘｅｄＨｙｂｒｉｄＣａｐｔｕｒｅｆｏｒＷｈｏｌｅＥｘｏｍｅＳｅｑｕｅｎｃｉｎｇ，”ＴｅｃｈｎｉｃａｌＮｏｔｅ，ＩｎｔｅｇｒａｔｅｄＤＮＡＴｅｃｈｎｏｌｏｇｉｅｓ，Ｉｎｃ．，（２０１８）を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれ）、識別遺伝子セットは、５～４０個の遺伝子からなる。図２Ｃのブロック２２２を参照すると、いくつかの実施形態において、種はヒトであり、複数の遺伝子は５０００個の遺伝子を含み、識別遺伝子セットは５～２５個の遺伝子からなる。他の範囲も可能である。例えば、いくつかの実施形態において、複数の遺伝子（存在量データが考慮される）は、少なくとも２００個、５００個、１０００個、２０００個、３０００個、４０００個、５０００個、６０００個、７０００個、８０００個、９０００個、１００００個、１５０００個、または２００００個の遺伝子を含み、および識別遺伝子セットは、５個の遺伝子～５００個の遺伝子、５個の遺伝子～１００個の遺伝子、５個の遺伝子～５０個の遺伝子、または５個の遺伝子～２０個の遺伝子からなる。範囲にかかわらず、識別遺伝子の範囲は元の複数の遺伝子の範囲よりも小さい。いくつかの実施形態において、識別セットは、データセット１２２における複数の遺伝子の少なくとも４分の１の遺伝子からなる（例えば、１０００個の遺伝子から２５０個以下の遺伝子への低下）。データセット１２２で利用可能なものよりも識別遺伝子セットについてより少ない遺伝子セットを選択することにより、第１および第２の状態を識別するためのアルゴリズムを、より小さく、より有益なデータ（例えば、より少ない遺伝子についての存在量データ）で訓練でき、それは第１および第２の癌状態を識別する分類器のより計算効率が高い訓練につながる。識別遺伝子セットのサイズが減少することによる計算効率におけるそのような改善は、有利には、分類器訓練を高速化するために使用するか、またはそのような分類器の性能を改善するために使用することができる（例えば、分類器のより広範な訓練を通じて）。いくつかの実施形態において、識別遺伝子セットは、データセット１２２内の複数の遺伝子の少なくとも４分の１、５分の１、６分の１、７分の１、８分の１、９分の１、１０分の１、２０分の１、３０分の１、４０分の１、または５０分の１の遺伝子からなる。さらに、分析に使用される遺伝子の数を減らすことは、データの過剰適合を防止することによってモデルを改善する。

ブロック２２６。図２Ｃのブロック２２６を参照すると、いくつかの実施形態において、識別遺伝子セットの特定は、回帰アルゴリズムを使用して、複数の訓練対象１２４にわたる癌状態１２８のそれぞれの指標に対する複数の訓練対象１２４にわたる複数の存在量値１２６のすべてまたはサブセットに基づいて、データセット１２２を回帰し、それにより、複数の回帰係数における、対応する回帰係数を、複数の遺伝子における各それぞれの遺伝子に対して割り当てることを含む。したがって、そのような実施形態において、癌の状態は従属変数であり、遺伝子の存在量の値は独立変数である。そのような実施形態において、識別遺伝子セットについて選択される複数の遺伝子由来の遺伝子は、係数閾値を満たす回帰アルゴリズムによって係数が割り当てられた遺伝子である。そのような実施形態において、係数が係数閾値を満たす遺伝子は、従属変数、癌クラスにかなりの影響を与えるのに十分に顕著であると見なされ、したがって、識別遺伝子セットのために保持される。本開示の特定の実施形態におけるそのような回帰の詳細は、以下に提示されている。

ブロック２２８～２３２。図２Ｄのブロック２２８を参照すると、いくつかの実施形態において、識別遺伝子セットの特定は、データセットを複数のセット（例えば、５～５０個のセット、正確に１０個のセットなど）に分割することを含む。複数のセットにおける各セットは、第１の癌状態に罹患している２つ以上の対象、および第２の癌状態に罹患している２つ以上の対象を含む。次に、複数のセットにおける各それぞれのセットは、回帰アルゴリズムを使用して、それぞれのセットの対象にわたる癌状態のそれぞれの指標に対するそれぞれのセットの対象にわたる複数の存在量値のすべてまたはサブセットに基づいて、独立して回帰され、それにより、複数の回帰係数における、対応する回帰係数を、前記複数の遺伝子における各それぞれの遺伝子に対して割り当てる。複数のセットの少なくとも閾値パーセンテージについて係数閾値を満たす回帰アルゴリズムによって回帰係数が割り当てられたそれらの遺伝子が、識別遺伝子セットのために選択される。ブロック２３０を参照すると、いくつかの実施形態において、係数閾値はゼロである。いくつかの実施形態において、必要とされる閾値パーセンテージは、複数のセットの少なくとも４０パーセントである。したがって、説明のために、１０個のセットがある場合を考えてみよう。そのような場合、遺伝子Ａが識別遺伝子セットに含まれるためには、癌状態に対する１０個のセットの各々の回帰時に、遺伝子Ａについての回帰係数が１０個のセットのうち４つのセットにおいて回帰閾値を満たす必要がある。回帰閾値がゼロの場合、回帰閾値を満たすには正の回帰係数が必要であることを意味し、１０個のセットのうち少なくとも４つにおいて、遺伝子Ａについての回帰係数が正である必要がある。いくつかの実施形態において、閾値は係数の絶対値に適用される。しかしながら、本明細書に記載のいくつかの実施形態において、ＬＡＳＳＯ回帰がスパース係数を返すように設計されているため、閾値は０に設定される。いくつかの実施形態において、必要とされる閾値パーセンテージは、複数のセットの少なくとも５０パーセント、少なくとも６０パーセント、少なくとも７０パーセント、少なくとも８０パーセント、少なくとも９０パーセント、またはすべてである。ブロック２３２を参照すると、いくつかの実施形態において、回帰係数閾値はゼロより大きい（例えば、０．１、０．２、０．３、またはいくつかの他の正の値）。より大きな回帰係数を要求することは、遺伝子が識別データセットに含まれるために必要とされるものの厳密性を高めるのに役立つことが理解されよう。様々な代替の実施形態において、回帰時の回帰係数の絶対値がゼロ以外、０．１より大きい、または０．２より大きい場合、回帰係数は、回帰係数閾値を満たす。

ブロック２３４～２４０。識別遺伝子セットの特定おいて使用される従属変数は、２つのラベル、第１の癌状態または第２の癌状態のうちの１つを採用することに留意されたい。したがって、図２Ｄのブロック２３４を参照すると、いくつかの実施形態において、回帰アルゴリズムは、以下を仮定するロジスティック回帰である。

、
ここで、ｘ_ｉ＝（ｘ_ｉ１、ｘ_ｉ２、…、ｘ_ｉｋ）は、ｉ番目の対応する対象の腫瘍試料由来の複数の遺伝子についての対応する複数の存在量値である。さらに、Ｙ∈｛０、１｝は、対応する対象ｉが第１の癌状態を有する場合に値「１」を有し、対応する対象ｉが第２の癌状態を有する場合に値「０」を有するクラスラベルである。したがって、Ｐ（Ｙ＝１｜ｘ_ｉ）は、ｉ番目の対応する対象が第１の癌クラスのメンバーである推定確率である。β_０という用語は、切片であり、β_ｊ＝（ｊ＝１、．．．ｋ）は、複数の回帰係数である。複数の回帰係数における各それぞれの回帰係数は、複数の遺伝子における対応する遺伝子に対するものである。より具体的には、各それぞれの回帰係数は、データセット１２２における訓練対象１２４にわたる複数の遺伝子における対応する遺伝子の存在量値に対するものである。そのような実施形態によるロジスティック回帰において、ｉ番目の対応する対象は、Ｐ（Ｙ＝１｜ｘ_ｉ）が事前定義された閾値を超える場合、第１の癌クラスに割り当てられ、それ以外の場合は第２の癌クラスに割り当てられる。いくつかの実施形態において、この事前定義された閾値は、０．５である。いくつかの実施形態において、この事前定義された閾値は、０．２５～０．７５の数である。

ブロック２３８を参照すると、いくつかの実施形態において、ロジスティック回帰は、ロジスティック最小絶対収縮および選択演算子（ＬＡＳＳＯ）回帰である。そのような実施形態において、ロジスティックＬＡＳＳＯ推定器

．．．

は、以下の負の対数尤度の最小化として定義される。
最小

、
制約

を受ける。ここで、λ＞０は、推定量のスパース性（例えば、値がゼロの回帰係数の数）を制御する調整パラメーターであり、実際には、例えば、検証試料や相互検証を使用することによって選択される。いくつかの実施形態において、Ｒおけるｇｌｍｎｅｔパッケージを使用して、ロジスティックＬＡＳＳＯ推定器を取得する。Ｆｒｉｅｄｍａｎｅｔａｌ．，２００８，“ＲｅｇｕｌａｒｉｚａｔｉｏｎＰａｔｈｓｆｏｒＧｅｎｅｒａｌｉｚｅｄＬｉｎｅａｒＭｏｄｅｌｓｖｉａＣｏｏｒｄｉｎａｔｅＤｅｓｃｅｎｔ，”ＪｏｕｒｎａｌｏｆＳｔａｔｉｓｔｉｃａｌＳｏｆｔｗａｒｅ３３（１）、およびＫｉｍ，２０１８，“ＬｏｇｉｓｔｉｃＬＡＳＳＯｒｅｇｒｅｓｓｉｏｎｆｏｒｔｈｅｄｉａｇｎｏｓｉｓｏｆｂｒｅａｓｔｃａｎｃｅｒｕｓｉｎｇｃｌｉｎｉｃａｌｄｅｍｏｇｒａｐｈｉｃｄａｔａａｎｄｔｈｅＢＩ－ＲＡＤＳｌｅｘｉｃｏｎｆｏｒｕｌｔｒａｓｏｎｏｇｒａｐｈｙ，”Ｕｌｔｒａｓｏｎｏｇｒａｐｈｙ３７，ｐｐ．３６－４２を参照されたく、それらの各々は参照により本明細書に組み込まれる。

いくつかの実施形態において、ＬＡＳＳＯ以外の正則化方法を使用して、データセット１２２の訓練対象１２４にわたる遺伝子存在量値に基づいて第１および第２の癌状態を識別する複数の遺伝子における遺伝子を特定する。例えば、いくつかの実施形態において、弾性ネットを使用して、データセット１２２の訓練対象１２４にわたる遺伝子存在量値に基づいて第１および第２の癌状態を識別する複数の遺伝子における遺伝子を特定する。ＺｏｕａｎｄＨａｓｔｉｅ，２００５，“Ｒｅｇｕｌａｒｉｚａｔｉｏｎａｎｄｖａｒｉａｂｌｅｓｅｌｅｃｔｉｏｎｖｉａｔｈｅｅｌａｓｔｉｃｎｅｔ，ＪＲＳｔａｔＳｏｃＳｅｒｉｅｓＢＳｔａｔＭｅｔｈｏｄｏｌ６７，ｐｐ．３０１－３２０を参照されたく、それは参照により本明細書に組み込まれる。いくつかの実施形態において、スパースラプラシアンペナルティを使用して、データセット１２２の訓練対象１２４にわたる遺伝子存在量値に基づいて第１および第２の癌状態を識別する複数の遺伝子における遺伝子を特定する。Ｈｕａｎｇｅｔａｌ．，２０１１，“ＴｈｅｓｐａｒｓｅＬａｐｌａｃｉａｎｓｈｒｉｎｋａｇｅｅｓｔｉｍａｔｏｒｆｏｒｈｉｇｈ－ｄｉｍｅｎｓｉｏｎａｌｒｅｇｒｅｓｓｉｏｎ，ＡｎｎＳｔａｔ３９，ｐｐ．２０２１－２０４６を参照されたく、それは参照により本明細書に組み込まれる。いくつかの実施形態において、弾性ネット、グループＬＡＳＳＯ（ＹｕａｎａｎｄＬｉｎ，２００６，“ＭｏｄｅｌＳｅｌｅｃｔｉｏｎａｎｄＥｓｔｉｍａｔｉｏｎｉｎＲｅｇｒｅｓｓｉｏｎｗｉｔｈＧｒｏｕｐｅｄＶａｒｉａｂｌｅｓ，”ＪｏｕｒｎａｌｏｆｔｈｅＲｏｙａｌＳｔａｔｉｓｔｉｃａｌＳｏｃｉｅｔｙ．ＳｅｒｉｅｓＢＳｔａｔｉｓｔｉｃａｌＭｅｔｈｏｄｏｌｏｇｙ６８（１），ｐｐ．４９－６７）、融合ＬＡＳＳＯ（Ｔｉｂｓｈｉｒａｎｉｅｔａｌ．，２００５，“ＳｐａｒｓｉｔｙａｎｄＳｍｏｏｔｈｎｅｓｓｖｉａｔｈｅＦｕｓｅｄｌａｓｓｏ，”ＪｏｕｒｎａｌｏｆｔｈｅＲｏｙａｌＳｔａｔｉｓｔｉｃａｌＳｏｃｉｅｔｙ．ＳｅｒｉｅｓＢＳｔａｔｉｓｔｉｃａｌＭｅｔｈｏｄｏｌｏｇｙ６７（１），ｐｐ．９１－１０８）、準ノルムおよびブリッジ回帰（Ｆｕ，１９９８，“ＴｈｅＢｒｉｄｇｅｖｅｒｓｕｓｔｈｅＬａｓｓｏ，”ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌａｎｄＧｒａｐｈｉｃａｌＳｔａｔｉｓｔｉｃｓ７（３），ｐｐ．３９７－４１６）、または適応ＬＡＳＳＯを使用して、データセット１２２の訓練対象１２４にわたる遺伝子存在量値に基づいて第１および第２の癌状態を識別する複数の遺伝子における遺伝子を特定する。図２Ｅのブロック２４０を参照すると、いくつかの実施形態において、回帰アルゴリズムは、Ｌ１（ＬＡＳＳＯ）またはＬ２（Ｒｉｄｇｅ）正則化項を含む。

ブロック２４２～２４４。上記の開示は、訓練セット１２２における対象１２４の遺伝子存在量値１２６が、その存在量値が集合的に第１および第２の癌状態を識別する識別遺伝子セットを特定するためにどのように使用されるかを詳述する。この識別遺伝子セットが特定されると、訓練セット１２２を使用して、試験対象から採取された生物学的試料から測定された識別遺伝子の存在量値を使用して、試験対象についての第１および第２の癌状態を識別できる分類器を正式に訓練する。典型的な実施形態において、この試験対象の癌状態は知られていない。すなわち、試験対象が特定の癌を有することは知られていてもよいが、対象が対象の癌の予後に悪影響を与える病原体に罹患しているかどうかは知られていない。典型的な実施形態において、試験対象の遺伝子存在量値を測定するために使用される生物学的試料は、試験対象内の固形腫瘍である。ブロック２４２を参照すると、いくつかの実施形態において、複数の対象にわたる識別遺伝子セットについてのそれぞれの存在量値および癌状態のそれぞれの指標を使用して、識別遺伝子セットについてのそれぞれの存在量値の関数として第１の癌状態および第２の癌状態を識別するように分類器を訓練する。いくつかの実施形態において、以下の実施例に開示されるように、分類器を訓練するために、識別遺伝子セットの存在量値に加えて、追加の特徴を利用する。例えば、いくつかの実施形態において、選択された遺伝子における特定の変異が存在しないことも、識別遺伝子セットについての存在量値と併せて分類器を訓練するために使用される。

図２Ｅのブロック２４４を参照すると、いくつかの実施形態において、非限定的な例として、ブロック２４２において使用される分類器は、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシン（ＳＶＭ）アルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定キアルゴリズム、クラスタリングアルゴリズム、またはそれらの組み合わせである。

ブロック２４２の分類器としての使用に適したロジスティック回帰アルゴリズムは、例えば、Ａｇｒｅｓｔｉ，ＡｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＣａｔｅｇｏｒｉｃａｌＤａｔａＡｎａｌｙｓｉｓ，１９９６，Ｃｈａｐｔｅｒ５，ｐｐ．１０３－１４４，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎ，ＮｅｗＹｏｒｋに開示されており、それは参照により組み込まれる。

ブロック２４２の分類器としての使用に適した畳み込みニューラルネットワークアルゴリズムを含むニューラルネットワークアルゴリズムは、例えば、Ｖｉｎｃｅｎｔｅｔａｌ．，２０１０，“Ｓｔａｃｋｅｄｄｅｎｏｉｓｉｎｇａｕｔｏｅｎｃｏｄｅｒｓ：Ｌｅａｒｎｉｎｇｕｓｅｆｕｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｉｎａｄｅｅｐｎｅｔｗｏｒｋｗｉｔｈａｌｏｃａｌｄｅｎｏｉｓｉｎｇｃｒｉｔｅｒｉｏｎ，”ＪＭａｃｈＬｅａｒｎＲｅｓ１１，ｐｐ．３３７１－３４０８、Ｌａｒｏｃｈｅｌｌｅｅｔａｌ．，２００９，“Ｅｘｐｌｏｒｉｎｇｓｔｒａｔｅｇｉｅｓｆｏｒｔｒａｉｎｉｎｇｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ，”ＪＭａｃｈＬｅａｒｎＲｅｓ１０，ｐｐ．１－４０、およびＨａｓｓｏｕｎ，１９９５，ＦｕｎｄａｍｅｎｔａｌｓｏｆＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＭａｓｓａｃｈｕｓｅｔｔｓＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙに開示されており、それらの各々は参照により本明細書に組み込まれる。ニューラルネットワークは、重みの層によって出力ユニットの層に接続された入力ユニットの層（およびバイアス）を含む層状構造を有する。回帰の場合、出力ユニットの層は、典型的には、１つの出力ユニットのみを含む。しかしながら、ニューラルネットワークは複数の定量的応答をシームレス形状に処理し得る。多層ニューラルネットワークにおいて、入力ユニット（入力層）、非表示ユニット（非表示層）、および出力ユニット（出力層）がある。さらに、入力ユニット以外の各ユニットに接続されている単一のバイアスユニットがある。ブロック２４２の分類器としての使用に適した追加の例示的なニューラルネットワークは、Ｄｕｄａｅｔａｌ．，２００１，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＳｅｃｏｎｄＥｄｉｔｉｏｎ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ＮｅｗＹｏｒｋ、およびＨａｓｔｉｅｅｔａｌ．，２００１，ＴｈｅＥｌｅｍｅｎｔｓｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇ，Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ，ＮｅｗＹｏｒｋに開示されており、それらの各々は参照によりその全体が本明細書に組み込まれる。ブロック２４２の分類器としての使用に適した追加の例示的なニューラルネットワークは、Ｄｒａｇｈｉｃｉ，２００３，ＤａｔａＡｎａｌｙｓｉｓＴｏｏｌｓｆｏｒＤＮＡＭｉｃｒｏａｒｒａｙｓ，Ｃｈａｐｍａｎ＆Ｈａｌｌ／ＣＲＣ、およびＭｏｕｎｔ，２００１，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ：ｓｅｑｕｅｎｃｅａｎｄｇｅｎｏｍｅａｎａｌｙｓｉｓ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，ＮｅｗＹｏｒｋに記載されており、それらの各々は参照によりその全体が本明細書に組み込まれる。

ブロック２４２の分類器としての使用に適したＳＶＭアルゴリズムは、例えば、ＣｒｉｓｔｉａｎｉｎｉａｎｄＳｈａｗｅ－Ｔａｙｌｏｒ，２０００，“ＡｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ，”ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ、Ｂｏｓｅｒｅｔａｌ．，１９９２，“Ａｔｒａｉｎｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｏｐｔｉｍａｌｍａｒｇｉｎｃｌａｓｓｉｆｉｅｒｓ，”ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５^ｔｈＡｎｎｕａｌＡＣＭＷｏｒｋｓｈｏｐｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙ，ＡＣＭＰｒｅｓｓ，Ｐｉｔｔｓｂｕｒｇｈ，Ｐａ．，ｐｐ．１４２－１５２、Ｖａｐｎｉｋ，１９９８，ＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙ，Ｗｉｌｅｙ，ＮｅｗＹｏｒｋ、Ｍｏｕｎｔ，２００１，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ：ｓｅｑｕｅｎｃｅａｎｄｇｅｎｏｍｅａｎａｌｙｓｉｓ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，Ｎ．Ｙ．、Ｄｕｄａ，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＳｅｃｏｎｄＥｄｉｔｉｏｎ，２００１，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ｐｐ．２５９，２６２－２６５、およびＨａｓｔｉｅ，２００１，ＴｈｅＥｌｅｍｅｎｔｓｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇ，Ｓｐｒｉｎｇｅｒ，ＮｅｗＹｏｒｋ、およびＦｕｒｅｙｅｔａｌ．，２０００，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ１６，９０６－９１４に記載されており、それらの各々は参照によりその全体が本明細書に組み込まれる。分類に使用される場合、ＳＶＭは、二値ラベル付きデータ訓練セットの所与のセット（ここでは、データセット１２２における各対象の第１および第２の癌状態）を、ラベル付きデータから最大に離れた超平面で分離する。線形分離が可能でない場合、ＳＶＭは、特徴空間への非線形マッピングを自動的に実現する｀カーネルの技術と組み合わせて機能する。特徴空間においてＳＶＭによって見出された超平面は、入力空間における非線形決定境界に対応する。

ブロック２４２の分類器としての使用に適したナイーブベイズ分類器は、例えば、Ｎｇｅｔａｌ．，２００２，“Ｏｎｄｉｓｃｒｉｍｉｎａｔｉｖｅｖｓ．ｇｅｎｅｒａｔｉｖｅｃｌａｓｓｉｆｉｅｒｓ：ＡｃｏｍｐａｒｉｓｏｎｏｆｌｏｇｉｓｔｉｃｒｅｇｒｅｓｓｉｏｎａｎｄｎａｉｖｅＢａｙｅｓ，”ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ，１４に開示されており、それは参照により本明細書に組み込まれる。

ブロック２４２の分類器としての使用に適した決定木アルゴリズムは、例えば、Ｄｕｄａ，２００１，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ＮｅｗＹｏｒｋ，ｐｐ．３９５－３９６に記載されており、それは参照により本明細書に組み込まれる。ツリーベースのメソッドは、特徴空間を長方形のセットに区分化し、各々においてモデル（定数など）を適合させる。いくつかの実施形態において、決定木はランダムフォレスト回帰である。ブロック２４４の分類器として使用され得る１つの特定のアルゴリズムは、分類および回帰ツリー（ＣＡＲＴ）である。ブロック２４４の分類器として使用され得る特定の決定木アルゴリズムの他の例には、ＩＤ３、Ｃ４．５、ＭＡＲＴ、およびランダムフォレストを含むが、これらに限定されない。ＣＡＲＴ、ＩＤ３、およびＣ４．５は、Ｄｕｄａ，２００１，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ＮｅｗＹｏｒｋ．ｐｐ．３９６－４０８ａｎｄｐｐ．４１１－４１２に記載されており、それは参照により本明細書に組み込まれる。ＣＡＲＴ、ＭＡＲＴ、およびＣ４．５は、Ｈａｓｔｉｅｅｔａｌ．，２００１，ＴｈｅＥｌｅｍｅｎｔｓｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇ，Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ，ＮｅｗＹｏｒｋ，Ｃｈａｐｔｅｒ９に記載されており、それは参照によりその全体が本明細書に組み込まれる。ランダムフォレストは、Ｂｒｅｉｍａｎ，１９９９，“ＲａｎｄｏｍＦｏｒｅｓｔｓ－－ＲａｎｄｏｍＦｅａｔｕｒｅｓ，”ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ５６７，ＳｔａｔｉｓｔｉｃｓＤｅｐａｒｔｍｅｎｔ，Ｕ．Ｃ．Ｂｅｒｋｅｌｅｙ，Ｓｅｐｔｅｍｂｅｒ１９９９に記載されており、それは参照によりその全体が本明細書に組み込まれる。

ブロック２４２の分類器としての使用に適したクラスタリングアルゴリズムは、例えば、ＤｕｄａａｎｄＨａｒｔ，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎａｎｄＳｃｅｎｅＡｎａｌｙｓｉｓ，１９７３，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ＮｅｗＹｏｒｋ（以下、「Ｄｕｄａ１９７３」）の２１１～２５６ページに記載されており、それは参照によりその全体が本明細書に組み込まれる。Ｄｕｄａ１９７３のセクション６．７に記載されているように、クラスタリングの問題は、データセットにおける自然なグループ分けを見つけることのうちの１つとして説明されている。自然なグループ分けを特定するために、２つの問題に対処する。第１に、２つの試料間の類似性（または非類似性）を測定する方法が決定される。この測定基準（類似性の尺度）は、一方のクラスターにおける試料が他方のクラスターにおける試料よりも互いに類似していることを確認するために使用される。ここで、類似性の尺度は、訓練データセット１２２にわたって識別遺伝子セットの存在量レベルにある。次に、類似性の尺度を使用してデータをクラスターに分割するメカニズムが決定される。類似性の尺度は、Ｄｕｄａ１９７３のセクション６．７で説明されており、クラスタリング調査を開始する１つの方法は、距離関数を定義し、データセットおける試料のすべてのペア間の距離の行列を計算することである。距離が類似性の適切な尺度である場合、同じクラスターにおける試料間の距離は、異なるクラスターにおける試料間の距離よりも顕著に短くなる。しかしながら、Ｄｕｄａ１９７３の２１５ページに記載されているように、クラスタリングでは距離測定基準を使用する必要はない。例えば、非計量的相似関数ｓ（ｘ、ｘ’）を使用して、２つのベクトルｘおよびｘ’を比較し得る。従来、ｓ（ｘ、ｘ’）は、ｘおよびｘ’が何らかの形で「類似」している場合に値が大きくなる対称関数である。非計量的相似関数ｓ（ｘ、ｘ’）の例は、Ｄｕｄａ１９７３の２１６ページに提供されている。

データセットにおけるポイント間の「類似性」または「非類似性」を測定するための方法が選択されると、クラスタリングは、データの任意の区分のクラスタリング品質を測定する基準関数を利用する。基準関数を極限化するデータセットの区分は、データをクラスター化するために使用される。Ｄｕｄａ１９７３の２１７ページを参照されたい。基準関数については、Ｄｕｄａ１９７３のセクション６．８で議論されている。最近ではＤｕｄａｅｔａｌ．，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，２^ｎｄｅｄｉｔｉｏｎ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．ＮｅｗＹｏｒｋが発行された。５３７～５６３ページでは、クラスタリングについて詳しく説明している。ブロック２４２の分類器としての使用に適したクラスタリング技術についての詳細は、ＫａｕｆｍａｎａｎｄＲｏｕｓｓｅｅｕｗ，１９９０，ＦｉｎｄｉｎｇＧｒｏｕｐｓｉｎＤａｔａ：ＡｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＣｌｕｓｔｅｒＡｎａｌｙｓｉｓ，Ｗｉｌｅｙ，ＮｅｗＹｏｒｋ，Ｎ．Ｙ．、Ｅｖｅｒｉｔｔ，１９９３，Ｃｌｕｓｔｅｒａｎａｌｙｓｉｓ（３ｄｅｄ．），Ｗｉｌｅｙ，ＮｅｗＹｏｒｋ，Ｎ．Ｙ．、およびＢａｃｋｅｒ，１９９５，Ｃｏｍｐｕｔｅｒ－ＡｓｓｉｓｔｅｄＲｅａｓｏｎｉｎｇｉｎＣｌｕｓｔｅｒＡｎａｌｙｓｉｓ，ＰｒｅｎｔｉｃｅＨａｌｌ，ＵｐｐｅｒＳａｄｄｌｅＲｉｖｅｒ，Ｎ．Ｊ．に記載されている。ブロック２４２の分類器として使用され得る特定の例示的なクラスタリング手法には、階層的クラスタリング（最近傍アルゴリズム、最遠近傍（ｆａｒｔｈｅｓｔ－ｎｅｉｇｈｂｏｒ）アルゴリズム、平均連結アルゴリズム、重心アルゴリズム、または二乗和アルゴリズムを使用した凝集クラスタリング）、ｋ平均クラスタリング、ファジーｋ平均クラスタリングアルゴリズム、およびＪａｒｖｉｓ－Ｐａｔｒｉｃｋクラスタリングを含むが、これらに限定されない。

いくつかの実施形態において、ブロック２４２に使用される分類器は、最近傍アルゴリズムである。最近傍について、クエリ点ｘ_０（試験対象）が与えられると、ｘ_０に最も近い距離にあるｋ個の訓練点ｘ_（ｒ）、ｒ、．．．、ｋ（ここでは、訓練対象）が特定され、点ｘ_０は、ｋ最近傍を使用して分類される。ここで、これらの近傍の距離は、識別遺伝子セットの存在量値の関数である。いくつかの実施形態において、特徴空間におけるユークリッド距離を使用して、距離をｄ_（ｉ）＝｜｜ｘ_（ｉ）－ｘ_（Ｏ）｜｜として決定する。典型的には、最近傍アルゴリズムが使用される場合、線形判別式の計算に使用される存在量データは、平均がゼロで分散が１になるように標準化される。最近傍ルールを改良して、不均衡なクラス優先、差次的誤分類のコスト、および特徴選択の問題に対処することができる。これらの改良点の多くは、近傍に対する何らかの形の加重投票を伴う。最近傍分析の詳細については、Ｄｕｄａ，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＳｅｃｏｎｄＥｄｉｔｉｏｎ，２００１，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ、およびＨａｓｔｉｅ，２００１，ＴｈｅＥｌｅｍｅｎｔｓｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇ，Ｓｐｒｉｎｇｅｒ，ＮｅｗＹｏｒｋを参照されたく、それらの各々は参照により本明細書に組み込まれる。

ブロック２４６～２４８。上記の開示は、識別遺伝子セットの存在量値を使用する分類器の訓練について説明している。

ブロック２４６を参照すると、いくつかの実施形態において、訓練された分類器を使用して、試験対象を分類し、試験の複数の存在量値を分類器に入力することによって、試験対象が第１の癌状態または第２の癌状態を有するかどうかを決定する。そのような実施形態において、試験の複数の存在量値における各それぞれの存在量値は、試験対象の生物学的試料（例えば、腫瘍試料）における、複数の遺伝子、より具体的には識別遺伝子セットにおける、対応する遺伝子の発現レベルを定量化する。この入力に応答して、分類器は、試験対象が第１の癌状態、または第２の癌状態のいずれを有しているかを指定する。

ブロック２４６を参照すると、いくつかの代替の実施形態において、訓練された分類器を使用して、対象が第１の癌状態または第２の状態を有する尤度または確率を決定する。これは、そのような実施形態において、試験の複数の存在量値を分類器に入力することによって行われる。そのような実施形態において、試験の複数の存在量値における各それぞれの存在量値は、試験対象の生物学的試料（例えば、腫瘍試料）における、複数の遺伝子（より具体的には識別遺伝子セット）における、対応する遺伝子の発現レベルを定量化する。この入力に応答して、分類器は、試験対象が第１の癌状態を有する尤度または確率、あるいは、試験対象が第２の癌状態を有する尤度または確率を指定する。

ブロック２４８を参照すると、いくつかの実施形態において、試験対象が第１の癌状態または第２の癌状態を有するという決定（または試験対象が第１または第２の癌状態を有する尤度）に基づいて、試験対象の治療的介入または画像化が提供される。そのような条件付き治療の例を、図３と併せて以下に提供する。例えば、発癌性病原体感染に関連する特定の癌の型についての療法の進行中の臨床試験の非限定的の例を以下の表２に示す。

ＲＮＡ分析パイプライン
いくつかの実施形態において、本明細書に記載の方法およびシステムは、患者の生物学的試料から単離されたＲＮＡ分子の配列決定と併せて実行される。いくつかの実施形態において、配列決定データのＦＡＳＴＱファイルまたは同等のファイル形式は、そのような配列決定反応の出力である。

いくつかの実施形態において、各ＦＡＳＴＱファイルは、ペアエンドまたはシングルリードであり得、ショートリードまたはロングリードであり得る、リードを含み、各リードは、患者試料から単離され、ライブラリー調製中に単離されたｍＲＮＡ分子から生成されたｃＤＮＡ分子中に含まれるヌクレオチドの配列を検出するために配列決定装置を使用することによって推測されたｍＲＮＡ分子中のヌクレオチドの１つの検出された配列を示す。ＦＡＳＴＱファイルにおける各リードは、品質評価にも関連付けられている。品質評価は、関連するリードに影響を与える配列決定手順中にエラーが発生した尤度を反映し得る。

各ＦＡＳＴＱファイルは、バイオインフォマティクスパイプラインによって処理され得る。様々な実施形態において、バイオインフォマティクスパイプラインは、ＦＡＳＴＱデータをフィルタリングし得る。ＦＡＳＴＱデータのフィルタリングには、配列決定装置エラーの修正、ならびに、低品質の配列または塩基、アダプター配列、汚染、キメラリード、過剰表現された配列、ライブラリーの調製、増幅、または捕捉によって引き起こされるバイアス、およびその他のエラーの削除（トリミング）を含み得る。エラーが発生する可能性のあるリード全体、個々のヌクレオチド、または複数のヌクレオチドは、ＦＡＳＴＱファイルにおけるリードに関連する品質評価、配列決定装の既知のエラー率、および／またはリードにおける各ヌクレオチドと、参照ゲノムにおいて同じ位置にアラインメントされた他のリードにおける１つ以上のヌクレオチドとの比較に基づいて破棄され得る。フィルタリングは、様々なソフトウェアツールによって部分的または全体的に実行され得る。ＦＡＳＴＱファイルは、品質管理およびリードの迅速な評価のために、例えば、ＡｆｔｅｒＱＣ、Ｋｒａｋｅｎ、ＲＮＡ－ＳｅＱＣ、ＦａｓｔＱＣ（Ｉｌｌｕｍｉｎａ、ＢａｓｅＳｐａｃｅＬａｂｓ、またはｈｔｔｐｓ：／／ｗｗｗ．ｉｌｌｕｍｉｎａ．ｃｏｍ／ｐｒｏｄｕｃｔｓ／ｂｙ－ｔｙｐｅ／ｉｎｆｏｒｍａｔｉｃｓ－ｐｒｏｄｕｃｔｓ／ｂａｓｅｓｐａｃｅ－ｓｅｑｕｅｎｃｅ－ｈｕｂ／ａｐｐｓ／ｆａｓｔｑｃ．ｈｔｍｌ参照）、または別の同様のソフトウェアプログラムなどの配列決定データＱＣソフトウェアによって分析され得る。ペアエンドリードについては、リードはマージされ得る。

各ＦＡＳＴＱファイルについて、ファイルにおける各リードは、リードにおけるヌクレオチドの配列に最もよく一致する配列を持つ参照ゲノムにおける位置にアラインメントし得る。リードをアラインメントするように設計された多くのソフトウェアプログラム、例えば、Ｂｏｗｔｉｅ、ＢｕｒｒｏｗｓＷｈｅｅｌｅｒＡｌｉｇｎｅｒ（ＢＷＡ）、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズムを使用するプログラムがある。アラインメントは、各リードにおけるヌクレオチド配列を参照ゲノムにおけるヌクレオチド配列の一部と比較して、リードにおける配列に対応する可能性が最も高い参照ゲノム配列の部分を決定することによって、参照ゲノム（例えば、ＧＲＣｈ３８、ｈｇ３８、ＧＲＣｈ３７、ＧｅｎｏｍｅＲｅｆｅｒｅｎｃｅＣｏｎｓｏｒｔｉｕｍによって開発された他のリファレンスゲノムなど）を使用して指示され得る。アラインメントは、ＲＮＡスプライス部位を考慮してもよい。アラインメントは、参照ゲノムにおける各リードの開始位置および終了位置、および参照ゲノムにおける各ヌクレオチドのカバレッジ（リード数）を格納するＳＡＭファイルを生成し得る。ＳＡＭファイルをＢＡＭファイルに変換したり、ＢＡＭファイルを並べ替えたり、重複したリードに削除のマークを付けたりし得る。

一例において、ｋａｌｌｉｓｔｏソフトウェアをアラインメントおよびＲＮＡリードの定量化に使用し得る（ＮｉｃｏｌａｓＬＢｒａｙ，ＨａｒｏｌｄＰｉｍｅｎｔｅｌ，ＰａｌｌＭｅｌｓｔｅｄａｎｄＬｉｏｒＰａｃｈｔｅｒ，Ｎｅａｒ－ｏｐｔｉｍａｌｐｒｏｂａｂｉｌｉｓｔｉｃＲＮＡ－ｓｅｑｑｕａｎｔｉｆｉｃａｔｉｏｎ，ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ３４，５２５－５２７（２０１６），ｄｏｉ：１０．１０３８／ｎｂｔ．３５１９参照）。別の実施形態において、ＲＮＡリードの定量化は、別のソフトウェア、例えば、ＳａｉｌｆｉｓｈまたはＳａｌｍｏｎを使用して実施し得る（ＲｏｂＰａｔｒｏ，ＳｔｅｐｈｅｎＭ．Ｍｏｕｎｔ，ａｎｄＣａｒｌＫｉｎｇｓｆｏｒｄ（２０１４）Ｓａｉｌｆｉｓｈｅｎａｂｌｅｓａｌｉｇｎｍｅｎｔ－ｆｒｅｅｉｓｏｆｏｒｍｑｕａｎｔｉｆｉｃａｔｉｏｎｆｒｏｍＲＮＡ－ｓｅｑｒｅａｄｓｕｓｉｎｇｌｉｇｈｔｗｅｉｇｈｔａｌｇｏｒｉｔｈｍｓ．ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ（ｄｏｉ：１０．１０３８／ｎｂｔ．２８６２）またはＰａｔｒｏ，Ｒ．，Ｄｕｇｇａｌ，Ｇ．，Ｌｏｖｅ，Ｍ．Ｉ．，Ｉｒｉｚａｒｒｙ，Ｒ．Ａ．，＆Ｋｉｎｇｓｆｏｒｄ，Ｃ．（２０１７）．Ｓａｌｍｏｎｐｒｏｖｉｄｅｓｆａｓｔａｎｄｂｉａｓ－ａｗａｒｅｑｕａｎｔｉｆｉｃａｔｉｏｎｏｆｔｒａｎｓｃｒｉｐｔｅｘｐｒｅｓｓｉｏｎ．ＮａｔｕｒｅＭｅｔｈｏｄｓ．参照）。これらのＲＮＡ－ｓｅｑ定量法は、アラインメントを必要としない場合がある。ＲＮＡ－ｓｅｑデータの正規化、定量分析、および差次的発現分析に使用し得るソフトウェアパッケージは多数ある。

各遺伝子について、所与の遺伝子についての生のＲＮＡリードカウントを計算し得る。生のリードカウントは、各試料について表形式のファイルに保存され得、列は遺伝子を表し、各エントリはその遺伝子についての生のＲＮＡリードカウントを表す。一例において、ｋａｌｌｉｓｔｏアラインメントソフトウェアは、各リードについて、リードが遺伝子にアラインメントする確率の合計として生のＲＮＡリードカウントを計算する。したがって、この例において、生のカウントは、整数ではない。

次に、生のＲＮＡリードカウントを、例えば完全分位正規化を使用して、正規化して、ＧＣ含量および遺伝子長を補正し、例えばサイズファクター法を使用して、配列決定深度について調整し得る。一例において、ＲＮＡリードカウントの正規化は、ＭｅｔｈｏｄｓｏｆＮｏｒｍａｌｉｚｉｎｇａｎｄＣｏｒｒｅｃｔｉｎｇＲＮＡＥｘｐｒｅｓｓｉｏｎＤａｔａと題され、２０１９年９月２４日に出願された米国特許出願第１６／５８１，７０６号またはＰＣＴ１９／５２８０１に開示されている方法に従って実施され、それらは参照によりその全体が本明細書に組み込まれる。正規化についての理論的根拠は、配列決定装置における各ｃＤＮＡ分子のコピー数が、患者試料におけるｍＲＮＡ分子の分布を反映していない場合があることである。例えば、ライブラリーの調製、増幅、および捕捉のステップ中に、ランダムヘキサマー、増幅（ＰＣＲ濃縮）、ｒＲＮＡ枯渇、ならびに各核酸分子におけるＧＣ含量、リード長、遺伝子長、および配列の他の特性が原因であり得る配列決定中に生成されるプローブ結合およびエラーによって引き起こされる逆転写のプライミングの様々な態様で発生するアーティファクトによって、ｍＲＮＡ分子の特定の部分が過剰または過少表示される場合がある。各遺伝子の各生ＲＮＡリードカウントは、ＮＧＳ配列決定プロトコルのバイアスまたはアーティファクトによって引き起こされる過剰または過少表示を排除または低減するように調整され得る。正規化されたＲＮＡリードカウントは、各試料について表形式のファイルに保存され得、列は遺伝子を表し、各エントリはその遺伝子についての正規化されたＲＮＡリードカウントを表す。

トランスクリプトーム値セットは、上記のように、正規化されたＲＮＡリードカウントまたは生のＲＮＡリードカウントのいずれかを指し得る。

ＨＰＶ分類器訓練
一態様において、本開示は、癌におけるヒトパピローマウイルス（ＨＰＶ）感染を検出するように分類器を訓練するための方法を提供する。方法は、ＨＰＶ関連癌および既知のＨＰＶ状態を有する対象１２４の訓練セット由来の、ＨＰＶ関連癌のＨＰＶ状態を評価するために有益である遺伝子についての存在量値１２６、例えば、ｍＲＮＡ発現レベルを取得することを含む。次いで、方法は、例えば、分類器訓練モジュール１２０を使用して、各それぞれの訓練対象について、少なくとも（ｉ）存在量値１２６、および（ｉｉ）患者の癌のＨＰＶ状態に対して、分類器を訓練することを含む。いくつかの実施形態において、分類器はまた、各訓練対象の癌における１つ以上の変異対立遺伝子１２７の状態に対して訓練される。

いくつかの実施形態において、各訓練対象は、子宮頸癌、頭頸部扁平上皮癌、卵巣癌、陰茎癌、咽頭癌、肛門癌、膣癌、および外陰癌から選択されるＨＰＶ関連癌を有する。いくつかの実施形態において、分類器は、すべてが、同じ型の癌、例えば、子宮頸癌、頭頸部扁平上皮癌、卵巣癌、陰茎癌、咽頭癌、肛門癌、膣癌、または外陰癌を有する患者由来のデータに対して訓練される。しかしながら、分類器訓練は概して訓練データセットのサイズを大きくすることによって改善されるので、いくつかの実施形態において、分類器は、２つ以上の型のＨＰＶ関連癌、例えば、子宮頸癌、頭頸部扁平上皮癌、卵巣癌、陰茎癌、咽頭癌、肛門癌、膣癌、および外陰癌のうちの２つ、３つ、４つ、５つ、６つ、７つ、または８つすべてを有する患者由来のデータに対して訓練される。実施例３によって例示される特定の実施形態において、各訓練対象は、頭頸部扁平上皮癌または子宮頸癌のいずれかを有する。

いくつかの実施形態において、分類器は、表３に記載もの、例えば、ＫＲＴ８６、ＣＲＩＳＰＬＤ１、ＤＳＧ１、ＳＥＳＮ３、ＤＡＭＴＳ２０、ＩＲＸ１、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、ＥＦＮＢ３、ＣＸＣＬ１４、ＺＦＲ２、ＲＮＦ２１２、ＭＫＲＮ３、ＳＹＣＰ２、ＭＹＬ１、ＭＹＯ３Ａ、ＲＮＡＳＥ１０、ＧＡＬＮＴ１３、Ｃ１９ｏｒｆ２６、ＭＵＣ４、ＰＣＤＨＧＢ１、ＣＣＮＤ１、ＬＣＥ１Ｆ、およびＫＣＮＳ１から選択される複数の遺伝子についての存在量値に対して訓練される。以下に報告するように、例えば、実施例３を参照すると、これらの２４個の遺伝子は、ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ（ＴＣＧＡ）においてＨＰＶの状態がわかっている子宮頸癌、または頭頸部癌の発現データから形成された１０個の訓練セットのうちの少なくとも８個において、対象のＨＰＶ状態に応じて差次的に発現されることが見出された。しかしながら、当業者は、場合によっては、異なる訓練データセットの使用が異なる結果、例えば、これらの遺伝子のうちの１つ以上が訓練フォールドの少なくとも８０％で有益ではない可能性があること、および／または実施例３において報告された研究において訓練フォールドの少なくとも８０％において有益ではないことが見出された１つ以上の遺伝子が有益であり得ること、をもたらす可能性があることを理解するであろう。これらの違いは、例えば、訓練集団を選択するために異なる基準が使用される場合に発生する可能性があり、例えば、癌の型、個人の特性（例えば、年齢、性別、民族、家族歴、喫煙状況など）などの種々の包含および／または除外基準、もしくは単に小さいまたは大きいデータセットを使用することによってである。

したがって、いくつかの実施形態において、分類器は、表３に記載の遺伝子のうちの少なくとも５つに対して訓練される。いくつかの実施形態において、分類器は、表３に記載の遺伝子のうちの少なくとも１０個に対して訓練される。いくつかの実施形態において、分類器は、表３に記載の遺伝子のうちの少なくとも１５個に対して訓練される。いくつかの実施形態において、分類器は、表３に記載の遺伝子のうちの少なくとも２０個に対して訓練される。いくつかの実施形態において、分類器は、表３に記載の遺伝子の２４個すべてに対して訓練される。いくつかの実施形態では、分類器は、表３に記載の遺伝子のうちの５個、６個、７個、８個、９個、１０個、１１個、１２個、１３個、１４個、１５個、１６個、１７個、１８個、１９個、２０個、２１個、２２個、２３個、または２４個すべてに対して訓練される。さらに、いくつかの実施形態において、分類器はまた、表３に記載されていない１つ以上の遺伝子についての存在量値に対して訓練される。いくつかの実施形態において、分類器はまた、表３に記載されていない１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個またはそれ以上の遺伝子についての存在量値に対して訓練される。いくつかの実施形態において、分類器はまた、表３に記載されていない１～１０個の遺伝子についての存在量値に対して訓練される。いくつかの実施形態において、分類器はまた、表３に記載されていない１～５個の遺伝子についての存在量値に対して訓練される。他の実施形態において、分類器はまた、表３に記載されていない任意の遺伝子についての存在量値に対して訓練されない。

さらに、当業者は、いくつかの特徴、例えば、特定の遺伝子についての存在量値が、特定の分類器における他の特徴よりもより有益であろうことも理解するであろう。複数の特徴に基づく分類器におけるそれぞれの特徴の予測力の１つの尺度は、モデルの訓練中に特徴について計算された回帰係数である。回帰係数は、各特徴およびモデルの応答の関係を表す。係数値は、特徴値において１単位増加を与える応答における平均変化を表す。そのため、少なくとも同じ型の変数について、回帰係数の大きさ、例えば絶対値は、モデルにおける特徴の重要性と相関する。つまり、回帰係数の大きさが大きいほど、変数はモデルにとってより重要になる。例えば、実施例３において報告されているように、表３に記載の遺伝子の２４個すべての存在量値、ならびにＴＰ５３およびＣＤＫＮ２Ａ遺伝子についての変異対立遺伝子状態に対して訓練された特定のサポートベクトルマシン（ＳＶＭ）分類器において、２４個の遺伝子のうち６つだけが、少なくとも０．５の大きさの回帰係数を有していた－ＣＤＫＮ２Ａ（１．１３）、ＳＭＣ１Ｂ（１．０２）、ＥＦＮＢ３（－０．９７）、ＫＣＮＳ１（０．７４）、ＣＣＮＤ１（－０．６５）、およびＲＮＦ２１２（０．５１７）。

したがって、当業者は、少なくとも部分的に１つ以上の分類モデルにおけるそれぞれの特徴の重要性に基づいて、表３に記載されたすべてより少ない遺伝子を含む特徴セットを選択し得る。例えば、いくつかの実施形態において、分類モデルにおいてより低い予測力を有する１つ以上の遺伝子は、分類器訓練中に省略され得る。例えば、いくつかの実施形態において、訓練に使用される特徴は、少なくとも０．５の回帰係数を有する、少なくとも表５に記載の遺伝子発現特徴、例えば、ＣＤＫＮ２Ａ、ＳＭＣ１Ｂ、ＥＦＮＢ３、ＫＣＮＳ１、ＣＣＮＤ１、およびＲＮＦ２１２を含む。いくつかの実施形態において、訓練に使用される特徴は、少なくとも０．４の回帰係数を有する、少なくとも表５に記載の遺伝子発現特徴を含む。いくつかの実施形態において、訓練に使用される特徴は、少なくとも０．３の回帰係数を有する、少なくとも表５に記載の遺伝子発現特徴を含む。いくつかの実施形態において、訓練に使用される特徴は、少なくとも０．２の回帰係数を有する、少なくとも表５に記載された遺伝子発現特徴を含む。いくつかの実施形態において、訓練に使用される特徴は、少なくとも０．１の回帰係数を有する、少なくとも表５に記載の遺伝子発現特徴を含む。

同様に、特徴セットのサイズは、どの特徴が含まれるか、および／または除外されるかによって影響を受け得る。例えば、いくつかの実施形態において、高い予測力を有する特定の特徴が分類モデルに含まれる場合、より少ない総特徴がモデルに含まれ得る。例えば、いくつかの実施形態において、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、およびＥＦＮＢ３についての存在量値がモデルに含まれる場合、存在量値が表５の特徴として使用される他の遺伝子のうちの２つ以下についての存在量値をモデルに含める必要がある。したがって、いくつかの実施形態において、モデルを訓練するために使用される特徴は、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、およびＥＦＮＢ３、ならびにその存在量値が表５の特徴として使用される少なくとも２つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、モデルを訓練するために使用される特徴は、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、およびＥＦＮＢ３、ならびにその存在量値が表５の特徴として使用される少なくとも５つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、モデルを訓練するために使用される特徴は、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、およびＥＦＮＢ３、ならびにその存在量値が表５の特徴として使用される少なくとも１０個の他の遺伝子についての存在量値を含む。いくつかの実施形態において、モデルを訓練するために使用される特徴は、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、およびＥＦＮＢ３、ならびにその存在量値が表５の特徴として使用される少なくとも１５個の他の遺伝子についての存在量値を含む。

同様に、いくつかの実施形態において、高い予測力を有する特徴が分類モデルから除外される場合、他の特徴のより多くがモデルに含まれ得る。例えば、いくつかの実施形態において、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、およびＥＦＮＢ３のうちの１つ以上についての存在量値がモデルに含まれない場合、その存在量値が表５の特徴として使用される他のうちの少なくとも１５個についての存在量値をモデルに含める。いくつかの実施形態において、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、およびＥＦＮＢ３のうちの１つ以上についての存在量値がモデルに含まれない場合、その存在量値が表５の特徴として使用される他の遺伝子のうちの少なくとも２０個についての存在量値をモデルに含める。いくつかの実施形態において、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、およびＥＦＮＢ３のうちの１つ以上についての存在量値がモデルに含まれない場合、その存在量値が表５の特徴として使用される他の遺伝子のうちの少なくとも１５個、１６個、１７個、１８個、１９個、２０個、または２１個すべてについての存在量値をモデルに含める。

もちろん、特徴が最後にモデルに追加されたときに標準化された回帰係数およびＲ二乗の変化など、モデルにおける特徴の重要性を評価するために他の測定基準も利用できる。

特徴セットを選択するとき、当業者は、特徴が互いに相関している程度も考慮するだろう。相関は、２つの変数が互いにどの程度線形に依存しているかを示す統計的尺度である。そのため、２つの相関する特徴は、予測モデルに重複する情報を提供し、これは、分類器に悪影響を与える可能性がある。そのため、相関する特徴をモデルから除外する理由がいくつかある。例えば、分類器における特徴の数が多いほど、実行する必要のある計算が増えるため、相関する特徴の削除はアルゴリズムをより速くする。相関する特徴の削除は、相関から生じる有害なバイアスもモデルから削除し得る。最後に、相関する特徴の削除は、モデルをより解釈できるようにし得る。

したがって、当業者は、少なくとも部分的に１つ以上の分類モデルにおけるそれぞれの特徴の相関に基づいて、表３に記載されたすべてより少ない遺伝子を含む特徴セットを選択し得る。いくつかの実施形態において、相関する特徴セットのうちの一方または他方の特徴を削除する選択は、２つの特徴の予測力、例えば、それらのそれぞれの回帰係数によって情報を与えられる。例えば、ＥＮＳＧ０００００１０５２７８（ＣＸＣＬ１４）およびＥＮＳＧ００００００７７９３５（ＳＭＣ１Ｂ）についての遺伝子発現値は、表３に記載の特徴セットにおいて高く相関している（相関＝０．７１８９８３１７５）。したがって、いくつかの実施形態において、特徴セットは、ＣＸＣＬ１４またはＳＭＣ１Ｂのいずれも含まない。いくつかの実施形態において、表５に報告されているように、ＳＭＣ１Ｂは、実施例３に記載のＳＶＭモデルにおいてＣＸＣＬ１４（－０．２９）よりも高い回帰係数（１．０２）を有するため、ＳＭＣ１ＢではなくＣＸＣＬ１４が特徴セットから除外される。

表６に報告されているように、１０対の遺伝子発現特徴は、少なくとも０．６の相関を有する。したがって、いくつかの実施形態において、少なくとも０．６の相関を有する少なくとも１対の特徴における特徴は、モデルから除外される。いくつかの実施形態において、少なくとも０．６の相関を有する少なくとも２対の特徴における特徴は、モデルから除外される。他の実施形態において、少なくとも０．６の相関を有する少なくとも３対、４対、５対、６対、７対、８対、９対、または１０対すべての特徴における特徴は、モデルから除外される。いくつかの実施形態において、除外された特徴は、表５に報告されているより低い回帰係数を有する一対の高く相関した特徴における特徴である。例えば、表６を参照すると、相関の高い各ペア（例えば、少なくとも０．６の相関に対応）においてより低い回帰係数有する特徴は以下のとおりである。
・ペア１＝ＤＳＧ１
・ペア２＝ＺＦＲ２
・ペア３＝ＲＮＦ２１２
・ペア４＝ＳＹＣＰ２
・ペア５＝ＺＦＲ２
・ペア６＝ＭＹＯ３Ａ
・ペア７＝ＳＹＣＰ２
・ペア８＝ＤＳＧ１
・ペア９＝ＫＣＮＳ１
・ペア１０＝ＺＦＲ２
したがって、いくつかの実施形態において、ＤＳＧ１、ＺＦＲ２、ＲＮＦ２１２、ＳＹＣＰ２、ＭＹＯ３Ａ、およびＫＣＮＳ１のうちの１つ以上は、それらが高く相関する特徴の対において最も有益性が低い特徴であることに基づいて、特徴セットから除外される。

しかしながら、いくつかの実施形態において、この選択プロセスは、例えば、高く相関する対の特徴のうちの少なくとも１つにおいて両方の遺伝子が最も有益性が低い特徴であることに基づいて、高く相関する対の特徴の両方の特徴を特徴セットから除外することを認めない。したがって、いくつかの実施形態において、ＳＹＣＰ２、ＭＹＯ３Ａ、およびＫＣＮＳ１のうちの１つ以上は、特徴セットから除外されない。同様に、いくつかの実施形態において、この選択プロセスは、非常に有益な特徴、例えば、少なくとも０．５の回帰係数を有する特徴が特徴セットから除外されることを認めない。したがって、いくつかの実施形態において、ＲＮＦ２１２およびＫＣＮＳ１の一方または両方は、特徴セットから除外されない。

したがって、一実施形態において、特徴セットは、少なくともＫＲＴ８６、ＣＲＩＳＰＬＤ１、ＳＥＳＮ３、ＤＡＭＴＳ２０、ＩＲＸ１、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、ＥＦＮＢ３、ＣＸＣＬ１４、ＭＫＲＮ３、ＳＹＣＰ２、ＭＹＬ１、ＭＹＯ３Ａ、ＲＮＡＳＥ１０、ＧＡＬＮＴ１３、Ｃ１９ｏｒｆ２６、ＭＵＣ４、ＰＣＤＨＧＢ１、ＣＣＮＤ１、ＬＣＥ１Ｆ、およびＫＣＮＳ１についての存在量値を含む。

同様に、一実施形態において、特徴セットは、少なくともＫＲＴ８６、ＣＲＩＳＰＬＤ１、ＳＥＳＮ３、ＤＡＭＴＳ２０、ＩＲＸ１、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、ＥＦＮＢ３、ＣＸＣＬ１４、ＲＮＦ２１２、ＭＫＲＮ３、ＭＹＬ１、ＲＮＡＳＥ１０、ＧＡＬＮＴ１３、Ｃ１９ｏｒｆ２６、ＭＵＣ４、ＰＣＤＨＧＢ１、ＣＣＮＤ１、ＬＣＥ１Ｆ、およびＫＣＮＳ１についての存在量値を含む。

同様に、一実施形態において、特徴セットは、少なくともＫＲＴ８６、ＣＲＩＳＰＬＤ１、ＳＥＳＮ３、ＤＡＭＴＳ２０、ＩＲＸ１、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、ＥＦＮＢ３、ＣＸＣＬ１４、ＲＮＦ２１２、ＭＫＲＮ３、ＳＹＣＰ２、ＭＹＬ１、ＭＹＯ３Ａ、ＲＮＡＳＥ１０、ＧＡＬＮＴ１３、Ｃ１９ｏｒｆ２６、ＭＵＣ４、ＰＣＤＨＧＢ１、ＣＣＮＤ１、ＬＣＥ１Ｆ、およびＫＣＮＳ１についての存在量値を含む。

いくつかの実施形態において、分類器は、少なくとも５０個のデータ構築物の検証データセットについて少なくとも７０％の特異度および少なくとも７０％の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも５０個のデータ構築物の検証データセットについて少なくとも７５％の特異度および少なくとも７５％の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも５０個のデータ構築物の検証データセットについて少なくとも８０％の特異度および少なくとも８０％の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも５０個のデータ構築物の検証データセットについて少なくとも８５％の特異度および少なくとも８５％の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも５０個のデータ構築物の検証データセットについて少なくとも９０％の特異度および少なくとも９０％の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも５０個のデータ構築物の検証データセットについて少なくとも９５％の特異度および少なくとも９５％の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも５０個のデータ構築物の検証データセットについて、少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、またはそれ以上の特異度を有する。いくつかの実施形態において、分類器は、少なくとも５０個のデータ構築物の検証データセットについて、少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、またはそれ以上の感度を有する。

いくつかの実施形態において、分類器は、少なくとも１００個のデータ構築物の検証データセットについて少なくとも７０％の特異度および少なくとも７０％の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも１００個のデータ構築物の検証データセットについて少なくとも７５％の特異度および少なくとも７５％の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも１００個のデータ構築物の検証データセットについて少なくとも８０％の特異度および少なくとも８０％の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも１００個のデータ構築物の検証データセットについて少なくとも８５％の特異度および少なくとも８５％の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも１００個のデータ構築物の検証データセットについて少なくとも９０％の特異度および少なくとも９０％の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも１００個のデータ構築物の検証データセットについて少なくとも９５％の特異度および少なくとも９５％の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも１００個のデータ構築物の検証データセットについて、少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、またはそれ以上の特異度を有する。いくつかの実施形態において、分類器は、少なくとも１００個のデータ構築物の検証データセットについて、少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、またはそれ以上の感度を有する。

いくつかの実施形態において、図２を参照した上記のとおり、分類器は、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである。いくつかの実施形態において、分類器は、図２を参照して、上記の方法論に従って訓練された。

ＥＢＶ分類器訓練
一態様において、本開示は、癌におけるエプスタインバーウイルス（ＥＢＶ）感染を検出するように分類器を訓練するための方法を提供する。方法は、ＥＢＶ関連癌および既知のＥＢＶ状態を有する対象１２４の訓練セット由来の、ＥＢＶ関連癌のＥＢＶ状態を評価するために有益である遺伝子についての存在量値１２６、例えば、ｍＲＮＡ発現レベルを取得することを含む。次いで、方法は、例えば、分類器訓練モジュール１２０を使用して、各それぞれの訓練対象について、少なくとも（ｉ）存在量値１２６、および（ｉｉ）患者の癌のＥＢＶ状態に対して、分類器を訓練することを含む。いくつかの実施形態において、分類器はまた、各訓練対象の癌における１つ以上の変異対立遺伝子１２７の状態に対して訓練される。

いくつかの実施形態において、各訓練対象は、バーキットリンパ腫、副鼻腔血管中心性Ｔ細胞リンパ腫、非ホジキンリンパ腫、ホジキンリンパ腫、鼻咽頭癌および胃癌から選択されるＥＢＶ関連癌を有する。いくつかの実施形態において、分類器は、すべてが、同じ型の癌、例えば、バーキットリンパ腫、副鼻腔血管中心性Ｔ細胞リンパ腫、非ホジキンリンパ腫、ホジキンリンパ腫、鼻咽頭癌、または胃癌を有する患者由来のデータに対して訓練される。しかしながら、分類器訓練は概して訓練データセットのサイズを大きくすることによって改善されるので、いくつかの実施形態において、分類器は、２つ以上の型のＥＢＶ関連癌、例えば、バーキットリンパ腫、副鼻腔血管中心性Ｔ細胞リンパ腫、非ホジキンリンパ腫、ホジキンリンパ腫、鼻咽頭癌および胃癌のうちの２つ、３つ、４つ、５つ、または６つすべてを有する患者由来のデータに対して訓練される。実施例４によって例示される特定の実施形態において、各訓練対象は胃癌を有する。

いくつかの実施形態において、分類器は、表４に記載もの、例えば、ＳＣＮＮ１Ａ、ＣＤＸ１、ＫＣＮＫ１５、ＰＲＫＣＧ、ＫＲＴ７、ＮＫＤ２、ＧＰＲ１５８、ＣＬＤＮ３、およびＺＮＦ６８３から選択される複数の遺伝子についての存在量値に対して訓練される。以下に報告するように、例えば、実施例４を参照すると、これらの９つの遺伝子は、ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ（ＴＣＧＡ）における胃癌訓練セットの少なくとも８０％において、対象のＥＢＶ状態に応じて差次的に発現されることが見出された。しかしながら、当業者は、場合によっては、異なる訓練データセットの使用が異なる結果、例えば、これらの遺伝子のうちの１つ以上が訓練フォールドの少なくとも８０％で有益ではない可能性があること、および／または実施例４において報告された研究において訓練フォールドの少なくとも８０％において有益ではないことが見出された１つ以上の遺伝子が有益であり得ること、をもたらす可能性があることを理解するであろう。これらの違いは、例えば、訓練集団を選択するために異なる基準が使用される場合に発生する可能性があり、例えば、癌の型、個人の特性（例えば、年齢、性別、民族、家族歴、喫煙状況など）などの種々の包含および／または除外基準、または単に小さいまたは大きいデータセットを使用することによってである。

したがって、いくつかの実施形態において、分類器は、表４に記載の遺伝子のうちの少なくとも５つに対して訓練される。いくつかの実施形態において、分類器は、表４に記載の遺伝子のうちの少なくとも６つに対して訓練される。いくつかの実施形態において、分類器は、表４に記載の遺伝子のうちの少なくとも７つに対して訓練される。いくつかの実施形態において、分類器は、表４に記載の遺伝子のうちの少なくとも８つに対して訓練される。いくつかの実施形態において、分類器は、表４に記載の遺伝子の９つすべてに対して訓練される。さらに、いくつかの実施形態において、分類器はまた、表４に記載されていない１つ以上の遺伝子についての存在量値に対して訓練される。いくつかの実施形態において、分類器はまた、表４に記載されていない１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個またはそれ以上の遺伝子についての存在量値に対して訓練される。いくつかの実施形態において、分類器はまた、表４に記載されていない１～１０個の遺伝子についての存在量値に対して訓練される。いくつかの実施形態において、分類器はまた、表４に記載されていない１～５個の遺伝子についての存在量値に対して訓練される。他の実施形態において、分類器はまた、表４に記載されていない任意の遺伝子についての存在量値に対して訓練されない。

さらに、当業者は、いくつかの特徴、例えば、特定の遺伝子についての存在量値が、特定の分類器における他の特徴よりもより有益であろうことも理解するであろう。複数の特徴に基づく分類器におけるそれぞれの特徴の予測力の１つの尺度は、モデルの訓練中に特徴について計算された回帰係数である。回帰係数は、各特徴およびモデルの応答の関係を表す。係数値は、特徴値において１単位増加を与える応答における平均変化を表す。そのため、少なくとも同じ型の変数について、回帰係数の大きさ、例えば絶対値は、モデルにおける特徴の重要性と相関する。つまり、回帰係数の大きさが大きいほど、変数はモデルにとってより重要になる。例えば、実施例４において報告されているように、表４に記載の遺伝子の９つすべての存在量値、ならびにＴＰ５３およびＰＩＫ３ＣＡ遺伝子についての変異対立遺伝子状態に対して訓練された特定のサポートベクトルマシン（ＳＶＭ）分類器において、９つの遺伝子のうち４つだけが、少なくとも０．７５の大きさの回帰係数を有していた－ＳＣＮＮ１Ａ（－１．２６）、ＫＣＮＫ１５（－１．０４）、ＫＲＴ７（－０．９４）、およびＣＬＤＮ３（－１．６８）。

したがって、当業者は、少なくとも部分的に１つ以上の分類モデルにおけるそれぞれの特徴の重要性に基づいて、表４に記載されたすべてより少ない遺伝子を含む特徴セットを選択し得る。例えば、いくつかの実施形態において、分類モデルにおいてより低い予測力を有する１つ以上の遺伝子は、分類器訓練中に省略され得る。例えば、いくつかの実施形態において、訓練に使用される特徴は、少なくとも０．７５の回帰係数を有する、少なくとも表５に記載の遺伝子発現特徴、例えば、ＳＣＮＮ１Ａ（－１．２６）、ＫＣＮＫ１５（－１．０４）、ＫＲＴ７（－０．９４）、およびＣＬＤＮ３（－１．６８）を含む。いくつかの実施形態において、訓練に使用される特徴は、少なくとも０．６の回帰係数を有する、少なくとも表５に記載の遺伝子発現特徴を含む。

同様に、特徴セットのサイズは、どの特徴が含まれるか、および／または除外されるかによって影響を受け得る。例えば、いくつかの実施形態において、高い予測力を有する特定の特徴が分類モデルに含まれる場合、より少ない総特徴がモデルに含まれ得る。例えば、いくつかの実施形態において、ＳＣＮＮ１Ａ、ＫＣＮＫ１５、ＫＲＴ７、およびＣＬＤＮ３についての存在量値がモデルに含まれる場合、表４に記載の他の遺伝子のうちの１つ以下の存在量値をモデルに含める必要がある。したがって、いくつかの実施形態において、モデルを訓練するために使用される特徴は、ＳＣＮＮ１Ａ、ＫＣＮＫ１５、ＫＲＴ７、およびＣＬＤＮ３、ならびに表４に記載の少なくとも１つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、モデルを訓練するために使用される特徴は、ＳＣＮＮ１Ａ、ＫＣＮＫ１５、ＫＲＴ７、およびＣＬＤＮ３、ならびに表４に記載の少なくとも２つの他の遺伝子についての存在量値を含む。ＳＣＮＮ１Ａ、ＫＣＮＫ１５、ＫＲＴ７、およびＣＬＤＮ３、ならびに表４に記載の少なくとも３つの他の遺伝子。ＳＣＮＮ１Ａ、ＫＣＮＫ１５、ＫＲＴ７、およびＣＬＤＮ３、ならびに表４に記載の少なくとも４つの他の遺伝子。

同様に、いくつかの実施形態において、高い予測力を有する特徴が分類モデルから除外される場合、他の特徴のより多くがモデルに含まれ得る。例えば、いくつかの実施形態において、ＳＣＮＮ１Ａ、ＫＣＮＫ１５、ＫＲＴ７、およびＣＬＤＮ３のうちの１つ以上についての存在量値がモデルに含まれない場合、表４に記載の他の遺伝子のうちの少なくとも４つについての存在量値をモデルに含める。いくつかの実施形態において、ＳＣＮＮ１Ａ、ＫＣＮＫ１５、ＫＲＴ７、およびＣＬＤＮ３のうちの１つ以上についての存在量値がモデルに含まれない場合、表４に記載の他の遺伝子の５つすべてについての存在量値をモデルに含める。

特徴セットを選択するとき、当業者は、特徴が互いに相関している程度も考慮するだろう。相関は、２つの変数が互いにどの程度線形に依存しているかを示す統計的尺度である。そのため、２つの相関する特徴は、予測モデルに重複する情報を提供し、これは、分類器に悪影響を与える可能性がある。そのため、相関する特徴をモデルから除外する理由がいくつかある。例えば、分類器における特徴の数が多いほど、実行する必要のある計算が増えるため、相関する特徴の削除はアルゴリズムをより速くする。相関する特徴の削除は、相関から生じる有害なバイアスもモデルから削除し得る。最後に、相関する特徴の削除は、モデルをより解釈できるようにし得る。したがって、当業者は、少なくとも部分的に１つ以上の分類モデルにおけるそれぞれの特徴の相関に基づいて、表３に記載されたすべてより少ない遺伝子を含む特徴セットを選択し得る。例えば、実施例４において訓練されたＳＶＭモデルの統計分析により、ＥＮＳＧ０００００１３５４８０（ＫＲＴ７）およびＥＮＳＧ０００００１２４２４９（ＫＣＮＫ１５）についての遺伝子発現値は高く相関する（０．６５０）ことが明らかになった。したがって、いくつかの実施形態において、ＫＲＴ７およびＫＣＮＫ１５のうちの１つについての存在量値は、特徴セットから除外される。

例えば、一実施形態において、特徴セットは、少なくともＳＣＮＮ１Ａ、ＣＤＸ１、ＫＣＮＫ１５、ＰＲＫＣＧ、ＮＫＤ２、ＧＰＲ１５８、ＣＬＤＮ３、およびＺＮＦ６８３についての存在量値を含む。別の実施形態において、特徴セットは、少なくともＳＣＮＮ１Ａ、ＣＤＸ１、ＰＲＫＣＧ、ＫＲＴ７、ＮＫＤ２、ＧＰＲ１５８、ＣＬＤＮ３、およびＺＮＦ６８３の存在量値を含む。

いくつかの実施形態において、図２を参照した上記のとおり、分類器は、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである。いくつかの実施形態において、分類器は、図２を参照して、上記の方法論にしたがって訓練された。

分類方法
いくつかの実施形態において、本開示は、ヒト対象における第１の癌状態および第２の癌状態を識別するための方法を提供し、第１の癌状態は、発癌性病原体による感染に関連し、第２の癌状態は、発癌性病原体を含まない状態に関連する。概して、方法は、発癌性病原体感染に関連する癌性組織および発癌性病原体感染に関連しない同じ型の癌性組織において差次的に発現される複数の遺伝子についての存在量データ、例えば相対的発現レベルを取得することを含む。次いで、存在量データは、少なくとも部分的に、２つの型の癌性組織で差次的に発現される遺伝子の存在量に基づいて、第１の癌状態および第２の癌状態を識別するように訓練された分類器に入力される。このような分類器の訓練の例は、図２の説明と併せて上で提供されている。

以下に記載される実施形態の多くは、図３と併せて、例えば、患者における癌性組織の試料から得られた、癌患者のエクソーム由来の発現データを使用して実行される分析に関する。概して、これらの実施形態は独立しており、したがって、特定の発現データ生成方法、例えば、配列決定、ハイブリダイゼーション、および／またはｑＰＣＲ方法論に依存しない。しかしながら、いくつかの実施形態において、以下に記載される方法は、発現データを生成する１つ以上のステップ（３０１）を含む。

いくつかの実施形態において、これらの方法は、癌性組織の試料を取得すること（３０２）を含む。癌性組織の試料を取得するための方法は当該技術分野において既知であり、試料採取される癌の型に依存している。例えば、骨髄生検および循環腫瘍細胞の単離を使用して血液癌の試料を取得することができ、内視鏡生検を使用して消化管、膀胱、および肺の癌の試料を取得することができ、針生検（例えば、細針吸引、コア針吸引、真空補助生検、および画像誘導生検を使用して、皮下腫瘍の試料を取得することができ、皮膚生検、例えば、薄片生検、パンチ生検、切開生検、および切除生検を使用して、取得することができ、皮膚癌の試料を取得することができ、ならびに外科的生検を使用して、患者の内臓に影響を与える癌の試料を取得することができる。

次いで、いくつかの実施形態において、ｍＲＮＡは、癌性組織の試料から単離される（３０４）。組織試料からＲＮＡを単離するための多くの技術が当該技術分野において既知である。例えば、酸性グアニジンチオシアン酸塩－フェノール－クロロホルム抽出（例えば、ＣｈｏｍｃｚｙｎｓｋｉａｎｄＳａｃｃｈｉ，ＮａｔＰｒｏｔｏｃ，１（２）：５８１－８５（２００６）を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる）、およびシリカビーズ／ガラス繊維吸着（例えば、Ｐｏｅｃｋｈ，Ｔ．ｅｔａｌ．，ＡｎａｌＢｉｏｃｈｅｍ．，３７３（２）：２５３－６２（２００８）を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる）である。本明細書に記載の実施形態と併せて使用するための任意の特定のＲＮＡ単離技術の選択は、組織の型、組織の状態、例えば、新鮮、凍結、ホルマリン固定、パラフィン包埋（ＦＦＰＥ）、およびＲＮＡ試料で実行されるべき核酸分析の種類を考慮する当業者の技能の範囲内である。

いくつかの実施形態において、ＲＮＡは、市販の試薬、例えば、プロテイナーゼＫ、ＴＵＲＢＯＤＮａｓｅ－Ｉ、および／またはＲＮＡクリーンＸＰビーズを使用して、血液試料および／または組織切片（例えば、腫瘍生検）から単離される。いくつかの実施形態において、単離されたＲＮＡは、蛍光色素および蛍光マイクロプレートリーダー、標準的な分光蛍光光度計、またはフィルター蛍光光度計の使用を含む、ＲＮＡ分子の濃度および／または量を決定するための品質管理プロトコルに供される。

いくつかの実施形態において、発現データは、例えば、直接ＲＮＡ配列決定によって、単離されたｍＲＮＡから直接得られる（３１４）。直接ＲＮＡ配列決定のための方法は当該技術分野において既知である。例えば、ＯｚｓｏｌａｋＦ．，ｅｔａｌ．，Ｎａｔｕｒｅ４６１：８１４－１８（２００９）、およびＧａｒａｌｄｅ，Ｄ．Ｒ．，ｅｔａｌ．，ＮａｔＭｅｔｈｏｄｓ，１５（３）：２０１－２０６（２０１８）を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。

他の実施形態において、発現データは、ｃＤＮＡ中間体を介して得られる。したがって、いくつかの実施形態において、単離されたＲＮＡを使用して、ｃＤＮＡ合成を介してｃＤＮＡライブラリーを作成する（３１０）。いくつかの実施形態において、ｃＤＮＡライブラリーは、市販の試薬、例えば、ＲｏｃｈｅＫＡＰＡＨｙｐｅｒＢｅａｄｓを使用して、ｃＤＮＡ分子サイズ選択のために精製および選択される単離されたＲＮＡから調製される。別の例において、ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（ＮＥＢ）キットを使用することができる。

いくつかの実施形態において、ｃＤＮＡライブラリー調製は、ｃＤＮＡ分子へのアダプターのライゲーションを含む。例えば、ＲｏｃｈｅＳｅｑＣａｐデュアルエンドアダプターなどのＵＤＩアダプター、またはＵＭＩアダプター（例えば、全長またはスタビーＹアダプター）を、ｃＤＮＡ分子に連結し得る。アダプターは、それらが由来する試料に従ってｃＤＮＡ分子を特定するためのバーコード、および／または下流のバイオインフォマティクス処理および／または次世代配列決定反応を容易にするためのバーコードとして機能し得る核酸分子である。アダプターにおけるヌクレオチドの配列は、試料を区別するために試料に特有であり得る。アダプターは、配列決定装置フローセル上のアンカーオリゴヌクレオチド分子へのｃＤＮＡ分子の結合を促進し得、配列決定反応のための開始点を提供することにより、配列決定プロセスの種として機能し得る。

ｃＤＮＡライブラリーを、試薬、例えば、ＡｘｙｇｅｎＭＡＧＰＣＲクリーンアップビーズを使用して増幅および精製し得る。次いで、ｃＤＮＡ分子の濃度および／または量を、蛍光色素および蛍光マイクロプレートリーダー、標準的な分光蛍光光度計、またはフィルター蛍光光度計を使用して定量化し得る。

いくつかの実施形態において、直接ＲＮＡ配列決定およびｃＤＮＡライブラリー構築前の両方について、単離されたＲＮＡは、ｃＤＮＡライブラリー構築前に、最初に所望の型のＲＮＡ（例えば、ｍＲＮＡ）または種（例えば、特定のｍＲＮＡ転写産物）について濃縮される（３０８）。所望のＲＮＡ分子について濃縮する方法もまた、当該技術分野において既知である。例えば、ｍＲＮＡ分子は、例えば、オリゴｄＴ親和性技術を使用して、全ＲＮＡ調製物中の他のＲＮＡ分子と比較して濃縮され得る（例えば、Ｒｉｏ，Ｄ．Ｃ．，ｅｔａｌ．，ＣｏｌｄＳｐｒｉｎｇＨａｒｂＰｒｏｔｏｃ．，２０１０Ｊｕｌ１；２０１０（７）を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる）。特定のｍＲＮＡ転写産物はまた、例えば、目的の１つ以上のｍＲＮＡ配列に特異的に結合するハイブリダイゼーションプローブを使用して単離され得る。

いくつかの実施形態において、ｃＤＮＡライブラリーは、真空中で乾燥される前に、プールされ、オフターゲット捕捉を低減するための試薬、例えば、ヒトＣＯＴ－１および／またはＩＤＴｘＧｅｎＵｎｉｖｅｒｓａｌＢｌｏｃｋｅｒｓで処理される。次いで、プールをハイブリダイゼーション混合物、例えばＩＤＴｘＧｅｎＬｏｃｋｄｏｗｎに再懸濁し、プローブ、例えば、ＩＤＴｘＧｅｎＥｘｏｍｅＲｅｓｅａｒｃｈＰａｎｅｌｖ１．０プローブ、ＩＤＴｘＧｅｎＥｘｏｍｅＲｅｓｅａｒｃｈＰａｎｅｌｖ２．０プローブ、他のＩＤＴプローブパネル、ロシュプローブパネル、または他のプローブを各プールに追加し得る。プールを、インキュベーター、ＰＣＲマシン、ウォーターバス、またはその他の温度調節デバイスでインキュベートして、プローブをハイブリダイズさせ得る。次に、プールをストレプトアビジンでコーティングされたビーズまたはハイブリダイズしたｃＤＮＡプローブ分子、特にヒトゲノムのエクソンを表すｃＤＮＡ分子を捕捉するための別の手段と混合し得る。別の実施形態において、ポリＡ捕捉を使用し得る。プールを、市販の試薬、例えば、ＫＡＰＡＨｉＦｉＬｉｂｒａｒｙＡｍｐｌｉｆｉｃａｔｉｏｎキットおよびＡｘｙｇｅｎＭＡＧＰＣＲクリーンアップビーズをそれぞれ使用して、もう一度増幅および精製し得る。

単離されたｍＲＮＡからのｃＤＮＡライブラリーの構築もまた、当該技術分野において既知である。いくつかの実施形態において、ｃＤＮＡライブラリー構築は、逆転写酵素を使用する単離されたｍＲＮＡからの第１鎖ＤＮＡ合成、続いてＤＮＡポリメラーゼを使用する第２鎖合成によって行われる。ｃＤＮＡ合成のための方法の例は、ＭｃＣｏｎｎｅｌｌａｎｄＷａｔｓｏｎ，１９８６，ＦＥＢＳＬｅｔｔ．１９５（１－２），ｐｐ．１９９－２０２、ＬｉｎａｎｄＹｉｎｇ，２００３，ＭｅｔｈｏｄｓＭｏｌＢｉｏｌ．２２１，ｐｐ．１２９－１４３、およびＯｈｅｔａｌ．，２００３，ＥｘｐＭｏｌＭｅｄ．３５（６），ｐｐ．５８６－９０に記載されており、それらの内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。

ｃＤＮＡライブラリーを分析して、ｃＤＮＡ分子の断片サイズを決定することもでき、これは、ゲル電気泳動技術を介して行うことができ、ＬａｂＣｈｉｐＧＸＴｏｕｃｈなどのデバイスの使用を含むことができる。プールを、キット（例えば、ＰｈｉＸスパイクを備えたＩｌｌｕｍｉｎａＰａｉｒｅｄ－ｅｎｄＣｌｕｓｔｅｒＫｉｔｓ）を使用してクラスター増幅し得る。一例において、ｃＤＮＡライブラリーの調製および／または全エクソーム捕捉ステップは、液体処理ロボット（例えば、ＳｃｉＣｌｏｎｅＮＧＳｘ）を使用して、自動化されたシステムで実行され得る。

ライブラリー増幅は、デバイス、例えばＩｌｌｕｍｉｎａＣ－Ｂｏｔ２で実行され得、増幅された標的捕捉ｃＤＮＡライブラリーを含む結果として得られるフローセルは、次世代配列決定装置、例えばＩｌｌｕｍｉｎａＨｉＳｅｑ４０００またはＩｌｌｕｍｉｎａＮｏｖａＳｅｑ６０００で、ユーザが選択した固有のオンターゲット深度、例えば３００ｘ、４００ｘ、５００ｘ、１０，０００ｘなどに配列決定され得る。次世代配列決定装置は、各患者試料または各フローセルについてのＦＡＳＴＱ、ＢＣＬ、またはその他のファイルを生成し得る。

２つ以上の患者試料が同じ配列決定装置フローセルで同時に処理される場合、複数の患者試料由来のリードは、最初は同じＢＣＬファイルに含まれ、次いで各患者についての個別のＦＡＳＴＱファイルに分割される。各患者試料について使用されるアダプターの配列の違いは、バーコードの目的を果たし、各リードを正しい患者試料に関連付けて、正しいＦＡＳＴＱファイルに配置するのを容易にし得る。

ｍＲＮＡ配列決定のための方法は、当該技術分野において既知である。いくつかの実施形態において、ｍＲＮＡ配列決定は、全エクソーム配列決定（ＷＥＳ）によって実行される。概して、ＷＥＳは、組織試料からＲＮＡを単離し、任意で所望の配列を選択し、および／または不要なＲＮＡ分子を枯渇させ、ｃＤＮＡライブラリーを生成し、次いで、例えば、次世代配列決定（ＮＧＳ）技術を使用して、ｃＤＮＡライブラリー（３１２）を配列決定することによって実行される。癌診断における全エクソーム配列決定技術の使用の評論については、Ｓｅｒｒａｔｉｅｔａｌ．，２０１６，ＯｎｃｏＴａｒｇｅｔｓＴｈｅｒ．９，ｐｐ．７３５５－７３６５を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。

次世代配列決定法も当該技術分野において既知であり、合成技術（Ｉｌｌｕｍｉｎａ）、パイロシーケンシング（４５４ＬｉｆｅＳｃｉｅｎｃｅｓ）、イオン半導体技術（ＩｏｎＴｏｒｒｅｎｔ配列決定）、単一分子リアルタイム配列決定（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）、ライゲーションによる配列決定（ＳＯＬｉＤ配列決定）、ナノポア配列決定（ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ）、またはペアエンド配列決定を含む。いくつかの実施形態において、超並列配列決定は、可逆的染料ターミネーターで合成ごとの配列決定を使用して実行される。

いくつかの実施形態において、配列リードは、アラインメント位置情報を決定するために当該技術分野において既知の方法を使用して、参照エクソームまたは参照ゲノムにアラインメントされ得る。アラインメント位置情報は、所与の配列リードの開始ヌクレオチド塩基および終了ヌクレオチド塩基に対応する参照ゲノムにおける領域の開始位置および終了位置を示し得る。アラインメント位置情報には、開始位置および終了位置から決定され得る配列リード長も含み得る。参照ゲノムにおける領域は、遺伝子または遺伝子のセグメントに関連付けられ得る。ＲＮＡ－ｓｅｑデータからトランスクリプトーム情報を組み立てて管理するための既知ソフトウェアの非限定的な例として、ＴｏｐＨａｔとＣｕｆｆｌｉｎｋｓが挙げられ、Ｔｒａｐｎｅｌｌｅｔａｌ．，２０１２，ＮａｔＰｒｏｔｏｃ．７（３），ｐｐ．５６２－５７８を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。また、Ｈｉｎｔｚｓｃｈｅｅｔａｌ．，２０１６，ＩｎｔＪＧｅｎｏｍｉｃｓ７９８３２３６も参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。

他の実施形態において、発現データは、例えば、マイクロアレイを使用して、ｃＤＮＡライブラリーのハイブリダイゼーション（３１３）によって生成される。病原体感染後の差次的遺伝子発現を特定するためのマイクロアレイベースの遺伝子プロファイリングの使用は、当該技術分野において既知である。例えば、Ａｄｏｍａｓｅｔａｌ．，２００８，ＴｒｅｅＰｈｙｓｉｏｌ．２８（６），ｐｐ．８８５－８９７を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。同様に、他の実施形態において、ｃＤＮＡライブラリーに基づいて発現を定量化するためのさらに他の方法、例えば、定量的リアルタイムＰＣＲ（ＲＴ－ｑＰＣＲ）が使用される。例えば、Ｗａｇｎｅｒ，２０１３，ＭｅｔｈｏｄｓＭｏｌＢｉｏｌ．１０２７，ｐｐ．１９－４５を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。

図３に関して示されるように、いくつかの実施形態において、方法３００は、少なくとも部分的に、１つ以上のプロセッサと、対象における第１の癌状態および第２の癌状態を識別するために１つ以上のプロセッサによる実行のための１つ以上のプログラムを格納するメモリとを有するコンピュータシステム（例えば、図１のコンピュータシステム１００）で実行され、第１の癌状態は第１の発癌性病原体による感染に関連し、第２の癌状態は発癌性病原体を含まない状態に関連する。方法３００におけるいくつかの操作は、任意で組み合わされ、および／またはいくつかの操作の順序は、任意で変更される。

いくつかの実施形態において、方法は、対象についてのデータセットを取得することを含み、データセットは、複数の存在量値を含み、複数の存在量値における各それぞれの存在量値は、対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。いくつかの実施形態において、得られた存在量値は、下位方法３０１に関して説明された方法論のうちのいずれかに従って決定される。いくつかの実施形態において、存在量データは、事前に生成され、ネットワークを介して、例えば、ネットワークインターフェース１０４を使用して、コンピュータシステム１００に通信される。次いで、方法３００は、ヒト対象における第１の癌状態および第２の癌状態を識別するために訓練された分類器にデータセットを入力すること（３１６）を含み、第１の癌状態は、発癌性病原体による感染に関連し、第２の癌状態は、発癌性病原体を含まない状態に関連する。そのような分類器の例は、図２と併せて上で提供されている。それにより、方法は、対象が発癌性病原体感染に関連する第１の癌状態を有するか、または発癌性病原体感染に関連しない第２の癌状態を有するかを決定する（３２０）。

いくつかの実施形態において、方法３００はまた、対象由来の癌性組織のゲノムにおける１つ以上の遺伝子座での１つ以上の変異対立遺伝子についての変異対立遺伝子カウントを分類器への入力することを含む。すなわち、いくつかの実施形態において、分類器はまた、発癌性病原体感染に関連するかまたは発癌性病原体感染に関連しない癌を有する対象における１つ以上の変異対立遺伝子の存在または不在に関するデータに対して訓練される。いくつかの実施形態において、１つ以上の変異対立遺伝子は、ＴＰ５３（ＥＮＳＧ０００００１４１５１０）、ＣＤＫＮ２Ａ（ＥＮＳＧ０００００１４７８８９）、およびＰＩＫ３ＣＡ（ＥＮＳＧ０００００１２１８７９）からなる群から選択される遺伝子における変異対立遺伝子から選択される。

いくつかの実施形態において、対象は、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、頭頸部癌、卵巣癌、肝胆道癌、子宮頸癌、甲状腺癌、または膀胱癌に罹患している。

いくつかの実施形態において、第１の癌状態は、エプスタインバーウイルス（ＥＢＶ）、Ｂ型肝炎ウイルス（ＨＢＶ）、Ｃ型肝炎ウイルス（ＨＣＶ）、ヒトパピローマウイルス（ＨＰＶ）、ヒトＴ細胞リンパ球向性ウイルス（ＨＴＬＶ－１）、カポジ関連肉腫ウイルス（ＫＳＨＶ）、およびメルケル細胞ポリオーマウイルス（ＭＣＶ）から選択される第１の発癌性病原体による感染に関連する。

より具体的には、いくつかの実施形態において、第１の癌状態は、ヒトパピローマウイルス（ＨＰＶ）に関連する子宮頸癌、ＨＰＶに関連する頭頸部癌、エプスタインバーウイルス（ＥＢＶ）に関連する胃癌、ＥＢＶに関連する鼻咽頭癌、ＥＢＶに関連するバーキットリンパ腫、ＥＢＶに関連するホジキンリンパ腫、Ｂ型肝炎ウイルス（ＨＢＶ）に関連する肝臓癌、Ｃ型肝炎ウイルス（ＨＣＶ）に関連する肝臓癌、カポジ関連肉腫ウイルス（ＫＳＨＶ）に関連するカポジ肉腫、ヒトＴ細胞リンパ球向性ウイルス（ＨＴＬＶ－１）に関連する成人Ｔ細胞白血病／リンパ腫、およびメルケル細胞ポリオーマウイルス（ＭＣＶ）に関連するメルケル細胞癌から選択される。発癌性ウイルス感染に関連することが知られている癌状態の要約については、ｄｅＦｌｏｒａ，２０１１，“Ｔｈｅｐｒｅｖｅｎｔｉｏｎｏｆｉｎｆｅｃｔｉｏｎ－ａｓｓｏｃｉａｔｅｄｃａｎｃｅｒｓ，”Ｃａｒｃｉｎｏｇｅｎｅｓｉｓ３２，ｐｐ．７８７－７９５を参照されたい。

したがって、第１の癌状態が特定の発癌性病原体に関連する特定の型の癌である場合、第２の癌状態は、特定の発癌性病原体の感染がないことに関連する同じ特定の型の癌である。例えば、第１の癌状態がヒトパピローマウイルス（ＨＰＶ）感染に関連する子宮頸癌である場合、第２の癌状態はヒトパピローマウイルス（ＨＰＶ）感染に関連しない子宮頸癌である。さらに、上記のように、２つの癌状態を識別するために使用される分類器は、ヒトパピローマウイルス（ＨＰＶ）感染に関連する子宮頸癌を有することがわかっている対象由来、およびヒトパピローマウイルス（ＨＰＶ）感染に関連しない子宮頸癌を有することがわかっている対象由来の、少なくとも遺伝子存在量値（例えば、ｍＲＮＡ発現プロファイル）を含むデータセットに対して訓練される。

いくつかの実施形態において、この方法は、発癌性病原性感染に関連する第１の癌状態の治療のために調整された第１の療法（３２２）、または発癌性病原性感染に関連しない第２の癌状態の治療のために調整された第２の療法（３２４）のいずれかで対象を治療することをさらに含む。

したがって、一実施形態において、ヒト癌患者における癌を治療するための方法が提供される。方法は、データセットが複数の存在量値を含む患者についてのデータセットを取得することによって、患者が癌の病理に連結する発癌性病原体に感染しているかどうかを決定することと、少なくとも発癌性病原体の感染に関連する第１の癌状態および発癌性病原体の感染に関連しない第２の癌状態を識別するように訓練された分類器にデータセットを入力することとを含む。データセットにおける各存在量の値は、発癌性病原体の感染に関連する癌および発癌性病原体の感染に関連しない癌において差次的に発現することが見出された対応する遺伝子の発現レベルを定量化する。いくつかの実施形態において、任意の特定の型の癌についての癌状態を識別するために存在量値が使用される遺伝子は、図２を参照して上記の選択方法論のうちのいずれかに従って選択される。同様に、いくつかの実施形態において、使用される分類器は、図２を参照して上記の訓練方法のうちのいずれかに従って訓練される。

いくつかの実施形態において、対象が発癌性病原体感染に関連する第１の癌状態を有すると決定される場合、この方法は、対象に免疫療法を割り当てるおよび／または実施することを含む。いくつかの実施形態において、対象が発癌性病原体感染に関連しない第２の癌状態を有すると決定される場合、この方法は、対象に化学療法を割り当てるおよび／または実施することを含む。

表２に要約されているように、ウイルス関連腫瘍の治療のためにいくつかの臨床試験が進行中である。したがって、いくつかの実施形態において、本明細書に記載の方法は、表２に記載のように、特定の発癌性ウイルス感染に関連する特定の癌についての治療を割り当てるおよび／または実施することを含む。例えば、いくつかの実施形態において、対象がＨＰＶ感染に関連するフェーズ３子宮頸癌を有すると決定されると、対象は、Ｌｍタンパク質リステリオリシンＯの切断断片に融合させたＨＰＶ－１６Ｅ７タンパク質をコードするプラスミドをトランスフェクトされた生きた弱毒化Ｌｉｓｔｅｒｉａｍｏｎｏｃｙｔｏｇｅｎｅｓであるａｘａｌｉｍｏｇｅｎｅｆｉｌｏｌｉｓｂａｃの治療上有効な投薬レジメンを割り当てられ、および／または実施される。

ＨＰＶ発癌性ウイルス感染
いくつかの実施形態において、本明細書に記載の方法は、ヒトパピローマウイルス（ＨＰＶ）感染に関連することが知られている癌の分類および／または治療に関する。以下の実施例３で報告されるように、表３に記載され、図４Ｂに示される２４個の遺伝子は、ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ（ＴＣＧＡ）において既知のＨＰＶ状態を有する子宮頸癌または頭頸部癌の発現データから形成された１０個の訓練セットのうちの少なくとも８つにおいて差次的に発現されることが見出された。したがって、いくつかの実施形態において、表３に記載の遺伝子のうちの１つ以上の発現レベルは、ＨＰＶ感染に関連するか、またはＨＰＶ感染に関連しないかのいずれかとして子宮頸癌または頭頸部癌の分類に使用される。いくつかの実施形態において、表３に記載の遺伝子のうちの少なくとも２個、３個、４個、５個、６個、７個、８個、９個、１０個、１１個、１２個、１３個、１４個、１５個、１６個、１７個、１８個、１９個、２０個、２１個、２２個、２３個、または２４個すべての発現レベルは、ＨＰＶ感染に関連するか、またはＨＰＶ感染に関連しないかのいずれかとして子宮頸癌または頭頸部癌の分類に使用される。

一実施形態において、ヒト対象における第１の癌状態および第２の癌状態を識別するための方法が提供され、第１の癌状態はヒトパピローマウイルス（ＨＰＶ）発癌性ウイルスによる感染に関連し、第２の癌状態はＨＰＶを含まない状態に関連する。方法は、例えば、図３を参照して上述したように、対象についてのデータセットを取得することを含む。データセットは、対象由来の複数の存在量値を含み、複数の存在量値における各それぞれの存在量値は、対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。いくつかの実施形態において、複数の遺伝子は、表３に記載の遺伝子から選択される少なくとも５つの遺伝子を含む。次いで、方法は、複数の遺伝子の存在量値に基づいて、少なくとも第１の癌状態および第２の癌状態を識別するように訓練された分類器にデータセットを入力することを含む。いくつかの実施形態において、分類器は、図２に関して上述された方法論のうちのいずれかに従って訓練される。

いくつかの実施形態において、第１の癌状態は、ＨＰＶ感染に関連する子宮頸癌であり、第２の癌状態は、ＨＰＶ感染に関連しない子宮頸癌である。いくつかの実施形態において、第１の癌状態は、ＨＰＶ感染に関連する頭頸部癌であり、第２の癌状態は、ＨＰＶ感染に関連しない頭頸部癌である。いくつかの実施形態において、頭頸部癌は、特定の形態または頭頸部癌、例えば、下咽頭癌、喉頭癌、唇および口腔癌、潜在性原発性を伴う転移性扁平上皮癌、鼻咽頭癌、中咽頭癌、副鼻腔および鼻腔癌、または唾液腺癌である。

いくつかの実施形態において、複数の遺伝子は、表３に記載の遺伝子のうちの少なくとも１０個を含む。いくつかの実施形態において、複数の遺伝子は、表３に記載の遺伝子のうちの少なくとも１５個を含む。いくつかの実施形態において、複数の遺伝子は、表３に記載の遺伝子のうちの少なくとも２０個を含む。いくつかの実施形態において、複数の遺伝子は、表３に記載のすべての遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、表３に記載されていない１つ以上の遺伝子、例えば、表３に記載されていない１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、またはそれ以上の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、２０個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、２５個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、５０個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、１０個、１５個、２０個、２５個、３０個、３５個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、１２５個、１５０個、１７５個、２００個、２５０個、または３００個以下の遺伝子を含む。

いくつかの実施形態において、データセットはまた、対象由来の癌性組織のゲノムにおける１つ以上の遺伝子座での１つ以上の対立遺伝子についての変異対立遺伝子カウントを含む。いくつかの実施形態において、変異対立遺伝子カウントは、対象が変異対立遺伝子を保有する状態を表す１、または対象が変異対立遺伝子を保有しない状態を表す０のいずれかである。いくつかの実施形態において、変異対立遺伝子は、対象の生殖系列に由来する体細胞変異である。いくつかの実施形態において、変異対立遺伝子は、癌性組織に由来する癌由来の変異である。いくつかの実施形態において、変異対立遺伝子は、ＴＰ５３（ＥＮＳＧ０００００１４１５１０）またはＣＤＫＮ２Ａ（ＥＮＳＧ０００００１４７８８９）遺伝子に位置する。

いくつかの実施形態において、分類器は、子宮頸癌、頭頸部扁平上皮癌、卵巣癌、陰茎癌、咽頭癌、肛門癌、膣癌、および外陰癌から選択されるＨＰＶ関連癌を有する対象のＨＰＶ状態を決定するために訓練される。いくつかの実施形態において、分類器は、特定のＨＰＶ関連癌、例えば、子宮頸癌、頭頸部扁平上皮癌、卵巣癌、陰茎癌、咽頭癌、肛門癌、膣癌、または外陰癌を有する試験患者のＨＰＶ状態を決定するために訓練される。しかしながら、分類器訓練は概して訓練データセットのサイズを大きくすることによって改善されるので、いくつかの実施形態において、分類器は、２つ以上の型のＨＰＶ関連癌、例えば、子宮頸癌、頭頸部扁平上皮癌、卵巣癌、陰茎癌、咽頭癌、肛門癌、膣癌、および外陰癌のうちの２つ、３つ、４つ、５つ、６つ、７つ、または８つすべてを有する患者由来のデータに対して訓練される。実施例３によって例示される特定の実施形態において、分類器は、頭頸部扁平上皮癌または子宮頸癌のいずれかを有する対象に対して訓練される。しかしながら、いくつかの実施形態において、１つ以上の型のＨＰＶ関連癌を有する患者に対して訓練された分類器は、異なる型のＨＰＶ関連癌を有する患者のＨＰＶ状態を決定するために有用である。

いくつかの実施形態において、分類器の特徴は、表３に記載のもの、例えば、ＫＲＴ８６、ＣＲＩＳＰＬＤ１、ＤＳＧ１、ＳＥＳＮ３、ＤＡＭＴＳ２０、ＩＲＸ１、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、ＥＦＮＢ３、ＣＸＣＬ１４、ＺＦＲ２、ＲＮＦ２１２、ＭＫＲＮ３、ＳＹＣＰ２、ＭＹＬ１、ＭＹＯ３Ａ、ＲＮＡＳＥ１０、ＧＡＬＮＴ１３、Ｃ１９ｏｒｆ２６、ＭＵＣ４、ＰＣＤＨＧＢ１、ＣＣＮＤ１、ＬＣＥ１Ｆ、およびＫＣＮＳ１から選択される複数の遺伝子についての存在量値を含む。以下に報告するように、例えば、実施例３を参照すると、これらの２４個の遺伝子は、ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ（ＴＣＧＡ）においてＨＰＶの状態がわかっている子宮頸癌、または頭頸部癌の発現データから形成された１０個の訓練セットのうちの少なくとも８個において、対象のＨＰＶ状態に応じて差次的に発現されることが見出された。しかしながら、当業者は、場合によっては、異なる訓練データセットの使用が異なる結果、例えば、これらの遺伝子のうちの１つ以上が訓練フォールドの少なくとも８０％で有益ではない可能性があること、および／または実施例３において報告された研究において訓練フォールドの少なくとも８０％において有益ではないことが見出された１つ以上の遺伝子が有益であり得ること、をもたらす可能性があることを理解するであろう。これらの違いは、例えば、訓練集団を選択するために異なる基準が使用される場合に発生する可能性があり、例えば、癌の型、個人の特性（例えば、年齢、性別、民族、家族歴、喫煙状況など）などの種々の包含および／または除外基準、または単に小さいまたは大きいデータセットを使用することによってである。

したがって、いくつかの実施形態において、分類器の特徴は、表３に記載の遺伝子のうちの少なくとも５つを含む。いくつかの実施形態において、分類器の特徴は、表３に記載の遺伝子のうちの少なくとも１０個を含む。いくつかの実施形態において、分類器の特徴は、表３に記載の遺伝子のうちの少なくとも１５個を含む。いくつかの実施形態において、分類器の特徴は、表３に記載の遺伝子のうちの少なくとも２０個を含む。いくつかの実施形態において、分類器の特徴は、表３に記載の遺伝子の２４個すべてを含む。いくつかの実施形態において、分類器の特徴は、表３に記載の遺伝子のうちの５個、６個、７個、８個、９個、１０個、１１個、１２個、１３個、１４個、１５個、１６個、１７個、１８個、１９個、２０個、２１個、２２個、２３個、または２４個すべてを含む。さらに、いくつかの実施形態において、分類器の特徴は、表３に記載されていない１つ以上の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、表３に記載されていない１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個またはそれ以上の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、表３に記載されていない１～１０個の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、表３に記載されていない１～５個の遺伝子についての存在量値を含む。他の実施形態において、分類器の特徴は、表３に記載されていない任意の遺伝子についての存在量値を含まない。

したがって、当業者は、少なくとも部分的に１つ以上の分類モデルにおけるそれぞれの特徴の重要性に基づいて、表３に記載されたすべてより少ない遺伝子を含む特徴セットを選択し得る。例えば、いくつかの実施形態において、分類モデルにおいてより低い予測力を有する１つ以上の遺伝子は、分類器訓練中に省略され得る。例えば、いくつかの実施形態において、分類器の特徴は、少なくとも０．５の回帰係数を有する、少なくとも表５に記載の遺伝子発現特徴、例えば、ＣＤＫＮ２Ａ、ＳＭＣ１Ｂ、ＥＦＮＢ３、ＫＣＮＳ１、ＣＣＮＤ１、およびＲＮＦ２１２を含む。いくつかの実施形態において、分類器の特徴は、少なくとも０．４の回帰係数を有する、少なくとも表５に記載の遺伝子発現特徴を含む。いくつかの実施形態において、分類器の特徴は、少なくとも０．３の回帰係数を有する、少なくとも表５に記載の遺伝子発現特徴を含む。いくつかの実施形態において、分類器の特徴は、少なくとも０．２の回帰係数を有する、少なくとも表５に記載の遺伝子発現特徴を含む。いくつかの実施形態において、分類器の特徴は、少なくとも０．１の回帰係数を有する、少なくとも表５に記載の遺伝子発現特徴を含む。

同様に、特徴セットのサイズは、どの特徴が含まれるか、および／または除外されるかによって影響を受け得る。例えば、いくつかの実施形態において、高い予測力を有する特定の特徴が分類モデルに含まれる場合、より少ない総特徴がモデルに含まれ得る。例えば、いくつかの実施形態において、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、およびＥＦＮＢ３についての存在量値がモデルに含まれる場合、存在量値が表５の特徴として使用される他の遺伝子のうちの２つ以下についての存在量値をモデルに含める必要がある。したがって、いくつかの実施形態において、分類器の特徴は、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、およびＥＦＮＢ３、ならびにその存在量値が表５の特徴として使用される少なくとも２つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、およびＥＦＮＢ３、ならびにその存在量値が表５の特徴として使用される少なくとも５つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、およびＥＦＮＢ３、ならびにその存在量値が表５の特徴として使用される少なくとも１０個の他の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、ＳＭＣ１Ｂ、ＣＤＫＮ２Ａ、およびＥＦＮＢ３、ならびにその存在量値が表５の特徴として使用される少なくとも１５個の他の遺伝子についての存在量値を含む。

いくつかの実施形態において、方法は、癌状態の分類に基づいて、例えば、対象の癌がＨＰＶウイルス感染に関連するかどうかに基づいて、対象に療法を割り当てることおよび／または療法を実施することをさらに含む。

したがって、一実施形態において、ヒト癌患者における子宮頸癌を治療するための方法が提供される。方法は、ヒト癌患者についてのデータセットを取得することによって、ヒト癌患者がヒトパピローマウイルス（ＨＰＶ）発癌性ウイルスに感染しているかどうかを決定することを含み、データセットは複数の存在量値を含み、複数の存在量値における各それぞれの存在量値は、複数の遺伝子における対応する遺伝子の発現レベルを定量化し、複数の遺伝子は表３に記載の遺伝子から選択される少なくとも５つの遺伝子を含む。次いで、方法は、対象の癌性組織において、複数の遺伝子の存在量値に基づいて、少なくともＨＰＶ感染に関連する第１の子宮頸癌状態およびＨＰＶを含まない状態に関連する第２の子宮頸癌状態を識別するように訓練された分類器にデータセットを入力することを含む。いくつかの実施形態において、分類器は、図２を参照して、上記の方法論に従って訓練される。次いで、方法は、子宮頸癌の治療を含む。分類器の結果が、ヒト癌患者がＨＰＶ発癌性ウイルスに感染していることを示す場合、ＨＰＶ感染に関連する子宮頸癌の治療のために調整された第１の療法を実施する。分類器の結果が、ヒト癌患者がＨＰＶ発癌性ウイルスに感染していないことを示す場合、ＨＰＶ感染に関連しない子宮頸癌の治療のために調整された第２の療法を実施する。

いくつかの実施形態において、ＨＰＶ感染に関連する子宮頸癌の治療のために調整された第１の療法は、治療用ワクチンである。いくつかの実施形態において、治療ワクチンは、ａｘａｌｉｍｏｇｅｎｅｆｉｌｏｌｉｓｂａｃ（Ａｄｖａｘｉｓ）、ＴＧ４００１（Ｔｒａｎｓｇｅｎｅ）、ＧＸ－１８８Ｅ（Ｇｅｎｅｘｉｎｅ）、ＶＧＸ－３１００（Ｉｎｏｖｉｏ）、ＭＥＤＩ－０４５７（Ｉｎｏｖｉｏ）、ＩＮＯ－３１０６（Ｉｎｏｖｉｏ）、ＴＡ－ＣＩＮ（ＣａｎｃｅｒＲｅｓｅａｒｃｈＴｅｃｈｎｏｌｏｇｙ）、ＴＡ－ＨＰＶ（ＣａｎｃｅｒＲｅｓｅａｒｃｈＴｅｃｈｎｏｌｏｇｙ）、ＩＳＡ－１０１（Ｉｓａ）、およびＰｅｐＣａｎ（ＵｎｉｖｅｒｓｉｔｙｏｆＡｒｋａｎｓａｓ）から選択される。

いくつかの実施形態において、ＨＰＶ感染に関連する子宮頸癌の治療のために調整された第１の療法は、養子細胞療法である。いくつかの実施形態において、養子細胞療法は、例えば、臨床試験ＩＤＮＣＴ０２３７９５２０またはＮＣＴ０３１９７０２５（ＢａｙｌｏｒＣｏｌｌｅｇｅｏｆＭｅｄｉｃｉｎｅ）について記載されているように、ＨＰＶ特異的Ｔ細胞の投与を含む。

いくつかの実施形態において、ＨＰＶ感染に関連する子宮頸癌の治療のために調整された第１の療法は、免疫チェックポイント阻害剤である。いくつかの実施形態において、免疫チェックポイント阻害剤は、ニボルマブ（Ｂｒｉｓｔｏｌ－ＭｙｅｒｓＳｑｕｉｂｂ）である。

いくつかの実施形態において、ＨＰＶ感染に関連する子宮頸癌の治療のために調整された第１の療法は、ＰＩ３Ｋ阻害剤である。いくつかの実施形態において、ＰＩ３Ｋ阻害剤は、ＡＭＧ３１９（Ａｍｇｅｎ）またはＢＫＭ１２０（Ｎｏｖａｒｔｉｓ）である。

同様に、一実施形態において、ヒトの癌患者における頭頸部癌を治療するための方法が提供される。方法は、ヒト癌患者についてのデータセットを取得することによって、ヒト癌患者がヒトパピローマウイルス（ＨＰＶ）発癌性ウイルスに感染しているかどうかを決定することを含み、データセットは複数の存在量値を含み、複数の存在量値における各それぞれの存在量値は、複数の遺伝子における対応する遺伝子の発現レベルを定量化し、複数の遺伝子は表３に記載の遺伝子から選択される少なくとも５つの遺伝子を含む。次いで、方法は、対象の癌性組織において、複数の遺伝子の存在量値に基づいて、少なくともＨＰＶ感染に関連する第１の頭頸部癌状態およびＨＰＶを含まない状態に関連する第２の頭頸部癌状態を識別するように訓練された分類器にデータセットを入力することを含む。いくつかの実施形態において、分類器は、図２を参照して、上記の方法論に従って訓練される。次いで、方法は、頭頸部癌の治療を含む。分類器の結果が、ヒト癌患者がＨＰＶ発癌性ウイルスに感染していることを示す場合、方法は、ＨＰＶ感染に関連する頭頸部癌の治療のために調整された第１の療法を実施することを含む。分類器の結果が、ヒト癌患者がＨＰＶ発癌性ウイルスに感染していないことを示す場合、方法は、ＨＰＶ感染に関連しない頭頸部癌の治療のために調整された第２の療法を実施するすことを含む。

いくつかの実施形態において、ＨＰＶ感染に関連する頭頸部癌の治療のために調整された第１の療法は、治療用ワクチンである。いくつかの実施形態において、治療ワクチンは、ａｘａｌｉｍｏｇｅｎｅｆｉｌｏｌｉｓｂａｃ（Ａｄｖａｘｉｓ）、ＴＧ４００１（Ｔｒａｎｓｇｅｎｅ）、ＧＸ－１８８Ｅ（Ｇｅｎｅｘｉｎｅ）、ＶＧＸ－３１００（Ｉｎｏｖｉｏ）、ＭＥＤＩ－０４５７（Ｉｎｏｖｉｏ）、ＩＮＯ－３１０６（Ｉｎｏｖｉｏ）、ＴＡ－ＣＩＮ（ＣａｎｃｅｒＲｅｓｅａｒｃｈＴｅｃｈｎｏｌｏｇｙ）、ＴＡ－ＨＰＶ（ＣａｎｃｅｒＲｅｓｅａｒｃｈＴｅｃｈｎｏｌｏｇｙ）、ＩＳＡ－１０１（Ｉｓａ）、およびＰｅｐＣａｎ（ＵｎｉｖｅｒｓｉｔｙｏｆＡｒｋａｎｓａｓ）から選択される。

いくつかの実施形態において、ＨＰＶ感染に関連する頭頸部癌の治療のために調整された第１の療法は、養子細胞療法である。いくつかの実施形態において、養子細胞療法は、例えば、臨床試験ＩＤＮＣＴ０２３７９５２０またはＮＣＴ０３１９７０２５（ＢａｙｌｏｒＣｏｌｌｅｇｅｏｆＭｅｄｉｃｉｎｅ）について記載されているように、ＨＰＶ特異的Ｔ細胞の投与を含む。

いくつかの実施形態において、ＨＰＶ感染に関連する頭頸部癌の治療のために調整された第１の療法は、免疫チェックポイント阻害剤である。いくつかの実施形態において、免疫チェックポイント阻害剤は、ニボルマブ（Ｂｒｉｓｔｏｌ－ＭｙｅｒｓＳｑｕｉｂｂ）である。

いくつかの実施形態において、ＨＰＶ感染に関連する頭頸部癌の治療のために調整された第１の療法は、ＰＩ３Ｋ阻害剤である。いくつかの実施形態において、ＰＩ３Ｋ阻害剤は、ＡＭＧ３１９（Ａｍｇｅｎ）またはＢＫＭ１２０（Ｎｏｖａｒｔｉｓ）である。

ＨＰＶプローブセット
いくつかの実施形態において、本開示は、核酸分子、例えば、対象由来の癌性組織試料から単離されたｍＲＮＡ転写産物および／またはそれらのｍＲＮＡ転写産物から調製されたｃＤＮＡ分子を結合、濃縮、およびまたは検出するためのプローブを提供し、それらは、対象がＨＰＶ発癌性ウイルス感染に関連する第１の癌状態を有するか、またはＨＰＶ発癌性ウイルス感染に関連しない第２の癌状態を有するかについて有益である。概して、プローブは、目的の核酸分子と相補的な塩基配列を有するＤＮＡ、ＲＮＡ、または修飾された核酸構造を含む。したがって、プローブが癌性組織から単離されたｍＲＮＡ分子にハイブリダイズするように設計される場合、プローブは、転写産物が由来する遺伝子のコード鎖に相補的な核酸配列を含み、すなわち、プローブは、遺伝子のアンチセンス配列を含むであろう。しかしながら、プローブがｃＤＮＡ分子にハイブリダイズするように設計されている場合、ｃＤＮＡライブラリーの分子は二本鎖であるため、プローブは、目的の遺伝子のコード配列に相補的な配列（アンチセンス配列）または目的の遺伝子のコード配列と同一の配列（センス配列）のいずれかを含み得る。

いくつかの実施形態において、プローブは、目的の遺伝子配列に対していかなる相同性も共有しない追加の核酸配列を含む。例えば、いくつかの実施形態において、プローブはまた、特定器配列、例えば、特定の癌性組織試料または癌患者に固有である、例えば、固有の分子特定器（ＵＭＩ）を含む核酸配列を含む。特定器配列の例は、例えば、Ｋｉｖｉｏｊａｅｔａｌ．，２０１１，Ｎａｔ．Ｍｅｔｈｏｄｓ９（１），ｐｐ．７２－７４、およびＩｓｌａｍｅｔａｌ．，２０１４，Ｎａｔ．Ｍｅｔｈｏｄｓ１１（２），ｐｐ．１６３－６６に記載されており、それらの内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。同様に、いくつかの実施形態において、プローブはまた、例えば、ＰＣＲを使用して、目的の核酸分子を増幅するために有用なプライマー核酸配列を含む。いくつかの実施形態において、プローブはまた、試料由来の目的の核酸分子を回収するための抗捕捉配列にハイブリダイズするように設計された捕捉配列を含む。

同様に、いくつかの実施形態において、プローブは、目的の核酸分子を回収するために、目的の遺伝子に相補的である核酸分子に共有結合された非核酸親和性部分を含む。非核酸親和性部分の非限定的な例には、ビオチン、ジゴキシゲニン、およびジニトロフェノールが挙げられる。いくつかの実施形態において、プローブは、目的の核酸を回収するために、固体表面または粒子、例えば、ディップスティックまたは磁気ビーズに取り付けられる。

したがって、一実施形態において、本開示は、ヒト対象における第１の癌状態および第２の癌状態を識別するための複数の核酸プローブを提供し、第１の癌状態はヒトパピローマウイルス（ＨＰＶ）発癌性ウイルスによる感染に関連し、第２の癌状態はＨＰＶを含まない状態に関連する。複数の核酸プローブは、少なくとも５つの核酸プローブを含み、少なくとも５つの核酸プローブの各々は、表３に記載の遺伝子から選択される異なるそれぞれの遺伝子のＲＮＡ転写産物の少なくとも１０個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む。

いくつかの実施形態において、複数の核酸プローブは、表３に記載の異なる遺伝子由来の配列に相補的または同一である配列を有する少なくとも１０個のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、表３に記載の異なる遺伝子由来の配列に相補的または同一である配列を有する少なくとも１５個のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、表３に記載の異なる遺伝子由来の配列に相補的または同一である配列を有する少なくとも２０個のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、表３に記載のすべての遺伝子由来の配列に相補的または同一である配列を有するプローブを含む。いくつかの実施形態において、複数の核酸プローブは、表３に記載の異なる遺伝子由来の配列に相補的または同一である配列を有する２個、３個、４個、５個、６個、７個、８個、９個、１０個、１１個、１２個、１３個、１４個、１５個、１６個、１７個、１８個、１９個、２０個、２１個、２２個、２３個、または２４個のプローブを含む。

いくつかの実施形態において、複数の核酸プローブは、表３に記載されていない遺伝子の配列に結合する１つ以上のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、表３に記載されていない遺伝子の配列に結合する少なくとも２個、３個、４個、５個、６個、７個、８個、９個、１０個、またはそれ以上のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、２０個以下の遺伝子に結合する配列を有するプローブを含む。いくつかの実施形態において、複数の核酸プローブは、２５個以下の遺伝子に結合する配列を有するプローブを含む。いくつかの実施形態において、複数の核酸プローブは、５０個以下の遺伝子に結合する配列を有するプローブを含む。いくつかの実施形態において、複数の核酸プローブは、１０個、１５個、２０個、２５個、３０個、３５個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、１２５個、１５０個、１７５個、２００個、２５０個、または３００個以下の遺伝子に結合する配列を有するプローブを含む。

いくつかの実施形態において、複数のプローブにおける各プローブは、目的のＲＮＡ転写産物、例えば、表３に記載の遺伝子由来の転写産物の少なくとも１５個の連続する塩基と同一または相補的である核酸配列を含む。いくつかの実施形態において、複数のプローブにおける各プローブは、目的のＲＮＡ転写産物、例えば、表３に記載の遺伝子由来の転写産物の少なくとも３０個の連続する塩基と同一または相補的である核酸配列を含む。いくつかの実施形態において、複数のプローブにおける各プローブは、目的のＲＮＡ転写産物、例えば、表３に記載の遺伝子由来の転写産物の少なくとも５０個の連続する塩基と同一または相補的である核酸配列を含む。いくつかの実施形態において、複数のプローブにおける各プローブは、目的のＲＮＡ転写産物、例えば、表３に記載の遺伝子由来の転写産物の少なくとも１０個、１５個、２０個、２５個、３０個、３５個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、１２５個、１５０個、１７５個、２００個、またはそれ以上の連続する塩基と同一または相補的である核酸配列を含む。

ＥＢＶ発癌性ウイルス感染
いくつかの実施形態において、本明細書に記載の方法は、エプスタインバーウイルス（ＥＢＶ）感染に関連することが知られている癌の分類および／または治療に関する。以下の実施例４で報告されるように、表４に記載され、図５Ｂに示される２４の遺伝子は、ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ（ＴＣＧＡ）において既知のＥＢＶ状態を有する胃癌の発現データから形成された１０個の訓練セットのうちの少なくとも８つにおいて差次的に発現されることが見出された。したがって、いくつかの実施形態において、表４に記載の遺伝子のうちの１つ以上の発現レベルは、ＥＢＶ感染に関連するか、またはＥＢＶ感染に関連しないかのいずれかとして胃癌の分類に使用される。いくつかの実施形態において、表４に記載の遺伝子のうちの少なくとも２つ、３つ、４つ、５つ、６つ、７つ、８つ、または９つすべての発現レベルは、ＥＢＶ感染に関連するか、またはＥＢＶ感染に関連しないかのいずれかとして胃癌の分類に使用される。

一実施形態において、ヒト対象における第１の癌状態および第２の癌状態を識別するための方法が提供され、第１の癌状態は、エプスタインバーウイルス（ＥＢＶ）発癌性ウイルスによる感染に関連し、第２の癌状態は、ＥＢＶを含まない状態に関連する。方法は、例えば、図３を参照して上述したように、対象についてのデータセットを取得することを含む。データセットは、対象由来の複数の存在量値を含み、複数の存在量値における各それぞれの存在量値は、対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。いくつかの実施形態において、複数の遺伝子は、表４に記載の遺伝子から選択される少なくとも５つの遺伝子を含む。次いで、方法は、複数の遺伝子の存在量値に基づいて、少なくとも第１の癌状態および第２の癌状態を識別するように訓練された分類器にデータセットを入力することを含む。いくつかの実施形態において、分類器は、図２に関して上述された方法論のうちのいずれかに従って訓練される。

いくつかの実施形態において、複数の遺伝子は、表４に記載のすべての遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、表４に記載されていない１つ以上の遺伝子、例えば、表４に記載されていない１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、またはそれ以上の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、２０個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、２５個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、５０個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、１０個、１５個、２０個、２５個、３０個、３５個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、１２５個、１５０個、１７５個、２００個、２５０個、または３００個以下の遺伝子を含む。

いくつかの実施形態において、データセットはまた、対象由来の癌性組織のゲノムにおける１つ以上の遺伝子座での１つ以上の対立遺伝子についての変異対立遺伝子カウントを含む。いくつかの実施形態において、変異対立遺伝子カウントは、対象が変異対立遺伝子を保有する状態を表す１、または対象が変異対立遺伝子を保有しない状態を表す０のいずれかである。いくつかの実施形態において、変異対立遺伝子は、対象の生殖系列に由来する体細胞変異である。いくつかの実施形態において、変異対立遺伝子は、癌性組織に由来する癌由来の変異である。いくつかの実施形態において、変異対立遺伝子は、ＴＰ５３（ＥＮＳＧ０００００１４１５１０）またはＰＩＫ３ＣＡ（ＥＮＳＧ０００００１２１８７９）遺伝子に位置する。

いくつかの実施形態において、分類器は、バーキットリンパ腫、副鼻腔血管中心性Ｔ細胞リンパ腫、非ホジキンリンパ腫、ホジキンリンパ腫、鼻咽頭癌および胃癌から選択されるＥＢＶ関連癌を有する試験対象のＥＢＶ状態を決定するために訓練される。いくつかの実施形態において、分類器は、特定のＥＢＶ関連癌、例えば、バーキットリンパ腫、副鼻腔血管中心性Ｔ細胞リンパ腫、非ホジキンリンパ腫、ホジキンリンパ腫、鼻咽頭癌、または胃癌を有する試験患者のＥＢＶ状態を決定するために訓練される。しかしながら、分類器訓練は概して訓練データセットのサイズを大きくすることによって改善されるので、いくつかの実施形態において、分類器は、２つ以上の型のＥＢＶ関連癌、例えば、バーキットリンパ腫、副鼻腔血管中心性Ｔ細胞リンパ腫、非ホジキンリンパ腫、ホジキンリンパ腫、鼻咽頭癌および胃癌のうちの２つ、３つ、４つ、５つ、または６つすべてを有する患者由来のデータに対して訓練される。実施例４によって例示される特定の実施形態において、分類器は、胃癌を有する患者に対して訓練される。しかしながら、いくつかの実施形態において、１つ以上の型のＥＢＶ関連癌を有する患者に対して訓練された分類器は、異なる型のＥＢＶ関連癌を有する患者のＥＢＶ状態を決定するために有用である。

いくつかの実施形態において、分類器の特徴は、表４に記載のもの、例えば、ＳＣＮＮ１Ａ、ＣＤＸ１、ＫＣＮＫ１５、ＰＲＫＣＧ、ＫＲＴ７、ＮＫＤ２、ＧＰＲ１５８、ＣＬＤＮ３、およびＺＮＦ６８３から選択される複数の遺伝子についての存在量値を含む。以下に報告するように、例えば、実施例４を参照すると、これらの９つの遺伝子は、ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ（ＴＣＧＡ）における胃癌訓練セットの少なくとも８０％において、対象のＥＢＶ状態に応じて差次的に発現されることが見出された。しかしながら、当業者は、場合によっては、異なる訓練データセットの使用が異なる結果、例えば、これらの遺伝子のうちの１つ以上が訓練フォールドの少なくとも８０％で有益ではない可能性があること、および／または実施例４において報告された研究において訓練フォールドの少なくとも８０％において有益ではないことが見出された１つ以上の遺伝子が有益であり得ること、をもたらす可能性があることを理解するであろう。これらの違いは、例えば、訓練集団を選択するために異なる基準が使用される場合に発生する可能性があり、例えば、癌の型、個人の特性（例えば、年齢、性別、民族、家族歴、喫煙状況など）などの種々の包含および／または除外基準、または単に小さいまたは大きいデータセットを使用することによってである。

したがって、いくつかの実施形態において、分類器の特徴は、表４に記載の遺伝子のうちの少なくとも５つを含む。いくつかの実施形態において、分類器の特徴は、表４に記載の遺伝子のうちの少なくとも６つを含む。いくつかの実施形態において、分類器の特徴は、表４に記載の遺伝子のうちの少なくとも７つを含む。いくつかの実施形態において、分類器の特徴は、表４に記載の遺伝子のうちの少なくとも８つを含む。いくつかの実施形態において、分類器の特徴は、表４に記載の遺伝子の９つすべてを含む。さらに、いくつかの実施形態において、分類器の特徴はまた、表４に記載されていない１つ以上の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、表４に記載されていない１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個またはそれ以上の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、表４に記載されていない１～１０個の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、表４に記載されていない１～５個の遺伝子についての存在量値を含む。他の実施形態において、分類器の特徴は、表４に記載されていない任意の遺伝子についての存在量値を含まない。

したがって、当業者は、少なくとも部分的に１つ以上の分類モデルにおけるそれぞれの特徴の重要性に基づいて、表４に記載されたすべてより少ない遺伝子を含む特徴セットを選択し得る。例えば、いくつかの実施形態において、分類モデルにおいてより低い予測力を有する１つ以上の遺伝子は、分類器訓練中に省略され得る。例えば、いくつかの実施形態において、分類器の特徴は、少なくとも０．７５の回帰係数を有する、少なくとも表５に記載の遺伝子発現特徴、例えば、ＳＣＮＮ１Ａ（－１．２６）、ＫＣＮＫ１５（－１．０４）、ＫＲＴ７（－０．９４）、およびＣＬＤＮ３（－１．６８）を含む。いくつかの実施形態において、分類器の特徴は、少なくとも０．６の回帰係数を有する、少なくとも表５に記載の遺伝子発現特徴を含む。

同様に、特徴セットのサイズは、どの特徴が含まれるか、および／または除外されるかによって影響を受け得る。例えば、いくつかの実施形態において、高い予測力を有する特定の特徴が分類モデルに含まれる場合、より少ない総特徴がモデルに含まれ得る。例えば、いくつかの実施形態において、ＳＣＮＮ１Ａ、ＫＣＮＫ１５、ＫＲＴ７、およびＣＬＤＮ３についての存在量値がモデルに含まれる場合、表４に記載の他の遺伝子のうちの１つ以下の存在量値をモデルに含める必要がある。したがって、いくつかの実施形態において、分類器の特徴は、ＳＣＮＮ１Ａ、ＫＣＮＫ１５、ＫＲＴ７、およびＣＬＤＮ３、ならびに表４に記載の少なくとも１つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、ＳＣＮＮ１Ａ、ＫＣＮＫ１５、ＫＲＴ７、およびＣＬＤＮ３、ならびに表４に記載の少なくとも２つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、ＳＣＮＮ１Ａ、ＫＣＮＫ１５、ＫＲＴ７、およびＣＬＤＮ３、ならびに表４に記載の少なくとも３つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、ＳＣＮＮ１Ａ、ＫＣＮＫ１５、ＫＲＴ７、およびＣＬＤＮ３、ならびに表４に記載の少なくとも４つの他の遺伝子についての存在量値を含む。

いくつかの実施形態において、方法は、癌状態の分類に基づいて、例えば、対象の癌がＥＢＶウイルス感染に関連するかどうかに基づいて、対象に療法を割り当てることおよび／または療法を実施することをさらに含む。

したがって、一実施形態において、ヒト癌患者における胃癌を治療するための方法が提供される。方法は、ヒト癌患者についてのデータセットを取得することによって、ヒト癌患者がエプスタインバーウイルス（ＥＢＶ）発癌性ウイルスに感染しているかどうかを決定することを含み、データセットは複数の存在量値を含み、複数の存在量値における各それぞれの存在量値は、複数の遺伝子における対応する遺伝子の発現レベルを定量化し、複数の遺伝子は表４に記載の遺伝子から選択される少なくとも５つの遺伝子を含む。次いで、方法は、対象の癌性組織において、複数の遺伝子の存在量値に基づいて、少なくともＥＢＶ感染に関連する第１の胃癌状態およびＥＢＶを含まない状態に関連する第２の胃癌状態を識別するように訓練された分類器にデータセットを入力することを含む。いくつかの実施形態において、分類器は、図２を参照して、上記の方法論に従って訓練される。次いで、方法は、胃癌の治療を含む。分類器の結果が、ヒト癌患者がＥＢＶ発癌性ウイルスに感染していることを示す場合、ＥＢＶ感染に関連する胃癌の治療のために調整された第１の療法を実施する。分類器の結果が、ヒト癌患者がＥＢＶ発癌性ウイルスに感染していないことを示す場合、ＥＢＶ感染に関連しない胃癌の治療のために調整された第２の療法を実施する。

いくつかの実施形態において、ＥＢＶ感染に関連する胃癌の治療のために調整された第１の療法は、養子細胞療法である。いくつかの実施形態において、養子細胞療法は、ＡＴＡ１２９（Ａｔａｒａ）、ＥＢＶＳＴ（Ｔｅｓｓａ）、またはＣＭＤ－００３（ＣｅｌｌＭｅｄｉｃａ）を含む。

いくつかの実施形態において、ＥＢＶ感染に関連する胃癌の治療のために調整された第１の療法は、免疫チェックポイント阻害剤である。いくつかの実施形態において、免疫チェックポイント阻害剤は、ペンブロジルマブ（Ｍｅｒｃｋ）またはニボルマブ（Ｂｒｉｓｔｏｌ－ＭｙｅｒｓＳｑｕｉｂｂ）である。

いくつかの実施形態において、ＥＢＶ感染に関連する胃癌の治療のために調整された第１の療法は、ＢＴＫ阻害剤である。いくつかの実施形態において、ＢＴＫ阻害剤は、イブルチニブ（Ｐｈａｒｍａｃｙｃｌｉｃｓ）である。

報告
いくつかの実施形態において、本明細書に記載の方法は、対象の癌状態についての患者報告書を生成するステップを含む。報告書は、患者、医師、医療関係者、または研究者に、デジタルコピー（例えば、ＪＳＯＮオブジェクト、ＰＤＦファイル、またはＷｅｂサイトもしくはポータル上の画像）、ハードコピー（例えば、紙または別の有形の媒体に印刷された）、オーディオとして（例えば、録音またはストリーミング）、または別の形式で提示され得る。

報告書は、患者の癌の特定の特徴、例えば、検出された遺伝的変異、エピジェネティックな異常、関連する発癌性病原性感染、および／または病理学的異常に関連する情報を含む。いくつかの実施形態において、患者の試料および／または臨床記録の他の特徴もまた、報告書に含まれる。いくつかの実施形態において、報告書は、患者が適格である臨床試験、患者の癌に特異的な療法、および／または患者の癌の特定の特徴に関連する可能性のある治療上の有害作用、例えば、患者の遺伝的変異、エピジェネティックな異常、関連する発癌性病原性感染、および／または病理学的異常、または患者の試料および／または臨床記録の他の特徴についての情報を含む。

いくつかの実施形態において、報告書に含まれる結果、および／または任意の追加の結果（例えば、バイオインフォマティクスパイプライン由来）は、臨床データのデータベースを照会するため、例えば、特定の療法が、同じまたは類似の特徴を有する他の患者における治療（例えば、癌の進行を遅らせるまたは停止させる）において効果的であったことを示す傾向があるかどうか決定するために使用される。

いくつかの実施形態において、患者の生物学の細胞ベースの研究、例えば、腫瘍オルガノイド実験を設計するために結果を使用する。例えば、オルガノイドは、標本と同じ特性を有するように遺伝子操作され得、療法への曝露後に観察されて、療法がオルガノイドの成長速度を低下させ、したがって標本に関連付けられている患者の成長速度を低下させる可能性があるかどうかを決定し得る。同様に、いくつかの実施形態において、患者に直接由来する腫瘍オルガノイドに関する研究を指示するために結果を使用する。そのような実験の例は、２０１９年１２月５日に出願された米国仮特許出願第６２／９４４，２９２号に記載されており、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。

いくつかの実施形態において、患者報告書は、対象の発癌性病原体感染状態に関するセクションを含む。例えば、図７Ａおよび７Ｂは、それぞれＨＰＶ陽性の頭頸部癌およびＨＰＶ陽性の子宮頸癌の診断時に提供される情報の例を示している。

ＥＢＶプローブセット
いくつかの実施形態において、本開示は、核酸分子、例えば、対象由来の癌性組織試料から単離されたｍＲＮＡ転写産物および／またはそれらのｍＲＮＡ転写産物から調製されたｃＤＮＡ分子を結合、濃縮、および／または検出するためのプローブを提供し、それらは、対象がＥＢＶ発癌性ウイルス感染に関連する第１の癌状態を有するか、もしくはＥＢＶ発癌性ウイルス感染に関連しない第２の癌状態を有するかについて有益である。概して、プローブは、目的の核酸分子と相補的な塩基配列を有するＤＮＡ、ＲＮＡ、または修飾された核酸構造を含む。したがって、プローブが癌性組織から単離されたｍＲＮＡ分子にハイブリダイズするように設計される場合、プローブは、転写産物が由来する遺伝子のコード鎖に相補的な核酸配列を含み、例えば、プローブは、遺伝子のアンチセンス配列を含むであろう。しかしながら、プローブがｃＤＮＡ分子にハイブリダイズするように設計されている場合、ｃＤＮＡライブラリーの分子は二本鎖であるため、プローブは、目的の遺伝子のコード配列に相補的な配列（アンチセンス配列）または目的の遺伝子のコード配列と同一の配列（センス配列）のいずれかを含み得る。

いくつかの実施形態において、プローブは、目的の遺伝子配列に対していかなる相同性も共有しない追加の核酸配列を含む。例えば、いくつかの実施形態において、プローブはまた、特定子配列、例えば、特定の癌性組織試料または癌患者に固有である、例えば、固有の分子特定子（ＵＭＩ）を含む核酸配列を含む。特定器配列の例は、例えば、Ｋｉｖｉｏｊａｅｔａｌ．，２０１１，Ｎａｔ．Ｍｅｔｈｏｄｓ９（１）：７２－７４、およびＩｓｌａｍｅｔａｌ．，２０１４，Ｎａｔ．Ｍｅｔｈｏｄｓ１１（２），ｐｐ．１６３－６６に記載されており、それらの内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。同様に、いくつかの実施形態において、プローブはまた、例えば、ＰＣＲを使用して、目的の核酸分子を増幅するために有用なプライマー核酸配列を含む。いくつかの実施形態において、プローブはまた、試料由来の目的の核酸分子を回収するための抗捕捉配列にハイブリダイズするように設計された捕捉配列を含む。

したがって、一実施形態において、本開示は、ヒト対象における第１の癌状態および第２の癌状態を識別するための複数の核酸プローブを提供し、第１の癌状態はエプスタインバーウイルス（ＥＢＶ）発癌性ウイルスによる感染に関連し、第２の癌状態はＥＢＶを含まない状態に関連する。複数の核酸プローブは、少なくとも５つの核酸プローブを含み、少なくとも５つの核酸プローブの各々は、表４に記載の遺伝子から選択される異なるそれぞれの遺伝子のＲＮＡ転写産物の少なくとも１０個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む。

いくつかの実施形態において、複数の核酸プローブは、表４に記載の異なる遺伝子由来の配列に相補的または同一である配列を有する少なくとも１０個のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、表４に記載の異なる遺伝子由来の配列に相補的または同一である配列を有する２つ、３つ、４つ、５つ、６つ、７つ、８つ、または９つのプローブを含む。

いくつかの実施形態において、複数の核酸プローブは、表４に記載されていない遺伝子の配列に結合する１つ以上のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、表４に記載されていない遺伝子の配列に結合する少なくとも２個、３個、４個、５個、６個、７個、８個、９個、１０個、またはそれ以上のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、２０個以下の遺伝子に結合する配列を有するプローブを含む。いくつかの実施形態において、複数の核酸プローブは、２５個以下の遺伝子に結合する配列を有するプローブを含む。いくつかの実施形態において、複数の核酸プローブは、５０個以下の遺伝子に結合する配列を有するプローブを含む。いくつかの実施形態において、複数の核酸プローブは、１０個、１５個、２０個、２５個、３０個、３５個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、１２５個、１５０個、１７５個、２００個、２５０個、または３００個以下の遺伝子に結合する配列を有するプローブを含む。

いくつかの実施形態において、複数のプローブにおける各プローブは、目的のＲＮＡ転写産物、例えば、表４に記載の遺伝子由来の転写産物の少なくとも１５個の連続する塩基と同一または相補的である核酸配列を含む。いくつかの実施形態において、複数のプローブにおける各プローブは、目的のＲＮＡ転写産物、例えば、表４に記載の遺伝子由来の転写産物の少なくとも３０個の連続する塩基と同一または相補的である核酸配列を含む。いくつかの実施形態において、複数のプローブにおける各プローブは、目的のＲＮＡ転写産物、例えば、表４に記載の遺伝子由来の転写産物の少なくとも５０個の連続する塩基と同一または相補的である核酸配列を含む。いくつかの実施形態において、複数のプローブにおける各プローブは、目的のＲＮＡ転写産物、例えば、表４に記載の遺伝子由来の転写産物の少なくとも１０個、１５個、２０個、２５個、３０個、３５個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、１２５個、１５０個、１７５個、２００個、またはそれ以上の連続する塩基と同一または相補的である核酸配列を含む。

デジタルおよび実験室のヘルスケアプラットフォーム
いくつかの実施形態において、上記の方法およびシステムは、概して医療および研究を対象とするデジタルおよび実験室のヘルスケアプラットフォームと組み合わせて、またはその一部として利用される。そのようなプラットフォームと組み合わせた上記の方法およびシステムの多くの使用が可能であることを理解する必要がある。そのようなプラットフォームの一例は、「ＤａｔａＢａｓｅｄＣａｎｃｅｒＲｅｓｅａｒｃｈａｎｄＴｒｅａｔｍｅｎｔＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓ」と題され、２０１９年１０月１８日に出願された米国特許出願第１６／６５７，８０４号に記載されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。

例えば、上記の方法およびシステムの１つ以上の実施形態の実装は、発癌性病原体感染に関連する癌についての診断および治療選択をサポートするデジタルおよび実験室のヘルスケアプラットフォームを構成するマイクロサービスを含み得る。実施形態は、発癌性病原体感染に関連する癌についての診断および治療選択を実行および提供するための単一のマイクロサービスを含み得るか、またはそれぞれが、上記の実施形態のうちの１つ以上を一緒に実施する特定の役割を有する複数のマイクロサービスを含み得る。一例では、第１のマイクロサービスは、発癌性病原体感染に関連する癌についての適切な治療法を推奨するための診断を第２のマイクロサービスに提供するために分類を実行し得る。同様に、第２のマイクロサービスは、上記の実施形態によれば、治療分析を実行して、推奨される治療法を提供し得る。

上記の実施形態が、デジタルおよび実験室のヘルスケアプラットフォームとともに、またはその一部として１つ以上のマイクロサービスにおいて実行される場合、そのようなマイクロサービスのうちの１つ以上は、上記の実施形態をインスタンス化するために必要な適切な時間および適切な順序で必要に応じて事象の順序を調整する注文管理システムの一部であり得る。マイクロサービスベースの注文管理システムは、例えば、「ＡｄａｐｔｉｖｅＯｒｄｅｒＦｕｌｆｉｌｌｍｅｎｔａｎｄＴｒａｃｋｉｎｇＭｅｔｈｏｄｓａｎｄＳｙｓｔｅｍｓ」と題され、２０１９年７月１２日に出願された米国仮特許出願第６２／８７３，６９３号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。

例えば、上記の第１および第２のマイクロサービスを継続して、注文管理システムは、癌の発癌性病原体状態を分類するための注文が受け取られ、処理の準備ができていることを第１のマイクロサービスに通知し得る。第２のマイクロサービスについての分類の送達が準備できると、第１のマイクロサービスが実行され、注文管理システムに通知され得る。さらに、注文管理システムは、第１のマイクロサービスが完了したことを含み、第２のマイクロサービスの実行パラメータ（前提条件）が満たされていることを特定し、上記実施形態による発癌性病原体感染に関連する癌についての適切な治療法を推奨するための注文の処理を続行できることを第２のマイクロサービスに通知する。

デジタルおよび実験室のヘルスケアプラットフォームが遺伝子分析システムをさらに含む場合、遺伝子分析システムは、標的化されたパネルおよび／または配列決定プローブを含み得る。ターゲットパネルの例は、例えば「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＥｘｐａｎｄｉｎｇＣｌｉｎｉｃａｌＯｐｔｉｏｎｓｆｏｒＣａｎｃｅｒＰａｔｉｅｎｔｓｕｓｉｎｇＩｎｔｅｇｒａｔｅｄＧｅｎｏｍｉｃＰｒｏｆｉｌｉｎｇ」と題され、２０１９年９月１９日に出願された米国仮特許出願第６２／９０２，９５０号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。一例において、標的化されたパネルは、上記の一実施形態による発癌性病原体感染を検出するための次世代配列決定の結果の送達を可能にし得る。次世代配列決定プローブの設計例は、例えば、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＮｅｘｔＧｅｎｅｒａｔｉｏｎＳｅｑｕｅｎｃｉｎｇＵｎｉｆｏｒｍＰｒｏｂｅＤｅｓｉｇｎ」と題され、２０１９年１０月２１日に出願された米国仮特許出願第６２／９２４，０７３号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。

デジタルおよび実験室のヘルスケアプラットフォームがバイオインフォマティクスパイプラインをさらに含む場合、上記の方法およびシステムは、バイオインフォマティクスパイプラインにおいて利用されるシステムおよび方法の完了または実質的な完了後に利用され得る。一例において、バイオインフォマティクスパイプラインは、次世代遺伝子配列決の定結果を受け取り、参照ゲノムにアラインメントされたＤＮＡおよび／またはＲＮＡリードカウントを反映する１つ以上のＢＡＭファイルなどの二値ファイルのセットを返し得る。上記の方法およびシステムは、例えば、ＤＮＡおよび／またはＲＮＡのリードカウントを取り込み、結果として対象の発癌性病原体状態の分類を生成するために利用され得る。

デジタルおよび実験室のヘルスケアプラットフォームがさらにＲＮＡデータ正規化器を含む場合、任意のＲＮＡリードカウントは、上記のように実施形態を処理する前に正規化され得る。ＲＮＡデータ正規化器の例は、例えば、「ＭｅｔｈｏｄｓｏｆＮｏｒｍａｌｉｚｉｎｇａｎｄＣｏｒｒｅｃｔｉｎｇＲＮＡＥｘｐｒｅｓｓｉｏｎＤａｔａ」と題され、２０１９年９月２４日に出願された米国特許出願第１６／５８１，７０６号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。

デジタルおよび実験室のヘルスケアプラットフォームが遺伝子データデコンボリューターをさらに含む場合、デコンボリューションのための任意のシステムおよび方法は、２つ以上の生物学的成分を有する標本に関連する遺伝子データを分析して、遺伝子データへの各成分の寄与を決定する、および／または、標本が精製された場合にどの遺伝データが標本の任意のコンポーネントに関連付けられるかを決定するために利用され得る。遺伝子データデコンボリューターの例は、例えば、両方とも「ＴｒａｎｓｃｒｉｐｔｏｍｅＤｅｃｏｎｖｏｌｕｔｉｏｎｏｆＭｅｔａｓｔａｔｉｃＴｉｓｓｕｅＳａｍｐｌｅｓ」と題され、２０１９年１２月３１日に出願された米国特許出願第１６／７３２，２２９号およびＰＣＴ１９／６９１６１、「ＣａｌｃｕｌａｔｉｎｇＣｅｌｌ－ｔｙｐｅＲＮＡＰｒｏｆｉｌｅｓｆｏｒＤｉａｇｎｏｓｉｓａｎｄＴｒｅａｔｍｅｎｔ」と題され、２０１９年１０月２１日に出願された米国仮特許出願第６２／９２４，０５４号、ならびに「ＲａｐｉｄＤｅｃｏｎｖｏｌｕｔｉｏｎｏｆＢｕｌｋＲＮＡＴｒａｎｓｃｒｉｐｔｏｍｅｓｆｏｒＬａｒｇｅＤａｔａＳｅｔｓ（ＩｎｃｌｕｄｉｎｇＴｒａｎｓｃｒｉｐｔｏｍｅｓｏｆＳｐｅｃｉｍｅｎｓＨａｖｉｎｇＴｗｏｏｒＭｏｒｅＴｉｓｓｕｅＴｙｐｅｓ）」と題され、２０１９年１２月６日に出願された米国仮特許出願第６２／９４４，９９５号において開示されており、それらは、すべての目的のためにその全体が参照により本明細書に組み込まれる。

デジタルおよび実験室のヘルスケアプラットフォームに自動化されたＲＮＡ発現発信器がさらに含まれる場合、ＲＮＡ発現レベルは、参照発現レベルに対する値として表現されるように調整され得、これは、それらが同じ方法、装置、および／または試薬を使用して生成されていないため、分析用の複数のＲＮＡ発現データセットを準備し、データセットに違いがある場合に発生するアーティファクトを回避するために行われることが多い。自動化されたＲＮＡ発現発信器の例は、例えば、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＡｕｔｏｍａｔｉｎｇＲＮＡＥｘｐｒｅｓｓｉｏｎＣａｌｌｓｉｎａＣａｎｃｅｒＰｒｅｄｉｃｔｉｏｎＰｉｐｅｌｉｎｅ」と題され、２０１９年１２月４日に出願された米国仮特許出願第６２／９４３，７１２号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。

デジタルおよび実験室ヘルスケアプラットフォームは、患者および／または標本に関連する遺伝的および／または臨床のデータに基づき得る病状に関連する情報、特性、または決定を提供するための１つ以上の洞察エンジンをさらに含み得る。例示的な洞察エンジンには、起源不明の腫瘍エンジン、ヒト白血球抗原（ＨＬＡ）ホモ接合性喪失（ＬＯＨ）エンジン、腫瘍変異負荷エンジン、ＰＤ－Ｌ１状態エンジン、相同組換え欠損エンジン、細胞経路活性化報告エンジン、免疫浸潤エンジン、マイクロサテライト不安定性エンジン、病原体感染状態エンジンなどを含み得る。起源不明の腫瘍エンジンの例は、例えば、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＭｕｌｔｉ－ＬａｂｅｌＣａｎｃｅｒＣｌａｓｓｉｆｉｃａｔｉｏｎ」と題され、２０１９年５月３１日に出願された米国仮特許出願第６２／８５５，７５０号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。ＨＬＡＬＯＨエンジンの例は、例えば、「ＤｅｔｅｃｔｉｏｎｏｆＨｕｍａｎＬｅｕｋｏｃｙｔｅＡｎｔｉｇｅｎＬｏｓｓｏｆＨｅｔｅｒｏｚｙｇｏｓｉｔｙ」と題され、２０１９年８月２０日に出願された米国仮特許出願第６２／８８９，５１０号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。腫瘍変異負荷（ＴＭＢ）エンジンの例は、例えば、「ＡｓｓｅｓｓｍｅｎｔｏｆＴｕｍｏｒＢｕｒｄｅｎＭｅｔｈｏｄｏｌｏｇｉｅｓｆｏｒＴａｒｇｅｔｅｄＰａｎｅｌＳｅｑｕｅｎｃｉｎｇ」と題され、２０１９年２月１２日に出願された米国仮特許出願第６２／８０４，４５８号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。ＰＤ－Ｌ１状態エンジンの例は、例えば、「ＡＰａｎ－ＣａｎｃｅｒＭｏｄｅｌｔｏＰｒｅｄｉｃｔＴｈｅＰＤ－Ｌ１ＳｔａｔｕｓｏｆａＣａｎｃｅｒＣｅｌｌＳａｍｐｌｅＵｓｉｎｇＲＮＡＥｘｐｒｅｓｓｉｏｎＤａｔａａｎｄＯｔｈｅｒＰａｔｉｅｎｔＤａｔａ」と題され、２０１９年５月３０日に出願された米国仮特許出願第６２／８５４，４００号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。ＰＤ－Ｌ１状態エンジンの追加の例は、例えば、「ＰＤ－Ｌ１ＰｒｅｄｉｃｔｉｏｎＵｓｉｎｇＨ＆ＥＳｌｉｄｅＩｍａｇｅｓ」と題され、２０１９年３月２６日に出願された米国仮特許出願第６２／８２４，０３９号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。相同組換え欠損エンジンの例は、例えば、「ＡｎＩｎｔｅｇｒａｔｉｖｅＭａｃｈｉｎｅ－ＬｅａｒｎｉｎｇＦｒａｍｅｗｏｒｋｔｏＰｒｅｄｉｃｔＨｏｍｏｌｏｇｏｕｓＲｅｃｏｍｂｉｎａｔｉｏｎＤｅｆｉｃｉｅｎｃｙ」と題され、２０１９年２月１２日に出願された米国仮特許出願第６２／８０４，７３０号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。細胞経路活性化報告エンジンの例は、例えば、「ＣｅｌｌｕｌａｒＰａｔｈｗａｙＲｅｐｏｒｔ」と題され、２０１９年８月１６日に出願された米国仮特許出願第６２／８８８，１６３号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。免疫浸潤エンジンの例は、例えば、「ＡＭｕｌｔｉ－ＭｏｄａｌＡｐｐｒｏａｃｈｔｏＰｒｅｄｉｃｔｉｎｇＩｍｍｕｎｅＩｎｆｉｌｔｒａｔｉｏｎＢａｓｅｄｏｎＩｎｔｅｇｒａｔｅｄＲＮＡＥｘｐｒｅｓｓｉｏｎａｎｄＩｍａｇｉｎｇＦｅａｔｕｒｅｓ」と題され、２０１９年８月６日に出願された米国特許出願第１６／５３３，６７６号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。免疫浸潤エンジンの追加の例は、例えば、「ＣｏｍｐｒｅｈｅｎｓｉｖｅＥｖａｌｕａｔｉｏｎｏｆＲＮＡＩｍｍｕｎｅＳｙｓｔｅｍｆｏｒｔｈｅＩｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＰａｔｉｅｎｔｓｗｉｔｈａｎＩｍｍｕｎｏｌｏｇｉｃａｌｌｙＡｃｔｉｖｅＴｕｍｏｒＭｉｃｒｏｅｎｖｉｒｏｎｍｅｎｔ」と題され、２０１９年２月１２日に出願された米国特許出願第６２／８０４，５０９号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。ＭＳＩエンジンの例は、例えば、「ＭｉｃｒｏｓａｔｅｌｌｉｔｅＩｎｓｔａｂｉｌｉｔｙＤｅｔｅｒｍｉｎａｔｉｏｎＳｙｓｔｅｍａｎｄＲｅｌａｔｅｄＭｅｔｈｏｄｓ」と題され、２０１９年１０月１５日に出願された米国特許出願第１６／６５３，８６８号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。ＭＳＩエンジンの追加の例は、例えば、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＤｅｔｅｃｔｉｎｇＭｉｃｒｏｓａｔｅｌｌｉｔｅＩｎｓｔａｂｉｌｉｔｙｏｆａＣａｎｃｅｒＵｓｉｎｇａＬｉｑｕｉｄＢｉｏｐｓｙ」と題され、２０１９年１１月６日に出願された米国仮特許出願第６２／９３１，６００号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。

デジタルおよび実験室のヘルスケアプラットフォームが報告書生成エンジンをさらに含む場合、上記の方法およびシステムを利用して、医師に提示するための患者の遺伝的プロファイルの要約報告書および１つ以上の洞察エンジンの結果を作成し得る。例えば、報告書は、配列決定された標本が、第１の器官、第２の器官、第３の器官などに由来の腫瘍または正常組織を含んでいた範囲についての情報を医師に提供し得る。例えば、報告書は、標本における組織型、腫瘍、または器官の各々についての遺伝的プロファイルを提供し得る。遺伝子プロファイルは、組織型、腫瘍、または臓器に存在する遺伝子配列を表し、変異、発現レベル、遺伝子産物に関する情報、または組織、腫瘍、または器官の遺伝子分析に由来し得る他の情報を含み得る。報告書には、遺伝子プロファイルまたは洞察エンジンの結果および要約の一部またはすべてに基づいて適合させた療法および／または臨床試験を含み得る。例えば、療法は、「ＴｈｅｒａｐｅｕｔｉｃＳｕｇｇｅｓｔｉｏｎＩｍｐｒｏｖｅｍｅｎｔｓＧａｉｎｅｄＴｈｒｏｕｇｈＧｅｎｏｍｉｃＢｉｏｍａｒｋｅｒＭａｔｃｈｉｎｇＰｌｕｓＣｌｉｎｉｃａｌＨｉｓｔｏｒｙ」と題され、２０１９年２月１２日に出願された米国仮特許出願第６２／８０４，７２４号に開示されているシステムおよび方法に従って適合させることができ、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。例えば、臨床試験は、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｏｆＣｌｉｎｉｃａｌＴｒｉａｌＥｖａｌｕａｔｉｏｎ」と題され、２０１９年５月３１日に出願された米国仮特許出願第６２／８５５，９１３号に開示されているシステムおよび方法に従って適合させることができ、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。

報告書には、結果と多くの標本由来の結果のデータベースとの比較を含み得る。結果と結果のデータベースとを比較するための方法およびシステムの例は、「ＡＭｅｔｈｏｄａｎｄＰｒｏｃｅｓｓｆｏｒＰｒｅｄｉｃｔｉｎｇａｎｄＡｎａｌｙｚｉｎｇＰａｔｉｅｎｔＣｏｈｏｒｔＲｅｓｐｏｎｓｅ，ＰｒｏｇｒｅｓｓｉｏｎａｎｄＳｕｒｖｉｖａｌ」と題され、２０１８年１２月３１日に出願された米国仮特許出願第６２／７８６，７３９号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。情報は、場合によりバイオマーカーを発見したり、または臨床試験を設計したりするために、追加の検体および／または臨床反応の情報に由来する同様の情報と組み合わせて使用され得る。

デジタルおよび実験室のヘルスケアプラットフォームが、プラットフォームに関連して開発されたオルガノイドへの本明細書の実施形態のうちの１つ以上の適用をさらに含む場合、方法およびシステムを使用して、オルガノイドに由来する遺伝子配列決定データをさらに評価して、配列決定されたオルガノイドが第１の細胞型、第２の細胞型、第３の細胞型などを含んでいた範囲についての情報を提供し得る。例えば、報告書は、標本における細胞型の各々についての遺伝的プロファイルを提供し得る。遺伝子プロファイルは、所与の細胞型に存在する遺伝子配列を表し、変異、発現レベル、遺伝子産物に関する情報、または細胞の遺伝子分析に由来し得る他の情報を含み得る。報告書には、デコンボリューションされた情報の一部またはすべてに基づいて照合された療法を含み得る。これらの療法は、オルガノイド、そのオルガノイドの誘導体、および／または類似のオルガノイドで試験され、それらの療法に対するオルガノイドの感受性を決定し得る。例えば、オルガノイドは、「ＴｕｍｏｒＯｒｇａｎｏｉｄＣｕｌｔｕｒｅＣｏｍｐｏｓｉｔｉｏｎｓ，Ｓｙｓｔｅｍｓ，ａｎｄＭｅｔｈｏｄｓ」と題され、２０１９年１１月２２日に出願された米国特許出願第１６／６９３，１１７号、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＰｒｅｄｉｃｔｉｎｇＴｈｅｒａｐｅｕｔｉｃＳｅｎｓｉｔｉｖｉｔｙ」と題され、２０１９年１０月２２日に出願された米国仮特許出願第６２／９２４，６２１号、および「ＬａｒｇｅＳｃａｌｅＰｈｅｎｏｔｙｐｉｃＯｒｇａｎｏｉｄＡｎａｌｙｓｉｓ」と題され、２０１９年１２月５日に出願された米国仮特許出願第６２／９４４，２９２号に開示されたシステムおよび方法に従って培養および試験され得、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。

デジタルおよび実験室のヘルスケアプラットフォームが、一般に医療および研究を対象とする医療機器または実験室開発試験と組み合わせて、またはその一部として、上記の１つ以上の適用をさらに含む場合、そのような実験室開発試験または医療機器の結果は、人工知能の使用を介して、強化させ、個人向け化することができる。実験室開発試験の例、特に人工知能によって強化され得る試験の例は、例えば、「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＡｓｓｉｓｔｅｄＰｒｅｃｉｓｉｏｎＭｅｄｉｃｉｎｅＥｎｈａｎｃｅｍｅｎｔｓｔｏＳｔａｎｄａｒｄｉｚｅｄＬａｂｏｒａｔｏｒｙＤｉａｇｎｏｓｔｉｃＴｅｓｔｉｎｇ」と題され、２０１９年１０月２２日に出願された米国仮特許出願第６２／９２４，５１５号に開示され、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。

上記の例は例示的なものであり、デジタルおよび実験室のヘルスケアプラットフォームと組み合わせた本明細書に記載のシステムおよび方法の使用を制限するものではないことを理解する必要がある。

実施例１－ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ（ＴＣＧＡ）
以下の実施例２および３において示されている分類器の訓練に使用されたデータは、ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ（ＴＣＧＡ）から取得された。簡単に言うと、ＴＣＧＡデータセットは、１１，０００人を超える癌患者についての２ペタバイト超のゲノムデータを含む公開されているデータセットであり、癌患者についての臨床情報、そのような患者から収集された試料についてのメタデータ（例えば、試料部分の重量など）、試料部分由来の組織病理学スライド画像、および試料から得られた分子情報（例えば、ｍＲＮＡ／ｍｉＲＮＡ発現、タンパク質発現、コピー数など）を含む。ＴＣＧＡデータセットは、３３個の異なる癌、乳房（乳管癌、パン小葉癌）中枢神経系（多形性神経膠芽細胞腫、低悪性度神経膠腫）、内分泌（副腎皮質癌、乳頭状甲状腺癌、傍神経節腫および褐色細胞腫）、胃腸（胆管癌、結腸直腸腺癌、食道癌、肝臓細胞癌、膵管腺癌、および胃癌）、婦人科（子宮頸癌、卵巣漿液性嚢胞腺癌、子宮癌肉腫、および子宮体子宮内膜癌）、頭頸部（頭頸部扁平上皮癌、ぶどう膜黒色腫）、血液（急性骨髄性白血病、胸腺腫）、皮膚（皮膚黒色腫）、軟部組織（肉腫）、胸部（肺腺癌、肺扁平上皮癌、および中皮腫）、および泌尿器（嫌色素細胞性腎癌、明細胞腎臓癌、乳頭状腎癌、前立腺腺癌、精巣胚細胞癌、および尿路上皮膀胱癌）に関するデータを含む。

実施例２－ＲＮＡ発現プロファイリング
図３を参照すると、ＨＰＶウイルスの状態を決定するのに有用な遺伝子の発現プロファイルは、頭頸部癌の腫瘍試料から決定された。

図３のブロック３０２に従って、本明細書に記載の生検技術を使用して、頭頸部癌の腫瘍生検を癌患者から得た。生検は、患者から取り出した直後に液体窒素中で瞬間冷凍された。

図３のブロック３０４に従って、腫瘍試料からｍＲＮＡを単離した。簡単に説明すると、試料組織ブロックを液体窒素から取り出し、試料の５ｍｍｘ５ｍｍｘ５ｍｍブロックを取り出し、コールドナイフを使用して解剖した。解剖された試料は、ＴＲＩｚｏｌ試薬（ＣｈｏｍｃｚｙｎｓｋｉａｎｄＳａｃｃｈｉ，１９８７，ＡｎａｌＢｉｏｃｈｅｍ．１６２（１），ｐｐ．１５６－５９、その内容はすべての目的のために参照によりその全体が本明細書に組み込まれる）と混合され、組織ホモジナイザーを使用して、３つの短いサイクル、例えば、６０秒、３０秒、および３０秒によって均質化された。均質化した腫瘍試料にクロロホルムを加え、反応液を混合した。相分離後、反応液の水相を除去し、等量のイソプロパノールと混合して、ＲＮＡを沈殿させた。反応液を遠心分離してＲＮＡをペレット化し、上澄みを除去した。ペレットを冷エタノールで２回洗浄した後、風乾した。次いで、抽出したＲＮＡをＲＮａｓｅフリーの水に再懸濁した。

次いで、図３のブロック３０６を参照して、単離されたＲＮＡ中におけるｍＲＮＡを全エクソーム配列決定によって定量化した。図３のブロック３０８に従って、抽出されたＲＮＡを加熱して二次構造を破壊し、次いでＲＮＡをハイブリダイゼーションバッファー中、室温で変性したＲＮＡを有するオリゴ（ｄＴ）結合ビーズとインキュベートすることによって、磁気オリゴ（ｄＴ）結合ビーズにアニーリングすることによって抽出されたＲＮＡからｍＲＮＡを単離した。ビーズを回収し、ハイブリダイゼーションバッファーで２回洗浄した。次いで、ハイブリダイズしたｍＲＮＡを加熱により溶出し、反応液から回収した。

図３のブロック３１０に従って、ｃＤＮＡライブラリーを単離したｍＲＮＡから構築した。簡単に説明すると、二価カチオンを単離されたｍＲＮＡに添加して、高温で分子を断片化した。断片化されたｍＲＮＡを、担体分子としてグリコーゲンを使用して、ｐＨ５．２のエタノール中で－８０℃でインキュベートすることにより沈殿させた。ｍＲＮＡを遠心分離によりペレット化し、７０％エタノールで洗浄し、風乾した後、ＲＮａｓｅフリー水に再懸濁した。ランダムプライマーおよび逆転写酵素を使用して、第１鎖ＤＮＡ合成を行った。次に、ＲＮａｓｅＨの存在下でＤＮＡポリメラーゼを使用して第２鎖ＤＮＡ合成を行い、二本鎖ｃＤＮＡを形成した。第２鎖の合成によって作成された５’－オーバーハングは、Ｔ４およびＫｌｅｎｏｗＤＮＡポリメラーゼを使用して修復され、平滑末端を形成した。平滑末端ｃＤＮＡの３’末端はＫｌｅｎｏｗＤＮＡポリメラーゼを使用してアデニル化された。Ｔ４ＤＮＡリガーゼを使用してアダプターをアデニル化ｃＤＮＡの末端にライゲーションし、ｃＤＮＡテンプレートを精製してアガロース電気泳動によってサイズを決定した。必要に応じて、精製されたｃＤＮＡテンプレートはＰＣＲ増幅によって濃縮され、それによって最終的なｃＤＮＡライブラリーを形成する。

図３のブロック３１２に従って、ｃＤＮＡライブラリーの全エクソーム配列決定は、ｘＧｅｎＥｘｏｍｅＲｅｓｅａｒｃｈＰａｎｅｌを備えた統合ＤＮＡ技術（ＩＤＴ）ＸＧＥＮ（登録商標）ＬＯＣＫＤＯＷＮ（登録商標）技術を使用して実行された。簡単に説明すると、ｘＧｅｎＥｘｏｍｅＲｅｓｅａｒｃｈＰａｎｅｌは、ヒトゲノムの５１Ｍｂのエンドツーエンドのタイル状プローブスペースをカバーし、エクソーム全体の標的キャプチャを深く均一カバレッジ。ｃＤＮＡライブラリーを、参照ヒトエクソームをカバーするビオチン化ＤＮＡ捕捉プローブにハイブリダイズした。ハイブリダイズしたプローブは、ストレプトアビジンビーズに結合することによって回収された。捕捉された配列を濃縮するために、捕捉後のＰＣＲを実施した。次いで、増幅された産物は、合成ごとの配列決定（ＳＢＳ）技術を使用して配列決定された（Ｂｅｎｔｌｙｅｔａｌ．，２００８，Ｎａｔｕｒｅ４５６（７２１８），ｐｐ．５３－５９、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる）。

次いで、ＲＮＡ配列決定データは、遺伝子長データ、グアニン－シトシン（ＧＣ）含有量データ、および敗血決定の深度データを使用して、少なくとも１つの遺伝子の遺伝子長データを正規化して系統的バイアスを減らし、少なくとも１つの遺伝子のＧＣ含量データを正規化して系統的バイアスを減らし、各試料についての配列決定の深度データを正規化することによって、正規化され、それは米国仮特許出願第６２／７３５，３４９号および米国特許出願第１６／５８１，７０６号に記載のとおりであり、それらの内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。米国仮特許出願第６２／７３５，３４９号および米国特許出願第１６／５８１，７０６号に記載のとおり、ＲＮＡ配列決定データは、遺伝子発現データセットにおける少なくとも１つの遺伝子についての配列データを標準的な遺伝子発現データセットにおける配列データと比較することにより、標準的な遺伝子発現データセットに対しても修正される。次いで、表３で特定された２４個の遺伝子についての正規化および修正されたＲＮＡ発現データ、ならびに患者のＣＤＫＮ２ＡおよびＴＰ５３対立遺伝子の状態を、実施例３において訓練されたＨＰＶ検出分類器に入力して、患者のＨＰＶウイルス状態を決定した。

実施例３－ヒトパピローマウイルスの検出
図４Ａ～４Ｄを参照すると、ＨＰＶウイルスの状態を決定するための分類器は、訓練集団における各対象は頭頸部扁平上皮癌または子宮頸癌を有すると診断された訓練集団の腫瘍ＲＮＡ－ｓｅｑデータ由来の遺伝子発現を使用して訓練された。

図２Ａのブロック２０４に従って、訓練データセットが取得された。ここで、データセットは、実施例１に記載の、ＨＰＶ状態が既知である子宮頸癌または頭頸部癌を有するＴＣＧＡにおける各対象についての対応する複数の存在量値を含んだ。図４Ａに示すように、ＴＣＧＡにおいて、これらの選択基準を満たし、訓練データセットの複数の対象として機能したのは４２７人の対象であった。４２７人の対象のうち、２６３人は頭頸部癌を有し、１６４人は子宮頸癌を有した。頭頸部癌を有した２６３人の対象のうち、３２人がＨＰＶ陽性、２３１人がＨＰＶ陰性であった。子宮頸癌を有した１６４人の対象のうち、１５６人がＨＰＶ陽性であり、８人がＨＰＶ陰性であった。したがって、４２７人の対象のうち、１８８人の対象が第１の癌状態（ＨＰＶに罹患し、頭頸部癌、または子宮頸癌を有する）であると見なされ、残りの２３９人の対象が第２の癌状態（ＨＰＶに罹患していないが、頭頸部癌、または子宮頸癌を有する）であると見なされた。

次に、図２Ｃのブロック２１８および図２Ｄのブロック２２８に従って、４２７人の対象についてのＴＣＧＡデータセットにおける全エクソームＲＮＡデータ由来の遺伝子発現値を使用して、回帰により識別遺伝子セットを特定し、ＴＣＧＡデータセットにおける４２７人の対象についての全エクソームｍＲＮＡ発現データから得られた遺伝子発現値は、独立変数として機能し、それぞれの対象が第１の癌状態（ＨＰＶに罹患し、頭頸部癌、または子宮頸癌を有する）であるか、第２の癌状態（ＨＰＶに罹患していないが、頭頸部癌、または子宮頸癌を有する）であるかどうかの指標は、従属変数として機能した。より具体的には、図２Ｄのブロック２２８に従って、４２７人の対象からなるデータセットを１０個のセットに分割した（１０分割）。各セットは、第１の癌状態に罹患している２つ以上の対象、および第２の癌状態に罹患している２つ以上の対象を含んだ。それぞれのセットの対象についての全エクソームｍＲＮＡ発現データが独立変数として機能し、それぞれのセットにおけるそれぞれの対象が第１または第２の癌状態を有するかどうかの指標が従属変数として機能する回帰に、１０個のセット（分割）の各それぞれのセットを独立して供した。各回帰（分割）は、図２Ｅのブロック２３８に従って、Ｌ１（ＬＡＳＳＯ）正則化を使用して実行された。Ｌ１正則化はスパース係数につながるため、各セットについてゼロでない係数を有する遺伝子のサブセットはごくわずかであった。セットの８０％以上においてゼロでない係数を有する遺伝子のみが最終モデルに含まれた。言い換えれば、１０個のセット（分割）のうち少なくとも８つについてゼロでない回帰係数を有する遺伝子のみが、それらの発現データに基づいて遺伝子の識別セットに認められた。この要件を満たした遺伝子のリストは、図４Ｂに記載されているものであり、特徴型は「遺伝子発現」である。さらに、図６Ａは、訓練セットにわたって図４Ｂに記載の遺伝子の存在量値の主成分分析を示す。図６Ａは、訓練セットにおける対象の各々についての第１および第２のＰＣＡ値のプロットが、第１の癌状態（グループ６０２）および第２の癌状態（６０４）に対応する、２つの区別できるグループに分かれることを示しており、第１の癌状態および第２の癌状態を識別する図４Ｂに記載の遺伝子の存在量値の力を示している。

いくつかの実施形態において、追加の遺伝子を、追加の遺伝子における変異の存在または非存在（例えば、変異の数）に基づいて識別遺伝子のセットに含めた。この実施例において、図４Ｂに詳細が示されているように、遺伝子ＣＤＫＮ２ＡおよびＴＰ５３が識別遺伝子セットに含まれ、これらの遺伝子についての特徴は、訓練セットのそれぞれの４２７人の対象の各々においてこれらの遺伝子に変異が観察された回数であった。

次に、図２Ｅのブロック２４２に従って、４２７個の対象にわたる識別遺伝子セットについてのそれぞれの存在量値および癌状態のそれぞれの指標を使用して、識別遺伝子セットのそれぞれの存在量の値の関数として第１および第２の癌状態を識別するように分類器を訓練した。第１のモデルにおいて、使用された分類器は、Ｌ１正則化を有するロジスティック回帰分類器であり、訓練は４２７人の対象に対してであったが、特徴が「遺伝子発現」である図４Ｂに記載の遺伝子についてのＴＣＧＡ遺伝子存在量レベルのみを使用した。第２のモデルにおいて、使用された分類器は、Ｌ１正規化を有するロジスティック回帰分類器であり、訓練は、４２７人の対象に対してであり、特徴が「遺伝子発現」である図４Ｂに記載の遺伝子についてのＴＣＧＡ遺伝子存在量レベル、および特徴が「変異の数」である図４Ｂの２つの遺伝子についてのＴＣＧＡ変異カウントを使用した。第３のモデルにおいて、使用された分類器は、参照により本明細書に組み込まれる、Ｐｅｄｒｅｇｏｓａｅｔａｌ．２０１１，“ＭａｃｈｉｎｅＬｅａｒｎｉｎｇｉｎＰｙｔｈｏｎ，”ＪＭＬＲ１２，ｐｐ．２８２５－２８３０に開示されているように、Ｓｃｉｋｉｔ－ｌｅａｒｎからのサポートベクトルマシン（ＳＶＭ）分類器であり、訓練は、４２７人の対象に対してであったが、特徴が「遺伝子発現」である図４Ｂに記載の遺伝子についてのＴＣＧＡ遺伝子存在量レベルのみを使用した。子宮頸癌または頭頸部癌および既知のＨＰＶステータスを有する１３３人の対象のコホート由来のデータに対して検証された場合、分類器は９２．５％の特異度および８９．７％の感度で実行した。

第４のモデルにおいて、使用された分類器はこれと同じＳＶＭ分類器であり、訓練は、４２７人の対象に対してであり、特徴が「遺伝子発現」である図４Ｂに記載の遺伝子についてのＴＣＧＡ遺伝子存在量レベル、および特徴が「変異の数」である図４Ｂの２つの遺伝子についてのＴＣＧＡ変異カウントを使用した。この訓練された分類器の性能は、図４Ｃに報告されている。モデルにおいて使用された特徴の各々についての回帰係数および相関統計を、それぞれ表５と表６に示す。使用されたＳＶＭパラメーターは、クラスの重み：なし、決定関数の形状：ｏｖｏ、ガンマ：スケール、カーネル：線形、確率：真、縮小：偽、およびｔｏｌ：１であった。図４Ｃに示すように、訓練されたＳＶＭは、４２７人の対象の癌の型を予測する。つまり、対象が第１の癌の型（ＨＰＶに罹患し、頭頸部癌、または子宮頸癌を有する）であるか、第２の癌の型（ＨＰＶに罹患していないが、頭頸部癌、または子宮頸癌を有する）であるかであり、４２７人の対象の訓練セットについて９９％の特異度および９９％の感度を有する。次に、分類器は、子宮頸癌または頭頸部癌および既知のＨＰＶ状態を有する１３３人の対象のコホート由来のデータに対して検証された。分類器は、１３３人の検証対象のうち１２２人のＨＰＶ感染状態を正しく特定し、特異度は９５％、感度は８７．５％であった。

モデルを検証するために、図４Ｃにおいて報告された訓練されたＳＶＭ分類器を、分類器の訓練に使用されていない検証集団に対して試験した。図４Ａに詳述されるように、検証データセットは、既知のＨＰＶ状態を有する子宮頸癌または頭頸部癌を有する、実施例２に記載の「試験」データセットと呼ばれるデータセットにおける各対象についての対応する複数の存在量値を含んだ。図４Ａに示すように、検証データセットから、これらの選択基準を満たし、検証データセットの複数の対象として機能する１３３人の対象が選択された。１３３人の検証対象のうち、９３人が頭頸部癌を有し、４０人が子宮頸癌を有した。頭頸部癌を有した９３人の対象のうち、２８人がＨＰＶ陽性、６５人がＨＰＶ陰性であった。子宮頸癌を有した４０人の対象のうち、２８人がＨＰＶ陽性であり、１２人がＨＰＶ陰性であった。したがって、１３３人の検証対象のうち、５６人の検証対象が第１の癌状態（ＨＰＶに罹患し、頭頸部癌または子宮頸癌を有する）を有と見なされ、残りの７７人の検証対象が第２の癌状態（ＨＰＶに罹患していないが、頭頸部癌、または子宮頸癌を有する）と見なされた。

１３３人の検証対象の各々は、訓練されたＳＶＭに対して実行され、その性能は図４Ｃに報告されており、ＳＶＭによって第１または第２の癌クラスのいずれかに割り当てられた。つまり、特徴型が「遺伝子発現」である図４Ｂに記載の遺伝子についての遺伝子存在量値、および特徴型が「変異の数」である図４Ｂに記載の２つの遺伝子について変異カウントを、１３３人の検証対象の各々についての腫瘍試料から測定し、各検証対象についてのこのデータは、図５Ｃの訓練されたＳＶＭモデルに個別に入力された。図４Ｄに示すように、訓練されたＳＶＭは、１３３人の検証対象にわたって癌クラスについて９５％の特異度と８８％の感度を有した。遺伝子ＴＰ５３およびＣＤＫＮ２Ａの変異の数の共変量をＳＶＭへ追加すると、精度は変わらないが、ＡＵＣが０．９７から０．９８に向上することがわかった。本実施例は、訓練されたＳＶＭモデルがＲＮＡ発現データを使用して腫瘍におけるウイルス感染を正確に予測することを示している。

本実施例は、ウイルス感染が概して免疫応答の上方制御に関連していることを確認している。本実施例はさらに、全トランスクリプトームデータに基づくウイルス検出がそれ自体で有用な臨床ツールであり、既存の診断方法と組み合わせて、単一の試験においてウイルスの状態および腫瘍の微小環境についての洞察を提供できることを示している。

実施例４－エプスタインバーウイルスの検出
図５Ａ～５Ｄを参照して、ＥＢＶウイルス状態を決定するための分類器は、訓練集団における各対象が胃癌を有すると診断された訓練集団の腫瘍ＲＮＡ－ｓｅｑデータ由来の遺伝子発現を使用して訓練された。

図２Ａのブロック２０４に従って、訓練データセットが取得された。ここで、データセットは、実施例１に記載の、ＥＢＶ状態が既知である胃癌を有するＴＣＧＡにおける各対象についての対応する複数の存在量値を含んだ。図５Ａに示すように、ＴＣＧＡにおいて、これらの選択基準を満たし、訓練データセットの複数の対象として機能したのは２１２人の対象であった。２１２人の対象のうち、２１人がＥＢＶ陽性であり、１９１人がＥＢＶ陰性であった。したがって、２１２人の対象のうち、２１人の対象が第１の癌状態（ＥＢＶに罹患し、胃癌を有する）であると見なされ、残りの１９１人の対象が第２の癌状態（ＥＢＶに罹患していないが、胃癌を有する）であると見なされた。

次に、図２Ｃのブロック２１８および図２Ｄのブロック２２８に従って、２１２人の対象についてのＴＣＧＡデータセットにおける全エクソームＲＮＡデータ由来の遺伝子発現値を使用して、回帰により識別遺伝子セットを特定し、ＴＣＧＡデータセットにおける２１２人の対象についての全エクソームｍＲＮＡ発現データから得られた遺伝子発現値は、独立変数として機能し、それぞれの対象が第１の癌状態（ＥＢＶに罹患し、胃癌を有する）であるか、第２の癌状態（ＥＢＶに罹患していないが、胃癌を有する）であるかどうかの指標は、従属変数として機能した。より具体的には、図２Ｄのブロック２２８に従って、２１２人の対象からなるデータセットを１０個のセットに分割した（１０分割）。各セットは、第１の癌状態に罹患している２つ以上の対象、および第２の癌状態に罹患している２つ以上の対象を含んだ。それぞれのセットの対象についての全エクソームｍＲＮＡ発現データが独立変数として機能し、それぞれのセットにおけるそれぞれの対象が第１または第２の癌状態を有するかどうかの指標が従属変数として機能する回帰に、１０個のセット（分割）の各それぞれのセットを独立して供した。各回帰（分割）は、図２Ｅのブロック２３８に従って、Ｌ１（ＬＡＳＳＯ）正則化を使用して実行された。Ｌ１正則化はスパース係数につながるため、各セットについてゼロでない係数を有する遺伝子のサブセットはごくわずかであった。セットの８０％以上においてゼロでない係数を有する遺伝子のみが最終モデルに含まれた。言い換えれば、１０個のセット（分割）のうち少なくとも８つについてゼロでない回帰係数を有する遺伝子のみが、それらの発現データに基づいて遺伝子の識別セットに認められた。この要件を満たした遺伝子のリストは、図５Ｂに記載されているものであり、特徴型は「遺伝子発現」である。さらに、図６Ｂは、訓練セットにわたって図５Ｂに記載の遺伝子の存在量値の主成分分析を示す。図６Ｂは、訓練セットにおける対象の各々についての第１および第２のＰＣＡ値のプロットが、第１の癌状態（グループ６０６）および第２の癌状態（６０６）に対応する、２つの区別できるグループに分かれることを示しており、第１の癌状態および第２の癌状態を識別する図５Ｂに記載の遺伝子の存在量値の力を示している。

いくつかの実施形態において、追加の遺伝子を、追加の遺伝子における変異の存在または非存在（例えば、変異の数）に基づいて識別遺伝子のセットに含めた。この実施例において、図５Ｂに詳細が示されているように、遺伝子ＰＩＫ３ＣＡおよびＴＰ５３が識別遺伝子セットに含まれ、これらの遺伝子についての特徴は、訓練セットのそれぞれの２１２人の対象の各々においてこれらの遺伝子に変異が観察された回数であった。

次に、図２Ｅのブロック２４２に従って、２１２個の対象にわたる識別遺伝子セットについてのそれぞれの存在量値および癌状態のそれぞれの指標を使用して、識別遺伝子セットのそれぞれの存在量の値の関数として第１および第２の癌状態を識別するように分類器を訓練した。第１のモデルにおいて、使用された分類器は、Ｌ１正則化を伴うロジスティック回帰分類器であり、訓練は２１２人の対象に対してであったが、特徴が「遺伝子発現」である図５Ｂに記載の遺伝子についてのＴＣＧＡ遺伝子存在量レベルのみを使用した。第２のモデルにおいて、使用された分類器は、Ｌ１正規化を有するロジスティック回帰分類器であり、訓練は、２１２人の対象に対してであり、特徴が「遺伝子発現」である図５Ｂに記載の遺伝子についてのＴＣＧＡ遺伝子存在量レベル、および特徴が「変異の数」である図５Ｂの２つの遺伝子についてのＴＣＧＡ変異カウントを使用した。第３のモデルにおいて、使用された分類器は、参照により本明細書に組み込まれる、Ｐｅｄｒｅｇｏｓａｅｔａｌ．２０１１，“ＭａｃｈｉｎｅＬｅａｒｎｉｎｇｉｎＰｙｔｈｏｎ，”ＪＭＬＲ１２，ｐｐ．２８２５－２８３０に開示されているように、Ｓｃｉｋｉｔ－ｌｅａｒｎからのサポートベクトルマシン（ＳＶＭ）分類器であり、訓練は、２１２人の対象に対してであったが、特徴が「遺伝子発現」である図５Ｂに記載の遺伝子についてのＴＣＧＡ遺伝子存在量レベルのみを使用した。胃癌および既知のＥＢＶステータスを有する５５人の対象のコホート由来のデータに対して検証された場合、分類器は、１００％の特異度および７５％の感度で、５４人または５５人の検証対象のＥＢＶ状態を正確に特定した。

第４のモデルにおいて、使用された分類器はこれと同じＳＶＭ分類器であり、訓練は、２１２人の対象に対してであり、特徴が「遺伝子発現」である図４Ｂに記載の遺伝子についてのＴＣＧＡ遺伝子存在量レベル、および特徴が「変異の数」である図４Ｂの２つの遺伝子についてのＴＣＧＡ変異カウントを使用した。この訓練された分類器の性能は、図５Ｃに報告されている。モデルにおいて使用された特徴の各々についての回帰係数および相関統計を、それぞれ表７と表８に示す。使用されたＳＶＭパラメーターは、クラスの重み：なし、決定関数の形状：ｏｖｏ、ガンマ：スケール、カーネル：線形、確率：真、縮小：偽、およびｔｏｌ：１であった。図５Ｃに示すように、訓練されたＳＶＭは、２１２人の対象の癌の型を予測する。つまり、対象が第１の癌の型（ＥＢＶに罹患し、胃癌を有する）であるか、第２の癌の型（ＥＢＶに罹患していないが、胃癌を有する）であるかであり、２１２人の対象の訓練セットについて９９％の特異度および９５％の感度を有する。次いで、分類器は、胃癌および既知のＥＢＶ状態を有する５５人の対象のコホート由来のデータに対して検証された。分類器は、５５人の検証対象のうち５４人のＥＢＶ感染状態を正しく特定し、特異度は１００％、感度は７５％であった。

モデルを検証するために、図５Ｃにおいて報告された訓練されたＳＶＭ分類器を、分類器の訓練に使用されていない検証集団に対してテストした。図５Ａに詳述されるように、検証データセットは、既知のＥＢＶ状態を有する胃癌を有する、実施例２に記載の「試験」データセットと呼ばれるデータセットにおける各対象についての対応する複数の存在量値を含んだ。図５Ａに示すように、これらの選択基準を満たし、検証データセットの複数の対象として機能する５５人の対象が、検証データセットから選択された。５５人の検証対象者のうち、４人がＥＢＶ陽性であり、５１人がＥＢＶ陰性であった。したがって、５５人の検証対象のうち、４人の検証対象が第１の癌状態（ＥＢＶに罹患し、胃癌を有する）を有と見なされ、残りの５１人の検証対象が第２の癌状態（ＥＢＶに罹患していないが、胃癌を有する）と見なされた。

５５人の検証対象の各々は、訓練されたＳＶＭに対して実行され、その性能は図５Ｃに報告されており、ＳＶＭによって第１または第２の癌クラスのいずれかに割り当てられた。つまり、特徴型が「遺伝子発現」である図５Ｂに記載の遺伝子についての遺伝子存在量値、および特徴型が「変異の数」である図５Ｂに記載の２つの遺伝子について変異カウントを、５５人の検証対象の各々についての腫瘍試料から測定し、検証対象についてのこのデータは、図５Ｃの訓練されたＳＶＭモデルに個別に入力された。図５Ｄに示すように、訓練されたＳＶＭは、５５人の検証対象にわたってそのようなデータを使用して癌クラスについて７５％の特異度と１００％の感度を有した。本実施例は、訓練されたＳＶＭモデルがＲＮＡ発現データを使用して腫瘍におけるウイルス感染を正確に予測することを示している。本実施例は、ウイルス感染が概して免疫応答の上方制御に関連していることを確認している。本実施例はさらに、全トランスクリプトームデータに基づくウイルス検出がそれ自体で有用な臨床ツールであり、既存の診断方法と組み合わせて、単一の試験においてウイルスの状態および腫瘍の微小環境についての洞察を提供できることを示している。

実施例５－正規化されたＲＮＡカウントデータの取得
本実施例において、患者試料をＲＮＡ全エクソームショートリード次世代配列決定（ＮＧＳ）で処理してＲＮＡ配列決定データを生成し、ＲＮＡ配列決定データをバイオインフォマティクスパイプラインで処理して各患者試料のＲＮＡ－ｓｅｑ発現プロファイルを生成した。具体的には、固形腫瘍の全核酸（ＤＮＡおよびＲＮＡ）を、マクロ解剖したＦＦＰＥ組織切片から抽出し、プロテイナーゼＫで消化してタンパク質を除去した。ＴＵＲＢＯＤＮａｓｅ－Ｉにより全核酸からＲＮＡを精製してＤＮＡを除去した後、ＲＮＡｃｌｅａｎＸＰビーズを使用して反応液を洗浄して酵素タンパク質を除去した。単離されたＲＮＡを、ＲｉｂｏＧｒｅｅｎ蛍光色素を使用した品質管理プロトコルに供し、ＲＮＡ分子の濃度を決定した。

ライブラリーの調製は、ＫＡＰＡＨｙｐｅｒＰｒｅｐＫｉｔを使用して行い、マグネシウムの存在下で１００ｎｇのＲＮＡを２００ｂｐの平均サイズに熱断片化した。次いで、ライブラリーをｃＤＮＡに逆転写し、ＲｏｃｈｅＳｅｑＣａｐデュアルエンドアダプターをｃＤＮＡにライゲーションした。次いで、ｃＤＮＡライブラリーを精製し、ＫＡＰＡＨｙｐｅｒＢｅａｄｓを使用してサイズ選択を行った。次いで、ライブラリーを１０サイクルでＰＣＲ増幅し、ＡｘｙｇｅｎＭＡＧＰＣＲクリーンアップビーズを使用して精製した。品質管理は、ｃＤＮＡライブラリー濃度を決定するためにＰｉｃｏＧｒｅｅｎ蛍光キットを使用して実行された。次いで、ｃＤＮＡライブラリーを６プレックスハイブリダイゼーション反応にプールした。各プールを、ヒトＣＯＴ－１およびＩＤＴｘＧｅｎＵｎｉｖｅｒｓａｌＢｌｏｃｋｅｒｓで処理し、真空乾燥した。次いで、ＲＮＡプールをＩＤＴｘＧｅｎＬｏｃｋｄｏｗｎハイブリダイゼーション混合物に再懸濁し、ＩＤＴｘＧｅｎＥｘｏｍｅＲｅｓｅａｒｃｈＰａｎｅｌｖ１．０プローブを各プールに添加した。プールをインキュベートして、プローブをハイブリダイズさせた。次いで、プールをストレプトアビジンでコーティングされたビーズと混合して、ｃＤＮＡのハイブリダイズした分子を捕捉した。ＫＡＰＡＨｉＦｉＬｉｂｒａｒｙＡｍｐｌｉｆｉｃａｔｉｏｎキットおよびＡｘｙｇｅｎＭＡＧＰＣＲクリーンアップビーズをそれぞれ使用して、プールをもう一度増幅および精製した。ＰｉｃｏＧｒｅｅｎプールの定量化およびＬａｂＣｈｉｐＧＸＴｏｕｃｈを含む最終的な品質管理ステップを実行して、プール断片のサイズを評価した。プールは、ＩｌｌｕｍｉｎａＣ－Ｂｏｔ２でＰｈｉＸスパイクを備えたＩｌｌｕｍｉｎａＰａｉｒｅｄ－ｅｎｄＣｌｕｓｔｅｒＫｉｔｓを使用してクラスター増幅され、増幅された標的捕捉ｃＤＮＡライブラリーを含む結果として得られるフローセルは、ＩｌｌｕｍｉｎａＨｉＳｅｑ４０００で５００ｘの平均固有のオンターゲット深度まで配列決定され、ＦＡＳＴＱファイルを生成した。

本実施例において、ｃＤＮＡライブラリー調製は、液体処理ロボット（ＳｃｉＣｌｏｎｅＮＧＳｘ）を使用して自動システムで実行された。

各ＦＡＳＴＱファイルには、Ｉｌｌｕｍｉｎａ配列決定装置によって生成されたペアエンドリードのリストが含まれており、その各々が品質評価に関連付けられていた。各ＦＡＳＴＱファイルにおけるリードは、バイオインフォマティクスパイプラインによって処理された。ＦＡＳＴＱファイルは、品質管理およびリードの迅速な評価のためにＦＡＳＴＱＣを使用して分析された。各ＦＡＳＴＱファイルについて、ファイルにおける各リードは、ｋａｌｌｉｓｔｏアラインメントソフトウェアを使用して参照ゲノム（ＧＲｃｈ３７）にアラインメントされた。このアラインメントによりＳＡＭファイルが生成され、各ＳＡＭファイルがＢＡＭに変換され、ＢＡＭファイルがソートされ、重複が削除対象としてマークされた。

各遺伝子について、所与の遺伝子についての生のＲＮＡリードカウントは、各リードについて、リードが遺伝子にアラインメントする確率の合計として、ｋａｌｌｉｓｔｏアラインメントソフトウェアによって計算された。したがって、この例において、生のカウントは、整数ではない。生のリードカウントは、各患者について表形式のファイルに保存され、列は遺伝子を表し、各エントリはその遺伝子についての生のＲＮＡリードカウントを表した。

次いで、生のＲＮＡリードカウントを正規化して、完全な分位正規化を使用してＧＣ含有量および遺伝子長を補正し、サイズファクター法を介して配列決定深度を調整した。正規化されたＲＮＡリードカウントは、各患者について表形式のファイルに保存され、列は遺伝子を表し、各エントリはその遺伝子についての生のＲＮＡリードカウントを表す。

引用されたおよび代替の実施形態
本明細書に引用されるすべての参考文献は、あたかも各個々の刊行物または特許または特許出願がすべての目的のためにその全体が参照により組み込まれるように、具体的かつ個別に示されるのと同程度に、それらの全体がすべての目的のために本明細書に参照により組み込まれる。

本発明は、非一時的コンピュータ可読記憶媒体に埋め込まれたコンピュータプログラム機構を含むコンピュータプログラム製品として実装することができる。例えば、コンピュータプログラム製品は、図１Ａ、１Ｂの任意の組み合わせで示される、および／または図２Ａ、２Ｂ、２Ｃ、２Ｄ、２Ｅ、および３で説明されるように、プログラムモジュールを含むことができる。これらのプログラムモジュールは、ＣＤ－ＲＯＭ、ＤＶＤ、磁気ディスク記憶製品、ＵＳＢキー、または他の任意の非一時的コンピュータ可読データまたはプログラム記憶製品に記憶することができる。

当業者には明らかであろうように、本出願の趣旨および範囲から逸脱することなく、本出願の多くの修正および変形をなすことができる。本明細書に記載の特定の実施形態は、例としてのみ提供されている。実施形態は、本発明の原理およびその実際の使用を最良に説明するために選択および説明され、それによって当業者が本発明および考えられる特定の用途に適した様々な変更を伴う様々な実施形態を最良に利用することができるようにする。本発明は、そのような特許請求の範囲が権利を有する等価物の全範囲とともに、添付の特許請求の範囲の用語によってのみ限定されるべきである。

Claims

第１の癌状態および第２の癌状態を識別するように分類器を訓練するための方法であって、前記第１の癌状態は、第１の発癌性病原体による感染に関連し、前記第２の癌状態は、発癌性病原体を含まない状態に関連し、前記方法は、以下を含み、
少なくとも１つのプロセッサ、および前記少なくとも１つのプロセッサによる実行のための少なくとも１つのプログラムを格納するメモリを備えるコンピュータシステムで、前記少なくとも１つのプログラムが、
（Ａ）ある種の複数の対象における各それぞれの対象について、（ｉ）対応する複数の存在量値であって、前記対応する複数の存在量値における各それぞれの存在量値は、前記それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、対応する複数の存在量値と、（ｉｉ）前記それぞれの対象の癌状態の指標であって、前記それぞれの対象が前記第１の癌状態、または前記第２の癌状態を有するかどうかを特定する、癌状態の指標と、を含み、前記複数の対象は、前記第１の癌状態に罹患している第１の対象のサブセットおよび前記第２の状態に罹患している第２の対象のサブセットを含む、データセットを取得することと、
（Ｂ）前記複数の対象におけるそれぞれの対象の前記対応する複数の存在量値および前記癌状態のそれぞれの指標を使用して識別遺伝子セットを特定することであって、前記識別遺伝子セットは、前記複数の遺伝子のサブセットを含む、特定することと、
（Ｃ）前記複数の対象にわたる前記識別遺伝子セットについての前記それぞれの存在量値および癌状態の前記それぞれの指標を使用して、前記識別遺伝子セットについてのそれぞれの存在量値の関数として、前記第１の癌状態および前記第２の癌状態を識別するように分類器を訓練することと、を行うための命令を含む、方法。
前記対応する複数の存在量値が、ＲＮＡ－ｓｅｑによって取得される、請求項１に記載の方法。
前記複数の対象における各対象が、第１の型の癌に罹患しており、前記第１の型の癌が、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、頭頸部癌、卵巣癌、肝胆道癌、子宮頸癌、甲状腺癌、または膀胱癌のうちの１つである、請求項１または２に記載の方法。
前記複数の対象における各対象が、第１の型の癌の第１の病期に罹患しており、
前記第１の型の癌が、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、頭頸部癌、卵巣癌、肝胆道癌、子宮頸癌、甲状腺癌、または膀胱癌のうちの１つであり、
前記癌の第１の病期が、Ｉ期、ＩＩ期、ＩＩＩ期、またはＩＶ期である、請求項１または２に記載の方法。
前記複数の対象が、１００人の対象を含み、
前記第１の対象のサブセットが、２０人の対象を含み、
前記第２の対象のサブセットが、２０人の対象を含む、請求項１～４のいずれか一項に記載の方法。
前記複数の対象が、１０００人の対象を含み、
前記第１の対象のサブセットが、１００人の対象を含み、
前記第２の対象のサブセットが、１００人の対象を含む、請求項１～４のいずれか一項に記載の方法。
前記種が、ヒトであり、
前記複数の遺伝子が、１００００個の遺伝子を含み、
前記識別遺伝子セットが、５～４０個の遺伝子からなる、請求項１～６のいずれか一項に記載の方法。
前記種が、ヒトであり、
前記複数の遺伝子が、５０００個の遺伝子を含み、
前記識別遺伝子セットが、５～２５個の遺伝子からなる、請求項１～６のいずれか一項に記載の方法。
前記識別遺伝子セットが、前記複数の遺伝子の少なくとも４分の１の遺伝子からなる、請求項１に記載の方法。
前記識別遺伝子セットの前記特定が、
回帰アルゴリズムを使用して、前記複数の対象にわたる癌状態の前記それぞれの指標に対する前記複数の対象にわたる前記複数の存在量値のすべてまたはサブセットに基づいて前記データセットを回帰し、それにより、複数の回帰係数において、対応する回帰係数を、前記複数の遺伝子における各それぞれの遺伝子に対して割り当てることと、
係数閾値を満たす前記回帰アルゴリズムによって係数が割り当てられた前記識別遺伝子セットについて、前記複数の遺伝子においてそれらの遺伝子を選択することと、を含む、請求項１～９のいずれか一項に記載の方法。
前記識別遺伝子セットの前記特定が、
前記データセットを複数のセットに分割することであって、前記複数のセットにおける各セットが、前記第１の癌状態に罹患している２人以上の対象、および前記第２の状態に罹患している２人以上の対象を含む、分割することと、
回帰アルゴリズムを使用して、前記それぞれのセットの前記対象にわたる癌状態の前記それぞれの指標に対する前記それぞれのセットの前記対象にわたる前記複数の存在量値のすべてまたはサブセットに基づいて、前記複数のセットにおける各それぞれのセットを独立して回帰し、それにより、複数の回帰係数における、対応する回帰係数を、前記複数の遺伝子における各それぞれの遺伝子に対して割り当てることと、
前記複数のセットの少なくとも閾値パーセンテージについての係数閾値を満たす前記回帰アルゴリズムによって係数が割り当てられた前記識別遺伝子セットについて、前記複数の遺伝子においてそれらの遺伝子を選択することと、を含む、請求項１～９のいずれか一項に記載の方法。
前記複数のセットが、５～５０個のセットからなる、請求項１１に記載の方法。
前記複数のセットが、１０個のセットからなる、請求項１１に記載の方法。
前記係数閾値が、ゼロである、請求項１０または１１に記載の方法。
前記対応する回帰係数の絶対値がゼロより大きいときに、前記係数閾値が満たされる、請求項１０または１１に記載の方法。
前記回帰アルゴリズムが、ロジスティック回帰である、請求項１０または１１に記載の方法。
前記ロジスティック回帰が、

、
を仮定し、式中、
ｘ_ｉ＝（ｘ_ｉ１、ｘ_ｉ２、…、ｘ_ｉｋ）は、ｉ番目の対応する対象の前記腫瘍試料由来の前記複数の遺伝子についての前記対応する複数の存在量値であり、
Ｙ∈｛０、１｝は、前記対応する対象ｉが前記第１の癌状態を有する場合に値「１」を有し、前記対応する対象ｉが前記第２の癌状態を有する場合に値「０」を有するクラスラベルであり、Ｐ（Ｙ＝１｜ｘ_ｉ）は、前記ｉ番目の対応する対象が第１の癌クラスのメンバーである推定確率であり、
β_０は、切片であり、
β_ｊ＝（ｊ＝１、．．．ｋ）は、前記複数の回帰係数であり、前記複数の回帰係数における各それぞれの回帰係数は、前記複数の遺伝子における対応する遺伝子に対するものであり、
前記ｉ番目の対応する対象は、Ｐ（Ｙ＝１｜ｘ_ｉ）が事前定義された閾値を超える場合、前記第１の癌クラスに割り当てられ、それ以外の場合は第２の癌クラスに割り当てられる、請求項１６に記載の方法。
前記事前定義された閾値が、０．５である、請求項１７に記載の方法。
前記ロジスティック回帰が、β_ｊが以下の制約を受けたロジスティック最小絶対収縮および選択演算子（ＬＡＳＳＯ）回帰であり、
最小

式中、

であり、
λは、定数である、請求項１７または１８に記載の方法。
前記回帰アルゴリズムが、Ｌ１またはＬ２正則化を伴うロジスティック回帰である、請求項１０または１１に記載の方法。
前記種が、ヒトである、請求項１～２０のいずれか一項に記載の方法。
前記分類器が、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである、請求項１～２１のいずれか一項に記載の方法。
前記少なくとも１つのプログラムが、
（Ｄ）前記使用（Ｃ）の後、前記分類器を使用して、試験の複数の存在量値を前記分類器に入力することによって、前記第１の癌または前記第２の状態に試験対象を分類するための命令をさらに含み、前記試験の複数の存在量値における各それぞれの存在量値が、前記試験対象の腫瘍試料における、前記複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、請求項１～２２のいずれか一項に記載の方法。
（Ｅ）前記試験対象が、前記第１の癌状態または前記第２の癌状態を有するという決定に基づいて、前記試験対象の治療的介入または画像化を提供すること、をさらに含む、請求項２３に記載の方法。
前記少なくとも１つのプログラムが、
（Ｄ）前記使用（Ｃ）の後、前記分類器を使用して、試験の複数の存在量値を前記分類器に入力することによって、試験対象が前記第１の癌状態を有する尤度または前記試験対象が前記第２の癌状態を有する尤度を決定するための命令をさらに含み、前記試験の複数の存在量値における各それぞれの存在量値が、前記試験対象の腫瘍試料における、前記複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、請求項１～２２のいずれか一項に記載の方法。
（Ｅ）前記試験対象が、前記第１の癌状態または前記第２の癌状態を有する前記尤度に基づいて、前記試験対象の治療的介入または画像化を提供すること、をさらに含む、請求項２５に記載の方法。
前記第１の発癌性病原体が、発癌性ウイルスである、請求項１に記載の方法。
前記第１の発癌性病原体が、表１に記載の発癌性ウイルスである、請求項１に記載の方法。
前記第１の発癌性病原体が、発癌性細菌である、請求項１に記載の方法。
前記第１の発癌性病原体が、表１に記載の発癌性細菌である、請求項１に記載の方法。
前記第１の発癌性病原体が、発癌性吸虫である、請求項１に記載の方法。
前記第１の発癌性病原体が、表１に記載の発癌性吸虫である、請求項１に記載の方法。
前記分類器が、前記試験の複数の存在量値に加えて前記試験対象の１つ以上の追加の特徴をさらに使用して、前記対象を分類する、請求項２５に記載の方法。
前記１つ以上の追加の特徴が、前記試験対象の前記試験試料における所定の遺伝子の変異の量を含む、請求項３１に記載の方法。
前記１つ以上の追加の特徴が、前記試験対象の前記試験試料における複数の所定の遺伝子における各所定の遺伝子の変異の量を含む、請求項３１に記載の方法。
ヒト対象における第１の癌状態および第２の癌状態を識別するための方法であって、前記第１の癌状態は、ヒトパピローマウイルス（ＨＰＶ）発癌性ウイルスによる感染に関連し、前記第２の癌状態は、ＨＰＶを含まない状態に関連し、前記方法は、
前記ヒト対象の腫瘍試料から、表３に記載の少なくとも５つの遺伝子についての存在量データを取得することと、
少なくとも部分的に、表３に記載の前記少なくとも５つの遺伝子の前記存在量に基づいて、前記第１の癌状態および前記第２の癌状態を識別するように訓練された分類器に前記存在量データを入力することと、を含む、方法。
前記分類器が、請求項１～２５に記載の方法のうちのいずれかに従って訓練される、請求項３４に記載の方法。
ヒト対象における第１の癌状態および第２の癌状態を識別するための複数の核酸プローブであって、前記第１の癌状態は、ヒトパピローマウイルス（ＨＰＶ）発癌性ウイルスによる感染に関連し、前記第２の癌状態は、ＨＰＶを含まない状態に関連し、
前記複数の核酸プローブは、少なくとも５つの核酸プローブを含み、
前記少なくとも５つの核酸プローブの各々は、表３に記載の遺伝子から選択される異なるそれぞれの遺伝子のＲＮＡ転写産物の少なくとも１０個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む、複数の核酸プローブ。
少なくとも１０個の核酸プローブを含み、前記少なくとも１０個の核酸プローブの各々が、表３に記載の遺伝子から選択される異なるそれぞれの遺伝子のＲＮＡ転写産物の少なくとも１０個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む、請求項３６に記載の複数の核酸プローブ。
少なくとも２０個の核酸プローブを含み、前記少なくとも２０個の核酸プローブの各々が、表３に記載の遺伝子から選択される異なるそれぞれの遺伝子のＲＮＡ転写産物の少なくとも１０個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む、請求項３６に記載の複数の核酸プローブ。
少なくとも２４個の核酸プローブを含み、前記少なくとも２０個の核酸プローブの各々が、表３に記載の遺伝子から選択される異なるそれぞれの遺伝子のＲＮＡ転写産物の少なくとも１０個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む、請求項３６に記載の複数の核酸プローブ。
表３に記載されていない遺伝子のＲＮＡ転写産物の少なくとも１０個の連続する塩基と同一または相補的である核酸配列を含む少なくとも１つの核酸プローブをさらに含む、請求項３６～３９のいずれか一項に記載の複数の核酸プローブ。
前記複数のプローブにおける各プローブが、５’ビオチン修飾オリゴヌクレオチドを含む、請求項３６～４０のいずれか一項に記載の複数の核酸プローブ。
ヒト対象における第１の癌状態および第２の癌状態を識別するための方法であって、前記第１の癌状態は、エプスタインバーウイルス（ＥＢＶ）発癌性ウイルスによる感染に関連し、前記第２の癌状態は、ＨＰＶを含まない状態に関連し、前記方法は、
前記ヒト対象の腫瘍試料から、表４に記載の少なくとも５つの遺伝子についての存在量データを取得することと、
少なくとも部分的に、表４に記載の前記少なくとも５個の遺伝子の前記存在量に基づいて、前記第１の癌状態および前記第２の癌状態を識別するように訓練された分類器に前記存在量データを入力することと、を含む、方法。
前記分類器が、請求項１～２５に記載の方法のうちのいずれかに従って訓練される、請求項４２に記載の方法。
ヒト対象における第１の癌状態および第２の癌状態を識別するための複数の核酸プローブであって、前記第１の癌状態は、エプスタインバーウイルス（ＥＢＶ）発癌性ウイルスによる感染に関連し、前記第２の癌状態は、ＥＢＶを含まない状態に関連し、
前記複数の核酸プローブは、少なくとも５つの核酸プローブを含み、
前記少なくとも５つの核酸プローブの各々は、表４に記載の遺伝子から選択される異なるそれぞれの遺伝子のＲＮＡ転写産物の少なくとも１０個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む、複数の核酸プローブ。
少なくとも９つの核酸プローブを含み、前記少なくとも１０個の核酸プローブの各々が、表４に記載の遺伝子から選択される異なるそれぞれの遺伝子のＲＮＡ転写産物の少なくとも１０個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む、請求項４４に記載の複数の核酸プローブ。
表３に記載されていない遺伝子のＲＮＡ転写産物の少なくとも１０個の連続する塩基と同一または相補的である核酸配列を含む少なくとも１つの核酸プローブをさらに含む、請求項４４または４５に記載の複数の核酸プローブ。
前記複数のプローブにおける各プローブが、５’ビオチン修飾オリゴヌクレオチドを含む、請求項４４～４６のいずれか一項に記載の複数の核酸プローブ。
第１の型の癌を有する対象における第１の癌状態および第２の癌状態を識別するための方法であって、前記第１の癌状態は、第１の発癌性病原体による感染に関連し、前記第２の癌状態は、発癌性病原体を含まない状態に関連し、前記方法は、
（Ａ）前記対象についてのデータセットを取得することであって、前記データセットは、複数の存在量値を含み、前記複数の存在量値における各それぞれの存在量値は、前記対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、取得することと、
（Ｂ）前記データセットを、請求項１～２５のいずれか一項に記載の方法に従って訓練された分類器に入力することと、を含む、方法。
前記対象が、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、頭頸部癌、卵巣癌、肝胆道癌、子宮頸癌、甲状腺癌、または膀胱癌に罹患している、請求項４８に記載の方法。
前記データセットが、前記対象由来の前記癌性組織の前記ゲノムにおける１つ以上の遺伝子座での１つ以上の変異対立遺伝子についての変異対立遺伝子カウントをさらに含む、請求項４８に記載の方法。
前記１つ以上の変異対立遺伝子が、ＴＰ５３（ＥＮＳＧ０００００１４１５１０）、ＣＤＫＮ２Ａ（ＥＮＳＧ０００００１４７８８９）、およびＰＩＫ３ＣＡ（ＥＮＳＧ０００００１２１８７９）からなる群から選択される遺伝子における変異対立遺伝子から選択される、請求項５０に記載の方法。
前記第１の癌状態が、エプスタインバーウイルス（ＥＢＶ）、Ｂ型肝炎ウイルス（ＨＢＶ）、Ｃ型肝炎ウイルス（ＨＣＶ）、ヒトパピローマウイルス（ＨＰＶ）、ヒトＴ細胞リンパ球向性ウイルス（ＨＴＬＶ－１）、カポジ関連肉腫ウイルス（ＫＳＨＶ）、およびメルケル細胞ポリオーマウイルス（ＭＣＶ）からなる群から選択される第１の発癌性病原体による感染に関連する、請求項４８～５０のいずれか一項に記載の方法。
前記第１の癌状態が、ヒトパピローマウイルス（ＨＰＶ）に関連する子宮頸癌、ＨＰＶに関連する頭頸部癌、エプスタインバーウイルス（ＥＢＶ）に関連する胃癌、ＥＢＶに関連する鼻咽頭癌、ＥＢＶに関連するバーキットリンパ腫、ＥＢＶに関連するホジキンリンパ腫、Ｂ型肝炎ウイルス（ＨＢＶ）に関連する肝臓癌、Ｃ型肝炎ウイルス（ＨＣＶ）に関連する肝臓癌、カポジ関連肉腫ウイルス（ＫＳＨＶ）に関連するカポジ肉腫、ヒトＴ細胞リンパ球向性ウイルス（ＨＴＬＶ－１）に関連する成人Ｔ細胞白血病／リンパ腫、およびメルケル細胞ポリオーマウイルス（ＭＣＶ）に関連するメルケル細胞癌からなる群から選択される、請求項４８～５０のいずれか一項に記載の方法。
ヒト対象における第１の癌状態および第２の癌状態を識別するための方法であって、前記第１の癌状態は、ヒトパピローマウイルス（ＨＰＶ）発癌性ウイルスによる感染に関連し、前記第２の癌状態は、ＨＰＶを含まない状態に関連し、前記方法は、
（Ａ）前記対象についてのデータセットを取得することであって、前記データセットは前記対象由来の複数の存在量値を含み、
前記複数の存在量値における各それぞれの存在量値は、前記対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現のレベルを定量化し、
前記複数の遺伝子は、表３に記載の遺伝子から選択される少なくとも５つの遺伝子を含む、取得することと、
（Ｂ）前記複数の遺伝子の前記存在量値に基づいて、少なくとも前記第１の癌状態および前記第２の癌状態を識別するように訓練された分類器に前記データセットを入力することと、を含む、方法。
前記第１の癌状態が、ヒトパピローマウイルス（ＨＰＶ）による感染に関連する子宮頸癌である、請求項５４に記載の方法。
前記第１の癌状態が、ヒトパピローマウイルス（ＨＰＶ）による感染に関連する頭頸部癌である、請求項５４に記載の方法。
前記複数の遺伝子が、表３に記載の遺伝子から選択される少なくとも１０個の遺伝子を含む、請求項５４～５６のいずれか一項に記載の方法。
前記複数の遺伝子が、表３に記載の遺伝子から選択される少なくとも２０個の遺伝子を含む、請求項５４～５６のいずれか一項に記載の方法。
前記複数の遺伝子が、少なくとも表３に記載の遺伝子の２４個すべてを含む、請求項５４～５６のいずれか一項に記載の方法。
前記複数の遺伝子が、表３に記載されていない少なくとも１つの遺伝子を含む、請求項５４～５９のいずれか一項に記載の方法。
前記データセットが、前記対象由来の前記癌性組織の前記ゲノムにおける１つ以上の遺伝子座での１つ以上の対立遺伝子についての変異対立遺伝子カウントをさらに含む、請求項５４～６０のいずれか一項に記載の方法。
前記１つ以上の変異対立遺伝子が、ＴＰ５３（ＥＮＳＧ０００００１４１５１０）またはＣＤＫＮ２Ａ（ＥＮＳＧ０００００１４７８８９）遺伝子における変異対立遺伝子から選択される、請求項６１に記載の方法。
前記分類器が、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである、請求項５４～６２のいずれか一項に記載の方法。
前記分類器が、請求項１～２５のいずれか一項に記載の方法に従って訓練された、請求項５４～６２のいずれか一項に記載の方法。
ヒト対象における第１の癌状態および第２の癌状態を識別するための方法であって、前記第１の癌状態は、エプスタインバーウイルス（ＥＢＶ）発癌性ウイルスによる感染に関連し、前記第２の癌状態は、ＥＢＶを含まない状態に関連し、前記方法は、
（Ａ）前記対象についてのデータセットを取得することであって、前記データセットが前記対象由来の複数の存在量値を含み、
前記複数の存在量値における各それぞれの存在量値は、前記対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現のレベルを定量化し、
前記複数の遺伝子は、表４に記載の遺伝子から選択される少なくとも５個の遺伝子を含む、取得することと、
（Ｂ）前記複数の遺伝子の前記存在量値に基づいて、少なくとも前記第１の癌状態および前記第２の癌状態を識別するように訓練された分類器に前記データセットを入力することと、を含む、方法。
前記第１の癌状態が、エプスタインバーウイルス（ＥＢＶ）による感染に関連する胃癌である、請求項６５に記載の方法。
前記複数の遺伝子が、表４に記載の９つの遺伝子すべてを含む、請求項６５～６６のいずれか一項に記載の方法。
前記複数の遺伝子が、表４に記載されていない少なくとも１つの遺伝子を含む、請求項６５～６７のいずれか一項に記載の方法。
前記データセットが、前記対象由来の前記癌性組織の前記ゲノムにおける１つ以上の遺伝子座での１つ以上の対立遺伝子についての変異対立遺伝子カウントをさらに含む、請求項６５～６８のいずれか一項に記載の方法。
前記１つ以上の変異対立遺伝子が、ＴＰ５３（ＥＮＳＧ０００００１４１５１０）またはＰＩＫ３ＣＡ（ＥＮＳＧ０００００１２１８７９）遺伝子における変異対立遺伝子から選択される、請求項６９に記載の方法。
前記分類器が、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである、請求項６５～７０のいずれか一項に記載の方法。
前記分類器が、請求項１～２５のいずれか一項に記載の方法に従って訓練された、請求項６５～７１のいずれか一項に記載の方法。
ヒト癌患者における子宮頸癌を治療するための方法であって、
（Ａ）前記ヒト癌患者がヒトパピローマウイルス（ＨＰＶ）発癌性ウイルスに感染しているかどうかを決定することであって、
前記ヒト癌患者についてのデータセットを取得することであって、前記データセットは、複数の存在量値を含み、
前記複数の存在量値における各それぞれの存在量値は、前記対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現のレベルを定量化し、
前記複数の遺伝子は、表３に記載の遺伝子から選択される少なくとも５つの遺伝子を含む、取得すること、ならびに
前記対象の癌性組織において、前記複数の遺伝子の前記存在量値に基づいて、少なくともＨＰＶ感染に関連する第１の癌状態およびＨＰＶを含まない状態に関連する第２の癌状態を識別するように訓練された分類器に前記データセットを入力すること、によって決定することと、
（Ｂ）前記子宮頸癌を治療することであって、
前記分類器の結果が、前記ヒト癌患者がＨＰＶ発癌性ウイルスに感染していることを示す場合、ＨＰＶ感染に関連する子宮頸癌の治療のために調整された第１の療法を実施すること、および
前記分類器の結果が、前記ヒト癌患者がＨＰＶ発癌性ウイルスに感染していないことを示す場合、ＨＰＶ感染に関連しない子宮頸癌の治療のために調整された第２の療法を実施すること、によって、治療することと、を含む、方法。
前記複数の遺伝子が、表３に記載の遺伝子から選択される少なくとも１０個の遺伝子を含む、請求項７３に記載の方法。
前記複数の遺伝子が、表３に記載の遺伝子から選択される少なくとも２０個の遺伝子を含む、請求項７３に記載の方法。
前記複数の遺伝子が、少なくとも表３に記載の遺伝子の２４個すべてを含む、請求項７３に記載の方法。
前記複数の遺伝子が、表３に記載されていない少なくとも１つの遺伝子を含む、請求項７３～７６のいずれか一項に記載の方法。
前記データセットが、前記対象由来の前記癌性組織の前記ゲノムにおける１つ以上の遺伝子座での１つ以上の対立遺伝子についての変異対立遺伝子カウントをさらに含む、請求項７３～７７のいずれか一項に記載の方法。
前記１つ以上の変異対立遺伝子が、ＴＰ５３（ＥＮＳＧ０００００１４１５１０）またはＣＤＫＮ２Ａ（ＥＮＳＧ０００００１４７８８９）遺伝子における変異対立遺伝子から選択される、請求項７８に記載の方法。
前記分類器ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズム、請求項７３～７９のいずれか一項に記載の方法。
前記分類器が、請求項１～２５のいずれか一項に記載の方法に従って訓練された、請求項７３～８０のいずれか一項に記載の方法。
ＨＰＶ感染に関連する子宮頸癌の治療のために調整された前記第１の療法が、治療用ワクチンである、請求項７３～８１のいずれか一項に記載の方法。
ＨＰＶ感染に関連する子宮頸癌の治療のために調整された前記第１の療法が、養子細胞治療である、請求項７３～８１のいずれか一項に記載の方法。
ＨＰＶ感染に関連しない子宮頸癌の治療のために調整された前記第２の療法が、化学療法である、請求項７３～８３のいずれか一項に記載の方法。
前記化学療法が、シスプラチンの投与を含む、請求項８４に記載の方法。
前記第２の療法が、５－フルオロウラシル、パクリタキセル、およびベバシズマブからなる群から選択される第２の治療薬の共投与をさらに含む、請求項８５に記載の方法。
ヒト癌患者における頭頸部癌を治療するための方法であって、
（Ａ）前記ヒト癌患者がヒトパピローマウイルス（ＨＰＶ）発癌性ウイルスに感染しているかどうかを決定することであって、
前記ヒト癌患者についてのデータセットを取得することであって、前記データセットは、複数の存在量値を含み、
前記複数の存在量値における各それぞれの存在量値は、前記対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現のレベルを定量化し、
前記複数の遺伝子は、表３に記載の遺伝子から選択される少なくとも５個の遺伝子を含む、取得すること、ならびに
前記対象の癌性組織において、前記複数の遺伝子の前記存在量値に基づいて、少なくともＨＰＶ感染に関連する第１の癌状態およびＨＰＶを含まない状態に関連する第２の癌状態を識別するように訓練された分類器に前記データセットを入力すること、によって決定することと、
（Ｂ）前記頭頸部癌を治療することであって、
前記分類器の結果が、前記ヒト癌患者がＨＰＶ発癌性ウイルスに感染していることを示す場合、ＨＰＶ感染に関連する頭頸部癌の治療のために調整された第１の療法を実施すること、および
前記分類器の結果が、前記ヒト癌患者がＨＰＶ発癌性ウイルスに感染していないことを示す場合、ＨＰＶ感染に関連しない頭頸部癌の治療のために調整された第２の療法を実施すること、によって、治療することと、を含む、方法。
前記複数の遺伝子が、表３に記載の遺伝子から選択される少なくとも１０個の遺伝子を含む、請求項８７に記載の方法。
前記複数の遺伝子が、表３に記載の遺伝子から選択される少なくとも２０個の遺伝子を含む、請求項８７に記載の方法。
前記複数の遺伝子が、少なくとも表３に記載の遺伝子の２４個すべてを含む、請求項８７に記載の方法。
前記複数の遺伝子が、表３に記載されていない少なくとも１つの遺伝子を含む、請求項８７～９０のいずれか一項に記載の方法。
前記データセットが、前記対象由来の前記癌性組織の前記ゲノムにおける１つ以上の遺伝子座での１つ以上の対立遺伝子についての変異対立遺伝子カウントをさらに含む、請求項８７～９１のいずれか一項に記載の方法。
前記１つ以上の変異対立遺伝子が、ＴＰ５３（ＥＮＳＧ０００００１４１５１０）またはＣＤＫＮ２Ａ（ＥＮＳＧ０００００１４７８８９）遺伝子における変異対立遺伝子から選択される、請求項９２に記載の方法。
前記分類器が、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである、請求項８７～９３のいずれか一項に記載の方法。
前記分類器が、請求項１～２５のいずれか一項に記載の方法に従って訓練された、請求項８７～９３のいずれか一項に記載の方法。
ＨＰＶ感染に関連する頭頸部癌の治療のために調整された前記第１の療法が、治療用ワクチンである、請求項８７～９５のいずれか一項に記載の方法。
ＨＰＶ感染に関連する頭頸部癌の治療のために調整された前記第１の療法が、免疫チェックポイント阻害剤である、請求項８７～９５のいずれか一項に記載の方法。
ＨＰＶ感染に関連する頭頸部癌の治療のために調整された前記第１の療法が、ＰＩ３Ｋ阻害剤である、請求項８７～９５のいずれか一項に記載の方法。
ＨＰＶ感染に関連しない頭頸部癌の治療のために調整された前記第２の療法が、化学療法である、請求項８７～９８のいずれか一項に記載の方法。
前記化学療法が、シスプラチンの投与を含む、請求項９９に記載の方法。
前記第２の療法が、同時放射線療法または術後化学放射線療法をさらに含む、請求項１００に記載の方法。
ヒト癌患者における胃癌を治療するための方法であって、
（Ａ）前記ヒト癌患者がエプスタインバーウイルス（ＥＢＶ）発癌性ウイルスに感染しているかどうかを決定することであって、
前記ヒト癌患者についてのデータセットを取得することであって、前記データセットは、複数の存在量値を含み、
前記複数の存在量値における各それぞれの存在量値は、前記対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現のレベルを定量化し、
前記複数の遺伝子は、表４に記載の遺伝子から選択される少なくとも５つの遺伝子を含む、取得すること、ならびに
前記対象の癌性組織において、前記複数の遺伝子の前記存在量値に基づいて、少なくともＥＢＶ感染に関連する第１の癌状態およびＥＢＶを含まない状態に関連する第２の癌状態を識別するように訓練された分類器に前記データセットを入力すること、によって決定することと、
（Ｂ）前記胃癌を治療することであって、
前記分類器の結果が、前記ヒト癌患者がＥＢＶ発癌性ウイルスに感染していることを示す場合、ＥＢＶ感染に関連する胃癌の治療のために調整された第１の療法を実施すること、および
前記分類器の結果が、前記ヒト癌患者がＥＢＶ発癌性ウイルスに感染していないことを示す場合、ＥＢＶ感染に関連しない胃癌の治療のために調整された第２の療法を実施すること、によって、治療することと、を含む、方法。
前記複数の遺伝子が、少なくとも表４に記載の遺伝子の９つすべてを含む、請求項１０２に記載の方法。
前記複数の遺伝子が、表４に記載されていない少なくとも１つの遺伝子を含む、請求項１０２～１０３のいずれか一項に記載の方法。
前記データセットが、前記対象由来の前記癌性組織の前記ゲノムにおける１つ以上の遺伝子座での１つ以上の対立遺伝子についての変異対立遺伝子カウントをさらに含む、請求項１０２～１０４のいずれか一項に記載の方法。
前記１つ以上の変異対立遺伝子が、ＴＰ５３（ＥＮＳＧ０００００１４１５１０）またはＰＩＫ３ＣＡ（ＥＮＳＧ０００００１２１８７９）遺伝子における変異対立遺伝子から選択される、請求項１０５に記載の方法。
前記分類器が、多変量ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、または畳み込みニューラルネットワークアルゴリズムである、請求項１０２～１０６のいずれか一項に記載の方法。
前記分類器が、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、畳み込みニューラルネットワークアルゴリズム、決定木アルゴリズム、回帰アルゴリズム、またはクラスタリングアルゴリズムである、請求項１０２～１０６のいずれか一項に記載の方法。
前記分類器が、請求項１～２５のいずれか一項に記載の方法に従って訓練された、請求項１０２～１０８のいずれか一項に記載の方法。
ＥＢＶ感染に関連する胃癌の治療のために調整された前記第１の療法が、免疫チェックポイント阻害剤である、請求項１０２～１０９のいずれか一項に記載の方法。
ＥＢＶ感染に関連しない胃癌の治療のために調整された前記第２の療法が、化学療法である、請求項１０２～１１０のいずれか一項に記載の方法。
前記化学療法が、パクリタキセル、カルボプラチン、シスプラチン、５－フルオロウラシル、およびオキサリプラチンからなる群から選択される治療薬の投与を含む、請求項１１１に記載の方法。
前記化学療法が、パクリタキセルおよびカルボプラチンの投与を含む、請求項１１１記載の方法。
前記化学療法が、シスプラチンおよび５－フルオロウラシルの投与を含む、請求項１１１記載の方法。
前記化学療法が、オキサリプラチンおよび５－フルオロウラシルの投与を含む、請求項１１１記載の方法。
前記ヒト癌患者由来の前記癌性組織の試料のＲＮＡ配列決定によって前記複数の存在量値を決定することをさらに含む、請求項４８～１１５のいずれか一項に記載の方法。
前記対象由来の前記癌性組織が、前記対象由来の腫瘍試料である、請求項４８～１１５のいずれか一項に記載の方法。
１つ以上のプロセッサと、
メモリーと
１つ以上のプログラムと、を備える電子デバイスであって、前記１つ以上のプログラムは、前記メモリに格納され、前記１つ以上のプロセッサによって実行されるように構成され、前記１つ以上のプログラムは、請求項４８～１１６に記載の方法のうちのいずれかを実行するための命令を含む、電子デバイス。
１つ以上のプログラムを格納する非一時的なコンピュータ可読記憶媒体であって、前記１つ以上のプログラムは、１つ以上のプロセッサおよびメモリを備えた電子デバイスによって実行されると、前記デバイスに請求項４８～１１６に記載の方法のうちのいずれかを実行させる命令を含む、非一時的なコンピュータ可読記憶媒体。
プロセッサによって実行されると、前記プロセッサに、第１の癌状態および第２の癌状態を識別するように分類器を訓練するための方法を実行させるプログラムコード命令を格納する非一時的なコンピュータ可読記憶媒体であって、前記第１の癌状態は、第１の発癌性病原体による感染に関連し、前記第２の癌状態は、発癌性病原体を含まない状態に関連し、前記方法は、
（Ａ）ある種の複数の対象における各それぞれの対象について、（ｉ）対応する複数の存在量値であって、前記対応する複数の存在量値における各それぞれの存在量値は、前記それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、対応する複数の存在量値と、（ｉｉ）前記それぞれの対象の癌状態の指標であって、前記それぞれの対象が前記第１の癌状態、または前記第２の癌状態を有するかどうかを特定する、癌状態の指標と、を含み、前記複数の対象は、前記第１の癌状態に罹患している第１の対象のサブセットおよび前記第２の状態に罹患している第２の対象のサブセットを含む、データセットを取得することと、
（Ｂ）前記複数の対象におけるそれぞれの対象の前記対応する複数の存在量値および前記癌状態のそれぞれの指標を使用して識別遺伝子セットを特定することであって、前記識別遺伝子セットは、前記複数の遺伝子のサブセットを含む、特定することと、
（Ｃ）前記複数の対象にわたる前記識別遺伝子セットについての前記それぞれの存在量値および癌状態の前記それぞれの指標を使用して、前記識別遺伝子セットについてのそれぞれの存在量値の関数として、前記第１の癌状態および前記第２の癌状態を識別するように分類器を訓練することと、を含む、非一時的なコンピュータ可読記憶媒体。
第１の癌状態および第２の癌状態を識別するように分類器を訓練するためのコンピュータシステムであって、前記第１の癌状態は、第１の発癌性ウイルスによる感染に関連し、前記第２の癌状態は、発癌性ウイルスを含まない状態に関連し、前記コンピュータシステムは、
少なくとも１つのプロセッサ、および
前記少なくとも１つのプロセッサによる実行のための少なくとも１つのプログラムを格納するメモリを含み、前記少なくとも１つのプログラムは、
（Ａ）ある種の複数の対象における各それぞれの対象について、（ｉ）対応する複数の存在量値であって、前記対応する複数の存在量値における各それぞれの存在量値は、前記それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、対応する複数の存在量値と、（ｉｉ）前記それぞれの対象の癌状態の指標であって、前記それぞれの対象が前記第１の癌状態、または前記第２の癌状態を有するかどうかを特定する、癌状態の指標と、を含み、前記複数の対象は、前記第１の癌状態に罹患している第１の対象のサブセットおよび前記第２の状態に罹患している第２の対象のサブセットを含む、データセットを取得することと、
（Ｂ）前記複数の対象におけるそれぞれの対象の前記対応する複数の存在量値および前記癌状態のそれぞれの指標を使用して識別遺伝子セットを特定することであって、前記識別遺伝子セットは、前記複数の遺伝子のサブセットを含む、特定することと、
（Ｃ）前記複数の対象にわたる前記識別遺伝子セットについての前記それぞれの存在量値および癌状態の前記それぞれの指標を使用して、前記識別遺伝子セットについてのそれぞれの存在量値の関数として、前記第１の癌状態および前記第２の癌状態を識別するように分類器を訓練することと、を行うための命令を含む、コンピュータシステム。