JP2022521791A - 病原体検出のための配列決定データを使用するためのシステムおよび方法 - Google Patents

病原体検出のための配列決定データを使用するためのシステムおよび方法 Download PDF

Info

Publication number
JP2022521791A
JP2022521791A JP2021550012A JP2021550012A JP2022521791A JP 2022521791 A JP2022521791 A JP 2022521791A JP 2021550012 A JP2021550012 A JP 2021550012A JP 2021550012 A JP2021550012 A JP 2021550012A JP 2022521791 A JP2022521791 A JP 2022521791A
Authority
JP
Japan
Prior art keywords
cancer
genes
classifier
subject
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021550012A
Other languages
English (en)
Other versions
JPWO2020176620A5 (ja
Inventor
ロザックマー,アリアン
ラウ,デニス
エー. カーン,アリー
Original Assignee
テンパス ラブズ,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンパス ラブズ,インコーポレイテッド filed Critical テンパス ラブズ,インコーポレイテッド
Publication of JP2022521791A publication Critical patent/JP2022521791A/ja
Publication of JPWO2020176620A5 publication Critical patent/JPWO2020176620A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K31/00Medicinal preparations containing organic active ingredients
    • A61K31/28Compounds containing heavy metals
    • A61K31/282Platinum compounds
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K31/00Medicinal preparations containing organic active ingredients
    • A61K31/33Heterocyclic compounds
    • A61K31/335Heterocyclic compounds having oxygen as the only ring hetero atom, e.g. fungichromin
    • A61K31/337Heterocyclic compounds having oxygen as the only ring hetero atom, e.g. fungichromin having four-membered rings, e.g. taxol
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K31/00Medicinal preparations containing organic active ingredients
    • A61K31/33Heterocyclic compounds
    • A61K31/395Heterocyclic compounds having nitrogen as a ring hetero atom, e.g. guanethidine or rifamycins
    • A61K31/495Heterocyclic compounds having nitrogen as a ring hetero atom, e.g. guanethidine or rifamycins having six-membered rings with two or more nitrogen atoms as the only ring heteroatoms, e.g. piperazine or tetrazines
    • A61K31/505Pyrimidines; Hydrogenated pyrimidines, e.g. trimethoprim
    • A61K31/513Pyrimidines; Hydrogenated pyrimidines, e.g. trimethoprim having oxo groups directly attached to the heterocyclic ring, e.g. cytosine
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K31/00Medicinal preparations containing organic active ingredients
    • A61K31/33Heterocyclic compounds
    • A61K31/555Heterocyclic compounds containing heavy metals, e.g. hemin, hematin, melarsoprol
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K33/00Medicinal preparations containing inorganic active ingredients
    • A61K33/24Heavy metals; Compounds thereof
    • A61K33/243Platinum; Compounds thereof
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K45/00Medicinal preparations containing active ingredients not provided for in groups A61K31/00 - A61K41/00
    • A61K45/06Mixtures of active ingredients without chemical characterisation, e.g. antiphlogistics and cardiaca
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K16/00Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies
    • C07K16/18Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies against material from animals or humans
    • C07K16/22Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies against material from animals or humans against growth factors ; against growth regulators
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/30Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

発癌性病原性感染に関連する第1の癌状態発癌性病原性感染に関連しない第2の癌状態を識別するように分類器を訓練するためのシステムおよび方法が提供される。癌の病理に寄与する発癌性病原性感染に関連する癌および発癌性病原性感染に関連しない癌を識別するためのシステムおよび方法が提供される。癌が発癌性病原性感染に関連しているかどうかに基づいて癌を治療するためのシステムおよび方法が提供される。

Description

関連出願の相互参照
この出願は、2019年2月26日に出願された米国仮特許出願第62/810,849号の優先権を主張し、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。
本開示は、概して、癌性組織由来の発現プロファイルを使用して、癌患者における発癌性病原性感染を検出することに関する。
精密腫瘍学は、例えば、個々の腫瘍の特有の病理学、ゲノム、エピジェネティック、および/またはトランスクリプトームのプロファイルからなる、特定の個人に対して癌治療を調整する実践である。対照的に、従来の癌治療は、単に治療されている癌の型に基づく。例えば、従来、すべての乳癌は、第1の治療レジメンで治療され、一方、すべての肺癌は、第2の治療レジメンで治療されるであろう。精密腫瘍学は、同じ型の癌、例えば乳癌と診断された異なる患者が同じ治療レジメンに対して非常に異なって反応したという多くの観察から生まれた。時間の経過とともに、研究者らは、個々の癌が特定の治療法にどのように反応するかについて、ある程度の予測を容易にするゲノム、エピジェネティック、およびトランスクリプトームマーカーを特定してきた。
標的療法の使用は、特に無増悪生存の観点で、癌患者の転帰において顕著な改善をもたらした。Radovich et al.,Oncotarget,7:56491-500(2016)。3,743人の患者由来の進行期腫瘍の遺伝子検査を含み、患者の約19%が腫瘍生物学に基づいて一致した標的療法を受けた、IMPACT試験から報告された最近の証拠は、一致した治療を受けた患者おいて16.2%に対し、一致しなかった治療を受けた患者において5.2%の奏効率を示した。Bankhead,“IMPACT Trial:Support for Targeted Cancer Tx Approaches,”MedPageToday,June 5,2018。IMPACT研究では、分子的に一致した治療を受けた患者の3年全生存率は、一致しない患者の2倍超であることもわかった(15%対7%)。Id.;ASCO Post,“2018 ASCO:IMPACT Trial Matches Treatment to Genetic Changes in the Tumor to Improve Survival Across Multiple Cancer conditions,”The ASCO POST,June 6,2018。遺伝子検査によってケアの軌道が変わる患者の割合の推定値は、約10%~50%超まで広く変化する。Fernandes et al.,Clinics,72:588-94(2017)。
特定のゲノム変化を対象とした療法は、例えば、メラノーマ、結腸直腸癌、および非小細胞肺癌についてのthe National Comprehensive Cancer Network(NCCN)ガイドラインにおいて示唆されているように、すでにいくつかの腫瘍型において標準のケアある。NCCNガイドラインにおけるいくつかのよく知られた変異は、個々のアッセイまたは小型次世代配列決定(NGS)パネルを使用して癌患者において特定され得る。しかしながら、最大数の癌患者が個別化された腫瘍学の恩恵を受けるためには、適応外薬の指標、併用療法、または組織非依存性免疫療法の使用を促進するために、より包括的な病理学的、ゲノム、エピジェネティック、および/またはトランスクリプトームの解析が必要である。Schwaederle et al.,JAMA Oncol.,2:1452-59(2016)、Schwaederle et al.,J Clin Oncol.,32:3817-25(2015)、およびWheler et al.,Cancer Res.,76:3690-701(2016)。
発癌性病原体感染の存在は、すべての癌の10~12%を占める。例えば、胃癌は、世界で3番目に多い癌による死亡の一般的原因であり、2012年においては70万人超が胃癌を病因とすると推定されている。Ferlay,et al.,“Cancer Incidence and Mortality Worldwide,”IARC CancerBase 11[Internet],Lyon,France:International Agency for Research on Cancer (2013)。遺伝的要因に加えて、胃の発癌は、エプスタインバーウイルス(EBV)感染を含む複数の環境要因に関連していると考えられている。Burke et al.,Mod Pathol.,3:377-380(1990)。実際、最近の癌ゲノムアトラス研究は、EBV陽性胃癌を特定の亜型として定義する分子分類を提供した。Cancer Genome Atlas Research Network,Nature,513(7517):202-09(2014)。
したがって、そのような発癌性病原体の存在は、関連する癌の予後に影響を及ぼす。したがって、対象が発癌性病原体に関連して頻繁に発生することが知られている型の癌を有する場合、対象の治療選択肢を変える可能性があるため、対象の病原体状態の知見が重要である。例えば、HPV陽性の頭頸部癌について放射線療法または化学療法の用量減少の利点を調査する多くの臨床試験は、有望な結果を示している。加えて、病原体関連腫瘍は、より高いレベルの炎症および免疫浸潤を示す可能性が高く、免疫療法の優れた候補となる。
従来の発癌性病原体診断の欠点は、対象が特定の病原体に感染しているかどうかを判断するために、最初に対象を癌と診断するために使用された、または癌の病期を評価するために使用されたアッセイとは個別に分けて、完全に独立したアッセイが実行されることである。例えば、EBVの場合、切除された組織、生検、または血液についてのin situハイブリダイゼーション(ISH)もしくはポリメラーゼ連鎖反応(PCR)、または血清試料についての酵素結合免疫吸着測定法(ELISA)もしくは免疫蛍光測定法(IFA)などの個別の検査室方法が、EBV感染を検出するために実行される。これは、診断の費用を増加させ、場合によっては、発癌性病原体に関連することが知られている型の癌が診断された後にのみ病原体検査が実行されて、病原体アッセイの結果が得られるまで対象の治療計画の作成を遅らせるため、不十分である。
上記の背景を考慮すると、当該技術分野において必要とされるのは、病原体検出のための別個の独立したアッセイを必要とせずに、所与の病原体検出の存在を直接決定する病原体検出のための改善されたシステムおよび方法である。
したがって、癌の病理に寄与する発癌性病原体感染に関連する癌および発癌性病原体感染に関連しない癌を識別するための改善された方法が提供される。それらの癌が発癌性病原体感染に関連しているかどうかに基づいて、癌患者を治療するための改善された方法も提供される。本開示は、例えば、発癌性病原体感染に関連しない癌よりも発癌性病原体感染に関連する癌において差次的に発現される遺伝子のセットを特定するための方法を提供することによって、これらの必要性に対処する。本開示はまた、発癌性病原体感染に関連する癌および発癌性病原体感染に関連しない癌を、2つの型の癌において差次的に調節される特定された遺伝子に基づいて、識別するように分類器を訓練するための方法を提供する。したがって、訓練された分類器を使用して、発癌性病原体感染に関連するか、または発癌性病原体感染に関連しないかのいずれかとして患者における癌を分類するための方法も提供される。これらの方法は、次に、それら癌が発癌性病原体感染に関連しているかどうかに基づいて、患者の異なる治療を可能にする。
本開示の一態様は、第1の癌状態および第2の癌状態を識別するように分類器を訓練するための方法を提供し、第1の癌状態は、第1の発癌性病原体による感染に関連し、第2の癌状態は、発癌性病原体を含まない状態に関連する。方法は、コンピュータで、データセットを取得することを含み、それは、ある種の複数の対象における各それぞれの対象について、(i)対応する複数の存在量値であって、対応する複数の存在量値における各それぞれの存在量値は、それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、対応する複数の存在量値と、(ii)それぞれの対象の癌状態の指標であって、それぞれの対象が第1の癌状態、または第2の癌状態を有するかどうかを特定する、癌状態の指標と、を含み、複数の対象は、第1の癌状態に罹患している第1の対象のサブセットおよび第2の状態に罹患している第2の対象のサブセットを含む。
次に、方法は、複数の対象におけるそれぞれの対象の対応する複数の存在量値および癌状態のそれぞれの指標を使用して識別遺伝子セットを特定することを含み、識別遺伝子セットは、複数の遺伝子のサブセットを含む。
いくつかの実施形態において、識別遺伝子セットの特定は、回帰アルゴリズムを使用して、複数の対象にわたる癌状態のそれぞれの指標に対する複数の対象にわたる複数の存在量値のすべてまたはサブセットに基づいてデータセットを回帰し、それにより、複数の回帰係数における、対応する回帰係数を、複数の遺伝子における各それぞれの遺伝子に対して割り当てることと、係数閾値を満たす回帰アルゴリズムによって係数が割り当てられた識別遺伝子セットについて、複数の遺伝子においてそれらの遺伝子を選択することと、を含む。
いくつかの代替の実施形態において、識別遺伝子セットの特定は、複数のセットにおける各セットが、第1の癌状態に罹患している2つ以上の対象および第2の状態に罹患している2つ以上の対象を含む、複数のセットにデータセットを分割することと、回帰アルゴリズムを使用して、それぞれのセットの対象にわたる癌状態のそれぞれの指標に対するそれぞれのセットの対象にわたる複数の存在量値のすべてまたはサブセットに基づいて、複数のセットにおける各それぞれのセットを独立して回帰し、それにより、複数の回帰係数における、対応する回帰係数を、複数の遺伝子における各それぞれの遺伝子に対して割り当てることと、複数のセットの少なくとも閾値パーセンテージについての係数閾値を満たす回帰アルゴリズムによって係数が割り当てられた識別遺伝子セットについて、複数の遺伝子においてそれらの遺伝子を選択することと、を含む。いくつかの実施形態において、複数のセットは、5~50個のセット(例えば、10個のセット)からなる。
いくつかの実施形態において、係数閾値は、ゼロである。対応する回帰係数の絶対値がゼロより大きい場合、係数閾値が満たされる。
いくつかの実施形態において、上で開示された回帰アルゴリズムは、ロジスティック回帰である。いくつかのそのような実施形態において、ロジスティック回帰は以下を想定している:
Figure 2022521791000002

式中、x=(xi1、xi2、…、xik)は、i番目の対応する対象の腫瘍試料由来の複数の遺伝子について対応する複数の存在量値であり、Y∈{0、1}は、対応する対象iが第1の癌状態を有する場合に値「1」を有し、対応する対象iが第2の癌状態を有する場合に値「0」を有するクラスラベルであり、P(Y=1|x)は、i番目の対応する対象が第1の癌クラスのメンバーである推定確率である。さらに、βは、切片であり、β=(j=1、...k)は、複数の回帰係数であり、複数の回帰係数における各それぞれの回帰係数は、複数の遺伝子における対応する遺伝子に対するものである。そのような実施形態において、i番目の対応する対象は、P(Y=1/x)が事前定義された閾値(0.5)を超える場合、第1の癌クラスに割り当てられ、そうでない場合、第2の癌クラスに割り当てられる。
いくつかの実施形態において、ロジスティック回帰は、ロジスティック最小絶対収縮および選択演算子(LASSO)回帰である。そのような実施形態において、ロジスティックLASSO推定器
Figure 2022521791000003
...
Figure 2022521791000004
は、以下の負の対数尤度の最小化として定義される。
最小
Figure 2022521791000005

制約
Figure 2022521791000006
を受ける。
いくつかの実施形態において、回帰アルゴリズムは、L1またはL2正則化を伴うロジスティック回帰である。
方法はさらに、複数の対象にわたる識別遺伝子セットのそれぞれの存在量値および癌状態のそれぞれの指標を使用して、識別遺伝子セットについてのそれぞれの存在量値の関数として第1の癌状態および第2の癌状態を識別するように分類器(例えば、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズム)を訓練することを含む。
本開示の別の態様は、対象における第1の癌状態および第2の癌状態を識別するための方法を提供し、第1の癌状態は、第1の発癌性病原体による感染に関連し、第2の癌状態は、発癌性病原体を含まない状態に関連する。方法は、対象についてのデータセットを取得することを含み、データセットは、複数の存在量値を含み、複数の存在量値における各それぞれの存在量値は、対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。次に、方法は、データセットを、本明細書に記載の方法論のいずれか1つに従って訓練された分類器に入力することを含む。
本開示の別の態様は、ヒト対象における第1の癌状態および第2の癌状態を識別するための複数の核酸プローブを提供し、第1の癌状態は、発癌性病原体感染に関連し、第2の癌状態は、発癌性病原体を含まない状態に関連する。核酸プローブは、発癌性病原体感染に関連する癌において差次的に発現されると特定された遺伝子の配列と相補的または同一である核酸配列を有する。
本開示の別の態様は、第1の型の癌を有する対象における第1の癌状態および第2の癌状態を識別するための方法を提供し、第1の癌状態は、第1の発癌性病原体による感染に関連し、第2の癌状態は、発癌性病原体を含まない状態に関連する。方法は、対象についてのデータセットを取得することを含み、データセットは、複数の存在量値(例えば、相対的mRNA発現値)を有し、複数の存在量値における各それぞれの存在量値は、対象由来の癌性組織における、識別遺伝子セットにおける、対応する遺伝子の発現レベルを定量化する。次に、方法は、対象の癌性組織における識別遺伝子セットについての存在量値に基づいて、少なくとも第1の癌状態および第2の癌状態を識別するように訓練された分類器にデータセットを入力し、それによって対象の癌状態を決定することを含む。
いくつかの実施形態において、第1の型の癌は、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、頭頸部癌、卵巣癌、肝胆道癌、子宮頸癌、甲状腺癌、または膀胱癌である。
いくつかの実施形態において、データセットは、対象由来の癌性組織のゲノムにおける1つ以上の遺伝子座での1つ以上の変異対立遺伝子についての変異対立遺伝子カウントをさらに含む。
いくつかの実施形態において、第1の癌状態は、エプスタインバーウイルス(EBV)、B型肝炎ウイルス(HBV)、C型肝炎ウイルス(HCV)、ヒトパピローマウイルス(HPV)、ヒトT細胞リンパ球向性ウイルス(HTLV-1)、カポジ関連肉腫ウイルス(KSHV)、およびメルケル細胞ポリオーマウイルス(MCV)からなる群から選択される第1の発癌性病原体による感染に関連する。
いくつかの実施形態において、第1の癌状態は、ヒトパピローマウイルス(HPV)に関連する子宮頸癌、HPVに関連する頭頸部癌、エプスタインバーウイルス(EBV)に関連する胃癌、EBVに関連する鼻咽頭癌、EBVに関連するバーキットリンパ腫、EBVに関連するホジキンリンパ腫、B型肝炎ウイルス(HBV)に関連する肝臓癌、C型肝炎ウイルス(HCV)に関連する肝臓癌、カポジ関連肉腫ウイルス(KSHV)に関連するカポジ肉腫、ヒトT細胞リンパ球向性ウイルス(HTLV-1)に関連する成人T細胞白血病/リンパ腫、およびメルケル細胞ポリオーマウイルス(MCV)に関連するメルケル細胞癌からなる群から選択される。
いくつかの実施形態において、第1の癌状態は、ヒトパピローマウイルス(HPV)発癌性ウイルスによる感染に関連し、第2の癌状態は、HPVを含まない状態に関連し、識別遺伝子セットは、表3に記載の遺伝子から選択される少なくとも5つの遺伝子を含む。いくつかの実施形態において、第1の癌状態は、ヒトパピローマウイルス(HPV)による感染に関連する子宮頸癌である。いくつかの実施形態において、第1の癌状態は、ヒトパピローマウイルス(HPV)による感染に関連する頭頸部癌である。いくつかの実施形態において、識別遺伝子セットは、表3に記載の遺伝子から選択される少なくとも10個の遺伝子を含む。いくつかの実施形態において、識別遺伝子セットは、表3に記載の遺伝子から選択される少なくとも20個の遺伝子を含む。いくつかの実施形態において、識別遺伝子セットは、少なくとも表3に記載の遺伝子の24個すべてを含む。いくつかの実施形態において、データセットはまた、対象由来の癌性組織のゲノムにおけるTP53(ENSG00000141510)およびCDKN2A(ENSG00000147889)についての変異対立遺伝子カウントを含む。
いくつかの実施形態において、方法はまた、分類器の結果が、ヒト癌患者がHPV発癌性ウイルスに感染していることを示す場合、HPV感染に関連する子宮頸癌の治療のために調整された第1の療法を実施すること、および、分類器の結果が、ヒト癌患者がHPV発癌性ウイルスに感染していないことを示す場合、HPV感染に関連しない子宮頸癌の治療のために調整された第2の療法を実施すること、によって、子宮頸癌について対象を治療することを含む。いくつかの実施形態において、HPV感染に関連する子宮頸癌の治療のために調整された第1の療法は、治療用ワクチンまたは養子細胞療法を含む。いくつかの実施形態において、HPV感染に関連しない子宮頸癌の治療のために調整された第2の療法は、化学療法である。いくつかの実施形態において、化学療法は、シスプラチンと、5-フルオロウラシル、パクリタキセル、およびベバシズマブからなる群から選択される第2の治療薬との共投与を含む。
いくつかの実施形態において、方法はまた、分類器の結果が、ヒト癌患者がHPV発癌性ウイルスに感染していることを示す場合、HPV感染に関連する頭頸部癌の治療のために調整された第1の療法を実施すること、および、分類器の結果が、ヒト癌患者がHPV発癌性ウイルスに感染していないことを示す場合、HPV感染に関連しない頭頸部癌の治療のために調整された第2の療法を実施すること、によって、頭頸部癌について対象を治療することを含む。いくつかの実施形態において、HPV感染に関連する頭頸部癌の治療のために調整された第1の療法は、治療用ワクチン、免疫チェックポイント阻害剤、またはPI3K阻害剤を含む。いくつかの実施形態において、HPV感染に関連しない頭頸部癌の治療のために調整された第2の療法は、化学療法を含む。いくつかの実施形態において、化学療法は、シスプラチンの投与を含み、第2の療法はまた、同時放射線療法または術後化学放射線療法を含む。
いくつかの実施形態において、第1の癌状態は、エプスタインバーウイルス(EBV)発癌性ウイルスによる感染に関連し、第2の癌状態は、EBVを含まない状態に関連し、識別遺伝子セットは、表4に記載の遺伝子から選択される少なくとも5つの遺伝子を含む。いくつかの実施形態において、第1の癌状態は、エプスタインバーウイルス(EBV)による感染に関連する胃癌である。いくつかの実施形態において、識別遺伝子セットは、表4に記載の9つの遺伝子すべてを含む。いくつかの実施形態において、データセットはまた、対象由来の癌性組織のゲノムにおけるTP53(ENSG00000141510)およびPIK3CA(ENSG00000121879)についての変異対立遺伝子カウントを含む。
いくつかの実施形態において、方法はまた、分類器の結果が、ヒト癌患者がEBV発癌性ウイルスに感染していることを示す場合、EBV感染に関連する胃癌の治療のために調整された第1の療法を実施すること、および、分類器の結果が、ヒト癌患者がEBV発癌性ウイルスに感染していないことを示す場合、EBV感染に関連しない胃癌の治療のために調整された第2の療法を実施すること、によって、胃癌について対象を治療することを含む。いくつかの実施形態において、EBV感染に関連する胃癌の治療のために調整された第1の療法は、免疫チェックポイント阻害剤を含む。いくつかの実施形態において、EBV感染に関連しない胃癌の治療のために調整された第2の療法は、化学療法を含む。いくつかの実施形態において、化学療法は、パクリタキセル、カルボプラチン、シスプラチン、5-フルオロウラシル、およびオキサリプラチンからなる群から選択される治療薬の投与を含む。
いくつかの実施形態において、方法はまた、分類器の結果が、ヒト癌患者が第1の発癌性病原体に感染していることを示す場合、第1の発癌性病原体による感染に関連する第1の型の癌の治療のために調整された第1の療法を実施すること、および、分類器の結果が、ヒト癌患者が第1の発癌性病原体に感染していないことを示す場合、発癌性病原体を含まない状態に関連する第1の型の癌の治療のために調整された第2の療法を実施すること、によって、癌について対象を治療することを含む。
いくつかの実施形態において、分類器は、(1)ある種の複数の対象における各それぞれの対象について、(i)対応する複数の存在量値であって、対応する複数の存在量値における各それぞれの存在量値は、それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、対応する複数の存在量値と、(ii)それぞれの対象の癌状態の指標であって、それぞれの対象が第1の癌状態、または第2の癌状態を有するかどうかを特定する、癌状態の指標と、を含み、複数の対象は、第1の癌状態に罹患している第1の対象のサブセットおよび第2の状態に罹患している第2の対象のサブセットを含む、データセットを取得することと、(2)複数の対象におけるそれぞれの対象の対応する複数の存在量値および癌状態のそれぞれの指標を使用して識別遺伝子セットを特定することであって、識別遺伝子セットは、複数の遺伝子のサブセットを含む、特定することと、(3)複数の対象にわたる識別遺伝子セットについてのそれぞれの存在量値および癌状態のそれぞれの指標を使用して、識別遺伝子セットについてのそれぞれの存在量値の関数として、第1の癌状態および第2の癌状態を識別するように分類器を訓練することと、を含む、方法によって訓練された。
他の実施形態は、本明細書に記載の方法に関連するシステム、携帯型消費者デバイス、およびコンピュータ可読媒体を対象としている。
本明細書に開示されるように、適用可能な場合、本明細書に開示される任意の実施形態は、任意の態様に適用し得る。
本開示の追加の態様および利点は、以下の詳細な説明から当業者に容易に明らかになり、本開示の例示的な実施形態のみが示され、説明される。理解されるように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、すべて本開示から逸脱することなく、様々な明白な点で修正し得る。したがって、図面および明細書は、本質的に例示的なものと見なされるべきであり、限定的なものとして見なされるべきではない。
本開示のいくつかの実施形態による、例示的なコンピューティングデバイスのブロック図を示す。 本開示のいくつかの実施形態による、例示的なコンピューティングデバイスのブロック図を示す。 本開示のいくつかの実施形態による、第1の発癌性病原体による感染に関連する第1の癌状態および発癌性病原体を含まない状態に関連する第2の癌状態を識別するように分類器を訓練するためのプロセスおよび特徴のフローチャートを提供し、任意のブロックは破線のボックスで示される。 本開示のいくつかの実施形態による、第1の発癌性病原体による感染に関連する第1の癌状態および発癌性病原体を含まない状態に関連する第2の癌状態を識別するように分類器を訓練するためのプロセスおよび特徴のフローチャートを提供し、任意のブロックは破線のボックスで示される。 本開示のいくつかの実施形態による、第1の発癌性病原体による感染に関連する第1の癌状態および発癌性病原体を含まない状態に関連する第2の癌状態を識別するように分類器を訓練するためのプロセスおよび特徴のフローチャートを提供し、任意のブロックは破線のボックスで示される。 本開示のいくつかの実施形態による、第1の発癌性病原体による感染に関連する第1の癌状態および発癌性病原体を含まない状態に関連する第2の癌状態を識別するように分類器を訓練するためのプロセスおよび特徴のフローチャートを提供し、任意のブロックは破線のボックスで示される。 本開示のいくつかの実施形態による、第1の発癌性病原体による感染に関連する第1の癌状態および発癌性病原体を含まない状態に関連する第2の癌状態を識別するように分類器を訓練するためのプロセスおよび特徴のフローチャートを提供し、任意のブロックは破線のボックスで示される。 本開示のいくつかの実施形態による、第1の発癌性病原体による感染に関連する第1の癌状態および発癌性病原体を含まない状態に関連する第2の癌状態を識別し、任意で癌の発癌性病原体状態に基づいて癌状態を治療するためのプロセスおよび特徴のフローチャートを提供する。 本開示のいくつかの実施形態による、HPV発癌性ウイルス感染に関連する第1の癌状態およびHPV発癌性ウイルス感染に関連しない第2の癌状態を識別するように分類器を訓練するためのTGCA訓練および試験データセットの構成の内訳を提供する。 本開示のいくつかの実施形態による、HPV発癌性ウイルス感染に関連する第1の癌状態およびHPV発癌性ウイルス感染に関連しない第2の癌状態を識別するために有用な癌性組織の特徴を示す。 本開示のいくつかの実施形態による、HPV発癌性ウイルス感染に関連する第1の癌状態およびHPV発癌性ウイルス感染に関連しない第2の癌状態を識別するための、訓練データセットに対して訓練されたサポートベクトルマシンについての性能測定基準を示す。 本開示のいくつかの実施形態による、HPV発癌性ウイルス感染に関連する第1の癌状態およびHPV発癌性ウイルス感染に関連しない第2の癌状態を識別するための、検証データセットに対して訓練されたサポートベクトルマシンについて性能測定基準を示す。 本開示のいくつかの実施形態による、EBV発癌性ウイルス感染に関連する第1の癌状態およびEBV発癌性ウイルス感染に関連しない第2の癌状態を識別するように分類器を訓練するためのTGCA訓練および試験データセットの構成の内訳を提供する。 本開示のいくつかの実施形態による、EBV発癌性ウイルス感染に関連する第1の癌状態およびHPV発癌性ウイルス感染に関連しない第2の癌状態を識別するために有用な癌性組織の特徴を示す。 本開示のいくつかの実施形態による、EBV発癌性ウイルス感染に関連する第1の癌状態およびEBV発癌性ウイルス感染に関連しない第2の癌状態を識別するための、訓練データセットに対して訓練されたサポートベクトルマシンについての性能測定基準を示す。 本開示のいくつかの実施形態による、EBV発癌性ウイルス感染に関連する第1の癌状態およびEBV発癌性ウイルス感染に関連しない第2の癌状態を識別するための、検証データセットに対して訓練されたサポートベクトルマシンについて性能測定基準を示す。 本開示のいくつかの実施形態による、実施例3において、頭頸部癌および子宮頸癌の組織試料におけるHPVウイルス感染に関連する頭頸部癌および子宮頸癌において差次的に発現されると特定された遺伝子の発現特徴の主成分分析を示す。 本開示のいくつかの実施形態による、実施例4において、頭頸部癌および子宮頸癌の組織試料におけるEBVウイルス感染に関連する胃癌において差次的に発現されると特定された遺伝子の発現特徴の主成分分析を示す。 本開示のいくつかの実施形態による、HPV陽性の頭頸部扁平上皮癌の報告例を示す。 本開示のいくつかの実施形態による、HPV陽性子宮頸癌の報告例を示す。
図面のいくつかの図を通して、同様の参照番号は、対応する部分を指す。
本開示は、癌病理に寄与する発癌性病原体感染に関連する癌を、発癌性病原体感染に関連しない癌と区別するために有用なシステムおよび方法を提供する。本開示はさらに、癌が発癌性病原体感染に関連するかどうかに基づいて、癌患者を治療するのに有用なシステムおよび方法を提供する。
有利なことに、本明細書に記載のシステムおよび方法は、追加の診断アッセイを必要とせずに、癌における発癌性病原体の検出を可能にする。驚くべきことに、発癌性病原体感染は、腫瘍生検におけるmRNA発現レベルに基づいて特定し得ることがわかった。したがって、これらの病原体の核酸またはタンパク質成分を特定するために開発された追加のアッセイは、本開示によって不要とされる。むしろ、単一のmRNA発現分析を実行して、癌の転写プロファイルの特徴付け、およびそれが発癌性病原体感染に関連しているかどうかの決定の両方を行うことができる。例えば、実施例3において報告されているように、mRNA発現データおよび2つの対立遺伝子状態のみに対して訓練されたサポートベクトルマシン分類器は、99%の特異度および99%の感度で頭頸部癌および子宮頸癌におけるHPV感染を特定した。同様に、実施例4において報告されるように、mRNA発現データおよび2つの対立遺伝子状態のみに対して訓練されたサポートベクトルマシン分類器は、99%の特異度および95%の感度で胃癌におけるEBV感染を特定した。
例えば、一態様において、本開示は、第1の癌状態が第1の発癌性病原体による感染に関連し、第2の癌状態が発癌性病原体を含まない状態に関連する、第1および第2の癌状態を識別するように分類器を訓練するための方法を提供する。方法によれば、図4Aを参照して、ある種の複数の対象における各それぞれの対象についての対応する複数の存在量値を有するデータセットが得られる。各それぞれの存在量値は、それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。データセットはさらに、データセットによって追跡された各それぞれの対象の癌状態の指標を含む。癌状態の指標は、対象が第1または第2の癌状態(例えば、図4Aに示されるように、HPV陽性の頭頸部癌または子宮頸癌、またはHPV陰性の頭頸部癌または子宮頸癌)を有するかどうかを特定する。
いくつかの実施形態において、対象の各々は、同じ起源を有する特定の癌(例えば、図5Aに示されるような胃癌)を有し、対象が第1の癌クラスにあるか第2の癌クラスにあるかを描写するのは、発癌性病原体にも罹患している癌を有する対象の予後が、発癌性病原体に罹患していない癌を有する対象の予後とは異なるといった、この癌に関連すると知られている発癌性病原体(例えば、図5Aの場合はEBVウイルス)にも対象が罹患しているかどうかである。データセットによって追跡された対象のいくつか(第1の対象のサブセット)は、第1の癌状態に罹患し、一方、データセットによって追跡された対象のいくつか(第2の対象のサブセット)は、第2の状態に罹患する。次に、識別遺伝子セットは、複数の対象におけるそれぞれの対象の対応する複数の存在量値および癌状態のそれぞれの指標を使用して特定される。識別遺伝子セットは、複数の遺伝子のサブセットを含む。概して、そのような遺伝子の存在量レベル(例えば、発現)は、第1および第2の癌状態を識別する。識別遺伝子セットに関する詳細は、図2Cのブロック218を参照して以下に開示される。図4Bは、HPV関連癌(頭頸部癌および子宮頸癌)についての識別遺伝子セットを示し、一方、図5Bは、EBV関連癌(胃癌)についての識別遺伝子セットを示している。
複数の対象にわたる識別遺伝子セットについてのそれぞれの存在量値および癌状態のそれぞれの指標を使用して、識別遺伝子セットについてのそれぞれの存在量値の関数として第1および第2の癌状態を識別するように分類器を訓練する。いくつかの任意の実施形態において、訓練された分類器を使用して、試験の複数の存在量値を訓練された分類器に入力することによって、試験対象を第1の癌または第2の状態に分類する(または、試験対象が第1または第2の癌状態を有する尤度を決定する)。そのような実施形態において、試験の複数の存在量値における各それぞれの存在量値は、試験対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。いくつかの任意の実施形態において、訓練された分類器の結果を使用して、試験対象が第1の癌状態または第2の癌状態を有するという決定(または、試験対象が第1または第2の癌状態を有する尤度)に基づいて試験対象の治療的介入または画像化を提供する。
定義
本開示で使用される用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明の説明および特許請求の範囲の中で使用するとき、単数形「a」、「an」および「the」は、文脈において特に明確な指示がない限り、複数形も含むことを意図する。また、本明細書で使用するとき、「および/または」という用語は、列挙する関連項目の1つ以上の任意のおよびあり得るすべての組み合わせを指し、包含することも理解されるであろう。さらに本明細書で使用されるとき、「備える(comprises)」および/または「備えている(comprising)」という用語は、述べた特徴、完全体、ステップ、動作、要素、および/または構成要素が存在することを規定するが、1つ以上の他の特徴、完全体、ステップ、動作、要素、構成要素、および/またはそれらのグループが存在すること、もしくは追加されることを除外しないことも理解されるであろう。
本明細書で使用されるとき、「もし」という用語は、文脈に応じて「場合」もしくは「とき」、または「決定することに応じて」もしくは「検出することに応じて」を意味するものと解釈されてもよい。同様に、「決定される場合」または「(述べた条件または事象を)検出される場合」という句は、文脈に応じて「決定するとき」もしくは「決定することに応じて」、または「(述べた条件または事象を)検出するとき」もしくは「(述べた条件または事象を)検出することに応じて」を意味するものと解釈され得る。
また、第1、第2などの用語は、様々な要素を説明するために本明細書で使用されることがあるが、これらの要素はこれらの用語によって限定されるべきではないことも理解されるであろう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、本開示の範囲から逸脱することなく、第1の対象を第2の対象と称することができ、同様に、第2の対象を第1の対象と称することができる。第1の対象および第2の対象は、両方とも同じ対象であるが、同じ対象ではない。さらに、「対象」、「ユーザ」、および「患者」という用語は、本明細書では互換的に使用される。
本明細書で使用される場合、「対象」という用語は、ヒト(例えば、男性のヒト、女性のヒト、胎児、妊娠中の女性、子供など)、非ヒト哺乳類、または非ヒト動物を含むがこれらに限定されない任意の生きた、または生きていない有機体を指す。哺乳類、爬虫類、鳥類、両生類、魚、有蹄動物、反芻動物、ウシ属(例、ウシ)、ウマ科(例、ウマ)、ヤギおよびヒツジ(例、ヒツジ、ヤギ)、イノシシ科(例、ブタ)、ラクダ科(例、ラクダ、ラマ、アルパカ)、サル、類人猿(例、ゴリラ、チンパンジー)、クマ科蹠行性肉食動物(例、クマ)、家禽、イヌ、ネコ、マウス、ラット、魚、イルカ、クジラ、サメを含むがこれらに限定されない任意のヒトまたは非ヒト動物が対象として役立ち得る。いくつかの実施形態において、対象は、任意の段階の男性または女性(例えば、男性、女性、または子供)である。
本明細書で使用される場合、「対照」、「対照試料」、「参照」、「参照試料」、「正常」、および「正常試料」という用語は、特定の状態を有さない、またはそうでない場合は健常である対象由来の試料を表す。一例において、本明細書に開示される方法は、腫瘍を有する対象に対して実施され得、参照試料は、対象の健常な組織から採取された試料である。参照試料は、対象またはデータベースから取得し得る。参照は、例えば、対象由来の試料の配列決定から得られた配列リードをマッピングするために使用される参照ゲノムであり得る。参照ゲノムは、生物学的試料および体質試料由来の配列リードをアラインメントし、比較することができる一倍体または二倍体ゲノムを指し得る。体質試料の例は、対象から得られた白血球のDNAであり得る。一倍体ゲノムについては、各遺伝子座には1つのヌクレオチドだけ存在し得る。二倍体ゲノムについては、ヘテロ接合遺伝子座が特定され得、各ヘテロ接合遺伝子座は2つの対立遺伝子を有し得、いずれかの対立遺伝子は遺伝子座へのアラインメントについての一致を可能にし得る。
本明細書で使用される場合、「遺伝子座」という用語は、ゲノム内の、すなわち特定の染色体上の位置(例えば、部位)を指す。いくつかの実施形態において、遺伝子座は、ゲノム内の、すなわち特定の染色体上の単一のヌクレオチド位置を指す。いくつかの実施形態において、遺伝子座は、例えば、癌ゲノム内の連続するヌクレオチドの変異(例えば、置換、挿入、または欠失)によって定義されるような、ゲノム内のヌクレオチド位置の小さなグループを指す。正常な哺乳動物細胞は二倍体ゲノムを有しているため、正常な哺乳動物ゲノム(例えば、ヒトゲノム)は、概して、ゲノムにおけるすべての遺伝子座の2つのコピー、または常染色体上にあるすべての遺伝子座の少なくとも2つのコピー、すなわち、母系常染色体の1つのコピーおよび父系常染色体上の1つのコピーを有する。
本明細書で使用される場合、「対立遺伝子」という用語は、染色体遺伝子座での1つ以上のヌクレオチドの特定の配列を指す。
本明細書で使用される場合、「参照対立遺伝子」という用語は、種の集団内のその染色体遺伝子座で表される優勢な対立遺伝子(例えば、「野生型」配列)、または種についての参照ゲノム内で事前定義されている対立遺伝子のいずれかである染色体遺伝子座での1つ以上のヌクレオチドの配列を指す。
本明細書で使用される場合、「変異対立遺伝子」という用語は、種の集団内のその染色体遺伝子座で表される優勢な対立遺伝子ではない(例えば、「野生型」配列ではない)、または種についての参照ゲノム内で事前定義されている対立遺伝子ではないいずれかである染色体遺伝子座での1つ以上のヌクレオチドの配列を指す。
本明細書で使用される場合、「一塩基変異」または「SNV」という用語は、ヌクレオチド配列、例えば、個体から読み取られた配列の位置(例えば、部位)での1つのヌクレオチドの異なるヌクレオチドへの置換を指す。第1の核酸塩基Xから第2の核酸塩基Yへの置換は、「X>Y」として示され得る。例えば、シトシンからチミンへのSNVは、「C>T」として示され得る。
本明細書で使用される場合、「変異」または「変異体」という用語は、1つ以上の細胞の遺伝物質における検出可能な変化を指す。特定の例において、1つ以上の変異が癌細胞に見出され得、癌細胞を特定し得る(例えば、ドライバーおよびパッセンジャーの変異)。変異は、明白な細胞から娘細胞に伝達する可能性がある。当業者は、親細胞における遺伝子変異(例えば、ドライバー変異)が、娘細胞において追加の異なる変異(例えば、パッセンジャー変異)を誘発し得ることを理解するであろう。変異は、概して核酸において起こる。特定の例において、変異は、1つ以上のデオキシリボ核酸またはその断片における検出可能な変化であり得る。変異は、概して、核酸における新しい位置に追加、欠失、置換、反転、または転置されたヌクレオチドを指す。変異は、自然発生の変異または実験的に誘発された変異であり得る。特定の組織の配列における変異は、「組織特異的対立遺伝子」の例である。例えば、腫瘍は、正常細胞では起こらない遺伝子座での対立遺伝子をもたらす変異を有し得る。「組織特異的対立遺伝子」の別の例は、胎児組織で起こるが母体組織では起こらない胎児特異的対立遺伝子である。
本明細書で使用される場合、「癌」、「癌性組織」、または「腫瘍」という用語は、塊の成長が正常組織の成長を上回り、調整されていない組織の異常な塊を指す。癌または腫瘍は、以下の特徴に応じて「良性」または「悪性」として定義することができる:形態および機能性を含む細胞分化の程度、成長速度、局所浸潤および転移。「良性」腫瘍は十分に分化することができ、悪性腫瘍よりも成長が遅いという特徴があり、原発部位に局在したままである。加えて、場合によっては、良性腫瘍には、離れた部位に侵入、浸潤、または転移する能力を有していない。「悪性」腫瘍は、低分化(退形成)であり得、進行性の侵入、浸潤、および周囲の組織の破壊を伴う特徴的に急速な成長を有する。さらに、悪性腫瘍は、離れた部位に転移する能力を有し得る。したがって、癌細胞は、その成長が正常組織の成長と協調していない組織の異常な塊内に見られる細胞である。したがって、「腫瘍試料」は、本明細書に記載のとおり、対象の腫瘍から得られた、またはそれに由来する生物学的試料を指す。
本明細書で使用される場合、「発癌性病原体感染に関連する癌状態」は、概して、または特定の発癌性病原体に関して、特定の癌に罹患している癌対象が、特定の癌に関連すると知られる病原体(例えば、ウイルス)にさらに罹患している状態を指す。
本明細書で使用される場合、「発癌性病原体感染に関連しない癌状態」は、概して、または特定の発癌性病原体に関して、特定の癌に罹患している癌対象が、特定の癌に関連すると知られる病原体(例えば、ウイルス)に特に罹患していない状態を指す。
本明細書で使用される場合、「配列決定(sequencing)」、「配列決定(sequence determination)」および本明細書で使用される同類の用語は、概して、核酸またはタンパク質などの生体高分子の順序を決定するために使用され得るありとあらゆる生化学的プロセスを指す。例えば、配列決定データは、mRNA転写物またはゲノム遺伝子座などの核酸分子におけるヌクレオチド塩基のすべてまたは一部を含み得る。
本明細書で使用される場合、「配列リード」または「リード」という用語は、本明細書に記載されるかまたは当技術分野で既知の任意の配列決定プロセスによって産生されるヌクレオチド配列を指す。リードは、核酸断片の一端から生成され得(「シングルエンドリード」)、場合によっては、核酸の両端から生成されることもある(例えば、ペアエンドリード、ダブルエンドリード)。配列リードの長さは、多くの場合、特定の配列決定技術に関連する。例えば、ハイスループット法は、サイズが数十~数百塩基対(bp)まで変化し得る配列リードを提供する。いくつかの実施形態において、配列リードは、約15bp~900bp長(例えば、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、または約500bp)の平均、中央値、または平均の長さのものである。いくつかの実施形態において、配列リードは、約1000bp、2000bp、5000bp、10,000bp、または50,000bp以上の平均、中央値、または平均の長さのものである。例えば、ナノポア配列決定は、サイズが数十~数百、数千塩基対まで変化し得る配列リードを提供し得る。Illumina並列配列決定は、それほど変化しない配列リードを提供し得、例えば、ほとんどの配列リードは200bp未満にし得る。配列リード(または配列決定リード)は、核酸分子(例えば、一連のヌクレオチド)に対応する配列情報を指し得る。例えば、配列リードは、核酸断片の一部由来の一連のヌクレオチド(例えば、約20~約150)に対応し得るか、核酸断片の一端または両端の一連のヌクレオチドに対応し得るか、または核酸断片全体のヌクレオチドに対応し得る。配列リードは、様々な方法で、例えば、配列決定技術を使用して、またはプローブ、例えば、ハイブリダイゼーションアレイもしくは捕捉プローブ、または、ポリメラーゼ連鎖反応(PCR)、もしくは単一のプライマーを使用する線形増幅、もしくは等温増幅などの増幅技術を使用して得ることができる。
本明細書で使用される場合、「リードセグメント」または「リード」という用語は、個体から得られた配列リードおよび/または個体から得られた試料由来の最初の配列リードに由来するヌクレオチド配列を含む任意のヌクレオチド配列を指す。例えば、リードセグメントは、アラインメントされた配列リード、折りたたまれた配列リード、または縫い合わせられたリードを指し得る。さらに、リードセグメントは、一塩基変異などの個々のヌクレオチド塩基を指し得る。
本明細書で使用される場合、「リード深度」、「配列決定深度」、または「深度」という用語は、所与の位置、領域、または遺伝子座で個体から得られた試料由来のリードセグメントの総数を指す。遺伝子座は、ヌクレオチドのように小さくても、染色体腕のように大きくても、ゲノム全体のように大きくても可能である。配列決定深度は、「Yx」、例えば50x、100xなどで表すことができ、「Y」は、遺伝子座が配列リードでカバーされた回数を指す。いくつかの実施形態において、深度は、ゲノムにわたって、エクソームにわたって、または標的配列決定パネルにわたっての平均配列決定深度を指す。配列決定深度は、複数の遺伝子座、全ゲノムに適用することもでき、この場合、Yは、遺伝子座または半数体ゲノム、全ゲノム、または全エクソームがそれぞれ配列決定される平均回数を指す。平均深度が引用される場合、データセットに含まれる異なる遺伝子座についての実際の深度は、値の範囲を超えて及ぶことができる。ウルトラディープ配列決定は、遺伝子座での配列決定深度において少なくとも100xを指し得る。
本明細書で使用される場合、「配列決定幅」という用語は、特定の参照エクソーム(例えば、ヒト参照エクソーム)、特定の参照ゲノム(例えば、ヒト参照ゲノム)、またはエクソームまたはゲノムの一部のいくつの割合が分析されたかを指す。割合の分母は反復マスクされたゲノムであり得、したがって100%は、マスクされた部分を除いたすべての参照ゲノムに対応し得る。反復マスクされたエクソームまたはゲノムは、配列反復がマスクされているエクソームまたはゲノムを指し得る(例えば、配列リードはエクソームまたはゲノムのマスクされていない部分にアラインメントする)。エクソームまたはゲノムの任意の部分をマスクすることができ、したがって、参照エクソームまたはゲノムの任意の特定の部分に焦点を合わせることができる。ブロード配列決定は、エクソームまたはゲノムの少なくとも0.1%を配列決定および分析することを指す。
本明細書で使用される場合、「参照エクソーム」という用語は、対象由来の特定された配列を参照するために使用され得る任意の有機体または病原体由来の任意の組織の、部分的か完全かにかかわらず、任意の特定の既知の、配列決定された、または特徴付けられたエクソームを指す。ヒト対象だけでなく他の多くの生物について使用される例示的な参照エクソームは、実施例1および2に提供されている。
本明細書で使用される場合、「参照ゲノム」という用語は、対象由来の特定された配列を参照するために使用され得る任意の有機体または病原体の、部分的か完全かにかかわらず、任意の特定の既知の、配列決定された、または特徴付けられたゲノムを指す。ヒト対象および多くの他の有機体について使用される例示的な参照ゲノムは、National Center for Biotechnology Information(「NCBI」)またはthe University of California, Santa Cruz(UCSC)がホストするオンラインゲノムブラウザにおいて提供される。「ゲノム」とは、核酸配列で表現された、有機体または病原体の完全な遺伝情報を指す。本明細書で使用される場合、参照配列または参照ゲノムは、多くの場合、個体または複数の個体由来の組み立てられた、または部分的に組み立てられたゲノム配列である。いくつかの実施形態において、参照ゲノムは、1人以上のヒト個体由来の組み立てられた、または部分的に組み立てられたゲノム配列である。参照ゲノムは、種の遺伝子のセットの代表的な例と見なし得る。いくつかの実施形態において、参照ゲノムは、染色体に割り当てられた配列を含む。例示的なヒト参照ゲノムは、NCBIビルド34(UCSC同等物:hg16)、NCBIビルド35(UCSC同等物:hg17)、NCBIビルド36.1(UCSC同等物:hg18)、GRCh37(UCSC同等物:hg19)、およびGRCh38(UCSC同等物:hg38)を含むが、これらに限定されない。
本明細書で使用される場合、「アッセイ」という用語は、物質、例えば、核酸、タンパク質、細胞、組織、または器官の特性を決定するための技術を指す。アッセイ(例えば、第1のアッセイまたは第2のアッセイ)は、試料における核酸のコピー数の変化、試料における核酸のメチル化状態、試料における核酸の断片サイズ分布、試料における核酸の変異状態、または試料における核酸の断片化パターンを決定するための技術を含み得る。当業者に知られている任意のアッセイを使用して、本明細書に記載の核酸の特性のうちのいずれかを検出し得る。核酸の特性は、配列、ゲノム同一性、コピー数、1つ以上のヌクレオチド位置でのメチル化状態、核酸のサイズ、1つ以上のヌクレオチド位置での核酸における変異の有無、および核酸の断片化パターン(例えば、核酸が断片化するヌクレオチド位置)を含み得る。アッセイまたは方法は、特定の感度および/または特異度を有し得、診断ツールとしてのそれらの相対的な有用性を、ROC-AUC統計を使用して測定し得る。
「分類」という用語は、試料の特定の特性に関連付けられている任意の数字またはその他の記号を指す場合がある。例えば、「+」記号(または「陽性」という単語)は、試料が欠失または増幅を有するものとして分類されていることを示すことができる。別の例において、「分類」という用語は、発癌性病原体感染状態、対象および/または試料における腫瘍組織の量、対象および/または試料における腫瘍のサイズ、対象における腫瘍の病期、対象および/または試料における腫瘍負荷、ならびに対象における腫瘍転移の存在を指し得る。分類は、二値(例えば、正または負)であるか、またはより多くのレベルの分類(例えば、1~10または0~1のスケール)を有することもできる。「カットオフ」および「閾値」という用語は、操作において使用される所定の数を指し得る。例えば、カットオフサイズは、それを上回ると断片が除外されるサイズを指し得る。閾値は、それを上回るか、または下回ると特定の分類が適用される値であり得る。これらの用語のいずれかは、これらの文脈のいずれかで使用され得る。
本明細書で使用される場合、「相対的存在量」という用語は、特定の特徴(例えば、エクソームの特定の領域にアラインメントする)を有する第1の量の核酸断片の、特定の特徴(例えば、エクソームの特定の領域にアラインメントする)を有する第2の量の核酸断片に対する比を指し得る。一例において、相対的存在量は、試料における特定の遺伝子(例えば、エクソームの特定の領域にアラインメントする)をコードするmRNA転写産物の数の、試料におけるmRNA転写産物の総数に対する比を指し得る。
本明細書で使用される「訓練されていない分類器」という用語は、訓練データセットで訓練されていない分類器を指す。
本明細書で使用される場合、「有効量」または「治療有効量」は、治療時に有益なまたは所望の臨床結果に影響を与えるのに十分な量である。有効量は、1つ以上の用量で対象に投与され得る。治療に関して、有効量は、疾患の進行を緩和、改善、安定化、逆転、または遅らせる、そうでなければ疾患の病理学的結果を減少させるのに十分な量である。有効量は、概して、個別に医師によって決定され、当業者の技術の範囲内である。有効量を達成するための適切な投薬量を決定する際には、通常、いくつかの要因が考慮される。これらの要因は、対象の年齢、性別、および体重、治療される状態、状態の重症度、ならびに投与される治療薬の形態および有効濃度を含む。
本明細書で使用される場合、「感度」または「真陽性率」(TPR)という用語は、真陽性の数を真陽性および偽陰性の数の合計で割ったものを指す。感度は、真に状態を有する母集団の割合を正しく特定するためのアッセイまたは方法の能力を特徴づけることができる。例えば、感度は、癌を有する集団内の対象の数を正しく特定する方法の能力を特徴づけることができる。別の例において、感度は、癌を示す1つ以上のマーカーを正しく特定する方法の能力を特徴づけることができる。
本明細書で使用される場合、「特異度」または「真陰性率」(TNR)という用語は、真陰性の数を真陰性および偽陽性の数の合計で割ったものを指す。特異度は、真に状態を有さない母集団の割合を正しく特定するアッセイまたは方法の能力を特徴づけることができる。例えば、特異度は、癌を有さない集団内の対象の数を正しく特定する方法の能力を特徴づけることができる。別の例において、特異度は、癌を示す1つ以上のマーカーを正しく特定する方法の能力を特徴づける。
本開示で使用される用語は、特定の場合を説明することのみを目的としており、限定することを意図するものではない。本明細書で使用される場合、単数形「a」、「an」および「the」は、文脈において特に明確な指示がない限り、複数形も含むことを意図する。さらに、「含んでいる(including)」、「含む(includes)」、「有している(having)」、「有する(has)」、「有する(with)」、またはそれらの異形の用語が、詳細な説明および/または特許請求の範囲のいずれかにおいて使用される限り、そのような用語は、「含んでいる(comprising)」という用語と同様の方法で包括的であることを意図する。
説明のための適用例を参照して、いくつかの態様を以下に説明する。本明細書に記載の特徴の完全な理解を提供するために、多数の特定の詳細、関係、および方法が示されていることを理解されたい。しかしながら、当業者は、本明細書に記載の特徴が、特定の詳細のうちの1つ以上を有さないか、または他の方法で実施できることを容易に認識するであろう。いくつかの行為は異なる順序で、および/または他の行為または事象と同時に起こり得るため、本明細書に記載の特徴は、行為または事象の図解された順序によって制限されない。さらに、本明細書に記載の特徴に従った方法論を実施するために、図示されたすべての行為または事象が必要とされるわけではない。
ここで実施形態を詳細に参照すると、その例は添付の図面に示される。以下の詳細な説明では、本開示の完全な理解を提供するために、多数の特定の詳細が記載される。しかしながら、本開示がこれらの具体的な詳細なしで実践されてもよいことは当業者には明らかであろう。他の例では、既知の方法、手順、構成要素、回路、およびネットワークは、実施形態の態様を不必要に曖昧にしないように詳細には説明されない。
システムの実施形態の例
本開示のいくつかの態様の概要および本開示において使用されるいくつかの定義が提供されたので、次に、例示的なシステムの詳細を図1と併せて説明する。図1は、いくつかの実装形態によるシステム100を示すブロック図である。いくつかの実装形態におけるデバイス100は、1つ以上の処理ユニットCPU102(プロセッサとも呼ばれる)、1つ以上のネットワークインターフェース104、ユーザインターフェース106、非永続メモリ111、永続メモリ112、およびこれらのコンポーネントを相互接続するための1つ以上の通信バス114を含む。1つ以上の通信バス114は、任意で、システムコンポーネント間の通信を相互接続および制御する回路(チップセットと呼ばれることもある)を含む。非永続メモリ111は、典型的には、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリなどの高速ランダムアクセスメモリを含み、一方、永続メモリ112は、典型的には、CD-ROM、デジタル多用途ディスク(DVD)もしくは他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、磁気ディスクストレージデバイス、光ディスクストレージデバイス、フラッシュメモリデバイス、または他の不揮発性ソリッドステートストレージデバイスものを含む。永続メモリ112は、任意で、CPU102から遠隔に配置された1つ以上のストレージデバイスを含む。永続メモリ112、および非永続メモリ112内の不揮発性メモリデバイスは、非一時的コンピュータ可読記憶媒体を備える。いくつかの実装形態において、非永続メモリ111、または非一時的コンピュータ可読記憶媒体は、以下のプログラム、モジュール、データ構造体、またはそれらのサブセットを、場合には永続メモリ112と組み合わせて、格納する。
・様々な基本的なシステムサービスを処理し、ハードウェアに依存するタスクを実行するための手順を含む、任意のオペレーティングシステム116;
・システム100を他のデバイスおよび/または通信ネットワーク105と接続するための任意のネットワーク通信モジュール(または命令)118;
・発癌性病原体感染に関連する第1の癌状態を、発癌性病原体感染に関連しない第2の癌状態と区別する分類器を訓練するための任意の分類器訓練モジュール120;
・1つ以上の訓練対象124由来の発現データを含む、訓練対象122由来の腫瘍試料についてのデータセットのための任意のデータ格納であり、発現データは、複数の遺伝子126の各々についての複数の存在量データを含み、1つ以上の遺伝子127、および癌状態128の各々についての複数の変異対立遺伝子についてサポートする;
・発癌性病原体感染に関連する第1の癌状態を、発癌性病原体感染に関連しない第2の癌状態と区別する分類器を検証するための任意の分類器検証モジュール130;
・1つ以上の訓練対象由来の発現データを含む、検証対象由来の腫瘍試料についてのデータセットのための任意のデータ格納であり、発現データは、複数の遺伝子および癌状態の各々についての複数の存在量データを含む;
・分類器、例えば、分類器訓練モジュール120を使用して訓練されたものを使用して、発癌性病原体感染に関連する第1の癌状態、または発癌性病原体感染に関連しない第2の癌状態のいずれかとして、患者における癌を分類するための任意の患者分類モジュール134;
・1人以上の癌患者140由来の発現データを含む癌患者136についてのデータ構築物のための任意のデータ格納であり、発現データは、複数の遺伝子142の各々についての複数の存在量データを含む;ならびに
・1人以上の癌患者144由来の変異対立遺伝子データを含む、癌患者138についてのデータ構築物のための任意のデータ格納であり、変異対立遺伝子データは、1つ以上の遺伝子146の各々についての変異対立遺伝子についての複数のサポートを含む。
様々な実装形態において、上記で特定された要素のうちの1つ以上は、前述のメモリデバイスのうちの1つ以上に格納され、上記の機能を実行するための一連の命令に対応する。上記で特定されたモジュール、データまたはプログラム(例えば、命令のセット)は、別々のソフトウェアプログラム、手順、データセットまたはモジュールとして実装される必要はなく、したがって、これらのモジュールおよびデータの様々なサブセットは、様々な実装形態において組み合わされ得るか、またはそうでなければ再構成され得る。いくつかの実装形態において、非永続メモリ111は、任意で、上記の特定されたモジュールおよびデータ構造体のサブセットを格納する。さらに、いくつかの実施形態において、メモリは、上述していない追加のモジュールおよびデータ構造体を格納する。いくつかの実施形態において、上記で特定された要素のうちの1つ以上は、視覚化システム100以外のコンピュータシステムに格納され、それは、視覚化システム100が必要なときにそのようなデータの全部または一部を検索し得るように、視覚化システム100によってアドレス指定可能である。
図1は「システム100」を示しているが、図は、本明細書に記載の実装形態の構造概略図としてではなく、コンピュータシステムに存在し得る様々な特徴の機能的説明として意図されている。実際に、そして当業者によって認識されるように、別々に示されたアイテムは、組み合わせることができ、いくつかのアイテムは、別々にすることができる。さらに、図1は、非永続メモリ111内の特定のデータおよびモジュールを示しているが、これらのデータおよびモジュールの一部またはすべては、永続メモリ112内にあることができる。
分類器訓練
本開示によるシステムは、図1を参照して開示されているが、本開示による方法の概要は、図2Aと併せて提供される。図2Aのブロック204では、データセットが取得される。データセットは、ある種の複数の対象における各それぞれの対象についての対応する複数の存在量値を含む。各それぞれの存在量値は、それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。データセットはさらに、データセットによって追跡された各それぞれの対象の癌状態の指標を含む。癌状態の指標は、対象が第1または第2の癌状態を有するかどうかを特定する。
いくつかの実施形態において、対象の各々は、同じ起源を有する特定の癌(例えば、胃癌)を有し、対象が第1の癌クラスにあるか第2の癌クラスにあるかを描写するのは、発癌性病原体にも罹患している癌を有する対象の予後が、発癌性病原体に罹患していない癌を有する対象の予後とは異なるといった、この癌に関連すると知られている発癌性病原体にも対象が罹患しているかどうかである。例えば、特定の発癌性病原体がエプスタインバーウイルス(EBV)である場合、対象の各々は、胃癌腫瘍を有し、それぞれの対象が第1または第2の癌クラスであるかどうかを決定するのは、対象が、EBVにも罹患しているかどうかである。
いくつかの実施形態において、対象の各々は、一連の癌に関連する癌を有し、対象が第1の癌クラスにあるか第2の癌クラスにあるかを描写するのは、発癌性病原体に罹患している一連の癌におけるそれぞれの癌を有するそれらの対象の予後が、発癌性病原体に罹患していないそれぞれの癌を有するそれらの対象の予後とは異なるといった、この一連の癌におけるそれぞれの癌のうちのいずれかに関連すると知られている発癌性病原体にも対象が罹患しているかどうかである。例えば、特定の発癌性病原体がヒトパピローマウイルス(HPV)である場合、一連の癌は頭頸部扁平上皮癌および子宮頸癌である。つまり、各対象は、頭頸部扁平上皮癌または子宮頸癌を有しており、それぞれの対象が第1または第2の癌クラスであるかどうかを決定するのは、対象が、HPVにも感染しているかどうかである。
いくつかの実施形態において、対象の各々は、以下の表1に記載の同じ行の列2に記載される癌を有し、対象が第1の癌クラスにあるか第2の癌クラスにあるかを描写するのは、対象が以下の表1の同じ行の列1の病原体にも罹患しているかどうかである。例えば、Flora and Bonanni,Carcinogenesis 32(6),pp.787-795を参照されたく、それは参照により本明細書に組み込まれる。
Figure 2022521791000007

本明細書で使用される場合、「ヒト腸内細菌叢」という用語は、ヒト消化管に生息するすべての微生物を指し、そのサブセットは発癌性であることが見出されている。例えば、結腸癌または結腸直腸癌を引き起こす、またはそれらと相関していると仮定されている病原体は、硫化物生成細菌(例えば、Fusobacterium、Desulfovibrio、およびBilophila wadsworthia)、Streptococcus bovis、およびFusobacterium nucleatumを含む。詳細については、Dahmus et al.,2018,J Gastrointest Oncol.,9(4),pp.769-77を参照されたく、その内容は、すべての目的のために、その全体が本明細書に組み込まれる。
データセットによって追跡された対象のいくつか(第1の対象のサブセット)は、第1の癌状態に罹患し、一方、データセットによって追跡された対象のいくつか(第2の対象のサブセット)は、第2の状態に罹患する。このようなデータセットに関する詳細は、図2Bのブロック202を参照して以下に開示されている。
次に、図2Aのブロック218において、識別遺伝子セットは、複数の対象におけるそれぞれの対象の対応する複数の存在量値および癌状態のそれぞれの指標を使用して特定される。識別遺伝子セットは、複数の遺伝子のサブセットを含む。概して、そのような遺伝子の存在量レベル(例えば、発現)は、第1の癌状態および第2の癌状態を識別する。識別遺伝子セットに関する詳細は、図2Cのブロック218を参照して以下に開示されている。
次に、図2Aのブロック242において、複数の対象にわたる識別遺伝子セットについてのそれぞれの存在量値および癌状態のそれぞれの指標を使用して、識別遺伝子セットについてのそれぞれの存在量値の関数として第1および第2の癌状態を識別するように分類器を訓練する。識別遺伝子セットに基づくそのような分類器の訓練に関する詳細は、図2Eのブロック242を参照して以下に開示されている。
さらに、図2Aのブロック246を参照して、いくつかの任意の実施形態において、訓練された分類器を使用して、試験の複数の存在量値を分類器に入力することによって、試験対象を第1の癌または第2の状態に分類する(または、試験対象が第1または第2の癌状態を有する尤度を決定する)。そのような実施形態において、試験の複数の存在量値における各それぞれの存在量値は、試験対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。試験対象は、その試験の複数の存在量値が分類器を訓練するために使用されなかった対象である。さらに、典型的な例において、試験対象は、対象が第1または第2の癌状態を有するかどうかが確認されていない対象である。本開示による訓練された分類器を使用する試験対象の診断に関する詳細は、図2Eのブロック246を参照して以下に開示される。
さらに、図2Aのブロック248を参照して、いくつかの任意の実施形態において、訓練された分類器の結果を使用して、試験対象が第1の癌状態または第2の癌状態を有するという決定(または、試験対象が第1または第2の癌状態を有する尤度)に基づいて試験対象の治療的介入または画像化を提供する。複数の試験遺伝子の存在量データに対する訓練された分類器の適用の結果として生じるそのような治療選択肢に関する詳細は、図2Eのブロック248を参照して以下に開示される。
開示された方法の概要が図2Aに関連して提供されたので、注目は、開示された方法に関するさらなる詳細を提供する図2B~2Eに移る。
ブロック202。図2Aのブロック202を参照すると、第1の癌状態および第2の癌状態を識別するように分類器を訓練するための方法が提供される。上で論じたように、第1の癌状態は、第1の発癌性病原体による感染に関連し、第2の癌状態は、発癌性病原体を含まない状態に関連している。発癌性病原体感染に関連することが知られている癌の非限定的な例を、図3を参照して以下に説明する。したがって、いくつかの実施形態において、第1の癌状態は、例えば以下に記載されるように、特定の発癌性病原体感染に関連する特定の型の癌であり、第2の癌状態は、特定の発癌性病原体感染に関連しない同じ特定の型の癌である。例えば、一実施形態において、第1の癌状態は、HPV感染に関連する子宮頸癌であり、第2の癌状態は、病原体感染に関連しない子宮頸癌である。
ブロック204。図2Aのブロック204を参照すると、単一種の複数の対象における各それぞれの対象についての対応する複数の存在量値を含むデータセットが得られる。対応する複数の存在量値における各それぞれの存在量値は、それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。データセットはさらに、それぞれの対象の癌状態の指標を含む。癌状態の指標は、それぞれの対象が第1または第2の癌状態を有するかどうかを特定する。複数の対象は、第1の癌状態に罹患している第1の対象のサブセット、および第2の状態に罹患している第2の対象のサブセットを含む。
ブロック206。ブロック206を参照すると、いくつかの実施形態において、対応する複数の存在量値は、RNA-seqによって得られる。RNA-seqは、次世代配列決定に基づくRNAプロファイリングについての方法論であり、複数の対象にわたる遺伝子発現パターンの測定および比較を可能にする。いくつかの実施形態において、「配列リード」と呼ばれる数百万の短い一連のものは、対象の腫瘍組織から得られる入力RNAから調製されたcDNAのランダムな位置を配列決定することから生成される。次に、これらのリードを参照ゲノムにコンピュータでマッピングして、「転写マップ」を明らかにすることができ、各遺伝子にアラインメントされた配列リードの数は、その発現レベルの尺度(例えば、存在量)をもたらす。次世代配列決定は、Shendure,2008,“Next-generation DNA sequencing,”Nat.Biotechnology 26,pp.1135-1145に開示されており、それは参照により本明細書に組み込まれる。RNA-seqは、Nagalakshmi et al.,2008,“The transcriptional landscape of the yeast genome defined by RNA sequencing,”Science 320,pp.1344-1349、およびFinotell and Camillo,2014,“Measuring differential gene expression with RNA-seq:challenges and strategies for data analysis,”Briefings in Functional Genomics 14(2),pp.130-142に開示されており、それらの各々は参照により本明細書に組み込まれる。
ブロック206に従って、複数の対象における各対象の各腫瘍試料について、目的の試料中のRNAは、最初に断片化され、相補的DNA(cDNA)に逆転写される。次いで、得られたcDNAは増幅され、次世代DNA配列決定(NGS)に供される。原則として、RNA-seqについては、任意のNGS技術を使用し得る。いくつかの実施形態において、Illumina配列決定装置(illumina.comのインターネットを参照)が使用される。Wang,Z.,et al.,“RNA-Seq: a revolutionary tool for transcriptomics,”Nat Rev Genet., 10(1):57-63(2009)を参照されたく、それは参照により本明細書に組み込まれる。次いで、そのような各試料について生成された数百万の短いリードが参照ゲノムにマッピングされ、「カウント」と呼ばれる各遺伝子にアラインメントされたリードの数が、調査のもとでの試料における遺伝子発現レベルのデジタル測定値をもたらす。
いくつかの代替の実施形態において、RNA-seqを使用するのではなく、マイクロアレイを使用して、遺伝子存在量値を測定する。そのようなマイクロアレイは、Wang et al.,2009,“RNA-Seq: a revolutionary tool for transcriptomics,”Nat Rev Genet 10,pp.57-63、Roy et al.,2011,“A comparison of analog and next-generation transcriptomic tools for mammalian studies,”Brief Funct Genomic 10:135-150、Shendure,2008,“The beginning of the end for microarrays?,”Nat Methods 5,pp.585-587、Cloonan et al.,2008,“Stem cell transcriptome profiling via massive-scale mRNA sequencing,”Nat.Methods 5,pp.613-619、Mortazavi et al.,2008,“Mapping and quantifying mammalian transcriptomes by RNA-Seq,”Nat Methods 5,pp.621-628、およびBullard et al.,2010,“Evaluation of statistical methods for normalization and differential expression in mRNA-Seq experiments”BMC Bioinformatics 11,p.94に開示されており、それらの各々は参照により本明細書に組み込まれる。
RNA-seqデータ分析パイプラインの第1の計算ステップはリードマッピングであり、リードは、リード配列に一致する遺伝子領域を特定することにより、参照ゲノムまたはトランスクリプトームにアラインメントされる。このタスクについては、様々なアラインメントツールのうちのいずれかを使用し得る。例えば、Hatem et al.,2013,“Benchmarking short sequence mapping tools,”BMC Bioinformatics 14,p.184、およびEngstrom et al.,“Systematic evaluation of spliced alignment programs for RNA-seq data,Nat Methods 10,pp.1185-1191を参照されたく、それらの各々は参照により本明細書に組み込まれる。いくつかの実施形態において、マッピングプロセスは、参照ゲノムまたはリードのいずれかのインデックスを構築することによって始まり、次いで、それを使用して、リードがアラインメントする可能性が高い参照配列における一連の位置を検索する。この可能なマッピング位置のサブセットが特定されると、これらの候補領域で、より低速でより感度の高いアルゴリズムを使用してアラインメントが実行される。例えば、Hatem et al.,2013,“Benchmarking short sequence mapping tools,”BMC Bioinformatics 14:p.184、およびFlicek and Birney,2009,“Sense from sequence reads:methods for alignment and assembly,”Nat Methods 6(Suppl.11),S6-S12を参照されたく、それらの各々は参照により本明細書に組み込まれる。いくつかの実施形態において、マッピングツールは、ハッシュテーブルを利用するか、またはBurrows-Wheeler変換(BWT)を利用する方法論である。例えば、Li and Homer,2010,“A survey of sequence alignment algorithms for next-generation sequencing,”Brief Bioinformatics 11,pp.473-483を参照されたく、それは参照により本明細書に組み込まれる。
マッピング後、その存在量(例えば、発現)レベルの推定値を提供するために、エクソン、転写産物、または遺伝子などの各コーディングユニットにアラインメントされたリードを使用してカウントを計算する。いくつかの実施形態において、そのようなカウントは、遺伝子のエクソンと重複するリードの総数を考慮する。しかしながら、いくつかの例において、配列リードの一部が既知のエクソンの境界の外側にマッピングされるため、代替の実施形態は、遺伝子の全長を考慮し、イントロン由来のリードもカウントする。さらに、いくつかの実施形態において、スプライシングされたリードを使用して、遺伝子の異なるスプライシングアイソフォームの存在量をモデル化する。例えば、Trapnell et al.,2010,“Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation,”Nat Biotechnol 28,pp.511-515、およびGatto et al, 2014, “Fine-Splice, enhanced splice junction detection and quantification: a novel pipeline based on the assessment of diverse RNA-Seq alignment solutions,”Nucleic Acids Res 42,p.e71を参照されたく、それらの各々は参照により本明細書に組み込まれる。
上で説明したように、RNA-seqデータからの遺伝子存在量の定量化は、典型的には、2つの計算ステップ、参照ゲノムまたはトランスクリプトームへのリードのアラインメント、およびアラインメントされたリードに基づく遺伝子およびアイソフォーム存在量のその後の推定、を通じて分析パイプラインにおいて実装される。残念ながら、最も使用されているRNA-Seq技術によって生成されたリードは、概して、それらが試料採取された転写産物よりもはるかに短い。結果として、類似の配列を有する転写産物の存在において、特定の遺伝子に短い配列リードを一意に割り当てることが常に可能であるとは限らない。そのような配列リードは、参照ゲノムの2つ以上の領域と相同であるため、「マルチリード」と呼ばれる。いくつかの実施形態において、そのようなマルチリードは廃棄される、すなわち、それらは遺伝子存在量カウントに寄与しない。いくつかの実施形態において、曖昧さを解決するために、MMSEQまたはRSEMなどのプログラムが使用される。例えば、Turro et al.,2011,“Haplotype and isoform specific expression estimation using multi-mapping RNAseq reads,”Genome Biol 12,p.R13、およびNicolae et al.,“Estimation of alternative splicing isoform frequencies from RNA-Seq data,”Algorithms Mol Biol 6,p.9を参照されたく、それらの各々は参照により本明細書に組み込まれる。
RNA-seqの別の態様は、配列リードカウントの正規化である。いくつかの実施形態において、これは、異なる配列決定深度を考慮に入れるための正規化を含む。例えば、Lin et al.,2011,“Comparative studies of de novo assembly tools for next-generation sequencing technologies,”Bioinformatics 27,pp.2031-2037、Robinson Oshlack, 2010,“A scaling normalization method for differential expression analysis of RNA-seq data,”Genome Biol 11,p.R25、およびLi et al.,2012,“Normalization, testing, and false discovery rate estimation for RNA-sequencing data, Biostatistics 13,pp.523-538を参照されたく、それらの各々は参照により本明細書に組み込まれる。いくつかの実施形態において、配列リードカウントは、遺伝子長バイアスを説明するために正規化される。Finotell and Camillo,2014,“Measuring differential gene expression with RNA-seq:challenges and strategies for data analysis,”Briefings in Functional Genomics 14(2),pp.130-142を参照されたく、それは参照により本明細書に組み込まれる。
ブロック208。図2Bのブロック208を参照すると、いくつかの実施形態において、複数の対象における各対象は、第1の型の癌に罹患している。言い換えれば、いくつかの実施形態において、データベース122における各対象は、同じ型の癌に罹患している。いくつかのそのような実施形態において、複数の対象における各対象は、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、頭頸部癌、卵巣癌、肝胆道癌、子宮頸癌、甲状腺癌、または膀胱癌を有する。
ブロック210。図2Bのブロック208を参照すると、いくつかの実施形態において、複数の対象における各対象は、第1の病期の第1の型の癌に罹患している。言い換えれば、いくつかの実施形態において、データベース122における各対象は、同じ型の癌に罹患し、該癌は同じ病期である。いくつかのそのような実施形態において、複数の対象における各対象は、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、頭頸部癌、卵巣癌、肝胆道癌、子宮頸癌、甲状腺癌、または膀胱癌を有する。さらに、そのような実施形態において、複数の対象における各対象における該癌の病期は、I期、II期、III期、またはIV期の癌である。
ブロック212~214。図2Bのブロック212および図2Cのブロック214を参照すると、開示された方法において使用されるコホートは、対象をスクリーニングして第1または第2の癌状態を有するかどうかを確認するのに適した性能を有する分類器を開発するのに十分なサイズである。したがって、いくつかの実施形態において、複数の対象は100個の対象を含み、第1の対象のサブセット(第1の癌状態を有するもの)は20個の対象を含み、第2の対象のサブセット(第2の癌状態を有するもの)は20個の対象を含む。これはほんの一例である。他の実施形態において、複数の対象は1000個の対象を含み、第1の対象のサブセットは100個の対象を含み、第2の対象のサブセットは100個の対象を含む。さらに他の実施形態において、複数の対象は、100個、500個、2000個、4000個、または10000個の対象を含み、第1の対象のサブセットは、100個の対象、500個の対象、または1000個の対象を含み、第2の対象のサブセットは、100個の対象、500個の対象、または1000個の対象で構成される。いくつかの実施形態において、対象のうちのより多くが、第2の癌状態よりも第1の癌状態を有する。例えば、いくつかの実施形態において、データセット122における対象の、10パーセント超、20パーセント超、30パーセント超、40パーセント超、50パーセント超、60パーセント超、70パーセント超、80パーセント超、または90パーセント超が第1の癌状態であり、残りが第2の癌状態である。
ブロック216。図2Cのブロック216を参照すると、いくつかの実施形態において、開示された方法は、ヒトである訓練対象で使用される。データセット122における各訓練対象は同じ種由来であるが、種がヒトである必要はない。いくつかの実施形態において、種は、イヌ、ウシ、ブタ、またはいくつかの他の種である。
ブロック218。図2Cのブロック218を参照すると、単一種の複数の対象における各それぞれの対象についての対応する複数の存在量値を含むデータセット122が取得されると、データセット122は、データセット122の複数の対象におけるそれぞれの対象の存在量値および癌状態のそれぞれの指標を使用して識別遺伝子セットを特定するために使用される。識別遺伝子セットは、複数の遺伝子のサブセットを含む。本開示のいくつかの実施形態による識別遺伝子セットを特定するための特定の方法は、ブロック226~240を参照して以下に詳述される。
ブロック220~224。図2Cのブロック220を参照すると、いくつかの実施形態において、検討中の種はヒトであり、複数の遺伝子(存在量データが考慮される)は、10000個以上の遺伝子を含み、例えば、xGen Exome Research Panel v1.0(IDT)は、19,396個の遺伝子を含む39Mbのターゲット領域にまたがっており(Nguyen,A.,et al.,“Multiplexed Hybrid Capture for Whole Exome Sequencing,”Technical Note,Integrated DNA Technologies,Inc.,(2018)を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれ)、識別遺伝子セットは、5~40個の遺伝子からなる。図2Cのブロック222を参照すると、いくつかの実施形態において、種はヒトであり、複数の遺伝子は5000個の遺伝子を含み、識別遺伝子セットは5~25個の遺伝子からなる。他の範囲も可能である。例えば、いくつかの実施形態において、複数の遺伝子(存在量データが考慮される)は、少なくとも200個、500個、1000個、2000個、3000個、4000個、5000個、6000個、7000個、8000個、9000個、10000個、15000個、または20000個の遺伝子を含み、および識別遺伝子セットは、5個の遺伝子~500個の遺伝子、5個の遺伝子~100個の遺伝子、5個の遺伝子~50個の遺伝子、または5個の遺伝子~20個の遺伝子からなる。範囲にかかわらず、識別遺伝子の範囲は元の複数の遺伝子の範囲よりも小さい。いくつかの実施形態において、識別セットは、データセット122における複数の遺伝子の少なくとも4分の1の遺伝子からなる(例えば、1000個の遺伝子から250個以下の遺伝子への低下)。データセット122で利用可能なものよりも識別遺伝子セットについてより少ない遺伝子セットを選択することにより、第1および第2の状態を識別するためのアルゴリズムを、より小さく、より有益なデータ(例えば、より少ない遺伝子についての存在量データ)で訓練でき、それは第1および第2の癌状態を識別する分類器のより計算効率が高い訓練につながる。識別遺伝子セットのサイズが減少することによる計算効率におけるそのような改善は、有利には、分類器訓練を高速化するために使用するか、またはそのような分類器の性能を改善するために使用することができる(例えば、分類器のより広範な訓練を通じて)。いくつかの実施形態において、識別遺伝子セットは、データセット122内の複数の遺伝子の少なくとも4分の1、5分の1、6分の1、7分の1、8分の1、9分の1、10分の1、20分の1、30分の1、40分の1、または50分の1の遺伝子からなる。さらに、分析に使用される遺伝子の数を減らすことは、データの過剰適合を防止することによってモデルを改善する。
ブロック226。図2Cのブロック226を参照すると、いくつかの実施形態において、識別遺伝子セットの特定は、回帰アルゴリズムを使用して、複数の訓練対象124にわたる癌状態128のそれぞれの指標に対する複数の訓練対象124にわたる複数の存在量値126のすべてまたはサブセットに基づいて、データセット122を回帰し、それにより、複数の回帰係数における、対応する回帰係数を、複数の遺伝子における各それぞれの遺伝子に対して割り当てることを含む。したがって、そのような実施形態において、癌の状態は従属変数であり、遺伝子の存在量の値は独立変数である。そのような実施形態において、識別遺伝子セットについて選択される複数の遺伝子由来の遺伝子は、係数閾値を満たす回帰アルゴリズムによって係数が割り当てられた遺伝子である。そのような実施形態において、係数が係数閾値を満たす遺伝子は、従属変数、癌クラスにかなりの影響を与えるのに十分に顕著であると見なされ、したがって、識別遺伝子セットのために保持される。本開示の特定の実施形態におけるそのような回帰の詳細は、以下に提示されている。
ブロック228~232。図2Dのブロック228を参照すると、いくつかの実施形態において、識別遺伝子セットの特定は、データセットを複数のセット(例えば、5~50個のセット、正確に10個のセットなど)に分割することを含む。複数のセットにおける各セットは、第1の癌状態に罹患している2つ以上の対象、および第2の癌状態に罹患している2つ以上の対象を含む。次に、複数のセットにおける各それぞれのセットは、回帰アルゴリズムを使用して、それぞれのセットの対象にわたる癌状態のそれぞれの指標に対するそれぞれのセットの対象にわたる複数の存在量値のすべてまたはサブセットに基づいて、独立して回帰され、それにより、複数の回帰係数における、対応する回帰係数を、前記複数の遺伝子における各それぞれの遺伝子に対して割り当てる。複数のセットの少なくとも閾値パーセンテージについて係数閾値を満たす回帰アルゴリズムによって回帰係数が割り当てられたそれらの遺伝子が、識別遺伝子セットのために選択される。ブロック230を参照すると、いくつかの実施形態において、係数閾値はゼロである。いくつかの実施形態において、必要とされる閾値パーセンテージは、複数のセットの少なくとも40パーセントである。したがって、説明のために、10個のセットがある場合を考えてみよう。そのような場合、遺伝子Aが識別遺伝子セットに含まれるためには、癌状態に対する10個のセットの各々の回帰時に、遺伝子Aについての回帰係数が10個のセットのうち4つのセットにおいて回帰閾値を満たす必要がある。回帰閾値がゼロの場合、回帰閾値を満たすには正の回帰係数が必要であることを意味し、10個のセットのうち少なくとも4つにおいて、遺伝子Aについての回帰係数が正である必要がある。いくつかの実施形態において、閾値は係数の絶対値に適用される。しかしながら、本明細書に記載のいくつかの実施形態において、LASSO回帰がスパース係数を返すように設計されているため、閾値は0に設定される。いくつかの実施形態において、必要とされる閾値パーセンテージは、複数のセットの少なくとも50パーセント、少なくとも60パーセント、少なくとも70パーセント、少なくとも80パーセント、少なくとも90パーセント、またはすべてである。ブロック232を参照すると、いくつかの実施形態において、回帰係数閾値はゼロより大きい(例えば、0.1、0.2、0.3、またはいくつかの他の正の値)。より大きな回帰係数を要求することは、遺伝子が識別データセットに含まれるために必要とされるものの厳密性を高めるのに役立つことが理解されよう。様々な代替の実施形態において、回帰時の回帰係数の絶対値がゼロ以外、0.1より大きい、または0.2より大きい場合、回帰係数は、回帰係数閾値を満たす。
ブロック234~240。識別遺伝子セットの特定おいて使用される従属変数は、2つのラベル、第1の癌状態または第2の癌状態のうちの1つを採用することに留意されたい。したがって、図2Dのブロック234を参照すると、いくつかの実施形態において、回帰アルゴリズムは、以下を仮定するロジスティック回帰である。
Figure 2022521791000008

ここで、x=(xi1、xi2、…、xik)は、i番目の対応する対象の腫瘍試料由来の複数の遺伝子についての対応する複数の存在量値である。さらに、Y∈{0、1}は、対応する対象iが第1の癌状態を有する場合に値「1」を有し、対応する対象iが第2の癌状態を有する場合に値「0」を有するクラスラベルである。したがって、P(Y=1|x)は、i番目の対応する対象が第1の癌クラスのメンバーである推定確率である。βという用語は、切片であり、β=(j=1、...k)は、複数の回帰係数である。複数の回帰係数における各それぞれの回帰係数は、複数の遺伝子における対応する遺伝子に対するものである。より具体的には、各それぞれの回帰係数は、データセット122における訓練対象124にわたる複数の遺伝子における対応する遺伝子の存在量値に対するものである。そのような実施形態によるロジスティック回帰において、i番目の対応する対象は、P(Y=1|x)が事前定義された閾値を超える場合、第1の癌クラスに割り当てられ、それ以外の場合は第2の癌クラスに割り当てられる。いくつかの実施形態において、この事前定義された閾値は、0.5である。いくつかの実施形態において、この事前定義された閾値は、0.25~0.75の数である。
ブロック238を参照すると、いくつかの実施形態において、ロジスティック回帰は、ロジスティック最小絶対収縮および選択演算子(LASSO)回帰である。そのような実施形態において、ロジスティックLASSO推定器
Figure 2022521791000009
...
Figure 2022521791000010
は、以下の負の対数尤度の最小化として定義される。
最小
Figure 2022521791000011

制約
Figure 2022521791000012
を受ける。ここで、λ>0は、推定量のスパース性(例えば、値がゼロの回帰係数の数)を制御する調整パラメーターであり、実際には、例えば、検証試料や相互検証を使用することによって選択される。いくつかの実施形態において、Rおけるglmnetパッケージを使用して、ロジスティックLASSO推定器を取得する。Friedman et al.,2008,“Regularization Paths for Generalized Linear Models via Coordinate Descent,”Journal of Statistical Software 33(1)、およびKim,2018,“Logistic LASSO regression for the diagnosis of breast cancer using clinical demographic data and the BI-RADS lexicon for ultrasonography,”Ultrasonography 37,pp.36-42を参照されたく、それらの各々は参照により本明細書に組み込まれる。
いくつかの実施形態において、LASSO以外の正則化方法を使用して、データセット122の訓練対象124にわたる遺伝子存在量値に基づいて第1および第2の癌状態を識別する複数の遺伝子における遺伝子を特定する。例えば、いくつかの実施形態において、弾性ネットを使用して、データセット122の訓練対象124にわたる遺伝子存在量値に基づいて第1および第2の癌状態を識別する複数の遺伝子における遺伝子を特定する。Zou and Hastie,2005,“Regularization and variable selection via the elastic net,J R Stat Soc Series B Stat Methodol 67,pp.301-320を参照されたく、それは参照により本明細書に組み込まれる。いくつかの実施形態において、スパースラプラシアンペナルティを使用して、データセット122の訓練対象124にわたる遺伝子存在量値に基づいて第1および第2の癌状態を識別する複数の遺伝子における遺伝子を特定する。Huang et al.,2011,“The sparse Laplacian shrinkage estimator for high-dimensional regression, Ann Stat 39,pp.2021-2046を参照されたく、それは参照により本明細書に組み込まれる。いくつかの実施形態において、弾性ネット、グループLASSO(Yuan and Lin,2006,“Model Selection and Estimation in Regression with Grouped Variables,”Journal of the Royal Statistical Society.Series B Statistical Methodology 68(1),pp.49-67)、融合LASSO(Tibshirani et al., 2005,“Sparsity and Smoothness via the Fused lasso,”Journal of the Royal Statistical Society.Series B Statistical Methodology 67(1),pp.91-108)、準ノルムおよびブリッジ回帰(Fu, 1998,“The Bridge versus the Lasso,”Journal of Computational and Graphical Statistics 7(3),pp.397-416)、または適応LASSOを使用して、データセット122の訓練対象124にわたる遺伝子存在量値に基づいて第1および第2の癌状態を識別する複数の遺伝子における遺伝子を特定する。図2Eのブロック240を参照すると、いくつかの実施形態において、回帰アルゴリズムは、L1(LASSO)またはL2(Ridge)正則化項を含む。
ブロック242~244。上記の開示は、訓練セット122における対象124の遺伝子存在量値126が、その存在量値が集合的に第1および第2の癌状態を識別する識別遺伝子セットを特定するためにどのように使用されるかを詳述する。この識別遺伝子セットが特定されると、訓練セット122を使用して、試験対象から採取された生物学的試料から測定された識別遺伝子の存在量値を使用して、試験対象についての第1および第2の癌状態を識別できる分類器を正式に訓練する。典型的な実施形態において、この試験対象の癌状態は知られていない。すなわち、試験対象が特定の癌を有することは知られていてもよいが、対象が対象の癌の予後に悪影響を与える病原体に罹患しているかどうかは知られていない。典型的な実施形態において、試験対象の遺伝子存在量値を測定するために使用される生物学的試料は、試験対象内の固形腫瘍である。ブロック242を参照すると、いくつかの実施形態において、複数の対象にわたる識別遺伝子セットについてのそれぞれの存在量値および癌状態のそれぞれの指標を使用して、識別遺伝子セットについてのそれぞれの存在量値の関数として第1の癌状態および第2の癌状態を識別するように分類器を訓練する。いくつかの実施形態において、以下の実施例に開示されるように、分類器を訓練するために、識別遺伝子セットの存在量値に加えて、追加の特徴を利用する。例えば、いくつかの実施形態において、選択された遺伝子における特定の変異が存在しないことも、識別遺伝子セットについての存在量値と併せて分類器を訓練するために使用される。
図2Eのブロック244を参照すると、いくつかの実施形態において、非限定的な例として、ブロック242において使用される分類器は、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシン(SVM)アルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定キアルゴリズム、クラスタリングアルゴリズム、またはそれらの組み合わせである。
ブロック242の分類器としての使用に適したロジスティック回帰アルゴリズムは、例えば、Agresti,An Introduction to Categorical Data Analysis,1996,Chapter 5,pp.103-144,John Wiley & Son,New Yorkに開示されており、それは参照により組み込まれる。
ブロック242の分類器としての使用に適した畳み込みニューラルネットワークアルゴリズムを含むニューラルネットワークアルゴリズムは、例えば、Vincent et al.,2010,“Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion,”J Mach Learn Res 11,pp.3371-3408、Larochelle et al.,2009,“Exploring strategies for training deep neural networks,”J Mach Learn Res 10,pp.1-40、およびHassoun,1995,Fundamentals of Artificial Neural Networks, Massachusetts Institute of Technologyに開示されており、それらの各々は参照により本明細書に組み込まれる。ニューラルネットワークは、重みの層によって出力ユニットの層に接続された入力ユニットの層(およびバイアス)を含む層状構造を有する。回帰の場合、出力ユニットの層は、典型的には、1つの出力ユニットのみを含む。しかしながら、ニューラルネットワークは複数の定量的応答をシームレス形状に処理し得る。多層ニューラルネットワークにおいて、入力ユニット(入力層)、非表示ユニット(非表示層)、および出力ユニット(出力層)がある。さらに、入力ユニット以外の各ユニットに接続されている単一のバイアスユニットがある。ブロック242の分類器としての使用に適した追加の例示的なニューラルネットワークは、Duda et al.,2001,Pattern Classification,Second Edition,John Wiley & Sons,Inc.,New York、およびHastie et al.,2001,The Elements of Statistical Learning,Springer-Verlag,New Yorkに開示されており、それらの各々は参照によりその全体が本明細書に組み込まれる。ブロック242の分類器としての使用に適した追加の例示的なニューラルネットワークは、Draghici,2003,Data Analysis Tools for DNA Microarrays,Chapman & Hall/CRC、およびMount,2001,Bioinformatics: sequence and genome analysis,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,New Yorkに記載されており、それらの各々は参照によりその全体が本明細書に組み込まれる。
ブロック242の分類器としての使用に適したSVMアルゴリズムは、例えば、Cristianini and Shawe-Taylor,2000,“An Introduction to Support Vector Machines,”Cambridge University Press,Cambridge、Boser et al.,1992,“A training algorithm for optimal margin classifiers,”in Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory,ACM Press,Pittsburgh,Pa.,pp.142-152、Vapnik,1998,Statistical Learning Theory,Wiley,New York、Mount,2001,Bioinformatics: sequence and genome analysis,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.、Duda,Pattern Classification,Second Edition,2001,John Wiley & Sons,Inc.,pp.259,262-265、およびHastie,2001,The Elements of Statistical Learning,Springer,New York、およびFurey et al.,2000,Bioinformatics 16,906-914に記載されており、それらの各々は参照によりその全体が本明細書に組み込まれる。分類に使用される場合、SVMは、二値ラベル付きデータ訓練セットの所与のセット(ここでは、データセット122における各対象の第1および第2の癌状態)を、ラベル付きデータから最大に離れた超平面で分離する。線形分離が可能でない場合、SVMは、特徴空間への非線形マッピングを自動的に実現する`カーネルの技術と組み合わせて機能する。特徴空間においてSVMによって見出された超平面は、入力空間における非線形決定境界に対応する。
ブロック242の分類器としての使用に適したナイーブベイズ分類器は、例えば、Ng et al.,2002,“On discriminative vs.generative classifiers: A comparison of logistic regression and naive Bayes,”Advances in Neural Information Processing Systems,14に開示されており、それは参照により本明細書に組み込まれる。
ブロック242の分類器としての使用に適した決定木アルゴリズムは、例えば、Duda,2001,Pattern Classification,John Wiley & Sons,Inc.,New York,pp.395-396に記載されており、それは参照により本明細書に組み込まれる。ツリーベースのメソッドは、特徴空間を長方形のセットに区分化し、各々においてモデル(定数など)を適合させる。いくつかの実施形態において、決定木はランダムフォレスト回帰である。ブロック244の分類器として使用され得る1つの特定のアルゴリズムは、分類および回帰ツリー(CART)である。ブロック244の分類器として使用され得る特定の決定木アルゴリズムの他の例には、ID3、C4.5、MART、およびランダムフォレストを含むが、これらに限定されない。CART、ID3、およびC4.5は、Duda,2001,Pattern Classification,John Wiley & Sons,Inc.,New York.pp.396-408 and pp.411-412に記載されており、それは参照により本明細書に組み込まれる。CART、MART、およびC4.5は、Hastie et al.,2001,The Elements of Statistical Learning,Springer-Verlag,New York,Chapter 9に記載されており、それは参照によりその全体が本明細書に組み込まれる。ランダムフォレストは、Breiman,1999,“Random Forests--Random Features,”Technical Report 567,Statistics Department,U.C.Berkeley,September 1999に記載されており、それは参照によりその全体が本明細書に組み込まれる。
ブロック242の分類器としての使用に適したクラスタリングアルゴリズムは、例えば、Duda and Hart,Pattern Classification and Scene Analysis,1973,John Wiley & Sons,Inc.,New York(以下、「Duda 1973」)の211~256ページに記載されており、それは参照によりその全体が本明細書に組み込まれる。Duda 1973のセクション6.7に記載されているように、クラスタリングの問題は、データセットにおける自然なグループ分けを見つけることのうちの1つとして説明されている。自然なグループ分けを特定するために、2つの問題に対処する。第1に、2つの試料間の類似性(または非類似性)を測定する方法が決定される。この測定基準(類似性の尺度)は、一方のクラスターにおける試料が他方のクラスターにおける試料よりも互いに類似していることを確認するために使用される。ここで、類似性の尺度は、訓練データセット122にわたって識別遺伝子セットの存在量レベルにある。次に、類似性の尺度を使用してデータをクラスターに分割するメカニズムが決定される。類似性の尺度は、Duda 1973のセクション6.7で説明されており、クラスタリング調査を開始する1つの方法は、距離関数を定義し、データセットおける試料のすべてのペア間の距離の行列を計算することである。距離が類似性の適切な尺度である場合、同じクラスターにおける試料間の距離は、異なるクラスターにおける試料間の距離よりも顕著に短くなる。しかしながら、Duda 1973の215ページに記載されているように、クラスタリングでは距離測定基準を使用する必要はない。例えば、非計量的相似関数s(x、x’)を使用して、2つのベクトルxおよびx’を比較し得る。従来、s(x、x’)は、xおよびx’が何らかの形で「類似」している場合に値が大きくなる対称関数である。非計量的相似関数s(x、x’)の例は、Duda1973の216ページに提供されている。
データセットにおけるポイント間の「類似性」または「非類似性」を測定するための方法が選択されると、クラスタリングは、データの任意の区分のクラスタリング品質を測定する基準関数を利用する。基準関数を極限化するデータセットの区分は、データをクラスター化するために使用される。Duda1973の217ページを参照されたい。基準関数については、Duda1973のセクション6.8で議論されている。最近ではDuda et al.,Pattern Classification,2nd edition,John Wiley & Sons,Inc.New Yorkが発行された。537~563ページでは、クラスタリングについて詳しく説明している。ブロック242の分類器としての使用に適したクラスタリング技術についての詳細は、Kaufman and Rousseeuw,1990,Finding Groups in Data:An Introduction to Cluster Analysis,Wiley,New York, N.Y.、Everitt,1993,Cluster analysis(3d ed.),Wiley,New York,N.Y.、およびBacker,1995,Computer-Assisted Reasoning in Cluster Analysis,Prentice Hall,Upper Saddle River,N.J.に記載されている。ブロック242の分類器として使用され得る特定の例示的なクラスタリング手法には、階層的クラスタリング(最近傍アルゴリズム、最遠近傍(farthest-neighbor)アルゴリズム、平均連結アルゴリズム、重心アルゴリズム、または二乗和アルゴリズムを使用した凝集クラスタリング)、k平均クラスタリング、ファジーk平均クラスタリングアルゴリズム、およびJarvis-Patrickクラスタリングを含むが、これらに限定されない。
いくつかの実施形態において、ブロック242に使用される分類器は、最近傍アルゴリズムである。最近傍について、クエリ点x(試験対象)が与えられると、xに最も近い距離にあるk個の訓練点x(r)、r、...、k(ここでは、訓練対象)が特定され、点xは、k最近傍を使用して分類される。ここで、これらの近傍の距離は、識別遺伝子セットの存在量値の関数である。いくつかの実施形態において、特徴空間におけるユークリッド距離を使用して、距離をd(i)=||x(i)-x(O)||として決定する。典型的には、最近傍アルゴリズムが使用される場合、線形判別式の計算に使用される存在量データは、平均がゼロで分散が1になるように標準化される。最近傍ルールを改良して、不均衡なクラス優先、差次的誤分類のコスト、および特徴選択の問題に対処することができる。これらの改良点の多くは、近傍に対する何らかの形の加重投票を伴う。最近傍分析の詳細については、Duda,Pattern Classification,Second Edition,2001,John Wiley & Sons,Inc、およびHastie,2001,The Elements of Statistical Learning,Springer,New Yorkを参照されたく、それらの各々は参照により本明細書に組み込まれる。
ブロック246~248。上記の開示は、識別遺伝子セットの存在量値を使用する分類器の訓練について説明している。
ブロック246を参照すると、いくつかの実施形態において、訓練された分類器を使用して、試験対象を分類し、試験の複数の存在量値を分類器に入力することによって、試験対象が第1の癌状態または第2の癌状態を有するかどうかを決定する。そのような実施形態において、試験の複数の存在量値における各それぞれの存在量値は、試験対象の生物学的試料(例えば、腫瘍試料)における、複数の遺伝子、より具体的には識別遺伝子セットにおける、対応する遺伝子の発現レベルを定量化する。この入力に応答して、分類器は、試験対象が第1の癌状態、または第2の癌状態のいずれを有しているかを指定する。
ブロック246を参照すると、いくつかの代替の実施形態において、訓練された分類器を使用して、対象が第1の癌状態または第2の状態を有する尤度または確率を決定する。これは、そのような実施形態において、試験の複数の存在量値を分類器に入力することによって行われる。そのような実施形態において、試験の複数の存在量値における各それぞれの存在量値は、試験対象の生物学的試料(例えば、腫瘍試料)における、複数の遺伝子(より具体的には識別遺伝子セット)における、対応する遺伝子の発現レベルを定量化する。この入力に応答して、分類器は、試験対象が第1の癌状態を有する尤度または確率、あるいは、試験対象が第2の癌状態を有する尤度または確率を指定する。
ブロック248を参照すると、いくつかの実施形態において、試験対象が第1の癌状態または第2の癌状態を有するという決定(または試験対象が第1または第2の癌状態を有する尤度)に基づいて、試験対象の治療的介入または画像化が提供される。そのような条件付き治療の例を、図3と併せて以下に提供する。例えば、発癌性病原体感染に関連する特定の癌の型についての療法の進行中の臨床試験の非限定的の例を以下の表2に示す。
RNA分析パイプライン
いくつかの実施形態において、本明細書に記載の方法およびシステムは、患者の生物学的試料から単離されたRNA分子の配列決定と併せて実行される。いくつかの実施形態において、配列決定データのFASTQファイルまたは同等のファイル形式は、そのような配列決定反応の出力である。
いくつかの実施形態において、各FASTQファイルは、ペアエンドまたはシングルリードであり得、ショートリードまたはロングリードであり得る、リードを含み、各リードは、患者試料から単離され、ライブラリー調製中に単離されたmRNA分子から生成されたcDNA分子中に含まれるヌクレオチドの配列を検出するために配列決定装置を使用することによって推測されたmRNA分子中のヌクレオチドの1つの検出された配列を示す。FASTQファイルにおける各リードは、品質評価にも関連付けられている。品質評価は、関連するリードに影響を与える配列決定手順中にエラーが発生した尤度を反映し得る。
各FASTQファイルは、バイオインフォマティクスパイプラインによって処理され得る。様々な実施形態において、バイオインフォマティクスパイプラインは、FASTQデータをフィルタリングし得る。FASTQデータのフィルタリングには、配列決定装置エラーの修正、ならびに、低品質の配列または塩基、アダプター配列、汚染、キメラリード、過剰表現された配列、ライブラリーの調製、増幅、または捕捉によって引き起こされるバイアス、およびその他のエラーの削除(トリミング)を含み得る。エラーが発生する可能性のあるリード全体、個々のヌクレオチド、または複数のヌクレオチドは、FASTQファイルにおけるリードに関連する品質評価、配列決定装の既知のエラー率、および/またはリードにおける各ヌクレオチドと、参照ゲノムにおいて同じ位置にアラインメントされた他のリードにおける1つ以上のヌクレオチドとの比較に基づいて破棄され得る。フィルタリングは、様々なソフトウェアツールによって部分的または全体的に実行され得る。FASTQファイルは、品質管理およびリードの迅速な評価のために、例えば、AfterQC、Kraken、RNA-SeQC、FastQC(Illumina、BaseSpace Labs、またはhttps://www.illumina.com/products/by-type/informatics-products/basespace-sequence-hub/apps/fastqc.html参照)、または別の同様のソフトウェアプログラムなどの配列決定データQCソフトウェアによって分析され得る。ペアエンドリードについては、リードはマージされ得る。
各FASTQファイルについて、ファイルにおける各リードは、リードにおけるヌクレオチドの配列に最もよく一致する配列を持つ参照ゲノムにおける位置にアラインメントし得る。リードをアラインメントするように設計された多くのソフトウェアプログラム、例えば、Bowtie、Burrows Wheeler Aligner(BWA)、Smith-Watermanアルゴリズムを使用するプログラムがある。アラインメントは、各リードにおけるヌクレオチド配列を参照ゲノムにおけるヌクレオチド配列の一部と比較して、リードにおける配列に対応する可能性が最も高い参照ゲノム配列の部分を決定することによって、参照ゲノム(例えば、GRCh38、hg38、GRCh37、Genome Reference Consortiumによって開発された他のリファレンスゲノムなど)を使用して指示され得る。アラインメントは、RNAスプライス部位を考慮してもよい。アラインメントは、参照ゲノムにおける各リードの開始位置および終了位置、および参照ゲノムにおける各ヌクレオチドのカバレッジ(リード数)を格納するSAMファイルを生成し得る。SAMファイルをBAMファイルに変換したり、BAMファイルを並べ替えたり、重複したリードに削除のマークを付けたりし得る。
一例において、kallistoソフトウェアをアラインメントおよびRNAリードの定量化に使用し得る(Nicolas L Bray,Harold Pimentel,Pall Melsted and Lior Pachter,Near-optimal probabilistic RNA-seq quantification,Nature Biotechnology 34, 525-527(2016),doi:10.1038/nbt.3519参照)。別の実施形態において、RNAリードの定量化は、別のソフトウェア、例えば、SailfishまたはSalmonを使用して実施し得る(Rob Patro,Stephen M.Mount, and Carl Kingsford(2014)Sailfish enables alignment-free isoform quantification from RNA-seq reads using lightweight algorithms.Nature Biotechnology(doi:10.1038/nbt.2862)またはPatro,R.,Duggal,G.,Love,M.I.,Irizarry,R.A.,&Kingsford,C.(2017).Salmon provides fast and bias-aware quantification of transcript expression.Nature Methods.参照)。これらのRNA-seq定量法は、アラインメントを必要としない場合がある。RNA-seqデータの正規化、定量分析、および差次的発現分析に使用し得るソフトウェアパッケージは多数ある。
各遺伝子について、所与の遺伝子についての生のRNAリードカウントを計算し得る。生のリードカウントは、各試料について表形式のファイルに保存され得、列は遺伝子を表し、各エントリはその遺伝子についての生のRNAリードカウントを表す。一例において、kallistoアラインメントソフトウェアは、各リードについて、リードが遺伝子にアラインメントする確率の合計として生のRNAリードカウントを計算する。したがって、この例において、生のカウントは、整数ではない。
次に、生のRNAリードカウントを、例えば完全分位正規化を使用して、正規化して、GC含量および遺伝子長を補正し、例えばサイズファクター法を使用して、配列決定深度について調整し得る。一例において、RNAリードカウントの正規化は、Methods of Normalizing and Correcting RNA Expression Dataと題され、2019年9月24日に出願された米国特許出願第16/581,706号またはPCT19/52801に開示されている方法に従って実施され、それらは参照によりその全体が本明細書に組み込まれる。正規化についての理論的根拠は、配列決定装置における各cDNA分子のコピー数が、患者試料におけるmRNA分子の分布を反映していない場合があることである。例えば、ライブラリーの調製、増幅、および捕捉のステップ中に、ランダムヘキサマー、増幅(PCR濃縮)、rRNA枯渇、ならびに各核酸分子におけるGC含量、リード長、遺伝子長、および配列の他の特性が原因であり得る配列決定中に生成されるプローブ結合およびエラーによって引き起こされる逆転写のプライミングの様々な態様で発生するアーティファクトによって、mRNA分子の特定の部分が過剰または過少表示される場合がある。各遺伝子の各生RNAリードカウントは、NGS配列決定プロトコルのバイアスまたはアーティファクトによって引き起こされる過剰または過少表示を排除または低減するように調整され得る。正規化されたRNAリードカウントは、各試料について表形式のファイルに保存され得、列は遺伝子を表し、各エントリはその遺伝子についての正規化されたRNAリードカウントを表す。
トランスクリプトーム値セットは、上記のように、正規化されたRNAリードカウントまたは生のRNAリードカウントのいずれかを指し得る。
HPV分類器訓練
一態様において、本開示は、癌におけるヒトパピローマウイルス(HPV)感染を検出するように分類器を訓練するための方法を提供する。方法は、HPV関連癌および既知のHPV状態を有する対象124の訓練セット由来の、HPV関連癌のHPV状態を評価するために有益である遺伝子についての存在量値126、例えば、mRNA発現レベルを取得することを含む。次いで、方法は、例えば、分類器訓練モジュール120を使用して、各それぞれの訓練対象について、少なくとも(i)存在量値126、および(ii)患者の癌のHPV状態に対して、分類器を訓練することを含む。いくつかの実施形態において、分類器はまた、各訓練対象の癌における1つ以上の変異対立遺伝子127の状態に対して訓練される。
いくつかの実施形態において、各訓練対象は、子宮頸癌、頭頸部扁平上皮癌、卵巣癌、陰茎癌、咽頭癌、肛門癌、膣癌、および外陰癌から選択されるHPV関連癌を有する。いくつかの実施形態において、分類器は、すべてが、同じ型の癌、例えば、子宮頸癌、頭頸部扁平上皮癌、卵巣癌、陰茎癌、咽頭癌、肛門癌、膣癌、または外陰癌を有する患者由来のデータに対して訓練される。しかしながら、分類器訓練は概して訓練データセットのサイズを大きくすることによって改善されるので、いくつかの実施形態において、分類器は、2つ以上の型のHPV関連癌、例えば、子宮頸癌、頭頸部扁平上皮癌、卵巣癌、陰茎癌、咽頭癌、肛門癌、膣癌、および外陰癌のうちの2つ、3つ、4つ、5つ、6つ、7つ、または8つすべてを有する患者由来のデータに対して訓練される。実施例3によって例示される特定の実施形態において、各訓練対象は、頭頸部扁平上皮癌または子宮頸癌のいずれかを有する。
いくつかの実施形態において、分類器は、表3に記載もの、例えば、KRT86、CRISPLD1、DSG1、SESN3、DAMTS20、IRX1、SMC1B、CDKN2A、EFNB3、CXCL14、ZFR2、RNF212、MKRN3、SYCP2、MYL1、MYO3A、RNASE10、GALNT13、C19orf26、MUC4、PCDHGB1、CCND1、LCE1F、およびKCNS1から選択される複数の遺伝子についての存在量値に対して訓練される。以下に報告するように、例えば、実施例3を参照すると、これらの24個の遺伝子は、The Cancer Genome Atlas(TCGA)においてHPVの状態がわかっている子宮頸癌、または頭頸部癌の発現データから形成された10個の訓練セットのうちの少なくとも8個において、対象のHPV状態に応じて差次的に発現されることが見出された。しかしながら、当業者は、場合によっては、異なる訓練データセットの使用が異なる結果、例えば、これらの遺伝子のうちの1つ以上が訓練フォールドの少なくとも80%で有益ではない可能性があること、および/または実施例3において報告された研究において訓練フォールドの少なくとも80%において有益ではないことが見出された1つ以上の遺伝子が有益であり得ること、をもたらす可能性があることを理解するであろう。これらの違いは、例えば、訓練集団を選択するために異なる基準が使用される場合に発生する可能性があり、例えば、癌の型、個人の特性(例えば、年齢、性別、民族、家族歴、喫煙状況など)などの種々の包含および/または除外基準、もしくは単に小さいまたは大きいデータセットを使用することによってである。
したがって、いくつかの実施形態において、分類器は、表3に記載の遺伝子のうちの少なくとも5つに対して訓練される。いくつかの実施形態において、分類器は、表3に記載の遺伝子のうちの少なくとも10個に対して訓練される。いくつかの実施形態において、分類器は、表3に記載の遺伝子のうちの少なくとも15個に対して訓練される。いくつかの実施形態において、分類器は、表3に記載の遺伝子のうちの少なくとも20個に対して訓練される。いくつかの実施形態において、分類器は、表3に記載の遺伝子の24個すべてに対して訓練される。いくつかの実施形態では、分類器は、表3に記載の遺伝子のうちの5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、または24個すべてに対して訓練される。さらに、いくつかの実施形態において、分類器はまた、表3に記載されていない1つ以上の遺伝子についての存在量値に対して訓練される。いくつかの実施形態において、分類器はまた、表3に記載されていない1個、2個、3個、4個、5個、6個、7個、8個、9個、10個またはそれ以上の遺伝子についての存在量値に対して訓練される。いくつかの実施形態において、分類器はまた、表3に記載されていない1~10個の遺伝子についての存在量値に対して訓練される。いくつかの実施形態において、分類器はまた、表3に記載されていない1~5個の遺伝子についての存在量値に対して訓練される。他の実施形態において、分類器はまた、表3に記載されていない任意の遺伝子についての存在量値に対して訓練されない。
さらに、当業者は、いくつかの特徴、例えば、特定の遺伝子についての存在量値が、特定の分類器における他の特徴よりもより有益であろうことも理解するであろう。複数の特徴に基づく分類器におけるそれぞれの特徴の予測力の1つの尺度は、モデルの訓練中に特徴について計算された回帰係数である。回帰係数は、各特徴およびモデルの応答の関係を表す。係数値は、特徴値において1単位増加を与える応答における平均変化を表す。そのため、少なくとも同じ型の変数について、回帰係数の大きさ、例えば絶対値は、モデルにおける特徴の重要性と相関する。つまり、回帰係数の大きさが大きいほど、変数はモデルにとってより重要になる。例えば、実施例3において報告されているように、表3に記載の遺伝子の24個すべての存在量値、ならびにTP53およびCDKN2A遺伝子についての変異対立遺伝子状態に対して訓練された特定のサポートベクトルマシン(SVM)分類器において、24個の遺伝子のうち6つだけが、少なくとも0.5の大きさの回帰係数を有していた-CDKN2A(1.13)、SMC1B(1.02)、EFNB3(-0.97)、KCNS1(0.74)、CCND1(-0.65)、およびRNF212(0.517)。
したがって、当業者は、少なくとも部分的に1つ以上の分類モデルにおけるそれぞれの特徴の重要性に基づいて、表3に記載されたすべてより少ない遺伝子を含む特徴セットを選択し得る。例えば、いくつかの実施形態において、分類モデルにおいてより低い予測力を有する1つ以上の遺伝子は、分類器訓練中に省略され得る。例えば、いくつかの実施形態において、訓練に使用される特徴は、少なくとも0.5の回帰係数を有する、少なくとも表5に記載の遺伝子発現特徴、例えば、CDKN2A、SMC1B、EFNB3、KCNS1、CCND1、およびRNF212を含む。いくつかの実施形態において、訓練に使用される特徴は、少なくとも0.4の回帰係数を有する、少なくとも表5に記載の遺伝子発現特徴を含む。いくつかの実施形態において、訓練に使用される特徴は、少なくとも0.3の回帰係数を有する、少なくとも表5に記載の遺伝子発現特徴を含む。いくつかの実施形態において、訓練に使用される特徴は、少なくとも0.2の回帰係数を有する、少なくとも表5に記載された遺伝子発現特徴を含む。いくつかの実施形態において、訓練に使用される特徴は、少なくとも0.1の回帰係数を有する、少なくとも表5に記載の遺伝子発現特徴を含む。
同様に、特徴セットのサイズは、どの特徴が含まれるか、および/または除外されるかによって影響を受け得る。例えば、いくつかの実施形態において、高い予測力を有する特定の特徴が分類モデルに含まれる場合、より少ない総特徴がモデルに含まれ得る。例えば、いくつかの実施形態において、SMC1B、CDKN2A、およびEFNB3についての存在量値がモデルに含まれる場合、存在量値が表5の特徴として使用される他の遺伝子のうちの2つ以下についての存在量値をモデルに含める必要がある。したがって、いくつかの実施形態において、モデルを訓練するために使用される特徴は、SMC1B、CDKN2A、およびEFNB3、ならびにその存在量値が表5の特徴として使用される少なくとも2つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、モデルを訓練するために使用される特徴は、SMC1B、CDKN2A、およびEFNB3、ならびにその存在量値が表5の特徴として使用される少なくとも5つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、モデルを訓練するために使用される特徴は、SMC1B、CDKN2A、およびEFNB3、ならびにその存在量値が表5の特徴として使用される少なくとも10個の他の遺伝子についての存在量値を含む。いくつかの実施形態において、モデルを訓練するために使用される特徴は、SMC1B、CDKN2A、およびEFNB3、ならびにその存在量値が表5の特徴として使用される少なくとも15個の他の遺伝子についての存在量値を含む。
同様に、いくつかの実施形態において、高い予測力を有する特徴が分類モデルから除外される場合、他の特徴のより多くがモデルに含まれ得る。例えば、いくつかの実施形態において、SMC1B、CDKN2A、およびEFNB3のうちの1つ以上についての存在量値がモデルに含まれない場合、その存在量値が表5の特徴として使用される他のうちの少なくとも15個についての存在量値をモデルに含める。いくつかの実施形態において、SMC1B、CDKN2A、およびEFNB3のうちの1つ以上についての存在量値がモデルに含まれない場合、その存在量値が表5の特徴として使用される他の遺伝子のうちの少なくとも20個についての存在量値をモデルに含める。いくつかの実施形態において、SMC1B、CDKN2A、およびEFNB3のうちの1つ以上についての存在量値がモデルに含まれない場合、その存在量値が表5の特徴として使用される他の遺伝子のうちの少なくとも15個、16個、17個、18個、19個、20個、または21個すべてについての存在量値をモデルに含める。
もちろん、特徴が最後にモデルに追加されたときに標準化された回帰係数およびR二乗の変化など、モデルにおける特徴の重要性を評価するために他の測定基準も利用できる。
特徴セットを選択するとき、当業者は、特徴が互いに相関している程度も考慮するだろう。相関は、2つの変数が互いにどの程度線形に依存しているかを示す統計的尺度である。そのため、2つの相関する特徴は、予測モデルに重複する情報を提供し、これは、分類器に悪影響を与える可能性がある。そのため、相関する特徴をモデルから除外する理由がいくつかある。例えば、分類器における特徴の数が多いほど、実行する必要のある計算が増えるため、相関する特徴の削除はアルゴリズムをより速くする。相関する特徴の削除は、相関から生じる有害なバイアスもモデルから削除し得る。最後に、相関する特徴の削除は、モデルをより解釈できるようにし得る。
したがって、当業者は、少なくとも部分的に1つ以上の分類モデルにおけるそれぞれの特徴の相関に基づいて、表3に記載されたすべてより少ない遺伝子を含む特徴セットを選択し得る。いくつかの実施形態において、相関する特徴セットのうちの一方または他方の特徴を削除する選択は、2つの特徴の予測力、例えば、それらのそれぞれの回帰係数によって情報を与えられる。例えば、ENSG00000105278(CXCL14)およびENSG00000077935(SMC1B)についての遺伝子発現値は、表3に記載の特徴セットにおいて高く相関している(相関=0.718983175)。したがって、いくつかの実施形態において、特徴セットは、CXCL14またはSMC1Bのいずれも含まない。いくつかの実施形態において、表5に報告されているように、SMC1Bは、実施例3に記載のSVMモデルにおいてCXCL14(-0.29)よりも高い回帰係数(1.02)を有するため、SMC1BではなくCXCL14が特徴セットから除外される。
表6に報告されているように、10対の遺伝子発現特徴は、少なくとも0.6の相関を有する。したがって、いくつかの実施形態において、少なくとも0.6の相関を有する少なくとも1対の特徴における特徴は、モデルから除外される。いくつかの実施形態において、少なくとも0.6の相関を有する少なくとも2対の特徴における特徴は、モデルから除外される。他の実施形態において、少なくとも0.6の相関を有する少なくとも3対、4対、5対、6対、7対、8対、9対、または10対すべての特徴における特徴は、モデルから除外される。いくつかの実施形態において、除外された特徴は、表5に報告されているより低い回帰係数を有する一対の高く相関した特徴における特徴である。例えば、表6を参照すると、相関の高い各ペア(例えば、少なくとも0.6の相関に対応)においてより低い回帰係数有する特徴は以下のとおりである。
・ペア1=DSG1
・ペア2=ZFR2
・ペア3=RNF212
・ペア4=SYCP2
・ペア5=ZFR2
・ペア6=MYO3A
・ペア7=SYCP2
・ペア8=DSG1
・ペア9=KCNS1
・ペア10=ZFR2
したがって、いくつかの実施形態において、DSG1、ZFR2、RNF212、SYCP2、MYO3A、およびKCNS1のうちの1つ以上は、それらが高く相関する特徴の対において最も有益性が低い特徴であることに基づいて、特徴セットから除外される。
しかしながら、いくつかの実施形態において、この選択プロセスは、例えば、高く相関する対の特徴のうちの少なくとも1つにおいて両方の遺伝子が最も有益性が低い特徴であることに基づいて、高く相関する対の特徴の両方の特徴を特徴セットから除外することを認めない。したがって、いくつかの実施形態において、SYCP2、MYO3A、およびKCNS1のうちの1つ以上は、特徴セットから除外されない。同様に、いくつかの実施形態において、この選択プロセスは、非常に有益な特徴、例えば、少なくとも0.5の回帰係数を有する特徴が特徴セットから除外されることを認めない。したがって、いくつかの実施形態において、RNF212およびKCNS1の一方または両方は、特徴セットから除外されない。
したがって、一実施形態において、特徴セットは、少なくともKRT86、CRISPLD1、SESN3、DAMTS20、IRX1、SMC1B、CDKN2A、EFNB3、CXCL14、MKRN3、SYCP2、MYL1、MYO3A、RNASE10、GALNT13、C19orf26、MUC4、PCDHGB1、CCND1、LCE1F、およびKCNS1についての存在量値を含む。
同様に、一実施形態において、特徴セットは、少なくともKRT86、CRISPLD1、SESN3、DAMTS20、IRX1、SMC1B、CDKN2A、EFNB3、CXCL14、RNF212、MKRN3、MYL1、RNASE10、GALNT13、C19orf26、MUC4、PCDHGB1、CCND1、LCE1F、およびKCNS1についての存在量値を含む。
同様に、一実施形態において、特徴セットは、少なくともKRT86、CRISPLD1、SESN3、DAMTS20、IRX1、SMC1B、CDKN2A、EFNB3、CXCL14、RNF212、MKRN3、SYCP2、MYL1、MYO3A、RNASE10、GALNT13、C19orf26、MUC4、PCDHGB1、CCND1、LCE1F、およびKCNS1についての存在量値を含む。
いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも70%の特異度および少なくとも70%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも75%の特異度および少なくとも75%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも80%の特異度および少なくとも80%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも85%の特異度および少なくとも85%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも90%の特異度および少なくとも90%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも95%の特異度および少なくとも95%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の特異度を有する。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の感度を有する。
いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも70%の特異度および少なくとも70%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも75%の特異度および少なくとも75%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも80%の特異度および少なくとも80%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも85%の特異度および少なくとも85%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも90%の特異度および少なくとも90%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも95%の特異度および少なくとも95%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の特異度を有する。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の感度を有する。
いくつかの実施形態において、図2を参照した上記のとおり、分類器は、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである。いくつかの実施形態において、分類器は、図2を参照して、上記の方法論に従って訓練された。
EBV分類器訓練
一態様において、本開示は、癌におけるエプスタインバーウイルス(EBV)感染を検出するように分類器を訓練するための方法を提供する。方法は、EBV関連癌および既知のEBV状態を有する対象124の訓練セット由来の、EBV関連癌のEBV状態を評価するために有益である遺伝子についての存在量値126、例えば、mRNA発現レベルを取得することを含む。次いで、方法は、例えば、分類器訓練モジュール120を使用して、各それぞれの訓練対象について、少なくとも(i)存在量値126、および(ii)患者の癌のEBV状態に対して、分類器を訓練することを含む。いくつかの実施形態において、分類器はまた、各訓練対象の癌における1つ以上の変異対立遺伝子127の状態に対して訓練される。
いくつかの実施形態において、各訓練対象は、バーキットリンパ腫、副鼻腔血管中心性T細胞リンパ腫、非ホジキンリンパ腫、ホジキンリンパ腫、鼻咽頭癌および胃癌から選択されるEBV関連癌を有する。いくつかの実施形態において、分類器は、すべてが、同じ型の癌、例えば、バーキットリンパ腫、副鼻腔血管中心性T細胞リンパ腫、非ホジキンリンパ腫、ホジキンリンパ腫、鼻咽頭癌、または胃癌を有する患者由来のデータに対して訓練される。しかしながら、分類器訓練は概して訓練データセットのサイズを大きくすることによって改善されるので、いくつかの実施形態において、分類器は、2つ以上の型のEBV関連癌、例えば、バーキットリンパ腫、副鼻腔血管中心性T細胞リンパ腫、非ホジキンリンパ腫、ホジキンリンパ腫、鼻咽頭癌および胃癌のうちの2つ、3つ、4つ、5つ、または6つすべてを有する患者由来のデータに対して訓練される。実施例4によって例示される特定の実施形態において、各訓練対象は胃癌を有する。
いくつかの実施形態において、分類器は、表4に記載もの、例えば、SCNN1A、CDX1、KCNK15、PRKCG、KRT7、NKD2、GPR158、CLDN3、およびZNF683から選択される複数の遺伝子についての存在量値に対して訓練される。以下に報告するように、例えば、実施例4を参照すると、これらの9つの遺伝子は、The Cancer Genome Atlas(TCGA)における胃癌訓練セットの少なくとも80%において、対象のEBV状態に応じて差次的に発現されることが見出された。しかしながら、当業者は、場合によっては、異なる訓練データセットの使用が異なる結果、例えば、これらの遺伝子のうちの1つ以上が訓練フォールドの少なくとも80%で有益ではない可能性があること、および/または実施例4において報告された研究において訓練フォールドの少なくとも80%において有益ではないことが見出された1つ以上の遺伝子が有益であり得ること、をもたらす可能性があることを理解するであろう。これらの違いは、例えば、訓練集団を選択するために異なる基準が使用される場合に発生する可能性があり、例えば、癌の型、個人の特性(例えば、年齢、性別、民族、家族歴、喫煙状況など)などの種々の包含および/または除外基準、または単に小さいまたは大きいデータセットを使用することによってである。
したがって、いくつかの実施形態において、分類器は、表4に記載の遺伝子のうちの少なくとも5つに対して訓練される。いくつかの実施形態において、分類器は、表4に記載の遺伝子のうちの少なくとも6つに対して訓練される。いくつかの実施形態において、分類器は、表4に記載の遺伝子のうちの少なくとも7つに対して訓練される。いくつかの実施形態において、分類器は、表4に記載の遺伝子のうちの少なくとも8つに対して訓練される。いくつかの実施形態において、分類器は、表4に記載の遺伝子の9つすべてに対して訓練される。さらに、いくつかの実施形態において、分類器はまた、表4に記載されていない1つ以上の遺伝子についての存在量値に対して訓練される。いくつかの実施形態において、分類器はまた、表4に記載されていない1個、2個、3個、4個、5個、6個、7個、8個、9個、10個またはそれ以上の遺伝子についての存在量値に対して訓練される。いくつかの実施形態において、分類器はまた、表4に記載されていない1~10個の遺伝子についての存在量値に対して訓練される。いくつかの実施形態において、分類器はまた、表4に記載されていない1~5個の遺伝子についての存在量値に対して訓練される。他の実施形態において、分類器はまた、表4に記載されていない任意の遺伝子についての存在量値に対して訓練されない。
さらに、当業者は、いくつかの特徴、例えば、特定の遺伝子についての存在量値が、特定の分類器における他の特徴よりもより有益であろうことも理解するであろう。複数の特徴に基づく分類器におけるそれぞれの特徴の予測力の1つの尺度は、モデルの訓練中に特徴について計算された回帰係数である。回帰係数は、各特徴およびモデルの応答の関係を表す。係数値は、特徴値において1単位増加を与える応答における平均変化を表す。そのため、少なくとも同じ型の変数について、回帰係数の大きさ、例えば絶対値は、モデルにおける特徴の重要性と相関する。つまり、回帰係数の大きさが大きいほど、変数はモデルにとってより重要になる。例えば、実施例4において報告されているように、表4に記載の遺伝子の9つすべての存在量値、ならびにTP53およびPIK3CA遺伝子についての変異対立遺伝子状態に対して訓練された特定のサポートベクトルマシン(SVM)分類器において、9つの遺伝子のうち4つだけが、少なくとも0.75の大きさの回帰係数を有していた-SCNN1A(-1.26)、KCNK15(-1.04)、KRT7(-0.94)、およびCLDN3(-1.68)。
したがって、当業者は、少なくとも部分的に1つ以上の分類モデルにおけるそれぞれの特徴の重要性に基づいて、表4に記載されたすべてより少ない遺伝子を含む特徴セットを選択し得る。例えば、いくつかの実施形態において、分類モデルにおいてより低い予測力を有する1つ以上の遺伝子は、分類器訓練中に省略され得る。例えば、いくつかの実施形態において、訓練に使用される特徴は、少なくとも0.75の回帰係数を有する、少なくとも表5に記載の遺伝子発現特徴、例えば、SCNN1A(-1.26)、KCNK15(-1.04)、KRT7(-0.94)、およびCLDN3(-1.68)を含む。いくつかの実施形態において、訓練に使用される特徴は、少なくとも0.6の回帰係数を有する、少なくとも表5に記載の遺伝子発現特徴を含む。
同様に、特徴セットのサイズは、どの特徴が含まれるか、および/または除外されるかによって影響を受け得る。例えば、いくつかの実施形態において、高い予測力を有する特定の特徴が分類モデルに含まれる場合、より少ない総特徴がモデルに含まれ得る。例えば、いくつかの実施形態において、SCNN1A、KCNK15、KRT7、およびCLDN3についての存在量値がモデルに含まれる場合、表4に記載の他の遺伝子のうちの1つ以下の存在量値をモデルに含める必要がある。したがって、いくつかの実施形態において、モデルを訓練するために使用される特徴は、SCNN1A、KCNK15、KRT7、およびCLDN3、ならびに表4に記載の少なくとも1つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、モデルを訓練するために使用される特徴は、SCNN1A、KCNK15、KRT7、およびCLDN3、ならびに表4に記載の少なくとも2つの他の遺伝子についての存在量値を含む。SCNN1A、KCNK15、KRT7、およびCLDN3、ならびに表4に記載の少なくとも3つの他の遺伝子。SCNN1A、KCNK15、KRT7、およびCLDN3、ならびに表4に記載の少なくとも4つの他の遺伝子。
同様に、いくつかの実施形態において、高い予測力を有する特徴が分類モデルから除外される場合、他の特徴のより多くがモデルに含まれ得る。例えば、いくつかの実施形態において、SCNN1A、KCNK15、KRT7、およびCLDN3のうちの1つ以上についての存在量値がモデルに含まれない場合、表4に記載の他の遺伝子のうちの少なくとも4つについての存在量値をモデルに含める。いくつかの実施形態において、SCNN1A、KCNK15、KRT7、およびCLDN3のうちの1つ以上についての存在量値がモデルに含まれない場合、表4に記載の他の遺伝子の5つすべてについての存在量値をモデルに含める。
もちろん、特徴が最後にモデルに追加されたときに標準化された回帰係数およびR二乗の変化など、モデルにおける特徴の重要性を評価するために他の測定基準も利用できる。
特徴セットを選択するとき、当業者は、特徴が互いに相関している程度も考慮するだろう。相関は、2つの変数が互いにどの程度線形に依存しているかを示す統計的尺度である。そのため、2つの相関する特徴は、予測モデルに重複する情報を提供し、これは、分類器に悪影響を与える可能性がある。そのため、相関する特徴をモデルから除外する理由がいくつかある。例えば、分類器における特徴の数が多いほど、実行する必要のある計算が増えるため、相関する特徴の削除はアルゴリズムをより速くする。相関する特徴の削除は、相関から生じる有害なバイアスもモデルから削除し得る。最後に、相関する特徴の削除は、モデルをより解釈できるようにし得る。したがって、当業者は、少なくとも部分的に1つ以上の分類モデルにおけるそれぞれの特徴の相関に基づいて、表3に記載されたすべてより少ない遺伝子を含む特徴セットを選択し得る。例えば、実施例4において訓練されたSVMモデルの統計分析により、ENSG00000135480(KRT7)およびENSG00000124249(KCNK15)についての遺伝子発現値は高く相関する(0.650)ことが明らかになった。したがって、いくつかの実施形態において、KRT7およびKCNK15のうちの1つについての存在量値は、特徴セットから除外される。
例えば、一実施形態において、特徴セットは、少なくともSCNN1A、CDX1、KCNK15、PRKCG、NKD2、GPR158、CLDN3、およびZNF683についての存在量値を含む。別の実施形態において、特徴セットは、少なくともSCNN1A、CDX1、PRKCG、KRT7、NKD2、GPR158、CLDN3、およびZNF683の存在量値を含む。
いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも70%の特異度および少なくとも70%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも75%の特異度および少なくとも75%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも80%の特異度および少なくとも80%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも85%の特異度および少なくとも85%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも90%の特異度および少なくとも90%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも95%の特異度および少なくとも95%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の特異度を有する。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の感度を有する。
いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも70%の特異度および少なくとも70%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも75%の特異度および少なくとも75%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも80%の特異度および少なくとも80%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも85%の特異度および少なくとも85%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも90%の特異度および少なくとも90%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも95%の特異度および少なくとも95%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の特異度を有する。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の感度を有する。
いくつかの実施形態において、図2を参照した上記のとおり、分類器は、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである。いくつかの実施形態において、分類器は、図2を参照して、上記の方法論にしたがって訓練された。
分類方法
いくつかの実施形態において、本開示は、ヒト対象における第1の癌状態および第2の癌状態を識別するための方法を提供し、第1の癌状態は、発癌性病原体による感染に関連し、第2の癌状態は、発癌性病原体を含まない状態に関連する。概して、方法は、発癌性病原体感染に関連する癌性組織および発癌性病原体感染に関連しない同じ型の癌性組織において差次的に発現される複数の遺伝子についての存在量データ、例えば相対的発現レベルを取得することを含む。次いで、存在量データは、少なくとも部分的に、2つの型の癌性組織で差次的に発現される遺伝子の存在量に基づいて、第1の癌状態および第2の癌状態を識別するように訓練された分類器に入力される。このような分類器の訓練の例は、図2の説明と併せて上で提供されている。
以下に記載される実施形態の多くは、図3と併せて、例えば、患者における癌性組織の試料から得られた、癌患者のエクソーム由来の発現データを使用して実行される分析に関する。概して、これらの実施形態は独立しており、したがって、特定の発現データ生成方法、例えば、配列決定、ハイブリダイゼーション、および/またはqPCR方法論に依存しない。しかしながら、いくつかの実施形態において、以下に記載される方法は、発現データを生成する1つ以上のステップ(301)を含む。
いくつかの実施形態において、これらの方法は、癌性組織の試料を取得すること(302)を含む。癌性組織の試料を取得するための方法は当該技術分野において既知であり、試料採取される癌の型に依存している。例えば、骨髄生検および循環腫瘍細胞の単離を使用して血液癌の試料を取得することができ、内視鏡生検を使用して消化管、膀胱、および肺の癌の試料を取得することができ、針生検(例えば、細針吸引、コア針吸引、真空補助生検、および画像誘導生検を使用して、皮下腫瘍の試料を取得することができ、皮膚生検、例えば、薄片生検、パンチ生検、切開生検、および切除生検を使用して、取得することができ、皮膚癌の試料を取得することができ、ならびに外科的生検を使用して、患者の内臓に影響を与える癌の試料を取得することができる。
次いで、いくつかの実施形態において、mRNAは、癌性組織の試料から単離される(304)。組織試料からRNAを単離するための多くの技術が当該技術分野において既知である。例えば、酸性グアニジンチオシアン酸塩-フェノール-クロロホルム抽出(例えば、Chomczynski and Sacchi,Nat Protoc,1(2):581-85(2006)を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる)、およびシリカビーズ/ガラス繊維吸着(例えば、Poeckh,T.et al.,Anal Biochem.,373(2):253-62(2008)を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる)である。本明細書に記載の実施形態と併せて使用するための任意の特定のRNA単離技術の選択は、組織の型、組織の状態、例えば、新鮮、凍結、ホルマリン固定、パラフィン包埋(FFPE)、およびRNA試料で実行されるべき核酸分析の種類を考慮する当業者の技能の範囲内である。
いくつかの実施形態において、RNAは、市販の試薬、例えば、プロテイナーゼK、TURBO DNase-I、および/またはRNAクリーンXPビーズを使用して、血液試料および/または組織切片(例えば、腫瘍生検)から単離される。いくつかの実施形態において、単離されたRNAは、蛍光色素および蛍光マイクロプレートリーダー、標準的な分光蛍光光度計、またはフィルター蛍光光度計の使用を含む、RNA分子の濃度および/または量を決定するための品質管理プロトコルに供される。
いくつかの実施形態において、発現データは、例えば、直接RNA配列決定によって、単離されたmRNAから直接得られる(314)。直接RNA配列決定のための方法は当該技術分野において既知である。例えば、Ozsolak F.,et al.,Nature 461:814-18(2009)、およびGaralde,D.R.,et al.,Nat Methods,15(3):201-206(2018)を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。
他の実施形態において、発現データは、cDNA中間体を介して得られる。したがって、いくつかの実施形態において、単離されたRNAを使用して、cDNA合成を介してcDNAライブラリーを作成する(310)。いくつかの実施形態において、cDNAライブラリーは、市販の試薬、例えば、Roche KAPA Hyper Beadsを使用して、cDNA分子サイズ選択のために精製および選択される単離されたRNAから調製される。別の例において、New England Biolabs(NEB)キットを使用することができる。
いくつかの実施形態において、cDNAライブラリー調製は、cDNA分子へのアダプターのライゲーションを含む。例えば、Roche SeqCapデュアルエンドアダプターなどのUDIアダプター、またはUMIアダプター(例えば、全長またはスタビーYアダプター)を、cDNA分子に連結し得る。アダプターは、それらが由来する試料に従ってcDNA分子を特定するためのバーコード、および/または下流のバイオインフォマティクス処理および/または次世代配列決定反応を容易にするためのバーコードとして機能し得る核酸分子である。アダプターにおけるヌクレオチドの配列は、試料を区別するために試料に特有であり得る。アダプターは、配列決定装置フローセル上のアンカーオリゴヌクレオチド分子へのcDNA分子の結合を促進し得、配列決定反応のための開始点を提供することにより、配列決定プロセスの種として機能し得る。
cDNAライブラリーを、試薬、例えば、Axygen MAG PCRクリーンアップビーズを使用して増幅および精製し得る。次いで、cDNA分子の濃度および/または量を、蛍光色素および蛍光マイクロプレートリーダー、標準的な分光蛍光光度計、またはフィルター蛍光光度計を使用して定量化し得る。
いくつかの実施形態において、直接RNA配列決定およびcDNAライブラリー構築前の両方について、単離されたRNAは、cDNAライブラリー構築前に、最初に所望の型のRNA(例えば、mRNA)または種(例えば、特定のmRNA転写産物)について濃縮される(308)。所望のRNA分子について濃縮する方法もまた、当該技術分野において既知である。例えば、mRNA分子は、例えば、オリゴdT親和性技術を使用して、全RNA調製物中の他のRNA分子と比較して濃縮され得る(例えば、Rio,D.C.,et al.,Cold Spring Harb Protoc.,2010 Jul 1;2010(7)を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる)。特定のmRNA転写産物はまた、例えば、目的の1つ以上のmRNA配列に特異的に結合するハイブリダイゼーションプローブを使用して単離され得る。
いくつかの実施形態において、cDNAライブラリーは、真空中で乾燥される前に、プールされ、オフターゲット捕捉を低減するための試薬、例えば、ヒトCOT-1および/またはIDT xGen Universal Blockersで処理される。次いで、プールをハイブリダイゼーション混合物、例えばIDT xGen Lockdownに再懸濁し、プローブ、例えば、IDT xGen Exome Research Panel v1.0プローブ、IDT xGen Exome Research Panel v2.0プローブ、他のIDTプローブパネル、ロシュプローブパネル、または他のプローブを各プールに追加し得る。プールを、インキュベーター、PCRマシン、ウォーターバス、またはその他の温度調節デバイスでインキュベートして、プローブをハイブリダイズさせ得る。次に、プールをストレプトアビジンでコーティングされたビーズまたはハイブリダイズしたcDNAプローブ分子、特にヒトゲノムのエクソンを表すcDNA分子を捕捉するための別の手段と混合し得る。別の実施形態において、ポリA捕捉を使用し得る。プールを、市販の試薬、例えば、KAPA HiFi Library AmplificationキットおよびAxygen MAG PCRクリーンアップビーズをそれぞれ使用して、もう一度増幅および精製し得る。
単離されたmRNAからのcDNAライブラリーの構築もまた、当該技術分野において既知である。いくつかの実施形態において、cDNAライブラリー構築は、逆転写酵素を使用する単離されたmRNAからの第1鎖DNA合成、続いてDNAポリメラーゼを使用する第2鎖合成によって行われる。cDNA合成のための方法の例は、McConnell and Watson,1986,FEBS Lett.195(1-2),pp.199-202、Lin and Ying,2003,Methods Mol Biol.221,pp.129-143、およびOh et al.,2003,Exp Mol Med.35(6),pp.586-90に記載されており、それらの内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。
cDNAライブラリーを分析して、cDNA分子の断片サイズを決定することもでき、これは、ゲル電気泳動技術を介して行うことができ、LabChip GX Touchなどのデバイスの使用を含むことができる。プールを、キット(例えば、PhiXスパイクを備えたIllumina Paired-end Cluster Kits)を使用してクラスター増幅し得る。一例において、cDNAライブラリーの調製および/または全エクソーム捕捉ステップは、液体処理ロボット(例えば、SciClone NGSx)を使用して、自動化されたシステムで実行され得る。
ライブラリー増幅は、デバイス、例えばIllumina C-Bot2で実行され得、増幅された標的捕捉cDNAライブラリーを含む結果として得られるフローセルは、次世代配列決定装置、例えばIllumina HiSeq4000またはIllumina NovaSeq 6000で、ユーザが選択した固有のオンターゲット深度、例えば300x、400x、500x、10,000xなどに配列決定され得る。次世代配列決定装置は、各患者試料または各フローセルについてのFASTQ、BCL、またはその他のファイルを生成し得る。
2つ以上の患者試料が同じ配列決定装置フローセルで同時に処理される場合、複数の患者試料由来のリードは、最初は同じBCLファイルに含まれ、次いで各患者についての個別のFASTQファイルに分割される。各患者試料について使用されるアダプターの配列の違いは、バーコードの目的を果たし、各リードを正しい患者試料に関連付けて、正しいFASTQファイルに配置するのを容易にし得る。
mRNA配列決定のための方法は、当該技術分野において既知である。いくつかの実施形態において、mRNA配列決定は、全エクソーム配列決定(WES)によって実行される。概して、WESは、組織試料からRNAを単離し、任意で所望の配列を選択し、および/または不要なRNA分子を枯渇させ、cDNAライブラリーを生成し、次いで、例えば、次世代配列決定(NGS)技術を使用して、cDNAライブラリー(312)を配列決定することによって実行される。癌診断における全エクソーム配列決定技術の使用の評論については、Serrati et al.,2016,Onco Targets Ther.9,pp.7355-7365を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。
次世代配列決定法も当該技術分野において既知であり、合成技術(Illumina)、パイロシーケンシング(454 Life Sciences)、イオン半導体技術(Ion Torrent配列決定)、単一分子リアルタイム配列決定(Pacific Biosciences)、ライゲーションによる配列決定(SOLiD配列決定)、ナノポア配列決定(Oxford Nanopore Technologies)、またはペアエンド配列決定を含む。いくつかの実施形態において、超並列配列決定は、可逆的染料ターミネーターで合成ごとの配列決定を使用して実行される。
いくつかの実施形態において、配列リードは、アラインメント位置情報を決定するために当該技術分野において既知の方法を使用して、参照エクソームまたは参照ゲノムにアラインメントされ得る。アラインメント位置情報は、所与の配列リードの開始ヌクレオチド塩基および終了ヌクレオチド塩基に対応する参照ゲノムにおける領域の開始位置および終了位置を示し得る。アラインメント位置情報には、開始位置および終了位置から決定され得る配列リード長も含み得る。参照ゲノムにおける領域は、遺伝子または遺伝子のセグメントに関連付けられ得る。RNA-seqデータからトランスクリプトーム情報を組み立てて管理するための既知ソフトウェアの非限定的な例として、TopHatとCufflinksが挙げられ、Trapnell et al.,2012,Nat Protoc.7(3),pp.562-578を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。また、Hintzsche et al.,2016,Int J Genomics 7983236も参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。
他の実施形態において、発現データは、例えば、マイクロアレイを使用して、cDNAライブラリーのハイブリダイゼーション(313)によって生成される。病原体感染後の差次的遺伝子発現を特定するためのマイクロアレイベースの遺伝子プロファイリングの使用は、当該技術分野において既知である。例えば、Adomas et al.,2008,Tree Physiol.28(6),pp.885-897を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。同様に、他の実施形態において、cDNAライブラリーに基づいて発現を定量化するためのさらに他の方法、例えば、定量的リアルタイムPCR(RT-qPCR)が使用される。例えば、Wagner,2013,Methods Mol Biol.1027,pp.19-45を参照されたく、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。
図3に関して示されるように、いくつかの実施形態において、方法300は、少なくとも部分的に、1つ以上のプロセッサと、対象における第1の癌状態および第2の癌状態を識別するために1つ以上のプロセッサによる実行のための1つ以上のプログラムを格納するメモリとを有するコンピュータシステム(例えば、図1のコンピュータシステム100)で実行され、第1の癌状態は第1の発癌性病原体による感染に関連し、第2の癌状態は発癌性病原体を含まない状態に関連する。方法300におけるいくつかの操作は、任意で組み合わされ、および/またはいくつかの操作の順序は、任意で変更される。
いくつかの実施形態において、方法は、対象についてのデータセットを取得することを含み、データセットは、複数の存在量値を含み、複数の存在量値における各それぞれの存在量値は、対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。いくつかの実施形態において、得られた存在量値は、下位方法301に関して説明された方法論のうちのいずれかに従って決定される。いくつかの実施形態において、存在量データは、事前に生成され、ネットワークを介して、例えば、ネットワークインターフェース104を使用して、コンピュータシステム100に通信される。次いで、方法300は、ヒト対象における第1の癌状態および第2の癌状態を識別するために訓練された分類器にデータセットを入力すること(316)を含み、第1の癌状態は、発癌性病原体による感染に関連し、第2の癌状態は、発癌性病原体を含まない状態に関連する。そのような分類器の例は、図2と併せて上で提供されている。それにより、方法は、対象が発癌性病原体感染に関連する第1の癌状態を有するか、または発癌性病原体感染に関連しない第2の癌状態を有するかを決定する(320)。
いくつかの実施形態において、方法300はまた、対象由来の癌性組織のゲノムにおける1つ以上の遺伝子座での1つ以上の変異対立遺伝子についての変異対立遺伝子カウントを分類器への入力することを含む。すなわち、いくつかの実施形態において、分類器はまた、発癌性病原体感染に関連するかまたは発癌性病原体感染に関連しない癌を有する対象における1つ以上の変異対立遺伝子の存在または不在に関するデータに対して訓練される。いくつかの実施形態において、1つ以上の変異対立遺伝子は、TP53(ENSG00000141510)、CDKN2A(ENSG00000147889)、およびPIK3CA(ENSG00000121879)からなる群から選択される遺伝子における変異対立遺伝子から選択される。
いくつかの実施形態において、対象は、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、頭頸部癌、卵巣癌、肝胆道癌、子宮頸癌、甲状腺癌、または膀胱癌に罹患している。
いくつかの実施形態において、第1の癌状態は、エプスタインバーウイルス(EBV)、B型肝炎ウイルス(HBV)、C型肝炎ウイルス(HCV)、ヒトパピローマウイルス(HPV)、ヒトT細胞リンパ球向性ウイルス(HTLV-1)、カポジ関連肉腫ウイルス(KSHV)、およびメルケル細胞ポリオーマウイルス(MCV)から選択される第1の発癌性病原体による感染に関連する。
より具体的には、いくつかの実施形態において、第1の癌状態は、ヒトパピローマウイルス(HPV)に関連する子宮頸癌、HPVに関連する頭頸部癌、エプスタインバーウイルス(EBV)に関連する胃癌、EBVに関連する鼻咽頭癌、EBVに関連するバーキットリンパ腫、EBVに関連するホジキンリンパ腫、B型肝炎ウイルス(HBV)に関連する肝臓癌、C型肝炎ウイルス(HCV)に関連する肝臓癌、カポジ関連肉腫ウイルス(KSHV)に関連するカポジ肉腫、ヒトT細胞リンパ球向性ウイルス(HTLV-1)に関連する成人T細胞白血病/リンパ腫、およびメルケル細胞ポリオーマウイルス(MCV)に関連するメルケル細胞癌から選択される。発癌性ウイルス感染に関連することが知られている癌状態の要約については、de Flora,2011,“The prevention of infection-associated cancers,”Carcinogenesis 32,pp.787-795を参照されたい。
したがって、第1の癌状態が特定の発癌性病原体に関連する特定の型の癌である場合、第2の癌状態は、特定の発癌性病原体の感染がないことに関連する同じ特定の型の癌である。例えば、第1の癌状態がヒトパピローマウイルス(HPV)感染に関連する子宮頸癌である場合、第2の癌状態はヒトパピローマウイルス(HPV)感染に関連しない子宮頸癌である。さらに、上記のように、2つの癌状態を識別するために使用される分類器は、ヒトパピローマウイルス(HPV)感染に関連する子宮頸癌を有することがわかっている対象由来、およびヒトパピローマウイルス(HPV)感染に関連しない子宮頸癌を有することがわかっている対象由来の、少なくとも遺伝子存在量値(例えば、mRNA発現プロファイル)を含むデータセットに対して訓練される。
いくつかの実施形態において、この方法は、発癌性病原性感染に関連する第1の癌状態の治療のために調整された第1の療法(322)、または発癌性病原性感染に関連しない第2の癌状態の治療のために調整された第2の療法(324)のいずれかで対象を治療することをさらに含む。
したがって、一実施形態において、ヒト癌患者における癌を治療するための方法が提供される。方法は、データセットが複数の存在量値を含む患者についてのデータセットを取得することによって、患者が癌の病理に連結する発癌性病原体に感染しているかどうかを決定することと、少なくとも発癌性病原体の感染に関連する第1の癌状態および発癌性病原体の感染に関連しない第2の癌状態を識別するように訓練された分類器にデータセットを入力することとを含む。データセットにおける各存在量の値は、発癌性病原体の感染に関連する癌および発癌性病原体の感染に関連しない癌において差次的に発現することが見出された対応する遺伝子の発現レベルを定量化する。いくつかの実施形態において、任意の特定の型の癌についての癌状態を識別するために存在量値が使用される遺伝子は、図2を参照して上記の選択方法論のうちのいずれかに従って選択される。同様に、いくつかの実施形態において、使用される分類器は、図2を参照して上記の訓練方法のうちのいずれかに従って訓練される。
いくつかの実施形態において、対象が発癌性病原体感染に関連する第1の癌状態を有すると決定される場合、この方法は、対象に免疫療法を割り当てるおよび/または実施することを含む。いくつかの実施形態において、対象が発癌性病原体感染に関連しない第2の癌状態を有すると決定される場合、この方法は、対象に化学療法を割り当てるおよび/または実施することを含む。
表2に要約されているように、ウイルス関連腫瘍の治療のためにいくつかの臨床試験が進行中である。したがって、いくつかの実施形態において、本明細書に記載の方法は、表2に記載のように、特定の発癌性ウイルス感染に関連する特定の癌についての治療を割り当てるおよび/または実施することを含む。例えば、いくつかの実施形態において、対象がHPV感染に関連するフェーズ3子宮頸癌を有すると決定されると、対象は、Lmタンパク質リステリオリシンOの切断断片に融合させたHPV-16E7タンパク質をコードするプラスミドをトランスフェクトされた生きた弱毒化Listeria monocytogenesであるaxalimogene filolisbacの治療上有効な投薬レジメンを割り当てられ、および/または実施される。
Figure 2022521791000013

Figure 2022521791000014
HPV発癌性ウイルス感染
いくつかの実施形態において、本明細書に記載の方法は、ヒトパピローマウイルス(HPV)感染に関連することが知られている癌の分類および/または治療に関する。以下の実施例3で報告されるように、表3に記載され、図4Bに示される24個の遺伝子は、The Cancer Genome Atlas(TCGA)において既知のHPV状態を有する子宮頸癌または頭頸部癌の発現データから形成された10個の訓練セットのうちの少なくとも8つにおいて差次的に発現されることが見出された。したがって、いくつかの実施形態において、表3に記載の遺伝子のうちの1つ以上の発現レベルは、HPV感染に関連するか、またはHPV感染に関連しないかのいずれかとして子宮頸癌または頭頸部癌の分類に使用される。いくつかの実施形態において、表3に記載の遺伝子のうちの少なくとも2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、または24個すべての発現レベルは、HPV感染に関連するか、またはHPV感染に関連しないかのいずれかとして子宮頸癌または頭頸部癌の分類に使用される。
Figure 2022521791000015
一実施形態において、ヒト対象における第1の癌状態および第2の癌状態を識別するための方法が提供され、第1の癌状態はヒトパピローマウイルス(HPV)発癌性ウイルスによる感染に関連し、第2の癌状態はHPVを含まない状態に関連する。方法は、例えば、図3を参照して上述したように、対象についてのデータセットを取得することを含む。データセットは、対象由来の複数の存在量値を含み、複数の存在量値における各それぞれの存在量値は、対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。いくつかの実施形態において、複数の遺伝子は、表3に記載の遺伝子から選択される少なくとも5つの遺伝子を含む。次いで、方法は、複数の遺伝子の存在量値に基づいて、少なくとも第1の癌状態および第2の癌状態を識別するように訓練された分類器にデータセットを入力することを含む。いくつかの実施形態において、分類器は、図2に関して上述された方法論のうちのいずれかに従って訓練される。
いくつかの実施形態において、第1の癌状態は、HPV感染に関連する子宮頸癌であり、第2の癌状態は、HPV感染に関連しない子宮頸癌である。いくつかの実施形態において、第1の癌状態は、HPV感染に関連する頭頸部癌であり、第2の癌状態は、HPV感染に関連しない頭頸部癌である。いくつかの実施形態において、頭頸部癌は、特定の形態または頭頸部癌、例えば、下咽頭癌、喉頭癌、唇および口腔癌、潜在性原発性を伴う転移性扁平上皮癌、鼻咽頭癌、中咽頭癌、副鼻腔および鼻腔癌、または唾液腺癌である。
いくつかの実施形態において、複数の遺伝子は、表3に記載の遺伝子のうちの少なくとも10個を含む。いくつかの実施形態において、複数の遺伝子は、表3に記載の遺伝子のうちの少なくとも15個を含む。いくつかの実施形態において、複数の遺伝子は、表3に記載の遺伝子のうちの少なくとも20個を含む。いくつかの実施形態において、複数の遺伝子は、表3に記載のすべての遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、表3に記載されていない1つ以上の遺伝子、例えば、表3に記載されていない1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、またはそれ以上の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、20個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、25個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、50個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、10個、15個、20個、25個、30個、35個、40個、50個、60個、70個、80個、90個、100個、125個、150個、175個、200個、250個、または300個以下の遺伝子を含む。
いくつかの実施形態において、データセットはまた、対象由来の癌性組織のゲノムにおける1つ以上の遺伝子座での1つ以上の対立遺伝子についての変異対立遺伝子カウントを含む。いくつかの実施形態において、変異対立遺伝子カウントは、対象が変異対立遺伝子を保有する状態を表す1、または対象が変異対立遺伝子を保有しない状態を表す0のいずれかである。いくつかの実施形態において、変異対立遺伝子は、対象の生殖系列に由来する体細胞変異である。いくつかの実施形態において、変異対立遺伝子は、癌性組織に由来する癌由来の変異である。いくつかの実施形態において、変異対立遺伝子は、TP53(ENSG00000141510)またはCDKN2A(ENSG00000147889)遺伝子に位置する。
いくつかの実施形態において、分類器は、子宮頸癌、頭頸部扁平上皮癌、卵巣癌、陰茎癌、咽頭癌、肛門癌、膣癌、および外陰癌から選択されるHPV関連癌を有する対象のHPV状態を決定するために訓練される。いくつかの実施形態において、分類器は、特定のHPV関連癌、例えば、子宮頸癌、頭頸部扁平上皮癌、卵巣癌、陰茎癌、咽頭癌、肛門癌、膣癌、または外陰癌を有する試験患者のHPV状態を決定するために訓練される。しかしながら、分類器訓練は概して訓練データセットのサイズを大きくすることによって改善されるので、いくつかの実施形態において、分類器は、2つ以上の型のHPV関連癌、例えば、子宮頸癌、頭頸部扁平上皮癌、卵巣癌、陰茎癌、咽頭癌、肛門癌、膣癌、および外陰癌のうちの2つ、3つ、4つ、5つ、6つ、7つ、または8つすべてを有する患者由来のデータに対して訓練される。実施例3によって例示される特定の実施形態において、分類器は、頭頸部扁平上皮癌または子宮頸癌のいずれかを有する対象に対して訓練される。しかしながら、いくつかの実施形態において、1つ以上の型のHPV関連癌を有する患者に対して訓練された分類器は、異なる型のHPV関連癌を有する患者のHPV状態を決定するために有用である。
いくつかの実施形態において、分類器の特徴は、表3に記載のもの、例えば、KRT86、CRISPLD1、DSG1、SESN3、DAMTS20、IRX1、SMC1B、CDKN2A、EFNB3、CXCL14、ZFR2、RNF212、MKRN3、SYCP2、MYL1、MYO3A、RNASE10、GALNT13、C19orf26、MUC4、PCDHGB1、CCND1、LCE1F、およびKCNS1から選択される複数の遺伝子についての存在量値を含む。以下に報告するように、例えば、実施例3を参照すると、これらの24個の遺伝子は、The Cancer Genome Atlas(TCGA)においてHPVの状態がわかっている子宮頸癌、または頭頸部癌の発現データから形成された10個の訓練セットのうちの少なくとも8個において、対象のHPV状態に応じて差次的に発現されることが見出された。しかしながら、当業者は、場合によっては、異なる訓練データセットの使用が異なる結果、例えば、これらの遺伝子のうちの1つ以上が訓練フォールドの少なくとも80%で有益ではない可能性があること、および/または実施例3において報告された研究において訓練フォールドの少なくとも80%において有益ではないことが見出された1つ以上の遺伝子が有益であり得ること、をもたらす可能性があることを理解するであろう。これらの違いは、例えば、訓練集団を選択するために異なる基準が使用される場合に発生する可能性があり、例えば、癌の型、個人の特性(例えば、年齢、性別、民族、家族歴、喫煙状況など)などの種々の包含および/または除外基準、または単に小さいまたは大きいデータセットを使用することによってである。
したがって、いくつかの実施形態において、分類器の特徴は、表3に記載の遺伝子のうちの少なくとも5つを含む。いくつかの実施形態において、分類器の特徴は、表3に記載の遺伝子のうちの少なくとも10個を含む。いくつかの実施形態において、分類器の特徴は、表3に記載の遺伝子のうちの少なくとも15個を含む。いくつかの実施形態において、分類器の特徴は、表3に記載の遺伝子のうちの少なくとも20個を含む。いくつかの実施形態において、分類器の特徴は、表3に記載の遺伝子の24個すべてを含む。いくつかの実施形態において、分類器の特徴は、表3に記載の遺伝子のうちの5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、または24個すべてを含む。さらに、いくつかの実施形態において、分類器の特徴は、表3に記載されていない1つ以上の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、表3に記載されていない1個、2個、3個、4個、5個、6個、7個、8個、9個、10個またはそれ以上の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、表3に記載されていない1~10個の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、表3に記載されていない1~5個の遺伝子についての存在量値を含む。他の実施形態において、分類器の特徴は、表3に記載されていない任意の遺伝子についての存在量値を含まない。
さらに、当業者は、いくつかの特徴、例えば、特定の遺伝子についての存在量値が、特定の分類器における他の特徴よりもより有益であろうことも理解するであろう。複数の特徴に基づく分類器におけるそれぞれの特徴の予測力の1つの尺度は、モデルの訓練中に特徴について計算された回帰係数である。回帰係数は、各特徴およびモデルの応答の関係を表す。係数値は、特徴値において1単位増加を与える応答における平均変化を表す。そのため、少なくとも同じ型の変数について、回帰係数の大きさ、例えば絶対値は、モデルにおける特徴の重要性と相関する。つまり、回帰係数の大きさが大きいほど、変数はモデルにとってより重要になる。例えば、実施例3において報告されているように、表3に記載の遺伝子の24個すべての存在量値、ならびにTP53およびCDKN2A遺伝子についての変異対立遺伝子状態に対して訓練された特定のサポートベクトルマシン(SVM)分類器において、24個の遺伝子のうち6つだけが、少なくとも0.5の大きさの回帰係数を有していた-CDKN2A(1.13)、SMC1B(1.02)、EFNB3(-0.97)、KCNS1(0.74)、CCND1(-0.65)、およびRNF212(0.517)。
したがって、当業者は、少なくとも部分的に1つ以上の分類モデルにおけるそれぞれの特徴の重要性に基づいて、表3に記載されたすべてより少ない遺伝子を含む特徴セットを選択し得る。例えば、いくつかの実施形態において、分類モデルにおいてより低い予測力を有する1つ以上の遺伝子は、分類器訓練中に省略され得る。例えば、いくつかの実施形態において、分類器の特徴は、少なくとも0.5の回帰係数を有する、少なくとも表5に記載の遺伝子発現特徴、例えば、CDKN2A、SMC1B、EFNB3、KCNS1、CCND1、およびRNF212を含む。いくつかの実施形態において、分類器の特徴は、少なくとも0.4の回帰係数を有する、少なくとも表5に記載の遺伝子発現特徴を含む。いくつかの実施形態において、分類器の特徴は、少なくとも0.3の回帰係数を有する、少なくとも表5に記載の遺伝子発現特徴を含む。いくつかの実施形態において、分類器の特徴は、少なくとも0.2の回帰係数を有する、少なくとも表5に記載の遺伝子発現特徴を含む。いくつかの実施形態において、分類器の特徴は、少なくとも0.1の回帰係数を有する、少なくとも表5に記載の遺伝子発現特徴を含む。
同様に、特徴セットのサイズは、どの特徴が含まれるか、および/または除外されるかによって影響を受け得る。例えば、いくつかの実施形態において、高い予測力を有する特定の特徴が分類モデルに含まれる場合、より少ない総特徴がモデルに含まれ得る。例えば、いくつかの実施形態において、SMC1B、CDKN2A、およびEFNB3についての存在量値がモデルに含まれる場合、存在量値が表5の特徴として使用される他の遺伝子のうちの2つ以下についての存在量値をモデルに含める必要がある。したがって、いくつかの実施形態において、分類器の特徴は、SMC1B、CDKN2A、およびEFNB3、ならびにその存在量値が表5の特徴として使用される少なくとも2つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、SMC1B、CDKN2A、およびEFNB3、ならびにその存在量値が表5の特徴として使用される少なくとも5つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、SMC1B、CDKN2A、およびEFNB3、ならびにその存在量値が表5の特徴として使用される少なくとも10個の他の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、SMC1B、CDKN2A、およびEFNB3、ならびにその存在量値が表5の特徴として使用される少なくとも15個の他の遺伝子についての存在量値を含む。
同様に、いくつかの実施形態において、高い予測力を有する特徴が分類モデルから除外される場合、他の特徴のより多くがモデルに含まれ得る。例えば、いくつかの実施形態において、SMC1B、CDKN2A、およびEFNB3のうちの1つ以上についての存在量値がモデルに含まれない場合、その存在量値が表5の特徴として使用される他のうちの少なくとも15個についての存在量値をモデルに含める。いくつかの実施形態において、SMC1B、CDKN2A、およびEFNB3のうちの1つ以上についての存在量値がモデルに含まれない場合、その存在量値が表5の特徴として使用される他の遺伝子のうちの少なくとも20個についての存在量値をモデルに含める。いくつかの実施形態において、SMC1B、CDKN2A、およびEFNB3のうちの1つ以上についての存在量値がモデルに含まれない場合、その存在量値が表5の特徴として使用される他の遺伝子のうちの少なくとも15個、16個、17個、18個、19個、20個、または21個すべてについての存在量値をモデルに含める。
もちろん、特徴が最後にモデルに追加されたときに標準化された回帰係数およびR二乗の変化など、モデルにおける特徴の重要性を評価するために他の測定基準も利用できる。
特徴セットを選択するとき、当業者は、特徴が互いに相関している程度も考慮するだろう。相関は、2つの変数が互いにどの程度線形に依存しているかを示す統計的尺度である。そのため、2つの相関する特徴は、予測モデルに重複する情報を提供し、これは、分類器に悪影響を与える可能性がある。そのため、相関する特徴をモデルから除外する理由がいくつかある。例えば、分類器における特徴の数が多いほど、実行する必要のある計算が増えるため、相関する特徴の削除はアルゴリズムをより速くする。相関する特徴の削除は、相関から生じる有害なバイアスもモデルから削除し得る。最後に、相関する特徴の削除は、モデルをより解釈できるようにし得る。
したがって、当業者は、少なくとも部分的に1つ以上の分類モデルにおけるそれぞれの特徴の相関に基づいて、表3に記載されたすべてより少ない遺伝子を含む特徴セットを選択し得る。いくつかの実施形態において、相関する特徴セットのうちの一方または他方の特徴を削除する選択は、2つの特徴の予測力、例えば、それらのそれぞれの回帰係数によって情報を与えられる。例えば、ENSG00000105278(CXCL14)およびENSG00000077935(SMC1B)についての遺伝子発現値は、表3に記載の特徴セットにおいて高く相関している(相関=0.718983175)。したがって、いくつかの実施形態において、特徴セットは、CXCL14またはSMC1Bのいずれも含まない。いくつかの実施形態において、表5に報告されているように、SMC1Bは、実施例3に記載のSVMモデルにおいてCXCL14(-0.29)よりも高い回帰係数(1.02)を有するため、SMC1BではなくCXCL14が特徴セットから除外される。
表6に報告されているように、10対の遺伝子発現特徴は、少なくとも0.6の相関を有する。したがって、いくつかの実施形態において、少なくとも0.6の相関を有する少なくとも1対の特徴における特徴は、モデルから除外される。いくつかの実施形態において、少なくとも0.6の相関を有する少なくとも2対の特徴における特徴は、モデルから除外される。他の実施形態において、少なくとも0.6の相関を有する少なくとも3対、4対、5対、6対、7対、8対、9対、または10対すべての特徴における特徴は、モデルから除外される。いくつかの実施形態において、除外された特徴は、表5に報告されているより低い回帰係数を有する一対の高く相関した特徴における特徴である。例えば、表6を参照すると、相関の高い各ペア(例えば、少なくとも0.6の相関に対応)においてより低い回帰係数有する特徴は以下のとおりである。
・ペア1=DSG1
・ペア2=ZFR2
・ペア3=RNF212
・ペア4=SYCP2
・ペア5=ZFR2
・ペア6=MYO3A
・ペア7=SYCP2
・ペア8=DSG1
・ペア9=KCNS1
・ペア10=ZFR2
したがって、いくつかの実施形態において、DSG1、ZFR2、RNF212、SYCP2、MYO3A、およびKCNS1のうちの1つ以上は、それらが高く相関する特徴の対において最も有益性が低い特徴であることに基づいて、特徴セットから除外される。
しかしながら、いくつかの実施形態において、この選択プロセスは、例えば、高く相関する対の特徴のうちの少なくとも1つにおいて両方の遺伝子が最も有益性が低い特徴であることに基づいて、高く相関する対の特徴の両方の特徴を特徴セットから除外することを認めない。したがって、いくつかの実施形態において、SYCP2、MYO3A、およびKCNS1のうちの1つ以上は、特徴セットから除外されない。同様に、いくつかの実施形態において、この選択プロセスは、非常に有益な特徴、例えば、少なくとも0.5の回帰係数を有する特徴が特徴セットから除外されることを認めない。したがって、いくつかの実施形態において、RNF212およびKCNS1の一方または両方は、特徴セットから除外されない。
したがって、一実施形態において、特徴セットは、少なくともKRT86、CRISPLD1、SESN3、DAMTS20、IRX1、SMC1B、CDKN2A、EFNB3、CXCL14、MKRN3、SYCP2、MYL1、MYO3A、RNASE10、GALNT13、C19orf26、MUC4、PCDHGB1、CCND1、LCE1F、およびKCNS1についての存在量値を含む。
同様に、一実施形態において、特徴セットは、少なくともKRT86、CRISPLD1、SESN3、DAMTS20、IRX1、SMC1B、CDKN2A、EFNB3、CXCL14、RNF212、MKRN3、MYL1、RNASE10、GALNT13、C19orf26、MUC4、PCDHGB1、CCND1、LCE1F、およびKCNS1についての存在量値を含む。
同様に、一実施形態において、特徴セットは、少なくともKRT86、CRISPLD1、SESN3、DAMTS20、IRX1、SMC1B、CDKN2A、EFNB3、CXCL14、RNF212、MKRN3、SYCP2、MYL1、MYO3A、RNASE10、GALNT13、C19orf26、MUC4、PCDHGB1、CCND1、LCE1F、およびKCNS1についての存在量値を含む。
いくつかの実施形態において、図2を参照した上記のとおり、分類器は、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである。いくつかの実施形態において、分類器は、図2を参照して、上記の方法論にしたがって訓練された。
いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも70%の特異度および少なくとも70%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも75%の特異度および少なくとも75%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも80%の特異度および少なくとも80%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも85%の特異度および少なくとも85%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも90%の特異度および少なくとも90%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも95%の特異度および少なくとも95%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の特異度を有する。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の感度を有する。
いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも70%の特異度および少なくとも70%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも75%の特異度および少なくとも75%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも80%の特異度および少なくとも80%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも85%の特異度および少なくとも85%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも90%の特異度および少なくとも90%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも95%の特異度および少なくとも95%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の特異度を有する。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の感度を有する。
いくつかの実施形態において、方法は、癌状態の分類に基づいて、例えば、対象の癌がHPVウイルス感染に関連するかどうかに基づいて、対象に療法を割り当てることおよび/または療法を実施することをさらに含む。
したがって、一実施形態において、ヒト癌患者における子宮頸癌を治療するための方法が提供される。方法は、ヒト癌患者についてのデータセットを取得することによって、ヒト癌患者がヒトパピローマウイルス(HPV)発癌性ウイルスに感染しているかどうかを決定することを含み、データセットは複数の存在量値を含み、複数の存在量値における各それぞれの存在量値は、複数の遺伝子における対応する遺伝子の発現レベルを定量化し、複数の遺伝子は表3に記載の遺伝子から選択される少なくとも5つの遺伝子を含む。次いで、方法は、対象の癌性組織において、複数の遺伝子の存在量値に基づいて、少なくともHPV感染に関連する第1の子宮頸癌状態およびHPVを含まない状態に関連する第2の子宮頸癌状態を識別するように訓練された分類器にデータセットを入力することを含む。いくつかの実施形態において、分類器は、図2を参照して、上記の方法論に従って訓練される。次いで、方法は、子宮頸癌の治療を含む。分類器の結果が、ヒト癌患者がHPV発癌性ウイルスに感染していることを示す場合、HPV感染に関連する子宮頸癌の治療のために調整された第1の療法を実施する。分類器の結果が、ヒト癌患者がHPV発癌性ウイルスに感染していないことを示す場合、HPV感染に関連しない子宮頸癌の治療のために調整された第2の療法を実施する。
いくつかの実施形態において、複数の遺伝子は、表3に記載の遺伝子のうちの少なくとも10個を含む。いくつかの実施形態において、複数の遺伝子は、表3に記載の遺伝子のうちの少なくとも15個を含む。いくつかの実施形態において、複数の遺伝子は、表3に記載の遺伝子のうちの少なくとも20個を含む。いくつかの実施形態において、複数の遺伝子は、表3に記載のすべての遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、表3に記載されていない1つ以上の遺伝子、例えば、表3に記載されていない1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、またはそれ以上の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、20個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、25個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、50個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、10個、15個、20個、25個、30個、35個、40個、50個、60個、70個、80個、90個、100個、125個、150個、175個、200個、250個、または300個以下の遺伝子を含む。
いくつかの実施形態において、データセットはまた、対象由来の癌性組織のゲノムにおける1つ以上の遺伝子座での1つ以上の対立遺伝子についての変異対立遺伝子カウントを含む。いくつかの実施形態において、変異対立遺伝子カウントは、対象が変異対立遺伝子を保有する状態を表す1、または対象が変異対立遺伝子を保有しない状態を表す0のいずれかである。いくつかの実施形態において、変異対立遺伝子は、対象の生殖系列に由来する体細胞変異である。いくつかの実施形態において、変異対立遺伝子は、癌性組織に由来する癌由来の変異である。いくつかの実施形態において、変異対立遺伝子は、TP53(ENSG00000141510)またはCDKN2A(ENSG00000147889)遺伝子に位置する。
いくつかの実施形態において、図2を参照した上記のとおり、分類器は、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである。いくつかの実施形態において、分類器は、図2を参照して、上記の方法論にしたがって訓練された。
いくつかの実施形態において、HPV感染に関連する子宮頸癌の治療のために調整された第1の療法は、治療用ワクチンである。いくつかの実施形態において、治療ワクチンは、axalimogene filolisbac(Advaxis)、TG4001(Transgene)、GX-188E(Genexine)、VGX-3100(Inovio)、MEDI-0457(Inovio)、INO-3106(Inovio)、TA-CIN(Cancer Research Technology)、TA-HPV(Cancer Research Technology)、ISA-101(Isa)、およびPepCan(University of Arkansas)から選択される。
いくつかの実施形態において、HPV感染に関連する子宮頸癌の治療のために調整された第1の療法は、養子細胞療法である。いくつかの実施形態において、養子細胞療法は、例えば、臨床試験ID NCT02379520またはNCT03197025(Baylor College of Medicine)について記載されているように、HPV特異的T細胞の投与を含む。
いくつかの実施形態において、HPV感染に関連する子宮頸癌の治療のために調整された第1の療法は、免疫チェックポイント阻害剤である。いくつかの実施形態において、免疫チェックポイント阻害剤は、ニボルマブ(Bristol-Myers Squibb)である。
いくつかの実施形態において、HPV感染に関連する子宮頸癌の治療のために調整された第1の療法は、PI3K阻害剤である。いくつかの実施形態において、PI3K阻害剤は、AMG319(Amgen)またはBKM120(Novartis)である。
同様に、一実施形態において、ヒトの癌患者における頭頸部癌を治療するための方法が提供される。方法は、ヒト癌患者についてのデータセットを取得することによって、ヒト癌患者がヒトパピローマウイルス(HPV)発癌性ウイルスに感染しているかどうかを決定することを含み、データセットは複数の存在量値を含み、複数の存在量値における各それぞれの存在量値は、複数の遺伝子における対応する遺伝子の発現レベルを定量化し、複数の遺伝子は表3に記載の遺伝子から選択される少なくとも5つの遺伝子を含む。次いで、方法は、対象の癌性組織において、複数の遺伝子の存在量値に基づいて、少なくともHPV感染に関連する第1の頭頸部癌状態およびHPVを含まない状態に関連する第2の頭頸部癌状態を識別するように訓練された分類器にデータセットを入力することを含む。いくつかの実施形態において、分類器は、図2を参照して、上記の方法論に従って訓練される。次いで、方法は、頭頸部癌の治療を含む。分類器の結果が、ヒト癌患者がHPV発癌性ウイルスに感染していることを示す場合、方法は、HPV感染に関連する頭頸部癌の治療のために調整された第1の療法を実施することを含む。分類器の結果が、ヒト癌患者がHPV発癌性ウイルスに感染していないことを示す場合、方法は、HPV感染に関連しない頭頸部癌の治療のために調整された第2の療法を実施するすことを含む。
いくつかの実施形態において、複数の遺伝子は、表3に記載の遺伝子のうちの少なくとも10個を含む。いくつかの実施形態において、複数の遺伝子は、表3に記載の遺伝子のうちの少なくとも15個を含む。いくつかの実施形態において、複数の遺伝子は、表3に記載の遺伝子のうちの少なくとも20個を含む。いくつかの実施形態において、複数の遺伝子は、表3に記載のすべての遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、表3に記載されていない1つ以上の遺伝子、例えば、表3に記載されていない1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、またはそれ以上の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、20個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、25個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、50個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、10個、15個、20個、25個、30個、35個、40個、50個、60個、70個、80個、90個、100個、125個、150個、175個、200個、250個、または300個以下の遺伝子を含む。
いくつかの実施形態において、データセットはまた、対象由来の癌性組織のゲノムにおける1つ以上の遺伝子座での1つ以上の対立遺伝子についての変異対立遺伝子カウントを含む。いくつかの実施形態において、変異対立遺伝子カウントは、対象が変異対立遺伝子を保有する状態を表す1、または対象が変異対立遺伝子を保有しない状態を表す0のいずれかである。いくつかの実施形態において、変異対立遺伝子は、対象の生殖系列に由来する体細胞変異である。いくつかの実施形態において、変異対立遺伝子は、癌性組織に由来する癌由来の変異である。いくつかの実施形態において、変異対立遺伝子は、TP53(ENSG00000141510)またはCDKN2A(ENSG00000147889)遺伝子に位置する。
いくつかの実施形態において、図2を参照した上記のとおり、分類器は、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである。いくつかの実施形態において、分類器は、図2を参照して、上記の方法論にしたがって訓練された。
いくつかの実施形態において、HPV感染に関連する頭頸部癌の治療のために調整された第1の療法は、治療用ワクチンである。いくつかの実施形態において、治療ワクチンは、axalimogene filolisbac(Advaxis)、TG4001(Transgene)、GX-188E(Genexine)、VGX-3100(Inovio)、MEDI-0457(Inovio)、INO-3106(Inovio)、TA-CIN(Cancer Research Technology)、TA-HPV(Cancer Research Technology)、ISA-101(Isa)、およびPepCan(University of Arkansas)から選択される。
いくつかの実施形態において、HPV感染に関連する頭頸部癌の治療のために調整された第1の療法は、養子細胞療法である。いくつかの実施形態において、養子細胞療法は、例えば、臨床試験ID NCT02379520またはNCT03197025(Baylor College of Medicine)について記載されているように、HPV特異的T細胞の投与を含む。
いくつかの実施形態において、HPV感染に関連する頭頸部癌の治療のために調整された第1の療法は、免疫チェックポイント阻害剤である。いくつかの実施形態において、免疫チェックポイント阻害剤は、ニボルマブ(Bristol-Myers Squibb)である。
いくつかの実施形態において、HPV感染に関連する頭頸部癌の治療のために調整された第1の療法は、PI3K阻害剤である。いくつかの実施形態において、PI3K阻害剤は、AMG319(Amgen)またはBKM120(Novartis)である。
HPVプローブセット
いくつかの実施形態において、本開示は、核酸分子、例えば、対象由来の癌性組織試料から単離されたmRNA転写産物および/またはそれらのmRNA転写産物から調製されたcDNA分子を結合、濃縮、およびまたは検出するためのプローブを提供し、それらは、対象がHPV発癌性ウイルス感染に関連する第1の癌状態を有するか、またはHPV発癌性ウイルス感染に関連しない第2の癌状態を有するかについて有益である。概して、プローブは、目的の核酸分子と相補的な塩基配列を有するDNA、RNA、または修飾された核酸構造を含む。したがって、プローブが癌性組織から単離されたmRNA分子にハイブリダイズするように設計される場合、プローブは、転写産物が由来する遺伝子のコード鎖に相補的な核酸配列を含み、すなわち、プローブは、遺伝子のアンチセンス配列を含むであろう。しかしながら、プローブがcDNA分子にハイブリダイズするように設計されている場合、cDNAライブラリーの分子は二本鎖であるため、プローブは、目的の遺伝子のコード配列に相補的な配列(アンチセンス配列)または目的の遺伝子のコード配列と同一の配列(センス配列)のいずれかを含み得る。
いくつかの実施形態において、プローブは、目的の遺伝子配列に対していかなる相同性も共有しない追加の核酸配列を含む。例えば、いくつかの実施形態において、プローブはまた、特定器配列、例えば、特定の癌性組織試料または癌患者に固有である、例えば、固有の分子特定器(UMI)を含む核酸配列を含む。特定器配列の例は、例えば、Kivioja et al.,2011,Nat.Methods 9(1),pp.72-74、およびIslam et al.,2014,Nat.Methods 11(2),pp.163-66に記載されており、それらの内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。同様に、いくつかの実施形態において、プローブはまた、例えば、PCRを使用して、目的の核酸分子を増幅するために有用なプライマー核酸配列を含む。いくつかの実施形態において、プローブはまた、試料由来の目的の核酸分子を回収するための抗捕捉配列にハイブリダイズするように設計された捕捉配列を含む。
同様に、いくつかの実施形態において、プローブは、目的の核酸分子を回収するために、目的の遺伝子に相補的である核酸分子に共有結合された非核酸親和性部分を含む。非核酸親和性部分の非限定的な例には、ビオチン、ジゴキシゲニン、およびジニトロフェノールが挙げられる。いくつかの実施形態において、プローブは、目的の核酸を回収するために、固体表面または粒子、例えば、ディップスティックまたは磁気ビーズに取り付けられる。
したがって、一実施形態において、本開示は、ヒト対象における第1の癌状態および第2の癌状態を識別するための複数の核酸プローブを提供し、第1の癌状態はヒトパピローマウイルス(HPV)発癌性ウイルスによる感染に関連し、第2の癌状態はHPVを含まない状態に関連する。複数の核酸プローブは、少なくとも5つの核酸プローブを含み、少なくとも5つの核酸プローブの各々は、表3に記載の遺伝子から選択される異なるそれぞれの遺伝子のRNA転写産物の少なくとも10個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む。
いくつかの実施形態において、複数の核酸プローブは、表3に記載の異なる遺伝子由来の配列に相補的または同一である配列を有する少なくとも10個のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、表3に記載の異なる遺伝子由来の配列に相補的または同一である配列を有する少なくとも15個のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、表3に記載の異なる遺伝子由来の配列に相補的または同一である配列を有する少なくとも20個のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、表3に記載のすべての遺伝子由来の配列に相補的または同一である配列を有するプローブを含む。いくつかの実施形態において、複数の核酸プローブは、表3に記載の異なる遺伝子由来の配列に相補的または同一である配列を有する2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、または24個のプローブを含む。
いくつかの実施形態において、複数の核酸プローブは、表3に記載されていない遺伝子の配列に結合する1つ以上のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、表3に記載されていない遺伝子の配列に結合する少なくとも2個、3個、4個、5個、6個、7個、8個、9個、10個、またはそれ以上のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、20個以下の遺伝子に結合する配列を有するプローブを含む。いくつかの実施形態において、複数の核酸プローブは、25個以下の遺伝子に結合する配列を有するプローブを含む。いくつかの実施形態において、複数の核酸プローブは、50個以下の遺伝子に結合する配列を有するプローブを含む。いくつかの実施形態において、複数の核酸プローブは、10個、15個、20個、25個、30個、35個、40個、50個、60個、70個、80個、90個、100個、125個、150個、175個、200個、250個、または300個以下の遺伝子に結合する配列を有するプローブを含む。
いくつかの実施形態において、複数のプローブにおける各プローブは、目的のRNA転写産物、例えば、表3に記載の遺伝子由来の転写産物の少なくとも15個の連続する塩基と同一または相補的である核酸配列を含む。いくつかの実施形態において、複数のプローブにおける各プローブは、目的のRNA転写産物、例えば、表3に記載の遺伝子由来の転写産物の少なくとも30個の連続する塩基と同一または相補的である核酸配列を含む。いくつかの実施形態において、複数のプローブにおける各プローブは、目的のRNA転写産物、例えば、表3に記載の遺伝子由来の転写産物の少なくとも50個の連続する塩基と同一または相補的である核酸配列を含む。いくつかの実施形態において、複数のプローブにおける各プローブは、目的のRNA転写産物、例えば、表3に記載の遺伝子由来の転写産物の少なくとも10個、15個、20個、25個、30個、35個、40個、50個、60個、70個、80個、90個、100個、125個、150個、175個、200個、またはそれ以上の連続する塩基と同一または相補的である核酸配列を含む。
EBV発癌性ウイルス感染
いくつかの実施形態において、本明細書に記載の方法は、エプスタインバーウイルス(EBV)感染に関連することが知られている癌の分類および/または治療に関する。以下の実施例4で報告されるように、表4に記載され、図5Bに示される24の遺伝子は、The Cancer Genome Atlas(TCGA)において既知のEBV状態を有する胃癌の発現データから形成された10個の訓練セットのうちの少なくとも8つにおいて差次的に発現されることが見出された。したがって、いくつかの実施形態において、表4に記載の遺伝子のうちの1つ以上の発現レベルは、EBV感染に関連するか、またはEBV感染に関連しないかのいずれかとして胃癌の分類に使用される。いくつかの実施形態において、表4に記載の遺伝子のうちの少なくとも2つ、3つ、4つ、5つ、6つ、7つ、8つ、または9つすべての発現レベルは、EBV感染に関連するか、またはEBV感染に関連しないかのいずれかとして胃癌の分類に使用される。
Figure 2022521791000016
一実施形態において、ヒト対象における第1の癌状態および第2の癌状態を識別するための方法が提供され、第1の癌状態は、エプスタインバーウイルス(EBV)発癌性ウイルスによる感染に関連し、第2の癌状態は、EBVを含まない状態に関連する。方法は、例えば、図3を参照して上述したように、対象についてのデータセットを取得することを含む。データセットは、対象由来の複数の存在量値を含み、複数の存在量値における各それぞれの存在量値は、対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する。いくつかの実施形態において、複数の遺伝子は、表4に記載の遺伝子から選択される少なくとも5つの遺伝子を含む。次いで、方法は、複数の遺伝子の存在量値に基づいて、少なくとも第1の癌状態および第2の癌状態を識別するように訓練された分類器にデータセットを入力することを含む。いくつかの実施形態において、分類器は、図2に関して上述された方法論のうちのいずれかに従って訓練される。
いくつかの実施形態において、複数の遺伝子は、表4に記載のすべての遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、表4に記載されていない1つ以上の遺伝子、例えば、表4に記載されていない1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、またはそれ以上の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、20個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、25個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、50個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、10個、15個、20個、25個、30個、35個、40個、50個、60個、70個、80個、90個、100個、125個、150個、175個、200個、250個、または300個以下の遺伝子を含む。
いくつかの実施形態において、データセットはまた、対象由来の癌性組織のゲノムにおける1つ以上の遺伝子座での1つ以上の対立遺伝子についての変異対立遺伝子カウントを含む。いくつかの実施形態において、変異対立遺伝子カウントは、対象が変異対立遺伝子を保有する状態を表す1、または対象が変異対立遺伝子を保有しない状態を表す0のいずれかである。いくつかの実施形態において、変異対立遺伝子は、対象の生殖系列に由来する体細胞変異である。いくつかの実施形態において、変異対立遺伝子は、癌性組織に由来する癌由来の変異である。いくつかの実施形態において、変異対立遺伝子は、TP53(ENSG00000141510)またはPIK3CA(ENSG00000121879)遺伝子に位置する。
いくつかの実施形態において、分類器は、バーキットリンパ腫、副鼻腔血管中心性T細胞リンパ腫、非ホジキンリンパ腫、ホジキンリンパ腫、鼻咽頭癌および胃癌から選択されるEBV関連癌を有する試験対象のEBV状態を決定するために訓練される。いくつかの実施形態において、分類器は、特定のEBV関連癌、例えば、バーキットリンパ腫、副鼻腔血管中心性T細胞リンパ腫、非ホジキンリンパ腫、ホジキンリンパ腫、鼻咽頭癌、または胃癌を有する試験患者のEBV状態を決定するために訓練される。しかしながら、分類器訓練は概して訓練データセットのサイズを大きくすることによって改善されるので、いくつかの実施形態において、分類器は、2つ以上の型のEBV関連癌、例えば、バーキットリンパ腫、副鼻腔血管中心性T細胞リンパ腫、非ホジキンリンパ腫、ホジキンリンパ腫、鼻咽頭癌および胃癌のうちの2つ、3つ、4つ、5つ、または6つすべてを有する患者由来のデータに対して訓練される。実施例4によって例示される特定の実施形態において、分類器は、胃癌を有する患者に対して訓練される。しかしながら、いくつかの実施形態において、1つ以上の型のEBV関連癌を有する患者に対して訓練された分類器は、異なる型のEBV関連癌を有する患者のEBV状態を決定するために有用である。
いくつかの実施形態において、分類器の特徴は、表4に記載のもの、例えば、SCNN1A、CDX1、KCNK15、PRKCG、KRT7、NKD2、GPR158、CLDN3、およびZNF683から選択される複数の遺伝子についての存在量値を含む。以下に報告するように、例えば、実施例4を参照すると、これらの9つの遺伝子は、The Cancer Genome Atlas(TCGA)における胃癌訓練セットの少なくとも80%において、対象のEBV状態に応じて差次的に発現されることが見出された。しかしながら、当業者は、場合によっては、異なる訓練データセットの使用が異なる結果、例えば、これらの遺伝子のうちの1つ以上が訓練フォールドの少なくとも80%で有益ではない可能性があること、および/または実施例4において報告された研究において訓練フォールドの少なくとも80%において有益ではないことが見出された1つ以上の遺伝子が有益であり得ること、をもたらす可能性があることを理解するであろう。これらの違いは、例えば、訓練集団を選択するために異なる基準が使用される場合に発生する可能性があり、例えば、癌の型、個人の特性(例えば、年齢、性別、民族、家族歴、喫煙状況など)などの種々の包含および/または除外基準、または単に小さいまたは大きいデータセットを使用することによってである。
したがって、いくつかの実施形態において、分類器の特徴は、表4に記載の遺伝子のうちの少なくとも5つを含む。いくつかの実施形態において、分類器の特徴は、表4に記載の遺伝子のうちの少なくとも6つを含む。いくつかの実施形態において、分類器の特徴は、表4に記載の遺伝子のうちの少なくとも7つを含む。いくつかの実施形態において、分類器の特徴は、表4に記載の遺伝子のうちの少なくとも8つを含む。いくつかの実施形態において、分類器の特徴は、表4に記載の遺伝子の9つすべてを含む。さらに、いくつかの実施形態において、分類器の特徴はまた、表4に記載されていない1つ以上の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、表4に記載されていない1個、2個、3個、4個、5個、6個、7個、8個、9個、10個またはそれ以上の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、表4に記載されていない1~10個の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、表4に記載されていない1~5個の遺伝子についての存在量値を含む。他の実施形態において、分類器の特徴は、表4に記載されていない任意の遺伝子についての存在量値を含まない。
さらに、当業者は、いくつかの特徴、例えば、特定の遺伝子についての存在量値が、特定の分類器における他の特徴よりもより有益であろうことも理解するであろう。複数の特徴に基づく分類器におけるそれぞれの特徴の予測力の1つの尺度は、モデルの訓練中に特徴について計算された回帰係数である。回帰係数は、各特徴およびモデルの応答の関係を表す。係数値は、特徴値において1単位増加を与える応答における平均変化を表す。そのため、少なくとも同じ型の変数について、回帰係数の大きさ、例えば絶対値は、モデルにおける特徴の重要性と相関する。つまり、回帰係数の大きさが大きいほど、変数はモデルにとってより重要になる。例えば、実施例4において報告されているように、表4に記載の遺伝子の9つすべての存在量値、ならびにTP53およびPIK3CA遺伝子についての変異対立遺伝子状態に対して訓練された特定のサポートベクトルマシン(SVM)分類器において、9つの遺伝子のうち4つだけが、少なくとも0.75の大きさの回帰係数を有していた-SCNN1A(-1.26)、KCNK15(-1.04)、KRT7(-0.94)、およびCLDN3(-1.68)。
したがって、当業者は、少なくとも部分的に1つ以上の分類モデルにおけるそれぞれの特徴の重要性に基づいて、表4に記載されたすべてより少ない遺伝子を含む特徴セットを選択し得る。例えば、いくつかの実施形態において、分類モデルにおいてより低い予測力を有する1つ以上の遺伝子は、分類器訓練中に省略され得る。例えば、いくつかの実施形態において、分類器の特徴は、少なくとも0.75の回帰係数を有する、少なくとも表5に記載の遺伝子発現特徴、例えば、SCNN1A(-1.26)、KCNK15(-1.04)、KRT7(-0.94)、およびCLDN3(-1.68)を含む。いくつかの実施形態において、分類器の特徴は、少なくとも0.6の回帰係数を有する、少なくとも表5に記載の遺伝子発現特徴を含む。
同様に、特徴セットのサイズは、どの特徴が含まれるか、および/または除外されるかによって影響を受け得る。例えば、いくつかの実施形態において、高い予測力を有する特定の特徴が分類モデルに含まれる場合、より少ない総特徴がモデルに含まれ得る。例えば、いくつかの実施形態において、SCNN1A、KCNK15、KRT7、およびCLDN3についての存在量値がモデルに含まれる場合、表4に記載の他の遺伝子のうちの1つ以下の存在量値をモデルに含める必要がある。したがって、いくつかの実施形態において、分類器の特徴は、SCNN1A、KCNK15、KRT7、およびCLDN3、ならびに表4に記載の少なくとも1つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、SCNN1A、KCNK15、KRT7、およびCLDN3、ならびに表4に記載の少なくとも2つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、SCNN1A、KCNK15、KRT7、およびCLDN3、ならびに表4に記載の少なくとも3つの他の遺伝子についての存在量値を含む。いくつかの実施形態において、分類器の特徴は、SCNN1A、KCNK15、KRT7、およびCLDN3、ならびに表4に記載の少なくとも4つの他の遺伝子についての存在量値を含む。
同様に、いくつかの実施形態において、高い予測力を有する特徴が分類モデルから除外される場合、他の特徴のより多くがモデルに含まれ得る。例えば、いくつかの実施形態において、SCNN1A、KCNK15、KRT7、およびCLDN3のうちの1つ以上についての存在量値がモデルに含まれない場合、表4に記載の他の遺伝子のうちの少なくとも4つについての存在量値をモデルに含める。いくつかの実施形態において、SCNN1A、KCNK15、KRT7、およびCLDN3のうちの1つ以上についての存在量値がモデルに含まれない場合、表4に記載の他の遺伝子の5つすべてについての存在量値をモデルに含める。
もちろん、特徴が最後にモデルに追加されたときに標準化された回帰係数およびR二乗の変化など、モデルにおける特徴の重要性を評価するために他の測定基準も利用できる。
特徴セットを選択するとき、当業者は、特徴が互いに相関している程度も考慮するだろう。相関は、2つの変数が互いにどの程度線形に依存しているかを示す統計的尺度である。そのため、2つの相関する特徴は、予測モデルに重複する情報を提供し、これは、分類器に悪影響を与える可能性がある。そのため、相関する特徴をモデルから除外する理由がいくつかある。例えば、分類器における特徴の数が多いほど、実行する必要のある計算が増えるため、相関する特徴の削除はアルゴリズムをより速くする。相関する特徴の削除は、相関から生じる有害なバイアスもモデルから削除し得る。最後に、相関する特徴の削除は、モデルをより解釈できるようにし得る。したがって、当業者は、少なくとも部分的に1つ以上の分類モデルにおけるそれぞれの特徴の相関に基づいて、表3に記載されたすべてより少ない遺伝子を含む特徴セットを選択し得る。例えば、実施例4において訓練されたSVMモデルの統計分析により、ENSG00000135480(KRT7)およびENSG00000124249(KCNK15)についての遺伝子発現値は高く相関する(0.650)ことが明らかになった。したがって、いくつかの実施形態において、KRT7およびKCNK15のうちの1つについての存在量値は、特徴セットから除外される。
例えば、一実施形態において、特徴セットは、少なくともSCNN1A、CDX1、KCNK15、PRKCG、NKD2、GPR158、CLDN3、およびZNF683についての存在量値を含む。別の実施形態において、特徴セットは、少なくともSCNN1A、CDX1、PRKCG、KRT7、NKD2、GPR158、CLDN3、およびZNF683の存在量値を含む。
いくつかの実施形態において、図2を参照した上記のとおり、分類器は、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである。いくつかの実施形態において、分類器は、図2を参照して、上記の方法論にしたがって訓練された。
いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも70%の特異度および少なくとも70%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも75%の特異度および少なくとも75%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも80%の特異度および少なくとも80%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも85%の特異度および少なくとも85%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも90%の特異度および少なくとも90%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて少なくとも95%の特異度および少なくとも95%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の特異度を有する。いくつかの実施形態において、分類器は、少なくとも50個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の感度を有する。
いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも70%の特異度および少なくとも70%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも75%の特異度および少なくとも75%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも80%の特異度および少なくとも80%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも85%の特異度および少なくとも85%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも90%の特異度および少なくとも90%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて少なくとも95%の特異度および少なくとも95%の感度を有し、例えば、検証データセットにおけるデータ構築物のいずれも分類器の訓練において使用されなかった。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の特異度を有する。いくつかの実施形態において、分類器は、少なくとも100個のデータ構築物の検証データセットについて、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、またはそれ以上の感度を有する。
いくつかの実施形態において、方法は、癌状態の分類に基づいて、例えば、対象の癌がEBVウイルス感染に関連するかどうかに基づいて、対象に療法を割り当てることおよび/または療法を実施することをさらに含む。
したがって、一実施形態において、ヒト癌患者における胃癌を治療するための方法が提供される。方法は、ヒト癌患者についてのデータセットを取得することによって、ヒト癌患者がエプスタインバーウイルス(EBV)発癌性ウイルスに感染しているかどうかを決定することを含み、データセットは複数の存在量値を含み、複数の存在量値における各それぞれの存在量値は、複数の遺伝子における対応する遺伝子の発現レベルを定量化し、複数の遺伝子は表4に記載の遺伝子から選択される少なくとも5つの遺伝子を含む。次いで、方法は、対象の癌性組織において、複数の遺伝子の存在量値に基づいて、少なくともEBV感染に関連する第1の胃癌状態およびEBVを含まない状態に関連する第2の胃癌状態を識別するように訓練された分類器にデータセットを入力することを含む。いくつかの実施形態において、分類器は、図2を参照して、上記の方法論に従って訓練される。次いで、方法は、胃癌の治療を含む。分類器の結果が、ヒト癌患者がEBV発癌性ウイルスに感染していることを示す場合、EBV感染に関連する胃癌の治療のために調整された第1の療法を実施する。分類器の結果が、ヒト癌患者がEBV発癌性ウイルスに感染していないことを示す場合、EBV感染に関連しない胃癌の治療のために調整された第2の療法を実施する。
いくつかの実施形態において、複数の遺伝子は、表4に記載のすべての遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、表4に記載されていない1つ以上の遺伝子、例えば、表4に記載されていない1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、またはそれ以上の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、20個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、25個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、50個以下の遺伝子を含む。いくつかの実施形態において、複数の遺伝子は、10個、15個、20個、25個、30個、35個、40個、50個、60個、70個、80個、90個、100個、125個、150個、175個、200個、250個、または300個以下の遺伝子を含む。
いくつかの実施形態において、データセットはまた、対象由来の癌性組織のゲノムにおける1つ以上の遺伝子座での1つ以上の対立遺伝子についての変異対立遺伝子カウントを含む。いくつかの実施形態において、変異対立遺伝子カウントは、対象が変異対立遺伝子を保有する状態を表す1、または対象が変異対立遺伝子を保有しない状態を表す0のいずれかである。いくつかの実施形態において、変異対立遺伝子は、対象の生殖系列に由来する体細胞変異である。いくつかの実施形態において、変異対立遺伝子は、癌性組織に由来する癌由来の変異である。いくつかの実施形態において、変異対立遺伝子は、TP53(ENSG00000141510)またはPIK3CA(ENSG00000121879)遺伝子に位置する。
いくつかの実施形態において、図2を参照した上記のとおり、分類器は、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである。いくつかの実施形態において、分類器は、図2を参照して、上記の方法論にしたがって訓練された。
いくつかの実施形態において、EBV感染に関連する胃癌の治療のために調整された第1の療法は、養子細胞療法である。いくつかの実施形態において、養子細胞療法は、ATA 129(Atara)、EBVST(Tessa)、またはCMD-003(Cell Medica)を含む。
いくつかの実施形態において、EBV感染に関連する胃癌の治療のために調整された第1の療法は、免疫チェックポイント阻害剤である。いくつかの実施形態において、免疫チェックポイント阻害剤は、ペンブロジルマブ(Merck)またはニボルマブ(Bristol-Myers Squibb)である。
いくつかの実施形態において、EBV感染に関連する胃癌の治療のために調整された第1の療法は、BTK阻害剤である。いくつかの実施形態において、BTK阻害剤は、イブルチニブ(Pharmacyclics)である。
報告
いくつかの実施形態において、本明細書に記載の方法は、対象の癌状態についての患者報告書を生成するステップを含む。報告書は、患者、医師、医療関係者、または研究者に、デジタルコピー(例えば、JSONオブジェクト、PDFファイル、またはWebサイトもしくはポータル上の画像)、ハードコピー(例えば、紙または別の有形の媒体に印刷された)、オーディオとして(例えば、録音またはストリーミング)、または別の形式で提示され得る。
報告書は、患者の癌の特定の特徴、例えば、検出された遺伝的変異、エピジェネティックな異常、関連する発癌性病原性感染、および/または病理学的異常に関連する情報を含む。いくつかの実施形態において、患者の試料および/または臨床記録の他の特徴もまた、報告書に含まれる。いくつかの実施形態において、報告書は、患者が適格である臨床試験、患者の癌に特異的な療法、および/または患者の癌の特定の特徴に関連する可能性のある治療上の有害作用、例えば、患者の遺伝的変異、エピジェネティックな異常、関連する発癌性病原性感染、および/または病理学的異常、または患者の試料および/または臨床記録の他の特徴についての情報を含む。
いくつかの実施形態において、報告書に含まれる結果、および/または任意の追加の結果(例えば、バイオインフォマティクスパイプライン由来)は、臨床データのデータベースを照会するため、例えば、特定の療法が、同じまたは類似の特徴を有する他の患者における治療(例えば、癌の進行を遅らせるまたは停止させる)において効果的であったことを示す傾向があるかどうか決定するために使用される。
いくつかの実施形態において、患者の生物学の細胞ベースの研究、例えば、腫瘍オルガノイド実験を設計するために結果を使用する。例えば、オルガノイドは、標本と同じ特性を有するように遺伝子操作され得、療法への曝露後に観察されて、療法がオルガノイドの成長速度を低下させ、したがって標本に関連付けられている患者の成長速度を低下させる可能性があるかどうかを決定し得る。同様に、いくつかの実施形態において、患者に直接由来する腫瘍オルガノイドに関する研究を指示するために結果を使用する。そのような実験の例は、2019年12月5日に出願された米国仮特許出願第62/944,292号に記載されており、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。
いくつかの実施形態において、患者報告書は、対象の発癌性病原体感染状態に関するセクションを含む。例えば、図7Aおよび7Bは、それぞれHPV陽性の頭頸部癌およびHPV陽性の子宮頸癌の診断時に提供される情報の例を示している。
EBVプローブセット
いくつかの実施形態において、本開示は、核酸分子、例えば、対象由来の癌性組織試料から単離されたmRNA転写産物および/またはそれらのmRNA転写産物から調製されたcDNA分子を結合、濃縮、および/または検出するためのプローブを提供し、それらは、対象がEBV発癌性ウイルス感染に関連する第1の癌状態を有するか、もしくはEBV発癌性ウイルス感染に関連しない第2の癌状態を有するかについて有益である。概して、プローブは、目的の核酸分子と相補的な塩基配列を有するDNA、RNA、または修飾された核酸構造を含む。したがって、プローブが癌性組織から単離されたmRNA分子にハイブリダイズするように設計される場合、プローブは、転写産物が由来する遺伝子のコード鎖に相補的な核酸配列を含み、例えば、プローブは、遺伝子のアンチセンス配列を含むであろう。しかしながら、プローブがcDNA分子にハイブリダイズするように設計されている場合、cDNAライブラリーの分子は二本鎖であるため、プローブは、目的の遺伝子のコード配列に相補的な配列(アンチセンス配列)または目的の遺伝子のコード配列と同一の配列(センス配列)のいずれかを含み得る。
いくつかの実施形態において、プローブは、目的の遺伝子配列に対していかなる相同性も共有しない追加の核酸配列を含む。例えば、いくつかの実施形態において、プローブはまた、特定子配列、例えば、特定の癌性組織試料または癌患者に固有である、例えば、固有の分子特定子(UMI)を含む核酸配列を含む。特定器配列の例は、例えば、Kivioja et al.,2011,Nat.Methods 9(1):72-74、およびIslam et al.,2014,Nat.Methods 11(2),pp.163-66に記載されており、それらの内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。同様に、いくつかの実施形態において、プローブはまた、例えば、PCRを使用して、目的の核酸分子を増幅するために有用なプライマー核酸配列を含む。いくつかの実施形態において、プローブはまた、試料由来の目的の核酸分子を回収するための抗捕捉配列にハイブリダイズするように設計された捕捉配列を含む。
同様に、いくつかの実施形態において、プローブは、目的の核酸分子を回収するために、目的の遺伝子に相補的である核酸分子に共有結合された非核酸親和性部分を含む。非核酸親和性部分の非限定的な例には、ビオチン、ジゴキシゲニン、およびジニトロフェノールが挙げられる。いくつかの実施形態において、プローブは、目的の核酸を回収するために、固体表面または粒子、例えば、ディップスティックまたは磁気ビーズに取り付けられる。
したがって、一実施形態において、本開示は、ヒト対象における第1の癌状態および第2の癌状態を識別するための複数の核酸プローブを提供し、第1の癌状態はエプスタインバーウイルス(EBV)発癌性ウイルスによる感染に関連し、第2の癌状態はEBVを含まない状態に関連する。複数の核酸プローブは、少なくとも5つの核酸プローブを含み、少なくとも5つの核酸プローブの各々は、表4に記載の遺伝子から選択される異なるそれぞれの遺伝子のRNA転写産物の少なくとも10個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む。
いくつかの実施形態において、複数の核酸プローブは、表4に記載の異なる遺伝子由来の配列に相補的または同一である配列を有する少なくとも10個のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、表4に記載の異なる遺伝子由来の配列に相補的または同一である配列を有する2つ、3つ、4つ、5つ、6つ、7つ、8つ、または9つのプローブを含む。
いくつかの実施形態において、複数の核酸プローブは、表4に記載されていない遺伝子の配列に結合する1つ以上のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、表4に記載されていない遺伝子の配列に結合する少なくとも2個、3個、4個、5個、6個、7個、8個、9個、10個、またはそれ以上のプローブを含む。いくつかの実施形態において、複数の核酸プローブは、20個以下の遺伝子に結合する配列を有するプローブを含む。いくつかの実施形態において、複数の核酸プローブは、25個以下の遺伝子に結合する配列を有するプローブを含む。いくつかの実施形態において、複数の核酸プローブは、50個以下の遺伝子に結合する配列を有するプローブを含む。いくつかの実施形態において、複数の核酸プローブは、10個、15個、20個、25個、30個、35個、40個、50個、60個、70個、80個、90個、100個、125個、150個、175個、200個、250個、または300個以下の遺伝子に結合する配列を有するプローブを含む。
いくつかの実施形態において、複数のプローブにおける各プローブは、目的のRNA転写産物、例えば、表4に記載の遺伝子由来の転写産物の少なくとも15個の連続する塩基と同一または相補的である核酸配列を含む。いくつかの実施形態において、複数のプローブにおける各プローブは、目的のRNA転写産物、例えば、表4に記載の遺伝子由来の転写産物の少なくとも30個の連続する塩基と同一または相補的である核酸配列を含む。いくつかの実施形態において、複数のプローブにおける各プローブは、目的のRNA転写産物、例えば、表4に記載の遺伝子由来の転写産物の少なくとも50個の連続する塩基と同一または相補的である核酸配列を含む。いくつかの実施形態において、複数のプローブにおける各プローブは、目的のRNA転写産物、例えば、表4に記載の遺伝子由来の転写産物の少なくとも10個、15個、20個、25個、30個、35個、40個、50個、60個、70個、80個、90個、100個、125個、150個、175個、200個、またはそれ以上の連続する塩基と同一または相補的である核酸配列を含む。
デジタルおよび実験室のヘルスケアプラットフォーム
いくつかの実施形態において、上記の方法およびシステムは、概して医療および研究を対象とするデジタルおよび実験室のヘルスケアプラットフォームと組み合わせて、またはその一部として利用される。そのようなプラットフォームと組み合わせた上記の方法およびシステムの多くの使用が可能であることを理解する必要がある。そのようなプラットフォームの一例は、「Data Based Cancer Research and Treatment Systems and Methods」と題され、2019年10月18日に出願された米国特許出願第16/657,804号に記載されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。
例えば、上記の方法およびシステムの1つ以上の実施形態の実装は、発癌性病原体感染に関連する癌についての診断および治療選択をサポートするデジタルおよび実験室のヘルスケアプラットフォームを構成するマイクロサービスを含み得る。実施形態は、発癌性病原体感染に関連する癌についての診断および治療選択を実行および提供するための単一のマイクロサービスを含み得るか、またはそれぞれが、上記の実施形態のうちの1つ以上を一緒に実施する特定の役割を有する複数のマイクロサービスを含み得る。一例では、第1のマイクロサービスは、発癌性病原体感染に関連する癌についての適切な治療法を推奨するための診断を第2のマイクロサービスに提供するために分類を実行し得る。同様に、第2のマイクロサービスは、上記の実施形態によれば、治療分析を実行して、推奨される治療法を提供し得る。
上記の実施形態が、デジタルおよび実験室のヘルスケアプラットフォームとともに、またはその一部として1つ以上のマイクロサービスにおいて実行される場合、そのようなマイクロサービスのうちの1つ以上は、上記の実施形態をインスタンス化するために必要な適切な時間および適切な順序で必要に応じて事象の順序を調整する注文管理システムの一部であり得る。マイクロサービスベースの注文管理システムは、例えば、「Adaptive Order Fulfillment and Tracking Methods and Systems」と題され、2019年7月12日に出願された米国仮特許出願第62/ 873,693号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。
例えば、上記の第1および第2のマイクロサービスを継続して、注文管理システムは、癌の発癌性病原体状態を分類するための注文が受け取られ、処理の準備ができていることを第1のマイクロサービスに通知し得る。第2のマイクロサービスについての分類の送達が準備できると、第1のマイクロサービスが実行され、注文管理システムに通知され得る。さらに、注文管理システムは、第1のマイクロサービスが完了したことを含み、第2のマイクロサービスの実行パラメータ(前提条件)が満たされていることを特定し、上記実施形態による発癌性病原体感染に関連する癌についての適切な治療法を推奨するための注文の処理を続行できることを第2のマイクロサービスに通知する。
デジタルおよび実験室のヘルスケアプラットフォームが遺伝子分析システムをさらに含む場合、遺伝子分析システムは、標的化されたパネルおよび/または配列決定プローブを含み得る。ターゲットパネルの例は、例えば「System and Method for Expanding Clinical Options for Cancer Patients using Integrated Genomic Profiling」と題され、2019年9月19日に出願された米国仮特許出願第62/902,950号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。一例において、標的化されたパネルは、上記の一実施形態による発癌性病原体感染を検出するための次世代配列決定の結果の送達を可能にし得る。次世代配列決定プローブの設計例は、例えば、「Systems and Methods for Next Generation Sequencing Uniform Probe Design」と題され、2019年10月21日に出願された米国仮特許出願第62/924,073号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。
デジタルおよび実験室のヘルスケアプラットフォームがバイオインフォマティクスパイプラインをさらに含む場合、上記の方法およびシステムは、バイオインフォマティクスパイプラインにおいて利用されるシステムおよび方法の完了または実質的な完了後に利用され得る。一例において、バイオインフォマティクスパイプラインは、次世代遺伝子配列決の定結果を受け取り、参照ゲノムにアラインメントされたDNAおよび/またはRNAリードカウントを反映する1つ以上のBAMファイルなどの二値ファイルのセットを返し得る。上記の方法およびシステムは、例えば、DNAおよび/またはRNAのリードカウントを取り込み、結果として対象の発癌性病原体状態の分類を生成するために利用され得る。
デジタルおよび実験室のヘルスケアプラットフォームがさらにRNAデータ正規化器を含む場合、任意のRNAリードカウントは、上記のように実施形態を処理する前に正規化され得る。RNAデータ正規化器の例は、例えば、「Methods of Normalizing and Correcting RNA Expression Data」と題され、2019年9月24日に出願された米国特許出願第16/581,706号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。
デジタルおよび実験室のヘルスケアプラットフォームが遺伝子データデコンボリューターをさらに含む場合、デコンボリューションのための任意のシステムおよび方法は、2つ以上の生物学的成分を有する標本に関連する遺伝子データを分析して、遺伝子データへの各成分の寄与を決定する、および /または、標本が精製された場合にどの遺伝データが標本の任意のコンポーネントに関連付けられるかを決定するために利用され得る。遺伝子データデコンボリューターの例は、例えば、両方とも「Transcriptome Deconvolution of Metastatic Tissue Samples」と題され、2019年12月31日に出願された米国特許出願第16/732,229号およびPCT19/69161、「Calculating Cell-type RNA Profiles for Diagnosis and Treatment」と題され、2019年10月21日に出願された米国仮特許出願第62/924,054号、ならびに「Rapid Deconvolution of Bulk RNA Transcriptomes for Large Data Sets (Including Transcriptomes of Specimens Having Two or More Tissue Types)」と題され、2019年12月6日に出願された米国仮特許出願第62/944,995号において開示されており、それらは、すべての目的のためにその全体が参照により本明細書に組み込まれる。
デジタルおよび実験室のヘルスケアプラットフォームに自動化されたRNA発現発信器がさらに含まれる場合、RNA発現レベルは、参照発現レベルに対する値として表現されるように調整され得、これは、それらが同じ方法、装置、および/または試薬を使用して生成されていないため、分析用の複数のRNA発現データセットを準備し、データセットに違いがある場合に発生するアーティファクトを回避するために行われることが多い。自動化されたRNA発現発信器の例は、例えば、「Systems and Methods for Automating RNA Expression Calls in a Cancer Prediction Pipeline」と題され、2019年12月4日に出願された米国仮特許出願第62/943,712号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。
デジタルおよび実験室ヘルスケアプラットフォームは、患者および/または標本に関連する遺伝的および/または臨床のデータに基づき得る病状に関連する情報、特性、または決定を提供するための1つ以上の洞察エンジンをさらに含み得る。例示的な洞察エンジンには、起源不明の腫瘍エンジン、ヒト白血球抗原(HLA)ホモ接合性喪失(LOH)エンジン、腫瘍変異負荷エンジン、PD-L1状態エンジン、相同組換え欠損エンジン、細胞経路活性化報告エンジン、免疫浸潤エンジン、マイクロサテライト不安定性エンジン、病原体感染状態エンジンなどを含み得る。起源不明の腫瘍エンジンの例は、例えば、「Systems and Methods for Multi-Label Cancer Classification」と題され、2019年5月31日に出願された米国仮特許出願第62/855,750号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。HLA LOHエンジンの例は、例えば、「Detection of Human Leukocyte Antigen Loss of Heterozygosity」と題され、2019年8月20日に出願された米国仮特許出願第62/889,510号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。腫瘍変異負荷(TMB)エンジンの例は、例えば、「Assessment of Tumor Burden Methodologies for Targeted Panel Sequencing」と題され、2019年2月12日に出願された米国仮特許出願第62/804,458号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。PD-L1状態エンジンの例は、例えば、「A Pan-Cancer Model to Predict The PD-L1 Status of a Cancer Cell Sample Using RNA Expression Data and Other Patient Data」と題され、2019年5月30日に出願された米国仮特許出願第62/854,400号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。PD-L1状態エンジンの追加の例は、例えば、「PD-L1 Prediction Using H&E Slide Images」と題され、2019年3月26日に出願された米国仮特許出願第62/824,039号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。相同組換え欠損エンジンの例は、例えば、「An Integrative Machine-Learning Framework to Predict Homologous Recombination Deficiency」と題され、2019年2月12日に出願された米国仮特許出願第62/804,730号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。細胞経路活性化報告エンジンの例は、例えば、「Cellular Pathway Report」と題され、2019年8月16日に出願された米国仮特許出願第62/888,163号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。免疫浸潤エンジンの例は、例えば、「A Multi-Modal Approach to Predicting Immune Infiltration Based on Integrated RNA Expression and Imaging Features」と題され、2019年8月6日に出願された米国特許出願第16/533,676号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。免疫浸潤エンジンの追加の例は、例えば、「Comprehensive Evaluation of RNA Immune System for the Identification of Patients with an Immunologically Active Tumor Microenvironment」と題され、2019年2月12日に出願された米国特許出願第62/804,509号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。MSIエンジンの例は、例えば、「Microsatellite Instability Determination System and Related Methods」と題され、2019年10月15日に出願された米国特許出願第16/653,868号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。MSIエンジンの追加の例は、例えば、「Systems and Methods for Detecting Microsatellite Instability of a Cancer Using a Liquid Biopsy」と題され、2019年11月6日に出願された米国仮特許出願第62/931,600号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。
デジタルおよび実験室のヘルスケアプラットフォームが報告書生成エンジンをさらに含む場合、上記の方法およびシステムを利用して、医師に提示するための患者の遺伝的プロファイルの要約報告書および1つ以上の洞察エンジンの結果を作成し得る。例えば、報告書は、配列決定された標本が、第1の器官、第2の器官、第3の器官などに由来の腫瘍または正常組織を含んでいた範囲についての情報を医師に提供し得る。例えば、報告書は、標本における組織型、腫瘍、または器官の各々についての遺伝的プロファイルを提供し得る。遺伝子プロファイルは、組織型、腫瘍、または臓器に存在する遺伝子配列を表し、変異、発現レベル、遺伝子産物に関する情報、または組織、腫瘍、または器官の遺伝子分析に由来し得る他の情報を含み得る。報告書には、遺伝子プロファイルまたは洞察エンジンの結果および要約の一部またはすべてに基づいて適合させた療法および/または臨床試験を含み得る。例えば、療法は、「Therapeutic Suggestion Improvements Gained Through Genomic Biomarker Matching Plus Clinical History」と題され、2019年2月12日に出願された米国仮特許出願第62/804,724号に開示されているシステムおよび方法に従って適合させることができ、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。例えば、臨床試験は、「Systems and Methods of Clinical Trial Evaluation」と題され、2019年5月31日に出願された米国仮特許出願第62/855,913号に開示されているシステムおよび方法に従って適合させることができ、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。
報告書には、結果と多くの標本由来の結果のデータベースとの比較を含み得る。結果と結果のデータベースとを比較するための方法およびシステムの例は、「A Method and Process for Predicting and Analyzing Patient Cohort Response, Progression and Survival」と題され、2018年12月31日に出願された米国仮特許出願第62/786,739号において開示されており、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。情報は、場合によりバイオマーカーを発見したり、または臨床試験を設計したりするために、追加の検体および/または臨床反応の情報に由来する同様の情報と組み合わせて使用され得る。
デジタルおよび実験室のヘルスケアプラットフォームが、プラットフォームに関連して開発されたオルガノイドへの本明細書の実施形態のうちの1つ以上の適用をさらに含む場合、方法およびシステムを使用して、オルガノイドに由来する遺伝子配列決定データをさらに評価して、配列決定されたオルガノイドが第1の細胞型、第2の細胞型、第3の細胞型などを含んでいた範囲についての情報を提供し得る。例えば、報告書は、標本における細胞型の各々についての遺伝的プロファイルを提供し得る。遺伝子プロファイルは、所与の細胞型に存在する遺伝子配列を表し、変異、発現レベル、遺伝子産物に関する情報、または細胞の遺伝子分析に由来し得る他の情報を含み得る。報告書には、デコンボリューションされた情報の一部またはすべてに基づいて照合された療法を含み得る。これらの療法は、オルガノイド、そのオルガノイドの誘導体、および/または類似のオルガノイドで試験され、それらの療法に対するオルガノイドの感受性を決定し得る。例えば、オルガノイドは、「Tumor Organoid Culture Compositions, Systems, and Methods」と題され、2019年11月22日に出願された米国特許出願第16/693,117号、「Systems and Methods for Predicting Therapeutic Sensitivity」と題され、2019年10月22日に出願された米国仮特許出願第62/924,621号、および「Large Scale Phenotypic Organoid Analysis」と題され、2019年12月5日に出願された米国仮特許出願第62/944,292号に開示されたシステムおよび方法に従って培養および試験され得、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。
デジタルおよび実験室のヘルスケアプラットフォームが、一般に医療および研究を対象とする医療機器または実験室開発試験と組み合わせて、またはその一部として、上記の1つ以上の適用をさらに含む場合、そのような実験室開発試験または医療機器の結果は、人工知能の使用を介して、強化させ、個人向け化することができる。実験室開発試験の例、特に人工知能によって強化され得る試験の例は、例えば、「Artificial Intelligence Assisted Precision Medicine Enhancements to Standardized Laboratory Diagnostic Testing」と題され、2019年10月22日に出願された米国仮特許出願第62/924,515号に開示され、それは、すべての目的のためにその全体が参照により本明細書に組み込まれる。
上記の例は例示的なものであり、デジタルおよび実験室のヘルスケアプラットフォームと組み合わせた本明細書に記載のシステムおよび方法の使用を制限するものではないことを理解する必要がある。
実施例1-The Cancer Genome Atlas(TCGA)
以下の実施例2および3において示されている分類器の訓練に使用されたデータは、The Cancer Genome Atlas(TCGA)から取得された。簡単に言うと、TCGAデータセットは、11,000人を超える癌患者についての2ペタバイト超のゲノムデータを含む公開されているデータセットであり、癌患者についての臨床情報、そのような患者から収集された試料についてのメタデータ(例えば、試料部分の重量など)、試料部分由来の組織病理学スライド画像、および試料から得られた分子情報(例えば、mRNA/miRNA発現、タンパク質発現、コピー数など)を含む。TCGAデータセットは、33個の異なる癌、乳房(乳管癌、パン小葉癌)中枢神経系(多形性神経膠芽細胞腫、低悪性度神経膠腫)、内分泌(副腎皮質癌、乳頭状甲状腺癌、傍神経節腫および褐色細胞腫)、胃腸(胆管癌、結腸直腸腺癌、食道癌、肝臓細胞癌、膵管腺癌、および胃癌)、婦人科(子宮頸癌、卵巣漿液性嚢胞腺癌、子宮癌肉腫、および子宮体子宮内膜癌)、頭頸部(頭頸部扁平上皮癌、ぶどう膜黒色腫)、血液(急性骨髄性白血病、胸腺腫)、皮膚(皮膚黒色腫)、軟部組織(肉腫)、胸部(肺腺癌、肺扁平上皮癌、および中皮腫)、および泌尿器(嫌色素細胞性腎癌、明細胞腎臓癌、乳頭状腎癌、前立腺腺癌、精巣胚細胞癌、および尿路上皮膀胱癌)に関するデータを含む。
実施例2-RNA発現プロファイリング
図3を参照すると、HPVウイルスの状態を決定するのに有用な遺伝子の発現プロファイルは、頭頸部癌の腫瘍試料から決定された。
図3のブロック302に従って、本明細書に記載の生検技術を使用して、頭頸部癌の腫瘍生検を癌患者から得た。生検は、患者から取り出した直後に液体窒素中で瞬間冷凍された。
図3のブロック304に従って、腫瘍試料からmRNAを単離した。簡単に説明すると、試料組織ブロックを液体窒素から取り出し、試料の5mmx5mmx5mmブロックを取り出し、コールドナイフを使用して解剖した。解剖された試料は、TRIzol試薬(Chomczynski and Sacchi,1987,Anal Biochem.162(1),pp.156-59、その内容はすべての目的のために参照によりその全体が本明細書に組み込まれる)と混合され、組織ホモジナイザーを使用して、3つの短いサイクル、例えば、60秒、30秒、および30秒によって均質化された。均質化した腫瘍試料にクロロホルムを加え、反応液を混合した。相分離後、反応液の水相を除去し、等量のイソプロパノールと混合して、RNAを沈殿させた。反応液を遠心分離してRNAをペレット化し、上澄みを除去した。ペレットを冷エタノールで2回洗浄した後、風乾した。次いで、抽出したRNAをRNaseフリーの水に再懸濁した。
次いで、図3のブロック306を参照して、単離されたRNA中におけるmRNAを全エクソーム配列決定によって定量化した。図3のブロック308に従って、抽出されたRNAを加熱して二次構造を破壊し、次いでRNAをハイブリダイゼーションバッファー中、室温で変性したRNAを有するオリゴ(dT)結合ビーズとインキュベートすることによって、磁気オリゴ(dT)結合ビーズにアニーリングすることによって抽出されたRNAからmRNAを単離した。ビーズを回収し、ハイブリダイゼーションバッファーで2回洗浄した。次いで、ハイブリダイズしたmRNAを加熱により溶出し、反応液から回収した。
図3のブロック310に従って、cDNAライブラリーを単離したmRNAから構築した。簡単に説明すると、二価カチオンを単離されたmRNAに添加して、高温で分子を断片化した。断片化されたmRNAを、担体分子としてグリコーゲンを使用して、pH5.2のエタノール中で-80℃でインキュベートすることにより沈殿させた。mRNAを遠心分離によりペレット化し、70%エタノールで洗浄し、風乾した後、RNaseフリー水に再懸濁した。ランダムプライマーおよび逆転写酵素を使用して、第1鎖DNA合成を行った。次に、RNaseHの存在下でDNAポリメラーゼを使用して第2鎖DNA合成を行い、二本鎖cDNAを形成した。第2鎖の合成によって作成された5’-オーバーハングは、T4およびKlenow DNAポリメラーゼを使用して修復され、平滑末端を形成した。平滑末端cDNAの3’末端はKlenow DNAポリメラーゼを使用してアデニル化された。T4 DNAリガーゼを使用してアダプターをアデニル化cDNAの末端にライゲーションし、cDNAテンプレートを精製してアガロース電気泳動によってサイズを決定した。必要に応じて、精製されたcDNAテンプレートはPCR増幅によって濃縮され、それによって最終的なcDNAライブラリーを形成する。
図3のブロック312に従って、cDNAライブラリーの全エクソーム配列決定は、xGen Exome Research Panelを備えた統合DNA技術(IDT)XGEN(登録商標) LOCKDOWN(登録商標)技術を使用して実行された。簡単に説明すると、xGen Exome Research Panelは、ヒトゲノムの51Mbのエンドツーエンドのタイル状プローブスペースをカバーし、エクソーム全体の標的キャプチャを深く均一カバレッジ。cDNAライブラリーを、参照ヒトエクソームをカバーするビオチン化DNA捕捉プローブにハイブリダイズした。ハイブリダイズしたプローブは、ストレプトアビジンビーズに結合することによって回収された。捕捉された配列を濃縮するために、捕捉後のPCRを実施した。次いで、増幅された産物は、合成ごとの配列決定(SBS)技術を使用して配列決定された(Bently et al.,2008,Nature 456(7218),pp.53-59、その内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる)。
次いで、RNA配列決定データは、遺伝子長データ、グアニン-シトシン(GC)含有量データ、および敗血決定の深度データを使用して、少なくとも1つの遺伝子の遺伝子長データを正規化して系統的バイアスを減らし、少なくとも1つの遺伝子のGC含量データを正規化して系統的バイアスを減らし、各試料についての配列決定の深度データを正規化することによって、正規化され、それは米国仮特許出願第62/735,349号および米国特許出願第16/581,706号に記載のとおりであり、それらの内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。米国仮特許出願第62/735,349号および米国特許出願第16/581,706号に記載のとおり、RNA配列決定データは、遺伝子発現データセットにおける少なくとも1つの遺伝子についての配列データを標準的な遺伝子発現データセットにおける配列データと比較することにより、標準的な遺伝子発現データセットに対しても修正される。次いで、表3で特定された24個の遺伝子についての正規化および修正されたRNA発現データ、ならびに患者のCDKN2AおよびTP53対立遺伝子の状態を、実施例3において訓練されたHPV検出分類器に入力して、患者のHPVウイルス状態を決定した。
実施例3-ヒトパピローマウイルスの検出
図4A~4Dを参照すると、HPVウイルスの状態を決定するための分類器は、訓練集団における各対象は頭頸部扁平上皮癌または子宮頸癌を有すると診断された訓練集団の腫瘍RNA-seqデータ由来の遺伝子発現を使用して訓練された。
図2Aのブロック204に従って、訓練データセットが取得された。ここで、データセットは、実施例1に記載の、HPV状態が既知である子宮頸癌または頭頸部癌を有するTCGAにおける各対象についての対応する複数の存在量値を含んだ。図4Aに示すように、TCGAにおいて、これらの選択基準を満たし、訓練データセットの複数の対象として機能したのは427人の対象であった。427人の対象のうち、263人は頭頸部癌を有し、164人は子宮頸癌を有した。頭頸部癌を有した263人の対象のうち、32人がHPV陽性、231人がHPV陰性であった。子宮頸癌を有した164人の対象のうち、156人がHPV陽性であり、8人がHPV陰性であった。したがって、427人の対象のうち、188人の対象が第1の癌状態(HPVに罹患し、頭頸部癌、または子宮頸癌を有する)であると見なされ、残りの239人の対象が第2の癌状態(HPVに罹患していないが、頭頸部癌、または子宮頸癌を有する)であると見なされた。
次に、図2Cのブロック218および図2Dのブロック228に従って、427人の対象についてのTCGAデータセットにおける全エクソームRNAデータ由来の遺伝子発現値を使用して、回帰により識別遺伝子セットを特定し、TCGAデータセットにおける427人の対象についての全エクソームmRNA発現データから得られた遺伝子発現値は、独立変数として機能し、それぞれの対象が第1の癌状態(HPVに罹患し、頭頸部癌、または子宮頸癌を有する)であるか、第2の癌状態(HPVに罹患していないが、頭頸部癌、または子宮頸癌を有する)であるかどうかの指標は、従属変数として機能した。より具体的には、図2Dのブロック228に従って、427人の対象からなるデータセットを10個のセットに分割した(10分割)。各セットは、第1の癌状態に罹患している2つ以上の対象、および第2の癌状態に罹患している2つ以上の対象を含んだ。それぞれのセットの対象についての全エクソームmRNA発現データが独立変数として機能し、それぞれのセットにおけるそれぞれの対象が第1または第2の癌状態を有するかどうかの指標が従属変数として機能する回帰に、10個のセット(分割)の各それぞれのセットを独立して供した。各回帰(分割)は、図2Eのブロック238に従って、L1(LASSO)正則化を使用して実行された。L1正則化はスパース係数につながるため、各セットについてゼロでない係数を有する遺伝子のサブセットはごくわずかであった。セットの80%以上においてゼロでない係数を有する遺伝子のみが最終モデルに含まれた。言い換えれば、10個のセット(分割)のうち少なくとも8つについてゼロでない回帰係数を有する遺伝子のみが、それらの発現データに基づいて遺伝子の識別セットに認められた。この要件を満たした遺伝子のリストは、図4Bに記載されているものであり、特徴型は「遺伝子発現」である。さらに、図6Aは、訓練セットにわたって図4Bに記載の遺伝子の存在量値の主成分分析を示す。図6Aは、訓練セットにおける対象の各々についての第1および第2のPCA値のプロットが、第1の癌状態(グループ602)および第2の癌状態(604)に対応する、2つの区別できるグループに分かれることを示しており、第1の癌状態および第2の癌状態を識別する図4Bに記載の遺伝子の存在量値の力を示している。
いくつかの実施形態において、追加の遺伝子を、追加の遺伝子における変異の存在または非存在(例えば、変異の数)に基づいて識別遺伝子のセットに含めた。この実施例において、図4Bに詳細が示されているように、遺伝子CDKN2AおよびTP53が識別遺伝子セットに含まれ、これらの遺伝子についての特徴は、訓練セットのそれぞれの427人の対象の各々においてこれらの遺伝子に変異が観察された回数であった。
次に、図2Eのブロック242に従って、427個の対象にわたる識別遺伝子セットについてのそれぞれの存在量値および癌状態のそれぞれの指標を使用して、識別遺伝子セットのそれぞれの存在量の値の関数として第1および第2の癌状態を識別するように分類器を訓練した。第1のモデルにおいて、使用された分類器は、L1正則化を有するロジスティック回帰分類器であり、訓練は427人の対象に対してであったが、特徴が「遺伝子発現」である図4Bに記載の遺伝子についてのTCGA遺伝子存在量レベルのみを使用した。第2のモデルにおいて、使用された分類器は、L1正規化を有するロジスティック回帰分類器であり、訓練は、427人の対象に対してであり、特徴が「遺伝子発現」である図4Bに記載の遺伝子についてのTCGA遺伝子存在量レベル、および特徴が「変異の数」である図4Bの2つの遺伝子についてのTCGA変異カウントを使用した。第3のモデルにおいて、使用された分類器は、参照により本明細書に組み込まれる、Pedregosa et al.2011,“Machine Learning in Python,”JMLR 12,pp.2825-2830に開示されているように、Scikit-learnからのサポートベクトルマシン(SVM)分類器であり、訓練は、427人の対象に対してであったが、特徴が「遺伝子発現」である図4Bに記載の遺伝子についてのTCGA遺伝子存在量レベルのみを使用した。子宮頸癌または頭頸部癌および既知のHPVステータスを有する133人の対象のコホート由来のデータに対して検証された場合、分類器は92.5%の特異度および89.7%の感度で実行した。
第4のモデルにおいて、使用された分類器はこれと同じSVM分類器であり、訓練は、427人の対象に対してであり、特徴が「遺伝子発現」である図4Bに記載の遺伝子についてのTCGA遺伝子存在量レベル、および特徴が「変異の数」である図4Bの2つの遺伝子についてのTCGA変異カウントを使用した。この訓練された分類器の性能は、図4Cに報告されている。モデルにおいて使用された特徴の各々についての回帰係数および相関統計を、それぞれ表5と表6に示す。使用されたSVMパラメーターは、クラスの重み:なし、決定関数の形状:ovo、ガンマ:スケール、カーネル:線形、確率:真、縮小:偽、およびtol:1であった。図4Cに示すように、訓練されたSVMは、427人の対象の癌の型を予測する。つまり、対象が第1の癌の型(HPVに罹患し、頭頸部癌、または子宮頸癌を有する)であるか、第2の癌の型(HPVに罹患していないが、頭頸部癌、または子宮頸癌を有する)であるかであり、427人の対象の訓練セットについて99%の特異度および99%の感度を有する。次に、分類器は、子宮頸癌または頭頸部癌および既知のHPV状態を有する133人の対象のコホート由来のデータに対して検証された。分類器は、133人の検証対象のうち122人のHPV感染状態を正しく特定し、特異度は95%、感度は87.5%であった。
Figure 2022521791000017
Figure 2022521791000018
Figure 2022521791000019
Figure 2022521791000020
Figure 2022521791000021
Figure 2022521791000022
Figure 2022521791000023
Figure 2022521791000024
Figure 2022521791000025
Figure 2022521791000026
モデルを検証するために、図4Cにおいて報告された訓練されたSVM分類器を、分類器の訓練に使用されていない検証集団に対して試験した。図4Aに詳述されるように、検証データセットは、既知のHPV状態を有する子宮頸癌または頭頸部癌を有する、実施例2に記載の「試験」データセットと呼ばれるデータセットにおける各対象についての対応する複数の存在量値を含んだ。図4Aに示すように、検証データセットから、これらの選択基準を満たし、検証データセットの複数の対象として機能する133人の対象が選択された。133人の検証対象のうち、93人が頭頸部癌を有し、40人が子宮頸癌を有した。頭頸部癌を有した93人の対象のうち、28人がHPV陽性、65人がHPV陰性であった。子宮頸癌を有した40人の対象のうち、28人がHPV陽性であり、12人がHPV陰性であった。したがって、133人の検証対象のうち、56人の検証対象が第1の癌状態(HPVに罹患し、頭頸部癌または子宮頸癌を有する)を有と見なされ、残りの77人の検証対象が第2の癌状態(HPVに罹患していないが、頭頸部癌、または子宮頸癌を有する)と見なされた。
133人の検証対象の各々は、訓練されたSVMに対して実行され、その性能は図4Cに報告されており、SVMによって第1または第2の癌クラスのいずれかに割り当てられた。つまり、特徴型が「遺伝子発現」である図4Bに記載の遺伝子についての遺伝子存在量値、および特徴型が「変異の数」である図4Bに記載の2つの遺伝子について変異カウントを、133人の検証対象の各々についての腫瘍試料から測定し、各検証対象についてのこのデータは、図5Cの訓練されたSVMモデルに個別に入力された。図4Dに示すように、訓練されたSVMは、133人の検証対象にわたって癌クラスについて95%の特異度と88%の感度を有した。遺伝子TP53およびCDKN2Aの変異の数の共変量をSVMへ追加すると、精度は変わらないが、AUCが0.97から0.98に向上することがわかった。本実施例は、訓練されたSVMモデルがRNA発現データを使用して腫瘍におけるウイルス感染を正確に予測することを示している。
本実施例は、ウイルス感染が概して免疫応答の上方制御に関連していることを確認している。本実施例はさらに、全トランスクリプトームデータに基づくウイルス検出がそれ自体で有用な臨床ツールであり、既存の診断方法と組み合わせて、単一の試験においてウイルスの状態および腫瘍の微小環境についての洞察を提供できることを示している。
実施例4-エプスタインバーウイルスの検出
図5A~5Dを参照して、EBVウイルス状態を決定するための分類器は、訓練集団における各対象が胃癌を有すると診断された訓練集団の腫瘍RNA-seqデータ由来の遺伝子発現を使用して訓練された。
図2Aのブロック204に従って、訓練データセットが取得された。ここで、データセットは、実施例1に記載の、EBV状態が既知である胃癌を有するTCGAにおける各対象についての対応する複数の存在量値を含んだ。図5Aに示すように、TCGAにおいて、これらの選択基準を満たし、訓練データセットの複数の対象として機能したのは212人の対象であった。212人の対象のうち、21人がEBV陽性であり、191人がEBV陰性であった。したがって、212人の対象のうち、21人の対象が第1の癌状態(EBVに罹患し、胃癌を有する)であると見なされ、残りの191人の対象が第2の癌状態(EBVに罹患していないが、胃癌を有する)であると見なされた。
次に、図2Cのブロック218および図2Dのブロック228に従って、212人の対象についてのTCGAデータセットにおける全エクソームRNAデータ由来の遺伝子発現値を使用して、回帰により識別遺伝子セットを特定し、TCGAデータセットにおける212人の対象についての全エクソームmRNA発現データから得られた遺伝子発現値は、独立変数として機能し、それぞれの対象が第1の癌状態(EBVに罹患し、胃癌を有する)であるか、第2の癌状態(EBVに罹患していないが、胃癌を有する)であるかどうかの指標は、従属変数として機能した。より具体的には、図2Dのブロック228に従って、212人の対象からなるデータセットを10個のセットに分割した(10分割)。各セットは、第1の癌状態に罹患している2つ以上の対象、および第2の癌状態に罹患している2つ以上の対象を含んだ。それぞれのセットの対象についての全エクソームmRNA発現データが独立変数として機能し、それぞれのセットにおけるそれぞれの対象が第1または第2の癌状態を有するかどうかの指標が従属変数として機能する回帰に、10個のセット(分割)の各それぞれのセットを独立して供した。各回帰(分割)は、図2Eのブロック238に従って、L1(LASSO)正則化を使用して実行された。L1正則化はスパース係数につながるため、各セットについてゼロでない係数を有する遺伝子のサブセットはごくわずかであった。セットの80%以上においてゼロでない係数を有する遺伝子のみが最終モデルに含まれた。言い換えれば、10個のセット(分割)のうち少なくとも8つについてゼロでない回帰係数を有する遺伝子のみが、それらの発現データに基づいて遺伝子の識別セットに認められた。この要件を満たした遺伝子のリストは、図5Bに記載されているものであり、特徴型は「遺伝子発現」である。さらに、図6Bは、訓練セットにわたって図5Bに記載の遺伝子の存在量値の主成分分析を示す。図6Bは、訓練セットにおける対象の各々についての第1および第2のPCA値のプロットが、第1の癌状態(グループ606)および第2の癌状態(606)に対応する、2つの区別できるグループに分かれることを示しており、第1の癌状態および第2の癌状態を識別する図5Bに記載の遺伝子の存在量値の力を示している。
いくつかの実施形態において、追加の遺伝子を、追加の遺伝子における変異の存在または非存在(例えば、変異の数)に基づいて識別遺伝子のセットに含めた。この実施例において、図5Bに詳細が示されているように、遺伝子PIK3CAおよびTP53が識別遺伝子セットに含まれ、これらの遺伝子についての特徴は、訓練セットのそれぞれの212人の対象の各々においてこれらの遺伝子に変異が観察された回数であった。
次に、図2Eのブロック242に従って、212個の対象にわたる識別遺伝子セットについてのそれぞれの存在量値および癌状態のそれぞれの指標を使用して、識別遺伝子セットのそれぞれの存在量の値の関数として第1および第2の癌状態を識別するように分類器を訓練した。第1のモデルにおいて、使用された分類器は、L1正則化を伴うロジスティック回帰分類器であり、訓練は212人の対象に対してであったが、特徴が「遺伝子発現」である図5Bに記載の遺伝子についてのTCGA遺伝子存在量レベルのみを使用した。第2のモデルにおいて、使用された分類器は、L1正規化を有するロジスティック回帰分類器であり、訓練は、212人の対象に対してであり、特徴が「遺伝子発現」である図5Bに記載の遺伝子についてのTCGA遺伝子存在量レベル、および特徴が「変異の数」である図5Bの2つの遺伝子についてのTCGA変異カウントを使用した。第3のモデルにおいて、使用された分類器は、参照により本明細書に組み込まれる、Pedregosa et al.2011,“Machine Learning in Python,”JMLR 12,pp.2825-2830に開示されているように、Scikit-learnからのサポートベクトルマシン(SVM)分類器であり、訓練は、212人の対象に対してであったが、特徴が「遺伝子発現」である図5Bに記載の遺伝子についてのTCGA遺伝子存在量レベルのみを使用した。胃癌および既知のEBVステータスを有する55人の対象のコホート由来のデータに対して検証された場合、分類器は、100%の特異度および75%の感度で、54人または55人の検証対象のEBV状態を正確に特定した。
第4のモデルにおいて、使用された分類器はこれと同じSVM分類器であり、訓練は、212人の対象に対してであり、特徴が「遺伝子発現」である図4Bに記載の遺伝子についてのTCGA遺伝子存在量レベル、および特徴が「変異の数」である図4Bの2つの遺伝子についてのTCGA変異カウントを使用した。この訓練された分類器の性能は、図5Cに報告されている。モデルにおいて使用された特徴の各々についての回帰係数および相関統計を、それぞれ表7と表8に示す。使用されたSVMパラメーターは、クラスの重み:なし、決定関数の形状:ovo、ガンマ:スケール、カーネル:線形、確率:真、縮小:偽、およびtol:1であった。図5Cに示すように、訓練されたSVMは、212人の対象の癌の型を予測する。つまり、対象が第1の癌の型(EBVに罹患し、胃癌を有する)であるか、第2の癌の型(EBVに罹患していないが、胃癌を有する)であるかであり、212人の対象の訓練セットについて99%の特異度および95%の感度を有する。次いで、分類器は、胃癌および既知のEBV状態を有する55人の対象のコホート由来のデータに対して検証された。分類器は、55人の検証対象のうち54人のEBV感染状態を正しく特定し、特異度は100%、感度は75%であった。
Figure 2022521791000027
Figure 2022521791000028
Figure 2022521791000029
モデルを検証するために、図5Cにおいて報告された訓練されたSVM分類器を、分類器の訓練に使用されていない検証集団に対してテストした。図5Aに詳述されるように、検証データセットは、既知のEBV状態を有する胃癌を有する、実施例2に記載の「試験」データセットと呼ばれるデータセットにおける各対象についての対応する複数の存在量値を含んだ。図5Aに示すように、これらの選択基準を満たし、検証データセットの複数の対象として機能する55人の対象が、検証データセットから選択された。55人の検証対象者のうち、4人がEBV陽性であり、51人がEBV陰性であった。したがって、55人の検証対象のうち、4人の検証対象が第1の癌状態(EBVに罹患し、胃癌を有する)を有と見なされ、残りの51人の検証対象が第2の癌状態(EBVに罹患していないが、胃癌を有する)と見なされた。
55人の検証対象の各々は、訓練されたSVMに対して実行され、その性能は図5Cに報告されており、SVMによって第1または第2の癌クラスのいずれかに割り当てられた。つまり、特徴型が「遺伝子発現」である図5Bに記載の遺伝子についての遺伝子存在量値、および特徴型が「変異の数」である図5Bに記載の2つの遺伝子について変異カウントを、55人の検証対象の各々についての腫瘍試料から測定し、検証対象についてのこのデータは、図5Cの訓練されたSVMモデルに個別に入力された。図5Dに示すように、訓練されたSVMは、55人の検証対象にわたってそのようなデータを使用して癌クラスについて75%の特異度と100%の感度を有した。本実施例は、訓練されたSVMモデルがRNA発現データを使用して腫瘍におけるウイルス感染を正確に予測することを示している。本実施例は、ウイルス感染が概して免疫応答の上方制御に関連していることを確認している。本実施例はさらに、全トランスクリプトームデータに基づくウイルス検出がそれ自体で有用な臨床ツールであり、既存の診断方法と組み合わせて、単一の試験においてウイルスの状態および腫瘍の微小環境についての洞察を提供できることを示している。
実施例5-正規化されたRNAカウントデータの取得
本実施例において、患者試料をRNA全エクソームショートリード次世代配列決定(NGS)で処理してRNA配列決定データを生成し、RNA配列決定データをバイオインフォマティクスパイプラインで処理して各患者試料のRNA-seq発現プロファイルを生成した。具体的には、固形腫瘍の全核酸(DNAおよびRNA)を、マクロ解剖したFFPE組織切片から抽出し、プロテイナーゼKで消化してタンパク質を除去した。TURBO DNase-Iにより全核酸からRNAを精製してDNAを除去した後、RNA clean XPビーズを使用して反応液を洗浄して酵素タンパク質を除去した。単離されたRNAを、RiboGreen蛍光色素を使用した品質管理プロトコルに供し、RNA分子の濃度を決定した。
ライブラリーの調製は、KAPA Hyper Prep Kitを使用して行い、マグネシウムの存在下で100ngのRNAを200bpの平均サイズに熱断片化した。次いで、ライブラリーをcDNAに逆転写し、Roche SeqCapデュアルエンドアダプターをcDNAにライゲーションした。次いで、cDNAライブラリーを精製し、KAPA Hyper Beadsを使用してサイズ選択を行った。次いで、ライブラリーを10サイクルでPCR増幅し、Axygen MAG PCRクリーンアップビーズを使用して精製した。品質管理は、cDNAライブラリー濃度を決定するためにPicoGreen蛍光キットを使用して実行された。次いで、cDNAライブラリーを6プレックスハイブリダイゼーション反応にプールした。各プールを、ヒトCOT-1およびIDTxGenUniversal Blockersで処理し、真空乾燥した。次いで、RNAプールをIDT xGen Lockdownハイブリダイゼーション混合物に再懸濁し、IDT xGen Exome Research Panel v1.0プローブを各プールに添加した。プールをインキュベートして、プローブをハイブリダイズさせた。次いで、プールをストレプトアビジンでコーティングされたビーズと混合して、cDNAのハイブリダイズした分子を捕捉した。KAPA HiFi Library AmplificationキットおよびAxygen MAG PCRクリーンアップビーズをそれぞれ使用して、プールをもう一度増幅および精製した。PicoGreenプールの定量化およびLabChip GX Touchを含む最終的な品質管理ステップを実行して、プール断片のサイズを評価した。プールは、Illumina C-Bot2でPhiXスパイクを備えたIllumina Paired-end Cluster Kitsを使用してクラスター増幅され、増幅された標的捕捉cDNAライブラリーを含む結果として得られるフローセルは、Illumina HiSeq 4000で500xの平均固有のオンターゲット深度まで配列決定され、FASTQファイルを生成した。
本実施例において、cDNAライブラリー調製は、液体処理ロボット(SciClone NGSx)を使用して自動システムで実行された。
各FASTQファイルには、Illumina配列決定装置によって生成されたペアエンドリードのリストが含まれており、その各々が品質評価に関連付けられていた。各FASTQファイルにおけるリードは、バイオインフォマティクスパイプラインによって処理された。FASTQファイルは、品質管理およびリードの迅速な評価のためにFASTQCを使用して分析された。各FASTQファイルについて、ファイルにおける各リードは、kallistoアラインメントソフトウェアを使用して参照ゲノム(GRch37)にアラインメントされた。このアラインメントによりSAMファイルが生成され、各SAMファイルがBAMに変換され、BAMファイルがソートされ、重複が削除対象としてマークされた。
各遺伝子について、所与の遺伝子についての生のRNAリードカウントは、各リードについて、リードが遺伝子にアラインメントする確率の合計として、kallistoアラインメントソフトウェアによって計算された。したがって、この例において、生のカウントは、整数ではない。生のリードカウントは、各患者について表形式のファイルに保存され、列は遺伝子を表し、各エントリはその遺伝子についての生のRNAリードカウントを表した。
次いで、生のRNAリードカウントを正規化して、完全な分位正規化を使用してGC含有量および遺伝子長を補正し、サイズファクター法を介して配列決定深度を調整した。正規化されたRNAリードカウントは、各患者について表形式のファイルに保存され、列は遺伝子を表し、各エントリはその遺伝子についての生のRNAリードカウントを表す。
引用されたおよび代替の実施形態
本明細書に引用されるすべての参考文献は、あたかも各個々の刊行物または特許または特許出願がすべての目的のためにその全体が参照により組み込まれるように、具体的かつ個別に示されるのと同程度に、それらの全体がすべての目的のために本明細書に参照により組み込まれる。
本発明は、非一時的コンピュータ可読記憶媒体に埋め込まれたコンピュータプログラム機構を含むコンピュータプログラム製品として実装することができる。例えば、コンピュータプログラム製品は、図1A、1Bの任意の組み合わせで示される、および/または図2A、2B、2C、2D、2E、および3で説明されるように、プログラムモジュールを含むことができる。これらのプログラムモジュールは、CD-ROM、DVD、磁気ディスク記憶製品、USBキー、または他の任意の非一時的コンピュータ可読データまたはプログラム記憶製品に記憶することができる。
当業者には明らかであろうように、本出願の趣旨および範囲から逸脱することなく、本出願の多くの修正および変形をなすことができる。本明細書に記載の特定の実施形態は、例としてのみ提供されている。実施形態は、本発明の原理およびその実際の使用を最良に説明するために選択および説明され、それによって当業者が本発明および考えられる特定の用途に適した様々な変更を伴う様々な実施形態を最良に利用することができるようにする。本発明は、そのような特許請求の範囲が権利を有する等価物の全範囲とともに、添付の特許請求の範囲の用語によってのみ限定されるべきである。

Claims (122)

  1. 第1の癌状態および第2の癌状態を識別するように分類器を訓練するための方法であって、前記第1の癌状態は、第1の発癌性病原体による感染に関連し、前記第2の癌状態は、発癌性病原体を含まない状態に関連し、前記方法は、以下を含み、
    少なくとも1つのプロセッサ、および前記少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムで、前記少なくとも1つのプログラムが、
    (A)ある種の複数の対象における各それぞれの対象について、(i)対応する複数の存在量値であって、前記対応する複数の存在量値における各それぞれの存在量値は、前記それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、対応する複数の存在量値と、(ii)前記それぞれの対象の癌状態の指標であって、前記それぞれの対象が前記第1の癌状態、または前記第2の癌状態を有するかどうかを特定する、癌状態の指標と、を含み、前記複数の対象は、前記第1の癌状態に罹患している第1の対象のサブセットおよび前記第2の状態に罹患している第2の対象のサブセットを含む、データセットを取得することと、
    (B)前記複数の対象におけるそれぞれの対象の前記対応する複数の存在量値および前記癌状態のそれぞれの指標を使用して識別遺伝子セットを特定することであって、前記識別遺伝子セットは、前記複数の遺伝子のサブセットを含む、特定することと、
    (C)前記複数の対象にわたる前記識別遺伝子セットについての前記それぞれの存在量値および癌状態の前記それぞれの指標を使用して、前記識別遺伝子セットについてのそれぞれの存在量値の関数として、前記第1の癌状態および前記第2の癌状態を識別するように分類器を訓練することと、を行うための命令を含む、方法。
  2. 前記対応する複数の存在量値が、RNA-seqによって取得される、請求項1に記載の方法。
  3. 前記複数の対象における各対象が、第1の型の癌に罹患しており、前記第1の型の癌が、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、頭頸部癌、卵巣癌、肝胆道癌、子宮頸癌、甲状腺癌、または膀胱癌のうちの1つである、請求項1または2に記載の方法。
  4. 前記複数の対象における各対象が、第1の型の癌の第1の病期に罹患しており、
    前記第1の型の癌が、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、頭頸部癌、卵巣癌、肝胆道癌、子宮頸癌、甲状腺癌、または膀胱癌のうちの1つであり、
    前記癌の第1の病期が、I期、II期、III期、またはIV期である、請求項1または2に記載の方法。
  5. 前記複数の対象が、100人の対象を含み、
    前記第1の対象のサブセットが、20人の対象を含み、
    前記第2の対象のサブセットが、20人の対象を含む、請求項1~4のいずれか一項に記載の方法。
  6. 前記複数の対象が、1000人の対象を含み、
    前記第1の対象のサブセットが、100人の対象を含み、
    前記第2の対象のサブセットが、100人の対象を含む、請求項1~4のいずれか一項に記載の方法。
  7. 前記種が、ヒトであり、
    前記複数の遺伝子が、10000個の遺伝子を含み、
    前記識別遺伝子セットが、5~40個の遺伝子からなる、請求項1~6のいずれか一項に記載の方法。
  8. 前記種が、ヒトであり、
    前記複数の遺伝子が、5000個の遺伝子を含み、
    前記識別遺伝子セットが、5~25個の遺伝子からなる、請求項1~6のいずれか一項に記載の方法。
  9. 前記識別遺伝子セットが、前記複数の遺伝子の少なくとも4分の1の遺伝子からなる、請求項1に記載の方法。
  10. 前記識別遺伝子セットの前記特定が、
    回帰アルゴリズムを使用して、前記複数の対象にわたる癌状態の前記それぞれの指標に対する前記複数の対象にわたる前記複数の存在量値のすべてまたはサブセットに基づいて前記データセットを回帰し、それにより、複数の回帰係数において、対応する回帰係数を、前記複数の遺伝子における各それぞれの遺伝子に対して割り当てることと、
    係数閾値を満たす前記回帰アルゴリズムによって係数が割り当てられた前記識別遺伝子セットについて、前記複数の遺伝子においてそれらの遺伝子を選択することと、を含む、請求項1~9のいずれか一項に記載の方法。
  11. 前記識別遺伝子セットの前記特定が、
    前記データセットを複数のセットに分割することであって、前記複数のセットにおける各セットが、前記第1の癌状態に罹患している2人以上の対象、および前記第2の状態に罹患している2人以上の対象を含む、分割することと、
    回帰アルゴリズムを使用して、前記それぞれのセットの前記対象にわたる癌状態の前記それぞれの指標に対する前記それぞれのセットの前記対象にわたる前記複数の存在量値のすべてまたはサブセットに基づいて、前記複数のセットにおける各それぞれのセットを独立して回帰し、それにより、複数の回帰係数における、対応する回帰係数を、前記複数の遺伝子における各それぞれの遺伝子に対して割り当てることと、
    前記複数のセットの少なくとも閾値パーセンテージについての係数閾値を満たす前記回帰アルゴリズムによって係数が割り当てられた前記識別遺伝子セットについて、前記複数の遺伝子においてそれらの遺伝子を選択することと、を含む、請求項1~9のいずれか一項に記載の方法。
  12. 前記複数のセットが、5~50個のセットからなる、請求項11に記載の方法。
  13. 前記複数のセットが、10個のセットからなる、請求項11に記載の方法。
  14. 前記係数閾値が、ゼロである、請求項10または11に記載の方法。
  15. 前記対応する回帰係数の絶対値がゼロより大きいときに、前記係数閾値が満たされる、請求項10または11に記載の方法。
  16. 前記回帰アルゴリズムが、ロジスティック回帰である、請求項10または11に記載の方法。
  17. 前記ロジスティック回帰が、
    Figure 2022521791000030

    を仮定し、式中、
    =(xi1、xi2、…、xik)は、i番目の対応する対象の前記腫瘍試料由来の前記複数の遺伝子についての前記対応する複数の存在量値であり、
    Y∈{0、1}は、前記対応する対象iが前記第1の癌状態を有する場合に値「1」を有し、前記対応する対象iが前記第2の癌状態を有する場合に値「0」を有するクラスラベルであり、P(Y=1|x)は、前記i番目の対応する対象が第1の癌クラスのメンバーである推定確率であり、
    βは、切片であり、
    β=(j=1、...k)は、前記複数の回帰係数であり、前記複数の回帰係数における各それぞれの回帰係数は、前記複数の遺伝子における対応する遺伝子に対するものであり、
    前記i番目の対応する対象は、P(Y=1|x)が事前定義された閾値を超える場合、前記第1の癌クラスに割り当てられ、それ以外の場合は第2の癌クラスに割り当てられる、請求項16に記載の方法。
  18. 前記事前定義された閾値が、0.5である、請求項17に記載の方法。
  19. 前記ロジスティック回帰が、βが以下の制約を受けたロジスティック最小絶対収縮および選択演算子(LASSO)回帰であり、
    最小
    Figure 2022521791000031
    式中、
    Figure 2022521791000032
    であり、
    λは、定数である、請求項17または18に記載の方法。
  20. 前記回帰アルゴリズムが、L1またはL2正則化を伴うロジスティック回帰である、請求項10または11に記載の方法。
  21. 前記種が、ヒトである、請求項1~20のいずれか一項に記載の方法。
  22. 前記分類器が、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである、請求項1~21のいずれか一項に記載の方法。
  23. 前記少なくとも1つのプログラムが、
    (D)前記使用(C)の後、前記分類器を使用して、試験の複数の存在量値を前記分類器に入力することによって、前記第1の癌または前記第2の状態に試験対象を分類するための命令をさらに含み、前記試験の複数の存在量値における各それぞれの存在量値が、前記試験対象の腫瘍試料における、前記複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、請求項1~22のいずれか一項に記載の方法。
  24. (E)前記試験対象が、前記第1の癌状態または前記第2の癌状態を有するという決定に基づいて、前記試験対象の治療的介入または画像化を提供すること、をさらに含む、請求項23に記載の方法。
  25. 前記少なくとも1つのプログラムが、
    (D)前記使用(C)の後、前記分類器を使用して、試験の複数の存在量値を前記分類器に入力することによって、試験対象が前記第1の癌状態を有する尤度または前記試験対象が前記第2の癌状態を有する尤度を決定するための命令をさらに含み、前記試験の複数の存在量値における各それぞれの存在量値が、前記試験対象の腫瘍試料における、前記複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、請求項1~22のいずれか一項に記載の方法。
  26. (E)前記試験対象が、前記第1の癌状態または前記第2の癌状態を有する前記尤度に基づいて、前記試験対象の治療的介入または画像化を提供すること、をさらに含む、請求項25に記載の方法。
  27. 前記第1の発癌性病原体が、発癌性ウイルスである、請求項1に記載の方法。
  28. 前記第1の発癌性病原体が、表1に記載の発癌性ウイルスである、請求項1に記載の方法。
  29. 前記第1の発癌性病原体が、発癌性細菌である、請求項1に記載の方法。
  30. 前記第1の発癌性病原体が、表1に記載の発癌性細菌である、請求項1に記載の方法。
  31. 前記第1の発癌性病原体が、発癌性吸虫である、請求項1に記載の方法。
  32. 前記第1の発癌性病原体が、表1に記載の発癌性吸虫である、請求項1に記載の方法。
  33. 前記分類器が、前記試験の複数の存在量値に加えて前記試験対象の1つ以上の追加の特徴をさらに使用して、前記対象を分類する、請求項25に記載の方法。
  34. 前記1つ以上の追加の特徴が、前記試験対象の前記試験試料における所定の遺伝子の変異の量を含む、請求項31に記載の方法。
  35. 前記1つ以上の追加の特徴が、前記試験対象の前記試験試料における複数の所定の遺伝子における各所定の遺伝子の変異の量を含む、請求項31に記載の方法。
  36. ヒト対象における第1の癌状態および第2の癌状態を識別するための方法であって、前記第1の癌状態は、ヒトパピローマウイルス(HPV)発癌性ウイルスによる感染に関連し、前記第2の癌状態は、HPVを含まない状態に関連し、前記方法は、
    前記ヒト対象の腫瘍試料から、表3に記載の少なくとも5つの遺伝子についての存在量データを取得することと、
    少なくとも部分的に、表3に記載の前記少なくとも5つの遺伝子の前記存在量に基づいて、前記第1の癌状態および前記第2の癌状態を識別するように訓練された分類器に前記存在量データを入力することと、を含む、方法。
  37. 前記分類器が、請求項1~25に記載の方法のうちのいずれかに従って訓練される、請求項34に記載の方法。
  38. ヒト対象における第1の癌状態および第2の癌状態を識別するための複数の核酸プローブであって、前記第1の癌状態は、ヒトパピローマウイルス(HPV)発癌性ウイルスによる感染に関連し、前記第2の癌状態は、HPVを含まない状態に関連し、
    前記複数の核酸プローブは、少なくとも5つの核酸プローブを含み、
    前記少なくとも5つの核酸プローブの各々は、表3に記載の遺伝子から選択される異なるそれぞれの遺伝子のRNA転写産物の少なくとも10個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む、複数の核酸プローブ。
  39. 少なくとも10個の核酸プローブを含み、前記少なくとも10個の核酸プローブの各々が、表3に記載の遺伝子から選択される異なるそれぞれの遺伝子のRNA転写産物の少なくとも10個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む、請求項36に記載の複数の核酸プローブ。
  40. 少なくとも20個の核酸プローブを含み、前記少なくとも20個の核酸プローブの各々が、表3に記載の遺伝子から選択される異なるそれぞれの遺伝子のRNA転写産物の少なくとも10個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む、請求項36に記載の複数の核酸プローブ。
  41. 少なくとも24個の核酸プローブを含み、前記少なくとも20個の核酸プローブの各々が、表3に記載の遺伝子から選択される異なるそれぞれの遺伝子のRNA転写産物の少なくとも10個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む、請求項36に記載の複数の核酸プローブ。
  42. 表3に記載されていない遺伝子のRNA転写産物の少なくとも10個の連続する塩基と同一または相補的である核酸配列を含む少なくとも1つの核酸プローブをさらに含む、請求項36~39のいずれか一項に記載の複数の核酸プローブ。
  43. 前記複数のプローブにおける各プローブが、5’ビオチン修飾オリゴヌクレオチドを含む、請求項36~40のいずれか一項に記載の複数の核酸プローブ。
  44. ヒト対象における第1の癌状態および第2の癌状態を識別するための方法であって、前記第1の癌状態は、エプスタインバーウイルス(EBV)発癌性ウイルスによる感染に関連し、前記第2の癌状態は、HPVを含まない状態に関連し、前記方法は、
    前記ヒト対象の腫瘍試料から、表4に記載の少なくとも5つの遺伝子についての存在量データを取得することと、
    少なくとも部分的に、表4に記載の前記少なくとも5個の遺伝子の前記存在量に基づいて、前記第1の癌状態および前記第2の癌状態を識別するように訓練された分類器に前記存在量データを入力することと、を含む、方法。
  45. 前記分類器が、請求項1~25に記載の方法のうちのいずれかに従って訓練される、請求項42に記載の方法。
  46. ヒト対象における第1の癌状態および第2の癌状態を識別するための複数の核酸プローブであって、前記第1の癌状態は、エプスタインバーウイルス(EBV)発癌性ウイルスによる感染に関連し、前記第2の癌状態は、EBVを含まない状態に関連し、
    前記複数の核酸プローブは、少なくとも5つの核酸プローブを含み、
    前記少なくとも5つの核酸プローブの各々は、表4に記載の遺伝子から選択される異なるそれぞれの遺伝子のRNA転写産物の少なくとも10個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む、複数の核酸プローブ。
  47. 少なくとも9つの核酸プローブを含み、前記少なくとも10個の核酸プローブの各々が、表4に記載の遺伝子から選択される異なるそれぞれの遺伝子のRNA転写産物の少なくとも10個の連続する塩基と同一または相補的であるそれぞれの核酸配列を含む、請求項44に記載の複数の核酸プローブ。
  48. 表3に記載されていない遺伝子のRNA転写産物の少なくとも10個の連続する塩基と同一または相補的である核酸配列を含む少なくとも1つの核酸プローブをさらに含む、請求項44または45に記載の複数の核酸プローブ。
  49. 前記複数のプローブにおける各プローブが、5’ビオチン修飾オリゴヌクレオチドを含む、請求項44~46のいずれか一項に記載の複数の核酸プローブ。
  50. 第1の型の癌を有する対象における第1の癌状態および第2の癌状態を識別するための方法であって、前記第1の癌状態は、第1の発癌性病原体による感染に関連し、前記第2の癌状態は、発癌性病原体を含まない状態に関連し、前記方法は、
    (A)前記対象についてのデータセットを取得することであって、前記データセットは、複数の存在量値を含み、前記複数の存在量値における各それぞれの存在量値は、前記対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、取得することと、
    (B)前記データセットを、請求項1~25のいずれか一項に記載の方法に従って訓練された分類器に入力することと、を含む、方法。
  51. 前記対象が、乳癌、肺癌、前立腺癌、結腸直腸癌、腎癌、子宮癌、膵臓癌、食道癌、頭頸部癌、卵巣癌、肝胆道癌、子宮頸癌、甲状腺癌、または膀胱癌に罹患している、請求項48に記載の方法。
  52. 前記データセットが、前記対象由来の前記癌性組織の前記ゲノムにおける1つ以上の遺伝子座での1つ以上の変異対立遺伝子についての変異対立遺伝子カウントをさらに含む、請求項48に記載の方法。
  53. 前記1つ以上の変異対立遺伝子が、TP53(ENSG00000141510)、CDKN2A(ENSG00000147889)、およびPIK3CA(ENSG00000121879)からなる群から選択される遺伝子における変異対立遺伝子から選択される、請求項50に記載の方法。
  54. 前記第1の癌状態が、エプスタインバーウイルス(EBV)、B型肝炎ウイルス(HBV)、C型肝炎ウイルス(HCV)、ヒトパピローマウイルス(HPV)、ヒトT細胞リンパ球向性ウイルス(HTLV-1)、カポジ関連肉腫ウイルス(KSHV)、およびメルケル細胞ポリオーマウイルス(MCV)からなる群から選択される第1の発癌性病原体による感染に関連する、請求項48~50のいずれか一項に記載の方法。
  55. 前記第1の癌状態が、ヒトパピローマウイルス(HPV)に関連する子宮頸癌、HPVに関連する頭頸部癌、エプスタインバーウイルス(EBV)に関連する胃癌、EBVに関連する鼻咽頭癌、EBVに関連するバーキットリンパ腫、EBVに関連するホジキンリンパ腫、B型肝炎ウイルス(HBV)に関連する肝臓癌、C型肝炎ウイルス(HCV)に関連する肝臓癌、カポジ関連肉腫ウイルス(KSHV)に関連するカポジ肉腫、ヒトT細胞リンパ球向性ウイルス(HTLV-1)に関連する成人T細胞白血病/リンパ腫、およびメルケル細胞ポリオーマウイルス(MCV)に関連するメルケル細胞癌からなる群から選択される、請求項48~50のいずれか一項に記載の方法。
  56. ヒト対象における第1の癌状態および第2の癌状態を識別するための方法であって、前記第1の癌状態は、ヒトパピローマウイルス(HPV)発癌性ウイルスによる感染に関連し、前記第2の癌状態は、HPVを含まない状態に関連し、前記方法は、
    (A)前記対象についてのデータセットを取得することであって、前記データセットは前記対象由来の複数の存在量値を含み、
    前記複数の存在量値における各それぞれの存在量値は、前記対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現のレベルを定量化し、
    前記複数の遺伝子は、表3に記載の遺伝子から選択される少なくとも5つの遺伝子を含む、取得することと、
    (B)前記複数の遺伝子の前記存在量値に基づいて、少なくとも前記第1の癌状態および前記第2の癌状態を識別するように訓練された分類器に前記データセットを入力することと、を含む、方法。
  57. 前記第1の癌状態が、ヒトパピローマウイルス(HPV)による感染に関連する子宮頸癌である、請求項54に記載の方法。
  58. 前記第1の癌状態が、ヒトパピローマウイルス(HPV)による感染に関連する頭頸部癌である、請求項54に記載の方法。
  59. 前記複数の遺伝子が、表3に記載の遺伝子から選択される少なくとも10個の遺伝子を含む、請求項54~56のいずれか一項に記載の方法。
  60. 前記複数の遺伝子が、表3に記載の遺伝子から選択される少なくとも20個の遺伝子を含む、請求項54~56のいずれか一項に記載の方法。
  61. 前記複数の遺伝子が、少なくとも表3に記載の遺伝子の24個すべてを含む、請求項54~56のいずれか一項に記載の方法。
  62. 前記複数の遺伝子が、表3に記載されていない少なくとも1つの遺伝子を含む、請求項54~59のいずれか一項に記載の方法。
  63. 前記データセットが、前記対象由来の前記癌性組織の前記ゲノムにおける1つ以上の遺伝子座での1つ以上の対立遺伝子についての変異対立遺伝子カウントをさらに含む、請求項54~60のいずれか一項に記載の方法。
  64. 前記1つ以上の変異対立遺伝子が、TP53(ENSG00000141510)またはCDKN2A(ENSG00000147889)遺伝子における変異対立遺伝子から選択される、請求項61に記載の方法。
  65. 前記分類器が、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである、請求項54~62のいずれか一項に記載の方法。
  66. 前記分類器が、請求項1~25のいずれか一項に記載の方法に従って訓練された、請求項54~62のいずれか一項に記載の方法。
  67. ヒト対象における第1の癌状態および第2の癌状態を識別するための方法であって、前記第1の癌状態は、エプスタインバーウイルス(EBV)発癌性ウイルスによる感染に関連し、前記第2の癌状態は、EBVを含まない状態に関連し、前記方法は、
    (A)前記対象についてのデータセットを取得することであって、前記データセットが前記対象由来の複数の存在量値を含み、
    前記複数の存在量値における各それぞれの存在量値は、前記対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現のレベルを定量化し、
    前記複数の遺伝子は、表4に記載の遺伝子から選択される少なくとも5個の遺伝子を含む、取得することと、
    (B)前記複数の遺伝子の前記存在量値に基づいて、少なくとも前記第1の癌状態および前記第2の癌状態を識別するように訓練された分類器に前記データセットを入力することと、を含む、方法。
  68. 前記第1の癌状態が、エプスタインバーウイルス(EBV)による感染に関連する胃癌である、請求項65に記載の方法。
  69. 前記複数の遺伝子が、表4に記載の9つの遺伝子すべてを含む、請求項65~66のいずれか一項に記載の方法。
  70. 前記複数の遺伝子が、表4に記載されていない少なくとも1つの遺伝子を含む、請求項65~67のいずれか一項に記載の方法。
  71. 前記データセットが、前記対象由来の前記癌性組織の前記ゲノムにおける1つ以上の遺伝子座での1つ以上の対立遺伝子についての変異対立遺伝子カウントをさらに含む、請求項65~68のいずれか一項に記載の方法。
  72. 前記1つ以上の変異対立遺伝子が、TP53(ENSG00000141510)またはPIK3CA(ENSG00000121879)遺伝子における変異対立遺伝子から選択される、請求項69に記載の方法。
  73. 前記分類器が、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである、請求項65~70のいずれか一項に記載の方法。
  74. 前記分類器が、請求項1~25のいずれか一項に記載の方法に従って訓練された、請求項65~71のいずれか一項に記載の方法。
  75. ヒト癌患者における子宮頸癌を治療するための方法であって、
    (A)前記ヒト癌患者がヒトパピローマウイルス(HPV)発癌性ウイルスに感染しているかどうかを決定することであって、
    前記ヒト癌患者についてのデータセットを取得することであって、前記データセットは、複数の存在量値を含み、
    前記複数の存在量値における各それぞれの存在量値は、前記対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現のレベルを定量化し、
    前記複数の遺伝子は、表3に記載の遺伝子から選択される少なくとも5つの遺伝子を含む、取得すること、ならびに
    前記対象の癌性組織において、前記複数の遺伝子の前記存在量値に基づいて、少なくともHPV感染に関連する第1の癌状態およびHPVを含まない状態に関連する第2の癌状態を識別するように訓練された分類器に前記データセットを入力すること、によって決定することと、
    (B)前記子宮頸癌を治療することであって、
    前記分類器の結果が、前記ヒト癌患者がHPV発癌性ウイルスに感染していることを示す場合、HPV感染に関連する子宮頸癌の治療のために調整された第1の療法を実施すること、および
    前記分類器の結果が、前記ヒト癌患者がHPV発癌性ウイルスに感染していないことを示す場合、HPV感染に関連しない子宮頸癌の治療のために調整された第2の療法を実施すること、によって、治療することと、を含む、方法。
  76. 前記複数の遺伝子が、表3に記載の遺伝子から選択される少なくとも10個の遺伝子を含む、請求項73に記載の方法。
  77. 前記複数の遺伝子が、表3に記載の遺伝子から選択される少なくとも20個の遺伝子を含む、請求項73に記載の方法。
  78. 前記複数の遺伝子が、少なくとも表3に記載の遺伝子の24個すべてを含む、請求項73に記載の方法。
  79. 前記複数の遺伝子が、表3に記載されていない少なくとも1つの遺伝子を含む、請求項73~76のいずれか一項に記載の方法。
  80. 前記データセットが、前記対象由来の前記癌性組織の前記ゲノムにおける1つ以上の遺伝子座での1つ以上の対立遺伝子についての変異対立遺伝子カウントをさらに含む、請求項73~77のいずれか一項に記載の方法。
  81. 前記1つ以上の変異対立遺伝子が、TP53(ENSG00000141510)またはCDKN2A(ENSG00000147889)遺伝子における変異対立遺伝子から選択される、請求項78に記載の方法。
  82. 前記分類器ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズム、請求項73~79のいずれか一項に記載の方法。
  83. 前記分類器が、請求項1~25のいずれか一項に記載の方法に従って訓練された、請求項73~80のいずれか一項に記載の方法。
  84. HPV感染に関連する子宮頸癌の治療のために調整された前記第1の療法が、治療用ワクチンである、請求項73~81のいずれか一項に記載の方法。
  85. HPV感染に関連する子宮頸癌の治療のために調整された前記第1の療法が、養子細胞治療である、請求項73~81のいずれか一項に記載の方法。
  86. HPV感染に関連しない子宮頸癌の治療のために調整された前記第2の療法が、化学療法である、請求項73~83のいずれか一項に記載の方法。
  87. 前記化学療法が、シスプラチンの投与を含む、請求項84に記載の方法。
  88. 前記第2の療法が、5-フルオロウラシル、パクリタキセル、およびベバシズマブからなる群から選択される第2の治療薬の共投与をさらに含む、請求項85に記載の方法。
  89. ヒト癌患者における頭頸部癌を治療するための方法であって、
    (A)前記ヒト癌患者がヒトパピローマウイルス(HPV)発癌性ウイルスに感染しているかどうかを決定することであって、
    前記ヒト癌患者についてのデータセットを取得することであって、前記データセットは、複数の存在量値を含み、
    前記複数の存在量値における各それぞれの存在量値は、前記対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現のレベルを定量化し、
    前記複数の遺伝子は、表3に記載の遺伝子から選択される少なくとも5個の遺伝子を含む、取得すること、ならびに
    前記対象の癌性組織において、前記複数の遺伝子の前記存在量値に基づいて、少なくともHPV感染に関連する第1の癌状態およびHPVを含まない状態に関連する第2の癌状態を識別するように訓練された分類器に前記データセットを入力すること、によって決定することと、
    (B)前記頭頸部癌を治療することであって、
    前記分類器の結果が、前記ヒト癌患者がHPV発癌性ウイルスに感染していることを示す場合、HPV感染に関連する頭頸部癌の治療のために調整された第1の療法を実施すること、および
    前記分類器の結果が、前記ヒト癌患者がHPV発癌性ウイルスに感染していないことを示す場合、HPV感染に関連しない頭頸部癌の治療のために調整された第2の療法を実施すること、によって、治療することと、を含む、方法。
  90. 前記複数の遺伝子が、表3に記載の遺伝子から選択される少なくとも10個の遺伝子を含む、請求項87に記載の方法。
  91. 前記複数の遺伝子が、表3に記載の遺伝子から選択される少なくとも20個の遺伝子を含む、請求項87に記載の方法。
  92. 前記複数の遺伝子が、少なくとも表3に記載の遺伝子の24個すべてを含む、請求項87に記載の方法。
  93. 前記複数の遺伝子が、表3に記載されていない少なくとも1つの遺伝子を含む、請求項87~90のいずれか一項に記載の方法。
  94. 前記データセットが、前記対象由来の前記癌性組織の前記ゲノムにおける1つ以上の遺伝子座での1つ以上の対立遺伝子についての変異対立遺伝子カウントをさらに含む、請求項87~91のいずれか一項に記載の方法。
  95. 前記1つ以上の変異対立遺伝子が、TP53(ENSG00000141510)またはCDKN2A(ENSG00000147889)遺伝子における変異対立遺伝子から選択される、請求項92に記載の方法。
  96. 前記分類器が、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、畳み込みニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、またはクラスタリングアルゴリズムである、請求項87~93のいずれか一項に記載の方法。
  97. 前記分類器が、請求項1~25のいずれか一項に記載の方法に従って訓練された、請求項87~93のいずれか一項に記載の方法。
  98. HPV感染に関連する頭頸部癌の治療のために調整された前記第1の療法が、治療用ワクチンである、請求項87~95のいずれか一項に記載の方法。
  99. HPV感染に関連する頭頸部癌の治療のために調整された前記第1の療法が、免疫チェックポイント阻害剤である、請求項87~95のいずれか一項に記載の方法。
  100. HPV感染に関連する頭頸部癌の治療のために調整された前記第1の療法が、PI3K阻害剤である、請求項87~95のいずれか一項に記載の方法。
  101. HPV感染に関連しない頭頸部癌の治療のために調整された前記第2の療法が、化学療法である、請求項87~98のいずれか一項に記載の方法。
  102. 前記化学療法が、シスプラチンの投与を含む、請求項99に記載の方法。
  103. 前記第2の療法が、同時放射線療法または術後化学放射線療法をさらに含む、請求項100に記載の方法。
  104. ヒト癌患者における胃癌を治療するための方法であって、
    (A)前記ヒト癌患者がエプスタインバーウイルス(EBV)発癌性ウイルスに感染しているかどうかを決定することであって、
    前記ヒト癌患者についてのデータセットを取得することであって、前記データセットは、複数の存在量値を含み、
    前記複数の存在量値における各それぞれの存在量値は、前記対象由来の癌性組織における、複数の遺伝子における、対応する遺伝子の発現のレベルを定量化し、
    前記複数の遺伝子は、表4に記載の遺伝子から選択される少なくとも5つの遺伝子を含む、取得すること、ならびに
    前記対象の癌性組織において、前記複数の遺伝子の前記存在量値に基づいて、少なくともEBV感染に関連する第1の癌状態およびEBVを含まない状態に関連する第2の癌状態を識別するように訓練された分類器に前記データセットを入力すること、によって決定することと、
    (B)前記胃癌を治療することであって、
    前記分類器の結果が、前記ヒト癌患者がEBV発癌性ウイルスに感染していることを示す場合、EBV感染に関連する胃癌の治療のために調整された第1の療法を実施すること、および
    前記分類器の結果が、前記ヒト癌患者がEBV発癌性ウイルスに感染していないことを示す場合、EBV感染に関連しない胃癌の治療のために調整された第2の療法を実施すること、によって、治療することと、を含む、方法。
  105. 前記複数の遺伝子が、少なくとも表4に記載の遺伝子の9つすべてを含む、請求項102に記載の方法。
  106. 前記複数の遺伝子が、表4に記載されていない少なくとも1つの遺伝子を含む、請求項102~103のいずれか一項に記載の方法。
  107. 前記データセットが、前記対象由来の前記癌性組織の前記ゲノムにおける1つ以上の遺伝子座での1つ以上の対立遺伝子についての変異対立遺伝子カウントをさらに含む、請求項102~104のいずれか一項に記載の方法。
  108. 前記1つ以上の変異対立遺伝子が、TP53(ENSG00000141510)またはPIK3CA(ENSG00000121879)遺伝子における変異対立遺伝子から選択される、請求項105に記載の方法。
  109. 前記分類器が、多変量ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、または畳み込みニューラルネットワークアルゴリズムである、請求項102~106のいずれか一項に記載の方法。
  110. 前記分類器が、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、畳み込みニューラルネットワークアルゴリズム、決定木アルゴリズム、回帰アルゴリズム、またはクラスタリングアルゴリズムである、請求項102~106のいずれか一項に記載の方法。
  111. 前記分類器が、請求項1~25のいずれか一項に記載の方法に従って訓練された、請求項102~108のいずれか一項に記載の方法。
  112. EBV感染に関連する胃癌の治療のために調整された前記第1の療法が、免疫チェックポイント阻害剤である、請求項102~109のいずれか一項に記載の方法。
  113. EBV感染に関連しない胃癌の治療のために調整された前記第2の療法が、化学療法である、請求項102~110のいずれか一項に記載の方法。
  114. 前記化学療法が、パクリタキセル、カルボプラチン、シスプラチン、5-フルオロウラシル、およびオキサリプラチンからなる群から選択される治療薬の投与を含む、請求項111に記載の方法。
  115. 前記化学療法が、パクリタキセルおよびカルボプラチンの投与を含む、請求項111記載の方法。
  116. 前記化学療法が、シスプラチンおよび5-フルオロウラシルの投与を含む、請求項111記載の方法。
  117. 前記化学療法が、オキサリプラチンおよび5-フルオロウラシルの投与を含む、請求項111記載の方法。
  118. 前記ヒト癌患者由来の前記癌性組織の試料のRNA配列決定によって前記複数の存在量値を決定することをさらに含む、請求項48~115のいずれか一項に記載の方法。
    前記対象由来の前記癌性組織が、前記対象由来の腫瘍試料である、請求項48~115のいずれか一項に記載の方法。
  119. 1つ以上のプロセッサと、
    メモリーと
    1つ以上のプログラムと、を備える電子デバイスであって、前記1つ以上のプログラムは、前記メモリに格納され、前記1つ以上のプロセッサによって実行されるように構成され、前記1つ以上のプログラムは、請求項48~116に記載の方法のうちのいずれかを実行するための命令を含む、電子デバイス。
  120. 1つ以上のプログラムを格納する非一時的なコンピュータ可読記憶媒体であって、前記1つ以上のプログラムは、1つ以上のプロセッサおよびメモリを備えた電子デバイスによって実行されると、前記デバイスに請求項48~116に記載の方法のうちのいずれかを実行させる命令を含む、非一時的なコンピュータ可読記憶媒体。
  121. プロセッサによって実行されると、前記プロセッサに、第1の癌状態および第2の癌状態を識別するように分類器を訓練するための方法を実行させるプログラムコード命令を格納する非一時的なコンピュータ可読記憶媒体であって、前記第1の癌状態は、第1の発癌性病原体による感染に関連し、前記第2の癌状態は、発癌性病原体を含まない状態に関連し、前記方法は、
    (A)ある種の複数の対象における各それぞれの対象について、(i)対応する複数の存在量値であって、前記対応する複数の存在量値における各それぞれの存在量値は、前記それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、対応する複数の存在量値と、(ii)前記それぞれの対象の癌状態の指標であって、前記それぞれの対象が前記第1の癌状態、または前記第2の癌状態を有するかどうかを特定する、癌状態の指標と、を含み、前記複数の対象は、前記第1の癌状態に罹患している第1の対象のサブセットおよび前記第2の状態に罹患している第2の対象のサブセットを含む、データセットを取得することと、
    (B)前記複数の対象におけるそれぞれの対象の前記対応する複数の存在量値および前記癌状態のそれぞれの指標を使用して識別遺伝子セットを特定することであって、前記識別遺伝子セットは、前記複数の遺伝子のサブセットを含む、特定することと、
    (C)前記複数の対象にわたる前記識別遺伝子セットについての前記それぞれの存在量値および癌状態の前記それぞれの指標を使用して、前記識別遺伝子セットについてのそれぞれの存在量値の関数として、前記第1の癌状態および前記第2の癌状態を識別するように分類器を訓練することと、を含む、非一時的なコンピュータ可読記憶媒体。
  122. 第1の癌状態および第2の癌状態を識別するように分類器を訓練するためのコンピュータシステムであって、前記第1の癌状態は、第1の発癌性ウイルスによる感染に関連し、前記第2の癌状態は、発癌性ウイルスを含まない状態に関連し、前記コンピュータシステムは、
    少なくとも1つのプロセッサ、および
    前記少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリを含み、前記少なくとも1つのプログラムは、
    (A)ある種の複数の対象における各それぞれの対象について、(i)対応する複数の存在量値であって、前記対応する複数の存在量値における各それぞれの存在量値は、前記それぞれの対象の腫瘍試料における、複数の遺伝子における、対応する遺伝子の発現レベルを定量化する、対応する複数の存在量値と、(ii)前記それぞれの対象の癌状態の指標であって、前記それぞれの対象が前記第1の癌状態、または前記第2の癌状態を有するかどうかを特定する、癌状態の指標と、を含み、前記複数の対象は、前記第1の癌状態に罹患している第1の対象のサブセットおよび前記第2の状態に罹患している第2の対象のサブセットを含む、データセットを取得することと、
    (B)前記複数の対象におけるそれぞれの対象の前記対応する複数の存在量値および前記癌状態のそれぞれの指標を使用して識別遺伝子セットを特定することであって、前記識別遺伝子セットは、前記複数の遺伝子のサブセットを含む、特定することと、
    (C)前記複数の対象にわたる前記識別遺伝子セットについての前記それぞれの存在量値および癌状態の前記それぞれの指標を使用して、前記識別遺伝子セットについてのそれぞれの存在量値の関数として、前記第1の癌状態および前記第2の癌状態を識別するように分類器を訓練することと、を行うための命令を含む、コンピュータシステム。
JP2021550012A 2019-02-26 2020-02-26 病原体検出のための配列決定データを使用するためのシステムおよび方法 Pending JP2022521791A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962810849P 2019-02-26 2019-02-26
US62/810,849 2019-02-26
PCT/US2020/019899 WO2020176620A1 (en) 2019-02-26 2020-02-26 Systems and methods for using sequencing data for pathogen detection

Publications (2)

Publication Number Publication Date
JP2022521791A true JP2022521791A (ja) 2022-04-12
JPWO2020176620A5 JPWO2020176620A5 (ja) 2023-03-07

Family

ID=72141819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021550012A Pending JP2022521791A (ja) 2019-02-26 2020-02-26 病原体検出のための配列決定データを使用するためのシステムおよび方法

Country Status (4)

Country Link
US (2) US11043304B2 (ja)
EP (1) EP3931360A4 (ja)
JP (1) JP2022521791A (ja)
WO (1) WO2020176620A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230197269A1 (en) 2020-02-18 2023-06-22 Tempus Labs, Inc. Systems and methods for detecting viral dna from sequencing
CA3174332A1 (en) 2020-04-21 2021-10-28 Jason PERERA Tcr/bcr profiling
US11613783B2 (en) 2020-12-31 2023-03-28 Tempus Labs, Inc. Systems and methods for detecting multi-molecule biomarkers
WO2022150663A1 (en) 2021-01-07 2022-07-14 Tempus Labs, Inc Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
CN112766352B (zh) * 2021-01-13 2024-03-29 大连海事大学 一种基于极端梯度提升算法的新型冠状病毒分类方法
WO2022159774A2 (en) 2021-01-21 2022-07-28 Tempus Labs, Inc. METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING
WO2022165069A1 (en) * 2021-01-29 2022-08-04 Foundation Medicine, Inc. Methods and systems for characterizing and treating combined hepatocellular cholangiocarcinoma
WO2023064309A1 (en) 2021-10-11 2023-04-20 Tempus Labs, Inc. Methods and systems for detecting alternative splicing in sequencing data
US20230162815A1 (en) 2021-11-19 2023-05-25 Tempus Labs, Inc. Methods and systems for accurate genotyping of repeat polymorphisms
CN113921079B (zh) * 2021-12-06 2022-03-18 四川省肿瘤医院 基于免疫相关基因的msi预测模型构建方法
CN116631500A (zh) * 2021-12-30 2023-08-22 天津金匙医学科技有限公司 非核心型耐药基因
WO2023164713A1 (en) * 2022-02-25 2023-08-31 Tempus Labs, Inc. Probe sets for a liquid biopsy assay
EP4239647A1 (en) 2022-03-03 2023-09-06 Tempus Labs, Inc. Systems and methods for deep orthogonal fusion for multimodal prognostic biomarker discovery
CN114891870A (zh) * 2022-06-26 2022-08-12 杭州奥明医学检验实验室有限公司 一种基于mNGS检测致癌病原体的方法、系统及装置
CN116110496A (zh) * 2023-01-05 2023-05-12 深圳市海普洛斯医疗系统科技有限公司 接头序列快速检测方法、装置、设备及存储介质
TWI826332B (zh) * 2023-06-08 2023-12-11 宏碁股份有限公司 建立疾病預測模型的方法及系統

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007130519A2 (en) * 2006-05-02 2007-11-15 Government Of The Usa, As Represented By The Secretary, Department Of Health And Human Services Viral nucleic acid microarray and method of use
WO2009015294A1 (en) * 2007-07-24 2009-01-29 Wisconsin Alumni Research Foundation Biomarkers for human papillomavirus-associated cancers
US8715926B2 (en) * 2008-11-24 2014-05-06 Loma Linda University Biomarkers for the detection of head and neck tumors
US9551700B2 (en) * 2010-12-20 2017-01-24 Milagen, Inc. Device and methods for the detection of cervical disease
RU2463610C1 (ru) * 2011-03-22 2012-10-10 Федеральное бюджетное учреждение науки "Государственный научный центр вирусологии и биотехнологии "Вектор" (ФБУН ГНЦ ВБ "Вектор") СПОСОБ ИЗГОТОВЛЕНИЯ ПАНЕЛИ СЫВОРОТОК С HBsAg AD- И AY-СУБТИПОВ ДЛЯ КОНТРОЛЯ КАЧЕСТВА ДИАГНОСТИКИ ГЕПАТИТА В
EP3364987A4 (en) * 2015-10-23 2019-05-15 The Regents of the University of Colorado, a Body Corporate FORECAST AND TREATMENT OF DISCONTINUED CARCINOMENAS
CA3033241A1 (en) * 2016-09-07 2018-03-15 Veracyte, Inc. Methods and systems for detecting usual interstitial pneumonia
CA3066004A1 (en) 2017-06-13 2018-12-20 Bostongene Corporation Systems and methods for identifying cancer treatments from normalized biomarker scores
JP7232476B2 (ja) 2017-08-07 2023-03-08 ザ ジョンズ ホプキンス ユニバーシティ がんを評価及び治療するための方法及び物質
WO2019032525A1 (en) * 2017-08-07 2019-02-14 Genecentric Therapeutics, Inc. PROCESS FOR SUBTYPING EPIDERMOID CARCINOMA OF HEAD AND NECK
DE102017216112A1 (de) 2017-09-12 2019-03-14 Thyssenkrupp Ag Aussetz-System und Aussetz-Verfahren mit zusammenziehbarem Vorleinenausleger
FR3072170B1 (fr) 2017-10-05 2020-10-16 Spade Dispositif de surveillance pour la detection, en continu, de defauts dans une section de canalisation et systeme de surveillance equipe d’au moins deux dispositifs de surveillance

Also Published As

Publication number Publication date
US20200273576A1 (en) 2020-08-27
EP3931360A1 (en) 2022-01-05
US11043304B2 (en) 2021-06-22
US20210272695A1 (en) 2021-09-02
WO2020176620A1 (en) 2020-09-03
EP3931360A4 (en) 2022-11-23

Similar Documents

Publication Publication Date Title
JP2022521791A (ja) 病原体検出のための配列決定データを使用するためのシステムおよび方法
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
US20220325348A1 (en) Biomarker signature method, and apparatus and kits therefor
US20200232046A1 (en) Genomic sequencing classifier
JP2022532897A (ja) マルチラベルがん分類のためのシステムおよび方法
US20200395097A1 (en) Pan-cancer model to predict the pd-l1 status of a cancer cell sample using rna expression data and other patient data
US11164655B2 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
US11869661B2 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
JP2023507252A (ja) パッチ畳み込みニューラルネットワークを用いる癌分類
CN112218957A (zh) 用于确定在无细胞核酸中的肿瘤分数的系统及方法
WO2022150663A1 (en) Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
US20230175058A1 (en) Methods and systems for abnormality detection in the patterns of nucleic acids
EP4035161A1 (en) Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
Gendoo et al. Personalized diagnosis of medulloblastoma subtypes across patients and model systems
US20240076744A1 (en) METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING
EP4326906A1 (en) Analysis of fragment ends in dna
WO2022120076A1 (en) Clinical classifiers and genomic classifiers and uses thereof

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240130