JP2022527316A - ウィルスに関連した癌のリスクの層別化 - Google Patents

ウィルスに関連した癌のリスクの層別化 Download PDF

Info

Publication number
JP2022527316A
JP2022527316A JP2021557959A JP2021557959A JP2022527316A JP 2022527316 A JP2022527316 A JP 2022527316A JP 2021557959 A JP2021557959 A JP 2021557959A JP 2021557959 A JP2021557959 A JP 2021557959A JP 2022527316 A JP2022527316 A JP 2022527316A
Authority
JP
Japan
Prior art keywords
pathogen
nucleic acid
subject
npc
reference genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021557959A
Other languages
English (en)
Other versions
JPWO2020206041A5 (ja
Inventor
ユ-ミン デニス ロ
ロッサ ワイ クン チウ
クワン チー チャン
ペイヨン ジャン
ワイ ケイ ラム
ルー ジー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grail Inc
Original Assignee
Grail Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grail Inc filed Critical Grail Inc
Publication of JP2022527316A publication Critical patent/JP2022527316A/ja
Publication of JPWO2020206041A5 publication Critical patent/JPWO2020206041A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • C12Q1/701Specific hybridization probes
    • C12Q1/705Specific hybridization probes for herpetoviridae, e.g. herpes simplex, varicella zoster
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • C12Q1/701Specific hybridization probes
    • C12Q1/708Specific hybridization probes for papilloma
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/52Predicting or monitoring the response to treatment, e.g. for selection of therapy based on assay results in personalised medicine; Prognosis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Immunology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Virology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本明細書で提供されることは、被験者の生物学的サンプルからの無細胞核酸分子の分析に基づいて、被験者が病原体関連障害を発症するリスクを層別化するための方法およびシステムである。様々な例において、スクリーニング頻度はリスク分析に基づいて決定される。また、無細胞核酸分子中の病原体ゲノムの変異パターンを分析するための方法およびシステムも、本明細書で提供される。

Description

相互参照
本出願は、2020年1月15日に出願された米国仮出願第62/961,517号、および2019年4月2日に出願された米国仮出願第62/828,224号の利益を主張するものであり、これらはそれぞれ、参照によりその全体が本明細書に組み込まれる。
多くの病気や症状は、ウィルスなどの病原体の感染に関連している可能性がある。鼻咽頭癌(NPC)は、中国南部および東南アジアで最も蔓延している癌の1つであり、NPCの病因は、エプスタインバー(Epstein-Barr)ウィルス(EBV)感染症と密接に関連している可能性がある。NPCの発生率の高い地域であれば、ほとんどすべてのNPC腫瘍にEBVゲノムが潜んでいるであろう。EBVとNPCの密接な関係性に基づき、血漿EBV DNAが、NPCのバイオマーカーとして開発された。リアルタイムポリメラーゼ連鎖反応(PCR)分析を使用して、血漿(plasma)EBV DNAの検出が、NPCの検出に対して、95%の感度および93%の特異性を有することが示された(Lo et al. CancerRes.1999; 59:1188-91)。生物学的サンプル中の病原体からの無細胞核酸分子の分析に基づき、これら病原体関連障害のリスクを層別化するために、非侵襲的または低侵襲的診断アッセイを開発することには、大きな臨床的利益がある。
ある態様において、本明細書にて提供されることは、被験者(subject)における病原体関連障害をスクリーニングする方法であり、該方法は:前記被験者の生物学的サンプル中の病原体からの無細胞核酸分子の特性(characteristic)を決定することを含む、第1の時点で実施される第1のアッセイからのデータを受け取るステップであって、前記病原体からの無細胞核酸分子の特性が、量、メチル化状態、変異(variant)パターン、フラグメントサイズ、または前記生物学的サンプル中の被験者からの無細胞核酸分子と比較した相対的存在量を含み、かつ、前記特性が、前記被験者が前記病原体関連障害を発症するリスクを示す受け取るステップと;前記特性に基づいて、前記被験者における前記病原体関連障害をスクリーニングするために第2のアッセイが実施される第2の時点を決定するステップであって、前記第1の時点および前記第2の時点との間の間隔が、前記リスクと逆相関する決定するステップと、を含む。
ある態様において、本明細書にて提供されることは、被験者における病原体関連障害を予後診断する方法であり、該方法は:
被験者の生物学的サンプル中の病原体からの無細胞核酸分子の特性を決定することを含む、第1のアッセイからのデータを受け取るステップであって、前記病原体からの無細胞核酸分子の特性が、量、メチル化状態、変異パターン、フラグメントサイズ、または前記生物学的サンプル中の被験者からの無細胞核酸分子と比較した相対的存在量を含む、受け取るステップと;前記病原体由来の無細胞核酸分子の特性、ならびに前記被験者の年齢、前記被験者の喫煙習慣、前記被験者の病原体関連障害の家族歴、前記被験者の遺伝子型因子、前記被験者の民族性、もしくは前記被験者の食歴の1つ以上の要因に基づいて、前記被験者が、病原体関連障害を発症するリスクを示すレポートを作成するステップと、を含む。
あるケースでは、第1のアッセイの結果は、病原体関連障害の被験者の医学的治療という結果をもたらさない。あるケースでは、医学的治療は、治療薬による治療、放射線療法または外科的治療を含む。あるケースでは、被験者は、偽陽性率が1%未満である臨床診断検査によって第2の時点の決定前に、病原体関連障害を有さないと診断される。あるケースでは、臨床診断検査は、身体検査、侵襲的生検、内視鏡検査、磁気共鳴画像法、陽放射断層撮影法、コンピュータ断層撮影法、またはX線画像法を含む。あるケースでは、臨床診断検査は、組織学的分析、細胞学的分析、または細胞核酸分析を含む侵襲的生検を含む。あるケースでは、間隔は少なくとも約2か月、4か月、6か月、8か月、10か月、または12か月である。あるケースでは、間隔は少なくとも約12ヶ月である。
あるケースでは、前記方法は、前記第1のアッセイを実施することをさらに含む。あるケースでは、前記第1のアッセイを実施することは:(i)前記被験者から第1の生物学的サンプルを取得すること;と、(ii)前記第1の生物学的サンプル中の病原体から、第1の量の無細胞核酸分子を測定すること、とを含む。あるケースでは、前記第1の量の測定は、前記第1の生物学的サンプル中の病原体から、前記無細胞核酸分子のコピー数を測定することを含む。あるケースでは、前記測定は、ポリメラーゼ連鎖反応(PCR)を含む。あるケースでは、前記測定は、定量PCR(qPCR)を含む。あるケースでは、前記第1の量は、前記第1の生物学的サンプル中の病原体から、前記無細胞核酸分子の第1のパーセンテージを測定することを含む。あるケースでは、前記第1のアッセイは:(iii)前記第1の量が閾値を超える場合、前記被験者から第2の生物学的サンプルを取得すること、および該第2の生物学的サンプル中の病原体から、第2の量の無細胞核酸分子を測定することをさらに含む。あるケースでは、前記第2の生物学的サンプルは、前記第1の生物学的サンプルから約4週間後に取得される。あるケースでは、前記第1の時点と第2の時点との間の間隔は、第2の量が閾値を下回る場合の間隔と比較して、第1の量および第2のコピー数の両方が閾値を上回る場合の方がより短い。あるケースでは、前記第1の時点と第2の時点との間の間隔は、第1の量が閾値を上回る場合の間隔と比較して、第1の量が閾値を下回る場合の方がより長い。あるケースでは、前記第1の時点と第2の時点との間の間隔は、第1の量および第2の量の両方が閾値を上回る場合、約1年である。あるケースでは、前記第1の時点と第2の時点との間の間隔は、第2の量が閾値を下回る場合、約2年である。あるケースでは、前記第1の時点と第2の時点との間の間隔は、第1の量が閾値を下回る場合、約4年である。あるケースでは、前記第1のアッセイは:前記生物学的サンプル中の病原体から、前記無細胞核酸分子のメチル化状態を決定することを含む。あるケースでは、前記メチル化状態の決定は、前記生物学的サンプル中の前記無細胞核酸分子をメチル化感受性制限酵素(methylation-sensitive restriction enzyme)またはバイサルファイトで処理することを含む。あるケースでは、前記メチル化状態の決定は、前記被験者の生物学的サンプル中の無細胞核酸のメチル化認識配列決定(methylation-aware sequencing)を実施することを含む。あるケースでは、前記メチル化認識配列決定は、メチル化されていないシトシンのウラシルへのバイサルファイト変換を含む。あるケースでは、前記メチル化認識配列決定は、メチル化感受性制限酵素による処理を含む。あるケースでは、前記第1のアッセイは:前記生物学的サンプル中の病原体から、前記無細胞核酸分子のフラグメントサイズ分布を決定することを含む。あるケースでは、前記フラグメントサイズ分布の決定は、前記生物学的サンプル中の無細胞核酸分子の配列決定を実施することと、前記病原体の参照ゲノムにマッピングされたシーケンスリードに基づいて、前記生物学的サンプル中の病原体から、前記無細胞核酸分子のフラグメントサイズを決定することと、を含む。
あるケースでは、前記第1のアッセイは:前記生物学的サンプル中の病原体から、前記無細胞核酸分子の変異パターンを決定することを含む。あるケースでは、前記変異パターンの決定は、前記生物学的サンプル中の無細胞核酸分子の配列決定を実施することと、前記病原体の前記参照ゲノムにマッピングされたシーケンスリードに基づいて、前記生物学的サンプル中の病原体から、前記無細胞核酸分子の前記変異パターンを決定することと、を含む。あるケースでは、前記病原体からの無細胞核酸分子の変異パターンは、一塩基変異を含む。あるケースでは、前記変異パターンの同定(identifying)は:前記病原体の参照ゲノムにマッピングされたシーケンスリードと、前記病原体の障害関連参照ゲノムとの間の類似性レベルの決定を含む。あるケースでは、前記病原体の障害関連参照ゲノムは、病変組織で同定された該病原体のゲノムを含む。あるケースでは、前記類似性レベルの決定は:前記病原体の参照ゲノムを、複数のビンに分離することと、前記病原体の障害関連参照ゲノムに対する複数のビンのそれぞれの類似性指数を決定することであって、前記類似性指数が、前記病原体の参照ゲノムにマッピングされたシーケンスリードの少なくとも1つが、病原体の障害関連参照ゲノムと同じヌクレオチド変異体を有する、各々のビンの中の変異サイトの割合と相関する、決定することと、を含む類似性レベルの決定である。あるケースでは、前記病原体の障害関連参照ゲノムが、前記病原体の複数の障害関連参照ゲノムを含み、かつ、前記類似性レベルの決定が:前記病原体の複数の障害関連参照ゲノムのそれぞれに対して、前記複数のビンのそれぞれについて各々、類似性指数を決定することと;前記各々のビン内の前記各々の類似性指数が、カットオフ値を上回る前記複数の障害関連参照ゲノムの比率に基づいて、前記複数のビンのそれぞれについてビンスコア(bin score)を決定することと、を含む。あるケースでは、前記複数のビンの長さはそれぞれ、約100、200、300、400、500、600、700、800、900、または1000bpである。あるケースでは、前記第1のアッセイが、前記生物学的サンプル中の病原体からの無細胞核酸分子の、前記メチル化状態か、前記フラグメントサイズ分布か、または前記変異パターンか、を決定することを含む。
あるケースでは、前記方法はさらに、前記生物学的サンプル中の病原体からの無細胞核酸分子の特性を含む、データ入力に適用される分類子(classifier)を使用して、前記被験者が前記病原体関連障害を発症するリスクスコアを計算することを含むものであって、前記分類子が、前記生物学的サンプル中の病原体からの無細胞核酸分子の特性を含む前記データ入力に関数を適用するように構成され、前記被験者が障害を発症するリスクを評価する前記リスクスコアを含む出力を生成する。あるケースでは、前記分類子が、ラベル付けされたデータセットでトレーニングされる。
あるケースでは、前記方法が、前記第2の時点で前記第2のアッセイを実施することをさらに含む。あるケースでは、前記第2のアッセイが、前記第1のアッセイと同じである。あるケースでは、前記第2のアッセイが、前記被験者からの無細胞核酸分子のアッセイ、前記被験者の侵襲的生検、前記被験者の内視鏡検査、または前記被験者の磁気共鳴画像検査を含む。
ある態様において、本明細書にて提供されることは、被験者の生物学的サンプルから核酸分子を分析する方法であり、該方法は:コンピュータシステムにおいて、前記被験者の生物学的サンプルから無細胞核酸分子のシーケンスリードを取得するステップであって、前記生物学的サンプルが、前記被験者からの、および潜在的に病原体からの無細胞核酸分子を含む、取得するステップと;前記コンピュータシステムにおいて、前記無細胞核酸分子のシーケンスリードを、前記病原体の参照ゲノムにアラインさせるステップと;前記コンピュータシステムにおいて、前記病原体からの無細胞核酸分子の変異パターンを同定するステップであって、前記変異パターンが、前記病原体の参照ゲノム上の複数の変異サイトのそれぞれで、該病原体の参照ゲノムにマッピングされた前記シーケンスリードのヌクレオチド変異体を特性化し、前記複数の変異サイトが、前記病原体の参照ゲノムにわたり少なくとも30のサイトを含み、かつ、前記変異パターンが、前記被験者における病原体関連障害の状態、またはそのリスクを示す、同定するステップと、を含む。
あるケースでは、前記複数の変異サイトが、前記病原体の参照ゲノムにわたって、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも1100、または少なくとも1200のサイトを含む。あるケースでは、前記複数の変異サイトが、前記病原体の参照ゲノムにわたって、少なくとも600のサイトを含む前記複数の変異サイトを含む。あるケースでは、前記複数の変異サイトが、前記病原体の参照ゲノムにわたって、約660のサイトを含む前記複数の変異サイトを含む。あるケースでは、前記複数の変異サイトが、前記病原体の参照ゲノムにわたって、少なくとも1000のサイトを含む前記複数の変異サイトを含む。あるケースでは、前記複数の変異サイトが、前記病原体の参照ゲノムにわたって、約1100のサイトを含む。あるケースでは、前記複数の変異サイトが、前記病原体の参照ゲノムにマッピングされたシーケンスリードが、前記病原体の参照ゲノムとは異なるヌクレオチド変異を有するすべてのサイトからなる。あるケースでは、前記シーケンスリードのアラインが、前記病原体の参照ゲノムにマッピングされた前記シーケンスリードと、前記病原体の参照ゲノムとの間で、10、9、8、7、6、5、4、3、2、または1塩基の最大ミスマッチを許容するように構成されている。あるケースでは、前記シーケンスリードのアラインが、前記病原体の参照ゲノムにマッピングされた前記シーケンスリードと、前記病原体の参照ゲノムとの間で、2塩基の最大ミスマッチを許容するように構成されている。あるケースでは、前記方法はさらに:前記病原体の参照ゲノムにマッピングされた前記シーケンスリードの変異パターンに基づいて、前記被験者における病原体関連障害を、診断(diagnosing)、予後診断、またはモニタリングすることを含む。あるケースでは、前記病原体からの無細胞核酸分子の変異パターンが、一塩基変異を含む。あるケースでは、前記変異パターンの同定が:前記病原体の参照ゲノムにマッピングされた前記シーケンスリードと、前記病原体の障害関連参照ゲノムとの間の類似性レベルを決定することを含む。あるケースでは、前記病原体の障害関連参照ゲノムは、病変組織で同定された前記病原体のゲノムを含む。あるケースでは、前記類似性レベルの決定が:前記病原体の参照ゲノムを複数のビンに分離することと;前記病原体の障害関連参照ゲノムに対する、前記複数のビンのそれぞれの類似性指数を決定することであって、前記類似性指数が、前記病原体の参照ゲノムにマッピングされた前記シーケンスリードの少なくとも1つが、前記病原体の障害関連参照ゲノムと同じヌクレオチド変異を有する、前記各々のビン内の変異サイトの割合と相関する、決定することと、を含む。あるケースでは、前記病原体の障害関連参照ゲノムが、前記病原体の複数の障害関連参照ゲノムを含み、かつ、前記類似性レベルの決定が:前記病原体の複数の障害関連参照ゲノムそれぞれに対して、前記複数のビンのそれぞれについて各々の類似性指数を決定すること、と;前記各々のビン内の各々の類似性指数が、カットオフ値を上回る前記複数の障害関連参照ゲノムの比率に基づいて、前記複数のビンそれぞれのビンスコアを決定すること、とを含む。あるケースでは、前記カットオフ値が、約0.9である。あるケースでは、前記複数のビンの長さはそれぞれ、約100、200、300、400、500、600、700、800、900、または1000bpである。あるケースでは、前記方法がさらに:前記病原体からの無細胞核酸分子の変異パターンを含むデータ入力に適用された分類子を使用して、前記被験者が前期病原体関連障害を発症するリスクスコアを計算することであって、前記分類子が、前記病原体からの無細胞核酸分子の変異パターンを含むデータ入力に関数を適用するように構成され、前記被験者が、障害を発症するリスクを評価する前記リスクスコアを含む出力を生成する、計算することを含む。あるケースでは、前記分類子が、ラベル付けされたデータセットでトレーニングされる。あるケースでは、前記分類子が、ナイーブベイズモデル(Naive Bayes model)、ロジスティック回帰(logistics regression)、ランダムフォレスト、ディシジョンツリー(decision tree)、勾配ブースティングツリー(gradient boosting tree)、ニューラルネットワーク、深層学習(deep learning)、線形/カーネルサポートベクターマシン(linear/kernel support vector machine)(SVM)、線形/非線形回帰、または線形判別分析(linear discriminative analysis)を使用した数学モデルを含む。
あるケースでは、前記病原体がウィルスである。あるケースでは、前記ウィルスが、エプスタイン・バール・ウィルス(EBV)である。あるケースでは、前記病原体関連障害が、鼻咽頭癌、NK細胞リンパ腫(NK cell lymphoma)、バーキット(Burkitt's)リンパ腫、移植後リンパ増殖性疾患(post-transplant lymphoproliferative disorders)、またはホジキン(Hodgkin's)リンパ腫を含む。あるケースでは、前記病原体からの無細胞核酸分子の変異パターンが、EBV参照ゲノム(AJ507799.2)に関連する表6に記載されているゲノムサイトから選択される少なくとも30、40、50、100、150、200、250、300、350、400、450、500、550、または600のサイトを含む、複数の変異サイトのそれぞれで前記病原体の参照ゲノムにマッピングされた、前記シーケンスコードのヌクレオチド変異体を特性化する。あるケースでは、前記複数の変異サイトが、EBV参照ゲノム(AJ507799.2)に関連する表6に記載されているゲノムサイトを含む。あるケースでは、前記病原体からの無細胞核酸分子の変異パターンが、EBV参照ゲノム(AJ507799.2)に関連する表6に記載されているゲノムサイトからランダムに選択された、複数の変異サイトのそれぞれで前記病原体の参照ゲノムにマッピングされた、前記シーケンスコードのヌクレオチド変異体を特性化する。あるケースでは、前記病原体からの無細胞核酸分子の変異パターンが、EBV参照ゲノム(AJ507799.2)に関連する表6に記載されているゲノムサイトからランダムに選択される、少なくとも30、40、50、100、150、200、250、300、350、400、450、500、550、または600のサイトを含む、複数の変異サイトのそれぞれで前記病原体の参照ゲノムにマッピングされた前記シーケンスコードのヌクレオチド変異体を特性化する。
あるケースでは、前記ウィルスが、ヒトパピローマ(human papilloma)ウィルス(HPV)である。あるケースでは、前記病原体関連障害が、子宮頸癌、中咽頭癌、または頭頸部癌を含む。あるケースでは、前記ウィルスが、B型肝炎ウィルス(HBV)である。あるケースでは、前記病原体関連障害が、肝硬変または肝細胞癌(HCC)を含む。あるケースでは、前記変異パターンが、前記被験者における病原体関連障害の状態を示し、かつ、該病原性関連障害の状態は、前記被験者における前記病原性関連障害の存在、前記被験者における腫瘍組織の量、前記被験者における腫瘍組織のサイズ、前記被験者における腫瘍の病期、前記被験者における腫瘍負荷、または前記被験者における腫瘍転移の存在を含む。あるケースでは、前記生物学的サンプルが:全血(whole blood)、血漿、血清、尿、脳脊髄液、バフィーコート(buffy coat)、膣液(vaginal fluid)、膣洗浄液(vaginal flushing fluid)、唾液、口腔リンス液(oral rinse fluid)、鼻洗浄液(nasal flushing fluid)、鼻ブラシサンプル(nasal brush sample)、および それらの組み合わせからなる群から選択される。
ある態様において、本明細書にて提供されることは、1つ以上のコンピュータプロセッサによる実行によって、上記の方法のいずれかを実装する機械実行可能コード(machine executable code)を含む非一時的な(non-transitory)コンピュータ可読媒体である。
ある態様において、本明細書にて提供されることは、コンピュータシステムを制御して上記の方法のいずれかのオペレーションを実施するための複数の命令を記憶する、非一時的なコンピュータ可読媒体を含むコンピュータ製品である。
ある態様において、本明細書にて提供されることは、本明細書に記載された前記コンピュータ製品と;前記コンピュータ可読媒体に記憶された命令を実行するための1つ以上のプロセッサと、を含む:システムである。
ある態様において、本明細書にて提供されることは、上記の方法のいずれかを実行するための手段を含むシステムである。
ある態様において、本明細書にて提供されることは、上記の方法のいずれかを実行するように構成されたシステムである。
ある態様において、本明細書にて提供されることは、上記の方法のいずれかのステップをそれぞれ実行するモジュールを含むシステムである。
参照による組み込み
本明細書で言及されるすべての公報、特許および特許出願は、個々の公報、特許または特許出願が参照により組み込まれることが具体的かつ個別に示された場合と同程度に、参照により本明細書に組み込まれる。
本明細書に記載の新規の特徴は、添付の特許請求の範囲に具体的に記載されている。本明細書に記載の特徴および利点のより良い理解は、本明細書に記載の原理が利用される例示的な実施形態を説明する以下の詳細な説明、およびその添付の図面を参照することによって得られる。
20,000人を超える被験者のコホートにわたるNPCスクリーニング研究の設計図である。 本開示によるNPCスクリーニングレジメンの例示的な概略図を示す。 NPC患者と非NPC被験者からのサンプルのEBV変異体プロファイルに基づく系統樹分析の要約である。 29の報告された変異体を除く、NPC患者および非NPC被験者からのサンプルのEBV変異体プロファイルに基づく系統樹分析の要約である。 NPC患者、非NPC被験者およびプレNPC被験者からのサンプルのEBV変異体プロファイルに基づく系統樹分析の要約である。 29の報告された変異体を除く、NPC患者、非NPC被験者およびプレNPC被験者からのサンプルのEBV変異体プロファイルに基づく系統樹分析の要約である。 ブロックベースの変異パターン分析の原理を示す。 13のNPC、16の非NPCおよび4つのプレNPCサンプルのEBV DNA変異パターンのブロックベース分析の要約である。 29の報告された変異体を除く、13のNPC、16の非NPCおよび4つのプレNPCサンプルのEBV DNA変異パターンのブロックベース分析の要約である。 図10Aは、ブロックベースの変異分析を使用するすべてのEBV変異体の分析に基づいた、トレーニングされた分類子を使用して計算されたNPCリスクスコアを示す。図10Bは、29の報告されたEBV変異体の分析に基づいた、トレーニングされた分類子を使用して計算されたNPCリスクスコアを示す。図10Cは、29の報告された変異体を除く、ブロックベースの変異分析を使用するすべてのEBV変異体の分析に基づいた、トレーニングされた分類子を使用して計算されたNPCリスクスコアを示す。 一時的に陽性のEBV DNAまたは持続的に陽性のEBV DNAを有するNPC患者および非NPC被験者のメチル化レベルの要約である。 メチル化感受性酵素消化によって誘導された陽性血漿EBV DNAを有する非癌被験者の血漿DNAのサイズ変化を示す概略図である。塗りつぶされたロリポップおよび塗りつぶされていないロリポップは、それぞれメチル化および非メチル化CpGサイトを表す。黄色の横棒は血漿EBV DNA分子を表す。酵素消化により、サイズ分布は左側にシフトする。 メチル化感受性酵素消化によって誘導された陽性血漿EBV DNAを有するNPC患者の血漿DNAのサイズ変化を示す概略図である。塗りつぶされたロリポップおよび塗りつぶされていないロリポップは、それぞれメチル化および非メチル化CpGサイトを表す。黄色の横棒は血漿EBV DNA分子を表す。酵素消化により、サイズ分布は左側にシフトする。 メチル化感受性制限酵素HpaIIを用いたインシリコの消化がある場合およびない場合の血漿EBV DNAのサイズプロファイルを示す。 NPC患者および非NPC被験者についてメチル化感受性制限酵素がある場合およびない場合の血漿EBV DNAの累積サイズプロファイルを示す。 図16Aは、NPCに関連していたEBVゲノムにわたる661のSNVサイトのトレーニングセットにおける3つの仮想サイトA、BおよびCを表示する概略図である。テストサンプルのNPCリスクスコアは定式化され、血漿EBV DNAリード(たとえば、利用可能な遺伝子型情報を使用)によってカバーされたこれら661のSNVサイトのサブセット全体にわたり、遺伝子型パターンによって決定された。テストサンプルの血漿配列決定データから、遺伝子型情報はサイトAおよびCでのみ利用可能であったが、サイトBはどのシーケンスされたEBV DNAリードでもカバーされていなかったため、サイトBでは利用不可能であった。図16Bは、トレーニングセット内の63のNPCサンプルおよび88の非NPCサンプルすべてについて、これらの2つのサイトにわたる遺伝子型を分析することにより、サイトAおよびCでの遺伝子型の重み付けを表示する概略図である。ロジスティック回帰モデルが構築され、サイトAおよびCでの高リスク遺伝子型の重み付けの情報が与えられた。図16Cは、トレーニングモデルから推定された各サイトの対応する係数によって重み付けされた、サイトAおよびCでのその遺伝子型に基づいて、テストサンプルのNPCリスクスコアが導き出されたプロセスを示す概略図である。図16Dは、トレーニングセット内のNPCおよび非NPCサンプルからのEBVゲノムにわたる5678 SNVの分布を示す(EBVゲノムにわたる1000のヌクレオチドのスライディングウィンドウ内の変異体の総数が示されている)。 図17Aおよび図17Bは、リーブワンアウト(leave one-out)アプローチを用いるトレーニングセットにおけるNPCリスクスコアを要約するグラフであり、図17Aは、トレーニングセットにおけるNPCおよび非NPC血漿サンプルのNPCリスクスコアを示す。図17Bは、NPCリスクスコア分析によるNPCおよび非NPCサンプルの識別のためのROC曲線分析を示す。 図18Aおよび図18Bは、テストセットにおけるNPCリスクスコアを要約するグラフであり、図18Aは、テストセットにおけるNPCおよび非NPC血漿サンプルのNPCリスクスコアを示す。図18Bは、NPCリスクスコア分析によるNPCおよび非NPCサンプルの識別のためのROC曲線分析を示す。 図19Aおよび図19Bは、EBER地域にわたる遺伝子型パターンを分析することによるNPCリスク分析を要約するグラフであり、図19Aは、EBER地域にわたる遺伝子型パターンの分析によるテストセットにおけるNPCおよび非NPC血漿サンプルのNPCリスクスコアを示す。図19Bは、EBER地域にわたるNPCリスクスコア分析に基づいた、NPCおよび非NPCサンプルの識別のためのROC曲線分析を示す。 図20Aおよび図20Bは、BALF2地域にわたる遺伝子型パターンを分析することによるNPCリスク分析を要約するグラフであり、図20Aは、BALF2地域にわたる遺伝子型パターンの分析によるテストセットにおけるNPCおよび非NPC血漿サンプルのNPCリスクスコアを示す。図20Bは、BALF2地域にわたるNPCリスクスコア分析に基づいた、NPCおよび非NPCサンプルの識別のためのROC曲線分析を示す。 明細書で提供される方法を実装するようにプログラムか、そうでなければ、他の方法で構成することができるコンピュータ制御システムを示す。 本明細書に開示される方法およびシステムの図式を示す。
発明の詳細な説明
概要
態様において、本明細書にて提供されることは、被験者における病原体関連障害をスクリーニングするための方法およびシステムである。前記方法およびシステムは、前記被験者からの生物学的サンプル中の病原体からの無細胞核酸分子の特性に基づいて、前記被験者が前記病原体関連障害を発症するリスクの評価を提供することができる。中でも、リスク予測は適切なスクリーニング頻度の決定を可能にする。適切かつタイムリーな追跡(follow-up)スクリーニングは、被験者の費用を節約するだけでなく、障害の早期発見を可能にする。たとえば、EBV-NPCの初期段階への段階分布のシフトは、NPC患者の無増悪生存期間の大幅な改善という結果をもたらす可能性がある。
前記被験者が前記病原体関連障害を発症するリスクは、該被験者が該病原体関連障害を発症する傾向がある可能性に言及することができる。あるケースでは、本明細書に記載のリスクは、前記病原体関連障害が前記被験者において、将来のある時点で臨床的に検出され得る状態(「臨床的に検出可能な障害」)へ発症する可能性に言及する。あるケースでは、前記被験者は、該被験者からの生物学的サンプル中の病原体からの無細胞核酸分子を試験するスクリーニングアッセイによって最初の時点でスクリーニングされ、そして、前記被験者は、最初の時点では臨床的に検出可能な病原体関連障害を有さないと診断されるが、該被験者からの生物学的サンプル中の病原体からの無細胞核酸分子の特性は、該被験者が将来の時点で臨床的に検出可能な障害を有するリスクを示し得る。
臨床的に検出可能な障害は、1つ以上の十分に確立された臨床診断検査を介して検出することができる病理学的症状を明確にする障害に言及することができる。あるケースでは、前記十分に確立された臨床診断検査は、前記病原体関連障害の偽陽性検出率が低い医療テスト/アッセイを含み、その割合は例えば、30%、20%、10%、8%、7%、6%、5%、4%、3%、2.5%、2%、1%、0.8%、0.5%、0.25%、0.15%、0.1未満%、0.08%、0.05%、0.02%、0.01%、0.005%、0.002%、0.001%またはそれ以下である。前記十分に確立された臨床診断検査は、前記病原体関連障害を高感度でも検出することができる医療テスト/アッセイを含み、その割合は例えば、少なくとも30%、40%、50%、60%、70%、80%、85%、90%、92%、94%、95%、96%、97%、98%、99%、もしくは99.5%、または100%である。あるケースでは、前記病原体関連障害は、癌などの病原体関連増殖性障害であり、該癌は、1つ以上の侵襲的生検とそれに続く生検組織の組織学的または他の検査(例えば、組織分析、細胞DNAもしくはタンパク質分析などの細胞検査)、例えば、X線、磁気共鳴画像法(MRI)、ポジトロン放出断層撮影(PET)といった画像検査、またはコンピュータ断層撮影(CT)、またはPET-CT、臨床検査(例えば、血液検査または尿検査)、または身体検査によって高い信頼性および低い偽陽性率で臨床的に診断されることが可能である。前記病原体関連障害の前記診断は、前述のまたは他の十分に確立された臨床検査の結果に基づいて認定された医師によって行われ得る。あるケースでは、第1のスクリーニングアッセイの結果が、十分に確立された臨床診断検査によって前記被験者が障害を有していないと診断されるため、前記病原体関連障害について該被験者の医療的な治療という結果にならない。
評価されたリスクに基づいて、あるケースでは、前記方法は前記被験者に関連する病原体のスクリーニングアッセイの頻度を決定することを含む。前記スクリーニングアッセイの頻度はリスクと相関し得、2つのスクリーニングアッセイ、例えば、本明細書に記載のスクリーニングアッセイとその後の追跡スクリーニングアッセイとの間の間隔は、リスクと逆相関し得る。あるケースでは、前記方法は第1の時点で実施される第1のスクリーニングアッセイからデータを受け取ることを含む。前記第1のスクリーニングアッセイは、前記被験者からの生物学的サンプル中の病原体からの無細胞核酸分子の特性を決定することを含み得る。例えば、前記第1のスクリーニングアッセイは、前記被験者からの生物学的サンプルの取得を含み、該生物学的サンプルは、該被験者からおよび潜在的に前記病原体からの無細胞核酸分子、例えば、無細胞DNAを含む。前記第1のスクリーニングアッセイはまた、生物学的サンプル中の病原体からの前記無細胞核酸分子の特性を決定することも含み得る。本明細書で提供される方法およびシステムで用いることができる病原体からの無細胞核酸分子の非限定的な特性は、量(例えば、コピー数またはパーセンテージ)、メチル化状態、フラグメントサイズ、変異パターン、および前記生物学的サンプル中の前記被験者からの無細胞核酸分子と比較した相対的な存在量を含む。本明細書に記載されるように、被験者または該被験者からの生物学的サンプルに対して実施される検査またはアッセイに関する時点(time point)は、実際のアッセイが該生物学的サンプルに対して行われる時点ではなく、該被験者が検査を受ける時点、または該生物学的サンプルが該被験者から得られる時点を指すことができる。
あるケースでは、本明細書で提供される方法が、(a)前記被験者の生物学的サンプル中の病原体からの無細胞核酸分子の特性を決定することを含む第1の時点で実施される第1のアッセイからデータを受け取るステップであって、前記病原体からの前記無細胞核酸分子の前記特性が、量(例えば、コピー数またはパーセンテージ)、メチル化状態、変異パターン、フラグメントサイズ、または前記生物学的サンプル中の前記被験者からの無細胞核酸分子と比較した相対的な存在量を含み、かつ、前記特性が、前記被験者が前記病原体関連障害を発症するリスクを示す、受け取るステップと、(b)前記特性に基づいて、前記被験者における前記病原体関連障害をスクリーニングするために第2のアッセイが実施される第2の時点を決定するステップであって、前記第1の時点と前記第2の時点との間の間隔が、前記リスクと逆相関する、決定するステップと、を含む方法である。
あるケースでは、本明細書に記載される前記被験者の前記生物学的サンプル中の前記無細胞核酸分子の1つ以上の特性が、前記被験者における前記病原体関連障害(例えば、癌)の状態、または前記被験者が将来的に前記病原体関連障害を発症する前記リスクを評価するための非侵襲的アプローチを可能にする。特定の理論に縛られることを望むことなく、前記方法およびシステムで使用可能な前記無細胞核酸分子の1つ以上の特性と、前記被験者が前記病原体関連障害を発症する前記リスクとの間の関連性の根底にある、少なくとも2つの可能なシナリオがあり得る。1つの可能なシナリオにおいて、前記病原体関連障害、例えば、病原体関連腫瘍を患っている病変組織は、第1のスクリーニング(例えば、第1のスクリーニングアッセイ)の時点ですでに存在し得る。しかしながら、前記病変組織、例えば前記腫瘍のサイズが小さすぎて、他の古典的な健康診断アプローチ、例えば、内視鏡検査や磁気共鳴画像法(MRI)などの前記病原体関連障害を検出する偽陽性率が10%、5%、2%、1%、0.5%、0.1%、または0.05%未満であるアプローチによってピックアップできない可能性がある。障害の発症に伴い、例えば病変組織、例えば腫瘍のサイズの成長、より進行した病変組織、例えば拡大した組織(例えば拡大した腫瘍)を、その後のスクリーニング(第2のスクリーニングアッセイ)で検出することができる。もう一つの可能なシナリオは次のとおりである:前記病原体の核酸分子、例えば、EBV DNAは、前癌状態の細胞などの予備的な病状にある細胞によって放出され得、のちに、これらの細胞は、癌細胞などの病細胞に潜在的に発症する可能性がある。前記関連性の根底にある正確なシナリオに関係なく、本明細書に記載された主題は、その後に臨床的に検出可能なNPCを有するリスクについて被験者を層別化するために使用可能である。
あるケースでは、明細書に記載されている特定のスクリーニングプログラムに使用される実際の時間間隔は、医療経済的考慮事項(例えばスクリーニングの費用)、被験者の嗜好(例えばより頻繁なスクリーニング間隔は、特定の被験者のライフスタイルにとってより混乱を招くである可能性がある)およびその他の臨床パラメーター(例、個人の遺伝子型(例、HLAステータス(Bei et al. Nat Genet. 2010; 42:599-603; Hildesheim et al. JNatl Cancer Inst. 2002; 94:1780-9.)、NPCの家族歴、食事歴、民族的起源(例、広東語)))に従って調整される。
あるケースでは、本明細書で提供される方法が:前記被験者の生物学的サンプル中の病原体からの無細胞核酸分子の特性を決定することを含む第1のアッセイからデータを受け取るステップであって、前記病原体からの前記無細胞核酸分子の前記特性が、量(例えば、コピー数またはパーセンテージ)、メチル化状態、変異パターン、フラグメントサイズ、フラグメント末端の座標、フラグメント末端の配列モチーフ、または前記生物学的サンプル中の前記被験者からの無細胞核酸分子と比較した相対的な存在量を含む受け取るステップと;前記病原体からの前記無細胞核酸分子の特性および以下:前記被験者の年齢、前記被験者の喫煙習慣、前記被験者の病原体関連障害の家族歴、前記被験者の遺伝子型因子、または前記被験者の食歴、の1つ以上の要因に基づいて、前記被験者が前記病原体関連障害を発症するリスクを示すレポートを作成するステップと、を含む方法である。
態様において、本明細書にて提供されることは、被験者からの生物学的サンプル中の核酸分子を分析するための方法およびシステムである。方法およびシステムの例に、前記生物学的サンプル中の病原体からの核酸分子の変異パターンの分析が挙げられる。あるケースでは、前記生物学的サンプル中の病原体からの前記核酸分子が、無細胞核酸分子を含む。変異パターン分析は、病原体を起源とすると同定された生物学的サンプル中の前記核酸分子の配列を、該病原体の1つ以上の参照ゲノムと比較することと、続いて該生物学的サンプル中の該病原体からの該核酸分子中のヌクレオチド変異パターンを決定することと、を含み得る。
あるケースでは、本明細書で提供される方法およびシステムは、前記生物学的サンプル中の前記病原体からの前記核酸分子の前記変異パターンに基づく、前記被験者における病原体関連障害の状態またはリスクの決定を含む。たとえば、血漿において検出されたEBVゲノムの遺伝的変異は、将来のNPC発症のリスクを予測するために使用可能である。EBV関連腫瘍および対照サンプルに存在するEBVの株は異なる可能性があることが過去に報告されているが(Palser et al. J Virol 2015; 89:5222-37)、この研究の該腫瘍および該対照のサンプルは、地理的に異なる場所から収集されていた。したがって、EBV変異体の地理的変動を考えると、腫瘍サンプルにおいて同定された変異体が地理的に関連しているか、または疾患に関連しているかを結論付けることは困難である。
あるケースでは、本明細書に記載の変異パターン分析は、前記生物学的サンプル中の前記病原体からの前記核酸分子と前記病原体の1つ以上の参照ゲノムとの間のゲノムワイドな比較を含む。前記ゲノムワイドな比較は、前記病原体の全ゲノムにわたる配列アラインメント、およびそれに続くヌクレオチド変異パターンのクラスタリング分析を含み得る。あるケースでは、前記ゲノムワイドな比較は、前記病原体の前記参照ゲノムにわたる多数のサイトでのヌクレオチド変異体の分析を包含する。これらのサイトは、前記病原体のゲノム全体にわたるすべてのサイトを含むことが可能である。あるいは、前記病原体の前記参照ゲノムにわたるこれらのサイトまたは変異サイトは、ヌクレオチド変異体が典型的に見出され得る少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも1100、少なくとも1200、少なくとも1300、少なくとも1400、少なくとも1500、少なくとも1600、少なくとも1700、少なくとも1800、少なくとも1900、少なくとも2000、少なくとも3000、少なくとも4000、または少なくとも5000のサイトを含み得る。本明細書に記載のヌクレオチド変異体は、一塩基変異体(SNV)を含むことができる。本明細書で提供される変異パターン分析に使用される変異サイトは、前記病原体のゲノムで同定された典型的なSNVsを含むことができる。あるケースでは、前記変異サイトは、挿入、削除および融合を含むことができる。
本明細書で提供されるゲノムワイドな変異パターン分析は、個々の一塩基多型(SNPs)の分析よりも優れている可能性がある。ある例示的なケースでは、固定された数のサイト上のSNPが、被験者の病理につながる可能性がある前記病原体の特定の株またはサブタイプに関連付けることができるが、これらの個々のSNPsの分析に基づくリスク評価は、前記病原体の特定の菌株またはサブタイプに限定される可能性があり、前記病原体の他の病気を引き起こす株またはサブタイプが存在する場合、該リスク評価は、リスクの正確な評価を提供するのに不十分である可能性がある。別の例示的なケースでは、本明細書で提供されるゲノムワイドな変異パターン分析は、前記生物学的サンプル中の病原体核酸分子が不足している場合、例えば、血漿などの生物学的サンプル中の無細胞核酸分子が分析される場合に有益であり得る。前記生物学的サンプル中の利用可能な病原体核酸分子は、前記病原体ゲノムの相当量をカバーしていない可能性がある。結果として、前記病原体の全ゲノムにわたる多数の変異サイトを包含するゲノムワイドな変異パターン分析は、前記生物学的サンプル中の前記病原体からの前記無細胞核酸分子の遺伝子型の特徴を比較的より包括的に読み出すことを提供できる。一方、固定された数の個々の多型を包含する分析は、比較的小さな領域または前記ゲノムのいくつかの小さな領域に限定され、したがって、前記生物学的サンプル中の前記病原体からの前記無細胞核酸分子の遺伝子型の特徴を比較的限定して読み出すことを提供できる。
あるケースでは、本明細書で提供される変異パターン分析は、ブロックベースのパターン分析を含み、それは、前記病原体の参照ゲノムを複数のビンに分離し、該複数のビンのそれぞれに関連するシーケンスリードを分析することを包含する。あるケースでは、前記方法は、前記病原体の前記障害関連参照ゲノムに対する前記複数のビンのそれぞれの類似性指数を決定することを含む。前記類似性指数は、前記病原体の前記参照ゲノムにマッピングされた少なくとも1つの前記シーケンスリードが、前記病原体の前記障害関連参照ゲノムと同じヌクレオチド変異体を有する、各々のビン内の変異サイトの割合と相関し得る。あるケースでは、前記病原体の前記障害関連参照ゲノムは、前記病原体の複数の前記障害関連参照ゲノムを含み、該方法は、前記病原体の前記複数の障害関連参照ゲノムのそれぞれに対する前記複数のビンのそれぞれについて各々の類似性指数を決定することと;前記各々のビン内の前記各々の類似性指数がカットオフ値を超える前記複数の障害関連参照ゲノムの割合に基づいて、前記複数のビンのそれぞれのビンスコアを決定すること、とを含む。
無細胞核酸分子のアッセイ
前記被験者の生物学的サンプルからの前記無細胞核酸分子のスクリーニングアッセイは、任意の適切な核酸アッセイであり得る。例えば、配列決定法は、量(例えば、コピー数またはパーセンテージ)、メチル化状態、フラグメントサイズ、または前記無細胞核酸分子の相対的な存在量を分析するために採用することができる。代替的または追加的に、増幅(amplification)またはハイブリダイゼーションベースの方法、例えば、様々なポリメラーゼ連鎖反応(PCR)法またはマイクロアレイベースのアプローチも用いることができる。あるケースでは、例えば前記核酸分子のメチル化状態を分析するために、免疫沈降法が用いられる。
本開示のある例では、前記無細胞病原体核酸分子、例えば無細胞EBV DNAを検出するための前記スクリーニングアッセイは、さまざまな時点で実施される2以上のテストを含み、複数のテストにわたる前記無細胞病原体核酸分子の検出可能性が、前記被験者が前記病原体関連障害を発症する前記リスクを示し得る。例えば、前記アッセイは、2段階アッセイまたは3、4、5、6、7、8、9、10、もしくはさらに多くのテストを含むアッセイレジメンを含むことができる。一部のテストは同じ時点で実行できるが、他のテストは異なる時点で実行でき、あるいは、すべてのテストを異なる時点で実行することができる。
異なるスクリーニングアッセイのタイミングまたはスクリーニング頻度は、本明細書で提供される方法およびシステムによって決定することができる。前記第1のスクリーニングアッセイと前記第2のスクリーニングアッセイとの間の前記間隔は、少なくとも約2ヶ月、4ヶ月、6ヶ月、8ヶ月、10ヶ月、または12ヶ月であり得る。あるケースでは、前記間隔は、少なくとも約12ヶ月である。前記第1のスクリーニングアッセイと前記第2のスクリーニングアッセイとの間の前記間隔は、約1年、1.5年、2年、2.5年、3年、3.5年、4年、4.5年、5年、6年、7年、8年、9年、10年、またはそれ以上であり得る。前記被験者が、十分に確立された臨床診断法によって前記病原体関連障害を有さない(例えば、臨床的に検出可能な病原体関連障害を有さない)と普通に診断される限りにおいては、前記第1のスクリーニングアッセイが、前記病原体関連障害の存在を示す陽性結果をもたらし得るのだが、前記間隔は長くなり得る。本明細書で提供される方法およびシステムは、例えば6ヶ月、12ヶ月、2年、3年、5年、または10年以内といった将来において前記被験者が、前記病原体関連障害を発症するリスクの予測を可能にし得る。評価されたリスクに基づいて、適切な追跡の時点を決定できる。
サンプルを取得してからアッセイを実施するまでの時間は、アッセイまたは方法の感度および/または特異性を改善するために最適化し得る。ある実施形態では、サンプルは、アッセイを実施する直前に取得することができる(例えば、第1のサンプルは、第1のアッセイを実施する前に取得し、第2のサンプルは、第1のアッセイを実施した後、第2のアッセイを実施する前に取得する)。ある実施形態では、サンプルを取得し、アッセイを実施する前に一定期間(例えば、数時間、数日または数週間)保存することができる。ある実施形態では、アッセイは、被験者からサンプルを取得してから1日、2日、3日、4日、5日、6日、1週間、2週間、3週間、4週間、5週間、6週間、7週間、8週間、3ヶ月、4ヶ月、5ヶ月、6ヶ月、1年以内、または1年以上で、該サンプルについて実施することができる。
アッセイ(例えば、第1のアッセイまたは第2のアッセイ)を実施してから、サンプルが、腫瘍などの障害を示すマーカーまたはマーカーのセットを含むかどうかを決定するまでの時間は変動し得る。ある例では、アッセイまたは方法の感度および/または特異性を改善するために、時間が最適化し得る。ある実施形態では、サンプルが腫瘍を示すマーカーまたはマーカーのセットを含むかどうかを決定は、アッセイを実施してから最大で0.1時間、0.5時間、1時間、2時間、4時間、8時間、12時間、24時間、2日、3日、4日、5日、6日、1週間、2週間、3週間、または1ヵ月以内に生じ得る。
本明細書に記載の生物学的サンプルの配列決定分析は、病原体からの無細胞核酸分子の1つ以上の特性の分析について実施することができる。本明細書で提供される方法は、生物学的サンプルからの核酸分子、例えば、無細胞核酸分子、細胞核酸分子またはその両方を配列決定することを含み得る。ある例では、本明細書で提供される方法は、生物学的サンプルからの核酸分子からの配列決定の結果、例えば、配列決定リードを分析することを含む。本明細書で提供される方法およびシステムは、配列決定の能動的ステップを含むことも含まないこともできる。方法およびシステムは、シーケンサーから配列決定データを受け入れるおよび処理するための手段を含むか、または提供することができる。方法およびシステムはまた、シーケンサーに対して配列決定プロセスのパラメーターを調整するコマンド、例えば、配列決定結果の分析に基づくコマンドを与える手段を含むか、または提供することもできる。
イルミナシーケンスプラットフォームおよび454/ロシュプラットフォームなどの市販の配列決定装置を、本開示で提供される方法に使用することができる。核酸の配列決定は、当技術分野で知られている任意の方法を使用して実施することができる。例えば、配列決定は、次世代配列決定を含み得る。ある例では、核酸の配列決定は、連鎖停止配列決定(chain termination sequencing)、ハイブリダイゼーション配列決定(hybridization sequencing)、イルミナ配列決定(Illumina sequencing)(例えば、可逆的ターミネーター色素を用いる)、イオントレント半導体配列決定(ion torrent semiconductor sequencing)、質量分析配列決定(mass spectrophotometry sequencing)、超並列シグネチャー配列決定(MPSS)(massively parallel signature sequencing)、マキサム-ギルバートシーケンシング(Maxam-Gilbert sequencing)、ナノポアシーケンシング(nanopore sequencing)、ポロニーシーケンシング(polony sequencing)、パイロシーケンシング(pyrosequencing)、ショットガンシーケンシング(shotgun sequencing)、一分子リアルタイム(SMRT)シーケンシング、SOLiDシーケンス(4つの蛍光標識二塩基プローブを使用したハイブリダイゼーション)、ユニバーサルシーケンシング(universal sequencing)、またはそれらの任意の組み合わせを使用して実施することができる。
本明細書で提供される方法において用いられる1つの配列決定方法は、例えば、イルミナの「ペアエンドモジュール」をそのゲノムアナライザーと共に使用する、ペアエンドシーケンシング(paired end sequencing)を含み得る。このモジュールを用いて、ゲノムアナライザーが第1の配列決定リードを完了した後、該ペアエンドモジュールは元のテンプレートの再合成およびクラスター生成の第2ラウンドを指示することができる。本明細書で提供される方法においてペアエンドリードを用いることにより、核酸分子の両端から配列情報を取得する、および両端を参照ゲノム、例えば、病原体のゲノムまたは宿主生物のゲノムにマッピングすることができる。両端をマッピングした後、本明細書で提供される方法のいくつかの実施形態に従って、病原体統合プロファイルを決定することができる。
ペアエンドシーケンシングの間、核酸分子の第1の末端からのシーケンスリードは、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、少なくとも75、少なくとも80、少なくとも85、少なくとも90、少なくとも95、少なくとも100、少なくとも105、少なくとも110、少なくとも115、少なくとも120、少なくとも125、少なくとも130、少なくとも135、少なくとも140、少なくとも145、少なくとも150、少なくとも155、少なくとも160、少なくとも165、少なくとも170、少なくとも175、または少なくとも180の連続したヌクレオチドを含み得る。核酸分子の第1の末端からのシーケンスリードは、多くて24、多くて28、多くて32、多くて38、多くて42、多くて48、多くて52、多くて58、多くて62、多くて68、多くて72、多くて78、多くて82、多くて88、多くて92、多くて98、多くて102、多くて108、多くて122、多くて128、多くて132、多くて138、多くて142、多くて148、多くて152、多くて158、多くて162、多くて168、多くて172、または多くて180の連続したヌクレオチドを含み得る。核酸分子の第1の末端からのシーケンスリードは、約20、約25、約30、約35、約40、約45、約50、約55、約60、約65、約70、約75、約80、約85、約90、約95、約100、約105、約110、約105、約120、約125、約130、約135、約140、約145、約150、約155、約160、約165、約170、約175、または約180の連続するヌクレオチドを含み得る。核酸分子の第2の末端からのシーケンスリードは、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、少なくとも75、少なくとも80、少なくとも85、少なくとも90、少なくとも95、少なくとも100、少なくとも105、少なくとも110、少なくとも105、少なくとも120、少なくとも125、少なくとも130、少なくとも135、少なくとも140、少なくとも145、少なくとも150、少なくとも155、少なくとも160、少なくとも165、少なくとも170、少なくとも175、または少なくとも180の連続したヌクレオチドを含み得る。核酸分子の第2の末端からのシーケンスリードは、多くて24、多くて28、多くて32、多くて38、多くて42、多くて48、多くて52、多くて58、多くて62、多くて68、多くて72、多くて78、多くて82、多くて88、多くて92、多くて98、多くて102、多くて108、多くて122、多くて128、多くて132、多くて138、多くて142、多くて148、多くて152、多くて158、多くて162、多くて168、多くて172、または多くて180の連続したヌクレオチドを含み得る。核酸分子の第2の末端からのシーケンスリードは、約20、約25、約30、約35、約40、約45、約50、約55、約60、約65、約70、約75、約80、約85、約90、約95、約100、約105、約110、約105、約120、約125、約130、約135、約140、約145、約150、約155、約160、約165、約170、約175、または約180の連続するヌクレオチドを含み得る。あるケースでは、核酸分子の第1の末端からのシーケンスリードは、少なくとも75の連続したヌクレオチドを含み得る。あるケースでは、核酸分子の第2の末端からのシーケンスリードは、少なくとも75の連続したヌクレオチドを含み得る。核酸分子の第1の末端および第2の末端からのシーケンスリードは、同じ長さまたは異なる長さであり得る。生物学的サンプルからの複数の核酸分子からのシーケンスリードは、同じ長さまたは異なる長さであり得る。
本明細書で提供される方法における配列決定は、様々なシーケンス深度で実施することができる。シーケンス深度とは、遺伝子座にアラインされたシーケンスリードによって遺伝子座がカバーされる回数を指すことができる。遺伝子座は、ヌクレオチドと同程度な小ささ、染色体の腕と同程度な大きさ、またはゲノム全体と同程度な大きさであり得る。本明細書で提供される方法におけるシーケンス深度は、50倍、100倍などであり得、ここで、「x」の前の数は、遺伝子座がシーケンスリードによってカバーされる回数を指す。シーケンス深度は、複数の遺伝子座またはゲノム全体に適用することもでき、この場合、xは、遺伝子座または半数体(ハプロイド)ゲノムもしくはゲノム全体がそれぞれ配列決定される平均回数を指す。あるケースでは、ウルトラディープ配列決定は、本明細書に記載の方法で実施され、これは、少なくとも100倍のシーケンス深度で実施できることを指す。
配列決定プロセス(例えば、シーケンス深度)中に核酸内の特定のヌクレオチドが読み取られる回数または平均回数は、配列決定される核酸の長さよりも数倍大きくなり得る。ある例では、シーケンス深度が核酸の長さよりも十分に大きい(例えば、少なくとも5倍)場合、配列決定は「ディープ配列決定」と呼ぶことができる。ある例では、シーケンス深度は、配列決定される核酸の長さよりも平均して、少なくとも約5倍、少なくとも約10倍、少なくとも約20倍、少なくとも約30倍、少なくとも約40倍、少なくとも約50倍、少なくとも約60倍、少なくとも約70倍、少なくとも約80倍、少なくとも約90倍、少なくとも約100倍大きくなり得る。ある例では、サンプルは特定の分析物(例えば、核酸フラグメント、または癌特異的核酸フラグメント)について濃縮することができる。
本明細書で提供される方法において生成されるシーケンスリード(または配列決定リード)は、核酸分子の任意の部分またはすべてから配列決定されたヌクレオチドのストリングを指すことができる。例えば、シーケンスリードは、核酸フラグメントに相補的なヌクレオチドの短いストリング(例えば、20~150)、核酸フラグメントの末端に相補的なヌクレオチドのストリング、または生物学的サンプル中に存在する全ての核酸フラグメントに相補的なヌクレオチドのストリングを指すことができる。シーケンスリードは、様々な方法、例えば配列決定技術を用いて取得することができる。
量/検出可能性
前記方法およびシステムにおいて用いることができる無細胞核酸分子の特性の1つは、病原体からの無細胞核酸分子の量(例えば、コピー数またはパーセンテージ)である。本開示のある態様は、被験者由来の生物学的サンプル中の病原体からの無細胞核酸分子の量(例えば、コピー数またはパーセンテージ)の評価に基づく、被験者が病原体関連障害を発症するリスクの層別化に関する。
生物学的サンプル中の核酸分子のコピー数は、核酸分子の検出可能性に関連し得る。特定のアッセイ法を考慮すると、核酸テンプレートの検出可能性は、テンプレート分子のコピー数と相関することができ、例えば、アッセイ法の検出下限を下回るコピー数は検出不可能となり得るが、アッセイ法の検出下限以上は「検出可能」と定義できる。例えば、定量的ポリメラーゼ連鎖反応(qPCR)法には通常、テンプレート分子のシグナルをバックグラウンドノイズと区別することはできない検出限界を有し得る。したがって、あるケースでは、本明細書で提供される方法およびシステムは、生物学的サンプル中の無細胞核酸分子の検出可能性に直接依存し、これは、生物学的サンプル中のそれらのコピー数と相関し得る。あるケースでは、生物学的サンプル中の無細胞核酸分子のコピー数は直接測定される。他のケースでは、コピー数は、無細胞核酸分子自体の検出を介して暗黙的に測定または推測される。
ポリメラーゼ連鎖反応(PCR)または定量的PCR(qPCR)などの検出アッセイを実施して、生物学的サンプル中の病原体からの無細胞核酸分子の有無またはコピー数を評価できる。プローブは、病原体固有のゲノム領域、たとえば、EBV固有のゲノムDNA配列、ヒトパピローマウィルス(HPV)固有のゲノムDNA配列、またはB型肝炎ウィルス(HBV)固有のゲノムDNA配列をターゲットにするように設計できる。
実施例および実施形態が本明細書に提供されているが、例えば、コピー数およびNPCに関連する追加の技術および実施形態は、2011年11月30日に出願されたPCT AU/2011/001562において見出すことができ、これは参照によりその全体が本明細書に組み込まれる。NPCはEBV感染症と密接に関連し得る。中国南部では、EBVゲノムはほとんどすべてのNPC患者の腫瘍組織に見ることができる。NPC組織に由来する血漿EBV DNAが、NPCの腫瘍マーカーとして開発された(Lo et al. Cancer Res1999;59:1188-1191)。特に、リアルタイムqPCRアッセイは、EBVゲノムのBamHI-Wフラグメントをターゲットとする血漿EBV DNA分析に使用できる。各EBVゲノム5にはBamHI-Wフラグメントが約6~12回繰り返され、各NPC腫瘍細胞には約50のEBVゲノムが存在し得る(Longnecker et al. Fields Virology, 5th Edition Chapter 61“Epstein-Barr virus”; Tierney et al. JVirol. 2011; 85:12362-12375)。言い換えれば、各NPC腫瘍細胞には、PCRターゲットの約300~600ほど(例えば、約500)のコピーが存在し得る。腫瘍細胞あたりのこの多数のターゲットは、なぜ血漿EBV DNAが初期のNPCの検出において高感度のマーカーであるかという理由を説明することができる。NPC細胞は、EBV DNAのフラグメントを被験者の血流内に沈着させることができる。この腫瘍マーカーは、NPCのモニタリング(Lo et al. Cancer Res 1999;59:5452-5455)および予後診断(Lo et al. Cancer Res 2000;60:6878-6881)に有用である。
qPCRアッセイはまた、サンプル中のHPV、HBVまたは任意の他のウィルスDNAの量を測定するために、EBVについて本明細書に記載されるものと同様の方法で使用することもできる。かかる分析は、子宮頸癌(CC)、頭頸部扁平上皮癌(HNSCC)、肝硬変または肝細胞癌(HCC)のスクリーニングに特に有用である。1つの例では、qPCRアッセイは、HPVゲノムの多型L1領域内の領域(例えば、200ヌクレオチド)をターゲットとする。より具体的には、本明細書で企図されるのは、L1領域における1つ以上の超可変表面ループをコードする配列に選択的にハイブリダイズするqPCRプライマーの使用である。
あるいは、病原体からの無細胞核酸分子は、配列決定技術を使用して検出および定量化することができる。例えば、cfDNAフラグメントを配列決定し、HPV参照ゲノムにアラインメントして定量化することができる。または、他の例では、cfDNAフラグメントのシーケンスリードをEBVまたはHBVの参照ゲノムにアラインメントして定量化する。
本明細書で提供されるアッセイによって測定される、病原体からの無細胞核酸分子の検出可能性またはコピー数は、被験者が病原体関連障害を発症するリスクを示し得る。ある例では、病原体からの無細胞核酸分子のコピー数が多いほど、被験者が病原体関連障害を発症するリスクが高くなる傾向にある。ある例では、1つの特定の時点または複数の時点にわたる1つ以上のアッセイを通した病原体からの無細胞核酸分子の検出可能性は、被験者が病原体関連障害を発症するリスクを示している。被験者由来の生物学的サンプル中の病原体からの無細胞核分子が本明細書で提供されるアッセイによって検出できない場合と比較して検出可能である場合、被験者は病原体関連障害についてより高いリスクである傾向にある。マルチステップ検出アッセイは、上述したようなタイミングで実施することができる。
本開示のある例では、生物学的サンプル中の無細胞病原体核酸分子を検出するために2段階アッセイが実施される。あるケースでは、2段階アッセイの第1のテストが実施され、その後、第1の時点でのアッセイ結果に応じて、2段階アッセイの第2のテストが実施されるか、または実施されない。例として、第1のテストが陽性の結果であった場合、例えば、無細胞病原体核酸分子が第1の生物学的サンプルで検出される場合、2段階検出アッセイの第2のテストを実施することができ;第1のテストが陰性の結果であった場合、第2のテストは実施されない場合がある。他のケースでは、第1のテストに関係なく第2のテストが実施される。ある例では、2段階検出アッセイの両方のテストで陽性の結果が得られた場合は持続的に陽性と称され、第1のまたは第2のテストのみで陽性の結果が得られた場合は一時的に陽性と称される。1つの例示的な例において、「陽性」アッセイ結果は、「陰性」アッセイ結果と比較して、被験者が病原体関連障害、例えば、EBV関連NPCを発症するリスクが高いことを示し、一方、「持続的に陽性」アッセイ結果は、「一時的に陽性」のアッセイ結果と比較してリスクが高いことを示す。ある例示的な例において、一時的に陽性の結果である場合と比較して、第1の時点で実施された2段階検出アッセイから永続的な陽性の結果が得られる場合は、第1の時点と第2の時点との間により長い間隔を設定することができる。例えば、EBV関連NPCスクリーニングにおいて、第1の2段階検出アッセイから持続的に陽性の結果が得られた場合、第1の検出アッセイから約1年以内に追跡的に第2のスクリーニングアッセイを実施することが勧められ得る。対照的に、第1の2段階検出アッセイから一時的に陽性の結果が得られた場合、第1の検出アッセイから約2年以内に追跡的に第2のスクリーニングアッセイを実施し得る。陰性の結果が得られた場合、追跡的なスクリーニングアッセイについて4年またはそれ以上の間隔を置くことができる。あるケースでは、リスクが高いことを示す先行する陽性の結果が、リスクが低いことを示す後続の結果によって破棄されるであろう間隔の選択を上書きすることができる。例えば、1年目には永続的な陽性の結果が得られ、その後4年の間、実施された追跡的なアッセイから得られた結果に関係なく、被験者は次の4年間毎年追跡されることになる。例示的な例が図2に与えられ、実施例2でより詳細に説明されている。検出アッセイと同様に、病原体からの無細胞核酸分子の他の特性に基づくリスク評価は、この例示的または同様のスクリーニングレジメンに従うこともできる。
アッセイの第2のテストは、第1のアッセイの数時間、数日、または数週間後に実施することができる。1つの例では、第2のアッセイは、第1のアッセイの直後に実施することができる。他のケースでは、第2のアッセイは、第1のアッセイから1日、2日、3日、4日、5日、6日、1週間、2週間、3週間、4週間、5週間、6週間、7週間、8週間、3ヶ月、4ヶ月、5ヶ月、6ヶ月、1年以内、または1年以上後に実施できる。特定の例では、第2のアッセイは、第1のサンプルから2週間以内に実施することができる。一般に、アッセイの第2のテストは、病原体関連障害、例えば腫瘍が患者において検出され得る特異性を改善するために使用され得る。第1のテストを実施してから第2のテストを実施するまでの時間は実験的に決定できる。ある実施形態では、方法は2つ以上のテストを含むことができ、両テストは同じサンプルを用いる(例えば、単一のサンプルは第1のアッセイを実施する前に被験者、例えば患者から得られ、第2のアッセイを実施するまでの期間保存される)。例えば、被験者から同時に2本の血液チューブを取得することができる。第1のチューブは、第1のテストに用いることができる。第2のチューブは、被験者からの第1のテストの結果が陽性である場合にのみ、用いることができる。サンプルは、当業者に知られている任意の方法を用いて(例えば、極低温で)保存することができる。この保存は、特定の状況で有益であり得、例えば被験者が陽性の検査結果を受け取ることができ(例えば、第1のアッセイが癌を示している)、該患者が第2のアッセイを実施するまで待つことができず、むしろセカンドオピニオンを求める場合である。
メチル化状態
本開示のある態様は、被験者由来の生物学的サンプル中の病原体からの無細胞核酸分子のメチル化状態の評価に基づく、被験者が病原体関連障害を発症するリスクの層別化に関する。
細胞病原体核酸分子のメチル化は、病原体関連障害(例えば、EBV関連NPCまたはHPV関連子宮頸癌)を有する患者および該障害のない被験者(例えば、非NPC被験者)からのサンプルを識別することができる。例えば、NPCに関連する血漿EBV DNAのメチル化状態は、米国特許出願第16/046,795号に示されるように、非NPC被験者において検出された血漿EBV DNAのメチル化状態とは異なり得、これは参照によりその全体が本明細書に組み込まれる。バイサルファイトシーケンシングで分析すると、NPC患者由来と検出可能なEBV DNAを持つ非NPC被験者由来との血漿DNA間にメチル化が異なる領域が存在し得る。結果として、これらの異なるメチル化領域でのメチル化状態の分析が、NPCおよび非NPC被験者を識別することができる。本明細書に記載されるように、NPC関連EBV DNAメチル化状態は、NPC発症のリスクを予測することもでき、NPCスクリーニングの間隔を調整するために用いることができる。例えば、NPC関連EBV DNAメチル化パターンのある被験者は、NPC関連EBV DNAメチル化パターンのない被験者と比較してより頻繁にスクリーニングされ得る。あるケースでは、バイサルファイトシーケンシングの代わりに、例えばPacific Biosciences(Kelleher et al. Methods Mol Biol. 2018;1681:127-137; Powers et al. BMC Genomics. 2013;14:675)およびOxford Nanopore(Simpson et al. Nat Methods. 2017;14:407-10)などの一分子シーケンシングシステム、ならびに配列決定前のメチル化感受性制限酵素処理を用いて、別のタイプのメチル化認識配列決定を実行できる。さらに別のケースでは、メチル化を認識し、配列決定に基づかない分子アプローチ、例えば、メチル化特異的PCR(Herman et al. Proc Natl Acad Sci U S A. 1996;93:9821-6)、メチル化感受性酵素(例えば制限酵素)およびバイサルファイト変換に基づく検出システムと、それに続く質量分析(van den Boom et al. Methods Mol Biol. 2009;507:207-27; Nygren et al. Clin Chem. 2010; 56:1627-35)、ならびにメチル化状態またはメチル化結合タンパク質(Zhang et al. Nat Commun. 2013; 4:1517)に基づくDNA分子の示差沈殿(例えば、抗メチル化シトシン抗体を使用する)に基づくアプローチ(Shen et al. Nature. 2018; 563:579-83; Zhou et al. PLoS One. 2018; 13:e0201586)を使用することができる。
あるケースでは、無細胞病原体核酸分子、例えば血漿EBV DNAのメチル化パターンを、病原体関連障害、例えばNPCなどの病原体関連癌の検出、または臨床的に検出可能な障害を有する将来のリスクの予測に対して用いることができる。上述したように、1つのアプローチは、バイサルファイトを使用して、非メチル化シトシンをウラシルに変換するために核酸分子を処理することである。メチル化されたシトシンは、バイサルファイトによって変化せずシトシンのままである。バイサルファイト処理された核酸分子のその後の検査、例えば配列決定が採用され、生物学的サンプル中の核酸分子のメチル化状態を検出することができる。
1つの例では、血漿EBV DNAのメチル化レベルの差異は、メチル化感受性制限酵素分析を用いて決定される。メチル化感受性制限酵素の非限定的な例の1つは、非メチル化「CCGG」モチーフを持つ分子を切断できるが、「CCGG」なしまたはメチル化「CCGG」ありの分子を変更しないHpaIIである。あるいはまたはさらに、他のメチル化感受性制限酵素を用いることができる。1つの例では、非癌被験者の血漿EBV DNAのメチル化レベルが低いため、非癌被験者の該血漿EBV DNAは、メチル化感受性制限酵素による切断に対してより感受性があり得る。酵素消化による影響の受けやすさは、例えばこれらに限定されないが、超並列シーケンシング(massively parallel sequencing)、ゲル電気泳動、キャピラリー電気泳動、ポリメラーゼ連鎖反応(PCR)、およびリアルタイムPCRにより決定することができる。
超並列シーケンシングなどの配列決定を用いて、メチル化感受性制限酵素による消化の程度を分析する場合、酵素消化の有無にかかわらず、病原体の無細胞核酸分子、例えば血漿EBV DNAのサイズ分布は、消化の程度を反映するために用いることができる。図12および図13に示されるように、サイズ分布曲線の左へのシフトは、血漿EBV DNAのサイズ分布の短縮を示し得る。曲線が左にシフトするほど、酵素消化の程度が高くなり、DNAのメチル化レベルがより低くなることを意味する。
本明細書に記載の無細胞病原体核酸分子のメチル化状態は、個々のメチル化サイトに対するメチル化密度、病原体のゲノム上の隣接領域にわたるメチル化/非メチル化サイトの分布、病原体のゲノム上の1つ以上の特定の領域内、または病原体の全ゲノムにわたる個々のメチル化さいとごとのメチル化のパターンまたはレベル、および非CpGメチル化を含み得る。あるケースでは、メチル化状態は、個々の識別されたメチル化サイトのメチル化レベル(またはメチル化密度)を含み、これは例えば、病原体関連障害(EBV関連NPCまたはHPV関連子宮頸癌など)を有する患者からのサンプルと障害なしの被験者(例えば、非NPC被験者)との間で同定できる。メチル化密度は、所与のメチル化サイトについて、かかるメチル化サイトを含む目的の核酸分子の総数に対する、所与のメチル化サイトにてメチル化された核酸分子のフラクションを指し得る。例えば、肝臓組織の第1のメチル化サイトのメチル化密度は、肝臓DNA分子全体に対する第1のサイトでメチル化された肝臓DNA分子のフラクションを指し得る。あるケースでは、メチル化状態は、個々のメチル化サイト間のメチル化/非メチル化状態のコヒーレンス(パターンやハプロタイプなど)を含む。
あるケースでは、本明細書に記載のスクリーニングアッセイ(例えば、第1のアッセイまたは第2のアッセイ)は、利用可能な任意の技術、例えばこれに限定されないが、メチル化認識配列決定、メチル化感受性増幅またはメチル化感受性沈殿の実施による無細胞核酸分子のメチル化状態の決定を含み得る。実施例および実施形態が本明細書に提供されているが、例えば、メチル化状態の決定に関連する追加の技術および実施形態は、2013年9月20日に出願されたPCTAU/2013/001088に見出すことができ、参照により全体的に本明細書に組み込まれる。
フラグメントサイズ
本開示のある態様は、被験者由来の生物学的サンプル中の病原体からの無細胞核酸分子のフラグメントサイズの評価に基づく、被験者が病原体関連障害を発症するリスクの層別化に関する。
無細胞病原体核酸分子のフラグメントサイズ分布および/または相対的存在量は、病原体関連障害(例えば、EBV関連NPCまたはHPV関連子宮頸癌)を有する患者および該障害のない被験者(例えば、非NPC被験者)からのサンプルを識別することができる。例えば、血漿EBV DNA分子のサイズ分布およびEBVゲノムおよびヒトゲノムへの循環DNA分子マッピングの比率は、参照によりその全体が本明細書に組み込まれるLam et al. Proc Natl Acad Sci U S A. 2018;115:E5115-E5124において大規模並列シーケンスを使用して示されているように、NPC患者と検出可能な血漿EBV DNAを持つ非NPC被験者とを識別するのに有用であり得る。本開示のある例によれば、NPC関連のサイズ分布およびEBVおよびヒトゲノムへの循環DNAマッピングの相対的存在量はまた、将来の臨床的に検出可能なNPCを発症するリスクの予測に有用であり得る。1つの実装において、血漿DNA配列決定に関するこれらNPC関連の特徴を有するが検出可能なNPCを有さない被験者は、検出可能な血漿EBV DNAを有するがこれらNPC関連の特徴を有さない対象よりも頻繁に追跡することができる。NPCのリスクを層別化するために上記の2段階アッセイを用いるよりも、この配列決定ベースの分析を用いることの潜在的な実用上の1つの利点は、患者からの別の血液サンプルの収集を省略できることである。
あるケースでは、アッセイ(例えば、第1のアッセイまたは第2のアッセイ)は、核酸フラグメントサイズ、例えば血漿EBV DNAのフラグメントサイズを分析するために、アッセイ、例えば次世代配列決定アッセイを実施することを含み得る。あるケースでは、配列決定を用いて、サンプル中の無細胞ウィルス核酸のサイズを評価する。例えば、配列決定された各血漿DNA分子のサイズは、配列の開始座標と終了座標から導き出すことができ、座標は、シーケンスリードをウィルスゲノムにマッピング(アライン)することによって決定することができる。様々な例において、DNA分子の開始および終了座標は、一分子シーケンシングにおいて達成され得るように、2つのペアエンドリードまたは両端をカバーする単一のリードから決定され得る。あるケースでは、増幅またはハイブリダイゼーションベースの方法をフラグメントサイズ分析に用いることもできる。例えば、プローブは、様々な長さのゲノム領域をターゲットとするように設計することができ、増幅(例えば、PCRもしくはqPCR)またはハイブリダイゼーションシグナルは、ターゲット領域よりも同等以上の長さを有しながら、ターゲットゲノム領域における無細胞核酸フラグメントの数を示すことができる。したがって、フラグメントサイズの分布を推定することができる。フラグメントサイズのアッセイおよび分析の方法は、米国特許公開番号US20180208999A1に記載されているものを含むことができ、これらは参照によりその全体が本明細書に組み込まれる。
フラグメントサイズ分布は、横軸に核酸フラグメントのサイズを備えるヒストグラムとして表示できる。各サイズ(例えば、1bpの解像度内)での核酸フラグメントの数を決定し、例えば、生の数または頻度のパーセンテージとして縦軸にプロットすることができる。サイズの解像度は1bpを超える場合がある(たとえば、2、3、4、または5bpの解像度)。以下のサイズ分布の分析(サイズプロファイルとも呼ばれる)は、NPC被験者からの無細胞混合物中のウィルスDNAフラグメントが、観察可能な病理の無い被験者よりも統計的に長いことを示す。1つの例示的な例では、血漿EBV DNA分析から得られたフラグメントサイズ分布曲線において、NPC患者の血漿EBV DNAサイズプロファイルに特徴的な166bpのピーク(ヌクレオソームパターン)があり得、一方、非癌被験者からの血漿EBV DNAは典型的なヌクレオソームパターンを示さない。
あるケースでは、リスクを評価するために、被験者からの無細胞核酸分子と比較した病原体からの無細胞核酸分子の相対的な存在量が計算される。あるケースでは、相対的な存在量がサイズ比の観点から分析される。様々な例では、被験者からの病原体フラグメント対無細胞フラグメントのサイズ比は、病原体からの無細胞核酸フラグメントと被験者からの無細胞核酸フラグメントとの間の量比を指す。例えば、例えば、80から110塩基対の間のEBV DNAフラグメントのサイズ比は、以下となり得る:
Figure 2022527316000002
様々なケースでは、評価のためにカットオフ値または閾値が設定される。例えば、病原体フラグメントと被験者の常染色体フラグメントとの間のサイズ比を決定するためのサイズ閾値があり得る。あるいは、あるケースでは、閾値を下回るまたは上回るサイズを有するいくつかのフラグメントが、被験者が病原体関連障害を発症するリスクの標示であると見なされるように、サイズ閾値が設定される。サイズ閾値は任意の値にすることができることを理解されるべきである。サイズ閾値は、少なくとも約10bp、20bp、25bp、30bp、35bp、40bp、45bp、50bp、55bp、60bp、65bp、70bp、75bp、80bp、85bp、90bp、95bp、100bp、105bp、110bp、115bp、120bp、125bp、130bp、135bp、140bp、145bp、150bp、155bp、160bp、165bp、170bp、175bp、180bp、185bp、190bp、195bp、200bp、210bp、220bp、230bp、240bp、250bp、または250bp以上であってもよい。例えば、サイズ閾値は150bpにすることができる。別の例では、サイズ閾値は180bpにすることができる。ある実施形態では、上限および下限のサイズ閾値を使用することができる(例えば、値の範囲)。ある実施形態では、上限および下限のサイズ閾値を使用して、上限および下限のカットオフ値の間の長さを有する核酸フラグメントを選択することができる。ある実施形態では、上限および下限のカットオフを使用して、上限カットオフ値よりも長く、下限サイズ閾値よりも短い長さを有する核酸フラグメントを選択することができる。あるケースでは、サイズ比のカットオフ値を使用して、被験者にリスクがあるかどうか、または被験者が病原体関連障害、例えばNPCを発症するリスクがどの程度あるかを決定する。例えば、NPCを有する被験者は、血漿EBV DNAの偽陽性の結果が得られた被験者よりも、80~110bpのサイズ範囲内で低いサイズ比を有する。あるケースでは、サイズ比のカットオフ値は、約0.1、約0.5、約1、約2、約3、約4、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約25、約50、約100、または約100より大きくなることができる。あるケースでは、サイズ指数のカットオフ値は、約または少なくとも10、約または少なくとも2、約または少なくとも1、約または少なくとも0.5、約または少なくとも0.333、約または少なくとも0.25、約または少なくとも0.2、約または少なくとも0.167、約または少なくとも0.143、約または少なくとも0.125、約または少なくとも0.111、約または少なくとも0.1、約または少なくとも0.091、約または少なくとも0.083、約または少なくとも0.077、約または少なくとも0.071、約または少なくとも0.067、約または少なくとも0.063、約または少なくとも0.059、約または少なくとも0.056、約または少なくとも0.053、約または少なくとも0.05、約または少なくとも0.04、約または少なくとも0.02、約または少なくとも0.001、または約0.001未満となることができる。
核酸フラグメントのサイズ分布の様々な統計値を決定することができる。例えば、サイズ分布の代表値、最頻値、中央値または平均値を使用できる。他の統計値、例えば所与のサイズの累積頻度、または様々なサイズの核酸フラグメントの量の様々な比率を使用することができる。累積頻度は、所与のサイズの、所与のサイズ未満、または所与のサイズよりも大きいDNAフラグメントの割合(例えば、パーセンテージ)に対応し得る。統計値は、病原体に起因する病理のレベルを決定するための1つ以上のカットオフと比較するための核酸フラグメントのサイズの分布に関する情報を提供する。カットオフは、健康な被験者、1つ以上の病理を有することが知られている被験者、病原体に関連する病理の偽陽性である被験者、および本明細書に記載の他の被験者のコホートを用いて決定することができる。当業者は、本明細書の記載に基づいてかかるカットオフを決定する方法を知るであろう。
ある例では、病原体フラグメントのサイズの第1の統計値を、ヒトゲノムからのサイズの参照統計値と比較することができる。例えば、分離値(separation value)(例えば、差または比率)は、第1の統計値と、例えば、病原体参照ゲノムの他の領域から決定されるか、またはヒト核酸から決定される参照統計値との間で決定され得る。分離値は他の値からも決定できる。例えば、参照値は、複数の領域の統計値から決定することができる。分離値をサイズ閾値と比較して、サイズ分類(たとえば、DNAフラグメントが正常領域と比べて短いか、長いかまたは同じか)を取得できる。
ある例では、以下の式を用いて、参照病原体ゲノムと参照ヒトゲノムとの間の短いDNAフラグメントの比率の差として定義できるパラメーター(分離値)を計算できる:
Figure 2022527316000003
他の実施形態では、他のサイズ閾値、例えばこれらに限定されないが100bp、110bp、120bp、130bp、140bp、160bp、および166bpを使用することができる。他の実施形態では、サイズ閾値は、塩基もしくはヌクレオチド、または他の単位で表すことができる。
サイズベースのzスコアは、対照被験者の平均値およびSD値を使用して計算することができる。
Figure 2022527316000004
ある実施形態では、3を超えるサイズベースのzスコアは、病原体の短いフラグメントの割合の増加を示し、一方、3未満のサイズベースのzスコアは、病原体の短いフラグメントの割合の減少を示す。他のサイズ閾値を用いることができる。サイズベースのアプローチのさらなる詳細は、米国特許第8,620,593号および第8,741,811号、ならびに米国特許公開第2013/0237431号に記載されており、これらはそれぞれ、参照によりその全体が組み込まれる。
核酸フラグメントのサイズを決定するために、本開示の少なくともいくつかの例は、染色体起源および分子の長さを分析することができる任意の一分子分析プラットフォームにより機能することができる。そのプラットフォームとは例えば、電気泳動、光学的方法(例えば、光学的マッピングとその変異体、en.wikipedia.org / wiki / Optical_mapping#cite_note-Nanocoding-3、およびJo et al. Proc Natl Acad Sci USA. 2007; 104:2673-2678)、蛍光ベースの方法、プローブベースの方法、デジタルPCR(マイクロフルイディクスベース、またはエマルジョンベース、例えば、BEAMing(Dressman et al. Proc Natl Acad Sci USA. 2003; 100:8817-8822)、RainDance(www.raindancetech .com / technology / pcr-genomics-research.asp))、ローリングサークル増幅、質量分析、融解分析(または融解曲線分析)、モレキュラーシーブなどがある。質量分析の例として、分子が長いほど質量が大きくなる(サイズ値の例)。
1つの例では、核酸分子は、ペアエンドシーケンシングプロトコルを用いてランダムに配列決定することができる。両端の2つのリードは、参照ゲノムにマッピング(アライン)でき、繰り返しマスクすることができる(例えば、ヒトゲノムにアラインした場合)。DNA分子のサイズは、2つのリードのマッピングするゲノム位置間の距離から決定することができる。
変異パターン分析
本開示のある態様は、被験者由来の生物学的サンプル中の病原体からの無細胞核酸分子の変異パターンの評価に基づく、被験者が病原体関連障害を発症するリスクの層別化に関する。生物学的サンプルで検出された病原体ゲノムの遺伝的変異は、病原体関連障害の将来の発症リスクの予測に用いることができる。
病原体核酸分子の変異パターンは、病原体関連障害のない被験者からのサンプルと比較して、病原体関連障害(例えば、病原体関連悪性腫瘍)を有する患者からの病変組織において異なり得る。EBV関連腫瘍と対照サンプル(Palser et al. J Virol. 2015; 89:5222-37)に存在するEBVの株は異なる可能性があることが報告されている。ただし、この以前の研究では、該腫瘍と対照のサンプルは地理的に異なる場所から収集された。EBV変異体の潜在的な地理的変動を考慮すると、腫瘍サンプルにおいて同定された変異体が地理的に関連しているか、または疾患に関連しているかを結論付けることは困難である。NPC腫瘍サンプルの分析を通じてNPC関連EBV変異体を同定する試みが以前になされた。同じ地理的地域からのEBV関連疾患のない個人からのNPC腫瘍および唾液サンプルを分析した1つのゲノムワイドな関連解析(GWAS)(Hui et al. Int J Cancer 2019, doi.org / 10.1002 / ijc.32049)において、0.05に調整されたPを有する偽発見率未満で同定されたのは、29の多型(一塩基多型(SNP)またはインデル)であった。これらの29のNPC関連EBV変異体は、NPC症例の90%を超えて存在することが示されたが、対照症例の40-50%にすぎない。
NPCの発症についての個々のEBV多型の分析(Hui et al. Int J Cancer 2019, doi.org / 10.1002 / ijc.32049; Feng et al. Chin J Cancer 2015; 34:61)とは対照的に、本開示の態様は、ゲノムワイドな方法で変異パターンについて病原体核酸分子を分析するための方法およびシステムを提供する。さらに、腫瘍および細胞株サンプルの分析による疾患関連EBV変異体の同定ではなく(Palser et al. J Virol. 2015; 89:5222-37、Correia et al. J Virol. 2018; 92:e01132-18、Hui et al. Int J Cancer 2019, doi.org / 10.1002 / ijc.32049)、本開示の態様は、血液(例えば、血漿もしくは血清)、鼻洗浄液、鼻ブラシサンプル、または腫瘍の侵襲的生検と比較して非侵襲的もしくは低侵襲的手順を介して得られた他の体液などの無細胞病原体核酸分子を分析することにより、病原体変異パターンを分析するための方法およびシステムを提供する。1つの例示的な例では、血液中のEBV DNA分子の存在量が少なく、断片化された性質が、分析に技術的な課題をもたらし得る。無細胞ウィルスDNA分子の変異パターンを非侵襲的に分析することで、スクリーニング、予測医学、リスク層別化、監視、および予後診断を含む臨床応用を強化できる。1つの例では、該分析を使用して、様々なウィルス関連状態を有する被験者、例えばスクリーニングの文脈においてNPC患者および検出可能な血漿EBV DNAを有する非NPC対象を識別することができる。別の例では、疾患または癌のリスク予測に使用できる。
変異パターンを得るために、異なるアプローチを使用することができる。非限定的なアッセイ法は、超並列シーケンシング(MPS)、サンガーシーケンス(Lorenzetti et al. J Clin Microbiol. 2012; 50:609-18で使用されているものなど)、およびマイクロアレイベースのSNP分析(Wang et al. PNAS 2002; 99:15687-92に記載されているものなど)、ハイブリダイゼーション分析、および質量分光分析を含み得る。1つの例示的な例では、捕捉濃縮、MPSまたはサンガーシーケンシング(Sanger Sequencing)を伴うターゲットシーケンシングなどの配列決定法が使用され、シーケンスリードは、ヌクレオチドごとに病原体の参照ゲノム(例えば、EBV参照ゲノム)を参照して分析される。該方法は、被験者の生物学的サンプルからの無細胞核酸分子のシーケンスリードを取得することを含み得る。該方法は、シーケンスリードを病原体の参照ゲノムにアラインさせることをさらに含み得る。該方法は、病原体の参照ゲノムと病原体の参照ゲノムにマッピングされたシーケンスリードとの間のヌクレオチド変異を分析することによって、病原体の参照ゲノムにわたるヌクレオチド変異パターンを分析することをさらに含み得る。本明細書で提供される変異パターンは、病原体の参照ゲノム上の複数の変異サイトのそれぞれで病原体の参照ゲノムにマッピングされたシーケンスリードのヌクレオチド変異体を特性化することができる。複数の変異サイトは、病原体の参照ゲノムにわたる少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも1100、少なくとも1200のサイトを含むことができる。あるケースでは、複数の変異サイトは、病原体の参照ゲノムにわたる少なくとも1000のサイトを含む。あるケースでは、複数の変異サイトは、病原体の参照ゲノムにわたる少なくとも1100のサイトを含む。あるケースでは、複数の変異サイトは、病原体の参照ゲノムにわたる少なくとも600のサイトを含む。あるケースでは、複数の変異サイトは、病原体の参照ゲノムにわたる少なくとも660のサイトを含む。あるケースでは、複数の変異サイトは、EBV参照ゲノム(AJ507799.2)に関連する表6に記載されるようなゲノムサイトから選択される少なくとも30、40、50、100、150、200、250、300、350、400、450、500、550、または600のサイトを含む。あるケースでは、複数の変異サイトは、EBV参照ゲノム(AJ507799.2)に関連する表6に記載されるようなゲノムサイトを含む。
あるケースでは、病原体からの無細胞核酸分子の変異パターンは、EBV参照ゲノム(AJ507799.2)に関連する表6に記載されるようなゲノムサイトからランダムに選択される複数の変異サイトのそれぞれで、病原体の参照ゲノムにマッピングされたシーケンスリードのヌクレオチド変異体を特徴付ける。あるケースでは、本明細書で提供される方法は、EBV参照ゲノム(AJ507799.2)に関連する表6に記載されるように、ゲノムサイトから複数の変異サイトをランダムに選択するステップを含む。該方法は、病原体の参照ゲノムと病原体の参照ゲノムにマッピングされたシーケンスリードとの間のヌクレオチド変異を分析することによって、ランダムに選択された複数の変異サイトにわたるヌクレオチド変異パターンを分析することをさらに含み得る。
あるケースでは、病原体からの無細胞核酸分子の変異パターンは、EBV参照ゲノム(AJ507799.2)に関連する表6に記載されるようなゲノムサイトからランダムに選択される少なくとも30、40、50、100、150、200、250、300、350、400、450、500、550、または600のサイトを含む複数の変異サイトのそれぞれで、病原体の参照ゲノムにマッピングされたシーケンスリードのヌクレオチド変異体を特徴付ける。
あるケースでは、複数の変異サイトは、病原体の参照ゲノムにマッピングされたシーケンスリードが病原体の参照ゲノムとは異なるヌクレオチド変異体を有するすべてのサイトからなる。
あるケースでは、野生型の病原体ゲノムが参照ゲノムとして用いられる。例えば、ワイドタイプのEBVゲノム(GenBank:AJ507799.2)を参照EBVゲノムとして用いることができる。他のケースでは、他の病原体ゲノムが参照ゲノムとして用いられる。さらに別の例では、複数の病原体ゲノム(例えば、EBVゲノム)が参照として用いられる。さらに別の例では、コンセンサス配列が参照として用いられる。コンセンサスは、異なる病原体ゲノム配列の変異体、例えば、de Jesus et al. J Gen Virol. 2003; 84:1443-50.に記載されているEBVゲノムのコンセンサス配列を組み合わせることによって構築することができる。
例えば、コピー数、メチル化状態、フラグメントサイズ、相対的存在量、または変異パターンの分析のために、本明細書で提供される方法およびシステムで利用される配列アラインメントは、任意の適切なバイオインフォマティクスアルゴリズム、プログラム、ツールキット、またはパッケージによって実施され得る。例えば、明細書で提供される方法およびシステムの適用のためのアラインメントツールとして、短いオリゴヌクレオチド分析パッケージ(SOAP)を使用することができる。本明細書で提供される方法およびシステムで使用できる短いシーケンスリード分析ツールの例として、Arioc、BarraCUDA、BBMap、BFAST、BigBWA、BLASTN、BLAT、Bowtie、Bowtie2、BWA、BWA-PSSM、CASHX、Cloudburst、CUDA-EC、CUSHAW、CUSHAW2、CUSHAW2-GPU、CUSHAW3、drFAST、ELAND、ERNE、GASSST、GEM、Genalice MAP、Geneious Assembler、GensearchNGS、GMAPおよびGSNAP、GNUMAP、HIVE-hexagon、Isaac、LAST、MAQ、mrFAST、mrsFAST、MOM、MOSAIK、MPscan、Novoalign&NovoalignCS、NextGENe、NextGenMap、Omixon Variant Toolkit、PALMapper、 Partek Flow、PASS、PerM、PRIMEX、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTG Investigator、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3、SOAP3-dp、SOCS、SparkBWA、SSAHA、SSAHA2、Stampy、SToRM、Subread、Subjunc、Taipan、UGENE、VelociMapper、XpressAlign、およびZOOMが挙げられる。
シーケンスリード内のいくつかの連続したヌクレオチド(「シーケンスストレッチ」)を用いて、参照ゲノムにアラインメントし、アラインメントに関する呼び出しを行うことができる。例えば、アラインメントは、参照ゲノム、例えば、病原体の参照ゲノム、または宿主生物の参照ゲノムに読み取られた配列の少なくとも4、少なくとも6、少なくとも8、少なくとも10、少なくとも12、少なくとも14、少なくとも16、少なくとも18、少なくとも20、少なくとも22、少なくとも24、少なくとも25、少なくとも26、少なくとも28、少なくとも30、少なくとも32、少なくとも34、少なくとも35、少なくとも36、少なくとも38、少なくとも40、少なくとも42、少なくとも44、少なくとも45、少なくとも46、少なくとも48、少なくとも50、少なくとも52、少なくとも54、少なくとも55、少なくとも56、少なくとも58、少なくとも60、少なくとも62、少なくとも64、少なくとも65、少なくとも66、少なくとも67、少なくとも68、少なくとも69、少なくとも70、少なくとも71、少なくとも72、少なくとも73、少なくとも74、少なくとも75、少なくとも76、少なくとも78、少なくとも80、少なくとも82、少なくとも84、少なくとも85、少なくとも86、少なくとも88、少なくとも90、少なくとも92、少なくとも94、少なくとも95、少なくとも96、少なくとも98、少なくとも100、少なくとも102、少なくとも104、少なくとも106、少なくとも108、少なくとも110、少なくとも112、少なくとも114、少なくとも116、少なくとも118、少なくとも120、少なくとも122、少なくとも124、少なくとも126、少なくとも128、少なくとも130、少なくとも132、少なくとも134、少なくとも136、少なくとも138、少なくとも140、少なくとも142、少なくとも145、少なくとも146、少なくとも148、または少なくとも150の連続したヌクレオチドをアラインすることを含み得る。あるケースでは、本明細書で言及されるようなアラインメントは、参照ゲノム、例えば、病原体の参照ゲノム、または宿主生物の参照ゲノムに読み取られた配列の多くて5、多くて7、多くて9、多くて11、多くて13、多くて15、多くて17、多くて19、多くて21、多くて23、多くて25、多くて27、多くて 29、多くて31、多くて33、多くて37、多くて39、多くて41、多くて43、多くて45、多くて47、多くて49、多くて51、多くて53、多くて55、多くて57、多くて59、多くて61、多くて63、多くて65、多くて67、多くて68、多くて69、多くて70、多くて71、多くて72、多くて 73、多くて74、多くて75、多くて76、多くて78、多くて80、多くて81、多くて83、多くて85、多くて87、多くて89、多くて91、多くて93、多くて95、多くて97、多くて99、多くて101、多くて103、多くて105、多くて107、多くて109、多くて111、多くて113、多くて115、多くて117、多くて119、多くて121、多くて123、多くて125、多くて127、多くて129、多くて131、多くて133、多くて135、多くて137、多くて139、多くて141、多くて143、 多くて145、多くて147、多くて149、または多くて151の連続したヌクレオチドをアラインすることを含み得る。ある例では、本明細書で言及されるようなアラインメントは、参照ゲノム、例えば、病原体の参照ゲノム、または宿主生物の参照ゲノムに読み取られた配列の約20、約22、約24、約25、約26、約28、約30、約32、約34、約35、約36、約38、約40、約42、約44、約45、約46、約48、約50、約52、約54、約55、約56、約58、約60、約62、約64、約65、約66、約67、約68、約69、約70、約71、約72、約73、約74、約75、約76、約78、約80、約82、約84、約85、約86、約88、約90、約92、約94、約95、約96、約98、約100、約102、約104、約106、約108、約110、約112、約114、約116、約118、約120、約122、約124、約126、約128、約130、約132、約134、約136、約138、約140、約142、約145、約146、約148、約150、約152、約154、約155、約156、約158、約160、約162、約164、約165、約166、約168、約170、約172、約174、約175、約176、約178、約180、約185、約190、約195、または約200の連続したヌクレオチドをアラインすることを含み得る。
あるケースでは、シーケンスストレッチが、シーケンスリード全体にわたる参照ゲノムの特定の領域、例えば、ヒト参照ゲノムに対する配列の同一性または相補性を少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、少なくとも98%、99%、または100%有するときに、アラインメントが呼び出される。あるケースでは、シーケンスストレッチが、シーケンスリード全体にわたる参照ゲノムの特定の領域、例えば、ヒト参照ゲノムに対する配列の同一性または相補性を少なくとも80%有するときに、アラインメントが呼び出される。あるケースでは、シーケンスストレッチが、参照ゲノムの特定の領域、例えば、ヒト参照ゲノムに対する配列の同一または相補的であり、かつミスマッチがわずか20、15、10、9、8、7、6、5、4、3、2塩基に過ぎない、または1塩基、またはミスマッチがゼロであるときに、アラインメントが呼び出される。あるケースでは、シーケンスストレッチが、参照ゲノムの特定の領域、例えば、ヒト参照ゲノムに対する配列の同一または相補的であり、かつミスマッチがわずか2塩基に過ぎないときに、アラインメントが呼び出される。最大のミスマッチの数もしくはパーセンテージ、または最小の類似性の数もしくはパーセンテージは、本明細書で提供される方法およびシステムの適用の目的および文脈に応じて、選択基準として変化し得る。
あるケースでは、病原体の参照ゲノムへのシーケンスリードのアラインメントにより、最大のミスマッチをわずか20、15、10、9、8、7、6、5、4、3、2、または1塩基にすることが可能となる。マッピングされたシーケンスリードと病原体の参照ゲノムとのミスマッチは、生物学的サンプルに存在する病原体ゲノム配列のヌクレオチド変異体を示すことができ、他の場合には、シーケンシングエラーを示すこともできる。特定の理論に縛られることを望むことなく、1つの生物学的サンプルにおいて所与のゲノムサイトで2以上のヌクレオチド変異体が同定されるのは、無細胞病原体核酸分子が由来する疾患細胞の配列決定エラーまたは不均一性が原因である可能性がある。あるケースでは、所与の生物学的サンプル中で1、2または3を超えるヌクレオチド変異体が同定された場合、ゲノムサイトのヌクレオチド変異体は分析から除外される。
例示的な例では、捕捉濃縮を伴うターゲットシーケンシングを用いて、NPC被験者および検出可能な血漿EBV DNAを有する非NPC被験者の循環中の無細胞ウィルスDNA分子を分析する。捕捉プローブは、EBVゲノム全体をカバーするように設計できる。他のケースでは、EBVゲノムの一部のみを分析でき、捕捉プローブは、EBVゲノムの一部のみをカバーするように設計される。同じ分析において、捕捉プローブを含めて、ヒトゲノムの対象ゲノム領域をターゲットにすることもできる。例えば、ヒト共通一塩基多型(SNP)サイトおよびヒト白血球抗原(HLA)SNPをターゲットとするプローブを含めることができる。1つの実施形態では、他のウィルスゲノム配列、例えばHPVまたはHBVゲノムにハイブリダイズするように、より多くのプローブを設計することができる。
あるケースでは、病原体ゲノムの変異パターンは、参照ゲノムにマッピングされたシーケンスリードと参照ゲノムとを直接比較することによって分析される。これらの分析に利用できるバイオインフォマティクスツールは、MEGA4、MEGA5、CLUSTALW、Phylip、RAxML、BEAST、PhyML、TreeView、MAFFT、MrBayes、BIONJ、MLTreeMap、Newick Utilities、Phylo.io、Phylogeny.fr、REALPHY、SuperTree、ThePhylOgenetic Webリピーターを含み得る。クラスター分析または系統樹分析は、病原体参照ゲノムにマッピングされたシーケンスリードを、病変組織または健康な被験者から得られた、または病原体関連障害を引き起こすことができるまたはできないと示された、または病原体関連障害を引き起こすのに効果的または非効果的であると示された1つ以上の病原体ゲノムと比較する。
例示的な例では、本明細書で提供される方法およびシステムは、ブロックベースの変異パターン分析を含む。ブロックベースの変異パターン分析は、病原体の参照ゲノムを複数のビン(「ブロック」)に分離することを含み得る。病原体参照ゲノムにマッピングされたシーケンスリードは、複数のビンのそれぞれの中の障害関連病原体ゲノムと比較される。あるケースでは、ブロックベースの分析のために比較される少なくとも2、3、4、5、6、7、8、9、10、12、14、16、18、20、22、24、26、28、30、40、50、60、70、80、90、100、120、140、160、180、200、300、400、500、600、700、800、900、または1000などの異なる病原体ゲノムが複数あり、障害関連病原体ゲノム、および任意選択で、病原体関連障害を引き起こすことができない、または効果がないことが知られているかもしくは示されている病原体ゲノム(障害に関係のない病原体ゲノム)を含む。ブロックベースの分析において、複数のビンのそれぞれの中で、病原体参照ゲノムにマッピングされたシーケンスリードと、障害関連または障害非関連の病原体ゲノムのそれぞれとの間の共有ヌクレオチド(shared nucleotide)変異体に基づいて類似性指数が計算される。類似性指数は、病原体参照ゲノムにマッピングされたシーケンスリードの少なくとも1つが、障害関連または障害非関連の病原体ゲノムと同じヌクレオチド変異体を有する変異サイトの割合に依存し得る。シーケンスリードが比較される各病原体ゲノムに対する類似性指数に基づいて、ビンスコアは、例えば、類似性指数によって反映される類似性レベルに基づいて計算することができる。一例では、ビンスコアは、所定のカットオフを超える類似性指数の割合に依存し得る。類似性指数には、例えば、約0.6、0.7、0.75、0.8、0.85、0.9、または0.95のカットオフを設定できる。カットオフを超える類似性指数は、シーケンスリードが、比較対象の病原体ゲノムと「類似」していることを示し得る。上記の分析に基づいて、パターン分析は、計算された類似性指数またはビンスコアを用いて、病原体ゲノムにわたりより大規模にまたは病原体ゲノムの一部で実行できる。上記の分析と同様のクラスター分析または系統発生分析は、EBV関連NPCなどの病原体関連障害の発症リスクを予測するためのブロックベースの分析に従うことができる。
リスクスコア
本開示のある態様は、被験者由来の生物学的サンプル中の病原体からの無細胞核酸分子の1つ以上の特性の組み合わせ的な考察に基づく、被験者が病原体関連障害を発症するリスクの層別化に関する。あるケースでは、被験者が病原体関連障害、例えばEBV関連鼻咽頭癌を発症するリスクを示すリスクスコアが生成される。
あるケースでは、本開示は、被験者由来の生物学的サンプル中の病原体からの無細胞核酸分子の1つ以上の特性、および被験者の年齢、被験者の喫煙習慣、被験者のNPCの家族歴、被験者の遺伝子型要因、食歴、または被験者の民族性の1つ以上の要因の組み合わせ的な考察に基づく、被験者が病原体関連障害を発症するリスクの層別化に関する。臨床的に検出可能なNPCを有さない被験者における血漿EBV DNAの検出の陽性率と、被験者の年齢との間には正の相関関係ができる。被験者の喫煙習慣は、被験者のNPC発症リスクを高め得る。NPCの家族歴がある被験者は、NPCを自身で発症するリスクを高め得る。それぞれその全体が本明細書に組み込まれているBei et al. Nat Genet. 2010; 42:599-603およびHildesheim et al. J Natl Cancer Inst. 2002; 94:1780-9に示されているように、HLAステータスなどの遺伝子型因子もまたNPCのリスクと相関している。さらに、食歴はNPCのリスクと相関し得、例えば、塩漬けの魚を大量に摂取している被験者は、NPCのリスクが比較的高くなり得る。広東人などの特定の民族性もまた、NPCを発症するリスクが高いことに関連し得る。
あるケースでは、方法およびシステムは、被験者が病原体関連障害を発症するリスクを示すレポートを作成することをさらに含む。このようなレポートは、数値のリスクスコア値またはカテゴリ別のリスク評価を有し得る。あるケースでは、レポートは、スクリーニング頻度または追跡スクリーニングアッセイの将来の時点に関する推奨事項を含む。レポートは、被験者や、被験者にサービスを提供する医療機関または医療専門家、または医療保険会社などの任意の関連するサードパーティに提供できる。レポートは、レポートのリリース前またはリリース後に、認定された医師がレビュー、評価または編集できる。あるケースでは、認定された医師がリスク評価について追加のコメントを提供し、または自分の医学的意見や独立した検査に基づいて最終的なリスク評価に貢献する。
あるケースでは、本開示は、分類子を用いることにより、EBV関連NPCなどの病原体関連増殖性障害などの病原体関連障害を発症するリスクを層別化する方法を提供する。そのような分類子は、データ入力として本明細書に記載の1つ以上の要因を取り、リスクスコアを含む出力を提供することができ、これは、被験者が病原体関連障害を発症するリスクを示し得る。分類子に給送可能な1つ以上の要因は、無細胞病原体核酸分子の1つ以上の特性、被験者由来の生物学的サンプル中の病原体からの無細胞核酸分子の1つ以上の特性、ならびに被験者の年齢、被験者の喫煙習慣、被験者のNPCの家族歴、被験者の遺伝子型要因、食歴および被験者の民族性の1つ以上の要因を含み得る。分類子の出力としてのリスクスコアは、病原体関連障害に対して被験者が現在苦しんでいるか、または将来的に発症するかのリスクを示し得る。あるケースでは、リスクスコアは、被験者が現在病原体関連障害に苦しんでいる可能性を示す。あるケースでは、リスクスコアは、被験者が将来の期間内、たとえば、これらに限定されないが1年以内、2年以内、3年以内、4年以内、5年以内、10年以内、または15年以内に病原体関連障害を発症する可能性を示す。あるケースでは、分類子は、追跡スクリーニングアッセイの推奨スクリーニング頻度または将来の時点を含む出力を提供する。かかる出力は、臨床推奨の形式にすることも、または上記のように被験者、医療機関、医療専門家もしくは医療保険会社などのサードパーティにレポートで提供することもできる。
本明細書に記載されたように、分類子は分類を実装する任意のアルゴリズムを指し得る。本開示において、分類子は、病原体関連障害の将来の発症のリスクを予測するための任意の適切なアルゴリズムに基づいて構築された分類モデルであり得る。適切なアルゴリズムは、機械学習アルゴリズム、およびこれらに限定されないが、サポートベクターマシン(SVM)、ナイーブベイズ(Naive Bayes)、ロジスティクス回帰、ランダムフォレスト、ディシジョンツリー、勾配ブースティングツリー、ニューラルネットワーク、ディープラーニング、線形/カーネルSVM、線形/非線形回帰、線形判別分析など他の数学/統計モデルを含み得る。あるケースでは、分類子は、複数の入力-出力ペアを含むラベル付きデータセットでトレーニングされる。例えば、データセットは、NPCを有す、もしくは有さないと診断された多数の被験者のサンプルの分析結果から生成された。これらの例では、該データセットは、これらの被験者からの血漿EBV DNAの特性の1つ以上の要因(例えば、変異パターン、メチル化状態、検出可能性/コピー数、もしくはフラグメントサイズ)、年齢、家族歴、喫煙習慣、民族性、または食歴、さらには対応する被験者がNPCを有しているかどうかを示す対応する出力を含む入力を含み得る。例示的な例では、分類子は、少なくとも10、20、50、100、200、500、1000、2000、5000、10000、または20000ペアなど、多数の入力-出力ペアを含むラベル付きデータセットでトレーニングされ得る。
一例では、分類モデルは、変異パターンの分析を用いて、検出可能な血漿EBV DNAを有する被験者の将来のNPC発症のリスクを予測するために提供される。分類モデルは、サポートベクターマシン(SVM)アルゴリズムを用いて次のように構築された分類子にすることができる:
n個のサンプルを含むトレーニングデータセットが与えられたとき:
(M1, Y1), …, (Mn, Yn)
ここで、YiはサンプルiのNPCステータスを示す。Yiは、NPC患者からのサンプルの場合は1、またはNPCを有さない被験者からのサンプルの場合は-1である;Miは、サンプルiのウィルス変異パターンを含むp次元ベクトルである。例えば、Miは一連の変異サイト(例えば、表6に示すようにNPCに関連した29の変異サイトまたはNPCに関連した661の変異サイト)となり得る。あるいは、Miは、NPCを有することが既知である被験者に存在する参照EBV変異体に関して、一連のブロックベースの変異体類似性スコア(たとえば、500bpの重複しないウィンドウ)となり得る。
以下を満たす係数のセット(p次元ベクトルを有するW)を求めることにより、トレーニングデータセット内で非NPCグループおよびNPCグループを可能な限り正確に分離する「超平面(hyperplane)」を同定できる:
基準1:
W・M-b≧1(NPCグループの被験者について)
および
基準2:
W・M-b≦1(非NPCグループの被験者について)
ここで、Wは、超平面を決定する係数のp次元ベクトルであり;Mは、p個の変異体(またはブロックベースの類似度スコア)およびn個のサンプルを有する行列(p x n次元)であり;bは切片である。
2つの基準(つまり基準1および2)は、次のように記述することもできる:
Yi(W * Mi-b)≧1(基準3)
ここで、Yiは-1(非NPC)または1(NPC)のいずれかである。
基準1と2との間のマージン距離(D)は:
Figure 2022527316000005
Dは、基準3に従って
Figure 2022527316000006
最小化することによって最大化される。
この原理に基づいて、分類子のパラメーター(Wおよびb)を決定できる。したがって、トレーニングされたパラメーター(Wおよびb)を用いて実装された、トレーニングされた分類子を使用して、テストサンプルのNPCリスクスコアを計算できる。
1つの例示的な例では、NPCリスクスコアは、ウィルスゲノムにわたるSNVサイトの固定セットでのEBV遺伝子型の加重和として(バイナリロジスティック回帰モデルの説明変数として)計算される。この例では、トレーニングセット内のNPCサンプルおよび非NPCサンプルからのEBV SNVプロファイルの違いを分析することにより、NPC関連SNVのセットが同定される。EBVゲノムにわたる各変異体とNPC症例との関連は、たとえばフィッシャーの直接確率検定を用いて分析できる。それから、例えば、偽発見率(FDR)を5%に制御して、重要なSNVの固定セットを取得できる。テストサンプルのNPCリスクスコアは、既知のNPCおよび非NPC被験者由来の血漿DNAサンプルからの配列決定データを含むトレーニングセットから同定された重要なSNVサイトのこの特定のセットに対するEBV遺伝子型によって決定できる。あるケースでは、血漿EBV DNA分子の濃度が低くなり得るため、配列決定されたEBV DNAリードによるEBVゲノム全体のカバーが不完全になり得る。スコアは、血漿EBV DNAリードによってカバーされるSNVサイト全体の遺伝子型パターンによって(たとえば、利用可能な遺伝子型情報によって)決定されるように定式化できる。NPCリスクスコアを導き出すために、サンプル内の血漿EBV DNAリードによってカバーされる重要なSNVサイトのサブセットが最初に同定され、次いで、各サイトでの遺伝子型の重み付け(効果サイズ)が、重要なSNVサイトのサブセット内で決定され得る。次のようなロジスティック回帰モデルを構築して、NPCの各SNVサイトでのリスク遺伝子型の効果サイズの情報を与えることができる:
Figure 2022527316000007
これは次のように書き直すことができる:
Figure 2022527316000008
ここで、nは、重要なSNVサイトの数であり;βおよびβは、最尤推定量で決定できる係数であり;Pは、EBV陽性患者がNPCを有する確率であり;変数Xは、ゲノム位置kのSNVサイトを表す。Xは、EBV参照ゲノムと同一のサンプルに変異体が存在する場合、-1としてコード化できる。サンプルに代替変異体が存在する場合、Xは1としてコード化できる。分析された変異サイトがサンプルでカバーされていない場合、Xは0としてコード化できる。したがって、係数βおよびβは、例えば、Pythonの「ロジスティック回帰」関数を用いて推定できる。これは、トレーニングデータセット内のNPCサンプルおよび非NPCサンプルの間の各サイトでの遺伝子型パターンを分析することで実現できる。したがって、テストサンプルのNPCリスクスコアは、トレーニングモデルから推定された対応する係数βおよびβによって重み付けされた、SNVサイトでの独自の遺伝子型に基づいて導き出すことができる。
生物学的サンプル
本明細書で提供される方法で使用される生物学的サンプルは、生きているまたは死んだ対象に由来する任意の組織または材料を含み得る。生物学的サンプルは無細胞サンプルであり得る。生物学的サンプルは、核酸(例えば、DNAまたはRNA)またはそのフラグメントを含み得る。サンプル中の核酸は無細胞核酸であり得る。サンプルは、液体サンプルまたは固体サンプル(例えば、細胞または組織サンプル)であり得る。生物学的サンプルは、血液、血漿、血清、尿、口腔リンス液、鼻洗浄液、鼻ブラシサンプル、膣液、水疱からの液(fluid from a hydrocele)(例えば、精巣)、膣洗浄液、胸膜液、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液(bronchoalveolar lavage fluid)、乳頭からの排出液(discharge fluid from the nipple)、体のさまざまな部分(甲状腺、乳房など)からの吸引液など体液(bodily fluid)であり得る。糞便サンプルも使用できる。様々な例では、無細胞DNA(例えば、遠心分離プロトコルを介して得られた血漿サンプル)が濃縮された生物学的サンプル中のDNAの大部分は、無細胞であり得る(例えば、DNAの50%、60%、70%、80%、90%、95%、または99%を超える部分が無細胞であり得る)。生物学的サンプルは、組織または細胞構造を物理的に破壊するように処理することができ(例えば、遠心分離および/または細胞溶解)、したがって、細胞内成分を、分析用のサンプルを調製するために用いられる酵素、緩衝液、塩、界面活性剤などをさらに含み得る溶液に放出する。
本明細書で提供される方法およびシステムは、生物学的サンプル中の核酸分子を分析するために用いることができる。核酸分子は、細胞性核酸分子、無細胞核酸分子またはその両方であり得る。本明細書で提供される方法により用いられる無細胞核酸は、生物学的サンプル中の細胞の外側の核酸分子であり得る。無細胞核酸分子は、血液、唾液、精液および尿などのさまざまな体液に存在し得る。無細胞DNA分子は、健康状態および/または病気、例えばウィルス感染や腫瘍の成長によって引き起こされ得るさまざまな組織での細胞死により生成され得る。無細胞核酸分子は、病原体統合イベント(pathogen integration events)の結果として生成された配列を含み得る。
本明細書で提供される方法で用いられる無細胞核酸分子、例えば無細胞DNAは、血漿、尿、唾液または血清中に存在することができる。無細胞DNAは、短いフラグメントの形態で自然に発生することができる。無細胞DNAのフラグメント化とは、無細胞DNA分子が生成または放出されるときに、高分子量DNA(細胞の核内のDNAなど)が切断、破壊、または消化されて短いフラグメントになるプロセスを指し得る。本明細書で提供される方法およびシステムは、場合によっては、細胞性核酸分子、例えば、腫瘍組織からの細胞DNA、または患者が白血病、リンパ腫もしくは骨髄腫を有する場合の白血球からの細胞DNAを分析するために使用することができる。腫瘍組織から採取されたサンプルは、本開示のいくつかの例に従って、アッセイおよび分析の対象となり得る。
被験者(対象)
本明細書で提供される方法およびシステムは、被験者、例えば生物、例えば宿主生物からのサンプルを分析するために用いることができる。被験者は、癌患者、癌のリスクのある患者、または癌の家族もしくは個人の癌の病歴を有する患者などの任意のヒト患者であり得る。あるケースでは、被験者は癌治療の特定の段階にある。あるケースでは、被験者は癌を患っている、または癌を患っていると疑われる状態であり得る。あるケースでは、被験者が癌を患っているかどうかは不明である。
あるケースでは、本明細書で提供されるスクリーニングアッセイの結果に応じて、被験者は、病原体関連障害の治療を受けるか、または受けない。一例では、第1のスクリーニングアッセイが、被験者が病原体関連障害を発症するリスクが高いことを示す陽性結果を示すが、該被験者は、後続の診断検査によって病原体関連障害(例えば、EBV関連NPC)を有さないと診断される。この場合、被験者は、医学的治療、例えばこれらに限定されないが、治療薬(例えば、化学療法)、放射線療法、外科手術またはそれらの任意の組み合わせによる治療を受けない。別の例では、被験者は、病原体関連障害(例えば、HPV関連子宮頸癌)を発症するリスクが高いとスクリーニングされ、さらに障害を有すると診断される。結果として、被験者は、障害の医学的治療、例えばこれらに限定されないが、外科手術、化学療法、放射線療法、標的療法、免疫療法、またはそれらの任意の組み合わせなどを受け得る。
本明細書で提供される方法およびシステムを適用できうる病原体関連障害は、増殖性障害、例えば癌を含み得る。障害は、ウィルス、細菌または真菌などの病原体に関連するか、またはそれらによって引き起こされ得る。本明細書に記載の障害に関連し得るウィルスは、EBV、カポジ肉腫関連ヘルペスウィルス(KSHV)、HPV(例えばこれらに限定されないが、HPV16、18、31、33、34、35、39、45、51、52、56、58、59、66、68および70)(Burd et al. Clin Microbiol Rev 2003:16:1-17)、メルケル細胞ポリオーマウィルス(MCPV)、HBV、HCVおよびヒトTリンパ球向性ウィルス-1 (HTLV1)を含み得る。該当する病原体関連癌は、バーキットリンパ腫、ホジキンリンパ腫、免疫抑制関連リンパ腫(immunosuppression-related lymphoma)、T細胞リンパ腫およびNK細胞リンパ腫;EBVに関連し得る鼻咽頭または胃の癌腫を含み得る。該当する病原体関連癌は、KSHVに関連し得る原発性滲出液リンパ腫またはカポジ肉腫を含み得る。該当する病原体関連癌は、頸部癌、頭頸部癌、またはHPVに関連し得る肛門性器管癌を含み得る。該当する病原体関連癌は、MCPVに関連するメルケル細胞癌を含み得る。該当する病原体関連癌は、HBVまたはC型肝炎ウイルス(HCV)に関連し得るHCCを含み得る。該当する病原体関連癌は、HTLV1に関連し得る成人T細胞白血病/リンパ腫を含み得る。
被験者は、任意の種類の癌または腫瘍を有し得、または任意の種類の癌または腫瘍を発症するリスクを有し得る。ある例では、被験者は、鼻咽頭癌または鼻腔の癌を有し得る。別の例では、被験者は、中咽頭癌または口腔癌を有し得る。癌の非限定的な例として、これらに限定されないが、副腎癌、肛門癌、基底細胞癌、胆管癌、膀胱癌、血液癌、骨癌、脳腫瘍、乳癌、気管支癌、心血管系の癌、子宮頸癌、結腸癌、結腸直腸癌、消化器系の癌、内分泌系の癌、子宮内膜癌、食道癌、眼癌、胆嚢癌、消化器腫瘍、肝細胞癌、腎臓癌、造血器悪性腫瘍、喉頭癌、白血病、肝臓癌、肺癌、リンパ腫、黒色腫、中皮腫、筋系癌、骨髄異形成症候群(MDS)、骨髄腫、鼻腔癌、鼻咽頭癌、神経系癌、リンパ系癌、口腔癌、口腔咽頭癌、骨肉腫、卵巣癌、膵臓癌、陰茎癌、下垂体癌、前立腺癌、直腸癌、腎骨盤癌、生殖器系癌、呼吸器系癌、肉腫、唾液腺癌、骨格系癌、皮膚癌、小腸癌、胃癌、精巣癌、喉癌、胸腺癌、甲状腺癌、腫瘍、尿路癌、子宮癌、膣癌、または外陰癌が挙げられる。リンパ腫は、B細胞リンパ腫(例えば、びまん性大細胞型B細胞リンパ腫、濾胞性リンパ腫、小リンパ球性リンパ腫、マントル細胞リンパ腫、辺縁帯B細胞リンパ腫、バーキットリンパ腫、リンパ形質細胞性リンパ腫、有毛細胞白血病、もしくは原発性中枢神経系リンパ腫)、またはT細胞リンパ腫(例えば、前駆Tリンパ芽球性リンパ腫もしくは末梢T細胞リンパ腫)を含む任意の種類のリンパ腫であり得る。白血病は、急性白血病または慢性白血病を含む任意のタイプの白血病であり得る。白血病の種類は、急性骨髄性白血病、慢性骨髄性白血病、急性リンパ性白血病、急性未分化白血病、または慢性リンパ性白血病を含む。あるケースでは、癌患者は特定の種類の癌を有していない。場合によっては、患者は乳癌ではない癌を有し得る。
癌の例として、固形腫瘍を引き起こさない癌のみならず固形腫瘍を引き起こす癌も含む。さらに、本明細書で言及される癌のいずれも、原発性癌(例えば、それが最初に成長し始めた体の部分にちなんで名付けられた癌)、または二次性もしくは転移性癌(例えば、体の別の部分から発生した癌)であり得る。
本明細書に記載のいずれかの方法によって診断された被験者は、任意の年齢であり得、成人、乳児または子供であり得る。あるケースでは、被験者は、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、もしくは99歳、またはその範囲内(例えば、2~20歳、20~40歳もしくは40~90歳)である。恩恵を受けることができる特定のクラスの患者は、40歳以上の患者であり得る。恩恵を受けることができる別の特定のクラスの患者は、小児患者であり得る。さらに、本明細書に記載の方法または組成物のいずれかによって診断された被験者は、男性または女性であり得る。
ある実施態様では、本開示の方法は、被験者における腫瘍または癌を検出することができ、腫瘍または癌は疾患の地理的パターンを有する。ある例では、被験者は、中国南部(例えば、香港SAR)で蔓延しているEBV関連癌(例えば、鼻咽頭癌)を有し得る。別の例では、被験者は、米国および西ヨーロッパで蔓延し得るHPV関連の癌(例えば、中咽頭癌)を有し得る。さらに別の例では、被験者は、日本南部、カリブ海、中央アフリカ、南アメリカの一部、および米国南東部の一部の移民グループに蔓延し得るHTLV-1関連の癌(例えば、成人T細胞白血病/リンパ腫)を有し得る。
本明細書に開示される方法のいずれも、実験動物もしくは農場の動物、または本明細書に開示される生物に由来する細胞サンプルなどの非ヒト対象に対して実施することもできる。非ヒト対象の非限定的な例として、犬、ヤギ、ギニアブタ、ハムスター、マウス、ブタ、非ヒト霊長類(例えば、ゴリラ、類人猿、オランウータン、キツネザル、またはヒヒ)、ラット、羊、牛、またはゼブラフィッシュが挙げられる。
コンピュータシステム
本明細書に開示される方法のいずれも、1つ以上のコンピュータシステムによって実施および/または制御することができる。ある例では、本明細書に開示される方法の任意のステップは、1つ以上のコンピュータシステムによって全体的に、個別にまたは順次に実施および/または制御され得る。本明細書で言及されるコンピュータシステムのいずれも、任意の適切な数のサブシステムを利用することができる。ある実施態様では、コンピュータシステムが、単一のコンピュータ装置を含み、ここでは、サブシステムはコンピュータ装置の構成要素であり得る。他の実施態様では、コンピュータシステムが、複数のコンピュータ装置を含み得、それぞれがサブシステムであり、内部構成要素を備える。コンピュータシステムは、デスクトップおよびラップトップコンピュータ、タブレット、携帯電話、ならびにその他のモバイルデバイスを含むことができる。
サブシステムは、システムバスを介して相互接続できる。付加的なサブシステムは、プリンター、キーボード、ストレージデバイス、およびディスプレイアダプタに結合されたモニターを含む。I/Oコントローラに結合する周辺機器および入力/出力(I/O)デバイスは、入力/出力(I/O)ポート(例えばUSB、FireWire(登録商標))など、当技術分野で知られている任意の数のつなぎによってコンピュータシステムに接続できる。例えば、I/Oポートまたは外部インターフェース(イーサネット、wi-fiなど)を使用して、コンピュータシステムをインターネット、マウス入力デバイスまたはスキャナーなどのワイドエリアネットワークに接続できる。システムバスを介した相互接続により、中央処理装置(central processor)が各サブシステムと通信し、システムメモリまたは記憶デバイス(ハードドライブなどの固定ディスクもしくは光ディスクなど)からの複数の命令の実行、ならびにサブシステム間の情報交換を制御することを可能にする。システムメモリおよび/または記憶デバイスは、コンピュータ可読媒体を具体化することができる。別のサブシステムは、カメラ、マイクロフォン、加速度計などのデータ収集デバイスである。本明細書に記載されているデータはいずれも、あるコンポーネントから別のコンポーネントに出力することができ、ユーザーに出力することができる。
コンピュータシステムは、例えば、外部インターフェースまたは内部インターフェースによって一緒に接続された、複数の同一のコンポーネントまたはサブシステムを含み得る。ある実施形態では、コンピュータシステム、サブシステムまたは装置は、ネットワークを介して通信することができる。かかる場合、1台のコンピュータをクライアントと見なし、別のコンピュータをサーバーと見なすことができ、それぞれを同一のコンピュータシステムの一部とすることができる。
本開示は、病原体関連障害のリスクを層別化するための開示の方法を実装するようにプログラムされたコンピュータ制御システムを提供する。図21は、無細胞核酸分子またはそのシーケンスリードを分析し、障害のリスクに関連する他の要因を分析し、リスクを評価し、または本明細書に記載されているリスクを示すレポートを生成するようにプログラム、さもなくば構成されたコンピュータシステム1101を示す。コンピュータシステム1101は、例えば、生物学的サンプルからの核酸分子の配列決定を制御すること、本明細書に記載されているような配列決定データのバイオインフォマティクス分析の様々なステップを実施すること、データ収集、分析と結果のレポート、およびデータ管理を統合することなど、本開示で提供される方法の様々な態様を実装および/または統制することができる。コンピュータシステム1101は、ユーザーの電子デバイス、または電子デバイスに対して遠隔に配置されたコンピュータシステムであり得る。電子デバイスは、モバイル電子デバイスであり得る。
コンピュータシステム1101は、中央処理装置ユニット(CPU、本明細書では「プロセッサ」および「コンピュータプロセッサ」でもある)1105を含み、これは、シングルコアまたはマルチコアプロセッサ、または並列処理のための複数のプロセッサであり得る。コンピュータシステム1101はまた、メモリまたはメモリ位置1110(例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ)、電子記憶ユニット1115(例えば、ハードディスク)、1つ以上の他のシステムと通信するための通信インターフェース1120(例えば、ネットワークアダプタ)、ならびにキャッシュ(cache)、他のメモリ、データ記憶および/または電子ディスプレイアダプタのような周辺機器デバイス1125も含む。メモリ1110、記憶ユニット1115、インターフェース1120、および周辺機器デバイス1125は、マザーボードなどの通信バス(実線)を介してCPU1105と通信している。記憶ユニット1115は、データを記憶するためのデータ記憶ユニット(またはデータリポジトリ)であり得る。コンピュータシステム1101は、通信インターフェース1120を補助として、コンピュータネットワーク(「ネットワーク」)1130に作動式に結合することができる。ネットワーク1130は、あるケースでは、電気通信および/またはデータネットワークである。ネットワーク1130は、1つ以上のコンピュータサーバーを含み得、これはクラウドコンピューティングなどの分散コンピューティングを可能にする。ネットワーク1130は、あるケースでは、コンピュータシステム1101を補助として、ピア・ツー・ピア(peer-to-peer)ネットワークを実行することができ、これにより、コンピュータシステム1101に結合されたデバイスがクライアントまたはサーバーとして挙動することが可能になる。
CPU1105は、一連の機械可読命令を実行することができ、これは、プログラムまたはソフトウェアで具体化され得る。命令は、メモリ1110などのメモリ位置に記憶され得る。命令は、CPU1105に対して向けることができ、これは、その後に本開示の方法を実装するようにCPU1105をプログラムか、さもなくば構成することができる。CPU1105によって実施される操作の例として、フェッチ、デコード、実行、およびライトバックが挙げられる。
CPU1105は、集積回路などの回路の一部であり得る。システム1101の1つ以上の他の構成要素は、回路に含まれ得る。あるケースでは、回路は特定用途向け集積回路(ASIC)である。
記憶ユニット1115は、ドライバ、ライブラリおよび保存されたプログラムなどのファイルを格納することができる。記憶ユニット1115は、ユーザーデータ、例えば、ユーザープリファレンスおよびユーザープログラムを格納することができる。コンピュータシステム1101は、あるケースでは、イントラネットまたはインターネットを介してコンピュータシステム1101と通信しているリモートサーバー上に配置されるなど、コンピュータシステム1101の外部にある1つ以上の付加的なデータ記憶ユニットを含み得る。
コンピュータシステム1101は、ネットワーク1130を介して1つ以上のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム1101は、ユーザーのリモートコンピュータシステム(例えば、コンピュータシステム1101から送信されたサンプル分析の結果を受信して表示するアプリケーションがインストールされたスマートフォン)と通信することができる。リモートコンピュータシステムの例として、パーソナルコンピュータ(例えば、ポータブルPC)、スレートまたはタブレットPC(例:Apple(登録商標)iPad、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone、Android対応デバイス、Blackberry(登録商標))、またはパーソナルデジタルアシスタントが挙げられる。ユーザーは、ネットワーク1130を介してコンピュータシステム1101にアクセスすることができる。
本明細書に記載の方法は、例えば、メモリ1110または電子記憶ユニット1115などのコンピュータシステム1101の電子記憶位置に記憶された機械(例えば、コンピュータプロセッサ)実行可能コードによって実装することができる。機械実行可能コードまたは機械可読コードは、ソフトウェアの形式で提供され得る。使用の間、コードはプロセッサ1105によって実行され得る。あるケースでは、コードは、記憶ユニット1115から取り出され、プロセッサ1105による即時アクセスのためにメモリ1110に記憶され得る。状況によっては、電子記憶ユニット1115があらかじめ排除され得、機械実行可能命令がメモリ1110に記憶される。
コードは、コードを実行するように適合されたプロセッサを有する機械で使用するために事前にコンパイルおよび構成するか、または実行時にコンパイルすることができる。コードは、コードをプリコンパイル済みまたはコンパイル済みの様式で実行できるように選択され得るプログラミング言語で提供され得る。
コンピュータシステム1101など、本明細書で提供されるシステムおよび方法の態様は、プログラミングにおいて具体化することができる。テクノロジーのさまざまな態様は、通常、機械(またはプロセッサ)実行可能コードおよび/または機械可読媒体のタイプで実行または具体化される関連データの形式における「製品」または「製造品」と考えてもよい。機械実行可能なコードは、メモリ(例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクなどの電子記憶デバイスに記憶することができる。「記憶」タイプの媒体は、コンピュータ、プロセッサなどの有形メモリのいずれかまたはすべて、または、ソフトウェアプログラミングのためにいつでも非一時的なストレージを提供し得る様々な半導体メモリ、テープドライブ、ディスクドライブなどの有形メモリの関連モジュールを含み得る。ソフトウェアの全部または一部は、インターネットまたは他のさまざまな電気通信ネットワークを介して通信される場合がある。そのような通信は、例えば、1つのコンピュータまたはプロセッサから別のコンピュータへの、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのロードを可能にし得る。したがって、ソフトウェア要素を搭載する可能性のある別のタイプの媒体は、有線および光の固定電話ネットワーク、およびさまざまなエアリンクを介するローカルデバイス間の物理インターフェースを通して使用されるような、光、電気および電磁波を含む。線または無線リンク、光リンクなど、そのような波を運ぶ物理的要素も、ソフトウェアを搭載した媒体と考えることができる。本明細書で使用される場合、非一時的で有形の「記憶」媒体に限定されない限り、コンピュータまたは機械の「読み取り可能媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。
ゆえに、コンピュータ実行可能コードなどの機械可読媒体は、多くの形態をとることができ、これらに限定されないが有形記憶媒体、搬送波媒体、または物理的伝送媒体を含む。揮発性記憶媒体は、例えば、図面に示されるデータベースなどを実装するために使用され得るような任意のコンピュータなどの記憶デバイスのいずれかなどの光または磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリなどの動的(dynamic)メモリを含む。有形伝送媒体は同軸ケーブルを含み;コンピュータシステム内のバスを含むワイヤを含む、銅線および光ファイバーである。搬送波伝送媒体は、電気信号もしくは電磁信号、または無線周波数(RF)および赤外線(IR)データ通信中に生成されるような音響波または光波の形をとることがある。したがって、コンピュータ可読媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、その他の磁気媒体、CD-ROM、DVDまたはDVD-ROM、その他の光学媒体、パンチカード紙テープ、穴のパターンのあるその他の物理記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、その他のメモリチップまたはカートリッジ、データまたは命令を伝送する搬送波、そのような搬送波を伝送するケーブルまたはリンク、またはコンピュータがプログラミングコードおよび/またはデータを読み取ることができるその他の媒体を含む。これらの形態のコンピュータ可読媒体の多くは、実行のために1つ以上の命令の1つ以上のシーケンスをプロセッサに搬送することに関与し得る。
コンピュータシステム1101は、例えば、これに限定されないが病原体統合プロファイルのグラフィック表示、病原体統合ブレークポイントのゲノム位置、病理の分類(例えば、疾患または癌のタイプおよび癌のレベル)、ならびに病理の分類に基づく予防措置の治療提案または推奨などのサンプル分析の結果を提供するためのユーザーインターフェース(UI)1140を含む電子ディスプレイ1135を含むか、またはそれと通信することができる。UIの例として、グラフィカルユーザーインターフェース(GUI)およびWEBベースのユーザーインターフェースが含まれるが、これらに限定はされない。
本開示の方法およびシステムは、1つ以上のアルゴリズムによって実装することができる。アルゴリズムは、中央処理装置ユニット1105による実行時にソフトウェアによって実装することができる。アルゴリズムは、例えば、サンプルからの核酸分子の配列決定、配列決定データの直接収集、配列決定データの分析、ブロックベースの変異パターン分析の実施、リスクの評価、またはリスクを示すレポートの生成を制御することができる。
あるケースでは、図22に示されるように、サンプル1202は、ヒト対象などの対象1201から取得され得る。サンプル1202は、アッセイを実施するなど、本明細書に記載される1つ以上の方法に供され得る。あるケースでは、アッセイは、ハイブリダイゼーション、増幅、配列決定、ラベリング、後成的に塩基を修飾すること、またはそれらの任意の組み合わせを含んでもよい。方法からの1つ以上の結果をプロセッサ1204に入力することができる。サンプル同定、被験者識別、サンプルタイプ、参照または他の情報などの1つ以上の入力パラメーターをプロセッサ1204に入力することができる。アッセイからの1つ以上の測定基準(metrics)を、プロセッサが病理の分類(例えば診断)または治療の推奨事項などの結果を生成し得るように、プロセッサ1204に入力することができる。プロセッサは、結果、入力パラメーター、測定基準、参照、またはそれらの任意の組み合わせを、視覚的ディスプレイまたはグラフィカルユーザーインターフェースなどのディスプレイ1205に送信し得る。プロセッサ1204は、(i)結果、入力パラメーター、測定基準、またはそれらの任意の組み合わせをサーバー1207に送信することができ、(ii)結果、入力パラメーター、測定基準、またはそれらの任意の組み合わせをサーバー1207から受信することができ、(iii)またはそれらの組み合わせができる。
本開示の態様は、ハードウェア(例えば、特定用途向け集積回路またはフィールドプログラマブルゲートアレイ)を使用して、および/またはモジュール式または統合方式で一般にプログラム可能なプロセッサを備えたコンピュータソフトウェアを使用して、制御ロジックの形態で実装することができる。本明細書で使用される場合、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、または単一の回路基板上のまたはネットワーク化された複数の処理装置ユニットを含む。本明細書で提供される開示および教示に基づいて、当業者は、ハードウェア、およびハードウェアとソフトウェアとの組み合わせを使用して本明細書で説明される実施形態を実装する他の方法および/または方法を知り、真価を認めるであろう。
本出願において説明されているソフトウェアコンポーネントまたは機能はいずれも、Java、C、C++、C#、Objective-C、Swift、または従来の手法やオブジェクト指向手法などを用いたPerlやPythonなどのスクリプト言語などの適切なコンピュータ言語を用いてプロセッサによって実行されるソフトウェアコードとして実装できる。ソフトウェアコードは、記憶および/または伝送のための一連の命令またはコマンドとしてコンピュータ可読媒体に記憶することができる。適切な非一時的なコンピュータ可読媒体は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、ハードドライブもしくはフロッピーディスクなどの磁気媒体、またはコンパクトディスク(CD)もしくはDVD(デジタル多用途ディスク)などの光学媒体、フラッシュメモリなどを含み得る。コンピュータ可読媒体は、そのような記憶デバイスまたは伝送デバイスの任意の組み合わせであり得る。
このようなプログラムは、インターネットを含むさまざまなプロトコルに準拠した有線、光および/または無線ネットワークを介した伝送に適合した搬送信号を使用してエンコードおよび伝送することもできる。したがって、コンピュータ可読媒体は、そのようなプログラムでエンコードされたデータ信号を使用して作成することができる。プログラムコードでエンコードされたコンピュータ可読媒体は、互換性のあるデバイスと一緒にパッケージ化するか、他のデバイスとは別に提供することができる(例えば、インターネットダウンロードを介して)。そのようなコンピュータ可読媒体はいずれも、単一のコンピュータ製品(例えば、ハードドライブ、CDまたはコンピュータシステム全体)上またはその中に存在することができ、およびシステムまたはネットワーク内の異なるコンピュータ製品上またはその中に存在することができる。コンピュータシステムは、本明細書に記載の結果のいずれかをユーザーに提供するためのモニター、プリンター、または他の適切なディスプレイを含み得る。
本明細書に記載の方法のいずれも、ステップを実施するように構成され得る1つ以上のプロセッサを含むコンピュータシステムを用いて全体的または部分的に実施することができる。したがって、実施形態は、異なる構成要素が各々のステップまたは各々のステップのグループを実施する、本明細書に記載の方法のいずれかのステップを実施するように構成されたコンピュータシステムに向けることができる。番号付きのステップとして提示されているが、本明細書の方法のステップは、同時にまたは異なる順序で実施することができる。さらに、これらのステップの一部は、他の方法の他のステップの一部と共に使用できる。また、ステップのすべてまたは一部を任意に選ぶことができる。さらに、任意の方法の任意のステップは、モジュール、ユニット、回路またはこれらのステップを実施するための他のアプローチによって実施することができる。
他の実施態様
本明細書で使用されるセクション見出しは、組織化の目的のみであり、記載される主題を限定するものとして解釈されるべきではない。
本明細書に記載の方法は、本明細書に記載の特定の方法論、プロトコル、主題、および配列決定技術に限定されず、したがって、変化し得ることが理解されたい。また、本明細書で使用される専門用語は、特定の実施形態のみを説明することを目的としており、本明細書で説明される方法および組成物の範囲を限定することを意図するものではなく、添付の特許請求の範囲によってのみ限定されることも理解されたい。本開示のいくつかの実施形態が本明細書に示され、説明されてきたが、そのような実施形態が例としてのみ提供されることは当業者には明らかであろう。多くの変形、変更および置換が、本開示から逸脱することなく、当業者に発生するであろう。本開示を実施する際に、本明細書に記載の本開示の実施形態に対する様々な代替案を使用できることを理解されたい。以下の特許請求の範囲は、開示の範囲を定義し、これらの特許請求の範囲内の方法および構造、ならびにそれらの同等物は、それによってカバーされることが意図されている。
実例のための例示的なアプリケーションを参照し、いくつかの態様が説明される。特に明記しない限り、任意の実施形態を他の任意の実施形態と組み合わせることができる。本明細書に記載されている特徴の完全な理解を提供するために、多数の特定の詳細、関係、および方法が示されていることを理解されたい。しかしながら、当業者は、本明細書に記載の特徴が、1つ以上の特定の詳細がなくても、または他の方法によって実施できることを容易に認識するであろう。一部の行為は異なる順序で、および/または他の行為または事象と同時に発生する可能性があるため、本明細書に記載されている特徴は、行為または事象の図示された順序によって限定されない。さらに、本明細書に記載の特徴に従った方法論を実施するために、図示されたすべての行為または事象が必要とされるわけではない。
以下の実施例は、本開示のいくつかの実施形態をさらに説明するために提供されているが、開示の範囲を限定することを意図するものではない;それらの例示的な性質により、当業者に知られている他の手順、方法論または技術を代替的に使用してもよいことが理解されるであろう。
[実施例1. 4年間で20,000人を超える被験者のコホートでのNPCスクリーニング]
この実施例は、約4年間で20,000人を超える被験者のコホートで実施された大規模なスクリーニング研究について説明する。図1は、この研究の設計の図を示す。スクリーニングの最初のラウンドでは、血漿EBV DNA分析を用いて、40~62歳の20,000人以上の男性がNPCについてスクリーニングした。検出可能血漿EBV DNAを有する被験者を、中央値4週間後に第2の血液サンプルセットで再テストした。この取決めは、NPC患者と、NPCは有さないが検出可能な血漿EBV DNAを有する患者とを識別することを目的とした。以前の研究では、NPCのない被験者における血漿EBV DNAの存在は、通常、一時的の現象であることが示された。これら個人の3分の2では、血漿EBV DNAは中央値2週間後に検出できなくなる。血漿EBV DNAの結果が持続的に陽性である被験者を、NPCの存在を確認または除外するために、鼻内視鏡検査および鼻咽頭の磁気共鳴画像法(MRI)でさらに調査された。この取決めに基づいて、34例のNPCが同定した。
その後、コホートでのNPCスクリーニングの別のラウンド(第2ラウンド)を、スクリーニングの最初のラウンドから中央値4年後に実施した。NPCスクリーニングの第2ラウンドでは、テスト結果が陽性だった被験者を、スクリーニングの第1ラウンドと同様に約4週間後に再テストする。4週間にわたる2回の連続的なテストで陽性の結果であった被験者を、鼻内視鏡検査およびMRIでさらに調査する。スクリーニングの第2ラウンドを2017年に開始した。合計8,335人の被験者が2018年9月15日までに第2ラウンドのスクリーニングを完了した。784人(9.4%)の被験者が血漿EBV DNAに陽性であった。4週間後の再テストでは、230人(2.7%)の被験者が、依然として検出可能な血漿EBV DNAを有していた。表1は、NPCスクリーニングの両方のラウンドにおけるテスト結果をまとめたものである。
Figure 2022527316000009
表1に示すように、第2ラウンドのNPCスクリーニングで血漿EBV DNAが検出される確率は、第1ラウンドのスクリーニングでの血漿EBV DNAのステータスと相関していた。スクリーニングの第1ラウンドで陰性、一時的に陽性、および持続的に陽性の血漿EBV DNAを有する被験者は、第2ラウンドのスクリーニングの最初の分析で検出可能な血漿EBV DNAを有する確率が8%、21%、および57%であった。さらに、4週間で血漿EBV DNAが持続的に陽性になる機会は、3つのグループを通して2%から25%に徐々に増加した。
本明細書に記載のスクリーニングによって同定されたNPC患者は、NPCスクリーニングを受けなかった過去のコホートの患者よりもはるかに早い段階の分布を示した。あった。早期疾患(ステージIおよびII)のパーセンテージはそれぞれ70%および20%であった。この病期分布の変化により、ハザード比が0.1の患者の無増悪生存期間が大幅に改善された。表2に要約されているのは、第1および第2ラウンドのスクリーニングの両方におけるNPC症例の病期分布である。第2ラウンドで8,335人の被験者をスクリーニングした後、13人の新しいNPCの症例を同定した。早期疾患を有する患者のパーセンテージは、第1および第2ラウンドのスクリーニングでそれぞれ71%および69%であった。早期疾患の患者のパーセンテージに有意差はなかった(P=0.93、カイ二乗検定)。
Figure 2022527316000010
表3に要約されているように、第1ラウンドのスクリーニングで一時的および持続的に検出可能な血漿EBV DNAを有する被験者は、第1ラウンドで血漿EBV DNAが検出されなかったものと比較して、第1ラウンドの4年後に実施された第2ラウンドのスクリーニングでNPCが検出されるリスクがより高かった。これら2つのグループの相対リスク値はそれぞれ7.2および19.7である。
Figure 2022527316000011
これらの結果は、血漿EBV DNA分析が、NPC保有性の現在の状態のスクリーニングだけでなく、将来臨床的に観察可能なNPCのリスクを予測するのにも役立つことを示唆している。この知見の実用的な1つの用途は、以前の例でスクリーニングされた被験者の血漿EBV DNA状態に基づいてスクリーニングを繰り返す間隔を調整できることである。例えば、ベースラインで血漿EBV DNAが検出可能であるが、NPCが同定できない被験者は、血漿EBV DNAが検出できない被験者と比較して、より短い間隔で再スクリーニングできる。また、実例として、スクリーニングを繰り返す間隔は、検出不可能、一時的に検出可能、および持続的に検出可能な血漿EBV DNAを有する被験者について、各々4年、2年および1年であり得る。
[実施例2.血漿EBV DNAの検出可能性に基づくNPCスクリーニング]
この実施例は、被験者の血漿中のEBV DNAの検出可能性に基づいて被験者用に設計されたNPCスクリーニングレジメンについて説明する。図2は、本明細書に記載されるレジメンの概略図を示す。
レジメンによると、スクリーニングの初期の例で血漿EBV DNAが検出できない被験者は、今後4年間でEBV DNAが検出できない被験者のNPCのリスクが比較的低いことから、4年後に再スクリーニングされる。次のスクリーニングで血漿EBV DNAが陰性の場合、次のスクリーニングの間隔は4年である。ただし、1回のスクリーニングでEBV DNAが検出されたが、NPCが検出されなかった場合は、次のスクリーニングが1年後に調整される。血漿EBV DNAが4年間陰性のままである場合、スクリーニングの間隔は4年に戻される。特定のスクリーニングプログラムに用いられる実際の時間間隔も、医療経済上の考慮事項(スクリーニングの費用など)、被験者の嗜好性(例えば、スクリーニング間隔より頻繁であることが、特定の被験者のライフスタイルにとってより混乱を生じさせる場合)および他の臨床パラメーター(例えば、個人の遺伝子型、NPCの家族歴、食歴、民族的起源(例えば広東人))に応じて調整される。
[実施例3.無細胞EBV DNA分子の変異パターン分析]
この実施例において、捕捉濃縮を伴うターゲットシーケンシングを用いて、NPC被験者、検出可能な血漿EBV DNAを有する非NPC被験者、およびプレNPC被験者の循環中の無細胞ウィルスDNA分子を分析した(詳細は次のセクションで)。捕捉プローブは、EBVゲノム全体をカバーするように設計された。同分析において、約3,000のヒト一塩基多型(SNP)サイトおよびヒト白血球抗原(HLA)SNPをターゲットとするプローブも含まれていた。
この実施例において、13人のNPC患者および16人の検出可能な血漿EBV DNAを有する非NPC被験者の血漿EBV DNAを分析した。13人のNPC患者は症候性であり、プリンスオブウェールズ(Prince of Wales)病院の臨床腫瘍学部か、もしくは耳鼻咽喉科のいずれかから採用した。16人の非NPC被験者は、実施例1で説明された20,000人を超える被験者のNPCスクリーニングコホートからのものであった。
この分析では、特別に設計された捕捉プローブによる捕捉濃縮を伴うターゲットシーケンシングを使用した。分析した各血漿サンプルについて、QIAamp Circulating Nucleic AcidKitを用いて4mLの血漿からDNAを抽出した。いずれのケースでも、抽出されたすべてのDNAは、TruSeq Nano DNAライブラリ調製キット(Illumina社)を用いたシーケンスライブラリの調製に使用した。バーコーディングは、特殊な分子識別子(UMI)シーケンスを組み込んだデュアルインデックスシステム(xGenデュアルインデックスUMIアダプター、Integrated DNA Technologies社)を用いて実施した。8サイクルのPCR増幅は、TruSeq Nano Kit(Illumina社)を用いて、アダプターをライゲーションしたサンプルで実施した。次いで、増幅産物は、上述したウィルスおよびヒトゲノム領域をカバーするカスタム設計のプローブを用いて、myBaitカスタムキャプチャーパネルシステム(Arbor Biosciences社)によって捕捉した。ターゲットの捕捉後、捕捉された産物は14サイクルのPCRによって濃縮し、DNAライブラリを生成した。DNAライブラリはNextSeqプラットフォーム(Illumina社)で配列決定した。配列決定の運転ごとに、ペアエンドモードを使用して、特有のサンプルバーコードを有する10のサンプルを配列決定した。各DNAフラグメントは、2つの末端のそれぞれから配列決定された71のヌクレオチドである。配列決定後、シーケンスリードは、ヒトゲノム全体(hg19)、EBVゲノム全体(GenBank:AJ507799.2)、HBVゲノム全体、およびHPVゲノム全体からなる人工的に組み合わされた参照配列にマッピングする。アラインメントはSOAP2(Bioinformatics 2009; 25:1966-7)を使用して行い、600bp以下のインサートサイズで正しい方向に読み取られるたびに最大2つのミスマッチを許容した。組み合わされたゲノム配列の特有の位置にマッピングしたシーケンスリードは、ダウンストリーム分析に使用する。全く同じ特有の分子識別子を有するすべての重複フラグメントは、フィルタリングされる。
アラインメントの結果に基づいて、配列決定されたリードとEBV参照ゲノム(GenBank:AJ507799.2)との間で、一塩基多型(SNV)を含むがこれに限定されないヌクレオチドの相違を同定した。13人のNPC被験者からの44のサンプル、検出可能な血漿EBV DNAを有する16人の非NPC被験者、および4人のプレNPC被験者のうち、中央値1116 SNV(四分位範囲(IQR):902-1216)を同定した。これらの血漿サンプルでは、EBVゲノムのいくつかのヌクレオチド位置で2つの異なる対立遺伝子を観察した。この観察結果は、シーケンスエラーまたは腫瘍の不均一性の存在が原因であり得る。わずか26の位置の中央値(IQR:20-35)は、血漿EBV DNAに2以上の対立遺伝子を有した。
図3に示される系統樹分析では、NPC被験者は共にクラスター化し、非NPC被験者から分離した。これらの結果は、NPCと非NPCとの被験者間で異なるEBV変異体プロファイルがあることを示唆した。ゆえに、血漿EBV DNAのEBV変異体プロファイル分析を用いることで、スクリーニングのコンテキストでNPCと非NPCとの被験者を識別することができる。3人の非NPC被験者(AC106、AP080、およびFF159)は、4週間間隔で収集された、2つの連続的に収集、分析されたサンプルを有していた。同じ個人からの2つのサンプルを一緒にクラスター化し、非常に類似した変異体を共有していることを示した。
系統樹分析はまた、Hui et al((Hui et al. Int J Cancer 2019, doi.org / 10.1002 / ijc.32049)による研究で報告された29の変異体を除外したEBV変異体に基づき、13人のNPC患者および検出可能な血漿EBV DNAを有する16人の非NPC被験者の同一のグループでも実施した。図4に示すように、NPC被験者もまた共にクラスター化し、非NPC被験者から分離した。
スクリーニングの第1ラウンド(実施例1に記載されている通り)で血漿EBV DNAに対して持続的に陽性であったが、内視鏡検査およびMRIで検出可能なNPCを有さなかった4人の被験者は、その後、NPCを有すると診断された。彼らのすべて(BB096、DN054、FK015およびHB121)は、スクリーニングの第1ラウンドの3年後にNPCを有していると診断された。彼らすべては、耳鼻咽喉科クリニックでの追跡中のスクリーニングの第1ラウンドの1年後に収集された1つの追加血漿サンプルを有していた。これら4人の被験者のそれぞれについて、スクリーニングの第1ラウンドおよび1年後に収集された2つのサンプルをEBV変異体について分析した。図5に示すように、プレNPCの被験者からのサンプルはNPCサンプルと共にクラスター化し、NPCに関連するEBV変異体は、実際に癌が発生する以前に存在することを示した。これは、NPC関連のEBV変異体を有する個人は将来、NPCを発症するリスクが高いことを示唆している。系統樹分析はまた、Hui et al((Hui et al. Int J Cancer 2019, doi.org / 10.1002 / ijc.32049)による研究で報告された29の変異体を除外したEBV変異体に基づき、NPC患者、非NPC被験者およびプレNPC患者の同一のグループでも実施した。図6に示すように、プレNPCの被験者からのサンプルをやはりNPCサンプルと共にクラスター化し、EBV変異体の分析により、将来のNPCのリスクを予測できることをさらに示唆していた。
[実施例4.ブロックベースの変異パターン分析]
この実施例は、例示的なブロックベースのバリアントパターン分析アプローチの作動原理および、実施例3で説明したサンプル内のEBV変異体パターンの分析へのその適用を説明する。
図7は、ブロックベースの変異パターン分析の原理を図示している。ブロックベースの分析を使用して、さまざまなサンプルの血漿EBV DNA配列決定から導き出されたEBV DNA変異パターンの、参照ゲノムに対する類似性を評価し、またここで、公開データベース(Kwok et al. J Virol2014; 88:10662-72、Li et al. Nat Comm 2017; 8:14121)で利用可能なNPC配列決定データが参照として使用される。ブロックベースの分析では、EBVゲノムをサイズが500bpのビン(合計344ビン)に分割し、各ビンの変異パターンと参照セットの24個のNPCサンプルとの類似性を比較した。例として、1つの特定のビン内に8つの変異サイトがある場合、テストサンプルのこのビン内のこれらのサイトの対立遺伝子を分析し、24の参照サンプルの同じサイトの対立遺伝子と比較する。類似性指数は、参照サンプルとまったく同じ対立遺伝子を有する割合に基づいて導き出される。例えば、テストサンプルが1つの参照サンプルについて8つの変異サイトのうち7つにまったく同じ対立遺伝子を有する場合、そのビンの類似性指数はその参照サンプルについて7/8になる。また、24の参照サンプルと比較してみると、テストサンプルのそのビンには24の類似性指数がある。そのビンの24の類似性指数に基づいて、参照サンプルについて変異パターンの全体的な類似性を表すビンスコアを計算する。例えば、類似性指数のカットオフを0.9に設定する場合、ビンスコアは、カットオフよりも高い指数を有するビンの割合をカウントする。ゆえに、0.9を超えるのが24の類似性指数のうち2つしかない場合、ビンスコアは2/24である。ビンスコアが高いほど、テストサンプルの変異パターンが参照サンプルセットに類似していく。
図8は、13のNPC、16の非NPCおよび4のプレNPCサンプルのEBV DNA変異パターンのブロックベースの分析を示す。4人のプレNPC被験者のそれぞれについて、2つの時点からのサンプルを分析したため、合計8つの被験体を得た。EBVゲノムの344ビンのビンスコアは、これらのサンプルから導き出した。これらサンプルのビンスコアに基づいて、教師なし(unsupervised)クラスタリング分析を実施した。NPCサンプル(黒)を共にクラスター化し、および非NPCサンプル(ドットでマークされた)を共にクラスター化した。プレNPCの被験者のEBV変異プロファイルを、NPC被験者のプロファイルと一緒にクラスター化した。とりわけ、これら4人のプレNPCの被験者の変異プロファイルについては、NPC発症の数年前に収集されたベースラインサンプルの分析を通じて取得した。
図9は、Hui et al((Hui et al. Int J Cancer 2019, doi.org / 10.1002 / ijc.32049)による研究で報告された29の変異体を除外したEBV変異体に基づき、13人のNPC、16人の非NPCおよび4人のプレNPC被験者の同一のグループのEBV DNA変異体のブロックベースの分析を示す。同様に、NPCサンプル(黒)のクラスタリングを観察した。また、プレNPC被験者のEBV変異体プロファイルを、NPC被験者のプロファイルと一緒にクラスター化した。プレNPCのサンプルおよびNPCサンプルのクラスタリングは、変異分析がNPCの将来的な発症を予測できることを示す。要約すると、実施例3および実施例4のデータによって、募集時にNPCを有さなかったが後に癌を発症した被験者は、他のNPC患者からのものと同様のベースライン血液サンプルにおいてEBV変異パターンを有したことが明らかとなる。
[実施例5.数学的モデルを用いたNPCのリスク予測]
この実施例は、変異パターンの分析を用いて検出可能な血漿EBV DNAを有する被験者の将来的なNPC発症のリスクを予測するための分類モデルの構築、および該分類モデルを用いたテスト結果を説明する。
サポートベクターマシン(SVM)アルゴリズムを使用して、実施例4で説明したように、NPCを有さない18人の被験者および8人のNPC患者のトレーニングデータセットを用いた分類子を構築した。テストデータセットは、5人のNPC患者、NPCを有さない5人の被験者、および実施例4で説明されたように、サンプル収集時に内視鏡検査およびMRIによって検出可能なNPCがなかったが、その後NPC(プレNPCとラベル付け)と診断された4人の被験者から収集された8つのサンプルからなった。
SVM分析の方法は次のとおりである:
n個のサンプルを含むトレーニングデータセットが与えられたとき:
(M1, Y1), …, (Mn, Yn)
ここで、YiはサンプルiのNPCステータスを示す。Yiは、NPC患者からのサンプルの場合は1、またはNPCを有さない被験者からのサンプルの場合は-1である;Miは、サンプルiのウィルス変異パターンを含むp次元ベクトルである。例えば、MiはNPCに関連した29の変異サイトのような一連の変異サイトとなり得る。あるいは、Miは、NPCを有することが既知である被験者に存在する参照EBV変異体に関して、一連のブロックベースの変異体類似性スコア(たとえば、500bpの重複しないウィンドウ)となり得る。
以下を満たす係数のセット(p次元ベクトルを有するW)を求めることにより、トレーニングデータセット内で非NPCグループおよびNPCグループを可能な限り正確に分離する「超平面」を同定できる:
基準1:
W・M-b≧1(NPCグループの被験者について)
および
基準2:
W・M-b≦1(非NPCグループの被験者について)
ここで、Wは、超平面を決定する係数のp次元ベクトルであり;Mは、p個の変異体(またはブロックベースの類似度スコア)およびn個のサンプルを有する行列(p x n次元)であり;bは切片である。
2つの基準(つまり基準1および2)は、次のように記述することもできる:
Yi(W * Mi-b)≧1(基準3)
ここで、Yiは-1(非NPC)または1(NPC)のいずれかである。
基準1と2との間のマージン距離(D)は:
Figure 2022527316000012
Dは、基準3に従って
Figure 2022527316000013
最小化することによって最大化される。
この原理に基づいて、分類子のパラメーター(Wおよびb)を決定した。次いで、トレーニングされたパラメーター(Wおよびb)を用いて、各テストサンプルのNPC
リスクスコアを計算した。
図10Aは、ブロックベースの変異分析を用いた全EBV変異体の分析に基づいてトレーニングされた分類子を使用して計算されたNPCリスクスコアを示す。この分析では、実施例4で説明したように、ビンスコアを計算するためにEBVゲノムを500bpの344ブロックに分割した。ビンスコアは、機械学習の特徴と見なされた。NPCサンプルのNPCリスクスコアは、非NPC被験者から収集されたサンプルのスコアよりも有意に高かった(平均NPCリスクスコア:0.15対0.53、p値<0.01、スチューデントのt検定)。同様に、NPCリスクスコアは、NPCを有さない被験者と比較して、プレNPC被験者から収集されたサンプルで有意に高かった(平均リスクスコア:0.58対0.15、p値<0.01、スチューデントのt検定)。0.32のカットオフを使用して、NPC患者およびプレNPC被験者からのサンプルを、100%の感度および100%の特異性でNPCを有さないサンプルと識別することができた。
図10Bは、Hui et al((Hui et al. Int J Cancer 2019, doi.org / 10.1002 / ijc.32049)による研究で報告された29の変異体の分析に基づいてトレーニングされた分類子を使用して計算されたNPCリスクスコアを示す。NPCサンプルのNPCリスクスコアは、非NPC被験者から収集されたサンプルのスコアよりも有意に高かった(平均NPCリスクスコア:0.89対0.18、p値<0.01、スチューデントのt検定)。同様に、NPCリスクスコアは、NPCを有さない被験者と比較して、プレNPC被験者から収集されたサンプルで有意に高かった(平均リスクスコア:0.57対0.18、p値<0.02、スチューデントのt検定)。0.6のカットオフを使用して、NPC患者およびプレNPC被験者からのサンプルを、74%の感度および100%の特異性でNPCを有さないサンプルと識別することができた。
図10Cは、Hui et al((Hui et al. Int J Cancer 2019, doi.org / 10.1002 / ijc.32049)によってNPCに関連すると以前に報告された29のバリアントを除く、ブロックベースの変異分析を用いた全EBV変異体の分析に基づいてトレーニングされた分類子を使用して計算されたNPCリスクスコアを示す。NPCサンプルのNPCリスクスコアは、非NPC被験者から収集されたサンプルのスコアよりも有意に高かった(平均NPCリスクスコア:0.58対0.15、p値<0.01、スチューデントのt検定)。同様に、NPCリスクスコアは、NPCを有さない被験者と比較して、プレNPC被験者から収集されたサンプルで有意に高かった(平均リスクスコア:0.53対0.15、p値<0.01、スチューデントのt検定)。0.31のカットオフを使用して、NPC患者およびその後NPCを発症した患者からのサンプルを、100%の感度および100%の特異性でNPCを有さないサンプルと識別することができた。これらの結果は、以前に報告された29のEBV変異体を分析から除外しても、この分析の精度に悪影響を及ぼさないことを示している。
[実施例6.バイサルファイトシーケンシングによる血漿EBV DNAのメチル化状態の分析]
この実施例は、血漿EBV DNAのメチル化状態に基づいて、NPC患者および検出可能な血漿EBV DNAを有する非NPC被験者を識別するためのバイサルファイトシーケンシングの使用を示す。
NPC患者およびNPCを有さない被験者の血漿中のEBV DNAのメチル化レベルを、バイサルファイトシーケンシングを使用して決定した。バイサルファイト変換は、メチル化されていないシトシンをウラシルに変化させることができる。メチル化されたシトシンは、バイサルファイトによって変化できず、シトシンとして残ることができる。配列決定中に、ウラシルはチミンとして決定することができる。配列決定後、シトシンがチミンに変化しているかどうかをチェックすることにより、任意のCpGジヌクレオチドコンテキストでのシトシンのメチル化状態を決定できる。
血漿EBV DNAのメチル化レベルを、10人のNPC患者および癌ではないが血漿中に検出可能なEBV DNAを有する40人の被験者(非NPC被験者)で決定した。40人の非NPC被験者については、4週間後にそれぞれから別の血液サンプルを収集した。彼らのうち20人は、血漿EBV DNAに対して陰性になり、彼らは一時的に陽性の血漿EBV DNAを有するとラベルされる。彼らのうち20人は、血漿EBV DNAに対して陽性のままであり、彼らは持続的に陽性の血漿EBV DNAを有するとラベルされる。
図11に示すように、EBV DNAメチル化レベルは、一時的に陽性の血漿EBV DNAを有する非癌被験者(p値<0.01、スチューデントのt検定)および持続的に陽性の血漿EBV DNAを有する非癌被験者(p値<0.01、スチューデントのt検定)と比較して、NPC患者で有意に高かった。これらの結果は、血漿EBV DNAのメチル化の分析が、NPCの患者と、NPCを有さないが検出可能な血漿EBV DNAを有する被験者とを識別するのに役立ち得ることを示唆している。
[実施例7.メチル化感受性制限酵素を用いた血漿EBV DNAのメチル化状態の分析]
この実施例は、NPC患者およびNPCを有さないが検出可能な血漿EBV DNAを有する被験者の識別のための血漿EBV DNAのメチル化感受性制限酵素分析の使用を実証する、インシリコシミュレーション実験を説明する。
血漿DNAのバイサルファイトシーケンシングを、非NPC被験者およびNPC患者からのサンプルにより実施した。2対象の血漿DNA中において347,516および6,271,012 EBV DNAフラグメントがそれぞれ得られた。それらの血漿EBV DNAのメチル化レベルは、各々48.9%および86.3%であった。血漿EBV DNA分子の約半分が、少なくとも1つの「CCGG」モチーフを含有することが決定された。
血漿EBV DNAの制限酵素消化をシミュレートするために、バイサルファイトシーケンシングの結果から推測される「CCGG」シーケンスコンテキストでのメチル化状態に応じて、血漿EBV DNA分子のインシリコ消化を実施した。したがって、図14に示すように、メチル化感受性制限酵素HpaIIによるインシリコ消化がある場合とない場合の血漿EBV DNAのシミュレートされたサイズプロファイルが得られた。酵素消化がない場合、非NPC被験者の血漿EBV DNAのサイズ分布は、NPC被験者のそれの左側にあり、これは、サイズ分布が非NPC被験者の方が短かったことを示している。フラグメントサイズのこの違いは、酵素消化なしと比較して酵素消化ありの非NPC被験者では、50bp未満の短いDNAの存在量が有意に増加したという点において、酵素消化ありのサイズ分布プロファイルでも観察された。NPC患者については、50bp未満のDNA分子の割合は、酵素消化があるサンプルおよびないサンプルで、各々5.87%および0.84%であった。ただし、非NPC被験者については、50bp未満のDNA分子の割合は、酵素消化があるサンプルおよびないサンプルで、各々22.24%および4.99%であった。酵素消化における50bp未満のDNAの割合の増加は、NPC患者および非NPC被験者で各々17.2%および5.0%であった。図15は、NPC患者および非NPC被験者についてのメチル化感受性制限酵素消化がある場合とない場合の血漿EBV DNAの累積サイズプロファイルを示している。酵素消化の程度の違いは、サイズに対する累積度数曲線を用いるとより簡単に理解できる。酵素消化がある場合とない場合との2つの曲線間のギャップは、消化の程度を反映している。ギャップが大きいほど、血漿EBV DNAに対して行われる酵素消化の程度が大きくなり、これは、血漿EBV DNAのメチル化レベルが低いことを示している。図に示すように、NPC患者と比較して非NPC被験者の方が、より大きなギャップであった。NPC患者および非NPC被験者について、酵素消化なしと酵素消化ありとの曲線間の最大距離は各々8.1および18.3であり;NPC患者および非NPC被験者について、2つの曲線の間の面積は、各々2395および942.9であった。
[実施例8.無細胞EBV DNA分子のSNVプロファイル分析]
63人のNPCおよび88人の非NPC被験者の血漿DNA配列決定データを含むトレーニングデータセットにおいて、2つのグループ間のEBV SNVプロファイルの違いを分析した。EBVゲノムにわたりSNVを識別することを同定した。NPCリスクスコアを、これらのSNVサイトの遺伝子型パターンから導き出すことになっており、その後、31のNPCサンプルおよび40の非NPCサンプルのテストセットにおいて分析した。この実施例では、EBVゲノム全体で合計661の重要なSNVを、トレーニングセットから同定した(図16D)。テストセットでは、NPC血漿サンプルは、NPCリスクスコアが高いことが示され;NPC関連EBV SNVプロファイルが存在し得た。非NPCサンプル間で、NPCリスクスコアは幅広く存在していた。非NPC被験者は、多様なEBV SNVプロファイルを有することができる。
材料および方法。
研究参加者および設計。
本研究は、Lam et al. Proc Natl Acad Sci U S A. 2018; 115:E5115-E5124で以前に報告されたNPCおよび非NPC血漿サンプルの配列決定データセットのサブセット(トレーニングセットとして)、およびNPCおよび非NPCの両方の被験者からの新たに配列決定された血漿DNAサンプル(テストセットとして)の分析を包含した。
トレーニングデータセットは、Lam et al. Proc Natl Acad Sci U S A. 2018; 115:E5115-E5124に記載されている過去の将来的に見込みのあるNPCスクリーニング研究において、スクリーニングで検出されたNPC患者および非NPC被験者の両方からの血漿サンプルを含んだ。これらの非NPC被験者は、リアルタイムPCRベースのアッセイによって検出可能なレベルの血漿EBV DNAを保有していた。このデータセットは、独立したコホートからの症候性NPC患者のサンプルも含んでいた。NPCリスクスコア予測のトレーニングモデルを構築するために、全サンプルのEBV単離株からのEBV遺伝子型情報を、研究した。この研究では、別の31人の症候性NPC患者および40人の非NPC被験者の血漿サンプルを、テストセットとして機能するターゲットキャプチャーシーケンスの対象とした。これら31人の症候性NPC患者は、香港のプリンスオブウェールズ病院の臨床腫瘍学科から採用された。非NPC被験者も、前述のNPCスクリーニングコホート(20,000人以上の被験者を含む)からのものであり、そこからランダムに選択された。これらのNPCおよび非NPCサンプルからのEBV遺伝子型の変動を分析し、トレーニングモデルに基づいてそれらのNPCリスクスコアを導き出した。トレーニングセットおよびテストセットにおけるすべてのNPCサンプルおよび非NPCサンプルは、重複していなかった。
ターゲットキャプチャーシーケンス
血漿サンプルのターゲットキャプチャーシーケンスを、捕捉プローブシステム(myBaitsカスタム捕捉パネル、Arbor Biosciences)を介して血漿DNAライブラリからEBV DNA分子を濃縮して実施した。EBV捕捉プローブを、ウィルスゲノム全体をカバーするように設計した。3,000のヒト一塩基多型(SNP)サイトをターゲットとするプローブも参照用に含まれている。EBVプローブと常染色体DNAプローブとのモル比を100:1の比率で含むプローブ混合物を、各捕捉反応で使用した。10の血漿サンプルからのDNAライブラリを、各サンプルからの同量のDNAライブラリを用いながら、1回の捕捉反応で多重化した。現在のトレーニングセットとして使用された以前に報告されたケースを含む、すべてのケースの配列決定統計は、表4Aおよび4Bに記載されている。
Figure 2022527316000014
Figure 2022527316000015
Figure 2022527316000016
Figure 2022527316000017
Figure 2022527316000018
Figure 2022527316000019

Figure 2022527316000020
EBV変異体呼び出し
シーケンスされたリードは、Li H et al. Bioinformatics. 2010; 26:589-95に記載されているBWAアライナ(aligner)を使用してヒト(hg19)およびEBV参照ゲノム(AJ507799.2)にアラインメントされ、これは、その全体が参照により本明細書に組み込まれる。EBVゲノムサイト上の参照ウィルスゲノムとは異なる代替対立遺伝子が検出された場合に、EBV一塩基多型(SNV)を、Li H et al. Bioinformatics. 2009; 25:2078-9に記載されているように、Samtoolsで同定し、これは、その全体が参照により本明細書に組み込まれる。2以上のタイプの対立遺伝子が検出されたSNVサイト(マイナーな対立遺伝子頻度カットオフが5%に設定されている)を、その後のNPCリスクスコア分析のために除外した。
NPCリスクスコア
この実施例において、NPCリスクスコアは、ウィルスゲノムにわたるSNVサイトの固定セットでのEBV遺伝子型の加重総和(バイナリロジスティック回帰モデルの説明変数として)であった。NPC関連SNVのセットを、トレーニングセットのNPCおよび非NPCサンプルからのEBV SNVプロファイルの相違を分析することによって最初に同定した。フィッシャーの直接確率検定を使用して、NPC症例に対するEBVゲノムにわたる各変異体の関連を分析した。次いで、偽発見率(FDR)を5%に制御して、有意なSNVの固定セットを取得した。
テストサンプルのNPCリスクスコアは、トレーニングセットから同定された重要なSNVサイトのこの特定のセットに対するEBV遺伝子型によって決定することができる。前述のように、血漿EBV DNA分子の濃度が低いため、配列決定されたEBV DNAリードによる手段では、EBVゲノム全体のカバレッジが不完全となる可能性がある。したがって、スコアは、血漿EBV DNAリードによってカバーされたそれらのSNVサイトにわたる遺伝子型パターンによって決定されるように定式化した(例えば、利用可能な遺伝子型情報を用いて)(図16A、16Bおよび16C)。NPCリスクスコアを導き出すために、重要なSNVサイトのサブセットを最初に同定し、テストサンプルの血漿EBV DNAリードによってカバーした。次いで、各サイトでの遺伝子型の重み付け(効果サイズ)を、重要なSNVサイトのサブセット内で決定した。トレーニングデータセット内のNPCサンプルおよび非NPCサンプル間の各サイトでの遺伝子型パターンを分析することによって、これを実行した(図16B)。これに基づいて、ロジスティック回帰モデルを構築し、NPCの各SNVサイトでのリスク遺伝子型の効果サイズの情報を与ええた。ロジスティックモデルは次のように記述された:
Figure 2022527316000021
これは次のように書き直すことができる:
Figure 2022527316000022
ここで、nは、重要なSNVサイトの数であり;βおよびβは、最尤推定量で決定できる係数であり;Pは、EBV陽性患者がNPCを有する確率であり;変数Xは、ゲノム位置kのSNVサイトを表す。Xは、EBV参照ゲノムと同一のサンプルに変異体が存在する場合、-1としてコード化される。サンプルに代替変異体が存在する場合、Xは1としてコード化される。分析された変異サイトがサンプルでカバーされていない場合、Xは0としてコード化される。'ロジスティック回帰'関数(ペナルティ='12'、C= 1、ソルバー='saga'、max_iter=5000、およびrandom_state=0)をPythonで使用して、係数βおよびβを推定した。トレーニングデータセット内のNPCサンプルおよび非NPCサンプル間の各サイトでの遺伝子型パターンを分析することによって、これを実行した。行列(c+d)×nをPythonに入力した、ここで、cはNPCサンプルの数、dはトレーニングセット内の非NPCサンプルの数、およびnは遺伝子型変異の数である。各行はサンプルを表し(0はNPCを有さない患者、1はNPCを有す患者)、各列は変異を表した。それにより、係数(βおよびβ)を推定できる。次いで、テストサンプルのNPCリスクスコアを、SNVサイトでのそれ自身の遺伝子型に基づいて導き出し、トレーニングモデルから推定された対応する係数βおよびβによって重み付けした(図16C)。
結果
NPCリスクスコアトレーニングモデルの構築
上記のように、以前に報告されたNPCおよび非NPCサンプルの血漿EBV DNA配列決定データを、NPCリスクスコアトレーニングモデルの開発のために使用した。漿サンプル中のEBV DNAを濃縮するために、ターゲットキャプチャーシーケンスを実施していた。NPCおよび非NPCサンプルからのEBV単離株のウィルスSNVプロファイルをここで研究した。このデータセットから、配列決定されたEBV DNAリードによってEBVゲノム全体のカバレッジの少なくとも30%を有するNPCおよび非NPCの症例を選択した。このカットオフが選択されたのは、トレーニングデータセット内の95%を超えるNPCサンプルが、カットオフよりも大きいウイルスゲノムカバレッジを有していたためである(表4Aおよび4B)。年齢や性別を含む、これらの選択されたNPCおよび非NPC被験者の人口統計、およびNPC患者の癌の病期情報(第8回AJCC版)を表5に示す。これらの選択されたNPCおよび非NPCサンプルの配列決定統計は、(表4Aおよび4B)に記載されている。
Figure 2022527316000023
これら63のNPCサンプルおよび88の非NPCサンプルのEBV SNVプロファイルを分析した。全サンプルのEBVゲノム全体のシーケンス深度の中央値は2倍であった(四分位範囲(IQR)、1.0倍~9.2倍)。NPCサンプルから同定されたEBV SNVの平均数は800(IQR、662~958)であり、非NPCサンプル間のSNVの平均数は539(範囲、363~656)であった。合計で、全サンプルで同定されたのは5678のさまざまなSNVであった。EBVゲノムにわたるこれらのSNVの分布を図16に示した。
トレーニングセットのNPCサンプルに対する各ウィルスSNVの関連も、フィッシャーの直接確率検定により研究した。偽発見率(FDR)を0.05に制御することにより、調整されたp値を有するNPCに関連する合計661の重要なSNVを同定した。これらの661のSNVのゲノム位置を表6に示す。続いて、NPCおよび非NPC被験者の血漿サンプルのテストセットのNPCリスクスコアを、これら661のSNVサイトの遺伝子型パターンに基づいて導き出した。
Figure 2022527316000024
Figure 2022527316000025
Figure 2022527316000026
NPCリスクスコアトレーニングモデルの評価
リーブワンアウトアプローチを使用してトレーニングセット内のサンプルのNPCリスクスコアを分析するために、トレーニングモデルを評価した。リーブワンアウトアプローチにおいて、トレーニングモデルの構築およびNPCリスクスコアの導出の原則は、該方法で説明したものと同じであった。トレーニングセットの1つのサンプルを除くすべてをトレーニングモデルの構築に使用し、除外されたサンプルをNPCリスクスコアについて分析できる。リーブワンアウトアプローチにおいて、NPCグループの中央値NPCリスクスコアは0.99(IQR、0.98~1.0)であり、非NPCグループの中央値は0.01(IQR、0.00~0.89)であった(図17A)。受信者動作特性(ROC)曲線分析を使用して、NPCリスクスコアによるNPCサンプルと非NPCサンプルとの識別を評価した。曲線値の下の面積は0.91であった(図17B)。
テストセットにおけるNPCリスクスコア分析
ターゲットキャプチャーシーケンスを、別の31人のNPC患者および45人の非NPC被験者の血漿サンプルで実施した。それらの中で、31のNPCサンプルおよび40の非NPCサンプルはすべて、配列決定されたEBV DNAリードによるEBVゲノムのカバレッジの少なくとも30%以上を有した。これらNPCおよび非NPC被験者の臨床的特徴を表7に要約する。この一連のテストサンプルの配列決定統計もまた、表4Aおよび4Bに記載する。
Figure 2022527316000027
開発されたトレーニングモデルに基づいて、31のNPCサンプルおよび40の非NPCサンプルのテストセットのNPCリスクスコアを分析した。サンプルのNPCリスクスコアは、トレーニングセットから同定された661の重要なSNV位置にわたるその変異パターンによって決定できる。EBVゲノムのカバレッジが不完全である可能性があるため、配列決定されたEBV DNAリードによってカバーされ、対応する対立遺伝子情報を有するSNVサイトのみをNPCリスクスコア分析に含めることができる(図16A、16Bおよび16C)。
NPCグループの中央値NPCリスクスコアは、0.999(IQR、0.996~0.999)であり、非NPCグループのそれは、0.557(IQR、0.000~0.996)であった(図18A)。同様に、これら31のNPCサンプルの中で、高いNPCリスクスコアが認められた。テストセットのNPCサンプルは、トレーニングセットのNPCサンプルと同様のEBV SNVプロファイルを共有できる。NPCリスクスコアによるNPCサンプルおよび非NPCサンプルの識別はまた、ROC曲線分析によっても評価した。曲線値の下の面積は0.83であった(図18B)。
テストセットにおける高リスク変異サイトにわたる遺伝子型パターンの分析
EBER(EBVでエンコードされたsmall RNA)領域には、高リスクNPC関連EBV変異体が存在する。EBER領域では、23の重要なSNVがHui et al.によって報告されてきた。NPCリスク予測の同様のアプローチが31のNPCサンプルおよび40の非NPCサンプルのテストセットで採用されたが、EBER領域で報告された23のSNVの遺伝子型パターンのみに基づいて分析された。
テストセットでは、71のNPCおよび非NPCサンプルのうち31(44%)が、23のSNVサイトすべてをカバーするEBV DNAリードを有していた。表8に示すように、これら23のSNVサイトのそれぞれについて、SNVサイトをカバーするリードを含む利用可能な遺伝子型情報を有していたのはサンプルの一部のみであった(つまり、23のSNVサイトすべてがサンプルの血漿EBV DNAリードでカバーされたわけではなかった)。NPCサンプル中の23のSNVサイトそれぞれでの高リスク遺伝子型のパーセンテージは、86%~97%の範囲である。非NPCサンプル中の高リスク遺伝子型のパーセンテージは、35%~52%の範囲である。分析されたNPCおよび非NPCサンプルの数は、利用可能な遺伝子型情報を含むサンプルに及ぶ(例えば、SNVサイトをカバーするEBV DNAリードを含む)。テストセット(31のNPCサンプルおよび40の非NPCサンプル)には、SNVサイトをカバーするリード、およびその対応するサイトで利用可能な遺伝子型情報を有するサンプルは一部のみであった。NPCサンプルと非NPCサンプルとの識別もまた、ROC曲線分析によってEBER領域の23のSNVの遺伝子型パターンを分析することによってのみ評価した。曲線下の面積は0.72であった(図19Aおよび19B)。この値は、EBVゲノム全体にわたる遺伝子型パターンの分析から得られた値(0.83)よりも低かった。EBVゲノム全体にわたる遺伝子型パターンの分析は、固定されたウィルスゲノム領域にわたる分析よりもNPCサンプルと非NPCサンプルとの識別をより良く達成することができる。
Figure 2022527316000028
同様に、BALF2(BamHI A左フレーム-2)遺伝子の3つの高リスクSNVも報告されている(Xu et al. Nat Genet. 2019; 51:1131-6)。テストセットでは、71のサンプルのうち55(78%)に、3つのSNVすべてをカバーするEBV DNAリードがあった。これらの3つのSNVサイトのそれぞれについて、テストセット内のサンプルの一部のみが、利用可能な遺伝子型情報を含むSNVサイトをカバーするリードを有していた(表9)。NPCサンプル中の3つのSNVサイトそれぞれでの高リスク遺伝子型のパーセンテージは86%~93%の範囲である。非NPCサンプル中の高リスク遺伝子型のパーセンテージは47%~65%の範囲である。BALF2遺伝子で3つの報告されたSNV(1つのNPCサンプルおよび3つの非NPCサンプル)のいずれかをカバーするEBV DNAリードがないケースが4例あり、これらのケースは分析できなかった。NPCリスク予測の同様のアプローチを、テストセットからの残りの30のNPCおよび37の非NPCサンプルで採用し、BALF2領域で報告された3つのSNVの遺伝子型パターンのみを分析した。NPCサンプルと非NPCサンプルとの識別はまた、ROC曲線分析によっても評価された。曲線下の面積は0.77であった(図20Aおよび20B)。この値は、EBVゲノム全体にわたる遺伝子型パターンの分析から得られた値(0.83)よりも低かった。EBVゲノム全体にわたる遺伝子型パターンの分析は、固定されたウィルスゲノム領域にわたる分析よりもNPCサンプルと非NPCサンプルとの識別をより良く達成することができる。
Figure 2022527316000029
この実施例で説明するNPCリスクスコア分析では、EBVゲノム上の661の重要なSNVのセット内でランダムに選択されたSNVの浮動数(floating number)にわたる遺伝子型パターンに基づくNPCリスク予測が可能である(表6)。NPCリスクスコア分析に使用されるSNVサイトの浮動数は、SNVサイトが配列決定されたEBV DNAリードによってカバーされ、対応する対立遺伝子情報を有するかどうかによって決定できる。661の重要なSNVのセットのダウンサンプリングを実施し、サンプルのNPC予測のパフォーマンスを、ダウンサンプリングされたSNVのセット内のSNVの浮動数により同じアプローチを使用してテストセットにおいて分析した。ダウンサンプリング分析では、661の重要なSNVからある特定の数(23、25、100、200または500など)のSNVがランダムに選択された。次いで、テストサンプルの場合、EBV DNAシーケンスリードでカバーされたダウンサンプリングされたSNVのセット内のSNVサイトを同定した。それから、カバーされ、ダウンサンプリングされたSNVサイトのトレーニングセットにおいて、NPCサンプルおよび非NPCサンプルの遺伝子型パターンを用いてモデルをトレーニングすることにより、NPCリスクスコアトレーニングモデルを取得した。該トレーニングを通じて、トレーニングモデルについて各サイトでの遺伝子型の重み付けを決定した。そして、これらのカバーされ、かつ、ダウンサンプリングされたSNVサイトにわたるそれ自身の遺伝子型パターンを、同様にダウンサンプリングされたSNVサイトに重み付けされたNPCリスクスコアトレーニングモデルに適用することによって、テストサンプルのNPCリスクスコアを導き出した。様々な数のSNVサイトを伴ったNPCリスクスコアトレーニングモデルの予測パフォーマンスを表10に要約する。所定の数のSNVサイトについて、SNVをランダムに選択してダウンサンプリングを10回実施し、表10の曲線値の下の面積は、10回のランダムダウンサンプリングの平均結果である。EBVゲノム全体にわたるSNVのセットは、23にダウンサンプリングされた、これは、EBER領域で報告されたSNVの数と同じである。NPCサンプルと非NPCサンプルとの識別を、ROC曲線分析によって評価した。曲線値の下の面積は0.78であった。この値は、EBER領域で報告された23のSNVの遺伝子型パターンの分析による値(0.72)よりも高かった。
Figure 2022527316000030
この研究は、血漿DNA配列決定によるEBV遺伝子型情報の分析を報告する。ペアエンドシーケンシングを通じて、血漿EBV DNAを保有するNPC被験者と非NPC被験者との間で、数やサイズを含む血漿EBV DNA分子の分子特性の識別を同定した。血漿EBV DNAのこのようなカウントおよびサイズベースの分析を組み込むことで、現在のPCRベースのプロトコルの陽性予測値をほぼ2倍にすることができ、これが第2世代の配列決定ベースのスクリーニングテストの基礎を形成することができる。NPCおよび非NPC被験者からの血漿サンプルの配列決定により、EBV遺伝子型情報を付加的に得ることができ、その潜在的な臨床的有用性を高めることができる。
NPCリスクスコアは、単一の遺伝子マーカーではなく、ウィルスゲノムワイドマーカーによって決定するために使用できる。ここで、リスクスコアは、EBVゲノムにわたるSNVサイトの識別を通した変異パターンに基づいて導き出された。EBV遺伝子型情報の血漿配列決定は、低濃度のEBV DNA分子を有する血漿サンプルの配列決定を包含し得、したがって、EBVゲノムのカバレッジが不完全な結果になる。あるケースでは、情報価値のあるSNVサイトが、どのEBV DNAリードでもカバーされていない可能性があり、またあるケースでは、個人が高リスクのEBV株タイプを有しているかどうかを判断することができない可能性がある。このことは、EBER遺伝子で報告された23のSNVサイトそれぞれについて、テストセット内の分析された71サンプルのうち一部のみでしかサイトをカバーするリードを有していなかったという結果によってサポートされている。テストセットにおけるNPCサンプルは、NPCリスクスコアが高いことが示された、これは、NPC関連EBV SNVプロファイルの存在を示し得る。ここでは、血漿サンプル中のEBV DNA分子の濃縮に捕捉プローブ法を採用した。アンプリコンシーケンスアプローチを使用し、遺伝子型情報の高リスク変異領域をターゲットにできるEBV DNAフラグメントを濃縮することもできる。
EBER遺伝子およびBALF2遺伝子の最近報告された高リスク変異サイトのテストセットにおける、NPCおよび非NPCサンプルの遺伝子型パターンをここで分析した。NPCおよび非NPCサンプルにおける高リスク遺伝子型の分布は、細胞サンプル、すなわちNPC腫瘍組織および正常な対照被験者の唾液サンプルを分析した2つの研究の結果と一致する。現在の研究を含む3つの研究はすべて、中国南部の同じかまたは隣接する地域で実施されたため、正常な対照被験者間のEBV遺伝子型の分布が類似している可能性がある。これは、血漿サンプルの配列決定を通じたEBVジェノタイピング分析の実現可能性の証拠を提供するものである。
スクリーニングのコンテキストで血漿サンプルからEBV SNVをプロファイリングすることには臨床的有用性があり得る。前述のように、スクリーニング集団の約5%は、血漿中にEBV DNAを保有することができるが、NPCを有してはいない(偽陽性グループ)。ここでのデータは、これらの非NPC被験者が、多様なEBV SNVプロファイルを包含し得る変動性のNPCリスクスコアを有していることを明らかにした。将来的なNPC発症のリスクが異なる、異質な個人グループが存在する可能性があり得る。高リスクのEBV株を保有している人の中には、NPCの将来のリスクがより高くなる人も存在し得る。NPCリスクスコアを使用して、ウィルスゲノムワイドなSNVプロファイルに基づいて、これらの非NPC被験者をさまざまなリスクグループに層別化することができる。一例では、NPCリスクスコアが高い被験者については、より頻繁なスクリーニングの根拠となり得る。
NPC患者および非NPC被験者からのEBV遺伝子型情報を、血漿サンプルの配列決定分析を通じて分析した。以前の研究は、集団レベルでのNPCに関連する高リスク変異を同定することに焦点を当てていたが、この研究は、ウィルス遺伝子型分析の臨床応用に関する洞察を提供する。かかる分析を使用して、彼らが保有するEBV遺伝子型を特性づけることにより、個々に対して癌のリスク情報を与えることができる。
本開示の好ましい実施形態が本明細書に示され、説明されてきたが、そのような実施形態が例としてのみ提供されることは当業者には明らかであろう。多くの変形、変更および置換が、本開示から逸脱することなく、当業者に発生するであろう。本開示を実施する際に、本明細書に記載の本開示の実施形態に対する様々な代替案を使用できることを理解されたい。以下の特許請求の範囲は、開示の範囲を定義し、これらの特許請求の範囲内の方法および構造、ならびにそれらの同等物は、それによってカバーされることが意図されている。

Claims (79)

  1. 被験者における病原体関連障害をスクリーニングする方法であって、
    前記被験者の生物学的サンプル中の病原体からの無細胞核酸分子の特性を決定することを含む、第1の時点で実施される第1のアッセイからのデータを受け取るステップであって、前記病原体からの前記無細胞核酸分子の前記特性が、量、メチル化状態、変異パターン、フラグメントサイズ、または前記生物学的サンプル中の前記被験者からの無細胞核酸分子と比較した相対的存在量を含み、かつ、前記特性が、前記被験者が前記病原体関連障害を発症するリスクを示す受け取るステップと、
    前記特性に基づいて、前記被験者における前記病原体関連障害をスクリーニングするために第2のアッセイが実施される第2の時点を決定するステップであって、前記第1の時点および前記第2の時点との間の間隔が、前記リスクと逆相関する、決定するステップと、を含む、スクリーニングする方法。
  2. 被験者における病原体関連障害を予後診断する方法であって、
    前記被験者の生物学的サンプル中の病原体からの無細胞核酸分子の特性を決定することを含む、第1のアッセイからのデータを受け取るステップであって、前記病原体からの前記無細胞核酸分子の前記特性が、量、メチル化状態、変異パターン、フラグメントサイズ、または前記生物学的サンプル中の前記被験者からの無細胞核酸分子と比較した相対的存在量を含む、受け取るステップと、
    前記病原体由来の前記無細胞核酸分子の前記特性、ならびに前記被験者の年齢、前記被験者の喫煙習慣、前記被験者の病原体関連障害の家族歴、前記被験者の遺伝子型因子、前記被験者の民族性、もしくは前記被験者の食歴の1つ以上の要因に基づいて、前記被験者が、前記病原体関連障害を発症するリスクを示すレポートを作成するステップと、
    を含む、予後診断する方法。
  3. 前記第1のアッセイの結果が、前記病原体関連障害の前記被験者の医学的治療という結果をもたらさない、請求項1に記載の方法。
  4. 前記医学的治療が、治療薬による治療、放射線療法または外科的治療を含む、請求項3に記載の方法。
  5. 前記被験者が、偽陽性率が1%未満である臨床診断検査によって前記第2の時点の決定前に、前記病原体関連障害を有さないと診断される、請求項1、3または4のいずれかに記載の方法。
  6. 前記臨床診断検査が、身体検査、侵襲的生検、内視鏡検査、磁気共鳴画像法、陽放射断層撮影法、コンピュータ断層撮影法、またはX線画像法を含む、請求項5に記載の方法。
  7. 前記臨床診断検査が、組織学的分析、細胞学的分析、または細胞核酸分析を含む侵襲的生検を含む、請求項5に記載の方法。
  8. 前記間隔が、少なくとも約2か月、4か月、6か月、8か月、10か月、または12か月である、請求項1,3または7のいずれかに記載の方法。
  9. 前記間隔が、少なくとも約12ヶ月である、請求項8に記載の方法。
  10. 前記第1のアッセイを実施することをさらに含む、請求項1~9のいずれかに記載の方法。
  11. 前記第1のアッセイを実施することが、
    (i)前記被験者から第1の生物学的サンプルを取得することと、
    (ii)前記第1の生物学的サンプル中の前記病原体から、第1の量の無細胞核酸分子を測定することと、
    を含む、請求項10に記載の方法。
  12. 前記第1の量の測定が、前記第1の生物学的サンプル中の前記病原体から、前記無細胞核酸分子のコピー数を測定することを含む、請求項11に記載の方法。
  13. 前記測定が、ポリメラーゼ連鎖反応(PCR)を含む、請求項11または12に記載の方法。
  14. 前記測定が、定量PCR(qPCR)を含む、請求項11または12に記載の方法。
  15. 前記第1の量が、前記第1の生物学的サンプル中の前記病原体から、前記無細胞核酸分子の第1のパーセンテージを測定することを含む、請求項11に記載の方法。
  16. 前記第1のアッセイが、
    (iii)前記第1の量が閾値を超える場合、前記被験者から第2の生物学的サンプルを取得すること、および該第2の生物学的サンプル中の前記病原体から、第2の量の無細胞核酸分子を測定することをさらに含む、請求項11~15のいずれかに記載の方法。
  17. 前記第2の生物学的サンプルが、前記第1の生物学的サンプルから約4週間後に取得される、請求項16に記載の方法。
  18. 前記第1の時点と前記第2の時点との間の前記間隔が、前記第2の量が前記閾値を下回る場合の間隔と比較して、前記第1の量および前記第2のコピー数の両方が前記閾値を上回る場合の方がより短い、請求項16または17に記載の方法。
  19. 前記第1の時点と前記第2の時点との間の前記間隔が、前記第1の量が前記閾値を上回る場合の間隔と比較して、前記第1の量が前記閾値を下回る場合の方がより長い、請求項16~18のいずれかに記載の方法。
  20. 前記第1の時点と前記第2の時点との間の前記間隔が、前記第1の量および前記第2の量の両方が前記閾値を上回る場合、約1年である、請求項16~19のいずれかに記載の方法。
  21. 前記第1の時点と前記第2の時点との間の前記間隔が、前記第2の量が前記閾値を下回る場合、約2年である、請求項16~20のいずれかに記載の方法。
  22. 前記第1の時点と前記第2の時点との間の前記間隔が、前記第1の量が前記閾値を下回る場合、約4年である、請求項16~21のいずれかに記載の方法。
  23. 前記第1のアッセイが、
    前記生物学的サンプル中の前記病原体から、前記無細胞核酸分子のメチル化状態を決定することを含む、請求項10に記載の方法。
  24. 前記メチル化状態の決定が、前記生物学的サンプル中の前記無細胞核酸分子をメチル化感受性制限酵素またはバイサルファイトで処理することを含む、請求項23に記載の方法。
  25. 前記メチル化状態の決定が、前記被験者の前記生物学的サンプル中の無細胞核酸のメチル化認識配列決定を実施することを含む、請求項23に記載の方法。
  26. 前記メチル化認識配列決定が、メチル化されていないシトシンのウラシルへのバイサルファイト変換を含む、請求項25に記載の方法。
  27. 前記メチル化認識配列決定が、メチル化感受性制限酵素による処理を含む、請求項25に記載の方法。
  28. 前記第1のアッセイが、
    前記生物学的サンプル中の前記病原体から、前記無細胞核酸分子のフラグメントサイズ分布を決定することを含む、請求項10に記載の方法。
  29. 前記フラグメントサイズ分布の決定が、前記生物学的サンプル中の無細胞核酸分子の配列決定を実施することと、前記病原体の前記参照ゲノムにマッピングされたシーケンスリードに基づいて、前記生物学的サンプル中の前記病原体から、前記無細胞核酸分子のフラグメントサイズを決定することと、を含む、請求項28に記載の方法。
  30. 前記第1のアッセイが、
    前記生物学的サンプル中の前記病原体から、前記無細胞核酸分子の変異パターンを決定することを含む、請求項10に記載の方法。
  31. 前記変異パターンの決定が、前記生物学的サンプル中の無細胞核酸分子の配列決定を実施することと、前記病原体の前記参照ゲノムにマッピングされたシーケンスリードに基づいて、前記生物学的サンプル中の前記病原体から、前記無細胞核酸分子の前記変異パターンを決定することと、を含む、請求項30に記載の方法。
  32. 前記病原体からの前記無細胞核酸分子の前記変異パターンが、一塩基変異を含む、請求項30または31に記載の方法。
  33. 前記変異パターンの同定が、
    前記病原体の前記参照ゲノムにマッピングされた前記シーケンスリードと、前記病原体の障害関連参照ゲノムとの間の類似性レベルの決定を含む、請求項32に記載の方法。
  34. 前記病原体の前記障害関連参照ゲノムが、病変組織で同定された前記病原体のゲノムを含む、請求項33に記載の方法。
  35. 前記類似性レベルの決定が、
    前記病原体の前記参照ゲノムを、複数のビンに分離することと、
    前記病原体の前記障害関連参照ゲノムに対する前記複数のビンのそれぞれの類似性指数を決定することであって、前記類似性指数が、前記病原体の前記参照ゲノムにマッピングされた前記シーケンスリードの少なくとも1つが、前記病原体の前記障害関連参照ゲノムと同じヌクレオチド変異体を有する、各々のビンの中の変異サイトの割合と相関する、決定することと、を含む類似性レベルの決定である、請求項33または34の方法。
  36. 前記病原体の前記障害関連参照ゲノムが、前記病原体の複数の障害関連参照ゲノムを含み、かつ、前記類似性レベルの決定が、
    前記病原体の前記複数の障害関連参照ゲノムのそれぞれに対して、前記複数のビンのそれぞれについて各々、類似性指数を決定することと、
    前記各々のビン内の前記各々の類似性指数が、カットオフ値を上回る前記複数の障害関連参照ゲノムの比率に基づいて、前記複数のビンのそれぞれについてビンスコアを決定することと、を含む、請求項35の記載の方法。
  37. 前記複数のビンの長さがそれぞれ、約100、200、300、400、500、600、700、800、900、または1000bpである、請求項35または36に記載の方法。
  38. 前記第1のアッセイが、前記生物学的サンプル中の前記病原体からの前記無細胞核酸分子の、前記メチル化状態か、前記フラグメントサイズ分布か、または前記変異パターンか、を決定することを含む、請求項10~37のいずれかに記載の方法。
  39. 前記生物学的サンプル中の前記病原体からの前記無細胞核酸分子の前記特性を含む、データ入力に適用される分類子を使用して、前記被験者が前記病原体関連障害を発症するリスクスコアを計算することを含むものであって、前記分類子が、前記生物学的サンプル中の前記病原体からの前記無細胞核酸分子の前記特性を含む前記データ入力に関数を適用するように構成され、前記被験者が前記障害を発症する前記リスクを評価する前記リスクスコアを含む出力を生成する、計算することをさらに含む、請求項1~38のいずれかに記載の方法。
  40. 前記分類子が、ラベル付けされたデータセットでトレーニングされる、請求項39に記載の方法。
  41. 前記第2の時点で前記第2のアッセイを実施することをさらに含む、請求項1に記載の方法。
  42. 前記第2のアッセイが、前記第1のアッセイと同一である、請求項41に記載の方法。
  43. 前記第2のアッセイが、前記被験者からの無細胞核酸分子のアッセイ、前記被験者の侵襲的生検、前記被験者の内視鏡検査、または前記被験者の磁気共鳴画像検査を含む、請求項41に記載の方法。
  44. 被験者の生物学的サンプルから核酸分子を分析する方法であって、
    コンピュータシステムにおいて、前記被験者の前記生物学的サンプルから無細胞核酸分子のシーケンスリードを取得するステップであって、前記生物学的サンプルが、前記被験者からの、および潜在的に病原体からの無細胞核酸分子を含む、取得するステップと、
    前記コンピュータシステムにおいて、前記無細胞核酸分子の前記シーケンスリードを、前記病原体の参照ゲノムにアラインさせるステップと、
    前記コンピュータシステムにおいて、前記病原体からの前記無細胞核酸分子の変異パターンを同定するステップであって、前記変異パターンが、前記病原体の前記参照ゲノム上の複数の変異サイトのそれぞれで、前記病原体の前記参照ゲノムにマッピングされた前記シーケンスリードのヌクレオチド変異体を特性化し、前記複数の変異サイトが、前記病原体の前記参照ゲノムにわたり少なくとも30のサイトを含み、かつ、前記変異パターンが、前記被験者における病原体関連障害の状態、またはそのリスクを示す、同定するステップと、
    を含む、分析する方法。
  45. 前記複数の変異サイトが、前記病原体の前記参照ゲノムにわたって、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも1100、または少なくとも1200のサイトを含む、請求項44に記載の方法。
  46. 前記複数の変異サイトが、前記病原体の前記参照ゲノムにわたって少なくとも600のサイトを含む、請求項44に記載の方法。
  47. 前記複数の変異サイトが、前記病原体の前記参照ゲノムにわたって約660のサイトを含む、請求項44に記載の方法。
  48. 前記複数の変異サイトが、前記病原体の前記参照ゲノムにわたって少なくとも1000のサイトを含む、請求項44に記載の方法。
  49. 前記複数の変異サイトが、前記病原体の前記参照ゲノムにわたって約1100のサイトを含む、請求項44に記載の方法。
  50. 前記複数の変異サイトが、前記病原体の前記参照ゲノムにマッピングされた前記シーケンスリードが、前記病原体の前記参照ゲノムとは異なるヌクレオチド変異を有するすべてのサイトからなる、請求項44に記載の方法。
  51. 前記シーケンスリードのアラインが、前記病原体の前記参照ゲノムにマッピングされた前記シーケンスリードと、前記病原体の前記参照ゲノムとの間で、10、9、8、7、6、5、4、3、2、または1塩基の最大ミスマッチを許容するように構成されている、請求項44~50のいずれかに記載の方法。
  52. 前記シーケンスリードのアラインが、前記病原体の前記参照ゲノムにマッピングされた前記シーケンスリードと、前記病原体の前記参照ゲノムとの間で、2塩基の最大ミスマッチを許容するように構成されている、請求項44~50のいずれかに記載の方法。
  53. 前記病原体の前記参照ゲノムにマッピングされた前記シーケンスリードの前記変異パターンに基づいて、前記被験者における前記病原体関連障害を、診断、予後診断またはモニタリングすることをさらに含む、請求項44~52のいずれかに記載の方法。
  54. 前記病原体からの前記無細胞核酸分子の前記変異パターンが、一塩基変異を含む、請求項44~53のいずれかに記載の方法。
  55. 前記変異パターンの同定が、
    前記病原体の前記参照ゲノムにマッピングされた前記シーケンスリードと、前記病原体の障害関連参照ゲノムとの間の類似性レベルを決定することを含む、請求項44~54のいずれかに記載の方法。
  56. 前記病原体の前記障害関連参照ゲノムが、病変組織で同定された前記病原体のゲノムを含む、請求項55に記載の方法。
  57. 前記類似性レベルの決定が、
    前記病原体の前記参照ゲノムを複数のビンに分離することと、
    前記病原体の前記障害関連参照ゲノムに対する、前記複数のビンのそれぞれの類似性指数を決定することであって、前記類似性指数が、前記病原体の前記参照ゲノムにマッピングされた前記シーケンスリードの少なくとも1つが、前記病原体の前記障害関連参照ゲノムと同じヌクレオチド変異を有する、前記各々のビン内の変異サイトの割合と相関する、決定することと、を含む、請求項55または56に記載の方法。
  58. 前記病原体の前記障害関連参照ゲノムが、前記病原体の複数の障害関連参照ゲノムを含み、かつ、前記類似性レベルの決定が、
    前記病原体の前記複数の障害関連参照ゲノムそれぞれに対して、前記複数のビンのそれぞれについて各々の類似性指数を決定することと、
    前記各々のビン内の前記各々の類似性指数が、カットオフ値を上回る前記複数の障害関連参照ゲノムの比率に基づいて、前記複数のビンそれぞれのビンスコアを決定することと、を含む、請求項57に記載の方法。
  59. 前記カットオフ値が約0.9である、請求項58に記載の方法。
  60. 前記複数のビンの長さがそれぞれ、約100、200、300、400、500、600、700、800、900、または1000bpである、請求項57~59のいずれかに記載の方法。
  61. 前記病原体からの前記無細胞核酸分子の前記変異パターンを含むデータ入力に適用された分類子を使用して、前記被験者が前期病原体関連障害を発症するリスクスコアを計算することであって、前記分類子が、前記病原体からの前記無細胞核酸分子の前記変異パターンを含むデータ入力に関数を適用するように構成され、前記被験者が前記障害を発症する前記リスクを評価する前記リスクスコアを含む出力を生成する、計算することをさらに含む、請求項44~60のいずれかに記載の方法。
  62. 前記分類子が、ラベル付けされたデータセットでトレーニングされる、請求項61に記載の方法。
  63. 前記分類子が、ナイーブベイズモデル、ロジスティック回帰、ランダムフォレスト、ディシジョンツリー、勾配ブースティングツリー、ニューラルネットワーク、深層学習、線形/カーネルサポートベクターマシン(SVM)、線形/非線形回帰、または線形判別分析を使用した数学モデルを含む、請求項61または62に記載の方法。
  64. 前記病原体がウィルスである、請求項44~63のいずれかに記載の方法。
  65. 前記ウィルスが、エプスタイン・バール・ウィルス(EBV)である、請求項64に記載の方法
  66. 前記病原体関連障害が、鼻咽頭癌、NK細胞リンパ腫、バーキットリンパ腫、移植後リンパ増殖性疾患、またはホジキンリンパ腫を含む、請求項65に記載の方法。
  67. 前記病原体からの前記無細胞核酸分子の前記変異パターンが、EBV参照ゲノム(AJ507799.2)に関連する表6に記載されているゲノムサイトから選択される少なくとも30、40、50、100、150、200、250、300、350、400、450、500、550、または600のサイトを含む、前記複数の変異サイトのそれぞれで前記病原体の前記参照ゲノムにマッピングされた前記シーケンスコードのヌクレオチド変異体を特性化する、請求項65または66に記載の方法。
  68. 前記複数の変異サイトが、EBV参照ゲノム(AJ507799.2)に関連する表6に記載されているゲノムサイトを含む、請求項67に記載の方法。
  69. 前記病原体からの前記無細胞核酸分子の前記変異パターンが、EBV参照ゲノム(AJ507799.2)に関連する表6に記載されているゲノムサイトからランダムに選択された、前記複数の変異サイトのそれぞれで前記病原体の前記参照ゲノムにマッピングされた、前記シーケンスコードのヌクレオチド変異体を特性化する、請求項65または66に記載の方法。
  70. 前記病原体からの前記無細胞核酸分子の前記変異パターンが、EBV参照ゲノム(AJ507799.2)に関連する表6に記載されているゲノムサイトからランダムに選択される、少なくとも30、40、50、100、150、200、250、300、350、400、450、500、550、または600のサイトを含む、前記複数の変異サイトのそれぞれで前記病原体の前記参照ゲノムにマッピングされた前記シーケンスコードのヌクレオチド変異体を特性化する、請求項65または66に記載の方法。
  71. 前記ウィルスが、ヒトパピローマウィルス(HPV)である、請求項64に記載の方法。
  72. 前記病原体関連障害が、子宮頸癌、中咽頭癌または頭頸部癌を含む、請求項71に記載の方法。
  73. 前記ウィルスが、B型肝炎ウィルス(HBV)である、請求項64に記載の方法。
  74. 前記病原体関連障害が、肝硬変または肝細胞癌(HCC)を含む、請求項73に記載の方法。
  75. 前記変異パターンが、前記被験者における病原体関連障害の状態を示し、かつ、前記病原性関連障害の前記状態が、前記被験者における前記病原性関連障害の存在、前記被験者における腫瘍組織の量、前記被験者における腫瘍組織のサイズ、前記被験者における腫瘍の病期、前記被験者における腫瘍負荷、または前記被験者における腫瘍転移の存在を含む、請求項44~74のいずれかに記載の方法。
  76. 前記生物学的サンプルが、全血、血漿、血清、尿、脳脊髄液、バフィーコート、膣液、膣洗浄液、唾液、口腔リンス液、鼻洗浄液、鼻ブラシサンプル、および それらの組み合わせからなる群から選択される、請求項44~75のいずれかに記載の方法。
  77. 1つ以上のコンピュータプロセッサによる実行によって、請求項1~76のいずれかの方法を実装する機械実行可能コードを含む非一時的なコンピュータ可読媒体。
  78. コンピュータシステムを制御して請求項1~76のいずれかの方法のオペレーションを実施するための複数の命令を記憶する、非一時的なコンピュータ可読媒体を含むコンピュータ製品。
  79. 請求項78に記載のコンピュータ製品と、
    前記コンピュータ可読媒体に記憶された命令を実行するための1つ以上のプロセッサと、を含むシステム。
JP2021557959A 2019-04-02 2020-04-01 ウィルスに関連した癌のリスクの層別化 Pending JP2022527316A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962828224P 2019-04-02 2019-04-02
US62/828,224 2019-04-02
US202062961517P 2020-01-15 2020-01-15
US62/961,517 2020-01-15
PCT/US2020/026269 WO2020206041A1 (en) 2019-04-02 2020-04-01 Stratification of risk of virus associated cancers

Publications (2)

Publication Number Publication Date
JP2022527316A true JP2022527316A (ja) 2022-06-01
JPWO2020206041A5 JPWO2020206041A5 (ja) 2023-04-05

Family

ID=72663748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021557959A Pending JP2022527316A (ja) 2019-04-02 2020-04-01 ウィルスに関連した癌のリスクの層別化

Country Status (11)

Country Link
US (1) US20200318190A1 (ja)
EP (1) EP3947742A4 (ja)
JP (1) JP2022527316A (ja)
KR (1) KR20210149052A (ja)
CN (1) CN113710818A (ja)
AU (1) AU2020254695A1 (ja)
CA (1) CA3128379A1 (ja)
IL (1) IL285312A (ja)
SG (1) SG11202108621RA (ja)
TW (1) TW202102688A (ja)
WO (1) WO2020206041A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024010081A1 (ja) * 2022-07-08 2024-01-11 国立大学法人熊本大学 多項目同時測定データを活用した高精度診断システム、高精度診断方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4269623A3 (en) * 2010-11-30 2024-03-06 The Chinese University Of Hong Kong Analysis of a biological sample of an organism for chromosomal deletions or amplifications associated with cancer
WO2014014498A1 (en) * 2012-07-20 2014-01-23 Verinata Health, Inc. Detecting and classifying copy number variation in a fetal genome
CN110100013A (zh) * 2016-10-24 2019-08-06 香港中文大学 用于肿瘤检测的方法和系统
CA3051509A1 (en) * 2017-01-25 2018-08-02 The Chinese University Of Hong Kong Diagnostic applications using nucleic acid fragments
EP3658684B1 (en) * 2017-07-26 2023-08-30 The Chinese University Of Hong Kong Enhancement of cancer screening using cell-free viral nucleic acids

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024010081A1 (ja) * 2022-07-08 2024-01-11 国立大学法人熊本大学 多項目同時測定データを活用した高精度診断システム、高精度診断方法及びプログラム

Also Published As

Publication number Publication date
WO2020206041A1 (en) 2020-10-08
CA3128379A1 (en) 2020-10-08
EP3947742A4 (en) 2022-12-28
US20200318190A1 (en) 2020-10-08
IL285312A (en) 2021-09-30
KR20210149052A (ko) 2021-12-08
CN113710818A (zh) 2021-11-26
EP3947742A1 (en) 2022-02-09
AU2020254695A1 (en) 2021-08-19
SG11202108621RA (en) 2021-10-28
TW202102688A (zh) 2021-01-16

Similar Documents

Publication Publication Date Title
JP7168247B2 (ja) 癌スクリーニング及び胎児分析のための変異検出
US11459616B2 (en) Methods and systems for tumor detection
CN108138233B (zh) Dna混合物中组织的单倍型的甲基化模式分析
US10731224B2 (en) Enhancement of cancer screening using cell-free viral nucleic acids
JP2023540257A (ja) がんを分類するためのサンプルの検証
JP2022527316A (ja) ウィルスに関連した癌のリスクの層別化
WO2024118500A2 (en) Methods for detecting and treating ovarian cancer
CN115667544A (zh) 鉴定染色体外dna特征的方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20220316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230327

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240507