JP2023554505A - サンプルを臨床関連カテゴリーに分類する方法 - Google Patents

サンプルを臨床関連カテゴリーに分類する方法 Download PDF

Info

Publication number
JP2023554505A
JP2023554505A JP2023537595A JP2023537595A JP2023554505A JP 2023554505 A JP2023554505 A JP 2023554505A JP 2023537595 A JP2023537595 A JP 2023537595A JP 2023537595 A JP2023537595 A JP 2023537595A JP 2023554505 A JP2023554505 A JP 2023554505A
Authority
JP
Japan
Prior art keywords
sample
score
cfdna
determined
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023537595A
Other languages
English (en)
Inventor
ジョージ コームバリス
アチレス アチロス
アレクシア エリーデス
チャラランボス ロズィデス
キリアコス ツァンガラス
エレナ キプリ
マリオス イオニーデス
フィリッポス パトゥサリス
Original Assignee
メディカバー バイオテック リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by メディカバー バイオテック リミテッド filed Critical メディカバー バイオテック リミテッド
Publication of JP2023554505A publication Critical patent/JP2023554505A/ja
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Pathology (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Cell Biology (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)

Abstract

本開示は、臨床関連カテゴリーへの生物学的サンプルの分類のための方法及びキットを提供する。本方法は、(i)複数の無細胞DNA(cfDNA)断片を含むサンプルにおいて、少なくとも100,000cfDNA断片の開始及び/又は停止の配列座標を参照配列へのアライメントによって決定するステップと、(ii)トリヌクレオチド、テトラヌクレオチド及びペンタヌクレオチドで構成されるすべての核酸モチーフを参照配列中で決定するステップとを含む。前記ヌクレオチドは、(a)(i)で決定された各開始及び/又は停止配列座標に対して内側の、ただしそれに隣接する1~5塩基対の範囲内、及び/又は(b)(i)で決定された各開始及び/又は停止配列座標に対して外側の、ただしそれに隣接する1~5塩基対の範囲内におけるものである。続いて、第3のステップ(iii)において、(a)サンプルに含まれる複数のcfDNA断片における、(i)で決定された各配列座標+及び/又は-1塩基対、並びに(b)サンプルに含まれる複数のcfDNA断片における、(ii)a)及びb)で決定された核酸モチーフの各々の頻度が決定される。これらの頻度を使用して、対応する参照頻度に対する、(iii)a)及びb)で決定された頻度の各々の比が計算される。診断スコアは、上記の各比について別々に計算される。最終ステップとして、決定された少なくとも2つ以上の診断スコアからの組合せ診断スコアが計算される。診断スコア及び組合せ診断スコアは、臨床関連カテゴリーへのサンプルの分類を可能にし、及び組合せ診断スコアは、低量、中量及び高量へのサンプル中の無細胞及び/又は循環腫瘍DNAの分類をさらに可能にする。

Description

本発明は、生物学、医学及び化学の分野、特に分子生物学の分野、より特に分子診断の分野におけるものである。
真核生物ゲノムは、クロマチン中に組織化され、それにより、DNAのコンパクト化だけでなく、DNA代謝(複製、転写、修復、組換え)のレギュレーションも可能になる。真核生物のクロマチン構造のシグネチャー、特にヌクレオソーム配置は、真核生物に存在する複合混合物中の稀有な核酸断片を同定するために使用可能であることが示されている(Heitzer E.et al.,Nat.Rev.Genet.,2019,20(2):71-88)。
ヌクレオソームによるDNAの保護は、近くのゲノミック位置と比較したとき、特異的サイズ分布の核酸断片の末端が予想よりも高い頻度で発生することが見出される、ゲノム中の領域として定義される非ランダム断片化のホットスポット(HSNRF)の存在に関与するという仮説が立てられている。
癌は、ヒト身体の容易にアクセス可能でない位置に見出されることが多い。癌の診断のための「ゴールドスタンダード」の侵襲的外科的生検は、出血及び感染をはじめとする有意な臨床的リスクを課す。かかる侵襲的手順の欠点には、腫瘍組織から採取されたサンプルが、手順が行われたときからの空間的に限定された表現のみであるという事実が含まれる。しかしながら、癌は、静的状態のままであるわけではなく、連続変化を受けて腫瘍内において且つ原発癌及び転移癌間でジェネティックヘテロジニアス性をもたらす。癌の診断、モニタリング及び療法ガイダンスのための非侵襲的/最小侵襲的方法の開発に多くの労力が払われてきた。母体血漿からの無細胞DNAを用いて数値異常の非侵襲的出生前検査に成功した技術開発も、癌の診断のためにバイオマーカーの発見に使用可能であった。血漿中の循環腫瘍DNAの発見は、癌処置への応答の検出、予後及び予測のために、侵襲的外科的手順に関連するリスクに対処する必要もなく、それをバイオマーカーとして利用して液状生検検査を採用する可能性を提供してきた。この技術は、癌をその早期ステージで検出して回復の成功の可能性を増加させ、最も適切な療法の選択を支援することにより癌患者に利益を与え、且つさらに処置経過後に微小残留疾患の検出を促進して、臨床医が必要な医学的介入を行うことを支援する。合併症のリスクを有する現在の侵襲的検査方法と異なり、液状生検は、血液、尿、痰などのサンプルを使用するため、患者にとって本質的に安全である。
これまで、予後バイオマーカー、療法への応答及び/又は抵抗性並びに疾患の再発のインジケーターとして無細胞腫瘍DNA(cftDNA)を使用するために、血漿中に見出される無細胞DNA(cfDNA)の合計量への腫瘍由来寄与の推定値の提供を試みるごく限られた数の方法が記載されてきたにすぎない(Smith C.G.et al.,Genome Med.,2020,12(1):23、Peiyong Jiang et al.,PNAS,2018,115(46):E10925-E10933、Cristiano S.et al.Nature,2019,570:385-389、Mouliere et al.,Sci.Transl.Med.,2018,10(466):eaat4921、Newman A.et al.,Nat. Med.,2014,20(5):548-554)。
現在の液状生検ベース検査は、複雑であるうえに感度及び特異度が限られるため、精度のよいオンコロジーのニーズを満たすことができない(De Rubis G. et al.,Trends Pharmacol Sci.,2019,40(3):172-186、Peiyong Jiang et al.,Cancer Discov.,2020,CD-19-0622)。そのため、かかる方法の確度は、十分に高くなく、誤解を招く結果を生じさせる可能性がある。
本発明は、循環腫瘍DNA(ctDNA)のシーケンシングから抽出可能な情報の範囲を拡大して新規マルチパラメーター戦略を実現し、臨床関連カテゴリーへのサンプルの分類のためのロバストで感度のよい特異的液状生検アッセイを確立することにより、従来技術の液状生検アプローチが直面する限界への解決策を提供する。
本発明は、他の液状生検アプローチが現在直面する確度限界への解決策を提供する。本発明は、無細胞腫瘍DNA又はctDNAのシーケンシングから抽出可能な情報の範囲を拡大して新規マルチパラメーター戦略を実現し、臨床関連カテゴリーへのサンプルの分類のためのロバストで感度のよい特異的液状生検アッセイを確立することにより、前記確度限界を克服する。
一実施形態では、本発明は、無細胞腫瘍DNAを含むものとしてサンプルを分類する方法に関し、本方法は、
(i)複数の無細胞DNA(cfDNA)断片を含むサンプルにおいて、少なくとも100,000cfDNA断片の開始及び/又は停止の配列座標を参照配列へのアライメントによって決定するステップと、
(ii)a)(i)で決定された各開始及び/又は停止配列座標に対して内側の、ただしそれに隣接する1~5塩基対の範囲内、及び/又は
b)(i)で決定された各開始及び/又は停止配列座標に対して外側の、ただしそれに隣接する1~5塩基対の範囲内
において、トリヌクレオチド、テトラヌクレオチド及びペンタヌクレオチドで構成されるすべての核酸モチーフを参照配列中で決定するステップと、
(iii)a)サンプルに含まれる複数のcfDNA断片における、(i)で決定された各配列座標+及び/又は-1塩基対、
b)サンプルに含まれる複数のcfDNA断片における、(ii)a)及びb)で決定された核酸モチーフの各々
の頻度を決定するステップと、
(iv)対応する参照頻度に対する、(iii)a)及びb)で決定された頻度の各々の比を計算するステップと、
(v)ステップ(iv)で決定された各比について別々に診断スコアを計算するステップであって、前記スコアは、ステップ(iv)のすべてのそれぞれの頻度比のそれぞれの加重和である、ステップと、
(vi)(v)で決定された診断スコアの少なくとも2つ以上から組合せ診断スコアを計算するステップであって、前記スコアは、(v)で決定された前記2つ以上の診断スコアの加重和である、ステップと、
(vii)組合せ診断スコアと参照スコアとを比較することにより、サンプルの分類を決定するステップと
を含み、サンプルは、組合せ診断スコア値が参照スコアの平均よりも参照スコアの少なくとも1標準偏差だけ高い場合、腫瘍cfDNAを含むものとして分類され、参照スコアは、1つ以上の参照値から計算される。
一実施形態では、組合せ診断スコアは、上記の方法のステップ(v)で計算された各比について計算された診断スコアのすべてから計算される。
一実施形態では、本発明は、無細胞腫瘍DNAを含むものとしてサンプルを分類する方法に関し、本方法は、
(i)複数の無細胞DNA(cfDNA)断片を含むサンプルにおいて、少なくとも100,000cfDNA断片の開始及び/又は停止並びに開始及び/又は停止+及び/又は-1塩基対の配列座標を参照配列へのアライメントによって決定するステップと、
(ii)サンプルに含まれる複数のcfDNA断片における、(i)で決定された各座標の頻度を決定するステップと、
(iii)対応する参照頻度に対する、(ii)で決定された各座標の頻度の比を計算するステップと、
(iv)(iii)で決定されたすべての比から診断スコアを計算するステップであって、前記スコアは、(iii)で決定されたすべての頻度比の加重和である、ステップと、
(v)診断スコアと参照スコアとを比較することにより、サンプルの分類を決定するステップと
を含み、サンプルは、診断スコア値が参照スコアの平均よりも参照スコアの少なくとも1標準偏差だけ高い場合、腫瘍cfDNAを含むものとして分類され、参照スコアは、1つ以上の参照値から計算される。
一実施形態では、本発明は、無細胞腫瘍DNAを含むものとしてサンプルを分類する方法に関し、本方法は、
(i)複数の無細胞DNA(cfDNA)断片を含むサンプルにおいて、少なくとも100,000cfDNA断片の開始及び/又は停止の配列座標を参照配列へのアライメントによって決定するステップと、
(ii)(i)で決定された各開始及び/又は停止配列座標に対して内側の、ただしそれに隣接する1~5塩基対の範囲内において、トリヌクレオチド、テトラヌクレオチド及びペンタヌクレオチドで構成されるすべての核酸モチーフを参照配列中で決定するステップと、
(iii)サンプルに含まれる複数のcfDNA断片における、(ii)で決定された核酸モチーフの各々の頻度を決定するステップと、
(iv)対応する参照頻度に対する、(iii)で決定された頻度の各々の比を計算するステップと、
(v)(iv)で決定されたすべての比から診断スコアを計算するステップであって、前記スコアは、(iv)で決定されたすべての頻度比の加重和である、ステップと、
(vi)診断スコアと参照スコアとを比較することにより、サンプルの分類を決定するステップと
を含み、サンプルは、診断スコア値が参照スコアの平均よりも参照スコアの少なくとも1標準偏差だけ高い場合、腫瘍cfDNAを含むものとして分類され、参照スコアは、1つ以上の参照値から計算される。
他の一実施形態では、本発明は、無細胞腫瘍DNAを含むものとしてサンプルを分類する方法に関し、本方法は、
(i)複数の無細胞DNA(cfDNA)断片を含むサンプルにおいて、少なくとも100,000cfDNA断片の開始及び/又は停止の配列座標を参照配列へのアライメントによって決定するステップと、
(ii)(i)で決定された各開始及び/又は停止配列座標に対して外側の、ただしそれに隣接する1~5塩基対の範囲内において、トリヌクレオチド、テトラヌクレオチド及びペンタヌクレオチドで構成されるすべての核酸モチーフを参照配列中で決定するステップと、
(iii)サンプルに含まれる複数のcfDNA断片における、(ii)で決定された核酸モチーフの各々の頻度を決定するステップと、
(iv)対応する参照頻度に対する、(iii)で決定された頻度の各々の比を計算するステップと、
(v)(iv)で決定されたすべての比から診断スコアを計算するステップであって、前記スコアは、(iv)で決定されたすべての頻度比の加重和である、ステップと、
(vi)診断スコアと参照スコアとを比較することにより、サンプルの分類を決定するステップと
を含み、サンプルは、診断スコア値が参照スコアの平均よりも参照スコアの少なくとも1標準偏差だけ高い場合、腫瘍cfDNAを含むものとして分類され、参照スコアは、1つ以上の参照値から計算される。
一実施形態では、各開始及び/又は停止配列座標に対して内側の、ただしそれに隣接する塩基対の範囲は、各開始及び/又は停止座標から2bp~6bp、又は3bp~7bp、又は4bp~8bp、又は5bp~9bp、又は6bp~10bpであり得る。
一実施形態では、分析されるサンプル中に含まれるcfDNA断片の最小量は、10万~50万、50万~100万、100万~200万、200万~500万、又は500万~1000万、又は1000万~2000万、又は2000万~5000万、又は5000万~5億である。
一実施形態では、サンプル中の腫瘍cfDNAの量は、組合せ診断スコアが参照スコアの2~4標準偏差である場合には低として、組合せスコアが参照スコアの4~6.5標準偏差である場合には中として及び組合せスコアが参照スコアの6.5標準偏差超である場合には高として分類され得る。
一実施形態では、参照サンプルは、癌のない患者、又は非再発患者、又は処置が成功した癌患者からのサンプルであり得る。
一実施形態では、複数の無細胞DNA(cfDNA)断片を含むサンプルにおいて、少なくとも100,000cfDNA断片の開始及び/又は停止の配列座標を参照配列へのアライメントによって決定する、上記の方法のいずれかのステップ(i)は、参照配列へのアライメント前にサンプル中の複数のcfDNA断片の少なくとも一部分の核酸配列を決定することを含む。
一実施形態では、複数の無細胞DNA(cfDNA)断片を含むサンプルにおいて、少なくとも100,000cfDNA断片の開始及び/又は停止の配列座標を参照配列へのアライメントによって決定する、上記の方法のいずれかのステップ(i)は、cfDNA断片の核酸配列の決定前にcfDNA断片を富化することをさらに含む。
一実施形態では、サンプルは、血液癌、肝癌、肺癌、膵癌、前立腺癌、乳癌、胃癌、膠芽細胞腫、結腸直腸癌、頭頸部癌、固形腫瘍、良性腫瘍、悪性腫瘍、進行ステージ癌、転移又は前癌組織の群から選択される腫瘍を起源とする腫瘍cfDNAを含むものとして分類される。
他の一実施形態では、本発明は、
(i)上記の方法のいずれかを行うための成分であって、
a)生物学的サンプルから無細胞DNAを単離するための1つ以上の成分、
b)シーケンシングライブラリーを調製及び富化するための1つ以上の成分、及び/又は
c)富化されたライブラリーを増幅及び/又はシーケンスするための1つ以上の成分
を含む成分、
(ii)統計解析を実施するためのソフトウェア
を含むキットに関する。
癌のない患者からの20の正常サンプル及び進行非小細胞肺癌(NSCLC)又は結腸癌と診断された患者からの27の異常サンプルを解析した。実施例1~4では、未知パラメーターを推定するために、ランダムに選択された10の正常サンプル及びランダムに選択された10の異常サンプルをトレーニングステップで使用した。
従来技術に記載の方法(本明細書では「その他」の方法と称される)(Peiyong Jiang et al.,Cancer Discov.,2020,CD-19-0622)により得られたスコアと比較して、「正常」サンプル(トレーニングステップに含まれない健常な癌のない個体のコントロールサンプル)に対して、実施例1~4で得られたスコアの分布を示す。解析されるサンプルに含まれるcfDNA断片の配列末端モチーフの量を測定する前記他の方法は、前記断片の開始及び/又は停止座標も考慮に入れてそれらを含み、前記開始及び/又は停止を除外する本開示と異なる。正常サンプルに対して、いずれの方法も他のアプローチより確率的に優位にならないことが非有意なクラスカル・ウォリス順位和検定(p値=0.9966)から示唆される。計算スコアの平均値は、各実施例に対してゼロに設定される。 無細胞腫瘍(「異常」)DNAを含むサンプル(前記サンプルは、トレーニングステップに含まれない)に対して、実施例1~4で本発明の方法により及び従来技術の方法(本明細書では「その他」の方法と称される)により得られたスコア値及びそれらのそれぞれの分布を例示する。これらのスコアを、正常サンプルから得られたスコア(図1)と比較したとき、実施例1~4の本発明に係る方法により最大区別が達成されることから、正常サンプルから異常サンプルを区別するうえで従来技術の方法よりも優れた本発明の方法(実施例1~4)の感度の改善(増加)を明確に例示する。 実施例1~4に記載の方法と、従来技術の方法(本明細書では「その他」の方法と称される)との感度性能の比較を例示する。正常及び異常サンプルのスコアの各々の経験的分布から、実施例1~4のすべての方法及び従来技術(「その他」)の方法の推定感度を計算した。すべての方法の特異度(すなわち統計的仮説検定での有意レベル)は、99.9%に設定され、このデータセットでの推定感度は、実施例1~4のそれぞれの方法に対して96.8%、99.94%、99.48%、99.9997%に等しい。本発明の方法のすべては、84.3%の感度を達成するにすぎない従来技術の方法、さらに断片サイズ及びコピー数の変化情報を用いてサンプルを臨床的通知カテゴリーに分類し、60%~90%の範囲内の感度を達成するにすぎない文献で現在入手可能な他の方法(Mouliere et al.2018及びAdalsteinsson et al.2017)(データは示されていない)よりも有意に優れている。 表1:表は、4つの追加の正常サンプル及び3つの追加の異常サンプルに対して、実施例4で本発明の方法により得られたスコアを例示する。異常サンプルは、NSCLC(ステージI)と診断された癌患者からのものである。表は、低、中及び高へのctDNAの量の分類を強調する。サンプル中のctDNAの量は、組合せ診断スコア値が2~4.5である場合には低として、組合せ診断スコア値が4.5~6である場合には中として及び組合せ診断スコア値が6超である場合には高として分類される。
本発明は、ctDNAシーケンシングから抽出可能な情報の拡大範囲に基づく新規バイオインフォマティック解析を利用して新規マルチパラメーター戦略を実現し、臨床関連カテゴリーへのサンプルの分類のためのロバストで感度のよい特異的液状生検アッセイを確立する液状生検方法を記述する。
本発明の一実施形態は、無細胞腫瘍DNAを含むものとしてサンプルを分類する方法に関し、前記方法は、サンプルに含まれる複数のcfDNA断片の末端又は「開始及び/又は停止」並びに任意に開始及び/又は停止+及び/又は-1塩基対の配列座標の決定を含む。cfDNA断片の「開始及び/又は停止」は、本明細書では、cfDNA断片の末端、境界又は最外側塩基対若しくはヌクレオチドに関する。cfDNA断片の配列座標の決定は、参照配列へのアライメントにより達成可能であり、参照配列は、生物のDNA配列、好ましくはヒトDNA配列、例えばhg19若しくはhg38ヒトゲノム配列又はヒト対象(一実施形態では健常若しくは癌のないヒト対象であり得る)のゲノム配列であり得る。
本発明の一実施形態では、配列座標の決定は、シーケンシング解析などによる複数のcfDNA断片の核酸配列の解析及び/又は決定を含み得る。一実施形態では、配列座標の決定は、サンプルからの核酸及び/又は具体的にはcfDNA断片の抽出若しくは精製並びに/或いはサンプルからのcfDNA断片の富化及び/又はシーケンシング解析前の単離されたDNA、RNA若しくはcfDNAからのシーケンシングライブラリーの調製をさらに含み得る。
シーケンシングデータの解析は、参照ゲノム配列への得られたcfDNA核酸配列情報のアライメントを含み得る。このアライメントは、参照ゲノム配列への解析されたcfDNA断片の「開始及び/又は停止」又は末端の配列座標のマッピングを可能にする。本発明の好ましい実施形態では、シーケンスされたcfDNA断片の開始及び/又は停止座標に加えて、開始及び/又は停止から+1bp及び1bp位置の配列座標も参照ゲノム配列から決定される。
続いて、サンプル中に含まれる複数のcfDNA断片の各決定された開始及び/又は停止配列座標の頻度を決定可能である。同一cfDNA断片(技術的デュプリケート)に対して又は2つの異なるcfDNA断片(生物学的デュプリケート)に対して検出された座標のすべては、複数のcfDNA断片で検出された各開始及び/又は停止配列座標の頻度(存在量)の計算で考慮される。本発明の好ましい実施形態では、各開始及び/又は停止座標の頻度に加えて、開始及び/又は停止座標から+1bp及び1bpの各配列座標の頻度もサンプル中の複数のcfDNA断片内で決定される。
本発明の一実施形態では、対応する参照頻度に対する各決定された参照ゲノム座標の頻度の比が決定される。好ましい実施形態では、参照頻度に対するサンプル中の座標の頻度のこの比は、開始及び/又は停止+1bp及び1bp配列座標の各頻度に対しても計算される。
続いて、本発明の方法に従ってすべての頻度比から診断スコアが計算され得る。前記診断スコアは、実施例1に記載のように得られるすべての頻度比の加重和として定義され、解析されたサンプルは、診断スコア値が参照スコアの平均よりも参照スコアの少なくとも1標準偏差だけ高い場合には腫瘍cfDNAを含むものとして分類され、参照スコアは、1つ以上の参照値から計算される。
本発明の一実施形態では、サンプルに含まれる複数のcfDNA断片の開始及び/又は停止座標の決定後、各開始及び/又は停止配列座標から内側の、ただしそれに1bp以上隣接する塩基対の特異的範囲内において、例えばトリヌクレオチド(3連続ヌクレオチド)、テトラヌクレオチド(4連続ヌクレオチド)及び/又はペンタヌクレオチド(5連続ヌクレオチド)で構成される参照配列中のすべての核酸モチーフが決定され得る。本発明の一実施形態では、各開始及び/又は停止配列座標から内側の、ただしそれに1bp以上隣接する塩基対の特異的範囲は、1bp~5bp、2bp~6bp、3bp~7bp、4bp~8bp、5bp~9bp又は6bp~10bpであり得る。好ましい実施形態では、サンプル中の複数のcfDNA断片で決定される各開始及び/又は停止配列座標から内側の範囲は、1bp~5bpであり得る。モチーフは、個体間変動性(すなわち単一ヌクレオチド多型)を回避するために参照ゲノム配列から取り出される。
核酸モチーフは、cfDNA断片がアラインされた且つ断片の実際の配列ではない参照配列中の各検出された開始及び/又は停止位置に基づいて決定され得る。
続いて、サンプル中の複数のcfDNA断片の各検出された核酸モチーフの頻度(存在量)が決定され得る。同一cfDNA断片に対して又は2つの異なるcfDNA断片に対して検出されたモチーフのすべては、複数のcfDNA断片で検出された各モチーフの頻度(存在量)の計算で考慮される。この後、複数のcfDNA断片内の核酸モチーフ頻度の各々及び対応する参照頻度の比が計算値される。続いて、本発明の方法に従ってすべての頻度比から診断スコアが計算される。前記診断スコアは、実施例2に記載のすべての頻度比の加重和として定義され、解析されたサンプルは、診断スコア値が参照スコアの平均よりも参照スコアの少なくとも1標準偏差だけ高い場合には腫瘍cfDNAを含むものとして分類され、参照スコアは、1つ以上の参照値から計算される。
本発明の一実施形態では、サンプル中に含まれる複数のcfDNA断片の開始及び/又は停止座標の決定後、各開始及び/又は停止配列座標から内側の、ただしそれに1bp以上隣接する塩基対の特異的範囲内において、例えばトリヌクレオチド(3連続ヌクレオチド)、テトラヌクレオチド(4連続ヌクレオチド)及び/又はペンタヌクレオチド(5連続ヌクレオチド)で構成される参照配列中のすべての核酸モチーフが決定され得る。
本発明の一実施形態では、各開始及び/又は停止配列座標に対して外側の、ただしそれに1bp以上隣接する塩基対の特異的範囲は、1bp~5bp、2bp~6bp、3bp~7bp、4bp~8bp、5bp~9bp又は6bp~10bpであり得る。好ましい実施形態では、サンプル中の複数のcfDNA断片で決定される各開始及び/又は停止配列座標から外側の範囲は、1bp~5bpであり得る。核酸モチーフは、cfDNA断片がアラインされた参照配列中の各検出された開始及び/又は停止位置に基づいて決定され得る。かかる核酸モチーフは、cfDNA断片がアラインされた位置に1bp以上隣接する参照配列の核酸配列のみを含み得る。かかるモチーフは、cfDNA断片の核酸配列を含まず、参照配列中の開始又は停止座標、例えば開始座標の外側から直接始まる、開始及び/又は停止に対して1bp~5bp外側の、ただしそれに隣接する配列を含む。
続いて、サンプル中の複数のcfDNA断片の各検出された核酸モチーフの頻度が決定され得る。同一cfDNA断片に対して又は2つの異なるcfDNA断片に対して検出されたモチーフのすべては、複数のcfDNA断片で検出された各モチーフの頻度(存在量)の計算で考慮される。この後、複数のcfDNA断片内の核酸モチーフ頻度の各々及び対応する参照頻度の比が計算値される。続いて、本発明の方法に従ってすべての頻度比から診断スコアが計算され得る。前記診断スコアは、実施例3に記載のすべての頻度比の加重和として定義され、解析されたサンプルは、診断スコア値が参照スコアの平均よりも参照スコアの少なくとも1標準偏差だけ高い場合には腫瘍cfDNAを含むものとして分類され、参照スコアは、1つ以上の参照値から計算される。
本発明の一実施形態では、参照頻度と比較した、(a)開始及び/又は停止配列座標(任意に-1bp及び/又は+1bp)の頻度、(b)cfDNA断片の開始及び/又は停止座標に対して内側に、ただしそれに1bp以上隣接して位置するすべての核酸モチーフの頻度、並びに(c)cfDNA配列を含むことなくcfDNA断片開始及び/又は停止座標に対して外側に、ただしそれに1bp以上隣接して位置するすべての核酸モチーフの頻度の比からスコアを計算するこれ以前に記載の方法ステップは、すべて並行して又は特異的順序で行われ得、続いて、実施例4に記載のように、本発明の方法に従って組合せ診断スコア値を計算するために、ステップ(a)、(b)及び(c)の2つ又はすべての診断スコア値が使用され得る。この組合せ診断スコア値によれば、解析されたサンプルは、組合せ診断スコア値が参照スコアの平均よりも参照スコアの少なくとも1標準偏差だけ高い場合、腫瘍cfDNA又は循環腫瘍DNA(ctDNA)を含むものとして分類され、参照スコアは、1つ以上の参照値から計算される。
一実施形態では、各異常サンプルで得られた組合せ診断スコア値と参照スコアとを比較することにより、サンプル中の腫瘍cfDNA又はctDNAの量は、(a)組合せ診断スコアが参照スコアの2~4標準偏差である場合には低として、(b)組合せスコアが参照スコアの4~6.5標準偏差である場合には中として、及び(c)組合せスコアが参照スコアの6.5標準偏差超である場合には高として分類され得る(表1)。
無細胞核酸
本明細書では、好ましくは、核酸断片の混合物は、真核生物、好ましくは霊長動物、より好ましくはヒトから採取されたサンプルから単離される。サンプルは、異なる組織型からの細胞又は核酸を含み得る。このため、サンプルは、内因的に核酸断片の混合物を含み得る。
本明細書では、「核酸」又は「核酸配列」は、限定されるものではないが、DNA、RNA、ゲノミックDNA、無細胞DNA及び/又はRNA並びにtRNA、メッセンジャーRNA(mRNA)、合成DNA又はRNAと互換的に用いられ得る。
本発明との関連では、「核酸断片」及び「断片化核酸」という用語は、互換的に用いることが可能である。本発明に係る方法の好ましい実施形態では、核酸断片は、循環無細胞DNA又はRNAである。
本発明の一実施形態では、サンプル中に含まれる最小100,000cfDNA断片が分析され得る。他の一実施形態では、解析されるサンプル中に含まれるcfDNA断片の数は、10万~50万、50万~100万、100万~200万、200万~500万、500万~1000万、1000万~2000万、2000万~5000万又は5000万~5億の範囲内であり得る。
本発明の一実施形態では、「サンプル」は、無細胞DNA(cfDNA)、無細胞腫瘍DNA(cftDNA)、循環腫瘍DNA(ctDNA)又は循環cftDNAを含む血液サンプル、血清サンプル、血漿サンプル、液状生検サンプル又はDNAサンプル(例えば、核酸断片の混合物)である。本発明との関連では、「cfDNA」、「cftDNA」、「ctDNA」又は「循環cftDNA」という用語は、互換的に用いられ得る。
一実施形態では、サンプルは、瘍を有するか又は有する疑いのある対象からの血漿サンプル、血液サンプル、尿サンプル、痰サンプル、脳脊髄液サンプル、腹水サンプル及び腫胸膜液サンプルからなる群から選択される。一実施形態では、サンプル又はDNAサンプルは、腫瘍又は一群の悪性細胞を有するか又は有する疑いのある対象からの組織サンプルに由来する。
本発明との関連では、「腫瘍」、「癌」又は「異常」という用語は、互換的に用いられ得る。本明細書では、「癌」又は「腫瘍」という用語は、早期ステージ癌又は進行癌、転移又は前癌の組織又は細胞も含み得る。本明細書では、腫瘍サンプル又は異常サンプルは、原発腫瘍又は転移腫瘍を起源とする(無細胞)DNA又はRNAを含むサンプルに関し得る。正常サンプル又は参照サンプルは、本明細書では、非癌性、健常又は「正常」組織又は細胞を起源とする(無細胞)DNA又はRNAのみを含むサンプルに関し得る。本発明との関連では、「正常」、「コントロール」又は「参照」という用語は、互換的に用いられ得る。
本発明の方法は、様々な生物学的サンプルで使用可能である。本質的には、ジェネティック材料、例えばRNA又はDNA、特に無細胞DNA(cfDNA)又は無細胞RNAを含有するいずれの生物学的サンプルも、それらに含まれるRNA又はDNAのジェネティック解析を可能にする本方法でサンプルとして使用可能である。例えば、一実施形態では、DNAサンプルは、無細胞DNA(cfDNA)を含有する血漿サンプル又は血液サンプルである。
そのうえ他の一実施形態では、サンプルは、腫瘍又は癌を有するか又は有する疑いのある被験体から得られる生物学的サンプルである。一実施形態では、サンプルは、循環無細胞腫瘍DNA(cftDNA)を含む。他の一実施形態では、サンプルは、対象の尿、痰、腹水、脳脊髄液又は胸膜滲出液である。他の一実施形態では、腫瘍学的サンプルは、対象末梢血から調製される対象血漿サンプルである。そのため、サンプルは、対象の血液サンプルから非侵襲的に得られる液状生検サンプルであり得るため、検出可能若しくは触知可能腫瘍の発生前に癌の早期検出を潜在的に可能にするか、又は疾患進行、疾患処置若しくは疾患再発のモニタリングを可能にする。
本明細書では、無細胞DNA(cfDNA)は、細胞内に含有されないDNAを意味する。サンプルは、正常若しくは健常細胞からの及び/又は癌細胞からのcfDNAを含み得る。無細胞DNAは、分泌、アポトーシス又は壊死を介して血液又は血清中に放出され得る。cfDNAが腫瘍又は癌細胞から放出された場合、それは無細胞腫瘍DNA(cftDNA)と呼ばれ得る。
本発明との関連では、「対象」という用語は、動物、好ましくは哺乳動物、より好ましくはヒト又はヒト患者を意味する。本明細書で用いられる場合、「対象」という用語は、腫瘍に罹患しているか又はそれを有する疑いのある対象を意味し得る。
「腫瘍」は、本明細書では、限定されるものではないが、固形腫瘍、腺腫、血液癌、肝癌、肺癌、膵癌、前立腺癌、乳癌、胃癌、膠芽細胞腫、結腸直腸癌、頭頸部癌、進行ステージ癌腫瘍、良性又は悪性腫瘍、転移又は前癌組織を含めて、癌全般を意味する。
本明細書では、cfDNA断片の「末端」は、核酸断片の3’及び5’末端の最外側ヌクレオチドを定義し、本明細書では、cfDNA断片の「開始及び/又は停止(位置)」又は「切断点」又は「境界」ともいわれ得る。参照配列にアラインされたとき、cfDNA断片の「(開始及び/又は停止)座標」又は「配列座標」は、参照配列中でcfDNA断片の末端がアラインされた最外側核酸配列位置により定義される。例えば、cfDNA断片が配列位置1500bp~1700bpにわたる参照核酸配列に相補的であるか又はそれにアラインされた場合、配列座標は、cfDNA断片の200bpの長さを定義する1500及び1700bpになるであろう。
166bpメジャーピーク及び10bpインターバルを有するより小さいピークを呈するcfDNAのサイズプロファイルは、cfDNAの生物学的性状がヌクレオソーマル組織化に関連する可能性があることが示唆された。類似のパターンは、癌患者の血漿DNA中でも観測された。起源の組織に関連するcfDNAの非ランダム断片化パターンは、患者の健康状態にも関連する可能性がある。そのため、無細胞DNA断片の末端又は開始及び/又は停止の座標及び頻度は、疾患進行の指標となる。それらは、腫瘍の起源及び疾患の範囲ひいては所与の療法へのその応答を反映する腫瘍塊によって異なる。
本明細書で用いられる場合、開始及び/又は停止」座標から「内側」という用語は、配列又はモチーフが延在する参照配列中の核酸断片の「開始及び/又は停止」座標からの方向を意味する。「内側」は、核酸断片配列又はそれがアラインされた参照配列に含まれる核酸配列又はモチーフに関し得る。「内側」は、核酸断片の開始座標から+1、+2、+3、+4、+5などの塩基対及び/又は停止座標から-1、-2、-3、-4、-5塩基対を意味し得る。一実施形態では、各開始及び/又は停止配列座標に対して内側の、ただしそれに隣接する塩基対の範囲は、各開始及び/又は停止座標から1bp~5bp、2bp~6bp、又は3bp~7bp、又は4bp~8bp、又は5bp~9bp、又は6bp~10bpであり得る。
本明細書で用いられる場合、開始及び/又は停止」座標から「外側」という用語は、配列が延在する参照配列中の核酸断片の「開始及び/又は停止」座標からの方向を意味する。「外側」は、核酸断片配列又はそれがアラインされた参照配列に含まれる核酸配列又はモチーフに関し得る。「外側」は、核酸断片の停止座標から+1、+2、+3、+4、+5などの塩基対及び/又は開始座標から-1、-2、-3、-4、-5塩基対を意味し得る。一実施形態では、各開始及び/又は停止配列座標に対して外側の、ただしそれに隣接する塩基対の範囲は、各開始及び/又は停止座標から1bp~5bp、2bp~6bp、又は3bp~7bp、又は4bp~8bp、又は5bp~9bp、又は6bp~10bpであり得る。
断片の観測末端部位が必ずしも真の切断/消化部位とは限らない可能性があるため、本方法は、開始及び/又は停止座標±1bpの頻度及び/又は配列モチーフを解析する(Peiyong Jiang et al.,Genome Res.,2020,doi:10.1101/gr.261396.120)。そのため、近くのゲノミック塩基が真の消化部位である尤度を考慮に入れて、本発明は、臨床関連カテゴリーへの生物学的サンプルの分類で従来技術よりも優れた確度の改善をもたらす。
本明細書では、「核酸モチーフ」、「配列モチーフ」又は「モチーフ」は、2、3、4、5、6、7、8、9、10、20、30、40、50、100などの連続ヌクレオチドで構成される核酸配列中の連続ヌクレオチドのアレイを意味する。連続ヌクレオチドのこのアレイは、「トリヌクレオチド」、「テトラヌクレオチド」、「ペンタヌクレオチド」、「ヘキサヌクレオチド」などとも呼ばれ得る。前記モチーフは、無細胞及び/又は循環DNA分子が発生されて血漿中に放出されるとき、特異的ヌクレアーゼなどにより優先的に切断されるヒトゲノミック位置のサブセットである。アポトーシス時にDNAなどの核酸を切断するヌクレアーゼから生じるかかる血漿DNA末端モチーフは、HSNRFを含み得るか又はそれに特異的である識別可能シグネチャーを提示する。好ましい実施形態では、「モチーフ」は、参照ゲノム配列からの3、4又は5連続ヌクレオチドのアレイを意味する。
一実施形態では、核酸モチーフは、cfDNA断片の末端又は切断点に位置し得、モチーフは、cfDNA断片の核酸配列内に含まれ得るか、又はcfDNA断片配列の境界外に且つ参照核酸配列内に(例えば、cfDNA断片がアラインされた位置に隣接して)位置し得る。
cfDNAの解析
本明細書では、「参照配列」は、いずれかの核酸配列、ゲノミック配列、生物若しくは対象のゲノミック配列、好ましくはヒトゲノム(例えば、hg19若しくはhg38)の又は健常個体若しくは対象の配列であり得る。
本明細書では、開始及び/又は停止配列座標の頻度に対する「参照頻度」は、1つ以上の参照ゲノム、参照配列又は1つ以上の健常若しくは「正常」コントロールサンプル、対象若しくは患者の1つ以上のゲノム若しくは配列中の対応する開始及び/又は停止配列座標の頻度であり得る。本明細書では、核酸モチーフに対する「参照頻度」は、1つ以上の参照ゲノム、参照配列又は1つ以上の健常若しくは「正常」コントロールサンプル、対象若しくは患者の1つ以上のゲノム若しくは配列中の対応する核酸モチーフの頻度であり得る。
本明細書では、「頻度」は、存在量及び発生率と互換的に用いられ得る。本発明の一実施形態では、「頻度」は、例えば、サンプルに含まれる複数の核酸又はcfDNA断片で検出又は計数された核酸配列モチーフ、核酸(cfDNA)断片又は開始及び/若しくは停止配列座標の存在量及び発生率又は数を記述する。
本明細書では、「比」は、例えば、サンプル中の複数の核酸断片で検出された核酸配列モチーフの頻度の、参照サンプル中の同一核酸配列モチーフの頻度に対する、数学的関係又は割合を意味し得る。本明細書では、比は、各座標又はモチーフの頻度を対応する座標又はモチーフの対応する参照頻度で除算することにより計算され得る。
サンプル調製のために、DNA及び/又はRNAなどの核酸は、当技術分野で公知の標準的技術(その非限定的例は、QIAsymphony(QIAGEN)プロトコル、QIAamp Circulating Nucleic Acid(QIAGEN)、KingFisher(Thermofisher)プロトコル、MagMAX(商標)Cell-Free DNA(Thermofisher)又は無細胞DNA単離に好適ないずれかの他の手動若しくは自動抽出法である)を用いてサンプルから抽出される。
単離後、サンプルの無細胞DNAは、次世代シーケンシング(NGS)などの下流シーケンシング技術にサンプルが適合可能になるようにシーケンシングライブラリー調製に使用され得る。典型的には、これは、無細胞DNA断片の末端へのアダプターのライゲーションを含む。シーケンシングライブラリー調製キットは、市販されているか又は開発可能である。
cfDNAの標的富化は、ヒトゲノム上の対象領域に結合する標的キャプチャー配列(TACS)を用いて実施され、プール内の各配列は、125~260塩基対の長さ、及び/又は125~300bpの長さ、及び/又は125~350bpの長さであり、各配列は、5’末端及び3’末端を有し、プール内の各配列は、コピー数変動、セグメンタルデュプリケーション又は繰返しDNAエレメントを保有する領域からを少なくとも10塩基対離れた対象領域に5’末端及び3’末端の両方で結合し、TACSのGC含有率、20%~50%、及び/又は20%~60%、及び/又は20%~70%、及び/又は20%~80%である。
本明細書では、「標的キャプチャー配列」又は「TACS」という用語は、対象ゲノミック配列上の対象領域に相補的なDNA配列を意味し、これは、生物学的サンプルから調製される全ゲノミックシーケンシングライブラリーなどの大きい配列ライブラリーから対象領域をキャプチャーし富化する「ベイト」として使用される。本発明との関連では、「標的キャプチャー配列」又は「TACS」又は「プローブ」という用語は、互換的に用いられ得る。
他の一実施形態では、TACSのプールは、限定されるものではないが、AKT1、ALK、APC、AR、ARAF、ATM、BAP1、BARD1、BMPR1A、BRAF、BRCA1、BRCA2、BRIP1、CDH1、CDK4、CDKN2A(pl4ARF)、CDKN2A(pl6INK4a)、CHEK2、CTNNB1、DDB2、DDR2、DICERl、eGFR、EPCAM、ERBB2、ERBB3、ERBB4、ERCC1、ERCC2、ERCC3、ERCC4、ERCC5、ESR1、FANCA、FANCB、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCI、FANCL、FANCM、FBXW7、FGFR1、FGFR2、FLT3、FOXA1、FOXL2、GATA3、GNA11、GNAQ、GNAS、GREM1、HOXB13、IDH1、IDH2、JAK2、KEAP1、KIT、KRAS、MAP2K1、MAP3K1、MEN1、MET、MLH1、MPL、MRE11A、MSH2、MSH6、MTOR、MUTYH、MYC、MYCN、NBN、NPM1、NRAS、NTRK1、PALB2、PDGFRA、PIK3CA、PIK3CB、PMS2、POLD1、POLE、POLH、PTEN、RAD50、RAD51C、RAD51D、RAF1、RBI、RET、ROS1、RUNX1、SDHA、SDHAF2、SDHB、SDHC、SDHD、SLX4、SMAD4、SMARCA4、SPOP、STAT、STK11、TMPRSS2、TP53、VHL、XPA、XPC及びそれらの組合せ
を含む群から選択される複数の対象腫瘍バイオマーカー配列に結合する。一実施形態では、TACSのプールは、EGFR_6240、KRAS_521、EGFR_6225、NRAS_578、NRAS_580、PIK3CA_763、EGFR_13553、EGFR_18430、BRAF_476、KIT_1314、NRAS_584、EGFR_12378及びそれらの組合せを含む群から選択される複数の対象腫瘍バイオマーカー配列に結合する。
他の一実施形態では、TACSのプールは、限定されるものではないが、COSM6240(EGFR_6240)、COSM521(KRAS_521)、COSM6225(EGFR_6225)、COSM578(NRAS_578)、COSM580(NRAS_580)、COSM763(PIK3CA_763)、COSM13553(EGFR_13553)、COSM18430(EGFR_18430)、COSM476(BRAF_476)、COSM1314(KIT_1314)、COSM584(NRAS_584)、COSM12378(EGFR_12378)並びにそれらの組合せを含む群から選択される複数の対象腫瘍バイオマーカー配列に結合する。ここで、識別子は、バイオマーカーのCOSMICデータベースID番号を意味する。一般的には、プローブハイブリダイゼーション又は富化ステップは、シーケンシングライブラリーを作成する前又はライブラリーを作成した後に行うことが可能である。
本発明の一実施形態では、シーケンシングライブラリーは、非ランダム断片化のホットスポット(HSNRF)などをカバーする1つ以上のプローブへのライブラリーのハイブリダイゼーションにより対象配列領域に関して富化され得る。かかるHSNFR領域は、cfDNA混合物中に存在する異なる組織起源型(例えば、癌及び正常)の同定を促進する数多くの核酸配列バリエーションを短距離内に含む確率が高い領域である。
HSNRFが位置する対象染色体上の対象領域は、HSNRFキャプチャープローブのプールをシーケンシングライブラリーにハイブリダイズすることにより、続いてプローブに結合するシーケンシングライブラリー内の配列の単離により、富化される。一実施形態では、プローブは、断片化細胞を含まない核酸の5’末端のみがプローブによりキャプチャーされるようにHSNRF部位をまたぐ。他の一実施形態では、プローブは、HSNRFから生じる、断片化細胞を含まない核酸の3’末端のみがプローブに結合可能であるようにHSNRF部位をまたぐ。他の好ましい一実施形態では、プローブは、所与のHSNRF部位に関連する無細胞核酸の5’及び3’末端の両方がプローブによりキャプチャーされるように、断片化核酸に関連する両方のHSNRF部位をまたぐ。
所望の富化配列(HSNRF)の単離を促進するために、典型的には、プローブ配列は、プローブにハイブリダイズする配列をプローブにハイブリダイズしない配列から分離できるように修飾される。典型的には、これは、プローブを担体に固定することにより達成される。これは、プローブに結合しない配列からのプローブに結合する配列の物理的分離を可能にする。例えば、プローブのプール内の各配列をビオチンで標識可能であり、次いで、ストレプトアビジンやアビジンなどのビオチン結合性物質で被覆されたビーズにプールを結合可能である。好ましい実施形態では、プローブをビオチンで標識してストレプトアビジン被覆磁気ビーズに結合すれば、ビーズの磁気的性質を活用することにより分離が可能になる。しかしながら、他の親和性結合システムが当技術分野で公知であり、ビオチン-ストレプトアビジン/アビジンの代わりに使用可能であることは、当業者であれば分かるであろう。例えば、プローブを抗原で標識し、次いで抗体被覆ビーズに結合する抗体ベースシステムを使用可能である。そのうえ、プローブは、一方の末端に配列タグを組込み可能であり、配列タグにハイブリダイズする担体上の相補的配列を介して担体に結合可能である。さらに、磁気ビーズに加えて、他のタイプの担体、例えばポリマービーズ、ガラスなどを使用可能である。
特定の実施形態では、プローブのプールに結合するシーケンシングライブラリーのメンバーは、プローブに十分に相補的である。他の実施形態では、プローブのプールに結合するシーケンシングライブラリーのメンバーは、プローブに部分的に相補的である。例えば、特定の状況では、必ずしも対象ゲノム領域に属するとは限らないが富化プロセスの生成物であり、而もシーケンスしたときにゲノム全体を通して非プローブ座標にわたり非常に低いカバレッジを生じ得る、DNA断片(すなわち、かかるDNA断片は、部分的相同性が原因でプローブに結合可能である)からのデータを利用し解析することが望ましいこともある。
プローブを用いた対象配列の富化によりHSNRF部位を有するDNAの富化ライブラリーを形成した後、富化HSNRFライブラリーのメンバーは溶出され、当技術分野で公知の標準的方法を用いて増幅されシーケンスされる。他の一実施形態では、プローブは、ストレプトアビジン被覆磁気ビーズと共に提供されるビオチン化プローブのように担体と共に提供される。
腫瘍バイオマーカーの検出のために、プローブは、本明細書に記載の設計基準並びに腫瘍バイオマーカー遺伝子の既知の配列及び癌に関連するそれに含まれるジェネティック変異に基づいて設計される。一実施形態では、本方法に使用される複数のプローブは、複数の対象腫瘍バイオマーカー配列に結合する。この際、プローブは、変異部位に隣接する非ランダム断片化のホットスポットに位置し得る。
本明細書では、核酸配列解析に次世代シーケンシング(NGS)を使用し得るが、配列情報に加えて非常に正確な計数を提供する他のシーケンシング技術も採用可能である。そのため、限定されるものではないが、ディジタルPCR、単一分子シーケンシング、ナノポアシーケンシング、DNAナノボールシーケンシング、ライゲーションシーケンシング、イオン半導体シーケンシング、合成シーケンシング、マイクロアレイなどの他の正確な計数方法もNGSの代わりに使用可能である。
一実施形態では、本発明は、検出されるか又はその起源が決定される核酸断片が同一ジェネティック座位からの、ただし異なる起源の核酸断片よりも低い濃度で混合物中に存在する場合の方法に関する。
本方法は、かかる低濃度の標的cfDNAを解析するのにとくに適している。本発明に係る方法では、検出されるか又はその起源が決定される核酸断片及び同一ジェネティック座位からの、ただし異なる起源の核酸断片は、1:2、1:4、1:10、1:20、1:50、1:100、1:200、1:500、1:1000、1:2000及び1:5000の群から選択される比で混合物中に存在する。比は、±30%、20%又は10%を意味するおおよその比として理解されるべきである。かかる比が厳密に以上で引用された数値で生じないことは、当業者の知るところである。比は、豊富なタイプの座位特異的分子の数に対する稀有なタイプの座位特異的分子の数を意味する。
データ解析
富化ライブラリーのシーケンシングから得られる情報は、革新的な生物数学的/生物統計学的データ解析パイプラインを用いて解析される。本方法は、参照ゲノム配列を用いて且つ真の消化部位を表さないおそれがあるため、観測されたcfDNA末端部位を除いて、末端座標に1bp以上隣接するすべての可能なモチーフの組合せを含むcfDNA断片の特徴を利用する。さらに、位置及びモチーフを含めてcfDNAの異なる特徴の解析を組み合わせることにより、本発明は、確度の改善、すなわち同一特異度レベルで感度の増加という予想外の技術的効果を達成した。
本発明の好ましい実施形態によれば、標的ペアエンド次世代シーケンシングが実施される。すべてのサンプルに対するマルチプレックスデータは、Illumina bcltofastqツールを用いてデマルチプレックスされる。前記サンプルのシーケンシングデータは、cutadaptソフトウェアを用いてアダプター配列及び品質不良リード(Qスコア<25)を除去するために処理される(Martin,M.et al.2011 EMB.netJournal 17.1)。
少なくとも25塩基長の処理リードは、Burrows-Wheelアライメントアルゴリズム(Li,H.and Durbin,R.(2009)Bioinformatics 25:1754-1760)を用いて、ヒト参照ゲノムビルドGRCh37(hg19)(UCSC Genome Bioinformatics)にアラインされた。閾値超のインサートサイズを有するペアリードは、除去された。前記閾値は、100~600の範囲である。該当する場合、アライメント後、デュプリケートリードを同定し、ユニーク分子識別子(UMI)ファミリーによりグループ化し、UMIファミリーごとのコンセンサスリードの生成に使用する。
適用可能であれば、同一サンプルに関する、ただし別々のシーケンシングレーン上で処理されたシーケンシングアウトプットは、単一シーケンシングアウトプットファイルにマージされた。デュプリケート及びマージング手順の利用は、fgbio、picardツールソフトウェアスイート(Broad Institute)及びSambambaツールソフトウェアスイート(Sambamba reference,Tarasov,Artem,et al.Sambamba:fast processing of NGS alignment formats.Bioinformatics 31.12(2015):2032-2034)を用いて実施された。マッピング位置(最外側及び近接座標)、対象座位の塩基ごとのリードデプス及び断片サイズに関する情報は、SAMtoolsソフトウェアスイートのmpileupオプション(これ以降では、mpileupファイルといわれる)を用いて得られ、Python及びRプログラミング言語(Python Software Foundation(2015)Python、The R Foundation(2015)The R Project for Statistical Computing)で記述されたカスタムビルドアプリケーションプログラミングインターフェース(API)を用いて処理された。
断片の末端座標は、断片がまたぐ参照ゲノムの最外側座標として定義される。すなわち、各アライン断片は、2つの末端座標(参照ゲノムを基準にした開始/最左側位置(5’末端)及び停止/最右側位置(3’末端)の座標)を有する。
本発明の各種実施形態では、標的パネルは、最小500標的ゲノミック塩基からなっていた。サンプル当たり必要とされる断片の最小数は、100,000である。
本明細書では、「診断スコア値」は、「実施例セクション」の実施例1、2及び3に記載のすべての頻度比の加重和として計算される。
本明細書では、「組合せ診断スコア値」は、実施例4に記載のように、本発明に記載のすべてのステップからの少なくとも2つ以上の頻度比の加重和として計算される。
本発明の一実施形態では、「参照スコア」は、1つ以上の「参照値」から計算され得る。
一実施形態では、参照値又は参照スコアは、1つ以上の正常又は参照サンプルから取得されたデータから計算され得る。一実施形態では、参照値又は参照スコア及びそれが比較される解析サンプルの値(例えば、核酸モチーフの頻度、開始及び/又は停止座標の頻度)又は解析サンプルの診断スコアは、本明細書に開示されるように、同一計算方法に従って計算される。
サンプル分類
本明細書では、サンプルの分類は、バイナリー分類(すなわち癌、癌なし、予後良好、予後劣悪/不良、再発、非再発)並びに低、中及び高へのcftDNA量の分類を含む。
サンプル分類のための臨床関連カテゴリーは、癌の存在又は不在、疾患又は癌の寛解、疾患又は癌の再発、早期癌ステージ及び予後であり得る。
訳抜け問い合わせ中
オンコロジー使用
本発明は、癌の処置において又は腫瘍負荷の評価、微小残留疾患の検出、処置アウトカムのモニタリング、患者アウトカムの長期モニタリングのために使用され得る。本発明は、標的療法に好適な変異の同定に並びに癌体細胞系及び生殖系変異の検出にさらに使用され得る。本方法は、他の方法により検出可能でない小腫瘍の早期検出を促進し、且つより標的化されカスタマイズされた処置アプローチを可能にする。
キット
他の一態様では、本発明は、本発明の方法を実施するためのキットを提供する。一実施形態では、キットは、プローブのプールから構成される容器並びに本方法を実施するためのソフトウェア及び説明書を含む。
プローブのプールに加えて、キットは、(i)生物学的サンプルから無細胞DNAを単離するための1つ以上の成分、(ii)シーケンシングライブラリーを調製及び富化するための1つ以上の成分(例えば、プライマー、アダプター、緩衝剤、リンカー、DNA修飾性酵素、ライゲーション酵素、ポリメラーゼ酵素、プローブなど)、(iii)富化されたライブラリーを増幅及び/又はシーケンスするための1つ以上の成分の1つ以上、及び/又は(iv)統計解析を実施するためのソフトウェアを含み得る。(i)、(ii)及び(iii)で参照されたステップを行うのに好適な成分は、当業者に周知である。
一実施形態では、プローブは、ビオチン化プローブのように固形担体に結合させ得る形態で提供される。他の一実施形態では、プローブは、ストレプトアビジン被覆磁気ビーズと共に提供されるビオチン化プローブのように固形担体と共に提供される。
各種他の実施形態では、キットは、本方法の他の態様を行うための追加成分を含み得る。例えば、プローブのプールに加えて、キットは、(i)母体血漿サンプルから無細胞DNAを単離するための1つ以上の成分、(ii)シーケンシングライブラリーを調製するための1つ以上の成分(例えば、プライマー、アダプター、リンカー、制限酵素、ライゲーション酵素、ポリメラーゼ酵素)、(iii)富化されたライブラリーを増幅及び/又はシーケンスするための1つ以上の成分の1つ以上、及び/又は(iv)統計解析を実施するためのソフトウェアを含み得る。(i)、(ii)及び(iii)で参照されたステップを行うのに好適な成分は、当業者に周知である。
実施例1
サンプルに含まれる複数のcfDNA断片の開始及び/又は停止(+及び/又は-1塩基対)の決定は、参照配列へのアライメントにより達成された。続いて、サンプル中に含まれる複数のcfDNA断片の各決定された開始及び/又は停止配列座標の頻度が決定された。対応する参照頻度に対する各決定された参照ゲノム座標の頻度の比が決定され、得られたすべての頻度比の加重和(本明細書では「診断スコア」といわれる)が計算された。
本発明の一実施形態によれば、各塩基i(ここで、i=1、...、Bであり、Bは、前記パネル中の標的塩基の合計数に等しい)に対して、下記条件:
(A1)塩基iに開始位置座標を有すること、又は
(A2)塩基iに停止位置座標を有すること、又は
(A3)塩基iに開始-1塩基位置座標を有すること、又は
(A4)塩基iに開始+1塩基位置座標を有すること、又は
(A5)塩基iに停止-1塩基位置座標を有すること、又は
(A6)塩基iに停止+1塩基位置座標を有すること
の少なくとも1つを満たすマップリードの合計数として、ランダム変数Xが定義された。
帰無仮説(すなわちバックグラウンドモデル)の下で、ゲノムの異なる塩基で条件A1~A6の少なくとも1つを満たす異なる、ただし定常の数のリードを観測することが予想される。前記塩基ごとのバックグラウンド確率分布モデルは、一群の正常サンプルから推定される。以上のXの定義から、X~Bin(x;n,p)を得る。ここで、nは、塩基iをまたぐリードの合計数に等しく、pは、すべてのiに対して推定され、例えば、
は、
の通りである。ここで、zi,jは、合計でN正常サンプルのうち、正常サンプルjに対して塩基iで条件A1~A6の少なくとも1つを満たすリードの観測数であり、且つni,jは、正常サンプルjに対して塩基iをまたぐリードの合計数である。非常に小さいp及び大きいnを有する2項分布は、npに等しいレートパラメーターを有するポアソン分布により近似可能である。そのため、塩基ごとのバックグラウンドモデルは、以下の数式:
により定義される。ここで、nは、塩基iをまたぐリードの合計数に等しい。本発明の他の一実施形態では、すべてのjに対してzi,j/ni,jにより定義されるランダム変数を各塩基iでモデルするためにワイブル又はベータ分布が使用される。
塩基ごとのバックグラウンドモデルをトレーニングした後、以下のように進めた。各サンプルkに対して、本発明の一実施形態では、下記を実施する。すなわち、各Xに対して、観測値、例えばxを推定された塩基ごとのバックグラウンドモデルと比較した。p値、すなわちP(X>x)=1-P(X≦x)が0.001未満であった場合、Xの観測値を、塩基をまたぐリードの合計数で除算した。すなわち、Y=X/n、さもなければY=0である。続いて、サンプル特異的スコアは、
のように計算される。ここで、nは、Y>0を有する塩基の合計数である。次いで、S0,kは、以下の数式:
を用いて規格化され、規格化スコアS1,kを得る。ここで、m及びsは、正常参照サンプルからのすべてのS値の平均及び標準偏差である(図1、2及び3)。
実施例2
cfDNA断片の開始及び/又は停止(+及び/又は-1塩基対)配列座標の決定後、参照ゲノムの参照配列中のすべての核酸モチーフが決定された。前記モチーフは、トリヌクレオチド、テトラヌクレオチド及び/又はペンタヌクレオチドで構成され、開始及び/又は停止座標の内側の、ただしそれに1塩基対以上隣接する塩基対の特異的範囲内にあった。対応する参照頻度に対する複数のcfDNA断片内の核酸モチーフ頻度の各々の頻度比が決定され、得られたすべての頻度比の加重和(本明細書では「診断スコア」といわれる)が計算された。
本発明の一実施形態によれば、各サンプル、例えばkでは、hg19参照ゲノム上にアラインされた各cfDNA断片に対して2つの配列が決定され、前記配列は、アラインされたcfDNA断片の2つの末端から内側に1~5塩基対の範囲内のhg19ゲノム配列を含み(断片がまたぐ核酸配列を除く)、前記配列内のすべてのトリヌクレオチド(例えば、ACC、GGTなど)、テトラヌクレオチド及びペンタヌクレオチド配列モチーフの絶対頻度、例えばTij(ここで、i=1、...、nであり、j=3、4、5は、ヌクレオチドの数であり、且つnは、すべての可能なj-ヌクレオチドモチーフの数である)が計算された(n=64、n=256、n=1024)。サンプル特異的スコアS2,kは、
のように計算される。
以上の式中、Dは、サンプルkのコンセンサス断片の合計数であり、rijは、ctDNAを含まないサンプルのトレーニングデータセットから計算されたfijの参照値であり、mij及びsijは、ctDNAを含まないサンプルのトレーニングデータセットから計算された
の参照平均及び標準偏差であり、wijは、正常及び異常サンプル間の最適分離を提供するようにトレーニングセットから最適化された加重
である。加重bは、本発明の各種実施形態で変動可能であり、b=1/12又は1/6又は1/3又は1/2、b=1/12又は1/6又は1/3又は1/2及びb=1-b-b(図1、2及び3)。
実施例3
cfDNA断片の開始及び/又は停止(+及び/又は-1塩基対)配列座標の決定後、参照ゲノムの参照配列中のすべての核酸モチーフが決定された。前記モチーフは、トリヌクレオチド、テトラヌクレオチド及び/又はペンタヌクレオチドで構成され、開始及び/又は停止座標の外側の、ただしそれに1塩基対以上隣接する塩基対の特異的範囲内にあった。対応する参照頻度に対する複数のcfDNA断片内の核酸モチーフ頻度の各々の頻度比が決定され、得られたすべての頻度比の加重和(本明細書では「診断スコア」といわれる)が計算された。
本方法の一実施形態では、各サンプル、例えばkでは、hg19参照ゲノム上にアラインされた各cfDNA断片に対して2つの配列が決定され、前記配列は、アラインされたcfDNA断片の2つの末端から外側に1~5塩基対の範囲内のhg19ゲノム配列を含み(断片がまたぐ核酸配列を除く)、前記配列内のすべてのトリヌクレオチド(例えば、ACC、GGTなど)、テトラヌクレオチド及びペンタヌクレオチド配列モチーフの絶対頻度、例えばTij(ここで、i=1、...、nであり、j=3、4、5は、ヌクレオチドの数であり、且つnは、すべての可能なj-ヌクレオチドモチーフの数である)が計算された(n=64、n=256、n=1024)。サンプル特異的スコアS3,kは、
のように計算される。
以上の式中、Dは、サンプルkのコンセンサス断片の合計数であり、rijは、ctDNAを含まないサンプルのトレーニングデータセットから計算されたfijの参照値であり、mij及びsijは、ctDNAを含まないサンプルのトレーニングデータセットから計算された
の参照平均及び標準偏差であり、wijは、正常及び異常サンプル間の最適分離を提供するようにトレーニングセットから最適化された加重
である。加重bは、本発明の各種実施形態で変動可能であり、b=1/12又は1/6又は1/3又は1/2、b=1/12又は1/6又は1/3又は1/2及びb=1-b-b(図1、2及び3)。
実施例4
本方法の一実施形態では、実施例1、2及び3で計算されたスコアの少なくとも2つの加重和が各サンプルについて計算された。前記加重和は、これ以降では「組合せ診断スコア」といわれる。サンプルkの診断スコア、例えばDSは、以上の実施例1、2及び3に記載のスコアの少なくとも2つの加重平均として定義される。すなわち、
である。ここで、S、S及びSは、それぞれ実施例1、2及び3で計算され、本発明の各種実施形態では、小数第1位に丸めてw=0.5又は0.4又は0.3又は0.2又は0、小数第1位に丸めてw=0.5又は0.4又は0.3又は0.2又は0、w=1-w-wである。本方法の他の一実施形態では、サンプルkのDSスコアを計算するために{S,S,S}の最大及び最小の加重平均が使用される。すなわち、DS=zMAX(S1,k,S2,k,S3,k)+(1-z)MIN(S1,k,S2,k,S3,k)、0.5<z<1である。

Claims (13)

  1. 無細胞腫瘍DNAを含むものとしてサンプルを分類する方法であって、
    (i)複数の無細胞DNA(cfDNA)断片を含むサンプルにおいて、少なくとも100,000cfDNA断片の開始及び/又は停止並びに開始及び/又は停止+及び/又は-1塩基対の配列座標を参照配列へのアライメントによって決定するステップと、
    (ii)前記サンプルに含まれる前記複数のcfDNA断片における、(i)で決定された各座標の頻度を決定するステップと、
    (iii)対応する参照頻度に対する、(ii)で決定された各座標の前記頻度の比を計算するステップと、
    (iv)(iii)で決定されたすべての比から診断スコアを計算するステップであって、前記スコアは、(iii)で決定されたすべての頻度比の加重和である、ステップと、
    (v)前記診断スコアと参照スコアとを比較することにより、前記サンプルの分類を決定するステップと
    を含み、前記サンプルは、前記診断スコア値が前記参照スコアの平均よりも前記参照スコアの少なくとも1標準偏差だけ高い場合、腫瘍cfDNAを含むものとして分類され、前記参照スコアは、1つ以上の参照値から計算される、方法。
  2. 無細胞腫瘍DNAを含むものとしてサンプルを分類する方法であって、
    (i)複数の無細胞DNA(cfDNA)断片を含むサンプルにおいて、少なくとも100,000cfDNA断片の開始及び/又は停止の配列座標を参照配列へのアライメントによって決定するステップと、
    (ii)(i)で決定された各開始及び/又は停止配列座標に対して内側の、ただしそれに隣接する1~5塩基対の範囲内において、トリヌクレオチド、テトラヌクレオチド及びペンタヌクレオチドで構成されるすべての核酸モチーフを前記参照配列中で決定するステップと、
    (iii)前記サンプルに含まれる前記複数のcfDNA断片における、(ii)で決定された前記核酸モチーフの各々の頻度を決定するステップと、
    (iv)対応する参照頻度に対する、(iii)で決定された前記頻度の各々の比を計算するステップと、
    (v)(iv)で決定されたすべての比から診断スコアを計算するステップであって、前記スコアは、(iv)で決定されたすべての頻度比の加重和である、ステップと、
    (vi)前記診断スコアと参照スコアとを比較することにより、前記サンプルの分類を決定するステップと
    を含み、前記サンプルは、前記診断スコア値が前記参照スコアの平均よりも前記参照スコアの少なくとも1標準偏差だけ高い場合、腫瘍cfDNAを含むものとして分類され、前記参照スコアは、1つ以上の参照値から計算される、方法。
  3. 無細胞腫瘍DNAを含むものとしてサンプルを分類する方法であって、
    (i)複数の無細胞DNA(cfDNA)断片を含むサンプルにおいて、少なくとも100,000cfDNA断片の開始及び/又は停止の配列座標を参照配列へのアライメントによって決定するステップと、
    (ii)(i)で決定された各開始及び/又は停止配列座標に対して外側の、ただしそれに隣接する1~5塩基対の範囲内において、トリヌクレオチド、テトラヌクレオチド及びペンタヌクレオチドで構成されるすべての核酸モチーフを前記参照配列中で決定するステップと、
    (iii)前記サンプルに含まれる前記複数のcfDNA断片における、(ii)で決定された前記核酸モチーフの各々の頻度を決定するステップと、
    (iv)対応する参照頻度に対する、(iii)で決定された前記頻度の各々の比を計算するステップと、
    (v)(iv)で決定されたすべての比から診断スコアを計算するステップであって、前記スコアは、(iv)で決定されたすべての頻度比の加重和である、ステップと、
    (vi)前記診断スコアと参照スコアとを比較することにより、前記サンプルの分類を決定するステップと
    を含み、前記サンプルは、前記診断スコア値が前記参照スコアの平均よりも前記参照スコアの少なくとも1標準偏差だけ高い場合、腫瘍cfDNAを含むものとして分類され、前記参照スコアは、1つ以上の参照値から計算される、方法。
  4. 無細胞腫瘍DNAを含むものとしてサンプルを分類する方法であって、
    (i)複数の無細胞DNA(cfDNA)断片を含むサンプルにおいて、少なくとも100,000cfDNA断片の開始及び/又は停止の配列座標を参照配列へのアライメントによって決定するステップと、
    (ii)a)(i)で決定された各開始及び/又は停止配列座標に対して内側の、ただしそれに隣接する1~5塩基対の範囲内、及び/又は
    b)(i)で決定された各開始及び/又は停止配列座標に対して外側の、ただしそれに隣接する1~5塩基対の範囲内
    において、トリヌクレオチド、テトラヌクレオチド及びペンタヌクレオチドで構成されるすべての核酸モチーフを前記参照配列中で決定するステップと、
    (iii)a)前記サンプルに含まれる前記複数のcfDNA断片における、(i)で決定された各配列座標+及び/又は-1塩基対、
    b)前記サンプルに含まれる前記複数のcfDNA断片における、(ii)a)及びb)で決定された前記核酸モチーフの各々
    の頻度を決定するステップと、
    (iv)対応する参照頻度に対する、(iii)a)及びb)で決定された前記頻度の各々の比を計算するステップと、
    (v)ステップ(iv)で決定された各比について別々に診断スコアを計算するステップであって、前記スコアは、ステップ(iv)のすべてのそれぞれの頻度比のそれぞれの加重和である、ステップと、
    (vi)(v)で決定された前記診断スコアの少なくとも2つ以上から組合せ診断スコアを計算するステップであって、前記スコアは、(v)で決定された前記2つ以上の診断スコアの加重和である、ステップと、
    (vii)前記組合せ診断スコアと参照スコアとを比較することにより、前記サンプルの分類を決定するステップと
    を含み、前記サンプルは、前記組合せ診断スコア値が前記参照スコアの平均よりも前記参照スコアの少なくとも1標準偏差だけ高い場合、腫瘍cfDNAを含むものとして分類され、前記参照スコアは、1つ以上の参照値から計算される、方法。
  5. 前記組合せ診断スコアは、請求項4のステップ(v)で計算された前記診断スコアのすべてから計算される、請求項4に記載の方法。
  6. 各開始及び/又は停止配列座標に対して内側の、ただしそれに隣接する塩基対の前記範囲は、各開始及び/又は停止座標から2bp~6bp、又は3bp~7bp、又は4bp~8bp、又は5bp~9bp、又は6bp~10bpであり得る、請求項2~5のいずれか一項に記載の方法。
  7. 解析されるサンプル中に含まれるcfDNA断片の最小量は、10万~50万、50万~100万、100万~200万、200万~500万、又は500万~1000万、又は1000万~2000万、又は2000万~5000万、又は5000万~5億である、請求項1~6のいずれか一項に記載の方法。
  8. 前記サンプル中の腫瘍cfDNAの量は、前記組合せ診断スコアが前記参照スコアの2~4標準偏差である場合には低として、前記組合せスコアが前記参照スコアの4~6.5標準偏差である場合には中として及び前記組合せスコアが前記参照スコアの6.5標準偏差超である場合には高として分類され得る、請求項4~7のいずれか一項に記載の方法。
  9. 前記参照サンプルは、癌のない患者、又は非再発患者、又は処置が成功した癌患者からのサンプルであり得る、請求項1~8のいずれか一項に記載の方法。
  10. ステップ(i)は、参照配列へのアライメント前に前記サンプル中の前記複数のcfDNA断片の少なくとも一部分の核酸配列を決定することを含む、請求項1~8のいずれか一項に記載の方法。
  11. ステップ(i)は、cfDNA断片の核酸配列の決定前にcfDNA断片を富化することをさらに含む、請求項1~10に記載の方法。
  12. 前記サンプルは、血液癌、肝癌、肺癌、膵癌、前立腺癌、乳癌、胃癌、膠芽細胞腫、結腸直腸癌、頭頸部癌、固形腫瘍、良性腫瘍、悪性腫瘍、進行ステージ癌、転移又は前癌組織の群から選択される腫瘍を起源とする腫瘍cfDNAを含むものとして分類される、請求項1~11のいずれか一項に記載の方法。
  13. (i)請求項1~12のいずれか一項に記載の方法を行うための成分であって、
    a)生物学的サンプルから無細胞DNAを単離するための1つ以上の成分、
    b)シーケンシングライブラリーを調製及び富化するための1つ以上の成分、及び/又は
    c)前記富化されたライブラリーを増幅及び/又はシーケンスするための1つ以上の成分
    を含む成分、
    (ii)統計解析を実施するためのソフトウェア
    を含むキット。
JP2023537595A 2020-12-18 2021-12-16 サンプルを臨床関連カテゴリーに分類する方法 Pending JP2023554505A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20215730.1 2020-12-18
EP20215730.1A EP4015650A1 (en) 2020-12-18 2020-12-18 Methods for classifying a sample into clinically relevant categories
PCT/EP2021/086243 WO2022129360A1 (en) 2020-12-18 2021-12-16 Methods for classifying a sample into clinically relevant categories

Publications (1)

Publication Number Publication Date
JP2023554505A true JP2023554505A (ja) 2023-12-27

Family

ID=73855948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023537595A Pending JP2023554505A (ja) 2020-12-18 2021-12-16 サンプルを臨床関連カテゴリーに分類する方法

Country Status (10)

Country Link
US (1) US20240052416A1 (ja)
EP (2) EP4015650A1 (ja)
JP (1) JP2023554505A (ja)
KR (1) KR20230133287A (ja)
CN (1) CN116806267A (ja)
AU (1) AU2021399915A1 (ja)
CA (1) CA3201862A1 (ja)
IL (1) IL303826A (ja)
MX (1) MX2023007267A (ja)
WO (1) WO2022129360A1 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2017292854B2 (en) * 2016-07-06 2023-08-17 Guardant Health, Inc. Methods for fragmentome profiling of cell-free nucleic acids
EP3555311A4 (en) * 2016-12-13 2020-08-12 Bellwether Bio, Inc. DETERMINATION OF A PHYSIOLOGICAL STATE IN A PERSON BY ANALYSIS OF CELL-FREE DNA FRAGMENT END POINTS IN A BIOLOGICAL SAMPLE

Also Published As

Publication number Publication date
EP4263870A1 (en) 2023-10-25
US20240052416A1 (en) 2024-02-15
WO2022129360A1 (en) 2022-06-23
IL303826A (en) 2023-08-01
MX2023007267A (es) 2023-09-04
EP4015650A1 (en) 2022-06-22
CA3201862A1 (en) 2022-06-23
KR20230133287A (ko) 2023-09-19
CN116806267A (zh) 2023-09-26
AU2021399915A1 (en) 2023-08-03

Similar Documents

Publication Publication Date Title
CN109880910B (zh) 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统
CN106715723B (zh) 测定样品中pik3ca突变状态的方法
CA2784613C (en) Diagnostic methods based on somatically acquired rearrangement
WO2020243722A1 (en) Methods and systems for improving patient monitoring after surgery
WO2017075784A1 (zh) 肺腺癌生物标记物及其应用
WO2018231957A1 (en) Tumor mutation burden
US20210087637A1 (en) Methods and systems for screening for conditions
US20230203590A1 (en) Methods and means for diagnosing lung cancer
JP2022501033A (ja) 膵臓病変の評価における無細胞dnaヒドロキシメチル化プロファイル
WO2022262831A1 (zh) 用于评估肿瘤的物质及其方法
KR20240049800A (ko) 비정상적으로 메틸화된 단편을 갖는 체세포 변이 동시 발생
EP4015650A1 (en) Methods for classifying a sample into clinically relevant categories
US20240052424A1 (en) Methods for classifying a sample into clinically relevant categories
JP2023529064A (ja) ヒト対象における医学的状態を同定する方法
Englert‑Golon et al. Genomic mapping of pathways in endometrial adenocarcinoma and a gastrointestinal stromal tumor located in Meckel's diverticulum
CN111201572A (zh) 用于提高精确度的癌症患者的综合基因组转录组肿瘤-正常样基因组套分析
AU2021291586B2 (en) Multimodal analysis of circulating tumor nucleic acid molecules
Wong et al. Epigenetic modifications of cfDNA in liquid biopsy for the cancer care continuum
AU2024203201A1 (en) Multimodal analysis of circulating tumor nucleic acid molecules
JP2023524681A (ja) 分配された核酸を使用した配列決定のための方法
WO2023164713A1 (en) Probe sets for a liquid biopsy assay
WO2023230289A1 (en) Methods and systems for cell-free nucleic acid processing
CN117418003A (zh) 标志物、探针及其应用
Gao et al. Noninvasive Detection of Gastrointestinal Tumours: A Machine Learning Model Based on Circulating Cell-Free DNA Unique Pattern Analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240412