JP2024515565A - Cell-free DNA sequencing data analysis methods to investigate nucleosome protection and chromatin accessibility - Google Patents

Cell-free DNA sequencing data analysis methods to investigate nucleosome protection and chromatin accessibility Download PDF

Info

Publication number
JP2024515565A
JP2024515565A JP2023561726A JP2023561726A JP2024515565A JP 2024515565 A JP2024515565 A JP 2024515565A JP 2023561726 A JP2023561726 A JP 2023561726A JP 2023561726 A JP2023561726 A JP 2023561726A JP 2024515565 A JP2024515565 A JP 2024515565A
Authority
JP
Japan
Prior art keywords
cancer
cell
determining
fragment
coverage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023561726A
Other languages
Japanese (ja)
Inventor
ギャビン ハ,
デイビッド マクファーソン,
ピーター エス. ネルソン,
アンナ-リサ ドーブリー,
ジョセフ ビー. ハイアット,
サルカール, ナボニル デ
ロバート パットン,
Original Assignee
フレッド ハッチンソン キャンサー センター
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フレッド ハッチンソン キャンサー センター filed Critical フレッド ハッチンソン キャンサー センター
Publication of JP2024515565A publication Critical patent/JP2024515565A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

一態様では、本開示は、細胞型を予測するための、セルフリーDNA試料からの配列リードデータを増強する、コンピュータ実装方法を提供する。方法は、複数の断片リードを含む配列リードデータを受け取るステップであって、各断片リードが、断片長および断片リード内のGまたはCである塩基のパーセンテージを示すGC含量を有する、ステップを含む。コンピューティングシステムにより、各断片リードについて、断片リードの断片長およびGC含量に基づいてGCの偏りの値を決定する。配列リードデータおよびGCの偏りの値を使用してGCの偏りについて調整されたゲノムカバレッジ分布を生成する。ゲノムカバレッジ分布に基づいて、細胞型を予測する。この方法を、例えば、がんの診断、モニタリング、および精密治療のために、生体試料中に存在するセルフリーDNAに基づいて細胞の亜型および表現型を評定するために活用することができる。In one aspect, the present disclosure provides a computer-implemented method for enhancing sequence read data from a cell-free DNA sample to predict cell type. The method includes receiving sequence read data including a plurality of fragment reads, each fragment read having a fragment length and a GC content indicating the percentage of bases that are G or C in the fragment read. A computing system determines a GC bias value for each fragment read based on the fragment length and GC content of the fragment read. The sequence read data and the GC bias value are used to generate a GC bias adjusted genome coverage distribution. Based on the genome coverage distribution, predict the cell type. The method can be utilized to assess cell subtypes and phenotypes based on cell-free DNA present in a biological sample, for example, for cancer diagnosis, monitoring, and precision therapy.

Description

関連出願との相互参照
本出願は、その全体開示が参照により本明細書に組み込まれる、2021年4月8日出願の米国特許出願第63/172,590号、および2021年11月5日出願の米国特許出願第63/276,378号の利益を主張するものである。
CROSS-REFERENCE TO RELATED APPLICATIONS This application claims the benefit of U.S. Patent Application No. 63/172,590, filed April 8, 2021, and U.S. Patent Application No. 63/276,378, filed November 5, 2021, the entire disclosures of which are incorporated herein by reference.

政府のライセンス権に関する記載
本発明は、国立衛生研究所(National Institutes of Health)から授与されたCA228944、CA264383、CA237746、CA097186、CA234715、CA076930、およびHL007093、ならびに米国陸軍医療研究開発司令部(United States Army Medical Research and Development Command)から授与されたW81XWH-21-1-0513、W81XWH-18-1-0406、およびW81XWH-17-1-0380の下で政府援助によりなされたものである。政府は、本発明に関して一定の権利を有する。
GOVERNMENT LICENSE RIGHTS STATEMENT This invention was made with government support under grants CA228944, CA264383, CA237746, CA097186, CA234715, CA076930, and HL007093 awarded by the National Institutes of Health, and W81XWH-21-1-0513, W81XWH-18-1-0406, and W81XWH-17-1-0380 awarded by the United States Army Medical Research and Development Command. The Government has certain rights in this invention.

背景
転移がんは、末期のがんであり、がんに関連した死亡に至ることも多い。新規または再発転移がんが診断された時点の処置選択肢は、多くの場合、原発腫瘍からの臨床診断に基づく。さらに、転移増悪または処置に対する抵抗性の発生の間に腫瘍における分子の変化、例えば、遺伝的変更または表現型の変化が出現し得る。例えば、乳がんでは、標的化処置に対する抵抗性の発生の間にホルモン受容体の変換が頻繁に観察される。したがって、腫瘍亜型を分類し、治療の間の腫瘍表現型の変化を駆動する転写調節のパターンを特定することが重要である。この型の研究には、治療に対する抵抗性の機構の研究、ならびに患者に寿命を延長させる処置およびケアをもたらすために臨床的処置決定の情報をもたらすことに対して極めて重要な意味がある。
Background Metastatic cancer is a terminal cancer and often leads to cancer-related death. Treatment options at the time of diagnosis of new or recurrent metastatic cancer are often based on clinical diagnosis from the primary tumor. In addition, molecular changes in tumors, such as genetic alterations or phenotypic changes, may appear during metastatic progression or the development of resistance to treatment. For example, in breast cancer, conversion of hormone receptors is frequently observed during the development of resistance to targeted treatment. Therefore, it is important to classify tumor subtypes and identify patterns of transcriptional regulation that drive tumor phenotypic changes during treatment. This type of research has crucial implications for studying mechanisms of resistance to treatment and informing clinical treatment decisions to provide patients with life-prolonging treatments and care.

固形腫瘍の亜型を決定するための現行の手法は、組織生検材料を採取し、免疫組織化学的検査などのイメージング技法を適用して、細胞表現型を評定することを伴うものである。しかし、疾患をモニタリングするための外科的生検材料を転移がんを有する患者から得ることは、特に末期がんに関しては、転移部位の場所および/または数に起因して難しいことも多い。さらに、生検の繰り返しは対応が難しく、また標準治療とはみなされないので、腫瘍における分子の変化を調査することは特に困難である。したがって、腫瘍の再発および処置に対する抵抗性の間の亜型の切り換えに対処するためには正確な亜型決定が極めて重要であるが、治療の間の腫瘍の進化および亜型の可塑性を特徴付けることは難しく、そのことにより、転移がんを有する患者に対する現行の処置戦略および精密医療の主な限定が例証される。 Current approaches to subtyping solid tumors involve taking tissue biopsies and applying imaging techniques such as immunohistochemistry to assess cellular phenotype. However, obtaining surgical biopsies for disease monitoring from patients with metastatic cancer is often difficult, especially for advanced cancers, due to the location and/or number of metastatic sites. Furthermore, investigating molecular changes in tumors is particularly challenging, as repeat biopsies are cumbersome and are not considered standard of care. Thus, accurate subtyping is crucial to address subtype switching during tumor recurrence and resistance to treatment, but characterizing tumor evolution and subtype plasticity during treatment is difficult, thereby illustrating a major limitation of current treatment strategies and precision medicine for patients with metastatic cancer.

例示のために、乳がんは最も一般的ながんの原因の1つであり、世界的に女性の間でがん診断の23%、がんに関連した死亡の14%を占める。標的化治療は、3種のホルモン受容体:ER、PRおよびHER2の発現を含めた、腫瘍亜型が指針となる。症例のおよそ15%で、乳がん腫瘍は、腫瘍の再発の間に、または内分泌治療に対する抵抗性の機構として、ホルモン亜型の切り換えを受ける。しかし、腫瘍亜型の臨床的決定は、末期がんでは常套的に採取されるものではない、または治療の過程中に繰り返し取得されるものではない、組織生検に依然として制限されたままである。 To illustrate, breast cancer is one of the most common causes of cancer, accounting for 23% of cancer diagnoses and 14% of cancer-related deaths among women worldwide. Targeted therapy is guided by tumor subtype, including expression of three hormone receptors: ER, PR, and HER2. In approximately 15% of cases, breast cancer tumors undergo hormone subtype switching during tumor recurrence or as a mechanism of resistance to endocrine therapy. However, clinical determination of tumor subtype remains limited to tissue biopsies, which are not routinely taken in advanced disease or repeatedly obtained during the course of treatment.

同様に、前立腺がんは、男性の間でがん死亡率の原因として2番目に多く、2020年の米国における死亡は33,000件であったと推定される。去勢抵抗性前立腺がん(CRPC)は、疾患のアンドロゲン遮断療法に対する抵抗性が発生し、治癒的処置が存在せず一定して致死的な段階である、転移CRPC(mCRPC)に増悪した段階である。mCRPCは、特定のゲノムまたはエピジェネティック改変によって一般に分類される複数の別個の亜型系列および分子亜型を含むと理解されている。前立腺がんは、神経内分泌(NE)癌、低アンドロゲン調節性病態(ARlowPC)、ダブルネガティブ前立腺がん(DNPC、ARネガティブNEネガティブ)を含めた、分化転換される病態の範囲を含む表現型の特徴によってカテゴリー化することができる。これらの表現型亜型は、強力なアンドロゲン除去療法抵抗性の状況で出現するにつれてますます頻度が高くなり、進行した前立腺がんを有する患者の特色のある予後を示すものであるので、特に重要である。前立腺がん精密医療の新時代にあって、腫瘍ゲノムにおける特定の分子変更が指針となる(現在、PARPインヒビター、免疫チェックポイント遮断が特定のDNA修復異常が指針となる)、いくつかのより新しい治療選択肢が出現している。関連性のある分子状況によって定義される正確な分子分類は、前立腺がんに対する今後の「精密医療」の範囲を創出するものであるので、極めて重要になってくる。 Similarly, prostate cancer is the second leading cause of cancer mortality among men, with an estimated 33,000 deaths in the United States in 2020. Castration-resistant prostate cancer (CRPC) is a stage in which resistance to androgen deprivation therapy of the disease occurs and progresses to metastatic CRPC (mCRPC), a stage in which there is no curative treatment and which is invariably fatal. mCRPC is understood to include multiple distinct subtype lineages and molecular subtypes that are generally classified by specific genomic or epigenetic alterations. Prostate cancer can be categorized by phenotypic features, including a range of transdifferentiated pathologies, including neuroendocrine (NE) cancer, low androgen-regulated disease states (ARlowPC), and double-negative prostate cancer (DNPC, AR negative NE negative). These phenotypic subtypes are particularly important because they are increasingly frequent as they emerge in the setting of strong androgen deprivation therapy resistance and are indicative of distinctive prognoses for patients with advanced prostate cancer. In the new era of precision medicine in prostate cancer, several newer treatment options have emerged that are guided by specific molecular alterations in the tumor genome (currently PARP inhibitors, immune checkpoint blockade, and specific DNA repair defects). Accurate molecular classification defined by the relevant molecular landscape will be crucial, as it will create the scope of future "precision medicine" for prostate cancer.

したがって、診療所において常套的に実施することができる、細胞または組織型、例えばがん表現型などを識別するための容易かつ正確な方法が依然として必要とされている。本開示は、これらおよび関連する必要性に対処するものである。 Therefore, there remains a need for easy and accurate methods for identifying cell or tissue types, such as cancer phenotypes, that can be routinely performed in the clinic. The present disclosure addresses these and related needs.

概要
この概要は、下の詳細な説明でさらに記載する概念選択を簡易化した形態で導入するために提示するものである。この概要は、特許請求された主題の重要な特徴を特定することを意図したものでもなく、特許請求された主題の範囲の決定を補助するために使用されることを意図したものでもない。
SUMMARY This Summary is provided to introduce a selection of concepts in a simplified form that are further described below in the Detailed Description. This Summary is not intended to identify key features of the claimed subject matter, nor is it intended to be used as an aid in determining the scope of the claimed subject matter.

一態様では、本開示は、細胞型を予測するための、セルフリーDNA試料からの配列リードデータを増強する、コンピュータ実装方法を提供する。前記方法は、
コンピューティングシステムにより配列リードデータを受け取るステップであって、前記配列リードデータが、複数の断片リードを含み、各断片リードが、断片長および前記断片リード内のGまたはCである塩基のパーセンテージを示すGC含量を有する、ステップ、
前記コンピューティングシステムにより、前記断片リードの前記断片長および前記GC含量に基づいて各断片リードについてのGCの偏りの値を決定するステップ、
前記コンピューティングシステムにより、前記配列リードデータおよび前記GCの偏りの値を使用してGCの偏りについて調整されたゲノムカバレッジ分布を生成するステップ、ならびに
前記コンピューティングシステムにより、前記ゲノムカバレッジ分布に基づいて前記細胞型を予測するステップ
を含む。
In one aspect, the present disclosure provides a computer-implemented method for augmenting sequence read data from a cell-free DNA sample to predict cell type, the method comprising:
receiving, by a computing system, sequence read data, the sequence read data comprising a plurality of fragment reads, each fragment read having a fragment length and a GC content indicating a percentage of bases in the fragment read that are G or C;
determining, by the computing system, a GC bias value for each fragment read based on the fragment length and the GC content of the fragment read;
generating, by the computing system, a genomic coverage distribution adjusted for GC bias using the sequence read data and the GC bias value; and predicting, by the computing system, the cell type based on the genomic coverage distribution.

一つの実施形態では、前記ゲノムカバレッジ分布に基づいて前記細胞型を予測するステップは、細胞表現型を予測することを含む。一つの実施形態では、前記細胞表現型を予測することは、組織型、がん型、またはがん亜型を予測することを含む。一つの実施形態では、前記細胞表現型を予測することは、1種または複数種の目的の遺伝子の発現を予測することを含む。一つの実施形態では、前記断片リードの前記断片長および前記GC含量に基づいて前記GCの偏りの値を決定するステップは、断片長とGC含量の各組合せの観察されたリードの数を計数して、前記配列リードデータについてのGC計数を決定すること、前記GC計数をGC出現頻度行列内の対応するGC出現頻度で割って、各断片長についてのGCの偏りを決定すること、各断片長についてのGCの偏りの平均を正規化して、およそのGCの偏りの値を決定すること、ならびに、前記およそのGCの偏りの値を平滑化して、前記GCの偏りの値を決定することを含む。一つの実施形態では、前記GC出現頻度行列は、参照ゲノムのマッピング可能な領域内の複数の断片長の各断片長についての各GC含量の出現頻度を記憶させたものである。一つの実施形態では、前記複数の断片長は、短い長さの閾値から長い長さの閾値までの各断片長を含む。一つの実施形態では、前記短い長さの閾値は10~20塩基対の範囲内であり、前記長い長さの閾値は450~550塩基対の範囲内である。一つの実施形態では、前記短い長さの閾値は15塩基対であり、前記長い長さの閾値は500塩基対である。一つの実施形態では、前記方法は、細胞型に関して目的のゲノム領域を決定するステップ、および前記目的のゲノム領域をフィルタリングして、細胞型に関する情報をもたらす部位を同定するステップをさらに含む。一つの実施形態では、前記目的のゲノム領域を決定するステップは、各目的のゲノム領域周囲の固定サイズのウインドウ内の平均マッピング可能性を決定すること、および平均マッピング可能性が所定の閾値未満である目的のゲノム領域を棄却することを含む。一つの実施形態では、前記目的のゲノム領域をフィルタリングして、細胞型に関する情報をもたらす部位を同定するステップは、第1の細胞型と第2の細胞型の間で差動シグナルを有する部位を決定することを含む。 In one embodiment, predicting the cell type based on the genome coverage distribution includes predicting a cell phenotype. In one embodiment, predicting the cell phenotype includes predicting a tissue type, a cancer type, or a cancer subtype. In one embodiment, predicting the cell phenotype includes predicting expression of one or more genes of interest. In one embodiment, determining the GC bias value based on the fragment length and the GC content of the fragment reads includes counting the number of observed reads of each combination of fragment length and GC content to determine a GC count for the sequence read data, dividing the GC count by the corresponding GC frequency in a GC frequency matrix to determine the GC bias for each fragment length, normalizing the average GC bias for each fragment length to determine an approximate GC bias value, and smoothing the approximate GC bias value to determine the GC bias value. In one embodiment, the GC occurrence matrix stores the occurrence of each GC content for each fragment length of a plurality of fragment lengths in a mappable region of a reference genome. In one embodiment, the plurality of fragment lengths includes fragment lengths ranging from a short length threshold to a long length threshold. In one embodiment, the short length threshold is in the range of 10-20 base pairs and the long length threshold is in the range of 450-550 base pairs. In one embodiment, the short length threshold is 15 base pairs and the long length threshold is 500 base pairs. In one embodiment, the method further comprises determining genomic regions of interest with respect to a cell type and filtering the genomic regions of interest to identify sites that provide information about the cell type. In one embodiment, determining the genomic regions of interest comprises determining an average mappability within a fixed size window around each genomic region of interest and discarding genomic regions of interest with an average mappability below a predetermined threshold. In one embodiment, filtering the genomic region of interest to identify sites that provide information about the cell type includes determining sites that have differential signals between the first cell type and the second cell type.

一つの実施形態では、前記ゲノムカバレッジ分布を生成するステップは、細胞型に関する情報をもたらす部位それぞれの周囲のウインドウ内の断片中点を決定すること、各断片リードについての前記GCの偏りの値の逆数に基づいて各断片リードに重みを割り当てること、前記重み付けされた断片リードを使用して、GC補正された中点カバレッジプロファイルを決定すること、除外領域とオーバーラップする位置を除外すること、全ての部位についてのGC補正された中点カバレッジプロファイルのアベレージを決定することに基づいて、平均プロファイルを決定すること、前記平均プロファイルを平滑化して、平滑化された平均プロファイルを生成すること、および前記平滑化された平均プロファイルを、周囲のカバレッジの平均で割ることによって正規化して、正規化された平均プロファイルを決定することを含む。一つの実施形態では、前記除外領域は、エンコード統合GRCh38除外一覧、セントロメア、ヒトゲノムアセンブリ内のギャップ、修正パッチ、代替ハプロタイプ、マッピング可能性ゼロの領域の範囲内にある、または、平均を少なくとも10標準偏差上回るカバレッジを有する1つまたは複数の領域を含む。一つの実施形態では、前記ゲノムカバレッジ分布に基づいて前記細胞型を予測するステップは、前記ゲノムカバレッジ分布に基づいて1つまたは複数の特徴を生成すること、前記1つまたは複数の特徴を分類器モデルへの入力として提供すること、および前記分類器モデルの出力に基づいて前記細胞型を決定することを含む。一つの実施形態では、前記1つまたは複数の特徴は、細胞型に関する情報をもたらす部位それぞれの周囲の第1の所定のウインドウ内のカバレッジの平均、細胞型に関する情報をもたらす部位それぞれの周囲の前記第1の所定のウインドウとはサイズが異なる第2の所定のウインドウ内のカバレッジの平均、および、細胞型に関する情報をもたらす部位それぞれの周囲の前記ゲノムカバレッジ分布の振幅を含む。一つの実施形態では、前記第1の所定のウインドウは、前記第2の所定のウインドウよりも大きい。一つの実施形態では、前記第1の所定のウインドウの幅は1800~2200塩基対の範囲内であり、前記第2の所定のウインドウの幅は40~80塩基対の範囲内である。一つの実施形態では、前記第1の所定のウインドウの幅は2000塩基対であり、前記第2の所定のウインドウの幅は60塩基対である。一つの実施形態では、細胞型に関する情報をもたらす部位それぞれの周囲の前記ゲノムカバレッジ分布の前記振幅は、前記ゲノムカバレッジ分布をトリミングして、10個のピークを含有するウインドウにすること、前記ゲノムカバレッジ分布の前記ウインドウに対して高速フーリエ変換を実施すること、および10番目の周波数の大きさを決定することによって決定される。一つの実施形態では、前記分類器モデルは、ロジスティック回帰モデル、人工ニューラルネットワーク、決定木、サポートベクターマシン、またはベイジアンネットワークを含む。 In one embodiment, the step of generating the genome coverage distribution includes determining fragment midpoints within a window around each site that provides information about a cell type, assigning a weight to each fragment read based on the inverse of the GC bias value for each fragment read, using the weighted fragment reads to determine a GC-corrected midpoint coverage profile, excluding positions that overlap with an excluded region, determining a mean profile based on determining an average of the GC-corrected midpoint coverage profiles for all sites, smoothing the mean profile to generate a smoothed mean profile, and normalizing the smoothed mean profile by dividing by the average of the surrounding coverage to determine a normalized mean profile. In one embodiment, the excluded regions include one or more regions that are within the encoding integrated GRCh38 excluded list, centromeres, gaps in the human genome assembly, modified patches, alternative haplotypes, regions of zero mappability, or have coverage at least 10 standard deviations above the mean. In one embodiment, predicting the cell type based on the genome coverage distribution comprises generating one or more features based on the genome coverage distribution, providing the one or more features as input to a classifier model, and determining the cell type based on an output of the classifier model. In one embodiment, the one or more features comprise an average of coverage within a first predefined window around each site providing information about a cell type, an average of coverage within a second predefined window around each site providing information about a cell type, the second predefined window having a different size than the first predefined window, and an amplitude of the genome coverage distribution around each site providing information about a cell type. In one embodiment, the first predefined window is larger than the second predefined window. In one embodiment, the width of the first predefined window is in the range of 1800-2200 base pairs and the width of the second predefined window is in the range of 40-80 base pairs. In one embodiment, the width of the first predefined window is 2000 base pairs and the width of the second predefined window is 60 base pairs. In one embodiment, the amplitude of the genome coverage distribution around each site that provides information about cell type is determined by trimming the genome coverage distribution to a window containing 10 peaks, performing a fast Fourier transform on the window of the genome coverage distribution, and determining the magnitude of the 10th frequency. In one embodiment, the classifier model comprises a logistic regression model, an artificial neural network, a decision tree, a support vector machine, or a Bayesian network.

別の態様では、本開示は、目的の細胞に由来するセルフリーDNAを含む試料由来の目的の前記細胞についてのクロマチンアクセシビリティプロファイルを決定する方法を提供する。前記方法は、
前記セルフリーDNAから配列リードデータを得るステップ、
コンピューティングシステムにより配列リードデータを受け取るステップであって、前記配列リードデータが、複数の断片リードを含み、各断片リードが、断片長および前記断片リード内のGまたはCである塩基のパーセンテージを示すGC含量を有する、ステップ、
前記コンピューティングシステムにより、前記断片リードの前記断片長および前記GC含量に基づいて各断片リードについてのGCの偏りの値を決定するステップ、
前記コンピューティングシステムにより、前記配列リードデータおよび前記GCの偏りの値を使用してGCの偏りについて調整されたゲノムカバレッジ分布を生成するステップ、ならびに
前記ゲノムカバレッジ分布からクロマチンアクセシビリティプロファイルを決定するステップ
を含む。
In another aspect, the disclosure provides a method for determining a chromatin accessibility profile for a cell of interest from a sample comprising cell-free DNA derived from said cell of interest, the method comprising:
obtaining sequence read data from the cell-free DNA;
receiving, by a computing system, sequence read data, the sequence read data comprising a plurality of fragment reads, each fragment read having a fragment length and a GC content indicating a percentage of bases in the fragment read that are G or C;
determining, by the computing system, a GC bias value for each fragment read based on the fragment length and the GC content of the fragment read;
generating, by the computing system, a GC bias adjusted genome coverage distribution using the sequence read data and the GC bias value; and determining a chromatin accessibility profile from the genome coverage distribution.

一つの実施形態では、前記方法は、クロマチン占有率プロファイルに基づいて目的の前記細胞表現型を決定するステップをさらに含む。一つの実施形態では、前記細胞表現型を決定するステップは、組織型、がん型、がん亜型、悪性腫瘍の高悪性度表現型、および/または薬物応答性表現型を決定することを含む。一つの実施形態では、前記方法は、本明細書に記載のコンピュータ実装方法の1つまたは複数のステップを実施することをさらに含む。 In one embodiment, the method further comprises determining the cell phenotype of interest based on the chromatin occupancy profile. In one embodiment, determining the cell phenotype comprises determining a tissue type, a cancer type, a cancer subtype, an aggressive phenotype of a malignant tumor, and/or a drug responsiveness phenotype. In one embodiment, the method further comprises performing one or more steps of a computer-implemented method described herein.

別の態様では、本開示は、目的の細胞に由来するセルフリーDNAを含む試料由来の目的の前記細胞の細胞型を決定するための方法を提供する。前記方法は、
セルフリーDNAを含む前記試料から生成された配列リードデータを得るステップ、
本明細書に記載のコンピュータ実装方法を実施するステップ、および
前記コンピューティングシステムによって提供された予測に基づいて目的の前記細胞の前記細胞型を決定するステップ
を含む。
In another aspect, the disclosure provides a method for determining the cell type of a cell of interest from a sample comprising cell-free DNA derived from said cell of interest, the method comprising:
obtaining sequence read data generated from said sample comprising cell-free DNA;
performing a computer-implemented method as described herein; and determining the cell type of the cell of interest based on a prediction provided by the computing system.

一つの実施形態では、前記細胞型を決定するステップは、細胞表現型を決定することを含む。一つの実施形態では、前記細胞表現型を決定することは、組織型、がん型、がん亜型、悪性腫瘍の高悪性度表現型、および/または薬物応答性表現型を決定することを含む。一つの実施形態では、前記細胞表現型を決定することは、1種または複数種の目的の遺伝子の発現を決定することを含む。 In one embodiment, the step of determining the cell type comprises determining a cell phenotype. In one embodiment, determining the cell phenotype comprises determining a tissue type, a cancer type, a cancer subtype, a high-grade phenotype of a malignant tumor, and/or a drug-responsive phenotype. In one embodiment, determining the cell phenotype comprises determining the expression of one or more genes of interest.

別の態様では、本開示は、対象におけるがん細胞の存在を検出する方法であって、
前記対象から得たセルフリーDNAを含む試料から生成された配列リードデータを得るステップ、
本明細書に記載のコンピュータ実装方法を実施するステップ、および
前記コンピューティングシステムによって提供された予測に基づいて前記対象におけるがん細胞の存在を決定するステップ
を含む、方法を提供する。
In another aspect, the disclosure provides a method of detecting the presence of cancer cells in a subject, comprising:
obtaining sequence read data generated from a sample comprising cell-free DNA obtained from the subject;
performing a computer-implemented method as described herein; and determining the presence of cancer cells in the subject based on the prediction provided by the computing system.

一つの実施形態では、前記方法は、経時的に複数回実施され、各実施時に前記対象において検出されたがん細胞(複数可)をさらに特徴付けて、前記コンピューティングシステムによって提供された予測に基づいて、前記検出されたがん細胞(複数可)のがん亜型または表現型を決定する。一つの実施形態では、前記方法は、経時的に複数回実施され、前記検出されたがん細胞(複数可)の表現型の変化を経時的に検出するステップをさらに含む。一つの実施形態では、前記対象は、前記方法の実施間にがん治療を受け、前記方法は、前記処置に対する前記がん細胞(複数可)の応答性を決定するステップをさらに含む。 In one embodiment, the method is performed multiple times over time, with each performance further characterizing the cancer cell(s) detected in the subject and determining a cancer subtype or phenotype of the detected cancer cell(s) based on the prediction provided by the computing system. In one embodiment, the method is performed multiple times over time, and further includes detecting a change in the phenotype of the detected cancer cell(s) over time. In one embodiment, the subject receives a cancer treatment between performances of the method, and the method further includes determining the responsiveness of the cancer cell(s) to the treatment.

別の態様では、本開示は、標的がん細胞に由来するセルフリーDNAを含む試料由来の前記標的がん細胞のがん亜型を決定する方法を提供する。前記方法は、
セルフリーDNAを含む前記試料から生成された配列リードデータを得るステップ、
請求項5から21までのいずれか一項に記載のコンピュータ実装方法を実施するステップ、および
前記コンピューティングシステムによって提供された、予測されるがん亜型に基づいて、起源細胞の前記細胞型を決定するステップ
を含む。
In another aspect, the present disclosure provides a method for determining a cancer subtype of a target cancer cell from a sample comprising cell-free DNA derived from said target cancer cell, said method comprising:
obtaining sequence read data generated from said sample comprising cell-free DNA;
22. The method according to claim 5, further comprising: performing a computer-implemented method according to any one of claims 5 to 21; and determining the cell type of a cell of origin based on a predicted cancer subtype provided by the computing system.

一つの実施形態では、前記試料は、がんを有する対象から得たものである。一つの実施形態では、前記がんは、転移乳がんであると特徴付けられる。一つの実施形態では、前記がん亜型を決定することは、前記がんがER+であるのかER-であるのかを決定することを含む。一つの実施形態では、前記がん亜型を決定することは、前記がんがPR+であるのかPR-であるのかを決定することを含む。一つの実施形態では、前記がん亜型を決定することは、前記がんがHER2+であるのかHER2-であるのかを決定することを含む。一つの実施形態では、前記がん亜型を決定することは、
前記がんがER+であるのかER-であるのか、
前記がんがPR+であるのかPR-であるのか、および
前記がんがHER2+であるのかHER2-であるのか
のうちの2つまたは全てを決定することを含む。
In one embodiment, the sample is obtained from a subject with cancer. In one embodiment, the cancer is characterized as metastatic breast cancer. In one embodiment, determining the cancer subtype comprises determining whether the cancer is ER+ or ER-. In one embodiment, determining the cancer subtype comprises determining whether the cancer is PR+ or PR-. In one embodiment, determining the cancer subtype comprises determining whether the cancer is HER2+ or HER2-. In one embodiment, determining the cancer subtype comprises:
whether the cancer is ER+ or ER-;
determining two or all of: whether the cancer is PR+ or PR-; and whether the cancer is HER2+ or HER2-.

一つの実施形態では、前記がんは、転移前立腺がんであると特徴付けられる。一つの実施形態では、前記がん亜型を決定することは、前記がんがAR+(ARPC)であるのかAR-であるのかを決定することを含む。一つの実施形態では、前記がん亜型を決定することは、前記がんがARPCであるのかAR-lowであるのかを決定することを含む。一つの実施形態では、前記がん亜型を決定することは、前記がんが神経内分泌前立腺がん(NEPC)表現型シグネチャーを有するか否かを決定することを含む。一つの実施形態では、前記がん亜型を決定することは、前記がんが両分泌性であるのかどうかを決定することを含む。一つの実施形態では、前記がん亜型を決定することは、
前記がんがAR+(ARPC)であるのかAR-であるのか、
前記がんがAR-lowであるのかARPCであるのか、
前記がんが神経内分泌前立腺がん(NEPC)表現型シグネチャーを有するか否か、
前記がんがAR-lowであるのかNEPCであるのか、
前記がんが両分泌性であるのかARPCであるのかまたはNEPCであるのか
のうちの2つまたは全てを決定することを含む。
In one embodiment, the cancer is characterized as metastatic prostate cancer. In one embodiment, determining the cancer subtype comprises determining whether the cancer is AR+ (ARPC) or AR-. In one embodiment, determining the cancer subtype comprises determining whether the cancer is ARPC or AR-low. In one embodiment, determining the cancer subtype comprises determining whether the cancer has a neuroendocrine prostate cancer (NEPC) phenotype signature. In one embodiment, determining the cancer subtype comprises determining whether the cancer is biendocrine. In one embodiment, determining the cancer subtype comprises determining whether the cancer is biendocrine.
whether the cancer is AR+ (ARPC) or AR-;
Whether the cancer is AR-low or ARPC;
whether the cancer has a neuroendocrine prostate cancer (NEPC) phenotypic signature;
Whether the cancer is AR-low or NEPC;
This includes determining two or all of whether the cancer is bisecretory, ARPC, or NEPC.

一つの実施形態では、前記がんは、肺がんであると特徴付けられる。一つの実施形態では、前記がん亜型を決定することは、前記がんが小細胞肺がん(SCLC)であるのか非小細胞肺がん(NSCLC)であるのか決定することを含む。一つの実施形態では、前記方法は、前記NSCLCが腺癌であるのか扁平上皮癌であるのかを決定するステップをさらに含む。一つの実施形態では、前記配列リードデータは、ゲノム標的のパネルから生成されたものである。一つの実施形態では、ゲノム標的の前記パネルは、SCLCに関連付けられる1種または複数種の転写因子の転写因子結合部位(TFBS)を含む。一つの実施形態では、SCLCに関連付けられる前記1種または複数種の転写因子は、ASLC、NEUROD1、POU2F3、RESTなどのうちの1つまたは複数を含み、前記方法が、前記TFBSのヌクレオソーム占有率を決定するステップを含む。一つの実施形態では、前記TFBSは、ChIP-seqデータなどによって同定され、肺がんに関連付けられる遺伝子の転写開始部位の近位にある場合、前記パネル中に保持される。一つの実施形態では、ゲノム標的の前記パネルは、肺がんに関連付けられる1種または複数種のマーカーの転写開始部位(TSS)を含み、前記方法は、前記TSSのヌクレオソーム占有率を決定するステップを含む。 In one embodiment, the cancer is characterized as lung cancer. In one embodiment, determining the cancer subtype includes determining whether the cancer is small cell lung cancer (SCLC) or non-small cell lung cancer (NSCLC). In one embodiment, the method further includes determining whether the NSCLC is adenocarcinoma or squamous cell carcinoma. In one embodiment, the sequence read data is generated from a panel of genomic targets. In one embodiment, the panel of genomic targets includes transcription factor binding sites (TFBS) of one or more transcription factors associated with SCLC. In one embodiment, the one or more transcription factors associated with SCLC include one or more of ASLC, NEUROD1, POU2F3, REST, etc., and the method includes determining the nucleosome occupancy of the TFBS. In one embodiment, the TFBS is retained in the panel if it is proximal to a transcription start site of a gene associated with lung cancer, identified, for example, by ChIP-seq data. In one embodiment, the panel of genomic targets includes transcription start sites (TSSs) of one or more markers associated with lung cancer, and the method includes determining the nucleosome occupancy of the TSSs.

がんの検出または特徴付けに関連する本明細書に記載の任意の方法態様の一部の実施形態では、前記試料は、対象から得たものである。前記方法はさらに、前記決定されたがん亜型に基づいて、前記対象に対して有効な処置を施行するステップをさらに含み得る。一つの実施形態では、前記方法は、がんであると最初に診断された後の複数の別個の時点で前記対象から得た複数の試料に対して前記方法を実施するステップをさらに含む。一つの実施形態では、前記配列リードデータは、超ローパス全ゲノムシーケンシングによって生成されたものである。一つの実施形態では、前記配列リードデータは、クロマチンアクセシビリティアッセイによって生成されたものである。一つの実施形態では、前記配列リードデータは、ATAC-seq法で生成されたものである。一つの実施形態では、前記配列リードデータは、ChIP-seq法で生成されたものである。一つの実施形態では、前記配列リードデータは、DNA分解酵素感受性アッセイで生成されたものである。一つの実施形態では、前記配列リードデータは、カットアンドランアッセイで生成されたものである。一つの実施形態では、前記カットアンドランアッセイは、H3K27ac、H3K4me1およびH3K27acのうちの1つまたは複数に対する翻訳後修飾を標的とする親和性試薬を組み入れるものである。 In some embodiments of any method aspect described herein relating to cancer detection or characterization, the sample is obtained from a subject. The method may further include administering an effective treatment to the subject based on the determined cancer subtype. In one embodiment, the method further includes performing the method on a plurality of samples obtained from the subject at a plurality of separate time points after an initial diagnosis of cancer. In one embodiment, the sequence read data is generated by ultra-low pass whole genome sequencing. In one embodiment, the sequence read data is generated by a chromatin accessibility assay. In one embodiment, the sequence read data is generated by ATAC-seq. In one embodiment, the sequence read data is generated by ChIP-seq. In one embodiment, the sequence read data is generated by a DNase sensitivity assay. In one embodiment, the sequence read data is generated by a cut-and-run assay. In one embodiment, the cut-and-run assay incorporates an affinity reagent that targets one or more of the post-translational modifications H3K27ac, H3K4me1, and H3K27ac.

本明細書に記載の任意の方法態様の一部の実施形態では、前記方法は、前記配列リードデータを生成するステップをさらに含み得る。 In some embodiments of any of the method aspects described herein, the method may further include generating the sequence read data.

本明細書に記載の任意の方法態様の一部の実施形態では、前記配列リードデータが、ゲノム標的のパネルから生成された配列リードデータを含む。本明細書に記載の任意の方法態様の一部の実施形態では、ゲノム標的の前記パネルは、目的のがん型に関連付けられる1種または複数種の転写因子の転写因子結合部位(TFBS)を含む。本明細書に記載の任意の方法態様の一部の実施形態では、前記方法は、前記TFBSのヌクレオソーム占有率を決定するステップを含む。本明細書に記載の任意の方法態様の一部の実施形態では、前記TFBSは、ChIP-seqデータなどによって同定され、それが目的の前記がん型に関連付けられる遺伝子の転写開始部位の近位にある場合、前記パネル中に保持される。本明細書に記載の任意の方法態様の一部の実施形態では、ゲノム標的の前記パネルは、目的の前記がん型に関連付けられる1種または複数種のマーカーの転写開始部位(TSS)を含み、前記方法は、前記TSSのヌクレオソーム占有率を決定するステップを含む。 In some embodiments of any of the method aspects described herein, the sequence read data comprises sequence read data generated from a panel of genomic targets. In some embodiments of any of the method aspects described herein, the panel of genomic targets comprises transcription factor binding sites (TFBSs) of one or more transcription factors associated with the cancer type of interest. In some embodiments of any of the method aspects described herein, the method comprises determining the nucleosome occupancy of the TFBSs. In some embodiments of any of the method aspects described herein, the TFBSs are identified, such as by ChIP-seq data, and are retained in the panel if they are proximal to a transcription start site of a gene associated with the cancer type of interest. In some embodiments of any of the method aspects described herein, the panel of genomic targets comprises transcription start sites (TSSs) of one or more markers associated with the cancer type of interest, and the method comprises determining the nucleosome occupancy of the TSSs.

本明細書に記載の任意の方法態様の一部の実施形態では、前記試料は、血液、血漿、または血清などであり得る。 In some embodiments of any of the method aspects described herein, the sample may be blood, plasma, serum, or the like.

別の態様では、本開示は、細胞型を予測するための、セルフリーDNA試料からの配列リードデータを増強する、コンピュータ実装方法を提供する。前記方法は、
コンピューティングシステムにより配列リードデータを受け取るステップであって、前記配列リードデータが、複数の断片リードを含み、各断片リードが、ある断片長を有する、ステップ、
前記コンピューティングシステムにより、ある細胞型に関連付けられる少なくとも1種の遺伝子についての断片サイズの変動性を決定するステップ、および
前記コンピューティングシステムにより、前記少なくとも1種の遺伝子についての前記断片サイズの変動性に基づいて、前記細胞型を予測するステップ
を含む。
In another aspect, the present disclosure provides a computer-implemented method for augmenting sequence read data from a cell-free DNA sample to predict cell type, the method comprising:
receiving, by a computing system, sequence read data, the sequence read data including a plurality of fragment reads, each fragment read having a fragment length;
determining, by the computing system, a variability in fragment sizes for at least one gene associated with a cell type; and predicting, by the computing system, the cell type based on the variability in fragment sizes for the at least one gene.

一つの実施形態では、前記断片サイズの変動性を決定するステップは、断片サイズの変動係数を決定することを含む。一つの実施形態では、ゲノムカバレッジ分布に基づいて前記細胞型を予測するステップは、細胞表現型を予測することを含む。一つの実施形態では、前記細胞表現型を予測することは、がん亜型を予測することを含む。一つの実施形態では、前記細胞表現型を予測することは、前立腺がんのがん亜型を予測することを含む。一つの実施形態では、前記がん亜型を予測することは、ARPCとNEPCを区別することを含む。 In one embodiment, the step of determining the fragment size variability comprises determining a fragment size coefficient of variation. In one embodiment, the step of predicting the cell type based on the genome coverage distribution comprises predicting a cell phenotype. In one embodiment, predicting the cell phenotype comprises predicting a cancer subtype. In one embodiment, predicting the cell phenotype comprises predicting a cancer subtype of prostate cancer. In one embodiment, predicting the cancer subtype comprises distinguishing between ARPC and NEPC.

一つの実施形態では、前記断片サイズの変動性に基づいて前記細胞型を予測するステップは、
前記断片サイズの変動性に基づいて1つまたは複数の特徴を生成すること、
前記1つまたは複数の特徴を分類器モデルへの入力として提供すること、および
前記分類器モデルの出力に基づいて前記細胞型を決定すること
を含む。
In one embodiment, predicting the cell type based on the variability of fragment sizes comprises:
generating one or more features based on the variability in fragment sizes;
providing the one or more features as an input to a classifier model; and determining the cell type based on an output of the classifier model.

一つの実施形態では、前記断片サイズの変動性に基づいて前記1つまたは複数の特徴を生成することは、第1の細胞型における第2の細胞型に対する断片サイズの変動係数のlog2倍率変化値を生成することを含む。一つの実施形態では、前記log2倍率変化値により、前記第1の細胞型と前記第2の細胞型の間の遺伝子発現および遺伝子転写活性の少なくとも1つが予測される。一つの実施形態では、前記第1の細胞型はARPC細胞であり、前記第2の細胞型はNEPC細胞である。一つの実施形態では、前記分類器モデルは、ロジスティック回帰モデル、人工ニューラルネットワーク、決定木、サポートベクターマシン、またはベイジアンネットワークを含む。 In one embodiment, generating the one or more features based on the fragment size variability includes generating a log2 fold change value of the coefficient of variation of fragment size in a first cell type relative to a second cell type. In one embodiment, the log2 fold change value predicts at least one of gene expression and gene transcription activity between the first cell type and the second cell type. In one embodiment, the first cell type is an ARPC cell and the second cell type is a NEPC cell. In one embodiment, the classifier model includes a logistic regression model, an artificial neural network, a decision tree, a support vector machine, or a Bayesian network.

別の態様では、本開示は、目的の細胞に由来するセルフリーDNAを含む試料由来の目的の前記細胞の細胞型を決定するための方法であって、
セルフリーDNAを含む前記試料から生成された配列リードデータを得るステップ、
本明細書に記載の(例えば、前記断片サイズの変動性に基づいて前記細胞型を予測することに関連する)コンピュータ実装方法を実施するステップ、および
前記コンピューティングシステムによって提供された予測に基づいて目的の前記細胞の前記細胞型を決定するステップ
を含む、方法を提供する。
In another aspect, the disclosure provides a method for determining a cell type of a cell of interest from a sample comprising cell-free DNA derived from said cell of interest, comprising:
obtaining sequence read data generated from said sample comprising cell-free DNA;
The present invention provides a method comprising: performing a computer-implemented method described herein (e.g., relating to predicting the cell type based on the variability of the fragment sizes); and determining the cell type of the cell of interest based on the prediction provided by the computing system.

一つの実施形態では、前記細胞型を決定するステップは、細胞表現型を決定することを含む。一つの実施形態では、前記細胞表現型を決定することは、がん亜型を決定することを含む。一つの実施形態では、前記がん亜型を決定することは、ARPCとNEPCを区別することを含む。 In one embodiment, the step of determining the cell type comprises determining a cell phenotype. In one embodiment, determining the cell phenotype comprises determining a cancer subtype. In one embodiment, determining the cancer subtype comprises distinguishing between ARPC and NEPC.

別の態様では、本開示は、対象におけるがん細胞の存在を検出する方法であって、
前記対象から得たセルフリーDNAを含む試料から生成された配列リードデータを得るステップ、
本明細書に記載の(例えば、前記断片サイズの変動性に基づいて前記細胞型を予測することに関連する)コンピュータ実装方法を実施するステップ、および
前記コンピューティングシステムによって提供された予測に基づいて前記対象におけるがん細胞の存在を決定するステップ
を含む、方法を提供する。
In another aspect, the disclosure provides a method of detecting the presence of cancer cells in a subject, comprising:
obtaining sequence read data generated from a sample comprising cell-free DNA obtained from the subject;
performing a computer-implemented method described herein (e.g., relating to predicting the cell type based on the variability of the fragment sizes); and determining the presence of cancer cells in the subject based on the prediction provided by the computing system.

一つの実施形態では、前記方法は、経時的に複数回実施され、各実施時に前記対象において検出されたがん細胞(複数可)をさらに特徴付けて、前記コンピューティングシステムによって提供された予測に基づいて、前記検出されたがん細胞(複数可)のがん亜型または表現型を決定する。一つの実施形態では、前記方法は、経時的に複数回実施され、前記方法は、前記検出されたがん細胞表現型の変化を経時的に検出するステップをさらに含む。一つの実施形態では、前記対象は、前記方法の実施間にがん治療を受け、前記方法は、前記処置に対する前記がん細胞の応答性を決定するステップをさらに含む。 In one embodiment, the method is performed multiple times over time, with each performance further characterizing the cancer cell(s) detected in the subject and determining a cancer subtype or phenotype of the detected cancer cell(s) based on the prediction provided by the computing system. In one embodiment, the method is performed multiple times over time, with the method further comprising detecting changes in the detected cancer cell phenotype over time. In one embodiment, the subject receives a cancer treatment between performances of the method, and the method further comprises determining the responsiveness of the cancer cells to the treatment.

別の態様では、本開示は、標的がん細胞に由来するセルフリーDNAを含む試料由来の前記標的がん細胞のがん亜型を決定する方法であって、
セルフリーDNAを含む前記試料から生成された配列リードデータを得るステップ、
本明細書に記載の(例えば、前記断片サイズの変動性に基づいて前記細胞型を予測することに関連する)コンピュータ実装方法を実施するステップ、および
前記コンピューティングシステムによって提供された、予測されるがん亜型に基づいて、起源細胞の前記細胞型を決定するステップ
を含む、方法を提供する。
In another aspect, the present disclosure provides a method for determining a cancer subtype of a target cancer cell from a sample comprising cell-free DNA derived from said target cancer cell, comprising:
obtaining sequence read data generated from said sample comprising cell-free DNA;
performing a computer-implemented method described herein (e.g., relating to predicting the cell type based on the variability of the fragment sizes); and determining the cell type of a cell of origin based on a predicted cancer subtype provided by the computing system.

一つの実施形態では、前記試料は、がんを有する対象から得たものである。一つの実施形態では、前記がんは、転移前立腺がんであると特徴付けられる。一つの実施形態では、前記がん亜型を前記決定することは、前記がんがAR+(ARPC)であるのかAR-であるのかを決定することを含む。一つの実施形態では、前記がん亜型を前記決定することは、前記がんがARPCであるのかAR-low前立腺がん(ARLPC)であるのかを決定することを含む。一つの実施形態では、前記がん亜型を前記決定することは、前記がんが神経内分泌前立腺がん(NEPC)表現型シグネチャーを有するか否かを決定することを含む。一つの実施形態では、前記試料は、対象から得たものであり、前記方法は、前記決定されたがん亜型に基づいて、前記対象に対して有効な処置を施行するステップをさらに含む。 In one embodiment, the sample is obtained from a subject having cancer. In one embodiment, the cancer is characterized as metastatic prostate cancer. In one embodiment, the determining the cancer subtype comprises determining whether the cancer is AR+ (ARPC) or AR-. In one embodiment, the determining the cancer subtype comprises determining whether the cancer is ARPC or AR-low prostate cancer (ARLPC). In one embodiment, the determining the cancer subtype comprises determining whether the cancer has a neuroendocrine prostate cancer (NEPC) phenotype signature. In one embodiment, the sample is obtained from a subject and the method further comprises administering an effective treatment to the subject based on the determined cancer subtype.

一つの実施形態では、前記方法は、がんであると最初に診断された後の複数の別個の時点で前記対象から得た複数の試料に対して前記方法を実施するステップをさらに含む。 In one embodiment, the method further comprises performing the method on a plurality of samples obtained from the subject at a plurality of distinct time points after an initial diagnosis of cancer.

一つの実施形態では、前記配列リードデータは、超ローパス全ゲノムシーケンシングによって生成されたものである。一つの実施形態では、前記配列リードデータは、クロマチンアクセシビリティアッセイによって生成されたものである。一つの実施形態では、前記配列リードデータは、ATAC-seq法で生成されたものである。一つの実施形態では、前記配列リードデータは、ChIP-seq法で生成されたものである。一つの実施形態では、前記配列リードデータは、DNA分解酵素感受性アッセイで生成されたものである。一つの実施形態では、前記配列リードデータは、カットアンドランアッセイで生成されたものである。一つの実施形態では、前記カットアンドランアッセイには、H3K27ac、H3K4me1およびH3K27acのうちの1つまたは複数に対する翻訳後修飾を標的とする親和性試薬が組み込まれている。一つの実施形態では、前記方法は、前記配列リードデータを生成するステップをさらに含む。 In one embodiment, the sequence read data is generated by ultra-low pass whole genome sequencing. In one embodiment, the sequence read data is generated by a chromatin accessibility assay. In one embodiment, the sequence read data is generated by ATAC-seq. In one embodiment, the sequence read data is generated by ChIP-seq. In one embodiment, the sequence read data is generated by a DNase sensitivity assay. In one embodiment, the sequence read data is generated by a cut-and-run assay. In one embodiment, the cut-and-run assay incorporates affinity reagents that target post-translational modifications to one or more of H3K27ac, H3K4me1, and H3K27ac. In one embodiment, the method further comprises the step of generating the sequence read data.

一つの実施形態では、前記配列リードデータは、ゲノム標的のパネルから生成されたものである。一つの実施形態では、ゲノム標的の前記パネルは、目的のがん型に関連付けられる1種または複数種の転写因子の転写因子結合部位(TFBS)を含む。一つの実施形態では、前記方法は、前記TFBSのヌクレオソーム占有率を決定するステップを含む。一つの実施形態では、前記TFBSは、ChIP-seqデータなどによって同定され、それが目的の前記がん型に関連付けられる遺伝子の転写開始部位の近位にある場合、前記パネル中に保持される。一つの実施形態では、ゲノム標的の前記パネルは、目的の前記がん型に関連付けられる1種または複数種のマーカーの転写開始部位(TSS)を含み、前記方法は、前記TSSのヌクレオソーム占有率を決定するステップを含む。一つの実施形態では、前記試料は、血液、血漿、または血清である。 In one embodiment, the sequence read data is generated from a panel of genomic targets. In one embodiment, the panel of genomic targets includes transcription factor binding sites (TFBSs) for one or more transcription factors associated with the cancer type of interest. In one embodiment, the method includes determining the nucleosome occupancy of the TFBSs. In one embodiment, the TFBSs are identified, such as by ChIP-seq data, and are retained in the panel if they are proximal to a transcription start site of a gene associated with the cancer type of interest. In one embodiment, the panel of genomic targets includes transcription start sites (TSSs) for one or more markers associated with the cancer type of interest, and the method includes determining the nucleosome occupancy of the TSSs. In one embodiment, the sample is blood, plasma, or serum.

本発明の前述の態様および付随する利点の多くは、以下の詳細な説明を添付の図面と併せて参照することによってよりよく理解されるため、より容易に理解されよう。 The foregoing aspects and many of the attendant advantages of the present invention will become more readily appreciated as the same become better understood by reference to the following detailed description taken in conjunction with the accompanying drawings.

図1は、本開示の種々の態様に従って、がん亜型を予測する方法の実施形態の非限定的な例を例示するフローチャートである。FIG. 1 is a flow chart illustrating a non-limiting example of an embodiment of a method for predicting cancer subtype according to various aspects of the present disclosure.

図2は、本開示の種々の態様に従って、目的の組織、細胞型、がん型、またはがん亜型に関する情報をもたらす部位を決定し、フィルタリングして、がん亜型に特異的な情報をもたらす部位を同定するための手順の実施形態の非限定的な例を例示するフローチャートである。FIG. 2 is a flow chart illustrating a non-limiting example of an embodiment of a procedure for determining and filtering sites that provide information about a tissue, cell type, cancer type, or cancer subtype of interest to identify sites that provide information specific to a cancer subtype, in accordance with various aspects of the present disclosure.

図3は、本開示の種々の態様に従って、ゲノムについてのGC出現頻度行列を決定するための手順の実施形態の非限定的な例を例示するフローチャートである。FIG. 3 is a flow chart illustrating a non-limiting example of an embodiment of a procedure for determining a GC occurrence matrix for a genome according to various aspects of the present disclosure.

図4は、本開示の種々の態様に従って、GC出現頻度行列を使用して配列リードデータについてのGCの偏りの値を決定するための手順の実施形態の非限定的な例を例示するフローチャートである。FIG. 4 is a flow chart illustrating a non-limiting example of an embodiment of a procedure for determining a GC bias value for sequence read data using a GC occurrence matrix according to various aspects of the disclosure.

図5は、本開示の種々の態様に従って、GCの偏りの値を使用して、亜型に特異的な情報をもたらす部位についての配列リードデータのヌクレオソームプロファイルを生成するための手順の実施形態の非限定的な例を例示するフローチャートである。FIG. 5 is a flow chart illustrating a non-limiting example of an embodiment of a procedure for generating nucleosome profiles of sequence read data for sites that provide subtype-specific information using GC bias values, in accordance with various aspects of the present disclosure.

図6は、本開示のコンピューティングデバイスとしての使用に適した例示的なコンピューティングデバイスの態様を例示するブロック図である。FIG. 6 is a block diagram illustrating aspects of an exemplary computing device suitable for use as a computing device of the present disclosure.

図7Aおよび7Bは、がん亜型および腫瘍表現型を予測するためのcfDNAヌクレオソームプロファイリングのためのGriffinフレームワークを例示する。図7Aは、TFBSなどの、アクセシブル部位の群(左側のパネル)およびインアクセシブル部位の群(右側のパネル)の図である。ヌクレオソーム(灰色)は、アクセシブル部位(四角;左側のパネル)の周囲には組織化された様式で配置されているが、インアクセシブル部位の周囲には配置されていない(右側のパネル)。これらのヌクレオソームにより、DNAが末梢血中に放出された際に分解されることから保護される。血漿から保護された断片の配列を決定し、アラインメントし、それにより、起源細胞におけるヌクレオソーム保護を反映するカバレッジプロファイルを導く。図7Bは、cfDNAヌクレオソームプロファイリング解析のためのGriffinワークフローを示す概略図である。カバレッジが0.1×以上であるcfDNA全ゲノムシーケンシング(WGS)データを、樹立されたhg38ゲノムに対してアラインメントする。(1)各試料について、断片に基づくGCの偏りを各断片サイズについてコンピュータ計算する。(2)目的の部位を任意のアッセイから選択する。各部位にアラインメントされたペアエンドリードを収集し、断片中点カバレッジを計数し、GCの偏りについて補正して、カバレッジプロファイルを作製する。(3)群(例えば、腫瘍亜型についてはオープンクロマチン)における全ての部位からのカバレッジプロファイルを平均して、複合カバレッジプロファイルを作製する。複合プロファイルを、周囲の領域(-5kb~+5kb)を使用して正規化する。(4)複合カバレッジプロファイルから3つの特徴:中心カバレッジ(部位の-30bp~+30bpのカバレッジ;「a」)、平均カバレッジ(-1kb~+1kbの間;「b」)、および振幅(高速フーリエ変換(FFT)を使用して算出される、「c」)を抽出する。7A and 7B illustrate the Griffin framework for cfDNA nucleosome profiling to predict cancer subtypes and tumor phenotypes. FIG. 7A is a diagram of accessible (left panel) and inaccessible (right panel) sites, such as TFBS. Nucleosomes (gray) are arranged in an organized manner around accessible sites (boxes; left panel), but not around inaccessible sites (right panel). These nucleosomes protect DNA from degradation upon release into peripheral blood. The fragments protected from plasma are sequenced and aligned, leading to a coverage profile that reflects nucleosome protection in the cell of origin. FIG. 7B is a schematic diagram showing the Griffin workflow for cfDNA nucleosome profiling analysis. cfDNA whole genome sequencing (WGS) data with coverage ≥ 0.1x are aligned to the established hg38 genome. (1) For each sample, a fragment-based GC bias is computed for each fragment size. (2) Sites of interest are selected from any assay. Paired-end reads aligned to each site are collected, fragment midpoint coverage is counted, and corrected for GC bias to create a coverage profile. (3) Coverage profiles from all sites in a group (e.g., open chromatin for tumor subtypes) are averaged to create a composite coverage profile. The composite profile is normalized using the surrounding region (-5kb to +5kb). (4) Extract three features from the composite coverage profile: central coverage (coverage between -30 bp and +30 bp of the site; "a"), mean coverage (between -1 kb and +1 kb; "b"), and amplitude (calculated using a fast Fourier transform (FFT), "c"). 図7Aおよび7Bは、がん亜型および腫瘍表現型を予測するためのcfDNAヌクレオソームプロファイリングのためのGriffinフレームワークを例示する。図7Aは、TFBSなどの、アクセシブル部位の群(左側のパネル)およびインアクセシブル部位の群(右側のパネル)の図である。ヌクレオソーム(灰色)は、アクセシブル部位(四角;左側のパネル)の周囲には組織化された様式で配置されているが、インアクセシブル部位の周囲には配置されていない(右側のパネル)。これらのヌクレオソームにより、DNAが末梢血中に放出された際に分解されることから保護される。血漿から保護された断片の配列を決定し、アラインメントし、それにより、起源細胞におけるヌクレオソーム保護を反映するカバレッジプロファイルを導く。図7Bは、cfDNAヌクレオソームプロファイリング解析のためのGriffinワークフローを示す概略図である。カバレッジが0.1×以上であるcfDNA全ゲノムシーケンシング(WGS)データを、樹立されたhg38ゲノムに対してアラインメントする。(1)各試料について、断片に基づくGCの偏りを各断片サイズについてコンピュータ計算する。(2)目的の部位を任意のアッセイから選択する。各部位にアラインメントされたペアエンドリードを収集し、断片中点カバレッジを計数し、GCの偏りについて補正して、カバレッジプロファイルを作製する。(3)群(例えば、腫瘍亜型についてはオープンクロマチン)における全ての部位からのカバレッジプロファイルを平均して、複合カバレッジプロファイルを作製する。複合プロファイルを、周囲の領域(-5kb~+5kb)を使用して正規化する。(4)複合カバレッジプロファイルから3つの特徴:中心カバレッジ(部位の-30bp~+30bpのカバレッジ;「a」)、平均カバレッジ(-1kb~+1kbの間;「b」)、および振幅(高速フーリエ変換(FFT)を使用して算出される、「c」)を抽出する。7A and 7B illustrate the Griffin framework for cfDNA nucleosome profiling to predict cancer subtypes and tumor phenotypes. FIG. 7A is a diagram of accessible (left panel) and inaccessible (right panel) sites, such as TFBS. Nucleosomes (gray) are arranged in an organized manner around accessible sites (boxes; left panel), but not around inaccessible sites (right panel). These nucleosomes protect DNA from degradation upon release into peripheral blood. The fragments protected from plasma are sequenced and aligned, leading to a coverage profile that reflects nucleosome protection in the cell of origin. FIG. 7B is a schematic diagram showing the Griffin workflow for cfDNA nucleosome profiling analysis. cfDNA whole genome sequencing (WGS) data with coverage ≥ 0.1x are aligned to the established hg38 genome. (1) For each sample, a fragment-based GC bias is computed for each fragment size. (2) Sites of interest are selected from any assay. Paired-end reads aligned to each site are collected, fragment midpoint coverage is counted, and corrected for GC bias to create a coverage profile. (3) Coverage profiles from all sites in a group (e.g., open chromatin for tumor subtypes) are averaged to create a composite coverage profile. The composite profile is normalized using the surrounding region (-5kb to +5kb). (4) Extract three features from the composite coverage profile: central coverage (coverage between -30 bp and +30 bp of the site; "a"), mean coverage (between -1 kb and +1 kb; "b"), and amplitude (calculated using a fast Fourier transform (FFT), "c"). 図7Aおよび7Bは、がん亜型および腫瘍表現型を予測するためのcfDNAヌクレオソームプロファイリングのためのGriffinフレームワークを例示する。図7Aは、TFBSなどの、アクセシブル部位の群(左側のパネル)およびインアクセシブル部位の群(右側のパネル)の図である。ヌクレオソーム(灰色)は、アクセシブル部位(四角;左側のパネル)の周囲には組織化された様式で配置されているが、インアクセシブル部位の周囲には配置されていない(右側のパネル)。これらのヌクレオソームにより、DNAが末梢血中に放出された際に分解されることから保護される。血漿から保護された断片の配列を決定し、アラインメントし、それにより、起源細胞におけるヌクレオソーム保護を反映するカバレッジプロファイルを導く。図7Bは、cfDNAヌクレオソームプロファイリング解析のためのGriffinワークフローを示す概略図である。カバレッジが0.1×以上であるcfDNA全ゲノムシーケンシング(WGS)データを、樹立されたhg38ゲノムに対してアラインメントする。(1)各試料について、断片に基づくGCの偏りを各断片サイズについてコンピュータ計算する。(2)目的の部位を任意のアッセイから選択する。各部位にアラインメントされたペアエンドリードを収集し、断片中点カバレッジを計数し、GCの偏りについて補正して、カバレッジプロファイルを作製する。(3)群(例えば、腫瘍亜型についてはオープンクロマチン)における全ての部位からのカバレッジプロファイルを平均して、複合カバレッジプロファイルを作製する。複合プロファイルを、周囲の領域(-5kb~+5kb)を使用して正規化する。(4)複合カバレッジプロファイルから3つの特徴:中心カバレッジ(部位の-30bp~+30bpのカバレッジ;「a」)、平均カバレッジ(-1kb~+1kbの間;「b」)、および振幅(高速フーリエ変換(FFT)を使用して算出される、「c」)を抽出する。7A and 7B illustrate the Griffin framework for cfDNA nucleosome profiling to predict cancer subtypes and tumor phenotypes. FIG. 7A is a diagram of accessible (left panel) and inaccessible (right panel) sites, such as TFBS. Nucleosomes (gray) are arranged in an organized manner around accessible sites (boxes; left panel), but not around inaccessible sites (right panel). These nucleosomes protect DNA from degradation upon release into peripheral blood. The fragments protected from plasma are sequenced and aligned, leading to a coverage profile that reflects nucleosome protection in the cell of origin. FIG. 7B is a schematic diagram showing the Griffin workflow for cfDNA nucleosome profiling analysis. cfDNA whole genome sequencing (WGS) data with coverage ≥ 0.1x are aligned to the established hg38 genome. (1) For each sample, a fragment-based GC bias is computed for each fragment size. (2) Sites of interest are selected from any assay. Paired-end reads aligned to each site are collected, fragment midpoint coverage is counted, and corrected for GC bias to create a coverage profile. (3) Coverage profiles from all sites in a group (e.g., open chromatin for tumor subtypes) are averaged to create a composite coverage profile. The composite profile is normalized using the surrounding region (-5kb to +5kb). (4) Extract three features from the composite coverage profile: central coverage (coverage between -30 bp and +30 bp of the site; "a"), mean coverage (between -1 kb and +1 kb; "b"), and amplitude (calculated using a fast Fourier transform (FFT), "c").

図8A~8Gは、GriffinによるGCの偏りの補正により、cfDNAからの組織特異的アクセシビリティの検出が改善されることを例示する。図8Aは、10,000カ所のGRHL2結合部位およびそれの周囲の2kb領域におけるGC含量の集合をグラフで例示する。平均GC含量(線)および四分位範囲(陰影)が示されている。図8Bは、cfDNAのGCの偏りが各試料および各断片長に特有であることをグラフで例示する。健康ドナー試料由来のcfDNA(HD_46;破線陰影)および転移乳がん試料由来のcfDNA(MBC_315;実線の陰影)についてコンピュータ計算されたGCの偏りが種々の断片サイズについて示されている。図8Cは、10,000カ所のGRHL2結合部位のGC補正の前後の複合カバレッジプロファイルをグラフで例示するものであり、HD_46(破線)およびMBC_315(実線)について示されている。GC補正前は、GCの偏りの影響に起因して「中心カバレッジ」の値がより大きく、それにより、試料間の差動シグナルが不明瞭になっている。GC補正後には、MBC試料の中心カバレッジの値がより小さくなっており、GRHL2活性が乳がんでは増加するが、健康ドナー試料を構成する免疫細胞では増加しないことと一致する。図8Dは、10,000カ所のLYL1部位のGC補正の前後の複合カバレッジプロファイルをグラフで例示するものであり、ディープWGSを用いたMBC試料2例(9~25×、オレンジ)、健康ドナー2例(17~20×、緑色)、およびULP-WGSを用いたMBC試料191例(0.1~0.3×、青色)について示されている。ULP-WGS試料191例の中央値+/-IQRが青色の陰影で示されている。健康ドナー試料における、部位アクセシビリティがより大きいことに対応するより小さな「中心カバレッジ」は、LYL1が造血に関連する転写因子(transcription factor)であることに起因すると予測される。図8Eは、LYL1についてのcfDNA腫瘍割合と中心カバレッジの相関をグラフで例示するものであり、MBC試料および健康ドナー試料(17~20×、n=2)のULP-WGS(0.1~0.3×、n=191)およびWGS(9~25×、n=2)について示されている。cfDNAは、腫瘍細胞と血液細胞の混合物を含有する;したがって、中心カバレッジ値(小さいことにより、アクセシビリティが増加していることが表される)は腫瘍割合と正に相関することが予想される。GC補正後には、相関(MBC ULP-WGS試料について)はピアソンのr相関係数に基づいてはるかに強力である。直線当てはめ2乗平均平方根誤差(RMSE)が示されている。図8Fは、GC補正の前後の、377種のTFにわたるRMSEの分布(MBC ULP-WGSデータセットにおける中心カバレッジと腫瘍割合の間の直線当てはめ[0.1~0.3×、n=191])を示す箱ひげ図を例示する。枠で囲まれた範囲は中央値±IQRを表し、ひげは外れ値ではないデータの範囲(最大限は1.5×IQRである)を示す。外れ値は灰色でプロットされている。p値はウィルコクソン符号順位検定(両側)を使用して算出したものである。図8Gは、GC補正の前後の、377種のTFにわたる平均絶対偏差(健康ドナー215例[1~2×WGS]にわたる中心カバレッジの)の分布を示す箱ひげ図を例示する。箱の要素は(8F)と同じである。p値はウィルコクソン符号順位検定(両側)を使用して算出したものである。8A-8G illustrate that Griffin GC bias correction improves detection of tissue-specific accessibility from cfDNA. FIG. 8A graphically illustrates a collection of 10,000 GRHL2 binding sites and the GC content in the surrounding 2 kb region. The mean GC content (line) and interquartile range (shading) are shown. FIG. 8B graphically illustrates that cfDNA GC bias is specific to each sample and each fragment length. Computed GC bias for cfDNA from a healthy donor sample (HD_46; dashed shading) and cfDNA from a metastatic breast cancer sample (MBC_315; solid shading) are shown for various fragment sizes. FIG. 8C graphically illustrates the combined coverage profiles of 10,000 GRHL2 binding sites before and after GC correction, shown for HD_46 (dashed line) and MBC_315 (solid line). Before GC correction, the "center coverage" values are higher due to the effect of GC bias, obscuring the differential signal between samples. After GC correction, the center coverage values of the MBC samples are lower, consistent with GRHL2 activity being increased in breast cancer but not in immune cells constituting healthy donor samples. FIG. 8D graphically illustrates the combined coverage profiles of 10,000 LYL1 sites before and after GC correction for two MBC samples using deep WGS (9-25×, orange), two healthy donors (17-20×, green), and 191 MBC samples using ULP-WGS (0.1-0.3×, blue). The median +/- IQR of the 191 ULP-WGS samples is shaded blue. The smaller "core coverage" in the healthy donor samples, corresponding to greater site accessibility, is predicted to be due to LYL1 being a transcription factor associated with hematopoiesis. FIG. 8E graphically illustrates the correlation of cfDNA tumor fraction with central coverage for LYL1, shown for ULP-WGS (0.1-0.3×, n=191) and WGS (9-25×, n=2) of MBC and healthy donor samples (17-20×, n=2). cfDNA contains a mixture of tumor and blood cells; therefore, central coverage values (lower representing increased accessibility) are expected to positively correlate with tumor fraction. After GC correction, the correlation (for MBC ULP-WGS samples) is much stronger based on Pearson's r correlation coefficient. Linear fit root mean square error (RMSE) is shown. FIG. 8F illustrates box plots showing the distribution of RMSE (linear fit between central coverage and tumor fraction in the MBC ULP-WGS dataset [0.1-0.3×, n=191]) across 377 TFs before and after GC correction. Boxed ranges represent median ± IQR, whiskers indicate range of non-outlier data (maximum is 1.5×IQR). Outliers are plotted in grey. p-values were calculated using Wilcoxon signed rank test (two-sided). FIG. 8G illustrates box plots showing the distribution of mean absolute deviation (of central coverage across 215 healthy donors [1-2×WGS]) across 377 TFs before and after GC correction. Box elements are the same as in (8F). p-values were calculated using Wilcoxon signed rank test (two-sided). 図8A~8Gは、GriffinによるGCの偏りの補正により、cfDNAからの組織特異的アクセシビリティの検出が改善されることを例示する。図8Aは、10,000カ所のGRHL2結合部位およびそれの周囲の2kb領域におけるGC含量の集合をグラフで例示する。平均GC含量(線)および四分位範囲(陰影)が示されている。図8Bは、cfDNAのGCの偏りが各試料および各断片長に特有であることをグラフで例示する。健康ドナー試料由来のcfDNA(HD_46;破線陰影)および転移乳がん試料由来のcfDNA(MBC_315;実線の陰影)についてコンピュータ計算されたGCの偏りが種々の断片サイズについて示されている。図8Cは、10,000カ所のGRHL2結合部位のGC補正の前後の複合カバレッジプロファイルをグラフで例示するものであり、HD_46(破線)およびMBC_315(実線)について示されている。GC補正前は、GCの偏りの影響に起因して「中心カバレッジ」の値がより大きく、それにより、試料間の差動シグナルが不明瞭になっている。GC補正後には、MBC試料の中心カバレッジの値がより小さくなっており、GRHL2活性が乳がんでは増加するが、健康ドナー試料を構成する免疫細胞では増加しないことと一致する。図8Dは、10,000カ所のLYL1部位のGC補正の前後の複合カバレッジプロファイルをグラフで例示するものであり、ディープWGSを用いたMBC試料2例(9~25×、オレンジ)、健康ドナー2例(17~20×、緑色)、およびULP-WGSを用いたMBC試料191例(0.1~0.3×、青色)について示されている。ULP-WGS試料191例の中央値+/-IQRが青色の陰影で示されている。健康ドナー試料における、部位アクセシビリティがより大きいことに対応するより小さな「中心カバレッジ」は、LYL1が造血に関連する転写因子(transcription factor)であることに起因すると予測される。図8Eは、LYL1についてのcfDNA腫瘍割合と中心カバレッジの相関をグラフで例示するものであり、MBC試料および健康ドナー試料(17~20×、n=2)のULP-WGS(0.1~0.3×、n=191)およびWGS(9~25×、n=2)について示されている。cfDNAは、腫瘍細胞と血液細胞の混合物を含有する;したがって、中心カバレッジ値(小さいことにより、アクセシビリティが増加していることが表される)は腫瘍割合と正に相関することが予想される。GC補正後には、相関(MBC ULP-WGS試料について)はピアソンのr相関係数に基づいてはるかに強力である。直線当てはめ2乗平均平方根誤差(RMSE)が示されている。図8Fは、GC補正の前後の、377種のTFにわたるRMSEの分布(MBC ULP-WGSデータセットにおける中心カバレッジと腫瘍割合の間の直線当てはめ[0.1~0.3×、n=191])を示す箱ひげ図を例示する。枠で囲まれた範囲は中央値±IQRを表し、ひげは外れ値ではないデータの範囲(最大限は1.5×IQRである)を示す。外れ値は灰色でプロットされている。p値はウィルコクソン符号順位検定(両側)を使用して算出したものである。図8Gは、GC補正の前後の、377種のTFにわたる平均絶対偏差(健康ドナー215例[1~2×WGS]にわたる中心カバレッジの)の分布を示す箱ひげ図を例示する。箱の要素は(8F)と同じである。p値はウィルコクソン符号順位検定(両側)を使用して算出したものである。8A-8G illustrate that Griffin GC bias correction improves detection of tissue-specific accessibility from cfDNA. FIG. 8A graphically illustrates a collection of 10,000 GRHL2 binding sites and the GC content in the surrounding 2 kb region. The mean GC content (line) and interquartile range (shading) are shown. FIG. 8B graphically illustrates that cfDNA GC bias is specific to each sample and each fragment length. Computed GC bias for cfDNA from a healthy donor sample (HD_46; dashed shading) and cfDNA from a metastatic breast cancer sample (MBC_315; solid shading) are shown for various fragment sizes. FIG. 8C graphically illustrates the combined coverage profiles of 10,000 GRHL2 binding sites before and after GC correction, shown for HD_46 (dashed line) and MBC_315 (solid line). Before GC correction, the "center coverage" values are higher due to the effect of GC bias, obscuring the differential signal between samples. After GC correction, the center coverage values of the MBC samples are lower, consistent with GRHL2 activity being increased in breast cancer but not in immune cells constituting healthy donor samples. FIG. 8D graphically illustrates the combined coverage profiles of 10,000 LYL1 sites before and after GC correction for two MBC samples using deep WGS (9-25×, orange), two healthy donors (17-20×, green), and 191 MBC samples using ULP-WGS (0.1-0.3×, blue). The median +/- IQR of the 191 ULP-WGS samples is shaded blue. The smaller "core coverage" in the healthy donor samples, corresponding to greater site accessibility, is predicted to be due to LYL1 being a transcription factor associated with hematopoiesis. FIG. 8E graphically illustrates the correlation of cfDNA tumor fraction with central coverage for LYL1, shown for ULP-WGS (0.1-0.3×, n=191) and WGS (9-25×, n=2) of MBC and healthy donor samples (17-20×, n=2). cfDNA contains a mixture of tumor and blood cells; therefore, central coverage values (lower representing increased accessibility) are expected to positively correlate with tumor fraction. After GC correction, the correlation (for MBC ULP-WGS samples) is much stronger based on Pearson's r correlation coefficient. Linear fit root mean square error (RMSE) is shown. FIG. 8F illustrates box plots showing the distribution of RMSE (linear fit between central coverage and tumor fraction in the MBC ULP-WGS dataset [0.1-0.3×, n=191]) across 377 TFs before and after GC correction. Boxed ranges represent median ± IQR, whiskers indicate range of non-outlier data (maximum is 1.5×IQR). Outliers are plotted in grey. p-values were calculated using Wilcoxon signed rank test (two-sided). FIG. 8G illustrates box plots showing the distribution of mean absolute deviation (of central coverage across 215 healthy donors [1-2×WGS]) across 377 TFs before and after GC correction. Box elements are the same as in (8F). p-values were calculated using Wilcoxon signed rank test (two-sided). 図8A~8Gは、GriffinによるGCの偏りの補正により、cfDNAからの組織特異的アクセシビリティの検出が改善されることを例示する。図8Aは、10,000カ所のGRHL2結合部位およびそれの周囲の2kb領域におけるGC含量の集合をグラフで例示する。平均GC含量(線)および四分位範囲(陰影)が示されている。図8Bは、cfDNAのGCの偏りが各試料および各断片長に特有であることをグラフで例示する。健康ドナー試料由来のcfDNA(HD_46;破線陰影)および転移乳がん試料由来のcfDNA(MBC_315;実線の陰影)についてコンピュータ計算されたGCの偏りが種々の断片サイズについて示されている。図8Cは、10,000カ所のGRHL2結合部位のGC補正の前後の複合カバレッジプロファイルをグラフで例示するものであり、HD_46(破線)およびMBC_315(実線)について示されている。GC補正前は、GCの偏りの影響に起因して「中心カバレッジ」の値がより大きく、それにより、試料間の差動シグナルが不明瞭になっている。GC補正後には、MBC試料の中心カバレッジの値がより小さくなっており、GRHL2活性が乳がんでは増加するが、健康ドナー試料を構成する免疫細胞では増加しないことと一致する。図8Dは、10,000カ所のLYL1部位のGC補正の前後の複合カバレッジプロファイルをグラフで例示するものであり、ディープWGSを用いたMBC試料2例(9~25×、オレンジ)、健康ドナー2例(17~20×、緑色)、およびULP-WGSを用いたMBC試料191例(0.1~0.3×、青色)について示されている。ULP-WGS試料191例の中央値+/-IQRが青色の陰影で示されている。健康ドナー試料における、部位アクセシビリティがより大きいことに対応するより小さな「中心カバレッジ」は、LYL1が造血に関連する転写因子(transcription factor)であることに起因すると予測される。図8Eは、LYL1についてのcfDNA腫瘍割合と中心カバレッジの相関をグラフで例示するものであり、MBC試料および健康ドナー試料(17~20×、n=2)のULP-WGS(0.1~0.3×、n=191)およびWGS(9~25×、n=2)について示されている。cfDNAは、腫瘍細胞と血液細胞の混合物を含有する;したがって、中心カバレッジ値(小さいことにより、アクセシビリティが増加していることが表される)は腫瘍割合と正に相関することが予想される。GC補正後には、相関(MBC ULP-WGS試料について)はピアソンのr相関係数に基づいてはるかに強力である。直線当てはめ2乗平均平方根誤差(RMSE)が示されている。図8Fは、GC補正の前後の、377種のTFにわたるRMSEの分布(MBC ULP-WGSデータセットにおける中心カバレッジと腫瘍割合の間の直線当てはめ[0.1~0.3×、n=191])を示す箱ひげ図を例示する。枠で囲まれた範囲は中央値±IQRを表し、ひげは外れ値ではないデータの範囲(最大限は1.5×IQRである)を示す。外れ値は灰色でプロットされている。p値はウィルコクソン符号順位検定(両側)を使用して算出したものである。図8Gは、GC補正の前後の、377種のTFにわたる平均絶対偏差(健康ドナー215例[1~2×WGS]にわたる中心カバレッジの)の分布を示す箱ひげ図を例示する。箱の要素は(8F)と同じである。p値はウィルコクソン符号順位検定(両側)を使用して算出したものである。8A-8G illustrate that Griffin GC bias correction improves detection of tissue-specific accessibility from cfDNA. FIG. 8A graphically illustrates a collection of 10,000 GRHL2 binding sites and the GC content in the surrounding 2 kb region. The mean GC content (line) and interquartile range (shading) are shown. FIG. 8B graphically illustrates that cfDNA GC bias is specific to each sample and each fragment length. Computed GC bias for cfDNA from a healthy donor sample (HD_46; dashed shading) and cfDNA from a metastatic breast cancer sample (MBC_315; solid shading) are shown for various fragment sizes. FIG. 8C graphically illustrates the combined coverage profiles of 10,000 GRHL2 binding sites before and after GC correction, shown for HD_46 (dashed line) and MBC_315 (solid line). Before GC correction, the "center coverage" values are higher due to the effect of GC bias, obscuring the differential signal between samples. After GC correction, the center coverage values of the MBC samples are lower, consistent with GRHL2 activity being increased in breast cancer but not in immune cells constituting healthy donor samples. FIG. 8D graphically illustrates the combined coverage profiles of 10,000 LYL1 sites before and after GC correction for two MBC samples using deep WGS (9-25×, orange), two healthy donors (17-20×, green), and 191 MBC samples using ULP-WGS (0.1-0.3×, blue). The median +/- IQR of the 191 ULP-WGS samples is shaded blue. The smaller "core coverage" in the healthy donor samples, corresponding to greater site accessibility, is predicted to be due to LYL1 being a transcription factor associated with hematopoiesis. FIG. 8E graphically illustrates the correlation of cfDNA tumor fraction with central coverage for LYL1, shown for ULP-WGS (0.1-0.3×, n=191) and WGS (9-25×, n=2) of MBC and healthy donor samples (17-20×, n=2). cfDNA contains a mixture of tumor and blood cells; therefore, central coverage values (lower representing increased accessibility) are expected to positively correlate with tumor fraction. After GC correction, the correlation (for MBC ULP-WGS samples) is much stronger based on Pearson's r correlation coefficient. Linear fit root mean square error (RMSE) is shown. FIG. 8F illustrates box plots showing the distribution of RMSE (linear fit between central coverage and tumor fraction in the MBC ULP-WGS dataset [0.1-0.3×, n=191]) across 377 TFs before and after GC correction. Boxed ranges represent median ± IQR, whiskers indicate range of non-outlier data (maximum is 1.5×IQR). Outliers are plotted in grey. p-values were calculated using Wilcoxon signed rank test (two-sided). FIG. 8G illustrates box plots showing the distribution of mean absolute deviation (of central coverage across 215 healthy donors [1-2×WGS]) across 377 TFs before and after GC correction. Box elements are the same as in (8F). p-values were calculated using Wilcoxon signed rank test (two-sided). 図8A~8Gは、GriffinによるGCの偏りの補正により、cfDNAからの組織特異的アクセシビリティの検出が改善されることを例示する。図8Aは、10,000カ所のGRHL2結合部位およびそれの周囲の2kb領域におけるGC含量の集合をグラフで例示する。平均GC含量(線)および四分位範囲(陰影)が示されている。図8Bは、cfDNAのGCの偏りが各試料および各断片長に特有であることをグラフで例示する。健康ドナー試料由来のcfDNA(HD_46;破線陰影)および転移乳がん試料由来のcfDNA(MBC_315;実線の陰影)についてコンピュータ計算されたGCの偏りが種々の断片サイズについて示されている。図8Cは、10,000カ所のGRHL2結合部位のGC補正の前後の複合カバレッジプロファイルをグラフで例示するものであり、HD_46(破線)およびMBC_315(実線)について示されている。GC補正前は、GCの偏りの影響に起因して「中心カバレッジ」の値がより大きく、それにより、試料間の差動シグナルが不明瞭になっている。GC補正後には、MBC試料の中心カバレッジの値がより小さくなっており、GRHL2活性が乳がんでは増加するが、健康ドナー試料を構成する免疫細胞では増加しないことと一致する。図8Dは、10,000カ所のLYL1部位のGC補正の前後の複合カバレッジプロファイルをグラフで例示するものであり、ディープWGSを用いたMBC試料2例(9~25×、オレンジ)、健康ドナー2例(17~20×、緑色)、およびULP-WGSを用いたMBC試料191例(0.1~0.3×、青色)について示されている。ULP-WGS試料191例の中央値+/-IQRが青色の陰影で示されている。健康ドナー試料における、部位アクセシビリティがより大きいことに対応するより小さな「中心カバレッジ」は、LYL1が造血に関連する転写因子(transcription factor)であることに起因すると予測される。図8Eは、LYL1についてのcfDNA腫瘍割合と中心カバレッジの相関をグラフで例示するものであり、MBC試料および健康ドナー試料(17~20×、n=2)のULP-WGS(0.1~0.3×、n=191)およびWGS(9~25×、n=2)について示されている。cfDNAは、腫瘍細胞と血液細胞の混合物を含有する;したがって、中心カバレッジ値(小さいことにより、アクセシビリティが増加していることが表される)は腫瘍割合と正に相関することが予想される。GC補正後には、相関(MBC ULP-WGS試料について)はピアソンのr相関係数に基づいてはるかに強力である。直線当てはめ2乗平均平方根誤差(RMSE)が示されている。図8Fは、GC補正の前後の、377種のTFにわたるRMSEの分布(MBC ULP-WGSデータセットにおける中心カバレッジと腫瘍割合の間の直線当てはめ[0.1~0.3×、n=191])を示す箱ひげ図を例示する。枠で囲まれた範囲は中央値±IQRを表し、ひげは外れ値ではないデータの範囲(最大限は1.5×IQRである)を示す。外れ値は灰色でプロットされている。p値はウィルコクソン符号順位検定(両側)を使用して算出したものである。図8Gは、GC補正の前後の、377種のTFにわたる平均絶対偏差(健康ドナー215例[1~2×WGS]にわたる中心カバレッジの)の分布を示す箱ひげ図を例示する。箱の要素は(8F)と同じである。p値はウィルコクソン符号順位検定(両側)を使用して算出したものである。8A-8G illustrate that Griffin GC bias correction improves detection of tissue-specific accessibility from cfDNA. FIG. 8A graphically illustrates a collection of 10,000 GRHL2 binding sites and the GC content in the surrounding 2 kb region. The mean GC content (line) and interquartile range (shading) are shown. FIG. 8B graphically illustrates that cfDNA GC bias is specific to each sample and each fragment length. Computed GC bias for cfDNA from a healthy donor sample (HD_46; dashed shading) and cfDNA from a metastatic breast cancer sample (MBC_315; solid shading) are shown for various fragment sizes. FIG. 8C graphically illustrates the combined coverage profiles of 10,000 GRHL2 binding sites before and after GC correction, shown for HD_46 (dashed line) and MBC_315 (solid line). Before GC correction, the "center coverage" values are higher due to the effect of GC bias, obscuring the differential signal between samples. After GC correction, the center coverage values of the MBC samples are lower, consistent with GRHL2 activity being increased in breast cancer but not in immune cells constituting healthy donor samples. FIG. 8D graphically illustrates the combined coverage profiles of 10,000 LYL1 sites before and after GC correction for two MBC samples using deep WGS (9-25×, orange), two healthy donors (17-20×, green), and 191 MBC samples using ULP-WGS (0.1-0.3×, blue). The median +/- IQR of the 191 ULP-WGS samples is shown in blue shading. The smaller "core coverage" in the healthy donor samples, corresponding to greater site accessibility, is predicted to be due to LYL1 being a transcription factor associated with hematopoiesis. FIG. 8E graphically illustrates the correlation of cfDNA tumor fraction with central coverage for LYL1, shown for ULP-WGS (0.1-0.3×, n=191) and WGS (9-25×, n=2) of MBC and healthy donor samples (17-20×, n=2). cfDNA contains a mixture of tumor and blood cells; therefore, central coverage values (lower representing increased accessibility) are expected to positively correlate with tumor fraction. After GC correction, the correlation (for MBC ULP-WGS samples) is much stronger based on Pearson's r correlation coefficient. Linear fit root mean square error (RMSE) is shown. FIG. 8F illustrates box plots showing the distribution of RMSE (linear fit between central coverage and tumor fraction in the MBC ULP-WGS dataset [0.1-0.3×, n=191]) across 377 TFs before and after GC correction. Boxed ranges represent median ± IQR, whiskers indicate range of non-outlier data (maximum is 1.5×IQR). Outliers are plotted in grey. p-values were calculated using Wilcoxon signed rank test (two-sided). FIG. 8G illustrates box plots showing the distribution of mean absolute deviation (of central coverage across 215 healthy donors [1-2×WGS]) across 377 TFs before and after GC correction. Box elements are the same as in (8F). p-values were calculated using Wilcoxon signed rank test (two-sided). 図8A~8Gは、GriffinによるGCの偏りの補正により、cfDNAからの組織特異的アクセシビリティの検出が改善されることを例示する。図8Aは、10,000カ所のGRHL2結合部位およびそれの周囲の2kb領域におけるGC含量の集合をグラフで例示する。平均GC含量(線)および四分位範囲(陰影)が示されている。図8Bは、cfDNAのGCの偏りが各試料および各断片長に特有であることをグラフで例示する。健康ドナー試料由来のcfDNA(HD_46;破線陰影)および転移乳がん試料由来のcfDNA(MBC_315;実線の陰影)についてコンピュータ計算されたGCの偏りが種々の断片サイズについて示されている。図8Cは、10,000カ所のGRHL2結合部位のGC補正の前後の複合カバレッジプロファイルをグラフで例示するものであり、HD_46(破線)およびMBC_315(実線)について示されている。GC補正前は、GCの偏りの影響に起因して「中心カバレッジ」の値がより大きく、それにより、試料間の差動シグナルが不明瞭になっている。GC補正後には、MBC試料の中心カバレッジの値がより小さくなっており、GRHL2活性が乳がんでは増加するが、健康ドナー試料を構成する免疫細胞では増加しないことと一致する。図8Dは、10,000カ所のLYL1部位のGC補正の前後の複合カバレッジプロファイルをグラフで例示するものであり、ディープWGSを用いたMBC試料2例(9~25×、オレンジ)、健康ドナー2例(17~20×、緑色)、およびULP-WGSを用いたMBC試料191例(0.1~0.3×、青色)について示されている。ULP-WGS試料191例の中央値+/-IQRが青色の陰影で示されている。健康ドナー試料における、部位アクセシビリティがより大きいことに対応するより小さな「中心カバレッジ」は、LYL1が造血に関連する転写因子(transcription factor)であることに起因すると予測される。図8Eは、LYL1についてのcfDNA腫瘍割合と中心カバレッジの相関をグラフで例示するものであり、MBC試料および健康ドナー試料(17~20×、n=2)のULP-WGS(0.1~0.3×、n=191)およびWGS(9~25×、n=2)について示されている。cfDNAは、腫瘍細胞と血液細胞の混合物を含有する;したがって、中心カバレッジ値(小さいことにより、アクセシビリティが増加していることが表される)は腫瘍割合と正に相関することが予想される。GC補正後には、相関(MBC ULP-WGS試料について)はピアソンのr相関係数に基づいてはるかに強力である。直線当てはめ2乗平均平方根誤差(RMSE)が示されている。図8Fは、GC補正の前後の、377種のTFにわたるRMSEの分布(MBC ULP-WGSデータセットにおける中心カバレッジと腫瘍割合の間の直線当てはめ[0.1~0.3×、n=191])を示す箱ひげ図を例示する。枠で囲まれた範囲は中央値±IQRを表し、ひげは外れ値ではないデータの範囲(最大限は1.5×IQRである)を示す。外れ値は灰色でプロットされている。p値はウィルコクソン符号順位検定(両側)を使用して算出したものである。図8Gは、GC補正の前後の、377種のTFにわたる平均絶対偏差(健康ドナー215例[1~2×WGS]にわたる中心カバレッジの)の分布を示す箱ひげ図を例示する。箱の要素は(8F)と同じである。p値はウィルコクソン符号順位検定(両側)を使用して算出したものである。8A-8G illustrate that Griffin GC bias correction improves detection of tissue-specific accessibility from cfDNA. FIG. 8A graphically illustrates a collection of 10,000 GRHL2 binding sites and the GC content in the surrounding 2 kb region. The mean GC content (line) and interquartile range (shading) are shown. FIG. 8B graphically illustrates that cfDNA GC bias is specific to each sample and each fragment length. Computed GC bias for cfDNA from a healthy donor sample (HD_46; dashed shading) and cfDNA from a metastatic breast cancer sample (MBC_315; solid shading) are shown for various fragment sizes. FIG. 8C graphically illustrates the combined coverage profiles of 10,000 GRHL2 binding sites before and after GC correction, shown for HD_46 (dashed line) and MBC_315 (solid line). Before GC correction, the "center coverage" values are higher due to the effect of GC bias, obscuring the differential signal between samples. After GC correction, the center coverage values of the MBC samples are lower, consistent with GRHL2 activity being increased in breast cancer but not in immune cells constituting healthy donor samples. FIG. 8D graphically illustrates the combined coverage profiles of 10,000 LYL1 sites before and after GC correction for two MBC samples using deep WGS (9-25×, orange), two healthy donors (17-20×, green), and 191 MBC samples using ULP-WGS (0.1-0.3×, blue). The median +/- IQR of the 191 ULP-WGS samples is shaded blue. The smaller "core coverage" in the healthy donor samples, corresponding to greater site accessibility, is predicted to be due to LYL1 being a transcription factor associated with hematopoiesis. FIG. 8E graphically illustrates the correlation of cfDNA tumor fraction with central coverage for LYL1, shown for ULP-WGS (0.1-0.3×, n=191) and WGS (9-25×, n=2) of MBC and healthy donor samples (17-20×, n=2). cfDNA contains a mixture of tumor and blood cells; therefore, central coverage values (lower representing increased accessibility) are expected to positively correlate with tumor fraction. After GC correction, the correlation (for MBC ULP-WGS samples) is much stronger based on Pearson's r correlation coefficient. Linear fit root mean square error (RMSE) is shown. FIG. 8F illustrates box plots showing the distribution of RMSE (linear fit between central coverage and tumor fraction in the MBC ULP-WGS dataset [0.1-0.3×, n=191]) across 377 TFs before and after GC correction. Boxed ranges represent median ± IQR, whiskers indicate range of non-outlier data (maximum is 1.5×IQR). Outliers are plotted in grey. p-values were calculated using Wilcoxon signed rank test (two-sided). FIG. 8G illustrates box plots showing the distribution of mean absolute deviation (of central coverage across 215 healthy donors [1-2×WGS]) across 377 TFs before and after GC correction. Box elements are the same as in (8F). p-values were calculated using Wilcoxon signed rank test (two-sided).

図9Aおよび9Bは、Griffinにより正確ながん検出および起源組織予測が可能になることを例示する。図9Aは、3つのデータセット、DELFIデータセット(Cristiano, S. et al. Genome-wide cell-free DNA fragmentation in patients with cancer. Nature 570, 385-389 (2019))、LUCASデータセット、およびLUCAS検証データセット(Mathios, D. et al. Detection and characterization of lung cancer using cell-free DNA fragmentomes. Nat Commun 12, 5060 (2021))におけるがんと健康対照とをロジスティック回帰により分類するための受信者動作特性(ROC)曲線を例示する。各データセットについて、元のローパス(1~2×)WGSおよびin-silicoダウンサンプリングによって生成した超ローパス(0.1×)WGSの両方の性能が示されている。TFBS周囲のヌクレオソームプロファイルから抽出された特徴(中心カバレッジ、平均カバレッジ、および振幅)における分散の80%を説明する上位PCA成分に対してロジスティック回帰を実施した。各段階のがんと健康とについてのROCが示されている。図9Bは、1000回のブートストラップ反復についてのAUC値の箱ひげ図を例示する。枠で囲まれた範囲は中央値±IQRを表し、ひげは外れ値ではないデータの範囲(最大限は1.5×IQRである)を表す。箱ひげ図の下の値は中央値および95%信頼区間を示す。Figures 9A and 9B illustrate that Griffin enables accurate cancer detection and tissue of origin prediction. Figure 9A illustrates receiver operating characteristic (ROC) curves for logistic regression classification of cancer vs. healthy controls in three datasets: the DELFI dataset (Cristiano, S. et al. Genome-wide cell-free DNA fragmentation in patients with cancer. Nature 570, 385-389 (2019)), the LUCAS dataset, and the LUCAS validation dataset (Mathios, D. et al. Detection and characterization of lung cancer using cell-free DNA fragmentomes. Nat Commun 12, 5060 (2021)). For each dataset, the performance of both the original low-pass (1-2x) WGS and the ultra-low-pass (0.1x) WGS generated by in-silico downsampling is shown. Logistic regression was performed on the top PCA components explaining 80% of the variance in features (center coverage, mean coverage, and amplitude) extracted from nucleosome profiles around TFBS. The ROCs for each stage of cancer and health are shown. Figure 9B illustrates box plots of AUC values for 1000 bootstrap replicates. The boxed range represents the median ± IQR, and the whiskers represent the range of non-outlier data (maximum is 1.5 × IQR). Values below the box plots indicate the median and 95% confidence interval. 図9Aおよび9Bは、Griffinにより正確ながん検出および起源組織予測が可能になることを例示する。図9Aは、3つのデータセット、DELFIデータセット(Cristiano, S. et al. Genome-wide cell-free DNA fragmentation in patients with cancer. Nature 570, 385-389 (2019))、LUCASデータセット、およびLUCAS検証データセット(Mathios, D. et al. Detection and characterization of lung cancer using cell-free DNA fragmentomes. Nat Commun 12, 5060 (2021))におけるがんと健康対照とをロジスティック回帰により分類するための受信者動作特性(ROC)曲線を例示する。各データセットについて、元のローパス(1~2×)WGSおよびin-silicoダウンサンプリングによって生成した超ローパス(0.1×)WGSの両方の性能が示されている。TFBS周囲のヌクレオソームプロファイルから抽出された特徴(中心カバレッジ、平均カバレッジ、および振幅)における分散の80%を説明する上位PCA成分に対してロジスティック回帰を実施した。各段階のがんと健康とについてのROCが示されている。図9Bは、1000回のブートストラップ反復についてのAUC値の箱ひげ図を例示する。枠で囲まれた範囲は中央値±IQRを表し、ひげは外れ値ではないデータの範囲(最大限は1.5×IQRである)を表す。箱ひげ図の下の値は中央値および95%信頼区間を示す。Figures 9A and 9B illustrate that Griffin enables accurate cancer detection and tissue of origin prediction. Figure 9A illustrates receiver operating characteristic (ROC) curves for logistic regression classification of cancer vs. healthy controls in three datasets: the DELFI dataset (Cristiano, S. et al. Genome-wide cell-free DNA fragmentation in patients with cancer. Nature 570, 385-389 (2019)), the LUCAS dataset, and the LUCAS validation dataset (Mathios, D. et al. Detection and characterization of lung cancer using cell-free DNA fragmentomes. Nat Commun 12, 5060 (2021)). For each dataset, the performance of both the original low-pass (1-2x) WGS and the ultra-low-pass (0.1x) WGS generated by in-silico downsampling is shown. Logistic regression was performed on the top PCA components explaining 80% of the variance in features (center coverage, mean coverage, and amplitude) extracted from nucleosome profiles around TFBS. The ROCs for each stage of cancer and health are shown. Figure 9B illustrates box plots of AUC values for 1000 bootstrap replicates. The boxed range represents the median ± IQR, and the whiskers represent the range of non-outlier data (maximum is 1.5 × IQR). Values below the box plots indicate the median and 95% confidence interval. 図9Aおよび9Bは、Griffinにより正確ながん検出および起源組織予測が可能になることを例示する。図9Aは、3つのデータセット、DELFIデータセット(Cristiano, S. et al. Genome-wide cell-free DNA fragmentation in patients with cancer. Nature 570, 385-389 (2019))、LUCASデータセット、およびLUCAS検証データセット(Mathios, D. et al. Detection and characterization of lung cancer using cell-free DNA fragmentomes. Nat Commun 12, 5060 (2021))におけるがんと健康対照とをロジスティック回帰により分類するための受信者動作特性(ROC)曲線を例示する。各データセットについて、元のローパス(1~2×)WGSおよびin-silicoダウンサンプリングによって生成した超ローパス(0.1×)WGSの両方の性能が示されている。TFBS周囲のヌクレオソームプロファイルから抽出された特徴(中心カバレッジ、平均カバレッジ、および振幅)における分散の80%を説明する上位PCA成分に対してロジスティック回帰を実施した。各段階のがんと健康とについてのROCが示されている。図9Bは、1000回のブートストラップ反復についてのAUC値の箱ひげ図を例示する。枠で囲まれた範囲は中央値±IQRを表し、ひげは外れ値ではないデータの範囲(最大限は1.5×IQRである)を表す。箱ひげ図の下の値は中央値および95%信頼区間を示す。Figures 9A and 9B illustrate that Griffin enables accurate cancer detection and tissue of origin prediction. Figure 9A illustrates receiver operating characteristic (ROC) curves for logistic regression classification of cancer vs. healthy controls in three datasets: the DELFI dataset (Cristiano, S. et al. Genome-wide cell-free DNA fragmentation in patients with cancer. Nature 570, 385-389 (2019)), the LUCAS dataset, and the LUCAS validation dataset (Mathios, D. et al. Detection and characterization of lung cancer using cell-free DNA fragmentomes. Nat Commun 12, 5060 (2021)). For each dataset, the performance of both the original low-pass (1-2x) WGS and the ultra-low-pass (0.1x) WGS generated by in-silico downsampling is shown. Logistic regression was performed on the top PCA components explaining 80% of the variance in features (center coverage, mean coverage, and amplitude) extracted from nucleosome profiles around TFBS. The ROCs for each stage of cancer and health are shown. Figure 9B illustrates box plots of AUC values for 1000 bootstrap replicates. The boxed range represents the median ± IQR, and the whiskers represent the range of non-outlier data (maximum is 1.5 × IQR). Values below the box plots indicate the median and 95% confidence interval. 図9Aおよび9Bは、Griffinにより正確ながん検出および起源組織予測が可能になることを例示する。図9Aは、3つのデータセット、DELFIデータセット(Cristiano, S. et al. Genome-wide cell-free DNA fragmentation in patients with cancer. Nature 570, 385-389 (2019))、LUCASデータセット、およびLUCAS検証データセット(Mathios, D. et al. Detection and characterization of lung cancer using cell-free DNA fragmentomes. Nat Commun 12, 5060 (2021))におけるがんと健康対照とをロジスティック回帰により分類するための受信者動作特性(ROC)曲線を例示する。各データセットについて、元のローパス(1~2×)WGSおよびin-silicoダウンサンプリングによって生成した超ローパス(0.1×)WGSの両方の性能が示されている。TFBS周囲のヌクレオソームプロファイルから抽出された特徴(中心カバレッジ、平均カバレッジ、および振幅)における分散の80%を説明する上位PCA成分に対してロジスティック回帰を実施した。各段階のがんと健康とについてのROCが示されている。図9Bは、1000回のブートストラップ反復についてのAUC値の箱ひげ図を例示する。枠で囲まれた範囲は中央値±IQRを表し、ひげは外れ値ではないデータの範囲(最大限は1.5×IQRである)を表す。箱ひげ図の下の値は中央値および95%信頼区間を示す。Figures 9A and 9B illustrate that Griffin enables accurate cancer detection and tissue of origin prediction. Figure 9A illustrates receiver operating characteristic (ROC) curves for logistic regression classification of cancer vs. healthy controls in three datasets: the DELFI dataset (Cristiano, S. et al. Genome-wide cell-free DNA fragmentation in patients with cancer. Nature 570, 385-389 (2019)), the LUCAS dataset, and the LUCAS validation dataset (Mathios, D. et al. Detection and characterization of lung cancer using cell-free DNA fragmentomes. Nat Commun 12, 5060 (2021)). For each dataset, the performance of both the original low-pass (1-2x) WGS and the ultra-low-pass (0.1x) WGS generated by in-silico downsampling is shown. Logistic regression was performed on the top PCA components explaining 80% of the variance in features (center coverage, mean coverage, and amplitude) extracted from nucleosome profiles around TFBS. The ROCs for each stage of cancer and health are shown. Figure 9B illustrates box plots of AUC values for 1000 bootstrap replicates. The boxed range represents the median ± IQR, and the whiskers represent the range of non-outlier data (maximum is 1.5 × IQR). Values below the box plots indicate the median and 95% confidence interval.

図10A~10Hは、Griffinにより、超ローパスWGSから乳がんエストロゲン受容体亜型を正確に予測することが可能になることを例示する。図10A:ER+特異的オープンクロマチン部位およびER-特異的オープンクロマチン部位を、Cancer Genome Atlas(TCGA)におけるER+乳房腫瘍(n=44)およびER-乳房腫瘍(n=15)からのシーケンシング(ATAC-seq)データを使用したトランスポザーゼアクセシブルクロマチンについてのアッセイから選択した(Corces, M. R. et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018))。DESeq2ソフトウェア(Love, M.I., et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014))を使用して差分部位を同定して、各部位についてのq値およびlog2倍率変化を算出した。q値が5×10-4未満であり、log倍率変化が0.5を超えるまたは-0.5未満である部位を弁別的とみなした。図10Bは、ER+特異的部位(n=18,240)およびER-特異的部位(n=19,347)についての複合カバレッジプロファイル(中央値±IQR)を例示するものであり、臨床ER状況ごとに分けられたMBC患者(腫瘍割合が0.1以上)について示されている(ER+、n=50;ER-、n=51)。造血細胞と共有される部位はこの図から除外した(Satpathy, A. T. et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019))。図10Cは、腫瘍割合が0.10を超えるMBC患者101例に関する情報を示すcomut(Crowdis, J., He, M. X., Reardon, B. & Van Allen, E. M. CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020))プロットを例示する。一番上の行は、回帰モデルを訓練し、評定するために使用したER状況を示す。これは、大多数の患者についてはIHCによって得られた転移ER状況であり、転移ER状況が入手不可能な場合には原発ER状況を使用した。ER low(1~10%ER染色)はER陽性とみなした。二番目の行、左上向き三角形は原発ER状況を含有し、右下向き三角形は転移ER状況を含有する。ER low生検が淡青色で示されており、状況不明が白色で示されている。三番目の行:腫瘍割合、腫瘍を起源とするcfDNAの割合、ichorCNAを使用して算出されたもの。四番目の行、Griffinにより、1000回のブートストラップ反復にわたって算出されたER陽性の確率中央値。図10Dは、ER+亜型およびER-亜型を予測するロジスティック回帰モデルの受信者動作特性(ROC)曲線である。全ての患者について、および腫瘍割合(TFx)によって0.05~0.1と0.1以上に群分けした患者についてのROC曲線、正確度およびAUCが示されている。ブートストラッピングによって95%CIが得られた。複数の試料がある患者については、腫瘍割合が0.05を超える第1の試料を使用した。図10Eは、3つの検証コホートからの試料に対するモデルの性能をグラフで例示する。複数の時点がある患者については、第1の試料を使用した。図10Fは、臨床的転移ER状況と臨床的原発腫瘍ER状況とで分けられた患者における亜型予測をグラフで例示する。P値はフィッシャーの正確確率検定(両側)を使用して算出したものである。図10Gは、原発ER陽性腫瘍を有する患者の間でのER喪失を予測するためのROC曲線を例示する。ブートストラッピングによって95%CIが得られた。図10Hは、複数の生検で亜型が異なり、複数のcfDNA試料がある患者2例(MBC1413およびMBC1099)についての時系列を例示する。腫瘍割合>0.05および0.1×カバレッジの閾値を通過した全てのcfDNA試料についてのER+予測確率(太い灰色の線)、および腫瘍割合(細い灰色の線)が示されている。ER+(≧0.5)とER-(<0.5)の判定境界が点線で示されている。各患者についての転移診断から死亡までの月単位の時系列が示されている。患者MBC_1413については、転移生検材料(胸膜液)が転移が診断された日に取得され、ER-疾患が示された。しかし、およそ7カ月後、別の転移生検材料(肝臓)では弱いER+染色(5%)が示された。およそ12カ月の時点で最終的な生検材料(胸膜液)が取得され、再度ER-染色が示された。cfDNA用の血漿が第2の転移生検と第3の転移生検の間に取り出され、第3の生検後に最終的な取り出しが1回行われた。患者MBC_1099については、0カ月時点(骨)および7カ月時点(肝臓)の2回、ER-生検材料が取得された。cfDNAがこの時点の後に取り出されたが、この2回のcfDNA取り出しの間に、別の生検材料(肝臓)により、低レベルのER+疾患の存在が示された。Figures 10A-10H illustrate that Griffin enables accurate prediction of breast cancer estrogen receptor subtypes from ultra-low-pass WGS. Figure 10A: ER+ and ER-specific open chromatin sites were selected from an assay for transposase-accessible chromatin using sequencing (ATAC-seq) data from ER+ (n=44) and ER- (n=15) breast tumors in the Cancer Genome Atlas (TCGA) (Corces, MR et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018)). Differential sites were identified using DESeq2 software (Love, MI, et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014)) and the q-score and log2 fold change for each site were calculated. Sites with q-scores < 5x10-4 and log2 fold changes >0.5 or <-0.5 were considered differential. Figure 10B illustrates the combined coverage profile (median ± IQR) for ER+ (n=18,240) and ER- (n=19,347) specific sites, shown for MBC patients (tumor fraction ≥0.1) separated by clinical ER status (ER+, n=50; ER-, n=51). Sites shared with hematopoietic cells were excluded from this figure (Satpathy, AT et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019)). Figure 10C illustrates a coMut (Crowdis, J., He, MX, Reardon, B. & Van Allen, EM CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020)) plot showing information on 101 MBC patients with tumor fraction >0.10. The top row shows the ER status used to train and evaluate the regression model. This was the metastatic ER status obtained by IHC for the majority of patients, and primary ER status was used when metastatic ER status was unavailable. ER low (1-10% ER staining) was considered ER positive. Second row, left upward triangle contains primary ER status, right downward triangle contains metastatic ER status. ER low biopsies are shown in light blue, unknown status in white. Third row: tumor fraction, fraction of cfDNA originating from tumor, calculated using ichorcNA. Fourth row, median probability of ER positivity calculated by Griffin over 1000 bootstrap iterations. FIG. 10D is a receiver operating characteristic (ROC) curve of a logistic regression model predicting ER+ and ER- subtypes. ROC curves, accuracy and AUC are shown for all patients and for patients grouped by tumor fraction (TFx) between 0.05-0.1 and 0.1 or greater. 95% CI was obtained by bootstrapping. For patients with multiple samples, the first sample with tumor fraction >0.05 was used. FIG. 10E graphically illustrates the performance of the model on samples from the three validation cohorts. For patients with multiple time points, the first sample was used. Figure 10F graphically illustrates subtype prediction in patients separated by clinical metastatic ER status and clinical primary tumor ER status. P values were calculated using Fisher's exact test (2-sided). Figure 10G illustrates the ROC curve for predicting ER loss among patients with primary ER-positive tumors. 95% CI was obtained by bootstrapping. Figure 10H illustrates the time series for two patients (MBC1413 and MBC1099) with different subtypes and multiple cfDNA samples across multiple biopsies. ER+ predicted probability (thick grey line) and tumor fraction (thin grey line) for all cfDNA samples passing thresholds of tumor fraction >0.05 and 0.1x coverage are shown. The decision boundaries for ER+ (>0.5) and ER- (<0.5) are shown as dotted lines. Time series in months from metastatic diagnosis to death for each patient are shown. For patient MBC_1413, a metastatic biopsy (pleural fluid) was obtained on the day the metastasis was diagnosed and showed ER- disease. However, approximately 7 months later, another metastatic biopsy (liver) showed weak ER+ staining (5%). A final biopsy (pleural fluid) was obtained at approximately 12 months and again showed ER- staining. Plasma for cfDNA was removed between the second and third metastatic biopsies, with one final removal after the third biopsy. For patient MBC_1099, two ER- biopsies were obtained at 0 months (bone) and 7 months (liver). cfDNA was removed after this time point, but another biopsy (liver) showed the presence of low levels of ER+ disease between the two cfDNA removals. 図10A~10Hは、Griffinにより、超ローパスWGSから乳がんエストロゲン受容体亜型を正確に予測することが可能になることを例示する。図10A:ER+特異的オープンクロマチン部位およびER-特異的オープンクロマチン部位を、Cancer Genome Atlas(TCGA)におけるER+乳房腫瘍(n=44)およびER-乳房腫瘍(n=15)からのシーケンシング(ATAC-seq)データを使用したトランスポザーゼアクセシブルクロマチンについてのアッセイから選択した(Corces, M. R. et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018))。DESeq2ソフトウェア(Love, M.I., et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014))を使用して差分部位を同定して、各部位についてのq値およびlog2倍率変化を算出した。q値が5×10-4未満であり、log倍率変化が0.5を超えるまたは-0.5未満である部位を弁別的とみなした。図10Bは、ER+特異的部位(n=18,240)およびER-特異的部位(n=19,347)についての複合カバレッジプロファイル(中央値±IQR)を例示するものであり、臨床ER状況ごとに分けられたMBC患者(腫瘍割合が0.1以上)について示されている(ER+、n=50;ER-、n=51)。造血細胞と共有される部位はこの図から除外した(Satpathy, A. T. et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019))。図10Cは、腫瘍割合が0.10を超えるMBC患者101例に関する情報を示すcomut(Crowdis, J., He, M. X., Reardon, B. & Van Allen, E. M. CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020))プロットを例示する。一番上の行は、回帰モデルを訓練し、評定するために使用したER状況を示す。これは、大多数の患者についてはIHCによって得られた転移ER状況であり、転移ER状況が入手不可能な場合には原発ER状況を使用した。ER low(1~10%ER染色)はER陽性とみなした。二番目の行、左上向き三角形は原発ER状況を含有し、右下向き三角形は転移ER状況を含有する。ER low生検が淡青色で示されており、状況不明が白色で示されている。三番目の行:腫瘍割合、腫瘍を起源とするcfDNAの割合、ichorCNAを使用して算出されたもの。四番目の行、Griffinにより、1000回のブートストラップ反復にわたって算出されたER陽性の確率中央値。図10Dは、ER+亜型およびER-亜型を予測するロジスティック回帰モデルの受信者動作特性(ROC)曲線である。全ての患者について、および腫瘍割合(TFx)によって0.05~0.1と0.1以上に群分けした患者についてのROC曲線、正確度およびAUCが示されている。ブートストラッピングによって95%CIが得られた。複数の試料がある患者については、腫瘍割合が0.05を超える第1の試料を使用した。図10Eは、3つの検証コホートからの試料に対するモデルの性能をグラフで例示する。複数の時点がある患者については、第1の試料を使用した。図10Fは、臨床的転移ER状況と臨床的原発腫瘍ER状況とで分けられた患者における亜型予測をグラフで例示する。P値はフィッシャーの正確確率検定(両側)を使用して算出したものである。図10Gは、原発ER陽性腫瘍を有する患者の間でのER喪失を予測するためのROC曲線を例示する。ブートストラッピングによって95%CIが得られた。図10Hは、複数の生検で亜型が異なり、複数のcfDNA試料がある患者2例(MBC1413およびMBC1099)についての時系列を例示する。腫瘍割合>0.05および0.1×カバレッジの閾値を通過した全てのcfDNA試料についてのER+予測確率(太い灰色の線)、および腫瘍割合(細い灰色の線)が示されている。ER+(≧0.5)とER-(<0.5)の判定境界が点線で示されている。各患者についての転移診断から死亡までの月単位の時系列が示されている。患者MBC_1413については、転移生検材料(胸膜液)が転移が診断された日に取得され、ER-疾患が示された。しかし、およそ7カ月後、別の転移生検材料(肝臓)では弱いER+染色(5%)が示された。およそ12カ月の時点で最終的な生検材料(胸膜液)が取得され、再度ER-染色が示された。cfDNA用の血漿が第2の転移生検と第3の転移生検の間に取り出され、第3の生検後に最終的な取り出しが1回行われた。患者MBC_1099については、0カ月時点(骨)および7カ月時点(肝臓)の2回、ER-生検材料が取得された。cfDNAがこの時点の後に取り出されたが、この2回のcfDNA取り出しの間に、別の生検材料(肝臓)により、低レベルのER+疾患の存在が示された。Figures 10A-10H illustrate that Griffin enables accurate prediction of breast cancer estrogen receptor subtypes from ultra-low-pass WGS. Figure 10A: ER+ and ER-specific open chromatin sites were selected from an assay for transposase-accessible chromatin using sequencing (ATAC-seq) data from ER+ (n=44) and ER- (n=15) breast tumors in the Cancer Genome Atlas (TCGA) (Corces, MR et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018)). Differential sites were identified using DESeq2 software (Love, MI, et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014)) and the q-score and log2 fold change for each site were calculated. Sites with q-scores < 5x10-4 and log2 fold changes >0.5 or <-0.5 were considered differential. Figure 10B illustrates the combined coverage profile (median ± IQR) for ER+ (n=18,240) and ER- (n=19,347) specific sites, shown for MBC patients (tumor fraction ≥0.1) separated by clinical ER status (ER+, n=50; ER-, n=51). Sites shared with hematopoietic cells were excluded from this figure (Satpathy, AT et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019)). Figure 10C illustrates a coMut (Crowdis, J., He, MX, Reardon, B. & Van Allen, EM CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020)) plot showing information on 101 MBC patients with tumor fraction >0.10. The top row shows the ER status used to train and evaluate the regression model. This was the metastatic ER status obtained by IHC for the majority of patients, and primary ER status was used when metastatic ER status was unavailable. ER low (1-10% ER staining) was considered ER positive. Second row, left upward triangle contains primary ER status, right downward triangle contains metastatic ER status. ER low biopsies are shown in light blue, unknown status in white. Third row: tumor fraction, fraction of cfDNA originating from tumor, calculated using ichorcNA. Fourth row, median probability of ER positivity calculated by Griffin over 1000 bootstrap iterations. FIG. 10D is a receiver operating characteristic (ROC) curve of a logistic regression model predicting ER+ and ER- subtypes. ROC curves, accuracy and AUC are shown for all patients and for patients grouped by tumor fraction (TFx) between 0.05-0.1 and 0.1 or greater. 95% CI was obtained by bootstrapping. For patients with multiple samples, the first sample with tumor fraction >0.05 was used. FIG. 10E graphically illustrates the performance of the model on samples from the three validation cohorts. For patients with multiple time points, the first sample was used. Figure 10F graphically illustrates subtype prediction in patients separated by clinical metastatic ER status and clinical primary tumor ER status. P values were calculated using Fisher's exact test (2-sided). Figure 10G illustrates the ROC curve for predicting ER loss among patients with primary ER-positive tumors. 95% CI was obtained by bootstrapping. Figure 10H illustrates the time series for two patients (MBC1413 and MBC1099) with different subtypes and multiple cfDNA samples across multiple biopsies. ER+ predicted probability (thick grey line) and tumor fraction (thin grey line) for all cfDNA samples passing thresholds of tumor fraction >0.05 and 0.1x coverage are shown. The decision boundaries for ER+ (>0.5) and ER- (<0.5) are shown as dotted lines. Time series in months from metastatic diagnosis to death for each patient are shown. For patient MBC_1413, a metastatic biopsy (pleural fluid) was obtained on the day the metastasis was diagnosed and showed ER- disease. However, approximately 7 months later, another metastatic biopsy (liver) showed weak ER+ staining (5%). A final biopsy (pleural fluid) was obtained at approximately 12 months and again showed ER- staining. Plasma for cfDNA was removed between the second and third metastatic biopsies, with one final removal after the third biopsy. For patient MBC_1099, two ER- biopsies were obtained at 0 months (bone) and 7 months (liver). cfDNA was removed after this time point, but another biopsy (liver) showed the presence of low levels of ER+ disease between the two cfDNA removals. 図10A~10Hは、Griffinにより、超ローパスWGSから乳がんエストロゲン受容体亜型を正確に予測することが可能になることを例示する。図10A:ER+特異的オープンクロマチン部位およびER-特異的オープンクロマチン部位を、Cancer Genome Atlas(TCGA)におけるER+乳房腫瘍(n=44)およびER-乳房腫瘍(n=15)からのシーケンシング(ATAC-seq)データを使用したトランスポザーゼアクセシブルクロマチンについてのアッセイから選択した(Corces, M. R. et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018))。DESeq2ソフトウェア(Love, M.I., et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014))を使用して差分部位を同定して、各部位についてのq値およびlog2倍率変化を算出した。q値が5×10-4未満であり、log倍率変化が0.5を超えるまたは-0.5未満である部位を弁別的とみなした。図10Bは、ER+特異的部位(n=18,240)およびER-特異的部位(n=19,347)についての複合カバレッジプロファイル(中央値±IQR)を例示するものであり、臨床ER状況ごとに分けられたMBC患者(腫瘍割合が0.1以上)について示されている(ER+、n=50;ER-、n=51)。造血細胞と共有される部位はこの図から除外した(Satpathy, A. T. et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019))。図10Cは、腫瘍割合が0.10を超えるMBC患者101例に関する情報を示すcomut(Crowdis, J., He, M. X., Reardon, B. & Van Allen, E. M. CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020))プロットを例示する。一番上の行は、回帰モデルを訓練し、評定するために使用したER状況を示す。これは、大多数の患者についてはIHCによって得られた転移ER状況であり、転移ER状況が入手不可能な場合には原発ER状況を使用した。ER low(1~10%ER染色)はER陽性とみなした。二番目の行、左上向き三角形は原発ER状況を含有し、右下向き三角形は転移ER状況を含有する。ER low生検が淡青色で示されており、状況不明が白色で示されている。三番目の行:腫瘍割合、腫瘍を起源とするcfDNAの割合、ichorCNAを使用して算出されたもの。四番目の行、Griffinにより、1000回のブートストラップ反復にわたって算出されたER陽性の確率中央値。図10Dは、ER+亜型およびER-亜型を予測するロジスティック回帰モデルの受信者動作特性(ROC)曲線である。全ての患者について、および腫瘍割合(TFx)によって0.05~0.1と0.1以上に群分けした患者についてのROC曲線、正確度およびAUCが示されている。ブートストラッピングによって95%CIが得られた。複数の試料がある患者については、腫瘍割合が0.05を超える第1の試料を使用した。図10Eは、3つの検証コホートからの試料に対するモデルの性能をグラフで例示する。複数の時点がある患者については、第1の試料を使用した。図10Fは、臨床的転移ER状況と臨床的原発腫瘍ER状況とで分けられた患者における亜型予測をグラフで例示する。P値はフィッシャーの正確確率検定(両側)を使用して算出したものである。図10Gは、原発ER陽性腫瘍を有する患者の間でのER喪失を予測するためのROC曲線を例示する。ブートストラッピングによって95%CIが得られた。図10Hは、複数の生検で亜型が異なり、複数のcfDNA試料がある患者2例(MBC1413およびMBC1099)についての時系列を例示する。腫瘍割合>0.05および0.1×カバレッジの閾値を通過した全てのcfDNA試料についてのER+予測確率(太い灰色の線)、および腫瘍割合(細い灰色の線)が示されている。ER+(≧0.5)とER-(<0.5)の判定境界が点線で示されている。各患者についての転移診断から死亡までの月単位の時系列が示されている。患者MBC_1413については、転移生検材料(胸膜液)が転移が診断された日に取得され、ER-疾患が示された。しかし、およそ7カ月後、別の転移生検材料(肝臓)では弱いER+染色(5%)が示された。およそ12カ月の時点で最終的な生検材料(胸膜液)が取得され、再度ER-染色が示された。cfDNA用の血漿が第2の転移生検と第3の転移生検の間に取り出され、第3の生検後に最終的な取り出しが1回行われた。患者MBC_1099については、0カ月時点(骨)および7カ月時点(肝臓)の2回、ER-生検材料が取得された。cfDNAがこの時点の後に取り出されたが、この2回のcfDNA取り出しの間に、別の生検材料(肝臓)により、低レベルのER+疾患の存在が示された。Figures 10A-10H illustrate that Griffin enables accurate prediction of breast cancer estrogen receptor subtypes from ultra-low-pass WGS. Figure 10A: ER+ and ER-specific open chromatin sites were selected from an assay for transposase-accessible chromatin using sequencing (ATAC-seq) data from ER+ (n=44) and ER- (n=15) breast tumors in the Cancer Genome Atlas (TCGA) (Corces, MR et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018)). Differential sites were identified using DESeq2 software (Love, MI, et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014)) and the q-score and log2 fold change for each site were calculated. Sites with q-scores < 5x10-4 and log2 fold changes >0.5 or <-0.5 were considered differential. Figure 10B illustrates the combined coverage profile (median ± IQR) for ER+ (n=18,240) and ER- (n=19,347) specific sites, shown for MBC patients (tumor fraction ≥0.1) separated by clinical ER status (ER+, n=50; ER-, n=51). Sites shared with hematopoietic cells were excluded from this figure (Satpathy, AT et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019)). Figure 10C illustrates a coMut (Crowdis, J., He, MX, Reardon, B. & Van Allen, EM CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020)) plot showing information on 101 MBC patients with tumor fraction >0.10. The top row shows the ER status used to train and evaluate the regression model. This was the metastatic ER status obtained by IHC for the majority of patients, and primary ER status was used when metastatic ER status was unavailable. ER low (1-10% ER staining) was considered ER positive. Second row, left upward triangle contains primary ER status, right downward triangle contains metastatic ER status. ER low biopsies are shown in light blue, unknown status in white. Third row: tumor fraction, fraction of cfDNA originating from tumor, calculated using ichorcNA. Fourth row, median probability of ER positivity calculated by Griffin over 1000 bootstrap iterations. FIG. 10D is a receiver operating characteristic (ROC) curve of a logistic regression model predicting ER+ and ER- subtypes. ROC curves, accuracy and AUC are shown for all patients and for patients grouped by tumor fraction (TFx) between 0.05-0.1 and 0.1 or greater. 95% CI was obtained by bootstrapping. For patients with multiple samples, the first sample with tumor fraction >0.05 was used. FIG. 10E graphically illustrates the performance of the model on samples from the three validation cohorts. For patients with multiple time points, the first sample was used. Figure 10F graphically illustrates subtype prediction in patients separated by clinical metastatic ER status and clinical primary tumor ER status. P values were calculated using Fisher's exact test (2-sided). Figure 10G illustrates the ROC curve for predicting ER loss among patients with primary ER-positive tumors. 95% CI was obtained by bootstrapping. Figure 10H illustrates the time series for two patients (MBC1413 and MBC1099) with different subtypes and multiple cfDNA samples across multiple biopsies. ER+ predicted probability (thick grey line) and tumor fraction (thin grey line) for all cfDNA samples passing thresholds of tumor fraction >0.05 and 0.1x coverage are shown. The decision boundaries for ER+ (>0.5) and ER- (<0.5) are shown as dotted lines. Time series in months from metastatic diagnosis to death for each patient are shown. For patient MBC_1413, a metastatic biopsy (pleural fluid) was obtained on the day the metastasis was diagnosed and showed ER- disease. However, approximately 7 months later, another metastatic biopsy (liver) showed weak ER+ staining (5%). A final biopsy (pleural fluid) was obtained at approximately 12 months and again showed ER- staining. Plasma for cfDNA was removed between the second and third metastatic biopsies, with one final removal after the third biopsy. For patient MBC_1099, two ER- biopsies were obtained at 0 months (bone) and 7 months (liver). cfDNA was removed after this time point, but another biopsy (liver) showed the presence of low levels of ER+ disease between the two cfDNA removals. 図10A~10Hは、Griffinにより、超ローパスWGSから乳がんエストロゲン受容体亜型を正確に予測することが可能になることを例示する。図10A:ER+特異的オープンクロマチン部位およびER-特異的オープンクロマチン部位を、Cancer Genome Atlas(TCGA)におけるER+乳房腫瘍(n=44)およびER-乳房腫瘍(n=15)からのシーケンシング(ATAC-seq)データを使用したトランスポザーゼアクセシブルクロマチンについてのアッセイから選択した(Corces, M. R. et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018))。DESeq2ソフトウェア(Love, M.I., et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014))を使用して差分部位を同定して、各部位についてのq値およびlog2倍率変化を算出した。q値が5×10-4未満であり、log倍率変化が0.5を超えるまたは-0.5未満である部位を弁別的とみなした。図10Bは、ER+特異的部位(n=18,240)およびER-特異的部位(n=19,347)についての複合カバレッジプロファイル(中央値±IQR)を例示するものであり、臨床ER状況ごとに分けられたMBC患者(腫瘍割合が0.1以上)について示されている(ER+、n=50;ER-、n=51)。造血細胞と共有される部位はこの図から除外した(Satpathy, A. T. et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019))。図10Cは、腫瘍割合が0.10を超えるMBC患者101例に関する情報を示すcomut(Crowdis, J., He, M. X., Reardon, B. & Van Allen, E. M. CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020))プロットを例示する。一番上の行は、回帰モデルを訓練し、評定するために使用したER状況を示す。これは、大多数の患者についてはIHCによって得られた転移ER状況であり、転移ER状況が入手不可能な場合には原発ER状況を使用した。ER low(1~10%ER染色)はER陽性とみなした。二番目の行、左上向き三角形は原発ER状況を含有し、右下向き三角形は転移ER状況を含有する。ER low生検が淡青色で示されており、状況不明が白色で示されている。三番目の行:腫瘍割合、腫瘍を起源とするcfDNAの割合、ichorCNAを使用して算出されたもの。四番目の行、Griffinにより、1000回のブートストラップ反復にわたって算出されたER陽性の確率中央値。図10Dは、ER+亜型およびER-亜型を予測するロジスティック回帰モデルの受信者動作特性(ROC)曲線である。全ての患者について、および腫瘍割合(TFx)によって0.05~0.1と0.1以上に群分けした患者についてのROC曲線、正確度およびAUCが示されている。ブートストラッピングによって95%CIが得られた。複数の試料がある患者については、腫瘍割合が0.05を超える第1の試料を使用した。図10Eは、3つの検証コホートからの試料に対するモデルの性能をグラフで例示する。複数の時点がある患者については、第1の試料を使用した。図10Fは、臨床的転移ER状況と臨床的原発腫瘍ER状況とで分けられた患者における亜型予測をグラフで例示する。P値はフィッシャーの正確確率検定(両側)を使用して算出したものである。図10Gは、原発ER陽性腫瘍を有する患者の間でのER喪失を予測するためのROC曲線を例示する。ブートストラッピングによって95%CIが得られた。図10Hは、複数の生検で亜型が異なり、複数のcfDNA試料がある患者2例(MBC1413およびMBC1099)についての時系列を例示する。腫瘍割合>0.05および0.1×カバレッジの閾値を通過した全てのcfDNA試料についてのER+予測確率(太い灰色の線)、および腫瘍割合(細い灰色の線)が示されている。ER+(≧0.5)とER-(<0.5)の判定境界が点線で示されている。各患者についての転移診断から死亡までの月単位の時系列が示されている。患者MBC_1413については、転移生検材料(胸膜液)が転移が診断された日に取得され、ER-疾患が示された。しかし、およそ7カ月後、別の転移生検材料(肝臓)では弱いER+染色(5%)が示された。およそ12カ月の時点で最終的な生検材料(胸膜液)が取得され、再度ER-染色が示された。cfDNA用の血漿が第2の転移生検と第3の転移生検の間に取り出され、第3の生検後に最終的な取り出しが1回行われた。患者MBC_1099については、0カ月時点(骨)および7カ月時点(肝臓)の2回、ER-生検材料が取得された。cfDNAがこの時点の後に取り出されたが、この2回のcfDNA取り出しの間に、別の生検材料(肝臓)により、低レベルのER+疾患の存在が示された。Figures 10A-10H illustrate that Griffin enables accurate prediction of breast cancer estrogen receptor subtypes from ultra-low-pass WGS. Figure 10A: ER+ and ER-specific open chromatin sites were selected from an assay for transposase-accessible chromatin using sequencing (ATAC-seq) data from ER+ (n=44) and ER- (n=15) breast tumors in the Cancer Genome Atlas (TCGA) (Corces, MR et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018)). Differential sites were identified using DESeq2 software (Love, MI, et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014)) and the q-score and log2 fold change for each site were calculated. Sites with q-scores < 5x10-4 and log2 fold changes >0.5 or <-0.5 were considered differential. Figure 10B illustrates the combined coverage profile (median ± IQR) for ER+ (n=18,240) and ER- (n=19,347) specific sites, shown for MBC patients (tumor fraction ≥0.1) separated by clinical ER status (ER+, n=50; ER-, n=51). Sites shared with hematopoietic cells were excluded from this figure (Satpathy, AT et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019)). Figure 10C illustrates a coMut (Crowdis, J., He, MX, Reardon, B. & Van Allen, EM CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020)) plot showing information on 101 MBC patients with tumor fraction >0.10. The top row shows the ER status used to train and evaluate the regression model. This was the metastatic ER status obtained by IHC for the majority of patients, and primary ER status was used when metastatic ER status was unavailable. ER low (1-10% ER staining) was considered ER positive. Second row, left upward triangle contains primary ER status, right downward triangle contains metastatic ER status. ER low biopsies are shown in light blue, unknown status in white. Third row: tumor fraction, fraction of cfDNA originating from tumor, calculated using ichorcNA. Fourth row, median probability of ER positivity calculated by Griffin over 1000 bootstrap iterations. FIG. 10D is a receiver operating characteristic (ROC) curve of a logistic regression model predicting ER+ and ER- subtypes. ROC curves, accuracy and AUC are shown for all patients and for patients grouped by tumor fraction (TFx) between 0.05-0.1 and 0.1 or greater. 95% CI was obtained by bootstrapping. For patients with multiple samples, the first sample with tumor fraction >0.05 was used. FIG. 10E graphically illustrates the performance of the model on samples from the three validation cohorts. For patients with multiple time points, the first sample was used. Figure 10F graphically illustrates subtype prediction in patients separated by clinical metastatic ER status and clinical primary tumor ER status. P values were calculated using Fisher's exact test (2-sided). Figure 10G illustrates the ROC curve for predicting ER loss among patients with primary ER-positive tumors. 95% CI was obtained by bootstrapping. Figure 10H illustrates the time series for two patients (MBC1413 and MBC1099) with different subtypes and multiple cfDNA samples across multiple biopsies. ER+ predicted probability (thick grey line) and tumor fraction (thin grey line) for all cfDNA samples passing thresholds of tumor fraction >0.05 and 0.1x coverage are shown. The decision boundaries for ER+ (>0.5) and ER- (<0.5) are shown as dotted lines. Time series in months from metastatic diagnosis to death for each patient are shown. For patient MBC_1413, a metastatic biopsy (pleural fluid) was obtained on the day the metastasis was diagnosed and showed ER- disease. However, approximately 7 months later, another metastatic biopsy (liver) showed weak ER+ staining (5%). A final biopsy (pleural fluid) was obtained at approximately 12 months and again showed ER- staining. Plasma for cfDNA was removed between the second and third metastatic biopsies, with one final removal after the third biopsy. For patient MBC_1099, two ER- biopsies were obtained at 0 months (bone) and 7 months (liver). cfDNA was removed after this time point, but another biopsy (liver) showed the presence of low levels of ER+ disease between the two cfDNA removals. 図10A~10Hは、Griffinにより、超ローパスWGSから乳がんエストロゲン受容体亜型を正確に予測することが可能になることを例示する。図10A:ER+特異的オープンクロマチン部位およびER-特異的オープンクロマチン部位を、Cancer Genome Atlas(TCGA)におけるER+乳房腫瘍(n=44)およびER-乳房腫瘍(n=15)からのシーケンシング(ATAC-seq)データを使用したトランスポザーゼアクセシブルクロマチンについてのアッセイから選択した(Corces, M. R. et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018))。DESeq2ソフトウェア(Love, M.I., et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014))を使用して差分部位を同定して、各部位についてのq値およびlog2倍率変化を算出した。q値が5×10-4未満であり、log倍率変化が0.5を超えるまたは-0.5未満である部位を弁別的とみなした。図10Bは、ER+特異的部位(n=18,240)およびER-特異的部位(n=19,347)についての複合カバレッジプロファイル(中央値±IQR)を例示するものであり、臨床ER状況ごとに分けられたMBC患者(腫瘍割合が0.1以上)について示されている(ER+、n=50;ER-、n=51)。造血細胞と共有される部位はこの図から除外した(Satpathy, A. T. et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019))。図10Cは、腫瘍割合が0.10を超えるMBC患者101例に関する情報を示すcomut(Crowdis, J., He, M. X., Reardon, B. & Van Allen, E. M. CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020))プロットを例示する。一番上の行は、回帰モデルを訓練し、評定するために使用したER状況を示す。これは、大多数の患者についてはIHCによって得られた転移ER状況であり、転移ER状況が入手不可能な場合には原発ER状況を使用した。ER low(1~10%ER染色)はER陽性とみなした。二番目の行、左上向き三角形は原発ER状況を含有し、右下向き三角形は転移ER状況を含有する。ER low生検が淡青色で示されており、状況不明が白色で示されている。三番目の行:腫瘍割合、腫瘍を起源とするcfDNAの割合、ichorCNAを使用して算出されたもの。四番目の行、Griffinにより、1000回のブートストラップ反復にわたって算出されたER陽性の確率中央値。図10Dは、ER+亜型およびER-亜型を予測するロジスティック回帰モデルの受信者動作特性(ROC)曲線である。全ての患者について、および腫瘍割合(TFx)によって0.05~0.1と0.1以上に群分けした患者についてのROC曲線、正確度およびAUCが示されている。ブートストラッピングによって95%CIが得られた。複数の試料がある患者については、腫瘍割合が0.05を超える第1の試料を使用した。図10Eは、3つの検証コホートからの試料に対するモデルの性能をグラフで例示する。複数の時点がある患者については、第1の試料を使用した。図10Fは、臨床的転移ER状況と臨床的原発腫瘍ER状況とで分けられた患者における亜型予測をグラフで例示する。P値はフィッシャーの正確確率検定(両側)を使用して算出したものである。図10Gは、原発ER陽性腫瘍を有する患者の間でのER喪失を予測するためのROC曲線を例示する。ブートストラッピングによって95%CIが得られた。図10Hは、複数の生検で亜型が異なり、複数のcfDNA試料がある患者2例(MBC1413およびMBC1099)についての時系列を例示する。腫瘍割合>0.05および0.1×カバレッジの閾値を通過した全てのcfDNA試料についてのER+予測確率(太い灰色の線)、および腫瘍割合(細い灰色の線)が示されている。ER+(≧0.5)とER-(<0.5)の判定境界が点線で示されている。各患者についての転移診断から死亡までの月単位の時系列が示されている。患者MBC_1413については、転移生検材料(胸膜液)が転移が診断された日に取得され、ER-疾患が示された。しかし、およそ7カ月後、別の転移生検材料(肝臓)では弱いER+染色(5%)が示された。およそ12カ月の時点で最終的な生検材料(胸膜液)が取得され、再度ER-染色が示された。cfDNA用の血漿が第2の転移生検と第3の転移生検の間に取り出され、第3の生検後に最終的な取り出しが1回行われた。患者MBC_1099については、0カ月時点(骨)および7カ月時点(肝臓)の2回、ER-生検材料が取得された。cfDNAがこの時点の後に取り出されたが、この2回のcfDNA取り出しの間に、別の生検材料(肝臓)により、低レベルのER+疾患の存在が示された。Figures 10A-10H illustrate that Griffin enables accurate prediction of breast cancer estrogen receptor subtypes from ultra-low-pass WGS. Figure 10A: ER+ and ER-specific open chromatin sites were selected from an assay for transposase-accessible chromatin using sequencing (ATAC-seq) data from ER+ (n=44) and ER- (n=15) breast tumors in the Cancer Genome Atlas (TCGA) (Corces, MR et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018)). Differential sites were identified using DESeq2 software (Love, MI, et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014)) and the q-score and log2 fold change for each site were calculated. Sites with q-scores < 5x10-4 and log2 fold changes >0.5 or <-0.5 were considered differential. Figure 10B illustrates the combined coverage profile (median ± IQR) for ER+ (n=18,240) and ER- (n=19,347) specific sites, shown for MBC patients (tumor fraction ≥0.1) separated by clinical ER status (ER+, n=50; ER-, n=51). Sites shared with hematopoietic cells were excluded from this figure (Satpathy, AT et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019)). Figure 10C illustrates a coMut (Crowdis, J., He, MX, Reardon, B. & Van Allen, EM CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020)) plot showing information on 101 MBC patients with tumor fraction >0.10. The top row shows the ER status used to train and evaluate the regression model. This was the metastatic ER status obtained by IHC for the majority of patients, and primary ER status was used when metastatic ER status was unavailable. ER low (1-10% ER staining) was considered ER positive. Second row, left upward triangle contains primary ER status, right downward triangle contains metastatic ER status. ER low biopsies are shown in light blue, unknown status in white. Third row: tumor fraction, fraction of cfDNA originating from tumor, calculated using ichorcNA. Fourth row, median probability of ER positivity calculated by Griffin over 1000 bootstrap iterations. FIG. 10D is a receiver operating characteristic (ROC) curve of a logistic regression model predicting ER+ and ER- subtypes. ROC curves, accuracy and AUC are shown for all patients and for patients grouped by tumor fraction (TFx) between 0.05-0.1 and 0.1 or greater. 95% CI was obtained by bootstrapping. For patients with multiple samples, the first sample with tumor fraction >0.05 was used. FIG. 10E graphically illustrates the performance of the model on samples from the three validation cohorts. For patients with multiple time points, the first sample was used. Figure 10F graphically illustrates subtype prediction in patients separated by clinical metastatic ER status and clinical primary tumor ER status. P values were calculated using Fisher's exact test (2-sided). Figure 10G illustrates the ROC curve for predicting ER loss among patients with primary ER-positive tumors. 95% CI was obtained by bootstrapping. Figure 10H illustrates the time series for two patients (MBC1413 and MBC1099) with different subtypes and multiple cfDNA samples across multiple biopsies. ER+ predicted probability (thick grey line) and tumor fraction (thin grey line) for all cfDNA samples passing thresholds of tumor fraction >0.05 and 0.1x coverage are shown. The decision boundaries for ER+ (>0.5) and ER- (<0.5) are shown as dotted lines. Time series in months from metastatic diagnosis to death for each patient are shown. For patient MBC_1413, a metastatic biopsy (pleural fluid) was obtained on the day the metastasis was diagnosed and showed ER- disease. However, approximately 7 months later, another metastatic biopsy (liver) showed weak ER+ staining (5%). A final biopsy (pleural fluid) was obtained at approximately 12 months and again showed ER- staining. Plasma for cfDNA was removed between the second and third metastatic biopsies, with one final removal after the third biopsy. For patient MBC_1099, two ER- biopsies were obtained at 0 months (bone) and 7 months (liver). cfDNA was removed after this time point, but another biopsy (liver) showed the presence of low levels of ER+ disease between the two cfDNA removals. 図10A~10Hは、Griffinにより、超ローパスWGSから乳がんエストロゲン受容体亜型を正確に予測することが可能になることを例示する。図10A:ER+特異的オープンクロマチン部位およびER-特異的オープンクロマチン部位を、Cancer Genome Atlas(TCGA)におけるER+乳房腫瘍(n=44)およびER-乳房腫瘍(n=15)からのシーケンシング(ATAC-seq)データを使用したトランスポザーゼアクセシブルクロマチンについてのアッセイから選択した(Corces, M. R. et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018))。DESeq2ソフトウェア(Love, M.I., et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014))を使用して差分部位を同定して、各部位についてのq値およびlog2倍率変化を算出した。q値が5×10-4未満であり、log倍率変化が0.5を超えるまたは-0.5未満である部位を弁別的とみなした。図10Bは、ER+特異的部位(n=18,240)およびER-特異的部位(n=19,347)についての複合カバレッジプロファイル(中央値±IQR)を例示するものであり、臨床ER状況ごとに分けられたMBC患者(腫瘍割合が0.1以上)について示されている(ER+、n=50;ER-、n=51)。造血細胞と共有される部位はこの図から除外した(Satpathy, A. T. et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019))。図10Cは、腫瘍割合が0.10を超えるMBC患者101例に関する情報を示すcomut(Crowdis, J., He, M. X., Reardon, B. & Van Allen, E. M. CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020))プロットを例示する。一番上の行は、回帰モデルを訓練し、評定するために使用したER状況を示す。これは、大多数の患者についてはIHCによって得られた転移ER状況であり、転移ER状況が入手不可能な場合には原発ER状況を使用した。ER low(1~10%ER染色)はER陽性とみなした。二番目の行、左上向き三角形は原発ER状況を含有し、右下向き三角形は転移ER状況を含有する。ER low生検が淡青色で示されており、状況不明が白色で示されている。三番目の行:腫瘍割合、腫瘍を起源とするcfDNAの割合、ichorCNAを使用して算出されたもの。四番目の行、Griffinにより、1000回のブートストラップ反復にわたって算出されたER陽性の確率中央値。図10Dは、ER+亜型およびER-亜型を予測するロジスティック回帰モデルの受信者動作特性(ROC)曲線である。全ての患者について、および腫瘍割合(TFx)によって0.05~0.1と0.1以上に群分けした患者についてのROC曲線、正確度およびAUCが示されている。ブートストラッピングによって95%CIが得られた。複数の試料がある患者については、腫瘍割合が0.05を超える第1の試料を使用した。図10Eは、3つの検証コホートからの試料に対するモデルの性能をグラフで例示する。複数の時点がある患者については、第1の試料を使用した。図10Fは、臨床的転移ER状況と臨床的原発腫瘍ER状況とで分けられた患者における亜型予測をグラフで例示する。P値はフィッシャーの正確確率検定(両側)を使用して算出したものである。図10Gは、原発ER陽性腫瘍を有する患者の間でのER喪失を予測するためのROC曲線を例示する。ブートストラッピングによって95%CIが得られた。図10Hは、複数の生検で亜型が異なり、複数のcfDNA試料がある患者2例(MBC1413およびMBC1099)についての時系列を例示する。腫瘍割合>0.05および0.1×カバレッジの閾値を通過した全てのcfDNA試料についてのER+予測確率(太い灰色の線)、および腫瘍割合(細い灰色の線)が示されている。ER+(≧0.5)とER-(<0.5)の判定境界が点線で示されている。各患者についての転移診断から死亡までの月単位の時系列が示されている。患者MBC_1413については、転移生検材料(胸膜液)が転移が診断された日に取得され、ER-疾患が示された。しかし、およそ7カ月後、別の転移生検材料(肝臓)では弱いER+染色(5%)が示された。およそ12カ月の時点で最終的な生検材料(胸膜液)が取得され、再度ER-染色が示された。cfDNA用の血漿が第2の転移生検と第3の転移生検の間に取り出され、第3の生検後に最終的な取り出しが1回行われた。患者MBC_1099については、0カ月時点(骨)および7カ月時点(肝臓)の2回、ER-生検材料が取得された。cfDNAがこの時点の後に取り出されたが、この2回のcfDNA取り出しの間に、別の生検材料(肝臓)により、低レベルのER+疾患の存在が示された。Figures 10A-10H illustrate that Griffin enables accurate prediction of breast cancer estrogen receptor subtypes from ultra-low-pass WGS. Figure 10A: ER+ and ER-specific open chromatin sites were selected from an assay for transposase-accessible chromatin using sequencing (ATAC-seq) data from ER+ (n=44) and ER- (n=15) breast tumors in the Cancer Genome Atlas (TCGA) (Corces, MR et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018)). Differential sites were identified using DESeq2 software (Love, MI, et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014)) and the q-score and log2 fold change for each site were calculated. Sites with q-scores < 5x10-4 and log2 fold changes >0.5 or <-0.5 were considered differential. Figure 10B illustrates the combined coverage profile (median ± IQR) for ER+ (n=18,240) and ER- (n=19,347) specific sites, shown for MBC patients (tumor fraction ≥0.1) separated by clinical ER status (ER+, n=50; ER-, n=51). Sites shared with hematopoietic cells were excluded from this figure (Satpathy, AT et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019)). Figure 10C illustrates a coMut (Crowdis, J., He, MX, Reardon, B. & Van Allen, EM CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020)) plot showing information on 101 MBC patients with tumor fraction >0.10. The top row shows the ER status used to train and evaluate the regression model. This was the metastatic ER status obtained by IHC for the majority of patients, and primary ER status was used when metastatic ER status was unavailable. ER low (1-10% ER staining) was considered ER positive. Second row, left upward triangle contains primary ER status, right downward triangle contains metastatic ER status. ER low biopsies are shown in light blue, unknown status in white. Third row: tumor fraction, fraction of cfDNA originating from tumor, calculated using ichorcNA. Fourth row, median probability of ER positivity calculated by Griffin over 1000 bootstrap iterations. FIG. 10D is a receiver operating characteristic (ROC) curve of a logistic regression model predicting ER+ and ER- subtypes. ROC curves, accuracy and AUC are shown for all patients and for patients grouped by tumor fraction (TFx) between 0.05-0.1 and 0.1 or greater. 95% CI was obtained by bootstrapping. For patients with multiple samples, the first sample with tumor fraction >0.05 was used. FIG. 10E graphically illustrates the performance of the model on samples from the three validation cohorts. For patients with multiple time points, the first sample was used. Figure 10F graphically illustrates subtype prediction in patients separated by clinical metastatic ER status and clinical primary tumor ER status. P values were calculated using Fisher's exact test (2-sided). Figure 10G illustrates the ROC curve for predicting ER loss among patients with primary ER-positive tumors. 95% CI was obtained by bootstrapping. Figure 10H illustrates the time series for two patients (MBC1413 and MBC1099) with different subtypes and multiple cfDNA samples across multiple biopsies. ER+ predicted probability (thick grey line) and tumor fraction (thin grey line) for all cfDNA samples passing thresholds of tumor fraction >0.05 and 0.1x coverage are shown. The decision boundaries for ER+ (>0.5) and ER- (<0.5) are shown as dotted lines. Time series in months from metastatic diagnosis to death for each patient are shown. For patient MBC_1413, a metastatic biopsy (pleural fluid) was obtained on the day the metastasis was diagnosed and showed ER- disease. However, approximately 7 months later, another metastatic biopsy (liver) showed weak ER+ staining (5%). A final biopsy (pleural fluid) was obtained at approximately 12 months and again showed ER- staining. Plasma for cfDNA was removed between the second and third metastatic biopsies, with one final removal after the third biopsy. For patient MBC_1099, two ER- biopsies were obtained at 0 months (bone) and 7 months (liver). cfDNA was removed after this time point, but another biopsy (liver) showed the presence of low levels of ER+ disease between the two cfDNA removals. 図10A~10Hは、Griffinにより、超ローパスWGSから乳がんエストロゲン受容体亜型を正確に予測することが可能になることを例示する。図10A:ER+特異的オープンクロマチン部位およびER-特異的オープンクロマチン部位を、Cancer Genome Atlas(TCGA)におけるER+乳房腫瘍(n=44)およびER-乳房腫瘍(n=15)からのシーケンシング(ATAC-seq)データを使用したトランスポザーゼアクセシブルクロマチンについてのアッセイから選択した(Corces, M. R. et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018))。DESeq2ソフトウェア(Love, M.I., et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014))を使用して差分部位を同定して、各部位についてのq値およびlog2倍率変化を算出した。q値が5×10-4未満であり、log倍率変化が0.5を超えるまたは-0.5未満である部位を弁別的とみなした。図10Bは、ER+特異的部位(n=18,240)およびER-特異的部位(n=19,347)についての複合カバレッジプロファイル(中央値±IQR)を例示するものであり、臨床ER状況ごとに分けられたMBC患者(腫瘍割合が0.1以上)について示されている(ER+、n=50;ER-、n=51)。造血細胞と共有される部位はこの図から除外した(Satpathy, A. T. et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019))。図10Cは、腫瘍割合が0.10を超えるMBC患者101例に関する情報を示すcomut(Crowdis, J., He, M. X., Reardon, B. & Van Allen, E. M. CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020))プロットを例示する。一番上の行は、回帰モデルを訓練し、評定するために使用したER状況を示す。これは、大多数の患者についてはIHCによって得られた転移ER状況であり、転移ER状況が入手不可能な場合には原発ER状況を使用した。ER low(1~10%ER染色)はER陽性とみなした。二番目の行、左上向き三角形は原発ER状況を含有し、右下向き三角形は転移ER状況を含有する。ER low生検が淡青色で示されており、状況不明が白色で示されている。三番目の行:腫瘍割合、腫瘍を起源とするcfDNAの割合、ichorCNAを使用して算出されたもの。四番目の行、Griffinにより、1000回のブートストラップ反復にわたって算出されたER陽性の確率中央値。図10Dは、ER+亜型およびER-亜型を予測するロジスティック回帰モデルの受信者動作特性(ROC)曲線である。全ての患者について、および腫瘍割合(TFx)によって0.05~0.1と0.1以上に群分けした患者についてのROC曲線、正確度およびAUCが示されている。ブートストラッピングによって95%CIが得られた。複数の試料がある患者については、腫瘍割合が0.05を超える第1の試料を使用した。図10Eは、3つの検証コホートからの試料に対するモデルの性能をグラフで例示する。複数の時点がある患者については、第1の試料を使用した。図10Fは、臨床的転移ER状況と臨床的原発腫瘍ER状況とで分けられた患者における亜型予測をグラフで例示する。P値はフィッシャーの正確確率検定(両側)を使用して算出したものである。図10Gは、原発ER陽性腫瘍を有する患者の間でのER喪失を予測するためのROC曲線を例示する。ブートストラッピングによって95%CIが得られた。図10Hは、複数の生検で亜型が異なり、複数のcfDNA試料がある患者2例(MBC1413およびMBC1099)についての時系列を例示する。腫瘍割合>0.05および0.1×カバレッジの閾値を通過した全てのcfDNA試料についてのER+予測確率(太い灰色の線)、および腫瘍割合(細い灰色の線)が示されている。ER+(≧0.5)とER-(<0.5)の判定境界が点線で示されている。各患者についての転移診断から死亡までの月単位の時系列が示されている。患者MBC_1413については、転移生検材料(胸膜液)が転移が診断された日に取得され、ER-疾患が示された。しかし、およそ7カ月後、別の転移生検材料(肝臓)では弱いER+染色(5%)が示された。およそ12カ月の時点で最終的な生検材料(胸膜液)が取得され、再度ER-染色が示された。cfDNA用の血漿が第2の転移生検と第3の転移生検の間に取り出され、第3の生検後に最終的な取り出しが1回行われた。患者MBC_1099については、0カ月時点(骨)および7カ月時点(肝臓)の2回、ER-生検材料が取得された。cfDNAがこの時点の後に取り出されたが、この2回のcfDNA取り出しの間に、別の生検材料(肝臓)により、低レベルのER+疾患の存在が示された。Figures 10A-10H illustrate that Griffin enables accurate prediction of breast cancer estrogen receptor subtypes from ultra-low-pass WGS. Figure 10A: ER+ and ER-specific open chromatin sites were selected from an assay for transposase-accessible chromatin using sequencing (ATAC-seq) data from ER+ (n=44) and ER- (n=15) breast tumors in the Cancer Genome Atlas (TCGA) (Corces, MR et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018)). Differential sites were identified using DESeq2 software (Love, MI, et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014)) and the q-score and log2 fold change for each site were calculated. Sites with q-scores < 5x10-4 and log2 fold changes >0.5 or <-0.5 were considered differential. Figure 10B illustrates the combined coverage profile (median ± IQR) for ER+ (n=18,240) and ER- (n=19,347) specific sites, shown for MBC patients (tumor fraction ≥0.1) separated by clinical ER status (ER+, n=50; ER-, n=51). Sites shared with hematopoietic cells were excluded from this figure (Satpathy, AT et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019)). Figure 10C illustrates a coMut (Crowdis, J., He, MX, Reardon, B. & Van Allen, EM CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020)) plot showing information on 101 MBC patients with tumor fraction >0.10. The top row shows the ER status used to train and evaluate the regression model. This was the metastatic ER status obtained by IHC for the majority of patients, and primary ER status was used when metastatic ER status was unavailable. ER low (1-10% ER staining) was considered ER positive. Second row, left upward triangle contains primary ER status, right downward triangle contains metastatic ER status. ER low biopsies are shown in light blue, unknown status in white. Third row: tumor fraction, fraction of cfDNA originating from tumor, calculated using ichorcNA. Fourth row, median probability of ER positivity calculated by Griffin over 1000 bootstrap iterations. FIG. 10D is a receiver operating characteristic (ROC) curve of a logistic regression model predicting ER+ and ER- subtypes. ROC curves, accuracy and AUC are shown for all patients and for patients grouped by tumor fraction (TFx) between 0.05-0.1 and 0.1 or greater. 95% CI was obtained by bootstrapping. For patients with multiple samples, the first sample with tumor fraction >0.05 was used. FIG. 10E graphically illustrates the performance of the model on samples from the three validation cohorts. For patients with multiple time points, the first sample was used. Figure 10F graphically illustrates subtype prediction in patients separated by clinical metastatic ER status and clinical primary tumor ER status. P values were calculated using Fisher's exact test (2-sided). Figure 10G illustrates the ROC curve for predicting ER loss among patients with primary ER-positive tumors. 95% CI was obtained by bootstrapping. Figure 10H illustrates the time series for two patients (MBC1413 and MBC1099) with different subtypes and multiple cfDNA samples across multiple biopsies. ER+ predicted probability (thick grey line) and tumor fraction (thin grey line) for all cfDNA samples passing thresholds of tumor fraction >0.05 and 0.1x coverage are shown. The decision boundaries for ER+ (>0.5) and ER- (<0.5) are shown as dotted lines. Time series in months from metastatic diagnosis to death for each patient are shown. For patient MBC_1413, a metastatic biopsy (pleural fluid) was obtained on the day the metastasis was diagnosed and showed ER- disease. However, approximately 7 months later, another metastatic biopsy (liver) showed weak ER+ staining (5%). A final biopsy (pleural fluid) was obtained at approximately 12 months and again showed ER- staining. Plasma for cfDNA was removed between the second and third metastatic biopsies, with one final removal after the third biopsy. For patient MBC_1099, two ER- biopsies were obtained at 0 months (bone) and 7 months (liver). cfDNA was removed after this time point, but another biopsy (liver) showed the presence of low levels of ER+ disease between the two cfDNA removals. 図10A~10Hは、Griffinにより、超ローパスWGSから乳がんエストロゲン受容体亜型を正確に予測することが可能になることを例示する。図10A:ER+特異的オープンクロマチン部位およびER-特異的オープンクロマチン部位を、Cancer Genome Atlas(TCGA)におけるER+乳房腫瘍(n=44)およびER-乳房腫瘍(n=15)からのシーケンシング(ATAC-seq)データを使用したトランスポザーゼアクセシブルクロマチンについてのアッセイから選択した(Corces, M. R. et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018))。DESeq2ソフトウェア(Love, M.I., et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014))を使用して差分部位を同定して、各部位についてのq値およびlog2倍率変化を算出した。q値が5×10-4未満であり、log倍率変化が0.5を超えるまたは-0.5未満である部位を弁別的とみなした。図10Bは、ER+特異的部位(n=18,240)およびER-特異的部位(n=19,347)についての複合カバレッジプロファイル(中央値±IQR)を例示するものであり、臨床ER状況ごとに分けられたMBC患者(腫瘍割合が0.1以上)について示されている(ER+、n=50;ER-、n=51)。造血細胞と共有される部位はこの図から除外した(Satpathy, A. T. et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019))。図10Cは、腫瘍割合が0.10を超えるMBC患者101例に関する情報を示すcomut(Crowdis, J., He, M. X., Reardon, B. & Van Allen, E. M. CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020))プロットを例示する。一番上の行は、回帰モデルを訓練し、評定するために使用したER状況を示す。これは、大多数の患者についてはIHCによって得られた転移ER状況であり、転移ER状況が入手不可能な場合には原発ER状況を使用した。ER low(1~10%ER染色)はER陽性とみなした。二番目の行、左上向き三角形は原発ER状況を含有し、右下向き三角形は転移ER状況を含有する。ER low生検が淡青色で示されており、状況不明が白色で示されている。三番目の行:腫瘍割合、腫瘍を起源とするcfDNAの割合、ichorCNAを使用して算出されたもの。四番目の行、Griffinにより、1000回のブートストラップ反復にわたって算出されたER陽性の確率中央値。図10Dは、ER+亜型およびER-亜型を予測するロジスティック回帰モデルの受信者動作特性(ROC)曲線である。全ての患者について、および腫瘍割合(TFx)によって0.05~0.1と0.1以上に群分けした患者についてのROC曲線、正確度およびAUCが示されている。ブートストラッピングによって95%CIが得られた。複数の試料がある患者については、腫瘍割合が0.05を超える第1の試料を使用した。図10Eは、3つの検証コホートからの試料に対するモデルの性能をグラフで例示する。複数の時点がある患者については、第1の試料を使用した。図10Fは、臨床的転移ER状況と臨床的原発腫瘍ER状況とで分けられた患者における亜型予測をグラフで例示する。P値はフィッシャーの正確確率検定(両側)を使用して算出したものである。図10Gは、原発ER陽性腫瘍を有する患者の間でのER喪失を予測するためのROC曲線を例示する。ブートストラッピングによって95%CIが得られた。図10Hは、複数の生検で亜型が異なり、複数のcfDNA試料がある患者2例(MBC1413およびMBC1099)についての時系列を例示する。腫瘍割合>0.05および0.1×カバレッジの閾値を通過した全てのcfDNA試料についてのER+予測確率(太い灰色の線)、および腫瘍割合(細い灰色の線)が示されている。ER+(≧0.5)とER-(<0.5)の判定境界が点線で示されている。各患者についての転移診断から死亡までの月単位の時系列が示されている。患者MBC_1413については、転移生検材料(胸膜液)が転移が診断された日に取得され、ER-疾患が示された。しかし、およそ7カ月後、別の転移生検材料(肝臓)では弱いER+染色(5%)が示された。およそ12カ月の時点で最終的な生検材料(胸膜液)が取得され、再度ER-染色が示された。cfDNA用の血漿が第2の転移生検と第3の転移生検の間に取り出され、第3の生検後に最終的な取り出しが1回行われた。患者MBC_1099については、0カ月時点(骨)および7カ月時点(肝臓)の2回、ER-生検材料が取得された。cfDNAがこの時点の後に取り出されたが、この2回のcfDNA取り出しの間に、別の生検材料(肝臓)により、低レベルのER+疾患の存在が示された。Figures 10A-10H illustrate that Griffin enables accurate prediction of breast cancer estrogen receptor subtypes from ultra-low-pass WGS. Figure 10A: ER+ and ER-specific open chromatin sites were selected from an assay for transposase-accessible chromatin using sequencing (ATAC-seq) data from ER+ (n=44) and ER- (n=15) breast tumors in the Cancer Genome Atlas (TCGA) (Corces, MR et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018)). Differential sites were identified using DESeq2 software (Love, MI, et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014)) and the q-score and log2 fold change for each site were calculated. Sites with q-scores < 5x10-4 and log2 fold changes >0.5 or <-0.5 were considered differential. Figure 10B illustrates the combined coverage profile (median ± IQR) for ER+ (n=18,240) and ER- (n=19,347) specific sites, shown for MBC patients (tumor fraction ≥0.1) separated by clinical ER status (ER+, n=50; ER-, n=51). Sites shared with hematopoietic cells were excluded from this figure (Satpathy, AT et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019)). Figure 10C illustrates a coMut (Crowdis, J., He, MX, Reardon, B. & Van Allen, EM CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020)) plot showing information on 101 MBC patients with tumor fraction >0.10. The top row shows the ER status used to train and evaluate the regression model. This was the metastatic ER status obtained by IHC for the majority of patients, and primary ER status was used when metastatic ER status was unavailable. ER low (1-10% ER staining) was considered ER positive. Second row, left upward triangle contains primary ER status, right downward triangle contains metastatic ER status. ER low biopsies are shown in light blue, unknown status in white. Third row: tumor fraction, fraction of cfDNA originating from tumor, calculated using ichorcNA. Fourth row, median probability of ER positivity calculated by Griffin over 1000 bootstrap iterations. FIG. 10D is a receiver operating characteristic (ROC) curve of a logistic regression model predicting ER+ and ER- subtypes. ROC curves, accuracy and AUC are shown for all patients and for patients grouped by tumor fraction (TFx) between 0.05-0.1 and 0.1 or greater. 95% CI was obtained by bootstrapping. For patients with multiple samples, the first sample with tumor fraction >0.05 was used. FIG. 10E graphically illustrates the performance of the model on samples from the three validation cohorts. For patients with multiple time points, the first sample was used. Figure 10F graphically illustrates subtype prediction in patients separated by clinical metastatic ER status and clinical primary tumor ER status. P values were calculated using Fisher's exact test (2-sided). Figure 10G illustrates the ROC curve for predicting ER loss among patients with primary ER-positive tumors. 95% CI was obtained by bootstrapping. Figure 10H illustrates the time series for two patients (MBC1413 and MBC1099) with different subtypes and multiple cfDNA samples across multiple biopsies. ER+ predicted probability (thick grey line) and tumor fraction (thin grey line) for all cfDNA samples passing thresholds of tumor fraction >0.05 and 0.1x coverage are shown. The decision boundaries for ER+ (>0.5) and ER- (<0.5) are shown as dotted lines. Time series in months from metastatic diagnosis to death for each patient are shown. For patient MBC_1413, a metastatic biopsy (pleural fluid) was obtained on the day the metastasis was diagnosed and showed ER- disease. However, approximately 7 months later, another metastatic biopsy (liver) showed weak ER+ staining (5%). A final biopsy (pleural fluid) was obtained at approximately 12 months and again showed ER- staining. Plasma for cfDNA was removed between the second and third metastatic biopsies, with one final removal after the third biopsy. For patient MBC_1099, two ER- biopsies were obtained at 0 months (bone) and 7 months (liver). cfDNA was removed after this time point, but another biopsy (liver) showed the presence of low levels of ER+ disease between the two cfDNA removals. 図10A~10Hは、Griffinにより、超ローパスWGSから乳がんエストロゲン受容体亜型を正確に予測することが可能になることを例示する。図10A:ER+特異的オープンクロマチン部位およびER-特異的オープンクロマチン部位を、Cancer Genome Atlas(TCGA)におけるER+乳房腫瘍(n=44)およびER-乳房腫瘍(n=15)からのシーケンシング(ATAC-seq)データを使用したトランスポザーゼアクセシブルクロマチンについてのアッセイから選択した(Corces, M. R. et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018))。DESeq2ソフトウェア(Love, M.I., et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014))を使用して差分部位を同定して、各部位についてのq値およびlog2倍率変化を算出した。q値が5×10-4未満であり、log倍率変化が0.5を超えるまたは-0.5未満である部位を弁別的とみなした。図10Bは、ER+特異的部位(n=18,240)およびER-特異的部位(n=19,347)についての複合カバレッジプロファイル(中央値±IQR)を例示するものであり、臨床ER状況ごとに分けられたMBC患者(腫瘍割合が0.1以上)について示されている(ER+、n=50;ER-、n=51)。造血細胞と共有される部位はこの図から除外した(Satpathy, A. T. et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019))。図10Cは、腫瘍割合が0.10を超えるMBC患者101例に関する情報を示すcomut(Crowdis, J., He, M. X., Reardon, B. & Van Allen, E. M. CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020))プロットを例示する。一番上の行は、回帰モデルを訓練し、評定するために使用したER状況を示す。これは、大多数の患者についてはIHCによって得られた転移ER状況であり、転移ER状況が入手不可能な場合には原発ER状況を使用した。ER low(1~10%ER染色)はER陽性とみなした。二番目の行、左上向き三角形は原発ER状況を含有し、右下向き三角形は転移ER状況を含有する。ER low生検が淡青色で示されており、状況不明が白色で示されている。三番目の行:腫瘍割合、腫瘍を起源とするcfDNAの割合、ichorCNAを使用して算出されたもの。四番目の行、Griffinにより、1000回のブートストラップ反復にわたって算出されたER陽性の確率中央値。図10Dは、ER+亜型およびER-亜型を予測するロジスティック回帰モデルの受信者動作特性(ROC)曲線である。全ての患者について、および腫瘍割合(TFx)によって0.05~0.1と0.1以上に群分けした患者についてのROC曲線、正確度およびAUCが示されている。ブートストラッピングによって95%CIが得られた。複数の試料がある患者については、腫瘍割合が0.05を超える第1の試料を使用した。図10Eは、3つの検証コホートからの試料に対するモデルの性能をグラフで例示する。複数の時点がある患者については、第1の試料を使用した。図10Fは、臨床的転移ER状況と臨床的原発腫瘍ER状況とで分けられた患者における亜型予測をグラフで例示する。P値はフィッシャーの正確確率検定(両側)を使用して算出したものである。図10Gは、原発ER陽性腫瘍を有する患者の間でのER喪失を予測するためのROC曲線を例示する。ブートストラッピングによって95%CIが得られた。図10Hは、複数の生検で亜型が異なり、複数のcfDNA試料がある患者2例(MBC1413およびMBC1099)についての時系列を例示する。腫瘍割合>0.05および0.1×カバレッジの閾値を通過した全てのcfDNA試料についてのER+予測確率(太い灰色の線)、および腫瘍割合(細い灰色の線)が示されている。ER+(≧0.5)とER-(<0.5)の判定境界が点線で示されている。各患者についての転移診断から死亡までの月単位の時系列が示されている。患者MBC_1413については、転移生検材料(胸膜液)が転移が診断された日に取得され、ER-疾患が示された。しかし、およそ7カ月後、別の転移生検材料(肝臓)では弱いER+染色(5%)が示された。およそ12カ月の時点で最終的な生検材料(胸膜液)が取得され、再度ER-染色が示された。cfDNA用の血漿が第2の転移生検と第3の転移生検の間に取り出され、第3の生検後に最終的な取り出しが1回行われた。患者MBC_1099については、0カ月時点(骨)および7カ月時点(肝臓)の2回、ER-生検材料が取得された。cfDNAがこの時点の後に取り出されたが、この2回のcfDNA取り出しの間に、別の生検材料(肝臓)により、低レベルのER+疾患の存在が示された。Figures 10A-10H illustrate that Griffin enables accurate prediction of breast cancer estrogen receptor subtypes from ultra-low-pass WGS. Figure 10A: ER+ and ER-specific open chromatin sites were selected from an assay for transposase-accessible chromatin using sequencing (ATAC-seq) data from ER+ (n=44) and ER- (n=15) breast tumors in the Cancer Genome Atlas (TCGA) (Corces, MR et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018)). Differential sites were identified using DESeq2 software (Love, MI, et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014)) and the q-score and log2 fold change for each site were calculated. Sites with q-scores < 5x10-4 and log2 fold changes >0.5 or <-0.5 were considered differential. Figure 10B illustrates the combined coverage profile (median ± IQR) for ER+ (n=18,240) and ER- (n=19,347) specific sites, shown for MBC patients (tumor fraction ≥0.1) separated by clinical ER status (ER+, n=50; ER-, n=51). Sites shared with hematopoietic cells were excluded from this figure (Satpathy, AT et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019)). Figure 10C illustrates a coMut (Crowdis, J., He, MX, Reardon, B. & Van Allen, EM CoMut: visualizing integrated molecular information with comutation plots. Bioinformatics 36, 4348-4349 (2020)) plot showing information on 101 MBC patients with tumor fraction >0.10. The top row shows the ER status used to train and evaluate the regression model. This was the metastatic ER status obtained by IHC for the majority of patients, and primary ER status was used when metastatic ER status was unavailable. ER low (1-10% ER staining) was considered ER positive. Second row, left upward triangle contains primary ER status, right downward triangle contains metastatic ER status. ER low biopsies are shown in light blue, unknown status in white. Third row: tumor fraction, fraction of cfDNA originating from tumor, calculated using ichorcNA. Fourth row, median probability of ER positivity calculated by Griffin over 1000 bootstrap iterations. FIG. 10D is a receiver operating characteristic (ROC) curve of a logistic regression model predicting ER+ and ER- subtypes. ROC curves, accuracy and AUC are shown for all patients and for patients grouped by tumor fraction (TFx) between 0.05-0.1 and 0.1 or greater. 95% CI was obtained by bootstrapping. For patients with multiple samples, the first sample with tumor fraction >0.05 was used. FIG. 10E graphically illustrates the performance of the model on samples from the three validation cohorts. For patients with multiple time points, the first sample was used. Figure 10F graphically illustrates subtype prediction in patients separated by clinical metastatic ER status and clinical primary tumor ER status. P values were calculated using Fisher's exact test (2-sided). Figure 10G illustrates the ROC curve for predicting ER loss among patients with primary ER-positive tumors. 95% CI was obtained by bootstrapping. Figure 10H illustrates the time series for two patients (MBC1413 and MBC1099) with different subtypes and multiple cfDNA samples across multiple biopsies. ER+ predicted probability (thick grey line) and tumor fraction (thin grey line) for all cfDNA samples passing thresholds of tumor fraction >0.05 and 0.1x coverage are shown. The decision boundaries for ER+ (>0.5) and ER- (<0.5) are shown as dotted lines. Time series in months from metastatic diagnosis to death for each patient are shown. For patient MBC_1413, a metastatic biopsy (pleural fluid) was obtained on the day the metastasis was diagnosed and showed ER- disease. However, approximately 7 months later, another metastatic biopsy (liver) showed weak ER+ staining (5%). A final biopsy (pleural fluid) was obtained at approximately 12 months and again showed ER- staining. Plasma for cfDNA was removed between the second and third metastatic biopsies, with one final removal after the third biopsy. For patient MBC_1099, two ER- biopsies were obtained at 0 months (bone) and 7 months (liver). cfDNA was removed after this time point, but another biopsy (liver) showed the presence of low levels of ER+ disease between the two cfDNA removals.

図11Aおよび11Bは、PDXモデルからの相当する腫瘍およびリキッドバイオプシーにより、進行した前立腺がんを特徴付けるためのワークフローを例示する。図11Aの上のパネルは、AR陽性腺癌(ARPC)表現型、神経内分泌前立腺癌(NEPC)表現型およびAR-low非神経内分泌前立腺癌(ARLPC)表現型を有する転移性去勢抵抗性前立腺がん(mCRPC)を起源とする腫瘍を有する26例の患者由来異種移植(patient-derived xenograft)(PDX)マウスモデルから血液および組織試料を取得したことを例示する。セルフリーDNA(cfDNA)を7~10匹のマウスから収集されたプールされた血漿から抽出し、全ゲノムシーケンシング(WGS)を実施した。バイオインフォマティクスによるマウスリードの差し引き後、純粋なヒト循環腫瘍DNA(ctDNA)リードが残った。PDX組織から、ATAC-Seqおよびカットアンドラン(CUT&RUN)(H3K27ac、H3K4me1、およびH3K27me3を標的とする)データを生成した。図11Aの中央のパネルは、Griffinを使用し、ゲノム全体を通して転写因子結合部位(TFBS)およびオープンクロマチン部位において解析された2つの別個のctDNA特徴を例示する(実施例1およびDoebley et al.(2021). Griffin: Framework for clinical cancer subtyping from nucleosome profiling of cell-free DNA. MedRxiv 2021.08.31.21262867 and Methodsを参照されたい)。図11Aの右下のパネルは、3例の患者のコホートにおける159例の試料に適用した、ctDNA腫瘍含有量を考慮に入れ、また、PDX特徴による情報を得る確率モデルを使用した表現型分類を示す。図11Bは、PDX表現型およびマウス血漿のシーケンシングを例示する。マウスリード差し引き後の最終的な平均深度(3×カバレッジ未満は、AR座標増幅シグナルが確実に検出されるのでなければ除外した;下の点線)に基づく組み入れの状況。6例のNEPC、18例のARPC(2例は除外した)、および2例のARLPCを含む表現型状況。マウス差し引きの前後のカバレッジのアベレージ深度(平均カバレッジ20.5×;上の点線)。マウスリード差し引き後のヒトctDNAを含有するcfDNA試料のパーセンテージ。Figures 11A and 11B illustrate the workflow for characterizing advanced prostate cancer by corresponding tumors and liquid biopsies from PDX models. The top panel of Figure 11A illustrates blood and tissue samples obtained from 26 patient-derived xenograft (PDX) mouse models with tumors originating from metastatic castration-resistant prostate cancer (mCRPC) with AR-positive adenocarcinoma (ARPC), neuroendocrine prostate cancer (NEPC) and AR-low non-neuroendocrine prostate cancer (ARLPC) phenotypes. Cell-free DNA (cfDNA) was extracted from pooled plasma collected from 7-10 mice and whole genome sequencing (WGS) was performed. After bioinformatics subtraction of mouse reads, pure human circulating tumor DNA (ctDNA) reads remained. ATAC-Seq and CUT&RUN (targeting H3K27ac, H3K4me1, and H3K27me3) data were generated from PDX tissues. The middle panel of FIG. 11A illustrates two separate ctDNA features analyzed at transcription factor binding sites (TFBS) and open chromatin sites throughout the genome using Griffin (see Example 1 and Doebley et al. (2021). Griffin: Framework for clinical cancer subtyping from nucleosome profiling of cell-free DNA. MedRxiv 2021.08.31.21262867 and Methods). The bottom right panel of FIG. 11A shows phenotyping using a probability model that takes into account ctDNA tumor content and is informed by PDX features, applied to 159 samples in a cohort of three patients. 11B illustrates PDX phenotypes and sequencing of mouse plasma. Inclusion status based on final average depth after mouse read subtraction (less than 3x coverage was excluded unless AR coordinate amplification signal was reliably detected; lower dotted line). Phenotype status including 6 NEPC, 18 ARPC (2 excluded), and 2 ARLPC. Average depth of coverage before and after mouse subtraction (average coverage 20.5x; upper dotted line). Percentage of cfDNA samples containing human ctDNA after mouse read subtraction. 図11Aおよび11Bは、PDXモデルからの相当する腫瘍およびリキッドバイオプシーにより、進行した前立腺がんを特徴付けるためのワークフローを例示する。図11Aの上のパネルは、AR陽性腺癌(ARPC)表現型、神経内分泌前立腺癌(NEPC)表現型およびAR-low非神経内分泌前立腺癌(ARLPC)表現型を有する転移性去勢抵抗性前立腺がん(mCRPC)を起源とする腫瘍を有する26例の患者由来異種移植(patient-derived xenograft)(PDX)マウスモデルから血液および組織試料を取得したことを例示する。セルフリーDNA(cfDNA)を7~10匹のマウスから収集されたプールされた血漿から抽出し、全ゲノムシーケンシング(WGS)を実施した。バイオインフォマティクスによるマウスリードの差し引き後、純粋なヒト循環腫瘍DNA(ctDNA)リードが残った。PDX組織から、ATAC-Seqおよびカットアンドラン(CUT&RUN)(H3K27ac、H3K4me1、およびH3K27me3を標的とする)データを生成した。図11Aの中央のパネルは、Griffinを使用し、ゲノム全体を通して転写因子結合部位(TFBS)およびオープンクロマチン部位において解析された2つの別個のctDNA特徴を例示する(実施例1およびDoebley et al.(2021). Griffin: Framework for clinical cancer subtyping from nucleosome profiling of cell-free DNA. MedRxiv 2021.08.31.21262867 and Methodsを参照されたい)。図11Aの右下のパネルは、3例の患者のコホートにおける159例の試料に適用した、ctDNA腫瘍含有量を考慮に入れ、また、PDX特徴による情報を得る確率モデルを使用した表現型分類を示す。図11Bは、PDX表現型およびマウス血漿のシーケンシングを例示する。マウスリード差し引き後の最終的な平均深度(3×カバレッジ未満は、AR座標増幅シグナルが確実に検出されるのでなければ除外した;下の点線)に基づく組み入れの状況。6例のNEPC、18例のARPC(2例は除外した)、および2例のARLPCを含む表現型状況。マウス差し引きの前後のカバレッジのアベレージ深度(平均カバレッジ20.5×;上の点線)。マウスリード差し引き後のヒトctDNAを含有するcfDNA試料のパーセンテージ。Figures 11A and 11B illustrate the workflow for characterizing advanced prostate cancer by corresponding tumors and liquid biopsies from PDX models. The top panel of Figure 11A illustrates blood and tissue samples obtained from 26 patient-derived xenograft (PDX) mouse models with tumors originating from metastatic castration-resistant prostate cancer (mCRPC) with AR-positive adenocarcinoma (ARPC), neuroendocrine prostate cancer (NEPC) and AR-low non-neuroendocrine prostate cancer (ARLPC) phenotypes. Cell-free DNA (cfDNA) was extracted from pooled plasma collected from 7-10 mice and whole genome sequencing (WGS) was performed. After bioinformatics subtraction of mouse reads, pure human circulating tumor DNA (ctDNA) reads remained. ATAC-Seq and CUT&RUN (targeting H3K27ac, H3K4me1, and H3K27me3) data were generated from PDX tissues. The middle panel of FIG. 11A illustrates two separate ctDNA features analyzed at transcription factor binding sites (TFBS) and open chromatin sites throughout the genome using Griffin (see Example 1 and Doebley et al. (2021). Griffin: Framework for clinical cancer subtyping from nucleosome profiling of cell-free DNA. MedRxiv 2021.08.31.21262867 and Methods). The bottom right panel of FIG. 11A shows phenotyping using a probability model that takes into account ctDNA tumor content and is informed by PDX features, applied to 159 samples in a cohort of three patients. 11B illustrates PDX phenotypes and sequencing of mouse plasma. Inclusion status based on final average depth after mouse read subtraction (less than 3x coverage was excluded unless AR coordinate amplification signal was reliably detected; lower dotted line). Phenotype status including 6 NEPC, 18 ARPC (2 excluded), and 2 ARLPC. Average depth of coverage before and after mouse subtraction (average coverage 20.5x; upper dotted line). Percentage of cfDNA samples containing human ctDNA after mouse read subtraction. 図11Aおよび11Bは、PDXモデルからの相当する腫瘍およびリキッドバイオプシーにより、進行した前立腺がんを特徴付けるためのワークフローを例示する。図11Aの上のパネルは、AR陽性腺癌(ARPC)表現型、神経内分泌前立腺癌(NEPC)表現型およびAR-low非神経内分泌前立腺癌(ARLPC)表現型を有する転移性去勢抵抗性前立腺がん(mCRPC)を起源とする腫瘍を有する26例の患者由来異種移植(patient-derived xenograft)(PDX)マウスモデルから血液および組織試料を取得したことを例示する。セルフリーDNA(cfDNA)を7~10匹のマウスから収集されたプールされた血漿から抽出し、全ゲノムシーケンシング(WGS)を実施した。バイオインフォマティクスによるマウスリードの差し引き後、純粋なヒト循環腫瘍DNA(ctDNA)リードが残った。PDX組織から、ATAC-Seqおよびカットアンドラン(CUT&RUN)(H3K27ac、H3K4me1、およびH3K27me3を標的とする)データを生成した。図11Aの中央のパネルは、Griffinを使用し、ゲノム全体を通して転写因子結合部位(TFBS)およびオープンクロマチン部位において解析された2つの別個のctDNA特徴を例示する(実施例1およびDoebley et al.(2021). Griffin: Framework for clinical cancer subtyping from nucleosome profiling of cell-free DNA. MedRxiv 2021.08.31.21262867 and Methodsを参照されたい)。図11Aの右下のパネルは、3例の患者のコホートにおける159例の試料に適用した、ctDNA腫瘍含有量を考慮に入れ、また、PDX特徴による情報を得る確率モデルを使用した表現型分類を示す。図11Bは、PDX表現型およびマウス血漿のシーケンシングを例示する。マウスリード差し引き後の最終的な平均深度(3×カバレッジ未満は、AR座標増幅シグナルが確実に検出されるのでなければ除外した;下の点線)に基づく組み入れの状況。6例のNEPC、18例のARPC(2例は除外した)、および2例のARLPCを含む表現型状況。マウス差し引きの前後のカバレッジのアベレージ深度(平均カバレッジ20.5×;上の点線)。マウスリード差し引き後のヒトctDNAを含有するcfDNA試料のパーセンテージ。Figures 11A and 11B illustrate the workflow for characterizing advanced prostate cancer by corresponding tumors and liquid biopsies from PDX models. The top panel of Figure 11A illustrates blood and tissue samples obtained from 26 patient-derived xenograft (PDX) mouse models with tumors originating from metastatic castration-resistant prostate cancer (mCRPC) with AR-positive adenocarcinoma (ARPC), neuroendocrine prostate cancer (NEPC) and AR-low non-neuroendocrine prostate cancer (ARLPC) phenotypes. Cell-free DNA (cfDNA) was extracted from pooled plasma collected from 7-10 mice and whole genome sequencing (WGS) was performed. After bioinformatics subtraction of mouse reads, pure human circulating tumor DNA (ctDNA) reads remained. ATAC-Seq and CUT&RUN (targeting H3K27ac, H3K4me1, and H3K27me3) data were generated from PDX tissues. The middle panel of FIG. 11A illustrates two separate ctDNA features analyzed at transcription factor binding sites (TFBS) and open chromatin sites throughout the genome using Griffin (see Example 1 and Doebley et al. (2021). Griffin: Framework for clinical cancer subtyping from nucleosome profiling of cell-free DNA. MedRxiv 2021.08.31.21262867 and Methods). The bottom right panel of FIG. 11A shows phenotyping using a probability model that takes into account ctDNA tumor content and is informed by PDX features, applied to 159 samples in a cohort of three patients. 11B illustrates PDX phenotypes and sequencing of mouse plasma. Inclusion status based on final average depth after mouse read subtraction (less than 3x coverage was excluded unless AR coordinate amplification signal was reliably detected; lower dotted line). Phenotype status including 6 NEPC, 18 ARPC (2 excluded), and 2 ARLPC. Average depth of coverage before and after mouse subtraction (average coverage 20.5x; upper dotted line). Percentage of cfDNA samples containing human ctDNA after mouse read subtraction.

図12A~12Gは、腫瘍ヒストン修飾およびctDNAの解析により、CRPC表現型特異的遺伝子における転写調節と一致するヌクレオソームパターンが明らかになったことを例示する。図12Aは、10,000カ所のAR結合部位(左)およびASCL1結合部位(右)における、ARLPC、ARPC、およびNEPC PDX腫瘍表現型の間のH3K27acピークシグナルを例示する。結合部位はGTRD(Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105)から選択した(方法)。図12Bおよび12Cは、Griffinを使用して解析した、ctDNAにおける1000カ所のAR結合部位(12B)およびASCL1結合部位(12C)における複合カバレッジプロファイルをグラフで例示する。カバレッジプロファイル平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。領域±150bpが垂直の点線および黄色の陰影で示されている。図12Dは、翻訳レベルを指令するヒストン修飾の型によって群分けされた、RNA-Seqによって確立されたARPCとNEPCの間で上方調節される重要な遺伝子および下方調節される重要な遺伝子におけるlog倍率変化のヒートマップである(左):群1は、主なPTMマークが遺伝子プロモーターまたは推定遠位エンハンサーにおけるH3K27acまたはH3K4me1活性マークに起因し、遺伝子の転写領域内(gene body)におけるH3K27me3ヘテロクロマチンマークを欠く遺伝子を示す;群2は、遺伝子の転写領域内に及ぶH3K27me3抑制マークを特色とする。中央の列は、各遺伝子の上流、プロモーターまたは転写領域内のいずれに出現したかによって分けられた、アッセイしたヒストン修飾のそれぞれについてのピーク強度の相違を示す。右側に、TSS+/-1KBウインドウおよびそれぞれの遺伝子の転写領域内について、ARPC系統とNEPC系統の間の断片サイズの変動係数(CV)のlog倍率変化が示されている。図12Eは、47種の表現型系統マーカー遺伝子のプロモーター領域における平均mRNA発現と平均変動係数(CV)のlog倍率変化(ARPC対NEPC)の比較をグラフで例示する。図12F(上)は、それぞれ活発な転写および活発でない転写を導くH3K27ac修飾またはH3K4me1修飾を有するまたは有さない群1遺伝子についての予測されるctDNAカバレッジプロファイルの実例を提示する。図12F(下)ARPCおよびNEPCにおける±1000bpの周囲のARおよびASCL1のプロモーター領域。カバレッジプロファイルの平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。カバレッジの減少は、ヌクレオソームアクセシビリティの増加、したがって、転写の増加を反映する。点線および黄色の陰影により、転写開始部位(TSS)の周囲の(TSS-230bp~+170bp)限局的なウインドウが強調される。図12Gは、遺伝子の転写領域内におけるH3K27me3修飾によって引き起こされる転写の抑制を伴う群2遺伝子についての予測されるctDNAカバレッジプロファイルの実例である。ニューロン遺伝子UNC13Aは、ARPC試料のctDNAにおいてNEPCと比較してヌクレオソーム段階化の増加を有する。Figures 12A-12G illustrate that analysis of tumor histone modifications and ctDNA revealed nucleosomal patterns consistent with transcriptional regulation in CRPC phenotype-specific genes. Figure 12A illustrates H3K27ac peak signals across 10,000 AR binding sites (left) and ASCL1 binding sites (right) among ARLPC, ARPC, and NEPC PDX tumor phenotypes. Binding sites were selected from GTRD (Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105) (Methods). Figures 12B and 12C graphically illustrate the combined coverage profile across 1000 AR binding sites (12B) and ASCL1 binding sites (12C) in ctDNA analyzed using Griffin. Coverage profile means (lines) and 95% confidence intervals (shading) using 1000 bootstraps are shown. Regions ±150 bp are indicated with vertical dotted lines and yellow shading. Figure 12D is a heatmap of log2 fold changes in key up- and down-regulated genes between ARPC and NEPC established by RNA-Seq, grouped by the type of histone modification that dictates translation levels (left): group 1 shows genes where the predominant PTM marks are due to H3K27ac or H3K4me1 active marks at gene promoters or putative distal enhancers, and lack H3K27me3 heterochromatin marks within the transcribed region of the gene (gene body); group 2 features H3K27me3 repressive marks that extend within the transcribed region of the gene. The middle column shows the difference in peak intensity for each of the histone modifications assayed, separated by whether they appeared upstream, in the promoter or in the transcribed region of each gene. On the right, the log 2 fold change in coefficient of variation (CV) of fragment sizes between ARPC and NEPC lines is shown for the TSS +/- 1 KB window and within the transcribed region of each gene. Figure 12E graphically illustrates a comparison of the log 2 fold change in mean mRNA expression and mean coefficient of variation (CV) in the promoter regions of 47 phenotypic lineage marker genes (ARPC vs. NEPC). Figure 12F (top) presents an example of the predicted ctDNA coverage profile for group 1 genes with or without H3K27ac or H3K4me1 modifications that guide active and inactive transcription, respectively. Figure 12F (bottom) ±1000 bp surrounding the promoter regions of AR and ASCL1 in ARPC and NEPC. The coverage profile mean (line) and 95% confidence interval (shading) with 1000 bootstraps are shown. A decrease in coverage reflects increased nucleosome accessibility and therefore increased transcription. The dotted line and yellow shading highlight a confined window around the transcription start site (TSS) (TSS-230bp to +170bp). Figure 12G is an illustration of a predicted ctDNA coverage profile for group 2 genes with repression of transcription caused by H3K27me3 modification within the transcribed region of the gene. The neuronal gene UNC13A has increased nucleosome staging in ctDNA of ARPC samples compared to NEPC. 図12A~12Gは、腫瘍ヒストン修飾およびctDNAの解析により、CRPC表現型特異的遺伝子における転写調節と一致するヌクレオソームパターンが明らかになったことを例示する。図12Aは、10,000カ所のAR結合部位(左)およびASCL1結合部位(右)における、ARLPC、ARPC、およびNEPC PDX腫瘍表現型の間のH3K27acピークシグナルを例示する。結合部位はGTRD(Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105)から選択した(方法)。図12Bおよび12Cは、Griffinを使用して解析した、ctDNAにおける1000カ所のAR結合部位(12B)およびASCL1結合部位(12C)における複合カバレッジプロファイルをグラフで例示する。カバレッジプロファイル平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。領域±150bpが垂直の点線および黄色の陰影で示されている。図12Dは、翻訳レベルを指令するヒストン修飾の型によって群分けされた、RNA-Seqによって確立されたARPCとNEPCの間で上方調節される重要な遺伝子および下方調節される重要な遺伝子におけるlog倍率変化のヒートマップである(左):群1は、主なPTMマークが遺伝子プロモーターまたは推定遠位エンハンサーにおけるH3K27acまたはH3K4me1活性マークに起因し、遺伝子の転写領域内(gene body)におけるH3K27me3ヘテロクロマチンマークを欠く遺伝子を示す;群2は、遺伝子の転写領域内に及ぶH3K27me3抑制マークを特色とする。中央の列は、各遺伝子の上流、プロモーターまたは転写領域内のいずれに出現したかによって分けられた、アッセイしたヒストン修飾のそれぞれについてのピーク強度の相違を示す。右側に、TSS+/-1KBウインドウおよびそれぞれの遺伝子の転写領域内について、ARPC系統とNEPC系統の間の断片サイズの変動係数(CV)のlog倍率変化が示されている。図12Eは、47種の表現型系統マーカー遺伝子のプロモーター領域における平均mRNA発現と平均変動係数(CV)のlog倍率変化(ARPC対NEPC)の比較をグラフで例示する。図12F(上)は、それぞれ活発な転写および活発でない転写を導くH3K27ac修飾またはH3K4me1修飾を有するまたは有さない群1遺伝子についての予測されるctDNAカバレッジプロファイルの実例を提示する。図12F(下)ARPCおよびNEPCにおける±1000bpの周囲のARおよびASCL1のプロモーター領域。カバレッジプロファイルの平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。カバレッジの減少は、ヌクレオソームアクセシビリティの増加、したがって、転写の増加を反映する。点線および黄色の陰影により、転写開始部位(TSS)の周囲の(TSS-230bp~+170bp)限局的なウインドウが強調される。図12Gは、遺伝子の転写領域内におけるH3K27me3修飾によって引き起こされる転写の抑制を伴う群2遺伝子についての予測されるctDNAカバレッジプロファイルの実例である。ニューロン遺伝子UNC13Aは、ARPC試料のctDNAにおいてNEPCと比較してヌクレオソーム段階化の増加を有する。Figures 12A-12G illustrate that analysis of tumor histone modifications and ctDNA revealed nucleosomal patterns consistent with transcriptional regulation in CRPC phenotype-specific genes. Figure 12A illustrates H3K27ac peak signals across 10,000 AR binding sites (left) and ASCL1 binding sites (right) among ARLPC, ARPC, and NEPC PDX tumor phenotypes. Binding sites were selected from GTRD (Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105) (Methods). Figures 12B and 12C graphically illustrate the combined coverage profile across 1000 AR binding sites (12B) and ASCL1 binding sites (12C) in ctDNA analyzed using Griffin. Coverage profile means (lines) and 95% confidence intervals (shading) using 1000 bootstraps are shown. Regions ±150 bp are indicated with vertical dotted lines and yellow shading. Figure 12D is a heatmap of log2 fold changes in key up- and down-regulated genes between ARPC and NEPC established by RNA-Seq, grouped by the type of histone modification that dictates translation levels (left): group 1 shows genes where the predominant PTM marks are due to H3K27ac or H3K4me1 active marks at gene promoters or putative distal enhancers, and lack H3K27me3 heterochromatin marks within the transcribed region of the gene (gene body); group 2 features H3K27me3 repressive marks that extend within the transcribed region of the gene. The middle column shows the difference in peak intensity for each of the histone modifications assayed, separated by whether they appeared upstream, in the promoter or in the transcribed region of each gene. On the right, the log 2 fold change in coefficient of variation (CV) of fragment sizes between ARPC and NEPC lines is shown for the TSS +/- 1 KB window and within the transcribed region of each gene. Figure 12E graphically illustrates a comparison of the log 2 fold change in mean mRNA expression and mean coefficient of variation (CV) in the promoter regions of 47 phenotypic lineage marker genes (ARPC vs. NEPC). Figure 12F (top) presents an example of the predicted ctDNA coverage profile for group 1 genes with or without H3K27ac or H3K4me1 modifications that guide active and inactive transcription, respectively. Figure 12F (bottom) ±1000 bp surrounding the promoter regions of AR and ASCL1 in ARPC and NEPC. The coverage profile mean (line) and 95% confidence interval (shading) with 1000 bootstraps are shown. A decrease in coverage reflects increased nucleosome accessibility and therefore increased transcription. The dotted line and yellow shading highlight a confined window around the transcription start site (TSS) (TSS-230bp to +170bp). Figure 12G is an illustration of a predicted ctDNA coverage profile for group 2 genes with repression of transcription caused by H3K27me3 modification within the transcribed region of the gene. The neuronal gene UNC13A has increased nucleosome staging in ctDNA of ARPC samples compared to NEPC. 図12A~12Gは、腫瘍ヒストン修飾およびctDNAの解析により、CRPC表現型特異的遺伝子における転写調節と一致するヌクレオソームパターンが明らかになったことを例示する。図12Aは、10,000カ所のAR結合部位(左)およびASCL1結合部位(右)における、ARLPC、ARPC、およびNEPC PDX腫瘍表現型の間のH3K27acピークシグナルを例示する。結合部位はGTRD(Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105)から選択した(方法)。図12Bおよび12Cは、Griffinを使用して解析した、ctDNAにおける1000カ所のAR結合部位(12B)およびASCL1結合部位(12C)における複合カバレッジプロファイルをグラフで例示する。カバレッジプロファイル平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。領域±150bpが垂直の点線および黄色の陰影で示されている。図12Dは、翻訳レベルを指令するヒストン修飾の型によって群分けされた、RNA-Seqによって確立されたARPCとNEPCの間で上方調節される重要な遺伝子および下方調節される重要な遺伝子におけるlog倍率変化のヒートマップである(左):群1は、主なPTMマークが遺伝子プロモーターまたは推定遠位エンハンサーにおけるH3K27acまたはH3K4me1活性マークに起因し、遺伝子の転写領域内(gene body)におけるH3K27me3ヘテロクロマチンマークを欠く遺伝子を示す;群2は、遺伝子の転写領域内に及ぶH3K27me3抑制マークを特色とする。中央の列は、各遺伝子の上流、プロモーターまたは転写領域内のいずれに出現したかによって分けられた、アッセイしたヒストン修飾のそれぞれについてのピーク強度の相違を示す。右側に、TSS+/-1KBウインドウおよびそれぞれの遺伝子の転写領域内について、ARPC系統とNEPC系統の間の断片サイズの変動係数(CV)のlog倍率変化が示されている。図12Eは、47種の表現型系統マーカー遺伝子のプロモーター領域における平均mRNA発現と平均変動係数(CV)のlog倍率変化(ARPC対NEPC)の比較をグラフで例示する。図12F(上)は、それぞれ活発な転写および活発でない転写を導くH3K27ac修飾またはH3K4me1修飾を有するまたは有さない群1遺伝子についての予測されるctDNAカバレッジプロファイルの実例を提示する。図12F(下)ARPCおよびNEPCにおける±1000bpの周囲のARおよびASCL1のプロモーター領域。カバレッジプロファイルの平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。カバレッジの減少は、ヌクレオソームアクセシビリティの増加、したがって、転写の増加を反映する。点線および黄色の陰影により、転写開始部位(TSS)の周囲の(TSS-230bp~+170bp)限局的なウインドウが強調される。図12Gは、遺伝子の転写領域内におけるH3K27me3修飾によって引き起こされる転写の抑制を伴う群2遺伝子についての予測されるctDNAカバレッジプロファイルの実例である。ニューロン遺伝子UNC13Aは、ARPC試料のctDNAにおいてNEPCと比較してヌクレオソーム段階化の増加を有する。Figures 12A-12G illustrate that analysis of tumor histone modifications and ctDNA revealed nucleosomal patterns consistent with transcriptional regulation in CRPC phenotype-specific genes. Figure 12A illustrates H3K27ac peak signals across 10,000 AR binding sites (left) and ASCL1 binding sites (right) among ARLPC, ARPC, and NEPC PDX tumor phenotypes. Binding sites were selected from GTRD (Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105) (Methods). Figures 12B and 12C graphically illustrate the combined coverage profile across 1000 AR binding sites (12B) and ASCL1 binding sites (12C) in ctDNA analyzed using Griffin. Coverage profile means (lines) and 95% confidence intervals (shading) using 1000 bootstraps are shown. Regions ±150 bp are indicated with vertical dotted lines and yellow shading. Figure 12D is a heatmap of log2 fold changes in key up- and down-regulated genes between ARPC and NEPC established by RNA-Seq, grouped by the type of histone modification that dictates translation levels (left): group 1 shows genes where the predominant PTM marks are due to H3K27ac or H3K4me1 active marks at gene promoters or putative distal enhancers, and lack H3K27me3 heterochromatin marks within the transcribed region of the gene (gene body); group 2 features H3K27me3 repressive marks that extend within the transcribed region of the gene. The middle column shows the difference in peak intensity for each of the histone modifications assayed, separated by whether they appeared upstream, in the promoter or in the transcribed region of each gene. On the right, the log 2 fold change in coefficient of variation (CV) of fragment sizes between ARPC and NEPC lines is shown for the TSS +/- 1 KB window and within the transcribed region of each gene. Figure 12E graphically illustrates a comparison of the log 2 fold change in mean mRNA expression and mean coefficient of variation (CV) in the promoter regions of 47 phenotypic lineage marker genes (ARPC vs. NEPC). Figure 12F (top) presents an example of the predicted ctDNA coverage profile for group 1 genes with or without H3K27ac or H3K4me1 modifications that guide active and inactive transcription, respectively. Figure 12F (bottom) ±1000 bp surrounding the promoter regions of AR and ASCL1 in ARPC and NEPC. The coverage profile mean (line) and 95% confidence interval (shading) with 1000 bootstraps are shown. A decrease in coverage reflects increased nucleosome accessibility and therefore increased transcription. The dotted line and yellow shading highlight a confined window around the transcription start site (TSS) (TSS-230bp to +170bp). Figure 12G is an illustration of a predicted ctDNA coverage profile for group 2 genes with repression of transcription caused by H3K27me3 modification within the transcribed region of the gene. The neuronal gene UNC13A has increased nucleosome staging in ctDNA of ARPC samples compared to NEPC. 図12A~12Gは、腫瘍ヒストン修飾およびctDNAの解析により、CRPC表現型特異的遺伝子における転写調節と一致するヌクレオソームパターンが明らかになったことを例示する。図12Aは、10,000カ所のAR結合部位(左)およびASCL1結合部位(右)における、ARLPC、ARPC、およびNEPC PDX腫瘍表現型の間のH3K27acピークシグナルを例示する。結合部位はGTRD(Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105)から選択した(方法)。図12Bおよび12Cは、Griffinを使用して解析した、ctDNAにおける1000カ所のAR結合部位(12B)およびASCL1結合部位(12C)における複合カバレッジプロファイルをグラフで例示する。カバレッジプロファイル平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。領域±150bpが垂直の点線および黄色の陰影で示されている。図12Dは、翻訳レベルを指令するヒストン修飾の型によって群分けされた、RNA-Seqによって確立されたARPCとNEPCの間で上方調節される重要な遺伝子および下方調節される重要な遺伝子におけるlog倍率変化のヒートマップである(左):群1は、主なPTMマークが遺伝子プロモーターまたは推定遠位エンハンサーにおけるH3K27acまたはH3K4me1活性マークに起因し、遺伝子の転写領域内(gene body)におけるH3K27me3ヘテロクロマチンマークを欠く遺伝子を示す;群2は、遺伝子の転写領域内に及ぶH3K27me3抑制マークを特色とする。中央の列は、各遺伝子の上流、プロモーターまたは転写領域内のいずれに出現したかによって分けられた、アッセイしたヒストン修飾のそれぞれについてのピーク強度の相違を示す。右側に、TSS+/-1KBウインドウおよびそれぞれの遺伝子の転写領域内について、ARPC系統とNEPC系統の間の断片サイズの変動係数(CV)のlog倍率変化が示されている。図12Eは、47種の表現型系統マーカー遺伝子のプロモーター領域における平均mRNA発現と平均変動係数(CV)のlog倍率変化(ARPC対NEPC)の比較をグラフで例示する。図12F(上)は、それぞれ活発な転写および活発でない転写を導くH3K27ac修飾またはH3K4me1修飾を有するまたは有さない群1遺伝子についての予測されるctDNAカバレッジプロファイルの実例を提示する。図12F(下)ARPCおよびNEPCにおける±1000bpの周囲のARおよびASCL1のプロモーター領域。カバレッジプロファイルの平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。カバレッジの減少は、ヌクレオソームアクセシビリティの増加、したがって、転写の増加を反映する。点線および黄色の陰影により、転写開始部位(TSS)の周囲の(TSS-230bp~+170bp)限局的なウインドウが強調される。図12Gは、遺伝子の転写領域内におけるH3K27me3修飾によって引き起こされる転写の抑制を伴う群2遺伝子についての予測されるctDNAカバレッジプロファイルの実例である。ニューロン遺伝子UNC13Aは、ARPC試料のctDNAにおいてNEPCと比較してヌクレオソーム段階化の増加を有する。Figures 12A-12G illustrate that analysis of tumor histone modifications and ctDNA revealed nucleosomal patterns consistent with transcriptional regulation in CRPC phenotype-specific genes. Figure 12A illustrates H3K27ac peak signals across 10,000 AR binding sites (left) and ASCL1 binding sites (right) among ARLPC, ARPC, and NEPC PDX tumor phenotypes. Binding sites were selected from GTRD (Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105) (Methods). Figures 12B and 12C graphically illustrate the combined coverage profile across 1000 AR binding sites (12B) and ASCL1 binding sites (12C) in ctDNA analyzed using Griffin. Coverage profile means (lines) and 95% confidence intervals (shading) using 1000 bootstraps are shown. Regions ±150 bp are indicated with vertical dotted lines and yellow shading. Figure 12D is a heatmap of log2 fold changes in key up- and down-regulated genes between ARPC and NEPC established by RNA-Seq, grouped by the type of histone modification that dictates translation levels (left): group 1 shows genes where the predominant PTM marks are due to H3K27ac or H3K4me1 active marks at gene promoters or putative distal enhancers, and lack H3K27me3 heterochromatin marks within the transcribed region of the gene (gene body); group 2 features H3K27me3 repressive marks that extend within the transcribed region of the gene. The middle column shows the difference in peak intensity for each of the histone modifications assayed, separated by whether they appeared upstream, in the promoter or in the transcribed region of each gene. On the right, the log 2 fold change in coefficient of variation (CV) of fragment sizes between ARPC and NEPC lines is shown for the TSS +/- 1 KB window and within the transcribed region of each gene. Figure 12E graphically illustrates a comparison of the log 2 fold change in mean mRNA expression and mean coefficient of variation (CV) in the promoter regions of 47 phenotypic lineage marker genes (ARPC vs. NEPC). Figure 12F (top) presents an example of the predicted ctDNA coverage profile for group 1 genes with or without H3K27ac or H3K4me1 modifications that guide active and inactive transcription, respectively. Figure 12F (bottom) ±1000 bp surrounding the promoter regions of AR and ASCL1 in ARPC and NEPC. The coverage profile mean (line) and 95% confidence interval (shading) with 1000 bootstraps are shown. A decrease in coverage reflects increased nucleosome accessibility and therefore increased transcription. The dotted line and yellow shading highlight a confined window around the transcription start site (TSS) (TSS-230bp to +170bp). Figure 12G is an illustration of a predicted ctDNA coverage profile for group 2 genes with repression of transcription caused by H3K27me3 modification within the transcribed region of the gene. The neuronal gene UNC13A has increased nucleosome staging in ctDNA of ARPC samples compared to NEPC. 図12A~12Gは、腫瘍ヒストン修飾およびctDNAの解析により、CRPC表現型特異的遺伝子における転写調節と一致するヌクレオソームパターンが明らかになったことを例示する。図12Aは、10,000カ所のAR結合部位(左)およびASCL1結合部位(右)における、ARLPC、ARPC、およびNEPC PDX腫瘍表現型の間のH3K27acピークシグナルを例示する。結合部位はGTRD(Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105)から選択した(方法)。図12Bおよび12Cは、Griffinを使用して解析した、ctDNAにおける1000カ所のAR結合部位(12B)およびASCL1結合部位(12C)における複合カバレッジプロファイルをグラフで例示する。カバレッジプロファイル平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。領域±150bpが垂直の点線および黄色の陰影で示されている。図12Dは、翻訳レベルを指令するヒストン修飾の型によって群分けされた、RNA-Seqによって確立されたARPCとNEPCの間で上方調節される重要な遺伝子および下方調節される重要な遺伝子におけるlog倍率変化のヒートマップである(左):群1は、主なPTMマークが遺伝子プロモーターまたは推定遠位エンハンサーにおけるH3K27acまたはH3K4me1活性マークに起因し、遺伝子の転写領域内(gene body)におけるH3K27me3ヘテロクロマチンマークを欠く遺伝子を示す;群2は、遺伝子の転写領域内に及ぶH3K27me3抑制マークを特色とする。中央の列は、各遺伝子の上流、プロモーターまたは転写領域内のいずれに出現したかによって分けられた、アッセイしたヒストン修飾のそれぞれについてのピーク強度の相違を示す。右側に、TSS+/-1KBウインドウおよびそれぞれの遺伝子の転写領域内について、ARPC系統とNEPC系統の間の断片サイズの変動係数(CV)のlog倍率変化が示されている。図12Eは、47種の表現型系統マーカー遺伝子のプロモーター領域における平均mRNA発現と平均変動係数(CV)のlog倍率変化(ARPC対NEPC)の比較をグラフで例示する。図12F(上)は、それぞれ活発な転写および活発でない転写を導くH3K27ac修飾またはH3K4me1修飾を有するまたは有さない群1遺伝子についての予測されるctDNAカバレッジプロファイルの実例を提示する。図12F(下)ARPCおよびNEPCにおける±1000bpの周囲のARおよびASCL1のプロモーター領域。カバレッジプロファイルの平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。カバレッジの減少は、ヌクレオソームアクセシビリティの増加、したがって、転写の増加を反映する。点線および黄色の陰影により、転写開始部位(TSS)の周囲の(TSS-230bp~+170bp)限局的なウインドウが強調される。図12Gは、遺伝子の転写領域内におけるH3K27me3修飾によって引き起こされる転写の抑制を伴う群2遺伝子についての予測されるctDNAカバレッジプロファイルの実例である。ニューロン遺伝子UNC13Aは、ARPC試料のctDNAにおいてNEPCと比較してヌクレオソーム段階化の増加を有する。Figures 12A-12G illustrate that analysis of tumor histone modifications and ctDNA revealed nucleosomal patterns consistent with transcriptional regulation in CRPC phenotype-specific genes. Figure 12A illustrates H3K27ac peak signals across 10,000 AR binding sites (left) and ASCL1 binding sites (right) among ARLPC, ARPC, and NEPC PDX tumor phenotypes. Binding sites were selected from GTRD (Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105) (Methods). Figures 12B and 12C graphically illustrate the combined coverage profile across 1000 AR binding sites (12B) and ASCL1 binding sites (12C) in ctDNA analyzed using Griffin. Coverage profile means (lines) and 95% confidence intervals (shading) using 1000 bootstraps are shown. Regions ±150 bp are indicated with vertical dotted lines and yellow shading. Figure 12D is a heatmap of log2 fold changes in key up- and down-regulated genes between ARPC and NEPC established by RNA-Seq, grouped by the type of histone modification that dictates translation levels (left): group 1 shows genes where the predominant PTM marks are due to H3K27ac or H3K4me1 active marks at gene promoters or putative distal enhancers, and lack H3K27me3 heterochromatin marks within the transcribed region of the gene (gene body); group 2 features H3K27me3 repressive marks that extend within the transcribed region of the gene. The middle column shows the difference in peak intensity for each of the histone modifications assayed, separated by whether they appeared upstream, in the promoter or in the transcribed region of each gene. On the right, the log 2 fold change in coefficient of variation (CV) of fragment sizes between ARPC and NEPC lines is shown for the TSS +/- 1 KB window and within the transcribed region of each gene. Figure 12E graphically illustrates a comparison of the log 2 fold change in mean mRNA expression and mean coefficient of variation (CV) in the promoter regions of 47 phenotypic lineage marker genes (ARPC vs. NEPC). Figure 12F (top) presents an example of the predicted ctDNA coverage profile for group 1 genes with or without H3K27ac or H3K4me1 modifications that guide active and inactive transcription, respectively. Figure 12F (bottom) ±1000 bp surrounding the promoter regions of AR and ASCL1 in ARPC and NEPC. The coverage profile mean (line) and 95% confidence interval (shading) with 1000 bootstraps are shown. A decrease in coverage reflects increased nucleosome accessibility and therefore increased transcription. The dotted line and yellow shading highlight a confined window around the transcription start site (TSS) (TSS-230bp to +170bp). Figure 12G is an illustration of a predicted ctDNA coverage profile for group 2 genes with repression of transcription caused by H3K27me3 modification within the transcribed region of the gene. The neuronal gene UNC13A has increased nucleosome staging in ctDNA of ARPC samples compared to NEPC. 図12A~12Gは、腫瘍ヒストン修飾およびctDNAの解析により、CRPC表現型特異的遺伝子における転写調節と一致するヌクレオソームパターンが明らかになったことを例示する。図12Aは、10,000カ所のAR結合部位(左)およびASCL1結合部位(右)における、ARLPC、ARPC、およびNEPC PDX腫瘍表現型の間のH3K27acピークシグナルを例示する。結合部位はGTRD(Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105)から選択した(方法)。図12Bおよび12Cは、Griffinを使用して解析した、ctDNAにおける1000カ所のAR結合部位(12B)およびASCL1結合部位(12C)における複合カバレッジプロファイルをグラフで例示する。カバレッジプロファイル平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。領域±150bpが垂直の点線および黄色の陰影で示されている。図12Dは、翻訳レベルを指令するヒストン修飾の型によって群分けされた、RNA-Seqによって確立されたARPCとNEPCの間で上方調節される重要な遺伝子および下方調節される重要な遺伝子におけるlog倍率変化のヒートマップである(左):群1は、主なPTMマークが遺伝子プロモーターまたは推定遠位エンハンサーにおけるH3K27acまたはH3K4me1活性マークに起因し、遺伝子の転写領域内(gene body)におけるH3K27me3ヘテロクロマチンマークを欠く遺伝子を示す;群2は、遺伝子の転写領域内に及ぶH3K27me3抑制マークを特色とする。中央の列は、各遺伝子の上流、プロモーターまたは転写領域内のいずれに出現したかによって分けられた、アッセイしたヒストン修飾のそれぞれについてのピーク強度の相違を示す。右側に、TSS+/-1KBウインドウおよびそれぞれの遺伝子の転写領域内について、ARPC系統とNEPC系統の間の断片サイズの変動係数(CV)のlog倍率変化が示されている。図12Eは、47種の表現型系統マーカー遺伝子のプロモーター領域における平均mRNA発現と平均変動係数(CV)のlog倍率変化(ARPC対NEPC)の比較をグラフで例示する。図12F(上)は、それぞれ活発な転写および活発でない転写を導くH3K27ac修飾またはH3K4me1修飾を有するまたは有さない群1遺伝子についての予測されるctDNAカバレッジプロファイルの実例を提示する。図12F(下)ARPCおよびNEPCにおける±1000bpの周囲のARおよびASCL1のプロモーター領域。カバレッジプロファイルの平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。カバレッジの減少は、ヌクレオソームアクセシビリティの増加、したがって、転写の増加を反映する。点線および黄色の陰影により、転写開始部位(TSS)の周囲の(TSS-230bp~+170bp)限局的なウインドウが強調される。図12Gは、遺伝子の転写領域内におけるH3K27me3修飾によって引き起こされる転写の抑制を伴う群2遺伝子についての予測されるctDNAカバレッジプロファイルの実例である。ニューロン遺伝子UNC13Aは、ARPC試料のctDNAにおいてNEPCと比較してヌクレオソーム段階化の増加を有する。Figures 12A-12G illustrate that analysis of tumor histone modifications and ctDNA revealed nucleosomal patterns consistent with transcriptional regulation in CRPC phenotype-specific genes. Figure 12A illustrates H3K27ac peak signals across 10,000 AR binding sites (left) and ASCL1 binding sites (right) among ARLPC, ARPC, and NEPC PDX tumor phenotypes. Binding sites were selected from GTRD (Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105) (Methods). Figures 12B and 12C graphically illustrate the combined coverage profile across 1000 AR binding sites (12B) and ASCL1 binding sites (12C) in ctDNA analyzed using Griffin. Coverage profile means (lines) and 95% confidence intervals (shading) using 1000 bootstraps are shown. Regions ±150 bp are indicated with vertical dotted lines and yellow shading. Figure 12D is a heatmap of log2 fold changes in key up- and down-regulated genes between ARPC and NEPC established by RNA-Seq, grouped by the type of histone modification that dictates translation levels (left): group 1 shows genes where the predominant PTM marks are due to H3K27ac or H3K4me1 active marks at gene promoters or putative distal enhancers, and lack H3K27me3 heterochromatin marks within the transcribed region of the gene (gene body); group 2 features H3K27me3 repressive marks that extend within the transcribed region of the gene. The middle column shows the difference in peak intensity for each of the histone modifications assayed, separated by whether they appeared upstream, in the promoter or in the transcribed region of each gene. On the right, the log 2 fold change in coefficient of variation (CV) of fragment sizes between ARPC and NEPC lines is shown for the TSS +/- 1 KB window and within the transcribed region of each gene. Figure 12E graphically illustrates a comparison of the log 2 fold change in mean mRNA expression and mean coefficient of variation (CV) in the promoter regions of 47 phenotypic lineage marker genes (ARPC vs. NEPC). Figure 12F (top) presents an example of the predicted ctDNA coverage profile for group 1 genes with or without H3K27ac or H3K4me1 modifications that guide active and inactive transcription, respectively. Figure 12F (bottom) ±1000 bp surrounding the promoter regions of AR and ASCL1 in ARPC and NEPC. The coverage profile mean (line) and 95% confidence interval (shading) with 1000 bootstraps are shown. A decrease in coverage reflects increased nucleosome accessibility and therefore increased transcription. The dotted line and yellow shading highlight a confined window around the transcription start site (TSS) (TSS-230bp to +170bp). Figure 12G is an illustration of a predicted ctDNA coverage profile for group 2 genes with repression of transcription caused by H3K27me3 modification within the transcribed region of the gene. The neuronal gene UNC13A has increased nucleosome staging in ctDNA of ARPC samples compared to NEPC. 図12A~12Gは、腫瘍ヒストン修飾およびctDNAの解析により、CRPC表現型特異的遺伝子における転写調節と一致するヌクレオソームパターンが明らかになったことを例示する。図12Aは、10,000カ所のAR結合部位(左)およびASCL1結合部位(右)における、ARLPC、ARPC、およびNEPC PDX腫瘍表現型の間のH3K27acピークシグナルを例示する。結合部位はGTRD(Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105)から選択した(方法)。図12Bおよび12Cは、Griffinを使用して解析した、ctDNAにおける1000カ所のAR結合部位(12B)およびASCL1結合部位(12C)における複合カバレッジプロファイルをグラフで例示する。カバレッジプロファイル平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。領域±150bpが垂直の点線および黄色の陰影で示されている。図12Dは、翻訳レベルを指令するヒストン修飾の型によって群分けされた、RNA-Seqによって確立されたARPCとNEPCの間で上方調節される重要な遺伝子および下方調節される重要な遺伝子におけるlog倍率変化のヒートマップである(左):群1は、主なPTMマークが遺伝子プロモーターまたは推定遠位エンハンサーにおけるH3K27acまたはH3K4me1活性マークに起因し、遺伝子の転写領域内(gene body)におけるH3K27me3ヘテロクロマチンマークを欠く遺伝子を示す;群2は、遺伝子の転写領域内に及ぶH3K27me3抑制マークを特色とする。中央の列は、各遺伝子の上流、プロモーターまたは転写領域内のいずれに出現したかによって分けられた、アッセイしたヒストン修飾のそれぞれについてのピーク強度の相違を示す。右側に、TSS+/-1KBウインドウおよびそれぞれの遺伝子の転写領域内について、ARPC系統とNEPC系統の間の断片サイズの変動係数(CV)のlog倍率変化が示されている。図12Eは、47種の表現型系統マーカー遺伝子のプロモーター領域における平均mRNA発現と平均変動係数(CV)のlog倍率変化(ARPC対NEPC)の比較をグラフで例示する。図12F(上)は、それぞれ活発な転写および活発でない転写を導くH3K27ac修飾またはH3K4me1修飾を有するまたは有さない群1遺伝子についての予測されるctDNAカバレッジプロファイルの実例を提示する。図12F(下)ARPCおよびNEPCにおける±1000bpの周囲のARおよびASCL1のプロモーター領域。カバレッジプロファイルの平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。カバレッジの減少は、ヌクレオソームアクセシビリティの増加、したがって、転写の増加を反映する。点線および黄色の陰影により、転写開始部位(TSS)の周囲の(TSS-230bp~+170bp)限局的なウインドウが強調される。図12Gは、遺伝子の転写領域内におけるH3K27me3修飾によって引き起こされる転写の抑制を伴う群2遺伝子についての予測されるctDNAカバレッジプロファイルの実例である。ニューロン遺伝子UNC13Aは、ARPC試料のctDNAにおいてNEPCと比較してヌクレオソーム段階化の増加を有する。Figures 12A-12G illustrate that analysis of tumor histone modifications and ctDNA revealed nucleosomal patterns consistent with transcriptional regulation in CRPC phenotype-specific genes. Figure 12A illustrates H3K27ac peak signals across 10,000 AR binding sites (left) and ASCL1 binding sites (right) among ARLPC, ARPC, and NEPC PDX tumor phenotypes. Binding sites were selected from GTRD (Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105) (Methods). Figures 12B and 12C graphically illustrate the combined coverage profile across 1000 AR binding sites (12B) and ASCL1 binding sites (12C) in ctDNA analyzed using Griffin. Coverage profile means (lines) and 95% confidence intervals (shading) using 1000 bootstraps are shown. Regions ±150 bp are indicated with vertical dotted lines and yellow shading. Figure 12D is a heatmap of log2 fold changes in key up- and down-regulated genes between ARPC and NEPC established by RNA-Seq, grouped by the type of histone modification that dictates translation levels (left): group 1 shows genes where the predominant PTM marks are due to H3K27ac or H3K4me1 active marks at gene promoters or putative distal enhancers, and lack H3K27me3 heterochromatin marks within the transcribed region of the gene (gene body); group 2 features H3K27me3 repressive marks that extend within the transcribed region of the gene. The middle column shows the difference in peak intensity for each of the histone modifications assayed, separated by whether they appeared upstream, in the promoter or in the transcribed region of each gene. On the right, the log 2 fold change in coefficient of variation (CV) of fragment sizes between ARPC and NEPC lines is shown for the TSS +/- 1 KB window and within the transcribed region of each gene. Figure 12E graphically illustrates a comparison of the log 2 fold change in mean mRNA expression and mean coefficient of variation (CV) in the promoter regions of 47 phenotypic lineage marker genes (ARPC vs. NEPC). Figure 12F (top) presents an example of the predicted ctDNA coverage profile for group 1 genes with or without H3K27ac or H3K4me1 modifications that guide active and inactive transcription, respectively. Figure 12F (bottom) ±1000 bp surrounding the promoter regions of AR and ASCL1 in ARPC and NEPC. The coverage profile mean (line) and 95% confidence interval (shading) with 1000 bootstraps are shown. A decrease in coverage reflects increased nucleosome accessibility and therefore increased transcription. The dotted line and yellow shading highlight a confined window around the transcription start site (TSS) (TSS-230bp to +170bp). Figure 12G is an illustration of a predicted ctDNA coverage profile for group 2 genes with repression of transcription caused by H3K27me3 modification within the transcribed region of the gene. The neuronal gene UNC13A has increased nucleosome staging in ctDNA of ARPC samples compared to NEPC. 図12A~12Gは、腫瘍ヒストン修飾およびctDNAの解析により、CRPC表現型特異的遺伝子における転写調節と一致するヌクレオソームパターンが明らかになったことを例示する。図12Aは、10,000カ所のAR結合部位(左)およびASCL1結合部位(右)における、ARLPC、ARPC、およびNEPC PDX腫瘍表現型の間のH3K27acピークシグナルを例示する。結合部位はGTRD(Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105)から選択した(方法)。図12Bおよび12Cは、Griffinを使用して解析した、ctDNAにおける1000カ所のAR結合部位(12B)およびASCL1結合部位(12C)における複合カバレッジプロファイルをグラフで例示する。カバレッジプロファイル平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。領域±150bpが垂直の点線および黄色の陰影で示されている。図12Dは、翻訳レベルを指令するヒストン修飾の型によって群分けされた、RNA-Seqによって確立されたARPCとNEPCの間で上方調節される重要な遺伝子および下方調節される重要な遺伝子におけるlog倍率変化のヒートマップである(左):群1は、主なPTMマークが遺伝子プロモーターまたは推定遠位エンハンサーにおけるH3K27acまたはH3K4me1活性マークに起因し、遺伝子の転写領域内(gene body)におけるH3K27me3ヘテロクロマチンマークを欠く遺伝子を示す;群2は、遺伝子の転写領域内に及ぶH3K27me3抑制マークを特色とする。中央の列は、各遺伝子の上流、プロモーターまたは転写領域内のいずれに出現したかによって分けられた、アッセイしたヒストン修飾のそれぞれについてのピーク強度の相違を示す。右側に、TSS+/-1KBウインドウおよびそれぞれの遺伝子の転写領域内について、ARPC系統とNEPC系統の間の断片サイズの変動係数(CV)のlog倍率変化が示されている。図12Eは、47種の表現型系統マーカー遺伝子のプロモーター領域における平均mRNA発現と平均変動係数(CV)のlog倍率変化(ARPC対NEPC)の比較をグラフで例示する。図12F(上)は、それぞれ活発な転写および活発でない転写を導くH3K27ac修飾またはH3K4me1修飾を有するまたは有さない群1遺伝子についての予測されるctDNAカバレッジプロファイルの実例を提示する。図12F(下)ARPCおよびNEPCにおける±1000bpの周囲のARおよびASCL1のプロモーター領域。カバレッジプロファイルの平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。カバレッジの減少は、ヌクレオソームアクセシビリティの増加、したがって、転写の増加を反映する。点線および黄色の陰影により、転写開始部位(TSS)の周囲の(TSS-230bp~+170bp)限局的なウインドウが強調される。図12Gは、遺伝子の転写領域内におけるH3K27me3修飾によって引き起こされる転写の抑制を伴う群2遺伝子についての予測されるctDNAカバレッジプロファイルの実例である。ニューロン遺伝子UNC13Aは、ARPC試料のctDNAにおいてNEPCと比較してヌクレオソーム段階化の増加を有する。Figures 12A-12G illustrate that analysis of tumor histone modifications and ctDNA revealed nucleosomal patterns consistent with transcriptional regulation in CRPC phenotype-specific genes. Figure 12A illustrates H3K27ac peak signals across 10,000 AR binding sites (left) and ASCL1 binding sites (right) among ARLPC, ARPC, and NEPC PDX tumor phenotypes. Binding sites were selected from GTRD (Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105) (Methods). Figures 12B and 12C graphically illustrate the combined coverage profile across 1000 AR binding sites (12B) and ASCL1 binding sites (12C) in ctDNA analyzed using Griffin. Coverage profile means (lines) and 95% confidence intervals (shading) using 1000 bootstraps are shown. Regions ±150 bp are indicated with vertical dotted lines and yellow shading. Figure 12D is a heatmap of log2 fold changes in key up- and down-regulated genes between ARPC and NEPC established by RNA-Seq, grouped by the type of histone modification that dictates translation levels (left): group 1 shows genes where the predominant PTM marks are due to H3K27ac or H3K4me1 active marks at gene promoters or putative distal enhancers, and lack H3K27me3 heterochromatin marks within the transcribed region of the gene (gene body); group 2 features H3K27me3 repressive marks that extend within the transcribed region of the gene. The middle column shows the difference in peak intensity for each of the histone modifications assayed, separated by whether they appeared upstream, in the promoter or in the transcribed region of each gene. On the right, the log 2 fold change in coefficient of variation (CV) of fragment sizes between ARPC and NEPC lines is shown for the TSS +/- 1 KB window and within the transcribed region of each gene. Figure 12E graphically illustrates a comparison of the log 2 fold change in mean mRNA expression and mean coefficient of variation (CV) in the promoter regions of 47 phenotypic lineage marker genes (ARPC vs. NEPC). Figure 12F (top) presents an example of the predicted ctDNA coverage profile for group 1 genes with or without H3K27ac or H3K4me1 modifications that guide active and inactive transcription, respectively. Figure 12F (bottom) ±1000 bp surrounding the promoter regions of AR and ASCL1 in ARPC and NEPC. The coverage profile mean (line) and 95% confidence interval (shading) with 1000 bootstraps are shown. A decrease in coverage reflects increased nucleosome accessibility and therefore increased transcription. The dotted line and yellow shading highlight a confined window around the transcription start site (TSS) (TSS-230bp to +170bp). Figure 12G is an illustration of a predicted ctDNA coverage profile for group 2 genes with repression of transcription caused by H3K27me3 modification within the transcribed region of the gene. The neuronal gene UNC13A has increased nucleosome staging in ctDNA of ARPC samples compared to NEPC.

図13は、ARPC表現型(n=16)、NEPC表現型(n=6)、およびARLPC表現型(n=2)のLuCaP PDX系統における107種のTFについてのctDNAのGriffin解析によるTFBSにおける正規化された複合中心平均カバレッジの階層クラスタリングを例示する。このTFの一覧を、LuCaP PDX RNA-Seq解析からARPCとNEPCの間で差次的発現を有するものとして最初に選択した。ヒートマップの色により、ctDNAにおけるアクセシビリティの増加(低値;淡い)およびアクセシビリティの低減(高値;濃い)が示される。NEPC試料におけるアクセシビリティの増加を伴うTF(log倍率変化>0.05、マン・ホイットニーのU検定p<0.05)が赤色の文字で示されている;ARPCにおけるアクセシビリティの増加(log2倍率変化<-0.05、p<0.05)が青色の文字で示されている。FIG. 13 illustrates hierarchical clustering of normalized composite central mean coverage in TFBS by Griffin analysis of ctDNA for 107 TFs in LuCaP PDX lines with ARPC (n=16), NEPC (n=6), and ARLPC (n=2) phenotypes. This list of TFs was initially selected as having differential expression between ARPC and NEPC from LuCaP PDX RNA-Seq analysis. Heatmap colors indicate increased accessibility (low values; light) and decreased accessibility (high values; dark) in ctDNA. TFs with increased accessibility in NEPC samples ( log2 fold change >0.05, Mann-Whitney U test p<0.05) are shown in red text; increased accessibility in ARPC (log2 fold change <-0.05, p<0.05) are shown in blue text. 図13は、ARPC表現型(n=16)、NEPC表現型(n=6)、およびARLPC表現型(n=2)のLuCaP PDX系統における107種のTFについてのctDNAのGriffin解析によるTFBSにおける正規化された複合中心平均カバレッジの階層クラスタリングを例示する。このTFの一覧を、LuCaP PDX RNA-Seq解析からARPCとNEPCの間で差次的発現を有するものとして最初に選択した。ヒートマップの色により、ctDNAにおけるアクセシビリティの増加(低値;淡い)およびアクセシビリティの低減(高値;濃い)が示される。NEPC試料におけるアクセシビリティの増加を伴うTF(log倍率変化>0.05、マン・ホイットニーのU検定p<0.05)が赤色の文字で示されている;ARPCにおけるアクセシビリティの増加(log2倍率変化<-0.05、p<0.05)が青色の文字で示されている。FIG. 13 illustrates hierarchical clustering of normalized composite central mean coverage in TFBS by Griffin analysis of ctDNA for 107 TFs in LuCaP PDX lines with ARPC (n=16), NEPC (n=6), and ARLPC (n=2) phenotypes. This list of TFs was initially selected as having differential expression between ARPC and NEPC from LuCaP PDX RNA-Seq analysis. Heatmap colors indicate increased accessibility (low values; light) and decreased accessibility (high values; dark) in ctDNA. TFs with increased accessibility in NEPC samples ( log2 fold change >0.05, Mann-Whitney U test p<0.05) are shown in red text; increased accessibility in ARPC (log2 fold change <-0.05, p<0.05) are shown in blue text.

図14A~14Gは、PDXモデルにおけるCRPC表現型分類についてのゲノム全体を通したctDNA特徴の包括的な評価を例示する。図14Aは、5例のARPC系統と5例のNEPC系統の間のATAC-Seqピーク強度のlog倍率変化の火山プロットを例示する;点線により、部位がq値<0.05で区分される。図14Bおよび14Cは、Griffinによって解析した、ARPC PDX腫瘍特異的(14B)およびNEPC PDX腫瘍特異的(14C)オープンクロマチン部位における複合カバレッジプロファイルをグラフで例示する。(14A)からの部位を、GTRD(Yevshin et al. (2019). Nucleic Acids Res 47, D100-D105)からの338種の因子における既知のTFBSとのオーバーラップについてフィルタリングした。カバレッジプロファイルの平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。領域±150bpが垂直の点線および黄色の陰影で示されている。図14Dは、ARPC表現型とNEPC表現型の間の群分けを実証するctDNA特徴のCAを例示する:(左側のパネル)ARPCとNEPCの間で338種の因子のうちの示差的アクセシビリティを有する74種のTFについて有意なTFBSの複合中心カバレッジ。(右側のパネル)H3K4me1ヒストン修飾部位における断片サイズの変動性(変動係数)(n=9,750)。図14Eは、教師あり機械学習(XGBoost)を種々の領域型(全ての遺伝子、TFBS、およびオープン領域、方法)に使用してctDNAからARPC PDXとNEPC PDXを分類する性能をグラフで例示する。95%信頼区間(層化交差検証の100回繰り返し)での受信者動作特性曲線下面積(AUC)が全ての特徴型の性能について示されている。図14Fは、14B~14Cで同定されたARPC特異的(左)およびNEPC特異的(右)オープンクロマチン部位における複合カバレッジプロファイルの例である。種々の腫瘍割合についての健康ドナー(HD)と混合したARPC(左)およびHDと混合したNEPC(右)を使用して生成した模擬混合が示されている。図14Gは、確率混合モデルを使用して混合試料を分類する性能をグラフで例示する。PDX系統からの各表現型について、それぞれ種々のシーケンシングカバレッジおよび腫瘍割合で5つのctDNA混合を生成した。全部で、125の混合を評価した。各構成についての5つの混合にわたる平均AUCが示されている。Figures 14A-14G illustrate a comprehensive assessment of genome-wide ctDNA signatures for CRPC phenotyping in PDX models. Figure 14A illustrates a volcano plot of log 2 fold changes in ATAC-Seq peak intensities between five ARPC and five NEPC lines; dotted lines demarcate sites with q-values <0.05. Figures 14B and 14C graphically illustrate combined coverage profiles at ARPC PDX tumor-specific (14B) and NEPC PDX tumor-specific (14C) open chromatin sites analyzed by Griffin. Sites from (14A) were filtered for overlap with known TFBS in 338 factors from GTRD (Yevshin et al. (2019). Nucleic Acids Res 47, D100-D105). The coverage profile mean (line) and 95% confidence interval (shading) with 1000 bootstraps are shown. The region ±150 bp is indicated with a vertical dotted line and yellow shading. Figure 14D illustrates CA of ctDNA features demonstrating grouping between ARPC and NEPC phenotypes: (left panel) Combined central coverage of significant TFBS for 74 TFs with differential accessibility among 338 factors between ARPC and NEPC. (right panel) Fragment size variability (coefficient of variation) at H3K4me1 histone modification sites (n=9,750). Figure 14E graphically illustrates the performance of supervised machine learning (XGBoost) for classification of ARPC and NEPC PDX from ctDNA using different region types (all genes, TFBS, and open regions, methods). The area under the receiver operating characteristic curve (AUC) with 95% confidence intervals (100 replicates of stratified cross-validation) is shown for the performance of all feature types. FIG. 14F is an example of a composite coverage profile at ARPC-specific (left) and NEPC-specific (right) open chromatin sites identified in 14B-14C. Shown are simulated mixtures generated using ARPC (left) mixed with healthy donor (HD) and NEPC (right) mixed with HD for various tumor fractions. FIG. 14G graphically illustrates the performance of classifying mixed samples using stochastic mixture models. For each phenotype from the PDX lineage, five ctDNA mixtures were generated, each with various sequencing coverage and tumor fraction. In total, 125 mixtures were evaluated. The average AUC across the five mixtures for each configuration is shown. 図14A~14Gは、PDXモデルにおけるCRPC表現型分類についてのゲノム全体を通したctDNA特徴の包括的な評価を例示する。図14Aは、5例のARPC系統と5例のNEPC系統の間のATAC-Seqピーク強度のlog倍率変化の火山プロットを例示する;点線により、部位がq値<0.05で区分される。図14Bおよび14Cは、Griffinによって解析した、ARPC PDX腫瘍特異的(14B)およびNEPC PDX腫瘍特異的(14C)オープンクロマチン部位における複合カバレッジプロファイルをグラフで例示する。(14A)からの部位を、GTRD(Yevshin et al. (2019). Nucleic Acids Res 47, D100-D105)からの338種の因子における既知のTFBSとのオーバーラップについてフィルタリングした。カバレッジプロファイルの平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。領域±150bpが垂直の点線および黄色の陰影で示されている。図14Dは、ARPC表現型とNEPC表現型の間の群分けを実証するctDNA特徴のCAを例示する:(左側のパネル)ARPCとNEPCの間で338種の因子のうちの示差的アクセシビリティを有する74種のTFについて有意なTFBSの複合中心カバレッジ。(右側のパネル)H3K4me1ヒストン修飾部位における断片サイズの変動性(変動係数)(n=9,750)。図14Eは、教師あり機械学習(XGBoost)を種々の領域型(全ての遺伝子、TFBS、およびオープン領域、方法)に使用してctDNAからARPC PDXとNEPC PDXを分類する性能をグラフで例示する。95%信頼区間(層化交差検証の100回繰り返し)での受信者動作特性曲線下面積(AUC)が全ての特徴型の性能について示されている。図14Fは、14B~14Cで同定されたARPC特異的(左)およびNEPC特異的(右)オープンクロマチン部位における複合カバレッジプロファイルの例である。種々の腫瘍割合についての健康ドナー(HD)と混合したARPC(左)およびHDと混合したNEPC(右)を使用して生成した模擬混合が示されている。図14Gは、確率混合モデルを使用して混合試料を分類する性能をグラフで例示する。PDX系統からの各表現型について、それぞれ種々のシーケンシングカバレッジおよび腫瘍割合で5つのctDNA混合を生成した。全部で、125の混合を評価した。各構成についての5つの混合にわたる平均AUCが示されている。Figures 14A-14G illustrate a comprehensive assessment of genome-wide ctDNA signatures for CRPC phenotyping in PDX models. Figure 14A illustrates a volcano plot of log 2 fold changes in ATAC-Seq peak intensities between five ARPC and five NEPC lines; dotted lines demarcate sites with q-values <0.05. Figures 14B and 14C graphically illustrate combined coverage profiles at ARPC PDX tumor-specific (14B) and NEPC PDX tumor-specific (14C) open chromatin sites analyzed by Griffin. Sites from (14A) were filtered for overlap with known TFBS in 338 factors from GTRD (Yevshin et al. (2019). Nucleic Acids Res 47, D100-D105). The coverage profile mean (line) and 95% confidence interval (shading) with 1000 bootstraps are shown. The region ±150 bp is indicated with a vertical dotted line and yellow shading. Figure 14D illustrates CA of ctDNA features demonstrating grouping between ARPC and NEPC phenotypes: (left panel) Combined central coverage of significant TFBS for 74 TFs with differential accessibility among 338 factors between ARPC and NEPC. (right panel) Fragment size variability (coefficient of variation) at H3K4me1 histone modification sites (n=9,750). Figure 14E graphically illustrates the performance of supervised machine learning (XGBoost) for classification of ARPC and NEPC PDX from ctDNA using different region types (all genes, TFBS, and open regions, methods). The area under the receiver operating characteristic curve (AUC) with 95% confidence intervals (100 replicates of stratified cross-validation) is shown for the performance of all feature types. FIG. 14F is an example of a composite coverage profile at ARPC-specific (left) and NEPC-specific (right) open chromatin sites identified in 14B-14C. Shown are simulated mixtures generated using ARPC (left) mixed with healthy donor (HD) and NEPC (right) mixed with HD for various tumor fractions. FIG. 14G graphically illustrates the performance of classifying mixed samples using stochastic mixture models. For each phenotype from the PDX lineage, five ctDNA mixtures were generated, each with various sequencing coverage and tumor fraction. In total, 125 mixtures were evaluated. The average AUC across the five mixtures for each configuration is shown. 図14A~14Gは、PDXモデルにおけるCRPC表現型分類についてのゲノム全体を通したctDNA特徴の包括的な評価を例示する。図14Aは、5例のARPC系統と5例のNEPC系統の間のATAC-Seqピーク強度のlog倍率変化の火山プロットを例示する;点線により、部位がq値<0.05で区分される。図14Bおよび14Cは、Griffinによって解析した、ARPC PDX腫瘍特異的(14B)およびNEPC PDX腫瘍特異的(14C)オープンクロマチン部位における複合カバレッジプロファイルをグラフで例示する。(14A)からの部位を、GTRD(Yevshin et al. (2019). Nucleic Acids Res 47, D100-D105)からの338種の因子における既知のTFBSとのオーバーラップについてフィルタリングした。カバレッジプロファイルの平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。領域±150bpが垂直の点線および黄色の陰影で示されている。図14Dは、ARPC表現型とNEPC表現型の間の群分けを実証するctDNA特徴のCAを例示する:(左側のパネル)ARPCとNEPCの間で338種の因子のうちの示差的アクセシビリティを有する74種のTFについて有意なTFBSの複合中心カバレッジ。(右側のパネル)H3K4me1ヒストン修飾部位における断片サイズの変動性(変動係数)(n=9,750)。図14Eは、教師あり機械学習(XGBoost)を種々の領域型(全ての遺伝子、TFBS、およびオープン領域、方法)に使用してctDNAからARPC PDXとNEPC PDXを分類する性能をグラフで例示する。95%信頼区間(層化交差検証の100回繰り返し)での受信者動作特性曲線下面積(AUC)が全ての特徴型の性能について示されている。図14Fは、14B~14Cで同定されたARPC特異的(左)およびNEPC特異的(右)オープンクロマチン部位における複合カバレッジプロファイルの例である。種々の腫瘍割合についての健康ドナー(HD)と混合したARPC(左)およびHDと混合したNEPC(右)を使用して生成した模擬混合が示されている。図14Gは、確率混合モデルを使用して混合試料を分類する性能をグラフで例示する。PDX系統からの各表現型について、それぞれ種々のシーケンシングカバレッジおよび腫瘍割合で5つのctDNA混合を生成した。全部で、125の混合を評価した。各構成についての5つの混合にわたる平均AUCが示されている。Figures 14A-14G illustrate a comprehensive assessment of genome-wide ctDNA signatures for CRPC phenotyping in PDX models. Figure 14A illustrates a volcano plot of log 2 fold changes in ATAC-Seq peak intensities between five ARPC and five NEPC lines; dotted lines demarcate sites with q-values <0.05. Figures 14B and 14C graphically illustrate combined coverage profiles at ARPC PDX tumor-specific (14B) and NEPC PDX tumor-specific (14C) open chromatin sites analyzed by Griffin. Sites from (14A) were filtered for overlap with known TFBS in 338 factors from GTRD (Yevshin et al. (2019). Nucleic Acids Res 47, D100-D105). The coverage profile mean (line) and 95% confidence interval (shading) with 1000 bootstraps are shown. The region ±150 bp is indicated with a vertical dotted line and yellow shading. Figure 14D illustrates CA of ctDNA features demonstrating grouping between ARPC and NEPC phenotypes: (left panel) Combined central coverage of significant TFBS for 74 TFs with differential accessibility among 338 factors between ARPC and NEPC. (right panel) Fragment size variability (coefficient of variation) at H3K4me1 histone modification sites (n=9,750). Figure 14E graphically illustrates the performance of supervised machine learning (XGBoost) for classification of ARPC and NEPC PDX from ctDNA using different region types (all genes, TFBS, and open regions, methods). The area under the receiver operating characteristic curve (AUC) with 95% confidence intervals (100 replicates of stratified cross-validation) is shown for the performance of all feature types. FIG. 14F is an example of a composite coverage profile at ARPC-specific (left) and NEPC-specific (right) open chromatin sites identified in 14B-14C. Shown are simulated mixtures generated using ARPC (left) mixed with healthy donor (HD) and NEPC (right) mixed with HD for various tumor fractions. FIG. 14G graphically illustrates the performance of classifying mixed samples using stochastic mixture models. For each phenotype from the PDX lineage, five ctDNA mixtures were generated, each with various sequencing coverage and tumor fraction. In total, 125 mixtures were evaluated. The average AUC across the five mixtures for each configuration is shown. 図14A~14Gは、PDXモデルにおけるCRPC表現型分類についてのゲノム全体を通したctDNA特徴の包括的な評価を例示する。図14Aは、5例のARPC系統と5例のNEPC系統の間のATAC-Seqピーク強度のlog倍率変化の火山プロットを例示する;点線により、部位がq値<0.05で区分される。図14Bおよび14Cは、Griffinによって解析した、ARPC PDX腫瘍特異的(14B)およびNEPC PDX腫瘍特異的(14C)オープンクロマチン部位における複合カバレッジプロファイルをグラフで例示する。(14A)からの部位を、GTRD(Yevshin et al. (2019). Nucleic Acids Res 47, D100-D105)からの338種の因子における既知のTFBSとのオーバーラップについてフィルタリングした。カバレッジプロファイルの平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。領域±150bpが垂直の点線および黄色の陰影で示されている。図14Dは、ARPC表現型とNEPC表現型の間の群分けを実証するctDNA特徴のCAを例示する:(左側のパネル)ARPCとNEPCの間で338種の因子のうちの示差的アクセシビリティを有する74種のTFについて有意なTFBSの複合中心カバレッジ。(右側のパネル)H3K4me1ヒストン修飾部位における断片サイズの変動性(変動係数)(n=9,750)。図14Eは、教師あり機械学習(XGBoost)を種々の領域型(全ての遺伝子、TFBS、およびオープン領域、方法)に使用してctDNAからARPC PDXとNEPC PDXを分類する性能をグラフで例示する。95%信頼区間(層化交差検証の100回繰り返し)での受信者動作特性曲線下面積(AUC)が全ての特徴型の性能について示されている。図14Fは、14B~14Cで同定されたARPC特異的(左)およびNEPC特異的(右)オープンクロマチン部位における複合カバレッジプロファイルの例である。種々の腫瘍割合についての健康ドナー(HD)と混合したARPC(左)およびHDと混合したNEPC(右)を使用して生成した模擬混合が示されている。図14Gは、確率混合モデルを使用して混合試料を分類する性能をグラフで例示する。PDX系統からの各表現型について、それぞれ種々のシーケンシングカバレッジおよび腫瘍割合で5つのctDNA混合を生成した。全部で、125の混合を評価した。各構成についての5つの混合にわたる平均AUCが示されている。Figures 14A-14G illustrate a comprehensive assessment of genome-wide ctDNA signatures for CRPC phenotyping in PDX models. Figure 14A illustrates a volcano plot of log 2 fold changes in ATAC-Seq peak intensities between five ARPC and five NEPC lines; dotted lines demarcate sites with q-values <0.05. Figures 14B and 14C graphically illustrate combined coverage profiles at ARPC PDX tumor-specific (14B) and NEPC PDX tumor-specific (14C) open chromatin sites analyzed by Griffin. Sites from (14A) were filtered for overlap with known TFBS in 338 factors from GTRD (Yevshin et al. (2019). Nucleic Acids Res 47, D100-D105). The coverage profile mean (line) and 95% confidence interval (shading) with 1000 bootstraps are shown. The region ±150 bp is indicated with a vertical dotted line and yellow shading. Figure 14D illustrates CA of ctDNA features demonstrating grouping between ARPC and NEPC phenotypes: (left panel) Combined central coverage of significant TFBS for 74 TFs with differential accessibility among 338 factors between ARPC and NEPC. (right panel) Fragment size variability (coefficient of variation) at H3K4me1 histone modification sites (n=9,750). Figure 14E graphically illustrates the performance of supervised machine learning (XGBoost) for classification of ARPC and NEPC PDX from ctDNA using different region types (all genes, TFBS, and open regions, methods). The area under the receiver operating characteristic curve (AUC) with 95% confidence intervals (100 replicates of stratified cross-validation) is shown for the performance of all feature types. FIG. 14F is an example of a composite coverage profile at ARPC-specific (left) and NEPC-specific (right) open chromatin sites identified in 14B-14C. Shown are simulated mixtures generated using ARPC (left) mixed with healthy donor (HD) and NEPC (right) mixed with HD for various tumor fractions. FIG. 14G graphically illustrates the performance of classifying mixed samples using stochastic mixture models. For each phenotype from the PDX lineage, five ctDNA mixtures were generated, each with various sequencing coverage and tumor fraction. In total, 125 mixtures were evaluated. The average AUC across the five mixtures for each configuration is shown. 図14A~14Gは、PDXモデルにおけるCRPC表現型分類についてのゲノム全体を通したctDNA特徴の包括的な評価を例示する。図14Aは、5例のARPC系統と5例のNEPC系統の間のATAC-Seqピーク強度のlog倍率変化の火山プロットを例示する;点線により、部位がq値<0.05で区分される。図14Bおよび14Cは、Griffinによって解析した、ARPC PDX腫瘍特異的(14B)およびNEPC PDX腫瘍特異的(14C)オープンクロマチン部位における複合カバレッジプロファイルをグラフで例示する。(14A)からの部位を、GTRD(Yevshin et al. (2019). Nucleic Acids Res 47, D100-D105)からの338種の因子における既知のTFBSとのオーバーラップについてフィルタリングした。カバレッジプロファイルの平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。領域±150bpが垂直の点線および黄色の陰影で示されている。図14Dは、ARPC表現型とNEPC表現型の間の群分けを実証するctDNA特徴のCAを例示する:(左側のパネル)ARPCとNEPCの間で338種の因子のうちの示差的アクセシビリティを有する74種のTFについて有意なTFBSの複合中心カバレッジ。(右側のパネル)H3K4me1ヒストン修飾部位における断片サイズの変動性(変動係数)(n=9,750)。図14Eは、教師あり機械学習(XGBoost)を種々の領域型(全ての遺伝子、TFBS、およびオープン領域、方法)に使用してctDNAからARPC PDXとNEPC PDXを分類する性能をグラフで例示する。95%信頼区間(層化交差検証の100回繰り返し)での受信者動作特性曲線下面積(AUC)が全ての特徴型の性能について示されている。図14Fは、14B~14Cで同定されたARPC特異的(左)およびNEPC特異的(右)オープンクロマチン部位における複合カバレッジプロファイルの例である。種々の腫瘍割合についての健康ドナー(HD)と混合したARPC(左)およびHDと混合したNEPC(右)を使用して生成した模擬混合が示されている。図14Gは、確率混合モデルを使用して混合試料を分類する性能をグラフで例示する。PDX系統からの各表現型について、それぞれ種々のシーケンシングカバレッジおよび腫瘍割合で5つのctDNA混合を生成した。全部で、125の混合を評価した。各構成についての5つの混合にわたる平均AUCが示されている。Figures 14A-14G illustrate a comprehensive assessment of genome-wide ctDNA signatures for CRPC phenotyping in PDX models. Figure 14A illustrates a volcano plot of log 2 fold changes in ATAC-Seq peak intensities between five ARPC and five NEPC lines; dotted lines demarcate sites with q-values <0.05. Figures 14B and 14C graphically illustrate combined coverage profiles at ARPC PDX tumor-specific (14B) and NEPC PDX tumor-specific (14C) open chromatin sites analyzed by Griffin. Sites from (14A) were filtered for overlap with known TFBS in 338 factors from GTRD (Yevshin et al. (2019). Nucleic Acids Res 47, D100-D105). The coverage profile mean (line) and 95% confidence interval (shading) with 1000 bootstraps are shown. The region ±150 bp is indicated with a vertical dotted line and yellow shading. Figure 14D illustrates CA of ctDNA features demonstrating grouping between ARPC and NEPC phenotypes: (left panel) Combined central coverage of significant TFBS for 74 TFs with differential accessibility among 338 factors between ARPC and NEPC. (right panel) Fragment size variability (coefficient of variation) at H3K4me1 histone modification sites (n=9,750). Figure 14E graphically illustrates the performance of supervised machine learning (XGBoost) for classification of ARPC and NEPC PDX from ctDNA using different region types (all genes, TFBS, and open regions, methods). The area under the receiver operating characteristic curve (AUC) with 95% confidence intervals (100 replicates of stratified cross-validation) is shown for the performance of all feature types. FIG. 14F is an example of a composite coverage profile at ARPC-specific (left) and NEPC-specific (right) open chromatin sites identified in 14B-14C. Shown are simulated mixtures generated using ARPC (left) mixed with healthy donor (HD) and NEPC (right) mixed with HD for various tumor fractions. FIG. 14G graphically illustrates the performance of classifying mixed samples using stochastic mixture models. For each phenotype from the PDX lineage, five ctDNA mixtures were generated, each with various sequencing coverage and tumor fraction. In total, 125 mixtures were evaluated. The average AUC across the five mixtures for each configuration is shown. 図14A~14Gは、PDXモデルにおけるCRPC表現型分類についてのゲノム全体を通したctDNA特徴の包括的な評価を例示する。図14Aは、5例のARPC系統と5例のNEPC系統の間のATAC-Seqピーク強度のlog倍率変化の火山プロットを例示する;点線により、部位がq値<0.05で区分される。図14Bおよび14Cは、Griffinによって解析した、ARPC PDX腫瘍特異的(14B)およびNEPC PDX腫瘍特異的(14C)オープンクロマチン部位における複合カバレッジプロファイルをグラフで例示する。(14A)からの部位を、GTRD(Yevshin et al. (2019). Nucleic Acids Res 47, D100-D105)からの338種の因子における既知のTFBSとのオーバーラップについてフィルタリングした。カバレッジプロファイルの平均(線)および1000回のブートストラップを用いた95%信頼区間(陰影)が示されている。領域±150bpが垂直の点線および黄色の陰影で示されている。図14Dは、ARPC表現型とNEPC表現型の間の群分けを実証するctDNA特徴のCAを例示する:(左側のパネル)ARPCとNEPCの間で338種の因子のうちの示差的アクセシビリティを有する74種のTFについて有意なTFBSの複合中心カバレッジ。(右側のパネル)H3K4me1ヒストン修飾部位における断片サイズの変動性(変動係数)(n=9,750)。図14Eは、教師あり機械学習(XGBoost)を種々の領域型(全ての遺伝子、TFBS、およびオープン領域、方法)に使用してctDNAからARPC PDXとNEPC PDXを分類する性能をグラフで例示する。95%信頼区間(層化交差検証の100回繰り返し)での受信者動作特性曲線下面積(AUC)が全ての特徴型の性能について示されている。図14Fは、14B~14Cで同定されたARPC特異的(左)およびNEPC特異的(右)オープンクロマチン部位における複合カバレッジプロファイルの例である。種々の腫瘍割合についての健康ドナー(HD)と混合したARPC(左)およびHDと混合したNEPC(右)を使用して生成した模擬混合が示されている。図14Gは、確率混合モデルを使用して混合試料を分類する性能をグラフで例示する。PDX系統からの各表現型について、それぞれ種々のシーケンシングカバレッジおよび腫瘍割合で5つのctDNA混合を生成した。全部で、125の混合を評価した。各構成についての5つの混合にわたる平均AUCが示されている。Figures 14A-14G illustrate a comprehensive assessment of genome-wide ctDNA signatures for CRPC phenotyping in PDX models. Figure 14A illustrates a volcano plot of log 2 fold changes in ATAC-Seq peak intensities between five ARPC and five NEPC lines; dotted lines demarcate sites with q-values <0.05. Figures 14B and 14C graphically illustrate combined coverage profiles at ARPC PDX tumor-specific (14B) and NEPC PDX tumor-specific (14C) open chromatin sites analyzed by Griffin. Sites from (14A) were filtered for overlap with known TFBS in 338 factors from GTRD (Yevshin et al. (2019). Nucleic Acids Res 47, D100-D105). The coverage profile mean (line) and 95% confidence interval (shading) with 1000 bootstraps are shown. The region ±150 bp is indicated with a vertical dotted line and yellow shading. Figure 14D illustrates CA of ctDNA features demonstrating grouping between ARPC and NEPC phenotypes: (left panel) Combined central coverage of significant TFBS for 74 TFs with differential accessibility among 338 factors between ARPC and NEPC. (right panel) Fragment size variability (coefficient of variation) at H3K4me1 histone modification sites (n=9,750). Figure 14E graphically illustrates the performance of supervised machine learning (XGBoost) for classification of ARPC and NEPC PDX from ctDNA using different region types (all genes, TFBS, and open regions, methods). The area under the receiver operating characteristic curve (AUC) with 95% confidence intervals (100 replicates of stratified cross-validation) is shown for the performance of all feature types. FIG. 14F is an example of a composite coverage profile at ARPC-specific (left) and NEPC-specific (right) open chromatin sites identified in 14B-14C. Shown are simulated mixtures generated using ARPC (left) mixed with healthy donor (HD) and NEPC (right) mixed with HD for various tumor fractions. FIG. 14G graphically illustrates the performance of classifying mixed samples using stochastic mixture models. For each phenotype from the PDX lineage, five ctDNA mixtures were generated, each with various sequencing coverage and tumor fraction. In total, 125 mixtures were evaluated. The average AUC across the five mixtures for each configuration is shown.

図15A~15Cは、PDX ctDNA特徴から情報を得る確率モデルを使用した、3つの患者コホートにおける血漿からのNEPC表現型の正確な分類を例示する。図15Aは、超ローパスWGS(ULP-WGS)データを伴う101例のmCRPC患者(DFCIコホートI)についての受信者動作特性(ROC)曲線をグラフで例示する。90.4%感度(NEPCの予測について)および97.5%特異度(ARPCの予測について)という最適な性能は、それぞれ水平の点線および垂直の点線で示される予測スコアカットオフ0.3314に対応する。図15Bは、WGSデータおよびULP-WGSデータの両方を伴う7例の患者(DFCIコホートII)由来の11例の血漿試料についての予測スコアを例示する。NEPCとARPCを分類するために0.3314スコアカットオフ閾値(点線)を使用した。腫瘍割合をWGSデータからのichorCNAによって推定した。患者は腺癌(ARPC)に対する処置を受けたかまたは高PSA値を有した。図15Cは、26例のARPC、5例のNEPC、および16例のダブルネガティブ前立腺がん(DNPC)を含めた混合型または不明瞭な表現型(三角形)を含む臨床表現型を有する47例の血漿試料についての予測スコアを例示する。同じctDNA試料についてのWGSおよびULP-WGS(0.1×)についてのスコアが示されている。NEPCとARPCを分類するためにカットオフ閾値0.3314(点線)を使用した。腫瘍割合をWGSデータに対するichorCNAによって推定した。Figures 15A-15C illustrate accurate classification of NEPC phenotype from plasma in three patient cohorts using a probability model informed by PDX ctDNA features. Figure 15A graphically illustrates the receiver operating characteristic (ROC) curves for 101 mCRPC patients (DFCI cohort I) with ultra low-pass WGS (ULP-WGS) data. The optimal performance of 90.4% sensitivity (for predicting NEPC) and 97.5% specificity (for predicting ARPC) corresponds to a prediction score cutoff of 0.3314, shown by the horizontal and vertical dotted lines, respectively. Figure 15B illustrates the prediction scores for 11 plasma samples from seven patients (DFCI cohort II) with both WGS and ULP-WGS data. A 0.3314 score cutoff threshold (dotted line) was used to classify NEPC and ARPC. Tumor fraction was estimated by ichorcna from WGS data. Patients were treated for adenocarcinoma (ARPC) or had high PSA levels. Figure 15C illustrates the prediction scores for 47 plasma samples with clinical phenotypes including mixed or ambiguous phenotypes (triangles), including 26 ARPC, 5 NEPC, and 16 double-negative prostate cancer (DNPC). Scores for WGS and ULP-WGS (0.1x) for the same ctDNA samples are shown. A cutoff threshold of 0.3314 (dotted line) was used to classify NEPC and ARPC. Tumor fraction was estimated by ichorcna on WGS data. 図15A~15Cは、PDX ctDNA特徴から情報を得る確率モデルを使用した、3つの患者コホートにおける血漿からのNEPC表現型の正確な分類を例示する。図15Aは、超ローパスWGS(ULP-WGS)データを伴う101例のmCRPC患者(DFCIコホートI)についての受信者動作特性(ROC)曲線をグラフで例示する。90.4%感度(NEPCの予測について)および97.5%特異度(ARPCの予測について)という最適な性能は、それぞれ水平の点線および垂直の点線で示される予測スコアカットオフ0.3314に対応する。図15Bは、WGSデータおよびULP-WGSデータの両方を伴う7例の患者(DFCIコホートII)由来の11例の血漿試料についての予測スコアを例示する。NEPCとARPCを分類するために0.3314スコアカットオフ閾値(点線)を使用した。腫瘍割合をWGSデータからのichorCNAによって推定した。患者は腺癌(ARPC)に対する処置を受けたかまたは高PSA値を有した。図15Cは、26例のARPC、5例のNEPC、および16例のダブルネガティブ前立腺がん(DNPC)を含めた混合型または不明瞭な表現型(三角形)を含む臨床表現型を有する47例の血漿試料についての予測スコアを例示する。同じctDNA試料についてのWGSおよびULP-WGS(0.1×)についてのスコアが示されている。NEPCとARPCを分類するためにカットオフ閾値0.3314(点線)を使用した。腫瘍割合をWGSデータに対するichorCNAによって推定した。Figures 15A-15C illustrate accurate classification of NEPC phenotype from plasma in three patient cohorts using a probability model informed by PDX ctDNA features. Figure 15A graphically illustrates the receiver operating characteristic (ROC) curves for 101 mCRPC patients (DFCI cohort I) with ultra low-pass WGS (ULP-WGS) data. The optimal performance of 90.4% sensitivity (for predicting NEPC) and 97.5% specificity (for predicting ARPC) corresponds to a prediction score cutoff of 0.3314, shown by the horizontal and vertical dotted lines, respectively. Figure 15B illustrates the prediction scores for 11 plasma samples from seven patients (DFCI cohort II) with both WGS and ULP-WGS data. A 0.3314 score cutoff threshold (dotted line) was used to classify NEPC and ARPC. Tumor fraction was estimated by ichorcna from WGS data. Patients were treated for adenocarcinoma (ARPC) or had high PSA levels. Figure 15C illustrates the prediction scores for 47 plasma samples with clinical phenotypes including mixed or ambiguous phenotypes (triangles), including 26 ARPC, 5 NEPC, and 16 double-negative prostate cancer (DNPC). Scores for WGS and ULP-WGS (0.1x) for the same ctDNA samples are shown. A cutoff threshold of 0.3314 (dotted line) was used to classify NEPC and ARPC. Tumor fraction was estimated by ichorcna on WGS data. 図15A~15Cは、PDX ctDNA特徴から情報を得る確率モデルを使用した、3つの患者コホートにおける血漿からのNEPC表現型の正確な分類を例示する。図15Aは、超ローパスWGS(ULP-WGS)データを伴う101例のmCRPC患者(DFCIコホートI)についての受信者動作特性(ROC)曲線をグラフで例示する。90.4%感度(NEPCの予測について)および97.5%特異度(ARPCの予測について)という最適な性能は、それぞれ水平の点線および垂直の点線で示される予測スコアカットオフ0.3314に対応する。図15Bは、WGSデータおよびULP-WGSデータの両方を伴う7例の患者(DFCIコホートII)由来の11例の血漿試料についての予測スコアを例示する。NEPCとARPCを分類するために0.3314スコアカットオフ閾値(点線)を使用した。腫瘍割合をWGSデータからのichorCNAによって推定した。患者は腺癌(ARPC)に対する処置を受けたかまたは高PSA値を有した。図15Cは、26例のARPC、5例のNEPC、および16例のダブルネガティブ前立腺がん(DNPC)を含めた混合型または不明瞭な表現型(三角形)を含む臨床表現型を有する47例の血漿試料についての予測スコアを例示する。同じctDNA試料についてのWGSおよびULP-WGS(0.1×)についてのスコアが示されている。NEPCとARPCを分類するためにカットオフ閾値0.3314(点線)を使用した。腫瘍割合をWGSデータに対するichorCNAによって推定した。Figures 15A-15C illustrate accurate classification of NEPC phenotype from plasma in three patient cohorts using a probability model informed by PDX ctDNA features. Figure 15A graphically illustrates the receiver operating characteristic (ROC) curves for 101 mCRPC patients (DFCI cohort I) with ultra low-pass WGS (ULP-WGS) data. The optimal performance of 90.4% sensitivity (for predicting NEPC) and 97.5% specificity (for predicting ARPC) corresponds to a prediction score cutoff of 0.3314, shown by the horizontal and vertical dotted lines, respectively. Figure 15B illustrates the prediction scores for 11 plasma samples from seven patients (DFCI cohort II) with both WGS and ULP-WGS data. A 0.3314 score cutoff threshold (dotted line) was used to classify NEPC and ARPC. Tumor fraction was estimated by ichorcna from WGS data. Patients were treated for adenocarcinoma (ARPC) or had high PSA levels. Figure 15C illustrates the prediction scores for 47 plasma samples with clinical phenotypes including mixed or ambiguous phenotypes (triangles), including 26 ARPC, 5 NEPC, and 16 double-negative prostate cancer (DNPC). Scores for WGS and ULP-WGS (0.1x) for the same ctDNA samples are shown. A cutoff threshold of 0.3314 (dotted line) was used to classify NEPC and ARPC. Tumor fraction was estimated by ichorcna on WGS data. 図15A~15Cは、PDX ctDNA特徴から情報を得る確率モデルを使用した、3つの患者コホートにおける血漿からのNEPC表現型の正確な分類を例示する。図15Aは、超ローパスWGS(ULP-WGS)データを伴う101例のmCRPC患者(DFCIコホートI)についての受信者動作特性(ROC)曲線をグラフで例示する。90.4%感度(NEPCの予測について)および97.5%特異度(ARPCの予測について)という最適な性能は、それぞれ水平の点線および垂直の点線で示される予測スコアカットオフ0.3314に対応する。図15Bは、WGSデータおよびULP-WGSデータの両方を伴う7例の患者(DFCIコホートII)由来の11例の血漿試料についての予測スコアを例示する。NEPCとARPCを分類するために0.3314スコアカットオフ閾値(点線)を使用した。腫瘍割合をWGSデータからのichorCNAによって推定した。患者は腺癌(ARPC)に対する処置を受けたかまたは高PSA値を有した。図15Cは、26例のARPC、5例のNEPC、および16例のダブルネガティブ前立腺がん(DNPC)を含めた混合型または不明瞭な表現型(三角形)を含む臨床表現型を有する47例の血漿試料についての予測スコアを例示する。同じctDNA試料についてのWGSおよびULP-WGS(0.1×)についてのスコアが示されている。NEPCとARPCを分類するためにカットオフ閾値0.3314(点線)を使用した。腫瘍割合をWGSデータに対するichorCNAによって推定した。Figures 15A-15C illustrate accurate classification of NEPC phenotype from plasma in three patient cohorts using a probability model informed by PDX ctDNA features. Figure 15A graphically illustrates the receiver operating characteristic (ROC) curves for 101 mCRPC patients (DFCI cohort I) with ultra low-pass WGS (ULP-WGS) data. The optimal performance of 90.4% sensitivity (for predicting NEPC) and 97.5% specificity (for predicting ARPC) corresponds to a prediction score cutoff of 0.3314, shown by the horizontal and vertical dotted lines, respectively. Figure 15B illustrates the prediction scores for 11 plasma samples from seven patients (DFCI cohort II) with both WGS and ULP-WGS data. A 0.3314 score cutoff threshold (dotted line) was used to classify NEPC and ARPC. Tumor fraction was estimated by ichorcna from WGS data. Patients were treated for adenocarcinoma (ARPC) or had high PSA levels. Figure 15C illustrates the prediction scores for 47 plasma samples with clinical phenotypes including mixed or ambiguous phenotypes (triangles), including 26 ARPC, 5 NEPC, and 16 double-negative prostate cancer (DNPC). Scores for WGS and ULP-WGS (0.1x) for the same ctDNA samples are shown. A cutoff threshold of 0.3314 (dotted line) was used to classify NEPC and ARPC. Tumor fraction was estimated by ichorcna on WGS data.

図16は、SCLCにおける遺伝子変異の検出および重要な腫瘍エピジェネティック特徴の予測のための、cfDNAに基づいた、統合された非侵襲性の標的化シーケンシングアッセイの概略図である。FIG. 16 is a schematic diagram of an integrated, non-invasive, targeted sequencing assay based on cfDNA for detection of genetic alterations and prediction of key tumor epigenetic signatures in SCLC.

図17Aおよび17Bは、cfDNAの標的化シーケンシングを使用した、SCLCモデルにおける転写因子(TF)発現の検出を例示する。図17Aは、陰性対照試料(「健康ドナー」)および陽性対照試料(SCLC細胞モデル由来の「側腹部腫瘍」)の概念実証のための実験ワークフローの概略図である。図17Bは、健康ドナー(上の行)および側腹部腫瘍(下の行)についての標的化シーケンシングデータにおけるTFBSにわたる集計したカバレッジをグラフで例示する。TFBSがx軸の0位に位置することが予想される。データは予測されるTF発現ごとに色分けされている。健康ドナー由来のcfDNAは、RESTの発現を反映することが予想されるが、ASCL1、NEUROD1、またはPOU2F3の発現は反映しないことが予想される。SCLCモデルでは、TF発現に応じたカバレッジ分布の体系的な差異が明らかであった。17A and 17B illustrate detection of transcription factor (TF) expression in SCLC models using targeted sequencing of cfDNA. FIG. 17A is a schematic of the experimental workflow for proof of concept of a negative control sample ("healthy donor") and a positive control sample ("flank tumor" from a SCLC cell model). FIG. 17B graphically illustrates the aggregated coverage across TFBS in targeted sequencing data for a healthy donor (top row) and a flank tumor (bottom row). TFBS is expected to be located at position 0 on the x-axis. Data is color-coded by predicted TF expression. cfDNA from a healthy donor is expected to reflect expression of REST, but not ASCL1, NEUROD1, or POU2F3. Systematic differences in coverage distribution as a function of TF expression were evident in the SCLC model. 図17Aおよび17Bは、cfDNAの標的化シーケンシングを使用した、SCLCモデルにおける転写因子(TF)発現の検出を例示する。図17Aは、陰性対照試料(「健康ドナー」)および陽性対照試料(SCLC細胞モデル由来の「側腹部腫瘍」)の概念実証のための実験ワークフローの概略図である。図17Bは、健康ドナー(上の行)および側腹部腫瘍(下の行)についての標的化シーケンシングデータにおけるTFBSにわたる集計したカバレッジをグラフで例示する。TFBSがx軸の0位に位置することが予想される。データは予測されるTF発現ごとに色分けされている。健康ドナー由来のcfDNAは、RESTの発現を反映することが予想されるが、ASCL1、NEUROD1、またはPOU2F3の発現は反映しないことが予想される。SCLCモデルでは、TF発現に応じたカバレッジ分布の体系的な差異が明らかであった。17A and 17B illustrate detection of transcription factor (TF) expression in SCLC models using targeted sequencing of cfDNA. FIG. 17A is a schematic of the experimental workflow for proof of concept of a negative control sample ("healthy donor") and a positive control sample ("flank tumor" from a SCLC cell model). FIG. 17B graphically illustrates the aggregated coverage across TFBS in targeted sequencing data for a healthy donor (top row) and a flank tumor (bottom row). TFBS is expected to be located at position 0 on the x-axis. Data is color-coded by predicted TF expression. cfDNA from a healthy donor is expected to reflect expression of REST, but not ASCL1, NEUROD1, or POU2F3. Systematic differences in coverage distribution as a function of TF expression were evident in the SCLC model. 図17Aおよび17Bは、cfDNAの標的化シーケンシングを使用した、SCLCモデルにおける転写因子(TF)発現の検出を例示する。図17Aは、陰性対照試料(「健康ドナー」)および陽性対照試料(SCLC細胞モデル由来の「側腹部腫瘍」)の概念実証のための実験ワークフローの概略図である。図17Bは、健康ドナー(上の行)および側腹部腫瘍(下の行)についての標的化シーケンシングデータにおけるTFBSにわたる集計したカバレッジをグラフで例示する。TFBSがx軸の0位に位置することが予想される。データは予測されるTF発現ごとに色分けされている。健康ドナー由来のcfDNAは、RESTの発現を反映することが予想されるが、ASCL1、NEUROD1、またはPOU2F3の発現は反映しないことが予想される。SCLCモデルでは、TF発現に応じたカバレッジ分布の体系的な差異が明らかであった。17A and 17B illustrate detection of transcription factor (TF) expression in SCLC models using targeted sequencing of cfDNA. FIG. 17A is a schematic of the experimental workflow for proof of concept of a negative control sample ("healthy donor") and a positive control sample ("flank tumor" from a SCLC cell model). FIG. 17B graphically illustrates the aggregated coverage across TFBS in targeted sequencing data for a healthy donor (top row) and a flank tumor (bottom row). TFBS is expected to be located at position 0 on the x-axis. Data is color-coded by predicted TF expression. cfDNA from a healthy donor is expected to reflect expression of REST, but not ASCL1, NEUROD1, or POU2F3. Systematic differences in coverage distribution as a function of TF expression were evident in the SCLC model. 図17Aおよび17Bは、cfDNAの標的化シーケンシングを使用した、SCLCモデルにおける転写因子(TF)発現の検出を例示する。図17Aは、陰性対照試料(「健康ドナー」)および陽性対照試料(SCLC細胞モデル由来の「側腹部腫瘍」)の概念実証のための実験ワークフローの概略図である。図17Bは、健康ドナー(上の行)および側腹部腫瘍(下の行)についての標的化シーケンシングデータにおけるTFBSにわたる集計したカバレッジをグラフで例示する。TFBSがx軸の0位に位置することが予想される。データは予測されるTF発現ごとに色分けされている。健康ドナー由来のcfDNAは、RESTの発現を反映することが予想されるが、ASCL1、NEUROD1、またはPOU2F3の発現は反映しないことが予想される。SCLCモデルでは、TF発現に応じたカバレッジ分布の体系的な差異が明らかであった。17A and 17B illustrate detection of transcription factor (TF) expression in SCLC models using targeted sequencing of cfDNA. FIG. 17A is a schematic of the experimental workflow for proof of concept of a negative control sample ("healthy donor") and a positive control sample ("flank tumor" from a SCLC cell model). FIG. 17B graphically illustrates the aggregated coverage across TFBS in targeted sequencing data for a healthy donor (top row) and a flank tumor (bottom row). TFBS is expected to be located at position 0 on the x-axis. Data is color-coded by predicted TF expression. cfDNA from a healthy donor is expected to reflect expression of REST, but not ASCL1, NEUROD1, or POU2F3. Systematic differences in coverage distribution as a function of TF expression were evident in the SCLC model. 図17Aおよび17Bは、cfDNAの標的化シーケンシングを使用した、SCLCモデルにおける転写因子(TF)発現の検出を例示する。図17Aは、陰性対照試料(「健康ドナー」)および陽性対照試料(SCLC細胞モデル由来の「側腹部腫瘍」)の概念実証のための実験ワークフローの概略図である。図17Bは、健康ドナー(上の行)および側腹部腫瘍(下の行)についての標的化シーケンシングデータにおけるTFBSにわたる集計したカバレッジをグラフで例示する。TFBSがx軸の0位に位置することが予想される。データは予測されるTF発現ごとに色分けされている。健康ドナー由来のcfDNAは、RESTの発現を反映することが予想されるが、ASCL1、NEUROD1、またはPOU2F3の発現は反映しないことが予想される。SCLCモデルでは、TF発現に応じたカバレッジ分布の体系的な差異が明らかであった。17A and 17B illustrate detection of transcription factor (TF) expression in SCLC models using targeted sequencing of cfDNA. FIG. 17A is a schematic of the experimental workflow for proof of concept of a negative control sample ("healthy donor") and a positive control sample ("flank tumor" from a SCLC cell model). FIG. 17B graphically illustrates the aggregated coverage across TFBS in targeted sequencing data for a healthy donor (top row) and a flank tumor (bottom row). TFBS is expected to be located at position 0 on the x-axis. Data is color-coded by predicted TF expression. cfDNA from a healthy donor is expected to reflect expression of REST, but not ASCL1, NEUROD1, or POU2F3. Systematic differences in coverage distribution as a function of TF expression were evident in the SCLC model.

図18A~18Cは、相当する腫瘍遺伝子発現データが利用可能なSCLC患者試料からのTFBSカバレッジ分布を使用した転写因子活性の推測を例示する。図18Aは、健康ドナー(上の行)および遺伝子発現データを伴う相当する腫瘍組織が利用可能であったSCLCを有する患者(下の行)についての標的化シーケンシングデータにおけるTFBSにわたる集計したカバレッジをグラフで例示する。試料は予測されるTF発現ごとに色分けされている。予測されるTF発現に応じたカバレッジ分布の体系的な差異がここでも明らかである。図18Bは、ヒートマップとして表示された、選択された患者試料における重要な遺伝子の遺伝子発現を例示する。細胞がZ-スコアごとに色分けされており、挿入文字はlog2(TPM+1)である。図18Cは、ヒートマップとして表示された、各患者試料におけるTFBSにおけるカバレッジ分布から算出されたピークとトラフの振幅を例示する。振幅が色で示されており、また、挿入文字でも示されている。トラフ深度の大きさは、これらの真正SCLC患者試料における重要なTFの遺伝子発現に対応する。18A-18C illustrate the inference of transcription factor activity using TFBS coverage distributions from SCLC patient samples for which corresponding tumor gene expression data were available. FIG. 18A graphically illustrates the aggregated coverage across TFBS in targeted sequencing data for healthy donors (top row) and patients with SCLC for which corresponding tumor tissue with gene expression data was available (bottom row). Samples are color-coded by predicted TF expression. Systematic differences in coverage distribution as a function of predicted TF expression are again evident. FIG. 18B illustrates gene expression of significant genes in selected patient samples displayed as a heat map. Cells are color-coded by Z-score and inset is log2(TPM+1). FIG. 18C illustrates the peak and trough amplitudes calculated from the coverage distribution across TFBS in each patient sample displayed as a heat map. Amplitudes are indicated by color and are also indicated inset. The magnitude of trough depth corresponds to the gene expression of key TFs in these bona fide SCLC patient samples. 図18A~18Cは、相当する腫瘍遺伝子発現データが利用可能なSCLC患者試料からのTFBSカバレッジ分布を使用した転写因子活性の推測を例示する。図18Aは、健康ドナー(上の行)および遺伝子発現データを伴う相当する腫瘍組織が利用可能であったSCLCを有する患者(下の行)についての標的化シーケンシングデータにおけるTFBSにわたる集計したカバレッジをグラフで例示する。試料は予測されるTF発現ごとに色分けされている。予測されるTF発現に応じたカバレッジ分布の体系的な差異がここでも明らかである。図18Bは、ヒートマップとして表示された、選択された患者試料における重要な遺伝子の遺伝子発現を例示する。細胞がZ-スコアごとに色分けされており、挿入文字はlog2(TPM+1)である。図18Cは、ヒートマップとして表示された、各患者試料におけるTFBSにおけるカバレッジ分布から算出されたピークとトラフの振幅を例示する。振幅が色で示されており、また、挿入文字でも示されている。トラフ深度の大きさは、これらの真正SCLC患者試料における重要なTFの遺伝子発現に対応する。18A-18C illustrate the inference of transcription factor activity using TFBS coverage distributions from SCLC patient samples for which corresponding tumor gene expression data were available. FIG. 18A graphically illustrates the aggregated coverage across TFBS in targeted sequencing data for healthy donors (top row) and patients with SCLC for which corresponding tumor tissue with gene expression data was available (bottom row). Samples are color-coded by predicted TF expression. Systematic differences in coverage distribution as a function of predicted TF expression are again evident. FIG. 18B illustrates gene expression of significant genes in selected patient samples displayed as a heat map. Cells are color-coded by Z-score and inset is log2(TPM+1). FIG. 18C illustrates the peak and trough amplitudes calculated from the coverage distribution across TFBS in each patient sample displayed as a heat map. Amplitudes are indicated by color and are also indicated inset. The magnitude of trough depth corresponds to the gene expression of key TFs in these bona fide SCLC patient samples. 図18A~18Cは、相当する腫瘍遺伝子発現データが利用可能なSCLC患者試料からのTFBSカバレッジ分布を使用した転写因子活性の推測を例示する。図18Aは、健康ドナー(上の行)および遺伝子発現データを伴う相当する腫瘍組織が利用可能であったSCLCを有する患者(下の行)についての標的化シーケンシングデータにおけるTFBSにわたる集計したカバレッジをグラフで例示する。試料は予測されるTF発現ごとに色分けされている。予測されるTF発現に応じたカバレッジ分布の体系的な差異がここでも明らかである。図18Bは、ヒートマップとして表示された、選択された患者試料における重要な遺伝子の遺伝子発現を例示する。細胞がZ-スコアごとに色分けされており、挿入文字はlog2(TPM+1)である。図18Cは、ヒートマップとして表示された、各患者試料におけるTFBSにおけるカバレッジ分布から算出されたピークとトラフの振幅を例示する。振幅が色で示されており、また、挿入文字でも示されている。トラフ深度の大きさは、これらの真正SCLC患者試料における重要なTFの遺伝子発現に対応する。18A-18C illustrate the inference of transcription factor activity using TFBS coverage distributions from SCLC patient samples for which corresponding tumor gene expression data were available. FIG. 18A graphically illustrates the aggregated coverage across TFBS in targeted sequencing data for healthy donors (top row) and patients with SCLC for which corresponding tumor tissue with gene expression data was available (bottom row). Samples are color-coded by predicted TF expression. Systematic differences in coverage distribution as a function of predicted TF expression are again evident. FIG. 18B illustrates gene expression of significant genes in selected patient samples displayed as a heat map. Cells are color-coded by Z-score and inset is log2(TPM+1). FIG. 18C illustrates the peak and trough amplitudes calculated from the coverage distribution across TFBS in each patient sample displayed as a heat map. Amplitudes are indicated by color and are also indicated inset. The magnitude of trough depth corresponds to the gene expression of key TFs in these bona fide SCLC patient samples. 図18A~18Cは、相当する腫瘍遺伝子発現データが利用可能なSCLC患者試料からのTFBSカバレッジ分布を使用した転写因子活性の推測を例示する。図18Aは、健康ドナー(上の行)および遺伝子発現データを伴う相当する腫瘍組織が利用可能であったSCLCを有する患者(下の行)についての標的化シーケンシングデータにおけるTFBSにわたる集計したカバレッジをグラフで例示する。試料は予測されるTF発現ごとに色分けされている。予測されるTF発現に応じたカバレッジ分布の体系的な差異がここでも明らかである。図18Bは、ヒートマップとして表示された、選択された患者試料における重要な遺伝子の遺伝子発現を例示する。細胞がZ-スコアごとに色分けされており、挿入文字はlog2(TPM+1)である。図18Cは、ヒートマップとして表示された、各患者試料におけるTFBSにおけるカバレッジ分布から算出されたピークとトラフの振幅を例示する。振幅が色で示されており、また、挿入文字でも示されている。トラフ深度の大きさは、これらの真正SCLC患者試料における重要なTFの遺伝子発現に対応する。18A-18C illustrate the inference of transcription factor activity using TFBS coverage distributions from SCLC patient samples for which corresponding tumor gene expression data were available. FIG. 18A graphically illustrates the aggregated coverage across TFBS in targeted sequencing data for healthy donors (top row) and patients with SCLC for which corresponding tumor tissue with gene expression data was available (bottom row). Samples are color-coded by predicted TF expression. Systematic differences in coverage distribution as a function of predicted TF expression are again evident. FIG. 18B illustrates gene expression of significant genes in selected patient samples displayed as a heat map. Cells are color-coded by Z-score and inset is log2(TPM+1). FIG. 18C illustrates the peak and trough amplitudes calculated from the coverage distribution across TFBS in each patient sample displayed as a heat map. Amplitudes are indicated by color and are also indicated inset. The magnitude of trough depth corresponds to the gene expression of key TFs in these bona fide SCLC patient samples. 図18A~18Cは、相当する腫瘍遺伝子発現データが利用可能なSCLC患者試料からのTFBSカバレッジ分布を使用した転写因子活性の推測を例示する。図18Aは、健康ドナー(上の行)および遺伝子発現データを伴う相当する腫瘍組織が利用可能であったSCLCを有する患者(下の行)についての標的化シーケンシングデータにおけるTFBSにわたる集計したカバレッジをグラフで例示する。試料は予測されるTF発現ごとに色分けされている。予測されるTF発現に応じたカバレッジ分布の体系的な差異がここでも明らかである。図18Bは、ヒートマップとして表示された、選択された患者試料における重要な遺伝子の遺伝子発現を例示する。細胞がZ-スコアごとに色分けされており、挿入文字はlog2(TPM+1)である。図18Cは、ヒートマップとして表示された、各患者試料におけるTFBSにおけるカバレッジ分布から算出されたピークとトラフの振幅を例示する。振幅が色で示されており、また、挿入文字でも示されている。トラフ深度の大きさは、これらの真正SCLC患者試料における重要なTFの遺伝子発現に対応する。18A-18C illustrate the inference of transcription factor activity using TFBS coverage distributions from SCLC patient samples for which corresponding tumor gene expression data were available. FIG. 18A graphically illustrates the aggregated coverage across TFBS in targeted sequencing data for healthy donors (top row) and patients with SCLC for which corresponding tumor tissue with gene expression data was available (bottom row). Samples are color-coded by predicted TF expression. Systematic differences in coverage distribution as a function of predicted TF expression are again evident. FIG. 18B illustrates gene expression of significant genes in selected patient samples displayed as a heat map. Cells are color-coded by Z-score and inset is log2(TPM+1). FIG. 18C illustrates the peak and trough amplitudes calculated from the coverage distribution across TFBS in each patient sample displayed as a heat map. Amplitudes are indicated by color and are also indicated inset. The magnitude of trough depth corresponds to the gene expression of key TFs in these bona fide SCLC patient samples.

図19は、試料の型における転写因子結合部位のピークとトラフの振幅の定量を例示する一連のグラフである。TF発現の予測されるグラウンドトゥルースに従って、集計したカバレッジ分布から算出されたTFBSにおけるピークとトラフの振幅の分布。「非SCLC」と表示されているPdx試料はNSCLC pdxモデルである。「非SCLC」と表示されている患者試料は、NSCLCを有する患者由来の試料(n=11)または悪性腫瘍と診断されていない患者由来の試料(n=4)のいずれかである。ASCL1部位のピークとトラフの振幅は、SCLC状況およびASCL1陽性の両方に関連付けられるが、一方、NEUROD1およびPOU2F3のピークとトラフの振幅は、TF陽性のみに関連付けられる。19 is a series of graphs illustrating the quantification of the peak and trough amplitudes of transcription factor binding sites in sample types. Distribution of peak and trough amplitudes in TFBS calculated from the aggregated coverage distribution according to the predicted ground truth of TF expression. Pdx samples labeled "non-SCLC" are NSCLC pdx models. Patient samples labeled "non-SCLC" are either samples from patients with NSCLC (n=11) or from patients without a diagnosed malignancy (n=4). Peak and trough amplitudes of ASCL1 sites are associated with both SCLC status and ASCL1 positivity, whereas peak and trough amplitudes of NEUROD1 and POU2F3 are associated with TF positivity only. 図19は、試料の型における転写因子結合部位のピークとトラフの振幅の定量を例示する一連のグラフである。TF発現の予測されるグラウンドトゥルースに従って、集計したカバレッジ分布から算出されたTFBSにおけるピークとトラフの振幅の分布。「非SCLC」と表示されているPdx試料はNSCLC pdxモデルである。「非SCLC」と表示されている患者試料は、NSCLCを有する患者由来の試料(n=11)または悪性腫瘍と診断されていない患者由来の試料(n=4)のいずれかである。ASCL1部位のピークとトラフの振幅は、SCLC状況およびASCL1陽性の両方に関連付けられるが、一方、NEUROD1およびPOU2F3のピークとトラフの振幅は、TF陽性のみに関連付けられる。19 is a series of graphs illustrating the quantification of the peak and trough amplitudes of transcription factor binding sites in sample types. Distribution of peak and trough amplitudes in TFBS calculated from the aggregated coverage distribution according to the predicted ground truth of TF expression. Pdx samples labeled "non-SCLC" are NSCLC pdx models. Patient samples labeled "non-SCLC" are either samples from patients with NSCLC (n=11) or from patients without a diagnosed malignancy (n=4). Peak and trough amplitudes of ASCL1 sites are associated with both SCLC status and ASCL1 positivity, whereas peak and trough amplitudes of NEUROD1 and POU2F3 are associated with TF positivity only. 図19は、試料の型における転写因子結合部位のピークとトラフの振幅の定量を例示する一連のグラフである。TF発現の予測されるグラウンドトゥルースに従って、集計したカバレッジ分布から算出されたTFBSにおけるピークとトラフの振幅の分布。「非SCLC」と表示されているPdx試料はNSCLC pdxモデルである。「非SCLC」と表示されている患者試料は、NSCLCを有する患者由来の試料(n=11)または悪性腫瘍と診断されていない患者由来の試料(n=4)のいずれかである。ASCL1部位のピークとトラフの振幅は、SCLC状況およびASCL1陽性の両方に関連付けられるが、一方、NEUROD1およびPOU2F3のピークとトラフの振幅は、TF陽性のみに関連付けられる。19 is a series of graphs illustrating the quantification of the peak and trough amplitudes of transcription factor binding sites in sample types. Distribution of peak and trough amplitudes in TFBS calculated from the aggregated coverage distribution according to the predicted ground truth of TF expression. Pdx samples labeled "non-SCLC" are NSCLC pdx models. Patient samples labeled "non-SCLC" are either samples from patients with NSCLC (n=11) or from patients without a diagnosed malignancy (n=4). Peak and trough amplitudes of ASCL1 sites are associated with both SCLC status and ASCL1 positivity, whereas peak and trough amplitudes of NEUROD1 and POU2F3 are associated with TF positivity only.

図20Aおよび20Bは、側腹部腫瘍陽性対照試料におけるTSSカバレッジ分布を使用した遺伝子発現推測をグラフで例示する。図20Aは、SCLC側腹部腫瘍モデル(五分位数1~5)および血液(「B」、濃青色)における遺伝子発現の五分位数によって群分けされた、cfDNAの標的化シーケンシングからのTSSカバレッジ分布を例示する。全血における低発現およびTSSカバレッジ分布と遺伝子発現の相関に基づいて選択された1,213種の遺伝子に対応する1,912カ所のTSSが示されている。TSSカバレッジ分布は、対応する遺伝子の発現に応じて体系的に変動する。図20Bは、上記のまたは対応するTSSのカバレッジ分布から推測して閾値を下回る(閾値0.1、0.5、1.0、および2.0について示されている)遺伝子発現の予測についての受信者動作特性曲線を例示する。遺伝子発現の推定量を、TSSカバレッジプロファイルから、TSSに対して+130位および+145位におけるアベレージカバレッジ深度から-45位、-30位、および-15位におけるアベレージ深度を引いた差異の大きさとして算出した(20Aにおいて点線で示されている)。ROC曲線のAUCが各遺伝子発現カットオフについて括弧内に示されている。特に変動しやすく、したがって難しい遺伝子に制限されるこの予備解析において、TSSカバレッジ分布を使用して、良好な試験特性で、遺伝子がある特定の値を上回って発現されるかまたは下回って発現されるかを予測することができる。20A and 20B graphically illustrate gene expression inference using TSS coverage distributions in flank tumor positive control samples. FIG. 20A illustrates TSS coverage distributions from targeted sequencing of cfDNA grouped by quintiles of gene expression in SCLC flank tumor models (quintiles 1-5) and blood ("B", dark blue). Shown are 1,912 TSSs corresponding to 1,213 genes selected based on low expression in whole blood and correlation of TSS coverage distribution with gene expression. TSS coverage distributions vary systematically depending on the expression of the corresponding genes. FIG. 20B illustrates receiver operating characteristic curves for prediction of gene expression below threshold (shown for thresholds 0.1, 0.5, 1.0, and 2.0) as inferred from the coverage distributions of the above or corresponding TSSs. Estimates of gene expression were calculated from the TSS coverage profile as the magnitude of the difference between the average coverage depth at positions +130 and +145 relative to the TSS minus the average depth at positions -45, -30, and -15 (shown as dotted lines in 20A). The AUC of the ROC curves is shown in parentheses for each gene expression cutoff. In this preliminary analysis, restricted to particularly variable and therefore challenging genes, the TSS coverage distribution can be used to predict, with good test properties, whether a gene is expressed above or below a certain value.

図21A~21Cは、肺がんPdxモデルおよび患者試料においてSCLC状況であるかNSCLC状況であるかを予測するための、TSSパネルの大きな合理的に選択されたサブセットにわたる集計したカバレッジプロファイルの使用を例示する一連のグラフである。グラフには、3つの異なる試料:1つの健康ドナー(21A)、1つのNSCLC Pdxモデル(21B)、および1つのSCLC Pdxモデル(21C)についての、NSCLC(n=396)およびSCLC(n=1045)における上方調節に関して選択された遺伝子TSSにわたる集計したTSSカバレッジ分布の例が提示されている。NSCLC PDXモデルに重ねて示されている通り、振幅特徴を各カバレッジ分布曲線からTSSに対して-45位におけるカバレッジと+120位におけるカバレッジの差異として算出し、それにより、試料内での、および試料間での比較を容易にした。21A-21C are a series of graphs illustrating the use of aggregated coverage profiles across a large, rationally selected subset of the TSS panel to predict SCLC or NSCLC status in lung cancer Pdx models and patient samples. The graphs provide examples of aggregated TSS coverage distribution across selected gene TSSs for upregulation in NSCLC (n=396) and SCLC (n=1045) for three different samples: one healthy donor (21A), one NSCLC Pdx model (21B), and one SCLC Pdx model (21C). As shown overlaid on the NSCLC PDX model, amplitude features were calculated from each coverage distribution curve as the difference between coverage at position -45 and coverage at position +120 for the TSS, facilitating comparisons within and between samples. 図21A~21Cは、肺がんPdxモデルおよび患者試料においてSCLC状況であるかNSCLC状況であるかを予測するための、TSSパネルの大きな合理的に選択されたサブセットにわたる集計したカバレッジプロファイルの使用を例示する一連のグラフである。グラフには、3つの異なる試料:1つの健康ドナー(21A)、1つのNSCLC Pdxモデル(21B)、および1つのSCLC Pdxモデル(21C)についての、NSCLC(n=396)およびSCLC(n=1045)における上方調節に関して選択された遺伝子TSSにわたる集計したTSSカバレッジ分布の例が提示されている。NSCLC PDXモデルに重ねて示されている通り、振幅特徴を各カバレッジ分布曲線からTSSに対して-45位におけるカバレッジと+120位におけるカバレッジの差異として算出し、それにより、試料内での、および試料間での比較を容易にした。21A-21C are a series of graphs illustrating the use of aggregated coverage profiles across a large, rationally selected subset of the TSS panel to predict SCLC or NSCLC status in lung cancer Pdx models and patient samples. The graphs provide examples of aggregated TSS coverage distribution across selected gene TSSs for upregulation in NSCLC (n=396) and SCLC (n=1045) for three different samples: one healthy donor (21A), one NSCLC Pdx model (21B), and one SCLC Pdx model (21C). As shown overlaid on the NSCLC PDX model, amplitude features were calculated from each coverage distribution curve as the difference between coverage at position -45 and coverage at position +120 for the TSS, facilitating comparisons within and between samples. 図21A~21Cは、肺がんPdxモデルおよび患者試料においてSCLC状況であるかNSCLC状況であるかを予測するための、TSSパネルの大きな合理的に選択されたサブセットにわたる集計したカバレッジプロファイルの使用を例示する一連のグラフである。グラフには、3つの異なる試料:1つの健康ドナー(21A)、1つのNSCLC Pdxモデル(21B)、および1つのSCLC Pdxモデル(21C)についての、NSCLC(n=396)およびSCLC(n=1045)における上方調節に関して選択された遺伝子TSSにわたる集計したTSSカバレッジ分布の例が提示されている。NSCLC PDXモデルに重ねて示されている通り、振幅特徴を各カバレッジ分布曲線からTSSに対して-45位におけるカバレッジと+120位におけるカバレッジの差異として算出し、それにより、試料内での、および試料間での比較を容易にした。21A-21C are a series of graphs illustrating the use of aggregated coverage profiles across a large, rationally selected subset of the TSS panel to predict SCLC or NSCLC status in lung cancer Pdx models and patient samples. The graphs provide examples of aggregated TSS coverage distribution across selected gene TSSs for upregulation in NSCLC (n=396) and SCLC (n=1045) for three different samples: one healthy donor (21A), one NSCLC Pdx model (21B), and one SCLC Pdx model (21C). As shown overlaid on the NSCLC PDX model, amplitude features were calculated from each coverage distribution curve as the difference between coverage at position -45 and coverage at position +120 for the TSS, facilitating comparisons within and between samples.

図22Aおよび22Bは、肺がんPdxモデル(22A)および患者試料(22B)におけるSCLC状況であるかNSCLC状況であるかを予測するための、TSSパネルの大きな合理的に選択されたサブセットにわたる集計したカバレッジプロファイルの使用を例示する一連のグラフである。肺がんPDX試料由来の血漿試料(非がん対照患者についても参照のために「良性」として示されている)または肺がん患者由来の血漿試料における、SCLC特異的遺伝子TSS(y軸、n=1045)とそれに対してNSCLC特異的遺伝子TSS(x軸、n=396)の集計したカバレッジ。腺癌から分化転換したSCLC PDXが太い赤色の線で特定される。22A and 22B are a series of graphs illustrating the use of aggregated coverage profiles across a large, rationally selected subset of the TSS panel to predict SCLC or NSCLC status in lung cancer PDX models (22A) and patient samples (22B). Aggregated coverage of SCLC-specific gene TSS (y-axis, n=1045) versus NSCLC-specific gene TSS (x-axis, n=396) in plasma samples from lung cancer PDX samples (also shown as "benign" for reference for non-cancer control patients) or plasma samples from lung cancer patients. SCLC PDXs that have transdifferentiated from adenocarcinoma are identified by the thick red line. 図22Aおよび22Bは、肺がんPdxモデル(22A)および患者試料(22B)におけるSCLC状況であるかNSCLC状況であるかを予測するための、TSSパネルの大きな合理的に選択されたサブセットにわたる集計したカバレッジプロファイルの使用を例示する一連のグラフである。肺がんPDX試料由来の血漿試料(非がん対照患者についても参照のために「良性」として示されている)または肺がん患者由来の血漿試料における、SCLC特異的遺伝子TSS(y軸、n=1045)とそれに対してNSCLC特異的遺伝子TSS(x軸、n=396)の集計したカバレッジ。腺癌から分化転換したSCLC PDXが太い赤色の線で特定される。22A and 22B are a series of graphs illustrating the use of aggregated coverage profiles across a large, rationally selected subset of the TSS panel to predict SCLC or NSCLC status in lung cancer PDX models (22A) and patient samples (22B). Aggregated coverage of SCLC-specific gene TSS (y-axis, n=1045) versus NSCLC-specific gene TSS (x-axis, n=396) in plasma samples from lung cancer PDX samples (also shown as "benign" for reference for non-cancer control patients) or plasma samples from lung cancer patients. SCLC PDXs that have transdifferentiated from adenocarcinoma are identified by the thick red line.

図23は、本開示の態様に従った細胞(例えば、がん、例えば、前立腺がん)亜型予測の方法の実施形態の非限定的な例を例示するフローチャートである。FIG. 23 is a flow chart illustrating a non-limiting example of an embodiment of a method of cell (e.g., cancer, e.g., prostate cancer) subtype prediction according to aspects of the present disclosure.

詳細な説明
本開示は、セルフリーDNA(cfDNA)からクロマチンアーキテクチャを評定するため、ならびに、決定されたクロマチンアーキテクチャに基づいて細胞および/または組織の表現型を検出および識別するために正確なシグナルをもたらすための、容易かつ高感度の手法の本発明者らによる開発に基づく。
DETAILED DESCRIPTION The present disclosure is based on the inventors' development of an easy and sensitive method to assess chromatin architecture from cell-free DNA (cfDNA) and to provide an accurate signal to detect and distinguish cell and/or tissue phenotypes based on the determined chromatin architecture.

セルフリーDNA(cfDNA)は、死に瀕した、腫瘍細胞を含めた細胞から放出され、生物学の観点で調査するために末梢血から単離することができる。腫瘍学的には、cfDNAの亜型として、循環腫瘍DNA(ctDNA)が腫瘍細胞から血液中に放出される。ctDNAが存在することにより、上記の組織アクセシビリティに関する難題に対処するための非侵襲性の「リキッドバイオプシー」という解決法の機会が示される。現行の研究および臨床的試みでは、ctDNA由来の選択されたがん遺伝子の遺伝子変異を検出することに焦点が当てられており、臨床的有用性の潜在性が実証されている。ゲノムの変更を検出するためのctDNAのシーケンシング解析も、遺伝子の差異に基づいて腫瘍のいくつかのサブセットを分類することに役立った。しかし、腫瘍表現型をctDNAから調査することは、依然として困難であり、未だに初期の研究分野のままである。 Cell-free DNA (cfDNA) is released from dying cells, including tumor cells, and can be isolated from peripheral blood for biological investigation. In oncology, as a subtype of cfDNA, circulating tumor DNA (ctDNA) is released from tumor cells into the blood. The presence of ctDNA represents an opportunity for a non-invasive "liquid biopsy" solution to address the tissue accessibility challenges mentioned above. Current research and clinical attempts are focused on detecting genetic mutations in selected cancer genes from ctDNA, and have demonstrated potential clinical utility. Sequencing analysis of ctDNA to detect genomic alterations has also helped classify several subsets of tumors based on genetic differences. However, investigating tumor phenotypes from ctDNA remains challenging and remains a nascent research area.

cfDNAが血流中でヌクレオソームおよび他のDNA結合タンパク質による分解から保護されており、それにより、起源細胞におけるゲノム組織化を反映するカバレッジパターンをもたらすことが本発明者らおよび他者により指摘されている。ゲノム組織化には、クロマチンアクセシビリティのパターンおよび転写調節が含まれ、今度はそれにより、起源細胞の示差的表現型が促進される。したがって、cfDNAにより、DNA変更を伴う、従来の遺伝子型の解析を超える腫瘍表現型の解析によって腫瘍亜型を同定するための非侵襲性手段がもたらされ得る。 We and others have noted that cfDNA is protected from degradation by nucleosomes and other DNA-binding proteins in the bloodstream, resulting in a coverage pattern that reflects the genome organization in the cell of origin. Genomic organization includes patterns of chromatin accessibility and transcriptional regulation, which in turn drive the differential phenotype of the cell of origin. Thus, cfDNA may provide a non-invasive means to identify tumor subtypes by analysis of tumor phenotypes beyond traditional analysis of genotypes with DNA alterations.

ctDNA試料の分析からゲノム、クロマチンアクセシビリティ、トランスクリプトーム、および転写調節の「マルチオミクス」プロファイリングを実施するという興味深い可能性が存在するが、ctDNAからこれらのマルチオミクスプロファイルを予測するため、特に、転移がんにおける疾患増悪の間のゲノムおよび表現型シグネチャーの変化ならびに処置に対する抵抗性を同定するための非侵襲性の適用のための頑強なツールは以前には存在していなかった。例えば、活発に転写される遺伝子の転写開始部位(TSS)におけるヌクレオソーム占有率を実証するために以前になされた試みを、個々の遺伝子についての転写の存在を予測するために使用することができる(その全体が参照により本明細書に組み込まれる、Ulz P, et al. Inferring expressed genes by whole-genome sequencing of plasma DNA. Nat Genet. 2016; 48 (10): 1273-1278を参照されたい)。しかし、この手法では、少しでも信頼できる正確度で予測するために大きな(>75%)腫瘍割合または体細胞コピー数増幅の領域が必要になる。別の試験において、同じ観念を使用して、転写因子(TF)活性を予測するために転写因子結合部位(TFBS)のヌクレオソーム占有率が評定された(Ulz P, et al. Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nat Commun. 2019; 10 (1): 4666を参照されたい、その全体が参照により本明細書に組み込まれる)。この試験では、TFが、腺癌ctDNA試料とNEPC ctDNA試料の間で異なるシグナルを示すことが実証された。しかし、この手法では、局所的な配列の偏り(例えばGC含量)、体細胞CNA、ctDNA割合、腫瘍割合、および、がん患者では健康ドナーと比較してより短い断片が富化されているcfDNA断片サイズなどの特徴の説明も組み入れもなされていない。これらの因子は結果に著しく影響を及ぼすことが観察されており、したがって、データからの実際のシグナルは不明瞭なものになる。したがって、そのような現存の手法が、費用効果がより大きく、それにより臨床環境で利用しやすいシーケンシングの選択肢になるような、超ローパス全ゲノムシーケンシングデータ(ULP-WGS)(0.1×)からのデータに対して機能するために十分に高感度かつ頑強なものであり得る可能性は低い。 Although there is an intriguing possibility of performing genomic, chromatin accessibility, transcriptomic, and transcriptional regulation "multi-omics" profiling from analysis of ctDNA samples, there have been no robust tools previously available for predicting these multi-omics profiles from ctDNA, particularly for non-invasive applications to identify genomic and phenotypic signature changes during disease progression and resistance to treatment in metastatic cancer. For example, previous attempts to demonstrate nucleosome occupancy at the transcription start sites (TSS) of actively transcribed genes can be used to predict the presence of transcription for individual genes (see Ulz P, et al. Inferring expressed genes by whole-genome sequencing of plasma DNA. Nat Genet. 2016; 48 (10): 1273-1278, incorporated herein by reference in its entirety). However, this approach requires large (>75%) tumor fractions or areas of somatic copy number amplification to make predictions with any reliable accuracy. In another study, the same concept was used to assess nucleosome occupancy of transcription factor binding sites (TFBS) to predict transcription factor (TF) activity (see Ulz P, et al. Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nat Commun. 2019; 10 (1): 4666, incorporated herein by reference in its entirety). This study demonstrated that TFs exhibited differential signals between adenocarcinoma and NEPC ctDNA samples. However, this approach did not account for or incorporate features such as local sequence bias (e.g., GC content), somatic CNAs, ctDNA fraction, tumor fraction, and cfDNA fragment size, which are enriched for shorter fragments in cancer patients compared to healthy donors. These factors were observed to significantly affect the results, thus obscuring the actual signal from the data. Therefore, it is unlikely that such existing methods can be sensitive and robust enough to work with data from ultra-low-pass whole genome sequencing data (ULP-WGS) (0.1x), which would make them a more cost-effective and therefore accessible sequencing option in clinical settings.

本発明者らは、当技術分野の欠点に対処して、細胞表現型を検出し、識別するための、容易、頑強、かつ高感度の手法を作り出した。下でより詳細に記載されている通り、当該手法は、アクセシブル部位の周囲のcfDNA断片を定量することによってヌクレオソーム保護およびクロマチンアクセシビリティを調査するための「Griffin」と称される中心的な方法に一部基づく。以前の方法とは異なり、Griffinでは、断片長に基づいたGC補正を考慮して、特にULP-WGS適用(例えば、0.1×という低さのカバレッジのWGS)において多く見られる、シグナルを不明瞭にするGCの偏りを取り除くための極めて重要な手法を実行する。Griffinにおいて実装されるこの新規の断片サイズを認識したGCの偏りの補正手法は、シグナル対ノイズを最大にし、cfDNAに対するULP-WGSなどの配列データの解析を最適化するために役立つ。実施例1に記載の最初の概念実証として、本発明者らは、cfDNAの試料にGriffin手法を適用した。Griffinにより、早期がん患者における腫瘍cfDNAを検出する優れた性能が実現された(AUC=0.96)。次に、当該手法を、異なる表現型(すなわち、ER+およびER-)を有する転移乳がん(MBC)を有する対象から得た試料に適用し、ヌクレオソーム占有率を正確に決定することにより、2つの表現型を識別することが可能になることが実証された。具体的には、139例の患者由来の254例の試料を分析し、ER亜型が高性能で予測され(AUC=0.89)、それにより、腫瘍の不均一性に関する有益な洞察が導かれた。cfDNAの使用を用いてホルモン亜型を予測することができるというこの実証は、亜型を同定し、侵襲性が最小限かつ費用効果が大きい様式に潜在的に切り換えるための臨床診断にすぐに適用でき、それにより、適切な治療を推進することができる。この特定の実施形態では、乳がんを、処置の有効性および影響が最大になり得る早期疾患の間に検出するために、Griffin手法を使用することができる。 The inventors have addressed the shortcomings of the art to create an easy, robust, and sensitive approach to detect and distinguish cell phenotypes. As described in more detail below, the approach is based in part on a core method called "Griffin" for investigating nucleosome protection and chromatin accessibility by quantifying cfDNA fragments around accessible sites. Unlike previous methods, Griffin takes into account fragment length-based GC correction, implementing a crucial approach to remove signal-obscuring GC bias, especially prevalent in ULP-WGS applications (e.g., WGS with coverage as low as 0.1x). This novel fragment size-aware GC bias correction approach implemented in Griffin helps maximize signal-to-noise and optimize analysis of sequence data such as ULP-WGS for cfDNA. As an initial proof of concept described in Example 1, the inventors applied the Griffin approach to cfDNA samples. Griffin achieved excellent performance in detecting tumor cfDNA in early cancer patients (AUC=0.96). The approach was then applied to samples from subjects with metastatic breast cancer (MBC) with different phenotypes (i.e., ER+ and ER-), demonstrating that accurate determination of nucleosome occupancy allows for differentiation of the two phenotypes. Specifically, 254 samples from 139 patients were analyzed, and ER subtypes were predicted with high performance (AUC=0.89), leading to valuable insights into tumor heterogeneity. This demonstration that the use of cfDNA can be used to predict hormone subtypes has immediate application in clinical diagnostics to identify subtypes and potentially switch to minimally invasive and cost-effective modalities, thereby facilitating appropriate treatment. In this particular embodiment, the Griffin approach can be used to detect breast cancer during early disease, when the efficacy and impact of treatment may be greatest.

Griffin法は、追加的な利点をもたらすものである。Griffinは、細胞/組織/がん表現型の環境の間での示差的クロマチンアクセシビリティに関する情報をもたらし得る、ゲノム全体を通したあらゆる領域を分析するために柔軟である。例えば、腫瘍亜型間で区別される重要な転写因子(transcriptional factor)を、Griffinを使用し、これらの転写因子(transcription factor)の結合部位を解析することによって予測することができる。さらに、Griffinを、ATAC-seq、ChIP-seq、転写因子プロファイリングデータ、カットアンドランなどを含めた異なるアッセイ手法で生じた種々の入力データに適用して、クロマチンアーキテクチャおよびアクセシビリティを調査することができる。さらに、既存の技術とは著しく異なり、Griffinは、以下:
・遺伝子発現予測(トランスクリプトミクスと等価)
・転写調節、例えば、転写因子活性(遺伝子調節;レギュロミクス)
・標的化治療の間の転写因子の活性(遺伝子調節;レギュロミクス)
・クロマチンアクセシビリティ(エピジェネティクス)
・クロマチン修飾、例えば、H3K27アセチル化(エピジェネティクス)
・造血細胞および免疫細胞のプロファイリング(免疫学)
などの多数の「オミクス」の解析を可能にすることにより、数多くの仮説に対処することができるものである。
The Griffin method offers additional advantages. Griffin is flexible to analyze any region throughout the genome that may provide information on differential chromatin accessibility between cell/tissue/cancer phenotype environments. For example, important transcriptional factors that differentiate between tumor subtypes can be predicted using Griffin by analyzing the binding sites of these transcription factors. Furthermore, Griffin can be applied to various input data generated by different assay methods, including ATAC-seq, ChIP-seq, transcription factor profiling data, cut-and-run, etc., to investigate chromatin architecture and accessibility. Moreover, significantly different from existing technologies, Griffin is able to:
・Gene expression prediction (equivalent to transcriptomics)
Transcriptional regulation, e.g., transcription factor activity (gene regulation; reguromics)
Transcription factor activity during targeted therapy (gene regulation; reguromics)
・Chromatin accessibility (epigenetics)
Chromatin modifications, e.g., H3K27 acetylation (epigenetics)
- Hematopoietic and immune cell profiling (immunology)
By enabling the analysis of multiple "omics" such as those above, numerous hypotheses can be addressed.

Griffin手法は、既存のctDNAシーケンシング技法に適応でき、したがって、偏りおよびシグナルの不明瞭化の影響を非常に受けやすいULP-WGSデータからであっても、スケーラビリティ、順応性、およびアクセシビリティを可能にするものである。当該手法の主な適用としては、腫瘍(亜型)分類、混在する組織学的性質/表現型の同定、治療の間の潜在的な亜型の切り換え(分化転換)の「リアルタイム」での検出、および治療抵抗性のシグナルになり得るバイオマーカー(例えば、ARv7スプライスバリアント)の予測が挙げられる。 The Griffin approach is adaptable to existing ctDNA sequencing techniques, thus enabling scalability, adaptability, and accessibility, even from ULP-WGS data that is highly susceptible to bias and signal obscuration. Key applications of the approach include tumor (subtype) classification, identification of mixed histology/phenotype, detection of potential subtype switching (transdifferentiation) during treatment in "real-time," and prediction of biomarkers that may signal treatment resistance (e.g., ARv7 splice variants).

下でより詳細に記載されている通り(例えば、実施例2において)、本発明者らは、転写調節に関連するヌクレオソームの配置パターンを突き止めることによって腫瘍表現型を調査するために、循環腫瘍DNA(ctDNA)を利用した。アンドロゲン受容体活性前立腺がん(ARPC)および神経内分泌前立腺がん(NEPC)の患者由来異種移植モデル24例由来のマウス血漿中のctDNAの全ゲノムのシーケンシングを行った。ctDNAにおいて、遺伝子、プロモーター、ヒストン修飾、転写因子結合、およびアクセシブルクロマチンの領域において転写活性に関連するヌクレオソームパターンが反映された。前立腺がん表現型に関連付けられた、AR、ASCL1、HOXB13、HNF4G、およびNR3C1を含めたctDNA由来の重要な転写調節因子の活性を同定した。続いて、予測モデルを設計し、3つの臨床コホートにわたって159例の血漿試料に関してNEPCをARPCから感度97~100%および特異度85~100%で区別した。これらの結果から、分子表現型を調査し、精密医療における診断を伸展させるために、ctDNAとGriffinワークフローを併用することの有用性が強調される。 As described in more detail below (e.g., in Example 2), we utilized circulating tumor DNA (ctDNA) to investigate tumor phenotypes by identifying nucleosome placement patterns associated with transcriptional regulation. We performed genome-wide sequencing of ctDNA in mouse plasma from 24 patient-derived xenograft models of androgen receptor-activated prostate cancer (ARPC) and neuroendocrine prostate cancer (NEPC). Nucleosome patterns associated with transcriptional activity were reflected in ctDNA at genes, promoters, histone modifications, transcription factor binding, and regions of accessible chromatin. We identified the activity of key transcription regulators from ctDNA, including AR, ASCL1, HOXB13, HNF4G, and NR3C1, that were associated with prostate cancer phenotypes. We subsequently designed a predictive model to distinguish NEPC from ARPC with 97-100% sensitivity and 85-100% specificity for 159 plasma samples across three clinical cohorts. These results highlight the utility of combining ctDNA with the Griffin workflow to investigate molecular phenotypes and advance diagnostics in precision medicine.

前述に従って、一態様では、本開示は、細胞型を予測するための、セルフリーDNA試料からの配列リードデータを増強する、コンピュータ実装方法を提供する。これに関連して、「細胞型予測」という句は、一般的な意味で使用され、起源細胞(すなわち、cfDNA試料中のDNAに寄与する細胞)の同一性またはその特質を予測することを指す。例えば、特質は、形質転換事象を伴う発生系列(すなわち、がん細胞について)を含めた、同じまたは同様の発生系列を有する細胞と比較して区別可能な表現型であり得る。あるいは、特質は、別個の発生系列と比較して区別可能な発生系列であり得る。下でより詳細に記載されている通り、方法は、異なる細胞系列、異なる組織型、異なる組織亜型、異なるがん型、異なるがん亜型(すなわち、同じがん型の亜型)などを予測するまたは識別することを包含する。広範な定義としての細胞型が独特のヌクレオソーム占有率および/またはクロマチンアクセシビリティプロファイルによって区別可能であることだけが求められる。 In accordance with the foregoing, in one aspect, the disclosure provides a computer-implemented method for augmenting sequence read data from a cell-free DNA sample to predict cell type. In this context, the phrase "cell type prediction" is used in a general sense to refer to predicting the identity of a cell of origin (i.e., a cell that contributes DNA in a cfDNA sample) or a trait thereof. For example, the trait may be a distinguishable phenotype compared to cells having the same or similar developmental lineage, including a developmental lineage with a transformation event (i.e., for cancer cells). Alternatively, the trait may be a distinguishable developmental lineage compared to a separate developmental lineage. As described in more detail below, the method encompasses predicting or identifying different cell lineages, different tissue types, different tissue subtypes, different cancer types, different cancer subtypes (i.e., subtypes of the same cancer type), and the like. All that is required is that cell types, as a broad definition, are distinguishable by unique nucleosome occupancy and/or chromatin accessibility profiles.

方法は、
コンピューティングシステムにより配列リードデータを受け取るステップであって、配列リードデータが、複数の断片リードを含み、各断片リードが、断片長および断片リード内のGまたはCである塩基のパーセンテージを示すGC含量を有する、ステップ、
コンピューティングシステムにより、断片リードの断片長およびGC含量に基づいて各断片リードについてのGCの偏りの値を決定するステップ、
コンピューティングシステムにより、配列リードデータおよびGCの偏りの値を使用してGCの偏りについて調整されたゲノムカバレッジ分布を生成するステップ、ならびに
コンピューティングシステムにより、ゲノムカバレッジ分布に基づいて細胞型を予測するステップ
を含む。
The method is:
receiving sequence read data by a computing system, the sequence read data including a plurality of fragment reads, each fragment read having a fragment length and a GC content indicating a percentage of bases in the fragment read that are G or C;
determining, by a computing system, a GC bias value for each fragment read based on the fragment length and GC content of the fragment read;
generating, by a computing system, a genome coverage distribution adjusted for GC bias using the sequence read data and the GC bias value; and predicting, by the computing system, a cell type based on the genome coverage distribution.

図1は、本開示の種々の態様に従って、細胞型を予測する方法の実施形態の非限定的な例を例示するフローチャートである。方法100は、試料中のセルフリーDNA断片のシーケンシングから得られた短いがんDNAの核酸配列から有意義な特徴を抽出することを可能にするために、本明細書の他の箇所に記載のGRIFFIN技法を使用することを含む。方法100は、組織型予測、細胞型予測、がん型予測およびがん亜型予測を含むがこれだけに限定されない種々の異なる型の細胞型予測に使用することができる。 FIG. 1 is a flow chart illustrating a non-limiting example of an embodiment of a method for predicting cell type according to various aspects of the present disclosure. Method 100 includes using the GRIFFIN technique described elsewhere herein to enable extraction of meaningful features from short cancer DNA nucleic acid sequences obtained from sequencing cell-free DNA fragments in a sample. Method 100 can be used for a variety of different types of cell type prediction, including but not limited to tissue type prediction, cell type prediction, cancer type prediction, and cancer subtype prediction.

方法100は、開始ブロックからサブルーチンブロック102に進み、そこで、目的のゲノム領域を決定し、フィルタリングして、細胞型に関する情報をもたらす部位を同定する。細胞型に関する情報をもたらす部位を決定し、フィルタリングするための任意の適切な技法を使用することができ、異なるがん型、あるがん型の異なる分子亜型、異なる組織、異なる細胞型、および異なるアッセイの型に対しては異なる技法が使用される可能性がある。細胞型に関する情報をもたらす部位を決定し、フィルタリングするための適切な手順の実施形態の非限定的な一例が図2に例示されており、また、下でさらに詳細に記載されている。 From a start block, method 100 proceeds to subroutine block 102, where genomic regions of interest are determined and filtered to identify sites that provide information about cell type. Any suitable technique for determining and filtering sites that provide information about cell type may be used, and different techniques may be used for different cancer types, different molecular subtypes of a cancer type, different tissues, different cell types, and different assay types. A non-limiting example of an embodiment of a suitable procedure for determining and filtering sites that provide information about cell type is illustrated in FIG. 2 and described in further detail below.

サブルーチンブロック104において、断片長とGC含量の組合せについて、GC出現頻度行列を決定する。ある特定のシーケンシング技術に関しては、ある特定の量のG塩基およびC塩基(「GC含量」)を有する断片が配列リードデータにおいて大きな比率を占める。異なるサイズの断片は異なるGCの偏りを有するので、この偏りは一定ではない。セルフリーDNA断片からの配列リードデータは、一般には、多くの異なる長さの短い断片を含むので、種々の異なる断片長について予測されるGC含量の比率を特定するGC出現頻度行列を確立することにより、配列リードデータをGCの偏りについて適当に補正すること、および、そうでなければノイズが多すぎる配列リードデータから有意義なシグナルを得ることが可能になる。GC出現頻度行列を決定するための技法の非限定的な一例が図3に例示されており、また、下でさらに詳細に記載されている。 In subroutine block 104, a GC occurrence matrix is determined for a combination of fragment length and GC content. For a particular sequencing technology, fragments with a certain amount of G and C bases ("GC content") are over-represented in the sequence read data. This bias is not constant, as fragments of different sizes have different GC biases. Because sequence read data from cell-free DNA fragments typically contain many short fragments of different lengths, establishing a GC occurrence matrix that specifies the expected GC content ratios for a variety of different fragment lengths allows the sequence read data to be appropriately corrected for GC bias and to obtain a meaningful signal from sequence read data that would otherwise be too noisy. A non-limiting example of a technique for determining a GC occurrence matrix is illustrated in FIG. 3 and described in more detail below.

サブルーチンブロック102およびサブルーチンブロック104に関して記載されているアクションを、試料を得る前または配列データを解析する前に、参照ゲノムデータに対して実施することができることが理解されよう。 It will be appreciated that the actions described with respect to subroutine blocks 102 and 104 can be performed on the reference genomic data before obtaining the sample or analyzing the sequence data.

ブロック106において、配列リードデータを受け取る。一部の実施形態では、配列リードデータは、対象から得た試料について生成された配列リードを表す。一部の実施形態では、配列リードデータは、アーカイブまたは他の以前に得た試料から入手してもよい。 At block 106, sequence read data is received. In some embodiments, the sequence read data represents sequence reads generated for a sample obtained from a subject. In some embodiments, the sequence read data may be obtained from an archive or other previously obtained sample.

サブルーチンブロック108において、GC出現頻度行列を使用して、配列リードデータについてのGCの偏りの値を決定する。図4に例示されており、下でさらに詳細に記載されている非限定的な例を含むがこれだけに限定されない任意の適切な技法をサブルーチンブロック108において使用することができる。 In subroutine block 108, the GC occurrence matrix is used to determine GC bias values for the sequence read data. Any suitable technique can be used in subroutine block 108, including but not limited to the non-limiting examples illustrated in FIG. 4 and described in more detail below.

サブルーチンブロック110において、GCの偏りの値を使用して、細胞型に関する情報をもたらす部位についての配列リードデータのゲノムカバレッジ分布を生成する。ここでも、図5に例示されており、下でさらに詳細に記載されている非限定的な例を含むがこれだけに限定されない任意の適切な技法をサブルーチンブロック110において使用することができる。 In subroutine block 110, the GC bias values are used to generate a genome coverage distribution of sequence read data for sites that provide information about the cell type. Again, any suitable technique can be used in subroutine block 110, including but not limited to the non-limiting examples illustrated in FIG. 5 and described in more detail below.

ブロック112において、ゲノムカバレッジ分布から特徴を抽出する。分類器モデルでの使用に適した任意の特徴を抽出することができ、それらの特徴は、使用される分類器モデルの型、配列リードを生成したアッセイ、および/または検出しようとする細胞型(例えば、がん型、がん亜型、組織、または細胞型)に依存する。非限定的な一例として、乳がんに対するエストロゲン受容体(ER)亜型決定に関しては、3つの特徴:平均カバレッジ、中心カバレッジ、および振幅を抽出することができる。 At block 112, features are extracted from the genome coverage distribution. Any features suitable for use in a classifier model can be extracted, depending on the type of classifier model used, the assay that generated the sequence reads, and/or the cell type (e.g., cancer type, cancer subtype, tissue, or cell type) to be detected. As a non-limiting example, for estrogen receptor (ER) subtyping for breast cancer, three features can be extracted: mean coverage, center coverage, and amplitude.

平均カバレッジは、情報をもたらす部位の周囲のウインドウ内の平均カバレッジを決定することによって抽出することができる。平均カバレッジを決定するための、情報をもたらす部位の周囲のウインドウは、1800~2200bp(+/-900bpから+/-1100bpまで)の範囲を含むがこれだけに限定されない任意の適切なサイズであってよい。平均カバレッジを決定するためのウインドウの適切なサイズの非限定的な一例は、2000bp(+/-1000bp)である。 The average coverage can be extracted by determining the average coverage within a window around the informative site. The window around the informative site for determining the average coverage can be of any suitable size, including but not limited to a range of 1800-2200 bp (+/- 900 bp to +/- 1100 bp). One non-limiting example of a suitable size of window for determining the average coverage is 2000 bp (+/- 1000 bp).

中心カバレッジは、情報をもたらす部位の周囲のより小さなウインドウ内の平均カバレッジを決定することによって抽出することができる。中心カバレッジを決定するための、情報をもたらす部位の周囲のウインドウは、40~80bp(+/-20bpから+/-40bpまで)の範囲を含むがこれだけに限定されない任意の適切なサイズであってよい。平均カバレッジを決定するためのウインドウの適切なサイズの非限定的な一例は、60bp(+/-30bp)である。 The central coverage can be extracted by determining the average coverage within a smaller window around the informative site. The window around the informative site for determining the central coverage can be of any suitable size, including but not limited to a range of 40-80 bp (+/- 20 bp to +/- 40 bp). One non-limiting example of a suitable size of window for determining the average coverage is 60 bp (+/- 30 bp).

振幅は、ゲノムカバレッジ分布をトリミングして、所与の数のピークを含む領域(例えば、10個のピークを含む+/-960bpの領域など)にし、高速フーリエ変換を実施し、所与の数のピークに基づいて周波数の大きさを取ること(例えば、10個のピークを含有する領域については10番目の周波数)によって抽出することができる。 The amplitude can be extracted by trimming the genome coverage distribution to a region containing a given number of peaks (e.g., a region of +/- 960 bp containing 10 peaks), performing a fast Fourier transform, and taking the magnitude of the frequency based on the given number of peaks (e.g., the 10th frequency for a region containing 10 peaks).

ブロック114において、特徴(feature)を分類器モデルへの入力として提供して、細胞の亜型を予測する。任意の適切な分類器モデルを使用することができる。実施形態の非限定的な一例では、分類器モデルは、ロジスティック回帰モデルであってよい。 At block 114, the features are provided as input to a classifier model to predict the cell subtype. Any suitable classifier model may be used. In one non-limiting example embodiment, the classifier model may be a logistic regression model.

分類器モデルによってがん亜型が予測されたら、次いで、方法100は終了ブロックに進み、終了する。当然、一部の実施形態では、がん亜型が決定されたら、適切ながんの診断、がん亜型の変化もしくは切り換えの同定、新しい処置の過程の推奨、既存の処置の過程の変更、または任意の他の適切なアクションを含むがこれだけに限定されない、さらなるアクションを取ることができる。 Once the cancer subtype is predicted by the classifier model, then method 100 proceeds to an end block and ends. Of course, in some embodiments, once the cancer subtype has been determined, further actions can be taken, including, but not limited to, diagnosing the appropriate cancer, identifying a change or switch in cancer subtype, recommending a new course of treatment, modifying an existing course of treatment, or any other suitable action.

患者由来の血漿を分析することに関する1つの考慮事項かつ難題は、造血細胞によって放出されたcfDNAが存在し、それにより、ctDNA割合(すなわち、腫瘍割合)が小さくなることである。さらに、腫瘍表現型に関する情報が利用可能な患者コホートが小さいことにより、教師あり機械学習手法が最適以下のものになる。したがって、個々の血漿試料に寄与する細胞型の比率を推定するために、教師なし確率モデルを開発した。このモデルの1つの利点は、患者におけるctDNA腫瘍割合が明示的にモデリングされることである。 One consideration and challenge with analyzing patient-derived plasma is the presence of cfDNA released by hematopoietic cells, which results in a small ctDNA fraction (i.e., tumor fraction). Furthermore, the small patient cohorts for which information on tumor phenotype is available make supervised machine learning approaches suboptimal. Therefore, an unsupervised probabilistic model was developed to estimate the proportion of cell types contributing to individual plasma samples. One advantage of this model is that the ctDNA tumor fraction in patients is explicitly modeled.

このモデルへの入力には、患者由来異種移植(PDX)から生成されたシグナルが含まれる。PDXは、相当する腫瘍と比較することによってctDNAの特性を調査するため、新しい分析ツールを開発するため、および遺伝子の特徴と表現型の特徴の両方を検証するための理想的なリソースを提供するものである。ctDNA割合の推定値およびこれらの入力PDXシグナルを使用し、モデルを統計学的混合モデル手法に適用して、細胞型の比率を表す混合物の重み付けパラメータを推定する。下で実施例2において考察され、図14~15に例示されている通り、細胞型、例えばARPCとNEPCなどを分類するための予測スコアとして、混合物の重み付けパラメータを使用することができる。表現型および亜型などの他の細胞型も、このフレームワークを使用してモデリングし、予測することができる。 Inputs to the model include signals generated from patient-derived xenografts (PDXs). PDXs provide an ideal resource for investigating ctDNA characteristics by comparison with matched tumors, developing new analytical tools, and validating both genetic and phenotypic features. Using ctDNA fraction estimates and these input PDX signals, the model is applied to a statistical mixture model approach to estimate mixture weighting parameters that represent the proportions of cell types. As discussed below in Example 2 and illustrated in Figures 14-15, the mixture weighting parameters can be used as a predictive score to classify cell types, such as ARPC vs. NEPC. Other cell types, such as phenotypes and subtypes, can also be modeled and predicted using this framework.

図2は、本開示の種々の態様に従って、目的のゲノム領域を決定し、フィルタリングして、細胞型に関する情報をもたらす部位を同定するための手順の実施形態の非限定的な例を例示するフローチャートである。一部の実施形態では、細胞型に関する情報をもたらす部位を決定し、フィルタリングするための目的の細胞型は、異なるがん型、異なるがん亜型、異なる組織型、または異なる細胞型である。 Figure 2 is a flow chart illustrating a non-limiting example of an embodiment of a procedure for determining and filtering genomic regions of interest to identify sites that provide information about a cell type, according to various aspects of the present disclosure. In some embodiments, the cell types of interest for determining and filtering sites that provide information about a cell type are different cancer types, different cancer subtypes, different tissue types, or different cell types.

手順200は開始ブロックからブロック202に進み、そこで、目的の細胞型において情報をもたらすものである可能性がある部位の一覧を選択する。公共の研究データベースおよびレポジトリ、公開された科学的データおよびシーケンシングデータを含むがこれだけに限定されない利用可能なデータを使用して部位を選択することができる。これらのデータは、トランスポザーゼアクセシブルクロマチンについてのアッセイ(Assay for Transposase-Accessible Chromatin)(ATACs-eq)、小球菌ヌクレアーゼ(MNase-seq)、DNA分解酵素過感受性部位、クロマチン免疫沈降(ChIP-seq)、標的下での切断&ヌクレアーゼを使用した放出(カットアンドラン)のためのシーケンシング技法を含むがこれだけに限定されないアッセイに由来するものであってもよい。これらのデータから、2群マン・ホイットニーU(ウィルコクソン順位和とも称される)検定またはスチューデントのt検定および多群クラスカル・ワリス検定または分散分析(ANOVA)を使用した統計学的仮説検定を含むがこれだけに限定されない任意の適切な比較を使用して、細胞型(例えば、組織型、細胞型、がん型、またはがん亜型)を区別する部位を選択する。群間の倍率変化を使用して追加的なフィルタリングを実施することができる。 From a start block, the procedure 200 proceeds to block 202, where a list of potentially informative sites in the cell type of interest is selected. Sites can be selected using available data, including but not limited to public research databases and repositories, published scientific data, and sequencing data. These data may be derived from assays including but not limited to Assay for Transposase-Accessible Chromatin (ATACs-eq), Micrococcal Nuclease (MNase-seq), DNase Hypersensitive Sites, Chromatin Immunoprecipitation (ChIP-seq), and sequencing techniques for on-target cleavage and release using nucleases (cut-and-run). From these data, any suitable comparison is used to select sites that distinguish cell types (e.g., tissue types, cell types, cancer types, or cancer subtypes), including, but not limited to, statistical hypothesis testing using two-group Mann-Whitney U (also called Wilcoxon rank sum) test or Student's t-test and multigroup Kruskal-Wallis test or analysis of variance (ANOVA). Additional filtering can be performed using fold changes between groups.

必要に応じたブロック204において、情報をもたらすものである可能性がある各部位の周囲の固定サイズのウインドウ内の平均マッピング可能性スコア(ゲノム配列の一意性を表す測定基準)を決定し、必要に応じたブロック206において、平均マッピング可能性スコアが所定の閾値を下回る部位を棄却する。マッピング可能な部位のみを保持することにより、配列リードデータにおいて正確に表わされる可能性がある部位に解析を限定する。マッピング可能性は、UCSCゲノムブラウザからのマッピング可能性スコアトラックなどの参照データに基づいて決定することができる。一部の実施形態では、必要に応じたブロック204および必要に応じたブロック206のアクションは実施しなくてもよい。 In optional block 204, the average mappability score (a metric that represents the uniqueness of the genomic sequence) within a fixed-size window around each potentially informative site is determined, and in optional block 206, sites with an average mappability score below a predefined threshold are discarded. Retaining only mappable sites limits the analysis to sites that are likely to be accurately represented in the sequence read data. Mappability can be determined based on reference data, such as a mappability score track from the UCSC genome browser. In some embodiments, the actions of optional block 204 and optional block 206 may not be performed.

ブロック208において、細胞型を決定するための情報をもたらす残りの部位を同定する。任意の適切な技法を使用することができる。例えば、乳がんのER亜型決定に関しては、Cancer Genome Atlas(TCGA)ATAC seqデータを使用して、ER陽性試料とER陰性TCGA試料の間で差動ATACシグナルを有する部位を同定することができる。これらの部位を同定するために、任意の適切な技法を使用することができる。一部の実施形態では、各部位にマン・ホイットニーのU検定を使用し、その後、Benjamini-Hochberg手順を使用して偽発見率(FDR)補正を行い、それにより、全ての部位を、0.05未満の調整されたp値(すなわちq値)に保持することができる。一部の実施形態では、各部位の周囲のATAC seqリード計数を入力としてDESeq2ソフトウェアに提供することができ、次いで、それにより、差分部位を同定し、各部位について、調整された倍率変化およびFDR補正されたp値を作製することができる。 In block 208, remaining sites that provide information for determining cell type are identified. Any suitable technique can be used. For example, for ER subtyping of breast cancer, Cancer Genome Atlas (TCGA) ATAC seq data can be used to identify sites with differential ATAC signal between ER-positive and ER-negative TCGA samples. Any suitable technique can be used to identify these sites. In some embodiments, a Mann-Whitney U test can be used for each site, followed by a false discovery rate (FDR) correction using the Benjamini-Hochberg procedure, which can hold all sites at an adjusted p-value (i.e., q-value) of less than 0.05. In some embodiments, the ATAC seq read counts around each site can be provided as input to the DESeq2 software, which can then identify differential sites and generate adjusted fold changes and FDR-corrected p-values for each site.

一部の実施形態では、倍率変化を調査し、全ての部位を、目的の亜型の他の亜型と比べたlog2倍率変化が0.5よりも大きくなるように保持することにより、部位をさらに精密化することができる。乳がんのER亜型決定に関しては、ER陽性部位とER陰性部位を、造血ChIP seqピークの別々のデータセットを使用し、造血細胞と共有されるものと造血細胞と共有されないものに分離して、合計4つの、亜型に特異的な情報をもたらす部位の一覧を生成することができる。 In some embodiments, sites can be further refined by examining fold changes and retaining all sites with a log2 fold change of >0.5 for the subtype of interest relative to other subtypes. For ER subtyping of breast cancer, ER positive and ER negative sites can be separated into those shared with hematopoietic cells and those not shared with hematopoietic cells using separate datasets of hematopoietic ChIP-seq peaks to generate a total of four lists of subtype-specific informative sites.

次いで、手順200は終了ブロックに進み、終了する。 Procedure 200 then proceeds to the end block and ends.

図3は、本開示の種々の態様に従って、ゲノムについてのGC出現頻度行列を決定するための手順の実施形態の非限定的な例を例示するフローチャートである。図3に記載の技法は、Benjamini & Speed, 2012に記載されており、DeepTools(Ramirez, Duendar, Diehl, Gruening, & Manke, 2014)で実装される手法などの以前の技法とは異なる。それは、少なくとも、以前の技法では、異なる長さの断片についての補正がなされておらず、また、セルフリーDNAシーケンシングデータに対して機能することが示されたことがないからである。手順300において、異なる断片長それぞれについて別々のGCの偏り曲線を決定する。 Figure 3 is a flow chart illustrating a non-limiting example of an embodiment of a procedure for determining a GC occurrence matrix for a genome according to various aspects of the present disclosure. The technique described in Figure 3 differs from previous techniques such as those described in Benjamini & Speed, 2012 and implemented in DeepTools (Ramirez, Duendar, Diehl, Gruening, & Manke, 2014) at least because the previous techniques did not correct for fragments of different lengths and have never been shown to work for cell-free DNA sequencing data. In procedure 300, separate GC bias curves are determined for each of the different fragment lengths.

第1に、ゲノムの全てのマッピング可能な領域を調査する(ブロック302)。次いで、各断片長(forループはforループ開始ブロック304と、forループ終了ブロック310との間と定義される)について、マッピング可能な領域内の当該断片長の断片内で各GC含量が観察された回数を計数して、ゲノムについてのGC出現頻度を決定し(ブロック306)、当該断片長についてのGC出現頻度をGC出現頻度行列に記憶させる(ブロック308)。 First, all mappable regions of the genome are examined (block 302). Then, for each fragment length (where a for loop is defined as between a for loop start block 304 and a for loop end block 310), the number of times each GC content is observed within fragments of that fragment length within the mappable region is counted to determine the GC frequency for the genome (block 306), and the GC frequency for that fragment length is stored in a GC frequency matrix (block 308).

forループ後、手順300は終了ブロックに進み、終了する。 After the for loop, procedure 300 proceeds to the end block and ends.

一部の実施形態では、短い長さの閾値と長い長さの閾値の間の種々の断片長を手順300において解析する。一部の実施形態では、短い長さの閾値は10~20bpの範囲内であり得、長い長さの閾値は450~550bpの範囲内であり得る。特定の非限定的な実施形態の一例では、短い長さの閾値は15bpであり得、長い長さの閾値は500bpであり得る。短い長さの閾値と長い長さの閾値の間の各断片長に対してforループを作動させることができる。 In some embodiments, various fragment lengths between the short and long length thresholds are analyzed in procedure 300. In some embodiments, the short length threshold may be in the range of 10-20 bp and the long length threshold may be in the range of 450-550 bp. In one specific non-limiting embodiment, the short length threshold may be 15 bp and the long length threshold may be 500 bp. A for loop may be run for each fragment length between the short and long length thresholds.

図4は、本開示の種々の態様に従って、GC出現頻度行列を使用して配列リードデータについてのGCの偏りの値を決定するための手順の実施形態の非限定的な例を例示するフローチャートである。 Figure 4 is a flow chart illustrating a non-limiting example embodiment of a procedure for determining GC bias values for sequence read data using a GC frequency matrix in accordance with various aspects of the present disclosure.

ブロック402において、各断片長の観察されたリードの数およびGC含量を計数して、配列リードデータについてのGC計数を決定する。 In block 402, the number of observed reads and GC content of each fragment length are counted to determine a GC count for the sequence read data.

ブロック404において、GC計数をGC出現頻度行列内の値で割って、各断片長についてのGCの偏りを決定する。 In block 404, the GC counts are divided by the values in the GC frequency matrix to determine the GC bias for each fragment length.

ブロック406において、各断片長についてGCの偏りの平均を正規化して、およそのGCの偏りの値を決定する。一部の実施形態では、GCの偏りの平均を1に対して正規化することができる。それにより、断片サイズとGC含量の可能性のある組合せ全てについてのおよそのGCの偏りの値がもたらされる。 At block 406, the average GC bias for each fragment length is normalized to determine an approximate GC bias value. In some embodiments, the average GC bias may be normalized to 1, resulting in an approximate GC bias value for all possible combinations of fragment size and GC content.

ブロック408において、およそのGCの偏りの値を平滑化して、GCの偏りの値を決定する。一部の実施形態では、各断片サイズについて、同様のサイズの断片(非限定的な例として、165bpの断片に関しては、155bpから175bpまでのサイズの断片を考慮に入れることができる)についての全てのGCの偏りの値を決定することができる。同様のサイズの断片についてのGCの偏りの値をGC含量によってソートすることができ、最近傍の中央値を取ることによってカーネル平滑化を実施して、GCの偏りの値を決定することができる。 At block 408, the approximate GC bias values are smoothed to determine a GC bias value. In some embodiments, for each fragment size, all GC bias values for similarly sized fragments (as a non-limiting example, for a 165 bp fragment, fragments sized from 155 bp to 175 bp may be considered) may be determined. The GC bias values for similarly sized fragments may be sorted by GC content, and kernel smoothing may be performed by taking the median of the nearest neighbors to determine the GC bias value.

次いで、手順400は終了ブロックに進み、終了する。 Procedure 400 then proceeds to the end block and ends.

図5は、本開示の種々の態様に従って、GCの偏りの値を使用して、細胞型に特異的な情報をもたらす部位についての配列リードデータのゲノムカバレッジ分布を生成するための手順の実施形態の非限定的な例を例示するフローチャートである。 Figure 5 is a flow chart illustrating a non-limiting example of an embodiment of a procedure for generating genome coverage distributions of sequence read data for cell type-specific informative sites using GC bias values according to various aspects of the present disclosure.

手順500は、開始ブロックからブロック502に進み、そこで、細胞型に特異的な情報をもたらす部位それぞれの周囲のウインドウ内の断片中点を決定する。 Procedure 500 proceeds from a start block to block 502, where fragment midpoints within a window around each site that provides cell type-specific information are determined.

ブロック504において、断片長についての適切なGCの偏りの値およびGC含量(すなわち、例えば手順400によりサブルーチンブロック108において決定された断片長についてのGCの偏りの値およびGC含量)に基づいて各断片に重みを割り当てる。次いで、重みをその適切なGCの偏りの値に基づくものにする。一部の実施形態では、重みは、GCの偏りの値の逆数(1/GCの偏りの値)とすることができる。例えば、所与の試料において、GC含量が60%である165bpの断片のGCの偏りが2.5である場合(他のGC含量を有する165bpの断片と比べて大きな比率を占める)、これらの断片には1/2.5=0.4の重みが割り当てられる。 At block 504, a weight is assigned to each fragment based on the appropriate GC bias value for the fragment length and the GC content (i.e., the GC bias value and GC content for the fragment length determined, for example, by procedure 400 in subroutine block 108). The weight is then based on the appropriate GC bias value. In some embodiments, the weight can be the inverse of the GC bias value (1/GC bias value). For example, if in a given sample, 165 bp fragments with a GC content of 60% have a GC bias of 2.5 (a large proportion compared to 165 bp fragments with other GC contents), then these fragments are assigned a weight of 1/2.5 = 0.4.

ブロック506において、重みを使用して、GC補正された中点プロファイルを決定する。 In block 506, the weights are used to determine a GC corrected midpoint profile.

ブロック508において、除外領域とオーバーラップする位置を除外する。除外領域は、任意の適切な技法を使用して決定することができる。一部の実施形態では、除外領域を1つまたは複数の除外領域の一覧から得ることができる。除外領域の一覧には、エンコード統合GRCh38除外一覧、セントロメア、ヒトゲノムアセンブリ内のギャップ、修正パッチ、代替ハプロタイプ、マッピング可能性ゼロの領域、およびカバレッジが異常に高い領域(例えば、平均を10標準偏差上回る)が含まれ得るがこれだけに限定されない。 At block 508, positions that overlap with the excluded regions are excluded. The excluded regions may be determined using any suitable technique. In some embodiments, the excluded regions may be derived from one or more lists of excluded regions. The list of excluded regions may include, but is not limited to, the Encoding Integrated GRCh38 Exclusion List, centromeres, gaps in the human genome assembly, correction patches, alternative haplotypes, regions of zero mappability, and regions of unusually high coverage (e.g., 10 standard deviations above the mean).

ブロック510において、全ての部位についてのGC補正された中点プロファイルを平均して、平均プロファイルを決定する。 In block 510, the GC-corrected midpoint profiles for all sites are averaged to determine the average profile.

ブロック512において、平均プロファイルを平滑化して、平滑化された平均プロファイルを生成する。平滑化のための任意の適切な技法を使用することができる。例えば、一部の実施形態では、ウインドウ長165bpのSavitzky-Golayフィルターおよび3次多項式を使用して平均プロファイルを平滑化することができる。 At block 512, the average profile is smoothed to generate a smoothed average profile. Any suitable technique for smoothing may be used. For example, in some embodiments, the average profile may be smoothed using a Savitzky-Golay filter with a window length of 165 bp and a third order polynomial.

ブロック514において、平滑化された平均プロファイルを、周囲のカバレッジの平均で割ることによって正規化する。一部の実施形態では、9,000~11,000bp(+/-4,500bp~+/-5,500bp)の範囲、例えば、10,000bp(+/-5,000bp)などの周囲のカバレッジを正規化のための考慮に入れる。それにより、シーケンシングカバレッジの深度が異なる試料を比較することが可能になる。 In block 514, the smoothed average profile is normalized by dividing it by the average of the surrounding coverage. In some embodiments, a range of 9,000-11,000 bp (+/- 4,500 bp to +/- 5,500 bp), e.g., 10,000 bp (+/- 5,000 bp), is taken into account for normalization. This allows samples with different depths of sequencing coverage to be compared.

正規化された平均プロファイルを得られたゲノムカバレッジ分布として使用することができる。 The normalized average profile can be used as the resulting genome coverage distribution.

次いで、手順500は終了ブロックに進み(advances to and end block)、終了する。 Procedure 500 then advances to and end block and ends.

図6は、本開示のコンピューティングデバイスとしての使用に適した例示的なコンピューティングデバイスの態様を例示するブロック図である。方法100に記載の技法を含むがこれだけに限定されない上記の技法を、互いに通信するよう連結されたコンピューティングデバイス600などの1つまたは複数のコンピューティングデバイスを含む1つまたは複数のコンピューティングシステムで完全にまたは部分的に実装することができる。 6 is a block diagram illustrating aspects of an exemplary computing device suitable for use as a computing device of the present disclosure. The techniques described above, including but not limited to those described in method 100, may be implemented in whole or in part in one or more computing systems including one or more computing devices, such as computing device 600, communicatively coupled to each other.

例示的なコンピューティングデバイス600は、デスクトップコンピューティングデバイス、ラップトップコンピューティングデバイス、サーバーコンピューティングデバイス、モバイルコンピューティングデバイス、およびクラウドコンピューティングシステムの一部であるコンピューティングデバイスを含むがこれだけに限定されない、多くの異なる型のコンピューティングデバイスに共通する種々の要素を説明するものである。図6は、ネットワーク上のデバイスとして実装されるコンピューティングデバイスを参照して説明されているが、以下の説明は、サーバー、パーソナルコンピュータ、携帯電話、スマートフォン、タブレットコンピュータ、埋め込みコンピューティングデバイス、および本開示の実施形態の一部を実行するために使用することができる他のデバイスに適用可能である。コンピューティングデバイスの一部の実施形態は、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他のカスタマイズされたデバイスに実装されるものであってよい、またはそれを含むものであってよい。さらに、コンピューティングデバイス600は、任意の数の現在利用可能なまたはまだ開発されていないデバイスの任意の1つであってよいことが当業者などには理解されよう。 The exemplary computing device 600 illustrates various elements common to many different types of computing devices, including, but not limited to, desktop computing devices, laptop computing devices, server computing devices, mobile computing devices, and computing devices that are part of a cloud computing system. Although FIG. 6 is described with reference to a computing device implemented as a device on a network, the following description is applicable to servers, personal computers, mobile phones, smartphones, tablet computers, embedded computing devices, and other devices that can be used to perform some of the embodiments of the present disclosure. Some embodiments of a computing device may be implemented in or include an application specific integrated circuit (ASIC), a field programmable gate array (FPGA), or other customized device. Moreover, those skilled in the art will appreciate that the computing device 600 may be any one of any number of currently available or yet to be developed devices.

最も基本的な構成では、コンピューティングデバイス600は、通信バス608によって接続された少なくとも1つのプロセッサ602とシステムメモリ610とを含む。デバイスの厳密な構成および型に応じて、システムメモリ610は、揮発性または不揮発性メモリ、例えば、リードオンリーメモリ(「ROM」)、ランダムアクセスメモリ(「RAM」)、EEPROM、フラッシュメモリまたは同様のメモリ技術であってよい。システムメモリ610には、一般には、プロセッサ602がすぐにアクセシブルである、および/またはプロセッサ602によって現在動作しているデータおよび/またはプログラムモジュールが記憶されていることが当業者などには理解されよう。この点について、プロセッサ602は、命令の実行を支持することにより、コンピューティングデバイス600のコンピュータセンターとしての機能を果たし得る。 In its most basic configuration, the computing device 600 includes at least one processor 602 and a system memory 610 connected by a communication bus 608. Depending on the exact configuration and type of device, the system memory 610 may be volatile or non-volatile memory, such as read-only memory ("ROM"), random access memory ("RAM"), EEPROM, flash memory or similar memory technology. Those skilled in the art will appreciate that the system memory 610 typically stores data and/or program modules that are immediately accessible to and/or currently being operated on by the processor 602. In this regard, the processor 602 may act as the computer center of the computing device 600 by supporting the execution of instructions.

図6にさらに例示されている通り、コンピューティングデバイス600は、ネットワークによって他のデバイスと通信するための1つまたは複数の構成要素を含むネットワークインターフェース606を含んでよい。本開示の実施形態では、ネットワークインターフェース606を利用する基本サービスにアクセスして、共通のネットワークプロトコールを使用した通信を実施することができる。ネットワークインターフェース606はまた、例えば、Wi-Fi、2G、3G、LTE、WiMAX、Bluetooth(登録商標)、Bluetooth low energyなどの1つまたは複数の無線通信プロトコールによって通信するように構成された無線ネットワークインターフェースを含んでもよい。当業者には理解されるように、図6に例示されているネットワークインターフェース606は、コンピューティングデバイス600の特定の構成要素に関して上で記載され、例示された1つまたは複数の無線インターフェースまたは物理的通信インターフェースであってよい。 As further illustrated in FIG. 6, the computing device 600 may include a network interface 606 that includes one or more components for communicating with other devices over a network. In embodiments of the present disclosure, basic services utilizing the network interface 606 may be accessed to effect communication using a common network protocol. The network interface 606 may also include a wireless network interface configured to communicate via one or more wireless communication protocols, such as, for example, Wi-Fi, 2G, 3G, LTE, WiMAX, Bluetooth, Bluetooth low energy, etc. As will be appreciated by those skilled in the art, the network interface 606 illustrated in FIG. 6 may be one or more of the wireless interfaces or physical communication interfaces described and illustrated above with respect to particular components of the computing device 600.

図6に示されている例示的な実施形態では、コンピューティングデバイス600は、記憶媒体604も含む。しかし、ローカル記憶媒体にデータを存続させるための手段を含まないコンピューティングデバイスを使用してサービスにアクセスすることもできる。したがって、図6に示されている記憶媒体604は、記憶媒体604が必要に応じたものであることを示すために破線で表されている。いずれにしても、記憶媒体604は、揮発性または不揮発性であり、取り外し可能または取り外しができないものであり、情報を記憶させることが可能な任意の技術、例えば、これだけに限定されないが、ハードドライブ、ソリッドステートドライブ、CD ROM、DVD、または他のディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージなどを使用して実装される。 In the exemplary embodiment shown in FIG. 6, the computing device 600 also includes a storage medium 604. However, the service may be accessed using a computing device that does not include a means for persisting data on a local storage medium. Thus, the storage medium 604 shown in FIG. 6 is represented by a dashed line to indicate that the storage medium 604 is optional. In any event, the storage medium 604 may be volatile or non-volatile, removable or non-removable, and implemented using any technology capable of storing information, such as, but not limited to, a hard drive, solid state drive, CD ROM, DVD, or other disk storage, magnetic cassette, magnetic tape, magnetic disk storage, etc.

プロセッサ602、システムメモリ610、通信バス608、記憶媒体604、およびネットワークインターフェース606を含むコンピューティングデバイスの適切な実装は公知であり、市販されている。例示しやすさのために、また、特許請求された主題の理解には重要ではないので、図6には、多くのコンピューティングデバイスに典型的ないくつかの構成要素が示されていない。この点について、コンピューティングデバイス600は、例えば、キーボード、キーパッド、マウス、マイクロホン、タッチ入力デバイス、タッチスクリーン、タブレットなどの入力デバイスを含んでよい。そのような入力デバイスは、コンピューティングデバイス600に、RF、赤外、シリアル、並列、Bluetooth(登録商標)、Bluetooth low energy、USB、または無線もしくは物理的接続を使用する他の適切な接続プロトコールを含めた有線または無線接続で連結されていてよい。同様に、コンピューティングデバイス600は、ディスプレイ、スピーカー、プリンターなどの出力デバイスも含んでよい。これらのデバイスは当技術分野で周知であるので、本明細書には例示されていないまたはさらに記載されることはない。 Suitable implementations of a computing device including a processor 602, a system memory 610, a communication bus 608, a storage medium 604, and a network interface 606 are known and commercially available. For ease of illustration and as not important to an understanding of the claimed subject matter, FIG. 6 does not show some components that are typical of many computing devices. In this regard, the computing device 600 may include input devices such as, for example, a keyboard, a keypad, a mouse, a microphone, a touch input device, a touch screen, a tablet, and the like. Such input devices may be coupled to the computing device 600 by wired or wireless connections, including RF, infrared, serial, parallel, Bluetooth, Bluetooth low energy, USB, or other suitable connection protocols using wireless or physical connections. Similarly, the computing device 600 may also include output devices such as a display, a speaker, a printer, and the like. These devices are well known in the art and therefore will not be illustrated or further described herein.

示されている通り、Griffinワークフローを実装する、コンピュータ実装方法は、クロマチンアーキテクチャ(例えば、ヌクレオソーム占有率およびクロマチンアクセシビリティ)を反映する異なる型の入力データに高度に適応可能である。分析される起源細胞または組織の供給源および特質に応じて分析の種々の環境に方法を適用することができる。したがって、別の態様では、本開示は、目的の細胞に由来するセルフリーDNAを含む試料由来の目的の細胞についてのクロマチンアクセシビリティプロファイルを決定する方法を提供する。この方法は、上でより詳細に記載されているGriffinデータ最適化ワークフローを適用して、目的の細胞についてのクロマチンアクセシビリティプロファイルを決定するものである。方法は柔軟なものであり、種々のシーケンシングおよび捕捉プロトコールから得られた入力データが許容される。方法は、
セルフリーDNAから配列リードデータを得るステップ、
コンピューティングシステムにより配列リードデータを受け取るステップであって、配列リードデータが、複数の断片リードを含み、各断片リードが、断片長および断片リード内のGまたはCである塩基のパーセンテージを示すGC含量を有する、ステップ、
コンピューティングシステムにより、断片リードの断片長およびGC含量に基づいて各断片リードについてのGCの偏りの値を決定するステップ、
コンピューティングシステムにより、配列リードデータおよびGCの偏りの値を使用してGCの偏りについて調整されたゲノムカバレッジ分布を生成するステップ、ならびに
ゲノムカバレッジ分布からクロマチンアクセシビリティプロファイルを決定するステップ
を含む。
As shown, the computer-implemented method implementing the Griffin workflow is highly adaptable to different types of input data reflecting chromatin architecture (e.g., nucleosome occupancy and chromatin accessibility). The method can be applied to various environments of analysis depending on the source and characteristics of the original cell or tissue analyzed. Thus, in another aspect, the present disclosure provides a method for determining a chromatin accessibility profile for a cell of interest from a sample containing cell-free DNA derived from the cell of interest. The method applies the Griffin data optimization workflow described in more detail above to determine a chromatin accessibility profile for the cell of interest. The method is flexible and accepts input data obtained from a variety of sequencing and capture protocols. The method includes:
obtaining sequence read data from the cell-free DNA;
receiving sequence read data by a computing system, the sequence read data including a plurality of fragment reads, each fragment read having a fragment length and a GC content indicating a percentage of bases in the fragment read that are G or C;
determining, by a computing system, a GC bias value for each fragment read based on the fragment length and GC content of the fragment read;
The method includes generating, by a computing system, a genomic coverage distribution adjusted for GC bias using the sequence read data and the GC bias value; and determining a chromatin accessibility profile from the genomic coverage distribution.

方法は、クロマチン占有率プロファイルに基づいて目的の細胞表現型を決定するステップをさらに含み得る。例えば、細胞表現型の決定は、起源細胞の組織型を決定すること、細胞が形質転換したものである(例えば、がん性もしくは悪性である)かどうかを決定すること、がん型もしくはがん亜型を決定すること、悪性腫瘍の高悪性度表現型を決定すること、および/または薬物応答性表現型を決定することを含み得る。悪性腫瘍の高悪性度表現型という用語は、形質転換した、(例えば、がん)細胞の、再生速度、遊走、薬物応答性などの観点での相対的高悪性度を指す。表現型は、定性的なものであり得る、または種々の測定基準によって評定して、定量的比較を可能にすることができるものであり得る。「薬物応答性表現型」という用語は、がん細胞のがん治療に対する相対的な応答性(すなわち、影響を受けやすいことまたは抵抗性)を指す。測定基準は定量的であっても定性的であってもよい。これらの決定は、上でより詳細に記載されている種々の分類器を使用し、Griffinワークフローによって最適化された配列データに基づいて行うことができる。Griffinワークフローおよびコンピュータ実装方法の要素は、上でより詳細に記載されており、限定されずに本態様に組み入れられる。別個の表現型を有するがん細胞の亜型を決定するための、例示的な非限定的なGriffinワークフローおよび関連する分類器の実装を実施例に提示する。 The method may further include determining a cell phenotype of interest based on the chromatin occupancy profile. For example, determining the cell phenotype may include determining the tissue type of the cell of origin, determining whether the cell is transformed (e.g., cancerous or malignant), determining a cancer type or subtype, determining a malignant aggressive phenotype, and/or determining a drug responsive phenotype. The term malignant aggressive phenotype refers to the relative aggressiveness of transformed (e.g., cancer) cells in terms of their rate of reproduction, migration, drug responsiveness, etc. The phenotype may be qualitative or may be one that can be assessed by various metrics to allow for quantitative comparison. The term "drug responsive phenotype" refers to the relative responsiveness (i.e., susceptibility or resistance) of cancer cells to cancer therapy. The metrics may be quantitative or qualitative. These determinations may be made based on sequence data optimized by the Griffin workflow using various classifiers described in more detail above. Elements of the Griffin workflow and computer-implemented methods are described in more detail above and are incorporated into the present aspects without limitation. An exemplary, non-limiting implementation of the Griffin workflow and associated classifier for determining subtypes of cancer cells having distinct phenotypes is presented in the Examples.

本明細書で示される通り、Griffinワークフローでは、種々のシーケンシングおよび捕捉プラットフォームからのデータが増強されて、ヌクレオソームアクセシビリティのプロファイルがもたらされ、これらのプロファイルにより、生体試料中に存在するctDNAに寄与する細胞の性質に関する高度に正確な洞察がもたらされ得る。これらの洞察により、ある特定の型の細胞を検出する、および/または細胞を種々の亜型間で識別する能力を可能にすることを含め、ctDNAに寄与する細胞を検出することおよび特徴付けることが可能になる。したがって、特定の態様では、本開示は、目的の細胞に由来するセルフリーDNAを含む試料由来の目的の細胞の細胞型を決定または同定するための方法も提供する。この態様の方法は、
セルフリーDNAを含む試料から生成された配列リードデータを得るステップ、
上でより詳細に記載されている(そしてその全ての実施形態でこの態様に組み入れられる)コンピュータ実装方法を実施するステップ、および
コンピューティングシステムによって提供された予測に基づいて、目的の細胞の細胞型を決定または同定するステップを含む。決定するステップは、多数の適切な分類器のうちのいずれかにより、Griffinワークフローによって増強されたデータに基づいて実施することができる。上記の通り、決定するステップは、目的の遺伝子の細胞表現型を決定すること、例えば、組織型、がん型、がん亜型、悪性腫瘍の高悪性度表現型、薬物応答性表現型、または発現(または発現レベル)を決定することを含み得る。
As shown herein, the Griffin workflow augments data from various sequencing and capture platforms to provide nucleosome accessibility profiles that can provide highly accurate insights into the nature of the cells that contribute to the ctDNA present in a biological sample. These insights allow for the detection and characterization of the cells that contribute to the ctDNA, including enabling the ability to detect certain types of cells and/or distinguish between different subtypes of cells. Thus, in certain aspects, the present disclosure also provides a method for determining or identifying the cell type of a cell of interest from a sample that contains cell-free DNA derived from the cell of interest. The method of this aspect comprises:
Obtaining sequence read data generated from a sample comprising cell-free DNA;
The method includes: performing a computer-implemented method as described in more detail above (and incorporated in this aspect in all its embodiments); and determining or identifying the cell type of the cell of interest based on the prediction provided by the computing system. The determining step can be performed based on the data augmented by the Griffin workflow by any of a number of suitable classifiers. As described above, the determining step can include determining the cell phenotype, for example, the tissue type, cancer type, cancer subtype, aggressive phenotype of a malignant tumor, drug responsiveness phenotype, or expression (or expression level) of the gene of interest.

さらに別の態様では、本開示は、対象におけるがん細胞の存在を検出するための方法を提供する。方法は、
対象から得たセルフリーDNAを含む試料から生成された配列リードデータを得るステップ、
上でより詳細に記載されている(そしてその全ての実施形態でこの態様に組み入れられる)コンピュータ実装方法を実施するステップ、および
コンピューティングシステムによって提供された予測に基づいて対象におけるがん細胞の存在を決定するステップ
を含む。
In yet another aspect, the disclosure provides a method for detecting the presence of cancer cells in a subject, the method comprising:
Obtaining sequence read data generated from a sample comprising cell-free DNA obtained from a subject;
performing a computer-implemented method as described in more detail above (and incorporated in this aspect in all its embodiments); and determining the presence of cancer cells in the subject based on the prediction provided by the computing system.

一部の実施形態では、方法を複数回実施する。したがって、方法は、対象におけるがんの存在および/または同一性についてモニタリングする方法であり得る。方法の各実施時に対象において検出されたがん細胞(複数可)をさらに特徴付けることができる。例えば、コンピューティングシステムによって提供された予測に基づいて、検出されたがん細胞(複数可)のがん亜型または表現型を決定するために、この方法を使用して細胞(複数可)を経時的にモニタリングすることができる。一部の実施形態では、方法は、検出されたがん細胞(複数可)の表現型の変化を経時的に検出するステップをさらに含む。例えば、下でより詳細に記載されている通り、ある特定のがん型は、疾患の過程中に1つの亜型から別の亜型に進行し得る。がん細胞は、発達し、特徴付けられた亜型間で本質的に切り替わり得る。これらの変化は、悪性腫瘍の変化および/または種々の処置に対する応答性に関連付けられ得、これらは全て、Griffinワークフローの実証された感度を考慮して検出することができる。そのような変化を経時的にモニタリングし、文書に記録することにより、転帰を最適化するために治療を改変するための要件に関する情報がもたらされる。非限定的な例として、非小細胞肺がん(NSCLC)を小細胞肺がん(SCLC)への分化転換についてモニタリングすることができる。あるいは、SCLC亜型を別個の亜型への分化転換についてモニタリングすることができる。一部の実施形態では、方法を、がんに対する処置の前または過程中に開始して実施することができる。したがって、がんを、処置の過程中、処置への応答性についてまたは表現型の変化についてモニタリングすることができる。これらの特質により、処置レジメンに対する任意の適切な調整に関する情報がもたらされ得る。一部の実施形態では、方法は、方法によって決定されるモニタリングされたがん細胞の状況に基づいて、処置または処置変更を実行することを含む。 In some embodiments, the method is performed multiple times. Thus, the method can be a method of monitoring for the presence and/or identity of cancer in a subject. The cancer cell(s) detected in the subject at each performance of the method can be further characterized. For example, the method can be used to monitor the cell(s) over time to determine the cancer subtype or phenotype of the detected cancer cell(s) based on a prediction provided by a computing system. In some embodiments, the method further includes detecting changes in the phenotype of the detected cancer cell(s) over time. For example, as described in more detail below, certain cancer types may progress from one subtype to another during the course of the disease. Cancer cells may develop and essentially switch between characterized subtypes. These changes can be associated with changes in malignancy and/or responsiveness to various treatments, all of which can be detected given the demonstrated sensitivity of the Griffin workflow. Monitoring and documenting such changes over time provides information about the requirements for modifying treatment to optimize outcomes. As a non-limiting example, non-small cell lung cancer (NSCLC) can be monitored for transdifferentiation into small cell lung cancer (SCLC). Alternatively, SCLC subtypes can be monitored for transdifferentiation into distinct subtypes. In some embodiments, the method can be performed beginning before or during treatment for the cancer. Thus, the cancer can be monitored for responsiveness to treatment or for phenotypic changes during the course of treatment. These characteristics can provide information for any appropriate adjustments to the treatment regimen. In some embodiments, the method includes performing a treatment or treatment change based on the status of the monitored cancer cells as determined by the method.

別の態様では、本開示は、標的がん細胞に由来するセルフリーDNAを含む試料由来の標的がん細胞のがん亜型を決定する方法を提供する。方法は、
セルフリーDNAを含む試料から生成された配列リードデータを得るステップ、
上でより詳細に記載されている(そしてその全ての実施形態でこの態様に組み入れられる)コンピュータ実装方法を実施するステップ、および
コンピューティングシステムによって提供された、予測されるがん亜型に基づいて、標的がん細胞の細胞型を決定するステップ
を含む。
In another aspect, the present disclosure provides a method for determining a cancer subtype of a target cancer cell from a sample comprising cell-free DNA derived from the target cancer cell, the method comprising:
Obtaining sequence read data generated from a sample comprising cell-free DNA;
performing a computer-implemented method as described in more detail above (and incorporated in this aspect in all its embodiments); and determining the cell type of the target cancer cells based on the predicted cancer subtype provided by the computing system.

試料は、対象、例えば、がんを有するまたはがんを有する疑いがある対象由来の生体試料であってよい。例示的な生体試料は以下でより詳細に記載される。一部の実施形態では、方法は、対象から生体試料を得るステップ、ならびに/または、所望のシーケンシングプラットフォームおよび/もしくは標的化捕捉技術に適した標準的な技法に従って試料から配列リードデータを生成するステップを含む。 The sample may be a biological sample from a subject, e.g., a subject having or suspected of having cancer. Exemplary biological samples are described in more detail below. In some embodiments, the method includes obtaining a biological sample from a subject and/or generating sequence read data from the sample according to standard techniques appropriate for a desired sequencing platform and/or targeted capture technology.

下でより詳細に記載されている通り、Griffinプラットフォームは、種々の異なる無関連のがんについて、重要ながんの亜型間を首尾よく見分けるために使用されており、このことから、がん型一般に広範に適応できることが示される。したがって、一部の実施形態では、がんは、転移乳がんであると特徴付けられる。一部のさらなる実施形態では、決定するステップは、乳がんの状況を、エストロゲン受容体(ER)の発現およびがん細胞がエストロゲンホルモンの曝露に応答するかどうかを指す、ER+であるのかER-であるのか決定することを含む。ER+乳がんは内分泌治療を施行することによって対処することができるので、この状況は適切な治療過程に関する情報をもたらすために極めて重要であり得る。他の実施形態では、決定するステップは、乳がんの状況を、プロゲステロン受容体(PR)の発現およびがん細胞がプロゲステロンホルモンの曝露に応答するかどうかを指す、PR+であるのかPR-であるのか決定することを含む。同様に、PR+乳がんはまた、タモキシフェンおよびアロマターゼ阻害剤などの適切なホルモン療法薬を投与することによって対処することができるので、この状況は適切な治療過程に関する情報をもたらすために極めて重要であり得る。さらに別の実施形態では、決定するステップは、乳がんの状況を、ヒト上皮成長因子受容体2(HER2)の発現を指す、HER2+であるのかHER2-であるのか決定することを含む。HER2+乳がん細胞は、より速く成長し、また、例えばリンパ節に拡散する可能性がより高いので、予後不良をもたらす傾向がある。PR+乳がんはまた、トラスツズマブまたはペルツズマブなどの適切なHer2標的化治療を投与することによって対処することができるので、この状態は適切な治療過程に関する情報をもたらすために極めて重要であり得る。当然、本開示は、複数の、情報をもたらすマーカーの発現状態を決定する、区別する実施形態も包含することが理解されよう。例えば、方法は、がんがER+であるのかER-であるのか;がんがPR+であるのかPR-であるのか;および/またはがんがHER2+であるのかHER2-であるのかを、任意の組合せで決定することを含み得る。例えば、一実施形態では、方法は、がんがER+であるのかER-であるのか、がんがPR+であるのかPR-であるのか、および、がんがHER2+であるのかHER2-であるのかを決定することを含む。トリプルネガティブ乳がん(すなわちER-、PR-、HER-)を有する患者は、カルボプラチンおよびパクリタキセルなどのネオアジュバント化学療法を、ペムブロリズマブおよびアテゾリズマブなどの免疫療法と組み合わせて受けることができる。 As described in more detail below, the Griffin platform has been used to successfully distinguish between important cancer subtypes for a variety of different unrelated cancers, demonstrating broad applicability across cancer types in general. Thus, in some embodiments, the cancer is characterized as metastatic breast cancer. In some further embodiments, the determining step includes determining the status of the breast cancer as ER+ or ER-, which refers to expression of the estrogen receptor (ER) and whether the cancer cells respond to exposure to estrogen hormone. Because ER+ breast cancer can be addressed by administering endocrine therapy, this status may be crucial to provide information regarding the appropriate course of treatment. In other embodiments, the determining step includes determining the status of the breast cancer as PR+ or PR-, which refers to expression of the progesterone receptor (PR) and whether the cancer cells respond to exposure to progesterone hormone. Similarly, because PR+ breast cancer can also be addressed by administering appropriate hormone therapy drugs such as tamoxifen and aromatase inhibitors, this status may be crucial to provide information regarding the appropriate course of treatment. In yet another embodiment, the determining step includes determining the status of the breast cancer as HER2+ or HER2-, which refers to the expression of human epidermal growth factor receptor 2 (HER2). HER2+ breast cancer cells tend to grow faster and are more likely to spread, for example, to lymph nodes, resulting in a poor prognosis. PR+ breast cancer can also be addressed by administering an appropriate Her2-targeted therapy, such as trastuzumab or pertuzumab, so this status can be crucial to inform the appropriate course of treatment. Of course, it will be understood that the present disclosure also encompasses distinguishing embodiments that determine the expression status of multiple informative markers. For example, the method can include determining whether the cancer is ER+ or ER-; whether the cancer is PR+ or PR-; and/or whether the cancer is HER2+ or HER2-, in any combination. For example, in one embodiment, the method includes determining whether the cancer is ER+ or ER-, whether the cancer is PR+ or PR-, and whether the cancer is HER2+ or HER2-. Patients with triple-negative breast cancer (i.e., ER-, PR-, HER-) can receive neoadjuvant chemotherapy, such as carboplatin and paclitaxel, in combination with immunotherapy, such as pembrolizumab and atezolizumab.

別の実施形態では、がんは、転移前立腺がんであると特徴付けられる。さらなる実施形態では、前立腺がん亜型を決定することにより、がんが、区別可能な亜型に特徴的な種々のマーカーを発現するかどうかを決定することに対処する。例えば、一実施形態では、がん亜型の前記ステップは、前立腺がんが、アンドロゲン受容体の発現の状態を指す、AR+(ARPC)であるのかAR-であるのかを決定することを含む。あるいは、がん亜型の前記ステップは、前立腺がんがAR+(ARPC)であるのかAR(low)であるのかを決定することを含む。AR+である前立腺がんは、多くの場合、細胞におけるアンドロゲン受容体活性を抑制するアンドロゲン受容体シグナル伝達阻害剤(ARSI)によって処置される。別の実施形態では、がん亜型の前記ステップは、前立腺がんが神経内分泌前立腺がん(NEPC)表現型シグネチャーを有するか否かを決定することを含む。NEPC細胞はAR活性を欠き、CRPC細胞とは別個の、異なるエピジェネティック改変を含めた転写プログラミング調節プロファイルを有し、したがって別個の表現型がもたらされ、それには代替の治療介入が必要になる。別の実施形態では、がん亜型の前記ステップは、前立腺がんが、同じ細胞において外分泌の特質と神経内分泌の特質の両方を有することを指す、両分泌性(amphicrine)であるかどうかを決定することを含む。以下の実施例2において実証される通り、ctDNAから生成された入力配列リードからこれらの細胞型を正確に区別するために、Griffinワークフローを活用することができる。当然、本開示は、対象における前立腺がん亜型を厳密に決定するために複数の特徴の状態を決定する、区別実施形態も包含することが理解されよう。例えば、がん亜型を決定することは、以下のうちの任意の組合せの2つ、3つ、4つ、または全てを決定することを含む:がんがAR+(ARPC)であるのかAR-であるのか、がんがAR-lowであるのかARPCであるのか、がんが神経内分泌前立腺がん(NEPC)表現型シグネチャーを有するか否か、がんがAR-lowであるのかNEPCであるのか、がんが両分泌性であるのかARPCであるのか、またはNEPCであるのか。 In another embodiment, the cancer is characterized as metastatic prostate cancer. In a further embodiment, determining the prostate cancer subtype deals with determining whether the cancer expresses various markers characteristic of distinct subtypes. For example, in one embodiment, the step of cancer subtype includes determining whether the prostate cancer is AR+ (ARPC) or AR-, which refers to the state of expression of the androgen receptor. Alternatively, the step of cancer subtype includes determining whether the prostate cancer is AR+ (ARPC) or AR(low). Prostate cancers that are AR+ are often treated with androgen receptor signaling inhibitors (ARSIs), which suppress androgen receptor activity in cells. In another embodiment, the step of cancer subtype includes determining whether the prostate cancer has a neuroendocrine prostate cancer (NEPC) phenotypic signature. NEPC cells lack AR activity and have a transcriptional programming regulatory profile, including epigenetic modifications, that are distinct from CRPC cells, thus resulting in a distinct phenotype that requires alternative therapeutic intervention. In another embodiment, the step of cancer subtyping includes determining whether the prostate cancer is amphicrine, which refers to having both exocrine and neuroendocrine traits in the same cell. As demonstrated in Example 2 below, the Griffin workflow can be utilized to accurately distinguish these cell types from input sequence reads generated from ctDNA. Of course, it will be understood that the present disclosure also encompasses differentiation embodiments that determine the status of multiple features to precisely determine the prostate cancer subtype in a subject. For example, determining the cancer subtype includes determining two, three, four, or all of any combination of the following: whether the cancer is AR+ (ARPC) or AR-, whether the cancer is AR-low or ARPC, whether the cancer has a neuroendocrine prostate cancer (NEPC) phenotypic signature, whether the cancer is AR-low or NEPC, whether the cancer is amphicrine, ARPC, or NEPC.

別の実施形態では、がんは、転移肺がんであると特徴付けられる。さらなる実施形態では、肺がんの亜型を決定することは、がんが小細胞肺がん(SCLC)であるのか非小細胞肺がん(NSCLC)であるのかを決定することを含む。肺がんがNSCLCである場合、さらなる実施形態では、方法は、NSCLCが腺癌であるのか扁平上皮癌であるのかを決定するステップをさらに含む。 In another embodiment, the cancer is characterized as metastatic lung cancer. In a further embodiment, determining the subtype of the lung cancer includes determining whether the cancer is small cell lung cancer (SCLC) or non-small cell lung cancer (NSCLC). If the lung cancer is NSCLC, in a further embodiment, the method further includes determining whether the NSCLC is adenocarcinoma or squamous cell carcinoma.

上記の通り、入力配列リードデータは、種々のプラットフォームから、全ゲノム解析を含めた様々な技法を用いて生成されたものであってよい。実施例3では、本発明者らは全ゲノム解析を確立したが、必要ではない。その代わりに、本発明者らは科学研究(例えば、肺がん細胞の亜型決定)と関連性があるとみなされるゲノム標的のパネルを設計し、実装した。したがって、一部の実施形態では、肺がんについて、ゲノム標的のパネルから生成された配列リードデータを使用してさらに亜型を決定する。一部の実施形態では、ゲノム標的のパネルは、解析の主題である指定された亜型、例えばSCLCに関連付けられる1種または複数種の転写因子の転写因子結合部位(TFBS)を含む。例えば、SCLCの亜型決定に関しては、1種または複数種の関連付けられる転写因子は、ASLC、NEUROD1、POU2F3、RESTなどのうちの1つまたは複数を含む。そのような実施形態では、方法は、任意の適切な技法(例えば、カットアンドランなど)を使用してTFBSのヌクレオソーム占有率を決定するステップを含む。TFBSは、ChIP-seqデータまたは同様の当技術分野で公知の技法によって同定することができる。候補TFBSが、肺がん、または亜型決定における肺がんの目的の亜型に関連付けられる遺伝子の転写開始部位(TSS)の近位にある場合、それをパネル内に保持することができる。この点について、近位という用語は、TFBSがTSSにおける転写の開始に対して大きな機能的影響を及ぼす近傍にあることを意味し得る。一部の場合では、TSSがTFBSに最も近いTSSである場合、機能的影響または関連性を確立することができる。他の実施形態では、ゲノム標的のパネルは、肺がん(または肺がんの目的の特定の亜型)に関連付けられる1種または複数種のマーカーの転写開始部位(TSS)を含む。そのような実施形態では、方法は、公知の技法によってTSSのヌクレオソーム占有率を決定するステップを含む。 As described above, the input sequence read data may be generated from a variety of platforms and using a variety of techniques, including whole genome analysis. In Example 3, the inventors established whole genome analysis, but this is not necessary. Instead, the inventors designed and implemented a panel of genomic targets deemed relevant for scientific research (e.g., subtyping lung cancer cells). Thus, in some embodiments, lung cancer is further subtyped using sequence read data generated from a panel of genomic targets. In some embodiments, the panel of genomic targets includes transcription factor binding sites (TFBS) of one or more transcription factors associated with the specified subtype that is the subject of the analysis, e.g., SCLC. For example, with respect to subtyping SCLC, the one or more associated transcription factors include one or more of ASLC, NEUROD1, POU2F3, REST, etc. In such embodiments, the method includes a step of determining the nucleosome occupancy of the TFBS using any suitable technique (e.g., cut and run, etc.). TFBSs can be identified by ChIP-seq data or similar techniques known in the art. If a candidate TFBS is proximal to the transcription start site (TSS) of a gene associated with lung cancer, or a subtype of lung cancer of interest in subtyping, it can be retained in the panel. In this regard, the term proximal can mean that the TFBS is in a vicinity that has a large functional impact on the initiation of transcription at the TSS. In some cases, a functional impact or association can be established if the TSS is the closest TSS to the TFBS. In other embodiments, the panel of genomic targets includes the transcription start site (TSS) of one or more markers associated with lung cancer (or a particular subtype of lung cancer of interest). In such embodiments, the method includes determining the nucleosome occupancy of the TSS by known techniques.

本明細書に記載の生体試料は、セルフリーDNAを有する可能性がある、対象から得た任意の試料であってよい。本開示に包含される例示的な非限定的な例としては、血液、血漿、または血清である試料が挙げられ、これらは、対象由来のcfDNAおよびctDNAを評定するために特に有用である。対象におけるがん検出または評定に関する前述の態様のいずれの実施形態でも、方法は、対象から生体試料を得るステップをさらに含み得る。さらに、任意の時点でがんまたはがん亜型を有することが決定される対象に関しては、方法は、がん型または亜型の決定に基づいて、決定されたがんに関する医療分野において許容される慣行に従って適切な処置を処方することまたは対象を適切に積極的に処置することをさらに含み得る。 The biological sample described herein may be any sample obtained from a subject that may have cell-free DNA. Illustrative non-limiting examples encompassed by the present disclosure include samples that are blood, plasma, or serum, which are particularly useful for assessing cfDNA and ctDNA from a subject. In any embodiment of the foregoing aspects of detecting or assessing cancer in a subject, the method may further include obtaining a biological sample from the subject. Additionally, for a subject determined to have cancer or cancer subtype at any time, the method may further include prescribing an appropriate treatment or appropriately aggressively treating the subject according to accepted practices in the medical field for the determined cancer based on the determination of the cancer type or subtype.

本明細書に記載の任意の態様では、当該記載の方法を複数回実施して、複数の評定をもたらすことができる。これは、細胞型または亜型の存在または供給源からの進化をモニタリングするための方法をもたらすために有用であり得る。例えば、方法を、対象から得た生体試料から得られた配列リードデータから、がんと最初に診断される前および/またはがんと最初に診断された時点もしくはその後に、実施することができる。 In any of the aspects described herein, the described methods can be performed multiple times to provide multiple assessments. This can be useful to provide a method for monitoring the presence of a cell type or subtype or its evolution from a source. For example, the method can be performed from sequence read data obtained from a biological sample from a subject prior to and/or at or after the subject is first diagnosed with cancer.

上記の通り、Griffinワークフローは、柔軟なものであり、カバレッジプロファイルの生成に関して、目的のゲノム領域がある特定のセットに限定されることもなく、配列データが特定の型に限定されることもない。配列リードデータを生成するための例示的な非限定的な手法としては、全ゲノムシーケンシング(例えば、0.05×カバレッジから100×カバレッジの間の深度)およびクロマチンアクセシビリティアッセイが挙げられる。一部の実施形態では、例えば、当技術分野で公知のATAC-seq、ChIP-seq、DNA分解酵素感受性アッセイなどの技法によって配列リードデータを生成する、または当該技法を使用して目的の領域を同定する。一部の実施形態では、カットアンドランによって配列データを生成する。例えば、その全体が参照により本明細書に組み込まれるWO2019/060907を参照されたい。例えば、カットアンドランアッセイに、H3K27ac、H3K4me1および/またはH3K27acという翻訳後修飾を標的とする1つまたは複数の親和性試薬(例えば、抗体または抗体断片)の使用を組み入れることができる。一部の実施形態では、方法は、例えば、本明細書に記載の例示的な手法または当技術分野で公知の他の適切な手法のいずれかを使用して配列リードデータを断定的に生成するステップを含む。 As noted above, the Griffin workflow is flexible and is not limited to a particular set of genomic regions of interest or a particular type of sequence data for generating coverage profiles. Exemplary non-limiting techniques for generating sequence read data include whole genome sequencing (e.g., at a depth between 0.05× coverage and 100× coverage) and chromatin accessibility assays. In some embodiments, sequence read data is generated by or regions of interest are identified using techniques such as ATAC-seq, ChIP-seq, DNase sensitivity assays, etc., known in the art. In some embodiments, sequence data is generated by cut-and-run. See, e.g., WO 2019/060907, which is incorporated herein by reference in its entirety. For example, the cut-and-run assay can incorporate the use of one or more affinity reagents (e.g., antibodies or antibody fragments) targeting H3K27ac, H3K4me1, and/or H3K27ac post-translational modifications. In some embodiments, the method includes generating sequence read data deterministically, e.g., using any of the exemplary techniques described herein or other suitable techniques known in the art.

上記の通り、肺がん亜型決定に関しては、配列リードデータをゲノム標的のパネルから作製することができる。この標的化パネル手法は、肺がん亜型決定を超えて、他のがん型にも適用可能であることが理解されよう。したがって、上記の方法のいずれかの一部の実施形態では、配列リードデータは、ゲノム標的のパネルから生成された配列リードデータを含み得る。ゲノム標的のパネルは、肺がんに関して実施例3に記載されている手法に従って設計し、アセンブルすることができる(図16も参照されたい)。例えば、パネルは、目的のがん型に関連付けられる1種または複数種の転写因子のTFBSを含み得る。目的のがん型に関連付けられる転写因子は、当技術分野から容易に同定することができる。指定された転写因子に関するTFBSは、例えばChIP-seqデータなどの、ゲノム内の結合部位を確立する標準的なアッセイによって決定することができる。さらに、候補TFBSを、関連性のあるがんまたはがん亜型に関連付けられる転写レベル(オン、オフ、高い、低いなど)を有する遺伝子の転写開始部位(TSS)との結び付きまたは近傍にあることの評定に基づいてさらに保持することができる。一部の実施形態では、ゲノム標的のパネルは、目的のがん型に関連付けられる1種または複数種のマーカーの転写開始部位(TSS)を含む。パネルは、TFBSおよび/またはTSSを任意の組合せで使用して構築することができる。確立されたら、方向づけられたシーケンシングリードを標的から生成する。一部の実施形態では、TFBSのヌクレオソーム占有率および/またはTSSを決定する。配列リードデータを上記のコンピュータ実装Griffin法に入力して、適切な亜型決定または他の解析を容易にする。 As described above, for lung cancer subtyping, sequence read data can be generated from a panel of genomic targets. It will be understood that this targeted panel approach is applicable to other cancer types beyond lung cancer subtyping. Thus, in some embodiments of any of the above methods, the sequence read data can include sequence read data generated from a panel of genomic targets. The panel of genomic targets can be designed and assembled according to the approach described in Example 3 for lung cancer (see also FIG. 16). For example, the panel can include TFBSs of one or more transcription factors associated with the cancer type of interest. Transcription factors associated with the cancer type of interest can be readily identified in the art. TFBSs for a specified transcription factor can be determined by standard assays that establish binding sites within the genome, such as, for example, ChIP-seq data. Additionally, candidate TFBSs can be further retained based on an assessment of association with or proximity to the transcription start site (TSS) of a gene with a transcription level (on, off, high, low, etc.) associated with the relevant cancer or cancer subtype. In some embodiments, the panel of genomic targets includes the transcription start sites (TSSs) of one or more markers associated with the cancer type of interest. The panel can be constructed using any combination of TFBSs and/or TSSs. Once established, directed sequencing reads are generated from the targets. In some embodiments, the nucleosome occupancy and/or TSSs of the TFBSs are determined. The sequence read data is input into the computer-implemented Griffin method described above to facilitate appropriate subtyping or other analysis.

実施例2に開示される通り、標準偏差を評定するための変動係数を使用した断片サイズの変動の解析により、遺伝子発現/活性と驚くほど強力な相関を有する測定基準がもたらされた。この解析をGriffinワークフローの実施に組み込むこともでき、それとは独立させることもできる。したがって、別の態様では、本開示は、細胞型を予測するための、セルフリーDNA試料からの配列リードデータを増強する、コンピュータ実装方法を提供する。方法は、
コンピューティングシステムにより配列リードデータを受け取るステップであって、配列リードデータが、複数の断片リードを含み、各断片リードが、ある断片長を有する、ステップ、
コンピューティングシステムにより、ある細胞型に関連付けられる少なくとも1種の遺伝子についての断片サイズの変動性を決定するステップ、および
コンピューティングシステムにより、少なくとも1種の遺伝子についての断片サイズの変動性に基づいて、細胞型を予測するステップ
を含む。
As disclosed in Example 2, analysis of fragment size variation using the coefficient of variation to assess standard deviation yielded a metric with a surprisingly strong correlation with gene expression/activity. This analysis can be integrated into the implementation of the Griffin workflow or can be independent of it. Thus, in another aspect, the present disclosure provides a computer-implemented method for augmenting sequence read data from cell-free DNA samples to predict cell type. The method includes:
receiving, by a computing system, sequence read data, the sequence read data including a plurality of fragment reads, each fragment read having a fragment length;
determining, by a computing system, a variability in fragment sizes for at least one gene associated with a cell type; and predicting, by the computing system, the cell type based on the variability in fragment sizes for the at least one gene.

図23は、本開示の種々の態様に従って、細胞型予測の改善のためにセルフリーDNA試料からの配列リードデータを増強する実施形態の非限定的な例を例示するフローチャートである。 FIG. 23 is a flow chart illustrating a non-limiting example of an embodiment for enhancing sequence read data from cell-free DNA samples for improved cell type prediction according to various aspects of the present disclosure.

ブロック702において、コンピューティングシステムにより配列リードデータを受け取り、ここで、配列リードデータは複数の断片リードを含み、各断片リードは、ある断片長を有する。 In block 702, sequence read data is received by a computing system, where the sequence read data includes a plurality of fragment reads, each fragment read having a fragment length.

ブロック704において、コンピューティングシステムにより、ある細胞型に関連付けられる少なくとも1種の遺伝子についての断片サイズの変動性を決定する。一部の実施形態では、そのmRNAの発現および転写活性が所与の細胞型に関連付けられることが分かっている遺伝子、例えば、前立腺がんに関連付けられることが分かっている、図12Dに例示されている47種の遺伝子の位置を使用することができる。 At block 704, the computing system determines the fragment size variability for at least one gene associated with a cell type. In some embodiments, the locations of genes whose mRNA expression and transcriptional activity are known to be associated with a given cell type, such as the 47 genes illustrated in FIG. 12D that are known to be associated with prostate cancer, can be used.

一部の実施形態では、1種または複数種の遺伝子に関連付けられる位置における断片の断片サイズの変動係数を決定し、断片サイズの変動性の値として使用することができる。変動係数(CV)は、細胞型に関連付けられる遺伝子における断片を解析する場合に、断片サイズの変動性に基づいて細胞型を区別することに関して特に有用であることが見いだされている。特に、CVは、他の技法(例えば、エントロピーの測定など)よりもシーケンシングカバレッジの深度の影響を受けにくいことが見いだされている。 In some embodiments, the coefficient of variation of fragment sizes for fragments at positions associated with one or more genes can be determined and used as a measure of fragment size variability. The coefficient of variation (CV) has been found to be particularly useful for distinguishing cell types based on fragment size variability when analyzing fragments in genes associated with cell types. In particular, CV has been found to be less sensitive to the depth of sequencing coverage than other techniques (e.g., measures of entropy, etc.).

ブロック706において、コンピューティングシステムにより、少なくとも1種の遺伝子について、断片サイズの変動性に基づいて細胞型を予測する。一部の実施形態では、断片サイズの変動性に基づいて特徴を生成することができ、その特徴を分類器モデルへの入力として提供して、その特徴が所与の細胞型を表すものであるかどうかを決定することができる。非限定的な一例では、第1の細胞型における断片サイズの変動性と第2の細胞型における断片サイズの変動性の比を特徴として使用することができる。分類器モデルを使用して、所与の試料について算出された特徴が第1の細胞型の特徴または第2の細胞型の特徴のいずれにより近いかを決定することができる。ロジスティック回帰モデル、人工ニューラルネットワーク、決定木、サポートベクターマシン、およびベイジアンネットワークを含むがこれだけに限定されない任意の適切な分類器モデルを使用することができる。 At block 706, the computing system predicts the cell type based on the fragment size variability for at least one gene. In some embodiments, a feature can be generated based on the fragment size variability and provided as an input to a classifier model to determine whether the feature is representative of a given cell type. In one non-limiting example, a ratio of fragment size variability in a first cell type to fragment size variability in a second cell type can be used as a feature. The classifier model can be used to determine whether a calculated feature for a given sample is closer to a feature of the first cell type or a feature of the second cell type. Any suitable classifier model can be used, including but not limited to logistic regression models, artificial neural networks, decision trees, support vector machines, and Bayesian networks.

方法700の使用の実施形態の非限定的な一例は、断片サイズの変動性の解析を使用して、アンドロゲン受容体経路活性前立腺がん(ARPC)のいろいろの種類および神経内分泌前立腺がん(NEPC)のいろいろの種類の前立腺がん細胞型を区別する実施例2に記載されている。 A non-limiting example of an embodiment of the use of method 700 is described in Example 2, in which analysis of fragment size variability is used to distinguish between different types of androgen receptor pathway-activated prostate cancer (ARPC) and different types of neuroendocrine prostate cancer (NEPC) prostate cancer cell types.

追加的な定義
本明細書において具体的に定義されていなければ、本明細書で使用される用語は全て、本発明の当業者にとっての意味と同じ意味を有する。従事者には、定義および技術分野の用語に関して、特にSambrook J., et al. (eds)., Molecular Cloning: A Laboratory Manual, 3rd ed., Cold Spring Harbor Press, Plainsview, New York (2001);およびAusubel, F.M., et al. (eds)., Current Protocols in Molecular Biology, John Wiley & Sons, New York (2010)が対象とする。
Additional definitions Unless otherwise specifically defined herein, all terms used herein have the same meaning as those skilled in the art of the present invention.For definitions and technical terms, practitioners are particularly directed to Sambrook J., et al. (eds)., Molecular Cloning: A Laboratory Manual, 3rd ed., Cold Spring Harbor Press, Plainsview, New York (2001); and Ausubel, FM, et al. (eds)., Current Protocols in Molecular Biology, John Wiley & Sons, New York (2010).

特許請求の範囲における「または(or)」という用語の使用は、代替物のみを指すまたは代替物が相互排他的であることが明示されていなければ、「および/または(and/or)」を意味するように使用されるが、本開示では、代替物のみ、および「および/または(and/or)」を指す定義が支持される。 Although use of the term "or" in the claims is used to mean "and/or" unless expressly stated to refer to alternatives only or that the alternatives are mutually exclusive, this disclosure supports the definition referring to alternatives only and "and/or."

長年の特許法に従い、「1つの(a)」および「1つの(an)」という単語は、特許請求の範囲または明細書において「含む(comprising)」という単語と併せて使用される場合、特に記載がなければ、1つまたは複数(one or more)を指す。 In accordance with long-standing patent law, the words "a" and "an," when used in conjunction with the word "comprising" in a claim or specification, refer to one or more, unless specifically stated otherwise.

文脈からそうでないことが明白に要求される場合を除き、説明および特許請求の範囲全体を通して、「含む(comprise)」、「含む(comprising)」などの単語は、排他的または徹底的な意味とは対照的に、包括的な意味で解釈されるべきである。つまり、「を含むがこれだけに限定されない」という意味を示す。単数または複数が使用される単語は、それぞれ複数および単数も包含する。さらに、「本明細書」、「上」および「下」という単語、ならびに同様の意味の単語は、本出願で使用される場合、本出願のいかなる特定の部分でもなく、本出願を全体として指すものとする。「約」という単語は、明示された参照数の上下の軽微な変動の範囲内に入る数を示す。例えば、「約」は、示されている参照数の上下10%、9%、8%、7%、6%、5%、4%、3%、2%、または1%の範囲内に入る数を指し得る。 Unless the context clearly requires otherwise, throughout the description and claims, words such as "comprise," "comprising," and the like, are to be construed in an inclusive sense, as opposed to an exclusive or exhaustive sense; that is, to indicate the meaning "including but not limited to." Words in the singular or plural also encompass the plural and singular, respectively. Additionally, the words "herein," "above," and "below," and words of similar import, when used in this application, shall refer to this application as a whole and not to any particular portion of this application. The word "about" refers to a number that falls within a range of minor variations above and below the stated reference number. For example, "about" may refer to a number that falls within a range of 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, or 1% above or below the indicated reference number.

「対象」、「個体」、および「患者」という用語は、本明細書では、互換的に使用され、処置のための評定を受けるおよび/または処置を受ける哺乳動物を指す。ある特定の実施形態では、哺乳動物は、ヒトである。「対象」、「個体」、および「患者」という用語は、これだけに限定することなく、がんを有する個体を包含する。対象はヒトであり得るが、この用語は、他の哺乳動物、特に、ヒト疾患に関する実験モデルとして有用な哺乳動物、例えば、マウス、ラット、イヌ、非ヒト霊長類なども包含する。 The terms "subject," "individual," and "patient" are used interchangeably herein to refer to a mammal being evaluated for and/or receiving treatment. In certain embodiments, the mammal is a human. The terms "subject," "individual," and "patient" include, but are not limited to, individuals with cancer. Although the subject can be a human, the terms also include other mammals, particularly mammals useful as experimental models for human disease, such as mice, rats, dogs, non-human primates, and the like.

「処置すること(treating)」という用語およびその文法上の変形は、任意の客観的または主観的パラメータ、例えば、軽減;寛解;症状の減弱もしくは疾患状態を患者により忍容性にすること;変性もしくは減退の速度が緩徐化すること;または変性の最終点をより弱めるものにすることを含めた、疾患または状態(例えば、がん、感染性疾患、または自己免疫疾患)の処置または好転または予防の成功の任意の兆候を指し得る。 The term "treating" and grammatical variations thereof may refer to any indication of successful treatment or reversal or prevention of a disease or condition (e.g., cancer, an infectious disease, or an autoimmune disease), including any objective or subjective parameter, such as relief; remission; a decrease in symptoms or making the disease state more tolerable to the patient; a slowing of the rate of degeneration or decline; or making the end point of degeneration less severe.

症状の処置または好転は、医師による検査の結果を含めた客観的または主観的パラメータに基づくものであってよい。したがって、「処置すること(treating)」という用語は、疾患または状態(例えば、がん)を、予防するもしくは遅延させるため、緩和するため、臨床転帰を改善するため、症状の存在を減少させるため、生活の質を改善するため、無疾患状況を長くするため、安定化するため、生存期間を延長させるため、付随する症状もしくは状態の発生を静止させるもしくは阻害するため、またはこれらの任意の組合せのために、本開示の化合物または薬剤を投与することを包含する。「治療効果」という用語は、対象における疾患もしくは状態、疾患もしくは状態の症状、または疾患もしくは状態の副作用の低減、排除、または予防を指す。 The treatment or amelioration of symptoms may be based on objective or subjective parameters, including the results of a physician's examination. Thus, the term "treating" includes administering a compound or agent of the present disclosure to prevent or delay, alleviate, improve clinical outcome, reduce the presence of symptoms, improve quality of life, prolong disease-free status, stabilize, extend survival, arrest or inhibit the development of associated symptoms or conditions, or any combination thereof, of a disease or condition (e.g., cancer). The term "therapeutic effect" refers to the reduction, elimination, or prevention of a disease or condition, a symptom of a disease or condition, or a side effect of a disease or condition in a subject.

本明細書で使用される場合、「核酸」または「ポリ核酸」という用語は、ヌクレオチド単量体単位または「残基」のポリマー、一般にはDNAまたはRNAを指す。核酸のヌクレオチド単量体サブユニット、または残基は、それぞれ、窒素塩基(すなわち、核酸塩基)、5炭素糖、およびリン酸基を含有する。各残基の同一性は、一般には、本明細書では各残基の核酸塩基(または窒素塩基)構造の同一性を参照して示される。標準核酸塩基として、アデニン(A)、グアニン(G)、チミン(T)、ウラシル(U)(RNAにおいてチミン(T)残基の代わりに)およびシトシン(C)が挙げられる。しかし、本開示の核酸は、当技術分野で周知の任意の改変された核酸塩基、核酸塩基類似体、および/または非標準核酸塩基を包含し得る。 As used herein, the term "nucleic acid" or "polynucleic acid" refers to a polymer of nucleotide monomeric units or "residues", typically DNA or RNA. The nucleotide monomeric subunits, or residues, of a nucleic acid each contain a nitrogenous base (i.e., nucleobase), a five-carbon sugar, and a phosphate group. The identity of each residue is generally indicated herein with reference to the identity of the nucleobase (or nitrogenous base) structure of each residue. Standard nucleobases include adenine (A), guanine (G), thymine (T), uracil (U) (in place of thymine (T) residues in RNA), and cytosine (C). However, the nucleic acids of the present disclosure may include any modified nucleobases, nucleobase analogs, and/or non-standard nucleobases known in the art.

本開示の方法および組成物のために使用することができる、本開示の方法および組成物と併せて使用することができる、本開示の方法および組成物に備えて使用することができる、または本開示の方法および組成物の産物である材料、組成物、および構成成分が開示される。これらの材料の組合せ、サブセット、相互作用、群などが開示される場合、種々の個々のおよび集合的な組合せのそれぞれが、これらの化合物のありとあらゆる単一の組合せおよび並び替えへの具体的な言及は明確に開示されない場合があるにもかかわらず、具体的に意図されることが理解される。この概念は、当該記載の方法におけるステップを含むがこれだけに限定されない本開示の全ての態様に当てはまる。したがって、任意の前述の実施形態の特定の要素を他の実施形態における要素と組み合わせることまたは取り換えることができる。例えば、実施することができる種々の追加的なステップが存在する場合、これらの追加的なステップのそれぞれを、本開示の方法の任意の特定の方法ステップまたは方法ステップの組合せを用いて実施することができること、および、そのような組合せまたは組合せのサブセットが具体的に意図され、開示されるとみなされるべきであることが理解される。さらに、本明細書に記載の実施形態を、本明細書の他の箇所に記載のまたは当技術分野で公知のものなどの任意の適切な材料を使用して実行することができることが理解される。 Disclosed are materials, compositions, and components that can be used for, can be used in conjunction with, can be used in preparation for, or are products of the disclosed methods and compositions. When combinations, subsets, interactions, groups, etc. of these materials are disclosed, it is understood that each of the various individual and collective combinations is specifically contemplated, even though specific reference to any and all single combinations and permutations of these compounds may not be expressly disclosed. This concept applies to all aspects of the disclosure, including but not limited to the steps in the described methods. Thus, specific elements of any of the foregoing embodiments can be combined or substituted with elements in other embodiments. For example, where there are various additional steps that can be performed, it is understood that each of these additional steps can be performed with any particular method step or combination of method steps of the disclosed methods, and that such combinations or subsets of combinations should be considered specifically contemplated and disclosed. Additionally, it is understood that the embodiments described herein can be performed using any suitable materials, such as those described elsewhere herein or known in the art.

本明細書において引用されている刊行物およびそれらが引用されたところの主題は、それによりそれらの全体が具体的に参照により組み込まれる。 Publications cited herein and the subject matter for which they are cited are hereby specifically incorporated by reference in their entirety.

以下の実施例は、本発明の作製および使用の仕方に関する完全な開示および説明を当業者に提供するために記載するものであり、発明者らが自身の発明とみなすものの範囲を限定するものでもなく、以下の実験が、実施した全ての実験または唯一の実験であることを表すものでもない。 The following examples are provided so as to provide those of ordinary skill in the art with a complete disclosure and description of how to make and use the invention, and are not intended to limit the scope of what the inventors regard as their invention, nor are they intended to represent that the experiments below are all or the only experiments performed.

(実施例1)
本実施例では、本明細書に開示されるGriffinワークフローの実施形態が適用される配列解析により、乳がん亜型の決定を可能にするために十分な検出力および特異性を有する配列シグナルが増強されることの概念実証を提供する試験について記載する。この研究の要素は、その全体が参照により本明細書に組み込まれるDoebley, A.-L., et al. (2021). Griffin: Framework for clinical cancer subtyping from nucleosome profiling of cell-free DNA. MedRxiv 2021.08.31.21262867にも記載されている。
Example 1
This example describes a study that provides proof of concept that sequence analysis applied to an embodiment of the Griffin workflow disclosed herein enhances sequence signal with sufficient power and specificity to allow for breast cancer subtyping. Elements of this work are also described in Doebley, A.-L., et al. (2021). Griffin: Framework for clinical cancer subtyping from nucleosome profiling of cell-free DNA. MedRxiv 2021.08.31.21262867, which is incorporated herein by reference in its entirety.

緒言
正確ながんの診断および亜型分類は、臨床ケアおよび高精度の腫瘍学の指針を示すために極めて重要である。腫瘍亜型を決定するための現行の手法では、組織生検材料が必要であるが、これは、多くの場合、転移がんを有する患者から得ることは難しい。したがって、再発または転移がんの診断時点の処置選択肢は、多くの場合、原発腫瘍の臨床診断から情報を得たものになる。しかし、転移増悪の間および治療抵抗性の状況で、腫瘍における分子の変化が出現する可能性がある。さらに、生検の繰り返しには問題があり、固形腫瘍の診療に関して常套的なものではないので、分子の変化を調査することは困難である。
Introduction Accurate cancer diagnosis and subtyping is crucial to guide clinical care and precision oncology. Current methods for determining tumor subtype require tissue biopsies, which are often difficult to obtain from patients with metastatic cancer. Thus, treatment options at the time of diagnosis of recurrent or metastatic cancer are often informed by the clinical diagnosis of the primary tumor. However, during metastatic progression and in the setting of treatment resistance, molecular changes in tumors can emerge. Moreover, molecular changes are difficult to investigate, as repeat biopsies are problematic and not routine for solid tumor practice.

セルフリーDNA(cfDNA)は、アポトーシスおよび壊死の間に細胞によって循環中に放出されたDNAである。がんを有する患者では、このcfDNAの一部は腫瘍細胞から放出されたものであり、循環腫瘍DNA(ctDNA)と称される。ctDNAの分析は、組織アクセシビリティに関する難題に対処することができるものであり、臨床的有用性に関して大きな潜在性が実証されている。現行の研究および臨床的努力の多くは、ctDNAの遺伝的変更を検出することに焦点が当てられてきた。cfDNAに対する、超ローパス全ゲノムシーケンシング(ULP-WGS、0.1×)を含めた浅いカバレッジのシーケンシングにより、ゲノムのコピー数変更の解析から腫瘍割合(cfDNAの腫瘍に由来する割合)を推定することに対する費用効果が大きく、スケーラブルな解決法がもたらされる。ctDNAからゲノムの変更のシーケンシング解析を行うことは、腫瘍の分子サブセットを区別するために役立った。しかし、体細胞変異を含めたこれらのゲノムの変更によって必ずしも処置の失敗が十分に説明されるとも治療標的が同定されるとも限らず、そのことにより、がん精密医療の主要な限界が例証される。 Cell-free DNA (cfDNA) is DNA released into the circulation by cells during apoptosis and necrosis. In patients with cancer, a portion of this cfDNA is released from tumor cells and is referred to as circulating tumor DNA (ctDNA). Analysis of ctDNA can address the challenges of tissue accessibility and has demonstrated great potential for clinical utility. Many of the current research and clinical efforts have been focused on detecting genetic alterations in ctDNA. Shallow coverage sequencing of cfDNA, including ultra-low-pass whole genome sequencing (ULP-WGS, 0.1x), provides a cost-effective and scalable solution for estimating tumor fraction (the fraction of cfDNA originating from the tumor) from analysis of genomic copy number alterations. Sequencing analysis of genomic alterations from ctDNA has helped to distinguish molecular subsets of tumors. However, these genomic alterations, including somatic mutations, do not always fully explain treatment failure or identify therapeutic targets, thereby illustrating a major limitation of precision cancer medicine.

腫瘍亜型は、多くの場合、別個の転写調節を特質とし、これは、処置に対する抵抗性の間に変化し、異なる臨床的腫瘍表現型をもたらす可能性がある。例えば、前立腺がんおよび肺がんは、腺癌から小細胞神経内分泌表現型への分化転換を受け得る。転移乳がん(MBC)に関しては、処置は、多くの場合は原発腫瘍における、エストロゲン受容体(ER)、プロゲステロン受容体(PR)、およびヒト上皮成長因子受容体2(HER2)の発現によって決定される臨床的亜型に基づいてガイドされる;ER陽性(ER+)またはPR陽性(PR+)癌を有する患者に対しては内分泌治療が処方され、一方、HER2陽性腫瘍を有する患者には抗HER2薬が処方される。3種の受容体全ての発現が存在しない腫瘍を有する患者は、トリプルネガティブ乳がん(TNBC)を有し、化学療法を受ける。しかし、患者腫瘍の約20%がER+からER-陰性(ER-)亜型に切り替わることを含め、原発および転移疾患増悪の間の受容体の転換が頻繁に観察されている。さらに、乳がんにおいて腫瘍内ゲノム不均一性が存在することと同様に、同じ患者における転移病変にわたってまたはそれらの中で臨床的亜型の混合物が共存し得、それにより、主要な臨床的難題が示される。したがって、基礎をなす、治療の間に出現した臨床表現型の正確な亜型分類および転写パターンの同定が、抵抗性の機構を調査し、処置決定に関する情報をもたらすために極めて重要な意味をもつ。 Tumor subtypes often feature distinct transcriptional regulation that can change during resistance to treatment, resulting in distinct clinical tumor phenotypes. For example, prostate and lung cancers can undergo transdifferentiation from adenocarcinoma to small cell neuroendocrine phenotype. For metastatic breast cancer (MBC), treatment is guided based on clinical subtype, often determined by the expression of estrogen receptor (ER), progesterone receptor (PR), and human epidermal growth factor receptor 2 (HER2) in the primary tumor; endocrine therapy is prescribed for patients with ER-positive (ER+) or PR-positive (PR+) cancers, while anti-HER2 drugs are prescribed for patients with HER2-positive tumors. Patients with tumors lacking expression of all three receptors have triple-negative breast cancer (TNBC) and undergo chemotherapy. However, receptor switching between primary and metastatic disease progression has been frequently observed, including approximately 20% of patient tumors switching from ER+ to ER-negative (ER-) subtype. Furthermore, similar to the presence of intratumoral genomic heterogeneity in breast cancer, a mixture of clinical subtypes may coexist across or within metastatic lesions in the same patient, thereby presenting a major clinical challenge. Accurate subtyping of the underlying clinical phenotype and identification of transcriptional patterns that emerge during treatment are therefore crucial to investigate mechanisms of resistance and inform treatment decisions.

最近の試験により、ゲノムシーケンシングデータからのcfDNA断片化パターンをコンピュータで解析することにより、起源細胞におけるヌクレオソームの占有率を明らかにすることができることが示された。DNAは、細胞死の後に末梢血中に放出されると、ヌクレオソームによる分解から保護される。アクセシブルゲノム位置、例えば、活発に結合する転写因子結合部位(TFBS)およびオープンクロマチン領域では、ヌクレオソームは、DNA結合タンパク質の到達を可能にする組織化された様式で配置されている(図7A)。このヌクレオソーム組織化によりシーケンシングカバレッジの喪失がもたらされ、これは、保護されていない結合部位においてDNAが分解され、周囲の保護された位置にカバレッジのピークが伴うことを反映する。 Recent studies have shown that computational analysis of cfDNA fragmentation patterns from genome sequencing data can reveal nucleosome occupancy in the cell of origin. DNA is protected from degradation by nucleosomes when released into peripheral blood after cell death. At accessible genomic locations, e.g., actively bound transcription factor binding sites (TFBS) and open chromatin regions, nucleosomes are arranged in an organized manner that allows the access of DNA-binding proteins (Figure 7A). This nucleosome organization results in a loss of sequencing coverage, reflecting DNA degradation at unprotected binding sites, accompanied by coverage peaks at surrounding protected locations.

cfDNAからのヌクレオソームプロファイリングの適用は、腫瘍細胞から富化される傾向がある短いcfDNA断片の解析を含め、がん検出および起源腫瘍組織の予測について実証されている。cfDNAからの腫瘍の亜型決定は、前立腺がんに関して、TFBS位置を解析することによって探究されてきたが、他のがんに関してはcfDNAからの亜型分類は実証されていないと考えられる。具体的には、cfDNAからの乳がんに関する組織学的サブタイプの予測は示されていない。さらに、現行のcfDNAヌクレオソームプロファイリング手法は、ULP-WGSデータに対しては最適化されていない。ctDNAから腫瘍の臨床表現型を調査することは、頑強なコンピュータによる方法が存在しないことに起因して依然として困難なままであるが、転移がんを有する患者に対して処置決定の指針を示すことに関して明白な潜在的な臨床的有用性がある。 The application of nucleosome profiling from cfDNA has been demonstrated for cancer detection and tumor tissue of origin prediction, including analysis of short cfDNA fragments that tend to be enriched from tumor cells. Tumor subtyping from cfDNA has been explored for prostate cancer by analyzing TFBS locations, but subtyping from cfDNA appears to be unproven for other cancers. Specifically, prediction of histological subtype for breast cancer from cfDNA has not been shown. Furthermore, current cfDNA nucleosome profiling approaches are not optimized for ULP-WGS data. Although investigating the clinical phenotype of tumors from ctDNA remains challenging due to the lack of robust computational methods, there is clear potential clinical utility for guiding treatment decisions for patients with metastatic cancer.

本試験では、cfDNAのヌクレオソームプロファイリングから腫瘍亜型を分類するために、Griffinと称されるコンピュータによるフレームワークを開発した。Griffinは、ULP-WGS(0.1×)カバレッジを含めた標準的なcfDNAゲノムシーケンシングの解析からヌクレオソームアクセシビリティおよび転写調節をプロファイリングするための現行の解析に関する難題を克服するものである。Griffinでは、DNA断片サイズに特異的であり、したがって、cfDNAシーケンシングデータに対する独特のものである、新規のGC補正手順を使用する。Griffinを適用して、がん検出および起源腫瘍組織の解析を高性能で実施した。次いで、cfDNAからの乳がんのER亜型決定の第1の適用を実証し、それにより、強力な分類の正確度ならびに腫瘍の不均一性および予後判定に関する洞察が示され、これらは全て、ULP-WGSデータの解析によって実現された。全体として、Griffinは、cfDNAから転写調節およびクロマチンアクセシビリティに関する分子の変化を検出することができ、おそらくは個別化処置を方向づけて、患者転帰を改善することができる、一般化できるフレームワークである。 In this study, we developed a computational framework, called Griffin, to classify tumor subtypes from nucleosome profiling of cfDNA. Griffin overcomes the challenges of current analyses for profiling nucleosome accessibility and transcriptional regulation from analysis of standard cfDNA genomic sequencing including ULP-WGS (0.1x) coverage. Griffin uses a novel GC correction procedure that is specific to DNA fragment size and therefore unique to cfDNA sequencing data. Griffin was applied to perform high performance cancer detection and tumor tissue of origin analysis. We then demonstrated the first application of breast cancer ER subtyping from cfDNA, which showed robust classification accuracy and insights into tumor heterogeneity and prognosis, all realized by analysis of ULP-WGS data. Overall, Griffin is a generalizable framework that can detect molecular changes in transcriptional regulation and chromatin accessibility from cfDNA, potentially directing personalized treatments to improve patient outcomes.

結果
腫瘍表現型を予測するためのヌクレオソームプロファイリングのためのGriffinフレームワーク
cfDNAからヌクレオソーム占有率を正確にプロファイリングするためにGC補正手順を用いる解析フレームワークとしてGriffinを開発した。Griffinでは、断片カバレッジを処理して、ヌクレオソーム保護のアクセシブル特徴とインアクセシブル特徴を区別する(図7A)。Griffinは、目的の部位周囲のヌクレオソーム保護を定量するために、がんを有する患者由来のcfDNAの全ゲノムシーケンシング(WGS)データに適用されるように設計され、ULP-WGSデータに対して機能するように最適化されたものである(図7B)。目的の部位は、種々のクロマチンに基づくアッセイ、例えば、シーケンシング(ATAC-seq)を使用したトランスポザーゼアクセシブルクロマチンについてのアッセイによってから選択することができ、がん検出および腫瘍の亜型決定を含めた特定の問題に対処するために調整される。
Results Griffin Framework for Nucleosome Profiling to Predict Tumor Phenotype We developed Griffin as an analytical framework that uses a GC correction procedure to accurately profile nucleosome occupancy from cfDNA. Griffin processes fragment coverage to distinguish between accessible and inaccessible features of nucleosome protection (Figure 7A). Griffin was designed to be applied to whole genome sequencing (WGS) data of cfDNA from patients with cancer and optimized to work on ULP-WGS data to quantify nucleosome protection around sites of interest (Figure 7B). Sites of interest can be selected from a variety of chromatin-based assays, e.g., assays for transposase-accessible chromatin using sequencing (ATAC-seq), and are tailored to address specific questions, including cancer detection and tumor subtyping.

解析ワークフローを、各試料についてゲノムワイドな断片に基づくGCの偏りをコンピュータ計算することで開始する。次いで、各目的の部位における領域について、断片中点カバレッジをコンピュータ計算し、重み付けし直して、GCの偏りを取り除く(方法)。断片全体のカバレッジではなく中点カバレッジを使用する理由は、それにより、より高い振幅のヌクレオソーム保護シグナルが生じるからである(示していない)。次に、複合カバレッジプロファイルを、目的の組織型、腫瘍型、転写因子(TF)、または任意の表現型比較に特異的な部位のセットにわたってGC補正されたカバレッジの平均としてコンピュータ計算する。既知のがん特異的TFおよび血液特異的TFの周囲のこれらのカバレッジプロファイルを調査することにより、部位をアクセシブルかインアクセシブルかに区別する3つの定量的特徴が同定された:(a)-30bpから+30bpの間のウインドウ内のカバレッジ(「中心カバレッジ」)、値が小さいほど、アクセシビリティが大きいことが表される、(b)-1000bpから+1000bpの間のウインドウ内のカバレッジ(「平均カバレッジ」)、および(c)高速フーリエ変換を使用して算出される全体的なヌクレオソームピーク振幅(「振幅」)。これらの特徴を、転写因子活性またはクロマチンアクセシビリティを定量するために使用することができ、また、がんを検出するため、腫瘍の亜型を決定するため、または他の目的の表現型を調査するための特徴として使用することができる。 The analysis workflow begins by computing genome-wide fragment-based GC bias for each sample. Then, for the region at each site of interest, fragment midpoint coverage is computed and reweighted to remove GC bias (Methods). The reason for using midpoint coverage rather than full fragment coverage is that it results in a higher amplitude nucleosome protection signal (not shown). A composite coverage profile is then computed as the average of GC-corrected coverage across a set of sites specific to the tissue type, tumor type, transcription factor (TF), or any phenotypic comparison of interest. By examining these coverage profiles around known cancer-specific and blood-specific TFs, three quantitative features were identified that distinguish between accessible and inaccessible sites: (a) coverage within a window between -30 bp and +30 bp ("center coverage"), with smaller values representing greater accessibility, (b) coverage within a window between -1000 bp and +1000 bp ("average coverage"), and (c) global nucleosome peak amplitude calculated using a fast Fourier transform ("amplitude"). These features can be used to quantify transcription factor activity or chromatin accessibility, and can be used as features to detect cancer, determine tumor subtypes, or investigate other phenotypes of interest.

Griffinでは、GCの偏りを減少させ、それにより、組織特異的アクセシビリティを検出することを可能になる
Griffinの新規の態様は、断片に基づくGCの偏りの補正の実装である。オープンクロマチン領域、特にTFBSにおいては、GC含量は一様ではなく、それにより、GCに関連するカバレッジの偏りをもたらす(図8A)(Wang, J. et al. Sequence features and chromatin structure around the genomic regions bound by 119 human transcription factors. Genome Res. 22, 1798-1812 (2012))。GCの偏りは、試料間で変動し、また、試料内の異なる断片長間でも変動し(Benjamini, Y. & Speed, T. P. Summarizing and correcting the GC content bias in high-throughput sequencing. Nucleic Acids Research 40, e72-e72 (2012))(図8B)、これは、ヌクレオソームアクセシビリティ予測に大きく影響する(図8C)。このGCの偏りを補正するために、Griffinでは、各試料および各断片長について、断片長位置モデルを使用して包括的な推定平均断片カバレッジ(「予測」)をコンピュータ計算する(Benjamini, Y. & Speed, T. P. Nucleic Acids Research 40, e72-e72 (2012))(方法、図8B)。次いで、目的の部位周囲のカバレッジプロファイルを算出する際に、各断片に対して、その長さについて包括的な予測カバレッジおよびGCの偏りに基づいて重みを割り当てる。この補正により、結合部位におけるカバレッジの予想外の増加(または減少)が排除され、それにより、技術的な偏りが取り除かれて、WGS(9~25×、図8C)がん患者cfDNAおよびULP-WGS(0.1~0.3×、図8D)を解析するときの組織関連アクセシビリティシグナルが増強される。
Griffin reduces GC bias, thereby enabling detection of tissue-specific accessibility A novel aspect of Griffin is the implementation of fragment-based GC bias correction. In open chromatin regions, especially in TFBS, the GC content is not uniform, thereby resulting in GC-related coverage bias (Figure 8A) (Wang, J. et al. Sequence features and chromatin structure around the genomic regions bound by 119 human transcription factors. Genome Res. 22, 1798-1812 (2012)). GC bias varies between samples and among different fragment lengths within a sample (Benjamini, Y. & Speed, TP Summarizing and correcting the GC content bias in high-throughput sequencing. Nucleic Acids Research 40, e72-e72 (2012)) (Fig. 8B), which strongly affects nucleosome accessibility predictions (Fig. 8C). To correct for this GC bias, Griffin computes a global estimated average fragment coverage ("prediction") for each sample and each fragment length using a fragment length position model (Benjamini, Y. & Speed, TP Nucleic Acids Research 40, e72-e72 (2012)) (Methods, Fig. 8B). Then, when calculating the coverage profile around the site of interest, each fragment is assigned a weight based on the global predicted coverage and GC bias for its length. This correction eliminates unexpected gains (or losses) in coverage at binding sites, thereby removing technical bias and enhancing tissue-associated accessibility signals when analyzing WGS (9-25x, Figure 8C) cancer patient cfDNA and ULP-WGS (0.1-0.3x, Figure 8D).

GriffinによるGCの偏りの補正後のヌクレオソームプロファイリングの性能を試験するために、推定されたTFBSアクセシビリティを、腫瘍割合が≧0.1であるMBC cfDNA試料191例からのULP-WGSデータについてichorCNAによって予測された腫瘍由来のDNAの量(すなわち、腫瘍割合)と比較した(Adalsteinsson, V. A. et al. Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. Nature Communications 8, (2017))。腫瘍割合は、腫瘍特異的部位周囲の中心カバレッジで負に補正され、血液特異的部位について正に相関することが予測された。血液特異的TFであるLYL1に関しては、GC補正前にはTFBSにおける中心カバレッジが腫瘍割合と正に相関することが予測通り観察されたが(ピアソンのr=0.41)、この相関は、GC補正後にはるかに強力になった(ピアソンのr=0.63、図8E)。腫瘍特異的TFであるGRHL2に関しては、中心カバレッジと腫瘍割合の間で負の相関が予測通り観察された(ピアソンのr=-0.62、示していない)。平均カバレッジ特徴および振幅特徴も腫瘍割合と相関したが、GCの偏りによる影響は小さいと思われた(示していない)。血液特異的およびがん特異的DNA分解酵素I過感受性部位(DHS)に関して、GC補正後にヌクレオソームプロファイル特徴と腫瘍割合の間にも同様の相関が観察された(示していない)。 To test the performance of nucleosome profiling after Griffin correction for GC bias, we compared the estimated TFBS accessibility to the amount of tumor-derived DNA (i.e., tumor fraction) predicted by ichorcna for ULP-WGS data from 191 MBC cfDNA samples with tumor fraction ≥ 0.1 (Adalsteinsson, V. A. et al. Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. Nature Communications 8, (2017)). Tumor fraction was predicted to be negatively corrected for central coverage around tumor-specific sites and positively correlated for blood-specific sites. For the blood-specific TF LYL1, we observed that central coverage in TFBS correlated positively with tumor fraction before GC correction (Pearson's r = 0.41), as predicted, but this correlation became much stronger after GC correction (Pearson's r = 0.63, Figure 8E). For the tumor-specific TF GRHL2, a negative correlation between central coverage and tumor fraction was observed as expected (Pearson's r = -0.62, not shown). Mean coverage and amplitude features also correlated with tumor fraction, but the effect of GC bias appeared to be small (not shown). For blood-specific and cancer-specific DNase I hypersensitive sites (DHS), a similar correlation was observed between nucleosome profile features and tumor fraction after GC correction (not shown).

GC補正によって試料間のシグナル変動性がどれほど減少するかを定量するために、191例のMBC cfDNA ULP-WGS試料における中心カバレッジを、遺伝子転写調節データベース(GTRD)内の377種のTFについて試験した(Ulz, P. et al. Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666 (2019); Yevshin, I., et al. GTRD: A database on gene transcription regulation - 2019 update. Nucleic Acids Research 47, D100-D105 (2019))。各因子について、線形回帰当てはめからの2乗平均平方根誤差(RMSE)を使用した中心カバレッジと腫瘍割合の間の変動性をGC補正の前後で比較した。LYL1については、RMSEが減少し(0.062から0.046へ)、それにより、GC補正後のデータの方が試料間の変動が小さいことが示される(図8E)。同様に、351種(93.1%)のTFについて、GC補正後にRMSEが減少し、それにより、腫瘍割合と中心カバレッジの相関を考慮した後に試料間の変動性が減少したことが示される(両側ウィルコクソンの符号付き順位検定p=1.0×10-58、検定統計量=1421、図8F)。さらに、健康ドナー215例のコホートに対して377種のTFについてGC補正の前後の中心カバレッジを調査した(Cristiano, S. et al. Genome-wide cell-free DNA fragmentation in patients with cancer. Nature 570, 385-389 (2019))。健康ドナー試料は腫瘍含有量を有さないので、各TFについて平均絶対偏差(MAD)を評価して、試料間の変動性を比較した。365種(96.8%)のTFについてMADがGC補正後に減少したことが見いだされ(両側ウィルコクソンの符号付き順位検定p=6.28×10-62、検定統計値=466、図8G)、それにより、ほぼ全てのTFについて試料間の変動性が減少したことが示される。まとめると、これらの結果は、GriffinフレームワークにおけるGC補正により、試料間のGCの偏りに起因するクロマチンアクセシビリティシグナルの変動性が減少し、ULP-WGSデータに関する組織特異的アクセシビリティの検出の改善が可能になることを実証するものである。 To quantify how GC correction reduces inter-sample signal variability, we tested the central coverage in 191 MBC cfDNA ULP-WGS samples for 377 TFs in the Gene Transcription Regulation Database (GTRD) (Ulz, P. et al. Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666 (2019); Yevshin, I., et al. GTRD: A database on gene transcription regulation - 2019 update. Nucleic Acids Research 47, D100-D105 (2019)). For each factor, we compared the variability between central coverage and tumor fraction using root mean square error (RMSE) from linear regression fits before and after GC correction. For LYL1, the RMSE decreased (from 0.062 to 0.046), indicating that the data after GC correction had less inter-sample variability (Figure 8E). Similarly, for 351 (93.1%) TFs, the RMSE decreased after GC correction, indicating that the inter-sample variability decreased after accounting for the correlation between tumor fraction and center coverage (two-tailed Wilcoxon signed rank test p = 1.0 × 10 -58 , test statistic = 1421, Figure 8F). Furthermore, we investigated the center coverage before and after GC correction for 377 TFs for a cohort of 215 healthy donors (Cristiano, S. et al. Genome-wide cell-free DNA fragmentation in patients with cancer. Nature 570, 385-389 (2019)). As the healthy donor samples have no tumor content, the mean absolute deviation (MAD) was evaluated for each TF to compare the inter-sample variability. We found that for 365 (96.8%) TFs, the MAD was reduced after GC correction (two-tailed Wilcoxon signed-rank test p=6.28× 10-62 , test statistic=466, Figure 8G), indicating that sample-to-sample variability was reduced for almost all TFs. Collectively, these results demonstrate that GC correction in the Griffin framework reduces the variability in chromatin accessibility signals due to sample-to-sample GC bias and allows for improved detection of tissue-specific accessibility for ULP-WGS data.

TFBSにおけるGriffin解析により正確ながん検出が可能になる
Griffinによりがん検出を実施することができるかどうかを決定するために、健康ドナー由来(n=215)およびがん患者由来(n=208)のcfDNA試料の公開されたWGS(1~2×)データセットを解析した(Cristiano, S. et al. Nature 570, 385-389 (2019))。377種のTFについて、ヌクレオソームサイズの(100~200bp)断片を使用してTFBS周囲のヌクレオソームプロファイルを生成し、各プロファイルから3つの特徴(中心カバレッジ、平均カバレッジ、および振幅)、合計1131の特徴を抽出した。ロジスティック回帰を使用し、がんの存在の予測に関して高性能が実現され、受信者動作特性曲線下面積(AUC)は0.94であった(図9B)。ステージIVのがんについて最も高い性能が観察され(AUC=0.99)、ステージIのがんについてより低い性能が観察された(AUC=0.93)。これらの性能は、末期がんでは早期がんと比べてより大きな腫瘍割合が観察されることを反映したものである可能性がある。腫瘍割合が≧0.05の試料について(AUC 0.99)、腫瘍が検出不可能な試料(0腫瘍割合、AUC=0.90)よりも高い性能が観察された。DNA分解酵素I過感受性部位(DHS)周囲のGriffin解析では、いくらか低い性能が観察された(AUC=0.83)。
Griffin analysis in TFBS enables accurate cancer detection To determine whether Griffin can perform cancer detection, a published WGS (1-2x) dataset of cfDNA samples from healthy donors (n=215) and cancer patients (n=208) was analyzed (Cristiano, S. et al. Nature 570, 385-389 (2019)). For 377 TFs, nucleosome profiles around the TFBS were generated using nucleosome-sized (100-200 bp) fragments and three features were extracted from each profile (center coverage, mean coverage, and amplitude), for a total of 1131 features. Using logistic regression, high performance was achieved for predicting the presence of cancer, with an area under the receiver operating characteristic curve (AUC) of 0.94 (Figure 9B). The highest performance was observed for stage IV cancers (AUC=0.99), and lower performance was observed for stage I cancers (AUC=0.93). These performances may reflect the greater tumor fraction observed in late stage cancers compared to early stage cancers. Higher performance was observed for samples with tumor fraction ≧0.05 (AUC 0.99) than for samples with undetectable tumor (0 tumor fraction, AUC=0.90). Somewhat lower performance was observed for Griffin analysis around DNase I hypersensitive sites (DHS) (AUC=0.83).

ULP-WGSカバレッジ(0.1×)でがんを検出する能力を試験するために、0.1×カバレッジにダウンサンプリングした同じcfDNAデータにGriffinを適用したところ、AUC0.89の性能が実現された(図9B)。次に、腫瘍由来DNAについては150bp未満の断片が富化されるので(Cristiano, S. et al. Nature 570, 385-389 (2019))、短い断片のみを使用して、このフレームワークでがんを検出する能力を改善することができるかどうかを試験した。同じTFBSにおける35~150bpしかない断片を解析するためにGriffinを適用し、性能の低下が観察された(AUC=0.91、示していない)。最後に、結果を、TFBSにおける全ての長さのcfDNA断片を解析し、1~2×データについてはAUC0.82、およびダウンサンプリングしたデータについてはAUC0.55が実現された(示していない)Ulz et al. Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666 (2019)による方法と比較した。ヌクレオソームサイズの断片または短い断片およびULP-WGSカバレッジを使用したGriffinの方が検出性能が高かった。それにより、Griffinが、cfDNAのクロマチンに基づくアッセイおよび費用効果が大きいULP-WGSからの様々な部位を使用してがんを正確に検出することができるものであることが実証される。 To test the ability to detect cancer at ULP-WGS coverage (0.1x), Griffin was applied to the same cfDNA data downsampled to 0.1x coverage, achieving a performance of AUC 0.89 (Figure 9B). Next, since tumor-derived DNA is enriched for fragments shorter than 150 bp (Cristiano, S. et al. Nature 570, 385-389 (2019)), we tested whether we could improve the ability of this framework to detect cancer by using only short fragments. We applied Griffin to analyze fragments of only 35-150 bp in the same TFBS and observed a decrease in performance (AUC = 0.91, not shown). Finally, the results were compared to the method by Ulz et al. Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666 (2019), which analyzed all lengths of cfDNA fragments in TFBS and achieved an AUC of 0.82 for 1-2x data and an AUC of 0.55 for downsampled data (not shown). Griffin performed better using nucleosome-sized fragments or short fragments and ULP-WGS coverage, demonstrating that Griffin can accurately detect cancer using chromatin-based assays of cfDNA and various sites from ULP-WGS in a cost-effective manner.

Griffinにより、超ローパスWGSからの乳がん亜型を正確に予測することが可能になる
乳がん腫瘍分類は、主に、ERの発現を定量するための免疫組織化学的検査(IHC)により、ホルモン受容体の状況を正確に臨床的に決定することに依拠するが、この適用のためのctDNA手法は存在しない。したがって、Griffinを使用して、MBC患者由来のcfDNAのULP-WGS(0.1×)からER亜型の状況を予測することができるかどうかを決定することが目標になる。139例の患者に由来する、腫瘍割合が0.05よりも大きい試料254例(Adalsteinsson, V. A. et al. Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. Nature Communications 8, (2017); Stover, D. G. et al. Association of Cell-Free DNA Tumor Fraction and Somatic Copy Number Alterations With Survival in Metastatic Triple-Negative Breast Cancer. Journal of Clinical Oncology JCO.2017. 76. 003 (2018))について解析を行った。第1に、TFBSにおいて、ER陽性腫瘍に関連付けられることが分かっているESR1、FOXA1、およびGATA3を含めた重要な因子についてGriffinプロファイルを綿密に調べた(Albergaria, A. et al. Expression of FOXA1 and GATA-3 in breast cancer: the prognostic significance in hormone receptor-negative tumours. Breast Cancer Research 11, R40 (2009))。これらのTFBSが、ER+転移を有する患者由来のcfDNA試料ではER-と比較してアクセシビリティがより大きいこと;ER+試料では腫瘍割合の考慮後に中心カバレッジが有意に減少した(ER状況についてのANCOVA q値<3.38×10-2、示していない)が観察された。ER状況を予測するために、377種のTF全てについてのGriffinプロファイルからの特徴を使用してロジスティック回帰分類器を最初に樹立し、正確度0.71(AUC0.79)が実現された(示していない)。Ulzの方法によってコンピュータ計算されたTFBS特徴もER亜型決定のために使用したところ、おそらくULP-WGSデータのために設計されたものではないことが原因で、正確度0.53(AUC=0.55)が観察された(示していない)。
Griffin enables accurate prediction of breast cancer subtype from ultra-low-pass WGS Breast cancer tumor classification relies primarily on accurate clinical determination of hormone receptor status by immunohistochemistry (IHC) to quantify ER expression, but no ctDNA approach exists for this application. Therefore, our goal was to determine whether Griffin could be used to predict ER subtype status from ULP-WGS (0.1×) of cfDNA from MBC patients. We analyzed 254 samples with tumor fractions greater than 0.05 from 139 patients (Adalsteinsson, VA et al. Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. Nature Communications 8, (2017); Stover, DG et al. Association of Cell-Free DNA Tumor Fraction and Somatic Copy Number Alterations With Survival in Metastatic Triple-Negative Breast Cancer. Journal of Clinical Oncology JCO.2017.76.003 (2018)). First, we scrutinized the Griffin profile for key factors including ESR1, FOXA1, and GATA3, which are known to be associated with ER-positive tumors in TFBS (Albergaria, A. et al. Expression of FOXA1 and GATA-3 in breast cancer: the prognostic significance in hormone receptor-negative tumours. Breast Cancer Research 11, R40 (2009)). We observed that these TFBS were more accessible in cfDNA samples from patients with ER+ metastases compared to ER-; ER+ samples had significantly reduced central coverage after accounting for tumor fraction (ANCOVA q-value for ER status <3.38× 10-2 , not shown). To predict ER status, a logistic regression classifier was first established using features from the Griffin profiles for all 377 TFs, achieving an accuracy of 0.71 (AUC 0.79) (not shown). TFBS features computed by the method of Ulz were also used for ER subtyping, and an accuracy of 0.53 (AUC = 0.55) was observed (not shown), likely because it was not designed for ULP-WGS data.

次に、示差的クロマチンアクセシビリティの領域を解析することによって、さらに調整された部位選択手法を使用した。Cancer Genome Atlas(TCGA)(Corces, M. R. et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018))による44例のER+および15例のER-原発乳房腫瘍から生成されたATAC-seqデータを使用し、各ER亜型特異的オープンクロマチン部位を同定した(方法、図10A)。ER+特異的部位(n=28,170)がESR1、PGR、FOXA1およびGATA3のTFBSで富化されており、ER-特異的部位(n=41,712)がSTAT3およびNFKB1のTFBSで富化されていた(示していない)。造血細胞におけるアクセシブルクロマチンと共有されるER亜型特異的部位と共有されないER亜型特異的部位の間でカバレッジプロファイルの差異が観察され(Satpathy, A. T. et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019))、したがって、別々に解析を行った(図10B)。 We then used a site selection approach that was further refined by analyzing regions of differential chromatin accessibility. Using ATAC-seq data generated from 44 ER+ and 15 ER- primary breast tumors by Cancer Genome Atlas (TCGA) (Corces, M. R. et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018)), we identified open chromatin sites specific for each ER subtype (Methods, Fig. 10A). ER+-specific sites (n=28,170) were enriched in the TFBSs of ESR1, PGR, FOXA1, and GATA3, whereas ER-specific sites (n=41,712) were enriched in the TFBSs of STAT3 and NFKB1 (not shown). Differences in coverage profiles were observed between ER subtype-specific sites shared with accessible chromatin and those not shared with accessible chromatin in hematopoietic cells (Satpathy, A. T. et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019)), and therefore were analyzed separately (Figure 10B).

Griffinを適用して、これらのER亜型特異的アクセシブルクロマチン部位の4つのセットにおけるヌクレオソームアクセシビリティをプロファイリングし、それにより、合計12の特徴を抽出した(図10B)。ロジスティック回帰分類器を樹立して、これらのクロマチンアクセシビリティ特徴からER亜型を予測し、全体的な正確度0.81(AUC=0.89、n=139)が実現された(方法、図10D)。腫瘍割合が小さい試料(正確度0.69、AUC=0.75、n=38、腫瘍割合0.05~0.1)と比較して、腫瘍割合が大きい試料の方が性能が高かった(正確度0.86、AUC=0.92、n=101、腫瘍割合≧0.1)(図10D)。短い断片(35~150bp)のみを使用して解析を繰り返しても性能は改善されず(正確度0.73、AUC=0.81)、これはおそらく断片カバレッジがさらに減少したことに起因するものであった(示していない)。これらの結果から、ULP-WGSデータからがん亜型を決定するためにクロマチンアクセシビリティを使用することの有用性が例示され、また、cfDNAからの乳がんにおけるER状況予測の最初の適用が際立って見える。この所見を、乳がんを有する患者に対する2つの他の試験からのcfDNA試料および1つの新しいデータセットを調査し(Ahuno ST, et al. Ghana Breast Health Study Team. Circulating tumor DNA is readily detectable among Ghanaian breast cancer patients supporting non-invasive cancer genomic studies in Africa. NPJ Precis Oncol. 5 (1): 83 (2021)およびZivanovic Bujak, A., et al. Circulating tumour DNA in metastatic breast cancer to guide clinical trial enrolment and precision oncology: A cohort study. PLoS medicine 17.10 (2020): e1003363を参照されたい)、元のMBCデータセットに対する訓練したモデルを使用することによって検証し、腫瘍割合が0.05を超える全ての試料に関してER状況を0.92の正確度(0.96のAUC)で予測することができた。腫瘍割合が0.1を超える試料のみで見ると、正確度は0.96、AUCは0.98であった。この解析により、Griffinが独立したデータセットに対して正確なER状況予測を実施することができるものであることがさらに裏付けられる。 We applied Griffin to profile nucleosome accessibility in these four sets of ER subtype-specific accessible chromatin sites, thereby extracting a total of 12 features (Fig. 10B). A logistic regression classifier was established to predict ER subtypes from these chromatin accessibility features, achieving an overall accuracy of 0.81 (AUC=0.89, n=139) (Methods, Fig. 10D). Compared with samples with a small tumor fraction (accuracy 0.69, AUC=0.75, n=38, tumor fraction 0.05-0.1), samples with a large tumor fraction performed better (accuracy 0.86, AUC=0.92, n=101, tumor fraction ≥0.1) (Fig. 10D). Repeating the analysis using only short fragments (35-150 bp) did not improve performance (accuracy 0.73, AUC = 0.81), likely due to a further reduction in fragment coverage (not shown). These results illustrate the utility of using chromatin accessibility to determine cancer subtypes from ULP-WGS data and highlight the first application of ER status prediction in breast cancer from cfDNA. This finding was validated by examining cfDNA samples from two other studies and one new dataset for patients with breast cancer (see Ahuno ST, et al. Ghana Breast Health Study Team. Circulating tumor DNA is readily detectable among Ghanaian breast cancer patients supporting non-invasive cancer genomic studies in Africa. NPJ Precis Oncol. 5 (1): 83 (2021) and Zivanovic Bujak, A., et al. Circulating tumour DNA in metastatic breast cancer to guide clinical trial enrolment and precision oncology: A cohort study. PLoS medicine 17.10 (2020): e1003363) and using the trained model on the original MBC dataset, it was able to predict ER status for all samples with tumor fraction >0.05 with an accuracy of 0.92 (AUC of 0.96). Looking only at samples with tumor fraction >0.1, the accuracy was 0.96 and the AUC was 0.98. This analysis further supports the ability of Griffin to perform accurate ER status predictions on independent data sets.

cfDNAからのER状況の解析から、腫瘍亜型の不均一性が示唆される
ER予測についてさらに調査するために、分類結果を検査して、誤った予測を伴う試料についての腫瘍割合および原発腫瘍のER状況のパターンを探求した(図10C)。誤った予測の多くが、ER喪失(ER+原発かつER-転移)試料におけるものであること(図10F)、およびこれらの患者についてのER+予測の数(全部で9例のER喪失患者のうち5例がER+と予測された)が、ER-原発を有したER-患者におけるER+予測の数(両側フィッシャーの正確確率検定p=3.7×10-4)ならびに原発および転移の両方でER+を保持したER+患者におけるER+予測の数(4.3×10-2、両側フィッシャーの正確確率検定p=0.0183.7×10-4、図10F)のどちらとも有意に異なったことが観察された。しかし、ER喪失患者の多くがER+のままであると誤って予測されたにもかかわらず、ER+原発を有し、腫瘍割合が0.1を超える患者の間での転移ER状況予測をROC分析したところ、AUC0.74がもたらされることが見いだされ、それにより、Griffinが、ER+原発を有する患者の間でER喪失を検出する合理的な能力を有することが示唆される(図10G)。しかし、ER状況が変化しなかった患者と比較してER喪失患者の間での性能が全体的に低いことから、ER喪失患者においてER+腫瘍特徴が残留し得ること、またはGriffin解析によりctDNAからのER亜型の不均一な混合物が捕捉され得ることが示唆される。
Analysis of ER status from cfDNA suggests heterogeneity of tumor subtypes To further explore ER prediction, the classification results were examined to explore the proportion of tumors for samples with incorrect predictions and the pattern of ER status of primary tumors (Figure 10C). It was observed that the majority of incorrect predictions were in ER-loss (ER+ primary and ER- metastasis) samples (Figure 10F), and that the number of ER+ predictions for these patients (5 of a total of 9 ER-loss patients were predicted as ER+) was significantly different from both the number of ER+ predictions in ER- patients who had ER- primary (2-tailed Fisher's exact test p=3.7× 10-4 ) and the number of ER+ predictions in ER+ patients who retained ER+ in both primary and metastasis (4.3× 10-2 , 2-tailed Fisher's exact test p=0.0183.7× 10-4 , Figure 10F). However, despite many of the ER loss patients being incorrectly predicted to remain ER+, ROC analysis of metastatic ER status prediction among patients with ER+ primaries and tumor fraction >0.1 was found to yield an AUC of 0.74, suggesting that Griffin has reasonable ability to detect ER loss among patients with ER+ primaries (FIG. 10G). However, the overall poorer performance among ER loss patients compared to patients whose ER status did not change suggests that ER+ tumor features may remain in ER loss patients or that Griffin analysis may capture a heterogeneous mixture of ER subtypes from ctDNA.

この観察が腫瘍の不均一性に起因するものであるかどうかさらに評定するために、ER喪失を有する患者から取得された他の転移生検材料を調査した。これらの症例の多くで、患者が最初のER-診断後に追加的なER+転移生検材料を有していたことが見いだされた。特に興味深い2症例を図10Hに示す。患者MBC_1413は、胸膜液生検でER-転移疾患を有すると最初に診断されたが、後に、肝転移で第2の転移生検を受け、それにより細胞の5%でER発現が示された。最初のセルフリーDNA用採血はこの生検の直後に行われ、興味深いことに、肝臓生検材料のER low状況と一致して、ER+であることが予測された。後に、第3の生検材料が胸膜液から取得され、再度ER-疾患が示された。この生検の直後に、cfDNA用採血が行われ、この採血ではER-であると予測された。第2の患者、MBC_1099では、最初の2回の転移生検(骨および肝臓)ではER-疾患が示された。しかし、数カ月後にcfDNAを取り出したときには、2つの時点で、当該患者の亜型はER+であると予測された。興味深いことに、2回のcfDNA用採血の間に別の肝臓生検材料を取得した場合に、この生検材料では5%のER+細胞が示され、それにより、cfDNAからの予測がER+であったことが潜在的に説明される。これらの結果から、GriffinでER喪失を検出できない一部の場合では、予測が真のER亜型不均一性を検出するものであり得ることが示唆され、また、Griffinを使用して、治療の経過にわたって亜型ダイナミクスをモニタリングすることができることが示唆される。 To further assess whether this observation was due to tumor heterogeneity, other metastatic biopsies obtained from patients with ER loss were examined. In many of these cases, patients were found to have additional ER+ metastatic biopsies after the initial ER- diagnosis. Two particularly interesting cases are shown in Figure 10H. Patient MBC_1413 was initially diagnosed with ER- metastatic disease on a pleural fluid biopsy, but later underwent a second metastatic biopsy on a liver metastasis that showed ER expression in 5% of cells. The first blood draw for cell-free DNA was taken immediately after this biopsy, which interestingly predicted ER+, consistent with the ER low status of the liver biopsy. Later, a third biopsy was taken from the pleural fluid, again showing ER- disease. Immediately after this biopsy, blood was drawn for cfDNA, which was also predicted to be ER-. In a second patient, MBC_1099, the first two metastatic biopsies (bone and liver) showed ER- disease. However, when cfDNA was removed several months later, the patient's subtype was predicted to be ER+ at both time points. Interestingly, when another liver biopsy was obtained between the two cfDNA draws, this biopsy showed 5% ER+ cells, potentially explaining the prediction from cfDNA of ER+. These results suggest that in some cases where Griffin fails to detect ER loss, the prediction may detect true ER subtype heterogeneity, and that Griffin can be used to monitor subtype dynamics over the course of treatment.

考察
この試験では、転写調節および腫瘍表現型を調査するための新しいフレームワークであり解析ツールであるGriffinの開発を記載する。Griffinでは、新規の、クロマチンアクセシビリティ情報を不明瞭にするGC含量の偏りのcfDNA断片長特異的正規化を使用する。Griffinを使用して、ローパスWGSから高い正確度でがんを検出することができることが実証される。さらに、ULP-WGSから乳がんにおけるER亜型決定を実施するための手法を開発し、それにより、ctDNAからのER表現型予測が初めて示された。
Discussion This study describes the development of Griffin, a new framework and analytical tool for investigating transcriptional regulation and tumor phenotype. Griffin uses a novel, cfDNA fragment length-specific normalization of GC content bias that obscures chromatin accessibility information. We demonstrate that Griffin can be used to detect cancer with high accuracy from low-pass WGS. Furthermore, we developed an approach to perform ER subtyping in breast cancer from ULP-WGS, which shows the first ER phenotype prediction from ctDNA.

Griffinは、多用途であり、がんに関する種々の適用に使用することができる。本開示では、がん検出、起源組織、および腫瘍亜型への使用事例を強調する。しかし、Griffinはまた、転写調節およびクロマチンアクセシビリティ差異を描写することができるあらゆる生物学的比較にも使用可能である。本明細書に記載の適用では、クロマチン免疫沈降シーケンシング(ChIP-seq)からのTFBSおよびATAC-seqからのアクセシブルクロマチン部位を使用する。しかし、Griffinは、任意の生物学的状況に特異的なカスタムの目的の部位を解析することができるので、既存の方法とは異なる。これらの部位は、外部の供給源および種々のアッセイ、例えば、ChIP-seq、DNA分解酵素I過感受性、ATAC-seqまたは標的下での切断およびヌクレアーゼによる放出(カットアンドラン)などから得たものであってよい。シングルセル実験によるものを含め、がん研究コミュニティによって追加的なエピジェネティックデータが収集されるので(Wu, S. J. et al. Single-cell CUT&Tag analysis of chromatin modifications in differentiation and tumor progression. Nat Biotechnol 39, 819-824 (2021); Pierce, S. E., Granja, J. M. & Greenleaf, W. J. High-throughput single-cell chromatin accessibility CRISPR screens enable unbiased identification of regulatory networks in cancer. Nat Commun 12, 2969 (2021))、Griffinは、リキッドバイオプシーからの腫瘍表現型研究を前進させるために不可欠なものになる。 Griffin is versatile and can be used for a variety of applications related to cancer. In this disclosure, we highlight use cases for cancer detection, tissue of origin, and tumor subtype. However, Griffin can also be used for any biological comparison that can delineate transcriptional regulation and chromatin accessibility differences. The application described here uses TFBS from chromatin immunoprecipitation sequencing (ChIP-seq) and accessible chromatin sites from ATAC-seq. However, Griffin differs from existing methods because it can analyze custom sites of interest specific to any biological context. These sites can be from external sources and various assays, such as ChIP-seq, DNase I hypersensitivity, ATAC-seq, or on-target cleavage and release by nucleases (cut-and-run). As additional epigenetic data is collected by the cancer research community, including from single-cell experiments (Wu, S. J. et al. Single-cell CUT&Tag analysis of chromatin modifications in differentiation and tumor progression. Nat Biotechnol 39, 819-824 (2021); Pierce, S. E., Granja, J. M. & Greenleaf, W. J. High-throughput single-cell chromatin accessibility CRISPR screens enable unbiased identification of regulatory networks in cancer. Nat Commun 12, 2969 (2021)), Griffin will be essential to advance tumor phenotyping from liquid biopsies.

Griffinは、cfDNAのULP-WGS(0.1×)に対する解析に最適化されるが、一方、他のヌクレオソームプロファイリング法は、より深いカバレッジのシーケンシングに焦点が当てられてきた。Griffinでは、個々の遺伝子座とは対照的に、部位の幅の解析を利用するが、これは、Ulz, P. et al. Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666 (2019)によって使用された同様の戦略に触発されたものである。Griffinは、新規の偏りの補正およびゲノム領域の任意のセットを解析する多用性に起因して、その性能がULP-WGSデータからがんを検出することおよびER状況を予測することのどちらに関してもUlzの方法と比較して良好であることが実証される。しかし、Griffinは低カバレッジデータだけに限定されない。cfDNAシーケンシングカバレッジを増加させることにより、特定の遺伝子プロモーターおよびシス調節エレメントを解析することが可能になり得、また、遺伝子発現についての情報をもたらすことが可能になり得る(Ulz, P. et al. Inferring expressed genes by whole-genome sequencing of plasma DNA. Nature Genetics 48, 1273-1278 (2016))。最近の試験で、腫瘍表現型の解析およびがん検出のためのcfDNAメチル化およびcfRNA解析の見込みが示されたが(Beltran, H. et al. Circulating tumor DNA profile recognizes transformation to castration- resistant neuroendocrine prostate cancer. J Clin Invest 130, 1653-1668 (2020);Wu, A. et al. Genome-wide plasma DNA methylation features of metastatic prostate cancer. J Clin Invest 130, 1991-2000 (2020);Shen, S. Y. et al. Sensitive tumour detection and classification using plasma cell-free DNA methylomes. Nature 563, 579-583 (2018);Liu, M. C. et al. Sensitive and specific multi-cancer detection and localization using methylation signatures in cell-free DNA. Annals of Oncology 31, 745-759 (2020);Larson, M. H. et al. A comprehensive characterization of the cell-free transcriptome reveals tissue- and subtype-specific biomarkers for cancer detection. Nature Communications 12, 2357 (2021);Kang, S. et al. CancerLocator: non-invasive cancer diagnosis and tissue-of-origin prediction using methylation profiles of cell-free DNA. Genome Biology 18, 53 (2017);Chan, K. C. A. et al. Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing. Proceedings of the National Academy of Sciences 110, 18761-18768 (2013))、これらの被検体は、臨床検体から単離することが困難である、または特殊化されたアッセイを必要とする。Griffinは、cfDNAの標準的な低カバレッジWGSしか必要としない、費用効果が大きく、スケーラブルな方法を提供するものであり、既存のプラットフォームにより迅速に組み入れて、臨床的ながん表現型を予測することができる。 Griffin is optimized for analysis of cfDNA ULP-WGS (0.1x), whereas other nucleosome profiling methods have focused on deeper coverage sequencing. Griffin utilizes site-wide analysis, as opposed to individual loci, inspired by a similar strategy used by Ulz, P. et al. Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666 (2019). Due to the novel bias correction and versatility to analyze any set of genomic regions, Griffin demonstrates better performance compared to Ulz's method for both detecting cancer from ULP-WGS data and predicting ER status. However, Griffin is not limited to low coverage data. Increasing cfDNA sequencing coverage may enable analysis of specific gene promoters and cis-regulatory elements and may provide information about gene expression (Ulz, P. et al. Inferring expressed genes by whole-genome sequencing of plasma DNA. Nature Genetics 48, 1273-1278 (2016)). Recent studies have shown promise for cfDNA methylation and cfRNA analysis for tumor phenotyping and cancer detection (Beltran, H. et al. Circulating tumor DNA profile recognizes transformation to castration- resistant neuroendocrine prostate cancer. J Clin Invest 130, 1653-1668 (2020); Wu, A. et al. Genome-wide plasma DNA methylation features of metastatic prostate cancer. J Clin Invest 130, 1991-2000 (2020); Shen, S. Y. et al. Sensitive tumour detection and classification using plasma cell-free DNA methylomes. Nature 563, 579-583 (2018); Liu, M. C. et al. Sensitive and specific multi-cancer detection and localization using methylation signatures in cell-free DNA. Annals of Oncology 31, 745-759 (2018)). (2020); Larson, M. H. et al. A comprehensive characterization of the cell-free transcriptome reveals tissue- and subtype-specific biomarkers for cancer detection. Nature Communications 12, 2357 (2021); Kang, S. et al. CancerLocator: non-invasive cancer diagnosis and tissue-of-origin prediction using methylation profiles of cell-free DNA. Genome Biology 18, 53 (2017); Chan, K. C. A. et al. Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing. Proceedings of the National Academy of Sciences 110, 18761-18768 (2013)), these specimens are difficult to isolate from clinical specimens or require specialized assays. Griffin provides a cost-effective, scalable method that requires only standard low-coverage WGS of cfDNA and can be rapidly incorporated into existing platforms to predict clinical cancer phenotypes.

二項ER分類(ER+またはER-)の限界は、腫瘍割合が低い(0.05~0.1)試料についての正確度の低下である;しかし、cfDNA腫瘍割合が10%以上の患者は予後不良を有し(Stover, D. G. et al. Association of Cell-Free DNA Tumor Fraction and Somatic Copy Number Alterations With Survival in Metastatic Triple-Negative Breast Cancer. JCO 36, 543-553 (2018))、腫瘍をモニタリングすることがより有益であろう。追加的なシーケンシングの深度または同じ患者からの複数のcfDNA時点の共同解析を用い、腫瘍割合が低い試料についてのER亜型決定の性能を改善することが可能であり得る。 A limitation of binary ER classification (ER+ or ER-) is the reduced accuracy for samples with low tumor fraction (0.05-0.1); however, patients with cfDNA tumor fraction ≥10% have a poor prognosis (Stover, D. G. et al. Association of Cell-Free DNA Tumor Fraction and Somatic Copy Number Alterations With Survival in Metastatic Triple-Negative Breast Cancer. JCO 36, 543-553 (2018)) and would be more beneficial to monitor their tumor. It may be possible to improve the performance of ER subtyping for samples with low tumor fraction using additional sequencing depth or joint analysis of multiple cfDNA time points from the same patient.

MBC患者のcfDNAからER状況を予測するためにGriffinを適用することにより、腫瘍の不均一性および誤って分類された予測の潜在的な説明に関する興味深い洞察をもたらす。興味深いことに、IHCでER-腫瘍を有した患者について、原発腫瘍がER+であった場合にER+予測が有意に富化されることが認められた。ER喪失でER+予測を有した患者2例は、転移に両方の亜型を有した。重要なことに、この亜型不均一性および切り換えは、一般には単回の転移生検では捕捉されないが、これらの結果から、ctDNAを使用し、ER確率を使用して亜型不均一性を治療の間経時的にモニタリングすることの可能性が実証される。 Applying Griffin to predict ER status from cfDNA in MBC patients provides interesting insights into tumor heterogeneity and potential explanations for misclassified predictions. Interestingly, for patients with ER- tumors by IHC, we observed a significant enrichment of the ER+ prediction when the primary tumor was ER+. Two patients with ER loss and ER+ prediction had both subtypes in their metastases. Importantly, this subtype heterogeneity and switching is not typically captured in a single metastasis biopsy, but these results demonstrate the feasibility of using ctDNA to monitor subtype heterogeneity over time during treatment using ER probability.

ERの状況は内分泌治療が有益である可能性があることを予測する上で重要な有用性を持つので、乳がん亜型決定をER予測に焦点を合わせた(Group (EBCTCG), E. B. C. T. C. Relevance of breast cancer hormone receptors and other factors to the efficacy of adjuvant tamoxifen: patient-level meta-analysis of randomised trials. The Lancet 378, 771-784 (2011))。PR発現は診療所でも決定され、ER-/PR+腫瘍はホルモン受容体陽性とみなされるが、これらは稀であり、再現性がないまたは予後判定への有用性が低い(Hefti, M. M. et al. Estrogen receptor negative/progesterone receptor positive breast cancer is not a reproducible subtype. Breast Cancer Research 15, R68 (2013))。コホートにおいて、患者139例のうち2例のみ(1.4%)がER-/PR+であった。HER2過剰発現は、予後判定、およびトラスツズマブなどの処置の決定に重要な関連性がある(Slamon, D. J. et al. Human breast cancer: correlation of relapse and survival with amplification of the HER-2/neu oncogene. Science 235, 177-182 (1987))。しかし、HER2状況を区別することに関して特異的であることが同定されたオープンクロマチン部位の数は不十分である。ERBB2(HER2タンパク質をコードする)は約20%の乳がんにおいて増幅されるので、代わりに、ctDNAゲノム解析からERBB2コピー数増幅を評定することができる(Curtis, C. et al. The genomic and transcriptomic architecture of 2,000 breast tumours reveals novel subgroups. Nature 486, 346-352 (2012))。あるいは、PAM50状況を予測するためのモデルは、予後判定の指標としてER/PR/HER2 IHC単独よりも良好であり得るので、有用であり得る(Nielsen, T. O. et al. A Comparison of PAM50 Intrinsic Subtyping with Immunohistochemistry and Clinical Prognostic Factors in Tamoxifen-Treated Estrogen Receptor-Positive Breast Cancer. Clinical Cancer Research 16, 5222-5232 (2010))。 Breast cancer subtyping was focused on ER prediction because ER status has important value in predicting which endocrine treatments may be beneficial (E.B.C.T.C. Relevance of breast cancer hormone receptors and other factors to the efficacy of adjuvant tamoxifen: patient-level meta-analysis of randomised trials. The Lancet 378, 771-784 (2011)). PR expression is also determined in the clinic, and ER-/PR+ tumors are considered hormone receptor positive, but these are rare and not reproducible or of low prognostic value (Hefti, M.M. et al. Estrogen receptor negative/progesterone receptor positive breast cancer is not a reproducible subtype. Breast Cancer Research 15, R68 (2013)). In the cohort, only 2 of 139 patients (1.4%) were ER-/PR+. HER2 overexpression has important implications for prognosis and treatment decisions such as trastuzumab (Slamon, D. J. et al. Human breast cancer: correlation of relapse and survival with amplification of the HER-2/neu oncogene. Science 235, 177-182 (1987)). However, an insufficient number of open chromatin sites have been identified that are specific for distinguishing HER2 status. Alternatively, ERBB2 copy number amplification can be assessed from ctDNA genomic analysis, since ERBB2 (encoding the HER2 protein) is amplified in approximately 20% of breast cancers (Curtis, C. et al. The genomic and transcriptomic architecture of 2,000 breast tumours reveals novel subgroups. Nature 486, 346-352 (2012)). Alternatively, a model for predicting PAM50 status may be useful as it may be a better prognostic indicator than ER/PR/HER2 IHC alone (Nielsen, T. O. et al. A Comparison of PAM50 Intrinsic Subtyping with Immunohistochemistry and Clinical Prognostic Factors in Tamoxifen-Treated Estrogen Receptor-Positive Breast Cancer. Clinical Cancer Research 16, 5222-5232 (2010)).

Griffinフレームワークは、cfDNAのULP-WGSからゲノムの変更を解析し、腫瘍割合を推定するための、本発明者らの以前の方法の独特の進歩である(Adalsteinsson, V. A. et al. Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. Nature Communications 8, (2017))。総合して、これらの方法は、cfDNAのULP-WGSから腫瘍の遺伝子型および表現型の両方を調査するための新しいパラダイムを確立するための一連のツールを形成する。Griffinには、臨床的に関連性のある腫瘍表現型を明らかにする潜在性があり、それにより、治療抵抗性の研究が支持され、処置決定に関する情報がもたらされ、また、がん精密医療への適用が加速する。 The Griffin framework is a unique advancement of our previous methods for analyzing genomic alterations and estimating tumor fraction from ULP-WGS of cfDNA (Adalsteinsson, V. A. et al. Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. Nature Communications 8, (2017)). Collectively, these methods form a set of tools to establish a new paradigm for investigating both tumor genotype and phenotype from ULP-WGS of cfDNA. Griffin has the potential to reveal clinically relevant tumor phenotypes, thereby supporting therapeutic resistance studies, informing treatment decisions, and accelerating applications in cancer precision medicine.

方法
Griffin:GCの偏りの算出
GC含量は、増幅およびシーケンシングの効率に影響を及ぼし、GC含量および断片長が異なる断片については異なる予測カバレッジ(カバレッジの偏り)をもたらす。これはGCの偏りと称され、各試料に独特のものである。本発明者らは、deepTools(Ramirez, F. et al. deepTools2: a next generation web server for deep-sequencing data analysis. Nucleic Acids Research 44, W160-W165 (2016))で以前に実装された、2012年にBenjaminiおよびSpeedによって開発された方法(Benjamini, Y. & Speed, T. P. Summarizing and correcting the GC content bias in high-throughput sequencing. Nucleic Acids Research 40, e72-e72 (2012))の実装を使用して各bamファイルのGCの偏りを算出した。しかし、全ての断片が同じ長さを有すると仮定するdeepToolsでの実装とは異なり、本発明者らは、各断片長について別々のGCの偏り曲線を算出する「断片長モデル」を使用した。これは、異なる試料が異なる断片サイズ分布を有し得、異なる断片長が生物学的に重要性を有する場合のcfDNAに対して役立つ。GCの偏りの算出を実施する前に、本発明者らは、UCSCゲノムブラウザ(Karimzadeh, M., Ernst, C., Kundaje, A. & Hoffman, M. M. Umap and Bismap: quantifying genome and methylome mappability. Nucleic Acids Research 46, e120-e120 (2018))(hgdownload.soe.ucsc.edu/gbdb/hg38/hoffmanMappability/k50.Umap.MultiTrackMappability.bw)からダウンロードした50bpのリードに対してUmapマルチリードマッピング可能性トラックを使用してゲノムの全てのマッピング可能な領域を同定した。pybedtools(Dale, R. K., Pedersen, B. S. & Quinlan, A. R. Pybedtools: a flexible Python library for manipulating genomic datasets and annotations. Bioinformatics 27, 3423-3424 (2011))を使用して、UCSCテーブルブラウザ(genome.ucsc.edu/cgi-bin/hgTables)からダウンロードしたhg38についてマッピング可能な領域(マッピング可能性スコア=1と定義される)ならびにエンコード統合除外一覧(encodeproject.org/files/ENCFF356LFX/)、セントロメア、修正パッチ、および代替ハプロタイプを含めた、既知のマッピング問題を有するさらなる除外領域を見いだした。次いで、本発明者らは、ゲノムの残りの領域全てを調査し、各断片長について、これらの位置とオーバーラップする、全ての可能性のある断片の観察されたGC含量を計数した。各断片長について観察された各GC含量の出現頻度が「ゲノムGC出現頻度」である。次いで、本発明者らは、「griffin GCの偏り」パイプラインを開発して、所与のbamファイルにおけるGCの偏りをコンピュータ計算した。このパイプラインにより、これらの領域についてのbamファイル、有効な(マッピング可能、非除外)領域のbedGraphファイル、およびゲノムGC出現頻度を取得した。所与の試料それぞれについて、本発明者らは、常染色体上の有効な領域にアラインメントされる全てのリードを、pysam(github.com/pysam-developers/pysam)(Li, H. et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics 25, 2078-2079 (2009))を使用してフェッチした。本発明者らは、各長さおよびGC含量について観察されたリードの数を計数し、マッピング品質が低い(<20)リード、重複、対をなさないリード、および品質管理ができていないリードを除外した。これらのリード計数がその試料の「GC計数」である。次いで、本発明者らは、試料についてのGC計数をゲノムについてのGC出現頻度で割って、そのbamファイルについてのGCの偏りを得、各断片長についてのGCの偏りの平均を1に対して正規化し、それにより、全ての断片サイズとGC含量の組合せ(ゲノムにおいて観察されることのない組合せ以外)についてのGCの偏りの値をもたらした。次いで、本発明者らは、GCの偏り曲線を平滑化した。各断片サイズについて、本発明者らは、同様の長さ(+/-10bp)の断片についてのGCの偏りの値を全て取得した。本発明者らは、これらの値を断片のGC含量ごとにソートして、同様のサイズの断片についてGCの偏りの値のベクトルを創出した。次いで、本発明者らは、k最近傍の中央値を取ることによってこのベクトルを平滑化し(k=ベクトルの長さの5%または50、どちらか大きい方)、可能性のある断片長それぞれについて繰り返した。次いで、本発明者らは、可能性のある断片長それぞれについてGCの偏りの平均1に対して正規化して(観察されることのないGC含量を除いて)、可能性のある断片長全ておよびゲノムにおいて観察されたGC含量について平滑化されたGCの偏りの値を生成した。
Methods Griffin: Calculating GC bias GC content affects the efficiency of amplification and sequencing, resulting in different predicted coverage (coverage bias) for fragments with different GC content and fragment length. This is called GC bias and is unique to each sample. We calculated the GC bias of each bam file using an implementation of the method developed by Benjamini and Speed in 2012 (Benjamini, Y. & Speed, TP Summarizing and correcting the GC content bias in high-throughput sequencing. Nucleic Acids Research 40, e72-e72 (2012)) previously implemented in deepTools (Ramirez, F. et al. deepTools2: a next generation web server for deep-sequencing data analysis. Nucleic Acids Research 44, W160-W165 (2016)). However, unlike the implementation in deepTools, which assumes that all fragments have the same length, we used a "fragment length model" that calculates separate GC bias curves for each fragment length. This is useful for cfDNA, where different samples may have different fragment size distributions and different fragment lengths have biological significance. Before performing the GC bias calculation, we identified all mappable regions of the genome using the Umap multi-read mappability track on 50 bp reads downloaded from the UCSC genome browser (Karimzadeh, M., Ernst, C., Kundaje, A. & Hoffman, MM Umap and Bismap: quantifying genome and methylome mappability. Nucleic Acids Research 46, e120-e120 (2018)) (hgdownload.soe.ucsc.edu/gbdb/hg38/hoffmanMappability/k50.Umap.MultiTrackMappability.bw). Using pybedtools (Dale, RK, Pedersen, BS & Quinlan, AR Pybedtools: a flexible Python library for manipulating genomic datasets and annotations. Bioinformatics 27, 3423-3424 (2011)), we found mappable regions (defined as mappability score = 1) for hg38 downloaded from the UCSC table browser (genome.ucsc.edu/cgi-bin/hgTables) as well as additional excluded regions with known mapping problems, including the Encode Unified Exclusion List (encodeproject.org/files/ENCFF356LFX/), centromeres, correction patches, and alternative haplotypes. We then explored all remaining regions of the genome and counted the observed GC content of all possible fragments that overlap these positions for each fragment length. The frequency of occurrence of each observed GC content for each fragment length is the "genomic GC frequency". We then developed a "griffin GC bias" pipeline to compute the GC bias in a given bam file. This pipeline obtained the bam files, the bedGraph files of valid (mappable, non-excluded) regions, and the genomic GC frequencies for these regions. For each given sample, we fetched all reads that aligned to valid regions on the autosomes using pysam (github.com/pysam-developers/pysam) (Li, H. et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics 25, 2078-2079 (2009)). We counted the number of reads observed for each length and GC content, and excluded reads with poor mapping quality (<20), duplicates, unpaired reads, and reads that were not quality controlled. These read counts are the "GC counts" of the sample. We then divided the GC count for the sample by the GC frequency for the genome to obtain the GC bias for that bam file, and normalized the average GC bias for each fragment length to 1, resulting in a GC bias value for all fragment size and GC content combinations (other than those not observed in the genome). We then smoothed the GC bias curve. For each fragment size, we obtained all GC bias values for fragments of similar length (+/- 10 bp). We sorted these values by fragment GC content to create a vector of GC bias values for fragments of similar size. We then smoothed this vector by taking the median of the k nearest neighbors (k = 5% of the vector length or 50, whichever is greater), and repeated for each possible fragment length. We then normalized to an average GC bias of 1 for each possible fragment length (excluding unobserved GC content) to generate smoothed GC bias values for all possible fragment lengths and observed GC content in the genome.

Griffin:ヌクレオソームプロファイリング
目的の部位周囲のヌクレオソームプロファイリングを実施するためにgriffinヌクレオソームプロファイリングパイプラインを設計した。このパイプラインでは、bamファイルおよび部位一覧、ならびに各種取り揃えた下記の他のパラメータを取る。所与のbamファイルおよび部位一覧について、各部位の周囲のウインドウ(-5000~+5000bp)内の全てのリードを、pysamを使用してフェッチした(品質管理尺度ができていないものを除いて)。次いで、リード対を断片長ごとにフィルタリングし、断片長の範囲(別段の指定がない限り100~200bp)内に入るものを選択した。各リード対について、断片についてのGCの偏りを決定し、その断片に

Figure 2024515565000002
の重みを割り当て、断片中点の位置を同定した。部位を15bpのビンに分割し、各ビン内の重み付けされた断片中点を合計して、GC補正された中点カバレッジプロファイルを得た(概略図について図1bを参照されたい)。次に、既知のマッピング問題を有する領域とオーバーラップするビン(Griffin:GCの偏りの算出において記載されている)およびマッピングできない位置を少なくとも1つ有するビンを除外した。非常に高いカバレッジ(平均を10標準偏差上回る)を有するビンも同定し、これらのビンを取り除いた。これを部位一覧上の全ての部位について繰り返し、全ての部位の平均を取って(それらの部位内の除外されたビンは無視する)、その部位一覧についてのカバレッジプロファイルを生成した。次いで、Savitzky-Golayフィルターをウインドウ長165bpおよび多項式の次数3で使用してカバレッジプロファイルを平滑化した。最後に、異なる深度の試料を比較できるようにするために、カバレッジプロファイルを平均カバレッジ1に対して正規化し、中心的領域(+/-1000bp)をさらなる解析のために保持した。 Griffin: Nucleosome Profiling The griffin nucleosome profiling pipeline was designed to perform nucleosome profiling around sites of interest. The pipeline takes a bam file and a list of sites, as well as a variety of other parameters described below. For a given bam file and list of sites, all reads within a window (-5000 to +5000 bp) around each site were fetched using pysam (excluding those for which quality control measures were not available). Read pairs were then filtered by fragment length to select those that fell within the fragment length range (100-200 bp unless otherwise specified). For each read pair, the GC bias for the fragment was determined and the fragment length was chosen.
Figure 2024515565000002
The sites were assigned weights of 0.01, 0.1, 0.2, 0.3, 0.4, 0.5, 1.6, 1.7, 1.8, 1.9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 112, 123, 131, 142, 143, 152, 153, 164, 176, 185, 197, 198, 199, 102, 113, 123, 13 Finally, to be able to compare samples at different depths, coverage profiles were normalized to a mean coverage of 1 and central regions (+/- 1000 bp) were retained for further analysis.

Griffin:ヌクレオソームプロファイル特徴の定量
カバレッジプロファイルを定量するために、各カバレッジプロファイルから3つの特徴を抽出した。第1に、部位から+/-1000bpの「平均カバレッジ」値を算出した。第2に、部位(+/-30bp)におけるカバレッジ値を算出した。そして第3に、部位を周囲のヌクレオソームピークの振幅を、部位から+/-960bpのウインドウに対する高速フーリエ変換を使用して算出し(Numpy (Harris, C.R., Millman, K.J., van der Walt, S.J. et al. Array programming with NumPy. Nature 585, 357-362 (2020)において実行されている通り)、10番目の周波数項の振幅を取った。このウインドウおよび周波数は、活性部位(190bp)において観察されたヌクレオソームピーク間隔によって選択され、+/-960bpのウインドウ内におよそ10個のピークが生じる。
Griffin: Quantification of Nucleosome Profile Features To quantify the coverage profiles, three features were extracted from each coverage profile. First, a "mean coverage" value was calculated +/- 1000 bp from the site. Second, the coverage value at the site (+/- 30 bp) was calculated. And third, the amplitude of the nucleosome peaks surrounding the site was calculated using a Fast Fourier Transform for a window of +/- 960 bp from the site (as implemented in Numpy (Harris, CR, Millman, KJ, van der Walt, SJ et al. Array programming with NumPy. Nature 585, 357-362 (2020)) and taking the amplitude of the 10th frequency term. This window and frequency were chosen by the nucleosome peak spacing observed at the active site (190 bp), resulting in approximately 10 peaks within a window of +/- 960 bp.

早期がんおよび健康ドナーcfDNA試料-DELFIデータセット
種々の型の早期がんを有する患者由来の、および健康ドナー由来の全ゲノムシーケンシング(WGS)cfDNAをCristiano, S. et al. Genome-wide cell-free DNA fragmentation in patients with cancer. Nature 570, 385-389 (2019)において公開された既存のデータセットから入手した。bamファイルをEGAからダウンロードした(データセットID:EGAD00001005339)。このデータは、100bpペアエンドIlluminaシーケンシングリードの1~2×ローパス全ゲノムシーケンシングからなるものであった。本発明者らの解析に関しては、以前に処置を受けていないがん患者208例および健康ドナー215例からのcfDNAの1~2×WGSを含む試料のサブセットを使用した。これらは、Cristianoらのがん検出解析に使用された試料である。cfDNA腫瘍割合を、ichorCNA(Adalsteinsson, V. A. et al. Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. Nature Communications 8, (2017))を使用して推定した。データセット内の健康ドナー215例全てを使用してビンサイズ1mbのhg38通常のパネル(PoN)を創出した。次いで、ichorCNAをがん試料および健康試料全てに対して実行して、腫瘍割合を推定した。ichorCNA_fracReadsInChrYForMaleを0.001に設定した。全ての他の設定についてはデフォルトを使用した。
Early-stage cancer and healthy donor cfDNA samples - DELFI dataset Whole-genome sequencing (WGS) cfDNA from patients with various types of early-stage cancer and from healthy donors was obtained from an existing dataset published in Cristiano, S. et al. Genome-wide cell-free DNA fragmentation in patients with cancer. Nature 570, 385-389 (2019). The bam file was downloaded from EGA (dataset ID: EGAD00001005339). The data consisted of 1-2x low-pass whole-genome sequencing of 100 bp paired-end Illumina sequencing reads. For our analysis, we used a subset of samples that included 1-2x WGS of cfDNA from 208 previously untreated cancer patients and 215 healthy donors. These are the samples used in Cristiano et al.'s cancer detection analysis. cfDNA tumor fraction was estimated using ichorcNA (Adalsteinsson, VA et al. Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. Nature Communications 8, (2017)). All 215 healthy donors in the dataset were used to create a hg38 normal panel (PoN) with bin size of 1 mb. ichorcNA was then run on all cancer and healthy samples to estimate tumor fraction. ichorcNA_fracReadsInChrYFormale was set to 0.001. Defaults were used for all other settings.

早期肺がんおよび健康ドナーcfDNA試料-LUCASデータセット
肺がんを有する患者およびがんを有さない患者の前向き試験からの全ゲノムシーケンシング(WGS)cfDNAをMathiosおよび共同研究者ら(Mathios, D. et al. Detection and characterization of lung cancer using cell-free DNA fragmentomes. Nat Commun 12, 5060 (2021))によって公開された既存のデータセットから入手した。bamファイルをEGAからダウンロードした(データセットID:EGAD00001007796)。このデータは、100bpペアエンドIlluminaシーケンシングリードの1~2×ローパス全ゲノムシーケンシングからなるものであった。本発明者らの解析に関しては、当該論文に「LUCAS」コホートと記載されている試料のサブセット、および検証コホートとして記載されている試料の第2のサブセットを使用した。LUCASコホートには、がんの病歴を有さず、今後がんと診断されることはない患者158例および採血から数日以内(0~44日)に肺がんと診断された患者129例が含まれた。検証コホートには、がんを有する患者46例およびがんを有さない患者385例が含まれた。全ての試料を、下の配列データ処理に記載の通りhg38に対して再アラインメントした。腫瘍割合を、上記の通りichorCNAを使用し、この同じ試験からの54例の別々の非がん試料から構築した通常のパネルを用いて決定した。
Early stage lung cancer and healthy donor cfDNA samples - LUCAS dataset Whole genome sequencing (WGS) cfDNA from a prospective study of patients with and without lung cancer was obtained from an existing dataset published by Mathios and coworkers (Mathios, D. et al. Detection and characterization of lung cancer using cell-free DNA fragmentomes. Nat Commun 12, 5060 (2021)). The bam file was downloaded from EGA (dataset ID: EGAD00001007796). The data consisted of 1-2x low-pass whole genome sequencing of 100 bp paired-end Illumina sequencing reads. For our analysis, we used a subset of samples described in the paper as the "LUCAS" cohort and a second subset of samples described as the validation cohort. The LUCAS cohort included 158 patients with no history of cancer and no future cancer diagnosis, and 129 patients diagnosed with lung cancer within days (0-44 days) of blood draw. The validation cohort included 46 patients with cancer and 385 patients without cancer. All samples were realigned to hg38 as described in Sequence Data Processing below. Tumor fraction was determined using ichorcNA as described above, with a normal panel constructed from 54 separate non-cancer samples from this same study.

転移乳がん(MBC)および健康ドナーcfDNA試料
転移乳がん(MBC)を有する患者および健康ドナー由来のcfDNAのWGSを既存のデータセット(Adalsteinsson, V. A. et al. Nature Communications 8, (2017))から入手した。bamファイルをdbGaPからダウンロードした(アクセッションコード:phs001417.v1.p1)。このデータは、100bpペアエンドIlluminaシーケンシングリードの約0.1×超ローパス全ゲノムシーケンシング(ULP-WGS)からなるものであった。本発明者らの解析に関しては、WGSのカバレッジが0.1×を超え、腫瘍割合が0.05×を超え、かつエストロゲン受容体(ER)状況が分かっている試料254例のサブセットを使用した。これらの254例の試料のうち、133例がER陽性であり(唯一の患者74例に由来するもの)、121例がER陰性であった(唯一の患者65例に由来するもの)。カバレッジおよび腫瘍割合の測定基準は、刊行物(Adalsteinsson, V. A. et al. Nature Communications 8, (2017))における補足データから入手した。原発および転移ER状況を免疫組織化学的検査によって決定し、また、診断記録から要約した。さらに、パイプラインの設計および実証のために、同じ供給源由来のMBC患者2例(MBC_315およびMBC_288)からのディープ(9~25×)WGSならびに同じ供給源由来の健康ドナー2例(HD45およびHD46)からのディープ(17~20×)WGSを使用した。
Metastatic Breast Cancer (MBC) and Healthy Donor cfDNA Samples WGS of cfDNA from patients with metastatic breast cancer (MBC) and healthy donors was obtained from an existing dataset (Adalsteinsson, VA et al. Nature Communications 8, (2017)). BAM files were downloaded from dbGaP (accession code: phs001417.v1.p1). The data consisted of approximately 0.1× ultra-low-pass whole genome sequencing (ULP-WGS) of 100 bp paired-end Illumina sequencing reads. For our analysis, we used a subset of 254 samples with WGS coverage >0.1×, tumor fraction >0.05×, and known estrogen receptor (ER) status. Of these 254 samples, 133 were ER positive (from 74 unique patients) and 121 were ER negative (from 65 unique patients). Coverage and tumor fraction metrics were obtained from supplementary data in the publication (Adalsteinsson, VA et al. Nature Communications 8, (2017)). Primary and metastatic ER status was determined by immunohistochemistry and also abstracted from diagnostic records. In addition, deep (9-25x) WGS from two MBC patients (MBC_315 and MBC_288) from the same source and deep (17-20x) WGS from two healthy donors (HD45 and HD46) from the same source were used for pipeline design and validation.

ER状況の分類器を訓練し、評定するために、診断記録からのER状況に関する情報を使用し、各試料をER+またはER-と表示した。転移ER状況が分かっている場合、その状況に従って試料に表示した。転移ER状況が分かっていない場合、原発腫瘍ER状況に従って試料に表示した(11例の患者からの20の試料)。二項分類器という目的のためにER low試料(6例の患者からの11の試料)にはER陽性と表示した。3例の患者(MBC_1405、MBC_1406、MBC_1408)については、ER状況が異なる複数回の転移生検に関する情報を得ていた。これらの症例では、二項ER状況分類器の目的で、最後に採取した生検材料を使用した。 To train and evaluate the ER status classifier, information on ER status from the medical records was used and each sample was labeled as ER+ or ER-. If metastatic ER status was known, samples were labeled according to that status. If metastatic ER status was not known, samples were labeled according to primary tumor ER status (20 samples from 11 patients). ER low samples (11 samples from 6 patients) were labeled as ER positive for the purposes of the binary classifier. For three patients (MBC_1405, MBC_1406, MBC_1408), information was available on multiple metastatic biopsies with different ER status. In these cases, the last biopsy taken was used for the purposes of the binary ER status classifier.

ヒト対象
MBCを有する患者由来のcfDNA試料のWGSを、上記の既存の試験(Adalsteinsson, V. A. et al. Nature Communications 8, (2017))から入手した。原発ER状況、転移ER状況、および生存時間を含めた追加的な情報を診断記録から要約した。このデータの使用は、施設内審査委員会(Dana-Farber Cancer Institute IRB protocol identifiers 05-246、09-204、12-431[NCT01738438; Closure effective date 6/30/2014])によって承認された。
Human subjects WGS of cfDNA samples from patients with MBC were obtained from the existing study mentioned above (Adalsteinsson, VA et al. Nature Communications 8, (2017)). Additional information including primary ER status, metastatic ER status, and survival time was abstracted from diagnostic records. Use of this data was approved by the Institutional Review Board (Dana-Farber Cancer Institute IRB protocol identifiers 05-246, 09-204, 12-431 [NCT01738438; Closure effective date 6/30/2014]).

配列データ処理
この試験に使用した全てのシーケンシングデータをヒトゲノムのhg38バージョン(hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gzからダウンロードした)に対して再アラインメントした。bamファイルを、Picard SamToFastq(Picard Toolkit.(Broad Institute, 2021))を使用して以前のアラインメントからマップ解除した。次いで、それらのマップ解除したbamファイルを、GATK best practices(DePristo, M. A. et al. A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nature Genetics 43, 491-498 (2011))に従い、以下の手順を使用してヒト参照ゲノムに再アラインメントした。FastqファイルをBWA-MEM(Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. 00, 1-3 (2013))を使用して再アラインメントした。次いで、ファイルをsamtools(Danecek, P. et al. Twelve years of SAMtools and BCFtools. GigaScience 10, 1-4 (2021))でソートし、重複をPicardでマーキングし、以下の場所:console.cloud.google.com/storage/browser/genomics-public-data/resources/broad/hg38/v0/Mills_and_1000G_gold_standard.indels.hg38.vcf.gzおよびftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh38p7/VCF/GATK/All_20180418.vcf.gzからダウンロードした既知の多型を使用してGATKでベース再キャリブレーションを実施した。
Sequence data processing All sequencing data used in this study were realigned to the hg38 version of the human genome (downloaded from hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz). Bam files were unmapped from previous alignments using Picard SamToFastq (Picard Toolkit. (Broad Institute, 2021)). The unmapped bam files were then realigned to the human reference genome using the following procedure, following GATK best practices (DePristo, MA et al. A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nature Genetics 43, 491-498 (2011)). Fastq files were realigned using BWA-MEM (Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. 00, 1-3 (2013)). Files were then sorted with samtools (Danecek, P. et al. Twelve years of SAMtools and BCFtools. GigaScience 10, 1-4 (2021)), duplicates were marked with Picard, and base recalibration was performed with GATK using known polymorphisms downloaded from the following locations: console.cloud.google.com/storage/browser/genomics-public-data/resources/broad/hg38/v0/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz and ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh38p7/VCF/GATK/All_20180418.vcf.gz.

転写因子結合部位(TFBS)選択
転写因子結合部位(TFBS)をGTRDデータベース(Yevshin, I., GTRD: A database on gene transcription regulation-2019 update. Nucleic Acids Research 47, D100-D105 (2019))からダウンロードした。このデータベースは、種々の供給源からのChIP seqデータのコンパイルを含有する。本発明者らの解析に関しては、メタクラスターデータ(バージョン19.10、gtrd.biouml.org/downloads/19.10/chip-seq/Homo%20sapiens_meta_clusters.interval.gzからダウンロードしたもの)を使用した。これは、1つまたは複数のChIP seq実験において観察されるメタピークを含有する。GTRDデータベースは、転写因子(TF)ではない標的についてのChIP seq実験をいくつか含有する。これらを、CIS-BPデータベース(Weirauch, M. T. et al. Determination and Inference of Eukaryotic Transcription Factor Sequence Specificity. Cell 158, 1431-1443 (2014))(v2.00、cisbp.ccbr.utoronto.ca/bulk.phpからダウンロードした)内の既知の結合部位を有するTFの一覧と比較することによって除外した。部位の位置を「開始」および「終結」の平均として同定した。常染色体上の部位が10,000未満のTFを除外した。残りのTFそれぞれについて、最も高い「ピークカウント(peak.count)」(全ての実験にわたってピークが観察された回数)を有するものを選択することにより、上位10,000カ所の部位を選択した。
Transcription factor binding site (TFBS) selection Transcription factor binding sites (TFBS) were downloaded from the GTRD database (Yevshin, I., GTRD: A database on gene transcription regulation-2019 update. Nucleic Acids Research 47, D100-D105 (2019)). This database contains a compilation of ChIP-seq data from various sources. For our analysis, we used metacluster data (version 19.10, downloaded from gtrd.biouml.org/downloads/19.10/chip-seq/Homo%20sapiens_meta_clusters.interval.gz), which contains metapeaks observed in one or more ChIP-seq experiments. The GTRD database contains some ChIP-seq experiments for targets that are not transcription factors (TFs). These were eliminated by comparing with the list of TFs with known binding sites in the CIS-BP database (Weirauch, MT et al. Determination and Inference of Eukaryotic Transcription Factor Sequence Specificity. Cell 158, 1431-1443 (2014)) (v2.00, downloaded from cisbp.ccbr.utoronto.ca/bulk.php). Site locations were identified as the average of "start" and "end". TFs with less than 10,000 sites on autosomes were eliminated. For each remaining TF, the top 10,000 sites were selected by choosing the one with the highest "peak.count" (the number of times the peak was observed across all experiments).

DNA分解酵素I過感受性部位選択
種々の組織型についてのDNA分解酵素I過感受性部位をzenodo.org/record/3838751/files/DHS_Index_and_Vocabulary_hg38_WM20190703.txt.gz(Meuleman, W. et al. Index and biological spectrum of human DNase I hypersensitive sites. Nature 584, 244-251 (2020))からダウンロードした。これらの部位を組織型ごとに分割し、合計16カ所の部位一覧にした。「summit」列を部位の位置として使用した。部位を、その部位が観察された試料の数ごとにソートし(「numsamples」)、各組織型について最も頻繁に観察された上位10,000カ所の部位を選択した。
DNase I hypersensitive site selection DNase I hypersensitive sites for various tissue types were downloaded from zenodo.org/record/3838751/files/DHS_Index_and_Vocabulary_hg38_WM20190703.txt.gz (Meuleman, W. et al. Index and biological spectrum of human DNase I hypersensitive sites. Nature 584, 244-251 (2020)). These sites were split by tissue type, resulting in a total of 16 sites. The "summit" column was used as the site location. Sites were sorted by the number of samples in which the site was observed ("numsamples"), and the top 10,000 most frequently observed sites for each tissue type were selected.

ER亜型決定のためのATAC-seq部位選択
TCGA ATAC-seq hub(gdc.cancer.gov/about-data/publications/ATACseq-AWG)(Corces, M. R. et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018))からダウンロードしたCancer Genome Atlas(TCGA)からの原発乳がん試料についてのシーケンシング(ATAC-seq)部位アクセシビリティを使用したトランスポザーゼアクセシブルクロマチンについてのアッセイ。がん型特異的ピーク全てについての生の計数を含有するファイルをダウンロードし(「All cancer type-specific count matrices in raw counts」)、乳がん特異的ピークを含有するファイルを使用した(「BRCA_raw_counts.txt」)。これらの部位の位置および患者メタデータを論文中の補足表から入手した(Corces, M. R. et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018))。常染色体上の部位を、さらなる解析のために、合計211,938カ所の部位について保持した。ER+腫瘍(n=44)とER-腫瘍(n=15)の間の示差的にアクセシブルな部位をDESeq2ソフトウェア(Love, M.I., Huber, W. & Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014))を使用して同定した。ソフトウェアを、「quick start」ガイドに記載されているデフォルト設定を使用して実行した。「DESeq」および「results」関数を使用して差次的発現実験を実行し、その後、「lfcShrink」関数を使用して対数倍率変化の縮小を行った。q値が5×10-4未満の部位を選択した。さらに、選択された部位を、ER+腫瘍とER-腫瘍の間のlog2倍率変化に基づいてさらにフィルタリングした。log2倍率変化が0.5を超える部位をER+特異的として分類し、一方、log2倍率変化が-0.5未満の部位をER-特異的として分類した。これらの部位一覧を、造血細胞と共有される部位および造血細胞と共有されない部位にさらに分割した。造血部位はシングルセルATAC-seqデータのデータベースから入手した(Satpathy, A. T. et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019))(GEO accession number: GSE129785, peak file available here: ftp.ncbi.nlm.nih.gov/geo/series/GSE129nnn/GSE129785/suppl/GSE129785%5FscATAC%2DHematopoiesis%2DAll%2Epeaks%2Etxt%2Egz)。UCSCリフトオーバーコマンドラインツールを使用して造血ピークをhg38にリフトオーバーし、リフトオーバーの間にサイズが変化した部位(ピークの0.2%)を棄却した。造血部位とオーバーラップするBRCA ATAC-seq部位(オーバーラップピークを、互いに500bp以内にある部位の中心と定義した)。これをpybedtools intersect(Dale, R. K., et al. Bioinformatics 27, 3423-3424 (2011); Quinlan, A. R. & Hall, I. M. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics 26, 841-842 (2010))を使用して実施した。それにより、合計4つの差分部位一覧:造血細胞と共有されないER陽性部位(18,240カ所の部位)、造血細胞と共有されるER陽性部位(9,930カ所の部位)、造血細胞と共有されないER陰性部位(19,347カ所の部位)、および造血細胞と共有されるER陰性部位(22,365カ所の部位)がもたらされた。
ATAC-seq site selection for ER subtyping. Assay for transposase accessible chromatin using sequencing (ATAC-seq) site accessibility for primary breast cancer samples from Cancer Genome Atlas (TCGA) downloaded from the TCGA ATAC-seq hub (gdc.cancer.gov/about-data/publications/ATACseq-AWG) (Corces, MR et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018)). A file containing raw counts for all cancer type-specific peaks was downloaded ("All cancer type-specific count matrices in raw counts"), and the file containing breast cancer-specific peaks was used ("BRCA_raw_counts.txt"). The locations of these sites and patient metadata were obtained from a supplementary table in the paper (Corces, MR et al. The chromatin accessibility landscape of primary human cancers. Science 362, eaav1898 (2018)). Autosomal sites were retained for further analysis for a total of 211,938 sites. Differentially accessible sites between ER+ (n=44) and ER- (n=15) tumors were identified using DESeq2 software (Love, MI, Huber, W. & Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 15, 550 (2014)). The software was run using the default settings described in the "quick start" guide. Differential expression experiments were performed using the "DESeq" and "results" functions, followed by log fold change shrinkage using the "lfcShrink" function. Sites with q values below 5x10-4 were selected. Additionally, the selected sites were further filtered based on the log2 fold change between ER+ and ER- tumors. Sites with a log2 fold change >0.5 were classified as ER+ specific, while sites with a log2 fold change <-0.5 were classified as ER- specific. These site lists were further divided into sites shared with hematopoietic cells and sites not shared with hematopoietic cells. Hematopoietic sites were obtained from a database of single-cell ATAC-seq data (Satpathy, AT et al. Massively parallel single-cell chromatin landscapes of human immune cell development and intratumoral T cell exhaustion. Nature Biotechnology 37, 925-936 (2019)) (GEO accession number: GSE129785, peak file available here: ftp.ncbi.nlm.nih.gov/geo/series/GSE129nnn/GSE129785/suppl/GSE129785%5FscATAC%2DHematopoiesis%2DAll%2Epeaks%2Etxt%2Egz). Hematopoietic peaks were lifted over to hg38 using the UCSC liftover command line tool and sites that changed size during the liftover (0.2% of peaks) were discarded. BRCA ATAC-seq sites overlapping with hematopoietic sites (overlapping peaks were defined as centers of sites within 500 bp of each other). This was performed using pybedtools intersect (Dale, RK, et al. Bioinformatics 27, 3423-3424 (2011); Quinlan, AR & Hall, IM BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics 26, 841-842 (2010)). This resulted in a total of four differential site lists: ER-positive sites not shared with hematopoietic cells (18,240 sites), ER-positive sites shared with hematopoietic cells (9,930 sites), ER-negative sites not shared with hematopoietic cells (19,347 sites), and ER-negative sites shared with hematopoietic cells (22,365 sites).

次いで、これらの差分ATAC-seq部位一覧を338種の転写因子(TF)のそれぞれについての上位10,000カ所の部位とpybedtools intersectを使用してオーバーラップさせた。オーバーラップする部位の対を、部位の中心間が500bp未満であると定義した。差分ATAC-seq部位一覧のそれぞれをTFBSの一覧それぞれと比較し、所与の一覧において1つまたは複数のTFBSとオーバーラップするATAC部位の総数を記録した。 These differential ATAC-seq site lists were then overlapped with the top 10,000 sites for each of 338 transcription factors (TFs) using pybedtools intersect. Overlapping site pairs were defined as those with less than 500 bp between the centers of the sites. Each differential ATAC-seq site list was compared with each list of TFBSs, and the total number of ATAC sites in a given list that overlapped with one or more TFBSs was recorded.

GC補正の前後のGriffinの評定
TFBSにおける腫瘍割合の相関
腫瘍割合が0.1を超えるMBC ULP試料191例について、377種の転写因子(TF)のそれぞれについての上位10,000カ所の部位に対して、GC補正を伴うおよび伴わないヌクレオソームプロファイリングを実施した。各TFについて、中心カバレッジと腫瘍割合の関連性をscipy.stats.linregress(Virtanen, P. et al. SciPy 1.0: fundamental algorithms for scientific computing in Python. Nat Methods 17, 261-272 (2020))を使用してモデリングし、ピアソン相関(r)および最良適合線を生成した。2乗平均平方根誤差(RMSE)を最良適合線から算出した。図2eにLyl-1について例示されている通り、これをGC補正の前と後の両方で実施した。377種のTF全てについて、GC補正の前後のRMSE値をウィルコクソン符号順位検定(両側)を使用して比較した。
Griffin's score before and after GC correction Correlation of tumor fraction in TFBS Nucleosome profiling was performed on the top 10,000 sites for each of 377 transcription factors (TFs) for 191 MBC ULP samples with tumor fraction >0.1, with and without GC correction. For each TF, the association between center coverage and tumor fraction was modeled using scipy. stats. lineregress (Virtanen, P. et al. SciPy 1.0: fundamental algorithms for scientific computing in Python. Nat Methods 17, 261-272 (2020)) to generate Pearson correlation (r) and best-fit lines. Root mean square error (RMSE) was calculated from the best-fit lines. This was done both before and after GC correction, as illustrated for Lyl-1 in Figure 2e. For all 377 TFs, RMSE values before and after GC correction were compared using the Wilcoxon signed rank test (two-tailed).

TFBSにおける平均絶対偏差(MAD)
健康ドナー215例について、377種のTFのそれぞれについての上位10,000カ所の部位に対して、GC補正を伴うおよび伴わないヌクレオソームプロファイリングを実施した。各TFについて、中心カバレッジ値のMADをGC補正の前と後の両方で算出した。377種のTF全てについて、GC補正の前後のMAD値をウィルコクソン符号順位検定(両側)を使用して比較した。
Mean Absolute Deviation (MAD) in TFBS
Nucleosome profiling with and without GC correction was performed on the top 10,000 sites for each of the 377 TFs for 215 healthy donors. For each TF, the MAD of the central coverage values was calculated both before and after GC correction. For all 377 TFs, the MAD values before and after GC correction were compared using the Wilcoxon signed rank test (two-tailed).

機械学習、ブートストラッピング、および性能評価手順
がんを検出する、組織型を予測する、またはER亜型を予測するために、scikit-learn(Pedregosa, F. et al. Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research 12, 2825-2830 (2011))に実装されたロジスティック回帰とリッジ正則化(すなわち、L2標準)を使用した。全ての特徴値を平均0および標準偏差1にスケーリングした後、ブートストラッピングおよびモデルの当てはめを実施した。以下のブートストラッピング手順を使用して本発明者らのモデルを訓練し、性能を評定した。第1に、n試料の全セットからn試料を復元抽出で選択し、これを訓練セットとして使用した。選択されなかった試料を検定セットとして使用した。次いで、訓練セットに対して10分割交差検証を使用して、パラメータ「C」(正則化強度の逆数)を以下の選択肢:10-5、10-4、10-3、10-2、10-1,10、10、10から選択した。使用したデータ内のクラス不均衡を考慮するために、「class weight」パラメータを「balanced」に設定して、クラス出現頻度に反比例する試料の重みを調整した。最終的なモデルの訓練を、訓練データ全てに対して、選択された正則化強度を使用して行った。最後に、このモデルをテストセットでテストし、各試料からの性能(正確度およびAUC値)ならびに確率を記録した。次いで、新しい訓練セットを選択し、手順を1000回の反復(がん検出および起源組織解析について)または1000回の反復(乳がん亜型決定について)にわたって繰り返した。ブートストラップ反復の完了後、各ブートストラップ反復からAUCおよび正確度を算出し、これらを使用して、これらの値のそれぞれの平均および95%信頼区間を生成した。平均ROC曲線を可視化するために、その試料がテストセットに含まれた全てのブートストラップからの確率中央値を使用した。comut plotバープロットおよび時系列を含むさらなる下流の解析のために、同じ確率中央値を使用した。
Machine learning, bootstrapping, and performance evaluation procedures To detect cancer, predict histology, or predict ER subtype, we used logistic regression and ridge regularization (i.e., L2 standard) implemented in scikit-learn (Pedregosa, F. et al. Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research 12, 2825-2830 (2011)). Bootstrapping and model fitting were performed after scaling all feature values to mean 0 and standard deviation 1. We trained our models and assessed their performance using the following bootstrapping procedure. First, n samples were selected with replacement from the total set of n samples and used as the training set. The unselected samples were used as the test set. Then, using 10-fold cross-validation on the training set, the parameter "C" (the inverse of the regularization strength) was selected from the following choices: 10-5 , 10-4 , 10-3 , 10-2 , 10-1 , 100 , 101 , 102. To account for class imbalance in the data used, the "class weight" parameter was set to "balanced" to adjust the weights of the samples inversely proportional to their class occurrence frequency. The final model was trained on all the training data using the selected regularization strength. Finally, this model was tested on the test set and the performance (accuracy and AUC values) as well as the probability from each sample were recorded. A new training set was then selected and the procedure was repeated for 1000 iterations (for cancer detection and tissue of origin analysis) or 1000 iterations (for breast cancer subtyping). After completing the bootstrap iterations, AUC and accuracy were calculated from each bootstrap iteration and used to generate the mean and 95% confidence interval for each of these values. To visualize the mean ROC curve, the median probability from all bootstraps whose samples were included in the test set was used. The same median probability was used for further downstream analysis, including comut plot bar plots and time series.

がん検出分類に使用した特徴
がんを検出するために、上記のロジスティック回帰手法を適用し、汎がん患者試料および健康ドナー試料から抽出された4つの異なる特徴のセットを使用して4つの異なるモデルを樹立した。第1に、これらの試料(100~200bpの長さの断片を選択する)において、GTRDデータベースから選択された377種のTFに対してヌクレオソームプロファイリングを実施した。3つの特徴(上記の通り)を各カバレッジプロファイルから、合計1,014の特徴を抽出した。PCAを使用してデータの次元数を減少させ、分散の80%を説明する特徴を選択した。次いで、これらのPCA成分をロジスティック回帰モデルの入力として使用した。
Features used for cancer detection classification To detect cancer, the logistic regression approach described above was applied to establish four different models using four different sets of features extracted from pan-cancer patient samples and healthy donor samples. First, nucleosome profiling was performed on these samples (selecting fragments with lengths between 100 and 200 bp) for 377 TFs selected from the GTRD database. Three features (as described above) were extracted from each coverage profile, for a total of 1,014 features. PCA was used to reduce the dimensionality of the data and features explaining 80% of the variance were selected. These PCA components were then used as inputs for the logistic regression models.

第2に、これらの同じ試料および部位に対してヌクレオソームプロファイリングを実施したが、「short」断片(35~150bp)のみがヌクレオソームプロファイルにおいて計数されるように選択した。 Second, nucleosome profiling was performed on these same samples and sites, but only "short" fragments (35-150 bp) were selected to be counted in the nucleosome profile.

第3に、これらの試料を約0.1×カバレッジまでダウンサンプリングし(下記の手順)、同じ377種のTFについて、100~200bpの長さの断片を選択してヌクレオソームプロファイリングを実施した。 Third, we downsampled these samples to approximately 0.1x coverage (procedure below) and performed nucleosome profiling on the same 377 TFs by selecting fragments of 100-200 bp in length.

第4に、元の(ダウンサンプリングしていない)試料を使用し、上記の16種の組織特異的DHS部位一覧に対してヌクレオソームプロファイリングを実施した。同じ3つの特徴を各部位プロファイルから、合計48の特徴を抽出した。 Fourth, we used the original (non-downsampled) samples to perform nucleosome profiling on the 16 tissue-specific DHS site lists listed above. We extracted the same three features from each site profile, for a total of 48 features.

汎がんおよび健康ドナーcfDNAシーケンシングデータのダウンサンプリング
hg38に対してアラインメントした1~2×WGSの汎がん患者および健康ドナーbamファイルを、Picard DownSampleSamを使用してダウンサンプリングした。DownSampleSamで使用される確率を2,463,109リード対の標的に基づいて算出し、それにより、Picard CollectWgsMetricsによって算出しおよそ0.11×のカバレッジがもたらされた。ダウンサンプリングしたbamファイルを、Ulzパイプラインにおいて使用するために、hg19に対して再アラインメントした。再アラインメント手順は上記と同じものであったが、hg19ゲノム(hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gzからダウンロードしたもの)およびベース再キャリブレーションのためのhg19の既知の多型部位(gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg37/Mills_and_1000G_gold_standard.indels.hg37.vcf.gzおよびftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh37p13/VCF/GATK/All_20180423.vcf.gzからダウンロードしたもの)を使用した。
Downsampling of pan-cancer and healthy donor cfDNA sequencing data. 1-2x WGS pan-cancer patient and healthy donor bam files aligned to hg38 were downsampled using Picard DownSampleSam. Probabilities used in DownSampleSam were calculated based on 2,463,109 read-pair targets, resulting in approximately 0.11x coverage as calculated by Picard CollectWgsMetrics. Downsampled bam files were realigned to hg19 for use in the Ulz pipeline. The realignment procedure was the same as above, but using the hg19 genome (downloaded from hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz) and known polymorphic sites of hg19 for base recalibration (downloaded from gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg37/Mills_and_1000G_gold_standard.indels.hg37.vcf.gz and ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh37p13/VCF/GATK/All_20180423.vcf.gz).

MBCコホートにおけるER状況分類
ER状況を予測するために、上記のロジスティック回帰手法をMBC患者試料から抽出された特徴に適用した。一部の患者については複数の試料があったので、139例の患者の全セットから139例の患者(試料ではなく)が復元抽出で選択されるようにブートストラッピング手順を改変した。選択された患者それぞれについて、その患者由来の全ての試料を訓練セットに加えた(患者が複数回選択された場合、それらの試料全てを複数回含めた)。それにより、同じ患者からの別々の試料(生物学的反復)が訓練セットとテストセットの両方に出現できないことが確実になった。選択されなかった患者由来の試料をテストセットとして使用した。
ER status classification in the MBC cohort To predict ER status, the logistic regression approach described above was applied to features extracted from MBC patient samples. Because there were multiple samples for some patients, the bootstrapping procedure was modified so that 139 patients (rather than samples) were selected with replacement from the full set of 139 patients. For each selected patient, all samples from that patient were added to the training set (if a patient was selected multiple times, all of their samples were included multiple times). This ensured that separate samples from the same patient (biological replicates) could not appear in both the training and test sets. Samples from unselected patients were used as the test set.

これらの訓練セットおよびテストセットを使用し、3つの異なる特徴のセットに基づいて3つの異なるモデルを樹立した。第1に、100~200bpの断片を使用するヌクレオソームプロファイリングをGTRDからの377種のTFに適用し、プロファイル当たり3つの特徴、合計で1131の特徴を抽出した。次いで、上記の通り、PCAを使用して、分散の80%を説明する成分を同定した。第2に、100~200bpの断片を使用するヌクレオソームプロファイリングを4種のER差分ATAC seq一覧に適用し、プロファイル当たり3つの特徴、合計で12の特徴を抽出した。最後に、35~150bpの断片を使用するヌクレオソームプロファイリングを4種のER差分ATAC seq一覧に適用し、一覧当たり3つの特徴、合計で12の特徴を抽出した。 Using these training and test sets, three different models were established based on three different sets of features. First, nucleosome profiling using 100-200 bp fragments was applied to 377 TFs from GTRD, extracting three features per profile, for a total of 1131 features. PCA was then used to identify components explaining 80% of the variance, as described above. Second, nucleosome profiling using 100-200 bp fragments was applied to the four ER differential ATAC seq lists, extracting three features per profile, for a total of 12 features. Finally, nucleosome profiling using 35-150 bp fragments was applied to the four ER differential ATAC seq lists, extracting three features per list, for a total of 12 features.

モデルの評価に関して、各ブートストラップ反復について正確度およびAUCを算出する際に、テストセット内の各患者についての第1の時点のみを含めた。それにより、多くの試料を有する少数の患者がスコアに大きな影響を与えることを防止した。 For model evaluation, only the first time point for each patient in the test set was included when calculating accuracy and AUC for each bootstrap replicate, preventing a small number of patients with many samples from significantly affecting the scores.

Ulzらからのパイプラインを使用した転写因子プロファイリング Transcription factor profiling using the pipeline from Ulz et al.

Ulzおよび共同研究者らにより、Github(github.com/PeterUlz/TranscriptionFactorProfiling)から公開された転写因子プロファイリングパイプライン(Ulz, P. et al. Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666 (2019))をダウンロードし、当該論文に記載されている以下の手順を使用してそれを実行した。当該パイプラインはhg19バージョンのゲノムに対して書かれたものであったので、hg19に対してアラインメントしたbamファイルを使用した。スクリプトをpython3で機能するように改変した。各bam内のリードを、「trim from bam single end」を、アラインメントされていないリードをスキップするように改変して使用して60bpにトリミングした。ichorCNAを元の(トリミングしていない)bamに対して、ビンサイズを50,000bpに改変したことおよび通常のパネルを用いなかったこと以外はhg19に対するデフォルトのichorCNA設定を使用して実行した。次いで、トリミングしたbamに対して、スクリプトrun_tf_analyses_from_bam.pyを使用し、「-calccov」および「-a tf_gtrd_1000sites」の選択肢を用い、ichorCNAで補正された深度ファイルを「-norm-file」として用いて転写因子プロファイリング解析を実行した。それにより、504種のTFそれぞれについての1,000カ所の部位に対して転写因子プロファイリングを実行した。最後に、スコアリングパイプラインを実行した。アクセシビリティ出力ファイル(Accessibility1KSitesAdjusted.txt)内の504種のTFそれぞれに対して、上記と同じブートストラッピングスキームを使用したロジスティック回帰モデルの特徴として高周波数の振幅(「HighFreqRange」)を使用した。 We downloaded the transcription factor profiling pipeline (Ulz, P. et al. Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666 (2019)) published by Ulz and coworkers from Github (github.com/PeterUlz/TranscriptionFactorProfiling) and ran it using the following procedure described in the paper. Since the pipeline was written for the hg19 version of the genome, we used bam files aligned to hg19. The script was modified to work in python3. Reads within each bam were trimmed to 60 bp using "trim from bam single end" modified to skip unaligned reads. ichorcna was run on the original (untrimmed) bam using the default ichorcna settings for hg19, except that the bin size was modified to 50,000 bp and no regular panel was used. Transcription factor profiling analysis was then performed on the trimmed bam using the script run_tf_analyses_from_bam.py, with the "-calccov" and "-a tf_gtrd_1000sites" options, and the ichorcna corrected depth file as the "-norm-file". This performed transcription factor profiling on 1,000 sites for each of the 504 TFs. Finally, the scoring pipeline was run. For each of the 504 TFs in the accessibility output file (Accessibility1KSitesAdjusted.txt), we used the high frequency amplitude ("HighFreqRange") as a feature in a logistic regression model using the same bootstrapping scheme as above.

データ利用可能性
本試験において使用したシーケンシングデータは、dbGaP(accession phs001417.v1.p1)およびEGA(データセットID EGAD00001005339)から入手した。
Data Availability Sequencing data used in this study were obtained from dbGaP (accession phs001417.v1.p1) and EGA (dataset ID EGAD00001005339).

コード利用可能性
Griffinソフトウェアおよび亜型分類器ツールは、github.com/adoebley/Griffinから入手することができる。解析および機械学習モデルのためのコードにはgithub.com/adoebley/Griffin_analysesで入手することができる。
Code Availability The Griffin software and subtype classifier tools are available at github.com/adoebley/Griffin. Code for the analyses and machine learning models is available at github.com/adoebley/Griffin_analyses.

(実施例2)
上記の実施例1は、Griffinワークフローの実施形態を適用する配列解析により、ローパスシーケンシングデータから、乳がん亜型の決定を可能にするために十分な検出力および特異性を有する配列シグナルを増強することができることの概念実証である。本実施例では、Griffinワークフローの適用を他のがん型に拡大し、代替の配列プロファイリングプラットフォームからのデータを使用する。具体的には、異なる亜型の前立腺がん細胞に対してカットアンドランを使用してヒストン修飾プロファイリングを実施した。実施例1と同様に、Griffinワークフローにより、前立腺がんの異なる亜型を明白に識別するための頑強なシグナルがもたらされ、それにより、当該解析ワークフローの検出力および柔軟性が実証される。
Example 2
Example 1 above is a proof of concept that sequence analysis applying an embodiment of the Griffin workflow can enhance sequence signals from low-pass sequencing data with sufficient power and specificity to allow breast cancer subtype determination.In this example, the application of the Griffin workflow is extended to other cancer types and uses data from alternative sequence profiling platforms.Specifically, histone modification profiling is performed using cut and run on prostate cancer cells of different subtypes.As in Example 1, the Griffin workflow provides robust signals to clearly distinguish different subtypes of prostate cancer, thereby demonstrating the power and flexibility of the analysis workflow.

背景
転移性去勢抵抗性前立腺がん(mCRPC)は、疾患が、アンドロゲン除去療法に対する抵抗性を生じ、致死的なものになっている段階を記述するものである。CRPCを処置するために設計されたアンドロゲン受容体シグナル伝達阻害剤(ARSI)により、アンドロゲン受容体(AR)活性が抑制され、生存が改善されるが、これらの治療は最終的には失敗する。ARSIがmCRPCに対する標準治療として採用されてから、神経内分泌(NE)分化および小細胞癌の特徴を伴う処置抵抗性腫瘍の発生頻度が顕著に増加している。これらの高悪性度腫瘍は、AR陽性腺癌(ARPC)からAR活性を欠くNE前立腺がん(NEPC)への分化転換という抵抗性機構を通じて発生し得る。AR活性およびNE遺伝子の発現に基づいて、AR-low前立腺がん(ARLPC)およびダブルネガティブ前立腺がん(DNPC;AR-ヌル/NE-ヌル)を含めた追加的な表現型が生じる可能性もある。治療薬に対する示差的応答を考慮すると、前立腺がん亜型を区別することには臨床的重要性があるが、腫瘍の組織学的状態を診断するためには生検を行う必要があることで、困難になり得る:侵襲性の手順は費用がかかり、病的状態が付随し、生検が利用できない腫瘍のサブセットがあり、また、骨部位に関しては試料の品質について特定の困難が提起される。
1. Background Metastatic castration-resistant prostate cancer (mCRPC) describes the stage at which the disease develops resistance to androgen deprivation therapy and becomes fatal. Androgen receptor signaling inhibitors (ARSIs) designed to treat CRPC suppress androgen receptor (AR) activity and improve survival, but these therapies ultimately fail. Since ARSIs were adopted as the standard of care for mCRPC, there has been a significant increase in the incidence of treatment-resistant tumors with neuroendocrine (NE) differentiation and small cell carcinoma features. These high-grade tumors may develop through a resistance mechanism of transdifferentiation from AR-positive adenocarcinoma (ARPC) to NE prostate cancer (NEPC) that lacks AR activity. Based on AR activity and expression of the NE gene, additional phenotypes may also occur, including AR-low prostate cancer (ARLPC) and double-negative prostate cancer (DNPC; AR-null/NE-null). Differentiating between prostate cancer subtypes is of clinical importance given their differential response to therapeutic agents, but can be complicated by the need to perform biopsies to diagnose the histological status of the tumor: invasive procedures are expensive, are associated with morbidity, there are subsets of tumors for which biopsy is unavailable, and bone sites pose particular challenges regarding sample quality.

腫瘍細胞から血液中にセルフリーDNA(cfDNA)として放出される循環腫瘍DNA(ctDNA)は、腫瘍分子情報を利用するための非侵襲性「リキッドバイオプシー」という解決法である。ctDNAを解析して変異およびコピー数変更を検出することは、CRPC腫瘍のゲノム亜型を分類するために役立ってきた。しかし、NEPCにおけるTP53およびRB1の喪失を定義することで必ずしもNE分化転換をもたらすわけではない。そうではなく、ARPCおよびNEPC腫瘍は別個の転写調節の再プログラミングに関連付けられる。エピゲノムをプロファイリングするためにmCRPCにおけるcfDNAのメチル化を解析することは、表現型を区別する見込みを示すものであるが、バイサルファイト処理、酵素処理、または免疫沈降などの特殊化されたアッセイが必要になる。 Circulating tumor DNA (ctDNA), released from tumor cells into the blood as cell-free DNA (cfDNA), is a non-invasive "liquid biopsy" solution to harness tumor molecular information. Analyzing ctDNA to detect mutations and copy number alterations has been useful to classify genomic subtypes of CRPC tumors. However, defining loss of TP53 and RB1 in NEPC does not necessarily result in NE transdifferentiation. Instead, ARPC and NEPC tumors are associated with distinct transcriptional reprogramming. Analyzing methylation of cfDNA in mCRPC to profile the epigenome shows promise for distinguishing phenotypes, but requires specialized assays such as bisulfite treatment, enzymatic digestion, or immunoprecipitation.

大多数のcfDNAは、死に瀕した細胞から循環中に放出された際にヌクレオソームによって保護されているDNAを表すものであり、したがって、ランダムではないヌクレアーゼによる酵素的切断を反映するDNA断片化をもたらす。がんを調査するために血漿からcfDNA断片化パターンを解析するための新たな手法は、標準的な全ゲノムシーケンシング(WGS)から直接実施することができるものである。cfDNA断片は、単一コアヌクレオソーム八量体およびヒストンリンカーによる保護と一致する167bpという特徴的なサイズを有するが、サイズ分布は健康な個体とがん患者の間で変動し得る。最近の試験で、転写開始部位(TSS)および転写因子結合部位(TFBS)におけるcfDNAのヌクレオソーム占有率を使用して、cfDNAから遺伝子発現および転写因子(TF)活性を推測することができることが実証された。しかし、ヌクレオソームの配置および間隔は、遺伝子調節が活発な場合および抑制されている場合とで動的である。転写調節に関連するヌクレオソームの組織化および配置パターンの詳細な理解はcfDNAに関しては十分には探究されていない。 The majority of cfDNA represents DNA protected by nucleosomes when released into the circulation from dying cells, thus resulting in DNA fragmentation that reflects enzymatic cleavage by nonrandom nucleases. A new approach to analyze cfDNA fragmentation patterns from plasma to investigate cancer can be implemented directly from standard whole genome sequencing (WGS). cfDNA fragments have a characteristic size of 167 bp consistent with protection by a single core nucleosome octamer and histone linkers, although the size distribution can vary between healthy individuals and cancer patients. Recent studies have demonstrated that nucleosome occupancy of cfDNA at transcription start sites (TSS) and transcription factor binding sites (TFBS) can be used to infer gene expression and transcription factor (TF) activity from cfDNA. However, nucleosome positioning and spacing are dynamic in cases of active and repressed gene regulation. A detailed understanding of nucleosome organization and positioning patterns associated with transcription regulation has not been fully explored for cfDNA.

ctDNA解析の主要な難題は、患者血漿試料中の腫瘍含有量(腫瘍割合)が少ないことである。対照的に、患者由来異種移植(PDX)モデル由来の血漿は、バイオインフォマティクスによるマウスDNAリードの除外後、ほぼ純粋なヒトctDNAを含有し得る。それにより、ctDNAの特性を調査するため、新しい分析ツールを開発するため、および、遺伝子の特徴と表現型の特徴の両方を相当する腫瘍と比較することによって検証するための理想的なリソースがもたらされる。この試験では、多様な表現型を有するCRPC PDX系統24例にわたるマウス血漿由来のctDNAのディープWGSを実施した。実施例1に記載のコンピュータによる方法にヌクレオソームパターンを適用することにより、遺伝子にわたって、調節性遺伝子座、TFBS、TSS、およびオープンクロマチン部位を包括的に調べて、mCRPC表現型に関連付けられる転写調節を明らかにした。最後に、確率モデルを設計して、3例のmCRPC患者コホート由来の159例の血漿試料に関して、処置抵抗性腫瘍を異なる表現型に正確に分類し、その性能を検証した。全体として、これらの結果から、腫瘍表現型の転写調節をctDNAから突き止めることができ、そのことに、がん精密医療における診断への適用に関して潜在的な有用性があることが強調される。 A major challenge of ctDNA analysis is the low tumor content (tumor fraction) in patient plasma samples. In contrast, plasma from patient-derived xenograft (PDX) models can contain nearly pure human ctDNA after bioinformatics elimination of mouse DNA reads. This provides an ideal resource for investigating ctDNA properties, developing new analytical tools, and validating both genetic and phenotypic features by comparison with corresponding tumors. In this study, we performed deep WGS of ctDNA from mouse plasma across 24 CRPC PDX lines with diverse phenotypes. By applying the computational method described in Example 1 to nucleosome patterns, we comprehensively explored regulatory loci, TFBS, TSS, and open chromatin sites across genes to reveal transcriptional regulation associated with mCRPC phenotypes. Finally, we designed a probabilistic model to accurately classify treatment-resistant tumors into different phenotypes and validated its performance for 159 plasma samples from three mCRPC patient cohorts. Overall, these results highlight the potential utility of ctDNA to pinpoint transcriptional regulation of tumor phenotype, with potential diagnostic applications in precision cancer medicine.

結果
進行した前立腺がんの患者由来異種移植(PDX)モデルからの相当する腫瘍およびリキッドバイオプシーの包括的なリソース
明確に定義されたmCRPC表現型を有する進行した前立腺がんのLuCaP PDXシリーズからの26例のモデルを使用した(Nguyen et al. , (2017). LuCaP Prostate Cancer Patient-Derived Xenografts Reflect the Molecular Heterogeneity of Advanced Disease and Serve as Models for Evaluating Cancer Therapeutics. The Prostate 77, 654-671)。このモデルは、ARPCに分類される18例、AR-lowかつNE陰性前立腺がん(ARLPC)に分類される2例、およびNEPCに分類される6例からなるものであった(図11A)。各PDX系統について、7~10匹のマウス由来のマウス血漿をプールし、cfDNAを抽出し、ディープ全ゲノムシーケンシングを実施した(WGS;平均38.4×カバレッジ、範囲21~85×)(方法、図11A)。25系統でヒトctDNAが試料のうち10%よりも多くを構成し(平均52.9%、範囲10.6~96%)、NEPC試料ではヒト割合が有意に高かった(平均85.1%、範囲77.1~96%、両側マン・ホイットニーのU検定p=9.6×10-4)(図11B)。マウスのシーケンシングされたリードのバイオインフォマティクスによる差し引きを使用して、ほぼ純粋なヒトctDNAデータを得た(方法)。続いてヒトctDNAシーケンシングカバレッジによるフィルタリングを行った後、24例のPDX系統をさらなる解析のために残した(16例のARPC、6例のNEPC、2例のARLPC;平均20.5×、範囲3.8~50.6×)。相当する腫瘍に対して、標的下での切断およびヌクレアーゼによる放出(カットアンドラン)を実施して、H3K27ac、H3K4me1、およびH3K27me3ヒストン翻訳後修飾(PTM)をプロファイリングした(Meers et al. , (2019). Peak calling by Sparse Enrichment Analysis for CUT&RUN chromatin profiling. Epigenetics & Chromatin 12, 42; Skene and Henikoff (2017). An efficient targeted nuclease strategy for high-resolution mapping of DNA binding sites. ELife 6, e21856.)。ctDNAから推測されるヌクレオソーム組織化が、ヒストンPTMによって調節される転写活性状況を反映することが仮定された(Zhou et al. (2011). Charting histone modifications and the functional organization of mammalian genomes. Nat Rev Genet 12, 7-18)。
Results Comprehensive resource of representative tumors and liquid biopsies from patient-derived xenograft (PDX) models of advanced prostate cancer We used 26 models from the LuCaP PDX series of advanced prostate cancer with a well-defined mCRPC phenotype (Nguyen et al. , (2017). LuCaP Prostate Cancer Patient-Derived Xenografts Reflect the Molecular Heterogeneity of Advanced Disease and Serve as Models for Evaluating Cancer Therapeutics. The Prostate 77, 654-671). The models consisted of 18 cases classified as ARPC, 2 cases classified as AR-low and NE-negative prostate cancer (ARLPC), and 6 cases classified as NEPC (Figure 11A). For each PDX line, mouse plasma from 7-10 mice was pooled, cfDNA extracted, and deep whole genome sequencing was performed (WGS; mean 38.4x coverage, range 21-85x) (Methods, Fig. 11A). Human ctDNA constituted more than 10% of samples in 25 lines (mean 52.9%, range 10.6-96%), with a significantly higher human fraction in NEPC samples (mean 85.1%, range 77.1-96%, two-tailed Mann-Whitney U test p= 9.6x10-4 ) (Fig. 11B). Bioinformatics subtraction of mouse sequenced reads was used to obtain nearly pure human ctDNA data (Methods). After subsequent filtering by human ctDNA sequencing coverage, 24 PDX lines were retained for further analysis (16 ARPC, 6 NEPC, 2 ARLPC; mean 20.5×, range 3.8-50.6×). Targeted cleavage and release by nuclease (CUT&RUN) was performed on corresponding tumors to profile H3K27ac, H3K4me1, and H3K27me3 histone post-translational modifications (PTMs) (Meers et al. , (2019). Peak calling by Sparse Enrichment Analysis for CUT&RUN chromatin profiling. Epigenetics & Chromatin 12, 42; Skene and Henikoff (2017). An efficient targeted nuclease strategy for high-resolution mapping of DNA binding sites. ELife 6, e21856.). It was hypothesized that nucleosome organization inferred from ctDNA reflects the transcriptional activity landscape regulated by histone PTMs (Zhou et al. (2011). Charting histone modifications and the functional organization of mammalian genomes. Nat Rev Genet 12, 7-18).

mCRPC表現型における転写調節をctDNAから調査するために、4つの異なる特徴を調べた:局所プロモーターカバレッジ、ヌクレオソームの配置、断片サイズ解析、ならびに、Griffinフレームワークを使用した複合TFBSおよびオープンクロマチン部位解析(実施例1、およびDoebley et al. (2021). Griffin: Framework for clinical cancer subtyping from nucleosome profiling of cell-free DNA. MedRxiv 2021.08.31.21262867)(図11A、方法)。ctDNA内の3つの異なる局所領域を解析した:全ての遺伝子プロモーター、および遺伝子の転写領域内、およびカットアンドラン解析が指針となるヒストンPTMの部位。次に、ctDNAを転写因子結合部位(TFBS)およびオープンクロマチン領域において解析した。各転写因子(TF)について、TFBSにおけるctDNAカバレッジを、推測される活性を表す複合プロファイルに集約した(Example 1 and Doebley et al. , 2021; Ulz et al. (2019). Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666)。同様に、ctDNAにおけるクロマチンアクセシビリティのシグネチャーを解析するために、亜型特異的オープンクロマチン領域の複合プロファイルにおける特徴を抽出した。まとめると、マルチオミクスシーケンシングデータセットが、合計24例のPDX系統について、相当する腫瘍および血漿からアセンブルされ、これが、ctDNAから腫瘍表現型を予測する転写調節シグネチャーを開発するための独特の分子リソースおよびプラットフォームになった。 To investigate transcriptional regulation in the mCRPC phenotype from ctDNA, four different features were investigated: local promoter coverage, nucleosome positioning, fragment size analysis, and combined TFBS and open chromatin site analysis using the Griffin framework (Example 1, and Doebley et al. (2021). Griffin: Framework for clinical cancer subtyping from nucleosome profiling of cell-free DNA. MedRxiv 2021.08.31.21262867) (Figure 11A, Methods). Three different local regions within the ctDNA were analyzed: all gene promoters, and within the transcribed regions of genes, and sites of histone PTMs guided by cut-and-run analysis. Next, ctDNA was analyzed for transcription factor binding sites (TFBS) and open chromatin regions. For each transcription factor (TF), ctDNA coverage in the TFBS was aggregated into a composite profile representing inferred activity (Example 1 and Doebley et al. , 2021; Ulz et al. (2019). Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666). Similarly, features in the composite profile of subtype-specific open chromatin regions were extracted to analyze the signature of chromatin accessibility in ctDNA. In summary, a multi-omics sequencing dataset was assembled from corresponding tumors and plasma for a total of 24 PDX lines, providing a unique molecular resource and platform for developing transcriptional regulatory signatures predictive of tumor phenotype from ctDNA.

腫瘍ヒストン修飾およびctDNAの解析によるPDX表現型におけるARおよびASCL1の転写活性の特徴付け
mCRPC患者における前立腺がん表現型は別個の転写シグネチャーを有し、これらはLuCaP PDX系統においても観察される(Labrecque et al. (2021b). RNA Splicing Factors SRRM3 and SRRM4 Distinguish Molecular Phenotypes of Castration-Resistant Neuroendocrine Prostate Cancer. Cancer Research 81, 4736-4750)。異なる腫瘍表現型における転写活性を、ヒストンPTMを介してエピジェネティック調節を調査することによってさらに特徴付けた。H3K4me1(中央値17,643領域、範囲1,894~64,934)、H3K27ac(中央値7,093、範囲1610~34,047)、およびH3K27me3(中央値8,737、範囲2,024~42,495)についての広範なピーク領域を24例のPDX系統、および腫瘍のみが入手可能であった場合の追加的な9例のLuCaP PDX系統の腫瘍(合計25例のARPC、2例のARLPC、および6例のNEPC)において同定した(方法)。教師なしクラスタリングおよび主成分分析(PCA)を使用し、ARPC、ARLPC、およびNEPC表現型特異的、エンハンサーおよびプロモーターの推定される活発な調節領域(H3K27ac、H3K4me1)ならびに、遺伝子抑制性ヘテロクロマチンマーク(H3K27me3)を同定した(Soares et al. (2017). Determinants of Histone H3K4 Methylation Patterns. Molecular Cell 68, 773-785.e6)。
Characterization of AR and ASCL1 Transcriptional Activity in PDX Phenotypes by Analysis of Tumor Histone Modifications and ctDNA Prostate cancer phenotypes in mCRPC patients have distinct transcriptional signatures, which are also observed in the LuCaP PDX line (Labrecque et al. (2021b). RNA Splicing Factors SRRM3 and SRRM4 Distinguish Molecular Phenotypes of Castration-Resistant Neuroendocrine Prostate Cancer. Cancer Research 81, 4736-4750). Transcriptional activity in the different tumor phenotypes was further characterized by investigating epigenetic regulation via histone PTMs. Extensive peak regions for H3K4me1 (median 17,643 regions, range 1,894-64,934), H3K27ac (median 7,093, range 1610-34,047), and H3K27me3 (median 8,737, range 2,024-42,495) were identified in tumors from 24 PDX lines and an additional 9 LuCaP PDX lines when only tumors were available (a total of 25 ARPC, 2 ARLPC, and 6 NEPC) (Methods). Using unsupervised clustering and principal component analysis (PCA), we identified putative actively regulated enhancer and promoter regions (H3K27ac, H3K4me1) and gene-repressive heterochromatin marks (H3K27me3) that are ARPC-, ARLPC-, and NEPC-phenotype-specific (Soares et al. (2017). Determinants of Histone H3K4 Methylation Patterns. Molecular Cell 68, 773-785.e6).

ARおよびASCL1は、それぞれARPC表現型およびNEPC表現型における調節性の役割が分かっている2つの重要な差次的に発現されるTFである(Brady et al. (2021). Temporal evolution of cellular heterogeneity during the progression to advanced AR-negative prostate cancer. Nat Commun 12, 3372; Cejas et al. (2021). Subtype heterogeneity and epigenetic convergence in neuroendocrine prostate cancer. Nat Commun 12, 5775; Rapa et al. (2008). Human ASH1 expression in prostate cancer with neuroendocrine differentiation. Mod Pathol 21, 700-707; Wang et al. (2020). Molecular tracing of prostate cancer lethality. Oncogene 39, 7225-7238)。ARPC腫瘍におけるAR結合部位を綿密に調べたところ、他の表現型と比較して、H3K27ac PTMに隣接するヌクレオソームからのシグナルの増加が観察された(平均ピークプロファイル下面積が18.46であったのに対し、ARLPCでは15.08、NEPCでは10.63であった)(図12A、方法)。ARPCでは、H3K27acの最も強いシグナルがヌクレオソーム枯渇領域(NDR)においても観察された(1.54のカバレッジ減少、それに対してARLPCでは0.78、NEPCでは0.41)。逆に、NEPC腫瘍では、ASCL1結合部位に隣接するH3K27ac PTMを伴うヌクレオソームにおいてより強力なシグナルが観察され(平均ピークプロファイル下面積62.65、それに対してARLPCでは29.18、ARPCでは10.83)より強力なNDRシグナルが観察された(2.26のカバレッジ減少、それに対してARPCでは0.19、ARLPCでは0.37)。LuCaP PDX系統においてH3K4me1 PTMについて同様の傾向が観察された。 AR and ASCL1 are two important differentially expressed TFs with known regulatory roles in ARPC and NEPC phenotypes, respectively (Brady et al. (2021). Temporal evolution of cellular heterogeneity during the progression to advanced AR-negative prostate cancer. Nat Commun 12, 3372; Cejas et al. (2021). Subtype heterogeneity and epigenetic convergence in neuroendocrine prostate cancer. Nat Commun 12, 5775; Rapa et al. (2008). Human ASH1 expression in prostate cancer with neuroendocrine differentiation. Mod Pathol 21, 700-707; Wang et al. (2020). Molecular tracing of prostate cancer lethality. Oncogene 39, 7225-7238). When we closely examined AR binding sites in ARPC tumors, we observed increased signal from nucleosomes adjacent to H3K27ac PTMs compared to other phenotypes (mean area under peak profile was 18.46 vs. 15.08 in ARLPC and 10.63 in NEPC) (FIG. 12A, Methods). In ARPC, the strongest signal of H3K27ac was also observed in nucleosome depleted regions (NDRs) (coverage reduction of 1.54 vs. 0.78 in ARLPC and 0.41 in NEPC). Conversely, in NEPC tumors, stronger signals were observed in nucleosomes with H3K27ac PTMs adjacent to ASCL1 binding sites (mean area under peak profile 62.65 vs. 29.18 in ARLPC and 10.83 in ARPC) and stronger NDR signals were observed (coverage reduction of 2.26 vs. 0.19 in ARPC and 0.37 in ARLPC). A similar trend was observed for H3K4me1 PTMs in LuCaP PDX lines.

ctDNA複合カバレッジプロファイルをTFBSにおいて解析して、ヌクレオソームアクセシビリティを評価し、それによって、これらの部位にわたる正規化された中心(±30bpのウインドウ)平均カバレッジが小さいことにより、より大きなヌクレオソーム枯渇が示唆される(方法)。AR TFBSに関しては、ARLPCでは中程度のシグナルが観察され(アベレージ0.88、n=2)、NEPCでは最も弱いシグナルが観察された(アベレージ0.95、n=6)のと比較して、ARPCにおいて、最低平均中心カバレッジ(アベレージ0.64、n=16)によって示される通り、ヌクレオソーム枯渇の最も強いシグナルが観察された(図12B)。逆に、ASCL1 TFBSにおける複合カバレッジプロファイルでは、ARLPC(0.86)およびARPC(0.88)と比較して、NEPC試料で最も強いヌクレオソーム枯渇が示された(平均中心カバレッジ0.69)(図12C)。これらの知見は、腫瘍組織からのそれぞれの表現型におけるARおよびASCL1による差分結合活性と一致した。さらに、ctDNAにおけるヌクレオソーム枯渇のctDNAカバレッジパターンは、カットアンドランによって生成されたヌクレオソームサイズの断片(140bp~200bp)のみを解析した場合に例示された、H3K27acおよびH3K4me1ピークプロファイルを有するヌクレオソームに挟まれたNDRと似ていた(図12A)。総合して、これらの結果から、ctDNAのARおよびASCL1結合部位におけるヌクレオソーム枯渇が、特定の前立腺PDX腫瘍表現型における活発なTF結合および調節活性を表すものであることが示唆される。 ctDNA composite coverage profiles were analyzed in TFBS to assess nucleosome accessibility, whereby lower normalized centroid (±30 bp window) average coverage across these sites suggests greater nucleosome depletion (Methods). For AR TFBS, the strongest signal of nucleosome depletion was observed in ARPC, as indicated by the lowest average centroid coverage (average 0.64, n=16), compared with moderate signals observed in ARLPC (average 0.88, n=2) and the weakest signals observed in NEPC (average 0.95, n=6) (Figure 12B). Conversely, the combined coverage profile in ASCL1 TFBS showed the strongest nucleosome depletion in NEPC samples (mean central coverage 0.69) compared to ARLPC (0.86) and ARPC (0.88) (Figure 12C). These findings were consistent with differential binding activity by AR and ASCL1 in each phenotype from tumor tissue. Furthermore, the ctDNA coverage pattern of nucleosome depletion in ctDNA resembled nucleosome-fringed NDR with H3K27ac and H3K4me1 peak profiles exemplified when only nucleosome-sized fragments (140bp-200bp) generated by cut-and-run were analyzed (Figure 12A). Collectively, these results suggest that nucleosome depletion in ctDNA AR and ASCL1 binding sites represents active TF binding and regulatory activity in a specific prostate PDX tumor phenotype.

ctDNAから推測された遺伝子プロモーターにおけるヌクレオソームパターンは表現型特異的遺伝子の転写活性と一致する
以前に確立された12種のARPC系列マーカーおよび35種のNEPC系列マーカーを含む47種の遺伝子(Beltran et al. (2016). Divergent clonal evolution of castration-resistant neuroendocrine prostate cancer. Nature Medicine 22, 298-305; Labrecque et al. (2021b). RNA Splicing Factors SRRM3 and SRRM4 Distinguish Molecular Phenotypes of Castration-Resistant Neuroendocrine Prostate Cancer. Cancer Research 81, 4736-4750)を選択し、PDX腫瘍RNA-Seqデータからの差次的発現解析によって確認した(図12D、方法)。ctDNA由来のこれらの遺伝子の活性を評定するために、TSS(±1kbのウインドウ)および遺伝子の転写領域内におけるctDNA断片サイズを解析した。表現型間の示差的サイズ変動性が相対的な発現量と正に相関することが見いだされた(スピアマンのρ=0.844、p=9.4×10-14、図12E、方法)。次に、TSS(±1kb)における相対的なctDNAカバレッジを解析したが、表現型間の関連性は観察されなかった。しかし、プロモーターにおけるctDNAカバレッジパターンをより綿密に調べることにより、一貫した、転写活性および抑制のためのヌクレオソーム組織化が明らかになった(Jiang and Zhang(2021). On the role of transcription in positioning nucleosomes. PLOS Computational Biology 17, e1008556;Klemm et al. (2019). Chromatin accessibility and the regulatory epigenome. Nature Reviews Genetics 20, 207-220; Oruba et al. (2020). Role of cell-type specific nucleosome positioning in inducible activation of mammalian promoters. Nat Commun 11, 1075; Ramachandran et al. (2017). Transcription and Remodeling Produce Asymmetrically Unwrapped Nucleosomal Intermediates. Molecular Cell 68, 1038-1053.e4)(図12D)。したがって、遺伝子を、転写の抑制またはヘテロクロマチンの凝縮に関連付けられるH3K27me3ヒストンPTMの差動シグナルに基づいて群分けした。AR、FOXA1、KLK3およびASCL1を含めた、示差的H3K27me3ピークを有さない25種の遺伝子(群1)に関しては、例えば、ARPC試料におけるAR(平均カバレッジ0.47、n=16)およびNEPC試料におけるASCL1(0.30、n=6)について、活発なPTMの存在と一致して、TSSにおけるヌクレオソーム枯渇が観察された(図12F)。対照的に、NEPCにおけるARのTSS(1.08)およびARPCにおけるASCL1のTSS(0.42)においてカバレッジの増加が観察され、それにより、PTMの非存在下でのヌクレオソーム枯渇および活発でない転写が裏付けられる。STEAP1、CHGBおよびSRRM4を含めた、示差的H3K27me3ピークを有する22種の遺伝子(群2)に関しては、NE特異的遺伝子について、TSSならびに遺伝子の転写領域内におけるヌクレオソーム占有率および段階化の比較的より多くの一貫した増加が観察された(図12G)。この群の神経シグナル伝達遺伝子、例えば、UNC13AおよびINSM1などは、活発に転写される遺伝子について記載されている不均一(「ファジー」)なヌクレオソームパターンと一致して、ヌクレオソームの配置のシグナルの減少を有した(Jiang and Pugh(2009). Nucleosome positioning and gene regulation: advances through genomics. Nat Rev Genet 10, 161-172; Lai and Pugh(2017). Understanding nucleosome dynamics and their links to gene expression and DNA replication. Nat Rev Mol Cell Biol 18, 548-562)。興味深いことに、UNC13AはARPC腫瘍において抑制されていたが、NEPC腫瘍では発現されていたにもかかわらず、H3K27acアクセシブルPTMマークもH3K4me1アクセシブルPTMマークも有さなかった。これらの結果から、ctDNA解析により、前立腺がん表現型を規定する重要な遺伝子についてのヒストン修飾による転写調節と一致するパターンを明らかにすることができることが例示される。
Nucleosome patterns in gene promoters inferred from ctDNA are consistent with transcriptional activity of phenotype-specific genes Forty-seven genes, including 12 previously established ARPC lineage markers and 35 NEPC lineage markers (Beltran et al. (2016). Divergent clonal evolution of castration-resistant neuroendocrine prostate cancer. Nature Medicine 22, 298-305; Labrecque et al. (2021b). RNA Splicing Factors SRRM3 and SRRM4 Distinguish Molecular Phenotypes of Castration-Resistant Neuroendocrine Prostate Cancer. Cancer Research 81, 4736-4750), were selected and confirmed by differential expression analysis from PDX tumor RNA-Seq data (FIG. 12D, Methods). To assess the activity of these genes from ctDNA, the TSS (±1 kb window) and ctDNA fragment size within the transcribed region of the genes were analyzed. We found that differential size variability between phenotypes correlated positively with relative expression levels (Spearman's ρ=0.844, p=9.4×10 −14 , FIG. 12E , Methods). We next analyzed relative ctDNA coverage in the TSS (±1 kb) and observed no association between phenotypes. However, closer examination of ctDNA coverage patterns at promoters revealed consistent nucleosome organization for transcriptional activation and repression (Jiang and Zhang(2021). On the role of transcription in positioning nucleosomes. PLOS Computational Biology 17, e1008556; Klemm et al. (2019). Chromatin accessibility and the regulatory epigenome. Nature Reviews Genetics 20, 207-220; Oruba et al. (2020). Role of cell-type specific nucleosome positioning in inducible activation of mammalian promoters. Nat Commun 11, 1075; Ramachandran et al. (2017). Transcription and Remodeling Produce Asymmetrically Unwrapped Nucleosomal Intermediates. Molecular Cell 68, 1038-1053.e4) (Figure 12D). Therefore, genes were grouped based on differential signals of H3K27me3 histone PTMs associated with transcriptional repression or heterochromatin condensation. For 25 genes (group 1) that do not have differential H3K27me3 peaks, including AR, FOXA1, KLK3 and ASCL1, for example, nucleosome depletion was observed in TSSs for AR in ARPC samples (average coverage 0.47, n=16) and ASCL1 in NEPC samples (0.30, n=6), consistent with the presence of active PTMs (Figure 12F). In contrast, increased coverage was observed in the TSSs of AR in NEPC (1.08) and ASCL1 in ARPC (0.42), thereby supporting nucleosome depletion and inactive transcription in the absence of PTMs. For the 22 genes with differential H3K27me3 peaks (group 2), including STEAP1, CHGB and SRRM4, a relatively more consistent increase in nucleosome occupancy and phasing was observed for NE-specific genes in the TSS as well as within the transcribed regions of the genes (Figure 12G). This group of neural signaling genes, such as UNC13A and INSM1, had reduced signals of nucleosome positioning, consistent with the heterogeneous ("fuzzy") nucleosome patterns described for actively transcribed genes (Jiang and Pugh(2009). Nucleosome positioning and gene regulation: advances through genomics. Nat Rev Genet 10, 161-172; Lai and Pugh(2017). Understanding nucleosome dynamics and their links to gene expression and DNA replication. Nat Rev Mol Cell Biol 18, 548-562). Interestingly, UNC13A was repressed in ARPC tumors, but despite being expressed in NEPC tumors, did not carry the H3K27ac or H3K4me1 accessible PTM marks. These results illustrate that ctDNA analysis can reveal patterns consistent with transcriptional regulation by histone modifications for key genes that define prostate cancer phenotype.

ctDNAのTFBSにおけるヌクレオソームアクセシビリティの解析から推測されたTF活性により、腫瘍表現型の重要な調節因子が確認される
前立腺腫瘍表現型に関して系列を規定するTFを特徴付けるために、PDX ctDNAのTFBSにおけるヌクレオソームアクセシビリティについて考察した。Griffinを使用して解析された338種のTFとARPC PDX腫瘍とNEPC PDX腫瘍の間で差次的に発現される404種のTFの交差に基づいて107種のTFを同定した(方法)。これらのTFのうち、38種が、ARPC表現型とNEPC表現型の間で有意に異なるctDNAにおけるアクセシビリティを有した(両側マン・ホイットニーのU検定、Benjamini-Hochberg 調整されたp<0.05)。107種のTFについての複合TFBS中心カバレッジ値の教師なし階層クラスタリングにより、PDX ctDNAにおいてTFの別個の群が観察された(図13)。RESTについて、ARPCモデル内でNEPCと比較してカバレッジが減少したことによって裏付けられる通り、アクセシビリティの差異が最も大きかった(log倍率変化-0.77、調整されたp=5.7×10-4)。FOXA1、およびGRHL2は、ARPC(およびARLPC)試料においてNEPCと比較してアクセシビリティが有意に高かった(log倍率変化<-0.57、調整されたp<1.3×10-3)。AR、HOXB13、およびNKX3-1はARPCにおいてNEPCと比較してアクセシビリティがより高かったが(log倍率変化<-0.37、調整されたp<1.3×10-3)、予測通り、ARLPCにおけるアクセシビリティはほんの中程度であった。興味深いことに、ARPCではプロゲステロン受容体(PGR)のアクセシビリティも高かった(log倍率変化-0.33、調整されたp=2.6×10-3)。グルココルチコイド受容体(NR3C1)および他の核ホルモン受容体(NR2F2、RARG)、パイオニア因子(pioneer factor)GATA2およびGATA3、ならびに核因子HNF4GおよびHNF1Aを含めた、同様の傾向に従うARPCで調節される遺伝子の群も観察された(log倍率変化<-0.10、調整されたp<0.027)。
TF activity inferred from analysis of nucleosome accessibility in ctDNA TFBS identifies key regulators of tumor phenotype To characterize lineage-defining TFs with respect to prostate tumor phenotype, nucleosome accessibility in the TFBS of PDX ctDNA was considered. 107 TFs were identified based on the intersection of 338 TFs analyzed using Griffin with 404 TFs differentially expressed between ARPC and NEPC PDX tumors (Methods). Of these TFs, 38 had accessibility in ctDNA that was significantly different between ARPC and NEPC phenotypes (2-tailed Mann-Whitney U test, Benjamini-Hochberg adjusted p<0.05). By unsupervised hierarchical clustering of the combined TFBS central coverage values for the 107 TFs, distinct groups of TFs were observed in PDX ctDNA (FIG. 13). REST had the greatest difference in accessibility as evidenced by reduced coverage within the ARPC model compared to NEPC (log 2 fold change -0.77, adjusted p= 5.7x10-4 ). FOXA1, and GRHL2 were significantly more accessible in ARPC (and ARLPC) samples compared to NEPC (log 2 fold change <-0.57, adjusted p< 1.3x10-3 ). AR, HOXB13, and NKX3-1 were more accessible in ARPC compared to NEPC (log 2 fold change <-0.37, adjusted p< 1.3x10-3 ), but as expected, were only moderately accessible in ARLPC. Interestingly, progesterone receptor (PGR) accessibility was also higher in ARPC (log 2 fold change -0.33, adjusted p= 2.6x10-3 ). A group of genes regulated in ARPC that followed a similar trend was also observed, including the glucocorticoid receptor (NR3C1) and other nuclear hormone receptors (NR2F2, RARG), pioneer factors GATA2 and GATA3, and nuclear factors HNF4G and HNF1A (log 2 fold change <-0.10, adjusted p<0.027).

NEPCモデルにおいてARPCおよびARLPCと比較してアクセシビリティが高かった因子に関しては、ASCL1のTFBSカバレッジ差異が最も大きかった(log倍率変化0.36、調整されたp=5.7×10-4、図12C、図13F)。RUNX1、BCL11B、POU3F2、NEUROG2、およびSOX2を含めた他のTFも、NEPCにおいて活性がより高かったが(log倍率変化>0.06、調整されたp<0.048)、差異は中程度であった。HEY1、IRF1、およびIKZF1も、NEPC試料におけるアクセシビリティの増加と一致して同様の傾向を有したが、ARPCと有意には異ならなかった(調整されたp>0.10)。NKX2-1およびCEBPAはNEPCにおいてARPCと比較してアクセシビリティが増加したが(それぞれ調整されたp=0.47および0.36で有意でなかったにせよ)、これらの因子はARLPCにおいても適度に活性であった。他の注目すべき因子、例えばMYCおよびETS転写ファミリー遺伝子(ETV4、ETV5、ETS1、ETV1)などは全ての表現型にわたってアクセシビリティが高かったが、一方、NEUROD1、RUNX3、およびTP63はほぼ全ての試料においてインアクセシブルであった。全体として、これらの腫瘍表現型に対するctDNA解析によって以前に示されたことがない、ASCL1、NR3C1、HNF4G、HNF1A、およびSOX2を含めた既知の前立腺がん調節因子のアクセシビリティが同定された(Arora et al. (2013). Glucocorticoid Receptor Confers Resistance to Antiandrogens by Bypassing Androgen Receptor Blockade. Cell 155, 1309-1322; Mu et al. (2017). SOX2 promotes lineage plasticity and antiandrogen resistance in TP53- and RB1-deficient prostate cancer. Science 355, 84-88; Shukla et al. (2017). Aberrant Activation of a Gastrointestinal Transcriptional Circuit in Prostate Cancer Mediates Castration Resistance. Cancer Cell 32, 792-806.e7)。 For factors with increased accessibility in NEPC models compared to ARPC and ARLPC, ASCL1 had the largest TFBS coverage difference (log 2 fold change 0.36, adjusted p= 5.7x10-4 , Fig. 12C, Fig. 13F). Other TFs, including RUNX1, BCL11B, POU3F2, NEUROG2, and SOX2, were also more active in NEPC (log 2 fold change >0.06, adjusted p<0.048), but the differences were modest. HEY1, IRF1, and IKZF1 had a similar trend consistent with increased accessibility in NEPC samples, but were not significantly different from ARPC (adjusted p>0.10). NKX2-1 and CEBPA were increased in accessibility in NEPC compared to ARPC (albeit not significant at adjusted p=0.47 and 0.36, respectively), but these factors were also moderately active in ARLPC. Other notable factors, such as MYC and ETS transcription family genes (ETV4, ETV5, ETS1, ETV1), were highly accessible across all phenotypes, whereas NEUROD1, RUNX3, and TP63 were inaccessible in nearly all samples. Overall, we identified accessibility of known prostate cancer regulators, including ASCL1, NR3C1, HNF4G, HNF1A, and SOX2, not previously demonstrated by ctDNA analysis for these tumor phenotypes (Arora et al. (2013). Glucocorticoid Receptor Confers Resistance to Antiandrogens by Bypassing Androgen Receptor Blockade. Cell 155, 1309-1322; Mu et al. (2017). SOX2 promotes lineage plasticity and antiandrogen resistance in TP53- and RB1-deficient prostate cancer. Science 355, 84-88; Shukla et al. (2017). Aberrant Activation of a Gastrointestinal Transcriptional Circuit in Prostate Cancer Mediates Castration Resistance. Cancer Cell 32, 792-806.e7).

PDX腫瘍組織における表現型特異的オープンクロマチン領域は、ヌクレオソームアクセシビリティのctDNAプロファイルに反映される
cfDNAシーケンシング解析からのヌクレオソームプロファイリングは、腫瘍組織における全体的なクロマチンアクセシビリティと一致することが示されているが(Snyder et al. (2016). Cell-free DNA Comprises an in Vivo Nucleosome Footprint that Informs Its Tissues-Of-Origin. Cell 164, 57-68; Sun et al. (2019). Orientation-aware plasma cell-free DNA fragmentation analysis in open chromatin regions informs tissue of origin. Genome Research 29, 418-427; Ulz et al. (2019). Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666)、腫瘍表現型を区別するためのその適用は限定されている。クロマチンアクセシビリティの表現型差異に関する情報をもたらすために、10例のLuCaP PDX系統(5例のARPCおよび5例のNEPC)に対する、腫瘍組織からのATAC-Seqデータの使用を調査した(Cejas et al. (2021). Subtype heterogeneity and epigenetic convergence in neuroendocrine prostate cancer. Nat Commun 12, 5775)。28,765カ所のARPCおよび21,963カ所のNEPC示差的コンセンサスオープンクロマチン領域の最初のセットを定義し、それを、338種のTFに対するオーバーラップするTFBSにさらに制限し、15,881カ所のARPC部位および11,694カ所のNEPC部位をもたらした(方法、図14A)。ARPC特異的オープンクロマチン部位に関しては、ARPC PDX系統について(平均中心カバレッジ0.75、n=16)、NEPC系統(平均0.96、n=6)および健康ヒトドナー由来のcfDNA(平均0.97、n=14)と比較して、ctDNAにおける全体的な複合部位カバレッジ(+/-1kbのウインドウ)および中心カバレッジ(+/-30bp)の減少が観察された(図14B)。逆に、NEPC特異的オープンクロマチン部位に関しては、NEPC系統(平均0.89)について、ARPC系統(平均1.01)および健康ドナーcfDNA(平均1.00)と比較してctDNAにおけるカバレッジが減少した(図14C)。これらの結果から、腫瘍組織クロマチンアクセシビリティをctDNAで確証することができること、ならびにARPC表現型およびNEPC表現型が別個のctDNA複合部位カバレッジプロファイルを有することが確認された。
Phenotype-specific open chromatin regions in PDX tumor tissues are reflected in ctDNA profiles of nucleosome accessibility Nucleosome profiling from cfDNA sequencing analysis has been shown to be consistent with global chromatin accessibility in tumor tissues (Snyder et al. (2016). Cell-free DNA Comprises an in Vivo Nucleosome Footprint that Informs Its Tissues-Of-Origin. Cell 164, 57-68; Sun et al. (2019). Orientation-aware plasma cell-free DNA fragmentation analysis in open chromatin regions informs tissue of origin. Genome Research 29, 418-427; Ulz et al. (2019). Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666), but its application for distinguishing tumor phenotypes is limited. To provide information on phenotypic differences in chromatin accessibility, we investigated the use of ATAC-Seq data from tumor tissues for 10 LuCaP PDX lines (5 ARPC and 5 NEPC) (Cejas et al. (2021). Subtype heterogeneity and epigenetic convergence in neuroendocrine prostate cancer. Nat Commun 12, 5775). We defined an initial set of 28,765 ARPC and 21,963 NEPC differential consensus open chromatin regions, which we further restricted to overlapping TFBS for 338 TFs, resulting in 15,881 ARPC and 11,694 NEPC sites (Methods, Fig. 14A). For ARPC-specific open chromatin sites, reduced overall complex site coverage (window of +/- 1 kb) and central coverage (+/- 30 bp) was observed in ctDNA for ARPC PDX lines (mean central coverage 0.75, n=16) compared to NEPC lines (mean 0.96, n=6) and cfDNA from healthy human donors (mean 0.97, n=14) (Figure 14B). Conversely, for NEPC-specific open chromatin sites, coverage in ctDNA was reduced for NEPC lines (mean 0.89) compared to ARPC lines (mean 1.01) and healthy donor cfDNA (mean 1.00) (Figure 14C). These results confirmed that tumor tissue chromatin accessibility can be confirmed with ctDNA and that ARPC and NEPC phenotypes have distinct ctDNA complex site coverage profiles.

CRPC表現型分類のための、ゲノムコンテキストにわたるctDNA特徴の包括的な評価
前立腺がん表現型分類に関する情報をもたらすために、ctDNAヌクレオソームプロファイリングの有用性を評定するために、包括的なゲノムワイドctDNA特徴の群を体系的に評価した:断片サイズ、局所カバレッジプロファイリング、および複合部位カバレッジプロファイリング(図11A)。主成分分析(PCA)により、TFの複合TFBSカバレッジおよびPTMの全体的な部位における断片サイズの変動性について、ARPC表現型とNEPC表現型の間で別個の特徴シグナルが観察された(図14D、方法)。これらの特徴に加えて、以前報告された同様の手法では、短い断片と長い断片の比およびTSSにおける局所カバレッジパターン(-120bpから195bpの間の最大波高)なども含められた(Cristiano et al. (2019). Genome-wide cell-free DNA fragmentation in patients with cancer. Nature 570, 385-389; Ulz et al. (2016b). Inferring expressed genes by whole-genome sequencing of plasma DNA. Nature Genetics 48, 1273-1278)(方法)。
Comprehensive evaluation of ctDNA features across genomic contexts for CRPC phenotyping To assess the utility of ctDNA nucleosome profiling to inform prostate cancer phenotyping, a set of comprehensive genome-wide ctDNA features was systematically evaluated: fragment size, local coverage profiling, and composite site coverage profiling (FIG. 11A). By principal component analysis (PCA), distinct feature signals were observed between ARPC and NEPC phenotypes for composite TFBS coverage of TFs and fragment size variability at global sites of PTMs (FIG. 14D, Methods). In addition to these features, previously reported similar methods also included the ratio of short to long fragments and the regional coverage pattern in the TSS (maximum peak between -120 bp and 195 bp) (Cristiano et al. (2019). Genome-wide cell-free DNA fragmentation in patients with cancer. Nature 570, 385-389; Ulz et al. (2016b). Inferring expressed genes by whole-genome sequencing of plasma DNA. Nature Genetics 48, 1273-1278) (Methods).

カバレッジ特徴および断片サイズ特徴の全ての組合せを、異なるゲノムコンテキストについて定量的に評価して、ARPC表現型とNEPC表現型を分類するためのそれらの潜在性を調査した。各特徴セットについて、16例のARPCモデルおよび6例のNEPCモデル由来のctDNA試料に対して教師あり機械学習分類器(XGBoost)を使用して層化交差検証の100回の反復を行い、受信者動作特性曲線下面積(AUC)をコンピュータ計算した(方法)。第1に、AR活性に関連付けられる10種の遺伝子の確立されたセットを評価した(Bluemn et al. (2017). Androgen Receptor Pathway-Independent Prostate Cancer Is Sustained through FGF Signaling. Cancer Cell 32, 474-489.e6; Labrecque (2021a). The heterogeneity of prostate cancers lacking AR activity will require diverse treatment approaches. Endocrine-Related Cancer 28, T51-T66)。H3K27ac部位における段階的ヌクレオソーム距離およびTSSにおける中心カバレッジが中程度の予測性能を有することが観察された(AUC0.88)。全てのPTM部位、プロモーター、遺伝子、TF、およびオープンクロマチン領域を考慮した場合、最も性能がよい特徴には、H3K4me1部位における平均断片サイズ特徴(n=9,750、AUC1.0)およびプロモーターTSS特徴(n=17,946、AUC1.0)、および両方のオープンクロマチン複合部位特徴(AUC1.0)が含まれた(図14E)。 All combinations of coverage and fragment size features were quantitatively evaluated for different genomic contexts to explore their potential for classifying ARPC and NEPC phenotypes. For each feature set, 100 iterations of stratified cross-validation were performed using a supervised machine learning classifier (XGBoost) on ctDNA samples from 16 ARPC and 6 NEPC models, and the area under the receiver operating characteristic curve (AUC) was computed (Methods). First, an established set of 10 genes associated with AR activity was evaluated (Bluemn et al. (2017). Androgen Receptor Pathway-Independent Prostate Cancer Is Sustained through FGF Signaling. Cancer Cell 32, 474-489.e6; Labrecque (2021a). The heterogeneity of prostate cancers lacking AR activity will require diverse treatment approaches. Endocrine-Related Cancer 28, T51-T66). We observed that graded nucleosome distance at H3K27ac sites and central coverage at TSS had moderate predictive performance (AUC 0.88). When considering all PTM sites, promoters, genes, TFs, and open chromatin regions, the best-performing features included the average fragment size feature at H3K4me1 sites (n = 9,750, AUC 1.0) and the promoter TSS feature (n = 17,946, AUC 1.0), and both open chromatin complex site features (AUC 1.0) (Figure 14E).

確率モデルを使用した患者血漿からのARPC表現型とNEPC表現型の正確な分類についてPDX ctDNA解析から情報がもたらされる
患者由来の血漿を分析することに関する重要な考慮事項かつ難題は、造血細胞によって放出されたcfDNAが存在し、それにより、ctDNA割合(すなわち、腫瘍割合)が小さくなることである。さらに、腫瘍表現型に関する情報が利用可能な患者コホートが小さいことにより、教師あり機械学習手法が最適以下のものになる。したがって、個々の血漿試料から、腫瘍割合を考慮に入れてARPCおよびNEPCの比率を推定するために、確率モデルを開発した(方法)。表現型特異的オープンクロマチン複合部位特徴に焦点を当て、モデルに情報をもたらすためにPDX血漿ctDNAシグナルを使用した(図14Bおよび14C)。モデルにより、推定されるARPCのシグネチャー(低値)およびNEPCのシグネチャー(高値)を表す正規化された予測スコアをもたらす。この方法を、それぞれ5例のARPC PDX ctDNA試料およびNEPC PDX ctDNA試料を使用して様々な腫瘍割合およびシーケンシングカバレッジをシミュレートすることによって生成したベンチマーキングデータセットに適用した(図14F、方法)。25×カバレッジで腫瘍割合0.01に至るまでAUC1.0、1×で腫瘍割合0.2に至るまでAUC1.0、および0.2×カバレッジ、腫瘍割合0.3でAUC1.0が実現され、それにより、血漿中の腫瘍割合が小さい試料の分類についての可能性のある上界性能が示唆される(図14G)。
PDX ctDNA analysis informs accurate classification of ARPC and NEPC phenotypes from patient plasma using a probabilistic model An important consideration and challenge in analyzing plasma from patients is the presence of cfDNA released by hematopoietic cells, which reduces the ctDNA fraction (i.e., tumor fraction). Furthermore, the small patient cohorts for which information on tumor phenotype is available make supervised machine learning approaches suboptimal. Therefore, a probabilistic model was developed to estimate the proportion of ARPC and NEPC from individual plasma samples, taking into account the tumor fraction (Methods). PDX plasma ctDNA signals were used to inform the model, focusing on phenotype-specific open chromatin complex site features (Figures 14B and 14C). The model produces a normalized prediction score that represents the estimated signature of ARPC (low value) and NEPC (high value). This method was applied to a benchmarking dataset generated by simulating various tumor fractions and sequencing coverages using five ARPC PDX ctDNA and five NEPC PDX ctDNA samples, respectively (FIG. 14F, Methods). An AUC of 1.0 was achieved at 25× coverage down to a tumor fraction of 0.01, at 1× down to a tumor fraction of 0.2, and at 0.2× coverage, an AUC of 1.0 was achieved at a tumor fraction of 0.3, suggesting a potential upper bound performance for classification of samples with small tumor fractions in plasma (FIG. 14G).

このモデルの患者試料に対する分類性能を試験するために、80例の腺癌(ARPC)および21例のNEPC試料を含む101例のmCRPC患者(DFCIコホートI)由来の血漿cfDNAの超ローパス全ゲノムシーケンシング(ULP-WGS)の公開されたデータセット(平均カバレッジ0.52×、範囲0.28~0.92×)を解析した(Berchuck et al. (2022). Detecting Neuroendocrine Prostate Cancer Through Tissue-Informed Cell-Free DNA Methylation Analysis. Clinical Cancer Research 28, 928-938)。教師なしであり、PDX分析のみから情報を得るパラメータを使用するモデルを使用し、全体的なAUC0.96が実現された(図15A)。腫瘍割合が大きい試料(≧0.1)および小さい試料(<0.1)を考察した場合、このモデルではそれぞれAUC0.97およびAUC0.76であった。97.5%特異度(ARPC)および90.4%感度(NEPC)での最適な全体的な性能が同定され、これは、予測スコア0.3314に相当した(図15A)。高PSAを有するか、ARSIで処置されたか、またはその両方の患者6例(DFCIコホートII)からの11例のmCRPC試料の別の公開されたデータセットでは、(Choudhury et al. (2018). Tumor fraction in cell-free DNA as a biomarker in prostate cancer. JCI Insight 3; Viswanathan et al. , 2018)、このモデルにより、最適なスコアカットオフを使用した場合、11例(100%)のWGS(約20×)試料および8例(73%)のULP-WGS(約0.1×)試料に関して患者がARPCに正しく分類された(図15B)。 To test the classification performance of this model on patient samples, a published dataset of ultra-low-pass whole genome sequencing (ULP-WGS) of plasma cfDNA from 101 mCRPC patients (DFCI cohort I), including 80 adenocarcinoma (ARPC) and 21 NEPC samples (mean coverage 0.52×, range 0.28-0.92×) was analyzed (Berchuck et al. (2022). Detecting Neuroendocrine Prostate Cancer Through Tissue-Informed Cell-Free DNA Methylation Analysis. Clinical Cancer Research 28, 928-938). Using a model that is unsupervised and uses parameters informed only by PDX analysis, an overall AUC of 0.96 was achieved (Figure 15A). When considering samples with large (≧0.1) and small (<0.1) tumor fractions, the model had AUCs of 0.97 and 0.76, respectively. The best overall performance was identified with 97.5% specificity (ARPC) and 90.4% sensitivity (NEPC), corresponding to a prediction score of 0.3314 (Figure 15A). In another published dataset of 11 mCRPC samples from 6 patients (DFCI cohort II) with high PSA and/or treated with ARSI (Choudhury et al. (2018). Tumor fraction in cell-free DNA as a biomarker in prostate cancer. JCI Insight 3; Viswanathan et al. , 2018), the model correctly classified patients as ARPC for 11 (100%) WGS (~20x) and 8 (73%) ULP-WGS (~0.1x) samples when using the best score cutoff (Figure 15B).

次に、典型的な病歴を表すARPC、NEPC、および混合表現型を有するCRPC患者30例由来の61例の臨床的血漿試料を分析した。cfDNAのULP-WGSを実施し、30例の患者由来の47例の試料(26例のARPC、5例のNEPC、および16例の混合表現型)を、腫瘍割合およびARコピー数状況に基づいて、深度がより大きいWGS(平均22.13×カバレッジ、範囲15.15×~31.79×)のために選択した(方法)。ARPC臨床表現型を有する26例の試料に関しては、スコアカットオフ0.3314を使用し、全てが主にARPCであると予測された(図15C)。NEPC臨床表現型に関しては、5例全てが、カットオフを上回るスコアでNEPCであると予測された。ARPC予測(スピアマンのρ=-0.93)およびNEPC予測(スピアマンのρ=-1.00)のどちらについても、オープンクロマチン部位における患者ctDNAカバレッジと腫瘍割合の間に負の関連も示され、それにより、観察されたctDNAシグナルが腫瘍特異的である可能性があることが示唆される。ULP-WGSデータから、ARPC臨床表現型を有する試料22例(84%)およびNEPC臨床表現型を有する試料5例全て(100%)が正しく予測された(図15C)。残りの16例の試料は、例えばNEPCとAR陽性腺癌が混在する腫瘍などの、混合表現型を反映する病歴または腫瘍組織像を有した(図15C)。混合臨床表現型におけるARPCの存在が含まれた試料12例に関しては、10例(83%)が、最適なスコアカットオフでARPCに分類された。臨床表現型においてNEPCが存在したがARPCは存在しなかった試料3例全てに関しては、このモデルにより、NEPCに分類された。全体として、明白な臨床表現型を有する試料のWGSデータについては正確度100%が実現された(ULP-WGSについては87%)。しかし、混合または不明瞭な表現型についての予測は不定であることから、腫瘍の不均一性が観察され得る進行した前立腺がんを有する患者に関する分類に関連する複雑さが強調される。 Next, we analyzed 61 clinical plasma samples from 30 CRPC patients with ARPC, NEPC, and mixed phenotypes representing typical clinical histories. ULP-WGS of cfDNA was performed and 47 samples from 30 patients (26 ARPC, 5 NEPC, and 16 mixed phenotypes) were selected for deeper WGS (mean 22.13× coverage, range 15.15× to 31.79×) based on tumor fraction and AR copy number status (Methods). For the 26 samples with ARPC clinical phenotype, all were predicted to be primarily ARPC using a score cutoff of 0.3314 (Figure 15C). For the NEPC clinical phenotype, all five were predicted to be NEPC with scores above the cutoff. We also found a negative association between patient ctDNA coverage and tumor fraction at open chromatin sites for both ARPC (Spearman's ρ = -0.93) and NEPC (Spearman's ρ = -1.00) predictions, suggesting that the observed ctDNA signal may be tumor specific. The ULP-WGS data correctly predicted 22 samples (84%) with ARPC clinical phenotype and all 5 samples (100%) with NEPC clinical phenotype (Figure 15C). The remaining 16 samples had clinical history or tumor histology reflecting mixed phenotypes, e.g., mixed NEPC and AR-positive adenocarcinoma tumors (Figure 15C). Of the 12 samples that included the presence of ARPC in the mixed clinical phenotype, 10 (83%) were classified as ARPC at the optimal score cutoff. All 3 samples with NEPC but not ARPC in the clinical phenotype were classified as NEPC by the model. Overall, 100% accuracy was achieved for WGS data in samples with unambiguous clinical phenotypes (87% for ULP-WGS). However, predictions for mixed or ambiguous phenotypes were variable, highlighting the complexities associated with classification for patients with advanced prostate cancer, where tumor heterogeneity can be observed.

考察
本明細書に提示される試験は、PDXモデルのマウス血漿由来のヒトctDNAのシーケンシング試験では現在までで最大のものであると考えられる。マウス血漿のシーケンシングにより、よく特徴付けられた腫瘍モデル由来のctDNAにおけるエピジェネティックヌクレオソームパターンを包括的に調べるための類のない機会がもたらされた。コンピュータによる方法体系を開発し、適用して、多数のctDNA特徴を構築し、そのそれぞれを、LuCaP PDXモデルにおいてCRPC腫瘍表現型にわたって転写調節に関連付けた。PDX ctDNAから習得された特徴を使用し、3つの臨床コホートにおける患者血漿からARPC表現型とNEPC表現型を正確に分類するための確率モデルを開発した。
Discussion The study presented here is believed to be the largest sequencing study of human ctDNA from mouse plasma in PDX models to date. Mouse plasma sequencing provides a unique opportunity to comprehensively investigate epigenetic nucleosome patterns in ctDNA from well-characterized tumor models. A computational methodology was developed and applied to construct a large number of ctDNA features, each of which was linked to transcriptional regulation across CRPC tumor phenotypes in the LuCaP PDX model. Using the features learned from PDX ctDNA, a probabilistic model was developed to accurately classify ARPC and NEPC phenotypes from patient plasma in three clinical cohorts.

PDXマウス血漿を使用することにより、患者試料を調査する場合のctDNA含有量が少ないまたは腫瘍に関する知見が不完全であるという難題が克服され、cfDNA診断の開発、基礎がん研究、および臨床解釈が促進され得る。さらに、LuCaP ctDNAシーケンシングデータは、成熟したものである、組織からのCRPC腫瘍表現型の特徴付けを補完する。CRPCの分子研究を支持することに加えて、ctDNAデータおよび開示される手法は、橋渡し研究に対するPDXモデルの潜在的な有用性を詳述するものである。これらのデータはARPC表現型およびNEPC表現型に焦点を当てたものであるが、本試験は、追加的なCRPC表現型および他のがんモデル由来のPDX血漿を使用するためのフレームワークとしての機能を果たし得る。 The use of PDX mouse plasma overcomes the challenges of low ctDNA content or incomplete tumor knowledge when investigating patient samples and may facilitate cfDNA diagnostic development, basic cancer research, and clinical translation. Furthermore, the LuCaP ctDNA sequencing data complements the characterization of CRPC tumor phenotypes from mature tissues. In addition to supporting molecular studies of CRPC, the ctDNA data and disclosed approaches detail the potential utility of the PDX model for translational research. Although these data focus on ARPC and NEPC phenotypes, this study may serve as a framework for using PDX plasma from additional CRPC phenotypes and other cancer models.

LuCaP PDX ctDNAシーケンシングデータの解析により、ARPC表現型とNEPC表現型の間で、47種の確立された差次的に発現される遺伝子マーカーのセットを含めた重要な調節因子の活性が確認された。ctDNAからの遺伝子発現の推測は概念実証試験において示されているが(Ulz et al. (2016b). Inferring expressed genes by whole-genome sequencing of plasma DNA. Nature Genetics 48, 1273-1278; Zhu et al. (2021). Tissue-specific cell-free DNA degradation quantifies circulating tumor DNA burden. Nature Communications 12, 2229)、PDX ctDNAにより、腫瘍表現型を規定する個々の遺伝子の転写活性に関連付けられるヌクレオソーム組織化を詳細に解析することが可能になる。 Analysis of LuCaP PDX ctDNA sequencing data confirmed the activity of key regulators, including a set of 47 established differentially expressed gene markers, between ARPC and NEPC phenotypes. While inference of gene expression from ctDNA has been shown in proof-of-concept studies (Ulz et al. (2016b). Inferring expressed genes by whole-genome sequencing of plasma DNA. Nature Genetics 48, 1273-1278; Zhu et al. (2021). Tissue-specific cell-free DNA degradation quantifies circulating tumor DNA burden. Nature Communications 12, 2229), PDX ctDNA allows detailed analysis of nucleosome organization associated with transcriptional activity of individual genes that define tumor phenotype.

これらのモデルに利用可能な既存の分子プロファイリングに加えて、本試験は、今や、カットアンドランを使用したLuCaP PDX腫瘍におけるヒストンPTMの特徴付けを提供する。ヒストン尾部上のこれらのPTMを有する領域において、活発なまたは抑制された遺伝子転写と一致する、ctDNAにおいて推測されるヌクレオソームパターンが観察された。ctDNA解析がヒストンPTMに関して実施され、PDX血漿を使用して追加的なエピジェネティック変化を調査するための新しい手法を開発するための青写真がもたらされたのはこれが初めてだと考えられる。 In addition to the existing molecular profiling available for these models, this study now provides characterization of histone PTMs in LuCaP PDX tumors using cut-and-run. In regions harboring these PTMs on the histone tails, predicted nucleosome patterns in ctDNA were observed, consistent with active or repressed gene transcription. We believe this is the first time that ctDNA analysis has been performed on histone PTMs, providing a blueprint for developing new methods to investigate additional epigenetic changes using PDX plasma.

CRPCに関してAR、HOXB13、NKX-3.1、FOXA1、およびRESTなどの重要な因子の調節がctDNAから示されているが(Ulz et al. (2019). Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666)、本試験は、CRPCに関する他の重要な因子の差次的活性をctDNA解析から初めて明らかにするものである。これらの重要な因子には、全て前立腺腺癌(ARPC)に関連付けられる、グルココルチコイド受容体(NR3C1)、核因子HNF4GおよびHNF1A、ならびにパイオニア因子(pioneering factor)GATA2およびGATA3が含まれた(Arora et al. (2013). Glucocorticoid Receptor Confers Resistance to Antiandrogens by Bypassing Androgen Receptor Blockade. Cell 155, 1309-1322; Chaytor et al. , 2019; Shukla et al. , 2017)。ASCL1は、ニューロン分化に関する役割を有し、NE分化転換の間およびNEPCにおいて活性であることが最近記載されたパイオニアTFである(Cejas et al. , 2021; Rapa et al. , 2008)。本発明者らの知るところでは、本試験は、血漿ctDNAからNEPCにおけるASCL1結合部位アクセシビリティを実証し、その転写活性の詳細な特徴付けを提供する最初のものである。 While ctDNA has demonstrated regulation of key factors such as AR, HOXB13, NKX-3.1, FOXA1, and REST in CRPC (Ulz et al. (2019). Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666), this study is the first to reveal differential activity of other key factors in CRPC from ctDNA analysis. These key factors included the glucocorticoid receptor (NR3C1), nuclear factors HNF4G and HNF1A, and pioneering factors GATA2 and GATA3, all of which are associated with adenocarcinoma of the prostate (ARPC) (Arora et al. (2013). Glucocorticoid Receptor Confers Resistance to Antiandrogens by Bypassing Androgen Receptor Blockade. Cell 155, 1309-1322; Chaytor et al. , 2019; Shukla et al. , 2017). ASCL1 is a pioneer TF that has a role in neuronal differentiation and has recently been described to be active during NE transdifferentiation and in NEPC (Cejas et al. , 2021; Rapa et al. , 2008). To our knowledge, this study is the first to demonstrate ASCL1 binding site accessibility in NEPC from plasma ctDNA and provide a detailed characterization of its transcriptional activity.

本試験では、各血漿試料における338種の因子のTFBSに関する広範囲の解析を、クロマチン免疫沈降または他のエピジェネティックなアッセイを必要とせずに提供する。しかし、ctDNAにおける107種のTFのうち69種についてはアクセシビリティに有意差は観察されず、これは、TF活性が必ずしもそれ自体の発現レベルと相関するとは限らないことと一致し得る(Corces et al. (2018). The chromatin accessibility landscape of primary human cancers. Science 362)。他方では、TFBSのアクセシビリティにより、複数の因子の同じ遺伝子座への結合などの真のTF活性を必ずしも示すことができるとは限らない。さらに、この解析は、公共のデータベースから入手したTFBSに基づくものであった。しかし、前立腺表現型特異的TFシストロームはこの手法をより良好に導き得る。 This study provides a comprehensive analysis of the TFBS of 338 factors in each plasma sample without the need for chromatin immunoprecipitation or other epigenetic assays. However, no significant differences in accessibility were observed for 69 of the 107 TFs in ctDNA, which may be consistent with TF activity not necessarily correlating with its own expression level (Corces et al. (2018). The chromatin accessibility landscape of primary human cancers. Science 362). On the other hand, TFBS accessibility may not necessarily indicate true TF activity, such as the binding of multiple factors to the same locus. Moreover, this analysis was based on TFBS obtained from public databases. However, a prostate phenotype-specific TF cistrome could better guide this approach.

ctDNAデータ解析の既存のおよび新しい概念に基づいて樹立された最先端のコンピュータによる手法を適用して、腫瘍特異的特徴を抽出した。他の手法でも、TSS、TFBS、およびDNA分解酵素過感受性部位などの領域が考察されているが(Peneder et al. (2021). Multimodal analysis of cell-free DNA whole-genome sequencing for pediatric cancers with low mutational burden. Nat Commun 12, 3230; Snyder(2016). Cell-free DNA Comprises an in Vivo Nucleosome Footprint that Informs Its Tissues-Of-Origin. Cell 164, 57-68; Ulz et al. (2016b). Inferring expressed genes by whole-genome sequencing of plasma DNA. Nature Genetics 48, 1273-1278; Ulz et al. (2019). Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666)、体系的な評価の後、PDX組織のATAC-Seqに由来するオープンクロマチン部位におけるctDNA特徴(Cejas et al. (2021). Subtype heterogeneity and epigenetic convergence in neuroendocrine prostate cancer. Nat Commun 12, 5775)により、CRPC表現型を区別することに関して最も高い性能がもたらされることが見いだされた。LuCaP PDX ctDNA解析からの理想的なパラメータにより情報を得る統計学的フレームワークを使用して患者血漿におけるARPCおよびNEPCの割合を推定する教師なし確率モデルが提示される。このモデルでは、患者試料に関する訓練は必要ないが、DFCIコホートIから決定される、腫瘍割合の推定(ichorCNA(Adalsteinsson(2017). Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. Nature Communications 8)および予測スコアカットオフが必要である。これらの追加的な状況についての情報をもたらすパラメータを学習することができるのであれば、本明細書に提示されるフレームワークを拡張して、複数の表現型クラスをモデリングすることができる。PDX腫瘍および臨床試料のシングルセルヌクレオソームおよびアクセシビリティプロファイリング(Fang et al. (2021). Comprehensive analysis of single cell ATAC-seq data with SnapATAC. Nat Commun 12, 1337; Wu et al. (2021). Single-cell CUT & Tag analysis of chromatin modifications in differentiation and tumor progression. Nat Biotechnol 39, 819-824)などの追加的なデータセットからの洞察により、ctDNA解析の分解能を改善することができる。 State-of-the-art computational methods based on existing and new concepts in ctDNA data analysis were applied to extract tumor-specific features. While other approaches have considered regions such as TSS, TFBS, and DNase hypersensitive sites (Peneder et al. (2021). Multimodal analysis of cell-free DNA whole-genome sequencing for pediatric cancers with low mutational burden. Nat Commun 12, 3230; Snyder(2016). Cell-free DNA Comprises an in Vivo Nucleosome Footprint that Informs Its Tissues-Of-Origin. Cell 164, 57-68; Ulz et al. (2016b). Inferring expressed genes by whole-genome sequencing of plasma DNA. Nature Genetics 48, 1273-1278; Ulz et al. (2019). Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nature Communications 10, 4666), after systematic evaluation, we focused on ctDNA signatures in open chromatin sites derived from ATAC-Seq of PDX tissues (Cejas et al. (2021). Subtype heterogeneity and epigenetic convergence in neuroendocrine prostate cancer. Nat Commun 12, 5775) was found to provide the best performance for distinguishing CRPC phenotypes. An unsupervised probabilistic model is presented that estimates the proportion of ARPC and NEPC in patient plasma using a statistical framework informed by ideal parameters from LuCaP PDX ctDNA analysis. The model does not require training on patient samples, but does require estimates of tumor fraction (ichorCNA (Adalsteinsson(2017). Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. Nature Communications 8) and prediction score cutoffs, determined from DFCI cohort I. The framework presented here can be extended to model multiple phenotypic classes, provided that parameters that inform these additional situations can be learned. Insights from additional datasets, such as single-cell nucleosome and accessibility profiling of PDX tumors and clinical samples (Fang et al. (2021). Comprehensive analysis of single cell ATAC-seq data with SnapATAC. Nat Commun 12, 1337; Wu et al. (2021). Single-cell CUT & Tag analysis of chromatin modifications in differentiation and tumor progression. Nat Biotechnol 39, 819-824), can improve the resolution of ctDNA analysis.

最も信頼できる臨床表現型を伴う患者データセットに予測モデルを適用することにより、カバレッジが低深度のシーケンシングを使用したにもかかわらず、高性能が得られた。特に、DFCIコホートIについての性能は、同じ患者におけるctDNAメチル化が使用された、報告された表現型分類結果とも一致した(Berchuck et al. (2022). Detecting Neuroendocrine Prostate Cancer Through Tissue-Informed Cell-Free DNA Methylation Analysis. Clinical Cancer Research 28, 928-938)。同様に、UWコホートに関して、明確に定義された臨床表現型を伴う試料は、ディープWGSデータからの完全な一致を有した。しかし、混合または不明瞭な臨床表現型を伴う試料では、症例のサブセットが複雑な臨床的特徴および病理組織学的特徴を有したので、モデルの性能を決定的に評定する能力が限定された。腫瘍の不均一性および異なる分子表現型の共存は、処置に誘導される表現型的可塑性が個々の患者の腫瘍内でおよび腫瘍間で変動し得るmCRPCでは一般的である。ctDNAから混合表現型を予測するためにモデルを今後拡張するためには、腫瘍組織像の包括的な評定を伴うより大規模な試験が必要である。 By applying the predictive model to the patient dataset with the most reliable clinical phenotype, high performance was obtained despite the use of low-depth sequencing. Notably, the performance for the DFCI cohort I was also consistent with reported phenotyping results in which ctDNA methylation in the same patients was used (Berchuck et al. (2022). Detecting Neuroendocrine Prostate Cancer Through Tissue-Informed Cell-Free DNA Methylation Analysis. Clinical Cancer Research 28, 928-938). Similarly, for the UW cohort, samples with well-defined clinical phenotypes had perfect concordance from the deep WGS data. However, for samples with mixed or unclear clinical phenotypes, a subset of cases had complex clinical and histopathological features, limiting the ability to conclusively assess the model's performance. Tumor heterogeneity and the coexistence of different molecular phenotypes are common in mCRPC, where treatment-induced phenotypic plasticity can vary within and between tumors of individual patients. Future extension of the model to predict mixed phenotypes from ctDNA requires larger studies with comprehensive assessment of tumor histology.

要約すると、本試験は、PDXマウス血漿由来のctDNAを大規模に解析することにより、腫瘍調節のより詳細な調査を容易にすることができることを初めて例示するものである。これらの結果により、本明細書に提示される一連のコンピュータによる方法と併せて、腫瘍表現型の転写調節を調査するためのctDNAの有用性、および、がん精密医療におけるその潜在的な診断への適用が強調される。 In summary, this study illustrates for the first time that large-scale analysis of ctDNA from PDX mouse plasma can facilitate more detailed investigation of tumor regulation. These results, together with the suite of computational methods presented herein, highlight the utility of ctDNA to investigate the transcriptional regulation of tumor phenotype and its potential diagnostic applications in cancer precision medicine.

実験モデルおよび対象の詳細
PDXマウスモデル
LuCaP患者由来異種移植腫瘍(University of Washingtonにおいて確立された)を、進行した前立腺がんを有する男性から切除された腫瘍検体から開始した。PDXモデルの確立および特徴付けは以前に記載されている(Lam et al. (2018). Generation of Prostate Cancer Patient-Derived Xenografts to Investigate Mechanisms of Novel Treatments and Treatment Resistance. In Prostate Cancer: Methods and Protocols, Z. Culig, ed. (New York, NY: Springer), pp. 1-27)。PDXを、Jackson Labsの雄NOD scid IL2R-ガンマ-ヌル(NSG)マウス(cat#005557)においてin vivoで増殖させた。PDX系統を確立するための腫瘍の採取は、患者に書面での同意を得た後、University of Washington Human Subjects Division IRB(IRB#2341)によって承認された。最大5匹のマウスを無菌施設内でケージ飼育し、食物および水を無制限に与え、12時間の明/暗サイクルで維持した。イソフルラン麻酔下で外科手術を実施し、マウスに補足的なブプレノルフィン徐放剤(SR)を与えた。PDX系統を、病理組織検査を使用し、少なくとも2名の専門病理医が評価し、組織学的表現型亜型のアノテーションをトランスクリプトーム由来のシグネチャーマーカー発現スコアに基づいて直交性に検証して、表現型を定義した(Beltran et al. (2016). Divergent clonal evolution of castration-resistant neuroendocrine prostate cancer. Nature Medicine 22, 298-305; Bluemn(2017). Androgen Receptor Pathway-Independent Prostate Cancer Is Sustained through FGF Signaling. Cancer Cell 32, 474-489.e6; Nyquist et al. (2020). Combined TP53 and RB1 Loss Promotes Prostate Cancer Resistance to a Spectrum of Therapeutics and Confers Vulnerability to Replication Stress. Cell Reports 31, 107669):腺癌AR陽性(ARPC)、神経内分泌陽性(NEPC)、およびAR-low、神経内分泌陰性(ARLPC)。LuCaP増殖の間に腫瘍が潰瘍形成し始めた場合または動物の健康が損なわれた場合には動物を屠殺し、試験から除外した。切除されたPDX腫瘍(300~800mm)を約50mg~約100mgの小片に分け、-80℃で保管した。動物試験は、Fred Hutchinson Cancer Research Center(FHCRC)IACUC(プロトコール1618)によって承認され、NIHガイドラインに従って実施された。本試験のために、PDX腫瘍を担持する(測定可能なサイズ300~800mm)動物から心臓穿刺によって血液を採取した。
Experimental Model and Subject Details PDX Mouse Model LuCaP patient-derived xenograft tumors (established at the University of Washington) were initiated from tumor specimens resected from men with advanced prostate cancer. The establishment and characterization of the PDX model was previously described (Lam et al. (2018). Generation of Prostate Cancer Patient-Derived Xenografts to Investigate Mechanisms of Novel Treatments and Treatment Resistance. In Prostate Cancer: Methods and Protocols, Z. Culig, ed. (New York, NY: Springer), pp. 1-27). PDX were grown in vivo in male NOD scid IL2R-gamma-null (NSG) mice (cat#005557) from Jackson Labs. Tumor harvesting to establish PDX lines was approved by the University of Washington Human Subjects Division IRB (IRB#2341) after written informed consent was obtained from the patients. Up to five mice were caged in a pathogen-free facility, provided with food and water ad libitum, and maintained on a 12-h light/dark cycle. Surgery was performed under isoflurane anesthesia, and mice were given supplemental buprenorphine sustained release (SR). PDX lines were assessed by at least two expert pathologists using histopathology and histologic phenotypic subtype annotations were orthogonally validated based on transcriptome-derived signature marker expression scores to define phenotypes (Beltran et al. (2016). Divergent clonal evolution of castration-resistant neuroendocrine prostate cancer. Nature Medicine 22, 298-305; Bluemn(2017). Androgen Receptor Pathway-Independent Prostate Cancer Is Sustained through FGF Signaling. Cancer Cell 32, 474-489.e6; Nyquist et al. (2020). Combined TP53 and RB1 Loss Promotes Prostate Cancer Resistance to a Spectrum of Therapeutics and Confers Vulnerability to Replication Stress. Cell Reports 31, 107669): Adenocarcinoma AR positive (ARPC), neuroendocrine positive (NEPC), and AR-low, neuroendocrine negative (ARLPC). Animals were sacrificed and removed from the study if the tumor began to ulcerate during LuCaP growth or if the animal's health was compromised. Resected PDX tumors (300-800 mm 3 ) were divided into pieces of approximately 50 mg to approximately 100 mg and stored at -80°C. Animal studies were approved by the Fred Hutchinson Cancer Research Center (FHCRC) IACUC (protocol 1618) and performed in accordance with NIH guidelines. For this study, blood was collected by cardiac puncture from animals bearing PDX tumors (measurable size 300-800 mm 3 ).

ヒト対象
UWコホート:University of Washingtonにおいて転移性去勢抵抗性前立腺がんを有する男性から血液試料を採取した(2014年から2021年の間にUniversity of Washington Human Subjects Division IRBプロトコール番号CC6932の下で採取した)。この試験では、30例の患者由来の61例の血漿試料を解析した。最初の超ローパス全ゲノムシーケンシング(ULP-WGS)解析の後、30例の患者由来の47例の血漿試料を、さらに高深度のカバレッジ全ゲノムシーケンシング(WGS)解析のために保持した。ctDNA解析の前に全ての試料を匿名化し、臨床表現型予測を評価するために二重盲検化手法を使用した。最初の患者選択は臨床疾患負荷量に関する情報および臨床的に引き出された表現型亜型アノテーションの利用可能性に基づいて行った。これらの患者に関する臨床的情報は、IRBプロトコールによる制約によって保護された。
Human Subjects UW Cohort: Blood samples were collected from men with metastatic castration-resistant prostate cancer at the University of Washington (collected between 2014 and 2021 under University of Washington Human Subjects Division IRB protocol number CC6932). Sixty-one plasma samples from 30 patients were analyzed in this study. After initial ultra-low-pass whole genome sequencing (ULP-WGS) analysis, 47 plasma samples from 30 patients were retained for further high-depth coverage whole genome sequencing (WGS) analysis. All samples were de-identified before ctDNA analysis, and a double-blind approach was used to evaluate clinical phenotype predictions. Initial patient selection was based on information on clinical disease burden and availability of clinically derived phenotype subtype annotations. Clinical information regarding these patients was protected by IRB protocol restrictions.

DFCIコホートI:2003年4月から2021年8月の間にDana-Farber Cancer Institute(DFCI)、Brigham and Women’s Hospital、またはWeill Cornell Medicine(WCM)においてmCRPCと診断され、処置を受けた男性から血漿を採取した。全ての患者から、研究への参加ならびに生体検体および血液のゲノム解析について書面で同意を得た。試料の使用はDFCI IRB(#01-045および09-171)およびWCM(1305013903)IRBによって承認された。101例の患者についての平均カバレッジ0.5×(範囲0.3×~0.9×)のULP-WGSデータが以前に公開された(Berchuck et al. (2022). Detecting Neuroendocrine Prostate Cancer Through Tissue-Informed Cell-Free DNA Methylation Analysis. Clinical Cancer Research 28, 928-938)。前立腺起源の高悪性度神経内分泌癌の存在を、2名の尿生殖器の病理医が現代の慣習に従い、入手可能な材料の組織学的精査、元の報告書の再解釈、および入手可能な分子的結果の組込みに基づいて確認した(Epstein et al. (2014). Proposed Morphologic Classification of Prostate Cancer With Neuroendocrine Differentiation. The American Journal of Surgical Pathology 38, 756-767)。ARPC(PRADと臨床的にアノテートされる)を有する患者は、疾患経過全体を通して神経内分泌分化の病理的証拠が認められない去勢抵抗性前立腺腺癌を有した。 DFCI Cohort I: Plasma was collected from men diagnosed with mCRPC and treated at Dana-Farber Cancer Institute (DFCI), Brigham and Women's Hospital, or Weill Cornell Medicine (WCM) between April 2003 and August 2021. All patients provided written informed consent to participate in the study and for genomic analysis of biospecimens and blood. Use of samples was approved by the DFCI IRB (#01-045 and 09-171) and the WCM (1305013903) IRBs. ULP-WGS data with a mean coverage of 0.5x (range 0.3x-0.9x) for 101 patients was previously published (Berchuck et al. (2022). Detecting Neuroendocrine Prostate Cancer Through Tissue-Informed Cell-Free DNA Methylation Analysis. Clinical Cancer Research 28, 928-938). The presence of high-grade neuroendocrine carcinoma of prostatic origin was confirmed by two genitourinary pathologists according to contemporary practice, based on histological review of available material, reinterpretation of the original reports, and incorporation of available molecular results (Epstein et al. (2014). Proposed Morphologic Classification of Prostate Cancer With Neuroendocrine Differentiation. The American Journal of Surgical Pathology 38, 756-767). Patients with ARPC (clinically annotated as PRAD) had castration-resistant prostate adenocarcinoma without pathologic evidence of neuroendocrine differentiation throughout the disease course.

DFCIコホートII:このコホートにおける血漿試料は、Dana-Farber Cancer Institute(DFCI)においてmCRPCと診断され、処置を受けた男性から採取された。全ての患者から、研究目的での血液採取ならびに臨床的および遺伝子データの解析について書面での同意を得た(DFCIプロトコール#01-045および11-104)。平均カバレッジ27×(範囲11×~44×)のWGSデータ(Viswanathan et al. (2018). Structural Alterations Driving Castration-Resistant Prostate Cancer Revealed by Linked-Read Genome Sequencing. Cell 174, 433-447.e19)、および平均カバレッジ0.13×(範囲0.07×~0.18×)のULP-WGSデータ(Adalsteinsson et al. (2017). Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. Nature Communications 8; Choudhury et al. (2018). Tumor fraction in cell-free DNA as a biomarker in prostate cancer. JCI Insight 3)をdbGAP accession phs001417からダウンロードした。6例の患者由来の11例の試料が、Griffinによる解析に必要なペアエンドリードによるWGSおよびULP-WGSのマッチングを有した。採血時点の前立腺特異的抗原(PSA、ng/mL)値および処置は以前に公開されている(Choudhury et al. (2018). JCI Insight 3)。6例の患者が、腺癌に対してアビラテロン、エンザルタミド、もしくはビカルタミドを使用した処置を受けていたか、または患者が検出可能なレベルのPSAを有した。 DFCI Cohort II: Plasma samples in this cohort were collected from men diagnosed with and treated for mCRPC at the Dana-Farber Cancer Institute (DFCI). All patients provided written informed consent for research blood collection and analysis of clinical and genetic data (DFCI protocols #01-045 and 11-104). WGS data with an average coverage of 27× (range 11× to 44×) (Viswanathan et al. (2018). Structural Alterations Driving Castration-Resistant Prostate Cancer Revealed by Linked-Read Genome Sequencing. Cell 174, 433-447.e19) and ULP-WGS data with an average coverage of 0.13× (range 0.07× to 0.18×) (Adalsteinsson et al. (2017). Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. Nature Communications 8; Choudhury et al. (2018). Tumor fraction in cell-free DNA as a biomarker in prostate cancer. JCI Insight 3) were downloaded from dbGAP accession phs001417. Eleven samples from six patients had WGS and ULP-WGS matching with paired-end reads required for analysis by Griffin. Prostate-specific antigen (PSA, ng/mL) levels at time of blood collection and treatments have been previously published (Choudhury et al. (2018). JCI Insight 3). Six patients had been treated with abiraterone, enzalutamide, or bicalutamide for adenocarcinoma or had detectable levels of PSA.

本試験に使用した健康ドナー血漿cfDNA WGSデータは、以前に公開された試験から入手した。それぞれカバレッジが13×および15×である2例の試料(HD45およびHD46)をdbGAPからaccession phs001417の下で入手した(Adalsteinsson et al. (2017). Nature Communications 8; Viswanathan et al. (2018). Cell 174, 433-447.e19)。これらのドナーから、DFCIプロトコールIRB(#03-022)の下で同意を得た。カバレッジが13.5×~27.6×である13例の健康ドナー血漿cfDNA WGSデータ(男性12例:NPH002、03、06、07、12、18、23、26、33、34、35、36;女性1例(混合で使用):NPH004)をEuropean Phenome Archive(EGA)からaccession EGAD00001005343の下で入手した(Ulz et al. (2019). Nature Communications 10, 4666)。 Healthy donor plasma cfDNA WGS data used in this study were obtained from a previously published study. Two samples (HD45 and HD46) with 13× and 15× coverage, respectively, were obtained from dbGAP under accession phs001417 (Adalsteinsson et al. (2017). Nature Communications 8; Viswanathan et al. (2018). Cell 174, 433-447.e19). Informed consent was obtained from these donors under DFCI protocol IRB (#03-022). Thirteen healthy donor plasma cfDNA WGS data with coverage ranging from 13.5× to 27.6× (12 males: NPH002, 03, 06, 07, 12, 18, 23, 26, 33, 34, 35, 36; 1 female (mixed): NPH004) were obtained from the European Phenome Archive (EGA) under accession EGAD00001005343 (Ulz et al. (2019). Nature Communications 10, 4666).

方法の詳細
PDX血漿処理
血液試料を、皮下PDX腫瘍を担持するNSGマウスから屠殺時点に採取した。PDX系統をUniversity of WashingtonおよびFHCRC内の動物飼育施設において維持した。血液を、その後のDNA単離のために、ヒト血漿DNA処理について記載されている方法に従って処理した。血液を紫色のキャップのEDTA管中に採取し、4時間以内に処理した。全ての血液試料を、遠心分離を使用し、室温、2500gで10分間、その後、血漿画分の16000gで10分間の回転を行い、2重遠心回転させた。各PDX系統について、7~10匹のマウス血漿試料をプールした。処理した血漿試料を清潔なスクリューキャップのクライオ微量遠心管中に保存し、cfDNA単離を行うまで-80℃で保管した。
Method Details PDX Plasma Processing Blood samples were collected from NSG mice bearing subcutaneous PDX tumors at the time of sacrifice. PDX strains were maintained in the animal care facilities at the University of Washington and FHCRC. Blood was processed for subsequent DNA isolation as described for human plasma DNA processing. Blood was collected in purple-capped EDTA tubes and processed within 4 hours. All blood samples were double spun using centrifugation at room temperature at 2500g for 10 minutes followed by a 16000g spin for 10 minutes for the plasma fraction. Seven to ten mouse plasma samples were pooled for each PDX strain. Processed plasma samples were stored in clean screw-cap cryo-microcentrifuge tubes and stored at -80°C until cfDNA isolation.

セルフリーDNA単離
QIAamp Circulating Nucleic Acid Kitを使用し、推奨されるプロトコールを使用してPDXマウス由来の血漿からcfDNAを単離した。各PDX系統について7~10匹のマウス由来のプールされた血漿試料は、各系統について約2~3mLの総血漿体積を含有するものであった。フィルター保持に基づくcfDNAキット法では、いかなる断片サイズクラス富化も行わない。担体RNAスパイクインを溶出緩衝液から除去した。単離されたcfDNAを、Qubit dsDNA HSアッセイ(Invitrogen)を使用して定量し、cfDNA断片サイズプロファイルをTapestation HS D5000およびHS D1000アッセイ(Agilent)を使用して解析した。
Cell-Free DNA Isolation cfDNA was isolated from plasma from PDX mice using the QIAamp Circulating Nucleic Acid Kit using the recommended protocol. Pooled plasma samples from 7-10 mice for each PDX line contained approximately 2-3 mL total plasma volume for each line. The cfDNA kit method based on filter retention does not perform any fragment size class enrichment. Carrier RNA spike-in was removed from the elution buffer. Isolated cfDNA was quantified using the Qubit dsDNA HS assay (Invitrogen) and cfDNA fragment size profiles were analyzed using Tapestation HS D5000 and HS D1000 assays (Agilent).

セルフリーDNAライブラリー調製およびシーケンシング
LuCaP PDXマウス血漿試料について、50ngの投入cfDNAを用いてNGSライブラリーを調製した。Illumina NGSシーケンシングライブラリーをKAPA hyperprep kitを用い、9サイクルの増幅を採用し、実験用標準化SPRIビーズを使用して精製して、調製した。KAPA UDIデュアルインデックスライブラリーアダプターを使用した。ライブラリー濃度を平衡化し、多重化のためにプールし、Fred Hutch Genomics Shared ResourcesにおいてIllumina HiSeq 2500を使用して(200サイクル)、およびBroad Institute Genomics Platform Walkup-Seq ServicesにおいてIllumina NovaSeq platformを使用し、S4フローセルを使用して(300サイクル)シーケンシングを行った。Illumina HiSeq 2500データとマッチさせるために、短縮した200サイクルFASTQファイルを生成した(100bpペアエンドリード)。
Cell-free DNA library preparation and sequencing NGS libraries were prepared for LuCaP PDX mouse plasma samples using 50 ng of input cfDNA. Illumina NGS sequencing libraries were prepared using the KAPA hyperprep kit, employing 9 cycles of amplification and purification using laboratory standardized SPRI beads. KAPA UDI dual index library adapters were used. Library concentrations were equilibrated, pooled for multiplexing, and sequenced at Fred Hutch Genomics Shared Resources using an Illumina HiSeq 2500 (200 cycles) and at Broad Institute Genomics Platform Walkup-Seq Services using an Illumina NovaSeq platform and S4 flow cell (300 cycles). Truncated 200-cycle FASTQ files were generated (100 bp paired-end reads) to match the Illumina HiSeq 2500 data.

University of Washingtonにおいて採取された臨床患者血漿試料(UWコホート)をBroad Institute Blood Biopsy Servicesに提出した。簡単に述べると、2重遠心回転させた血漿2mLからcfDNAを抽出し、およそ0.2×カバレッジまでの超ローパス全ゲノムシーケンシング(ULP-WGS)を実施した。ichorCNAパイプラインを使用して、腫瘍DNA含有量(すなわち、腫瘍割合、以下を参照されたい)を推定した。47例の試料(30例の患者由来)が≧5%腫瘍割合または≧2%腫瘍割合のいずれかを有し、ichorCNAにおいてAR増幅が観察され、その後、深度がより大きいWGSカバレッジ(約20×)までのシーケンシングを行った。 Clinical patient plasma samples collected at the University of Washington (UW cohort) were submitted to Broad Institute Blood Biopsy Services. Briefly, cfDNA was extracted from 2 mL of double-spun plasma and ultra-low-pass whole genome sequencing (ULP-WGS) was performed to approximately 0.2× coverage. The ichorcNA pipeline was used to estimate tumor DNA content (i.e., tumor fraction, see below). Forty-seven samples (from 30 patients) had either ≥5% tumor fraction or ≥2% tumor fraction, AR amplification was observed in ichorcna, and were subsequently sequenced to greater depth WGS coverage (approximately 20×).

セルフリーDNAシーケンシング解析およびマウス差し引き
本試験に使用した全てのcfDNAシーケンシングデータをhg38ヒト参照ゲノム(hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz)に対して再アラインメントした。FASTQファイルを、BWA mem(Li (2013). Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. ArXiv:1303.3997 [q-Bio])を使用して再アラインメントし、アラインメント後処理をGATK Best Practices workflow(DePristo et al. (2011). A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat Genet 43, 491-498)に従って実施した。
Cell-free DNA sequencing analysis and mouse subtraction All cfDNA sequencing data used in this study were realigned to the hg38 human reference genome (hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz). FASTQ files were realigned using BWA mem (Li (2013). Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. ArXiv:1303.3997 [q-Bio]), and post-alignment processing was performed according to the GATK Best Practices workflow (DePristo et al. (2011). A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat Genet 43, 491-498).

PDX ctDNA全ゲノム配列データに関しては、以前に記載されているプロトコール(Jo et al. (2019). Impact of mouse contamination in genomic profiling of patient-derived models and best practice for robust analysis. Genome Biology 20, 231)に従ってマウスゲノムの差し引きを実施した。マウスゲノムの差し引きでは、リードを、BWA memを使用し、ヒト参照ゲノム(hg38)およびマウス参照ゲノム(mm10、GRCm38.p6、igenomes.illumina.com.s3-website-us-east-1.amazonaws.com/Mus_musculus/NCBI/GRCm38/Mus_musculus_NCBI_GRCm38.tar.gz)の両方からなる連結参照に対してアラインメントした。両方のリードがヒト参照ゲノムにアラインメントされたリード対を保持し、他のリード対は全て取り除いた。次いで、残りのリードをヒトのみの参照に対して再アラインメントした。最後に、GATK best practices workflowを各試料に適用した。マウス差し引き後、深度が3×未満の試料を下流の解析から除いた。本試験で使用したマウス差し引きパイプラインはatgithub.com/GavinHaLab/PDX_mouseSubtractionで入手することができる。 For PDX ctDNA whole genome sequence data, mouse genome subtraction was performed following a previously described protocol (Jo et al. (2019). Impact of mouse contamination in genomic profiling of patient-derived models and best practice for robust analysis. Genome Biology 20, 231). For mouse genome subtraction, reads were aligned to a concatenated reference consisting of both the human reference genome (hg38) and the mouse reference genome (mm10, GRCm38.p6, igenomes.illumina.com.s3-website-us-east-1.amazonaws.com/Mus_musculus/NCBI/GRCm38/Mus_musculus_NCBI_GRCm38.tar.gz) using BWA mem. Read pairs where both reads aligned to the human reference genome were kept and all other read pairs were removed. The remaining reads were then realigned to the human-only reference. Finally, the GATK best practices workflow was applied to each sample. After mouse subtraction, samples with a depth below 3x were removed from downstream analysis. The mouse subtraction pipeline used in this study is available atgithub.com/GavinHaLab/PDX_mouseSubtraction.

差次的mRNA発現解析
46例のLuCaP PDX試料からの102例の腫瘍のRNA単離を以前に記載されている通り実施した(Labrecque(2019). Molecular profiling stratifies diverse phenotypes of treatment-refractory metastatic castration-resistant prostate cancer. J Clin Invest 129, 4492-4505)。RNAの濃度、純度、および完全性をNanoDrop(Thermo Fisher Scientific Inc)およびAgilent TapeStationによって評定し、ライブラリー調製のためにRNA RIN≧8を保持した。RNA-Seqライブラリーを全RNA1μgからIllumina TruSeq Stranded mRNA LT Sample Prep Kitを使用し、製造者のプロトコールに従って構築した。バーコードが付されたライブラリーをプールし、Illumina NovaSeq 6000またはIllumina HiSeq 2500によってシーケンシングを行い、50bpのペアエンドリードを生成した。シーケンシングリードを、STAR.v2.7.3a(Dobin et al. (2013). STAR: ultrafast universal RNA-seq aligner. Bioinformatics 29, 15-21)を使用してhg38ヒトゲノムおよびmm10マウスゲノムにマッピングした。その後の解析を全てR-4.1.0で実施した。マウスゲノムにアラインメントされ、したがって、マウス組織の潜在的な夾雑に由来する配列を、XenofilteR(v1.6)(Kluin (2018). XenofilteR: computational deconvolution of mouse and human reads in tumor xenograft sequence data. BMC Bioinformatics 19, 366)を使用して解析から除いた。遺伝子レベル存在量を、RパッケージGenomicAlignments summarizeOverlaps関数を使用し、mode=IntersectionStrictを使用し、一次アラインメントされたリードに制限して定量した。refSeq遺伝子アノテーションをトランスクリプトーム解析のために使用した。転写物の存在量をedgeR(Robinson et al. (2010). edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26, 139-140)に入力し、filterByExpr関数をデフォルトのパラメータを用いて使用して最小発現レベルについてフィルタリングし、次いで、NEPC対ARPCおよびARLPC対ARPCの差次的発現解析のためにlimma voomを使用した。次いで、結果を、以前に公開された1,635種のヒト転写因子の一覧(Lambert et al. (2018). The Human Transcription Factors. Cell 172, 650-665)を使用してフィルタリングし、その結果、FDR<0.05かつ倍率変化>3の遺伝子が514種もたらされた。これらの514種のうち、404種の転写因子遺伝子についての遺伝子発現の調節解除によりNEPCからARPCが描写された。
Differential mRNA Expression Analysis RNA isolation of 102 tumors from 46 LuCaP PDX samples was performed as previously described (Labrecque (2019). Molecular profiling stratifies diverse phenotypes of treatment-refractory metastatic castration-resistant prostate cancer. J Clin Invest 129, 4492-4505). RNA concentration, purity, and integrity were assessed by NanoDrop (Thermo Fisher Scientific Inc) and Agilent TapeStation, and RNA RIN ≥ 8 was retained for library preparation. RNA-Seq libraries were constructed from 1 μg of total RNA using the Illumina TruSeq Stranded mRNA LT Sample Prep Kit according to the manufacturer's protocol. Barcoded libraries were pooled and sequenced by Illumina NovaSeq 6000 or Illumina HiSeq 2500 to generate 50 bp paired-end reads. Sequencing reads were mapped to the hg38 human genome and mm10 mouse genome using STAR. v2.7.3a (Dobin et al. (2013). STAR: ultrafast universal RNA-seq aligner. Bioinformatics 29, 15-21). All subsequent analyses were performed in R-4.1.0. Sequences aligned to the mouse genome and therefore derived from potential contamination of mouse tissues were removed from the analysis using XenofilteR (v1.6) (Kluin (2018). XenofilteR: computational deconvolution of mouse and human reads in tumor xenograft sequence data. BMC Bioinformatics 19, 366). Gene-level abundance was quantified using the R package GenomicAlignments summarizeOverlaps function, using mode=IntersectionStrict and restricting to primary aligned reads. refSeq gene annotations were used for transcriptome analysis. Transcript abundances were input into edgeR (Robinson et al. (2010). edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26, 139-140) and filtered for minimum expression levels using the filterByExpr function with default parameters, then limma voom was used for differential expression analysis of NEPC vs. ARPC and ARLPC vs. ARPC. Results were then filtered using a previously published list of 1,635 human transcription factors (Lambert et al. (2018). The Human Transcription Factors. Cell 172, 650-665), resulting in 514 genes with FDR<0.05 and fold change>3. Of these 514, deregulation of gene expression for 404 transcription factor genes delineated ARPC from NEPC.

標的下での切断&ヌクレアーゼを使用した放出(カットアンドラン)
カットアンドランは、ペアエンドDNAシーケンシング解析のために、小球菌ヌクレアーゼによる制御された切断により特定のタンパク質-DNA複合体を上清中に放出させる、抗体標的化酵素テザリングクロマチンプロファイリングアッセイである。カットアンドランアッセイを、3種のヒストン修飾、H3K27ac、H3K4me1、およびH3K27me3に対して、公開されたプロトコール(Skene and Henikoff(2017). An efficient targeted nuclease strategy for high-resolution mapping of DNA binding sites. ELife 6, e21856)により実施した。カットアンドランを、LuCaP PDX腫瘍に対して、急速冷凍した組織片約75mgを使用して実施した。簡単に述べると、凍結組織を十分に切り刻んで小片にし、コラゲナーゼおよびディスパーゼを使用してより小さな細胞塊に変換した。細胞塊を、ジギトニンを使用して透過処理し、EDTA抗体緩衝液中、標的抗体と共に揺動した。時間感受性小球菌ヌクレアーゼ酵素処理を氷上で実施した。放出されたDNAをグリコーゲン担体とともに沈殿させ、続いて、ピコグラム投入DNAライブラリー調製プロトコールを使用したNGSライブラリーを調製した。
On-target cleavage and release using nucleases (cut and run)
Cut-and-Run is an antibody-targeted enzyme-tethering chromatin profiling assay that releases specific protein-DNA complexes into the supernatant by controlled cleavage with micrococcal nuclease for paired-end DNA sequencing analysis. Cut-and-Run assays were performed for three histone modifications, H3K27ac, H3K4me1, and H3K27me3, according to published protocols (Skene and Henikoff(2017). An efficient targeted nuclease strategy for high-resolution mapping of DNA binding sites. ELife 6, e21856). Cut-and-Run was performed on LuCaP PDX tumors using approximately 75 mg of flash-frozen tissue pieces. Briefly, frozen tissue was thoroughly minced into small pieces and converted to smaller cell clumps using collagenase and dispase. Cell clumps were permeabilized using digitonin and rocked with target antibodies in EDTA antibody buffer. A time-sensitive micrococcal nuclease enzyme treatment was performed on ice. The released DNA was precipitated with glycogen carriers, followed by NGS library preparation using the picogram input DNA library preparation protocol.

ペアエンド(50bp)シーケンシングを実施し、リードをbowtie2バージョン2.4.2(Langmead et al. (2019). Scaling read aligners to hundreds of threads on general-purpose processors. Bioinformatics 35, 421-432)を使用してhg38ヒト参照アセンブリに対してアラインメントした。アラインメントされたリードをSEACRプロトコール(github.com/FredHutch/SEACR#preparing-input-bedgraph-files)に記載されている通り処理した。ピークをSEACRバージョン1.3(Meers et al. (2019). Peak calling by Sparse Enrichment Analysis for CUT&RUN chromatin profiling. Epigenetics & Chromatin 12, 42)を使用し、「stringent」設定を使用し、対のIgG対照を参照してコールした。SAMtools(Danecek et al. (2021). Twelve years of SAMtools and BCFtools. GigaScience 10, giab008)を使用してbamファイルを調べ、構文解析し、フィルタリングした。120bp未満の断片(ヌクレオソーム未満のサイズ)を保持すること、または140~200bpの断片(ヌクレオソームサイズ)を保持することにより、インサートサイズを制限した解析を実施した。BigWigファイルをdeepTools 3.5.0のbamCoverage(Ramirez et al. (2016). deepTools2: a next generation web server for deep-sequencing data analysis. Nucleic Acids Research 44, W160-W165)を使用し、bamファイルに対してビンサイズ10および「extendReads」選択肢を用いて調製した。全ゲノムピークヒートマップ、標的化ヒートマップ、およびそれぞれのプロファイルを、deepToolsを使用してプロットした。wiggletools 1.2.8.の平均関数およびdeepTools computeMatrixを使用し、各表現型についてbigWig形式のファイルを得た。表現型特異的情報をもたらす領域の座標をdiffBind v3.5.0から得、ARPC系統とNEPC系統の間で弁別的に開いている上位10,000カ所の最も重要な領域(全てFDR<0.05)を下流の特徴解析のために使用した(特徴ごとに適用した追加的なサブセット化基準については遺伝子の転写領域内およびプロモーター領域の選択を参照されたい)。ヒートマップおよびプロファイルに関してはplotHeatmap関数を使用した。「Peak Center」選択肢を使用して、所望のヒートマップを引き出した。これらのステップを全て、H3K27ac抗体、H3K4me1抗体およびH3K27me3抗体について実施した。スケーリングされたヒートマッププロファイルの曲線下面積(AUC)およびプロファイル中心におけるピークの高さをdeepStats v0.4(Richard, 2020)を使用して推定した(同等のプロファイルを10ユニットにスケーリングした)。 Paired-end (50 bp) sequencing was performed and reads were aligned to the hg38 human reference assembly using bowtie2 version 2.4.2 (Langmead et al. (2019). Scaling read aligners to hundreds of threads on general-purpose processors. Bioinformatics 35, 421-432). Aligned reads were processed as described in the SEACR protocol (github.com/FredHutch/SEACR#preparing-input-bedgraph-files). Peaks were called using SEACR version 1.3 (Meers et al. (2019). Peak calling by Sparse Enrichment Analysis for CUT&RUN chromatin profiling. Epigenetics & Chromatin 12, 42) using the "string" setting and with reference to paired IgG controls. Bam files were inspected, parsed, and filtered using SAMtools (Danecek et al. (2021). Twelve years of SAMtools and BCFtools. GigaScience 10, giab008). Insert size-restricted analyses were performed by retaining fragments smaller than 120 bp (subnucleosome size) or by retaining fragments between 140 and 200 bp (nucleosome size). BigWig files were prepared using bamCoverage in deepTools 3.5.0 (Ramirez et al. (2016). deepTools2: a next generation web server for deep-sequencing data analysis. Nucleic Acids Research 44, W160-W165) using a bin size of 10 and the "extendReads" option on the bam files. Genome-wide peak heatmaps, targeted heatmaps, and respective profiles were plotted using deepTools. The mean function of wiggletools 1.2.8. and deepTools computeMatrix were used to obtain bigWig format files for each phenotype. The coordinates of the regions yielding phenotype-specific information were obtained from diffBind v3.5.0, and the top 10,000 most significant regions (all FDR<0.05) that were differentially open between ARPC and NEPC lines were used for downstream feature analysis (see Selection of transcribed and promoter regions of genes for additional subsetting criteria applied per feature). The plotHeatmap function was used for heatmaps and profiles. The "Peak Center" option was used to extract the desired heatmaps. All these steps were performed for the H3K27ac, H3K4me1 and H3K27me3 antibodies. The area under the curve (AUC) of the scaled heatmap profiles and the peak height at the profile center were estimated using deepStats v0.4 (Richard, 2020) (equivalent profiles were scaled to 10 units).

差次的ヒストン翻訳後修飾(PTM)解析
差次的PTM解析をR-4.0.1のDiffbindバージョン2.16.0パッケージ(Ross-Innes et al. (2012). Differential oestrogen receptor binding is associated with clinical outcome in breast cancer. Nature 481, 389-393)を用い、標準的なパラメータ(bioconductor.riken.jp/packages/3.0/bioc/html/DiffBind.html)を使用して実施した。ARPC試料、NEPC試料およびARLPC試料を、「PDXマウスモデル」の節に記載の病理組織像およびトランスクリプトームシグネチャーにより定義される表現型ごとに群分けした。dba関数を用いて試料をローディングし、dba.count関数を用いてリードを計数し、dba.contrastおよび最小メンバー2を用いてコントラストを表現型として特定した。差分ピーク部位を、dba.analyze関数をデフォルト設定で使用してコンピュータ計算した。NEPCおよびARLPCの差分ピーク結合をARPC試料に対してコンピュータ計算した。NEPCおよびARLPCにおける独特の結合部位についてbedtools v2.29.2を使用して一覧作成した(Quinlan and Hall (2010). BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics 26, 841-842)。群間で示差的に結合したピークをChIPseeker 1.28.3(Yu et al. (2015). ChIPseeker: an R/Bioconductor package for ChIP peak annotation, comparison and visualization. Bioinformatics 31, 2382-2383)およびR 4.1.0のTxDb.Hsapiens.UCSC.hg38.knownGene 3.2.2を使用してアノテートした。
Differential histone post-translational modification (PTM) analysis Differential PTM analysis was performed using the Diffbind version 2.16.0 package in R-4.0.1 (Ross-Innes et al. (2012). Differential oestrogen receptor binding is associated with clinical outcome in breast cancer. Nature 481, 389-393) using standard parameters (bioconductor.riken.jp/packages/3.0/bioc/html/DiffBind.html). ARPC, NEPC and ARLPC samples were grouped by phenotype defined by histopathology and transcriptome signatures as described in the "PDX mouse model" section. Samples were loaded using the dba function, reads were counted using the dba.count function and dba.count was used to count reads. Contrast and minimum member 2 were used to identify contrast as phenotype. Differential peak sites were computed using the dba.analyze function with default settings. Differential peak binding of NEPC and ARLPC was computed for ARPC samples. Unique binding sites in NEPC and ARLPC were cataloged using bedtools v2.29.2 (Quinlan and Hall (2010). BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics 26, 841-842). Differentially bound peaks between groups were analyzed using ChIPseeker 1.28.3 (Yu et al. (2015). ChIPseeker: an R/Bioconductor package for ChIP peak annotation, comparison and visualization. Bioinformatics 31, 2382-2383) and TxDb. Hsapiens. UCSC.hg38. was annotated using knownGene 3.2.2.

ATAC-Seq解析
10例のPDX系統由来の15例の腫瘍試料についてのATAC-Seq配列データは以前に公開されており、要求に応じてFASTQファイルが入手可能になっている(Cejas et al. (2021). Subtype heterogeneity and epigenetic convergence in neuroendocrine prostate cancer. Nat Commun 12, 5775)。これらの系統には、ARPC組織像を有するLuCaP PDX系統(23.1、77、78、81、96)およびNEPC組織像を有するLuCaP PDX系統(49、93、145.1、173.1のそれぞれの2回の反復実験および145.2の1回の反復実験)が含まれた。ペアエンドリードをbowtie2 2.4.2(Langmead et al. (2019). Scaling read aligners to hundreds of threads on general-purpose processors. Bioinformatics 35, 421-432)を使用してアラインメントし、UCSC hg38ヒト参照アセンブリに対して、「very-sensitive」「-k 10」に設定してアラインメントした。ピークをGenrichバージョン0.6.1(github.com/jsh58/Genrich)を使用してコールした。差次的結合解析をRバージョン4.1.0のDiffbindバージョン3.5.0パッケージを使用して実施した。hg38-blacklist.v2(Amemiya et al. (2019). The ENCODE Blacklist: Identification of Problematic Regions of the Genome. Sci Rep 9, 9354)(github.com/Boyle-Lab/Blacklist)を使用してENCODEブラックリストに入れられた領域を除外した。RNA-Seqにより引き出された表現型を使用してAR陽性NEヌルPDX試料(n=5)をARヌルNE陽性PDX試料(n=5)と比較した。表現型特異的結合部位を、まず正の倍率変化オープンクロマチン富化について選択し、次いで、Intervene 0.6.5(Khan and Mathelier (2017). Intervene: a tool for intersection and visualization of multiple gene or genomic region sets. BMC Bioinformatics 18, 287)を使用することによって単離した。ここで、領域が少なくとも1bpを共有する場合、オーバーラップするとみなした。次いで、BedTools Intersectを使用することにより、FDR調整p値<0.05を有する領域を、338,000カ所の確立されたTFBS(338種のTF×1,000カ所の結合部位、部位選択についてはGriffin解析を参照されたい)に少なくとも1bpオーバーラップするものにサブセット化した。確立されたTFBSとオーバーラップする領域のみを保持した。
ATAC-Seq Analysis ATAC-Seq sequence data for 15 tumor samples from 10 PDX lines have been previously published, with FASTQ files available upon request (Cejas et al. (2021). Subtype heterogeneity and epigenetic convergence in neuroendocrine prostate cancer. Nat Commun 12, 5775). These lines included LuCaP PDX lines with ARPC histology (23.1, 77, 78, 81, 96) and LuCaP PDX lines with NEPC histology (2 replicates each of 49, 93, 145.1, 173.1 and 1 replicate of 145.2). Paired-end reads were aligned using bowtie2 2.4.2 (Langmead et al. (2019). Scaling read aligners to hundreds of threads on general-purpose processors. Bioinformatics 35, 421-432) and aligned against the UCSC hg38 human reference assembly with very-sensitive -k 10 settings. Peaks were called using Genrich version 0.6.1 (github.com/jsh58/Genrich). Differential binding analysis was performed using the Diffbind version 3.5.0 package in R version 4.1.0. hg38-blacklist. v2 (Amemiya et al. (2019). The ENCODE Blacklist: Identification of Problematic Regions of the Genome. Sci Rep 9, 9354) (github.com/Boyle-Lab/Blacklist) was used to exclude ENCODE blacklisted regions. AR-positive NE-null PDX samples (n=5) were compared to AR-null NE-positive PDX samples (n=5) using RNA-Seq derived phenotypes. Phenotype-specific binding sites were first selected for positive fold change open chromatin enrichment and then isolated by using Intervene 0.6.5 (Khan and Mathelier (2017). Intervene: a tool for intersection and visualization of multiple gene or genomic region sets. BMC Bioinformatics 18, 287). Regions were considered to overlap if they shared at least 1 bp. Regions with an FDR-adjusted p-value <0.05 were then subset to those overlapping at least 1 bp with 338,000 established TFBSs (338 TFs x 1,000 binding sites, see Griffin analysis for site selection) using BedTools Intersect. Only regions overlapping with established TFBSs were retained.

Griffin解析
Griffinは、予め定義されたゲノム遺伝子座に関するヌクレオソーム保護およびアクセシビリティをプロファイリングするための方法である(実施例1およびDoebley et al. (2021). Griffin: Framework for clinical cancer subtyping from nucleosome profiling of cell-free DNA. MedRxiv 2021.08.31.21262867を参照されたい)。Griffinでは、部位をマッピング可能性ごとにフィルタリングし、断片ごとのレベルでGCの偏りを推定し、補正し、各部位の周囲のGC補正されたカバレッジプロファイルを生成する。第1に、griffinでは、部位一覧を取得し、ウインドウ(各部位の周囲の+/-5000bp)内のマッピング可能性を調査する。マッピング可能性(50bpのリードについてのhg38 Umapマルチリードマッピング可能性)をUCSCゲノムブラウザ(Karimzadeh et al. (2018). Umap and Bismap: quantifying genome and methylome mappability. Nucleic Acids Research 46, e120)(hgdownload.soe.ucsc.edu/gbdb/hg38/hoffmanMappability/k50.Umap.MultiTrackMappability.bw)から入手した。マッピング可能性が0.95未満の部位をさらなる解析から除外した。次に、各試料について、以前に記載された手法の改変バージョンを使用してGCの偏りを定量した(Benjamini and Speed (2012). Summarizing and correcting the GC content bias in high-throughput sequencing. Nucleic Acids Research 40, e72-e72)。簡単に述べると、可能性のある断片長およびGC含量それぞれについて、bamファイル内のリードの数ならびにその特定の長さおよびGC含量を有するゲノム内の位置の数を計数した。各断片長についてのGCの偏りおよびGC含量を、観察されたリードの数を、観察されたその断片長およびGC含量のゲノム内の位置の数で割ることによって算出した。次いで、所与の断片長における全ての可能性のあるGC含量についてのGCの偏りを平均偏り1に対して正規化した。次いで、GCの偏りを、長さおよびGC含量が同様の断片の中央値を取ることによって平滑化して(k最近傍平滑化)、平滑化されたGCの偏りの値を生成した。
Griffin Analysis Griffin is a method for profiling nucleosome protection and accessibility for predefined genomic loci (see Example 1 and Doebley et al. (2021). Griffin: Framework for clinical cancer subtyping from nucleosome profiling of cell-free DNA. MedRxiv 2021.08.31.21262867). Griffin filters sites by mappability, estimates and corrects for GC bias at a per-fragment level, and generates a GC-corrected coverage profile around each site. First, griffin takes a list of sites and examines the mappability within a window (+/- 5000 bp around each site). Mappability (hg38 Umap multi-read mappability for 50 bp reads) was obtained from the UCSC genome browser (Karimzadeh et al. (2018). Umap and Bismap: quantifying genome and methylome mappability. Nucleic Acids Research 46, e120) (hgdownload.soe.ucsc.edu/gbdb/hg38/hoffmanMappability/k50.Umap.MultiTrackMappability.bw). Sites with mappability below 0.95 were excluded from further analysis. Next, for each sample, GC bias was quantified using a modified version of a previously described method (Benjamini and Speed (2012). Summarizing and correcting the GC content bias in high-throughput sequencing. Nucleic Acids Research 40, e72-e72). Briefly, for each possible fragment length and GC content, the number of reads in the bam file and the number of positions in the genome with that particular length and GC content were counted. The GC bias and GC content for each fragment length was calculated by dividing the number of observed reads by the number of observed positions in the genome of that fragment length and GC content. The GC bias for all possible GC contents at a given fragment length was then normalized to a mean bias of 1. The GC bias was then smoothed by taking the median of fragments of similar length and GC content (k-nearest neighbor smoothing) to generate a smoothed GC bias value.

GC補正後に、各試料に対してヌクレオソームプロファイリングを実施した。マッピング可能な目的の部位それぞれについて、当該部位から±5000bpの領域にアラインメントされる断片をbamファイルからフェッチした。断片を、重複および低品質のアラインメント(マッピング品質<20)を取り除くために、および断片長ごとに、フィルタリングした。ヌクレオソームサイズの断片(140~250bp)を保持した。次いで、各断片にその所与の断片長およびGC含量に対して1/GC_biasの重みを割り当てることによって断片のGC補正を行い、断片中点を同定した。部位にわたって15bpのビン内の重み付けされた断片中点の数を計数した。複合部位に関しては、所与の型の全ての部位(例えば、所与の転写因子に対する全ての部位など)を合計して、単一のカバレッジプロファイルを生成した。個々のまたは複合カバレッジプロファイルを、部位を周囲の±5000bpの領域内の平均カバレッジ1に対して正規化した。最後に、部位を、Savitsky-Golayフィルターをウインドウ長165bpおよび多項式の次数3で使用して平滑化した。部位の周囲±1000bpのウインドウをプロットおよび特徴抽出のために保持した(さらなる詳細についてはGriffin原稿を参照されたい);部位がプロットされている場合、陰影は試料群内の95%信頼区間を例示する。個々の部位または複合部位から抽出された特徴には以下が含まれた:
a.「平均中心カバレッジ」、部位中心に対して-30bpから30bpの間の平均カバレッジ、
b.「平均ウインドウカバレッジ」、部位中心に対して-990bpから990bpの間の平均カバレッジ、および
c.「最大波高」、TSSに対して-120bpから30bpの間のウインドウ内の最小カバレッジとTSSに対して31bpから195bpの間のウインドウ内の最大カバレッジの絶対的な差異。
Nucleosome profiling was performed for each sample after GC correction. For each mappable site of interest, fragments that aligned to a region of ±5000 bp from the site were fetched from the bam file. Fragments were filtered to remove duplicates and low quality alignments (mapping quality <20) and by fragment length. Nucleosome-sized fragments (140-250 bp) were retained. Fragments were then GC-corrected by assigning each fragment a weight of 1/GC_bias for its given fragment length and GC content to identify fragment midpoints. The number of weighted fragment midpoints within 15 bp bins across the site were counted. For composite sites, all sites of a given type (e.g., all sites for a given transcription factor) were summed to generate a single coverage profile. Individual or composite coverage profiles were normalized to the average coverage of 1 within a region of ±5000 bp surrounding the site. Finally, sites were smoothed using a Savitsky-Golay filter with a window length of 165 bp and polynomial degree 3. A window of ±1000 bp around the site was kept for plotting and feature extraction (see Griffin manuscript for further details); where sites are plotted, shading illustrates the 95% confidence interval within the sample group. Features extracted from individual or combined sites included:
a. "average center coverage", the average coverage between -30 bp and 30 bp relative to the site center;
b. "Average window coverage", the average coverage between -990 bp and 990 bp relative to the site center, and c. "Maximum height", the absolute difference between the minimum coverage in a window between -120 bp and 30 bp relative to the TSS and the maximum coverage in a window between 31 bp and 195 bp relative to the TSS.

選択的な転写因子結合部位(TFBS)のGriffinによる解析
転写因子結合部位(TFBS)のGriffinによる解析を、Griffin(実施例1およびDoebley et al. (2021). MedRxiv 2021.08.31.21262867を参照されたい)に利用したものと同じTFBS一覧を用いて行った。簡単に述べると、TFBSの位置を、複数の供給源からのChIP-Seqデータのコンパイルを含有するGene Transcriptional Regulation Database(GTRD)(Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105)からダウンロードした。1つまたは複数のChIP-Seq実験において観察されたメタクラスターデータまたはメタピーク(バージョン19.10)を使用した。GTRD内の1,314種の転写因子(TF)の最初の一覧をCIS-BPデータベース(Weirauch et al. (2014). Determination and inference of eukaryotic transcription factor sequence specificity. Cell 158, 1431-1443)(v2.00、cisbp.ccbr.utoronto.ca/bulk.phpからダウンロードしたもの)と比較した。CIS-BP内にも存在し、既知の結合モチーフを有するGTRDからのTFが保持された。次いで、選択されたTF結合ゲノム遺伝子座を上記の通り(Griffin解析)マッピング可能性についてフィルタリングし、常染色体上に高度にマッピング可能な部位が10,000カ所よりも少ないTFを除外し、その結果、338種のTFがもたらされた。各TFについて、部位を、GTRDからの「ピークカウント」値によってソートし、ピークの数が最も多い1,000カ所の部位(ゲノム遺伝子座)をGriffinによる下流の解析に使用した。これらの338種を、RNA-Seqによって同定された、差次的に発現される404種のTFと交差させた後、107種が残り、それらに対して、中心ウインドウ平均値の教師なし階層クラスタリングを実施した(Griffin解析を参照されたい)。階層クラスタリングを、Ward.D2法を使用し、ユークリッド距離および完全連結設定を用いて実施した;デンドログラムにおいて列(LuCaP CRPC表現型)にcutree_cols=2および行(TF)にcutree_rows=13を使用して群分けを決定した。
Griffin Analysis of Selective Transcription Factor Binding Sites (TFBS) Griffin analysis of transcription factor binding sites (TFBS) was performed using the same list of TFBSs utilized in Griffin (see Example 1 and Doebley et al. (2021). MedRxiv 2021.08.31.21262867). Briefly, TFBS locations were downloaded from the Gene Transcriptional Regulation Database (GTRD) (Yevshin et al. (2019). GTRD: a database on gene transcription regulation-2019 update. Nucleic Acids Res 47, D100-D105), which contains a compilation of ChIP-Seq data from multiple sources. Metacluster data or metapeaks (version 19.10) observed in one or more ChIP-Seq experiments were used. An initial list of 1,314 transcription factors (TFs) in GTRD was compared to the CIS-BP database (Weirauch et al. (2014). Determination and inference of eukaryotic transcription factor sequence specificity. Cell 158, 1431-1443) (v2.00, downloaded from cisbp.ccbr.utoronto.ca/bulk.php). TFs from GTRD that were also present in CIS-BP and had known binding motifs were retained. The selected TF-bound genomic loci were then filtered for mappability as described above (Griffin analysis) and TFs with fewer than 10,000 highly mappable sites on autosomes were removed, resulting in 338 TFs. For each TF, sites were sorted by "peak count" value from GTRD, and the 1,000 sites (genomic loci) with the highest number of peaks were used for downstream analysis with Griffin. After crossing these 338 with the 404 differentially expressed TFs identified by RNA-Seq, 107 remained for which unsupervised hierarchical clustering of centered window means was performed (see Griffin analysis). Hierarchical clustering was performed using the Ward. D2 method with Euclidean distance and complete linkage settings; groupings were determined in the dendrogram using cutree_cols=2 for columns (LuCaP CRPC phenotype) and cutree_rows=13 for rows (TFs).

遺伝子の転写領域内およびプロモーター領域の選択
個々の遺伝子の転写領域内およびプロモーターの解析のために、Ensembl BioMart v104(hg38)(Howe et al. (2021). Ensembl 2021. Nucleic Acids Research 49, D884-D891)を使用して、タンパク質をコードする転写開始(TSS)および転写終結(TES)座標を直接検索した。プロモーター領域の解析に関しては、TSSに対して±1000bpのウインドウを考察した。遺伝子の転写領域内の解析に関しては、TSSとTESの間の領域を考察した。転写物を複数有する遺伝子の場合は、最も長い転写物に解析を限定し、その結果、19,336カ所の領域がもたらされた。下流のLuCaP PDX cfDNAの解析において、領域における特定の基準(示差的オープンヒストン修飾領域を含むこと)をいずれの系統も満たさなかった場合には、その特徴/領域の組合せを解析から除外し、それにより、その特徴に基づいて考察される領域が可変のより少数になるようにした。これらの基準には、全ての断片サイズ解析(以下を参照されたい)について領域内の総断片数が少なくとも10であり、短長比のためにゼロでない数の「短い」断片および「長い」断片が必要であることが含まれた;0.01よりも小さいまたは10.0よりも大きい短長比も外れ値として除外した。系統内のカバレッジを有さない領域はいずれも全ての解析から除外した。これにより、ゲノムコンテキストと特徴型の間で数が異なる遺伝子一覧がもたらされた。
Selection of transcribed and promoter regions of genes For analysis of the transcribed and promoter regions of individual genes, Ensembl BioMart v104 (hg38) (Howe et al. (2021). Ensembl 2021. Nucleic Acids Research 49, D884-D891) was used to directly search for protein-coding transcription start (TSS) and transcription end (TES) coordinates. For analysis of promoter regions, a window of ±1000 bp relative to the TSS was considered. For analysis of the transcribed regions of genes, the region between the TSS and TES was considered. In the case of genes with multiple transcripts, the analysis was limited to the longest transcript, resulting in 19,336 regions. In the downstream analysis of LuCaP PDX cfDNA, if any lineage did not meet certain criteria for a region (containing a differential open histone modification region), that feature/region combination was excluded from the analysis, thereby allowing a variable number of regions to be considered based on that feature. These criteria included a total number of fragments in the region of at least 10 for all fragment size analyses (see below), and a non-zero number of "short" and "long" fragments for short-to-long ratios; short-to-long ratios less than 0.01 or greater than 10.0 were also excluded as outliers. Any regions without coverage within the lineage were excluded from all analyses. This resulted in a list of genes with different numbers between genome contexts and feature types.

断片サイズ解析
断片をまず、重複および低品質のアラインメント(マッピング品質<20)を取り除くために、および断片長(15~500bp)によって、フィルタリングした。個々のゲノム遺伝子座/ウインドウ、断片短長比(FSLR)を短い断片(15~120bp)の長い断片(140~250bp)に対する比としてコンピュータ計算した。選択されたウインドウそれぞれについて、断片長分布の平均、中央絶対偏差(MAD:中央値(|X-中央値(X)|))、および

Figure 2024515565000003
も算出した。本試験において使用した断片サイズ解析コードおよび実装はgithub.com/GavinHaLab/CRPCSubtypingPaper/tree/main/FragmentAnalysisにおいて入手することができる。 Fragment size analysis Fragments were first filtered to remove duplicates and low quality alignments (mapping quality < 20) and by fragment length (15-500 bp). For each genomic locus/window, the fragment short-length ratio (FSLR) was computed as the ratio of short fragments (15-120 bp) to long fragments (140-250 bp). For each selected window, the mean, median absolute deviation (MAD: median (|X i - median (X)|)) of the fragment length distribution, and the mean of the fragment length distribution were calculated.
Figure 2024515565000003
The fragment size analysis code and implementation used in this study is available at github.com/GavinHaLab/CRPCSubtypingPaper/tree/main/FragmentAnalysis.

ctDNA腫瘍-正常混合およびベンチマーキング
ベンチマーキング性能を評価するための混合を、約25×の平均カバレッジで、マウス差し引き後のPDXシーケンシングデータにおける腫瘍割合が100%であると仮定して、5例のARPC系統(LuCaP 35、35CR、58、92、136CR)および5例のNEPC系統(LuCaP 49、93、145.2、173.1、208.4)を使用し、単一の健康ドナー血漿系統(NPH004、EGAD00001005343)と腫瘍割合1%、5%、10%、20%、および30%まで混合して構築した。染色体DNAをSAMtoolsで抽出し(Danecek et al. (2021). Twelve years of SAMtools and BCFtools. GigaScience 10, giab008)、Picard(broadinstitute.github.io/picard/)で重複を取り除いた後、SAMtoolsを使用して、BAMファイルをマージした。次いで、混合を、SAMtoolsを使用して1×および0.2×に対応するリードの数までダウンサンプリングして、(超)ローパスWGS性能を評価した。各混合の教師なしベンチマーキングの間、モデルの学習が調査対象の系統からは行われないことを確実にするために、混合に使用した健康系統およびLuCaP系統を特徴分布の生成から除外した。本試験において使用した混合パイプラインはgithub.com/GavinHaLab/Admixtures_snakemakeにおいて入手することができる。
ctDNA Tumor-Normal Mixes and Benchmarking Mixes to assess benchmarking performance were constructed using five ARPC lines (LuCaP 35, 35CR, 58, 92, 136CR) and five NEPC lines (LuCaP 49, 93, 145.2, 173.1, 208.4) mixed with a single healthy donor plasma line (NPH004, EGAD00001005343) to 1%, 5%, 10%, 20%, and 30% tumor fraction, assuming a mean coverage of approximately 25x and 100% tumor fraction in mouse-subtracted PDX sequencing data. Chromosomal DNA was extracted with SAMtools (Danecek et al. (2021). Twelve years of SAMtools and BCFtools. GigaScience 10, giab008), and BAM files were merged using SAMtools after removing duplicates with Picard (broadinstitute.github.io/picard/). The mixtures were then downsampled to the number of reads corresponding to 1× and 0.2× using SAMtools to evaluate (ultra) low-pass WGS performance. During unsupervised benchmarking of each mixture, the healthy and LuCaP strains used in the mixture were excluded from the generation of feature distributions to ensure that the model training was not done from the lineages under investigation. The mixture pipeline used in this study is available at github.com/GavinHaLab/Admixtures_snakemake.

ARPCとNEPCの教師あり二項分類
個々の領域と特徴の組合せを使用したARPC亜型とNEPC亜型の二項分類を、Pythonに実装されたXGBoost「XGBClassifier」をデフォルトのパラメータで使用して実施した。特徴には、ヒストン修飾領域、プロモーター、および遺伝子の転写領域内;ヒストン修飾領域における断片サイズ平均、短長比、および変動係数(断片サイズ解析を参照されたい)、およびプロモーター;プロモーター、複合TFBS、および、ATAC-Seqによって同定された複合示差的オープンクロマチン領域における中心およびウインドウカバレッジ(Griffin解析を参照されたい);ならびにプロモーターにおけるMax Wave Height(Griffin解析を参照されたい)が含まれた。層化6分割交差検証を適用し、2例のARPC試料および1例のNEPC試料を各分割に提供された。これを100回繰り返し、個々の特徴と領域の組合せそれぞれについての受信者動作特性(ROC)曲線下面積(AUC)および95%信頼区間を使用して性能をコンピュータ計算した。この方法のコードおよび実装はgithub.com/GavinHaLab/CRPCSubtypingPaper/tree/main/SupervisedLearningにおいて見いだすことができる。
Binary supervised classification of ARPC and NEPC Binary classification of ARPC and NEPC subtypes using individual regions and feature combinations was performed using the Python implementation of XGBoost "XGBClassifier" with default parameters. Features included histone modification regions, promoters, and within transcribed regions of genes; fragment size mean, short-to-long ratio, and coefficient of variation (see fragment size analysis) in histone modification regions and promoters; center and window coverage in promoters, composite TFBS, and composite differential open chromatin regions identified by ATAC-Seq (see Griffin analysis); and Max Wave Height in promoters (see Griffin analysis). Stratified 6-fold cross-validation was applied, with two ARPC and one NEPC sample provided for each fold. This was repeated 100 times and performance was computed using the area under the receiver operating characteristic (ROC) curve (AUC) and 95% confidence intervals for each individual feature-region combination. Code and implementation of this method can be found at github.com/GavinHaLab/CRPCSubtypingPaper/tree/main/SupervisedLearning.

ichorCNA腫瘍割合推定
患者血漿試料由来の腫瘍割合を、ichorCNA(Adalsteinsson et al. (2017). Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. Nature Communications 8)を使用し、binSize1,000,000bpおよびhg19参照ゲノムを用いて評定した。ichorCNAによって報告されたデフォルトの腫瘍割合推定値を使用した。完全な構成設定についてはgithub.com/GavinHaLab/CRPCSubtypingPaper/tree/main/ichorCNA_configurationを参照されたい。
ichorcna Tumor Fraction Estimation Tumor fraction from patient plasma samples was assessed using ichorcna (Adalsteinsson et al. (2017). Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. Nature Communications 8) with a binSize of 1,000,000 bp and the hg19 reference genome. The default tumor fraction estimates reported by ichorcna were used. See github.com/GavinHaLab/CRPCSubtypingPaper/tree/main/ichorCNA_configuration for full configuration settings.

表現型予測モデル
個々の患者血漿ctDNA試料におけるmCRPC表現型(ARPCまたはNEPC)を分類するために、確率モデルを開発した。これは、目的の患者コホートに対する訓練を行わない教師なしの生成的混合モデルである。しかし、このモデルは、所与の患者ctDNA試料についてichorCNAから予め推定された腫瘍割合、ならびにLuCaP PDX ctDNAおよび健康ドナーctDNAから予めコンピュータ計算されたctDNA特徴値を事前情報として受け入れる。各患者ctDNA試料について、不均一な腫瘍割合を純粋なPDX LuCaPモデルに適合させる。LuCaP PDX試料の平均(μi,k)から取得したまたは通常のパネルHの平均(μi,H、男性のみ、n=14;健康ドナーコホートを参照されたい)から取得した特徴iについての各表現型kから予測される特徴値(平均μおよび標準偏差σ)は、ガウス分布と仮定して、シフトし、その結果、シフトした値μ’i,k、σ’i,kは式:

Figure 2024515565000004
(式中、αは各試験試料についての腫瘍割合推定値である)を取る。最終的なモデルでは、4つの特徴を使用した:Griffinを使用してLuCaP PDX ATAC-Seq解析によって同定された特定の表現型(ARPCおよびNEPC)についての複合オープンクロマチン領域(中心カバレッジおよびウインドウ平均カバレッジ)(Griffin解析を参照されたい)。各特徴iについて、観察された試料が腫瘍割合補正されたガウス分布の混合物に由来する確率が見いだされ、ここで、θはNEPC混合物の重みである:
(x|θ)=θp(x|k=NEPC)+(1-θ)p(x|k=ARPC) Phenotype Prediction Model A probabilistic model was developed to classify mCRPC phenotype (ARPC or NEPC) in individual patient plasma ctDNA samples. This is an unsupervised generative mixture model that is not trained on a patient cohort of interest. However, the model accepts as prior information the tumor fraction pre-estimated from ichorcNA for a given patient ctDNA sample, as well as pre-computed ctDNA feature values from LuCaP PDX ctDNA and healthy donor ctDNA. For each patient ctDNA sample, the heterogeneous tumor fraction is fitted to a pure PDX LuCaP model. The predicted feature values (mean μ and standard deviation σ) from each phenotype k for feature i taken from the mean of the LuCaP PDX samples (μ i,k ) or taken from the mean of normal panel H (μ i,H , males only, n=14; see healthy donor cohort) are shifted, assuming a Gaussian distribution, so that the shifted values μ′ i,k , σ′ i,k are calculated according to the formula:
Figure 2024515565000004
where α is the tumor fraction estimate for each test sample. The final model used four features: composite open chromatin regions (center coverage and window average coverage) for specific phenotypes (ARPC and NEPC) identified by LuCaP PDX ATAC-Seq analysis using Griffin (see Griffin analysis). For each feature i, the probability that the observed sample comes from a mixture of tumor fraction corrected Gaussians is found, where θ is the weight for the NEPC mixture:
p i (x|θ)=θp(x|k=NEPC)+(1−θ)p(x|k=ARPC)

θパラメータは、所与の患者試料についての同時対数尤度Lを最大化することによって推定される:

Figure 2024515565000005
θは、範囲[0,1]を有し、値が大きいほど、NEPC表現型を有する試料の比率が大きいことを示し、NEPC予測スコア測定基準として使用される。この方法のコードおよび実装は、github.com/GavinHaLab/CRPCSubtypingPaper/tree/main/GenerativeMixtureModelにおいて見いだすことができる。 The θ parameters are estimated by maximizing the joint log-likelihood L for a given patient sample:
Figure 2024515565000005
θ has the range [0,1], with higher values indicating a greater proportion of samples with the NEPC phenotype, and is used as the NEPC prediction score metric. The code and implementation of this method can be found at github.com/GavinHaLab/CRPCSubtypingPaper/tree/main/GenerativeMixtureModel.

臨床患者試料の解析および分類
Generativeモデルに記載されている通りLuCaP PDX系統および通常パネルを使用して特徴分布を確立した後、このモデルを3つの臨床患者コホートに適用した(コホート情報に関してはヒト対象を参照されたい)。このモデルを使用した最初のスコアリングを、ペアエンドリードを伴う101例のULP-WGS試料からなるDFCIコホートIに対して実行した。元の試験においてichorCNAによって予測された腫瘍割合推定値(Berchuck et al. (2022). Detecting Neuroendocrine Prostate Cancer Through Tissue-Informed Cell-Free DNA Methylation Analysis. Clinical Cancer Research 28, 928-938)および腫瘍表現型分類を元の試験から入手した。NEPCをコールするための予測スコア閾値0.3314により、感度(90%)および特異度(97.5%)に関して最適な性能がもたらされたので、これを選択した。ここで、感度は、NEPC試料の同定についての真陽性率

Figure 2024515565000006
であり、特異度は、ARPC試料の同定についての真陰性率
Figure 2024515565000007
である。感度および特異度を最大にする代替閾値として、0.1077の場合、95%感度が実現され、特異度は93.8%に低下し、0.3769では、感度が81.0%に低下したが、特異度が98.8%に上昇した。 Analysis and Classification of Clinical Patient Samples After establishing feature distributions using the LuCaP PDX line and normal panels as described in the Generative model, the model was applied to three clinical patient cohorts (see human subjects for cohort information). Initial scoring using the model was performed on DFCI cohort I, consisting of 101 ULP-WGS samples with paired-end reads. Tumor fraction estimates predicted by ichorcNA in the original study (Berchuck et al. (2022). Detecting Neuroendocrine Prostate Cancer Through Tissue-Informed Cell-Free DNA Methylation Analysis. Clinical Cancer Research 28, 928-938) and tumor phenotype classification were obtained from the original study. A prediction score threshold of 0.3314 for calling NEPC yielded optimal performance in terms of sensitivity (90%) and specificity (97.5%) and was therefore selected. Here, sensitivity is the true positive rate for the identification of NEPC samples.
Figure 2024515565000006
and specificity is the true negative rate for identifying ARPC samples.
Figure 2024515565000007
As alternative thresholds maximizing sensitivity and specificity, 0.1077 achieved 95% sensitivity with a reduced specificity of 93.8%, and 0.3769 reduced sensitivity to 81.0% but increased specificity to 98.8%.

次いで、モデルを、すでに公開されたDFCIコホートIIから開始して、2つのコホートに対して検証した(Adalsteinsson et al. (2017). Nature Communications 8; Choudhury et al. (2018). Tumor fraction in cell-free DNA as a biomarker in prostate cancer. JCI Insight 3; Viswanathan et al. (2018). Structural Alterations Driving Castration-Resistant Prostate Cancer Revealed by Linked-Read Genome Sequencing. Cell 174, 433-447.e19)。相当するULP-WGSおよびWGSデータを伴い、ペアエンドリードを伴う6例の患者由来の11例の試料に解析を制限した。ichorCNAからの腫瘍割合推定値を元の試験から入手した(Adalsteinsson et al. (2017). Nature Communications 8)。病歴に基づいて、全ての試料が腺癌(ARPC)であると考えられた(ヒト対象を参照されたい)。DFCIコホートIから決定されたスコアリング閾値0.3314を表現型分類のために使用した。 The model was then validated on two cohorts, starting from the already published DFCI cohort II (Adalsteinsson et al. (2017). Nature Communications 8; Choudhury et al. (2018). Tumor fraction in cell-free DNA as a biomarker in prostate cancer. JCI Insight 3; Viswanathan et al. (2018). Structural Alterations Driving Castration-Resistant Prostate Cancer Revealed by Linked-Read Genome Sequencing. Cell 174, 433-447.e19). The analysis was restricted to 11 samples from 6 patients with paired-end reads with corresponding ULP-WGS and WGS data. Tumor fraction estimates from ichorcna were obtained from the original study (Adalsteinsson et al. (2017). Nature Communications 8). Based on clinical history, all samples were considered to be adenocarcinoma (ARPC) (see human subjects). A scoring threshold of 0.3314 determined from DFCI cohort I was used for phenotype classification.

30例の患者由来の47例の試料からなるUWコホートに関しては、試料の腫瘍割合を上記の通りichorCNAを使用して推定し、一方、臨床表現型は病歴および専門家によるカルテの精査によって決定した。モデル性能を、ARPCおよびNEPCの明白な臨床表現型について、相当するULP-WGSおよびWGSデータに対して評価した。選択されたスコアリング閾値0.3314を使用し、正しく予測されたARPC(n=26)およびNEPC(n=5)の分率をコンピュータ計算した。混合組織像を有した残りの16例の試料については性能の評価を行わなかった。 For the UW cohort of 47 samples from 30 patients, the tumor fraction of the samples was estimated using ichorcNA as described above, while clinical phenotype was determined by medical history and expert chart review. Model performance was evaluated against the corresponding ULP-WGS and WGS data for unequivocal clinical phenotypes of ARPC and NEPC. Using the selected scoring threshold of 0.3314, the fraction of correctly predicted ARPC (n=26) and NEPC (n=5) was computed. Performance was not evaluated for the remaining 16 samples with mixed histology.

定量および統計解析
ハイスループットシーケンシングデータ解析の定量および統計学的手法は、上記の方法に記載されている。集団における特定のパラメータの数値のノンパラメトリック分布(非正規分布)を比較する際(箱ひげ図を使用してまたは表で)、両側マン・ホイットニーのU検定(ウィルコクソン順位和検定としても公知;scipy.stats.mannwhitneyu、(Virtanen et al. (2020). SciPy 1.0: fundamental algorithms for scientific computing in Python. Nat Methods 17, 261-272)を使用して、比較される任意の2つの分布が有意に異なるかどうかを検定し、Benjamini-Hochberg(statsmodels.stats.multitest.fdrcorrection、statsmodels.org)補正を多重検定シナリオで適用した。全ての箱ひげ図に中央値が中心線で表されており、四分位範囲(IQR)が四角で表されており、第1四分位数-1.5IQRおよび第3の四分位数+1.5IQRがひげで表されている。PCAをPython(sklearn.decomposition.PCA;scikit-learn.org)で行った。
Quantitative and statistical analysis Quantitative and statistical methods for high-throughput sequencing data analysis are described in the methods above. When comparing nonparametric (non-normal) distributions of values of a particular parameter in a population (using box plots or in tables), a two-tailed Mann-Whitney U test (also known as the Wilcoxon rank sum test; scipy.stats.mannwhitneyu, (Virtanen et al. (2020). SciPy 1.0: fundamental algorithms for scientific computing in Python. Nat Methods 17, 261-272) was used to test whether any two distributions being compared were significantly different, and Benjamini-Hochberg (statsmodels.stats.multitest.fdrcorrection, statsmodels.org) correction was applied for multiple testing scenarios. All box plots have medians represented by center lines, interquartile ranges (IQR) represented by boxes, and the first quartile -1.5IQR and third quartile +1.5IQR represented by whiskers. PCA was performed in Python (sklearn.decomposition.PCA; scikit-learn.org).

(実施例3)
実施例1では、ローパスシーケンシングデータからの正確な乳がん亜型の決定を可能にするために、Griffinワークフローの実施形態を適用して配列シグナルを増強した。実施例2では、他のがん、すなわち前立腺がんの亜型を識別するために実施形態Griffinワークフロー手法を適用し、代替配列プロファイリングプラットフォームから(例えば、ヌクレオソームアクセシビリティについてはカットアンドランプラットフォームから)のデータを首尾よく活用し、異なるがんおよび入力データに対するGriffin解析ワークフローの検出力および柔軟性を実証した。本実施例では、血液ctDNAから小細胞肺がん、非小細胞肺がん、および他のがん型の転写特徴を理解するためにGriffinワークフローと併せて使用するための標的化シーケンシングパネルの開発について記載する。
Example 3
In Example 1, an embodiment of the Griffin workflow was applied to enhance sequence signal to enable accurate breast cancer subtype determination from low-pass sequencing data. In Example 2, the embodiment Griffin workflow approach was applied to identify other cancers, namely prostate cancer subtypes, and successfully leveraged data from alternative sequence profiling platforms (e.g., from the cut-and-run platform for nucleosome accessibility), demonstrating the power and flexibility of the Griffin analysis workflow for different cancers and input data. This example describes the development of a targeted sequencing panel for use with the Griffin workflow to understand the transcriptional characteristics of small cell lung cancer, non-small cell lung cancer, and other cancer types from blood ctDNA.

背景
本実施例では、臨床的肺がん診断のための明らかな変換潜在性を実証するセルフリーDNAの解析に基づく革新的な分析アッセイについて記載する。がん患者の血液中を循環しているセルフリーDNAは、遺伝子変異を評定するために広く使用されており、つい最近、全ゲノムDNAの解析によって、ある特定の転写因子の活性化を推測するために使用されている。がん細胞は、細胞死によってセルフリーDNAを生じ、そのセルフリーDNAは、圧倒的多数がヌクレオソーム状である、すなわち、ヒストン八量体と結合しており、それにより、DNAが分解から保護されている。ゲノムにおけるヒストンの配置は、転写因子およびRNAポリメラーゼ複合体を含めたクロマチンの構成成分に影響される。高度に発現される遺伝子に対応する同類の転写因子(TF)または転写開始部位(TSS)に結合する転写因子結合部位(TFBS)では、ヌクレオソームが移動する。したがって、セルフリーDNAシーケンシングデータの精巧な解析により、起源細胞におけるヌクレオソームの位置が明らかになり、それにより今度はTF占有率および遺伝子発現が明らかになる。しかし、これまでに実施された解析では、ctDNAのディープ全ゲノムシーケンシングが主に使用されており、これは、肺がん患者に広範に適用される臨床検査としては実用的ではなく、費用効果が小さい。
Background This example describes an innovative analytical assay based on the analysis of cell-free DNA that demonstrates clear transformation potential for clinical lung cancer diagnosis. Cell-free DNA circulating in the blood of cancer patients has been widely used to assess gene mutations and, more recently, to infer the activation of certain transcription factors by analysis of total genomic DNA. Cancer cells generate cell-free DNA through cell death, which is overwhelmingly nucleosomal, i.e., bound to histone octamers, protecting the DNA from degradation. The positioning of histones in the genome is influenced by chromatin components, including transcription factors and RNA polymerase complexes. Nucleosomes are displaced at transcription factor binding sites (TFBSs) that bind to cognate transcription factors (TFs) or transcription start sites (TSSs) that correspond to highly expressed genes. Thus, sophisticated analysis of cell-free DNA sequencing data reveals the location of nucleosomes in the cell of origin, which in turn reveals TF occupancy and gene expression. However, analyses performed to date have mainly used deep whole-genome sequencing of ctDNA, which is not practical or cost-effective for widespread clinical testing in lung cancer patients.

結果および考察
1つの革新として、NSCLCとSCLC、またはNSCLCもしくはSCLCの亜型を識別するために使用することができ、したがって、ctDNAのハイブリダイゼーション捕捉に基づくDNAシーケンシングを使用して、SCLCにおける重要なTF(ASCL1、NEUROD1、POU2F3、REST)のTFBS、および肺がん細胞の重要な転写特徴のマーカーである遺伝子TSSにおけるヌクレオソーム占有率の高分解能マップを生成することを容易にする、高度に情報をもたらすTFBSおよびTSSを同定した。あるいは、これらの情報をもたらす部位を低カバレッジ全ゲノムシーケンシングで調査して、同様の転写特徴を抽出することもできる。標的化捕捉パネルは、診療所において血液中のctDNAから変異をコールするために常套的に適用されており、がん細胞における転写活性を評定するために標的化シーケンシングを適用することは、臨床検査として大いに実行可能である。この技術は、米国において毎年約30,000人の死因になっているSCLCに対して特に関連性があり、実現性がある。SCLCの組織試料採取は、一般には、患者の疾患経過の間に1回のみ実施され、多くの場合、経気管支細針穿刺吸引によって行われ、得られるのは極めて少量の組織である。外科手術が実施されることは極めて稀である。しかし、SCLCは、高転移性を反映して、他の大多数のがん型と比較して高レベルのctDNAを有し、それにより、当該アッセイが、SCLC患者への適用に実用的であり、かつ潜在的に特に有益なものになる。また、SCLC亜型が変異ではなく重要な転写因子およびそれらの下流のプログラム(例えば、ASLC1、NEUROD1、およびPOU2F3など)の活性化に基づいて存在するという理解が増している。これらの亜型を特徴付けることの臨床的緊急性にもかかわらず、血液試料を使用してSCLCの転写亜型を決定するための確立された技法は存在しない。開示される標的化アッセイは、ctDNAからSCLCの転写亜型を識別するように設計されたものであり、したがって、当該アッセイの強力な臨床的適用がもたらされる。さらに、パネルは、約600種の遺伝子のパネルからエクソンの遺伝子変異をコールするように設計されたものである。したがって、当該アッセイには、臨床試料における変異および転写活性の両方の相関解析に対する広範な臨床的有用性がある。
Results and Discussion As an innovation, we have identified highly informative TFBSs and TSSs that can be used to distinguish NSCLC from SCLC, or subtypes of NSCLC or SCLC, and thus facilitate the generation of high-resolution maps of TFBSs of key TFs (ASCL1, NEUROD1, POU2F3, REST) in SCLC, and nucleosome occupancy in gene TSSs that are markers of key transcriptional features of lung cancer cells, using DNA sequencing based on hybridization capture of ctDNA. Alternatively, these informative sites can be investigated with low-coverage whole genome sequencing to extract similar transcriptional features. Targeted capture panels are routinely applied in clinics to call mutations from ctDNA in blood, and applying targeted sequencing to assess transcriptional activity in cancer cells is highly feasible as a clinical test. This technology is particularly relevant and feasible for SCLC, which is responsible for approximately 30,000 deaths in the United States every year. Tissue sampling for SCLC is generally performed only once during a patient's disease course, often by transbronchial fine needle aspiration, resulting in very small amounts of tissue. Surgery is very rarely performed. However, SCLC has high levels of ctDNA compared to most other cancer types, reflecting its high metastatic potential, making the assay practical and potentially particularly useful for application to SCLC patients. There is also an increasing understanding that SCLC subtypes exist based on the activation of key transcription factors and their downstream programs (e.g., ASLC1, NEUROD1, and POU2F3, etc.) rather than mutations. Despite the clinical urgency of characterizing these subtypes, there are no established techniques for determining SCLC transcription subtypes using blood samples. The disclosed targeted assay is designed to identify SCLC transcription subtypes from ctDNA, thus providing a powerful clinical application of the assay. Furthermore, the panel is designed to call exonic genetic mutations from a panel of approximately 600 genes. Thus, the assay has broad clinical utility for correlation analysis of both mutations and transcriptional activity in clinical samples.

肺がん管理における別の重要な現在の難題は、一般には長期間にわたる標的化治療を用いた疾患制御後に起こる、ドライバー変異陽性肺がんのSCLCへの分化転換である。SCLCへの分化転換は、進行している疾患とは違うやり方で処置されるが、注目すべき組織学的変化は得られていない。しかし、分化転換は、現在のところ、進行している病変の生検によってしか評定することができず、それは多くの場合に実行不可能であるまたは望ましくないので、著しく不十分に診断されている可能性がある。このアッセイはまた、EGFR阻害剤に対する抵抗性が生じている肺腺癌患者に対して、その抵抗性がSCLC転写プロファイルの活性化に関連するものであるかどうかを決定することを適用することもできる。したがって、主要な非侵襲性の適用として、以下が挙げられる:
・転写因子(ASCL1、NEUROD1、POU2F3、REST)の活性を推定することによるSCLCの腫瘍分類
・SCLCとNSCLCを区別すること
・主要なNSCLC組織学的サブタイプ:腺癌と扁平上皮癌を区別すること
・混合組織像を推定すること
・治療の間の潜在的な亜型の変化を「リアルタイム」で検出すること(SCLC内での処置により誘導される転写亜型の変化、または、NSCLCにおいてEGFR阻害などの標的化治療に対する抵抗性機構として起こるNSCLCからSCLCの変化のいずれか)。
Another important current challenge in lung cancer management is the transdifferentiation of driver mutation-positive lung cancer to SCLC, which generally occurs after long-term disease control using targeted therapy. Transdifferentiation to SCLC is treated differently than advanced disease, but without notable histological changes. However, transdifferentiation can be significantly underdiagnosed, since it can currently only be assessed by biopsy of advanced lesions, which is often not feasible or desirable. This assay can also be applied to lung adenocarcinoma patients who have developed resistance to EGFR inhibitors to determine whether the resistance is related to the activation of the SCLC transcriptional profile. Thus, the main non-invasive applications include:
- Tumor classification of SCLC by estimating the activity of transcription factors (ASCL1, NEUROD1, POU2F3, REST) - Differentiating between SCLC and NSCLC - Differentiating between the major NSCLC histological subtypes: adenocarcinoma and squamous cell carcinoma - Estimating mixed histology - Detecting potential subtype changes during treatment in "real time" (either treatment-induced transcriptional subtype changes in SCLC or NSCLC to SCLC changes occurring as a resistance mechanism to targeted therapies such as EGFR inhibition in NSCLC).

これらの適用の全てに、新規の治療を調査するため、および臨床的処置決定に関する情報をもたらすための極めて重要な意義がある。 All of these applications have great potential for investigating novel therapeutics and informing clinical treatment decisions.

捕捉パネルの生成を示す、パネル設計の概略図を図16に提示する。より詳細には、当該手法には、SCLC遺伝子変異、転写因子(TF)亜型同一性、および重要な遺伝子プログラムの発現の統合検出のための標的化シーケンシングパネルを合理的に設計することが含まれた。公共の変異データベースおよび機能的変異データを、SCLCに関連するおよそ600種の遺伝子をコードするコード変異について調べた。TF亜型同一性に関しては、4種の重要なSCLC関連TF(ASCL1、NEUROD1、POU2F3、およびREST)のTFBSを標的とした。他の重要な遺伝子プログラムの発現に関しては、ゲノム内のタンパク質コード遺伝子の大部分に対応するTSSを標的とした。特定の部位を選択するために、複数のデータ源を以下の通り組み込んだ。SCLC TFBSに関しては、ChIP-seqデータを使用してTFBSを同定し、その結果、因子当たり4~30kカ所の部位がもたらされた。次いで、これらの候補部位に、最も近い遺伝子TSSまでの距離をアノテートした。最も近い遺伝子TSSが、入手可能なRNAseqデータによって決定される、目的の因子を発現するSCLC細胞において上方調節されることが分かっている遺伝子である部位を、保持される部位とした。その結果、SCLCに焦点が当てられた部位が、因子当たり約400~700カ所もたらされた。最終的なプローブセットにおいて、これらの約2kカ所の部位を対称的に包含する1kbのウインドウ(それぞれの側に500bp)を標的とした。TSSプロファイリングのために、確立された転写物アノテーションを用いて開始し、非コード転写物、Y染色体遺伝子、およびアノテーションの信頼度が低いマルチエクソン遺伝子に対応するTSSを取り除き、その結果、およそ約36kの理論的に標的化されたTSSがもたらされた。プローブセットにおいて、TSSの260bp下流かつ100bp上流の領域を標的とした。適用特異的直交性クロマチンプロファイリングデータを使用して部位を選択することが当該手法の重要な特徴である。しかし、例えばATAC-seq、カットアンドラン/TAG、DNAse-seq、ヒストン修飾ChIP-seqなどの他の型のクロマチンプロファイリングデータを容易に代用することまたは追加し、同じまたは同様の結果を得ることができることに留意されたい。 A schematic of the panel design showing the generation of the capture panel is presented in FIG. 16. More specifically, the approach involved rationally designing a targeted sequencing panel for integrated detection of SCLC gene mutations, transcription factor (TF) subtype identity, and expression of key gene programs. Public mutation databases and functional mutation data were interrogated for coding mutations in approximately 600 genes associated with SCLC. For TF subtype identity, TFBSs of four key SCLC-associated TFs (ASCL1, NEUROD1, POU2F3, and REST) were targeted. For expression of other key gene programs, TSSs corresponding to the majority of protein-coding genes in the genome were targeted. To select specific sites, multiple data sources were incorporated as follows: For SCLC TFBSs, ChIP-seq data was used to identify TFBSs, resulting in 4-30k sites per factor. These candidate sites were then annotated with the distance to the nearest gene TSS. Sites that were retained were those whose nearest gene TSS was a gene known to be upregulated in SCLC cells expressing the factor of interest as determined by available RNAseq data. This resulted in approximately 400-700 SCLC-focused sites per factor. In the final probe set, we targeted a 1 kb window (500 bp on each side) symmetrically encompassing these ∼2 k sites. For TSS profiling, we started with established transcript annotations and removed TSSs corresponding to non-coding transcripts, Y chromosome genes, and multi-exon genes with low annotation confidence, resulting in approximately ∼36 k theoretically targeted TSSs. In the probe set, we targeted a region 260 bp downstream and 100 bp upstream of the TSS. The use of application-specific orthogonal chromatin profiling data to select sites is a key feature of the approach. However, please note that other types of chromatin profiling data, such as ATAC-seq, cut-and-run/TAG, DNAse-seq, histone modification ChIP-seq, etc., can be readily substituted or added to obtain the same or similar results.

データ解析パイプラインを開発して、TFBSが捕捉されたDNAおよびTSSが捕捉されたDNAの両方におけるヌクレオソームによって保護されたcfDNA断片を定量した。解析パイプラインであるGriffin(上でより詳細に記載されている)では、断片長に基づいたGC補正を使用して、シグナルを不明瞭にするGCの偏りを取り除く。断片サイズを認識したGCの偏りの補正手法は、シグナル対ノイズを最大にし、捕捉されたDNAの解析を最適化するために役立つ。 A data analysis pipeline was developed to quantify nucleosome-protected cfDNA fragments in both TFBS- and TSS-captured DNA. The analysis pipeline, Griffin (described in more detail above), uses fragment-length-based GC correction to remove signal-obscuring GC bias. A fragment-size-aware GC bias correction approach helps maximize signal-to-noise and optimize analysis of captured DNA.

図17Aおよび17Bは、cfDNAの標的化シーケンシングを使用した、SCLCモデルにおける転写因子(TF)発現の検出を例示する。図17Aは、陰性対照試料(「健康ドナー」)および陽性対照試料(SCLC細胞モデル由来の「側腹部腫瘍」)の概念実証のための実験ワークフローの概略図である。図17Bは、健康ドナー(上の行)および側腹部腫瘍(下の行)についての標的化シーケンシングデータにおけるTFBSにわたる集計したカバレッジをグラフで例示する。TFBSがx軸の0位に位置することが予想される。データは予測されるTF発現ごとにコード化されている。健康ドナー由来のcfDNAは、RESTの発現を反映するが、ASCL1、NEUROD1、またはPOU2F3の発現は反映しないことが予想される。SCLCモデルでは、TF発現に応じたカバレッジ分布の体系的な差異が明らかであった。 17A and 17B illustrate detection of transcription factor (TF) expression in SCLC models using targeted sequencing of cfDNA. FIG. 17A is a schematic of the experimental workflow for proof of concept of a negative control sample ("healthy donor") and a positive control sample ("flank tumor" from a SCLC cell model). FIG. 17B graphically illustrates aggregated coverage across TFBS in targeted sequencing data for a healthy donor (top row) and a flank tumor (bottom row). It is expected that TFBS will be located at position 0 on the x-axis. Data are coded per predicted TF expression. cfDNA from a healthy donor is expected to reflect expression of REST, but not ASCL1, NEUROD1, or POU2F3. Systematic differences in coverage distribution as a function of TF expression were evident in the SCLC model.

図18A~18Cは、相当する腫瘍遺伝子発現データが利用可能なSCLC患者試料からのTFBSカバレッジ分布を使用した転写因子活性の推測を例示する。図18Aは、健康ドナー(上の行)および遺伝子発現データを伴う相当する腫瘍組織が利用可能であったSCLCを有する患者(下の行)についての標的化シーケンシングデータにおけるTFBSにわたる集計したカバレッジをグラフで例示する。試料は予測されるTF発現ごとにコード化されている。予測されるTF発現に応じたカバレッジ分布の体系的な差異がここでも明らかである。図18Bは、ヒートマップとして表示された、選択された患者試料における重要な遺伝子の遺伝子発現を例示する。細胞がZ-スコアごとにコード化されており、挿入文字はlog2(TPM+1)である。図18Cは、ヒートマップとして表示された、各患者試料におけるTFBSにおけるカバレッジ分布から算出されたピークとトラフの振幅を例示する。振幅が色で示されており、また、挿入文字でも示されている。トラフ深度の大きさは、これらの真正SCLC患者試料における重要なTFの遺伝子発現に対応する。 Figures 18A-18C illustrate the inference of transcription factor activity using TFBS coverage distributions from SCLC patient samples for which corresponding tumor gene expression data were available. Figure 18A graphically illustrates aggregated coverage across TFBS in targeted sequencing data for healthy donors (top row) and patients with SCLC for which corresponding tumor tissue with gene expression data was available (bottom row). Samples are coded by predicted TF expression. Systematic differences in coverage distribution as a function of predicted TF expression are again evident. Figure 18B illustrates gene expression of significant genes in selected patient samples displayed as a heat map. Cells are coded by Z-score and inset letters are log2(TPM+1). Figure 18C illustrates peak and trough amplitudes calculated from the coverage distribution across TFBS in each patient sample displayed as a heat map. Amplitudes are indicated by color and are also indicated in inset letters. The magnitude of trough depth corresponds to the gene expression of key TFs in these bona fide SCLC patient samples.

図19は、試料の型における転写因子結合部位のピークとトラフの振幅の定量を例示する一連のグラフである。TF発現の予測されるグラウンドトゥルースに従って、集計したカバレッジ分布から算出されたTFBSにおけるピークとトラフの振幅の分布。「非SCLC」と表示されているPdx試料はNSCLC pdxモデルである。「非SCLC」と表示されている患者試料は、NSCLCを有する患者由来の試料(n=11)または悪性腫瘍と診断されていない患者由来の試料(n=4)のいずれかである。ASCL1部位のピークとトラフの振幅は、SCLC状況およびASCL1陽性の両方に関連付けられるが、一方、NEUROD1およびPOU2F3のピークとトラフの振幅は、TF陽性のみに関連付けられる。 Figure 19 is a series of graphs illustrating the quantification of transcription factor binding site peak and trough amplitudes across sample types. Distribution of peak and trough amplitudes in TFBS calculated from aggregated coverage distributions according to predicted ground truth of TF expression. Pdx samples labeled "non-SCLC" are NSCLC pdx models. Patient samples labeled "non-SCLC" are either samples from patients with NSCLC (n=11) or from patients without diagnosed malignancies (n=4). Peak and trough amplitudes of ASCL1 sites are associated with both SCLC status and ASCL1 positivity, whereas peak and trough amplitudes of NEUROD1 and POU2F3 are associated with TF positivity only.

図20Aおよび20Bは、側腹部腫瘍陽性対照試料におけるTSSカバレッジ分布を使用した遺伝子発現推測をグラフで例示する。図20Aは、SCLC側腹部腫瘍モデル(五分位数1~5)および血液(「B」、濃青色)における遺伝子発現の五分位数によって群分けされた、cfDNAの標的化シーケンシングからのTSSカバレッジ分布を例示する。全血における低発現およびTSSカバレッジ分布と遺伝子発現の相関に基づいて選択された1,213種の遺伝子に対応する1,912カ所のTSSが示されている。TSSカバレッジ分布は、対応する遺伝子の発現に応じて体系的に変動する。図20Bは、上記のまたは対応するTSSのカバレッジ分布から推測して閾値を下回る(閾値0.1、0.5、1.0、および2.0について示されている)遺伝子発現の予測についての受信者動作特性曲線を例示する。遺伝子発現の推定量を、TSSカバレッジプロファイルから、TSSに対して+130位および+145位におけるアベレージカバレッジ深度から-45位、-30位、および-15位におけるアベレージ深度を引いた差異の大きさとして算出した(20Aにおいて点線で示されている)。ROC曲線のAUCが各遺伝子発現カットオフについて括弧内に示されている。特に変動しやすく、したがって難しい遺伝子に制限されるこの予備解析において、TSSカバレッジ分布を使用して、良好な試験特性で、遺伝子がある特定の値を上回って発現されるかまたは下回って発現されるかを予測することができる。 20A and 20B graphically illustrate gene expression inference using TSS coverage distributions in flank tumor positive control samples. FIG. 20A illustrates TSS coverage distributions from targeted sequencing of cfDNA grouped by quintiles of gene expression in SCLC flank tumor models (quintiles 1-5) and blood ("B", dark blue). Shown are 1,912 TSSs corresponding to 1,213 genes selected based on low expression in whole blood and correlation of TSS coverage distribution with gene expression. TSS coverage distributions vary systematically depending on the expression of the corresponding genes. FIG. 20B illustrates receiver operating characteristic curves for prediction of gene expression below threshold (shown for thresholds 0.1, 0.5, 1.0, and 2.0) as inferred from the coverage distributions of the above or corresponding TSSs. Estimates of gene expression were calculated from the TSS coverage profile as the magnitude of the difference between the average coverage depth at positions +130 and +145 relative to the TSS minus the average depth at positions -45, -30, and -15 (shown as dotted lines in 20A). The AUC of the ROC curves is shown in parentheses for each gene expression cutoff. In this preliminary analysis, which is restricted to particularly variable and therefore challenging genes, the TSS coverage distribution can be used to predict, with good test properties, whether a gene is expressed above or below a certain value.

図21は、肺がんPdxモデルおよび患者試料においてSCLC状況であるかNSCLC状況であるかを予測するための、TSSパネルの大きな合理的に選択されたサブセットにわたる集計したカバレッジプロファイルの使用を例示する一連のグラフである。グラフには、3つの異なる試料:1つの健康ドナー、1つのNSCLC Pdxモデル、および1つのSCLC PdxモデルについてのNSCLC(n=396)およびSCLC(n=1045)における上方調節に関して選択された遺伝子TSSにわたる集計したTSSカバレッジ分布の例が提示されている。NSCLC PDXモデルに重ねて示されている通り、振幅特徴を各カバレッジ分布曲線からTSSに対して-45位におけるカバレッジと+120位におけるカバレッジの差異として算出し、それにより、試料内での、および試料間での比較を容易にした。 Figure 21 is a series of graphs illustrating the use of aggregated coverage profiles across a large rationally selected subset of the TSS panel to predict SCLC or NSCLC status in lung cancer Pdx models and patient samples. The graphs present examples of aggregated TSS coverage distribution across selected gene TSSs for upregulation in NSCLC (n=396) and SCLC (n=1045) for three different samples: one healthy donor, one NSCLC Pdx model, and one SCLC Pdx model. As shown overlaid on the NSCLC PDX model, amplitude features were calculated from each coverage distribution curve as the difference between coverage at position -45 and coverage at position +120 for the TSS, thereby facilitating comparison within and between samples.

図22は、肺がんPdxモデルおよび患者試料においてSCLC状況であるかNSCLC状況であるかを予測するための、TSSパネルの大きな合理的に選択されたサブセットにわたる集計したカバレッジプロファイルの使用を例示する一連のグラフである。肺がんPDX試料由来の血漿試料(非がん対照患者についても参照のために「良性」として示されている)または肺がん患者由来の血漿試料における、SCLC特異的遺伝子TSS(y軸、n=1045)とそれに対してNSCLC特異的遺伝子TSS(x軸、n=396)の集計したカバレッジ。腺癌から分化転換したSCLC PDXが太い赤色の線で特定される。 Figure 22 is a series of graphs illustrating the use of aggregated coverage profiles across a large rationally selected subset of the TSS panel to predict SCLC versus NSCLC status in lung cancer PDX models and patient samples. Aggregated coverage of SCLC-specific gene TSS (y-axis, n=1045) versus NSCLC-specific gene TSS (x-axis, n=396) in plasma samples from lung cancer PDX samples (also shown as "benign" for reference for non-cancer control patients) or plasma samples from lung cancer patients. SCLC PDXs that have transdifferentiated from adenocarcinoma are identified by the thick red line.

したがって、これらのデータから、合理的に設計された捕捉パネルにより、Griffinワークフローを使用し、適切な分類器を適用して最適化した場合にPDFモデルおよび患者試料のどちらからもSCLC細胞とNSCLC細胞を正確に識別することができる配列データを回収することが可能になることが示される。開示されるワークフロー全体を通して明白な技術的利点が存在する。 Thus, these data demonstrate that rationally designed capture panels enable the recovery of sequence data using the Griffin workflow that, when optimized with appropriate classifiers, can accurately discriminate between SCLC and NSCLC cells from both PDF models and patient samples. There are clear technical advantages throughout the disclosed workflow.

Griffinでは、ヌクレオソームプロファイリングおよびクロマチンアクセシビリティ解析のための特別な、独特のcfDNA配列データ正規化を使用する。これには、GCの偏りの補正、反復配列フィルタリング、および局所カバレッジ正規化が含まれる。これらの正規化技法は全て、Ulz P, et al. Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nat Commun. 2019; 10 (1): 4666におけるものなどの既存の概念実証方法では利用不可能なものである。さらに、がん亜型を予測するための機械学習分類器構築における使用のための、Griffinからのマルチオミクス特徴抽出は、この手法に独特のものである。特に、より類似性が大きい細胞型に対する分解能に関して、標的化シーケンシングパネルを使用すると、より高い分解能が得られると同時に、実用的な費用が保持され、また、遺伝子変異を検出するための目的の領域の再シーケンシング(すなわち、がん遺伝子パネルシーケンシング)とより容易に統合可能であることが予想される。Griffinの出力から、目的の結合部位それぞれから多くの特徴を抽出することができ、また、機械学習分類器を使用して、cfDNA Griffin最適化データから肺がん組織学的サブタイプの亜型を予測することができる。 Griffin uses special, unique cfDNA sequence data normalization for nucleosome profiling and chromatin accessibility analysis. This includes GC bias correction, repetitive sequence filtering, and local coverage normalization. All of these normalization techniques are not available in existing proof-of-concept methods such as those in Ulz P, et al. Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection. Nat Commun. 2019; 10 (1): 4666. Additionally, multi-omics feature extraction from Griffin for use in building machine learning classifiers to predict cancer subtypes is unique to this approach. It is expected that the use of targeted sequencing panels will provide higher resolution, especially with respect to resolution for more similar cell types, while retaining practical costs and being more easily integrable with resequencing of regions of interest to detect genetic mutations (i.e., cancer gene panel sequencing). From the Griffin output, many features can be extracted from each binding site of interest, and a machine learning classifier can be used to predict lung cancer histological subtype subtypes from cfDNA Griffin-optimized data.

例示的な実施形態を例示し、説明してきたが、本発明の主旨および範囲から逸脱することなく種々の変化を加えることができることが理解されよう。
排他的な特性または特権が特許請求される本発明の実施形態を以下に定義する:
While exemplary embodiments have been illustrated and described, it will be appreciated that various changes can be made without departing from the spirit and scope of the invention.
The embodiments of the invention in which an exclusive property or privilege is claimed are defined as follows:

Claims (111)

細胞型を予測するための、セルフリーDNA試料からの配列リードデータを増強する、コンピュータ実装方法であって、
コンピューティングシステムにより配列リードデータを受け取るステップであって、前記配列リードデータが、複数の断片リードを含み、各断片リードが、断片長および前記断片リード内のGまたはCである塩基のパーセンテージを示すGC含量を有する、ステップ、
前記コンピューティングシステムにより、前記断片リードの前記断片長および前記GC含量に基づいて各断片リードについてのGCの偏りの値を決定するステップ、
前記コンピューティングシステムにより、前記配列リードデータおよび前記GCの偏りの値を使用してGCの偏りについて調整されたゲノムカバレッジ分布を生成するステップ、ならびに
前記コンピューティングシステムにより、前記ゲノムカバレッジ分布に基づいて前記細胞型を予測するステップ
を含む、方法。
1. A computer-implemented method for augmenting sequence read data from a cell-free DNA sample for predicting cell type, comprising:
receiving, by a computing system, sequence read data, the sequence read data comprising a plurality of fragment reads, each fragment read having a fragment length and a GC content indicating a percentage of bases in the fragment read that are G or C;
determining, by the computing system, a GC bias value for each fragment read based on the fragment length and the GC content of the fragment read;
generating, by the computing system, a genomic coverage distribution adjusted for GC bias using the sequence read data and the GC bias value; and predicting, by the computing system, the cell type based on the genomic coverage distribution.
前記ゲノムカバレッジ分布に基づいて前記細胞型を予測するステップが、細胞表現型を予測することを含む、請求項1に記載のコンピュータ実装方法。 The computer-implemented method of claim 1, wherein predicting the cell type based on the genome coverage distribution includes predicting a cell phenotype. 前記細胞表現型を予測することが、組織型、がん型、またはがん亜型を予測することを含む、請求項2に記載のコンピュータ実装方法。 The computer-implemented method of claim 2, wherein predicting the cell phenotype includes predicting a tissue type, a cancer type, or a cancer subtype. 前記細胞表現型を予測することが、1種または複数種の目的の遺伝子の発現を予測することを含む、請求項2に記載のコンピュータ実装方法。 The computer-implemented method of claim 2, wherein predicting the cell phenotype includes predicting the expression of one or more genes of interest. 前記断片リードの前記断片長および前記GC含量に基づいて前記GCの偏りの値を決定するステップが、
断片長とGC含量の各組合せの観察されたリードの数を計数して、前記配列リードデータについてのGC計数を決定すること、
前記GC計数をGC出現頻度行列内の対応するGC出現頻度で割って、各断片長についてのGCの偏りを決定すること、
各断片長についてのGCの偏りの平均を正規化して、およそのGCの偏りの値を決定すること、ならびに、
前記およそのGCの偏りの値を平滑化して、前記GCの偏りの値を決定すること
を含む、請求項1に記載のコンピュータ実装方法。
determining the GC bias value based on the fragment length and the GC content of the fragment reads,
counting the number of observed reads for each combination of fragment length and GC content to determine a GC count for the sequence read data;
dividing the GC counts by the corresponding GC frequencies in a GC frequency matrix to determine a GC bias for each fragment length;
normalizing the average GC bias for each fragment length to determine an approximate GC bias value; and
The computer-implemented method of claim 1 , comprising smoothing the approximate GC bias value to determine the GC bias value.
前記GC出現頻度行列が、参照ゲノムのマッピング可能な領域内の複数の断片長の各断片長についての各GC含量の出現頻度を記憶させたものである、請求項5に記載のコンピュータ実装方法。 The computer-implemented method of claim 5, wherein the GC occurrence frequency matrix stores the occurrence frequency of each GC content for each of a plurality of fragment lengths within a mappable region of a reference genome. 前記複数の断片長が、短い長さの閾値から長い長さの閾値までの各断片長を含む、請求項6に記載のコンピュータ実装方法。 The computer-implemented method of claim 6, wherein the plurality of fragment lengths includes fragment lengths ranging from a short length threshold to a long length threshold. 前記短い長さの閾値が10~20塩基対の範囲内であり、前記長い長さの閾値が450~550塩基対の範囲内である、請求項7に記載のコンピュータ実装方法。 The computer-implemented method of claim 7, wherein the short length threshold is in the range of 10 to 20 base pairs and the long length threshold is in the range of 450 to 550 base pairs. 前記短い長さの閾値が15塩基対であり、前記長い長さの閾値が500塩基対である、請求項8に記載のコンピュータ実装方法。 The computer-implemented method of claim 8, wherein the short length threshold is 15 base pairs and the long length threshold is 500 base pairs. 細胞型に関して目的のゲノム領域を決定するステップ、および
前記目的のゲノム領域をフィルタリングして、細胞型に関する情報をもたらす部位を同定するステップ
をさらに含む、請求項1に記載のコンピュータ実装方法。
2. The computer-implemented method of claim 1, further comprising: determining genomic regions of interest with respect to a cell type; and filtering the genomic regions of interest to identify sites that provide information about the cell type.
前記目的のゲノム領域を決定するステップが、
各目的のゲノム領域周囲の固定サイズのウインドウ内の平均マッピング可能性を決定すること、および
平均マッピング可能性が所定の閾値未満である目的のゲノム領域を棄却すること
を含む、請求項10に記載のコンピュータ実装方法。
determining the genomic region of interest,
11. The computer-implemented method of claim 10, comprising: determining an average mappability within a fixed-size window around each genomic region of interest; and rejecting genomic regions of interest whose average mappability is below a predetermined threshold.
前記目的のゲノム領域をフィルタリングして、細胞型に関する情報をもたらす部位を同定するステップが、第1の細胞型と第2の細胞型の間で差動シグナルを有する部位を決定することを含む、請求項10に記載のコンピュータ実装方法。 The computer-implemented method of claim 10, wherein filtering the genomic region of interest to identify sites that provide information about cell type includes determining sites that have differential signals between a first cell type and a second cell type. 前記ゲノムカバレッジ分布を生成するステップが、
細胞型に関する情報をもたらす部位それぞれの周囲のウインドウ内の断片中点を決定すること、
各断片リードについての前記GCの偏りの値の逆数に基づいて各断片リードに重みを割り当てること、
前記重み付けされた断片リードを使用して、GC補正された中点カバレッジプロファイルを決定すること、
除外領域とオーバーラップする位置を除外すること、
全ての部位についてのGC補正された中点カバレッジプロファイルのアベレージを決定することに基づいて、平均プロファイルを決定すること、
前記平均プロファイルを平滑化して、平滑化された平均プロファイルを生成すること、および
前記平滑化された平均プロファイルを、周囲のカバレッジの平均で割ることによって正規化して、正規化された平均プロファイルを決定すること
を含む、請求項10に記載のコンピュータ実装方法。
The step of generating a genome coverage distribution comprises:
determining fragment midpoints within a window around each of the sites that provides information about cell type;
assigning a weight to each fragment read based on the inverse of said GC bias value for each fragment read;
determining a GC-corrected midpoint coverage profile using the weighted fragment reads;
excluding locations that overlap the exclusion region;
determining a mean profile based on determining an average of the GC corrected midpoint coverage profiles for all sites;
11. The computer-implemented method of claim 10, comprising: smoothing the average profile to generate a smoothed average profile; and normalizing the smoothed average profile by dividing by an average of surrounding coverage to determine a normalized average profile.
前記除外領域が、エンコード統合GRCh38除外一覧、セントロメア、ヒトゲノムアセンブリ内のギャップ、修正パッチ、代替ハプロタイプ、マッピング可能性ゼロの領域の範囲内にある、または、平均を少なくとも10標準偏差上回るカバレッジを有する1つまたは複数の領域を含む、請求項13に記載のコンピュータ実装方法。 The computer-implemented method of claim 13, wherein the excluded regions include one or more regions within the Encoding Integrated GRCh38 Exclusion List, a centromere, a gap in the human genome assembly, a correction patch, an alternative haplotype, a region of zero mappability, or having coverage at least 10 standard deviations above the mean. 前記ゲノムカバレッジ分布に基づいて前記細胞型を予測するステップが、
前記ゲノムカバレッジ分布に基づいて1つまたは複数の特徴を生成すること、
前記1つまたは複数の特徴を分類器モデルへの入力として提供すること、および
前記分類器モデルの出力に基づいて前記細胞型を決定すること
を含む、請求項10に記載のコンピュータ実装方法。
predicting the cell type based on the genome coverage distribution,
generating one or more features based on the genome coverage distribution;
11. The computer-implemented method of claim 10, comprising providing the one or more features as input to a classifier model; and determining the cell type based on an output of the classifier model.
前記1つまたは複数の特徴が、細胞型に関する情報をもたらす部位それぞれの周囲の第1の所定のウインドウ内のカバレッジの平均、細胞型に関する情報をもたらす部位それぞれの周囲の前記第1の所定のウインドウとはサイズが異なる第2の所定のウインドウ内のカバレッジの平均、および、細胞型に関する情報をもたらす部位それぞれの周囲の前記ゲノムカバレッジ分布の振幅を含む、請求項15に記載のコンピュータ実装方法。 The computer-implemented method of claim 15, wherein the one or more features include an average of coverage within a first predefined window around each site that provides information about a cell type, an average of coverage within a second predefined window of a different size than the first predefined window around each site that provides information about a cell type, and an amplitude of the genome coverage distribution around each site that provides information about a cell type. 前記第1の所定のウインドウが、前記第2の所定のウインドウよりも大きい、請求項16に記載のコンピュータ実装方法。 The computer-implemented method of claim 16, wherein the first predetermined window is larger than the second predetermined window. 前記第1の所定のウインドウの幅が1800~2200塩基対の範囲内であり、前記第2の所定のウインドウの幅が40~80塩基対の範囲内である、請求項17に記載のコンピュータ実装方法。 The computer-implemented method of claim 17, wherein the width of the first predetermined window is within a range of 1800 to 2200 base pairs, and the width of the second predetermined window is within a range of 40 to 80 base pairs. 前記第1の所定のウインドウの幅が2000塩基対であり、前記第2の所定のウインドウの幅が60塩基対である、請求項18に記載のコンピュータ実装方法。 The computer-implemented method of claim 18, wherein the first predetermined window has a width of 2000 base pairs and the second predetermined window has a width of 60 base pairs. 細胞型に関する情報をもたらす部位それぞれの周囲の前記ゲノムカバレッジ分布の前記振幅が、
前記ゲノムカバレッジ分布をトリミングして、10個のピークを含有するウインドウにすること、
前記ゲノムカバレッジ分布の前記ウインドウに対して高速フーリエ変換を実施すること、および
10番目の周波数の大きさを決定すること
によって決定される、請求項16に記載のコンピュータ実装方法。
The amplitude of the genome coverage distribution around each site that provides information about cell type is
trimming the genome coverage distribution to a window containing 10 peaks;
17. The computer-implemented method of claim 16, wherein the magnitude of a 10th frequency is determined by performing a Fast Fourier Transform on the window of the genome coverage distribution; and determining a magnitude of a 10th frequency.
前記分類器モデルが、ロジスティック回帰モデル、人工ニューラルネットワーク、決定木、サポートベクターマシン、またはベイジアンネットワークを含む、請求項15に記載のコンピュータ実装方法。 The computer-implemented method of claim 15, wherein the classifier model comprises a logistic regression model, an artificial neural network, a decision tree, a support vector machine, or a Bayesian network. 目的の細胞に由来するセルフリーDNAを含む試料由来の目的の前記細胞についてのクロマチンアクセシビリティプロファイルを決定する方法であって、
前記セルフリーDNAから配列リードデータを得るステップ、
コンピューティングシステムにより配列リードデータを受け取るステップであって、前記配列リードデータが、複数の断片リードを含み、各断片リードが、断片長および前記断片リード内のGまたはCである塩基のパーセンテージを示すGC含量を有する、ステップ、
前記コンピューティングシステムにより、前記断片リードの前記断片長および前記GC含量に基づいて各断片リードについてのGCの偏りの値を決定するステップ、
前記コンピューティングシステムにより、前記配列リードデータおよび前記GCの偏りの値を使用してGCの偏りについて調整されたゲノムカバレッジ分布を生成するステップ、ならびに
前記ゲノムカバレッジ分布からクロマチンアクセシビリティプロファイルを決定するステップ
を含む、方法。
1. A method for determining a chromatin accessibility profile for a cell of interest from a sample comprising cell-free DNA derived from said cell of interest, comprising:
obtaining sequence read data from the cell-free DNA;
receiving, by a computing system, sequence read data, the sequence read data comprising a plurality of fragment reads, each fragment read having a fragment length and a GC content indicating a percentage of bases in the fragment read that are G or C;
determining, by the computing system, a GC bias value for each fragment read based on the fragment length and the GC content of the fragment read;
generating, by the computing system, a GC bias adjusted genome coverage distribution using the sequence read data and the GC bias value; and determining a chromatin accessibility profile from the genome coverage distribution.
クロマチン占有率プロファイルに基づいて目的の前記細胞表現型を決定するステップをさらに含む、請求項22に記載の方法。 23. The method of claim 22, further comprising determining the cellular phenotype of interest based on a chromatin occupancy profile. 前記細胞表現型を決定するステップが、組織型、がん型、がん亜型、悪性腫瘍の高悪性度表現型、および/または薬物応答性表現型を決定することを含む、請求項23に記載の方法。 24. The method of claim 23, wherein the step of determining the cell phenotype comprises determining a tissue type, a cancer type, a cancer subtype, an aggressive phenotype of a malignant tumor, and/or a drug responsive phenotype. 請求項5から請求項21までの一項または複数項に記載の1つまたは複数のステップを実施することをさらに含む、請求項22に記載の方法。 23. The method of claim 22, further comprising performing one or more steps as recited in one or more of claims 5 to 21. 目的の細胞に由来するセルフリーDNAを含む試料由来の目的の前記細胞の細胞型を決定するための方法であって、
セルフリーDNAを含む前記試料から生成された配列リードデータを得るステップ、
請求項5から21までのいずれか一項に記載のコンピュータ実装方法を実施するステップ、および
前記コンピューティングシステムによって提供された予測に基づいて目的の前記細胞の前記細胞型を決定するステップ
を含む、方法。
1. A method for determining the cell type of a cell of interest from a sample comprising cell-free DNA derived from said cell of interest, comprising:
obtaining sequence read data generated from said sample comprising cell-free DNA;
22. A method comprising: performing a computer-implemented method according to any one of claims 5 to 21; and determining the cell type of the cell of interest based on a prediction provided by the computing system.
前記細胞型を決定するステップが、細胞表現型を決定することを含む、請求項26に記載の方法。 27. The method of claim 26, wherein the step of determining the cell type comprises determining a cell phenotype. 前記細胞表現型を決定することが、組織型、がん型、がん亜型、悪性腫瘍の高悪性度表現型、および/または薬物応答性表現型を決定することを含む、請求項27に記載の方法。 28. The method of claim 27, wherein determining the cell phenotype comprises determining a tissue type, a cancer type, a cancer subtype, an aggressive phenotype of a malignant tumor, and/or a drug responsive phenotype. 前記細胞表現型を決定することが、1種または複数種の目的の遺伝子の発現を決定することを含む、請求項27に記載の方法。 28. The method of claim 27, wherein determining the cell phenotype comprises determining the expression of one or more genes of interest. 対象におけるがん細胞の存在を検出する方法であって、
前記対象から得たセルフリーDNAを含む試料から生成された配列リードデータを得るステップ、
請求項5から21までのいずれか一項に記載のコンピュータ実装方法を実施するステップ、および
前記コンピューティングシステムによって提供された予測に基づいて前記対象におけるがん細胞の存在を決定するステップ
を含む、方法。
1. A method for detecting the presence of cancer cells in a subject, comprising:
obtaining sequence read data generated from a sample comprising cell-free DNA obtained from the subject;
22. A method comprising: performing a computer-implemented method according to any one of claims 5 to 21; and determining the presence of cancer cells in the subject based on a prediction provided by the computing system.
経時的に複数回実施され、各実施時に前記対象において検出されたがん細胞(複数可)をさらに特徴付けて、前記コンピューティングシステムによって提供された予測に基づいて、前記検出されたがん細胞(複数可)のがん亜型または表現型を決定する、請求項30に記載の方法。 31. The method of claim 30, which is performed multiple times over time, and at each time further characterizing the cancer cell(s) detected in the subject to determine a cancer subtype or phenotype of the detected cancer cell(s) based on the predictions provided by the computing system. 経時的に複数回実施され、前記検出されたがん細胞(複数可)の表現型の変化を経時的に検出するステップをさらに含む、請求項31に記載の方法。 32. The method of claim 31, further comprising the step of detecting a change in the phenotype of the detected cancer cell(s) over time, the step being performed multiple times over time. 前記対象が、前記方法の実施間にがん治療を受け、前記方法が、前記処置に対する前記がん細胞(複数可)の応答性を決定するステップをさらに含む、請求項31または32に記載の方法。 33. The method of claim 31 or 32, wherein the subject undergoes cancer treatment during administration of the method, and the method further comprises determining the responsiveness of the cancer cell(s) to the treatment. 標的がん細胞に由来するセルフリーDNAを含む試料由来の前記標的がん細胞のがん亜型を決定する方法であって、
セルフリーDNAを含む前記試料から生成された配列リードデータを得るステップ、
請求項5から21までのいずれか一項に記載のコンピュータ実装方法を実施するステップ、および
前記コンピューティングシステムによって提供された、予測されるがん亜型に基づいて、起源細胞の前記細胞型を決定するステップ
を含む、方法。
1. A method for determining a cancer subtype of a target cancer cell from a sample containing cell-free DNA derived from the target cancer cell, comprising:
obtaining sequence read data generated from said sample comprising cell-free DNA;
22. A method comprising: performing a computer-implemented method according to any one of claims 5 to 21; and determining the cell type of a cell of origin based on a predicted cancer subtype provided by the computing system.
前記試料が、がんを有する対象から得たものである、請求項34に記載の方法。 The method of claim 34, wherein the sample is obtained from a subject having cancer. 前記がんが、転移乳がんであると特徴付けられる、請求項30から35までのいずれか一項に記載の方法。 The method of any one of claims 30 to 35, wherein the cancer is characterized as metastatic breast cancer. 前記がん亜型を決定することが、前記がんがER+であるのかER-であるのかを決定することを含む、請求項36に記載の方法。 The method of claim 36, wherein determining the cancer subtype comprises determining whether the cancer is ER+ or ER-. 前記がん亜型を決定することが、前記がんがPR+であるのかPR-であるのかを決定することを含む、請求項36に記載の方法。 The method of claim 36, wherein determining the cancer subtype comprises determining whether the cancer is PR+ or PR-. 前記がん亜型を決定することが、前記がんがHER2+であるのかHER2-であるのかを決定することを含む、請求項36に記載の方法。 The method of claim 36, wherein determining the cancer subtype comprises determining whether the cancer is HER2+ or HER2-. 前記がん亜型を決定することが、
前記がんがER+であるのかER-であるのか、
前記がんがPR+であるのかPR-であるのか、および
前記がんがHER2+であるのかHER2-であるのか
のうちの2つまたは全てを決定することを含む、請求項36に記載の方法。
determining the cancer subtype,
whether the cancer is ER+ or ER-;
37. The method of claim 36, comprising determining two or all of: whether the cancer is PR+ or PR-; and whether the cancer is HER2+ or HER2-.
前記がんが、転移前立腺がんであると特徴付けられる、請求項30から35までのいずれか一項に記載の方法。 The method of any one of claims 30 to 35, wherein the cancer is characterized as metastatic prostate cancer. 前記がん亜型を決定することが、前記がんがAR+(ARPC)であるのかAR-であるのかを決定することを含む、請求項41に記載の方法。 The method of claim 41, wherein determining the cancer subtype comprises determining whether the cancer is AR+ (ARPC) or AR-. 前記がん亜型を決定することが、前記がんがARPCであるのかAR-lowであるのかを決定することを含む、請求項41に記載の方法。 The method of claim 41, wherein determining the cancer subtype includes determining whether the cancer is ARPC or AR-low. 前記がん亜型を決定することが、前記がんが神経内分泌前立腺がん(NEPC)表現型シグネチャーを有するか否かを決定することを含む、請求項41に記載の方法。 42. The method of claim 41, wherein determining the cancer subtype comprises determining whether the cancer has a neuroendocrine prostate cancer (NEPC) phenotype signature. 前記がん亜型を決定することが、前記がんが両分泌性であるのかどうかを決定することを含む、請求項41に記載の方法。 42. The method of claim 41, wherein determining the cancer subtype comprises determining whether the cancer is bisecretory. 前記がん亜型を決定することが、
前記がんがAR+(ARPC)であるのかAR-であるのか、
前記がんがAR-lowであるのかARPCであるのか、
前記がんが神経内分泌前立腺がん(NEPC)表現型シグネチャーを有するか否か、
前記がんがAR-lowであるのかNEPCであるのか、
前記がんが両分泌性であるのかARPCであるのかまたはNEPCであるのか
のうちの2つまたは全てを決定することを含む、請求項41に記載の方法。
determining the cancer subtype,
whether the cancer is AR+ (ARPC) or AR-;
Whether the cancer is AR-low or ARPC;
whether the cancer has a neuroendocrine prostate cancer (NEPC) phenotypic signature;
Whether the cancer is AR-low or NEPC;
42. The method of claim 41, comprising determining two or all of whether the cancer is bisecretory, ARPC, or NEPC.
前記がんが、肺がんであると特徴付けられる、請求項30から35までのいずれか一項に記載の方法。 The method of any one of claims 30 to 35, wherein the cancer is characterized as lung cancer. 前記がん亜型を決定することが、前記がんが小細胞肺がん(SCLC)であるのか非小細胞肺がん(NSCLC)であるのか決定することを含む、請求項47に記載の方法。 48. The method of claim 47, wherein determining the cancer subtype comprises determining whether the cancer is small cell lung cancer (SCLC) or non-small cell lung cancer (NSCLC). 前記NSCLCが腺癌であるのか扁平上皮癌であるのかを決定するステップをさらに含む、請求項48に記載の方法。 49. The method of claim 48, further comprising determining whether the NSCLC is an adenocarcinoma or a squamous cell carcinoma. 前記配列リードデータが、ゲノム標的のパネルから生成されたものである、請求項47から49までのいずれか一項に記載の方法。 The method of any one of claims 47 to 49, wherein the sequence read data is generated from a panel of genomic targets. ゲノム標的の前記パネルが、SCLCに関連付けられる1種または複数種の転写因子の転写因子結合部位(TFBS)を含む、請求項50に記載の方法。 51. The method of claim 50, wherein the panel of genomic targets comprises transcription factor binding sites (TFBS) of one or more transcription factors associated with SCLC. SCLCに関連付けられる前記1種または複数種の転写因子が、ASLC、NEUROD1、POU2F3、RESTなどのうちの1つまたは複数を含み、前記方法が、前記TFBSのヌクレオソーム占有率を決定するステップを含む、請求項51に記載の方法。 52. The method of claim 51, wherein the one or more transcription factors associated with SCLC include one or more of ASLC, NEUROD1, POU2F3, REST, etc., and the method includes determining the nucleosome occupancy of the TFBS. 前記TFBSが、ChIP-seqデータなどによって同定され、肺がんに関連付けられる遺伝子の転写開始部位の近位にある場合、前記パネル中に保持される、請求項52に記載の方法。 The method of claim 52, wherein the TFBS is retained in the panel if it is proximal to the transcription start site of a gene associated with lung cancer, as identified, for example, by ChIP-seq data. ゲノム標的の前記パネルが、肺がんに関連付けられる1種または複数種のマーカーの転写開始部位(TSS)を含み、前記方法が、前記TSSのヌクレオソーム占有率を決定するステップを含む、請求項50に記載の方法。 51. The method of claim 50, wherein the panel of genomic targets includes transcription start sites (TSSs) of one or more markers associated with lung cancer, and the method includes determining nucleosome occupancy of the TSSs. 前記試料が、対象から得たものであり、前記方法が、前記決定されたがん亜型に基づいて、前記対象に対して有効な処置を施行するステップをさらに含む、請求項30から54までのいずれか一項に記載の方法。 The method of any one of claims 30 to 54, wherein the sample is obtained from a subject, and the method further comprises administering an effective treatment to the subject based on the determined cancer subtype. がんであると最初に診断された後の複数の別個の時点で前記対象から得た複数の試料に対して前記方法を実施するステップをさらに含む、請求項35から55までのいずれか一項に記載の方法。 56. The method of any one of claims 35 to 55, further comprising performing the method on a plurality of samples obtained from the subject at a plurality of distinct time points after an initial diagnosis of cancer. 前記配列リードデータが、超ローパス全ゲノムシーケンシングによって生成されたものである、請求項22から56までのいずれか一項に記載の方法。 The method of any one of claims 22 to 56, wherein the sequence read data is generated by ultra-low pass whole genome sequencing. 前記配列リードデータが、クロマチンアクセシビリティアッセイによって生成されたものである、請求項22から56までのいずれか一項に記載の方法。 The method of any one of claims 22 to 56, wherein the sequence read data is generated by a chromatin accessibility assay. 前記配列リードデータが、ATAC-seq法で生成されたものである、請求項22から56までのいずれか一項に記載の方法。 The method according to any one of claims 22 to 56, wherein the sequence read data is generated by the ATAC-seq method. 前記配列リードデータが、ChIP-seq法で生成されたものである、請求項22から56までのいずれか一項に記載の方法。 The method according to any one of claims 22 to 56, wherein the sequence read data is generated by the ChIP-seq method. 前記配列リードデータが、DNA分解酵素感受性アッセイで生成されたものである、請求項22から56までのいずれか一項に記載の方法。 The method of any one of claims 22 to 56, wherein the sequence read data is generated by a DNase sensitivity assay. 前記配列リードデータが、カットアンドランアッセイで生成されたものである、請求項22から56までのいずれか一項に記載の方法。 The method of any one of claims 22 to 56, wherein the sequence read data is generated by a cut-and-run assay. 前記カットアンドランアッセイが、H3K27ac、H3K4me1およびH3K27acのうちの1つまたは複数に対する翻訳後修飾を標的とする親和性試薬を組み入れるものである、請求項62に記載の方法。 63. The method of claim 62, wherein the cut-and-run assay incorporates an affinity reagent that targets a post-translational modification to one or more of H3K27ac, H3K4me1, and H3K27ac. 前記配列リードデータを生成するステップをさらに含む、請求項1から63までのいずれか一項に記載の方法。 The method of any one of claims 1 to 63, further comprising the step of generating the sequence read data. 前記配列リードデータが、ゲノム標的のパネルから生成された配列リードデータを含む、請求項1から64までのいずれか一項に記載の方法。 The method of any one of claims 1 to 64, wherein the sequence read data comprises sequence read data generated from a panel of genomic targets. ゲノム標的の前記パネルが、目的のがん型に関連付けられる1種または複数種の転写因子の転写因子結合部位(TFBS)を含む、請求項65に記載の方法。 66. The method of claim 65, wherein the panel of genomic targets comprises transcription factor binding sites (TFBS) for one or more transcription factors associated with a cancer type of interest. 前記TFBSのヌクレオソーム占有率を決定するステップを含む、請求項66に記載の方法。 The method of claim 66, comprising determining the nucleosome occupancy of the TFBS. 前記TFBSが、ChIP-seqデータなどによって同定され、目的の前記がん型に関連付けられる遺伝子の転写開始部位の近位にある場合、前記パネル中に保持される、請求項66に記載の方法。 The method of claim 66, wherein the TFBS is retained in the panel if it is proximal to the transcription start site of a gene associated with the cancer type of interest, as identified, for example, by ChIP-seq data. ゲノム標的の前記パネルが、目的の前記がん型に関連付けられる1種または複数種のマーカーの転写開始部位(TSS)を含み、前記方法が、前記TSSのヌクレオソーム占有率を決定するステップを含む、請求項66に記載の方法。 67. The method of claim 66, wherein the panel of genomic targets comprises transcription start sites (TSSs) of one or more markers associated with the cancer type of interest, and the method comprises determining nucleosome occupancy of the TSSs. 前記試料が、血液、血漿、または血清である、請求項22から64までのいずれか一項に記載の方法。 The method of any one of claims 22 to 64, wherein the sample is blood, plasma, or serum. 細胞型を予測するための、セルフリーDNA試料からの配列リードデータを増強する、コンピュータ実装方法であって、
コンピューティングシステムにより配列リードデータを受け取るステップであって、前記配列リードデータが、複数の断片リードを含み、各断片リードが、ある断片長を有する、ステップ、
前記コンピューティングシステムにより、ある細胞型に関連付けられる少なくとも1種の遺伝子についての断片サイズの変動性を決定するステップ、および
前記コンピューティングシステムにより、前記少なくとも1種の遺伝子についての前記断片サイズの変動性に基づいて、前記細胞型を予測するステップ
を含む、方法。
1. A computer-implemented method for augmenting sequence read data from a cell-free DNA sample for predicting cell type, comprising:
receiving, by a computing system, sequence read data, the sequence read data including a plurality of fragment reads, each fragment read having a fragment length;
determining, by the computing system, a variability in fragment sizes for at least one gene associated with a cell type; and predicting, by the computing system, the cell type based on the variability in fragment sizes for the at least one gene.
前記断片サイズの変動性を決定するステップが、断片サイズの変動係数を決定することを含む、請求項71に記載のコンピュータ実装方法。 72. The computer-implemented method of claim 71, wherein the step of determining the variability of fragment sizes includes determining a coefficient of variation of fragment sizes. ゲノムカバレッジ分布に基づいて前記細胞型を予測するステップが、細胞表現型を予測することを含む、請求項71に記載のコンピュータ実装方法。 The computer-implemented method of claim 71, wherein predicting the cell type based on the genome coverage distribution includes predicting a cell phenotype. 前記細胞表現型を予測することが、がん亜型を予測することを含む、請求項73に記載のコンピュータ実装方法。 The computer-implemented method of claim 73, wherein predicting the cell phenotype includes predicting a cancer subtype. 前記細胞表現型を予測することが、前立腺がんのがん亜型を予測することを含む、請求項74に記載のコンピュータ実装方法。 The computer-implemented method of claim 74, wherein predicting the cell phenotype includes predicting a cancer subtype of prostate cancer. 前記がん亜型を予測することが、ARPCとNEPCを区別することを含む、請求項75に記載のコンピュータ実装方法。 The computer-implemented method of claim 75, wherein predicting the cancer subtype includes distinguishing between ARPC and NEPC. 前記断片サイズの変動性に基づいて前記細胞型を予測するステップが、
前記断片サイズの変動性に基づいて1つまたは複数の特徴を生成すること、
前記1つまたは複数の特徴を分類器モデルへの入力として提供すること、および
前記分類器モデルの出力に基づいて前記細胞型を決定すること
を含む、請求項71に記載のコンピュータ実装方法。
predicting the cell type based on the variability of the fragment sizes,
generating one or more features based on the variability in fragment sizes;
72. The computer-implemented method of claim 71, comprising providing the one or more features as input to a classifier model; and determining the cell type based on an output of the classifier model.
前記断片サイズの変動性に基づいて前記1つまたは複数の特徴を生成することが、第1の細胞型における第2の細胞型に対する断片サイズの変動係数のlog倍率変化値を生成することを含む、請求項77に記載のコンピュータ実装方法。 78. The computer-implemented method of Claim 77, wherein generating the one or more features based on the variability in fragment size comprises generating a log 2 fold change value of a coefficient of variation in fragment size in a first cell type relative to a second cell type. 前記log倍率変化値により、前記第1の細胞型と前記第2の細胞型の間の遺伝子発現および遺伝子転写活性の少なくとも1つが予測される、請求項78に記載のコンピュータ実装方法。 80. The computer-implemented method of claim 78, wherein the log 2 fold change value predicts at least one of gene expression and gene transcription activity between the first cell type and the second cell type. 前記第1の細胞型がARPC細胞であり、前記第2の細胞型がNEPC細胞である、請求項78に記載のコンピュータ実装方法。 The computer-implemented method of claim 78, wherein the first cell type is an ARPC cell and the second cell type is a NEPC cell. 前記分類器モデルが、ロジスティック回帰モデル、人工ニューラルネットワーク、決定木、サポートベクターマシン、またはベイジアンネットワークを含む、請求項77に記載のコンピュータ実装方法。 The computer-implemented method of claim 77, wherein the classifier model comprises a logistic regression model, an artificial neural network, a decision tree, a support vector machine, or a Bayesian network. 目的の細胞に由来するセルフリーDNAを含む試料由来の目的の前記細胞の細胞型を決定するための方法であって、
セルフリーDNAを含む前記試料から生成された配列リードデータを得るステップ、
請求項71から81までのいずれか一項に記載のコンピュータ実装方法を実施するステップ、および
前記コンピューティングシステムによって提供された予測に基づいて目的の前記細胞の前記細胞型を決定するステップ
を含む、方法。
1. A method for determining the cell type of a cell of interest from a sample comprising cell-free DNA derived from said cell of interest, comprising:
obtaining sequence read data generated from said sample comprising cell-free DNA;
82. A method comprising: performing a computer-implemented method according to any one of claims 71 to 81; and determining the cell type of the cell of interest based on a prediction provided by the computing system.
前記細胞型を決定するステップが、細胞表現型を決定することを含む、請求項82に記載の方法。 83. The method of claim 82, wherein the step of determining the cell type comprises determining a cell phenotype. 前記細胞表現型を決定することが、がん亜型を決定することを含む、請求項83に記載の方法。 The method of claim 83, wherein determining the cell phenotype comprises determining a cancer subtype. 前記がん亜型を決定することが、ARPCとNEPCを区別することを含む、請求項84に記載の方法。 85. The method of claim 84, wherein determining the cancer subtype comprises distinguishing between ARPC and NEPC. 対象におけるがん細胞の存在を検出する方法であって、
前記対象から得たセルフリーDNAを含む試料から生成された配列リードデータを得るステップ、
請求項71から81までのいずれか一項に記載のコンピュータ実装方法を実施するステップ、および
前記コンピューティングシステムによって提供された予測に基づいて前記対象におけるがん細胞の存在を決定するステップ
を含む、方法。
1. A method for detecting the presence of cancer cells in a subject, comprising:
obtaining sequence read data generated from a sample comprising cell-free DNA obtained from the subject;
82. A method comprising: performing a computer-implemented method according to any one of claims 71 to 81; and determining the presence of cancer cells in the subject based on a prediction provided by the computing system.
経時的に複数回実施され、各実施時に前記対象において検出されたがん細胞(複数可)をさらに特徴付けて、前記コンピューティングシステムによって提供された予測に基づいて、前記検出されたがん細胞(複数可)のがん亜型または表現型を決定する、請求項86に記載の方法。 87. The method of claim 86, wherein the method is performed multiple times over time, and during each of the multiple times, the cancer cell(s) detected in the subject are further characterized to determine a cancer subtype or phenotype of the detected cancer cell(s) based on the predictions provided by the computing system. 経時的に複数回実施され、前記検出されたがん細胞表現型の変化を経時的に検出するステップをさらに含む、請求項87に記載の方法。 The method of claim 87, further comprising a step of detecting changes in the detected cancer cell phenotype over time, the step being performed multiple times over time. 前記対象が、前記方法の実施間にがん治療を受け、前記方法が、前記処置に対する前記がん細胞の応答性を決定するステップをさらに含む、請求項87または88に記載の方法。 The method of claim 87 or 88, wherein the subject receives a cancer treatment during the administration of the method, and the method further comprises a step of determining the responsiveness of the cancer cells to the treatment. 標的がん細胞に由来するセルフリーDNAを含む試料由来の前記標的がん細胞のがん亜型を決定する方法であって、
セルフリーDNAを含む前記試料から生成された配列リードデータを得るステップ、
請求項71から81までのいずれか一項に記載のコンピュータ実装方法を実施するステップ、および
前記コンピューティングシステムによって提供された、予測されるがん亜型に基づいて、起源細胞の前記細胞型を決定するステップ
を含む、方法。
1. A method for determining a cancer subtype of a target cancer cell from a sample containing cell-free DNA derived from the target cancer cell, comprising:
obtaining sequence read data generated from said sample comprising cell-free DNA;
82. A method comprising: performing a computer-implemented method according to any one of claims 71 to 81; and determining the cell type of a cell of origin based on a predicted cancer subtype provided by the computing system.
前記試料が、がんを有する対象から得たものである、請求項90に記載の方法。 The method of claim 90, wherein the sample is obtained from a subject having cancer. 前記がんが、転移前立腺がんであると特徴付けられる、請求項86から91までのいずれか一項に記載の方法。 The method of any one of claims 86 to 91, wherein the cancer is characterized as metastatic prostate cancer. 前記がん亜型を前記決定することが、前記がんがAR+(ARPC)であるのかAR-であるのかを決定することを含む、請求項92に記載の方法。 The method of claim 92, wherein determining the cancer subtype comprises determining whether the cancer is AR+ (ARPC) or AR-. 前記がん亜型を前記決定することが、前記がんがARPCであるのかAR-low前立腺がん(ARLPC)であるのかを決定することを含む、請求項92に記載の方法。 The method of claim 92, wherein determining the cancer subtype includes determining whether the cancer is ARPC or AR-low prostate cancer (ARLPC). 前記がん亜型を前記決定することが、前記がんが神経内分泌前立腺がん(NEPC)表現型シグネチャーを有するか否かを決定することを含む、請求項92に記載の方法。 93. The method of claim 92, wherein determining the cancer subtype comprises determining whether the cancer has a neuroendocrine prostate cancer (NEPC) phenotype signature. 前記試料が、対象から得たものであり、前記方法が、前記決定されたがん亜型に基づいて、前記対象に対して有効な処置を施行するステップをさらに含む、請求項86から95までのいずれか一項に記載の方法。 The method of any one of claims 86 to 95, wherein the sample is obtained from a subject, and the method further comprises administering an effective treatment to the subject based on the determined cancer subtype. がんであると最初に診断された後の複数の別個の時点で前記対象から得た複数の試料に対して前記方法を実施するステップをさらに含む、請求項86から96までのいずれか一項に記載の方法。 The method of any one of claims 86 to 96, further comprising performing the method on a plurality of samples obtained from the subject at a plurality of distinct time points after an initial diagnosis of cancer. 前記配列リードデータが、超ローパス全ゲノムシーケンシングによって生成されたものである、請求項82から97までのいずれか一項のいずれか一項に記載の方法。 The method of any one of claims 82 to 97, wherein the sequence read data is generated by ultra-low pass whole genome sequencing. 前記配列リードデータが、クロマチンアクセシビリティアッセイによって生成されたものである、請求項82から97までのいずれか一項に記載の方法。 The method of any one of claims 82 to 97, wherein the sequence read data is generated by a chromatin accessibility assay. 前記配列リードデータが、ATAC-seq法で生成されたものである、請求項82から97までのいずれか一項に記載の方法。 The method according to any one of claims 82 to 97, wherein the sequence read data is generated by the ATAC-seq method. 前記配列リードデータが、ChIP-seq法で生成されたものである、請求項82から97までのいずれか一項に記載の方法。 The method according to any one of claims 82 to 97, wherein the sequence read data is generated by the ChIP-seq method. 前記配列リードデータが、DNA分解酵素感受性アッセイで生成されたものである、請求項82から97までのいずれか一項に記載の方法。 The method of any one of claims 82 to 97, wherein the sequence read data is generated by a DNase sensitivity assay. 前記配列リードデータが、カットアンドランアッセイで生成されたものである、請求項82から97までのいずれか一項に記載の方法。 The method of any one of claims 82 to 97, wherein the sequence read data is generated by a cut-and-run assay. 前記カットアンドランアッセイには、H3K27ac、H3K4me1およびH3K27acのうちの1つまたは複数に対する翻訳後修飾を標的とする親和性試薬が組み込まれている、請求項103に記載の方法。 The method of claim 103, wherein the cut-and-run assay incorporates an affinity reagent that targets a post-translational modification to one or more of H3K27ac, H3K4me1, and H3K27ac. 前記配列リードデータを生成するステップをさらに含む、請求項71から104までのいずれか一項に記載の方法。 The method of any one of claims 71 to 104, further comprising generating the sequence read data. 前記配列リードデータが、ゲノム標的のパネルから生成されたものである、請求項71から105までのいずれか一項に記載の方法。 The method of any one of claims 71 to 105, wherein the sequence read data is generated from a panel of genomic targets. ゲノム標的の前記パネルが、目的のがん型に関連付けられる1種または複数種の転写因子の転写因子結合部位(TFBS)を含む、請求項106に記載の方法。 107. The method of claim 106, wherein the panel of genomic targets comprises transcription factor binding sites (TFBS) for one or more transcription factors associated with a cancer type of interest. 前記TFBSのヌクレオソーム占有率を決定するステップを含む、請求項107に記載の方法。 The method of claim 107, comprising determining the nucleosome occupancy of the TFBS. 前記TFBSが、ChIP-seqデータなどによって同定され、目的の前記がん型に関連付けられる遺伝子の転写開始部位の近位にある場合、前記パネル中に保持される、請求項107に記載の方法。 The method of claim 107, wherein the TFBS is retained in the panel if it is proximal to the transcription start site of a gene associated with the cancer type of interest, as identified, for example, by ChIP-seq data. ゲノム標的の前記パネルが、目的の前記がん型に関連付けられる1種または複数種のマーカーの転写開始部位(TSS)を含み、前記方法が、前記TSSのヌクレオソーム占有率を決定するステップを含む、請求項107に記載の方法。 107. The method of claim 107, wherein the panel of genomic targets comprises transcription start sites (TSSs) of one or more markers associated with the cancer type of interest, and the method comprises determining nucleosome occupancy of the TSSs. 前記試料が、血液、血漿、または血清である、請求項82から110までのいずれか一項に記載の方法。 The method of any one of claims 82 to 110, wherein the sample is blood, plasma, or serum.
JP2023561726A 2021-04-08 2022-04-08 Cell-free DNA sequencing data analysis methods to investigate nucleosome protection and chromatin accessibility Pending JP2024515565A (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163172590P 2021-04-08 2021-04-08
US63/172,590 2021-04-08
US202163276378P 2021-11-05 2021-11-05
US63/276,378 2021-11-05
PCT/US2022/024082 WO2022217096A2 (en) 2021-04-08 2022-04-08 Cell-free dna sequence data analysis method to examine nucleosome protection and chromatin accessibility

Publications (1)

Publication Number Publication Date
JP2024515565A true JP2024515565A (en) 2024-04-10

Family

ID=83545807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023561726A Pending JP2024515565A (en) 2021-04-08 2022-04-08 Cell-free DNA sequencing data analysis methods to investigate nucleosome protection and chromatin accessibility

Country Status (5)

Country Link
EP (1) EP4320618A2 (en)
JP (1) JP2024515565A (en)
AU (1) AU2022255198A1 (en)
CA (1) CA3214391A1 (en)
WO (1) WO2022217096A2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376616B (en) * 2022-10-24 2023-04-28 臻和(北京)生物科技有限公司 Multi-classification method and device based on cfDNA multiunit science

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725422B2 (en) * 2010-10-13 2014-05-13 Complete Genomics, Inc. Methods for estimating genome-wide copy number variations
US10497461B2 (en) * 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
KR102441391B1 (en) * 2014-07-25 2022-09-07 유니버시티 오브 워싱톤 Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same
US20190287645A1 (en) * 2016-07-06 2019-09-19 Guardant Health, Inc. Methods for fragmentome profiling of cell-free nucleic acids
EP3635133A4 (en) * 2017-06-09 2021-03-03 Bellwether Bio, Inc. Determination of cancer type in a subject by probabilistic modeling of circulating nucleic acid fragment endpoints
JP7531217B2 (en) * 2018-05-18 2024-08-09 ザ ジョンズ ホプキンス ユニバーシティ Cell-free DNA for assessing and/or treating cancer - Patents.com
JP2022532897A (en) * 2019-05-14 2022-07-20 テンパス ラブズ,インコーポレイテッド Systems and methods for multi-label cancer classification

Also Published As

Publication number Publication date
WO2022217096A2 (en) 2022-10-13
EP4320618A2 (en) 2024-02-14
AU2022255198A1 (en) 2023-11-23
WO2022217096A3 (en) 2022-12-29
CA3214391A1 (en) 2022-10-13

Similar Documents

Publication Publication Date Title
Hennigan et al. Low abundance of circulating tumor DNA in localized prostate cancer
US20240274233A1 (en) Cell-free detection of methylated prostate tumour
Gandara et al. Blood-based tumor mutational burden as a predictor of clinical benefit in non-small-cell lung cancer patients treated with atezolizumab
Saal et al. The Sweden Cancerome Analysis Network-Breast (SCAN-B) Initiative: a large-scale multicenter infrastructure towards implementation of breast cancer genomic analyses in the clinical routine
Tsai et al. Gene expression signatures of neuroendocrine prostate cancer and primary small cell prostatic carcinoma
Doebley et al. A framework for clinical cancer subtyping from nucleosome profiling of cell-free DNA
Tran et al. Cancer genomics: technology, discovery, and translation
Shukla et al. Plasma DNA-based molecular diagnosis, prognostication, and monitoring of patients with EWSR1 fusion-positive sarcomas
JP7365899B2 (en) Cancer classification and prognosis
US20190362808A1 (en) Methods of detecting somatic and germline variants in impure tumors
US20210257047A1 (en) Methods and systems for refining copy number variation in a liquid biopsy assay
De Sarkar et al. Nucleosome patterns in circulating tumor DNA reveal transcriptional regulation of advanced prostate cancer phenotypes
JP2022511243A (en) Transcription factor profiling
Chan et al. An RCOR1 loss–associated gene expression signature identifies a prognostically significant DLBCL subgroup
Connell et al. Development of a multivariable risk model integrating urinary cell DNA methylation and cell‐free RNA data for the detection of significant prostate cancer
US20240279745A1 (en) Systems and methods for multi-analyte detection of cancer
Brannon et al. Enhanced specificity of high sensitivity somatic variant profiling in cell-free DNA via paired normal sequencing: design, validation, and clinical experience of the MSK-ACCESS liquid biopsy assay
Lau et al. Single-molecule methylation profiles of cell-free DNA in cancer with nanopore sequencing
Franceschini et al. Noninvasive Detection of Neuroendocrine Prostate Cancer through Targeted Cell-free DNA Methylation
Zhang et al. Prognostic value of a five-lncRNA signature in esophageal squamous cell carcinoma
US20220380853A1 (en) Prostate cancer detection methods
JP2024515565A (en) Cell-free DNA sequencing data analysis methods to investigate nucleosome protection and chromatin accessibility
Bastos et al. Genomic biomarkers and underlying mechanism of benefit from BCG immunotherapy in non-muscle invasive bladder cancer
WO2021041968A1 (en) Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
Chen et al. Plasma circulating tumour DNA is a better source for diagnosis and mutational analysis of IVLBCL than tissue DNA