JP7264534B2 - Determination of base modifications of nucleic acids - Google Patents

Determination of base modifications of nucleic acids Download PDF

Info

Publication number
JP7264534B2
JP7264534B2 JP2021514525A JP2021514525A JP7264534B2 JP 7264534 B2 JP7264534 B2 JP 7264534B2 JP 2021514525 A JP2021514525 A JP 2021514525A JP 2021514525 A JP2021514525 A JP 2021514525A JP 7264534 B2 JP7264534 B2 JP 7264534B2
Authority
JP
Japan
Prior art keywords
methylation
dna
nucleic acid
molecule
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021514525A
Other languages
Japanese (ja)
Other versions
JPWO2021032060A5 (en
JP2022540966A (en
Inventor
ユク-ミン デニス ロー
ロッサ ワイ クン チウ
クワン チー チャン
ペイヨン チアン
スク ハン チョン
ウェンレイ ポン
オン イェー ツェ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese University of Hong Kong CUHK
Original Assignee
Chinese University of Hong Kong CUHK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=74567577&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP7264534(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Chinese University of Hong Kong CUHK filed Critical Chinese University of Hong Kong CUHK
Publication of JP2022540966A publication Critical patent/JP2022540966A/en
Publication of JPWO2021032060A5 publication Critical patent/JPWO2021032060A5/ja
Priority to JP2023062223A priority Critical patent/JP7369492B2/en
Application granted granted Critical
Publication of JP7264534B2 publication Critical patent/JP7264534B2/en
Priority to JP2023174256A priority patent/JP7462993B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6816Hybridisation assays characterised by the detection means
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6851Quantitative amplification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/164Methylation detection other then bisulfite or methylation sensitive restriction endonucleases
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/60Detection means characterised by use of a special device
    • C12Q2565/601Detection means characterised by use of a special device being a microscope, e.g. atomic force microscopy [AFM]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection

Description

関連出願の相互参照
本出願は、2020年7月13日に出願された「核酸の塩基修飾の決定」と題する米国仮特許出願第63/051,210号、2020年5月4日に出願された「核酸の塩基修飾の決定」と題する米国仮特許出願第63/019,790号、2020年3月19日に出願された「核酸の塩基修飾の決定」と題する米国仮特許出願第62/991,891号、2020年2月5日に出願された「核酸の塩基修飾の決定」と題する米国仮特許出願第62/970,586号、および、2019年8月16日に出願された「核酸の塩基修飾の決定」と題する米国仮特許出願第62/887,987号に対する優先権の利益を主張する。これらすべての内容は、すべての目的のために参照により本明細書に援用される。
CROSS-REFERENCE TO RELATED APPLICATIONS This application is filed May 4, 2020, U.S. Provisional Patent Application No. 63/051,210, entitled "Determination of Base Modifications of Nucleic Acids," filed July 13, 2020. U.S. Provisional Patent Application No. 63/019,790 entitled "Determination of Base Modifications of Nucleic Acids," U.S. Provisional Patent Application No. 62/019,790, entitled "Determination of Base Modifications of Nucleic Acids," filed March 19, 2020. 991,891, U.S. Provisional Patent Application No. 62/970,586, entitled "Determination of Base Modifications of Nucleic Acids," filed February 5, 2020; No. 62/887,987 entitled "Determination of Base Modifications of Nucleic Acids". The contents of all of these are hereby incorporated by reference for all purposes.

核酸の塩基修飾の存在は、ウイルス、細菌、植物、真菌、線虫、昆虫、および脊椎動物(例えば、ヒト)などを含む、様々な生物で異なる。最も一般的な塩基修飾は、異なる位置における異なるDNA塩基へのメチル基の付加、いわゆるメチル化である。メチル化は、5mC(5-メチルシトシン)、4mC(N4-メチルシトシン)、5hmC(5-ヒドロキシメチルシトシン)、5fC(5-ホルミルシトシン)、5caC(5-カルボキシルシトシン)、1mA(N1-メチルアデニン)、3mA(N3-メチルアデニン)、7mA(N7-メチルアデニン)、3mC(N3-メチルシトシン)、2mG(N2-メチルグアニン)、6mG(O6-メチルグアニン)、7mG(N7-メチルグアニン)、3mT(N3-メチルチミン)、および4mT(O4-メチルチミン)などのシトシン、アデニン、チミン、グアニンで見出されている。脊椎動物のゲノムでは、5mCが最も一般的なタイプの塩基メチル化であり、グアニンのメチル化がそれに続く(すなわち、CpGの文脈で)。 The presence of base modifications in nucleic acids varies in different organisms, including viruses, bacteria, plants, fungi, nematodes, insects, vertebrates (eg, humans), and the like. The most common base modification is the addition of methyl groups to different DNA bases at different positions, so-called methylation. Methylation is 5mC (5-methylcytosine), 4mC (N4-methylcytosine), 5hmC (5-hydroxymethylcytosine), 5fC (5-formylcytosine), 5caC (5-carboxylcytosine), 1mA (N1-methylcytosine) adenine), 3 mA (N3-methyladenine), 7 mA (N7-methyladenine), 3mC (N3-methylcytosine), 2mG (N2-methylguanine), 6mG (O6-methylguanine), 7mG (N7-methylguanine) , 3mT (N3-methylthymine), and 4mT (O4-methylthymine), such as cytosines, adenines, thymines, guanines. In vertebrate genomes, 5mC is the most common type of base methylation, followed by guanine methylation (ie, in the context of CpGs).

DNAメチル化は哺乳動物の発生に不可欠であり、遺伝子発現およびサイレンシング、胚発生、転写、クロマチン構造、X染色体不活性化、反復要素の活性に対する保護、有糸分裂中のゲノム安定性の維持、ならびに親起源のゲノムインプリンティングの調節において注目すべき役割を果たす。 DNA methylation is essential for mammalian development, gene expression and silencing, embryonic development, transcription, chromatin structure, X-chromosome inactivation, protection against repetitive element activity, maintenance of genome stability during mitosis , as well as play a notable role in regulating genomic imprinting of parental origin.

DNAメチル化は、プロモーターおよびエンハンサーのサイレンシングにおいて、協調的な様式で多くの重要な役割を果たす(Robertson,2005、Smith and Meissner,2013)。多くのヒトの疾患は、DNAメチル化の異常に関連することが見出されており、限定されないが、発癌のプロセス、インプリンティング障害(例えば、ベックウィズ・ウィーデマン症候群およびプラダー・ウィリー症候群)、反復不安定性疾患(例えば、脆弱X症候群)、自己免疫障害(例えば、全身性紅斑性狼瘡)、代謝障害(例えば、I型およびII型糖尿病)、神経障害、加齢などを含む。 DNA methylation plays many important roles in promoter and enhancer silencing in a coordinated manner (Robertson, 2005; Smith and Meissner, 2013). Many human diseases have been found to be associated with abnormal DNA methylation, including but not limited to carcinogenic processes, imprinting disorders (e.g. Beckwith-Wiedemann syndrome and Prader-Willi syndrome), recurrent Instability disorders (eg, fragile X syndrome), autoimmune disorders (eg, systemic lupus erythematosus), metabolic disorders (eg, type I and type II diabetes), neuropathies, aging, and the like.

DNA分子のメチロミックな修飾を正確に測定することは、多くの臨床的意味を有する。DNAメチル化を測定するために広く使用されている1つの方法は、バイサルファイト配列決定(BS-seq)を使用することである(Lister et al.,2009、Frommer et al.,1992)。このアプローチでは、DNA試料を、最初にバイサルファイトで処理して、非メチル化シトシン(すなわち、C)をウラシルに変換する。対照的に、メチル化シトシンは、変化せずに残る。次いで、バイサルファイト修飾DNAを、DNA配列決定によって分析する。別のアプローチでは、バイサルファイト変換に続いて、修飾DNAは、次いで異なるメチル化プロファイルのバイサルファイト変換DNAを区別できるプライマーを使用して、ポリメラーゼ連鎖反応(PCR)増幅にかけられる(Herman et al.,1996)。この後者のアプローチは、メチル化特異的PCRと呼ばれる。 Accurate measurement of methylomic modifications of DNA molecules has many clinical implications. One widely used method to measure DNA methylation is to use bisulfite sequencing (BS-seq) (Lister et al., 2009; Frommer et al., 1992). In this approach, a DNA sample is first treated with bisulfite to convert unmethylated cytosines (ie, C) to uracil. In contrast, methylated cytosines remain unchanged. The bisulfite-modified DNA is then analyzed by DNA sequencing. In another approach, following bisulfite conversion, the modified DNA is then subjected to polymerase chain reaction (PCR) amplification using primers that can distinguish bisulfite-converted DNA of different methylation profiles (Herman et al., 1996). This latter approach is called methylation-specific PCR.

このようなバイサルファイトに基づくアプローチの1つの欠点は、バイサルファイト変換ステップで、処理されたDNAの大部分が著しく分解されることが報告されていることである(Grunau,2001)。別の欠点は、バイサルファイト変換ステップによって強いCGバイアスが生成され(Olova et al.,2018)、典型的には、不均一なメチル化状態を有するDNA混合物に対して信号対雑音比が低下することである。さらに、バイサルファイト配列決定では、バイサルファイト処理中にDNAが分解されるため、長鎖DNA分子を配列決定することができない。したがって、事前の化学処理(例えば、バイサルファイト変換)および核酸増幅(例えば、PCRの使用)なしに、核酸の塩基の修飾を決定する必要がある。 One drawback of such bisulfite-based approaches is that the bisulfite conversion step has been reported to significantly degrade most of the treated DNA (Grunau, 2001). Another drawback is that the bisulfite conversion step produces a strong CG bias (Olova et al., 2018), typically resulting in a reduced signal-to-noise ratio for DNA mixtures with heterogeneous methylation states. That is. Furthermore, bisulfite sequencing cannot sequence long DNA molecules because the DNA is degraded during the bisulfite treatment. Therefore, there is a need to determine base modifications of nucleic acids without prior chemical treatment (eg, bisulfite conversion) and nucleic acid amplification (eg, using PCR).

本発明者らは、一実施形態では、酵素的および/または化学的変換、あるいはタンパク質および/または抗体結合などの鋳型DNAの前処理なしで、核酸中の5mCなどの塩基修飾の決定を可能にする新しい方法を開発した。そのような鋳型DNAの前処理は、塩基修飾の決定に必要ではないが、示される実施例において、特定の前処理(例えば、制限酵素による消化)は、本発明の態様を強化するのに役立つ可能性がある(例えば、分析のためのCpG部位の濃縮を可能にする)。本開示に存在する実施形態は、例えば、限定されないが、4mC、5hmC、5fC、および5caC、1mA、3mA、7mA、3mC、2mG、6mG、7mG、3mTおよび4mTなどを含む、異なるタイプの塩基修飾を検出するために使用され得る。そのような実施形態は、様々な塩基修飾によって影響を受ける動態特徴などの配列決定に由来する特徴、ならびにメチル化状態が決定される標的位置周囲のウィンドウにおけるヌクレオチドの識別(identity)を利用することができる。
We have found that in one embodiment, it enables the determination of base modifications such as 5mC in nucleic acids without enzymatic and/or chemical transformations or pretreatment of the template DNA such as protein and/or antibody binding. developed a new method to Such pretreatment of template DNA is not required for determination of base modifications, but in the examples shown, certain pretreatments (e.g., digestion with restriction enzymes) serve to enhance aspects of the invention. (eg allowing enrichment of CpG sites for analysis). Embodiments present in the present disclosure include, for example, but not limited to, 4mC, 5hmC, 5fC, and 5caC, 1 mA, 3 mA, 7 mA, 3 mC, 2 mG, 6 mG, 7 mG, 3 mT and 4 mT, and the like. can be used to detect Such embodiments take advantage of sequencing-derived features such as kinetic features that are affected by various base modifications, as well as the identity of nucleotides in the window around the target position in which methylation status is determined. can be done.

本発明の実施形態は、限定されないが、単一分子配列決定に使用することができる。単一分子配列決定の1つのタイプは、単一DNA分子の配列決定の進行状況をリアルタイムで監視する単一分子リアルタイム配列決定である。単一分子リアルタイム配列決定の1つのタイプは、Pacific Biosciencesによって、単一分子リアルタイム(SMRT)システムを使用して商品化されたものである。方法は、塩基または近傍の塩基の修飾を検出するために、配列決定塩基からの信号のパルス幅、塩基のパルス間隔(interpulse duration、IPD)、および塩基の識別(identity)を使用することができる。別の単一分子システムは、ナノポア配列決定に基づくシステムである。ナノポア配列決定システムの一例は、Oxford Nanopore Technologiesによって、商品化されたものである。
Embodiments of the present invention can be used for, but not limited to, single molecule sequencing. One type of single-molecule sequencing is single-molecule real-time sequencing, which monitors the sequencing progress of a single DNA molecule in real-time. One type of single-molecule real-time sequencing has been commercialized by Pacific Biosciences using single-molecule real-time (SMRT) systems. The method can use the pulse width of the signal from the sequencing bases, the interpulse duration (IPD) of the bases, and the identity of the bases to detect modifications of the bases or nearby bases. . Another single-molecule system is a system based on nanopore sequencing. One example of a nanopore sequencing system is that commercialized by Oxford Nanopore Technologies.

本発明者らが開発した方法は、生体試料の塩基修飾を検出して、限定されないが、研究や診断の目的を含む様々な目的で、試料のメチル化プロファイルを評価するためのツールとして役立つ。検出されたメチル化プロファイルは、異なる分析に使用することができる。メチル化プロファイルは、DNAの起源を検出するために使用することができる(例えば、母体または胎児、組織、細菌、あるいは癌患者の血液から濃縮された腫瘍細胞から取得されたDNA)。組織における異常なメチル化プロファイルの検出は、個人の発達障害の特定、腫瘍または悪性腫瘍の特定および予測に役立つ。 The method developed by the inventors detects base modifications in biological samples and serves as a tool to assess the methylation profile of samples for a variety of purposes, including but not limited to research and diagnostic purposes. The detected methylation profile can be used for different analyses. Methylation profiles can be used to detect the origin of DNA (eg, DNA obtained from maternal or fetal, tissue, bacteria, or tumor cells enriched from the blood of cancer patients). Detection of aberrant methylation profiles in tissues helps identify developmental disorders in individuals, identify and predict tumors or malignancies.

本発明の実施形態は、生物のハプロタイプの相対的なメチル化レベルを分析することを含み得る。2つのハプロタイプ間のメチル化レベルの不均衡は、障害の分類を決定するために使用され得る。より大きな不均衡は、障害の存在、またはより重度の障害を示している可能性がある。障害には、癌が含まれ得る。 Embodiments of the invention may include analyzing relative methylation levels of haplotypes in an organism. The imbalance in methylation levels between the two haplotypes can be used to determine disorder classification. A larger imbalance may indicate the presence of a disability, or a more severe disability. Disorders can include cancer.

単一分子のメチル化パターンにより、キメラおよびハイブリッドDNAを特定することができる。キメラおよびハイブリッド分子は、2つの異なる遺伝子、染色体、細胞小器官(例えば、ミトコンドリア、核、葉緑体)、生物(哺乳動物、細菌、ウイルスなど)、および/または種からの配列を含み得る。キメラまたはハイブリッドDNA分子の接合部を検出することで、癌、出生前障害または先天性障害を含む様々な障害または疾患の遺伝子融合を検出することが可能になり得る。 Chimeric and hybrid DNA can be identified by single-molecule methylation patterns. Chimeric and hybrid molecules can include sequences from two different genes, chromosomes, organelles (eg, mitochondria, nuclei, chloroplasts), organisms (mammals, bacteria, viruses, etc.), and/or species. Detecting junctions in chimeric or hybrid DNA molecules may allow detection of gene fusions in various disorders or diseases, including cancer, prenatal or congenital disorders.

本発明の実施形態の性質および利点に関するより良好な理解は、以下の詳細な説明および添付の図面を参照して得ることができる。 A better understanding of the nature and advantages of embodiments of the present invention may be obtained with reference to the following detailed description and accompanying drawings.

本発明の実施形態による、塩基修飾を有する分子のSMRT配列決定を示す。Figure 3 shows SMRT sequencing of molecules with base modifications according to embodiments of the invention. 本発明の実施形態による、メチル化および非メチル化CpG部位を有する分子のSMRT配列決定を示す。Figure 3 shows SMRT sequencing of molecules with methylated and unmethylated CpG sites according to embodiments of the invention. 本発明の実施形態による、パルス間隔およびパルス幅を示す。4 shows pulse intervals and pulse widths according to embodiments of the present invention; 本発明の実施形態による、塩基修飾を検出するための、DNAのワトソン鎖の測定ウィンドウの一例を示す。FIG. 10 shows an example of a Watson strand measurement window of DNA for detecting base modifications according to embodiments of the present invention. FIG. 本発明の実施形態による、塩基修飾を検出するためのDNAのクリック鎖の測定ウィンドウの一例を示す。FIG. 10 shows an example of a DNA click strand measurement window for detecting base modifications according to embodiments of the present invention. FIG. 本発明の実施形態による、任意の塩基修飾を検出するための、DNAのワトソン鎖およびその相補的なクリック鎖からのデータを組み合わせることによる測定ウィンドウの一例を示す。FIG. 10 shows an example of a measurement window by combining data from the Watson strand of DNA and its complementary Crick strand for detecting arbitrary base modifications according to embodiments of the present invention. FIG. 本発明の実施形態による、任意の塩基修飾を検出するための、DNAのワトソン鎖およびその近くの領域のクリック鎖からのデータを組み合わせることによる測定ウィンドウの一例を示す。FIG. 11 shows an example of a measurement window by combining data from the Watson strand of DNA and the Crick strand of the nearby region for detecting arbitrary base modifications according to embodiments of the present invention. 本発明の実施形態による、CpG部位のメチル化状態を決定するためのワトソン鎖、クリック鎖、および両鎖の測定ウィンドウの一例を示す。FIG. 10 shows an example of a Watson strand, a Crick strand, and a measurement window for both strands for determining the methylation status of a CpG site, according to embodiments of the present invention. FIG. 本発明の実施形態による、塩基修飾を分類するための分析的、計算的、数学的、または統計モデルを構築する一般的な手順を示す。1 shows general procedures for building analytical, computational, mathematical, or statistical models for classifying base modifications according to embodiments of the invention. 本発明の実施形態による、塩基修飾の分類の一般的な手順を示す。1 shows a general procedure for classifying base modifications according to embodiments of the invention. 本発明の実施形態による、ワトソン鎖の既知のメチル化状態を有する試料を使用して、CpG部位のメチル化状態を分類するための分析的、計算的、数学的、または統計モデルを構築する一般的な手順を示す。General building analytical, computational, mathematical, or statistical models for classifying the methylation status of CpG sites using samples with known methylation status of Watson strands according to embodiments of the present invention step-by-step instructions. 本発明の実施形態による、未知の試料のワトソン鎖のメチル化状態を分類する一般的な手順を示す。1 shows a general procedure for classifying the Watson strand methylation status of unknown samples according to embodiments of the present invention. 本発明の実施形態による、クリック鎖の既知のメチル化状態を有する試料を使用して、CpG部位でのメチル化状態を分類するための分析的、計算的、数学的、または統計モデルを構築する一般的な手順を示す。Building analytical, computational, mathematical, or statistical models for classifying methylation states at CpG sites using samples with known methylation states of click strands according to embodiments of the present invention Here are the general steps. 本発明の実施形態による、未知の試料のクリック鎖のメチル化状態を分類する一般的な手順を示す。1 shows a general procedure for classifying the click strand methylation status of an unknown sample according to embodiments of the present invention. 本発明の実施形態による、ワトソン鎖およびクリック鎖の両方からの既知のメチル化状態を有する試料を使用して、CpG部位のメチル化状態を分類するための統計モデルを構築する一般的な手順を示す。A general procedure for building a statistical model for classifying the methylation status of CpG sites using samples with known methylation status from both Watson and Crick strands according to embodiments of the present invention. show. 本発明の実施形態による、ワトソン鎖およびクリック鎖からの未知の試料のメチル化状態を分類する一般的な手順を示す。FIG. 2 shows a general procedure for classifying the methylation status of unknown samples from Watson and Crick strands according to embodiments of the present invention. FIG. 本発明の実施形態による、メチル化を決定するための訓練データセットおよび試験データセットの性能を示す。Figure 3 shows the performance of training and test datasets for determining methylation according to embodiments of the invention. 同上。Ditto. 本発明の実施形態による、メチル化を決定するための訓練データセットおよび試験データセットの性能を示す。Figure 3 shows the performance of training and test datasets for determining methylation according to embodiments of the invention. 同上。Ditto. 本発明の実施形態による、メチル化を決定するための異なる配列決定深度での訓練データセットおよび試験データセットの性能を示す。FIG. 4 shows the performance of training and test datasets at different sequencing depths for determining methylation according to embodiments of the invention. FIG. 同上。Ditto. 本発明の実施形態による、メチル化を決定するための異なる鎖の訓練データセットおよび試験データセットの性能を示す。FIG. 4 shows the performance of different strand training and test datasets for determining methylation according to embodiments of the present invention. FIG. 同上。Ditto. 本発明の実施形態による、メチル化を決定するための異なる測定ウィンドウの訓練データセットおよび試験データセットの性能を示す。FIG. 4 shows the performance of training and test datasets for different measurement windows for determining methylation according to embodiments of the invention. FIG. 同上。Ditto. 本発明の実施形態による、メチル化を決定するためにのみ下流の塩基を使用する異なる測定ウィンドウについての訓練データセットおよび試験データセットの性能を示す。FIG. 4 shows the performance of training and test datasets for different measurement windows using downstream bases only to determine methylation, according to embodiments of the present invention. FIG. 同上。Ditto. 本発明の実施形態による、メチル化を決定するためにのみ上流の塩基を使用する異なる測定ウィンドウについての訓練データセットおよび試験データセットの性能を示す。FIG. 4 shows the performance of training and test datasets for different measurement windows using upstream bases only to determine methylation, according to embodiments of the present invention. FIG. 同上。Ditto. 本発明の実施形態による、訓練データセットにおける非対称隣接サイズを使用する下流および上流の塩基に関連する動態パターンを使用するメチル化分析の性能を示す。Figure 2 shows the performance of methylation analysis using dynamic patterns associated with downstream and upstream bases using asymmetric neighborhood sizes in the training dataset, according to embodiments of the present invention. 本発明の実施形態による、試験データセットにおける非対称隣接サイズを使用する下流および上流の塩基に関連する動態パターンを使用するメチル化分析の性能を示す。FIG. 4 shows the performance of methylation analysis using dynamic patterns associated with downstream and upstream bases using asymmetric neighborhood sizes in test datasets, according to embodiments of the present invention. 本発明の実施形態による、CpG部位のメチル化状態の分類に関する特徴の相対的重要性を示す。Fig. 2 shows the relative importance of features for classifying the methylation status of CpG sites according to embodiments of the present invention. 本発明の実施形態による、パルス幅信号を使用しないメチル化検出のためのモチーフベースのIPD分析の性能を示す。Figure 2 shows the performance of motif-based IPD analysis for methylation detection without the use of pulse width signals, according to embodiments of the present invention. 本発明の実施形態による、メチル化分析にかけられるシトシンの上流の2ntおよび下流の6ntを使用した主成分分析技術のグラフである。FIG. 10 is a graph of a principal component analysis technique using 2 nts upstream and 6 nts downstream of cytosine subjected to methylation analysis according to embodiments of the present invention; FIG. 本発明の実施形態による、主成分分析を使用した方法と畳み込みニューラルネットワークを使用した方法との性能比較のグラフである。5 is a graph of a performance comparison between a method using principal component analysis and a method using convolutional neural networks, according to embodiments of the invention; 本発明の実施形態による、メチル化を決定するためにのみ上流の塩基を使用する、異なる分析的、計算的、数学的、または統計モデルの訓練データセットおよび試験データセットの性能を示す。FIG. 4 shows training and test data set performance of different analytical, computational, mathematical, or statistical models using upstream bases only to determine methylation, according to embodiments of the present invention. 同上。Ditto. 本発明の実施形態による、全ゲノム増幅により、非メチル化アデニンを有する分子を生成するための1つのアプローチの一例を示す。An example of one approach for generating molecules with unmethylated adenines by whole genome amplification according to embodiments of the present invention is shown. 本発明の実施形態による、全ゲノム増幅により、メチル化アデニンを有する分子を生成するための1つのアプローチの一例を示す。An example of one approach for generating molecules with methylated adenines by whole genome amplification according to embodiments of the present invention is shown. 本発明の実施形態による、非メチル化データセットとメチル化データセットとの間のワトソン鎖の鋳型DNAにおける配列決定されたA塩基にわたるパルス間隔(IPD)値を示す。FIG. 4 shows pulse interval (IPD) values across sequenced A bases in Watson strand template DNA between unmethylated and methylated data sets, according to embodiments of the present invention. 同上。Ditto. 本発明の実施形態による、ワトソン鎖のメチル化を決定するための受信者操作特性曲線を示す。FIG. 4 shows a receiver operating characteristic curve for determining Watson strand methylation, according to embodiments of the present invention. FIG. 本発明の実施形態による、非メチル化データセットとメチル化データセットとの間のクリック鎖の鋳型DNAにおける配列決定されたA塩基にわたるパルス間隔(IPD)値を示す。FIG. 4 shows pulse interval (IPD) values across sequenced A bases in click strand template DNA between unmethylated and methylated data sets, according to embodiments of the present invention. 同上。Ditto. 本発明の実施形態による、クリック鎖のメチル化を決定するための受信者操作特性曲線を示す。FIG. 4 shows receiver operating characteristic curves for determining click strand methylation, according to embodiments of the present invention. FIG. 本発明の実施形態による、ワトソン鎖の6mAの決定を示す。6 shows the Watson chain 6 mA determination according to embodiments of the present invention. 本発明の実施形態による、クリック鎖の6mAの決定を示す。6 shows a click strand 6mA determination according to an embodiment of the present invention. 本発明の実施形態による、測定ウィンドウベースの畳み込みニューラルネットワークモデルを使用して、uAデータセットとmAデータセットとの間のワトソン鎖の配列決定されたA塩基についてのメチル化される決定された確率を示す。Determined probabilities of being methylated for sequenced A bases of the Watson strand between the uA and mA datasets using a measurement window-based convolutional neural network model, according to embodiments of the present invention. indicates 同上。Ditto. 本発明の実施形態による、ワトソン鎖の配列決定されたA塩基の測定ウィンドウベースのCNNモデルを使用して6mAを検出するためのROC曲線を示す。FIG. 10 shows a ROC curve for detecting 6 mA using a measurement window-based CNN model of sequenced A bases of Watson strands according to embodiments of the present invention. FIG. 本発明の実施形態による、IPDメトリックベースの6mA検出と測定ウィンドウベースの6mA検出との間の性能比較を示す。6 shows a performance comparison between IPD metric-based 6mA detection and measurement window-based 6mA detection according to embodiments of the present invention. 本発明の実施形態による、測定ウィンドウベースのCNNモデルを使用して、uAデータセットとmAデータセットとの間のクリック鎖のそれらの配列決定されたA塩基についてメチル化される決定された確率を示す。Using a measurement window-based CNN model according to embodiments of the present invention, the determined probabilities of being methylated for those sequenced A bases in the click strand between the uA and mA data sets are show. 同上。Ditto. 本発明の実施形態による、クリック鎖の配列決定されたA塩基についての測定ウィンドウベースのCNNモデルを使用した6mA検出の性能を示す。FIG. 4 shows the performance of 6 mA detection using a measurement window-based CNN model for sequenced A bases of click strands according to embodiments of the present invention. 本発明の実施形態による、ワトソン鎖およびクリック鎖を含む分子のA塩基にわたるメチル化状態の例を示す。FIG. 4 shows examples of methylation states across the A bases of molecules comprising Watson and Crick strands, according to embodiments of the present invention. 本発明の実施形態による、その10パーセンタイル超のIPD値を有するmAデータセットのA塩基を選択的に使用することによる強化訓練の一例を示す。FIG. 11 shows an example of reinforcement training by selectively using A bases of the mA data set with IPD values above its 10th percentile, according to embodiments of the present invention. FIG. 本発明の実施形態による、各ウェルにおけるサブリードの数に対するmAデータセットにおける非メチル化アデニンのパーセンテージのグラフである。FIG. 10 is a graph of the percentage of unmethylated adenine in the mA data set versus the number of subreads in each well, according to embodiments of the present invention; FIG. 本発明の実施形態による、試験データセットにおける二本鎖DNA分子のワトソン鎖とクリック鎖との間のメチルアデニンのパターンを示す。4 shows the pattern of methyladenines between the Watson and Crick strands of a double-stranded DNA molecule in a test data set, according to embodiments of the present invention. 本発明の実施形態による、訓練データセットおよび試験データセットにおける、完全非メチル化分子、ヘミメチル化分子、完全メチル化分子、およびインターレースのメチルアデニンパターンを有する分子のパーセンテージを示す表である。4 is a table showing the percentage of fully unmethylated, hemimethylated, fully methylated and molecules with interlaced methyladenine patterns in training and test datasets, according to embodiments of the present invention. 本発明の実施形態による、アデニン部位に関する完全非メチル化分子を有する分子、ヘミメチル化分子、完全メチル化分子、およびインターレースのメチルアデニンパターンを有する分子の代表的な例を示す。Representative examples of molecules with fully unmethylated, hemimethylated, fully methylated, and interlaced methyladenine patterns with respect to adenine sites are shown according to embodiments of the present invention. 本発明の実施形態による、CpGアイランド(黄色の網掛け)を有する長いリード(6,265bp)の一例を示す。An example of a long read (6,265 bp) with CpG islands (yellow shading) according to embodiments of the invention is shown. 本発明の実施形態による、9つのDNA分子がPacific Biosciences SMRT配列決定によって配列決定され、それらがインプリント領域と重複していることを示す表である。FIG. 4 is a table showing that nine DNA molecules were sequenced by Pacific Biosciences SMRT sequencing and that they overlap with imprinted regions, according to embodiments of the present invention. FIG. 本発明の実施形態による、ゲノムインプリンティングの一例を示す。1 shows an example of genomic imprinting according to embodiments of the present invention. 本発明の実施形態による、インプリント領域におけるメチル化パターンの決定の一例を示す。FIG. 4 shows an example of determination of methylation patterns in imprinted regions according to embodiments of the present invention. FIG. 本発明の実施形態による、新しいアプローチと従来のバイサルファイト配列決定との間で推定されたメチル化レベルの比較を示す。Figure 2 shows a comparison of estimated methylation levels between the new approach and conventional bisulfite sequencing according to embodiments of the present invention. 本発明の実施形態による、血漿DNAのメチル化の検出の性能を示す。(A)メチル化の予測確率とバイサルファイト配列決定によって定量されたメチル化レベルの範囲との関係。(B)本開示に存在する実施形態による、Pacific Biosciences(PacBio)配列決定によって決定されたメチル化レベル(y軸)と、10Mb分解能でのバイサルファイト配列決定によって定量されたメチル化レベル(x軸)との間の相関関係。Figure 2 shows the performance of plasma DNA methylation detection according to embodiments of the present invention. (A) Relationship between the predicted probability of methylation and the range of methylation levels quantified by bisulfite sequencing. (B) Methylation levels determined by Pacific Biosciences (PacBio) sequencing (y-axis) and methylation levels quantified by bisulfite sequencing at 10 Mb resolution (x-axis) according to embodiments present in the present disclosure. ). 同上。Ditto. 本発明の実施形態による、Pacific Biosciences SMRT配列決定とBS-seqとの間のY染色体のゲノム表現(GR)の相関を示す。FIG. 2 shows the correlation of Y chromosome genomic representation (GR) between Pacific Biosciences SMRT sequencing and BS-seq, according to embodiments of the present invention. 本発明の実施形態による、各々が一連のCpG部位を有するCpGブロックを使用したメチル化のCpGブロックベースの検出の一例を示す。5mC:メチル化、C:非メチル化。FIG. 4 shows an example of CpG block-based detection of methylation using CpG blocks each having a series of CpG sites according to embodiments of the invention. 5mC: methylated, C: unmethylated. 本発明の実施形態による、CpGブロックベースのアプローチを使用したヒトDNA分子のメチル化の判定(methylation calling)の訓練および試験を示す。(A)訓練データセットの性能。(B)独立した試験データセットの性能。Figure 3 shows training and testing of methylation calling of human DNA molecules using a CpG block-based approach according to embodiments of the present invention. (A) Performance of the training dataset. (B) Performance of independent test datasets. 同上。Ditto. 本発明の実施形態による、腫瘍組織におけるコピー数変化を示す。Figure 3 shows copy number alterations in tumor tissue according to embodiments of the present invention. 同上。Ditto. 本発明の実施形態による、腫瘍組織におけるコピー数変化を示す。Figure 3 shows copy number alterations in tumor tissue according to embodiments of the present invention. 同上。Ditto. 本発明の実施形態による、推定されたメチル化レベルを使用する、妊婦の血漿からの血漿DNA組織マッピングの概略図を示す。FIG. 4 shows a schematic of plasma DNA tissue mapping from plasma of pregnant women using estimated methylation levels according to embodiments of the present invention. 本発明の実施形態による、推定された母体血漿DNAへの胎盤の寄与と、Y染色体リードによって推定された胎児DNA画分との間の相関を示す。FIG. 4 shows a correlation between the estimated placental contribution to maternal plasma DNA and the fetal DNA fraction estimated by Y-chromosome reads, according to embodiments of the present invention. 本発明の実施形態による、異なるヒト組織DNA試料からの配列決定データを要約した表を示す。1 shows a table summarizing sequencing data from different human tissue DNA samples, according to embodiments of the present invention. 本発明の実施形態による、メチル化パターンを分析する様々な方法の図を示す。FIG. 2 shows diagrams of various methods of analyzing methylation patterns, according to embodiments of the present invention. 本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって定量された全ゲノムレベルでのメチル化密度の比較を示す。FIG. 4 shows a comparison of methylation densities at the genome-wide level as quantified by bisulfite sequencing and single-molecule real-time sequencing, according to embodiments of the present invention. 同上。Ditto. 本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって定量された全体的なメチル化レベルの異なる相関を示す。Figure 3 shows different correlations of global methylation levels quantified by bisulfite sequencing and single-molecule real-time sequencing, according to embodiments of the present invention. 同上。Ditto. 同上。Ditto. 本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって決定されたメチル化レベルとともに、肝細胞癌(HCC)細胞株および健康な対照の対象由来のバフィーコート試料についてのメチル化パターンを、1Mntの分解能で示す。Methylation levels for hepatocellular carcinoma (HCC) cell lines and buffy coat samples from healthy control subjects, along with methylation levels determined by bisulfite sequencing and single-molecule real-time sequencing, according to embodiments of the present invention. Patterns are shown at 1 Mnt resolution. 同上。Ditto. HCC細胞株(HepG2)および健康な対照の対象由来のバフィーコート試料について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された1Mntの分解能でのメチル化レベルの散布図を示す。Scattering methylation levels at 1 Mnt resolution determined by bisulfite sequencing and single-molecule real-time sequencing according to embodiments of the present invention for buffy coat samples from HCC cell lines (HepG2) and healthy control subjects. Figure shows. 同上。Ditto. HCC細胞株(HepG2)および健康な対照の対象由来のバフィーコート試料について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された100kntの分解能でのメチル化レベルの散布図を示す。Scattering methylation levels at 100 knt resolution determined by bisulfite sequencing and single molecule real-time sequencing according to embodiments of the present invention for buffy coat samples from HCC cell lines (HepG2) and healthy control subjects. Figure shows. 同上。Ditto. 本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって決定されたメチル化レベルとともに、HCC腫瘍組織および隣接する正常組織についてのメチル化パターンを、1Mntの分解能で示す。Methylation patterns for HCC tumor tissue and adjacent normal tissue are shown at 1 Mnt resolution, along with methylation levels determined by bisulfite sequencing and single-molecule real-time sequencing, according to embodiments of the present invention. 同上。Ditto. HCC腫瘍組織および隣接する正常組織について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された1Mntの分解能でのメチル化レベルの散布図を示す。Figure 3 shows a scatter plot of methylation levels at 1 Mnt resolution determined by bisulfite sequencing and single molecule real-time sequencing according to embodiments of the present invention for HCC tumor tissue and adjacent normal tissue. 同上。Ditto. HCC腫瘍組織および隣接する正常組織について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された100kntの分解能でのメチル化レベルの散布図を示す。Figure 3 shows a scatter plot of methylation levels at 100 knt resolution determined by bisulfite sequencing and single molecule real-time sequencing according to embodiments of the present invention for HCC tumor tissue and adjacent normal tissue. 同上。Ditto. 本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって決定されたメチル化レベルとともに、HCC腫瘍組織および隣接する正常組織についてのメチル化パターンを、1Mntの分解能で示す。Methylation patterns for HCC tumor tissue and adjacent normal tissue are shown at 1 Mnt resolution, along with methylation levels determined by bisulfite sequencing and single-molecule real-time sequencing, according to embodiments of the present invention. 同上。Ditto. HCC腫瘍組織および隣接する正常組織について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された1Mntの分解能でのメチル化レベルの散布図を示す。Figure 3 shows a scatter plot of methylation levels at 1 Mnt resolution determined by bisulfite sequencing and single molecule real-time sequencing according to embodiments of the present invention for HCC tumor tissue and adjacent normal tissue. 同上。Ditto. HCC腫瘍組織および隣接する正常組織について、本発明の実施形態によるバイサルファイト配列決定および単一分子リアルタイム配列決定によって決定された100kntの分解能でのメチル化レベルの散布図を示す。Figure 3 shows a scatter plot of methylation levels at 100 knt resolution determined by bisulfite sequencing and single molecule real-time sequencing according to embodiments of the present invention for HCC tumor tissue and adjacent normal tissue. 同上。Ditto. 本発明の実施形態による、腫瘍抑制遺伝子CDKN2Aの近くのメチル化の異常なパターンの一例を示す。FIG. 11 shows an example of an aberrant pattern of methylation near the tumor suppressor gene CDKN2A according to embodiments of the present invention. FIG. 本発明の実施形態による、単一分子リアルタイム配列決定によって検出された可変メチル化領域を示す。FIG. 4 shows variable methylated regions detected by single-molecule real-time sequencing, according to embodiments of the present invention. 同上。Ditto. 本発明の実施形態による、単一分子リアルタイム配列決定を使用した、HCC組織と隣接する非腫瘍組織との間のB型肝炎ウイルスDNAのメチル化パターンを示す。FIG. 4 shows hepatitis B virus DNA methylation patterns between HCC tissue and adjacent non-tumor tissue using single-molecule real-time sequencing, according to embodiments of the present invention. 本発明の実施形態による、バイサルファイト配列決定を使用した、肝硬変を有するがHCCを有しない患者由来の肝臓組織におけるB型肝炎ウイルスDNAのメチル化レベルを示す。FIG. 4 shows hepatitis B virus DNA methylation levels in liver tissue from patients with cirrhosis but without HCC using bisulfite sequencing, according to embodiments of the present invention. 本発明の実施形態による、バイサルファイト配列決定を使用した、HCC組織におけるB型肝炎ウイルスDNAのメチル化レベルを示す。FIG. 4 shows hepatitis B virus DNA methylation levels in HCC tissue using bisulfite sequencing, according to embodiments of the present invention. 本発明の実施形態による、メチル化ハプロタイプ分析を示す。4 shows methylation haplotype analysis according to embodiments of the invention. 本発明の実施形態による、コンセンサス配列から決定された配列決定された分子のサイズ分布を示す。Figure 3 shows the size distribution of sequenced molecules determined from consensus sequences, according to embodiments of the present invention. 本発明の実施形態による、インプリント領域におけるアレルメチル化パターンの例を示す。FIG. 4 shows examples of allelic methylation patterns in imprinted regions, according to embodiments of the present invention. FIG. 同上。Ditto. 同上。Ditto. 同上。Ditto. 本発明の実施形態による、非インプリント領域におけるアレルメチル化パターンの例を示す。FIG. 4 shows examples of allelic methylation patterns in non-imprinted regions according to embodiments of the present invention. FIG. 同上。Ditto. 同上。Ditto. 同上。Ditto. 本発明の実施形態による、アレル特異的断片のメチル化レベルの表を示す。FIG. 4 shows a table of methylation levels of allele-specific fragments according to embodiments of the invention. FIG. 本発明の実施形態による、メチル化プロファイルを使用して、妊娠中の血漿DNAの胎盤起源を決定する一例を示す。FIG. 10 shows an example of using methylation profiles to determine the placental origin of plasma DNA during pregnancy, according to embodiments of the present invention. FIG. 本発明の実施形態による、胎児特異的DNAメチル化の分析を示す。Figure 3 shows an analysis of fetal-specific DNA methylation according to embodiments of the present invention; 本発明の実施形態による、SMRT-seqのための異なる試薬キットにわたる、異なる測定ウィンドウサイズの性能を示す。Figure 2 shows the performance of different measurement window sizes across different reagent kits for SMRT-seq according to embodiments of the present invention. 同上。Ditto. 同上。Ditto. 本発明の実施形態による、SMRT-seqのための異なる試薬キットにわたる、異なる測定ウィンドウサイズの性能を示す。Figure 2 shows the performance of different measurement window sizes across different reagent kits for SMRT-seq according to embodiments of the present invention. 同上。Ditto. 同上。Ditto. 本発明の実施形態による、バイサルファイト配列決定およびSMRT-seq(Sequel II Sequencing Kit 2.0)によって定量された全体的なメチル化レベルの相関を示す。Figure 2 shows the correlation of global methylation levels quantified by bisulfite sequencing and SMRT-seq (Sequel II Sequencing Kit 2.0) according to embodiments of the present invention. 同上。Ditto. 同上。Ditto. 本発明の実施形態による、様々な腫瘍組織と、ペアの隣接する非腫瘍組織との間の全体的なメチル化レベルの比較を示す。FIG. 4 shows a comparison of global methylation levels between various tumor tissues and paired adjacent non-tumor tissues, according to embodiments of the present invention. 同上。Ditto. 本発明の実施形態による、循環コンセンサス配列(circular consensus sequence、CCS)から決定された配列文脈を使用してメチル化状態を決定することを示す。FIG. 11 shows the use of sequence context determined from a circular consensus sequence (CCS) to determine methylation status, according to embodiments of the present invention. FIG. 本発明の実施形態による、CCSから決定された配列文脈を使用したメチル化されたCpG部位の検出についてのROC曲線を示す。FIG. 4 shows ROC curves for detection of methylated CpG sites using sequence context determined from CCS, according to embodiments of the present invention. FIG. 本発明の実施形態による、CCS情報を用いず、かつ参照ゲノムへの事前の整列を用いないメチル化CpG部位の検出についてのROC曲線を示す。FIG. 4 shows ROC curves for detection of methylated CpG sites without CCS information and without prior alignment to the reference genome, according to embodiments of the present invention. FIG. 本発明の実施形態による、単一分子リアルタイム配列決定のための分子の調製の一例を示す。1 shows an example of molecule preparation for single-molecule real-time sequencing, according to embodiments of the present invention. 本発明の実施形態による、CRISPR/Cas9システムの図を示す。1 shows a diagram of a CRISPR/Cas9 system, according to an embodiment of the invention; FIG. 本発明の実施形態による、目的の末端ブロックされた分子にまたがる2つの切断を導入するためのCas9複合体の一例を示す。FIG. 11 shows an example of a Cas9 complex for introducing two truncations spanning an end-blocked molecule of interest, according to embodiments of the present invention. FIG. 本発明の実施形態による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって決定されたAlu領域のメチル化分布を示す。FIG. 4 shows the methylation distribution of Alu regions determined by bisulfite sequencing and single-molecule real-time sequencing, according to embodiments of the present invention. 本発明の実施形態による、単一分子リアルタイム配列決定の結果を使用したモデルによって決定された、Alu領域のメチル化レベルの分布を示す。FIG. 4 shows the distribution of methylation levels of Alu regions as determined by a model using single-molecule real-time sequencing results, according to embodiments of the present invention. 本発明の実施形態による、組織および組織中のAlu領域のメチル化レベルの表を示す。FIG. 3 shows a table of tissues and methylation levels of Alu regions in tissues according to embodiments of the present invention. FIG. 本発明の実施形態による、Alu反復配列に関連するメチル化信号を使用した異なる癌のタイプのクラスター分析を示す。FIG. 4 shows cluster analysis of different cancer types using methylation signals associated with Alu repeats according to embodiments of the present invention. FIG. 本発明の実施形態による、全ゲノム増幅およびM.SsssI処理に関与した試験データセットにおける全体的なメチル化レベルの定量に対するリード深度の影響を示す。Whole genome amplification and M . Figure 2 shows the effect of read depth on quantification of global methylation levels in test datasets involving SsssI treatment. 同上。Ditto. 本発明の実施形態による、異なるサブリード深度カットオフを使用した、SMRT-seq(Sequel II Sequencing Kit 2.0)およびBS-seqによって決定された全体的なメチル化レベル間の比較を示す。Figure 2 shows a comparison between global methylation levels determined by SMRT-seq (Sequel II Sequencing Kit 2.0) and BS-seq using different sub-read depth cutoffs according to embodiments of the present invention. 本発明の実施形態による、SMRT-seq(Sequel II Sequencing Kit 2.0)およびBS-seqによる2つの測定値間のメチル化レベルの相関に対するサブリード深度の影響を示す表である。FIG. 11 is a table showing the effect of sub-read depth on the correlation of methylation levels between two measurements by SMRT-seq (Sequel II Sequencing Kit 2.0) and BS-seq, according to embodiments of the present invention. FIG. 本発明の実施形態による、Sequel II Sequencing Kit 2.0によって生成されたデータにおける断片サイズに関するサブリード深度分布を示す。FIG. 4 shows sub-read depth distributions with respect to fragment size in data generated by Sequel II Sequencing Kit 2.0, according to embodiments of the present invention. FIG. 本発明の実施形態による、核酸分子のヌクレオチドの修飾を検出する方法を示す。FIG. 1 illustrates a method for detecting nucleotide modifications of nucleic acid molecules according to embodiments of the present invention. FIG. 本発明の実施形態による、核酸分子のヌクレオチドの修飾を検出する方法を示す。FIG. 1 illustrates a method for detecting nucleotide modifications of nucleic acid molecules according to embodiments of the present invention. FIG. 本発明の実施形態による、相対的なハプロタイプに基づくメチル化不均衡分析を示す。FIG. 3 shows a relative haplotype-based methylation imbalance analysis according to embodiments of the present invention. FIG. 本発明の実施形態による、ケースTBR3033の隣接する非腫瘍組織DNAと比較した、腫瘍DNAにおけるハプロタイプI(Hap I)とハプロタイプII(Hap II)との間の異なるメチル化レベルを示すハプロタイプブロックの表である。Table of haplotype blocks showing differential methylation levels between haplotype I (Hap I) and haplotype II (Hap II) in tumor DNA compared to adjacent non-tumor tissue DNA of case TBR3033, according to embodiments of the present invention. is. 同上。Ditto. 本発明の実施形態による、ケースTBR3032の隣接する正常組織DNAと比較した、腫瘍DNAにおけるHap IとHap IIとの間の異なるメチル化レベルを示すハプロタイプブロックの表である。FIG. 10 is a table of haplotype blocks showing differential methylation levels between Hap I and Hap II in tumor DNA compared to adjacent normal tissue DNA of case TBR3032, according to embodiments of the present invention. FIG. 本発明の実施形態による、Sequel II Sequencing Kit 2.0によって生成されたデータに基づく、腫瘍と隣接する非腫瘍組織との間の2つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数をまとめた表である。Summarize the number of haplotype blocks showing methylation imbalance between two haplotypes between tumor and adjacent non-tumor tissue based on data generated by Sequel II Sequencing Kit 2.0 according to embodiments of the present invention. It is a table. 本発明の実施形態による、Sequel II Sequencing Kit 2.0によって生成されたデータに基づく、異なる腫瘍病期の腫瘍組織における2つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数をまとめた表である。FIG. 11 is a table summarizing the number of haplotype blocks showing methylation imbalance between two haplotypes in tumor tissues of different tumor stages, based on data generated by Sequel II Sequencing Kit 2.0, according to an embodiment of the present invention; be. 本発明の実施形態による、相対的なハプロタイプに基づくメチル化不均衡分析を示す。FIG. 3 shows a relative haplotype-based methylation imbalance analysis according to embodiments of the present invention. FIG. 本発明の実施形態による、第1のハプロタイプおよび第2のハプロタイプを有する生物における障害を分類する方法を示す。FIG. 4 illustrates a method of classifying disorders in organisms having a first haplotype and a second haplotype, according to embodiments of the present invention; FIG. 本発明の実施形態による、ヒト部分はメチル化されているが、マウス部分はメチル化されていない、ヒト-マウスハイブリッド断片の作成を示す。Figure 3 shows the generation of a human-mouse hybrid fragment in which the human portion is methylated, but the mouse portion is unmethylated, according to embodiments of the present invention. 本発明の実施形態による、ヒト部分はメチル化されていないが、マウス部分はメチル化されている、ヒト-マウスハイブリッド断片の作成を示す。Figure 3 shows the generation of a human-mouse hybrid fragment in which the human portion is unmethylated, but the mouse portion is methylated, according to embodiments of the present invention. 本発明の実施形態による、連結後のDNA混合物(試料MIX01)中のDNA分子の鎖長分布を示す。Figure 2 shows the chain length distribution of DNA molecules in a DNA mixture (sample MIX01) after ligation according to an embodiment of the present invention. 本発明の実施形態による、第1のDNA(A)および第2のDNA(B)がともに結合する接合領域を示す。FIG. 2 shows junction regions where a first DNA (A) and a second DNA (B) are joined together according to embodiments of the present invention. 本発明の実施形態による、DNA混合物のメチル化分析を示す。Figure 3 shows methylation analysis of DNA mixtures according to embodiments of the present invention. 本発明の実施形態による、試料MIX01のCpG部位についてメチル化される確率の箱ひげ図を示す。FIG. 10 shows a boxplot of methylated probabilities for CpG sites in sample MIX01, according to embodiments of the present invention. FIG. 本発明の実施形態による、試料MIX02の交差連結後のDNA混合物中のDNA分子の鎖長分布を示す。Figure 2 shows the chain length distribution of DNA molecules in the DNA mixture after cross-ligation of sample MIX02 according to embodiments of the present invention. 本発明の実施形態による、試料MIX02のCpG部位についてメチル化される確率の箱ひげ図を示す。FIG. 10 shows a boxplot of methylated probabilities for CpG sites in sample MIX02, according to embodiments of the present invention. FIG. 本発明の実施形態による、MIX01のバイサルファイト配列決定およびPacific Biosciences配列決定によって決定されたメチル化を比較した表である。FIG. 4 is a table comparing methylation determined by bisulfite sequencing and Pacific Biosciences sequencing of MIX01, according to embodiments of the present invention. FIG. 本発明の実施形態による、MIX02のバイサルファイト配列決定およびPacific Biosciences配列決定によって決定されたメチル化を比較した表である。FIG. 4 is a table comparing methylation determined by bisulfite sequencing and Pacific Biosciences sequencing of MIX02, according to embodiments of the present invention. FIG. 本発明の実施形態による、MIX01およびMIX02についての、ヒトのみのDNAおよびマウスのみのDNAの5Mbビンでのメチル化レベルを示す。FIG. 4 shows methylation levels in 5 Mb bins of human-only DNA and mouse-only DNA for MIX01 and MIX02, according to embodiments of the present invention. 同上。Ditto. 本発明の実施形態による、MIX01およびMIX02についての、ヒト-マウスハイブリッドDNA断片のヒト部分およびマウス部分の5Mbビンでのメチル化レベルを示す。FIG. 4 shows methylation levels in 5 Mb bins of human and mouse portions of human-mouse hybrid DNA fragments for MIX01 and MIX02 according to embodiments of the present invention. 同上。Ditto. 本発明の実施形態による、単一のヒト-マウスハイブリッド分子におけるメチル化状態を示す代表的なグラフである。FIG. 4 is a representative graph showing methylation status in a single human-mouse hybrid molecule, according to embodiments of the present invention. FIG. 同上。Ditto. 本発明の実施形態による、生体試料においてキメラ分子を検出する方法を示す。Figure 4 shows a method of detecting chimeric molecules in a biological sample according to embodiments of the present invention. 本発明の実施形態による、測定システムを示す。1 shows a measurement system according to an embodiment of the invention; 本発明の実施形態による、システムおよび方法とともに使用可能な例示的なコンピュータシステムのブロック図を示す。1 shows a block diagram of an exemplary computer system usable with the systems and methods according to embodiments of the present invention; FIG. 本発明の実施形態による、DNA末端修復およびAテーリングを使用したMspIベースの標的化単一分子リアルタイム配列決定を示す。Figure 3 shows MspI-based targeted single-molecule real-time sequencing using DNA end repair and A-tailing according to embodiments of the present invention. 本発明の実施形態による、MspI消化断片のサイズ分布を示す。Figure 2 shows the size distribution of MspI digested fragments according to embodiments of the present invention. 同上。Ditto. 本発明の実施形態による、特定の選択されたサイズ範囲についてのDNA分子の数の表を示す。FIG. 4 shows a table of numbers of DNA molecules for certain selected size ranges, according to embodiments of the present invention. 本発明の実施形態による、制限酵素消化後の、CpGアイランド内のCpG部位のパーセントカバレッジ対DNA断片のサイズのグラフである。FIG. 4 is a graph of percent coverage of CpG sites within a CpG island versus DNA fragment size after restriction enzyme digestion, according to embodiments of the present invention. 本発明の実施形態による、DNA末端修復およびAテーリングを使用しないMspIベースの標的化単一分子リアルタイム配列決定を示す。Figure 3 shows MspI-based targeted single-molecule real-time sequencing without DNA end repair and A-tailing according to embodiments of the present invention. 本発明の実施形態による、アダプターの自己連結の確率が低減された、MspIベースの標的化単一分子リアルタイム配列決定を示す。FIG. 11 shows MspI-based targeted single-molecule real-time sequencing with reduced probability of adapter self-ligation according to embodiments of the present invention. FIG. 本発明の実施形態による、MspIベースの標的化単一分子リアルタイム配列決定によって決定された胎盤とバフィーDNA試料との間の全体的なメチル化レベルのグラフである。FIG. 4 is a graph of global methylation levels between placenta and buffy DNA samples determined by MspI-based targeted single-molecule real-time sequencing, according to embodiments of the present invention. FIG. 本発明の実施形態による、MspIベースの標的化単一分子リアルタイム配列決定により決定されたDNAメチル化プロファイルを使用した胎盤およびバフィーコート試料のクラスター分析を示す。Figure 3 shows cluster analysis of placenta and buffy coat samples using DNA methylation profiles determined by MspI-based targeted single-molecule real-time sequencing, according to embodiments of the present invention.

用語
「組織」は、機能単位としてともにグループ化する細胞のグループに対応する。2つ以上のタイプの細胞が、単一の組織内に見出され得る。異なるタイプの組織は、異なるタイプの細胞(例えば、肝細胞、肺胞細胞、または血球細胞)から構成されてもよく、異なる生物(母体対胎児、移植を受けた対象の組織、微生物またはウイルスに感染した生物の組織)由来の組織あるいは健康な細胞対腫瘍細胞に対応してもよい。「参照組織」は、組織特異的メチル化レベルを決定するために使用される組織に対応する。異なる個体由来の同じ組織タイプの複数の試料を使用して、その組織タイプの組織特異的メチル化レベルを決定することができる。
The term "tissue" corresponds to a group of cells grouped together as a functional unit. More than one type of cell can be found within a single tissue. Different types of tissue may be composed of different types of cells (e.g., hepatocytes, alveolar cells, or blood cells) and may be affected by different organisms (maternal versus fetal, transplanted target tissue, microbial or viral). tissue from an infected organism) or healthy versus tumor cells. A "reference tissue" corresponds to a tissue used to determine tissue-specific methylation levels. Multiple samples of the same tissue type from different individuals can be used to determine tissue-specific methylation levels for that tissue type.

「生体試料」とは、ヒト対象から採取された任意の試料を指す。生体試料は、組織生検、穿刺吸引物、または血球であり得る。試料はまた、例えば、妊婦からの血漿または血清または尿であり得る。便試料もまた使用され得る。様々な実施形態では、無細胞DNAについて濃縮された妊婦からの生体試料(例えば、遠心分離プロトコルを介して取得された血漿試料)におけるDNAの大部分は、無細胞であり得、例えば、50%超、60%超、70%超、80%超、90%超、95%超、または99%超のDNAは無細胞であり得る。遠心分離プロトコルは、例えば、3,000g×10分で流体部分を取得することと、残留細胞を除去するために30,000gでさらに10分間再遠心分離することと、を含み得る。特定の実施形態では、3,000gの遠心分離ステップに続いて、流体部分の濾過を行うことができる(例えば、直径5μm以下の孔径のフィルターを使用)。 "Biological sample" refers to any sample taken from a human subject. A biological sample can be a tissue biopsy, fine needle aspirate, or blood cells. The sample can also be, for example, plasma or serum or urine from pregnant women. A stool sample may also be used. In various embodiments, the majority of the DNA in a biological sample from a pregnant woman enriched for cell-free DNA (e.g., a plasma sample obtained via a centrifugation protocol) can be cell-free, e.g., 50% More than, 60%, 70%, 80%, 90%, 95%, or 99% of the DNA can be cell-free. A centrifugation protocol can include, for example, obtaining a fluid portion at 3,000 g×10 min and re-centrifuging at 30,000 g for an additional 10 min to remove residual cells. In certain embodiments, the 3,000 g centrifugation step can be followed by filtration of the fluid portion (eg, using filters with pore sizes of 5 μm diameter or less).

「配列リード」は、核酸分子の任意の部分または全部から配列決定されるヌクレオチドの鎖を指す。例えば、配列リードは、核酸断片から配列決定された短鎖ヌクレオチド(例えば、約20~150個)、核酸断片の片端もしくは両端の短鎖ヌクレオチド、または生体試料中に存在する核酸断片全体の配列決定であり得る。配列リードは、例えば、配列決定技術を使用した、またはプローブを使用した種々の方法で、例えば、ハイブリダイゼーションアレイもしくは捕捉プローブで、または単一プライマーもしくは等温増幅を使用した、ポリメラーゼ連鎖反応(PCR)もしくは線形増幅などの増幅技術で、取得することができる。 A "sequence read" refers to a strand of nucleotides that is sequenced from any portion or all of a nucleic acid molecule. For example, a sequence read can be a short nucleotide sequence (eg, about 20-150) from a nucleic acid fragment, short nucleotides at one or both ends of a nucleic acid fragment, or sequencing of an entire nucleic acid fragment present in a biological sample. can be Sequence reads may be obtained by polymerase chain reaction (PCR), e.g., using sequencing techniques or in various ways using probes, e.g., with hybridization arrays or capture probes, or using single primers or isothermal amplification. Alternatively, it can be obtained by an amplification technique such as linear amplification.

「サブリード」は、環状化DNA鋳型の1つの鎖のすべての塩基から生成された配列であり、DNAポリメラーゼによって1つの連続した鎖にコピーされている。例えば、サブリードは、環状化DNA鋳型のDNAの1つの鎖に対応し得る。このような例では、環状化後、1つの二本鎖DNA分子には、2つのサブリードがある(各配列決定パスについて1つ)。一部の実施形態では、生成された配列は、例えば、配列決定エラーが存在するため、1つの鎖のすべての塩基のサブセットを含み得る。 A "subread" is a sequence generated from all the bases of one strand of a circularized DNA template and copied into one contiguous strand by a DNA polymerase. For example, a subread can correspond to one strand of DNA in a circularized DNA template. In such an example, after circularization, one double-stranded DNA molecule has two subreads (one for each sequencing pass). In some embodiments, the generated sequence may contain a subset of all bases of one strand, eg, due to the presence of sequencing errors.

「部位」(「ゲノム部位」とも呼ばれる)は、単一の塩基位置、または相関する塩基位置のグループ、例えば、CpG部位、または相関する塩基位置のより大きいグループであり得る、単一の部位に対応する。「遺伝子座」は、複数の部位を含む領域に対応し得る。遺伝子座は、遺伝子座をその文脈における部位と等価にするであろうただ1つの部位を含むことができる。 A "site" (also called a "genomic site") can be a single base position, or a group of correlated base positions, e.g., a CpG site, or a larger group of correlated base positions. handle. A "locus" can correspond to a region that includes multiple sites. A locus can contain only one site that would make the locus equivalent to the site in its context.

「メチル化状態」とは、所与の部位でのメチル化の状態を指す。例えば、ある部位は、メチル化されているか、メチル化されていないか、または場合によっては未決定であるかのいずれかである。 "Methylation state" refers to the state of methylation at a given site. For example, a site is either methylated, unmethylated, or possibly undetermined.

各ゲノム部位(例えば、CpG部位)に対する「メチル化指数」は、その部位におけるメチル化を、その部位をカバーするリード数の合計にわたって示す、(例えば、配列リードまたはプローブから決定されるような)DNA断片の割合を指し得る。「リード」は、DNA断片から取得された情報(例えば、部位のメチル化状態)に対応することができる。リードは、1つ以上の部位における特定のメチル化状態のDNA断片と優先的にハイブリダイズする試薬(例えば、プライマーまたはプローブ)を使用して、取得することができる。典型的には、このような試薬は、それらのメチル化状態に応じて、DNA分子を示差的に修飾するかまたは認識するプロセス、例えば、バイサルファイト変換、またはメチル化感受性制限酵素、またはメチル化結合タンパク質、または抗メチルシトシン抗体、あるいはメチルシトシンおよびヒドロキシメチルシトシンを認識する単一分子配列決定技術(例えば、単一分子リアルタイム配列決定およびナノポア配列決定(例えば、Oxford Nanopore Technologiesから))で処理した後で適用される。 A "methylation index" for each genomic site (e.g., CpG site) indicates methylation at that site over the total number of reads covering that site (e.g., as determined from sequence reads or probes). It can refer to the percentage of DNA fragments. A "read" can correspond to information obtained from a DNA fragment (eg, the methylation state of a site). Reads can be obtained using reagents (eg, primers or probes) that preferentially hybridize to DNA fragments with specific methylation states at one or more sites. Typically, such reagents are involved in processes that differentially modify or recognize DNA molecules, depending on their methylation state, such as bisulfite conversion, or methylation-sensitive restriction enzymes, or methylation. treated with binding proteins, or anti-methylcytosine antibodies, or single-molecule sequencing technologies that recognize methylcytosine and hydroxymethylcytosine (e.g., single-molecule real-time sequencing and nanopore sequencing (e.g., from Oxford Nanopore Technologies)) applied later.

領域の「メチル化密度」は、この領域における部位をカバーするリード数の合計で割ったメチル化を示す、領域内の部位におけるリード数を指し得る。この部位は、具体的な特徴を有し得、例えば、CpG部位であり得る。したがって、領域の「CpGメチル化密度」は、この領域におけるCpG部位(例えば、特定のCpG部位、CpGアイランド内またはそれより大きな領域のCpG部位)をカバーするリード数の合計で割ったCpGメチル化を示すリード数を指す。例えば、ヒトゲノム中の各100kbビンのメチル化密度は、100kb領域へマップされた配列リードによってカバーされたすべてのCpG部位の割合として、CpG部位の(メチル化されたシトシンに対応する)バイサルファイト処理後に変換されていないシトシンの総数から判定することができる。この分析はまた、500bp、5kb、10kb、50kb、もしくは1Mbなどの他のビンサイズに対して実施することができる。領域は、全ゲノム、または染色体、または染色体の一部(例えば、染色体腕)であり得る。CpG部位のメチル化指数は、領域がそのCpG部位のみを含む場合、その領域のメチル化密度と同じである。「メチル化シトシンの比率」は、この領域における分析されたシトシン残基の総数、すなわちCpGの文脈外のシトシンを含む、メチル化されている(例えば、バイサルファイト変換後に変換されていない)ことが示されているシトシン部位「C」の数を指すことができる。「メチル化レベル」の例としては、メチル化指数、メチル化密度、1つ以上の部位でメチル化された分子の数、および1つ以上の部位でメチル化された分子(例えば、シトシン)の割合がある。バイサルファイト変換とは別に、当業者に既知の他のプロセスを使用してDNA分子のメチル化状態を調べることができ、限定されないが、メチル化状態に感受性の酵素(例えば、メチル化感受性制限酵素)、メチル化結合タンパク質、メチル化状態に感受性のプラットフォームを使用した単一分子配列決定(例えば、ナノポア配列決定(Schreiber et al.Proc Natl Acad Sci 2013;110: 18910-18915)および単一分子リアルタイム配列決定(例えば、Pacific Biosciencesによる)(Flusberg et al.Nat Methods 2010;7: 461-465))が含まれる。 The "methylation density" of a region can refer to the number of reads at a site within the region, representing the methylation divided by the total number of reads covering the site in that region. This site may have specific characteristics and may be, for example, a CpG site. Thus, the "CpG methylation density" of a region is the CpG methylation divided by the total number of reads covering CpG sites in this region (e.g., a particular CpG site, CpG sites within a CpG island or larger region). Refers to the number of reads that indicate For example, the methylation density of each 100 kb bin in the human genome is expressed as the percentage of all CpG sites covered by sequence reads mapped to the 100 kb region, bisulfite treatment of CpG sites (corresponding to methylated cytosines) It can later be determined from the total number of unconverted cytosines. This analysis can also be performed for other bin sizes such as 500 bp, 5 kb, 10 kb, 50 kb, or 1 Mb. A region can be an entire genome, or a chromosome, or a portion of a chromosome (eg, a chromosomal arm). The methylation index of a CpG site is the same as the methylation density of the region if the region contains only that CpG site. "Percentage of methylated cytosines" is the total number of analyzed cytosine residues in this region, i.e., cytosines outside the context of the CpG that are methylated (e.g., unconverted after bisulfite conversion). The number of cytosine sites 'C' shown can be referred to. Examples of "methylation level" include methylation index, methylation density, number of molecules methylated at one or more sites, and number of molecules (e.g., cytosine) methylated at one or more sites. there is a proportion. Apart from bisulfite conversion, other processes known to those skilled in the art can be used to examine the methylation state of a DNA molecule, including but not limited to enzymes that are sensitive to the methylation state (e.g., methylation-sensitive restriction enzymes). ), methylation-binding proteins, single-molecule sequencing using platforms sensitive to methylation status (e.g., nanopore sequencing (Schreiber et al. Proc Natl Acad Sci 2013; 110: 18910-18915) and single-molecule real-time sequencing (eg by Pacific Biosciences) (Flusberg et al. Nat Methods 2010;7: 461-465)).

「メチローム」は、ゲノムにおける複数の部位または遺伝子座のDNAメチル化の量の尺度を提供する。メチロームは、ゲノムの全部、ゲノムの実質的な部分、またはゲノムの比較的わずかな箇所(複数可)に対応し得る。 A "methylome" provides a measure of the amount of DNA methylation at multiple sites or loci in the genome. A methylome can correspond to the entire genome, a substantial portion of the genome, or relatively few point(s) of the genome.

「妊婦血漿メチローム」は、妊娠した動物(例えば、ヒト)の血漿または血清から決定されたメチロームである。妊婦血漿メチロームは、血漿および血清が無細胞DNAを含むため、無細胞メチロームの一例である。妊婦血漿メチロームは、体内の異なる器官または組織または細胞に由来するDNAの混合物であるため、混合メチロームの一例でもある。一実施形態では、このような細胞は、赤血球(すなわち、赤色細胞)系譜、骨髄系譜(例えば、好中球およびこれらの前駆体)および巨核球系譜の細胞を含むが、これらに限定されない造血細胞である。妊娠中、血漿メチロームは胎児および母親からのメチローム情報を含有することがある。「細胞性メチローム」は、患者の細胞(例えば、血球)から決定されるメチロームに対応する。血球のメチロームは、血球メチローム(または血中メチローム)と呼ばれる。 A "pregnant plasma methylome" is a methylome determined from the plasma or serum of a pregnant animal (eg, human). The maternal plasma methylome is an example of a cell-free methylome because plasma and serum contain cell-free DNA. The maternal plasma methylome is also an example of a mixed methylome, as it is a mixture of DNA from different organs or tissues or cells in the body. In one embodiment, such cells include, but are not limited to, cells of erythroid (i.e., red cells) lineage, myeloid lineage (e.g., neutrophils and their precursors), and megakaryocytic lineage. is. During pregnancy, the plasma methylome may contain methylome information from the fetus and the mother. A "cellular methylome" corresponds to a methylome determined from a patient's cells (eg, blood cells). The methylome of blood cells is called a blood cell methylome (or blood methylome).

「メチル化プロファイル」には、複数の部位または領域のDNAまたはRNAのメチル化に関連する情報が含まれる。DNAメチル化に関連する情報は、CpG部位のメチル化指数、領域中のCpG部位のメチル化密度(略称MD)、連続した領域にわたるCpG部位の分布、2つ以上のCpG部位を含有する領域内の各個々のCpG部位のメチル化のパターンまたはレベル、および非CpGメチル化を含み得るが、これらに限定されない。一実施形態では、メチル化プロファイルは、2つ以上のタイプの塩基(例えば、シトシンまたはアデニン)のメチル化または非メチル化のパターンを含み得る。ゲノムの実質的な部分のメチル化プロファイルは、メチロームと等価とみなすことができる。哺乳動物ゲノムにおける「DNAメチル化」とは、典型的には、CpGジヌクレオチド間でシトシン残基の5’炭素へのメチル基の付加(すなわち、5-メチルシトシン)を指す。DNAメチル化は、他の文脈、例えば、CHGおよびCHHにおいてシトシンで生じ得、ここで、Hは、アデニン、シトシン、またはチミンである。シトシンのメチル化は、5-ヒドロキシメチルシトシンの形態でもあり得る。N-メチルアデニンなどの非シトシンメチル化もまた、報告されている。 A "methylation profile" includes information relating to DNA or RNA methylation at multiple sites or regions. Information related to DNA methylation includes the methylation index of CpG sites, the methylation density (abbreviated MD) of CpG sites in a region, the distribution of CpG sites over contiguous regions, the distribution of CpG sites in regions containing two or more CpG sites. and non-CpG methylation at each individual CpG site. In one embodiment, a methylation profile may include patterns of methylation or unmethylation of more than one type of base (eg, cytosine or adenine). The methylation profile of a substantial portion of the genome can be considered equivalent to the methylome. "DNA methylation" in mammalian genomes typically refers to the addition of a methyl group to the 5' carbon of a cytosine residue (ie, 5-methylcytosine) between CpG dinucleotides. DNA methylation can occur at cytosines in other contexts, such as CHG and CHH, where H is adenine, cytosine, or thymine. Cytosine methylation can also be in the form of 5-hydroxymethylcytosine. Non-cytosine methylations such as N 6 -methyladenine have also been reported.

「メチル化パターン」とは、メチル化塩基と非メチル化塩基の順序を指す。例えば、メチル化パターンは、単一のDNA鎖、単一の二本鎖DNA分子、または別のタイプの核酸分子上のメチル化塩基の順序であり得る。一例として、3つの連続するCpG部位は、以下のメチル化パターン:UUU、MMM、UMM、UMU、UUM、MUM、MUU、またはMMU、のいずれかを有し得る。ここで、「U」は非メチル化部位を示し、「M」はメチル化部位を示す。限定されないが、この概念をメチル化を含む塩基修飾に拡張する場合、修飾塩基と非修飾塩基の順序を指す「修飾パターン」という用語を使用するであろう。例えば、修飾パターンは、単一のDNA鎖、単一の二本鎖DNA分子、または別のタイプの核酸分子上の修飾された塩基の順序であり得る。一例として、3つの連続する潜在的に修飾可能な部位は、以下の修飾パターン:UUU、MMM、UMM、UMU、UUM、MUM、MUU、またはMMU、のいずれかを有し得る。ここで、「U」は非修飾部位を示し、「M」は修飾部位を示す。メチル化に基づかない塩基修飾の一例は、8-オキソグアニンなどの酸化的変化である。 "Methylation pattern" refers to the order of methylated and unmethylated bases. For example, the methylation pattern can be the order of methylated bases on a single DNA strand, a single double-stranded DNA molecule, or another type of nucleic acid molecule. As an example, three consecutive CpG sites can have any of the following methylation patterns: UUU, MMM, UMM, UMU, UUM, MUM, MUU, or MMU. Here, "U" indicates an unmethylated site and "M" indicates a methylated site. When extending this concept to base modifications, including but not limited to methylation, we will use the term "modification pattern" to refer to the order of modified and unmodified bases. For example, a modification pattern can be the order of modified bases on a single DNA strand, a single double-stranded DNA molecule, or another type of nucleic acid molecule. As an example, three consecutive potentially modifiable sites can have any of the following modification patterns: UUU, MMM, UMM, UMU, UUM, MUM, MUU, or MMU. Here, "U" indicates an unmodified site and "M" indicates a modified site. An example of a base modification that is not based on methylation is an oxidative change such as 8-oxoguanine.

「高メチル化」および「低メチル化」という用語は、その単一分子のメチル化レベルによって測定される単一のDNA分子のメチル化密度、例えば、その分子内のメチル化された塩基またはヌクレオチドの数を、その分子内のメチル化可能な塩基またはヌクレオチドの総数で割ったものを指し得る。高メチル化分子は、単一分子のメチル化レベルが閾値以上である分子であり、用途ごとに定義され得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、または95%であり得る。低メチル化分子は、単一分子のメチル化レベルが閾値以下である分子であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、または95%であり得る。 The terms "hypermethylation" and "hypomethylation" refer to the methylation density of a single DNA molecule as measured by the methylation level of that single molecule, e.g., the methylated bases or nucleotides within that molecule. divided by the total number of methylatable bases or nucleotides in the molecule. Hypermethylated molecules are molecules with a single molecule methylation level above a threshold and can be defined for each application. This threshold can be 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, or 95%. Hypomethylated molecules are molecules with a single molecule methylation level below a threshold and can be defined and varied from application to application. This threshold can be 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, or 95%.

「高メチル化」および「低メチル化」という用語はまた、これらの分子の複数の分子のメチル化レベルによって測定される、DNA分子の集団のメチル化レベルを指してもよい。分子の高メチル化集団は、複数の分子のメチル化レベルが閾値以上である集団であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、または95%であり得る。分子の低メチル化集団は、複数の分子のメチル化レベルが閾値以下である集団であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、または95%であり得る。一実施形態では、分子の集団は、1つ以上の選択されたゲノム領域に整列され得る。一実施形態では、選択されたゲノム領域(複数可)は、癌、遺伝障害、インプリンティング障害、代謝障害、または神経障害などの疾患に関連し得る。選択されたゲノム領域(複数可)は、50ヌクレオチド(nt)、100nt、200nt、300nt、500nt、1000nt、2knt、5knt、10knt、20knt、30knt、40knt、50knt、60knt、70knt、80knt、90knt、100knt、200knt、300knt、400knt、500knt、または1Mntの鎖長を有し得る。 The terms "hypermethylation" and "hypomethylation" may also refer to the methylation level of a population of DNA molecules as measured by the methylation level of multiple molecules of these molecules. A hypermethylated population of molecules is a population in which more than one molecule has a methylation level equal to or greater than a threshold, and can be defined and varied from application to application. This threshold can be 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, or 95%. A hypomethylated population of molecules, which is a population in which more than one molecule has a methylation level below a threshold, can be defined and varied from application to application. This threshold can be 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, or 95%. In one embodiment, the population of molecules can be aligned to one or more selected genomic regions. In one embodiment, the selected genomic region(s) may be associated with diseases such as cancer, genetic disorders, imprinting disorders, metabolic disorders, or neurological disorders. Selected genomic region(s) are 50 nucleotides (nt), 100nt, 200nt, 300nt, 500nt, 1000nt, 2knt, 5knt, 10knt, 20knt, 30knt, 40knt, 50knt, 60knt, 70knt, 80knt, 90knt, 100knt , 200 knt, 300 knt, 400 knt, 500 knt, or 1 Mnt.

「配列決定深度」という用語は、遺伝子座が、その遺伝子座に整列された配列リードによってカバーされる回数を指す。遺伝子座は、ヌクレオチドの小ささ、または染色体アームの大きさ、またはゲノム全体の大きさであってもよい。配列決定深度は、50x、100xなどと表され、「x」は、遺伝子座が配列リードでカバーされる回数を指す。また、配列決定深度は、複数の遺伝子座またはゲノム全体に適用することもでき、この場合、×はそれぞれ、遺伝子座もしくはハプロイドゲノムまたはゲノム全体が配列決定される平均回数を指し得る。ウルトラディープ配列決定は、少なくとも100xの配列決定深度を指し得る。 The term "sequencing depth" refers to the number of times a locus is covered by sequence reads aligned to that locus. A locus can be as small as a nucleotide, or as large as a chromosomal arm, or as large as an entire genome. Sequencing depth is expressed as 50x, 100x, etc., where 'x' refers to the number of times the locus is covered by sequence reads. Sequencing depth can also be applied to multiple loci or the entire genome, where x can refer to the average number of times the locus or haploid genome or the entire genome is sequenced, respectively. Ultra-deep sequencing can refer to a sequencing depth of at least 100x.

本明細書で使用される「分類」という用語は、試料の特定の特性と関係した任意の数(複数可)または他の特徴(複数可)を指す。例えば、「+」という記号(または「陽性」という語)は、試料が欠失または増幅を有するものとして分類されることを意味し得る。分類は、二項(例えば、陽性または陰性)であるか、またはより多くのレベルの分類(例えば、1~10または0~1のスケール)を有することができる。 As used herein, the term "classification" refers to any number(s) or other characteristic(s) associated with a particular property of a sample. For example, a "+" symbol (or the word "positive") can mean that the sample is classified as having deletions or amplifications. The classification can be binary (eg, positive or negative) or have more levels of classification (eg, a scale of 1-10 or 0-1).

「カットオフ」および「閾値」という用語は、ある操作において使用される所定の数を指す。例えば、カットオフサイズは、それを超えると断片が除外されるサイズを指すことができる。閾値は、特定の分類が要求しているものを上回るまたは下回る値であり得る。これらの用語のいずれも、これらの文脈のいずれにおいても使用することができる。カットオフまたは閾値は、「参照値」であり得るか、または特定の分類を表すか、または2つ以上の分類間を区別する参照値から導出され得る。そのような参照値は、当業者によって理解されるように、様々な方法で決定することができる。例えば、異なる既知の分類を有する対象の2つの異なるコホートについて、メトリックを決定することができ、参照値を1つの分類(例えば、平均)の代表として、またはメトリックの2つのクラスター間の値(例えば、所望の感度と特異度を取得するために選択される)として選択し得る。別の例として、参照値は、統計分析または試料のシミュレーションに基づいて決定することができる。 The terms "cutoff" and "threshold" refer to a predetermined number used in some operation. For example, a cutoff size can refer to the size above which fragments are excluded. The threshold can be a value above or below what a particular classification requires. Any of these terms can be used in any of these contexts. A cutoff or threshold may be a "reference value" or may be derived from a reference value that represents a particular classification or distinguishes between two or more classifications. Such reference values can be determined in a variety of ways, as understood by those skilled in the art. For example, a metric can be determined for two different cohorts of subjects with different known classifications, with a reference value as representative of one classification (e.g., the mean), or a value between two clusters of the metric (e.g. , selected to obtain the desired sensitivity and specificity). As another example, the reference value can be determined based on statistical analysis or sample simulation.

「癌のレベル」という用語は、癌が存在するかどうか(すなわち、存在または不在)、癌の病期、腫瘍のサイズ、転移があるかどうか、身体の総腫瘍負荷、治療に対する癌の応答、および/または癌の重症度の他の尺度(例えば、癌の再発)を指し得る。癌のレベルは、記号、アルファベット文字、および色などの数または他のしるしであり得る。レベルは、ゼロであり得る。癌のレベルには、前悪性病態または前癌性病態(状態)も含まれ得る。癌のレベルは、様々な方法で使用することができる。例えば、スクリーニングにより、癌が有することを今まで知らなかった人物において癌が存在するかどうかをチェックすることができる。評価は、癌と診断されている人物を調べて、癌の進行を経時的に監視し、療法の有効性を研究し、または予後を決定することができる。一実施形態では、予後は、患者が癌で死亡する可能性、または特定の持続時間または特定の時間の後、癌が進行する可能性、または癌が転移する可能性もしくは程度として表すことができる。検出は、「スクリーニング」を意味することができ、または癌の示唆的な特徴(例えば、症状または他の陽性検査)を有する人物が癌を有するかどうかをチェックすることを意味し得る。 The term "level of cancer" refers to whether cancer is present (i.e., present or absent), the stage of the cancer, the size of the tumor, whether there are metastases, the body's total tumor burden, the cancer's response to treatment, and/or other measures of cancer severity (eg, cancer recurrence). Cancer levels can be numbers or other indicia, such as symbols, letters, and colors. The level can be zero. Levels of cancer can also include premalignant or precancerous conditions (conditions). Cancer levels can be used in a variety of ways. For example, screening can check to see if cancer is present in a person who was not previously known to have cancer. Evaluation can examine a person who has been diagnosed with cancer, monitor cancer progression over time, study the effectiveness of therapy, or determine prognosis. In one embodiment, the prognosis can be expressed as the likelihood that the patient will die from the cancer, or the likelihood that the cancer will progress after a certain duration or time, or the likelihood or extent to which the cancer will metastasize. . Detecting can mean "screening," or it can mean checking to see if a person who has features (eg, symptoms or other positive tests) suggestive of cancer has cancer.

「病理のレベル」(または障害のレベル)とは、生物に関連する病理の量、程度、重症度を指し得、そのレベルは、癌について上で説明したとおりであり得る。病理の別の例は、移植された臓器の拒絶反応である。他の病理の例としては、遺伝子インプリンティング障害、自己免疫発作(例えば、腎臓を損傷するループス腎炎損傷または多発性硬化症)、炎症性疾患(例えば、肝炎)、線維化プロセス(例えば、肝硬変)、脂肪浸潤(例えば、脂肪肝疾患)、変性プロセス(例えば、アルツハイマー病)、および虚血性組織損傷(例えば、心筋梗塞または脳卒中)が含まれ得る。対象の健康な状態は、病理のない分類とみなすことができる。 "Level of pathology" (or level of disorder) can refer to the amount, extent, severity of pathology associated with an organism, and can be as described above for cancer. Another example of pathology is rejection of transplanted organs. Examples of other pathologies include gene imprinting disorders, autoimmune attacks (e.g. lupus nephritis injury or multiple sclerosis that damages the kidney), inflammatory diseases (e.g. hepatitis), fibrotic processes (e.g. cirrhosis). , fatty infiltration (eg, fatty liver disease), degenerative processes (eg, Alzheimer's disease), and ischemic tissue damage (eg, myocardial infarction or stroke). A subject's healthy status can be considered a pathology-free classification.

「妊娠関連障害」には、母体および/または胎児組織における遺伝子の異常な相対的発現レベルを特徴とする任意の障害が含まれる。これらの障害には、子癇前症、子宮内胎児発育遅延、侵襲性胎盤形成、早産、新生児溶血性疾患、胎盤機能不全、胎児水腫、胎児奇形、HELLP症候群、全身性紅斑性狼瘡、およびその他の母親の免疫疾患が含まれるが、これらに限定されない。 A "pregnancy-related disorder" includes any disorder characterized by abnormal relative expression levels of genes in maternal and/or fetal tissues. These disorders include preeclampsia, intrauterine growth restriction, invasive placentation, preterm birth, hemolytic disease of the newborn, placental insufficiency, hydrops fetalis, fetal malformations, HELLP syndrome, systemic lupus erythematosus, and others. Includes but is not limited to maternal immune disorders.

略語「bp」は、塩基対を指す。場合によっては、「bp」は、DNA断片が一本鎖であり、塩基対を含まない場合でも、DNA断片の鎖長を示すために使用され得る。一本鎖DNAの文脈では、「bp」は、ヌクレオチドの鎖長を提供すると解釈される場合がある。 The abbreviation "bp" refers to base pairs. In some cases, "bp" can be used to denote the length of a DNA fragment even when the DNA fragment is single-stranded and contains no base pairs. In the context of single-stranded DNA, "bp" may be taken to provide a length in nucleotides.

略語「nt」は、ヌクレオチドを指す。場合によっては、「nt」を使用して、塩基単位で一本鎖DNAの長さを示すことができる。また、「nt」は、分析される遺伝子座の上流または下流などの相対位置を示すために使用され得る。技術的概念化、データ表示、処理、および分析に関する一部の文脈では、「nt」と「bp」は互換的に使用される場合がある。 The abbreviation "nt" refers to nucleotide. In some cases, "nt" can be used to denote the length of a single-stranded DNA in bases. Also, "nt" can be used to denote a relative position, such as upstream or downstream of the analyzed locus. In some contexts relating to technical conceptualization, data representation, processing, and analysis, "nt" and "bp" may be used interchangeably.

「配列文脈」という用語は、DNAのストレッチにおける塩基組成(A、C、G、またはT)および塩基順序を指し得る。このようなDNAのストレッチは、塩基修飾分析にかけられる塩基または標的となる塩基を取り巻いている可能性がある。例えば、配列文脈は、塩基修飾分析にかけられる塩基の上流および/または下流の塩基を指し得る。 The term "sequence context" can refer to the base composition (A, C, G, or T) and base order in a stretch of DNA. Such stretches of DNA may surround the bases to be subjected to base modification analysis or targeted bases. For example, sequence context can refer to bases upstream and/or downstream of the base subjected to base modification analysis.

「動態特徴」という用語は、単一分子リアルタイム配列決定を含む、配列決定に由来する特徴を指し得る。このような特徴は、塩基修飾分析に使用することができる。動態特徴の例には、上流および下流の配列文脈、鎖情報、パルス間隔、パルス幅、およびパルス強度が含まれる。単一分子リアルタイム配列決定では、DNA鋳型に対するポリメラーゼの活性の影響を継続的に監視している。したがって、このような配列決定から生成された測定値は、動態特徴、例えば、ヌクレオチド配列とみなすことができる。 The term "kinetic features" can refer to features derived from sequencing, including single-molecule real-time sequencing. Such features can be used for base modification analysis. Examples of kinetic features include upstream and downstream sequence context, strand information, pulse interval, pulse width, and pulse intensity. Single-molecule real-time sequencing continuously monitors the effect of polymerase activity on the DNA template. Measurements generated from such sequencing can therefore be viewed as kinetic features, eg, nucleotide sequences.

「機械学習モデル」という用語には、試料データ(例えば、訓練データ)を使用して試験データを予測することに基づくモデルが含まれる場合があり、したがって、教師あり学習が含まれ得る。機械学習モデルは、しばしば、コンピュータまたはプロセッサを使用して開発される。機械学習モデルには、統計モデルが含まれ得る。 The term "machine learning model" may include models based on using sample data (eg, training data) to predict test data, and thus may include supervised learning. Machine learning models are often developed using computers or processors. Machine learning models can include statistical models.

「データ分析フレームワーク」という用語は、データを入力として受け取り、次に予測結果を出力することができるアルゴリズムおよび/またはモデルを含み得る。「データ分析フレームワーク」の例には、統計モデル、数学的モデル、機械学習モデル、その他の人工知能モデル、およびそれらの組み合わせが含まれる。 The term "data analysis framework" can include algorithms and/or models that can take data as input and then output predictive results. Examples of "data analysis frameworks" include statistical models, mathematical models, machine learning models, other artificial intelligence models, and combinations thereof.

「リアルタイム配列決定」という用語は、配列決定に関与する反応の進行中にデータ収集または監視を伴う技術を指す場合がある。例えば、リアルタイム配列決定は、新しい塩基を組み込むDNAポリメラーゼの光学的監視または撮影を伴う場合がある。 The term "real-time sequencing" may refer to techniques that involve data collection or monitoring while reactions involving sequencing are in progress. For example, real-time sequencing may involve optical monitoring or filming of DNA polymerases as they incorporate new bases.

「約」または「およそ」という用語は、当業者によって決定される特定の値の許容誤差範囲内を意味し得、これは値の測定または決定方法、すなわち測定システムの制限について部分的に依存する。例えば、「約」は、当技術分野の慣例により、1以内または1を超える標準偏差を意味し得る。あるいは、「約」は、所与の値の最大20%、最大10%、最大5%、または最大1%の範囲を意味し得る。あるいは、特に生物学的システムまたはプロセスに関して、「約」または「およそ」という用語は、値の1桁以内、5倍以内、より好ましくは2倍以内を意味し得る。本出願および特許請求の範囲に特定の値が記載されている場合、特に明記しない限り、特定の値の許容誤差範囲内の「約」という用語を想定すべきである。「約」という用語は、当業者によって一般に理解されている意味を有し得る。「約」という用語は、±10%を指し得る。「約」という用語は、±5%を指し得る。 The terms "about" or "approximately" can mean within a particular value tolerance range as determined by one skilled in the art, which depends in part on how the value is measured or determined, i.e., limitations of the measurement system. . For example, "about" can mean within 1 or more than 1 standard deviations, per the practice in the art. Alternatively, "about" can mean a range of up to 20%, up to 10%, up to 5%, or up to 1% of a given value. Alternatively, the term "about" or "approximately," particularly with respect to biological systems or processes, can mean within one order of magnitude, within five times, more preferably within two times the value. Where a particular value is recited in the present application and claims, the term "about" should be assumed within a tolerance range of the particular value unless otherwise stated. The term "about" may have the meaning commonly understood by those of ordinary skill in the art. The term "about" can refer to ±10%. The term "about" can refer to ±5%.

メチル化された塩基を含む、バイサルファイトを含まない塩基修飾の決定を達成することは、様々な研究努力の対象であるが、商業的に実行可能であることが示されているものはない。最近、5mCおよび5hmCの塩基変換に穏やかな条件を使用して、5mCおよび5hmCを検出するためのバイサルファイトを使用しない方法が公開された(Y.Liu et al.,2019)。この方法には、テンイレブントランスロケーション(TET)酸化、ピリジンボラン還元、およびPCRを含む、酵素反応および化学反応の複数のステップが含まれる。変換反応の各ステップの効率ならびにPCRバイアスは、5mC分析の最終的な精度に悪影響を及ぼす。例えば、5mCの変換率は約96%であり、偽陰性率は約3%であると報告されている。このような性能は、ゲノムにおけるメチル化の特定のわずかな変化を検出する能力を制限する可能性がある。一方、酵素変換は、ゲノム全体では同等にうまく機能し得ないだろう。例えば、5hmCの変換率は、5mCの変換率よりも8.2%低く、非CpGに対する変換率は、CpG文脈に対する変換率よりも11.4%低かった(Y.Liu et al.,2019)。したがって、理想的な状況は、事前の変換(化学的または酵素的、またはそれらの組み合わせ)ステップを用いずに、さらには増幅ステップを用いずに、天然DNA分子の塩基修飾を測定するためのアプローチを開発することである。 Achieving determination of bisulfite-free base modifications, including methylated bases, is the subject of various research efforts, none of which has been shown to be commercially viable. Recently, a bisulfite-free method for detecting 5mC and 5hmC was published using mild conditions for base conversion of 5mC and 5hmC (Y. Liu et al., 2019). The method involves multiple steps of enzymatic and chemical reactions, including ten eleven translocation (TET) oxidation, pyridine borane reduction, and PCR. The efficiency of each step of the conversion reaction as well as the PCR bias adversely affect the final accuracy of the 5mC analysis. For example, 5mC has been reported to have a conversion rate of about 96% and a false negative rate of about 3%. Such performance can limit the ability to detect certain subtle changes in methylation in the genome. Enzymatic conversions, on the other hand, may not work equally well across the genome. For example, conversion of 5hmC was 8.2% lower than that of 5mC, and conversion to non-CpG was 11.4% lower than that to CpG context (Y. Liu et al., 2019). . Therefore, the ideal situation would be an approach for measuring base modifications of natural DNA molecules without prior transformation (chemical or enzymatic, or a combination thereof) step and even without an amplification step. is to develop

いくつかの概念実証研究があり(Q.Liu et al.,2019、Ni et al.,2019)、ロングリード(long-read)ナノポア配列決定アプローチ(例えば、Oxford Nanopore Technologiesによって開発されたシステムを使用)によって生成された電気信号により、深層学習法を使用してメチル化状態を検出することができるようになった。Oxford Nanoporeに加えて、ロングリードを可能にする他の単一分子配列決定アプローチがある。一例は、単一分子リアルタイム配列決定である。単一分子リアルタイム配列決定の一例は、Pacific Biosciences SMRTシステムとして商品化されたものである。単一分子の原理として、リアルタイム配列決定(例えば、Pacific Biosciences SMRTシステム)は、非光学ベースのナノポアシステム(例えば、Oxford Nanopore Technologies)のものとは異なり、このような非光学ベースのナノポアシステム用に開発された塩基修飾検出のアプローチは、単一分子リアルタイム配列決定には使用することができない。例えば、非光学ナノポアシステムは、固定化DNAポリメラーゼベースのDNA合成(Pacific Biosciences SMRTシステムなどの単一分子リアルタイム配列決定で採用)によって生成される蛍光信号のパターンを捕捉するようには設計されていない。さらなる例として、オックスフォードナノポア配列決定プラットフォームでは、測定された各電気事象は、k-mer(例えば、5-mer)に関連付けられている(Q.Liu et al.,2019)。しかしながら、Pacific Biosciences SMRT配列決定プラットフォームでは、各蛍光事象は、一般に、単一の組み込まれた塩基に関連付けられている。さらに、単一のDNA分子は、ワトソン鎖およびクリック鎖を含むPacific Biosciences SMRT配列決定で複数回配列決定される。逆に、Oxford Nanoporeロングリード配列決定アプローチの場合、配列の読み出しは、ワトソン鎖とクリック鎖の各々に対して1回実施される。 There are several proof-of-concept studies (Q. Liu et al., 2019, Ni et al., 2019), using long-read nanopore sequencing approaches (e.g., systems developed by Oxford Nanopore Technologies). ) has allowed us to detect the methylation state using deep learning methods. In addition to the Oxford Nanopore, there are other single-molecule sequencing approaches that allow long reads. One example is single-molecule real-time sequencing. An example of single molecule real-time sequencing is commercialized as the Pacific Biosciences SMRT system. As a single-molecule principle, real-time sequencing (e.g., Pacific Biosciences SMRT system) is different from that of non-optical-based nanopore systems (e.g., Oxford Nanopore Technologies) for such non-optical-based nanopore systems. The developed base modification detection approach cannot be used for single molecule real-time sequencing. For example, non-optical nanopore systems have not been designed to capture the pattern of fluorescent signals generated by immobilized DNA polymerase-based DNA synthesis (employed in single-molecule real-time sequencing such as the Pacific Biosciences SMRT system). . As a further example, in the Oxford nanopore sequencing platform, each measured electrical event is associated with a k-mer (eg, 5-mer) (Q. Liu et al., 2019). However, on the Pacific Biosciences SMRT sequencing platform, each fluorescence event is generally associated with a single incorporated base. In addition, single DNA molecules are sequenced multiple times with Pacific Biosciences SMRT sequencing, including Watson and Crick strands. Conversely, for the Oxford Nanopore long-read sequencing approach, sequence reads are performed once for each of the Watson and Crick strands.

ポリメラーゼの動態は、大腸菌の配列のメチル化状態によって影響を受けることが報告されている(Flusberg et al.,2010)。以前の研究では、6mA、4mC、5hmC、および8-オキソグアニンの検出と比較した場合、単一分子中の特定のCpGのメチル化状態(5mC対C)を推定するために単一分子リアルタイム配列決定のポリメラーゼ動態を使用することは、より困難であることが示された。その理由は、メチル基が小さく、主溝に配向しており、塩基対形成には関与せず、5mCに起因する動態において非常にわずかな中断しか得られないためである(Clark et al.,2013)。したがって、単一分子レベルでシトシンのメチル化状態を決定するためのアプローチが不足している。 Polymerase kinetics have been reported to be affected by the methylation status of E. coli sequences (Flusberg et al., 2010). Previous studies have used single-molecule real-time sequencing to estimate the methylation state of specific CpGs in a single molecule (5mC versus C) when compared to the detection of 6mA, 4mC, 5hmC, and 8-oxoguanine. Using deterministic polymerase kinetics proved to be more difficult. This is because the methyl group is small, oriented in the major groove, does not participate in base-pairing, and provides very little disruption in the kinetics attributed to 5mC (Clark et al., 2013). Therefore, there is a paucity of approaches to determine the methylation status of cytosines at the single-molecule level.

Suzukiらは、アルゴリズムを開発し、近傍のCpG部位のパルス間隔(IPD)比を組み合わせて、それらの部位のメチル化状態を特定する際の信頼性を高めようと試みた(Suzuki et al.,2016)。しかしながら、このアルゴリズムは、完全にメチル化されているゲノム領域、または全くメチル化されていないゲノム領域を予測することしかできず、中間のメチル化パターンを決定する能力がなかった。 Suzuki et al. developed an algorithm to combine the pulse interval (IPD) ratios of neighboring CpG sites in an attempt to increase confidence in identifying the methylation status of those sites (Suzuki et al., 2016). However, this algorithm was only able to predict genomic regions that were either fully methylated or not methylated at all, and lacked the ability to determine intermediate methylation patterns.

単一分子リアルタイム配列決定に関して、現在のアプローチでは、1つまたは2つのパラメータのみを個別に使用しており、5-メチルシトシンとシトシンとの間の測定値の違いから5mCを検出する精度が非常に限られている。例えば、Flusbergらは、N6-メチルアデノシン、5-メチルシトシン、および5-ヒドロキシメチルシトシンを含む塩基修飾において、IPDが変化することを実証した。しかしながら、配列決定動態のパルス幅(PW)に重要な効果があることが見出されていなかった。したがって、彼らが塩基修飾を予測するために使用した方法では、N6-メチルアデノシンの検出を使用して、一例として、PWではなくIPDのみが使用された。 For single-molecule real-time sequencing, current approaches use only one or two parameters independently and have very high accuracy in detecting 5mC from the difference in measurements between 5-methylcytosine and cytosine. is limited to For example, Flusberg et al. demonstrated that the IPD changed at base modifications including N6-methyladenosine, 5-methylcytosine, and 5-hydroxymethylcytosine. However, no significant effect was found on the pulse width (PW) of sequencing kinetics. Therefore, the method they used to predict base modifications used detection of N6-methyladenosine, and only IPD, not PW, as an example.

同じグループによるフォローアップ刊行物(Clark et al.,2012、Clark et al.2013)では、5-メチルシトシンを検出するアルゴリズムに、PWではなくIPDが、組み込まれた。Clarkら(2012)において、5-メチルシトシンに変換しない5-メチルシトシンの検出率は、1.9%~4.3%の範囲であった。さらに、Clarkら(.2013)において、著者らは、5-メチルシトシンの動態特性(kinetic signature)の微妙さをさらに再確認した。Clarkらは、5-メチルシトシンの検出感度の低さを克服するために、テンイレブントランスロケーション(Tet)タンパク質を使用して5-メチルシトシンを5-カルボキシルメチルシトシンに変換することで、5-メチルシトシンの感度を改善する方法をさらに開発した(Clark et al.2013)。これは、5-カルボキシルシトシンに起因するIPDの変化が、5-メチルシトシンよりもはるかに大きいためであった。 In follow-up publications by the same group (Clark et al., 2012, Clark et al. 2013), IPD, rather than PW, was incorporated into the algorithm to detect 5-methylcytosine. In Clark et al. (2012), the detection rate of 5-methylcytosine that did not convert to 5-methylcytosine ranged from 1.9% to 4.3%. Furthermore, in Clark et al. (.2013) the authors further reconfirmed the subtleties of the kinetic signature of 5-methylcytosine. To overcome the poor detection sensitivity of 5-methylcytosine, Clark et al. A method was further developed to improve sensitivity to methylcytosine (Clark et al. 2013). This was because the change in IPD due to 5-carboxylcytosine was much greater than 5-methylcytosine.

Blowらによる最近の報告では、Flusbergらによって以前に記載されたIPD比率ベースの方法を使用して、生物あたり130倍のリードカバレッジで217種類の細菌種と13種類の古細菌種の塩基修飾を検出した(Blow et al.,2016)。彼らが特定したすべての塩基修飾の中で、5-メチルシトシンが関与したのはわずか5%であった。彼らは、5-メチルシトシンのこの低い検出率は、5-メチルシトシンを検出するための単一分子リアルタイム配列決定の感度が低いことに起因すると考えた。ほとんどの細菌では、一連の配列モチーフは、ゲノムにおけるこれらのモチーフのほぼすべてで、DNAメチルトランスフェラーゼ(MTase)によるメチル化の標的になっており(例えば、大腸菌におけるDamによる5’-GmATC-3’またはDcmによる5’-CmCWGG-3’)、これらのモチーフ部位のごく一部のみが非メチル化のままであった(Beaulaurier et al.2019)。さらに、IPDベースの方法を使用して5’-CCWGG-3’モチーフの2番目のCのメチル化状態を分類し、Tetタンパク質で処理した場合と使用しない場合で、5-メチルシトシンの検出率は、それぞれ95.2%および1.9%であった(Clark et al.2013)。全体として、事前の塩基変換を用いないIPDの方法(例えば、Tetタンパク質を使用)は、5-メチルシトシンの大部分を見逃した。 A recent report by Blow et al. used the IPD ratio-based method previously described by Flusberg et al. detected (Blow et al., 2016). Of all the base modifications they identified, only 5% involved 5-methylcytosine. They attributed this low detection rate of 5-methylcytosine to the low sensitivity of single-molecule real-time sequencing for detecting 5-methylcytosine. In most bacteria, a series of sequence motifs are targeted for methylation by DNA methyltransferases (MTases) at nearly all of these motifs in the genome (e.g., 5'-GmATC-3' by Dam in E. coli). or 5′-CmCWGG-3′ by Dcm), only a small fraction of these motif sites remained unmethylated (Beaulaurier et al. 2019). In addition, an IPD-based method was used to classify the methylation status of the second C of the 5′-CCWGG-3′ motif, showing the detection rate of 5-methylcytosine with and without Tet protein treatment. were 95.2% and 1.9%, respectively (Clark et al. 2013). Overall, IPD methods without prior base conversion (eg, using the Tet protein) missed the majority of 5-methylcytosines.

上述の研究(Clark et al.,2012、Clark et al.,2013、Blow et al.,2016)では、候補塩基修飾が位置する配列文脈を考慮せずに、IPDベースのアルゴリズムが使用された。他のグループは、塩基修飾の検出のために、ヌクレオチドの配列文脈を考慮しようと試みた。例えば、Fengらは、階層モデルを使用して、それぞれの配列文脈で4-メチルシトシンおよび6-メチルアデノシンを検出するために、IPDを分析した(Feng et al.2013)。しかしながら、彼らの方法では、目的の塩基およびその塩基に隣接する配列文脈におけるIPDのみを考慮し、目的の塩基に隣接するすべての近傍の塩基のIPD情報を使用しなかった。さらに、PWがアルゴリズムで考慮されておらず、5-メチルシトシンの検出に関するデータも提示されていなかった。 In the studies mentioned above (Clark et al., 2012, Clark et al., 2013, Blow et al., 2016), IPD-based algorithms were used without considering the sequence context in which candidate base modifications are located. Other groups have attempted to consider the sequence context of nucleotides for the detection of base modifications. For example, Feng et al. analyzed IPD to detect 4-methylcytosine and 6-methyladenosine in their respective sequence contexts using a hierarchical model (Feng et al. 2013). However, their method only considered the IPD in the sequence context of the base of interest and its flanking bases, and did not use the IPD information of all neighboring bases flanking the base of interest. Furthermore, PW was not considered in the algorithm and no data on detection of 5-methylcytosine were presented.

別の研究では、Schadtらは、条件付き確率場と呼ばれる統計方法を開発し、目的の塩基および近傍の塩基のIPD情報を分析して、目的の塩基が5-メチルシトシンであるかどうかを決定した(Schadt et al.,2012)。この研究では、それらの塩基間のIPD相互作用を、それらを方程式に入力することによって、考慮した。しかしながら彼らは、彼らの方程式にヌクレオチド配列、すなわちA、T、G、またはCを入力しなかった。彼らがこの方法を適用して、M.Sau3AIプラスミドのメチル化状態を決定したとき、ROC曲線下面積は、プラスミド配列の800倍の配列カバレッジでさえ、0.5に近かった。さらに、彼らの方法では、彼らは、分析においてPWを考慮していなかった。 In another study, Schadt et al. developed a statistical method called conditional random fields to analyze the IPD information of the base of interest and neighboring bases to determine whether the base of interest is 5-methylcytosine. (Schadt et al., 2012). In this study, the IPD interactions between those bases were considered by entering them into the equation. However, they did not enter the nucleotide sequence, ie A, T, G, or C, into their equations. When they applied this method, M. When the methylation status of the Sau3AI plasmid was determined, the area under the ROC curve was close to 0.5 even at 800-fold sequence coverage of the plasmid sequence. Furthermore, in their method they did not consider PW in the analysis.

Beckmanらによるさらに別の研究では、標的細菌ゲノムと完全非メチル化ゲノムとの間で、ゲノム内の同じ4ntまたは6ntモチーフを共有するすべての配列のIPDを比較した(例えば、全ゲノム増幅を通して取得)(Beckman et al.2014)。このような分析の目的は、塩基修飾によってより頻繁に影響を受けるモチーフを特定することだけであった。この研究では、彼らは潜在的に修飾された塩基のIPDのみを考慮したが、近傍の塩基またはPWのIPDは考慮しなかった。彼らの方法は、個々のヌクレオチドのメチル化状態について有益ではなかった。 Yet another study by Beckman et al. compared the IPDs of all sequences sharing the same 4-nt or 6-nt motif in the genome between the target bacterial genome and the fully unmethylated genome (e.g., obtained through whole-genome amplification). ) (Beckman et al. 2014). The purpose of such analyzes was only to identify motifs more frequently affected by base modifications. In this study, they only considered the IPDs of potentially modified bases, but not the IPDs of neighboring bases or PWs. Their method was not informative for the methylation status of individual nucleotides.

要約すると、これらの以前の試み、IPDのみを利用するか、またはデータをグループ化するために近傍のヌクレオチドの配列情報をIPDと組み合わせて利用する試みは、有意義なまたは実用的な精度で5-メチルシトシンの塩基修飾を決定することができなかった。Gouilらによる最近のレビューでは、著者らは、信号対雑音比が低いため、単一分子リアルタイム配列決定を使用した単一分子における5-メチルシトシンの検出は不正確であると結論付けた(Gouil et al.,2019)。これらの以前の研究では、全ゲノムメチロミック分析、特にヒトゲノム、癌ゲノム、胎児ゲノムなどの複雑なゲノムに動態特徴を使用することが実行可能かどうかについては不明なままである。 In summary, these previous attempts, either utilizing IPD alone or utilizing sequence information of neighboring nucleotides in combination with IPD for grouping data, have been 5-5 with no meaningful or practical accuracy. It was not possible to determine the base modification of methylcytosine. In a recent review by Gouil et al., the authors concluded that detection of 5-methylcytosine in single molecules using single-molecule real-time sequencing is imprecise due to low signal-to-noise ratios (Gouil et al. et al., 2019). In these previous studies, it remains unclear whether it is feasible to use dynamic features for whole-genome methylomic analysis, especially complex genomes such as human, cancer and fetal genomes.

以前の研究とは対照的に、本開示に記載の方法の一部の実施形態は、測定ウィンドウ内のすべての塩基について、IPD、PW、および配列文脈を測定することおよび利用することに基づいている。本発明者らは、例えば、上流および下流の配列文脈、鎖情報、IPD、パルス幅、ならびにパルス強度を含む特徴を同時に利用するなど、複数のメトリックを組み合わせて使用することができれば、単一塩基の分解能で、塩基修飾(例えば、mC検出)の正確な測定を実現できるであろうと考えた。配列文脈とは、DNAのストレッチにおける塩基組成(A、C、G、またはT)および塩基の順序を指す。このようなDNAのストレッチは、塩基修飾分析にかけられる塩基または標的となる塩基を取り巻いている可能性がある。一実施形態では、DNAのストレッチは、塩基修飾分析にかけられる塩基の近位にあり得る。別の実施形態では、DNAのストレッチは、塩基修飾分析にかけられる塩基から遠く離れている可能性がある。DNAのストレッチは、塩基修飾分析にかけられる塩基の上流および/または下流にある可能性がある。 In contrast to previous studies, some embodiments of the methods described in this disclosure are based on measuring and utilizing IPD, PW, and sequence context for all bases within the measurement window. there is We believe that single base We thought that accurate measurement of base modifications (eg, mC detection) could be achieved with a resolution of . Sequence context refers to the base composition (A, C, G, or T) and the order of bases in a stretch of DNA. Such stretches of DNA may surround the bases to be subjected to base modification analysis or targeted bases. In one embodiment, the stretch of DNA may be proximal to the bases subjected to base modification analysis. In another embodiment, the stretch of DNA may be far away from the bases subjected to base modification analysis. A stretch of DNA can be upstream and/or downstream of the bases subjected to base modification analysis.

一実施形態では、塩基修飾分析に使用される、上流および下流の配列文脈、鎖情報、IPD、パルス幅、ならびにパルス強度の特徴は、動態特徴と呼ばれる。 In one embodiment, the upstream and downstream sequence context, strand information, IPD, pulse width, and pulse intensity features used for base modification analysis are referred to as kinetic features.

本開示に存在する実施形態は、限定されないが、細胞株、生物からの試料(例えば、固形臓器、固形組織、内視鏡検査を介して取得された試料、血液、または妊婦の血漿もしくは血清もしくは尿、絨毛膜絨毛生検など)、環境から取得された試料(例えば、細菌、細胞夾雑物)、食品(例えば、肉)から取得されたDNAについて使用することができる。一部の実施形態では、本開示に存在する方法はまた、例えばハイブリダイゼーションプローブ(Albert et al.,2007、Okou et al.,2007、Lee et al.,2011)、または物理的分離(サイズなどに基づく)に基づくもしくは制限酵素消化(例えば、MspI)に続くアプローチ、またはCas9ベースの濃縮(Watson et al.,2019)を使用して、ゲノムの一部が最初に濃縮されるステップの後で適用され得る。酵素的または化学的変換は、本発明が機能するのに必要ではないが、特定の実施形態では、そのような変換ステップが、本発明の性能をさらに高めるために含まれていてもよい。 Embodiments present in the present disclosure include, but are not limited to, cell lines, samples from organisms (e.g., solid organs, solid tissues, samples obtained via endoscopy, blood, or maternal plasma or serum or urine, chorionic villus biopsy, etc.), samples obtained from the environment (eg, bacteria, cellular contaminants), DNA obtained from food (eg, meat). In some embodiments, the methods presented in the present disclosure also use, for example, hybridization probes (Albert et al., 2007; Okou et al., 2007; Lee et al., 2011) or physical separation (such as size after a step in which a portion of the genome is first enriched using an approach based on the can be applied. Enzymatic or chemical transformations are not required for the invention to function, but in certain embodiments such transformation steps may be included to further enhance the performance of the invention.

本開示の実施形態は、塩基修飾の検出または修飾レベルの測定における改善された精度または実用性または利便性を可能にする。修飾は、直接検出され得る。実施形態は、検出のためにすべての修飾情報が保たれない可能性がある酵素的または化学的変換を回避することができる。さらに、特定の酵素的または化学的変換は、特定のタイプの修飾と互換性がない場合がある。本開示の実施形態はまた、塩基修飾情報をPCR産物に伝達しない可能性があるPCRによる増幅を回避し得る。さらに、DNAの両方の鎖を一緒に配列決定することができ、それによって、一方の鎖からの配列と、他方の鎖に相補的な配列との対形成が可能になる。対照的に、PCR増幅は二本鎖DNAの2つの鎖を分割するため、このような配列の対形成は困難である。 Embodiments of the present disclosure allow for improved accuracy or practicality or convenience in detecting base modifications or measuring modification levels. Modifications can be detected directly. Embodiments can avoid enzymatic or chemical transformations that may not retain all modification information for detection. Additionally, certain enzymatic or chemical transformations may be incompatible with certain types of modifications. Embodiments of the present disclosure may also avoid amplification by PCR, which may not convey base modification information to the PCR product. Additionally, both strands of DNA can be sequenced together, thereby allowing the pairing of sequences from one strand with sequences complementary to the other strand. In contrast, pairing of such sequences is difficult because PCR amplification splits the two strands of double-stranded DNA.

酵素的または化学的変換の有無にかかわらず、決定されたメチル化プロファイルは、生体試料の分析に使用することができる。一実施形態では、メチル化プロファイルを使用して、細胞DNAの起源(例えば、母体または胎児、組織、ウイルス、または腫瘍)を検出することができる。組織における異常なメチル化プロファイルの検出は、個人における発達障害の特定、ならびに腫瘍や悪性腫瘍の特定および予測に役立つ。ハプロタイプ間のメチル化レベルの不均衡は、癌を含む障害を検出するために使用することができる。単一分子のメチル化パターンは、キメラDNA(例えば、ウイルスとヒト間)およびハイブリッドDNA(例えば、天然ゲノムでは通常融合されない2つの遺伝子間)または2つの種間(例えば、遺伝子またはゲノム操作による)を特定することができる。 The determined methylation profile, with or without enzymatic or chemical conversion, can be used for analysis of biological samples. In one embodiment, methylation profiles can be used to detect the origin of cellular DNA (eg, maternal or fetal, tissue, viral, or tumor). Detection of aberrant methylation profiles in tissues helps identify developmental disorders in individuals, as well as identifying and predicting tumors and malignancies. Imbalance in methylation levels between haplotypes can be used to detect disorders including cancer. Single-molecule methylation patterns can occur in chimeric DNA (e.g., between viruses and humans) and hybrid DNA (e.g., between two genes that are not normally fused in the native genome) or between two species (e.g., due to genetic or genomic engineering). can be specified.

メチル化分析は、訓練セットで使用されるデータを絞り込むことを含む、強化訓練によって改善される可能性がある。特定の領域が、分析の標的となる場合がある。実施形態では、そのような標的化は、単独で、または他の試薬(複数可)と組み合わせて、その配列に基づいてDNA配列またはゲノムを切断し得る酵素を含み得る。一部の実施形態では、酵素は、特定のDNA配列(複数可)を認識して切断する制限酵素である。他の実施形態では、異なる認識配列を有する2つ以上の制限酵素を、組み合わせて使用することができる。一部の実施形態では、制限酵素は、認識配列のメチル化状態に基づいて、切断するかまたは切断しない場合がある。一部の実施形態では、酵素は、CRISPR/Casファミリー内の酵素である。例えば、目的のゲノム領域は、CRISPR/Cas9システムまたはガイドRNAに基づく他のシステム(すなわち、相補的な標的DNA配列に結合し、そのプロセスで酵素を標的ゲノム位置に誘導して作用させる短いRNA配列)を使用して標的化することができる。場合によっては、参照ゲノムに整列しなくてもメチル化分析が可能な場合がある。 Methylation analysis can be improved by reinforcement training, which involves narrowing down the data used in the training set. Certain regions may be targeted for analysis. In embodiments, such targeting may include enzymes capable of cleaving a DNA sequence or genome based on its sequence, alone or in combination with other reagent(s). In some embodiments, the enzyme is a restriction enzyme that recognizes and cuts a specific DNA sequence(s). In other embodiments, two or more restriction enzymes with different recognition sequences can be used in combination. In some embodiments, the restriction enzyme may or may not cut based on the methylation state of the recognition sequence. In some embodiments, the enzyme is an enzyme within the CRISPR/Cas family. For example, the genomic region of interest may be a CRISPR/Cas9 system or other guide RNA-based system (i.e., a short RNA sequence that binds to a complementary target DNA sequence and in the process directs the enzyme to the target genomic location to act). ) can be used to target. In some cases, methylation analysis may be possible without alignment to the reference genome.

I.単一分子リアルタイム配列決定によるメチル化検出
本開示の実施形態は、酵素的または化学的変換なしに、塩基修飾を直接検出することを可能にする。単一分子リアルタイム配列決定を通して取得された動態特徴(例えば、配列文脈、IPD、PW)を、機械学習で分析して、修飾を検出するまたは修飾の不在を検出するモデルを開発することができる。修飾レベルは、DNA分子の起源または障害の存在もしくはレベルを決定するために使用することができる。
I. Methylation Detection by Single-Molecular Real-Time Sequencing Embodiments of the present disclosure allow direct detection of base modifications without enzymatic or chemical transformations. Kinetic features (e.g., sequence context, IPD, PW) obtained through single-molecule real-time sequencing can be analyzed with machine learning to develop models that detect modifications or detect the absence of modifications. The level of modification can be used to determine the origin of the DNA molecule or the presence or level of disorder.

説明のために、単一分子リアルタイム配列決定の一例としてのPacific Biosciences SMRT配列決定を使用して、DNAポリメラーゼ分子を、ゼロモード導波(zero-mode waveguide、ZMW)として機能するウェルの底に配置する。ZMWは、光を小さな観察ボリュームに閉じ込めるためのナノフォトニックデバイスである。これは、直径が非常に小さな穴であり、検出に使用される波長範囲の光の伝搬を許容せず、固定化されたポリメラーゼによって組み込まれた色素標識ヌクレオチドからの光信号の発光のみが、低い一定のバックグラウンド信号に対して検出可能である(Eid et al.,2009)。DNAポリメラーゼは、蛍光標識ヌクレオチドの、相補的な核酸鎖への取り込みを触媒する。 For illustration, using Pacific Biosciences SMRT sequencing as an example of single-molecule real-time sequencing, DNA polymerase molecules are placed at the bottom of wells that act as zero-mode waveguides (ZMWs). do. A ZMW is a nanophotonic device for confining light to a small viewing volume. This is a very small diameter hole that does not allow the propagation of light in the wavelength range used for detection, only the low emission of optical signal from dye-labeled nucleotides incorporated by the immobilized polymerase. It is detectable against a constant background signal (Eid et al., 2009). DNA polymerases catalyze the incorporation of fluorescently labeled nucleotides into complementary nucleic acid strands.

図1は、単一分子の循環コンセンサス配列決定によって配列決定された塩基修飾を有する分子の例を示す。分子102、104、および106は、塩基修飾を有する。DNA分子(例えば、分子106)は、ヘアピンアダプターと連結されて、連結された分子108を形成し得る。次いで、連結された分子108は、環状化された分子110を形成することができる。環状化された分子は、固定化されたDNAポリメラーゼに結合し、DNA合成を開始することができる。塩基修飾を有しない分子も配列決定することができる。 FIG. 1 shows examples of molecules with base modifications sequenced by single-molecule circular consensus sequencing. Molecules 102, 104 and 106 have base modifications. A DNA molecule (eg, molecule 106 ) can be ligated with a hairpin adapter to form ligated molecule 108 . Linked molecules 108 can then form circularized molecules 110 . Circularized molecules can bind to the immobilized DNA polymerase and initiate DNA synthesis. Molecules without base modifications can also be sequenced.

図2は、単一分子リアルタイム配列決定によって配列決定されたメチル化および/または非メチル化CpG部位を有する分子の一例を示す。最初に、DNA分子がヘアピンアダプターに連結されて、環状化された分子が形成され、これが固定化されたDNAポリメラーゼに結合し、DNA合成が開始されるであろう。図2では、DNA分子202は、ヘアピンアダプターと連結されて、連結された分子204を形成する。次いで、連結された分子204は、環状化された分子206を形成する。CpG部位がない分子も配列決定することができる。環状分子206は、非メチル化CpG部位208を含み、これも依然として配列決定され得る。 FIG. 2 shows an example of molecules with methylated and/or unmethylated CpG sites sequenced by single-molecule real-time sequencing. First, a DNA molecule will be ligated to the hairpin adapter to form a circularized molecule that will bind the immobilized DNA polymerase and initiate DNA synthesis. In FIG. 2, DNA molecule 202 is ligated with a hairpin adapter to form ligated molecule 204 . Linked molecules 204 then form circularized molecules 206 . Molecules without CpG sites can also be sequenced. Circular molecule 206 contains unmethylated CpG sites 208, which can still be sequenced.

DNA合成が開始すると、蛍光色素標識ヌクレオチドが、環状DNA鋳型に基づいて固定化されたポリメラーゼによって新しく合成された鎖に組み込まれ、光信号の放出につながる。DNA鋳型は環状化されているため、環状DNA鋳型全体が、ポリメラーゼを複数回通過する(すなわち、DNA鋳型の1つのヌクレオチドが複数回配列決定される)。環状化DNA鋳型のすべての塩基が、完全にDNAポリメラーゼを通過するプロセスから生成された配列は、サブリードと呼ばれる。ポリメラーゼは環状DNA鋳型全体を複数回継続できるため、ZMW内の1つの分子は、複数のサブリードを生成する。一実施形態では、サブリードは、一実施形態では、配列決定エラーの存在のために、環状DNA鋳型の配列、塩基修飾または他の分子情報のサブセットのみを含有し得る。 Upon initiation of DNA synthesis, fluorochrome-labeled nucleotides are incorporated into newly synthesized strands by an immobilized polymerase based on a circular DNA template, leading to the emission of a light signal. Because the DNA template is circularized, the entire circular DNA template is passed through the polymerase multiple times (ie, one nucleotide of the DNA template is sequenced multiple times). Sequences generated from the process of passing all bases of a circularized DNA template completely through a DNA polymerase are called subreads. A single molecule within a ZMW will generate multiple subreads, as the polymerase can continue over the circular DNA template multiple times. In one embodiment, a subread may contain only a subset of the sequence, base modifications or other molecular information of the circular DNA template, in one embodiment due to the presence of sequencing errors.

図3に示されるように、得られた蛍光パルスの到着時間および持続時間は、ポリメラーゼ動態を測定することを可能にするであろう。パルス間隔(IPD)は、2つの放出パルス間の期間の長さについてのメトリックであり、各々は、新生鎖に組み込まれた蛍光標識ヌクレオチドを示唆するであろう(図3)。図3に示されるように、パルス幅(PW)は、ベースコールに関連するパルスの持続時間に関連して、ポリメラーゼ動態を反映する別のメトリックである。PWは、信号ピークの高さの0%でのパルスの持続時間(すなわち、組み込まれた色素標識ヌクレオチドの蛍光強度)である可能性がある。一実施形態では、PWは、例えば、限定されないが、信号ピークの高さの5%、10%、20%、30%、40%、50%、60%、70%、80%または90%でのパルスの持続時間によって定義され得る。一部の実施形態では、PWは、ピーク下面積を信号ピークの高さで割ったものでもよい。 As shown in FIG. 3, the arrival times and durations of the resulting fluorescence pulses will allow the polymerase kinetics to be measured. Pulse interval (IPD) is a metric for the length of time between two emission pulses, each of which would suggest fluorescently labeled nucleotides incorporated into nascent strands (FIG. 3). As shown in FIG. 3, pulse width (PW) is another metric that reflects polymerase dynamics in relation to the duration of pulses associated with base calls. PW can be the pulse duration (ie, the fluorescence intensity of the incorporated dye-labeled nucleotide) at 0% of the signal peak height. In one embodiment, PW is for example, but not limited to, 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% or 90% of the signal peak height. can be defined by the pulse duration of . In some embodiments, PW may be the area under the peak divided by the height of the signal peak.

IPDなどのこのようなポリメラーゼ動態は、合成および微生物配列(例えば、E.coli)におけるN6-メチルアデニン(6mA)、5-メチルシトシン(5mC)、および5-ヒドロキシメチルシトシン(5hmC)などの塩基修飾の影響を受けることが示されている(Flusberg et al.,2010)。Flusbergら(.2010)は、修飾を検出するための独立した入力として配列文脈およびIPDを使用しなかったため、実質的に意味のある検出の精度を欠くモデルとなった。Flusbergらは、配列文脈のみを使用して、GATCで6mAが生じたことを確認した。Flusbergらは、メチル化状態を検出するための入力として、IPDと組み合わせて配列文脈を使用することには言及していない。 Such polymerase kinetics, such as IPD, have been observed in synthetic and microbial sequences (e.g., E. coli) for bases such as N6-methyladenine (6mA), 5-methylcytosine (5mC), and 5-hydroxymethylcytosine (5hmC). It has been shown to be affected by modification (Flusberg et al., 2010). Flusberg et al. (.2010) did not use sequence context and IPD as independent inputs to detect modifications, resulting in a model that lacked substantially meaningful detection accuracy. Flusberg et al. used sequence context only to confirm that 6 mA occurred at GATC. Flusberg et al. do not mention using sequence context in combination with IPD as input for detecting methylation status.

相補鎖の5-メチルシトシンへの新しい塩基の取り込みに対して与えられた弱い中断は、メチル化モチーフCCWGGの検出がほんの1.9%~4.3%の範囲であると報告されているため(Clark et al.,2013)、IPD信号のみを使用する場合、比較的単純な微生物ゲノムでさえ、メチル化の判定を非常に困難にさせる。例えば、Pacific Biosciencesが提供する分析ソフトウェアパッケージ(SMRT Link v6.0.0)は、5mCの分析を実施することができない。さらに、以前のバージョンのSMRT Link v5.1.0では、メチル化分析の前に、Tet1酵素を使用して5mCを5-カルボキシルシトシン(5caC)に変換する必要があった。これは、5caCに関連するIPD信号が強化されるためである(Clark et al.,2013)。したがって、単一分子リアルタイム配列決定を使用して、ヒトゲノムのゲノム全体の様式で天然DNAを分析することの実現可能性を示す研究がないことは驚くべきことではない。 The weak interruption afforded to the incorporation of new bases into 5-methylcytosines of the complementary strand has been reported to range from only 1.9% to 4.3% of detection of the methylation motif C m CWGG. (Clark et al., 2013), making determination of methylation very difficult even in relatively simple microbial genomes when using only the IPD signal. For example, the analysis software package provided by Pacific Biosciences (SMRT Link v6.0.0) cannot perform 5mC analysis. Additionally, previous versions of SMRT Link v5.1.0 required the conversion of 5mC to 5-carboxylcytosine (5caC) using the Tet1 enzyme prior to methylation analysis. This is due to the enhanced IPD signal associated with 5caC (Clark et al., 2013). It is therefore not surprising that there are no studies demonstrating the feasibility of analyzing natural DNA in a genome-wide fashion of the human genome using single-molecule real-time sequencing.

II.測定ウィンドウパターンと機械学習モデル
修飾および/または塩基を酵素的または化学的に変換することなく、塩基の修飾を検出する技術が望まれている。本明細書に記載されるように、標的塩基の修飾は、標的塩基を取り巻く塩基の単一分子リアルタイム配列決定から取得された動態特徴データを使用して、検出され得る。動態特徴には、パルス間隔、パルス幅、および配列文脈が含まれ得る。これらの動態特徴は、標的塩基の上流および下流の特定の数のヌクレオチドの測定ウィンドウについて取得することができる。これらの機能(例えば、測定ウィンドウの特定の場所)を使用して、機械学習モデルを訓練することができる。試料調製の一例として、DNA分子の2本の鎖は、ヘアピンアダプターによって結合され得、それにより、環状DNA分子が形成される。環状DNA分子により、ワトソン鎖およびクリック鎖のいずれかまたは両方の動態特徴を取得することができる。データ分析フレームワークは、測定ウィンドウの動態特徴に基づいて開発され得る。次いで、このデータ分析フレームワークを使用して、メチル化を含む修飾を検出することができる。このセクションでは、修飾を検出するための様々な技術について説明する。
II. Measurement Window Patterns and Machine Learning Models Techniques to detect modifications of bases without enzymatic or chemical conversion of the modifications and/or bases are desired. As described herein, modifications of a target base can be detected using kinetic characterization data obtained from single-molecule real-time sequencing of bases surrounding the target base. Kinetic features can include pulse intervals, pulse widths, and sequence context. These kinetic features can be obtained for measurement windows of a specified number of nucleotides upstream and downstream of the target base. These features (eg, specific locations in the measurement window) can be used to train machine learning models. As an example of sample preparation, two strands of a DNA molecule can be joined by a hairpin adapter, thereby forming a circular DNA molecule. Circular DNA molecules allow one to obtain the kinetic characteristics of either or both Watson and Crick strands. A data analysis framework can be developed based on the dynamic characteristics of the measurement window. Modifications, including methylation, can then be detected using this data analysis framework. This section describes various techniques for detecting modifications.

A.一本鎖の使用
図4に示すように、一例として、Pacific Biosciences SMRT配列決定からワトソン鎖のサブリードを取得して、塩基修飾の状態に関する1つの特定の塩基を分析した。図4では、塩基修飾分析にかけられた塩基の各側からの3つの塩基は、測定ウィンドウ400として定義されるであろう。一実施形態では、これらの7つの塩基(すなわち、3ヌクレオチド(nt)上流および下流の配列ならびに塩基修飾分析のための1ヌクレオチド)についての配列文脈、IPD、およびPWは、測定ウィンドウとして2次元(すなわち、2-D)マトリックスにコンパイルされた。示されている例では、測定ウィンドウ400は、ワトソン鎖の1つのサブリード用である。他の変形が本明細書に記載されている。
A. Use of Single Strands As an example, Watson strand subreads were obtained from Pacific Biosciences SMRT sequencing to analyze one specific base for base modification status, as shown in FIG. In FIG. 4, three bases from each side of the base subjected to base modification analysis would be defined as measurement window 400 . In one embodiment, the sequence context, IPD, and PW for these 7 bases (i.e., 3 nucleotide (nt) upstream and downstream sequences and 1 nucleotide for base modification analysis) are measured in two dimensions ( 2-D) compiled into a matrix. In the example shown, the measurement window 400 is for one subread of the Watson strand. Other variations are described herein.

マトリックスの最初の行402は、調査された配列を示している。マトリックスの2行目404では、0の位置は、塩基修飾分析のための塩基を表した。-1、-2、および-3の相対位置は、それぞれ、塩基修飾分析にかけられる塩基の1nt、2nt、および3nt上流の位置を示した。+1、+2、および+3の相対位置は、それぞれ、塩基修飾分析にかけられる塩基の1nt、2nt、および3nt下流の位置を示した。各位置には、対応するIPD値およびPW値を含有する2つの列が含まれている。次の4行(行408、412、416、および420)は、それぞれ、鎖(例えば、ワトソン鎖)の4種類のヌクレオチド(A、C、G、およびT)に対応した。マトリックス内に存在するIPD値およびPW値は、どの対応するヌクレオチドの種類が特定の位置で配列決定されたかに依存した。図4に示すように、相対位置0で、IPD値およびPW値がワトソン鎖の「G」を示す行に表示され、その位置での配列結果において、グアニンが呼び出されたことを示している。配列決定された塩基に対応しなかった列の他のグリッドは、「0」としてコード化される。一例として、2Dデジタルマトリックス(図4)に対応する配列情報は、ワトソン鎖について5’-GATGACT-3’である。 The first row 402 of the matrix shows the sequences investigated. In the second row 404 of the matrix, the 0 position represented the base for base modification analysis. Relative positions of -1, -2, and -3 indicated positions 1 nt, 2 nt, and 3 nt upstream of the base subjected to base modification analysis, respectively. Relative positions of +1, +2, and +3 indicated positions 1 nt, 2 nt, and 3 nt downstream of the base subjected to base modification analysis, respectively. Each position contains two columns containing the corresponding IPD and PW values. The next four rows (rows 408, 412, 416, and 420) corresponded respectively to the four nucleotides (A, C, G, and T) of the strand (eg Watson strand). The IPD and PW values present in the matrix depended on which corresponding nucleotide type was sequenced at a particular position. As shown in FIG. 4, at relative position 0, the IPD and PW values are displayed in the line indicating the "G" of the Watson chain, indicating that guanine was called for in the sequence results at that position. Other grids in columns that did not correspond to sequenced bases are coded as '0'. As an example, the sequence information corresponding to the 2D digital matrix (Figure 4) is 5'-GATGACT-3' for the Watson chain.

図5に図示された一実施形態で示されるように、測定ウィンドウは、クリック鎖からのデータに適用され得る。塩基修飾の状態に関して1つの特定の塩基を分析するために、単一分子リアルタイム配列決定からクリック鎖のサブリードを取得した。図5では、塩基修飾分析にかけられた塩基の各側からの3つの塩基、および塩基修飾分析にかけられた塩基は、測定ウィンドウとして定義されるであろう。一実施形態では、これらの7つの塩基(すなわち、3ヌクレオチド(nt)上流および下流の配列ならびに塩基修飾分析のための1ヌクレオチド)についての配列文脈、IPD、PWは、測定ウィンドウとして2次元(すなわち、2-D)マトリックスにコンパイルされた。マトリックスの最初の行は、調査された配列を示している。マトリックスの2行目では、0の位置は、塩基修飾分析の塩基を表している。-1、-2、および-3の相対位置は、それぞれ、塩基修飾分析にかけられる塩基の1nt、2nt、および3nt上流の位置を示した。+1、+2、および+3の相対位置は、それぞれ、塩基修飾分析にかけられる塩基の1nt、2nt、および3nt下流の位置を示した。各位置には、対応するIPD値およびPW値を含有する2つの列が含まれている。次の4行は、この鎖(例えば、クリック鎖)の4種類のヌクレオチド(A、C、G、T)に対応している。マトリックス内に存在するIPD値およびPW値は、どの対応するヌクレオチドの種類が特定の位置で配列決定されたかに依存した。図5に示すように、相対位置0で、IPD値およびPW値がクリック鎖の「T」を示す行に表示され、その位置での配列結果において、チミンが呼び出されたことを示している。配列決定された塩基に対応しなかった列の他のグリッドは、「0」としてコード化される。一例として、2Dデジタルマトリックス(図5)に対応する配列情報は、クリック鎖について5’-ACTTAGC-3’である。 As shown in one embodiment illustrated in FIG. 5, a measurement window can be applied to the data from the click chain. To analyze one specific base for base modification status, click strand subreads were obtained from single-molecule real-time sequencing. In FIG. 5, three bases from each side of the base subjected to base modification analysis and the base subjected to base modification analysis would be defined as the measurement window. In one embodiment, the sequence context, IPD, PW for these 7 bases (i.e., 3 nucleotide (nt) upstream and downstream sequences and 1 nucleotide for base modification analysis) are two-dimensional (i.e. , 2-D) compiled into matrices. The first row of the matrix shows the sequences investigated. In the second row of the matrix, the 0 position represents the base of the base modification analysis. Relative positions of -1, -2, and -3 indicated positions 1 nt, 2 nt, and 3 nt upstream of the base subjected to base modification analysis, respectively. Relative positions of +1, +2, and +3 indicated positions 1 nt, 2 nt, and 3 nt downstream of the base subjected to base modification analysis, respectively. Each position contains two columns containing the corresponding IPD and PW values. The next four lines correspond to the four nucleotides (A, C, G, T) of this strand (eg, click strand). The IPD and PW values present in the matrix depended on which corresponding nucleotide type was sequenced at a particular position. As shown in FIG. 5, at relative position 0, the IPD and PW values are displayed in the line labeled 'T' in the click strand, indicating that thymine was called for in the sequence results at that position. Other grids in columns that did not correspond to sequenced bases are coded as '0'. As an example, the sequence information corresponding to the 2D digital matrix (Figure 5) is 5'-ACTTAGC-3' for the click strand.

B.ワトソン鎖およびクリック鎖の両方の使用
図6は、ワトソン鎖およびその相補的なクリック鎖からのデータを組み合わせることができる方法で、測定ウィンドウが実装され得る実施形態を示す。図6に示すように、ワトソン鎖およびクリック鎖のサブリードを単一分子リアルタイム配列決定から取得して、1つの特定の塩基の修飾について分析した。一実施形態では、環状DNA鋳型のクリック鎖からの測定ウィンドウは、塩基修飾分析にかけられたワトソン鎖からの測定ウィンドウと相補的であった。図6では、塩基修飾分析にかけられたワトソン鎖の第1の塩基の各側からの3つの塩基および第1の塩基は、第1の測定ウィンドウとして定義されるであろう。クリック鎖の第2の塩基の各側からの3つの塩基および第2の塩基は、第2の測定ウィンドウとして定義されるであろう。第2の塩基は、第1の塩基と相補的であった。一実施形態では、ワトソンおよびクリック鎖からのこれらの7つの塩基(すなわち、3ヌクレオチド(nt)上流および下流の配列ならびに塩基修飾分析のための1ヌクレオチド)についての配列文脈、IPD、PWは、2次元(すなわち、2-D)マトリックスにコンパイルされた。ワトソン鎖とクリック鎖からのこれらの測定ウィンドウは、それぞれ、第1の測定ウィンドウおよび第2の測定ウィンドウとみなされた。
B. Using Both Watson and Crick Strands FIG. 6 shows an embodiment in which the measurement window can be implemented in a way that data from the Watson strand and its complementary Crick strand can be combined. As shown in FIG. 6, Watson and Crick strand subreads were obtained from single-molecule real-time sequencing and analyzed for modification of one particular base. In one embodiment, the measurement window from the Crick strand of the circular DNA template was complementary to the measurement window from the Watson strand subjected to base modification analysis. In FIG. 6, three bases from each side of the first base and the first base of the Watson strand subjected to base modification analysis would be defined as the first measurement window. Three bases from each side of the second base of the click strand and the second base will be defined as the second measurement window. The second base was complementary to the first base. In one embodiment, the sequence context, IPD, PW, for these 7 bases from the Watson and Crick strand (i.e., 3 nucleotide (nt) upstream and downstream sequences and 1 nucleotide for base modification analysis) is 2 Compiled into a dimensional (ie, 2-D) matrix. These measurement windows from the Watson and Crick strands were considered the first and second measurement windows, respectively.

ワトソン鎖とクリック鎖のマトリックスの最初の行は、調査された配列を示している。ワトソン鎖のマトリックスの2行目では、0の位置は、塩基修飾分析の最初の塩基を表している。クリック鎖のマトリックスの2行目に示されている0の位置は、第1の塩基と相補的な第2の塩基を表している。-1、-2、および-3の相対位置は、それぞれ、第1の塩基および第2の塩基の1nt、2nt、および3nt上流の位置を示した。+1、+2、および+3の相対位置は、それぞれ、第1の塩基および第2の塩基の1nt、2nt、および3nt下流の位置を示した。ワトソン鎖およびクリック鎖に由来する各位置は、対応するIPD値およびPW値を含有する2つの列に対応するであろう。ワトソン鎖およびクリック鎖のマトリックスの次の4行は、それぞれ、特定の鎖(例えば、クリック鎖)の4種類のヌクレオチド(A、C、G、およびT)に対応していた。マトリックス内に存在するIPD値およびPW値は、どの対応するヌクレオチドの種類が特定の位置で配列決定されたかに依存した。 The first row of the matrices for Watson and Crick strands shows the sequences investigated. In the second row of the Watson strand matrix, the 0 position represents the first base of the base modification analysis. The 0 position shown in the second row of the click strand matrix represents the second base complementary to the first base. Relative positions of -1, -2, and -3 indicated positions 1 nt, 2 nt, and 3 nt upstream of the first and second bases, respectively. Relative positions of +1, +2, and +3 indicated positions 1 nt, 2 nt, and 3 nt downstream of the first and second bases, respectively. Each position from the Watson and Crick strands will correspond to two columns containing the corresponding IPD and PW values. The next four rows of matrices for Watson and Crick strands each corresponded to the four nucleotides (A, C, G, and T) of a particular strand (eg, Crick strand). The IPD and PW values present in the matrix depended on which corresponding nucleotide type was sequenced at a particular position.

図6に示すように、相対位置の0では、IPD値およびPW値が、ワトソン鎖の「A」およびクリック鎖の「T」を示す行に示され、ワトソン鎖およびクリック鎖のその位置での配列結果において、それぞれ、アデニンとチミンが呼び出されたことを示している。配列決定された塩基に対応しなかった列の他のグリッドは、「0」としてコード化される。一例として、ワトソン鎖の2Dデジタルマトリックス(図6)に対応する配列情報は、5’-ATAAGTT-3’であろう。クリック鎖の2Dデジタルマトリックス(図6)に対応する配列情報は、5’-AACTTAT-3’であろう。 As shown in FIG. 6, at relative position 0, the IPD and PW values are shown in the row labeled "A" for Watson strands and "T" for Crick strands, and for Watson and Crick strands at that position. Sequence results show that adenine and thymine were called, respectively. Other grids in columns that did not correspond to sequenced bases are coded as '0'. As an example, the sequence information corresponding to the Watson chain 2D digital matrix (FIG. 6) would be 5'-ATAAGTT-3'. The sequence information corresponding to the 2D digital matrix of the click strand (Figure 6) would be 5'-AACTTAT-3'.

この例で示されるように、ワトソン鎖およびクリック鎖からのデータを組み合わせて新しいマトリックスを形成することができ、これを、測定ウィンドウとみなすこともできる。この新しいマトリックスは、機械学習モデルを訓練するために使用される単一の試料として使用することができる。したがって、2Dマトリックスの特定の配置は、畳み込みニューラルネットワーク(CNN)が使用される場合など、影響がある可能性があるが、新しいマトリックスのすべての値を別個の特徴として扱うことができる。異なる鎖の様々な位置での配列文脈は、マトリックスのゼロ以外のエントリを介して伝達できる。 As shown in this example, data from Watson and Crick strands can be combined to form a new matrix, which can also be viewed as a measurement window. This new matrix can be used as a single sample used to train a machine learning model. Therefore, although the particular arrangement of the 2D matrix may have implications, such as when a convolutional neural network (CNN) is used, all values of the new matrix can be treated as separate features. Sequence context at various positions on different strands can be conveyed via non-zero entries in the matrix.

図7は、ワトソン鎖およびクリック鎖からのデータが互いに正確に相補的な位置ではない方法で、測定ウィンドウを実装できることを示す。図7に示されるように、第1の測定ウィンドウは5’-ATAAGTT-3’であり、第2の測定ウィンドウは5’-GTAACGC-3’であった。一部の実施形態では、ワトソン鎖およびクリック鎖は、位置が相補的でないように互いにシフトしてもよい。 FIG. 7 shows that the measurement window can be implemented in such a way that the data from the Watson and Crick strands are not exactly complementary to each other. As shown in Figure 7, the first measurement window was 5'-ATAAGTT-3' and the second measurement window was 5'-GTAACGC-3'. In some embodiments, the Watson and Crick strands may be shifted relative to each other such that they are not complementary in position.

図8は、測定ウィンドウを使用して、CpG部位のメチル化状態を分析できることを示している。0の位置はCpG部位のシトシンに対応し、したがって2つの鎖間で位置が1つだけシフトするため、両方の鎖について、Cが0の位置になる。したがって、ワトソン鎖およびクリック鎖からの測定ウィンドウに含まれる配列の一部のみが、互いに相補的である。他の実施形態では、ワトソン鎖およびクリック鎖からの測定ウィンドウのすべての配列は、互いに相補的であり得る。さらに他の実施形態では、ワトソン鎖およびクリック鎖からの測定ウィンドウの配列のいずれも、互いに相補的ではない。 FIG. 8 shows that measurement windows can be used to analyze the methylation status of CpG sites. The 0 position corresponds to a cytosine in the CpG site, thus shifting by one position between the two strands, resulting in C being the 0 position for both strands. Therefore, only part of the sequences included in the measurement windows from the Watson and Crick strands are complementary to each other. In other embodiments, all sequences of the measurement windows from the Watson and Crick strands can be complementary to each other. In still other embodiments, none of the measurement window sequences from the Watson strand and the Crick strand are complementary to each other.

一実施形態では、測定ウィンドウについて、塩基修飾分析にかけられた塩基を取り巻くDNAストレッチの長さは、非対称であり得る。例えば、その塩基のX-nt上流およびY-nt下流を、塩基修飾分析に使用することができる。Xは、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、150、200、300、400、500、1000、2000、4000、5000、および10000を含み得るが、これらに限定されない。Yは、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、150、200、300、400、500、1000、2000、4000、5000、および10000を含み得るが、これらに限定されない。 In one embodiment, the length of the DNA stretch surrounding the bases subjected to base modification analysis can be asymmetric with respect to the measurement window. For example, the X-nt upstream and Y-nt downstream of that base can be used for base modification analysis. X is 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23 , 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48 , 49, 50, 100, 150, 200, 300, 400, 500, 1000, 2000, 4000, 5000, and 10,000. Y is 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23 , 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48 , 49, 50, 100, 150, 200, 300, 400, 500, 1000, 2000, 4000, 5000, and 10,000.

C.モデルの訓練および修飾の検出
図9は、測定ウィンドウを使用して任意の塩基修飾を決定する方法に関する一般的な手順を示す。非修飾および修飾が既知のDNA試料を、単一分子リアルタイム配列決定にかけた。修飾されたDNA(例えば、修飾分子902)は、塩基(例えば、塩基904)がその部位に修飾(例えば、メチル化)を有することを意味する。修飾されていないDNA(例えば、非修飾分子906)は、塩基(例えば、塩基908)がその部位に修飾を有しないことを意味する。DNAの両方のセットを、人工的に作成または処理して、修飾/非修飾DNAを形成することができる。
C. Model Training and Modification Detection FIG. 9 shows the general procedure for how to determine any base modification using measurement windows. Unmodified and known modified DNA samples were subjected to single-molecule real-time sequencing. A modified DNA (eg, modified molecule 902) means that a base (eg, base 904) has a modification (eg, methylation) at that site. Unmodified DNA (eg, unmodified molecule 906) means that the base (eg, base 908) has no modifications at that site. Both sets of DNA can be engineered or manipulated to form modified/unmodified DNA.

ステージ910で、試料は、次いで単一分子リアルタイム配列決定を経ることができる。SMRT配列決定の一部として、固定化DNAポリメラーゼを繰り返し通過させることによって、環状分子を複数回配列決定することができる。毎回取得される配列情報は、サブリードとみなされる。これにより、1つの環状DNA鋳型は、複数のサブリードを生成する。配列決定サブリードは、例えば、限定されないが、BLASR(Mark J Chaisson et al,BMC Bioinformatics.2012;13: 238)を使用して、参照ゲノムに整列することができる。様々な他の実施形態では、BLAST(Altschul SF et al,J Mol Biol.1990;215(3):403-410)、BLAT(Kent WJ,Genome Res.2002;12(4):656-664)、BWA(Li H et al,Bioinformatics.2010;26(5):589-595)、NGMLR(Sedlazeck FJ et al,Nat Methods.2018;15(6):461-468)、LAST(Kielbasa SM et al、Genome Res.2011;21(3):487-493)およびMinimap2(Li H,Bioinformatics.2018;34(18):3094-3100)は、サブリードを参照ゲノムに整列するために使用することができる。整列により、同じ位置の各サブリードのデータを特定できるため、複数のサブリードからのデータを組み合わせることができる(例えば、平均化)。 At stage 910, the sample can then undergo single-molecule real-time sequencing. As part of SMRT sequencing, circular molecules can be sequenced multiple times by repeated passages of immobilized DNA polymerase. Sequence information obtained each time is regarded as a sub-read. This allows one circular DNA template to generate multiple subreads. Sequencing subreads can be aligned to the reference genome using, for example, without limitation, BLASR (Mark J Chaisson et al, BMC Bioinformatics. 2012; 13: 238). In various other embodiments, BLAST (Altschul SF et al, J Mol Biol. 1990;215(3):403-410), BLAT (Kent WJ, Genome Res. 2002;12(4):656-664). , BWA (Li H et al, Bioinformatics. 2010; 26(5):589-595), NGMLR (Sedlazeck FJ et al, Nat Methods. 2018; 15(6):461-468), LAST (Kielbasa SM et al 2011; 21(3):487-493) and Minimap2 (Li H, Bioinformatics. 2018; 34(18):3094-3100) can be used to align subreads to the reference genome. . Alignment allows the identification of data for each subread at the same location so that data from multiple subreads can be combined (eg, averaged).

ステージ912では、整列結果から、塩基修飾分析にかけられた塩基を取り巻くIPD、PW、および配列文脈が取得された。ステージ914では、IPD、PW、および配列文脈は、特定の構造、例えば、限定されないが、図9に示されるような2Dマトリックスに記録された。 At stage 912, the IPD, PW, and sequence context surrounding the bases subjected to base modification analysis were obtained from the alignment results. At stage 914, the IPD, PW, and sequence context were recorded in a specific structure, such as, but not limited to, a 2D matrix as shown in FIG.

ステージ916では、既知の塩基修飾を有する参照動態パターン由来の分子を含有するいくつかの2Dマトリックスを使用して、分析的、計算的、数学的、または統計モデル(複数可)を訓練した。ステージ918では、訓練から得られる統計モデルが開発される。簡単に、図9は、訓練によって開発された統計モデルのみを示しているが、任意のモデルまたはデータ分析フレームワークを開発することができる。データ分析フレームワークの例としては、機械学習モデル、統計モデル、数学的モデルが挙げられる。統計モデルには、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク(例えば、長短期記憶、LSTM)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、k平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、およびサポートベクトルマシン(SVM)が含まれるが、これらに限定されない。塩基修飾分析にかけられた塩基を取り巻くDNAストレッチは、その塩基のX-nt上流とY-nt下流、つまり「測定ウィンドウ」であり得る。 At stage 916, several 2D matrices containing molecules from reference kinetic patterns with known base modifications were used to train analytical, computational, mathematical, or statistical model(s). At stage 918, a statistical model resulting from training is developed. For simplicity, FIG. 9 shows only statistical models developed by training, but any model or data analysis framework can be developed. Examples of data analysis frameworks include machine learning models, statistical models, and mathematical models. Statistical models include linear regression, logistic regression, deep recurrent neural networks (e.g., long short-term memory, LSTM), Bayesian classifiers, hidden Markov models (HMM), linear discriminant analysis (LDA), k-means clustering, and noise. Concomitant applications include but are not limited to density-based spatial clustering (DBSCAN), random forest algorithms, and support vector machines (SVM). The stretch of DNA surrounding a base subjected to base modification analysis can be the X-nt upstream and Y-nt downstream of that base, the "measurement window."

正しい出力(すなわち、修飾状態)が既知であるため、データ構造を訓練プロセスで使用することができる。例えば、ワトソン鎖および/またはクリック鎖(複数可)からの塩基の3nt上流および下流に対応するIPD、PW、および配列文脈を、塩基修飾を分類するための統計モデル(複数可)を訓練するのに使用される2Dマトリックスを構築するために使用することができる。このようにして、訓練は、以前の既知の状態を有する核酸の位置での塩基修飾を分類することができるモデルを提供することができる。 The data structure can be used in the training process because the correct outputs (ie, modification states) are known. For example, IPD, PW, and sequence context corresponding to 3 nt upstream and downstream of bases from Watson strand and/or Crick strand(s) to train statistical model(s) to classify base modifications. can be used to construct the 2D matrix used in In this way, training can provide a model that can classify base modifications at nucleic acid positions that have previously known states.

図10は、塩基修飾の既知の状態を有するDNA試料から学習された統計モデル(複数可)がどのように塩基修飾を検出することができるかに関する一般的な手順を示す。塩基修飾の状態が未知の試料をSMRT配列決定にかけた。配列決定サブリードを、例えば、上述の技術を使用して、参照ゲノムに整列した。それに加えて、またはその代わりに、サブリードを互いに整列させることができる。さらに他の実施形態は、整列が実施されないように、ただ1つのサブリードを使用するか、またはそれらを独立して分析することができる。 FIG. 10 shows a general procedure for how statistical model(s) learned from DNA samples with known states of base modifications can detect base modifications. Samples with unknown base modification status were subjected to SMRT sequencing. Sequencing subreads were aligned to the reference genome using, for example, the techniques described above. Additionally or alternatively, the subreads can be aligned with each other. Still other embodiments may use only one subread or analyze them independently so that no alignment is performed.

塩基修飾分析にかけられた塩基については、訓練ステップ(図9)で使用されたような同等の測定ウィンドウを使用して、整列結果のワトソン鎖および/またはクリック鎖(複数可)から、IPD、PW、および配列文脈を取得し、その塩基と関連付けた。別の実施形態では、訓練手順と試験手順との間の測定ウィンドウは異なるであろう。例えば、訓練手順と試験手順の間の測定ウィンドウのサイズが異なる場合がある。これらのIPD、PW、および配列文脈は、2Dマトリックスに変換される。試験試料のこのような2Dマトリックスは、塩基修飾を決定するために参照動態特徴と比較されるであろう。例えば、試験試料の2Dマトリックスは、訓練試料から学習した統計モデル(複数可)を通して参照動態特徴と比較できるため、試験試料の核酸分子の部位での塩基修飾を決定することができるようになる。統計モデルには、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク(例えば、長短期記憶、LSTM)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、k平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、およびサポートベクトルマシン(SVM)が含まれるが、これらに限定されない。 For bases subjected to base modification analysis, IPD, PW , and the sequence context was obtained and associated with that base. In another embodiment, the measurement windows between training and testing procedures will be different. For example, the size of the measurement window between training and testing procedures may differ. These IPDs, PWs, and sequence contexts are transformed into 2D matrices. Such a 2D matrix of test samples would be compared to reference kinetic signatures to determine base modifications. For example, a 2D matrix of test samples can be compared to reference kinetic features through statistical model(s) learned from training samples, thus allowing base modifications at sites of nucleic acid molecules of test samples to be determined. Statistical models include linear regression, logistic regression, deep recurrent neural networks (e.g., long short-term memory, LSTM), Bayesian classifiers, hidden Markov models (HMM), linear discriminant analysis (LDA), k-means clustering, and noise. Concomitant applications include but are not limited to density-based spatial clustering (DBSCAN), random forest algorithms, and support vector machines (SVM).

図11は、CpG部位でのメチル化状態を分類するための方法をどのように作成することができるかに関する一般的な手順を示す。CpG部位で非メチル化およびメチル化が既知のDNA試料を、単一分子リアルタイム配列決定にかけた。配列決定サブリードを、参照ゲノムに整列した。ワトソン鎖のデータを使用した。 FIG. 11 shows a general procedure for how methods can be developed for classifying the methylation status at CpG sites. DNA samples with known unmethylation and methylation at CpG sites were subjected to single-molecule real-time sequencing. Sequencing subreads were aligned to the reference genome. Watson chain data were used.

整列の結果から、メチル化分析にかけられたCpG部位でシトシンを取り巻くIPD、PW、および配列文脈が取得され、特定の構造、例えば、限定されないが、図11に示されるような2Dマトリックスに記録された。既知のメチル化状態を有する分子に由来する参照動態パターンを含有するいくつかの2Dマトリックスを使用して、統計モデル(複数可)を訓練した。調査中の塩基を取り巻くDNAのストレッチは、その塩基のX-nt上流とY-nt下流、つまり「測定ウィンドウ」であり得る。Xは、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、150、200、300、400、500、1000、2000、4000、5000、および10000を含み得るが、これらに限定されない。Yは、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、150、200、300、400、500、1000、2000、4000、5000、および10000を含み得るが、これらに限定されない。一実施形態では、ワトソン鎖からの塩基の3nt上流および下流に対応するIPD、PW、および配列文脈を、塩基修飾を分類するための統計モデル(複数可)を訓練するのに使用される2Dマトリックスを構築するために使用することができる。 From the alignment results, the IPD, PW, and sequence context surrounding the cytosine at the CpG site subjected to methylation analysis was obtained and recorded in a 2D matrix, such as, but not limited to, the specific structure shown in FIG. rice field. Several 2D matrices containing reference kinetic patterns derived from molecules with known methylation status were used to train the statistical model(s). The stretch of DNA surrounding the base under investigation can be X-nt upstream and Y-nt downstream of that base, the "measurement window." X is 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23 , 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48 , 49, 50, 100, 150, 200, 300, 400, 500, 1000, 2000, 4000, 5000, and 10,000. Y is 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23 , 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48 , 49, 50, 100, 150, 200, 300, 400, 500, 1000, 2000, 4000, 5000, and 10,000. In one embodiment, the IPD, PW, and sequence context corresponding to the 3nt upstream and downstream of the base from the Watson strand are used to train a statistical model(s) for classifying base modifications. can be used to build

図12は、未知の試料のメチル化状態を分類する一般的な手順を示す。メチル化状態が未知の試料を、単一分子リアルタイム配列決定にかけた。配列決定サブリードを、参照ゲノムに整列した。 Figure 12 shows the general procedure for classifying the methylation status of unknown samples. Samples with unknown methylation status were subjected to single-molecule real-time sequencing. Sequencing subreads were aligned to the reference genome.

整列結果のCG部位のシトシンについて、訓練ステップ(図11)で適用された同等の測定ウィンドウを使用して、ワトソン鎖からIPD、PW、および配列文脈を取得して、修飾を調査中の塩基と関連付けた。これらのIPD、PW、および配列文脈は、2Dマトリックスに変換され得る。試験試料のそのような2Dマトリックスは、メチル化状態を決定するために、図11に示される参照動態パターンと比較されるであろう。X11 For the cytosines in the CG sites of the alignment results, the IPD, PW, and sequence context were obtained from the Watson strand using the equivalent measurement window applied in the training step (Fig. 11) to associate the modification with the base under investigation. Associated. These IPDs, PWs, and sequence contexts can be transformed into 2D matrices. Such a 2D matrix of test samples would be compared to the reference kinetic pattern shown in FIG. 11 to determine methylation status. X11

図13および図14は、ワトソン鎖を用いた手順と同様に、クリック鎖からの動態特徴が、上で詳述したように、訓練手順および試験手順のために使用され得ることを示す。統計モデル(複数可)は、同じモデルでも、異なるモデルでもよい。異なるモデルの場合、それらを使用して独立した分類を取得することができ、これらを比較することができて、例えば、それらが一致している場合、修飾状態が特定される。次いで、それらが一致していない場合、未分類の状態が特定され得る。それらが同じモデルである場合、データは、単一のデータ構造、例えば、図6のマトリックスに組み合わせることができる。 Figures 13 and 14 show that similar to the procedure with Watson strands, kinetic features from Crick strands can be used for training and testing procedures, as detailed above. The statistical model(s) can be the same model or different models. In the case of different models, they can be used to obtain independent classifications, which can be compared and, for example, if they are concordant, the modification state is identified. Then, if they do not match, an unclassified state can be identified. If they are of the same model, the data can be combined into a single data structure, eg the matrix of FIG.

図15および図16は、ワトソン鎖およびクリック鎖の両方からの動態特徴が、上で詳述したように、訓練手順および試験手順のために使用され得ることを示す。CpG部位で非メチル化およびメチル化が既知のDNA試料を、単一分子リアルタイム配列決定にかけた。配列決定のサブリードを、参照ゲノムに整列したが、サブリードを相互に整列することも可能であり、本明細書に記載の他の方法で行うことができる。 Figures 15 and 16 show that kinetic features from both Watson and Crick strands can be used for training and testing procedures, as detailed above. DNA samples with known unmethylation and methylation at CpG sites were subjected to single-molecule real-time sequencing. Sequencing subreads were aligned to the reference genome, but it is also possible to align subreads to each other and can be done in other ways as described herein.

整列結果のサブリードについて、メチル化分析にかけられたCpG部位のシトシンを取り巻くIPD、PW、および配列文脈が取得された。DNA分子は2つのヘアピンアダプターの使用を通して環状化されているため(例えば、SMRTBell鋳型調製プロトコルに従う)、環状分子を2回以上配列決定することができ、それによって、分子の複数のサブリードが生成される。サブリードは、循環コンセンサス配列(CCS)リードを生成するために使用することができる。一般に、本明細書に記載のすべての方法で、1つのZMWは複数のサブリードを生成することができるが、1つのCCSリードのみに対応する。 For the subreads of the alignment results, the IPD, PW, and sequence context surrounding the cytosines of the CpG sites subjected to methylation analysis were obtained. Because the DNA molecule has been circularized through the use of two hairpin adapters (e.g. following the SMRTBell template preparation protocol), the circular molecule can be sequenced more than once, thereby generating multiple subreads of the molecule. be. Subreads can be used to generate circular consensus sequence (CCS) reads. In general, for all methods described herein, one ZMW can generate multiple subreads, but only corresponds to one CCS read.

一部の実施形態では、完全非メチル化データセットは、ヒトDNA断片に対するPCRによって作成され得る。例えば、完全メチル化データセットは、すべてのCpG部位がメチル化されていると想定されるCpGメチルトランスフェラーゼM.SssIで処理されたヒトDNA断片を介して生成することができる。他の例では、M.MpeIなどの別のCpGメチルトランスフェラーゼを使用することができる。他の実施形態では、既知のメチル化状態を有する合成配列または異なるメチル化レベルを有する既存のDNA試料、あるいはメチル化および非メチル化DNA分子の制限酵素切断とその後の連結(これによって、キメラのメチル化/非メチル化DNA分子の割合が生じる)によって作成されるハイブリッドのメチル化状態は、メチル化の予測モデルまたは分類器の訓練のために使用することができる。 In some embodiments, the fully unmethylated dataset can be generated by PCR on human DNA fragments. For example, the full methylation data set is the CpG methyltransferase M. spp., where all CpG sites are assumed to be methylated. It can be generated via a human DNA fragment treated with SssI. In another example, M. Another CpG methyltransferase such as MpeI can be used. In other embodiments, restriction enzyme digestion and subsequent ligation of synthetic sequences with known methylation status or pre-existing DNA samples with different levels of methylation, or methylated and unmethylated DNA molecules (thus creating chimeras). The hybrid methylation state generated by the method (resulting in the proportion of methylated/unmethylated DNA molecules) can be used for training predictive models of methylation or classifiers.

配列文脈、IPD、およびパルス幅(PW)を含む動態パターンの変換は、図15に示すように、CG部位のメチル化状態を分析するためのワトソン鎖およびクリック鎖からの特徴を含む2Dマトリックスにすることができる。このアプローチにより、メチル化シトシンならびにその近くの配列文脈に起因するわずかな動態変化を正確にとらえることができた。本明細書に記載の様々な方法のいずれかと同様に、サブリードに存在する各CpGについて、測定ウィンドウ(例えば、CpG部位のシトシンの3塩基上流および下流)をその後の分析に使用することができ、したがって、合計7つのヌクレオチド(CpG部位のシトシンを含む)が、一緒に分析される。それら7つのヌクレオチド間の各塩基について、IPDおよびPWを計算することができる。動態変化に起因する配列文脈をとらえるために、IPDおよびPW信号は、図15に示すように、特定のベースコール、相対配列決定位置、および鎖情報にコンパイルされ得る。このようなデータ構造を、簡単に、動態の2Dデジタルマトリックスと呼ぶ。 Conversion of kinetic patterns, including sequence context, IPD, and pulse width (PW), into a 2D matrix containing features from Watson and Crick strands to analyze the methylation status of CG sites, as shown in FIG. can do. This approach allowed us to accurately capture the subtle dynamic changes due to methylated cytosines as well as the sequence context nearby. As with any of the various methods described herein, for each CpG present in the subread, measurement windows (e.g., 3 bases upstream and downstream of the cytosine at the CpG site) can be used for subsequent analysis, Therefore, a total of 7 nucleotides (including the cytosine of the CpG site) are analyzed together. The IPD and PW can be calculated for each base between those seven nucleotides. To capture the sequence context resulting from dynamic changes, the IPD and PW signals can be compiled into specific base calls, relative sequencing positions, and strand information, as shown in FIG. Such data structures are simply referred to as dynamic 2D digital matrices.

このような2Dデジタルマトリックスは、「2Dデジタル画像」に類似している。例えば、2Dデジタルマトリックスの最初の行には、メチル化分析にかけられたCpG遺伝子座のシトシンを取り巻く相対位置とともにそのシトシン部位の3nt上流および下流が含有された。0の位置は、メチル化が決定されるシトシン部位を表している。-1および-2の相対位置は、問題のシトシンの1nt上流および2nt上流を示していた。+1および+2の相対位置は、使用されるシトシンの1nt下流および2nt下流を示している。各位置は、対応するIPD値およびPW値を含有する2つの列に対応するであろう。各行は、ワトソン鎖およびクリック鎖の4種類のヌクレオチド(A、C、G、およびT)に対応していた。マトリックス内のIPD値およびPW値の入力は、特定の位置で配列結果(すなわち、サブリード)に事前設定された対応するヌクレオチドの種類によって異なる。 Such a 2D digital matrix is analogous to a "2D digital image". For example, the first row of the 2D digital matrix contained 3nt upstream and downstream of the cytosine site along with the relative positions surrounding the cytosine of the CpG locus subjected to methylation analysis. Position 0 represents the cytosine site at which methylation is to be determined. Relative positions of -1 and -2 indicated 1nt upstream and 2nt upstream of the cytosine in question. The +1 and +2 relative positions indicate 1 nt downstream and 2 nt downstream of the cytosine used. Each position will correspond to two columns containing the corresponding IPD and PW values. Each row corresponded to four nucleotides (A, C, G, and T) of the Watson and Crick strands. The entry of IPD and PW values in the matrix depends on the type of corresponding nucleotide preset to the sequence result (ie, subread) at a particular position.

図15に示すように、0の相対位置では、IPD値およびPW値がワトソン鎖の「C」の行に示され、シトシンがその位置で呼び出されたことを示唆している。配列決定された塩基に対応しなかった列の他のグリッドは、「0」としてコード化される。一例として、2Dデジタルマトリックス(図15)に対応する配列情報は、ワトソン鎖およびクリック鎖について、それぞれ、5’-ATACGTT-3’および5’-TAACGTA-3’である。この文脈では、ワトソン鎖およびクリック鎖のCpG部位のシトシンに隣接する上流および下流の配列は異なる。CpG部位でのメチル化はワトソン鎖とクリック鎖の間で対称的であるため(Lister et al.,2009)、1つの好ましい実施形態では、両方の鎖の動態を使用して、メチル化予測モデルを訓練した。別の実施形態では、ワトソン鎖およびクリック鎖は、メチル化予測モデルを訓練するために別々に使用され得る。 As shown in Figure 15, at a relative position of 0, the IPD and PW values are shown in the "C" row of the Watson chain, suggesting that cytosine was called at that position. Other grids in columns that did not correspond to sequenced bases are coded as '0'. As an example, the sequence information corresponding to the 2D digital matrix (Figure 15) is 5'-ATACGTT-3' and 5'-TAACGTA-3' for Watson and Crick strands, respectively. In this context, the sequences flanking the cytosine upstream and downstream of the CpG sites of the Watson and Crick strands are different. Since methylation at CpG sites is symmetric between Watson and Crick strands (Lister et al., 2009), in one preferred embodiment, dynamics of both strands are used to generate a methylation prediction model trained. In another embodiment, Watson and Crick strands can be used separately to train a methylation prediction model.

単一分子リアルタイム配列決定の高いデータスループットを考慮すると、一実施形態では、深層学習アルゴリズム(畳み込みニューラルネットワーク(CNN))(LeCun et al.,1989)は、メチル化CpGを非メチル化CpGから区別するのに好適であり得る。他のアルゴリズムも、追加的または代替的に使用することができ、例えば、限定されないが、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク(例えば、長期短期記憶、LSTM)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、k-平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、サポートベクトルマシン(SVM)などがある。図6~8に記載されているように、訓練では、ワトソン鎖およびクリック鎖を別々に使用するか、または組み合わせた新しいマトリックスにおいて使用することができる。 Given the high data throughput of single-molecule real-time sequencing, in one embodiment, a deep learning algorithm (convolutional neural network (CNN)) (LeCun et al., 1989) distinguishes methylated from unmethylated CpGs. may be suitable for Other algorithms may additionally or alternatively be used such as, but not limited to, linear regression, logistic regression, deep recurrent neural networks (e.g., long-term short-term memory, LSTM), Bayesian classifiers, hidden Markov Models (HMM), linear discriminant analysis (LDA), k-means clustering, density-based spatial clustering for noisy applications (DBSCAN), random forest algorithms, support vector machines (SVM), and others. As described in FIGS. 6-8, training can use the Watson and Crick strands separately or in a new combined matrix.

動態パターンの別の変換は、N次元マトリックスであり得る。Nは、例えば、1、3、4、5、6、および7であり得る。例えば、3Dマトリックスは、分析対象のDNAストレッチのタンデムCG部位の数に従って階層化された2Dマトリックスの積み重ねであり、第3の次元は、そのDNAストレッチのタンデムCG部位の数になる。一部の実施形態では、パルス強度またはパルスの大きさ(例えば、パルスのピークの高さによって、またはパルス信号下面積によって測定される)も、マトリックスに組み込まれることがある。パルス強度(パルスピークの振幅のメトリック、図3)は、元の2Dマトリックスの上のPW値およびIPD値に関連する列に隣接する追加の列に加えられるか、または第3の次元に加えられるかのいずれかで、3Dマトリックスを形成することができる。 Another transform of kinetic patterns can be an N-dimensional matrix. N can be 1, 3, 4, 5, 6, and 7, for example. For example, a 3D matrix is a stack of 2D matrices layered according to the number of tandem CG sites in the DNA stretch being analyzed, with the third dimension being the number of tandem CG sites in that DNA stretch. In some embodiments, the pulse intensity or pulse magnitude (eg, measured by the peak height of the pulse or by the area under the pulse signal) may also be incorporated into the matrix. The pulse intensity (pulse peak amplitude metric, FIG. 3) is added to an additional column adjacent to the columns associated with the PW and IPD values above the original 2D matrix, or added to the third dimension. A 3D matrix can be formed by either:

さらなる例として、8(行)x21(列)の2Dマトリックスは、168個の要素を含む1Dマトリックス(すなわち、ベクトル)に変換することができる。また、この1Dマトリックスをスキャンして、例えば、CNNおよびその他のモデリングを実施することができる。別の例として、方法は、8x21の2Dマトリックスを、複数の小さなマトリックス、例えば、2つの4x21の2Dマトリックスに分割することできる。これらの2つの小さなマトリックスを垂直方向に組み合わせると、3Dマトリックス(すなわち、x=21、y=4、z=2)が得られる。方法は、第1の2Dマトリックスをスキャンし、次いで第2の2Dマトリックスをスキャンして、機械学習のためのデータ表示を形成することができる。データをさらに分割して、より高次元のマトリックスを形成することができる。さらに、二次構造情報を、データ構造に追加することができ、例えば、2Dマトリックスの上に追加のマトリックス(1Dマトリックス)を加えることができる。このような追加のマトリックスは、測定ウィンドウ内の各塩基が二次構造(例えば、ステム・ループ構造)に関与するかどうかをコード化することができる。例えば、「ステム」に関与する塩基は、0としてコード化され、「ループ」に関与する塩基は、1としてコード化される。 As a further example, a 2D matrix of 8 (rows) by 21 (columns) can be transformed into a 1D matrix (ie, vector) containing 168 elements. Also, this 1D matrix can be scanned to perform, for example, CNN and other modeling. As another example, the method can divide an 8x21 2D matrix into multiple smaller matrices, eg, two 4x21 2D matrices. Combining these two smaller matrices vertically yields a 3D matrix (ie, x=21, y=4, z=2). The method can scan a first 2D matrix and then a second 2D matrix to form a data representation for machine learning. The data can be further partitioned to form higher dimensional matrices. Additionally, secondary structure information can be added to the data structure, for example, additional matrices (1D matrices) can be added on top of the 2D matrices. Such additional matrices can encode whether each base within the measurement window participates in secondary structure (eg, stem-loop structure). For example, bases involved in a "stem" are coded as 0's and bases involved in a "loop" are coded as 1's.

一実施形態では、単一のDNA分子内のCpG部位のメチル化状態は、「メチル化」または「非メチル化」の定性的な結果を与えるのではなく、統計モデルに基づいてメチル化される確率として表すことができる。1の確率は、統計モデルに基づいて、CpG部位がメチル化されているとみなされ得ることを示す。0の確率は、統計モデルに基づいて、CpG部位がメチル化されていないとみなされ得ることを示す。その後の下流分析では、カットオフ値を使用して、確率に基づいて、特定のCpG部位が「メチル化」または「非メチル化」に分類されるかどうか、分類することができる。カットオフの可能な値には、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が含まれる。CpG部位についてメチル化される確率が所定のカットオフよりも大きいものは、「メチル化」として分類され、CpG部位についてメチル化される確率が所定のカットオフよりも大きくないものは、「非メチル化」として分類される。所望のカットオフは、例えば、受信者操作特性(ROC)曲線分析を使用して、訓練データセットから取得され得る。 In one embodiment, the methylation status of CpG sites within a single DNA molecule is methylated based on a statistical model rather than giving a qualitative result of "methylated" or "unmethylated" It can be expressed as a probability. A probability of 1 indicates that the CpG site can be considered methylated based on the statistical model. A probability of 0 indicates that the CpG site can be considered unmethylated based on the statistical model. In subsequent downstream analysis, the cutoff value can be used to classify whether a particular CpG site is classified as "methylated" or "unmethylated" based on probability. Possible values for cutoff include 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70% , 75%, 80%, 85%, 90%, or 95%. Those with a probability of being methylated for a CpG site greater than a given cutoff are classified as "methylated" and those with a probability of being methylated for a CpG site not greater than a given cutoff are classified as "non-methylated". categorized as A desired cutoff can be obtained from a training data set using, for example, receiver operating characteristic (ROC) curve analysis.

図16は、ワトソン鎖およびクリック鎖からの未知の試料のメチル化状態を分類する一般的な手順を示している。メチル化状態が未知の試料は、単一分子リアルタイム配列決定にかけられた。配列決定サブリードは、他の方法と同様に、参照ゲノムまたは互いに整列して、所与の位置のコンセンサス値(平均値、中央値、モード、またはその他の統計値)を決定することができる。示されるように、2本の鎖についての測定値を、単一の2Dマトリックスに組み合わせることができる。 Figure 16 shows the general procedure for classifying the methylation status of unknown samples from Watson and Crick strands. Samples with unknown methylation status were subjected to single-molecule real-time sequencing. Sequencing subreads can be aligned to the reference genome or to each other, as well as other methods, to determine the consensus value (mean, median, mode, or other statistic) for a given position. As shown, the measurements for the two strands can be combined into a single 2D matrix.

整列結果のCG部位のシトシンについて、異なるサイズのウィンドウを使用することができるが、修飾を調査中のその塩基に関連する訓練ステップにおいて適用されるように(図16)同等の測定ウィンドウ(CpG部位のシトシンの3nt上流および下流)を使用して、ワトソン鎖からIPD、PW、および配列文脈が取得され得る。試験試料のこのような2Dマトリックスは、メチル化状態を決定するために、図16に示される参照動態パターンと比較することができる。 For the cytosines of the CG sites in the alignment results, different size windows can be used, but equivalent measurement windows (CpG site 3 nts upstream and downstream of the cytosine) can be used to obtain the IPD, PW, and sequence context from the Watson strand. Such a 2D matrix of test samples can be compared to the reference kinetic pattern shown in FIG. 16 to determine methylation status.

III.メチル化を検出するための例示的なモデル訓練
提案されたアプローチの実現可能性および妥当性を試験するために、単一分子リアルタイム配列決定の前に、M.SssI処理(メチル化ライブラリ)およびPCR増幅(非メチル化ライブラリ)を用いて、胎盤DNAライブラリを調製した。それぞれ、421,614および446,285の循環コンセンサス配列(CCS)に対応する、メチル化および非メチル化ライブラリの44,799,736および43,580,452のサブリードを取得した。その結果、各分子は、メチル化ライブラリおよび非メチル化ライブラリにおいて、34倍および32倍の中央値で配列決定された。データセットは、Pacific Biosciences Sequel Sequencing Kit 3.0によって調製されたDNAから生成された。このキットは、最初のPacific Biosciences Sequelシーケンサーを使用するために開発された。本明細書では、Sequelをその後継であるSequel IIと区別するために、最初のSequelをSequel Iと呼ぶ。したがって、本明細書では、Sequel Sequencing Kit 3.0をSequel I Sequencing Kit 3.0と呼ぶ。Sequel IIシーケンサー用に設計された配列決定キットには、Sequel II Sequencing Kit 1.0およびSequel II Sequencing Kit 2.0が含まれ、これらも本開示に記載されている。
III. Exemplary Model Training for Detecting Methylation To test the feasibility and validity of the proposed approach, prior to single-molecule real-time sequencing, M. et al. A placental DNA library was prepared using SssI treatment (methylated library) and PCR amplification (unmethylated library). 44,799,736 and 43,580,452 subreads of the methylated and unmethylated libraries were obtained, corresponding to 421,614 and 446,285 circular consensus sequences (CCS), respectively. As a result, each molecule was sequenced at a median of 34-fold and 32-fold in methylated and unmethylated libraries. The dataset was generated from DNA prepared by the Pacific Biosciences Sequel Sequencing Kit 3.0. This kit was developed for use with the original Pacific Biosciences Sequel sequencer. The original Sequel is referred to herein as Sequel I to distinguish it from its successor, Sequel II. Therefore, the Sequel Sequencing Kit 3.0 is referred to herein as the Sequel I Sequencing Kit 3.0. Sequencing kits designed for the Sequel II sequencer include Sequel II Sequencing Kit 1.0 and Sequel II Sequencing Kit 2.0, which are also described in this disclosure.

メチル化ライブラリおよび非メチル化ライブラリから生成された配列決定分子の50%を使用して、統計モデルを訓練した(残りの50%は検証用に使用した)。この場合、畳み込みニューラルネットワーク(CNN)モデルである。一例として、CNNモデルは、1つ以上の畳み込み層(例えば、1Dまたは2D層)を有し得る。畳み込み層は、1つ以上の異なるフィルターを使用することができ、各フィルターは、特定のマトリックス要素に対してローカルな(例えば、近傍のまたは周囲の)マトリックス値を操作するカーネルを使用し、それによって、特定のマトリックス要素に新しい値を提供する。1つの実装では、2つの1D畳み込み層を使用した(それぞれ、カーネルサイズが4の100個のフィルターがある)。フィルターは、個別に適用してから組み合わせることができる(例えば、加重平均で)。得られたマトリックスは、入力マトリックスよりも小さくすることができる。 50% of the sequenced molecules generated from the methylated and unmethylated libraries were used to train the statistical model (the remaining 50% were used for validation). In this case, it is a convolutional neural network (CNN) model. As an example, a CNN model may have one or more convolutional layers (eg, 1D or 2D layers). A convolutional layer can use one or more different filters, each using a kernel that manipulates the local (e.g., nearby or surrounding) matrix values for a particular matrix element, which provides a new value for a particular matrix element. In one implementation, we used two 1D convolutional layers (each with 100 filters with a kernel size of 4). Filters can be applied individually and then combined (eg, in a weighted average). The resulting matrix can be smaller than the input matrix.

畳み込み層の後に、ReLU(正規化線形ユニット)層が続き、その後にドロップアウト率が0.5のドロップアウト層が続く。ReLUは、個々の値を操作して畳み込み層(複数可)から新しいマトリックス(画像)を得る活性化関数の例である。他の活性化関数(例えば、シグモイド、ソフトマックスなど)も使用することができる。このような層のうちの1つ以上を使用することができる。ドロップアウト層は、ReLU層または最大プーリング層で使用することができ、過剰適合を防ぐための正則化として機能する。ドロップアウト層を、訓練プロセス中に使用して、訓練の一部として実施される最適化プロセスの様々な反復中に異なる(例えば、ランダムな)値を無視することができる(例えば、コスト/損失関数を減らすため)。 The convolutional layer is followed by a ReLU (Rectified Linear Unit) layer followed by a dropout layer with a dropout rate of 0.5. ReLU is an example of an activation function that manipulates individual values to obtain a new matrix (image) from the convolutional layer(s). Other activation functions (eg, sigmoid, softmax, etc.) can also be used. One or more of such layers can be used. The dropout layer can be used in the ReLU layer or the max pooling layer and acts as a regularizer to prevent overfitting. A dropout layer can be used during the training process to ignore different (e.g. random) values during the various iterations of the optimization process performed as part of the training (e.g. cost/loss function).

ReLU層の後に、最大プーリング層(例えば、プールサイズ2)を使用することができる。最大プーリング層は、畳み込み層と同様に機能するが、入力とカーネルとの間の内積を得る代わりに、カーネルと重なる入力からの領域の最大値を得ることができる。さらなる畳み込み層(複数可)を使用することができる。例えば、プーリング層からのデータは、別の2つの1D畳み込み層(例えば、各々、カーネルサイズが2の128個のフィルターとそれに続くReLU層を有する)に入力することができ、さらに、ドロップアウト率が0.5のドロップアウト層を使用することができる。プールサイズが2の最大プーリング層を使用した。最後に、全結合層(例えば、10個のニューロンとそれに続くReLU層を有する)を使用することができる。1つのニューロンを有する出力層の後にシグモイド層を続けることができるため、メチル化の確率が得られる。層、フィルター、カーネルサイズの様々な設定を調整することができる。この訓練データセットでは、メチル化ライブラリおよび非メチル化ライブラリの468,596および432,761個のCpG部位を使用した。 After the ReLU layer, a max pooling layer (eg pool size 2) can be used. A max pooling layer works similarly to a convolutional layer, but instead of taking the dot product between the input and the kernel, we can take the maximum of the regions from the input that overlap the kernel. Additional convolutional layer(s) can be used. For example, the data from the pooling layer can be input to another two 1D convolutional layers (eg, each with 128 filters with a kernel size of 2 followed by a ReLU layer), and the dropout rate A dropout layer of 0.5 can be used. A maximum pooling layer with a pool size of 2 was used. Finally, a fully connected layer (eg, with 10 neurons followed by a ReLU layer) can be used. An output layer with one neuron can be followed by a sigmoid layer, thus obtaining the probability of methylation. Various settings for layers, filters and kernel sizes can be adjusted. 468,596 and 432,761 CpG sites from methylated and unmethylated libraries were used in this training dataset.

A.訓練データセットおよび試験データセットの結果
図17Aは、訓練データセット中の各単一DNA分子の各CpG部位について、メチル化される確率を示す。メチル化の確率は、非メチル化ライブラリよりもメチル化ライブラリの方がはるかに高かった。メチル化される確率のカットオフが0.5の場合、非メチル化CpG部位の94.7%が非メチル化であると正しく予測され、メチル化CpGの84.7%がメチル化であると正しく予測された。
A. Results for Training and Test Datasets FIG. 17A shows the probability of being methylated for each CpG site of each single DNA molecule in the training data set. The probability of methylation was much higher for the methylated library than for the unmethylated library. With a probability of being methylated cutoff of 0.5, 94.7% of unmethylated CpG sites were correctly predicted to be unmethylated, and 84.7% of methylated CpG sites were predicted to be methylated. correctly predicted.

図17Bは、試験データセットの性能を示す。訓練データセットによって訓練されたモデルを使用して、メチル化ライブラリおよび非メチル化ライブラリからの独立した試験データセット中の469,729および432,024個のCpG部位のメチル化状態を予測した。メチル化される確率のカットオフが0.5の場合、非メチル化CpG部位の94.0%が非メチル化であると正しく予測され、メチル化されたCpGの84.1%がメチル化であると正しく予測された。これらの結果は、配列文脈と組み合わせた動態の新しい変換の使用が、DNA(例えば、ヒトの対象から)のメチル化状態の決定を可能にし得ることを示唆した。 FIG. 17B shows the performance of the test dataset. Models trained with the training dataset were used to predict the methylation status of 469,729 and 432,024 CpG sites in independent test datasets from methylated and unmethylated libraries. With a methylated probability cutoff of 0.5, 94.0% of unmethylated CpG sites were correctly predicted to be unmethylated, and 84.1% of methylated CpG sites were unmethylated. correctly predicted to exist. These results suggested that the use of novel transformations of kinetics in combination with sequence context may allow determination of the methylation status of DNA (eg, from human subjects).

特徴のサブセットをモデルに含めることによって、CpGのメチル化状態を予測する際に、各特徴(配列文脈、IPD、およびPW)の能力を評価した。訓練データセットでは、(i)配列文脈のみ、(ii)IPDのみ、および(iii)PWのみのモデルは、それぞれ、0.5、0.74、および0.86の曲線下面積(AUC)値を与えた。IPDと配列文脈を組み合わせると、AUCが0.86と性能が改善した。配列文脈(「Seq」)、IPD、およびPWの複合分析は、AUCが0.94と性能が大幅に改善した(図18A)。独立した試験データセットの性能は、訓練データセットと同等であった(図18B)。 By including a subset of features in the model, we evaluated the ability of each feature (sequence context, IPD, and PW) in predicting CpG methylation status. In the training data set, the (i) sequence context only, (ii) IPD only and (iii) PW only models had area under the curve (AUC) values of 0.5, 0.74 and 0.86, respectively. gave Combining IPD and sequence context improved performance with an AUC of 0.86. A combined analysis of sequence context (“Seq”), IPD, and PW significantly improved performance with an AUC of 0.94 (FIG. 18A). Performance of the independent test dataset was comparable to the training dataset (Fig. 18B).

CpG部位のサブリード深度を、その部位とその周囲の10bpをカバーするサブリードの平均数として定義した。図19Aおよび図19Bに示されるように、CpG部位のサブリード深度が高いほど、達成されるメチル化の検出の精度が高くなる。例えば、試験データセット(図19B)に示されるように、各CpG部位の深度が少なくとも10の場合、メチル化状態を予測するAUCは0.93になる。しかしながら、各CpG部位のサブリード深度が少なくとも300の場合、メチル化状態を予測するAUCは0.98である。一方、深度が1の場合でさえ、AUCが0.9を達成した。これは、本発明者らのアプローチが、低い配列決定深度の使用で、メチル化の予測が達成されることを示している。 The subread depth of a CpG site was defined as the average number of subreads covering the site and its surrounding 10 bp. As shown in FIGS. 19A and 19B, the higher the sub-read depth of the CpG sites, the higher the precision of methylation detection achieved. For example, as shown in the test data set (FIG. 19B), the AUC predictive of methylation status is 0.93 when each CpG site is at least 10 deep. However, with a sub-read depth of at least 300 for each CpG site, the AUC predicting methylation status is 0.98. On the other hand, even with a depth of 1, an AUC of 0.9 was achieved. This indicates that our approach achieves methylation prediction using low sequencing depth.

メチル化分析の性能に対する鎖情報の効果を試験するために、ワトソン鎖およびクリック鎖に由来する配列文脈、IPDおよびPWを使用して、それぞれ、本開示に存在する実施形態に従って訓練した。図20Aおよび図20Bは、訓練データセットおよび試験データセットにおいてAUCが最大0.91および0.87を達成できるので、訓練および試験のために、単一の鎖、すなわちワトソンまたはクリック鎖のいずれかを使用することが実行可能であることを示した。ワトソン鎖およびクリック鎖を含む両方の鎖(例えば、図6~8で説明)を使用すると、最高の性能が得られ(AUC:訓練データセットおよび試験データセットでそれぞれ0.94および0.90)、鎖情報が最適な性能を達成するために重要であることを示唆している。 To test the effect of strand information on the performance of methylation analysis, sequence contexts, IPD and PW, derived from Watson and Crick strands, respectively, were used to train according to the embodiments present in this disclosure. Figures 20A and 20B show that for training and testing, a single strand, either Watson or Crick strand showed that it is feasible to use Using both strands, including the Watson and Crick strands (described for example in Figures 6-8), gave the best performance (AUC: 0.94 and 0.90 for training and test datasets, respectively). , suggesting that strand information is important to achieve optimal performance.

本開示で開発された本開示に存在する実施形態に従って、このパラメータが性能にどのように影響するかを研究するために、CpG部位の上流および下流の異なる数のヌクレオチドを、さらに試験した。図21Aおよび図21Bは、CpGの文脈におけるシトシンの上流および下流のヌクレオチドの数が、メチル化の予測の精度に影響を与えることを示す。例えば、例示的な目的として、調査されるシトシンの、限定されないが2ヌクレオチド(nt)、3nt、4nt、6nt、8nt、10nt、15nt、および20nt上流と下流を考慮すると、調査されるシトシンの2nt上流と下流を使用する方法のAUCは、訓練データセットおよび試験データセットの両方でわずか0.50であるが、調査されるシトシンの15nt上流と下流を使用する方法のAUCは、0.95と0.92に増加する。これらの結果は、分析されるシトシンに隣接する上流領域および下流領域の長さを変えることにより、最適な性能を見出すことが可能になることを示唆した。一実施形態では、図21Bに示されるように、シトシンの3nt上流および下流を使用して、メチル化状態を決定し、0.89のAUCを達成することができる。 Different numbers of nucleotides upstream and downstream of the CpG site were further tested to study how this parameter affects performance according to the presently disclosed embodiments developed in this disclosure. Figures 21A and 21B show that the number of nucleotides upstream and downstream of a cytosine in the context of a CpG affects the accuracy of methylation prediction. For example, for exemplary purposes, consider but are not limited to 2 nucleotides (nt), 3nt, 4nt, 6nt, 8nt, 10nt, 15nt, and 20nt upstream and downstream of the cytosine under investigation, and 2nt of the cytosine under investigation. The AUC for the method using upstream and downstream is only 0.50 for both the training and test datasets, while the AUC for the method using 15 nt upstream and downstream of the investigated cytosine is 0.95. increases to 0.92. These results suggested that varying the length of the upstream and downstream regions flanking the cytosines analyzed would allow optimal performance to be found. In one embodiment, 3 nt upstream and downstream of cytosine can be used to determine methylation status and achieve an AUC of 0.89, as shown in FIG. 21B.

一実施形態では、本開示に存在する実施形態による分析を実施するために、調査されるシトシンに隣接する非対称配列を使用することができる。例えば、シトシンの1nt、3nt、4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、25nt、30nt、35nt、および40nt下流と組み合わせて、2nt上流を使用することができ、シトシンの1nt、2nt、4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、25nt、30nt、35nt、および40nt下流と組み合わせて、3nt上流を使用することができ、シトシンの1nt、2nt、3nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、25nt、30nt、35nt、および40nt下流と組み合わせて、4nt上流を使用することができる。別の例として、シトシンの1nt、3nt、4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、25nt、30nt、35nt、および40nt上流と組み合わせて、2nt下流を使用することができ、シトシンの1nt、2nt、4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、25nt、30nt、35nt、および40nt上流と組み合わせて、3nt下流を使用することができ、シトシンの1nt、2nt、3nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、25nt、30nt、35nt、および40nt上流と組み合わせて、4nt下流を使用することができる。シトシンのn-nt上流およびm-nt下流に関連するIPD、PW、鎖情報、および配列文脈を利用することによって、特定の実施形態においてメチル化状態を決定する際に、改善された精度を提供することができる。このような異なる測定ウィンドウは、5hmC、6mA、4mC、およびoxoGなど、または本明細書に開示される任意の修飾の、他のタイプの塩基修飾分析に適用することができる。このような異なる測定ウィンドウには、グアニン四重鎖およびステム・ループ構造などのDNA二次構造分析が含まれ得る。このような例は上で説明されている。このような二次構造の情報は、マトリックスの別の列として追加することもできる。 In one embodiment, asymmetric sequences flanking the investigated cytosine can be used to perform analysis according to embodiments present in the present disclosure. For example, 1 nt, 3 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 25 nt, 30 nt, 35 nt, and 40 nt of cytosine In combination with downstream, 2 nt upstream can be used, 1 nt, 2 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt of cytosine, 3 nt upstream can be used in combination with 19 nt, 20 nt, 25 nt, 30 nt, 35 nt, and 40 nt downstream; 4nt upstream can be used in combination with 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 25nt, 30nt, 35nt, and 40nt downstream. As another example, 1 nt, 3 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 25 nt, 30 nt, 35 nt of cytosine , and 2 nt downstream can be used in combination with 40 nt upstream and 1 nt, 2 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt of cytosine , 18nt, 19nt, 20nt, 25nt, 30nt, 35nt and 40nt upstream, 3nt downstream can be used in combination with cytosine 1nt, 2nt, 3nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt , 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 25nt, 30nt, 35nt, and 40nt upstream can be used in combination with 4nt downstream. Provide improved accuracy in determining methylation status in certain embodiments by utilizing IPD, PW, chain information and sequence context associated with n-nt upstream and m-nt downstream of cytosine can do. Such different measurement windows can be applied to other types of base modification analysis, such as 5hmC, 6mA, 4mC, and oxoG, or any modification disclosed herein. Such different measurement windows can include DNA secondary structure analysis such as guanine quadruplex and stem-loop structures. Examples of such are described above. Such secondary structure information can also be added as another column of the matrix.

図22Aおよび図22Bは、少なくとも3塩基の下流塩基のみに関連する動態パターンを使用してメチル化状態を決定することが実行可能であることを示す。本開示に存在する実施形態によれば、シトシンおよびその下流の3、4、6、8、および10塩基に関連する特徴を使用して、訓練データセットにおけるメチル化状態の決定では、AUCが、それぞれ0.91、0.92、0.94、0.94、および0.94であり、試験データセットでは、AUCが、それぞれ0.87、0.88、0.90、0.90、および0.90であった。 Figures 22A and 22B show that it is feasible to determine methylation status using kinetic patterns associated only with at least three downstream bases. According to embodiments present in the present disclosure, using features associated with cytosine and its downstream 3, 4, 6, 8, and 10 bases, in determining methylation status in a training dataset, AUC is: 0.91, 0.92, 0.94, 0.94, and 0.94, respectively; was 0.90.

しかしながら、図23Aおよび図23Bは、上流塩基に関連する特徴のみを使用する場合、メチル化状態を識別する能力が減少しているように見えることを示す。訓練データセットおよび試験データセットにおいて、AUCは、2~10上流塩基についてすべて0.50であった。 However, Figures 23A and 23B show that the ability to discriminate methylation status appears to be diminished when using only features associated with upstream bases. In the training and test datasets, AUCs were all 0.50 for 2-10 upstream bases.

図24および図25は、上流および下流塩基の異なる組み合わせが、メチル化状態を決定する際に、最適な分類を達成することを可能にすることを示す。例えば、シトシンの8塩基上流および8塩基下流に関連する特徴は、このデータセットにおいて最高の性能を達成し、訓練データセットおよび試験データセットのAUCは、それぞれ、0.94および0.91であった。 Figures 24 and 25 show that different combinations of upstream and downstream bases allow optimal classification to be achieved when determining methylation status. For example, features associated 8 bases upstream and 8 bases downstream of cytosine achieved the best performance in this dataset, with AUCs of 0.94 and 0.91 for the training and test datasets, respectively. rice field.

図26は、CpG部位でのメチル化状態の分類に関する特徴の相対的重要性を示す。括弧内の「W」と「C」は、鎖情報を示し、「W」はワトソン鎖を示し、「C」はクリック鎖を示す。配列文脈、IPD、およびPWを含む各特徴の重要度は、ランダムフォレストを使用して決定された。ランダムフォレストツリー分析は、IPDおよびPWの特徴の重要度が、調査中のシトシンの下流でピークに達したことを示し、分類力への主な寄与が、調査中のシトシンの下流のIPDおよびPWであることを明らかにした。 FIG. 26 shows the relative importance of features for classifying methylation status at CpG sites. 'W' and 'C' in brackets indicate chain information, 'W' indicates Watson chain and 'C' indicates Crick chain. The importance of each feature, including sequence context, IPD, and PW, was determined using random forest. Random forest tree analysis showed that the importance of IPD and PW features peaked downstream of the cytosine under investigation, with the main contribution to classification power being that of the IPD and PW downstream of the cytosine under investigation. made it clear that

ランダムフォレストは、複数の決定木で構成された。決定木の構築中に、ジニ不純度を使用して、決定ノードのどの決定論理を用いるかを決定した。最終的な分類結果により大きな影響を与える重要な特徴は、決定木のルートにより近いノードにある可能性が高く、一方、最終的な分類結果に余り影響を与えない重要でない特徴は、ルートから離れたノードにある可能性が高い。そのため、特徴の重要度は、ランダムフォレストのすべての決定木のルートに対する平均距離を計算することによって推定することができる。 A random forest consisted of multiple decision trees. During construction of the decision tree, the Gini impurity was used to determine which decision logic of the decision node to use. Important features that have a greater impact on the final classification result are likely to be at nodes closer to the root of the decision tree, while unimportant features that have less impact on the final classification result are more likely to be located further away from the root. It is likely to be in the node where As such, feature importance can be estimated by computing the average distance to the roots of all decision trees in the random forest.

一部の実施形態では、ワトソン鎖とクリック鎖との間のCpG部位でのメチル化コール(methylation calls)のコンセンサスは、特異性を改善するためにさらに使用され得る。例えば、メチル化を示す両方の鎖をメチル化状態と呼び、非メチル化を示す両方の鎖を非メチル化状態と呼ぶ必要がある。CpG部位でのメチル化は、典型的に対称的であることが知られているため、各鎖からの確認により、特異性を改善させることができる。 In some embodiments, consensus of methylation calls at CpG sites between Watson and Crick strands can be further used to improve specificity. For example, both strands showing methylation should be called the methylated state, and both strands showing unmethylation should be called the unmethylated state. Since methylation at CpG sites is known to be typically symmetrical, confirmation from each strand can improve specificity.

様々な実施形態では、分子全体からの全体的な動態特徴は、メチル化状態の決定のために使用され得る。例えば、分子全体のメチル化は、単一分子リアルタイム配列決定中に、分子全体の動態に影響を与える。IPD、PW、断片サイズ、鎖情報、および配列文脈を含む鋳型DNA分子全体の配列決定動態をモデル化することにより、分子がメチル化されているかどうかに関する分類の精度を改善させることができる。一例として、測定ウィンドウは、鋳型分子全体であり得る。分子全体のメチル化を決定するために、IPD、PW、またはその他の動態特徴の統計値(例えば、平均、中央値、モード、パーセンタイルなど)を使用することができる。 In various embodiments, global kinetic features from the entire molecule can be used for determination of methylation status. For example, global methylation affects global dynamics during single-molecule real-time sequencing. Modeling the sequencing dynamics of the entire template DNA molecule, including IPD, PW, fragment size, strand information, and sequence context, can improve the accuracy of classification as to whether a molecule is methylated. As an example, the measurement window can be the entire template molecule. IPD, PW, or other kinetic feature statistics (eg, mean, median, mode, percentile, etc.) can be used to determine methylation across the molecule.

B.他の分析技術の制限
特定の配列モチーフにおける特定のCのIPDに基づくメチル化の検出は非常に低く、例えば、感度がわずか1.9%であると報告された(Clark et al.,2013)。また、本発明者らは、PWメトリックを使用せずに、かつ本明細書に記載されるデータ構造ではなく、IPDのカットオフのみを使用して、異なる配列モチーフをIPDと組み合わせることによって、このような分析を再現しようとした。例えば、調査されるCpGに隣接する3nt上流および下流を抽出した。そのCpGのIPDを、そのCpGを中心とした6ntの隣接配列(すなわち、それぞれ上流および下流の3nt)の文脈に応じて、異なるグループ(6つの位置について4096グループ)に階層化した。同じ配列モチーフ内のメチル化CpGと非メチル化CpGとの間のIPDは、ROCを使用して研究した。例えば、非メチル化「AATCGGAC」モチーフおよびメチル化「AATCGGAC」モチーフにおけるCpGのIPDを比較すると、AUCが0.48であった。したがって、特定の配列グループにおけるカットオフを使用すると、様々なものを使用する実施形態と比較して、うまく機能しなかった
B. Limitations of Other Analytical Techniques IPD-based detection of methylation of specific Cs at specific sequence motifs is very low, for example reported to have a sensitivity of only 1.9% (Clark et al., 2013). . We also found that this I tried to reproduce such an analysis. For example, the 3 nt upstream and downstream flanking the CpG under investigation were extracted. The IPDs of that CpG were stratified into different groups (4096 groups for 6 positions) depending on the context of the 6 nt flanking sequences centered on that CpG (ie, 3 nt upstream and downstream, respectively). IPD between methylated and unmethylated CpGs within the same sequence motif was studied using ROC. For example, comparing the IPD of CpGs in the unmethylated 'AATCGGAC' and methylated 'AAT m CGGAC' motifs gave an AUC of 0.48. Therefore, using cutoffs in specific sequence groups did not work as well compared to embodiments using various

図27は、パルス幅信号を使用せずにメチル化を検出するための、上記のモチーフベースのIPD分析の性能を示す(Beckmann et al.BMC Bioinformatics.2014)。垂直の棒グラフは、調査されるCpG部位に隣接する異なるk-merモチーフにわたる平均AUC(すなわち、調査されるCpG部位を取り巻く塩基の数)を表している。図27は、異なるk-merモチーフ(例えば、問題のCpG部位を取り巻く2-mer、3-mer、4-mer、6-mer、8-mer、10-mer、15-mer、20-mer)にわたるメチル化シトシンと非メチル化シトシンとの間のIPDベースの識別力の平均AUCが、60%未満であることがわかったことを示す。これらの結果は、近傍のヌクレオチドのIPDを考慮せずに、所与のモチーフ文脈における候補ヌクレオチドのIPDを考慮することが(Flusberg et al.,2010)、CpGメチル化の決定について本明細書に開示される方法よりも劣っていることを示唆した。 Figure 27 shows the performance of the motif-based IPD analysis described above for detecting methylation without the use of pulse width signals (Beckmann et al. BMC Bioinformatics. 2014). Vertical bars represent the average AUC (ie, the number of bases surrounding the investigated CpG site) across different k-mer motifs flanking the investigated CpG site. FIG. 27 shows different k-mer motifs (eg, 2-mer, 3-mer, 4-mer, 6-mer, 8-mer, 10-mer, 15-mer, 20-mer surrounding the CpG site of interest). The average AUC for IPD-based discrimination between methylated and unmethylated cytosines over time was found to be less than 60%. These results suggest that considering the IPD of candidate nucleotides in a given motif context, without considering the IPD of neighboring nucleotides (Flusberg et al., 2010), is used here for the determination of CpG methylation. suggested to be inferior to the disclosed method.

本発明者らはまた、Flusbergらの研究(Flusberg et al.,2010)に存在する方法を試験した。メチル化分析にかけられたシトシンの上流2ntおよび下流6ntの、合計5,948,348個のDNAセグメントを分析した。メチル化された2,828,848セグメント、および非メチル化された3,119,500セグメントがあった。図28に示すように、IPDおよびPWを使用した主成分分析から推定された信号は、メチル化シトシン(mC)および非メチル化シトシン(C)を有する断片間で大きく重複していることが見出され、Flusbergらによって説明された方法は、実際的に意味のある正確さを欠いていることを示唆している。これらの結果は、Flusbergらの研究(Flusberg et al.,2010)で使用されているように、塩基および近傍の塩基でPW値とIPD値を線形結合した主成分分析では、5-メチルシトシンおよび非メチル化シトシンを信頼的にまたは有意義に区別できないことを示唆した。 We also tested the method present in the study of Flusberg et al. (Flusberg et al., 2010). A total of 5,948,348 DNA segments were analyzed, 2 nts upstream and 6 nts downstream of the cytosine that were subjected to methylation analysis. There were 2,828,848 segments that were methylated and 3,119,500 segments that were unmethylated. As shown in Figure 28, the signals estimated from principal component analysis using IPD and PW were found to have significant overlap between fragments with methylated cytosines (mC) and unmethylated cytosines (C). suggest that the method presented and described by Flusberg et al. lacks any practically meaningful accuracy. These results show that principal component analysis linearly combining PW and IPD values at bases and neighboring bases, as used in the study of Flusberg et al. (Flusberg et al., 2010), showed that suggested that unmethylated cytosines cannot be reliably or meaningfully distinguished.

図29は、IPDおよびPWを含むFlusbergらの研究(Flusberg et al.,2010)で2つの主成分が使用された主成分分析に基づく方法のAUCが(AUC:0.55)、IPDおよびPWを含む畳み込みニューラルネットワークに基づくアプローチ、ならびに本発明者らの開示に示される配列文脈に基づくアプローチ(AUC:0.94)よりもはるかに精度が低いことを示す。 Figure 29 shows the AUC of the method based on principal component analysis where two principal components were used in Flusberg et al.'s study (Flusberg et al., 2010) including IPD and PW (AUC: 0.55), IPD and PW , as well as the sequence-context-based approach (AUC: 0.94) presented in our disclosure.

C.他の数学/統計モデル
別の実施形態では、例えば、限定されないが、ランダムフォレストおよびロジスティック回帰を含む他の数学的/統計モデルは、上記の開発された特徴を適応することによって訓練することができる。CNNモデルに関して、訓練データセットおよび試験データセットは、ランダムフォレストを訓練するのに使用されたM.SssI処理(メチル化)およびPCR増幅(非メチル化)を用いて、DNAから構築された(Breiman,2001)。このランダムフォレスト分析では、6つの特徴:IPD、PW、および塩基識別(base identity)をコードする4成分のバイナリベクトルを用いて、各ヌクレオチドについて説明した。このようなバイナリベクトルでは、A、C、G、およびTは、それぞれ、[1,0,0,0]、[0,1,0,0]、[0,0,1,0]、および[0,0,0,1]でコードされる。本発明者らは、分析される各CpG部位について、両方の鎖のその10nt上流と下流の情報を組み込んで、各特徴が1つの次元を表す252次元(252D)のベクトルを形成した。252Dベクトルを有する上に記載の訓練データセットを使用して、ランダムフォレストモデルならびにロジスティック回帰モデルを訓練した。訓練されたモデルは、独立した試験データセットのメチル化状態を予測するために使用された。ランダムフォレストは、100本の決定木で構成された。ツリーの構築中に、ブートストラップ試料が使用された。各決定木のノードを分割する際、最適な分割を決定するためにジニ不純度を使用し、各分割で、最大15の特徴が考慮される。また、決定木の各リーフには、少なくとも60試料を含有する必要があった。
C. Other Mathematical/Statistical Models In another embodiment, other mathematical/statistical models including, but not limited to, random forests and logistic regression can be trained by adapting the features developed above. . For the CNN model, the training and test datasets are the M.M. It was constructed from DNA using SssI treatment (methylation) and PCR amplification (unmethylation) (Breiman, 2001). In this random forest analysis, each nucleotide was described using a 4-component binary vector encoding six features: IPD, PW, and base identity . In such a binary vector, A, C, G, and T are [1,0,0,0], [0,1,0,0], [0,0,1,0], and Coded with [0,0,0,1]. For each CpG site analyzed, we incorporated its 10 nt upstream and downstream information on both strands to form a 252-dimensional (252D) vector where each feature represents one dimension. A random forest model as well as a logistic regression model were trained using the training data set described above with 252D vectors. The trained model was used to predict the methylation status of independent test datasets. A random forest consisted of 100 decision trees. Bootstrap samples were used during tree construction. When splitting each decision tree node, the Gini impurity is used to determine the optimal split, and up to 15 features are considered in each split. Also, each leaf of the decision tree had to contain at least 60 samples.

図30Aおよび図30Bは、メチル化予測について、ランダムフォレストおよびロジスティック回帰を使用する方法の性能を示す。図30Aは、CNN、ランダムフォレスト、およびロジスティック回帰の訓練データセットのAUC値を示す。図30Bは、CNN、ランダムフォレスト、およびロジスティック回帰の試験データセットのAUC値を示す。ランダムフォレストを使用する方法では、AUCが、訓練データセットおよび試験データセットで、それぞれ0.93および0.86を達成した。 Figures 30A and 30B show the performance of methods using random forest and logistic regression for methylation prediction. FIG. 30A shows the AUC values of training datasets for CNN, random forest, and logistic regression. FIG. 30B shows AUC values for CNN, random forest, and logistic regression test datasets. The method using random forest achieved AUCs of 0.93 and 0.86 on the training and test datasets, respectively.

同じ252Dベクトルを用いて記載された訓練データセットを使用して、ロジスティック回帰モデルを訓練した。訓練されたモデルは、独立した試験データセットのメチル化状態を予測するために使用された。L2正則化を用いたロジスティック回帰モデル(Ng and Y.,2004)が、訓練データセットに適合した。図30Aおよび図30Bに示されるように、ロジスティック回帰を使用する方法では、訓練データセットおよび試験データセットにおいて、それぞれ、0.87および0.83のAUCが達成される。 A logistic regression model was trained using the training data set described with the same 252D vectors. The trained model was used to predict the methylation status of independent test datasets. A logistic regression model (Ng and Y., 2004) with L2 regularization was fitted to the training data set. As shown in FIGS. 30A and 30B, the method using logistic regression achieves AUCs of 0.87 and 0.83 on the training and test datasets, respectively.

したがって、これらの結果は、本開示で開発された特徴および分析プロトコルを使用して、CNN以外の特定のモデル(例えば、限定されないが、ランダムフォレストおよびロジスティック回帰)を、メチル化分析に使用することができることを示唆した。これらの結果はまた、本開示の実施形態に従って実装されたCNNは、試験データセットにおいてAUCが0.90であり(図30B)、ランダムフォレスト(AUC:0.86)およびロジスティック回帰(AUC:0.83)の両方よりも優れていることを示唆した。 These results therefore support the use of specific models other than CNN, such as, but not limited to, random forest and logistic regression, for methylation analysis using the features and analysis protocols developed in this disclosure. suggested that it can be done. These results also show that the CNN implemented according to embodiments of the present disclosure has an AUC of 0.90 on the test dataset (FIG. 30B), random forest (AUC: 0.86) and logistic regression (AUC: 0 .83).

D.核酸の6mA修飾の決定
メチル化CpGに加えて、本明細書に記載の方法はまた、他のDNA塩基修飾を検出することができる。例えば、6mAの形態を含むメチル化アデニンを検出することができる。
D. Determination of Nucleic Acid 6mA Modifications In addition to methylated CpGs, the methods described herein can also detect other DNA base modifications. For example, methylated adenine can be detected, including the 6mA form.

1.動態特徴および配列文脈を使用した6mAの検出
核酸の塩基修飾の決定のための開示された実施形態の性能および有用性を評価するために、本発明者らは、さらにN6-アデニンメチル化(6mA)を分析した。一実施形態では、約1ngのヒトDNA(例えば、胎盤組織から抽出された)を増幅して、非メチル化アデニン(uA)、非メチル化シトシン(C)、非メチル化グアニン(G)、および非メチル化チミン(T)を用いた全ゲノム増幅を通して、100ngのDNA産物を取得した。
1. Detection of 6mA Using Kinetic Features and Sequence Context To evaluate the performance and utility of the disclosed embodiments for the determination of base modifications of nucleic acids, we further investigated N6-adenine methylation (6mA ) were analyzed. In one embodiment, about 1 ng of human DNA (eg, extracted from placental tissue) is amplified to produce unmethylated adenine (uA), unmethylated cytosine (C), unmethylated guanine (G), and 100 ng of DNA product was obtained through whole genome amplification with unmethylated thymine (T).

図31Aは、全ゲノム増幅によって非メチル化アデニンを有する分子を生成するための1つのアプローチの一例を示す。この図では、「uA」は非メチル化アデニンを示し、「mA」はメチル化アデニンを示す。全ゲノム増幅は、プライマーとしてエキソヌクレアーゼ耐性チオリン酸修飾ランダムヘキサマーを使用して実施され、プライマーは、ゲノム上でランダムに結合し、ポリメラーゼ(例えば、Phi29 DNAポリメラーゼ)がDNAを増幅できるようにする(例えば、等温線形増幅)。ステージ3102では、二本鎖DNAが変性する。ステージ3106では、増幅反応は、いくつかのランダムヘキサマー(例えば、3110)が、変性した鋳型DNA(すなわち、一本鎖DNA)にアニーリングしたときに開始される。3114に示すように、鎖3118のヘキサマーを介したDNA合成が5’から3’の方向に進み、次のヘキサマーを介したDNA合成部位に到達すると、ポリメラーゼは、新しく合成されたDNA鎖(3122)を置換し、鎖の伸長を継続した。置換された鎖は、一本鎖DNA鋳型になって、ランダムヘキサマーが再び結合し、新しいDNA合成を開始し得る。等温プロセスでヘキサマーのアニーリングおよび鎖置換を繰り返すと、増幅されたDNA産物が高収率で得られる。ここで説明される増幅は、多置換増幅(MDA)の技術に該当し得る。 FIG. 31A shows an example of one approach for generating molecules with unmethylated adenines by whole genome amplification. In this figure, "uA" indicates unmethylated adenine and "mA" indicates methylated adenine. Whole-genome amplification is performed using exonuclease-resistant thiophosphate-modified random hexamers as primers, which bind randomly on the genome, allowing a polymerase (e.g., Phi29 DNA polymerase) to amplify the DNA. (e.g. isothermal linear amplification). At stage 3102, the double-stranded DNA is denatured. At stage 3106, the amplification reaction is initiated when a number of random hexamers (eg, 3110) anneal to the denatured template DNA (ie, single-stranded DNA). As shown at 3114, hexamer-mediated DNA synthesis of strand 3118 proceeds in the 5' to 3' direction and upon reaching the next hexamer-mediated DNA synthesis site, the polymerase releases the newly synthesized DNA strand (3122 ) to continue chain elongation. The displaced strand becomes a single-stranded DNA template upon which random hexamers can recombine and initiate new DNA synthesis. Repeated annealing and strand displacement of the hexamers in an isothermal process results in high yields of amplified DNA products. The amplification described herein may fall under the technique of multiple displacement amplification (MDA).

増幅されたDNA産物は、例えば、限定されないが、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、5kb、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、または他の所望のサイズ範囲のサイズを有する断片にさらに断片化された。断片化プロセスは、酵素消化、噴霧、流体力学的剪断、超音波処理などを含んでもよい。結果として、6mAなどの元の塩基修飾は、非メチル化A(uA)による全ゲノム増幅によってほぼ排除され得る。図31Aは、DNA産物の可能な断片(3126、3130、および3134)を示しており、両方の鎖には、非メチル化Aがある。mAを含まないこのような全ゲノム増幅DNA産物は、単一分子のリアルタイム配列にかけられ、uAデータセットが生成された。 Amplified DNA products can be, for example, but not limited to, , 90 kb, 100 kb, or other desired size range. Fragmentation processes may include enzymatic digestion, nebulization, hydrodynamic shear, sonication, and the like. As a result, original base modifications such as 6mA can be nearly eliminated by whole genome amplification with unmethylated A (uA). FIG. 31A shows possible fragments (3126, 3130, and 3134) of the DNA product, with unmethylated A on both strands. These mA-free whole-genome amplified DNA products were subjected to single-molecule real-time sequencing to generate the uA dataset.

図31Bは、全ゲノム増幅によってメチル化アデニンを有する分子を生成するための1つのアプローチの一例を示す。この図では、「uA」は非メチル化アデニンを示し、「mA」はメチル化アデニンを示す。約1ngのヒトDNAを増幅して、6mAおよび非メチル化C、G、およびTを用いた全ゲノム増幅を通して、10ngのDNA産物を取得した。メチル化アデニンは、一連の化学反応を通して生成され得る(J D Engel et al.J Biol Chem.1978;253:927-34)。図31Bに示されるように、全ゲノム増幅は、プライマーとしてエキソヌクレアーゼ耐性チオリン酸修飾ランダムヘキサマーを使用して実施され、これは、図31Aと同様に、ゲノム上でランダムに結合し、ポリメラーゼ(例えば、Phi29 DNAポリメラーゼ)がDNAを増幅できるようにする(例えば、等温線形増幅による)。エキソヌクレアーゼ耐性チオリン酸修飾ランダムヘキサマーは、プルーフリーディングDNAポリメラーゼの3’→5’エキソヌクレアーゼ活性に耐性がある。したがって、増幅中、ランダムヘキサマーは分解から保護される。 FIG. 31B shows an example of one approach for generating molecules with methylated adenines by whole genome amplification. In this figure, "uA" indicates unmethylated adenine and "mA" indicates methylated adenine. Approximately 1 ng of human DNA was amplified to obtain 10 ng of DNA product through whole genome amplification with 6 mA and unmethylated C, G, and T. Methylated adenines can be produced through a series of chemical reactions (JD Engel et al. J Biol Chem. 1978;253:927-34). As shown in FIG. 31B, whole-genome amplification was performed using exonuclease-resistant thiophosphate-modified random hexamers as primers, which bind randomly on the genome and polymerase ( For example, Phi29 DNA polymerase) is allowed to amplify the DNA (eg, by isothermal linear amplification). Exonuclease-resistant thiophosphate-modified random hexamers are resistant to the 3' to 5' exonuclease activity of proofreading DNA polymerases. Therefore, random hexamers are protected from degradation during amplification.

いくつかのランダムなヘキサマーが変性した鋳型DNA(すなわち、一本鎖DNA)にアニーリングしたときに、増幅反応が開始された。ヘキサマーを介したDNA合成が5’から3’の方向に進み、次のヘキサマーを介したDNA合成部位に到達すると、ポリメラーゼは新しく合成されたDNA鎖を置換し、鎖の伸長を継続する。置換された鎖は、一本鎖DNA鋳型になって、ランダムヘキサマーが再び結合し、新しいDNA合成を開始する。等温プロセスでヘキサマーのアニーリングおよび鎖置換を繰り返すと、増幅されたDNA産物が高収率で得られる。 The amplification reaction was initiated when several random hexamers annealed to the denatured template DNA (ie, single-stranded DNA). When hexamer-mediated DNA synthesis proceeds in the 5' to 3' direction and reaches the next hexamer-mediated DNA synthesis site, the polymerase displaces the newly synthesized DNA strand and continues chain elongation. The displaced strand becomes a single-stranded DNA template and random hexamers recombine to initiate new DNA synthesis. Repeated annealing and strand displacement of the hexamers in an isothermal process results in high yields of amplified DNA products.

増幅されたDNA産物は、長さが、例えば、限定されないが、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、5kb、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、または他の組み合わせにさらに断片化された。図31Bに示されるように、増幅されたDNA産物は、各鎖のアデニン部位にわたって異なる形態のメチル化パターンを含むであろう。例えば、二本鎖分子の両方の鎖は、アデニン(分子I)に関してメチル化されている可能性があり、2本の鎖が全ゲノム増幅中のDNA合成に由来する場合に生成される。 The amplified DNA product can be, for example, but not limited to, 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 5 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb in length. , 70 kb, 80 kb, 90 kb, 100 kb, or other combinations. As shown in Figure 31B, the amplified DNA product will contain different forms of methylation patterns across the adenine sites of each strand. For example, both strands of a double-stranded molecule can be methylated for adenine (molecule I), produced when two strands are derived from DNA synthesis during whole genome amplification.

別の例として、二本鎖分子の一方の鎖は、アデニン部位にわたってインターレースのメチル化パターンを含有し得る(分子II)。インターレースのメチル化パターンは、DNA鎖に存在するメチル化塩基および非メチル化塩基の混合物を含むものとして定義される。次の例では、DNA鎖に存在するメチル化アデニンおよび非メチル化アデニンの混合物を含むインターレースのアデニンのメチル化パターンを使用する。このタイプの二本鎖分子(分子II)は、非メチル化アデニンを含有する非メチル化ヘキサマーがDNA鎖に結合し、DNA伸長を開始したために、生成される可能性がある。非メチル化アデニンを有するヘキサマーを含有するそのような増幅されたDNA産物は、配列決定されるであろう。あるいは、このタイプの二本鎖分子(分子II)は、非メチル化アデニンを含有する元の鋳型DNAからの断片化されたDNAによって開始され、それは、このような断片化されたDNAがプライマーとしてDNA鎖に結合する可能性があるためである。鎖に非メチル化アデニンを有する元のDNAの一部を含有するそのような増幅されたDNA産物は、配列決定されるであろう。非メチル化ヘキサマープライマーは、得られたDNA鎖のごくわずかな箇所であるため、断片の大部分には6mAがなお含有されている。 As another example, one strand of a double-stranded molecule may contain an interlaced methylation pattern across adenine sites (molecule II). An interlaced methylation pattern is defined as comprising a mixture of methylated and unmethylated bases present on a DNA strand. The following example uses an interlaced adenine methylation pattern containing a mixture of methylated and unmethylated adenines present in the DNA strand. This type of double-stranded molecule (molecule II) may be generated because an unmethylated hexamer containing an unmethylated adenine binds to the DNA strand and initiates DNA elongation. Such amplified DNA products containing hexamers with unmethylated adenines will be sequenced. Alternatively, this type of double-stranded molecule (molecule II) is initiated by fragmented DNA from the original template DNA containing unmethylated adenines, since such fragmented DNA serves as a primer This is because it may bind to the DNA strand. Such amplified DNA products containing portions of the original DNA with unmethylated adenines on the strands will be sequenced. Since the unmethylated hexamer primer is only a small portion of the resulting DNA strand, most of the fragments still contain 6mA.

別の例として、二本鎖DNA分子の一方の鎖はアデニン部位にわたってメチル化されている可能性があるが、他方の鎖は非メチル化の可能性がある(分子III)。このタイプの二本鎖分子は、メチル化アデニンを有しない元のDNA鎖が、メチル化アデニンを有する新しい鎖を生成するための鋳型DNA分子として提供される場合に、生成される可能性がある。 As another example, one strand of a double-stranded DNA molecule may be methylated over an adenine site, while the other strand may be unmethylated (molecule III). This type of double-stranded molecule can be produced when an original DNA strand without methylated adenine is provided as a template DNA molecule for producing a new strand with methylated adenine. .

両方の鎖は非メチル化の可能性がある(分子IV)。このタイプの二本鎖分子は、メチル化アデニンを有しない2本の元のDNA鎖が再度アニーリングすることによる可能性がある。 Both strands are potentially unmethylated (molecule IV). This type of double-stranded molecule may be due to re-annealing of the two original DNA strands that do not have methylated adenines.

断片化プロセスには、酵素消化、噴霧、流体力学的剪断、および超音波処理などが含まれ得る。そのような全ゲノム増幅DNA産物は、主にA部位に関してメチル化され得る。mAを有するこのDNAは、mAデータセットを生成するために、単一分子リアルタイム配列決定にかけられた。 Fragmentation processes can include enzymatic digestion, nebulization, hydrodynamic shear, sonication, and the like. Such whole-genome amplified DNA products can be methylated predominantly on the A sites. This DNA with mA was subjected to single-molecule real-time sequencing to generate the mA dataset.

uAデータセットの場合、単一分子リアルタイム配列決定を使用して、長さが中央値で964bpの262,608分子を配列決定した。サブリード深度の中央値は、103倍であった。サブリードのうちの48%は、BWAアライナを使用してヒト参照ゲノムに整列することができた(Li H et al.Bioinformatics.2009;25:1754-60)。一例として、Sequel IIシステム(Pacific Biosciences)を使用して、単一分子リアルタイム配列決定を実行することができる。断片化されたDNA分子は、SMRTbell Express Template Prep Kit 2.0(Pacific Biosciences)を使用して、単一分子リアルタイム(SMRT)配列決定の鋳型の構築にかけられた。配列決定プライマーのアニーリングおよびポリメラーゼ結合の条件は、SMRT Link v8.0ソフトウェア(Pacific Biosciences)を使用して計算した。簡単に、配列決定プライマーv2を配列決定鋳型にアニーリングし、次いでSequel II Binding and Internal Control Kit 2.0(Pacific Biosciences)を使用して、ポリメラーゼを鋳型に結合させた。配列決定は、Sequel II SMRT Cell 8Mで実施した。配列決定の動画は、Sequel II Sequencing Kit 2.0(Pacific Biosciences)を用いて、Sequel IIシステムで30時間収集した。 For the uA dataset, 262,608 molecules with a median length of 964 bp were sequenced using single-molecule real-time sequencing. The median sub-read depth was 103-fold. 48% of the subreads could be aligned to the human reference genome using the BWA aligner (Li H et al. Bioinformatics. 2009;25:1754-60). As an example, the Sequel II system (Pacific Biosciences) can be used to perform single-molecule real-time sequencing. Fragmented DNA molecules were subjected to single molecule real-time (SMRT) sequencing template construction using SMRTbell Express Template Prep Kit 2.0 (Pacific Biosciences). Conditions for sequencing primer annealing and polymerase binding were calculated using SMRT Link v8.0 software (Pacific Biosciences). Briefly, sequencing primer v2 was annealed to the sequencing template, then polymerase was allowed to bind to the template using the Sequel II Binding and Internal Control Kit 2.0 (Pacific Biosciences). Sequencing was performed on Sequel II SMRT Cell 8M. Sequencing movies were collected for 30 hours on the Sequel II system using the Sequel II Sequencing Kit 2.0 (Pacific Biosciences).

mAデータセットの場合、単一分子のリアルタイム配列を使用して、長さが中央値で826bpの804,469分子を配列決定した。サブリード深度の中央値は、34倍であった。サブリードのうちの27%は、BWAアライナを使用してヒト参照ゲノムに整列することができた(Li H et al.Bioinformatics.2009;25:1754-60)。 For the mA dataset, 804,469 molecules with a median length of 826 bp were sequenced using single-molecule real-time sequencing. The median sub-read depth was 34-fold. 27% of the subreads could be aligned to the human reference genome using the BWA aligner (Li H et al. Bioinformatics. 2009;25:1754-60).

一実施形態では、限定されないが、IPDおよびPWを含む動態特性が、鎖特異的な様式で分析された。ワトソン鎖に由来する配列結果では、uAデータセットからランダムに選択されたメチル化を含まない644,318個のA部位と、mAデータセットからランダムに選択されたメチル化を含む718,586個のA部位を使用して、訓練データセットを構成した。このような訓練データセットを使用して、メチル化アデニンおよび非メチル化アデニン間を区別するための分類モデルおよび/または閾値を確立した。試験データセットは、メチル化を含まない639,702個のA部位とメチル化を含む723,320個のA部位から構成された。このような試験データセットを使用して、訓練データセットから推定されたモデル/閾値の性能を検証した。 In one embodiment, kinetic properties including but not limited to IPD and PW were analyzed in a strand-specific manner. Sequence results derived from Watson strands show 644,318 randomly selected A sites containing no methylation from the uA dataset and 718,586 randomly selected methylated A sites from the mA dataset. The A sites were used to construct the training dataset. Using such training data sets, classification models and/or thresholds were established to discriminate between methylated and unmethylated adenines. The test data set consisted of 639,702 A-sites without methylation and 723,320 A-sites with methylation. Such a test dataset was used to validate the performance of the model/threshold estimated from the training dataset.

ワトソン鎖に由来する配列結果を分析した。図32Aは、uAデータセットおよびmAデータセットの訓練データセットにわたるパルス間隔(IPD)値を示す。訓練データセットの場合、配列決定されたA部位全体のIPD値は、mAデータセット(中央値:1.09、範囲:0~9.52)の方がuAデータセット(中央値:0.20、範囲:0~9.52)よりも高いことが観察された(P値<0.0001、マンホイットニのU検定)。 Sequence results derived from Watson strands were analyzed. FIG. 32A shows pulse interval (IPD) values across the training datasets of the uA and mA datasets. For the training dataset, the IPD values across the sequenced A sites were higher in the mA dataset (median: 1.09, range: 0-9.52) than in the uA dataset (median: 0.20). , range: 0-9.52) (P value < 0.0001, Mann-Whitney U test).

図32Bは、uAデータセットおよびmAデータセットの試験データセットのIPDを示す。試験データセットの配列決定されたA部位全体のIPD値を調べたところ、mAデータセットのIPD値は、uAデータセットよりも高いことが観察された(中央値1.10対0.19、P値<0.0001、マンホイットニのU検定)。 FIG. 32B shows the IPD of the test datasets for the uA and mA datasets. When examining the IPD values across the sequenced A sites of the test dataset, we observed higher IPD values for the mA dataset than for the uA dataset (median 1.10 vs. 0.19, P value <0.0001, Mann-Whitney U test).

図32Cは、IPDカットオフを使用した受信者操作特性(ROC)曲線下面積を示す。真陽性率はy軸にあり、偽陽性率はx軸にある。対応するIPD値を使用してメチル化がある場合とない場合の鋳型DNA分子の配列A塩基を区別する際の受信者操作特性曲線(AUC)下面積は、訓練データセットと試験データセットの両方で0.86であった。 FIG. 32C shows the area under the receiver operating characteristic (ROC) curve using the IPD cutoff. The true positive rate is on the y-axis and the false positive rate is on the x-axis. The area under the receiver operating characteristic curve (AUC) in discriminating the sequence A bases of the template DNA molecule with and without methylation using the corresponding IPD values for both the training and test datasets was 0.86.

ワトソン鎖からの結果に加えて、クリック鎖に由来する配列結果を分析した。図33Aは、uAおよびmAデータセットの訓練データセット全体のIPD値を示す。訓練データセットの場合、配列決定されたA部位全体のIPD値は、mAデータセット(中央値:1.10、範囲0~9.52)の方がuAデータセット(中央値:0.19、範囲:0~9.52)よりも高いことが観察された(P値<0.0001、マンホイットニのU検定)。 Sequence results from the Crick strand were analyzed in addition to the results from the Watson strand. FIG. 33A shows the IPD values for the entire training dataset for the uA and mA datasets. For the training dataset, the IPD values across the sequenced A sites were higher in the mA dataset (median: 1.10, range 0-9.52) than in the uA dataset (median: 0.19, range 0-9.52). Range: 0-9.52) was observed (P-value < 0.0001, Mann-Whitney U test).

図34Bは、uAデータセットおよびmAデータセットの試験データセットのIPD値を示す。uAデータセットと比較して、配列決定されたA部位全体でより高いIPD値が試験データセットのmAデータセットでも観察された(中央値1.10対0.19、P値<0.0001、マンホイットニのU検定)。 FIG. 34B shows the IPD values for the test datasets of the uA and mA datasets. Higher IPD values across sequenced A sites were also observed in the mA dataset in the test dataset compared to the uA dataset (median 1.10 vs. 0.19, P value < 0.0001, Mann-Whitney U test).

図33Cは、ROC曲線下面積を示す。真陽性率はy軸にあり、偽陽性率はx軸にある。対応するIPD値を使用してメチル化がある場合とない場合の鋳型DNA分子の配列決定されたA塩基を区別する際のROC曲線下面積(AUC)値は、訓練データセットと試験データセットについて、それぞれ0.86と0.87であった。 FIG. 33C shows the area under the ROC curve. The true positive rate is on the y-axis and the false positive rate is on the x-axis. The area under the ROC curve (AUC) values in discriminating the sequenced A bases of the template DNA molecule with and without methylation using the corresponding IPD values are given for the training and test data sets. , were 0.86 and 0.87, respectively.

図34は、本発明の実施形態による、測定ウィンドウを使用したワトソン鎖の6mA決定の図を示す。このような測定ウィンドウには、IPDおよびPWなどの動態特徴と近くの配列文脈が含まれ得る。6mAの決定は、メチル化CpGの決定と同様に行うことができる。 FIG. 34 shows a diagram of a 6 mA determination of Watson strands using a measurement window, according to an embodiment of the invention. Such measurement windows can include kinetic features such as IPD and PW and nearby sequence context. The 6mA determination can be done similarly to the methylated CpG determination.

図35は、本発明の実施形態による、測定ウィンドウを使用したクリック鎖の6mA決定の図を示す。このような測定ウィンドウには、IPDおよびPWなどの動態特徴と近くの配列文脈が含まれ得る。 FIG. 35 shows a diagram of 6 mA determination of click strands using a measurement window, according to an embodiment of the invention. Such measurement windows can include kinetic features such as IPD and PW and nearby sequence context.

一例として、調査されていた鋳型DNAの配列決定されたA塩基の各側からの10塩基を使用して、測定ウィンドウを構築した。IPD、PW、および配列文脈を含む特徴値を使用して、本明細書に開示される方法に従って畳み込みニューラルネットワーク(CNN)を使用して、モデルを訓練した。他の実施形態では、統計モデルには、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク(例えば、長期短期記憶、LSTM)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、k平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、サポートベクトルマシン(SVM)などを含み得るが、これらに限定されない。 As an example, a measurement window was constructed using 10 bases from each side of the sequenced A bases of the template DNA under investigation. Feature values including IPD, PW, and sequence context were used to train the model using a convolutional neural network (CNN) according to the methods disclosed herein. In other embodiments, statistical models include linear regression, logistic regression, deep recurrent neural networks (e.g., long-term short-term memory, LSTM), Bayesian classifiers, hidden Markov models (HMM), linear discriminant analysis (LDA), It may include, but is not limited to, k-means clustering, density-based spatial clustering for applications with noise (DBSCAN), random forest algorithms, support vector machines (SVM), and the like.

図36Aおよび図36Bは、測定ウィンドウベースのCNNモデルを使用して、uAデータセットとmAデータセットの間のワトソン鎖の配列決定されたA塩基についてメチル化される決定された確率を示す。図36Aは、CNNモデルが訓練データセットから学習されたことを示す。一例として、CNNモデルは、2つの1D畳み込み層(各々、カーネルサイズが4の64個のフィルターとそれに続くReLU層(正規化線形ユニット)を有する)を利用し、その後ドロップアウト率が0.5のドロップアウト層を利用した。プールサイズが2の最大プーリング層を使用した。次に、2つの1D畳み込み層(各々がカーネルサイズ2の128個のフィルターとそれに続くReLU層)に流れ込み、さらにドロップアウト率が0.5のドロップアウト層を使用した。プールサイズが2の最大プーリング層を使用した。最後に、10個のニューロンを含む全結合層、それに続く1個のニューロンを含む出力層を有するReLU層、それに続くシグモイド層により、メチル化の確率が得られた。層、フィルター、カーネルサイズの他の設定は、例えば、他のメチル化(例えば、CpG)について本明細書に記載のように適合させることができる。ワトソン鎖の配列決定結果に関するこの訓練データセットでは、非メチル化ライブラリとメチル化ライブラリからの644,318および718,586個のA塩基を使用した。 Figures 36A and 36B show the determined probabilities of being methylated for the sequenced A bases of the Watson strand between the uA and mA data sets using the measurement window-based CNN model. FIG. 36A shows the CNN model learned from the training dataset. As an example, the CNN model utilizes two 1D convolutional layers, each with 64 filters with a kernel size of 4 followed by a ReLU layer (regularized linear unit), followed by a dropout rate of 0.5 A dropout layer was used. A maximum pooling layer with a pool size of 2 was used. We then flowed into two 1D convolutional layers (128 filters each with kernel size 2 followed by a ReLU layer) and used a dropout layer with a dropout rate of 0.5. A maximum pooling layer with a pool size of 2 was used. Finally, methylation probabilities were obtained with a fully connected layer containing 10 neurons, followed by a ReLU layer with an output layer containing 1 neuron, followed by a sigmoidal layer. Other settings of layers, filters, kernel sizes can be adapted, eg, as described herein for other methylations (eg, CpG). In this training dataset for Watson strand sequencing results, 644,318 and 718,586 A bases from unmethylated and methylated libraries were used.

CNNモデルに基づいて、ワトソン鎖関連データの場合、mAデータベースからの鋳型DNA分子の配列決定されたA塩基は、uAに存在するそれらのA塩基と比較して、訓練データセットと試験データセットの両方で、メチル化の確率がはるかに高くなった(P値<0.0001、マンホイットニのU検定)。訓練データセットの場合、uAデータセットのA部位でのメチル化の確率の中央値は0.13(四分位範囲、IQR:0.09~0.15)であったが、mAデータセットの値は1.000(IQR:0.998~1.000)であった。 Based on the CNN model, for the Watson strand association data, the sequenced A bases of the template DNA molecule from the mA database were compared to those A bases present in uA in the training and test datasets. Both resulted in a much higher probability of methylation (P value <0.0001, Mann-Whitney U test). For the training dataset, the median probability of methylation at the A site for the uA dataset was 0.13 (interquartile range, IQR: 0.09-0.15), whereas for the mA dataset The value was 1.000 (IQR: 0.998-1.000).

図36Aは、試験データセットについて決定されたメチル化の確率を示す。試験データセットの場合、uAデータセットのA部位でのメチル化の確率の中央値は0.13(IQR:0.10~0.15)であったが、mAデータセットの値は1.000(IQR:0.997~1.000)であった。図36Aおよび36Bは、測定ウィンドウベースのCNNモデルが、試験データセットにおいてメチル化を検出するように訓練され得ることを示す。 FIG. 36A shows the methylation probabilities determined for the test data set. For the test data set, the median probability of methylation at the A site for the uA data set was 0.13 (IQR: 0.10-0.15), whereas the value for the mA data set was 1.000. (IQR: 0.997-1.000). Figures 36A and 36B show that a measurement window-based CNN model can be trained to detect methylation in the test dataset.

図37は、ワトソン鎖の配列決定されたA塩基についての測定ウィンドウベースのCNNモデルを使用した、6mAを検出するためのROC曲線である。真陽性率はy軸にあり、偽陽性率はx軸にある。この図は、CNNモデルを使用してメチル化がある場合とない場合の配列決定されたA部位を区別する際のAUC値が、ワトソン鎖の配列決定結果で構成される訓練データセットと試験データセットについて、それぞれ0.94と0.93であることを示している。ワトソン鎖のデータを使用してA部位のメチル化状態を決定するために本明細書の開示を使用することが実行可能であることが示唆された。決定されたメチル化の確率0.5をカットオフとして使用すると、6mAの検出について99.3%の特異度と82.6%の感度を達成することができる。図37は、測定ウィンドウベースのCNNモデルを使用して、高い特異度と感度で6mAを検出することができることを示している。モデルの精度は、IPDメトリックのみを使用する技術と比較することができる。 FIG. 37 is the ROC curve for detecting 6 mA using the measurement window-based CNN model for the sequenced A bases of the Watson strand. The true positive rate is on the y-axis and the false positive rate is on the x-axis. This figure shows that the AUC values in discriminating sequenced A sites with and without methylation using the CNN model show the training data set composed of the Watson chain sequencing results and the test data. 0.94 and 0.93 respectively for the set. It was suggested that it would be feasible to use the disclosure herein to determine the methylation status of the A site using the Watson chain data. Using a determined methylation probability of 0.5 as a cutoff, a specificity of 99.3% and a sensitivity of 82.6% for the detection of 6mA can be achieved. FIG. 37 shows that the measurement window-based CNN model can be used to detect 6mA with high specificity and sensitivity. The accuracy of the model can be compared with techniques using only the IPD metric.

図38は、IPDメトリックベースの6mA検出および測定ウィンドウベースの6mA検出の性能比較を示している。感度はy軸にプロットされ、特異度はx軸にプロットされる。図38は、本明細書の開示による測定ウィンドウベースの6mA分類を使用した性能(AUC:0.94)が、IPDメトリックのみを使用した従来の方法(AUC:0.87)よりも優れていたことを示す(P値<0.0001、デロングの検定)。測定ウィンドウベースのCNNモデルは、IPDメトリックベースの検出を上回った。 FIG. 38 shows a performance comparison of IPD metric-based 6mA detection and measurement window-based 6mA detection. Sensitivity is plotted on the y-axis and specificity is plotted on the x-axis. FIG. 38 shows that the performance using the measurement window-based 6mA classification according to the present disclosure (AUC: 0.94) was superior to the conventional method using only the IPD metric (AUC: 0.87). (P value < 0.0001, Delong's test). Measurement window-based CNN models outperformed IPD metric-based detection.

図39Aおよび39Bは、測定ウィンドウベースのCNNモデルを使用して、uAデータセットおよびmAデータセット間のクリック鎖のそれらの配列決定されたA塩基についてメチル化される決定された確率を示す。図39Aは訓練データセットを示し、図39Bは試験データセットを示している。両方の図は、メチル化の確率をy軸にプロットしている。図39Aおよび39Bは、CNNモデルに基づいて、クリック鎖関連データについて、mAデータベースからの鋳型DNA分子の配列決定されたA塩基が、uAデータベースに存在するそれらのA塩基と比較して、訓練データセットと試験データセットの両方で、メチル化の確率がはるかに高いことを示している(P値<0.0001、マンホイットニのU検定)。 Figures 39A and 39B show the determined probabilities of being methylated for those sequenced A bases in the click strand between the uA and mA datasets using the measurement window-based CNN model. Figure 39A shows the training data set and Figure 39B shows the test data set. Both figures plot the methylation probabilities on the y-axis. Figures 39A and 39B show the sequenced A bases of the template DNA molecule from the mA database compared to those A bases present in the uA database for the click strand association data, based on the CNN model, in the training data. Both the set and the test data set show a much higher probability of methylation (P-value < 0.0001, Mann-Whitney U test).

図40は、クリック鎖の配列決定されたA塩基に対して測定ウィンドウベースのCNNモデルを使用した6mA検出の性能を示している。真陽性率はy軸にある。偽陽性率はx軸にある。図40は、CNNモデルを使用してメチル化がある場合とない場合の配列決定されたA部位を区別する際のAUC値が、クリック鎖配列決定結果で構成される訓練データセットと試験データセットについて、それぞれ0.95と0.94であることを示している。本明細書に開示されるCNNアプローチ(AUC:0.94)を使用した性能は、IPDメトリック(0.87)のみを使用した性能よりも優れていることも示された(P値<0.0001)。この結果は、本明細書の開示を使用して、クリック鎖のデータを使用してA部位のメチル化状態を決定することが実行可能であることを示唆した。決定されたメチル化の確率0.5をカットオフとして使用すると、6mAの検出について99.3%の特異度と83.0%の感度を達成することができる。図40は、測定ウィンドウベースのCNNモデルを使用して、高い特異性および感度で6mAを検出できることを示す。 FIG. 40 shows the performance of 6mA detection using the measurement window-based CNN model for the sequenced A bases of click strands. True positive rate is on the y-axis. False positive rate is on the x-axis. FIG. 40 shows the AUC values in discriminating sequenced A sites with and without methylation using the CNN model, training and test datasets composed of click strand sequencing results. are 0.95 and 0.94, respectively. Performance using the CNN approach disclosed herein (AUC: 0.94) was also shown to be superior to performance using the IPD metric (0.87) alone (P-value < 0.94). 0001). This result suggested that it would be feasible to use the click strand data to determine the methylation status of the A site using the disclosure herein. Using a determined methylation probability of 0.5 as a cutoff, a specificity of 99.3% and a sensitivity of 83.0% for the detection of 6mA can be achieved. FIG. 40 shows that the measurement window-based CNN model can be used to detect 6mA with high specificity and sensitivity.

図41は、ワトソン鎖とクリック鎖を含む分子のA塩基全体のメチル化状態の例を示している。白い点は、非メチル化アデニンを表している。黒い点は、メチル化アデニンを表している。点のある水平線は、二本鎖DNA分子の鎖を表している。分子1は、ワトソン鎖とクリック鎖の両方が、A塩基全体でメチル化されていると決定されていることを示している。分子2は、ワトソン鎖がほぼすべてメチル化されていなかったのに対して、クリック鎖がほぼすべてメチル化されていたことを示している。分子3は、ワトソン鎖とクリック鎖の両方がA塩基全体でほぼすべてメチル化されていると決定されたことを示している。 FIG. 41 shows examples of the methylation status of the entire A base of molecules containing Watson and Crick strands. White dots represent unmethylated adenines. Black dots represent methylated adenines. Dotted horizontal lines represent strands of a double-stranded DNA molecule. Molecule 1 shows that both Watson and Crick strands have been determined to be methylated throughout the A base. Molecule 2 shows that the Crick strand was almost all methylated, whereas the Watson strand was almost all unmethylated. Molecule 3 shows that both the Watson and Crick strands were determined to be almost exclusively methylated across the A bases.

2.選択的データセットを使用した強化訓練
図36A、36B、39A、および39Bに示されるように、mAデータセットにおける鋳型DNA分子の配列決定されたA塩基にわたって、メチル化の確率の二峰分布があった。言い換えれば、mAデータセットには、uA信号を有する一部の分子が存在した。これは、mAデータセットにおける完全非メチル化分子とヘミメチル化分子の存在によってさらに証明された(図41)。考えられる理由の1つは、6mAを含む分子が全ゲノム増幅ステップ中にDNAの増幅効率を低下させるため、DNA鋳型にuAを含む分子が、全ゲノム増幅後もなお、mAデータセットのかなりの箇所を占めていることである。この説明は、6mAで増幅された1ngのゲノムDNAが10ngのDNA産物しか生成しないのに対して、非メチル化Aで増幅された1ngのゲノムDNAは、同じ増幅条件下で100ngのDNA産物を生成するという事実によって裏付けられた。したがって、mAデータセットの場合、アデニンが通常メチル化されていない(例えば、0.051%)元の鋳型DNA分子(Xiao CL et al.Mol 2018;71:306-318)は、総アデニンの約10%を占めるであろう。
2. Reinforcement Training Using Selective Datasets As shown in Figures 36A, 36B, 39A, and 39B, there was a bimodal distribution of methylation probabilities across the sequenced A bases of the template DNA molecule in the mA data set. rice field. In other words, there were some molecules with uA signals in the mA dataset. This was further evidenced by the presence of fully unmethylated and hemimethylated molecules in the mA dataset (Figure 41). One possible reason is that molecules containing uA in the DNA template still contribute to a significant portion of the mA dataset after whole genome amplification, as molecules containing 6 mA reduce the amplification efficiency of DNA during the whole genome amplification step. It occupies a place. This explanation is that 1 ng of genomic DNA amplified at 6 mA produces only 10 ng of DNA product, whereas 1 ng of genomic DNA amplified with unmethylated A produces 100 ng of DNA product under the same amplification conditions. supported by the fact that it produces Thus, for the mA data set, the original template DNA molecule (Xiao CL et al. Mol 2018;71:306-318), in which adenines are typically unmethylated (eg, 0.051%), represents approximately will account for 10%.

一実施形態では、mAとuA間を区別するためにCNNモデルを訓練しようとするとき、mAデータセットで比較的高いIPD値を有するそれらのA塩基を選択的に使用することで、mA検出のためのモデルの訓練に対するuAデータの影響を低減させる。特定のカットオフ値を超えるIPD値を有するA塩基のみを使用することができる。カットオフ値は、パーセンタイルに対応し得る。一実施形態では、10パーセンタイルでの値よりも大きなIPD値を有するmAデータセットのそれらのA塩基を使用するであろう。一部の実施形態では、1、5、15、20、30、40、50、60、70、80、90または95パーセンタイルでの値よりも大きいIPD値を有するそれらのAを使用するであろう。パーセンタイルは、参照試料または複数の参照試料内のすべての核酸分子からのデータに基づいてもよい。 In one embodiment, when trying to train a CNN model to discriminate between mA and uA, selective use of those A bases with relatively high IPD values in the mA data set improves mA detection. reduce the impact of uA data on the training of models for Only A bases with IPD values above a certain cutoff value can be used. A cutoff value may correspond to a percentile. In one embodiment, we will use those A bases of the mA data set that have an IPD value greater than the value at the 10th percentile. In some embodiments, those A with IPD values greater than the value at the 1st, 5th, 15th, 20th, 30th, 40th, 50th, 60th, 70th, 80th, 90th or 95th percentile will be used. . Percentiles may be based on data from all nucleic acid molecules within a reference sample or multiple reference samples.

図42は、10パーセンタイルよりも大きいIPD値を有するmAデータセットのA塩基を選択的に使用することによる強化訓練での性能を示す。図42は、y軸に真陽性率を示し、x軸に偽陽性率を示す。CNNモデルを訓練するのに、10パーセンタイルよりも大きいIPD値を有するmAのデータセットにおけるA塩基を使用すると、mAとuA塩基間の区別におけるAUCが0.98に増加し、訓練前のIPD値による選択なしのデータによって訓練されたモデル(AUC:0.94)よりも優れていたことを、図は示している。訓練データセットを作成するのにIPD値を使用してmA部位を選択すると、識別力の改善に役立つことが示唆された。 FIG. 42 shows performance in reinforcement training by selectively using A bases of the mA dataset with IPD values greater than the 10th percentile. FIG. 42 shows the true positive rate on the y-axis and the false positive rate on the x-axis. Using A bases in the mA data set with IPD values greater than the 10th percentile to train the CNN model increased the AUC for discrimination between mA and uA bases to 0.98, with the pre-training IPD values The figure shows that it outperformed the model trained on data without selection by (AUC: 0.94). It was suggested that using IPD values to select mA sites to generate the training data set helps improve discriminatory power.

mAデータセットのuA塩基を有する分子の存在をさらに確認するために、本発明者らは、分子内に存在する6mAが、6mAを含まない分子と比較して、新しい鎖の生成時にポリメラーゼの伸長を遅くするため、より多くのサブリードを有するウェルでmAデータセットのuAのパーセンテージが増加すると仮定した。 To further confirm the presence of molecules with uA bases in the mA data set, we found that the 6mA present in the molecule increased the elongation of the polymerase during new strand generation compared to molecules without 6mA. We hypothesized that wells with more subreads would increase the percentage of uA in the mA data set to slow down .

図43は、mAデータセットの非メチル化アデニンのパーセンテージに対する各ウェルのサブリードの数のグラフを示す。y軸は、mAデータセットのuAのパーセンテージを示す。x軸は、各ウェルのサブリードの数を示す。IPD値が10パーセンタイルを下回っていたA部位を除去した後、mA部位を使用することによって訓練された強化モデルを使用して、試験データセットを再分析した。ウェルあたりのサブリードの数が増加するにつれて(配列決定ウェルあたりのサブリードが1個から10個に、ウェルあたりのサブリードが10個から20個に、ウェルあたりのサブリードが40個から50個に、ウェルあたりのサブリードが60個から70個に、および70個超に、を含む)、uAが徐々に増加することが観察された(すなわち、14.6%から55.05%に上昇)。したがって、サブリードの数が多いウェルは、mAが低くなる傾向がある。Aのメチル化は、配列決定の反応の進行を遅らせる可能性がある。したがって、サブリードの深度が大きい配列決定ウェルは、Aに関してメチル化されない可能性がより高くなる。この挙動は、分子に関連付けられたサブリードの数のカットオフ値を使用して、非メチル化分子を検出するために利用することができ、例えば、サブリードが70個を超えると、大部分が非メチル化として特定され得る。 FIG. 43 shows a graph of the number of subreads in each well against the percentage of unmethylated adenine in the mA dataset. The y-axis shows the percentage of uA in the mA data set. The x-axis indicates the number of subreads in each well. After removing A sites that had IPD values below the 10th percentile, the test dataset was reanalyzed using a reinforcement model trained by using mA sites. As the number of subreads per well increases (1 to 10 subreads per sequencing well, 10 to 20 subreads per well, 40 to 50 subreads per well, A gradual increase in uA was observed (ie, increased from 14.6% to 55.05%), including from 60 to 70 and >70 subreads per read. Therefore, wells with a high number of subreads tend to have low mA. Methylation of A can slow the progress of the sequencing reaction. Therefore, sequencing wells with greater depth of subreads are more likely to be unmethylated for A. This behavior can be exploited to detect unmethylated molecules using a cutoff value for the number of subreads associated with a molecule, e.g. can be identified as methylation.

図44は、試験データセットの二本鎖DNA分子のワトソン鎖およびクリック鎖間のメチルアデニンのパターンを示している。Aのメチル化は非対称であるため、2つの鎖間で挙動が異なる。ほとんどの分子はmAの取り込みによりメチル化され、一部に非メチル化Aが残存する。y軸はクリック鎖のメチルアデニンのレベルを示す。x軸は、ワトソン鎖のメチルアデニンのレベルを示す。各点は、二本鎖分子を表す。選択されたmA部位によって訓練された強化モデルを使用して、二本鎖分子は、以下のように各鎖のメチル化レベルに従って異なるグループに分類され得る。
(a)二本鎖DNA分子の場合、ワトソン鎖とクリック鎖のメチルアデニンのレベルは、両方とも0.8よりも大きかった。このような二本鎖分子は、アデニン部位に関して完全メチル化分子として定義された(図44、領域A)。鎖のメチルアデニンのレベルは、その鎖の全A部位の中でメチル化されていると決定されたA部位のパーセンテージとして定義された。
(b)二本鎖DNA分子の場合、一方の鎖のメチルアデニンのレベルは0.8を超えていたが、もう一方の鎖は0.2未満であった。このような分子は、アデニン部位に関してヘミメチル化分子として定義された(図44、領域B1およびB2)。
(c)二本鎖DNA分子の場合、ワトソン鎖とクリック鎖のメチルアデニンのレベルは、両方とも0.2未満であった。このような二本鎖分子は、アデニン部位に関して完全非メチル化分子として定義された(図44、領域C)。
(d)二本鎖DNA分子の場合、ワトソン鎖とクリック鎖のメチルアデニンのレベルは、グループa、b、cに属していなかった。このような二本鎖分子は、アデニン部位に関してインターレースのメチル化パターンを有する分子として定義された(図44、領域D)。インターレースのメチル化パターンは、DNA鎖に存在するメチル化アデニンと非メチル化アデニンの混合物として定義された。
Figure 44 shows the pattern of methyladenines between the Watson and Crick strands of the double-stranded DNA molecules of the test data set. Since the methylation of A is asymmetric, it behaves differently between the two chains. Most molecules are methylated by mA incorporation, leaving some unmethylated A. The y-axis indicates the level of methyladenine in click strands. The x-axis indicates the level of Watson chain methyladenine. Each dot represents a double-stranded molecule. Using a reinforcement model trained with selected mA sites, double-stranded molecules can be classified into different groups according to the methylation level of each strand as follows.
(a) For double-stranded DNA molecules, the levels of methyladenine in the Watson and Crick strands were both greater than 0.8. Such double-stranded molecules were defined as permethylated molecules with respect to the adenine site (Fig. 44, region A). The methyladenine level of a chain was defined as the percentage of A sites determined to be methylated among all A sites of that chain.
(b) For double-stranded DNA molecules, the level of methyladenine in one strand was greater than 0.8, while the other strand was less than 0.2. Such molecules were defined as hemimethylated molecules with respect to the adenine site (Figure 44, regions B1 and B2).
(c) For double-stranded DNA molecules, the levels of methyladenine in the Watson and Crick strands were both less than 0.2. Such double-stranded molecules were defined as fully unmethylated molecules with respect to the adenine site (Fig. 44, region C).
(d) For double-stranded DNA molecules, the levels of methyladenine in Watson and Crick strands did not belong to groups a, b, c. Such double-stranded molecules were defined as molecules with an interlaced methylation pattern with respect to the adenine sites (Figure 44, region D). An interlaced methylation pattern was defined as a mixture of methylated and unmethylated adenines present on the DNA strand.

一部の他の実施形態では、非メチル化鎖を定義するためのメチルアデニンのレベルのカットオフは、限定されないが、0.01、0.05、0.1、0.2、0.3、0.4、および0.5未満であり得る。メチル化鎖を定義するためのメチルアデニンのレベルのカットオフは、限定されないが、0.5、0.6、0.7、0.8、0.9、0.95、および0.99を超える。 In some other embodiments, cutoff levels of methyladenine to define unmethylated strands include, but are not limited to, 0.01, 0.05, 0.1, 0.2, 0.3 , 0.4, and less than 0.5. Methyladenine level cutoffs for defining methylated strands include, but are not limited to, 0.5, 0.6, 0.7, 0.8, 0.9, 0.95, and 0.99. Exceed.

図45は、訓練データセットおよび試験データセットにおける完全非メチル化分子、ヘミメチル化分子、完全メチル化分子、およびインターレースのメチルアデニンのパターンを有する分子のパーセンテージを示す表である。試験データセットの分子は、アデニン部位に関して、完全非メチル化分子(7.0%)、ヘミメチル化分子(9.8%)、完全メチル化分子(79.4%)、およびインターレースのメチルアデニンのパターンを有する分子(3.7%)に分類され得る。これらの結果は、訓練データセットに示される結果と同等であり、アデニン部位に関して、完全非メチル化分子(7.0%)、ヘミメチル化分子(10.0%)、完全メチル化分子(79.4%)、およびインターレースのメチルアデニンのパターンを有する分子(3.6%)が存在した。 FIG. 45 is a table showing the percentage of fully unmethylated, hemimethylated, fully methylated, and interlaced methyladenine patterns in the training and test datasets. Molecules in the test data set were fully unmethylated (7.0%), hemimethylated (9.8%), fully methylated (79.4%), and interlaced with methyladenine at the adenine site. Molecules with patterns (3.7%) can be classified. These results are comparable to those shown in the training dataset, with fully unmethylated molecules (7.0%), hemimethylated molecules (10.0%) and fully methylated molecules (79.0%) for the adenine site. 4%), and molecules with an interlaced methyladenine pattern (3.6%).

図46は、アデニン部位に関して、完全非メチル化分子、ヘミメチル化分子、完全メチル化分子、およびインターレースのメチルアデニンのパターンを有する分子の代表的な分子の例を示す。白い点は、非メチル化アデニンを表す。黒い点は、メチル化アデニンを表している。点のある水平線は、二本鎖DNA分子の鎖を表している。 FIG. 46 shows representative molecular examples of fully unmethylated molecules, hemimethylated molecules, fully methylated molecules, and molecules with interlaced methyladenine patterns with respect to the adenine site. White dots represent unmethylated adenines. Black dots represent methylated adenines. Dotted horizontal lines represent strands of a double-stranded DNA molecule.

実施形態では、CNNモデルを訓練するために使用された6mA塩基の純度を高めることによって、メチル化アデニンと非メチル化アデニン間を区別する際の性能を改善することができる。この目的のために、DNA増幅反応の持続時間を長くして、新しく生成されたDNA産物を増やすと、元のDNA鋳型から寄与された非メチル化アデニンの効果を弱めることができる。他の実施形態では、6mAを用いたDNA増幅中にビオチン化塩基を組み込むことができる。新たに生成された6mAを含むDNA産物を、ストレプトアビジンでコーティングした磁気ビーズを使用して、プルダウンおよび濃縮することができる。 In embodiments, increasing the purity of the 6mA base used to train the CNN model can improve performance in discriminating between methylated and unmethylated adenine. To this end, increasing the duration of the DNA amplification reaction to increase the newly generated DNA product can counteract the effect of the unmethylated adenine contributed from the original DNA template. In other embodiments, biotinylated bases can be incorporated during DNA amplification using 6mA. DNA products containing newly generated 6mA can be pulled down and concentrated using streptavidin-coated magnetic beads.

3.6mAメチル化プロファイルの使用
DNAの6mA修飾は、細菌、古細菌、原生生物、真菌のゲノムに存在する(Didier W et al.Nat Rev Micorbiol.2009;4:183-192)。ヒトゲノムには6mAが存在し、アデニン全体の0.051%を占めることも報告されている(Xiao CL et al.Mol Cell.2018;71:306-318)。ヒトゲノムで6mAの含有量が少ないことを考慮すると、一実施形態では、全ゲノム増幅のステップで、dNTPミックス(Nは未修飾のA、C、G、およびTを表す)中の6mAの比率を調整することによって、訓練データセットを作成することができる。例えば、6mAとdNTPの比率として、1:10、1:100、1:1000、1:10000、1:100000、または1:1000000を使用することができる。別の実施形態では、アデニンDNAメチルトランスフェラーゼM.EcoGIIを使用して、6mAの訓練データセットを作成することができる。
3. Use of 6mA Methylation Profiles 6mA modifications of DNA are present in the genomes of bacteria, archaea, protists and fungi (Didier W et al. Nat Rev Microbiol. 2009;4:183-192). It has also been reported that 6 mA is present in the human genome and accounts for 0.051% of all adenines (Xiao CL et al. Mol Cell. 2018;71:306-318). Given the low content of 6mA in the human genome, in one embodiment, the whole genome amplification step reduces the proportion of 6mA in the dNTP mix (N represents unmodified A, C, G, and T) to By adjusting, a training dataset can be created. For example, ratios of 6mA to dNTPs of 1:10, 1:100, 1:1000, 1:10000, 1:100000, or 1:1000000 can be used. In another embodiment, the adenine DNA methyltransferase M. EcoGII can be used to create a 6mA training data set.

6mAの量は、胃癌および肝臓癌の組織でより低く、この6mAのダウンレギュレーションは、腫瘍形成の増加と相関していた(Xiao CL et al.Mol Cell.2018;71:306-318)。一方、膠芽腫では、高レベルの6mAが存在することが報告されている(Xie et al.Cell.2018;175:1228-1243)。したがって、本明細書に開示されるような6mAのアプローチは、癌ゲノミクスを研究するために有用であろう(Xiao CL et al.Mol Cell.2018;71:306-318;Xie et al.Cell.2018;175:1228-1243)。さらに、6mAは、哺乳動物のミトコンドリアDNAでより一般的かつ豊富であることがわかり、低酸素症と関連していることが示された(Hao Z et al.Mol Cell.2020;doi:10.1016/j.molcel.2020.02.018)。したがって、本開示における6mA検出のためのアプローチは、妊娠、癌、および自己免疫疾患などの異なる臨床条件下でのミトコンドリアストレス応答を研究するために有用であろう。 6mA levels were lower in gastric and liver cancer tissues, and this downregulation of 6mA correlated with increased tumorigenesis (Xiao CL et al. Mol Cell. 2018;71:306-318). On the other hand, it has been reported that high levels of 6mA are present in glioblastoma (Xie et al. Cell. 2018; 175:1228-1243). Therefore, the 6 mA approach as disclosed herein will be useful for studying cancer genomics (Xiao CL et al. Mol Cell. 2018;71:306-318; Xie et al. Cell. 2018; 175:1228-1243). Moreover, 6mA was found to be more prevalent and abundant in mammalian mitochondrial DNA and was shown to be associated with hypoxia (Hao Z et al. Mol Cell. 2020; doi:10. 1016/j.molcel.2020.02.018). Therefore, the approach for 6mA detection in the present disclosure will be useful for studying mitochondrial stress responses under different clinical conditions such as pregnancy, cancer, and autoimmune diseases.

IV.結果と用途
A.メチル化の検出
上記の方法を使用したCpG部位でのメチル化の検出は、様々な生体試料およびゲノム領域に対して実施された。一例として、バイサルファイト配列決定を使用したメチル化の決定に対して、単一分子リアルタイム配列決定を使用した妊婦の血漿中の無細胞DNAを用いたメチル化の決定が検証された。メチル化の結果は、コピー数の決定や障害の診断を含む、異なる用途に使用することができる。以下に記載される方法は、CpG部位に限定されず、本明細書に記載の任意の修飾にも適用され得る。
IV. Results and Uses A. Detection of Methylation Detection of methylation at CpG sites using the methods described above was performed on various biological samples and genomic regions. As an example, methylation determination using cell-free DNA in the plasma of pregnant women using single-molecule real-time sequencing was validated against methylation determination using bisulfite sequencing. Methylation results can be used for different applications, including determining copy number and diagnosing disorders. The methods described below are not limited to CpG sites and can be applied to any modification described herein.

1.胎盤組織における長鎖DNA分子のメチル化の検出
単一分子リアルタイム配列決定は、キロ塩基長のDNA分子を配列決定することができる(Nattestad et al.,2018)。単一分子リアルタイム配列決定のロングリード情報を相乗的に利用することによって、本明細書に記載の本発明を使用したCpG部位のメチル化状態の解読により、メチル化状態のハプロタイプ情報を推測することが可能になる。ロングリードのメチル化状態ならびにそのハプロタイプ情報を推測することの実行可能性を実証するために、28,913,838個のサブリードでカバーされた478,739個の分子を用いて、胎盤組織DNAの配列を決定した。サイズが5kb超の7つの分子があった。各々は、平均で、3つのサブリードでカバーされていた。
1. Detection of Methylation of Long DNA Molecules in Placental Tissue Single-molecule real-time sequencing can sequence kilobase-long DNA molecules (Nattestad et al., 2018). Inferring haplotype information of methylation status by deciphering the methylation status of CpG sites using the invention described herein by synergistically exploiting the long-read information of single-molecule real-time sequencing. becomes possible. To demonstrate the feasibility of inferring the methylation status of long reads as well as their haplotype information, 478,739 molecules covered by 28,913,838 subreads were used to analyze placental tissue DNA. Sequencing was determined. There were 7 molecules >5 kb in size. Each was covered, on average, by 3 subreads.

図47は、サイズが6,265bpの長鎖DNA分子(すなわち、ハプロタイプブロック)に沿ったメチル化状態を示している。これは、ZMWホール番号m54276_180626_162240/40763503のZMWにおいて配列決定され、ヒトゲノムにおけるchr1:113246546-113252811のゲノム位置にマッピングされた。「-」は、非CpGヌクレオチドを表す。「U」は、CpG部位の非メチル化状態を表す。「M」は、CpG部位のメチル化状態を表す。黄色で強調表示された領域4710は、一般に、メチル化されていないことが知られているCpGアイランド領域を示している(図47)。そのCpGアイランドのCpG部位の大部分は、非メチル化と推定された(96%)。対照的に、CpGアイランド外のCpG部位の75%が、非メチル化と推定された。これらの結果は、CpGアイランドの外側(例えば、CpGアイランドのショア/シェルフ)のメチル化レベルが、CpGアイランドのメチル化レベルよりも高いことを示唆している。そのCpGアイランドの外側の領域でのハプロタイプ配置におけるメチル化状態と非メチル化状態の混合は、メチル化パターンの可変性を示す。このような観察は、一般的に現在の理解と一致していた(Zhang et al.,2015;Feinberg and Irizarry,2010)。したがって、この開示は、メチル化状態および非メチル化状態を含む長鎖分子に沿って異なるメチル化状態を呼び出すことを可能にし、メチル化状態のハプロタイプ情報が段階的である可能性があることを意味する。ハプロタイプ情報とは、DNAの連続したストレッチへのCpG部位のメチル化状態との関連付けを指す。 FIG. 47 shows methylation states along a long DNA molecule (ie, haplotype block) of size 6,265 bp. It was sequenced in ZMW with ZMW hall number m54276_180626_162240/40763503 and mapped to the genomic position chr1:113246546-113252811 in the human genome. "-" represents non-CpG nucleotides. "U" represents the unmethylated state of the CpG site. "M" represents the methylation status of the CpG site. Regions 4710 highlighted in yellow indicate CpG island regions commonly known to be unmethylated (Fig. 47). The majority of CpG sites in that CpG island were assumed to be unmethylated (96%). In contrast, 75% of CpG sites outside CpG islands were predicted to be unmethylated. These results suggest that the methylation level outside the CpG island (eg, the shore/shelf of the CpG island) is higher than that of the CpG island. The mixture of methylated and unmethylated states in the haplotype arrangement at regions outside the CpG island indicates variability in methylation patterns. Such observations were generally consistent with current understanding (Zhang et al., 2015; Feinberg and Irizarry, 2010). Thus, this disclosure allows calling out different methylation states along long chains, including methylation and unmethylation states, and that haplotype information of methylation states can be graded. means. Haplotype information refers to the association of the methylation status of CpG sites to contiguous stretches of DNA.

一実施形態では、本明細書では、ハプロタイプに沿ったメチル化状態を分析して、インプリント領域を検出および分析するために、このアプローチを使用することができる。インプリント領域は、親起源の様式でメチル化状態を引き起こすエピジェネティックな調節を受ける。例えば、1つの重要なインプリント領域は、ヒト染色体11p15.5に位置し、胎児の成長の強力な調節因子であるインプリント遺伝子IGF2、H19、およびCDKN1C(P57kip2)を含有する(Brioude et al,Nat Rev Endocrinol.2018;14:229-249)。インプリント領域の遺伝的およびエピジェネティックな異常は、疾患に関連しているであろう。ベックウィズ・ウィーデマン症候群(BWS)は、過成長症候群であり、患者はしばしば巨舌、腹壁欠損、半側肥大、腹部臓器の肥大、および幼児期の胎児性腫瘍のリスク増加を伴う。BWSは、11p15.5領域内の遺伝的またはエピジェネティックな欠陥に起因すると考えられている(Brioude et al,Nat Rev Endocrinol.2018;14:229-249)。H19とIGF2との間に位置するICR1(インプリント制御領域1)と呼ばれる領域は、父方のアレル上で可変的にメチル化されている。ICR1は、IGF2の親起源特異的発現を誘導する。したがって、ICR1の遺伝的およびエピジェネティックな異常は、BWSを引き起こす可能性がある理由の1つであるIGF2の異常な発現につながる。したがって、インプリント領域に沿ったメチル化状態の検出は、臨床的に重要である。 In one embodiment, this approach can be used herein to analyze methylation status along haplotypes to detect and analyze imprinted regions. Imprinted regions are subject to epigenetic regulation resulting in methylation status in a parental manner. For example, one key imprinted region is located on human chromosome 11p15.5 and contains the imprinted genes IGF2, H19, and CDKN1C (P57 kip2 ), which are potent regulators of fetal growth (Brioude et al. , Nat Rev Endocrinol. 2018; 14:229-249). Genetic and epigenetic abnormalities in imprinted regions may be associated with disease. Beckwith-Wiedemann syndrome (BWS) is an overgrowth syndrome in which patients are often associated with macroglossia, abdominal wall defect, hemihypertrophy, enlarged abdominal organs, and an increased risk of fetal tumors in early childhood. BWS is believed to result from genetic or epigenetic defects within the 11p15.5 region (Brioude et al, Nat Rev Endocrinol. 2018; 14:229-249). A region called ICR1 (imprint control region 1) located between H19 and IGF2 is variably methylated on the paternal allele. ICR1 induces parental origin-specific expression of IGF2. Thus, genetic and epigenetic abnormalities in ICR1 lead to aberrant expression of IGF2, one of the possible reasons for BWS. Therefore, detection of methylation status along imprinted regions is clinically important.

本発明者らは、現在報告されているインプリント遺伝子を精選する公開データベース(http://www.geneimprint.org/)から92個のインプリント遺伝子のデータをダウンロードした。これらのインプリント遺伝子の5kb上流および下流の領域をさらなる分析に使用した。これらの領域の中で、160箇所のCpGアイランドが、これらのインプリント遺伝子に関連している。本発明者らは、胎盤試料から324,248個の循環コンセンサス配列を取得した。低品質の循環コンセンサス配列およびCpGアイランドと重複する短い領域(例えば、関連するCpGアイランドの長さの50%未満)を除去した後、8つのインプリント遺伝子に対応する9つのCpGアイランドと重複する9つの循環コンセンサス配列を取得した。 We downloaded data for 92 imprinted genes from a curated public database of currently reported imprinted genes (http://www.geneimprint.org/). 5 kb upstream and downstream regions of these imprinted genes were used for further analysis. Within these regions, 160 CpG islands are associated with these imprinted genes. We obtained 324,248 circular consensus sequences from placental samples. After removing low-quality circular consensus sequences and short regions overlapping CpG islands (e.g., less than 50% of the length of the relevant CpG islands), 9 overlapping CpG islands corresponding to 8 imprinted genes. We obtained two circular consensus sequences.

図48は、単一分子リアルタイム配列決定によって、9つのDNA分子の配列が決定され、H19、WT1-AS、WT1、DLK1、MEG3、ATP10A、LRRTM1、およびMAGI2を含むインプリント領域と重複することを示す表である。6番目の列には、インプリント領域を含むCpGアイランドと重複するDNAストレッチが含有されていた。「U」は、CpG文脈での非メチル化シトシンを表す。「M」は、CpG文脈でのメチル化シトシンを表す。「*」は、配列決定結果でカバーされなかったCpG部位を表す。「-」は、非CpG部位からのヌクレオチドを表す。分子が一塩基多型(SNP)と重複する場合、遺伝子型を括弧内に示す。7番目の列は、分子全体のメチル化状態を示している。本開示に存在する実施形態に従って、CpG部位の大部分(例えば、50%超)がメチル化されていることが示された場合、分子はメチル化されていると呼ばれ得る。それ以外の場合は、非メチル化されていると呼ばれる。 Figure 48 shows that nine DNA molecules were sequenced by single-molecule real-time sequencing, overlapping imprinted regions including H19, WT1-AS, WT1, DLK1, MEG3, ATP10A, LRRTM1, and MAGI2. It is a table showing The sixth row contained a DNA stretch overlapping the CpG island containing the imprinted region. "U" represents unmethylated cytosine in the CpG context. "M" represents a methylated cytosine in the CpG context. "*" represents CpG sites that were not covered by the sequencing results. "-" represents nucleotides from non-CpG sites. If the molecule overlaps with a single nucleotide polymorphism (SNP), the genotype is shown in brackets. The seventh column shows the methylation status of the whole molecule. According to embodiments present in the present disclosure, a molecule may be referred to as methylated if it is shown that a majority (eg, greater than 50%) of the CpG sites are methylated. otherwise it is said to be unmethylated.

9つのDNA分子のうち、5つのDNA分子(55.6%)はメチル化と呼ばれ、50%のDNA分子がメチル化されるという予想から大きく逸脱していなかった。図48の表の6番目の列に示されるように、CpG部位の大部分は、協調して(すなわち、メチル化ハプロタイプとして)メチル化または非メチル化されていることが示された。一実施形態は、本開示に存在する実施形態に従って、CpG部位の大部分(例えば、50%超)がメチル化されていることが示された場合、分子はメチル化されていると呼ばれ得る。そうでない場合は、非メチル化されていると呼ばれる。分子がメチル化されているかどうかを決定するための他のカットオフを使用することができ、限定されないが、分析された分子におけるCpG部位の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、および100%が、メチル化されているとみなされる。 Of the 9 DNA molecules, 5 (55.6%) were called methylated, not far from the expectation that 50% of the DNA molecules are methylated. As shown in the sixth column of the table in FIG. 48, the majority of CpG sites were shown to be either methylated or unmethylated in concert (ie, as methylated haplotypes). One embodiment, according to embodiments present in the present disclosure, a molecule may be referred to as methylated if it is shown that a majority (e.g., greater than 50%) of the CpG sites are methylated. . Otherwise it is said to be unmethylated. Other cutoffs for determining whether a molecule is methylated can be used, including but not limited to at least 10%, 20%, 30%, 40%, 50% of the CpG sites in the molecule analyzed. %, 60%, 70%, 80%, 90% and 100% are considered methylated.

別の実施形態では、少なくとも1つのSNPの分析および少なくとも1つのCpG部位の分析を同時に含む分子を使用して、領域がインプリント領域に関連するかどうか、または既知のインプリント遺伝子が異常であるかどうか(例えば、インプリントの喪失)を決定することができる。例示の目的で、図49は、インプリンティング領域由来の第1の分子がアレル「A」を有し、そのインプリンティング領域由来の第2の分子がアレル「G」を有した。インプリンティング領域が父方でインプリントされたと仮定すると、母方のハプロタイプからの第1の分子は、完全非メチル化であり、父方のハプロタイプからの第2の分子は、完全メチル化であった。一実施形態では、そのような仮定は、メチル化状態のグラウンドトゥルースを提供し、本開示に存在する実施形態による塩基修飾検出の性能を試験することを可能にする。 In another embodiment, a molecule comprising analysis of at least one SNP and analysis of at least one CpG site simultaneously is used to determine whether a region is associated with an imprinted region or a known imprinted gene is aberrant. (eg loss of imprint). For purposes of illustration, Figure 49 had the first molecule from the imprinted region having allele "A" and the second molecule from that imprinting region having allele "G". Assuming that the imprinted region was paternally imprinted, the first molecule from the maternal haplotype was fully unmethylated and the second molecule from the paternal haplotype was fully methylated. In one embodiment, such assumptions provide the ground truth of methylation status and allow testing the performance of base modification detection according to embodiments present in the present disclosure.

図49は、インプリント領域におけるメチル化パターンの決定の一例を示す。生体試料中のDNAを抽出し、ヘアピンアダプターと連結して環状DNA分子を形成した。これらの環状DNA分子に関する配列情報および塩基修飾(例えば、CpG部位のメチル化状態)は不明であった。それらの環状DNA分子は、単一分子リアルタイム配列決定にかけられた。サブリードが参照ゲノムにマッピングされた後、それらの環状DNA分子に由来する各サブリードの塩基について、IPD、PW、および配列文脈が決定された。さらに、それらの分子の遺伝子型が決定された。CG部位に関連する測定ウィンドウのIPD、PW、および配列文脈は、各CpGのメチル化状態を決定するために、本開示に存在する実施形態による参照動態パターンと比較されるであろう。アレルが異なる2つの分子が、一方が完全非メチル化で、他方が完全メチル化であるような異なるメチル化パターンを示した場合、これら2つの分子に関連するゲノム領域はインプリント領域であろう。一実施形態では、例えば、図49に示されるように、そのようなゲノム領域がたまたま既知のインプリント領域であった場合、これらの2つの分子のメチル化パターンは、通常の状況で予想されるメチル化パターン(すなわち、グラウンドトゥルース)と一致した。それは、本開示に存在する実施形態による、メチル化状態の分類のための方法の正確さを示唆し得る。一実施形態では、本開示に存在する実施形態による、測定されたメチル化パターンと予想されるメチル化パターンとの間の導出は、インプリンティングの異常、例えば、インプリンティングの喪失を示すであろう。 FIG. 49 shows an example of determination of methylation patterns in imprinted regions. DNA in biological samples was extracted and ligated with hairpin adapters to form circular DNA molecules. Sequence information and base modifications (eg, methylation status of CpG sites) for these circular DNA molecules were unknown. Those circular DNA molecules were subjected to single-molecule real-time sequencing. After the subreads were mapped to the reference genome, the IPD, PW, and sequence context were determined for each subread base derived from those circular DNA molecules. In addition, those molecules were genotyped. The IPD, PW, and sequence context of the measurement window associated with the CG site will be compared to reference kinetic patterns according to embodiments present in the present disclosure to determine the methylation status of each CpG. If two molecules with different alleles show different methylation patterns, one fully unmethylated and the other fully methylated, the genomic region associated with these two molecules will be an imprinted region. . In one embodiment, for example, as shown in FIG. 49, if such a genomic region happens to be a known imprinted region, the methylation pattern of these two molecules would be expected under normal circumstances. matched the methylation pattern (ie, ground truth). It may indicate the accuracy of the method for classification of methylation status according to embodiments present in the present disclosure. In one embodiment, derivation between measured and expected methylation patterns according to embodiments present in the present disclosure will indicate imprinting abnormalities, e.g., loss of imprinting. .

図50は、インプリント領域におけるメチル化パターンの決定の一例を示す。一実施形態では、インプリンティングパターンは、特定の家系図にわたるその領域のメチル化パターンを分析することを通して、さらに決定することができる。例えば、父方、母方のゲノム、および子孫全体のメチル化パターンとアレル情報の分析を行うことができる。そのような家系図は、父方または母方の祖父、父方または母方の祖母のゲノムもしくは他の関連するゲノムをさらに含み得る。別の実施形態では、そのような分析は、特定の集団における家族トリオ(母親、父親および子供)データセットに拡張することができ、例えば、本明細書に存在する実施形態に従って、各個体のメチル化および遺伝子型情報を取得する。 FIG. 50 shows an example of determination of methylation patterns in imprinted regions. In one embodiment, the imprinting pattern can be further determined through analyzing the methylation pattern of that region across a particular family tree. For example, analysis of methylation patterns and allelic information across paternal, maternal genomes, and offspring can be performed. Such pedigrees may further include the genomes of paternal or maternal grandfathers, paternal or maternal grandmothers or other related genomes. In another embodiment, such analysis can be extended to family trio (mother, father and child) datasets in a particular population, e.g. Acquire genetic and genotype information.

分類後に示されているように、遺伝子型(ボックス内のアレル)とメチル化状態の両方を決定することができる。各々の分子について、分子がどの親から受け継がれているかを特定するために、各部位のメチル化パターンを提供することができる(例えば、すべてメチル化またはすべて非メチル化)。または、メチル化密度を決定することができ、1つ以上のカットオフにより、分子が高メチル化されているか(例えば、>80%または他の%、一方の親から)、低メチル化されているか(例えば、<20%または他の%、他方の親から)分類することができる。 As indicated after sorting, both genotype (alleles in boxes) and methylation status can be determined. For each molecule, the methylation pattern at each site can be provided (eg, all methylated or all unmethylated) to identify from which parent the molecule is inherited. Alternatively, methylation density can be determined and one or more cutoffs determine whether a molecule is hypermethylated (e.g., >80% or other %, from one parent) or hypomethylated. (eg, <20% or other %, from the other parent).

2.cfDNA分子のメチル化の検出
別の例として、無細胞DNA(cfDNA)のメチル化も、非侵襲的な出生前検査の重要な分子信号としてますます認識されている。例えば、組織特異的なメチル化を有する領域のcfDNA分子を使用して、妊婦の血漿中の好中球、T細胞、B細胞、肝臓、胎盤などの異なる組織からの比例的な寄与を決定できることを示した(Sun et al.,2015)。21番染色体トリソミーを検出するために妊婦の血漿DNAメチル化を使用することの実行可能性も実証されている(Lun et al.,2013)。母体血漿中のcfDNA分子は、中央値166bpのサイズに断片化された。これは、サイズが約500bpである人工的に断片化された大腸菌DNAよりもはるかに短いものである。cfDNAはランダムに断片化されていないことが報告されている。例えば、胎盤由来などの組織起源に関連する血漿DNAの末端モチーフである。無細胞DNAのこのような特徴的な特性は、人工的に断片化された大腸菌DNAとは非常に異なる配列文脈を提供する。したがって、そのようなポリメラーゼの動態が、典型的には無細胞DNA分子のメチル化レベルを定量的に推定することを可能にするかどうかは不明のままである。この特許出願における開示は、例えば、限定されないが、上記の組織DNA分子から訓練されたメチル化予測モデルを使用することによって、妊婦の血漿中の無細胞DNAをメチル化分析することに適用可能である。
2. Detection of Methylation of cfDNA Molecules As another example, cell-free DNA (cfDNA) methylation is also increasingly recognized as an important molecular signal for non-invasive prenatal testing. For example, cfDNA molecules in regions with tissue-specific methylation can be used to determine the proportional contributions from different tissues such as neutrophils, T-cells, B-cells, liver, placenta, etc. in the plasma of pregnant women. (Sun et al., 2015). The feasibility of using plasma DNA methylation in pregnant women to detect trisomy 21 has also been demonstrated (Lun et al., 2013). cfDNA molecules in maternal plasma were fragmented to a median size of 166 bp. This is much shorter than artificially fragmented E. coli DNA, which is approximately 500 bp in size. It has been reported that cfDNA is not randomly fragmented. For example, terminal motifs in plasma DNA that are associated with tissue origins such as placental origin. Such characteristic properties of cell-free DNA provide a very different sequence context than artificially fragmented E. coli DNA. Therefore, it remains unclear whether such polymerase kinetics allow quantitative estimation of methylation levels of typically cell-free DNA molecules. The disclosure in this patent application is applicable, for example, but not limited to, methylation analysis of cell-free DNA in plasma of pregnant women by using a methylation prediction model trained from the tissue DNA molecules described above. be.

単一分子リアルタイム配列決定を使用して、男性胎児を有する妊婦の6つの血漿DNA試料を配列決定し、中央値が111,834個のCCS(範囲:61,010~503,582個)に対応する中央値が30,738,399個のサブリード(範囲:1,431,215~105,835,846個)を有した。各血漿DNAは、中央値262回(範囲:173~320回)配列決定された。データセットは、Sequel I Sequencing Kit 3.0によって調製されたDNAから生成された。 Six plasma DNA samples of pregnant women with male fetuses were sequenced using single-molecule real-time sequencing, corresponding to a median of 111,834 CCSs (range: 61,010-503,582) had a median of 30,738,399 subreads (range: 1,431,215 to 105,835,846). Each plasma DNA was sequenced a median of 262 times (range: 173-320). The dataset was generated from DNA prepared by the Sequel I Sequencing Kit 3.0.

cfDNA分子のメチル化の検出を評価するために、本発明者らは、バイサルファイト配列決定(Jiang et al.,2014)を使用して、妊婦の上記の6つの血漿DNA試料のメチル化を分析した。中央値が6600万個のペアエンドリードを取得した(5800万~8200万個のペアエンドリード)。全体的なメチル化の中央値は69.6%(67.1%~72.0%)であることがわかった。 To assess the detection of methylation of cfDNA molecules, we used bisulfite sequencing (Jiang et al., 2014) to analyze the methylation of the above six plasma DNA samples of pregnant women. bottom. A median of 66 million paired-end reads were obtained (58-82 million paired-end reads). The median overall methylation was found to be 69.6% (67.1%-72.0%).

図51は、新しいアプローチと従来のバイサルファイト配列決定によって推定されたメチル化レベルの比較を示している。y軸は、この特許出願に存在する実施形態に従って予測されるメチル化レベルである。x軸は、バイサルファイト配列決定によって推定されたメチル化レベルである。単一分子リアルタイム配列決定から生成された血漿DNAの結果について、中央値が314,675個のCpG部位(範囲:144,546~1,382,568個)を分析した。メチル化されると予測されたCpG部位の割合の中央値は64.7%(範囲:60.8~68.5%)であり、バイサルファイト配列決定から推定された結果と同等であるように見えた。図51に示されるように、このメチル化予測アプローチによる単一分子リアルタイム配列決定によって推定された全体的なメチル化レベルと、バイサルファイト配列決定との間には、良好な相関(r:0.96、p値=0.0023)があった。 Figure 51 shows a comparison of methylation levels deduced by the new approach and conventional bisulfite sequencing. The y-axis is the methylation level predicted according to the embodiments present in this patent application. The x-axis is the methylation level estimated by bisulfite sequencing. A median of 314,675 CpG sites (range: 144,546 to 1,382,568) were analyzed for plasma DNA results generated from single-molecule real-time sequencing. The median percentage of CpG sites predicted to be methylated was 64.7% (range: 60.8-68.5%), similar to the results deduced from bisulfite sequencing. Looked. As shown in FIG. 51, there is a good correlation (r:0. 96, p-value = 0.0023).

バイサルファイト配列決定の深度が浅いため、ヒトゲノムの各CpGのメチル化レベル(すなわち、メチル化されている配列決定されたCpGの割合)を推定するには頑強ではない可能性がある。代わりに、本発明者らは、任意の2つの連続するCpG部位が50nt以内にあり、かつCpG部位の数が少なくとも10個であるゲノム領域のCpG部位をカバーするリード信号を集約することにより、複数のCpG部位を有する一部の領域のメチル化レベルを計算した。ある領域のCpG部位全体の配列決定されたシトシンとチミンの合計に占める配列決定されたシトシンのパーセンテージは、その領域のメチル化レベルを示していた。領域は、領域のメチル化レベルに応じて、異なるグループに分けられた。以前の訓練データセット(すなわち、組織DNA)から学習したモデルによって予測されたメチル化の確率は、メチル化レベルが増加するにつれて上昇した(図52A)。これらの結果はさらに、妊婦のcfDNA分子のメチル化状態を予測するために単一分子リアルタイム配列決定を使用することの実行可能性と妥当性を示唆した。図52Bは、本開示に存在する実施形態による単一分子リアルタイム配列決定を使用して推定された10Mbゲノムウィンドウにおけるメチル化レベルが、バイサルファイト配列決定によるもので十分に補正されたことを示した(r=0.74、p値<0.0001)。 Due to the shallow depth of bisulfite sequencing, it may not be robust to estimate the methylation level of each CpG in the human genome (ie, the percentage of sequenced CpGs that are methylated). Instead, we aggregate read signals covering CpG sites in genomic regions where any two consecutive CpG sites are within 50 nt and where the number of CpG sites is at least 10: Methylation levels of some regions with multiple CpG sites were calculated. The percentage of sequenced cytosines out of the total sequenced cytosines and thymines across CpG sites in a region indicated the methylation level of that region. Regions were divided into different groups according to the methylation level of the region. The methylation probabilities predicted by models learned from the previous training dataset (ie, tissue DNA) increased as methylation levels increased (Fig. 52A). These results further suggested the feasibility and validity of using single-molecule real-time sequencing to predict the methylation status of cfDNA molecules in pregnant women. FIG. 52B showed that methylation levels in a 10 Mb genomic window estimated using single-molecule real-time sequencing according to embodiments present in the present disclosure were well corrected with bisulfite sequencing. (r=0.74, p-value<0.0001).

図53は、単一分子リアルタイム配列決定によって測定された妊婦の母体血漿中のY染色体のゲノム表現(GR)が、BS-seqによって測定されたものとよく相関していることを示した(r=0.97、P値=0.007)。これらの結果は、単一分子リアルタイム配列決定により、胎盤などの非造血組織(一般に、寄与するDNAが少数)に由来するDNA分子の正確な定量も可能になることを示唆した。言い換えれば、本開示は、配列決定の前に、塩基変換および増幅なしに、天然分子のコピー数異常およびメチル化状態を同時に分析するための実行可能性を実証した。 Figure 53 showed that the genomic representation (GR) of the Y chromosome in maternal plasma of pregnant women measured by single-molecule real-time sequencing correlated well with that measured by BS-seq (r = 0.97, P-value = 0.007). These results suggested that single-molecule real-time sequencing would also allow accurate quantification of DNA molecules from non-hematopoietic tissues, such as placenta, which generally have few contributing DNAs. In other words, the present disclosure has demonstrated the feasibility to simultaneously analyze copy number aberrations and methylation status of native molecules without base conversion and amplification prior to sequencing.

3.CpGブロックベースの方法
一部の実施形態は、例えば、限定されないが、2、3、4、5、10、20、30、40、50、100個のCpG部位などを含む複数のCpG部位を有するいくつかのゲノム領域でメチル化分析を行うことができる。このようなゲノム領域のサイズは、例えば、限定されないが、50、100、200、300、および500ntなどであり得る。この領域のCpG部位間の距離は、例えば、限定されないが、10、20、30、40、50、100、200、300ntなどであり得る。一実施形態では、50nt内の任意の2つの連続するCpG部位を重ね合わせて、このブロック内のCpG部位の数が11個以上であるようにCpGブロックを形成し得る。このようなブロックベースの方法では、複数の領域を単一のマトリックスとして表される1つのウィンドウに組み合わせて、領域を効果的に一緒に処理できる。
3. CpG Block-Based Methods Some embodiments have multiple CpG sites, including, but not limited to, 2, 3, 4, 5, 10, 20, 30, 40, 50, 100 CpG sites. Methylation analysis can be performed on several genomic regions. The size of such genomic regions can be, for example, but not limited to, 50, 100, 200, 300, and 500 nt. The distance between CpG sites in this region can be, for example, but not limited to, 10, 20, 30, 40, 50, 100, 200, 300 nt. In one embodiment, any two consecutive CpG sites within 50 nt may be superimposed to form a CpG block such that the number of CpG sites within this block is 11 or greater. In such block-based methods, multiple regions can be combined into one window represented as a single matrix, effectively processing the regions together.

一例として、図54に示すように、CpGブロックに関連するすべてのサブリードの動態を、メチル化分析に使用した。そのブロック内の各CpGに隣接する上流および下流の10nt隣接部の予測IPDプロファイルを、CpG部位に対して人為的に整列させて、平均IPDプロファイルを計算した(図54)。「投影された」という言葉は、サブリードの動態信号を、問題の対応する各CpG部位に整列されることを意味する。CpGブロックの平均IPDプロファイルは、各ブロックのメチル化状態を特定するためのモデルを訓練するために使用された(例えば、人工ニューラルネットワーク、略してANN)。ANN分析には、入力層、2つの隠れ層、および出力層が含まれた。各CpGブロックは、ANNに入力される21個のIPD値の特徴ベクトルによって特徴付けられた。最初の隠れ層には、活性化関数としてReLuを有する10個のニューロンが含まれた。2番目の隠れ層には、活性化関数としてReLuを有する5個のニューロンが含まれた。最後に、出力層には、メチル化の確率を出力する活性化関数としてシグモイドを有する1つのニューロンが含まれた。メチル化の確率が0.5を超えるCpG部位は、メチル化とみなされ、それ以外の場合は、非メチル化とみなされた。平均IPDプロファイルは、分子全体のメチル化状態を分析するために使用することができる。閾値を超える特定の数の部位(例えば、0、1、2、3など)がメチル化されている場合、または分子が特定のメチル化密度を有する場合、分子全体がメチル化されているとみなされ得る。 As an example, the kinetics of all subreads associated with CpG blocks were used for methylation analysis, as shown in FIG. The predicted IPD profiles of the 10 nt flanking upstream and downstream flanking each CpG within the block were artificially aligned to the CpG site to calculate the average IPD profile (Figure 54). The term "projected" means that the subread kinetic signals are aligned to each corresponding CpG site in question. The average IPD profile of CpG blocks was used to train a model (eg artificial neural network, ANN for short) to identify the methylation status of each block. The ANN analysis included an input layer, two hidden layers and an output layer. Each CpG block was characterized by a feature vector of 21 IPD values input to the ANN. The first hidden layer contained 10 neurons with ReLu as the activation function. The second hidden layer contained 5 neurons with ReLu as the activation function. Finally, the output layer contained one neuron with sigmoid as activation function that outputs the probability of methylation. CpG sites with a methylation probability greater than 0.5 were considered methylated, otherwise unmethylated. The average IPD profile can be used to analyze the methylation status of the whole molecule. If a certain number of sites (e.g., 0, 1, 2, 3, etc.) above a threshold are methylated, or if the molecule has a certain methylation density, the entire molecule is considered methylated. can be

非メチル化ライブラリおよびメチル化ライブラリには9,678個および9,020個のCpGブロックがあり、各々に少なくとも10個のCpG部位が含まれた。これらのCpGブロックは、非メチル化ライブラリおよびメチル化ライブラリの176,048個および162,943個のCpG部位をカバーした。図55Aおよび図55Bに示すように、訓練データセットと試験データセットの両方でメチル化状態を予測する際に、90%を超える全体的な精度を達成することができた。しかしながら、CpGブロックに依存するそのような実施形態は、評価することができるCpGの数を大幅に減らすであろう。定義上、最小数のCpG部位の要件は、メチル化分析を特定のゲノム領域に制限する(例えば、CpGアイランドの分析)。 The unmethylated and methylated libraries had 9,678 and 9,020 CpG blocks, each containing at least 10 CpG sites. These CpG blocks covered 176,048 and 162,943 CpG sites in unmethylated and methylated libraries. As shown in Figures 55A and 55B, we were able to achieve over 90% overall accuracy in predicting methylation status on both the training and test datasets. However, such embodiments relying on CpG blocks would greatly reduce the number of CpGs that can be evaluated. By definition, the requirement for a minimum number of CpG sites restricts methylation analysis to specific genomic regions (eg analysis of CpG islands).

B.起源または障害の決定
メチル化プロファイルは、組織の起源を検出したり、障害の分類を決定したりするために使用することができる。メチル化プロファイル分析は、イメージング、従来の血液パネル、およびその他の医療診断情報を含む他の臨床データと組み合わせて使用することができる。メチル化プロファイルは、本明細書に記載の任意の方法を使用して決定することができる。
B. Determining Origin or Disorder Methylation profiles can be used to detect tissue origin or to determine disorder classification. Methylation profile analysis can be used in combination with other clinical data, including imaging, conventional blood panels, and other medical diagnostic information. Methylation profiles can be determined using any method described herein.

1.コピー数異常の決定
このセクションでは、SMRTがコピー数を決定するのに正確であり、したがって、メチル化プロファイルおよびコピー数プロファイルを、同時に分析できることを示す。
1. Determination of Copy Number Abnormalities In this section, we show that SMRT is accurate for determining copy number, and thus methylation and copy number profiles can be analyzed simultaneously.

コピー数の異常は、腫瘍組織の配列決定によって明らかになることが示されている(Chan(2013))。ここで、本発明者らは、癌に関連するコピー数異常が、単一分子リアルタイム配列決定を使用した腫瘍組織の配列決定によって特定できることを示す。例えば、ケースTBR3033の場合、腫瘍DNAおよびそのペアの隣接する非腫瘍肝組織DNAについて、それぞれ589,435個および1,495,225個のコンセンサス配列(各コンセンサス配列の構築に使用されるサブリードの最小要件は5個)を取得した。データセットは、Sequel II Sequencing Kit 1.0によって調製されたDNAから生成された。一実施形態では、ゲノムを、インシリコで、2Mbウィンドウに分割した。各ウィンドウにマッピングされているコンセンサス配列のパーセンテージを計算し、2Mbの解像度でゲノム表現(GR)が得られた。GRは、ある位置でのリードの数によって決定でき、ゲノム全体の全配列リードによって正規化された。 Copy number aberrations have been shown to be revealed by sequencing tumor tissue (Chan (2013)). Here we show that cancer-associated copy number aberrations can be identified by sequencing tumor tissue using single-molecule real-time sequencing. For example, for case TBR3033, there are 589,435 and 1,495,225 consensus sequences for tumor DNA and its paired adjacent non-tumor liver tissue DNA, respectively (minimum number of subreads used to construct each consensus sequence). 5 requirements) were acquired. The dataset was generated from DNA prepared by Sequel II Sequencing Kit 1.0. In one embodiment, the genome was split in silico into 2 Mb windows. The percentage of consensus sequences mapping to each window was calculated and the genome representation (GR) was obtained at 2 Mb resolution. GR can be determined by the number of reads at a position, normalized by total sequence reads across the genome.

図56Aは、単一分子リアルタイム配列決定を使用した、腫瘍DNAとそのペアの隣接する非腫瘍組織DNAとの間のGRの比率を示す。腫瘍DNAおよびそのペアの隣接する正常組織DNAのコピー数の比率をy軸に示し、染色体1~22を含む各2Mbウィンドウのゲノムビン指数をx軸に示す。この図では、すべての2Mbウィンドウの5パーセンタイル未満のGRの比率を有する領域で、コピー数の減少があると分類されたのに対して、すべての2Mbウィンドウの95パーセンタイル超のGRの比率を有する領域では、コピー数の増加があると分類された。13番染色体ではコピー数の減少が見られ、一方、20番染色体ではコピー数の増加が見られた。このような増加と減少は、正しい結果である。 FIG. 56A shows the ratio of GRs between tumor DNA and its paired adjacent non-tumor tissue DNA using single-molecule real-time sequencing. The copy number ratio of tumor DNA and its paired adjacent normal tissue DNA is shown on the y-axis and the genomic bin index for each 2 Mb window covering chromosomes 1-22 is shown on the x-axis. In this figure, regions with GR ratios below the 5th percentile of all 2 Mb windows were classified as having copy number loss versus those with GR ratios above the 95th percentile of all 2 Mb windows. Regions were classified as having copy number gains. Chromosome 13 showed a decrease in copy number, while chromosome 20 showed an increase in copy number. Such increases and decreases are correct results.

図56Bは、バイサルファイト配列決定を使用した、腫瘍とそのペアの隣接する非腫瘍組織との間のGRの比率を示す。腫瘍DNAおよびそのペアの隣接する正常組織DNAのコピー数の比率をy軸に示し、染色体1~22を含む各2Mbウィンドウのゲノムビン指数をx軸に示す。図56Aの単一分子リアルタイム配列決定によって特定されたコピー数の変化は、図56Bの一致したバイサルファイト配列決定の結果で検証された。 FIG. 56B shows the ratio of GRs between tumor and its paired adjacent non-tumor tissue using bisulfite sequencing. The copy number ratio of tumor DNA and its paired adjacent normal tissue DNA is shown on the y-axis and the genomic bin index for each 2 Mb window covering chromosomes 1-22 is shown on the x-axis. The copy number changes identified by single-molecule real-time sequencing in Figure 56A were validated with the concordant bisulfite sequencing results in Figure 56B.

ケースTBR3032の場合、腫瘍DNAおよびそのペアの隣接する非腫瘍組織DNAについて、それぞれ413,982個および2,396,054個のコンセンサス配列(各コンセンサス配列の構築に使用されるサブリードの最小要件は5個)を取得した。一実施形態では、ゲノムを、インシリコで、2Mbウィンドウに分割した。各ウィンドウにマッピングされているコンセンサス配列のパーセンテージ、つまり、2Mbゲノム表現(GR)、を計算した。 For case TBR3032, there are 413,982 and 2,396,054 consensus sequences for tumor DNA and its paired adjacent non-tumor tissue DNA, respectively (minimum requirement of 5 subreads used to construct each consensus sequence). ) were obtained. In one embodiment, the genome was split in silico into 2 Mb windows. The percentage of consensus sequences that mapped to each window, ie, 2Mb genome representation (GR), was calculated.

図57Aは、単一分子リアルタイム配列決定を使用した、腫瘍DNAとそのペアの隣接する非腫瘍組織DNAとの間のGRの比率を示す。腫瘍DNAおよびそのペアの隣接する正常組織DNAのコピー数の比率をy軸に示し、染色体1~22を含む各2Mbウィンドウのゲノムビン指数をx軸に示す。この図では、すべての2Mbウィンドウの5パーセンタイル未満のGRの比率を有する領域で、コピー数の減少があると分類されたのに対して、すべての2Mbウィンドウの95パーセンタイル超のGRの比率を有する領域では、コピー数の増加があると分類された。4番染色体、6番染色体、11番染色体、13番染色体、16番染色体、および17番染色体にはコピー数の減少がみられ、5番染色体および7番染色体にはコピー数の増加が見られた。 FIG. 57A shows the ratio of GRs between tumor DNA and its paired adjacent non-tumor tissue DNA using single-molecule real-time sequencing. The copy number ratio of tumor DNA and its paired adjacent normal tissue DNA is shown on the y-axis and the genomic bin index for each 2 Mb window covering chromosomes 1-22 is shown on the x-axis. In this figure, regions with GR ratios below the 5th percentile of all 2 Mb windows were classified as having copy number loss versus those with GR ratios above the 95th percentile of all 2 Mb windows. Regions were classified as having copy number gains. Chromosomes 4, 6, 11, 13, 16, and 17 show reduced copy numbers, and chromosomes 5 and 7 show increased copy numbers. rice field.

図57Bは、バイサルファイト配列決定を使用した、腫瘍とそのペアの隣接する非腫瘍組織との間のGRの比率を示す。腫瘍DNAおよびそのペアの隣接する正常組織DNAのコピー数の比率をy軸に示し、染色体1~22を含む各2Mbウィンドウのゲノムビン指数をx軸に示す。図57Aの単一分子リアルタイム配列決定によって特定されたコピー数の変化は、図57Bの一致したバイサルファイト配列決定の結果で検証された。 FIG. 57B shows the ratio of GRs between tumor and its paired adjacent non-tumor tissue using bisulfite sequencing. The copy number ratio of tumor DNA and its paired adjacent normal tissue DNA is shown on the y-axis and the genomic bin index for each 2 Mb window covering chromosomes 1-22 is shown on the x-axis. The copy number changes identified by single-molecule real-time sequencing in Figure 57A were validated with the concordant bisulfite sequencing results in Figure 57B.

したがって、メチル化プロファイルおよびコピー数プロファイルを同時に分析することができる。この実施例では、腫瘍組織の腫瘍純度が、一般に、いつも100%であるとは限らないため、増幅された領域は、腫瘍DNAの寄与を比較的増加させ、欠損した領域は、腫瘍DNAの寄与を比較的減少させる。腫瘍ゲノムは全体的な低メチル化を特徴としているため、増幅された領域は、欠損した領域と比較して、メチル化レベルをさらに低下させる。実例として、ケースTBR3033の場合、本発明を使用して測定された22番染色体のメチル化レベル(コピー数の増加)は48.2%であり、3番染色体(コピー数の減少)のメチル化レベル(メチル化レベル:54.0%)よりも低かった。ケースTBR3032の場合、本発明を使用して測定した染色体5pアームのメチル化レベル(コピー数の増加)は46.5%であり、染色体5qアームのメチル化レベル(コピー数の減少)(メチル化レベル:54.9%)よりも低かった。 Therefore, methylation profiles and copy number profiles can be analyzed simultaneously. In this example, since the tumor purity of tumor tissue is generally not always 100%, the amplified regions have a relatively increased tumor DNA contribution, and the deleted regions have a relatively increased tumor DNA contribution. relatively decrease. Since tumor genomes are characterized by global hypomethylation, the amplified regions have even lower levels of methylation compared to the deleted regions. As an illustration, for case TBR3033, the methylation level of chromosome 22 (increase in copy number) measured using the present invention was 48.2% and the methylation of chromosome 3 (decrease in copy number) was 48.2%. level (methylation level: 54.0%). For case TBR3032, the chromosome 5p arm methylation level (copy number increase) measured using the present invention was 46.5%, and the chromosome 5q arm methylation level (copy number decrease) (methylation level: 54.9%).

2.妊婦の血漿DNA組織マッピング
図58に示されるように、メチル化分析の精度により、妊婦の血漿DNAメチル化プロファイルを、異なる参照組織(例えば、肝臓、好中球、リンパ球、胎盤、T細胞、B細胞、心臓、脳など)のメチル化プロファイルと比較できると考えた。したがって、異なる細胞型からの妊婦の血漿DNAプールにおけるDNAの寄与は、以下の手順を使用して推定することができる。本開示に存在する実施形態に従って決定されたDNA混合物(例えば、血漿DNA)のCpGメチル化レベルを、ベクター(X)に記録し、異なる組織にわたって検索された参照メチル化レベルを、定量(限定されないが、バイサルファイト配列決定)することができるマトリックス(M)に記録した。異なる組織からDNA混合物への比例的な寄与(proportional contribution、p)は、限定されないが、二次計画法によって解くことができる。ここでは、数学的な方程式を使用してDNA混合物への異なる臓器の比例的な寄与の推定を説明する。DNA混合物中の異なる部位のメチル化密度と、異なる組織中の対応する部位のメチル化密度との間の数学的関係を以下のように表すことができる。

Figure 0007264534000001
式中、
Figure 0007264534000002
は、DNA混合物中のCpG部位iのメチル化密度を表し、pは、DNA混合物に対する細胞型kの比例的な寄与を表し、Mikは、細胞型kのCpG部位iのメチル化密度を表す。部位の数が臓器の数と同じかそれより多い場合、個々のp値を決定することができる。有益性を改善するため、CpG部位で、すべての参照組織型にわたってメチル化レベルが小さな変動を示すものを除外した。一実施形態では、特定のCpG部位のセットを使用して、分析を実施した。例えば、様々な組織にわたるメチル化レベルの変動係数(CV)が30%を超えていること、および組織間の最大メチル化レベルと最小メチル化レベルとの間の差が25%を超えていることによって、それらのCpG部位を特徴付けた。一部の他の実施形態では、5%、10%、20%、30%、40%、50%、60%、80%、90%、100%、110%、200%、300%などのCVも使用することができ、5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、100%などを超える組織間の最大メチル化レベルと最小メチル化レベルとの間の差を使用することができる。 2. Plasma DNA Tissue Mapping in Pregnant Women As shown in Figure 58, the accuracy of the methylation analysis allowed the plasma DNA methylation profiles in pregnant women to be mapped to different reference tissues (e.g., liver, neutrophils, lymphocytes, placenta, T cells, (B cells, heart, brain, etc.). Therefore, DNA contributions in the maternal plasma DNA pool from different cell types can be estimated using the following procedure. CpG methylation levels of DNA mixtures (e.g., plasma DNA) determined according to embodiments present in the present disclosure are recorded in vector (X) and reference methylation levels retrieved across different tissues are quantified (without limitation were recorded in a matrix (M) that can be bisulfite-sequenced). The proportional contribution (p) from different tissues to the DNA mixture can be solved by, but not limited to, quadratic programming. Here we describe the estimation of the proportional contributions of different organs to the DNA mixture using mathematical equations. A mathematical relationship between the methylation densities of different sites in a DNA mixture and the methylation densities of corresponding sites in different tissues can be expressed as follows.
Figure 0007264534000001
During the ceremony,
Figure 0007264534000002
is the methylation density of CpG site i in the DNA mixture, pk is the proportional contribution of cell type k to the DNA mixture, and Mik is the methylation density of CpG site i in cell type k. show. If the number of sites is equal to or greater than the number of organs, individual pk values can be determined. To improve the informativeness, CpG sites showing small variations in methylation levels across all reference tissue types were excluded. In one embodiment, analysis was performed using a specific set of CpG sites. For example, the coefficient of variation (CV) of methylation levels across different tissues is greater than 30% and the difference between maximum and minimum methylation levels between tissues is greater than 25%. characterized their CpG sites by In some other embodiments, CV such as 5%, 10%, 20%, 30%, 40%, 50%, 60%, 80%, 90%, 100%, 110%, 200%, 300% can also be used, interstitial greater than 5%, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100%, etc. can be used.

追加の基準を、精度を改善するためのアルゴリズムに含めることができる。例えば、すべての細胞型の集約された寄与が100%になるように制約され得る。すなわち、
Σ=100%
さらに、すべての臓器の寄与は、非負値である必要がある。
≧0、∀k
Additional criteria can be included in the algorithm to improve accuracy. For example, the aggregate contribution of all cell types can be constrained to be 100%. i.e.
Σ k p k = 100%
Furthermore, all organ contributions must be non-negative.
P k ≥ 0, ∀k

生物学的変化により、観察された全体的なメチル化パターンは、組織のメチル化から推定されたメチル化パターンと完全に同一でなくてもよい。そのような状況では、個々の組織の最も可能性の高い比例的な寄与を決定するために数学的な分析が必要とされる。これに関して、DNAにおいて観察されたメチル化パターンと組織から推定されたメチル化パターンとの間の差は、Wで示される。

Figure 0007264534000003
Due to biological variations, the observed global methylation pattern may not be exactly the same as that deduced from tissue methylation. In such situations, mathematical analysis is required to determine the most likely proportional contributions of individual tissues. In this regard, the difference between the methylation pattern observed in DNA and the methylation pattern deduced from tissue is indicated by W.
Figure 0007264534000003

各pの最もありそうな値は、観察されたメチル化パターンと推定されたメチル化パターンとの間の差であるWを最小化することによって決定することができる。この方程式は、数学的アルゴリズムを使用して解くことができ、例えば、限定されないが、二次計画法、線形/非線形回帰、期待値最大化(EM)アルゴリズム、最尤推定アルゴリズム、最大事後確率推定、および最小二乗法を使用することができる。 The most likely value for each p k can be determined by minimizing W, the difference between the observed and predicted methylation patterns. This equation can be solved using mathematical algorithms such as, but not limited to, quadratic programming, linear/nonlinear regression, expectation maximization (EM) algorithms, maximum likelihood estimation algorithms, maximum posterior probability estimation. , and the least squares method can be used.

図59に示すように、図58に示す血漿DNA組織マッピングの方法を使用して、男性の胎児を有する妊婦の母体血漿への胎盤DNAの寄与が、Y染色体リードにより推定された胎児DNA画分とよく相関していることが観察された。この結果は、妊婦の血漿DNAの起源の組織を追跡するために動態を使用する実行可能性を示唆した。 As shown in Figure 59, using the method of plasma DNA tissue mapping shown in Figure 58, the contribution of placental DNA to the maternal plasma of pregnant women with male fetuses was estimated by Y-chromosome reads. was observed to correlate well with This result suggested the feasibility of using kinetics to trace the tissue of origin of plasma DNA in pregnant women.

3.領域のメチル化レベルの定量
このセクションでは、選択したゲノム領域のメチル化の代表的なレベルを決定するための技術について説明する。これは、比較的低レベルの配列決定を使用して実行され得る。メチル化レベルは、メチル化部位の数とメチル化部位の総数とを使用して、鎖ごと、分子ごと、または領域ごとに決定され得る。様々な組織のメチル化レベルも分析される。
3. Quantification of Methylation Levels of Regions This section describes techniques for determining representative levels of methylation of selected genomic regions. This can be done using relatively low-level sequencing. Methylation levels can be determined on a chain-by-strand, molecule-by-molecule, or region-by-region basis using the number of methylation sites and the total number of methylation sites. Methylation levels of various tissues are also analyzed.

11個のヒト組織DNA試料を、試料あたり中央値が3,070万個のサブリード(範囲:9.1~8,860万個)に配列決定し、ヒト参照ゲノム(hg19)に整列され得る。各試料のサブリードは、中央値が380万個のPacific Biosciences Single Molecular Real-Time(SMRT)配列決定ウェル(範囲:110~1150万個)から生成され、各ウェルには、ヒト参照ゲノムに整列し得るサブリードが、少なくとも1つ含有された。平均して、SMRTウェル内の各分子は、平均9.9回配列決定された(範囲:6.5~13.4回)。ヒト組織のDNA試料には、妊娠中の対象の母体バフィーコート試料が1つ、胎盤試料が1つ、肝細胞癌(HCC)腫瘍組織が2つ、前述の2つのHCC組織とペアの隣接する非腫瘍組織が2つ、健康な対照の対象のバフィーコート試料が4つ(M1およびM2は男性対象から、F1およびF2は女性対象から)、HCC細胞株(HepG2)が1つ、含まれていた。配列決定データの要約の詳細を、図60に示す。 Eleven human tissue DNA samples can be sequenced to a median of 30.7 million subreads per sample (range: 9.1-88.6 million) and aligned to the human reference genome (hg19). Subreads for each sample were generated from Pacific Biosciences Single Molecular Real-Time (SMRT) sequencing wells with a median of 3.8 million (range: 1.1-11.5 million), each well aligned to the human reference genome. At least one subread obtained was included. On average, each molecule in an SMRT well was sequenced an average of 9.9 times (range: 6.5-13.4 times). Human tissue DNA samples included 1 maternal buffy coat sample from pregnant subjects, 1 placental sample, 2 hepatocellular carcinoma (HCC) tumor tissues, and two adjacent HCC tissues paired as previously described. Two non-tumor tissues, four buffy coat samples from healthy control subjects (M1 and M2 from male subjects, F1 and F2 from female subjects), and one HCC cell line (HepG2) were included. rice field. Details of the sequencing data summary are shown in FIG.

図60は、最初の列に異なる組織グループを示し、2番目の列に試料名を示している。「総サブリード」は、ワトソン鎖およびクリック鎖からのものを含む、SMRTウェルから生成された配列の総数を示す。「マッピングされたサブリード」は、ヒト参照ゲノムに整列することができたサブリードの数を列挙する。「サブリードマッピング可能性」とは、ヒト参照ゲノムに整列できたサブリードの割合を指す。「SMRTウェルあたりの平均サブリード深度」は、各SMRTウェルから生成されたサブリードの平均数を示す。「SMRTウェルの数」とは、検出可能なサブリードを生成したSMRTウェルの数を指す。「マッピング可能なウェル」は、少なくとも1つの整列可能なサブリードを含有するウェルの数を示す。「マッピング可能なウェルの比率(%)」は、少なくとも1つの整列可能なサブリードを含有するウェルのパーセンテージである。 FIG. 60 shows different tissue groups in the first column and sample names in the second column. "Total subreads" indicates the total number of sequences generated from SMRT wells, including those from Watson and Crick strands. "Mapped subreads" lists the number of subreads that could be aligned to the human reference genome. "Subread mappability" refers to the percentage of subreads that could be aligned to the human reference genome. "Average sub-read depth per SMRT well" indicates the average number of sub-reads generated from each SMRT well. "Number of SMRT wells" refers to the number of SMRT wells that generated detectable subreads. "Mappable wells" indicates the number of wells containing at least one alignable subread. "% mappable wells" is the percentage of wells containing at least one alignable subread.

a)メチル化レベルおよびパターン分析技術
一実施形態では、単一の核酸鎖(例えば、DNAまたはRNA)のメチル化密度を測定することができ、鎖内のメチル化塩基の数をその鎖内のメチル化可能な塩基の総数で割ったものとして定義される。この測定値は、「一本鎖メチル化レベル」とも呼ばれる。単一分子リアルタイム配列決定プラットフォームは、二本鎖DNA分子の2本の鎖の各々から配列決定情報を取得できるので、この一本鎖測定は、本開示の文脈において特に実行可能である。これは、配列決定ライブラリを調製する際にヘアピンアダプターを使用することで容易になり、二本鎖DNA分子のワトソン鎖およびクリック鎖が環状の形態で結合されて、一緒に配列決定されるようになる。実際、この構造により、同じ二本鎖DNA分子のパートナーとなるワトソン鎖とクリック鎖を、同じ反応で配列決定することができるため、任意の二本鎖DNA分子のワトソン鎖とクリック鎖の対応する相補部位のメチル化状態を、個別に決定し、直接比較することができる(例えば、図20Aおよび20B)。
a) Methylation Level and Pattern Analysis Techniques In one embodiment, the methylation density of a single nucleic acid strand (e.g., DNA or RNA) can be measured, and the number of methylated bases in the strand is Defined as divided by the total number of methylatable bases. This measurement is also called "single-strand methylation level". This single-strand measurement is particularly feasible in the context of the present disclosure, as single-molecule real-time sequencing platforms can obtain sequencing information from each of the two strands of a double-stranded DNA molecule. This is facilitated by the use of hairpin adapters in preparing the sequencing library so that the Watson and Crick strands of the double-stranded DNA molecule are attached in a circular fashion and sequenced together. Become. In fact, this structure allows the partnered Watson and Crick strands of the same double-stranded DNA molecule to be sequenced in the same reaction, thus allowing the matching of the Watson and Crick strands of any double-stranded DNA molecule. The methylation status of complementary sites can be determined individually and compared directly (eg Figures 20A and 20B).

これらの鎖ベースのメチル化分析は、他の技術では容易に達成することができなかった。この出願に開示されている直接的なメチル化分析法を使用しなければ、例えば、バイサルファイト変換によってメチル化塩基を非メチル化塩基から区別するために、別の手段を適用する必要がある。バイサルファイト変換では、メチル化シトシンと非メチル化シトシンをそれぞれシトシンとチミンとして区別できるように、DNAを亜硫酸水素ナトリウムで処理する必要がある。多くのバイサルファイト変換プロトコルの変性条件下では、二本鎖DNA分子の2本の鎖が互いに解離する。多くの配列決定の用途では、例えば、Illuminaプラットフォームを使用して、バイサルファイトで変換されたDNAが、次いでポリメラーゼ連鎖反応(PCR)によって増幅され、二本鎖DNAの一本鎖への解離を伴う。 These strand-based methylation analyzes could not be easily achieved with other techniques. Without using the direct methylation analysis methods disclosed in this application, other means would need to be applied to distinguish methylated from unmethylated bases, for example by bisulfite conversion. Bisulfite conversion requires treatment of DNA with sodium bisulfite so that methylated and unmethylated cytosines can be distinguished as cytosines and thymines, respectively. Under the denaturing conditions of many bisulfite conversion protocols, the two strands of a double-stranded DNA molecule dissociate from each other. In many sequencing applications, for example, using the Illumina platform, the bisulfite-converted DNA is then amplified by the polymerase chain reaction (PCR), with the dissociation of the double-stranded DNA into single strands. .

イルミナ配列決定では、バイサルファイト変換の前に、メチル化アダプターを使用して、PCRを使わずに配列決定ライブラリを調製することができる。この戦略を使用しても、二本鎖DNA分子の各DNA鎖は、フローセルでのブリッジ増幅のためにランダムに選択される。配列決定のランダムな性質により、同じDNA分子由来の各鎖が同じ反応で配列決定される可能性はほとんどない。同じ遺伝子座から読み取られた2つ以上の配列が同じ実行で分析されたとしても、2つのリードが1つの二本鎖DNA分子のパートナーのワトソン鎖とクリック鎖の各々からのものか、または2つの異なる二本鎖DNA分子からのものかを決定する簡単な手段はない。本発明の特定の実施形態では、二本鎖DNA分子の2本の鎖が異なるメチル化パターンを示す可能性があるため、このような考慮が重要である。複数の核酸鎖(例えば、DNAまたはRNA)の一本鎖メチル化密度が測定される場合、図61の「目的のゲノム領域のメチル化レベル」に関する概念および式に基づいて「多鎖メチル化レベル」を決定することもできる。 In Illumina sequencing, methylated adapters can be used prior to bisulfite conversion to prepare sequencing libraries without PCR. Using this strategy, each DNA strand of a double-stranded DNA molecule is also randomly selected for bridge amplification in the flow cell. Due to the random nature of sequencing, it is highly unlikely that each strand from the same DNA molecule will be sequenced in the same reaction. Even if two or more sequences read from the same locus are analyzed in the same run, two reads are from each of the partner Watson and Crick strands of one double-stranded DNA molecule, or two There is no easy way to determine which is from two different double-stranded DNA molecules. Such considerations are important because, in certain embodiments of the invention, the two strands of a double-stranded DNA molecule may exhibit different methylation patterns. When single-strand methylation densities of multiple nucleic acid strands (e.g., DNA or RNA) are measured, the concept and formula for "Methylation level of genomic region of interest" in FIG. ' can also be determined.

図61は、メチル化パターンを分析する様々な方法を示している。配列およびメチル化情報が未知の二本鎖DNA分子(X)は、アダプターと連結され、一例では、ヘアピン・ループ構造を形成する。その結果、この例では、ワトソン鎖X(a)とクリック鎖X(b)の両方を含む、DNA分子の2つの一本鎖が、環状に物理的に結合される。ワトソン鎖とクリック鎖の両方の部位のメチル化状態は、本開示に記載の方法を使用して取得することができる(例えば、動態、電子、電磁気、光信号、またはシーケンサーからの他の種類の物理的信号を使用する)。環状化DNA分子のワトソン鎖およびクリック鎖は、同じ反応で調べることができる。配列決定後、アダプター配列は除かれる。 FIG. 61 shows various methods of analyzing methylation patterns. A double-stranded DNA molecule (X) with unknown sequence and methylation information is ligated with an adapter, forming, in one example, a hairpin-loop structure. As a result, in this example, the two single strands of the DNA molecule, including both Watson strand X (a) and Crick strand X (b), are physically joined in a circle. The methylation status of sites on both Watson and Crick strands can be obtained using methods described in this disclosure (e.g., kinetic, electronic, electromagnetic, optical signals, or other types of using physical signals). Watson and Crick strands of circularized DNA molecules can be examined in the same reaction. After sequencing, adapter sequences are removed.

分析から、異なるメチル化レベルが決定され得る。図61の(I)では、X(a)またはX(b)のいずれかなど、一本鎖分子のみのメチル化パターンを分析することができる。この分析は、一本鎖メチル化パターン分析と呼ぶことができる。分析には、限定されないが、部位のメチル化状態またはメチル化パターンの決定が含まれ得る。図61では、一本鎖分子X(a)は、メチル化パターン5’-UMMUU-3’を示し、「U」は、非メチル化部位を示し、「M」は、メチル化部位を示し、一方、その相補的な一本鎖分子X(b)は、はメチル化パターン3’-UMUUU-5’を示す。したがって、X(b)は、X(a)とは異なるメチル化パターンを有する。X(a)およびX(b)の対応する一本鎖メチル化レベルは、それぞれ40%および20%である。 From the analysis different methylation levels can be determined. In (I) of FIG. 61, the methylation pattern of only single-stranded molecules, such as either X(a) or X(b), can be analyzed. This analysis can be referred to as single-strand methylation pattern analysis. Analysis can include, but is not limited to, determining the methylation state or pattern of a site. In FIG. 61, single-stranded molecule X(a) shows the methylation pattern 5′-UMMUU-3′, where “U” indicates unmethylated sites, “M” indicates methylated sites, On the other hand, its complementary single-stranded molecule X(b) exhibits the methylation pattern 3'-UMUUU-5'. Therefore, X(b) has a different methylation pattern than X(a). The corresponding single-strand methylation levels of X(a) and X(b) are 40% and 20%, respectively.

対照的に、(II)に示すように、単一の二本鎖DNA分子レベルでメチル化パターンを分析することができる(すなわち、ワトソン鎖およびクリック鎖の両方のメチル化パターンを考慮する)。この分析は、単一分子二本鎖DNAのメチル化パターン分析と呼ぶことができる。この例示的な分子Xの単一分子二本鎖DNAのメチル化レベルは、30%である。この分析の1つのバリアントである、ワトソン鎖とクリック鎖の両方からの動態信号を組み合わせて、修飾を分析する。特に、CpG部位のメチル化は、一般に対称的であるため、部位のメチル化状態を決定する前に、ワトソン鎖およびクリック鎖からの動態信号を、部位について組み合わせることができる。状況によっては、分子のワトソン鎖およびクリック鎖からの組み合わされた動態信号を使用して塩基修飾を決定する性能は、一本鎖の動態信号を独立して使用する性能よりも優れている。例えば、図20Bに示されるように、ワトソン鎖およびクリック鎖を含む両方の鎖からの動態信号を組み合わせて使用することで、一本鎖を独立して使用するのと比較して(AUC:0.85)、試験データセットにおいてより大きなAUC(0.90)を与える。 In contrast, as shown in (II), methylation patterns can be analyzed at the level of single double-stranded DNA molecules (ie, both Watson and Crick strand methylation patterns are considered). This analysis can be referred to as methylation pattern analysis of single-molecule double-stranded DNA. The methylation level of single-molecule double-stranded DNA of this exemplary molecule X is 30%. In one variant of this analysis, kinetic signals from both Watson and Crick strands are combined to analyze modifications. In particular, since methylation of CpG sites is generally symmetrical, kinetic signals from Watson and Crick strands can be combined for the site before determining the methylation state of the site. In some situations, the performance of determining base modifications using the combined kinetic signals from the Watson and Crick strands of the molecule is superior to the performance of using single-strand kinetic signals independently. For example, as shown in FIG. 20B, using the combined kinetic signals from both strands, including the Watson and Crick strands, compared to using the single strands independently (AUC: 0 .85), giving a larger AUC (0.90) in the test data set.

図61の(III)では、目的のゲノム領域のメチル化レベルが決定され、異なる分子サイズおよび異なる数のメチル化可能部位(例えば、CpG部位)を有する異なるDNA分子が、目的のゲノム領域に寄与し得る。この分析は、多鎖メチル化レベル分析と呼ばれることがある。「多鎖」という用語は、複数の一本鎖DNA分子、または複数の二本鎖DNA分子、またはそれらの任意の組み合わせを指し得る。この例では、目的のゲノム領域をカバーする3つの二本鎖DNA分子:分子「X」、分子「Y」、および分子「Z」があり、各々は、「a」鎖および「b」鎖を有する。この領域の対応するメチル化レベルは、9/28、すなわち、32%である。分析されるゲノム領域のサイズは、1nt、10nt、20nt、30nt、40nt、50nt、100nt、1knt(キロヌクレオチド、すなわち、1000ヌクレオチド)、2knt、3knt、4knt、5knt、10knt、20knt、30knt、40knt、50knt、100knt、200knt、300knt、400knt、500knt、1Mnt(メガヌクレオチド、すなわち、100万ヌクレオチド)、2Mnt、3Mnt、4Mnt、5Mnt、10Mnt、20Mnt、30Mnt、40Mnt、50Mnt、100Mnt、または200Mntのサイズを有し得る。ゲノム領域は、染色体アームまたは全ゲノムであり得る。 In FIG. 61 (III), the methylation level of the genomic region of interest is determined, and different DNA molecules with different molecular sizes and different numbers of methylatable sites (e.g., CpG sites) contribute to the genomic region of interest. can. This analysis is sometimes referred to as multi-chain methylation level analysis. The term "multi-stranded" can refer to multiple single-stranded DNA molecules, or multiple double-stranded DNA molecules, or any combination thereof. In this example, there are three double-stranded DNA molecules covering the genomic region of interest: molecule 'X', molecule 'Y', and molecule 'Z', each representing an 'a' strand and a 'b' strand. have. The corresponding methylation level of this region is 9/28, or 32%. The size of the genomic region analyzed is 1 nt, 10 nt, 20 nt, 30 nt, 40 nt, 50 nt, 100 nt, 1 knt (kilonucleotides, i.e. 1000 nucleotides), 2 knt, 3 knt, 4 knt, 5 knt, 10 knt, 20 knt, 30 knt, 40 knt, having a size of 50 knt, 100 knt, 200 knt, 300 knt, 400 knt, 500 knt, 1 Mnt (meganucleotides, i.e., one million nucleotides), 2 Mnt, 3 Mnt, 4 Mnt, 5 Mnt, 10 Mnt, 20 Mnt, 30 Mnt, 40 Mnt, 50 Mnt, 100 Mnt, or 200 Mnt can. A genomic region can be a chromosomal arm or the entire genome.

メチル化パターンは、分子内の部位のメチル化状態を決定した後に決定することもできる。例えば、単一の二本鎖DNA分子上に3つの連続したCpG部位があるシナリオでは、ワトソン鎖とクリック鎖の各々のメチル化パターンは、3つの部位について、メチル化(M)、非メチル化(N)、およびメチル化(M)が明らかにされ得る。このパターン、例えば、ワトソン鎖についてMNMは、この領域のワトソン鎖の「メチル化ハプロタイプ」と呼ぶことができる。DNAのメチル化維持活性が存在するため、二本鎖DNA分子のワトソン鎖およびクリック鎖のメチル化パターンは、互いに相補的であり得る。例えば、ワトソン鎖のCpG部位がメチル化されている場合、クリック鎖の相補的なCpG部位もメチル化されている可能性がある。同様に、ワトソン鎖の非メチル化CpG部位は、クリック鎖の非メチル化CpG部位と相補的である可能性がある。 Methylation patterns can also be determined after determining the methylation status of sites within the molecule. For example, in a scenario with three consecutive CpG sites on a single double-stranded DNA molecule, the methylation patterns of each of the Watson and Crick strands are methylated (M), unmethylated (N), and methylation (M) can be revealed. This pattern, eg, MNM for Watson strand, can be referred to as the "methylation haplotype" of Watson strand in this region. Due to the presence of DNA methylation maintenance activity, the methylation patterns of the Watson and Crick strands of a double-stranded DNA molecule can be complementary to each other. For example, if the CpG site of the Watson strand is methylated, the complementary CpG site of the Crick strand may also be methylated. Similarly, the unmethylated CpG site of the Watson strand can be complementary to the unmethylated CpG site of the Crick strand.

一実施形態では、単一のDNA分子のメチル化レベルを測定することができ、これは、分子内のメチル化された塩基またはヌクレオチドの数を、その分子内のメチル化可能な塩基またはヌクレオチドの総数で割ったものとして定義される。この測定値は、「単一分子メチル化レベル」とも呼ばれる。この単一分子測定は、単一分子リアルタイム配列決定プラットフォームで可能なロングリードの鎖長のために、本開示の文脈において特に有用であり得る。複数のDNA分子の単一分子のメチル化レベルを測定する場合、図61の概念および式に基づいて、「複数分子のメチル化レベル」を決定することもできる。例えば、「複数分子のメチル化レベル」は、単一分子のメチル化レベルの平均または中央値であり得る。 In one embodiment, the methylation level of a single DNA molecule can be measured, which measures the number of methylated bases or nucleotides in the molecule versus the number of methylatable bases or nucleotides in that molecule. Defined as divided by the total number. This measurement is also called the "single-molecule methylation level". This single-molecule measurement may be particularly useful in the context of the present disclosure due to the length of long reads possible on single-molecule real-time sequencing platforms. When measuring single-molecule methylation levels of multiple DNA molecules, a "multi-molecular methylation level" can also be determined based on the concepts and formulas of FIG. For example, "methylation level of multiple molecules" can be the average or median methylation level of a single molecule.

一部の実施形態では、1つ以上の遺伝的多型(例えば、一塩基多型(SNP))を、分子上の部位のメチル化状態とともにDNA分子に対して分析することができ、したがって、その分子の遺伝的およびエピジェネティックな情報の両方が明らかになる。このような分析により、分析されたDNA分子の「段階的メチル化ハプロタイプ」が明らかになる。段階的メチル化ハプロタイプ分析は、例えば、母体血漿中のゲノムインプリンティングおよび無細胞核酸(母体および胎児の遺伝的およびエピジェネティックな特性を有する無細胞DNA分子の混合物を含有する)の研究に有用である。 In some embodiments, one or more genetic polymorphisms (e.g., single nucleotide polymorphisms (SNPs)) can be analyzed for a DNA molecule along with the methylation status of sites on the molecule, thus Both the genetic and epigenetic information of the molecule are revealed. Such analysis reveals "graded methylation haplotypes" of the analyzed DNA molecule. Graded methylation haplotype analysis is useful, for example, in studying genomic imprinting in maternal plasma and cell-free nucleic acids (which contain a mixture of cell-free DNA molecules with maternal and fetal genetic and epigenetic properties). be.

b)メチル化結果の比較
図60の表の組織の全ゲノムレベルでのメチル化密度は、本開示に記載されるように、バイサルファイト配列決定および単一分子リアルタイム配列決定を使用して決定される。図62Aは、y軸にバイサルファイト配列決定によって定量されたメチル化密度を示し、x軸に組織型を示す。図62Bは、本開示に記載されている単一分子リアルタイム配列決定により定量したメチル化密度をy軸に示し、組織型をx軸に示す。
b) Comparison of Methylation Results Methylation densities at the genome-wide level for the tissues in the table of FIG. 60 were determined using bisulfite sequencing and single-molecule real-time sequencing, as described in this disclosure. be. FIG. 62A shows methylation density quantified by bisulfite sequencing on the y-axis and tissue type on the x-axis. FIG. 62B shows methylation density on the y-axis and tissue type on the x-axis as quantified by single-molecule real-time sequencing as described in this disclosure.

図62Aは、バイサルファイト配列決定を使用した異なる組織にわたるメチル化密度を示し(すなわち、試料はバイサルファイト変換され、次いでイルミナ配列決定にかけられた)(Lister et al.Nature.2009;462:315-322)、HepG2、HCC腫瘍組織、一致するHCC腫瘍に隣接した正常な肝臓組織(すなわち、隣接する正常組織)、胎盤組織、およびバフィーコート試料を含んだ。HepG2は、メチル化レベルが40.4%であり、最低のメチル化レベルを示した。バフィーコート試料は、メチル化レベルが76.5%であり、最高のメチル化レベルを示した。HCC腫瘍組織の平均メチル化密度(51.2%)は、一致する隣接する正常組織の平均メチル化密度(71.0%)よりも低いことがわかった。これは、HCCの腫瘍が、隣接する正常組織と比較して、ゲノム全体のレベルで低メチル化されているという予想と一致している(Ross et al.Epigenomics.2010;2:245-69)。データセットは、Sequel II Sequencing Kit 1.0によって調製されたDNAから生成された。 Figure 62A shows methylation densities across different tissues using bisulfite sequencing (i.e., samples were bisulfite converted and then subjected to Illumina sequencing) (Lister et al. Nature. 2009;462:315- 322), HepG2, HCC tumor tissue, matched HCC tumor-adjacent normal liver tissue (ie, adjacent normal tissue), placental tissue, and buffy coat samples. HepG2 showed the lowest methylation level with a methylation level of 40.4%. The buffy coat sample showed the highest methylation level with a methylation level of 76.5%. The average methylation density of HCC tumor tissue (51.2%) was found to be lower than that of matched adjacent normal tissue (71.0%). This is consistent with the expectation that HCC tumors are hypomethylated at the genome-wide level compared to adjacent normal tissue (Ross et al. Epigenomics. 2010; 2:245-69). . The dataset was generated from DNA prepared by Sequel II Sequencing Kit 1.0.

同じ組織の一部を、単一分子リアルタイム配列決定、および本開示による方法を使用してメチル化分析にかけた。結果を図62Bに示す。本開示の単一分子リアルタイム配列決定法を使用するメチル化分析から、HepG2細胞株が最も低メチル化され、続いて分析されたHCC腫瘍組織、さらに続いて胎盤組織が低メチル化されていることを示すことができた。隣接する非腫瘍性肝臓組織試料は、HCCおよび胎盤組織を含む他の組織よりもメチル化されており、バフィーコートで最も高メチル化されていた。 A portion of the same tissue was subjected to single-molecule real-time sequencing and methylation analysis using methods according to the present disclosure. The results are shown in Figure 62B. From methylation analysis using the single-molecule real-time sequencing method of the present disclosure, the HepG2 cell line was the most hypomethylated, followed by the analyzed HCC tumor tissue, followed by the placental tissue. was able to show Adjacent non-neoplastic liver tissue samples were more methylated than other tissues, including HCC and placental tissue, with the buffy coat being the most hypermethylated.

図63A、63B、および63Cは、本明細書に記載の方法による、バイサルファイト配列決定および単一分子リアルタイム配列決定によって定量された全体的なメチル化レベルの相関を示す。図63Aは、x軸に、バイサルファイト配列決定によって定量されたメチル化レベル、およびy軸に、本明細書に記載の方法を使用した単一分子リアルタイム配列決定によって定量されたメチル化レベルを示す。黒の実線は、近似した回帰直線である。破線は、2つの測定値が等しい箇所である。 Figures 63A, 63B, and 63C show the correlation of global methylation levels quantified by bisulfite sequencing and single-molecule real-time sequencing according to the methods described herein. FIG. 63A shows methylation levels quantified by bisulfite sequencing on the x-axis and methylation levels quantified by single-molecule real-time sequencing using the methods described herein on the y-axis. . The solid black line is the fitted regression line. The dashed line is where the two measurements are equal.

バイサルファイト配列決定と本明細書に開示された本発明による単一分子リアルタイム配列決定との間のメチル化レベルには、非常に高い相関があった(r=0.99、P値<0.0001)。これらのデータは、本明細書に開示される単一分子リアルタイム配列決定法を使用するメチル化分析が、組織間のメチル化レベルを決定するために効果的な手段であり、これらの組織間のメチル化状態とメチル化プロファイルとの比較を可能にしたことを示した。メチル化レベルの2つの測定値について、図63Aの回帰直線の傾きが1からずれていることに注目した。これらの結果は、2つの測定値間に偏差があり(一部の文脈では、この偏差はバイアスと呼ばれることがある)、従来の超並列バイサルファイト配列決定と比較して、本開示による単一分子リアルタイム配列決定を使用したメチル化レベルの決定に存在する可能性があることを示唆した。 There was a very high correlation between methylation levels between bisulfite sequencing and single-molecule real-time sequencing according to the invention disclosed herein (r=0.99, P-value<0. 0001). These data demonstrate that methylation analysis using the single-molecule real-time sequencing method disclosed herein is an effective tool for determining methylation levels between tissues, and that It was shown that it enabled the comparison between methylation status and methylation profile. It was noted that the slope of the regression line in FIG. 63A deviated from 1 for the two measurements of methylation level. These results indicate that there is a deviation between the two measurements (in some contexts this deviation may be referred to as a bias), and compared with conventional massively parallel bisulfite sequencing, a single suggested that it may be present in determining methylation levels using molecular real-time sequencing.

一実施形態では、線形またはLOESS(局所的に重み付けされた平滑化)回帰を使用して、バイアスを定量することができる。一例として、超並列バイサルファイト配列決定(イルミナ)を参照とみなした場合、本開示に従って単一分子リアルタイム配列決定で決定された結果は、回帰係数を使用して変換することができ、異なるプラットフォーム間で読み出しを調整することができる。図63Aでは、線形回帰式はY=aX+bであり、式中、「Y」は、本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベルを表した、「X」は、バイサルファイト配列決定によって決定されたメチル化レベルを表し、「a」は、回帰直線の傾きを表し(例えば、a=0.62)、「b」は、y軸の切片を表した(例えば、b=17.72)。この場合、単一分子リアルタイム配列決定によって決定される調整済みメチル化値は、(Y-b)/aによって計算される。別の実施形態では、2つの測定値の偏差(ΔM)と2つの測定値の対応する平均

Figure 0007264534000004
との間の関係を使用することができ、以下の式(1)および(2)によって定義された。
Figure 0007264534000005
式中、「S」は、本発明による単一分子リアルタイム配列決定によって決定されるメチル化レベルを表し、「バイサルファイトベースのメチル化」は、バイサルファイト配列決定によって決定されるメチル化レベルを表す。 In one embodiment, linear or LOESS (locally weighted smoothing) regression can be used to quantify bias. As an example, if massively parallel bisulfite sequencing (Illumina) is taken as a reference, results determined in single-molecule real-time sequencing according to the present disclosure can be transformed using regression coefficients and between different platforms. You can adjust the readout with . In FIG. 63A, the linear regression equation is Y=aX+b, where “Y” represents the methylation level determined by single-molecule real-time sequencing according to the present disclosure, “X” is the bisulfite sequence Represents the methylation level determined by the assay, where 'a' represents the slope of the regression line (e.g. a=0.62) and 'b' represents the y-axis intercept (e.g. b=17 .72). In this case, the adjusted methylation value determined by single-molecule real-time sequencing is calculated by (Yb)/a. In another embodiment, the deviation (ΔM) of the two measurements and the corresponding average of the two measurements
Figure 0007264534000004
can be used, defined by equations (1) and (2) below.
Figure 0007264534000005
where "S" represents methylation levels determined by single-molecule real-time sequencing according to the present invention, and "bisulfite-based methylation" represents methylation levels determined by bisulfite sequencing. .

図63Bは、ΔMと

Figure 0007264534000006
との間の関係を示す。2つの測定値の平均
Figure 0007264534000007
は、x軸にプロットされ、2つの測定値間の偏差(ΔM)は、y軸にプロットされる。破線は、水平にゼロを横切る線を表し、データポイントは、2つの測定値間に差がないことを示唆している。これらの結果は、平均値に応じて偏差が異なることを示唆した。2つの測定値の平均が高いほど、偏差の大きさが大きくなる。ΔM値の中央値は-8.5%(範囲:-12.6%~+2.5%)であり、方法間に不一致が存在することを示唆している。 FIG. 63B shows ΔM and
Figure 0007264534000006
indicates the relationship between Average of two measurements
Figure 0007264534000007
is plotted on the x-axis and the deviation (ΔM) between the two measurements is plotted on the y-axis. The dashed line represents a line crossing zero horizontally and the data points suggest no difference between the two measurements. These results suggested different deviations depending on the mean. The higher the average of the two measurements, the greater the magnitude of the deviation. The median ΔM value was −8.5% (range: −12.6% to +2.5%), suggesting that there is discrepancy between methods.

図63Cは、2つの測定値の平均

Figure 0007264534000008
をx軸に、相対偏差(RD)をy軸に示す。相対偏差は、以下の式によって定義される。
Figure 0007264534000009
破線は、水平にゼロを横切る線を表し、データポイントは、2つの測定値間に差がないことを示唆している。これらの結果は、相対偏差が平均値に応じて異なることを示唆した。2つの測定値の平均が大きいほど、相対偏差の大きさが大きくなる。RD値の中央値は、-12.5%であった(範囲:-18.1%~+6.0%)。 Figure 63C is the average of two measurements
Figure 0007264534000008
is shown on the x-axis and the relative deviation (RD) on the y-axis. Relative deviation is defined by the following equation.
Figure 0007264534000009
The dashed line represents a line crossing zero horizontally and the data points suggest no difference between the two measurements. These results suggested that the relative deviations differed according to mean values. The greater the average of the two measurements, the greater the magnitude of the relative deviation. The median RD value was −12.5% (range: −18.1% to +6.0%).

従来の全ゲノムバイサルファイト配列決定(Illumina)は、特定のゲノム領域では、方法間でメチル化レベルの定量にかなりの変動があり、著しくバイアスのある配列出力と過大評価された全体的なメチル化を導入することが報告された(Olova et al.Genome Biol.2018;19:33)。本明細書に開示される方法は、DNAを劇的に分解するバイサルファイト変換を用いずに実施することができ、プロセスを複雑にするか、またはメチル化レベルの決定に追加のエラーを導入する可能性があるPCR増幅を用いずに実施することができる。 Conventional whole-genome bisulfite sequencing (Illumina) has shown, in specific genomic regions, considerable variability in quantification of methylation levels between methods, resulting in significantly biased sequence output and overestimated global methylation. (Olova et al. Genome Biol. 2018; 19:33). The methods disclosed herein can be performed without bisulfite conversion, which dramatically degrades DNA, complicating the process or introducing additional errors in determining methylation levels. It can be performed without possible PCR amplification.

図64Aおよび64Bは、1Mbの分解能でのメチル化パターンを示す。図64Aは、HCC細胞株(HepG2)のメチル化パターンを示す。図64Bは、健康な対照の対象からのバフィーコート試料のメチル化パターンを示す。染色体イデオグラム(各図の最も外側のリング)は、時計回りにp末端からq末端に編成されている。外側から2番目のリング(中央のリングとも呼ばれる)は、バイサルファイト配列決定によって決定されたメチル化レベルを示している。最も内側のリングは、本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベルを示している。メチル化レベルは、5つのグレード、つまり、0~20%(薄緑)、20~40%(緑)、40~60%(青)、60~80%(薄赤)、および80~100%(赤)に分類される。図64Aおよび64Bに示されるように、1Mbの分解能でのメチル化プロファイルは、バイサルファイト配列決定(中央のトラック)と本開示による単一分子リアルタイム配列決定(最も内側のトラック)との間で一貫していた。母体バフィーコート試料のメチル化レベルは、HCC細胞株(HepG2)よりも高いことが示された。 Figures 64A and 64B show methylation patterns at 1 Mb resolution. Figure 64A shows the methylation pattern of the HCC cell line (HepG2). FIG. 64B shows the methylation pattern of buffy coat samples from healthy control subjects. Chromosome ideograms (outermost rings in each figure) are organized clockwise from p-terminus to q-terminus. The second ring from the outside (also called middle ring) shows methylation levels as determined by bisulfite sequencing. The innermost ring shows methylation levels determined by single-molecule real-time sequencing according to the present disclosure. Methylation levels were graded in five grades: 0-20% (light green), 20-40% (green), 40-60% (blue), 60-80% (light red), and 80-100%. (red). As shown in FIGS. 64A and 64B, the methylation profile at 1 Mb resolution is consistent between bisulfite sequencing (middle track) and single-molecule real-time sequencing according to the present disclosure (innermost track). Was. Methylation levels of maternal buffy coat samples were shown to be higher than HCC cell lines (HepG2).

図65Aおよび65Bは、1Mbの分解能で測定されたメチル化レベルの散布図を示す。図65Aは、HCC細胞株(HepG2)のメチル化レベルを示す。図65Bは、健康な対照の対象からのバフィーコート試料のメチル化レベルを示す。図65Aおよび図65Bの両方について、バイサルファイト配列決定によって定量されたメチル化レベルは、x軸にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはy軸にある。実線は、近似した回帰直線である。破線は、2つの測定技術が等しい箇所である。HCC細胞株の場合、1Mbの分解能での単一分子リアルタイム配列決定によって決定されたメチル化レベルは、バイサルファイト配列決定によって測定されたものとよく相関していた(r=0.99、P<0.0001)(図65A)。バフィーコート試料からのデータについても、相関が観察された(r=0.87、P<0.0001)(図65B)。 Figures 65A and 65B show scatter plots of methylation levels measured at 1 Mb resolution. FIG. 65A shows methylation levels of HCC cell line (HepG2). FIG. 65B shows methylation levels of buffy coat samples from healthy control subjects. For both Figures 65A and 65B, methylation levels quantified by bisulfite sequencing are on the x-axis and methylation levels measured by single-molecule real-time sequencing according to the present disclosure are on the y-axis. The solid line is the fitted regression line. The dashed line is where the two measurement techniques are equal. For HCC cell lines, methylation levels determined by single-molecule real-time sequencing at 1 Mb resolution correlated well with those measured by bisulfite sequencing (r=0.99, P< 0.0001) (Fig. 65A). A correlation was also observed for data from buffy coat samples (r=0.87, P<0.0001) (FIG. 65B).

図66Aおよび66Bは、100kbの分解能で測定されたメチル化レベルの散布図を示す。図66Aは、HCC細胞株(HepG2)のメチル化レベルを示す。図66Bは、健康な対照の対象からのバフィーコート試料のメチル化レベルを示す。図66Aおよび図66の両方について、バイサルファイト配列決定によって定量されたメチル化レベルはx軸上にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはy軸上にある。実線は、近似した回帰直線である。破線は、2つの測定技術が等しい箇所である。分析の分解能が100kb(または100knt)ウィンドウごとに増加した場合、1Mb(または1Mnt)の分解能での2つの方法間のメチル化定量測定値間で、高度な相関も観察された。これらすべてのデータは、本開示の単一分子のリアルタイムアプローチが、異なる程度の分解能、例えば、1Mb(または1Mnt)または100kb(または100knt)で変動するゲノム領域内のメチル化レベルまたはメチル化密度を定量するための効果的なツールであることを示している。データはまた、本発明が、領域間または試料間のメチル化プロファイルまたはメチル化パターンを評価するための効果的なツールであることを示す。 Figures 66A and 66B show scatter plots of methylation levels measured at 100 kb resolution. FIG. 66A shows methylation levels of HCC cell line (HepG2). FIG. 66B shows methylation levels of buffy coat samples from healthy control subjects. For both FIG. 66A and FIG. 66, methylation levels quantified by bisulfite sequencing are on the x-axis and methylation levels measured by single-molecule real-time sequencing according to the present disclosure are on the y-axis. The solid line is the fitted regression line. The dashed line is where the two measurement techniques are equal. A high degree of correlation was also observed between methylation quantification measurements between the two methods at 1 Mb (or 1 Mnt) resolution when the resolution of the analysis was increased by 100 kb (or 100 knt) windows. All these data demonstrate that the single-molecule real-time approach of the present disclosure can detect methylation levels or methylation densities within genomic regions varying with different degrees of resolution, e.g., 1 Mb (or 1 Mnt) or 100 kb (or 100 knt). It has been shown to be an effective tool for quantification. The data also show that the present invention is an effective tool for assessing methylation profiles or patterns between regions or samples.

図67Aおよび67Bは、1Mbの分解能でのメチル化パターンを示す。図67Aは、HCC腫瘍組織(TBR3033T)のメチル化パターンを示す。図67Bは、隣接する正常組織(TBR3033N)のメチル化パターンを示す。染色体イデオグラム(各図の最も外側のリング)は、時計回りにp末端からq末端に編成されている。外側から2番目のリング(中央のリングとも呼ばれる)は、バイサルファイト配列決定によって決定されたメチル化レベルを示している。最も内側のリングは、本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベルを示している。メチル化レベルは、5つのグレード、つまり、0~20%(薄緑)、20~40%(緑)、40~60%(青)、60~80%(薄赤)、および80~100%(赤)に分類される。図67Aに示されるように、HCC腫瘍組織DNA(TBR3033T)における低メチル化を検出することができ、図67Bの隣接する正常な肝臓組織DNA(TBR3033N)と区別することができる。バイサルファイト配列決定(中央のトラック)および本開示による単一分子リアルタイム配列決定(最も内側のトラック)によって決定されたメチル化レベルおよびメチル化パターンは一貫していた。隣接する正常組織DNAのメチル化レベルは、HCC腫瘍組織DNAのメチル化レベルよりも高いことが示された。 Figures 67A and 67B show methylation patterns at 1 Mb resolution. Figure 67A shows the methylation pattern of HCC tumor tissue (TBR3033T). Figure 67B shows the methylation pattern of adjacent normal tissue (TBR3033N). Chromosome ideograms (outermost rings in each figure) are organized clockwise from p-terminus to q-terminus. The second ring from the outside (also called middle ring) shows methylation levels as determined by bisulfite sequencing. The innermost ring shows methylation levels determined by single-molecule real-time sequencing according to the present disclosure. Methylation levels were graded in five grades: 0-20% (light green), 20-40% (green), 40-60% (blue), 60-80% (light red), and 80-100%. (red). As shown in Figure 67A, hypomethylation in HCC tumor tissue DNA (TBR3033T) can be detected and can be distinguished from adjacent normal liver tissue DNA (TBR3033N) in Figure 67B. Methylation levels and patterns determined by bisulfite sequencing (middle track) and single-molecule real-time sequencing according to the present disclosure (innermost track) were consistent. The methylation level of adjacent normal tissue DNA was shown to be higher than that of HCC tumor tissue DNA.

図68Aおよび68Bは、1Mbの分解能で測定されたメチル化レベルの散布図を示す。図68Aは、HCC腫瘍組織(TBR3033T)のメチル化レベルを示す。図68Bは、隣接する正常組織のメチル化レベルを示す。図68Aおよび図68Bの両方について、バイサルファイト配列決定によって定量されたメチル化レベルはx軸にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはy軸にある。実線は、近似した回帰直線である。破線は、2つの測定技術が等しい箇所である。HCC腫瘍組織DNAの場合、1Mbの分解能での単一分子リアルタイム配列決定によって測定されたメチル化レベルは、バイサルファイト配列決定によって決定されたものとよく相関していた(r=0.96、P値<0.0001)(図68A)。隣接する正常な肝臓組織試料からのデータも相関していた(r=0.83、P値<0.0001)(図68B)。 Figures 68A and 68B show scatter plots of methylation levels measured at 1 Mb resolution. Figure 68A shows methylation levels of HCC tumor tissue (TBR3033T). FIG. 68B shows methylation levels in adjacent normal tissue. For both Figures 68A and 68B, methylation levels quantified by bisulfite sequencing are on the x-axis and methylation levels measured by single-molecule real-time sequencing according to the present disclosure are on the y-axis. The solid line is the fitted regression line. The dashed line is where the two measurement techniques are equal. For HCC tumor tissue DNA, methylation levels measured by single-molecule real-time sequencing at 1 Mb resolution correlated well with those determined by bisulfite sequencing (r=0.96, P value <0.0001) (Fig. 68A). Data from adjacent normal liver tissue samples were also correlated (r=0.83, P-value<0.0001) (FIG. 68B).

図69Aおよび69Bは、100kbの分解能で測定されたメチル化レベルの散布図を示す。図69Aは、HCC腫瘍組織(TBR3033T)のメチル化レベルを示す。図69Bは、隣接する正常組織(TBR3033N)のメチル化レベルを示す。図69Aおよび図69Bの両方について、バイサルファイト配列決定によって定量されたメチル化レベルはx軸にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはy軸にある。実線は、近似した回帰直線である。破線は、2つの測定技術が等しい箇所である。1Mbの分解能での2つの方法間のメチル化定量データのこのような高度な相関は、メチル化レベルの測定がより高い分解能、例えば、100kbウィンドウで、実施された場合でも観察された。 Figures 69A and 69B show scatter plots of methylation levels measured at 100 kb resolution. FIG. 69A shows methylation levels of HCC tumor tissue (TBR3033T). Figure 69B shows methylation levels in adjacent normal tissue (TBR3033N). For both Figures 69A and 69B, methylation levels quantified by bisulfite sequencing are on the x-axis and methylation levels measured by single molecule real-time sequencing according to the present disclosure are on the y-axis. The solid line is the fitted regression line. The dashed line is where the two measurement techniques are equal. Such a high degree of correlation of methylation quantification data between the two methods at 1 Mb resolution was observed even when measurements of methylation levels were performed at higher resolution, eg, 100 kb windows.

図70Aおよび70Bは、他の腫瘍組織および正常組織の1Mb分解能でのメチル化パターンを示す。図70Aは、HCC腫瘍組織(TBR3032T)のメチル化パターンを示す。図70Bは、隣接する正常組織(TBR3032N)のメチル化パターンを示す。染色体イデオグラム(各図の最も外側のリング)は、時計回りにp末端からq末端に編成されている。外側から2番目のリング(中央のリングとも呼ばれる)は、バイサルファイト配列決定によって決定されたメチル化レベルを示している。最も内側のリングは、本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベルを示している。メチル化レベルは、5つのグレード、つまり、0~20%(薄緑)、20~40%(緑)、40~60%(青)、60~80%(薄赤)、および80~100%(赤)に分類される。図70Aに示されるように、本発明者らは、HCC腫瘍組織DNA(TBR3032T)における低メチル化を検出することができ、図70Bの隣接する正常な肝臓組織DNA(TBR3032N)と区別することができた。バイサルファイト配列決定(中央のトラック)および本発明を使用した単一分子リアルタイム配列決定(最も内側のトラック)によって決定されたメチル化レベルおよびメチル化パターンは一貫していた。隣接する正常組織DNAのメチル化レベルは、HCC腫瘍組織DNAのメチル化レベルよりも高いことが示された。 Figures 70A and 70B show the methylation patterns of other tumor and normal tissues at 1 Mb resolution. Figure 70A shows the methylation pattern of HCC tumor tissue (TBR3032T). Figure 70B shows the methylation pattern of adjacent normal tissue (TBR3032N). Chromosome ideograms (outermost rings in each figure) are organized clockwise from p-terminus to q-terminus. The second ring from the outside (also called middle ring) shows methylation levels as determined by bisulfite sequencing. The innermost ring shows methylation levels determined by single-molecule real-time sequencing according to the present disclosure. Methylation levels were graded in five grades: 0-20% (light green), 20-40% (green), 40-60% (blue), 60-80% (light red), and 80-100%. (red). As shown in Figure 70A, we were able to detect hypomethylation in HCC tumor tissue DNA (TBR3032T) and distinguish it from adjacent normal liver tissue DNA (TBR3032N) in Figure 70B. did it. Methylation levels and patterns determined by bisulfite sequencing (middle track) and single-molecule real-time sequencing using the present invention (innermost track) were consistent. The methylation level of adjacent normal tissue DNA was shown to be higher than that of HCC tumor tissue DNA.

図71Aおよび71Bは、1Mbの分解能で測定されたメチル化レベルの散布図を示す。図71Aは、HCC腫瘍組織(TBR3032T)のメチル化レベルを示す。図71Bは、隣接する正常組織のメチル化レベルを示す。図71Aおよび図71Bの両方について、バイサルファイト配列決定によって定量されたメチル化レベルはx軸にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはy軸にある。実線は、近似した回帰直線である。破線は、2つの測定技術が等しい箇所である。HCC腫瘍組織DNAの場合、1Mbの分解能での単一分子リアルタイム配列決定によって測定されたメチル化レベルは、バイサルファイト配列決定によって決定されたものとよく相関していた(r=0.98、P<0.0001)(図71A)。隣接する正常な肝臓組織試料からのデータも相関していた(r=0.87、P<0.0001)(図71B)。 Figures 71A and 71B show scatter plots of methylation levels measured at 1 Mb resolution. FIG. 71A shows methylation levels of HCC tumor tissue (TBR3032T). FIG. 71B shows methylation levels in adjacent normal tissue. For both Figures 71A and 71B, methylation levels quantified by bisulfite sequencing are on the x-axis and methylation levels measured by single molecule real-time sequencing according to the present disclosure are on the y-axis. The solid line is the fitted regression line. The dashed line is where the two measurement techniques are equal. For HCC tumor tissue DNA, methylation levels measured by single-molecule real-time sequencing at 1 Mb resolution correlated well with those determined by bisulfite sequencing (r=0.98, P <0.0001) (Fig. 71A). Data from adjacent normal liver tissue samples were also correlated (r=0.87, P<0.0001) (FIG. 71B).

図72Aおよび72Bは、100kbの分解能で測定されたメチル化レベルの散布図を示す。図72Aは、HCC腫瘍組織(TBR3032T)のメチル化レベルを示す。図72Bは、隣接する正常組織(TBR3032N)のメチル化レベルを示す。図72Aおよび図72Bの両方について、バイサルファイト配列決定によって定量されたメチル化レベルはx軸にあり、本開示による単一分子リアルタイム配列決定によって測定されたメチル化レベルはy軸にある。実線は、近似した回帰直線である。破線は、2つの測定技術が等しい箇所である。1Mbの分解能での2つの方法間のメチル化定量データのこのような高度な相関は、メチル化レベルの測定がより高い分解能、例えば、100kbウィンドウで、実施された場合でも観察された。 Figures 72A and 72B show scatter plots of methylation levels measured at 100 kb resolution. Figure 72A shows methylation levels of HCC tumor tissue (TBR3032T). Figure 72B shows methylation levels in adjacent normal tissue (TBR3032N). For both Figures 72A and 72B, methylation levels quantified by bisulfite sequencing are on the x-axis and methylation levels measured by single-molecule real-time sequencing according to the present disclosure are on the y-axis. The solid line is the fitted regression line. The dashed line is where the two measurement techniques are equal. Such a high degree of correlation of methylation quantification data between the two methods at 1 Mb resolution was observed even when measurements of methylation levels were performed at higher resolution, eg, 100 kb windows.

4.腫瘍と隣接する正常組織との間の可変メチル化領域
メチロミック異常は、癌ゲノムの領域でよく見られる。このような異常の一例は、選択されたゲノム領域の低メチル化および高メチル化である(Cadieux et al.Cancer Res.2006;66:8469-76、Graff et al.Cancer Res.1995;55:5195-9、Costello et al.Nat Genet.2000;24:132-8)。別の例は、選択されたゲノム領域におけるメチル化塩基および非メチル化塩基の異常なパターンである。このセクションでは、メチル化を決定する技術が、腫瘍を分析する際に、定量分析と診断の実施に使用され得ることを示す。
4. Variable Methylation Regions Between Tumors and Adjacent Normal Tissues Methylomic aberrations are common in regions of cancer genomes. One example of such abnormalities is hypomethylation and hypermethylation of selected genomic regions (Cadieux et al. Cancer Res. 2006;66:8469-76, Graff et al. Cancer Res. 1995;55: 5195-9, Costello et al. Nat Genet. 2000;24:132-8). Another example is the unusual pattern of methylated and unmethylated bases in selected genomic regions. This section shows that techniques that determine methylation can be used to perform quantitative analysis and diagnosis when analyzing tumors.

図73は、腫瘍抑制遺伝子CDKN2Aの近くのメチル化の異常なパターンの一例を示す。座標は青で強調表示され、下線はCpGアイランドを示している。黒く塗りつぶされた点は、メチル化された部位を示す。塗りつぶされていない点は、非メチル化部位を示す。点の付いた各水平線の右側の括弧内の数字は、断片のサイズ、単一分子のメチル化密度、およびCpG部位の数を示す。例えば、(3.3kb、MD:17.9%、CG:39)は、断片のサイズが3.3kbであり、断片のメチル化レベルが17.9%であり、CpG部位の数が39箇所であることを意味する。MDは、メチル化密度を表す。 Figure 73 shows an example of an aberrant pattern of methylation near the tumor suppressor gene CDKN2A. Coordinates are highlighted in blue and underlined indicate CpG islands. Filled dots indicate methylated sites. Unfilled dots indicate unmethylated sites. Numbers in parentheses to the right of each dotted horizontal line indicate fragment size, single-molecule methylation density, and number of CpG sites. For example, (3.3 kb, MD: 17.9%, CG: 39) has a fragment size of 3.3 kb, a fragment methylation level of 17.9%, and a number of CpG sites of 39. means that MD stands for methylation density.

図73に示されるように、CDKN2A(サイクリン依存性キナーゼ阻害因子2A)遺伝子は、腫瘍抑制因子として作用する、INK4A(p16)およびARF(p14)を含む2つのタンパク質をコードする。腫瘍組織に隣接する非腫瘍組織のCDKN2A遺伝子と重複する領域をカバーする2つの分子(分子7301と分子7302)があった。分子7301および分子7302の単一二本鎖DNA分子のメチル化レベルは、それぞれ17.9%および7.6%であることが示された。対照的に、腫瘍組織に存在する分子7303の単一二本鎖DNA分子のメチル化レベルは93.9%であることがわかり、これはペアの隣接する非腫瘍組織に存在する分子のメチル化レベルよりもはるかに高かった。一方、腫瘍組織に隣接する非腫瘍組織に存在する分子7301および7302を使用して、多鎖メチル化レベルを計算することもできる。その結果、多鎖メチル化レベルは9.7%であり、これは、腫瘍組織のメチル化レベル(93.9%)よりも低かった。異なるメチル化レベルは、一本鎖分子のメチル化レベルおよび/または多鎖メチル化レベルを使用して、癌などの疾患を検出または監視できることを示唆している。 As shown in Figure 73, the CDKN2A (cyclin-dependent kinase inhibitor 2A) gene encodes two proteins that act as tumor suppressors, including INK4A (p16) and ARF (p14). There were two molecules (molecule 7301 and molecule 7302) covering regions that overlapped with the CDKN2A gene in non-tumor tissue adjacent to the tumor tissue. The methylation levels of single double-stranded DNA molecules of molecule 7301 and molecule 7302 were shown to be 17.9% and 7.6%, respectively. In contrast, the methylation level of a single double-stranded DNA molecule of molecule 7303 present in tumor tissue was found to be 93.9%, comparable to the methylation of molecules present in paired adjacent non-tumor tissue. level was much higher. On the other hand, molecules 7301 and 7302 present in non-tumor tissue adjacent to tumor tissue can also be used to calculate multi-chain methylation levels. As a result, the multi-chain methylation level was 9.7%, which was lower than that of tumor tissue (93.9%). Differential methylation levels suggest that single-chain molecule methylation levels and/or multi-chain methylation levels can be used to detect or monitor diseases such as cancer.

図74Aおよび図74Bは、本発明の実施形態による、単一分子リアルタイム配列決定によって検出された可変メチル化領域を示す。図74Aは、癌ゲノムにおける低メチル化を示す。図74Bは、癌ゲノムにおける高メチル化を示す。x軸は、CpG部位の座標を示す。座標は青で強調表示され、下線はCpGアイランドを示している。黒く塗りつぶされた点は、メチル化された部位を示す。塗りつぶされていない点は、非メチル化部位を示す。点が付いた各水平線の右側の括弧内の数字は、断片のサイズ、断片レベルのメチル化密度、およびCpG部位の数を示している。例えば、(3.1kb、MD:88.9%、CG:180)は、断片のサイズが3.1kbであり、断片のメチル化密度が88.9%であり、CpG部位の数が180箇所であることを意味する。 Figures 74A and 74B show variable methylated regions detected by single-molecule real-time sequencing, according to embodiments of the invention. FIG. 74A shows hypomethylation in cancer genomes. FIG. 74B shows hypermethylation in cancer genomes. The x-axis indicates the coordinates of the CpG sites. Coordinates are highlighted in blue and underlined indicate CpG islands. Filled dots indicate methylated sites. Unfilled dots indicate unmethylated sites. Numbers in parentheses to the right of each dotted horizontal line indicate fragment size, fragment-level methylation density, and number of CpG sites. For example, (3.1 kb, MD: 88.9%, CG: 180) has a fragment size of 3.1 kb, a fragment methylation density of 88.9%, and a number of CpG sites of 180. means that

図74Aは、隣接する正常な肝臓組織と比較して、HCC腫瘍組織においてより多くの低メチル化断片を示すGNAS遺伝子に近い領域を示す。図74Bは、HCC組織において高メチル化断片を表示するESR1遺伝子に近い領域を示すが、対応する領域に整列するベアの隣接する非腫瘍組織からのDNA断片は、代わりに低メチル化を示した。図74Bに示すように、個々のDNA分子のメチル化プロファイルまたはメチル化ハプロタイプは、癌試料を非癌試料と比較した場合、これらのゲノム領域、つまりGNASおよびESR1、の異常なメチル化状態を明らかにするのに十分であった。 FIG. 74A shows regions near the GNAS gene showing more hypomethylated fragments in HCC tumor tissue compared to adjacent normal liver tissue. FIG. 74B shows regions near the ESR1 gene displaying hypermethylated fragments in HCC tissues, whereas DNA fragments from Bear's adjacent non-tumor tissue that align to the corresponding regions instead showed hypomethylation. . As shown in Figure 74B, methylation profiles or methylation haplotypes of individual DNA molecules reveal aberrant methylation status of these genomic regions, GNAS and ESR1, when cancer samples are compared to non-cancer samples. was enough to

これらのデータは、本明細書に開示される単一分子リアルタイム配列決定のメチル化分析が、個々のDNA断片上の各CpG部位(メチル化または非メチル化)でのメチル化状態を決定することができることを示している。単一分子リアルタイム配列決定のリード長は、典型的には、リードあたり100~300ntの鎖長に及ぶ可能性があるイルミナ配列決定の場合よりもはるかに長くなる(キロベースのオーダー)(De Maio et al.Micob Genom.2019;5(9))。単一分子リアルタイム配列決定のロングリード長の特性を、本明細書に開示されるメチル化分析法と組み合わせることで、任意の単一DNA分子に沿って存在する複数のCpG部位のメチル化ハプロタイプを容易に決定することができる。メチル化プロファイルとは、DNAの連続したストレッチ内(例えば、同じ染色体上、または細菌プラスミド内、またはウイルス内の単一のDNAストレッチ内)のゲノムのある座標から別の座標までのCpG部位のメチル化状態を指す。 These data demonstrate that the single-molecule real-time sequencing methylation analysis disclosed herein determines the methylation status at each CpG site (methylated or unmethylated) on individual DNA fragments. It shows what you can do. Read lengths for single-molecule real-time sequencing are typically much longer (on the order of kilobases) than for Illumina sequencing, which can range from 100-300 nt chain lengths per read (De Maio et al. et al., Micob Genom. 2019;5(9)). Combining the long read length properties of single-molecule real-time sequencing with the methylation analysis methods disclosed herein, methylation haplotypes for multiple CpG sites along any single DNA molecule can be determined. can be easily determined. A methylation profile is the methylation of a CpG site from one coordinate to another in the genome within a continuous stretch of DNA (e.g., on the same chromosome, or within a bacterial plasmid, or within a single DNA stretch within a virus). refers to the state of

単一分子リアルタイム配列決定は、事前の増幅を必要とせずに各DNA分子を個別に分析するため、個々のDNA分子について決定されたメチル化プロファイルは、実際にはメチル化ハプロタイプであり、同じDNA分子のある末端から別の末端までのCpG部位のメチル化状態を意味する。1つ以上の分子が同じゲノム領域から配列決定された場合、ゲノム領域内の配列決定されたすべてのCpG部位にわたる各CpG部位のメチル化%(つまり、メチル化レベルまたはメチル化密度)は、図61に示されるように、同じ式を使用して複数のDNA断片のデータから集約され得る。各CpG部位のメチル化%は、配列決定されたすべてのCpG部位について報告され、配列決定されたゲノム領域のメチル化プロファイルを提供する。あるいは、配列決定されたゲノム領域内のすべてのリードおよびすべての部位からのデータを集約して、つまり、1Mbまたは1kb領域のメチル化レベルが図64~72に示されるように計算された同じ様式で、領域の1%メチル化値を提供することもできる。 Because single-molecule real-time sequencing analyzes each DNA molecule individually without the need for prior amplification, the methylation profile determined for an individual DNA molecule is actually a methylation haplotype, not the same DNA It refers to the methylation status of CpG sites from one end of the molecule to another. If more than one molecule was sequenced from the same genomic region, the % methylation (i.e., methylation level or methylation density) at each CpG site across all sequenced CpG sites within the genomic region is shown in the figure. As shown in 61, the same formula can be used to aggregate data from multiple DNA fragments. The % methylation of each CpG site is reported for all sequenced CpG sites, providing the methylation profile of the sequenced genomic region. Alternatively, data from all reads and all sites within the sequenced genomic region were aggregated, i.e., methylation levels of 1 Mb or 1 kb regions were calculated in the same manner as shown in Figures 64-72. can also provide the 1% methylation value for the region.

5.ウイルスDNAのメチル化分析
このセクションは、本開示のメチル化技術を使用して、ウイルスDNAのメチル化レベルを正確に決定することができることを示している。
5. Viral DNA Methylation Analysis This section demonstrates that the methylation techniques of the present disclosure can be used to accurately determine viral DNA methylation levels.

図75は、単一分子リアルタイム配列決定を使用した、2対のHCC組織試料と隣接する非腫瘍組織試料との間のB型肝炎ウイルスDNAのメチル化パターンを示す。各矢印は、HBVゲノムの遺伝子注釈を表す。「P」、「S」、「X」、および「C」を有する矢印は、HBVゲノムに関する遺伝子注釈を示し、それぞれ、ポリメラーゼ、表面抗原、Xタンパク質、およびコアタンパク質をコードしている。本発明者らは、隣接する非腫瘍組織に由来するサイズが1,183bpの1つの断片(分子I、破線の長方形で強調表示された2,278~3,141にまたがるHBVゲノム)を特定し、12%のメチル化レベルを示した。また、腫瘍組織に由来する3,215bp、2,961bp、および3,105bpの3つの断片(分子II、分子III、および分子IV)も特定した。それらの中で、HCC腫瘍の2つの断片(分子IIIおよび分子IV)は、非腫瘍組織の分子IがまたがるHBVゲノム領域と重複していた。破線の長方形で強調表示されたHBV領域の低メチル化レベル(12%)(HBVゲノム位置:2,278~3,141)とは対照的に、メチル化レベルは、HCC組織のそれらの断片(分子IIIおよび分子IV)でより高かった(すなわち、24%および30%)。これらの結果は、単一分子リアルタイム配列決定を使用したアプローチが、ウイルスゲノムのメチル化パターンを決定するために実行可能であり、HCC組織と非HCC組織との間のHBVの可変メチル化領域(DMR)を特定できることを示唆した。したがって、本開示による単一分子リアルタイム配列決定を使用したウイルスゲノム全体のメチル化状態の決定は、組織生検を使用して臨床的関連性を研究するための新しいツールを提供するであろう。 Figure 75 shows hepatitis B virus DNA methylation patterns between two paired HCC tissue samples and adjacent non-tumor tissue samples using single-molecule real-time sequencing. Each arrow represents a gene annotation of the HBV genome. Arrows with 'P', 'S', 'X', and 'C' indicate gene annotation for the HBV genome, encoding polymerase, surface antigen, X protein, and core protein, respectively. We identified one fragment (molecule I, HBV genome spanning 2,278-3,141 highlighted by dashed rectangle) derived from adjacent non-tumor tissue, 1,183 bp in size. , showed a methylation level of 12%. We also identified three fragments of 3,215 bp, 2,961 bp, and 3,105 bp (molecule II, molecule III, and molecule IV) derived from tumor tissue. Among them, two fragments of HCC tumors (molecule III and molecule IV) overlapped the HBV genomic region spanned by molecule I of non-tumor tissue. In contrast to the hypomethylation level (12%) of the HBV region highlighted by the dashed rectangle (HBV genomic location: 2,278-3,141), methylation levels were significantly higher in those segments of HCC tissue ( was higher (ie, 24% and 30%) for molecules III and IV). These results demonstrate that an approach using single-molecule real-time sequencing is feasible to determine the methylation pattern of the viral genome, and the variable methylation regions of HBV between HCC and non-HCC tissues ( DMR) can be identified. Therefore, determination of the methylation status of the entire viral genome using single-molecule real-time sequencing according to the present disclosure will provide a new tool to study clinical relevance using tissue biopsies.

このDMR領域は、たまたま遺伝子P、C、およびSと重複していた。この領域は、HBV感染はある癌がない肝臓組織と比較して、HCC組織でも高メチル化されていることが報告された(Jain et al.Sci Rep.2015;5:10478、Fernandez et al.Genome Res.2009;19:438-51)。 This DMR region happened to overlap with the P, C, and S genes. This region was also reported to be hypermethylated in HCC tissue compared to cancer-free liver tissue with HBV infection (Jain et al. Sci Rep. 2015;5:10478, Fernandez et al. Genome Res. 2009;19:438-51).

本発明者らは、肝硬変はあるがHCCがない4人の患者の肝臓組織のバイサルファイト配列決定結果をプールし、メチル化分析用に1,156個のHBV断片を取得した。図76Aは、肝硬変はあるがHCCがない患者からの肝臓組織におけるB型肝炎ウイルスDNAのメチル化レベルを示す。さらに、15人の患者からのHCC腫瘍組織のバイサルファイト配列決定結果をプールし、メチル化分析用に736個のHBV断片を取得した。図76Bは、HCC腫瘍組織におけるB型肝炎ウイルスDNAのメチル化レベルを示す。図76Aおよび図76Bに示すように、超並列バイサルファイト配列決定により、肝硬変の肝臓組織よりもHCC組織のメチル化レベルが高いHBVのDMR領域(HBVゲノム位置:1,982~2,435)も観察された。これらの結果は、ウイルスゲノムのメチル化状態を決定するためのアプローチが有効であることを示唆した。 We pooled the bisulfite sequencing results of liver tissue from four patients with cirrhosis but no HCC and obtained 1,156 HBV fragments for methylation analysis. FIG. 76A shows hepatitis B virus DNA methylation levels in liver tissue from patients with cirrhosis but no HCC. In addition, bisulfite sequencing results of HCC tumor tissues from 15 patients were pooled to obtain 736 HBV fragments for methylation analysis. FIG. 76B shows methylation levels of hepatitis B virus DNA in HCC tumor tissue. As shown in FIGS. 76A and 76B, massively parallel bisulfite sequencing also revealed that the DMR region of HBV (HBV genomic location: 1,982-2,435) with higher methylation levels in HCC tissue than in cirrhotic liver tissue. observed. These results suggested that the approach to determine the methylation status of viral genomes is valid.

6.バリアント関連メチル化分析
異なるアレルは、異なるメチル化プロファイルに関連付けることができる。例えば、インプリント遺伝子は、他のアレルよりもメチル化レベルが高い1つのアレルを有する場合がある。このセクションでは、メチル化プロファイルを使用して、特定のゲノム領域のアレルを識別することができることを示す。
6. Variant Associated Methylation Analysis Different alleles can be associated with different methylation profiles. For example, an imprinted gene may have one allele with a higher level of methylation than other alleles. In this section, we demonstrate that methylation profiles can be used to identify alleles in specific genomic regions.

単一のDNA鋳型を含有する1つの単一分子リアルタイム配列決定ウェルは、いくつかのサブリードを生成する。サブリードには、動態特徴[例えば、パルス間隔(IPD)およびパルス幅(PW)]およびヌクレオチド組成が含まれる。一実施形態では、1つの単一分子リアルタイム配列決定ウェルからのサブリードを使用して、配列決定エラー(例えば、ミスマッチ、挿入または欠失)を劇的に低減させ得るコンセンサス配列(循環コンセンサス配列、CCSとも呼ばれる)を生成することができる。CCSの詳細について、本明細書で説明する。一実施形態では、コンセンサス配列は、ヒト参照ゲノムに整列されたそれらのサブリードを使用して、構築することができる。別の実施形態では、コンセンサス配列は、サブリードを、同じ単一分子リアルタイム配列決定ウェル内の最長のサブリードにマッピングすることによって構築することができる。 One single-molecule real-time sequencing well containing a single DNA template will generate several subreads. Subreads include kinetic characteristics [eg, pulse interval (IPD) and pulse width (PW)] and nucleotide composition. In one embodiment, sub-reads from one single-molecule real-time sequencing well are used to construct a consensus sequence (circular consensus sequence, CCS) that can dramatically reduce sequencing errors (e.g., mismatches, insertions or deletions). ) can be generated. Details of CCS are described herein. In one embodiment, a consensus sequence can be constructed using those subreads aligned to the human reference genome. In another embodiment, consensus sequences can be constructed by mapping subreads to the longest subread within the same single-molecule real-time sequencing well.

図77は、段階的メチル化ハプロタイプ分析の原理を示す。塗りつぶされたロリポップは、メチル化として分類されるCpG部位を表す。塗りつぶされていないロリポップは、非メチル化として分類されるCpG部位を表す。 Figure 77 shows the principle of stepwise methylation haplotype analysis. Filled lollipops represent CpG sites classified as methylated. Unfilled lollipops represent CpG sites classified as unmethylated.

図77の一実施形態に示されるように、サブリードは、ヒト参照ゲノムに整列された。1つの単一分子リアルタイム配列決定ウェルからの整列されたサブリードは、コンセンサス配列を形成するためにまとめられた。コンセンサス配列は、一般に、各整列位置全体のサブリード存在する最も頻度の高いヌクレオチドを使用して決定され得る。したがって、限定されないが、一塩基多型、挿入、および欠失を含むがヌクレオチドバリアントは、コンセンサス配列から特定することができた。ヌクレオチドバリアントによってタグ付けされた同じ分子内の平均化されたIPDおよびPWを使用して、本開示に従って、メチル化パターンを決定することができる。したがって、バリアント関連メチル化パターンをさらに決定することができる。同じ分子のメチル化状態は、メチル化ハプロタイプとみなすことができる。メチル化ハプロタイプは、2つ以上の断片化された短鎖DNA分子が元の単一分子に由来するかどうか、または2つ以上の異なる元の分子が寄与するかどうかを区別可能な分子マーカーが存在しないことから、2つ以上の短鎖DNA分子から容易にかつ直接的に構築し得ない場合がある。合成ロングリード技術(10X Genomicsによって開発されたリンクリード配列など)は、単一の長鎖DNA分子を分割(液滴など)に分配し、同じ分子バーコード配列を有するその長鎖DNA分子に由来する短鎖DNA分子にタグを付ける可能性を提供する。しかしながら、このバーコードステップには、元のメチル化状態が保持されないPCR増幅が含まれる。 As shown in one embodiment of Figure 77, the subreads were aligned to the human reference genome. Aligned subreads from one single-molecule real-time sequencing well were combined to form a consensus sequence. A consensus sequence can generally be determined using the most frequent nucleotide present in the subreads across each aligned position. Thus, nucleotide variants, including but not limited to single nucleotide polymorphisms, insertions, and deletions, could be identified from the consensus sequences. Using the averaged IPD and PW within the same molecule tagged with nucleotide variants, the methylation pattern can be determined according to the present disclosure. Thus, variant-associated methylation patterns can be further determined. Methylation states of the same molecule can be considered as methylation haplotypes. Methylation haplotypes are molecular markers that can distinguish whether two or more fragmented short DNA molecules are derived from a single original molecule, or whether two or more different original molecules contribute. Because they do not exist, they may not be readily and directly constructed from two or more short DNA molecules. Synthetic long-read technology (such as the linked-read sequence developed by 10X Genomics) distributes a single long DNA molecule into partitions (such as droplets) that have the same molecular barcode sequence derived from the long DNA molecule. It offers the possibility of tagging short DNA molecules that However, this barcode step involves PCR amplification in which the original methylation state is not preserved.

さらに、バイサルファイトを使用して長鎖DNA分子を処理しようとするとき、バイサルファイトが特定の化学的条件では一本鎖DNA分子にしか作用しないため、バイサルファイト処理の前の最初のステップでは、二本鎖DNAを一本鎖DNAに変化させる破壊的な条件下でのDNA変性が含まれる。このDNA変性ステップでは、長鎖DNA分子が短い断片に分解され、元のメチル化ハプロタイプ情報が失われる。バイサルファイトベースのメチル化分析の第2の欠点は、バイサルファイト変換ステップで、二本鎖DNAが一本鎖DNA、つまりワトソン鎖とクリック鎖に変性することである。一分子について、ワトソン鎖を配列決定する可能性は50%であり、クリック鎖を配列決定する可能性は50%である。数百万のワトソン鎖とクリック鎖の中で、分子のワトソン鎖とクリック鎖の両方を同時に配列決定する可能性は非常に低い。分子のワトソン鎖とクリック鎖の両方が配列決定されると想定しても、そのようなワトソン鎖とクリック鎖が元の単一断片に由来するのかどうか、または2つ以上の異なる元の断片が寄与するのかどうかを確実に決定することは依然として不可能である。Liuらは、最近、テンイレブントランスロケーション(TET)酵素ベースの変換を使用して、DNAの分解を低減させる穏やかな条件下で、メチル化シトシンおよびヒドロキシメチルシトシンを検出するためのバイサルファイトフリーの配列決定法を導入した(Liu et al.Nat Biotechnol.2019;37:424-429)。しかしながら、酵素反応には、2つの連続したステップが含まれる。酵素反応のいずれかのステップの変換率が低いと、全体的な変換率に劇的な影響を及ぼす。さらに、メチル化シトシンを検出するためのこのバイサルファイトフリーの配列決定法でさえ、配列決定の結果から、分子のワトソン鎖とクリック鎖を区別することは依然として困難である。 Furthermore, when using bisulfite to treat long-chain DNA molecules, the first step prior to bisulfite treatment is to: DNA denaturation under destructive conditions that change double-stranded DNA into single-stranded DNA is included. This DNA denaturation step breaks long DNA molecules into shorter fragments and loses the original methylated haplotype information. A second drawback of bisulfite-based methylation analysis is that the bisulfite conversion step denatures double-stranded DNA into single-stranded DNA, the Watson and Crick strands. For one molecule, there is a 50% chance of sequencing the Watson strand and a 50% chance of sequencing the Crick strand. Among the millions of Watson and Crick strands, the probability of sequencing both the Watson and Crick strands of a molecule at the same time is extremely low. Even assuming that both the Watson and Crick strands of a molecule are sequenced, whether such Watson and Crick strands are derived from a single original fragment, or whether two or more different original fragments are It remains impossible to determine with certainty whether or not it will contribute. Liu et al. recently used ten eleven translocation (TET) enzyme-based conversion to develop a bisulfite-free bisulfite-free solution for the detection of methylated and hydroxymethylcytosines under mild conditions that reduce DNA degradation. A sequencing method was introduced (Liu et al. Nat Biotechnol. 2019;37:424-429). However, the enzymatic reaction involves two sequential steps. Low conversion in any step of the enzymatic reaction has a dramatic effect on the overall conversion. Moreover, even with this bisulfite-free sequencing method for detecting methylated cytosines, it is still difficult to distinguish between the Watson and Crick strands of the molecule from the sequencing results.

対照的に、本発明の実施形態では、分子のワトソン鎖およびクリック鎖は、ベル型アダプターを介して共有結合的に連結されて、環状DNA分子を形成する。その結果、分子のワトソン鎖とクリック鎖の両方が同じ反応ウェルで配列決定され、各鎖のメチル化状態が決定され得る。 In contrast, in embodiments of the present invention, the Watson and Crick strands of the molecule are covalently linked via a bell-shaped adapter to form a circular DNA molecule. As a result, both Watson and Crick strands of the molecule can be sequenced in the same reaction well to determine the methylation status of each strand.

本発明の実施形態の1つの利点は、長鎖の連続したDNA分子(長さがエキロベースまたはキロヌクレオチド)に関するメチル化および遺伝的(すなわち配列)情報を確認する能力である。ショートリード配列決定テクノロジーを使用してこのような情報を生成することはより困難である。ショートリード配列決定テクノロジーの場合、メチル化と遺伝情報の長いストレッチを推定できるようにするには、遺伝的またはエピジェネティックな特性の足がかりを使用して、複数のショートリードに関する配列決定情報を組み合わせる必要がある。しかしながら、これは、そのような遺伝的またはエピジェネティックなアンカー間の距離のために、多くのシナリオでは困難であることが判明するであろう。例えば、平均でSNPは1kbあたり1つあるが、現在のショートリード配列決定テクノロジーは、典型的に、リードあたり最大で300ntの配列を決定することができ、ペアエンド形式であっても600ntである。 One advantage of embodiments of the present invention is the ability to ascertain methylation and genetic (ie, sequence) information on long, contiguous DNA molecules (ekilobases or kilonucleotides in length). Generating such information using short-read sequencing technology is more difficult. For short-read sequencing technologies, to be able to deduce long stretches of methylation and genetic information, it is necessary to combine the sequencing information on multiple short reads using a stepping stone of genetic or epigenetic traits. There is However, this will prove difficult in many scenarios due to the distance between such genetic or epigenetic anchors. For example, there is one SNP per kb on average, but current short-read sequencing technology can typically determine up to 300 nt of sequence per read, 600 nt even in paired-end format.

一実施形態では、バリアント関連メチル化ハプロタイプ分析を使用して、インプリント遺伝子のメチル化パターンを研究することができる。インプリント領域は、親起源の様式で、エピジェネティックな調節(例えば、CpGメチル化)を受ける。例えば、図60の表では、1つのバフィーコートのDNA試料(M2)を配列決定して、約1億5200万個のサブリードを取得した。この試料では、53%の単一分子リアルタイム配列決定ウェルで、ヒト参照ゲノムと整列され得る少なくとも1つのサブリードが生成された。各SMRTウェルの平均サブリード深度は、7.7倍であった。合計で、約300万のコンセンサス配列が取得された。参照ゲノムの約91%は、少なくとも1回はコンセンサス配列でカバーされていた。カバーされた領域について、配列決定深度は、7.9倍であった。データセットは、Sequel II Sequencing Kit 1.0によって調製されたDNAから生成された。 In one embodiment, variant-associated methylation haplotype analysis can be used to study methylation patterns of imprinted genes. Imprinted regions are subject to epigenetic regulation (eg, CpG methylation) in a parental manner. For example, in the table of Figure 60, one buffy coat DNA sample (M2) was sequenced to obtain approximately 152 million subreads. In this sample, 53% of single-molecule real-time sequencing wells generated at least one subread that could be aligned with the human reference genome. The average sub-read depth of each SMRT well was 7.7 times. In total, approximately 3 million consensus sequences were obtained. Approximately 91% of the reference genome was covered by consensus sequences at least once. For the covered region, the sequencing depth was 7.9 times. The dataset was generated from DNA prepared by Sequel II Sequencing Kit 1.0.

図78は、コンセンサス配列から決定された配列決定された分子のサイズ分布を示しており、サイズの中央値は6,289bp(範囲:66~198,109bp)である。断片サイズ(bp)をx軸に示し、断片サイズに関連付けられた頻度(%)をy軸に示す。 Figure 78 shows the size distribution of the sequenced molecules determined from the consensus sequence, with a median size of 6,289 bp (range: 66-198,109 bp). Fragment size (bp) is shown on the x-axis and frequency (%) associated with fragment size is shown on the y-axis.

図79A、79B、79C、および79Dは、インプリント領域におけるアレルのメチル化パターンの例を示す。x軸は、CpG部位の座標を示す。座標は青で強調表示され、下線はCpGアイランドを示している。黒く塗りつぶされた点は、メチル化されたCpG部位を示す。塗りつぶされていない点は、非メチル化CpG部位を示す。各水平方向の一連の塗りつぶされた点と塗りつぶされていない点の(すなわち、CpG部位)の間に埋め込まれたアルファベットは、SNP部位のアレルを示す。各水平方向の一連の点の右側にある括弧内の数字は、断片のサイズ、断片レベルのメチル化密度、およびCpG部位の数を示す。例えば、(10.0kb、MD:79.1%、CG:139)は、対応する断片のサイズが10.0kbであり、断片のメチル化密度が79.1%であり、CpG部位の数が139箇所であることを示唆する。破線の長方形は、各遺伝子内で最も可変メチル化領域の輪郭を示す。 Figures 79A, 79B, 79C, and 79D show examples of methylation patterns of alleles in imprinted regions. The x-axis indicates the coordinates of the CpG sites. Coordinates are highlighted in blue and underlined indicate CpG islands. Filled dots indicate methylated CpG sites. Unfilled dots indicate unmethylated CpG sites. The alphabet embedded between each horizontal series of filled and unfilled dots (ie, CpG sites) indicates the allele of the SNP site. Numbers in parentheses to the right of each horizontal series of dots indicate fragment size, fragment-level methylation density, and number of CpG sites. For example, (10.0 kb, MD: 79.1%, CG: 139) has a corresponding fragment size of 10.0 kb, a fragment methylation density of 79.1%, and a number of CpG sites of It suggests that there are 139 sites. Dashed rectangles outline the most variable methylation regions within each gene.

図79Aは、SNURF遺伝子に由来する、中央値が11.2kb(範囲:1.3~25kb)のサイズを有する11個の配列決定された断片を示す。SNURF遺伝子は、母方にインプリントされ、つまり、個人が母親から受け継いだ遺伝子のコピーはメチル化されており、転写的にサイレントである。図79Aに示されるように、破線の長方形において、Cアレルに関連する断片は高度にメチル化されていたが、Tアレルに関連する断片は高度に非メチル化されていた。高度なメチル化は、部位の70%、80%、90%、95%、または99%以上のメチル化を示す。アレル特異的メチル化パターンは、PLAGL1(図79B)、NAP1L5(図79C)、およびZIM2(図79D)を含む他のインプリント遺伝子で観察することができた。図79Bは、PLAGL1の場合、Tアレルに関連する断片が高度に非メチル化されていたのに対して、Cアレルに関連する断片は高度にメチル化されていたことを示す。図79Cは、NAP1L5の場合、Cアレルに関連する断片が高度に非メチル化されていたのに対して、Tアレルに関連する断片は高度にメチル化されていたことを示す。図79Dは、ZIM2の場合、Cアレルに関連する断片が高度に非メチル化されていたのに対して、Tアレルに関連する断片は高度にメチル化されていたことを示す。 Figure 79A shows 11 sequenced fragments with a median size of 11.2 kb (range: 1.3-25 kb) from the SNURF gene. The SNURF gene is maternally imprinted, ie, the copy of the gene that an individual inherits from the mother is methylated and transcriptionally silent. As shown in Figure 79A, in the dashed rectangle, the fragment associated with the C allele was highly methylated, while the fragment associated with the T allele was highly unmethylated. Highly methylated indicates methylation of 70%, 80%, 90%, 95%, or 99% or more of the site. Allele-specific methylation patterns could be observed in other imprinted genes, including PLAGL1 (Fig. 79B), NAP1L5 (Fig. 79C), and ZIM2 (Fig. 79D). FIG. 79B shows that for PLAGL1, the fragment associated with the T allele was highly unmethylated, whereas the fragment associated with the C allele was highly methylated. FIG. 79C shows that for NAP1L5, the fragment associated with the C allele was highly unmethylated, whereas the fragment associated with the T allele was highly methylated. Figure 79D shows that for ZIM2, the fragment associated with the C allele was highly unmethylated, whereas the fragment associated with the T allele was highly methylated.

図80A、80B、80C、および80Dは、非インプリント領域におけるアレルのメチル化パターンの例を示す。x軸は、CpG部位の座標を示す。座標は青で強調表示され、下線はCpGアイランドを示している。黒く塗りつぶされた点は、メチル化されたCpG部位を示す。塗りつぶされていない点は、非メチル化CpG部位を示す。各水平方向の一連の塗りつぶされた点と塗りつぶされていない点の(すなわち、CpG部位)の間に埋め込まれたアルファベットは、一塩基多型(SNP部位のアレルを示す。各水平方向の一連の点の右側にある括弧内の数字は、断片のサイズ、断片レベルのメチル化密度、およびCpG部位の数を示す。破線の長方形は、括弧内に報告されているメチル化密度を計算するために、ランダムに選択された領域を示す。図79A~79Dの結果とは対照的に、非インプリント遺伝子には、そのような観察可能なアレルのメチル化パターンは存在しなかった。図80Aは、chr7領域において、アレルのメチル化パターンに違いがないことを示す。図80Bは、chr12領域において、アレルのメチル化パターンに違いがないことを示す。図80Cは、chr1領域において、アレルのメチル化パターンに違いがないことを示す。図80Dは、別のchr1領域において、アレルのメチル化パターンに違いがないことを示す。 Figures 80A, 80B, 80C, and 80D show examples of methylation patterns of alleles in non-imprinted regions. The x-axis indicates the coordinates of the CpG sites. Coordinates are highlighted in blue and underlined indicate CpG islands. Filled dots indicate methylated CpG sites. Unfilled dots indicate unmethylated CpG sites. The alphabet embedded between each horizontal series of filled and unfilled dots (i.e., CpG sites) indicates the allele of the single nucleotide polymorphism (SNP site). Numbers in parentheses to the right of the points indicate fragment sizes, fragment-level methylation densities, and number of CpG sites Dashed rectangles are used to calculate methylation densities reported in parentheses , shows randomly selected regions In contrast to the results in Figures 79A-79D, there was no such observable allelic methylation pattern in the non-imprinted genes. Figure 80B shows no difference in the methylation pattern of alleles in the chr7 region, Figure 80B shows no difference in the methylation pattern of the alleles in the chr12 region, Figure 80C shows the methylation of the alleles in the chr1 region. Figure 80D shows no difference in the methylation pattern of the alleles in the different chr1 regions.

図81は、アレル特異的断片のメチル化レベルの表を示す。最初の列は、「インプリント遺伝子」と「ランダムに選択された領域」のカテゴリーを列挙している。2番目の列は、特定の遺伝子を列挙している。3番目の列は、遺伝子のSNPの最初のアレルを列挙している。4番目の列は、遺伝子のSNPの2番目のアレルを列挙している。5番目の列は、最初のアレルにリンクされた断片のメチル化レベルを示す。6番目の列は、2番目のアレルにリンクされた断片のメチル化レベルを示す。アレル2にリンクされた断片のメチル化レベル(平均:88.6%、範囲84.6~91.1%)は、それらのインプリント遺伝子のアレル1にリンクされたそれらの断片(平均:12.2%、範囲7.6~15.7%)よりもはるかに高く(P値=0.03)、アレル特異的メチル化の存在を示す。対照的に、それらのランダムに選択された領域間でメチル化レベルに有意な変化はなく(P値=1)、アレル特異的なメチル化がないことを示唆している。 Figure 81 shows a table of methylation levels of allele-specific fragments. The first column lists the categories 'imprinted gene' and 'randomly selected region'. The second column lists specific genes. The third column lists the first allele of the SNP of the gene. The fourth column lists the second allele of the SNP of the gene. The fifth column shows the methylation level of the fragment linked to the first allele. The sixth column shows the methylation level of the fragment linked to the second allele. The methylation levels of fragments linked to allele 2 (mean: 88.6%, range 84.6-91.1%) were higher than those of fragments linked to allele 1 of their imprinted genes (mean: 12 .2%, range 7.6-15.7%) (P-value=0.03), indicating the presence of allele-specific methylation. In contrast, there was no significant change in methylation levels between these randomly selected regions (P-value=1), suggesting no allele-specific methylation.

7.妊娠中の無細胞DNA分析
この例示では、本明細書に開示される方法は、少なくとも1人の胎児の妊婦から取得された血漿または血清中の無細胞核酸の分析に適用可能であることを実証する。妊娠中、胎盤細胞からの無細胞DNA分子および無細胞RNA分子が、母体循環中に見られる。このような胎盤由来の無細胞核酸分子は、母体血漿中の無細胞胎児核酸または循環無細胞胎児核酸とも呼ばれる。無細胞胎児核酸は、母体の無細胞核酸の背景の中で母体血漿中に存在する。例えば、循環無細胞胎児DNA分子は、母体の血漿および血清中の無細胞の母体DNAの背景の中で、希少種として存在する。
7. Cell-Free DNA Analysis in Pregnancy This example demonstrates that the methods disclosed herein are applicable to the analysis of cell-free nucleic acids in plasma or serum obtained from pregnant women of at least one fetus. do. During pregnancy, cell-free DNA and RNA molecules from placental cells are found in the maternal circulation. Such placenta-derived cell-free nucleic acid molecules are also referred to as cell-free fetal nucleic acids in maternal plasma or circulating cell-free fetal nucleic acids. Cell-free fetal nucleic acid is present in maternal plasma in a background of maternal cell-free nucleic acid. For example, circulating cell-free fetal DNA molecules exist as rare species in the background of cell-free maternal DNA in maternal plasma and serum.

母体血漿または血清中の無細胞胎児DNAを無細胞母体DNAと区別するために、遺伝的またはエピジェネティックな手段またはその組み合わせが使用され得ることが知られている。遺伝的に、胎児ゲノムは、父方の受け継がれた胎児特異的SNPアレル、父性遺伝の変異、またはデノボ変異によって、母体ゲノムと異なる可能性がある。エピジェネティックに、胎盤メチロームは、一般に母体血球のメチロームと比較して低メチル化されている(Lun et al.Clin Chem.2013;59:1583-94)。胎盤は無細胞胎児DNAの主な寄与因子であり、一方、母体血球は母体循環(血漿または血清)における無細胞母体DNAの主な寄与因子であるため、無細胞胎児DNA分子は、一般に、血漿または血清中の無細胞母体DNAと比較して低メチル化されている。母体の血球と比較して胎盤が高メチル化されている特定のゲノム遺伝子座がある。例えば、RASSF1Aのプロモーターおよびエクソン1領域は、母体の血球よりも胎盤でメチル化されている(Chiu et al.Am J Pathol.2007;170:941-950)。したがって、このRASSF1A遺伝子座に由来する循環無細胞胎児DNAは、同じ遺伝子座に由来する循環無細胞母体DNAと比較して、高メチル化されている。 It is known that genetic or epigenetic means or a combination thereof can be used to distinguish cell-free fetal DNA from cell-free maternal DNA in maternal plasma or serum. Genetically, the fetal genome can differ from the maternal genome by paternally inherited fetal-specific SNP alleles, paternally inherited mutations, or de novo mutations. Epigenetically, the placental methylome is generally hypomethylated compared to that of maternal blood cells (Lun et al. Clin Chem. 2013;59:1583-94). Since the placenta is the major contributor of cell-free fetal DNA, while maternal blood cells are the major contributor of cell-free maternal DNA in the maternal circulation (plasma or serum), cell-free fetal DNA molecules are generally expressed in plasma or hypomethylated compared to cell-free maternal DNA in serum. There are specific genomic loci that are hypermethylated in the placenta compared to maternal blood cells. For example, the promoter and exon 1 regions of RASSF1A are more methylated in placenta than in maternal blood cells (Chiu et al. Am J Pathol. 2007;170:941-950). Therefore, circulating cell-free fetal DNA derived from this RASSF1A locus is hypermethylated compared to circulating cell-free maternal DNA derived from the same locus.

実施形態では、無細胞胎児DNAは、循環核酸の2つのプール間の異なるメチル化状態に基づいて、無細胞母体DNA分子から識別され得る。例えば、無細胞DNA分子に沿ったCpG部位は、ほとんど非メチル化されていることがわかり、この分子は胎児に由来している可能性がある。無細胞DNA分子に沿ったCpG部位がほとんどメチル化されていることがわかった場合、この分子は母親からのものである可能性が高い。そのような分子が実際に胎児または母親からのものであるかどうかを確認するために、当業者に既知のいくつかの方法がある。1つのアプローチは、配列決定された分子のメチル化パターンを、胎盤または母体の血球の対応する遺伝子座の既知のメチル化プロファイルと比較することである。 In embodiments, cell-free fetal DNA can be distinguished from cell-free maternal DNA molecules based on the differential methylation status between the two pools of circulating nucleic acids. For example, CpG sites along cell-free DNA molecules were found to be mostly unmethylated, suggesting that the molecule may be of fetal origin. If most of the CpG sites along the cell-free DNA molecule are found to be methylated, the molecule is likely maternal. There are several methods known to those skilled in the art to ascertain whether such molecules are in fact fetal or maternal. One approach is to compare the methylation patterns of sequenced molecules with the known methylation profiles of the corresponding loci of placental or maternal blood cells.

図82は、メチル化プロファイルを使用して、妊娠中の血漿DNAの胎盤起源を決定するための一例を示す。座標は青で強調表示され、下線はCpGアイランドを示している。黒く塗りつぶされた点は、メチル化された部位を示す。塗りつぶされていない点は、非メチル化部位を示す。点の付いた各水平線の近くの括弧内の数字は、断片のサイズ、単一分子のメチル化密度、およびCpG部位の数を示す。 FIG. 82 shows an example for using methylation profiles to determine the placental origin of plasma DNA during pregnancy. Coordinates are highlighted in blue and underlined indicate CpG islands. Filled dots indicate methylated sites. Unfilled dots indicate unmethylated sites. Numbers in parentheses near each dotted horizontal line indicate fragment size, single-molecule methylation density, and number of CpG sites.

図82に示されるように、母体血漿無細胞DNA分子が、RASSF1Aのプロモーター領域(胎盤組織で特異的にメチル化されることが知られている領域)に整列し、かつ本発明の方法を使用して生成された配列決定データが高メチル化される場合、分子はおそらく胎児または胎盤に由来する。対照的に、低メチル化を示す分子は、母体の背景DNA(主に造血起源)に由来可能している性が高い。 As shown in Figure 82, maternal plasma cell-free DNA molecules align to the promoter region of RASSF1A, a region known to be differentially methylated in placental tissue, and using the methods of the invention. If the sequencing data generated by the method is hypermethylated, the molecule probably originated from the fetus or placenta. In contrast, molecules exhibiting hypomethylation are likely derived from maternal background DNA (mainly of hematopoietic origin).

図83は、胎児特異的メチル化分析のアプローチを示す。このアプローチには、胎児特異的SNPアレルまたは胎児特異的変異(例えば、父性遺伝または本質的にデノボ)を含有する配列決定された分子の利用が含まれる。そのような胎児特有の遺伝的特徴が特定される場合、同じ無細胞DNA分子に存在する塩基のメチル化状態は、無細胞胎児DNAまたは胎盤メチロームのメチル化プロファイルを反映する。血漿無細胞DNA配列決定で、母体ゲノムに存在しないアレルまたは変異が明らかになる場合(例えば、母体ゲノムDNAの分析による)、または父方DNAの分析によってもしくは家族性で伝達されることが既知の場合(例えば、発端者由来のDNAの分析による)、胎児特異的な遺伝的特徴が明らかにされ得る。 Figure 83 shows an approach for fetal-specific methylation analysis. This approach involves the use of sequenced molecules containing fetal-specific SNP alleles or fetal-specific mutations (eg, paternally inherited or de novo in nature). When such fetal-specific genetic features are identified, the methylation status of bases present in the same cell-free DNA molecule reflects the methylation profile of the cell-free fetal DNA or placental methylome. Plasma cell-free DNA sequencing reveals an allele or mutation not present in the maternal genome (e.g., by analysis of maternal genomic DNA), or known to be transmitted by analysis of paternal DNA or in familial Fetal-specific genetic features can be revealed (eg, by analysis of DNA from the proband).

胎児特異的DNA分子のメチル化は、母体ゲノムのホモ接合性アレルとは異なるアレルを有するそれらのDNA断片を分析することによって決定することができる。胎児のDNA分子のメチル化は、母体のDNA分子のメチル化よりも低いと予想され得る。 Methylation of fetal-specific DNA molecules can be determined by analyzing those DNA fragments that have alleles that differ from the homozygous alleles of the maternal genome. Methylation of fetal DNA molecules can be expected to be lower than that of maternal DNA molecules.

一例として、1人の妊婦のバフィーコートDNAとそれに対応する胎盤DNAを配列決定して、それぞれ、59倍と58倍のハプロイドのゲノムカバレッジを取得した。本発明者らは、母親がホモ接合で胎児がヘテロ接合である、合計822,409個の有益なSNPを特定した。単一分子リアルタイム配列決定を通して、母体血漿(M13160)で、2,652個の胎児特異的断片と24,837個の共有断片(すなわち、共有アレルを有する断片、主に母体由来)を見出した。胎児のDNA画分は、19.3%であった。本開示に従って、これらの胎児特異的断片および共有断片のメチル化プロファイルが推定された。その結果、胎児特異的断片のメチル化レベルが57.4%であったのに対し、共有断片のメチル化レベルは69.9%であることがわかった。この発見は、胎児DNAのメチル化レベルが妊婦の血漿中の母体DNAよりも低いという現在の知見と一致していた(Lun et al.,Clin Chem.2013;59:1583-94)。 As an example, buffy coat DNA and the corresponding placental DNA of one pregnant woman were sequenced to obtain genomic coverage of 59-fold and 58-fold haploids, respectively. We identified a total of 822,409 informative SNPs that were homozygous in the mother and heterozygous in the fetus. Through single-molecule real-time sequencing, we found 2,652 fetal-specific fragments and 24,837 shared fragments (ie, fragments with shared alleles, mostly maternally derived) in maternal plasma (M13160). The fetal DNA fraction was 19.3%. Methylation profiles of these fetal-specific and shared fragments were deduced according to the present disclosure. As a result, the methylation level of the fetal-specific fragment was found to be 57.4%, whereas the methylation level of the shared fragment was found to be 69.9%. This finding was consistent with current findings that methylation levels in fetal DNA are lower than maternal DNA in plasma of pregnant women (Lun et al., Clin Chem. 2013;59:1583-94).

メチル化パターンは、診断または監視の目的で使用することができる。例えば、母体の血漿試料のメチル化プロファイルは、妊娠期間を決定するために使用されている(https://www.ncbi.nlm.nih.gov/pubmed/27979959)。1つの用途は、品質管理ステップである。別の潜在的な用途は、妊娠の「生物年齢」と「暦年齢」を監視することである。この用途は、早産の検出またはリスク評価に使用することができる。他の実施形態は、母体血中の胎児細胞の分析に使用することができる。さらに他の実施形態では、このような胎児細胞は、抗体ベースのアプローチによって、または細胞マーカーを使用する選択的染色によって(例えば、細胞表面または細胞質内で)特定され得るか、あるいはフローサイトメトリーまたはマイクロマニピュレーションまたはマイクロダイセクションまたは物理的方法(例えば、チャンバー、表面または容器を通る差動流)によって濃縮され得る。 Methylation patterns can be used for diagnostic or surveillance purposes. For example, methylation profiles of maternal plasma samples have been used to determine gestational age (https://www.ncbi.nlm.nih.gov/pubmed/27979959). One application is for quality control steps. Another potential application is monitoring the "biological age" and "chronological age" of pregnancy. This application can be used for preterm birth detection or risk assessment. Other embodiments can be used for analysis of fetal cells in maternal blood. In still other embodiments, such fetal cells can be identified by antibody-based approaches or by selective staining using cell markers (e.g., at the cell surface or within the cytoplasm), or by flow cytometry or Concentration can be by micromanipulation or microdissection or physical methods such as differential flow through a chamber, surface or container.

C.異なる試薬を使用したメチル化検出
このセクションでは、メチル化技術が特定の試薬システムに限定されないことを示す。
C. Methylation Detection Using Different Reagents This section shows that methylation techniques are not limited to specific reagent systems.

メチル化分析は、異なる試薬システムを使用して実施され、技術が適用され得ることを確認した。一例として、Sequel IIシステム(Pacific Biosciences)を使用して、SMRT-seqを実施し、単一分子リアルタイム配列決定を実行した。剪断されたDNA分子は、SMRTbell Express Template Prep Kit 2.0(Pacific Biosciences)を使用して、単一分子リアルタイム(SMRT)配列決定の鋳型の構築にかけられた。配列決定プライマーのアニーリングとポリメラーゼ結合の条件は、SMRT Link v8.0ソフトウェア(Pacific Biosciences)を使用して計算した。簡単に、配列決定プライマーv2を配列決定鋳型にアニーリングし、次いでSequel II Binding and Internal Control Kit 2.0(Pacific Biosciences)を使用して、ポリメラーゼを鋳型に結合させた。配列決定は、Sequel II SMRT Cell 8Mで行った。配列決定の動画は、Sequel II Sequencing Kit 2.0(Pacific Biosciences)を使用して、Sequel IIシステムで30時間収集した。他の実施形態では、他の化学試薬および反応緩衝液がSMRT-seqに使用されるであろう。一実施形態では、ポリメラーゼは、そのメチル化状態に応じて、DNA鋳型鎖に沿ってヌクレオチドを組み込む異なる動態特徴を有するであろう(Huber et al.Nucleic Acids Res.2016;44:9881-9890)。本開示において、結果は、特に断らない限り、配列決定プライマーv1を使用して生成される。 Methylation analysis was performed using different reagent systems to confirm that the technique could be applied. As an example, SMRT-seq was performed to perform single-molecule real-time sequencing using the Sequel II system (Pacific Biosciences). The sheared DNA molecules were subjected to single molecule real-time (SMRT) sequencing template construction using SMRTbell Express Template Prep Kit 2.0 (Pacific Biosciences). Conditions for sequencing primer annealing and polymerase binding were calculated using SMRT Link v8.0 software (Pacific Biosciences). Briefly, sequencing primer v2 was annealed to the sequencing template, then polymerase was allowed to bind to the template using the Sequel II Binding and Internal Control Kit 2.0 (Pacific Biosciences). Sequencing was performed on Sequel II SMRT Cell 8M. Sequencing movies were collected for 30 hours on the Sequel II system using the Sequel II Sequencing Kit 2.0 (Pacific Biosciences). In other embodiments, other chemical reagents and reaction buffers will be used for SMRT-seq. In one embodiment, polymerases will have different kinetic characteristics for incorporating nucleotides along the DNA template strand, depending on their methylation state (Huber et al. Nucleic Acids Res. 2016;44:9881-9890). . In this disclosure, results are generated using sequencing primer v1 unless otherwise stated.

異なる試薬を使用して本明細書に記載の本開示における本発明の使用を実証するために、本発明者らは、限定されないが、Sequel I Sequencing Kit 3.0、RS II、Sequel II Sequencing Kit 1.0およびSequel II Sequencing Kit 2.0を含む異なる配列決定キットに基づいて生成されたSMRT-seqデータを分析した。RS IIには、SMRTセルあたり150,000ZMWが含まれる。Sequelは、SMRTセルあたり1,000,000ZMWを使用する。Sequel IIは、2つの配列決定キット(1.0および2.0)を用いて、SMRTセルあたり800万ZMWを使用する。この分析には、2つのデータセットが含まれていた。最初のデータセットは、全ゲノム増幅後のDNAに基づいて調製され、非メチル化状態を表している。2番目の種類のデータセットは、M.SsssIメチルトランスフェラーゼ処理後のDNAに基づいて調製され、メチル化状態を表している。これらのデータは、Sequelシーケンサーの場合、Sequel Sequencing Kit 3.0を使用して生成され、Sequel IIシーケンサーの場合、Sequel II Sequencing Kit 1.0およびSequel II Sequencing Kit 2.0を使用して生成された。したがって、本発明者らは、異なる試薬(例えば、ポリメラーゼ)で生成された動態プロファイルを有する3つのデータセットを取得した。各データセットは、本開示によるCNNモデルを使用して性能を評価するために、訓練データセットと試験データセットに分割された。 To demonstrate the use of the invention in the present disclosure described herein using different reagents, the inventors used, but are not limited to, Sequel I Sequencing Kit 3.0, RS II, Sequel II Sequencing Kit SMRT-seq data generated based on different sequencing kits including Sequel II Sequencing Kit 2.0 and Sequel II Sequencing Kit 2.0 were analyzed. RS II includes 150,000 ZMW per SMRT cell. Sequel uses 1,000,000 ZMW per SMRT cell. Sequel II uses 8 million ZMW per SMRT cell with two sequencing kits (1.0 and 2.0). Two data sets were included in this analysis. The first dataset was prepared based on DNA after whole genome amplification and represents the unmethylated state. A second type of dataset is the M. Prepared based on DNA after SsssI methyltransferase treatment and represents the methylation status. These data were generated using Sequel Sequencing Kit 3.0 for the Sequel sequencer and Sequel II Sequencing Kit 1.0 and Sequel II Sequencing Kit 2.0 for the Sequel II sequencer. rice field. We therefore acquired three data sets with kinetic profiles generated with different reagents (eg polymerases). Each dataset was split into a training dataset and a test dataset for performance evaluation using the CNN model according to the present disclosure.

1.測定ウィンドウ
図84A、84B、および84Cは、全ゲノム増幅データ(非メチル化CpG部位)およびM.SsssI処理データ(メチル化CpG部位)を含む訓練データセットにおけるSMRT-seq用の異なる試薬キットにわたる異なる測定ウィンドウのサイズの性能を示している。真陽性率はy軸にプロットされ、偽陽性率はx軸にプロットされている。図84Aは、Sequel Sequencing Kit 3.0に基づいて生成されたSMRT-seqデータを示す。図84Bは、Sequel II sequencing Kit 1.0に基づいて生成されたSMRT-seqデータを示す。図84Cは、Sequel II Sequencing Kit 2.0に基づいて生成されたSMRT-seqデータを示す。図中、分析されるCpGシトシン部位の上流信号を、「-」で示した。分析されるCpGシトシン部位の下流信号を、「+」で示した。例えば、「-6nt」は、分析されるCpGシトシン部位の6nt上流信号を表す。「+6nt」は、分析されるCpGシトシン部位の6nt下流信号を表す。「±6nt」は、分析されるCpGシトシン部位の6nt上流信号と6nt下流信号の両方を含むことを示した(すなわち、CpGシトシン部位に隣接する合計12ntの配列)。
1. Measurement windows Figures 84A, 84B, and 84C show whole genome amplification data (unmethylated CpG sites) and M. Figure 3 shows the performance of different measurement window sizes across different reagent kits for SMRT-seq on a training dataset containing Ssssl-treated data (methylated CpG sites). The true positive rate is plotted on the y-axis and the false positive rate is plotted on the x-axis. FIG. 84A shows SMRT-seq data generated based on Sequel Sequencing Kit 3.0. FIG. 84B shows SMRT-seq data generated based on Sequel II sequencing Kit 1.0. FIG. 84C shows SMRT-seq data generated based on Sequel II Sequencing Kit 2.0. In the figure, the signal upstream of the analyzed CpG cytosine site is indicated by "-". Signals downstream of the analyzed CpG cytosine site are indicated by "+". For example, "-6nt" represents a 6nt upstream signal for the CpG cytosine site being analyzed. "+6nt" represents the 6nt downstream signal of the CpG cytosine site being analyzed. "±6nt" indicated inclusion of both a 6nt upstream signal and a 6nt downstream signal of the CpG cytosine site being analyzed (ie, a total of 12nt sequences flanking the CpG cytosine site).

図84Aに示されるように、分析されるCpGシトシンの信号およびそのシトシンの6nt上流(-6ntで示される)信号(例えば、IPD、PW、相対位置、配列組成)を含む測定ウィンドウを使用した、Sequel Sequencing Kit 3.0に基づく訓練データセットの場合、0.50のAUC値は、メチル化CpGシトシンを非メチル化シトシンから区別する際の識別力がないことを示唆した。しかしながら、Sequel II Sequencing Kit 1.0および2.0に基づく訓練データセットの場合、対応するAUC値は、0.62(図84B)および0.75(図84C)であった。これらのデータは、SMRT-seqで使用される異なる試薬に固有の異なる動態プロファイルがあることを示している。これらのデータは、本明細書に開示される方法が、異なる試薬の使用に容易に適合されることを示す。さらに、塩基修飾を検出する精度は、試薬のさらなる開発、例えば、異なるポリメラーゼの使用および他の化学により、潜在的に改善され得る。 Using a measurement window that includes the signal of the CpG cytosine to be analyzed and the signal 6 nt upstream of that cytosine (designated −6 nt) (e.g., IPD, PW, relative position, sequence composition), as shown in FIG. For the training dataset based on Sequel Sequencing Kit 3.0, an AUC value of 0.50 suggested no discriminatory power in distinguishing methylated CpG cytosines from unmethylated cytosines. However, for training datasets based on Sequel II Sequencing Kit 1.0 and 2.0, the corresponding AUC values were 0.62 (Fig. 84B) and 0.75 (Fig. 84C). These data indicate that there are different kinetic profiles inherent to different reagents used in SMRT-seq. These data demonstrate that the methods disclosed herein are readily adapted for use with different reagents. Moreover, the accuracy of detecting base modifications can potentially be improved by further development of reagents, such as using different polymerases and other chemistries.

別の例として、図84Aに示すように、CpGシトシン部位の10bp上流(-10ntと表示)の信号を含む測定ウィンドウを使用して、Sequel Sequencing Kit 3.0に基づく訓練データセットの場合、0.50のAUC値により、メチル化されたCpGシトシンを非メチル化シトシンと区別する識別力はないことが示唆された。しかしながら、Sequel II Sequencing Kit 1.0および2.0に基づく訓練データセットの場合、対応するAUC値は0.66(図84B)および0.79(図84C)であり、6nt上流信号を含む測定ウィンドウと比較して、改善されていることが示された。これらのデータは、SMRT-seqに使用された異なる試薬に固有の異なる動態プロファイルがあることを確認した。これらのデータは、本明細書に開示される方法が、異なる試薬の使用に容易に適合されることを示す。 As another example, as shown in FIG. 84A, using a measurement window containing the signal 10 bp upstream of the CpG cytosine site (labeled −10 nt), for a training dataset based on Sequel Sequencing Kit 3.0, 0 An AUC value of 0.50 suggested that there was no discriminatory power to distinguish methylated CpG cytosines from unmethylated cytosines. However, for training datasets based on Sequel II Sequencing Kit 1.0 and 2.0, the corresponding AUC values were 0.66 (Fig. 84B) and 0.79 (Fig. 84C), indicating that measurements containing 6 nt upstream signals It was shown to be improved compared to windows. These data confirmed that there are different kinetic profiles inherent to the different reagents used for SMRT-seq. These data demonstrate that the methods disclosed herein are readily adapted for use with different reagents.

上流信号を有する測定ウィンドウとは対照的に、下流信号を有する測定ウィンドウは、分類性能の大幅な改善につながる可能性がある。例えば、図84Aに示されるように、CpGシトシン部位の6nt下流信号(+6nt)を含む測定ウィンドウを使用したSequel Sequencing Kit 3.0に基づく訓練データセットの場合、AUC値が0.94であり、6nt上流信号を使用した場合(AUC:0.5)よりもはるかに大きかった。Sequel II Sequencing Kit 1.0および2.0に基づく訓練データセットの場合、対応するAUC値は、それぞれ0.95(図84B)および0.92(図84C)であり、6nt上流を含む測定ウィンドウと比較して、改善を示している。これらのデータは、配列文脈にリンクした動態特徴が、限定されないがCNNモデルを使用した分類力を改善することを示唆している。これらのデータはまた、本明細書の開示が、測定ウィンドウを調整することを通して、異なる試薬および異なる配列決定条件(例えば、異なるポリメラーゼ、他の化学試薬、それらの濃度および配列決定の反応パラメータ(例えば、持続時間))によって生成されるデータセットに適用可能であることを示唆した。同様の結論は、CpGシトシン部位の10nt下流信号を含む測定ウィンドウを使用した分析から導き出される(図84A、84B、および84C)。 Measurement windows with downstream signals, as opposed to measurement windows with upstream signals, can lead to significantly improved classification performance. For example, as shown in FIG. 84A, for a training dataset based on Sequel Sequencing Kit 3.0 using a measurement window containing 6 nt downstream signals (+6 nt) of CpG cytosine sites, the AUC value is 0.94, It was much larger than when using the 6nt upstream signal (AUC: 0.5). For training datasets based on Sequel II Sequencing Kit 1.0 and 2.0, the corresponding AUC values are 0.95 (Fig. 84B) and 0.92 (Fig. 84C), respectively, with a measurement window containing 6 nt upstream shows an improvement compared to These data suggest that kinetic features linked to sequence context improve classification power using, but not limited to, CNN models. These data also allow the disclosure herein to use different reagents and different sequencing conditions (e.g., different polymerases, other chemical reagents, their concentrations and sequencing reaction parameters (e.g., , duration)) is applicable to datasets generated by Similar conclusions are drawn from analyzes using measurement windows containing 10 nt downstream signals of CpG cytosine sites (FIGS. 84A, 84B, and 84C).

別の実施形態では、分析されるシトシン上の信号、およびそのシトシンの上流および下流の両方の信号を含む測定ウィンドウを使用することができる。例えば、図84A、84B、および84Cに示されるように、6nt上流信号と6nt下流信号(±6ntで示される)を含む測定ウィンドウを使用すると、AUC値は、Sequel Sequencing Kit 3.0、Sequel II Sequencing Kit 1.0および2.0に基づく訓練データセットについて、それぞれ0.94、0.95、および0.92であることがわかった。10nt上流信号と10nt下流信号(±10ntで示される)を含む測定ウィンドウを使用すると、AUC値は、Sequel Sequencing Kit 3.0、Sequel II Sequencing Kit 1.0および2.0に基づく訓練データセットについて、それぞれ0.94、0.95、および0.94であることがわかった。これらのデータは、本明細書の開示が、異なる試薬および異なる配列決定の反応パラメータによって生成されたデータセットに広く適用可能であることを示唆した。 In another embodiment, a measurement window can be used that includes the signal on the cytosine being analyzed and the signal both upstream and downstream of that cytosine. For example, as shown in FIGS. 84A, 84B, and 84C, using a measurement window containing 6 nt upstream and 6 nt downstream signals (indicated by ±6 nt), AUC values are calculated using Sequel Sequencing Kit 3.0, Sequel II It was found to be 0.94, 0.95, and 0.92 for training datasets based on Sequencing Kit 1.0 and 2.0, respectively. Using a measurement window containing 10 nt upstream and 10 nt downstream signals (denoted as ±10 nt), the AUC values are calculated for training datasets based on Sequel Sequencing Kit 3.0, Sequel II Sequencing Kit 1.0 and 2.0. , were found to be 0.94, 0.95, and 0.94, respectively. These data suggested that the disclosure herein is broadly applicable to data sets generated with different reagents and different sequencing reaction parameters.

訓練データセットで訓練されたCNNモデルを適用した場合、異なる配列キット全体で異なる測定ウィンドウを用いた試験データセットから取得された結果を、図85A、85B、および85Cに示した。真陽性率はy軸にプロットされ、偽陽性率はx軸にプロットされている。凡例のラベリングは、図84A、84B、および84Cで使用されたラベリングと同等である。図85Aは、Sequel Sequencing Kit 3.0に基づいて生成されたSMRT-seqデータを示す。図85Bは、Sequel II sequencing Kit 1.0に基づいて生成されたSMRT-seqデータを示す。図85Cは、Sequel II Sequencing Kit 2.0に基づいて生成されたSMRT-seqを示す。訓練データセットで導き出されたすべての結論は、訓練プロセスに関与しなかったこれらの独立した試験データセットで検証され得る。さらに、3つの独立した試験データセットの中で、Sequel II Sequencing Kit 1.0および2.0を含む2つのデータセット(2/3)の分析では、10nt上流および10nt下流信号(±10ntで示される)を含む測定ウィンドウの使用が、他のデータセットよりも優れていることが示された。 Results obtained from test datasets using different measurement windows across different sequence kits when applying the CNN model trained on the training dataset are shown in FIGS. 85A, 85B, and 85C. The true positive rate is plotted on the y-axis and the false positive rate is plotted on the x-axis. The labeling of the legend is comparable to the labeling used in Figures 84A, 84B, and 84C. FIG. 85A shows SMRT-seq data generated based on Sequel Sequencing Kit 3.0. FIG. 85B shows SMRT-seq data generated based on Sequel II sequencing Kit 1.0. FIG. 85C shows SMRT-seq generated based on Sequel II Sequencing Kit 2.0. All conclusions drawn on the training dataset can be validated on these independent test datasets that were not involved in the training process. Furthermore, among the three independent test datasets, analysis of two datasets (2/3) containing Sequel II Sequencing Kits 1.0 and 2.0 showed 10 nt upstream and 10 nt downstream signals (shown as ±10 nt). ) was shown to be superior to other datasets.

2.バイサルファイト配列決定との比較
図86A、86B、および86Cは、バイサルファイト配列決定およびSMRT-seq(Sequel II Sequencing Kit 2.0)によって定量された全体的なメチル化レベルの相関を示す。図86Aでは、SMRT-seqによって定量されたパーセンテージとしてのメチル化レベルを、y軸に示す。図86Bでは、バイサルファイト配列決定によって定量されたパーセンテージとしてのメチル化レベルを、x軸に示す。黒い線は、近似した回帰直線である。破線は、2つの尺度が等しい対角線である。図86Bは、ブランド・アルトマンプロットを示す。x軸は、本開示によるSMRT-seqおよびバイサルファイト配列決定によって定量されたメチル化レベルの平均を示す。y軸は、本開示によるSMRT-seqとバイサルファイト配列決定(すなわち、Pacific Biosciencesメチル化-バイサルファイトベースのメチル化)との間のメチル化レベルの違いを示す。破線は、2つの尺度間で差がないゼロを横切る水平線に対応する。破線から外れたデータポイントは、尺度間に偏差が存在することを示している。図86Cは、バイサルファイト配列決定によって定量された値に対するパーセンテージ変化を示す。x軸は、本開示によるSMRT-seqおよびバイサルファイト配列決定によって定量されたメチル化レベルの平均を示す。y軸は、メチル化レベルの平均に対する2つの尺度間のメチル化レベルの差のパーセンテージを示す。破線は、2つの尺度間に差がないゼロを横切る水平線に対応する。破線から外れたデータポイントは、尺度間に偏差が存在することを示している。
2. Comparison with Bisulfite Sequencing Figures 86A, 86B, and 86C show the correlation of global methylation levels quantified by bisulfite sequencing and SMRT-seq (Sequel II Sequencing Kit 2.0). In Figure 86A, the methylation level as a percentage quantified by SMRT-seq is shown on the y-axis. In Figure 86B, the methylation level as a percentage quantified by bisulfite sequencing is shown on the x-axis. The black line is the fitted regression line. The dashed line is a diagonal line with two equal scales. FIG. 86B shows a Bland-Altman plot. The x-axis shows the average methylation levels quantified by SMRT-seq and bisulfite sequencing according to the present disclosure. The y-axis shows the difference in methylation levels between SMRT-seq according to the present disclosure and bisulfite sequencing (ie, Pacific Biosciences methylation-bisulfite-based methylation). Dashed lines correspond to horizontal lines crossing zero where there is no difference between the two scales. Data points outside the dashed line indicate deviations between scales. FIG. 86C shows percentage changes relative to values quantified by bisulfite sequencing. The x-axis shows the average methylation levels quantified by SMRT-seq and bisulfite sequencing according to the present disclosure. The y-axis shows the percentage difference in methylation level between the two scales relative to the mean methylation level. Dashed lines correspond to horizontal lines crossing zero where there is no difference between the two scales. Data points outside the dashed line indicate deviations between scales.

図86Aに関して、線形回帰式はY=aX+bであり、式中、「Y」は、本開示によるSMRT-seqによって決定されたメチル化レベルを表し、「X」は、バイサルファイト配列決定によって決定されたメチル化レベルを表し、「a」は、回帰直線の傾きを表し(例えば、a=1.45)、「b」は、y軸の切片を表す(例えば、b=-20.98)。この場合、SMRT-seqによって決定されるメチル化値は、(Y-b)/aによって計算される。このグラフは、SMRT-seqによって決定されたメチル化レベルが、バイサルファイト配列決定によって決定されたメチル化レベルに変換され得ることを示し、Sequel II Sequencing Kit 1.0と同様にSequel II Sequencing Kit 2.0について逆も然りである。 With respect to FIG. 86A, the linear regression equation is Y=aX+b, where “Y” represents the methylation level as determined by SMRT-seq according to the present disclosure and “X” is determined by bisulfite sequencing. 'a' represents the slope of the regression line (eg, a=1.45) and 'b' represents the intercept of the y-axis (eg, b=−20.98). In this case, the methylation value determined by SMRT-seq is calculated by (Yb)/a. This graph shows that methylation levels determined by SMRT-seq can be converted to methylation levels determined by bisulfite sequencing, Sequel II Sequencing Kit 2 as well as Sequel II Sequencing Kit 1.0. .0 and vice versa.

図86Bは、本開示によるSMRT-seqとバイサルファイト配列決定との間のメチル化の定量のバイアスを示すブランド・アルトマンプロットであり、x軸は、本開示によるSMRT-seqおよびバイサルファイト配列決定によって定量されたメチル化レベルの平均を示し、y軸は、本開示によるSMRT-seqおよびバイサルファイト配列決定によって定量されたメチル化レベルの差を示す。2つの測定値間の中央値の差は、-6.85%(範囲:-10.1~1.7%)であった。バイサルファイト配列決定による値に対して、本開示によって定量されたメチル化レベルのパーセンテージ変化の中央値は、-9.96%(範囲:-14,76~3.21%)であった。この差は、平均値に応じて異なる。2つの尺度の平均が大きいほど、バイアスが大きくなる。 FIG. 86B is a Bland-Altman plot showing the bias in methylation quantification between SMRT-seq and bisulfite sequencing according to the present disclosure, where the x-axis is the Mean quantified methylation levels are shown and the y-axis shows differences in methylation levels quantified by SMRT-seq and bisulfite sequencing according to the present disclosure. The median difference between the two measurements was -6.85% (range: -10.1 to 1.7%). The median percentage change in methylation levels quantified by the present disclosure relative to values by bisulfite sequencing was −9.96% (range: −14,76 to 3.21%). This difference varies depending on the average value. The greater the average of the two measures, the greater the bias.

図86Cは、図86Bと同じデータを示しているが、メチル化レベルの差は、2つのメチル化レベルの平均で割ったものである。図86Cはまた、2つの測定値の平均が大きいほど、バイアスが大きくなることを示す。 Figure 86C shows the same data as Figure 86B, but the difference in methylation levels is divided by the average of the two methylation levels. FIG. 86C also shows that the greater the average of the two measurements, the greater the bias.

エラーはバイサルファイト配列決定にある可能性があり、SMRT-seqを使用した方法とは関係ない。従来の全ゲノムバイサルファイト配列決定(Illumina)は、特定のゲノム領域では、方法間でメチル化レベルの定量にかなりの変動があり、著しくバイアスのある配列出力および過大評価された全体的なメチル化を導入することが報告された(Olova et al.Genome Biol.2018;19:33)。本明細書に開示される実施形態は、いくつかの例示的な利点を有し、DNAを劇的に分解するバイサルファイト変換なしで実施することができ、PCR増幅なしで実施することができる。 The error could be in the bisulfite sequencing and not related to the method using SMRT-seq. Conventional whole-genome bisulfite sequencing (Illumina) has shown, in specific genomic regions, considerable variation in quantification of methylation levels between methods, resulting in significantly biased sequence output and overestimated global methylation. (Olova et al. Genome Biol. 2018; 19:33). Embodiments disclosed herein have several exemplary advantages, can be performed without bisulfite conversion, which dramatically degrades DNA, and can be performed without PCR amplification.

3.組織起源
本開示の実施形態に従って、単一分子リアルタイム配列決定(SMRT-seq、Pacific Biosciences)を使用して、様々な癌のタイプにわたるメチル化分析を実施した。SMRT-seqに使用される癌のタイプには、大腸癌(n=3)、食道癌(n=2)、乳癌(n=2)、腎細胞癌(n=2)、肺癌(n=2)、卵巣癌(n=2)、前立腺癌(n=2)、胃癌(n=2)、および膵臓癌(n=1)が含まれるが、これらに限定されない。それらの一致する隣接する非腫瘍組織も、SMRT-seqに含まれた。データセットは、Sequel II Sequencing Kit 2.0によって調製されたDNAから生成された。
3. Tissue Origin Methylation analysis across various cancer types was performed using single-molecule real-time sequencing (SMRT-seq, Pacific Biosciences) according to an embodiment of the present disclosure. Cancer types used for SMRT-seq include colon cancer (n=3), esophageal cancer (n=2), breast cancer (n=2), renal cell carcinoma (n=2), lung cancer (n=2). ), ovarian cancer (n=2), prostate cancer (n=2), gastric cancer (n=2), and pancreatic cancer (n=1). Their matching adjacent non-tumor tissue was also included in the SMRT-seq. The dataset was generated from DNA prepared by the Sequel II Sequencing Kit 2.0.

図87Aおよび87Bは、様々な腫瘍組織とペアの隣接する非腫瘍組織との間の全体的なメチル化レベルの比較を示す。メチル化レベルは、パーセンテージとしてy軸にある。図87Aでは、SMRT-seqによって、メチル化レベルが定量されている。図87Bでは、バイサルファイト配列決定によって、メチル化レベルが定量されている。組織のタイプ(すなわち、腫瘍組織または隣接する非腫瘍組織)は、x軸にある。異なるシンボルは、異なる起源の組織を表す。 Figures 87A and 87B show a comparison of global methylation levels between various tumor tissues and paired adjacent non-tumor tissues. Methylation levels are on the y-axis as percentages. In Figure 87A, methylation levels are quantified by SMRT-seq. In Figure 87B, methylation levels are quantified by bisulfite sequencing. Tissue type (ie, tumor tissue or adjacent non-tumor tissue) is on the x-axis. Different symbols represent tissues of different origin.

図87Aは、乳癌、大腸癌、食道癌、肝臓癌、肺癌、卵巣癌、膵臓癌、腎細胞癌、および胃癌を含む腫瘍組織の全体的なメチル化レベルが、対応する非-腫瘍組織(それぞれ、乳房、結腸、食道、肝臓、肺、卵巣、膵臓、前立腺、腎臓、および胃を含む)よりも有意に低かった(P値=0.006、対応のある標本のウィルコクソンの符号順位検定)。腫瘍とペアの非腫瘍組織との間のメチル化レベルの差の中央値は、-2.7%であった(IQR:-6.4~-0.8%)。 Figure 87A shows that the global methylation levels of tumor tissues, including breast, colon, esophageal, liver, lung, ovarian, pancreatic, renal cell, and gastric cancers, were compared with the corresponding non-tumor tissues (respectively). , including breast, colon, esophagus, liver, lung, ovary, pancreas, prostate, kidney, and stomach) (P-value=0.006, Wilcoxon signed-rank test of paired samples). The median difference in methylation levels between tumor and paired non-tumor tissues was −2.7% (IQR: −6.4 to −0.8%).

図84Bは、腫瘍組織におけるより低いメチル化レベルを確認する。したがって、これらの結果は、様々な癌のタイプおよび組織にわたるメチル化パターンが、本開示によるSMRT-seqによって正確に決定できることを示唆し、組織生検の基礎となる癌の早期発見、予後、診断および治療のための本開示の幅広い用途を意味している。様々な腫瘍のタイプにわたるメチル化レベルの低下の程度の違いは、メチル化パターンが癌のタイプに関連していることを示唆している可能性があり、癌の起源の組織を決定することができる。 Figure 84B confirms lower methylation levels in tumor tissue. Thus, these results suggest that methylation patterns across various cancer types and tissues can be accurately determined by SMRT-seq according to the present disclosure, providing early detection, prognosis, and diagnosis of cancer on the basis of tissue biopsy. and broad application of the present disclosure for therapy. Differences in the degree of reduction in methylation levels across various tumor types may suggest that methylation patterns are related to cancer type, and may be useful in determining the tissue of origin of the cancer. can.

D.強化検出および他の技術
一部の実施形態では、塩基修飾(例えば、メチル化)の分析は、次のパラメータ:配列文脈、IPDおよびPW、のうちの1つ以上を使用して実施され得る。IPDとPWは、参照ゲノムに整列することなく、配列決定反応から決定することができる。単一分子リアルタイム配列決定アプローチの態様により、配列文脈、IPD、およびPWを決定する精度がさらに強化され得る。1つの態様は、配列鋳型の特定の箇所を複数回測定し得る循環コンセンサス配列の性能であり、これにより、これらの複数のリードによる値の平均または分布に基づいて、配列文脈、IPD、およびPWを測定することが可能になる。特定の実施形態では、整列プロセスを伴わない塩基修飾の分析は、計算効率を高め、所用時間を短縮し、分析のコストを削減し得る。実施形態は、整列プロセスなしで実施することができる。さらに他の実施形態では、整列プロセスを使用することができ、また、それが好ましい場合があり、例えば、整列プロセスを使用して、検出された塩基修飾の臨床的または生物学的意味を確認する場合(例えば、腫瘍抑制因子は高メチル化されている場合)、または、整列プロセスを使用して、さらなる分析のために目的の特定のゲノム領域に対応する配列決定データのサブセットを選択する場合である。選択されたゲノム領域からのデータが望まれる実施形態の場合、これらの実施形態は、ゲノム内の目的の領域、例えば、制限酵素またはCRISPR-Cas9システムで切断することができる1つ以上の酵素または酵素ベースの方法論を使用して、そのような領域を標的化することを伴い得る。PCR増幅は、典型的には、DNAの塩基修飾に関する情報が保存されないため、CRISPR-Cas9システムはPCRベースの方法よりも好ましい場合がある。そのような選択された(生物情報学的に〔例えば、整列を介して〕またはCRISPR-Cas9などの方法を介して)領域のメチル化レベルを分析して、組織起源、胎児障害、妊娠障害、および癌に関する情報を提供することができる。
D. Enhanced Detection and Other Techniques In some embodiments, analysis of base modifications (eg, methylation) can be performed using one or more of the following parameters: sequence context, IPD and PW. IPDs and PWs can be determined from sequencing reactions without alignment to a reference genome. Aspects of single-molecule real-time sequencing approaches can further enhance the accuracy of determining sequence context, IPD, and PW. One aspect is the ability of a circular consensus sequence to measure a particular location in a sequence template multiple times, thereby providing sequence context, IPD, and PW values based on the mean or distribution of values from these multiple reads. can be measured. In certain embodiments, analysis of base modifications without an alignment process can increase computational efficiency, reduce turnaround time, and reduce the cost of analysis. Embodiments can be implemented without an alignment process. In still other embodiments, an alignment process can be used, and may be preferred, e.g., to confirm the clinical or biological significance of detected base modifications. (e.g., the tumor suppressor is hypermethylated), or the alignment process is used to select subsets of the sequencing data corresponding to specific genomic regions of interest for further analysis. be. For those embodiments in which data from a selected genomic region is desired, these embodiments include the region of interest within the genome, e.g., one or more enzymes or It may involve targeting such regions using enzyme-based methodologies. CRISPR-Cas9 systems may be preferred over PCR-based methods because PCR amplification typically does not preserve information about base modifications in DNA. Analysis of methylation levels of such selected regions (biinformatically [e.g., via alignment] or via methods such as CRISPR-Cas9) can be used to determine tissue origin, fetal defects, pregnancy defects, and can provide information about cancer.

1.参照ゲノムに整列せずにサブリードを使用したメチル化分析
実施形態では、メチル化分析は、参照ゲノムへの整列なしで、サブリードからの動態特徴および配列文脈を含む測定ウィンドウを使用して実施され得る。図88に示されるように、ゼロモード導波(ZMW)に由来するサブリードを使用して、コンセンサス配列8802(循環コンセンサス配列(CCS)としても知られている)を構築した。限定されないがPWおよびIPD値を含むCCSの各位置での平均動態値を計算した。CpG部位を取り巻く配列文脈は、そのCpG部位の上流および下流配列に基づいてCCSから決定された。したがって、本開示で定義される測定ウィンドウは、訓練のために構築され、測定ウィンドウには、CCSに関連する動態特徴を有するサブリードに従う、PW、IPD値、および配列文脈が含まれる。この手順により、サブリードを参照ゲノムに整列することが不要になる。
1. Methylation Analysis Using Subreads Without Alignment to Reference Genome In embodiments, methylation analysis can be performed using measurement windows that include kinetic features and sequence context from subreads without alignment to a reference genome. . A consensus sequence 8802 (also known as circular consensus sequence (CCS)) was constructed using subreads derived from zero-mode waveguiding (ZMW), as shown in FIG. Mean kinetic values at each location of CCS, including but not limited to PW and IPD values, were calculated. The sequence context surrounding the CpG site was determined from the CCS based on the upstream and downstream sequences of the CpG site. Thus, the measurement window defined in this disclosure is constructed for training, and includes PW, IPD values, and sequence context according to subreads with CCS-relevant kinetic features. This procedure eliminates the need to align subreads to the reference genome.

図88に示される原理を試験するために、全ゲノム増幅DNAに由来する601,942個の非メチル化CpG部位と、CpGメチルトランスフェラーゼ(例えば、M.SssI)処理DNAに由来する163,527個のメチル化CpG部位とを使用して、訓練データセットを作成した。全ゲノム増幅DNAに由来する546,393個の非メチル化CpG部位と、CpGメチルトランスフェラーゼ(例えば、M.SssI)処理DNAに由来する193,641個のメチル化CpG部位を使用して、試験データセットを作成した。データセットは、Sequel II Sequencing Kit 2.0によって調製されたDNAから生成された。 To test the principle shown in Figure 88, 601,942 unmethylated CpG sites derived from whole genome amplified DNA and 163,527 derived from CpG methyltransferase (e.g., M.SssI) treated DNA. and methylated CpG sites were used to generate a training data set. Using 546,393 unmethylated CpG sites derived from whole genome amplified DNA and 193,641 methylated CpG sites derived from CpG methyltransferase (e.g., M.SssI) treated DNA, test data created a set. The dataset was generated from DNA prepared by the Sequel II Sequencing Kit 2.0.

図89に示されるように、一実施形態では、サブリードおよびCCSに関連する動態特徴および配列文脈を使用して、メチル化を決定するための畳み込みニューラルネットワーク(CNN)モデルを訓練すると、試験データセットおよび訓練データセットにおいて、メチル化CpG部位と非メチル化CpG部位を区別するAUC値が、それぞれ0.94および0.95を達成することができる。他の実施形態では、他のニューラルネットワークモデル、深層学習アルゴリズム、人工知能、および/または機械学習アルゴリズムを使用することができる。 As shown in FIG. 89, in one embodiment, sub-read and CCS-related kinetic features and sequence context are used to train a convolutional neural network (CNN) model for determining methylation, resulting in and in the training data set, AUC values of 0.94 and 0.95, respectively, that discriminate between methylated and unmethylated CpG sites can be achieved. Other embodiments may use other neural network models, deep learning algorithms, artificial intelligence, and/or machine learning algorithms.

メチル化の確率のカットオフを0.2設定すると、メチル化CpG部位の検出において、82.4%の感度と91.7%の特異度を取得することができる。これらの結果は、参照ゲノムへの事前の整列なしで、動態特徴を伴うサブリードを使用して、メチル化CpG部位と非メチル化CpG部位を区別することができることを示している。 Setting the methylation probability cutoff to 0.2, it is possible to obtain a sensitivity of 82.4% and a specificity of 91.7% in detecting methylated CpG sites. These results demonstrate that subreads with kinetic features can be used to distinguish between methylated and unmethylated CpG sites without prior alignment to the reference genome.

別の実施形態では、CpG部位全体のメチル化状態を決定するために、CCS情報なしで、かつ参照ゲノムへの事前の整列なしで、サブリードから直接配列文脈とともに動態特徴を使用することもできる。メチル化状態を決定するためのCNNモデルを訓練するために、サブリードに存在するCpGの20nt上流と20nt下流にまたがる位置でのPWおよびIPD値を含む動態特徴を使用した。図90に示されるように、本開示の実施形態による、サブリードに関連する動態特徴を使用するROC曲線のAUCは、訓練および試験データセットにおいてメチル化CpG部位を検出するために、それぞれ0.70および0.69であった。これらのデータは、本開示の実施形態を使用して、サブリードに関連する動態特徴を使用するが、コンセンサス配列の事前の整列および構築なしで、DNA分子のメチル化パターンを推測することが実行可能であることを示唆した。しかしながら、この実施形態でメチル化を決定する性能は、本開示に記載されるように、整列情報またはコンセンサス配列を組み合わせて利用する実施形態よりも劣っていた。サブリードと動態値を生成する際の精度の強化により、サブリードとそれに関連する動態特徴を使用して塩基修飾を決定する性能が改善すると考えられる。 In another embodiment, kinetic features can also be used with sequence context directly from subreads, without CCS information and without prior alignment to the reference genome, to determine the methylation status across CpG sites. Kinetic features including PW and IPD values at positions spanning 20 nt upstream and 20 nt downstream of CpGs present in subreads were used to train a CNN model for determining methylation status. As shown in FIG. 90, the AUC of the ROC curve using sub-read related kinetic features, according to embodiments of the present disclosure, is 0.70 for detecting methylated CpG sites in the training and test datasets, respectively. and 0.69. These data demonstrate that using embodiments of the present disclosure, it is feasible to infer methylation patterns of DNA molecules using kinetic features associated with subreads, but without prior alignment and construction of consensus sequences. suggested that However, the performance of this embodiment to determine methylation was inferior to the embodiments utilizing a combination of alignment information or consensus sequences as described in this disclosure. Enhanced accuracy in generating subreads and kinetic values is expected to improve the ability to determine base modifications using subreads and their associated kinetic features.

2.標的化単一分子リアルタイム配列決定を使用した、欠失領域のメチル化分析
本明細書に記載の方法はまた、1つ以上の選択されたゲノム領域を分析するために適用され得る。一実施形態では、目的の領域(複数可)は、最初に、目的の領域(複数可)由来のDNA分子が相補的配列を有する合成オリゴヌクレオチドにハイブリダイズすることを可能にするハイブリダイゼーション法によって濃縮され得る。本明細書に記載の方法を使用した塩基修飾の分析では、元のDNA分子の塩基修飾情報がPCR産物に伝達されないため、配列決定にかける前に、標的DNA分子をPCRで増幅することができない。PCR増幅を行わずにこれらの標的領域を濃縮するために、いくつかの方法が開発されている。
2. Methylation Analysis of Deletion Regions Using Targeted Single-Molecular Real-Time Sequencing The methods described herein can also be applied to analyze one or more selected genomic regions. In one embodiment, the region(s) of interest are first obtained by hybridization methods that allow DNA molecules from the region(s) of interest to hybridize to synthetic oligonucleotides having complementary sequences. can be concentrated. Analysis of base modifications using the methods described herein does not transfer the base modification information of the original DNA molecule to the PCR product, so the target DNA molecule cannot be amplified by PCR prior to sequencing. . Several methods have been developed to enrich for these target regions without PCR amplification.

別の実施形態では、標的領域(複数可)は、CRISPR-Cas9システムの使用を通して濃縮することができる(Stevens et al.PLOS One 2019;14(4):e0215441、Watson et al.Lab Invest 2020;100:135-146)。一実施形態では、DNA試料中のDNA分子の末端を最初に脱リン酸化することで、それらが配列決定アダプターに直接連結されないようにする。次いで、目的の領域(複数可)は、ガイドRNA(crRNA)を伴うCas9タンパク質によって誘導されて、二本鎖切断を作成する。次いで、二本鎖切断と隣接する両側の目的の領域(複数可)を、選択した配列決定プラットフォームによって指定された配列決定アダプターに連結する。別の実施形態では、Cas9タンパク質と結合していないDNA分子が分解されるように、DNAをエキソヌクレアーゼで処理することができる(Stevens et al.PLOS One 2019;14(4):e0215441)。これらの方法は、PCR増幅を伴わないため、塩基修飾を含む元のDNA分子の配列を決定し、塩基修飾を決定することができる。一実施形態では、この方法を使用して、相同配列を共有する多数の領域、例えば、長鎖散在反復配列(LINE)を標的にすることができる。一実施例では、そのような分析は、胎児の異数性の検出のために、母体血漿中の循環無細胞DNAの分析に使用することができる(Kinde et al.PLOS One 2012;7(7):e41162)。 In another embodiment, the target region(s) can be enriched through the use of the CRISPR-Cas9 system (Stevens et al. PLOS One 2019;14(4):e0215441, Watson et al. Lab Invest 2020; 100:135-146). In one embodiment, the ends of the DNA molecules in the DNA sample are first dephosphorylated so that they are not directly ligated to sequencing adapters. The region(s) of interest are then directed by the Cas9 protein with guide RNA (crRNA) to create a double-strand break. The region(s) of interest flanking the double-strand break are then ligated to sequencing adapters specified by the sequencing platform of choice. In another embodiment, DNA can be treated with an exonuclease such that DNA molecules not bound to Cas9 protein are degraded (Stevens et al. PLOS One 2019;14(4):e0215441). Since these methods do not involve PCR amplification, the original DNA molecule containing the base modifications can be sequenced and the base modifications determined. In one embodiment, this method can be used to target multiple regions that share homologous sequences, such as long interspersed repeats (LINEs). In one example, such assays can be used to analyze circulating cell-free DNA in maternal plasma for the detection of fetal aneuploidy (Kinde et al. PLOS One 2012; 7(7). ): e41162).

図91に示されるように、CRISPR(クラスター化して規則的な配置の短い回文配列リピート)/Cas9(CRISPR関連タンパク質9)システムを使用して、標的化単一分子リアルタイム配列決定を実装することができる。5’ホスホリル基(すなわち、5’-P)および3’ヒドロキシル基(すなわち、3’-OH)を有するDNA断片(例えば、分子9102)は、5’-Pを除去し、3’-OHをジデオキシヌクレオチド(すなわち、ddNTP)と連結することで、末端ブロックプロセスにかけた。したがって、末端が修飾された得られた分子(例えば、分子9104)は、その後のDNAライブラリ調製のためのアダプターと連結できなかった。しかしながら、末端ブロックされた分子は、CRISPR/Cas9システムによって媒介される標的特異的切断にかけられ、目的の分子に5’-Pおよび3’-OH末端を導入した。5’-Pおよび3’-OH末端を有するそのような新たに切断されたDNA分子(例えば、分子9106)は、ヘアピンアダプターと連結して、環状分子9108を形成することができるようになった。連結されていないアダプター、直鎖DNA、および1つの切断のみを有する分子を、エキソヌクレアーゼIIIおよびVIIによる消化にかけた。その結果、2つのヘアピンアダプターで連結された分子が濃縮され、単一分子リアルタイム配列決定にかけられた。これらの標的分子は、本開示に存在する実施形態による塩基修飾分析(すなわち、標的化単一分子リアルタイム配列決定)に適していた。 Implementing targeted single-molecule real-time sequencing using the CRISPR (clustered and regularly arranged short palindromic repeats)/Cas9 (CRISPR-associated protein 9) system, as shown in FIG. can be done. A DNA fragment (eg, molecule 9102) with a 5′ phosphoryl group (ie, 5′-P) and a 3′ hydroxyl group (ie, 3′-OH) has the 5′-P removed and the 3′-OH removed. It was subjected to the end-blocking process by ligation with dideoxynucleotides (ie, ddNTPs). Therefore, the resulting end-modified molecules (eg, molecule 9104) could not be ligated with adapters for subsequent DNA library preparation. However, end-blocked molecules were subjected to target-specific cleavage mediated by the CRISPR/Cas9 system to introduce 5'-P and 3'-OH ends to the molecule of interest. Such newly cleaved DNA molecules with 5′-P and 3′-OH ends (eg, molecule 9106) can now be ligated with hairpin adapters to form circular molecule 9108. . Unligated adapters, linear DNA, and molecules with only one break were subjected to digestion with exonucleases III and VII. As a result, molecules linked by two hairpin adapters were enriched and subjected to single-molecule real-time sequencing. These target molecules were suitable for base modification analysis (ie, targeted single-molecule real-time sequencing) according to embodiments present in the present disclosure.

図92に示されるように、CRISPR/Cas9システムのCas9タンパク質は、CRISPR RNA(crRNA、DNA標的化に関与)およびトランス活性化crRNA(tracrRNA、Cas9との複合体の形成に関与)を含むガイドRNA(すなわち、gRNA)と相互作用した(Pickar-Oliver et al.Nat Rev Mol Cell biol.2019;20:490-507)。曲線状の形は、Cas9タンパク質を表している。これは、CRISPR配列をガイドとして使用して、CRISPR配列の一部に相補的なDNAの特定の鎖を認識して切断する酵素である。crRNAは、tracrRNAにアニーリングされた。一実施形態では、合成単一RNA配列は、シングルガイドRNA(sgRNA)と呼ばれるcrRNAおよびtracrRNA配列の両方を含有していた。スペーサー配列と呼ばれるcrRNAのセグメントは、Cas9タンパク質が、標的領域への相補的な塩基対形成を通して、二本鎖DNA(dsDNA)の特定の鎖を認識して切断するように導く。一実施形態では、スペーサー配列と標的dsDNAとの間の相補性に関与するミスマッチはなかった。別の実施形態では、スペーサー配列と標的dsDNAとの間の相補的な塩基対形成は、ミスマッチを可能にするであろう。例えば、ミスマッチの数は、限定されないが、1、2、3、4、5、6、7、8などである。一実施形態では、CRISPR配列は、切断効率、特異性、感度、および異なるCRISPR/Cas複合体の設計の多重化の能力に応じて、プログラム可能である。 As shown in Figure 92, the Cas9 proteins of the CRISPR/Cas9 system consist of guide RNAs, including CRISPR RNA (crRNA, involved in DNA targeting) and transactivating crRNA (tracrRNA, involved in forming a complex with Cas9). (ie, gRNA) (Pickar-Oliver et al. Nat Rev Mol Cell biol. 2019;20:490-507). The curved shape represents the Cas9 protein. It is an enzyme that uses the CRISPR sequence as a guide to recognize and cut a specific strand of DNA that is complementary to a portion of the CRISPR sequence. crRNA was annealed to tracrRNA. In one embodiment, the synthetic single RNA sequence contained both crRNA and tracrRNA sequences, referred to as single guide RNA (sgRNA). A segment of crRNA called the spacer sequence directs the Cas9 protein to recognize and cleave a particular strand of double-stranded DNA (dsDNA) through complementary base-pairing to the target region. In one embodiment, there were no mismatches involved in complementarity between the spacer sequence and the target dsDNA. In another embodiment, complementary base pairing between the spacer sequence and the target dsDNA will allow for mismatches. For example, the number of mismatches can be, but is not limited to, 1, 2, 3, 4, 5, 6, 7, 8, and the like. In one embodiment, the CRISPR sequences are programmable according to cleavage efficiency, specificity, sensitivity, and ability to multiplex different CRISPR/Cas complex designs.

図93に示されるように、本発明者らは、ヒトゲノムのAluエレメントにまたがる2つの切断を標的とするCRISPR/Cas9複合体のペアを設計した。「XXX」は、Cas9ヌクレアーゼ切断部位に隣接する3つのヌクレオチドを示す。「YYY」は、「XXX」に相補的な3つの対応するヌクレオチドを示す。5’-NGGは、プロトスペーサー隣接モチーフ(PAM)配列を表す。他のCRISPR/Casシステムでは、PAM配列が異なる場合があり、Casヌクレアーゼ切断部位に隣接する配列が異なり得る。この図では、Alu領域のサイズは、223bpであった。1,175,329個のAlu領域があり、各々がヒトゲノム内のこのようなAluエレメントのホモログを含有していた。中央値として5つのCpG部位が、このAluエレメントに位置していた(範囲:0~34)。一例として、この設計には、20ntのスペーサー配列を含有する36ntのcrRNAが含有された。詳細なgRNAの配列情報は、以下のとおりである。 As shown in Figure 93, we designed a pair of CRISPR/Cas9 complexes that target two breaks spanning the Alu element of the human genome. "XXX" indicates the three nucleotides flanking the Cas9 nuclease cleavage site. "YYY" indicates the three corresponding nucleotides complementary to "XXX". 5'-NGG represents the protospacer adjacent motif (PAM) sequence. Other CRISPR/Cas systems may have different PAM sequences and different sequences flanking the Cas nuclease cleavage site. In this figure, the size of the Alu region was 223 bp. There were 1,175,329 Alu regions, each containing homologues of such Alu elements in the human genome. A median of 5 CpG sites were located in this Alu element (range: 0-34). As an example, this design contained a 36 nt crRNA containing a 20 nt spacer sequence. Detailed gRNA sequence information is as follows.

最初の切断を導入するための第1のCRISPR/Cas9複合体:(5’から3’までのすべての配列)
crRNA:GCCUGUAAUCCCAGCACUUUGUUUUAGAGCUAUGCU
tracrRNA:AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUU
First CRISPR/Cas9 complex to introduce the first cut: (all sequences from 5' to 3')
crRNA: GCCUGUAAUCCCAGCACUUUGUUUUAGAGCUAUGCU
tracrRNA: AGCAUAGCAAGUUAAAAAAAGGCUAGUCCGUUAUCAACUUGAAAAAAGUGGGCACCGAGUCGGUGCUUU

2番目の切断を導入するための第2のCRISPR/Cas9複合体:
crRNA:AGGGUCUCGCUCUGUCGCCCGUUUUAGAGCUAUGCU
tracrRNA:AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUU
A second CRISPR/Cas9 complex to introduce a second cut:
crRNA: AGGGUCUCGCUCUGUCGCCCCGUUUUUAGAGCUAUGCU
tracrRNA: AGCAUAGCAAGUUAAAAAAAGGCUAGUCCGUUAUCAACUUGAAAAAAGUGGGCACCGAGUCGGUGCUUU

crRNA分子をtracrRNA(例えば、67nt)にアニーリングして、gRNAの骨格を形成した。設計されたgRNAを含むCas9ヌクレアーゼは、特定のレベルの特異性で、標的切断部位を有する末端ブロックされた分子の両方の鎖を切断することができる。ヒトゲノムには、設計されたCRISPR/Cas9複合体によって切断されると想定された目的のAlu領域が116,184箇所あった。したがって、Cas9複合体による標的切断後、これらのAlu領域をヘアピンアダプターに連結することができる。ヘアピンアダプターに連結されたこれらの分子は、単一分子リアルタイム配列決定によって配列決定され得る。これらのAlu領域のメチル化パターンは、標的化の様式で決定することができる。一実施形態では、2つのCas9複合体からのスペーサー配列は、二本鎖DNA基質の同じ鎖(例えば、ワトソン鎖またはクリック鎖)と、塩基対を形成することができる。一実施形態では、2つのCas9複合体由来のgRNAのスペーサー配列は、二本鎖DNA基質の異なる鎖と塩基対を形成することができる。例えば、Cas9複合体の一方のスペーサー配列は、二本鎖DNA基質のワトソン鎖に相補的であり、かつCas9複合体の他方のスペーサー配列は、二本鎖DNA基質のクリック鎖に相補的であり、その逆も同様であった。 The crRNA molecule was annealed to the tracrRNA (eg, 67nt) to form the backbone of the gRNA. A Cas9 nuclease containing engineered gRNA can cleave both strands of an end-blocked molecule with a target cleavage site with a certain level of specificity. There were 116,184 Alu regions of interest in the human genome that were predicted to be cleaved by the designed CRISPR/Cas9 complex. Therefore, these Alu regions can be ligated to hairpin adapters after target cleavage by the Cas9 complex. These molecules ligated to hairpin adapters can be sequenced by single-molecule real-time sequencing. The methylation pattern of these Alu regions can be determined in a targeted manner. In one embodiment, spacer sequences from two Cas9 complexes can base pair with the same strand (eg, Watson strand or Crick strand) of a double-stranded DNA substrate. In one embodiment, the spacer sequences of two Cas9 complex-derived gRNAs are capable of base-pairing with different strands of a double-stranded DNA substrate. For example, one spacer sequence of the Cas9 complex is complementary to the Watson strand of the double-stranded DNA substrate and the other spacer sequence of the Cas9 complex is complementary to the Crick strand of the double-stranded DNA substrate. and vice versa.

一実施形態では、ヘアピンアダプターに連結されたDNA分子は、エキソヌクレアーゼ消化に耐性がある環状形態であった。したがって、アダプターに連結されたDNA産物を、エキソヌクレアーゼ(例えば、エキソヌクレアーゼIIIおよびVII)で処理して、直鎖DNA(例えば、オフターゲットDNA分子)を除去することができる。エキソヌクレアーゼを使用するこのステップは、標的分子をさらに濃縮することができる。配列決定される標的分子のサイズは、1つ以上のCas9ヌクレアーゼによって導入される2つの切断部位間のスパンサイズ(例えば、10bp、20bp、30bp、40bp、50bp、100bp、200bp、300bp、400bp、500bp、1000bp、2000bp、3000bp、4000bp、5000bp、10kb、20kb、30kb、40kb、50kb、100kb、200kb、300kb、500kb、および1Mbを含むが、これらに限定されない)に依存した。 In one embodiment, the DNA molecule ligated to the hairpin adapter was in a circular form that is resistant to exonuclease digestion. Thus, the adapter-ligated DNA product can be treated with exonucleases (eg, exonucleases III and VII) to remove linear DNA (eg, off-target DNA molecules). This step using an exonuclease can further enrich target molecules. The size of the target molecule to be sequenced is the span size between the two cleavage sites introduced by one or more Cas9 nucleases (e.g. , 1000 bp, 2000 bp, 3000 bp, 4000 bp, 5000 bp, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 100 kb, 200 kb, 300 kb, 500 kb, and 1 Mb).

一例として、Alu領域を標的とするgRNAを含むCas9を使用して、本発明者らは、単一分子リアルタイム配列決定を使用して、ヒト肝細胞癌(HCC)腫瘍組織試料から187,010分子を配列決定した。それらの中で、113,491個の分子が、標的切断を有していた(すなわち、オンターゲット切断率は分子の約60.7%であった)。データセットは、Sequel II Sequencing Kit 2.0によって調製されたDNAから生成された。言い換えれば、この実施例では、Cas9複合体によって目的の分子に導入された切断部位の特異度は60.7%であった。他の実施形態では、Cas9または他のCas複合体によって目的の分子に導入される切断部位の特異度は変化し、限定されないが、1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、および100%を含むであろう。Alu配列のCpG部位でのメチル化状態を決定するために、参照ゲノムに整列せずにCCSおよびサブリードに由来するIPD値、PW値、および配列文脈を使用した。 As an example, using Cas9 containing gRNAs targeting the Alu region, we used single-molecule real-time sequencing to identify 187,010 molecules from a human hepatocellular carcinoma (HCC) tumor tissue sample. were sequenced. Among them, 113,491 molecules had targeted cleavage (ie, the on-target cleavage rate was approximately 60.7% of the molecules). The dataset was generated from DNA prepared by the Sequel II Sequencing Kit 2.0. In other words, in this example, the specificity of the cleavage site introduced into the molecule of interest by the Cas9 complex was 60.7%. In other embodiments, the specificity of the cleavage site introduced into the molecule of interest by Cas9 or other Cas complexes varies, including but not limited to 1%, 5%, 10%, 20%, 30%, 40% %, 50%, 60%, 70%, 80%, 90%, and 100%. To determine the methylation status at CpG sites of Alu sequences, IPD values, PW values and sequence context derived from CCS and subreads without alignment to the reference genome were used.

図94に示されるように、バイサルファイト配列決定および本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベル間で、同様のメチル化の分布が観察された。図94は、バイサルファイト配列決定および単一分子リアルタイム配列決定(Pacific Biosciences)のメチル化密度(パーセント)のヒストグラムを示す。y軸は、x軸に示されている特定のメチル化密度を有する試料内の分子の割合を示す。この結果は、Cas9を介した標的化単一分子リアルタイム配列決定を使用して、メチル化パターンを決定することが実行可能であることを示唆した。この結果はまた、参照ゲノムに整列することなく、PW値およびIPD値を含むサブリードに関連する動態特徴を使用して、メチル化を決定できることも示唆した。図94に示すように、低メチル化を示すかなりの量のAlu領域が観察され、これは、Aluリピート領域で癌ゲノムが脱メチル化されるという以前の知見と一致していた(Rodriguez et al.Nucleic Acids Res.2008;36:770-784)。 As shown in Figure 94, a similar distribution of methylation was observed between methylation levels determined by bisulfite sequencing and single-molecule real-time sequencing according to the present disclosure. Figure 94 shows histograms of percent methylation density for bisulfite sequencing and single molecule real-time sequencing (Pacific Biosciences). The y-axis shows the percentage of molecules in the sample with a particular methylation density indicated on the x-axis. This result suggested that it would be feasible to determine methylation patterns using Cas9-mediated targeted single-molecule real-time sequencing. The results also suggested that kinetic features associated with subreads, including PW and IPD values, could be used to determine methylation without alignment to the reference genome. As shown in Figure 94, we observed significant amounts of Alu regions exhibiting hypomethylation, which was consistent with previous findings that cancer genomes are demethylated at Alu repeat regions (Rodriguez et al. .Nucleic Acids Res.2008;36:770-784).

図95は、y軸に、本開示による単一分子リアルタイム配列決定によって決定されたメチル化レベルの分布を示し、x軸に、バイサルファイト配列決定によって決定されたメチル化密度を示す。図95に示されるように、Alu領域のメチル化レベルは、バイサルファイト配列決定の結果に従って、5つのカテゴリー、つまり0~20%、20~40%、40~60%、60~80%、および80~100%に分類された。同じセットのAlu領域のメチル化レベルは、Alu領域の各カテゴリーの動態特徴および配列文脈(y軸)を含む測定ウィンドウを使用して、モデルによってさらに決定された。本発明者らのモデルによって決定されたメチル化レベルの分布は、ビン分けされたカテゴリー全体のメチル化レベルの昇順に従って、徐々に増加した。繰り返すが、これらの結果は、Cas9を介した標的化単一分子リアルタイム配列決定を使用して、メチル化パターンを決定することが可能であることを示唆している。参照ゲノムに整列することなく、PW値およびIPD値を含むサブリードに関連する動態特徴を使用して、メチル化を決定することができる。 FIG. 95 shows on the y-axis the distribution of methylation levels determined by single-molecule real-time sequencing according to the present disclosure and on the x-axis methylation density determined by bisulfite sequencing. As shown in Figure 95, the methylation level of the Alu region was divided into five categories according to the results of bisulfite sequencing: 0-20%, 20-40%, 40-60%, 60-80%, and Classified from 80 to 100%. The methylation levels of the same set of Alu regions were further determined by the model using a measurement window containing the kinetic features and sequence context (y-axis) of each category of Alu regions. The distribution of methylation levels determined by our model gradually increased according to the ascending order of methylation levels across binned categories. Again, these results suggest that Cas9-mediated targeted single-molecule real-time sequencing can be used to determine methylation patterns. Methylation can be determined using kinetic features associated with subreads, including PW and IPD values, without alignment to the reference genome.

さらに別の実施形態では、他のタイプのCRISPR/Casシステム、例えば、限定されないが、Cas12a、Cas3、および他のオーソログ(例えば、Staphylococcus aureus Cas9)または改変されたCasタンパク質(強化されたAcidaminococcus spp Cas12a)を使用して、標的化単一分子リアルタイム配列決定を行うことができる。 In yet another embodiment, other types of CRISPR/Cas systems, including but not limited to Cas12a, Cas3, and other orthologues (e.g., Staphylococcus aureus Cas9) or modified Cas proteins (enhanced Acidaminococcus spp Cas12a ) can be used to perform targeted single-molecule real-time sequencing.

一実施形態では、ヌクレアーゼ活性のない非活性化Cas9(dCas9)を使用して、切断することなく、標的分子を濃縮することができる。例えば、標的DNA分子は、ビオチン化dCas9および標的配列特異的gRNAを含む複合体と結合した。dCas9はヌクレアーゼを欠損しているため、このような標的DNA分子は、dCas9によって切断されない可能性がある。ストレプトアビジンでコーティングされた磁気ビーズの使用を通して、標的DNA分子を濃縮することができる。 In one embodiment, non-activated Cas9 (dCas9), which lacks nuclease activity, can be used to enrich target molecules without cleavage. For example, a target DNA molecule bound to a complex containing biotinylated dCas9 and target sequence-specific gRNA. Since dCas9 lacks a nuclease, such target DNA molecules may not be cleaved by dCas9. Target DNA molecules can be enriched through the use of streptavidin-coated magnetic beads.

一実施形態では、Casタンパク質とインキュベートした後、エキソヌクレアーゼを使用して、DNA混合物を消化することができる。エキソヌクレアーゼは、Casタンパク質非結合DNA分子を分解する可能性がある一方で、エキソヌクレアーゼは、Casタンパク質結合DNA分子を分解しないか、または分解の効率が大幅に低下する可能性がある。したがって、Casタンパク質が結合した標的分子に関する情報は、最終的な配列決定結果において、さらに濃縮され得る。 In one embodiment, exonucleases can be used to digest the DNA mixture after incubation with Cas proteins. Exonucleases may degrade Cas protein-unbound DNA molecules, whereas exonucleases may not degrade Cas protein-bound DNA molecules, or may degrade them much less efficiently. Therefore, information about target molecules to which Cas proteins have bound can be further enriched in the final sequencing results.

図96は、組織および組織内のAlu領域のメチル化レベルの表を示す。多くの組織は、88%~92%の範囲を含む、85~92%の範囲のメチル化レベルを示す。HCC腫瘍組織および胎盤組織は、80%未満のメチル化レベルを示した。図96に見られるように、HCC腫瘍は、本発明者らの設計によって標的とされたAlu領域において、頻繁に低メチル化されていることが示された。したがって、本開示に存在するAlu領域のメチル化決定は、腫瘍生検または他の組織もしくは細胞から抽出されたDNAを使用して、腫瘍の進行中または腫瘍の治療中の癌の検出、病期分類、および監視に使用することができる。 Figure 96 shows a table of tissues and methylation levels of Alu regions within tissues. Many tissues exhibit methylation levels in the 85-92% range, including the 88%-92% range. HCC tumor and placental tissues showed methylation levels below 80%. As seen in Figure 96, HCC tumors were shown to be frequently hypomethylated in the Alu regions targeted by our design. Thus, methylation determination of Alu regions presented in the present disclosure is useful for cancer detection, staging, during tumor progression or during tumor treatment, using DNA extracted from tumor biopsies or other tissues or cells. Can be used for classification and monitoring.

Alu領域全体の胎盤組織の低メチル化は、妊婦の血漿DNAを使用して非侵襲的な出生前検査を行うために使用することができる。例えば、低メチル化の程度が高い場合は、妊婦の胎児DNA画分が高いことを示している可能性がある。別の例では、女性が染色体異数性の胎児を妊娠している場合、このアプローチによって検出された影響を受けた染色体に由来するAlu断片の数は、正倍数性の胎児を妊娠している女性とは量的に異なる(すなわち、増加または減少のいずれか)可能性がある。したがって、胎児が21番染色体トリソミーを有する場合、このアプローチによって検出される21番染色体に由来するAlu断片の数は、正倍数性の胎児を妊娠している女性と比較した場合、増加している可能性がある。一方、胎児が一染色体性の染色体を有する場合、正倍数性の胎児を妊娠している女性と比較した場合、このアプローチによって検出されたその染色体に由来するAlu断片の数は、減少している可能性がある。影響を受けていない染色体と比較して、血漿中の影響を受けた染色体(13、18、または21)の余分な低メチル化の提示の決定は、正常な胎児と異常な胎児を妊娠している女性を区別するための分子指標として使用することができる。 Placental tissue hypomethylation across the Alu region can be used to perform non-invasive prenatal testing using maternal plasma DNA. For example, a high degree of hypomethylation may indicate a high fraction of fetal DNA in pregnant women. In another example, if a woman is pregnant with a chromosomal aneuploid fetus, the number of Alu fragments derived from the affected chromosomes detected by this approach will increase the number of Alu fragments that are pregnant with a euploid fetus. May be quantitatively different (ie either increased or decreased) from females. Thus, if the fetus has trisomy 21, the number of chromosome 21-derived Alu fragments detected by this approach is increased when compared to women carrying euploid fetuses. there is a possibility. On the other hand, if the fetus has a monosomic chromosome, the number of Alu fragments from that chromosome detected by this approach is reduced when compared to women carrying euploid fetuses. there is a possibility. Determination of the presentation of extra hypomethylation of affected chromosomes (13, 18, or 21) in plasma compared with unaffected chromosomes in pregnancies of normal and abnormal fetuses can be used as a molecular marker to distinguish females with

3.異なるタイプの癌についてのCas9複合体の標的となるAlu領域のメチル化分析
標的のAluリピートは異なる組織で高度にメチル化されていたが、本発明者らは、異なるタイプの癌がそれらのAluリピート全体で異なる脱メチル化パターンを有していると仮定した。一実施形態では、Cas9ベースの標的化単一分子リアルタイム配列決定を使用して、メチル化パターンを分析し、本明細書に存在する開示に従って異なる癌のタイプを決定することができる。
3. Methylation Analysis of Alu Regions Targeted by the Cas9 Complex for Different Types of Cancers Although the targeted Alu repeats were highly methylated in different tissues, we found that different types of cancers were affected by their Alu We hypothesized that we have different demethylation patterns across repeats. In one embodiment, Cas9-based targeted single-molecule real-time sequencing can be used to analyze methylation patterns and determine different cancer types according to the disclosure present herein.

図97は、異なるタイプの癌のAluリピートに関連するメチル化信号のクラスター分析を示す。TCGAデータベース(www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga)からの癌対象は、マイクロアレイ技術(Infinium HumanMethylation450 BeadChip、Illumina Inc)を使用して分析されたCpG部位において、メチル化状態を有した。マイクロアレイチップに存在し、CRISPR/Cas9複合体の標的となるAlu領域と重複する3,024個のCpG部位にわたるメチル化状態を分析した。患者の目的のAlu領域に由来するCpGがいくつかある。各CpGのメチル化レベルは、マイクロアレイによって定量した(メチル化指数またはベータ値とも呼ばれる)。患者全体のそれらのCpG部位でのメチル化レベルの数に基づいて階層的クラスター分析を行った。したがって、それらのCpG部位で同様のメチル化レベルのパターンを有する患者は、一緒にまとめられてクレードを形成する。異なる患者全体のメチル化パターンの類似性は、クラスタリング樹状図の高さの値によって示される。この例では、高さはユークリッド距離に従って計算された。他の実施形態では、他の距離メトリックが使用され、限定されないが、ミンコフスキー、チェビシェフ、マハラノビス、マンハッタン、コサイン、相関、スピアマン、ハミング、ジャッカード距離などを含む。本明細書で使用される高さは、クラスター間の距離メトリックの値を表し、クラスター間の関連性を反映している。例えば、2つのクラスターが高さxで重なり合うのを観察した場合、それらのクラスター間の距離はx(例えば、すべてのクラスター間患者間の平均距離)であることが示唆された。 Figure 97 shows cluster analysis of methylation signals associated with Alu repeats in different types of cancer. Cancer subjects from the TCGA database (www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga) were analyzed using microarray technology (Infinium HumanMethylation450 BeadChip, Illumina Inc) had a methylation state in We analyzed the methylation status across 3,024 CpG sites present on the microarray chip and overlapping the Alu regions targeted by the CRISPR/Cas9 complex. There are some CpGs derived from Alu regions of interest in patients. The methylation level of each CpG was quantified by microarray (also called methylation index or beta value). Hierarchical cluster analysis was performed based on the number of methylation levels at those CpG sites across patients. Thus, patients with similar patterns of methylation levels at their CpG sites are grouped together to form clades. The similarity of methylation patterns across different patients is indicated by the clustering dendrogram height values. In this example the height was calculated according to the Euclidean distance. In other embodiments, other distance metrics are used, including but not limited to Minkowski, Chebyshev, Mahalanobis, Manhattan, Cosine, Correlation, Spearman, Hamming, Jaccard distance, and the like. Height, as used herein, represents the value of the distance metric between clusters and reflects the relationships between clusters. For example, if two clusters were observed to overlap with height x, it was suggested that the distance between those clusters was x (eg, the average distance between all inter-cluster patients).

CpG部位のメチル化状態を使用して、クラスター分析の結果で、患者は癌のタイプに応じて異なる別個のグループにクラスター化された。癌のタイプとしては、膀胱尿路上皮癌(BLCA)、浸潤性乳癌肉腫(BRCA)、卵巣漿液性嚢胞腺癌(OV)、膵臓腺癌(PAAD)、HCC、肺腺癌(LUAD)、胃腺癌(STAD)、皮膚黒色腫(SKCM)、および子宮癌肉腫(UCS)が含まれる。図中の癌のタイプの後の数字は、患者を示している。したがって、クラスタリングは、本発明者らが選択したAluリピートのメチル化信号が、図97に示されていない癌のタイプを含む癌のタイプを分類するために有益であったことを示唆している。一実施形態では、組織生検におけるメチル化パターンに基づいて、原発性腫瘍と続発性腫瘍を区別することができる。 Using the methylation status of CpG sites, cluster analysis results clustered patients into different and distinct groups according to cancer type. Cancer types include bladder urothelial carcinoma (BLCA), invasive breast carcinosarcoma (BRCA), ovarian serous cystadenocarcinoma (OV), pancreatic adenocarcinoma (PAAD), HCC, lung adenocarcinoma (LUAD), gastric gland Included are carcinoma (STAD), cutaneous melanoma (SKCM), and uterine carcinosarcoma (UCS). The number after the cancer type in the figure indicates the patient. Thus, clustering suggests that the Alu repeat methylation signals we selected were beneficial for classifying cancer types, including those not shown in FIG. . In one embodiment, primary and secondary tumors can be distinguished based on methylation patterns in tissue biopsies.

4.サブリードの深度とサイズカットオフ
このセクションは、サブリードの深度および/またはサイズカットオフを使用して、メチル化検出の精度および/または効率を改善できることを示す。特定のサブリードの深度またはサイズを試験するために、ライブラリ調製を変更する場合がある。
4. Subread Depth and Size Cutoffs This section shows that subread depth and/or size cutoffs can be used to improve the accuracy and/or efficiency of methylation detection. Library preparation may be modified to test the depth or size of a particular subread.

Sequel II Sequencing Kit 2.0に基づいて、全ゲノム増幅またはM.SsssI処理後の試料から生成された試験データセットの全体的なメチル化レベルの定量に対するリード深度の影響を分析した。少なくとも特定のカットオフを有するサブリードでカバーされているゲノム部位を、例えば、限定されないが、1倍、10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍などで調査した。 Based on the Sequel II Sequencing Kit 2.0, whole genome amplification or M.I. We analyzed the effect of read depth on the quantification of global methylation levels in test datasets generated from samples after SsssI treatment. Genomic sites covered by subreads with at least a particular cutoff, for example, but not limited to, 1-fold, 10-fold, 20-fold, 30-fold, 40-fold, 50-fold, 60-fold, 70-fold, 80-fold, Investigations were made at 90x, 100x, etc.

図98Aは、全ゲノム増幅に関与した試験データセットにおける全体的なメチル化レベルの定量に対するリード深度の影響を示す。図98Bは、M.SsssI処理に関与した試験データセットにおける全体的なメチル化レベルの定量に対するリード深度の影響を示す。y軸は、全体的なメチル化レベルをパーセンテージで示している。倍軸は、サブリード深度を示す。破線は、全体的なメチル化レベルの期待値を示している。 FIG. 98A shows the effect of read depth on quantification of global methylation levels in test datasets involving whole genome amplification. Figure 98B shows M. Figure 2 shows the effect of read depth on quantification of global methylation levels in test datasets involving SsssI treatment. The y-axis shows the overall methylation level in percentage. The double axis indicates the sub-read depth. The dashed line indicates the expected global methylation level.

図98Aに示されるように、全ゲノム増幅を含むデータセットの場合、全体的なメチル化は、5.7%から5.2%の範囲で、1倍、10倍、20倍、40倍、50倍などの最初のいくつかのカットオフで低下した。メチル化レベルは、50倍以上のカットオフで、約5%で徐々に安定した。 As shown in Figure 98A, for the dataset containing whole genome amplification, global methylation ranged from 5.7% to 5.2%, with 1-fold, 10-fold, 20-fold, 40-fold, The first few cutoffs, such as 50-fold, fell off. Methylation levels gradually stabilized at about 5% with a 50-fold cutoff.

一方、図98Bでは、M.SsssI処理後の試料から生成されたデータセットの場合、全体的なメチル化は、70%から83%の範囲で、1倍、10倍、20倍、40倍、50倍などの最初のいくつかのカットオフで増加した。メチル化レベルは、50倍以上のカットオフで、約83%で徐々に安定した。 On the other hand, in FIG. 98B, M. For datasets generated from samples after SsssI treatment, global methylation ranged from 70% to 83% with the first few such as 1-fold, 10-fold, 20-fold, 40-fold, 50-fold. increased with a cutoff of . Methylation levels gradually stabilized at about 83% with a cutoff of 50-fold or greater.

一実施形態では、サブリード深度カットオフを調整して、塩基修飾分析の性能を異なる用途にわたって受け入れられるようにすることができる。他の実施形態では、やや緩和したサブリード深度カットオフを使用すると、下流分析に好適なより多くのZMW(すなわち、分子の数)を取得することができる。さらに別の実施形態では、本開示によるSMRT-seqによって決定されたメチル化レベルの読み出しを、第2の測定で較正することができる(例えば、限定されないが、BS-seq、デジタルドロップレットPCR(バイサルファイト変換試料で)、メチル化特異的PCR、またはメチル化シトシン結合抗体もしくは他のタンパク質)。別の実施形態では、第2の測定値は、5mCに保持された全ゲノム増幅後のDNA分子をBS-seq、デジタルドロップレットPCR(バイサルファイト変換試料上)、メチル化特異的PCR、またはメチルCpG結合ドメイン(MBD)タンパク質濃縮ゲノム配列決定(MBD-seq)にかけることによって取得される。一例として、5mC保持全ゲノム増幅は、DNAプライマーゼTthPrimPol、ポリメラーゼphi29、およびDNMT1(DNAメチルトランスフェラーゼ1)によって媒介される可能性がある。 In one embodiment, the sub-read depth cutoff can be adjusted to make the performance of base modification analysis acceptable across different applications. In other embodiments, using a slightly relaxed sub-read depth cutoff can obtain more ZMWs (ie number of molecules) suitable for downstream analysis. In yet another embodiment, readouts of methylation levels determined by SMRT-seq according to the present disclosure can be calibrated with a second measurement (e.g., but not limited to BS-seq, digital droplet PCR ( on bisulfite-converted samples), methylation-specific PCR, or methylated cytosine-binding antibodies or other proteins). In another embodiment, the second measurement is BS-seq, digital droplet PCR (on bisulfite converted samples), methylation-specific PCR, or methylation-specific PCR of DNA molecules after whole-genome amplification held at 5mC. CpG binding domain (MBD) is obtained by subjecting it to protein-enriched genome sequencing (MBD-seq). As an example, 5mC-retained whole-genome amplification could be mediated by DNA primase TthPrimPol, polymerase phi29, and DNMT1 (DNA methyltransferase 1).

異なるサブリード深度について、様々なタイプの癌および非腫瘍組織にわたるメチル化レベルを分析した。本開示によるSMRT-seqによって決定されたメチル化レベルも、BS-seq配列決定の結果と比較された。Sequel II Sequencing Kit 2.0を使用して、中央値が4,300万個のサブリード(四分位範囲(IQR):3,000~5,200万個)を取得し、これにより、中央値が460万個の循環コンセンサス配列(CCS)の生成が可能となり、ヒト参照ゲノム(IQR:280~580万個)と整列した。これらの試料のうち、22の試料は、メチル化パターンを決定するための確立された超並列バイサルファイト配列決定(BS-seq)にもかけられ、メチル化レベルを比較するための第2の測定値を提供する。 We analyzed methylation levels across different types of cancer and non-tumor tissues for different sub-read depths. Methylation levels determined by SMRT-seq according to the present disclosure were also compared with BS-seq sequencing results. Using Sequel II Sequencing Kit 2.0, we obtained a median of 43 million sub-reads (interquartile range (IQR): 30-52 million), which yielded a median allowed the generation of 4.6 million circular consensus sequences (CCS), aligned with the human reference genome (IQR: 2.8-5.8 million). Of these samples, 22 were also subjected to established Massively Parallel Bisulfite Sequencing (BS-seq) to determine methylation patterns and a second measurement to compare methylation levels. provide value.

図99は、本開示によるSMRT-seq(Sequel II Sequencing Kit 2.0)によって決定された全体的なメチル化レベルと、異なるサブリード深度カットオフを使用したBS-seqとの間の比較を示す。SMRT-seqによって決定されたパーセンテージとしてのメチル化レベルは、y軸に示される。バイサルファイト配列決定によって決定されたパーセンテージとしてのメチル化レベルは、x軸にある。記号は、1倍、10倍、および30倍の異なるサブリードの深度を示す。3本の対角線は、異なるサブリード深度に近似した線を示す。 FIG. 99 shows a comparison between global methylation levels determined by SMRT-seq (Sequel II Sequencing Kit 2.0) according to the present disclosure and BS-seq using different sub-read depth cutoffs. Methylation levels as percentages determined by SMRT-seq are shown on the y-axis. Methylation levels as percentages determined by bisulfite sequencing are on the x-axis. The symbols indicate different sub-read depths of 1x, 10x and 30x. The three diagonal lines indicate approximate lines for different sub-read depths.

図99は、サブリードによって少なくとも1回カバーされたゲノム部位を分析すると(すなわち、サブリード深度カットオフが1倍以上)、本開示によるSMRT-seqによって決定されたCpG部位のメチル化レベルが、BS-seqによって決定されたものとよく相関していることを示した(r=0.8、P値<0.0001)。これらの結果は、本開示に存在する実施形態が、限定されないが、大腸癌、結腸直腸組織、食道癌、食道組織、乳癌、非癌性乳房組織、腎細胞癌、腎臓組織、肺癌、および肺組織を含む異なる組織型のメチル化レベルを測定するために使用され得ることを示唆した。また、本発明者らは、サブリード深度のカットオフを、それぞれ10倍および30倍に増加すると、これら2つの測定値間の相関が、0.87(P値<0.0001)および0.95(P値<0.0001)に改善することも観察した。一部の実施形態では、サブリード深度の増加、またはより多くのサブリードをカバーするゲノム領域の選択により、本開示によるSMRT-seqベースのメチル化決定の性能が改善するであろう。 FIG. 99 shows that when analyzing genomic sites that were covered at least once by subreads (i.e., subread depth cutoff of 1-fold or greater), methylation levels of CpG sites determined by SMRT-seq according to the present disclosure were higher than BS- It was shown to correlate well with that determined by seq (r=0.8, P value <0.0001). These results demonstrate that embodiments present in this disclosure include, but are not limited to colon cancer, colorectal tissue, esophageal cancer, esophageal tissue, breast cancer, non-cancerous breast tissue, renal cell carcinoma, kidney tissue, lung cancer, and lung cancer. It has been suggested that it can be used to measure methylation levels in different tissue types including tissue. We also found that when the sub-read depth cutoff was increased by 10-fold and 30-fold, respectively, the correlations between these two measurements were 0.87 (P-value < 0.0001) and 0.95. (P value < 0.0001) was also observed. In some embodiments, increasing the sub-read depth, or selecting genomic regions that cover more sub-reads, will improve the performance of SMRT-seq-based methylation determinations according to the present disclosure.

図100は、SMRT-seq(Sequel II Sequencing Kit 2.0)およびBS-seqによる2つの測定値間のメチル化レベルの相関に対するサブリード深度の影響を示す表である。最初の列は、サブリード深度のカットオフを示す。2番目の列は、相関係数であるピアソンのrを示す。3番目の列は、カットオフに関連付けられたCpG部位の数を、括弧内の部位の数の範囲とともに示す。 FIG. 100 is a table showing the effect of sub-read depth on the correlation of methylation levels between the two measurements by SMRT-seq (Sequel II Sequencing Kit 2.0) and BS-seq. The first column shows the sub-read depth cutoff. The second column shows Pearson's r, the correlation coefficient. The third column shows the number of CpG sites associated with the cutoff, with the number range of sites in brackets.

図100に示されるように、SMRT-seqとBS-seqによる2つの測定値間のメチル化レベルの相関は、異なるサブリード深度カットオフに応じて変化した。一実施形態では、メチル化シトシンを非メチル化シトシンから区別するためのサブリード深度の最適なカットオフを決定するために、サブリード深度カットオフと2つの測定値間の相関係数(例えば、ピアソンの相関係数)との間の関係を利用することができる。図100は、サブリード深度カットオフが30倍(すなわち、30倍以上)では、本開示によるSMRT-seqによって測定されたメチル化レベルは、BS-seqによって生成された結果と最も高い相関を示した(ピアソンのr=0.952)。他の実施形態では、限定されないが、1倍、10倍、30倍、40倍、50倍、60倍、70倍、80倍、900倍、100倍、200倍、300倍、400倍、500倍、600倍、700倍、800倍などのサブリード深度カットオフを使用することができる。 As shown in Figure 100, the correlation of methylation levels between the two measurements by SMRT-seq and BS-seq varied according to different sub-read depth cutoffs. In one embodiment, to determine the optimal cutoff of subread depth for distinguishing methylated from unmethylated cytosines, a subread depth cutoff and a correlation coefficient between the two measurements (e.g., Pearson's correlation coefficient) can be utilized. FIG. 100 shows that at a subread depth cutoff of 30-fold (i.e., 30-fold or greater), methylation levels measured by SMRT-seq according to the present disclosure showed the highest correlation with results generated by BS-seq. (Pearson's r=0.952). Other embodiments include, but are not limited to, 1x, 10x, 30x, 40x, 50x, 60x, 70x, 80x, 900x, 100x, 200x, 300x, 400x, 500x Sub-read depth cutoffs of 1x, 600x, 700x, 800x, etc. can be used.

メチル化分析に使用されるCpG部位の数は、図100に示されるように、サブリード深度のカットオフの増加とともに減少する。サブリード深度カットオフが100倍では、30倍のサブリード深度カットオフ(ピアソンのr=0.952)と比較して、メチル化レベルの2つの測定値間により低い相関(ピアソンのr=0.875)が観察された。より高いサブリードカットオフで相関が低いことは、より厳しいサブリード深度カットオフを満たすCpG部位の数がより少ないことに起因している可能性がある。一実施形態では、サブリード深度の要件とメチル化分析に使用され得る分子の数との間で、トレードオフを考慮することができる。例えば、メチル化パターンについてゲノム全体をスキャンすることを目的とした場合、より多くの分子が望ましいことがある。標的SMRT-seqを使用して特定の領域に焦点を合わせた場合、その領域のメチル化パターンを取得するには、より高いサブリード深度が望ましいことがある。 The number of CpG sites used for methylation analysis decreases with increasing subread depth cutoff, as shown in FIG. Lower correlation between the two measures of methylation levels (Pearson's r=0.875) at a sub-read depth cutoff of 100-fold compared to a 30-fold sub-read depth cutoff (Pearson's r=0.952). ) was observed. The lower correlation at higher subread cutoffs may be due to the lower number of CpG sites that meet the more stringent subread depth cutoffs. In one embodiment, a trade-off can be considered between sub-read depth requirements and the number of molecules that can be used for methylation analysis. For example, more molecules may be desirable if the goal is to scan the entire genome for methylation patterns. When using targeted SMRT-seq to focus on a specific region, a higher sub-read depth may be desirable to obtain the methylation pattern of that region.

図101は、Sequel II Sequencing Kit 2.0によって生成されたデータの断片サイズに関するサブリード深度分布を示している。y軸に、サブリードの深度を示し、x軸に、DNA分子の鎖長を示す。DNA分子の鎖長は、循環コンセンサス配列(CCS)のサイズから推定された。 FIG. 101 shows the sub-read depth distribution with respect to fragment size for data generated by Sequel II Sequencing Kit 2.0. The y-axis indicates the sub-read depth and the x-axis indicates the strand length of the DNA molecule. The length of the DNA molecule was estimated from the size of the circular consensus sequence (CCS).

サブリード深度は、SMRT-seqデータを使用したメチル化決定の性能に影響を与える可能性があり、サブリード深度は、配列決定されるDNA分子の鎖長の関数であるため、DNA分子のサイズは、試料のメチル化パターン分析に最適なサブリード深度を取得するために重要な場合がある。図101に示されるように、DNAが長いほど、サブリードの深度が浅くなる。例えば、サイズが1kbの分子の集団の場合、サブリード深度の中央値は50倍であった。サイズが10kbの分子の集団の場合、サブリード深度の中央値は15倍であった。 Sub-read depth can affect the performance of methylation determinations using SMRT-seq data, and since sub-read depth is a function of the length of the DNA molecule being sequenced, the size of the DNA molecule is It may be important for obtaining optimal sub-read depth for sample methylation pattern analysis. As shown in FIG. 101, the longer the DNA, the shallower the subread depth. For example, for a population of molecules 1 kb in size, the median sub-read depth was 50-fold. For a population of molecules 10 kb in size, the median sub-read depth was 15-fold.

一実施形態では、図100に示されるように、サブリード深度の最適なカットオフは、少なくとも30倍であり得、最高の相関係数をもたらす。30倍の最適なサブリード深度カットオフを満たす分子のスループットをさらに改善するために、サブリード深度とDNA鋳型分子の鎖長との関係を利用することができる。例えば、図101では、30倍は、約4kbの鎖長を有する分子のサブリード深度の中央値である。したがって、SMRT-seqライブラリを調製する前に、4kbのDNA分子を分画し、配列決定を4kbのDNA分子に制限することができる。他の実施形態では、DNA分子の分画用に他のサイズのカットオフを使用することができ、限定されないが、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、6kb、7kb、9kb、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、500kb、1Mb、またはサイズカットオフが異なる組み合わせを含む。 In one embodiment, as shown in diagram 100, the optimal cutoff for sub-read depth may be at least 30 times, yielding the highest correlation coefficient. To further improve the throughput of molecules that meet the 30-fold optimal subread depth cutoff, the relationship between subread depth and DNA template molecule strand length can be exploited. For example, in FIG. 101, 30× is the median sub-read depth for molecules with chain lengths of approximately 4 kb. Therefore, prior to preparing the SMRT-seq library, 4 kb DNA molecules can be fractionated to limit sequencing to 4 kb DNA molecules. In other embodiments, other size cutoffs can be used for fractionation of DNA molecules, including but not limited to 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 9 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb, 100 kb, 500 kb, 1 Mb, or combinations with different size cutoffs.

5.制限酵素ベースの標的化単一分子リアルタイム配列決定
このセクションでは、制限酵素を使用して、修飾の検出の実用性および/またはスループットおよび/または費用対効果を改善することを説明する。制限酵素で生成されたDNA断片は、試料の起源を特定するために使用することができる。
5. Restriction Enzyme-Based Targeted Single Molecule Real-Time Sequencing This section describes the use of restriction enzymes to improve the practicality and/or throughput and/or cost-effectiveness of detection of modifications. Restriction enzyme generated DNA fragments can be used to identify the origin of a sample.

a)制限酵素を使用してDNA分子を消化する
実施形態では、単一分子リアルタイム配列決定(例えば、Pacific Biosciences systemを使用)の前に、1つ以上の制限酵素を使用して、DNA分子を消化することができる。制限酵素の認識部位の分布は、ヒトゲノムに不均一に存在するため、制限酵素によって消化されたDNAは、歪んだサイズ分布を生成する可能性がある。制限酵素の認識部位がより多いゲノム領域は、より小さな断片に消化され、一方、制限酵素の認識部位が少ないゲノム領域は、より長い断片に消化され得る。実施形態では、サイズ範囲によって、1つ以上の制限酵素の同様の切断パターンを有する1つ以上の領域に由来するDNA分子を選択的に取得することができる。サイズ選択に必要なサイズ範囲は、1つ以上の制限酵素のインシリコの切断分析によって決定することができる。コンピュータプログラムを使用して、参照ゲノム(例えば、ヒト参照ゲノム)における目的の制限酵素の認識部位の数を決定することができる。このような参照ゲノムは、目的のゲノム領域のサイズ情報を提供するそれらの認識サイトに従って、インシリコで断片に剪断された。
a) Using Restriction Enzymes to Digest DNA Molecules In embodiments, prior to single molecule real-time sequencing (e.g., using a Pacific Biosciences system), DNA molecules are digested using one or more restriction enzymes. can be digested. Because the distribution of restriction enzyme recognition sites is heterogeneous in the human genome, DNA digested by restriction enzymes can produce a skewed size distribution. Genomic regions with more restriction enzyme recognition sites can be digested into smaller fragments, while genomic regions with fewer restriction enzyme recognition sites can be digested into longer fragments. In embodiments, the size range allows selective retrieval of DNA molecules derived from one or more regions with similar cleavage patterns of one or more restriction enzymes. The size range required for size selection can be determined by in silico cleavage analysis of one or more restriction enzymes. A computer program can be used to determine the number of recognition sites for a restriction enzyme of interest in a reference genome (eg, a human reference genome). Such reference genomes were sheared in silico into fragments according to their recognition sites, which provide size information for genomic regions of interest.

図126は、DNA末端修復およびAテーリングを使用したMspIベースの標的化単一分子リアルタイム配列決定の方法を示す。実施形態では、図126に示されるように、5’C^CGG3’部位を認識するMspIを使用して、生物のDNA試料、例えば、限定されないが、ヒトDNA試料を消化することができる。5’CGオーバーハングを有する消化されたDNA断片を、サイズ選択にかけ、CpGアイランドに由来するDNA分子を濃縮した。GおよびC残基(GC含量とも呼ばれる)が濃縮されたゲノム領域は、より短い断片を生成する場合がある。したがって、目的の領域のGC含量に基づいて選択を行う断片サイズの範囲を決定することができる。様々なDNA断片サイズ選択ツールが当業者に利用可能であり、限定されないが、ゲル電気泳動、サイズ排除電気泳動、キャピラリー電気泳動、クロマトグラフィー、質量分析、濾過アプローチ、沈殿ベースのアプローチ、マイクロフルイディクス、およびナノフルイディクスを含む。サイズ分画されたDNA分子は、DNA末端修復およびAテーリングにかけられ、所望のDNA産物が、5’Tオーバーハングを有するヘアピンアダプターと連結され、環状DNA鋳型が形成された。 Figure 126 shows a method for MspI-based targeted single-molecule real-time sequencing using DNA end repair and A tailing. In embodiments, an MspI that recognizes the 5'C^CGG3' site can be used to digest biological DNA samples, such as, but not limited to, human DNA samples, as shown in Figure 126 . Digested DNA fragments with 5'CG overhangs were subjected to size selection to enrich for DNA molecules derived from CpG islands. Genomic regions enriched in G and C residues (also called GC content) may generate shorter fragments. Thus, one can determine a range of fragment sizes for selection based on the GC content of the region of interest. A variety of DNA fragment size selection tools are available to those skilled in the art, including but not limited to gel electrophoresis, size exclusion electrophoresis, capillary electrophoresis, chromatography, mass spectrometry, filtration approaches, precipitation-based approaches, microfluidics. , and nanofluidics. The size-fractionated DNA molecules were subjected to DNA end-repair and A-tailing, and the desired DNA product was ligated with hairpin adapters with 5'T overhangs to form a circular DNA template.

例えば、限定されないが、エキソヌクレアーゼ(エキソヌクレアーゼIIIおよびVII)を使用して、連結されていないアダプター、直鎖DNA、および不完全な環状DNAを除去した後、ヘアピンアダプターに連結されたDNA分子を、単一分子リアルタイム配列決定に使用して、本明細書に開示されるメチル化プロファイルを決定する際のIPD、PW、および配列文脈を決定することができる。CpGで濃縮されたゲノム領域を分析することによって、異なる組織または異なる疾患および/もしくは生理学的状態を有する組織あるいは生体試料から取得されたDNAを、本開示の配列決定データ分析方法によって決定されるそれらのメチル化プロファイルによって区別および分類することができる。 For example, without limitation, exonucleases (exonucleases III and VII) are used to remove unligated adapters, linear DNA, and incomplete circular DNA, followed by DNA molecules ligated to hairpin adapters. , can be used for single-molecule real-time sequencing to determine the IPD, PW, and sequence context in determining the methylation profiles disclosed herein. DNA obtained from different tissues or tissues or biological samples with different diseases and/or physiological conditions by analyzing genomic regions enriched in CpGs determined by the sequencing data analysis methods of the present disclosure. can be distinguished and classified by their methylation profiles.

実施形態では、図126のサイズ選択を含むステップの場合、所望のサイズ範囲は、MspIのインシリコ切断分析によって決定することができる。ヒト参照において、合計2,286,541箇所のMspI切断部位を決定した。ヒト参照ゲノムは、それらのMspI切断部位に従って、インシリコで断片に剪断された。合計2,286,565個の断片を取得した。個々の断片サイズは、その断片のヌクレオチドの総数によって決定された。 In embodiments, for the step involving size selection in FIG. 126, the desired size range can be determined by an in silico cleavage analysis of MspI. A total of 2,286,541 MspI cleavage sites were determined in the human reference. The human reference genome was sheared in silico into fragments according to their MspI cleavage sites. A total of 2,286,565 fragments were obtained. Individual fragment sizes were determined by the total number of nucleotides in that fragment.

図127Aおよび127Bは、MspIで消化された断片のサイズ分布を示す。これらの図のy軸は、特定のサイズの断片の頻度(パーセント)である。図127Aは、50から500,000bpの範囲のx軸について対数目盛を有する。図127Bは、50から1,000bpの範囲のx軸について線形目盛を有する。 Figures 127A and 127B show the size distribution of MspI-digested fragments. The y-axis of these figures is the frequency (percentage) of fragments of a particular size. Figure 127A has a logarithmic scale for the x-axis ranging from 50 to 500,000 bp. Figure 127B has a linear scale for the x-axis ranging from 50 to 1,000 bp.

図127Aおよび127Bに示されるように、MspIで消化されたDNA分子は、歪んだサイズ分布を有する。MspIで消化された断片のサイズの中央値は、404bp(IQR:98~1,411bp)であった。それらのMspIで消化された断片の約53%は、1kb未満であった。サイズプロファイルには、反復エレメントに起因する可能性がある一連のスパイクピークがあった。特定のリピート要素は、MspI切断部位の同様のパターンを共有する可能性があり、同様の断片サイズを有するMspI消化に由来する分子のセットにつながる。例えば、最も高い頻度(すなわち、合計49,079)のスパイクピークは、64bpのサイズに対応した。それらの中で、45,894(94%)は、Aluリピートと重複していた。サイズが64bpのDNA分子を選択して、Aluリピートに由来するDNA分子を濃縮することができる。データは、サイズ選択を使用して、本開示による下流のメチル化分析のために所望のDNA分子を濃縮できることを示唆している。 As shown in Figures 127A and 127B, MspI-digested DNA molecules have a skewed size distribution. The median size of MspI-digested fragments was 404 bp (IQR: 98-1,411 bp). Approximately 53% of those MspI-digested fragments were less than 1 kb. The size profile had a series of spike peaks that could be attributed to repetitive elements. Certain repeat elements are likely to share a similar pattern of MspI cleavage sites, leading to a set of molecules derived from MspI digestion with similar fragment sizes. For example, the highest frequency (ie, 49,079 total) spike peaks corresponded to a size of 64 bp. Among them, 45,894 (94%) overlapped with Alu repeats. A DNA molecule of 64 bp in size can be selected to enrich for DNA molecules derived from Alu repeats. The data suggest that size selection can be used to enrich desired DNA molecules for downstream methylation analysis according to the present disclosure.

図128は、特定の選択されたサイズ範囲のDNA分子の数の表を示す。最初の列は、塩基対のサイズ範囲を示す。2番目の列は、すべての断片に対するサイズ範囲内の分子のパーセンテージを示す。3番目の列は、CpGアイランドと重複するサイズ範囲内の分子の数を示す。4番目の列は、CpGアイランドと重複するサイズ範囲内の分子のパーセンテージを示す。5番目の列は、配列決定されるCpG部位の数を示す。6番目の列は、CpGアイランド内にあるCpG部位の数を示す。7番目の列は、サイズ選択の対象であり、CpGアイランド内にあるCpG部位のパーセンテージを示す。図128に示されるように、MspI消化にかけられたヒトゲノムから生成されたDNA分子の量は、問題の異なるサイズ範囲に従って変化した。CpGアイランドと重複するDNA分子の数は、サイズ範囲によって異なる。 Figure 128 shows a table of the number of DNA molecules in certain selected size ranges. The first column indicates the size range in base pairs. The second column shows the percentage of molecules within the size range for all fragments. The third column shows the number of molecules within the size range that overlap with the CpG islands. The fourth column shows the percentage of molecules within the size range that overlap with the CpG islands. The fifth column indicates the number of CpG sites sequenced. The sixth column indicates the number of CpG sites within the CpG island. The seventh column shows the percentage of CpG sites that were size-selected and that are within CpG islands. As shown in Figure 128, the amount of DNA molecules generated from the human genome subjected to MspI digestion varied according to the different size ranges of interest. The number of DNA molecules that overlap CpG islands varies with size range.

CCGGモチーフは、CpGアイランドで優先的に発生するため、特定のカットオフ未満のサイズの分子を選択して、CpGアイランドに由来するDNA分子の濃縮を可能にすることができる。例えば、50~200bpのサイズ範囲の場合、分子の数は526,543個であり、MspI消化にかけられたヒトゲノムに由来するDNA断片全体の23.03%を占めている。526,543個のDNA分子のうち、104,079個(19.76%)がCpGアイランドと重複していた。600~800bpのサイズ範囲では、分子の数は133,927個であり、MspI消化にかけられたヒトゲノムに由来するDNA断片全体の5.86%を占めていた。133,927分子のうち、3,673(2.74%)分子が、CpGアイランドと重複していた。一例として、50~200bpのサイズを選択して、CpGアイランドに由来するDNA断片を濃縮することができる。 Since CCGG motifs occur preferentially in CpG islands, molecules of size below a certain cutoff can be selected to allow enrichment of DNA molecules derived from CpG islands. For example, for the 50-200 bp size range, the number of molecules is 526,543, accounting for 23.03% of the total DNA fragments derived from the human genome that were subjected to MspI digestion. Of the 526,543 DNA molecules, 104,079 (19.76%) overlapped with CpG islands. In the 600-800 bp size range, the number of molecules was 133,927, accounting for 5.86% of the total DNA fragments derived from the human genome subjected to MspI digestion. Of the 133,927 molecules, 3,673 (2.74%) molecules overlapped with CpG islands. As an example, a size of 50-200 bp can be chosen to enrich for DNA fragments derived from CpG islands.

MspIベースの標的単一分子リアルタイム配列決定を介してCpGアイランドと重複するCpG部位の濃縮度を計算するために、超音波処理によって剪断されたDNAのシミュレーションを行い、正規分布に基づく標準偏差が20bp、平均サイズが200bpのZMWから生成された526,543断片をシミュレートした。CpGアイランドと重複するDNA分子は、わずか0.88%であった。合計71,495のCpG部位が、CpGアイランドと重複していた。図128に示されるように、50~200bpの範囲のMspI消化断片を選択すると、19.8%の断片がCpGアイランドと重複する。したがって、これらのデータは、MspI消化によって調製されたDNAは、超音波処理によって調製されたDNAと比較して、CpGアイランドに由来するDNA断片が22.5倍濃縮されている可能性があることを示唆している。さらに、MspI消化を通してCpGアイランドで濃縮されているCpG部位を分析した。50~200bpの範囲のMspI消化断片の選択により、CpGアイランドと重複する885,041箇所のCpG部位が生じる可能性があり、そのサイズ範囲内の配列決定された断片からの総CpG部位の37.5%を占める。超音波処理によって調製されたDNAと比較して、CpGアイランドと重複するCpG部位が、12.3倍(すなわち、885,041/71,495)濃縮されていた。図128に示される情報に基づいて、好適なサイズ範囲を選択して、CpG部位の所望の数およびCpGアイランド内のCpG部位の所望の濃縮倍率を含むことができる。 To calculate the enrichment of CpG sites overlapping CpG islands via MspI-based targeted single-molecule real-time sequencing, we performed simulations of DNA sheared by sonication, with a standard deviation of 20 bp based on a normal distribution. , simulated 526,543 fragments generated from ZMW with an average size of 200 bp. Only 0.88% of the DNA molecules overlapped with CpG islands. A total of 71,495 CpG sites overlapped with CpG islands. As shown in Figure 128, selecting MspI digested fragments ranging from 50-200 bp results in 19.8% of the fragments overlapping CpG islands. These data therefore suggest that DNA prepared by MspI digestion may be 22.5-fold enriched for DNA fragments derived from CpG islands compared to DNA prepared by sonication. It suggests. In addition, CpG sites enriched in CpG islands were analyzed through MspI digestion. Selection of MspI digested fragments in the 50-200 bp range could result in 885,041 CpG sites overlapping CpG islands, with 37.5 of the total CpG sites from sequenced fragments within that size range. 5%. CpG sites overlapping CpG islands were enriched 12.3-fold (ie, 885,041/71,495) compared to DNA prepared by sonication. Based on the information presented in Figure 128, a suitable size range can be selected to contain the desired number of CpG sites and the desired enrichment factor of CpG sites within a CpG island.

図129は、制限酵素消化後のDNA断片のサイズに対する、CpGアイランド内のCpG部位のパーセントカバレッジのグラフである。y軸は、所与のサイズを有する断片によってカバーされたCpGアイランド内のCpG部位のパーセンテージを示す。x軸は、制限酵素消化後のDNA断片のサイズ範囲の上限を示している。図129は、サイズ選択範囲を広げることによってカバーされるCpGアイランド内のCpG部位のパーセンテージを示す。図129では、サイズ範囲は、50bpからx軸に示されるサイズまでである。他の実施形態では、サイズ範囲の下限をカスタマイズすることができ、例えば、限定されないが、60bp、70bp、80bp、90bp、100bp、200bp、300bp、400bp、および500bpであり得る。上限を大きくすることでサイズ範囲が広がると、CpGアイランド内のCpG部位のパーセントカバレッジが徐々に増加し、65%で横ばいになっていることがわかる。一部のCpG部位は、50bp未満のDNA断片内にあるか、または非常に長い分子(例えば、>100,000bp)内の断片内にあるため、カバーされていない。 FIG. 129 is a graph of percent coverage of CpG sites within CpG islands versus DNA fragment size after restriction enzyme digestion. The y-axis shows the percentage of CpG sites within the CpG island covered by fragments with a given size. The x-axis indicates the upper limit of the DNA fragment size range after restriction enzyme digestion. Figure 129 shows the percentage of CpG sites within a CpG island that are covered by widening the size selection range. In Figure 129, the size range is from 50 bp to the size indicated on the x-axis. In other embodiments, the lower end of the size range can be customized, including but not limited to 60bp, 70bp, 80bp, 90bp, 100bp, 200bp, 300bp, 400bp, and 500bp. It can be seen that increasing the size range by increasing the upper limit gradually increases the percent coverage of CpG sites within the CpG islands and levels off at 65%. Some CpG sites are not covered because they are within DNA fragments less than 50 bp or within fragments within very long molecules (eg >100,000 bp).

一部の実施形態では、DNA試料を、2つ以上の異なる制限酵素(異なる制限部位を有する)を使用して分析することができるため、CpGアイランド内のCpG部位のカバレッジを増加させることができる。異なる酵素によるDNA試料の消化は、各反応に1種類の制限酵素のみが存在するように、個々の反応で実行することができる。例えば、CG^CG部位を認識するAccIIを使用して、CpGアイランドを優先的に切断することができる。他の実施形態では、認識部位の一部としてCGジヌクレオチドを含む他の制限酵素を使用することができる。ヒトゲノム内には、678,669個のAccII切断部位があった。AccII制限を使用して、ヒト参照ゲノムのインシリコ切断を実施し、合計678,693個の断片を取得した。次いで、本発明者らは、これらの断片のインシリコでのサイズ選択を行い、MspI消化について上に記載の方法に従って、CpGアイランド内のCpG部位のパーセントカバレッジを計算した。サイズ選択範囲の拡大に伴って、CpG部位のパーセントカバレッジが徐々に増加していることがわかる。パーセントカバレッジは、約50%で横ばいになる。CpG部位のカバレッジは、2種類の酵素の消化実験(つまり、MspI消化とAccII消化)からのデータを組み合わせることで、さらに増加する。CpGアイランド内のCpG部位の80%は、サイズが50bp~400bpのDNA断片を選択することでカバーされる。このパーセンテージは、この2種類の酵素のいずれかのみによる消化実験についての、それぞれの数値よりも高くなっている。他の制限酵素を使用してDNA試料を分析することを通して、カバレッジをさらに高めることができる。DNA試料が2つのアリコートに分割されている場合、一方のアリコートをMspIで消化し、他方アリコートをAccIIで消化する。2つの消化されたDNA試料を、等モル濃度で混合し、500万ZMWによる単一分子リアルタイム配列決定を使用して、配列を決定する。インシリコ分析に基づいて、CpGアイランド内のCpG部位の83%(すなわち、1,734,345箇所)は、循環コンセンサス配列に関して少なくとも4回配列決定される。 In some embodiments, DNA samples can be analyzed using two or more different restriction enzymes (with different restriction sites), thus increasing the coverage of CpG sites within the CpG islands. . Digestion of DNA samples with different enzymes can be performed in separate reactions such that only one restriction enzyme is present in each reaction. For example, AccII, which recognizes CG^CG sites, can be used to preferentially cleave CpG islands. In other embodiments, other restriction enzymes containing CG dinucleotides as part of the recognition site can be used. There were 678,669 AccII cleavage sites within the human genome. An in silico digestion of the human reference genome was performed using AccII restriction and a total of 678,693 fragments were obtained. We then size-selected these fragments in silico and calculated the percent coverage of CpG sites within the CpG islands according to the method described above for MspI digestion. It can be seen that the percent coverage of CpG sites gradually increases with increasing size selection. The percent coverage levels off at about 50%. CpG site coverage is further increased by combining data from two enzymatic digestion experiments (ie, MspI and AccII digestion). 80% of the CpG sites within the CpG islands are covered by selecting DNA fragments between 50bp and 400bp in size. This percentage is higher than the respective figures for digestion experiments with either of the two enzymes alone. Coverage can be further enhanced through analysis of DNA samples using other restriction enzymes. If the DNA sample is divided into two aliquots, one aliquot is digested with MspI and the other with AccII. The two digested DNA samples are mixed at equimolar concentrations and sequenced using single-molecule real-time sequencing with 5 million ZMW. Based on in silico analysis, 83% of the CpG sites within a CpG island (ie, 1,734,345 sites) are sequenced at least four times with respect to a circular consensus sequence.

図130は、DNA末端修復およびAテーリングを用いない、MspIベースの標的化単一分子リアルタイム配列決定を示す。実施形態では、消化されたDNA分子とヘアピンアダプターとの間の連結は、DNA末端修復およびAテーリングのプロセスなしで実施され得る。5’CGオーバーハングを有する消化されたDNA分子を、5’CGオーバーハングを有するヘアピンアダプターと直接連結して、単一分子リアルタイム配列決定用の環状DNA鋳型を形成することができる。連結されていないアダプターおよび自己連結したアダプターダイマーをクリーンアップした後、一部の実施形態では、連結されていないアダプター、直鎖DNA、および不完全な環状DNAを除去した後、ヘアピンアダプターと連結されたDNA分子は、単一分子リアルタイム配列決定に好適で、IPD、PW、および配列文脈を取得することができる。単一分子のメチル化プロファイルは、本開示に従って、IPD、PWおよび配列文脈を使用して決定されるであろう。 FIG. 130 shows MspI-based targeted single-molecule real-time sequencing without DNA end repair and A-tailing. In embodiments, the ligation between the digested DNA molecule and the hairpin adapter can be performed without the processes of DNA end repair and A-tailing. Digested DNA molecules with 5'CG overhangs can be directly ligated with hairpin adapters with 5'CG overhangs to form circular DNA templates for single-molecule real-time sequencing. After cleaning up unligated adapters and self-ligated adapter dimers, in some embodiments, unligated adapters, linear DNA, and incomplete circular DNA are removed prior to ligation with hairpin adapters. DNA molecules are suitable for single-molecule real-time sequencing, and IPD, PW, and sequence context can be obtained. The methylation profile of a single molecule will be determined using IPD, PW and sequence context according to this disclosure.

図131は、アダプターの自己連結の可能性が低い、MspIベースの標的化単一分子リアルタイム配列決定を示す。基礎となるシトシン塩基は、5’リン酸基のない塩基を示す。一部の実施形態では、アダプター連結のプロセス中に起こり得る自己連結アダプターダイマーの形成の可能性を最小限にするために、脱リン酸化ヘアピンアダプターを使用して、それらのMspI消化DNA分子とアダプター連結を行うことができる。これらの脱リン酸化ヘアピンアダプターは、5’リン酸基がないため、自己連結アダプターダイマーを形成することができない。連結後、その産物をアダプタークリーンアップのステップにかけ、ヘアピンアダプターと連結されたDNA分子を精製する。ニックを有する可能性のあるヘアピンアダプターと連結されたDNA分子は、さらにリン酸化(例えば、T4ポリヌクレオチドキナーゼ)およびDNAリガーゼ(例えば、T4 DNAリガーゼ)によるニックシーリングにかけた。実施形態では、連結されていないアダプター、直鎖DNA、および不完全な環状DNAの除去をさらに行うことができる。ヘアピンアダプターと連結されたDNA分子は、IPD、PW、および配列文脈を取得するための単一分子のリアルタイム配列に好適である。単一分子のメチル化プロファイルは、本開示に従って、IPD、PWおよび配列文脈を使用して決定されるであろう。 FIG. 131 shows MspI-based targeted single-molecule real-time sequencing with low likelihood of adapter self-ligation. Underlying cytosine bases refer to bases without a 5' phosphate group. In some embodiments, dephosphorylated hairpin adapters are used to minimize the possibility of self-ligated adapter dimer formation during the process of adaptor ligation, and these MspI-digested DNA molecules and adaptors. Concatenation can be done. These dephosphorylated hairpin adapters are unable to form self-ligated adapter dimers due to the lack of a 5' phosphate group. After ligation, the product is subjected to an adapter cleanup step to purify the hairpin adapter ligated DNA molecules. DNA molecules ligated with potentially nicked hairpin adapters are further subjected to phosphorylation (eg, T4 polynucleotide kinase) and nick sealing by DNA ligase (eg, T4 DNA ligase). In embodiments, removal of unligated adapters, linear DNA, and incomplete circular DNA can be further performed. DNA molecules ligated with hairpin adapters are suitable for IPD, PW, and single-molecule real-time sequencing to obtain sequence context. The methylation profile of a single molecule will be determined using IPD, PW and sequence context according to this disclosure.

MspIに加えて、認識部位CCCGGGを含むSmaIなどの他の制限酵素も使用することができる。 In addition to MspI, other restriction enzymes such as SmaI, which contains the recognition site CCCGGG, can also be used.

一部の実施形態では、所望のサイズ選択プロセスは、DNA末端修復ステップの後に行うことができる。一部の実施形態では、サイズ選択の結果に対するヘアピンアダプターの効果が決定された場合、ヘアピンアダプターを連結した後、所望のサイズ選択プロセスを行うことができる。これらおよび他の実施形態では、MspIベースの標的化単一分子リアルタイム配列決定に関わる手順的なステップの順序は、実験状況に応じて変化し得る。 In some embodiments, the desired size selection process can be performed after the DNA end repair step. In some embodiments, once the effect of a hairpin adapter on size selection results is determined, the desired size selection process can be performed after ligation of the hairpin adapter. In these and other embodiments, the order of the procedural steps involved in MspI-based targeted single-molecule real-time sequencing may vary depending on the experimental context.

実施形態では、サイズ選択は、ゲル電気泳動ベースの方法および/または磁気ビーズベースの方法を使用して行われる。実施形態では、制限酵素としては、限定されないが、BgIII、EcoRI、EcoRII、BamHI、HindIII、TaqI、NotI、HinFI、PvuII、Sau3AI、SmaI、HaeIII、HgaI、HpaII、AluI、EcoRV、EcoP15I、KpnI、PstI、SacI、SalI、ScaI、SpeI、SphI、StuI、XbaI、およびそれらの組み合わせが挙げられる。 In embodiments, size selection is performed using gel electrophoresis-based methods and/or magnetic bead-based methods. In embodiments, the restriction enzymes include, but are not limited to, BgIII, EcoRI, EcoRII, BamHI, HindIII, TaqI, NotI, HinFI, PvuII, Sau3AI, SmaI, HaeIII, HgaI, HpaII, AluI, EcoRV, EcoP15I, KpnI, PstI. , SacI, SalI, ScaI, SpeI, SphI, StuI, XbaI, and combinations thereof.

b)メチル化による生体試料の種類の区別
このセクションでは、制限酵素消化によって生成された断片を使用して決定されたメチル化プロファイルを使用して、異なる生体試料間を識別しやすくする方法について説明する。
b) Distinguishing Biological Sample Types by Methylation This section describes how methylation profiles determined using fragments generated by restriction enzyme digestion can be used to facilitate discrimination between different biological samples. do.

本開示の実施形態による、MspIベースの単一分子リアルタイム配列決定によって決定されたメチル化プロファイルを使用して、生体試料間のメチル化プロファイルの違いを評価した。一例として、胎盤組織DNAとバフィーコートDNA試料を取り上げた。MspIベースの標的化単一分子リアルタイム配列決定に基づいて、胎盤とバフィーコートのDNA試料に関するデータを生成するためのコンピュータシミュレーションを行った。シミュレーションは、Sequel II Sequencing Kit 1.0を使用して、全ゲノムカバレッジで胎盤組織DNAおよびバフィーコートDNAをSMRT配列決定することによって以前に生成された各ヌクレオチドのIPDおよびPWを含む動態値に基づいていた。次いで、胎盤DNAとバフィーコートDNA試料をMspI消化にかけ、その後、50~200bpのサイズ範囲を使用してゲルベースのサイズ選択する条件をシミュレートした。選択したDNA分子をヘアピンアダプターで連結して、環状DNA鋳型を形成した。環状DNA鋳型は、IPD、PW、および配列文脈に関する情報を取得するために、単一分子のリアルタイム配列にかけられた。 Methylation profiles determined by MspI-based single-molecule real-time sequencing, according to embodiments of the present disclosure, were used to assess differences in methylation profiles between biological samples. Placental tissue DNA and buffy coat DNA samples were taken as an example. Computer simulations were performed to generate data for placental and buffy coat DNA samples based on MspI-based targeted single-molecule real-time sequencing. Simulations were based on kinetic values including IPD and PW for each nucleotide previously generated by SMRT sequencing placental tissue DNA and buffy coat DNA with whole-genome coverage using Sequel II Sequencing Kit 1.0. was Placental DNA and buffy coat DNA samples were then subjected to MspI digestion, after which a size range of 50-200 bp was used to simulate gel-based size selection conditions. Selected DNA molecules were ligated with hairpin adapters to form circular DNA templates. The circular DNA template was subjected to single-molecule real-time sequencing to obtain information on IPD, PW, and sequence context.

SMRT配列決定サブリードを生成するZMWが500,000個あると仮定すると、これらのサブリードは、表1に示されるように、50~200bpのサイズ範囲内のMspI消化断片のゲノム分布に従った。サブリード深度は、胎盤とバフィーコートの両方のDNA試料について、30倍と想定された。胎盤DNA試料およびバフィーコートDNA試料について、それぞれシミュレーションを10回繰り返した。したがって、MspI消化標的化単一分子リアルタイム配列決定によってインシリコで生成されたデータセットは、合計10個の胎盤DNA試料を含み、かつ10個のバフィーコートDNA試料を取得した。データセットを、CNNによってさらに分析し、本開示に従って各試料のメチル化プロファイルを決定した。中央値が9,198箇所のCpGアイランドからのCpG部位(範囲:5,497~13,928箇所)を取得し、配列決定されたCpG部位全体(範囲:45,304~90,762箇所)の13.6%を占めていた。各分子の各CpG部位のメチル化状態は、本開示に従ってCNNモデルによって決定した。 Assuming 500,000 ZMWs generating SMRT sequencing subreads, these subreads followed the genomic distribution of MspI digested fragments within the size range of 50-200 bp, as shown in Table 1. The sub-read depth was assumed to be 30-fold for both placental and buffy coat DNA samples. The simulation was repeated 10 times for each placental DNA sample and buffy coat DNA sample. Thus, the dataset generated in silico by MspI-digested targeted single-molecule real-time sequencing contained a total of 10 placental DNA samples and obtained 10 buffy coat DNA samples. The dataset was further analyzed by CNN to determine the methylation profile of each sample according to the present disclosure. CpG sites from a median of 9,198 CpG islands (range: 5,497-13,928) were obtained, and all sequenced CpG sites (range: 45,304-90,762) were obtained. It accounted for 13.6%. The methylation status of each CpG site in each molecule was determined by the CNN model according to this disclosure.

図132は、MspIベースの標的化単一分子リアルタイム配列決定によって決定された胎盤およびバフィーDNA試料間の全体的なメチル化レベルのグラフである。y軸は、パーセントとしてのメチル化レベルである。x軸に、試料の種類を列挙した。図132は、全体的なメチル化レベルが、バフィーコート試料(中央値:69.5%;範囲:68.9%~70.4%)と比較して、胎盤試料(中央値:57.6%;範囲:56.9%~59.1%)で低かったことを示している(P値<0.0001、マンホイットニのU検定)。これらの結果は、MspIベースの単一分子リアルタイム配列決定によって決定されたメチル化プロファイルを、メチル化の違いに基づいて組織試料または生体試料を区別するために使用することができることを示唆した。これらのデータは、MspIベースの単一分子リアルタイム配列決定によって検出されたメチル化の違いにより、胎盤由来のDNAを、バフィーコートDNAから識別できることを示していることから、この方法を、母体血漿中の胎児DNA画分の測定に適用することができる。母体血漿中または母体血清中の胎児DNAは胎盤に由来し、一方、試料中の残りのDNA分子は主に母体バフィーコート細胞に由来するため、メチル化を使用して胎児DNA画分を測定することができる。実施形態では、この技術は、異なる組織、または異なる疾患および/もしくは生理学的状態を有する組織、あるいは生体試料を区別するための有用なツールである。 Figure 132 is a graph of global methylation levels between placental and buffy DNA samples determined by MspI-based targeted single-molecule real-time sequencing. The y-axis is the methylation level as a percentage. On the x-axis the sample type was listed. Figure 132 shows that overall methylation levels were higher in placenta samples (median: 57.6%) compared to buffy coat samples (median: 69.5%; range: 68.9%-70.4%). %; range: 56.9%-59.1%) (P value <0.0001, Mann-Whitney U test). These results suggested that methylation profiles determined by MspI-based single-molecule real-time sequencing could be used to distinguish between tissue or biological samples based on methylation differences. These data demonstrate that methylation differences detected by MspI-based single-molecule real-time sequencing can distinguish placental-derived DNA from buffy-coat DNA, suggesting that this method can be used in maternal plasma. can be applied to measure the fetal DNA fraction of Methylation is used to measure the fetal DNA fraction because the fetal DNA in maternal plasma or serum is derived from the placenta, while the remaining DNA molecules in the sample are primarily derived from maternal buffy coat cells. be able to. In embodiments, this technique is a useful tool for distinguishing between different tissues, or tissues with different diseases and/or physiological conditions, or biological samples.

CpGアイランドのメチル化プロファイルを使用して胎盤DNA試料とバフィーコートDNA試料との間のクラスター分析を行うために、CpGアイランドのすべてのCpG部位の中でメチル化として分類されたCpG部位の割合を使用して、CpGアイランドのDNAメチル化レベルを計算した。例示の目的で、CpGアイランド領域のメチル化レベルを使用してクラスター分析を行った。 To perform cluster analysis between placental and buffy coat DNA samples using the methylation profile of CpG islands, the percentage of CpG sites classified as methylated among all CpG sites of CpG islands was was used to calculate the DNA methylation levels of CpG islands. For illustrative purposes, cluster analysis was performed using methylation levels of CpG island regions.

図133は、MspIベースの標的単一分子リアルタイム配列決定によって決定されたDNAメチル化プロファイルを使用した胎盤およびバフィーコートの試料のクラスター分析を示している。異なる患者にわたるCpGアイランドからのメチル化パターンの類似性は、クラスタリング樹状図の高さの値によって示される。この例では、高さはユークリッド距離に従って計算される。一実施形態では、高さカットオフ100を使用して、クラスタリングツリーを2つのグループに分割し、100%の感度および特異度で、胎盤試料およびバフィーコート試料を区別することができる。他の実施形態では、他の高さカットオフを使用することができ、限定されないが、50、60、70、80、90、120、130、140、および150などが含まれる。図133は、10個の胎盤DNA試料および10個のバフィーコートDNA試料が、本開示によるMspIベースの単一分子リアルタイム配列決定によって決定されたCpGアイランドのメチル化プロファイルを使用して、別々の2つのグループに明確にクラスター化された。 Figure 133 shows cluster analysis of placenta and buffy coat samples using DNA methylation profiles determined by MspI-based targeted single-molecule real-time sequencing. The similarity of methylation patterns from CpG islands across different patients is indicated by the clustering dendrogram height values. In this example, height is calculated according to Euclidean distance. In one embodiment, a height cutoff of 100 can be used to divide the clustering tree into two groups and distinguish between placental and buffy coat samples with 100% sensitivity and specificity. Other height cutoffs may be used in other embodiments, including but not limited to 50, 60, 70, 80, 90, 120, 130, 140, and 150, and the like. FIG. 133 shows that 10 placental DNA samples and 10 buffy coat DNA samples were analyzed using CpG island methylation profiles determined by MspI-based single-molecule real-time sequencing according to the present disclosure. clearly clustered into one group.

V.訓練と検出の方法
このセクションでは、塩基修飾を検出するために機械学習モデルを訓練する方法、および機械学習モデルを使用して塩基修飾を検出する方法の例を示す。
V. Training and Detection Methods This section provides examples of how to train a machine learning model to detect base modifications and how to use a machine learning model to detect base modifications.

A.モデル訓練
図102は、核酸分子中のヌクレオチドの修飾を検出する例示的な方法1020を示す。例示的な方法1020は、修飾を検出するためにモデルを訓練する方法であり得る。修飾には、メチル化が含まれ得る。メチル化は、本明細書に記載の任意のメチル化を含み得る。修飾は、メチル化および非メチル化などの個別の状態を有することができ、メチル化の種類を指定する可能性がある。したがって、ヌクレオチドには、3つ以上の状態(分類)が存在してもよい。
A. Model Training FIG. 102 illustrates an exemplary method 1020 for detecting modifications of nucleotides in nucleic acid molecules. An exemplary method 1020 can be a method of training a model to detect modifications. Modifications can include methylation. Methylation can include any methylation described herein. Modifications can have separate states, such as methylated and unmethylated, and may specify the type of methylation. Thus, a nucleotide may have more than two states (classifications).

ブロック1022では、複数の第1のデータ構造が受信される。データ構造の様々な例が、ここに、例えば、図4~16に記載されている。第1の複数の第1のデータ構造の各第1のデータ構造は、複数の第1の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応し得る。第1の複数のデータ構造に関連する各ウィンドウは、4つ以上の連続したヌクレオチドを含んでもよく、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21またはそれ以上の連続したヌクレオチドが含まれる。各ウィンドウには、同じ数の連続したヌクレオチドが含まれ得る。ウィンドウは、重複している場合がある。各ウィンドウは、第1の核酸分子の第1の鎖上のヌクレオチドおよび第1の核酸分子の第2の鎖上のヌクレオチドを含み得る。第1のデータ構造はまた、ウィンドウ内の各ヌクレオチドについて、鎖特性の値を含み得る。鎖特性は、存在するヌクレオチドか、または第1の鎖もしくは第2の鎖のいずれかを示し得る。ウィンドウは、第1の鎖の対応する位置のヌクレオチドに相補的ではない第2の鎖のヌクレオチドを含み得る。一部の実施形態では、第2の鎖上のすべてのヌクレオチドは、第1の鎖のヌクレオチドに相補的である。一部の実施形態では、各ウィンドウは、第1の核酸分子の1つの鎖のみのヌクレオチドを含み得る。 At block 1022, a plurality of first data structures are received. Various examples of data structures are described herein, eg, in FIGS. 4-16. Each first data structure of the first plurality of first data structures may correspond to a respective window of sequenced nucleotides in a respective nucleic acid molecule of the plurality of first nucleic acid molecules. Each window associated with the first plurality of data structures may comprise 4 or more consecutive nucleotides, and 17, 18, 19, 20, 21 or more contiguous nucleotides are included. Each window may contain the same number of contiguous nucleotides. Windows may overlap. Each window can include nucleotides on the first strand of the first nucleic acid molecule and nucleotides on the second strand of the first nucleic acid molecule. The first data structure may also include a strand property value for each nucleotide in the window. Strand characteristics can indicate either the nucleotides present, or the first or second strand. The window may include nucleotides of the second strand that are not complementary to nucleotides at corresponding positions of the first strand. In some embodiments, all nucleotides on the second strand are complementary to nucleotides on the first strand. In some embodiments, each window may contain nucleotides from only one strand of the first nucleic acid molecule.

第1の核酸分子は、環状DNA分子であり得る。環状DNA分子は、二本鎖DNA分子を切断することによって形成することができ、Cas9複合体を使用して、切断された二本鎖DNA分子を形成する。ヘアピンアダプターは、切断された二本鎖DNA分子の末端に連結することができる。実施形態では、二本鎖DNA分子の両端を切断して連結することができる。例えば、切断、連結、およびその後の分析は、図91に記載されているように進めてもよい。 The first nucleic acid molecule can be a circular DNA molecule. A circular DNA molecule can be formed by cleaving a double-stranded DNA molecule, using the Cas9 complex to form the cleaved double-stranded DNA molecule. Hairpin adapters can be ligated to the ends of cleaved double-stranded DNA molecules. In embodiments, both ends of a double-stranded DNA molecule can be cleaved and ligated. For example, cleavage, ligation, and subsequent analysis may proceed as described in FIG.

第1の複数の第1のデータ構造は、5,000~10,000、10,000~50,000、50,000~100,000、100,000~200,000、200,000~500,000、500,000~1,000,000、または1,000,000以上の第1のデータ構造を含み得る。複数の第1の核酸分子は、少なくとも1,000、10,000、50,000、100,000、500,000、1,000,000、5,000,000、またはそれ以上の核酸分子を含み得る。さらなる例として、少なくとも10,000または50,000または100,000または500,000または1,000,000または5,000,000の配列リードを生成することができる。 the first plurality of first data structures are: 5,000-10,000; 10,000-50,000; 50,000-100,000; 100,000-200,000; 000, 500,000 to 1,000,000, or more than 1,000,000 first data structures. The plurality of first nucleic acid molecules comprises at least 1,000, 10,000, 50,000, 100,000, 500,000, 1,000,000, 5,000,000 or more nucleic acid molecules. obtain. As a further example, at least 10,000 or 50,000 or 100,000 or 500,000 or 1,000,000 or 5,000,000 sequence reads can be generated.

第1の核酸分子の各々は、ヌクレオチドに対応する信号のパルスを測定することによって配列決定される。信号は、蛍光信号、または他の種類の光信号(例えば、化学発光、測光)であり得る。信号は、ヌクレオチドまたはヌクレオチドと結合したタグに起因する場合がある。 Each of the first nucleic acid molecules is sequenced by measuring pulses of signals corresponding to nucleotides. The signal can be a fluorescent signal, or other type of optical signal (eg, chemiluminescence, photometry). A signal may result from a nucleotide or a tag attached to a nucleotide.

修飾は、各第1の核酸分子の各ウィンドウの標的位置のヌクレオチドの既知の第1の状態を有する。第1の状態は、修飾がヌクレオチドに存在しないか、または修飾がヌクレオチドに存在するかであり得る。修飾は、第1の核酸分子に存在しないことが既知の場合があり、または第1の核酸分子は、修飾が存在しないように処理を受ける場合がある。修飾は、第1の核酸分子に存在することが既知の場合があり、または第1の核酸分子は、修飾が存在するように処理を受ける場合がある。第1の状態が、修飾が存在しない状態である場合、修飾は、各第1の核酸分子の各ウィンドウに存在せず、標的位置にだけ存在する場合がある。既知の第1の状態は、第1のデータ構造の第1の箇所のメチル化状態と、第1のデータ構造の第2の箇所の非メチル化状態とを含み得る。 The modifications have a known first state of the nucleotide at the target position of each window of each first nucleic acid molecule. The first state can be that the modification is absent from the nucleotide or the modification is present at the nucleotide. The modification may be known to be absent from the first nucleic acid molecule, or the first nucleic acid molecule may be treated so that the modification is absent. The modification may be known to be present in the first nucleic acid molecule, or the first nucleic acid molecule may be treated such that the modification is present. If the first state is the absence of modifications, the modifications may not be present in each window of each first nucleic acid molecule, but only at the target position. The first known state may include a methylation state at a first location of the first data structure and an unmethylation state at a second location of the first data structure.

標的位置は、それぞれのウィンドウの中心であり得る。遇数のヌクレオチドにまたがるウィンドウの場合、標的位置は、ウィンドウの中心のすぐ上流またはすぐ下流の位置であり得る。一部の実施形態では、標的位置は、第1の位置または最後の位置を含む、それぞれのウィンドウの他の任意の位置にあってもよい。例えば、ウィンドウが、一方の鎖のnヌクレオチド、1番目の位置からn番目の位置(上流または下流のいずれか)にまたがる場合、標的位置は、1番目の位置からn番目の位置までの任意の位置にあってもよい。 The target position can be the center of each window. For windows that span an even number of nucleotides, the target position can be the position immediately upstream or downstream of the center of the window. In some embodiments, the target position may be at any other position in each window, including the first position or the last position. For example, if the window spans n nucleotides on one strand, position 1 to position n (either upstream or downstream), then the target position can be any position from position 1 to position n. may be in position.

各第1のデータ構造には、ウィンドウ内の特性についての値が含まれる。特性は、ウィンドウ内の各ヌクレオチドについてのものであり得る。特性は、ヌクレオチドの識別(identity)を含み得る。識別(identity)は、塩基(例えば、A、T、C、またはG)を含み得る。特性はまた、それぞれのウィンドウ内の標的位置に対するヌクレオチドの位置を含み得る。例えば、位置は、標的位置に対するヌクレオチドの距離であり得る。ヌクレオチドが標的位置からある方向へ1ヌクレオチド離れている場合、位置は+1であり得、ヌクレオチドが標的位置から反対方向へ1ヌクレオチド離れている場合、位置は-1であり得る。
Each first data structure contains values for the properties within the window. A property can be for each nucleotide within the window. Properties can include nucleotide identities . An identity can include a base (eg, A, T, C, or G). The properties can also include the nucleotide position relative to the target position within each window. For example, a position can be a nucleotide distance to a target position. A position can be +1 if the nucleotide is one nucleotide away from the target position in one direction, and a position can be -1 if the nucleotide is one nucleotide away from the target position in the opposite direction.

特性は、ヌクレオチドに対応するパルスの幅を含み得る。パルスの幅は、パルスの最大値の半分でのパルスの幅であり得る。特性は、ヌクレオチドに対応するパルスと近傍のヌクレオチドに対応するパルスとの間の時間を表すパルス間隔(IPD)をさらに含み得る。パルス間隔は、ヌクレオチドに関連するパルスの最大値と近傍のヌクレオチドに関連するパルスの最大値との間の時間であり得る。近傍のヌクレオチドは、隣接するヌクレオチドであり得る。特性は、ウィンドウ内の各ヌクレオチドに対応するパルスの高さも含み得る。特性は、ヌクレオチドが第1の核酸分子の第1の鎖または第2の鎖のどちらに存在するかを示す鎖特性の値をさらに含み得る。鎖の表示は、図6に示されるマトリックスと同様であり得る。 A characteristic may include the width of a pulse corresponding to a nucleotide. The width of the pulse may be the width of the pulse at half its maximum value. The characteristics may further include a pulse interval (IPD) representing the time between pulses corresponding to a nucleotide and pulses corresponding to neighboring nucleotides. A pulse interval can be the time between a pulse maximum associated with a nucleotide and a pulse maximum associated with a neighboring nucleotide. Neighboring nucleotides can be adjacent nucleotides. The characteristics may also include the pulse height corresponding to each nucleotide within the window. The properties can further include a strand property value that indicates whether the nucleotide is on the first strand or the second strand of the first nucleic acid molecule. The representation of the strands can be similar to the matrix shown in FIG.

複数の第1のデータ構造の各データ構造は、IPDまたはカットオフ値未満の幅を有する第1の核酸分子を除外し得る。10パーセンタイル(または1、5、15、20、30、40、50、60、70、80、90、または95パーセンタイル)より大きいIPD値を有する第1の核酸分子のみを使用することができる。パーセンタイルは、参照試料または参照試料内のすべての核酸分子からのデータに基づいてもよい。幅のカットオフ値も、パーセンタイルに対応する場合がある。 Each data structure of the plurality of first data structures may exclude first nucleic acid molecules having widths less than the IPD or cutoff value. Only first nucleic acid molecules that have an IPD value greater than the 10th percentile (or the 1st, 5th, 15th, 20th, 30th, 40th, 50th, 60th, 70th, 80th, 90th, or 95th percentile) can be used. Percentiles may be based on data from the reference sample or all nucleic acid molecules within the reference sample. Width cutoff values may also correspond to percentiles.

ブロック1024では、複数の第1の訓練試料が記憶される。各第1の訓練試料は、第1の複数の第1のデータ構造のうちの1つと、標的位置のヌクレオチドの修飾についての第1の状態を示す第1のラベルとを含む。 At block 1024, a plurality of first training samples are stored. Each first training sample includes one of the first plurality of first data structures and a first label indicative of a first state of modification of the nucleotide at the target position.

ブロック1026では、第2の複数の第2のデータ構造が受信される。ブロック1026は、任意選択的であり得る。第2の複数の第2のデータ構造の各第2のデータ構造は、複数の第2の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応する。第2の複数の核酸分子は、複数の第1の核酸分子と同じであっても異なっていてもよい。修飾は、各第2の核酸分子の各ウィンドウ内の標的位置にあるヌクレオチドの既知の第2の状態を有する。第2の状態は、最初の状態とは異なる状態である。例えば、最初の状態に修飾が存在する場合、第2の状態には修飾が存在せず、その逆も同様である。各第2のデータ構造は、第1の複数の第1のデータ構造と同じ特性についての値を含む。 At block 1026, a second plurality of second data structures is received. Block 1026 may be optional. Each second data structure of the second plurality of second data structures corresponds to a respective window of sequenced nucleotides in a respective nucleic acid molecule of the plurality of second nucleic acid molecules. The second plurality of nucleic acid molecules may be the same or different than the first plurality of nucleic acid molecules. Modifications have a known second state of the nucleotide at the target position within each window of each second nucleic acid molecule. The second state is a state different from the first state. For example, if there is a modification in the first state, there is no modification in the second state, and vice versa. Each second data structure contains values for the same property as the first plurality of first data structures.

複数の第1の訓練試料は、多置換増幅(MDA)を使用して生成することができる。一部の実施形態では、複数の第1の訓練試料は、ヌクレオチドのセットを使用して、第1の複数の核酸分子を増幅することによって生成され得る。ヌクレオチドのセットは、特定の比率で第1のタイプのメチル化(例えば、6mAまたは任意の他のメチル化[例えば、CpG])を含み得る。指定された比率は、非メチル化ヌクレオチドに対して、1:10、1:100、1:1000、1:10000、1:100000、または1:1000000を含み得る。複数の第2の核酸分子は、第1のタイプの非メチル化ヌクレオチドを用いた多置換増幅を使用して生成され得る。 A plurality of first training samples can be generated using multiple displacement amplification (MDA). In some embodiments, a plurality of first training samples can be generated by amplifying a first plurality of nucleic acid molecules using a set of nucleotides. A set of nucleotides may contain a first type of methylation (eg, 6mA or any other methylation [eg, CpG]) in a specific ratio. Specified ratios can include 1:10, 1:100, 1:1000, 1:10000, 1:100000, or 1:1000000 relative to unmethylated nucleotides. A plurality of second nucleic acid molecules can be generated using multiple substitution amplification with unmethylated nucleotides of the first type.

ブロック1028では、複数の第2の訓練試料が記憶される。ブロック1028は、任意選択的であり得る。各第2の訓練試料は、第2の複数の第2のデータ構造のうちの1つと、標的位置のヌクレオチドの修飾についての第2の状態を示す第2のラベルとを含む。 At block 1028, a plurality of second training samples are stored. Block 1028 may be optional. Each second training sample includes one of the second plurality of second data structures and a second label indicative of a second state of modification of the nucleotide at the target position.

ブロック1029では、モデルは、複数の第1の訓練試料、および任意選択的に複数の第2の訓練試料を使用して訓練される。訓練は、第1の複数の第1のデータ構造および任意選択的に第2の複数の第2のデータ構造がモデルに入力される場合、第1のラベルおよび任意選択的に第2のラベルの対応するラベルに一致するまたは一致しないモデルの出力に基づいて、モデルのパラメータを最適化することによって行われる。モデルの出力は、それぞれのウィンドウにおける標的位置のヌクレオチドが修飾を有するかどうかを指定する。モデルが外れ値を第1の状態とは異なる状態であると特定する可能性があるため、この方法は、複数の第1の訓練試料のみを含み得る。モデルは、機械学習モデルとも呼ばれる、統計モデルであり得る。 At block 1029, the model is trained using a plurality of first training samples and optionally a plurality of second training samples. Training is performed on a first label and optionally a second label when a first plurality of first data structures and optionally a second plurality of second data structures are input to the model. This is done by optimizing the parameters of the model based on the model's outputs that match or do not match the corresponding labels. The output of the model specifies whether the nucleotide at the target position in each window has the modification. The method may only include a plurality of first training samples, as the model may identify outliers as different states than the first state. A model can be a statistical model, also called a machine learning model.

一部の実施形態では、モデルの出力は、複数の状態の各々における確率を含み得る。確率が最も高い状態を、その状態とみなすことができる。 In some embodiments, the output of the model may include probabilities at each of multiple states. The state with the highest probability can be considered that state.

モデルには、畳み込みニューラルネットワーク(CNN)が含まれ得る。CNNは、第1の複数のデータ構造および任意選択的に第2の複数のデータ構造をフィルタリングするように構成された畳み込みフィルターのセットを含み得る。フィルターは、本明細書に記載の任意のフィルターであり得る。各層のフィルターの数は、10~20、20~30、30~40、40~50、50~60、60~70、70~80、80~90、90~100、100~150、150~200、またはそれ以上であり得る。フィルターのカーネルサイズは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、15~20、20~30、30~40、またはそれ以上であり得る。CNNは、フィルタリングされた第1の複数のデータ構造、および任意選択的にフィルタリングされた第2の複数のデータ構造を受信するように構成された入力層を含み得る。CNNはまた、複数のノードを含む複数の隠れ層を含み得る。入力層には、複数の隠れ層の第1の層が結合した。CNNは、複数の隠れ層の最後の層に結合され、出力データ構造を出力するように構成された出力層をさらに含み得る。出力データ構造には、特性が含まれ得る。 A model may include a convolutional neural network (CNN). A CNN may include a set of convolution filters configured to filter a first plurality of data structures and optionally a second plurality of data structures. The filter can be any filter described herein. The number of filters in each layer is 10-20, 20-30, 30-40, 40-50, 50-60, 60-70, 70-80, 80-90, 90-100, 100-150, 150-200 , or more. The filter kernel size can be 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 15-20, 20-30, 30-40, or larger. could be. The CNN may include an input layer configured to receive a first plurality of filtered data structures and, optionally, a second plurality of filtered data structures. A CNN may also include multiple hidden layers containing multiple nodes. The input layer was combined with the first of the multiple hidden layers. The CNN may further include an output layer coupled to the last layer of the plurality of hidden layers and configured to output an output data structure. The output data structure may contain properties.

モデルには、教師あり学習モデルが含まれ得る。教師あり学習モデルには、異なるアプローチおよびアルゴリズムが含まれてもよく、分析的学習、人工ニューラルネットワーク、誤差逆伝播、ブースティング(メタアルゴリズム)、ベイズ統計、事例ベース推論、決定木学習、帰納論理プログラミング、ガウス過程回帰、遺伝的プログラミング、データ処理のグループ法、カーネル推定器、学習オートマトン、学習分類器システム、最小メッセージ長(決定木、決定グラフなど)、多重線形部分空間学習、ナイーブベイズ分類器、最大エントロピー分類器、条件付き確率場、最近傍アルゴリズム、確率的で近似的に正しい学習(PAC)学習、リップルダウンルール、知識獲得法論、シンボリック機械学習アルゴリズム、サブシンボリック機械学習アルゴリズム、サポートベクトルマシン、最小複雑性マシン(MCM)、ランダムフォレスト、分類器のアンサンブル、通常分類、データ事前処理、不均衡データセットの処理、統計的関係学習、またはProaftn、多基準分類アルゴリズムが含まれる。モデルは、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク(例えば、長期短期メモリ、LSTM)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、k平均クラスタリング、ノイズを伴うアプリケーションの密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、サポートベクトルマシン(SVM)、または本明細書に記載の任意のモデルであってもよい。 Models may include supervised learning models. Supervised learning models may include different approaches and algorithms, analytic learning, artificial neural networks, backpropagation, boosting (meta-algorithms), Bayesian statistics, case-based inference, decision tree learning, inductive logic. programming, Gaussian process regression, genetic programming, group methods of data processing, kernel estimators, learning automata, learning classifier systems, minimum message length (decision trees, decision graphs, etc.), multilinear subspace learning, naive Bayes classifiers , maximum entropy classifiers, conditional random fields, nearest neighbor algorithms, probabilistic and approximately correct learning (PAC) learning, ripple-down rules, knowledge acquisition methodologies, symbolic machine learning algorithms, sub-symbolic machine learning algorithms, support vector machines , Minimum Complexity Machines (MCM), Random Forests, Ensemble of Classifiers, Regular Classification, Data Pre-Processing, Processing of Imbalanced Data Sets, Statistical Relationship Learning, or Proaftn, Multi-Criteria Classification Algorithms. Models include linear regression, logistic regression, deep recurrent neural networks (e.g. long short-term memory, LSTM), Bayesian classifiers, hidden Markov models (HMM), linear discriminant analysis (LDA), k-means clustering, applications with noise density-based spatial clustering (DBSCAN), random forest algorithm, support vector machine (SVM), or any model described herein.

機械学習モデルの訓練の一環として、機械学習モデルのパラメータ(重み、閾値など、例えば、ニューラルネットワークの活性化関数に使用することができるもの)を訓練試料(訓練セット)に基づいて最適化して、標的位置のヌクレオチドの修飾を分類する際に最適化された精度を提供する。様々な形式の最適化を行うことができ、例えば、誤差逆伝播、経験的リスク最小化、および構造的リスク最小化などである。試料の検証セット(データ構造とラベル)を使用して、モデルの精度を検証することができる。交差検証は、訓練と検証のために訓練セットの様々な箇所を使用して行うことができる。モデルは、複数のサブモデルを含むことができ、それによって、アンサンブルモデルを提供する。サブモデルは、より弱いモデルであり得るが、組み合わせると、より正確な最終モデルを提供する。 As part of training a machine learning model, the parameters of the machine learning model (weights, thresholds, etc., that can be used, for example, in the activation function of a neural network) are optimized based on a training sample (training set), Provides optimized accuracy in classifying nucleotide modifications at target positions. Various forms of optimization can be performed, such as backpropagation, empirical risk minimization, and structural risk minimization. A validation set of samples (data structures and labels) can be used to validate the accuracy of the model. Cross-validation can be performed using various portions of the training set for training and validation. A model can contain multiple sub-models, thereby providing an ensemble model. The sub-models can be weaker models, but when combined they provide a more accurate final model.

一部の実施形態では、キメラまたはハイブリッド核酸分子は、モデルを検証するために使用することができる。複数の第1の核酸分子の少なくともいくつかは、各々、第1の参照配列に対応する第1の箇所および第2の参照配列に対応する第2の箇所を含む。第1の参照配列は、第2の参照配列とは異なる染色体、組織(例えば、腫瘍または非腫瘍)、生物、または種に由来し得る。第1の参照配列はヒトであり得、第2の参照配列は異なる動物からのものであり得る。各キメラ核酸分子は、第1の参照配列に対応する第1の箇所および第2の参照配列に対応する第2の箇所を含み得る。第1の箇所は、第1のメチル化パターンを有し得、第2の箇所は、第2のメチル化パターンを有し得る。第1の箇所は、メチラーゼで処理することができる。第2の箇所は、メチラーゼで処理され得ず、第2の参照配列の非メチル化箇所に対応し得る。 In some embodiments, chimeric or hybrid nucleic acid molecules can be used to validate models. At least some of the plurality of first nucleic acid molecules each include a first portion corresponding to the first reference sequence and a second portion corresponding to the second reference sequence. The first reference sequence can be from a different chromosome, tissue (eg, tumor or non-tumor), organism, or species than the second reference sequence. The first reference sequence can be human and the second reference sequence can be from a different animal. Each chimeric nucleic acid molecule can comprise a first portion corresponding to a first reference sequence and a second portion corresponding to a second reference sequence. The first location can have a first methylation pattern and the second location can have a second methylation pattern. The first site can be treated with a methylase. The second position may not be treated with a methylase and may correspond to an unmethylated position in the second reference sequence.

B.修飾の検出
図103は、核酸分子中のヌクレオチドの修飾を検出するための方法1030を示す。修飾は、図102の方法1020で説明される任意の修飾であり得る。
B. Detecting Modifications FIG. 103 shows a method 1030 for detecting modifications of nucleotides in a nucleic acid molecule. The modification can be any modification described in method 1020 of FIG.

ブロック1032では、入力データ構造が受信される。入力データ構造は、試料核酸分子で配列決定されたヌクレオチドのウィンドウに対応し得る。試料核酸分子は、ヌクレオチドに対応する光信号のパルスを測定することによって配列決定することができる。ウィンドウは、図102のブロック1022で説明されている任意のウィンドウであり得、配列決定は、図102のブロック1022で説明されている任意の配列決定であり得る。入力データ構造は、図102のブロック1022で説明されているものと同じ特性についての値を含むことができる。方法1030は、試料核酸分子の配列決定を含み得る。 At block 1032, an input data structure is received. The input data structure may correspond to a window of sequenced nucleotides in a sample nucleic acid molecule. A sample nucleic acid molecule can be sequenced by measuring pulses of light signals corresponding to nucleotides. The window can be any window described in block 1022 of FIG. 102 and the sequencing can be any sequence described in block 1022 of FIG. The input data structure may contain values for the same properties as described in block 1022 of FIG. Method 1030 can include sequencing the sample nucleic acid molecules.

ウィンドウ内のヌクレオチドは、参照ゲノムに整列される場合と整列されない場合がある。ウィンドウ内のヌクレオチドは、配列決定されたヌクレオチドを参照ゲノムに整列させることなく、循環コンセンサス配列(CCS)を使用して決定することができる。各ウィンドウのヌクレオチドは、参照ゲノムに整列するのではなく、CCSによって特定される場合がある。一部の実施形態では、ウィンドウは、CCSを用いずに、かつ配列決定されたヌクレオチドの参照ゲノムに整列させることなく、決定され得る。 Nucleotides within the window may or may not be aligned to the reference genome. Nucleotides within the window can be determined using circular consensus sequences (CCS) without aligning the sequenced nucleotides to a reference genome. The nucleotides in each window may be specified by CCS rather than aligned to the reference genome. In some embodiments, the window can be determined without using CCS and without aligning the sequenced nucleotides to a reference genome.

ウィンドウ内のヌクレオチドは、濃縮またはフィルタリングすることができる。濃縮は、Cas9を含むアプローチによる場合がある。Cas9アプローチは、図91と同様に、Cas9複合体を使用して二本鎖DNA分子を切断して、切断された二本鎖DNA分子を形成し、ヘアピンアダプターを切断された二本鎖DNA分子の末端に連結することを含み得る。フィルタリングは、サイズ範囲内のサイズを有する二本鎖DNA分子を選択することによるものであり得る。ヌクレオチドは、これらの二本鎖DNA分子に由来する場合がある。分子のメチル化状態を維持する他の方法を使用することができる(例えば、メチル結合タンパク質)。 Nucleotides within the window can be enriched or filtered. Enrichment may be by an approach involving Cas9. The Cas9 approach uses the Cas9 complex to cleave a double-stranded DNA molecule to form a cleaved double-stranded DNA molecule, similar to FIG. can include ligating to the end of the Filtering may be by selecting double-stranded DNA molecules having a size within a size range. Nucleotides may be derived from these double-stranded DNA molecules. Other methods of maintaining the methylation status of molecules can be used (eg, methyl-binding proteins).

ブロック1034において、入力データ構造が、モデルに入力される。モデルは、図102の方法1020によって訓練され得る。 At block 1034, the input data structure is input to the model. The model may be trained by method 1020 of FIG.

一部の実施形態では、キメラ核酸分子は、モデルを検証するために使用され得る。複数の第1の核酸分子の少なくともいくつかは、各々、第1の参照配列に対応する第1の箇所と、第1の参照配列とは異なる第2の参照配列に対応する第2の箇所とを含む。第1の参照配列は、第2の参照配列とは異なる染色体、組織(例えば、腫瘍または非腫瘍)、細胞小器官(例えば、ミトコンドリア、核、葉緑体)、生物(哺乳動物、ウイルス、細菌など)、または種に由来し得る。第1の参照配列はヒトであり得、第2の参照配列は異なる動物からのものであり得る。各キメラ核酸分子は、第1の参照配列に対応する第1の箇所および第2の参照配列に対応する第2の箇所を含み得る。第1の箇所は、第1のメチル化パターンを有し得、第2の箇所は、第2のメチル化パターンを有し得る。第1の箇所は、メチラーゼで処理することができる。第2の箇所は、メチラーゼで処理され得ず、第2の参照配列の非メチル化箇所に対応し得る。 In some embodiments, chimeric nucleic acid molecules can be used to validate models. At least some of the plurality of first nucleic acid molecules each have a first location corresponding to a first reference sequence and a second location corresponding to a second reference sequence different from the first reference sequence. including. The first reference sequence may be a different chromosome, tissue (e.g., tumor or non-tumor), organelle (e.g., mitochondria, nucleus, chloroplast), organism (mammal, virus, bacteria) than the second reference sequence. etc.), or from a species. The first reference sequence can be human and the second reference sequence can be from a different animal. Each chimeric nucleic acid molecule can comprise a first portion corresponding to a first reference sequence and a second portion corresponding to a second reference sequence. The first location can have a first methylation pattern and the second location can have a second methylation pattern. The first site can be treated with a methylase. The second position may not be treated with a methylase and may correspond to an unmethylated position in the second reference sequence.

ブロック1036において、修飾が、入力データ構造のウィンドウ内の標的位置のヌクレオチドに存在するかどうかは、モデルを使用して決定される。 At block 1036, it is determined using the model whether the modification is present at the nucleotide at the target position within the window of the input data structure.

入力データ構造は、複数の入力データ構造のうちの1つの入力データ構造であり得る。各入力データ構造は、複数の試料核酸分子のそれぞれの試料核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応し得る。複数の試料核酸分子は、対象の生体試料から取得することができる。生体試料は、本明細書に記載の任意の生体試料であり得る。方法1030は、入力データ構造ごとに繰り返すことができる。この方法は、複数の入力データ構造を受信することを含み得る。複数の入力データ構造を、モデルに入力することができる。修飾が、各入力データ構造のそれぞれのウィンドウ内の標的位置のヌクレオチドに修飾が存在するかどうかは、モデルを使用して決定することができる。 The input data structure may be one of a plurality of input data structures. Each input data structure may correspond to a respective window of sequenced nucleotides in a respective sample nucleic acid molecule of the plurality of sample nucleic acid molecules. A plurality of sample nucleic acid molecules can be obtained from the subject's biological sample. The biological sample can be any biological sample described herein. Method 1030 can be repeated for each input data structure. The method may include receiving multiple input data structures. Multiple input data structures can be input to the model. A model can be used to determine whether a modification exists at the nucleotide at the target position within each window of each input data structure.

複数の試料核酸分子の各試料核酸分子は、カットオフサイズよりも大きいサイズを有し得る。例えば、カットオフサイズは、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、6kb、7kb、9kb、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、500kb、または1Mbであり得る。サイズカットオフがあると、サブリード深度が高くなる可能性があり、どちらの場合も、修飾検出の精度が増加する可能性がある。一部の実施形態では、この方法は、DNA分子を配列決定する前に、特定のサイズについてDNA分子を分画することを含み得る。 Each sample nucleic acid molecule of the plurality of sample nucleic acid molecules can have a size greater than the cutoff size. For example, cut-off sizes are 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 9 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb. , 60 kb, 70 kb, 80 kb, 90 kb, 100 kb, 500 kb, or 1 Mb. Having a size cutoff can lead to higher sub-read depths, and in both cases can increase the accuracy of modification detection. In some embodiments, the method may comprise fractionating the DNA molecules for a particular size prior to sequencing the DNA molecules.

複数の試料核酸分子は、複数のゲノム領域に整列し得る。複数のゲノム領域の各ゲノム領域について、いくつかの試料核酸分子をゲノム領域に整列させることができる。試料核酸分子の数は、カットオフ数よりも多い場合がある。カットオフ数は、サブリード深度のカットオフであり得る。サブリード深度のカットオフ数は、1倍、10倍、30倍、40倍、50倍、60倍、70倍、80倍、900倍、100倍、200倍、300倍、400倍、500倍、600倍、700倍、または800倍であり得る。サブリード深度のカットオフ数は、精度を改善または最適化するために決定することができる。サブリード深度のカットオフ数は、複数のゲノム領域の数に関連している場合がある。例えば、サブリード深度のカットオフ数がより高いほど、複数のゲノム領域の数はより少ない。 Multiple sample nucleic acid molecules can be aligned to multiple genomic regions. For each genomic region of the plurality of genomic regions, several sample nucleic acid molecules can be aligned to the genomic region. The number of sample nucleic acid molecules may be greater than the cutoff number. The cutoff number may be a sub-read depth cutoff. The cutoff numbers for the sub-read depth are 1, 10, 30, 40, 50, 60, 70, 80, 900, 100, 200, 300, 400, 500, It can be 600-fold, 700-fold, or 800-fold. A sub-read depth cutoff number can be determined to improve or optimize accuracy. The sub-read depth cutoff number may be related to the number of multiple genomic regions. For example, the higher the sub-read depth cutoff number, the lower the number of multiple genomic regions.

修飾は、1つ以上のヌクレオチドに存在していると決定され得る。障害の分類は、1つ以上のヌクレオチドの修飾の存在を使用して、決定することができる。障害の分類は、修飾の数を使用することを含み得る。修飾の数は、閾値と比較され得る。代替的または追加的に、分類は、1つ以上の修飾の位置を含み得る。1つ以上の修飾の位置は、核酸分子の配列リードを参照ゲノムに整列することによって、決定することができる。障害と相関していることが知られている特定の位置に修飾があることが示された場合、障害を決定することができる。例えば、メチル化部位のパターンを、障害の参照パターンと比較することができ、その比較に基づいて、障害を決定することができる。参照パターンとの一致または参照パターンとの実質的な一致(例えば、80%、90%、または95%以上)は、障害または障害の可能性が高いことを示している場合がある。障害は、癌または本明細書に記載の任意の障害(例えば、妊娠関連障害、自己免疫疾患)であり得る。 Modifications can be determined to be present at one or more nucleotides. Disorder classification can be determined using the presence of one or more nucleotide modifications. Classification of disorders may involve using a number of modifications. The number of modifications can be compared to a threshold. Alternatively or additionally, a classification may include one or more positions of modification. The location of one or more modifications can be determined by aligning the sequence reads of the nucleic acid molecule to a reference genome. A disorder can be determined when a modification is shown to be at a particular position that is known to be correlated with the disorder. For example, the pattern of methylation sites can be compared to a reference pattern of disorders, and the disorder can be determined based on the comparison. A match to the reference pattern or a substantial match to the reference pattern (eg, 80%, 90%, or 95% or more) may indicate a disorder or a high probability of a disorder. The disorder can be cancer or any disorder described herein (eg, pregnancy-related disorders, autoimmune diseases).

統計的に有意な数の核酸分子を分析して、障害、組織起源、または臨床関連DNA画分を正確に決定することができる。一部の実施形態では、少なくとも1,000個の核酸分子が分析される。他の実施形態では、少なくとも10,000または50,000または100,000または500,000または1,000,000または5,000,000、またはそれ以上の核酸分子を分析することができる。さらなる例として、少なくとも10,000または50,000または100,000または500,000または1,000,000または5,000,000の配列リードを生成することができる。 A statistically significant number of nucleic acid molecules can be analyzed to accurately determine a lesion, tissue origin, or clinically relevant DNA fraction. In some embodiments, at least 1,000 nucleic acid molecules are analyzed. In other embodiments, at least 10,000 or 50,000 or 100,000 or 500,000 or 1,000,000 or 5,000,000 or more nucleic acid molecules can be analyzed. As a further example, at least 10,000 or 50,000 or 100,000 or 500,000 or 1,000,000 or 5,000,000 sequence reads can be generated.

本方法は、障害の分類は、対象が障害を有すると決定することを含み得る。分類は、修飾の数および/または修飾の部位を使用して、障害のレベルを含み得る。 The method may include classifying the disorder including determining that the subject has the disorder. Classification can include level of disorder using the number and/or site of modification.

臨床関連のDNA画分、胎児のメチル化プロファイル、母体のメチル化プロファイル、インプリント遺伝子領域の存在、または起源組織(例えば、異なる細胞型の混合物を含有する試料から)は、1つ以上のヌクレオチドの修飾の存在を使用して、決定することができる。臨床関連のDNA画分としては、限定されないが、胎児DNA画分、腫瘍DNA画分(例えば、腫瘍細胞と非腫瘍細胞の混合物を含有する試料から)、および移植物DNA画分(例えば、ドナー細胞とレシピエント細胞の混合物を含有する試料から)が含まれる。 Clinically relevant DNA fractions, fetal methylation profiles, maternal methylation profiles, presence of imprinted gene regions, or tissue of origin (e.g., from a sample containing a mixture of different cell types) can be identified by one or more nucleotide can be determined using the presence of modifications of Clinically relevant DNA fractions include, but are not limited to, fetal DNA fractions, tumor DNA fractions (e.g., from samples containing a mixture of tumor and non-tumor cells), and graft DNA fractions (e.g., donor from samples containing mixtures of cells and recipient cells).

本方法は、障害の治療をさらに含み得る。治療は、決定された障害のレベル、特定された修飾、および/または起源の組織(例えば、癌患者の循環から単離された腫瘍細胞の)に従って、提供することができる。例えば、特定された修飾は、特定の薬物または化学療法を用いて標的化することができる。起源の組織を使用して、手術または任意の他の形態の治療を誘導することができる。また、障害のレベルを使用して、任意のタイプの治療に対してどれほど侵襲性であるかを判断することができる。 The method may further include treating the disorder. Treatment can be provided according to the level of damage determined, the modification identified, and/or the tissue of origin (eg, of tumor cells isolated from the circulation of a cancer patient). For example, identified modifications can be targeted using specific drugs or chemotherapy. The tissue of origin can be used to guide surgery or any other form of treatment. Also, the level of injury can be used to determine how aggressive any type of treatment is.

実施形態は、患者における障害のレベルを決定した後に、患者における障害を治療することを含み得る。治療には、本明細書で言及される参考文献に記載される任意の治療を含む、任意の好適な療法、薬物、化学療法、放射線照射、または手術が含まれ得る。参考文献における治療に関する情報は、参照により本明細書に組み込まれる。 Embodiments may include treating the disorder in the patient after determining the level of disorder in the patient. Treatment may include any suitable therapy, drug, chemotherapy, radiation, or surgery, including any treatment described in the references mentioned herein. The information regarding therapy in the references is incorporated herein by reference.

VI.ハプロタイプ分析
2つのハプロタイプ間のメチル化プロファイルの違いは、腫瘍組織の試料で見つかった。したがって、ハプロタイプ間のメチル化不均衡を使用して、癌または他の障害のレベルの分類を決定することができる。ハプロタイプの不均衡はまた、胎児によるハプロタイプの遺伝を特定するために使用され得る。また、胎児の障害は、ハプロタイプ間のメチル化不均衡を分析することを通して特定することもできる。細胞DNAは、ハプロタイプのメチル化レベルを分析するために使用することができる。
VI. Haplotype Analysis Differences in methylation profiles between the two haplotypes were found in tumor tissue samples. Therefore, methylation imbalance between haplotypes can be used to determine the level classification of cancer or other disorders. Haplotype imbalance can also be used to identify inheritance of haplotypes by the fetus. Fetal disorders can also be identified through analysis of methylation imbalance between haplotypes. Cellular DNA can be used to analyze haplotype methylation levels.

A.ハプロタイプ関連のメチル化分析
単一分子リアルタイム配列決定技術により、個々のSNPを特定することが可能になる。単一分子リアルタイム配列決定ウェルから生成された長いリード(例えば、最大数キロベース)は、各コンセンサスリードに存在するハプロタイプ情報を活用することによって、ゲノムのバリアントを段階化する(phasing)ことができる(Edge et al.Genome Res.2017;27:801-812、Wenger et al.Nat Biotechnol.2019;37:1155-1162)。ハプロタイプのメチル化プロファイルは、図77に示すように、CCSによってそれぞれのハプロタイプのアレルにリンクされたCpG部位のメチル化レベルから分析することができる。この段階的なメチル化ハプロタイプ分析は、相同染色体の2つのコピーが、癌などの異なる臨床関連状態で類似するまたは異なるメチル化パターンを共有するかどうかに関する疑問を解決するために使用することができる。一実施形態では、ハプロタイプのメチル化は、そのハプロタイプに割り当てられたいくつかのDNA断片が寄与する集約されたメチル化レベルであろう。ハプロタイプは、異なるサイズのブロックであり得、限定されないが、50nt、100nt、200nt、300nt、400nt、500nt、1knt、2knt、3knt、4knt、5knt、10knt、20knt、30knt、40knt、50knt、100knt、200knt、300knt、400knt、500knt、1Mnt、2Mnt、および3Mntを含む。
A. Haplotype-associated methylation analysis Single-molecule real-time sequencing technology allows individual SNPs to be identified. Long reads (e.g., up to several kilobases) generated from single-molecule real-time sequencing wells are capable of phasing genomic variants by exploiting the haplotype information present in each consensus read. (Edge et al. Genome Res. 2017;27:801-812, Wenger et al. Nat Biotechnol. 2019;37:1155-1162). Haplotype methylation profiles can be analyzed from the methylation levels of CpG sites linked to each haplotype allele by CCS, as shown in FIG. This stepwise methylation haplotype analysis can be used to resolve questions as to whether two copies of homologous chromosomes share similar or different methylation patterns in different clinically relevant conditions such as cancer. . In one embodiment, the methylation of a haplotype will be the aggregate methylation level contributed by several DNA fragments assigned to that haplotype. Haplotypes can be blocks of different sizes, including but not limited to 50 nt, 100 nt, 200 nt, 300 nt, 400 nt, 500 nt, 1 knt, 2 knt, 3 knt, 4 knt, 5 knt, 10 knt, 20 knt, 30 knt, 40 knt, 50 knt, 100 knt, 200 knt , 300 knt, 400 knt, 500 knt, 1 Mnt, 2 Mnt, and 3 Mnt.

B.相対的なハプロタイプベースのメチル化不均衡分析
図104は、相対的なハプロタイプベースのメチル化不均衡分析を示す。ハプロタイプ(すなわち、Hap IおよびHap II)は、単一分子リアルタイム配列決定の結果を分析することによって決定された。各ハプロタイプにリンクされたメチル化パターンは、図77に記載されたアプローチに従ってメチル化プロファイルが決定されたハプロタイプ関連の断片を使用して決定することができる。それによって、Hap IとHap IIの間のメチル化パターンを比較することができる。
B. Relative Haplotype-Based Methylation Imbalance Analysis FIG. 104 shows a relative haplotype-based methylation imbalance analysis. Haplotypes (ie, Hap I and Hap II) were determined by analyzing the results of single-molecule real-time sequencing. The methylation pattern linked to each haplotype can be determined using haplotype-associated fragments whose methylation profiles have been determined according to the approach described in FIG. It allows comparison of methylation patterns between Hap I and Hap II.

Hap IとHap IIの間のメチル化の違いを定量するために、Hap IとHap IIの間のメチル化レベルの違い(ΔF)を計算した。違いΔFは次のように計算される。
ΔF=MHapI-MHapII
ここで、ΔFはHap IとHap IIの間のメチル化レベルの差を表し、MHapIとMHapIIは、それぞれ、Hap IとHap IIのメチル化レベルを表す。ΔFの正の値は、Hap IIと比較して、Hap IのDNAのメチル化レベルがより高いことを示唆している。
To quantify the methylation difference between Hap I and Hap II, the difference in methylation level (ΔF) between Hap I and Hap II was calculated. The difference ΔF is calculated as follows.
ΔF=M HapI −M HapII
where ΔF represents the difference in methylation level between Hap I and Hap II, and M Hap I and M Hap II represent the methylation levels of Hap I and Hap II, respectively. A positive value for ΔF suggests a higher DNA methylation level for Hap I compared to Hap II.

C.HCC腫瘍DNAの相対的ハプロタイプベースのメチル化不均衡分析
一実施形態では、ハプロタイプメチル化分析は、癌ゲノムにおけるメチル化異常を検出するのに有用であり得る。例えば、ゲノム領域内の2つのハプロタイプ間のメチル化の変化が分析される。ゲノム領域内のハプロタイプは、ハプロタイプブロックとして定義される。ハプロタイプブロックは、段階化された染色体上のアレルのセットとみなすことができる。一部の実施形態では、ハプロタイプブロックは、染色体上に物理的にリンクした2つのアレルを支持する配列情報のセットに従って、可能な限り長く延長される。ケース3033の場合、隣接する正常組織DNAの配列決定の結果から97,475個のハプロタイプブロックを取得した。ハプロタイプブロックのサイズの中央値は、2.8kbであった。ハプロタイプブロックの25%は、サイズが8.2kbを超えていた。ハプロタイプブロックの最大サイズは、282.2kbであった。データセットは、Sequel II Sequencing Kit 1.0によって調製されたDNAから生成された。
C. Relative Haplotype-Based Methylation Imbalance Analysis of HCC Tumor DNA In one embodiment, haplotype methylation analysis can be useful for detecting methylation abnormalities in cancer genomes. For example, methylation changes between two haplotypes within a genomic region are analyzed. Haplotypes within a genomic region are defined as haplotype blocks. A haplotype block can be viewed as a staged set of chromosomal alleles. In some embodiments, the haplotype block is extended as long as possible according to the set of sequence information supporting two alleles physically linked on the chromosome. For case 3033, 97,475 haplotype blocks were obtained from sequencing results of adjacent normal tissue DNA. The median haplotype block size was 2.8 kb. 25% of the haplotype blocks exceeded 8.2 kb in size. The maximum size of the haplotype block was 282.2 kb. The dataset was generated from DNA prepared by Sequel II Sequencing Kit 1.0.

説明のために、いくつかの基準を使用して、隣接する非腫瘍組織DNAと比較して、腫瘍DNAのHap IとHap IIとの間で異なるメチル化を示した潜在的なハプロタイプブロックを特定した。基準は次のとおりであった。(1)分析されるハプロタイプブロックには、3つの配列決定ウェルからそれぞれ生成された少なくとも3つの3つのCCS配列が含有されていた。(2)隣接する非腫瘍組織DNAにおけるHap IとHap IIとの間のメチル化レベルの絶対差は5%未満であった。(3)腫瘍組織DNAにおけるHap IとHap IIとの間のメチル化レベルの絶対差は30%を超えていた。上記の基準を満たす73のハプロタイプブロックを特定した。 To illustrate, several criteria were used to identify potential haplotype blocks that showed differential methylation between Hap I and Hap II of tumor DNA compared to adjacent non-tumor tissue DNA. bottom. The criteria were as follows. (1) The haplotype blocks analyzed contained at least three triplicate CCS sequences each generated from triplicate sequencing wells. (2) The absolute difference in methylation levels between Hap I and Hap II in adjacent non-tumor tissue DNA was less than 5%. (3) The absolute difference in methylation levels between Hap I and Hap II in tumor tissue DNA exceeded 30%. We identified 73 haplotype blocks that met the above criteria.

図105Aおよび105Bは、ケースTBR3033の隣接する非腫瘍組織DNAと比較した、HCC腫瘍DNAにおけるHap IとHap IIとの間の異なるメチル化レベルを示す73個のハプロタイプブロックの表である。最初の列は、ハプロタイプブロックに関連する染色体を示す。2番目の列は、染色体内のハプロタイプブロックの開始座標を示す。3番目の列は、ハプロタイプブロックの終止座標を示す。4番目の列は、ハプロタイプブロックの長さを示す。4番目の列は、ハプロタイプブロックのIDを列挙している。5番目の列は、腫瘍組織に隣接する非腫瘍組織におけるHap Iのメチル化レベルを示す。6番目の列は、非腫瘍組織におけるHap IIのメチル化レベルを示す。7番目の列は、腫瘍組織におけるHap Iのメチル化レベルを示す。8番目の列は、腫瘍組織におけるHap IIのメチル化レベルを示す。 Figures 105A and 105B are tables of 73 haplotype blocks showing differential methylation levels between Hap I and Hap II in HCC tumor DNA compared to adjacent non-tumor tissue DNA of case TBR3033. The first column indicates the chromosomes associated with the haplotype block. The second column indicates the starting coordinates of the haplotype block within the chromosome. The third column shows the ending coordinates of the haplotype block. The fourth column indicates the length of the haplotype block. The fourth column lists the ID of the haplotype block. The fifth column shows Hap I methylation levels in non-tumor tissue adjacent to tumor tissue. The sixth column shows Hap II methylation levels in non-tumor tissues. The seventh column shows Hap I methylation levels in tumor tissue. The eighth column shows Hap II methylation levels in tumor tissue.

腫瘍組織DNAのハプロタイプ間でメチル化レベルに30%を超える差を示す73のハプロタイプブロックとは対照的に、非腫瘍組織DNAでは30%を超える差を示したが、腫瘍組織DNAでは5%未満の差を示したハプロタイプブロックは1つだけであった。一部の実施形態では、別の一連の基準を使用して、異なるメチル化を示すハプロタイプブロックを特定することができる。他の最大および最小の閾値の差を使用することができる。例えば、最小の閾値の差は、10%、15%、20%、25%、30%、35%、40%、45%、50%、またはそれ以上であり得る。例として、最大の閾値の差は、1%、5%、10%、15%、20%、または30%である。これらの結果は、ハプロタイプ間のメチル化の違いの変動が、癌の診断、検出、監視、予後診断、および治療のためのガイダンスのための新しいバイオマーカーとして役立つ可能性があることを示唆した。 In contrast to the 73 haplotype block showing greater than 30% difference in methylation levels between haplotypes in tumor tissue DNA, greater than 30% difference in non-tumor tissue DNA but less than 5% in tumor tissue DNA Only one haplotype block showed a difference in In some embodiments, another set of criteria can be used to identify haplotype blocks exhibiting differential methylation. Other maximum and minimum threshold differences can be used. For example, the minimum threshold difference can be 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, or more. As examples, the maximum threshold difference is 1%, 5%, 10%, 15%, 20%, or 30%. These results suggested that variations in methylation differences between haplotypes may serve as new biomarkers for cancer diagnosis, detection, surveillance, prognosis, and guidance for treatment.

一部の実施形態では、メチル化パターンを研究する場合、長いハプロタイプブロックは、インシリコで、より小さなブロックに分割される。 In some embodiments, when studying methylation patterns, long haplotype blocks are split in silico into smaller blocks.

ケース3032の場合、隣接する非腫瘍組織DNAの配列決定の結果から61,958個のハプロタイプブロックを取得した。ハプロタイプブロックのサイズの中央値は、9.3kbであった。ハプロタイプブロックの25%は、サイズが27.6kbを超えていた。ハプロタイプブロックの最大サイズは、717.8kbであった。例として、上記と同じ3つの基準を使用して、隣接する正常組織DNAと比較して、腫瘍DNAのHap IとHap IIとの間で異なるメチル化を示した潜在的なハプロタイプブロックを特定した。上記の基準を満たす20のハプロタイプブロックを特定した。データセットは、Sequel II Sequencing Kit 1.0によって調製されたDNAから生成された。 For case 3032, 61,958 haplotype blocks were obtained from sequencing results of adjacent non-tumor tissue DNA. The median haplotype block size was 9.3 kb. 25% of the haplotype blocks exceeded 27.6 kb in size. The maximum size of the haplotype block was 717.8 kb. As an example, the same three criteria as above were used to identify potential haplotype blocks that showed differential methylation between Hap I and Hap II of tumor DNA compared to adjacent normal tissue DNA. . Twenty haplotype blocks were identified that met the above criteria. The dataset was generated from DNA prepared by Sequel II Sequencing Kit 1.0.

図106は、ケースTBR3032の隣接する正常組織DNAと比較して、腫瘍DNAにおけるHap IとHap IIとの間の異なるメチル化レベルを示す20個のハプロタイプブロックの表である。最初の列は、ハプロタイプブロックに関連する染色体を示す。2番目の列は、染色体内のハプロタイプブロックの開始座標を示す。3番目の列は、ハプロタイプブロックの終止座標を示す。4番目の列は、ハプロタイプブロックの長さを示す。4番目の列は、ハプロタイプブロックのIDを列挙している。5番目の列は、腫瘍組織に隣接する非腫瘍組織におけるHap Iのメチル化レベルを示す。6番目の列は、非腫瘍組織におけるHap IIのメチル化レベルを示す。7番目の列は、腫瘍組織におけるHap Iのメチル化レベルを示す。8番目の列は、腫瘍組織におけるHap IIのメチル化レベルを示す。 FIG. 106 is a table of 20 haplotype blocks showing differential methylation levels between Hap I and Hap II in tumor DNA compared to adjacent normal tissue DNA of case TBR3032. The first column indicates the chromosomes associated with the haplotype block. The second column indicates the starting coordinates of the haplotype block within the chromosome. The third column shows the ending coordinates of the haplotype block. The fourth column indicates the length of the haplotype block. The fourth column lists the ID of the haplotype block. The fifth column shows Hap I methylation levels in non-tumor tissue adjacent to tumor tissue. The sixth column shows Hap II methylation levels in non-tumor tissues. The seventh column shows Hap I methylation levels in tumor tissue. The eighth column shows Hap II methylation levels in tumor tissue.

図106のHCC腫瘍組織の違いを示す20個のハプロタイプブロックとは対照的に、1つのハプロタイプブロックのみが、非腫瘍組織で30%超の違いを示し、しかし、腫瘍組織では5%未満の違いを示した。これらの結果はさらに、ハプロタイプ間のメチル化の違いの変動が、癌の診断、検出、監視、予後診断、および治療のためのガイダンスのための新しいバイオマーカーとして役立つ可能性があることを示唆している。他の実施形態では、他の基準を使用して、異なるメチル化を示すハプロタイプブロックを特定することができる。 In contrast to the 20 haplotype blocks showing differences in HCC tumor tissues in Figure 106, only one haplotype block showed greater than 30% difference in non-tumor tissue, but less than 5% difference in tumor tissue. showed that. These results further suggest that variations in methylation differences between haplotypes may serve as novel biomarkers for cancer diagnosis, detection, surveillance, prognosis, and guidance for treatment. ing. In other embodiments, other criteria can be used to identify haplotype blocks that exhibit differential methylation.

D.他の腫瘍タイプからのDNAの相対的ハプロタイプベースのメチル化不均衡分析
上述のように、ハプロタイプ間のメチル化レベルの分析は、HCC腫瘍組織が、ペアの隣接する非腫瘍組織と比較して、メチル化の不均衡を示すより多くのハプロタイプブロックを有していたことを明らかにした。一例として、腫瘍組織でメチル化不均衡を示すハプロタイプブロックの基準は、次のとおりであった。(1)分析されるハプロタイプブロックには、3つの配列決定ウェルから生成された少なくとも3つのCCS配列が含有されていた。(2)過去のデータに基づく隣接する非腫瘍組織DNAまたは正常組織DNAにおけるHap IとHap IIとの間のメチル化レベルの絶対差は5%未満であった。(3)腫瘍組織DNAにおけるHap IとHap IIとの間のメチル化レベルの絶対差は30%を超えていた。メチル化レベルでハプロタイプ不均衡を示す非腫瘍/正常組織は、腫瘍領域ではなくインプリント領域を示している可能性があるため、基準(2)が含まれた。非腫瘍組織におけるメチル化不均衡を示すハプロタイプブロックの基準は、次のとおりであった。(1)分析されるハプロタイプブロックには、3つの配列決定ウェルから生成された少なくとも3つのCCS配列が含有されていた。(2)過去のデータに基づく隣接する非腫瘍組織DNAまたは正常組織DNAにおけるHap IとHap IIとの間のメチル化レベルの絶対差は30%を超えていた。(3)腫瘍組織DNAにおけるHap IとHap IIとの間のメチル化レベルの絶対差は5%未満であった。
D. Relative Haplotype-Based Methylation Imbalance Analysis of DNA from Other Tumor Types As described above, analysis of methylation levels between haplotypes showed that HCC tumor tissues compared to paired adjacent non-tumor tissues were: We found that we had more haplotype blocks indicating methylation imbalance. As an example, the criteria for haplotype block showing methylation imbalance in tumor tissue were as follows. (1) The haplotype block analyzed contained at least three CCS sequences generated from three sequencing wells. (2) The absolute difference in methylation levels between Hap I and Hap II in adjacent non-tumor or normal tissue DNA based on historical data was less than 5%. (3) The absolute difference in methylation levels between Hap I and Hap II in tumor tissue DNA exceeded 30%. Criterion (2) was included because non-tumor/normal tissues showing haplotype imbalance at the methylation level may represent imprinted regions rather than tumor regions. Criteria for haplotype block indicating methylation imbalance in non-tumor tissues were as follows. (1) The haplotype block analyzed contained at least three CCS sequences generated from three sequencing wells. (2) The absolute difference in methylation levels between Hap I and Hap II in adjacent non-tumor or normal tissue DNA based on historical data exceeded 30%. (3) The absolute difference in methylation levels between Hap I and Hap II in tumor tissue DNA was less than 5%.

他の実施形態では、他の規準を使用することができる。例えば、不均衡なハプロタイプIの癌ゲノムを特定するために、非腫瘍組織では、Hap IとHap IIとの間のメチル化レベルの差が、1%、5%、10%、20%、40%、50%、または60%未満などであってもよく、腫瘍組織では、Hap IとHap IIとの間のメチル化レベルの差が、1%、5%、10%、20%、40%、50%、または60%超などであってもよい。不均衡なハプロタイプIの非癌ゲノムを特定するために、非腫瘍組織では、Hap IとHap IIとの間のメチル化レベルの差が、1%、5%、10%、20%、40%、50%、または60%超などであってもよく、一方、腫瘍組織では、Hap IとHap IIとの間のメチル化レベルの差が、1%、5%、10%、20%、40%、50%、または60%未満などであってもよい。 Other criteria may be used in other embodiments. For example, to identify an imbalanced haplotype I cancer genome, in non-tumor tissues, differences in methylation levels between Hap I and Hap II were 1%, 5%, 10%, 20%, 40% %, 50%, or less than 60%, etc., and in tumor tissue the difference in methylation levels between Hap I and Hap II is 1%, 5%, 10%, 20%, 40% , 50%, or greater than 60%, and the like. To identify imbalanced haplotype I non-cancer genomes, the difference in methylation levels between Hap I and Hap II was 1%, 5%, 10%, 20%, 40% in non-tumor tissues. , 50%, or more than 60%, etc., while in tumor tissue the difference in methylation levels between Hap I and Hap II can be 1%, 5%, 10%, 20%, 40%, etc. %, 50%, or less than 60%.

図107Aは、Sequel II Sequencing Kit 2.0によって生成されたデータに基づいて、腫瘍と隣接する非腫瘍組織との間の2つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数をまとめた表である。最初の列は、組織型を列挙している。2番目の列は、腫瘍組織における2つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数を列挙している。3番目の列は、ペアの隣接する非腫瘍組織における2つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数を列挙している。これらの行は、ペアの隣接する非腫瘍組織よりも腫瘍組織で、2つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックがより多いことを示している。 FIG. 107A is a table summarizing the number of haplotype blocks showing methylation imbalance between two haplotypes between tumor and adjacent non-tumor tissue, based on data generated by Sequel II Sequencing Kit 2.0. is. The first column lists the tissue type. The second column lists the number of haplotype blocks showing methylation imbalance between the two haplotypes in tumor tissue. The third column lists the number of haplotype blocks showing methylation imbalance between the two haplotypes in paired adjacent non-tumor tissues. These rows show that there are more haplotype blocks indicating methylation imbalance between the two haplotypes in tumor tissue than in paired adjacent non-tumor tissue.

この分析に含まれたハプロタイプブロックの長さの中央値は15.7kb(IQR:10.3~26.1kb)であった。肝臓のHCCの結果を含めて、これらのデータは、7つの組織型で、腫瘍組織がメチル化不均衡を伴うより多くのハプロタイプブロックを有することを示している。肝臓に加えて、他の組織には、結腸、乳房、腎臓、肺、前立腺、および胃の組織が含まれる。したがって、一部の実施形態では、メチル化不均衡を有するハプロタイプブロックの数を使用して、患者が、腫瘍または癌を有しているかどうかを検出することができる。 The median length of the haplotype blocks included in this analysis was 15.7 kb (IQR: 10.3-26.1 kb). These data, including the liver HCC results, indicate that in seven tissue types, tumor tissue has more haplotype blocks with methylation imbalance. In addition to liver, other tissues include colon, breast, kidney, lung, prostate, and stomach tissue. Thus, in some embodiments, the number of haplotype blocks with methylation imbalance can be used to detect whether a patient has a tumor or cancer.

図107Bは、Sequel II Sequencing Kit 2.0によって生成されたデータに基づいて、異なる腫瘍病期の腫瘍組織における2つのハプロタイプ間のメチル化不均衡を示すハプロタイプブロックの数をまとめた表である。最初の列は、腫瘍を伴う組織型を示す。2番目の列は、腫瘍組織における2つのハプロタイプ間のメチル化不均衡を有するハプロタイプブロックの数を示す。3番目の列は、悪性腫瘍のTNM分類を使用した腫瘍病期分類情報を列挙している。T3とT3aは、T2よりも大きなサイズの腫瘍である。 FIG. 107B is a table summarizing the number of haplotype blocks showing methylation imbalance between two haplotypes in tumor tissues of different tumor stages, based on data generated by Sequel II Sequencing Kit 2.0. The first column indicates histological types with tumors. The second column shows the number of haplotype blocks with methylation imbalance between the two haplotypes in tumor tissue. The third column lists tumor staging information using the TNM classification of malignancies. T3 and T3a are larger size tumors than T2.

この表は、乳房と腎臓の両方で、腫瘍がより大きいほど、メチル化不均衡を示すハプロタイプブロックがより多いことを示している。例えば、乳房組織の場合、腫瘍グレードT3(TNM病期分類)、ER陽性、およびERBB2増幅を示すとして分類された組織は、腫瘍グレードT2(TNM病期分類)、PR(プロゲステロン受容体)/ER(エストロゲン受容体)陽性、ERBB2増幅なしとして分類された組織のハプロタイプブロック(18)よりもメチル化不均衡を示すハプロタイプブロック(57)が多かった。腎臓組織の場合、腫瘍グレードT3aに分類された組織は、腫瘍グレードT2に分類された組織のハプロタイプブロック(0)よりも、メチル化不均衡を示すハプロタイプブロック(68)が多かった。 The table shows that in both breast and kidney, the larger the tumor, the more haplotype blocks exhibiting methylation imbalance. For example, for breast tissue, tissue classified as tumor grade T3 (TNM staging), ER positive, and exhibiting ERBB2 amplification is tumor grade T2 (TNM staging), PR (progesterone receptor)/ER There were more haplotype blocks showing methylation imbalance (57) than tissues classified as (estrogen receptor) positive, no ERBB2 amplification (18). For kidney tissue, tissue classified as tumor grade T3a had more haplotype blocks (68) showing methylation imbalance than tissue classified as tumor grade T2 (0).

一部の実施形態では、腫瘍の分類のために、およびそれらの臨床的挙動(例えば、進行、予後、または治療応答)と相関させるために、メチル化不均衡を示すハプロタイプブロックを利用することができる。これらのデータは、ハプロタイプベースのメチル化不均衡の程度が、腫瘍の分類子として役立つ可能性があり、臨床研究または治験または最終的な臨床サービスに組み込まれ得ることを示唆した。腫瘍の分類には、サイズと重症度が含まれ得る。 In some embodiments, haplotype blocks exhibiting methylation imbalance can be utilized for tumor classification and to correlate with their clinical behavior (e.g., progression, prognosis, or therapeutic response). can. These data suggested that the degree of haplotype-based methylation imbalance could serve as a tumor classifier and could be incorporated into clinical studies or trials or eventual clinical services. Tumor classification may include size and severity.

E.母体血漿無細胞DNAのハプロタイプベースのメチル化分析
両方の親またはいずれかの親のハプロタイプを決定することができる。ハプロタイピング法には、ロングリード単一分子配列決定、リンクされたショートリード配列決定(例えば、10xゲノミクス)、長距離単一分子PCR、または母集団推論が含まれる。父方のハプロタイプがわかっている場合、父方のハプロタイプに沿って存在する少なくとも1つの父方特異的SNPアレルをそれぞれ含有する複数の無細胞DNA分子のメチル化プロファイルをリンクすることによって、無細胞胎児DNAメチロームを構築することができる。言い換えれば、父方のハプロタイプは、胎児特異的リード配列をリンクするための足場として使用される。
E. Haplotype-Based Methylation Analysis of Maternal Plasma Cell-Free DNA Haplotypes of both parents or either parent can be determined. Haplotyping methods include long-read single-molecule sequencing, linked short-read sequencing (eg, 10x genomics), long-range single-molecule PCR, or population inference. If the paternal haplotype is known, the cell-free fetal DNA methylome can be determined by linking the methylation profiles of multiple cell-free DNA molecules each containing at least one paternal-specific SNP allele present along the paternal haplotype. can be constructed. In other words, the paternal haplotype is used as a scaffold to link fetal-specific lead sequences.

図108は、相対的なメチル化不均衡についてのハプロタイプの分析を示す。母方のハプロタイプがわかっている場合、2つのハプロタイプ(すなわち、Hap IとHap II)間のメチル化不均衡を使用して、胎児に遺伝した母方のハプロタイプを決定することができる。図108に示されるように、妊婦由来の血漿DNA分子は、単一分子リアルタイム配列決定技術を使用して配列決定される。メチル化およびアレル情報は、本明細書の開示に従って決定することができる。一実施形態では、疾患を引き起こす遺伝子に関連するSNPは、Hap Iとして割り当てられる。胎児がHap Iを受け継いだ場合、Hap Iのアレルを有する断片は、Hap IIのアレルを有するものと比較して、母体血漿中により多く存在する。胎児に由来するDNA断片の低メチル化は、Hap IIのメチル化レベルと比較して、Hap Iのメチル化レベルを低下させる。その結果、Hap Iのメチル化がHap IIよりも低いメチル化レベルを示す場合、胎児は母方のHap Iを受け継ぐ可能性がより高くなる。そうでない場合、胎児は、母方のHap IIを受け継ぐ可能性がより高くなる。臨床試験では、ハプロタイプベースのメチル化不均衡分析を使用して、胎児が、例えば、限定されないが、脆弱X症候群、筋ジストロフィー、ハンチントン病またはβサラセミアなどの遺伝性障害に関連する母方のハプロタイプを受け継いでいるかどうかを決定することができる。 Figure 108 shows analysis of haplotypes for relative methylation imbalance. If the maternal haplotype is known, the methylation imbalance between the two haplotypes (ie, Hap I and Hap II) can be used to determine the maternal haplotype inherited to the fetus. As shown in Figure 108, plasma DNA molecules from pregnant women are sequenced using single-molecule real-time sequencing technology. Methylation and allelic information can be determined according to the disclosures herein. In one embodiment, SNPs associated with disease-causing genes are assigned as Hap I. When the fetus inherits Hap I, fragments with the Hap I allele are more abundant in the maternal plasma compared to those with the Hap II allele. Hypomethylation of fetal-derived DNA fragments reduces the methylation level of Hap I relative to that of Hap II. As a result, if Hap I methylation exhibits a lower level of methylation than Hap II, the fetus is more likely to inherit maternal Hap I. Otherwise, the fetus is more likely to inherit maternal Hap II. Clinical trials have used haplotype-based methylation imbalance analysis to determine that fetuses inherit maternal haplotypes associated with genetic disorders such as, but not limited to, fragile X syndrome, muscular dystrophy, Huntington's disease or beta-thalassemia. can decide whether

F.障害の分類方法の実施例
図109は、第1のハプロタイプおよび第2のハプロタイプを有する生物における障害を分類する、例示的な方法1090を示す。方法1090は、2つのハプロタイプ間の相対的なメチル化レベルを比較することを含む。
F. Example Method for Classifying Disorders FIG. 109 illustrates an exemplary method 1090 for classifying disorders in organisms having a first haplotype and a second haplotype. Method 1090 includes comparing relative methylation levels between the two haplotypes.

ブロック1091では、生体試料由来のDNA分子を分析して、生物に対応する参照ゲノムにおけるそれらの位置を特定する。DNA分子は、細胞のDNA分子であり得る。例えば、DNA分子を配列決定して、配列リードを取得することができ、配列リードを参照ゲノムにマッピングする(整列させる)ことができる。生物がヒトの場合、参照ゲノムは、潜在的には特定の亜集団からの参照ヒトゲノムである。別の例として、DNA分子を(例えば、PCRまたは他の増幅の後に)異なるプローブで分析することができ、各プローブは、以下に説明するように、ヘテロ接合の1つ以上のCpG部位を網羅し得るゲノム位置に対応する。 At block 1091, DNA molecules from the biological sample are analyzed to identify their location in the reference genome corresponding to the organism. The DNA molecule can be a cellular DNA molecule. For example, a DNA molecule can be sequenced to obtain sequence reads, which can be mapped (aligned) to a reference genome. If the organism is human, the reference genome is potentially a reference human genome from a particular subpopulation. As another example, a DNA molecule can be analyzed (e.g., after PCR or other amplification) with different probes, each covering one or more CpG sites that are heterozygous, as described below. correspond to possible genomic locations.

さらに、DNA分子を分析して、DNA分子のそれぞれのアレルを決定することができる。例えば、DNA分子のアレルは、配列決定から取得された配列リードから、またはDNA分子にハイブリダイズする特定のプローブから決定することができ、両方の技術は、配列リードを提供することができる(例えば、ハイブリダイズする場合、プローブを配列リードとして扱うことができる)。DNA分子について、1つ以上の部位(例えば、CpG部位)の各々におけるメチル化状態を決定することができる。 Additionally, a DNA molecule can be analyzed to determine each allele of the DNA molecule. For example, the allele of a DNA molecule can be determined from sequence reads obtained from sequencing or from specific probes that hybridize to the DNA molecule, both techniques can provide sequence reads (e.g. , the probes can be treated as sequence reads when hybridized). For a DNA molecule, the methylation status at each of one or more sites (eg, CpG sites) can be determined.

ブロック1092では、第1の染色体領域の第1の箇所の1つ以上のヘテロ接合遺伝子座が特定される。各ヘテロ接合遺伝子座は、第1のハプロタイプの対応する第1のアレルおよび第2のハプロタイプの対応する第2のアレルを含むことができる。1つ以上のヘテロ接合遺伝子座は、第1の複数のヘテロ接合遺伝子座であってもよく、第2の複数のヘテロ接合遺伝子座は、異なる染色体領域に対応し得る。 At block 1092, one or more heterozygous loci at the first location of the first chromosomal region are identified. Each heterozygous locus can comprise a corresponding first allele of the first haplotype and a corresponding second allele of the second haplotype. The one or more heterozygous loci may be the first plurality of heterozygous loci and the second plurality of heterozygous loci may correspond to different chromosomal regions.

ブロック1093では、複数のDNA分子の第1のセットが特定される。複数のDNA分子の各々は、ブロック1096からのヘテロ接合遺伝子座のうちのいずれか1つに位置し、対応する第1のアレルを含むため、DNA分子は、第1のハプロタイプに対応するものとして特定され得る。DNA分子が2つ以上のヘテロ接合遺伝子座に位置する可能性があるが、典型的には、リードには、1つのヘテロ接合遺伝子座のみが含まれる。また、DNA分子の第1のセットの各々には、N個のゲノム部位のうちの少なくとも1つが含まれ、ゲノム部位は、メチル化レベルを測定するために使用される。Nは整数であり、例えば、1、2、3、4、5、10、20、50、100、200、500、1,000、2,000、または5,000以上である。したがって、DNA分子のリードは、1部位、2部位などのカバレッジを示すことができる。1ゲノム部位は、CpGヌクレオチドが存在する部位を含み得る。 At block 1093, a first set of multiple DNA molecules is identified. Each of the plurality of DNA molecules is located at any one of the heterozygous loci from block 1096 and contains the corresponding first allele, so that the DNA molecule is regarded as corresponding to the first haplotype can be specified. A DNA molecule can be located at more than one heterozygous locus, but typically a read contains only one heterozygous locus. Each of the first set of DNA molecules also includes at least one of the N genomic sites, and the genomic sites are used to measure methylation levels. N is an integer, such as 1, 2, 3, 4, 5, 10, 20, 50, 100, 200, 500, 1,000, 2,000, or 5,000 or greater. Thus, a DNA molecule read can exhibit 1-site, 2-site, etc. coverage. A genomic site can include the site where a CpG nucleotide is present.

ブロック1094では、第1のハプロタイプの第1の箇所の第1のメチル化レベルが、複数のDNA分子の第1のセットを使用して決定される。第1のメチル化レベルは、本明細書に記載の任意の方法によって決定することができる。第1の箇所は、単一の部位に対応していても、多くの部位を含んでいてもよい。第1のハプロタイプの第1の箇所は、1kb以上であり得る。例えば、第1のハプロタイプの第1の箇所は、1kb、5kb、10kb、15kb、または20kb以上であってもよい。メチル化データは、細胞DNAからのデータであってもよい。 At block 1094, a first methylation level at the first location of the first haplotype is determined using the first set of multiple DNA molecules. The first methylation level can be determined by any method described herein. The first location may correspond to a single site or may include many sites. The first location of the first haplotype can be 1 kb or greater. For example, the first location of the first haplotype may be 1 kb, 5 kb, 10 kb, 15 kb, or 20 kb or more. Methylation data may be data from cellular DNA.

一部の実施形態では、複数の第1のメチル化レベルは、第1のハプロタイプの複数の箇所について決定され得る。各箇所は、5kb以上の鎖長、または第1のハプロタイプの第1の箇所について本明細書に開示される任意のサイズを有し得る。 In some embodiments, multiple first methylation levels may be determined for multiple locations of the first haplotype. Each locus can have a chain length of 5 kb or longer, or any size disclosed herein for the first locus of the first haplotype.

ブロック1095では、複数DNA分子の第2のセットが特定される。複数のDNA分子の各々は、ブロック1096からのヘテロ接合遺伝子座のうちのいずれか1つに位置し、対応する第2のアレルを含むため、DNA分子は、第2のハプロタイプに対応するものとして特定され得る。また、DNA分子の第2のセットの各々には、N個のゲノム部位のうちの少なくとも1つが含まれ、ゲノム部位は、メチル化レベルを測定するために使用される。 At block 1095, a second set of multiple DNA molecules is identified. Each of the plurality of DNA molecules is located at any one of the heterozygous loci from block 1096 and contains the corresponding second allele, so that the DNA molecule is considered to correspond to the second haplotype. can be specified. Each of the second set of DNA molecules also includes at least one of the N genomic sites, and the genomic sites are used to measure methylation levels.

ブロック1096では、第2のハプロタイプの第1の箇所の第2のメチル化レベルが、複数のDNA分子の第2のセットを使用して決定される第2のメチル化レベルは、本明細書に記載の任意の方法によって決定することができる。第2のハプロタイプの第1の箇所は、1kb以上または第1のハプロタイプの第1の箇所の任意のサイズよりも長くてもよい。第1のハプロタイプの第1の箇所は、第2のハプロタイプの第1の箇所と相補的であり得る。第1のハプロタイプの第1の箇所および第2のハプロタイプの第1の箇所は、環状DNA分子を形成し得る。第1のハプロタイプの第1の箇所の第1のメチル化レベルは、環状DNA分子からのデータを使用して決定され得る。例えば、環状DNAの分析は、図1、図2、図4、図5、図6、図7、図8、図50、または図61で説明される分析を含み得る。 At block 1096, a second methylation level at the first location of the second haplotype is determined using a second set of a plurality of DNA molecules. It can be determined by any method described. The first portion of the second haplotype may be greater than 1 kb or longer than any size of the first portion of the first haplotype. The first position of the first haplotype can be complementary to the first position of the second haplotype. The first portion of the first haplotype and the first portion of the second haplotype can form a circular DNA molecule. A first methylation level at the first location of the first haplotype can be determined using data from the circular DNA molecule. For example, analysis of circular DNA can include the analysis described in FIGS. 1, 2, 4, 5, 6, 7, 8, 50, or 61.

環状DNA分子は、二本鎖DNA分子を切断することによって形成することができ、Cas9複合体を使用して、切断された二本鎖DNA分子を形成する。ヘアピンアダプターは、切断された二本鎖DNA分子の末端に連結することができる。実施形態では、二本鎖DNA分子の両端を切断して連結することができる。例えば、切断、連結、およびその後の分析は、図91に記載されているように進めてもよい。 A circular DNA molecule can be formed by cleaving a double-stranded DNA molecule, using the Cas9 complex to form the cleaved double-stranded DNA molecule. Hairpin adapters can be ligated to the ends of cleaved double-stranded DNA molecules. In embodiments, both ends of a double-stranded DNA molecule can be cleaved and ligated. For example, cleavage, ligation, and subsequent analysis may proceed as described in FIG.

一部の実施形態では、複数の第2のメチル化レベルは、第2のハプロタイプの複数の箇所について決定され得る。第2のハプロタイプの複数の箇所の各箇所は、第1のハプロタイプの複数の箇所の一箇所に相補的であり得る。 In some embodiments, multiple second methylation levels may be determined for multiple locations of the second haplotype. Each location of the plurality of locations of the second haplotype can be complementary to a location of the plurality of locations of the first haplotype.

ブロック1097では、パラメータの値は、第1のメチル化レベルおよび第2のメチル化レベルを使用して計算される。このパラメータは、分離値による場合がある。分離値は、2つのメチル化レベル間の差、または2つのメチル化レベルの比率であってもよい。 At block 1097, the value of the parameter is calculated using the first methylation level and the second methylation level. This parameter may depend on the separation value. A separation value may be the difference between two methylation levels or the ratio of two methylation levels.

第2のハプロタイプの複数の箇所を使用する場合、第2のハプロタイプの複数の箇所の各箇所について、分離値は、第2のハプロタイプの箇所の第2のメチル化レベル、および第1のハプロタイプの相補的な箇所を使用した第1のメチル化レベルを使用して計算され得る。分離値は、カットオフ値と比較され得る。 When multiple locations of the second haplotype are used, for each location of the multiple locations of the second haplotype, the separation value is the second methylation level of the location of the second haplotype and the It can be calculated using the first methylation level using complementary points. A separation value can be compared to a cutoff value.

カットオフ値は、障害を有さない組織から決定することができる。パラメータは、分離値がカットオフ値を超える第2のハプロタイプの箇所の数であってもよい。例えば、分離値がカットオフ値を超える第2のハプロタイプの箇所の数は、図105A、図105B、および図106において30%を超える差を有することが示されている領域の数と同様であり得る。図105A、図105B、および図106では、分離値は比率であり、カットオフ値は30%である。一部の実施形態では、カットオフ値は、障害を有する組織から決定され得る。 A cut-off value can be determined from non-disturbed tissue. The parameter may be the number of locations of the second haplotype where the separation value exceeds the cutoff value. For example, the number of locations of the second haplotype whose segregation value exceeds the cutoff value is similar to the number of regions shown to have greater than 30% difference in Figures 105A, 105B, and 106. obtain. In Figures 105A, 105B, and 106, the cutoff value is a ratio and the cutoff value is 30%. In some embodiments, the cutoff value can be determined from tissue with the disorder.

別の実施例では、各箇所の分離値は、集計する(例えば、合計する)ことができ、これは、それぞれの分離値の加重合計または関数の合計によって行うことができる。このような集計により、パラメータの値を提供することができる。 In another example, the separation values for each location can be aggregated (eg, summed), which can be done by a weighted sum or functional sum of the respective separation values. Such aggregation can provide the value of the parameter.

ブロック1098では、パラメータの値を参照値と比較する。参照値は、障害のない参照組織を使用して決定することができる。参照値は、分離値であってもよい。例えば、参照値は、2つのハプロタイプのメチル化レベル間に有意差があってはならないことを表す場合がある。例えば、参照値は、0の統計的差異または約1の比率であり得る。複数の箇所が使用される場合、参照値は、2つのハプロタイプがカットオフ値を超える分離値を示すような、健康な生物における箇所の数であり得る。一部の実施形態では、参照値は、障害を伴う参照組織を使用して決定することができる。 At block 1098, the value of the parameter is compared with the reference value. Reference values can be determined using non-disturbed reference tissue. The reference value may be a separate value. For example, a reference value may represent that there should be no significant difference between the methylation levels of two haplotypes. For example, the reference value can be a statistical difference of 0 or a ratio of about 1. If multiple locations are used, the reference value can be the number of locations in healthy organisms where the two haplotypes show a separation value above the cutoff value. In some embodiments, the reference value can be determined using a reference tissue with a lesion.

ブロック1099において、生物における障害の分類は、パラメータの値と参照値との比較を使用して決定される。パラメータの値が参照値を超える場合、障害が存在するか、より可能性が高いと判断される場合がある。障害には、癌が含まれ得る。癌は、本明細書に記載の任意の癌であり得る。障害の分類は、障害の可能性であり得る。障害の分類には、障害の重症度が含まれ得る。例えば、ハプロタイプの不均衡を伴う箇所の数がより多いことを示すより大きなパラメータ値は、より重篤な形態の癌を示し得る。 At block 1099, a classification of the disorder in the organism is determined using a comparison of the parameter's value and the reference value. If the value of the parameter exceeds the reference value, it may be determined that a fault exists or is more likely. Disorders can include cancer. The cancer can be any cancer described herein. A classification of the disorder may be the likelihood of the disorder. Classification of disorders may include severity of disorders. For example, a larger parameter value indicating a higher number of sites with haplotype imbalance may indicate a more severe form of cancer.

図109で説明されている方法は障害の分類を含むが、同様の方法を使用して、ハプロタイプ間のメチル化レベルの不均衡から生じる得る任意の状態または特性を決定することができる。例えば、胎児DNAからのハプロタイプのメチル化レベルは、母体DNAからのハプロタイプのメチル化よりも低い可能性がある。メチル化レベルは、核酸を母体または胎児として分類するために使用することができる。 Although the method described in FIG. 109 involves classification of disorders, similar methods can be used to determine any condition or trait that can result from imbalance in methylation levels between haplotypes. For example, haplotype methylation levels from fetal DNA may be lower than haplotype methylation levels from maternal DNA. Methylation levels can be used to classify nucleic acids as maternal or fetal.

障害が癌である場合、腫瘍の異なる染色体領域は、メチル化のそのような違いを示す可能性がある。影響を受ける領域に応じて、異なる治療が提供され得る。さらに、メチル化のそのような違いを示す異なる領域を有する対象は、異なる予後を有する可能性がある。 If the disorder is cancer, different chromosomal regions of the tumor may exhibit such differences in methylation. Different treatments may be provided depending on the area affected. Furthermore, subjects with different regions exhibiting such differences in methylation may have different prognoses.

十分な分離を有する(例えば、カットオフ値より大きい)染色体領域(箇所)は、異常である(または異常な分離がある)と特定することができる。異常領域のパターン(ハプロタイプが他よりも高い可能性があることを説明する)は、参照パターンと比較することができる(例えば、癌を有する対象、潜在的に特定の種類の癌、または健康な対象から決定される)。2つのパターンが、特定の分類を有する参照パターンよりも閾値内で同じである場合(例えば、異なる領域/箇所の指定された数未満)、対象は、障害についてその分類を有すると特定され得る。そのような分類は、例えば、本明細書に記載されるように、インプリント障害を含み得る。 Chromosomal regions (locations) with sufficient segregation (eg, greater than a cutoff value) can be identified as abnormal (or with aberrant segregation). Patterns of abnormal regions (explaining which haplotypes are more likely than others) can be compared to reference patterns (e.g., subjects with cancer, potentially certain types of cancer, or healthy individuals). determined from the subject). If the two patterns are the same within a threshold than the reference pattern with a particular classification (e.g., less than a specified number of different regions/locations), the subject may be identified as having that classification for the disorder. Such classifications can include, for example, imprint disorders, as described herein.

VII.ハイブリッド分子の単一分子メチル化分析
核酸の塩基修飾の決定に関して本明細書に開示される実施形態の性能および有用性をさらに評価するために、ヒト部分がメチル化され、マウス部分が非メチル化された、またはその逆であるヒトおよびマウスのハイブリッドDNA断片を人工的に作成した。ハイブリッドまたはキメラDNA分子の接合部を決定することにより、癌を含む様々な障害または疾患の遺伝子融合を検出できる可能性がある。
VII. Single Molecule Methylation Analysis of Hybrid Molecules To further evaluate the performance and utility of the embodiments disclosed herein for determining base modifications of nucleic acids, the human portion was methylated and the mouse portion was unmethylated. We have engineered hybrid human and murine DNA fragments that have been modified and vice versa. By determining the junctions of hybrid or chimeric DNA molecules, it may be possible to detect gene fusions in various disorders or diseases, including cancer.

A.ヒトとマウスのハイブリッドDNA断片を作成する方法
このセクションでは、ハイブリッドDNA断片の作成、次いで断片のメチル化プロファイルを決定する手順について説明する。
A. Methods for Making Hybrid Human and Mouse DNA Fragments This section describes procedures for making hybrid DNA fragments and then determining the methylation profile of the fragments.

一実施形態では、ヒトDNAは、全ゲノム増幅によって増幅され、その結果、全ゲノム増幅ではメチル化状態が保存されないため、ヒトゲノムの元のメチル化特性が排除される。全ゲノム増幅は、ゲノム上でランダムに結合し得るプライマーとしてのエキソヌクレアーゼ耐性チオリン酸修飾縮重ヘキサマーを使用して行うことができ、ポリメラーゼ(例えば、Phi29 DNAポリメラーゼ)が熱サイクルなしでDNAを増幅することが可能になる。増幅されたDNA産物は、メチル化されていない。増幅されたヒトDNA分子は、CpGメチルトランスフェラーゼであるM.SssIでさらに処理された。これは、理論上、二本鎖DNA、非メチル化DNA、またはヘミメチル化DNAにおいて、CpG文脈でのすべてのシトシンを完全にメチル化する。したがって、M.SssIによって処理されたこのような増幅ヒトDNAは、メチル化されたDNA分子になる。 In one embodiment, human DNA is amplified by whole genome amplification such that whole genome amplification does not preserve the methylation state, thereby eliminating the original methylation signature of the human genome. Whole-genome amplification can be performed using exonuclease-resistant thiophosphate-modified degenerate hexamers as primers that can bind randomly on the genome, allowing polymerases (e.g., Phi29 DNA polymerase) to amplify DNA without thermal cycling. it becomes possible to Amplified DNA products are unmethylated. Amplified human DNA molecules undergo the CpG methyltransferase M. Further treated with SssI. This theoretically fully methylates all cytosines in the CpG context in double-stranded, unmethylated, or hemimethylated DNA. Therefore, M. Such amplified human DNA treated with Sssl results in methylated DNA molecules.

対照的に、非メチル化マウスDNA断片が生成されるように、マウスDNAを、全ゲノム増幅にかけた。 In contrast, mouse DNA was subjected to whole genome amplification such that unmethylated mouse DNA fragments were generated.

図110は、マウス部分が非メチル化され、ヒト部分がメチル化されているヒト-マウスハイブリッドDNA断片の作成を示す。塗りつぶされたロリポップは、メチル化されたCpG部位を表す。塗りつぶされていないロリポップは、非メチル化CpG部位を表す。斜めの縞模様の太い棒11010は、メチル化されたヒト部分を表す。縦縞の太い棒11020は、非メチル化マウス部分を表している。 Figure 110 shows the construction of a human-mouse hybrid DNA fragment in which the mouse portion is unmethylated and the human portion is methylated. Filled lollipops represent methylated CpG sites. Unfilled lollipops represent unmethylated CpG sites. The diagonally striped thick bars 11010 represent methylated human moieties. Vertically striped thick bars 11020 represent the unmethylated mouse portion.

ハイブリッドヒト-マウスDNA分子の生成のために、一実施形態では、全ゲノム増幅およびM.SssI処理DNA分子をHindIIIおよびNcoIでさらに消化して、下流の連結を容易にするための粘着末端を生成した。一実施形態では、メチル化されたヒトDNA断片は、等モル比で非メチル化マウスDNA断片とさらに混合された。そのようなヒト-マウスDNA混合物は、一実施形態では、20℃で15分間のDNAリガーゼによって媒介される連結プロセスにかけられた。図110に示されるように、この連結反応により、ヒト-マウスハイブリッドDNA分子(a:ヒト-マウスハイブリッド断片)、ヒトのみのDNA分子(b:ヒト-ヒト連結、およびc:連結されていないヒトDNA)、およびマウスのみのDNA分子(d:マウス-マウス連結、およびe:連結されていないマウスDNA)を含む、3種類の結果としての分子が生成される。連結後のDNA産物は、単一分子リアルタイム配列決定にかけられた。配列決定の結果は、メチル化状態を決定するために本明細書に提供される開示に従って分析された。 For the generation of hybrid human-mouse DNA molecules, in one embodiment, whole genome amplification and M . The SssI-treated DNA molecule was further digested with HindIII and NcoI to generate sticky ends to facilitate downstream ligation. In one embodiment, methylated human DNA fragments were further mixed with unmethylated mouse DNA fragments in equimolar ratios. Such human-mouse DNA mixtures, in one embodiment, were subjected to a DNA ligase-mediated ligation process at 20° C. for 15 minutes. As shown in Figure 110, this ligation results in a human-mouse hybrid DNA molecule (a: human-mouse hybrid fragment), a human-only DNA molecule (b: human-human ligation, and c: unligated human Three types of resulting molecules are produced, including mouse-only DNA molecules (d: mouse-mouse ligation, and e: unligated mouse DNA). Post-ligation DNA products were subjected to single-molecule real-time sequencing. Sequencing results were analyzed according to the disclosure provided herein to determine methylation status.

図111は、ヒト部分が非メチル化され、マウス部分がメチル化されているヒト-マウスハイブリッドDNA断片の作成を示す。塗りつぶされたロリポップは、メチル化されたCpG部位を表す。塗りつぶされていないロリポップは、非メチル化CpG部位を表す。斜めの縞模様の太い棒11110は、メチル化されたマウス部分を表している。縦縞の太い棒11120は、非メチル化ヒト部分を表している。 Figure 111 shows the construction of a human-mouse hybrid DNA fragment in which the human portion is unmethylated and the mouse portion is methylated. Filled lollipops represent methylated CpG sites. Unfilled lollipops represent unmethylated CpG sites. The diagonally striped thick bar 11110 represents the methylated mouse portion. Vertically striped thick bars 11120 represent unmethylated human portions.

図111の実施形態では、マウスゲノムの元のメチル化が排除されるように、マウスDNA分子が全ゲノム増幅を介して増幅された。増幅されたDNA産物は、メチル化されていない。増幅されたマウスDNAは、さらにM.SssIで処理される。したがって、M.SssIによって処理されたそのような増幅されたマウスDNAは、メチル化されたDNA分子になる。対照的に、非メチル化ヒト断片が取得されるように、ヒトDNA断片を全ゲノム増幅にかけた。一実施形態では、メチル化されたヒト断片は、等モル比で非メチル化断片とさらに混合された。このようなヒト-マウスDNA混合物を、DNAリガーゼによって媒介される連結プロセスにかけた。図111に示すように、この連結反応により、ヒト-マウスハイブリッドDNA分子(a:ヒト-マウスハイブリッド断片)、ヒトのみのDNA分子(b:ヒト-ヒト連結、およびc:連結されてないヒトDNA)、およびマウスのみのDNA分子(d:マウス-マウス連結、およびe:連結されてないマウスDNA)を含む、3種類の結果としての分子が生成される。連結後のDNA産物は、単一分子リアルタイム配列決定にかけられた。配列決定の結果は、メチル化状態を決定するために本明細書に提供される開示に従って分析された。 In the embodiment of Figure 111, mouse DNA molecules were amplified via whole genome amplification such that the original methylation of the mouse genome was eliminated. Amplified DNA products are unmethylated. Amplified mouse DNA was further isolated from M. processed with SssI. Therefore, M. Such amplified mouse DNA treated with Sssl results in methylated DNA molecules. In contrast, human DNA fragments were subjected to whole genome amplification so as to obtain unmethylated human fragments. In one embodiment, the methylated human fragment was further mixed with the unmethylated fragment in an equimolar ratio. Such human-mouse DNA mixtures were subjected to a ligation process mediated by DNA ligase. As shown in Figure 111, this ligation reaction results in a human-mouse hybrid DNA molecule (a: human-mouse hybrid fragment), a human-only DNA molecule (b: human-human ligation, and c: unligated human DNA). ), and mouse-only DNA molecules (d: mouse-mouse ligation, and e: unligated mouse DNA). Post-ligation DNA products were subjected to single-molecule real-time sequencing. Sequencing results were analyzed according to the disclosure provided herein to determine methylation status.

図110に示される実施形態によれば、本発明者らは、人工DNA混合物(試料MIX01と命名)を調製し、ヒト-マウスハイブリッドDNA分子、ヒトのみのDNA、およびマウスのみのDNAが含まれ、ヒトに関連するDNA分子がメチル化され、マウスDNA分子はメチル化されていなかった。試料MIX01の場合、ヒトもしくはマウスの参照ゲノム、または部分的にヒトゲノムおよび部分的にマウスゲノムのいずれかに整列され得る1億6600万個のサブリードを取得した。これらのサブリードは、約500万のPacific Biosciences単一分子リアルタイム(SMRT)配列決定ウェルから生成された。単一分子リアルタイム配列決定ウェルの各分子は、平均32回(範囲:1~881回)配列決定された。 According to the embodiment shown in FIG. 110, the inventors prepared an artificial DNA mixture (designated sample MIX01), containing human-mouse hybrid DNA molecules, human-only DNA, and mouse-only DNA. , the human-associated DNA molecule was methylated and the mouse DNA molecule was unmethylated. For sample MIX01, 166 million subreads were obtained that could be aligned to either the human or mouse reference genome, or the partially human and partially mouse genome. These subreads were generated from approximately 5 million Pacific Biosciences single molecule real-time (SMRT) sequencing wells. Each molecule in a single-molecule real-time sequencing well was sequenced an average of 32 times (range: 1-881 times).

ハイブリッド断片のヒトDNA部分およびマウスDNA部分を決定するために、まず、ウェル内のすべての関連するサブリードからのヌクレオチド情報を組み合わせることによって、コンセンサス配列を構築した。合計で、試料MIX01について、3,435,657個のコンセンサス配列が取得された。データセットは、Sequel II Sequencing Kit 1.0によって調製されたDNAから生成された。 To determine the human and mouse DNA portions of hybrid fragments, a consensus sequence was first constructed by combining nucleotide information from all relevant subreads within a well. In total, 3,435,657 consensus sequences were obtained for sample MIX01. The dataset was generated from DNA prepared by Sequel II Sequencing Kit 1.0.

コンセンサス配列は、ヒト参照とマウス参照の両方を含む参照ゲノムに整列された。320万の整列したコンセンサス配列を取得した。それらの中で、それらの39.6%が、ヒトのみのDNA型として分類され、それらの26.5%が、マウスのみのDNA型として分類され、それらの30.2%が、ヒト-マウスハイブリッドDNAとして分類された。 Consensus sequences were aligned to reference genomes, including both human and mouse references. 3.2 million aligned consensus sequences were obtained. Among them, 39.6% of them were classified as human-only DNA type, 26.5% of them were classified as mouse-only DNA type, and 30.2% of them were human-mouse classified as hybrid DNA.

図112は、連結後のDNA混合物中のDNA分子の鎖長分布を示す(試料MIX01)。x軸は、DNA分子の鎖長を示す。y軸は、DNA分子の鎖長に関連する頻度を示す。図112に示されるように、ヒト-マウスハイブリッドDNA分子は、より長い鎖長分布を有し、それらが少なくとも2つの種類の分子の組み合わせであるという事実と一致していた。 FIG. 112 shows the chain length distribution of DNA molecules in the DNA mixture after ligation (sample MIX01). The x-axis indicates the chain length of the DNA molecule. The y-axis indicates the frequency related to the length of the DNA molecule. As shown in Figure 112, the human-mouse hybrid DNA molecules had a longer chain length distribution, consistent with the fact that they are a combination of at least two types of molecules.

図113は、第1のDNA(A)および第2のDNA(B)が一緒に結合される接合領域を示す。DNA(A)およびDNA(B)は、制限酵素で消化することができる。一実施形態では、付着末端を使用する連結の効率を改善するために、連結のステップの前に、制限酵素HindIIIおよびNcoI(それぞれA^AGCTTおよびC^CATGG部位を認識する)を使用して、ヒトおよびマウスのDNAを消化した。次に、DNA(A)およびDNA(B)を連結することができる。接合領域を有する698,492個のヒト-マウスハイブリッドDNA分子の中で、A^AGCTTおよびC^CATGGの酵素認識部位を有するヒト-マウスハイブリッドDNA分子の88%が見つかり、さらにヒトとマウスのDNA断片間の連結が起きたことを示唆している。当該接合領域は、第1のDNA断片および第2のDNA断片が物理的に一緒に結合された領域または部位として定義される。接合部にはDNA(A)とDNA(B)の両方に共通の配列が含まれているため、接合部に対応する1つの鎖の箇所は、配列だけではDNA(A)またはDNA(B)の一部であると判断することができない。接合部に対応する1つの鎖の箇所のメチル化パターンまたは密度を分析することは、その箇所がDNA(A)またはDNA(B)からのものであるかどうかを決定するために使用され得る。一例として、DNA(A)はウイルスDNAであり得、DNA(B)はヒトDNAであり得る。正確な接合部の決定は、そのような統合されたDNAが、タンパク質の構造を破壊するかどうか、およびどのように破壊するかを知らせることができる。 FIG. 113 shows junction regions where a first DNA (A) and a second DNA (B) are joined together. DNA (A) and DNA (B) can be digested with restriction enzymes. In one embodiment, to improve the efficiency of ligations using sticky ends, the restriction enzymes HindIII and NcoI (recognizing A^AGCTT and C^CATGG sites, respectively) were used prior to the ligation step to Human and mouse DNA were digested. DNA (A) and DNA (B) can then be ligated. Among 698,492 human-mouse hybrid DNA molecules with junction regions, 88% of human-mouse hybrid DNA molecules with enzyme recognition sites of A^AGCTT and C^CATGG were found, and human and mouse DNA suggesting that ligation between fragments occurred. The junction region is defined as the region or site where the first DNA segment and the second DNA segment are physically joined together. Since the junction contains sequences common to both DNA(A) and DNA(B), the point on one strand corresponding to the junction is either DNA(A) or DNA(B) by sequence alone. cannot be determined to be part of Analyzing the methylation pattern or density of a point on one strand corresponding to the junction can be used to determine whether the point is from DNA(A) or DNA(B). As an example, DNA (A) can be viral DNA and DNA (B) can be human DNA. Determination of precise junctions can inform whether and how such integrated DNA disrupts protein structure.

図114は、DNA混合物のメチル化分析を示している。斜めの縞模様のある棒11410は、連結前の制限酵素処理によって導入されるであろう整列分析で観察された接合領域を示す。「RE部位」は、制限酵素(RE)認識部位を表す。 Figure 114 shows the methylation analysis of the DNA mixture. Diagonally striped bars 11410 indicate junctional regions observed in alignment analysis that would be introduced by restriction enzyme treatment prior to ligation. "RE site" refers to a restriction enzyme (RE) recognition site.

図114に示されるように、一実施形態では、整列されたコンセンサス配列は、以下のように3つのカテゴリーにグループ化された。 As shown in Figure 114, in one embodiment, the aligned consensus sequences were grouped into three categories as follows.

(1)配列決定されたDNAは、1つ以上の整列基準を参照して、ヒト参照ゲノムにのみ整列され、マウス参照ゲノムには整列されなかった。一実施形態では、1つの整列基準は、限定されないが、配列決定されたDNAの連続したヌクレオチドの100%、95%、90%、80%、70%、60%、50%、40%、30%、または20%がヒト参照に整列され得るものとして定義され得る。一実施形態では、1つの整列基準は、ヒト参照に整列しなかった配列決定された断片の残りの部分が、マウス参照ゲノムに整列し得ないことである。一実施形態では、1つの整列基準は、配列決定されたDNAが参照ヒトゲノムの単一の領域に整列され得ることであった。一実施形態では、整列は完全であり得る。さらに他の実施形態では、整列は、挿入、ミスマッチ、および欠失を含むヌクレオチドの不一致に対応可能であり、ただし、そのような不一致は特定の閾値未満であり、限定されないが、整列された配列の長さの1%、2%、3%、4%、5%、10%、20%、または30%などである。別の実施形態では、整列されたものは、参照ゲノムの2つ以上の位置にあり得る。さらに他の実施形態では、参照ゲノムの1つ以上の部位への整列は、確率的な様式で記述され(例えば、誤った整列の可能性を示す)、確率の測定は、その後の処理で使用され得る。 (1) Sequenced DNA was aligned only to the human reference genome and not to the mouse reference genome, with reference to one or more alignment criteria. In one embodiment, one alignment criterion includes, but is not limited to, 100%, 95%, 90%, 80%, 70%, 60%, 50%, 40%, 30% of the contiguous nucleotides of the sequenced DNA. %, or 20% can be aligned to the human reference. In one embodiment, one alignment criterion is that the remainder of the sequenced fragments that did not align to the human reference cannot align to the mouse reference genome. In one embodiment, one alignment criterion was that the sequenced DNA could be aligned to a single region of the reference human genome. In one embodiment, the alignment can be perfect. In still other embodiments, the alignment can accommodate nucleotide discrepancies, including insertions, mismatches, and deletions, provided that such discrepancies are below a certain threshold, including, but not limited to, the aligned sequences. such as 1%, 2%, 3%, 4%, 5%, 10%, 20%, or 30% of the length of the In another embodiment, the aligned can be at more than one location in the reference genome. In still other embodiments, the alignment to one or more sites of the reference genome is described in a probabilistic fashion (e.g., indicating possible misalignments) and the probability measure is used in subsequent processing. can be

(2)配列決定されたDNAは、1つ以上の整列基準を参照して、マウス参照ゲノムにのみ整列されたが、ヒト参照ゲノムには整列されなかった。一実施形態では、1つの整列基準は、限定されないが、配列決定されたDNAの連続したヌクレオチドの100%、95%、90%、80%、70%、60%、50%、40%、30%、または20%がマウス参照に整列され得るものとして定義され得る。一実施形態では、1つの整列基準は、残りの部分がヒト参照ゲノムに整列し得ないことである。一実施形態では、1つの整列基準は、配列決定されたDNAが参照マウスゲノムの単一の領域に整列され得ることであった。一実施形態では、整列は完全であり得る。さらに他の実施形態では、整列は、挿入、ミスマッチ、および欠失を含むヌクレオチドの不一致に対応可能であり、ただし、そのような不一致は特定の閾値未満であり、限定されないが、整列された配列の長さの1%、2%、3%、4%、5%、10%、20%、または30%などである。別の実施形態では、整列されたものは、参照ゲノムの2つ以上の位置にあり得る。さらに他の実施形態では、参照ゲノムの1つ以上の部位への整列は、確率的な様式で記述され(例えば、誤った整列の可能性を示す)、確率の測定は、その後の処理で使用され得る。 (2) the sequenced DNA was aligned only to the mouse reference genome, but not to the human reference genome, with reference to one or more alignment criteria; In one embodiment, one alignment criterion includes, but is not limited to, 100%, 95%, 90%, 80%, 70%, 60%, 50%, 40%, 30% of the contiguous nucleotides of the sequenced DNA. %, or 20% can be defined as being aligned to the mouse reference. In one embodiment, one alignment criterion is that the remainder cannot be aligned to the human reference genome. In one embodiment, one alignment criterion was that the sequenced DNA could be aligned to a single region of the reference mouse genome. In one embodiment, the alignment can be perfect. In still other embodiments, the alignment can accommodate nucleotide discrepancies, including insertions, mismatches, and deletions, provided that such discrepancies are below a certain threshold, including, but not limited to, the aligned sequences. such as 1%, 2%, 3%, 4%, 5%, 10%, 20%, or 30% of the length of the In another embodiment, the aligned can be at more than one location in the reference genome. In still other embodiments, the alignment to one or more sites of the reference genome is described in a probabilistic fashion (e.g., indicating possible misalignments) and the probability measure is used in subsequent processing. can be

(3)配列決定されたDNAの一部分は、ヒト参照ゲノムと一意的に整列されたが、別の部分は、マウスの参照ゲノムと一意的に整列された。一実施形態では、連結の前に制限酵素を使用した場合、整列分析で、制限酵素切断部位に対応する接合領域が観察されるであろう。一部の実施形態では、ヒトとマウスのDNA部分の間の接合領域は、配列決定エラーおよび整列エラーのために、特定の領域内でのみ、おおよそ決定することができた。一部の実施形態では、制限酵素の切断なしに分子の連結が見られた場合(例えば、平滑末端の連結があった場合)、ヒト-マウスハイブリッドDNA断片の接合領域において、制限酵素認識部位は観察されない。 (3) A portion of the sequenced DNA was uniquely aligned with the human reference genome, while another portion was uniquely aligned with the mouse reference genome. In one embodiment, if restriction enzymes were used prior to ligation, alignment analysis would observe junction regions corresponding to restriction enzyme cleavage sites. In some embodiments, the junction region between the human and mouse DNA segments could only be approximately determined within certain regions due to sequencing and alignment errors. In some embodiments, at the junction region of the human-mouse hybrid DNA fragment, the restriction enzyme recognition site is not observed.

パルス間隔(IPD)、パルス幅(PW)、およびCpG部位を取り巻く配列文脈は、コンセンサス配列に対応するそれらのサブリードから取得された。それによって、ヒトのみDNA、マウスのみDNA、およびヒト-マウスハイブリッドDNAを含む各DNA分子のメチル化は、本開示に存在する実施形態に従って決定することができた。 The pulse interval (IPD), pulse width (PW), and sequence context surrounding the CpG sites were obtained from those subreads corresponding to the consensus sequences. Thereby, the methylation of each DNA molecule, including human-only DNA, mouse-only DNA, and human-mouse hybrid DNA, could be determined according to the embodiments present in the present disclosure.

B.メチル化の結果
このセクションでは、ハイブリッドDNA断片のメチル化の結果について説明する。メチル化密度は、ハイブリッドDNA断片の様々な部分の起源を特定するために使用することができる。
B. Methylation Results This section describes the results of methylation of hybrid DNA fragments. Methylation density can be used to identify the origin of various parts of the hybrid DNA fragment.

図115は、試料MIX01のCpG部位がメチル化される確率の箱ひげ図を示す。x軸は、試料MIX01に存在する3つの異なる分子:ヒトのみのDNA、マウスのみのDNA、およびヒトとマウスのハイブリッドDNA(ヒト部分とマウス部分の両方を含む)を示す。y軸は、特定の単一DNA分子のCpG部位がメチル化されている確率を示す。このアッセイは、ヒトDNAがよりメチル化され、マウスDNAがより非メチル化されるような方法で行われた。 Figure 115 shows a boxplot of the probability that CpG sites in sample MIX01 are methylated. The x-axis indicates the three different molecules present in sample MIX01: human-only DNA, mouse-only DNA, and human-mouse hybrid DNA (containing both human and mouse portions). The y-axis indicates the probability that a particular single DNA molecule CpG site is methylated. This assay was performed in such a way that human DNA was more methylated and mouse DNA was more unmethylated.

図115に示されるように、ヒトのみのDNAにおいてCpG部位がメチル化されている確率(中央値:0.66、範囲:0~1)は、マウスのみのDNAの確率(中央値:0.06、範囲:0~1)よりも有意に高かった(P値<0.0001)。これらの結果は、アッセイ設計と一致していた。つまり、ヒトDNAは、CpGメチルトランスフェラーゼM.SssIの処理のために、よりメチル化されていたが、マウスDNAは、全ゲノム増幅中にメチル化が維持されないために、より非メチル化されていた。さらに、ヒト-マウスハイブリッドDNA分子のヒトDNA部分内のCpG部位(中央値:0.06、範囲:0~1)は、マウスDNA部分内のCpG部位(中央値:0.69、範囲:0~1)と比較してメチル化されている確率が高かった(P値<0.0001)。これらのデータは、開示された方法が、DNA分子ならびにDNA分子内のセグメントのメチル化状態を正確に決定できることを示している。 As shown in FIG. 115, the probability that the CpG site is methylated in human-only DNA (median: 0.66, range: 0-1) is higher than that in mouse-only DNA (median: 0.66, range: 0-1). 06, range: 0-1) (P-value < 0.0001). These results were consistent with the assay design. Thus, human DNA contains the CpG methyltransferase M. Although it was more methylated due to SssI treatment, mouse DNA was more unmethylated due to failure to maintain methylation during whole genome amplification. Furthermore, the CpG sites within the human DNA portion of the human-mouse hybrid DNA molecule (median: 0.06, range: 0-1) are significantly less than the CpG sites within the mouse DNA portion (median: 0.69, range: 0). 1) was more likely to be methylated (P-value <0.0001). These data demonstrate that the disclosed method can accurately determine the methylation status of DNA molecules as well as segments within DNA molecules.

メチル化の確率は、使用される統計モデルに基づいた、単一分子内の特定のCpG部位の推定確率を指す。確率1は、統計モデルに基づいて、測定されたパラメータ(IPD、PW、および配列文脈を含む)を使用して、CpG部位の100%がメチル化されていることを示す。確率0は、統計モデルに基づいて、測定されたパラメータ(IPD、PW、および配列文脈を含む)を使用して、CpG部位の0%がメチル化されていることを示す。言い換えると、測定されたパラメータを使用して、すべてのCpG部位はメチル化されていない。図115は、メチル化の確率の分布を示しており、ヒトのみのDNAの分布およびヒト部分の分布は、マウスの対応物よりも広くなっている。バイサルファイト配列決定を使用して、類似の試料のメチル化を測定し、メチル化が完了していないことを確認する。結果を以下に示す。図115は、ヒトDNA対マウスDNAにおけるメチル化間の有意差を示す。 Methylation probability refers to the estimated probability of a particular CpG site within a single molecule based on the statistical model used. A probability of 1 indicates that 100% of the CpG sites are methylated, based on statistical models and using the measured parameters (including IPD, PW, and sequence context). A probability of 0 indicates that 0% of the CpG sites are methylated, based on statistical models and using the measured parameters (including IPD, PW, and sequence context). In other words, all CpG sites are unmethylated using the measured parameters. FIG. 115 shows the distribution of methylation probabilities, where the human-only DNA distribution and the human partial distribution are broader than their mouse counterparts. Bisulfite sequencing is used to measure methylation in similar samples to ensure that methylation is not complete. The results are shown below. Figure 115 shows significant differences between methylation in human versus mouse DNA.

図111に示される実施形態によれば、本発明者らは、人工DNA混合物(試料MIX02と命名)を調製し、ヒト-マウスハイブリッドDNA分子、ヒトのみのDNA、およびマウスのみのDNAが含まれ、ヒト部分が非メチル化され、マウス部分がメチル化されていた。試料MIX02の場合、ヒトもしくはマウスの参照ゲノム、または部分的にヒトゲノムおよび部分的にマウスゲノムのいずれかに整列され得る1億4000万個のサブリードを取得した。これらのサブリードは、約500万のPacific Biosciencees単一分子リアルタイム(SMRT)配列決定ウェルから生成された。単一分子リアルタイム配列決定ウェルの各分子は、平均27回(範囲:1~1028回)配列決定された。 According to the embodiment shown in FIG. 111, the inventors prepared an artificial DNA mixture (designated sample MIX02), containing human-mouse hybrid DNA molecules, human-only DNA, and mouse-only DNA. , the human part was unmethylated and the mouse part was methylated. For sample MIX02, 140 million subreads were obtained that could be aligned to either the human or mouse reference genome, or the partially human and partially mouse genome. These subreads were generated from approximately 5 million Pacific Biosciences single molecule real-time (SMRT) sequencing wells. Each molecule in a single-molecule real-time sequencing well was sequenced an average of 27 times (range: 1-1028 times).

本発明者らはまた、ウェル内のすべての関連するサブリードからのヌクレオチド情報を組み合わせることによって、コンセンサス配列を構築した。合計で、試料MIX02について、3,265,487個のコンセンサス配列が取得された。このコンセンサス配列を、BWAを使用して、ヒト参照とマウス参照の両方を含む参照ゲノムに整列させた(Li H et al.,Bioinformatics.2010;26(5):589-595)。300万個の整列されたコンセンサス配列を取得した。それらの中で、30.5%が、ヒトのみのDNA型として分類され、32.2%が、マウスのみのDNA型として分類され、33.8%が、ヒト-マウスハイブリッドDNAとして分類された。データセットは、Sequel II Sequencing Kit 1.0によって調製されたDNAから生成された。 We also constructed a consensus sequence by combining nucleotide information from all relevant subreads within a well. In total, 3,265,487 consensus sequences were obtained for sample MIX02. This consensus sequence was aligned using BWA to a reference genome containing both human and mouse references (Li H et al., Bioinformatics. 2010;26(5):589-595). Three million aligned consensus sequences were obtained. Of those, 30.5% were typed as human-only DNA type, 32.2% were typed as mouse-only DNA type, and 33.8% were typed as human-mouse hybrid DNA type. . The dataset was generated from DNA prepared by Sequel II Sequencing Kit 1.0.

図116は、試料MIX02の交差連結後のDNA混合物中のDNA分子の鎖長分布を示す。x軸は、DNA分子の鎖長を示す。y軸は、DNA分子の鎖長に関連する頻度を示す。図116に示されるように、ヒト-マウスハイブリッドDNA分子は、より長い鎖長分布を有しており、それらが2つ以上の分子の連結によって生成されたという事実と一致している。 Figure 116 shows the chain length distribution of DNA molecules in the DNA mixture after cross-ligation of sample MIX02. The x-axis indicates the chain length of the DNA molecule. The y-axis indicates the frequency related to the length of the DNA molecule. As shown in Figure 116, the human-mouse hybrid DNA molecules had a longer chain length distribution, consistent with the fact that they were produced by the ligation of two or more molecules.

図117は、試料MIX02において、CpG部位がメチル化されている確率の箱ひげ図を示す。メチル化状態は、本明細書に記載の方法に従って決定された。x軸は、試料MIX01に存在する3つの異なる分子:ヒトのみのDNA、マウスのみのDNA、およびヒトとマウスのハイブリッドDNA(ヒト部分とマウス部分の両方を含む)を示す。y軸は、CpG部位がメチル化されている確率を示している。このアッセイは、ヒトDNAが非メチル化され、マウスDNAがメチル化されるような方法で行われた。 FIG. 117 shows a boxplot of the probability that CpG sites are methylated in sample MIX02. Methylation status was determined according to the methods described herein. The x-axis indicates the three different molecules present in sample MIX01: human-only DNA, mouse-only DNA, and human-mouse hybrid DNA (containing both human and mouse portions). The y-axis shows the probability that the CpG site is methylated. This assay was performed in such a way that human DNA was unmethylated and mouse DNA was methylated.

図117に示されるように、ヒトのみのDNAにおけるCpG部位でメチル化される確率は(中央値:0.06、範囲:0~1)、マウスのみのDNAの確率(中央値:0.93;範囲:0~1)よりも有意に低かった(P値<0.0001)。これらの結果は、アッセイ設計と一致していた。つまり、ヒトDNAは、全ゲノム増幅中にメチル化が維持され得ないため、より非メチル化されていたのに対して、マウスDNAでは、CpGメチルトランスフェラーゼM.SssIの処理のために、よりメチル化されていた。さらに、ヒト-マウスハイブリッドDNA分子のヒトDNA部分内のCpG部位(中央値:0.93、範囲:0~1)は、マウスDNA部分内のCpG部位(中央値:0.07、範囲:0~1)と比較してメチル化される確率が低かった(P値<0.0001)。これらのデータは、開示された方法が、DNA分子ならびにDNA分子内のセグメントのメチル化状態を正確に決定できることを示している。 As shown in FIG. 117, the probability of being methylated at a CpG site in human-only DNA (median: 0.06, range: 0-1) is higher than that in mouse-only DNA (median: 0.93). range: 0-1) was significantly lower (P value <0.0001). These results were consistent with the assay design. Thus, human DNA was more unmethylated due to the inability to maintain methylation during whole genome amplification, whereas in mouse DNA the CpG methyltransferase M. It was more methylated due to SssI treatment. Furthermore, the CpG sites within the human DNA portion of the human-mouse hybrid DNA molecule (median: 0.93, range: 0-1) are significantly less than the CpG sites within the mouse DNA portion (median: 0.07, range: 0). 1) was less likely to be methylated (P-value <0.0001). These data demonstrate that the disclosed method can accurately determine the methylation status of DNA molecules as well as segments within DNA molecules.

バイサルファイト配列決定を使用して、本開示の実施形態による単一分子リアルタイム配列決定によってメチル化パターンが決定されたヒト-マウスハイブリッド断片のメチル化を測定した。試料MIX01(ヒトDNAがメチル化され、マウスDNAが非メチル化された)および試料MIX02(ヒトDNAが非メチル化され、マウスDNAがメチル化された)を超音波処理を介して剪断し、中央値が196bpのDNA断片サイズの混合物を得た(四分位範囲:161~268)。次いで、リード長300bp x2のMiSeqプラットフォーム(Illumina)を用いて、ペアエンドバイサルファイト配列決定(BS-Seq)を行った。MIX01およびMIX02について、それぞれ370万個と290万個の配列断片を取得し、ヒトまたはマウスの参照ゲノム、あるいは部分的にヒトゲノムおよび部分的にマウスゲノムと整列した。MIX01の場合、整列した断片の41.6%がヒトのみのDNA、56.6%がマウスのみのDNA、1.8%がヒト-マウスハイブリッドDNAとして分類された。MIX02の場合、整列した断片の61.8%がヒトのみのDNA、36.3%がマウスのみのDNA、1.9%がヒト-マウスハイブリッドDNAとして分類された。BS-Seqでヒト-マウスハイブリッドDNAであると決定された配列決定された断片のパーセンテージ(<2%)は、Pacific Biosciences配列結果で観察されたパーセンテージ(>30%)よりもはるかに低かった。特に、長鎖断片(中央値が約2kb)は、Pacific Biosciences配列決定によって配列決定されたが、長鎖断片は、MiSeqに好適な短鎖断片(中央値が約196bp)に共有された。このような剪断プロセスは、ヒト-マウスハイブリッド断片を大幅に希釈する。 Bisulfite sequencing was used to measure methylation of human-mouse hybrid fragments whose methylation patterns were determined by single-molecule real-time sequencing according to embodiments of the present disclosure. Samples MIX01 (human DNA methylated, mouse DNA unmethylated) and sample MIX02 (human DNA unmethylated, mouse DNA methylated) were sheared via sonication and the central A mixture of DNA fragment sizes with a value of 196 bp was obtained (interquartile range: 161-268). Paired-end bisulfite sequencing (BS-Seq) was then performed using the MiSeq platform (Illumina) with a read length of 300 bp×2. 3.7 million and 2.9 million sequence fragments were obtained for MIX01 and MIX02, respectively, and aligned with human or mouse reference genomes, or partially human and partially mouse genomes. For MIX01, 41.6% of the aligned fragments were classified as human-only DNA, 56.6% as mouse-only DNA, and 1.8% as human-mouse hybrid DNA. For MIX02, 61.8% of the aligned fragments were classified as human-only DNA, 36.3% as mouse-only DNA, and 1.9% as human-mouse hybrid DNA. The percentage of sequenced fragments determined to be human-mouse hybrid DNA with BS-Seq (<2%) was much lower than the percentage observed with Pacific Biosciences sequencing results (>30%). In particular, the long fragments (median ~2 kb) were sequenced by Pacific Biosciences sequencing, but the long fragments were shared with the short fragments (median ~196 bp) suitable for MiSeq. Such a shearing process greatly dilutes the human-mouse hybrid fragment.

図118は、MIX01のバイサルファイト配列決定およびPacific Biosciences配列決定によって決定されたメチル化を比較した表を示す。表の左端のセクションは、DNAのタイプ:1)ヒトのみ、2)マウスのみ、および3)ヒトとマウスのハイブリッド(ヒト部分とマウス部分に分けられる)を示す。表の中央のセクションには、CG部位の数およびメチル化密度を含む、バイサルファイト配列決定からの詳細が示されている。表の右端のセクションには、CG部位の数およびメチル化密度を含む、Pacific Biosciences配列決定からの詳細が示されている。 Figure 118 shows a table comparing methylation determined by bisulfite sequencing and Pacific Biosciences sequencing of MIX01. The leftmost section of the table indicates the type of DNA: 1) human-only, 2) mouse-only, and 3) human-mouse hybrids (divided into human and mouse portions). The middle section of the table shows details from the bisulfite sequencing, including the number of CG sites and methylation density. The rightmost section of the table shows details from Pacific Biosciences sequencing, including the number of CG sites and methylation density.

図118に示されるように、バイサルファイト配列決定とPacific Biosciences配列決定の両方の結果では、MIX01のヒトのみのDNAは、マウスのみのDNAよりも一貫して高いメチル化密度を示した。ヒト-マウスハイブリッド断片の場合、バイサルファイト配列決定の結果では、ヒト部分とマウス部分のメチル化レベルが、それぞれ46.8%と2.3%であると決定された。これらの結果は、本開示によるPacific Biosciences配列決定によって決定されるように、メチル化密度が、マウス部分と比較して、ヒト部分でより高いことが確認された。Pacific Biosciences配列決定では、ヒト部分で57.4%のメチル化密度が観察され、マウス部分で12.1%のより低いメチル化密度が観察された。これらの結果は、本開示によるPacific Biosciences配列決定によって決定されたメチル化が、実行可能であり得ることを示唆している。特に、Pacific Biosciences配列決定を使用して、別のセクションよりもメチル化密度が高いセクションを有するDNAを含めて、異なるメチル化密度を決定することができる。本開示によるPacific Biosciences配列決定によって決定されたメチル化密度は、バイサルファイト配列決定と比較して、より高いことが観察された。このような推定を、これら2つの技術によって決定された結果間の差を使用して調整することで、技術全体で結果を比較することができる。 As shown in Figure 118, both bisulfite sequencing and Pacific Biosciences sequencing results showed that MIX01 human-only DNA consistently showed higher methylation densities than mouse-only DNA. For the human-mouse hybrid fragment, the bisulfite sequencing results determined the methylation levels of the human and mouse portions to be 46.8% and 2.3%, respectively. These results confirmed that the methylation density was higher in the human portion compared to the mouse portion, as determined by Pacific Biosciences sequencing according to the present disclosure. Pacific Biosciences sequencing observed a methylation density of 57.4% in the human part and a lower methylation density of 12.1% in the mouse part. These results suggest that methylation determined by Pacific Biosciences sequencing according to the present disclosure may be viable. In particular, Pacific Biosciences sequencing can be used to determine different methylation densities, including DNA that has a section with a higher methylation density than another section. Methylation densities determined by Pacific Biosciences sequencing according to the present disclosure were observed to be higher compared to bisulfite sequencing. Adjusting such estimates using the difference between results determined by these two techniques allows results to be compared across techniques.

図119は、MIX02のバイサルファイト配列決定とPacific Biosciences配列決定によって決定されたメチル化を比較した表を示す。表の左端のセクションは、DNAのタイプ:1)ヒトのみ、2)マウスのみ、および3)ヒトとマウスのハイブリッド(ヒト部分とマウス部分に分けられる)を示す。表の中央のセクションには、CG部位の数およびメチル化密度を含む、バイサルファイト配列決定からの詳細が示されている。表の右端のセクションには、CG部位の数およびメチル化密度を含む、Pacific Biosciences配列決定からの詳細が示されている。 Figure 119 shows a table comparing methylation determined by bisulfite sequencing and Pacific Biosciences sequencing of MIX02. The leftmost section of the table indicates the type of DNA: 1) human-only, 2) mouse-only, and 3) human-mouse hybrids (divided into human and mouse portions). The middle section of the table shows details from the bisulfite sequencing, including the number of CG sites and methylation density. The rightmost section of the table shows details from Pacific Biosciences sequencing, including the number of CG sites and methylation density.

図119に示されるように、バイサルファイト配列決定とPacific Biosciences配列決定の両方の結果では、MIX02のヒトのみのDNAは、マウスのみのDNAよりも一貫して低いメチル化密度を示した。ヒト-マウスハイブリッド断片の場合、バイサルファイト配列決定の結果では、ヒト部分とマウス部分のメチル化レベルが、それぞれ1.8%と67.4%であると決定された。これらの結果は、本開示によるPacific Biosciences配列決定によって決定されるように、メチル化密度が、マウス部分と比較して、ヒト部分でより低いことがさらに確認された。Pacific Biosciences配列決定では、本開示によるPacific Biosciences配列決定によって決定されるように、ヒト部分で13.1%のメチル化密度が観察され、マウス部分で72.2%のより高いメチル化密度が観察された。また、本開示によるPacific Biosciences配列決定によってメチル化を決定することが、実行可能であることも示唆した。特に、Pacific Biosciences配列決定を使用して、別のセクションよりもメチル化密度が低いセクションを有するDNAを含めて、異なるメチル化密度を決定することができる。また、本開示によるPacific Biosciences配列決定によって決定されたメチル化密度は、バイサルファイト配列決定と比較して、より高いことも観察された。このような推定を、これら2つの技術によって決定された結果間の差を使用して調整することで、技術全体で結果を比較することができる。 As shown in Figure 119, both the bisulfite sequencing and Pacific Biosciences sequencing results showed that the human-only DNA of MIX02 consistently showed lower methylation densities than the mouse-only DNA. For the human-mouse hybrid fragment, the bisulfite sequencing results determined the methylation levels of the human and mouse portions to be 1.8% and 67.4%, respectively. These results further confirmed that the methylation density was lower in the human portion compared to the mouse portion, as determined by Pacific Biosciences sequencing according to the present disclosure. Pacific Biosciences sequencing observed a methylation density of 13.1% in the human portion and a higher methylation density of 72.2% in the mouse portion, as determined by Pacific Biosciences sequencing according to the present disclosure. was done. It also suggested that it would be feasible to determine methylation by Pacific Biosciences sequencing according to the present disclosure. In particular, Pacific Biosciences sequencing can be used to determine different methylation densities, including DNA having sections with lower methylation densities than other sections. It was also observed that the methylation density determined by Pacific Biosciences sequencing according to the present disclosure was higher compared to bisulfite sequencing. Adjusting such estimates using the difference between results determined by these two techniques allows results to be compared across techniques.

図120Aは、MIX01について、ヒトのみのDNAおよびマウスのみのDNAの5Mbビンでのメチル化レベルを示す。図120Bは、MIX02について、ヒトのみのDNAおよびマウスのみのDNAの5Mbビンでのメチル化レベルを示す。両方の図では、y軸に、メチル化レベルがパーセントで示されている。x軸に、ヒトのみのDNAおよびマウスのみのDNAの各々についてのバイサルファイト配列決定およびPacific Biosciences配列決定が示されている。 FIG. 120A shows methylation levels in 5 Mb bins of human-only and mouse-only DNA for MIX01. FIG. 120B shows methylation levels in 5 Mb bins of human-only and mouse-only DNA for MIX02. In both figures, the methylation level is shown in percent on the y-axis. Bisulfite sequencing and Pacific Biosciences sequencing for human-only DNA and mouse-only DNA, respectively, are shown on the x-axis.

図120Aおよび図120Bでは、試料MIX01およびMIX02の両方のビンにわたって、本開示によるPacific Biosciences配列決定によって決定された結果が、全体的に高いことが見出された。 In Figures 120A and 120B, across both bins of samples MIX01 and MIX02, results determined by Pacific Biosciences sequencing according to the present disclosure were found to be overall high.

図121Aは、MIX01について、ヒト-マウスハイブリッドDNA断片のヒト部分およびマウス部分の5Mbビンでのメチル化レベルを示す。図121Bは、MIX02について、ヒト-マウスハイブリッドDNA断片のヒト部分およびマウス部分の5Mbビンでのメチル化レベルを示す。両方の図では、y軸に、メチル化レベルがパーセントで示されている。x軸に、ヒト部分のDNAおよびマウス部分のDNAの各々についてのバイサルファイト配列決定およびPacific Biosciences配列決定が示されている。 FIG. 121A shows methylation levels in 5 Mb bins of the human and mouse portions of the human-mouse hybrid DNA fragment for MIX01. FIG. 121B shows methylation levels in 5 Mb bins of the human and mouse portions of the human-mouse hybrid DNA fragments for MIX02. In both figures, the methylation level is shown in percent on the y-axis. Bisulfite sequencing and Pacific Biosciences sequencing for the human and mouse portions of DNA, respectively, are shown on the x-axis.

図121Aおよび図121Bの両方で、バイサルファイト配列決定と比較して、Pacific Biosciences配列決定を使用した場合に、メチル化レベルの増加が示された。この増加は、図120Aおよび図120BにおいてヒトのみのDNAおよびマウスのみのDNAで見られたPacific Biosciences配列決定によるメチル化レベルの増加と類似している。ハイブリッド断片のバイサルファイト配列決定の結果に存在する5Mbビンにわたるメチル化レベルの可変性の増加は、分析に使用されたCpG部位の数が少なかったためである可能性が高い。 Both Figures 121A and 121B showed an increase in methylation levels when using Pacific Biosciences sequencing compared to bisulfite sequencing. This increase is similar to the increase in methylation levels by Pacific Biosciences sequencing seen in human-only and mouse-only DNA in Figures 120A and 120B. The increased variability in methylation levels across the 5 Mb bins present in the bisulfite sequencing results of hybrid fragments was likely due to the low number of CpG sites used in the analysis.

図122Aおよび122Bは、単一のヒト-マウスハイブリッド分子におけるメチル化状態を示す代表的なグラフである。図122Aは、試料MIX01内のヒト-マウスハイブリッド断片を示す。図122Bは、試料MIX02内のヒト-マウスハイブリッド断片を示す。塗りつぶされた丸はメチル化部位を示し、塗りつぶされていない丸は非メチル化部位を示す。これらの断片のメチル化状態は、本明細書に記載の実施形態に従って決定された。 Figures 122A and 122B are representative graphs showing the methylation status in a single human-mouse hybrid molecule. Figure 122A shows the human-mouse hybrid fragment within sample MIX01. Figure 122B shows the human-mouse hybrid fragment within sample MIX02. Filled circles indicate methylated sites and unfilled circles indicate unmethylated sites. The methylation status of these fragments was determined according to embodiments described herein.

図122Aに示されるように、試料MIX01からのハイブリッド分子のヒト部分は、よりメチル化されていると決定された。対照的に、マウスDNA部分は、より低メチル化されていると決定された。対照的に、図122Bは、試料MIX02からのハイブリッド分子のヒト部分がより低メチル化されていると決定されたのに対し、マウスDNA部分はよりメチル化されていると決定されたことを示す。 As shown in Figure 122A, the human portion of the hybrid molecule from sample MIX01 was determined to be more methylated. In contrast, portions of mouse DNA were determined to be more hypomethylated. In contrast, Figure 122B shows that the human portion of the hybrid molecule from sample MIX02 was determined to be more hypomethylated, whereas the mouse DNA portion was determined to be more methylated. .

これらの結果は、本開示に存在する実施形態が、分子の異なる部分で異なるメチル化パターンを有する単一のDNA分子において、メチル化の変化を決定することを可能にしたことを実証した。一実施形態では、遺伝子またはゲノム領域の異なる部分が異なるメチル化状態を示すであろう遺伝子または他のゲノム領域のメチル化状態(例えば、プロモーター対遺伝子本体)を測定することができる。別の実施形態では、本明細書に提示される方法は、ヒト-マウスハイブリッド断片を検出することができ、参照ゲノムに関して連続していない断片(すなわち、キメラ分子)を含有するDNA分子を検出し、それらのメチル化状態を分析するための一般的なアプローチを提供する。例えば、このアプローチを使用して、限定されないが、遺伝子融合、ゲノム再編成、翻訳、逆位、重複、構造変化、ウイルスDNA組込み、減数分裂組換えなどを分析することができる。 These results demonstrated that the embodiments present in the present disclosure allowed methylation changes to be determined in a single DNA molecule with different methylation patterns in different parts of the molecule. In one embodiment, the methylation status of a gene or other genomic region (eg, promoter versus gene body) can be measured where different portions of the gene or genomic region will exhibit different methylation states. In another embodiment, the methods presented herein are capable of detecting human-mouse hybrid fragments and detect DNA molecules containing non-contiguous fragments (i.e., chimeric molecules) with respect to the reference genome. , providing a general approach for analyzing their methylation status. For example, this approach can be used to analyze gene fusions, genome rearrangements, translation, inversions, duplications, structural changes, viral DNA integration, meiotic recombination, and the like, without limitation.

一部の実施形態では、これらのハイブリッド断片は、プローブベースのハイブリダイゼーション法またはCRISPR-Casシステムまたは標的DNA濃縮のためのそれらのバリアントのアプローチを使用して、配列決定の前に濃縮され得る。最近、シアノバクテリアScytonema hofmanni由来のCRISPR関連トランスポザーゼが、目的の標的部位の近くの領域にDNAセグメントを挿入できることが報告された(Strecker et al.Science.2019;365:48-53)。CRISPR関連トランスポザーゼは、Tn7を介した転位のように機能する可能性がある。一実施形態では、本発明者らは、このCRISPR関連トランスポザーゼを、例えば、ビオチンで標識されたコメント配列を、gRNAによって誘導される1つ以上の目的のゲノム領域に挿入するように適合させることができる。例えば、ストレプトアビジンでコーティングされた磁気ビーズを使用してコメント配列を捕捉し、それによって、本開示の実施形態による配列決定およびメチル化分析のために、標的DNA配列を同時にプルダウンすることができる。 In some embodiments, these hybrid fragments may be enriched prior to sequencing using probe-based hybridization methods or CRISPR-Cas systems or their variant approaches for target DNA enrichment. Recently, it was reported that a CRISPR-associated transposase from the cyanobacterium Scytonema hofmanni can insert DNA segments into regions near the target site of interest (Strecker et al. Science. 2019;365:48-53). CRISPR-related transposases may function like Tn7-mediated transposition. In one embodiment, we can adapt this CRISPR-associated transposase to insert, for example, a biotin-labeled comment sequence into one or more gRNA-induced genomic regions of interest. can. For example, streptavidin-coated magnetic beads can be used to capture comment sequences, thereby simultaneously pulling down target DNA sequences for sequencing and methylation analysis according to embodiments of the present disclosure.

一部の実施形態では、断片は、本明細書に開示される任意の制限酵素を含み得る制限酵素を使用することによって濃縮され得る。 In some embodiments, fragments can be enriched by using restriction enzymes, which can include any of the restriction enzymes disclosed herein.

C.キメラ分子の検出方法の例
図123は、生体試料中のキメラ分子を検出する方法1230を示す。キメラ分子は、2つの異なる遺伝子、染色体、細胞小器官(例えば、ミトコンドリア、核、葉緑体)、生物(哺乳動物、細菌、ウイルスなど)、および/または種からの配列を含み得る。方法1230は、生体試料からの複数のDNA分子の各々に適用され得る。一部の実施形態では、複数のDNA分子は、細胞DNAであり得る。他の実施形態では、複数のDNA分子は、妊婦の血漿由来の無細胞DNA分子であり得る。
C. Examples of Methods for Detecting Chimeric Molecules FIG. 123 illustrates a method 1230 for detecting chimeric molecules in a biological sample. Chimeric molecules can comprise sequences from two different genes, chromosomes, organelles (eg, mitochondria, nucleus, chloroplast), organisms (mammals, bacteria, viruses, etc.), and/or species. Method 1230 can be applied to each of a plurality of DNA molecules from a biological sample. In some embodiments, the plurality of DNA molecules can be cellular DNA. In other embodiments, the plurality of DNA molecules can be cell-free DNA molecules from the plasma of pregnant women.

ブロック1232で、DNA分子の単一分子配列決定を実施し、N部位の各々におけるメチル化状態を提供する配列リードを取得することができる。Nは、5以上であり、5~10、10~15、15~20、または20超を含む。配列リードのメチル化状態は、メチル化パターンを形成し得る。DNA分子は、複数のDNA分子のうちの1つのDNA分子であり得、方法1230が、複数のDNA分子に対して実施され得る。メチル化パターンは、様々な形態をとることができる。例えば、パターンは、N個(例えば、2、3、4など)のメチル化部位と、それに続くN個の非メチル化部位、またはその逆であり得る。このようなメチル化の変化は、接合部を示している場合がある。メチル化されている連続した部位の数は、非メチル化されている連続した部位の数とは異なる場合がある。 At block 1232, single molecule sequencing of the DNA molecule can be performed to obtain sequence reads that provide the methylation status at each of the N sites. N is 5 or greater, including 5-10, 10-15, 15-20, or greater than 20. The methylation state of sequence reads can form a methylation pattern. The DNA molecule may be one DNA molecule of a plurality of DNA molecules and method 1230 may be performed on the plurality of DNA molecules. Methylation patterns can take many forms. For example, the pattern can be N (eg, 2, 3, 4, etc.) methylated sites followed by N unmethylated sites, or vice versa. Such methylation changes may indicate junctions. The number of contiguous sites that are methylated may differ from the number of contiguous sites that are unmethylated.

ブロック1234では、メチル化パターンは、参照ヒトゲノムの2つの部分(part)からの2つの箇所(portion)を有するキメラ分子に対応する1つ以上の参照パターン上をスライドさせてもよい。参照パターンは、接合部を示す一致するパターンを特定するためのフィルターとして機能し得る。参照パターンに一致する部位の数を追跡して、一致する部位の最大数に対応する一致する位置(すなわち、メチル化状態が参照パターンに一致する数)を追跡することができる。参照ヒトゲノムの2つの部分は、参照ヒトゲノムの不連続部分であり得る。参照ヒトゲノムの2つの部分は、1kb、5kb、10kb、100kb、1Mb、5Mb、または10Mb以上離れている場合がある。2つの部分は、2つの異なる染色体アームまたは染色体に由来する場合がある。1つ以上の参照パターンは、メチル化状態と非メチル化状態との間の変化を含み得る。 At block 1234, the methylation pattern may be slid over one or more reference patterns corresponding to chimeric molecules having two portions from two parts of the reference human genome. The reference pattern can act as a filter to identify matching patterns that indicate junctions. The number of sites matching the reference pattern can be tracked to track the matching positions corresponding to the maximum number of matching sites (ie, the number whose methylation status matches the reference pattern). The two portions of the reference human genome can be discontinuous portions of the reference human genome. The two portions of the reference human genome may be separated by 1 kb, 5 kb, 10 kb, 100 kb, 1 Mb, 5 Mb, or 10 Mb or more. The two parts may be derived from two different chromosomal arms or chromosomes. One or more reference patterns may include changes between methylated and unmethylated states.

ブロック1236では、一致する位置は、メチル化パターンと1つ以上の参照パターンの第1の参照パターンとの間で特定され得る。一致する位置は、配列リードにおける参照ヒトゲノムの2つの部分間の接合部を特定することができる。一致した位置は、参照パターンとメチル化パターンとの間の重複関数の最大値に対応し得る。重複関数は、複数の参照パターンを使用することができる。出力は、集計関数の最大値(すなわち、各参照パターンが出力値に寄与する)または参照パターンにわたって特定される単一の最大値である可能性がある。 At block 1236, matching positions may be identified between the methylation pattern and the first of the one or more reference patterns. A matching position can identify a junction between two parts of the reference human genome in the sequence read. A matched position may correspond to the maximum of the overlap function between the reference pattern and the methylation pattern. A duplicate function can use multiple reference patterns. The output can be the maximum value of an aggregation function (ie each reference pattern contributes to the output value) or a single maximum value identified over the reference patterns.

ブロック1238では、接合部は、キメラ分子における遺伝子融合の位置として出力され得る。遺伝子融合の位置は、癌を含む様々な障害または疾患の遺伝子融合の参照位置と比較することができる。生体試料が取得される生物は、障害または疾患の治療を受けることができる。 At block 1238, the junction may be output as the location of the gene fusion in the chimeric molecule. The location of gene fusions can be compared to reference locations of gene fusions for various disorders or diseases, including cancer. An organism from which a biological sample is obtained can be treated for a disorder or disease.

一致する位置は、整列関数に出力することができる。遺伝子融合の位置は、精密化され得る。遺伝子融合の位置を精密化することは、配列リードの第1の箇所を参照ヒトゲノムの第1の部分に整列させることを含み得る。第1の箇所は、接合部の前にある可能性がある。遺伝子融合の位置を精密化することは、配列リードの第2の箇所を参照ヒトゲノムの第2の部分に整列させることを含み得る。第2の箇所は、接合部の後にある可能性がある。参照ヒトゲノムの第1の部分は、ヒト参照ゲノムの第2の部分から少なくとも1kb離れていてもよい。例えば、参照ヒトゲノムの第1の部分およびヒト参照ゲノムの第2の部分は、1.0~1.5kb、1.5~2.0kb、2.0~2.5kb、2.5~3.0kb、3~5kb、または5kb以上離れている場合がある。 The matching positions can be output to the alignment function. The location of gene fusions can be refined. Refining the location of the gene fusion can include aligning the first location of the sequence read to a first portion of the reference human genome. The first location can be in front of the joint. Refining the location of the gene fusion can include aligning the second location of the sequence read to a second portion of the reference human genome. The second location can be after the joint. The first portion of the reference human genome may be separated from the second portion of the human reference genome by at least 1 kb. For example, the first portion of the reference human genome and the second portion of the human reference genome are 1.0-1.5 kb, 1.5-2.0 kb, 2.0-2.5 kb, 2.5-3. They may be 0 kb, 3-5 kb, or more than 5 kb apart.

複数のキメラ分子の接合部を互いに比較して、遺伝子融合の位置を確認することができる。 The junctions of multiple chimeric molecules can be compared to each other to confirm the location of gene fusions.

VIII.結論
本発明者らは、核酸の塩基修飾(例えば、メチル化)のレベルを、単一塩基の解像度で予測するための効率的なアプローチを開発した。この新しいアプローチは、調査される塩基、配列文脈、および鎖情報を取り巻くポリメラーゼ動態を同時に捕捉するための新しいスキームを実装する。動態のそのような新しい変換は、動態パルスで発生するわずかな中断を特定し、モデル化することを可能にした。IPDのみを使用した以前の方法と比較して、この特許出願に存在する新しいアプローチにより、メチル化分析の分解能および精度が大幅に改善した。この新しいスキームは、他の目的、例えば、5hmC(5-ヒドロキシメチルシトシン)、5fC(5-ホルミルシトシン)、5caC(5-カルボキシルシトシン)、4mC(4-メチルシトシン)、6mA(N6-メチルアデニン)、8oxoG(7,8-ジヒドロ-8-オキソグアニン)、8oxoA(7,8-ジヒドロ-8-オキソアデニン)および他の形態の塩基修飾ならびにDNA損傷の検出に容易に拡張することができる。別の実施形態では、この新しいスキーム(例えば、この用途に存在する2Dデジタルマトリックスに類似した動態変換)は、ナノポア配列決定システムを使用する塩基修飾分析に使用することができる。
VIII. Conclusion We have developed an efficient approach to predict the level of base modifications (eg, methylation) of nucleic acids at single base resolution. This new approach implements a new scheme to simultaneously capture the polymerase dynamics surrounding the investigated base, sequence context, and strand information. Such new transformations of kinetics have allowed us to identify and model the subtle interruptions that occur in kinetic pulses. Compared to previous methods using IPD alone, the new approach present in this patent application greatly improved the resolution and accuracy of methylation analysis. This new scheme has other purposes, e.g. ), 8oxoG (7,8-dihydro-8-oxoguanine), 8oxoA (7,8-dihydro-8-oxoadenine) and other forms of base modification as well as the detection of DNA damage. In another embodiment, this new scheme (eg, kinetic transformation similar to 2D digital matrices present in this application) can be used for base modification analysis using nanopore sequencing systems.

メチル化の検出のこの実装は、異なる供給源からの核酸試料、例えば、細胞の核酸、環境試料採取からの核酸(例えば、細胞混入物)、病原体からの核酸(例えば、細菌、および菌類)、および妊婦の血漿中のcfDNAに対して使用することができる。これは、非侵襲的な出生前検査、癌検出、移植の監視など、ゲノム研究や分子診断に多くの新しい可能性を開くであろう。cfDNAベースの非侵襲的出生前診断の場合、この新しい発明により、PCRおよび配列決定前の実験的変換をすることなく、診断で、各分子のコピー数異常、サイズ、変異、断片末端、および塩基修飾を同時に使用することができるようになり、したがって、感度が向上した。ハプロタイプ間のメチル化レベルの不均衡は、本明細書に記載の方法を使用して検出することができる。このような不均衡は、DNA分子(例えば、癌患者の血液から単離された癌細胞など、障害から抽出された)または障害の起源を示し得る。 This implementation of methylation detection can be used with nucleic acid samples from different sources, e.g., cellular nucleic acids, nucleic acids from environmental sampling (e.g., cellular contaminants), nucleic acids from pathogens (e.g., bacteria, and fungi), and cfDNA in the plasma of pregnant women. This will open up many new possibilities for genomic research and molecular diagnostics, such as noninvasive prenatal testing, cancer detection, and transplantation surveillance. In the case of cfDNA-based non-invasive prenatal diagnosis, this new invention allows diagnostic copy number abnormalities, size, mutations, fragment ends, and bases of each molecule to be detected without experimental transformations prior to PCR and sequencing. Modifications can now be used simultaneously, thus increasing sensitivity. Imbalances in methylation levels between haplotypes can be detected using the methods described herein. Such imbalances can indicate DNA molecules (eg, extracted from a disorder, such as cancer cells isolated from the blood of cancer patients) or the origin of the disorder.

IX.実施例システム
図124は、本発明の一実施形態による測定システム12400を示す。示されたシステムは、試料ホルダ12410内のDNA分子などの試料12405を含み、試料12405をアッセイ12408と接触させて、物理的特徴12415の信号を提供することができる。試料ホルダの例は、アッセイのプローブおよび/もしくはプライマー、または液滴が(アッセイを含む液滴とともに)移動するチューブを含む、フローセルであり得る。試料からの物理的特徴12415(例えば、蛍光強度、電圧、または電流)は、検出器12420によって検出される。検出器12402は、データ信号を構成するデータポイントを取得するために、間隔(例えば、周期的な間隔)を空けて測定を行うことができる。一実施形態では、アナログ-デジタル変換器は、検出器からのアナログ信号をデジタル形態へと複数回変換する。試料ホルダ12401および検出器12402は、アッセイデバイス、例えば、本明細書に記載される実施形態に従って配列決定を行う配列決定デバイスを形成することができる。データ信号12425は、検出器12402から論理システム12403へ送信される。データ信号12425は、ローカルメモリ12435、外部メモリ12404、またはストレージデバイス12445に記憶され得る。
IX. Example System FIG. 124 illustrates a measurement system 12400 according to one embodiment of the invention. The system shown includes a sample 12405, such as a DNA molecule in a sample holder 12410, and the sample 12405 can be brought into contact with an assay 12408 to provide a physical characteristic 12415 signal. An example of a sample holder can be a flow cell containing a tube in which assay probes and/or primers, or droplets travel (along with assay-containing droplets). A physical characteristic 12415 (eg, fluorescence intensity, voltage, or current) from the sample is detected by detector 12420 . Detector 12402 can take measurements at intervals (eg, periodic intervals) to obtain data points that make up the data signal. In one embodiment, the analog-to-digital converter converts the analog signal from the detector to digital form multiple times. Sample holder 12401 and detector 12402 can form an assay device, eg, a sequencing device that performs sequencing according to embodiments described herein. Data signal 12425 is transmitted from detector 12402 to logic system 12403 . Data signal 12425 may be stored in local memory 12435 , external memory 12404 , or storage device 12445 .

論理システム12403は、コンピュータシステム、ASIC、マイクロプロセッサなどであってもよいか、またはそれらを含んでもよい。それはまた、ディスプレイ(例えば、モニタ、LEDディスプレイなど)、およびユーザ入力デバイス(例えば、マウス、キーボード、ボタンなど)を含み得るか、またはそれらに連結され得る。論理システム12403および他の構成要素は、スタンドアローンもしくはネットワーク接続されたコンピュータシステムの一部であってもよく、または検出器12402および/もしくは試料ホルダ12401を含むデバイス(例えば、配列決定デバイス)に直接取り付けられても組み込まれてもよい。論理システム12403はまた、プロセッサ12405において実行するソフトウェアを含み得る。論理システム12403は、本明細書に記載される方法のいずれかを行うようにシステム12400を制御するための指示を記憶するコンピュータ可読媒体を含み得る。例えば、論理システム12403は、配列決定または他の物理的操作が行われるように、試料ホルダ12401を含むシステムにコマンドを提供することができる。そのような物理的操作は、特定の順序で、例えば、試薬が特定の順序で追加および除去されるように、行うことができる。そのような物理的操作は、試料を取得してアッセイを実施するために使用され得るように、例えば、ロボットアームを含む、ロボットシステムによって行われ得る。 Logic system 12403 may be or include a computer system, ASIC, microprocessor, or the like. It may also include or be coupled to a display (eg, monitor, LED display, etc.) and user input devices (eg, mouse, keyboard, buttons, etc.). Logic system 12403 and other components may be part of a stand-alone or networked computer system, or directly into a device (e.g., a sequencing device) that includes detector 12402 and/or sample holder 12401. It can be attached or built-in. Logic system 12403 may also include software executing on processor 12405 . Logic system 12403 may include a computer readable medium storing instructions for controlling system 12400 to perform any of the methods described herein. For example, logic system 12403 can provide commands to systems including sample holder 12401 such that sequencing or other physical manipulations are performed. Such physical manipulations can be performed in a particular order, eg, reagents are added and removed in a particular order. Such physical manipulations can be performed by robotic systems, including, for example, robotic arms, such that they can be used to obtain samples and perform assays.

本明細書で言及されるコンピュータシステムのうちのいずれも、任意の好適な数のサブシステムを利用してもよい。このようなサブシステムの例をコンピュータシステム10の図125に示す。一部の実施形態では、コンピュータシステムは、単一のコンピュータ装置を含み、サブシステムは、コンピュータ装置の構成要素であり得る。他の実施形態では、コンピュータシステムは、各々がサブシステムであり、内部構成要素を備える、複数のコンピュータ装置を含むことができる。コンピュータシステムは、デスクトップコンピュータおよびラップトップコンピュータ、タブレット、携帯電話、ならびにクラウドベースのシステムを含み得る。 Any of the computer systems mentioned herein may utilize any suitable number of subsystems. An example of such a subsystem is shown in FIG. 125 of computer system 10 . In some embodiments, a computer system includes a single computer device, and a subsystem may be a component of the computer device. In other embodiments, the computer system may include multiple computer devices, each of which is a subsystem and includes internal components. Computer systems may include desktop and laptop computers, tablets, mobile phones, and cloud-based systems.

図125に示されるサブシステムは、システムバス75を介して相互接続される。プリンタ74、キーボード78、記憶装置(複数可)79、ディスプレイアダプター82に接続されたモニタ76((例えば、LEDなどのディスプレイスクリーン)、およびその他などの追加のサブシステムが示されている。I/Oコントローラ71に結合する周辺機器および入力/出力(I/O)デバイスは、入力/出力(I/O)ポート77(例えば、USB、FireWire(登録商標))などの当技術分野において既知である任意の数の手段によって、コンピュータシステムに接続され得る。例えば、I/Oポート77または外部インターフェース81(例えば、Ethernet、Wi-Fiなど)を使用して、Internetなどの広域ネットワーク、マウス入力デバイス、またはスキャナに、コンピュータシステム10を接続することができる。システムバス75を介した相互接続は、中央プロセッサ73が、各サブシステムと通信し、システムメモリ72または記憶デバイス(複数可)79(例えば、ハードドライブまたは光ディスクなどの固定ディスク)からの複数の命令の実行、およびサブシステム間の情報交換を制御することを可能にする。システムメモリ72および/または記憶装置(複数可)79は、コンピュータ可読媒体を具現化してもよい。別のサブシステムは、カメラ、マイクロホン、および加速度計、ならびにこれらに類するものなどのデータ収集装置85である。本明細書に言及されるデータのうちのいずれも、1つの構成要素から別の構成要素に出力されてもよく、ユーザに対して出力されてもよい。 The subsystems shown in FIG. 125 are interconnected via system bus 75 . Additional subsystems are shown, such as a printer 74, keyboard 78, storage device(s) 79, monitor 76 (e.g., display screen such as LEDs) connected to display adapter 82, and others. Peripherals and input/output (I/O) devices that couple to the O controller 71 are known in the art, such as input/output (I/O) ports 77 (eg, USB, FireWire®). It may be connected to the computer system by any number of means, such as a wide area network such as the Internet, mouse input device, using I/O port 77 or external interface 81 (eg, Ethernet, Wi-Fi, etc.). Alternatively, the scanner may be connected to computer system 10. Interconnection via system bus 75 allows central processor 73 to communicate with each subsystem, system memory 72 or storage device(s) 79 (e.g., A system memory 72 and/or storage device(s) 79 is a computer readable storage device(s) 79 that enables execution of multiple instructions from a hard drive or a fixed disk such as an optical disk) and information exchange between subsystems. Another subsystem is a data collection device 85 such as cameras, microphones and accelerometers, and the like.Any of the data referred to herein It may be output from one component to another component and may be output to the user.

コンピュータシステムは、例えば、外部インターフェース81によって、内部インターフェースによって、または1つの構成要素から別の構成要素に接続され得る、もしくは取り外され得る記憶装置を介して、ともに接続された、複数の同じ構成要素またはサブシステムを含むことができる。一部の実施形態では、コンピュータシステム、サブシステム、または装置は、ネットワーク上で通信することができる。そのような例において、1つのコンピュータをクライアント、別のコンピュータをサーバとみなすことができ、各々が、同じコンピュータシステムの一部であり得る。クライアントおよびサーバは各々、複数のシステム、サブシステム、または構成要素を含むことができる。 A computer system may be a plurality of identical components connected together, for example, by an external interface 81, by an internal interface, or via storage devices that may be connected or removed from one component to another. or subsystems. In some embodiments, computer systems, subsystems, or devices can communicate over a network. In such an example, one computer can be considered a client and another computer a server, and each can be part of the same computer system. Clients and servers may each include multiple systems, subsystems, or components.

実施形態の態様は、制御ロジックの形態で、ハードウェア回路(例えば、特定用途向け集積回路もしくはフィールドプログラマブルゲートアレイ)を使用して、および/またはモジュール式もしくは集積様態で汎用プログラマブルプロセッサを有するコンピュータソフトウェアを使用して、実装することができる。本明細書で使用される場合、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、または単一の回路基板もしくはネットワーク化された上の複数の処理ユニット、ならびに専用のハードウェアを含むことができる。本開示および本明細書に提供される教示に基づいて、当業者は、ハードウェア、およびハードウェアとソフトウェアとの組み合わせを使用して、本発明の実施形態を実装するための他の方法および/または方法を認識および理解するであろう。 Aspects of an embodiment can be implemented in computer software in the form of control logic, using hardware circuits (e.g., application specific integrated circuits or field programmable gate arrays), and/or in a modular or integrated fashion with a general purpose programmable processor. can be implemented using As used herein, a processor may include a single-core processor, a multi-core processor on the same integrated chip, or multiple processing units on a single circuit board or networked together, as well as dedicated hardware. can be done. Based on this disclosure and the teachings provided herein, one of ordinary skill in the art will be able to implement other methods and/or implementations of the embodiments of the present invention using hardware and combinations of hardware and software. or will know and understand how.

本出願で説明されるソフトウェア構成要素または関数のうちのいずれも、例えば、Java、C、C++、C#、Objective-C、Swiftなどの任意の好適なコンピュータ言語、または、例えば、従来の技術もしくはオブジェクト指向の技術を使用するPerlもしくはPythonなどのスクリプト言語を使用する、処理デバイスによって実行されるソフトウェアコードとして実装されてもよい。ソフトウェアコードは、記憶および/または伝送のためのコンピュータ可読媒体上に一連の命令またはコマンドとして記憶され得る。好適な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、磁気媒体(ハードドライブもしくはフロッピーディスクなど)、または光学媒体(コンパクトディスク(CD)もしくはDVD(デジタル多用途ディスク)など)、またはブルーレイディスクおよびフラッシュメモリなどを含むことができる。コンピュータ可読媒体は、そのような記憶または送信デバイスの任意の組み合わせであってもよい。 Any of the software components or functions described in this application may be written in any suitable computer language, such as Java, C, C++, C#, Objective-C, Swift, etc., or It may also be implemented as software code executed by a processing device using a scripting language such as Perl or Python using object-oriented techniques. Software code may be stored as a series of instructions or commands on a computer-readable medium for storage and/or transmission. Suitable non-transitory computer readable media include random access memory (RAM), read only memory (ROM), magnetic media (such as hard drives or floppy disks), or optical media (such as compact discs (CD) or DVDs (Digital Versatile discs), or Blu-ray discs and flash memory, etc. A computer readable medium may be any combination of such storage or transmission devices.

そのようなプログラムはまた、コード化され、インターネットを含む様々なプロトコルに従う有線ネットワーク、光ネットワーク、および/または無線ネットワークを介した送信に適合した搬送波信号を使用して送信されてもよい。したがって、コンピュータ可読媒体は、そのようなプログラムでコード化されたデータ信号を使用して作成されてもよい。プログラムコードでコード化されたコンピュータ可読媒体は、互換性のあるデバイスでパッケージ化されていてもよく、または(例えば、インターネットダウンロードを介して)他のデバイスとは別個に提供されてもよい。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品(例えば、ハードドライブ、CD、もしくはコンピュータシステム全体)上もしくはその内部に存在してもよく、システムまたはネットワーク内の異なるコンピュータ製品上もしくはその内部に存在してもよい。コンピュータシステムは、モニタ、プリンタ、または本明細書に記載の結果のうちのいずれかをユーザへ提供するための他の好適なディスプレイを含み得る。 Such programs may also be encoded and transmitted using carrier wave signals suitable for transmission over wired, optical and/or wireless networks according to various protocols, including the Internet. Accordingly, computer readable media may be produced using data signals encoded with such programs. Computer-readable media encoded with the program code may be packaged with a compatible device or provided separately from other devices (eg, via Internet download). Any such computer-readable medium may reside on or within a single computer product (eg, a hard drive, CD, or an entire computer system), or may be on or among different computer products within a system or network. May exist inside. A computer system may include a monitor, printer, or other suitable display for providing any of the results described herein to a user.

本明細書記載の方法のうちのいずれも、ステップを実施するように構成することができる1つ以上のプロセッサを含むコンピュータシステムを用いて全体的または部分的に実施することができる。したがって、実施形態は、本明細書に説明される方法のうちのいずれかのステップを実施するように構成されたコンピュータシステムを対象とし得、潜在的には異なる構成要素がそれぞれのステップまたはそれぞれのステップのグループを実施する。番号付けされたステップとして提示されるが、本明細書の方法のステップは、同時にもしくは異なる時間に、または異なる順序で実施することができる。加えて、これらのステップの部分は、他の方法からの他のステップの部分と併用することができる。また、あるステップのすべてまたは部分は、任意選択的であってもよい。加えて、本方法のうちのいずれかのステップのうちのいずれかを、これらのステップを実施するためのシステムのモジュール、ユニット、回路、または他の手段を用いて実施することができる。 Any of the methods described herein can be implemented in whole or in part using a computer system including one or more processors that can be configured to perform the steps. Thus, an embodiment may be directed to a computer system configured to perform the steps of any of the methods described herein, with potentially different components each step or each Implement a group of steps. Although presented as numbered steps, the steps of the methods herein can be performed at the same time or at different times or in different orders. Additionally, portions of these steps can be used in conjunction with portions of other steps from other methods. Also, all or part of a step may be optional. Additionally, any of the steps of any of the methods may be performed using a system of modules, units, circuits, or other means for performing those steps.

特定の実施形態の具体的な詳細は、本発明の実施形態の趣旨および範囲から逸脱することなく、任意の好適な様態で組み合わせることができる。しかしながら、本発明の他の実施形態は、各個々の態様、またはこれらの個々の態様の具体的な組み合わせに関する具体的な実施形態を対象とし得る。 The specific details of particular embodiments may be combined in any suitable manner without departing from the spirit and scope of embodiments of the invention. However, other embodiments of the invention may be directed to specific embodiments relating to each individual aspect, or specific combinations of these individual aspects.

本開示の例示的実施形態の上の説明は、例示および説明の目的で提示されている。包括的であること、または本開示を説明された正確な形態に限定することは意図されず、多くの修正および変更が、先の教示に鑑みて可能である。 The foregoing description of exemplary embodiments of the present disclosure has been presented for purposes of illustration and description. It is not intended to be exhaustive or to limit the disclosure to the precise form described, and many modifications and variations are possible in light of the above teachings.

「a」、「an」、または「the」の記述は、それとは反対に具体的に示されない限り、「1つ以上」を意味することが意図される。「または」の使用は、それとは反対に具体的に示されない限り、「排他的なまたは」ではなく「包含的なまたは」を意味することが意図される。「第1」の構成要素への言及は、第2の構成要素が提供されることを必ずしも必要としない。さらに、「第1」または「第2」の構成要素への言及は、明示的に述べられていない限り、言及される構成要素を特定の場所に限定するものではない。「~に基づいて」という用語は、「少なくとも一部に基づいて」を意味することを意図している。 References to "a," "an," or "the" are intended to mean "one or more," unless specifically indicated to the contrary. The use of "or" is intended to mean an "inclusive or" rather than an "exclusive or," unless specifically indicated to the contrary. Reference to a "first" component does not necessarily require that a second component be provided. Further, reference to a "first" or "second" component does not limit the referenced component to a particular location unless explicitly stated. The term "based on" is intended to mean "based at least in part on."

本明細書において言及されるすべての特許、特許出願、刊行物、および明細書は、すべての目的に対して参照によりそれらの全体が組み込まれる。いかなるものも、先行技術であるとは認められていない。
参考文献
Albert,T.J.et al.(2007)Direct selection of human genomic loci by microarray hybridization.Nat.Methods,4,903-905.
Beckmann et al.(2014)Detecting epigenetic motifs in low coverage and metagenomics settings.BMC Bioinformatics,15(Suppl 9): S16.
Beaulaurier,J.et al.(2019)Deciphering bacterial epigenomes using modern sequencing technologies.Nature Reviews Genetics,20:157-172.
Blow,M.J.et al.(2016)The Epigenomic Landscape of Prokaryotes.PLOS Genet.,12,e1005854.
Breiman,L.(2001)Random Forests.Mach.Learn.,45,5-32.
Chan,K.C.A.et al.(2013)Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing.Proc.Natl.Acad.Sci.U.S.A.,110,18761-8.
Clark,T.A.et al.(2013)Enhanced 5-methylcytosine detection in single-molecule,real-time sequencing via Tet1 oxidation.BMC Biol.,11,4.
Clark,T.A.et al.(2012)Characterization of DNA methyltransferase specificities using single-molecule,real-time DNA sequencing.Nucleic Acids Res.,40:e29.
Eid,J.et al.(2009)Real-Time DNA Sequencing from Single Polymerase Molecules.Science 323,133-138.
Feinberg,A.P.and Irizarry,R.A.(2010)Stochastic epigenetic variation as a driving force of development,evolutionary adaptation,and disease.Proc.Natl.Acad.Sci.,107,1757-1764.
Feng,Z.et al.(2013)Detecting DNA modifications from SMRT sequencing data by modeling sequence context dependence of polymerase kinetic.PLoS Comput Biol.,9:e1002935.
Flusberg,B.A.et al.(2010)Direct detection of DNA methylation during single-molecule,real-time sequencing.Nat.Methods,7,461-465.
Frommer,M.et al.(1992)A genomic sequencing protocol that yields a positive display of 5-methylcytosine residues in individual DNA strands.Proc.Natl.Acad.Sci.,89,1827-1831.
Gai,W.et al.(2018)Liver- and colon-specific DNA methylation markers in plasma for investigation of colorectal cancers with or without liver metastases.Clin.Chem.,64,1239-1249.
Gouil,Q.et al.(2019)Latest techniques to study DNA methylation.Essays Biochem.63(6):639-648.
Grunau,C.(2001)Bisulfite genomic sequencing: systematic investigation of critical experimental parameters.Nucleic Acids Res.,29,65e-65.
Herman,J.G.et al.(1996)Methylation-specific PCR: a novel PCR assay for methylation status of CpG islands.Proc.Natl.Acad.Sci.U.S.A.,93,9821-9826.
Jiang,P.et al.(2014)Methy-Pipe: An Integrated Bioinformatics Pipeline for Whole Genome Bisulfite Sequencing Data Analysis.PLoS One,9,e100360.
LeCun,Y.et al.(1989)Backpropagation Applied to Handwritten Zip Code Recognition.Neural Comput.,1,541-551.
Lee,E.-J.et al.(2011)Targeted bisulfite sequencing by solution hybrid selection and massively parallel sequencing.Nucleic Acids Res.,39,e127-e127.
Lehmann-Werman,R.et al.(2016)Identification of tissue-specific cell death using methylation patterns of circulating DNA.Proc.Natl.Acad.Sci.,113,E1826-E1834.
Lister,R.et al.(2009)Human DNA methylomes at base resolution show widespread epigenomic differences.Nature,462,315-322.
Liu,Q.et al.(2019)Detection of DNA base modifications by deep recurrent neural network on Oxford Nanopore sequencing data.Nature Commun.,10,2449.
Liu,Y.et al.(2019)Bisulfite-free direct detection of 5-methylcytosine and 5-hydroxymethylcytosine at base resolution.Nat.Biotechnol.,37,424-429.
Lun,F.M.F.et al.(2013)Noninvasive prenatal methylomic analysis by genomewide bisulfite sequencing of maternal plasma DNA.Clin.Chem.,59,1583-1594.
Nattestad,M.et al.(2018)Complex rearrangements and oncogene amplifications revealed by long-read DNA and RNA sequencing of a breast cancer cell line.Genome Res.,28,1126-1135.
Ng,A.Y.(2004)Feature selection,L vs.L regularization,and rotational invariance.In,Twenty-first International Conference on Machine Learning-ICML ’04.ACM Press,New York,New York,USA,p.78.
Ni,P.et al.(2019)DeepSignal: detecting DNA methylation state from Nanopore sequencing reads using deep-learning.Bioinformatics,35,4586-4595
Okou,D.T.et al.(2007)Microarray-based genomic selection for high-throughput resequencing.Nat.Methods,4,907-909.
Olova,N.et al.(2018)Comparison of whole-genome bisulfite sequencing library preparation strategies identifies sources of biases affecting DNA methylation data.Genome Biol.,19,33.
Robertson,K.D.(2005)DNA methylation and human disease.Nat.Rev.Genet.,6,597-610.
Smith,Z.D.and Meissner,A.(2013)DNA methylation: roles in mammalian development.Nat.Rev.Genet.,14,204-20.
Schadt,E.E.et al.(2013)Modeling kinetic rate variation in third generation DNA sequencing data to detect putative modifications to DNA bases.Genome Res.,23(1):129-41.
Sun,K.et al.(2015)Plasma DNA tissue mapping by genome-wide methylation sequencing for noninvasive prenatal,cancer,and transplantation assessments.Proc.Natl.Acad.Sci.,112,E5503-E5512.
Suzuki,Y.et al.(2016)AgIn: measuring the landscape of CpG methylation of individual repetitive elements.Bioinformatics,32,2911-2919.
Watson,C.M.et al.(2019)Cas9-based enrichment and single-molecule sequencing for precise characterization of genomic duplications.Lab.Investig,100,135-146.
Zhang,W.et al.(2015)Predicting genome-wide DNA methylation using methylation marks,genomic position,and DNA regulatory elements.Genome Biol.,16,14.
All patents, patent applications, publications, and specifications referred to herein are incorporated by reference in their entirety for all purposes. Nothing is admitted to be prior art.
Reference Albert, T.; J. et al. (2007) Direct selection of human genomic loci by microarray hybridization. Nat. Methods, 4, 903-905.
Beckmann et al. (2014) Detecting epigenetic motifs in low coverage and metagenomics settings. BMC Bioinformatics, 15 (Suppl 9): S16.
Beaulaurier, J.; et al. (2019) Deciphering bacterial epigenomes using modern sequencing technologies. Nature Reviews Genetics, 20:157-172.
Blow, M. J. et al. (2016) The Epigenomic Landscape of Prokaryotes. PLOS Genet. , 12, e1005854.
Breiman, L.; (2001) Random Forests. Mach. Learn. , 45, 5-32.
Chan, K. C. A. et al. (2013) Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing. Proc. Natl. Acad. Sci. U.S.A. S. A. , 110, 18761-8.
Clark, T. A. et al. (2013) Enhanced 5-methylcytosine detection in single-molecule, real-time sequencing via Tet1 oxidation. BMC Biol. , 11, 4.
Clark, T. A. et al. (2012) Characterization of DNA methyltransferase specifications using single-molecule, real-time DNA sequencing. Nucleic Acids Res. , 40:e29.
Eid,J. et al. (2009) Real-Time DNA Sequencing from Single Polymerase Molecules. Science 323, 133-138.
Feinberg, A.; P. and Irizarry, R.I. A. (2010) Stochastic epigenetic variation as a driving force of development, evolutionary adaptation, and disease. Proc. Natl. Acad. Sci. , 107, 1757-1764.
Feng, Z.; et al. (2013) Detecting DNA modifications from SMRT sequencing data by modeling sequence context dependence of polymerase kinetics. PLoS Comput Biol. , 9: e1002935.
Flusberg, B.; A. et al. (2010) Direct detection of DNA methylation during single-molecule, real-time sequencing. Nat. Methods, 7, 461-465.
Frommer, M.; et al. (1992) A genomic sequencing protocol that yields a positive display of 5-methylcytosine residues in individual DNA strands. Proc. Natl. Acad. Sci. , 89, 1827-1831.
Gai, W.; et al. (2018) Liver- and colon-specific DNA methylation markers in plasma for investigation of color cancers with or without liver metastases. Clin. Chem. , 64, 1239-1249.
Gouil, Q. et al. (2019) Latest techniques to study DNA methylation. Essays Biochem. 63(6):639-648.
Grunau, C.; (2001) Bisulfite genomic sequencing: systematic investigation of critical experimental parameters. Nucleic Acids Res. , 29, 65e-65.
Herman, J.; G. et al. (1996) Methylation-specific PCR: a novel PCR assay for methylation status of CpG islands. Proc. Natl. Acad. Sci. U.S.A. S. A. , 93, 9821-9826.
Jiang, P.; et al. (2014) Methy-Pipe: An Integrated Bioinformatics Pipeline for Whole Genome Bisulfite Sequencing Data Analysis. PLoS One, 9, e100360.
LeCun, Y.; et al. (1989) Backpropagation Applied to Handwritten Zip Code Recognition. Neural Comput. , 1, 541-551.
Lee, E. -J. et al. (2011) Targeted bisulfite sequencing by solution hybrid selection and massively parallel sequencing. Nucleic Acids Res. , 39, e127-e127.
Lehmann-Werman, R.; et al. (2016) Identification of tissue-specific cell death using methylation patterns of circulating DNA. Proc. Natl. Acad. Sci. , 113, E1826-E1834.
Lister, R. et al. (2009) Human DNA methylomes at base resolution show widespread epigenomic differences. Nature, 462, 315-322.
Liu, Q. et al. (2019) Detection of DNA base modifications by deep recurrent neural network on Oxford Nanopore sequencing data. Nature Commun. , 10, 2449.
Liu, Y.; et al. (2019) Bisulfite-free direct detection of 5-methylcytosine and 5-hydroxymethylcytosine at base resolution. Nat. Biotechnol. , 37, 424-429.
Lun, F. M. F. et al. (2013) Noninvasive prenatal methylomic analysis by genomewide bisulfite sequencing of maternal plasma DNA. Clin. Chem. , 59, 1583-1594.
Nattestad, M.; et al. (2018) Complex rearrangements and oncogene amplifications revealed by long-read DNA and RNA sequencing of a breast cancer cell line. Genome Res. , 28, 1126-1135.
Ng, A. Y. (2004) Feature selection, L1 vs. L 2 regularization, and rotational invariance. In, Twenty-first International Conference on Machine Learning-ICML '04. ACM Press, New York, New York, USA, p. 78.
Ni, P. et al. (2019) Deep Signal: detecting DNA methylation state from Nanopore sequencing reads using deep-learning. Bioinformatics, 35, 4586-4595
Okou, D. T. et al. (2007) Microarray-based genomic selection for high-throughput resequencing. Nat. Methods, 4, 907-909.
Olova, N.; et al. (2018) Comparison of whole-genome bisulfite sequencing library preparation strategies identifying sources of biases affecting DNA methylation data. Genome Biol. , 19, 33.
Robertson, K.; D. (2005) DNA methylation and human disease. Nat. Rev. Genet. , 6, 597-610.
Smith, Z.; D. and Meissner, A.; (2013) DNA methylation: roles in mammalian development. Nat. Rev. Genet. , 14, 204-20.
Schadt, E. E. et al. (2013) Modeling kinetic rate variation in third generation DNA sequencing data to detect putative modifications to DNA bases. Genome Res. , 23(1):129-41.
Sun, K. et al. (2015) Plasma DNA tissue mapping by genome-wide methylation sequencing for noninvasive prenatal, cancer, and transplantation assessments. Proc. Natl. Acad. Sci. , 112, E5503-E5512.
Suzuki, Y.; et al. (2016) AgIn: Measuring the landscape of CpG methylation of individual repetitive elements. Bioinformatics, 32, 2911-2919.
Watson, C.E. M. et al. (2019) Cas9-based enrichment and single-molecule sequencing for precision characterization of genomic duplications. Lab. Investig, 100, 135-146.
Zhang, W.; et al. (2015) Predicting genome-wide DNA methylation using methylation marks, genomic positions, and DNA regulatory elements. Genome Biol. , 16, 14.

Claims (41)

核酸分子におけるヌクレオチドの修飾を検出するための方法であって、
(a)試料核酸分子で配列決定されたヌクレオチドに対応する光信号のパルスを測定することによって得られるデータを受信し、前記データから、以下の特性:
各ヌクレオチドについての
前記ヌクレオチドの識別
前記試料核酸分子内の前記ヌクレオチドの位置、
前記ヌクレオチドに対応する前記パルスの幅、および
前記ヌクレオチドに対応する前記パルスと近傍のヌクレオチドに対応するパルスとの間の時間を表すパルス間隔、
についての値を得ること;
(b)入力データ構造を作成することであって、入力データ構造は前記試料核酸分子で配列決定された前記ヌクレオチドのウィンドウを含み、ここで前記入力データ構造が、前記ウィンドウ内の各ヌクレオチドについての、以下の特性:
前記ヌクレオチドの前記識別
前記ウィンドウ内の標的位置に対する前記ヌクレオチドの位置、
前記ヌクレオチドに対応する前記パルスの幅、および
前記パルス間隔、
を含む、作成することと;
(c)前記入力データ構造をモデルに入力することであって、前記モデルは、
第1の複数の第1のデータ構造を受信することであって、前記第1の複数の第1のデータ構造の各第1のデータ構造が、複数の第1の核酸分子のそれぞれの核酸分子において配列決定されたヌクレオチドのそれぞれのウィンドウに対応し、前記第1の核酸分子の各々は、前記ヌクレオチドに対応する前記光信号のパルスを測定することによって配列決定され、前記修飾は、各第1の核酸分子の各ウィンドウにおける標的位置のヌクレオチドの既知の第1の状態を有し、各第1のデータ構造が、前記入力データ構造と同じ特性についての値を含む、受信すること、
複数の第1の訓練試料を記憶することであって、各々が、前記第1の複数の第1のデータ構造のうちの1つと、前記標的位置の前記ヌクレオチドの前記第1の状態を示す第1のラベルとを含む、記憶すること、および、
前記第1の複数の第1のデータ構造が前記モデルに入力されたとき、前記複数の第1の訓練試料を使用して、前記第1のラベルの対応するラベルに一致するかまたは一致しない前記モデルの出力に基づいて前記モデルのパラメータを最適化することであって、前記モデルの出力は、前記それぞれのウィンドウにおける前記標的位置の前記ヌクレオチドが前記修飾を有するかどうかを指定する、最適化すること、によって訓練される、入力することと;並びに
(d)前記モデルを使用して、前記入力データ構造の前記ウィンドウ内の前記標的位置のヌクレオチドに前記修飾が存在するかどうかを決定することと、を含む、方法。
A method for detecting nucleotide modifications in a nucleic acid molecule comprising:
(a) receiving data obtained by measuring pulses of light signals corresponding to sequenced nucleotides in a sample nucleic acid molecule, from said data the following characteristics:
identification of said nucleotide for each nucleotide;
the position of said nucleotide within said sample nucleic acid molecule;
a width of said pulse corresponding to said nucleotide, and a pulse interval representing the time between said pulse corresponding to said nucleotide and a pulse corresponding to a neighboring nucleotide;
obtaining a value for
(b) creating an input data structure, the input data structure comprising a window of said nucleotides sequenced in said sample nucleic acid molecule, wherein said input data structure comprises: , with the following characteristics:
said identification of said nucleotide;
position of said nucleotide relative to a target position within said window;
a width of said pulse corresponding to said nucleotide; and said pulse interval;
creating, including;
(c) inputting said input data structure into a model, said model:
receiving a first plurality of first data structures, wherein each first data structure of said first plurality of first data structures corresponds to a respective nucleic acid molecule of a plurality of first nucleic acid molecules; wherein each of said first nucleic acid molecules is sequenced by measuring pulses of said light signal corresponding to said nucleotides, said modifications corresponding to respective windows of nucleotides sequenced in each first having known first states of nucleotides at target positions in each window of the nucleic acid molecule of each first data structure, each first data structure containing a value for the same property as said input data structure;
storing a plurality of first training samples, each indicative of one of said first plurality of first data structures and said first state of said nucleotide at said target position; storing, including a label of 1; and
When said first plurality of first data structures is input to said model, said plurality of first training samples are used to match or not match corresponding labels of said first label. optimizing parameters of the model based on the output of the model, the output of the model specifying whether the nucleotide at the target position in the respective window has the modification; trained by, inputting; and
(d) using said model to determine whether said modification is present at a nucleotide at said target position within said window of said input data structure.
前記入力データ構造は、複数の入力データ構造のうちの1つの入力データ構造であり、
前記試料核酸分子は、複数の試料核酸分子のうちの1つの試料核酸分子であり、
前記複数の試料核酸分子は、対象の生体試料から取得され、
各入力データ構造は、前記複数の試料核酸分子のそれぞれの試料核酸分子における配列決定されたヌクレオチドのそれぞれのウィンドウに対応し、
前記方法が、
前記複数の入力データ構造を受信することと、
前記複数の入力データ構造を前記モデルに入力することと、
前記モデルを使用して、各入力データ構造の前記それぞれのウィンドウにおける標的位置のヌクレオチドに修飾が存在するかどうかを決定することと、をさらに含む、請求項1に記載の方法。
the input data structure is one of a plurality of input data structures;
the sample nucleic acid molecule is one of a plurality of sample nucleic acid molecules;
the plurality of sample nucleic acid molecules are obtained from a biological sample of a subject;
each input data structure corresponding to a respective window of sequenced nucleotides in a respective sample nucleic acid molecule of the plurality of sample nucleic acid molecules;
the method comprising:
receiving the plurality of input data structures;
inputting the plurality of input data structures into the model;
2. The method of claim 1, further comprising using said model to determine whether there is a modification at a nucleotide at a target position in said respective window of each input data structure.
前記修飾が1つ以上のヌクレオチドに存在することを決定することと、
1つ以上のヌクレオチドの前記修飾の存在を使用して、障害の分類を割り当てることと、をさらに含む、請求項2に記載の方法。
determining that the modification is at one or more nucleotides;
3. The method of claim 2, further comprising using the presence of said modification of one or more nucleotides to assign a disorder classification.
前記障害が、癌を含む、請求項3に記載の方法。 4. The method of claim 3, wherein said disorder comprises cancer. 前記障害の前記分類は、前記対象が前記障害を有することであると割り当てること
さらに含む、請求項3又は4に記載の方法。
assigning the classification of the disorder to be that the subject has the disorder ;
5. The method of claim 3 or 4, further comprising:
前記修飾の数または前記修飾の部位を使用して、前記障害の前記分類を割り当てる、請求項3~5のいずれか1項に記載の方法。 The method of any one of claims 3-5 , wherein the number of modifications or the site of modification is used to assign the classification of the disorder. 前記修飾が、メチル化である、請求項1~6のいずれか1項に記載の方法。 A method according to any one of claims 1 to 6, wherein said modification is methylation. 前記メチル化が、4mC(N4-メチルシトシン)、5mC(5-メチルシトシン)、、5hmC(5-ヒドロキシメチルシトシン)、5fC(5-ホルミルシトシン)、5caC(5-カルボキシルシトシン)、1mA(N1-メチルアデニン)、3mA(N3-メチルアデニン)、6mA(N6-メチルアデニン)、7mA(N7-メチルアデニン)、3mC(N3-メチルシトシン)、2mG(N2-メチルグアニン)、6mG(O6-メチルグアニン)、7mG(N7-メチルグアニン)、3mT(N3-メチルチミン)、又は4mT(O4-メチルチミン)を含む、請求項7に記載の方法。 The methylation is 4mC (N4-methylcytosine), 5mC (5-methylcytosine), 5hmC (5-hydroxymethylcytosine), 5fC (5-formylcytosine), 5caC (5-carboxylcytosine), 1mA (N1 -methyladenine), 3mA (N3-methyladenine), 6mA (N6-methyladenine), 7mA (N7-methyladenine), 3mC (N3-methylcytosine), 2mG (N2-methylguanine), 6mG (O6-methyl guanine), 7mG (N7-methylguanine), 3mT (N3-methylthymine), or 4mT (O4-methylthymine). 前記メチル化が、5mCである、請求項7に記載の方法。 8. The method of claim 7, wherein said methylation is 5mC. 前記メチル化が、6mAである、請求項7に記載の方法。 8. The method of claim 7, wherein said methylation is 6mA. 前記修飾がメチル化であって、前記方法が:
前記修飾が1つ以上のヌクレオチドに存在するかどうかのメチル化状態を決定することと、
前記1つ以上のヌクレオチドの前記メチル化状態を使用して、臨床関連のDNA画分、胎児のメチル化プロファイル、母体のメチル化プロファイル、インプリント遺伝子領域の存在、または起源の組織を決定することと、をさらに含む、請求項2に記載の方法。
wherein said modification is methylation and said method comprises:
determining the methylation status of whether the modification is present at one or more nucleotides;
using said methylation status of said one or more nucleotides to determine a clinically relevant DNA fraction, fetal methylation profile, maternal methylation profile, presence of imprinted gene regions, or tissue of origin 3. The method of claim 2, further comprising: and.
請求項11に記載の方法であって、ここで: 12. The method of claim 11, wherein:
前記方法は、起源の組織を決定することを含み、 The method comprises determining a tissue of origin,
起源の組織を決定することは、試料核酸分子が胎児または母体起源であるかどうかを決定することを含む、方法。 A method, wherein determining the tissue of origin comprises determining whether the sample nucleic acid molecules are of fetal or maternal origin.
試料核酸分子が胎児または母体起源であるかどうかを決定することが: Determining whether a sample nucleic acid molecule is of fetal or maternal origin includes:
前記1つ以上のヌクレオチドの前記メチル化状態を使用して前記試料核酸分子のメチル化レベルを決定すること、および determining the methylation level of the sample nucleic acid molecule using the methylation state of the one or more nucleotides; and
前記試料核酸分子のメチル化レベルを参照値と比較すること Comparing the methylation level of said sample nucleic acid molecule to a reference value
を含む、請求項12に記載の方法。13. The method of claim 12, comprising:
前記参照値が、1つ以上の母体核酸分子のメチル化レベルから決定される、請求項13に記載の方法。 14. The method of claim 13, wherein said reference value is determined from methylation levels of one or more maternal nucleic acid molecules. 請求項13に記載の方法であって、ここで: 14. The method of claim 13, wherein:
前記試料核酸分子の前記メチル化レベルを前記参照値と比較することは、前記試料核酸分子の前記メチル化レベルが、前記参照値よりも低いことを決定することを含み、 comparing the methylation level of the sample nucleic acid molecule to the reference value comprises determining that the methylation level of the sample nucleic acid molecule is lower than the reference value;
前記試料核酸分子が胎児または母体起源であるかどうかを決定することは、比較を用いて前記試料核酸分子が胎児起源であるかを決定することを含む、 Determining whether the sample nucleic acid molecule is of fetal or maternal origin comprises using a comparison to determine whether the sample nucleic acid molecule is of fetal origin;
方法。Method.
請求項2記載の方法であって、前記修飾がメチル化であり、前記方法がさらに: 3. The method of claim 2, wherein said modification is methylation, said method further comprising:
複数の試料核酸分子の各試料核酸分子を、ゲノムの領域に整列するものとして同定すること; identifying each sample nucleic acid molecule of the plurality of sample nucleic acid molecules as aligned with a region of the genome;
前記モデルを使用して、前記修飾が前記複数の試料核酸分子の各試料核酸分子の1つ以上のヌクレオチドに存在するかどうかについてメチル化状態を決定すること; using said model to determine the methylation status of whether said modification is present at one or more nucleotides of each sample nucleic acid molecule of said plurality of sample nucleic acid molecules;
前記複数の試料核酸分子の前記1つ以上のヌクレオチドの複数のメチル化状態を使用して、前記ゲノムの領域のメチル化レベルを決定すること;及び determining the methylation level of the region of the genome using the plurality of methylation states of the one or more nucleotides of the plurality of sample nucleic acid molecules; and
前記メチル化レベルを使用して、コピー数異常が前記ゲノムの領域に存在するかどうかを決定すること、 using said methylation level to determine whether a copy number abnormality is present in said region of said genome;
を含む、方法。A method, including
前記領域のメチル化レベルを参照レベルと比較することをさらに含み、ここでコピー数異常が前記ゲノムの領域に存在するかどうかを決定することが、比較を使用することを含む、請求項16に記載の方法。 17. The method of claim 16, further comprising comparing the methylation level of said region to a reference level, wherein determining whether a copy number abnormality is present in said region of the genome comprises using the comparison. described method. 前記参照レベルが、同じタイプのコピー数異常のない領域を使用して決定される、請求項17に記載の方法。 18. The method of claim 17, wherein the reference level is determined using regions without copy number aberrations of the same type. 請求項16~18のいずれか一項に記載の方法であって、前記領域が染色体であり、前記対象が胎児を妊娠している女性対象であり、前記方法は、さらに: 19. The method of any one of claims 16-18, wherein the region is a chromosome and the subject is a female subject pregnant with a fetus, the method further comprising:
コピー数異常が存在することを決定すること、及び determining that a copy number abnormality is present; and
前記胎児が染色体異数性を有することを決定すること、 determining that the fetus has a chromosomal aneuploidy;
を含む、方法。A method, including
前記複数の試料核酸分子の各試料核酸分子が、カットオフサイズよりも大きいサイズを有する、請求項2~19のいずれか1項に記載の方法。 20. The method of any one of claims 2-19 , wherein each sample nucleic acid molecule of said plurality of sample nucleic acid molecules has a size greater than a cutoff size. 前記ウィンドウ内の前記ヌクレオチドが、循環コンセンサス配列を使用して、前記配列決定されたヌクレオチドを参照ゲノムに整列させることなく決定される、1~12のいずれか1項に記載の方法。 13. The method of any one of claims 1-12, wherein the nucleotides within the window are determined using a circular consensus sequence without aligning the sequenced nucleotides to a reference genome. 前記ウィンドウ内のヌクレオチドが、循環コンセンサス配列を使用することなく、かつ前記配列決定されたヌクレオチドを参照ゲノムに整列させることなく決定される、請求項1~12のいずれか1項に記載の方法。 13. The method of any one of claims 1-12, wherein the nucleotides within the window are determined without using circular consensus sequences and without aligning the sequenced nucleotides to a reference genome. 前記複数の試料核酸分子が、複数のゲノム領域に整列し、
前記複数のゲノム領域の各ゲノム領域について
いくつかの試料核酸分子が、前記ゲノム領域に整列され、
試料核酸分子の数がカットオフ数よりも大きい、請求項2~12のいずれか1項に記載の方法。
the plurality of sample nucleic acid molecules are aligned to a plurality of genomic regions;
for each genomic region of said plurality of genomic regions a number of sample nucleic acid molecules are aligned with said genomic region;
A method according to any one of claims 2 to 12 , wherein the number of sample nucleic acid molecules is greater than the cutoff number.
前記モデルには、機械学習モデル、主成分分析、畳み込みニューラルネットワーク、またはロジスティック回帰が含まれる、請求項1~23のいずれか1項に記載の方法。 The method of any one of claims 1-23 , wherein the model comprises a machine learning model, principal component analysis, convolutional neural network, or logistic regression. 前記入力データ構造に対応するヌクレオチドの前記ウィンドウは、前記試料核酸分子の第1の鎖上のヌクレオチドおよび前記試料核酸分子の第2の鎖上のヌクレオチドを含み、
前記入力データ構造は、前記ウィンドウ内の各ヌクレオチドについて、鎖特性の値をさらに含み、前記鎖特性は、前記ヌクレオチドが前記第1の鎖または前記第2の鎖のいずれかに存在することを示す、請求項1~24のいずれか1項に記載の方法。
said window of nucleotides corresponding to said input data structure comprises nucleotides on a first strand of said sample nucleic acid molecule and nucleotides on a second strand of said sample nucleic acid molecule;
The input data structure further includes, for each nucleotide within the window, a strand characteristic value, the strand characteristic indicating that the nucleotide is present on either the first strand or the second strand. The method according to any one of claims 1 to 24 .
前記試料核酸分子が、環状DNA分子であり、
Cas9複合体を使用して二本鎖DNA分子を切断して、切断された二本鎖DNA分子を形成し、
前記切断された二本鎖DNA分子の末端にヘアピンアダプターを連結すること、によって形成される、請求項25に記載の方法。
the sample nucleic acid molecule is a circular DNA molecule;
cleaving the double-stranded DNA molecule using the Cas9 complex to form a cleaved double-stranded DNA molecule;
26. The method of claim 25 formed by ligating hairpin adapters to the ends of the cleaved double-stranded DNA molecules.
前記ウィンドウ内の各ヌクレオチドが、濃縮またはフィルタリングされる、請求項1~26のいずれか1項に記載の方法。 A method according to any one of claims 1 to 26 , wherein each nucleotide within said window is enriched or filtered. 前記ウィンドウ内の各ヌクレオチドが、
Cas9複合体を使用して二本鎖DNA分子を切断して、切断された二本鎖DNA分子を形成し、前記切断された二本鎖DNA分子の末端にヘアピンアダプターを連結することによって濃縮されるか、または
サイズ範囲のサイズを有する二本鎖DNA分子を選択することによってフィルタリングされる、請求項27に記載の方法。
Each nucleotide in said window is
Cleaving a double-stranded DNA molecule using a Cas9 complex to form a cleaved double-stranded DNA molecule, enriched by ligating hairpin adapters to the ends of said cleaved double-stranded DNA molecule or filtered by selecting double - stranded DNA molecules having sizes in a size range.
前記光信号は、色素標識ヌクレオチドからの蛍光信号である、請求項1~28のいずれか1項に記載の方法。 The method of any one of claims 1-28 , wherein the optical signal is a fluorescent signal from a dye-labeled nucleotide. 前記第1の複数の第1のデータ構造に関連する各ウィンドウは、各第1の核酸分子の第1の鎖上の少なくとも4つの連続したヌクレオチドを含む、請求項1~29のいずれか1項に記載の方法。 30. Any one of claims 1-29 , wherein each window associated with said first plurality of first data structures comprises at least 4 contiguous nucleotides on the first strand of each first nucleic acid molecule. The method described in . 請求項1に記載の方法であって、メチル化の存在を使用して、前記試料核酸分子の組織起源を検出するか、またはキメラおよびハイブリッドDNAを特定することをさらに含み、前記試料核酸分子が前記対象から得られる、方法。 2. The method of claim 1, further comprising using the presence of methylation to detect the tissue origin of said sample nucleic acid molecules or to identify chimeric and hybrid DNA, wherein said sample nucleic acid molecules are A method obtained from said subject. 前記複数の第1の核酸分子のうちの少なくともいくつかは、各々、第1の参照配列に対応する第1の箇所と、前記第1の参照配列とは異なる第2の参照配列に対応する第2の箇所とを含む、請求項1~31のいずれか1項に記載の方法。 At least some of the plurality of first nucleic acid molecules each have a first location corresponding to a first reference sequence and a second location corresponding to a second reference sequence different from the first reference sequence. 32. The method of any one of claims 1-31, comprising two locations. 複数のキメラ核酸分子を使用して前記モデルを検証することをさらに含み、各々が、第1の参照配列に対応する第1の箇所と、第2の参照配列に対応する第2の箇所とを含み、前記第1の箇所が第1のメチル化パターンを有し、前記第2の箇所が第2のメチル化パターンを有する、請求項1~32のいずれか1項に記載の方法。 further comprising validating the model using a plurality of chimeric nucleic acid molecules, each having a first location corresponding to the first reference sequence and a second location corresponding to the second reference sequence; 33. The method of any one of claims 1-32, comprising: said first location having a first methylation pattern and said second location having a second methylation pattern. 前記第1の箇所は、メチラーゼで処理される、請求項32または請求項33に記載の方法。 34. The method of claim 32 or claim 33, wherein said first location is treated with a methylase. 前記第2の箇所は、前記第2の参照配列の非メチル化箇所に対応する、請求項34に記載の方法。 35. The method of claim 34, wherein said second location corresponds to an unmethylated location of said second reference sequence. 前記第1の参照配列は、ヒトであり、前記第2の参照配列は、異なる動物に由来する、請求項32または請求項33に記載の方法。 34. The method of claim 32 or claim 33, wherein the first reference sequence is human and the second reference sequence is from a different animal. 前記ウィンドウが、前記ウィンドウ内の標的位置の少なくとも3ヌクレオチド上流を含む、請求項1~36のいずれか1項に記載の方法。 37. The method of any one of claims 1-36, wherein said window comprises at least 3 nucleotides upstream of the target position within said window. 前記試料核酸分子の配列決定をさらに含む、請求項1~30のいずれか1項に記載の方法。 The method of any one of claims 1-30, further comprising sequencing said sample nucleic acid molecules. 試料核酸分子の配列決定が、前記試料核酸分子中のヌクレオチドに対応する光信号のパルスを測定することを含む、請求項38に記載の方法。 39. The method of claim 38, wherein sequencing sample nucleic acid molecules comprises measuring pulses of light signals corresponding to nucleotides in said sample nucleic acid molecules. コンピュータシステムによって実行されると、前記コンピュータシステムに請求項1~30のいずれか1項に記載の方法を実行させる複数の命令を格納するコンピュータ可読媒体。 A computer readable medium storing a plurality of instructions when executed by a computer system that causes the computer system to perform the method of any one of claims 1-30. 少なくとも1つの記憶装置; at least one storage device;
少なくとも1つの記憶装置に記憶された複数の命令;及び a plurality of instructions stored in at least one storage device; and
請求項1~30のいずれか1項に記載の方法を実行するために、複数の命令の少なくともいくつかによってプログラムされた少なくとも1つのプロセッサ At least one processor programmed with at least some of a plurality of instructions to perform the method of any one of claims 1-30
を含む、コンピュータシステム。computer system, including;
JP2021514525A 2019-08-16 2020-08-17 Determination of base modifications of nucleic acids Active JP7264534B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023062223A JP7369492B2 (en) 2019-08-16 2023-04-06 Determination of base modifications of nucleic acids
JP2023174256A JP7462993B2 (en) 2019-08-16 2023-10-06 Determination of nucleic acid base modifications

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201962887987P 2019-08-16 2019-08-16
US62/887,987 2019-08-16
US202062970586P 2020-02-05 2020-02-05
US62/970,586 2020-02-05
US202062991891P 2020-03-19 2020-03-19
US62/991,891 2020-03-19
US202063019790P 2020-05-04 2020-05-04
US63/019,790 2020-05-04
US202063051210P 2020-07-13 2020-07-13
US63/051,210 2020-07-13
PCT/CN2020/109602 WO2021032060A1 (en) 2019-08-16 2020-08-17 Determination of base modifications of nucleic acids

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023062223A Division JP7369492B2 (en) 2019-08-16 2023-04-06 Determination of base modifications of nucleic acids

Publications (3)

Publication Number Publication Date
JP2022540966A JP2022540966A (en) 2022-09-21
JPWO2021032060A5 JPWO2021032060A5 (en) 2023-02-07
JP7264534B2 true JP7264534B2 (en) 2023-04-25

Family

ID=74567577

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2021514525A Active JP7264534B2 (en) 2019-08-16 2020-08-17 Determination of base modifications of nucleic acids
JP2023062223A Active JP7369492B2 (en) 2019-08-16 2023-04-06 Determination of base modifications of nucleic acids
JP2023174256A Active JP7462993B2 (en) 2019-08-16 2023-10-06 Determination of nucleic acid base modifications

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2023062223A Active JP7369492B2 (en) 2019-08-16 2023-04-06 Determination of base modifications of nucleic acids
JP2023174256A Active JP7462993B2 (en) 2019-08-16 2023-10-06 Determination of nucleic acid base modifications

Country Status (18)

Country Link
US (4) US11091794B2 (en)
EP (2) EP4357461A2 (en)
JP (3) JP7264534B2 (en)
KR (3) KR102427319B1 (en)
CN (5) CN116875669A (en)
AU (4) AU2020323958B2 (en)
BR (2) BR122021009560B1 (en)
CA (1) CA3110884A1 (en)
DK (1) DK3827092T3 (en)
GB (13) GB2600650B (en)
IL (3) IL280270B (en)
MX (3) MX2021000931A (en)
NZ (6) NZ796185A (en)
PH (1) PH12021550223A1 (en)
SG (1) SG11202101070QA (en)
TW (3) TWI752593B (en)
WO (1) WO2021032060A1 (en)
ZA (1) ZA202100887B (en)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230148447A9 (en) 2008-12-11 2023-05-11 Pacific Biosciences Of California, Inc. Classification of nucleic acid templates
NZ796185A (en) 2019-08-16 2024-01-26 Univ Hong Kong Chinese Determination of base modifications of nucleic acids
CN113122616A (en) * 2019-12-30 2021-07-16 财团法人工业技术研究院 Method for amplifying and determining target nucleotide sequence
US20220237502A1 (en) * 2021-01-25 2022-07-28 Paypal, Inc. Systems and methods for training and modifying a computer-based model to perform classification
EP4323539A1 (en) * 2021-04-12 2024-02-21 The Chinese University of Hong Kong Base modification analysis using electrical signals
CN113409885B (en) * 2021-06-21 2022-09-20 天津金域医学检验实验室有限公司 Automatic data processing and mapping method and system
CN113981548B (en) * 2021-11-24 2023-07-11 竹石生物科技(苏州)有限公司 Preparation method of DNA methylation sequencing library and methylation detection method
WO2023183907A2 (en) * 2022-03-25 2023-09-28 The Penn State Research Foundation Analysis of genomic word frameworks on genomic methylation data
WO2023225004A1 (en) * 2022-05-16 2023-11-23 Bioscreening & Diagnostics Llc Prediction of alzheimer's disease
WO2024015138A1 (en) * 2022-07-15 2024-01-18 Massachusetts Institute Of Technology Mixture deconvolution method for identifying dna profiles
WO2024081649A1 (en) * 2022-10-11 2024-04-18 Illumina, Inc. Detecting and correcting methylation values from methylation sequencing assays
CN116168761B (en) * 2023-04-18 2023-06-30 珠海圣美生物诊断技术有限公司 Method and device for determining characteristic region of nucleic acid sequence, electronic equipment and storage medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100221716A1 (en) 2008-12-11 2010-09-02 Pacific Biosciences Of California, Inc. Classification of Nucleic Acid Templates

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002214811B2 (en) * 2000-11-13 2004-09-09 Human Genetic Signatures Pty Ltd Detection of methylated DNA molecules
AU2003900368A0 (en) * 2003-01-24 2003-02-13 Human Genetic Signatures Pty Ltd Assay for nucleic acid molecules
EP1668148B1 (en) * 2003-09-04 2008-12-31 Human Genetic Signatures PTY Ltd. Nucleic acid detection assay
CN103902809B (en) 2007-07-23 2017-11-28 香港中文大学 Determine that nucleotide sequence is unbalance using multiple labels
US8530164B2 (en) * 2008-09-05 2013-09-10 Pacific Biosciences Of California, Inc. Method for sequencing using branching fraction of incorporatable nucleotides
US8486630B2 (en) * 2008-11-07 2013-07-16 Industrial Technology Research Institute Methods for accurate sequence data and modified base position determination
US9175338B2 (en) 2008-12-11 2015-11-03 Pacific Biosciences Of California, Inc. Methods for identifying nucleic acid modifications
RS58879B1 (en) 2009-11-05 2019-08-30 Univ Hong Kong Chinese Fetal genomic analysis from a maternal biological sample
EP2675913B1 (en) 2011-02-15 2016-12-14 Bio-Rad Laboratories, Inc. Detecting methylation in a subpopulation of genomic dna
US9016970B2 (en) * 2011-06-08 2015-04-28 United States Postal Service Elastomeric force mitigating joint
US9238836B2 (en) 2012-03-30 2016-01-19 Pacific Biosciences Of California, Inc. Methods and compositions for sequencing modified nucleic acids
US9175348B2 (en) 2012-04-24 2015-11-03 Pacific Biosciences Of California, Inc. Identification of 5-methyl-C in nucleic acid templates
US20150094210A1 (en) * 2012-05-14 2015-04-02 Bgi Diagnosis Co., Ltd. Method, system and computer readable medium for determining base information in predetermined area of fetus genome
GB2517875A (en) 2012-06-08 2015-03-04 Pacific Biosciences California Modified base detection with nanopore sequencing
JP2015522260A (en) * 2012-06-15 2015-08-06 ハリー スティリ, Method for detecting a disease or condition
WO2014153757A1 (en) * 2013-03-28 2014-10-02 深圳华大基因研究院 Method, system, and computer readable medium for determining base information of predetermined area in fetal genome
US10468121B2 (en) 2013-10-01 2019-11-05 Complete Genomics, Inc. Phasing and linking processes to identify variations in a genome
JP6680680B2 (en) 2013-10-07 2020-04-15 セクエノム, インコーポレイテッド Methods and processes for non-invasive assessment of chromosomal alterations
TWI703216B (en) 2014-07-18 2020-09-01 香港中文大學 Methylation pattern analysis of tissues in a dna mixture
TWI798718B (en) * 2015-07-20 2023-04-11 香港中文大學 Methylation pattern analysis of haplotypes in tissues in a dna mixture
US10465232B1 (en) 2015-10-08 2019-11-05 Trace Genomics, Inc. Methods for quantifying efficiency of nucleic acid extraction and detection
NZ796185A (en) 2019-08-16 2024-01-26 Univ Hong Kong Chinese Determination of base modifications of nucleic acids

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100221716A1 (en) 2008-12-11 2010-09-02 Pacific Biosciences Of California, Inc. Classification of Nucleic Acid Templates

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ChemBioChem,2010年,Vol.11, pp.2499-2501,<DOI: 10.1002/cbic.201000569>
Nature Methods,2010年,Vol.7, No.6, pp.461-465,(Author manuscript (19 pages)),<doi:10.1038/nmeth.1459.>

Also Published As

Publication number Publication date
IL302199B1 (en) 2024-02-01
CN112752853B (en) 2023-06-30
JP2023098964A (en) 2023-07-11
TW202214872A (en) 2022-04-16
TW202321463A (en) 2023-06-01
MX2021000931A (en) 2022-02-10
GB2619466A (en) 2023-12-06
GB2600649A (en) 2022-05-04
ZA202100887B (en) 2022-09-28
GB202306697D0 (en) 2023-06-21
CN116855595A (en) 2023-10-10
TWI783820B (en) 2022-11-11
CN116694745A (en) 2023-09-05
JP7462993B2 (en) 2024-04-08
NZ786185A (en) 2022-08-26
JP7369492B2 (en) 2023-10-26
AU2022202791C1 (en) 2022-11-03
EP3827092A4 (en) 2021-11-24
GB2620315A (en) 2024-01-03
CN116875669A (en) 2023-10-13
NZ788335A (en) 2023-02-24
GB2609830A (en) 2023-02-15
NZ786186A (en) 2022-08-26
MX2022001470A (en) 2022-02-22
US20210363571A1 (en) 2021-11-25
EP3827092A1 (en) 2021-06-02
AU2022202791A1 (en) 2022-05-19
JP2022540966A (en) 2022-09-21
GB2606945A (en) 2022-11-23
GB2606945B (en) 2023-06-28
IL302199A (en) 2023-06-01
AU2020323958A1 (en) 2021-03-04
IL294153B2 (en) 2023-09-01
GB202201821D0 (en) 2022-03-30
IL280270A (en) 2021-03-01
GB2620069A (en) 2023-12-27
GB2590032A (en) 2021-06-16
GB2590854A (en) 2021-07-07
EP4357461A2 (en) 2024-04-24
GB2608713A (en) 2023-01-11
KR20220109494A (en) 2022-08-04
GB2590032B (en) 2021-12-08
GB2619217A (en) 2023-11-29
GB2609830B (en) 2023-10-25
US11466308B2 (en) 2022-10-11
CN112752853A (en) 2021-05-04
NZ796695A (en) 2024-02-23
AU2022231719A1 (en) 2022-10-06
TW202212569A (en) 2022-04-01
AU2022231719B9 (en) 2023-05-18
TW202124728A (en) 2021-07-01
GB202210633D0 (en) 2022-08-31
AU2020323958B2 (en) 2022-02-03
BR122021009560B1 (en) 2023-11-28
NZ784999A (en) 2022-08-26
US11091794B2 (en) 2021-08-17
GB202102808D0 (en) 2021-04-14
GB202313739D0 (en) 2023-10-25
CN116694746A (en) 2023-09-05
DK3827092T3 (en) 2024-04-22
GB202210631D0 (en) 2022-08-31
AU2022202791B2 (en) 2022-06-16
TWI752593B (en) 2022-01-11
AU2023210593B2 (en) 2024-03-21
GB2600649A8 (en) 2022-05-25
KR20220109492A (en) 2022-08-04
KR20220109493A (en) 2022-08-04
GB202314385D0 (en) 2023-11-01
IL294153B1 (en) 2023-05-01
TW202330935A (en) 2023-08-01
US20210047679A1 (en) 2021-02-18
NZ772327A (en) 2022-03-25
IL294153A (en) 2022-08-01
GB2615272A (en) 2023-08-02
SG11202101070QA (en) 2021-03-30
GB2600649B (en) 2023-01-25
GB202103003D0 (en) 2021-04-14
MX2022001469A (en) 2022-02-22
CA3110884A1 (en) 2021-02-25
US20240018570A1 (en) 2024-01-18
US20230193360A1 (en) 2023-06-22
AU2022231719B2 (en) 2023-05-04
WO2021032060A1 (en) 2021-02-25
GB2590573B (en) 2021-12-22
GB202216178D0 (en) 2022-12-14
GB2615272B (en) 2024-03-20
KR20210068396A (en) 2021-06-09
AU2023210593A1 (en) 2023-08-24
PH12021550223A1 (en) 2021-10-11
BR122021009560A2 (en) 2022-04-19
BR112021003815A2 (en) 2022-03-29
IL280270B (en) 2022-07-01
KR102427319B1 (en) 2022-08-01
GB2600650A (en) 2022-05-04
JP2024001198A (en) 2024-01-09
TWI783821B (en) 2022-11-11
GB2608713B (en) 2023-09-06
GB202103010D0 (en) 2021-04-14
EP3827092B1 (en) 2024-01-31
GB2590854B (en) 2022-03-30
GB202201811D0 (en) 2022-03-30
GB2590573A (en) 2021-06-30
NZ796185A (en) 2024-01-26
GB2600650B (en) 2022-12-28

Similar Documents

Publication Publication Date Title
JP7264534B2 (en) Determination of base modifications of nucleic acids
TWI832483B (en) Determination of base modifications of nucleic acids
TWI832482B (en) Determination of base modifications of nucleic acids
KR102658592B1 (en) Determination of base modifications of nucleic acids

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210518

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210518

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221026

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20230126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230406

R150 Certificate of patent or registration of utility model

Ref document number: 7264534

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150