CN112534067A - 用于分配起源组织的无细胞核酸样品的羟甲基化分析及相关使用方法 - Google Patents

用于分配起源组织的无细胞核酸样品的羟甲基化分析及相关使用方法 Download PDF

Info

Publication number
CN112534067A
CN112534067A CN201980051852.4A CN201980051852A CN112534067A CN 112534067 A CN112534067 A CN 112534067A CN 201980051852 A CN201980051852 A CN 201980051852A CN 112534067 A CN112534067 A CN 112534067A
Authority
CN
China
Prior art keywords
hydroxymethylation
tissue
dna
cell
profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980051852.4A
Other languages
English (en)
Inventor
C-J.顾
F.科林
P.A.阿伦斯多夫
S.莱维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bluestar Genomics Inc
Original Assignee
Bluestar Genomics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bluestar Genomics Inc filed Critical Bluestar Genomics Inc
Publication of CN112534067A publication Critical patent/CN112534067A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/164Methylation detection other then bisulfite or methylation sensitive restriction endonucleases
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/166Oligonucleotides used as internal standards, controls or normalisation probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/172Haplotypes

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)

Abstract

提供了用于对样品中的核酸,例如获自人类受试者的无细胞流体样品中的DNA概率性分配起源组织的方法。为样品DNA生成羟甲基化概况,然后在羟甲基化概况向量的参考数据集中进行比较,其中每个羟甲基化概况向量鉴定在特定参考基因座处的羟甲基化概况,与该参照基因座相关的组织特异性基因以及与基因和参考基因座相关的组织。可以使用比较结果对样品核酸概率性分配起源组织。还提供了其他使用方法。

Description

用于分配起源组织的无细胞核酸样品的羟甲基化分析及相关 使用方法
技术领域
本发明总体上涉及生物技术,并且更具体地涉及无细胞DNA的表观遗传学分析的应用。本发明可用于基因组学、医学、诊断学和表观遗传学研究领域。
背景技术
在与医学有关的许多领域,例如诊断学、治疗学和患者监测中,持续需要更精确的分析生物样品并从那些分析中提取有用的信息的方法,准确性和效率的目标常常是竞争的。分析方法应适用于高速处理和自动化,快速且经济高效地产生必要的结果,并提供高灵敏度和特异性。此外,通过分析方法提供的信息应发挥最大作用。例如,在用于分析患者DNA的方法中,如果该方法能够快速提供足以诊断病理状态存在的信息,则它将是理想的。
最近,表观遗传学(epigenetics)领域的研究人员提出了一种测试,其中使用患者DNA的甲基化状态来确定DNA源自特定组织或器官的可能性。参见,例如,Sun et al.(2015)Proc.Natl.Acad.Sci.112(40):E5503-E5512,其描述了使用全基因组范围的亚硫酸氢盐测序来生成各种组织的甲基化概况(methylation profile),和Kang et al.(2017)GenomeBiology 18:53,其描述了使用DNA甲基化模式来鉴定肿瘤来源的DNA的起源组织(tissueof origin)。
无细胞DNA分析是一种相对较新的现象,具有无创性的优势,无需手术即可进行患者样品评估。然而,无细胞DNA分析也提出了独特的挑战,特别是因为无细胞DNA样品非常小且每毫升血浆中通常仅包含几纳克DNA。当将无细胞DNA与表观遗传分析结合使用时,问题更加复杂,其中,需要检测相对罕见的DNA修饰,例如5-甲基胞嘧啶和甚至更稀有的5-羟甲基胞嘧啶。
因此,在本领域中存在对适用于无细胞DNA的表观遗传学分析方法的持续需求,其中所提供的信息包括特定基因体(gene body)或其片段的起源组织或器官。
发明内容
随着表观遗传学领域的进展,已经证明稀有的DNA修饰5-羟甲基胞嘧啶(5hmC)的检测与甲基化类似物即5-甲基胞嘧啶的检测潜在同样重要:
Figure BDA0002931492790000021
取决于组织类型,5hmC的发生频率比5mC的发生频率低得多,比率通常约为10:1(参见Nestor et al.(2012)Genome Biology 13:R84),其中5mC占所有DNA碱基的大约1%。亚硫酸氢盐测序不能区分5mC和5hmC,因此,需要其他方法单独检测5mC和5hmC残基。由于5hmC出现频率远低于5mC,因此检测5hmC的任何方法都需要展现出相对于鉴定的所有5hmC残基的级份而言的高效率,以及高选择性,这意味着实质上所有鉴定为5hmC的残基都应实际上是5hmC残基。尽管已经确定5hmC参与了多种过程,包括转录,DNA去甲基化,以及在异常5hmC模式的情况下参与肿瘤发生,但5hmC的分子功能才刚刚开始被理解。参见Tahilianiet al.(2009)Science 324(5929):930-035(2009);Guo et al.(2011)Cell 145:423-434;Wu et al.(2011)Genes&Development 25:679-684;Ko et al.(2010)Nature 468:839-843;和Robertson et al.(2011)Biochem.Biophys.Res.Comm.411(1):40-3。还已知5hmC是稳定的DNA修饰,是由10-11易位(Ten-Eleven Translocation,TET)酶(例如TET1)催化5mC氧化而形成的。
本发明基于使用5-羟甲基化(“羟甲基化”)概况对样品中的核酸,通常是获自人类受试者的样品流体中的DNA概率性分配起源组织。该方法涉及将针对样品核酸生成的羟甲基化概况与参考数据集进行比较,所述参考数据集包括在多个参考基因座中的每个的参考羟甲基化概况,其中每个参考基因座包含在与组织特异性基因相关的基因组区域内。前述基因座有时在本文中被称为“生物标志物基因座”,“羟甲基化生物标志物基因座”或“羟甲基化生物标志物”。
如刚刚指出的,羟甲基化状态进行确定的基因座是羟甲基化生物标志物基因座,每个包含在与特定组织相关的基因组区域内,具有不同程度的相关性(或特异性)。也就是说,尽管某些基因在所有细胞中都具有相似的羟甲基化模式(即持家基因),但其他基因在人体各个组织中均具有差异表现(differentially represented)的羟甲基化模式,并且与这些“差异表现的”(DR)基因相关的参考基因座是本文的主要兴趣。其原因是,与在特定组织中高度表现的基因相关的羟甲基化模式在组织确定中最有用。
在一些实施方案中,参考基因座与DR基因相关,在DR基因中基因表达水平也对特定组织具有特异性,即,也“差异表达”(DE)的差异表现的基因。
参考数据集中的信息为多个羟甲基化向量(vector)的形式,每个羟甲基化向量至少鉴定以下项:特定参考基因座处的羟甲基化状态;与参考基因座相关的组织特异性基因;以及与基因和参考基因座相关的组织。因此,本发明涉及如下分析样品中的核酸,首先生成其羟甲基化概况,然后评估组成参考数据集的整个大羟甲基组(hydroxymethylome)数据集的相似性。在参考数据集中羟甲基化向量间的样品羟甲基化概况的详细比较得出与组织类型有关的信息。该信息可以是核酸源自特定组织类型的概率,或者它可以是两种或更多种概率的形式,表明所分析的核酸起源自两种或更多种相应的不同组织类型。在对多个核酸进行分析的情况下,获自受试者的无细胞流体样品中的DNA片段就是如此,该信息可包括与所分析的DNA片段相对应的组织类型的总体比例的投射(projection)。
然后,在一个实施方案中,提供了一种对获自人类受试者的无细胞流体样品中的核酸概率性分配起源组织的方法,其包括:
(a)生成所述核酸的羟甲基化概况;
(b)将所述核酸的羟甲基化概况与参考数据集中的多个参考羟甲基化概况中的每个进行比较,每个参考羟甲基化概况对应于包含在与组织特异性基因相关的基因组区域内的参考基因座;
(c)鉴定至少一个参考基因座,其具有与(a)中检测到的羟甲基化概况实质相似的参考羟甲基化概况;和
(d)基于(c)中鉴定的所述至少一个参考基因座和相应的组织特异性基因,对所述核酸分配至少一种起源组织。
在实施方案的一方面,该方法包括对无细胞流体样品中的多个DNA片段中的每个概率性分配至少一种起源组织。
在该实施方案的另一方面,参考数据集含有与多个组织特异性基因相关的参考基因座的羟甲基化概况。
在实施方案的另一方面,每个参考基因座包含在与组织特异性基因相关的差异羟甲基化的基因组区域内。在一个或多个方面,差异羟甲基化区域就羟甲基化概况而言,例如就密度,模式等而言可以有所不同,并且通常与相应的组织特异性基因在功能上相关。
在实施方案的另一方面,至少一个参考基因座包含在基因体或其组分内。
在实施方案的另一个方面,至少一个参考基因座包含在基因外部的基因组注释特征内,例如,启动子,增强子,转录起始位点,转录终止位点或DNA结合位点诸如沉默区域(例如,STR或ERV区域)或转录因子结合位点,例如,转录阻遏物结合位点或转录增强子结合位点内。
在实施方案的又一方面,参考集中的参考基因座中的至少一个包含在CTCF结合位点内。
在实施方案的又一方面,参考羟甲基化概况包括与组织特异性基因相关的至少一个参考基因座的羟甲基化概况,其中所述组织特异性基因与人组织类型(或功能性,器官,解剖和相关细胞谱系类型分组,例如消化,脑和髓样或淋巴样来源的),包括:脂肪;肾上腺;膀胱;骨髓;脑;乳房;结肠;脑皮层;宫颈;子宫;消化系统;子宫内膜;附睾;食道;输卵管;胆囊;胃肠道;心肌;下丘脑;肾;肝;肺;淋巴结;卵巢;胰腺;甲状旁腺;胎盘;前列腺;唾液;精囊;骨骼肌;平滑肌;皮肤;脾;胃;睾丸;甲状腺;和扁桃体。
在实施方案的另一方面,每个参考基因座包含在差异表现的基因内,该基因包括AARD,ADARB1,AKR1B10,ANAPC7,APCDD1L-AS1,APOA1BP,CALHM2,CASC3,CLEC2L,COL4A5,CRYM-AS1,EPHA3,FAHD2B,FKBP9L,FOPNL,GNG11,GSN,GSTTP2,GTSF1,IAH1,KCNMB1,KIAA1644,LAMC1,LINC00310,LOC100506394,LOC100507066,LOC493754,MAP1B,MGC27382,MIR5695,NENF,NT5DC3,P2RX1,PCP4,PGM5,PLCD4,PTGFR,RBFOX3,RPL30,SCARA3,SLIT3,SNX29P1,SPATA4,ST8SIA1,TBX4,TXNRD1,VCL,VPS72,WFDC3,ZNF791,ADAMTS20,AFF2,ANKRD18B,ANKRD18DP,ANKRD20A5P,ANKRD20A8P,ANKRD26P1,ANKRD30BP2,ANKRD34B,ANKRD34C,ATP6V0B,AVPR1A,BLOC1S3,BOLL,BRIP1,C5orf63,CA1,CALB1,CALCR,CCDC39,CCDC96,CDCA5,CDH12,CDH9,CEACAM8,CENPE,CENPK,CFL1,CHAT,COMMD5,COMMD8,CRISP1,CRISP2,CSN1S1,CSN1S2AP,CT64,CXCR2,CXorf30,DAZL,DCDC1,DRGX,DSG1,DUT,DUX2,DUX4L2,DUX4L3,DYTN,EDA2R,EFCAB3,EPOR,EVX2,F13A1,FCAR,FCER1A,FKBP1B,FOXA2,GABPB1-AS1,GABRA1,GABRA4,GABRG1,GALNTL6,GFER,GFI1,GPR152,GPR158-AS1,GPRC6A,GRM1,GRP,GRXCR1,GYPA,HAGHL,HCRTR2,HEPHL1,HJURP,HK3,HMBS,HORMAD2,ID4,IL17RA,IL18RAP,KCNC2,KCNK18,KIF18A,KIF20B,KLHL1,LEF1-AS1,LHX1,LHX3,LHX8,LINC00273,LINC00558,LINC00645,LINC00648,LLPH,LOC100129620,LOC100270679,LOC100505776,LOC100506422,LOC284801,LOC392232,LOC399815,LOC401074,LOC401134,LOC440040,LOC440970,LOC642236,LOC727924,LOC728012,LPO,LRRIQ1,MAGEA11,MAGOHB,MEFV,MIF4GD,MIR548A3,MIR5692A1,MMP8,MMP9,MMRN1,MRGPRE,MS4A3,MSRB1,MYO3A,NCOR1P1,NDST3,NDST4,NHLRC4,NOXRED1,NPAP1,NUF2,OR8G1,OR8U8,ORC6,OSM,OTX2,PAX3,PBK,PCDH8,PDCL2,POTEA,PROK2,PRR7,RAB24,RAX,RBM46,RGS18,RGS19,RIMS2,RNF175,RRM2,SATB2-AS1,SCN11A,SCRT2,SERPINB10,SGOL2,SIX1,SKA3,SKOR1,SLC22A16,SLC4A10,SLC5A7,SLC5A8,SLCO6A1,SNAP91,SPAG16,SPATA16,SPDL1,SPINK13,STPG2,STXBP5L,TARM1,TDRD5,TEX15,THSD7B,TMPRSS11A,TMPRSS11B,TMPRSS11D,TRIM58,TUBB4B,UNC13C,USP6,VRK1,VSTM1,VWDE,WDR49,WFDC8,WFDC9,ZIC5,ZNF230,ZNF300P1,ZNF470,ZNF502,ZNF599,ZPBP,C1orf159,CCDC42B,CCDC8,CD248,CERCAM,CNTN2,CRB2,EVI5L,FZD9,HAPLN2,HPDL,LINC00575,LOC284950,LOC339666,LRIT1,PLEKHH1,SHISA2,SLC46A2,TFAP2E,TMEM235,TNFRSF18,ZFP36,,Colon UR:,,C1orf109,CACNA1F,COX7B,EFNB1,FGL2,FLJ34208,GNRH1,GSTT1,IL12A,KCND1,KDELR1,LAT,LOC100130992,LOC100287042,LOC401242,MRPL10,NT5C3B,PDZD4,PPYR1,RAD51D,RBMXL3,RENBP,SCNN1B,SERPINB5,SLC9A6,XBP1,ZNF189,ABR,ADPRHL1,ASB18,ATP1A3,CCDC74A,CDH13,CHRNA10,CORO6,FSD2,GALNT16,GDAP1L1,GJA3,GLUD1P3,GPRC5B,LOC100506343,LRRC37A6P,LRRC4,MUL1,MYOM2,NDUFB8,NT5DC2,PCDHGA1,PCDHGA10,PCDHGA11,PCDHGA12,PCDHGA2,PCDHGA3,PCDHGA4,PCDHGA5,PCDHGA6,PCDHGA7,PCDHGA8,PCDHGA9,PCDHGB1,PCDHGB2,PCDHGB3,PCDHGB4,PCDHGB5,PCDHGB6,PCDHGB7,PXDNL,RHPN1-AS1,RPL3L,SGCG,TIMM21,TNNT1,TOR4A,UBAC1,WDR37,ZNF12,ZNF213,ZNF550,ZNF843,ZNF844,AGAP6,ASTN1,BBS2,C18orf56,C19orf45,CINP,DGKI,DPY30,DROSHA,FAM169A,FAM66D,FONG,GALNT15,GDAP1,GHRH,GUSBP4,HIF1AN,IFIT1B,INTS2,JAKMIP2-AS1,KGFLP2,LINC00297,LINC00707,LOC100288069,LOC100507140,LPHN3,LYPD1,LZIC,MIR548T,MRAP,NTRK3,PDE6D,PPP1R17,PRSS54,PRSS55,PTPRA,RGS7,SNRNP35,SUGT1P1,UBE2Z,WDR47,WDYHV1,ZNF114,ZNF556,ZNF610,ABP1,AGPAT9,APH1B,ASAP2,ATP4B,ATP6V1A,BBOX1,BCRP3,C11orf63,C13orf35,C16orf96,C19orf21,CA12,CCDC64,COL4A3,CXCL14,CYS1,EIF4E2,EPB41L1,EVC,FIGNL2,FUT3,GALNT14,GLIS2,GUSBP11,HAVCR1,HOXC5,INADL,KATNA1,L2HGDH,LOC100130238,LOC100506305,LOC284100,LOC654433,LYG1,MORN4,MTNR1A,PAQR5,PARG,PAX2,PAX8,PLA2G15,POU5F1,PRKAB1,RNF113B,SENP8,SETD3,SLC22A2,SLC25A30,SLC9A3,SULT1C2,TBC1D7,TSPAN33,ABCB4,ABCC11,ABCC2,ABCG5,ABCG8,ACADSB,ACSM5,AGMO,AGXT2L1,AKR1C2,AKR1C4,AKR1D1,AMDHD1,APOB,APOH,APOM,AQP9,ARHGEF40,ASGR2,ASPG,ATP2B2,BCO2,BDH1,C3,C3P1,C5,C8A,C8B,C8orf74,CA5A,CABP2,CALR3,CD7,CDK10,CEACAM16,CES1,CFH,CFHR4,CHP1,CIDEB,CLPTM1L,CLRN3,CPN2,CREB3L3,CROCCP2,CYP2B6,CYP2C18,CYP2C19,CYP2C9,CYP2E1,CYP3A5,CYP7A1,DGAT2,DHODH,DPYS,DRG2,ECHS1,EDC4,EI24,ENO1,F13B,F2,F7,F9,FASN,FETUB,GCH1,GCKR,GDPD4,GFRA1,GHR,GLT1D1,GPAM,GSDMB,HAL,HAO1,HAPLN4,HPD,HPX,HYLS1,IGF2,IGF2-AS,IGFBP1,ISY1-RAB43,ITIH1,ITIH2,ITIH4,IVD,KLC4,LBP,LEFTY1,LIPG,LOC100288122,LOC284865,LPAL2,LRRC16B,MASP1,MGMT,MST1,MTTP,NAT9,NBR2,NELFE,NR1I2,NUP88,OSGIN1,PAH,PARD6A,PCSK9,PEX19,PGLYRP2,PHGDH,PHYH,PKLR,PLA2G12B,PLG,PNPLA3,POFUT1,POLR1E,PON1,PPL,PRAP1,PRKAG3,PROC,PUS3,RANBP10,RCE1,RND1,RNF123,RORC,RPUSD4,SAA2-SAA4,SCP2,SEC16B,SERPINA6,SERPINC1,SKIV2L,SLC13A5,SLC22A25,SLC25A20,SLC27A5,SLC30A10,SLCO1B3,SMLR1,SNAPC5,SPP2,SRD5A1,STAT2,STEAP3,SULT2A1,TFR2,THNSL2,TIAF1,TM6SF2,TMEM45A,TMPRSS6,TTC31,TTC38,UROC1,XYLB,ZCCHC9,ZSCAN22,ADAM9,ANKRD50,ARGLU1,ARL6,ARSJ,BMP5,BMPR2,BTG3,C1orf140,CALM2,CCDC102B,CCNL1,CCR5,CD36,CHN1,CLIC2,CPEB2,CRBN,CYP4Z2P,CYYR1,DACH1,DGKE,DGKH,DISP1,DOCK4,ETV1,EXOC1,FAM204A,FAT4,FGD5-AS1,FLJ34503,FRYL,GBP1P1,GNB4,GPR110,GPR116,HMCN1,HMGN1,IFI44,IL15,ITGA2,KAL1,KDR,KITLG,KLHL41,LDB2,LINC00032,LINC00240,LINC00551,LINC00657,LOC100131234,LOC100505495,LOC100507217,LOC643733,LPAR6,MGP,ODF2L,PEAK1,PKIA,PLEKHA1,PLEKHG7,PTPRB,QKI,RAD21,RALA,RAP2A,RCC1,SAMD12,SESTD1,SH3GLB1,SKAP2,SLC35A5,SMURF2,SPRED1,SRSF1,TCF4,TIGD4,TMEM207,TMOD3,UHMK1,VEGFC,XIST,YIPF5,ZC2HC1A,ZEB1,AKNA,ANKRD34A,C14orf183,CCDC107,CD180,CD3G,CD74,CDC42SE2,CHMP7,COTL1,CYTH1,FAIM3,FAM65B,GPX4,GSTP1,HLA-DMA,HLA-DOA,HLA-DPB1,HVCN1,ICAM2,ICOS,IL6,ITGB7,LOC100130557,MDM4,METTL21D,MGC16275,MIR548AN,NAPSB,RPL39L,RPS11,SEPT6,SH2D3C,TAP1,TEAD2,TMEM60,TNFRSF9,TRAF1,UBAC2,UCP2,WDR87,ACTA2,ADAMTS5,AQP11,ATP1B2,BICD1,C7,CDH3,CDON,COL14A1,HS3ST1,KLF4,LEMD1-AS1,LINC00672,LOC100129617,LOC339298,LRRC17,NDP,NTF3,OMD,PDGFRA,PGR,ROBO4,RWDD4,SCD5,SERPINE2,SLC25A17,SNCAIP,SYTL4,TENM4,TSPAN5,UBXN8,ZNF93,ALDH1L2,ANKEF1,ASUN,B3GALNT2,BBIP1,C6orf201,CASP9,CCDC110,CCDC65,CDK14,CELA2B,CELA3B,CFTR,CHMP4C,CHRNA7,CLCN3,CLDN1,CPA3,CUZD1,DNAJC10,DNAJC3,EIF2S1,EIF4EBP1,ERO1LB,FAIM,FAM160A1,FAM162A,FAM221A,FAM24B-CUZD1,GARS,GUCA1C,HSPA13,IFRD1,INTS6,KCTD16,LINC00339,LMAN1,LOC154092,LOC201651,LOC644838,LYPD6B,MAN1A2,MGC72080,MKNK1,MPP6,MSRB2,NAA16,NOMO2,OSTC,PEX7,PGRMC2,PIK3CB,PLA2G12A,PM20D1,PPP1R9A,PRRC1,PRSS3,RNPC3,SCFD1,SCRN3,SERPINI2,SH3YL1,SLC16A7,SLC33A1,SLC4A4,SORBS2,SRBD1,SSR1,TDH,TDP2,TMEM51-AS1,TMEM65,TRHDE,TRIM44,UGT2A3,UMOD,WDFY2,WHAMM,XPOT,ACER2,ADAM12,ADCY10,ADCY7,ADORA2B,AIM1L,AKNAD1,ALDH3B2,AMOT,ANGPT2,APOLD1,ATF3,ATG9B,ATP6V1C2,ATRIP,BCAR3,BCAR4,BEAN1,BPGM,BTBD19,C11orf70,C16orf46,C16orf74,C17orf98,C1QTNF6,C2orf62,C2orf83,C3orf52,C4orf26,C4orf51,C6orf99,C7orf71,C9orf129,CACNA2D3-AS1,CAPN6,CCDC125,CEP41,CLEC7A,CPA4,CSF3R,CTSL3P,CXorf56,CYP19A1,DACT2,DDX59,DLX3,DLX5,DLX6-AS1,DNMT1,DUSP4,EBI3,EDARADD,EPAS1,EPS8L1,ERVFRD-1,ERVMER34-1,ETV3,ETV4,EXTL1,EZR,FAM184A,FAM89A,FANCE,FBLN1,FBN2,FHDC1,FOLR1,GATA2,GATA3,GBA,GCM1,GDPD3,GLDN,GM2A,GPR156,GSG1,GSTA3,GSTA4,HELLS,HOPX,HSD11B2,HSPBAP1,IGF2BP3,IGSF5,ISM2,KATNBL1,KIAA1467,KIAA1609,KISS1,KLRG2,L1TD1,LCMT1,LCTL,LIN28B,LINC00439,LOC100131564,LOC100506746,LOC100527964,LOC151475,LOC152578,LOC284551,LOC643441,MB21D2,MED12,METTL21C,MFSD2B,MGC16121,MINA,MORC4,MSANTD3,MUTYH,NOS3,NVL,NXF1,OLR1,OSCP1,OSTCP1,P2RY6,PCBP1-AS1,PDE6A,PGC,PGF,PLA1A,PLAC4,PPP1R14D,PSG11,PSG2,PSG6,PSG7,PSG8,PTGES,PVRL3-AS1,PVRL4,PWWP2B,RAB36,RHO,RNF222,RPSAP58,RS1,SBF2-AS1,SCIN,SDC1,SEMA3F,SEMA6D,SEPT12,SH2D7,SH3GLB2,SLC13A4,SLC26A2,SLC2A1-AS1,SMAGP,SMARCB1,SMIM13,SNX12,SP6,SPESP1,SPIRE2,ST3GAL6-AS1,SVEP1,SYT8,TENM3,TLR3,TMEM216,TMEM218,TMEM52B,TMPRSS7,TP63,TPRXL,TRIM29,TRPV5,TUFT1,USHBP1,VAMP5,VGLL1,WBP2NL,XRCC2,ZDHHC1,ZNF320,ZNF331,ZNF354B,ZNF468,ZNF525,ZNF702P,ZNF90,ZP3,ZSWIM2,ZSWIM7,ABCC4,ACPP,ALDH1A2,ANKRD66,AP1B1P1,ARG2,BEND4,C1orf85,C6orf132,C6orf52,CHRNA2,COQ7,EVX1,EYA2,FLJ39080,GDEP,HMGN2P46,ISX,KLKP1,MCCC2,MEAF6,MFSD4,MRPS23,NCAPD3,OACYLP,OAZ3,OR51E2,PAK1IP1,PCAT1,PI15,PPP1R7,PSMA4,SCNN1G,SLC14A1,SLC26A3,SLC2A12,SLC30A4,SLC35F2,TMEM79,TPM3P9,TTC12,USP50,ZNF350,ZNF532,ZNF589,AKIP1,ARHGEF26-AS1,ATG4A,BOLA3,CHMP4A,DHH,EPPK1,FCHSD1,GADL1,GCC1,GIPC3,HIGD2B,HTR3C,LINC00654,LOC91948,OLFML3,PTGES3L,WSCD2,ZNF202,ZNF205-AS1,ZNF426,ACOT1,C12orf54,CREB3,DDN,FAM50A,FNDC4,GORASP1,GUCA1B,IMPDH2,LINC00284,LOC100128076,LOC100128682,LOC100131434,LRP10,LRRC55,LRRC73,NOTO,RNF112,RTBDN,SIGLEC8,TNN,TRIM50,UBE2T,ZNF391,ZNF792,ALX4,AQP2,ATAD3B,C11orf85,CABLES2,CCDC114,CCDC27,CCNF,CD300C,CILP,DES,DMRT1,DNAJB8-AS1,DRD4,EFCAB6-AS1,FAM153B,FAM163B,FGD2,HSD17B3,IFI27L1,IGFN1,ITPR3,KCNK15,KIFC2,KRT78,KRT82,LOC100506385,LOC283914,LOC284661,LOC399829,LOC653712,LOC728716,MAGED2,MYH16,MYLK2,NPTX2,PLK5,PMS2CL,PNPLA1,PODNL1,POLD1,PRMT8,PTPRVP,RD3,RIMS4,RNU6-81,RPL26L1,SALL4,SERPINA10,SPATA31E1,STAB1,SULT4A1,TCERG1L,TEKT4P2,THEG,TMEM130,TPO,UPK3B,WASH3P,WRAP53,ZNF280B或ZNF793。
在相关方面,每个参考基因座包含在差异表现的、差异表达的基因内,该基因包含AARD,ADARB1,AKR1B10,CRYM-AS1,EPHA3,GTSF1,KCNMB1,MAP1B,NT5DC3,P2RX1,PCP4,PGM5,PLCD4,PTGFR,RBFOX3,SCARA3,SLIT3,SNX29P1,ST8SIA1,TBX4,TXNRD1,VCL,WFDC3,ABCA13,AZU1,CA1,CEACAM8,CLEC6A,DAZL,DRGX,DYTN,ELANE,FCAR,GFI1,GYPA,HK3,IL18RAP,LINC00333,LINC00550,LINC00558,LIPN,LOC100129620,LOC442028,LPO,MEFV,MMP8,MMP9,MPO,MS4A3,MYB,MYO1F,NCOR1P1,NME8,OR8U8,OSCAR,PARPBP,PAX3,PDCL2,PRDM13,PROK2,RGS18,RGS21,RRM2,RXFP2,SERPINB10,SLC22A16,SPATA16,SPI1,SPTA1,TARM1,TMPRSS15,TRIM58,VSTM1,XKR3,ASPHD1,BRSK1,CCDC177,CNTN2,HAPLN2,KCNJ10,KIF1A,LGI3,NCAN,NR2E1,RHBDL3,TMEM151A,TMEM235,TMEM59L,ZNF488,FGL2,SCNN1B,ADPRHL1,ASB18,ATP1A3,CDH13,CORO6,FSD2,GALNT16,GJA3,MYOM2,PCDHGA1,PCDHGA10,PCDHGA11,PCDHGA12,PCDHGA2,PCDHGA3,PCDHGA4,PCDHGA5,PCDHGA6,PCDHGA7,PCDHGA8,PCDHGA9,PCDHGB1,PCDHGB2,PCDHGB3,PCDHGB5,PCDHGB6,PCDHGB7,PXDNL,RPL3L,SGCG,TNNT1,ASTN1,DGK1,BBOX1,BCRP3,CA12,COL4A3,CXCL14,CYS1,EVC,FIGNL2,GALNT14,GLIS2,HAVCR1,LOC100130238,PAQR5,PAX2,PAX8,PLA2G15,SLC22A2,SLC9A3,SULT1C2,TSPAN33,ABCC2,ABCG5,ABCG8,AHSG,AKR1C4,AMDHD1,APOH,ASGR1,ASGR2,C3P1,C8A,C8B,C9,CA5A,CFHR4,CPN2,CREB3L3,CYP2B6,CYP2C9,CYP2E1,CYP3A4,DHODH,F12,F2,F7,GC,HAL,HPD,HPX,INHBC,ITIH1,ITIH2,ITIH3,KNG1,LBP,PGLYRP2,PLG,PROC,PRODH2,SERPINA6,SERPINC1,SLC13A5,SLC22A1,SLC25A47,SLC27A5,SULT2A1,TFR2,TMPRSS6,UROC1,ANXA3,BMP5,CYP4Z2P,DRAM1,FMO2,GNA15,IDO1,KCNS3,LIMCH1,MBIP,PAPSS2,PCDH17,RSPH4A,RTKN2,TRPC6,ACAP1,AKNA,ARHGAP9,BCL11B,BIRC3,CARD11,CD180,CD37,CD3E,CD3G,CD40,CETP,CIITA,CLEC2D,CNR2,CXCR5,DOCK10,ETS1,GPR132,GPR18,ICAM2,ICOS,ITGB7,ITK,KIAA1551,KLHL6,LCK,LINC00426,LY86,MDS2,MEOX2,MX2,NAPSB,PATL2,PCED1B-AS1,PIK3CD,PLVAP,POU2F2,SCIMP,SCML4,SLFN12L,SMAP2,SP110,SPIB,TLR10,TMC8,TMEM156,TNFAIP8,TNFRSF9,TNFSF11,TRAF1,TRIM22,UCP2,ZC3H12D,ABCA10,ACSS3,ADAMTS5,AQP11,C7,CDH3,CDON,CLDN11,COL14A1,COLEC11,ESR2,FAM198B,FZD3,GALNT10,GLI2,GSTM5,HS3ST1,LEMD1-AS1,LHX9,LRRC17,MCHR1,MRC2,NTF3,OMD,PDGFRA,PGR,PKNOX2,PTCH2,RWDD4,SCD5,SERPINE2,SIMC1,SLC25A17,SNCAIP,SULF2,TENM4,TSPAN5,TTC8,UBXN8,ALDH1L2,ANKEF1,ASNS,B3GALNT2,BCAT1,CASP9,CCDC110,CELA2B,CELA3B,CFTR,CHMP4C,CLDN1,CNIH3,COCH,CUZD1,DEFB1,EGF,EIF4EBP1,ERP27,FAM24B-CUZD1,FBXW12,GUCA1C,KCTD16,KIAA1324,LINC00339,LNX2,MKNK1,NAA16,NPHS1,PAIP2B,PM20D1,PRSS3,SCGN,SEL1L,SERPINI2,SH3YL1,SLC33A1,SLC4A4,TC2N,TDH,TMEM51-AS1,TRHDE,UMOD,ADAM12,ATG9B,ATP6V1C2,BCAR4,BMP1,BPGM,CSF3R,CYP11A1,CYP19A1,DACT2,DEPDC1B,DLX5,EBI3,GCM1,GPR78,GSTA3,IGF2BP3,IGSF5,ISM2,KISS1,KRT23,LIN28B,MMP11,PGF,PSG11,PSG2,PSG3,PSG6,PSG7,PSG8,SPTLC3,TPRXL,ZFAT,ZNF554,ABCC4,ACPP,ALOX15B,ANO7,AP1B1P1,ARG2,BEND4,C6orf132,C6orf52,CANT1,CASZ1,CBFA2T2,CHRM1,CHRNA2,COL26A1,EVX1,EYA2,FAM135A,HMGN2P46,KLK2,KLKP1,MME,MPPED2,MUC12,NANS,NCAPD3,NEFH,NIPAL3,OACYLP,OR51E2,PAK1IP1,PDE9A,PI15,PMEPA1,POTEF,RDH11,SCNN1G,SIM2,SLC14A1,SLC22A3,SLC2A12,SLC30A4,SLC35F2,SLC37A1,SLC39A6,SPDEF,STEAP2,THSD4,TMEM79,TPM3P9,TXNDC16,URB1,VIPR1,ZNF350,ZNF532,ZNF613,ZNF649,ZNF761,ZNF827,GADL1,GIPC3,PTGES3L,WSCD2,CCDC27,DMRT1,DNAJC5G,FBXO24,IGLL1,MOV10L1,SEPT14,THEG或TTC16。
在实施方案的一个相关方面,对于多种人类组织类型中的每种,参考集中的多个参考羟甲基化概况包括与人体组织类型相关的多个组织特异性基因的每个中的至少一个参考基因座。
如上所述,核酸样品的生成的羟甲基化概况和参考羟甲基化概况通常包括羟甲基化密度,其中羟甲基化密度可以计算为5hmC残基与总胞嘧啶的比率,所述总胞嘧啶包括经修饰的和未修饰的胞嘧啶两者。进行的比较可以集中在检测到的5hmC密度与参考5hmC密度之间的相似性程度。当检测到的5hmC密度与一个或多个组织特异性基因座处的参考5hmC密度足够相似时(如使用本领域技术人员已知或可利用的既定标准确定的),对核酸概率性分配起源组织。可以就其他羟甲基化特征而言进行额外的样品与参考的比较,以完善分析并缩小所计算的组织分配中固有的不确定性。例如,还可以就5hmC发生的模式而言比较检测到的羟甲基化概况和参考羟甲基化概况,其中该模式可以是基因座内两个或更多个5hmC残基的相对位置和/或基因座内5hmC残基的特定位置。可以就5mC残基的总数、两个或更多个5hmC残基的相对位置和/或5hmC位点为半羟甲基化或完全羟甲基化的鉴定而言来比较概况。
在本发明的另一个实施方案中,提供了一种用于检测人受试者中组织或器官的状况的方法,其中该组织或器官的状况与取自受试者的无细胞流体样品中的DNA的羟甲基化概况有关或可以从该羟甲基化概况得出。该方法包括:
(a)生成获自受试者的无细胞流体样品中的DNA的羟甲基化概况;
(b)将(a)中生成的羟甲基化概况与参考集中的多个参考羟甲基化概况中的每个进行比较,每个参考羟甲基化概况与以下项有关:(i)与组织特异性基因相关的参考基因座和(ii)特定组织或器官的状况;和
(c)基于为样品生成的羟甲基化概况与参考羟甲基化概况的比较,鉴定受试者中特定组织或器官的状况。
在另一个实施方案中,提供了一种用于监测人类受试者中的组织或器官的状况变化的方法。该方法包括:
(a)生成在获自受试者的无细胞流体样品中的DNA片段的一个或多个基因座处的初始羟甲基化概况,其中羟甲基化概况与组织或器官的初始状况有关;
(b)在后来的时间,生成获自受试者的无细胞流体样品中的一个或多个相同基因座处随后的羟甲基化概况;和
(c)将随后的羟甲基化概况与初始羟甲基化概况进行比较以检测组织或器官的状况变化。
在该实施方案的一方面,组织或器官的状况变化可以是改善或下降。
在该实施方案的另一方面,可以在评估治疗干预的功效的情境下评估组织或器官的状况的变化。
在该实施方案的另一方面,组织或器官的状况变化可以与基因表达随时间的变化相关。
在实施方案的相关方面,该方法进一步包括在扩展的评估周期内的离散时间点重复评估。即,将步骤(b)再重复一次或多次以监测与组织或器官相关的状况、疾病或病症的进展。
在实施方案的另一个相关方面,该方法进一步包括基于检测到的状况变化做出诊断、治疗决策或预后。
在实施方案的另一个相关方面,该方法进一步包括将初始羟甲基化概况,随后的羟甲基化概况或初始和随后的羟甲基化概况两者与参考数据集中的多个参考羟甲基化概况进行比较,每个参考羟甲基化概况对应于与组织特异性基因相关的差异羟甲基化基因组区域内所包含的参考基因座。
在本发明的另一个实施方案中,提供了一种分析获自人血浆的无细胞DNA样品的改进的方法,其中对所述样品中的无细胞DNA片段进行分离、扩增和测序,其中所述改进包括如下鉴定所述样品被起源自外周血单个核细胞(PBMC)的基因组物质的污染:
(a)生成所述无细胞样品中DNA片段的羟甲基化概况;和
(b)将(a)中生成的所述羟甲基化概况与参考集中的多个参考羟甲基化概况中的每个进行比较,每个参考羟甲基化概况与对应于组织特异性基因的参考基因座相关,其中所述参考羟甲基化概况包括至少一个PBMC羟甲基化概况;和
(c)自所述比较确定起源自PBMC的基因组物质的存在。
在实施方案的一方面,该方法进一步包括从步骤(b)中的比较估计PBMC基因组污染的水平。应当理解,由于离体的收集后PBMC裂解,即在样品收集后,在无细胞的样品中可以看到PBMC基因组污染。因此,该方法可用作测量样品质量和评估特定样品是否适用于无细胞DNA分析中的应用。
在实施方案的另一个方面,该方法进一步包括基于用于PBMC DNA的已知羟甲基化向量提供用于无细胞DNA分析的校正向量,其中该羟甲基化向量包括对应于PBMC DNA的多个参考羟甲基化概况。校正向量可以用于抵消、降低或扣除由于PBMC DNA污染(例如来自收集后PBMC裂解)而导致的不良样品质量的影响。只要PBMC亚型羟甲基化数据包含在向量中,那么该校正向量也可以用于特异性鉴定无细胞DNA污染中PBMC亚型的比例,包括其激活或状态。
在实施方案的另一方面,上述校正向量用于校准和标准化绝对计数测量,例如突变负荷或片段计数。
在实施方案的另一方面,校正向量用于校准和标准化特定分子种类的相对比例,例如,调节对循环肿瘤DNA(ctDNA),胎儿DNA或病原体DNA所确定的变异等位基因频率(VAF)和次要等位基因频率(MAF)值。
在另一个实施方案中,本发明提供了一种对获自人类受试者的样品中的无细胞DNA概率性分配起源组织的方法,其中该方法包括:
(a)如下生成所述样品中DNA的羟甲基化概况:
(i)仅对所述无细胞DNA中的5-羟甲基胞嘧啶残基添加亲和标签;
(ii)通过与支持物的结合来富集用所述亲和标签加标签的DNA分子;和
(iii)对富集的DNA分子进行测序以提供具有鉴定的每个5-羟甲基胞嘧啶位点的图;
(b)将(a)中生成的所述羟甲基化概况与参考数据集中的多个参考羟甲基化概况中的每个进行比较,每个参考羟甲基化概况与差异羟甲基化基因组区域中的参考基因座相关,所述差异羟甲基化基因组区域与组织特异性基因相关,
(c)鉴定所述参考数据集中的至少一个参考基因座,该参考基因座具有实质类似于所生成的羟甲基化概况的参照羟甲基化概况;和
(d)基于(c)中鉴定的所述至少一个参考基因座和所述相应的组织特异性基因,对每个测序的DNA分子分配至少一种起源组织。
在本发明的另一个实施方案中,提供了一种确定人类受试者是否有形成组织或器官的异常状况的素因的方法。该方法包括:
(a)生成获自所述受试者的无细胞流体样品中的DNA片段的一个或多个基因座处的羟甲基化概况;
(b)将检测到的羟甲基化概况与参考集中的多个参考羟甲基化概况进行比较,每个参考羟甲基化概况与以下相关:(i)组织特异性基因上的参考基因座和(ii)指示形成所述特定组织或器官的异常状况的素因的组织状况;和
(c)从(b)中的比较中鉴定形成所述组织的所述异常状况的素因。
在本发明的另一个实施方案中,提供了一种在获自人类受试者的无细胞DNA样品中区分与不同起源组织相关的核酸的方法,该方法包括:
(a)生成所述无细胞DNA样品中多个核酸的每个的羟甲基化概况;
(b)将每个羟甲基化概况与参考集中的多个参考羟甲基化概况进行比较,每个参考羟甲基化概况与组织特异性基因上的特定参考基因座相关;和
(c)基于(b)中的比较区分源自不同组织的核酸。
在前述实施方案的示例性方面,参考集包括选自集3A,集3B,集3C,集3D,集3E,集3F,集3G,集3H,集3I,集3J,集3K,集3L,集3M,集3N,集3O,集3P,集3Q,集3R和集3S的两个或更多个参考集,如下表1至表19所示。
在另一个实施方案中,任何前述方法还包括确定以下至少一种:核酸长度;核酸片段分布;甲基化模式和核小体(nucleosome)定位。
发明详述
本发明提供了一种对获自人类受试者的无细胞流体样品,例如无细胞DNA样品中的核酸概率性分配起源组织的方法。还提供了相关的方法和系统,包括诊断,预后,患者监测和其他方法。本发明在羟甲基化概况的较大的参考集,即含有对于多种组织类型在多个组织特异性基因的每个上的多个基因座的羟甲基化数据的羟甲基组数据集间评估检测到的核酸羟甲基化概况的相似性。
1.术语:
除非另有定义,否则本文中使用的所有技术和科学术语具有本发明所属领域的普通技术人员通常理解的含义。下面定义对于本发明的描述特别重要的特定术语。其他相关术语在Quake等的国际专利公开号WO 2017/176630,“Noninvasive Diagnostics bySequencing 5-Hydroxymethylated Cell-Free DNA”中定义。前述专利公开文本以及本文中提及的所有其他专利文件和公开文本明确地通过引用并入。
在本说明书和所附的权利要求书中,单数形式的“一个”,“一种”和“该”包括复数指示物,除非上下文另外明确指出。因此,例如,“基因座”不仅指单个基因座,还指两个或更多个不同的基因座,“组分”指单个组分以及两个或更多个组分的组合,等等。
数字范围包括定义范围的数字。除非另有说明,核酸以5'至3'方向从左至右书写;氨基酸序列以氨基至羧基的方向从左至右书写。
本文提供的标题不是对本发明的各个方面或实施方案的限制。相应地,通过参考整个说明书更完整地定义了紧接在下面定义的术语。
术语“羟甲基化”是指在核酸中存在至少一个5-羟甲基胞嘧啶(5hmC)残基,即在5'碳上已经添加了羟甲基的胞嘧啶残基。
术语“羟甲基化概况”是指核酸,核酸片段或核酸区域中5-羟甲基胞嘧啶的密度,位置,相对位置和/或模式。
如本文所用,术语“样品”涉及衍生自人类受试者的生物流体,细胞,组织或器官的样品,其包含核酸或核酸混合物。通常,尽管不是必须的,样品是血液样品,例如全血样品,血清样品或血浆样品。本文中的核酸样品可以是复合物,因为它们可以包含含有核酸序列的多个不同分子。
如本文所用,术语“样品”涉及含有一种或多种目的分析物的一种材料或材料的混合物,通常但非必须地为流体形式。
如本文所用,术语“生物样品”涉及包含生物分子的混合物的衍生自人类受试者的生物流体,细胞,组织或器官的样品,所述生物分子包括蛋白质,肽,脂质,核酸等。通常,尽管不是必须的,样品是血液样品,例如全血样品,血清样品或血浆样品。
术语“核酸样品”如该术语在本文中使用时指包含核酸的生物样品。核酸样品可以是包含核小体的无细胞核酸样品,在这种情况下,核酸样品在本文中有时被称为“核小体样品”。核酸样品也可以由无细胞DNA组成,其中样品实质上不含组蛋白和其他蛋白质,例如在无细胞DNA纯化后的情况。本文的核酸样品还可包含无细胞RNA。
“样品级份(sample fraction)”是指原始生物样品的子集,并且可以是生物样品在组成上相同的部分,就像将血液样品分成相同的级份一样。备选地,样品级份可以在组成上不同,例如当去除生物样品的某些组分时的情况,其中无细胞核酸的提取就是一个此类例子。
如本文所用,术语“无细胞核酸”涵盖无细胞DNA和无细胞RNA两者,其中无细胞DNA和无细胞RNA可以在包含体液的生物样品的无细胞级份中。体液可以是血液,包括全血,血清或血浆,或者它可以是尿液,囊液或另一种体液。在许多情况下,生物样品是血液样品,并且使用本领域普通技术人员已知的和/或在相关教科书和文献中描述的现在常规的方法从其中提取无细胞的核酸样品;用于进行无细胞核酸提取的试剂盒是可商购的(例如,可从Qiagen获得的
Figure BDA0002931492790000171
DNA/RNA Mini Kit和QIAmp DNA Blood Mini Kit,或可从ThermoFisher Scientific获得的MagMAXCell Free Total Nucleic Acid Kit和MagMAXDNA Isolation Kit)。还参见,例如,Hui et al.Fong et al.(2009)Clin.Chem.55(3):587-598。
如本文所用,术语“无细胞DNA”(cfDNA)是指包含体液的生物样品的无细胞级份或提取物中的DNA。无细胞DNA可以是高度片段化,通常具有小于1kb的中值大小(例如,在50bp至500bp,80bp至400bp或100bp至1,000bp的范围内),但可以存在该范围外的中值大小(在Newman et al.(2014)Nat.Med.20:548-54中,报道了165bp至250bp的片段大小)。无细胞DNA可含有循环肿瘤DNA(ctDNA),即在癌症患者血液中自由循环的肿瘤DNA或循环胎儿DNA(如果受试者是怀孕女性)。可通过离心全血以去除所有细胞,然后从剩余的血浆或血清中分离DNA来获得cfDNA。此类方法是众所周知的(参见例如Lo et al.(1998)Am.J.Hum.Genet.162:768-75)。无细胞DNA主要是双链的,但可以通过变性使其成为单链。
术语“核苷酸”旨在包括不仅含有已知的嘌呤和嘧啶碱基,而且还含有已被修饰的其他杂环碱基的那些部分。此类修饰包括甲基化的嘌呤或嘧啶,酰化的嘌呤或嘧啶,烷基化的核糖或其他杂环。另外,术语“核苷酸”包括那些含有半抗原或荧光标记物的部分,并且不仅可以含有常规的核糖和脱氧核糖,还可以含有其他糖。修饰的核苷或核苷酸还包括对糖部分的修饰,例如其中一个或多个羟基被卤素原子或脂族基团取代,或被官能化为醚,胺等。本文特别感兴趣的是修饰的胞嘧啶残基,包括5-甲基胞嘧啶及其氧化形式,例如5-羟甲基胞嘧啶,5-甲酰基胞嘧啶和5-羧甲基胞嘧啶。
术语“核酸”和“多核苷酸”在本文中可互换使用,以描述由核苷酸例如脱氧核糖核苷酸或核糖核苷酸组成的任何长度的聚合物,例如,大于约2个碱基,大于约10个碱基,大于约100个碱基,大于约500个碱基大于1000个碱基,以及至多约10,000个或更多个碱基。核酸可以通过酶促产生,化学合成或天然获得。
如本文所用,术语“寡核苷酸”表示长度为约2至200个核苷酸,至多500个核苷酸的核苷酸的单链多聚体。
寡核苷酸可以是合成的或可以是酶促制备的,并且在一些实施方案中,其长度为30至150个核苷酸。寡核苷酸可以包含核糖核苷酸单体(即可以是寡核糖核苷酸)和/或脱氧核糖核苷酸单体。寡核苷酸的长度可以是例如10至20、21至30、31至40、41至50、5l至60、61至70、71至80、80至100、100至150或150至200个核苷酸。
术语“杂交”是指如本领域已知的,核酸链通过碱基配对与互补链结合的过程。如果两个序列在中等至高度严格性杂交和洗涤条件下特异性地彼此杂交,则认为该核酸与参考核酸序列是“选择性可杂交的”。中等和高度严格的杂交条件是已知的(参见,例如,Ausubel,et al.,Short Protocols in Molecular Biology,3rd ed.,Wiley&Sons1995and Sambrook et al.,Molecular Cloning:A Laboratory Manual,Third Edition,2001Cold Spring Harbor,N.Y.)。
术语“双链体(duplex)”和“双链体的”在本文中可互换使用,以描述两个进行碱基配对,即杂交在一起的互补多核苷酸。DNA双链体在本文中称为“双链DNA”或“dsDNA”,并且可以是完整分子或分子片段。例如,本文中称为条形码和衔接头连接的dsDNA是完整分子,而在邻近延伸测定(proximity extension assay)中邻近探针的核酸尾之间形成的dsDNA是dsDNA片段。
如本文所用,术语“链”是指由通过共价键例如磷酸二酯键共价连接在一起的核苷酸组成的核酸的单链。在细胞中,DNA通常以双链形式存在,因此具有两条互补的核酸链,在本文中称为“顶”和“底”链。在某些情况下,染色体区域的互补链可以被称为“加”和“减”链,“正”和“负”链,“第一”和“第二”链,“编码”和“非编码”链,“Watson”和“Crick”链或“有义”和“反义”链。将链分配为顶或底链是任意的,并不意味着任何特定的方向、功能或结构。几个示例性哺乳动物染色体区域(例如BAC,装配体,染色体等)的第一链的核苷酸序列是已知的,并且例如可以在NCBI的Genbank数据库中找到。
术语“引物”是指合成的寡核苷酸,其在与多核苷酸模板形成双链体后,能够充当核酸合成的起始点,并从其3'端沿模板延伸以形成延伸的双链体。在延伸过程中添加的核苷酸的序列由模板多核苷酸的序列确定。通常,引物通过DNA聚合酶延伸。引物的长度通常与其在引物延伸产物的合成中使用的相容,并且长度通常在8至100个核苷酸之间,例如10至75、15至60、15至40、18至30、20至40、21至50、22至45、25至40等。典型的引物的长度可以在10-50个核苷酸之间,例如15-45、18-40、20-30、21-25等等,以及在所述范围之间的任何长度。在一些实施方案中,引物长度通常不超过约10、12、15、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65或70个核苷酸。
像用于引发DNA复制反应的“引物”一样,“衔接头”也是短的合成寡核苷酸,其在生物学分析中用于特定的目的。衔接头可以是单链或双链的,尽管本文优选的衔接头是双链的。在一个实施方案中,衔接头可以是发夹衔接头(即,一个与自身进行碱基配对以形成具有双链茎和环的结构的分子,其中该分子的3'和5'端分别连接至双链DNA分子的5'和3'末端)。在另一个实施方案中,衔接头可以是Y-衔接头。在另一个实施方案中,衔接头自身可以由彼此碱基配对的两个不同的寡核苷酸分子组成。显而易见的是,衔接头的可连接末端可以设计成与限制性酶可切割产生的突出端相容,或者它可以具有平末端或5'T突出端。术语“衔接头”是指双链以及单链分子。衔接头可以是DNA或RNA,或两者的混合物。含有RNA的衔接头可以通过RNase处理或碱性水解来裂解。衔接头可以是15至100个碱基,例如50至70个碱基,尽管可以设想该范围之外的衔接头。
如本文所用,术语“衔接头连接的”是指已经与衔接头连接的核酸。衔接头可以连接至核酸分子的5'端和/或3'端。如本文所用,术语“添加衔接头序列”是指向样品中片段的末端添加衔接头序列的动作。这可以通过以下步骤完成:使用聚合酶填充片段的末端,添加A尾,然后将包含T突出端的衔接头连接到A加尾片段上。通常使用连接酶将衔接头连接至DNA双链体,而对于RNA,优选在不存在连接酶的情况下将衔接头共价或以其他方式连接至cDNA双链体的至少一个末端。术语“衔接头连接的样品”是指cfDNA已经与衔接头连接的样品。如上述定义所理解的,已经连接至不对称衔接头的样品包含在5'和3'端具有非互补序列的链。
如本文所用,术语“不对称衔接头”是指当连接至双链核酸片段的两个末端时,将导致含有5'标签序列的顶链的衔接头,所述5'标签序列与3'端的标签序列不相同或不互补。非对称衔接头的例子在Weissman等人的美国专利5,712,126和6,372,434中以及在Bignell等人的国际专利公开No.WO 2009/032167中进行了描述。可以通过两种引物扩增不对称加标签的片段:第一引物,其与添加至链的3'末端的第一标签序列杂交;和第二引物,其与添加至链的5'末端的第二标签序列的互补序列杂交。Y-衔接头和发夹衔接头(其可以在连接后被切割以产生“Y-衔接头”)是不对称衔接头的例子。
术语“Y-衔接头”是指包含:双链区和相对序列不互补的单链区的衔接头。双链区的末端可以例如通过连接或转座酶催化的反应与靶分子如基因组DNA的双链片段连接。已连接到Y衔接头的带有衔接头标签的双链DNA的每条链都不对称地加标签,因为它具有一端的Y衔接头的一条链和另一端的Y衔接头的另一条链的序列。在两个末端均已经与Y-衔接头连接的核酸分子的扩增产生不对称加标签的核酸,即,如下的核酸,其具有含有一个标签序列的5'端和具有另一个标签序列的3'端。
术语“发夹衔接头”是指呈发夹形式的衔接头。在一实施方案中,在连接后,发夹环可以被切割以产生在末端具有非互补标签的链。在某些情况下,发夹衔接头的环可含有尿嘧啶残基,并且可以使用尿嘧啶DNA糖基化酶和核酸内切酶VIII切割该环,尽管其他方法也是已知的。
如本文所用,术语“扩增”是指产生模板核酸的一个或多个拷贝或“扩增子”,例如可以使用任何合适的核酸扩增技术,例如技术,例如PCR(聚合酶链反应)扩增(包括巢式PCR和多重PCR),RCA(滚环扩增),NASBA(基于核酸序列的扩增),TMA(转录物介导的扩增)和SDA(链置换扩增)。将理解的是,扩增技术的组合可以在某些情况下有利地使用,例如,与RCA结合的多重PCR(参见例如Gong et al.(2018)RSC Adv.8:27375),RCA与定量PCR(qPCR)结合(参见例如Liu et al.(2016)Anal Sci.32:963-968)等。
术语“富集”是指将具有特定特征的模板分子(例如,包含5-羟甲基胞嘧啶的核酸)从不具有该特征的分析物(例如,不含5-羟甲基胞嘧啶的核酸)中部分纯化。相对于不具有特征的分析物,富集通常使具有该特征的分析物的浓度增加至少2倍,至少5倍或至少10倍。富集后,样品中至少10%,至少20%,至少50%,至少80%或至少90%的分析物可具有用于富集的特征。例如,富集的组合物中至少10%,至少20%,至少50%,至少80%或至少90%的核酸分子可含有具有一个或多个已经被修饰为包含捕获标签的5-羟甲基胞嘧啶的链。
如本文所用,术语“测序”是指获得多核苷酸的至少10个连续核苷酸的身份(例如,至少20,至少50,至少100或至少200或更多的连续核苷酸的身份)的方法。
如本文所用,术语“下一代测序”(NGS)或“高通量测序”是指Illumina,LifeTechnologies,Roche等目前采用的所谓的平行化合成测序或连接测序平台,下一代测序方法还可包括纳米孔测序方法诸如由Oxford Nanopore Technologies商业化的,电子检测方法诸如由Life Technologies商业化的Ion Torrent技术以及基于单分子荧光的方法,例如由Pacific Biosciences商业化的。
如本文所用,术语“读段”是指测序系统,例如大规模平行测序的原始或加工输出。在一些实施方案中,本文描述的方法的输出是读段。在一些实施方案中,可能需要修剪、过滤和对齐这些读段,从而生成原始读段、修剪的读段、对齐的读段。
“UFI”是表征一组核酸分子的独特特征标识符。UFI可以是有时被称为“条形码”(有时在本文中称为“UFI序列”或“UFI条形码”)中的特定核酸序列,或者它可以是由糖基化,生物素化等产生的化学标签。UFI也可缺少特定特征,例如附加或掺入的部分;例如,UFI可以是不存在特定条形码,或者不存在糖基化或生物素化的部分,等等。UFI序列通常是用于鉴定核酸分子的特征的相对较短的核酸序列。有时将包含UFI的核酸模板分子及其扩增子称为“条形码化”模板分子或扩增子。UFI序列类型的示例包括但不限于以下内容:
“分子UFI序列”(或“分子条形码”)是如下的短核酸序列,其附加到样品中每个核酸模板分子,使得如果UFI序列具有足够的长度,则每个核酸模板分子附着到独特的UFI序列。分子UFI序列通常设计为一串随机核苷酸,部分简并的核苷酸,或者在某些情况下(即在有限数量的模板分子中)限定的核苷酸。如本领域中已知的,分子UFI序列可用于解决和抵消扩增和测序仪的错误,允许用户追踪重复并将其从下游分析中去除,进行分子计数,并进而确定分析物浓度。参见,例如,Casbon et al.(2011)Nuc.Acids Res.39(12):1-8。
“样品UFI序列”(或“样品条形码”或“索引化UFI”)是如下的核酸序列,其附加于样品中每个核酸模板分子,从而多个样品可以与样品UFI序列一起组合、处理和测序,所述样品UFI序列实现按样品对读段进行分类和分组(即,解复用(demultiplex))。UFI样品序列鉴定获得样品的个体。
“源标识符序列”(或“源UFI”或“源条形码”)鉴定起源的来源。源UFI通常可以是样品UFI。然而,在某些情况下,例如,当从同一个体获得不同类型的样品(例如,血液样品,囊肿液等)时,源UFI将指示样品的生理来源,而不是获得样品的患者。当组合包括从单一个体获得的两种或更多种样品类型的多个样品时,应使用样品条形码和源条形码两者。
“片段标识符序列”(或“片段UFI”或“片段条形码”):在核酸包含许多片段的群体(如在无细胞DNA中自然发生,或可以通过多种已知的片段化技术(例如,物理,超声处理,酶促等)进行工程化改造)的核酸样品中,样品中的每个片段都用相应的片段标识符序列进行条形码编码。具有不重叠片段标识符序列的序列读段代表不同的原始核酸模板分子,而具有相同片段标识符序列或实质上重叠的片段标识符序列的读段可能代表同一模板分子的片段。此处鉴定出的独特特征是片段起源的模板核酸分子。
“链标识符序列”(或“链UFI”或“链条形码”)独立地对DNA双链体的两条链中的每条添加标签,从而可以确定读段起源的链,即W链或C链。
“5hmC标识符序列”(或“5hmC条形码”)鉴定源自样品中含5hmC的无细胞DNA模板分子的DNA片段,即“羟甲基化”DNA。
“5mC标识符序列”(或“5mC条形码”)鉴定源自不包含5hmC的含5mC的无细胞DNA模板分子的DNA片段。
在一些实施方案中,UFI可以具有在1至约35个核苷酸的范围内的长度,例如2至30个核苷酸,4至30个核苷酸,4至24个核苷酸,4至16个核苷酸,4至12个核苷酸,6至20个核苷酸,6至16个核苷酸,6至12个核苷酸等。在某些情况下,如上所述,UFI可以进行错误检测和/或错误校正,这意味着即使存在错误(例如,如果在直至确定分子条形码序列的各种处理步骤的任一步中,分子条形码的序列合成错误,错误读出或失真),那么仍然可以正确地解释代码。在文献(例如,在Hamati等的美国专利公开号US 2010/0323348和Braverman等的US2009/0105959中,这两者均通过引用并入本文)中描述了错误校正的使用。
可以使用任何有效方式将本文中用作UFI序列的寡核苷酸掺入DNA分子,其中“掺入”在本文中可以与“添加至”和“附加至”互换使用,只要可以在DNA分子的末端,DNA分子的末端附近或DNA分子内提供UFI即可。例如,可以使用选择的连接酶将多个UFI与DNA进行末端连接,在这种情况下,只有最终的UFI处于分子的“末端”。
更一般地,术语“检测”与术语“确定”,“测量”,“评估”,“评价”,“测定”和“分析”可互换使用,以指代任何形式的测量,并包括确定要素是否存在。这些术语包括定量和/或定性确定两者。评价可以是相对的或绝对的。因此,“评价...的存在”包括确定存在的部分的量,以及确定其存在与否。评价羟甲基化生物标志物基因座处的水平是指确定该基因座处的羟甲基化程度。
“准确性”是指测量或计算的量(测试报告值)与其准确(或真实)值的符合程度。临床准确性与真实结果(真实阳性(TP)或真实阴性(TN)与错误分类的结果(假阳性(FP)或假阴性(FN))的比例有关,并且可以表示为敏感性,特异性,阳性预测值(PPV)或阴性预测值(NPV),或作为可能性或比值比,等等。
如本文所用,术语“对应于”关于与片段的特定(例如,顶或底)链“相对应”的序列读段,是指衍生自该链或其扩增产物的序列读段。
如本文中关于变量(例如,值,一组值,疾病状态,与疾病状态相关的风险等)所使用,术语“关联”是对两个或更多个变量一起波动程度的度量。
“羟甲基化水平”或“羟甲基化状态”是羟甲基化生物标志物基因座内的羟甲基化程度。羟甲基化的程度通常以羟甲基化密度来测量,例如,核酸区域内5hmC残基与修饰的和未修饰的总胞嘧啶之比。羟甲基化密度的其他度量也是可能的,例如核酸区域中的5hmC残基与总核苷酸的比率。
“羟甲基化概况”或“羟甲基化签名(signature)”是指包括在多个羟甲基化生物标志物基因座的每个处的羟甲基化水平的数据集。羟甲基化概况可以是参考羟甲基化概况,其包括具有至少一个共有特征的个体群体的复合羟甲基化概况,例如,从未被诊断出患有癌症的个体,从未在成像扫描中鉴定出病变的个体,超过65岁的个体,女性个体等。
“公式”,“算法”或“模型”是任何数学方程式,算法,分析或程序化过程或统计技术,其采用一个或多个连续或分类输入并计算输出值,有时称为“索引”,“索引值”,“预测器”,“预测值”,“概率”或“概率得分”。“公式”的非限制性示例包括和、比率以及回归算子,例如系数或指数,生物标志物值转换和标准化(包括但不限于基于临床参数(例如性别,年龄或种族)的标准化方案),规则和指南,统计分类模型以及对历史群体进行训练的神经网络。在组(panel)和组合构造中,特别有趣的是结构和句法统计分类算法,以及利用模式识别特征的风险指数构建方法,包括已建立的技术,例如互相关,主成分分析(PCA),因子旋转,对数回归(LogReg),线性判别分析(LDA),特征基因线性判别分析(Eigengene LinearDiscriminant Analysis,ELDA),支持向量机(Support Vector Machines,SVM),随机森林(Random Forest,RF),递归分区树(RPART)以及其他相关的决策树分类技术,ShrunkenCentroids(SC),StepAIC,最近的Kth邻居(Kth-Nearest Neighbor),Boosting,决策树(Decision Trees),神经网络,贝叶斯网络,支持向量机和隐马尔可夫模型(Hidden MarkovModels)等。还进一步实现了许多此类算法技术,以执行特征(基因座)选择和规则化(regularization)规则化,例如在岭回归(ridge regression),lasso和elastic net等中。其他技术可用于生存和事件前时间危险分析(time to event hazard analysis)中,包括本领域技术人员众所周知的Cox,Weibull,Kaplan-Meier和Greenwood模型。这些技术中的许多技术都可以与羟甲基化生物标志物选择技术结合使用,例如正向选择,后向选择或逐步选择,给定大小的所有潜在生物标志物集或组的完整枚举,遗传算法或它们本身可以包括生物标志物选择方法。这些可以与信息标准结合使用,例如Akaike的信息标准(Akaike'sInformation Criterion,AIC)或贝叶斯信息标准(Bayes Information Criterion,BIC),以便量化其他生物标志物和模型改进之间的权衡,并有助于最小化过度拟合。生成的预测模型可以在其他研究中进行验证,或在它们最初进行培训的研究中交叉验证,使用诸如Bootstrap,Leave-One-Out(LOO)和10倍交叉验证(10-Fold cross-validation)(10倍CV)等技术进行。在各个步骤,可以根据本领域已知的技术通过值排列来估计错误发现率。
本文中使用各种类型的算法来得出有意义的集合,例如在特定组织类型中更通常表现,或更通常表现且更通常表达的一组基因。相同或不同的算法还用于确定两个或更多个数据集之间的统计相关性,例如一个或多个标准或“正常”羟甲基化概况和患者样品中的羟甲基化概况。回归分析是用作几种比较算法的基础的共同的统计技术;常用回归模型的示例包括Ridge,Lasso和Elastic Net。由于变量之间的相关性,简单的线性回归(普通最小二乘方或“OLS”)通常不足够;取而代之的是,添加罚分以解决和抵消相关性,L1规则化(Lasso回归),L2规则化(岭回归)或两者。glmnet模型(Lasso和Elastic Net规则化广义线性模型)提供默认的优化拟合,该拟合既可以改变罚分权重,又可以改变L1和L2贡献;当最佳拟合优先对L2加权时,预测器将倾向于由大量特征支持。Glmnet2是指lasso拟合,其中只有L1促成罚分,通常导致得到少量特征支持的稀疏模型。Elastic Net合并了L1和L2规则化两者的罚分,并优化了L1和L2项的比率。在本文中有时称为glmnet1A的本文中的示例性技术涉及使用修改的glmnet模型,其中L1和L2以55/45的比例加权。
2.组织来源分配:
在一个实施方案中,提供了一种对人类受试者的无细胞流体样品中的核酸概率性分配起源组织的方法,其中起源组织的“概率”分配涉及确定该核酸源自特定组织的概率。起源组织是核酸的组织来源,其中术语“组织”用于描述同一类型的细胞的组或群体,并且如果与器官相关,则是同一器官。即,假设来自人类受试者的无细胞的流体样品含有来自未知组织的核酸例如DNA,则本方法可用于生成组织特异性的数据,并能够将起源组织概率性分配给样品DNA。该方法包括生成样品核酸的羟甲基化概况,然后将该羟甲基化概况与参考数据集中的多个参考羟甲基化概况中的每个进行比较,每个参考羟甲基化概况对应于与组织特异性基因相关的基因组区域中包含的参考基因座。含有参考基因座的基因组区域是差异羟甲基化区域(DhMRs),其本质上在本文中用作生物标志物,并且被选择为具有趋于随特定起源组织、组织类型、组织状况和其他因素而变化的羟甲基化概况。每个参考羟甲基化概况包含在羟甲基化向量中,该向量具有针对特定参考基因座或生物标志物的以下信息:在特定参考基因座处的正常或对照羟甲基化概况;与参考基因座相关的组织特异性基因;以及与基因和参考基因座相关的组织。
(a)羟甲基化概况的检测:
该方法的第一步涉及检测样品中的核酸的羟甲基化概况,所述样品通常是获自人类受试者的无细胞DNA样品,其中“核酸”可以是一个或多个核酸分子,核酸片段或核酸区域或其组合,并且“羟甲基化概况”可以是羟甲基化密度,例如,核酸区域内5hmC残基与修饰和未修饰的总胞嘧啶的比率。还设想了5hmC密度的其他度量,例如,基因座中5hmC残基与总核苷酸的比率,并且其他类型的评估也可以是有用的,例如,基因座中5hmC与5mC的比率。
除了5hmC密度外,羟甲基化概况还可以包括羟甲基化信息,例如羟甲基化模式,核酸区域内的总5hmC残基,核酸区域内5hmC残基的位置,核酸区域内5hmC残基的相对位置,和/或将羟甲基化位点鉴定为半羟甲基化或完全羟甲基化。由于最近已将5hmC鉴定为在哺乳动物系统的表观遗传调控中起着基础作用的关键的表观遗传修饰,因此研究人员已致力于开发确定核酸核酸片段,和核酸区域(即核酸或片段内的基因座)的羟甲基化概况的技术。
用于检测核酸的羟甲基化概况的优选方法在Quake等人的国际专利公开WO 2017/176630中有所描述,其全部内容通过引用并入本文。该方法涉及在测序方案的情境下检测无细胞DNA中的5-羟甲基胞嘧啶模式。将亲和标签附加到无细胞DNA样品中的5hmC残基上,然后对加标签的DNA分子进行富集和测序,鉴定5hmC的位置。如Quake等人所述,该方法的一个示例性实例涉及起初修饰无细胞样品中末端钝化、衔接头连接的双链DNA片段,以将生物素作为亲和标签共价连接于5hmC残基。这可以通过用叠氮化物部分在6位官能化的尿苷二磷酸(UDP)葡萄糖选择性糖基化5hmC残基来完成,此步骤之后,是与炔烃官能化的生物素通过“点击化学”反应的13-环加成反应。然后可以在“富集”步骤中用链霉亲合素珠将含有这些生物素化5hmC残基的DNA片段拉下。
可以使用一种或多种与添加的衔接头或其互补序列杂交的引物扩增富集的DNA样品。在添加了Y-衔接头的实施方案中,可以使用两个引物通过PCR来扩增与衔接头连接的核酸:与该衔接头的顶链的单链区域杂交的第一引物和与Y衔接头(或发夹衔接头,在切割环后)的底链的单链区域的互补序列杂交的第二引物。例如,在一些实施方案中,所使用的Y衔接头可以具有P5和P7臂(其序列与Illumina的测序平台兼容),并且扩增产物将在一端具有P5序列而在另一端具有P7序列。这些扩增产物可以与Illumina测序基底杂交并测序。在另一个实施方案中,用于扩增的一对引物可以具有与Y衔接头杂交的3'末端和具有P5序列或P7序列的5'尾。在这些实施方案中,扩增产物还将在一端具有P5序列并且在另一端具有P7序列。这些扩增产物可以与Illumina测序基底杂交并测序。该扩增步骤可以通过有限循环PCR(例如5-20个循环)来完成。
测序步骤可以使用任何方便的下一代测序方法来完成,并且可以导致至少10,000,至少50,000,至少100,000,至少500,000,至少1M,至少10M,至少25M,至少50M,至少100M或至少1B序列读段。在许多情况下,读段是成对末端读段。用于扩增的引物可与使用引物延伸的任何下一代测序平台中的应用兼容,例如,Illumina的可逆终止子方法,Roche的焦磷酸测序方法(454),Life Technologies的连接测序(SOLiD平台),Life Technologies的Ion Torrent平台,或Pacific Biosciences的荧光碱基切割方法。在以下参考文献中描述了此类方法的示例:Margulies et al.(2005)Nature 437:376-80;Ronaghi et al.(1996)Analytical Biochemistry 242:84-9;Shendure(2005)Science 309:1728);Imelfort et al.(2009)Brief Bioinform.10:609-18;Fox et al.(2009)Methods MolBiol.553:79-108;Appleby et al.(2009)Methods Mol Biol.513:19-39;English(PLoSOne.2012 7:e47768)和Morozova(2008)Genomics 92:255-64),通过引用并入本文以一般描述方法以及方法的特定步骤,包括所有起始产物,试剂,每个步骤的最终产物。
在某些实施方案中,测序的样品可以包含来自多个样品的DNA分子库,其中样品中的核酸具有分子条形码以指示其来源。在一些实施方案中,被分析的核酸可以起源自单一来源(例如,单一生物体,病毒,组织,细胞,受试者等),而在其他实施方案中,核酸样品可以是提取自多种来源的核酸库(例如,来自多种生物体,组织,细胞,受试者等的核酸库)。因此,在某些实施方案中,无细胞核酸样品可包含来自2个或更多个来源,3个或更多个来源,5个或更多个来源,10个或更多个来源,50个或更多个来源,100个或更多个来源,500个核酸或更多来源,1000或更多来源,5000或更多来源,至多并包括约10,000或更多来源的核酸。分子条形码可以在分析后区分来自不同来源的序列。
序列读段可以由计算机分析,因此,可以将用于执行以下阐述的步骤的指令阐述为可以记录在合适的物理计算机可读存储介质中的编程。
在一些实施方案中,可以分析序列读段以提供对cfDNA中哪些序列被羟甲基化的定量测定。这可以通过例如对序列读段进行计数,或者备选地在扩增前对原始起始分子的数目进行计数来完成,例如基于它们的片段化断裂点和/或它们是否含有相同的索引器(indexer)序列。已知将分子条形码与片段的其他特征(例如,片段的末端序列,其定义断裂点)结合使用以区分片段。分子条形码和计数个别分子的示例性方法描述于Casbon(2011)Nucl.Acids Res.22e81和Fu et al.(2011)Proc.Natl.Acad.Sci.USA 108:9026-31)等。分子条形码在美国专利公开号2015/0044687、2015/0024950和2014/0227705,以及在美国专利号8,835,358和美国专利7,537,897以及各种其他出版物中有所描述。
具有鉴定的5hmC位置的测序核酸提供了关于该核酸的羟甲基化概况所需的信息。
确定无细胞样品中DNA的羟甲基化概况的其他方法在2018年2月14日提交的、Arensdorf的临时美国专利申请序列号62/630,798的“Methods for the EpigeneticAnalysis of DNA,particularly Cell-Free DNA”,以及在Song等人的美国专利公开号2017/0298422中描述,这两篇通过引用并入本文。这些参考文献也可与本发明的实施方案结合使用,其中本方法还包括检测样品DNA的甲基化概况及其在扩大的比较中的用途,其中除了羟甲基化分析外,还使用类似于羟甲基化概况参考集的甲基化概况参考集,对甲基化概况进行比较。也就是说,参考文献描述了从单个DNA样品中生成甲基化概况和羟甲基化概况。
(b)参考数据集:
在生成样品核酸的羟甲基化概况后,将检测到的羟甲基化概况与参考数据集中的多个参考羟甲基化概况中的每个进行比较,其中每个参考羟甲基化概况与和组织特异性基因相关的参考基因座相关。在一个优选的实施方案中,参考集是大的羟甲基组数据集,其含有与多个组织特异性基因的每个相关的多个参考基因座中的每个的羟甲基化向量。即,羟甲基组数据集可以含有至少三种,至少五种,至少10种或至少30种组织类型的信息,每种组织类型通常具有至少三种基因,或每个组织类型至少10,至少20,至少25或更多基因。对于每个参考基因座,羟甲基化向量至少含有以下信息:参考基因座的鉴定;与基因座相关的组织特异性基因;与组织特异性基因相对应的起源组织;和羟甲基化概况。如前所述,羟甲基化概况包括参考基因座内的羟甲基化密度以及其他信息项目,例如基因座内的总5hmC残基,基因座内的5hmC残基的位置,基因座内5hmC残基的相对位置以及将羟甲基化位点鉴定为半羟甲基化或完全羟甲基化的。
参考基因座可包含在基因体或其组分中,例如内含子或外显子内。参考基因座也可以包含在基因体外部的基因组注释特征内,例如启动子,增强子,转录起始位点,转录终止位点,DNA结合位点或其组合。可以包含一个或多个参考基因座的DNA结合位点包括例如沉默区,转录因子结合位点,转录阻遏物结合位点和CTCF结合位点(转座子重复区)。CTCF结合位点内的参考基因座特别令人感兴趣,只要CTCF基因编码转录阻遏物CTCF(也称为11锌指蛋白或CCCTC结合因子),其继而参与许多细胞过程,包括转录调控和染色质体系的调节。参见例如Juan et al.(2016)Cell Reports 14(5):1246-1257;和Escedi et al.(2018)Epigenomes 2(1):3。
因此,参考数据集中的每个参考羟甲基化概况对应于与至少一个起源自特定组织类型的基因相关的参考基因座。在一个实施方案中,参考集中的每个参考羟甲基化概况对应于与至少一种起源自人类组织类型(或功能性,器官,解剖学和相关细胞谱系类型分组,例如消化系统,脑和骨髓或淋巴样源性)的基因相关的参考基因座,包括:脂肪;肾上腺;骨髓;脑;乳房;结肠;脑皮层;宫颈;子宫;消化系统;子宫内膜;附睾;食道;输卵管;胆囊;心肌;下丘脑;肾;肝;肺;淋巴结;卵巢;胰腺;甲状旁腺;胎盘;前列腺;唾液;精囊;骨骼肌;平滑肌;皮肤;脾;胃;睾丸;甲状腺;扁桃体;膀胱;及其组合。前述列表仅是说明性的,并不旨在进行限制。
许多人体组织(包括上面列举的那些)由两种或更多种亚型组成,并且前述列表旨在包括任何和所有此类亚型。例如,脂肪组织可以是棕色脂肪组织(BAT)或白色脂肪组织(WAT),并且如果是白色脂肪组织,则可以是皮下白色脂肪组织(SWAT)或腹腔内的内脏白色脂肪组织(VWAT);参见Gil et al.(2011)Int.J.Pediatr.Obes.6Suppl.1:13-20。肾上腺组织可以来自肾上腺髓质或皮质。骨髓包括骨髓样组织,即红色骨髓和脂肪组织或黄色骨髓,并且本方法学潜在可用于区分髓样来源的血细胞谱系和淋巴样来源的血细胞谱系。
消化组织包括上皮,结缔组织,肌肉和神经的所有四种主要组织类型,包括粘膜下层的结缔组织,食道的横纹肌组织和杯状细胞组织,作为整个消化道衬里的粘液分泌性上皮细胞。许多其他组织亚型在本领域中是已知的和/或可以通过参考相关的教科书和文献容易地鉴定。
与参考基因座相关的组织特异性基因是与特定组织相关的基因,具有不同程度的相关性或特异性。某些基因在所有细胞中均具有相似的羟甲基化概况(即持家基因),而另一些基因则在整个人体的各种组织中具有差异表现的羟甲基化模式。与差异表现的基因相关的参考基因座是本文的主要兴趣点,因为与特定组织中高度表现的基因相关的羟甲基化模式在组织测定中最有用。进一步感兴趣的是那些差异表现的羟甲基化基因,其中此类表现与对特定组织也具有特异性的基因表达水平相关,在所述组织中以不同程度的相关性或特异性差异表达。有关差异表达基因的信息对于本领域技术人员而言是已知的,并在相关的教科书和文献中提供;还可获得许多基因组织表达数据库。参见例如,www.preoteinatlas.org上的人类蛋白质图谱(Human Protein Atlas)中的“人组织蛋白质组”;另参见Uhlen et al.(2015),“Tissue-based map of the human proteome,”Science347(6220)。人类蛋白质图谱根据在特定组织中相对于其他组织观察到的mRNA水平的比率对组织特异性基因进行分类,其中“组织富集的”基因在有限数量的组织中共享表达,并且展示出相对于所有其他组织高至少五倍的mRNA水平,“组富集的”基因展示出相对于基因的组内其他2-7个基因至少高五倍的mRNA水平,而“组织增强的”基因展示出相对于所有组织中平均水平,在特定组织中至少高五倍的mRNA水平。
在下面的部分(c),(d)和(e)中提供了组织特异性基因的示例。在部分(c),集1中的基因是通过分析来自五个个体中每个的17种组织类型来鉴定的。为了鉴定差异表现的组织特异性基因,使用Song等人(2011)Nature Biotechnology 29:68-72的“5hmC Seal”技术进行了处理。为了鉴定在部分(d),集2中差异表现的、差异表达的组织特异性基因,使用RNAseq进行进一步处理。进行Log-CPM转换,并就以下两者而言进行分析:(1)目标组织之间的log-CPM与所有其他组织间的最大值的差,以及(2)所获得的目标组织的log-CPM与所有其他组织间的最大值的比率。在部分(e),集3中的组织特异性基因是使用来自多个个体的19种组织类型(乙状结肠和横结肠,6个供体样品;下丘脑,4个供体样品;以及所有其他组织,各5个供体样品)鉴定的,并且分析了本文前面解释的glmnet1A方法。
(c)差异表现的组织特异性基因-集1:
如前所解释,与参考基因座相关的组织特异性基因是差异表现的,从而可以通过与已知组织的参考羟甲基化概况进行比较来鉴定不明来源的组织或细胞样品,其中“已鉴定的”指对例如无细胞流体样品中的核酸概率性分配起源组织。使用前述方法,即RNAseq,然后进行log-CPM转化和比较,鉴定出第一组差异表现基因。集1的基因在参考集中特别有用,用于对未知起源的组织或细胞样品概率性分配起源组织。
集1:
膀胱:AARD,ADARB1,AKR1B10,ANAPC7,APCDD1L-AS1,APOA1BP,CALHM2,CASC3,CLEC2L,COL4A5,CRYM-AS1,EPHA3,FAHD2B,FKBP9L,FOPNL,GNG11,GSN,GSTTP2,GTSF1,IAH1,KCNMB1,KIAA1644,LAMC1,LINC00310,LOC100506394,LOC100507066,LOC493754,MAP1B,MGC27382,MIR5695,NENF,NT5DC3,P2RX1,PCP4,PGM5,PLCD4,PTGFR,RBFOX3,RPL30,SCARA3,SLIT3,SNX29P1,SPATA4,ST8SIA1,TBX4,TXNRD1,VCL,VPS72,WFDC3和ZNF791。
骨髓:ADAMTS20,AFF2,ANKRD18B,ANKRD18DP,ANKRD20A5P,ANKRD20A8P,ANKRD26P1,ANKRD30BP2,ANKRD34B,ANKRD34C,ATP6V0B,AVPR1A,BLOC1S3,BOLL,BRIP1,C5orf63,CA1,CALB1,CALCR,CCDC39,CCDC96,CDCA5,CDH12,CDH9,CEACAM8,CENPE,CENPK,CFL1,CHAT,COMMD5,COMMD8,CRISP1,CRISP2,CSN1S1,CSN1S2AP,CT64,CXCR2,CXorf30,DAZL,DCDC1,DRGX,DSG1,DUT,DUX2,DUX4L2,DUX4L3,DYTN,EDA2R,EFCAB3,EPOR,EVX2,F13A1,FCAR,FCER1A,FKBP1B,FOXA2,GABPB1-AS1,GABRA1,GABRA4,GABRG1,GALNTL6,GFER,GFI1,GPR152,GPR158-AS1,GPRC6A,GRM1,GRP,GRXCR1,GYPA,HAGHL,HCRTR2,HEPHL1,HJURP,HK3,HMBS,HORMAD2,ID4,IL17RA,IL18RAP,KCNC2,KCNK18,KIF18A,KIF20B,KLHL1,LEF1-AS1,LHX1,LHX3,LHX8,LINC00273,LINC00558,LINC00645,LINC00648,LLPH,LOC100129620,LOC100270679,LOC100505776,LOC100506422,LOC284801,LOC392232,LOC399815,LOC401074,LOC401134,LOC440040,LOC440970,LOC642236,LOC727924,LOC728012,LPO,LRRIQ1,MAGEA11,MAGOHB,MEFV,MIF4GD,MIR548A3,MIR5692A1,MMP8,MMP9,MMRN1,MRGPRE,MS4A3,MSRB1,MYO3A,NCOR1P1,NDST3,NDST4,NHLRC4,NOXRED1,NPAP1,NUF2,OR8G1,OR8U8,ORC6,OSM,OTX2,PAX3,PBK,PCDH8,PDCL2,POTEA,PROK2,PRR7,RAB24,RAX,RBM46,RGS18,RGS19,RIMS2,RNF175,RRM2,SATB2-AS1,SCN11A,SCRT2,SERPINB10,SGOL2,SIX1,SKA3,SKOR1,SLC22A16,SLC4A10,SLC5A7,SLC5A8,SLCO6A1,SNAP91,SPAG16,SPATA16,SPDL1,SPINK13,STPG2,STXBP5L,TARM1,TDRD5,TEX15,THSD7B,TMPRSS11A,TMPRSS11B,TMPRSS11D,TRIM58,TUBB4B,UNC13C,USP6,VRK1,VSTM1,VWDE,WDR49,WFDC8,WFDC9,ZIC5,ZNF230,ZNF300P1,ZNF470,ZNF502,ZNF599和ZPBP。
脑组织:C1orf159,CCDC42B,CCDC8,CD248,CERCAM,CNTN2,CRB2,EVI5L,FZD9,HAPLN2,HPDL,LINC00575,LOC284950,LOC339666,LRIT1,PLEKHH1,SHISA2,SLC46A2,TFAP2E,TMEM235,TNFRSF18和ZFP36。
结肠:C1orf109,CACNA1F,COX7B,EFNB1,FGL2,FLJ34208,GNRH1,GSTT1,IL12A,KCND1,KDELR1,LAT,LOC100130992,LOC100287042,LOC401242,MRPL10,NT5C3B,PDZD4,PPYR1,RAD51D,RBMXL3,RENBP,SCNN1B,SERPINB5,SLC9A6,XBP1和ZNF189。
心肌组织:ABR,ADPRHL1,ASB18,ATP1A3,CCDC74A,CDH13,CHRNA10,CORO6,FSD2,GALNT16,GDAP1L1,GJA3,GLUD1P3,GPRC5B,LOC100506343,LRRC37A6P,LRRC4,MUL1,MYOM2,NDUFB8,NT5DC2,PCDHGA1,PCDHGA10,PCDHGA11,PCDHGA12,PCDHGA2,PCDHGA3,PCDHGA4,PCDHGA5,PCDHGA6,PCDHGA7,PCDHGA8,PCDHGA9,PCDHGB1,PCDHGB2,PCDHGB3,PCDHGB4,PCDHGB5,PCDHGB6,PCDHGB7,PXDNL,RHPN1-AS1,RPL3L,SGCG,TIMM21,TNNT1,TOR4A,UBAC1,WDR37,ZNF12,ZNF213,ZNF550,ZNF843和ZNF844。
下丘脑:AGAP6,ASTN1,BBS2,C18orf56,C19orf45,CINP,DGKI,DPY30,DROSHA,FAM169A,FAM66D,FONG,GALNT15,GDAP1,GHRH,GUSBP4,HIF1AN,IFIT1B,INTS2,JAKMIP2-AS1,KGFLP2,LINC00297,LINC00707,LOC100288069,LOC100507140,LPHN3,LYPD1,LZIC,MIR548T,MRAP,NTRK3,PDE6D,PPP1R17,PRSS54,PRSS55,PTPRA,RGS7,SNRNP35,SUGT1P1,UBE2Z,WDR47,WDYHV1,ZNF114,ZNF556和ZNF610。
肾:ABP1,AGPAT9,APH1B,ASAP2,ATP4B,ATP6V1A,BBOX1,BCRP3,C11orf63,C13orf35,C16orf96,C19orf21,CA12,CCDC64,COL4A3,CXCL14,CYS1,EIF4E2,EPB41L1,EVC,FIGNL2,FUT3,GALNT14,GLIS2,GUSBP11,HAVCR1,HOXC5,INADL,KATNA1,L2HGDH,LOC100130238,LOC100506305,LOC284100,LOC654433,LYG1,MORN4,MTNR1A,PAQR5,PARG,PAX2,PAX8,PLA2G15,POU5F1,PRKAB1,RNF113B,SENP8,SETD3,SLC22A2,SLC25A30,SLC9A3,SULT1C2,TBC1D7和TSPAN33。
肝:ABCB4,ABCC11,ABCC2,ABCG5,ABCG8,ACADSB,ACSM5,AGMO,AGXT2L1,AKR1C2,AKR1C4,AKR1D1,AMDHD1,APOB,APOH,APOM,AQP9,ARHGEF40,ASGR2,ASPG,ATP2B2,BCO2,BDH1,C3,C3P1,C5,C8A,C8B,C8orf74,CA5A,CABP2,CALR3,CD7,CDK10,CEACAM16,CES1,CFH,CFHR4,CHP1,CIDEB,CLPTM1L,CLRN3,CPN2,CREB3L3,CROCCP2,CYP2B6,CYP2C18,CYP2C19,CYP2C9,CYP2E1,CYP3A5,CYP7A1,DGAT2,DHODH,DPYS,DRG2,ECHS1,EDC4,EI24,ENO1,F13B,F2,F7,F9,FASN,FETUB,GCH1,GCKR,GDPD4,GFRA1,GHR,GLT1D1,GPAM,GSDMB,HAL,HAO1,HAPLN4,HPD,HPX,HYLS1,IGF2,IGF2-AS,IGFBP1,ISY1-RAB43,ITIH1,ITIH2,ITIH4,IVD,KLC4,LBP,LEFTY1,LIPG,LOC100288122,LOC284865,LPAL2,LRRC16B,MASP1,MGMT,MST1,MTTP,NAT9,NBR2,NELFE,NR1I2,NUP88,OSGIN1,PAH,PARD6A,PCSK9,PEX19,PGLYRP2,PHGDH,PHYH,PKLR,PLA2G12B,PLG,PNPLA3,POFUT1,POLR1E,PON1,PPL,PRAP1,PRKAG3,PROC,PUS3,RANBP10,RCE1,RND1,RNF123,RORC,RPUSD4,SAA2-SAA4,SCP2,SEC16B,SERPINA6,SERPINC1,SKIV2L,SLC13A5,SLC22A25,SLC25A20,SLC27A5,SLC30A10,SLCO1B3,SMLR1,SNAPC5,SPP2,SRD5A1,STAT2,STEAP3,SULT2A1,TFR2,THNSL2,TIAF1,TM6SF2,TMEM45A,TMPRSS6,TTC31,TTC38,UROC1,XYLB,ZCCHC9和ZSCAN22。
肺:ADAM9,ANKRD50,ARGLU1,ARL6,ARSJ,BMP5,BMPR2,BTG3,C1orf140,CALM2,CCDC102B,CCNL1,CCR5,CD36,CHN1,CLIC2,CPEB2,CRBN,CYP4Z2P,CYYR1,DACH1,DGKE,DGKH,DISP1,DOCK4,ETV1,EXOC1,FAM204A,FAT4,FGD5-AS1,FLJ34503,FRYL,GBP1P1,GNB4,GPR110,GPR116,HMCN1,HMGN1,IFI44,IL15,ITGA2,KAL1,KDR,KITLG,KLHL41,LDB2,LINC00032,LINC00240,LINC00551,LINC00657,LOC100131234,LOC100505495,LOC100507217,LOC643733,LPAR6,MGP,ODF2L,PEAK1,PKIA,PLEKHA1,PLEKHG7,PTPRB,QKI,RAD21,RALA,RAP2A,RCC1,SAMD12,SESTD1,SH3GLB1,SKAP2,SLC35A5,SMURF2,SPRED1,SRSF1,TCF4,TIGD4,TMEM207,TMOD3,UHMK1,VEGFC,XIST,YIPF5,ZC2HC1A和ZEB1。
淋巴结:AKNA,ANKRD34A,C14orf183,CCDC107,CD180,CD3G,CD74,CDC42SE2,CHMP7,COTL1,CYTH1,FAIM3,FAM65B,GPX4,GSTP1,HLA-DMA,HLA-DOA,HLA-DPB1,HVCN1,ICAM2,ICOS,IL6,ITGB7,LOC100130557,MDM4,METTL21D,MGC16275,MIR548AN,NAPSB,RPL39L,RPS11,SEPT6,SH2D3C,TAP1,TEAD2,TMEM60,TNFRSF9,TRAF1,UBAC2,UCP2和WDR87。
卵巢组织:ACTA2,ADAMTS5,AQP11,ATP1B2,BICD1,C7,CDH3,CDON,COL14A1,HS3ST1,KLF4,LEMD1-AS1,LINC00672,LOC100129617,LOC339298,LRRC17,NDP,NTF3,OMD,PDGFRA,PGR,ROBO4,RWDD4,SCD5,SERPINE2,SLC25A17,SNCAIP,SYTL4,TENM4,TSPAN5,UBXN8和ZNF93。
胰腺:ALDH1L2,ANKEF1,ASUN,B3GALNT2,BBIP1,C6orf201,CASP9,CCDC110,CCDC65,CDK14,CELA2B,CELA3B,CFTR,CHMP4C,CHRNA7,CLCN3,CLDN1,CPA3,CUZD1,DNAJC10,DNAJC3,EIF2S1,EIF4EBP1,ERO1LB,FAIM,FAM160A1,FAM162A,FAM221A,FAM24B-CUZD1,GARS,GUCA1C,HSPA13,IFRD1,INTS6,KCTD16,LINC00339,LMAN1,LOC154092,LOC201651,LOC644838,LYPD6B,MAN1A2,MGC72080,MKNK1,MPP6,MSRB2,NAA16,NOMO2,OSTC,PEX7,PGRMC2,PIK3CB,PLA2G12A,PM20D1,PPP1R9A,PRRC1,PRSS3,RNPC3,SCFD1,SCRN3,SERPINI2,SH3YL1,SLC16A7,SLC33A1,SLC4A4,SORBS2,SRBD1,SSR1,TDH,TDP2,TMEM51-AS1,TMEM65,TRHDE,TRIM44,UGT2A3,UMOD,WDFY2,WHAMM和XPOT。
胎盘:ACER2,ADAM12,ADCY10,ADCY7,ADORA2B,AIM1L,AKNAD1,ALDH3B2,AMOT,ANGPT2,APOLD1,ATF3,ATG9B,ATP6V1C2,ATRIP,BCAR3,BCAR4,BEAN1,BPGM,BTBD19,C11orf70,C16orf46,C16orf74,C17orf98,C1QTNF6,C2orf62,C2orf83,C3orf52,C4orf26,C4orf51,C6orf99,C7orf71,C9orf129,CACNA2D3-AS1,CAPN6,CCDC125,CEP41,CLEC7A,CPA4,CSF3R,CTSL3P,CXorf56,CYP19A1,DACT2,DDX59,DLX3,DLX5,DLX6-AS1,DNMT1,DUSP4,EBI3,EDARADD,EPAS1,EPS8L1,ERVFRD-1,ERVMER34-1,ETV3,ETV4,EXTL1,EZR,FAM184A,FAM89A,FANCE,FBLN1,FBN2,FHDC1,FOLR1,GATA2,GATA3,GBA,GCM1,GDPD3,GLDN,GM2A,GPR156,GSG1,GSTA3,GSTA4,HELLS,HOPX,HSD11B2,HSPBAP1,IGF2BP3,IGSF5,ISM2,KATNBL1,KIAA1467,KIAA1609,KISS1,KLRG2,L1TD1,LCMT1,LCTL,LIN28B,LINC00439,LOC100131564,LOC100506746,LOC100527964,LOC151475,LOC152578,LOC284551,LOC643441,MB21D2,MED12,METTL21C,MFSD2B,MGC16121,MINA,MORC4,MSANTD3,MUTYH,NOS3,NVL,NXF1,OLR1,OSCP1,OSTCP1,P2RY6,PCBP1-AS1,PDE6A,PGC,PGF,PLA1A,PLAC4,PPP1R14D,PSG11,PSG2,PSG6,PSG7,PSG8,PTGES,PVRL3-AS1,PVRL4,PWWP2B,RAB36,RHO,RNF222,RPSAP58,RS1,SBF2-AS1,SCIN,SDC1,SEMA3F,SEMA6D,SEPT12,SH2D7,SH3GLB2,SLC13A4,SLC26A2,SLC2A1-AS1,SMAGP,SMARCB1,SMIM13,SNX12,SP6,SPESP1,SPIRE2,ST3GAL6-AS1,SVEP1,SYT8,TENM3,TLR3,TMEM216,TMEM218,TMEM52B,TMPRSS7,TP63,TPRXL,TRIM29,TRPV5,TUFT1,USHBP1,VAMP5,VGLL1,WBP2NL,XRCC2,ZDHHC1,ZNF320,ZNF331,ZNF354B,ZNF468,ZNF525,ZNF702P,ZNF90,ZP3,ZSWIM2和ZSWIM7。
前列腺组织:ABCC4,ACPP,ALDH1A2,ANKRD66,AP1B1P1,ARG2,BEND4,C1orf85,C6orf132,C6orf52,CHRNA2,COQ7,EVX1,EYA2,FLJ39080,GDEP,HMGN2P46,ISX,KLKP1,MCCC2,MEAF6,MFSD4,MRPS23,NCAPD3,OACYLP,OAZ3,OR51E2,PAK1IP1,PCAT1,PI15,PPP1R7,PSMA4,SCNN1G,SLC14A1,SLC26A3,SLC2A12,SLC30A4,SLC35F2,TMEM79,TPM3P9,TTC12,USP50,ZNF350,ZNF532和ZNF589。
平滑肌组织:AKIP1,ARHGEF26-AS1,ATG4A,BOLA3,CHMP4A,DHH,EPPK1,FCHSD1,GADL1,GCC1,GIPC3,HIGD2B,HTR3C,LINC00654,LOC91948,OLFML3,PTGES3L,WSCD2,ZNF202,ZNF205-AS1和ZNF426。
胃:ACOT1,C12orf54,CREB3,DDN,FAM50A,FNDC4,GORASP1,GUCA1B,IMPDH2,LINC00284,LOC100128076,LOC100128682,LOC100131434,LRP10,LRRC55,LRRC73,NOTO,RNF112,RTBDN,SIGLEC8,TNN,TRIM50,UBE2T,ZNF391和ZNF792。
睾丸:ALX4,AQP2,ATAD3B,C11orf85,CABLES2,CCDC114,CCDC27,CCNF,CD300C,CILP,DES,DMRT1,DNAJB8-AS1,DRD4,EFCAB6-AS1,FAM153B,FAM163B,FGD2,HSD17B3,IFI27L1,IGFN1,ITPR3,KCNK15,KIFC2,KRT78,KRT82,LOC100506385,LOC283914,LOC284661,LOC399829,LOC653712,LOC728716,MAGED2,MYH16,MYLK2,NPTX2,PLK5,PMS2CL,PNPLA1,PODNL1,POLD1,PRMT8,PTPRVP,RD3,RIMS4,RNU6-81,RPL26L1,SALL4,SERPINA10,SPATA31E1,STAB1,SULT4A1,TCERG1L,TEKT4P2,THEG,TMEM130,TPO,UPK3B,WASH3P,WRAP53,ZNF280B和ZNF793。
(d)差异表现的、差异表达的组织特异性基因-集2:
在一些实施方案中,与参考基因座相关的组织特异性基因是差异表现以及差异表达的。这些基因也可用于对未知起源的组织或细胞样品概率性分配起源组织,获自人类受试者的无细胞流体样品就可以如此。代表性的差异表现的、差异表达的组织特异性基因,集2如下:
膀胱:AARD,ADARB1,AKR1B10,CRYM-AS1,EPHA3,GTSF1,KCNMB1,MAP1B,NT5DC3,P2RX1,PCP4,PGM5,PLCD4,PTGFR,RBFOX3,SCARA3,SLIT3,SNX29P1,ST8SIA1,TBX4,TXNRD1,VCL和WFDC3。
骨髓:ABCA13,AZU1,CA1,CEACAM8,CLEC6A,DAZL,DRGX,DYTN,ELANE,FCAR,GFI1,GYPA,HK3,IL18RAP,LINC00333,LINC00550,LINC00558,LIPN,LOC100129620,LOC442028,LPO,MEFV,MMP8,MMP9,MPO,MS4A3,MYB,MYO1F,NCOR1P1,NME8,OR8U8,OSCAR,PARPBP,PAX3,PDCL2,PRDM13,PROK2,RGS18,RGS21,RRM2,RXFP2,SERPINB10,SLC22A16,SPATA16,SPI1,SPTA1,TARM1,TMPRSS15,TRIM58,VSTM1和XKR3。
脑组织:ASPHD1,BRSK1,CCDC177,CNTN2,HAPLN2,KCNJ10,KIF1A,LGI3,NCAN,NR2E1,RHBDL3,TMEM151A,TMEM235,TMEM59L和ZNF488。
结肠:FGL2和SCNN1B。
心肌组织:ADPRHL1,ASB18,ATP1A3,CDH13,CORO6,FSD2,GALNT16,GJA3,MYOM2,PCDHGA1,PCDHGA10,PCDHGA11,PCDHGA12,PCDHGA2,PCDHGA3,PCDHGA4,PCDHGA5,PCDHGA6,PCDHGA7,PCDHGA8,PCDHGA9,PCDHGB1,PCDHGB2,PCDHGB3,PCDHGB5,PCDHGB6,PCDHGB7,PXDNL,RPL3L,SGCG和TNNT1。
下丘脑:ASTN1和DGK1。
肾:BBOX1,BCRP3,CA12,COL4A3,CXCL14,CYS1,EVC,FIGNL2,GALNT14,GLIS2,HAVCR1,LOC100130238,PAQR5,PAX2,PAX8,PLA2G15,SLC22A2,SLC9A3,SULT1C2和TSPAN33。
肝:ABCC2,ABCG5,ABCG8,AHSG,AKR1C4,AMDHD1,APOH,ASGR1,ASGR2,C3P1,C8A,C8B,C9,CA5A,CFHR4,CPN2,CREB3L3,CYP2B6,CYP2C9,CYP2E1,CYP3A4,DHODH,F12,F2,F7,GC,HAL,HPD,HPX,INHBC,ITIH1,ITIH2,ITIH3,KNG1,LBP,PGLYRP2,PLG,PROC,PRODH2,SERPINA6,SERPINC1,SLC13A5,SLC22A1,SLC25A47,SLC27A5,SULT2A1,TFR2,TMPRSS6和UROC1。
肺:ANXA3,BMP5,CYP4Z2P,DRAM1,FMO2,GNA15,IDO1,KCNS3,LIMCH1,MBIP,PAPSS2,PCDH17,RSPH4A,RTKN2和TRPC6。
淋巴结:ACAP1,AKNA,ARHGAP9,BCL11B,BIRC3,CARD11,CD180,CD37,CD3E,CD3G,CD40,CETP,CIITA,CLEC2D,CNR2,CXCR5,DOCK10,ETS1,GPR132,GPR18,ICAM2,ICOS,ITGB7,ITK,KIAA1551,KLHL6,LCK,LINC00426,LY86,MDS2,MEOX2,MX2,NAPSB,PATL2,PCED1B-AS1,PIK3CD,PLVAP,POU2F2,SCIMP,SCML4,SLFN12L,SMAP2,SP110,SPIB,TLR10,TMC8,TMEM156,TNFAIP8,TNFRSF9,TNFSF11,TRAF1,TRIM22,UCP2和ZC3H12D。
卵巢:ABCA10,ACSS3,ADAMTS5,AQP11,C7,CDH3,CDON,CLDN11,COL14A1,COLEC11,ESR2,FAM198B,FZD3,GALNT10,GLI2,GSTM5,HS3ST1,LEMD1-AS1,LHX9,LRRC17,MCHR1,MRC2,NTF3,OMD,PDGFRA,PGR,PKNOX2,PTCH2,RWDD4,SCD5,SERPINE2,SIMC1,SLC25A17,SNCAIP,SULF2,TENM4,TSPAN5,TTC8和UBXN8。
胰腺:ALDH1L2,ANKEF1,ASNS,B3GALNT2,BCAT1,CASP9,CCDC110,CELA2B,CELA3B,CFTR,CHMP4C,CLDN1,CNIH3,COCH,CUZD1,DEFB1,EGF,EIF4EBP1,ERP27,FAM24B-CUZD1,FBXW12,GUCA1C,KCTD16,KIAA1324,LINC00339,LNX2,MKNK1,NAA16,NPHS1,PAIP2B,PM20D1,PRSS3,SCGN,SEL1L,SERPINI2,SH3YL1,SLC33A1,SLC4A4,TC2N,TDH,TMEM51-AS1,TRHDE和UMOD。
胎盘:ADAM12,ATG9B,ATP6V1C2,BCAR4,BMP1,BPGM,CSF3R,CYP11A1,CYP19A1,DACT2,DEPDC1B,DLX5,EBI3,GCM1,GPR78,GSTA3,IGF2BP3,IGSF5,ISM2,KISS1,KRT23,LIN28B,MMP11,PGF,PSG11,PSG2,PSG3,PSG6,PSG7,PSG8,SPTLC3,TPRXL,ZFAT和ZNF554。
前列腺:ABCC4,ACPP,ALOX15B,ANO7,AP1B1P1,ARG2,BEND4,C6orf132,C6orf52,CANT1,CASZ1,CBFA2T2,CHRM1,CHRNA2,COL26A1,EVX1,EYA2,FAM135A,HMGN2P46,KLK2,KLKP1,MME,MPPED2,MUC12,NANS,NCAPD3,NEFH,NIPAL3,OACYLP,OR51E2,PAK1IP1,PDE9A,PI15,PMEPA1,POTEF,RDH11,SCNN1G,SIM2,SLC14A1,SLC22A3,SLC2A12,SLC30A4,SLC35F2,SLC37A1,SLC39A6,SPDEF,STEAP2,THSD4,TMEM79,TPM3P9,TXNDC16,URB1,VIPR1,ZNF350,ZNF532,ZNF613,ZNF649,ZNF761和ZNF827。
平滑肌:GADL1,GIPC3,PTGES3L和WSCD2。
睾丸:CCDC27,DMRT1,DNAJC5G,FBXO24,IGLL1,MOV10L1,SEPT14,THEG和TTC16。
(e)差异表现的组织特异性基因-集3:
根据组织类型,集3中的基因被组织为表1至19中集3A至3S,每个基因通过名称和染色体位置鉴定,并鉴定出相对贡献(使用glmnet1A确定)。这些基因最佳地用于使用来自多个组织输入源的多组羟甲基化概况来区分组织类型,而集1和集2的基因是示例性的,使用衍生自羟甲基化概况的拟合模型鉴定未知组织或细胞样品。
第3组:
表1–集3A:
Figure BDA0002931492790000381
Figure BDA0002931492790000391
表2–集3B:
Figure BDA0002931492790000392
Figure BDA0002931492790000401
表3–集3C:
Figure BDA0002931492790000411
表4–集3D:
Figure BDA0002931492790000412
Figure BDA0002931492790000421
表5–集3E:
Figure BDA0002931492790000422
Figure BDA0002931492790000431
表6–集3F:
Figure BDA0002931492790000432
Figure BDA0002931492790000441
表7–集3G:
Figure BDA0002931492790000442
表8–集3H:
Figure BDA0002931492790000451
表9–集3I:
Figure BDA0002931492790000452
Figure BDA0002931492790000461
表10–集3J:
Figure BDA0002931492790000462
Figure BDA0002931492790000471
表11–集3K:
Figure BDA0002931492790000472
表12–集3L:
Figure BDA0002931492790000481
表13–集3M:
Figure BDA0002931492790000482
Figure BDA0002931492790000491
表14–集3N:
Figure BDA0002931492790000492
表15–集3O:
Figure BDA0002931492790000501
表16–集3P:
Figure BDA0002931492790000502
Figure BDA0002931492790000511
表17–集3Q:
Figure BDA0002931492790000512
Figure BDA0002931492790000521
表18–集3R:
Figure BDA0002931492790000522
表19–集3S:
Figure BDA0002931492790000523
Figure BDA0002931492790000531
(f)样品羟甲基化概况与参考曲线的比较:
接下来,组织分配方法涉及将(a)中检测到的羟甲基化概况与参考数据集中的参考曲线进行比较。为了便于比较,就概况中数据的类型、量和格式而言,检测到的羟甲基化概况应当以与参考羟甲基化概况相同的形式生成。
样品DNA的羟甲基化概况与参考数据集中的羟甲基化概况之间的比较涉及分析数据集中多个羟甲基化向量间的样品羟甲基化概况。例如,单独数据点可以是样品和一个或多个参考羟甲基化概况两者中特定位点处羟甲基化的存在或不存在;相对于一个或多个参考羟甲基化概况,样品中特定基因座处的更高或更低的羟甲基化密度;等等。
可以使用本领域公认的评估多个特征间的相似性的方法来进行参考数据集中的大量参考羟甲基化概况间的样品羟甲基化概况的比较,并且可以使用任何适当的现有技术数学方法。建立数据集之间相关性的公知数学方法采用如下方法,如判别分析(discriminant analysis,DA)(例如线性,二次,规则化DA),判别功能分析(DiscriminantFunctional Analysis,DFA),内核方法(Kernel Methods)(例如SVM),多维标度(Multidimensional Scaling,MDS),非参数方法(例如,k最近邻分类器(k-Nearest-Neighbor Classifiers),PLS(偏最小二乘方(Partial Least Squares)),基于树的方法(例如,逻辑回归,CART,随机森林方法,增强/分组方法(Boosting/Bagging Methods)),广义线性模型(例如,逻辑回归),基于主成分的方法(例如,SIMCA),广义加性模型,基于模糊逻辑的方法,基于神经网络和遗传算法的方法,如本文前面所解释的。在参考羟甲基化向量的较大参考集中进行比较时,选择使用合适的数学方法来评估检测到的羟甲基化概况在本领域技术范围内,因此不进行详细描述。
与这些统计方法有关的细节可在以下参考文献中找到:Ruczinski et al.(2003)J.Computational and Graphical Statistics 12:475-511(2003);Friedman(1989)J.Amer.Statistical Assoc.84:165-175;Hastie et al.,The Elements of StatisticalLearning,Springer Series in Statistics(2001);Breiman et al.,Classificationand Regression Trees(Wadsworth Publishing,1984);Breiman(2001)Machine Learning45:5-32;Pepe,The Statistical Evaluation of Medical Tests for Classificationand Prediction,Oxford Statistical Science Series,28(2003);以及Duda et al.,Pattern Classification(Wiley Interscience,2nd Edition,2001)。在一些技术中,期望生成羟甲基化差异数据集,其包括在DNA样品的羟甲基化概况与多个参考羟甲基化概况中的每个之间鉴定的差异。
因此,分析了DNA样品的羟甲基化概况和参考羟甲基化概况集之间的相似性和差异,并且基于该分析,对样品DNA概率性分配起源组织。结果可以是起源组织是特定组织(例如,骨髓组织、肺组织等)的可能性百分比形式的概率。结果也可以是两个或更多个概率的形式,每个概率以起源组织来自不同组织的可能性百分比的形式。后一种结果可以采取具有相应概率的组织列表的形式,例如,一个DNA样品的结果可以如下读取:乳腺组织,79%;子宫组织,11%;子宫内膜组织,10%。对于特定目的,本领域的普通技术人员还可以设想和修改呈现所获得的一个或多个结果的其他方法。
假设参考数据集中的羟甲基化概况是足够组织特异的,和/或在与样品DNA羟甲基化概况比较后,羟甲基化概况的组合产生统计上显著的结果,那么本发明的方法以高灵敏度和高特异性表征起源组织。
3.相关使用方法:
参考集中的羟甲基化向量可以包括“正常”羟甲基化概况,即,相对于与特定参考基因座相关的特定组织或器官,与没有展现任何病理的受试者中的组织特异性基因相关的参考基因座的羟甲基化概况。羟甲基化向量还可以包括与以下相关的羟甲基化概况:
特定组织的不利状况、病症或疾病,例如肿瘤,赘生物或癌症的存在;
形成特定组织的不利状况、病症或疾病,例如肿瘤,赘生物或癌症的可能性(在这种情况下,可以实施该方法以检测恶变前的状况);
受特定状况、疾病或病症不利影响的受试者成为特定治疗过程的反应者的可能性;和/或
受特定状况、疾病或病症不利影响的受试者对特定治疗过程作出反应的可能性。
因此,在本发明的另一个实施方案中,提供了一种用于检测人类受试者的组织或器官状况的方法,该方法包括:(a)生成获自受试者的无细胞流体样品中DNA的羟甲基化概况;(b)将(a)中生成的羟甲基化概况与参考集中的多个参考羟甲基化概况中的每个进行比较,每个参考羟甲基化概况与以下相关:(i)与组织特异性基因相关的参考基因座和(ii)特定组织或器官的状况;和(c)基于为受试者生成的羟甲基化概况与参考羟甲基化概况的比较,鉴定受试者中特定组织或器官的状况。
另外,该方法可以包括基于所鉴定的受试者中特定组织或器官的状况做出诊断、治疗决策或预后。
在一个相关的实施方案中,本发明提供了一种用于检测人类受试者的组织或器官状况变化的方法,包括:(a)生成获自受试者的无细胞流体样品中的DNA片段的一个或多个基因座处初始羟甲基化概况,其中羟甲基化概况与组织或器官的初始状况有关;(b)在后来的时间,生成获自受试者的无细胞流体样品中的相同的一个或多个基因座处随后的羟甲基化概况;和(c)将随后的羟甲基化概况与初始羟甲基化概况进行比较,以检测组织或器官状况的变化。
前述方法可以涉及在一个或多个额外时间重复步骤(b),以便监测与组织或器官相关的状况、疾病或病症的进展,即在正在进行患者评估的情境下。所述方法使得能够就受影响的组织或器官的状况、疾病或病症而言对治疗干预(例如正在进行的药物治疗等)的功效进行容易的评估。该方法还可以涉及监测基因表达随时间的变化,即在整个患者评估期间。
在另一个相关的实施方案中,本发明提供了一种用于确定受试者形成特定组织或器官的不利状况、疾病或病症的可能性的方法,其中该方法涉及:(a)生成在获自受试者的无细胞流体样品中的DNA片段的一个或多个基因座处羟甲基化概况,其中羟甲基化概况与形成特定组织或器官的不利状况、疾病或病症的可能性有关;(b)将(a)中生成的羟甲基化概况与参考集中的多个参考羟甲基化概况中的每个进行比较,每个参考羟甲基化概况与以下相关:(i)与组织特异性基因相关的参考基因座和(ii)形成特定组织或器官的不利状况、疾病或病症的可能性;和(c)基于为受试者生成的羟甲基化概况与参考羟甲基化概况的比较,鉴定受试者将形成特定组织或器官的不利状况、疾病或病症的可能性。
特别感兴趣的应用包括将特定组织的癌症表征为癌(carcinoma),肉瘤(sarcoma),淋巴瘤,白血病,生殖细胞瘤(germ cell tumor),母细胞瘤(blastoma)等,如Song等的美国专利公开号US 2017/0298422,先前通过引用并入本文。
癌包括但不限于上皮新生物,鳞状细胞新生物鳞状细胞癌,基底细胞新生物基底细胞癌,移行细胞乳头状瘤和癌,腺瘤和腺癌(腺体),腺瘤,腺癌,皮革样胃胰岛素瘤(linitis plastica insulinoma),胰高血糖素瘤(glucagonoma),胃泌素瘤(gastrinoma),舒血管肠肽瘤(vipoma),胆管上皮癌(cholangiocarcinoma),肝细胞癌(hepatocellularcarcinoma),腺样囊性癌(adenoid cystic carcinoma),阑尾类癌肿瘤(carcinoid tumorof appendix),泌乳素瘤(prolactinoma),嗜酸粒细胞腺瘤(oncocytoma),Hurthle细胞腺瘤,肾细胞癌,Grawitz肿瘤,多发性内分泌腺瘤,子宫内膜样腺瘤,附件和皮肤附件新生物(adnexal and skin appendage neoplasms),粘液表皮样新生物(mucoepidermoidneoplasms),囊性、粘液性和浆液性新生物,囊腺瘤(cystadenoma),腹膜假性粘液瘤(pseudomyxoma peritonei),导管,小叶和骨髓新生物(ductal,lobular and medullaryneoplasms),腺泡细胞新生物,复杂的上皮新生物,沃辛瘤(Warthin's tumor),胸腺瘤,特化性腺新生物,性索间质瘤,泡膜细胞瘤(thecoma),粒层细胞瘤(granulosa cell tumor),卵巢雄性细胞瘤(arrhenoblastoma),Sertoli-Leydig细胞瘤,血管球瘤(glomus tumor),副神经节瘤(paraganglioma),嗜铬细胞瘤(Pheochromocytoma),血管球瘤,痣和黑色素瘤,黑素细胞痣(melanocytic nevus),恶性黑色素瘤,黑色素瘤,结节性黑色素瘤(nodularmelanoma),增生性痣(dysplastic nevus),恶性雀斑样黑色素瘤(lentigo malignamelanoma),浅表扩散性黑色素瘤,和恶性肢端雀斑样黑色素瘤(malignant acrallentiginous melanoma)。肉瘤包括但不限于阿斯金氏肿瘤(Askin's tumor),葡萄状肉芽肿(botryoides),软骨肉瘤,尤因氏肉瘤(Ewing's sarcoma),恶性血管内皮瘤,恶性神经鞘瘤(schwannoma),骨肉瘤,软组织肉瘤,包括:肺泡软性部分肉瘤,血管肉瘤,乳腺叶状囊肉瘤(cystosarcoma phyllodes),皮肤纤维肉瘤(dermatofibrosarcoma),类结缔织瘤(desmoid tumor),结缔组织增生性小圆细胞肿瘤(desmoplastic small round celltumor),上皮样肉瘤(epithelioid sarcoma),骨骼外软骨肉瘤(extraskeletalchondrosarcoma),骨骼外骨肉瘤(extraskeletal osteosarcoma),纤维肉瘤,血管外皮细胞瘤(hemangiopericytoma),血管肉瘤(hemangiosarcoma),卡波西肉瘤(Kaposi'ssarcoma),平滑肌肉瘤(leiomyosarcoma),脂肪肉瘤,淋巴管肉瘤,淋巴肉瘤,恶性纤维组织细胞瘤,神经纤维肉瘤(neurofibrosarcoma),横纹肌肉瘤(rhabdomyosarcoma)和滑膜肉瘤。淋巴瘤和白血病包括但不限于慢性淋巴细胞性白血病/小淋巴细胞性淋巴瘤,B细胞幼淋巴细胞性白血病,淋巴浆细胞性淋巴瘤(如Waldenstrom巨球蛋白血症),脾边缘区淋巴瘤,浆细胞骨髓瘤,浆细胞瘤,单克隆免疫球蛋白沉积病,重链疾病,结外边缘区B细胞淋巴瘤(extranodal marginal zone B cell lymphoma),也称为MALT淋巴瘤,结边缘区B细胞淋巴瘤(nmzl),滤泡性淋巴瘤,套细胞淋巴瘤,弥漫性大B细胞淋巴瘤,纵隔(胸腺)大B细胞淋巴瘤,血管内大B细胞淋巴瘤,原发性渗出性淋巴瘤,伯基特淋巴瘤/白血病,T细胞幼淋巴细胞性白血病,T细胞大颗粒性淋巴细胞白血病,侵袭性NK细胞白血病,成人T细胞白血病/淋巴瘤,结外NK/T细胞淋巴瘤,鼻型、肠病型T细胞淋巴瘤,肝脾性T细胞淋巴瘤,母细胞性NK细胞淋巴瘤(blastic NK cell lymphoma),蕈样真菌病(mycosis fungoides),塞氏综合征(Sézary syndrome),原发性皮肤CD30阳性T细胞淋巴增生性疾病,原发性皮肤间变性大细胞淋巴瘤(primary cutaneous anaplastic large cell lymphoma),淋巴瘤样丘疹,血管免疫母细胞性T细胞淋巴瘤,周围性T细胞淋巴瘤,未指明,间变性大细胞淋巴瘤,经典霍奇金淋巴瘤(结节性硬化,混合细胞,富淋巴细胞,淋巴细胞消减或未消减)和以结节性淋巴细胞为主的霍奇金淋巴瘤。生殖细胞肿瘤包括但不限于生殖细胞瘤,无性细胞瘤(dysgerminoma),精原细胞瘤,非生殖细胞生殖细胞瘤(nongerminomatous germ celltumor),胚胎癌,内胚窦瘤,绒毛膜癌,畸胎瘤,多胚瘤和成性腺细胞瘤。母细胞瘤包括但不限于肾母细胞瘤,髓母细胞瘤和视网膜母细胞瘤。其他癌症包括但不限于唇癌,喉癌,下咽癌,舌癌,唾液腺癌,胃癌,腺癌,甲状腺癌(髓质癌和乳头状甲状腺癌),肾癌,肾实质癌,子宫颈癌,子宫体癌,子宫内膜癌,绒毛膜癌,睾丸癌,泌尿癌,黑色素瘤,脑肿瘤,例如成胶质细胞瘤,星形细胞瘤,脑膜瘤,髓母细胞瘤和周围神经外胚层肿瘤,胆囊癌,支气管癌,多发性骨髓瘤,基底细胞瘤(basalioma),畸胎瘤,视网膜母细胞瘤,脉络膜黑色素瘤,精细胞瘤,横纹肌肉瘤,颅咽肉瘤(craniopharyngeoma),骨肉瘤,软骨肉瘤,肌肉瘤,脂肪肉瘤,纤维肉瘤,尤因氏肉瘤和浆细胞瘤。
在另一个实施方案中,所分析的癌症可以是肺癌,包括非小细胞肺癌和小细胞肺癌(包括小细胞癌(燕麦细胞癌(oat cell cancer)),混合的小细胞/大细胞癌,以及合并小细胞癌),结肠癌,乳腺癌,前列腺癌,肝癌,脑癌,肾癌,卵巢癌,胃癌,皮肤癌,骨癌,胃癌,乳腺癌,胰腺癌,神经胶质瘤,成胶质细胞瘤,肝细胞癌,乳头状肾癌,头颈鳞状细胞癌,白血病,淋巴瘤,骨髓瘤或实体瘤。
癌症可以是急性成淋巴细胞性白血病;急性髓样白血病;肾上腺皮质癌;艾滋病相关的癌症;艾滋病相关淋巴瘤;肛门癌;阑尾癌;星形细胞瘤;非典型的类畸样/杆状肿瘤;基底细胞癌;膀胱癌;脑干神经胶质瘤;脑肿瘤(包括脑干神经胶质瘤,中枢神经系统非典型类畸样/杆状肿瘤,中枢神经系统胚胎肿瘤,星形细胞瘤,颅咽管瘤,室管膜母细胞瘤,室管膜瘤,髓母细胞瘤,髓上皮瘤,中间分化的松果体实质瘤,幕上原始神经外胚瘤和松果体母细胞瘤);乳腺癌;支气管肿瘤;伯基特淋巴瘤;原发部位未知的癌症;类癌肿瘤;原发部位未知的癌;中枢神经系统非典型类畸样/杆状肿瘤;中枢神经系统胚胎肿瘤;宫颈癌;儿童期癌症;脊索瘤;慢性淋巴细胞性白血病;慢性骨髓性白血病;慢性骨髓增生性疾病;结肠癌;结肠直肠癌;颅咽管瘤;皮肤T细胞淋巴瘤;内分泌胰腺胰岛细胞瘤;子宫内膜癌;室管膜母细胞瘤(ependymoblastoma);室管膜瘤;食道癌;鼻腔神经胶质瘤(esthesioneuroblastoma);尤因氏肉瘤;颅外生殖细胞肿瘤;性腺外生殖细胞肿瘤;肝外胆管癌;胆囊癌;胃癌;胃肠类癌肿瘤;胃肠道间质细胞瘤;胃肠道间质瘤(GIST);妊娠滋养细胞肿瘤;胶质瘤;毛细胞白血病;头颈癌;心脏癌;霍奇金淋巴瘤;下咽癌;眼内黑色素瘤;胰岛细胞瘤;卡波细肉瘤;肾癌;朗格汉斯(Langerhans)细胞组织细胞增生症;喉癌;唇癌;肝癌;恶性纤维组织细胞瘤骨癌;髓母细胞瘤;髓上皮瘤(medulloepithelioma);黑色素瘤;Merkel细胞癌;Merkel细胞皮肤癌;间皮瘤;原发性隐匿性转移性鳞状颈癌(metastatic squamous neck cancer withoccult primary);口腔癌;多发性内分泌肿瘤综合征;多发性骨髓瘤;多发性骨髓瘤/浆细胞新生物;蕈样真菌病(mycosis fungoides);骨髓增生异常综合症;骨髓增生性新生物;鼻腔癌;鼻咽癌;成神经细胞瘤;非霍奇金淋巴瘤;非黑素瘤皮肤癌;非小细胞肺癌;口癌(oralcancer);口腔癌(oral cavity cancer);口咽癌;骨肉瘤;其他脑和脊髓肿瘤;卵巢癌;卵巢上皮癌;卵巢生殖细胞肿瘤;卵巢低恶性潜能肿瘤;胰腺癌;乳头状瘤病;鼻旁窦癌;甲状旁腺癌;骨盆癌;阴茎癌;咽癌;松中间分化的松果体实质肿瘤(pineal parenchymal tumorsof intermediate differentiation);松果体母细胞瘤(pineoblastoma);垂体瘤;浆细胞新生物/多发性骨髓瘤;胸膜肺母细胞瘤;原发性中枢神经系统(CNS)淋巴瘤;原发性肝细胞肝癌;前列腺癌;直肠癌;肾癌;肾细胞(肾)癌;肾细胞癌;呼吸道癌症;视网膜母细胞瘤;横纹肌肉瘤;唾液腺癌;塞氏综合症;小细胞肺癌;小肠癌;软组织肉瘤;鳞状细胞癌;鳞状颈癌;胃癌;幕上原始神经外胚层肿瘤;T细胞淋巴瘤;睾丸癌;咽喉癌;胸腺癌;胸腺瘤;甲状腺癌;移行细胞癌;肾盂和输尿管移行细胞癌;滋养细胞肿瘤;输尿管癌;尿道癌;子宫癌;子宫肉瘤;阴道癌;外阴癌;Waldenstrom巨球蛋白血症;或威尔姆氏瘤(Wilm's tumor)。本发明的方法可用于分配受试者的羟甲基化概况指示一种或多种前述癌症的可能性。
该实施方案的一个方面涉及未知原发癌(Carcinomas of Unknown Primary,CUP),一种在体内发现恶性细胞,即发生了转移,但原发癌的起源组织未知的疾病。本发明的方法在这种情况下是有用的,只要可以将起源组织概率性分配给CUP即可。
将样品DNA的羟甲基化概况与参考数据集中的组织特异性羟甲基化概况进行比较还可提供关于心血管疾病的信息,例如动脉粥样硬化,充血性心力衰竭,易损斑块(vulnerable plaque),中风或缺血。心血管疾病或病症可以是高血压,狭窄,血管阻塞或血栓形成事件。通过比较所提供的其他信息与器官毒理学有关。作为一个示例,肝或肾中UR基因的存在可以表明特定药理活性剂的毒性。作为另一个示例,UR基因可用于确定器官内细胞死亡的程度。作为另外的示例,UR和DE基因的组合可用于鉴定器官内的细胞功能障碍。
组织特异性的其他不利状况、病症和疾病也在本文中受到关注,并且包括但不限于炎症性疾病,免疫性疾病,自身免疫性疾病,神经性疾病和传染性疾病,如Song等人的美国专利公开No.2017/0298422所述。
在另一个实施方案中,任何上述方法可以与甲基化分析结合。确定甲基化概况的方法是已知的。该实施方案涉及样品DNA甲基化概况的确定及其在扩大的比较中的用途,其中除了羟甲基化分析之外,还使用类似于羟甲基化概况参考集的甲基化概况参考集来比较甲基化概况。优选的方法涉及从单个DNA样品生成DNA甲基化概况和羟甲基化概况,如Arensdorf的临时美国专利申请序列号62/630,798和Song等人的美国专利公布2017/0298422中所述,其早先通过引用并入本文。
在另一个实施方案中,提供了一种分析获自人血浆的无细胞DNA样品的改进的方法,其中对所述样品中的无细胞DNA片段进行分离、扩增和测序,其中所述改进包括如下鉴定所述样品被起源自外周血单个核细胞(PBMC)的基因组物质的污染:(a)生成所述无细胞样品中DNA片段的羟甲基化概况;和(b)将(a)中生成的所述羟甲基化概况与参考集中的多个参考羟甲基化概况中的每个进行比较,每个参考羟甲基化概况与对应于组织特异性基因的参考基因座相关,其中所述参考羟甲基化概况包括至少一个PBMC羟甲基化概况;和(c)自所述比较鉴定起源自PBMC的基因组物质的存在。该方法还可包括从(b)和(c)估计PBMC基因组污染的水平,并基于PBMC基因组污染的水平确定样品是否适合于无细胞DNA分析。在该实施方案中,参考组任选地包含多个参考羟甲基化概况的向量,每个概况对应于与PBMC亚型,即淋巴细胞,包括T细胞,B细胞和NK细胞;单核细胞;和树突状细胞相关的基因座。

Claims (56)

1.一种对获自人类受试者的无细胞流体样品中的核酸概率性分配起源组织的方法,其包括:
(a)生成所述核酸的羟甲基化概况;
(b)将所述核酸的羟甲基化概况与参考数据集中的多个参考羟甲基化概况中的每个进行比较,每个参考羟甲基化概况对应于包含在与组织特异性基因相关的基因组区域内的参考基因座;
(c)鉴定至少一个参考基因座,其具有与(a)中检测到的羟甲基化概况实质相似的参考羟甲基化概况;和
(d)基于(c)中鉴定的所述至少一个参考基因座和相应的组织特异性基因,对所述核酸分配至少一种起源组织。
2.根据权利要求1的方法,其中每个参考基因座包含在与组织特异性基因相关的差异羟甲基化的基因组区域内。
3.根据权利要求2的方法,其中所述参考集包括与多个组织特异性基因相关的参考基因座的羟甲基化概况。
4.根据权利要求3的方法,其还包括在(c)和(d)之间,(c’)从实质相似性确定所述核酸具有与所述至少一个参考基因座相对应的起源组织的概率。
5.根据权利要求4的方法,其中从羟甲基化差异数据集检测所述实质相似性,所述羟甲基化差异数据集包括在所述核酸的所生成的羟甲基化概况与所述多个参考羟甲基化概况中的每个之间鉴定的差异。
6.根据权利要求1的方法,其中差异羟甲基化的基因组区域在功能上与所述相应的组织特异性基因相关。
7.根据权利要求1至6中任一项的方法,其中所述参考集包含羟甲基化向量,所述羟甲基化向量至少鉴定以下项:在特定参考基因座处的羟甲基化概况;与所述参考基因座相关的所述组织特异性基因;以及与所述基因和所述参考基因座相关的组织。
8.根据权利要求7的方法,其中在每个参考基因座处的羟甲基化概况包括以下至少之一:
所述参考基因座内的羟甲基化密度;
所述参考基因座内的总5-羟甲基胞嘧啶残基;
所述参考基因座内的所述5-羟甲基胞嘧啶残基的位置;
将羟甲基化的位点鉴定为半羟甲基化或完全羟甲基化;和
所述参考基因座内的所述5-羟甲基胞嘧啶残基的相对位置。
9.根据权利要求8的方法,其中在每个参考基因座处的羟甲基化概况包括羟甲基化密度。
10.根据权利要求9的方法,其中所述羟甲基化密度包含5-羟甲基胞嘧啶残基与所述参考基因座内总的经修饰的胞嘧啶残基和未修饰的胞嘧啶残基的比率。
11.根据权利要求9的方法,其中所述羟甲基化密度包含羟甲基化的CpG位点处的胞嘧啶级份。
12.根据权利要求8的方法,其中所述至少一个参考基因座包含在基因体或其组分内。
13.根据权利要求12的方法,其中所述至少一个参考基因座包含在内含子或外显子内。
14.根据权利要求8的方法,其中所述至少一个参考基因座包含在所述基因体外部的基因组注释特征内。
15.根据权利要求14的方法,其中所述至少一个参考基因座包含在启动子,增强子,转录起始位点,转录终止位点,DNA结合位点或其组合内。
16.根据权利要求12的方法,其中所述至少一个参考基因座包含DNA结合位点。
17.根据权利要求16的方法,其中所述DNA结合位点包含沉默区域。
18.根据权利要求16的方法,其中所述DNA结合位点包含转录因子结合位点。
19.根据权利要求18的方法,其中所述转录因子结合位点包含转录阻遏物结合位点。
20.根据权利要求19的方法,其中所述DNA结合位点包含CTCF结合位点。
21.根据权利要求1的方法,其还包括确定以下至少一项:核酸长度;核酸片段分布;甲基化概况;和核小体定位。
22.根据权利要求1的方法,其中所述参考集中的所述多个参考羟甲基化概况包括与至少一种起源自人类组织类型的基因相关的至少一个参考基因座的羟甲基化概况,所述人类组织类型包括:脂肪;肾上腺;膀胱;骨髓;脑;乳房;结肠;脑皮层;宫颈;子宫;消化系统;子宫内膜;附睾;食道;输卵管;胆囊;胃肠道;心肌;下丘脑;肾;肝;肺;淋巴结;卵巢;胰腺;甲状旁腺;胎盘;前列腺;唾液;精囊;骨骼肌;平滑肌;皮肤;脾;胃;睾丸;甲状腺;扁桃体;或其组合。
23.根据权利要求22的方法,其中所述参考集中的所述多个参考羟甲基化概况包括与至少一种起源自人类组织类型的基因相关的至少一个参考基因座的羟甲基化概况,所述人类组织类型包括:膀胱;骨髓;脑;乳房;结肠;胃肠道;心肌;下丘脑;肾;肝;肺;淋巴结;卵巢;胰腺;胎盘;前列腺;皮肤;平滑肌;睾丸;或其组合。
24.根据权利要求22或23的方法,其中所述参考中的所述多个参考羟甲基化概况,对于多种人类组织类型中的每种包括与多个组织特异性基因中的每个相关的至少一个参考基因座。
25.根据权利要求7的方法,其中所述参考集包括用于至少三种组织类型的羟甲基化向量。
26.根据权利要求25的方法,其中所述参考集包括用于至少五种组织类型的羟甲基化向量。
27.根据权利要求26的方法,其中所述参考集包含用于至少10种组织类型的羟甲基化向量。
28.根据权利要求27的方法,其中所述参考集包括用于至少30种组织类型的羟甲基化向量。
29.根据权利要求24的方法,其中所述参考集包括用于每种组织类型的至少5个基因的羟甲基化向量。
30.根据权利要求29的方法,其中所述参考集包含用于每种组织类型的至少20个基因的羟甲基化向量。
31.根据权利要求1的方法,其中每个参考基因座包含在差异表现的基因内,所述基因包括AARD,ADARB1,AKR1B10,ANAPC7,APCDD1L-AS1,APOA1BP,CALHM2,CASC3,CLEC2L,COL4A5,CRYM-AS1,EPHA3,FAHD2B,FKBP9L,FOPNL,GNG11,GSN,GSTTP2,GTSF1,IAH1,KCNMB1,KIAA1644,LAMC1,LINC00310,LOC100506394,LOC100507066,LOC493754,MAP1B,MGC27382,MIR5695,NENF,NT5DC3,P2RX1,PCP4,PGM5,PLCD4,PTGFR,RBFOX3,RPL30,SCARA3,SLIT3,SNX29P1,SPATA4,ST8SIA1,TBX4,TXNRD1,VCL,VPS72,WFDC3,ZNF791,ADAMTS20,AFF2,ANKRD18B,ANKRD18DP,ANKRD20A5P,ANKRD20A8P,ANKRD26P1,ANKRD30BP2,ANKRD34B,ANKRD34C,ATP6V0B,AVPR1A,BLOC1S3,BOLL,BRIP1,C5orf63,CA1,CALB1,CALCR,CCDC39,CCDC96,CDCA5,CDH12,CDH9,CEACAM8,CENPE,CENPK,CFL1,CHAT,COMMD5,COMMD8,CRISP1,CRISP2,CSN1S1,CSN1S2AP,CT64,CXCR2,CXorf30,DAZL,DCDC1,DRGX,DSG1,DUT,DUX2,DUX4L2,DUX4L3,DYTN,EDA2R,EFCAB3,EPOR,EVX2,F13A1,FCAR,FCER1A,FKBP1B,FOXA2,GABPB1-AS1,GABRA1,GABRA4,GABRG1,GALNTL6,GFER,GFI1,GPR152,GPR158-AS1,GPRC6A,GRM1,GRP,GRXCR1,GYPA,HAGHL,HCRTR2,HEPHL1,HJURP,HK3,HMBS,HORMAD2,ID4,IL17RA,IL18RAP,KCNC2,KCNK18,KIF18A,KIF20B,KLHL1,LEF1-AS1,LHX1,LHX3,LHX8,LINC00273,LINC00558,LINC00645,LINC00648,LLPH,LOC100129620,LOC100270679,LOC100505776,LOC100506422,LOC284801,LOC392232,LOC399815,LOC401074,LOC401134,LOC440040,LOC440970,LOC642236,LOC727924,LOC728012,LPO,LRRIQ1,MAGEA11,MAGOHB,MEFV,MIF4GD,MIR548A3,MIR5692A1,MMP8,MMP9,MMRN1,MRGPRE,MS4A3,MSRB1,MYO3A,NCOR1P1,NDST3,NDST4,NHLRC4,NOXRED1,NPAP1,NUF2,OR8G1,OR8U8,ORC6,OSM,OTX2,PAX3,PBK,PCDH8,PDCL2,POTEA,PROK2,PRR7,RAB24,RAX,RBM46,RGS18,RGS19,RIMS2,RNF175,RRM2,SATB2-AS1,SCN11A,SCRT2,SERPINB10,SGOL2,SIX1,SKA3,SKOR1,SLC22A16,SLC4A10,SLC5A7,SLC5A8,SLCO6A1,SNAP91,SPAG16,SPATA16,SPDL1,SPINK13,STPG2,STXBP5L,TARM1,TDRD5,TEX15,THSD7B,TMPRSS11A,TMPRSS11B,TMPRSS11D,TRIM58,TUBB4B,UNC13C,USP6,VRK1,VSTM1,VWDE,WDR49,WFDC8,WFDC9,ZIC5,ZNF230,ZNF300P1,ZNF470,ZNF502,ZNF599,ZPBP,C1orf159,CCDC42B,CCDC8,CD248,CERCAM,CNTN2,CRB2,EVI5L,FZD9,HAPLN2,HPDL,LINC00575,LOC284950,LOC339666,LRIT1,PLEKHH1,SHISA2,SLC46A2,TFAP2E,TMEM235,TNFRSF18,ZFP36,C1orf109,CACNA1F,COX7B,EFNB1,FGL2,FLJ34208,GNRH1,GSTT1,IL12A,KCND1,KDELR1,LAT,LOC100130992,LOC100287042,LOC401242,MRPL10,NT5C3B,PDZD4,PPYR1,RAD51D,RBMXL3,RENBP,SCNN1B,SERPINB5,SLC9A6,XBP1,ZNF189,ABR,ADPRHL1,ASB18,ATP1A3,CCDC74A,CDH13,CHRNA10,CORO6,FSD2,GALNT16,GDAP1L1,GJA3,GLUD1P3,GPRC5B,LOC100506343,LRRC37A6P,LRRC4,MUL1,MYOM2,NDUFB8,NT5DC2,PCDHGA1,PCDHGA10,PCDHGA11,PCDHGA12,PCDHGA2,PCDHGA3,PCDHGA4,PCDHGA5,PCDHGA6,PCDHGA7,PCDHGA8,PCDHGA9,PCDHGB1,PCDHGB2,PCDHGB3,PCDHGB4,PCDHGB5,PCDHGB6,PCDHGB7,PXDNL,RHPN1-AS1,RPL3L,SGCG,TIMM21,TNNT1,TOR4A,UBAC1,WDR37,ZNF12,ZNF213,ZNF550,ZNF843,ZNF844,AGAP6,ASTN1,BBS2,C18orf56,C19orf45,CINP,DGKI,DPY30,DROSHA,FAM169A,FAM66D,FONG,GALNT15,GDAP1,GHRH,GUSBP4,HIF1AN,IFIT1B,INTS2,JAKMIP2-AS1,KGFLP2,LINC00297,LINC00707,LOC100288069,LOC100507140,LPHN3,LYPD1,LZIC,MIR548T,MRAP,NTRK3,PDE6D,PPP1R17,PRSS54,PRSS55,PTPRA,RGS7,SNRNP35,SUGT1P1,UBE2Z,WDR47,WDYHV1,ZNF114,ZNF556,ZNF610,ABP1,AGPAT9,APH1B,ASAP2,ATP4B,ATP6V1A,BBOX1,BCRP3,C11orf63,C13orf35,C16orf96,C19orf21,CA12,CCDC64,COL4A3,CXCL14,CYS1,EIF4E2,EPB41L1,EVC,FIGNL2,FUT3,GALNT14,GLIS2,GUSBP11,HAVCR1,HOXC5,INADL,KATNA1,L2HGDH,LOC100130238,LOC100506305,LOC284100,LOC654433,LYG1,MORN4,MTNR1A,PAQR5,PARG,PAX2,PAX8,PLA2G15,POU5F1,PRKAB1,RNF113B,SENP8,SETD3,SLC22A2,SLC25A30,SLC9A3,SULT1C2,TBC1D7,TSPAN33,ABCB4,ABCC11,ABCC2,ABCG5,ABCG8,ACADSB,ACSM5,AGMO,AGXT2L1,AKR1C2,AKR1C4,AKR1D1,AMDHD1,APOB,APOH,APOM,AQP9,ARHGEF40,ASGR2,ASPG,ATP2B2,BCO2,BDH1,C3,C3P1,C5,C8A,C8B,C8orf74,CA5A,CABP2,CALR3,CD7,CDK10,CEACAM16,CES1,CFH,CFHR4,CHP1,CIDEB,CLPTM1L,CLRN3,CPN2,CREB3L3,CROCCP2,CYP2B6,CYP2C18,CYP2C19,CYP2C9,CYP2E1,CYP3A5,CYP7A1,DGAT2,DHODH,DPYS,DRG2,ECHS1,EDC4,EI24,ENO1,F13B,F2,F7,F9,FASN,FETUB,GCH1,GCKR,GDPD4,GFRA1,GHR,GLT1D1,GPAM,GSDMB,HAL,HAO1,HAPLN4,HPD,HPX,HYLS1,IGF2,IGF2-AS,IGFBP1,ISY1-RAB43,ITIH1,ITIH2,ITIH4,IVD,KLC4,LBP,LEFTY1,LIPG,LOC100288122,LOC284865,LPAL2,LRRC16B,MASP1,MGMT,MST1,MTTP,NAT9,NBR2,NELFE,NR1I2,NUP88,OSGIN1,PAH,PARD6A,PCSK9,PEX19,PGLYRP2,PHGDH,PHYH,PKLR,PLA2G12B,PLG,PNPLA3,POFUT1,POLR1E,PON1,PPL,PRAP1,PRKAG3,PROC,PUS3,RANBP10,RCE1,RND1,RNF123,RORC,RPUSD4,SAA2-SAA4,SCP2,SEC16B,SERPINA6,SERPINC1,SKIV2L,SLC13A5,SLC22A25,SLC25A20,SLC27A5,SLC30A10,SLCO1B3,SMLR1,SNAPC5,SPP2,SRD5A1,STAT2,STEAP3,SULT2A1,TFR2,THNSL2,TIAF1,TM6SF2,TMEM45A,TMPRSS6,TTC31,TTC38,UROC1,XYLB,ZCCHC9,ZSCAN22,ADAM9,ANKRD50,ARGLU1,ARL6,ARSJ,BMP5,BMPR2,BTG3,C1orf140,CALM2,CCDC102B,CCNL1,CCR5,CD36,CHN1,CLIC2,CPEB2,CRBN,CYP4Z2P,CYYR1,DACH1,DGKE,DGKH,DISP1,DOCK4,ETV1,EXOC1,FAM204A,FAT4,FGD5-AS1,FLJ34503,FRYL,GBP1P1,GNB4,GPR110,GPR116,HMCN1,HMGN1,IFI44,IL15,ITGA2,KAL1,KDR,KITLG,KLHL41,LDB2,LINC00032,LINC00240,LINC00551,LINC00657,LOC100131234,LOC100505495,LOC100507217,LOC643733,LPAR6,MGP,ODF2L,PEAK1,PKIA,PLEKHA1,PLEKHG7,PTPRB,QKI,RAD21,RALA,RAP2A,RCC1,SAMD12,SESTD1,SH3GLB1,SKAP2,SLC35A5,SMURF2,SPRED1,SRSF1,TCF4,TIGD4,TMEM207,TMOD3,UHMK1,VEGFC,XIST,YIPF5,ZC2HC1A,ZEB1,AKNA,ANKRD34A,C14orf183,CCDC107,CD180,CD3G,CD74,CDC42SE2,CHMP7,COTL1,CYTH1,FAIM3,FAM65B,GPX4,GSTP1,HLA-DMA,HLA-DOA,HLA-DPB1,HVCN1,ICAM2,ICOS,IL6,ITGB7,LOC100130557,MDM4,METTL21D,MGC16275,MIR548AN,NAPSB,RPL39L,RPS11,SEPT6,SH2D3C,TAP1,TEAD2,TMEM60,TNFRSF9,TRAF1,UBAC2,UCP2,WDR87,ACTA2,ADAMTS5,AQP11,ATP1B2,BICD1,C7,CDH3,CDON,COL14A1,HS3ST1,KLF4,LEMD1-AS1,LINC00672,LOC100129617,LOC339298,LRRC17,NDP,NTF3,OMD,PDGFRA,PGR,ROBO4,RWDD4,SCD5,SERPINE2,SLC25A17,SNCAIP,SYTL4,TENM4,TSPAN5,UBXN8,ZNF93,ALDH1L2,ANKEF1,ASUN,B3GALNT2,BBIP1,C6orf201,CASP9,CCDC110,CCDC65,CDK14,CELA2B,CELA3B,CFTR,CHMP4C,CHRNA7,CLCN3,CLDN1,CPA3,CUZD1,DNAJC10,DNAJC3,EIF2S1,EIF4EBP1,ERO1LB,FAIM,FAM160A1,FAM162A,FAM221A,FAM24B-CUZD1,GARS,GUCA1C,HSPA13,IFRD1,INTS6,KCTD16,LINC00339,LMAN1,LOC154092,LOC201651,LOC644838,LYPD6B,MAN1A2,MGC72080,MKNK1,MPP6,MSRB2,NAA16,NOMO2,OSTC,PEX7,PGRMC2,PIK3CB,PLA2G12A,PM20D1,PPP1R9A,PRRC1,PRSS3,RNPC3,SCFD1,SCRN3,SERPINI2,SH3YL1,SLC16A7,SLC33A1,SLC4A4,SORBS2,SRBD1,SSR1,TDH,TDP2,TMEM51-AS1,TMEM65,TRHDE,TRIM44,UGT2A3,UMOD,WDFY2,WHAMM,XPOT,ACER2,ADAM12,ADCY10,ADCY7,ADORA2B,AIM1L,AKNAD1,ALDH3B2,AMOT,ANGPT2,APOLD1,ATF3,ATG9B,ATP6V1C2,ATRIP,BCAR3,BCAR4,BEAN1,BPGM,BTBD19,C11orf70,C16orf46,C16orf74,C17orf98,C1QTNF6,C2orf62,C2orf83,C3orf52,C4orf26,C4orf51,C6orf99,C7orf71,C9orf129,CACNA2D3-AS1,CAPN6,CCDC125,CEP41,CLEC7A,CPA4,CSF3R,CTSL3P,CXorf56,CYP19A1,DACT2,DDX59,DLX3,DLX5,DLX6-AS1,DNMT1,DUSP4,EBI3,EDARADD,EPAS1,EPS8L1,ERVFRD-1,ERVMER34-1,ETV3,ETV4,EXTL1,EZR,FAM184A,FAM89A,FANCE,FBLN1,FBN2,FHDC1,FOLR1,GATA2,GATA3,GBA,GCM1,GDPD3,GLDN,GM2A,GPR156,GSG1,GSTA3,GSTA4,HELLS,HOPX,HSD11B2,HSPBAP1,IGF2BP3,IGSF5,ISM2,KATNBL1,KIAA1467,KIAA1609,KISS1,KLRG2,L1TD1,LCMT1,LCTL,LIN28B,LINC00439,LOC100131564,LOC100506746,LOC100527964,LOC151475,LOC152578,LOC284551,LOC643441,MB21D2,MED12,METTL21C,MFSD2B,MGC16121,MINA,MORC4,MSANTD3,MUTYH,NOS3,NVL,NXF1,OLR1,OSCP1,OSTCP1,P2RY6,PCBP1-AS1,PDE6A,PGC,PGF,PLA1A,PLAC4,PPP1R14D,PSG11,PSG2,PSG6,PSG7,PSG8,PTGES,PVRL3-AS1,PVRL4,PWWP2B,RAB36,RHO,RNF222,RPSAP58,RS1,SBF2-AS1,SCIN,SDC1,SEMA3F,SEMA6D,SEPT12,SH2D7,SH3GLB2,SLC13A4,SLC26A2,SLC2A1-AS1,SMAGP,SMARCB1,SMIM13,SNX12,SP6,SPESP1,SPIRE2,ST3GAL6-AS1,SVEP1,SYT8,TENM3,TLR3,TMEM216,TMEM218,TMEM52B,TMPRSS7,TP63,TPRXL,TRIM29,TRPV5,TUFT1,USHBP1,VAMP5,VGLL1,WBP2NL,XRCC2,ZDHHC1,ZNF320,ZNF331,ZNF354B,ZNF468,ZNF525,ZNF702P,ZNF90,ZP3,ZSWIM2,ZSWIM7,ABCC4,ACPP,ALDH1A2,ANKRD66,AP1B1P1,ARG2,BEND4,C1orf85,C6orf132,C6orf52,CHRNA2,COQ7,EVX1,EYA2,FLJ39080,GDEP,HMGN2P46,ISX,KLKP1,MCCC2,MEAF6,MFSD4,MRPS23,NCAPD3,OACYLP,OAZ3,OR51E2,PAK1IP1,PCAT1,PI15,PPP1R7,PSMA4,SCNN1G,SLC14A1,SLC26A3,SLC2A12,SLC30A4,SLC35F2,TMEM79,TPM3P9,TTC12,USP50,ZNF350,ZNF532,ZNF589,AKIP1,ARHGEF26-AS1,ATG4A,BOLA3,CHMP4A,DHH,EPPK1,FCHSD1,GADL1,GCC1,GIPC3,HIGD2B,HTR3C,LINC00654,LOC91948,OLFML3,PTGES3L,WSCD2,ZNF202,ZNF205-AS1,ZNF426,ACOT1,C12orf54,CREB3,DDN,FAM50A,FNDC4,GORASP1,GUCA1B,IMPDH2,LINC00284,LOC100128076,LOC100128682,LOC100131434,LRP10,LRRC55,LRRC73,NOTO,RNF112,RTBDN,SIGLEC8,TNN,TRIM50,UBE2T,ZNF391,ZNF792,ALX4,AQP2,ATAD3B,C11orf85,CABLES2,CCDC114,CCDC27,CCNF,CD300C,CILP,DES,DMRT1,DNAJB8-AS1,DRD4,EFCAB6-AS1,FAM153B,FAM163B,FGD2,HSD17B3,IFI27L1,IGFN1,ITPR3,KCNK15,KIFC2,KRT78,KRT82,LOC100506385,LOC283914,LOC284661,LOC399829,LOC653712,LOC728716,MAGED2,MYH16,MYLK2,NPTX2,PLK5,PMS2CL,PNPLA1,PODNL1,POLD1,PRMT8,PTPRVP,RD3,RIMS4,RNU6-81,RPL26L1,SALL4,SERPINA10,SPATA31E1,STAB1,SULT4A1,TCERG1L,TEKT4P2,THEG,TMEM130,TPO,UPK3B,WASH3P,WRAP53,ZNF280B或ZNF793。
32.根据权利要求1的方法,其中每个参考基因座包含在差异表现的、差异表达的基因内,所述基因包含AARD,ADARB1,AKR1B10,CRYM-AS1,EPHA3,GTSF1,KCNMB1,MAP1B,NT5DC3,P2RX1,PCP4,PGM5,PLCD4,PTGFR,RBFOX3,SCARA3,SLIT3,SNX29P1,ST8SIA1,TBX4,TXNRD1,VCL,WFDC3,ABCA13,AZU1,CA1,CEACAM8,CLEC6A,DAZL,DRGX,DYTN,ELANE,FCAR,GFI1,GYPA,HK3,IL18RAP,LINC00333,LINC00550,LINC00558,LIPN,LOC100129620,LOC442028,LPO,MEFV,MMP8,MMP9,MPO,MS4A3,MYB,MYO1F,NCOR1P1,NME8,OR8U8,OSCAR,PARPBP,PAX3,PDCL2,PRDM13,PROK2,RGS18,RGS21,RRM2,RXFP2,SERPINB10,SLC22A16,SPATA16,SPI1,SPTA1,TARM1,TMPRSS15,TRIM58,VSTM1,XKR3,ASPHD1,BRSK1,CCDC177,CNTN2,HAPLN2,KCNJ10,KIF1A,LGI3,NCAN,NR2E1,RHBDL3,TMEM151A,TMEM235,TMEM59L,ZNF488,FGL2,SCNN1B,ADPRHL1,ASB18,ATP1A3,CDH13,CORO6,FSD2,GALNT16,GJA3,MYOM2,PCDHGA1,PCDHGA10,PCDHGA11,PCDHGA12,PCDHGA2,PCDHGA3,PCDHGA4,PCDHGA5,PCDHGA6,PCDHGA7,PCDHGA8,PCDHGA9,PCDHGB1,PCDHGB2,PCDHGB3,PCDHGB5,PCDHGB6,PCDHGB7,PXDNL,RPL3L,SGCG,TNNT1,ASTN1,DGK1,BBOX1,BCRP3,CA12,COL4A3,CXCL14,CYS1,EVC,FIGNL2,GALNT14,GLIS2,HAVCR1,LOC100130238,PAQR5,PAX2,PAX8,PLA2G15,SLC22A2,SLC9A3,SULT1C2,TSPAN33,ABCC2,ABCG5,ABCG8,AHSG,AKR1C4,AMDHD1,APOH,ASGR1,ASGR2,C3P1,C8A,C8B,C9,CA5A,CFHR4,CPN2,CREB3L3,CYP2B6,CYP2C9,CYP2E1,CYP3A4,DHODH,F12,F2,F7,GC,HAL,HPD,HPX,INHBC,ITIH1,ITIH2,ITIH3,KNG1,LBP,PGLYRP2,PLG,PROC,PRODH2,SERPINA6,SERPINC1,SLC13A5,SLC22A1,SLC25A47,SLC27A5,SULT2A1,TFR2,TMPRSS6,UROC1,ANXA3,BMP5,CYP4Z2P,DRAM1,FMO2,GNA15,IDO1,KCNS3,LIMCH1,MBIP,PAPSS2,PCDH17,RSPH4A,RTKN2,TRPC6,ACAP1,AKNA,ARHGAP9,BCL11B,BIRC3,CARD11,CD180,CD37,CD3E,CD3G,CD40,CETP,CIITA,CLEC2D,CNR2,CXCR5,DOCK10,ETS1,GPR132,GPR18,ICAM2,ICOS,ITGB7,ITK,KIAA1551,KLHL6,LCK,LINC00426,LY86,MDS2,MEOX2,MX2,NAPSB,PATL2,PCED1B-AS1,PIK3CD,PLVAP,POU2F2,SCIMP,SCML4,SLFN12L,SMAP2,SP110,SPIB,TLR10,TMC8,TMEM156,TNFAIP8,TNFRSF9,TNFSF11,TRAF1,TRIM22,UCP2,ZC3H12D,ABCA10,ACSS3,ADAMTS5,AQP11,C7,CDH3,CDON,CLDN11,COL14A1,COLEC11,ESR2,FAM198B,FZD3,GALNT10,GLI2,GSTM5,HS3ST1,LEMD1-AS1,LHX9,LRRC17,MCHR1,MRC2,NTF3,OMD,PDGFRA,PGR,PKNOX2,PTCH2,RWDD4,SCD5,SERPINE2,SIMC1,SLC25A17,SNCAIP,SULF2,TENM4,TSPAN5,TTC8,UBXN8,ALDH1L2,ANKEF1,ASNS,B3GALNT2,BCAT1,CASP9,CCDC110,CELA2B,CELA3B,CFTR,CHMP4C,CLDN1,CNIH3,COCH,CUZD1,DEFB1,EGF,EIF4EBP1,ERP27,FAM24B-CUZD1,FBXW12,GUCA1C,KCTD16,KIAA1324,LINC00339,LNX2,MKNK1,NAA16,NPHS1,PAIP2B,PM20D1,PRSS3,SCGN,SEL1L,SERPINI2,SH3YL1,SLC33A1,SLC4A4,TC2N,TDH,TMEM51-AS1,TRHDE,UMOD,ADAM12,ATG9B,ATP6V1C2,BCAR4,BMP1,BPGM,CSF3R,CYP11A1,CYP19A1,DACT2,DEPDC1B,DLX5,EBI3,GCM1,GPR78,GSTA3,IGF2BP3,IGSF5,ISM2,KISS1,KRT23,LIN28B,MMP11,PGF,PSG11,PSG2,PSG3,PSG6,PSG7,PSG8,SPTLC3,TPRXL,ZFAT,ZNF554,ABCC4,ACPP,ALOX15B,ANO7,AP1B1P1,ARG2,BEND4,C6orf132,C6orf52,CANT1,CASZ1,CBFA2T2,CHRM1,CHRNA2,COL26A1,EVX1,EYA2,FAM135A,HMGN2P46,KLK2,KLKP1,MME,MPPED2,MUC12,NANS,NCAPD3,NEFH,NIPAL3,OACYLP,OR51E2,PAK1IP1,PDE9A,PI15,PMEPA1,POTEF,RDH11,SCNN1G,SIM2,SLC14A1,SLC22A3,SLC2A12,SLC30A4,SLC35F2,SLC37A1,SLC39A6,SPDEF,STEAP2,THSD4,TMEM79,TPM3P9,TXNDC16,URB1,VIPR1,ZNF350,ZNF532,ZNF613,ZNF649,ZNF761,ZNF827,GADL1,GIPC3,PTGES3L,WSCD2,CCDC27,DMRT1,DNAJC5G,FBXO24,IGLL1,MOV10L1,SEPT14,THEG或TTC16。
33.根据权利要求1的方法,其还包括确定所述无细胞流体样品中的多个DNA片段的起源组织。
34.一种检测人类受试者中的组织或器官状况的方法,其包括:
(a)生成获自所述受试者的无细胞流体样品中DNA的羟甲基化概况;
(b)将(a)中生成的所述羟甲基化概况与参考集中的多个参考羟甲基化概况中的每个进行比较,每个参考羟甲基化概况与(i)与组织特异性基因相关的参考基因座和(ii)特定组织或器官的状况相关;和
(c)基于相对于所述参考羟甲基化概况,为所述受试者生成的羟甲基化概况,鉴定所述受试者中所述特定组织或器官的状况。
35.根据权利要求34的方法,其中所述参考集包括在多个组织特异性基因的每个上的至少一个参考基因座。
36.根据权利要求35的方法,其还包括基于所检测的状况做出诊断、治疗决策或预后。
37.一种检测人类受试者中的组织或器官的状况变化的方法,其包括:
(a)生成获自所述受试者的无细胞流体样品中的DNA片段的一个或多个基因座处的初始羟甲基化概况,其中所述羟甲基化概况与组织或器官的初始状况相关;
(b)在后来的时间,生成获自所述受试者的无细胞流体样品中的一个或多个相同基因座处随后的羟甲基化概况;和
(c)将所述随后的羟甲基化概况与初始羟甲基化概况进行比较,以检测所述组织或器官状况的变化。
38.根据权利要求37的方法,其包括在一个或多个另外的时间重复步骤(b),以便监测与所述组织或器官相关的状况、疾病或病症的进展。
39.根据权利要求38的方法,其包括评估治疗干预的功效。
40.根据权利要求38的方法,其包括监测基因表达随时间的变化。
41.根据权利要求40的方法,其还包括基于所检测到的状况变化做出诊断、治疗决策或预后。
42.一种分析获自人血浆的无细胞DNA样品的改进的方法,其中对所述样品中的无细胞DNA片段进行分离、扩增和测序,其中所述改进包括如下鉴定所述样品被起源自外周血单个核细胞(PBMC)的基因组物质的污染:
(a)生成所述无细胞样品中DNA片段的羟甲基化概况;和
(b)将(a)中生成的所述羟甲基化概况与参考集中的多个参考羟甲基化概况中的每个进行比较,每个参考羟甲基化概况与对应于组织特异性基因的参考基因座相关,其中所述参考羟甲基化概况包括至少一个PBMC羟甲基化概况;和
(c)自所述比较确定起源自PBMC的基因组物质的存在。
43.根据权利要求42的改进的方法,其还包括自(b)和(c)估计PBMC基因组污染的水平。
44.根据权利要求43的改进的方法,其还包括基于PBMC基因组污染的水平确定所述样品是否适合于无细胞DNA分析。
45.根据权利要求42的改进的方法,其中所述参考集包括多个参考羟甲基化概况的向量,每个参考羟甲基化概况对应于与PBMC亚型相关的基因座。
46.根据权利要求45的改进的方法,其还包括使用所述向量抵消所述无细胞样品中的PBMC污染。
47.根据权利要求46的改进的方法,其中抵消所述无细胞样品中的PBMC污染包括使用校正向量来校准和标准化突变负荷,片段计数,变异等位基因频率和次要等位基因频率中的至少一个。
48.一种对获自人类受试者的样品中的无细胞DNA概率性分配起源组织的方法,
(a)如下生成所述样品中DNA的羟甲基化概况:
(i)仅对所述无细胞DNA中的5-羟甲基胞嘧啶残基添加亲和标签;
(ii)通过与支持物的结合来富集用所述亲和标签加标签的DNA分子;和
(iii)对富集的DNA分子进行测序以提供具有鉴定的每个5-羟甲基胞嘧啶位点的图;
(b)将(a)中生成的所述羟甲基化概况与参考数据集中的多个参考羟甲基化概况中的每个进行比较,每个参考羟甲基化概况与差异羟甲基化基因组区域中的参考基因座相关,所述差异羟甲基化基因组区域与组织特异性基因相关,
(c)鉴定所述参考数据集中的至少一个参考基因座,该参考基因座具有实质类似于所生成的羟甲基化概况的参照羟甲基化概况;和
(d)基于(c)中鉴定的所述至少一个参考基因座和所述相应的组织特异性基因,对每个测序的DNA分子分配至少一种起源组织。
49.根据权利要求48的方法,其中所述参考集包括与多个组织特异性基因的每个相关的至少一个参考基因座。
50.根据权利要求48或49的方法,其中所述亲和标签是生物素。
51.根据权利要求50的方法,其中所述方法包括:将衔接头序列添加至所述DNA的末端上;将经所述衔接头连接的DNA与DNA β-葡糖基转移酶和用化学选择基团修饰的UDP葡萄糖一起温育,从而用所述化学选择基团共价标记所述DNA中的羟甲基化DNA分子;通过环加成反应将生物素部分连接到所述化学选择性修饰的DNA;用生物素结合性支持物富集生物素化的DNA分子;使用与所述衔接头结合的引物扩增富集的DNA;和对扩增的DNA进行测序以生成多个序列读段。
52.根据权利要求51的方法,其还在(a)(ii)之前,从所述样品除去含有加标签的5-羟甲基胞嘧啶的DNA,留下未修饰的DNA和含有未修饰的5-甲基胞嘧啶残基的DNA。
53.根据权利要求52的方法,其还包括确定含有未修饰的5-甲基胞嘧啶残基的DNA的甲基化状态。
54.一种确定人类受试者是否有形成组织或器官的异常状况的素因的方法,该方法包括:
(a)生成获自所述受试者的无细胞流体样品中的DNA片段的一个或多个基因座处的羟甲基化概况;
(b)将检测到的羟甲基化概况与参考集中的多个参考羟甲基化概况进行比较,每个参考羟甲基化概况与以下相关:(i)组织特异性基因上的参考基因座和(ii)指示形成所述特定组织或器官的异常状况的素因的组织状况;和
(c)从(b)中的比较中鉴定形成所述组织的所述异常状况的素因。
55.一种在获自人类受试者的无细胞DNA样品中区分与不同起源组织相关的核酸的方法,该方法包括:
(a)生成所述无细胞DNA样品中多个核酸的每个的羟甲基化概况;
(b)将每个羟甲基化概况与参考集中的多个参考羟甲基化概况进行比较,每个参考羟甲基化概况与组织特异性基因上的特定参考基因座相关;和
(c)基于(b)中的比较区分源自不同组织的核酸。
56.根据权利要求55的方法,其中所述参考集包括选自集3A,集3B,集3C,集3D,集3E,集3F,集3G,集3H,集3I,集3J,集3K,集3L,集3M,集3N,集3O,集3P,集3Q,集3R和集3S的两个或更多个参考集。
CN201980051852.4A 2018-06-22 2019-06-24 用于分配起源组织的无细胞核酸样品的羟甲基化分析及相关使用方法 Pending CN112534067A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862688975P 2018-06-22 2018-06-22
US62/688,975 2018-06-22
US201862746237P 2018-10-16 2018-10-16
US62/746,237 2018-10-16
PCT/US2019/038765 WO2019246625A1 (en) 2018-06-22 2019-06-24 Hydroxymethylation analysis of cell-free nucleic acid samples for assigning tissue of origin, and related methods of use

Publications (1)

Publication Number Publication Date
CN112534067A true CN112534067A (zh) 2021-03-19

Family

ID=67470624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980051852.4A Pending CN112534067A (zh) 2018-06-22 2019-06-24 用于分配起源组织的无细胞核酸样品的羟甲基化分析及相关使用方法

Country Status (9)

Country Link
US (2) US20200010880A1 (zh)
EP (1) EP3810806A1 (zh)
JP (1) JP2021527436A (zh)
CN (1) CN112534067A (zh)
AU (1) AU2019288835A1 (zh)
CA (1) CA3104922A1 (zh)
MX (1) MX2020013994A (zh)
SG (1) SG11202012585YA (zh)
WO (1) WO2019246625A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109750038A (zh) * 2018-12-29 2019-05-14 烟台毓璜顶医院 一种长非编码rna及在制备诊断子痫前期及靶点药物治疗中的应用
CN113265409A (zh) * 2021-05-21 2021-08-17 福州福瑞医学检验实验室有限公司 Timm21突变基因、检测其的引物、试剂盒和方法以及其用途
CN114369664A (zh) * 2022-01-24 2022-04-19 博尔诚(北京)科技有限公司 用于胰腺癌筛查的标志物、探针组合物及其应用
CN116287252A (zh) * 2023-02-17 2023-06-23 安徽同科生物科技有限公司 长链非编码rna apcdd1l-dt在制备检测胰腺癌的产品中的应用

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10785058B2 (en) 2019-02-01 2020-09-22 Comcast Cable Communications, Llc Managing network packet flows based on device information
KR102637032B1 (ko) * 2020-01-28 2024-02-15 주식회사 젠큐릭스 특정 유전자의 CpG 메틸화 변화를 이용한 방광암 진단용 조성물 및 이의 용도
CA3177118A1 (en) * 2020-06-16 2021-12-23 Ruth E. MAUNTZ Methods for analysis of cell-free rna
EP4196611A1 (en) 2020-08-15 2023-06-21 Regeneron Pharmaceuticals, Inc. Treatment of obesity in subjects having variant nucleic acid molecules encoding calcitonin receptor (calcr)
CN112410418A (zh) * 2020-11-23 2021-02-26 复旦大学附属中山医院 一种扩张型心肌病分子标志物
JP2024502282A (ja) 2020-12-23 2024-01-18 リジェネロン・ファーマシューティカルズ・インコーポレイテッド 細胞死誘導dffa様エフェクターb(cideb)阻害剤での肝疾患の治療
CN115961031A (zh) * 2021-06-02 2023-04-14 武汉艾米森生命科技有限公司 一种肝癌诊断或辅助诊断的核酸组合、检测试剂盒及其应用
CN114216947B (zh) * 2021-12-16 2023-11-10 福州大学 一种基于dna纳米四合体的氧化铟锡场效应晶体管生物传感器及其应用
WO2023235614A1 (en) * 2022-06-02 2023-12-07 Clearnote Health, Inc. Predicting and determining efficacy of a lung cancer therapy in a patient

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5712126A (en) 1995-08-01 1998-01-27 Yale University Analysis of gene expression by display of 3-end restriction fragments of CDNA
US6287825B1 (en) 1998-09-18 2001-09-11 Molecular Staging Inc. Methods for reducing the complexity of DNA sequences
US7537897B2 (en) 2006-01-23 2009-05-26 Population Genetics Technologies, Ltd. Molecular counting
US20090105959A1 (en) 2007-06-01 2009-04-23 Braverman Michael S System and method for identification of individual samples from a multiplex mixture
US20090093378A1 (en) 2007-08-29 2009-04-09 Helen Bignell Method for sequencing a polynucleotide template
US20100323348A1 (en) 2009-01-31 2010-12-23 The Regents Of The University Of Colorado, A Body Corporate Methods and Compositions for Using Error-Detecting and/or Error-Correcting Barcodes in Nucleic Acid Amplification Process
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
EP2697397B1 (en) 2011-04-15 2017-04-05 The Johns Hopkins University Safe sequencing system
RS61631B1 (sr) 2012-02-17 2021-04-29 Hutchinson Fred Cancer Res Kompozicije i postupci za preciznu identifikaciju mutacija
WO2013142389A1 (en) 2012-03-20 2013-09-26 University Of Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing
ES2741400T3 (es) * 2014-07-18 2020-02-10 Univ Hong Kong Chinese Análisis de patrones de metilación de tejidos en mezcla de ADN
AU2017246318B2 (en) 2016-04-07 2023-07-27 The Board Of Trustees Of The Leland Stanford Junior University Noninvasive diagnostics by sequencing 5-hydroxymethylated cell-free DNA
US20170298422A1 (en) 2016-04-18 2017-10-19 The Board Of Trustees Of The Leland Stanford Junior University Simultaneous single-molecule epigenetic imaging of dna methylation and hydroxymethylation
AU2017369018B2 (en) * 2016-11-30 2021-02-25 The Chinese University Of Hong Kong Analysis of cell-free DNA in urine and other samples

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109750038A (zh) * 2018-12-29 2019-05-14 烟台毓璜顶医院 一种长非编码rna及在制备诊断子痫前期及靶点药物治疗中的应用
CN109750038B (zh) * 2018-12-29 2021-08-31 烟台毓璜顶医院 一种长非编码rna及在制备诊断子痫前期及靶点药物治疗中的应用
CN113265409A (zh) * 2021-05-21 2021-08-17 福州福瑞医学检验实验室有限公司 Timm21突变基因、检测其的引物、试剂盒和方法以及其用途
CN113265409B (zh) * 2021-05-21 2022-05-20 北京福君基因生物科技有限公司 Timm21突变基因、检测其的引物、试剂盒和方法以及其用途
CN114369664A (zh) * 2022-01-24 2022-04-19 博尔诚(北京)科技有限公司 用于胰腺癌筛查的标志物、探针组合物及其应用
CN114369664B (zh) * 2022-01-24 2024-01-23 博尔诚(北京)科技有限公司 用于胰腺癌筛查的标志物、探针组合物及其应用
CN116287252A (zh) * 2023-02-17 2023-06-23 安徽同科生物科技有限公司 长链非编码rna apcdd1l-dt在制备检测胰腺癌的产品中的应用
CN116287252B (zh) * 2023-02-17 2024-03-08 上海同科生物科技有限公司 长链非编码rna apcdd1l-dt在制备检测胰腺癌的产品中的应用

Also Published As

Publication number Publication date
SG11202012585YA (en) 2021-01-28
CA3104922A1 (en) 2019-12-26
WO2019246625A1 (en) 2019-12-26
US20200010880A1 (en) 2020-01-09
AU2019288835A1 (en) 2021-01-28
US20230095582A1 (en) 2023-03-30
MX2020013994A (es) 2021-05-27
EP3810806A1 (en) 2021-04-28
JP2021527436A (ja) 2021-10-14

Similar Documents

Publication Publication Date Title
CN112534067A (zh) 用于分配起源组织的无细胞核酸样品的羟甲基化分析及相关使用方法
JP6702935B2 (ja) 胃がん診断用のマイクロrnaバイオマーカー
CN109312399B (zh) 通过测序5-羟甲基化无细胞dna的无创诊断
KR102658592B1 (ko) 핵산의 염기 변형의 결정
CA3094717A1 (en) Methylation markers and targeted methylation probe panels
US20130317083A1 (en) Non-coding transcripts for determination of cellular states
US20170268071A1 (en) COMPOSITIONS AND METHODS OF USING TRANSFER RNAS (tRNAs)
CA2696947A1 (en) Methods and tools for prognosis of cancer in er- patients
CN109072312A (zh) 癌症表观遗传谱分析
WO2018170660A1 (en) Method of correcting amplification bias in amplicon sequencing
US20180251836A1 (en) Novel mirna biomarkers and use thereof
US20240182983A1 (en) Cell-free dna methylation test
JP7470787B2 (ja) 単一試料からの腫瘍純度の推定
CN104152568A (zh) 高通量str序列核心重复数检测方法
WO2018219581A1 (en) Method and system for nucleic acid sequencing
CA3226747A1 (en) Compositions and methods related to tet-assisted pyridine borane sequencing for cell-free dna
KR20240012517A (ko) 프래그멘토믹스를 사용하여 암을 검출하는 방법 및 조성물
JP2022553848A (ja) 対応していない生体試料からの体細胞バリアント呼び出し
WO2023152568A2 (en) Compositions and methods for characterizing lung cancer
CN114736970A (zh) 一种鉴别不同人群的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: U.S.A.

Address after: California, USA

Applicant after: Clear Record of Medical Co.,Ltd.

Address before: California, USA

Applicant before: Bluestar genomics Co.,Ltd.

Country or region before: U.S.A.