CN117106857B - 一种血浆游离染色质的检测方法、试剂盒及其应用 - Google Patents

一种血浆游离染色质的检测方法、试剂盒及其应用 Download PDF

Info

Publication number
CN117106857B
CN117106857B CN202311376969.4A CN202311376969A CN117106857B CN 117106857 B CN117106857 B CN 117106857B CN 202311376969 A CN202311376969 A CN 202311376969A CN 117106857 B CN117106857 B CN 117106857B
Authority
CN
China
Prior art keywords
chromatin
tissue
free
organ
histone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311376969.4A
Other languages
English (en)
Other versions
CN117106857A (zh
Inventor
何爱彬
陈旭斌
孟晓萱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202311376969.4A priority Critical patent/CN117106857B/zh
Publication of CN117106857A publication Critical patent/CN117106857A/zh
Application granted granted Critical
Publication of CN117106857B publication Critical patent/CN117106857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6804Nucleic acid analysis using immunogens
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

本发明提供了一种血浆游离染色质的检测方法、试剂盒及其应用,涉及生物技术领域。该试剂盒包括载体和转座体,载体带有能特异性结合游离组蛋白的表位的抗体或其抗原结合片段;载体为抗体‑磁珠复合体或抗原结合片段‑磁珠复合体。该方法包括整合分析公共数据获得的组织细胞特异性染色质状态特征集合、利用组织特异性染色质状态集合判定血浆游离染色质组织细胞起源的方法、综合血浆游离染色质组织特异性信号判断个体健康状况的无偏诊断方法和利用血浆游离染色质状态定义游离染色质基因调控的方法。本发明提供的试剂盒和方法成本低、捕获效率高,程序算法高效成熟,适用于无偏的无创诊断及疾病分型、追踪等临床应用场景。

Description

一种血浆游离染色质的检测方法、试剂盒及其应用
技术领域
本公开涉及生物技术领域,尤其是涉及一种血浆游离染色质的检测方法、试剂盒及其应用。
背景技术
随着医学诊断技术的不断发展,基于血浆中游离DNA的无创诊断方法已成为广受关注的新型诊断方法,在以产检为主的临床诊断中被广泛使用,但受限于检测技术,在早癌诊断、疾病监测等领域的应用并未被充分发掘。目前关于血浆中游离DNA的研究方法主要包括基于片段长短及其分布的片段组学、基于数量差异和序列信息的突变分析、基于DNA甲基化修饰的表观组学等2。尽管已有ChIP-seq、单分子成像的相关研究初步揭示血浆游离染色质上组蛋白修饰与疾病的关联,目前对于血浆中游离染色质及其包含的组蛋白修饰的研究仍较少。
通过血浆游离DNA的特征推断肿瘤、胎儿来源DNA,从而推断疾病或胎儿发育状态是血浆游离DNA研究的核心思路,已有相关的研究揭示了不同状态下机体产生血浆游离DNA的差异。如何广泛地、高精度地同时鉴定多种组织来源的游离DNA的方法目前是无创诊断领域持续关注的热点问题,一些研究者们通过去卷积等算法对游离DNA甲基化组或游离RNA组进行分析,以尝试解析其组织来源3。基于cfDNA甲基化组或游离RNA的无创诊断方法主要存在如下缺陷:
1. 操作复杂,成本较高:游离染色质上DNA甲基化的捕获主要依托较繁琐的亚硫酸盐测序技术,游离RNA的捕获需要防止RNA的降解。
2. 信息量少,无法通过游离核酸反映较全面的基因调控水平:cfDNA甲基化主要反映基因受抑制的水平,cfRNA主要反映基因的转录水平,无法更为系统表征基因更为精细的调控层级。
3. 组织特异性较低,推断器官组织来源的能力差:器官组织间的转录水平的差异较小,转录层面的组织器官特异性低,cfRNA推断器官组织起源的精度较低。
4. 保守性高,反映动态变化的能力弱:DNA甲基化具有较强细胞类型特异性,在生物学过程中受调控下的动态变化较低,无法动态反映基因调控层级的改变。
目前,血浆中游离染色质捕获技术主要是cfChIP方法4。所述cfChIP方法使用一种抗体磁珠复合体从约两毫升血浆中亲和并捕获带有单一组蛋白修饰的游离染色质,再通过连接试剂盒连接测序接头,以进行后续的PCR扩增及高通量测序。
然而所述血浆游离DNA、游离染色质研究及cfChIP方法仍存在如下缺陷:
1. 建库效率低,无法在少量血浆中进行实验:所述研究中均采用传统的TruSeq建库策略,建库时测序接头和所捕获的染色质片段连接效率低,易造成DNA片段的损失。由于血浆中游离DNA的丰度较低,上述技术须以较多血浆量(约两毫升)起始实验,若需要对单一样本进行血浆游离染色质上多种组蛋白修饰的捕获则需使用更大血浆量。该缺陷使得原本的技术难以与基于PCR孔板和微孔板的自动化工作站对接,难以实现高通量及大规模商业化应用;对单一样本较大的血液需求量使得上述技术难以充分解析可获取量较低的珍贵样本,无法满足大范围、多组学多维度整合分析的临床需求。
2. 可捕获的组蛋白修饰种类少,不足以通过游离染色质上组蛋白修饰推断基因调控状态:所述研究目前只对血浆游离染色质上四种组蛋白修饰进行了捕获和解析,并针对单一组蛋白修饰进行下游分析。受限于不同组蛋白修饰的稳定性、丰度和抗体亲和性差异,对于某些组蛋白修饰的捕获背景较高,使得通过部分数据无法得到高精度分析。这些局限性导致所述研究无法高精度在同一份样本中获得多种组蛋白修饰的数据,以对染色质状态进行准确预测和解析,导致其通过游离组蛋白修饰鉴定组织器官来源的灵敏性和准确性较低。
3. 实验周期长:所述cfChIP技术实验周期较长,抗体磁珠捕获后需进行八次洗杂蛋白的步骤,并进行长达一小时的蛋白酶K消化,再进行AT连接试剂盒建库。实验流程繁琐复杂,涉及液体转移步骤,导致组蛋白修饰在此过程中易降解而造成损失,因而在高通量处理大量样本时操作困难,难以实现自动化及大规模商业临床应用。
4. 分析流程繁琐:所述cfChIP技术涉及较为复杂的读长筛选以及信号区域校准,针对不同的组蛋白修饰采用不同的筛选标准及流程,存在一定的主观性和局限性。基于组蛋白修饰在特定位点信号强度的分析方法受实验批次、样本批次及个体差异的影响,需要施加严苛的数据标准化步骤。针对单种组蛋白修饰的差异分析和疾病关联难以全貌捕获基因调控的异常,难以做到在疾病早期捕获到指征初始激活的调控模式,难以做到疾病的早期诊断。
5. 推断器官组织起源效率低:所述cfChIP技术在血浆样本中推断器官组织起源的参考数据集基于组织特异性H3K4me3信号及位点信息,获得的组织器官特异性位点少,区分组织器官的效率低。
因此,改进血浆中游离染色质的捕获,检测及分析技术是目前亟待解决的问题。
有鉴于此,特提出本公开。
发明内容
本公开的目的在于提供一种血浆游离染色质的检测方法、试剂盒及其应用,以缓解现有技术中对于血浆游离染色质检测及分析中的不足。
为解决上述技术问题,本公开特采用如下技术方案:
第一方面,提供了一种用于游离染色质DNA文库构建或用于检测血浆游离染色质的试剂盒,其包括:载体和转座体,载体带有能特异性结合游离组蛋白的表位的抗体或其抗原结合片段;载体为抗体-磁珠复合体或抗原结合片段-磁珠复合体,转座体包括转座酶和接头序列。
磁珠也称磁性微球,磁性微球是指通过适当的方法使有机高分子和无机磁性纳米粒子结合起来形成特殊结构的具有一定磁性复合微球。磁珠包括不限于纳米磁珠和微米磁性微球。在一种可选的实施方式中,磁珠包括不限于:羧基磁珠、氨基磁珠、油胺修饰磁珠、硅羟基磁珠、磺酸基磁性微球、巯基磁性微球、PEG修饰磁珠、无修饰四氧化三铁磁珠、单分散硅包磁、环氧基磁珠、单分散介孔硅包磁、金包磁性纳米颗粒、链霉亲和素修饰磁珠、多聚赖氨酸修饰磁珠、镍磁珠、磁性聚苯乙烯微球、二氧化硅磁性微球。
抗体或其抗原结合片段能特异性结合游离组蛋白,如下表位中的至少一种:第一表位、第二表位、第三表位、第四表位和第五表位;
在一种可选的实施方式中,第一表位是组蛋白H1的表位;
第二表位是组蛋白H2A的表位;
第三表位是组蛋白H2B的表位;
第四表位是组蛋白H3的表位;
第五表位是组蛋白H4的表位。
其中,组蛋白H1例如选自NCBI号AAA63187.1披露的H1的氨基酸序列,组蛋白H2A例如选自NCBI号AAN59959.1披露的H2A的氨基酸序列,组蛋白H2B例如选自NCBI号CAA41051.1披露的H2B的氨基酸序列,组蛋白H3例如选自NCBI号AAN39284.1披露的H3的氨基酸序列,组蛋白H4例如选自NCBI号NP_003486.1披露的H4的氨基酸序列。
在一种可选的实施方式中,游离组蛋白具有或不具有翻译后修饰;
在一种可选的实施方式中,翻译后修饰选自乙酰化、瓜氨酸化、脱乙酰化、甲基化、去甲基化、脱亚胺化、异构化、磷酸化和遍在蛋白化中的至少一种;
在一种可选的实施方式中,翻译后修饰选自H3K4me1、H3K4me2、H3K4me3、H3K9me1、H3K9me2、H3K9me3、H3K27me1、H3K27me2、H3K27me3、H3K36me1、H3K36me2、H3K36me3、H3K79me1、H3K79me2、H3K79me3、H3K9ac、H3K14ac、H3K18ac、H3K27ac、H3K56ac、H4K5ac、H4K8ac、H4K12ac、H4K16ac、H4R3m2a、H4R3m2s、H4K20m1、H4K20m2、H4K20m3和H2AZ中的至少一种。
在本发明应用较佳的实施方式中,转座酶选自Tn5、MuA、IS5、IS91或哈氏弧菌转座酶,或其活性突变体;
在一种可选的实施方式中,转座酶选自Tn5转座酶或其活性突变体1
在一种可选的实施方式中,接头序列选自引物序列、锚定序列、通用序列、间隔区和索引标签序列(如barcode序列)中的至少一种;
在一种可选的实施方式中,通用序列选自转座酶识别序列。
在一种可选的实施方式中,转座酶识别序列选自IE、OE和ME序列中的至少一种。
在本发明应用较佳的实施方式中,试剂盒还包括矫正物;
在一种可选的实施方式中,矫正物为非人物种染色质;
在一种可选的实施方式中,非人物种染色质为果蝇染色质。
在本发明应用较佳的实施方式中,试剂盒还包括激活转座酶活的试剂,且激活转座酶活的试剂含有转座体;
在一种可选的实施方式中,激活转座酶活的试剂包括5-500 nM的转座体;
在一种可选的实施方式中,激活转座酶活的试剂包括10 mM TAPS-NaOH、10mMMgCl2和5-500 nM的转座体,且激活转座酶活的试剂的pH为6.0-8.5;
在一种可选的实施方式中,试剂盒还包括第一样本洗涤缓冲液、第二样本洗涤缓冲液、消化缓冲液和消化终止液中的至少一种;
第一洗涤缓冲液包括Tris-HCl、NaCl、TX-100、EDTA、去乙酰化酶抑制剂和蛋白酶抑制剂;
第二洗涤缓冲液包括Tris-HCl和去乙酰化酶抑制剂;
消化缓冲液包括EDTA-NaOH、Tris-HCl、SDS和蛋白酶;
消化终止液包括苯甲基磺酰氟、TX-100和MgCl2
可选的实施方式中,上述试剂盒还包括如下至少一种:蛋白酶抑制剂、组蛋白去乙酰化酶抑制剂、缓冲组分、盐、表面活性剂、pH调节剂和稳定剂中的一种或几种的组合。
第二方面,本发明提供了一种游离染色质DNA文库的构建方法,其包括如下步骤:采用上述的试剂盒构建待测样本的游离染色质DNA文库。
采用DNA聚合酶对游离染色质DNA文库进行PCR扩增;
可选的实施方式中,DNA聚合酶选自Taq DNA聚合酶、KAPA高保真聚合酶、Q5 DNA聚合酶、KOD DNA聚合酶、pfu DNA聚合酶和Tth DNA聚合酶中的至少一种;
可选的实施方式中,扩增后的文库使用核酸提取磁珠和/或酚氯仿抽提进行产物纯化。
可选的实施方式中,还包括对上述游离染色质免疫共沉淀-测序文库进行测序,并分析获取的测序数据,获取染色质状态信息。
第三方面,本发明提供了一种对测序数据进行前处理的方法,其包括如下步骤:对的游离染色质DNA文库测序后的下机数据进行测序接头的去除、参考基因组定位、测序读长质量筛选及重复读长的去除;
在一种可选的实施方式中,采用去接头的软件进行测序接头的去除,接头软件选自Cutadapt;采用Bowtie2软件进行参考基因组定位;采用Samtools和Picard进行测序读长质量筛选及重复读长的去除;
在一种可选的实施方式中,使用矫正物的测序数据通过深度数据排序工具对不同样本的测序深度进行矫正,并去除批次效应;
在一种可选的实施方式中,对多种组蛋白修饰位点信号信息及整合后的染色质状态信息进行可视化;在一种可选的实施方式中,采用IGV对多种组蛋白修饰位点信号信息及整合后的染色质状态信息进行可视化。
第四方面,本发明提供了一种获得多种器官组织特异性染色质特征的方法,方法不以疾病的诊断和治疗为目的,方法包括如下步骤:
对上述的游离染色质DNA文库进行测序,对下机数据按照上述的方法进行前处理后,对公共数据库中多种组织及细胞类型进行整合分析,获得多种代表不同组蛋白修饰在染色质上共结合分布的染色质状态;
在一种可选的实施方式中,采用多变量隐马尔可夫模型ChromHMM整合公共数据库中多种器官组织染色质上的组蛋白修饰信息,并进行全基因组范围染色质模型构建,全局差异分析整合得到的多种器官组织特异性染色质特征集合;
在一种可选的实施方式中,全基因组范围染色质模型的构建方法包括:对公共数据库中多种组织器官多种组蛋白修饰在全基因范围的共占位特征构建多变量隐马尔可夫模型,用15-20种染色质状态特征概括不同组蛋白修饰的共占位情况,基于上述多变量隐马尔可夫模型根据多种组蛋白修饰全基因组富集信息判断组织细胞及血浆游离染色质在全基因组范围每100-2000bp的染色质状态;
在一种可选的实施方式中,通过全局差异分析整合构建多种器官组织特异性染色质特征集合所基于的数据库选自:ENCODE、ROADMAP和BLUEPRINT中至少一种数据库中的多种组织和细胞类型的多种组蛋白修饰;
在一种可选的实施方式中,判断染色质状态的方法包括:采用染色体组或基因组注释工具对血浆游离染色质上以100-2000bp分辨率对多种组蛋白修饰在基因组上的分布情况进行整合,将全基因组按照100-2000bp划分为多个区域,计算每个区域判断为多种染色质状态中每一种染色质状态的概率,并以染色质状态概率最高的染色质状态注释为区域的染色质状态;
在一种可选的实施方式中,全局差异分析整合包括:使用“BinarizeBed”以100-2000bp分辨率将组织细胞中每种组蛋白修饰的信号定性为0或1,使用“MakeSegment”及“-posterior”整合组织细胞类型上多种组蛋白修饰并计算得到全基因组范围每100-2000bp的染色质状态及每一种状态的可能性分值,通过“某一区域的染色质状态仅出现在某一种器官组织中,在其仅出现的组织细胞中目标区域posterior probability大于0.8-1.0但在其他组织细胞中同一目标区域posterior probability小于0-0.2”评判标准定义每一种组织细胞类型的特异性染色质状态及对应的基因组位置,整合为特征集合。
第五方面,本发明提供了一种获得血浆游离染色质组织细胞起源的方法,上述方法以非疾病的诊断和治疗为目的,上述方法包括如下步骤:在血浆游离染色质基因组范围每100-2000bp区域中搜索上述的方法获得的器官组织特异性染色质特征集合中的特征,对全基因组范围每一个100-2000bp区域判断器官组织起源;
在一种可选的实施方式中,对同一个体搜索到的上述器官组织特异性染色质特征集合中的特征信号进行统计,计算每一种组织或细胞在游离染色质中被检测到的上述特征信号的数目从而获得器官组织的信号;
在一种可选的实施方式中,对不同人群游离染色质组织器官来源的贡献进行比较,获得不同疾病状态下组织器官来源信号模式,鉴定出不同疾病状态下组织器官来源信号的差异。
第六方面,本发明提供了一种获得游离染色质基因调控特征的方法,方法以非疾病的诊断和治疗为目的,方法包括如下步骤:
将待测样本的游离染色质上染色质状态注释给相应基因,获得游离染色质基因调控特征;
在一种可选的实施方式中,在待测样本的血浆游离染色质中,使用基因注释分析包将鉴定出的染色质状态及相应基因组定位注释给邻近基因;
在一种可选的实施方式中,所有基因TSS上游20kb至TES下游20kb区域的染色质状态被认为参与调控基因,基于注释信息,对基因组范围全部基因的调控信息进行多个染色质状态维度的打分,整合同一基因整合所有相关区域染色质状态分值,评估基因组上各基因调控状态;
在一种可选的实施方式中,针对同一基因整合所有相关区域染色质状态分值的方法包括:将同一基因相关的所有100-2000bp中同一染色质状态的分值相加,获得同一基因多种染色质状态总分值;
在一种可选的实施方式中,对不同人群中基于游离染色质状态推断的基因调控模式进行比较,鉴定出不同疾病状态下基因调控模式的改变及显著变化的基因位点。
第七方面,本发明提供了一种通过游离染色质器官组织起源特征进行无偏健康状况预测或疾病分型的方法,方法以非疾病的诊断和治疗为目的,方法包括如下步骤:
根据上述的方法获得待测个体的游离染色体中器官组织信号,整合后,无偏判断个体健康状况;
在一种可选的实施方式中,无偏判断个体健康状况的方法包括:使用R包对正常个体中各种组织细胞来源信号的分布进行拟合和检验,使用机器学习模型通过已知病人及已知正常人的组织细胞来源信号对不同人群分类并通过重要性排序确定每一种组织细胞的高区分度特征位点;
在一种可选的实施方式中,分布拟合和检验的方法包括使用frm贝叶斯修正对分布模型进行修正和推断;拟合和检验包括采用R包中的fitdistrplus函数进行拟合和检验;
在一种可选的实施方式中,无偏判断个体健康状况的方法还包括检验待检测个体每个组织细胞来源的信号分值在高区分度特征位点上是否符合正常人拟合的分布;
在一种可选的实施方式中,无偏判断个体健康状况的方法还包括统计高区分度特征位点上每种组织细胞来源信号不符合正常人该组织细胞来源信号分布的特征位点数;
在一种可选的实施方式中,无偏判断个体健康状况的方法还包括结合统计的每种组织细胞包含的异常特征位点数,通过异常位点数多少判断组织的异常程度,位点数越多认为异常程度越高;
在一种可选的实施方式中,使用机器学习模型对不同疾病类型人群进行分类,对疾病不同亚型进行区分;
在一种可选的实施方式中,使用机器学习模型对组织器官特征进行重要性排序,确定每一种组织细胞的高区分度特征位点;
在一种可选的实施方式中,机器学习模型选自随机森林、神经网络、逻辑回归、线性回归、多项式回归、逐步回归、岭回归、套索回归、弹性回归、支持向量机、极致梯度提升、多层感知机和线性判别分析中的任一种。
第八方面,本发明提供了一种通过游离染色质基因调控特征进行疾病预测或疾病分型的方法,方法以非疾病的诊断和治疗为目的,方法包括如下步骤:
根据上述的方法获得待测个体的游离染色质基因调控特征,整合后,构建机器学习模型判断个体健康状况;
在一种可选的实施方式中,判断个体健康状况的方法还包括使用R包对已知患有不同疾病的个体与健康个体游离染色质上基因多种染色质状态分值进行差异分析,或对患疾病不同亚型的个体游离染色质上基因多种染色质状态分值进行差异分析,获得疾病特异性或疾病亚型特异性的基因调控特征集合,使用机器学习模型通过已知病人及已知正常人的基因调控特征模式对不同人群分类并通过重要性排序确定不同疾病或疾病不同亚型的高区分度特征位点。
在一种可选的实施方式中,差异分析获得疾病特异性或疾病亚型特异性的基因调控特征集合使用DESeq2、edgeR或limma R包完成,设定显著差异阈值为adjust P-value<0.05、Log2FC>1。
在一种可选的实施方式中,使用机器学习模型对不同疾病类型人群进行分类,对疾病不同亚型进行区分。
在一种可选的实施方式中,使用机器学习模型对疾病特异性或疾病亚型特异性的基因调控特征集合进行重要性排序,不同疾病或疾病不同亚型的高区分度特征位点。
机器学习模型选自随机森林、神经网络、逻辑回归、线性回归、多项式回归、逐步回归、岭回归、套索回归、弹性回归、支持向量机、极致梯度提升、多层感知机和线性判别分析中的任一种。
在一种可选的实施方式中,机器学习模型选自随机森林。
第九方面,本发明提供了一种的试剂盒,或上述构建方法在如下任意一项中的应用:
(a)制备染色质状态检测,器官组织来源检测或基因调控检测的产品;
(b)非诊断和治疗目的的检测染色质状态和/或鉴定游离染色质的组织器官来源和/或基因调控特征;
(c)构建测序文库;
(d)游离染色质组蛋白修饰测序数据处理及分析;
(e)制备疾病诊断、辅助诊断、预后检测、疗效评估或复发监测产品。
第十方面,本发明提供了一种测序数据前处理装置,其包括:
输入模块和测序数据前处理模块;
输入模块用于测序下机数据的输入;
测序数据前处理模块用于对输入的测序下机数据按照7的方法前处理。
第十一方面,本发明提供了一种获得多种器官组织特异性染色质特征集合的装置,其包括:
输入模块、整合组蛋白修饰信息模块、全局差异分析模块和输出模块;
输入模块用于输入上述的至少一种公共数据库中多种器官组织多种组蛋白修饰ChIP-seq数据集(即至少一种公共数据库中多种器官组织染色质上的组蛋白修饰信息);
整合组蛋白修饰信息模块用于:采用多变量隐马尔可夫模型ChromHMM整合公共数据库中多种器官组织染色质上的组蛋白修饰信息,并进行全基因组范围染色质模型构建;
全局差异分析模块用于:通过染色体组或基因组注释工具对血浆游离染色质上以100-2000bp分辨率对多种组蛋白修饰在基因组上的分布情况进行整合,将全基因组按照100-2000bp划分为多个区域,计算每个区域判断为多种染色质状态中每一种染色质状态的概率,并以染色质状态概率最高的染色质状态注释为区域的染色质状态;
输出模块用于:输出全局差异分析模块产生的包括每一种组织细胞类型的特异性染色质状态及对应的基因组位置的特征集合。
第十二方面,本发明提供了一种获得血浆游离染色质组织细胞起源的装置,其包括:
输入模块、搜索模块、判断模块、器官组织特异性染色质特征信号统计模块和输出模块;
输入模块用于:输入上述的方法获得的器官组织特异性染色质特征集合和上述方法前处理后的血浆游离染色质上多种组蛋白修饰在基因组上富集数据;
搜索模块用于:在血浆游离染色质基因组范围每100-2000bp区域中搜索8的方法获得的器官组织特异性染色质特征集合中的特征;
判断模块用于:在血浆游离染色质全基因组范围内每一个100-2000bp区域判断器官组织起源;
器官组织特异性染色质特征信号统计模块用于:对同一个体搜索到的器官组织特异性染色质特征集合中的特征信号进行统计,计算每一种组织或细胞在游离染色质中被检测到的特征信号的数目从而获得器官组织的信号;
输出模块用于:输出血浆游离染色质组织细胞起源和/或器官组织的信号;
在一种可选的实施方式中,装置还包括鉴定模块,鉴定模块用于:对不同人群游离染色质组织器官来源的贡献进行比较,获得不同疾病状态下组织器官来源信号模式,鉴定出不同疾病状态下组织器官来源信号的差异。
第十三方面,本发明提供了一种获得游离染色质基因调控特征的装置,其包括:
输入模块、注释模块、评估模块和输出模块;
输入模块用于:输入待测样本的游离染色质上染色质状态及对应基因组位置和参考基因组;
注释模块用于:将待测样本的游离染色质上染色质状态注释给相应基因;
评估模块用于:基于注释模块的注释信息,对基因组范围全部基因的调控信息进行多个染色质状态维度的打分,整合同一基因整合所有相关区域染色质状态分值,评估基因组上各基因调控状态
输出模块用于:输出游离染色质基因调控特征。
在一种可选的实施方式中,上述装置还包括鉴定模块,上述鉴定模块用于:对不同人群游离染色质基因调控特征进行比较,获得不同疾病状态下基因调控特征模式,鉴定出不同疾病状态下基因调控特征的差异。
第十四方面,本发明提供了一种通过游离染色质器官组织起源特征进行健康状况无偏预测或疾病分型的装置,其包括:
输入模块、拟合检验模块、高区分度特征位点确定模块、统计模块和判断模块;
输入模块用于:输入根据上述的方法获得待测个体的游离染色体中器官组织信号;
拟合检验模块用于:使用R包对正常个体中各种组织细胞来源信号的分布进行拟合和检验、使用frm贝叶斯修正对分布模型进行修正和推断;
高区分度特征位点确定模块用于:使用机器学习模型通过已知病人及已知正常人的组织细胞来源信号对不同人群分类并通过重要性排序;并检验待检测个体每个组织细胞来源的信号分值在高区分度特征位点上是否符合正常人拟合的分布;
统计模块用于:统计高区分度特征位点上每种组织细胞来源信号不符合正常人该组织细胞来源信号分布的特征位点数;
判断模块用于:通过统计模块统计的每种组织细胞包含的异常特征位点数判断组织的异常程度。
第十五方面,本发明提供了一种通过游离染色质基因调控特征进行健康状况预测或疾病分型的装置,其包括:
输入模块、高区分度特征位点确定模块、机器学习模型构建模块和判断模块;
输入模块用于:输入根据上述的方法获得待测个体的游离染色体中基因调控特征;
高区分度特征位点确定模块用于:使用R包对已知患有不同疾病的个体与健康个体进行差异分析,或对患疾病不同亚型的个体进行差异分析,获得疾病特异性或疾病亚型特异性的基因调控特征集合;
机器学习模型构建模块用于:使用高区分度特征位点确定模块输出的高区分度基因调控特征集合对不同健康状况个体构建机器学习模型,以达到对不同个体较好的区分;
判断模块用于:通过上述机器学习模型构建模块构建的模型对待测个体的基因调控特征模式进行评估,判断基因调控的异常程度。
第十六方面,本发明提供了一种电子设备,包括存储器和处理器,存储器存储有可在处理器上运行的计算机程序,处理器执行程序时实现如下任意一种方法中的步骤:
(a)采用上述方法对游离染色质DNA文库进行构建;
(b)采用上述方法对测序数据进行前处理;
(c)采用上述方法获得多种器官组织特异性染色质特征集合;
(d)采用上述方法获得血浆游离染色质组织细胞起源和/或器官组织的信号;
(e)采用上述方法获得游离染色质基因调控特征;
(f)采用上述方法进行健康状况的无偏预测和疾病分型。
(g)采用上述方法进行疾病预测和疾病分型。
第十七方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如下任意一种方法中的步骤:
(a)采用上述方法对游离染色质DNA文库进行构建;
(b)采用上述方法对测序数据进行前处理;
(c)采用上述方法获得多种器官组织特异性染色质特征集合;
(d)采用上述方法获得血浆游离染色质组织细胞起源和/或器官组织的信号;
(e)采用上述方法进行健康状况的无偏预测和疾病分型;
(f)采用上述方法获得游离染色质基因调控特征;
(g)采用上述方法进行疾病预测和疾病分型。
与现有技术相比,本公开的有益成果为:
本公开提供的检测血浆游离染色质的试剂盒有助于推断供者多种器官的健康状况。本公开提供的检测方法使用抗体磁微粒复合体捕获待测样本中的游离染色质。
本发明提供的血浆游离染色质的检测方法和试剂盒具有如下优势:
(1)本发明提供的试剂盒和检测方法能够高效地捕获血浆中游离染色质上的多种组蛋白修饰情况,提高建库效率、降低文库背景;试剂盒使得基于血浆游离染色质的无创诊断技术可以在少量血浆中使用。(2)本发明提供的试剂盒和检测方法简化了对血浆中游离染色质捕获的实验流程,单日即可完成上百个样本的实验,且使得上述方法适用于市面上主流的自动化工作站,并对上述方法进行了适用于自动化工作站的优化。(3)本发明提供的检测方法包括了一种用于矫正样本间测序深度差异以及实验批次效应的实验材料和方法,使其能够更加灵敏地捕获样本间的真实差异。(4)本发明提供的试剂盒和检测方法不需依赖特殊目前商业化使用的文库建库试剂盒,所得文库可以使用illumina标准测序方法和平台进行测序,操作简单快捷,节约试剂和人力。(5)本发明提供的试剂盒能够对血浆中游离染色质上多种组蛋白修饰进行高精度的捕获和分析,通过整合分析精准推断染色质状态和器官组织来源。(6)本发明提供的程序算法对公共数据库中大量组织及细胞多种组蛋白修饰的ChIP-seq数据进行整合分析,获得了更多更高效更高分辨率的组织细胞特异性特征集合。(7)本发明提供的程序算法能够对游离染色质上多种组蛋白修饰整合并对基因调控关系进行多维度解析。
(8)本发明提供的程序算法能更准确判定游离染色质的组织细胞来源。(9)本发明提供的程序算法能根据游离染色质的组织来源信号无偏判断个体的健康情况。(10)本发明提供的试剂盒及检测方法能应用于疾病分型、早期诊断等场景。(11)本发明提供的检测方法与其他上述方法相比成本更低,具备高通量和普适性,适用于大规模临床检验。
综上,本公开提供的血浆游离染色质的检测方法和试剂盒能够高效地从少量血浆中捕获游离染色质上的多种组蛋白修饰,具有高捕获效率及低文库背景,本公开提供的血浆游离染色质的分析程序算法能够准确的推断血浆游离染色质的器官组织来源及其基因所处染色质状态,达到无偏预测个体健康状况。本公开提供的检测方法及试剂盒成本低廉,已开发匹配自动化平台的使用程序,程序算法成熟高效,具备较高的无创诊断应用前景。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为捕获血浆中游离染色质的流程示意图;
图2a为实施例2提供的cf-EpiTracing方法捕获并整合血浆游离染色质上多种组蛋白修饰的示意图;
图2b为通过公共数据库中器官组织数据构建的多变量隐马尔可夫模型(HiddenMarkov Model,HMM),包含18种染色质状态的代表特性和基因组分布情况图;
图3为鉴定个体血浆游离染色质组织器官来源的原理说明图;
图4为实施例2提供的cf-EpiTracing方法捕获的H3K4me3游离染色质修饰与已发表方法cfChIP中捕获的H3K4me3血浆游离组蛋白修饰的IGV track对比图;
图5为实施例2提供的cf-EpiTracing方法捕获的血浆游离染色质上的H3K4me1、H3K4me2、H3K4me3、H3K36me3、H3K27ac、H3K9ac、H3K27me3修饰的IGV track图;
图6a为实施例2提供的cf-EpiTracing方法捕获的H3K4me3游离染色质修饰与已发表方法cfChIP中发布的H3K4me3血浆游离组蛋白修饰的信号对比图(热图);
图6b为实施例2提供的cf-EpiTracing方法捕获的H3K4me3游离染色质修饰与已发表方法cfChIP中发布的H3K4me3血浆游离组蛋白修饰的信号对比图(ROC曲线图)
图7为实施例2提供的cf-EpiTracing方法在两个重复中捕获的血浆游离染色质上H3K4me3修饰信号在peak区域上的Pearson相关性;
图8 为实施例2提供的cf-EpiTracing方法通过果蝇染色体测序读长矫正个体间差异及批次效应的矫正前矫正后信号对比图;
图9为实施例2提供的cf-EpiTracing方法整合多种组蛋白修饰与已发表方法cfChIP通过H3K4me3信号对结直肠癌病人及正常人进行区分的效果对比;
图10a为实施例2提供的cf-EpiTracing方法通过检测疾病相关器官组织的异常信号对不同疾病人群进行区分的对比图(热图);
图10b为实施例2提供的cf-EpiTracing方法通过检测疾病相关器官组织的异常信号对不同疾病人群进行区分的效果图(ROC曲线);
图11为实施例2提供的cf-EpiTracing方法在不同种类的病人中鉴定出的组织特异性血浆游离染色质的分布情况图;
图12为实施例2提供的cf-EpiTracing方法通过检测疾病亚型特异性的基因调控特征区分疾病不同亚型的对比图(热图);
图13为实施例2提供的cf-EpiTracing方法在正常人、早期结直肠癌及晚期结直肠癌患者中检测到的结直肠癌信号的对比图。
具体实施方式
下面将结合实施例对本公开的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
第一方面,提供一种用于游离染色质DNA文库构建或用于检测血浆游离染色质的试剂盒,其包括:载体和转座体,载体带有能特异性结合游离组蛋白的表位的抗体或其抗原结合片段;载体为抗体-磁珠复合体或抗原结合片段-磁珠复合体,转座体包括转座酶和接头序列。
本公开提供的试剂盒中载体用于捕获游离染色质。带有能特异性结合游离组蛋白的表位的抗体或其抗原结合片段能特异性结合游离组蛋白的表位。载体通过磁微粒连接的抗体或其功能性片段与游离组蛋白的表位的特异性结合能力捕获血浆中游离染色质。可以理解的是,载体能够捕获的组蛋白的表位种类和其连接的抗体相关。本公开提供的试剂盒中含有至少一种载体,本领域技术人员可以根据捕获的组蛋白的修饰方式(或表位种类)选择磁微粒连接的抗体及其功能性片段的种类。可选的实施方式中,本公开提供的试剂盒含有多种载体,能够捕获多种修饰组蛋白的游离染色质。
可以理解的是,载体中的抗体和磁微粒本领域技术人员可以根据本领域可接受的、已知的方式连接,包括但不限于物理吸附和/或化学键连接。
磁珠也称磁性微球,磁性微球是指通过适当的方法使有机高分子和无机磁性纳米粒子结合起来形成特殊结构的具有一定磁性复合微球。磁珠包括不限于纳米磁珠和微米磁性微球。在一种可选的实施方式中,磁珠包括不限于:羧基磁珠、氨基磁珠、油胺修饰磁珠、硅羟基磁珠、磺酸基磁性微球、巯基磁性微球、PEG修饰磁珠、无修饰四氧化三铁磁珠、单分散硅包磁、环氧基磁珠、单分散介孔硅包磁、金包磁性纳米颗粒、链霉亲和素修饰磁珠、多聚赖氨酸修饰磁珠、镍磁珠、磁性聚苯乙烯微球、二氧化硅磁性微球。
抗体或其抗原结合片段能特异性结合游离组蛋白如下表位中的至少一种:第一表位、第二表位、第三表位、第四表位和第五表位;
在一种可选的实施方式中,第一表位是组蛋白H1的表位;
第二表位是组蛋白H2A的表位;
第三表位是组蛋白H2B的表位;
第四表位是组蛋白H3的表位;
第五表位是组蛋白H4的表位。
其中,组蛋白H1例如选自NCBI号AAA63187.1披露的H1的氨基酸序列,组蛋白H2A例如选自NCBI号AAN59959.1披露的H2A的氨基酸序列,组蛋白H2B例如选自NCBI号CAA41051.1披露的H2B的氨基酸序列,组蛋白H3例如选自NCBI号AAN39284.1披露的H3的氨基酸序列,组蛋白H4例如选自NCBI号NP_003486.1披露的H4的氨基酸序列。
在一种可选的实施方式中,游离组蛋白具有或不具有翻译后修饰;
在一种可选的实施方式中,翻译后修饰选自乙酰化、瓜氨酸化、脱乙酰化、甲基化、去甲基化、脱亚胺化、异构化、磷酸化和遍在蛋白化中的至少一种;
在一种可选的实施方式中,翻译后修饰选自H3K4me1、H3K4me2、H3K4me3、H3K9me1、H3K9me2、H3K9me3、H3K27me1、H3K27me2、H3K27me3、H3K36me1、H3K36me2、H3K36me3、H3K79me1、H3K79me2、H3K79me3、H3K9ac、H3K14ac、H3K18ac、H3K27ac、H3K56ac、H4K5ac、H4K8ac、H4K12ac、H4K16ac、H4R3m2a、H4R3m2s、H4K20m1、H4K20m2、H4K20m3和H2AZ中的至少一种。
在本发明应用较佳的实施方式中,转座酶选自Tn5、MuA、IS5、IS91或哈氏弧菌转座酶,或其活性突变体;
在一种可选的实施方式中,转座酶选自Tn5转座酶或其活性突变体1
在一种可选的实施方式中,接头序列选自引物序列、锚定序列、通用序列、间隔区和索引标签序列(如barcode序列)中的至少一种;
在一种可选的实施方式中,通用序列选自转座酶识别序列。
在一种可选的实施方式中,转座酶识别序列选自IE、OE和ME序列中的至少一种。
Tn5转座酶用于向游离染色质的DNA片段添加转座酶识别序列。通过Tn5转座体的转座过程,在随机打断DNA的同时,也将转座酶识别序列插入片段化的DNA分子两端。再加入建库试剂盒及建库引物(如Nextera index primer和Truseq index primer)后,然后通过PCR完成文库构建。通过在转座酶识别序列一端添加barcode序列,不同文库的DNA片段可通过使用带不同barcode组合的Tn5转座酶被添加不同组合的barcode序列,进而进行区分。本公开通过Tn5转座酶向抗体磁微粒复合体捕获到的游离染色质中的DNA增加接头序列。可选的实施方式中,上述试剂盒还包括建库引物,以用于构建游离染色质免疫共沉淀-测序文库。
在一种可选的实施方式中,接头序列为如下核苷酸序列中的一种:
SEQ ID NO.1:TCGTCGGCAGCGTCTCCACGCAAAGAAAGATGTGTATAAGAGACAG;
SEQ ID NO.2:TCGTCGGCAGCGTCTCCACGCAACAGCAGATGTGTATAAGAGACAG;
SEQ ID NO.3:TCGTCGGCAGCGTCTCCACGCCAACCGAGATGTGTATAAGAGACAG;
SEQ ID NO.4:TCGTCGGCAGCGTCTCCACGCCAAGTCAGATGTGTATAAGAGACAG;
SEQ ID NO.5:TCGTCGGCAGCGTCTCCACGCGAAATAAGATGTGTATAAGAGACAG;
SEQ ID NO.6:TCGTCGGCAGCGTCTCCACGCGAAGGGAGATGTGTATAAGAGACAG;
SEQ ID NO.7:TCGTCGGCAGCGTCTCCACGCTAAGCTAGATGTGTATAAGAGACAG;
SEQ ID NO.8:TCGTCGGCAGCGTCTCCACGCTAATAGAGATGTGTATAAGAGACAG;
SEQ ID NO.9:GTCTCGTGGGCTCGGCTGTCCCTGTCCAAGTATAGATGTGTATAAGAGACAG;
SEQ ID NO.10:GTCTCGTGGGCTCGGCTGTCCCTGTCCCAGACTAGATGTGTATAAGAGACAG;
SEQ ID NO.11:GTCTCGTGGGCTCGGCTGTCCCTGTCCGACTCGAGATGTGTATAAGAGACAG;
SEQ ID NO.12:GTCTCGTGGGCTCGGCTGTCCCTGTCCTACCGAAGATGTGTATAAGAGACAG;
SEQ ID NO.13:GTCTCGTGGGCTCGGCTGTCCCTGTCCTAGAGGAGATGTGTATAAGAGACAG;
SEQ ID NO.14:GTCTCGTGGGCTCGGCTGTCCCTGTCCTATTTCAGATGTGTATAAGAGACAG;
SEQ ID NO.15:GTCTCGTGGGCTCGGCTGTCCCTGTCCCCGTAAAGATGTGTATAAGAGACAG;
SEQ ID NO.16:GTCTCGTGGGCTCGGCTGTCCCTGTCCCGAAAGAGATGTGTATAAGAGACAG;
SEQ ID NO.17:GTCTCGTGGGCTCGGCTGTCCCTGTCCTGAATTAGATGTGTATAAGAGACAG;
SEQ ID NO.18:GTCTCGTGGGCTCGGCTGTCCCTGTCCTCAGTGAGATGTGTATAAGAGACAG;
SEQ ID NO.19:GTCTCGTGGGCTCGGCTGTCCCTGTCCTCATCAAGATGTGTATAAGAGACAG;
SEQ ID NO.20:GTCTCGTGGGCTCGGCTGTCCCTGTCCTCCAAGAGATGTGTATAAGAGACAG;
SEQ ID NO.21:GTCTCGTGGGCTCGGCTGTCCCTGTCCTGGCAGAGATGTGTATAAGAGACAG;
SEQ ID NO.22:GTCTCGTGGGCTCGGCTGTCCCTGTCCTGTGTAAGATGTGTATAAGAGACAG;
SEQ ID NO.23:GTCTCGTGGGCTCGGCTGTCCCTGTCCTGTTCGAGATGTGTATAAGAGACAG。
在本发明应用较佳的实施方式中,试剂盒还包括矫正物;用于矫正或者在样本间进行标准化。在其他实施方式中,也可不设置矫正物,直接采用分析的手段进行矫正。
在一种可选的实施方式中,矫正物为非人物种染色质;
在一种可选的实施方式中,非人物种染色质为果蝇染色质。
在本发明应用较佳的实施方式中,试剂盒还包括激活转座酶活的试剂,且激活转座酶活的试剂含有转座体。
在一种可选的实施方式中,激活转座酶活的试剂包括5-500 nM的转座体;
在一种可选的实施方式中,激活转座酶活的试剂包括10 mM TAPS-NaOH、10mMMgCl2和5-500 nM的转座体,且激活转座酶活的试剂的pH为6.0-8.5;Mg2+用于激活转座酶的酶活。
在一种可选的实施方式中,试剂盒还包括第一样本洗涤缓冲液、第二样本洗涤缓冲液、消化缓冲液和消化终止液中的至少一种;
第一洗涤缓冲液包括Tris-HCl、NaCl、TX-100、EDTA、去乙酰化酶抑制剂和蛋白酶抑制剂;
第二洗涤缓冲液包括Tris-HCl和去乙酰化酶抑制剂;
消化缓冲液包括EDTA-NaOH、Tris-HCl、SDS和蛋白酶;
消化终止液包括苯甲基磺酰氟、TX-100和MgCl2
可选的实施方式中,上述第一样本洗涤缓冲液包括10-100 mM Tris-HCl pH =6.0-8.5,50-500 mM NaCl ,0.1-1.0% TX-100,1-10 mM EDTA-NaOH pH = 6.0-8.5,1-100mM sodium butyrate和10-500×Cocktails。
可选的实施方式中,上述第二样本洗涤缓冲液包括10-100 mM Tris-HCl pH =6.0-8.5,1-100 mM sodium butyrate。
上述消化缓冲液包括EDTA-NaOH、Tris-HCl、SDS和蛋白酶K。可选的实施方式中,上述消化缓冲液包括5-500 mM EDTA-NaOH pH = 6.0-8.5,10-100 mM Tris-HCl pH = 6.0-8.5,0.01-1.0% SDS (w.t.),0.1-10 mg/mL 蛋白酶K。
可选的实施方式中,上述试剂盒还包括消化终止液,上述消化终止液包括PMSF(苯甲基磺酰氟)、TX-100和MgCl2。可选的实施方式中,上述消化终止液包括0.1-100 mM PMSF,0.01-1.0% TX-100,1-100 mM MgCl2
可选的实施方式中,上述试剂盒还包括如下至少一种:蛋白酶抑制剂、组蛋白去乙酰化酶抑制剂、缓冲组分、盐、表面活性剂、pH调节剂和稳定剂中的一种或几种的组合。
可选的实施方式中,上述试剂盒中至少一个试剂中的蛋白酶抑制剂选自蛋白酶抑制剂Cocktails。
可选的实施方式中,上述试剂盒中至少一个试剂中的组蛋白去乙酰化酶抑制剂包括丁酸盐(sodium butyrate)。
可选的实施方式中,上述试剂盒还包括用于清除与抗体磁微粒复合体非特异性结合的蛋白的至少一种样本洗涤缓冲液。
第二方面,本发明提供了一种游离染色质DNA文库的构建方法,其包括如下步骤:采用上述的试剂盒构建待测样本的游离染色质DNA文库。
采用DNA聚合酶对游离染色质DNA文库进行PCR扩增;
可选的实施方式中,DNA聚合酶选自Taq DNA聚合酶、KAPA高保真聚合酶、Q5 DNA聚合酶、、KOD DNA聚合酶、pfu DNA聚合酶和Tth DNA聚合酶中的至少一种;
可选的实施方式中,扩增后的文库使用核酸提取磁珠和/或酚氯仿抽提进行产物纯化。
可选的实施方式中,还包括对上述游离染色质免疫共沉淀-测序文库进行测序,并分析获取的测序数据,获取染色质状态信息。
可选的实施方式中,上述待测样本按照如下方法获得:向获取的血液样本中加入去乙酰化酶抑制剂和蛋白酶抑制剂,分离血细胞成分后得到上述待测样本。上述血细胞成分包括完整的血细胞和血细胞碎片。可选的实施方式中,先清除与磁微粒复合体结合的非特异性结合蛋白,然后添加接头序列。
可选的实施方式中,还包括添加测序接头序列后使用蛋白酶消化反应体系中的蛋白。
可选的实施方式中,上述测序可选择本领域可接受的任何方法和平台进行测序。
可选的实施方式中,上述测序包括二代测序。
可选的实施方式中,上述任意两步骤之间还包括纯化步骤。可选的实施方式中,上述纯化包括使用磁珠纯化。
第三方面,本发明提供了一种对测序数据进行前处理的方法,其包括如下步骤:对游离染色质DNA文库测序后的下机数据进行测序接头的去除、参考基因组定位、测序读长质量筛选及重复读长的去除;
在一种可选的实施方式中,采用去接头的软件进行测序接头的去除,接头软件选自Cutadapt;采用Bowtie2软件进行参考基因组定位;采用Samtools和Picard进行测序读长质量筛选及重复读长的去除;
在一种可选的实施方式中,使用矫正物的测序数据通过深度数据排序工具对不同样本的测序深度进行矫正,并去除批次效应;
在一种可选的实施方式中,对多种组蛋白修饰位点信号信息及整合后的染色质状态信息进行可视化;在一种可选的实施方式中,采用IGV对多种组蛋白修饰位点信号信息及整合后的染色质状态信息进行可视化。
第四方面,本发明提供了一种获得多种器官组织特异性染色质特征的方法,方法不以疾病的诊断和治疗为目的,方法包括如下步骤:
对上述的游离染色质DNA文库进行测序,对下机数据按照上述的方法进行前处理后,对公共数据库中多种组织及细胞类型进行整合分析,获得多种代表不同组蛋白修饰在染色质上共结合分布的染色质状态;
在一种可选的实施方式中,采用多变量隐马尔可夫模型ChromHMM整合公共数据库中多种器官组织染色质上的组蛋白修饰信息,并进行全基因组范围染色质模型构建,全局差异分析整合得到的多种器官组织特异性染色质特征集合;
在一种可选的实施方式中,全基因组范围染色质模型的构建方法包括:对公共数据库中多种组织器官多种组蛋白修饰在全基因范围的共占位特征构建多变量隐马尔可夫模型,用15-20种染色质状态特征概括不同组蛋白修饰的共占位情况,基于上述多变量隐马尔可夫模型根据多种组蛋白修饰全基因组富集信息判断组织细胞及血浆游离染色质在全基因组范围每100-2000bp的染色质状态;
在一种可选的实施方式中,通过全局差异分析整合构建多种器官组织特异性染色质特征集合所基于的数据库选自:ENCODE、ROADMAP和BLUEPRINT中至少一种数据库中的多种组织和细胞类型的多种组蛋白修饰。可选的实施方式中,多种器官组织特异性染色质特征集合的构建基于数据库ENCODE, ROADMAP, BLUEPRINT5-7中的65种组织和细胞类型的7种组蛋白修饰(H3K4me1, H3K4me3, H3K9ac, H3K27ac, H3K27me3, H3K9me3, H3K36me3)。
在一种可选的实施方式中,判断染色质状态的方法包括:采用染色体组或基因组注释工具对血浆游离染色质上以100-2000bp分辨率对多种组蛋白修饰在基因组上的分布情况进行整合,将全基因组按照100-2000bp划分为多个区域,计算每个区域判断为多种染色质状态中每一种染色质状态的概率,并以染色质状态概率最高的染色质状态注释为区域的染色质状态;
在一种可选的实施方式中,全局差异分析整合包括:使用“BinarizeBed”以100-2000bp分辨率将组织细胞中每种组蛋白修饰的信号定性为0或1,使用“MakeSegment”及“-posterior”整合组织细胞类型上多种组蛋白修饰并计算得到全基因组范围每100-2000bp的染色质状态及每一种状态的可能性分值,通过“某一区域的染色质状态仅出现在某一种器官组织中,在其仅出现的组织细胞中目标区域posterior probability大于0.8-1.0,但在其他组织细胞中同一目标区域posterior probability小于0-0.2”评判标准定义每一种组织细胞类型的特异性染色质状态及对应的基因组位置,整合为特征集合。
第五方面,本发明提供了一种获得血浆游离染色质组织细胞起源的方法,上述方法以非疾病的诊断和治疗为目的,上述方法包括如下步骤:在血浆游离染色质基因组范围每100-2000bp区域中搜索上述的方法获得的器官组织特异性染色质特征集合中的特征,对全基因组范围每一个100-2000bp区域判断器官组织起源;
在一种可选的实施方式中,对同一个体搜索到的上述器官组织特异性染色质特征集合中的特征信号进行统计,计算每一种组织或细胞在游离染色质中被检测到的上述特征信号的数目从而获得器官组织的信号;
在一种可选的实施方式中,对不同人群游离染色质组织器官来源的贡献进行比较,获得不同疾病状态下组织器官来源信号模式,鉴定出不同疾病状态下组织器官来源信号的差异。
第六方面,本发明提供了一种获得游离染色质基因调控特征的方法,方法以非疾病的诊断和治疗为目的,方法包括如下步骤:
将待测样本的游离染色质上染色质状态注释给相应基因,获得游离染色质基因调控特征;
在一种可选的实施方式中,在待测样本的血浆游离染色质中,使用基因注释分析包将鉴定出的染色质状态及相应基因组定位注释给邻近基因;可选的实施方式中,上述注释染色体状态至基因的算法包括使用ChIPseeker程序包。
在一种可选的实施方式中,所有基因TSS上游20kb至TES下游20kb区域的染色质状态被认为参与调控基因,基于注释信息,对基因组范围全部基因的调控信息进行多个染色质状态维度的打分,整合同一基因整合所有相关区域染色质状态分值,评估基因组上各基因调控状态;
在一种可选的实施方式中,针对同一基因整合所有相关区域染色质状态分值的方法包括:将同一基因相关的所有100-2000bp中同一染色质状态的分值相加,获得同一基因多种染色质状态总分值;
在一种可选的实施方式中,对不同人群中基于游离染色质状态推断的基因调控模式进行比较,鉴定出不同疾病状态下基因调控模式的改变及显著变化的基因位点。
第七方面,本发明提供了一种通过游离染色质器官组织起源特征进行无偏健康状况预测或疾病分型的方法,方法以非疾病的诊断和治疗为目的,方法包括如下步骤:
根据上述的方法获得待测个体的游离染色体中器官组织信号,整合后,无偏判断个体健康状况;
在一种可选的实施方式中,无偏判断个体健康状况的方法包括:使用R包对正常个体中各种组织细胞来源信号的分布进行拟合和检验,使用机器学习模型通过已知病人及已知正常人的组织细胞来源信号对不同人群分类并通过重要性排序确定每一种组织细胞的高区分度特征位点;
在一种可选的实施方式中,分布拟合和检验的方法包括使用frm贝叶斯修正对分布模型进行修正和推断;拟合和检验包括采用R包中的fitdistrplus函数进行拟合和检验;
在一种可选的实施方式中,无偏判断个体健康状况的方法还包括检验待检测个体每个组织细胞来源的信号分值在高区分度特征位点上是否符合正常人拟合的分布;
在一种可选的实施方式中,无偏判断个体健康状况的方法还包括统计高区分度特征位点上每种组织细胞来源信号不符合正常人该组织细胞来源信号分布的特征位点数;
在一种可选的实施方式中,无偏判断个体健康状况的方法还包括结合统计的每种组织细胞包含的异常特征位点数,通过异常位点数多少判断组织的异常程度,位点数越多认为异常程度越高;
在一种可选的实施方式中,使用机器学习模型对不同疾病类型人群进行分类,对疾病不同亚型进行区分;
在一种可选的实施方式中,使用机器学习模型对组织器官特征进行重要性排序,确定每一种组织细胞的高区分度特征位点;
在一种可选的实施方式中,机器学习模型选自随机森林、神经网络、逻辑回归、线性回归、多项式回归、逐步回归、岭回归、套索回归、弹性回归、支持向量机、极致梯度提升、多层感知机和线性判别分析中的任一种。
在一种可选的实施方式中,机器学习模型选自随机森林。
第八方面,本发明提供了一种通过游离染色质基因调控特征进行疾病预测或疾病分型的方法,该方法以非疾病的诊断和治疗为目的,方法包括如下步骤:
根据上述的方法获得待测个体的游离染色质基因调控特征,整合后,构建机器学习模型判断个体健康状况;
在一种可选的实施方式中,判断个体健康状况的方法包括:使用R包对已知患有不同疾病的个体与健康个体游离染色质上基因多种染色质状态分值进行差异分析,或对患疾病不同亚型的个体游离染色质上基因多种染色质状态分值进行差异分析,获得疾病特异性或疾病亚型特异性的基因调控特征集合,使用机器学习模型通过已知病人及已知正常人的基因调控特征模式对不同人群分类,并通过重要性排序确定不同疾病或疾病不同亚型的高区分度特征位点。
在一种可选的实施方式中,差异分析获得疾病特异性或疾病亚型特异性的基因调控特征集合使用DESeq2、edgeR或limma R包完成,设定显著差异阈值为adjust P-value<0.05、Log2FC>1。
在一种可选的实施方式中,使用机器学习模型对不同疾病类型人群进行分类,对疾病不同亚型进行区分。
在一种可选的实施方式中,使用机器学习模型对疾病特异性或疾病亚型特异性的基因调控特征集合进行重要性排序,不同疾病或疾病不同亚型的高区分度特征位点。
机器学习模型选自随机森林、神经网络、逻辑回归、线性回归、多项式回归、逐步回归、岭回归、套索回归、弹性回归、支持向量机、极致梯度提升、多层感知机和线性判别分析中的任一种。
在一种可选的实施方式中,机器学习模型选自随机森林。
第九方面,本发明提供了一种的试剂盒,或上述构建方法在如下任意一项中的应用:
(a)制备染色质状态检测,器官组织来源检测或基因调控检测的产品;
(b)非诊断和治疗目的的检测染色质状态和/或鉴定游离染色质的组织器官来源和/或基因调控特征;
(c)构建测序文库;
(d)游离染色质组蛋白修饰测序数据处理及分析;
(e)制备疾病诊断、辅助诊断、预后检测、疗效评估或复发监测产品。
第十方面,本发明提供了一种测序数据前处理装置,其包括:
输入模块和测序数据前处理模块;
输入模块用于测序下机数据的输入;
测序数据前处理模块用于对输入的测序下机数据按照7的方法前处理。
第十方面,本发明提供了一种获得多种器官组织特异性染色质特征集合的装置,其包括:
输入模块、整合组蛋白修饰信息模块、全局差异分析模块和输出模块;
输入模块用于输入上述的多种公共数据库中至少一种器官组织多种组蛋白修饰ChIP-seq数据集(即至少一种公共数据库中多种器官组织染色质上的组蛋白修饰信息);
整合组蛋白修饰信息模块用于:采用多变量隐马尔可夫模型ChromHMM整合公共数据库中多种器官组织染色质上的组蛋白修饰信息,并进行全基因组范围染色质模型构建;
全局差异分析模块用于:通过染色体组或基因组注释工具对血浆游离染色质上以100-2000bp分辨率对多种组蛋白修饰在基因组上的分布情况进行整合,将全基因组按照100-2000bp划分为多个区域,计算每个区域判断为多种染色质状态中每一种染色质状态的概率,并以染色质状态概率最高的染色质状态注释为区域的染色质状态;
输出模块用于:输出全局差异分析模块产生的包括每一种组织细胞类型的特异性染色质状态及对应的基因组位置的特征集合。
第十二方面,本发明提供了一种获得血浆游离染色质组织细胞起源的装置,其包括:
输入模块、搜索模块、判断模块、器官组织特异性染色质特征信号统计模块和输出模块;
输入模块用于:输入上述的方法获得的器官组织特异性染色质特征集合和上述方法前处理后的血浆游离染色质上多种组蛋白修饰在基因组上富集数据;
搜索模块用于:在血浆游离染色质基因组范围每100-2000bp区域中搜索8的方法获得的器官组织特异性染色质特征集合中的特征;
判断模块用于:在全基因组范围内每一个100-2000bp区域判断器官组织起源;
器官组织特异性染色质特征信号统计模块用于:对同一个体搜索到的器官组织特异性染色质特征集合中的特征信号进行统计,计算每一种组织或细胞在游离染色质中被检测到的特征信号的数目从而获得器官组织的信号;
输出模块用于:输出血浆游离染色质组织细胞起源和/或器官组织的信号;
在一种可选的实施方式中,装置还包括鉴定模块,鉴定模块用于:对不同人群游离染色质组织器官来源的贡献进行比较,获得不同疾病状态下组织器官来源信号模式,鉴定出不同疾病状态下组织器官来源信号的差异。
第十三方面,本发明提供了一种获得游离染色质基因调控特征的装置,其包括:
输入模块、注释模块、评估模块和输出模块;
输入模块用于:输入待测样本的游离染色质上染色质状态及对应基因组位置和参考基因组;
注释模块用于:将待测样本的游离染色质上染色质状态注释给相应基因;
评估模块用于:基于注释模块的注释信息,对基因组范围全部基因的调控信息进行多个染色质状态维度的打分,整合同一基因整合所有相关区域染色质状态分值,评估基因组上各基因调控状态
输出模块用于:输出游离染色质基因调控特征。
在一种可选的实施方式中,上述装置还包括鉴定模块,上述鉴定模块用于:对不同人群游离染色质基因调控特征进行比较,获得不同疾病状态下基因调控特征模式,鉴定出不同疾病状态下基因调控特征的差异。
第十四方面,本发明提供了一种通过游离染色质器官组织起源特征进行健康状况无偏预测或疾病分型的装置,其包括:
输入模块、拟合检验模块、高区分度特征位点确定模块、统计模块和判断模块;
输入模块用于:输入根据上述的方法获得待测个体的游离染色体中器官组织信号;
拟合检验模块用于:使用R包对正常个体中各种组织细胞来源信号的分布进行拟合和检验、使用frm贝叶斯修正对分布模型进行修正和推断;
高区分度特征位点确定模块用于:使用机器学习模型通过已知病人及已知正常人的组织细胞来源信号对不同人群分类并通过重要性排序;并检验待检测个体每个组织细胞来源的信号分值在高区分度特征位点上是否符合正常人拟合的分布;
统计模块用于:统计高区分度特征位点上每种组织细胞来源信号不符合正常人该组织细胞来源信号分布的特征位点数;
判断模块用于:通过统计模块统计的每种组织细胞包含的异常特征位点数判断组织的异常程度。
第十五方面,本发明提供了一种一种通过游离染色质基因调控特征进行健康状况预测或疾病分型的装置,其包括:
输入模块、高区分度特征位点确定模块、机器学习模型构建模块和判断模块;
输入模块用于:输入根据10上述的方法获得待测个体的游离染色体中基因调控特征;
高区分度特征位点确定模块用于:使用R包对已知患有不同疾病的个体与健康个体进行差异分析,或对患疾病不同亚型的个体进行差异分析,获得疾病特异性或疾病亚型特异性的基因调控特征集合;
机器学习模型构建模块用于:使用高区分度特征位点确定模块输出的高区分度基因调控特征集合对不同健康状况个体构建机器学习模型,以达到对不同个体较好的区分;
判断模块用于:通过上述机器学习模型构建模块构建的模型对待测个体的基因调控特征模式进行评估,判断基因调控的异常程度。
第十六方面,本发明提供了一种电子设备,包括存储器和处理器,存储器存储有可在处理器上运行的计算机程序,处理器执行程序时实现如下任意一种方法中的步骤:
(a)采用上述方法对游离染色质DNA文库进行构建;
(b)采用上述方法对测序数据进行前处理;
(c)采用上述方法获得多种器官组织特异性染色质特征集合;
(d)采用上述方法获得血浆游离染色质组织细胞起源和/或器官组织的信号;
(e)采用上述方法获得游离染色质基因调控特征;
(f)采用上述方法进行健康状况的无偏预测和疾病分型。
(g)采用上述方法进行疾病预测和疾病分型。
具体地,该电子设备可以包括存储器、处理器、总线和通信接口,该存储器、处理器和通信接口相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条总线或信号线实现电性连接。处理器可以处理与目标识别有关的信息和/或数据,以执行本申请中描述的一个或多个功能。
存储器可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。处理器可以是一种集成电路芯片,具有信号处理能力。该处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
第十七方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如下任意一种方法中的步骤:
(a)采用上述方法对游离染色质DNA文库进行构建;
(b)采用上述方法对测序数据进行前处理;
(c)采用上述方法获得多种器官组织特异性染色质特征集合;
(d)采用上述方法获得血浆游离染色质组织细胞起源和/或器官组织的信号;
(e)采用上述方法进行健康状况的无偏预测和疾病分型;
(f)采用上述方法获得游离染色质基因调控特征;
(g)采用上述方法进行疾病预测和疾病分型。
以上,本发明提供了血浆游离染色质测序数据处理及分析的特征集合和程序算法,包括基于samtools、bedtools、bowtie2、picard、cutadapter等程序进行测序数据数据前处理的流程算法,基于多变量隐马尔可夫模型分析公共数据获得的多种器官组织特异性整合染色质特征集合,利用组织特异性特征集合去卷积判定血浆游离染色质组织细胞起源的方法,基于机器学习、分布拟合检验、贝叶斯修正综合血浆游离染色质组织特异性信号预测个体健康状况的无偏诊断方法,基于基因组注释利用血浆游离染色质状态定义全基因组基因调控的算法;
可选的实施方式中,上述构建的程序算法借鉴了包括多变量隐马尔可夫模型ChromHMM、染色质状态全基因组注释、多公共数据库整合、去卷积、机器学习及贝叶斯修正等数据分析程序算法。
需要说明的是,本公开提供的任意一方法、算法和应用均是非诊断和治疗目的的。
下面通过具体的实施例进一步说明本公开,但是,应当理解为,这些实施例仅仅是用于更详细地说明之用,而不应理解为用于以任何形式限制本公开。
实施例1
本实施例提供了一种血浆游离染色质捕获试剂盒,包含:
抗体偶联磁珠、洗涤缓冲液1、洗涤缓冲液2、激活缓冲液、消化缓冲液和消化终止液,配方如下所示:
上述抗体偶联磁珠包括特异性结合如下修饰组蛋白的抗体偶联磁珠:H3K4me1、H3K4me2、H3K4me3、H3K9me1、H3K9me2、H3K9me3、H3K27me1、H3K27me2、H3K27me3、H3K36me1、H3K36me2、H3K36me3、H3K79me1、H3K79me2、H3K79me3、H3K9ac、H3K14ac、H3K18ac、H3K27ac、H3K56ac、H4K5ac、H4K8ac、H4K12ac、H4K16ac、H4R3m2a、H4R3m2s、H4K20m1、H4K20m2、H4K20m3和H2AZ中的至少一种。
洗涤缓冲液1:50mM Tris-HCl, pH=7.4,150mM NaCl,0.5% TX-100,2mM EDTA,10mM sodium butyrate,100×Cocktails;
洗涤缓冲液2:10 mM Tris-HCl, pH=7.4,10 mM sodium butyrate;
激活缓冲液:10 mM TAPS-NaOH, pH=8.5,10mM MgCl2,20 nM Tn5转座酶复合体(同专利CN201810121175.6);
Tn5转座酶复合体为纯化pTXB1-Tn5质粒所得的Tn5蛋白在如下包括接头序列的体系(37.5 µM Tn5, 37.5 µM 接头序列, 100×Cocktails)中组装而成,反应条件为25℃1.5小时,300 rpm,,反应体系体积为50 µL。
接头序列为:
SEQ ID NO.1:TCGTCGGCAGCGTCTCCACGCAAAGAAAGATGTGTATAAGAGACAG。
消化缓冲液:60 mM EDTA-NaOH,60 mM Tris-HCl, pH=8.0,0.25% SDS(w.t.),0.6mg/mL 蛋白酶K;
消化终止液:4 mM PMSF,0.36% TX-100,50 mM MgCl2
实施例2
本实施例提供了一种血浆游离染色质的检测、分析及应用方法(cf-EpiTracing方法),该检测方法使用实施例1提供的试剂盒实现,包括如下步骤,捕获血浆中游离染色质的流程示意图如图1所示:
(1)收集血液,加入100×Cocktails(蛋白酶抑制剂)、丁酸钠(去乙酰化酶抑制剂),低速离心(1500g,10分钟)去除血细胞,补加100×Cocktails、丁酸钠,中速离心(3000g,10分钟)去除血细胞碎片。将血浆分装至200微升容量的八连排管子中,每管50~200微升,加入提取果蝇染色质片段,加入携带约1μg抗体的抗体磁珠复合体。血浆与抗体混匀后4℃孵育约10至12小时。
(2)用样本洗涤缓冲液1洗磁珠3次;
(3)用样本洗涤缓冲液2洗磁珠1次;
(4)用10微升激活缓冲液激活Tn5转座酶且切割血浆游离染色质上的DNA,37℃,30分钟;
(5)加入2微升消化缓冲液,55℃,15分钟;
(6)加入5微升消化终止液,37℃,15分钟;
(7)加入建库体系(10 µL 5× KAPA High GC enhancer缓冲液、1.5 µL 10 mMdNTP Mix, 1 µL 25 mM MgCl2, 0.5 µL 1U/µL KAPA HiFi DNA 聚合酶, 17 µL H2O、 1.5µL 10 mM Nextera index i5 primer 和 1.5 µL 10 mM Nextera index i7 primer)进行原管建库;
(8)用AMP beads纯化体系中的DNA,并筛去文库中小于200bp的DNA片段,用于二代测序;
(9)测序数据前处理:首先使用去接头软件Cutadapt对测序数据进行去除测序接头、使用mapping软件Bowtie28参考基因组定位、使用Samtools9及Picard测序读长质量筛选及去除重复读长。使用果蝇来源染色体测序数据借助DeepTools10对不同样本的测序深度进行矫正并去除批次效应。多种组蛋白修饰位点信号信息及整合后的染色质状态信息可通过IGV11进行可视化。
(10)使用基于多变量隐马尔可夫模型的算法ChromHMM12对公共数据中65种组织及细胞类型的公共数据进行整合分析,鉴定出了18种代表不同组蛋白修饰在染色质上共结合分布的染色质状态,示意如图2a。18种染色质状态的代表的组蛋白修饰组合和基因组分布情况如图2b所示。基于上述18种染色质组蛋白修饰组合状态,借助Bedtools13对血浆游离染色质上以200bp分辨率对多种组蛋白修饰在基因组上的分布情况进行整合,计算全基因组范围每200bp判断为18种染色质状态中每一种的概率并将该区域的染色质状态注释为概率最高的一种。
(11)基于已发表论文及公共数据库 (ENCODE, BLUEPRINT, ROADMAP) 中65种组织及细胞类型的多种组蛋白修饰的ChIP-seq数据,鉴定出65种组织及细胞类型特异的染色质状态及对应的基因组位置。在血浆游离染色质中搜索组织特异性染色质状态及相应基因组定位,据此推断该游离染色质片段组织器官来源。鉴定血浆游离染色质组织器官来源的原理如图3所示。
(12)在血浆游离染色质中使用ChIPseeker14将鉴定出的染色质状态及相应基因组定位注释给邻近基因,基因TSS上游20kb至TES下游20kb区域的染色质状态被认为参与调控基因。基于该注释信息,对基因组范围全部基因的调控信息进行18个染色质状态维度的打分,系统评估基因组上各基因调控状态。
(13)对不同人群游离染色质组织器官来源的贡献进行比较,获得不同疾病状态下组织器官来源信号模式,鉴定出不同疾病状态下组织器官来源信号的差异。对不同人群中基于游离染色质状态推断的基因调控模式进行比较,鉴定出不同疾病状态下基因调控模式的改变及显著变化的基因位点。不同疾病的区分效果可通过umap,tsne及使用Seurat15等分群和单细胞算法实现可视化并通过ROC曲线计算AUC对分群效果定量化。
(14)使用randomForest机器学习模型对不同疾病类型人群进行分类,对疾病不同亚型进行区分,对早期疾病状态进行预测。基于公共数据库中组织器官数据对正常人群血浆游离染色质中组织器官来源信号使用fitdistrplus 拟合分布并可通过brm实现贝叶斯推断及修正,进而对待检测个体各组织器官来源信号进行系统评估,判断该个体可能处于疾病状态的组织器官。
结果如图4、图5所示,上述实施例提供的方法(cf-EpiTracing)能高效地捕获血浆中游离染色质上的多种组蛋白修饰,并比已发表方法具有更高的信噪比。如图6a及6b所示,H3K4me3修饰能捕获到更多基因TSS上的信号。如图7所示,上述方法具有很高的可重复性(r=0.98)。如图8所示,经过基于果蝇染色质的批次修正减少了同类型人群数据间的差异。如图9所示,整合多种组蛋白修饰的分析方法能够较先前报道方法对结直肠癌病人进行更准确的鉴定。如图10a及图10b所示,在群体角度该技术能捕获不同人群的组织器官来源信号模式的差异并基于机器学习模型进行准确区分。如图11所示,从个体角度该方法能够灵敏地预测患不同疾病病人血浆中游离染色质的组织来源,与其携带的疾病类型高度相关。如图12所示,该技术能捕获淋巴瘤不同亚型的基因调控模式差异并基于机器学习模型进行准确区分。如图13所示,该技术能以较高灵敏度从健康人中区分出早期结直肠癌病人。
参考文献:
1.何爱彬, 李晨&艾珊珊. 微量细胞ChIP法. CN108315387B.
2.Lo, Y. M. D., Han, D. S. C., Jiang, P.&Chiu, R. W. K. Epigenetics,fragmentomics, and topology of cell-free DNA in liquid biopsies.Science372,doi:10.1126/science.aaw3616 (2021).
3.Vorperian, S. K., Moufarrej, M. N.&Quake, S. R. Cell types oforigin of the cell-free transcriptome.Nat Biotechnol40, 855-861, doi:10.1038/s41587-021-01188-9 (2022).
4.Sadeh, R.et al.ChIP-seq of plasma cell-free nucleosomes identifiesgene expression programs of the cells of origin.Nat Biotechnol39, 586-598,doi:10.1038/s41587-020-00775-6 (2021).
5.Kundaje, A.et al.Integrative analysis of 111 reference humanepigenomes.Nature518, 317-330, doi:10.1038/nature14248 (2015).
6.Stunnenberg, H. G.&Hirst, M. The International Human EpigenomeConsortium: A Blueprint for Scientific Collaboration and Discovery.Cell167,1145-1149, doi:10.1016/j.cell.2016.11.007 (2016).
7.Boix, C. A., James, B. T., Park, Y. P., Meuleman, W.&Kellis, M.Regulatory genomic circuitry of human disease loci by integrativeepigenomics.Nature590, 300-307, doi:10.1038/s41586-020-03145-z (2021).
8.Langdon, W. B. Performance of genetic programming optimised Bowtie2on genome comparison and analytic testing (GCAT) benchmarks.BioData Min8, 1,doi:10.1186/s13040-014-0034-0 (2015).
9.Li, H.et al.The Sequence Alignment/Map format andSAMtools.Bioinformatics25, 2078-2079, doi:10.1093/bioinformatics/btp352(2009).
10.Ramírez, F., Dündar, F., Diehl, S., Grüning, B. A.&Manke, T.deepTools: a flexible platform for exploring deep-sequencing data.Nucleic Acids Res42, W187-191, doi:10.1093/nar/gku365 (2014).
11.Thorvaldsdóttir, H., Robinson, J. T.&Mesirov, J. P. IntegrativeGenomics Viewer (IGV): high-performance genomics data visualization andexploration.Brief Bioinform14, 178-192, doi:10.1093/bib/bbs017 (2013).
12.Ernst, J.&Kellis, M. ChromHMM: automating chromatin-statediscovery and characterization.Nat Methods9, 215-216, doi:10.1038/nmeth.1906(2012).
13.Quinlan, A. R.&Hall, I. M. BEDTools: a flexible suite of utilitiesfor comparing genomic features.Bioinformatics26, 841-842, doi:10.1093/bioinformatics/btq033 (2010).
14.Yu, G., Wang, L.-G.&He, Q.-Y. ChIPseeker: an R/Bioconductorpackage for ChIP peak annotation, comparison andvisualization.Bioinformatics31, 2382-2383, doi:10.1093/bioinformatics/btv145(2015).
15.Hao, Y.et al.Integrated analysis of multimodal single-celldata.Cell184, 3573-3587.e3529, doi:10.1016/j.cell.2021.04.048 (2021).
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (9)

1.一种获得多种器官组织特异性染色质特征的方法,其特征在于,所述方法不以疾病的诊断和治疗为目的,所述方法包括如下步骤:
对游离染色质DNA文库进行测序,对下机数据按照进行前处理后,对公共数据库中多种组织及细胞类型进行整合分析,获得多种代表不同组蛋白修饰在染色质上共结合分布的染色质状态;
其中,游离染色质DNA文库的构建方法其包括如下步骤:采用试剂盒构建待测样本的游离染色质DNA文库;采用DNA聚合酶对所述游离染色质DNA文库进行PCR扩增;
所述试剂盒包括:转座体、激活转座酶活的试剂和多种载体,所述载体带有能特异性结合游离组蛋白的表位的抗体或其抗原结合片段;所述载体为抗体-磁珠复合体或抗原结合片段-磁珠复合体,所述转座体包括转座酶和接头序列;所述多种载体能够捕获多种修饰组蛋白的游离染色质;
所述抗体或其抗原结合片段能特异性结合游离组蛋白,如下表位中的至少一种:第一表位、第二表位、第三表位、第四表位和第五表位;
所述第一表位是组蛋白H1的表位;
所述第二表位是组蛋白H2A的表位;
所述第三表位是组蛋白H2B的表位;
所述第四表位是组蛋白H3的表位;
所述第五表位是组蛋白H4的表位;
所述游离组蛋白具有翻译后修饰;
所述翻译后修饰选自H3K4me1、H3K4me2、H3K4me3、H3K9me1、H3K9me2、H3K9me3、H3K27me1、H3K27me2、H3K27me3、H3K36me1、H3K36me2、H3K36me3、H3K79me1、H3K79me2、H3K79me3、H3K9ac、H3K14ac、H3K18ac、H3K27ac、H3K56ac、H4K5ac、H4K8ac、H4K12ac、H4K16ac、H4R3m2a、H4R3m2s、H4K20m1、H4K20m2、H4K20m3和H2AZ中的至少一种;
所述激活转座酶活的试剂包括10 mM TAPS-NaOH和10mM MgCl2,且所述激活转座酶活的试剂的pH为6.0-8.5;
所述试剂盒还包括第一样本洗涤缓冲液、第二样本洗涤缓冲液、消化缓冲液和消化终止液中的至少一种;
所述第一样本洗涤缓冲液包括:10-100 mM Tris-HCl pH = 6.0-8.5、50-500 mMNaCl、0.1-1.0% TX-100、1-10 mM EDTA-NaOH pH = 6.0-8.5、1-100 mM去乙酰化酶抑制剂和10-500×蛋白酶抑制剂;
所述第二样本洗涤缓冲液包括10-100 mM Tris-HCl pH = 6.0-8.5和1-100 mM去乙酰化酶抑制剂;
所述消化缓冲液包括5-500 mM EDTA-NaOH pH = 6.0-8.5、10-100 mM Tris-HCl pH =6.0-8.5、0.01-1.0% SDS和0.1-10 mg/mL 蛋白酶;
所述消化终止液包括0.1-100 mM苯甲基磺酰氟、0.01-1.0% TX-100和1-100 mM MgCl2
所述待测样本的游离染色质DNA文库的构建还包括加入建库体系;
对测序数据进行前处理的方法包括如下步骤:对游离染色质DNA文库测序后的下机数据进行测序接头的去除、参考基因组定位、测序读长质量筛选及重复读长的去除;
采用去接头的软件进行测序接头的去除,所述接头软件选自Cutadapt;采用Bowtie2软件进行参考基因组定位;采用Samtools和Picard进行测序读长质量筛选及重复读长的去除;
使用矫正物的测序数据通过深度数据排序工具对不同样本的测序深度进行矫正,并去除批次效应;
采用多变量隐马尔可夫模型ChromHMM整合公共数据库中多种器官组织染色质上的组蛋白修饰信息,并进行全基因组范围染色质模型构建,全局差异分析整合得到的多种器官组织特异性染色质特征集合;
所述全基因组范围染色质模型的构建方法包括:对公共数据库中多种组织器官多种组蛋白修饰在全基因范围的共占位特征构建多变量隐马尔可夫模型,用15-20种染色质状态特征概括不同组蛋白修饰的共占位情况,基于所述多变量隐马尔可夫模型根据多种组蛋白修饰全基因组富集信息判断组织细胞及血浆游离染色质在全基因组范围每100-2000bp的染色质状态;
构建全基因组范围染色质模型及通过全局差异分析整合构建所述多种器官组织特异性染色质特征集合所基于的数据库选自:ENCODE、ROADMAP和BLUEPRINT中至少一种数据库中的多种组织和细胞类型的多种组蛋白修饰;
所述判断染色质状态的方法包括:采用染色体组或基因组注释工具对血浆游离染色质上以100-2000bp分辨率对多种组蛋白修饰在基因组上的分布情况进行整合,将全基因组按照100-2000bp划分为多个区域,计算每个区域判断为多种染色质状态中每一种染色质状态的概率,并以染色质状态概率最高的染色质状态注释为所述区域的染色质状态;
所述全局差异分析整合包括:使用“BinarizeBed”以100-2000bp分辨率将组织细胞中每种组蛋白修饰的信号定性为0或1,使用“MakeSegment”及“-posterior”整合组织细胞类型上多种组蛋白修饰并计算得到全基因组范围每100-2000bp的染色质状态及每一种状态的可能性分值,通过“某一区域的染色质状态仅出现在某一种器官组织中,在其仅出现的组织细胞中目标区域posterior probability大于0.8-1.0,但在其他组织细胞中同一所述目标区域posterior probability小于0-0.2”的评判标准定义每一种组织细胞类型的特异性染色质状态及对应的基因组位置,整合为特征集合。
2.根据权利要求1所述的获得多种器官组织特异性染色质特征的方法,其特征在于,所述建库体系包括:5× KAPA High GC enhancer缓冲液、dNTP Mix, MgCl2, KAPA HiFi DNA聚合酶, H2O、Nextera index i5 primer 和 Nextera index i7 primer。
3.根据权利要求1所述的获得多种器官组织特异性染色质特征的方法,其特征在于,所述转座酶选自Tn5、MuA、IS5、IS91或哈氏弧菌转座酶,或其活性突变体;
所述接头序列选自引物序列、锚定序列、通用序列、间隔区和索引标签序列中的至少一种;
所述通用序列选自转座酶识别序列;
所述转座酶识别序列选自IE、OE和ME序列中的至少一种。
4.根据权利要求1所述的获得多种器官组织特异性染色质特征的方法,其特征在于,所述试剂盒还包括矫正物;
所述矫正物为非人物种染色质;
所述非人物种染色质为果蝇染色质。
5. 根据权利要求1所述的获得多种器官组织特异性染色质特征的方法,其特征在于,所述DNA聚合酶选自Taq DNA聚合酶、KAPA高保真聚合酶、Q5 DNA聚合酶、KOD DNA聚合酶、pfu DNA聚合酶和Tth DNA聚合酶中的至少一种。
6.一种获得血浆游离染色质组织细胞起源的方法,其特征在于,所述方法以非疾病的诊断和治疗为目的,所述方法包括如下步骤:在血浆游离染色质基因组范围每100-2000bp区域中搜索权利要求1-5任一项所述的获得多种器官组织特异性染色质特征的方法获得的器官组织特异性染色质特征集合中的特征,对全基因组范围每一个100-2000bp区域判断器官组织起源;
对同一个体搜索到的所述器官组织特异性染色质特征集合中的特征信号进行统计,计算每一种组织或细胞在游离染色质中被检测到的所述特征信号的数目从而获得器官组织的信号;
对不同人群游离染色质组织器官来源的贡献进行比较,获得不同疾病状态下组织器官来源信号分布模式,鉴定出不同疾病状态下组织器官来源信号的差异。
7.一种获得游离染色质基因调控特征的方法,其特征在于,所述方法以非疾病的诊断和治疗为目的,所述方法包括如下步骤:
将待测样本的游离染色质上如权利要求1-5任一项中所述的染色质状态注释给相应基因,获得游离染色质基因调控特征;
在待测样本的血浆游离染色质中,使用基因注释分析包将鉴定出的染色质状态及相应基因组定位注释给邻近基因;
所有基因TSS上游20kb至TES下游20kb区域的染色质状态被认为参与调控基因,基于注释信息,对基因组范围全部基因的调控信息进行多个染色质状态维度的打分,整合同一基因整合所有相关区域染色质状态分值,评估基因组上各基因调控状态;
针对同一基因整合所有相关区域染色质状态分值的方法包括:将所述同一基因相关的所有100-2000bp中同一染色质状态的分值相加,获得所述同一基因多种染色质状态总分值;
对不同人群中基于游离染色质状态推断的基因调控模式进行比较,鉴定出不同疾病状态下基因调控模式的改变及显著变化的基因位点。
8.权利要求1~5任一项中所述的试剂盒,或权利要求1~5任一项中所述的游离染色质DNA文库的构建方法在如下任意一项中的应用:
(a)制备染色质状态检测,器官组织来源检测或基因调控检测的产品;
(b)非诊断和治疗目的的检测染色质状态和/或鉴定游离染色质的组织器官来源和/或基因调控特征;
(c)构建测序文库;
(d)游离染色质组蛋白修饰测序数据处理及分析。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如下任意一种方法中的步骤:
(a)采用权利要求1-5中任一项所述的获得多种器官组织特异性染色质特征的方法对游离染色质DNA文库进行构建;
(b)采用权利要求1-5中任一项所述的获得多种器官组织特异性染色质特征的方法对测序数据进行前处理;
(c)采用权利要求1-5中任一项所述的获得多种器官组织特异性染色质特征的方法获得多种器官组织特异性染色质特征集合;
(d)采用权利要求6所述的获得血浆游离染色质组织细胞起源的方法获得血浆游离染色质组织细胞起源和/或器官组织的信号;
(e)采用权利要求7所述的获得游离染色质基因调控特征的方法获得游离染色质基因调控特征。
CN202311376969.4A 2023-10-24 2023-10-24 一种血浆游离染色质的检测方法、试剂盒及其应用 Active CN117106857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311376969.4A CN117106857B (zh) 2023-10-24 2023-10-24 一种血浆游离染色质的检测方法、试剂盒及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311376969.4A CN117106857B (zh) 2023-10-24 2023-10-24 一种血浆游离染色质的检测方法、试剂盒及其应用

Publications (2)

Publication Number Publication Date
CN117106857A CN117106857A (zh) 2023-11-24
CN117106857B true CN117106857B (zh) 2024-02-09

Family

ID=88805984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311376969.4A Active CN117106857B (zh) 2023-10-24 2023-10-24 一种血浆游离染色质的检测方法、试剂盒及其应用

Country Status (1)

Country Link
CN (1) CN117106857B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108026572A (zh) * 2015-07-23 2018-05-11 香港中文大学 游离dna的片段化模式的分析
CN108315387A (zh) * 2018-02-07 2018-07-24 北京大学 微量细胞ChIP法
CN108368540A (zh) * 2015-08-12 2018-08-03 分子医学研究中心责任有限公司 研究核酸的方法
CN111727248A (zh) * 2017-09-25 2020-09-29 弗雷德哈钦森癌症研究中心 高效靶向原位全基因组剖析
CN112553695A (zh) * 2021-02-23 2021-03-26 翌圣生物科技(上海)有限公司 鉴定靶蛋白染色质结合图谱的快速建库方法
CN113718017A (zh) * 2021-09-10 2021-11-30 上海交通大学 一种单细胞ChIP-seq文库的制备方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108026572A (zh) * 2015-07-23 2018-05-11 香港中文大学 游离dna的片段化模式的分析
CN108368540A (zh) * 2015-08-12 2018-08-03 分子医学研究中心责任有限公司 研究核酸的方法
CN111727248A (zh) * 2017-09-25 2020-09-29 弗雷德哈钦森癌症研究中心 高效靶向原位全基因组剖析
CN108315387A (zh) * 2018-02-07 2018-07-24 北京大学 微量细胞ChIP法
CN112553695A (zh) * 2021-02-23 2021-03-26 翌圣生物科技(上海)有限公司 鉴定靶蛋白染色质结合图谱的快速建库方法
CN113718017A (zh) * 2021-09-10 2021-11-30 上海交通大学 一种单细胞ChIP-seq文库的制备方法

Also Published As

Publication number Publication date
CN117106857A (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
US10837055B2 (en) Non-invasive prenatal diagnosis of fetal genetic condition using cellular DNA and cell free DNA
US10347365B2 (en) Systems and methods for visualizing a pattern in a dataset
CN110800063B (zh) 使用无细胞dna片段大小检测肿瘤相关变体
JP5938484B2 (ja) ゲノムのコピー数変異の有無を判断する方法、システム及びコンピューター読み取り可能な記憶媒体
Hahn et al. Determination of fetal chromosome aberrations from fetal DNA in maternal blood: has the challenge finally been met?
EP3680347A1 (en) Methods and systems for identifying disease-induced mutations
CA3133639A1 (en) Systems and methods for deriving and optimizing classifiers from multiple datasets
CA2925335A1 (en) Methods and systems for detecting sequence variants
Babarinde et al. Computational methods for mapping, assembly and quantification for coding and non-coding transcripts
US20150284783A1 (en) Methods and compositions for analyzing nucleic acid
Mason et al. Characterizing multi-omic data in systems biology
CN107217309A (zh) 构建待测基因组的dna测序文库的方法及其应用
AU2021387426A9 (en) Artificial-intelligence-based cancer diagnosis and cancer type prediction method
CN117106857B (zh) 一种血浆游离染色质的检测方法、试剂盒及其应用
CN115128285B (zh) 一种蛋白质组合对甲状腺滤泡性肿瘤鉴别评估的试剂盒、系统
CN116769900A (zh) 生物标志物组合及其在预测asd疾病进程中的应用
CN115044665A (zh) Arg1在制备脓毒症诊断、严重程度判断或预后评估试剂或试剂盒中的应用
CN110438235B (zh) 基于毛干蛋白质组nsSNP进行人群来源推断的方法
KR101907650B1 (ko) 비침습적 태아 염색체 이수성 판별 방법
CN112955960A (zh) 确定从怀孕母体分离的循环胎儿细胞来自当前妊娠或过往妊娠的方法
WO2024022529A1 (en) Epigenetics analysis of cell-free dna
Pregizer et al. Multi-omic single cell sequencing: Overview and opportunities for kidney disease therapeutic development
Chaurasia et al. Systematic functional assessment of human protein-protein interaction maps
KR20170036649A (ko) 비침습적 태아 염색체 이수성 판별 방법
Duhan et al. Single-cell transcriptomics: background, technologies, applications, and challenges

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant