CN115376616A - 一种基于cfDNA多组学的多分类方法及装置 - Google Patents
一种基于cfDNA多组学的多分类方法及装置 Download PDFInfo
- Publication number
- CN115376616A CN115376616A CN202211299043.5A CN202211299043A CN115376616A CN 115376616 A CN115376616 A CN 115376616A CN 202211299043 A CN202211299043 A CN 202211299043A CN 115376616 A CN115376616 A CN 115376616A
- Authority
- CN
- China
- Prior art keywords
- atac
- seq
- sequencing data
- plasma sample
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000012634 fragment Substances 0.000 claims abstract description 132
- 238000012163 sequencing technique Methods 0.000 claims abstract description 120
- 238000003780 insertion Methods 0.000 claims abstract description 42
- 230000037431 insertion Effects 0.000 claims abstract description 42
- 238000005516 engineering process Methods 0.000 claims abstract description 36
- 238000012070 whole genome sequencing analysis Methods 0.000 claims abstract description 33
- 238000013145 classification model Methods 0.000 claims abstract description 25
- 206010028980 Neoplasm Diseases 0.000 claims description 105
- 201000011510 cancer Diseases 0.000 claims description 89
- 230000011987 methylation Effects 0.000 claims description 68
- 238000007069 methylation reaction Methods 0.000 claims description 68
- 238000012360 testing method Methods 0.000 claims description 21
- 108091029430 CpG site Proteins 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012795 verification Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010998 test method Methods 0.000 claims description 8
- 239000000126 substance Substances 0.000 claims description 6
- 238000013467 fragmentation Methods 0.000 abstract description 4
- 238000006062 fragmentation reaction Methods 0.000 abstract description 4
- 210000002381 plasma Anatomy 0.000 description 116
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 24
- 108020004414 DNA Proteins 0.000 description 23
- 241000894007 species Species 0.000 description 22
- 238000006243 chemical reaction Methods 0.000 description 13
- 208000014018 liver neoplasm Diseases 0.000 description 13
- 206010006187 Breast cancer Diseases 0.000 description 12
- 208000026310 Breast neoplasm Diseases 0.000 description 12
- 201000007270 liver cancer Diseases 0.000 description 12
- 238000012549 training Methods 0.000 description 12
- 206010009944 Colon cancer Diseases 0.000 description 11
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 11
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 239000000203 mixture Substances 0.000 description 10
- 238000003752 polymerase chain reaction Methods 0.000 description 10
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 9
- 238000007637 random forest analysis Methods 0.000 description 9
- 208000005718 Stomach Neoplasms Diseases 0.000 description 8
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 8
- 201000002528 pancreatic cancer Diseases 0.000 description 8
- 208000008443 pancreatic carcinoma Diseases 0.000 description 8
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 7
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 201000004101 esophageal cancer Diseases 0.000 description 7
- 206010017758 gastric cancer Diseases 0.000 description 7
- 201000011549 stomach cancer Diseases 0.000 description 7
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 6
- HEMHJVSKTPXQMS-UHFFFAOYSA-M Sodium hydroxide Chemical compound [OH-].[Na+] HEMHJVSKTPXQMS-UHFFFAOYSA-M 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 239000007788 liquid Substances 0.000 description 6
- 238000007477 logistic regression Methods 0.000 description 6
- 201000005202 lung cancer Diseases 0.000 description 6
- 208000020816 lung neoplasm Diseases 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000000746 purification Methods 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 6
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 6
- HLHSUNWAPXINQU-GQCTYLIASA-N (E)-3-(3,4-dihydroxyphenyl)-N-prop-2-ynylprop-2-enamide Chemical compound OC=1C=C(C=CC=1O)/C=C/C(=O)NCC#C HLHSUNWAPXINQU-GQCTYLIASA-N 0.000 description 5
- 108010077544 Chromatin Proteins 0.000 description 5
- 208000035823 Non-specific autoimmune cerebellar ataxia without characteristic antibodies Diseases 0.000 description 5
- 238000004833 X-ray photoelectron spectroscopy Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 210000003483 chromatin Anatomy 0.000 description 5
- 210000004072 lung Anatomy 0.000 description 5
- 238000002156 mixing Methods 0.000 description 5
- 229920000771 poly (alkylcyanoacrylate) Polymers 0.000 description 5
- 102000008579 Transposases Human genes 0.000 description 4
- 108010020764 Transposases Proteins 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 4
- 238000003908 quality control method Methods 0.000 description 4
- 239000000243 solution Substances 0.000 description 4
- 239000006228 supernatant Substances 0.000 description 4
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 3
- 101000653374 Homo sapiens Methylcytosine dioxygenase TET2 Proteins 0.000 description 3
- 102100030803 Methylcytosine dioxygenase TET2 Human genes 0.000 description 3
- 239000011324 bead Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 238000005119 centrifugation Methods 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical class NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 3
- 238000006481 deamination reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 238000005406 washing Methods 0.000 description 3
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-(hydroxymethyl)cytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 description 2
- FHSISDGOVSHJRW-UHFFFAOYSA-N 5-formylcytosine Chemical compound NC1=NC(=O)NC=C1C=O FHSISDGOVSHJRW-UHFFFAOYSA-N 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 208000002495 Uterine Neoplasms Diseases 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 210000004100 adrenal gland Anatomy 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000009615 deamination Effects 0.000 description 2
- 238000013399 early diagnosis Methods 0.000 description 2
- 239000012149 elution buffer Substances 0.000 description 2
- 238000011534 incubation Methods 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 210000004185 liver Anatomy 0.000 description 2
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 238000007254 oxidation reaction Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 239000011535 reaction buffer Substances 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000000528 statistical test Methods 0.000 description 2
- 210000001550 testis Anatomy 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 206010046766 uterine cancer Diseases 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- BLQMCTXZEMGOJM-UHFFFAOYSA-N 5-carboxycytosine Chemical compound NC=1NC(=O)N=CC=1C(O)=O BLQMCTXZEMGOJM-UHFFFAOYSA-N 0.000 description 1
- 244000144725 Amygdalus communis Species 0.000 description 1
- 208000023275 Autoimmune disease Diseases 0.000 description 1
- 208000003174 Brain Neoplasms Diseases 0.000 description 1
- 238000001353 Chip-sequencing Methods 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 238000007399 DNA isolation Methods 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 108700028146 Genetic Enhancer Elements Proteins 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 206010029260 Neuroblastoma Diseases 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 208000002151 Pleural effusion Diseases 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 208000024770 Thyroid neoplasm Diseases 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 210000000013 bile duct Anatomy 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 210000003855 cell nucleus Anatomy 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000000749 co-immunoprecipitation Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000001079 digestive effect Effects 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001605 fetal effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000006607 hypermethylation Effects 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 238000011528 liquid biopsy Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 201000001441 melanoma Diseases 0.000 description 1
- 210000003574 melanophore Anatomy 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 208000010125 myocardial infarction Diseases 0.000 description 1
- 230000001338 necrotic effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000003647 oxidation Effects 0.000 description 1
- XEBWQGVWTUSTLN-UHFFFAOYSA-M phenylmercury acetate Chemical compound CC(=O)O[Hg]C1=CC=CC=C1 XEBWQGVWTUSTLN-UHFFFAOYSA-M 0.000 description 1
- 210000004180 plasmocyte Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000009598 prenatal testing Methods 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 239000012264 purified product Substances 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000010257 thawing Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 201000002510 thyroid cancer Diseases 0.000 description 1
- 210000001685 thyroid gland Anatomy 0.000 description 1
- 230000000451 tissue damage Effects 0.000 description 1
- 231100000827 tissue damage Toxicity 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种基于cfDNA多组学的多分类方法及装置,其中,多分类方法包括:基于ATAC‑seq技术对待测血浆样本进行超低深度的全基因组测序,并获取预设ATAC‑seq区域簇的测序数据,每个ATAC‑seq区域簇对应一类别的特征区域;基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC‑seq区域簇测序数据的长插入片段数量和短插入片段数量;将统计得到的长插入片段数量和短插入片段数量输入预先训练的多组学分类模型中进行分类,得到待测血浆样本所属的类别。其基于片段组学的特征信息对待检测血浆样本进行分类,为后续应用提供部分依据。
Description
技术领域
本发明涉及生物医学技术领域,尤其涉及一种基于ctDNA长度的分析方法和系统。
背景技术
细胞外游离DNA片段,称为cell-free DNA(cfDNA),是由Mandel和Metais首次在人类血浆中发现,之后在身体的其他部位也有发现,例如尿液、胸腔积液、脑脊液流体等体液。对于健康人来说,cfDNA主要从细胞凋亡中释放,部分从坏死和活性细胞释放。但对于肿瘤患者来说,肿瘤细胞会释放大量携带突变信息的DNA,即循环肿瘤DNA(ctDNA)。
随着二代测序(NGS)等技术变得越来越便宜,使用cfDNA进行基因检测越来越流行并且慢慢应用于临床研究。随着基于胎儿游离DNA的无创产前检测(non-invasiveprenatal testing,NIPT)的迅速发展,依赖于ctDNA的肿瘤检测被认为有着更大的前景。ctDNA检测通常是非侵入性的,操作简单可行,并且能够描述肿瘤异质性。这些特征使得ctDNA检测比组织检测更适用于肿瘤遗传学诊断,其在个体化肿瘤治疗,肿瘤监测和筛查中发挥着关键作用。因此诞生了一个新的术语“液体活检”,即基于cfDNA的肿瘤遗传学检测,并且在2015年被麻省理工科技评论出版社评为10大突破性技术。
尽管针对cfDNA的研究取得了一些进步,能够为一些患者的肿瘤特异突变的早期诊断提供参考,但是精度仍然不够。且心肌梗塞、中风和自身免疫性疾病等均会显著影响cfDNA水平,可能会导致组织损伤,但是这些并不能通过cfDNA进行专门监测,因为缺乏这样的遗传差异。此外,即使突变可以监测肿瘤来源的cfDNA,但其在肿瘤的组织起源分析时候信号强度及灵敏度有限。可以看出,如何基于cfDNA对组织起源进行分析仍然是一个迫切需要解决的实际问题。
发明内容
针对上述问题,本发明提供了一种基于cfDNA多组学的多分类方法及装置,基于片段组学和/或甲基化维度的特征信息对待检测血浆样本进行分类,为后续应用提供部分依据。
本发明提供的技术方案如下:
一方面,本发明提供了一种基于cfDNA多组学的多分类方法,包括:
基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据,每个所述ATAC-seq区域簇对应一类别的特征区域;
基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;
将统计得到的长插入片段数量和短插入片段数量输入预先训练的多组学分类模型中进行分类,得到所述待测血浆样本所属的类别。
在本技术方案中,ATAC-seq为Assay for Transposase Accessible Chromatinwith high-throughput sequencing的英文缩写,即利用转座酶研究染色质可进入性的高通量测序技术,可用于研究染色体的可进入性。DNA转座,是一种把DNA序列从染色体的一个区域搬运到另外一个区域的现象,由DNA转座酶实现。这种转座插入DNA,需要插入位点的染色质是开放的,否则就会被一大坨高级结构给卡住。ATAC-seq测序中,将携带已知DNA序列标签的转座复合物(即带着红色蓝色测序标签的转座酶Tn5),加入到细胞核中,再利用已知序列的标签进行PCR后测序,即可得到开放染色质的区域。ATAC-seq出来的结果,和基于组蛋白修饰marker的染色质免疫共沉淀技术(ChIP-seq)有较高的吻合程度。也就是说,ATAC-seq中的区域(peak),往往是启动子、增强子序列,以及一些反式调控因子结合的位点。
另一方面,本发明提供了一种基于cfDNA多组学的多分类方法,包括:
基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据,每个所述ATAC-seq区域簇对应一类别的特征区域;
分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比;
将计算得到的甲基化位点占比输入预先训练的多组学分类模型中进行分类,得到所述待测血浆样本所属的类别。
另一方面,本发明提供了一种基于cfDNA多组学的多分类方法,包括:
基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据,每个所述ATAC-seq区域簇对应一类别的特征区域;
基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;
分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比;
将统计得到的长插入片段数量、短插入片段数量及甲基化位点占比输入预先训练的多组学分类模型中进行分类,得到所述待测血浆样本所属的类别。
另一方面,本发明提供了一种基于cfDNA多组学的多分类装置,包括:
数据获取模块,用于获取基于ATAC-seq技术对待测血浆样本进行超低深度全基因组测序得到的测序数据,并从中进一步获取预设ATAC-seq区域簇的测序数据,每个所述ATAC-seq区域簇对应一类别的特征区域;
数量统计模块,用于基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;
多分类模块,用于将统计得到的长插入片段数量和短插入片段数量输入预先训练的多组学分类模型中进行分类,得到所述待测血浆样本所属的类别。
另一方面,本发明提供了一种基于cfDNA多组学的多分类装置,包括:
数据获取模块,用于获取基于ATAC-seq技术对待测血浆样本进行超低深度全基因组测序得到的测序数据,并从中进一步获取预设ATAC-seq区域簇的测序数据,每个所述ATAC-seq区域簇对应一类别的特征区域;
甲基化位点占比计算模块,用于分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比;
多分类模块,用于将将计算得到的甲基化位点占比输入预先训练的多组学分类模型中进行分类,得到所述待测血浆样本所属的类别。
另一方面,本发明提供了一种基于cfDNA多组学的多分类装置,包括:
数据获取模块,用于获取基于ATAC-seq技术对待测血浆样本进行超低深度全基因组测序得到的测序数据,并从中进一步获取预设ATAC-seq区域簇的测序数据,每个所述ATAC-seq区域簇对应一类别的特征区域;
数量统计模块,用于基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;
甲基化位点占比计算模块,用于分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比;
多分类模块,用于将统计得到的长插入片段数量、短插入片段数量及甲基化位点占比输入预先训练的多组学分类模型中进行分类,得到所述待测血浆样本所属的类别。
另一方面,本发明提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时实现上述基于cfDNA多组学的多分类方法的步骤。
另一方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于cfDNA多组学的多分类方法的步骤。
本发明提供的基于cfDNA多组学的多分类方法及装置,其基于预设的ATAC-seq区域簇对其中的长插入片段数量和短插入片段数量、及甲基化位点占比进行统计,并根据统计得到的数据进行多组学分类,完成对待检测血浆样本的分类。相比MNase-seq和DNase-seq,ATAC-seq的重复性更强,操作起来也更加简单,少量的细胞能检测出更强的信号。该方法简单方便且精确度高,仅需静脉采血可以实现七大高发肿瘤的初期分类,包括乳腺癌、结直肠癌、食管癌、胃癌、肝癌、肺癌和胰腺癌,并且检测结果可提示肿瘤信号的器官来源,为进一步的临床诊疗提供指导方向,便捷、安全、有效,有效辅助癌症的早期诊断以及癌症的早期筛查,提高筛查效率和精度。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对上述特性、技术特征、优点及其实现方式予以进一步说明。
图1为本发明中基于cfDNA多组学的多分类方法一种实施例流程示意图;
图2为本发明中健康人血浆样本和癌症血浆样本插入片段大小概率分布图;
图3为本发明中累计概率密度分布图;
图4为本发明中健康人血浆样本和癌症血浆样本统计检验的pvalue值分布图;
图5为本发明中基于cfDNA多组学的多分类方法另一种实施例流程示意图;
图6为本发明中基于cfDNA多组学的多分类方法另一种实施例流程示意图;
图7为本发明中基于cfDNA多组学的多分类装置一种实施例结构示意图;
图8为本发明中终端设备结构示意图。
附图标记:
100-多分类装置,110-数据获取模块,120-数量统计模块,130-多分类模块。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
本发明的一种实施例,一种基于cfDNA多组学的多分类方法,如图1所示,包括:
S11基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据,每个ATAC-seq区域簇对应一类别的特征区域;
S12基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;
S13将统计得到的长插入片段数量和短插入片段数量输入预先训练的多组学分类模型中进行分类,得到待测血浆样本所属的类别。
在本实施例中,ATAC-seq区域簇的选定,参考2018年由M. Ryan Corces等人在Science上发表的论文“The chromatin accessibilitylandscape of primary humancancers”进行确定,在该论文中公开有癌种特异性的ATAC-seq区域,每个区域(peak)长500bp,共计202888个peak。且针对所有peak进行聚类,得到18个区域簇(cluster),涉及18个类型的癌种,其中,cluster1为肾脏/胆管的主要特征区域(Kindey/Bile duct),cluster2为结肠癌的主要特征(Colon),cluster3为非基底乳腺癌的主要特征区域(Breast,non-basal),cluster4为前列腺癌的主要特征区域(Prostate),cluster5为脑瘤的主要特征区域(Brain),cluster6为甲状腺癌的主要特征区域(Thyroid),cluster7为黑色素瘤的主要特征区域(Skin,melanocyte),cluster8为肺鳞癌的主要特征区域(Squamous),cluster9为肝癌的主要特征区域(Liver),cluster10为神经细胞瘤的主要特征区域(Nerve cell),cluster11为睾丸的主要特征区域(Testicular),cluster12为非肺鳞癌的主要特征区域(Lung,no-squamous),cluster13为消化道的主要特征区域(Digestive),cluster14为基底乳腺癌的主要特征区域(Breast,basal),cluster15为子宫癌的特征区域(Uterine),cluster16为膀胱癌的主要特征区域,cluster17为间皮的主要特征区域(Mesothelium),cluster18为肾上腺的主要特征区域(Adrenal)。
基于该论文中公开的18个ATAC-seq区域簇,将其应用于本实施例中的基于cfDNA多组学的多分类方法,分类过程中,在对待测血浆样本进行了ATAC-seq测序后,基于论文中公开的18个ATAC-seq区域簇对测序数据进行选定。选定之后,进一步对每个ATAC-seq区域簇中的长插入片段数量和短插入片段数量进行统计,以此根据统计的长插入片段数量和短插入片段数量对待测血浆样本进行分类。这里,步骤S10中,ATAC-seq区域簇的数量可以根据实际需求进行选定,如仅选定论文中一个ATAC-seq区域簇或者更多数量的ATAC-seq区域簇等,当然也可以选定论文中公开了18个ATAC-seq区域簇。当选定该18个ATAC-seq区域簇时,则步骤S20中分别对该18个ATAC-seq区域簇的长插入片段数量和短插入片段数量进行统计,并以此对待测血浆样本进行分类。
长插入片段阈值区间为169bp~240bp,短插入片段阈值区间为100bp~166bp,在对其进行确定中:首先分别对健康人血浆样本和癌症血浆样本进行全基因组测序得到FASTQ文件,健康人血浆样本和癌症血浆样本中的cfDNA携带有预先接入的分子标签;对FASTQ文件进行数据质控,包括去除cfDNA携带的分子标签;对数据质控后的插入片段大小进行统计;对统计的片段大小进行累计概率密度分析,及比较不同长度的插入片段健康人血浆样本和癌症血浆样本之间的差异显著性;由累计概率密度分析结果及差异显著性统计结果对短插入片段区间阈值和长插入片段区间阈值进行选定。
具体,首先通过相对较高(~9X)的测序深度对健康人血浆样本和癌症血浆样本进行测序,之后对其进行预处理,将下机数据FASTQ文件进行数据质控,去掉不固定长度UMI,基于bwa软件比对到人类基因组(hg19),并对数据进行过滤,包括去重、去除多重比对的reads以及只保留质量值大于30和常染色体的reads等。
之后,分别对癌症血浆样本和健康人血浆样本的插入片段大小分析,如图2所示((a)为健康人血浆样本插入片段大小概率分布图,(b)为癌症血浆样本插入片段大小概率分布图),健康人血浆样本插入片段峰值为166.6bp(~167bp),癌症血浆样本插入片段峰值为165.6bp(~166bp)。可以看出,与健康人血浆样本比较,癌症血浆样本整体分布向左移,且在以10bp为单位的递减处有一系列较小的峰,血浆中肿瘤DNA的含量越大,癌症患者血浆中短DNA的比例就越高;相反,血浆中肿瘤DNA含量越低,癌症患者血浆中长DNA的比例就越高。
为了找到用于区分健康人血浆样本和癌症血浆样本的短插入片段和长插入片段的区间阈值,首先进行累计概率密度分析,如图3所示,在长度大小分别为169bp和308bp的cfDNA累计概率密度达到极值;之后对数据进行统计学检验比较不同插入片段长度健康人血浆样本和癌症血浆样本的差异显著性,如图4所示(a1表示p=0.05,a2表示p=0.01),当插入片段为100bp~166bp和169bp<~240bp两个连续区域时,健康人血浆样本和癌症血浆样本具有显著性的差异(T检验,p<=0.05),以此将100bp<short<=166bp定义为短插入片段区间阈值(short frangment),将169bp<=long<=240bp定义为长插入片段区间阈值(longfrangment)。
基于此,在基于ATAC-seq技术对待测血浆样本进行超低深度((1~2X))的全基因组测序,并统计得到各ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量之后,还包括针对每个ATAC-seq区域簇的长插入片段数量和短插入片段数量分别进行矫正的步骤,包括进行z-score标准化和归一化,其中,z-score标准化中,采用式(1)对长插入片段数量或短插入片段数量计算z-score值:
归一化步骤中,采用式(2)对z-score标准化后的数据进行处理得到r值:
其中,表示一样本所有ATAC-seq区域簇中待标准化数据的z-score最小值,表示一样本所有ATAC-seq区域簇中待标准化数据的z-score最大值。这里,上述待标
准化数据为长插入片段数量或短插入片段数量。
多组学分类模型可以选用cforest(条件随机森林)、svmLinear(线性核支持向量机)、LogitBoost(一种使用逻辑回归方法作为损失函数的梯度下降算法)、gbm(GradientBoosting Machine,梯度提升机)及Ensemble(集成学习)等模型进行建模,并预先基于从癌症血浆样本中统计的长插入片段数量和短插入片段数量对其进行训练得到模型结构及网络参数,用于后续对待测血浆样本进行分类。
一实例中,选用780例癌症血浆样本(包括乳腺癌BRCA、肝癌LIHC、非小细胞肺癌NSCLC、食管癌ESCA、胃癌STAD、结直肠癌COREAD及胰腺癌PACA)建立随机森林模型,并随机生成训练集和验证集,其中,训练集542个样本,验证集238个样本。在对癌症血浆样本进行ATAC-seq测序后,提取18个cluster(对应上述18个ATAC-seq区域簇)的测序数据,并分别统计各cluster测序数据的长插入片段数量和短插入片段数量,共36个特征。使用留一法交叉验证,对于训练集不同癌种得到的预测准确性如表1所示,从表中可以看出,肝癌使用短插入片段数量能够得到较高的准确性,准确率为0.56;乳腺癌使用长插入片段数量可以得到较高的准确性,准确率为0.57;结直肠癌在两种方法的均得到较好的准确性,准确率分别为0.4和0.44。
表1:不同癌种的预测准确性
在另一实施例中,在步骤S11基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据之前,还包括对预设ATAC-seq区域簇测序数据的性能表现进行验证的步骤,包括:基于ATAC-seq技术分别对健康血浆样本和癌症患者血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据;癌症患者血浆样本包括多类型癌种的血浆样本;基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;基于统计的长插入片段数量和短插入片段数量使用秩和(wilcox)单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。
一实例中,选用1278个样本进行验证,其中,健康人血浆样本498例,作为基线就;癌症血浆样本780例,包括乳腺癌BRCA、肝癌LIHC、非小细胞肺癌NSCLC、食管癌ESCA、胃癌STAD、结直肠癌COREAD及胰腺癌PACA。在对所有的健康人血浆样本和癌症血浆样本进行ATAC-seq测序后,提取18个cluster(对应上述ATAC-seq区域簇)的测序数据,并分别统计各cluster测序数据的长插入片段数量和短插入片段数量。之后,基于秩和单边检验方法,检验每个癌种和其他所有癌种各个特征的显著性,结果如表2和表3所示,可以明显看到,对于一些癌种存在差异显著性的cluster,且癌种特意性的cluster是明显低于其他的cluster。例如,不管基于长插入片段数量和短插入片段数量进行检验,cluster9在肝癌中有显著低的特征,cluster2在结直肠癌中有显著低的特征,cluster3在乳腺癌中有显著低的特征,cluster12在肺癌中有显著低的特征等。
表2:基于短插入片段数量的wilcox检验结果
表3:基于长插入片段数量的wilcox检验结果
本发明的另一实施例,一种基于cfDNA多组学的多分类方法,如图5所示,包括:
S21 基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据,每个ATAC-seq区域簇对应一类别的特征区域;
S22 分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比,如式(3);
S23 将计算得到的甲基化位点占比输入预先训练的多组学分类模型中进行分类,得到待测血浆样本所属的类别。
在本实施例中,ATAC-seq区域簇的选定方式与前述实施例相同,这里不做赘述。在统计得到各ATAC-seq区域簇测序数据的甲基化位点占比之后,还包括针对每个ATAC-seq区域簇的甲基化位点占比分别进行矫正的步骤,包括如式(1)z-score标准化和如式(2)归一化,其中,待标准化数据为甲基化位点占比。
多组学分类模型可以选用cforest(条件随机森林)、svmLinear(线性核支持向量机)、LogitBoost(一种使用逻辑回归方法作为损失函数的梯度下降算法)、gbm(GradientBoosting Machine,梯度提升机)及Ensemble(集成学习)等模型进行建模,并预先基于从癌症血浆样本中统计的甲基化位点占比对其进行训练得到模型结构及网络参数,用于后续对待测血浆样本进行分类。
一实例中,选用780例癌症血浆样本(包括乳腺癌BRCA、肝癌LIHC、非小细胞肺癌NSCLC、食管癌ESCA、胃癌STAD、结直肠癌COREAD及胰腺癌PACA)建立随机森林模型,并随机生成训练集和测试集,其中,训练集542个样本,验证集238个样本。在对癌症血浆样本进行ATAC-seq测序后,提取18个cluster(对应上述18个ATAC-seq区域簇)的测序数据,并分别统计各cluster测序数据的甲基化位点占比,共18个特征。使用留一法交叉验证,对于训练集不同癌种得到的预测准确性如表4和表5所示,从表中可以看出,对于训练集可以准确预测22例乳腺癌,42例的结直肠癌,16例的胃癌,26例的肝癌,21例的胰腺癌以及36例的非小细胞肺癌。
表4:训练集模型预测结果
在另一实施例中,步骤S21 基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据之前,还包括对预设ATAC-seq区域簇测序数据的性能表现进行验证的步骤,包括:基于ATAC-seq技术分别对健康血浆样本和癌症患者血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据;癌症患者血浆样本包括多类型癌种的血浆样本;分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比;基于统计的甲基化位点占比使用秩和单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。
一实例中,选用1278个样本进行验证,其中,健康人血浆样本498例,作为基线就;癌症血浆样本780例,包括乳腺癌BRCA、肝癌LIHC、非小细胞肺癌NSCLC、食管癌ESCA、胃癌STAD、结直肠癌COREAD及胰腺癌PACA。在对所有的健康人血浆样本和癌症血浆样本进行ATAC-seq测序后,提取18个cluster(对应上述ATAC-seq区域簇)的测序数据,并分别统计各cluster测序数据的甲基化位点占比。之后,基于秩和单边检验方法,检验每个癌种和其他所有癌种各个特征的显著性,结果如表5和表6所示,其中,后缀hypo代表相应cluster低甲基化,后缀hyper代表相应cluster高甲基化。从表中可以明显看到,对于一些癌种有其特异性的cluster,且这些特异性的cluster是的甲基化程度更低。例如cluster2在结直肠癌中有显著hypo特征,cluster3在乳腺癌中有显著hypo特征,cluster12在肺癌中有显著hypo特征等。
表5:基于甲基化位点占比的wilcox检验结果1
表6:基于甲基化位点占比的wilcox检验结果2
本发明的另一实施例,一种基于cfDNA多组学的多分类方法,如图6所示,包括:
S31 基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据,每个ATAC-seq区域簇对应一类别的特征区域;
S32 基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;
S33 分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比,如式(3);
S34 将统计得到的长插入片段数量、短插入片段数量及甲基化位点占比输入预先训练的多组学分类模型中进行分类,得到待测血浆样本所属的类别。
在本实施例中,ATAC-seq区域簇的选定方式、长插入片段阈值区间和短插入片段阈值区间的确定方式均与前述实施例相同,这里不做赘述。在统计得到各ATAC-seq区域簇测序数据的长插入片段数量、短插入片段数量及甲基化位点占比之后,还包括针对每个ATAC-seq区域簇的插入片段数量、短插入片段数量及甲基化位点分别进行矫正的步骤,包括如式(1)z-score标准化和如式(2)归一化,其中,待标准化数据为长插入片段数量、短插入片段数量或甲基化位点占比。
多组学分类模型可以选用cforest(条件随机森林)、svmLinear(线性核支持向量机)、LogitBoost(一种使用逻辑回归方法作为损失函数的梯度下降算法)、gbm(GradientBoosting Machine,梯度提升机)及Ensemble(集成学习)等模型进行建模,并预先基于从癌症血浆样本中统计的长插入片段数量、短插入片段数量及甲基化位点占对其进行训练得到模型结构及网络参数,用于后续对待测血浆样本进行分类。
以下通过一实例对上述实施例及其有益效果进行说明:
一、实验流程:
1.血浆cfDNA提取
1.1 将每位受试者10mL全血存放在康为EDTA采血管中,过在4℃以1600g转速离心10min使血浆、血细胞分层。将上层血浆转移至新离心管,再次以12000rpm转速4℃离心15min取上清以去除细胞碎屑。得到约4mL血浆,80℃冻存备用。
1.2 血浆样本融化后,每1mL样本中加入15μL ProteinaseK(20mg /mL,thermoscientific cat#EO0492)和50μL SDS(20%)。血浆量不足4mL,用PBS补足。
1.3 翻转混匀,60℃孵育20min,然后冰浴5min。
1.4 使用MagMAX Cell Free DNA Isolation试剂(thermoscientific cat#A29319)提取cfDNA。
1.5 使用Bioanalyzer 2100(Agilent Technologies)检测cfDNA的提取浓度和质量。
2. cfDNA建库
使用甲基化文库构建试剂盒NEBNext Enzymatic Methyl seq Kit(NEB, cat#E7120),以530ngcfDNA起始量,通过TET2酶使5甲基胞嘧啶(5mC)转化为5甲酰胞嘧啶(5fC)和5羧基胞嘧啶(5caC),并且通过APOBEC酶,使非甲基化胞嘧啶(C)脱氨转化为尿嘧啶(U),然后进行扩增建库。具体文库构建过程如下:
2.1 内参准备
取50μL CpG全甲基化的pUC19 DNA和50μL CpG全非甲基化的LamdbaDNA混匀后加入100ul打断管中,使用M220打断仪(Covaris)打断。建库时,向待测cfDNA加入0.001ng的pUC19 DNA和0.02 ng 的lambda DNA。
2.2 cfDNA样本的准备
cfDNA样本起始量为5_30ng,不需要打断。
2.3末端修复
2.3.1在冰上混合以下反应体系。
2.3.2反应体系置于PCR仪上,进行末端修复反应。
2.4连接Adaptor
2.4.1在冰上操作,将以下组分加入上步的60μL反应体系中。
2.4.2 在20℃下孵育15min。
2.5连接后纯化
2.5.1 上一步反应结束后,取出样本,加入110μLNEBNext Sample PurificationBeads,立即使用移液器吹打混匀。
2.5.2室温孵育5 min
2.5.3 离心管置于磁力架上5 min待液体澄清,弃去上清。
2.5.4 加入200μL现配80%乙醇,孵育30s后弃去。重复一次200μL 80%乙醇清洗步骤。
2.5.5用10μL移液器吸尽离心管底部的残留乙醇,室温干燥3_5min至乙醇完全挥发。
2.5.6从磁力架取下离心管,加入29μL Elution Buffer(NEB),震荡混匀。室温孵育1min。
2.5.7短暂离心,离心管置于磁力架上3min待液体澄清,取28μL放进新的PCR管中。
2.6 5_甲基胞嘧啶和5_羟甲基胞嘧啶氧化反应
使用NEBNext Enzymatic Methyl_seq Kit(NEB,cat# E7120)进行以下反应操作。
2.6.1 TET2 Reaction Buffer Supplement干粉加入400μL TET2 ReactionBuffer,充分混合。
2.6.2在冰上将以下组分加入上述28 μL已连接adapter的DNA:
2.6.3 将500mM Fe(II)溶液按1:1250比例稀释。往上步混匀的产物中,加入已配好的Fe(II)。
充分混合并在37℃孵育1h。
2.6.4 反应结束后移至冰上并加入1μL Stop Reagent。
充分混合。
2.6.5 在37℃下孵育30 min。
2.7氧化后纯化
2.7.1 上一步反应结束后,取出样本,加入90μLNEBNext Sample PurificationBeads,立即使用移液器吹打混匀。
2.7.2室温孵育5 min。
2.7.3 离心管置于磁力架上5min待液体澄清,弃去上清。
2.7.4 加入200μL现配80%乙醇,孵育30 s后弃去。重复一次200μL 80%乙醇清洗步骤。
2.7.5用10μL移液器吸尽离心管底部的残留乙醇,室温干燥3_5min至乙醇完全挥发。
2.7.6从磁力架取下离心管,加入17μL Elution Buffer,震荡混匀。室温孵育1min。
2.7.7短暂离心,离心管置于磁力架上3min待液体澄清,取16μL放进新的PCR管中。
2.8 DNA变性
2.8.1 配制新鲜的0.1N NaOH。
2.8.2 提前预热PCR仪到50℃。
2.8.3加入4μL 0.1N NaOH到上步16μL纯化产物中,充分混合。
2.8.4 在50℃下孵育10 min。
2.8.5 反应结束后立刻放入冰上。
2.9 胞嘧啶脱氨基
2.9.1在冰上将下列组分加入上步20μL变性DNA
充分混合。
2.9.2 在PCR仪上37℃孵育3h后转为4℃终止反应。
2.10脱氨后纯化
2.10.1 上一步反应结束后,取出样本,加入100μLNEBNext SamplePurificationBeads,立即使用移液器吹打混匀。
2.10.2室温孵育5min。
2.10.3 离心管置于磁力架上5 min待液体澄清,弃去上清。
2.10.4 加入200μL现配80%乙醇,孵育30s后弃去。重复一次200μL 80%乙醇清洗步骤。
2.10.5用10μL移液器吸尽离心管底部的残留乙醇,室温干燥3_5min至乙醇完全挥发。
2.10.6从磁力架取下离心管,加入21 μLElution Buffer,震荡混匀。室温孵育1min。
2.10.7短暂离心,离心管置于磁力架上3 min待液体澄清,取20 μL放进新的PCR管中。
2.11文库PCR扩增
2.11.1在冰上将下列组分加入上步脱氨后的20μL DNA。
2.11.2 充分混合后在PCR以上进行以下PCR反应。
2.13 文库定量
使用Qubit高灵敏试剂(thermoscientific cat#Q32854)对所构建的文库进行定量,文库产量大于400ng进行后续上机测序。
3.文库测序
取100ng上述文库加入10% PhiX DNA(Illumina cat#FC-110-3001)混合成上机样品,在Novaseq6000(Illumina)平台进行PE100测序。
二、生信分析流程:
1. 处理下机FASTQ数据为各模块可使用的Bam文件
1.1 去接头
调用Trimmomatic-0.36将每一对FASTQ文件都作为配对的读段(paired reads)比对到hg19人类参考基因组序列,除M参数与指定Reads Group的ID外,不使用其余参数选项,生成初始bam文件。
1.2 比对
调用Bismark-v0.19 .0将去接头后的每一对FASTQ文件都作为配对读段比对到hg19人类参考基因组序列和Lambda DNA参考基因组序列,生成初始Bam文件。
1.3去重
调用Bismark-v0.19.0的deduplicate模块,对初始Bam文件进行去重复处理,生成去重后的Bam文件。
三、模型预测:
选用780个癌症血浆样本(包括其中乳腺癌BRCA66个样本,结直肠癌COREAD150个样本,食管癌ESCA61个样本,肝癌LIHC113个样本,非小细胞肺癌NSCLC157个样本,胰腺癌PACA119个样本,胃癌STAD114个样本,各癌种包括临床分期I期到IV期不等)建立随机森林模型,并将样本随机分成训练集和测试集,其中,训练集542个样本,验证集238个样本。在对癌症血浆样本进行ATAC-seq测序后,提取18个cluster(对应18个ATAC-seq区域簇)的测序数据,并分别统计各cluster测序数据的长插入片段数量、短插入片段数量和甲基化位点占比,共54个特征。使用留一法交叉验证,对于训练集不同癌种得到的预测结果和预测准确性如表7~9所示,对于测试集,其中乳腺癌的准确性为0.4375,肺癌的准确性为0.807692,肝和胰腺癌的准确性为0.641509(对应表9中的Hepatopancreas),消化道癌种(食管癌、胃癌、胰腺癌、结直肠癌)的准准确性为0.666667(对应表9中的Digestive),整合模型的平均准确性为0.638342。
表7:训练集模型预测结果
表8:测试集模型预测结果
表9:模型的预测准确性
相对应的,本发明还提供了一种基于cfDNA多组学的多分类装置,如图7所示,多分类装置100包括:数据获取模块110,用于获取基于ATAC-seq技术对待测血浆样本进行超低深度全基因组测序得到的测序数据,并从中进一步获取预设ATAC-seq区域簇的测序数据,每个ATAC-seq区域簇对应一类别的特征区域;数量统计模块120,用于基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;多分类模块130,用于将统计得到的长插入片段数量和短插入片段数量输入预先训练的多组学分类模型中进行分类,得到待测血浆样本所属的类别。
在本实施例中,ATAC-seq区域簇的选定、长插入片段阈值区间(169bp~240bp)和短插入片段阈值区间(100bp~166bp)的确定方式均与前述实施例相同,这里不做赘述。在统计得到各ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量之后,还包括针对每个ATAC-seq区域簇的长插入片段数量和短插入片段数量分别进行矫正的模块,用于对统计的长插入片段数量和短插入片段数量进行z-score标准化和归一化,其中,z-score标准化中,采用式(1)对长插入片段数量或短插入片段数量计算z-score值;归一化步骤中,采用式(2)对z-score标准化后的数据进行处理得到r值。多组学分类模型可以选用cforest(条件随机森林)、svmLinear(线性核支持向量机)、LogitBoost(一种使用逻辑回归方法作为损失函数的梯度下降算法)、gbm(Gradient Boosting Machine,梯度提升机)及Ensemble(集成学习)等模型进行建模,并预先基于从癌症血浆样本中统计的长插入片段数量和短插入片段数量对其进行训练得到模型结构及网络参数,用于后续对待测血浆样本进行分类。
在该多分类装置中,还包括用于对预设ATAC-seq区域簇测序数据的性能表现进行验证的性能验证模块,包括:数据获取单元,用于获取基于ATAC-seq技术分别对健康血浆样本和癌症患者血浆样本进行超低深度全基因组测序得到的测序数据,并从中进一步获取预设ATAC-seq区域簇的测序数据;癌症患者血浆样本包括多类型癌种的血浆样本;数量统计模块,用于基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;检验单元,用于基于统计的长插入片段数量和短插入片段数量使用秩和单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。
本发明的另一实施例,一种基于cfDNA多组学的多分类装置,包括:数据获取模块,用于获取基于ATAC-seq技术对待测血浆样本进行超低深度全基因组测序得到的测序数据,并从中进一步获取预设ATAC-seq区域簇的测序数据,每个ATAC-seq区域簇对应一类别的特征区域;甲基化位点占比计算模块,用于分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比,如式(3);多分类模块,用于将将计算得到的甲基化位点占比输入预先训练的多组学分类模型中进行分类,得到待测血浆样本所属的类别。
在本实施例中,ATAC-seq区域簇的选定方式与前述实施例相同,这里不做赘述。在统计得到各ATAC-seq区域簇测序数据的甲基化位点占比之后,还包括针对每个ATAC-seq区域簇的甲基化位点占比分别进行矫正的步骤,包括如式(1)z-score标准化和如式(2)归一化,其中,待标准化数据为甲基化位点占比。多组学分类模型可以选用cforest(条件随机森林)、svmLinear(线性核支持向量机)、LogitBoost(一种使用逻辑回归方法作为损失函数的梯度下降算法)、gbm(Gradient Boosting Machine,梯度提升机)及Ensemble(集成学习)等模型进行建模,并预先基于从癌症血浆样本中统计的甲基化位点占比对其进行训练得到模型结构及网络参数,用于后续对待测血浆样本进行分类。
该多分类装置中,还包括用于对预设ATAC-seq区域簇测序数据的性能表现进行验证的性能验证模块,包括:数据获取单元,基于ATAC-seq技术分别对健康血浆样本和癌症患者血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据;癌症患者血浆样本包括多类型癌种的血浆样本;甲基化位点占比计算单元,用于分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比;检验单元,用于基于统计的甲基化位点占比使用秩和单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。
本发明的另一实施例,一种基于cfDNA多组学的多分类装置,包括:数据获取模块,用于获取基于ATAC-seq技术对待测血浆样本进行超低深度全基因组测序得到的测序数据,并从中进一步获取预设ATAC-seq区域簇的测序数据,每个ATAC-seq区域簇对应一类别的特征区域;数量统计模块,用于基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;甲基化位点占比计算模块,用于分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比,如式(3);多分类模块,用于将统计得到的长插入片段数量、短插入片段数量及甲基化位点占比输入预先训练的多组学分类模型中进行分类,得到待测血浆样本所属的类别。
在本实施例中,ATAC-seq区域簇的选定方式、长插入片段阈值区间和短插入片段阈值区间的确定方式均与前述实施例相同,这里不做赘述。在统计得到各ATAC-seq区域簇测序数据的长插入片段数量、短插入片段数量及甲基化位点占比之后,还包括针对每个ATAC-seq区域簇的插入片段数量、短插入片段数量及甲基化位点分别进行矫正的步骤,包括如式(1)z-score标准化和如式(2)归一化,其中,待标准化数据为长插入片段数量、短插入片段数量或甲基化位点占比。
多组学分类模型可以选用cforest(条件随机森林)、svmLinear(线性核支持向量机)、LogitBoost(一种使用逻辑回归方法作为损失函数的梯度下降算法)、gbm(GradientBoosting Machine,梯度提升机)及Ensemble(集成学习)等模型进行建模,并预先基于从癌症血浆样本中统计的长插入片段数量、短插入片段数量及甲基化位点占对其进行训练得到模型结构及网络参数,用于后续对待测血浆样本进行分类。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序单元或模块,以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中,也可是各个单元单独物理存在,也可以两个或两个以上单元集成在一个处理单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序单元的形式实现。另外,各程序模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
图8本发明一个实施例中提供的终端设备的结构示意图,如图所示,终端设备210终端设备包括:存储器211、处理器213以及存储在存储器211中并可在处理器213执行计算机程序212时实现上述基于cfDNA多组学的多分类方法实施例中的步骤,或者,处理器213执行计算机程序212现上述基于cfDNA多组学的多分类装置实施例中各模块的功能。
终端设备210可以为笔记本、平板型计算机、手机等设备。但不仅限于处理器213、存储器211。本领域技术人员可以理解,图8仅仅是终端设备210的示例,并不构成对终端设备210的限定可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如:终端设备210还可以包括输入输出设备、显示设备、网络接入设备、总线等。
处理器213可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)等。通用处理器213可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器211可以是终端设备210的内部存储单元,例如:终端设备210的硬盘或内存。存储器211也可以是终端设备210的外部存储设备,例如:终端设备210上配备的插接式硬盘,安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器211还可以既包括终端设备210的内部存储单元也包括外部存储设备。存储器211用于存储计算机程序212以及终端设备210所需要的其他程序和数据。存储器211还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述或记载的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/终端设备实施例仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性、机械或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可能集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序212发送指令给相关的硬件完成,计算机程序212可存储于一计算机可读存储介质中,该计算机程序212在被处理器213执行时,可实现上述各个方法实施例的步骤。其中,计算机程序212包括:计算机程序代码,计算机程序代码可以为源代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序212代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器 (ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。
应当说明的是,上述实施例均可根据需要自由组合。以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通相关人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种基于cfDNA多组学的多分类方法,其特征在于,包括:
基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据,每个所述ATAC-seq区域簇对应一类别的特征区域;
基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;
将统计得到的长插入片段数量和短插入片段数量输入预先训练的多组学分类模型中进行分类,得到所述待测血浆样本所属的类别。
2.如权利要求1所述的多分类方法,其特征在于,在所述基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量中,所述长插入片段阈值区间为169bp~240bp,所述短插入片段阈值区间为100bp~166bp。
3.如权利要求1或2所述的多分类方法,其特征在于,所述基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据之前,还包括对预设ATAC-seq区域簇测序数据的性能表现进行验证的步骤,包括:
基于ATAC-seq技术分别对健康血浆样本和癌症患者血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据;所述癌症患者血浆样本包括多类型癌种的血浆样本;
基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;
基于统计的长插入片段数量和短插入片段数量使用秩和单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。
5.如权利要求4所述的多分类方法,其特征在于,所述基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据之前,还包括对预设ATAC-seq区域簇测序数据的性能表现进行验证的步骤,包括:
基于ATAC-seq技术分别对健康血浆样本和癌症患者血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据;所述癌症患者血浆样本包括多类型癌种的血浆样本;
分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比;
基于统计的甲基化位点占比使用秩和单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。
6.一种基于cfDNA多组学的多分类方法,其特征在于,包括:
基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据,每个所述ATAC-seq区域簇对应一类别的特征区域;
基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;
分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比;
将统计得到的长插入片段数量、短插入片段数量及甲基化位点占比输入预先训练的多组学分类模型中进行分类,得到所述待测血浆样本所属的类别。
7.一种基于cfDNA多组学的多分类装置,其特征在于,包括:
数据获取模块,用于获取基于ATAC-seq技术对待测血浆样本进行超低深度全基因组测序得到的测序数据,并从中进一步获取预设ATAC-seq区域簇的测序数据,每个所述ATAC-seq区域簇对应一类别的特征区域;
数量统计模块,用于基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;
多分类模块,用于将统计得到的长插入片段数量和短插入片段数量输入预先训练的多组学分类模型中进行分类,得到所述待测血浆样本所属的类别。
8.如权利要求7所述的多分类装置,其特征在于,所述数量统计模块中,所述长插入片段阈值区间为169bp~240bp,所述短插入片段阈值区间为100bp~166bp。
9.如权利要求7或8所述的多分类装置,其特征在于,所述多分类装置中,还包括用于对预设ATAC-seq区域簇测序数据的性能表现进行验证的性能验证模块,包括:
数据获取单元,用于获取基于ATAC-seq技术分别对健康血浆样本和癌症患者血浆样本进行超低深度全基因组测序得到的测序数据,并从中进一步获取预设ATAC-seq区域簇的测序数据;所述癌症患者血浆样本包括多类型癌种的血浆样本;
数量统计模块,用于基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;
检验单元,用于基于统计的长插入片段数量和短插入片段数量使用秩和单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。
10.一种基于cfDNA多组学的多分类装置,其特征在于,包括:
数据获取模块,用于获取基于ATAC-seq技术对待测血浆样本进行超低深度全基因组测序得到的测序数据,并从中进一步获取预设ATAC-seq区域簇的测序数据,每个所述ATAC-seq区域簇对应一类别的特征区域;
甲基化位点占比计算模块,用于分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比;
多分类模块,用于将将计算得到的甲基化位点占比输入预先训练的多组学分类模型中进行分类,得到所述待测血浆样本所属的类别。
11.如权利要求10所述的多分类装置,其特征在于,所述多分类装置中,还包括用于对预设ATAC-seq区域簇测序数据的性能表现进行验证的性能验证模块,包括:
数据获取单元,基于ATAC-seq技术分别对健康血浆样本和癌症患者血浆样本进行超低深度的全基因组测序,并获取预设ATAC-seq区域簇的测序数据;所述癌症患者血浆样本包括多类型癌种的血浆样本;
甲基化位点占比计算单元,用于分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比;
检验单元,用于基于统计的甲基化位点占比使用秩和单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。
12.一种基于cfDNA多组学的多分类装置,其特征在于,包括:
数据获取模块,用于获取基于ATAC-seq技术对待测血浆样本进行超低深度全基因组测序得到的测序数据,并从中进一步获取预设ATAC-seq区域簇的测序数据,每个所述ATAC-seq区域簇对应一类别的特征区域;
数量统计模块,用于基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量;
甲基化位点占比计算模块,用于分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比;
多分类模块,用于将统计得到的长插入片段数量、短插入片段数量及甲基化位点占比输入预先训练的多组学分类模型中进行分类,得到所述待测血浆样本所属的类别。
13.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时实现如权利要求1-6任意一项所述的基于cfDNA多组学的多分类方法的步骤。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任意一项所述的基于cfDNA多组学的多分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211299043.5A CN115376616B (zh) | 2022-10-24 | 2022-10-24 | 一种基于cfDNA多组学的多分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211299043.5A CN115376616B (zh) | 2022-10-24 | 2022-10-24 | 一种基于cfDNA多组学的多分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115376616A true CN115376616A (zh) | 2022-11-22 |
CN115376616B CN115376616B (zh) | 2023-04-28 |
Family
ID=84072586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211299043.5A Active CN115376616B (zh) | 2022-10-24 | 2022-10-24 | 一种基于cfDNA多组学的多分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115376616B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3069754A1 (en) * | 2017-07-12 | 2019-01-17 | University Health Network | Cancer detection and classification using methylome analysis |
US20200131582A1 (en) * | 2016-06-07 | 2020-04-30 | The Regents Of The University Of California | Cell-free dna methylation patterns for disease and condition analysis |
CN112397143A (zh) * | 2020-10-30 | 2021-02-23 | 深圳思勤医疗科技有限公司 | 基于血浆多组学多维特征和人工智能预测肿瘤风险值的方法 |
CN112599197A (zh) * | 2020-12-23 | 2021-04-02 | 北京吉因加医学检验实验室有限公司 | 一种基于血浆dna片段分析评估患癌风险的方法和装置 |
CN112951418A (zh) * | 2021-05-17 | 2021-06-11 | 臻和(北京)生物科技有限公司 | 基于液体活检的连锁区域甲基化评估方法和装置、终端设备及存储介质 |
CN113362893A (zh) * | 2020-03-06 | 2021-09-07 | 福建和瑞基因科技有限公司 | 肿瘤筛查模型的构建方法及应用 |
CN113490986A (zh) * | 2018-12-31 | 2021-10-08 | 辉达公司 | 使用深度学习对atac-seq数据进行去噪 |
CN113903401A (zh) * | 2021-12-10 | 2022-01-07 | 臻和(北京)生物科技有限公司 | 基于ctDNA长度的分析方法和系统 |
CN115064211A (zh) * | 2022-08-15 | 2022-09-16 | 臻和(北京)生物科技有限公司 | 一种基于全基因组甲基化测序的ctDNA预测方法及其应用 |
WO2022217096A2 (en) * | 2021-04-08 | 2022-10-13 | Ha Gavin | Cell-free dna sequence data analysis method to examine nucleosome protection and chromatin accessibility |
WO2022214051A1 (en) * | 2021-04-08 | 2022-10-13 | The Chinese University Of Hong Kong | Cell-free dna methylation and nuclease-mediated fragmentation |
-
2022
- 2022-10-24 CN CN202211299043.5A patent/CN115376616B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200131582A1 (en) * | 2016-06-07 | 2020-04-30 | The Regents Of The University Of California | Cell-free dna methylation patterns for disease and condition analysis |
CA3069754A1 (en) * | 2017-07-12 | 2019-01-17 | University Health Network | Cancer detection and classification using methylome analysis |
CN113490986A (zh) * | 2018-12-31 | 2021-10-08 | 辉达公司 | 使用深度学习对atac-seq数据进行去噪 |
CN113362893A (zh) * | 2020-03-06 | 2021-09-07 | 福建和瑞基因科技有限公司 | 肿瘤筛查模型的构建方法及应用 |
CN112397143A (zh) * | 2020-10-30 | 2021-02-23 | 深圳思勤医疗科技有限公司 | 基于血浆多组学多维特征和人工智能预测肿瘤风险值的方法 |
CN112599197A (zh) * | 2020-12-23 | 2021-04-02 | 北京吉因加医学检验实验室有限公司 | 一种基于血浆dna片段分析评估患癌风险的方法和装置 |
WO2022217096A2 (en) * | 2021-04-08 | 2022-10-13 | Ha Gavin | Cell-free dna sequence data analysis method to examine nucleosome protection and chromatin accessibility |
WO2022214051A1 (en) * | 2021-04-08 | 2022-10-13 | The Chinese University Of Hong Kong | Cell-free dna methylation and nuclease-mediated fragmentation |
CN112951418A (zh) * | 2021-05-17 | 2021-06-11 | 臻和(北京)生物科技有限公司 | 基于液体活检的连锁区域甲基化评估方法和装置、终端设备及存储介质 |
CN113903401A (zh) * | 2021-12-10 | 2022-01-07 | 臻和(北京)生物科技有限公司 | 基于ctDNA长度的分析方法和系统 |
CN115064211A (zh) * | 2022-08-15 | 2022-09-16 | 臻和(北京)生物科技有限公司 | 一种基于全基因组甲基化测序的ctDNA预测方法及其应用 |
Non-Patent Citations (3)
Title |
---|
刘相兰等: "多组学大数据在精准医学中的地位及应用", 《精准医学杂志》 * |
方欢等: "血浆游离DNA全基因组甲基化测序的实用稳定性评估", 《生物工程学报》 * |
欧阳也等: "利用ATAC-seq技术在人免疫细胞中检测染色质开放性的方法建立", 《现代免疫学》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115376616B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220367006A1 (en) | Methods and systems for dynamic variant thresholding in a liquid biopsy assay | |
CN113257350B (zh) | 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置 | |
EP2852680B1 (en) | Methods and processes for non-invasive assessment of genetic variations | |
US11211144B2 (en) | Methods and systems for refining copy number variation in a liquid biopsy assay | |
US11193175B2 (en) | Normalizing tumor mutation burden | |
US20240290423A1 (en) | Methods for non-invasive assessment of genetic alterations | |
CN111647648A (zh) | 一种用于检测乳腺癌基因突变的基因panel及其检测方法与应用 | |
US20130189684A1 (en) | Quantification of cell-specific nucleic acid markers | |
US20230203590A1 (en) | Methods and means for diagnosing lung cancer | |
CN105779435A (zh) | 试剂盒及其用途 | |
Lefrançois et al. | TruSeq-based gene expression analysis of formalin-fixed paraffin-embedded (FFPE) cutaneous T-cell lymphoma samples: subgroup analysis results and elucidation of biases from FFPE sample processing on the TruSeq platform | |
CN116157539A (zh) | 循环肿瘤核酸分子的多模态分析 | |
Kechin et al. | BRCA-analyzer: Automatic workflow for processing NGS reads of BRCA1 and BRCA2 genes | |
US20200263258A1 (en) | Assessing and treating mammals having polyps | |
KR102347463B1 (ko) | 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치 | |
CN114438218B (zh) | 一种检测多种肿瘤的基因Panel、试剂盒及应用 | |
CN115376616B (zh) | 一种基于cfDNA多组学的多分类方法及装置 | |
Marcel et al. | Genome-wide cancer-specific chromatin accessibility patterns derived from archival processed xenograft tumors | |
CN115851923A (zh) | 用于检测结直肠癌淋巴结转移的甲基化生物标记物及其应用 | |
JP2024512372A (ja) | オフターゲットポリヌクレオチド配列決定データに基づく腫瘍の存在の検出 | |
WO2023230289A1 (en) | Methods and systems for cell-free nucleic acid processing | |
WO2024192294A1 (en) | Methods and systems for generating sequencing libraries | |
CN114141303A (zh) | 一种肺癌筛查模型的构建方法以及肺癌筛查的试剂盒 | |
Chen et al. | Epigenomic Sequencing Technologies | |
WO2023197004A1 (en) | Detecting the presence of a tumor based on methylation status of cell-free nucleic acid molecules |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |