CN116312774B - 基于cfDNA的癌症预测模型及其构建方法和应用 - Google Patents
基于cfDNA的癌症预测模型及其构建方法和应用 Download PDFInfo
- Publication number
- CN116312774B CN116312774B CN202310575289.9A CN202310575289A CN116312774B CN 116312774 B CN116312774 B CN 116312774B CN 202310575289 A CN202310575289 A CN 202310575289A CN 116312774 B CN116312774 B CN 116312774B
- Authority
- CN
- China
- Prior art keywords
- coverage
- tissue
- cfdna
- regions
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 96
- 201000011510 cancer Diseases 0.000 title claims abstract description 84
- 238000010276 construction Methods 0.000 title claims abstract description 27
- 108010077544 Chromatin Proteins 0.000 claims abstract description 137
- 210000003483 chromatin Anatomy 0.000 claims abstract description 137
- 210000001519 tissue Anatomy 0.000 claims abstract description 96
- 238000011144 upstream manufacturing Methods 0.000 claims abstract description 63
- 239000012634 fragment Substances 0.000 claims abstract description 51
- 238000012163 sequencing technique Methods 0.000 claims abstract description 26
- 239000000523 sample Substances 0.000 claims abstract description 19
- 239000013068 control sample Substances 0.000 claims abstract description 13
- 238000010801 machine learning Methods 0.000 claims abstract description 11
- 238000003860 storage Methods 0.000 claims abstract description 11
- 108091023040 Transcription factor Proteins 0.000 claims description 71
- 102000040945 Transcription factor Human genes 0.000 claims description 71
- 238000010606 normalization Methods 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 21
- 238000012070 whole genome sequencing analysis Methods 0.000 claims description 15
- 210000004027 cell Anatomy 0.000 claims description 14
- 238000011282 treatment Methods 0.000 claims description 13
- 101000804764 Homo sapiens Lymphotactin Proteins 0.000 claims description 12
- 102100035304 Lymphotactin Human genes 0.000 claims description 12
- 210000003719 b-lymphocyte Anatomy 0.000 claims description 12
- 210000005013 brain tissue Anatomy 0.000 claims description 12
- 210000005228 liver tissue Anatomy 0.000 claims description 12
- 210000004072 lung Anatomy 0.000 claims description 12
- 210000002784 stomach Anatomy 0.000 claims description 12
- 238000013518 transcription Methods 0.000 claims description 12
- 230000035897 transcription Effects 0.000 claims description 12
- 238000001353 Chip-sequencing Methods 0.000 claims description 10
- 206010061902 Pancreatic neoplasm Diseases 0.000 claims description 9
- 230000033228 biological regulation Effects 0.000 claims description 9
- 238000003908 quality control method Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 210000001072 colon Anatomy 0.000 claims description 7
- 210000002216 heart Anatomy 0.000 claims description 7
- 210000000265 leukocyte Anatomy 0.000 claims description 7
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 claims description 7
- 201000002528 pancreatic cancer Diseases 0.000 claims description 7
- 208000008443 pancreatic carcinoma Diseases 0.000 claims description 7
- 238000000513 principal component analysis Methods 0.000 claims description 7
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 206010006187 Breast cancer Diseases 0.000 claims description 5
- 208000026310 Breast neoplasm Diseases 0.000 claims description 5
- 208000001333 Colorectal Neoplasms Diseases 0.000 claims description 5
- 208000005718 Stomach Neoplasms Diseases 0.000 claims description 5
- 210000001744 T-lymphocyte Anatomy 0.000 claims description 5
- 210000000988 bone and bone Anatomy 0.000 claims description 5
- 210000002950 fibroblast Anatomy 0.000 claims description 5
- 208000014018 liver neoplasm Diseases 0.000 claims description 5
- 208000020816 lung neoplasm Diseases 0.000 claims description 5
- 210000000813 small intestine Anatomy 0.000 claims description 5
- 208000000461 Esophageal Neoplasms Diseases 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 206010009944 Colon cancer Diseases 0.000 claims description 3
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 206010017758 gastric cancer Diseases 0.000 claims description 3
- 201000007270 liver cancer Diseases 0.000 claims description 3
- 201000005202 lung cancer Diseases 0.000 claims description 3
- 201000011549 stomach cancer Diseases 0.000 claims description 3
- 206010030155 Oesophageal carcinoma Diseases 0.000 claims description 2
- 201000004101 esophageal cancer Diseases 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 15
- 238000001514 detection method Methods 0.000 abstract description 6
- 238000013467 fragmentation Methods 0.000 abstract description 5
- 238000006062 fragmentation reaction Methods 0.000 abstract description 5
- 108090000623 proteins and genes Proteins 0.000 abstract description 4
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 230000035515 penetration Effects 0.000 abstract 1
- 210000002381 plasma Anatomy 0.000 description 13
- 108020004414 DNA Proteins 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 108010047956 Nucleosomes Proteins 0.000 description 5
- 238000011528 liquid biopsy Methods 0.000 description 5
- 210000001623 nucleosome Anatomy 0.000 description 5
- 238000005520 cutting process Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 210000004881 tumor cell Anatomy 0.000 description 3
- FHSISDGOVSHJRW-UHFFFAOYSA-N 5-formylcytosine Chemical compound NC1=NC(=O)NC=C1C=O FHSISDGOVSHJRW-UHFFFAOYSA-N 0.000 description 2
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 2
- 208000005443 Circulating Neoplastic Cells Diseases 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108010033040 Histones Proteins 0.000 description 2
- 102000006947 Histones Human genes 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 239000000090 biomarker Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000034994 death Effects 0.000 description 2
- 231100000517 death Toxicity 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000011987 methylation Effects 0.000 description 2
- 238000007069 methylation reaction Methods 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- BLQMCTXZEMGOJM-UHFFFAOYSA-N 5-carboxycytosine Chemical compound NC=1NC(=O)N=CC=1C(O)=O BLQMCTXZEMGOJM-UHFFFAOYSA-N 0.000 description 1
- 102000004533 Endonucleases Human genes 0.000 description 1
- 108010042407 Endonucleases Proteins 0.000 description 1
- 101000653374 Homo sapiens Methylcytosine dioxygenase TET2 Proteins 0.000 description 1
- 108091036060 Linker DNA Proteins 0.000 description 1
- 206010025067 Lung carcinoma cell type unspecified stage I Diseases 0.000 description 1
- 206010025068 Lung carcinoma cell type unspecified stage II Diseases 0.000 description 1
- 206010025069 Lung carcinoma cell type unspecified stage III Diseases 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 102100030803 Methylcytosine dioxygenase TET2 Human genes 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 238000009098 adjuvant therapy Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001640 apoptogenic effect Effects 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical class NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 210000001808 exosome Anatomy 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000011221 initial treatment Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- XEBWQGVWTUSTLN-UHFFFAOYSA-M phenylmercury acetate Chemical compound CC(=O)O[Hg]C1=CC=CC=C1 XEBWQGVWTUSTLN-UHFFFAOYSA-M 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000011470 radical surgery Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000002271 resection Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000005748 tumor development Effects 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Epidemiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请公开了一种基于cfDNA的癌症预测模型及其构建方法和应用,属于医学检测技术领域。该模型构建方法是:利用收集的染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度计算染色质开放区域内的方向特异cfDNA片段值(orientation‑aware cfDNA fragmentation value,OCF值),利用阳性样本和对照样本的OCF值进行机器学习训练和预测模型的构建。上述构建方法或者构建的预测模型可用于癌症预测,如制造癌症预测装置、设备和存储介质等,从而能对患者患有癌症的概率给出预测。本申请能够使用受试者血浆cfDNA全基因测序数据,而无需组织穿刺等侵入性检测方法,预测受试者患有癌症的概率。
Description
技术领域
本申请属于医学检测技术领域,具体涉及基于cfDNA的癌症预测模型及其构建方法和应用。
背景技术
癌症是影响人类健康与寿命的主要疾病,现已成为全球重要的公共卫生问题之一。国家癌症中心公布的2016年全国癌症报告显示,2016年癌症新发病例406.4万,总死亡人数241.4万,整体发病率呈上升趋势,恶性肿瘤的死亡数持续上升。目前手术切除和辅助治疗是癌症的主要治疗方式,但是仍有一定比例的患者会出现肿瘤复发,例如肺癌I期、II期和III期的五年复发率分别为21%、36%和55%;胰腺癌的年标准化率(每10万人的年发病率或死亡率)分别为3.9和3.7,其发病率几乎等于其死亡率。胰腺癌的5年生存率不到8%,可行根治性手术的胰腺癌患者较未行手术者预后有显著差异,单纯的手术治疗仅能将胰腺癌5年生存率提高至10%左右。癌症预后不佳的原因有多种,例如大多数患者在确诊时已经处于晚期;手术后复发、转移的概率仍然极高。
肿瘤早期诊断是有效提高肿瘤预后的最重要手段之一。目前临床上主要采用影像、内镜、肿瘤标志物等对肿瘤进行早期筛查,然而其发现早期肿瘤的敏感性仍不够理想。相较于组织活检,液体活检的优势在于非侵入性、可重复性地获得肿瘤样本,其副作用小、操作简便、成本较低、检测速度快,在减小了肿瘤异质性对诊断造成的偏差的同时,也能及时地反应肿瘤发展的动态变化;其临床适应症也极为广泛,如常见的肺癌、乳腺癌、前列腺癌、结直肠癌、胃癌、肝癌、胰腺癌等肿瘤均可用液体活检进行诊断与监测。液体活检作为体外诊断的重要分支,通过捕获和检测体液(主要是血液)中的生物标记物来诊断和监测肿瘤等疾病,常见的生物标志物包括循环肿瘤细胞(CTC)、循环游离DNA(cfDNA)、循环肿瘤DNA(ctDNA)和肿瘤细胞来源的外泌体。其中,cfDNA通过肿瘤细胞凋亡、坏死、肿瘤细胞活性分泌等不同机制在血流中持续释放,cfDNA来源于癌细胞时,称为循环肿瘤DNA (ctDNA)。ctDNA的浓度水平与癌症的阶段和肿瘤大小有关,晚期癌症患者ctDNA浓度较高。虽然液体活检作为一种早期癌症检测的手段,其前景十分可观,但仍需进一步的研究和开发。比如血浆cfDNA全基因组测序中ctDNA含量低、测序深度低,也影响着液体活检的诊断效果。
多项研究表明cfDNA片段化模式与细胞内的体内基因调控图谱密切相关,如核小体定位和基因表达,这表明可以从cfDNA片段化模式推断细胞内表观基因组和转录组的状态。因此需要一种能够有效利用cfDNA片段化信息,在低深度测序(平均测序深度1×)下仍能保证较好预测效果的方法。
在真核染色质中,核小体是染色质折叠结构的基本单位,由包裹在组蛋白上的DNA片段组成,核小体通常通过相对较短的连接子DNA相互连接。在需要与基因调控元件结合时,需要将折叠结构展开以方便调控原件结合到DNA上。cfDNA分子中很大一部分由凋亡的细胞释放,在释放DNA片段过程中,内切酶倾向于切割核间体DNA。因此,当cfDNA分子进行测序时,包裹在组蛋白上的DNA被保存下来,而来自连接子和染色质开放区域的DNA,由于相对不受保护,会被切割成小片段,所以可能无法进行有效测序。因此,cfDNA的基因组覆盖度在核小体区域较高,而在连接子和染色质开放区域中较低。同时,在核小体5’-3’端连接的部分,cfDNA片段的5’端方向的末端覆盖度和3’端末端覆盖度较高。而在开放染色质区域的5’-3’端起始和结束位置,cfDNA片段的3’端方向的末端覆盖度和5’端末端覆盖度较高。
发明内容
1. 发明目的
本申请的目的在于提供一种基于cfDNA的癌症预测模型及其构建方法和应用,其构建方法是:利用预先收集的染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度计算染色质开放区域内的方向特异cfDNA片段值(orientation-aware cfDNAfragmentation value,OCF值),利用阳性样本和对照样本的OCF值进行机器学习训练和预测模型的构建。将上述构建方法或者构建的预测模型用于癌症预测,如制造癌症预测装置、设备和存储介质等,从而能对患者患有癌症的概率给出预测。
2. 技术方案
为了解决上述问题,本申请所采用的技术方案如下:
作为本申请的第一方面,本申请提供了一种基于cfDNA的癌症预测模型的构建方法,该方法基于染色质开放区域内的方向特异cfDNA片段值(OCF值),具体包括如下步骤:
S1:获取阳性样本和对照样本的血浆cfDNA全基因组测序数据,并比对到人类参考基因组获得片段信息文件;
S2:收集染色质开放区域:染色质开放区域收集自公共数据库,包括以下一种或多种:
(1)504组转录因子结合位点区域,从转录因子调控数据库GTRD(版本18.01)下载共计共504个转录因子,其提供了基于ChIP-seq数据的各种组织样本的详细的转录因子结合位点信息,由于每个转录因子中可能存在大量的结合位点,因此结合ChIP-seq数据根据结合位点区域的Peak值,对结合位点区域的坐标进行调整,使得结合位点区域大小在2 kb,并根据Peak值的大小选取Peak最高的1000个结合位点区域,
(2)基于ATAC-seq的组织特异染色质开放区域,从FinaleDB数据库中收集了人体9个不同组织(B淋巴细胞、脑组织、结肠、心脏、白细胞、肝组织、肺组织、皮肤组织和胃)的ATAC-seq测序数据,每组组织特异染色质开放区域包含2000个长度为2 kb人类参考基因组区域,以染色质开放区域中心为起点,分别向基因组上游和基因组下游各延伸1 kb,共有9×2000个ATAC组织特异染色质开放区域,
(3)基于Dnase-seq的组织特异染色质开放区域,从FinaleDB数据库中收集了人体9个不同组织(B淋巴细胞、脑组织、纤维母细胞、肝组织、肺组织、骨髓细胞、小肠细胞、胃和T淋巴细胞)的Dnase-seq测序数据,每组组织特异染色质开放区域包含2000个长度为2 kb人类参考基因组区域,以染色质开放区域中心为起点,分别向基因组上游和基因组下游各延伸1 kb,共有9×2000个ATAC组织特异染色质开放区域;
S3:染色质开放区域上、下游末端覆盖度计算:将S1中片段信息文件比对至S2中收集的染色质开放区域,获得比对至染色质开放区域的序列;对每组2000个组织特异染色质开放区域和/或1个转录因子对应的1000个转录因子结合位点区域,计算每个2 kb区域内的相对位置末端覆盖度,相对位置从-1000到999共2000个位置,相对位置0对应推测的染色质开放区域中心或转录因子结合位点,cfDNA片段的比对到参考基因组的5’端对应的区域内相对位置的上游覆盖度加1,cfDNA片段比对到参考基因组的3’端对应的区域内相对位置的下游覆盖度加1;计算完单个长为2 kb区域的相对位置上游和/或下游覆盖度后,将每组2000个组织特异染色质开放区域和/或每个转录因子对应的1000个转录因子结合位点区域,按照相对位置对齐,叠加每个相对位置的上游和下游覆盖度,对每个相对位置的上游覆盖度和下游覆盖度除以该组区域的所有相对位置覆盖度的总和进行归一化处理;
S4:计算染色质开放区域内的方向特异cfDNA片段值(OCF值):根据cfDNA在染色质开放区域的覆盖度模式,对每组组织特异区域和/或每个转录因子的转录结合位点区域内的相对位置覆盖度使用如下公式计算OCF值:
,
式中,D表示每组组织特异区域和/或每个转录因子的转录结合区域内的经过归一化处理后的相对位置下游方向覆盖度,U表示归一化处理后的相对位置上游方向覆盖度,OCF值的高低则反映了这组区域上的染色质开放程度的大小;
S5:以染色质开放区域的OCF值作为特征,进行数据归一化处理和主成分分析,选择阳性样本和对照样本中有显著差异的OCF值,使用支持向量机构建癌症预测模型。
进一步地,上述S1包括:获取阳性样本和对照样本的血浆cfDNA全基因组测序数据后,还包括对血浆cfDNA全基因组测序数据进行质控和过滤处理,并将过滤后的序列比对到参考基因组,获得片段信息文件。
进一步地,获得片段信息文件包括:根据双端测序数据中的序列1和序列2,以及其比对到参考基因组上坐标,计算其片段长度,以及片段比对到参考基因组上的起始位置和结束位置,生成序列的片段信息文件。
进一步地,上述进行质控和过滤处理包括:对测序数据进行去接头、截断末端序列低质量碱基,生成过滤后的FASTQ文件。
进一步地,上述质控和过滤处理后的序列比对到参考基因组后,对生成的BAM文件中的序列根据序列比对质量、序列碱基平均碱基质量、GC含量、N含量、序列长度进行筛选。
进一步地,上述S3中,S1中片段信息文件与S2中收集的染色质开放区域文件的比对,是使用Bedtools v2.27.1的intersect模块,输入片段信息文件和染色质开放区域文件进行比对。
作为本申请的第二方面,本申请提供了一种基于cfDNA的构建癌症预测模型的装置,该装置包括:
数据接收模块,其被配置为用于获取阳性样本和对照样本的血浆cfDNA全基因组测序数据,并比对到人类参考基因组获得片段信息文件;
覆盖度计算模块,其被配置为用于计算预先收集的染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度,并进行归一化处理,其中:
预先收集的染色质开放区域,包括以下一种或多种:(1)504组转录因子结合位点区域,从转录因子调控数据库GTRD(版本18.01)下载共计504个转录因子,其提供了基于ChIP-seq数据的各种组织样本的详细的转录因子结合位点信息,由于每个转录因子中可能存在大量的结合位点,因此结合ChIP-seq数据根据结合位点区域的Peak值,对结合位点区域的坐标进行调整,使得结合位点区域大小在2 kb,并根据Peak值的大小选取Peak最高的1000个结合位点区域,(2)基于ATAC-seq的组织特异染色质开放区域,从FinaleDB数据库中收集了人体9个不同组织(B淋巴细胞、脑组织、结肠、心脏、白细胞、肝组织、肺组织、皮肤组织和胃)的ATAC-seq测序数据,每组组织特异染色质开放区域包含2000个长度为2 kb人类参考基因组区域,染色质开放区域中心为起点,分别向基因组上游和基因组下游各延伸1kb,共有9×2000个ATAC组织特异染色质开放区域,(3)基于Dnase-seq的组织特异染色质开放区域,从FinaleDB数据库中收集了人体9个不同组织(B淋巴细胞、脑组织、纤维母细胞、肝组织、肺组织、骨髓细胞、小肠细胞、胃和T淋巴细胞)的Dnase-seq测序数据,每组组织特异染色质开放区域包含2000个长度为2 kb人类参考基因组区域,以染色质开放区域中心为起点,分别向基因组上游和基因组下游各延伸1 kb,共有9×2000个ATAC组织特异染色质开放区域,
覆盖度计算和归一化处理包括:将数据接收模块接收中片段信息文件比对至收集的染色质开放区域文件,获得比对至染色质开放区域的序列;对每组2000个组织特异染色质开放区域和/或1个转录因子对应的1000个转录因子结合位点区域,计算每个2 kb区域内的相对位置末端覆盖度,相对位置从-1000到999共2000个位置,相对位置0对应推测的染色质开放区域中心或转录因子结合位点,cfDNA片段的比对到参考基因组的5’端对应的区域内相对位置的上游覆盖度加1,cfDNA片段比对到参考基因组的3’端对应的区域内相对位置的下游覆盖度加1;计算完单个长为2 kb区域的相对位置上游和/或下游覆盖度后,将每组2000个组织特异染色质开放区域和/或每个转录因子对应的1000个转录因子结合位点区域,按照相对位置对齐,叠加每个相对位置的上游和下游覆盖度,对每个相对位置的上游覆盖度和下游覆盖度除以该组区域的所有相对位置覆盖度的总和进行归一化处理;
OCF值计算模块,其被配置为使用经过归一化处理的序列上游和下游末端覆盖度计算OCF值,根据cfDNA在染色质开放区域的覆盖度模式,对每组组织特异区域和/或每个转录因子的转录结合位点区域内的相对位置覆盖度使用如下公式计算OCF值:
,
式中,D表示每组组织特异区域和/或每个转录因子的转录结合区域内的经过归一化处理后的相对位置下游方向覆盖度,U表示归一化处理后的相对位置上游方向覆盖度;
癌症预测模型构建模块,用于以OCF值计算模块计算的多个染色质开放区域的OCF值作为特征,依次进行数据归一化处理、主成分分析后选择阳性样本和对照样本中有显著差异的OCF值,使用支持向量机构建癌症预测模型。
进一步地,上述一种基于cfDNA的构建癌症预测模型的装置,数据接受模块可以包括:
cfDNA全基因组测序数据接收模块,其被配置为用于接收阳性样本和对照样本的血浆cfDNA全基因组测序数据;
序列预处理模块,其被配置为用于对测序数据中的序列进行质控和过滤处理,并将过滤后的序列比对到参考基因组,获得片段信息文件。
作为本申请的第三方面,本申请提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面所描述的基于cfDNA的癌症预测模型的构建方法。
作为本申请的第四方面,本申请提供了一种计算机存储介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面所描述的基于cfDNA的癌症预测模型的构建方法。
作为本申请的第五方面,本申请提供了上述基于cfDNA的癌症预测模型的构建方法构建的癌症预测模型。
作为本申请的第六方面,本申请提供了上述基于cfDNA的癌症预测模型、上述基于cfDNA的癌症预测模型的构建方法、上述基于cfDNA的构建癌症预测模型的装置、上述电子设备和上述计算机存储介质在癌症预测中的应用。
作为本申请的第七方面,本申请提供了上述基于cfDNA的癌症预测模型、上述基于cfDNA的癌症预测模型的构建方法、上述基于cfDNA的构建癌症预测模型的装置、上述电子设备和上述计算机存储介质在制备癌症预测装置中的应用。
作为本申请的第八方面,本申请提供了一种癌症预测装置,包括:
数据接收模块,其被配置为用于接收待测样本的血浆cfDNA全基因组测序数据;
序列预处理模块,其被配置为用于对测序数据中的序列进行质控和过滤处理,并将过滤后的序列比对到参考基因组;
覆盖度计算模块,其被配置为用于计算染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度,并进行归一化处理;
OCF值计算模块,其被配置为使用经过归一化处理的序列上游和下游末端覆盖度计算OCF值;
预测模块,其被配置为使用预先训练好的机器学习模型和染色质开放区域内的OCF值预测患有癌症的概率,该机器学习模型为上述任一基于cfDNA的癌症预测模型。
进一步地,上述一种癌症预测装置,还包括结果输出模块,输出预测模块中预测的患有癌症的概率。
作为本申请的第九方面,本申请提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第八方面所描述的使用预先训练好的机器学习模型和染色质开放区域内的OCF值预测患有癌症的概率。
作为本申请的第十方面,本申请提供了一种计算机存储介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第八方面所描述的使用预先训练好的机器学习模型和染色质开放区域内的OCF值预测患有癌症的概率。
3. 有益效果
本申请与现有技术相比,其有益效果在于:
(1)本申请提供了一种基于cfDNA的癌症预测模型及其构建方法和应用,利用收集的染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度计算染色质开放区域内的方向特异cfDNA片段值(orientation-aware cfDNA fragmentation value,OCF值),利用阳性样本和对照样本的OCF值进行机器学习训练和预测模型的构建,利用了cfDNA片段末端覆盖度和基因调控活动联系起来的统计量OCF值,在染色质展开折叠结构与调控元件结合的区域,该区域的OCF值较高。
(2)本申请提供了一种基于cfDNA的癌症预测模型及其构建方法和应用,从公共数据库中收集到了504个转录因子的504×1000个转录因子结合位点和基于ATAC-seq和DNANase-seq的组织特异染色质开放区域,根据这些区域的染色质开放程度不同,可以区分癌症和健康人。
(3)本申请提供了一种基于cfDNA的癌症预测模型及其构建方法和应用,提供了一种无需组织穿刺等侵入性检测,仅利用血浆cfDNA测序数据预测受试者患有癌症概率的装置,在泛癌种数据上具有较好的分类效果。
附图说明
图1为本发明实施例1中的数据处理和分析流程示意图。
图2为本发明实施例1中模型在训练集上预测结果的ROC曲线和AUC值。
图3为本发明实施例1中模型在测试集上预测结果的ROC曲线和AUC值。
图4本发明癌症预测装置的模块示意图。
具体实施方式
下面结合具体实施例对本申请进一步进行描述。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例中未注明具体条件者,按照常规条件或制造商提供的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
如本文所使用,术语“约”用于提供与给定术语、度量或值相关联的灵活性和不精确性。本领域技术人员可以容易地确定具体变量的灵活性程度。
如本文所使用,术语“......中的至少一个”旨在与“......中的一个或多个”同义。例如,“A、B和C中的至少一个”明确包括仅A、仅B、仅C以及它们各自的组合。
浓度、量和其他数值数据可以在本文中以范围格式呈现。应当理解,这样的范围格式仅是为了方便和简洁而使用,并且应当灵活地解释为不仅包括明确叙述为范围极限的数值,而且还包括涵盖在所述范围内的所有单独的数值或子范围,就如同每个数值和子范围都被明确叙述一样。例如,约1至约4.5的数值范围应当被解释为不仅包括明确叙述的1至约4.5的极限值,而且还包括单独的数字(诸如2、3、4)和子范围(诸如1至3、2至4等)。相同的原理适用于仅叙述一个数值的范围,诸如“小于约4.5”,应当将其解释为包括所有上述的值和范围。此外,无论所描述的范围或特征的广度如何,都应当适用这种解释。
实施例1
本实施例提供基于cfDNA的癌症预测模型的构建方法及模型训练和验证,其流程如图1所示,具体包括如下步骤:
样本收集:本实施例中回顾性地选取497例无癌症史的健康人血浆以及780例不同分期的多癌种癌症患者的血浆,患者的癌症种类包括了乳腺癌、结直肠癌、食管癌、胃癌、肝癌、肺癌和胰腺癌,并随机地按照7:3的比例分为训练集和测试集。其中训练集共有健康人和癌症共894例样本,包括了352例健康人及542例癌症患者(46例乳腺癌,105例结直肠癌,42例食管癌,78例胃癌,78例肝癌,110例肺癌,83例胰腺癌),测试集包括了共383例健康人和癌症样本,其中包括145例健康人和238例癌症患者(20例乳腺癌,45例结直肠癌,19例食管癌,36例胃癌,35例肝癌,47例肺癌,36例胰腺癌)。
文库构建:使用甲基化文库构建试剂盒NEBNext Enzymatic Methyl seq Kit(NEB,cat#E7120),以5-30 ng 血浆cfDNA起始量,通过TET2酶使5-甲基胞嘧啶(5-mC)转化为5-甲酰胞嘧啶(5-fC)和5-羧基胞嘧啶(5-caC),并且通过APOBEC酶,使非甲基化胞嘧啶(C)脱氨转化为尿嘧啶(U),然后进行扩增建库。
文库测序:取100 ng上述文库加入10% PhiX DNA(Illumina cat#FC-110-3001)混合成上机样品,在Novaseq 6000(Illumina)平台进行PE100测序。
测序数据质控、过滤和比对:(1)调用Trimmomatic-0.36将每一对FASTQ文件都作为配对序列(paired reads)进行去除接头,之后切去剩余部分开头和结尾处碱基质量低于20的碱基,从reads的5’端开始,以大小为5的窗口进行划窗计算平均质量,如果窗口内平均碱基质量低于20,则切除该窗口,并要求切除后剩余碱基数量超过75,生成去接头后的FASTQ文件;(2)调用Bismark-v0.19.0将经过质控处理的FASTQ文件比对到参考基因组上,生成初始BAM文件;(3)调用Bismark-v0.19.0的deduplicate模块,对初始BAM文件进行去重复处理,生成去重后的BAM文件;(4)调用SAMtools-1.3的sort模块,对去重后的BAM文件进行排序,生成排序后的BAM文件;调用Picard-2.1.0的AddOrReplaceReadGroups模块,对排序的BAM文件进行标记分组;(5)调用BamUtil-1.0.14的clipOverlap模块对标记分组后的BAM文件进行筛选,去除配对序列中的重叠部分,并调用SAMtools-1.3 view对去除重合部分的序列的BAM文件的比对质量进行过滤,去除比对质量低于20的序列,完成该步骤后,统计每条序列中非甲基化位点中C碱基的转化率,剔除转化率低于95%的序列,并输出到最终的BAM文件中;(6)调用SAMtools-1.3的index模块对最终生成的BAM文件建立索引,生成与最终BAM文件配对的bai文件。
染色质开放区域收集:染色质开放区域收集自公共数据库,包括:(1)504组转录因子结合位点,从转录因子调控数据库GTRD(版本18.01)下载到共504个转录因子,其提供了基于ChIP-seq数据的各种组织样本的详细的转录因子结合位点信息;由于每个转录因子中可能存在大量的结合位点,因此结合ChIP-seq数据根据结合位点区域的Peak值,对区域的坐标进行了调整,使得区域大小在2 kb;并根据Peak值的大小选取Peak最高的1000个结合位点区域;(2)基于ATAC-seq的组织特异区域,从FinaleDB数据库中收集了人体9个不同组织(B淋巴细胞、脑组织、结肠、心脏、白细胞、肝组织、肺组织、皮肤组织和胃)的ATAC-seq测序数据,每组组织特异染色质开放区域包含2000个长度为2 kb人类参考基因组区域,以染色质开放区域中心,分别向基因组上游和基因组下游各延伸1 kb,共有9×2000个ATAC组织特异染色质开放区域;(3)基于Dnase-seq的组织特异区域,从FinaleDB数据库中收集了人体9个不同组织(B淋巴细胞、脑组织、纤维母细胞、肝组织、肺组织、骨髓细胞、小肠细胞、胃和T淋巴细胞)的Dnase-seq测序数据,每组组织特异染色质开放区域包含2000个长度为2kb人类参考基因组区域,以染色质开放区域中心,分别向基因组上游和基因组下游各延伸1kb,共有9×2000个ATAC组织特异染色质开放区域。
染色质开放区域内的上、下游末端覆盖度计算:(1)从最终BAM文件中,根据序列1和序列2的比对信息确定cfDNA片段的插入长度和比对到基因组上的坐标,结果输入到cfDNA片段信息文件;(2)使用Bedtools v2.27.1的intersect模块,输入cfDNA片段信息文件和染色质开放区域文件,获得比对到每个组织特异染色质开放区域和每个转录因子结合区域的序列;(3)对每组2000个组织特异染色质开放区域和/或1个转录因子对应的1000个转录因子结合区域,计算每个2 kb区域内的相对位置末端覆盖度,相对位置从-1000到999共2000个位置,相对位置0对应推测的染色质开放区域中心或转录因子结合位点;cfDNA片段的比对到参考基因组的5’端对应的区域内相对位置的上游覆盖度加1,cfDNA片段比对到参考基因组的3’端对应的区域内相对位置的下游覆盖度加1;(4)计算完单个长为2 kb区域的相对位置上游或下游覆盖度后,将每组2000个组织特异染色质开放区域和/或每个转录因子对应的1000个转录因子结合区域,按照相对位置对齐,叠加每个相对位置的上游和下游覆盖度,对每个相对位置的上游覆盖度和下游覆盖度除以该组区域的所有相对位置覆盖度的总和进行归一化处理。
计算染色质开放区域内的方向特异cfDNA片段值(OCF值):根据每组组织特异区域和/或每个转录因子的转录结合区域内的相对位置上游覆盖度和下游覆盖度使用如下公式计算方向OCF值:
,
式中,D表示每组组织特异区域和/或每个转录因子的转录结合区域内的经过归一化处理后的相对位置下游方向覆盖度,U表示归一化处理后的相对位置上游方向覆盖度;对每组染色质开放区域分别计算OCF值,每例样本计算得到522个染色质开放区域的OCF值。
主成分分析:对训练集的共894例健康人和癌症数据使用Z-score方法进行去中心化处理;对每个染色质开放区域的OCF值计算其在训练集上的均值和标准差,然后用该区域的OCF值减去均值后除以标准差;调用python Scikit-learn(0.23.0)中实现的PCA模块,对进行过标准化处理的训练集数据进行PCA主成分分析,选择总方差占比大于等于95%的成分,输入为894×522维矩阵,输出为894×340维矩阵。
模型构建:在训练集中使用5折交叉验证,依次将数据集划分成5份,随机选择其中的4份作为训练集用于构建分类模型,剩余的1份作为验证集数据进行验证,重复上面的过程,得到整个训练集的预测结果并绘制ROC曲线。根据验证集数据上的AUC值,通过随机搜索的方式进行超参数搜索。使用python Scikit-learn(0.23.0)实现的支持向量机算法,对训练集进行建模。
结果:在训练集上的AUC为0.94(图2),在测试集上的AUC值为0.88(图3)。
实施例2
本实施例提供了一种基于cfDNA的构建癌症预测模型的装置,该装置包括:
数据接收模块,其被配置为用于获取阳性样本和对照样本的血浆cfDNA全基因组测序数据,并比对到人类参考基因组获得片段信息文件;
覆盖度计算模块,其被配置为用于计算预先收集的染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度,并进行归一化处理;其中:
预先收集的染色质开放区域,包括:(1)504组转录因子结合位点区域,从转录因子调控数据库GTRD(版本18.01)下载共计共504个转录因子,其提供了基于ChIP-seq数据的各种组织样本的详细的转录因子结合位点信息,由于每个转录因子中可能存在大量的结合位点,因此结合ChIP-seq数据根据结合位点区域的Peak值,对结合位点区域的坐标进行调整,使得结合位点区域大小在2 kb,并根据Peak值的大小选取Peak最高的1000个结合位点区域,(2)基于ATAC-seq的组织特异染色质开放区域,从FinaleDB数据库中收集了人体9个不同组织(B淋巴细胞、脑组织、结肠、心脏、白细胞、肝组织、肺组织、皮肤组织和胃)的ATAC-seq测序数据,每组组织特异染色质开放区域包含2000个长度为2 kb人类参考基因组区域,以染色质开放区域中心为起点,分别向基因组上游和基因组下游各延伸1 kb,共有9×2000个ATAC组织特异染色质开放区域,(3)基于Dnase-seq的组织特异染色质开放区域,从FinaleDB数据库中收集了人体9个不同组织(B淋巴细胞、脑组织、纤维母细胞、肝组织、肺组织、骨髓细胞、小肠细胞、胃和T淋巴细胞)的Dnase-seq测序数据,每组组织特异染色质开放区域包含2000个长度为2 kb人类参考基因组区域,以染色质开放区域中心为起点,分别向基因组上游和基因组下游各延伸1 kb,共有9×2000个ATAC组织特异染色质开放区域;
覆盖度计算和归一化处理包括:将数据接收模块接收的片段信息文件比对至收集的染色质开放区域文件,获得比对至染色质开放区域的序列;对每组2000个组织特异染色质开放区域和/或1个转录因子对应的1000个转录因子结合位点区域,计算每个2 kb区域内的相对位置末端覆盖度,相对位置从-1000到999共2000个位置,相对位置0对应推测的染色质开放区域中心或转录因子结合位点,cfDNA片段的比对到参考基因组的5’端对应的区域内相对位置的上游覆盖度加1,cfDNA片段比对到参考基因组的3’端对应的区域内相对位置的下游覆盖度加1;计算完单个长为2 kb区域的相对位置上游和/或下游覆盖度后,将每组2000个组织特异染色质开放区域和/或每个转录因子对应的1000个转录因子结合位点区域,按照相对位置对齐,叠加每个相对位置的上游和下游覆盖度,对每个相对位置的上游覆盖度和下游覆盖度除以该组区域的所有相对位置覆盖度的总和进行归一化处理;
OCF值计算模块,其被配置为使用经过归一化处理的序列上游和下游末端覆盖度计算OCF值,根据cfDNA在染色质开放区域的覆盖度模式,对每组组织特异区域和/或每个转录因子的转录结合位点区域内的相对位置覆盖度使用如下公式计算方向OCF值:
,
式中,D表示每组组织特异区域和/或每个转录因子的转录结合区域内的经过归一化处理后的相对位置下游方向覆盖度,U表示归一化处理后的相对位置上游方向覆盖度;
癌症预测模型构建模块,用于以OCF值计算模块计算的多个染色质开放区域的OCF值作为特征,依次进行数据归一化处理、主成分分析后选择阳性样本和对照样本中有显著差异的OCF值,使用支持向量机构建癌症预测模型。
实施例3
一种癌症预测装置,如图4所示,包括:
数据接收模块,其被配置为用于接收待测样本的血浆cfDNA全基因组测序数据;
序列预处理模块,其被配置为用于对测序数据中的序列进行质控和过滤处理,并将过滤后的序列比对到参考基因组;
覆盖度计算模块,其被配置为用于计算染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度,并进行归一化处理;
OCF值计算模块,其被配置为使用经过归一化处理的序列上游和下游末端覆盖度计算OCF值;
预测模块,其被配置为使用预先训练好的机器学习模型和染色质开放区域内的OCF值预测患有癌症的概率,该机器学习模型为实施例1或实施例2中种构建的基于cfDNA的癌症预测模型。
Claims (7)
1.一种基于cfDNA的癌症预测模型的构建方法,其特征在于,所述方法基于染色质开放区域内的方向特异cfDNA片段值,所述癌症包括乳腺癌、结直肠癌、食管癌、胃癌、肝癌、肺癌和胰腺癌,具体包括如下步骤:
S1:获取阳性样本和对照样本的血浆cfDNA全基因组测序数据,并比对到人类参考基因组获得片段信息文件;
S2:将S1中的片段信息文件与预设的染色质开放区域文件进行比对,计算染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度,
所述预设的染色质开放区域包括如下多种:
(1)504组转录因子结合位点区域,收集方法包括:从转录因子调控数据库GTRD下载共计共504个转录因子,结合ChIP-seq数据根据结合位点区域的Peak值,对结合位点区域的坐标进行调整,使得结合位点区域大小在2kb,并根据Peak值的大小选取Peak最高的1000个结合位点;
(2)基于ATAC-seq的组织特异染色质开放区域,收集方法包括:从FinaleDB数据库中收集了人体B淋巴细胞、脑组织、结肠、心脏、白细胞、肝组织、肺组织、皮肤组织和胃的9个不同组织的ATAC-seq测序数据,每组组织特异染色质开放区域包含2000个长度为2kb人类参考基因组区域,以染色质开放区域中心为起点,分别向基因组上游和基因组下游各延伸1kb,共有9×2000个ATAC组织特异染色质开放区域;
(3)基于Dnase-seq的组织特异染色质开放区域,收集方法包括:从FinaleDB数据库中收集了人体B淋巴细胞、脑组织、结肠、心脏、白细胞、肝组织、肺组织、皮肤组织和胃的9个不同组织的Dnase-seq测序数据,每组组织特异染色质开放区域包含2000个长度为2kb人类参考基因组区域,以染色质开放区域中心为起点,分别向基因组上游和基因组下游各延伸1kb,共有9×2000个ATAC组织特异染色质开放区域;
所述染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度计算包括:将S1中片段信息文件比对至S2中收集的染色质开放区域文件,获得比对至染色质开放区域的序列;对每组2000个组织特异染色质开放区域和/或每个转录因子对应的1000个转录因子结合位点区域,计算每个2kb区域内的相对位置末端覆盖度,相对位置从-1000到999共2000个位置,相对位置0对应推测的染色质开放区域中心或转录因子结合位点,cfDNA片段的比对到参考基因组的5’端对应的区域内相对位置的上游覆盖度加1,cfDNA片段比对到参考基因组的3’端对应的区域内相对位置的下游覆盖度加1;计算完单个长为2kb区域的相对位置上游和/或下游覆盖度后,将每组2000个组织特异染色质开放区域和/或每个转录因子对应的1000个转录因子结合位点区域,按照相对位置对齐,叠加每个相对位置的上游和下游覆盖度,对每个相对位置的上游覆盖度和下游覆盖度除以该组区域的所有相对位置覆盖度的总和进行归一化处理;
S3:根据S2中染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度,计算染色质开放区域内的方向特异cfDNA片段值;
S4:根据S3中多个染色质开放区域内的方向特异cfDNA片段值,进行数据归一化处理和主成分分析,选择阳性样本和对照样本中有显著差异的OCF值,使用支持向量机构建癌症预测模型;
所述S3染色质开放区域内的方向特异cfDNA片段值计算包括:
对每组组织特异区域和/或每个转录因子的转录结合位点区域内的相对位置覆盖度使用如下公式计算方向特异cfDNA片段值:
式中,OCF值表示方向特异cfDNA片段值,D表示每组组织特异区域和/或每个转录因子的转录结合区域内的经过归一化处理后的相对位置下游方向覆盖度,U表示归一化处理后的相对位置上游方向覆盖度。
2.一种基于cfDNA的构建癌症预测模型的装置,其特征在于,所述装置包括:
数据接收模块,其被配置为用于获取阳性样本和对照样本的血浆cfDNA全基因组测序数据,并比对到人类参考基因组获得片段信息文件;覆盖度计算模块,其被配置为用于计算预先收集的染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度,并进行归一化处理;其中:
预先收集的染色质开放区域,包括以下一种或多种:
(1)504组转录因子结合位点区域,收集方法包括:从转录因子调控数据库GTRD下载共计共504个转录因子,结合ChIP-seq数据根据结合位点区域的Peak值,对结合位点区域的坐标进行调整,使得结合位点区域大小在2kb,并根据Peak值的大小选取Peak最高的1000个结合位点,
(2)基于ATAC-seq的组织特异染色质开放区域,从FinaleDB数据库中收集了人体B淋巴细胞、脑组织、结肠、心脏、白细胞、肝组织、肺组织、皮肤组织和胃9个不同组织的ATAC-seq测序数据,每组组织特异染色质开放区域包含2000个长度为2kb人类参考基因组区域,以染色质开放区域中心为起点,分别向基因组上游和基因组下游各延伸1kb,共有9×2000个ATAC组织特异染色质开放区域,
(3)基于Dnase-seq的组织特异染色质开放区域,从FinaleDB数据库中收集了人体B淋巴细胞、脑组织、纤维母细胞、肝组织、肺组织、骨髓细胞、小肠细胞、胃和T淋巴细胞9个不同组织的Dnase-seq测序数据,每组组织特异染色质开放区域包含2000个长度为2kb人类参考基因组区域,以染色质开放区域中心为起点,分别向基因组上游和基因组下游各延伸1kb,共有9×2000个ATAC组织特异染色质开放区域;
覆盖度计算和归一化处理包括:将数据接收模块接收的片段信息文件比对至收集的染色质开放区域文件,获得比对至染色质开放区域的序列;对每组2000个组织特异染色质开放区域和/或1个转录因子对应的1000个转录因子结合位点区域,计算每个2kb区域内的相对位置末端覆盖度,相对位置从-1000到999共2000个位置,相对位置0对应推测的染色质开放区域中心或转录因子结合位点,cfDNA片段的比对到参考基因组的5’端对应的区域内相对位置的上游覆盖度加1,cfDNA片段比对到参考基因组的3’端对应的区域内相对位置的下游覆盖度加1;计算完单个长为2kb区域的相对位置上游和/或下游覆盖度后,将每组2000个组织特异染色质开放区域和/或每个转录因子对应的1000个转录因子结合位点区域,按照相对位置对齐,叠加每个相对位置的上游和下游覆盖度,对每个相对位置的上游覆盖度和下游覆盖度除以该组区域的所有相对位置覆盖度的总和进行归一化处理;
OCF值计算模块,其被配置为使用经过归一化处理的序列上游和下游末端覆盖度计算OCF值,根据cfDNA在染色质开放区域的覆盖度模式,对每组组织特异区域和/或每个转录因子的转录结合位点区域内的相对位置覆盖度使用如下公式计算方向OCF值:
式中,D表示每组组织特异区域和/或每个转录因子的转录结合区域内的经过归一化处理后的相对位置下游方向覆盖度,U表示归一化处理后的相对位置上游方向覆盖度;癌症预测模型构建模块,用于以OCF值计算模块计算的多个染色质开放区域的OCF值作为特征,依次进行数据归一化处理、主成分分析后选择阳性样本和对照样本中有显著差异的OCF值,使用支持向量机构建癌症预测模型。
3.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现权利要求1所述的基于cfDNA的癌症预测模型的构建方法。
4.一种计算机存储介质,其特征在于,其上存储有计算机程序,其中,程序被处理器执行时实现权利要求1所述的基于cfDNA的癌症预测模型的构建方法。
5.权利要求1所述的基于cfDNA的癌症预测模型的构建方法构建的癌症预测模型。
6.权利要求1所述基于cfDNA的癌症预测模型的构建方法,或权利要求2所述的基于cfDNA的构建癌症预测模型的装置,或权利要求3所述电子设备,或权利要求4所述计算机存储介质,或权利要求5所述的基于cfDNA的癌症预测模型在制备癌症预测装置中的应用。
7.一种癌症预测装置,其特征在于,包括:
数据接收模块,其被配置为用于接收待测样本的血浆cfDNA全基因组测序数据;
序列预处理模块,其被配置为用于对测序数据中的序列进行质控和过滤处理,并将过滤后的序列比对到参考基因组;
覆盖度计算模块,其被配置为用于计算染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度,并进行归一化处理;
OCF值计算模块,其被配置为使用经过归一化处理的序列上游和下游末端覆盖度计算OCF值;
预测模块,其被配置为使用预先训练好的机器学习模型和染色质开放区域内的OCF值预测患有癌症的概率,所述机器学习模型为权利要求5所述的基于cfDNA的癌症预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310575289.9A CN116312774B (zh) | 2023-05-22 | 2023-05-22 | 基于cfDNA的癌症预测模型及其构建方法和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310575289.9A CN116312774B (zh) | 2023-05-22 | 2023-05-22 | 基于cfDNA的癌症预测模型及其构建方法和应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116312774A CN116312774A (zh) | 2023-06-23 |
CN116312774B true CN116312774B (zh) | 2024-03-15 |
Family
ID=86799988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310575289.9A Active CN116312774B (zh) | 2023-05-22 | 2023-05-22 | 基于cfDNA的癌症预测模型及其构建方法和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116312774B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110739027A (zh) * | 2019-10-23 | 2020-01-31 | 深圳吉因加医学检验实验室 | 一种基于染色质区域覆盖深度的癌症组织定位方法及系统 |
CN111254194A (zh) * | 2020-01-13 | 2020-06-09 | 东南大学 | 基于cfDNA的测序及数据分析的癌症相关生物标记及其在cfDNA样品分类中的应用 |
CN112292458A (zh) * | 2018-05-03 | 2021-01-29 | 香港中文大学 | 测量无细胞混合物特性的尺寸标记的优选末端和识别方向的分析 |
CN115019952A (zh) * | 2022-05-09 | 2022-09-06 | 深圳湾实验室 | 一种基于游离dna的癌症诊断模型和应用 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220259647A1 (en) * | 2019-07-09 | 2022-08-18 | The Translational Genomics Research Institute | METHODS OF DETECTING DISEASE AND TREATMENT RESPONSE IN cfDNA |
-
2023
- 2023-05-22 CN CN202310575289.9A patent/CN116312774B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112292458A (zh) * | 2018-05-03 | 2021-01-29 | 香港中文大学 | 测量无细胞混合物特性的尺寸标记的优选末端和识别方向的分析 |
CN110739027A (zh) * | 2019-10-23 | 2020-01-31 | 深圳吉因加医学检验实验室 | 一种基于染色质区域覆盖深度的癌症组织定位方法及系统 |
CN111254194A (zh) * | 2020-01-13 | 2020-06-09 | 东南大学 | 基于cfDNA的测序及数据分析的癌症相关生物标记及其在cfDNA样品分类中的应用 |
CN115019952A (zh) * | 2022-05-09 | 2022-09-06 | 深圳湾实验室 | 一种基于游离dna的癌症诊断模型和应用 |
Also Published As
Publication number | Publication date |
---|---|
CN116312774A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021132633A1 (ja) | Aiを用いた病理診断支援方法、及び支援装置 | |
AU2022202587A1 (en) | Methods of determining tissues and/or cell types giving rise to cell-free DNA, and methods of identifying a disease or disorder using same | |
CN106650312B (zh) | 一种用于循环肿瘤dna拷贝数变异检测的装置 | |
CN112086129B (zh) | 预测肿瘤组织cfDNA的方法及系统 | |
CN109637590A (zh) | 一种基于基因组测序的微卫星不稳定性检测系统及方法 | |
KR20190036494A (ko) | Dna 복제수 변이 기반의 암 종 예측 방법 | |
CN110452981A (zh) | 基于外周血的肺癌早筛用的试剂盒 | |
CN109411015A (zh) | 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质 | |
CN114171115A (zh) | 一种差异性甲基化区域筛选方法及其装置 | |
CN112599197B (zh) | 一种基于血浆dna片段分析评估患癌风险的方法和装置 | |
CN113257360B (zh) | 癌症筛查模型、癌症筛查模型的构建方法及构建装置 | |
CN115424666B (zh) | 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统 | |
CN110055331A (zh) | 一种用于膀胱癌辅助诊断或筛查的试剂盒及其应用 | |
CN116312774B (zh) | 基于cfDNA的癌症预测模型及其构建方法和应用 | |
CN110004229A (zh) | 多基因作为egfr单克隆抗体类药物耐药标志物的应用 | |
CN116356001B (zh) | 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法 | |
CN114999653B (zh) | 一种非小细胞肺癌免疫治疗疗效的预测模型的训练方法以及预测装置 | |
CN107868829B (zh) | 评估脊索瘤术后复发风险的组合试剂、试剂盒及其应用 | |
Wick | Metastases to bones | |
CN112396616A (zh) | 一种基于组织形态分析的骨肉瘤复发风险预测模型 | |
CN113362897A (zh) | 基于核小体分布特征的肿瘤标志物筛选方法及应用 | |
CN109841265A (zh) | 使用片段化模式确定血浆游离核酸分子组织来源的方法和系统及应用 | |
CN111583992B (zh) | Rna水平融合基因突变导致肿瘤的负荷分析系统和方法 | |
CN103865980B (zh) | Met基因的应用及检测胃肠道间质瘤的试剂盒 | |
KR102491322B1 (ko) | 암 진단을 위한 다중 분석 예측 모델의 제조 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |