CN113421608A - 肝癌早筛模型的构建方法、检测装置以及计算机可读取介质 - Google Patents
肝癌早筛模型的构建方法、检测装置以及计算机可读取介质 Download PDFInfo
- Publication number
- CN113421608A CN113421608A CN202110753791.5A CN202110753791A CN113421608A CN 113421608 A CN113421608 A CN 113421608A CN 202110753791 A CN202110753791 A CN 202110753791A CN 113421608 A CN113421608 A CN 113421608A
- Authority
- CN
- China
- Prior art keywords
- model
- liver cancer
- reads
- screening
- early
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000007270 liver cancer Diseases 0.000 title claims abstract description 49
- 208000014018 liver neoplasm Diseases 0.000 title claims abstract description 48
- 238000012216 screening Methods 0.000 title claims abstract description 35
- 238000010276 construction Methods 0.000 title claims abstract description 13
- 238000001514 detection method Methods 0.000 title abstract description 11
- 210000000349 chromosome Anatomy 0.000 claims abstract description 14
- 238000012163 sequencing technique Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 8
- 239000012634 fragment Substances 0.000 abstract description 25
- 238000009826 distribution Methods 0.000 abstract description 19
- 208000019425 cirrhosis of liver Diseases 0.000 abstract description 7
- 238000003745 diagnosis Methods 0.000 abstract description 4
- 230000035945 sensitivity Effects 0.000 abstract description 4
- 230000004907 flux Effects 0.000 abstract description 2
- 206010028980 Neoplasm Diseases 0.000 description 8
- 201000011510 cancer Diseases 0.000 description 6
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 6
- 102000013529 alpha-Fetoproteins Human genes 0.000 description 5
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 239000008280 blood Substances 0.000 description 5
- 210000004369 blood Anatomy 0.000 description 5
- 238000013467 fragmentation Methods 0.000 description 4
- 238000006062 fragmentation reaction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 3
- 206010016654 Fibrosis Diseases 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000011528 liquid biopsy Methods 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 208000032023 Signs and Symptoms Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000010100 anticoagulation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 208000019423 liver disease Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/20—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Library & Information Science (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及肝癌早筛模型的构建方法、检测装置以及计算机可读取介质。对170例对照人群和192例肝癌患者的WGS cfDNA读段长度进行统计,发现在总片段(40‑300bp),短片段(40‑80bp)和超长片段(200‑300bp)的数量在两组间存在差异;同时以染色体长短臂统计不同长度片段的数量,在两组间也存在显著差异。本发明首次基于血浆cfDNA高通量低深度测序提供了DNA片段大小片单分布和末端序列占比与肝癌关系的诊断模型,该模型不仅能够诊断早期肝癌还能够区分肝硬化,具有无创检测,通量低,检测特异性和敏感性高的有点。
Description
技术领域
本发明涉及一种肝癌(Hepatocellular Carcinoma,HCC)早筛,属于分子生物医学技术领域。
背景技术
肝癌是指发生于肝脏的恶性肿瘤,全世界每年新发肝癌患者约六十万,发病率居全球第五,死亡率居第二。肝癌起病隐匿,肝炎-癌转换进程长,而且早期无明显症状、体征,大部分患者确诊时已是中晚期,早期诊断率低。我国中晚期肝癌患者生存期不足2年,然而通过早期干预,肝癌的五年生存率可达到90%。
肝癌仍缺乏有效的筛查手段,传统早筛手段的检测性能和可及性制约了临床筛查的有效实施。目前肝癌筛查方式主要包括血液学AFP(甲胎蛋白)检测和影像学检查。AFP联合超声的筛查方法对病人依从性要求较高,可及性远远无法达到临床要求,同时对早期肝癌的诊断灵敏度不足,制约了目前临床筛查方法的有效实施;影像学检测仍存在一定的局限性,也无法满足筛查的需求,因此我国迫切需要开发一种适用于广泛人群的有效、经济、实用的筛查手段。
发明内容
本发明提供了一种对血浆样本cfDNA进行WGS测序,通过对高通量测序结果进行肝癌健康人差异DNA片段高分辨率长度分布(high resolution fragmentation sizedistribution)分析,构建模型,实现了对肝癌无创精准诊断的目的。
一种肝癌早筛标模型的构建方法,包括如下步骤:
步骤1,对阳性组和对照组的样本进行cfDNA的提取并测序,获得读段数据;
步骤2,将读段数据结果比对至参考基因组;
步骤3,获得在参考基因组上的不同窗口范围内的不同长度区间内的读段的数量,作为初始特征值;
步骤4,筛选出初始特征值中在阳性组和对照组的样本之间存在显著性差异的特征值,作为模型特征向量;
步骤5,将阳性组和对照组的样本的模型特征向量输入模型,并以患肝癌概率作为模型输出值,对模型进行训练,获得早筛模型。
步骤3中,包括:
步骤3-1,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量;
步骤3-2,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量;
步骤3-3,将步骤3-1和3-2中获得的数据共同作为初始特征值。
所述的短读段是指长度40-80bp,所述的超长读段数量是200-300bp;全部读段是指长度在40-300bp范围。
所述的步骤3-1中窗口的大小范围是2-7Mb。
所述的步骤3-2中不同长度梯度区间是指在40-300bp范围内以8-12bp步长递增而得到的不同长度梯度范围。
所述的读段数量经过了标准化处理。
一种肝癌早筛标模型的构建装置,包括:
测序模块,用于对阳性组和对照组的样本进行cfDNA的提取并测序,获得读段数据;
对比模块,用于将读段数据结果比对至参考基因组;
特征值获取模块,用于获得在参考基因组上的不同窗口范围内的不同长度区间内的读段的数量,作为初始特征值;
筛选模块,用于筛选出初始特征值中在阳性组和对照组的样本之间存在显著性差异的特征值,作为模型特征向量;
模型构建模块,用于将阳性组和对照组的样本的模型特征向量输入模型,并以患肝癌概率作为模型输出值,对模型进行训练,获得早筛模型。
所述的特征值获取模块中包括:
第一读段数量统计模块,用于将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量;
第二读段数量统计模块,用于分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量;
合并模块,用于将第一读段数量统计模块和第二读段数量统计模块中获得的数据共同作为初始特征值。
一种计算机可读取介质,所述可读取介质包括存储的程序,在所述程序运行时控制所述可读取介质所在设备执行所述的肝癌早筛标模型的构建方法。
有益效果
(1)肝癌早期ctDNA浓度高于其他癌种,肝细胞癌(HCC)患者血ctDNA含量远高于健康人和普通肝病患者,并且这种差别从极早期就可以显现出来,即使是没有实体肿瘤或是肿瘤非常小的患者,血液中ctDNA的含量也显著高于普通水平,非常适合采用基于ctDNA检测的液体活检技术。根据目前肝癌早筛临床研究数据来看,液体活检肝癌早筛产品的敏感性和特异性均超过90%,具有很高的临床价值。
(2)对170例对照人群和192例肝癌患者的WGS cfDNA读段长度进行统计,发现在总片段(40-300bp),短片段(40-80bp)和超长片段(200-300bp)的数量在两组间存在差异;同时以染色体长短臂统计不同长度片段的数量,在两组间也存在显著差异。
(3)本发明首次基于血浆cfDNA高通量低深度测序提供了DNA片段大小片单分布和末端序列占比与肝癌关系的诊断模型,该模型不仅能够诊断早期肝癌还能够区分肝硬化,具有无创检测,通量低,检测特异性和敏感性高的有点。
附图说明
图1是模型构建过程示意图;
图2是肝癌患者与对照组DNA片段不同长度下的统计;
图3是肝癌患者与对照组DNA片段120bp以下的统计;
图4是肝癌患者与对照组间前50 5Mb窗口DNA全部读段占比分布特征的差异热图;
图5是肝癌患者与对照组间前50 5Mb窗口DNA短读段占比分布特征的差异热图;
图6是肝癌患者与对照组间前50 5Mb窗口DNA超长读段占比分布特征的差异热图;
图7是肝癌患者与对照组间前50染色体臂窗口间不同长度读段占比特征的差异热图;
图8是在验证集和测试集上的分类器的预测结果图;
图9是在验证集上的分类器的预测结果图;
图10是在测试集上的分类器的预测结果图;
图11是在验证集和测试集上的AUC曲线;
图12是在验证集上的AUC曲线;
图13是在测试集上的AUC曲线;
图14是肝癌-非肝癌组不同单一DNA片段统计方法下的AUC曲线;
图15是肝癌-非肝癌组不同组合DNA片段统计方法下的AUC曲线;
图16是肝癌-肝硬化组不同单一DNA片段统计方法下的AUC曲线;
图17是肝癌-肝硬化组不同组合DNA片段统计方法下的AUC曲线;
具体实施方式
本发明中的计算方法详述如下:
本发明首先需要进行从血液样品中对cfDNA的提取、建库、测序等步骤。这里的提取、建库方法没有特别的限定,可以从现有技术中的提取方法中进行调整。这里的测序过程中可以采用现有技术中的测序技术获得cfDNA的碱基信息。
本发明中的模型构建过程采用的数据集情况如下:
血浆cfDNA样本的提取和测序方法
采用紫色血液收集管(EDTA抗凝管)收集患者8ml全血样本,及时离心分离血浆(2小时内),转运至实验室后,血浆样本采用QIAGEN血浆DNA提取试剂盒按照说明书进行ctDNA提取。对采集到的cfDNA样本建库后,进行WGS~2乘测序。在获得了下机数据之后,将数据比对至人类参考基因组上,获得相应的读段的碱基数据信息。
数据处理
本发明中的标志数据,主要是利用高分辨率DNA片段大小分布(high resolutionfragmentation size distribution)进行机器学习建立预测模型,从而区分非肝癌患者(健康人,肝硬化患者)与肝癌患者。
对于DNA片段大小分布,其反映的是cfDNA读段的长度大小的分布特征。通过对比190例肝癌患者和170例对照人群的cfDNA读段的长度,发现40-80bp和200-300bp间的片段数量在两组间存在差异,可以作为区分特征。
cfDNA读段长度数据是通过如下方法获取得到的:在比对好的bam当中,记录了每一条读段的质量,长度和比对位置信息,人类参考基因组选用来自加利福尼亚大学克鲁兹分校(University of California,Santa Cruz,UCSC)提供的hg19序列。将人类参考基因组按照5Mb长度,切割成572个窗口,分别统计每一个窗口中的全部读段数量(40-300bp),短读段数量(40-80bp)和超长读段数量(200-300bp)。根据所有窗口中各种读段数量统计结果,分别对每种读段数量进行标准化换算,即标准化值=(原始值–平均值)/标准差。由此得到了572组不同长度的读段数量的数集。
同时,为获得高分辨率读段结果,以人类参考基因组各染色体长短臂41个区域作为窗口,如下所示:
chr1_p | chr4_q | chr8_p | chr11_q | chr16_q | chr20_p |
chr1_q | chr5_p | chr8_q | chr12_p | chr17_p | chr20_q |
chr2_p | chr5_q | chr9_p | chr12_q | chr17_q | chr21_q |
chr2_q | chr6_p | chr9_q | chr13_q | chr18_p | chr22_q |
chr3_p | chr6_q | chr10_p | chr14_q | chr18_q | chrX_p |
chr3_q | chr7_p | chr10_q | chr15_q | chr19_p | chrX_q |
chr4_p | chr7_q | chr11_p | chr16_p | chr19_q |
将40-300bp的片段,以10bp递增,划分27个长度梯度(例,chr1的1q臂上40-49bp,50-59bp……),对每个长度梯度在各长短臂窗口内片段数量进行统计,并进行标准化换算,从而获得高分辨率DNA片段大小分布结果共计2823个特征结果(2823=572个全部读段标准化结果+572个短读段标准化结果+572个超长独段标准化结果+41*27个长度梯度标准化结果)。
在获得192例肝癌患者和170例对照人群的高分辨率DNA数据信息后,将高分辨率DNA片段大小分布统计结果作为输入值(每个样本的输入向量中包含有2823个读段占比数值构成的特征值),通过深度网络学习模型法判断待测样本与正常样本进行分类;深度学习基于多层前馈人工神经网络,该神经网络使用反向传播进行了随机梯度下降的训练。该网络可以包含大量隐藏层,这些隐藏层由具有双曲正切,矫正和最大功率激活功能的神经元组成。诸如自适应学习率,速率退火,动量训练,辍学,L1或L2正则化,检查点和网格搜索等高级功能可实现较高的预测准确性。在学习训练的时候,每个计算节点都使用多线程(异步)在其本地数据上训练全局模型参数的副本,并通过网络上的模型平均来定期为全局模型做出贡献。前馈人工神经网络(ANN)模型,也称为深层神经网络(DNN)或多层感知器(MLP),是深层神经网络的最常见类型,也是本专利用来进行深度学习的类型。
经过训练后,深度网络学习模型将2823高分辨率DNA大小分布信息的区分贡献值进行排序,共筛选出926种两组间差异显著的特征(全部读段数量分布208,短读段数量分布244个,超长读段数量分布177个,染色体臂读段分布297个)。将每种分布前50的特征进行差异化分析,如heatmap所示,两组在每种分布的50种特征明显不同;
染色体臂上的具有显著性区别的特征如下表所示,其中chr代表染色体编号,p/q分别代表短/长臂,范围值代表碱基数量区间。
染色体/长短臂 | 碱基数 | 染色体/长短臂 | 碱基数 |
chr19_q | 210-219 | chr7_p | 220-229 |
chr19_p | 200-209 | chr8_q | 170-179 |
chr18_p | 170-179 | chr7_q | 290-299 |
chr19_p | 170-179 | chr17_p | 200-209 |
chr1_p | 160-169 | chr1_q | 290-299 |
chrX_q | 140-149 | chr2_q | 170-179 |
chrX_q | 130-139 | chr17_q | 290-299 |
chr20_p | 170-179 | chr22_q | 160-169 |
chr18_p | 180-189 | chr1_q | 230-239 |
chr1_p | 80-89 | chr8_p | 210-219 |
chr12_q | 140-149 | chr20_p | 210-219 |
chr16_q | 220-229 | chr12_q | 240-249 |
chr10_q | 230-239 | chr1_q | 260-269 |
chr3_p | 230-239 | chr8_q | 140-149 |
chr9_q | 160-169 | chr15_q | 220-229 |
chr17_q | 220-229 | chr16_q | 290-299 |
chr18_p | 190-199 | chr22_q | 140-149 |
chr12_p | 290-299 | chr19_p | 160-169 |
chr7_p | 290-299 | chr4_q | 230-239 |
chr1_p | 170-179 | chr1_q | 270-279 |
chr11_q | 280-289 | chr12_p | 210-219 |
chr20_q | 210-219 | chr9_q | 220-229 |
chr11_p | 290-299 | chr12_q | 230-239 |
chr16_q | 210-219 | chr5_p | 210-219 |
chr1_p | 240-249 | chr18_p | 200-209 |
同时,在染色体臂读段分布的热图中可见,部分特征在肝癌患者与肝硬化患者间有明显差异。
以上模型得到的结果如下表所示:
在不同的模型输入向量的情况下,模型预测性能如下所示:
全部读段,短读段,超长读段和染色体臂读段分布分别单独训练均能一定程度区分非癌患者与癌症患者,联合使用作为高分辨率DNA片段大小分布结果进行训练预测效果最佳,AUC最高可达0.995。同时,联合输入向量对于区分肝癌患者与肝硬化患者的区分效果也更好,AUC最高可达0.985。
Claims (8)
1.一种肝癌早筛标模型的构建方法,其特征在于,包括如下步骤:
步骤1,对阳性组和对照组的样本进行cfDNA的提取并测序,获得读段数据;
步骤2,将读段数据结果比对至参考基因组;
步骤3,获得在参考基因组上的不同窗口范围内的不同长度区间内的读段的数量,作为初始特征值;
步骤4,筛选出初始特征值中在阳性组和对照组的样本之间存在显著性差异的特征值,作为模型特征向量;
步骤5,将阳性组和对照组的样本的模型特征向量输入模型,并以患肝癌概率作为模型输出值,对模型进行训练,获得早筛模型。
2.根据权利要求1所述的肝癌早筛标模型的构建方法,其特征在于,步骤3中,包括:
步骤3-1,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量;
步骤3-2,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量;
步骤3-3,将步骤3-1和3-2中获得的数据共同作为初始特征值。
3.根据权利要求2所述的肝癌早筛标模型的构建方法,其特征在于,所述的短读段是指长度40-80bp,所述的超长读段数量是200-300bp;全部读段是指长度在40-300bp范围。
4.根据权利要求2所述的肝癌早筛标模型的构建方法,其特征在于,所述的步骤3-1中窗口的大小范围是2-7Mb。
5.根据权利要求2所述的肝癌早筛标模型的构建方法,其特征在于,所述的步骤3-2中不同长度梯度区间是指在40-300bp范围内以8-12bp步长递增而得到的不同长度梯度范围。
6.根据权利要求2所述的肝癌早筛标模型的构建方法,其特征在于,所述的读段数量经过了标准化处理。
7.一种肝癌早筛标模型的构建装置,其特征在于,包括:
测序模块,用于对阳性组和对照组的样本进行cfDNA的提取并测序,获得读段数据;
对比模块,用于将读段数据结果比对至参考基因组;
特征值获取模块,用于获得在参考基因组上的不同窗口范围内的不同长度区间内的读段的数量,作为初始特征值;
筛选模块,用于筛选出初始特征值中在阳性组和对照组的样本之间存在显著性差异的特征值,作为模型特征向量;
模型构建模块,用于将阳性组和对照组的样本的模型特征向量输入模型,并以患肝癌概率作为模型输出值,对模型进行训练,获得早筛模型。
8.一种计算机可读取介质,所述可读取介质包括存储的程序,其特征在于,在所述程序运行时控制所述可读取介质所在设备执行权利要求1所述的肝癌早筛标模型的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110753791.5A CN113421608B (zh) | 2021-07-03 | 2021-07-03 | 肝癌早筛模型的构建方法、检测装置以及计算机可读取介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110753791.5A CN113421608B (zh) | 2021-07-03 | 2021-07-03 | 肝癌早筛模型的构建方法、检测装置以及计算机可读取介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113421608A true CN113421608A (zh) | 2021-09-21 |
CN113421608B CN113421608B (zh) | 2023-12-01 |
Family
ID=77721370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110753791.5A Active CN113421608B (zh) | 2021-07-03 | 2021-07-03 | 肝癌早筛模型的构建方法、检测装置以及计算机可读取介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113421608B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115287353A (zh) * | 2022-01-24 | 2022-11-04 | 南京世和医疗器械有限公司 | 一种肝癌血浆游离dna来源的甲基化标志物及用途 |
CN115558716A (zh) * | 2022-09-29 | 2023-01-03 | 昂凯生命科技(苏州)有限公司 | 一种用于预测癌症的cfDNA片段特征组合、系统及应用 |
CN115831369A (zh) * | 2023-01-18 | 2023-03-21 | 北京求臻医疗器械有限公司 | 早筛数据处理、构建早筛模型的方法、装置、设备及介质 |
WO2023236058A1 (zh) * | 2022-06-07 | 2023-12-14 | 深圳华大生命科学研究院 | 肺结节筛查模型的组建方法和装置以及肺结节筛查方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103088433A (zh) * | 2011-11-02 | 2013-05-08 | 深圳华大基因科技有限公司 | 全基因组甲基化高通量测序文库的构建方法及其应用 |
CN104745718A (zh) * | 2015-04-23 | 2015-07-01 | 北京嘉宝仁和医疗科技有限公司 | 一种检测人类胚胎染色体微缺失和微重复的方法 |
CN105525357A (zh) * | 2014-09-30 | 2016-04-27 | 深圳华大基因股份有限公司 | 一种测序文库的构建方法及试剂盒和应用 |
CN105986008A (zh) * | 2015-01-27 | 2016-10-05 | 深圳华大基因科技有限公司 | Cnv检测方法和装置 |
CN111243673A (zh) * | 2019-12-25 | 2020-06-05 | 北京橡鑫生物科技有限公司 | 肿瘤筛查模型、其构建方法和装置 |
US20200185059A1 (en) * | 2018-12-10 | 2020-06-11 | Grail, Inc. | Systems and methods for classifying patients with respect to multiple cancer classes |
CN112397148A (zh) * | 2019-08-23 | 2021-02-23 | 武汉未来组生物科技有限公司 | 序列比对方法、序列校正方法及其装置 |
-
2021
- 2021-07-03 CN CN202110753791.5A patent/CN113421608B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103088433A (zh) * | 2011-11-02 | 2013-05-08 | 深圳华大基因科技有限公司 | 全基因组甲基化高通量测序文库的构建方法及其应用 |
CN105525357A (zh) * | 2014-09-30 | 2016-04-27 | 深圳华大基因股份有限公司 | 一种测序文库的构建方法及试剂盒和应用 |
CN105986008A (zh) * | 2015-01-27 | 2016-10-05 | 深圳华大基因科技有限公司 | Cnv检测方法和装置 |
CN104745718A (zh) * | 2015-04-23 | 2015-07-01 | 北京嘉宝仁和医疗科技有限公司 | 一种检测人类胚胎染色体微缺失和微重复的方法 |
US20200185059A1 (en) * | 2018-12-10 | 2020-06-11 | Grail, Inc. | Systems and methods for classifying patients with respect to multiple cancer classes |
CN112397148A (zh) * | 2019-08-23 | 2021-02-23 | 武汉未来组生物科技有限公司 | 序列比对方法、序列校正方法及其装置 |
CN111243673A (zh) * | 2019-12-25 | 2020-06-05 | 北京橡鑫生物科技有限公司 | 肿瘤筛查模型、其构建方法和装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115287353A (zh) * | 2022-01-24 | 2022-11-04 | 南京世和医疗器械有限公司 | 一种肝癌血浆游离dna来源的甲基化标志物及用途 |
CN115287353B (zh) * | 2022-01-24 | 2023-10-27 | 南京世和医疗器械有限公司 | 一种肝癌血浆游离dna来源的甲基化标志物及用途 |
WO2023236058A1 (zh) * | 2022-06-07 | 2023-12-14 | 深圳华大生命科学研究院 | 肺结节筛查模型的组建方法和装置以及肺结节筛查方法和装置 |
CN115558716A (zh) * | 2022-09-29 | 2023-01-03 | 昂凯生命科技(苏州)有限公司 | 一种用于预测癌症的cfDNA片段特征组合、系统及应用 |
CN115558716B (zh) * | 2022-09-29 | 2023-11-03 | 南京医科大学 | 一种用于预测癌症的cfDNA片段特征组合、系统及应用 |
CN115831369A (zh) * | 2023-01-18 | 2023-03-21 | 北京求臻医疗器械有限公司 | 早筛数据处理、构建早筛模型的方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113421608B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113421608B (zh) | 肝癌早筛模型的构建方法、检测装置以及计算机可读取介质 | |
CN113355421B (zh) | 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质 | |
CN113903398A (zh) | 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质 | |
CN111128299A (zh) | 一种结直肠癌预后显著相关ceRNA调控网络的构建方法 | |
US20220336043A1 (en) | cfDNA CLASSIFICATION METHOD, APPARATUS AND APPLICATION | |
CN111564177B (zh) | 基于dna甲基化的早期非小细胞肺癌复发模型构建方法 | |
CN113140258A (zh) | 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法 | |
CN116153420B (zh) | 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法 | |
CN111676291B (zh) | 一种用于肺癌患病风险评估的miRNA标志物 | |
CN111370061A (zh) | 基于蛋白标记物与人工智能的癌症筛查方法 | |
CN113862351B (zh) | 体液样本中鉴定胞外rna生物标志物的试剂盒及方法 | |
CN115896242A (zh) | 一种基于外周血免疫特征的癌症智能筛查模型及方法 | |
CN109870533B (zh) | 一种基于分子地图的生物样本快速智能识别方法 | |
CN114150066A (zh) | 用于肺癌诊断的试剂盒、装置及方法 | |
CN117904289A (zh) | 一种单碱基突变的肺癌早筛标志物、试剂盒、检测装置和计算机可读介质 | |
CN115798569A (zh) | 一种结直肠癌患者组织微生物特征和预后的预测方法及其装置 | |
Khalilabad et al. | Fully automatic classification of breast cancer microarray images | |
US20240153588A1 (en) | Systems and methods for identifying microbial biosynthetic genetic clusters | |
Livesey et al. | Transforming RNA-Seq gene expression to track cancer progression in the multi-stage early to advanced-stage cancer development | |
KR20220133516A (ko) | 인공지능 기반 무세포 dna의 종양 유래 변이 검출 방법 및 이를 이용한 암 조기 진단 방법 | |
US20140297194A1 (en) | Gene signatures for detection of potential human diseases | |
CN115678999B (zh) | 标志物在肺癌复发预测中的应用和预测模型构建方法 | |
CN110993092A (zh) | 一种基于n-糖指纹图谱和大数据算法鉴别肝硬化及肝癌的方法 | |
CN116434830B (zh) | 基于ctDNA多位点甲基化的肿瘤病灶位置识别方法 | |
CN118366547B (zh) | 基因标志物在多癌种早筛中的应用、早筛模型构建方法以及检测装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |