CN115274124B - 一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化方法 - Google Patents
一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化方法 Download PDFInfo
- Publication number
- CN115274124B CN115274124B CN202210881391.7A CN202210881391A CN115274124B CN 115274124 B CN115274124 B CN 115274124B CN 202210881391 A CN202210881391 A CN 202210881391A CN 115274124 B CN115274124 B CN 115274124B
- Authority
- CN
- China
- Prior art keywords
- classification model
- data
- dmr
- panel
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 112
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 75
- 230000008685 targeting Effects 0.000 title claims abstract description 59
- 238000012216 screening Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000005457 optimization Methods 0.000 title claims abstract description 19
- 201000011510 cancer Diseases 0.000 claims description 78
- 230000011987 methylation Effects 0.000 claims description 18
- 238000007069 methylation reaction Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 16
- 238000013461 design Methods 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 238000011144 upstream manufacturing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000003211 malignant effect Effects 0.000 claims description 4
- 108091029430 CpG site Proteins 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000013102 re-test Methods 0.000 claims description 2
- 238000003766 bioinformatics method Methods 0.000 abstract 1
- 210000000265 leukocyte Anatomy 0.000 description 14
- 241000894007 species Species 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000009191 jumping Effects 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 3
- 230000034994 death Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000007067 DNA methylation Effects 0.000 description 2
- 235000008694 Humulus lupulus Nutrition 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 201000007270 liver cancer Diseases 0.000 description 2
- 208000014018 liver neoplasm Diseases 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 238000001369 bisulfite sequencing Methods 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000011528 liquid biopsy Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 238000012164 methylation sequencing Methods 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本申请涉及生物信息学分析领域,具体提供一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化方法和系统,该方法实现基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化,一方面可以根据实时靶向Panel数据动态优化分类模型,另一方面也可以根据分类模型结果动态优化靶向Panel,综合提高肿瘤早筛的准确率。
Description
技术领域
本申请涉及生信分析技术领域,具体涉及一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化方法及系统。
技术背景
2020年全球新发癌症病例1929万例,2020 年全球癌症死亡病例996万例。癌症不久将成为全球死亡的主要原因,虽然开发更加有效的治疗方案是有必要的,但是这也只能延长患者几个月的生存期,因此肿瘤早筛成为了必然的选择。肿瘤早筛不仅可以降低癌症死亡率,而且可以提高治疗的成功率,降低医疗成本和治疗难度,提高患者生命质量。
DNA甲基化是一种重要的遗传表观修饰,参与许多生物过程和疾病。研究表明,早期阶段的癌症患者没有临床表现,但癌细胞的甲基化模式已经发生了异常改变,并且通过细胞凋亡或坏死后释放到血浆、尿液等体液中,成为血浆中细胞游离DNA(Cell-free DNAs,cfDNA) 中的一部分。随着全基因组甲基化测序(Whole Genome Bisulfite Sequencing,WGBS)技术的发展,目前已经能够在单碱基对分辨率下进行DNA甲基化的全基因组测量,从而实现高精确度的甲基化水平分析。因此,理想情况下,基于cfDNA甲基化的液体活检技术可以作为一种非侵入的肿瘤早筛工具。
目前主流的基于cfDNA甲基化的肿瘤早筛技术存在以下的缺陷和不足:
1、传统的cfDNA甲基化靶向Panel设计一般在项目完成后就不再更改了,例如Grail的 Galleri等,或者只有在项目需要扩展功能时才会重新设计靶向Panel,整个过程都无法实现靶向Panel的动态调整,造成项目升级时需要消耗大量的时间和资源。另一方面,在前期设计靶向Panel时,有限的肿瘤组织甲基化数据会限制筛选出来的靶向Panel区域的精准性,造成靶向Panel除了包含这批数据有效信息的区域外还可能会包含部分冗余的区域,此外也会遗漏一些这批数据中没有包含的重要区域。传统靶向Panel设计方法不仅没有充分利用下游分析中的分类模型来对靶向Panel区域进行优化,而且会由于靶向Panel设计区域的限制导致下游数据分析中的性能瓶颈。
2、传统的cfDNA甲基化数据在下游分析中,分类模型普遍采用机器学习模型,例如Grail 的Galleri采用的是逻辑回归模型,这会导致一个普遍存在的问题,即随着生产环境中数据的快速增长,特征多样性随之增加,但是分类模型的性能会面临退化现象,不再满足实际应用的需求。另外,当模型性能不佳需要优化时,分类模型面临着大量的重复训练工作,费时费力,无法进行增量学习限制了模型的泛化能力。同时,受制于上游分析中靶向Panel设计区域的限制,分类模型的性能瓶颈普遍存在。
3、当泛癌早筛技术需要新增癌种时,传统的cfDNA甲基化产品因为Panel设计区域的限制需要重新设计Panel,以便新Panel包含新增癌种的异质性区域使下游分析中的分类模型能够区分新增癌种。这种Panel设计思路会造成Panel包含区域逐渐变大,随之而来的是生产成本的增加。除此之外,下游分析中分类模型也需要重新训练以便提高新分类模型对新增癌种的分类性能,这个过程中需要消耗大量的时间、人力成本和服务器资源等。
综上所述,现有的基于cfDNA甲基化的肿瘤早筛技术普通存在靶向Panel优化难,分类模型泛化能力不足、新增癌种困难重重的特点。因此,本申请提出了一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化方法,可以轻松实现靶向Panel和分类模型的良性互动,同时为泛癌早筛技术新增癌种提供了一种更为简单快捷的方式。
鉴于此,提出本申请。
发明内容
为解决上述技术问题,本申请提出一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化方法,本方法可以实现基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化,一方面可以根据实时的靶向Panel数据动态优化分类模型,另一方面也可以根据分类模型结果动态优化靶向Panel。两者互惠互利,相辅相成,综合提高肿瘤早筛的准确率。
具体的,本申请提出如下技术方案:
本申请首先提供一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的构建方法,所述方法包括如下步骤:
1)组织样本收集:收集恶性肿瘤组织样本;
2)获得WGBS数据:WGBS测序得到相应WGBS数据;
3)设计初始靶向Panel:
a、根据人类基因组上CpG位点的位置将其上下游区域划分为预选区域;
b、计算WGBS数据在预选区域上的统计量;
c、根据恶性肿瘤组织样本与其癌旁组织样本在预选区域内统计量差异程度挑选甲基化差异区域(DMR);
d、根据恶性肿瘤组织样本与健康人WBC样本在DMR上统计量的差异程度挑选显著的 DMR,显著DMR即为靶向Panel设计区域;
4)构建初始分类模型:利用恶性肿瘤组织样本和健康人WBC样本的WGBS数据计算每个样本在显著DMR上的统计量,并据此训练分类模型得到初始分类模型;
5)收集cfDNA样本:收集恶性肿瘤患者和健康人的cfDNA样本;
6)获得靶向Panel数据:对cfDNA样本基于初始靶向Panel进行测序,得到靶向Panel 数据;
7)获得分类结果:利用步骤4)的初始分类模型对步骤6)的靶向Panel数据进行测试,得到分类结果;
优选的,所述方法还包括:
8)验证模型性能:对产生分类结果的每个样本来源的个体进行相应癌种的常规筛查检查,获得该样本的真实标签;计算分类模型的真阴性率TNR、真阳性率TPR和或阳性预测值PPV。
进一步的,步骤1)中,所述肿瘤组织样本为恶性肿瘤组织样本。
进一步的,步骤4)中,所述上下游区域为上下游100bp区域;
进一步的,步骤4)中,所述统计量包括甲基化率;
进一步的,步骤4)中,所述训练为把每个样本的一组统计量作为该样本特征,对组织样本赋标签,利用样本的特征和标签训练分类模型得到初始分类模型。
进一步的,步骤4)中,所述分类模型的结构包括:
a、输入层,其网络结构为线性层;
b、标准层,包括4层,其网络结构为Block结构,所述Block结构是以残差结构为基础;
c、输出层,其网络结构为线性层和softmax层。
进一步的,所述Block结构包含主干分支和次干分支,所述主干分支依次包含线性层、 BN层、Relu层、线性层、BN层,次干分支包含池化层,两个分支数值相加汇总合并,最后再加Relu层。
进一步优选的,所述分类模型的结构如下:首先是输入层,网络结构为线性层,输入维度为m,m为靶向Panel上DMR的数量;其次为标准层,共有4层,网络结构为Block结构;最后是输出层,网络结构为线性层和softmax层,输出维度为n,n为分类的类别数量,具体为需要进行分类的癌种的类别数量加上一个健康人的类别。该分类模型可以轻松通过修改模型的深度、输入维度和输出维度来提高模型的分类能力。
更进一步优选的,所述分类模型结构具体如下表所示:
网络层名 | 网络层结构 | 输入维度 | 输出维度 |
输入层 | 线性层 | m | 10240 |
标准层1 | Block结构 | 10240 | 5120 |
标准层2 | Block结构 | 5120 | 2560 |
标准层3 | Block结构 | 2560 | 1280 |
标准层4 | Block结构 | 1280 | 1024 |
输出层 | 线性层+softmax | 1024 | n |
本申请还提供一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化方法,所述方法包括上述步骤,并进一步包括如下步骤:
9)判断模型更新次数:判断步骤7)的分类模型对于每一批步骤6)的靶向Panel数据学习的次数是否达到阈值n,所述阈值n是模型训练不收敛时终止迭代的条件,即模型训练不收敛时终止迭代轮数,迭代轮数越大,阈值n越大;
当所述模型更新次数>阈值n时,包括如下10)-12)步骤:
10)加测组织样本WGBS:当所述模型更新次数大于阈值n,加测组织样本WGBS;
11)更新靶向Panel:根据保留的显著DMR和加测获得的新增显著DMR更新靶向Panel;
12)更新分类模型:将步骤2)的WGBS数据和步骤10)的加测组织样本WGBS产生的数据合并,基于步骤11)更新的靶向Panel计算每个显著DMR上的统计量,并据此训练分类模型得到更新的分类模型;将更新的分类模型对步骤6)中靶向Panel数据进行测试,获得分类结果。
进一步的,所述步骤10)中,所述加测具体为:对于分类模型在更新多次以后仍然不能正确区分的样本,对这些恶性肿瘤组织样本及其癌旁组织样本进一步进行WGBS测序以获得其完整的测序数据;
进一步的,所述步骤11)中,所述更新具体为:根据步骤3)靶向Panel上的显著DMR对分类模型影响的贡献度进行排序,选择对分类模型贡献度大的显著DMR作为保留的显著DMR;根据步骤10)加测的恶性肿瘤组织样本与其癌旁组织样本在预选区域内统计量的差异程度挑选出合适的DMR;并根据步骤3)初始靶向Panel中显著DMR筛选原则挑选出显著 DMR作为新增显著DMR;合并保留的显著DMR和新增显著DMR组成更新的靶向Panel。
进一步的,所述步骤12)中,所述训练为把每个样本的一组统计量作为该样本特征,对组织样本赋标签,利用样本的特征和标签训练分类模型得到初始模型。
当所述模型更新次数<阈值n时,包括如下13)步骤:
13)更新分类模型:步骤4)中分类模型对每一批步骤6)的靶向Panel数据中分类错误的数据和步骤2)获得的WGBS数据合并进行学习,获得更新分类模型;更新分类模型对步骤6)中靶向Panel数据进行重测试,获得分类结果。
本申请还提供一种基于数据驱动的肿瘤早筛分类模型,所述分类模型的结构包括:
a、输入层,其网络结构为线性层;
b、标准层,包括4层,其网络结构为Block结构,所述Block结构是以残差结构为基础;
c、输出层,其网络结构为线性层和softmax层;
进一步的,所述Block结构包含主干分支和次干分支,所述主干分支依次包含线性层、 BN层、Relu层、线性层、BN层,次干分支包含池化层,两个分支数值相加汇总合并,最后再加Relu层。
进一步优选的,所述分类模型的结构如下:首先是输入层,网络结构为线性层,输入维度为m,m为靶向Panel上DMR的数量;其次为标准层,共有4层,网络结构为Block结构;最后是输出层,网络结构为线性层和softmax层,输出维度为n,n为分类的类别数量,具体为需要进行分类的癌种的类别数量加上一个健康人的类别。该分类模型可以轻松通过修改模型的深度、输入维度和输出维度来提高模型的分类能力。
更进一步优选的,所述分类模型结构具体如下表所示:
本申请还提供一种电子设备,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行上述任一项所述的方法。
本申请还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行上述任一项所述的方法。
本申请至少具有如下有益技术效果:
1)本申请实现了一种基于数据驱动的肿瘤早筛靶向Panel和分类模型动态优化的方法。一方面可以根据实时的靶向Panel数据动态优化分类模型,另一方面也可以根据分类模型结果动态优化靶向Panel。两者实现良性互动,互惠互利,相辅相成,综合提高肿瘤早筛的准确率。
2)本申请提出来一种基于残差结构的分类模型对癌种进行区分。面对日益增长的数据和泛癌早筛需要新增癌种的需求,该模型可以轻松实现增量学习,具有简单易用,可扩展,泛化能力好等特点。
3)本申请可以快速实现泛癌早筛中新增癌种的功能,本申请只需要取得新增癌种的恶性肿瘤及其癌旁的组织样本,然后增加分类模型的类别即可实现,即可以通过流1-13步骤开始,通过快速迭代来实现靶向Panel的筛选和分类模型对新增癌种的识别,全程实现增量学习,减少了人为筛选靶向Panel和重新训练模型的过程,节省了人力物力财力,从而实现更广泛意义上的泛癌早筛。
附图说明
图1、本申请方法流程图;
图2、本申请Block结构图。
具体实施方式
下面将结合实施例对本申请的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本申请,而不应视为限制本申请的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市场购买获得的常规产品。
部分术语定义
除非在下文中另有定义,本申请具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本申请。
如本申请中所使用,在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”,“所述”,包括该名词的复数形式。
如本申请中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive) 或开放式的,且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案,这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。
本申请中的术语“大约”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10%,优选±5%。
此外,说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类,是用于区分相似的元素,不是描述顺序或时间次序必须的。应理解,如此应用的术语在适当的环境下可互换,并且本申请描述的实施方案能以不同于本申请描述或举例说明的其它顺序实施。
以上术语或定义仅仅是为了帮助理解本申请而提供。这些定义不应被理解为具有小于本领域技术人员所理解的范围。
下面结合具体实施例来阐述本申请。
实施例1本申请肿瘤早筛靶向Panel和分类模型的构建
本申请方法流程如图1所示,本申请具体执行流程如下:
1-1、开始:流程开始。
1-2、组织样本:因为肿瘤组织样本中甲基化信号与健康人的差异更大,也更有利于靶向 Panel的设计,所以收集恶性肿瘤的组织样本作为实验组,例如肺癌的组织样本、肝癌的组织样本等。此外,收集相应恶性肿瘤的癌旁组织样本作为对照组,例如肺癌癌旁的组织样本、肝癌癌旁的组织样本等。另外,收集健康人的白细胞样本(White Blood Cell,WBC)作为背景组。
1-3、WGBS数据:对1-2中收集的恶性肿瘤的组织样本、相应的恶性肿瘤癌旁组织样本和健康人的WBC样本进行WGBS测序,得到相应的WGBS数据。
1-4、初始靶向Panel:首先,根据人类基因组上的CpG位点的位置将其上下100bp区域划分为一个预选区域,如果相邻预选区域有重叠则划分为同一预选区域。其次,计算1-3WGBS数据在预选区域上的统计量,例如计算预选区域内的甲基化率等。然后,根据恶性肿瘤组织样本与其癌旁组织样本在预选区域内统计量的差异程度挑选出合适的甲基化差异区域 (Differential Methylation Region,DMR)。最后,根据恶性肿瘤组织样本与健康人的WBC样本在DMR上统计量的差异程度挑选出显著DMR,主要目的是为之后检测cfDNA样本时,模型能够去除cfDNA中WBC的背景噪音,提高恶性肿瘤组织在cfDNA中的信号强度。在挑选显著DMR时总体原则有两点:一个是DMR在健康人WBC样本上的背景噪音很小,而且是稳定的、可控的,另一个是DMR很容易区分不同癌种。最终本申请通过以上方法筛选得到12830个显著DMR,这些显著DMR即为靶向Panel设计的区域。
1-5、分类模型:利用恶性肿瘤组织样本和健康人WBC样本的WGBS数据计算每个样本在显著DMR上的统计量,即可以把每个样本的一组统计量作为该样本的特征。设计恶性肿瘤组织样本的标签为1,健康人WBC样本的标签为0,当有多个类型的恶性肿瘤组织样本时,标签依次为1、2、3等阿拉伯数字。然后,利用样本的特征和标签训练分类模型得到初始模型。
1-6、cfDNA样本:收集恶性肿瘤患者和健康人的cfDNA样本。
1-7、靶向Panel数据:对cfDNA样本基于靶向Panel进行测序,得到靶向Panel数据。
1-8、分类结果:利用1-5中的初始模型对1-6cfDNA样本产生的1-7靶向Panel数据进行测试,得到分类结果。
1-9、验证模型性能是否达到预期:对产生1-8分类结果的每个样本来源的个体进行相应癌种的常规筛查检查,获得该样本的真实标签。然后计算分类模型的真阴性率(TrueNegati ve Rate,TNR),真阳性率(True Positive Rate,TPR),阳性预测值(PositivePredictive Value,PPV)等。
模型预期的标准主要有两点:一是要确保分类模型的特异性高,即在置信度95%的条件下,TNR要到达99%,因为较低的TNR可以减少在相应癌种筛查人群中的误检率,从而减少临床实施时不必要的诊断检查;二是在标准一的条件下尽可能的提高敏感性(即TPR)和阳性预测值(即PPV)。敏感性的提高会帮助分类模型从相应癌种筛查人群中检测出更多的可疑癌症患者。此外,虽然分类模型可分癌种的增加会降低分类模型的敏感性,但是也会帮助分类模型从相应癌种筛查人群中检测出更多相对数量的可疑癌症患者。PPV的提高会降低相应癌种筛查人群中的漏检率,从而降低从相应癌种筛查人群中遗漏可疑癌症患者的可能性。当分类模型性能达到预期时则跳转至1-10结束,否则跳转至1-11判断模型更新次数是否>n。
1-10、结束:结束整个流程。
实施例2、本申请模型的动态优化
基于上述模型,本实施例对其进行动态优化。
1-11、判断模型更新次数(模型迭代次数)是否>n:判断1-8分类模型对于每一批1-6cfD NA产生的1-7靶向Panel数据学习的次数是否达到阈值n次,阈值n与cfDNA的数据量有关,数据量越大,阈值n越大,目的是让分类模型更充分的学习数据中的信息以便获得更好的性能表现。如果模型更新次数小于阈值n,则跳转至1-12更新分类模型,否则跳转至1-13加测组织样本WGBS。
1-12、更新分类模型:对于由1-11跳转来的数据,分类模型对于每一批1-6cfDNA产生的1-7靶向Panel数据中分类模型分类错误的数据和1-3WGBS数据合并进行学习,以提高其分类性能。然后更新的分类模型对1-7靶向Panel数据进行重新测试,得到1-8分类结果。对于由1-14跳转来的数据,首先,将1-3WGBS数据和1-13加测组织样本WGBS产生的数据合并,基于更新的靶向Panel计算每个显著DMR上的统计量,得到每个样本一组统计量作为该样本的特征。设计恶性肿瘤组织样本的标签为1,健康人WBC样本的标签为0,当有多个类型的恶性肿瘤组织样本时,标签依次为1、2、3等阿拉伯数字。然后,利用样本的特征和标签训练分类模型即得到更新的模型。将更新的模型对1-7靶向Panel数据进行测试,对于这部分样本中在某些显著DMR区域没有数据可以计算统计量的情形,可以默认按照零进行填充。最后得到1-8分类结果。
1-13、加测组织样本WGBS:对于那些分类模型在更新多次以后仍然不能正确区分的样本,可能是因为靶向Panel设计区域的限制导致某些样本的可区分特征被遗漏了,这时候需要对这些患者的恶性肿瘤组织及其癌旁组织进行WGBS测序以获得其完整的测序数据。
1-14、更新靶向Panel:首先,根据原来靶向Panel上的显著DMR对分类模型影响的贡献度进行排序,按照一定比列选择对分类模型贡献度大的显著DMR作为保留的显著DMR。其次,根据1-13加测的恶性肿瘤组织样本与其癌旁组织样本在预选区域内统计量的差异程度挑选出合适的显著DMR。然后计算其与健康人的WBC样本在显著DMR上统计量的差异程度,根据1-4初始靶向Panel中显著DMR筛选的两个原则挑选出显著的甲基化差异区域作为新增显著DMR。最后,合并保留的显著DMR和新增显著DMR组成更新的靶向Panel。最后跳转至1-12更新分类模型。
整个流程通过多轮迭代就可以实现基于数据驱动的靶向Panel和分类模型的最优化。
实施例3、本申请构建的分类模型
通过上述方法,构建出的分类模型,具体如下表。
分类模型结构表:
网络层名 | 网络层结构 | 输入维度 | 输出维度 |
输入层 | 线性层 | m | 10240 |
标准层1 | Block结构 | 10240 | 5120 |
标准层2 | Block结构 | 5120 | 2560 |
标准层3 | Block结构 | 2560 | 1280 |
标准层4 | Block结构 | 1280 | 1024 |
输出层 | 线性层+softmax | 1024 | n |
如表1所示,分类模型的结构如下:首先是输入层,网络结构为线性层,输入维度为m, m为靶向Panel上DMR的数量,在本方法里为12830维,输出维度为10240维。其次为标准层,共有4层,网络结构为Block结构,如图2所示,输入维度依次为10240、5120、2560、 1280,输出维度依次为5120、2560、1280、1024。最后是输出层,网络结构为线性层和softm ax层,输入维度为1024,输出维度为n,n为分类的类别数量,具体为需要进行分类的癌种的类别数量加上一个健康人的类别。该分类模型可以轻松通过修改模型的深度、输入维度和输出维度来提高模型的分类能力。
如图2所示,Block结构是以残差结构为基础设计而成的。因为随着癌种的增加和样本的增加,模型需要训练样本数据量暴增,这时候就需要提高分类模型的深度来提高模型的分类性能以实现对数据更好的学习,而残差结构可以很好的解决分类模型的深度增大而导致的退化问题,从而保证分类模型性能的稳定性。Block结构主要包含两个分支,主干分支依次包含线性层、Batch Normalization(BN)层、Relu层、线性层、BN层,次干分支包含一个池化层,然后两个分支数值相加汇总合并,最后再加一个Relu层即可。
实施例3、本申请的方法用于新增癌种
对于原本的泛癌早筛技术需要新增癌种的情形,本申请上述方法抛弃了原先重新设计靶向Panel、重新训练分类模型的传统流程,实现了动态优化靶向Panel和分类模型。
本申请只需要取得新增癌种的恶性肿瘤及其癌旁的组织样本,然后增加分类模型的类别即可实现,即可以通过图1流程图中1-13步骤开始,通过快速迭代来实现靶向Panel的筛选和分类模型对新增癌种的识别,全程实现增量学习,减少了人为筛选靶向Panel和重新训练模型的过程,节省了人力物力财力。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的构建方法,其特征在于,所述方法包括如下步骤:
1)组织样本收集:收集恶性肿瘤组织样本;
2)获得WGBS数据:WGBS测序得到相应WGBS数据;
3)设计初始靶向Panel:
a、根据人类基因组上CpG位点的位置将其上下游区域划分为预选区域;
b、计算WGBS数据在预选区域上的统计量;
c、根据恶性肿瘤组织样本与其癌旁组织样本在预选区域内统计量差异程度挑选甲基化差异区域DMR;
d、根据恶性肿瘤组织样本与健康人WBC样本在DMR上统计量的差异程度挑选显著的DMR,显著DMR即为靶向Panel设计区域;
4)构建初始分类模型:利用恶性肿瘤组织样本和健康人WBC样本的WGBS数据计算每个样本在显著DMR上的统计量,并据此训练分类模型得到初始分类模型;
5)收集cfDNA样本:收集恶性肿瘤患者和健康人的cfDNA样本;
6)获得靶向Panel数据:对cfDNA样本基于初始靶向Panel进行测序,得到靶向Panel数据;
7)获得分类结果:利用步骤4)的初始分类模型对步骤6)的靶向Panel数据进行测试,得到分类结果。
2.根据权利要求1所述的构建方法,其特征在于,所述方法还包括:
8)验证模型性能:对产生分类结果的每个样本来源的个体进行相应癌种的常规筛查检查,获得该样本的真实标签;计算分类模型的真阴性率TNR、真阳性率TPR和/或阳性预测值PPV。
3.根据权利要求1-2任一所述的构建方法,其特征在于,步骤1)中,所述肿瘤组织样本为恶性肿瘤组织样本。
4.根据权利要求1-2任一所述的构建方法,其特征在于,步骤4)中:所述上下游区域为上下游100bp区域;所述统计量包括甲基化率;所述训练为把每个样本的一组统计量作为该样本特征,对组织样本赋标签,利用样本的特征和标签训练分类模型得到初始分类模型。
5.一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化方法,其特征在于,所述方法包括权利要求1-4任一所述步骤,并进一步包括如下步骤:
9)判断模型更新次数:判断步骤7)的分类模型对于每一批步骤6)的靶向Panel数据学习的次数是否达到阈值n,所述阈值n为模型训练不收敛时终止迭代轮数;
当所述模型更新次数>阈值n时,包括如下10)-12)步骤:
10)加测组织样本WGBS:当所述模型更新次数大于阈值n,加测组织样本WGBS;
11)更新靶向Panel:根据保留的显著DMR和加测获得的新增显著DMR更新靶向Pane l;
12)更新分类模型:将步骤2)的WGBS数据和步骤10)的加测组织样本WGBS产生的数据合并,基于步骤11)更新的靶向Panel计算每个显著DMR上统计量,并据此训练分类模型得到更新的分类模型;将更新的分类模型对步骤6)中靶向Panel数据进行测试,获得分类结果;
当所述模型更新次数<阈值n时,包括如下13)步骤:
13)更新分类模型:步骤4)中分类模型对每一批步骤6)的靶向Panel数据中分类错误的数据和步骤2)获得的WGBS数据合并进行学习,获得更新分类模型;更新分类模型对步骤6)中靶向Panel数据进行重测试,获得分类结果。
6.根据权利要求5所述的动态优化方法,其特征在于,
所述步骤10)中,所述加测具体为:对于分类模型在更新多次以后仍然不能正确区分的样本,对这些恶性肿瘤组织样本及其癌旁组织样本进一步进行WGBS测序以获得其完整的测序数据。
7.根据权利要求5所述的动态优化方法,其特征在于,
所述步骤11)中,所述更新具体为:根据步骤3)靶向Panel上的显著DMR对分类模型影响的贡献度进行排序,选择对分类模型贡献度大的显著DMR作为保留的显著DMR;根据步骤10)加测的恶性肿瘤组织样本与其癌旁组织样本在预选区域内统计量的差异程度挑选出合适的DMR;并根据步骤3)初始靶向Panel中显著DMR筛选原则挑选出显著DMR作为新增显著DMR;合并保留的显著DMR和新增显著DMR组成更新的靶向Panel。
8.根据权利要求5所述的动态优化方法,其特征在于,
所述步骤12)中,所述训练具体为:把每个样本的一组统计量作为该样本特征,对组织样本赋标签,利用样本的特征和标签训练分类模型得到初始模型。
9.一种电子设备,其特征在于,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1-8任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210881391.7A CN115274124B (zh) | 2022-07-22 | 2022-07-22 | 一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210881391.7A CN115274124B (zh) | 2022-07-22 | 2022-07-22 | 一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115274124A CN115274124A (zh) | 2022-11-01 |
CN115274124B true CN115274124B (zh) | 2023-11-14 |
Family
ID=83769327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210881391.7A Active CN115274124B (zh) | 2022-07-22 | 2022-07-22 | 一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115274124B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111094590A (zh) * | 2017-07-12 | 2020-05-01 | 大学健康网络 | 使用甲基化组分析进行癌症检测和分类 |
WO2021043986A1 (de) * | 2019-09-05 | 2021-03-11 | Forschungszentrum Borstel | Verfahren und mittel zur diagnose von lungenkrebs |
WO2021169875A1 (zh) * | 2020-02-25 | 2021-09-02 | 博尔诚(北京)科技有限公司 | 一种癌症基因甲基化检测系统和在该系统在中执行的癌症体外检测方法 |
CN113468978A (zh) * | 2021-05-26 | 2021-10-01 | 北京邮电大学 | 基于深度学习的细粒度车身颜色分类方法、装置和设备 |
WO2021231614A1 (en) * | 2020-05-12 | 2021-11-18 | The Board Of Trustees Of The Leland Stanford Junior University | System and method for gene expression and tissue of origin inference from cell-free dna |
WO2022032429A1 (zh) * | 2020-08-10 | 2022-02-17 | 华大数极生物科技(深圳)有限公司 | 用于肝癌检测和诊断的甲基化标志物 |
CN114171115A (zh) * | 2021-11-12 | 2022-03-11 | 深圳吉因加医学检验实验室 | 一种差异性甲基化区域筛选方法及其装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3080215A1 (en) * | 2017-11-03 | 2019-05-09 | University Health Network | Cancer detection, classification, prognostication, therapy prediction and therapy monitoring using methylome analysis |
WO2021061473A1 (en) * | 2019-09-23 | 2021-04-01 | Grail, Inc. | Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data |
US20210407623A1 (en) * | 2020-03-31 | 2021-12-30 | Guardant Health, Inc. | Determining tumor fraction for a sample based on methyl binding domain calibration data |
CN111370129B (zh) * | 2020-04-20 | 2021-06-08 | 上海鹍远生物技术有限公司 | 甲状腺肿瘤良恶性鉴别模型及其应用 |
-
2022
- 2022-07-22 CN CN202210881391.7A patent/CN115274124B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111094590A (zh) * | 2017-07-12 | 2020-05-01 | 大学健康网络 | 使用甲基化组分析进行癌症检测和分类 |
WO2021043986A1 (de) * | 2019-09-05 | 2021-03-11 | Forschungszentrum Borstel | Verfahren und mittel zur diagnose von lungenkrebs |
WO2021169875A1 (zh) * | 2020-02-25 | 2021-09-02 | 博尔诚(北京)科技有限公司 | 一种癌症基因甲基化检测系统和在该系统在中执行的癌症体外检测方法 |
WO2021231614A1 (en) * | 2020-05-12 | 2021-11-18 | The Board Of Trustees Of The Leland Stanford Junior University | System and method for gene expression and tissue of origin inference from cell-free dna |
WO2022032429A1 (zh) * | 2020-08-10 | 2022-02-17 | 华大数极生物科技(深圳)有限公司 | 用于肝癌检测和诊断的甲基化标志物 |
CN113468978A (zh) * | 2021-05-26 | 2021-10-01 | 北京邮电大学 | 基于深度学习的细粒度车身颜色分类方法、装置和设备 |
CN114171115A (zh) * | 2021-11-12 | 2022-03-11 | 深圳吉因加医学检验实验室 | 一种差异性甲基化区域筛选方法及其装置 |
Non-Patent Citations (3)
Title |
---|
基于特征增强的肝脏肿瘤分类研究及应用;冯诺;《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》(第05期);第E072-450页 * |
第一部分:基于胆汁DNA中突变和甲基化的平行分析建立胆胰系统恶性肿瘤辅助诊断模型 第二部分:肠道微生物中有益菌群与晚期胸部肿瘤患者接受抗PD-1免疫治疗疗效相关性的研究;殷慧慧;《中国博士学位论文全文数据库 (医药卫生科技辑)》(第02期);第E072-164页 * |
食管鳞癌中基于候选基因DNA甲基化的诊断模型建立及相关基因的功能探究;王辰骥;《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》(第04期);第E072-262页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115274124A (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wong et al. | Expanding the UniFrac toolbox | |
CN109801680B (zh) | 基于tcga数据库的肿瘤转移复发预测方法及系统 | |
AU2017338775A1 (en) | Phenotype/disease specific gene ranking using curated, gene library and network based data structures | |
CN1484806A (zh) | 基于隐含模式用于从生物数据中识别生物状态的方法 | |
CN107066836A (zh) | 基因检测管理方法及系统 | |
CN106168624A (zh) | 肺癌生物标记及其用途 | |
He et al. | Microarrays—the 21st century divining rod? | |
CN115424666B (zh) | 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统 | |
CN109616198A (zh) | 仅用于肝癌单一癌种筛查的特异甲基化检测位点组合的选取方法 | |
CN115375640A (zh) | 一种肿瘤异质性识别方法、装置、电子设备、存储介质 | |
Elosua et al. | SPOTlight: seeded NMF regression to deconvolute spatial transcriptomics spots with single-cell transcriptomes | |
Parhami et al. | A comparison of deep neural network models for cluster cancer patients through somatic point mutations | |
CN115274124B (zh) | 一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化方法 | |
Chai et al. | Integrating multi-omics data with deep learning for predicting cancer prognosis | |
CN110942808A (zh) | 一种基于基因大数据的预后预测方法及预测系统 | |
CN114974432A (zh) | 一种生物标志物的筛选方法及其相关应用 | |
Firoozbakht et al. | Breast cancer subtype identification using machine learning techniques | |
Cao et al. | A convolutional neural network-based COVID-19 detection method using chest CT images | |
Batool et al. | Towards Improving Breast Cancer Classification using an Adaptive Voting Ensemble Learning Algorithm | |
Chong et al. | SeqControl: process control for DNA sequencing | |
Liu et al. | A hierarchical Bayesian model for single-cell clustering using RNA-sequencing data | |
CN105095689A (zh) | 一种基于韦恩预测的电子鼻数据挖掘方法 | |
CN117393171B (zh) | 直肠癌术后lars发展轨迹预测模型构建方法及系统 | |
Fouodo et al. | Effect of hyperparameters on variable selection in random forests | |
Malossini et al. | Assessment of SVM reliability for microarray data analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |