CN117894452A - 一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法及系统 - Google Patents
一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法及系统 Download PDFInfo
- Publication number
- CN117894452A CN117894452A CN202410059882.2A CN202410059882A CN117894452A CN 117894452 A CN117894452 A CN 117894452A CN 202410059882 A CN202410059882 A CN 202410059882A CN 117894452 A CN117894452 A CN 117894452A
- Authority
- CN
- China
- Prior art keywords
- dna methylation
- data
- model
- classification model
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 208000010097 Unknown Primary Neoplasms Diseases 0.000 title claims abstract description 35
- 230000007067 DNA methylation Effects 0.000 claims abstract description 290
- 238000013145 classification model Methods 0.000 claims abstract description 99
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 73
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000013506 data mapping Methods 0.000 claims abstract description 19
- 201000011510 cancer Diseases 0.000 claims description 62
- 238000013507 mapping Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 22
- 238000012795 verification Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 20
- 210000000349 chromosome Anatomy 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 12
- 239000000523 sample Substances 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012164 methylation sequencing Methods 0.000 abstract description 2
- 241000894007 species Species 0.000 description 16
- 238000012360 testing method Methods 0.000 description 10
- 108091029430 CpG site Proteins 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 230000011987 methylation Effects 0.000 description 6
- 238000007069 methylation reaction Methods 0.000 description 6
- 108020004414 DNA Proteins 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 210000001519 tissue Anatomy 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000003902 lesion Effects 0.000 description 3
- 238000010827 pathological analysis Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 206010027476 Metastases Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 238000010186 staining Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法及系统,所述方法包括:获取DNA甲基化数据;根据预设模板对所述DNA甲基化数据进行数据映射,获得标准DNA甲基化数据;将所述标准DNA甲基化数据输入至预设的DNA甲基化分类模型,以使所述DNA甲基化分类模型对所述标准DNA甲基化数据进行分类,获得所述DNA甲基化数据对应的分类结果,其中,所述DNA甲基化分类模型是基于DenseFormer模型构建并使用若干历史DNA甲基化数据训练获得;根据所述DNA甲基化数据对应的分类结果预测对应的不明原发肿瘤的原发灶位置。本发明基于DenseFormer模型构建DNA甲基化分类模型,进而使用DNA甲基化分类模型根据CUP肿瘤的DNA甲基化测序结果预测原发灶来源,提高了模型预测的准确性。
Description
技术领域
本发明涉及医学、模式识别和人工智能领域,尤其涉及一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法及系统。
背景技术
不明原发肿瘤(Cancer of unknown primary,缩写CUP)是转移灶经病理学检查确诊为恶性肿瘤,而治疗前经过详细病史询问、体检和各项检查均未能明确其原发病灶的肿瘤。目前对于不明原发肿瘤的原发灶诊断,主流手段仍然是病理诊断,完整的病理诊断流程为:1.先通过特定标志物的染色确定肿瘤的大致类型;2.再根据不同的大类肿瘤确定其中不同的亚型;3.根据不同部位肿瘤的组织标志物确定其原发部位;经过整套流程后明确CUP可能的原发灶。但是即使经过全套CUP的工作流程后仍有75%的CUP患者的原发癌灶位置无法确定。
随着人工智能和大模型技术的发展,相关人员可以通过收集不同癌种的DNA甲基化结果构建DNA甲基化分类模型,然后使用DNA甲基化分类模型根据患者的DNA甲基化序列对该患者的不明原发肿瘤的原发灶进行分类预测,医疗工作人员可以根据模型的预测结果为患者制定更为合理与针对性的检查或治疗方案,优化病理诊断流程,提高诊断效率和准确率。目前发表过的较为全面合理的DNA甲基化分类模型主要有EPICUP模型和HiTAIC模型。
其中,EPICUP模型是通过分析每一个甲基化探针对于鉴别癌种的能力,将所有的CpG位点进行鉴别能力赋值并按照重要程度进行排序,在分类模型中从最重要到最不重要的顺序逐步添加CpG位点直到模型的预测能力不再提升,最后保留有重要影响的CpG位点,剔除影响不足的位点,进而创建一个随机森林模型作为分类器,构建了EPICUP模型对CUP的原发灶进行鉴定。HiTAIC模型则是通过分析不同癌种之间差异化甲基化位点,选取了100个细胞类型特异性的高/低甲基化CpG位点,作为某一癌种的特征,以此构建了HiTAIC模型,用于鉴别不同癌种。
虽然上述模型在对CUP的原发灶进行鉴定方面取得了一些效果,但仍有许多不足之处,包括:癌种分类少,亚分类不足;模型预测结果准确度低,模型泛化能力低;全基因组DNA甲基化信息整体性缺失等问题。此外,随着大模型技术的兴起,各行各业都开始研究如何结合大模型技术对本领域的技术方案进行改进,基于大模型中的DenseFormer模型构建的CUP原发灶预测模型可以有效提高模型的预测准确度和泛化能力,而目前尚未公开此方面的相关技术。
发明内容
针对上述问题,本发明提供一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法及系统,基于DenseFormer模型构建DNA甲基化分类模型,进而使用DNA甲基化分类模型根据CUP肿瘤的DNA甲基化测序结果预测原发灶来源,提高了模型预测的准确性。
第一方面,本发明实施例提供一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法,包括:
获取DNA甲基化数据;
根据预设模板对所述DNA甲基化数据进行数据映射,获得标准DNA甲基化数据;
将所述标准DNA甲基化数据输入至预设的DNA甲基化分类模型,以使所述DNA甲基化分类模型对所述标准DNA甲基化数据进行分类,获得所述DNA甲基化数据对应的分类结果,其中,所述DNA甲基化分类模型是基于DenseFormer模型构建并使用若干历史DNA甲基化数据训练获得;
根据所述DNA甲基化数据对应的分类结果预测对应的不明原发肿瘤的原发灶位置。
本发明实施例提供一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法,通过获取DNA甲基化数据并在进行标准化处理后输入至预设的DNA甲基化分类模型,以使所述DNA甲基化分类模型对所述标准DNA甲基化数据进行分类,最后根据模型的分类结果预测所述DNA甲基化数据对应的不明原发肿瘤的原发灶位置。而所述DNA甲基化分类模型是基于大模型中的DenseFormer模型所构建的,充分利用了DenseFormer模型参数量小且计算效率高的特点,通过识别并提取全基因组范围内DNA甲基化变化趋势的特征,进而对不同癌种进行归类,可以获取全面的癌种相关的全基因组DNA甲基化趋势信息,减少信息的遗漏,提高DNA甲基化分类模型的准确率。
进一步的,所述根据预设模板对所述DNA甲基化数据进行数据映射,获得标准DNA甲基化数据,包括:
将所述DNA甲基化数据与第一预设模板重叠的探针映射到所述第一预设模板上,获得第一标准化数据;
根据所述第一标准化数据中的不同染色体排列顺序及DNA排列顺序,将所述第一标准化数据映射到第二预设模板上,获得第二标准化数据;
将所述第二标准化数据按照预设的染色体对数进行分段处理,通过开平方的方式将所述第二标准化数据转换为二维矩阵,获得所述标准DNA甲基化数据。
本发明实施例提供一种对DNA甲基化数据进行数据映射的方法,首先通过对原始DNA甲基化数据进行两次映射,可以将不同数据格式的DNA甲基化数据转换为统一数据格式的DNA甲基化数据;然后将经过两次映射后的DNA甲基化数据进行分段处理,将一维数据转换为二维矩阵,进一步减小了DNA甲基化数据的复杂度,使得DNA甲基化数据的特征信息更为明显,提高后续模型的训练效率与识别效率,进而提高模型识别的准确率。
在一种可能实现的方式中,所述DNA甲基化分类模型的构建过程包括:
获取若干历史DNA甲基化数据并进行数据预处理;
对进行数据预处理后的所述若干历史DNA甲基化数据进行所述数据映射,获得对应的若干标准历史DNA甲基化数据;
以DenseFormer模型为基础架构,构建初始DNA甲基化分类模型;
使用所述若干标准历史DNA甲基化数据对所述初始DNA甲基化分类模型进行训练,获得所述DNA甲基化分类模型;
根据训练结果,对所述若干历史DNA甲基化数据中的癌种类型进行重新归类,合并相似的癌种类型,或根据预设指标对同类癌种进行亚分类,生成新类型集合;
为所述DNA甲基化分类模型设置所述新类型集合,以使所述DNA甲基化分类模型能够将DNA甲基化数据分类为所述新类型集合中的某一类型。
进一步的,所述获取若干历史DNA甲基化数据并进行数据预处理,包括:
通过公共数据平台下载多个不同数据格式的若干历史DNA甲基化数据,所述不同数据格式包括Illumina Human Mehtylation 450K、EPIC、EPIC v2.0以及IlluminaNovaSeq 6000的数据格式;
根据所述若干历史DNA甲基化数据中自带的标签对所述若干历史DNA甲基化数据进行癌症标签分类。
本发明实施例提供一种DNA甲基化分类模型的构建方法,通过获取若干历史DNA甲基化数据并对这些数据进行预处理与标准化处理,使得各个平台和数据库中的DNA甲基化数据都可以统一数据格式并参与到DNA甲基化分类模型的训练过程中,提高了训练样本的数量,覆盖癌种更加全面,包括了各种癌种的细分亚类以及既往研究中缺失的癌种,也包含了相关癌种的癌旁正常组织和相应的癌前病变组织的DNA甲基化数据,使得所训练出来的DNA甲基化分类模型的性能远优于现有相关模型,使得模型在后续的应用过程中,可以突破不同平台及测序类型之间的限制,做到了多种甲基化测序结果均可以统一应用本发明进行预测,这是现有技术做不到的,现有技术只能使用一种DNA甲基化检测方法获得的数据,此类模型不具有普适性,使用门槛很高;此外,在训练结束后,根据训练结果,对所述若干历史DNA甲基化数据中的癌种类型进行重新归类,合并相似的癌种类型,或根据预设指标对同类癌种进行亚分类,生成新类型集合,精简了原有的癌种分类,生成了更适合本模型的分类标准,提高了模型预测的准确性。
进一步的,所述DNA甲基化分类模型的构建过程还包括:
使用外部验证集对所述DNA甲基化分类模型进行验证,评估所述DNA甲基化分类模型的准确率、敏感性、特异度、阳性预测值和阴性预测值。
本发明实施例在模型训练结束后,使用验证集评估模型的性能和准确度,以及检查模型是否具有良好的泛化能力,同时,验证集还可以用于调整模型的参数和选择最优的模型;在这个过程中,模型会根据验证集中的数据进行自我检验和调整,以避免过度拟合或欠拟合。使用测试集用于测试模型的性能和准确度,评估模型的泛化性能,根据测试集中的数据进行自我检验和评估,以了解模型在不同数据集上的表现,主要包括一些未见过的数据,以检验模型是否具有良好的泛化能力和适应能力,后续可以根据评估结果对模型进行针对性的调整,进一步提高模型的性能。
第二方面,相应的,本发明实施例提供一种基于DenseFormer模型的不明原发肿瘤的原发灶预测系统,包括获取模块、标准化处理模块、分类模块以及预测模块;
其中,所述获取模块用于获取DNA甲基化数据;
所述标准化处理模块用于根据预设模板对所述DNA甲基化数据进行数据映射,获得标准DNA甲基化数据;
所述分类模块用于将所述标准DNA甲基化数据输入至预设的DNA甲基化分类模型,以使所述DNA甲基化分类模型对所述标准DNA甲基化数据进行分类,获得所述DNA甲基化数据对应的分类结果,其中,所述DNA甲基化分类模型是基于DenseFormer模型构建并使用若干历史DNA甲基化数据训练获得;
所述预测模块用于根据所述DNA甲基化数据对应的分类结果预测对应的不明原发肿瘤的原发灶位置。
进一步的,所述标准化处理模块包括第一映射单元、第二映射单元以及转换单元;
其中所述第一映射单元用于将所述DNA甲基化数据与第一预设模板重叠的探针映射到所述第一预设模板上,获得第一标准化数据;
所述第二映射单元用于根据所述第一标准化数据中的不同染色体排列顺序及DNA排列顺序,将所述第一标准化数据映射到第二预设模板上,获得第二标准化数据;
所述转换单元用于将所述第二标准化数据按照预设的染色体对数进行分段处理,通过开平方的方式将所述第二标准化数据转换为二维矩阵,获得所述标准DNA甲基化数据。
在一种可能实现的方式中,所述预测系统还包括建模模块,所述建模模块用于构建所述DNA甲基化分类模型,包括获取单元、标准化处理单元、建模单元、训练单元、重新归类单元以及分类设置单元;
其中,所述获取单元用于获取若干历史DNA甲基化数据并进行数据预处理;
所述标准化处理单元用于对进行数据预处理后的所述若干历史DNA甲基化数据进行所述数据映射,获得对应的若干标准历史DNA甲基化数据;
所述建模单元用于以DenseFormer模型为基础架构,构建初始DNA甲基化分类模型;
所述训练单元用于使用所述若干标准历史DNA甲基化数据对所述初始DNA甲基化分类模型进行训练,获得所述DNA甲基化分类模型;
所述重新归类单元用于根据训练结果,对所述若干历史DNA甲基化数据中的癌种类型进行重新归类,合并相似的癌种类型,或根据预设指标对同类癌种进行亚分类,生成新类型集合;
所述分类设置单元用于为所述DNA甲基化分类模型设置所述新类型集合,以使所述DNA甲基化分类模型能够将DNA甲基化数据分类为所述新类型集合中的某一类型。
进一步的,所述获取单元获取若干历史DNA甲基化数据并进行数据预处理,包括:
通过公共数据平台下载多个不同数据格式的若干历史DNA甲基化数据,所述不同数据格式包括Illumina Human Mehtylation 450K、EPIC、EPIC v2.0以及IlluminaNovaSeq 6000的数据格式;
根据所述若干历史DNA甲基化数据中自带的标签对所述若干历史DNA甲基化数据进行癌症标签分类。
进一步的,所述建模模块还包括验证单元;
所述验证单元用于使用外部验证集对所述DNA甲基化分类模型进行验证,评估所述DNA甲基化分类模型的准确率、敏感性、特异度、阳性预测值和阴性预测值。
附图说明
图1:为本发明提供的一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法的一种实施例的流程示意图。
图2:为本发明提供的一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法中进行数据映射的流程示意图。
图3:为本发明提供的一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法中构建DNA甲基化分类模型的流程示意图。
图4:为本发明提供的一种基于DenseFormer模型的不明原发肿瘤的原发灶预测系统的一种实施例的结构示意图。
图5:为本发明提供的一种基于DenseFormer模型的不明原发肿瘤的原发灶预测系统中标准化处理模块的结构示意图。
图6:为本发明提供的一种基于DenseFormer模型的不明原发肿瘤的原发灶预测系统中建模模块的结构示意图。
图7:为本发明提供的一种基于DenseFormer模型的不明原发肿瘤的原发灶预测系统的另一种实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。
贯穿本说明书,本说明书中所描述的DenseFormer(稠密连接网络)模型是兼顾了卷积神经网络densenet模型和tranformer模型的优点所组成的新模型。是一种深度卷积神经网络,通过在网络中引入密集连接来增强特征重用和梯度流动,从而提高模型的性能和泛化能力。与DenseNet模型相比,在DenseNet中增加Transformer架构的多头自注意力机制可以带来以下好处:
1.增强特征提取能力:自注意力机制允许模型在处理每个位点的特征时,考虑到其他位点的特征,这样可以捕捉到更加全局的信息,从而增强特征提取的能力。
2.改善长距离依赖问题:传统的卷积神经网络卷积核的感受野是有限的,每个卷积操作只能捕捉到局部的信息。通过增加自注意力机制,模型可以更好地捕捉到长距离的依赖关系,因为自注意力机制可以在全局范围内加权重组特征;这样可以将不同位点甚至不同染色体中有关联的位点间的特征提取到。
3.提高模型的泛化能力:多头自注意力机制可以让模型在不同的子空间中学习到不同的特征表示,这样可以提供更加丰富的特征组合,从而有助于提高模型的泛化能力。
4.适应不同尺度的特征:多头自注意力机制可以使模型同时关注不同尺度的特征,这在处理不同平台数据中会起到增益作用,对于数据转换后尺度变化较大的方式或其他类型的数据也都会有一定的增益。
在DenseFormer中,每个层都将前面所有层的输出作为其输入,形成了一个密集的连接结构。与其他神经网络模型如ResNet相比,DenseFormer更加注重特征的重用和信息的共享,在计算效率上可能略有损失,但在模型精度和泛化能力上通常表现优异。DenseFormer被广泛应用于计算机视觉任务,如图像分类、物体检测和语义分割等。
实施例一:
如图1所示,实施例一提供一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法,包括步骤S1-S4:
步骤S1、获取DNA甲基化数据;
步骤S2、根据预设模板对所述DNA甲基化数据进行数据映射,获得标准DNA甲基化数据;
步骤S3、将所述标准DNA甲基化数据输入至预设的DNA甲基化分类模型,以使所述DNA甲基化分类模型对所述标准DNA甲基化数据进行分类,获得所述DNA甲基化数据对应的分类结果,其中,所述DNA甲基化分类模型是基于DenseFormer模型构建并使用若干历史DNA甲基化数据训练获得;
步骤S4、根据所述DNA甲基化数据对应的分类结果预测对应的不明原发肿瘤的原发灶位置。
本发明实施例提供一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法,通过获取DNA甲基化数据并在进行标准化处理后输入至预设的DNA甲基化分类模型,以使所述DNA甲基化分类模型对所述标准DNA甲基化数据进行分类,最后根据模型的分类结果预测所述DNA甲基化数据对应的不明原发肿瘤的原发灶位置。而所述DNA甲基化分类模型是基于大模型中的DenseFormer模型所构建的,充分利用了DenseFormer模型参数量小且计算效率高的特点,通过识别并提取全基因组范围内DNA甲基化变化趋势的特征,进而对不同癌种进行归类,可以获取全面的癌种相关的全基因组DNA甲基化趋势信息,减少信息的遗漏,提高DNA甲基化分类模型的准确率。
进一步的,在步骤S2中,所述根据预设模板对所述DNA甲基化数据进行数据映射,获得标准DNA甲基化数据,如图2所示,包括步骤S201-S203:
步骤S201、将所述DNA甲基化数据与第一预设模板重叠的探针映射到所述第一预设模板上,获得第一标准化数据;
步骤S202、根据所述第一标准化数据中的不同染色体排列顺序及DNA排列顺序,将所述第一标准化数据映射到第二预设模板上,获得第二标准化数据;
步骤S203、将所述第二标准化数据按照预设的染色体对数进行分段处理,通过开平方的方式将所述第二标准化数据转换为二维矩阵,获得所述标准DNA甲基化数据。
在一个优选的实施例中,所述步骤S201-步骤S203的具体过程为:
首先,所述DNA甲基化数据为450K、EPIC和EPIC v2.0数据格式中的一种,根据450K、EPIC和EPIC v2.0数据中同一CpG位点的探针编号统一的特点,将所述DNA甲基化数据与EPIC v2.0数据格式重叠的探针全部映射到EPIC v2.0数据的注释模板上,缺失数据默认为0,然后再将转化好的EPIC v2.0的数据映射到2900多万个数据位点的Illumina NovaSeq6000(Homo sapiens)的模板上去(即hg38版本人类基因组序列的全部CpG位点模板),因为该参考模板是按照不同染色体顺序或者说DNA排列顺序线性排列的数据模板,很适合观察自然情况下不同癌症在相应基因的promoter、TSS、exon、intron等,也可以观察到不同CpG岛的island、shore和shelves或者open sea的甲基化特点,构建统一化处理,并将缺失值统一默认为0,方便后续分类模型识别。若数据向2900多万个数据位点的模板上映射存在困难时也可以采用将所有类型数据都取交集,也就是只取其在450K注释文件上存在的位点进行特征数据提取。
将上述映射到2900多万个位点模板上的数据按照染色体顺序进行首尾相连,组成一个超长一维的DNA甲基化数据,然后通过开平方的方式将上述映射后的标准化数据转化为二维矩阵,获得所述标准DNA甲基化数据。后续可以将一个样本的数据转化为tokens,方便后续投喂给模型进行训练或推理。此外,在一种可能实现的方式中,还可以选择按照23对染色体进行分段,按照开平方方式将一维线性数据转化为二维矩阵,将一个样本的DNA甲基化数据转化为一个二维矩阵或者23个二维矩阵,获得所述标准DNA甲基化数据。
除上述方式以外,还可以将高级别或者高数据量的数据,如EPIC或EPICv2.0数据只保留和450K重叠的部分,将这部分数据作统一化处理以及一维转二维等处理后制定成二维矩阵,获得所述标准DNA甲基化数据。
本发明实施例提供一种对DNA甲基化数据进行数据映射的方法,首先通过对原始DNA甲基化数据进行两次映射,可以将不同数据格式的DNA甲基化数据转换为统一数据格式的DNA甲基化数据;然后将经过两次映射后的DNA甲基化数据进行分段处理,将一维数据转换为二维矩阵,进一步减小了DNA甲基化数据的复杂度,使得DNA甲基化数据的特征信息更为明显,提高后续模型的训练效率与识别效率,进而提高模型识别的准确率。
在一种可能实现的方式中,在步骤S3中,所述DNA甲基化分类模型的构建过程如图3所示,包括步骤S301-S306:
步骤S301、获取若干历史DNA甲基化数据并进行数据预处理;
步骤S302、对进行数据预处理后的所述若干历史DNA甲基化数据进行所述数据映射,获得对应的若干标准历史DNA甲基化数据;
步骤S303、以DenseFormer模型为基础架构,构建初始DNA甲基化分类模型;
步骤S304、使用所述若干标准历史DNA甲基化数据对所述初始DNA甲基化分类模型进行训练,获得所述DNA甲基化分类模型;
步骤S305、根据训练结果,对所述若干历史DNA甲基化数据中的癌种类型进行重新归类,合并相似的癌种类型,或根据预设指标对同类癌种进行亚分类,生成新类型集合;
步骤S306、为所述DNA甲基化分类模型设置所述新类型集合,以使所述DNA甲基化分类模型能够将DNA甲基化数据分类为所述新类型集合中的某一类型。
在一个优选的实施例中,所述步骤S303-步骤S304的具体过程为:
以DenseFormer模型为基础架构,构建大模型,使用所述若干历史DNA甲基化数据构建训练集、验证集以及测试集,然后使用所述训练集进行模型训练,识别并提取不同癌种的DNA甲基化数据上的特征性信息,进而作为归类诊断的依据,在这个过程中,模型会根据训练集中的数据进行自我调整和优化,从而不断提高其性能和准确度。使用所述验证集评估模型的性能和准确度,以及检查模型是否具有良好的泛化能力,同时,验证集还可以用于调整模型的参数和选择最优的模型;在这个过程中,模型会根据验证集中的数据进行自我检验和调整,以避免过度拟合或欠拟合。使用所述测试集测试模型的性能和准确度,评估模型的泛化性能,根据测试集中的数据进行自我检验和评估,以了解模型在不同数据集上的表现,主要包括一些未见过的数据,以检验模型是否具有良好的泛化能力和适应能力。
进一步的,所述获取若干历史DNA甲基化数据并进行数据预处理,包括:
通过公共数据平台下载多个不同数据格式的若干历史DNA甲基化数据,所述不同数据格式包括Illumina Human Mehtylation 450K、EPIC、EPIC v2.0以及IlluminaNovaSeq 6000的数据格式(即hg38版本人类基因组序列的全部CpG位点模板);
根据所述若干历史DNA甲基化数据中自带的标签对所述若干历史DNA甲基化数据进行癌症标签分类。
具体的,通过TCGA公共数据平台下载illumina human methylation 450K的所有癌种的DNA甲基化数据,并按照不同癌种分类;通过GEO数据下载TCGA数据库中所有癌种及其相关细分癌种和非罕见非TCGA分类的癌种的450K和EPIC的DNA甲基化数据,并对其数据使用Minfi包或者ChAMP包进行数据质控和标准化处理,然后根据文件标注的病理类型进行分类,进行癌症标签分类。
本发明实施例提供一种DNA甲基化分类模型的构建方法,通过获取若干历史DNA甲基化数据并对这些数据进行预处理与标准化处理,使得各个平台和数据库中的DNA甲基化数据都可以统一数据格式并参与到DNA甲基化分类模型的训练过程中,提高了训练样本的数量,覆盖癌种更加全面,包括了各种癌种的细分亚类以及既往研究中缺失的癌种,也包含了相关癌种的癌旁正常组织和相应的癌前病变组织的DNA甲基化数据,使得所训练出来的DNA甲基化分类模型的性能远优于现有相关模型,使得模型在后续的应用过程中,可以突破不同平台及测序类型之间的限制,做到了多种甲基化测序结果均可以统一应用本发明进行预测,这是现有技术做不到的,现有技术只能使用一种DNA甲基化检测方法获得的数据,此类模型不具有普适性,使用门槛很高;此外,在训练结束后,根据训练结果,对所述若干历史DNA甲基化数据中的癌种类型进行重新归类,合并相似的癌种类型,或根据预设指标对同类癌种进行亚分类,生成新类型集合,精简了原有的癌种分类,生成了更适合本模型的分类标准,提高了模型预测的准确性。
进一步的,所述DNA甲基化分类模型的构建过程还包括:
使用外部验证集对所述DNA甲基化分类模型进行验证,评估所述DNA甲基化分类模型的准确率、敏感性、特异度、阳性预测值和阴性预测值。所述外部验证集包括:GEO等公共数据库中的DNA甲基化数据,以及本单位及合作单位的CUP的DNA甲基化数据。
本发明实施例在模型训练结束后,使用验证集评估模型的性能和准确度,以及检查模型是否具有良好的泛化能力,同时,验证集还可以用于调整模型的参数和选择最优的模型;在这个过程中,模型会根据验证集中的数据进行自我检验和调整,以避免过度拟合或欠拟合。使用测试集用于测试模型的性能和准确度,评估模型的泛化性能,根据测试集中的数据进行自我检验和评估,以了解模型在不同数据集上的表现,主要包括一些未见过的数据,以检验模型是否具有良好的泛化能力和适应能力,后续可以根据评估结果对模型进行针对性的调整,进一步提高模型的性能。
第二方面,相应的,本发明实施例提供一种基于DenseFormer模型的不明原发肿瘤的原发灶预测系统,如图4所示,包括获取模块10、标准化处理模块20、分类模块30以及预测模块40;
其中,所述获取模块10用于获取DNA甲基化数据;
所述标准化处理模块20用于根据预设模板对所述DNA甲基化数据进行数据映射,获得标准DNA甲基化数据;
所述分类模块30用于将所述标准DNA甲基化数据输入至预设的DNA甲基化分类模型,以使所述DNA甲基化分类模型对所述标准DNA甲基化数据进行分类,获得所述DNA甲基化数据对应的分类结果,其中,所述DNA甲基化分类模型是基于DenseFormer模型构建并使用若干历史DNA甲基化数据训练获得;
所述预测模块40用于根据所述DNA甲基化数据对应的分类结果预测对应的不明原发肿瘤的原发灶位置。
进一步的,如图5所示,所述标准化处理模块20包括第一映射单元201、第二映射单元202以及转换单元203;
其中所述第一映射单元201用于将所述DNA甲基化数据与第一预设模板重叠的探针映射到所述第一预设模板上,获得第一标准化数据;
所述第二映射单元202用于根据所述第一标准化数据中的不同染色体排列顺序及DNA排列顺序,将所述第一标准化数据映射到第二预设模板上,获得第二标准化数据;
所述转换单元203用于将所述第二标准化数据按照预设的染色体对数进行分段处理,通过开平方的方式将所述第二标准化数据转换为二维矩阵,获得所述标准DNA甲基化数据。
在一种可能实现的方式中,所述预测系统还包括建模模块50,所述建模模块50用于构建所述DNA甲基化分类模型,如图6所示,包括获取单元501、标准化处理单元502、建模单元503、训练单元504、重新归类单元505以及分类设置单元506;
其中,所述获取单元501用于获取若干历史DNA甲基化数据并进行数据预处理;
所述标准化处理单元502用于对进行数据预处理后的所述若干历史DNA甲基化数据进行所述数据映射,获得对应的若干标准历史DNA甲基化数据;
所述建模单元503用于以DenseFormer模型为基础架构,构建初始DNA甲基化分类模型;
所述训练单元504用于使用所述若干标准历史DNA甲基化数据对所述初始DNA甲基化分类模型进行训练,获得所述DNA甲基化分类模型;
所述重新归类单元505用于根据训练结果,对所述若干历史DNA甲基化数据中的癌种类型进行重新归类,合并相似的癌种类型,或根据预设指标对同类癌种进行亚分类,生成新类型集合;
所述分类设置单元506用于为所述DNA甲基化分类模型设置所述新类型集合,以使所述DNA甲基化分类模型能够将DNA甲基化数据分类为所述新类型集合中的某一类型。
进一步的,所述获取单元501获取若干历史DNA甲基化数据并进行数据预处理,包括:
通过公共数据平台下载多个不同数据格式的若干历史DNA甲基化数据,所述不同数据格式包括Illumina Human Mehtylation 450K、EPIC、EPIC v2.0以及IlluminaNovaSeq 6000的数据格式;
根据所述若干历史DNA甲基化数据中自带的标签对所述若干历史DNA甲基化数据进行癌症标签分类。
进一步的,如图7所示,所述建模模块50还包括验证单元507;
所述验证单元用于使用外部验证集对所述DNA甲基化分类模型进行验证,评估所述DNA甲基化分类模型的准确率、敏感性、特异度、阳性预测值和阴性预测值。
本发明实施例提供一种基于DenseFormer模型的不明原发肿瘤的原发灶预测系统,通过获取DNA甲基化数据并在进行标准化处理后输入至预设的DNA甲基化分类模型,以使所述DNA甲基化分类模型对所述标准DNA甲基化数据进行分类,最后根据模型的分类结果预测所述DNA甲基化数据对应的不明原发肿瘤的原发灶位置。而所述DNA甲基化分类模型是基于大模型中的DenseFormer模型所构建的,充分利用了DenseFormer模型参数量小且计算效率高的特点,通过识别并提取全基因组范围内DNA甲基化变化趋势的特征,进而对不同癌种进行归类,可以获取全面的癌种相关的全基因组DNA甲基化趋势信息,减少信息的遗漏,提高DNA甲基化分类模型的准确率。
本实施例更详细的工作原理与步骤流程可以但不限于参见实施例一的相关记载。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法,其特征在于,包括:
获取DNA甲基化数据;
根据预设模板对所述DNA甲基化数据进行数据映射,获得标准DNA甲基化数据;
将所述标准DNA甲基化数据输入至预设的DNA甲基化分类模型,以使所述DNA甲基化分类模型对所述标准DNA甲基化数据进行分类,获得所述DNA甲基化数据对应的分类结果,其中,所述DNA甲基化分类模型是基于DenseFormer模型构建并使用若干历史DNA甲基化数据训练获得;
根据所述DNA甲基化数据对应的分类结果预测对应的不明原发灶肿瘤的原发灶位置。
2.如权利要求1所述的一种基于DenseFormer模型的不明原发灶肿瘤的原发灶预测方法,其特征在于,所述根据预设模板对所述DNA甲基化数据进行数据映射,获得标准DNA甲基化数据,包括:
将所述DNA甲基化数据与第一预设模板重叠的探针映射到所述第一预设模板上,获得第一标准化数据;
根据所述第一标准化数据中的不同染色体排列顺序及DNA排列顺序,将所述第一标准化数据映射到第二预设模板上,获得第二标准化数据;
将所述第二标准化数据按照预设的染色体对数进行分段处理,通过开平方的方式将所述第二标准化数据转换为二维矩阵,获得所述标准DNA甲基化数据。
3.如权利要求1所述的一种基于DenseFormer模型的不明原发灶肿瘤的原发灶预测方法,其特征在于,所述DNA甲基化分类模型的构建过程包括:
获取若干历史DNA甲基化数据并进行数据预处理;
对进行数据预处理后的所述若干历史DNA甲基化数据进行所述数据映射,获得对应的若干标准历史DNA甲基化数据;
以DenseFormer模型为基础架构,构建初始DNA甲基化分类模型;
使用所述若干标准历史DNA甲基化数据对所述初始DNA甲基化分类模型进行训练,获得所述DNA甲基化分类模型;
根据训练结果,对所述若干历史DNA甲基化数据中的癌种类型进行重新归类,合并相似的癌种类型,或根据预设指标对同类癌种进行亚分类,生成新类型集合;
为所述DNA甲基化分类模型设置所述新类型集合,以使所述DNA甲基化分类模型能够将DNA甲基化数据分类为所述新类型集合中的某一类型。
4.如权利要求3所述的一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法,其特征在于,所述获取若干历史DNA甲基化数据并进行数据预处理,包括:
通过公共数据平台下载多个不同数据格式的若干历史DNA甲基化数据,所述不同数据格式包括Illumina Human Mehtylation 450K、EPIC、EPIC V2.0以及Illumina NovaSeq6000的数据格式;
根据所述若干历史DNA甲基化数据中自带的标签对所述若干历史DNA甲基化数据进行癌症标签分类。
5.如权利要求3所述的一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法,其特征在于,所述DNA甲基化分类模型的构建过程还包括:
使用外部验证集对所述DNA甲基化分类模型进行验证,评估所述DNA甲基化分类模型的准确率、敏感性、特异度、阳性预测值和阴性预测值。
6.一种基于DenseFormer模型的不明原发肿瘤的原发灶预测系统,其特征在于,包括获取模块、标准化处理模块、分类模块以及预测模块;
其中,所述获取模块用于获取DNA甲基化数据;
所述标准化处理模块用于根据预设模板对所述DNA甲基化数据进行数据映射,获得标准DNA甲基化数据;
所述分类模块用于将所述标准DNA甲基化数据输入至预设的DNA甲基化分类模型,以使所述DNA甲基化分类模型对所述标准DNA甲基化数据进行分类,获得所述DNA甲基化数据对应的分类结果,其中,所述DNA甲基化分类模型是基于DenseFormer模型构建并使用若干历史DNA甲基化数据训练获得;
所述预测模块用于根据所述DNA甲基化数据对应的分类结果预测对应的不明原发肿瘤的原发灶位置。
7.如权利要求6所述的一种基于DenseFormer模型的不明原发肿瘤的原发灶预测系统,其特征在于,所述标准化处理模块包括第一映射单元、第二映射单元以及转换单元;
其中所述第一映射单元用于将所述DNA甲基化数据与第一预设模板重叠的探针映射到所述第一预设模板上,获得第一标准化数据;
所述第二映射单元用于根据所述第一标准化数据中的不同染色体排列顺序及DNA排列顺序,将所述第一标准化数据映射到第二预设模板上,获得第二标准化数据;
所述转换单元用于将所述第二标准化数据按照预设的染色体对数进行分段处理,通过开平方的方式将所述第二标准化数据转换为二维矩阵,获得所述标准DNA甲基化数据。
8.如权利要求6所述的一种基于DenseFormer模型的不明原发肿瘤的原发灶预测系统,其特征在于,所述预测系统还包括建模模块,所述建模模块用于构建所述DNA甲基化分类模型,包括获取单元、标准化处理单元、建模单元、训练单元、重新归类单元以及分类设置单元;
其中,所述获取单元用于获取若干历史DNA甲基化数据并进行数据预处理;
所述标准化处理单元用于对进行数据预处理后的所述若干历史DNA甲基化数据进行所述数据映射,获得对应的若干标准历史DNA甲基化数据;
所述建模单元用于以DenseFormer模型为基础架构,构建初始DNA甲基化分类模型;
所述训练单元用于使用所述若干标准历史DNA甲基化数据对所述初始DNA甲基化分类模型进行训练,获得所述DNA甲基化分类模型;
所述重新归类单元用于根据训练结果,对所述若干历史DNA甲基化数据中的癌种类型进行重新归类,合并相似的癌种类型,或根据预设指标对同类癌种进行亚分类,生成新类型集合;
所述分类设置单元用于为所述DNA甲基化分类模型设置所述新类型集合,以使所述DNA甲基化分类模型能够将DNA甲基化数据分类为所述新类型集合中的某一类型。
9.如权利要求8所述的一种基于DenseFormer模型的不明原发肿瘤的原发灶预测系统,其特征在于,所述获取单元获取若干历史DNA甲基化数据并进行数据预处理,包括:
通过公共数据平台下载多个不同数据格式的若干历史DNA甲基化数据,所述不同数据格式包括Illumina Human Mehtylation 450K、EPIC、EPIC v2.0以及Illumina NovaSeq6000的数据格式;
根据所述若干历史DNA甲基化数据中自带的标签对所述若干历史DNA甲基化数据进行癌症标签分类。
10.如权利要求8所述的一种基于DenseFormer模型的不明原发肿瘤的原发灶预测系统,其特征在于,所述建模模块还包括验证单元;
所述验证单元用于使用外部验证集对所述DNA甲基化分类模型进行验证,评估所述DNA甲基化分类模型的准确率、敏感性、特异度、阳性预测值和阴性预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410059882.2A CN117894452A (zh) | 2024-01-16 | 2024-01-16 | 一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410059882.2A CN117894452A (zh) | 2024-01-16 | 2024-01-16 | 一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117894452A true CN117894452A (zh) | 2024-04-16 |
Family
ID=90647010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410059882.2A Pending CN117894452A (zh) | 2024-01-16 | 2024-01-16 | 一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117894452A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506600A (zh) * | 2017-09-04 | 2017-12-22 | 上海美吉生物医药科技有限公司 | 基于甲基化数据的癌症类型的预测方法及装置 |
US20180066317A1 (en) * | 2015-03-11 | 2018-03-08 | Deutsches Krebsforschungszentrum Stiftung des öffentlichen Rechts | Dna-methylation based method for classifying tumor species |
CN113744805A (zh) * | 2021-09-30 | 2021-12-03 | 山东大学 | 基于bert框架的dna甲基化预测方法及系统 |
CN115798594A (zh) * | 2022-12-07 | 2023-03-14 | 厦门大学 | 一种基于rna测序的癌症溯源方法 |
CN116758993A (zh) * | 2023-06-16 | 2023-09-15 | 大连海事大学 | 一种集成多组学特征的dna甲基化预测方法 |
-
2024
- 2024-01-16 CN CN202410059882.2A patent/CN117894452A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180066317A1 (en) * | 2015-03-11 | 2018-03-08 | Deutsches Krebsforschungszentrum Stiftung des öffentlichen Rechts | Dna-methylation based method for classifying tumor species |
CN107506600A (zh) * | 2017-09-04 | 2017-12-22 | 上海美吉生物医药科技有限公司 | 基于甲基化数据的癌症类型的预测方法及装置 |
CN113744805A (zh) * | 2021-09-30 | 2021-12-03 | 山东大学 | 基于bert框架的dna甲基化预测方法及系统 |
CN115798594A (zh) * | 2022-12-07 | 2023-03-14 | 厦门大学 | 一种基于rna测序的癌症溯源方法 |
CN116758993A (zh) * | 2023-06-16 | 2023-09-15 | 大连海事大学 | 一种集成多组学特征的dna甲基化预测方法 |
Non-Patent Citations (2)
Title |
---|
JUN SHI ET AL: "H-DenseFormer: An Efficient Hybrid Densely Connected Transformer for Multimodal Tumor Segmentation", MICCAI 2023, 1 October 2023 (2023-10-01), pages 692 - 702, XP047671136, DOI: 10.1007/978-3-031-43901-8_66 * |
ZE ZHANG ET AL: "HiTAIC: hierarchical tumor artificial intelligence classifier traces tissue of origin and tumor type in primary and metastasized tumors using DNA methylation", NAR CANCER, vol. 5, no. 2, 19 April 2023 (2023-04-19), pages 1 - 12 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7406745B2 (ja) | コンピュータ検出方法のための電子画像を処理するためのシステムおよび方法 | |
CN112101451B (zh) | 一种基于生成对抗网络筛选图像块的乳腺癌组织病理类型分类方法 | |
CN112381178B (zh) | 一种基于多损失特征学习的医学影像分类方法 | |
CN108717867A (zh) | 基于梯度迭代树的疾病预测模型建立方法及装置 | |
JP2018068752A (ja) | 機械学習装置、機械学習方法及びプログラム | |
CN111949535B (zh) | 基于开源社区知识的软件缺陷预测装置及方法 | |
CN113610118B (zh) | 一种基于多任务课程式学习的青光眼诊断方法、装置、设备及方法 | |
Zhang et al. | Explainability metrics of deep convolutional networks for photoplethysmography quality assessment | |
CN111899259A (zh) | 一种基于卷积神经网络的前列腺癌组织微阵列分级方法 | |
CN115715416A (zh) | 基于机器学习的医学数据检查器 | |
CN114494215A (zh) | 基于Transformer的甲状腺结节检测方法 | |
CN114445356A (zh) | 基于多分辨率的全视野病理切片图像肿瘤快速定位方法 | |
Avanija et al. | Prediction and analysis of cervical cancer: an ensemble approach | |
CN116933135A (zh) | 基于跨模态融合级联的癌症分期预测模型建模系统及方法 | |
CN117894452A (zh) | 一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法及系统 | |
WO2022139735A1 (en) | Disease classification based on rna-sequencing data and an algorithm for the detection of disease-related genes | |
CN117476110B (zh) | 基于人工智能的多尺度生物标记物发现系统 | |
CN117095241B (zh) | 一种耐药性肺结核类别的筛查方法、系统、设备及介质 | |
Safarpoor et al. | Renal cell carcinoma whole-slide image classification and search using deep learning | |
Lu | Research on Prediction of Liver Disease Based on Machine Learning Models | |
US20240062907A1 (en) | Predicting an animal health result from laboratory test monitoring | |
CN117976185A (zh) | 一种联合深度学习的乳腺癌风险评估方法与系统 | |
Jatain et al. | Gleason Grading System for Prostate Cancer Diagnosis | |
Kumari et al. | Integrating Yolo V5 Analysis and KNN to Improve Lung Cancer Detection | |
RAO et al. | BREAST CANCER IMAGE CLASSIFICATION USING CUSTOM CNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |