CN116092662A - 癌症辅助诊断装置、训练方法、电子设备及存储介质 - Google Patents
癌症辅助诊断装置、训练方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116092662A CN116092662A CN202111240409.7A CN202111240409A CN116092662A CN 116092662 A CN116092662 A CN 116092662A CN 202111240409 A CN202111240409 A CN 202111240409A CN 116092662 A CN116092662 A CN 116092662A
- Authority
- CN
- China
- Prior art keywords
- data
- dna methylation
- fusion
- copy number
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Bioethics (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明实施例公开一种癌症辅助诊断装置、训练方法、电子设备及存储介质。在一具体实施方式中,该结构包括:数据输入层,用于接收DNA甲基化数据、转录组数据和拷贝数变异数据;第一注意力机制模块,用于将DNA甲基化数据和对应的转录组数据进行特征融合,得到第一融合特征;第二注意力机制模块,用于将DNA甲基化数据和对应的拷贝数变异数据进行特征融合,得到第二融合特征;特征拼接模块,用于对第一融合特征和第二融合特征进行拼接,得到拼接特征;全连接层,用于将所拼接特征降维为m维向量;分类器,用于对m维向量进行映射,得到癌症的m种分类的概率值。该实施方式可降低特征之间的冗余,有效提高癌症诊断的准确度。
Description
技术领域
本发明涉及计算机技术领域。更具体地,涉及一种癌症辅助诊断装置、训练方法、电子设备及存储介质。
背景技术
癌症(恶性肿瘤)作为严重威胁人类生命健康的重大疾病,对于癌症的相关预测越来越引起社会的关注。然而,对癌症的相关预测多依赖于人工,这在判断时具有一定的主观因素,容易造成误判,且耗费的人力物力成本均较高。
发明内容
本发明的目的在于提供一种癌症辅助诊断装置、训练方法、电子设备及存储介质,以解决现有技术存在的问题中的至少一个。
为达到上述目的,本发明采用下述技术方案:
本发明第一方面提供一种癌症辅助诊断装置,包括:
数据输入层,用于接收DNA甲基化数据、转录组数据和拷贝数变异数据;
第一注意力机制模块,用于将DNA甲基化数据和对应的转录组数据进行特征融合,得到第一融合特征;
第二注意力机制模块,用于将DNA甲基化数据和对应的拷贝数变异数据进行特征融合,得到第二融合特征;
特征融合模块,用于对第一融合特征和第二融合特征进行融合,得到全局特征;
全连接层,用于将所述全局特征降维为m维向量;
分类器,用于对所述m维向量进行映射,得到所述癌症的m种分类的概率值,
其中,m为大于等于2的自然数。
在一个具体实施例中,所述分类器为softmax分类器。
在一个具体实施例中,所述m种分类为癌症类型和/或对应癌症的分期类别或亚型类别。
在一个具体实施例中,
所述第一注意力机制模块将DNA甲基化数据和转录组数据进行特征融合,得到第一融合特征,包括:
计算转录组数据A2对甲基化数据A1的注意力权重:
其中,Q表征A1,K和V表征A2,dk为K的维度。
在一个具体实施例中,
所述第一注意力机制模块将DNA甲基化数据和转录组数据进行特征融合,得到维度相同的第一融合特征,包括:
使用编码器对DNA甲基化数据和转录组数据进行特征表示,分别得到表征向量A1和A2;
计算DNA甲基化数据相对于转录组数据的权重w1和转录组数据相对于DNA甲基化数据的权重w2,其中
依据所述权重计算加权后的甲基化数据表征向量和转录组数据表征向量:
A′1=w1A1
A′2=w2A2;
通过求平均进行融合,得到第一融合特征A:
在一个具体实施例中,
所述第二注意力机制模块将DNA甲基化数据和拷贝数变异数据进行特征融合,得到第二融合特征,包括:
计算拷贝数变异数据B2对甲基化数据B1的注意力权重:
其中,Q表征B1,K和V表征B2,dk为K的维度。
在一个具体实施例中,
所述第二注意力机制模块将DNA甲基化数据和拷贝数变异数据进行特征融合,得到第二融合特征,包括:
使用编码器对DNA甲基化数据和拷贝数变异数据进行特征表示,分别得到维度相同的表征向量B1和B2;
计算DNA甲基化数据相对于拷贝数变异数据的权重w3和拷贝数变异数据相对于DNA甲基化数据的权重w4,其中
依据所述权重计算加权后的甲基化数据表征向量和拷贝数变异数据表征向量:
B′1=w3B1
B′2=w4B2;
通过求平均进行融合,得到第二融合特征B:
本发明第二方面提供第一方面的癌症辅助诊断装置的训练方法,包括:
获取训练数据集和验证集;
设计损失函数;
将数据集输入所述装置进行训练,直到满足阈值条件;
使用验证集进行验证。
在一个具体实施例中,所述将数据集输入所述装置进行训练,直到满足阈值条件,包括:
所述数据输入层接收训练样本的DNA甲基化数据、对应的转录组数据和对应的拷贝数变异数据;
所述第一注意力机制模块将DNA甲基化数据和转录组数据进行特征融合,得到第一融合特征;
所述第二注意力机制模块将DNA甲基化数据和拷贝数变异数据进行特征融合,得到第二融合特征;
所述特征拼接模块对第一融合特征和第二融合特征进行拼接,得到拼接特征;
所述全连接层将所述拼接特征降维为m维向量;
所述分类器对所述m维向量进行映射,得到所述患者关于癌症的m种分类的概率值;以及
使用交叉熵损失函数进行监督训练,在达到预设阈值的情况下停止训练。
在一个具体实施例中,
所述第一注意力机制模块将DNA甲基化数据和转录组数据进行特征融合,得到第一融合特征,包括:
计算转录组数据A2对甲基化数据A1的注意力权重:
其中,Q表征A1,K和V表征A2,dk为K的维度。
在一个具体实施例中,
所述第一注意力机制模块将DNA甲基化数据和转录组数据进行特征融合,得到第一融合特征,包括:
使用编码器对样本的DNA甲基化数据和转录组数据进行特征表示,分别得到维度相同的表征向量A1和A2;
计算样本的DNA甲基化数据相对于转录组数据的权重w1和转录组数据相对于DNA甲基化数据的权重w2,其中
依据所述权重计算加权后的甲基化数据表征向量和转录组数据表征向量:
A′1=w1A1
A′2=w2A2;
通过求平均进行融合,得到第一融合特征A:
在一个具体实施例中,
所述第二注意力机制模块将DNA甲基化数据和拷贝数变异数据进行特征融合,得到第二融合特征,包括:
计算拷贝数变异数据B2对甲基化数据B1的注意力权重:
其中,Q表征B1,K和V表征B2,dk为K的维度。
在一个具体实施例中,
所述第二注意力机制模块将DNA甲基化数据和拷贝数变异数据进行特征融合,得到第二融合特征,包括:
使用编码器对样本的DNA甲基化数据和拷贝数变异数据进行特征表示,分别得到维度相同的表征向量B1和B2;
计算样本的DNA甲基化数据相对于拷贝数变异数据的权重w3和拷贝数变异数据相对于DNA甲基化数据的权重w4,其中
依据所述权重计算加权后的甲基化数据表征向量和拷贝数变异数据表征向量:
B′1=w3B1
B′2=w4B2;
通过求平均进行融合,得到第二融合特征B:
在一个具体实施例中,
所述数据输入层接收训练样本的DNA甲基化数据、对应的转录组数据和对应的拷贝数变异数据,包括:
从包含DNA甲基化数据的数据库中获取训练样本的DNA甲基化数据;
从包含转录组数据的数据库中获取与所述训练样本的DNA甲基化数据同一样本名下的转录组数据;
基于包含DNA甲基化数据与拷贝数变异数据的映射关系的基因组注释文件,从包含拷贝数变异数据的数据库中获取与所述训练样本的DNA甲基化数据对应的拷贝数变异数据。
在一个具体实施例中,
所述基于包含DNA甲基化数据与拷贝数变异数据的映射关系的基因组注释文件,从包含拷贝数变异数据的数据库中获取与所述训练样本的DNA甲基化数据对应的拷贝数变异数据,包括:
从所述基因组注释文件中查找甲基化位点对应的基因编号,得到关联基因;
通过所述基因编号在所述包含拷贝数变异数据的数据库中筛选DNA甲基化数据样本所对应的拷贝数变异数据。
在一个具体实施例中,所述训练方法还包括:
使用交叉熵损失函数进行监督训练。
本发明第三方面提供一种电子设备,包括处理器和存储有程序的存储器,所述处理器在执行所述程序时,实现根据第二方面所述的训练方法。
本发明第四方面提供一种存储介质,存储有程序,所述程序被执行时,实现根据第二方面所述的训练方法。
本发明第五方面提供一种电子设备,包括:
根据第一方面所述的癌症辅助诊断装置;
用户交互界面,用于用户输入患者的DNA甲基化数据、转录组数据和拷贝数变异数据,并显示患者所患癌症的m种分类的概率值。
本发明的有益效果如下:
本申请所述技术方案,使用第一注意力机制模块将DNA甲基化数据和对应的转录组数据进行特征融合,得到第一融合特征;使用第二注意力机制模块将DNA甲基化数据和对应的拷贝数变异数据进行特征融合,得到第二融合特征;并将融合后的第一融合特征和第二融合特征进行融合,对融合后得到的全局特征进行处理,可降低特征之间的冗余,抽取关键信息,有效提高癌症诊断的准确度。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明。
图1示出根据本发明的一个实施例的方法可以应用于其中的示例性系统架构图。
图2示出本发明的一个实施例提供的癌症辅助诊断装置的示意图。
图3示出本发明的一个实施例提供的癌症辅助诊断方法的流程图。
图4示出根据本发明的一个实施例的用户交互界面示意图。
图5示出本发明的一个实施例提供的癌症辅助诊断装置的训练方法的流程图。
图6示出包含DNA甲基化数据的数据库截图示意图。
图7示出包含转录组数据的数据库截图示意图。
图8示出包含拷贝数变异数据的数据库截图示意图。
图9示出cg00000029数据序列下甲基化位点所对应的基因的示意图。
图10示出染色体起始位点所对应的基因的截图示意图。
图11示出实现本发明实施例提供的装置的计算机系统的结构示意图。
具体实施方式
为了更清楚地说明本发明,下面结合实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
图1为根据本申请一个实施例中癌症辅助诊断方法的应用环境图示意图。本申请提供的癌症辅助诊断方法,可应用于如图1所示的应用环境中。其中,终端10通过网络与服务器12进行通信。终端10可以是台式设备或者移动终端,如台式电脑、平板电脑、智能手机等。服务器12可以是独立的物理服务器、物理服务器集群或者虚拟服务器。
根据本申请一个实施例的癌症辅助诊断方法可以运行在服务器12上。服务器12从终端10接收患者的DNA甲基化数据、转录组数据和拷贝数变异数据;将DNA甲基化数据和对应的转录组数据进行特征融合,得到第一融合特征;将DNA甲基化数据和对应的拷贝数变异数据进行特征融合,得到第二融合特征;对第一融合特征和第二融合特征进行拼接,得到拼接特征;将所述拼接特征降维为m维向量;对所述m维向量进行映射,得到所述癌症的m种分类的概率值。进一步地,服务器12,还可以在得到所述癌症的m种分类的概率值之后,将该所述癌症的m种分类的概率值返回至终端10,以使终端10可以展示该所述癌症的m种分类的概率值以供医护人员诊断时参考。
为了能够实现分类预测,首先需要构建算法模型。
因此,服务器12可以包括根据本申请一个实施例的癌症辅助诊断装置120,如图2所示。该装置120包括:数据输入层1200、第一注意力机制模块1205、第二注意力机制模块1210、特征融合模块1215、全连接层1220以及分类器1225(相当于服务器中安装应用程序,该应用程序包括各功能模块)。
对应地,如图3所示,根据本发明的一个实施例的癌症辅助诊断方法,包括如下步骤:
S310、接收患者的DNA甲基化数据、对应的转录组数据和对应的拷贝数变异数据。
在一个具体示例中,通过对患者的各种医学检查,获得其DNA甲基化数据、对应的转录组数据和对应的拷贝数变异数据。
其中,DNA甲基化(DNA methylation)是一种非常重要的表观修饰方式,是调控细胞分化发育过程中基因表达的主要机制之一,参与异染色质的形成,转座子的沉默,基因表达的调控以及印迹基因的发生。DNA甲基化作为基因组上的表观修饰,存在于各种生物中。DNA甲基化过程会使甲基添加到DNA分子上。目前的研究表明,肿瘤样本与正常样本的CpG岛(CpG的密度很高,俗称CpG岛)甲基化差异大多不是发生CpG岛的内部而是位于CpG岛岸(CpGisland shore)。因此DNA甲基化数据可以应用于推测癌症易感基因、致病机理中,表观修饰的影响。目前检测DNA甲基化的方法有:BS方法(Bisulfite-conversion)、限制酶方法、富集方法。
转录组数据即为RNA-seq转录组数据。RNA转录是遗传信息由DNA转换到RNA的过程。作为蛋白质生命合成的第一步,转录是mRNA以及非编码RNA的合成步骤,即以双链DNA中的一条链(模板链用于转录,编码连不用于转录)为模板,以ATP、CTP、GTP、UTP四种核苷三磷酸为原料,在RNA催化酶催化下合成RNA的过程。转录组数据可以提供什么条件下什么基因表达的信息,并据此推断相应未知基因的功能,揭示特定调节基因的作用机制。通过这种基于基因表达谱的分子标签,不仅可以辨别细胞的表型归属,还可以用于疾病的诊断。通过比对正常人群和患者的转录组差异,筛选出与癌症相关的具有诊断意义的特异性表达差异。
DNA片段的拷贝数变异(copy number variation,CNV)是一种常见的基因组结构性变异形式,在人群中普遍存在。某些特定基因的CNV被认为可作为肿瘤进展和预后的临床指标,并具有指导肿瘤患者用药的潜力。目前,检测CNV的常用方式主要包括两大类实验方法:低通量分子生物学实验技术,包括:染色体显带、荧光原位杂交技术(FISH)、微滴式数字PCR(ddPCR)等;和高通量二代基因测序技术(next generation sequencing,NGS),该技术可以在全基因组范围或者目标基因区间探测DNA片段的CNV。
医护人员通过终端102上的人机交互界面(如图4所示)将得到的DNA甲基化数据、对应的转录组数据和对应的拷贝数变异数据上传到服务器104。例如,点击“上传DNA甲基化数据”按钮,从本地或远程加载DNA甲基化数据,例如CSV、RData、xlsx等格式的肝癌数据。
在图2所示的示例中,步骤S310由数据输入层1200执行,即数据输入层接收上传的数据。
步骤S320、将DNA甲基化数据和转录组数据进行特征融合,得到第一融合特征。
在一种可能的实现方式中,步骤S120包括:
计算转录组数据A2对甲基化数据A1的注意力权重:
其中,Q表征A1,K和V表征A2,dk为K的维度。
通过注意力机制模型的特征融合,得到了DNA甲基化数据和转录组数据的关联性。然而,上述方法仅仅是计算了转录组数据对DNA甲基化数据的权重的影响。
为此,提供另一种可能的实现方式,因此,步骤S120包括:
使用编码器对患者的DNA甲基化数据和转录组数据进行特征表示,分别得到维度相同的表征向量A1和A2;
计算DNA甲基化数据相对于转录组数据的权重w1和转录组数据相对于DNA甲基化数据的权重w2,其中
依据所述权重计算加权后的甲基化数据表征向量和转录组数据表征向量:
A′1=w1A1
A′2=w2A2;
通过求平均进行融合,得到第一融合特征A:
在该实施方式中,通过甲基化数据和转录组数据相互求注意力权重,能够进一步挖掘其关联性,并且由于这两种组学数据均赋予了权重,从而提高了分类结果的可解释性。
在图2所示的示例中,步骤S320由第一注意力机制模块1205执行。
发明人研究发现,甲基化是启动子中转录因子的结合体位点,启动子中一般存在大量CpG岛,这些岛呈高度甲基化状态,甲基化可改变启动子在基因中的原始构型,进而干扰特异性转录因子与启动子上的特异识别位点结合,进而影响下游基因的转录调控,影响肿瘤的发生发展,分析甲基化和转录组数据之间的关系可有效提高肿瘤的预测效率和准确度。
步骤S330、将DNA甲基化数据和拷贝数变异数据进行特征融合,得到第二融合特征。
在一种可能的实现方式中,步骤S330包括:
计算拷贝数变异数据B2对甲基化数据B1的注意力权重:
其中,Q表征B1,K和V表征B2,dk为K的维度。
通过注意力机制模型的特征融合,得到了DNA甲基化数据和拷贝数变异数据的关联性。然而,上述方法仅仅是计算了拷贝数变异数据对DNA甲基化数据的权重的影响。
为此,提供另一种可能的实现方式,因此,步骤
使用编码器对患者的DNA甲基化数据和拷贝数变异数据进行特征表示,分别得到维度相同的表征向量B1和B2;
计算DNA甲基化数据相对于拷贝数变异数据的权重w3和拷贝数变异数据相对于DNA甲基化数据的权重w4,其中
依据所述权重计算加权后的甲基化数据表征向量和拷贝数变异数据表征向量:
B′1=w3B1
B′2=w4B2;
通过求平均进行融合,得到第二融合特征B:
在该实施方式中,通过甲基化数据和拷贝数变异数据相互求注意力权重,能够进一步挖掘其关联性,并且由于这两种组学数据均赋予了权重,从而提高了分类结果的可解释性。
在图2所示的示例中,步骤S330由第二注意力机制模块1210执行。
发明人研究发现基因甲基化调节基因表达调控,拷贝数变异可导致不同程度的基因表达差异,对正常表型的构成及疾病的发生发展具有一定的作用,整合分析甲基化与拷贝数变异数据可有效提高肿瘤检测的准确度。
需要说明的是,注意力权重更大的肿瘤特征信息对于预测结果的影响也越强,反之,注意力权重更小的肿瘤特征信息对于预测结果的影响也越弱。本实施例中利用注意力权重的传递,引入DNA甲基化数据相对于转录组数据的权重w1、转录组数据相对于DNA甲基化数据的权重w2、DNA甲基化数据相对于拷贝数变异数据的权重w3和拷贝数变异数据相对于DNA甲基化数据的权重w4,可以从获取的肿瘤数据中提取出对预测更为有用的特征,这对于预测结果的准确性提供了数据支撑。
S340、对第一融合特征和第二融合特征进行融合,得到全局特征。
在一个具体示例中,采用拼接的方式进行特征融合;也可以采用加权求和的方式进行特征融合,还可以采用映射的方式进行特征融合。
其中,采用拼接方式进行特征融合是指将各特征类型的特征数据进行拼接之后,得到全局对象特征。采用加权求和的方式是指,对各特征类型的特征数据进行加权求和,得到全局对象特征。该加权求和的过程中,每个特征类型的特征数据的权重可以设置为相同的值,也可以是设置为不同的值。采用映射的方式进行特征融合,可以是通过训练好的神经网络模型对特征数据进行特征融合,得到全局对象特征。该训练好的神经网络模型采用的每一个样本可以包括至少两种特征类型的特征数据,以及期望的全局对象特征。
在图2所示的示例中,步骤S340由特征融合模块1215执行。
S350、将所述全局特征降维为m维向量。
其中,m的取值为根据本申请的癌症预测方法得到的类别的个数。例如本申请的预测方法可以预测癌症的类似、对应癌症的期数或亚型(例如癌症期数分为早期、中期、晚期;分类亚型分为一型,二型,三型),这取决于稍后介绍的对于模型的训练所使用的训练样本。
在图2所示的示例中,步骤S350由全连接层1220执行。
S360、对所述m维向量进行映射,得到所述患者关于癌症的m种分类的概率值。
对所述m维向量进行映射的过程可以是通过映射函数例如softmax分类器进行映射,也可以是通过训练好的神经网络模型进行映射。通过映射函数进行映射的过程中,采用的映射函数可以是根据对象特征与疾病的疾病属性的关联性设置的。训练好的神经网络模型在训练过程中,采用的每一个样本包括对象特征及期望的分类结果。
在图2所示的示例中,步骤S360由分类器1225执行。
本申请利用注意力机制模型对两组学整合分析可获得样本中RNA表达和DNA甲基化修饰之间的相关性以及DNA甲基化和拷贝数变异的相关性,较现有公开技术,克服了单一组学数据分析存在片面性、部分数据不准确的缺点。另外,利用注意力机制模型,对输入的每个部分赋予不同的权重,注意力权重更大的肿瘤特征信息对于预测结果的影响也越强,反之,注意力权重更小的肿瘤特征信息对于预测结果的影响也越弱。本实施例中利用注意力权重的传递,引入DNA甲基化数据相对于转录组数据的权重w1、转录组数据相对于DNA甲基化数据的权重w2、DNA甲基化数据相对于拷贝数变异数据的权重w3和拷贝数变异数据相对于DNA甲基化数据的权重w4,可以从获取的肿瘤数据中提取出对预测更为有用的特征,这对于预测结果的准确性提供了数据支撑。
本领域技术人员能够理解,在使用上述算法模型进行癌症辅助诊断前,需要先对该模型进行训练。
上述癌症辅助诊断装置的训练方法的设计思路如下,如图5所示:
S510、数据集制作:收集数据库中各种癌症疾病的DNA甲基化数据、转录组数据和拷贝数变异数据与对应的癌症疾病结果数据作为正样本,以及其他正常人群的DNA甲基化数据、转录组数据和拷贝数变异数据与正常人群结果作为负样本,按各种癌症早期、中期、晚期(或一型、二型、三型)进行分类,并按0.8:0.2的比例随机划分为训练集和验证集。
构建一种癌症辅助诊断装置:由数据输入层、第一注意力机制模块、第二注意力机制模块、特征融合模块、全连接层和分类器组成。
S520、设计损失函数:采用交叉熵损失CE Loss函数,CE Loss负责监督分类过程。
S530、模型训练:将训练集输入至癌症辅助诊断装置,采用损失函数进行监督训练,直到满足阈值条件。
S540、将验证集输入至训练好的模型进行验证。
其中,该训练步骤与上述方法步骤类似,主要差别在于需要从已知数据库中获得训练样本和测试样本。
具体地,在一个具体示例中,步骤S510包括:
步骤S5101、从包含DNA甲基化数据的数据库中获取训练样本的DNA甲基化数据。
如图6所示,为从包含DNA甲基化数据的数据库中获取的DNA甲基化数据,其中,第一行为样本名,代表不同的病例名称;第一列为甲基化位点;图6中位于某一行样本名和某一列甲基化位点的数值代表甲基化信号强度的百分比,计算公式为:
β=M÷(M+U+offset)
其中,U代表非甲基化信号强度,M代表甲基化的信号强度,offset代表偏移量。
步骤S5102、从包含转录组数据的数据库中获取与所述训练样本的DNA甲基化数据同一样本名下的转录组数据。
如图7所示,为获取的RNA-seq转录组数据,其中,第一行为样本名,代表不同的病例名称;第一列为基因编号;图7中位于某一行样本名和某一列基因编号的数值代表基因表达量高低。
步骤S5103、基于包含DNA甲基化数据与拷贝数变异数据的映射关系的基因组注释文件,从包含拷贝数变异数据的数据库中获取与所述训练样本的DNA甲基化数据对应的拷贝数变异数据。
步骤S5103可以通过编写自动执行的脚本来实现。
如图8所示,为获取的拷贝数变异数据,其中,sampleID列为样本名,代表不同的病例名称;chrom列为染色体编号;chromstart列为起始位置;chromend列为终止位置;value列为拷贝数值。
在一种可能的实现方式中,步骤S5103包括:
从所述基因组注释文件中查找甲基化位点对应的基因编号,得到关联基因;
通过所述基因编号在所述包含拷贝数变异数据的数据库中筛选DNA甲基化数据样本所对应的拷贝数变异数据。
接续前述示例,从基因组注释文件中查找甲基化位点对应的转录组数据的基因编号,得到关联基因。如图9所示,为cg00000029数据序列下甲基化位点所对应的基因。基于第二映射关系,通过甲基化位点对应的转录组数据的基因编号筛选DNA甲基化数据样本所对应的拷贝数变异数据,作为训练样本中的拷贝数变异数据。如图10所示,为拷贝数变异数据中包括的染色体起始位点所对应的基因。进而,从图8所示的数据库中获得对应的拷贝数变异数据。
至此,训练样本中包含的DNA甲基化数据、转录组数据和拷贝数变异数据全部获得,数据输入层接收DNA甲基化数据、转录组数据和拷贝数变异数据。
在一个具体示例中,步骤S530包括:
步骤S5301、第一注意力机制模块将样本DNA甲基化数据和转录组数据进行特征融合,得到第一融合特征。
在一种可能的实现方式中,步骤S5301包括:
计算转录组数据A2对甲基化数据A1的注意力权重:
其中,Q表征A1,K和V表征A2,dk为K的维度。
在另一种可能的实现方式中,步骤S5301包括:
使用编码器对样本的DNA甲基化数据和转录组数据进行特征表示,分别得到维度相同的表征向量A1和A2;
计算样本的DNA甲基化数据相对于转录组数据的权重w1和转录组数据相对于DNA甲基化数据的权重w2,其中
依据所述权重计算加权后的甲基化数据表征向量和转录组数据表征向量:
A′1=w1A1
A′2=w2A2;
通过求平均进行融合,得到第一融合特征A:
步骤S5302、第二注意力机制模块将DNA甲基化数据和拷贝数变异数据进行特征融合,得到第二融合特征。
在一种可能的实现方式中,步骤S5302包括:
计算拷贝数变异数据B2对甲基化数据B1的注意力权重:
其中,Q表征B1,K和V表征B2,dk为K的维度。
在另一种可能的实现方式中,步骤S5302包括:
使用编码器对样本的DNA甲基化数据和拷贝数变异数据进行特征表示,分别得到维度相同的表征向量B1和B2;
计算样本的DNA甲基化数据相对于拷贝数变异数据的权重w3和拷贝数变异数据相对于DNA甲基化数据的权重w4,其中
依据所述权重计算加权后的甲基化数据表征向量和转录组数据表征向量:
B′1=w3B1
B′2=w4B2;
通过求平均进行融合,得到第二融合特征B:
S5303、特征融合模块对第一融合特征和第二融合特征进行融合,得到全局特征。
S5304、全连接层将所述拼接特征降维为m维向量。
S5305、分类器对所述m维向量进行映射,得到所述患者关于癌症的m种分类的概率值,其中,m为大于等于2的自然数。
S5306、使用交叉熵损失函数进行监督训练,在达到预设阈值的情况下停止训练。
在一个具体示例中,预设m种分类对应癌症的分期类别标签为对应癌症的分类的标记,例如m种分类包括肺癌、肝癌、胃癌、鼻咽癌、宫颈癌等,肺癌分期类别分为肺癌早期、肺癌中期和肺癌晚期,分别为肺癌的类别标签。预设m种分类对应癌症的亚型类别标签为对应癌症的分类的标记,例如,例如m种分类包括肺癌、肝癌、胃癌、鼻咽癌、宫颈癌等,肺癌亚型类别分为肺癌一型,肺癌二型和肺癌三型,分别为肺癌的类别标签。本实施例中,将该类别标签作为对应的类别标签,从而实现基于该标签的分类。
如图11所示,适于用来执行上述实施例提供的癌症辅助诊断装置的训练方法和/或辅助诊断方法的计算机系统,包括中央处理模块(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有计算机系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线被此相连。输入/输入(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本实施例,上文流程图描述的过程可以被实现为计算机软件程序。例如,本实施例包括一种计算机程序产品,其包括有形地包含在计算机可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。
附图中的流程图和示意图,图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。描述于本实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。
适于用来执行上述实施例提供的肿瘤预测方法的计算机系统除与上述图11所示的计算机系统的结构之外,还包括:显示器,显示如图4所示的用户交互界面,用于用户输入患者的DNA甲基化数据、转录组数据和拷贝数变异数据,并输出患者所患癌症的m种分类的概率值(图中为3种结果概率)。
作为另一方面,本发明实施例还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质,也可以是单独存在,未装配入终端中的非易失性计算机存储介质。
上述非易失性计算机存储介质存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备实现根据本申请上述实施例的训练方法或诊断方法。
需要说明的是,在本发明的描述中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于本领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (19)
1.一种癌症辅助诊断装置,其特征在于,包括:
数据输入层,用于接收DNA甲基化数据、转录组数据和拷贝数变异数据;
第一注意力机制模块,用于将DNA甲基化数据和对应的转录组数据进行特征融合,得到第一融合特征;
第二注意力机制模块,用于将DNA甲基化数据和对应的拷贝数变异数据进行特征融合,得到第二融合特征;
特征融合模块,用于对第一融合特征和第二融合特征进行融合,得到全局特征;
全连接层,用于将所述全局特征降维为m维向量;
分类器,用于对所述m维向量进行映射,得到所述癌症的m种分类的概率值,
其中,m为大于等于2的自然数。
2.根据权利要求1所述的装置,其特征在于,所述分类器为softmax分类器。
3.根据权利要求1或2所述的装置,其特征在于,
所述m种分类为癌症类型和/或对应癌症的分期类别或亚型类别。
8.一种根据权利要求1-7中任一项所述的癌症辅助诊断装置的训练方法,其特征在于,包括:
获取训练数据集和验证集;
设计损失函数;
将数据集输入所述装置进行训练,直到满足阈值条件;
使用验证集进行验证。
9.根据权利要求8所述的训练方法,其特征在于,所述将数据集输入所述装置进行训练,直到满足阈值条件,包括:
所述数据输入层接收训练样本的DNA甲基化数据、对应的转录组数据和对应的拷贝数变异数据;
所述第一注意力机制模块将DNA甲基化数据和转录组数据进行特征融合,得到第一融合特征;
所述第二注意力机制模块将DNA甲基化数据和拷贝数变异数据进行特征融合,得到第二融合特征;
所述特征拼接模块对第一融合特征和第二融合特征进行拼接,得到拼接特征;
所述全连接层将所述拼接特征降维为m维向量;
所述分类器对所述m维向量进行映射,得到所述患者关于癌症的m种分类的概率值;以及
使用交叉熵损失函数进行监督训练,在达到预设阈值的情况下停止训练。
14.根据权利要求9所述的训练方法,其特征在于,所述数据输入层接收训练样本的DNA甲基化数据、对应的转录组数据和对应的拷贝数变异数据,包括:
从包含DNA甲基化数据的数据库中获取训练样本的DNA甲基化数据;
从包含转录组数据的数据库中获取与所述训练样本的DNA甲基化数据同一样本名下的转录组数据;
基于包含DNA甲基化数据与拷贝数变异数据的映射关系的基因组注释文件,从包含拷贝数变异数据的数据库中获取与所述训练样本的DNA甲基化数据对应的拷贝数变异数据。
15.根据权利要求14所述的训练方法,其特征在于,
所述基于包含DNA甲基化数据与拷贝数变异数据的映射关系的基因组注释文件,从包含拷贝数变异数据的数据库中获取与所述训练样本的DNA甲基化数据对应的拷贝数变异数据,包括:
从所述基因组注释文件中查找甲基化位点对应的基因编号,得到关联基因;
通过所述基因编号在所述包含拷贝数变异数据的数据库中筛选DNA甲基化数据样本所对应的拷贝数变异数据。
16.根据权利要求9所述的训练方法,其特征在于,还包括:
使用交叉熵损失函数进行监督训练。
17.一种电子设备,包括处理器和存储有程序的存储器,其特征在于,所述处理器在执行所述程序时,实现根据权利要求8-16中任一项所述的训练方法。
18.一种存储介质,存储有程序,其特征在于,所述程序被执行时,实现根据权利要求8-16中任一项所述的训练方法。
19.一种电子设备,其特征在于,包括:
根据权利要求1-7中任一项所述的癌症辅助诊断装置;
用户交互界面,用于用户输入患者的DNA甲基化数据、转录组数据和拷贝数变异数据,并显示患者所患癌症的m种分类的概率值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111240409.7A CN116092662A (zh) | 2021-10-25 | 2021-10-25 | 癌症辅助诊断装置、训练方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111240409.7A CN116092662A (zh) | 2021-10-25 | 2021-10-25 | 癌症辅助诊断装置、训练方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116092662A true CN116092662A (zh) | 2023-05-09 |
Family
ID=86206837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111240409.7A Pending CN116092662A (zh) | 2021-10-25 | 2021-10-25 | 癌症辅助诊断装置、训练方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116092662A (zh) |
-
2021
- 2021-10-25 CN CN202111240409.7A patent/CN116092662A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Heumos et al. | Best practices for single-cell analysis across modalities | |
EP3520006B1 (en) | Phenotype/disease specific gene ranking using curated, gene library and network based data structures | |
Lazar et al. | Batch effect removal methods for microarray gene expression data integration: a survey | |
Williams et al. | RNA‐seq data: challenges in and recommendations for experimental design and analysis | |
Wong et al. | Decoding disease: from genomes to networks to phenotypes | |
Hamid et al. | Data integration in genetics and genomics: methods and challenges | |
WO2019169049A1 (en) | Multimodal modeling systems and methods for predicting and managing dementia risk for individuals | |
Yin et al. | Using the structure of genome data in the design of deep neural networks for predicting amyotrophic lateral sclerosis from genotype | |
US8600718B1 (en) | Computer systems and methods for identifying conserved cellular constituent clusters across datasets | |
Wong | Computational biology and bioinformatics: gene regulation | |
JP2003021630A (ja) | 臨床診断サービスを提供するための方法 | |
Mohamed et al. | A transposon story: from TE content to TE dynamic invasion of Drosophila genomes using the single-molecule sequencing technology from Oxford Nanopore | |
JP2016165286A (ja) | 転写物測定値数が減少した、遺伝子発現プロファイリング | |
CN110770839A (zh) | 来自未知基因型贡献者的dna混合物的精确计算分解的方法 | |
Bickel et al. | An overview of recent developments in genomics and associated statistical methods | |
Lengerich et al. | Personalized regression enables sample-specific pan-cancer analysis | |
AU2020356582A1 (en) | Single cell RNA-seq data processing | |
WO2017189677A1 (en) | Machine learning techniques for analysis of structural variants | |
Acharyya et al. | SpaceX: gene co-expression network estimation for spatial transcriptomics | |
CN116092662A (zh) | 癌症辅助诊断装置、训练方法、电子设备及存储介质 | |
Lareau et al. | Network theory for data-driven epistasis networks | |
CN111028885B (zh) | 一种检测牦牛rna编辑位点的方法及装置 | |
Fendler et al. | Systematic deciphering of cancer genome networks | |
Girija et al. | Deep learning for vehement gene expression exploration | |
US20230005569A1 (en) | Chromosomal and Sub-Chromosomal Copy Number Variation Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |