CN113838570B - 一种基于深度学习的宫颈癌自洽分型方法和系统 - Google Patents
一种基于深度学习的宫颈癌自洽分型方法和系统 Download PDFInfo
- Publication number
- CN113838570B CN113838570B CN202111012031.5A CN202111012031A CN113838570B CN 113838570 B CN113838570 B CN 113838570B CN 202111012031 A CN202111012031 A CN 202111012031A CN 113838570 B CN113838570 B CN 113838570B
- Authority
- CN
- China
- Prior art keywords
- cervical cancer
- data
- self
- deep learning
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010008342 Cervix carcinoma Diseases 0.000 title claims abstract description 105
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 title claims abstract description 105
- 201000010881 cervical cancer Diseases 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013135 deep learning Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000013136 deep learning model Methods 0.000 claims abstract description 19
- 238000004393 prognosis Methods 0.000 claims abstract description 11
- 230000004083 survival effect Effects 0.000 claims abstract description 11
- 238000006366 phosphorylation reaction Methods 0.000 claims abstract description 5
- 230000026731 phosphorylation Effects 0.000 claims abstract description 4
- 230000000865 phosphorylative effect Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 8
- 230000008030 elimination Effects 0.000 claims description 6
- 238000003379 elimination reaction Methods 0.000 claims description 6
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 4
- 239000010410 layer Substances 0.000 description 37
- 238000003759 clinical diagnosis Methods 0.000 description 9
- 206010028980 Neoplasm Diseases 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 7
- 238000003745 diagnosis Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000009456 molecular mechanism Effects 0.000 description 6
- 201000010099 disease Diseases 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 201000011510 cancer Diseases 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 108091000080 Phosphotransferase Proteins 0.000 description 2
- 102000001253 Protein Kinase Human genes 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000011987 methylation Effects 0.000 description 2
- 238000007069 methylation reaction Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 108060006633 protein kinase Proteins 0.000 description 2
- 230000007067 DNA methylation Effects 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 208000035269 cancer or benign tumor Diseases 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 231100000517 death Toxicity 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004784 molecular pathogenesis Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 231100000590 oncogenic Toxicity 0.000 description 1
- 230000002246 oncogenic effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- 230000009822 protein phosphorylation Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000002255 vaccination Methods 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于深度学习的宫颈癌自洽分型方法和系统,属于医学图像处理领域。包括:第一阶段:获取多个样本的宫颈癌临床数据、宫颈癌转录组学、宫颈癌蛋白质组学和宫颈癌磷酸化组学;所有样本同种类型数据无监督学习训练深度学习模型,得到该类型数据的分型,四种类型数据同步训练,直至四个深度学习模型的分类结果自洽;对于每个分型结果,根据该分型中各样本生存时间,确定该分型和宫颈癌预后生存时间的关系;第二阶段:获取待测样本宫颈癌临床数据、宫颈癌转录组学、宫颈癌蛋白质组学和宫颈癌磷酸化组学;将各类型数据输入至对应深度学习模型,得到各类型的分型结果、对应的宫颈癌预后生存时间。本发明可更有效准确地确定宫颈癌分型结果。
Description
技术领域
本发明属于医学图像处理技术领域,更具体地,涉及一种基于深度学习的宫颈癌自洽分型方法和系统。
背景技术
宫颈癌分型指对宫颈癌进行分类成不同组别,宫颈癌作为威胁女性健康的主要恶性肿瘤,每年全世界新增宫颈癌患者528,000例,死亡266,000例,超过任何其他妇科肿瘤。宫颈癌恶性程度较高,可以通过接种针对主要致癌HPV类型的疫苗有效预防,但目前接种该疫苗的人数仍然很少。迄今为止,对于早期宫颈癌患者,可以通过手术或放射治疗,但转移性宫颈癌是几乎无法治愈的。因此,迫切需求制定出更有效的策略来诊断和治疗这种疾病。对宫颈癌进行宫颈癌分型对于了解宫颈癌分子变化具有重大意义,进而有助于解释宫颈癌发展的分子机制,为宫颈癌临床诊断和患者的预后预测提供理论基础,为医生提供合理的建议和参考,对于宫颈癌的精准治疗和科学研究具有重大意义。
现有技术中,Yang S等人“HPV-related methylation-based reclassificationand risk stratification of cervical cancer”中提出一种无监督分层分型方法,其主要思想为:通过对具有预后价值的HPV相关甲基化位点的beta值进行无监督的层次聚类,进而识别宫颈癌患者的亚型。
然而,上述方法仅从DNA甲基化层面对宫颈癌的发生发展进行表征,而宫颈癌作为高度复杂的疾病,从单个层面无法准确地该疾病的发生和分子机制进行全面的阐述,同时仅仅通过无监督分层分类方法,无法准确科学地显示分型依据和分型结果,使其提供临床诊断依据和提高治疗结果效果不明显。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于深度学习的宫颈癌自洽分型方法和系统,其目的在于通过综合考虑宫颈癌的多层面分子特征,临床特征以及肿瘤异质性构建用于宫颈癌多模态数据整合的新型深度学习框架,实现宫颈癌临床和分子的综合表征,发现与临床关联的宫颈癌分子分型,初步揭示宫颈癌发生发展的分子机制。
为实现上述目的,按照本发明的第一方面,提供了一种基于深度学习的宫颈癌自洽分型方法,该方法包括两个阶段:
第一阶段:获取多个样本的宫颈癌临床数据、宫颈癌转录组学、宫颈癌蛋白质组学和宫颈癌磷酸化组学;所有样本同种类型数据无监督学习训练一个深度学习模型,得到该类型数据的分型,四种类型数据同步训练,直至四个深度学习模型的分类结果自洽;对于每个分型结果,根据该分型中各样本生存时间,确定该分型和宫颈癌预后生存时间的关系;
第二阶段:获取待测样本宫颈癌临床数据、宫颈癌转录组学、宫颈癌蛋白质组学和宫颈癌磷酸化组学;将各类型数据输入至对应深度学习模型,得到各类型的分型结果,和对应的宫颈癌预后生存时间。
优选地,所述四个深度学习模型的分类结果自洽的判据为:四个模型得到四种分型结果的P值最小。
有益效果:目前的技术手段无法科学有效地实现多种数据整合进行宫颈癌分型预测,本发明从统计学角度将四种数据类型关联起来,通过检测四种分型结果的p值,进而判断结果是否具有真实的显著性。将统计学引入自洽学习过程,作为判断四种数据类型分型是否具有显著相关性的标准,合理地解释实现多模态异构的高效融合,为宫颈癌的临床诊断以及患者的预后预测提供理论基础。
优选地,对不同组学鉴定出的分子进行随机剔除操作,若P值变小,则保留该剔除操作,否则,不剔除,重复上述操作直至P值最小。
有益效果:宫颈癌作为危害女性健康的恶行肿瘤,其内在分子机制和发病经制复杂,利用生物大数据从多组学层面探究其分型并不容易,本发明以统计学检验的评判标准,提出迭代过程中进行剔除操作,通过重复剔除操作,可以有效去除无用分子,保留最有效的分子,解决现有技术无法准确分型现状,使有效分子充分发挥其在分型过程中的作用,同时为了获得宫颈癌临床与分子的综合分型,本发明设立了宫颈癌亚型内部的高相似性,亚型之间的低相似性及各类型数据相互自洽的分型目标,使高效分子在多次学习过程中发挥其优势,达到更为精准分型的效果,确保分型的准确性和合理性,对探究宫颈癌疾病的发生发展,初步阐明宫颈癌的分子机制具有重要意义。
优选地,所述深度学习模型包括:
自动编码器,用于提取输入数据的特征,得到特征向量;
聚类层,用于对特征向量进行聚类,得到聚类结果。
有益效果:目前针对宫颈癌分型问题,并没有从多个模态数据进行深度学习并将特征提取用于聚类分型的研究,本发明引入深度学习技术,通过自编码器提取特征,将特征向量用于聚类层用于聚类,将自编码器反向传播将输入压缩,再通过表征重构输出的特点,有效地将数据去噪,通过合理的维度和稀疏约束,得到较好的数据投影,以更好的配合聚类层进行高效准确的聚类过程,有效地将数字病理和人工智能应用于宫颈癌辅助筛查,解决传统技术分型不为准确,无法高效合理确定分型问题,科学合理将多组学数据整合,解决目前深度学习方法不具有因果逻辑性问题,解决传统技术特征提取的难题,对处理问题进行生物学上的深入研究,降低网络训练工作量和训练样本,将人工智能科学技术有效地应用于医疗诊断,有助于提高医生的诊疗水平,将自洽学习过程通过自编码器和聚类层结合框架体现,利用机器自动学习特点,整合四类多模态数据,对多模态异构实现高效融合,为宫颈癌的临床诊断以及患者的预后预测提供理论基础,提高诊断准确性和效率,为精准医疗的实现铺路。
优选地,所述自动编码器包括顺序串联的:输入层、N个编码器、N个解码器和输出层,编码器和解码器一一对应;
所述输入层用于接收宫颈癌数据;所述编码器用于对接收到的数据进行压缩,得到特征编码向量;所述解码器用于接收到的数据进行解码,得到重构特征;所述输出层用于输出重构特征;
第一阶段进行M次自编码训练和聚类,将聚类效果最佳对应的自编码器作为最终训练好的自编码器;每一次过程如下:(1)训练当前自编码器,直至对应编码器和解码器重构误差均达到最小;(2)将训练好的自编码器中第四编码器输出的特征向量输出至聚类层进行聚类,得到聚类结果;(3)改变自编码器中编码器和解码器的数量或者神经元个数;
第二阶段将最终训练好的自编码器中第四编码器输出的特征向量输出至聚类层。
有益效果:本发明将自动编码器应用于宫颈癌分型问题解决框架中,利用自动编码器为无监督神经网络模型特点,学习输入数据的新特征,即可以实现将原始复杂的组学数据降维,又解决了传统PCA降维性能低的特点,同时对自动对组学数据和临床电子病历数据进行降噪处理,抓去原始特征的核心信息,通过上述图片所示过程进行逐层训练,即一层一层训练,将原始数据通过编码解码过程,减小重构误差,使其最小化,极其有利于后续K-means算法进一步将特征向量进行计算聚类,配合得到准确的宫颈癌分型结果。
优选地,所述聚类层为K-Means,通过使KL散度最小化达到最好的聚类效果。
有益效果:KL散度是衡量两种不同分布之间行为差异的指标。我们希望将其最小化,以便目标分布尽可能接近聚类输出分布。将自编码器和聚类层结合,使模型聚类结果最小化KL散度作为评判标准解决了现有技术忽略KL散度,聚类效果不明显,无法提供有效合理的科学解释,本发明结合自编码器考虑KL散度,增加聚类的合理性和准确性,涉及到更为科学的学习过程,并为学习过程提供明确的学习指标和优化评价,使宫颈癌分型聚类结果更为显著合理,提高人工智能辅助诊断的有效性,为有效阐明宫颈癌的发生发展和分子机制提供理论基础和医学贡献。
为实现上述目的,按照本发明的第二方面,提供了一种基于深度学习的宫颈癌自洽分型系统,该系统包括:
计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行第一方面所述的基于深度学习的宫颈癌自洽分型方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)宫颈癌作为一个高度复杂的疾病,目前现有技术无法从单个层面对该疾病的发生发展进行综合表征。本发明从发掘微观分子信息的宫颈癌多组学数据以及反应患者宏观临床特征的临床指标,电子病历等临床诊断数据之间不为认知的关联入手,对多模态数据进行整合。由于蛋白质是发挥生物学功能的关键因素,蛋白质磷酸化作为最重要的翻译后修饰之一参与了几乎所有的生物过程,磷酸化反应由蛋白激酶催化,蛋白激酶是最大的基因家族之一,在人类基因组中,可编码蛋白激酶的基因约有520个,其中近一半的激酶基因已被研究证实参与了遗传疾病与癌症的发生发展,以激酶为靶点的药物也在被不断开发。因此,蛋白质组、磷酸化蛋白质组结合基因组和转录组学的分析无疑将提供新的见解。所以通过综合考虑宫颈癌的多层面分子特征,临床特征用于宫颈癌多模态数据整合的新型深度学习框架,可实现宫颈癌临床和分子的综合表征,有益于发现与临床关联的宫颈癌分型,该分型与患者的预后的生存时间显著相关,科学准确地得到患者的宫颈癌分型结果。
(2)传统的方法主要是通过计算多组学数据之间的相关性来建立组学之间的分子联系。然而,仅通过数据间的相关性分析无法对复杂庞大的分子关系网络进行深入的剖析。癌症临床数据包含了与癌症相关的临床信息,然而,医学数据庞大且复杂多样,对数据处理技术提出了更高的要求。本发明拟开发用于宫颈癌多模态数据整合的新型深度学习框架以实现宫颈癌临床和分子的综合表征。对相同类型的宫颈癌数据进行无监督训练,四种不同类型的数据同步训练,训练停止条件为四个深度学习模型分类结果自洽。由于提出基于深度学习的框架可以更好地处理医学数据并对复杂庞大地分子关系网络进行深层度的剖析和研究,并有效地利用自洽原理本身提出深度学习模型分析目标,本发明可以更加有效准确地确定宫颈癌分型结果,为临床诊断和生物背景提出合理解释和理论支持,对阐明宫颈癌分子机制具有重要意义。同时由于该技术具有普适性,因此也可推动其他癌症的相关研究。
附图说明
图1为发明提供的一种基于深度学习的宫颈癌自洽分型方法流程图;
图2为发明提供的自动编码器结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明提供了一种基于深度学习的宫颈癌自洽分型方法,该方法包括两个阶段:
第一阶段:获取多个样本的宫颈癌临床数据、宫颈癌转录组学、宫颈癌蛋白质组学和宫颈癌磷酸化组学;所有样本同种类型数据无监督学习训练一个深度学习模型,得到该类型数据的分型,四种类型数据同步训练,直至四个深度学习模型的分类结果自洽;对于每个分型结果,根据该分型中各样本生存时间,确定该分型和宫颈癌预后生存时间的关系。
利用上述框架对每种类型数据进行多次迭代训练,训练过程中随机增加或丢弃某个特征直到使各个组学、临床指标、肿瘤病理切片信息与临床诊断信息之间达到稳定的自洽状态。
优选地,所述四个深度学习模型的分类结果自洽的判据为:四个模型得到四种分型结果的P值最小。
优选地,对不同组学鉴定出的分子进行随机剔除操作,若P值变小,则保留该剔除操作,否则,不剔除,重复上述操作直至P值最小。
优选地,所述深度学习模型包括:
自动编码器,用于提取输入数据的特征,得到特征向量;
聚类层,用于对特征向量进行聚类,得到聚类结果。
优选地,所述自动编码器包括顺序串联的:输入层、N个编码器、N个解码器和输出层,编码器和解码器一一对应;
所述输入层用于接收宫颈癌数据;所述编码器用于对接收到的数据进行压缩,得到特征编码向量;所述解码器用于接收到的数据进行解码,得到重构特征;所述输出层用于输出重构特征;
第一阶段进行M次自编码训练和聚类,将聚类效果最佳对应的自编码器作为最终训练好的自编码器;每一次过程如下:(1)训练当前自编码器,直至对应编码器和解码器重构误差均达到最小;(2)将训练好的自编码器中第四编码器输出的特征向量输出至聚类层进行聚类,得到聚类结果;(3)改变自编码器中编码器和解码器的数量或者神经元个数;
第二阶段将最终训练好的自编码器中第四编码器输出的特征向量输出至聚类层。
优选地,所述聚类层为K-Means,通过使KL散度最小化达到最好的聚类效果。
对于聚类层,采用K-Means对所有特征向量进行训练,得到的聚类中心初始化聚类层权重。定义一个基于质心的目标概率分布,并根据模型聚类结果最小化KL散度,从高置信度的结果中进行学习,进而迭代的改善聚类结果。
第二阶段:获取待测样本宫颈癌临床数据、宫颈癌转录组学、宫颈癌蛋白质组学和宫颈癌磷酸化组学;将各类型数据输入至对应深度学习模型,得到各类型的分型结果,和对应的宫颈癌预后生存时间。
本实施例所使用自动编码器包括四个细节结构,其中第一个细节结构为输入层,第二个细节结构为编码层神经网络,第三个细节结构为解码层神经网络,第四个细节结构为输出层。
如图2所示,第二个细节为编码层神经网络,将输入的特征向量维度从高维度1382维通过三个神经层将输入高维度特征向量降至低维度10维,将输入数据转换为一个编码向量,其中10个维度中每一个维度表示学习的数据属性,将高信息低维向量再通过第三个细节解码神经层将降低维度的特征向量通过三个解码神经层解码回原始输入向量维度,每一层接收上一层解码重构向量,进行进一步解码重构,逐层减小重构误差,最后以1382原始高维度通过输出层输出。
对应地,本发明提供一种基于深度学习的宫颈癌自洽分型系统,该系统包括:计算机可读存储介质和处理器;所述计算机可读存储介质用于存储可执行指令;所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行上述基于深度学习的宫颈癌自洽分型方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于深度学习的宫颈癌自洽分型方法,其特征在于,该方法包括两个阶段:
第一阶段:获取多个样本的宫颈癌临床数据、宫颈癌转录组学、宫颈癌蛋白质组学和宫颈癌磷酸化组学;所有样本同种类型数据无监督学习训练一个深度学习模型,得到该类型数据的分型,四种类型数据同步训练,直至四个深度学习模型的分类结果自洽;对于每个分型结果,根据该分型中各样本生存时间,确定该分型和宫颈癌预后生存时间的关系;
第二阶段:获取待测样本宫颈癌临床数据、宫颈癌转录组学、宫颈癌蛋白质组学和宫颈癌磷酸化组学;将各类型数据输入至对应深度学习模型,得到各类型的分型结果,和对应的宫颈癌预后生存时间;
对不同组学鉴定出的分子进行随机剔除操作,若P值变小,则保留该剔除操作,否则,不剔除,重复上述操作直至P值最小;
其中,所述深度学习模型包括:
自动编码器,用于提取输入数据的特征,得到特征向量;
聚类层,用于对特征向量进行聚类,得到聚类结果;
所述自动编码器包括顺序串联的:输入层、N个编码器、N个解码器和输出层,编码器和解码器一一对应;
所述输入层用于接收宫颈癌数据;所述编码器用于对接收到的数据进行压缩,得到特征编码向量;所述解码器用于接收到的数据进行解码,得到重构特征;所述输出层用于输出重构特征;
第一阶段进行M次自编码训练和聚类,将聚类效果最佳对应的自编码器作为最终训练好的自编码器;每一次过程如下:(1)训练当前自编码器,直至对应编码器和解码器重构误差均达到最小;(2)将训练好的自编码器中第四编码器输出的特征向量输出至聚类层进行聚类,得到聚类结果;(3)改变自编码器中编码器和解码器的数量或者神经元个数;
第二阶段将最终训练好的自编码器中第四编码器输出的特征向量输出至聚类层。
2.如权利要求1所述的方法,其特征在于,所述聚类层为K-Means,通过使KL散度最小化达到最好的聚类效果。
3.一种基于深度学习的宫颈癌自洽分型系统,其特征在于,该系统包括:
计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至2任一项所述的基于深度学习的宫颈癌自洽分型方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111012031.5A CN113838570B (zh) | 2021-08-31 | 2021-08-31 | 一种基于深度学习的宫颈癌自洽分型方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111012031.5A CN113838570B (zh) | 2021-08-31 | 2021-08-31 | 一种基于深度学习的宫颈癌自洽分型方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113838570A CN113838570A (zh) | 2021-12-24 |
CN113838570B true CN113838570B (zh) | 2024-04-26 |
Family
ID=78961835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111012031.5A Active CN113838570B (zh) | 2021-08-31 | 2021-08-31 | 一种基于深度学习的宫颈癌自洽分型方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113838570B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114255878A (zh) * | 2021-12-07 | 2022-03-29 | 广东省人民医院 | 一种疾病分型模型的训练方法、系统、装置及存储介质 |
CN114496277B (zh) * | 2022-01-12 | 2022-07-26 | 广州保量医疗科技有限公司 | 肠道菌群配型的多组学数据优化方法、系统、设备及介质 |
CN114694748B (zh) * | 2022-02-22 | 2022-10-28 | 中国人民解放军军事科学院军事医学研究院 | 一种基于预后信息与强化学习的蛋白质组学分子分型方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108949970A (zh) * | 2017-05-23 | 2018-12-07 | 中国科学院深圳先进技术研究院 | 基于多组学的宫颈癌特征获取方法和系统 |
CN109902421A (zh) * | 2019-03-08 | 2019-06-18 | 山东大学齐鲁医院 | 一种宫颈癌预后评估方法、系统、存储介质及计算机设备 |
CN110379460A (zh) * | 2019-06-14 | 2019-10-25 | 西安电子科技大学 | 一种基于多组学数据的癌症分型信息处理方法 |
CN111028939A (zh) * | 2019-11-15 | 2020-04-17 | 华南理工大学 | 一种基于深度学习的多组学智能诊断系统 |
CN112687327A (zh) * | 2020-12-28 | 2021-04-20 | 中山依数科技有限公司 | 一种基于多任务和多模态的癌症生存分析系统 |
CN112820403A (zh) * | 2021-02-25 | 2021-05-18 | 中山大学 | 一种基于多组学数据预测癌症患者预后风险的深度学习方法 |
CN113257413A (zh) * | 2021-06-22 | 2021-08-13 | 安翰科技(武汉)股份有限公司 | 基于深度学习的癌症预后生存预测方法、设备及存储介质 |
-
2021
- 2021-08-31 CN CN202111012031.5A patent/CN113838570B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108949970A (zh) * | 2017-05-23 | 2018-12-07 | 中国科学院深圳先进技术研究院 | 基于多组学的宫颈癌特征获取方法和系统 |
CN109902421A (zh) * | 2019-03-08 | 2019-06-18 | 山东大学齐鲁医院 | 一种宫颈癌预后评估方法、系统、存储介质及计算机设备 |
CN110379460A (zh) * | 2019-06-14 | 2019-10-25 | 西安电子科技大学 | 一种基于多组学数据的癌症分型信息处理方法 |
CN111028939A (zh) * | 2019-11-15 | 2020-04-17 | 华南理工大学 | 一种基于深度学习的多组学智能诊断系统 |
CN112687327A (zh) * | 2020-12-28 | 2021-04-20 | 中山依数科技有限公司 | 一种基于多任务和多模态的癌症生存分析系统 |
CN112820403A (zh) * | 2021-02-25 | 2021-05-18 | 中山大学 | 一种基于多组学数据预测癌症患者预后风险的深度学习方法 |
CN113257413A (zh) * | 2021-06-22 | 2021-08-13 | 安翰科技(武汉)股份有限公司 | 基于深度学习的癌症预后生存预测方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113838570A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113838570B (zh) | 一种基于深度学习的宫颈癌自洽分型方法和系统 | |
Park et al. | Reproducibility and generalizability in radiomics modeling: possible strategies in radiologic and statistical perspectives | |
CN112768072B (zh) | 基于影像组学定性算法构建癌症临床指标评估系统 | |
US20210257050A1 (en) | Systems and methods for using neural networks for germline and somatic variant calling | |
US11544851B2 (en) | Systems and methods for mesothelioma feature detection and enhanced prognosis or response to treatment | |
CN116741397B (zh) | 基于多组学数据融合的癌症分型方法、系统及存储介质 | |
EP3935577A1 (en) | Improved histopathology classification through machine self-learning of "tissue fingerprints | |
CN111933281A (zh) | 一种疾病分型的确定系统、方法、装置及存储介质 | |
CN117422704B (zh) | 一种基于多模态数据的癌症预测方法、系统及设备 | |
CN112562855B (zh) | 一种肝细胞癌术后早期复发风险预测方法、介质及终端设备 | |
CN118116600B (zh) | 一种基于多组学和临床检验数据的结直肠癌预后方法 | |
CN115715416A (zh) | 基于机器学习的医学数据检查器 | |
CN116385441A (zh) | 一种基于mri对少突胶质细胞瘤进行风险分层的方法及系统 | |
CN113764101A (zh) | 基于cnn的乳腺癌新辅助化疗多模态超声诊断系统 | |
WO2023215571A1 (en) | Integration of radiologic, pathologic, and genomic features for prediction of response to immunotherapy | |
KR102225231B1 (ko) | 엑소좀 miRNA를 기준으로 암 환자를 판별하는 방법 및 장치 | |
Darvish et al. | AI-Enabled Lung Cancer Prognosis | |
CN114822691B (zh) | 基于图卷积神经网络的临床事件预测装置 | |
Yue et al. | TCRosetta: an integrated analysis and annotation platform for T-cell receptor sequences | |
Sanghal et al. | The Signals of Subtypes: How AI Creates Personalized Cancer Treatment (Dr. Hang Chang) | |
Asuncion | Implementing deep convolutional neural networks on adenocarcinoma images for classification and genomic association analysis | |
Asuncion | Implementation of Convolutional Networks on Biomedical Images and its Connection to Genomic Features | |
Woicik et al. | In Silico Optimization of Tissue Microarray Design for Machine Learning Analysis | |
Peng et al. | Decoding Spatial Tissue Architecture: A Scalable Bayesian Topic Model for Multiplexed Imaging Analysis | |
Shen et al. | Efficient Feature Extraction from High Sparse Binary Genotype Data for Genetic Risk Prediction by Deep Learning Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |