CN115985503B - 基于集成学习的癌症预测系统 - Google Patents
基于集成学习的癌症预测系统 Download PDFInfo
- Publication number
- CN115985503B CN115985503B CN202310267344.8A CN202310267344A CN115985503B CN 115985503 B CN115985503 B CN 115985503B CN 202310267344 A CN202310267344 A CN 202310267344A CN 115985503 B CN115985503 B CN 115985503B
- Authority
- CN
- China
- Prior art keywords
- samples
- sample
- classifier
- cancer
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 70
- 201000011510 cancer Diseases 0.000 title claims abstract description 60
- 238000011160 research Methods 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000012706 support-vector machine Methods 0.000 claims abstract description 23
- 230000001575 pathological effect Effects 0.000 claims abstract description 18
- 230000002159 abnormal effect Effects 0.000 claims abstract description 17
- 238000005457 optimization Methods 0.000 claims abstract description 15
- 230000010354 integration Effects 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 55
- 239000002245 particle Substances 0.000 claims description 31
- 208000005718 Stomach Neoplasms Diseases 0.000 claims description 22
- 206010017758 gastric cancer Diseases 0.000 claims description 22
- 201000011549 stomach cancer Diseases 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000007170 pathology Effects 0.000 claims description 7
- 238000007621 cluster analysis Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000008506 pathogenesis Effects 0.000 abstract description 8
- 230000007613 environmental effect Effects 0.000 abstract description 6
- 208000005623 Carcinogenesis Diseases 0.000 abstract description 4
- 230000036952 cancer formation Effects 0.000 abstract description 4
- 231100000504 carcinogenesis Toxicity 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 230000035508 accumulation Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- BPYKTIZUTYGOLE-IFADSCNNSA-N Bilirubin Chemical compound N1C(=O)C(C)=C(C=C)\C1=C\C1=C(C)C(CCC(O)=O)=C(CC2=C(C(C)=C(\C=C/3C(=C(C=C)C(=O)N\3)C)N2)CCC(O)=O)N1 BPYKTIZUTYGOLE-IFADSCNNSA-N 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 235000006694 eating habits Nutrition 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000001156 gastric mucosa Anatomy 0.000 description 2
- 206010020718 hyperplasia Diseases 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 235000018102 proteins Nutrition 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 102100036475 Alanine aminotransferase 1 Human genes 0.000 description 1
- 108010082126 Alanine transaminase Proteins 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 206010019375 Helicobacter infections Diseases 0.000 description 1
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 1
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 1
- 206010054949 Metaplasia Diseases 0.000 description 1
- 208000007107 Stomach Ulcer Diseases 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 210000004229 gastric stump Anatomy 0.000 description 1
- 201000005917 gastric ulcer Diseases 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000968 medical method and process Methods 0.000 description 1
- 230000015689 metaplastic ossification Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000005740 tumor formation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于集成学习的癌症预测系统,属于生物科学领域,包括:特征提取模块,用于对研究数据集中的样本进行特征提取,研究数据集包括病患的生活习惯样本、环境因素样本、体检报告样本;训练优化模块,用于对分类器进行训练,并在模型训练过程中对支持向量机参数进行优化,进而得到基分类器;集成模块,用于将完成训练的多个基分类器进行集成,得到用于对癌症发病风险进行预测的异态分类器。本发明对研究数据集中样本特征进行提取,提取的病理特征能够充分显示出与癌症肿瘤发生的潜在联系,并进行基分类器的优化,最终搭建用于对癌症发病风险进行预测的异态分类器,以此大大提升分类器的预测准确度。
Description
技术领域
本发明涉及生物科学领域,尤其涉及一种基于集成学习的癌症预测系统。
背景技术
癌症作为当前医学领域最难克服的疾病之一,已经有了很长的研究历史。而随着计算机科学技术的不断发展,采用大数据来分析当前医学领域的大量病患数据已经成为了当前研究的主流。而在如今的数据挖掘研究当中,采用各类机器学习算法对大数据进行切分处理,提取关键特征数据并搭建数学模型也成为了最为热门的方法之一;在更深层次的研究当中,计算机根据医学C-T图像对患癌的病人图片进行深度学习挖掘,通过搭建人工神经网络来学习癌症病理特征的分布以及肿瘤构成形状,通过研究反馈给医生,并做出更加准确的医疗判断。机器学习当中经典的分类预测模型包括决策树、支持向量机等算法,能够准确对病理数据进行分析。深度学习中的人工神经网络,自适应神经网络等算法能够搭建更加复杂的肿瘤分析网络完成更加深度的分析,得到更细致的分析结论。在生物科学研究领域,对于生物基因的研究也促进了癌症诱导因素的分析发展,而当前的研究当中主要是对可表达蛋白质对生物的影响,以及编码类基因对癌症细胞构成研究。
在计算机领域,通过经典的机器学习算法进行大数据的分类预测在股票领域、房地产领域都取得了可观的效果,然而上述算法由于数据的局限性普适度不高,直接将其思想分析癌症肿瘤数据不能取得好的预测分析效果。深度学习方法由于其复杂的网络结构只能对医学图像进行深度分析,且对算力要求高,难以实现。在医学研究领域,通常对病患的数据分析采用传统的统计学进行分析归类,该类数学方法计算复杂度大,计算量大,根据研究结果,传统的医学方法分析并不能提供给医生实质性的做出医学判断的数据支持。总结其缺陷与不足可以分为以下几点:
(1)当前传统的机器学习分类预测方法提取的病理特征不能充分显示出与胃癌肿瘤发生的潜在联系,导致预测准确率低;
(2)自适应神经网络等深度学习算法搭建要求高的计算性能,难以普及在医学的常规研究当中,只能分析特定的医学C-T图像。
发明内容
本发明的目的在于克服现有技术的问题,提供了一种基于集成学习的癌症预测系统。
本发明的目的是通过以下技术方案来实现的:一种基于集成学习的癌症预测系统,系统具体包括:
特征提取模块,用于对研究数据集中的样本进行特征提取,研究数据集包括病患的生活习惯样本、环境因素样本、体检报告样本;
训练优化模块,用于将特征提取模块提取的特征信息作为输入数据集,对分类器进行训练,并在模型训练过程中对支持向量机参数进行优化,进而得到基分类器;
集成模块,用于将完成训练的多个基分类器进行集成,得到用于对癌症发病风险进行预测的异态分类器。
在一示例中,所述特征提取模块基于Relief算法对研究数据集中的样本进行特征提取。
在一示例中,所述特征提取模块进行特征提取包括:
基于Relief算法对研究数据集中的样本进行特征提取得到初始相关性排序数据集;
采用局部加权聚类算法对初始相关性排序数据集中样本进行聚类分析,进而将高影响度特征聚类为高相关度聚类组,并将与高影响度特征产生相关的中影响度及低影响度的特征也聚类为高相关度聚类组,将高相关度聚类组作为输入数据集。
在一示例中,所述采用局部加权聚类算法对初始相关性排序数据集中样本进行聚类分析包括:
基于熵准则进行聚类不确定性估计;
搭建局部加权法细化协关联矩阵;
进行局部加权证据积累;同时,进行局部加权图划分;
输出共识聚类分组,得到高相关度聚类组。
在一示例中,所述搭建局部加权法细化协关联矩阵前还包括:
衡量聚类相对于M个基聚类集合的不确定性,得到集合驱动聚类索引;
在局部加权图划分中,根据集合驱动聚类索引值确定节点链路间的权重值。
在一示例中,所述系统还包括参数优化模块,用于优化支持向量机参数,包括:
采用粒子群算法优化支持向量机参数,进而得到最优支持向量机基分类器。
在一示例中,所述系统还包括训练模块,用于对多个基分类器进行训练。
在一示例中,所述基于集成模块将多个基分类器进行集成包括:
将基分类器通过参数变化的融合方式集成为XGBoost的同态集成分类器;
比较各类同态集成分类器的错误率;
根据错误率的高低赋予不同权重;
将同态分类器进行集成,最终合并搭建异态集成分类器。
需要进一步说明的是,上述各示例对应的技术特征可以相互组合或替换构成新的技术方案。
与现有技术相比,本发明有益效果是:
1.在一示例中,本发明研究数据集包括生活习惯样本、环境因素样本、体检报告样本,对上述样本特征进行提取,提取的病理特征能够充分显示出与癌症肿瘤发生的潜在联系,并进行基分类器的优化,最终搭建用于对癌症发病风险进行预测的异态分类器,以此大大提升分类器的预测准确度,提升了对癌症发病倾向探究效率。同时,本发明算法实现计算复杂度低,无需搭建复杂的人工神经网络,也无需对庞大数据集进行高梯度的计算,对计算机硬件的要求较低,易于在医学领域复现。
2.在一示例中,通过Relief算法进行样本特征提取,能够根据病人的生活习惯、环境因素、体检报告等数据进行类近邻的差异度分析,并根据特征之间的差异度进行权重赋值,再根据赋值权重的大小对样本与胃癌相关度进行排序,最终获取到与癌症相关度最高的初步样本特征,以此保证癌症发病风险预测的准确度。
3.在一示例中,采用局部加权聚类的方法对初始提取排序后的胃癌数据集进行聚类分析,将与高影响度特征产生相关的中影响度及低影响度的特征也聚类为高相关度聚类组,考虑了中影响度以及部分低影响度但与高影响度特征的产生密切相关病理特征,即实现了对高影响度特征的补充,充分挖掘出与癌症相关度高的病例特征,为后续风险预测提供了可靠的数据支撑。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明,此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明一示例中的聚类分析方法流程图;
图2为本发明癌症预测系统优选示例对应的执行过程图;
图3为本发明胃癌预测中粒子群优化算法计算最优分布点结论图;
图4为本发明胃癌预测中异态分类模型设置图;
图5为本发明胃癌预测中分类模型分类效果实验结果图;
图6为本发明胃癌预测中异态分类模型的性能仿真图;
图7为本发明胃癌预测中各分类模型的癌症预测性能实验结果图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,使用序数词 (例如,“第一和第二”、“第一至第四”等 )是为了对物体进行区分,并不限于该顺序,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,属于“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
在一示例中,一种基于集成学习的癌症预测系统,该预测系统包括特征提取模块、训练优化模块和集成模块。其中,特征提取模块用于对研究数据集中的样本进行特征提取,研究数据集包括病患的生活习惯样本、环境因素样本、体检报告样本。通过对生活习惯样本、环境因素样本、体检报告样本进行癌症的相关度分析,提取与癌症相关度高的特征样本数据,能够能够更加准确地研究胃癌发病因素原因。
训练优化模块,用于将特征提取模块提取的特征信息作为输入数据集,对分类器进行训练,即根据分类器的预测结果,不断优化调整支持向量机参数(适应度函数),当然,该训练过程还可进一步优化惩罚因子C1、惩罚因子C2、高斯核函数中的核参数等参数,以提高分类器的预测精度,直至得到满足用户目标精度的基分类器。
集成模块,用于将完成训练的多个基分类器进行集成,具体基于CHH混合学习模型实现基分类器的集成,即采用将同态集成学习及异态集成学习进行融合,进而得到用于对癌症发病风险进行预测的异态分类器。
本示例中,本发明研究数据集包括生活习惯样本、环境因素样本、体检报告样本,对上述样本特征进行提取,提取的病理特征能够充分显示出与癌症肿瘤发生的潜在联系,并进行基分类器的优化,最终搭建用于对癌症发病风险进行预测的异态分类器,突破了传统生物科学研究框架,以此大大提升分类器的预测准确度,提升了对癌症发病倾向探究效率,能够全方位对病患身体状况分析做出诠释,实现更科学准确的癌症患病风险研究。同时,本发明算法实现计算复杂度低,无需搭建复杂的人工神经网络,也无需对庞大数据集进行高梯度的计算,对计算机硬件的要求较低,易于在医学领域复现。同时通过修改图像数据集的录入方式也能实现深度学习对图像进行分析,且实验效率与最终结果相较于深度学习各类神经网络都有更大的提升。
另外,本发明系统采用的数据处理方法泛化能力强,能够对各类癌症数据进行处理分析,适用于当前医学环境中的各类癌症预测以及其他复杂的复杂疾病的预测研究,如乳腺癌、肺癌等癌症的预测研究。
在一示例中,特征提取模块基于Relief算法对研究数据集中的样本进行特征提取。具体地,通过计算一个数据样本当中的各类样本的差异度,在差异度计算的过程当中,包括同类的邻居样本数据和另类的特征样本数据。其中,同类的邻居样本数据指该样本所表达的特征与该邻居样本拥有相似的类标签并因此间距较小,另类的特征样本数据表示同该样本中的特征具有不相似的类标签。随后再根据差异度的大小来计算判断出在该样本当中不同类型的样本的区分能力。
进一步地,Relief特征选择算法当中的实验计算部分具有特殊定义:在数据集当中某些样本特征在邻居样本之间差异较小,但在另类紧邻样本之间差异却很大,由此便认为该特征样本变量在不同类别的样本之间具有强区分能力,依据此计算方式,根据样本的特征变量区分邻居样本的能力,给每个特征赋予权重值,根据这些权重值对数据特征集进行排序,由此根据最初预定的样本的属性权重阈值来规定最终的病理特征。
进一步地,基于Relief算法对研究数据集中的样本进行特征提取具体包括:
设置样本数据集为,其中k表示数据集含有k条数据,每条数据包
含了p个特征向量,设置,其中,数据集中的特征值可以为离
散型或连续型数据,的类标签表示的,类标签的集合为,特征样本与在特征上具有如下定义:
对于离散型的特征:
对于连续型的特征:
其中,diff表示表示计算两个特征样本之间的差异度,便于根据样本差异度设置
样本关系权重;与表示原始病患数据集中特征t的最大值和最小值;i,j为编
号。
实验伊始,Relief算法从设置的病理数据中随机选取一个样本,再
从肿瘤与非肿瘤病理样本中分别取出一个样本,得到的样本距离最近。根据公式继续更
新特征 t 的权重,进而实现根据赋值权重的大小对样本与胃癌相关度进行排序,
最终获取到与癌症相关度最高的初步样本特征,具体权重更新计算式为:
其中,表示与样本相同类型的样本;h表示随机选取样本的次
数;表示与样本存在差异的样本。
本示例中,通过Relief算法进行样本特征提取,能够根据病人的生活习惯、环境因素、体检报告等数据进行类近邻的差异度分析,并根据特征之间的差异度进行权重赋值,再根据赋值权重的大小对样本与胃癌相关度进行排序,最终获取到与癌症相关度最高的初步样本特征,进而形成初始相关性排序数据集,以此保证癌症发病风险预测的准确度。
在一示例中,特征提取模块进行特征提取包括:
基于Relief算法对研究数据集中的样本进行特征提取得到初始相关性排序数据集;
采用局部加权聚类算法对初始相关性排序数据集中样本进行聚类分析,进而将高影响度特征聚类为高相关度聚类组,并将与高影响度特征产生相关的中影响度及低影响度的特征也聚类为高相关度聚类组,将高相关度聚类组作为输入数据集。
具体地,当前研究中对样本的特征提取仅采用相关度计算方法,根据计算样本特
征之间的相似度作为样本数据集构建的主要依据,此种特征提取方式将导致样本数据集中
于癌症高影响度的特征中,而忽视了中影响度以及部分低影响度但与高影响度特征的产生
密切相关病理特征。需要说明的是,高影响度、中影响度、低影响度根据对癌症发病率影响
程度进行划分,如某一特征引发癌症发病风险的几率大于50%为高影响度特征,30%-50%为
中影响度特征,15%-30%为高低度特征。为了解决该问题,本示例提出了一种特征提取与特
征聚类的方法,对初始病理数据进行Relief算法进行特征提取获得初始相关性排序数据集,再对获取的数据集采用局部加权聚类的方法对初始提
取排序后的胃癌数据集进行聚类分析,将聚类结果分为2组:高相关度聚类组以及低相关度
聚类组,采用局部加权聚类的方法能够将Relief算法提取的排序数据集进行聚类分析,该
聚类方法能够将胃癌影响特征进行分组聚类,将高影响度特征聚为高相关度聚类组,部分
与高影响度特征产生相关的中影响度及低影响度的特征也聚为高相关度聚类组,剩余的特
征数据认定为低相关度聚类组,考虑了中影响度以及部分低影响度但与高影响度特征的产
生密切相关病理特征,即实现了对高影响度特征的补充,充分挖掘出与癌症相关度高的病
例特征,为后续风险预测提供了可靠的数据支撑。
在一示例中,如图1所示,采用局部加权聚类算法对初始相关性排序数据集中样本进行聚类分析包括:
(1)基于熵准则进行聚类不确定性估计;具体地,为了评估每个聚类的可靠性,需
借助整个集合中的聚类标签引入熵的概念,熵表示与随机变量相关的不确定性的度量。每
个集群是一组数据对象。根据Relief算法提取的初始数据集,确定集合,对于需要获取的聚类分组设置为,基于集合进行分簇,
其中,基聚类定义为:
其中,p(a,b)表示计算聚类分组的概率,获取聚类交集并根
据其类别数量确定聚类分组的联合概率;表示在中的集群数量;表示
中的第j个聚类;表示计算两个集合(或集群)的交集;表示中输出对象
的数量。
(2)搭建局部加权法细化协关联矩阵,以反映两个物体在集成中被分组到同一个
簇中的次数。具体地,对于集合:
其中,A表示协关联矩阵;表示矩阵元素; M表示基聚类个数;表示根据样本对
象与样本对象之间的数量关系,若作为对比的样本对象属性相同,则设
置为0;若不同,则对其进行加1计算,循环比对所有样本类信息,最终得到矩阵关联权值;表示聚类所属的对象;表示Reilef算法提取的初始数据集DataSet的第
j个数据对象。
(3)进行局部加权证据积累;同时,进行局部加权图划分;具体地,局部加权证据积
累以相似度矩阵为输入,迭代合并区域,得到树状图,即聚类的层次表示。利用矩阵作为初始相似度矩阵S:
其中表示矩阵中的项,N个原始病理特征数据对象被视为N个
初始区域;初始区域的集合表示如下:
其中,表示初始病理特征对象集的划分区域;表示第i类病理特征对象的
划分区域;表示数据集DataSet的第i个数据对象;由此表示中的第i个区域,每个初
始区域只包含一个数据对象。
进一步地,在局部加权图划分过程中,为了构造二部图,将聚类和对象都作为图节
点;当且仅当一个节点是数据对象,另一个节点是包含该数据对象的集群时,两个节点之间
存在链路。给定对象和集群,且,它们之间
的链路权重根据历史经验确定或者均分确定,局部加权二部图定义为:
其中的节点集,表示节点之间的连接。
(4)输出共识聚类分组,得到高相关度聚类组。局部加权二部图被划分为一定数量的不相交节点集。将同一段内的对象节点视为一个聚类,将聚类结果分为2组:高相关度聚类组以及低相关度聚类组。
在一示例中,搭建局部加权法细化协关联矩阵前还包括:
进行集合驱动的聚类有效性评价,即衡量聚类相对于M个基聚类集合的不确定性,
得到集合驱动聚类索引;在得到聚类集合中每个聚类的不确定性(或熵)后,通过考虑聚类
相对于集合的不确定性来衡量聚类的可靠性。对于给定的具有M个基聚类的集合,定义一
个聚类的集合驱动聚类索引(ECI)为:
其中,表示调整聚类不确定性对索引影响的参数。
在局部加权图划分中,根据集合驱动聚类索引值确定节点链路间的权重值。具体
地,给定对象和集群,且,它们之间的链路
权重由的ECI值决定,即链路的权重与其所连接的集群的可靠性相关。因此,加入
ECI测度后,二部图不仅考虑了对象与聚类之间的隶属关系,还反映了集合中的局部可靠
度,即聚类的可靠度。此时,两个节点和之间的链路权值定义为:
其中,、为数据集、集合中的数据对象。
在一示例中,参数优化模块优化支持向量机参数具体为:
采用粒子群算法优化支持向量机参数,进而得到最优支持向量机基分类器。具体地,粒子群算法是模拟蜂群行为的一种优化算法,蜂群大小也是衡量算法效率的重要指标。在标准的粒子群算法中,群大小指的是粒子的数量。在多群粒子群优化算法中,群的大小不仅仅是粒子的数量,群的数量也是群大小的一个重要特征,具体实现方式为:
在根据胃癌特征维度确定的搜索空间的D维上初始化一个具有随机位置和速度的粒子的总体数组;
对于每个高相关性病理特征粒子,在D个变量中求出所需的优化适应度函数;
将粒子的适应度评价与最优适应度进行比较,如果当前值优于,
就将设置为当前的粒子适应度,设置值等于D维空间中粒子位置;
找出到目前为止最邻近粒子,并将其索引赋给变量g。
改变粒子的速度和位置具体通过下式进行计算:
其中表示均匀分布在中的随机数向量,在每次迭代和每个粒
子中随机生成;符号表示组件式的乘法;表示当前粒子的位置;表示上一个最优粒子
的位置;表示最优速度。如果满足某个条件(通常是足够好的适应度或最大迭代次数),则
退出循环。采用粒子群优化算法获得的3个不同的SVM支持向量机基本分类器训练t次后的t
个实验基本分类器。
作为一选项,可采用梯度下降法对支持向量机参数进行优化。
进一步地,还包括对申请惩罚因子C1、惩罚因子C2以及高斯核函数中的核参数进行更新,具体包括:
1. 首先训练癌症数据集,并将其进行标准化处理;
2. 初始化参数设置,C1=0.2,C2=0.5;
3. 设置适应度值输出分类精度得分,返回比较分类结果和实际测得值;
4. 设置全局极值,支持向量机核函数gamma以及惩罚参数C;
5. 参数gamma和惩罚参数C以实数向量的形式进行编码作为粒子群算法PSO的粒子的位置;
6. 初始化粒子位置,进行迭代;
7. 个体极值等于最初位置,计算个体极值的适应度值,计算全局极值的适应度值,迭代次数设置为n_iterations=10,种群大小设置为n_particles=50,对每个粒子进行循环;
8. 每个粒子的适应度值等于适应度函数(每个粒子的具体位置),每个粒子的适应度值与其个体极值的适应度值作比较,若更优,则个体极值更新后的每个粒子的个体极值与全局极值比较,若更优,则更新全局极值;
9. 更新速度和位置,更新后新粒子的具体位置;
10. 最终输出在癌症最相关特征数据集下分类器的最优参数,将最优参数代入基分类器进行优化。
在一示例中,系统还包括训练模块,在搭建最优支持向量机基分类器基础上,用于对多个基分类器进行训练,得到的同态分类器作为第一层标准分类器。
在一示例中,将第一层初始分类器再采用Boost算法进行异态集成,即将同态集成学习及异态集成学习进行融合得到二层标准分类器,由此搭建完成胃癌发病倾向分析模型,具体包括:
基于集成模块将多个基分类器进行集成包括:
将基分类器通过参数变化的融合方式集成为XGBoost的同态集成分类器;
比较多类同态集成分类器的错误率;
根据错误率的高低赋予不同权重;
将同态分类器进行集成,最终合并搭建异态集成分类器。
将上述示例进行组合,得到本发明基于集成学习的癌症预测系统的优选示例,系统包括特征提取模块、训练优化模块、训练模块和集成模块。此时,如图2所示,本发明各模块相互配合执行癌症风险预测包括以下步骤:
先通过特征提取模块基于Relief算法对病患数据集中的胃癌相关度高的特征样本进行提取,再通过训练优化模块优化支持向量机并将优化后的分类器作为集成的基础分类器,通过训练模块对多个基础分类器进行训练后,集成模块基于boost分类算法的异态集成后能够得到更高的分类预测准确率的异态集成分类器,在癌症预测中能够以更小复杂度实现癌症发病风险预测,并根据癌症相关度最高特征自动计算模型的最优参数,相较于当前的癌症分析方式,具有更高的执行准确率以及智能分析。
为说明本发明技术方案的技术效果,将本发明优选示例对应的基于集成学习的癌症预测系统、以及优选示例对应的非编码基因异常表达分析系统应用至胃癌研究领域。
首先,对数据集进行设置。本示例采取的实验数据集来自于某肿瘤医院提供的胃癌病例对照组的样本。在样本数据集中包含了病人的血生化数据,其中风险数据的指标包含:铁元素、胆红素、蛋白、丙氨酸氨基转移酶等在内的39个风险元素。此外,样本中还提供了风险人群的调查问卷信息,在该问卷信息中包含了对受访人员的生活环境、饮食习惯、身体状况等信息进行统计,最终采取了饮食习惯、胃溃疡患病情况、胃肠上皮化生、胃粘膜异型增生等102类病理特征,经过数据处理后,获得了1492名人员的数据集统计信息。
再基于Relief特征提取算法对原始数据集进行病理特征样本的相关性进行了分析,得到了包括残胃、胃黏膜异型增生、幽门螺旋杆菌感染在内的20个与胃癌强相关性病理特征。
基分类器的选择中,采用网格搜索与交叉验证对支持向量机进行参数调整测试,后续按照粒子群算法对其进行优化,得到在Relief算法提取的数据集上取得最好效果的分类器,粒子群优化算法计算最优分布点结论如附图3所示,经计算得到最优参数分布:gamma为0.06, C为8.69。
对计算获取的最优支持向量机分类器采用CHH算法进行集成,获得最终分类器,模型设置如附图4所示。对分类器进行训练并进行评估,选取1190条病理样本数据作为训练集,选取300条病理数据作为测试集,并在包括决策树分类(Decision Tree,DT)、支持向量机算法(Support Vector Machine,SVM)、逻辑回归分类(Logistic Regression,LR)、反向传播神经网络(backpropagation neural network,BNN)、梯度提升算法(GradientBoosting,GB)在内的5种分类算法进行实验比对,在测试集上进行实验验证,从得到实验信息中分析发现本文提出的基于CHH算法的分类预测模型中预测值与真值重叠率高,实现的预测准确率最高,分类效果最好,实验结果如附图5所示。需要说明的是,图5仅为实验结果示意图,并不用于限定本申请保护范围。
根据评估原则,本发明采用的评估方法选取了比对模型准确率、召回率以及精准度衡量指标,对比结果如附图6所示。根据图6可以看出,本发明系统相较于现有分类方法,在模型准确率、召回率以及精准度均有较大提升。
为进一步证明本文实验的有效性,ROC曲线进行验证,通过ROC曲线下面积AUC值衡量分类器的性能优劣,根据混淆矩阵确定ROC曲线,并评价各分类模型的癌症预测能力,实验效果如附图7及表1所示:
根据图7可知,本发明算法实验结果对应的曲线位于最上方,具有良好的癌症预测能力。需要说明的是,图7仅为实验结果示意图,并不用于限定本申请保护范围。同时,根据表1可知,本发明基于Relief特征选择的CHH集成算法能够得到最好的胃癌预测效果,在提取的病理特征数据中本申请CHH算法在准确率上比经典机器学习算法至少高出5%,准确率接近90%,且对庞大的医疗数据集处理有效,极大的提升了胃癌的发病倾向探究效率,且普适度高,对其他的癌症研究也能得到高准确率的效果。
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。
Claims (7)
1.一种基于集成学习的癌症预测系统,其特征在于:系统包括:
特征提取模块,用于对研究数据集中的样本进行特征提取,研究数据集包括病患的生活习惯样本、环境因素样本和体检报告样本;
训练优化模块,用于将特征提取模块提取的特征信息作为输入数据集,对分类器进行训练,并在模型训练过程中对支持向量机参数进行优化,进而得到基分类器;
集成模块,用于将完成训练的多个基分类器进行集成,得到用于对癌症发病风险进行预测的异态分类器;
所述特征提取模块基于Relief算法对研究数据集中的样本进行特征提取,包括:
设置样本数据集为,其中k表示数据集含有k条数据,每条数据包含了p个特征向量,设置/>,其中1≤i≤k,数据集中的特征值为离散型或连续型数据,S i 的类标签表示的/>,类标签的集合为/>,特征样本S i 与特征样本S j 在特征t上具有如下定义:
对于离散型的特征:
;
对于连续型的特征:
;
其中,diff表示计算两个特征样本之间的差异度,进而根据样本差异度设置样本关系权重;与/>表示原始病患数据集中特征t的最大值和最小值,且1≤t≤p;i,j为编号,且1≤i≠j≤k;
Relief算法从设置的病理数据中随机选取一个样本S i ,再从肿瘤与非肿瘤病理样本中分别取出一个样本,得到的样本距离S i 最近;根据权重更新计算式继续更新特征 t 的权重,进而实现根据赋值权重的大小对样本与胃癌相关度进行排序,最终获取与癌症相关度最高的初步样本特征,具体权重更新计算式为:
;
其中,表示与样本S i 相同类型的样本;h表示随机选取样本的次数;表示与样本S i 存在差异的样本。
2.根据权利要求1所述基于集成学习的癌症预测系统,其特征在于:所述特征提取模块进行特征提取包括:
基于Relief算法对研究数据集中的样本进行特征提取得到初始相关性排序数据集;
采用局部加权聚类算法对初始相关性排序数据集中样本进行聚类分析,进而将高影响度特征聚类为高相关度聚类组,并将与高影响度特征产生相关的中影响度及低影响度的特征也聚类为高相关度聚类组,将高相关度聚类组作为输入数据集。
3.根据权利要求2所述基于集成学习的癌症预测系统,其特征在于:所述采用局部加权聚类算法对初始相关性排序数据集中样本进行聚类分析包括:
基于熵准则进行聚类不确定性估计;
搭建局部加权法细化协关联矩阵;
进行局部加权证据积累;同时,进行局部加权图划分;
输出共识聚类分组,得到高相关度聚类组。
4.根据权利要求3所述基于集成学习的癌症预测系统,其特征在于:所述搭建局部加权法细化协关联矩阵前还包括:
衡量聚类相对于M个基聚类集合的不确定性,得到集合驱动聚类索引;
在局部加权图划分中,根据集合驱动聚类索引值确定节点链路间的权重值。
5.根据权利要求1所述基于集成学习的癌症预测系统,其特征在于:所述对支持向量机参数进行优化包括:
采用粒子群算法优化支持向量机参数,进而得到最优支持向量机基分类器。
6.根据权利要求1所述基于集成学习的癌症预测系统,其特征在于:所述系统还包括训练模块,用于对多个基分类器进行训练。
7.根据权利要求1所述基于集成学习的癌症预测系统,其特征在于:基于集成模块将多个基分类器进行集成包括:
将基分类器通过参数变化的融合方式集成为XGBoost的同态集成分类器;
比较各类同态集成分类器的错误率;
根据错误率的高低赋予不同权重;
将同态分类器进行集成,最终合并搭建异态集成分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310267344.8A CN115985503B (zh) | 2023-03-20 | 2023-03-20 | 基于集成学习的癌症预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310267344.8A CN115985503B (zh) | 2023-03-20 | 2023-03-20 | 基于集成学习的癌症预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115985503A CN115985503A (zh) | 2023-04-18 |
CN115985503B true CN115985503B (zh) | 2023-07-21 |
Family
ID=85958220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310267344.8A Active CN115985503B (zh) | 2023-03-20 | 2023-03-20 | 基于集成学习的癌症预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115985503B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116913479B (zh) * | 2023-09-13 | 2023-12-29 | 西南石油大学 | 一种确定实施pmrt的三阴性乳腺癌患者的方法及装置 |
CN118016313B (zh) * | 2024-04-08 | 2024-07-19 | 北京大学第三医院(北京大学第三临床医学院) | 一种前列腺神经内分泌癌预测模型的训练方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506579A (zh) * | 2017-08-14 | 2017-12-22 | 西南大学 | 基于集成学习的脑出血预测模型建立方法及系统 |
CN112131673A (zh) * | 2020-09-30 | 2020-12-25 | 西南石油大学 | 基于融合神经网络模型的发动机喘振故障预测系统及方法 |
CN113257413A (zh) * | 2021-06-22 | 2021-08-13 | 安翰科技(武汉)股份有限公司 | 基于深度学习的癌症预后生存预测方法、设备及存储介质 |
CN113535694A (zh) * | 2021-06-18 | 2021-10-22 | 北方民族大学 | 一种基于Stacking框架的特征选择方法 |
CN114220539A (zh) * | 2021-11-30 | 2022-03-22 | 中山大学 | 一种基于集成学习的晚期胃癌生存预测方法 |
CN114678122A (zh) * | 2022-02-17 | 2022-06-28 | 上海市第十人民医院 | 一种癌症风险预测方法、系统、设备及介质 |
WO2023014297A2 (en) * | 2021-08-02 | 2023-02-09 | National University Of Singapore | Circulating microrna panel for the early detection of breast cancer and methods thereof |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220108123A1 (en) * | 2020-10-01 | 2022-04-07 | The Board Of Trustees Of The University Of Illinois | Tissue microenvironment analysis based on tiered classification and clustering analysis of digital pathology images |
-
2023
- 2023-03-20 CN CN202310267344.8A patent/CN115985503B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506579A (zh) * | 2017-08-14 | 2017-12-22 | 西南大学 | 基于集成学习的脑出血预测模型建立方法及系统 |
CN112131673A (zh) * | 2020-09-30 | 2020-12-25 | 西南石油大学 | 基于融合神经网络模型的发动机喘振故障预测系统及方法 |
CN113535694A (zh) * | 2021-06-18 | 2021-10-22 | 北方民族大学 | 一种基于Stacking框架的特征选择方法 |
CN113257413A (zh) * | 2021-06-22 | 2021-08-13 | 安翰科技(武汉)股份有限公司 | 基于深度学习的癌症预后生存预测方法、设备及存储介质 |
WO2023014297A2 (en) * | 2021-08-02 | 2023-02-09 | National University Of Singapore | Circulating microrna panel for the early detection of breast cancer and methods thereof |
CN114220539A (zh) * | 2021-11-30 | 2022-03-22 | 中山大学 | 一种基于集成学习的晚期胃癌生存预测方法 |
CN114678122A (zh) * | 2022-02-17 | 2022-06-28 | 上海市第十人民医院 | 一种癌症风险预测方法、系统、设备及介质 |
Non-Patent Citations (5)
Title |
---|
"A Hybrid Computer-aided-diagnosis System for Prediction of Breast Cancer Recurrence (HPBCR) Using Optimized Ensemble Learning";Mohammad, R , et al;《Computational and structural biotechnology journal》;第15卷;第75-85页 * |
"The impact of chemotherapy and survival prediction by machine learning in early Elderly Triple Negative Breast Cancer (eTNBC): a population based study from the SEER database";Huang Kaiyan 等;《BMC geriatrics》;第22卷(第1期);第268-268页 * |
"基于属性代表的多粒度集成分类算法";张清华 等;《计算机学报》;第45卷(第08期);第1712-1729页 * |
"基于集成学习的乳腺癌生存预测研究";张继婕 等;《广西科技大学学报》;第33卷(第01期);第101-109页 * |
"小样本条件下心脏CTA影像左心室分割中若干关键问题研究";牛彦敏;《中国博士学位论文全文数据库医药卫生科技辑》(第01期);第E062-11页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115985503A (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220367053A1 (en) | Multimodal fusion for diagnosis, prognosis, and therapeutic response prediction | |
CN115985503B (zh) | 基于集成学习的癌症预测系统 | |
Tan et al. | Evolutionary computing for knowledge discovery in medical diagnosis | |
Momeni et al. | A survey on single and multi omics data mining methods in cancer data classification | |
Rahman et al. | Artificial neural network with Taguchi method for robust classification model to improve classification accuracy of breast cancer | |
CN112270666A (zh) | 基于深度卷积神经网络的非小细胞肺癌病理切片识别方法 | |
Cirrincione et al. | The GH-EXIN neural network for hierarchical clustering | |
CN113113130A (zh) | 一种肿瘤个体化诊疗方案推荐方法 | |
Verikas et al. | A general framework for designing a fuzzy rule-based classifier | |
Liou et al. | Applying data mining for the analysis of breast cancer data | |
US20210158967A1 (en) | Method of prediction of potential health risk | |
Abasabadi et al. | Hybrid feature selection based on SLI and genetic algorithm for microarray datasets | |
Bruno et al. | Using heatmaps for deep learning based disease classification | |
CN116798652A (zh) | 一种基于多任务学习的抗癌药物反应预测方法 | |
CN116417070A (zh) | 一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法 | |
Qin et al. | Two-stage feature selection for classification of gene expression data based on an improved Salp Swarm Algorithm | |
Chang et al. | Research on Key Algorithms of the Lung CAD System Based on Cascade Feature and Hybrid Swarm Intelligence Optimization for MKL‐SVM | |
Wibowo et al. | Logistic regression and logistic regression-genetic algorithm for classification of liver cancer data | |
CN117637035A (zh) | 一种基于图神经网络的多组学可信整合的分类模型及方法 | |
Pragadeeswaran et al. | Cosine deep convolutional neural network for Parkinson’s disease detection and severity level classification using hand drawing spiral image in IoT platform | |
Chellamuthu et al. | Data mining and machine learning approaches in breast cancer biomedical research | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
Seo et al. | Mixture of linear models co-supervised by deep neural networks | |
AL-Bermany et al. | Microarray gene expression data for detection alzheimer’s disease using k-means and deep learning | |
CN114334168A (zh) | 结合协同学习策略的粒子群混合优化的特征选择算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |