CN108615555A - 基于标记基因和混合核函数svm的结直肠癌预测方法和装置 - Google Patents

基于标记基因和混合核函数svm的结直肠癌预测方法和装置 Download PDF

Info

Publication number
CN108615555A
CN108615555A CN201810387723.XA CN201810387723A CN108615555A CN 108615555 A CN108615555 A CN 108615555A CN 201810387723 A CN201810387723 A CN 201810387723A CN 108615555 A CN108615555 A CN 108615555A
Authority
CN
China
Prior art keywords
kernel function
colorectal cancer
support vector
vector machine
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810387723.XA
Other languages
English (en)
Inventor
刘弘
赵丹丹
郑元杰
何演林
陆佃杰
吕晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201810387723.XA priority Critical patent/CN108615555A/zh
Publication of CN108615555A publication Critical patent/CN108615555A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种用于结直肠癌预测的支持向量机分类器构造方法和装置,所述方法包括:获取健康和结直肠癌样本数据并进行预处理;基于两组样本数据确定与疾病相关的特征基因;利用高斯核函数、多项式核函数和线性核函数构建混合核函数支持向量机;对混合核函数支持向量机的参数进行优化。本发明构造的支持向量机更加适应于基于标记基因执行分类,并且能够节省结直肠癌判断的时间。

Description

基于标记基因和混合核函数SVM的结直肠癌预测方法和装置
技术领域
本发明属于疾病辅助预测领域,尤其涉及了一种基于标记基因和混合核函数SVM的结直肠癌预测方法和装置。
背景技术
结直肠癌是最常见的恶性肿瘤之一,全球每年约有120万人罹患结直肠癌,死于该病的患者高达60万人,不仅造成了巨大的经济损失,而且对人类的健康造成了严重威胁。早期对该疾病进行筛查是成功治疗和患者存活的关键,也是当前公共卫生领域面临的一大挑战。传统的结直肠癌诊断方法有X线检查、血清癌胚抗原(CEA)检查、内镜检查等,这些方法对结直肠癌的诊断起到了至关重要的作用,但是这些方法的患者依从性低,而且需要依据医生的经验对检查结果进行判定,难以保证诊断的准确性,因此需要寻找患者依从性高,预测准确率高的方法。
针对以上结直肠癌诊断方法的局限性,融入机器学习算法的预测模型逐步成为研究的热点。目前,利用机器学习算法对结直肠癌进行预测主要存在以下几个问题:(1)疾病特征因素冗余(2)不能正确选取特征数量(3)不能正确选择合适分类器。
针对机器学习算法在结直肠癌预测中存在的局限性,我们的工作主要有两点:第一,利用合适的算法选取最佳的疾病特征;第二,对于传统的疾病预测算法进行优化改进,提高疾病预测的准确性。本发明主要涉及到两个算法:最小冗余最大相关(mRMR)算法和混合核函数的支持向量(MKF-SVM)算法。其中mRMR算法用于疾病特征的选择,该算法可以减少冗余特征,有利于提高模型预测精度;MKF-SVM算法主要用于构建分类器,进行疾病预测。通过这两种算法相集成的方法,进而达到提高结直肠癌预测准确率的效果。
在之前的工作中,我们已经发现,结直肠癌的患病情况与患者的年龄,性别,饮食习惯,家族遗传以及环境和肠道菌群组成等有关,这些因素对结直肠癌的诊断起到了重要作用。近些年来,许多研究者开始着手于基因表达差异来分析结直肠癌,通过对比健康人群与结直肠癌患者的基因表达情况来寻找患者的标记基因,并将其作为判断是否患病的重要指标。在结直肠癌患病的不同阶段(Stage I-IV),标记基因的表达情况存在明显的差异(p<0.05),所以将标记基因作为预测模型的输入有助于提高模型的预测精度。
支持向量机(SVM)是一种经典的预测算法,被广泛应用于社交、交通等不同方面,并且得到很好的预测效果。该算法主要有两类核函数:局部核函数和全局核函数。其中局部核函数在局部特性上表现优越,具有较强的内插能力;全局核函数在全局特性上表现优越,具有较强的外推能力,合理的选择核函数的类型能够有效的提高算法的分类性能。然而,在解决实际问题时,人们的通常做法是根据专家的先验知识预先选定单一的核函数,但这种方法往往导致选取的核函数只具有单一性质,不能很好的解决问题。
因此,如何根据选定的标记基因特征来构建用于预测结直肠癌预测的模型,是本领域技术人员目前需要迫切解决的技术问题。
发明内容
为克服上述现有技术的不足,本发明提供了一种用于结直肠癌预测的支持向量机分类器构造方法和装置,所述方法包括:获取健康和结直肠癌样本数据并进行预处理;基于两组样本数据确定与疾病相关的特征基因;利用高斯核函数、多项式核函数和线性核函数构建混合核函数支持向量机;对混合核函数支持向量机的参数进行优化。本发明构造的支持向量机更加适应于基于标记基因执行分类,并且能够节省结直肠癌判断的时间。
为实现上述目的,本发明采用如下技术方案:
一种用于结直肠癌预测的支持向量机分类器构造方法,包括以下步骤:
获取健康和结直肠癌样本数据并进行预处理;
基于两组样本数据确定与疾病相关的特征基因;
利用高斯核函数、多项式核函数和线性核函数构建混合核函数支持向量机;
对混合核函数支持向量机的参数进行优化。
进一步地,所述预处理包括质量控制和分数位归一化。
进一步地,所述特征基因基于mRMR算法确定。
进一步地,所述混合核函数支持向量机为:
k(xi,x)m=c1exp(-||xi-x||2/(2γ2))+c2(xi.x+1)d+xi.x
其中,m代表混合核函数,c1为高斯核函数的权重,c2为多项式核函数的权重,二者取值范围均为[0,1],且c1+c2=1;xi,x为输入的特征基因向量,γ为径向基半径,d为向量映射的空间维数。
进一步地,采用鲸鱼算法优化混合核函数支持向量机模型参数。
进一步地,所述优化混合核函数支持向量机模型参数具体包括:
1)设定待优化的参数x=(c1,c2,γ,d,C,g)的取值范围;并定义适应度函数;
2)初始化鲸鱼算法群体数目、最大迭代次数、对数螺旋形状常数和迭代终止条件;
3)进行全局搜索,得到优化的参数值,根据所述参数值和适应度函数计算适应值;
4)判断是否满足约束条件,检查所求的适度值所对应的参数是否满足约束条件,所述约束条件为所优化参数的取值范围,若不满足,则调整WOA算法的参数,返回步骤3);
5)判断是否满足结束条件,若满足,优化结束,输出参数值。
进一步地,所述适度函数为准确率的倒数。
进一步地,所述全局搜索数学模型为:X=Xrand-A*|C*Xrand,j-X|,其中,X为当前鲸群个体空间位置,Xrand为从当前鲸群中随机选择的位置,A、C为系数向量,Xrand,j为第j次迭代的鲸鱼位置。
根据本发明的第二目的,本发明还提供了一种用于结直肠癌预测的支持向量机分类器构造装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的方法。
根据本发明的第三目的,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的用于结直肠癌预测的支持向量机分类器构造方法。
根据本发明的第四目的,本发明还提供了一种基于标记基因的结直肠癌预测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,还包括输入设备,接收用户针对患者标记基因的选择,并发送至处理器;所述处理器执行所述程序时实现:根据接收到的标记基因和用于结直肠癌预测的支持向量机分类器,预测结直肠癌的患病概率,所述支持向量机分类器是采用所述的方法构建的。
本发明的有益效果
本发明将结直肠癌的标记基因的表达情况,作为模型的输入来预测疾病的预测精确度。我们结合机器学习的mRMR算法,选择标记性基因作为量化指标,根据该指标建立疾病的预测模型,在前人构造的高斯核和多项式混合核函数的基础上加入了线性核函数来构造新的多核SVM。高斯核函数和多项式核函数的组合使得混合核同时具备了内插和外推性质,但是高斯核函数和多项式核函数在实际应用中更多的适合特征数量小的情况,而不适合特征数量大的情况,例如标记基因。线性核函数则能更好处理特征数量大的情况,尤其是特征数量大到和样本数量差不多的情况,弥补了高斯核和多项式核函数的不足,尤其涉及到疾病预测这种需要大量特征的应用中,将这三种核函数进行组合,保证构造的混合核函数在大数量特征上表现良好的全局寻优和局部最优特性,相对于现有的支持向量机,本发明构造的支持向量机更加适应于基于标记基因执行分类。并且,通过WOA算法设置SVM的最优模型参数,WOA算法具有收敛速度快的性质,使用该算法对构造的多核SVM参数进行优化,保证了在较短的时间内找到最优的参数组合,能够节省结直肠癌判断的时间。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明用于结直肠癌预测的支持向量机分类器构造方法的流程图;
图2为高斯核函数原理示意图;
图3为多项式核函数原理示意图;
图4为高斯与多项式混合核函数原理示意图;
图5为高斯、多项式以及线性核函数原理示意图;
图6为样本分位数归一化结果示意图;
图7为基因表达差异示意图;
图8为mRMR选择特征关系示意图;
图9为WOA算法优化SVM的流程图;
图10为模型评价ROC曲线示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了一种用于结直肠癌预测的支持向量机分类器构造方法,如图1所示,包括以下步骤:
(1)获取样本数据进行预处理。
在GEO数据库中获取结直肠癌研究的相关数据集GSE50421,一般为GSE开头的CEL文件,其中包括24个结直肠癌样本和25个健康样本,使用软件Affymetrix对这些样本进行预处理包括质量控制以及分位数归一化,其结果如图6。
(2)获取基因表达信息。
将所获取GSE50421数据集分为健康人群样本与结直肠癌患者样本两组。利用在线平台GEO2R工具分析这两组数据的基因表达情况,获取与疾病相关的所有基因,并利用火山图绘制工具绘制样本中基因表达的差异性(p<0.05,|logFC|>2),如图7。
(3)选取特征基因。
GSE50421数据49个样本中存在上万个基因,需要从这些基因基因中选择与疾病相关的特征基因。本方法利用mRMR算法,从上万个基因中过滤掉冗余的基因,获取表达显著差异的基因,减少了特征中冗余因素的存在,有利于提高模型的预测精度,其表达式为:
其中,s和t是基因表达的向量,p(s,t)表示基因向量的联合概率密度,p(s)和p(t)表示基因向量边缘概率密度。
为了选择出适合模型的最佳特征基因个数,我们利用mRMR算法从GSE50421的49个样本中,分别选取了不同特征数量的特征数据集S1=150,S2=100,S3=50,其中小数目特征是大数目特征的子集,如图8,其命令为:
mrmr-i 49_samples.csv-n 150-v 10000>best_150_features.txt (2)
其中,i表示样本数目,n表示基因排名,v表示特征的个数,v的取值分别为150,100,50。
(4)构建混合核函数SVM预测模型
传统的单核SVM只具备一种核函数的特征,所以考虑将SVM所依赖多种核函数通过加权的方式相结合构造出新的混合核函数从而构建同时具备多种特征的分类器,其表达式为:
k(xi,x)m=c1 exp(-||xi-x||2/(2γ2))+c2(xi.x+1)d+xi.x; (3)
其中,m代表混合核函数,c1为高斯核函数exp(-||xi-x||2/(2γ2))的权重,c2为多项式核函数(xi.x+1)的权重,xi.x为线性核函数,xi.x二者取值范围均为[0,1],且c1+c2=1,c1的取值分别为0.5,0.6,0.7,0.8,0.9。xi,x为输入的特征基因向量,γ为径向基半径,取值为0.1,d为向量映射的空间维数,取值为2。
根据特征指标采用WOA算法优化多核SVM模型,寻找出最佳的核函数权重以及(C,g)参数对,使得模型预测的准确率最高。WOA算法优化SVM的具体流程如图9所示,具体方法为:
1)设定WOA算法要优化的核函数权重c1、c2,γ,d以及(C,g)参数对的范围,本发明中C的范围为[2-10,210],g的范围[2-5,25],γ,d的范围均为[0.1,1],c1,c2的取值范围均为[0,1];
2)定义适度函数,本发明的目的在于提高结直肠癌预测的准确率,将准确率的倒数作为适度函数;
3)将WOA算法的参数进行初始化,本发明WOA算法的群体数目为100,算法最大迭代次数为200,对数螺旋形状常数为2,终止条件为迭代次数200;
4)计算适应值。适应值为模型所预测疾病的准确率的倒数;
5)判断是否满足约束条件,检查所求的适度值即准确率所对应的SVM参数是否满足约束条件,本发明中的约束条件为所优化参数的取值范围,若不满足,则调整WOA算法的参数;具体地,如果准确率对应的SVM参数在所需优化的参数范围内,则不需要调整WOA算法的参数;如果不在范围内,则需要调整WOA算法的参数,比如修改对数螺旋形状常数,或者是迭代次数。
6)判断是否满足结束条件,本发明中结束条件为算法迭代次数,当迭代次数小于200时,算法继续;当迭代次数大于200时,跳出循环,结束。
下面对上述方法进行详细介绍。
本方法中,用WOA算法寻找多核SVM的最优参数。
WOA算法也称为鲸鱼算法,是一种基于迭代思想的群体智能计算技术,于2016年由Mirjalili等人提出。算法是受到人工生命研究结果的启发,是一种新型启发式算法,其基本概念源于座头鲸捕食行为的研究。与其他基于群体的优化算法,例如粒子群优化算法、遗传算法相比,鲸鱼算法是利用螺旋气泡网策略,通过收缩包围、螺旋位置更新以及随机捕猎机制实现个体之间的协作来寻找最优解的。该算法结构简单,收敛速度快,全局寻优能力强,大量实验显示出算法是有力的优化工具且具有强大的生命力。目前算法被逐渐应用于函数优化、实时系统控制等许多工程技术领域中,并取得了较理想的效果。
WOA算法通过适度函数来寻找鲸鱼的空间位置,并且通过适度值来更新鲸鱼的空间位置。本方法中,将需要优化的参数作为算法的决策变量,即:
x=(c1,c2,γ,d,C,g) (4)
其中,c1为高斯核函数的权重,c2为多项式核函数的权重,γ为径向基半径,d为特征映射空间维数,C为惩罚系数,g代表模型的复杂度。
我们优化SVM的目的在于提高结直肠癌预测的准确率,因此WOA算法将模型预测的准确率作为适度函数,即:
其中,Accuracy是SVM的准确率,即SVM预测正确的样本数量与总的样本数量的比值。
这样做的目的是在保证适度值最小的情况下,所得的准确率是最好的。另外,根据相关文献,我们将WOA算法群体数目设为100,其进行全局搜索的数学模型为:
X=Xrand-A*|C*Xrand,j-X| (6)
其中,X为当前鲸群个体空间位置,Xrand为从当前鲸群中随机选择的位置,A、C为系数向量,Xrand,j为第j次迭代的鲸鱼位置。
本方法中,用WOA算法搜索适合多核SVM的权重c1、c2,γ,d以及最优(C,g)参数对,算法寻优时间短,使得所建模型的预测准确率更高。
本方法的目的在于通过结合具有局部优越特性的高斯核函数,如图2,和具有全局优越特性的多项式核函数,如图3,建立同时具有局部和全局优越特征的混合核函数,如图4,以及高斯、多项式、线性核函数的混合核函数,如图5,并通过WOA算法优化多核SVM参数,使得构建的多核SVM对于提高结直肠癌的预测准确率具有重要作用。
(6)确定模型的评价方法:ROC曲线。
通过ROC曲线来反映敏感性和特异性连续变量的综合指标,如图10,曲线下面积(AUC)越大,说明诊断准确性越高,模型的性能越好。ROC曲线所反映的敏感性和特异性计算方法分别为:
其中,Sensitivity为敏感性,表示患者被正确预测为患病的百分比,TP为患者被预测为阳性的样本数量,FN为患者被预测为健康的样本数量。
其中,Specificity为特异性,表示健康人被预测为健康的百分比,TN为健康人被正确预测为健康的样本数量,FP为健康人被预测为患者的样本数量。
(7)验证该模型的鲁棒性。
用单独的数据构建的模型可能会有偶然性,本发明选用另外的结直肠癌相关数据集:GSE77434,GSE42690,GSE24550测试所构建模型的鲁棒性,更有说服力。
实施例二
本实施例的目的是提供一种计算装置。
一种用于结直肠癌预测的支持向量机分类器构造装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:
获取健康和结直肠癌样本数据并进行预处理;
基于两组样本数据确定与疾病相关的特征基因;
利用高斯核函数、多项式核函数和线性核函数构建混合核函数支持向量机;
对混合核函数支持向量机的参数进行优化。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行以下步骤:
获取健康和结直肠癌样本数据并进行预处理;
基于两组样本数据确定与疾病相关的特征基因;
利用高斯核函数、多项式核函数和线性核函数构建混合核函数支持向量机;
对混合核函数支持向量机的参数进行优化。
以上实施例二和三中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本发明的有益效果
本发明将结直肠癌的标记基因的表达情况,作为模型的输入来预测疾病的预测精确度。我们结合机器学习的mRMR算法,选择标记性基因作为量化指标,根据该指标建立疾病的预测模型,在前人构造的高斯核和多项式混合核函数的基础上加入了线性核函数来构造新的多核SVM。高斯核函数和多项式核函数的组合使得混合核同时具备了内插和外推性质,但是高斯核函数和多项式核函数在实际应用中更多的适合特征数量小的情况,而不适合特征数量大的情况,例如标记基因。线性核函数则能更好处理特征数量大的情况,尤其是特征数量大到和样本数量差不多的情况,弥补了高斯核和多项式核函数的不足,尤其涉及到疾病预测这种需要大量特征的应用中,将这三种核函数进行组合,保证构造的混合核函数在大数量特征上表现良好的全局寻优和局部最优特性,相对于现有的支持向量机,本发明构造的支持向量机更加适应于基于标记基因执行分类。并且,通过WOA算法设置SVM的最优模型参数,WOA算法具有收敛速度快的性质,使用该算法对构造的多核SVM参数进行优化,保证了在较短的时间内找到最优的参数组合,能够节省结直肠癌判断的时间。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种用于结直肠癌预测的支持向量机分类器构造方法,其特征在于,包括以下步骤:
获取健康和结直肠癌样本数据并进行预处理;
基于两组样本数据确定与疾病相关的特征基因;
利用高斯核函数、多项式核函数和线性核函数构建混合核函数支持向量机;
对混合核函数支持向量机的参数进行优化。
2.如权利要求1所述的一种用于结直肠癌预测的支持向量机分类器构造方法,其特征在于,所述特征基因基于mRMR算法确定。
3.如权利要求1所述的一种用于结直肠癌预测的支持向量机分类器构造方法,其特征在于,所述混合核函数支持向量机为:
k(xi,x)m=c1exp(-||xi-x||2/(2γ2))+c2(xx+1)d+xx
其中,m代表混合核函数,c1为高斯核函数的权重,c2为多项式核函数的权重,二者取值范围均为[0,1],且c1+c2=1;xi,x为输入的特征基因向量,γ为径向基半径,d为向量映射的空间维数。
4.如权利要求1所述的一种用于结直肠癌预测的支持向量机分类器构造方法,其特征在于,采用鲸鱼算法优化混合核函数支持向量机模型参数。
5.如权利要求1所述的一种用于结直肠癌预测的支持向量机分类器构造方法,其特征在于,所述优化混合核函数支持向量机模型参数具体包括:
1)设定待优化的参数x=(c1,c2,γ,d,C,g)的取值范围;并定义适应度函数;
2)初始化鲸鱼算法群体数目、最大迭代次数、对数螺旋形状常数和迭代终止条件;
3)进行全局搜索,得到优化的参数值,根据所述参数值更新向量机,计算适应值;
4)判断是否满足约束条件,检查所求的适度值所对应的参数是否满足约束条件,所述约束条件为所优化参数的取值范围,若不满足,则调整WOA算法的参数,返回步骤3);
5)判断是否满足结束条件,若满足,优化结束,输出参数值。
6.如权利要求1所述的一种用于结直肠癌预测的支持向量机分类器构造方法,其特征在于,所述适应度函数为准确率的倒数。
7.如权利要求1所述的一种用于结直肠癌预测的支持向量机分类器构造方法,其特征在于,所述全局搜索数学模型为:X=Xrand-A*|C*Xrand,j-X|,其中,X为当前鲸群个体空间位置,Xrand为从当前鲸群中随机选择的位置,A、C为系数向量,Xrand,j为第j次迭代的鲸鱼位置。
8.一种用于结直肠癌预测的支持向量机分类器构造装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的用于结直肠癌预测的支持向量机分类器构造方法。
10.一种基于标记基因的结直肠癌预测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,还包括输入设备,接收用户针对患者标记基因的选择,并发送至处理器;所述处理器执行所述程序时实现:根据接收到的标记基因和用于结直肠癌预测的支持向量机分类器,预测结直肠癌的患病概率,所述支持向量机分类器是采用如权利要求1-7任一项所述的方法构建的。
CN201810387723.XA 2018-04-26 2018-04-26 基于标记基因和混合核函数svm的结直肠癌预测方法和装置 Pending CN108615555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810387723.XA CN108615555A (zh) 2018-04-26 2018-04-26 基于标记基因和混合核函数svm的结直肠癌预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810387723.XA CN108615555A (zh) 2018-04-26 2018-04-26 基于标记基因和混合核函数svm的结直肠癌预测方法和装置

Publications (1)

Publication Number Publication Date
CN108615555A true CN108615555A (zh) 2018-10-02

Family

ID=63660760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810387723.XA Pending CN108615555A (zh) 2018-04-26 2018-04-26 基于标记基因和混合核函数svm的结直肠癌预测方法和装置

Country Status (1)

Country Link
CN (1) CN108615555A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447178A (zh) * 2018-11-13 2019-03-08 淮北师范大学 一种基于混合核函数的svm分类方法
CN109886456A (zh) * 2019-01-14 2019-06-14 西安工程大学 基于pca与混合核函数lssvr的泥石流预测方法
CN110211697A (zh) * 2019-05-29 2019-09-06 安徽医科大学第一附属医院 基于svm模型的消化内科电子数据分析方法
CN110351241A (zh) * 2019-05-31 2019-10-18 浙江工业大学 一种基于GWA优化的工业网络DDoS入侵检测系统分类方法
CN110379522A (zh) * 2019-07-23 2019-10-25 四川骏逸富顿科技有限公司 一种疾病流行趋势预测系统及方法
CN110378490A (zh) * 2019-07-24 2019-10-25 江苏壹度科技股份有限公司 基于改进鲸鱼算法优化支持向量机的半导体良率预测方法
CN111239588A (zh) * 2020-01-20 2020-06-05 哈尔滨工业大学 一种基于woa和gmkl-svm的模拟电路故障诊断方法
CN111899882A (zh) * 2020-08-07 2020-11-06 北京科技大学 一种预测癌症的方法及系统
CN112259220A (zh) * 2020-09-30 2021-01-22 吾征智能技术(北京)有限公司 一种基于鼻出血伴随症状预测疾病的系统、设备、存储介质
CN112785003A (zh) * 2021-01-28 2021-05-11 武汉市博畅软件开发有限公司 一种电调滤波器控制方法及装置
CN113159404A (zh) * 2021-04-12 2021-07-23 山东农业大学 基于woa-svm的电场种子处理最优参数预测方法、系统及终端
CN115148330A (zh) * 2022-05-24 2022-10-04 中国医学科学院北京协和医院 Pop治疗方案形成方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103060351A (zh) * 2011-10-24 2013-04-24 上海市肿瘤研究所 用于检测原发性肝癌的癌组织及癌旁组织的基因标志物
CN106228034A (zh) * 2016-07-12 2016-12-14 丽水学院 一种肿瘤相关基因搜索的混合优化方法
CN107169264A (zh) * 2017-04-14 2017-09-15 广东药科大学 一种复杂疾病诊断方法及系统
CN107480441A (zh) * 2017-08-04 2017-12-15 方芳 一种基于支持向量机的儿童脓毒性休克预后预测的建模方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103060351A (zh) * 2011-10-24 2013-04-24 上海市肿瘤研究所 用于检测原发性肝癌的癌组织及癌旁组织的基因标志物
CN106228034A (zh) * 2016-07-12 2016-12-14 丽水学院 一种肿瘤相关基因搜索的混合优化方法
CN107169264A (zh) * 2017-04-14 2017-09-15 广东药科大学 一种复杂疾病诊断方法及系统
CN107480441A (zh) * 2017-08-04 2017-12-15 方芳 一种基于支持向量机的儿童脓毒性休克预后预测的建模方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALAA THARWAT等: ""Classification of toxicity effects of biotransformed hepatic drugs using whale optimized support vector machines"", 《JOURNAL OF BIOMEDICAL INFORMATICS》 *
王立达: ""基于混合核函数的SVM及其应用研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
邓密密: ""基于稀疏表示的基因表达谱数据挖掘方法研究"", 《万方数据知识服务平台》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447178A (zh) * 2018-11-13 2019-03-08 淮北师范大学 一种基于混合核函数的svm分类方法
CN109886456A (zh) * 2019-01-14 2019-06-14 西安工程大学 基于pca与混合核函数lssvr的泥石流预测方法
CN110211697A (zh) * 2019-05-29 2019-09-06 安徽医科大学第一附属医院 基于svm模型的消化内科电子数据分析方法
CN110211697B (zh) * 2019-05-29 2023-06-09 安徽医科大学第一附属医院 基于svm模型的消化内科电子数据分析方法
CN110351241B (zh) * 2019-05-31 2021-08-03 浙江工业大学 一种基于GWA优化的工业网络DDoS入侵检测系统分类方法
CN110351241A (zh) * 2019-05-31 2019-10-18 浙江工业大学 一种基于GWA优化的工业网络DDoS入侵检测系统分类方法
CN110379522A (zh) * 2019-07-23 2019-10-25 四川骏逸富顿科技有限公司 一种疾病流行趋势预测系统及方法
CN110379522B (zh) * 2019-07-23 2022-08-12 四川骏逸富顿科技有限公司 一种疾病流行趋势预测系统及方法
CN110378490A (zh) * 2019-07-24 2019-10-25 江苏壹度科技股份有限公司 基于改进鲸鱼算法优化支持向量机的半导体良率预测方法
CN111239588A (zh) * 2020-01-20 2020-06-05 哈尔滨工业大学 一种基于woa和gmkl-svm的模拟电路故障诊断方法
CN111899882A (zh) * 2020-08-07 2020-11-06 北京科技大学 一种预测癌症的方法及系统
CN111899882B (zh) * 2020-08-07 2021-06-18 北京科技大学 一种预测癌症的方法及系统
CN112259220A (zh) * 2020-09-30 2021-01-22 吾征智能技术(北京)有限公司 一种基于鼻出血伴随症状预测疾病的系统、设备、存储介质
CN112259220B (zh) * 2020-09-30 2024-02-02 吾征智能技术(北京)有限公司 一种基于鼻出血伴随症状预测疾病的系统、设备、存储介质
CN112785003A (zh) * 2021-01-28 2021-05-11 武汉市博畅软件开发有限公司 一种电调滤波器控制方法及装置
CN112785003B (zh) * 2021-01-28 2022-08-26 武汉市博畅软件开发有限公司 一种电调滤波器控制方法及装置
CN113159404A (zh) * 2021-04-12 2021-07-23 山东农业大学 基于woa-svm的电场种子处理最优参数预测方法、系统及终端
CN115148330A (zh) * 2022-05-24 2022-10-04 中国医学科学院北京协和医院 Pop治疗方案形成方法及系统
CN115148330B (zh) * 2022-05-24 2023-07-25 中国医学科学院北京协和医院 Pop治疗方案形成方法及系统

Similar Documents

Publication Publication Date Title
CN108615555A (zh) 基于标记基因和混合核函数svm的结直肠癌预测方法和装置
Baldeon-Calisto et al. AdaResU-Net: Multiobjective adaptive convolutional neural network for medical image segmentation
Tang et al. CapSurv: Capsule network for survival analysis with whole slide pathological images
Alirezaei et al. A bi-objective hybrid optimization algorithm to reduce noise and data dimension in diabetes diagnosis using support vector machines
CN106537422A (zh) 用于捕获信息内的关系的系统和方法
CN109410216A (zh) 一种缺血性脑卒中图像区域分割方法及装置
CN111986811A (zh) 一种基于大数据的疾病预测系统
CN113113130A (zh) 一种肿瘤个体化诊疗方案推荐方法
Yang et al. D-TSVR recurrence prediction driven by medical big data in cancer
Kanya Kumari et al. An adaptive teaching learning based optimization technique for feature selection to classify mammogram medical images in breast cancer detection
Chen et al. Decision-making model based on ensemble method in auxiliary medical system for non-small cell lung cancer
Singh et al. A neighborhood search based cat swarm optimization algorithm for clustering problems
Sindhiya et al. A survey on genetic algorithm based feature selection for disease diagnosis system
CN115641957A (zh) 一种基于影像基因组学的新辅助化疗疗效预测方法及系统
Gagliardi et al. SHREC 2022: protein–ligand binding site recognition
He et al. A selective overview of feature screening methods with applications to neuroimaging data
Han et al. A solution to the stagnation of multi-verse optimization: An efficient method for breast cancer pathologic images segmentation
Zhang et al. Improved heterogeneous data fusion and multi‐scale feature selection method for lung cancer subtype classification
Chu et al. Architecture entropy sampling-based evolutionary neural architecture search and its application in osteoporosis diagnosis
Tang et al. Hierarchical Manta Ray Foraging Optimization with Weighted Fitness-Distance Balance Selection
Gaber et al. Breast cancer classification from histopathological images with separable convolutional neural network and parametric rectified linear unit
CN110223780A (zh) 一种自适应pso-grnn的胎儿体重预测方法及系统
Clinton Jr et al. Acute lymphoblastic leukemia detection using depthwise separable convolutional neural networks
US20210174970A1 (en) Integrated virtual patient framework
Xie et al. Using SVM and PSO-NN Models to Predict Breast Cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181002

RJ01 Rejection of invention patent application after publication