CN109994151A - 基于复杂网络与机器学习方法的肿瘤驱动基因预测系统 - Google Patents
基于复杂网络与机器学习方法的肿瘤驱动基因预测系统 Download PDFInfo
- Publication number
- CN109994151A CN109994151A CN201910062267.6A CN201910062267A CN109994151A CN 109994151 A CN109994151 A CN 109994151A CN 201910062267 A CN201910062267 A CN 201910062267A CN 109994151 A CN109994151 A CN 109994151A
- Authority
- CN
- China
- Prior art keywords
- gene
- node
- network
- data
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 200
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 43
- 238000010801 machine learning Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 108700020796 Oncogene Proteins 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000010354 integration Effects 0.000 claims abstract description 12
- 238000013461 design Methods 0.000 claims abstract description 11
- 230000000694 effects Effects 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000012216 screening Methods 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims abstract description 6
- 230000014509 gene expression Effects 0.000 claims description 40
- 238000003066 decision tree Methods 0.000 claims description 20
- 206010064571 Gene mutation Diseases 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 18
- 230000036438 mutation frequency Effects 0.000 claims description 13
- 238000007637 random forest analysis Methods 0.000 claims description 12
- 230000003993 interaction Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000005764 inhibitory process Effects 0.000 claims description 4
- 230000035772 mutation Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000010534 mechanism of action Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000001737 promoting effect Effects 0.000 claims description 3
- 102000004169 proteins and genes Human genes 0.000 claims description 3
- 231100000089 gene mutation induction Toxicity 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 210000004027 cell Anatomy 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 210000004881 tumor cell Anatomy 0.000 claims 1
- 201000011510 cancer Diseases 0.000 abstract description 13
- 238000011160 research Methods 0.000 abstract description 6
- 238000011161 development Methods 0.000 abstract description 4
- 238000007418 data mining Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 206010006187 Breast cancer Diseases 0.000 description 4
- 208000026310 Breast neoplasm Diseases 0.000 description 4
- 238000005295 random walk Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010064390 Tumour invasion Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000009400 cancer invasion Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 210000005075 mammary gland Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Abstract
本发明涉及一种基于复杂网络与机器学习方法的肿瘤驱动基因预测系统。本发明是对潜在肿瘤驱动基因进行预测,在一定程度上加深对癌症的认识,进而推动癌症治疗的发展。本发明包括数据采集和数据预处理模块、特征工程模块、模型算法设计模块、结果评估模块。数据采集和数据预处理模块:数据采集和数据预处理模块包括数据采集、构建肿瘤基因网络,以及最大连通子图的筛选,为驱动基因预测提供数据基础。特征工程模块包括特征工程提取和特征工程整理。模型算法设计模块包括构造训练样本、预测模型设计。结果评估模块是采用混淆矩阵和ROC曲线验证模型的预测效果。本发明从数据挖掘的角度研究肿瘤驱动基因,通过特征整合与处理等方法实现驱动基因预测。
Description
技术领域
本发明属于数据分析领域,具体是肿瘤数据研究领域,涉及一种基于复杂网络与机 器学习方法的肿瘤驱动基因预测系统。
背景技术
国家癌症中心发布的2017年最新《中国肿瘤现状和趋势》表明,恶性肿瘤(癌症)已经成为我国居民死亡主要原因之一,是威胁我国居民生命健康的最大杀手。肺癌和乳 腺癌分别居我国男性和女性的肿瘤发病首位,癌症发病随年龄增加而逐渐上升,四十岁 之后增长较快。与世界相比,中国癌症发病率约占全球22%,发病人数全球第一,死亡率 高于全球平均水平。
目前,恶性肿瘤大数据网络建设初见成效,依托大数据构建医疗防线,搭建大数据中心环境和平台体系,开展基于肿瘤大数据中心和大数据平台的大数据应用研究,必将 推动中国癌症事业向前发展。
驱动基因,是与癌症发生发展相关的重要基因,基于驱动基因的精准医学是治疗癌 症的重要方向。我国肿瘤防控工作研究难点有:预防难、发现晚、不好治、不规范。其 中,肿瘤治疗效果差、复发转移率高且肿瘤治疗副作用大、精准性差等是导致肿瘤治疗 难度大的原因。本发明的目的是通过数据挖掘的方法,对潜在肿瘤驱动基因进行预测, 在一定程度上加深对癌症的认识,进而推动癌症治疗的发展。
基因网络能够很好的反应基因-基因之间的复杂关系,为驱动基因识别提供了新的思 路。基因网络中基因之间的作用关系存在正调控作用(促进基因表达)和反调控作用(抑 制基因表达)。因此,在构建网络上,节点之间的边权表示是存在正负之分的。在处理关于肿瘤基因网络时,这种复杂的边关系要求更高的算法匹配性,以揭示肿瘤网络中基因 间相互作用机制。带符号随机漫步重启算法(Signed Random Walk with Restart,SRWR) 是一种用于符号网络的个性化排序算法。传统的基于随机漫步(Random Walk)的方法, 如PageRank算法和带重启随机漫步算法(Random Walk with Restart,RWR),只适用于 假设为正边的网络,而不能在有符号的网络中对节点进行有效的排名,并且缺乏考虑复 杂边关系的能力,而带符号随机漫步重启弥补了这一缺点。
肿瘤基因网络中节点的特征表达以及预测模型的训练是驱动基因挖掘算法中比较核 心的内容,算法模型避开了人工筛选的盲目性,极大地节约了时间成本及资金成本,并 且通过整合基因信息提高预测的准确性,保证算法的高效灵活和可扩展等。然而,目前还没有专门针对生物信息数据分析而设计的整合复杂网络和机器学习方法的肿瘤驱动基因预测的研究和应用。
发明内容
本发明的目的在于消除临床实验的随机性,提供一种基于复杂网络与机器学习的肿 瘤驱动基因预测方法,整合基因网络数据、基因突变数据和基因差异表达数据,通过引入节点的网络结构性指标、评价网络节点影响力的K-shell(K-壳)分解、提供个性化 排序的带符号随机漫步重启算法,以及机器学习预测算法,发现候选驱动基因。
本发明包括数据采集和数据预处理模块、特征工程模块、模型算法设计模块、结果评估模块,具体如下:
(1).数据采集和数据预处理模块:
该模块包括数据采集、构建肿瘤基因网络,以及最大连通子图的筛选,为驱动基因预测提供数据基础,其中:
(1-1).数据采集:肿瘤基因相互作用关系数据、基因差异表达数据、患者基因突变数据。
(1-2).构建肿瘤基因网络:筛选肿瘤样本中,相互作用关系显著的基因对构建肿瘤 基因网络G=(V,E),V表示节点集,E表示边集;节点代表基因,边代表两个基因所编 码蛋白质之间的相互作用关系,且边的权值有正负之分,即基因间促进表达的边权为正 数,基因间抑制表达的边权为负数。
(1-3).筛选最大连通子图:剔除个别孤立节点,筛选出最大连通子图,即网络G′。
(2).特征工程模块:
在机器学习相关问题的研究中,数据和特征决定了预测结果的上限,而模型和算法 只是逼近这个上限而已。本发明的特征工程模块就是解决前半句的特征选择问题,即为了模型算法更好的学习基因特征,达到最准确的预测结果。该模块是基于网络G′的特征 工程,包括特征工程提取和特征工程整理。
(2-1).特征工程提取:包括三类特征提取,分别是基因网络特征、基因属性特征、网络与属性整合特征;
所述的基因网络特征包括网络结构属性和K-shell值;
所述的基因属性特征包括基因突变频次和基因差异表达量;
所述的网络与属性整合特征包括以基因突变频次和基因差异表达量分别为初值进行 带符号随机漫步重启SRWR得到的结果。
(2-1-1).基因网络结构属性包含四个指标:度中心性、接近中心性、介数中心性、特征向量中心性。
计算方法分别是:
a.度中心性:节点度越大意味着节点的度中心性越高,在网络中就越重要;
CD(i)表示节点i的度中心性,∑j∈Na(i,j)表示节点i和节点j直接相连的数量,N表示节点个数;如节点i和节点j直接相连,a(i,j)=1,如节点i和节点j不直接相连, a(i,j)=0。
b.接近中心性:反映在网络中某一节点与其他节点之间的接近程度;
Ccl(i)表示节点i的接近中心性,d(i,j)表示节点i与节点j的距离。
c.介数中心性:以经过某节点的最短路径数目来刻画节点的结构属性;
CB(i)表示节点i的介数中心性,σst表示节点s与节点t之间最短路径总数,σst(i)表示节点s与节点t之间通过节点i的最短路径数量。
d.特征向量中心性:一个节点的结构属性既取决于其邻居节点的数量,也取决于其 邻居节点的结构属性;
M(i)表示节点i的邻居集;如节点i和节点t直接相连,ai,t=1,如节点i和节点t不直 接相连,ai,t=0;
Ax=λx;
A表示邻接矩阵,A=(ai,t);x是矩阵A的特征值λ对应的特征向量;
给定初值x(0),然后采用迭代算法计算向量x,直到归一化的x′(t)=x′(t-1),迭代 算法为:
(2-1-2).K-shell值:K-shell分解是计算网络中节点影响力的方法,基于K-shell算法挖掘肿瘤基因网络中基因节点的结构属性,递归地剥离网络中度数小于k的节点,计算每个基因的K-shell值,作为每个基因的特征。
(2-1-3).基因突变频次:根据肿瘤患者的突变基因数据,统计突变基因在不同患者 中出现的次数,得到基因突变频次作为基因属性的突变特征。
(2-1-4).基因差异表达量:筛选基因的差异表达数据,即基因在正常细胞和肿瘤细 胞中的表达量,是否具有显著差异,作为基因属性的表达特征。
(2-1-5).网络与属性整合特征:采用带符号随机漫步重启算法,揭示肿瘤基因网络 中基因间的作用机制,并以基因的突变频次和差异表达量分别作为初值,进行带符号随机漫步重启SRWR得到整合特征,即计算每个基因的SRWR得分向量,步骤如下:
①计算节点的抑制表达得分r-和促进表达得分r+:
A为邻接矩阵,D为度矩阵,q为起始向量,c为重启概率;γ和β分别 表示经过负权重边之后作用于正权重边和负权重边的平衡衰减因子,在不考虑平衡衰减 时,即γ=1和β=1时,
②计算节点SRWR得分r=r+-r-。
(2-2).特征工程整理:
是对以上特征工程提取的所有特征进行整理,整理成预测模型能够识别的数据格式, 并对缺失值进行处理:
(2-2-1).以网络G′中的基因为准,整合所有特征;
(2-2-2).处理基因差异表达特征和基因突变特征的缺失数据,对基因差异表达特征 的数据缺失做均值填充,对基因突变特征的数据缺失直接补零。
在特征工程模块,基于基因相关特征的提取与整理,得到了可提供给模型学习和训 练的结构化数据。
(3).模型算法设计模块:包括构造训练样本、预测模型设计。
(3-1).构造训练样本:肿瘤基因包括已知的驱动基因和非已知驱动基因组成的普通 基因,且普通基因都有成为驱动基因的概率,无非是概率大小的问题,本发明的目的就是从普通基因中预测出可能是驱动基因概率较大的基因,所以,可以假设普通基因是驱 动基因的概率肯定不大于已知驱动基因是驱动基因的概率,基于这个假设采用PairWise 模型构造训练样本,即从驱动基因中抽取一个正样本的同时也从普通基因中抽取一个负 样本构造训练样本,得到数量相同的成对正负训练样本,将数据随机划分成90%和10%, 其中90%的数据用于后续模型训练,寻找最优模型参数,剩下10%的数据用于测试模型的 预测效果。
(3-2).预测模型设计:采用随机森林,以决策树作为基学习器构建随机森林,具体如下:
(3-2-1).从划分好的用于训练的样本中随机采样m个样本,每个样本的特征属性均 来自特征工程模块提取的特征,构成一个训练集,并训练一个决策树模型,其中训练过程中的节点划分是以信息增益为准则选取特征属性划分决策树的,并且这里是从所有特征中随机抽取部分特征寻找最优解;信息增益: 表示为信息熵;y表示样本类别,驱动基因或普通基因;|y|表 示分类数;pk表示第k类样本所占的比例;a表示基因的特征,S表示当前样本集合;Sv表示第v个分支节点包含了S中所有在特征a上取值为av的样本;Vt表示分支节点数;
(3-2-2).重复(3-2-1),进行n次采样,并训练得到n个决策树;
(3-2-3).将生成的n个决策树组成随机森林,然后将划分好的用于测试的样本放入训 练好的随机森林模型中进行预测,并根据决策树分类结果投票决定最终的预测结果;投 票规则如下:
H(x)表示基因x的最终预测类别,0表示普通基因,1表示驱动基因;hi(x)表示基因x在决策树hi下的预测类别:当x在hi下的预测类别为驱动基因,则当x在hi下的预测类别为普通基因,则
(4).结果评估模块:采用混淆矩阵和ROC曲线验证模型的预测效果;
所述的混淆矩阵是评判模型结果的指标,属于模型评估的一部分,用n行n列的矩阵 形式表示,把预测结果的精度显示在一个混淆矩阵里面,每一列代表预测类别,每一列的总数表示预测为该类别的数据的数目,每一行表示数据的真实归属类别,每一行的总 数表示该类别的数据实例的数目。
所述的ROC曲线是从医疗分析领域引入的一种新的分类模型性能评价方法,适用于 二分类的研究问题,ROC空间将假阳性率FPR定义为x轴,真阳性率TPR定义为y轴, ROC曲线所覆盖的面积定义为AUC,且AUC值越大,即越接近于1,表示模型的预测效 果越好。
ROC曲线的真阳性率TPR和假阳性率FPR通过混淆矩阵计算如下:
TP表示将测试集中的驱动基因预测为驱动基因的个数;FP表示将测试集中的普通基 因预测为驱动基因的个数;FN表示将测试集中的驱动基因预测为普通基因的个数;TN表示将测试集中的普通基因预测为普通基因的个数;
根据模型算法设计模块(3-2-3)的预测结果,绘制ROC曲线并计算AUC,并寻找最优预测结果下的模型参数,所述的AUC为ROC曲线所覆盖的面积;在最优预测模型下, 计算所有普通基因是驱动基因的概率,筛选出可能性大的基因作为候选驱动基因集。
本发明从数据挖掘的角度研究肿瘤驱动基因,通过不断的特征整合与处理,结合网 络节点的结构特征、K-shell分解、带符号随机漫步重启、机器学习等方法实现驱动基因预测。因此,本发明能够有效分析肿瘤数据,并预测驱动基因,进而为医学实验验证 提供科学指导,提高肿瘤驱动基因挖掘效率,在一定程度上促进肿瘤治疗工作的发展。
附图说明
图1是本发明流程图。
具体实施方式
下面结合技术方案和附图,详细说明本发明的具体实施。
现有乳腺癌的基因网络数据、差异表达信息,以及乳腺癌患者的突变基因等数据,包括1050个患者基因突变数据,14000个左右的基因。
如图1所示,一种基于复杂网络与机器学习方法的肿瘤驱动基因预测系统,包括数据采集和数据预处理模块1、特征工程模块2、模型算法设计模块3、结果评估模块4。
第一步:根据已有的肿瘤样本中的基因相互作用关系数据,筛选相互作用关系显著 的基因对(通过设置阈值,一般选择p-value小于0.05的边),构建肿瘤基因网络 G=(V,E),V表示节点集,E表示边集;节点代表基因,边代表两个基因所编码蛋白质 之间的相互作用关系,且边的权值有正负之分,即基因间促进表达的边权为正数,基因 间抑制表达的边权为负数。
第二步:剔除个别孤立节点,筛选出最大连通子图,即网络G′。
1)第三步:特征工程模块包括三类特征提取,分别计算了网络中节点的网络结构属 性、K-shell值、肿瘤基因突变频次,以及基因的差异表达数据和SRWR得分。
2)1、计算网络G′中节点的网络结构属性,包含四个指标:度中心性、接近中心性、介数中心性、特征向量中心性,作为基因网络的结构属性特征。
(1).度中心性:节点度越大意味着节点的度中心性越高,在网络中就越重要;
CD(i)表示节点i的度中心性,∑j∈Na(i,j)表示节点i和节点j直接相连的数量,N表示节点个数;如节点i和节点j直接相连,a(i,j)=1,如节点i和节点j不直接相连, a(i,j)=0。
(2).接近中心性:反映在网络中某一节点与其他节点之间的接近程度;
Ccl(i)表示节点i的接近中心性,d(i,j)表示节点i与节点j的距离。
(3).介数中心性:以经过某节点的最短路径数目来刻画节点的结构属性;
CB(i)表示节点i的介数中心性,σst表示节点s与节点t之间最短路径总数,σst(i)表示节点s与节点t之间通过节点i的最短路径数量。
(4).特征向量中心性:一个节点的结构属性既取决于其邻居节点的数量,也取决于 其邻居节点的结构属性;
M(i)表示节点i的邻居集;如节点i和节点t直接相连,ai,t=1,如节点i和节点t不直 接相连,ai,t=0;
Ax=λx;
A表示邻接矩阵,A=(ai,t);x是矩阵A的特征值λ对应的特征向量;
给定初值x(0),然后采用迭代算法计算向量x,直到归一化的x′(t)=x′(t-1),迭代 算法为:
2、K-shell值:K-shell分解是计算网络中节点影响力的方法,基于K-shell算法挖掘肿瘤基因网络中基因节点的结构属性,递归地剥离网络中度数小于k的节点,计算每个基因的K-shell值,作为每个基因的特征。
3、基因突变频次:根据乳腺癌患者的基因突变数据,统计突变基因在不同患者中出 现的次数,得到基因突变频次作为基因属性的突变特征;
4、基因差异表达量:筛选基因的差异表达数据,即基因在正常细胞和乳腺癌细胞中 的表达量,是否具有显著差异,将此作为基因属性的表达特征。
5、网络与属性整合特征:采用带符号随机漫步重启算法,揭示肿瘤基因网络中基因 间的作用机制,并以基因的突变频次和差异表达量分别作为初值,进行带符号随机漫步重启SRWR得到整合特征,即计算每个基因的SRWR得分向量,步骤如下:
①计算节点的抑制表达得分r-和促进表达得分r+:
A为邻接矩阵,D为度矩阵,q为起始向量,c为重启概率;γ和β分别 表示经过负权重边之后作用于正权重边和负权重边的平衡衰减因子,在不考虑平衡衰减 时,即γ=1和β=1时,
②计算节点SRWR得分r=r+-r-;
第四步:整理以上特征工程提取的所有的特征,并针对肿瘤基因的突变特征和差异 表达特征进行缺失值处理。
以网络G′中的基因为准,整合所有特征;处理基因差异表达特征和基因突变特征的 缺失数据,对基因差异表达特征的数据缺失做均值填充,对基因突变特征的数据缺失直接补零。
第五步:构造训练样本:肿瘤基因包括已知的驱动基因和非已知驱动基因组成的普 通基因,且普通基因都有成为驱动基因的概率,无非是概率大小的问题,本发明的目的就是从普通基因中预测出可能是驱动基因概率较大的基因,所以,可以假设普通基因是 驱动基因的概率肯定不大于已知驱动基因是驱动基因的概率,基于这个假设采用 PairWise模型构造训练样本,即从驱动基因中抽取一个正样本的同时也从普通基因中抽 取一个负样本构造训练样本,得到数量相同的成对正负训练样本,将数据随机划分成90% 和10%,其中90%的数据用于后续模型训练,寻找最优模型参数,剩下10%的数据用于测 试模型的预测效果。
第六步:预测模型算法选择被誉为“代表集成学习技术水平的方法”的随机森林,以决策树作为基学习器构建随机森林。具体实现过程如下:
1).从划分好的90%用于训练的样本中随机有放回地采样400个基因样本构成一个训 练集,并训练一个决策树模型,其中训练过程中的节点划分是以信息增益为准则选取特 征属性划分决策树的。“信息增益”定义为: 表示为信息熵;y表示样本类别,驱动基因或普通基因;|y|表 示分类数;pk表示第k类样本所占的比例;a表示基因的特征,S表示当前样本集合;Sv表示第v个分支节点包含了S中所有在特征a上取值为av的样本;Vt表示分支节点数;
2).重复1),进行n次采样,并训练得到n个决策树;
3).将生成的n个决策树组成随机森林,然后将划分好的用于测试的样本放入训练好 的随机森林模型中进行预测,并根据决策树分类结果投票决定最终的预测结果;投票规则如下:
H(x)表示基因x的最终预测类别,0表示普通基因,1表示驱动基因;hi(x)表示基因x在决策树hi下的预测类别:当x在hi下的预测类别为驱动基因,则当x在hi下的预测类别为普通基因,则
第七步:绘制ROC曲线并计算AUC,并寻找最优预测结果下的模型参数。在最优预测模 型参数下,计算所有普通基因是驱动基因的概率,筛选出可能性比较大的基因作为候选驱 动基因集。
ROC曲线是从医疗分析领域引入的一种新的分类模型性能评价方法,适用于二分类 的研究问题,ROC空间将假阳性率FPR定义为x轴,真阳性率TPR定义为y轴,ROC曲 线所覆盖的面积定义为AUC,且AUC值越大,即越接近于1,表示模型的预测效果越好;
ROC曲线的真阳性率TPR和假阳性率FPR通过混淆矩阵计算如下:
TP表示将测试集中的驱动基因预测为驱动基因的个数;FP表示将测试集中的普通基 因预测为驱动基因的个数;FN表示将测试集中的驱动基因预测为普通基因的个数;TN表示将测试集中的普通基因预测为普通基因的个数。根据模型算法设计模块的预测结果, 绘制ROC曲线并计算AUC,并寻找最优预测结果下的模型参数,所述的AUC为ROC曲 线所覆盖的面积;在最优预测模型下,计算所有普通基因是驱动基因的概率,筛选出可 能性大的基因作为候选驱动基因集。
Claims (6)
1.基于复杂网络与机器学习方法的肿瘤驱动基因预测系统,包括数据采集和数据预处理模块、特征工程模块、模型算法设计模块、结果评估模块,其特征在于:
(1).所述的数据采集和数据预处理模块包括数据采集、构建肿瘤基因网络,以及最大连通子图的筛选,为驱动基因预测提供数据基础,其中:
(1-1).数据采集:肿瘤基因相互作用关系数据、基因差异表达数据、患者基因突变数据;
(1-2).构建肿瘤基因网络:筛选肿瘤样本中,相互作用关系显著的基因对构建肿瘤基因网络G=(V,E),V表示节点集,E表示边集;节点代表基因,边代表两个基因所编码蛋白质之间的相互作用关系,且边的权值有正负之分,即基因间促进表达的边权为正数,基因间抑制表达的边权为负数;
(1-3).筛选最大连通子图:剔除个别孤立节点,筛选出最大连通子图,即网络G′;
(2).所述的特征工程模块是基于网络G′的特征工程,包括特征工程提取和特征工程整理;
(2-1).特征工程提取:
包括三类特征提取,分别是基因网络特征、基因属性特征、网络与属性整合特征;
所述的基因网络特征包括网络结构属性和K-shell值;
所述的基因属性特征包括基因突变频次和基因差异表达量;
所述的网络与属性整合特征包括以基因突变频次和基因差异表达量分别为初值进行带符号随机漫步重启SRWR得到的结果;
(2-1-1).网络结构属性包含四个指标:度中心性、接近中心性、介数中心性、特征向量中心性;
(2-1-2).K-shell值:K-shell分解是计算网络中节点影响力的方法,基于K-shell算法挖掘肿瘤基因网络中基因节点的结构属性,递归地剥离网络中度数小于k的节点,计算每个基因的K-shell值,作为每个基因的特征;
(2-1-3).基因突变频次:根据肿瘤患者的突变基因数据,统计突变基因在不同患者中出现的次数,得到基因突变频次作为基因属性的突变特征;
(2-1-4).基因差异表达量:筛选基因的差异表达数据,即基因在正常细胞和肿瘤细胞中的表达量,是否具有显著差异,作为基因属性的表达特征;
(2-1-5).网络与属性整合特征:采用带符号随机漫步重启算法,揭示肿瘤基因网络中基因间的作用机制,并以基因的突变频次和差异表达量分别作为初值,进行带符号随机漫步重启SRWR得到整合特征,即计算每个基因的SRWR得分向量;
(2-2).特征工程整理:
是对以上特征工程提取的所有特征进行整理,整理成预测模型能够识别的数据格式,并对缺失值进行处理:
(2-2-1).以网络G′中的基因为准,整合所有特征;
(2-2-2).对基因差异表达特征的数据缺失做均值填充,对基因突变特征的数据缺失直接补零;
(3).所述的模型算法设计模块包括构造训练样本、预测模型设计;
(3-1).构造训练样本:采用PairWise模型构造训练样本,即从驱动基因中抽取一个正样本的同时也从普通基因中抽取一个负样本构造训练样本,得到数量相同的成对正负训练样本,将数据随机划分成90%和10%,其中90%的数据用于后续模型训练,寻找最优模型参数,剩下10%的数据用于测试模型的预测效果;
(3-2).预测模型设计:采用随机森林,以决策树作为基学习器构建随机森林,具体如下:
(3-2-1).从划分好的用于训练的样本中随机采样m个样本,每个样本的特征属性均来自特征工程模块提取的特征,构成一个训练集,并训练一个决策树模型,其中训练过程中的节点划分是以信息增益为准则选取特征属性划分决策树的,并且这里是从所有特征中随机抽取部分特征寻找最优解;信息增益:
其中,表示为信息熵;y表示样本类别,驱动基因或普通基因;|y|表示分类数;pk表示第k类样本所占的比例;a表示基因的特征,S表示当前样本集合;Sv表示第v个分支节点包含了S中所有在特征a上取值为av的样本;Vt表示分支节点数;
(3-2-2).重复(3-2-1),进行n次采样,并训练得到n个决策树;
(3-2-3).将生成的n个决策树组成随机森林,然后将划分好的用于测试的样本放入训练好的随机森林模型中进行预测,并根据决策树分类结果投票决定最终的预测结果;投票规则如下:
H(x)表示基因x的最终预测类别,0表示普通基因,1表示驱动基因;hi(x)表示基因x在决策树hi下的预测类别:当x在hi下的预测类别为驱动基因,则当x在hi下的预测类别为普通基因,则
(4).所述的结果评估模块采用混淆矩阵和ROC曲线验证模型的预测效果;
所述的混淆矩阵是评判模型结果的指标,属于模型评估的一部分,用n行n列的矩阵形式表示,把预测结果的精度显示在一个混淆矩阵里面,每一列代表预测类别,每一列的总数表示预测为该类别的数据的数目,每一行表示数据的真实归属类别,每一行的总数表示该类别的数据实例的数目;
所述的ROC曲线是从医疗分析领域引入的一种新的分类模型性能评价方法,适用于二分类的研究问题,ROC空间将假阳性率FPR定义为x轴,真阳性率TPR定义为y轴,ROC曲线所覆盖的面积定义为AUC,且AUC值越大,即越接近于1,表示模型的预测效果越好;
ROC曲线的真阳性率TPR和假阳性率FPR通过混淆矩阵计算如下:
TP表示将测试集中的驱动基因预测为驱动基因的个数;FP表示将测试集中的普通基因预测为驱动基因的个数;FN表示将测试集中的驱动基因预测为普通基因的个数;TN表示将测试集中的普通基因预测为普通基因的个数;
根据模型算法设计模块(3-2-3)的预测结果,绘制ROC曲线并计算AUC,并寻找最优预测结果下的模型参数,所述的AUC为ROC曲线所覆盖的面积;在最优预测模型下,计算所有普通基因是驱动基因的概率,筛选出可能性大的基因作为候选驱动基因集。
2.如权利要求1所述的基于复杂网络与机器学习方法的肿瘤驱动基因预测系统,其特征在于:所述网络结构属性的度中心性计算方法如下:
CD(i)表示节点i的度中心性,∑j∈Na(i,j)表示节点i和节点j直接相连的数量,N表示节点个数;如节点i和节点j直接相连,a(i,j)=1,如节点i和节点j不直接相连,a(i,j)=0;
节点度越大意味着节点的度中心性越高,在网络中就越重要。
3.如权利要求1所述的基于复杂网络与机器学习方法的肿瘤驱动基因预测系统,其特征在于:所述网络结构属性的接近中心性反映在网络中某一节点与其他节点之间的接近程度,计算方法如下:
Ccl(i)表示节点i的接近中心性,d(i,j)表示节点i与节点j的距离。
4.如权利要求1所述的基于复杂网络与机器学习方法的肿瘤驱动基因预测系统,其特征在于:所述网络结构属性的介数中心性以经过某节点的最短路径数目来刻画节点的结构属性,计算方法如下:
CB(i)表示节点i的介数中心性,σst表示节点s与节点t之间最短路径总数,σst(i)表示节点s与节点t之间通过节点i的最短路径数量。
5.如权利要求1所述的基于复杂网络与机器学习方法的肿瘤驱动基因预测系统,其特征在于:所述网络结构属性的特征向量中心性计算方法如下:
M(i)表示节点i的邻居集;如节点i和节点t直接相连,ai,t=1,如节点i和节点t不直接相连,ai,t=0;
Ax=λx;
A表示邻接矩阵,A=(ai,t);x是矩阵A的特征值λ对应的特征向量;
给定初值x(0),然后采用迭代算法计算向量x,直到归一化的x′(t)=x′(t-1),迭代算法为:
6.如权利要求1所述的基于复杂网络与机器学习方法的肿瘤驱动基因预测系统,其特征在于:所述计算每个基因的SRWR得分向量方法如下:
①计算节点的抑制表达得分r-和促进表达得分r+:
A为邻接矩阵,D为度矩阵,q为起始向量,c为重启概率;γ和β分别表示经过负权重边之后作用于正权重边和负权重边的平衡衰减因子,在不考虑平衡衰减时,即γ=1和β=1时,
②计算节点SRWR得分r=r+-r-。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910062267.6A CN109994151B (zh) | 2019-01-23 | 2019-01-23 | 基于复杂网络与机器学习方法的肿瘤驱动基因预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910062267.6A CN109994151B (zh) | 2019-01-23 | 2019-01-23 | 基于复杂网络与机器学习方法的肿瘤驱动基因预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109994151A true CN109994151A (zh) | 2019-07-09 |
CN109994151B CN109994151B (zh) | 2020-10-16 |
Family
ID=67129921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910062267.6A Active CN109994151B (zh) | 2019-01-23 | 2019-01-23 | 基于复杂网络与机器学习方法的肿瘤驱动基因预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109994151B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243673A (zh) * | 2019-12-25 | 2020-06-05 | 北京橡鑫生物科技有限公司 | 肿瘤筛查模型、其构建方法和装置 |
CN112016248A (zh) * | 2020-08-31 | 2020-12-01 | 华北电力大学 | 一种基于Elman神经网络SCR脱硝系统不良数据辨识方法 |
CN112063715A (zh) * | 2020-09-07 | 2020-12-11 | 清华大学 | 一种用于肝细胞癌早期筛查的系统 |
WO2021042237A1 (zh) * | 2019-09-02 | 2021-03-11 | 北京哲源科技有限责任公司 | 获得细胞内确定性事件的方法及电子设备 |
CN112614588A (zh) * | 2020-12-28 | 2021-04-06 | 吉林大学 | 肿瘤驱动基因识别方法及装置 |
WO2021098615A1 (zh) * | 2019-11-22 | 2021-05-27 | 中国科学院深圳先进技术研究院 | 基因型数据缺失的填充方法、装置及服务器 |
CN113517021A (zh) * | 2021-06-09 | 2021-10-19 | 海南精准医疗科技有限公司 | 一种癌症驱动基因预测方法 |
CN114141306A (zh) * | 2021-11-19 | 2022-03-04 | 天津大学 | 基于基因相互作用模式优化图表示的远处转移识别方法 |
TWI803765B (zh) * | 2019-07-24 | 2023-06-01 | 康善生技股份有限公司 | 癌症風險檢測、評估與預測系統 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945333A (zh) * | 2012-12-04 | 2013-02-27 | 中南大学 | 一种基于先验知识和网络拓扑特性的关键蛋白预测方法 |
CN109243523A (zh) * | 2018-08-24 | 2019-01-18 | 东北大学 | 一种基于乳腺癌疾病的调控网络构建及分析方法 |
-
2019
- 2019-01-23 CN CN201910062267.6A patent/CN109994151B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945333A (zh) * | 2012-12-04 | 2013-02-27 | 中南大学 | 一种基于先验知识和网络拓扑特性的关键蛋白预测方法 |
CN109243523A (zh) * | 2018-08-24 | 2019-01-18 | 东北大学 | 一种基于乳腺癌疾病的调控网络构建及分析方法 |
Non-Patent Citations (3)
Title |
---|
JUN LIU ET AL.: "Identification of hub genes and pathways associated with hepatocellular carcinoma based on network strategy", 《EXPERIMENTAL AND THERAPEUTIC MEDICINE》 * |
RAUNAK SHRESTHA,ET AL: "HIT ’ nDRIVE: patient-specific multidriver gene prioritization for precision oncology", 《GENOME RESEARCH》 * |
李星: "基于复杂网络的症状基因预测方法研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI803765B (zh) * | 2019-07-24 | 2023-06-01 | 康善生技股份有限公司 | 癌症風險檢測、評估與預測系統 |
WO2021042237A1 (zh) * | 2019-09-02 | 2021-03-11 | 北京哲源科技有限责任公司 | 获得细胞内确定性事件的方法及电子设备 |
CN112840402A (zh) * | 2019-09-02 | 2021-05-25 | 北京哲源科技有限责任公司 | 获得细胞内确定性事件的方法及电子设备 |
WO2021098615A1 (zh) * | 2019-11-22 | 2021-05-27 | 中国科学院深圳先进技术研究院 | 基因型数据缺失的填充方法、装置及服务器 |
CN111243673A (zh) * | 2019-12-25 | 2020-06-05 | 北京橡鑫生物科技有限公司 | 肿瘤筛查模型、其构建方法和装置 |
CN111243673B (zh) * | 2019-12-25 | 2021-11-19 | 北京橡鑫生物科技有限公司 | 肿瘤筛查模型、其构建方法和装置 |
CN112016248A (zh) * | 2020-08-31 | 2020-12-01 | 华北电力大学 | 一种基于Elman神经网络SCR脱硝系统不良数据辨识方法 |
CN112063715A (zh) * | 2020-09-07 | 2020-12-11 | 清华大学 | 一种用于肝细胞癌早期筛查的系统 |
CN112063715B (zh) * | 2020-09-07 | 2021-09-14 | 清华大学 | 一种用于肝细胞癌早期筛查的系统 |
CN112614588A (zh) * | 2020-12-28 | 2021-04-06 | 吉林大学 | 肿瘤驱动基因识别方法及装置 |
CN113517021A (zh) * | 2021-06-09 | 2021-10-19 | 海南精准医疗科技有限公司 | 一种癌症驱动基因预测方法 |
CN113517021B (zh) * | 2021-06-09 | 2022-09-06 | 海南精准医疗科技有限公司 | 一种癌症驱动基因预测方法 |
CN114141306A (zh) * | 2021-11-19 | 2022-03-04 | 天津大学 | 基于基因相互作用模式优化图表示的远处转移识别方法 |
CN114141306B (zh) * | 2021-11-19 | 2023-04-07 | 天津大学 | 基于基因相互作用模式优化图表示的远处转移识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109994151B (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109994151A (zh) | 基于复杂网络与机器学习方法的肿瘤驱动基因预测系统 | |
Piri et al. | An analytical study of modified multi-objective Harris Hawk Optimizer towards medical data feature selection | |
Duran-Lopez et al. | PROMETEO: A CNN-based computer-aided diagnosis system for WSI prostate cancer detection | |
JP6063447B2 (ja) | 細胞におけるバイオマーカーの発現のクラスターによる解析 | |
CN107924384A (zh) | 用于使用预测学习模型预测结果的系统和方法 | |
Acharjya | A hybrid scheme for heart disease diagnosis using rough set and cuckoo search technique | |
CN110490177A (zh) | 一种人脸检测器训练方法及装置 | |
CN111144474B (zh) | 基于多视图、多尺度、多任务肺结节分类方法 | |
CN108140025A (zh) | 用于图形生成的结果分析 | |
CN115036002B (zh) | 一种基于多模态融合模型的治疗效果预测方法及终端设备 | |
CN116051574A (zh) | 一种半监督分割模型构建与图像分析方法、设备及系统 | |
CN111581969B (zh) | 医疗术语向量表示方法、装置、存储介质及电子设备 | |
Wang et al. | SC-dynamic R-CNN: A self-calibrated dynamic R-CNN model for lung cancer lesion detection | |
Hu et al. | A Hybrid Convolutional Neural Network Model Based on Different Evolution for Medical Image Classification. | |
Tabatabaei et al. | Self-supervised learning of a tailored Convolutional Auto Encoder for histopathological prostate grading | |
Kumari et al. | A hybrid rough set shuffled frog leaping knowledge inference system for diagnosis of lung cancer disease | |
CN115985503B (zh) | 基于集成学习的癌症预测系统 | |
Zhao et al. | A machine learning method for improving liver cancer staging | |
CN116469570A (zh) | 一种基于电子病历的恶性肿瘤并发症分析方法 | |
Yuan et al. | Self-organizing maps for cellular in silico staining and cell substate classification | |
CN116883768A (zh) | 基于多模态特征融合的肺结节智能分级方法及系统 | |
AU2021102593A4 (en) | A Method for Detection of a Disease | |
CN115662635A (zh) | 一种对放射性肺炎建立联合回归预测模型的方法 | |
CN104268566A (zh) | 淋巴结疾病智能诊断系统中的数据处理方法 | |
Xu et al. | Gene mutation classification using CNN and BiGRU network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240104 Address after: Hangzhou Aimer Cell Biotechnology Co., Ltd., Southeast Area, Building 3, Zhejiang Overseas Students Entrepreneurship Park, No. 600 21st Street, Baiyang Street, Qiantang District, Hangzhou City, Zhejiang Province, 310020 Patentee after: Hangzhou Aiermo Cell Biotechnology Co.,Ltd. Address before: 2318 yuhangtang Road, Cangqian street, Yuhang District, Hangzhou City, Zhejiang Province Patentee before: Hangzhou Normal University |