CN117153325B - 一种基于图对比学习的抗癌药物有效性评估方法及系统 - Google Patents
一种基于图对比学习的抗癌药物有效性评估方法及系统 Download PDFInfo
- Publication number
- CN117153325B CN117153325B CN202311413214.7A CN202311413214A CN117153325B CN 117153325 B CN117153325 B CN 117153325B CN 202311413214 A CN202311413214 A CN 202311413214A CN 117153325 B CN117153325 B CN 117153325B
- Authority
- CN
- China
- Prior art keywords
- data
- gene expression
- representing
- graph
- effectiveness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000002246 antineoplastic agent Substances 0.000 title claims abstract description 22
- 229940041181 antineoplastic drug Drugs 0.000 title claims abstract description 22
- 238000011156 evaluation Methods 0.000 title claims abstract description 22
- 230000014509 gene expression Effects 0.000 claims abstract description 63
- 239000003814 drug Substances 0.000 claims abstract description 50
- 229940079593 drug Drugs 0.000 claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000007637 random forest analysis Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000013526 transfer learning Methods 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 34
- 238000000034 method Methods 0.000 claims description 33
- 206010028980 Neoplasm Diseases 0.000 claims description 28
- 201000011510 cancer Diseases 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000003066 decision tree Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 108090000623 proteins and genes Proteins 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000013508 migration Methods 0.000 claims description 5
- 230000005012 migration Effects 0.000 claims description 5
- 229940000406 drug candidate Drugs 0.000 claims description 3
- 239000003777 experimental drug Substances 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 230000006872 improvement Effects 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 5
- MLDQJTXFUGDVEO-UHFFFAOYSA-N BAY-43-9006 Chemical compound C1=NC(C(=O)NC)=CC(OC=2C=CC(NC(=O)NC=3C=C(C(Cl)=CC=3)C(F)(F)F)=CC=2)=C1 MLDQJTXFUGDVEO-UHFFFAOYSA-N 0.000 description 4
- 239000005511 L01XE05 - Sorafenib Substances 0.000 description 4
- 239000005536 L01XE08 - Nilotinib Substances 0.000 description 4
- 229930012538 Paclitaxel Natural products 0.000 description 4
- 229960004768 irinotecan Drugs 0.000 description 4
- UWKQSNNFCGGAFS-XIFFEERXSA-N irinotecan Chemical compound C1=C2C(CC)=C3CN(C(C4=C([C@@](C(=O)OC4)(O)CC)C=4)=O)C=4C3=NC2=CC=C1OC(=O)N(CC1)CCC1N1CCCCC1 UWKQSNNFCGGAFS-XIFFEERXSA-N 0.000 description 4
- HHZIURLSWUIHRB-UHFFFAOYSA-N nilotinib Chemical compound C1=NC(C)=CN1C1=CC(NC(=O)C=2C=C(NC=3N=C(C=CN=3)C=3C=NC=CC=3)C(C)=CC=2)=CC(C(F)(F)F)=C1 HHZIURLSWUIHRB-UHFFFAOYSA-N 0.000 description 4
- 229960001346 nilotinib Drugs 0.000 description 4
- 229960001592 paclitaxel Drugs 0.000 description 4
- 229960003787 sorafenib Drugs 0.000 description 4
- RCINICONZNJXQF-MZXODVADSA-N taxol Chemical compound O([C@@H]1[C@@]2(C[C@@H](C(C)=C(C2(C)C)[C@H](C([C@]2(C)[C@@H](O)C[C@H]3OC[C@]3([C@H]21)OC(C)=O)=O)OC(=O)C)OC(=O)[C@H](O)[C@@H](NC(=O)C=1C=CC=CC=1)C=1C=CC=CC=1)O)C(=O)C1=CC=CC=C1 RCINICONZNJXQF-MZXODVADSA-N 0.000 description 4
- 239000005551 L01XE03 - Erlotinib Substances 0.000 description 3
- 239000002136 L01XE07 - Lapatinib Substances 0.000 description 3
- 229960001433 erlotinib Drugs 0.000 description 3
- AAKJLRGGTJKAMG-UHFFFAOYSA-N erlotinib Chemical compound C=12C=C(OCCOC)C(OCCOC)=CC2=NC=NC=1NC1=CC=CC(C#C)=C1 AAKJLRGGTJKAMG-UHFFFAOYSA-N 0.000 description 3
- 229960004891 lapatinib Drugs 0.000 description 3
- BCFGMOOMADDAQU-UHFFFAOYSA-N lapatinib Chemical compound O1C(CNCCS(=O)(=O)C)=CC=C1C1=CC=C(N=CN=C2NC=3C=C(Cl)C(OCC=4C=C(F)C=CC=4)=CC=3)C2=C1 BCFGMOOMADDAQU-UHFFFAOYSA-N 0.000 description 3
- YZDJQTHVDDOVHR-UHFFFAOYSA-N PLX-4720 Chemical compound CCCS(=O)(=O)NC1=CC=C(F)C(C(=O)C=2C3=CC(Cl)=CN=C3NC=2)=C1F YZDJQTHVDDOVHR-UHFFFAOYSA-N 0.000 description 2
- 230000001093 anti-cancer Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 229960000303 topotecan Drugs 0.000 description 2
- UCFGDBYHRUNTLO-QHCPKHFHSA-N topotecan Chemical compound C1=C(O)C(CN(C)C)=C2C=C(CN3C4=CC5=C(C3=O)COC(=O)[C@]5(O)CC)C4=NC2=C1 UCFGDBYHRUNTLO-QHCPKHFHSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003560 cancer drug Substances 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000000890 drug combination Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 238000013090 high-throughput technology Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Evolutionary Biology (AREA)
- Epidemiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Genetics & Genomics (AREA)
- Public Health (AREA)
- Biotechnology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及药物有效性评估技术领域,具体公开了一种基于图对比学习的抗癌药物有效性评估方法及系统,所述的一种基于图对比学习的抗癌药物有效性评估方法,其包括:S1:获取基础数据,并对所述基础数据进行预处理,获得初始数据;S2:基于结合迁移学习策略的图对比学习神经网络对所述初始数据进行特征提取以及重构,获得基因表达特征;S3:将所述基因表达特征与对应的药物有效性数据结合配对,获得合并数据集;S4:将所述合并数据集输入随机森林分类模型,获得药物有效性预测结果。本发明具有能够提高算法在小样本情况下的学习效率,从而提高药物有效性预测的准确性和稳健性的优点。
Description
技术领域
本发明涉及药物有效性评估技术领域,特别涉及一种基于图对比学习的抗癌药物有效性评估方法及系统。
背景技术
癌症是一种具有高度异质性的疾病,即使在同一类型的肿瘤中,不同的患者也可能对药物产生不同的有效性和抗药性。因此,根据患者的基因表达数据等信息可以差异化不同的患者,为辅助临床医师提供个体化的医疗建议。随着基因组测序、蛋白质组学和代谢组学等高通量技术的发展,大量的癌症相关数据积累,利用机器学习方法提取其相关数据中的有效特征进行建模,预测药物对差异性患者使用的有效性,从而快速低成本地为实现精准医疗提供建议而受到广泛关注。
然而,各种机器学习方法在抗肿瘤药物的研究上也存在诸多限制和不足。其中最明显的有以下两大挑战:一、有限的小样本数据进一步限制了深度学习方法性能的提升。由于生物数据收集处理的成本高耗时慢,且不同时期处理的数据易出现显著的批次效应,因此收集的合适的相关数据样本量有限,在机器学习建模过程中当样本训练不足时容易出现过拟合的现象,降低预测模型的稳健性。二、生物数据的高维高噪音特征限制了传统机器学习方法的预测性能,在收集的患者及细胞系数据中包含了上万的基因表达数据,而在实验测定这些数据的过程中,又因为实验误差等因素基于出现噪音,这样的高维噪音数据给实验建模带来了极大的挑战。
发明内容
针对现有技术存在上述的不足,本发明的目的在于提供一种基于图对比学习的抗癌药物有效性评估方法及系统,具有能够提高算法在小样本情况下的学习效率,从而提高药物有效性预测的准确性和稳健性的优点。
本发明的上述技术目的是通过以下技术方案得以实现的:
首先,本发明为解决上述问题提供了一种基于图对比学习的抗癌药物有效性评估方法,其包括:
S1:获取基础数据,并对所述基础数据进行预处理,获得初始数据;
S2:基于结合迁移学习策略的图对比学习神经网络对所述初始数据进行特征提取以及重构,获得基因表达特征;
S3:将所述基因表达特征与对应的药物有效性数据结合配对,获得合并数据集;
S4:将所述合并数据集输入随机森林分类模型,获得药物有效性预测结果。
作为本发明的进一步改进,所述步骤S1中对所述基础数据进行预处理包括以下步骤:
S11:获取的基础数据包括患者基因表 、患者癌细胞的基因表达数据以及药物有效性数据;
S12:对所述基因表达数据以及所述药物有效性数据中缺失超过20%的样本及特征进行删除;
S13:对剩余的缺失项使用中位数进行填补;
S14:对所有基因表达数据进行标准化,获得初始数据。
作为本发明的进一步改进,所述步骤S2中基于结合迁移学习策略的图对比学习神经网络对所述初始数据进行特征提取以及重构,获得基因表达特征包括以下步骤:
S21:向所述基因表达数据添加模拟噪声实现数据增强,获得增强数据;
S22:将所述增强数据输入图对比学习神经网络的图卷积层,并引入癌症相关的基因通路信息,获得卷积特征;
S23:将所述卷积特征输入全连接层,获得基因表达特征。
作为本发明的进一步改进,所述步骤S3中将所述基因表达特征与对应的药物有效性数据集合配对,获得合并数据集包括:将所述基因表达特征与对应的代表药物有效性数据的IC50值进行结合配对,获得合并数据集。
作为本发明的进一步改进,所述步骤S2中所述图对比学习神经网络的训练过程包括以下步骤:
S24:获取实验数据,并对所述实验数据进行预处理,获得训练数据,其中所述实验数据包括实验患者基因表、实验用癌细胞的基因表达数据以及实验用药物有效性数据;
S25:对实验用癌细胞的基因表达数据添加模拟噪声实现数据增强,获得增强训练数据;
S26:基于所述增强训练数据确定训练正对样本;
S27:基于所述训练正对样本以及损失函数,获得损失值;
S28:基于所述损失值对图对比学习神经网络中的激活函数进行更新。
作为本发明的进一步改进,所述损失函数为:,其中,/>代表损失函数,/>代表第k个变形的样本嵌入,/>和/>代表来自同一个原始样本的一对正样本,τ代表温度系数,M代表样本数。
作为本发明的进一步改进,所述步骤S4中将所述合并数据集输入随机森林分类模型,获得药物有效性预测结果包括以下步骤:
S41:从所述合并数据集中使用五折交叉验证的方法,有放回地随机选择N个样本作为数据集,实现数据集采样;
S42:对于每个决策树的节点,随机选择一部分特征进行划分,实现特征选择;
S43:基于采样和特征选择后的数据集,使用信息熵来度量数据集的不纯度,计算方式如为:,其中,/>表示类别i在节点中的占比,代表采样和特征选择后的数据集整体的信息熵;
S44:将数据传入所有的决策树,得到每个决策树的预测结果,采用多数投票的方式确定最终预测标签,实现药物有效性预测。
作为本发明的进一步改进,所述图对比学习神经网络的层与层之间的传播方式为:,其中,/>,/>为反映节点之间连接关系的邻接矩阵,/>为单位矩阵,/>为添加了自环的邻接矩阵;/>是/>的度矩阵,且/>,/>代表第i个节点到第j个节点之间是否相连,如果相连则为1,不相连则为0,/>代表第i个节点的度;/>表示第n层的输入特征,/>表示第n层的输出特征,/>表示第n层的可训练的权重矩阵,σ表示非线性激活函数。
作为本发明的进一步改进,所述模拟噪声包括高斯噪声。
为达到本发明另一目的,本发明还提供了一种基于图对比学习的抗癌药物有效性评估系统,其特征在于,包括:
数据获取模块,所述数据获取模块用于获取基础数据,并对所述基础数据进行预处理,获得初始数据;
特征提取以及重构模块,所述特征提取以及重构模块用于使用结合了迁移学习策略的图对比学习神经网络对所述初始数据进行特征提取以及重构,获得基因表达特征;
数据配对模块,所述数据配对模块用于将所述基因表达特征与对应的药物有效性数据结合配对,获得合并数据集;
预测模块,所述预测模块用于构建随机森林分类模型,并将所述合并数据集输入所述随机森林分类模型,获得药物有效性预测结果。
上述的一种基于图对比学习的抗癌药物有效性评估方法及系统,具有以下有益效果:其一、本发明方法结合图对比学习神经网络,针对高维非线性基因表达数据中的冗余信息和噪声,通过引入癌症相关的基因通路信息,在深度神经网络中构建图卷积神经层,构造稀疏通路,更好地提取患者基因数据中的隐藏信息,从而提高了模型的泛化能力;其二、本发明方法针对现有样本量不足且当前数据多样而复杂的问题,通过对比学习策略实现数据增强,以学习样本之间的相似性和差异性,使得模型对噪声具有鲁棒性,解决小样本学习的困境,更有效地构造高维数据的低维表示。相比于传统的监督学习,提升了抗癌药物有效性预测的准确性和效率,和现有先进方法相比,本发明采用的方法其AUC提升了约5.77%。
附图说明
图1为本发明一种基于图对比学习的抗癌药物有效性评估方法的流程框图;
图2为本发明一种基于图对比学习的抗癌药物有效性评估系统的示意框图;
图3为本发明应用于8个药物数据集的ACC得分示意图;
图4为本发明应用于8个药物数据集的AUC得分示意图;
图5为本发明应用于8个药物数据集的F1得分示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,若全文中出现的“和/或”或者“及/或”,其含义包括三个并列的方案,以“A和/或B”为例,包括A方案、或B方案、或A和B同时满足的方案。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提出一种基于图对比学习的抗癌药物有效性评估方法及系统。
实施例1
在本实施例中,该一种基于图对比学习的抗癌药物有效性评估方法包括步骤S1至步骤S4。
在步骤S1中,获取基础数据,并对基础数据进行预处理,获得初始数据,具体为:
步骤S11:获取癌症患者基因表达谱、癌症患者癌细胞的基因表达数据以及药物有效性数据;
步骤S12:对癌症患者癌细胞的基因表达数据以及药物有效性数据中缺失超过20%的样本及特征进行删除;
步骤S13:对剩余的缺失项使用中位数进行填补;
步骤S14:对所有癌症患者癌细胞的基因表达数据以均值为0,标准差为1实现标准化,获得初始数据。
在步骤S2中,基于结合迁移学习策略的图对比学习神经网络对所述初始数据进行特征提取以及重构,获得基因表达特征,具体为:
步骤S21:向癌症患者癌细胞的基因表达数据添加高斯噪声等模拟噪声实现数据增强,每个单元有两个增强版本,小批量的N个单元增强为2N个单元,即获得增强数据;
步骤S22:将得到的增强数据输入图对比学习神经网络中的图卷积层中,并引入癌症相关的基因通路信息,该基因通路信息采集自KEGG数据库,获得卷积特征,其中,图对比学习神经网络中图卷积层与图卷积层之间的传播方式为:,其中,/>,/>为反映节点之间连接关系的邻接矩阵,/>为单位矩阵,/>为添加了自环的邻接矩阵;/>是/>的度矩阵,且/>,/>代表第i个节点到第j个节点之间是否相连,如果相连则为1,不相连则为0,/>代表第i个节点的度;/>表示第n层的输入特征,/>表示第n层的输出特征,/>表示第n层的可训练的权重矩阵,σ表示非线性激活函数/>。
步骤S23:将得到的卷积特征输入全连接层,得到基因表达特征,由于增强数据依次经过图卷积层以及全连接层,因此得到的基因表达特征相对于原增强数据而言属于低维特征,从而实现了构造高维数据的低维表示。
在步骤S3中,将获得的基因表达特征与对应的代表药物有效性数据的IC50值进行结合配对,获得合并数据集。
在步骤S4中,将所述合并数据集输入随机森林分类模型,获得药物有效性预测结果,具体为:
步骤S41:从合并数据集中使用五折交叉验证的方法,有放回地随机选择N个样本作为数据集,实现数据集采样;
步骤S42:对于每个决策树的节点,随机选择一部分特征进行划分,实现特征选择;
步骤S43:基于采样和特征选择后的数据集,使用信息熵来度量数据集的不纯度,计算方式如为:,其中,/>表示类别i在节点中的占比,代表采样和特征选择后的数据集整体的信息熵;
步骤S44:将数据传入所有的决策树,得到每个决策树的预测结果,采用多数投票的方式确定最终预测标签,实现药物有效性预测。
实施例2
在本实施例中,本发明还提供一种基于图对比学习的抗癌药物有效性评估的训练方法,其包括:
步骤S24:获取实验数据,并对实验数据进行预处理,获得训练数据,具体为:从癌症药物有效性基因组学数据库GDSC中获取8类药物数据进行测试,包括代表药物有效性数据的IC50值以及癌细胞的基因表达数据,其中Erlotinib 429例,Irinotecan 453例,Lapatinib 434例,Nilotinib 434例,Paclitaxel 434例,PLX4720 452例,Sorafenib 434例,Topotecan 411例,并对获取的数据进行预处理,预处理具体包括以下步骤:
步骤S241:对基因表达数据以及药物有效性数据中缺失超过20%的样本及特征进行删除;
步骤S242:对剩余的缺失项使用中位数进行填补;
步骤S243:对所有基因表达数据以均值为0,标准差为1实现标准化,获得训练数据。
步骤S25:向基因表达数据添加高斯噪声等模拟噪声实现数据增强,以生成训练对,每个单元有两个增强版本,小批量的N个单元增强为2N个单元,即获得增强训练数据,具体为:在每个批次中,通过往基因表达数据中添加高斯噪音生成相应的扭曲配置文件;
步骤S26:基于增强训练数据确定训练正对样本,具体为:将从相同基因表达谱重组生成的两个扭曲配置文件视为训练正对样本,而将来自不同基因表达谱的配置文件视为训练负对样本;
步骤S27:将训练正对样本输入至损失函数中,获得损失值,其中,损失函数/>的表达式为:/>,其中,/>代表损失函数,/>代表第k个变形的样本嵌入,/>和/>代表来自同一个原始样本的一对正样本,/>代表温度系数,M代表样本数,在本实施例中,温度系数/>设置为0.2。
步骤S28:根据损失值对图对比学习神经网络中的激活函数进行更新,激活函数/>中包括一个键编码器以及一个查询编码器,基于损失值对键编码器参数以及查询编码器参数进行更新,其中,对于键编码器参数,采用动量更新,对于查询编码器参数,采用正态反向传播更新;通过更新前的键编码器参数以及更新后的查询编码器参数进行线性组合,以保留线性组合中更新前的键编码器中的信息/>,具体的组合表达式为:/>,其中,/>为建编码器参数,/>为查询编码器参数,m∈[0,1)是动量系数,在本实施例中m设置为0.999;将具有相似表达模式的细胞形成簇,这些簇可能为相同细胞类型的细胞。
步骤S29,将基因表达特征与对应的代表药物有效性数据的IC50值进行结合配对,获得8个用于算法评估的药物合并数据集。将合并数据集输入随机森林分类模型,具体过程如下:
步骤S291:从合并数据集中使用五折交叉验证的方法,有放回地随机选择N个样本作为训练集,实现数据集采样;
步骤S292:对于每个决策树的节点,在训练时,随机选择一部分特征进行划分,实现特征选择;
步骤S293:基于采样和特征选择后的训练集,使用熵来度量训练集的不纯度,计算方式如为:,其中,/>表示类别i在节点中的占比;
步骤S294:将数据传入所有的决策树,得到每个决策树的预测结果,采用多数投票的方式确定最终预测标签,实现分类预测。
实施例3
为达到本发明另一目的,本发明还提供了一种基于图对比学习的抗癌药物有效性评估系统,其特征在于,包括:
数据获取模块100,数据获取模块100用于获取基础数据,并对基础数据进行预处理,获得初始数据;
特征提取以及重构模块200,特征提取以及重构模块200用于基于图对比学习神经网络对初始数据进行特征提取以及重构,获得基因表达特征;
数据配对模块300,数据配对模块300用于将基因表达特征与对应的药物有效性数据结合配对,获得合并数据集;
预测模块400,预测模块400用于构建随机森林分类模型,并将合并数据集输入随机森林分类模型,获得药物有效性预测结果。
本发明方法结合迁移学习策略与图对比学习神经网络,针对高维非线性基因表达数据中的冗余信息和噪声,通过构建预训练网络,并引入癌症相关的基因通路信息,在深度神经网络中构建图卷积神经层,构造稀疏通路,更好地提取患者基因数据中的隐藏信息,从而提高了模型的泛化能力;其次针对现有样本量不足且当前数据多样而复杂的问题,通过对比学习策略实现数据增强,以学习样本之间的相似性和差异性,使得模型对噪声具有鲁棒性,解决小样本学习的困境,更有效地构造高维数据的低维表示。相比于传统的监督学习,提升了抗癌药物有效性预测的准确性和效率,和现有先进方法相比,本发明采用的方法其AUC提升了约5.77%。
为了评估本发明所提出的基于图-对比学习神经网络深度学习框架的抗癌药物有效性评估方法的有效性,本发明将此评估方法分别应用于8个药物数据集(Erlotinib,Irinotecan,Lapatinib,Nilotinib,Paclitaxel,PLX4720,Sorafenib,Topotecan)中,并将ACC, AUC以及F1得分作为评价指标进行实验评估。8种抗癌药物有效性的ACC得分如图2所示,AUC得分如图3所示,F1得分如图4所示。根据实验结果,这8种药物的ACC指数范围为0.500 ~ 0.750,其中在Sorafenib中最高,在Lapatinib中最低。ACC指数集中在0.600 ~0.750之间,说明本发明方法的性能在不同数据集上相对一致,并且ACC指数在Nilotinib和Sorafenib中相对较高,在Irinotecan中相对较低。而F1得分范围基本上在0.575 ~ 0.725之间,在Erlotinib中取得较高的F1得分,在Irinotecan和Paclitaxel中F1得分较低。
参照表1,将本发明方法以及6个其它现有先进机器学习算法Logistic、SVM、DNN、Dr.VAE、GADRP、XGBoost应用于8个药物数据集进行精确度比较,分别计算每个药物数据集下每种算法的评价指标AUC值,进行实验比较。7种方法在8个药物数据集上所得的AUC指数值对比如表1所示,本发明方法下取得的AUC在0.636(Paclitaxel)和0.723(Nilotinib)之间,平均值为0.670。与其他方法相比,本发明方法平均提高了5.77%的AUC指数。
表1.在8个数据集上应用不同方法下的AUC得分
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (4)
1.一种基于图对比学习的抗癌药物有效性评估方法,其特征在于,包括:
S1:获取基础数据,并对所述基础数据进行预处理,获得初始数据;
S2:基于结合迁移学习策略的图对比学习神经网络对所述初始数据进行特征提取以及重构,获得基因表达特征;
S3:将所述基因表达特征与对应的药物有效性数据结合配对,获得合并数据集;
S4:将所述合并数据集输入随机森林分类模型,获得药物有效性预测结果;
所述S1中对所述基础数据进行预处理包括以下步骤:
S11:获取的基础数据包括患者基因表达谱、患者癌细胞的基因表达数据以及药物有效性数据;
S12:对所述基因表达数据以及所述药物有效性数据中缺失超过20%的样本及特征进行删除;
S13:对剩余的缺失项使用中位数进行填补;
S14:对所有基因表达数据进行标准化,获得初始数据;
所述S2包括以下步骤:
S21:向所述基因表达数据添加模拟噪声实现数据增强,获得增强数据;
S22:将所述增强数据输入图对比学习神经网络的图卷积层,并引入癌症相关的基因通路信息,获得卷积特征;
S23:将所述卷积特征输入全连接层,获得基因表达特征;
所述S3包括:将所述基因表达特征与对应的代表药物有效性数据的IC50值进行结合配对,获得合并数据集;
所述S4包括以下步骤:
S41:从所述合并数据集中使用五折交叉验证的方法,有放回地随机选择N个样本作为数据集,实现数据集采样;
S42:对于每个决策树的节点,随机选择一部分特征进行划分,实现特征选择;
S43:基于采样和特征选择后的数据集,使用信息熵来度量数据集的不纯度,计算方式如为:,其中,/>表示类别i在节点中的占比,代表采样和特征选择后的数据集整体的信息熵;
S44:将数据传入所有的决策树,得到每个决策树的预测结果,采用多数投票的方式确定最终预测标签,实现药物有效性预测;
所述图对比学习神经网络的卷积层与卷积层之间的传播方式为:,其中,/>,/>为反映节点之间连接关系的邻接矩阵,/>为单位矩阵,/>为添加了自环的邻接矩阵;/>是/>的度矩阵,且/>,/>代表第i个节点到第j个节点之间是否相连,如果相连则为1,不相连则为0,/>代表第i个节点的度;/>表示第n层的输入特征,/>表示第n层的输出特征,/>表示第n层的可训练的权重矩阵,σ表示非线性激活函数;
其中,所述S2中所述图对比学习神经网络的训练过程包括以下步骤:
S24:获取实验数据,并对所述实验数据进行预处理,获得训练数据,其中所述实验数据包括实验患者基因表、实验用癌细胞的基因表达数据以及实验用药物有效性数据;
S25:对实验用癌细胞的基因表达数据添加模拟噪声生成对应的扭曲配置文件以实现数据增强,获得增强训练数据;
S26:基于所述增强训练数据确定训练正对样本;
S27:基于所述训练正对样本以及损失函数,获得损失值;
S28:基于所述损失值对图对比学习神经网络中的激活函数进行更新。
2.根据权利要求1所述的基于图对比学习的抗癌药物有效性评估方法,其特征在于:所述损失函数为:,其中,/>代表损失函数,/>代表第k个变形的样本嵌入,/>和/>代表来自同一个原始样本的一对正样本,τ代表温度系数,M代表样本数。
3.根据权利要求1所述的基于图对比学习的抗癌药物有效性评估方法,其特征在于:所述模拟噪声包括高斯噪声。
4.一种基于图对比学习的抗癌药物有效性评估系统,其特征在于,包括:
数据获取模块,所述数据获取模块用于获取基础数据,并对所述基础数据进行预处理,获得初始数据;其中,对所述基础数据进行预处理包括以下步骤:获取的基础数据包括患者基因表达谱、患者癌细胞的基因表达数据以及药物有效性数据;对所述基因表达数据以及所述药物有效性数据中缺失超过20%的样本及特征进行删除;对剩余的缺失项使用中位数进行填补;对所有基因表达数据进行标准化,获得初始数据;
特征提取以及重构模块,所述特征提取以及重构模块用于使用结合了迁移学习策略的图对比学习神经网络对所述初始数据进行特征提取以及重构,获得基因表达特征;其中,向所述基因表达数据添加模拟噪声实现数据增强,获得增强数据;将所述增强数据输入图对比学习神经网络的图卷积层,并引入癌症相关的基因通路信息,获得卷积特征;将所述卷积特征输入全连接层,获得基因表达特征;其中,所述图对比学习神经网络的卷积层与卷积层之间的传播方式为:,其中,/>,/>为反映节点之间连接关系的邻接矩阵,/>为单位矩阵,/>为添加了自环的邻接矩阵;/>是/>的度矩阵,且,/>代表第i个节点到第j个节点之间是否相连,如果相连则为1,不相连则为0,/>代表第i个节点的度;/>表示第n层的输入特征,/>表示第n层的输出特征,表示第n层的可训练的权重矩阵,σ表示非线性激活函数;
数据配对模块,所述数据配对模块用于将所述基因表达特征与对应的代表药物有效性数据的IC50值进行结合配对,获得合并数据集;
预测模块,所述预测模块用于构建随机森林分类模型,并将所述合并数据集输入所述随机森林分类模型,获得药物有效性预测结果;其中,从所述合并数据集中使用五折交叉验证的方法,有放回地随机选择N个样本作为数据集,实现数据集采样;对于每个决策树的节点,随机选择一部分特征进行划分,实现特征选择;基于采样和特征选择后的数据集,使用信息熵来度量数据集的不纯度,计算方式如为:,其中,表示类别i在节点中的占比,/>代表采样和特征选择后的数据集整体的信息熵;将数据传入所有的决策树,得到每个决策树的预测结果,采用多数投票的方式确定最终预测标签,实现药物有效性预测;
其中,所述图对比学习神经网络的训练过程包括:获取实验数据,并对所述实验数据进行预处理,获得训练数据,其中所述实验数据包括实验患者基因表、实验用癌细胞的基因表达数据以及实验用药物有效性数据;对实验用癌细胞的基因表达数据添加模拟噪声生成对应的扭曲配置文件以实现数据增强,获得增强训练数据;基于所述增强训练数据确定训练正对样本;基于所述训练正对样本以及损失函数,获得损失值;基于所述损失值对图对比学习神经网络中的激活函数进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311413214.7A CN117153325B (zh) | 2023-10-30 | 2023-10-30 | 一种基于图对比学习的抗癌药物有效性评估方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311413214.7A CN117153325B (zh) | 2023-10-30 | 2023-10-30 | 一种基于图对比学习的抗癌药物有效性评估方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117153325A CN117153325A (zh) | 2023-12-01 |
CN117153325B true CN117153325B (zh) | 2024-01-30 |
Family
ID=88884751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311413214.7A Active CN117153325B (zh) | 2023-10-30 | 2023-10-30 | 一种基于图对比学习的抗癌药物有效性评估方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117153325B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198135A (zh) * | 2018-01-02 | 2018-06-22 | 佛山科学技术学院 | 一种全景图像拼接最优缝合线搜索方法 |
CN109122633A (zh) * | 2018-06-25 | 2019-01-04 | 华南农业大学 | 神经网络决策的植保无人机精准变量喷雾装置和控制方法 |
CN114974610A (zh) * | 2022-04-14 | 2022-08-30 | 湖南大学 | 基于图神经网络和自动编码器的抗癌药物敏感性预测方法 |
WO2022229329A1 (en) * | 2021-04-29 | 2022-11-03 | UCB Biopharma SRL | Method and system for predicting individualized binary response to a treatment |
CN115511145A (zh) * | 2022-05-06 | 2022-12-23 | 浙江工业大学 | 一种基于子图网络和对比学习的化合物性质预测方法 |
CN116543852A (zh) * | 2023-03-29 | 2023-08-04 | 东北林业大学 | 基于暹罗结构与图对比学习的ddi预测方法 |
CN116798652A (zh) * | 2023-05-08 | 2023-09-22 | 昆明理工大学 | 一种基于多任务学习的抗癌药物反应预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3192000B1 (en) * | 2014-09-08 | 2024-06-12 | Uri Jacob Braun | System and method of controllably disclosing sensitive data |
-
2023
- 2023-10-30 CN CN202311413214.7A patent/CN117153325B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198135A (zh) * | 2018-01-02 | 2018-06-22 | 佛山科学技术学院 | 一种全景图像拼接最优缝合线搜索方法 |
CN109122633A (zh) * | 2018-06-25 | 2019-01-04 | 华南农业大学 | 神经网络决策的植保无人机精准变量喷雾装置和控制方法 |
WO2022229329A1 (en) * | 2021-04-29 | 2022-11-03 | UCB Biopharma SRL | Method and system for predicting individualized binary response to a treatment |
CN114974610A (zh) * | 2022-04-14 | 2022-08-30 | 湖南大学 | 基于图神经网络和自动编码器的抗癌药物敏感性预测方法 |
CN115511145A (zh) * | 2022-05-06 | 2022-12-23 | 浙江工业大学 | 一种基于子图网络和对比学习的化合物性质预测方法 |
CN116543852A (zh) * | 2023-03-29 | 2023-08-04 | 东北林业大学 | 基于暹罗结构与图对比学习的ddi预测方法 |
CN116798652A (zh) * | 2023-05-08 | 2023-09-22 | 昆明理工大学 | 一种基于多任务学习的抗癌药物反应预测方法 |
Non-Patent Citations (1)
Title |
---|
基于图卷积网络的癌症临床结果预测的半监督学习方法;宁世琦;郭茂祖;任世军;;智能计算机与应用(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117153325A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7305656B2 (ja) | 確率分布をモデル化するためのシステムおよび方法 | |
Ravì et al. | Deep learning for health informatics | |
Varma et al. | A computational intelligence approach for a better diagnosis of diabetic patients | |
CN116364299B (zh) | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 | |
CN113113130A (zh) | 一种肿瘤个体化诊疗方案推荐方法 | |
Butt et al. | Diagnosing the stage of hepatitis C using machine learning | |
Zhang et al. | Identification of autism spectrum disorder based on a novel feature selection method and variational autoencoder | |
Rattan et al. | Artificial intelligence and machine learning: what you always wanted to know but were afraid to ask | |
Zhou et al. | [Retracted] A Correlation Analysis between SNPs and ROIs of Alzheimer’s Disease Based on Deep Learning | |
CN115640529A (zh) | 一种新型的环状rna-疾病关联预测方法 | |
Jena et al. | An integrated novel framework for coping missing values imputation and classification | |
Yadav et al. | Exploring Hyper-Parameters and Feature Selection for Predicting Non-Communicable Chronic Disease Using Stacking Classifier | |
Dutta | Detecting Lung Cancer Using Machine Learning Techniques. | |
Sun et al. | Ehr2hg: Modeling of ehrs data based on hypergraphs for disease prediction | |
Thakur et al. | RNN-CNN based cancer prediction model for gene expression | |
Andi et al. | Analysis of the random forest and grid search algorithms in early detection of diabetes mellitus disease | |
Wang et al. | Generative Adversarial Matrix Completion Network based on Multi-Source Data Fusion for miRNA–Disease Associations Prediction | |
CN117153325B (zh) | 一种基于图对比学习的抗癌药物有效性评估方法及系统 | |
Singh et al. | CTDN (convolutional temporal based deep‐neural network): an improvised stacked hybrid computational approach for anticancer drug response prediction | |
Chen et al. | Classification and Progression Based on CFS‐GA and C5. 0 Boost Decision Tree of TCM Zheng in Chronic Hepatitis B | |
Khoirunnisa et al. | Implementation of CRNN method for lung cancer detection based on microarray data | |
Yan et al. | Convolutional neural network with parallel convolution scale attention module and ResCBAM for breast histology image classification | |
Metipatil et al. | An efficient framework for predicting cancer type based on microarray gene expressions using CNN-BiLSTM technique | |
Kim et al. | Intra-person multi-task learning method for chronic-disease prediction | |
Gulhane et al. | A Machine Learning based Model for Disease Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 528000 No. 18, Jiangwan Road, Chancheng District, Guangdong, Foshan Patentee after: Foshan University Country or region after: China Address before: 528000 No. 18, Jiangwan Road, Chancheng District, Guangdong, Foshan Patentee before: FOSHAN University Country or region before: China |
|
CP03 | Change of name, title or address |