CN110232978A - 基于多维网络的癌症细胞系治疗药物预测方法 - Google Patents
基于多维网络的癌症细胞系治疗药物预测方法 Download PDFInfo
- Publication number
- CN110232978A CN110232978A CN201910518175.4A CN201910518175A CN110232978A CN 110232978 A CN110232978 A CN 110232978A CN 201910518175 A CN201910518175 A CN 201910518175A CN 110232978 A CN110232978 A CN 110232978A
- Authority
- CN
- China
- Prior art keywords
- cancer cell
- drug
- cell line
- similarity
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 220
- 201000011510 cancer Diseases 0.000 title claims abstract description 219
- 239000003814 drug Substances 0.000 title claims abstract description 188
- 238000000034 method Methods 0.000 title claims abstract description 42
- 229940124597 therapeutic agent Drugs 0.000 title abstract 4
- 229940079593 drug Drugs 0.000 claims abstract description 145
- 239000011159 matrix material Substances 0.000 claims abstract description 51
- 230000004044 response Effects 0.000 claims abstract description 36
- 230000035945 sensitivity Effects 0.000 claims abstract description 15
- 238000009792 diffusion process Methods 0.000 claims abstract description 14
- 230000001225 therapeutic effect Effects 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 73
- 230000014509 gene expression Effects 0.000 claims description 43
- 239000000126 substance Substances 0.000 claims description 36
- 230000035772 mutation Effects 0.000 claims description 30
- 239000003596 drug target Substances 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 10
- 238000007477 logistic regression Methods 0.000 claims description 9
- 108090000623 proteins and genes Proteins 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 6
- 238000013508 migration Methods 0.000 claims description 4
- 230000005012 migration Effects 0.000 claims description 4
- 230000007480 spreading Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 125
- 238000004088 simulation Methods 0.000 description 6
- 208000031261 Acute myeloid leukaemia Diseases 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 206010064571 Gene mutation Diseases 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- MLDQJTXFUGDVEO-UHFFFAOYSA-N BAY-43-9006 Chemical compound C1=NC(C(=O)NC)=CC(OC=2C=CC(NC(=O)NC=3C=C(C(Cl)=CC=3)C(F)(F)F)=CC=2)=C1 MLDQJTXFUGDVEO-UHFFFAOYSA-N 0.000 description 1
- 239000005511 L01XE05 - Sorafenib Substances 0.000 description 1
- 239000002146 L01XE16 - Crizotinib Substances 0.000 description 1
- JOOXLOJCABQBSG-UHFFFAOYSA-N N-tert-butyl-3-[[5-methyl-2-[4-[2-(1-pyrrolidinyl)ethoxy]anilino]-4-pyrimidinyl]amino]benzenesulfonamide Chemical compound N1=C(NC=2C=C(C=CC=2)S(=O)(=O)NC(C)(C)C)C(C)=CN=C1NC(C=C1)=CC=C1OCCN1CCCC1 JOOXLOJCABQBSG-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 229960005061 crizotinib Drugs 0.000 description 1
- KTEIFNKAUNYNJU-GFCCVEGCSA-N crizotinib Chemical compound O([C@H](C)C=1C(=C(F)C=CC=1Cl)Cl)C(C(=NC=1)N)=CC=1C(=C1)C=NN1C1CCNCC1 KTEIFNKAUNYNJU-GFCCVEGCSA-N 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229950003487 fedratinib Drugs 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 208000032839 leukemia Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 201000001441 melanoma Diseases 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- RDSACQWTXKSHJT-NSHDSACASA-N n-[3,4-difluoro-2-(2-fluoro-4-iodoanilino)-6-methoxyphenyl]-1-[(2s)-2,3-dihydroxypropyl]cyclopropane-1-sulfonamide Chemical compound C1CC1(C[C@H](O)CO)S(=O)(=O)NC=1C(OC)=CC(F)=C(F)C=1NC1=CC=C(I)C=C1F RDSACQWTXKSHJT-NSHDSACASA-N 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 229950008933 refametinib Drugs 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 229960003787 sorafenib Drugs 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- 229940126585 therapeutic drug Drugs 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Toxicology (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于多维网络的癌症细胞系治疗药物预测方法,主要解决现有技术对癌症细胞系治疗药物预测结果准确率低的问题。其方案是:下载n个癌症细胞系的数据,构建癌症细胞系相似性网络;下载m个药物的数据,构建药物相似性网络;在癌症细胞系相似性网络中,利用扩散成分分析算法计算得到n个癌症细胞系的低维特征向量矩阵;在药物相似性网络中,利用扩散成分分析算法计算得到m个药物的低维特征向量矩阵;获得药物反应的逻辑回归模型;计算药物和癌症细胞系之间为敏感性关系的得分;通过敏感性关系得分判断药物对癌症细胞系是否具有治疗作用。本发明提高了对癌症细胞系治疗药物预测结果的准确率,可用于癌症对药物的反应预测实验。
Description
技术领域
本发明属于生物信息学技术领域,特别涉及一种癌症细胞系治疗药物预测方法,可用于癌症对药物的反应预测实验。
背景技术
癌症是一类复杂的异质性疾病,忽略癌症患者体内生物分子特征,仅仅依据癌症患者临床症状的传统治疗方式无法满足现代医疗治疗癌症的要求。目前,治疗癌症的主要手段是使用分子靶向药物抑制癌症的发展。精准医疗提倡的就是靶向疗法,根据癌症患者的体内分子特性选择具体的治疗方案是提高癌症治疗效果的有效途径。在动物体内移植肿瘤,然后把化合物作用于动物体内,观察动物体内肿瘤的生长变化,以此确定化合物对肿瘤的作用效果,这种研究治疗肿瘤药物的方法费用高、耗时长而且成功率低。
面对这些挑战,人类癌症细胞系为预测药物反应提供了新的载体,有利于筛选治疗癌症的候选药物。原发性肿瘤细胞系的培养时间相对较短,研究人员可以快速测试药物对某种癌症的治疗是否有效,缩小治疗癌症的候选药物范围。目前用细胞系培养技术培养出的癌症细胞系能够近似的模拟癌症细胞在癌症病人体内的生长环境,癌症细胞系和癌症病人体内癌症细胞的基因表达、染色体增益或缺失以及甲基化水平具有极大的相似性,癌症细胞系能够更加准确的模拟癌症病人对药物的反应情况。通过分析癌症细胞系分子数据预测药物反应,能够提高预测药物反应的准确率。
根据不同的数据和理论,目前的药物反应预测方法主要分为以下两类:
一.基于机器学习的药物反应预测方法。
随着机器学习理论的不断发展,使用机器学习预测药物反应的方法取得了较好的结果。此类方法的主要流程是:首先,提取癌症细胞系的基因表达谱作为特征。然后,利用药物的已知反应数据训练预测模型。最后,预测模型计算出新的药物反应。此类方法的优点是从癌症细胞系的基因表达水平进行药物反应研究,缺点是没有考虑到癌症细胞系之间的关系,没有考虑到药物之间的关系,其预测的准确率有待提高。
二.基于网络的药物反应预测方法。
网络能够反映节点之间的关系。已有研究发现相似的癌症细胞系对相似的药物具有相似的反应。癌症细胞系相似性网络描述了癌症细胞系之间的相似性,药物相似性网络描述了药物之间的相似性,在相似性网络中使用信息传播方法来预测药物的反应。此类方法的主要流程是:首先,基于基因表达谱构建癌症细胞系相似性网络,以及基于化学结构构建药物相似性网络,然后,将癌症细胞系和药物的已知反应映射到癌症细胞系相似性网络和药物相似性网络之间,建立癌症细胞系节点和药物节点的连边,形成异构网络,最后在异构网络中通过信息传播预测药物反应。此类方法的优点是从癌症细胞系之间以及药物之间的相似性关系进行药物反应预测研究,缺点是仅从单一层面计算癌症细胞系相似性和药物相似性,预测结果准确率有待提升。
发明内容
本发明的目的在于针对上述现有技术存在的缺陷,提出一种基于多维网络的癌症细胞系药物反应预测方法,以提高药物反应预测结果的准确率。
本发明的技术方案是:根据癌症细胞系的基因表达、基因突变及拷贝数变异数据构建癌症细胞系三维相似性网络;根据药物的靶标及化学结构特征构建药物二维相似性网络;通过在癌症细胞系三维相似网络和药物二维相似性网络中应用扩散成分分析算法,得到癌症细胞系和药物的低维特征向量;将癌症细胞系和药物的低维特征向量作为训练数据集的特征,用已知的药物反应关系作为训练数据集的标签,训练得到预测药物反应的逻辑回归模型,根据此模型来预测对药物反应敏感的癌症细胞系。其实现步骤包括如下:
(1)下载癌症细胞系的数据,构建癌症细胞系相似性网络:
(1a)从与癌症细胞系基因表达相关的任意一个数据库下载n个癌症细胞系和这n个癌症细胞系所对应的t个基因的表达数据,得到基因表达矩阵构建癌症细胞系基因表达相似性网络
(1b)从与癌症细胞系突变相关的任意一个数据库下载n个癌症细胞系和这n个癌症细胞系所对应的p个基因的突变数据,得到突变矩阵构建癌症细胞系突变相似性网络
(1c)从与癌症细胞系拷贝数变异相关的任意一个数据库下载n个癌症细胞系和这n个癌症细胞系所对应的q个基因的拷贝数变异数据,得到拷贝数变异矩阵构建癌症细胞系拷贝数变异相似性网络
(2)下载药物的数据,构建药物相似性网络:
(2a)从与药物化学结构相关的任意一个数据库下载m个药物的化学结构表达式数据CHm,构建药物化学结构相似性网络
(2b)从与药物靶标相关的任意一个数据库下载m个药物的靶标数据TAm,构建药物靶标相似性网络
(3)在癌症细胞系基因表达相似性网络癌症细胞系突变相似性网络和癌症细胞系拷贝数变异相似性网络中,利用扩散成分分析算法计算得到n个癌症细胞系的低维特征向量矩阵其中dc表示癌症细胞系特征向量的维度数量;
(4)在药物化学结构相似性网络和药物靶标相似性网络中,利用扩散成分分析算法计算得到m个药物的低维特征向量矩阵其中dd表示药物特征向量的维度数量;
(5)获得药物反应的逻辑回归模型:
(5a)从癌症细胞系低维特征向量矩阵中的第i行得到第i个癌症细胞系的低维特征向量:其中,i=1,2,3,...,n;
(5b)从药物低维特征向量矩阵中的第x行得到第x个药物的低维特征向量:
(5c)将第i个癌症细胞系的低维特征向量和第x个药物的低维特征向量组合为联合特征向量:
(5d)从与药物反应相关的任意一个数据库下载已知药物与癌症细胞系的反应关系数据;
(5e)基于已知药物与癌症细胞系的反应关系数据和其对应的联合特征向量,对逻辑回归模型进行训练,得到药物反应预测模型;
(6)将未知反应关系的药物与癌症细胞系所对应的联合特征向量作为药物反应预测模型的输入,计算药物和癌症细胞系之间的敏感性关系的得分;
(7)判断敏感性关系得分是否大于0.5,如果是,则对应的药物对癌症细胞系有治疗作用,否则,对应的药物对癌症细胞系没有治疗效果。
本发明与现有技术相比,具有以下优点:
1、本发明在获取癌症细胞系特征向量时,综合了癌症细胞系的基因表达谱,基因突变和拷贝数变异分子特征,以及癌症细胞系之间的相似性关系,相对于目前方法中采用的癌症细胞系的基因表达谱,全面的考虑到癌症细胞系基因组特性对药物反应的影响,有效地提高了药物重定位的准确率。
2、本发明在获取癌症细胞系特征向量时,通过使用扩散成分分析算法,不仅代表节点在网络中的拓扑结构特征,而且降低了网络带来的噪音影响,相对于目前方法中直接根据癌症细胞系相似性网络预测药物反应,进一步提高了药物反应预测的准确率。
附图说明
图1是本发明的实现总流程图;
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
参照图1、本实例的实现步骤如下:
步骤1,下载癌症细胞系的数据,构建癌症细胞系相似性网络:
1a)构建癌症细胞系基因表达相似性网络
1a1)本实例从GDSC数据库中下载955个癌症细胞系的基因表达值数据,得到基因表达矩阵Mexp,基因表达矩阵Mexp有955行和17738列,其中行表示癌症细胞系,列表示基因;
1a2)从基因表达矩阵Mexp中的第i行得到第i个癌症细胞系的基因表达特征向量:其中,i=1,2,3,...,955;
1a3)从基因表达矩阵Mexp中的第j行得到第j个癌症细胞系的基因表达特征向量:其中,j=1,2,3,...,955;
1a4)计算上述Ci exp与Cj exp之间的皮尔森相关性,得到第i个癌症细胞系和第j个癌症细胞系的基因表达相似性,作为癌症细胞系基因表达相似性网络中的元素的值,得到癌症细胞系基因表达相似性网络
1b)构建癌症细胞系突变相似性网络
1b1)本实例从GDSC数据库中下载955个癌症细胞系的突变数据,得到突变矩阵Mmut,突变矩阵Mmut有955行和19015列,其中行表示癌症细胞系,列表示突变基因;
1b2)从突变矩阵Mmut中的第i行得到第i个癌症细胞系的突变特征向量:其中,i=1,2,3,...,955;
1b3)从突变矩阵Mmut的第j行得到第j个癌症细胞系的突变特征向量:其中,j=1,2,3,...,955;
1b4)计算上述与之间的余弦相似性,得到第i个癌症细胞系和第j个癌症细胞系的突变相似性,作为癌症细胞系突变相似性网络中元素的值,得到癌症细胞系突变相似性网络
1c)构建癌症细胞系拷贝数变异相似性网络
1c1)本实例从GDSC数据库中下载955个癌症细胞系的拷贝数变异数据,得到拷贝数变异矩阵Mcnv,拷贝数变异矩阵Mcnv矩阵有955行和798列,其中行表示癌症细胞系,列表示基因片段;
1c2)从拷贝数变异矩阵Mcnv中的第i行得到第i个癌症细胞系的拷贝数变异特征向量:其中,i=1,2,3,...,955;
1c3)从拷贝数变异矩阵Mcnv中的第j行得到第j个癌症细胞系的拷贝数变异特征向量:其中,j=1,2,3,...,955;
1c4)计算上述Ci cnv与Cj cnv之间的斯皮尔曼相关性得到第i个癌症细胞系和第j个癌症细胞系的拷贝数变异相似性,作为癌症细胞系拷贝数变异相似性网络中元素的值,得到癌症细胞系拷贝数变异相似性网络
步骤2,下载药物的数据,构建药物相似性网络。
2a)构建药物化学结构相似性网络
2a1)本实例从Pubchem下载219个药物的化学结构表达式数据CH219;
2a2)使用PaDEL工具将药物的化学结构表达式数据CH219转换为化学结构分子特征,得到化学结构矩阵Mchem,化学结构矩阵Mchem有219行和1024列,行表示药物,列表示化学结构分子特征;
2a3)从化学结构矩阵Mchem中的第x行得到第x个药物的化学结构分子特征向量:其中,x=1,2,3,...219;
2a4)从化学结构矩阵Mchem中的第y行得到第y个药物的化学结构分子特征向量:其中,y=1,2,3,...219;
2a5)计算上述与之间的皮尔森相关性得到第x个药物和第y个药物的相似性,作为药物化学结构相似性网络中元素的值,得到药物化学结构相似性网络
2b)构建药物靶标相似性网络
2b1)本实例从GDSC数据库下载219个药物的靶标数据TA219;
2b2)从药物的靶标数据TA219中,得到第x个药物的靶标集合:Sx=(g1,g2,...gk),其中k表示第x个药物的靶标数量,其中,x=1,2,3,...219;
2b3)从药物的靶标数据TA219中,得到第y个药物药物的靶标集合:Sy=(g1,g2,...gh),其中h表示第y个药物的靶标数量,其中,y=1,2,3,...219;
2b4)通过Smith-Waterman算法计算第x个药物的靶标集合Sx和第y个药物的靶标集合Sy中的元素对之间的序列相似性,得到k×h个序列相似性值,其中最大的序列相似性值是第x个药物和第y个药物的相似性,作为药物靶标相似性网络中元素的值,得到药物靶标相似性网络
步骤3,获得955个癌症细胞系的低维特征向量矩阵
3a)在癌症细胞系各网络中,以第i个癌症细胞系节点为种子进行游走,得到第i个癌症细胞系扩散状态其中L=1,2,3分别表示癌症细胞系表达相似性网络癌症细胞系突变相似性网络和癌症细胞系拷贝数变异相似性网络
3b)基于癌症细胞系扩散状态计算癌症细胞系低维特征向量矩阵即通过如下公式求解得到:
其中,Fi cell是癌症细胞系低维特征向量矩阵的第i行,表示第i个癌症细胞系节点的特征向量,由955个癌症细胞系节点的特征向量组成癌症细胞系低维特征向量矩阵表示第i个癌症细胞系在第l个癌症细胞系网络中的上下文特征向量,DKL表示KL散度函数。
步骤4,获得219个药物的低维特征向量矩阵
4a)在药物各网络中,以第x个药物节点为种子进行游走,得到第x个药物扩散状态其中R=1,2分别表示药物化学结构相似性网络和药物靶标相似性网络
4b)基于药物扩散状态计算药物低维特征向量矩阵即通过如下公式求解得到:
其中,是药物低维特征向量矩阵的第x行,表示第x个药物节点的特征向量,由219个药物节点的特征向量组成药物低维特征向量矩阵表示第x个药物在第r个网络中的上下文特征向量,DKL表示KL散度函数。
步骤5,获得药物反应的逻辑回归模型。
5a)从癌症细胞系低维特征向量矩阵中的第i行得到第i个癌症细胞系的低维特征向量:其中,i=1,2,3,...,955;
5b)从药物低维特征向量矩阵中的第x行得到第x个药物的低维特征向量:其中,x=1,2,3,...,219;
5c)将第i个癌症细胞系的低维特征向量和第x个药物的低维特征向量组合为联合特征向量:
5d)本实例以GDSC数据库为例,从GDSC数据库下载21346个已知药物与癌症细胞系的敏感性关系数据;
5e)通过逻辑回归模型进行训练,得到药物反应预测模型:
5e1)将已知药物与癌症细胞系的治疗关系作为正样本数据集SP;
5e2)将未知药物与癌症细胞系的反应关系作为负样本数据集SN;
5e3)基于正样本数据SP、负样本数据SN和联合特征向量F,通过如下公式求解逻辑回归模型中的参数向量Z:
其中,cadb表示正样本数据元素,表示正样本数据元素cadb的联合特征向量,ca'db'表示负样本数据元素,表示负样本数据元素ca'db'的联合特征向量;
5e4)基于训练得到的参数向量Z,得到药物反应预测模型:
其中,i表示第i个癌症细胞系,x表示第x个药物,表示第i个癌症细胞系和第x个药物的联合特征向量,logit(i,x)表示第i个癌症细胞系和第x个药物之间的敏感性关系得分。
步骤6,将未知反应关系的药物与癌症细胞系所对应的联合特征向量作为药物反应预测模型的输入,得到药物和癌症细胞系之间的敏感性关系得分。
步骤7,判断敏感性关系得分是否大于0.5,如果是,则对应的药物对癌症细胞系有治疗作用,否则,对应的药物对癌症细胞系没有治疗效果。
以下结合仿真实验,对本发明的技术效果作进一步说明:
1.仿真条件
仿真实验在Intel(R)Core(TM)i7-8700k CPU、主频3.70GHz,内存48G,Ubuntu平台上的Matlab R2018a上进行。
2.仿真内容与结果
为了证明本发明能够预测治疗癌症的候选药物,以GDSC数据库和Pubchem数据库作为实施例对治疗癌症的候选药物结果进行仿真实验,对药物和癌症细胞系之间的敏感性关系得分按照从大到小排名后,并对敏感性得分排名前5的预测结果进行验证,其结果如表1所示。
表1
药物名称 | 癌症细胞系名称 | 癌症细胞系类型 | 敏感性关系得分排名 | 文献PMID |
Refametinib | GAK | Melanoma | 1 | 19706763 |
Sorafenib | HL-60 | Acute_myeloid_leukaemia | 2 | 29983847 |
Sunitinib1 | NOMO-1 | Acute_myeloid_leukaemia | 3 | 23969938 |
Fedratinib | EM-2 | Leukemia | 4 | 26833125 |
Crizotinib | ME-1 | Acute_myeloid_leukaemia | 5 | 27494825 |
表1中的文献PMID表示Pubmed数据库中的文献索引号。
从表1可以看出,仿真实验预测结果排名前5的敏感性关系已经被现有的文献所验证,说明了本发明方法的准确率高。
Claims (9)
1.一种基于多维网络的癌症细胞系治疗药物预测方法,其特征在于,包括如下:
(1)下载癌症细胞系的数据,构建癌症细胞系相似性网络:
(1a)从与癌症细胞系基因表达相关的任意一个数据库下载n个癌症细胞系和这n个癌症细胞系所对应的t个基因的表达数据,得到基因表达矩阵构建癌症细胞系基因表达相似性网络
(1b)从与癌症细胞系突变相关的任意一个数据库下载n个癌症细胞系和这n个癌症细胞系所对应的p个基因的突变数据,得到突变矩阵构建癌症细胞系突变相似性网络
(1c)从与癌症细胞系拷贝数变异相关的任意一个数据库下载n个癌症细胞系和这n个癌症细胞系所对应的q个基因的拷贝数变异数据,得到拷贝数变异矩阵构建癌症细胞系拷贝数变异相似性网络
(2)下载药物的数据,构建药物相似性网络:
(2a)从与药物化学结构相关的任意一个数据库下载m个药物的化学结构表达式数据CHm,构建药物化学结构相似性网络
(2b)从与药物靶标相关的任意一个数据库下载m个药物的靶标数据TAm,构建药物靶标相似性网络
(3)在癌症细胞系基因表达相似性网络癌症细胞系突变相似性网络和癌症细胞系拷贝数变异相似性网络中,利用扩散成分分析算法计算得到n个癌症细胞系的低维特征向量矩阵其中dc表示癌症细胞系特征向量的维度数量;
(4)在药物化学结构相似性网络和药物靶标相似性网络中,利用扩散成分分析算法计算得到m个药物的低维特征向量矩阵其中dd表示药物特征向量的维度数量;
(5)获得药物反应的逻辑回归模型:
(5a)从癌症细胞系低维特征向量矩阵中的第i行得到第i个癌症细胞系的低维特征向量:其中,i=1,2,3,...,n;
(5b)从药物低维特征向量矩阵中的第x行得到第x个药物的低维特征向量:
(5c)将第i个癌症细胞系的低维特征向量和第x个药物的低维特征向量组合为联合特征向量:
(5d)从与药物反应相关的任意一个数据库下载已知药物与癌症细胞系的反应关系数据;
(5e)基于已知药物与癌症细胞系的反应关系数据和其对应的联合特征向量,对逻辑回归模型进行训练,得到药物反应预测模型;
(6)将未知反应关系的药物与癌症细胞系所对应的联合特征向量作为药物反应预测模型的输入,计算药物和癌症细胞系之间的敏感性关系得分;
(7)判断敏感性关系得分是否大于0.5,如果是,则对应的药物对癌症细胞系有治疗作用,否则,对应的药物对癌症细胞系没有治疗效果。
2.根据权利要求1所述的方法,其特征在于,步骤(1a)中构建癌症细胞系基因表达相似性网络实现如下:
(1a1)从基因表达矩阵中的第i行得到第i个癌症细胞系的基因表达特征向量:其中,i=1,2,3,...,n;
(1a2)从基因表达矩阵中的第j行得到第j个癌症细胞系的基因表达特征向量:其中,j=1,2,3,...,n;
(1a3)计算上述Ci exp与Cj exp之间的皮尔森相关性,得到第i个癌症细胞系和第j个癌症细胞系的基因表达相似性,作为癌症细胞系基因表达相似性网络中的元素的值,得到癌症细胞系基因表达相似性网络
3.根据权利要求1所述的方法,其特征在于,步骤(1b)中构建癌症细胞系突变相似性网络实现如下:
(1b1)从突变矩阵中的第i行得到第i个癌症细胞系的突变特征向量:其中,i=1,2,3,...,n;
(1b2)从突变矩阵的第j行得到第j个癌症细胞系的突变特征向量:其中,j=1,2,3,...,n;
(1b3)计算上述与之间的余弦相似性,得到第i个癌症细胞系和第j个癌症细胞系的突变相似性,作为癌症细胞系突变相似性网络中元素的值,得到癌症细胞系突变相似性网络
4.根据权利要求1所述的方法,其特征在于,步骤(1c)中构建癌症细胞系拷贝数变异相似性网络实现如下:
(1c1)从拷贝数变异矩阵中的第i行得到第i个癌症细胞系的拷贝数变异特征向量:其中,i=1,2,3,...,n;
(1c2)从拷贝数变异矩阵中的第j行得到第j个癌症细胞系的拷贝数变异特征向量:其中,j=1,2,3,...,n;
(1c3)计算上述Ci cnv与Cj cnv之间的斯皮尔曼相关性得到第i个癌症细胞系和第j个癌症细胞系的拷贝数变异相似性,作为癌症细胞系拷贝数变异相似性网络中元素的值,得到癌症细胞系拷贝数变异相似性网络
5.根据权利要求1所述的方法,其特征在于,步骤(2a)中构建药物化学结构相似性网络实现如下:
(2a1)使用PaDEL工具将药物的化学结构表达式数据CHm转换为化学结构分子特征,得到化学结构矩阵其中m表示药物的数量,v表示化学结构分子特征的数量;
(2a2)从化学结构矩阵中的第x行得到第x个药物的化学结构分子特征向量:其中,x=1,2,3,...m;
(2a3)从化学结构矩阵中的第y行得到第y个药物的化学结构分子特征向量:其中,y=1,2,3,...m;
(2a4)计算上述与之间的皮尔森相关性得到第x个药物和第y个药物的相似性,作为药物化学结构相似性网络中元素的值,得到药物化学结构相似性网络
6.根据权利要求1所述的方法,其特征在于,步骤(2b)中构建药物靶标相似性网络实现如下:
(2b1)从药物的靶标数据TAm中,得到第x个药物的靶标集合:Sx=(g1,g2,...gk),其中k表示第x个药物的靶标数量,其中,x=1,2,3,...m;
(2b2)从药物的靶标数据TAm中,得到第y个药物药物的靶标集合:Sy=(g1,g2,...gh),其中h表示第y个药物的靶标数量,其中,y=1,2,3,...m;
(2b3)通过Smith-Waterman算法计算第x个药物的靶标集合Sx和第y个药物的靶标集合Sy中的元素对之间的序列相似性,得到k×h个序列相似性值,其中最大的序列相似性值是第x个药物和第y个药物的相似性,作为药物靶标相似性网络中元素的值,得到药物靶标相似性网络
7.根据权利要求1所述的方法,其特征在于,步骤(3)中使用扩散成分分析算法计算n个癌症细胞系的低维特征向量矩阵实现如下:
(3a)在癌症细胞系各网络中,以第i个癌症细胞系节点为种子进行游走,得到第i个癌症细胞系扩散状态其中L=1,2,3分别表示癌症细胞系表达相似性网络癌症细胞系突变相似性网络和癌症细胞系拷贝数变异相似性网络
(3b)基于癌症细胞系扩散状态计算癌症细胞系低维特征向量矩阵通过如下公式求解:
其中,Fi cell是癌症细胞系低维特征向量矩阵的第i行,表示第i个癌症细胞系节点的特征向量,由n个癌症细胞系节点的特征向量组成癌症细胞系低维特征向量矩阵 表示第i个癌症细胞系在第l个癌症细胞系网络中的上下文特征向量,DKL表示KL散度函数。
8.根据权利要求1所述的方法,其特征在于,步骤(4)中使用扩散成分分析算法计算得到m个药物的低维特征向量矩阵实现如下:
(4a)在药物各网络中,以第x个药物节点为种子进行游走,得到第x个药物扩散状态其中R=1,2分别表示药物化学结构相似性网络和药物靶标相似性网络(4b)基于药物扩散状态计算药物低维特征向量矩阵通过如下公式求解:
其中,是药物低维特征向量矩阵的第x行,表示第x个药物节点的特征向量,由m个药物节点的特征向量组成药物低维特征向量矩阵 表示第x个药物在第r个网络中的上下文特征向量,DKL表示KL散度函数。
9.根据权利要求1所述的方法,其特征在于,步骤(5e)中得到药物反应预测模型,实现如下:
(5e1)将已知药物与癌症细胞系的治疗关系作为正样本数据集SP;
(5e2)将未知药物与癌症细胞系的反应关系作为负样本数据集SN;
(5e3)基于正样本数据SP、负样本数据SN和联合特征向量F,通过如下公式求解逻辑回归模型中的参数向量Z:
其中,cadb表示正样本数据元素,表示正样本数据元素cadb的联合特征向量,ca'db'表示负样本数据元素,表示负样本数据元素ca'db'的联合特征向量;
(5e4)基于训练得到的参数向量Z,得到药物反应预测模型:
其中,i表示第i个癌症细胞系,x表示第x个药物,表示第i个癌症细胞系和第x个药物的联合特征向量,logit(i,x)表示第i个癌症细胞系和第x个药物之间的敏感性关系得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910518175.4A CN110232978B (zh) | 2019-06-14 | 2019-06-14 | 基于多维网络的癌症细胞系治疗药物预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910518175.4A CN110232978B (zh) | 2019-06-14 | 2019-06-14 | 基于多维网络的癌症细胞系治疗药物预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110232978A true CN110232978A (zh) | 2019-09-13 |
CN110232978B CN110232978B (zh) | 2022-05-17 |
Family
ID=67859321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910518175.4A Active CN110232978B (zh) | 2019-06-14 | 2019-06-14 | 基于多维网络的癌症细胞系治疗药物预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110232978B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110867254A (zh) * | 2019-11-18 | 2020-03-06 | 北京市商汤科技开发有限公司 | 预测方法及装置、电子设备和存储介质 |
CN112289389A (zh) * | 2020-11-05 | 2021-01-29 | 中南大学 | 一种影响靶向治疗药物疗效的评估模型 |
CN112599207A (zh) * | 2020-12-23 | 2021-04-02 | 上海海洋大学 | 基于通路活性及弹性网的癌症药物敏感性预测方法 |
CN112635080A (zh) * | 2021-01-15 | 2021-04-09 | 复星领智(上海)医药科技有限公司 | 基于深度学习的药物预测方法和设备 |
CN112768089A (zh) * | 2021-04-09 | 2021-05-07 | 至本医疗科技(上海)有限公司 | 用于预测药物敏感状态的方法、设备和存储介质 |
CN113362895A (zh) * | 2021-06-15 | 2021-09-07 | 上海基绪康生物科技有限公司 | 一种预测抗癌药物反应相关基因的综合分析方法 |
CN114255886A (zh) * | 2022-02-28 | 2022-03-29 | 浙江大学 | 基于多组学相似度引导的药物敏感性预测方法和装置 |
CN115206421A (zh) * | 2022-07-19 | 2022-10-18 | 北京百度网讯科技有限公司 | 药物重定位方法、重定位模型的训练方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010056893A1 (en) * | 2008-11-13 | 2010-05-20 | Imclone Llc | Humanization and affinity-optimization of antibodies |
EP2908132A2 (en) * | 2011-03-02 | 2015-08-19 | Nestec S.A. | Prediction of drug sensitivity of lung tumors based on molecular and genetic signatures |
CN107609326A (zh) * | 2017-07-26 | 2018-01-19 | 同济大学 | 癌症精准医疗中的药物敏感性预测方法 |
CN108830040A (zh) * | 2018-06-07 | 2018-11-16 | 中南大学 | 一种基于细胞系和药物相似性网络的药物敏感性预测方法 |
CN108877953A (zh) * | 2018-06-06 | 2018-11-23 | 中南大学 | 一种基于多相似性网络的药物敏感性预测方法 |
-
2019
- 2019-06-14 CN CN201910518175.4A patent/CN110232978B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010056893A1 (en) * | 2008-11-13 | 2010-05-20 | Imclone Llc | Humanization and affinity-optimization of antibodies |
EP2908132A2 (en) * | 2011-03-02 | 2015-08-19 | Nestec S.A. | Prediction of drug sensitivity of lung tumors based on molecular and genetic signatures |
CN107609326A (zh) * | 2017-07-26 | 2018-01-19 | 同济大学 | 癌症精准医疗中的药物敏感性预测方法 |
CN108877953A (zh) * | 2018-06-06 | 2018-11-23 | 中南大学 | 一种基于多相似性网络的药物敏感性预测方法 |
CN108830040A (zh) * | 2018-06-07 | 2018-11-16 | 中南大学 | 一种基于细胞系和药物相似性网络的药物敏感性预测方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110867254A (zh) * | 2019-11-18 | 2020-03-06 | 北京市商汤科技开发有限公司 | 预测方法及装置、电子设备和存储介质 |
CN112289389A (zh) * | 2020-11-05 | 2021-01-29 | 中南大学 | 一种影响靶向治疗药物疗效的评估模型 |
CN112599207A (zh) * | 2020-12-23 | 2021-04-02 | 上海海洋大学 | 基于通路活性及弹性网的癌症药物敏感性预测方法 |
CN112635080A (zh) * | 2021-01-15 | 2021-04-09 | 复星领智(上海)医药科技有限公司 | 基于深度学习的药物预测方法和设备 |
CN112768089A (zh) * | 2021-04-09 | 2021-05-07 | 至本医疗科技(上海)有限公司 | 用于预测药物敏感状态的方法、设备和存储介质 |
WO2022214036A1 (zh) * | 2021-04-09 | 2022-10-13 | 至本医疗科技(上海)有限公司 | 用于预测药物敏感状态的方法、设备和存储介质 |
CN113362895A (zh) * | 2021-06-15 | 2021-09-07 | 上海基绪康生物科技有限公司 | 一种预测抗癌药物反应相关基因的综合分析方法 |
CN114255886A (zh) * | 2022-02-28 | 2022-03-29 | 浙江大学 | 基于多组学相似度引导的药物敏感性预测方法和装置 |
CN115206421A (zh) * | 2022-07-19 | 2022-10-18 | 北京百度网讯科技有限公司 | 药物重定位方法、重定位模型的训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110232978B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232978B (zh) | 基于多维网络的癌症细胞系治疗药物预测方法 | |
Badia-i-Mompel et al. | Gene regulatory network inference in the era of single-cell multi-omics | |
Zhang et al. | Polygenic enrichment distinguishes disease associations of individual cells in single-cell RNA-seq data | |
Wan et al. | An ensemble based top performing approach for NCI-DREAM drug sensitivity prediction challenge | |
Lei et al. | GBDTCDA: predicting circRNA-disease associations based on gradient boosting decision tree with multiple biological data fusion | |
CN109584969B (zh) | 一种先导化合物的量子动力学计算方法 | |
Mehrpooya et al. | High dimensionality reduction by matrix factorization for systems pharmacology | |
JP2022518272A (ja) | 薬物応答および疾患ネットワークの再構築のための方法およびシステム、ならびにそれらの使用 | |
CN110957002A (zh) | 一种基于协同矩阵分解的药物靶点相互作用关系预测方法 | |
CN107679367B (zh) | 一种基于网络节点关联度的共调控网络功能模块识别方法及系统 | |
CN107194203A (zh) | 基于miRNA数据和组织特异性网络的药物重定位方法 | |
Barh et al. | In silico models: from simple networks to complex diseases | |
Aljawarneh et al. | Gene profile classification: A proposed solution for predicting possible diseases and initial results | |
Jiang et al. | Flexible non-negative matrix factorization to unravel disease-related genes | |
Schlosser et al. | Netboost: boosting-supported network analysis improves high-dimensional omics prediction in acute myeloid leukemia and Huntington’s disease | |
CN114913919A (zh) | 一种单基因病遗传变异智能解读及报告的方法、系统及服务器 | |
US20090099784A1 (en) | Software assisted methods for probing the biochemical basis of biological states | |
CN112635080A (zh) | 基于深度学习的药物预测方法和设备 | |
CN110739028B (zh) | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 | |
Yang et al. | Applications of Bayesian statistical methods in microarray data analysis | |
KR102653969B1 (ko) | 약물과 셀 라인의 유사도 행렬에 기반한 합성곱 신경망을 이용하여 약물 반응을 예측하는 시스템 | |
Wu et al. | Identification of SH2 domain-containing proteins and motifs prediction by a deep learning method | |
Testa et al. | A Non-Negative Matrix Tri-Factorization Based Method for Predicting Antitumor Drug Sensitivity | |
CN113130010A (zh) | 一种基因调控网络数据库及其在个性化药物筛选中的应用 | |
Yin et al. | Cox-ResNet: A Survival Analysis Model Based on Residual Neural Networks for Gene Expression Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |