CN110232978B - 基于多维网络的癌症细胞系治疗药物预测方法 - Google Patents

基于多维网络的癌症细胞系治疗药物预测方法 Download PDF

Info

Publication number
CN110232978B
CN110232978B CN201910518175.4A CN201910518175A CN110232978B CN 110232978 B CN110232978 B CN 110232978B CN 201910518175 A CN201910518175 A CN 201910518175A CN 110232978 B CN110232978 B CN 110232978B
Authority
CN
China
Prior art keywords
cancer cell
cell line
drug
similarity
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910518175.4A
Other languages
English (en)
Other versions
CN110232978A (zh
Inventor
鱼亮
周丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910518175.4A priority Critical patent/CN110232978B/zh
Publication of CN110232978A publication Critical patent/CN110232978A/zh
Application granted granted Critical
Publication of CN110232978B publication Critical patent/CN110232978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Toxicology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于多维网络的癌症细胞系治疗药物预测方法,主要解决现有技术对癌症细胞系治疗药物预测结果准确率低的问题。其方案是:下载n个癌症细胞系的数据,构建癌症细胞系相似性网络;下载m个药物的数据,构建药物相似性网络;在癌症细胞系相似性网络中,利用扩散成分分析算法计算得到n个癌症细胞系的低维特征向量矩阵;在药物相似性网络中,利用扩散成分分析算法计算得到m个药物的低维特征向量矩阵;获得药物反应的逻辑回归模型;计算药物和癌症细胞系之间为敏感性关系的得分;通过敏感性关系得分判断药物对癌症细胞系是否具有治疗作用。本发明提高了对癌症细胞系治疗药物预测结果的准确率,可用于癌症对药物的反应预测实验。

Description

基于多维网络的癌症细胞系治疗药物预测方法
技术领域
本发明属于生物信息学技术领域,特别涉及一种癌症细胞系治疗药物预测方法,可用于癌症对药物的反应预测实验。
背景技术
癌症是一类复杂的异质性疾病,忽略癌症患者体内生物分子特征,仅仅依据癌症患者临床症状的传统治疗方式无法满足现代医疗治疗癌症的要求。目前,治疗癌症的主要手段是使用分子靶向药物抑制癌症的发展。精准医疗提倡的就是靶向疗法,根据癌症患者的体内分子特性选择具体的治疗方案是提高癌症治疗效果的有效途径。在动物体内移植肿瘤,然后把化合物作用于动物体内,观察动物体内肿瘤的生长变化,以此确定化合物对肿瘤的作用效果,这种研究治疗肿瘤药物的方法费用高、耗时长而且成功率低。
面对这些挑战,人类癌症细胞系为预测药物反应提供了新的载体,有利于筛选治疗癌症的候选药物。原发性肿瘤细胞系的培养时间相对较短,研究人员可以快速测试药物对某种癌症的治疗是否有效,缩小治疗癌症的候选药物范围。目前用细胞系培养技术培养出的癌症细胞系能够近似的模拟癌症细胞在癌症病人体内的生长环境,癌症细胞系和癌症病人体内癌症细胞的基因表达、染色体增益或缺失以及甲基化水平具有极大的相似性,癌症细胞系能够更加准确的模拟癌症病人对药物的反应情况。通过分析癌症细胞系分子数据预测药物反应,能够提高预测药物反应的准确率。
根据不同的数据和理论,目前的药物反应预测方法主要分为以下两类:
一.基于机器学习的药物反应预测方法。
随着机器学习理论的不断发展,使用机器学习预测药物反应的方法取得了较好的结果。此类方法的主要流程是:首先,提取癌症细胞系的基因表达谱作为特征。然后,利用药物的已知反应数据训练预测模型。最后,预测模型计算出新的药物反应。此类方法的优点是从癌症细胞系的基因表达水平进行药物反应研究,缺点是没有考虑到癌症细胞系之间的关系,没有考虑到药物之间的关系,其预测的准确率有待提高。
二.基于网络的药物反应预测方法。
网络能够反映节点之间的关系。已有研究发现相似的癌症细胞系对相似的药物具有相似的反应。癌症细胞系相似性网络描述了癌症细胞系之间的相似性,药物相似性网络描述了药物之间的相似性,在相似性网络中使用信息传播方法来预测药物的反应。此类方法的主要流程是:首先,基于基因表达谱构建癌症细胞系相似性网络,以及基于化学结构构建药物相似性网络,然后,将癌症细胞系和药物的已知反应映射到癌症细胞系相似性网络和药物相似性网络之间,建立癌症细胞系节点和药物节点的连边,形成异构网络,最后在异构网络中通过信息传播预测药物反应。此类方法的优点是从癌症细胞系之间以及药物之间的相似性关系进行药物反应预测研究,缺点是仅从单一层面计算癌症细胞系相似性和药物相似性,预测结果准确率有待提升。
发明内容
本发明的目的在于针对上述现有技术存在的缺陷,提出一种基于多维网络的癌症细胞系药物反应预测方法,以提高药物反应预测结果的准确率。
本发明的技术方案是:根据癌症细胞系的基因表达、基因突变及拷贝数变异数据构建癌症细胞系三维相似性网络;根据药物的靶标及化学结构特征构建药物二维相似性网络;通过在癌症细胞系三维相似网络和药物二维相似性网络中应用扩散成分分析算法,得到癌症细胞系和药物的低维特征向量;将癌症细胞系和药物的低维特征向量作为训练数据集的特征,用已知的药物反应关系作为训练数据集的标签,训练得到预测药物反应的逻辑回归模型,根据此模型来预测对药物反应敏感的癌症细胞系。其实现步骤包括如下:
(1)下载癌症细胞系的数据,构建癌症细胞系相似性网络:
(1a)从与癌症细胞系基因表达相关的任意一个数据库下载n个癌症细胞系和这n个癌症细胞系所对应的t个基因的表达数据,得到基因表达矩阵
Figure BDA0002095673590000021
构建癌症细胞系基因表达相似性网络
Figure BDA0002095673590000022
(1b)从与癌症细胞系突变相关的任意一个数据库下载n个癌症细胞系和这n个癌症细胞系所对应的p个基因的突变数据,得到突变矩阵
Figure BDA0002095673590000023
构建癌症细胞系突变相似性网络
Figure BDA0002095673590000024
(1c)从与癌症细胞系拷贝数变异相关的任意一个数据库下载n个癌症细胞系和这n个癌症细胞系所对应的q个基因的拷贝数变异数据,得到拷贝数变异矩阵
Figure BDA0002095673590000025
构建癌症细胞系拷贝数变异相似性网络
Figure BDA0002095673590000031
(2)下载药物的数据,构建药物相似性网络:
(2a)从与药物化学结构相关的任意一个数据库下载m个药物的化学结构表达式数据CHm,构建药物化学结构相似性网络
Figure BDA0002095673590000032
(2b)从与药物靶标相关的任意一个数据库下载m个药物的靶标数据TAm,构建药物靶标相似性网络
Figure BDA0002095673590000033
(3)在癌症细胞系基因表达相似性网络
Figure BDA0002095673590000034
癌症细胞系突变相似性网络
Figure BDA0002095673590000035
和癌症细胞系拷贝数变异相似性网络
Figure BDA0002095673590000036
中,利用扩散成分分析算法计算得到n个癌症细胞系的低维特征向量矩阵
Figure BDA0002095673590000037
其中dc表示癌症细胞系特征向量的维度数量;
(4)在药物化学结构相似性网络
Figure BDA0002095673590000038
和药物靶标相似性网络
Figure BDA0002095673590000039
中,利用扩散成分分析算法计算得到m个药物的低维特征向量矩阵
Figure BDA00020956735900000310
其中dd表示药物特征向量的维度数量;
(5)获得药物反应的逻辑回归模型:
(5a)从癌症细胞系低维特征向量矩阵
Figure BDA00020956735900000311
中的第i行得到第i个癌症细胞系的低维特征向量:
Figure BDA00020956735900000312
其中,i=1,2,3,...,n;
(5b)从药物低维特征向量矩阵
Figure BDA00020956735900000313
中的第x行得到第x个药物的低维特征向量:
Figure BDA00020956735900000314
(5c)将第i个癌症细胞系的低维特征向量和第x个药物的低维特征向量组合为联合特征向量:
Figure BDA00020956735900000315
(5d)从与药物反应相关的任意一个数据库下载已知药物与癌症细胞系的反应关系数据;
(5e)基于已知药物与癌症细胞系的反应关系数据和其对应的联合特征向量,对逻辑回归模型进行训练,得到药物反应预测模型;
(6)将未知反应关系的药物与癌症细胞系所对应的联合特征向量作为药物反应预测模型的输入,计算药物和癌症细胞系之间的敏感性关系的得分;
(7)判断敏感性关系得分是否大于0.5,如果是,则对应的药物对癌症细胞系有治疗作用,否则,对应的药物对癌症细胞系没有治疗效果。
本发明与现有技术相比,具有以下优点:
1、本发明在获取癌症细胞系特征向量时,综合了癌症细胞系的基因表达谱,基因突变和拷贝数变异分子特征,以及癌症细胞系之间的相似性关系,相对于目前方法中采用的癌症细胞系的基因表达谱,全面的考虑到癌症细胞系基因组特性对药物反应的影响,有效地提高了药物重定位的准确率。
2、本发明在获取癌症细胞系特征向量时,通过使用扩散成分分析算法,不仅代表节点在网络中的拓扑结构特征,而且降低了网络带来的噪音影响,相对于目前方法中直接根据癌症细胞系相似性网络预测药物反应,进一步提高了药物反应预测的准确率。
附图说明
图1是本发明的实现总流程图;
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
参照图1、本实例的实现步骤如下:
步骤1,下载癌症细胞系的数据,构建癌症细胞系相似性网络:
1a)构建癌症细胞系基因表达相似性网络
Figure BDA0002095673590000041
1a1)本实例从GDSC数据库中下载955个癌症细胞系的基因表达值数据,得到基因表达矩阵Mexp,基因表达矩阵Mexp有955行和17738列,其中行表示癌症细胞系,列表示基因;
1a2)从基因表达矩阵Mexp中的第i行得到第i个癌症细胞系的基因表达特征向量:
Figure BDA0002095673590000042
其中,i=1,2,3,...,955;
1a3)从基因表达矩阵Mexp中的第j行得到第j个癌症细胞系的基因表达特征向量:
Figure BDA0002095673590000043
其中,j=1,2,3,...,955;
1a4)计算上述Ci exp与Cj exp之间的皮尔森相关性,得到第i个癌症细胞系和第j个癌症细胞系的基因表达相似性,作为癌症细胞系基因表达相似性网络
Figure BDA0002095673590000044
中的元素
Figure BDA0002095673590000045
的值,得到癌症细胞系基因表达相似性网络
Figure BDA0002095673590000046
Figure BDA0002095673590000051
1b)构建癌症细胞系突变相似性网络
Figure BDA0002095673590000052
1b1)本实例从GDSC数据库中下载955个癌症细胞系的突变数据,得到突变矩阵Mmut,突变矩阵Mmut有955行和19015列,其中行表示癌症细胞系,列表示突变基因;
1b2)从突变矩阵Mmut中的第i行得到第i个癌症细胞系的突变特征向量:
Figure BDA0002095673590000053
其中,i=1,2,3,...,955;
1b3)从突变矩阵Mmut的第j行得到第j个癌症细胞系的突变特征向量:
Figure BDA0002095673590000054
其中,j=1,2,3,...,955;
1b4)计算上述
Figure BDA0002095673590000055
Figure BDA0002095673590000056
之间的余弦相似性,得到第i个癌症细胞系和第j个癌症细胞系的突变相似性,作为癌症细胞系突变相似性网络
Figure BDA0002095673590000057
中元素
Figure BDA0002095673590000058
的值,得到癌症细胞系突变相似性网络
Figure BDA0002095673590000059
Figure BDA00020956735900000510
1c)构建癌症细胞系拷贝数变异相似性网络
Figure BDA00020956735900000511
1c1)本实例从GDSC数据库中下载955个癌症细胞系的拷贝数变异数据,得到拷贝数变异矩阵Mcnv,拷贝数变异矩阵Mcnv矩阵有955行和798列,其中行表示癌症细胞系,列表示基因片段;
1c2)从拷贝数变异矩阵Mcnv中的第i行得到第i个癌症细胞系的拷贝数变异特征向量:
Figure BDA00020956735900000512
其中,i=1,2,3,...,955;
1c3)从拷贝数变异矩阵Mcnv中的第j行得到第j个癌症细胞系的拷贝数变异特征向量:
Figure BDA00020956735900000513
其中,j=1,2,3,...,955;
1c4)计算上述Ci cnv与Cj cnv之间的斯皮尔曼相关性得到第i个癌症细胞系和第j个癌症细胞系的拷贝数变异相似性,作为癌症细胞系拷贝数变异相似性网络
Figure BDA00020956735900000514
中元素
Figure BDA00020956735900000515
的值,得到癌症细胞系拷贝数变异相似性网络
Figure BDA00020956735900000516
Figure BDA0002095673590000061
步骤2,下载药物的数据,构建药物相似性网络。
2a)构建药物化学结构相似性网络
Figure BDA0002095673590000062
2a1)本实例从Pubchem下载219个药物的化学结构表达式数据CH219
2a2)使用PaDEL工具将药物的化学结构表达式数据CH219转换为化学结构分子特征,得到化学结构矩阵Mchem,化学结构矩阵Mchem有219行和1024列,行表示药物,列表示化学结构分子特征;
2a3)从化学结构矩阵Mchem中的第x行得到第x个药物的化学结构分子特征向量:
Figure BDA0002095673590000063
其中,x=1,2,3,...219;
2a4)从化学结构矩阵Mchem中的第y行得到第y个药物的化学结构分子特征向量:
Figure BDA0002095673590000064
其中,y=1,2,3,...219;
2a5)计算上述
Figure BDA0002095673590000065
Figure BDA0002095673590000066
之间的皮尔森相关性得到第x个药物和第y个药物的相似性,作为药物化学结构相似性网络
Figure BDA0002095673590000067
中元素
Figure BDA0002095673590000068
的值,得到药物化学结构相似性网络
Figure BDA0002095673590000069
Figure BDA00020956735900000610
2b)构建药物靶标相似性网络
Figure BDA00020956735900000611
2b1)本实例从GDSC数据库下载219个药物的靶标数据TA219
2b2)从药物的靶标数据TA219中,得到第x个药物的靶标集合:Sx=(g1,g2,...gk),其中k表示第x个药物的靶标数量,其中,x=1,2,3,...219;
2b3)从药物的靶标数据TA219中,得到第y个药物药物的靶标集合:Sy=(g1,g2,...gh),其中h表示第y个药物的靶标数量,其中,y=1,2,3,...219;
2b4)通过Smith-Waterman算法计算第x个药物的靶标集合Sx和第y个药物的靶标集合Sy中的元素对之间的序列相似性,得到k×h个序列相似性值,其中最大的序列相似性值是第x个药物和第y个药物的相似性,作为药物靶标相似性网络
Figure BDA00020956735900000612
中元素
Figure BDA0002095673590000071
的值,得到药物靶标相似性网络
Figure BDA0002095673590000072
Figure BDA0002095673590000073
步骤3,获得955个癌症细胞系的低维特征向量矩阵
Figure BDA0002095673590000074
3a)在癌症细胞系各网络中,以第i个癌症细胞系节点为种子进行游走,得到第i个癌症细胞系扩散状态
Figure BDA0002095673590000075
其中L=1,2,3分别表示癌症细胞系表达相似性网络
Figure BDA0002095673590000076
癌症细胞系突变相似性网络
Figure BDA0002095673590000077
和癌症细胞系拷贝数变异相似性网络
Figure BDA0002095673590000078
3b)基于癌症细胞系扩散状态
Figure BDA0002095673590000079
计算癌症细胞系低维特征向量矩阵
Figure BDA00020956735900000710
即通过如下公式求解得到:
Figure BDA00020956735900000711
其中,Fi cell是癌症细胞系低维特征向量矩阵
Figure BDA00020956735900000712
的第i行,表示第i个癌症细胞系节点的特征向量,由955个癌症细胞系节点的特征向量组成癌症细胞系低维特征向量矩阵
Figure BDA00020956735900000713
表示第i个癌症细胞系在第l个癌症细胞系网络中的上下文特征向量,DKL表示KL散度函数。
步骤4,获得219个药物的低维特征向量矩阵
Figure BDA00020956735900000714
4a)在药物各网络中,以第x个药物节点为种子进行游走,得到第x个药物扩散状态
Figure BDA00020956735900000715
其中R=1,2分别表示药物化学结构相似性网络
Figure BDA00020956735900000716
和药物靶标相似性网络
Figure BDA00020956735900000717
4b)基于药物扩散状态
Figure BDA00020956735900000718
计算药物低维特征向量矩阵
Figure BDA00020956735900000719
即通过如下公式求解得到:
Figure BDA00020956735900000720
其中,
Figure BDA00020956735900000721
是药物低维特征向量矩阵
Figure BDA00020956735900000722
的第x行,表示第x个药物节点的特征向量,由219个药物节点的特征向量组成药物低维特征向量矩阵
Figure BDA0002095673590000081
表示第x个药物在第r个网络中的上下文特征向量,DKL表示KL散度函数。
步骤5,获得药物反应的逻辑回归模型。
5a)从癌症细胞系低维特征向量矩阵
Figure BDA0002095673590000082
中的第i行得到第i个癌症细胞系的低维特征向量:
Figure BDA0002095673590000083
其中,i=1,2,3,...,955;
5b)从药物低维特征向量矩阵
Figure BDA0002095673590000084
中的第x行得到第x个药物的低维特征向量:
Figure BDA0002095673590000085
其中,x=1,2,3,...,219;
5c)将第i个癌症细胞系的低维特征向量和第x个药物的低维特征向量组合为联合特征向量:
Figure BDA0002095673590000086
5d)本实例以GDSC数据库为例,从GDSC数据库下载21346个已知药物与癌症细胞系的敏感性关系数据;
5e)通过逻辑回归模型进行训练,得到药物反应预测模型:
5e1)将已知药物与癌症细胞系的治疗关系作为正样本数据集SP;
5e2)将未知药物与癌症细胞系的反应关系作为负样本数据集SN;
5e3)基于正样本数据SP、负样本数据SN和联合特征向量F,通过如下公式求解逻辑回归模型中的参数向量Z:
Figure BDA0002095673590000087
其中,cadb表示正样本数据元素,
Figure BDA0002095673590000088
表示正样本数据元素cadb的联合特征向量,ca'db'表示负样本数据元素,
Figure BDA0002095673590000089
表示负样本数据元素ca'db'的联合特征向量;
5e4)基于训练得到的参数向量Z,得到药物反应预测模型:
Figure BDA00020956735900000810
其中,i表示第i个癌症细胞系,x表示第x个药物,
Figure BDA00020956735900000811
表示第i个癌症细胞系和第x个药物的联合特征向量,logit(i,x)表示第i个癌症细胞系和第x个药物之间的敏感性关系得分。
步骤6,将未知反应关系的药物与癌症细胞系所对应的联合特征向量作为药物反应预测模型的输入,得到药物和癌症细胞系之间的敏感性关系得分。
步骤7,判断敏感性关系得分是否大于0.5,如果是,则对应的药物对癌症细胞系有治疗作用,否则,对应的药物对癌症细胞系没有治疗效果。
以下结合仿真实验,对本发明的技术效果作进一步说明:
1.仿真条件
仿真实验在Intel(R)Core(TM)i7-8700k CPU、主频3.70GHz,内存48G,Ubuntu平台上的Matlab R2018a上进行。
2.仿真内容与结果
为了证明本发明能够预测治疗癌症的候选药物,以GDSC数据库和Pubchem数据库作为实施例对治疗癌症的候选药物结果进行仿真实验,对药物和癌症细胞系之间的敏感性关系得分按照从大到小排名后,并对敏感性得分排名前5的预测结果进行验证,其结果如表1所示。
表1
药物名称 癌症细胞系名称 癌症细胞系类型 敏感性关系得分排名 文献PMID
Refametinib GAK Melanoma 1 19706763
Sorafenib HL-60 Acute_myeloid_leukaemia 2 29983847
Sunitinib1 NOMO-1 Acute_myeloid_leukaemia 3 23969938
Fedratinib EM-2 Leukemia 4 26833125
Crizotinib ME-1 Acute_myeloid_leukaemia 5 27494825
表1中的文献PMID表示Pubmed数据库中的文献索引号。
从表1可以看出,仿真实验预测结果排名前5的敏感性关系已经被现有的文献所验证,说明了本发明方法的准确率高。

Claims (8)

1.一种基于多维网络的癌症细胞系治疗药物预测方法,其特征在于,包括如下:
(1)下载癌症细胞系的数据,构建癌症细胞系相似性网络:
(1a)从与癌症细胞系基因表达相关的任意一个数据库下载n个癌症细胞系和这n个癌症细胞系所对应的t个基因的表达数据,得到基因表达矩阵
Figure FDA0003533887010000011
构建癌症细胞系基因表达相似性网络
Figure FDA0003533887010000012
(1b)从与癌症细胞系突变相关的任意一个数据库下载n个癌症细胞系和这n个癌症细胞系所对应的p个基因的突变数据,得到突变矩阵
Figure FDA0003533887010000013
构建癌症细胞系突变相似性网络
Figure FDA0003533887010000014
(1c)从与癌症细胞系拷贝数变异相关的任意一个数据库下载n个癌症细胞系和这n个癌症细胞系所对应的q个基因的拷贝数变异数据,得到拷贝数变异矩阵
Figure FDA0003533887010000015
构建癌症细胞系拷贝数变异相似性网络
Figure FDA0003533887010000016
(2)下载药物的数据,构建药物相似性网络:
(2a)从与药物化学结构相关的任意一个数据库下载m个药物的化学结构表达式数据CHm,构建药物化学结构相似性网络
Figure FDA0003533887010000017
(2b)从与药物靶标相关的任意一个数据库下载m个药物的靶标数据TAm,构建药物靶标相似性网络
Figure FDA0003533887010000018
(3)在癌症细胞系基因表达相似性网络
Figure FDA0003533887010000019
癌症细胞系突变相似性网络
Figure FDA00035338870100000110
和癌症细胞系拷贝数变异相似性网络
Figure FDA00035338870100000111
中,利用扩散成分分析算法计算得到n个癌症细胞系的低维特征向量矩阵
Figure FDA00035338870100000112
其中dc表示癌症细胞系特征向量的维度数量,实现如下:
(3a)在癌症细胞系各网络中,以第i个癌症细胞系节点为种子进行游走,得到第i个癌症细胞系扩散状态
Figure FDA00035338870100000113
其中L=1,2,3分别表示癌症细胞系表达相似性网络
Figure FDA00035338870100000114
癌症细胞系突变相似性网络
Figure FDA00035338870100000115
和癌症细胞系拷贝数变异相似性网络
Figure FDA00035338870100000116
(3b)基于癌症细胞系扩散状态
Figure FDA00035338870100000117
计算癌症细胞系低维特征向量矩阵
Figure FDA00035338870100000118
通过如下公式求解:
Figure FDA0003533887010000021
其中,Fi cell是癌症细胞系低维特征向量矩阵
Figure FDA0003533887010000022
的第i行,表示第i个癌症细胞系节点的特征向量,由n个癌症细胞系节点的特征向量组成癌症细胞系低维特征向量矩阵
Figure FDA0003533887010000023
Figure FDA0003533887010000024
表示第i个癌症细胞系在第l个癌症细胞系网络中的上下文特征向量,DKL表示KL散度函数;
(4)在药物化学结构相似性网络
Figure FDA0003533887010000025
和药物靶标相似性网络
Figure FDA0003533887010000026
中,利用扩散成分分析算法计算得到m个药物的低维特征向量矩阵
Figure FDA0003533887010000027
其中dd表示药物特征向量的维度数量;
(5)获得药物反应的逻辑回归模型:
(5a)从癌症细胞系低维特征向量矩阵
Figure FDA0003533887010000028
中的第i行得到第i个癌症细胞系的低维特征向量:
Figure FDA0003533887010000029
其中,i=1,2,3,...,n;
(5b)从药物低维特征向量矩阵
Figure FDA00035338870100000210
中的第x行得到第x个药物的低维特征向量:
Figure FDA00035338870100000211
(5c)将第i个癌症细胞系的低维特征向量和第x个药物的低维特征向量组合为联合特征向量:
Figure FDA00035338870100000212
(5d)从与药物反应相关的任意一个数据库下载已知药物与癌症细胞系的反应关系数据;
(5e)基于已知药物与癌症细胞系的反应关系数据和其对应的联合特征向量,对逻辑回归模型进行训练,得到药物反应预测模型;
(6)将未知反应关系的药物与癌症细胞系所对应的联合特征向量作为药物反应预测模型的输入,计算药物和癌症细胞系之间的敏感性关系得分;
(7)判断敏感性关系得分是否大于0.5,如果是,则对应的药物对癌症细胞系有治疗作用,否则,对应的药物对癌症细胞系没有治疗效果。
2.根据权利要求1所述的方法,其特征在于,步骤(1a)中构建癌症细胞系基因表达相似性网络
Figure FDA0003533887010000031
实现如下:
(1a1)从基因表达矩阵
Figure FDA0003533887010000032
中的第i行得到第i个癌症细胞系的基因表达特征向量:
Figure FDA0003533887010000033
其中,i=1,2,3,...,n;
(1a2)从基因表达矩阵
Figure FDA0003533887010000034
中的第j行得到第j个癌症细胞系的基因表达特征向量:
Figure FDA0003533887010000035
其中,j=1,2,3,...,n;
(1a3)计算上述Ci exp与Cj exp之间的皮尔森相关性,得到第i个癌症细胞系和第j个癌症细胞系的基因表达相似性,作为癌症细胞系基因表达相似性网络
Figure FDA0003533887010000036
中的元素
Figure FDA0003533887010000037
的值,得到癌症细胞系基因表达相似性网络
Figure FDA0003533887010000038
Figure FDA0003533887010000039
3.根据权利要求1所述的方法,其特征在于,步骤(1b)中构建癌症细胞系突变相似性网络
Figure FDA00035338870100000310
实现如下:
(1b1)从突变矩阵
Figure FDA00035338870100000311
中的第i行得到第i个癌症细胞系的突变特征向量:
Figure FDA00035338870100000312
其中,i=1,2,3,...,n;
(1b2)从突变矩阵
Figure FDA00035338870100000313
的第j行得到第j个癌症细胞系的突变特征向量:
Figure FDA00035338870100000314
其中,j=1,2,3,...,n;
(1b3)计算上述
Figure FDA00035338870100000315
Figure FDA00035338870100000316
之间的余弦相似性,得到第i个癌症细胞系和第j个癌症细胞系的突变相似性,作为癌症细胞系突变相似性网络
Figure FDA00035338870100000317
中元素
Figure FDA00035338870100000318
的值,得到癌症细胞系突变相似性网络
Figure FDA00035338870100000319
Figure FDA00035338870100000320
4.根据权利要求1所述的方法,其特征在于,步骤(1c)中构建癌症细胞系拷贝数变异相似性网络
Figure FDA00035338870100000321
实现如下:
(1c1)从拷贝数变异矩阵
Figure FDA00035338870100000322
中的第i行得到第i个癌症细胞系的拷贝数变异特征向量:
Figure FDA0003533887010000041
其中,i=1,2,3,...,n;
(1c2)从拷贝数变异矩阵
Figure FDA0003533887010000042
中的第j行得到第j个癌症细胞系的拷贝数变异特征向量:
Figure FDA0003533887010000043
其中,j=1,2,3,...,n;
(1c3)计算上述Ci cnv与Cj cnv之间的斯皮尔曼相关性得到第i个癌症细胞系和第j个癌症细胞系的拷贝数变异相似性,作为癌症细胞系拷贝数变异相似性网络
Figure FDA0003533887010000044
中元素
Figure FDA0003533887010000045
的值,得到癌症细胞系拷贝数变异相似性网络
Figure FDA0003533887010000046
Figure FDA0003533887010000047
5.根据权利要求1所述的方法,其特征在于,步骤(2a)中构建药物化学结构相似性网络
Figure FDA0003533887010000048
实现如下:
(2a1)使用PaDEL工具将药物的化学结构表达式数据CHm转换为化学结构分子特征,得到化学结构矩阵
Figure FDA0003533887010000049
其中m表示药物的数量,v表示化学结构分子特征的数量;
(2a2)从化学结构矩阵
Figure FDA00035338870100000410
中的第x行得到第x个药物的化学结构分子特征向量:
Figure FDA00035338870100000411
其中,x=1,2,3,...m;
(2a3)从化学结构矩阵
Figure FDA00035338870100000412
中的第y行得到第y个药物的化学结构分子特征向量:
Figure FDA00035338870100000413
其中,y=1,2,3,...m;
(2a4)计算上述
Figure FDA00035338870100000414
Figure FDA00035338870100000415
之间的皮尔森相关性得到第x个药物和第y个药物的相似性,作为药物化学结构相似性网络
Figure FDA00035338870100000416
中元素
Figure FDA00035338870100000417
的值,得到药物化学结构相似性网络
Figure FDA00035338870100000418
Figure FDA00035338870100000419
6.根据权利要求1所述的方法,其特征在于,步骤(2b)中构建药物靶标相似性网络
Figure FDA00035338870100000420
实现如下:
(2b1)从药物的靶标数据TAm中,得到第x个药物的靶标集合:Sx=(g1,g2,...gk),其中k表示第x个药物的靶标数量,其中,x=1,2,3,...m;
(2b2)从药物的靶标数据TAm中,得到第y个药物药物的靶标集合:Sy=(g1,g2,...gh),其中h表示第y个药物的靶标数量,其中,y=1,2,3,...m;
(2b3)通过Smith-Waterman算法计算第x个药物的靶标集合Sx和第y个药物的靶标集合Sy中的元素对之间的序列相似性,得到k×h个序列相似性值,其中最大的序列相似性值是第x个药物和第y个药物的相似性,作为药物靶标相似性网络
Figure FDA0003533887010000051
中元素
Figure FDA0003533887010000052
的值,得到药物靶标相似性网络
Figure FDA0003533887010000053
Figure FDA0003533887010000054
7.根据权利要求1所述的方法,其特征在于,步骤(4)中使用扩散成分分析算法计算得到m个药物的低维特征向量矩阵
Figure FDA0003533887010000055
实现如下:
(4a)在药物各网络中,以第x个药物节点为种子进行游走,得到第x个药物扩散状态
Figure FDA0003533887010000056
其中R=1,2分别表示药物化学结构相似性网络
Figure FDA0003533887010000057
和药物靶标相似性网络
Figure FDA0003533887010000058
(4b)基于药物扩散状态
Figure FDA0003533887010000059
计算药物低维特征向量矩阵
Figure FDA00035338870100000510
通过如下公式求解:
Figure FDA00035338870100000511
其中,
Figure FDA00035338870100000512
是药物低维特征向量矩阵
Figure FDA00035338870100000513
的第x行,表示第x个药物节点的特征向量,由m个药物节点的特征向量组成药物低维特征向量矩阵
Figure FDA00035338870100000514
Figure FDA00035338870100000515
表示第x个药物在第r个网络中的上下文特征向量,DKL表示KL散度函数。
8.根据权利要求1所述的方法,其特征在于,步骤(5e)中得到药物反应预测模型,实现如下:
(5e1)将已知药物与癌症细胞系的治疗关系作为正样本数据集SP;
(5e2)将未知药物与癌症细胞系的反应关系作为负样本数据集SN;
(5e3)基于正样本数据SP、负样本数据SN和联合特征向量F,通过如下公式求解逻辑回归模型中的参数向量Z:
Figure FDA00035338870100000516
其中,cadb表示正样本数据元素,
Figure FDA0003533887010000061
表示正样本数据元素cadb的联合特征向量,ca'db'表示负样本数据元素,
Figure FDA0003533887010000062
表示负样本数据元素ca'db'的联合特征向量;
(5e4)基于训练得到的参数向量Z,得到药物反应预测模型:
Figure FDA0003533887010000063
其中,i表示第i个癌症细胞系,x表示第x个药物,
Figure FDA0003533887010000064
表示第i个癌症细胞系和第x个药物的联合特征向量,logit(i,x)表示第i个癌症细胞系和第x个药物之间的敏感性关系得分。
CN201910518175.4A 2019-06-14 2019-06-14 基于多维网络的癌症细胞系治疗药物预测方法 Active CN110232978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910518175.4A CN110232978B (zh) 2019-06-14 2019-06-14 基于多维网络的癌症细胞系治疗药物预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910518175.4A CN110232978B (zh) 2019-06-14 2019-06-14 基于多维网络的癌症细胞系治疗药物预测方法

Publications (2)

Publication Number Publication Date
CN110232978A CN110232978A (zh) 2019-09-13
CN110232978B true CN110232978B (zh) 2022-05-17

Family

ID=67859321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910518175.4A Active CN110232978B (zh) 2019-06-14 2019-06-14 基于多维网络的癌症细胞系治疗药物预测方法

Country Status (1)

Country Link
CN (1) CN110232978B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110867254A (zh) * 2019-11-18 2020-03-06 北京市商汤科技开发有限公司 预测方法及装置、电子设备和存储介质
CN112289389B (zh) * 2020-11-05 2022-08-30 中南大学 一种影响靶向治疗药物疗效的评估模型
CN112599207A (zh) * 2020-12-23 2021-04-02 上海海洋大学 基于通路活性及弹性网的癌症药物敏感性预测方法
CN112635080A (zh) * 2021-01-15 2021-04-09 复星领智(上海)医药科技有限公司 基于深度学习的药物预测方法和设备
CN112768089B (zh) * 2021-04-09 2021-06-22 至本医疗科技(上海)有限公司 用于预测药物敏感状态的方法、设备和存储介质
CN113362895A (zh) * 2021-06-15 2021-09-07 上海基绪康生物科技有限公司 一种预测抗癌药物反应相关基因的综合分析方法
CN114255886B (zh) * 2022-02-28 2022-06-14 浙江大学 基于多组学相似度引导的药物敏感性预测方法和装置
CN115206421B (zh) * 2022-07-19 2023-04-18 北京百度网讯科技有限公司 药物重定位方法、重定位模型的训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010056893A1 (en) * 2008-11-13 2010-05-20 Imclone Llc Humanization and affinity-optimization of antibodies
EP2908132A2 (en) * 2011-03-02 2015-08-19 Nestec S.A. Prediction of drug sensitivity of lung tumors based on molecular and genetic signatures
CN107609326A (zh) * 2017-07-26 2018-01-19 同济大学 癌症精准医疗中的药物敏感性预测方法
CN108830040A (zh) * 2018-06-07 2018-11-16 中南大学 一种基于细胞系和药物相似性网络的药物敏感性预测方法
CN108877953A (zh) * 2018-06-06 2018-11-23 中南大学 一种基于多相似性网络的药物敏感性预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010056893A1 (en) * 2008-11-13 2010-05-20 Imclone Llc Humanization and affinity-optimization of antibodies
EP2908132A2 (en) * 2011-03-02 2015-08-19 Nestec S.A. Prediction of drug sensitivity of lung tumors based on molecular and genetic signatures
CN107609326A (zh) * 2017-07-26 2018-01-19 同济大学 癌症精准医疗中的药物敏感性预测方法
CN108877953A (zh) * 2018-06-06 2018-11-23 中南大学 一种基于多相似性网络的药物敏感性预测方法
CN108830040A (zh) * 2018-06-07 2018-11-16 中南大学 一种基于细胞系和药物相似性网络的药物敏感性预测方法

Also Published As

Publication number Publication date
CN110232978A (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
CN110232978B (zh) 基于多维网络的癌症细胞系治疗药物预测方法
Badia-i-Mompel et al. Gene regulatory network inference in the era of single-cell multi-omics
Wan et al. An ensemble based top performing approach for NCI-DREAM drug sensitivity prediction challenge
Lei et al. GBDTCDA: predicting circRNA-disease associations based on gradient boosting decision tree with multiple biological data fusion
CN108877953B (zh) 一种基于多相似性网络的药物敏感性预测方法
JP2022518272A (ja) 薬物応答および疾患ネットワークの再構築のための方法およびシステム、ならびにそれらの使用
CN107679367B (zh) 一种基于网络节点关联度的共调控网络功能模块识别方法及系统
Anandhavalli et al. Association rule mining in genomics
CN107194203A (zh) 基于miRNA数据和组织特异性网络的药物重定位方法
CN111951886A (zh) 一种基于贝叶斯归纳型矩阵补全的药物重定位预测方法
Barh et al. In silico models: from simple networks to complex diseases
Qian et al. Reconstruction of the cell pseudo-space from single-cell RNA sequencing data with scSpace
CN114913916A (zh) 预测新冠病毒适应药物的药物重定位方法
Ressom et al. Adaptive double self-organizing maps for clustering gene expression profiles
Aljawarneh et al. Gene profile classification: A proposed solution for predicting possible diseases and initial results
Jiang et al. Flexible non-negative matrix factorization to unravel disease-related genes
CN114913919A (zh) 一种单基因病遗传变异智能解读及报告的方法、系统及服务器
CN112635080A (zh) 基于深度学习的药物预测方法和设备
WO2009042754A1 (en) Software assisted methods for probing the biochemical basis of biological states
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
Deng et al. Identifying key genes of liver cancer by networking of multiple data sets
KR102653969B1 (ko) 약물과 셀 라인의 유사도 행렬에 기반한 합성곱 신경망을 이용하여 약물 반응을 예측하는 시스템
CN113130010A (zh) 一种基因调控网络数据库及其在个性化药物筛选中的应用
Yin et al. Cox-ResNet: A Survival Analysis Model Based on Residual Neural Networks for Gene Expression Data
Testa et al. A Non-Negative Matrix Tri-Factorization Based Method for Predicting Antitumor Drug Sensitivity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant