CN111627493A - 一种激酶抑制剂的选择性预测方法和计算设备 - Google Patents
一种激酶抑制剂的选择性预测方法和计算设备 Download PDFInfo
- Publication number
- CN111627493A CN111627493A CN202010474297.0A CN202010474297A CN111627493A CN 111627493 A CN111627493 A CN 111627493A CN 202010474297 A CN202010474297 A CN 202010474297A CN 111627493 A CN111627493 A CN 111627493A
- Authority
- CN
- China
- Prior art keywords
- kinase
- activity
- molecular
- model
- protein
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 229940043355 kinase inhibitor Drugs 0.000 title claims abstract description 18
- 239000003757 phosphotransferase inhibitor Substances 0.000 title claims abstract description 17
- 108091000080 Phosphotransferase Proteins 0.000 claims abstract description 204
- 102000020233 phosphotransferase Human genes 0.000 claims abstract description 204
- 230000000694 effects Effects 0.000 claims abstract description 194
- 150000003384 small molecules Chemical class 0.000 claims abstract description 72
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 70
- 150000001875 compounds Chemical class 0.000 claims abstract description 69
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 69
- 102000001253 Protein Kinase Human genes 0.000 claims abstract description 27
- 108060006633 protein kinase Proteins 0.000 claims abstract description 27
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 66
- 238000004364 calculation method Methods 0.000 claims description 18
- 239000011782 vitamin Substances 0.000 claims description 7
- 229940088594 vitamin Drugs 0.000 claims description 6
- 229930003231 vitamin Natural products 0.000 claims description 6
- 235000013343 vitamin Nutrition 0.000 claims description 6
- 238000010187 selection method Methods 0.000 claims description 5
- 238000003556 assay Methods 0.000 claims description 4
- 235000018102 proteins Nutrition 0.000 description 55
- 238000010801 machine learning Methods 0.000 description 26
- 238000004891 communication Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 101001059454 Homo sapiens Serine/threonine-protein kinase MARK2 Proteins 0.000 description 6
- 102100028904 Serine/threonine-protein kinase MARK2 Human genes 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 239000003814 drug Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 102000004190 Enzymes Human genes 0.000 description 5
- 108090000790 Enzymes Proteins 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 108091064702 1 family Proteins 0.000 description 4
- 108010031425 Casein Kinases Proteins 0.000 description 4
- 102000005403 Casein Kinases Human genes 0.000 description 4
- 150000001413 amino acids Chemical class 0.000 description 4
- 230000004071 biological effect Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 239000003112 inhibitor Substances 0.000 description 4
- 230000005764 inhibitory process Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 3
- 102000000584 Calmodulin Human genes 0.000 description 3
- 108010041952 Calmodulin Proteins 0.000 description 3
- 102000003903 Cyclin-dependent kinases Human genes 0.000 description 3
- 108090000266 Cyclin-dependent kinases Proteins 0.000 description 3
- 108010078321 Guanylate Cyclase Proteins 0.000 description 3
- 102000014469 Guanylate cyclase Human genes 0.000 description 3
- 102000004022 Protein-Tyrosine Kinases Human genes 0.000 description 3
- 108090000412 Protein-Tyrosine Kinases Proteins 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 229910052791 calcium Inorganic materials 0.000 description 3
- 239000011575 calcium Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000009509 drug development Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 150000003722 vitamin derivatives Chemical class 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000026731 phosphorylation Effects 0.000 description 2
- 238000006366 phosphorylation reaction Methods 0.000 description 2
- 239000003909 protein kinase inhibitor Substances 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- WIGIZIANZCJQQY-UHFFFAOYSA-N 4-ethyl-3-methyl-N-[2-[4-[[[(4-methylcyclohexyl)amino]-oxomethyl]sulfamoyl]phenyl]ethyl]-5-oxo-2H-pyrrole-1-carboxamide Chemical compound O=C1C(CC)=C(C)CN1C(=O)NCCC1=CC=C(S(=O)(=O)NC(=O)NC2CCC(C)CC2)C=C1 WIGIZIANZCJQQY-UHFFFAOYSA-N 0.000 description 1
- 102000038625 CMGCs Human genes 0.000 description 1
- 108091007913 CMGCs Proteins 0.000 description 1
- 102100022789 Calcium/calmodulin-dependent protein kinase type IV Human genes 0.000 description 1
- 101100287682 Homo sapiens CAMK2G gene Proteins 0.000 description 1
- 101100126883 Homo sapiens CAMK4 gene Proteins 0.000 description 1
- 206010020843 Hyperthermia Diseases 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- 108091007643 Phosphate carriers Proteins 0.000 description 1
- 102000009516 Protein Serine-Threonine Kinases Human genes 0.000 description 1
- 108010009341 Protein Serine-Threonine Kinases Proteins 0.000 description 1
- 239000000370 acceptor Substances 0.000 description 1
- 229940045988 antineoplastic drug protein kinase inhibitors Drugs 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010494 dissociation reaction Methods 0.000 description 1
- 230000005593 dissociations Effects 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000036031 hyperthermia Effects 0.000 description 1
- 208000026278 immune system disease Diseases 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000001613 neoplastic effect Effects 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 125000004430 oxygen atom Chemical group O* 0.000 description 1
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 238000005556 structure-activity relationship Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000003041 virtual screening Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medicinal Chemistry (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种激酶抑制剂的选择性预测方法,适于在计算设备中执行,计算设备中包括活性预测模型,该活性预测模型适于基于小分子的分子特征和激酶的蛋白特征来预测小分子对该激酶的活性值,该方法包括步骤:根据待测化合物的分子结构生成对应的分子特征;将分子特征分别与多个激酶的蛋白特征进行拼接,得到多个待测样本特征;采用活性预测模型分别对每个待测样本特征进行处理,得到待测化合物对每个激酶的活性值;以及根据所预测的活性值计算待测化合物对每个激酶的选择性。本发明还一并公开了用于执行该方法的计算设备。
Description
技术领域
本发明涉及药物虚拟筛选领域,尤其涉及一种激酶抑制剂的选择性预测方法和计算设备。
背景技术
蛋白激酶(Protein Kinase,PK)是指能将γ磷酸基团从磷酸载体分子上转移至底物蛋白的氨基酸受体上的一大类酶。它们通过磷酸化调节蛋白质的活性或者参与体内的信号转导。人类基因编码了518种激酶,这些激酶负责了人类体内将近1/3蛋白质的磷酸化。激酶作为药物研发靶点已有30年的历史,涉及的疾病主要是肿瘤性疾病,还有一些免疫性疾病以及退化性疾病。近些年来,基于小分子蛋白激酶抑制剂的药物研发是制药行业的一大热门领域,到目前为止已有52款蛋白激酶抑制剂药物被美国FDA批准上市,其中近三年上市的就占了20款,从所覆盖的疾病和成功率来看,蛋白激酶都是一类非常具有吸引力的药物研发靶点。
然而,由于激酶家族内成员在结构和功能上的相似性及保守性,抑制剂的选择性是以激酶为靶点的药物开发中必须面对的重大挑战之一,如果抑制剂没有选择性,同时抑制很多靶点就意味着会产生各种各样的副作用,很多活性值很高的激酶抑制剂就是由于没有选择性而折戟在临床前或临床阶段。仅在少数激酶中测定一个化合物的活性并不能有效地评估该化合物对激酶家族各成员的选择性,如果通过实验方法来准确评估化合物对各激酶的选择性的话,理论上需要将每个化合物对所有的激酶测定其活性,将这一环节纳入药物的早期筛选过程无疑需要耗费巨大的成本。如果在早期筛选过程使用计算模型来代替实验,等筛选范围缩小后再用实验验证,则可以在早期就预估化合物选择性的同时节省很大一部分的实验成本,故开发能够预测化合物对各激酶的选择性的模型对于节省研发成本以及加速研发周期是有必要的。
发明内容
为此,本发明提供了一种激酶抑制剂的选择性预测方法和计算设备,以力图解决或至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种激酶抑制剂的选择性预测方法,适于在计算设备中执行,计算设备中包括活性预测模型,活性预测模型适于基于小分子的分子特征和激酶的蛋白特征来预测小分子对该激酶靶点的活性值,该方法包括步骤:根据待测化合物的分子结构信息生成对应的分子特征;将分子特征分别与多个激酶的蛋白特征进行拼接,得到多个待测样本特征;采用活性预测模型分别对每个待测样本特征进行处理,得到待测化合物对每个激酶的活性值;以及根据所预测的活性值计算所述待测化合物对每个激酶的选择性。
可选地,在根据本发明的选择性预测方法中,还包括活性预测模型的训练步骤:采集多条活性数据,每条活性数据针对一个激酶和小分子组合,包括激酶靶点信息、小分子信息、以及小分子对该激酶靶点的活性值;分别提取小分子的分子特征和激酶的蛋白特征,并将所提取的分子特征和序列特征拼接为训练样本特征;以及基于训练样本特征和对应的样本活性值,对所述活性预测模型进行训练,得到训练好的活性预测模型。
可选地,在根据本发明的选择性预测方法中,还包括步骤:采用特征选择方法从初始的多个分子特征类型中选取M1个分子特征类型、以及从初始的多个序列特征类型选取M2个蛋白特征类型;此时,分子特征和序列特征的拼接为M1维的小分子特征与M2维的激酶蛋白特征的拼接。
可选地,在根据本发明的选择性预测方法中,多个激酶归属于多个激酶家族,计算设备中还包括每个激酶家族所对应的活性预测子模型,分别用于预测小分子对特定激酶家族内的激酶的活性值,且每个活性预测子模型均经过特征选择后确定有对应的分子特征类型和蛋白特征类型。
可选地,在根据本发明的选择性预测方法中,还包括步骤:基于每个活性预测子模型的分子特征类型,分别对应生成待测化合物针对不同激酶家族的分子特征;获取每个激酶在所属的活性预测子模型中的蛋白特征,并分别与对应的分子特征进行拼接,得到多个针对不同激酶家族的待测样本特征;以及采用每个待测样本特征所对应的活性预测子模型来对该待测样本特征进行处理,得到所述待测化合物对每个激酶靶点的活性值。
可选地,在根据本发明的选择性预测方法中,还包括活性预测模型的增量训练步骤:另外采集多条增量数据,每条增量数据针对一个激酶和小分子组合,包括激酶信息、小分子信息、以及小分子对该激酶的活性值;分别对应提取小分子和激酶在该活性预测模型中的分子特征和蛋白序列特征,并将所提取的分子特征和序列特征拼接为增量样本特征;以及基于增量样本特征和对应的样本活性值,在训练好的活性预测模型的基础上进行再训练,得到训练好的活性预测模型。
可选地,在根据本发明的选择性预测方法中,还包括激酶家族的活性预测子模型的增量训练步骤:另外采集激酶家族的多条增量数据,每条增量数据针对一个属于该激酶家族的激酶和小分子组合,包括激酶信息、小分子信息、以及小分子对该激酶的活性值;分别对应提取小分子和激酶在该活性预测子模型中的分子特征和蛋白特征,并将所提取的分子特征和蛋白特征拼接为增量样本特征;以及基于增量样本特征和对应的样本活性值,在训练好的活性预测模型的基础上进行再训练,得到训练好的活性预测子模型。
可选地,在根据本发明的选择性预测方法中,选择性包括绝对选择性S1,其计算公式为:S1=N1/Ntot,其中,N1是化合物对Ntot个激酶靶点的活性测定中、活性值小于第一阈值的激酶数量。
可选地,在根据本发明的选择性预测方法中,选择性包括第一相对选择性S2,其计算公式为:S2=Aoff-targets/Aprimary-target,其中,Aprimary-target化合物对靶标激酶的活性值,Aoff-targets是化合物对除靶标激酶之外的其他激酶的平均活性。
可选地,在根据本发明的选择性预测方法中,选择性包括第二相对选择性S3,其计算公式为:S3=N2/Noff-targets,其中,Noff-targets是化合物的脱靶激酶的总数,N2是活性值与靶标激酶的活性值之比小于第二阈值的脱靶激酶数量。
可选地,在根据本发明的选择性预测方法中,还包括步骤:计算待测样本特征与对应模型的训练样本特征之间的距离,并将数值最小的多个距离值取平均,作为待测样本与对应模型的训练集的相似度。
可选地,在根据本发明的选择性预测方法中,还包括步骤:将采集到的多条活性数据划分为训练集和测试集,并计算测试集中的测试样本特征与对应模型的训练样本特征之间的距离,根据测试集中计算得到的所有样本距离计算参照值,并根据该参照值对所述相似度进行评估。
可选地,在根据本发明的选择性预测方法中,还包括步骤:对待测化合物对每个激酶靶点的选择性进行降序排序,并选取选择性最高的一个或多个激酶靶点作为所述待测化合物的目标靶点。
可选地,在根据本发明的选择性预测方法中,活性值包括酶活性值和/或细胞活性值。
可选地,输入文件中除包含小分子特征、激酶的蛋白特征和活性数据以外,还包括但不限于以下的信息:小分子的名称/编码、简化分子输入线性规范表示、以及激酶靶点的名称/编号、功能结构区序列和全长全序列。
可选地,在根据本发明的选择性预测方法中,M1维的分子特征分子指纹和分子描述符,分子指纹包括2D分子指纹和/或3D指纹,所述分子描述符包括物理化学性质、构成、拓扑、几何、电荷和热力学描述符、以及分子类型、原子类型和键类型中的至少一种。
可选地,在根据本发明的选择性预测方法中,M2维的蛋白特征包括以下至少一种:基于氨基酸组成、物理、化学性质等的统计信息特征表示、基于NLP的特征表示、基于进化信息的特征表示、基于蛋白3D结构中提取的残基位点的特征表示、基于图网络结构描述的蛋白3D结构特征表示中的至少一种。
可选地,在根据本发明的选择性预测方法中,激酶家族包括酪氨酸激酶家族、类酪氨酸激酶家族、丝氨酸/苏氨酸激酶家族、钙/钙调素依赖性激酶家族、细胞周期蛋白依赖性激酶家族、酪蛋白激酶1家族、无菌丝氨酸/苏氨酸激酶家族、鸟苷酸环化酶受体家族中的至少一种。
可选地,在根据本发明的选择性预测方法中,活性预测模型和活性预测子模型均为极端梯度提升决策树模型,M1=M2=500,第一阈值为3uM,第二阈值为10。
根据本发明的再一方面,提供了一种计算设备,包括:存储器;一个或多个处理器;一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行如上所述的激酶抑制剂的选择性预测方法的指令。
根据本发明的再一方面,提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行如上所述的激酶抑制剂的选择性预测方法。
根据本发明的技术方案,提供了一种能够预测激酶靶点活性的预测模型,该模型作为一个多靶点模型,可以同时预测化合物在多个激酶靶点上的活性。之后,将计算得到的活性值代入选择性计算公式来得到该化合物的选择性,实现活性预测与选择性计算为一体。而且,本发明可以基于全量数据训练全量(总)模型,也可以在全量(总)模型的基础上再基于增量数据训练全量(总)模型和每个激酶家族的预测子模型,进一步提高模型预测的针对性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的一些实施方式的示例计算机系统100的示意图;
图2示出了根据本发明一个实施例的计算设备200的示意图;
图3示出了根据本发明一个实施例的激酶抑制剂的选择性预测方法300的流程图;
图4示出了根据本发明一个实施例的模型训练过程的示意图;以及
图5示出了根据本发明另一个实施例的激酶抑制剂的选择性预测方法500的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1描绘了根据本公开的示例实施例的示例计算系统100的框图。系统100包括通过网络180通信地耦接的用户计算设备110、服务器计算系统130和训练计算系统150。
用户计算设备110可以是任何类型的计算设备,包括但不限于例如个人计算设备(例如,膝上型或者桌面型计算机)、移动计算设备(智能电话或平板电脑)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备、边缘计算设备或任何其他类型的计算设备。用户计算设备110可以作为端智能设备部署在用户现场处,并与用户进行交互而处理用户输入。
用户计算设备110可以存储或包括一个或多个机器学习模型120。机器学习模型120可以被设计用于执行各种任务,诸如图像分类、目标检测、语音识别、机器翻译、内容过滤、分子序列生成、生物活性预测等等。机器学习模型120可以是诸如神经网络(例如,深度神经网络)或者包括非线性模型和/或线性模型在内的其他类型的机器学习模型。机器学习模型120的示例包括但不限于各类深度神经网络(DNN),或者各类经典机器学习模型(例如,支持向量机模型、随机森林模型、逻辑回归模型)。
在一些实现方式中,用户计算设备110可以通过网络180从服务器计算系统130接收机器学习模型120,存储在用户计算设备的存储器中并由在用户计算设备中的应用来使用或者实现。
在另一些实现方式中,用户计算设备110可以调用在服务器计算系统130中存储和实现的机器学习模块140。例如,机器学习模型140可以由服务器计算系统130实现为Web服务的一部分,从而用户计算设备110可以例如通过网络180并根据客户端-服务器关系来调用作为Web服务实现的机器学习模型140。因此,可以在用户计算设备110处使用的机器学习模块包括在用户计算设备110处存储和实现的机器学习模型120和/或在服务器计算系统130处存储和实现的机器学习模型140。
用户计算设备110还可以包括接收用户输入的一个或多个用户输入组件。例如,用户输入组件可以是对用户输入对象(例如,手指或指示笔)的触摸敏感的触敏组件(例如,触敏显示屏或触摸板)。触敏组件可用于实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘、摄像头或用户可以通过其提供用户输入的其他设备。
服务器计算系统130可以包括一个或多个服务器计算设备。在服务器计算系统130包括多个服务器计算设备的情况下,这些服务器计算设备可以根据顺序计算架构、并行计算架构或其一些组合来操作。
如上所述,服务器计算系统130可以存储或包括一个或多个机器学习模型140。类似于机器学习模型120,机器学习模型140可以被设计用于执行图像分类、目标检测、语音识别、机器翻译、内容过滤、分子序列生成、生物活性预测等等。模型140可以包括各种机器学习模型。示例的机器学习模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、递归神经网络和卷积神经网络。
用户计算设备110和/或服务器计算系统130可以经由与通过网络180通信地耦接的训练计算系统150的交互来训练模型120和/或140。训练计算系统150可以与服务器计算系统130分离,或者可以是服务器计算系统130的一部分。
类似于服务器计算系统130,训练计算系统150可以包括一个或多个服务器计算设备或以其他方式由一个或多个服务器计算设备实现。
训练计算系统150可以包括模型训练器160,其使用诸如例如误差的反向传播的各种训练或学习技术训练存储在用户计算设备110和/或服务器计算系统130处的机器学习模型120和/或140。在一些实现方式中,执行误差的反向传播可以包括执行通过时间截断的反向传播(truncated backpropagation through time)。模型训练器160可以执行多种泛化技术(例如,权重衰减、丢失等)以改进正在训练的模型的泛化能力。
具体地,模型训练器160可以基于训练数据162的集合来训练机器学习模型120和/或140。训练数据162可以包括多个不同的训练数据集合,每个训练数据集合例如分别有助于训练机器学习模型120和/或140执行多个不同的任务的。例如,训练数据集合包括有助于机器学习模型120和/或140执行对象检测、对象识别、对象分割、图像分类、活性预测和/或其他任务的数据集。
在一些实现方式中,如果用户已经明确同意,则训练示例可以由用户计算设备110提供。因此,在这样的实现方式中,提供给用户计算设备110的模型120可以由训练计算系统150在从用户计算设备110接收的特定于用户的数据上训练。在一些情况下,该过程可以被称为个性化模型。
另外,在一些实现方式中,模型训练器160可以对在服务器计算系统130中的机器学习模型140进行修改以获得适于在用户计算设备110中使用的机器学习模型120。这些修改例如包括减少模型中的各种参数数量、以更小的精度来存储参数值等,以使得训练后的机器学习模型120和/或140适于考虑到服务器计算系统130和用户计算设备110的不同处理性能来运行。
模型训练器160包括用于提供所期望的功能性的计算机逻辑。模型训练器160可以用控制通用处理器的硬件、固件和/或软件来实现。例如,在一些实现方式中,模型训练器160包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其他实现方式中,模型训练器160包括一个或多个计算机可执行指令的集合,其存储在诸如RAM、硬盘或光学或磁性介质的有形计算机可读存储介质中。在一些实现方式中,模型训练器160可以跨多个不同的设备复制和/或分布。
网络180可以是任何类型的通信网络,诸如局域网(例如,内联网)、广域网(例如,因特网)或其一些组合,并且可以包括任何数量的有线或无线链路。通常,通过网络180的通信可以经由任何类型的有线和/或无线连接,使用各种通信协议(例如,TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如,HTML、XML和JSON)和/或保护方案(例如,VPN、HTTPS、SSL)来承载。
图1示出了可用于实现本发明的一个示例计算系统。本发明也可以使用其他计算系统实现。例如,在一些实现方式中,用户计算设备110可以包括模型训练器160和训练数据集162。在这样的实现方式中,模型120可以在用户计算设备110本地训练并使用。在一些这样的实现方式中,用户计算设备110可以实现模型训练器160,以基于特定于用户的数据来个性化模型120。
图1所示的示例计算系统100中的用户计算设备110、服务器计算系统130和训练计算系统150均可以通过如下所述的计算设备200来实现。图2示出了根据本发明一个实施例的计算设备200的示意图。
如图2所示,在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)、图形处理器(GPU)、神经网络处理器(NPU)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。
取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。在一些实施方式中,应用222可以布置为在操作系统上利用程序数据224进行操作。在一些实施方式中,一个或多个处理器204执行应用中的程序数据224来实现应用222的功能。程序数据224包括指令,在根据本发明的计算设备200中,程序数据224包含用于执行激酶抑制剂的选择性预测方法300和/或500的指令。
计算设备200还可以包括接口总线240。接口总线240实现了从各种接口设备(例如,输出设备242、外设接口244和通信设备246)经由总线/接口控制器230到基本配置202的通信。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、视频输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路(例如,通过网络180)的通信。
计算设备200还可以包括储存接口总线234。储存接口总线234实现了从储存设备232(例如,可移除储存器236和不可移除储存器238)经由总线/接口控制器230到基本配置202的通信。操作系统220、应用222以及程序数据224的至少一部分可以存储在可移除储存器236和/或不可移除储存器238上,并且在计算设备200上电或者要执行应用222时,经由储存接口总线234而加载到系统存储器206中,并由一个或者多个处理器204来执行。
在一些实现方式中,在利用计算设备200来实现服务器计算系统130和/或训练计算系统150时,计算设备200可以不包括输出设备242和外设接口244,以便让计算设备200专用于机器学习模型140的推理和训练。
应用222在操作系统220上执行,即操作系统220提供了各种对硬件设备(例如,储存设备232、输出设备242、外设接口244和通信设备)进行操作的接口,并同时提供了应用上下文管理的环境(例如,存储空间管理和分配、中断处理、进程管理等)。应用222利用操作系统220提供的接口和环境来控制计算设备200执行相应功能,如执行根据本发明的激酶抑制剂的选择性预测方法300。在一些实现方式中,一些应用222还提供了接口。这样另一些应用222可以调用这些接口来实现功能。
图3示出了根据本发明一个实施例的激酶抑制剂的选择性预测方法300的流程图。方法300在计算设备中执行,如在计算设备200中执行,以便根据训练好的活性预测模型来预测化合物的活性,进而计算化合物对各激酶的选择性。其中,活性预测模型适于基于小分子的分子特征和激酶的蛋白特征来预测小分子对该激酶靶点的活性值。以下将结合图4来说明活性预测模型的训练步骤:
第一步,采集多条活性数据,每条活性数据针对一个激酶靶点和小分子组合,包括但不限于小分子对该激酶靶点的活性值、激酶信息和小分子信息。
本发明从包括但不限于ChEMBL数据库及其KinaseSARfari子库和相关文献中搜集了数十万条公开的生物活性数据,经过清洗和去重后的数据涵盖409个激酶和近6万个小分子。一个激酶和一个小分子作为一个组合,组成一条活性数据,激酶信息包括激酶名称、编号和/或序列,激酶的蛋白序列可包括功能结构区序列和全长全序列。小分子信息包括小分子的名称、编号和/或简化分子输入线性规范表示(SMILES)序列,活性值包括但不限于酶活性值和细胞活性值等,可以用IC50(酶或细胞抑制一半时所需药物或者抑制剂的浓度)、Ki(抑制常数)、Kd(解离常数)、抑制率等表示,当然不限于此。
第二步,分别提取小分子的分子特征和激酶的蛋白特征,并将所提取的分子特征和蛋白特征拼接为训练样本特征。
根据本发明的一个实施例,还可以采用特征选择方法(特征工程)从初始的多个分子特征类型中选取M1个分子特征类型、以及从初始的多个激酶的蛋白特征类型选取M2个蛋白特征类型。此时,分子特征和蛋白特征的拼接为M1维的分子特征与M2维的蛋白特征的拼接。应当理解,这里的分子特征为小分子特征。
M1维的分子特征包括分子指纹和/或分子描述符,分子指纹包括2D指纹和/或3D指纹。是编码分子的一种方式,具体是提取分子的结构特征,然后哈希生成一系列比特向量。分子指纹有多种类型,多数使用2D分子图形信息,因此称为2D指纹,也有一些分子指纹能够存储3D分子信息,如药效团指纹。分子描述符是指分子的物理化学等属性的数字化表示,其包括物理化学性质、构成、拓扑、几何、电荷和热力学描述符、以及分子类型、原子类型(如碳原子类型、氧原子类型)和键类型(如单键类型、双键类型等)描述符中的至少一种。通常由特定的算法和指定的程序将分子内部化学信息转换成以数字表示的形式。
M2维的激酶蛋白特征包括但不限于基于氨基酸组成、物理、化学性质等的统计信息特征表示、基于NLP的特征表示、基于进化信息的特征表示、基于进化信息的特征表示、基于蛋白3D结构中提取的残基位点的特征表示、基于图网络结构描述的蛋白3D结构特征表示。通常由特定的算法和指定的程序将激酶蛋白的内部信息转换成以数字表示的形式。
特征选择方法可采用包括但不限于目前常用的方法,如采用f_regression方法进行特征选择,各自挑选500维的分子特征和500维的序列特征,合并后共1000维特征用于模型的训练。当然,M1和M2也可以根据需要选取其他数值,本发明对此不作限制。
f_regression特征选择时,首先计算每个特征与活性值的样本相关系数ri
之后计算回归值f=ri 2×(m-2)/(1-ri 2)。m为所有初始的所有分子特征类型或初始的所有序列特征类型。f值越大,说明i号特征与活性值y的相关性越大,根据每个特征与活性值的f值降序排列,选择前500个特征,其中分子特征与蛋白序列特征分别独立完成特征选择过程。
第三步,基于训练样本特征和对应的样本活性值,对活性预测模型进行训练,得到训练好的活性预测模型。其中,样本活性值也就是每条活性数据中的活性值,其作为样本标签,通过和预测的活性值计算损失函数后,对模型的超参数进行调整和再训练,得到训练好的模型。
另外,采集到的活性数据构成一个数据集,该数据集可按照按激酶分层抽样的策略切分为训练集和测试集。其中,训练集占90%,用于模型的超参优化;测试集占10%,用于模型评价及选择。模型的超参优化通过五折交叉验证实现,而五折交叉验证的划分同样采用分层抽样方式。分层抽样是以单个激酶为单位的,将每个分层标签对应的样本按比例划分。假设某个激酶对应有1000个抑制剂化合物的活性数据,则会有100个被分到测试集,900个被分到训练集。而如果有某个激酶只对应了9个抑制剂化合物的活性数据(其10%不足1个),则这9个样本全部放入训练集。
活性预测模型训练好之后,即可采用图3中的激酶抑制剂的选择性预测方法300来预测待测化合物对多个激酶的活性值,进而计算其对多个激酶的选择性。该方法可结合图4中的模型训练方法来进行理解。如图3所示,该方法始于步骤S310。
在步骤S310中,根据待测化合物的分子结构生成对应的分子特征。通常,计算设备接收用户在应用平台界面中输入或选取待测化合物,并计算对应的分子指纹和/或分子描述符等分子特征。
随后,在步骤S320中,将分子特征分别与多个激酶的蛋白特征进行拼接,得到多个待测样本特征。
这里,每个激酶都有一个蛋白特征,如有t个激酶,则有t个蛋白特征,将步骤S310中得到的分子特征分别与这t个蛋白特征拼接,得到t个待测样本特征。该t个激酶可以是所有激酶(如参与训练的409个激酶)的全部或一部分,本发明对此不作限制。
应当理解的是,待测样本中的分子特征类型是训练样本中的M1个分子特征类型。而M2维蛋白特征类型是固定的,每个激酶的蛋白特征也是固定的。因此,可以记录模型训练过程中所生成的激酶的蛋白特征,以直接拼接到待测样本中。
随后,在步骤S330中,采用活性预测模型分别对每个待测样本特征进行处理,得到待测化合物对每个激酶的活性值。
这里,活性预测模型的输入是分子特征与不同激酶的蛋白序列特征组合后的样本特征、输出为化合物对不同激酶的预测活性值。每个待测样本特征代表待测化合物与一个特定靶点的组合,将该组合输入到模型中,即可得到该化合物对该特定靶点的活性值。
活性预测模型可以根据需要设定为回归模型,如随机森林、支持向量机、贝叶斯回归、极端梯度提升决策树等。应当理解的是,存在多种能够预测活性值的分类模型和回归模型,本发明不受限于具体的形式,所有能够基于预测活性值的分类或回归模型均在本发明的保护范围之内。而且,模型的具体结构和参数,本领域技术人员可以根据需要自行设定,本发明对此不作限制。
活性预测模型是一种结合小分子和蛋白两方面信息用于预测生物活性的模型,在理想状态下,这种模型可以预测已有小分子在已有激酶上的活性,可以预测新的小分子在已有激酶上的活性,可以预测已有小分子在新的激酶上的活性,还可以预测新的小分子在新的靶点上的活性。因此,活性预测模型本身具有很强的扩展性,但为了有效保证模型预测的准确性和可靠性,而且,当待测样本和训练样本的中小分子和激酶蛋白越相似时,模型预测越准确且可靠性越高。
随后,在步骤S340中,根据所预测的活性值计算待测化合物对每个激酶靶点的选择性。本发明采用了三种选择性的计算方式,根据传入的参数不同模型会自动计算对应的选择性值。
根据一个实施例,选择性包括绝对选择性S1,代表在一个化合物对多个激酶的活性测定中,活性值小于某个阈值的激酶数量占总数的比例,其计算公式为:S1=N1/Ntot。其中,N1是化合物对Ntot个激酶靶点的活性测定中、活性值小于第一阈值的激酶数量。其中,第一阈值可以为3uM,当然不限于此。
根据另一个实施例,选择性包括第一相对选择性S2,代表化合物对除靶标激酶外的其他激酶的平均活性与对靶标激酶活性的比值,其计算公式为:S2=Aoff-targets/Aprimary-target。其中,Aprimary-target化合物对靶标激酶的活性值,Aoff-targets是化合物对除靶标激酶之外的其他激酶的平均活性。
根据又一个实施例,选择性包括第二相对选择性S3,代表活性值在靶标激酶活性值预定倍数以下的脱靶激酶的数量占所有脱靶激酶数量的比例,其计算公式为:S3=N2/Noff-targets。其中,脱靶激酶(off-targets)即为除靶点激酶(primary target)之外的其与激酶,Noff-targets是化合物的脱靶激酶的总数,N2是活性值与靶标激酶的活性值之比小于第二阈值的脱靶激酶数量。
另外,本发明还可以对待测化合物对每个激酶靶点的选择性进行降序排序,并选取选择性最高的一个或多个激酶靶点作为待测化合物的目标靶点,以便对该化合物和目标靶点进行后续研究。
需要说明的是,激酶大家族下包含了数个子家族,多个激酶归属于多个激酶家族。该激酶家族包括酪氨酸激酶家族(Tyrosine kinase family,TK)、类酪氨酸激酶家族(Tyrosine kinase like family,TKL)、丝氨酸/苏氨酸激酶家族(Protein A,G and Ckinase family,AGC)、钙/钙调素依赖性激酶家族(Calcium/Calmodulin-dependentkinase family,CAMK)、细胞周期蛋白依赖性激酶家族(Cydin-dependent kinase family,CMGC)、酪蛋白激酶1家族(Casein kinase 1family,CK1)、无菌丝氨酸/苏氨酸激酶家族(Sterile serine/threomine kinase family,STE)、鸟苷酸环化酶受体家族(Receptorguanylate cyclase family,RGC)、非典型家族(Atypical)、其他家族(Other)中的至少一种。
考虑到当活性预测模型的训练数据量太多时可能出现互为噪音互相影响的情况,并且激酶在同一子家族内的结构和序列相似度更高。因此,本发明不仅开发了基于全数据的全量(总)模型,还对已收集到数据的409个激酶按其所属子家族进行了子数据集切分。每个子数据集同样经过上述切分策略和特征工程方法后用于模型的训练,构建不同子家族所对应的活性预测子模型,以牺牲应用域为代价,从而提高模型在特定激酶子集上的表现。在通用场景下使用全量(总)模型来行使完整的功能,而在在目标靶点数量较少的特定应场景下则可以使用对应的子模型来代替。
这样,计算设备中就包括了每个激酶家族所对应的活性预测子模型,分别用于预测小分子对特定激酶家族内的激酶的活性值。而且,每个活性预测子模型均经过特征选择后确定有对应的分子特征类型和激酶的蛋白特征类型。特征选择方法参考活性预测模型中的f_regression方法,从每个激酶家族初始的多个分子特征类型中选取M1个分子特征类型、以及从每个激酶家族初始的多个蛋白特征类型选取M2个蛋白特征类型。这样,每个激酶家族,也就是每个活性预测子模型,都有对应的M1个分子特征类型和M2个蛋白特征类型;不同激酶家族之间的分子特征类型和蛋白特征类型可能相同,也可能不相同。相对应,在模型的实际应用过程中,需要输入到哪个活性预测子模型,则会对应生成该活性预测子模型所对应的M1维分子特征和M2维蛋白特征,从而实现激酶家族-活性预测子模型-特征类型的一一对应关系。
可选地,方法300还可以包括活性预测全量(总)模型的增量训练步骤,具体包括:
第一步,另外采集多条增量数据,每条增量数据针对一个属于激酶和小分子组合,包括但不限于小分子对该激酶的活性值、激酶信息和小分子信息。这里,从包括但不限于ChEMBL数据库中获取激酶与其他小分子的组合活性数据,每条增量数据作为一条样本数据。
第二步,分别对应提取小分子和激酶在活性预测全量(总)模型中的小分子特征和激酶的蛋白特征,并将所提取的小分子特征和蛋白特征拼接为增量样本特征。
这里,基于所提取的每条增量数据,根据活性预测全量(总)模型的小分子特征和蛋白特征,计算得到对应的增量样本特征。此外,还可以记录激酶在活性预测全量(总)模型的蛋白序列特征,以便后续在全量模型预测时直接引用来拼接待测样本特征。
第三步,基于增量样本特征和对应的样本活性值,在训练好的活性预测全量(总)模型的基础上进行再训练,得到训练好的活性预测全量(总)模型。
可选地,方法300还可以包括各激酶家族的活性预测子模型的训练步骤,具体包括:
第一步,另外采集激酶家族的多条增量数据,每条增量数据针对一个属于该激酶家族的激酶和小分子组合,包括但不限于小分子对该激酶的活性值、激酶靶点信息和小分子信息。这里,从包括但不限于ChEMBL数据库中获取激酶靶点与其他小分子的组合活性数据,每条增量数据作为一条样本数据,划分到不同的激酶靶点家族的训练集中。此时激酶的种类可能不变,而加入了一些其他活性小分子。
第二步,分别对应提取小分子和激酶在该活性预测子模型中的小分子特征和激酶的蛋白特征,并将所提取的小分子特征和蛋白特征拼接为增量样本特征。
这里,基于所提取的每条增量数据,根据该增量数据中激酶所属的激酶家族,以及该激酶家族所对应的活性预测子模型的小分子特征和蛋白特征,计算得到对应的增量样本特征。此外,还可以记录激酶在每个活性预测子模型的序列特征,以便后续在子模型预测时直接引用来拼接待测样本特征。
第三步,基于增量样本特征和对应的样本活性值,在训练好的活性预测模型的基础上进行再训练,得到训练好的活性预测子模型。
总体来说,增量训练后提升的是局部特征,即活性预测子模型的能力;而将增量数据合并到原数据中合并训练的话则是从整体上提升活性预测模型的能力,根据需求不同可以选择不同的方案来进行增量训练。
各激酶家族的活性预测子模型训练好之后,就可以采用该多个活性预测子模型来预测待测化合物的选择性的步骤,也就是图5中的根据本发明另一个实施例的激酶抑制剂的选择性预测方法500。方法500适于在计算设备中执行,如在计算设备200中执行。如图5所示,方法500始于步骤S510中。
在步骤S510中,已知待测化合物的分子结构,基于每个活性预测子模型的分子特征类型,分别对应生成待测化合物针对不同激酶家族的分子特征。已知每个激酶家族所需的分子特征类型,即可得到待测化合物在每个激酶家族中的分子特征。
随后,在步骤S520中,获取每个激酶在所属的活性预测子模型中的蛋白特征,并分别与对应的分子特征进行拼接,得到多个针对不同激酶家族的待测样本特征。
激酶在所属的活性预测子模型中的序列特征可采用模型训练时所记录的序列特征。结合步骤S510中得到的待测化合物在不同激酶家族的小分子特征,可以将属于同一激酶家族的分子特征和激酶的蛋白特征进行拼接,得到多个待测样本特征。
随后,在步骤S530中,采用每个待测样本特征所对应的活性预测子模型来对该待测样本特征进行处理,得到待测化合物对每个激酶的活性值。
这里,待测样本特征是基于哪个活性预测子模型生成的,则输入到对应的该子模型中,得到该待测化合物对待测样本特征中所包含的激酶的活性值。
之后,就可以根据待测化合物对各激酶的活性值来计算对应的选择性,如绝对选择性和相对选择性,计算公式在基于图3中的描述中已经公开,这里不再展开赘述。而且,将一个化合物对所有激酶的相对选择性都计算出来后,还可以找出该化合物选择性最高的一个或几个激酶,利用这种方法对化合物库进行反向找靶的筛选等。
根据本发明的技术方案,提供了一个集活性预测与选择性计算为一体,同时支持增量训练、且训练数据量空前的激酶选择性模型。作为一个多靶点模型,其可以同时预测化合物在多个激酶靶点上的活性,并利用得到的活性值计算该化合物的选择性。而且,在模型首次训练好之后,还可以导入新数据继续接着训练,让模型向新增数据的方向拟合残差,从而提高模型在新数据上的预测能力。
本发明所构建的模型可以预测一个化合物对其中某个或多个激酶的抑制活性,尤其是可用新的特定激酶的数据对模型进行增量训练,提高模型在特定某个或几个激酶上的预测能力,行使构效关系模型的功能。进一步地,为了拓宽模型应用域,本发明增加训练样本量、整合尽可能多的公开数据集。
A9、如A1-A8中任一项所述的方法,其中,所述选择性包括相对选择性S2,其计算公式为:
S2=Aoff-targets/Aprimary-target
其中,Aprimary-target化合物对靶标激酶的活性值,Aoff-targets是化合物对除靶标激酶之外的其他激酶的平均活性。
A10、如A1-A9中任一项所述的方法,其中,所述选择性包括相对选择性S3,其计算公式为:
S3=N2/Noff-targets
其中,Noff-targets是化合物的脱靶激酶的总数,N2是活性值与靶标激酶的活性值之比小于第二阈值的脱靶激酶数量。
A11、如A1-A10中任一项所述的方法,还包括步骤:计算待测样本特征与对应模型的训练样本特征之间的距离,并将数值最小的多个距离值取平均,作为待测样本与对应模型的训练集的相似度。
A12、如A1-A11中任一项所述的方法,还包括步骤:将采集到的多条活性数据划分为训练集和测试集,并计算测试集中的测试样本特征与对应模型的训练样本特征之间的距离,根据测试集中计算得到的所有样本距离计算参照值,并根据该参照值对所述相似度进行评估。
A13、如A1-A12中任一项所述的方法,还包括步骤:对所述待测化合物对每个激酶靶点的选择性进行降序排序,并选取选择性最高的一个或多个激酶靶点作为所述待测化合物的目标靶点。
A14、如A2-A13中任一项所述的方法,其中,所述活性值包括酶活性值和/或细胞活性值。
A15、如A2-A14中任一项所述的方法,其中,所述小分子信息包括小分子的名称/编码、简化分子输入线性规范表示,所述激酶信息包括激酶的名称/编号、功能结构区序列和全长全序列。
A16、如A1-A15中任一项所述的方法,其中,M1维的分子特征包括分子指纹和/或分子描述符,所述分子指纹包括2D指纹和/或3D指纹,所述分子描述符包括物理化学性质、构成、拓扑、几何、电荷和热力学描述符、以及分子类型、原子类型和键类型中的至少一种。
A17.如A1-A16中任一项所述的方法,其中,M2维的激酶的蛋白特征包括以下至少一种:基于氨基酸组成、物理、化学性质等的统计信息特征表示、基于NLP的特征表示、基于进化信息的特征表示、基于蛋白3D结构中提取的残基位点的特征表示、基于图网络结构描述的蛋白3D结构特征表示。
A18、如A1-A17中任一项所述的方法,其中,所述激酶家族包括酪氨酸激酶家族、类酪氨酸激酶家族、丝氨酸/苏氨酸激酶家族、钙/钙调素依赖性激酶家族、细胞周期蛋白依赖性激酶家族、酪蛋白激酶1家族、无菌丝氨酸/苏氨酸激酶家族、鸟苷酸环化酶受体家族中的至少一种。
A19、如A9所述的方法,其中,所述活性预测模型和活性预测子模型均为极端梯度提升决策树模型,M1=M2=500,第一阈值为3uM,第二阈值为10。
这里讨论的技术参考处理器核、处理器、服务器、数据库、软件应用和其他基于计算机的系统、以及所采取的动作和发送到这些系统以及从这些系统发送的信息。基于计算机的系统的固有灵活性允许组件之间和之中的任务和功能性的各种可能的配置、组合以及划分。例如,这里讨论的处理可以使用单个设备或组件或组合工作的多个设备或组件来实现。数据库和应用可以在单个系统上实现或跨多个系统分布。分布式组件可以顺序或并行操作。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种激酶抑制剂的选择性预测方法,适于在计算设备中执行,所述计算设备中包括活性预测模型,所述活性预测模型适于基于小分子的分子特征和激酶的蛋白特征来预测小分子对该激酶的活性值,所述方法包括步骤:
根据待测化合物的分子结构生成对应的分子特征;
将所述分子特征分别与多个激酶的蛋白特征进行拼接,得到多个待测样本特征;
采用所述活性预测模型分别对每个待测样本特征进行处理,得到所述待测化合物对每个激酶的活性值;以及
根据所预测的活性值计算所述待测化合物对每个激酶的选择性。
2.如权利要求1所述的方法,还包括所述活性预测模型的训练步骤:
采集多条活性数据,每条活性数据针对一个激酶和小分子组合,包括激酶信息、小分子信息、以及小分子对该激酶的活性值;
分别提取小分子的分子特征和激酶的蛋白特征,并将所提取的分子特征和激酶蛋白特征拼接为训练样本特征;以及
基于所述训练样本特征和对应的样本活性值,对所述活性预测模型进行训练,得到训练好的活性预测模型。
3.如权利要求2所述的方法,还包括步骤:
采用特征选择方法从初始的多个小分子的分子特征类型中选取M1个分子特征类型、以及从初始的多个激酶蛋白特征类型选取M2个蛋白特征类型;
此时,所述分子特征和所述序列特征的拼接为M1维的分子特征与M2维的蛋白特征的拼接。
4.如权利要求1-3中任一项所述的方法,其中,多个激酶归属于多个激酶家族,所述计算设备中还包括每个激酶家族所对应的活性预测子模型,分别用于预测小分子对特定激酶家族内的激酶的活性值,且每个活性预测子模型均经过特征选择后确定有对应的分子特征类型和蛋白特征类型。
5.如权利要求4所述的方法,还包括步骤:
基于每个活性预测子模型的分子特征类型,分别对应计算所述待测化合物针对不同激酶家族的分子特征;
获取每个激酶在所属的活性预测子模型中的蛋白特征,并分别与对应的分子特征进行拼接,得到多个针对不同激酶家族的待测样本特征;以及
采用每个待测样本特征所对应的活性预测子模型来对该待测样本特征进行处理,得到所述待测化合物对每个激酶的活性值。
6.如权利要求1所述的方法,还包括所述活性预测模型的增量训练步骤:
另外采集多条增量数据,每条增量数据针对一个激酶和小分子组合,包括小分子对该激酶靶点的活性值、激酶信息和小分子信息;
分别对应提取小分子和激酶在该活性预测模型中的分子特征和蛋白特征,并将所提取的小分子特征和蛋白特征拼接为增量样本特征;以及
基于所述增量样本特征和对应的样本活性值,在所述训练好的活性预测模型的基础上进行再训练,得到训练好的活性预测模型。
7.如权利要求4所述的方法,还包括所述激酶家族的活性预测子模型的训练步骤:
另外采集所述激酶家族的多条增量数据,每条增量数据针对一个属于该激酶家族的激酶和小分子组合,包括激酶靶点信息、小分子信息、以及小分子对该激酶的活性值;
分别对应提取小分子和激酶在该活性预测子模型中的分子特征和激酶蛋白特征,并将所提取的分子特征和蛋白特征拼接为增量样本特征;以及
基于所述增量样本特征和对应的样本活性值,在所述训练好的活性预测模型的基础上进行再训练,得到训练好的活性预测子模型。
8.如权利要求1-7中任一项所述的方法,其中,所述选择性包括绝对选择性S1,其计算公式为:
S1=N1/Ntot
其中,N1是化合物对Ntot个激酶蛋白的活性测定中、活性值小于第一阈值的激酶数量。
9.一种计算设备,包括:
存储器;
一个或多个处理器;
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-8所述方法中的任一方法的指令。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010474297.0A CN111627493A (zh) | 2020-05-29 | 2020-05-29 | 一种激酶抑制剂的选择性预测方法和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010474297.0A CN111627493A (zh) | 2020-05-29 | 2020-05-29 | 一种激酶抑制剂的选择性预测方法和计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111627493A true CN111627493A (zh) | 2020-09-04 |
Family
ID=72260288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010474297.0A Pending CN111627493A (zh) | 2020-05-29 | 2020-05-29 | 一种激酶抑制剂的选择性预测方法和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627493A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113140266A (zh) * | 2021-05-20 | 2021-07-20 | 东北农业大学 | 一种用于降尿酸的黄嘌呤氧化酶抑制剂的筛选方法 |
CN114023396A (zh) * | 2022-01-05 | 2022-02-08 | 北京晶泰科技有限公司 | 蛋白激酶的抑制剂预测方法、模型构建方法及其装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887541A (zh) * | 2019-02-15 | 2019-06-14 | 张海平 | 一种靶点蛋白质与小分子结合预测方法及系统 |
CN110428864A (zh) * | 2019-07-17 | 2019-11-08 | 大连大学 | 用于构建蛋白质和小分子的亲和力预测模型的方法 |
CN110689965A (zh) * | 2019-10-10 | 2020-01-14 | 电子科技大学 | 一种基于深度学习的药物靶点亲和力预测方法 |
CN110767266A (zh) * | 2019-11-04 | 2020-02-07 | 山东省计算中心(国家超级计算济南中心) | 基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法 |
CN110910964A (zh) * | 2019-11-08 | 2020-03-24 | 深圳先进技术研究院 | 一种分子间的结合活性预测方法及装置 |
-
2020
- 2020-05-29 CN CN202010474297.0A patent/CN111627493A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887541A (zh) * | 2019-02-15 | 2019-06-14 | 张海平 | 一种靶点蛋白质与小分子结合预测方法及系统 |
CN110428864A (zh) * | 2019-07-17 | 2019-11-08 | 大连大学 | 用于构建蛋白质和小分子的亲和力预测模型的方法 |
CN110689965A (zh) * | 2019-10-10 | 2020-01-14 | 电子科技大学 | 一种基于深度学习的药物靶点亲和力预测方法 |
CN110767266A (zh) * | 2019-11-04 | 2020-02-07 | 山东省计算中心(国家超级计算济南中心) | 基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法 |
CN110910964A (zh) * | 2019-11-08 | 2020-03-24 | 深圳先进技术研究院 | 一种分子间的结合活性预测方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113140266A (zh) * | 2021-05-20 | 2021-07-20 | 东北农业大学 | 一种用于降尿酸的黄嘌呤氧化酶抑制剂的筛选方法 |
CN114023396A (zh) * | 2022-01-05 | 2022-02-08 | 北京晶泰科技有限公司 | 蛋白激酶的抑制剂预测方法、模型构建方法及其装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Franks et al. | A machine learning classifier for assigning individual patients with systemic sclerosis to intrinsic molecular subsets | |
JP6253644B2 (ja) | 統合バイアス補正およびクラス予測を用いてバイオマーカシグネチャを生成するためのシステムおよび方法 | |
US11101038B2 (en) | Systems and methods for response prediction to chemotherapy in high grade bladder cancer | |
Yuan et al. | Binding site detection and druggability prediction of protein targets for structure-based drug design | |
CA2877430C (en) | Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques | |
Zhan et al. | A fast small-sample kernel independence test for microbiome community-level association analysis | |
Oh et al. | PathCNN: interpretable convolutional neural networks for survival prediction and pathway analysis applied to glioblastoma | |
US20180039732A1 (en) | Dasatinib response prediction models and methods therefor | |
Li et al. | Adapt-Kcr: a novel deep learning framework for accurate prediction of lysine crotonylation sites based on learning embedding features and attention architecture | |
CN111627493A (zh) | 一种激酶抑制剂的选择性预测方法和计算设备 | |
US20230402130A1 (en) | Method, device, and computer program for predicting interaction between compound and protein | |
Carbonell et al. | Hepatotoxicity prediction by systems biology modeling of disturbed metabolic pathways using gene expression data | |
Stork et al. | Computational prediction of frequent hitters in target-based and cell-based assays | |
KR101067352B1 (ko) | 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체 | |
Liang et al. | Rm-LR: a long-range-based deep learning model for predicting multiple types of RNA modifications | |
Samal et al. | Opportunities and challenges in interpretable deep learning for drug sensitivity prediction of cancer cells | |
WO2008007630A1 (fr) | Méthode et appareil de recherche de protéine | |
Ramachandran et al. | Deep learning for better variant calling for cancer diagnosis and treatment | |
Davis et al. | Quantifying Overfitting Potential in Drug Binding Datasets | |
Giard et al. | Regression applied to protein binding site prediction and comparison with classification | |
Alexe et al. | A robust meta-classification strategy for cancer diagnosis from gene expression data | |
Hao | Biologically interpretable, integrative deep learning for cancer survival analysis | |
US20230063188A1 (en) | Method, apparatus, and computer program for predicting interaction of compound and protein | |
Zhang et al. | Data-driven prediction of cancer cell fates with a nonlinear model of signaling pathways | |
Sholehrasa | Integrating Protein Sequence and Expression Level to Analysis Molecular Characterization of Breast Cancer Subtypes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Unit 706, 7th floor, block AB, Dongsheng building, 8 Zhongguancun East Road, Haidian District, Beijing 100083 Applicant after: Beijing Jingtai Technology Co.,Ltd. Address before: Room 1500-1, 15 / F, 1 Zhongguancun Street, Haidian District, Beijing Applicant before: BEIJING JINGPAI TECHNOLOGY Co.,Ltd. |