CN113539366A - 一种用于预测药物靶标的信息处理方法及装置 - Google Patents
一种用于预测药物靶标的信息处理方法及装置 Download PDFInfo
- Publication number
- CN113539366A CN113539366A CN202010309556.4A CN202010309556A CN113539366A CN 113539366 A CN113539366 A CN 113539366A CN 202010309556 A CN202010309556 A CN 202010309556A CN 113539366 A CN113539366 A CN 113539366A
- Authority
- CN
- China
- Prior art keywords
- compound
- perturbation
- gene
- spectrum
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003596 drug target Substances 0.000 title claims abstract description 33
- 230000010365 information processing Effects 0.000 title claims abstract description 18
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 150000001875 compounds Chemical class 0.000 claims abstract description 144
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 131
- 238000001228 spectrum Methods 0.000 claims abstract description 105
- 238000000034 method Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 68
- 238000000605 extraction Methods 0.000 claims description 21
- 230000003993 interaction Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000003197 gene knockdown Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 6
- 210000004027 cell Anatomy 0.000 description 16
- 230000014509 gene expression Effects 0.000 description 15
- 239000011159 matrix material Substances 0.000 description 10
- 239000003814 drug Substances 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000010835 comparative analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000009274 differential gene expression Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 206010059866 Drug resistance Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002687 intercalation Effects 0.000 description 1
- 238000009830 intercalation Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000010534 mechanism of action Effects 0.000 description 1
- 230000037353 metabolic pathway Effects 0.000 description 1
- 239000013642 negative control Substances 0.000 description 1
- 239000013641 positive control Substances 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Chemical & Material Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Epidemiology (AREA)
- Medicinal Chemistry (AREA)
- Public Health (AREA)
- Pharmacology & Pharmacy (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Crystallography & Structural Chemistry (AREA)
- Toxicology (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请公开了一种用于预测药物靶标的信息处理方法及装置,用以提升药物靶标预测的准确性。所述方法包括,获取化合物对应的化合物微扰谱;获取所述化合物所作用的目标基因对应的基因微扰谱;确定所述化合物微扰谱和所述基因微扰谱的相关程度;根据所述相关程度和预设的实验条件数据,对所述化合物能够对所述目标基因产生作用的概率进行预测。采用本申请所提供的方案,在确定化合物是否能够对目标基因产生作用的判断过程中,考虑了化合物微扰谱和基因微扰谱之间的相关性,从而提高了药物靶标预测的准确性。
Description
技术领域
本申请涉及人工智能领域,特别涉及一种用于预测药物靶标的信息处理方法及装置。
背景技术
药物作用靶标的计算机预测模型有助于加深我们对药物分子作用机理,代谢通路以及不良作用和耐药性的理解。近年来,多组学数据的快速增加,以及人工智能技术的快速发展,为药物靶标推理预测的计算机技术开发奠定了基础。
目前,使用基因表达谱或转录组数据进行药物靶标预测的技术主要包括:比较分析方法,基于网络的分析方法和机器学习方法。
其中,比较分析方法基于特征差异表达基因的相似性进行预测,例如Broadinstitute开发的CMap。而基于网络的方法从系统生物学的角度入手,将基因表达谱与细胞网络进行整合预测药物靶标。例如,Noa等人开发的ProTINA方法通过建立细胞类型特异性的蛋白质-基因调控网络,利用动态模型从差异基因表达谱中推断药物靶标,显示出较好的预测结果。另外,不同的机器学习算法也已被用于挖掘转录谱数据进行药物靶标预测。例如,Pabon等人利用随机森林(RF)模型通过分析药物诱导和基因敲降的转录谱之间的相关性来预测药物靶标。
然而,现有技术中所采用的上述方法仍然存在弊端,例如,不能挖掘化合物微扰谱和基因微扰谱之间的相关性,在药物靶标预测方面的准确性仍有很大的提升空间,因此,如何提出一种用于预测药物靶标的信息处理方法,以挖掘化合物微扰谱和基因微扰谱之间的相关性,提升药物靶标预测的准确性,是一亟待解决的技术问题。
发明内容
本申请实施例的目的在于提供一种用于预测药物靶标的信息处理方法,用以提升药物靶标预测的准确性。
为了解决上述技术问题,本申请的实施例采用了如下技术方案:一种用于预测药物靶标的信息处理方法,包括:
获取化合物对应的化合物微扰谱;
获取所述化合物所作用的目标基因对应的基因微扰谱;
确定所述化合物微扰谱和所述基因微扰谱的相关程度;
根据所述相关程度和预设的实验条件数据,对所述化合物能够对所述目标基因产生作用的概率进行预测。
本申请的有益效果在于:能够确定化合物微扰谱和所述基因微扰谱的相关程度,然后基于相关程度和实验条件数据对化合物能够对所述目标基因产生作用的概率进行预测,从而在确定化合物是否能够对目标基因产生作用的判断过程中,考虑了化合物微扰谱和基因微扰谱之间的相关性,从而提高了药物靶标预测的准确性。
在一个实施例中,所述确定所述化合物微扰谱和所述基因微扰谱的相关程度,包括:
基于第一预设算法计算所述化合物微扰谱和所述基因微扰谱的相关程度。
在一个实施例中,所述相关程度为所述化合物微扰谱和所述基因微扰谱的皮尔逊相关系数时,根据所述相关程度和预设的实验条件数据,对所述化合物能够对所述目标基因产生作用的概率进行预测,包括:
获取预设的实验条件数据;
将所述皮尔逊相关系数及所述实验条件数据代入第二预设算法中,以得所述化合物和所述目标基因相互作用概率的评分。
在一个实施例中,所述确定所述化合物微扰谱和所述基因微扰谱的相关程度,包括:
将所述化合物微扰谱和所述基因微扰谱输入至特征提取网络中,以对所述化合物微扰谱和所述基因微扰谱进行特征提取;
获取所述特征提取网络输出的所述化合物微扰谱对应的第一向量和所述基因微扰谱对应的第二向量;
将所述第一向量和所述第二向量输入至计算模块中;
获取所述计算模块输出的所述第一向量和第二向量的皮尔逊相关系数。
本实施例的有益效果在于:通过神经元网络计算化合物微扰谱和基因微扰谱对应的特征向量,即第一向量和第二向量,然后可以通过计算模块得到第一向量和第二向量的皮尔逊相关系数,该第一向量和第二向量的皮尔逊相关系数即化合物微扰谱和基因微扰谱的皮尔逊相关系数,用于表征化合物微扰谱和基因微扰谱的相关程度,因此,本实施例可以通过神经元网络得到化合物微扰谱和基因微扰谱的相关程度,简化了二者相关程度的确定过程。
在一个实施例中,所述根据所述相关程度和预设的实验条件数据,对所述化合物能够对所述目标基因产生作用的概率进行预测,包括:
获取预设的实验条件数据;
将所述皮尔逊相关系数及所述实验条件数据输入到分类模块中;
获取所述分类模块输出的所述化合物和所述目标基因相互作用概率的评分。
在一个实施例中,所述预设的实验条件数据,包括以下至少一种数据:
化合物微扰时长、化合物剂量、基因敲降时长和细胞类型。
在一个实施例中,当存在多种类型的目标基因时,所述方法还包括:
分别获取各类目标基因与所述化合物相互作用概率的评分;
将所述各类目标基因分别对应的评分进行排序;
确定最高评分值对应的目标基因与所述化合物存在相互作用。
本申请还提供一种用于预测药物靶标的信息处理装置,包括:
第一获取模块,用于获取化合物对应的化合物微扰谱;
第二获取模块,用于获取所述化合物所作用的目标基因对应的基因微扰谱;
确定模块,用于确定所述化合物微扰谱和所述基因微扰谱的相关程度;
预测模块,用于根据所述相关程度和预设的实验条件数据,对所述化合物能够对所述目标基因产生作用的概率进行预测。
在一个实施例中,所述确定模块,包括:
第一输入子模块,用于将所述化合物微扰谱和所述基因微扰谱输入至特征提取网络中,以对所述化合物微扰谱和所述基因微扰谱进行特征提取;
第一获取子模块,用于获取所述特征提取网络输出的所述化合物微扰谱对应的第一向量和所述基因微扰谱对应的第二向量;
第二输入子模块,用于将所述第一向量和所述第二向量输入至计算模块中;
第二获取子模块,用于获取所述计算模块输出的所述第一向量和第二向量的皮尔逊相关系数。
在一个实施例中,所述预测模块,包括:
第三获取子模块,用于获取预设的实验条件数据;
第三输入子模块,用于将所述皮尔逊相关系数及所述实验条件数据输入到分类模块中;
第四获取子模块,用于获取所述分类模块输出的所述化合物和所述目标基因相互作用概率的评分。
附图说明
图1为本申请一实施例的一种用于预测药物靶标的信息处理方法的流程图;
图2为本申请另一实施例的一种用于预测药物靶标的信息处理方法的流程图;
图3为本申请又一实施例的一种用于预测药物靶标的信息处理方法的流程图;
图4为本申请一实施例的一种用于预测药物靶标的信息处理装置的框图;
图5为本申请另一实施例的一种用于预测药物靶标的信息处理装置的框图,示出本实施例的确定模块的主要架构;
图6为本申请又一实施例的一种用于预测药物靶标的信息处理装置的框图,示出本实施例的预测模块的主要架构。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
图1为本申请实施例的一种用于预测药物靶标的信息处理方法的流程图,该方法包括以下步骤S11-S14:
在步骤S11中,获取化合物对应的化合物微扰谱;
在步骤S12中,获取化合物所作用的目标基因对应的基因微扰谱;
在步骤S13中,确定化合物微扰谱和基因微扰谱的相关程度;
在步骤S14中,根据相关程度和预设的实验条件数据,对化合物能够对目标基因产生作用的概率进行预测。
本实施例中,获取化合物对应的化合物微扰谱,其中,该化合物微扰谱用于表达细胞加药以后的基因表达谱与细胞正常状态下的基因表达谱之间的差异。本实施例中,化合物是指要预测靶标的药物中的化合物。
进一步地,化合物微扰谱通过如下方式确定:
在将选定的小分子化合物与特定细胞共孵育,设置阳性和阴性对照组,利用测序技术分析差异表达基因,获得化合物微扰谱。此外,化合物微扰谱也可通过检索现有的数据库获得。从化合物微扰差异基因表达谱提取978个标志性特征差异基因,并组成978维特征向量,该978维特征向量表征化合物微扰谱。
在获取化合物微扰谱之后,获取化合物所作用的目标基因对应的基因微扰谱,其中,该基因微扰谱用于表征细胞基因敲降以后的表达谱与细胞正常状态下的表达谱之间的差异。确定化合物微扰谱和基因微扰谱的相关程度,然后根据相关程度和预设的实验条件数据,对化合物能够对目标基因产生作用的概率进行预测。需要说明的是,化合物,多数情况下是和基因中的蛋白质发生物理相关作用,因此,化合物对目标基因产生作用包括对目标基因编码的蛋白质产生作用。
本申请的有益效果在于:能够确定化合物微扰谱和基因微扰谱的相关程度,然后基于相关程度和实验条件数据对化合物能够对目标基因产生作用的概率进行预测,从而在确定化合物是否能够对目标基因产生作用的判断过程中,考虑了化合物微扰谱和基因微扰谱之间的相关性,从而提高了药物靶标预测的准确性。
在一个实施例中,上述步骤S13可被实施为如下步骤:
基于第一预设算法计算化合物微扰谱和基因微扰谱的相关程度。
本实施例中,上述化合物微扰谱的相关程度可以基于算法实现,具体的,该算法可以输入到一应用程序中实现,该算法具体如下:
首先,获取化合物微扰谱和基因微扰谱,在具体实践中,化合物微扰谱特征由978维向量来表示,记为C,C=(c1,c2,c3…c978),对于任意i(i=1-978),ci表示化合物微扰后基因i的差异表达值,即细胞加药以后的基因表达谱与细胞正常状态下的基因表达谱之间的差异。
基因微扰谱特征(978维向量),记为G,G=(g1,g2,g3…g978),对于任意i(i=1-978),gi表示基因敲降后基因i的差异表达值,即细胞基因敲降以后的表达谱与细胞正常状态下的表达谱之间的差异。
实验条件数据(4维向量),E=(t1,d,t2,l),t1表示化合物微扰时长,d表示化合物剂量,t2表示基因敲降时长,l表示细胞系种类。
蛋白-蛋白相互作用网络(PPI网络),用连接矩阵表示,记为符号A。
为了方便说明,在不失一般性的基础上,只研究2个基因的差异表达,那么C=(c1,c2),G=(g1,g2)。
由正则化的拉普拉斯矩阵Lsys=D-1/2LD-1/2可得:
对该矩阵作谱分解:
Lsys=UλUT
由于(f*h)graph=UωUTf
当f=c时,
定义一个relu函数:
显然,l1relu=relu(l1)=(0.03,0.00)
为了简化,并不生成200维图嵌入,只生成一个2维的化合物微扰图嵌入,设为E1。
化合物微扰图嵌入:
同理可得:基因敲降图嵌入E2=[0.03 0.03 0.03]
显然,皮尔逊R2=r*r=1。
在一个实施例中,相关程度为化合物微扰谱和基因微扰谱的皮尔逊相关系数时,上述步骤S14可被实施为如下步骤A1-A2:
在步骤A1中,获取预设的实验条件数据;
在步骤A2中,将皮尔逊相关系数及实验条件数据代入第二预设算法中,以得化合物和目标基因相互作用概率的评分。
本实施例中,获取预设的实验条件数据E=(t1,d,t2,l),根据具体实验情况,获得具体的实验条件数据t1=24,d=10,t2=96,l=1。将皮尔逊R2跟四维向量实验条件数据E拼接起来,得到五维向量,记为v5。
显然v5=(24,10,96,1,1)。
oexp=eO=(e132,e132)
sum=e132+e132
output是一个二维向量,取第1维,作为CPI score,
即:CPI score=output[1]=0.5。
即将皮尔逊相关系数及实验条件数据代入第二预设算法中,得到化合物和目标基因相互作用概率的评分为0.5。
在一个实施例中,上述步骤S13可被实施为如下步骤B1-B4:
在步骤B1中,将化合物微扰谱和基因微扰谱输入至特征提取网络中,以对化合物微扰谱和基因微扰谱进行特征提取;
在步骤B2中,获取特征提取网络输出的化合物微扰谱对应的第一向量和基因微扰谱对应的第二向量;
在步骤B3中,将第一向量和第二向量输入至计算模块中;
在步骤B4中,获取计算模块输出的第一向量和第二向量的皮尔逊相关系数。
本实施例中,首先获得化合物微扰谱(也可以称为化合物微扰转录谱特征,在具体实践过程中,由978维向量构成)和基因微扰谱,(也可以称为基因敲降转录谱特征,在具体实践过程中,由978维向量构成),然后将化合物微扰谱和基因微扰谱经过特征提取网络。本实施例中,特征提取网络是基于谱的图神经网络(GCN)。通过构建两个平行的GCN分别从化合物微扰谱和基因微扰谱进行特征提取,即将关键特征提取出来,实现降维,在特征提取之后,特征提取网络输出化合物微扰谱对应的第一向量和基因微扰谱对应的第二向量;该第一向量和第二向量是由各自对应的978维特征向量降维后得到的,因此,该第一向量和第二向量的维数小于978维,将第一向量和第二向量输入至计算模块中;获取计算模块输出的第一向量和第二向量的皮尔逊相关系数。
本实施例的有益效果在于:通过神经元网络计算化合物微扰谱和基因微扰谱对应的特征向量,即第一向量和第二向量,然后可以通过计算模块得到第一向量和第二向量的皮尔逊相关系数,该第一向量和第二向量的皮尔逊相关系数即化合物微扰谱和基因微扰谱的皮尔逊相关系数,用于表征化合物微扰谱和基因微扰谱的相关程度,因此,本实施例可以通过神经元网络得到化合物微扰谱和基因微扰谱的相关程度,简化了二者相关程度的确定过程。
在一个实施例中,如图2所示,上述步骤S14可被实施为如下步骤S21-S23:
在步骤S21中,获取预设的实验条件数据;
在步骤S22中,将皮尔逊相关系数及实验条件数据输入到分类模块中;
在步骤S23中,获取分类模块输出的化合物和目标基因相互作用概率的评分。
获取预设的实验条件数据,具体的,预设的实验条件数据可以包括以下至少一种数据:
化合物微扰时长、化合物剂量、基因敲降时长和细胞类型。
将皮尔逊相关系数和实验条件数据输入到分类模型中,本实施例中,分类模型由完全连接的隐藏层(用于提取输入特征)和输出层(用于是否具有化合物-蛋白靶标相互作用的分类判别)组成,获取分类模块输出的化合物和目标基因相互作用概率的评分。
在一个实施例中,预设的实验条件数据,包括以下至少一种数据:
化合物微扰时长、化合物剂量、基因敲降时长和细胞类型。
本实施例中,整合了异质实验条件信息,从而可以考虑细胞系背景,剂量和时间依赖性等效应对差异基因表达和药物靶标推理预测的影响,进一步提高预测的准确度。
在一个实施例中,如图3所示,当存在多种类型的目标基因时,方法还可被实施为如下步骤S31-S33:
在步骤S31中,分别获取各类目标基因与化合物相互作用概率的评分;
在步骤S32中,将各类目标基因分别对应的评分进行排序;
在步骤S33中,确定最高评分值对应的目标基因与化合物存在相互作用。
本实施例中,当存在多个目标基因时,分别获取各个目标基因与化合物相互作用概率的评分,即每一个目标基因执行一次前述步骤S11-S14,计算各个目标基因与化合物相互作用概率的评分,然后将计算得到的各个评分进行排序,确定最高评分值对应的目标基因与化合物存在相互作用。即最高评分值对应的目标基因为化合物所对应的药物的靶标。
图4为本申请实施例的一种用于预测药物靶标的信息处理装置的框图,该装置包括以下模块:
第一获取模块41,用于获取化合物对应的化合物微扰谱;
第二获取模块42,用于获取化合物所作用的目标基因对应的基因微扰谱;
确定模块43,用于确定化合物微扰谱和基因微扰谱的相关程度;
预测模块44,用于根据相关程度和预设的实验条件数据,对化合物能够对目标基因产生作用的概率进行预测。
在一个实施例中,如图5所示,确定模块43,包括:
第一输入子模块51,用于将化合物微扰谱和基因微扰谱输入至特征提取网络中,以对化合物微扰谱和基因微扰谱进行特征提取;
第一获取子模块52,用于获取特征提取网络输出的化合物微扰谱对应的第一向量和基因微扰谱对应的第二向量;
第二输入子模块53,用于将第一向量和第二向量输入至计算模块中;
第二获取子模块54,用于获取计算模块输出的第一向量和第二向量的皮尔逊相关系数。
在一个实施例中,如图6所示,预测模块44,包括:
第三获取子模块61,用于获取预设的实验条件数据;
第三输入子模块62,用于将皮尔逊相关系数及实验条件数据输入到分类模块中;
第四获取子模块63,用于获取分类模块输出的化合物和目标基因相互作用概率的评分。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。
Claims (10)
1.一种用于预测药物靶标的信息处理方法,其特征在于,包括:
获取化合物对应的化合物微扰谱;
获取所述化合物所作用的目标基因对应的基因微扰谱;
确定所述化合物微扰谱和所述基因微扰谱的相关程度;
根据所述相关程度和预设的实验条件数据,对所述化合物能够对所述目标基因产生作用的概率进行预测。
2.如权利要求1所述的方法,其特征在于,所述确定所述化合物微扰谱和所述基因微扰谱的相关程度,包括:
基于第一预设算法计算所述化合物微扰谱和所述基因微扰谱的相关程度。
3.如权利要求2所述的方法,其特征在于,所述相关程度为所述化合物微扰谱和所述基因微扰谱的皮尔逊相关系数时,根据所述相关程度和预设的实验条件数据,对所述化合物能够对所述目标基因产生作用的概率进行预测,包括:
获取预设的实验条件数据;
将所述皮尔逊相关系数及所述实验条件数据代入第二预设算法中,以得所述化合物和所述目标基因相互作用概率的评分。
4.如权利要求1所述的方法,其特征在于,所述确定所述化合物微扰谱和所述基因微扰谱的相关程度,包括:
将所述化合物微扰谱和所述基因微扰谱输入至特征提取网络中,以对所述化合物微扰谱和所述基因微扰谱进行特征提取;
获取所述特征提取网络输出的所述化合物微扰谱对应的第一向量和所述基因微扰谱对应的第二向量;
将所述第一向量和所述第二向量输入至计算模块中;
获取所述计算模块输出的所述第一向量和第二向量的皮尔逊相关系数。
5.如权利要求4所述的方法,其特征在于,所述根据所述相关程度和预设的实验条件数据,对所述化合物能够对所述目标基因产生作用的概率进行预测,包括:
获取预设的实验条件数据;
将所述皮尔逊相关系数及所述实验条件数据输入到分类模块中;
获取所述分类模块输出的所述化合物和所述目标基因相互作用概率的评分。
6.如权利要求3或5所述的方法,其特征在于,所述预设的实验条件数据,包括以下至少一种数据:
化合物微扰时长、化合物剂量、基因敲降时长和细胞类型。
7.如权利要求1-6任意一项所述的方法,其特征在于,当存在多种类型的目标基因时,所述方法还包括:
分别获取各类目标基因与所述化合物相互作用概率的评分;
将所述各类目标基因分别对应的评分进行排序;
确定最高评分值对应的目标基因与所述化合物存在相互作用。
8.一种用于预测药物靶标的信息处理装置,其特征在于,包括:
第一获取模块,用于获取化合物对应的化合物微扰谱;
第二获取模块,用于获取所述化合物所作用的目标基因对应的基因微扰谱;
确定模块,用于确定所述化合物微扰谱和所述基因微扰谱的相关程度;
预测模块,用于根据所述相关程度和预设的实验条件数据,对所述化合物能够对所述目标基因产生作用的概率进行预测。
9.如权利要求8所述的装置,其特征在于,所述确定模块,包括:
第一输入子模块,用于将所述化合物微扰谱和所述基因微扰谱输入至特征提取网络中,以对所述化合物微扰谱和所述基因微扰谱进行特征提取;
第一获取子模块,用于获取所述特征提取网络输出的所述化合物微扰谱对应的第一向量和所述基因微扰谱对应的第二向量;
第二输入子模块,用于将所述第一向量和所述第二向量输入至计算模块中;
第二获取子模块,用于获取所述计算模块输出的所述第一向量和第二向量的皮尔逊相关系数。
10.如权利要求9所述的装置,其特征在于,所述预测模块,包括:
第三获取子模块,用于获取预设的实验条件数据;
第三输入子模块,用于将所述皮尔逊相关系数及所述实验条件数据输入到分类模块中;
第四获取子模块,用于获取所述分类模块输出的所述化合物和所述目标基因相互作用概率的评分。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010309556.4A CN113539366A (zh) | 2020-04-17 | 2020-04-17 | 一种用于预测药物靶标的信息处理方法及装置 |
PCT/CN2021/087362 WO2021208993A1 (zh) | 2020-04-17 | 2021-04-15 | 一种用于预测药物靶标的信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010309556.4A CN113539366A (zh) | 2020-04-17 | 2020-04-17 | 一种用于预测药物靶标的信息处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113539366A true CN113539366A (zh) | 2021-10-22 |
Family
ID=78085268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010309556.4A Pending CN113539366A (zh) | 2020-04-17 | 2020-04-17 | 一种用于预测药物靶标的信息处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113539366A (zh) |
WO (1) | WO2021208993A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115410645B (zh) * | 2022-08-23 | 2023-07-21 | 北京泽桥医疗科技股份有限公司 | 一种识别中成药治疗新冠肺炎作用靶点的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030104463A1 (en) * | 2001-12-03 | 2003-06-05 | Siemens Aktiengesellschaft | Identification of pharmaceutical targets |
KR20110054926A (ko) * | 2009-11-19 | 2011-05-25 | 한국생명공학연구원 | 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체 |
US20110172929A1 (en) * | 2008-01-16 | 2011-07-14 | The Trustees Of Columbia University In The City Of | System and method for prediction of phenotypically relevant genes and perturbation targets |
EP2600269A2 (en) * | 2011-12-03 | 2013-06-05 | Medeolinx, LLC | Microarray sampling and network modeling for drug toxicity prediction |
CN108647489A (zh) * | 2018-05-15 | 2018-10-12 | 华中农业大学 | 一种筛选疾病药物靶标和靶标组合的方法及系统 |
US20190114390A1 (en) * | 2017-10-13 | 2019-04-18 | BioAge Labs, Inc. | Drug repurposing based on deep embeddings of gene expression profiles |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002514804A (ja) * | 1998-05-12 | 2002-05-21 | ロゼッタ インファーマティクス, インコーポレーテッド | 遺伝子発現分析のための数値化方法、システムおよび装置 |
US20160224723A1 (en) * | 2015-01-29 | 2016-08-04 | The Trustees Of Columbia University In The City Of New York | Method for predicting drug response based on genomic and transcriptomic data |
CN108351915B (zh) * | 2015-08-28 | 2022-09-09 | 纽约市哥伦比亚大学信托人 | 通过调节子富集测定进行的蛋白质活性的虚拟推断 |
CN106909807B (zh) * | 2017-02-14 | 2019-02-01 | 同济大学 | 一种基于多元数据预测药物靶向蛋白互作的预测方法 |
-
2020
- 2020-04-17 CN CN202010309556.4A patent/CN113539366A/zh active Pending
-
2021
- 2021-04-15 WO PCT/CN2021/087362 patent/WO2021208993A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030104463A1 (en) * | 2001-12-03 | 2003-06-05 | Siemens Aktiengesellschaft | Identification of pharmaceutical targets |
US20110172929A1 (en) * | 2008-01-16 | 2011-07-14 | The Trustees Of Columbia University In The City Of | System and method for prediction of phenotypically relevant genes and perturbation targets |
KR20110054926A (ko) * | 2009-11-19 | 2011-05-25 | 한국생명공학연구원 | 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체 |
EP2600269A2 (en) * | 2011-12-03 | 2013-06-05 | Medeolinx, LLC | Microarray sampling and network modeling for drug toxicity prediction |
US20190114390A1 (en) * | 2017-10-13 | 2019-04-18 | BioAge Labs, Inc. | Drug repurposing based on deep embeddings of gene expression profiles |
CN108647489A (zh) * | 2018-05-15 | 2018-10-12 | 华中农业大学 | 一种筛选疾病药物靶标和靶标组合的方法及系统 |
Non-Patent Citations (2)
Title |
---|
李嫣;王任小;: "应用化学基因组信息预测小分子化合物的潜在生物靶标的理论方法", 生命科学, vol. 21, no. 03, pages 400 - 407 * |
钟飞盛: "基于图神经网络的药物—靶标作用研究", 中国博士论文全文数据库 医药卫生科辑, no. 02, pages 079 - 44 * |
Also Published As
Publication number | Publication date |
---|---|
WO2021208993A1 (zh) | 2021-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lucca et al. | CC-integrals: Choquet-like copula-based aggregation functions and its application in fuzzy rule-based classification systems | |
Got et al. | Hybrid filter-wrapper feature selection using whale optimization algorithm: A multi-objective approach | |
Maraziotis | A semi-supervised fuzzy clustering algorithm applied to gene expression data | |
CN111914253B (zh) | 一种入侵检测的方法、系统、设备及可读存储介质 | |
Shukla et al. | Identification of potential biomarkers on microarray data using distributed gene selection approach | |
Tripoliti et al. | Modifications of the construction and voting mechanisms of the random forests algorithm | |
CN115019891B (zh) | 一种基于半监督图神经网络的个体驱动基因预测方法 | |
CN113299338A (zh) | 基于知识图谱的合成致死基因对预测方法、系统、终端及介质 | |
CN113488104A (zh) | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 | |
CN110491443B (zh) | 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法 | |
CN113539366A (zh) | 一种用于预测药物靶标的信息处理方法及装置 | |
Wu et al. | Clustering of multilayer networks using joint learning algorithm with orthogonality and specificity of features | |
Gao et al. | A new method based on matrix completion and non-negative matrix factorization for predicting disease-associated miRNAs | |
Cateni et al. | Improving the stability of sequential forward variables selection | |
CN113192562B (zh) | 融合多尺度模块结构信息的致病基因识别方法及系统 | |
CN113539479B (zh) | 一种基于相似性约束的miRNA-疾病关联预测方法及系统 | |
CN115083511A (zh) | 基于图表示学习与注意力的外围基因调控特征提取方法 | |
EP4241272A1 (en) | Network approach to navigating the human genome | |
Wibowo et al. | XGB5hmC: Identifier based on XGB model for RNA 5-hydroxymethylcytosine detection | |
Mamitsuka | Essential latent knowledge for protein-protein interactions: analysis by an unsupervised learning approach | |
Budiarto et al. | Explainable supervised method for genetics ancestry estimation | |
Usha et al. | Feature Selection Techniques in Learning Algorithms to Predict Truthful Data | |
Visvanathan et al. | Cluster validation: An integrative method for cluster analysis | |
Ma et al. | A New Approach Based on Feature Selection of Light Gradient Boosting Machine and Transformer to Predict circRNA-disease Associations | |
CN116886398B (zh) | 一种基于特征选择和集成学习的物联网入侵检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |