CN113539366A

CN113539366A - 一种用于预测药物靶标的信息处理方法及装置

Info

Publication number: CN113539366A
Application number: CN202010309556.4A
Authority: CN
Inventors: 蒋华良; 郑明月; 钟飞盛; 吴小龙; 李叙潼
Original assignee: Shanghai Institute of Materia Medica of CAS
Current assignee: Shanghai Institute of Materia Medica of CAS
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2021-10-22
Also published as: WO2021208993A1

Abstract

本申请公开了一种用于预测药物靶标的信息处理方法及装置，用以提升药物靶标预测的准确性。所述方法包括，获取化合物对应的化合物微扰谱；获取所述化合物所作用的目标基因对应的基因微扰谱；确定所述化合物微扰谱和所述基因微扰谱的相关程度；根据所述相关程度和预设的实验条件数据，对所述化合物能够对所述目标基因产生作用的概率进行预测。采用本申请所提供的方案，在确定化合物是否能够对目标基因产生作用的判断过程中，考虑了化合物微扰谱和基因微扰谱之间的相关性，从而提高了药物靶标预测的准确性。

Description

一种用于预测药物靶标的信息处理方法及装置

技术领域

本申请涉及人工智能领域，特别涉及一种用于预测药物靶标的信息处理方法及装置。

背景技术

药物作用靶标的计算机预测模型有助于加深我们对药物分子作用机理，代谢通路以及不良作用和耐药性的理解。近年来，多组学数据的快速增加，以及人工智能技术的快速发展，为药物靶标推理预测的计算机技术开发奠定了基础。

目前，使用基因表达谱或转录组数据进行药物靶标预测的技术主要包括：比较分析方法，基于网络的分析方法和机器学习方法。

其中，比较分析方法基于特征差异表达基因的相似性进行预测，例如Broadinstitute开发的CMap。而基于网络的方法从系统生物学的角度入手，将基因表达谱与细胞网络进行整合预测药物靶标。例如，Noa等人开发的ProTINA方法通过建立细胞类型特异性的蛋白质-基因调控网络，利用动态模型从差异基因表达谱中推断药物靶标，显示出较好的预测结果。另外，不同的机器学习算法也已被用于挖掘转录谱数据进行药物靶标预测。例如，Pabon等人利用随机森林(RF)模型通过分析药物诱导和基因敲降的转录谱之间的相关性来预测药物靶标。

然而，现有技术中所采用的上述方法仍然存在弊端，例如，不能挖掘化合物微扰谱和基因微扰谱之间的相关性，在药物靶标预测方面的准确性仍有很大的提升空间，因此，如何提出一种用于预测药物靶标的信息处理方法，以挖掘化合物微扰谱和基因微扰谱之间的相关性，提升药物靶标预测的准确性，是一亟待解决的技术问题。

发明内容

本申请实施例的目的在于提供一种用于预测药物靶标的信息处理方法，用以提升药物靶标预测的准确性。

为了解决上述技术问题，本申请的实施例采用了如下技术方案：一种用于预测药物靶标的信息处理方法，包括：

获取化合物对应的化合物微扰谱；

获取所述化合物所作用的目标基因对应的基因微扰谱；

确定所述化合物微扰谱和所述基因微扰谱的相关程度；

根据所述相关程度和预设的实验条件数据，对所述化合物能够对所述目标基因产生作用的概率进行预测。

本申请的有益效果在于：能够确定化合物微扰谱和所述基因微扰谱的相关程度，然后基于相关程度和实验条件数据对化合物能够对所述目标基因产生作用的概率进行预测，从而在确定化合物是否能够对目标基因产生作用的判断过程中，考虑了化合物微扰谱和基因微扰谱之间的相关性，从而提高了药物靶标预测的准确性。

在一个实施例中，所述确定所述化合物微扰谱和所述基因微扰谱的相关程度，包括：

基于第一预设算法计算所述化合物微扰谱和所述基因微扰谱的相关程度。

在一个实施例中，所述相关程度为所述化合物微扰谱和所述基因微扰谱的皮尔逊相关系数时，根据所述相关程度和预设的实验条件数据，对所述化合物能够对所述目标基因产生作用的概率进行预测，包括：

获取预设的实验条件数据；

将所述皮尔逊相关系数及所述实验条件数据代入第二预设算法中，以得所述化合物和所述目标基因相互作用概率的评分。

将所述化合物微扰谱和所述基因微扰谱输入至特征提取网络中，以对所述化合物微扰谱和所述基因微扰谱进行特征提取；

获取所述特征提取网络输出的所述化合物微扰谱对应的第一向量和所述基因微扰谱对应的第二向量；

将所述第一向量和所述第二向量输入至计算模块中；

获取所述计算模块输出的所述第一向量和第二向量的皮尔逊相关系数。

本实施例的有益效果在于：通过神经元网络计算化合物微扰谱和基因微扰谱对应的特征向量，即第一向量和第二向量，然后可以通过计算模块得到第一向量和第二向量的皮尔逊相关系数，该第一向量和第二向量的皮尔逊相关系数即化合物微扰谱和基因微扰谱的皮尔逊相关系数，用于表征化合物微扰谱和基因微扰谱的相关程度，因此，本实施例可以通过神经元网络得到化合物微扰谱和基因微扰谱的相关程度，简化了二者相关程度的确定过程。

在一个实施例中，所述根据所述相关程度和预设的实验条件数据，对所述化合物能够对所述目标基因产生作用的概率进行预测，包括：

获取预设的实验条件数据；

将所述皮尔逊相关系数及所述实验条件数据输入到分类模块中；

获取所述分类模块输出的所述化合物和所述目标基因相互作用概率的评分。

在一个实施例中，所述预设的实验条件数据，包括以下至少一种数据：

化合物微扰时长、化合物剂量、基因敲降时长和细胞类型。

在一个实施例中，当存在多种类型的目标基因时，所述方法还包括：

分别获取各类目标基因与所述化合物相互作用概率的评分；

将所述各类目标基因分别对应的评分进行排序；

确定最高评分值对应的目标基因与所述化合物存在相互作用。

本申请还提供一种用于预测药物靶标的信息处理装置，包括：

第一获取模块，用于获取化合物对应的化合物微扰谱；

第二获取模块，用于获取所述化合物所作用的目标基因对应的基因微扰谱；

确定模块，用于确定所述化合物微扰谱和所述基因微扰谱的相关程度；

预测模块，用于根据所述相关程度和预设的实验条件数据，对所述化合物能够对所述目标基因产生作用的概率进行预测。

在一个实施例中，所述确定模块，包括：

第一输入子模块，用于将所述化合物微扰谱和所述基因微扰谱输入至特征提取网络中，以对所述化合物微扰谱和所述基因微扰谱进行特征提取；

第一获取子模块，用于获取所述特征提取网络输出的所述化合物微扰谱对应的第一向量和所述基因微扰谱对应的第二向量；

第二输入子模块，用于将所述第一向量和所述第二向量输入至计算模块中；

第二获取子模块，用于获取所述计算模块输出的所述第一向量和第二向量的皮尔逊相关系数。

在一个实施例中，所述预测模块，包括：

第三获取子模块，用于获取预设的实验条件数据；

第三输入子模块，用于将所述皮尔逊相关系数及所述实验条件数据输入到分类模块中；

第四获取子模块，用于获取所述分类模块输出的所述化合物和所述目标基因相互作用概率的评分。

附图说明

图1为本申请一实施例的一种用于预测药物靶标的信息处理方法的流程图；

图2为本申请另一实施例的一种用于预测药物靶标的信息处理方法的流程图；

图3为本申请又一实施例的一种用于预测药物靶标的信息处理方法的流程图；

图4为本申请一实施例的一种用于预测药物靶标的信息处理装置的框图；

图5为本申请另一实施例的一种用于预测药物靶标的信息处理装置的框图，示出本实施例的确定模块的主要架构；

图6为本申请又一实施例的一种用于预测药物靶标的信息处理装置的框图，示出本实施例的预测模块的主要架构。

具体实施方式

此处参考附图描述本申请的各种方案以及特征。

应理解的是，可以对此处申请的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本申请的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本申请的具体实施例；然而，应当理解，所申请的实施例仅仅是本申请的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此，本文所申请的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本申请的相同或不同实施例中的一个或多个。

图1为本申请实施例的一种用于预测药物靶标的信息处理方法的流程图，该方法包括以下步骤S11-S14：

在步骤S11中，获取化合物对应的化合物微扰谱；

在步骤S12中，获取化合物所作用的目标基因对应的基因微扰谱；

在步骤S13中，确定化合物微扰谱和基因微扰谱的相关程度；

在步骤S14中，根据相关程度和预设的实验条件数据，对化合物能够对目标基因产生作用的概率进行预测。

本实施例中，获取化合物对应的化合物微扰谱，其中，该化合物微扰谱用于表达细胞加药以后的基因表达谱与细胞正常状态下的基因表达谱之间的差异。本实施例中，化合物是指要预测靶标的药物中的化合物。

进一步地，化合物微扰谱通过如下方式确定：

在将选定的小分子化合物与特定细胞共孵育，设置阳性和阴性对照组，利用测序技术分析差异表达基因，获得化合物微扰谱。此外，化合物微扰谱也可通过检索现有的数据库获得。从化合物微扰差异基因表达谱提取978个标志性特征差异基因，并组成978维特征向量，该978维特征向量表征化合物微扰谱。

在获取化合物微扰谱之后，获取化合物所作用的目标基因对应的基因微扰谱，其中，该基因微扰谱用于表征细胞基因敲降以后的表达谱与细胞正常状态下的表达谱之间的差异。确定化合物微扰谱和基因微扰谱的相关程度，然后根据相关程度和预设的实验条件数据，对化合物能够对目标基因产生作用的概率进行预测。需要说明的是，化合物，多数情况下是和基因中的蛋白质发生物理相关作用，因此，化合物对目标基因产生作用包括对目标基因编码的蛋白质产生作用。

本申请的有益效果在于：能够确定化合物微扰谱和基因微扰谱的相关程度，然后基于相关程度和实验条件数据对化合物能够对目标基因产生作用的概率进行预测，从而在确定化合物是否能够对目标基因产生作用的判断过程中，考虑了化合物微扰谱和基因微扰谱之间的相关性，从而提高了药物靶标预测的准确性。

在一个实施例中，上述步骤S13可被实施为如下步骤：

基于第一预设算法计算化合物微扰谱和基因微扰谱的相关程度。

本实施例中，上述化合物微扰谱的相关程度可以基于算法实现，具体的，该算法可以输入到一应用程序中实现，该算法具体如下：

首先，获取化合物微扰谱和基因微扰谱，在具体实践中，化合物微扰谱特征由978维向量来表示，记为C，C＝(c1，c2，c3…c978)，对于任意i(i＝1-978)，ci表示化合物微扰后基因i的差异表达值，即细胞加药以后的基因表达谱与细胞正常状态下的基因表达谱之间的差异。

基因微扰谱特征(978维向量)，记为G，G＝(g1，g2，g3…g978)，对于任意i(i＝1-978)，gi表示基因敲降后基因i的差异表达值，即细胞基因敲降以后的表达谱与细胞正常状态下的表达谱之间的差异。

实验条件数据(4维向量)，E＝(t1，d，t2，l)，t1表示化合物微扰时长，d表示化合物剂量，t2表示基因敲降时长，l表示细胞系种类。

蛋白-蛋白相互作用网络(PPI网络)，用连接矩阵表示，记为符号A。

为了方便说明，在不失一般性的基础上，只研究2个基因的差异表达，那么C＝(c1，c2)，G＝(g1，g2)。

为了使得整个过程更易理解，可以令C＝(0.1，0.3)，G＝(0.1，0.3)，连接矩阵

E＝(24，10，96，1)。

从连接矩阵

可得度矩阵

容易得到

由拉普拉斯矩阵L＝D-A，可得：

由正则化的拉普拉斯矩阵L_sys＝D^-1/2LD^-1/2可得：

对该矩阵作谱分解：

L_sys＝UλU^T

由此可得：

不失一般性，可以令参数矩阵

由于(f*h)_graph＝UωU^Tf

当f＝c时，

定义一个relu函数：

显然，l1_relu＝relu(l1)＝(0.03，0.00)

为了简化，并不生成200维图嵌入，只生成一个2维的化合物微扰图嵌入，设为E1。

不失一般性，可以令参数矩阵

化合物微扰图嵌入：

同理可得：基因敲降图嵌入E2＝[0.03 0.03 0.03]

计算E1和E2的皮尔逊

显然，皮尔逊R²＝r*r＝1。

在一个实施例中，相关程度为化合物微扰谱和基因微扰谱的皮尔逊相关系数时，上述步骤S14可被实施为如下步骤A1-A2：

在步骤A1中，获取预设的实验条件数据；

在步骤A2中，将皮尔逊相关系数及实验条件数据代入第二预设算法中，以得化合物和目标基因相互作用概率的评分。

本实施例中，获取预设的实验条件数据E＝(t1，d，t2，l)，根据具体实验情况，获得具体的实验条件数据t1＝24，d＝10，t2＝96，l＝1。将皮尔逊R²跟四维向量实验条件数据E拼接起来，得到五维向量，记为v₅。

显然v₅＝(24，10，96，1，1)。

可以令参数矩阵

o_exp＝e^O＝(e¹³²，e¹³²)

sum＝e¹³²+e¹³²

output是一个二维向量，取第1维，作为CPI score，

即：CPI score＝output[1]＝0.5。

即将皮尔逊相关系数及实验条件数据代入第二预设算法中，得到化合物和目标基因相互作用概率的评分为0.5。

在一个实施例中，上述步骤S13可被实施为如下步骤B1-B4：

在步骤B1中，将化合物微扰谱和基因微扰谱输入至特征提取网络中，以对化合物微扰谱和基因微扰谱进行特征提取；

在步骤B2中，获取特征提取网络输出的化合物微扰谱对应的第一向量和基因微扰谱对应的第二向量；

在步骤B3中，将第一向量和第二向量输入至计算模块中；

在步骤B4中，获取计算模块输出的第一向量和第二向量的皮尔逊相关系数。

本实施例中，首先获得化合物微扰谱(也可以称为化合物微扰转录谱特征，在具体实践过程中，由978维向量构成)和基因微扰谱，(也可以称为基因敲降转录谱特征，在具体实践过程中，由978维向量构成)，然后将化合物微扰谱和基因微扰谱经过特征提取网络。本实施例中，特征提取网络是基于谱的图神经网络(GCN)。通过构建两个平行的GCN分别从化合物微扰谱和基因微扰谱进行特征提取，即将关键特征提取出来，实现降维，在特征提取之后，特征提取网络输出化合物微扰谱对应的第一向量和基因微扰谱对应的第二向量；该第一向量和第二向量是由各自对应的978维特征向量降维后得到的，因此，该第一向量和第二向量的维数小于978维，将第一向量和第二向量输入至计算模块中；获取计算模块输出的第一向量和第二向量的皮尔逊相关系数。

在一个实施例中，如图2所示，上述步骤S14可被实施为如下步骤S21-S23：

在步骤S21中，获取预设的实验条件数据；

在步骤S22中，将皮尔逊相关系数及实验条件数据输入到分类模块中；

在步骤S23中，获取分类模块输出的化合物和目标基因相互作用概率的评分。

获取预设的实验条件数据，具体的，预设的实验条件数据可以包括以下至少一种数据：

化合物微扰时长、化合物剂量、基因敲降时长和细胞类型。

将皮尔逊相关系数和实验条件数据输入到分类模型中，本实施例中，分类模型由完全连接的隐藏层(用于提取输入特征)和输出层(用于是否具有化合物-蛋白靶标相互作用的分类判别)组成，获取分类模块输出的化合物和目标基因相互作用概率的评分。

在一个实施例中，预设的实验条件数据，包括以下至少一种数据：

化合物微扰时长、化合物剂量、基因敲降时长和细胞类型。

本实施例中，整合了异质实验条件信息，从而可以考虑细胞系背景，剂量和时间依赖性等效应对差异基因表达和药物靶标推理预测的影响，进一步提高预测的准确度。

在一个实施例中，如图3所示，当存在多种类型的目标基因时，方法还可被实施为如下步骤S31-S33：

在步骤S31中，分别获取各类目标基因与化合物相互作用概率的评分；

在步骤S32中，将各类目标基因分别对应的评分进行排序；

在步骤S33中，确定最高评分值对应的目标基因与化合物存在相互作用。

本实施例中，当存在多个目标基因时，分别获取各个目标基因与化合物相互作用概率的评分，即每一个目标基因执行一次前述步骤S11-S14，计算各个目标基因与化合物相互作用概率的评分，然后将计算得到的各个评分进行排序，确定最高评分值对应的目标基因与化合物存在相互作用。即最高评分值对应的目标基因为化合物所对应的药物的靶标。

图4为本申请实施例的一种用于预测药物靶标的信息处理装置的框图，该装置包括以下模块：

第一获取模块41，用于获取化合物对应的化合物微扰谱；

第二获取模块42，用于获取化合物所作用的目标基因对应的基因微扰谱；

确定模块43，用于确定化合物微扰谱和基因微扰谱的相关程度；

预测模块44，用于根据相关程度和预设的实验条件数据，对化合物能够对目标基因产生作用的概率进行预测。

在一个实施例中，如图5所示，确定模块43，包括：

第一输入子模块51，用于将化合物微扰谱和基因微扰谱输入至特征提取网络中，以对化合物微扰谱和基因微扰谱进行特征提取；

第一获取子模块52，用于获取特征提取网络输出的化合物微扰谱对应的第一向量和基因微扰谱对应的第二向量；

第二输入子模块53，用于将第一向量和第二向量输入至计算模块中；

第二获取子模块54，用于获取计算模块输出的第一向量和第二向量的皮尔逊相关系数。

在一个实施例中，如图6所示，预测模块44，包括：

第三获取子模块61，用于获取预设的实验条件数据；

第三输入子模块62，用于将皮尔逊相关系数及实验条件数据输入到分类模块中；

第四获取子模块63，用于获取分类模块输出的化合物和目标基因相互作用概率的评分。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种用于预测药物靶标的信息处理方法，其特征在于，包括：

获取化合物对应的化合物微扰谱；

获取所述化合物所作用的目标基因对应的基因微扰谱；

确定所述化合物微扰谱和所述基因微扰谱的相关程度；

2.如权利要求1所述的方法，其特征在于，所述确定所述化合物微扰谱和所述基因微扰谱的相关程度，包括：

3.如权利要求2所述的方法，其特征在于，所述相关程度为所述化合物微扰谱和所述基因微扰谱的皮尔逊相关系数时，根据所述相关程度和预设的实验条件数据，对所述化合物能够对所述目标基因产生作用的概率进行预测，包括：

获取预设的实验条件数据；

4.如权利要求1所述的方法，其特征在于，所述确定所述化合物微扰谱和所述基因微扰谱的相关程度，包括：

将所述第一向量和所述第二向量输入至计算模块中；

5.如权利要求4所述的方法，其特征在于，所述根据所述相关程度和预设的实验条件数据，对所述化合物能够对所述目标基因产生作用的概率进行预测，包括：

获取预设的实验条件数据；

6.如权利要求3或5所述的方法，其特征在于，所述预设的实验条件数据，包括以下至少一种数据：

化合物微扰时长、化合物剂量、基因敲降时长和细胞类型。

7.如权利要求1-6任意一项所述的方法，其特征在于，当存在多种类型的目标基因时，所述方法还包括：

分别获取各类目标基因与所述化合物相互作用概率的评分；

将所述各类目标基因分别对应的评分进行排序；

8.一种用于预测药物靶标的信息处理装置，其特征在于，包括：

第一获取模块，用于获取化合物对应的化合物微扰谱；

9.如权利要求8所述的装置，其特征在于，所述确定模块，包括：

10.如权利要求9所述的装置，其特征在于，所述预测模块，包括：

第三获取子模块，用于获取预设的实验条件数据；