CN110310703A

CN110310703A - 药物的预测方法、装置及计算机设备

Info

Publication number: CN110310703A
Application number: CN201910556103.9A
Authority: CN
Inventors: 韩露; 周文霞; 张永祥; 高圣乔; 程肖蕊; 肖智勇; 黄晏; 刘港; 王同兴
Original assignee: Institute of Pharmacology and Toxicology of AMMS
Current assignee: Institute of Pharmacology and Toxicology of AMMS; Academy of Military Medical Sciences AMMS of PLA
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-10-08
Anticipated expiration: 2039-06-25
Also published as: CN110310703B

Abstract

本申请涉及一种药物的预测方法、装置及计算机设备，通过获取第一药物的基因表达谱数据；并利用第一药物的基因表达谱数据对深度神经网络进行训练，得到第一药物的预测模型；获取第二药物的基因表达谱数据；通过第一药物的预测模型对第二药物的基因表达谱数据进行药物作用机制的分析；从而根据分析的结果对第二药物的药物作用机制进行预测。由于在第一药物的预测模型的建立过程中，考虑到了将不同属性的所有表达轮廓，并抑制了一些不相关的变化，从而避免传统技术中基于聚类发现药物作用机制的算法无法处理一些无关的干扰导致的预测性能退化，并提高药物预测的预测性能。

Description

药物的预测方法、装置及计算机设备

技术领域

本申请涉及药物信息学领域，特别是涉及一种药物的预测方法、装置及计算机设备。

背景技术

大规模、高通量的转录组数据为揭示药物的作用模式提供了有力的支持。使用转录组数据进行药物作用机制的研究已有许多方法和工具。其中，大多数使用受到明显调节的基因集特征来呈现药物或其他干扰。例如，计算基因表达谱和特征之间的相关性，利用特征之间的重叠找到反向或模拟实验，比较特征与不同作用机制聚类之间的距离来揭示药物作用机制。

但是，在传统技术中，由于批处理效应或者细胞、剂量、时间引起的差异，基于聚类发现药物作用机制的算法无法处理一些无关的干扰，从而导致预测性能的退化。

发明内容

基于此，有必要针对传统技术中药物预测存在的预测性能退化的技术问题，提供一种药物的预测方法、装置及计算机设备。

一种药物的预测方法，所述方法包括：获取第一药物的基因表达谱数据；利用所述第一药物的基因表达谱数据对深度神经网络进行训练，得到第一药物的预测模型；获取第二药物的基因表达谱数据；通过所述第一药物的预测模型对所述第二药物的基因表达谱数据进行药物作用机制的分析；根据分析的结果，对所述第二药物的药物作用机制进行预测。

上述药物的预测方法，通过获取第一药物的基因表达谱数据；并利用第一药物的基因表达谱数据对深度神经网络进行训练，得到第一药物的预测模型；获取第二药物的基因表达谱数据；通过第一药物的预测模型对第二药物的基因表达谱数据进行药物作用机制的分析；从而根据分析的结果对第二药物的药物作用机制进行预测。由于在第一药物的预测模型的建立过程中，考虑到了将不同属性的所有表达轮廓，并抑制了一些不相关的变化，从而避免传统技术中基于聚类发现药物作用机制的算法无法处理一些无关的干扰导致的预测性能退化，并提高药物预测的预测性能。

附图说明

图1为一个实施例中药物的预测方法的应用环境图；

图2为一个实施例中药物的预测方法的流程示意图；

图3为一个实施例中药物的预测方法的流程示意图；

图4为一个实施例中药物的预测方法的流程示意图；

图5为一个实施例中药物的预测方法的流程示意图；

图6为一个实施例中药物的预测方法的流程示意图；

图7为一个实施例中药物的预测方法的流程示意图；

图8为一个实施例中药物的预测方法的流程示意图；

图9为一个实施例中药物的预测方法的流程示意图；

图10为一个实施例中药物的预测方法的流程示意图；

图11为一个实施例中药物的预测方法的流程示意图；

图12为一个实施例中药物的预测装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种药物的预测方法，可以应用于图1所示的应用环境中。其中，终端110通过网络与服务器120进行数据交互，本申请对终端110与服务器120的数据交互方式不进行限制。终端110可以用于显示药物预测软件的操作界面，通过该操作界面终端接收用户发起的药物预测的操作指令，且终端110将药物预测的操作指令发送至服务器120，则服务器120接收到药物预测的操作指令，并根据该操作指令获取第一药物的基因表达谱数据，利用第一药物的基因表达谱数据对深度神经网络进行训练，得到第一药物的预测模型；接着，获取第二药物的基因表达谱数据，并通过第一药物的预测模型对第二药物的基因表达谱数据进行药物作用机制的分析；从而根据分析的结果，对第二药物的药物作用机制进行预测，并获得预测的结果，服务器120将预测的结果返回给终端110，终端接收到预测的结果，并可以对预测结果进行显示。其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解的是，终端110与服务器120可以集成在一起。

在一个实施例中，如图2所示，提供了一种药物的预测方法。以该方法应用于图1的服务器中为例进行说明，包括以下步骤：

S210、获取第一药物的基因表达谱数据。

其中，基因表达谱数据是药物作用于细胞后测量细胞变化转录组学数据。第一药物的表达谱数据用于训练模型。具体地，可以通过终端上的应用程序或者网页发起药物预测的操作指令，终端将操作指令发送给服务器，服务器根据该操作指令获取第一药物的基因表达数据。

S220、利用第一药物的基因表达谱数据对深度神经网络进行训练，得到第一药物的预测模型。

其中，神经网络是基于感知机的扩展。深度神经网络(DNN)可以理解为包括很多隐藏层的神经网络。深度神经网络的第一层为输入层(input)，深度神经网络的最后一层为输出层(output)，在input层和output层之间的层被称为隐藏层(hidden)，且层与层之间是全连接。即第i层的任意一个神经元与第i+1层的任意一个神经元相连。具体地，利用第一药物的药物作用机制作为真实标签，或者，假设第一药物为已知的阳性药物(PositiveCompound)，设置第一药物的阳性为真实标签。并将第一药物的基因表达谱数据输入至深度神经网络进行训练，得到第一药物的预测模型。

S230、获取第二药物的基因表达谱数据。

其中，第二药物是指与第一药物是否具有相同或者相似药物作用机制的待预测药物或者潜在药物。具体地，通过终端上的应用程序或者网页发起药物预测的操作指令，终端将操作指令发送给服务器，操作指令可以携带有第二药物的基因表达谱数据，则服务器接收第二药物的基因表达谱数据。或者，服务器根据该操作指令从基因表达数据库中获取第一药物的基因表达数据。

S240、通过第一药物的预测模型对第二药物的基因表达谱数据进行药物作用机制的分析；

S250、根据分析的结果，对第二药物的药物作用机制进行预测。

其中，药物作用机制(也称为药物作用机理)是通过研究药物如何起作用发现的药物对机体或者细胞发挥作用的原理或者机制。具体地，利用第一药物的基因表达谱数据对深度神经网络进行训练，得到第一药物的预测模型，且第一药物的预测模型与第一药物的药物作用机制对应，从而可以利用训练得到的第一药物的预测模型对第二药物进行预测。通过第一药物的预测模型对第二药物的基因表达谱数据作用得到预测的标签，并根据预测的标签对第二药物的基因表达谱数据做出药物作用机制的分析。从而根据分析的结果，对第二药物的药物作用机制进行预测，进一步地，可以根据预测的结果对第二药物是否为潜在的阳性药物进行判断。

本实施中，通过获取第一药物的基因表达谱数据；并利用第一药物的基因表达谱数据对深度神经网络进行训练，得到第一药物的预测模型；获取第二药物的基因表达谱数据；通过第一药物的预测模型对第二药物的基因表达谱数据进行药物作用机制的分析；从而根据分析的结果对第二药物的药物作用机制进行预测。由于在第一药物的预测模型的建立过程中，考虑到了将不同属性的所有表达轮廓，并抑制了一些不相关的变化，从而避免传统技术中基于聚类发现药物作用机制的算法无法处理一些无关的干扰导致的预测性能退化，并提高药物预测的预测性能。

在一个实施例中，如图3所示，在获取第一药物的基因表达谱数据之前，该方法还包括：

S310、获取药物预测的操作指令，操作指令包括第一药物标识；

获取第一药物的基因表达谱数据，包括：

S320、根据第一药物标识，获取第一药物的基因表达谱数据。

其中，药物标识用于唯一地标识一种药物，可以是药物的通用名称，也可以是药物商品名，还可以是化合物数据库Pubchem中的药物标识(Pubchem ID)。由于不同数据库来源的药物标识存在不同的定义规则，本实施例提供自定义的药物标识(记为ID BROAD)，通过建立ID BROAD、药物的通用名称、Pubchem ID之间的对应关系表以统一药物标识，并方便用户的操作。具体地，通过终端上的应用程序或者网页发起药物预测的操作指令，操作指令可以携带有第一药物标识，终端将该操作指令发送至服务器，服务器中存储有基因表达谱数据库，从而根据第一药物标识，从基因表达谱数据库中获取第一药物的基因表达谱数据。需要说明的是，也可以通过终端上的应用程序或者网页直接接收用户提供或者上传的第一药物的基因表达谱数据，从而获取第一药物的基因表达谱数据。

在一个实施例中，第二药物的数量大于2。如图4所示，获取第二药物的基因表达谱数据，包括：

S410、获取各个第二药物的基因表达谱数据。

具体地，从公共数据库中获取多个第二药物的基因表达谱数据。公共数据库可以是LINCS整合网络细胞印记库项目(Library of Integrated Network-based CellularSignatures，LINCS)表达谱数据集。其中，LINCS表达谱数据集是采用L1000技术挑选978个标志基因进行检测并通过构建模型外推处其他基因的表达量。在降低成本、保证数据质量的前提下获得并公开包括基因沉默(RNA Interference)、基因过表达(Overexpression)、小分子化合物(Small-molecule Compounds)三大类扰动类型下不同种类细胞系的基因表达谱。截至2018年7月，LINCS计划公开的表达谱数据规模已经超过百万，其包括41847个小分子化合物的多基因扰动的表达谱，还包括包括396个数据集，同时其主要的细胞扰动表达谱均是在不同癌症细胞系上检测得到的，主要包括乳腺癌、结肠癌、肝癌、肺癌、黑色素瘤和前列腺癌。

通过第一药物的预测模型对第二药物的基因表达谱数据进行药物作用机制的分析，包括：

S420、通过第一药物的预测模型对各个第二药物的基因表达谱数据分别进行药物作用机制的分析，得到第一药物的预测模型对各个第二药物的基因表达谱数据的评分。

其中，评分是指利用第一药物的预测模型预测第二药物具有与第一药物相同或者相似的药物作用机制的概率值。具体地，第二药物在不同的剂量/时间/细胞系的条件下做实验，会产生不同的基因表达谱，从公共数据库中获取多个第二药物的基因表达谱数据，每个第二药物的基因表达谱数据数量大于或者等于1，利用第一药物的预测模型对每个第二药物的数量大于等于1的基因表达谱数据分别进行药物作用机制的分析得到对应的概率值，对得到的若干个概率值求平均概率值，得到第一药物的预测模型对每个第二药物的基因表达谱数据的评分。该评分记为AVG_PROB(Average probability that all geneexpression profile of a drug is judged to be positive)。

在根据分析的结果，对第二药物的药物作用机制进行预测之后，该方法包括：

S430、根据各个第二药物的基因表达谱数据得到的评分，从各个第二药物中预测与第一药物的药物作用机制相同或者相似的第二药物。

具体地，对每个第二药物的基因表达谱数据得到的评分进行排序，从各个第二药物中得到评分最高的第二药物，预测评分最高的第二药物与第一药物具有相同或者相似的药物作用机制。

在一个实施例中，该方法还包括：对第一药物和第二药物的基因表达谱数据进行可视化展示。

具体地，第一药物的基因表达谱数据作为训练集，第二药物基因表达谱数据作为预测集，为了直观展示训练集和预测集的药物表达谱的聚类情况，可以对第一药物的基因表达谱数据和第二药物的基因表达谱数据进行可视化展示。

示例性地，第一药物和第二药物的基因表达谱数据来自LINCS表达谱数据集，分别具有978个数据维度。可以采用tsne(t-distributed stochastic neighbor embedding)方法对978个维度的基因表达谱数据进行降维处理，对降维处理之后的数据进行可视化展示。其中，tsne是由sne衍生出的一种算法，sne最早出现在2002年，它改变了MDS和ISOMAP中基于距离不变的思想，将高维映射到低维的同时，尽量保证相互之间的分布概率不变。sne将高维和低维中的样本分布都看作高斯分布，而tsne将低维中的坐标当做T分布，则同一簇内的点(距离较近)聚合的更紧密，不同簇之间的点(距离较远)更加疏远，从而解决了拥挤问题。可以理解的是，还可以使用L1000FWD图谱对第一药物和第二药物的基因表达谱数据进行可视化展示，为本领域技术人员所公知，在此不再赘述。

在一个实施例中，如图5所示，在获取第一药物的基因表达谱数据之前，该方法还包括：

S510、生成药物标识列表。

具体地，从一些公开的药物标识库中获取药物标识，根据获取到的药物标识生成药物标识列表。比如，从MCE(Medchemexpress)公司的药物集中获取药物标识。MCE公司的产品范围包括10000多种特异性抑制剂、激动剂作用于表观遗传学、凋亡等20个信号通路的375个靶点蛋白，覆盖癌症、神经科学、免疫学等热门疾病研究领域。MCE公司的30多种活性化合物库，包含7000多种具有生物活性的小分子化合物，可用于高通量筛选和高内涵筛选，是进行新药筛选和新适应症发现等研究的专业工具。

S520、根据药物标识列表中的第三药物标识，获取各个第三药物的药物作用机制。

具体地，根据药物标识列表中的第三药物标识，从一些公开的药物信息库中获取各个第三药物的药物作用机制。比如，根据药物标识列表中的第三药物标识，从DrugRepurposing Hub信息库中获取第三药物的药物功能的注释信息，包括药物作用机制。

获取第一药物的基因表达谱数据，包括：

S530、根据药物标识列表中的第三药物标识，获取各个第三药物的基因表达谱数据。

具体地，根据药物标识列表中的第三药物标识，从基因表达谱数据库中获取各个第三药物的基因表达谱数据。比如，基因表达谱数据库为LINCS表达谱数据集。从MCE(Medchemexpress)公司的药物集中获取药物标识，生成药物标识列表。则利用药物标识列表中第三药物标识与LINCS表达谱数据集中的药物表述进行匹配，不仅包括药物名称或者药物标识完全匹配，还包括其他语义、格式等多种匹配方式。从LINCS表达谱数据集中，获取各个第三药物的基因表达谱数据。

利用第一药物的基因表达谱数据对深度神经网络进行训练，得到第一药物的预测模型，包括：

S540、利用各个第三药物的药物作用机制和基因表达谱数据分别对深度神经网络进行训练，得到各个第三药物的预测模型。

具体地，将每个第三药物的药物作用机制作为真实标签，利用每个第三药物的基因表达谱数据对深度神经网络进行训练，得到第三药物的预测模型。其中，各个第三药物的预测模型分别与各个第三药物的药物作用机制相对应，从而可以利用训练得到的第三药物的预测模型对第二药物进行预测。

S550、通过各个第三药物的预测模型分别对第二药物的基因表达谱数据进行药物作用机制的分析。

具体地，通过每个第三药物的预测模型对第二药物的基因表达谱数据作用得到预测的标签，并根据预测的标签对第二药物的基因表达谱数据做出药物作用机制的分析。

根据分析的结果，对第二药物的药物作用机制进行预测，包括：

S560、根据分析的结果，判断各个第三药物与第二药物的药物作用机制是否相同或者相似，并预测第二药物的药物作用机制。

具体地，由于每个第三药物的预测模型分别与每个第三药物的药物作用机制是对应的，利用每个第三药物的预测模型对第二药物的基因表达谱数据进行药物作用机制的分析，可以判断与每个第三药物的预测模型对应的药物作用机制和第二药物的药物作用机制是否相同或者相似。从与各个第三药物的预测模型中，确定与第二药物具有相同或者相似的药物作用机制的预测模型，从而预测第二药物具有与该预测模型对应的药物作用机制。

在一个实施例中，如图6所示，在利用各个第三药物的药物作用机制和基因表达谱数据分别对深度神经网络进行训练，得到各个第三药物的预测模型之前，方法还包括：

S610、根据各个第三药物的药物作用机制，获得多个药物集。

其中，药物集中的药物具有相同或者相似药物作用机制。具体地，根据药物标识列表中的第三药物标识，获取各个第三药物的药物作用机制，根据药物名称、格式或者化合物后缀对各个第三药物的进行归类处理，将具有相似或者相同药物作用机制的第三药物收集在一起，形成药物集。还可以对各个药物集中第三药物的药物作用机制是否相同或者相似进行校验。示例性的，可以从MCE(Medchemexpress)公司的药物集中整理103个具有特定药物作用机制的药物集。

利用各个第三药物的药物作用机制和基因表达谱数据分别对深度神经网络进行训练，得到各个第三药物的预测模型，包括：

S620、利用各个药物集的药物作用机制和基因表达谱数据分别对深度神经网络进行训练，得到各个药物集的预测模型。

具体地，将每个药物集的药物作用机制作为真实标签，利用每个药物集中第三药物的基因表达谱数据对深度神经网络进行训练，得到各个药物集的预测模型。

通过各个第三药物的预测模型分别对第二药物的基因表达谱数据分别进行药物作用机制的分析，包括:

S630、通过各个药物集的预测模型分别对第二药物的基因表达谱数据分别进行药物作用机制的分析。

具体地，通过每个药物集的预测模型对第二药物的基因表达谱数据作用得到预测的标签，并根据预测的标签对第二药物的基因表达谱数据做出药物作用机制的分析。

根据分析的结果，判断各个第三药物与第二药物的药物作用机制是否相同或者相似，并预测第二药物的药物作用机制，包括：

S640、根据分析的结果，判断各个药物集与第二药物的药物作用机制是否相同或者相似，并预测第二药物的药物作用机制。

具体地，由于每个药物集的预测模型分别与每个药物集的药物作用机制是对应的，利用每个药物集的预测模型对第二药物的基因表达谱数据进行药物作用机制的分析，可以判断与每个药物集的预测模型对应的药物作用机制和第二药物的药物作用机制是否相同或者相似。从与各个第三药物的预测模型中，确定与第二药物具有相同或者相似的药物作用机制的预测模型，从而预测第二药物具有与该预测模型对应的药物作用机制。

在一个实施例中，如图7所示，在利用各个药物集的药物作用机制和基因表达谱数据分别对深度神经网络进行训练，得到各个药物集的预测模型之后，该方法还包括：

S710、对各个药物集的预测模型的性能指标进行评价。

具体地，利用ROC曲线和AUC值对各个药物集的预测模型的性能指标进行评价。其中，ROC的AUC是为了利用外部测试集验证预测模型的性能和泛化能力。ROC曲线又称为感受性曲线，得此名的原因在于曲线上各点反映着相同的感受性，它们都是对同一药物分子刺激的反应，只不过是在几种不同的判定标准下所得的结果而已。ROC曲线是以虚惊概率为横轴、击中概率为纵轴所组成的坐标图，和被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。ROC曲线有个很好的特性：当测试集中的正负样本的分布变换的时候，ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不平衡，即正负样本比例差距较大，而且测试数据中的正负样本也可能随着时间变化。

S720、根据评价的结果，从各个药物集的预测模型中选择多个符合预设条件的预测模型。

其中，预设条件用于从各个预测模型中选择具有预测价值的模型。比如，预设条件可以是对AUC值的限定，比如AUC值大于0.6的模型为具有预测价值的模型。具体地，根据ROC曲线和AUC值对各个药物集的评价结果，从各个药物集的预测模型中选择多个符合预设条件的预测模型。比如，预设条件为AUC值大于0.6，从各个药物集的预测模型中AUC值大于0.6的预测模型。

通过各个药物集的预测模型分别对第二药物的基因表达谱数据进行药物作用机制的分析，包括：

S730、通过各个符合预设条件的预测模型分别对第二药物的基因表达谱数据进行药物作用机制的分析。

具体地，通过每个符合预设条件的预测模型对第二药物的基因表达谱数据作用得到预测的标签，并根据预测的标签对第二药物的基因表达谱数据做出药物作用机制的分析。

S740、根据分析的结果，判断与各个符合预设条件的预测模型对应的药物作用机制与第二药物的药物作用机制是否相同或者相似，并预测第二药物的药物作用机制。

具体地，由于每个符合预设条件的预测模型分别与每个第三药物的药物作用机制是对应的，利用每个符合预设条件的预测模型对第二药物的基因表达谱数据进行药物作用机制的分析，可以判断与每个符合预设条件的预测模型对应的药物作用机制和第二药物的药物作用机制是否相同或者相似。从与各个符合预设条件的预测模型中，确定与第二药物具有相同或者相似的药物作用机制的预测模型，从而预测第二药物具有与该预测模型对应的药物作用机制。

在一个实施例中，如图8所示，通过各个符合预设条件的预测模型分别对第二药物的基因表达谱数据进行药物作用机制的分析，包括：

S810、通过各个符合预设条件的预测模型分别对第二药物的基因表达谱数据进行药物作用机制的分析，得到各个符合预设条件的预测模型对第二药物的基因表达谱数据的评分。

具体地，利用每个符合预设条件的预测模型对第二药物的数量大于等于1的基因表达谱数据分别进行药物作用机制的分析得到对应的概率值，对得到的若干个概率值求平均概率值，得到每个符合预设条件的预测模型对第二药物的基因表达谱数据的评分。

根据分析的结果，判断与各个符合预设条件的预测模型对应的药物作用机制与第二药物的药物作用机制是否相同或者相似，并预测第二药物的药物作用机制，包括：

S820、根据各个符合预设条件的预测模型对第二药物的基因表达谱数据的评分，从各个符合预设条件的预测模型中，查找与第二药物的药物作用机制是否相同或者相似的预测模型；

S830、根据与查找到的预测模型对应的药物作用机制，预测第二药物的药物作用机制。

具体地，将每个符合预设条件的预测模型对第二药物的基因表达谱数据的评分进行排序，从各个符合预设条件的预测模型查找评分最高的预测模型，将评分最高的预测模型确定为与第二药物的药物作用机制是否相同或者相似的预测模型。由于预测模型与药物集的药物作用机制相对应，则根据与查找到的预测模型对应的药物作用机制，预测第二药物的药物作用机制，即将与查找到的预测模型对应的药物作用机制确定为第二药物的药物作用机制。

在一个实施例中，本申请提供一种药物的预测方法，如图9所示，该方法包括以下步骤：

S902、获取药物预测的操作指令。

其中，操作指令包括第一药物标识，第一药物标识的数量大于或者等于1个。

S904、根据第一药物标识，获取第一药物的基因表达谱数据。

S906、利用第一药物的基因表达谱数据对深度神经网络进行训练，得到第一药物的预测模型。

S908、获取第二药物的基因表达谱数据。

S910、通过第一药物的预测模型对第二药物的基因表达谱数据进行药物作用机制的分析，得到第一药物的预测模型对第二药物的基因表达谱数据的评分；

S912、根据第二药物得到的评分，判断第一药物与第二药物的药物作用机制是否相同。

S914、若相同，将第二药物预测为具有第一药物的药物作用机制的潜在药物。

S916、若相同，且已知的第一药物的药物作用机制，则根据第一药物的药物作用机制预测第二药物的药物作用机制。

在一个实施例中，本申请提供一种药物的预测方法，如图10所示，以预测具有相同药物作用机制的潜在药物为例进行说明，该方法包括以下步骤：

S1002、获取药物预测的操作指令。

S1004、根据第一药物标识，获取第一药物的基因表达谱数据。

示例性的，根据用户输入的药物民称，从Broad Institute PHASE L1000平台获取对应的基因表达谱数据。其中从Broad Institute PHASE L1000平台提取表达谱数据时，用户可以选择三种药物标识，分别为ID BROAD、Pubchem ID、Alternative names。用户输入的药物名称与Broad Institute PHASE I L1000的药物名称不匹配时，会提示不匹配信息并提示输入的哪个药物名称不匹配。同时可选择只提取敏感细胞系的表达谱，并提供了72种细胞系的选择，分别为A549、VCAP、ASC、PHH、PC3、HEC108、HT29、HA1E、A375、SKB、NEU、SNGM、HCC515、FIBRNPC、MCF7、HEPG2、MDAMB231、HT115、A673、PL21、OV7、MDST8、SKLU1、SNU1040、THP1、BT20、NPC、WSUDLCL2、AGS、SKM1、SKMEL1、SW620、HUH7、T3M10、SKMEL28、U937、CL34、MCF10A、NCIH1836、RMUGS、RKO、NCIH1694、SNUC4、SW480、CORL23、NEU.KCL、DV90、HEK293T、HCT116、LOVO、JHUEM2、HCC15、NOMO1、H1299、NCIH2073、NCIH596、RMGI、SNUC5、NCIH508、SKBR3、TYKNU、COV644、NKDBA、EFO27、SW948、U266、HL60、JURKAT、CD34、HS578T、HS27A、MCH58。

需要说明的是，也可以通过接收用户上传具有相同或者相似药物基因功能的基因表达谱文件。可以对文件格式进行定义，包括：每个基因一行、每个药物一列、基因使用Entrez ID、表达谱使用Z-Score等。需要对提交的文件进行验证，以发现可能存在的不匹配情况，包括：文件格式不正确、匹配基因少于90％。若用户上传的表达谱文件所涵盖的基因同L1000技术挑选的978个标志基因交集大于等于90％时，则通过验证。

S1006、利用第一药物的基因表达谱数据对深度神经网络进行训练，得到第一药物的预测模型。

S1008、从公共数据库中获取多个第二药物的基因表达谱数据。

其中，公共数据库可以是LINCS整合网络细胞印记库项目(Library ofIntegrated Network-based Cellular Signatures，LINCS)表达谱数据集。

S1012、通过第一药物的预测模型对各个第二药物的基因表达谱数据分别进行药物作用机制的分析，得到第一药物的预测模型对各个第二药物的基因表达谱数据的评分。

S1014、根据各个第二药物的基因表达谱数据得到的评分，从各个第二药物中预测与第一药物的药物作用机制相同或者相似的第二药物。

其中，预测的输出结果除药物的三种标识符外，还包括四列信息ES(Enrichmentscore calculated by Kolmogorov-Smirnov test)、AVG_PROB、P值和基因表达谱数REP，预测的输出结果按照AVG_PROB倒序排列。

S1016、对第一药物和第二药物的基因表达谱数据进行可视化展示。

其中，使用python语言中的matplotlib进行可视化展示，可查看表达谱降维后的散点图，直观地查看训练集(第一药物)和预测集(第二药物)的分布情况。

在一个实施例中，本申请提供一种药物的预测方法，如图11所示，以预测药物作用机制为例进行说明，该方法包括以下步骤：

S1102、收集药物标识，并生成药物标识列表。

S1104、根据药物标识列表中的第三药物标识，获取各个第三药物的药物作用机制。

S1106、根据药物标识列表中的第三药物标识，从公共数据库中获取各个第三药物的基因表达谱数据。

S1108、根据各个第三药物的药物作用机制，获得多个药物集，其中，药物集中的药物具有相同或者相似药物作用机制。

S1110、利用各个药物集的药物作用机制和基因表达谱数据分别对深度神经网络进行训练，得到各个药物集的预测模型。

S1112、对各个药物集的预测模型的性能指标分别进行评价。

其中，在利用ROC曲线和AUC值进行模型评价时，采用python语言中的tensorflow包和sklearn包。其中药物折数选择的标准：5>＝药物个数>＝2设置折数为药物个数；10>药物个数>＝5设置折数为5；药物个数>＝10设置折数为10。验证折数方法为sklearn.model_selection.StratifiedKFold，具体参数为n_splits＝折数,shuffle＝True，random_state＝0。模型评价调用的方法为classifier.evaluate、classifier.predict_proba、roc_curve、classifier.predict_classes、sklearn.metrics.f1_score等。也可通过Mean ROC判断构建的模型的预测效果。

S1114、根据评价的结果，从各个药物集的预测模型中，选择多个符合预设条件的预测模型。

S1116、获取第二药物的基因表达谱数据。

其中，第二药物的基因表达谱数据的获取包括两种方式：一种用户选择药物名称，根据用户提供的药物名称从Broad Institute PHASE L1000平台获取对应的表达谱数据。一种是用户上传的药物基因表达谱文件，可以对用户上传的药物基因表达谱文件进行处理，比如，对缺失基因采取中位数填充处理，具体调用方法为python的sklearn.impute.SimpleImputer包。

S1118、通过各个符合预设条件的预测模型分别对第二药物的基因表达谱数据进行药物作用机制的分析，得到各个符合预设条件的预测模型对第二药物的基因表达谱数据的评分。

S1120、根据各个符合预设条件的预测模型对第二药物的基因表达谱数据的评分，从各个符合预设条件的预测模型中，查找与第二药物的药物作用机制是否相同或者相似的预测模型。

S1122、根据与查找到的预测模型对应的药物作用机制，预测第二药物的药物作用机制。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种药物的预测装置1200，预测装置1200包括：

第一获取模块1210，用于获取第一药物的基因表达谱数据；

模型训练模块1220，用于利用第一药物的基因表达谱数据对深度神经网络进行训练，得到第一药物的预测模型；

第二获取模块1230，用于获取第二药物的基因表达谱数据；

药物分析模块1240，用于通过第一药物的预测模型对第二药物的基因表达谱数据进行药物作用机制的分析；

药物机制预测模块1250，用于根据分析的结果，对第二药物的药物作用机制进行预测。

关于药物的预测装置的具体限定可以参见上文中对于药物的预测方法的限定，在此不再赘述。上述药物的预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种药物的预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的方法步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的方法步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种药物的预测方法，其特征在于，所述方法包括：

获取第一药物的基因表达谱数据；

利用所述第一药物的基因表达谱数据对深度神经网络进行训练，得到第一药物的预测模型；

获取第二药物的基因表达谱数据；

通过所述第一药物的预测模型对所述第二药物的基因表达谱数据进行药物作用机制的分析；

根据分析的结果，对所述第二药物的药物作用机制进行预测。

2.根据权利要求1所述的方法，其特征在于，在所述获取第一药物的基因表达谱数据之前，所述方法还包括：

获取药物预测的操作指令，所述操作指令包括第一药物标识；

所述获取第一药物的基因表达谱数据，包括：

根据所述第一药物标识，获取所述第一药物的基因表达谱数据。

3.根据权利要求1所述的方法，其特征在于，所述第二药物的数量大于2，所述获取第二药物的基因表达谱数据，包括：

获取各个所述第二药物的基因表达谱数据；

所述通过所述第一药物的预测模型对所述第二药物的基因表达谱数据进行药物作用机制的分析，包括：

通过所述第一药物的预测模型对各个所述第二药物的基因表达谱数据分别进行药物作用机制的分析，得到所述第一药物的预测模型对各个所述第二药物的基因表达谱数据的评分；

在所述根据分析的结果，对所述第二药物的药物作用机制进行预测之后，所述方法还包括：

根据各个所述第二药物的基因表达谱数据得到的评分，从各个所述第二药物中预测与所述第一药物的药物作用机制相同或者相似的第二药物。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

对所述第一药物和第二药物的基因表达谱数据进行可视化展示。

5.根据权利要求1所述的方法，其特征在于，在所述获取第一药物的基因表达谱数据之前，所述方法还包括：

生成药物标识列表；

根据所述药物标识列表中的第三药物标识，获取各个第三药物的药物作用机制；

所述获取第一药物的基因表达谱数据，包括：

根据所述药物标识列表中的第三药物标识，获取各个第三药物的基因表达谱数据；

所述利用所述第一药物的基因表达谱数据对深度神经网络进行训练，得到第一药物的预测模型，包括：

利用各个所述第三药物的药物作用机制和基因表达谱数据分别对深度神经网络进行训练，得到各个所述第三药物的预测模型，且各个所述第三药物的预测模型分别与各个所述第三药物的药物作用机制相对应；

通过各个所述第三药物的预测模型分别对所述第二药物的基因表达谱数据进行药物作用机制的分析；

所述根据分析的结果，对所述第二药物的药物作用机制进行预测，包括：

根据分析的结果，判断各个所述第三药物与所述第二药物的药物作用机制是否相同或者相似，并预测所述第二药物的药物作用机制。

6.根据权利要求5所述的方法，其特征在于，在所述利用各个所述第三药物的药物作用机制和基因表达谱数据分别对深度神经网络进行训练，得到各个所述第三药物的预测模型之前，所述方法还包括：

根据各个所述第三药物的药物作用机制，获得多个药物集，其中，所述药物集中的药物具有相同或者相似药物作用机制；

所述利用各个所述第三药物的药物作用机制和基因表达谱数据分别对深度神经网络进行训练，得到各个所述第三药物的预测模型，包括：

利用各个所述药物集的药物作用机制和基因表达谱数据分别对深度神经网络进行训练，得到各个所述药物集的预测模型；

所述通过各个所述第三药物的预测模型分别对所述第二药物的基因表达谱数据进行药物作用机制的分析，包括:

通过各个所述药物集的预测模型分别对所述第二药物的基因表达谱数据进行药物作用机制的分析；

所述根据分析的结果，判断各个所述第三药物与所述第二药物的药物作用机制是否相同或者相似，并预测所述第二药物的药物作用机制，包括：

根据分析的结果，判断各个所述药物集与所述第二药物的药物作用机制是否相同或者相似，并预测所述第二药物的药物作用机制。

7.根据权利要求6所述的方法，其特征在于，在所述利用各个所述药物集的药物作用机制和基因表达谱数据分别对深度神经网络进行训练，得到各个所述药物集的预测模型之后，所述方法还包括：

对各个所述药物集的预测模型的性能指标进行评价；

根据评价的结果，从各个所述药物集的预测模型中，选择多个符合预设条件的预测模型；

所述通过各个所述药物集的预测模型分别对所述第二药物的基因表达谱数据进行药物作用机制的分析，包括：

通过各个符合预设条件的预测模型分别对所述第二药物的基因表达谱数据进行药物作用机制的分析；

根据分析的结果，判断与各个符合预设条件的预测模型对应的药物作用机制与所述第二药物的药物作用机制是否相同或者相似，并预测所述第二药物的药物作用机制。

8.根据权利要求7所述的方法，其特征在于，所述通过各个符合预设条件的预测模型分别对所述第二药物的基因表达谱数据进行药物作用机制的分析，包括：

通过各个符合预设条件的预测模型分别对所述第二药物的基因表达谱数据进行药物作用机制的分析，得到各个所述符合预设条件的预测模型对所述第二药物的基因表达谱数据的评分；

所述分析的结果，判断与各个符合预设条件的预测模型对应的药物作用机制与所述第二药物的药物作用机制是否相同或者相似，并预测所述第二药物的药物作用机制，包括：

根据各个所述符合预设条件的预测模型对所述第二药物的基因表达谱数据的评分，从各个所述符合预设条件的预测模型中，查找与所述第二药物的药物作用机制是否相同或者相似的预测模型；

根据与查找到的预测模型对应的药物作用机制，预测所述第二药物的药物作用机制。

9.一种药物的预测装置，其特征在于，所述装置包括：

第一获取模块，用于获取第一药物的基因表达谱数据；

模型训练模块，用于利用所述第一药物的基因表达谱数据对深度神经网络进行训练，得到第一药物的预测模型；

第二获取模块，用于获取第二药物的基因表达谱数据；

药物分析模块，用于通过所述第一药物的预测模型对所述第二药物的基因表达谱数据进行药物作用机制的分析；

药物机制预测模块，用于根据分析的结果，对所述第二药物的药物作用机制进行预测。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。