CN114360743A

CN114360743A - 一种药物作用后差异转录表达谱及药物适应症的预测方法

Info

Publication number: CN114360743A
Application number: CN202210257005.7A
Authority: CN
Inventors: 季序我; 彭鑫鑫; 余丹阳
Original assignee: Beijing Pukang Ruiren Medical Laboratory Co ltd; Precision Scientific Technology Beijing Co ltd; Predatum Biomedicine Suzhou Co ltd
Current assignee: Beijing Pukang Ruiren Medical Laboratory Co ltd; Precision Scientific Technology Beijing Co ltd; Predatum Biomedicine Suzhou Co ltd
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-04-15
Anticipated expiration: 2042-03-16
Also published as: CN114360743B

Abstract

一种药物作用后差异转录表达谱及药物适应症的预测方法，包括：建立预测药物作用后差异转录表达谱的深度学习模型；基于深度学习模型预测药物作用后差异转录表达谱，预测包括不同细胞系、扰动时长与药物剂量条件下的差异转录表达谱；以及将预测获得的药物作用后差异转录表达谱与已有药物的差异转录表达谱进行相似性比较，预测药物的适应症。还公开了对应的系统、电子设备以及可读存储介质，直接通过药物的分子信息，预测药物在不同种类细胞系、不同剂量、不同处理时间后的差异转录表达谱，一定程度上减少临床前开发的资金与时间投入，与已知适应症药物的表达谱进行相似度计算，选出潜在的适应症，减少不必要的临床实验，提高临床实验的成功率。

Description

一种药物作用后差异转录表达谱及药物适应症的预测方法

技术领域

本发明涉及用于预测目的的数据处理技术领域，尤其涉及一种药物作用后差异转录表达谱及药物适应症的预测方法。

背景技术

据调查，一种新药的研发目前的平均成本为13.59亿美金，平均研发时间为12年，可以看出，研发新药需要大量的资金和时间成本。而对已上市或已经完成了部分研发过程的药物寻找新的适应症是减少研发投入成本的一种有效方法之一。然而，药物分子作用机制十分复杂，并且在不同细胞尤其是不同的癌症细胞中的作用效果也不尽相同，因此研究药物在不同癌症细胞中的作用通常需要进行耗资巨大、耗时长久和动用大量人力成本的生物实验。

随着机器学习尤其是机器学习模型或者深度学习技术的发展，越来越多的科学规律可以通过深度学习的方法获得。首先，自然人工智能杂志（Nature Intelligence）上发表的文章“用于高通量机制驱动的表型化合物筛选的深度学习框架及其在 COVID-19 药物再利用中的应用（DeepCE）”中，模型方法只能预测7类不同的细胞系，三种处理时长，三种处理计量的差异转录表达谱，且准确率不高，在预测集中与实验数据的皮尔森相关系数仅有0.51。此外，自然生物技术杂志（Nature Biotechnology）发表的文章“使用深度学习从转录谱预测药物功效”中，模型仅能预测药物在正常细胞系中的转录差异表达谱，无法应用到癌症细胞系。

因此，可以说现有技术中还没有在药物研制和生物实验方面与深度学习方法进行有效结合的完整的解决方案，以解决基于药物分子信息在不同癌症细胞系中，使用不同药物剂量，在不同处理时间后精准预测差异转录表达谱，并进而预测适应症的问题。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案，建立预测小分子药物扰动细胞系实验的差异转录表达谱的深度学习模型，基于深度学习模型进行药物作用后差异转录表达谱的预测，准确预测出在15类不同的细胞系，不同扰动时长与药物剂量条件下的差异转录表达谱；再通过与已有药物的差异转录表达谱进行相似性比较，找出与其相似的药物的适应症，进而预测出该药物可适用的癌症，进行药物适应症预测。该方法可在很大程度上缩短临床前开发的时间，减少临床前开发的资金投入；并且通过预测适应症，可以减少不必要的临床实验，提高临床实验的成功率，进而可以减少临床实验的投入，减少临床实验失败给患者带来的痛苦。

本发明一方面提供了一种药物作用后差异转录表达谱及药物适应症的预测方法，包括：

S1，建立预测药物作用后差异转录表达谱的深度学习模型；

S2，基于所述深度学习模型进行药物作用后差异转录表达谱的预测，所述预测包括在不同细胞系，不同扰动时长与不同药物剂量条件下的差异转录表达谱；以及

S3，将预测获得的所述药物作用后差异转录表达谱与已有药物的差异转录表达谱进行相似性比较，根据相似性比较结果预测所述药物的适应症。

进一步地，所述药物作用后差异转录表达谱适用于小分子药物扰动细胞系实验。

进一步地，所述S1，建立预测药物作用后差异转录表达谱的深度学习模型包括：

S11，获得建立所述深度学习模型的样本，对样本进行预处理获得样本数据；以及

S12，构建所述深度学习模型。

进一步地，所述S11包括：

S111，从基因表达综合数据库中获取特定数据库，并采集其中特定级别的数据；

S112，对特定级别的数据进行数据清理，包括：保留基因表达综合数据库中测序平台直接测量的多个基因数据作为初始基因数据；删除无法使用rdkit以及语法变异自动编码器无法读取的药物数据后获得初始药物数据；删除所述特定级别的数据中平均皮尔森相关系数小于第一阈值的差异转录表达谱实验数据获得初始差异转录表达谱实验数据；删除出现次数小于第二阈值的细胞系数据获得初始细胞系数据；所述初始基因数据、初始药物数据、初始差异转录表达谱实验数据以及初始细胞系数据构成所述深度学习模型的样本数据。

进一步地，所述S12包括：

S121，模型训练，所述模型训练包括一轮或者多轮，其中每一轮所述模型训练包括：

（1）从所述样本数据中随机选取80%的样本数据作为训练集，20%的样本数据作为测试集，所述训练集与所述测试集用于进行所述深度学习模型的训练与评估；

（2）基于语法变异自动编码器中的简化分子输入线输入系统（SMILES）以及权重文件对所述初始药物数据中药物化学分子式进行编码，获得56维特征向量以表示所述药物的分子信息；

（3）基于初始细胞系数据以及癌症细胞系百科全书中的转录表达数据，使用主成分分析算法对所述初始细胞系数据中的每个细胞系的基因表达谱进行降维处理，选取前11个主成分以表示对应细胞系的成分，从而保留超过90%的细胞系信息量；

（4）建立所述深度学习模型的基础模型，其中所述56维特征向量、所述11个主成分，药物剂量和药物的不同扰动时长作为所述基础模型的输入，多个基因的差异转录表达值作为所述基础模型的输出，所述基础模型使用5层全连接神经网络；

（5）以余弦相似性作为目标优化函数，使用Adam优化器作为下降方法，利用所述训练集中的数据训练所述深度学习模型；

S122，模型有效性验证，包括：

基于所述S121中训练好的所述深度学习模型对平均皮尔森相关系数小于第一阈值的差异转录表达谱的实验数据进行预测，如果预测的差异转录表达谱与实验结果的相关系数大于第三阈值，则将该实验数据重新加入之前保留下来的所述样本数据后重新进行所述步骤S121；如果预测的差异转录表达谱与实验结果的相关系数小于第三阈值，则继续步骤S123；

S123，基于所述模型训练和模型有效性验证，从而获得深度学习模型。

进一步地，所述S2，基于所述深度学习模型进行药物作用后差异转录表达谱的预测，所述预测包括在不同细胞系，不同扰动时长与不同药物剂量条件下的差异转录表达谱包括：

将通过语法编译自动编码器对药物化学分子式编码获得的特征向量、不同细胞系表达数据的主成分、药物的不同扰动时长和/或药物的不同剂量作为所述深度学习模型的输入，获得所述药物的差异转录表达谱。

进一步地，所述S3，将预测获得的所述药物作用后差异转录表达谱与已有药物的差异转录表达谱进行相似性比较，根据相似性比较结果预测所述药物的适应症包括：

基于已有所有药物干扰的差异转录表达谱数据，分别计算所述药物干扰的差异转录表达谱数据与每个所述已有药物的差异转录表达谱之间的斯皮尔曼相关系数，并将所述斯皮尔曼相关系数从大到小进行排序构成斯皮尔曼相关系数顺序数组；

选取所述斯皮尔曼相关系数顺序数组中前M位对应的已有药物，若有N个已有药物基于相关文献或细胞系药敏数据支持其可以治疗同一种疾病D，则药物的潜在适应症为所述疾病D，其中N<M。

本发明的第二方面，提供一种药物作用后差异转录表达谱及药物适应症的预测系统，包括：

深度学习模型建立模块，用于建立预测药物作用后差异转录表达谱的深度学习模型；

药物作用后差异转录表达谱的预测模块，用于基于所述深度学习模型进行药物作用后差异转录表达谱的预测，所述预测包括在不同细胞系，不同扰动时长与不同药物剂量条件下的差异转录表达谱；

药物的适应症预测模块，用于将预测获得的所述药物作用后差异转录表达谱与已有药物的差异转录表达谱进行相似性比较，根据相似性比较结果预测所述药物的适应症。

本发明的第三方面提供一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如第一方面所述的方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如第一方面所述的方法。

本发明提供的药物作用后差异转录表达谱及药物适应症的预测方法、系统和电子设备，具有如下有益效果：

本发明可以直接通过药物的分子信息，预测出药物在不同种类细胞系、使用不同剂量、在不同处理时间后的差异的表达谱，可以一定程度上减少临床前开发的资金与时间投入。本发明通过将预测的差异转录表达谱与已知适应症的药物的表达谱进行相似度计算，选出潜在的适应症，减少不必要的临床实验，进而提高临床实验的成功率。

附图说明

图1为本发明所述的药物作用后差异转录表达谱及药物适应症的预测方法流程示意图。

图2为本发明提供的药物作用后差异转录表达谱及药物适应症的预测系统原理结构图。

图3为本发明提供的电子设备一种实施例的结构示意图。

具体实施方式

为了更好地理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

实施例一

如图1所示，本实施例提供了一种药物作用后差异转录表达谱及药物适应症的预测方法，包括：

S1，建立预测药物作用后差异转录表达谱的深度学习模型；

S2，基于所述深度学习模型进行药物作用后差异转录表达谱的预测，所述预测包括在不同细胞系，不同扰动时长与不同药物剂量条件下的差异转录表达谱；本实施例中，不同细胞系包括15类；以及

进一步地，本实施例中所使用的软件依赖环境python3.7，Keras2.3.0，tensorflow-gpu1.15.0，rdkit2021.03.5，步骤S1包括：

S11，获得建立所述深度学习模型的样本，对样本进行预处理获得样本数据；包括：

S111，从基因表达综合数据库（GEO）中下载编号为GSE92742与GSE70138的数据库，并采集其中的level 4数据；

S112，对level4数据进行数据清理，包括：保留基因表达综合数据库（GEO）中测序平台直接测量的978个基因数据；删除无法使用rdkit以及语法变异自动编码器（GVAE）无法读取的药物数据后获得的初始药物数据；删除所述level4数据中平均皮尔森相关系数小于0.6的差异转录表达谱实验数据获得初始差异转录表达谱实验数据；删除出现次数小于40的细胞系数据获得初始细胞系数据；所述初始基因数据、初始药物数据、初始差异转录表达谱实验数据以及初始细胞系数据构成所述深度学习模型的样本数据。

S12，构建所述深度学习模型，包括：

（2）基于语法变异自动编码器（GVAE）中的简化分子输入线输入系统（SMILES）以及zinc_vae_grammar_L56_E100_val权重文件对所述初始药物数据中药物化学分子式进行编码，获得56维特征向量以表示所述药物的分子信息；

（3）基于初始细胞系数据以及癌症细胞系百科全书（CCLE数据库）中下载的转录表达数据，使用主成分分析算法对所述初始细胞系数据中的每个细胞系的基因表达谱进行降维处理，选取前11个主成分以表示对应细胞系的成分，从而保留超过90%的细胞系信息量；

（4）建立所述深度学习模型的基础模型，其中所述56维特征向量、所述11个主成分、药物剂量和药物处理时间信息作为所述基础模型的输入，978个基因的差异转录表达值作为所述基础模型的输出，所述基础模型使用5层全连接神经网络，所述神经网络包括输入层、第一层、第二层、第三层、第四层以及第五层，具体参数如下：

输入层：节点数68；

第一层：节点数1024，激活函数Relu，dropout比率为0.25；

第二层：节点数1024，激活函数Relu，dropout比率为0.25；

第三层：节点数1024，激活函数Relu，dropout比率为0.25；

第四层：节点数1024，激活函数tanh，dropout比率为0.25；

第五层：节点数978，激活函数linear。

（5）以余弦相似性作为目标优化函数，使用Adam优化器作为下降方法，利用所述训练集中的数据训练所述深度学习模型。

S122，模型有效性验证，包括：

基于所述S121中训练好的所述深度学习模型对平均皮尔森相关系数小于0.6的差异转录表达谱的实验数据进行预测（例如本实施例中使用测试集中的数据验证模型有效性，皮尔森相关系数为0.59），如果预测的差异转录表达谱与实验结果的相关系数大于0.5，则将该实验数据重新加入之前保留下来的所述样本数据后重新进行所述步骤S121；如果预测的差异转录表达谱与实验结果的相关系数小于0.5，则继续步骤S123。

S123，基于所述基础模型进行模型训练和模型有效性验证，从而获得深度学习模型。

将通过GVAE对药物化学分子式编码获得的特征向量、不同细胞系表达数据的主成分，药物的不同扰动时长（即药物的处理时间）与药物的不同剂量作为所述深度学习模型的输入，获得所述药物的差异转录表达谱。

本实施例中，利用基因表达综合数据库中编号为GSE92742数据库中的转换矩阵通过978基因的差异转录表达谱计算出余下11350个基因的差异转录表达谱。

基于已有所有药物干扰的差异转录表达谱数据（预先都已经存储在专业数据库中，通过下载即可获得），分别计算药物干扰的差异转录表达谱数据与每个所述已有药物的差异转录表达谱之间的斯皮尔曼相关系数，并将所述斯皮尔曼相关系数从大到小进行排序构成斯皮尔曼相关系数顺序数组，选取所述斯皮尔曼相关系数顺序数组中前M位(本实施例中M=10)对应的药物，若有N个已有药物基于相关文献或细胞系药敏数据支持其可以治疗同一种疾病D，则药物的潜在适应症为所述疾病D，其中N<10。本实施例中，根据实验，效果最佳的数值，N在4-8之间。当然，本数值的选择并不限定整个发明的保护范围，本领域技术人员可以根据需要适当扩大或者缩小M和N的范围，只要在合理的范围内即可。

对于某一小分子药物ZSTK-474 (FC(F)C1=NC2=CC=CC=C2N1 C1=NC(=NC(=N1)N1CCOCC1)N1CCOCC1)，使用经过两轮训练的模型，推测其在HT29细胞系中使用1mg，处理24h后的表达谱，计算与已知在HT29细胞系中12406种药物处理的差异转录表达谱的相似性。选择出相似性最高的十个药物，其中有六个药物在血液瘤中开展了临床实验或有文献支持其可治疗血液瘤。故该药物的潜在适应症为血液瘤。

对于某一小分子药物AG-82 （OC1=CC(/C=C(C#N)/C#N)=CC(O)=C1），使用经过两轮训练的模型，推测其在A549细胞系中使用1mg/0.1mg/10mg三种不同浓度下处理24h后的三个差异转录表达谱，计算与已知细胞系中药物处理的差异转录表达谱的相似性。在三种不同浓度下分别选择出相似性最高的十个药物，都有不少于5个药在前列腺癌中开展了临床实验或有文献支持其可治疗前列腺癌。故该药物的潜在适应症为前列腺癌。

对于某一小分子药物ZM447439 (COc1cc2c(Nc3ccc(NC(=O)c 4ccccc4)cc3)ncnc2cc1OCCCN1CCOCC1 )，使用经过两轮训练的模型，推测其在14个不同的细胞系中使用1mg，处理24h后的表达谱，计算与已知在不同细胞系中药物处理的差异转录表达谱的相似性。在不同细胞系中分别选择出相似性最高的十个药物，在11个细胞系中都有不少于四个药在非小细胞肺癌中开展了临床实验或有文献支持其可治疗非小细胞肺癌。故该药物的潜在适应症为非小细胞肺癌。

实施例二

如图2所示，本实施例提供一种药物作用后差异转录表达谱及药物适应症的预测系统，包括：

深度学习模型建立模块201，用于建立预测药物作用后差异转录表达谱的深度学习模型；

药物作用后差异转录表达谱的预测模块202，用于基于所述深度学习模型进行药物作用后差异转录表达谱的预测，所述预测包括在不同细胞系，不同扰动时长与不同药物剂量条件下的差异转录表达谱；

药物的适应症预测模块203，用于将预测获得的所述药物作用后差异转录表达谱与已有药物的差异转录表达谱进行相似性比较，根据相似性比较结果预测所述药物的适应症。

该系统可实现上述实施例一提供的预测方法，具体的预测方法可参见实施例一中的描述，在此不再赘述。

本发明还提供了一种存储器，存储有多条指令，指令用于实现如实施例一的方法。

如图3所示，本发明还提供了一种电子设备，包括处理器301和与处理器301连接的存储器302，存储器302存储有多条指令，指令可被处理器加载并执行，以使处理器能够执行如实施例一的方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种药物作用后差异转录表达谱及药物适应症的预测方法，其特征在于，包括：

S1，建立预测药物作用后差异转录表达谱的深度学习模型；

S2，基于所述深度学习模型进行药物作用后差异转录表达谱的预测，所述预测包括在不同细胞系、不同扰动时长与不同药物剂量条件下的差异转录表达谱；以及

S3，将预测获得的所述药物作用后差异转录表达谱与已有药物的差异转录表达谱进行相似性比较，根据相似性比较结果预测所述药物的适应症；

所述S1，建立预测药物作用后差异转录表达谱的深度学习模型包括：

S12，构建所述深度学习模型；

所述S11包括：

S112，对特定级别的数据进行数据清理，包括：保留基因表达综合数据库中测序平台直接测量的多个基因数据作为初始基因数据；删除无法使用rdkit以及语法变异自动编码器无法读取的药物数据后获得初始药物数据；删除所述特定级别的数据中平均皮尔森相关系数小于第一阈值的差异转录表达谱实验数据获得初始差异转录表达谱实验数据；删除出现次数小于第二阈值的细胞系数据获得初始细胞系数据；所述初始基因数据、初始药物数据、初始差异转录表达谱实验数据以及初始细胞系数据构成所述深度学习模型的样本数据；

所述S12包括：

S121，模型训练；

S122，模型有效性验证，包括：

基于所述S121中训练好的所述深度学习模型对平均皮尔森相关系数小于第一阈值的差异转录表达谱的实验数据进行预测，如果预测的差异转录表达谱与实验结果的相关系数大于第三阈值，则将该实验数据重新加入之前保留下来的所述样本数据后重新进行步骤S121；如果预测的差异转录表达谱与实验结果的相关系数小于第三阈值，则继续步骤S123；

2.根据权利要求1所述的一种药物作用后差异转录表达谱及药物适应症的预测方法，其特征在于，所述药物作用后差异转录表达谱适用于小分子药物扰动细胞系实验。

3.根据权利要求1所述的一种药物作用后差异转录表达谱及药物适应症的预测方法，其特征在于，所述模型训练包括一轮或者多轮，其中每一轮所述模型训练包括：

（2）基于语法变异自动编码器中的简化分子输入线输入系统以及权重文件对所述初始药物数据中药物化学分子式进行编码，获得56维特征向量以表示所述药物的分子信息；

（4）建立所述深度学习模型的基础模型，其中所述56维特征向量、所述11个主成分、药物剂量和药物的不同扰动时长作为所述基础模型的输入，多个基因的差异转录表达值作为所述基础模型的输出，所述基础模型使用5层全连接神经网络；

4.根据权利要求1所述的一种药物作用后差异转录表达谱及药物适应症的预测方法，其特征在于，所述S2，基于所述深度学习模型进行药物作用后差异转录表达谱的预测，所述预测包括在不同细胞系、不同扰动时长与不同药物剂量条件下的差异转录表达谱包括：

5.根据权利要求1所述的一种药物作用后差异转录表达谱及药物适应症的预测方法，其特征在于，所述S3，将预测获得的所述药物作用后差异转录表达谱与已有药物的差异转录表达谱进行相似性比较，根据相似性比较结果预测所述药物的适应症包括：

6.一种用于实施如权利要求1-5任一所述预测方法的药物作用后差异转录表达谱及药物适应症的预测系统，其特征在于，包括：

药物作用后差异转录表达谱的预测模块，用于基于所述深度学习模型进行药物作用后差异转录表达谱的预测，所述预测包括在不同细胞系、不同扰动时长与不同药物剂量条件下的差异转录表达谱；

7.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如权利要求1-5任一所述的预测方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如权利要求1-5任一所述的预测方法。