CN116825234B - 一种多模态信息融合的药物分子活性预测方法及电子设备 - Google Patents
一种多模态信息融合的药物分子活性预测方法及电子设备 Download PDFInfo
- Publication number
- CN116825234B CN116825234B CN202311105145.3A CN202311105145A CN116825234B CN 116825234 B CN116825234 B CN 116825234B CN 202311105145 A CN202311105145 A CN 202311105145A CN 116825234 B CN116825234 B CN 116825234B
- Authority
- CN
- China
- Prior art keywords
- molecular
- dimensional
- node
- compound
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000694 effects Effects 0.000 title claims abstract description 83
- 239000003814 drug Substances 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000004927 fusion Effects 0.000 title claims abstract description 41
- 150000001875 compounds Chemical class 0.000 claims abstract description 108
- 229940079593 drug Drugs 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims abstract description 7
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 7
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 102
- 239000011159 matrix material Substances 0.000 claims description 43
- 238000012512 characterization method Methods 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 125000004429 atom Chemical group 0.000 description 37
- 238000012216 screening Methods 0.000 description 9
- 101000859758 Homo sapiens Cartilage-associated protein Proteins 0.000 description 5
- 101000916686 Homo sapiens Cytohesin-interacting protein Proteins 0.000 description 5
- 101000726740 Homo sapiens Homeobox protein cut-like 1 Proteins 0.000 description 5
- 101000761460 Homo sapiens Protein CASP Proteins 0.000 description 5
- 101000761459 Mesocricetus auratus Calcium-dependent serine proteinase Proteins 0.000 description 5
- 102100024933 Protein CASP Human genes 0.000 description 5
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000012827 research and development Methods 0.000 description 3
- 108090000426 Caspase-1 Proteins 0.000 description 2
- 108091005942 ECFP Proteins 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000009510 drug design Methods 0.000 description 2
- 238000009509 drug development Methods 0.000 description 2
- 238000013537 high throughput screening Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000007877 drug screening Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001339 gustatory effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 150000002611 lead compounds Chemical class 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000015541 sensory perception of touch Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 229940043263 traditional drug Drugs 0.000 description 1
- 238000003041 virtual screening Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于药物信息处理技术领域,具体涉及一种多模态信息融合的药物分子活性预测方法及电子设备,该方法首先通过药物化学数据库查询靶标蛋白,下载蛋白受体对应的所有化合物分子信息后,以IC50值为依据,为化合物分子添加标签;化合物处理工具把分子SMILES式转换为分子Mol文件,Mol文件进一步转换得到分子的二维图像和三维几何结构,把分子SMILES式、二维分子图像、三维分子几何结构输入基于多模态融合的药物活性预测模型中,对输入化合物分子的活性状态进行预测。本发明从化合物分子的三种不同模态信息提取特征用于活性预测,解决了传统活性预测方法成本高、周期长、耗时耗力等不足。
Description
技术领域
本发明属于药物信息处理技术领域,具体涉及一种多模态信息融合的药物分子活性预测方法及电子设备。
背景技术
在药物研发的过程中,高活性药物分子的筛选研究是最重要也是最复杂的一个环节,相比于其他环节,它耗时最长,需要投入的人力物力最多。在药物分子筛选探索过程中,药物分子活性预测能够辅助筛选出可能具有活性的化合物分子,经验证后作为先导化合物分子参与后续药物研发,从而大幅提高药物研发的成功率和效率。通常,药物活性筛选需要从大量的化合物分子之中筛选出活性分子,传统的活性筛选方法主要有HTS高通量筛选法、细胞筛选法、生物模型筛选法等。这几种方法在判断药物分子活性时,均需要对大规模的化合物分子库进行实验测定,往往耗时长、消耗大、成本高、靶向性范围小。此外,随着计算化学技术的不断发展,药物相关的化合物分子信息越来越丰富,传统的药物筛选方法逐渐显现出更大的局限性。
为了应对这种情况,计算机辅助被引入药物设计领域,逐渐与药物研发相结合。目前计算机辅助药物设计的应用已经十分广泛,极大的推动了药物活性预测的进展,降低了药物研发的周期与成本。本发明结合了计算机深度学习,提出一种快速高效且准确的药物分子活性预测方法。
发明内容
本发明的目的是提出一种多模态信息融合的药物分子活性预测方法,它能分别从分子的三种不同模态信息中提取特征用于活性预测,从而解决传统活性预测方法成本高、周期长、耗时耗力等不足。本发明使用并联的模型架构,能够降低网络深度,防止过拟合,也能更好的适应小数据集。本发明还引入了焦点损失,使模型能够避免在处理样本极度不平衡的数据集时,出现多数类样本淹没少数类样本,导致无法预测的情况。
本发明通过下述技术方案来实现。
一种多模态信息融合的药物分子活性预测方法,步骤如下:
步骤一:通过药物化学数据库查询靶标蛋白,并下载靶标蛋白对应的所有化合物分子信息至csv文件中;
步骤二:仅保留分子SMILES式和IC50值两列,除去其余化合物分子信息;
步骤三:删除重复的分子SMILES式,以及IC50值为空的行;
步骤四:以IC50值为依据,为化合物分子添加标签;
步骤五:使用化合物处理工具包RDKit把分子SMILES式转换为分子Mol文件;分子Mol文件进一步转换得到分子二维图像和分子三维几何结构;
步骤六:把分子SMILES式、分子二维图像、分子三维几何结构输入到基于多模态融合的药物活性预测模型进行训练;
步骤七:使用训练完毕的基于多模态融合的药物活性预测模型对输入的化合物分子进行预测,输出化合物分子的活性状态;
所述基于多模态融合的药物活性预测模型包括一维特征提取网络、二维特征提取网络、三维特征提取网络和双向长短期记忆网络;
一维特征提取网络根据分子SMILES式,提取化合物分子的扩展连通性指纹,然后通过词嵌入模型对化合物分子的扩展连通性指纹进行分子指纹嵌入操作,得到的嵌入后向量作为一维分子表征;
二维特征提取网络首先构造出分子图,再从分子图中提取出节点矩阵与边矩阵,节点矩阵由原子及其属性构成,采用独热编码,边矩阵是一个邻接矩阵;使用CBOW模型对节点矩阵进行节点嵌入,再用嵌入后的节点向量与边矩阵进行一次图级嵌入,最后得到二维分子表征;
三维特征提取网络首先使用化合物处理包RDKit来生成化合物分子的三维构象,再使用分子力场优化得到化合物分子中各个原子的三维模拟坐标;由三维模拟坐标计算出化合物分子的几何特征,包括键信息和角度信息;以键信息作为顶点,角度信息作为边构造出无向图,即为分子键角图,使用图神经网络来处理分子键角图,得到三维分子表征;
将一维分子表征、二维分子表征和三维分子表征输入双向长短期记忆网络;双向长短期记忆网络输出三个模态特征向量,三个模态特征向量融合得到多模态融合特征向量,多模态融合特征向量经过线性层与分类器后,得到化合物分子活性的预测结果。
进一步优选,词嵌入模型训练前需要指定训练窗口大小,训练时一个化合物分子将被视为一个句子,化合物分子的子结构标识符被视为字,整个化合物分子数据集构成了一个文本;训练窗口将从头开始遍历此文本,在窗口里,周围的子结构标识符将被遮掩,形成掩码,仅有中间的标识符是已知的,词嵌入模型将通过已知的一个标识符去预测周围的多个未知标识符,预测完毕后,将掩码的真实值作为标签,模型将根据掩码的真实值来调整参数;词嵌入模型是无监督学习模型,训练时不需要化合物分子的标签,它以掩码掩盖的真实值作为标签。
进一步优选,通过训练好的词嵌入模型编码化合物分子,将化合物分子转换为分子向量的过程为:首先需要指定生成扩展连通性指纹时的最大半径,最大半径等于迭代次数;以化合物分子中的每一个原子为中心,进行迭代,得到子结构,去除重复结构后把子结构散列到一个固定长度的哈希表中,从而得到扩展连通性指纹,词嵌入模型把扩展连通性指纹中的所有子结构标识符转换为对应的子结构词向量;所有的子结构词向量相加得到分子向量,即为一维分子表征。
进一步优选,在得到节点矩阵与边矩阵之后,使用CBOW模型(连续词袋)对节点矩阵进行词嵌入操作,表示为:
;
其中,表示第i个节点的原子属性,采用独热编码,W表示使用CBOW模型训练出的向量矩阵,/>表示嵌入后的节点向量;
得到表示原子及其属性的嵌入后的节点向量之后,再通过N-gram方式对边矩阵与嵌入后的节点向量/>进行图级嵌入操作,最后得到二维分子表征;图级嵌入的过程为:
;
;
;
其中,p是CBOW模型的训练窗口一次取值的集合,是集合p中所取到的几个原子的嵌入后的节点向量/>的积;最后化合物分子中所有训练窗口得到的/>会被求和,得到/>,/>表示窗口大小为n时,遍历所有原子后得到的分子表征,/>是最终的图嵌入矩阵/>中的一个维度,T为维度大小,n∈1,2,…,T;最终得到的图嵌入矩阵/>,即为二维分子表征。
进一步优选,使用图神经网络来处理分子键角图的过程为:
;
;
;
;
其中,G表示一个分子键角图,是节点的集合,/>是边的集合;/>表示第k次迭代时节点v通过聚合领域节点信息得到的特征向量,/>是节点v的邻域节点的集合,/>表示分子键角图中节点u与节点v所构成边的特征,/>表示节点v第k次迭代时的特征向量,表示节点v第k-1次迭代时的特征向量,/>表示节点u第k-1次迭代时的特征向量,表示第k次迭代时的聚合函数,用于聚合第k-1次迭代时节点v及其邻居节点的特征向量和节点v的每一条边的特征;/>函数用来计算节点第k次迭代时的特征向量,由在k-1次迭代时的向量和当前迭代得到的新向量共同决定;READOUT是池化函数,它的作用是在最终迭代时对所有节点的特征向量进行合并,从而获得分子的特征向量;K表示迭代总次数。
进一步优选,三个模态特征向量融合过程的表达式为:
;
其中,、/>、/>分别指双向长短期记忆网络输出的第一、二、三个模态特征向量,、/>、/>分别是第一、二、三个模态特征向量融合时的权重系数的转置,f表示映射函数,z表示多模态融合特征向量。
本发明还提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现所述多模态信息融合的药物分子活性预测方法。
本发明提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现所述多模态信息融合的药物分子活性预测方法。
本发明充分利用编码技术、拓扑图和分子图像等药物分子特征内在关联信息,从而建立更精确的基于多模态融合的药物活性预测模型,具有以下优点:
1.分别采用分子的指纹编码、拓扑结构和几何图形,获取化合物分子的三种模态特征。不同模态的分子特征信息具有互补性,为药物分子活性预测提供多源异构的分子特征信息,有助于揭示特征集间内在关联。
2.构建化合物分子三种模态特征信息并行处理的深度学习网络。该网络不仅具有提取复杂化合物分子特征的能力与自动学习不同模态数据中的高阶交互信息,而且用并行网络来代替级联架构,能够降低网络深度,防止过拟合,也能更好的适应小数据集。
3.引入焦点损失、动态缩放因子提高在非平衡数据集上网络模型的鲁棒性。对于正负比例极端的样本数据集,容易出现少数类样本被多数类样本淹没的情况,采用焦点损失、动态缩放因子,增加少数类样本的损失值权重来提升网络性能。
附图说明
图1是本发明提供的一种多模态信息融合的药物分子活性预测方法流程图;
图2是基于多模态融合的药物活性预测模型的结构示意图;
图3是词嵌入模型训练过程示意图;
图4是化合物分子转换为分子向量的过程图;
图5是基于多模态融合的药物活性预测模型在ABL数据集上的接受者操作特征曲线图;
图6是基于多模态融合的药物活性预测模型在CASP数据集上的接受者操作特征曲线图;
图7是基于多模态融合的药物活性预测模型在ABL数据集上的混淆矩阵图;
图8是基于多模态融合的药物活性预测模型在CASP数据集上的混淆矩阵图。
具体实施方式
下面结合附图和实施例进一步详细说明本发明。
参照图1,一种多模态信息融合的药物分子活性预测方法,步骤如下:
步骤一:通过药物化学数据库查询靶标蛋白,并下载靶标蛋白对应的所有化合物分子信息至csv文件中;
步骤二:仅保留分子SMILES式和IC50值两列,除去其余化合物分子信息;
步骤三:删除重复的分子SMILES式,以及IC50值为空的行;
步骤四:以IC50值为依据,为化合物分子添加标签;
步骤五:使用化合物处理工具包RDKit把分子SMILES式转换为分子Mol文件;分子Mol文件进一步转换得到分子二维图像和分子三维几何结构;
步骤六:把分子SMILES式、分子二维图像、分子三维几何结构输入到基于多模态融合的药物活性预测模型进行训练;
步骤七:使用训练完毕的基于多模态融合的药物活性预测模型对输入的化合物分子进行预测,输出化合物分子的活性状态。
同一个化合物分子有着许多种不一样的表示形式,诸如分子SMILES式、一维分子指纹、二维分子图像、分子三维几何结构、生物知识图谱和文本描述信息等,它们都是化合物分子的一种模态,是化合物分子信息的载体。不同的模态中蕴含的化合物分子信息侧重点不同。如果药物活性预测模型只对化合物分子的其中一种模态进行处理,则会受到信息载体的限制。受人类在感知外界时,视觉、听觉、嗅觉、味觉、触觉五感并用的启发,本发明引入多模态融合技术,它可以为药物活性预测模型提供多层次、多方面的不同信息,更利于药物活性预测模型做出正确的决策。双向长短期记忆网络擅长处理时间序列,本发明把化合物分子的三种不同模态的表征组成一段长度为三的序列,使之通过双向长短期记忆网络。又因为三种模态组成的序列是无所谓顺序的,三个模态的信息输入时孰先孰后都不会影响药物活性预测模型性能。因此,本发明在处理三个模态的信息时使用双向长短期记忆网络,双向长短期记忆网络可以视为两层LSTM的拼接,第一层LSTM处理的是原始序列,第二层LSTM处理的是反向序列。使用双向长短期记忆网络可以为网络提供额外的上下文,更加全面的学习分子表征,从而提高药物活性预测模型的分类能力。
如图2所示,基于多模态融合的药物活性预测模型包括一维特征提取网络、二维特征提取网络、三维特征提取网络和双向长短期记忆网络;
一维特征提取网络根据分子SMILES式,提取化合物分子的扩展连通性指纹,然后通过词嵌入模型对化合物分子的扩展连通性指纹进行分子指纹嵌入操作,得到的嵌入后向量作为一维分子表征,嵌入后向量能够代表分子指纹的高维密集向量,它能够有效的解决分子指纹中存在的向量稀疏、比特冲突等问题。
二维特征提取网络首先需要构造出分子图,再从分子图中提取出节点矩阵与边矩阵,节点矩阵由原子及其属性构成,采用独热编码,边矩阵是一个邻接矩阵;这两种矩阵的矩阵值仅有0和1,且均为稀疏矩阵,为解决此问题,使用CBOW模型对节点矩阵进行节点嵌入,再用嵌入后的节点向量与边矩阵进行一次图级嵌入,最后得到二维分子表征;
三维特征提取网络首先使用化合物处理包RDKit提取出分子的三维信息,以键信息作为顶点,角度信息作为边构造出无向图,即为分子键角图,使用图神经网络来处理分子键角图,得到三维分子表征;
将一维分子表征、二维分子表征和三维分子表征输入双向长短期记忆网络;双向长短期记忆网络输出三个模态特征向量,三个模态特征向量融合得到多模态融合特征向量,多模态融合特征向量经过线性层与分类器后,得到化合物分子活性的预测结果。
CNN等网络的输出仅与输入有关,不同的输入之间是完全独立的,而LSTM网络与它们不同,LSTM的输出不仅与输入有关还和自身的上一状态有关与“长期记忆”有关。这种结构使得LSTM非常适合用来融合不同模态的特征,它会将一维分子表征、二维分子表征和三维分子表征视为一个整体,LSTM的输出由一维分子表征、二维分子表征和三维分子表征共同决定。
一维特征提取网络中最终提取到的化合物分子表征仅仅是各个子结构的词嵌入向量之和,简单的相加操作使得一维特征提取网络不能很好的把握分子之间的内部关系。而二维特征提取网络侧重于分子内部的原子与边的表示,可以弥补一维表征的不足之处。三维特征提取网络中引入了一维与二维中都不包含化合物分子的三维空间信息,使药物活性预测模型具备识别立体异构的能力。三种模态相辅相成,使得药物活性预测模型可以捕获分子更全面的信息,包括骨架结构、构象信息和原子性质等,经由双向长短期记忆网络处理后再进行模态融合的药物活性预测模型性能会高于单模态药物活性预测模型。融合过程的表达式为:
;
其中,、/>、/>分别指双向长短期记忆网络输出的第一、二、三个模态特征向量,它们将进行一次融合得到多模态融合特征向量z,/>、/>、/>分别是第一、二、三个模态特征向量融合时的权重系数的转置,f表示映射函数,多模态融合特征向量分别经过线性层与分类器后,得到化合物分子活性的预测结果。
图3为词嵌入模型训练过程:通过化合物分子的分子smiles式可以得出它的分子指纹,在几种不同类型的分子指纹中,扩展连通性指纹使用的比较多,因其在相似性搜索与虚拟筛选等任务中的表现优于其他指纹。本发明在训练词向量模型前,首先需要得出数据集中所有化合物分子的扩展连通性指纹,生成扩展连通性指纹前需要对化合物分子中的原子进行编号,氢原子在化合物分子中极其多,因此在对原子编码与生成子结构标识符时,忽略氢原子及它们的键。图3中的分子除去氢原子后,共有6个原子,使用数字0-5作为它们的编号。另外需要指定一个最大半径,这决定了生成指纹时的迭代次数,若半径为2,生成扩展连通性指纹时会分别以所有原子为中心,迭代两次,第0次迭代时的子结构,即初始子结构,仅包含中心原子自己以及与它相连的键;第一次迭代时,子结构包含了中心原子及其直接领域原子;第二次迭代时子结构包含了中心原子及其距离为2以内的领域原子,图3中以编号为2的碳原子为中心展示了提取子结构的迭代过程,子结构中的字母‘A’代表一个除氢原子以外的任何类型的原子,子结构中出现的数字表示中心原子的编号。把迭代得到的子结构去重后放到集合中,它们会通过哈希函数被散列到一个固定维数的向量之中,从而得到该化合物分子的扩展连通性指纹。分子指纹常用于表征分子结构,可用于比较分子相似性,但是分子指纹不适合直接作为双向长短期记忆网络的输入,因为它存在着向量维数高、向量稀疏的问题,而且还存在哈希地址冲突的可能。图3展示了如何得到分子指纹,以及如何在分子数据集上训练词嵌入模型的过程。训练词嵌入模型训练前需要指定窗口训练大小,训练时一个化合物分子将被视为一个句子,化合物分子的子结构标识符将被视为字,整个分子数据集构成了一个文本。训练窗口将从头开始遍历此文本,在窗口里,周围的子结构标识符将被掩码填充,仅有中间的标识符是已知的,词嵌入模型将通过已知的一个标识符去预测周围的多个未知标识符,再将掩码的真实值作为标签,以此调整词嵌入模型参数。嵌入后的向量是分子指纹更高层面的表示,能够避免比特冲突和稀疏等问题。
训练好的词嵌入模型可以编码化合物分子。如图4所示,化合物分子转换为分子向量的过程:首先对分子中的各个原子编号,依次遍历各个原子,以每个原子为中心迭代两次提取出子结构,子结构中的字母‘A’表示除氢原子以外的任意原子、子结构中出现的数字表示中心原子的编号,把子结构散列至哈希表后可得分子的扩展连通性指纹,词嵌入模型可以把扩展连通性指纹中的所有子结构标识符转换为对应的子结构词向量,分子词向量等于它的所有子结构词向量之和,最终得到的分子向量,即为一维分子表征。
二维特征提取网络将分子中的原子视为有属性的点,键视为边。它首先将遍历化合物分子中的所有原子并使用RDKit提取原子属性,再存储到一个A×B大小的节点矩阵中,其中A即化合物分子中原子的个数,B即原子的属性,如原子符号、原子的度、电荷数等。此外还使用了一个A×A的邻接矩阵来存储边的信息,若原子v与原子u之间有相连的键,则边矩阵中对应位置为1。在得到节点矩阵与边矩阵之后,使用CBOW模型对节点矩阵进行词嵌入操作,这可表示为:
;
其中,表示第i个节点的原子属性,它采用独热编码。W表示使用CBOW训练出的向量矩阵,/>表示嵌入后的节点向量。在/>中为了表示原子符号,设置了一个长列表如[C,Cl,O, N,……,Unknown],列表中列出了许多常见符号,并用Unknown表示基本不可能出现的原子符号,原子i的符号是哪一种,在/>中就把该处置为1,其余均为0。另外,为了表示原子的电荷,也设置了列表[-2,-1,0,1,2,Unknown],原子i的电荷为多少,就把/>对应位置置为1,其余处为0。从此可看出/>维度很大,但却是稀疏的,它里面仅有0和1两种值,且0多1少。而节点嵌入操作的目的就是把使用独热编码的稀疏向量转换为信息紧凑、密集的向量。
得到表示原子及其属性的嵌入后的节点向量之后,再通过N-gram方式对边矩阵与嵌入后的节点向量/>进行图级嵌入操作,最后得到一个能表征分子二维结构的二维分子表征。图级嵌入的过程为:
;
;
;
其中,p是CBOW模型的训练窗口一次取值的集合,是集合p中所取到的几个原子的嵌入后的节点向量/>的积。最后化合物分子中所有训练窗口得到的/>会被求和,得到/>,/>表示窗口大小为n时,遍历所有原子后得到的分子表征,它是最终的图嵌入矩阵/>中的一个维度,T为维度大小,n∈1,2,…,T。最终得到的图嵌入矩阵/>,即为二维分子表征。
化合物分子存在着立体异构的情况,二维平面上拓扑结构完全相同的两个化合物分子,在三维上因为键角等不同会有着不一样的化学性质。如果药物活性预测模型仅仅只有来源于一维和二维的化合物分子信息,则无法辨认出三维上存在差异的化合物分子。所以,在药物活性预测模型中加入有关空间结构的特征能够使药物活性预测模型有识别立体异构化合物分子的能力,同时额外加入的键长、键角特征也能提升模型的分类效果。RDKit能够通过距离几何算法生成化合物分子粗糙的三维构象,然后再使用分子力场优化得到分子中各个原子的三维模拟坐标。由三维模拟坐标可以计算出化合物分子的一些几何特征,如键长、键角、原子距离等。对于每一个化合物分子,均构造一个以键为顶点,键角为边的无向图即分子键角图。使用图神经网络来处理分子键角图,具体的过程为:
;
;
;
;
其中,G表示一个分子键角图,是节点的集合,/>是边的集合。/>表示第k次迭代时节点v通过聚合领域节点信息得到的特征向量,/>是节点v的领域节点的集合,/>表示分子键角图中节点u与节点v所构成边的特征,/>表示节点v第k次迭代时的特征向量,表示节点v第k-1次迭代时的特征向量,/>表示节点u第k-1次迭代时的特征向量,表示第k次迭代时的聚合函数,它将聚合第k-1次迭代时节点v及其邻居节点的特征向量和节点v的每一条边的特征,/>函数用于计算节点第k次迭代时的特征向量,它是由在k-1次迭代时的向量和当前迭代得到的新向量共同决定。READOUT是池化函数,它的作用是在最终迭代时对所有节点的特征向量进行合并,从而获得化合物分子的特征向量/>,K表示迭代总次数。
对于样本不平衡的数据集,尤其是正负比例极端的数据集,非常容易出现少数类样本被多数类样本淹没的情况。当化合物分子数据集中非活性样本的数目远高于活性样本时,模型在非活性样本中的召回率极高,甚至接近于1,而在活性样本上的召回率却极低,甚至不到百分之五十。极端情况下还可能出现,非活性样本召回率为1,活性样本上的召回率为0的情形,这意味此时不管输入的化合物分子是什么,模型一律把它们认定为非活性。为了避免因为样本不平衡而导致模型无法预测的情况,本发明采用了焦点损失来训练基于多模态融合的药物活性预测模型,通过设置动态缩放因子,能够提升少数类样本的损失值权重,使其不至于被多数类样本淹没。此外,焦点损失还可以调节难分样本和易分样本在计算损失时所占的权重。若存在一个标签为1的样本,模型在对它进行预测时,会分别输出它在类别0上的概率和类别1上的概率,若此样本在类别1上的概率很大,在类别0上的概率很小,说明预测值接近于真实值,会被视为易分样本;反之,若预测值远离真实值则被视为难分样本。焦点损失是交叉熵损失的改进,它在交叉熵损失的基础上引入了两个参数,分别用来调节少数类样本、难分样本所占的损失值权重,这可以用以下公式表示:
;
;
;
由于药物活性预测是二分类问题,基于多模态融合的药物活性预测模型将会输出两个概率,分别是样本在正类上的概率和负类上的概率,且两个概率之和为1。是基于多模态融合的药物活性预测模型在标签为1的类别上的预测概率,1-/>是在标签0上的预测概率,y表示样本标签的真实值,/>则表示模型在真实标签对应的类别上的概率。/>表示交叉熵损失,/>表示焦点损失。/>表示焦点损失在交叉熵损失的基础上额外加入的一个参数,它的取值在0到1之间,负责解决样本不平衡问题。/>决定了计算损失时难分样本和易分样本占的权重比例。当/>的值很小时,说明模型的预测概率远离真实值,该样本是难分样本,此时/>将得出一个接近于1的值,损失值的变化不大。而当/>的值很大时,表示此样本是易分样本,/>会是一个接近零的小数,此时的损失值将缩小。难易样本的权重占比由调节因子γ调节,γ的值越大,对易分样本的抑制越大,模型越专注于难分样本。
以abl激酶与caspase-1蛋白酶作为受体蛋白,从药物化学数据库ChEMBL中分别收集它们相关的化合物分子信息,收集到信息后仅保留分子SMILES式、IC50值,删去其余信息,再去除掉重复以及IC50值为空的化合物分子。对于abl激酶的相关化合物分子,以IC50值为依据把化合物分子分为活性、非活性、中间状态三种,再删去中间状态的化合物分子,最后得到化合物分子数据集ABL。考虑到caspase-1蛋白酶的相关化合物分子较少,因此不划分中间状态,仅以1μMol作为阈值,最后得到化合物分子数据集CASP。其中ABL是样本不平衡数据集,CASP是小数据集,这两个数据集均具有一定的挑战性。两个化合物分子数据集的样本情况如表1所示:
表1
优化器使用SGD ,Batch_size设置为16,学习率为1×10-3。为了防止过拟合,使用了dropout、L2正则化与早停法,weight_decay设置为0.001,dropout值设置为0.35,早停法的容忍轮数设置为5。对于ABL这个正负样本数量不均衡的数据集,焦点损失的alpha设置为0.75,gamma设置为2。CASP数据集不存在样本失衡问题,焦点损失的alpha值设置为1,gamma为0,相当于使用交叉熵损失。本发明使用到的评价指标有准确率 、精确度、召回率 、F1值、接受者操作特征曲线及其曲线下面积。实验结果如表2所示:
表2
图5和图6展示了基于多模态融合的药物活性预测模型在这两个化合物分子数据集中的接受者操作特征曲线,图7和图8展示了基于多模态融合的药物活性预测模型在两个化合物分子数据集上的混淆矩阵。
为了验证本发明的性能,在ABL数据集上测试了不同模块构成的模型效果,结果如表3所示,ECFP表示仅使用扩展连通性指纹、ECFP+mol2vec表示对扩展连通性指纹进行词嵌入,2D-topology表示通过二维分子图像(二维拓扑结构)提取信息,3D-geometry则是从三维分子几何结构中提取,SMILES-Attention+ CNN意为分子SMILES式与二维分子图像融合的药物活性预测模型。方案6的组合即本发明提出的药物分子活性预测方法,结果表明本发明对药物分子的分类效果要优于其他组合。
表3
本实施例提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现所述多模态信息融合的药物分子活性预测方法。
本实施例提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现所述多模态信息融合的药物分子活性预测方法。
以上所述发明仅表达了本发明实施例的实施方式,并不能因此理解为对发明专利范围的限制,也并非对本发明实施例的结构作任何形式上的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明实施例构思的前提下,还可以做出若干变化和改进,这些都属于本发明实施例的保护范围。
Claims (8)
1.一种多模态信息融合的药物分子活性预测方法,其特征在于,步骤如下:
步骤一:通过药物化学数据库查询靶标蛋白,并下载靶标蛋白对应的所有化合物分子信息至csv文件中;
步骤二:仅保留分子SMILES式和IC50值两列,除去其余化合物分子信息;
步骤三:删除重复的分子SMILES式,以及IC50值为空的行;
步骤四:以IC50值为依据,为化合物分子添加标签;
步骤五:使用化合物处理工具包RDKit把分子SMILES式转换为分子Mol文件;分子Mol文件进一步转换得到分子二维图像和分子三维几何结构;
步骤六:把分子SMILES式、分子二维图像、分子三维几何结构输入到基于多模态融合的药物活性预测模型进行训练;
步骤七:使用训练完毕的基于多模态融合的药物活性预测模型对输入的化合物分子进行预测,输出化合物分子的活性状态;
所述基于多模态融合的药物活性预测模型包括一维特征提取网络、二维特征提取网络、三维特征提取网络和双向长短期记忆网络;
一维特征提取网络根据分子SMILES式,提取化合物分子的扩展连通性指纹,然后通过词嵌入模型对化合物分子的扩展连通性指纹进行分子指纹嵌入操作,得到的嵌入后向量作为一维分子表征;
二维特征提取网络首先构造出分子图,再从分子图中提取出节点矩阵与边矩阵,节点矩阵由原子及其属性构成,采用独热编码,边矩阵是一个邻接矩阵;使用CBOW模型对节点矩阵进行节点嵌入,再用嵌入后的节点向量与边矩阵进行一次图级嵌入,最后得到二维分子表征;
三维特征提取网络首先使用化合物处理包RDKit来生成化合物分子的三维构象,再使用分子力场优化得到化合物分子中各个原子的三维模拟坐标;由三维模拟坐标计算出化合物分子的几何特征,包括键信息和角度信息;以键信息作为顶点,角度信息作为边构造出无向图,即为分子键角图,使用图神经网络来处理分子键角图,得到三维分子表征;
将一维分子表征、二维分子表征和三维分子表征输入双向长短期记忆网络;双向长短期记忆网络输出三个模态特征向量,三个模态特征向量融合得到多模态融合特征向量,多模态融合特征向量经过线性层与分类器后,得到化合物分子活性的预测结果。
2.根据权利要求1所述的一种多模态信息融合的药物分子活性预测方法,其特征在于,词嵌入模型训练前需要指定训练窗口大小,训练时一个化合物分子将被视为一个句子,化合物分子的子结构标识符被视为字,整个化合物分子数据集构成了一个文本;训练窗口将从头开始遍历此文本,在窗口里,周围的子结构标识符将被遮掩,形成掩码,仅有中间的标识符是已知的,词嵌入模型将通过已知的一个标识符去预测周围的多个未知标识符,预测完毕后,将掩码的真实值作为标签,模型将根据掩码的真实值来调整参数;词嵌入模型是无监督学习模型,训练时不需要化合物分子的标签,它以掩码掩盖的真实值作为标签。
3.根据权利要求2所述的一种多模态信息融合的药物分子活性预测方法,其特征在于,通过训练好的词嵌入模型编码化合物分子,将化合物分子转换为分子向量的过程为:首先需要指定生成扩展连通性指纹时的最大半径,最大半径等于迭代次数;以化合物分子中的每一个原子为中心,进行迭代,得到子结构,去除重复结构后把子结构散列到一个固定长度的哈希表中,从而得到扩展连通性指纹,词嵌入模型把扩展连通性指纹中的所有子结构标识符转换为对应的子结构词向量;所有的子结构词向量相加得到分子向量,即为一维分子表征。
4.根据权利要求1所述的一种多模态信息融合的药物分子活性预测方法,其特征在于,在得到节点矩阵与边矩阵之后,使用CBOW模型对节点矩阵进行词嵌入操作,表示为:
;
其中,表示第i个节点的原子属性,采用独热编码,W表示使用CBOW模型训练出的向量矩阵,/>表示嵌入后的节点向量;
得到表示原子及其属性的嵌入后的节点向量之后,再通过N-gram方式对边矩阵与嵌入后的节点向量/>进行图级嵌入操作,最后得到二维分子表征;图级嵌入的过程为:
;
;
;
其中,p是CBOW模型的训练窗口一次取值的集合,是集合p中所取到的几个原子的嵌入后的节点向量/>的积;最后化合物分子中所有训练窗口得到的/>会被求和,得到/>,/>表示窗口大小为n时,遍历所有原子后得到的分子表征,/>是最终的图嵌入矩阵/>中的一个维度,T为维度大小,n∈1,2,…,T;最终得到的图嵌入矩阵/>,即为二维分子表征。
5.根据权利要求1所述的一种多模态信息融合的药物分子活性预测方法,其特征在于,使用图神经网络来处理分子键角图的过程为:
;
;
;
;
其中,G表示一个分子键角图,是节点的集合,/>是边的集合;/>表示第k次迭代时节点v通过聚合领域节点信息得到的特征向量,/>是节点v的邻域节点的集合,/>表示分子键角图中节点u与节点v所构成边的特征,/>表示节点v第k次迭代时的特征向量,/>表示节点v第k-1次迭代时的特征向量,/>表示节点u第k-1次迭代时的特征向量,表示第k次迭代时的聚合函数,用于聚合第k-1次迭代时节点v及其邻居节点的特征向量和节点v的每一条边的特征;/>函数用来计算节点第k次迭代时的特征向量,由在k-1次迭代时的向量和当前迭代得到的新向量共同决定;READOUT是池化函数,它的作用是在最终迭代时对所有节点的特征向量进行合并,从而获得分子的特征向量;K表示迭代总次数。
6.根据权利要求1所述的一种多模态信息融合的药物分子活性预测方法,其特征在于,三个模态特征向量融合过程的表达式为:
;
其中,、/>、/>分别指双向长短期记忆网络输出的第一、二、三个模态特征向量, />、、/>分别是第一、二、三个模态特征向量融合时的权重系数的转置,f表示映射函数,z表示多模态融合特征向量。
7.一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;其特征在于,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1-6任意一项所述多模态信息融合的药物分子活性预测方法。
8.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-6任意一项所述多模态信息融合的药物分子活性预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311105145.3A CN116825234B (zh) | 2023-08-30 | 2023-08-30 | 一种多模态信息融合的药物分子活性预测方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311105145.3A CN116825234B (zh) | 2023-08-30 | 2023-08-30 | 一种多模态信息融合的药物分子活性预测方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116825234A CN116825234A (zh) | 2023-09-29 |
CN116825234B true CN116825234B (zh) | 2023-11-07 |
Family
ID=88117007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311105145.3A Active CN116825234B (zh) | 2023-08-30 | 2023-08-30 | 一种多模态信息融合的药物分子活性预测方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116825234B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241128A (zh) * | 2021-04-29 | 2021-08-10 | 天津大学 | 基于分子空间位置编码注意力神经网络模型的分子性质预测方法 |
CN113284553A (zh) * | 2021-05-28 | 2021-08-20 | 南昌大学 | 一种用于治疗药物成瘾的药物靶点结合能力测试方法 |
CN113327644A (zh) * | 2021-04-09 | 2021-08-31 | 中山大学 | 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法 |
CN113470736A (zh) * | 2021-06-29 | 2021-10-01 | 上海商汤智能科技有限公司 | 预测方法及装置、电子设备和存储介质 |
CN113936735A (zh) * | 2021-11-02 | 2022-01-14 | 上海交通大学 | 一种药物分子与靶标蛋白的结合亲和力预测方法 |
CN114613450A (zh) * | 2022-03-09 | 2022-06-10 | 平安科技(深圳)有限公司 | 药物分子的性质预测方法、装置、存储介质及计算机设备 |
CN115116538A (zh) * | 2022-04-07 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 一种蛋白质配体的亲和力预测方法、相关装置以及设备 |
CN115331750A (zh) * | 2022-08-30 | 2022-11-11 | 中国科学院自动化研究所 | 基于深度学习的新靶点化合物活性预测方法及系统 |
CN116189809A (zh) * | 2023-01-06 | 2023-05-30 | 东南大学 | 一种基于对抗攻击的药物分子重要节点预测方法 |
CN116206688A (zh) * | 2023-03-02 | 2023-06-02 | 南华大学 | 一种用于dta预测的多模态信息融合模型及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7330793B2 (en) * | 2001-04-02 | 2008-02-12 | Cramer Richard D | Method for searching heterogeneous compound databases using topomeric shape descriptors and pharmacophoric features |
US20220246233A1 (en) * | 2021-02-03 | 2022-08-04 | International Business Machines Corportion | Structure-based, ligand activity prediction using binding mode prediction information |
-
2023
- 2023-08-30 CN CN202311105145.3A patent/CN116825234B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327644A (zh) * | 2021-04-09 | 2021-08-31 | 中山大学 | 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法 |
CN113241128A (zh) * | 2021-04-29 | 2021-08-10 | 天津大学 | 基于分子空间位置编码注意力神经网络模型的分子性质预测方法 |
CN113284553A (zh) * | 2021-05-28 | 2021-08-20 | 南昌大学 | 一种用于治疗药物成瘾的药物靶点结合能力测试方法 |
CN113470736A (zh) * | 2021-06-29 | 2021-10-01 | 上海商汤智能科技有限公司 | 预测方法及装置、电子设备和存储介质 |
CN113936735A (zh) * | 2021-11-02 | 2022-01-14 | 上海交通大学 | 一种药物分子与靶标蛋白的结合亲和力预测方法 |
CN114613450A (zh) * | 2022-03-09 | 2022-06-10 | 平安科技(深圳)有限公司 | 药物分子的性质预测方法、装置、存储介质及计算机设备 |
CN115116538A (zh) * | 2022-04-07 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 一种蛋白质配体的亲和力预测方法、相关装置以及设备 |
CN115331750A (zh) * | 2022-08-30 | 2022-11-11 | 中国科学院自动化研究所 | 基于深度学习的新靶点化合物活性预测方法及系统 |
CN116189809A (zh) * | 2023-01-06 | 2023-05-30 | 东南大学 | 一种基于对抗攻击的药物分子重要节点预测方法 |
CN116206688A (zh) * | 2023-03-02 | 2023-06-02 | 南华大学 | 一种用于dta预测的多模态信息融合模型及方法 |
Non-Patent Citations (5)
Title |
---|
6th International Conference on Information Science, Computer Technology and Transportation.2022,全文. * |
Le Zhang.Prediction of Breast Cancer Candidate Drug Activity Based on Bi-LSTM.ISCTT 2021 * |
Variational Bi-LSTMs;Samira Shabanian;arxiv;全文 * |
基于深度神经网络的药物蛋白虚拟筛选;周世英;李福东;姜定;;软件工程(第05期);全文 * |
深度学习在药物研发中的研究进展;廖俊;徐洁洁;皮志鹏;窦智扬;尚靖;;药学进展(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116825234A (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107562812B (zh) | 一种基于特定模态语义空间建模的跨模态相似性学习方法 | |
CN112347268B (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
CN110070909B (zh) | 一种基于深度学习的融合多特征的蛋白质功能预测方法 | |
WO2017210949A1 (zh) | 一种跨媒体检索方法 | |
CN111581395A (zh) | 一种基于深度学习的模型融合三元组表示学习系统及方法 | |
CN110688502B (zh) | 一种基于深度哈希和量化的图像检索方法及存储介质 | |
CN110826336A (zh) | 一种情感分类方法、系统、存储介质及设备 | |
WO2022001333A1 (zh) | 基于双曲空间表示和标签文本互动的细粒度实体识别方法 | |
CN112199532B (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN107346328A (zh) | 一种基于多粒度层级网络的跨模态关联学习方法 | |
CN114398491A (zh) | 一种基于知识图谱的语义分割图像实体关系推理方法 | |
CN109657112B (zh) | 一种基于锚点图的跨模态哈希学习方法 | |
CN110647904A (zh) | 一种基于无标记数据迁移的跨模态检索方法及系统 | |
CN110309867A (zh) | 一种基于卷积神经网络的混合气体识别方法 | |
CN107545033B (zh) | 一种基于表示学习的知识库实体分类的计算方法 | |
CN112699685B (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
WO2023173552A1 (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN117370578A (zh) | 一种基于多模态信息进行食品安全知识图谱补全的方法 | |
CN114093445B (zh) | 一种基于偏多标记学习的患者筛选标记方法 | |
CN115526246A (zh) | 一种基于深度学习模型的自监督分子分类方法 | |
CN114187966A (zh) | 一种基于生成对抗网络的单细胞rna序列缺失值填补方法 | |
US20240028828A1 (en) | Machine learning model architecture and user interface to indicate impact of text ngrams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |