CN114496303B - 一种基于多通道神经网络的抗癌药物筛选方法 - Google Patents
一种基于多通道神经网络的抗癌药物筛选方法 Download PDFInfo
- Publication number
- CN114496303B CN114496303B CN202210011416.8A CN202210011416A CN114496303B CN 114496303 B CN114496303 B CN 114496303B CN 202210011416 A CN202210011416 A CN 202210011416A CN 114496303 B CN114496303 B CN 114496303B
- Authority
- CN
- China
- Prior art keywords
- drug
- information
- dimension
- neural network
- cell line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000002246 antineoplastic agent Substances 0.000 title claims abstract description 27
- 229940041181 antineoplastic drug Drugs 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 21
- 238000007877 drug screening Methods 0.000 title abstract description 7
- 239000003814 drug Substances 0.000 claims abstract description 58
- 239000013598 vector Substances 0.000 claims abstract description 48
- 229940079593 drug Drugs 0.000 claims abstract description 36
- 108091070501 miRNA Proteins 0.000 claims abstract description 19
- 239000002679 microRNA Substances 0.000 claims abstract description 19
- 238000012216 screening Methods 0.000 claims abstract description 17
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 16
- 238000010586 diagram Methods 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000011176 pooling Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 15
- 238000011160 research Methods 0.000 claims description 10
- 206010028980 Neoplasm Diseases 0.000 claims description 9
- 201000011510 cancer Diseases 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 abstract description 5
- 230000010354 integration Effects 0.000 abstract description 3
- 230000001093 anti-cancer Effects 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Primary Health Care (AREA)
- Analytical Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于计算机科学领域,公开了一种基于多通道神经网络的抗癌药物筛选方法。本发明通过图卷积网络提取图结构的药物分子图特征,一维卷积提取常规向量格式的药物分子指纹和细胞系miRNA特征,自编码器提取超高维的基因拷贝数特征,可以融合不同数据结构和维度的特征信息。本发明可以解决不同输入特征数据结构不同和数据复杂度高的问题,从而有效融合药物的全局和局部结构信息,以及来自不同组学数据的细胞系特征,提高药物敏感性预测的精度,进而提高抗癌药物筛选的效率。同时,多信息源的融合提高了模型的鲁棒性,使其在数据标签不足时,仍能保持稳定的性能。
Description
技术领域
本发明属于计算机科学领域,涉及人工智能技术在生物医药问题中的应用,具体涉及一种基于多通道神经网络的抗癌药物筛选方法。
背景技术
由于癌症治疗的特殊性,精准医学已经成为全世界科学家想要攻克的难题。而预测癌细胞系对特定药物的反应,进而筛选出具有研究意义的抗癌药物,对精准医疗具有重大意义。一些经典的机器学习算法得益于它们在数据和模型集成方面的强大能力,对药物反应预测进行了初步的探索。然而,由于抗癌药物反应数据维度高和标签少的特点,这些方法显得力不能支。深度学习是机器学习的一个更先进的分支,因其能够从复杂数据中提取特征而被广泛应用于各个领域的数据挖掘。
然而,有效融合多个数据源的信息仍是抗癌药物响应预测中一个具有挑战性的问题。原因是很难找到有效的方法克服数据集成的一系列问题,例如数据结构的差异和数据的复杂性。此外,模型的实用性也是一个值得思考的问题。实际应用场景中的癌细胞系数据通常并不理想,从而可能导致模型无法发挥实际作用。
发明内容
本发明所要解决的技术问题是有效融合药物和细胞系的多个特征,从而进行更高效的筛选。针对现有技术不足,提供了一种基于多通道神经网络的抗癌药物筛选方法。本发明方法结合一维卷积神经网络、栈式自动编码器和图卷积网络,利用不同的输入通道提取不同数据结构的输入信息。通过有效融合药物的全局和局部结构信息,以及来自不同组学数据的细胞系特征,提高药物敏感性预测的精度,进而提高抗癌药物筛选的效率。同时,多信息源的融合提高了模型的鲁棒性,使其在训练数据规模减小时,仍能保持稳定的性能。
本发明所采用的技术方案是:
一种基于多通道神经网络的抗癌药物筛选方法,包括以下步骤:
1)将表示药物全局结构信息的SMILES序列转化为Graph形式,并利用GCN提取其特征;
2)利用一维卷积神经网络分别提取表示药物局部结构信息的分子指纹特征,以及癌细胞系的转录组学特征miRNA;
3)将超高维的基因组学特征基因拷贝数通过栈式自编码器降维,得到低维度的特征表示;
4)利用全局最大池化和全连接网络,将各个通道提取出的不同格式和维度的特征规范化至指定维度向量;
5)拼接融合规范化后的药物的全局和局部结构特征,以及癌细胞系的基因组学和转录组学特征;
6)融合后的特征通过全连接的神经网络,预测药物-细胞系反应的IC50值,筛选出具有研究价值的抗癌药物。
作为本发明的进一步改进,
所述步骤1)中,将给定药物的SMILES序列通过RDKit转化为分子图(Graph),并以特征矩阵X和邻接矩阵A的形式存储,X是一个n×f大小的矩阵,其中n是化合物的原子节点个数,每个节点由一个f维向量表示,A是一个n×n大小的矩阵,表示节点之间的边;使用三个图卷积层对药物分子图进行特征提取,其中σ表示非线性激活函数,H表示层,上标l表示层数,当l=0时,H(0)即为特征矩阵X;W是可训练参数矩阵,l=0、1、2时的W(0)、W(1)、W(2)的维度分别为f×f、f×2f、f×4f,对应的H(1)、H(2)、H(3)的维度分别为n×f、n×2f、n×4f;/>是添加了自环的图邻接矩阵,/>是图/>的对角度矩阵。
作为本发明的进一步改进,
所述步骤2)中,将药物的分子指纹信息和细胞系的miRNA信息通过三个一维卷积层 其中Zl+1(i)表示第l+1个卷积层输出的特征向量的第i个元素,Zl和wl+1分别表示第l+1个卷积层的输入特征和卷积核,b表示偏移量,Kl为输入通道数,m表示卷积核大小,/>是第k个通道的输入特征,s0i+x表示特征向量索引,s0是卷积步长,/>是第k个通道的卷积核,x表示卷积核元素索引,Ll和Ll+1分别为第l+1个卷积层的输入和输出特征向量长度,p是填充层数量;在每个卷积层提取特征后,将输出的特征数据Zl+1传递给池化层/>进行特征选择和信息过滤,其中s1i+x表示特征向量的索引,s1表示池化步长,q是一个预定义参数,被设置为q→∞,即最大池化。
作为本发明的进一步改进,
所述步骤3)中,超高维度的基因拷贝数信息通过栈式自编码器降维,即使用比输入更少的隐藏节点来预测输入:h(t)≈t,其中t为输入,h为学习函数;并在各隐层之间添加非线性激活函数ReLU,实现非线性降维;训练时的目标函数采用MSE:其中y为真实值,/>为预测值,num表示训练样本数量。
作为本发明的进一步改进,
所述步骤4)中,将GCN提取的特征矩阵H(3),通过全局最大池化,转换为一个维度为4f的向量,并通过全连接层,将维度规范至128,得到特征向量v1,表示提取后的药物分子图信息;将1D CNN提取的药物分子指纹和细胞系miRNA,分别通过全连接层将维度规范至128,得到特征向量v2和v3,分别表示提取后的分子指纹和miRNA信息;将AE降维的基因拷贝数信息通过全连接层,将维度规范至128,得到特征向量v4,表示提取后的拷贝数信息。
作为本发明的进一步改进,
所述步骤5)中,将包含药物分子图信息的特征向量v1和分子指纹信息的特征向量v2进行拼接,得到药物特征的最终表示vdrug;将包含细胞系miRNA信息的特征向量v3和基因拷贝数信息的特征向量v4进行拼接,得到细胞系特征的最终表示vcell-line;融合vdrug和vcell-line,得到药物-细胞系对的最终特征vfusion。
作为本发明的进一步改进,
所述步骤6)中,融合后的药物-细胞系对特征vfusion,通过全连接的神经网络,输出节点数定为1,再通过sigmoid函数,将输出映射到0~1之间;对已有IC50标签的数据进行训练,并预测尚未进行实验验证的药物-细胞系对的IC50值,根据预测的IC50值大小,筛选出具有研究价值的抗癌药物。
与现有技术相比,本发明所具有的有益效果为:
本发明提供了一种基于多通道神经网络的抗癌药物筛选方法,针对不同输入特征数据结构不同和数据复杂度高的问题,通过图卷积网络提取图结构的药物分子图特征,一维卷积提取常规向量格式的药物分子指纹和细胞系miRNA特征,自编码器提取超高维的基因拷贝数特征,从而有效融合多源信息。本发明方法可以显著提高药物敏感性的预测效果,精确筛选具有研究价值的抗癌药物。与现有的方法相比,本方法不仅可以在训练数据充足时,更精确地进行抗癌药物筛选,还可以在训练数据不足时,保持稳定的预测性能,具备更强大的实际应用能力。
附图说明
图1是本发明实施例的总体流程图;
图2是预测-真实值散点图。
具体实施方式
下面结合附图和具体实施例对本发明进一步详细说明。
参照附图1,本发明提出的一种基于多通道神经网络的抗癌药物筛选方法,具体通过以下步骤实现:
步骤1,将表示药物全局结构信息的SMILES序列转化为Graph形式,并利用GCN提取其特征。
本实施例中,将给定药物的SMILES序列通过RDKit转化为分子图(Graph),并以特征矩阵X和邻接矩阵A的形式存储,X是一个n×f大小的矩阵,其中n是化合物的原子节点个数,每个节点由一个f维向量表示,A是一个n×n大小的矩阵,表示节点之间的边;使用三个图卷积层对药物分子图进行特征提取,其中σ表示非线性激活函数,H表示层,上标l表示层数,当l=0时,H(0)即为特征矩阵X;W是可训练参数矩阵,l=0、1、2时的W(0)、W(1)、W(2)的维度分别为f×f、f×2f、f×4f,对应的H(1)、H(2)、H(3)的维度分别为n×f、n×2f、n×4f;/>是添加了自环的图邻接矩阵,/>是图/>的对角度矩阵。
本实施例中,特征向量维度f为78,药物分子图的节点个数n因药物的不同而变化;W(0)、W(1)、W(2)的维度分别设置为78×78、78×156、78×312,故H(1)、H(2)、H(3)的维度分别为n×78,n×156,n×312;非线性激活函数σ使用的是ReLU函数。
步骤2,利用一维卷积神经网络分别提取表示药物局部结构信息的分子指纹特征,以及癌细胞系的转录组学特征miRNA。
本实施例中,将药物的分子指纹信息和细胞系的miRNA信息通过三个一维卷积层 其中Zl+1(i)表示第l+1个卷积层输出的特征向量的第i个元素,Zl和wl+1分别表示第l+1个卷积层的输入特征和卷积核,b表示偏移量,Kl为输入通道数,m表示卷积核大小,/>是第k个通道的输入特征,s0i+x表示特征向量索引,s0是卷积步长,/>是第k个通道的卷积核,x表示卷积核元素索引,Ll和Ll+1分别为第l+1个卷积层的输入和输出特征向量长度,p是填充层数量;在每个卷积层提取特征后,将输出的特征数据Zl+1传递给池化层/>进行特征选择和信息过滤,其中s1i+x表示特征向量的索引,s1表示池化步长,q是一个预定义参数,被设置为q→∞,即最大池化。
本实施例中,l=0、1、2时三个卷积层的通道数K0、K1、K2分别设置为4、8和16,卷积核长度m设置为8,卷积步长s0=1,填充层数量p=0,w和b为可学习参数。池化层中,预定义参数q→∞,即使用最大池化,池化步长s1设置为3。
步骤3,将超高维的基因组学特征基因拷贝数通过栈式自编码器降维,得到低维度的特征表示。
本实施例中,超高维度的基因拷贝数信息通过栈式自编码器降维,即使用比输入更少的隐藏节点来预测输入:h(t)≈t,其中t为输入,h为学习函数;并在各隐层之间添加非线性激活函数ReLU,实现非线性降维;训练时的目标函数采用MSE:其中y为真实值,/>为预测值,num表示训练样本数量。
本实施例中,栈式自编码器包含输入输出层和6个隐层,其中3个属于编码器,另外3个属于解码器。输入输出层的节点个数均为23316,即基因拷贝数的特征向量长度。隐层的节点个数分别为1024、512、256、256、512、1024,其中,编码器的输出,一个256维的特征向量,被用作非线性降维后的特征向量。
步骤4,利用全局最大池化和全连接网络,将各个通道提取出的不同格式和维度的特征规范化至指定维度向量。
本实施例中,将GCN提取的特征矩阵H(3),通过全局最大池化,转换为一个维度为4f的向量,并通过全连接层,将维度规范至128,得到特征向量v1,表示提取后的药物分子图信息;将1D CNN提取的药物分子指纹和细胞系miRNA,分别通过全连接层将维度规范至128,得到特征向量v2和v3,分别表示提取后的分子指纹和miRNA信息;将AE降维的基因拷贝数信息通过全连接层,将维度规范至128,得到特征向量v4,表示提取后的拷贝数信息。
本实施例中,GCN提取的特征矩阵H(3)维度为n×312,通过全局最大池化转化为一个312维的特征向量,并通过全连接层转化为128维特征向量v1。药物分子指纹提取通道的输出为464维的特征向量,miRNA提取通道的输出为368维特征向量,同样经过全连接层转化为128维特征向量v2和v3。AE编码的基因拷贝数特征是一个256维向量,经全连接层转化为128维特征向量v4。
步骤5,拼接融合规范化后的药物的全局和局部结构特征,以及癌细胞系的基因组学和转录组学特征。
本实施例中,将包含药物分子图信息的特征向量v1和分子指纹信息的特征向量v2进行拼接,得到药物特征的最终表示vdrug;将包含细胞系miRNA信息的特征向量v3和基因拷贝数信息的特征向量v4进行拼接,得到细胞系特征的最终表示vcell-line;融合vdrug和vcell-line,得到药物-细胞系对的最终特征vfusion。
步骤6,融合后的特征通过全连接的神经网络,预测药物-细胞系反应的IC50值,筛选出具有研究价值的抗癌药物。
本实施例中,融合后的药物-细胞系对特征vfusion,通过全连接的神经网络,输出节点数定为1,再通过sigmoid函数,将输出映射到0~1之间;对已有IC50标签的数据进行训练,并预测尚未进行实验验证的药物-细胞系对的IC50值,根据预测的IC50值大小,筛选出具有研究价值的抗癌药物。
本实施例中,训练损失函数使用均方误差其中/>为预测值,y为真实值,num表示训练样本数量。训练次数设置为300轮,学习率lr=1×10-4。由于IC50值越小,敏感性越高,故对药物细胞系对按照IC50值升序排列,并选择前1%供进一步研究使用。
为了验证本发明的有效性,图2给出了预测结果散点图。由图2结果可知,本发明对抗癌药物敏感性做出了高精度的预测,预测值与真实值呈现高相关性分布,其皮尔森相关系数达到了0.866,均方误差仅为0.087。该结果说明,本发明通过不同的特征提取通道有效融合了不同结构和维度的特征。准确的预测结果使得更具研究价值的药物被筛选出来,从而提高大规模药物筛选的效率,为临床研究节约时间成本和费用成本。
上述说明示出并描述了发明应用的实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是其他实施例的排除,而可用于各种其他组合、修改和环境,并能在本文所述发明构想范围内,通过上述教导或相关领域的技术进行改动。而本领域人员所进行的改动和变化不脱离发明的精神和范围,则都应在发明所附权利要求的保护范围内。
Claims (7)
1.一种基于多通道神经网络的抗癌药物筛选方法,其特征在于,包含以下步骤:
步骤1,将表示药物全局结构信息的SMILES序列转化为Graph形式,并利用GCN提取其特征;
步骤2,利用一维卷积神经网络分别提取表示药物局部结构信息的分子指纹特征,以及癌细胞系的转录组学特征miRNA;
步骤3,将超高维的基因组学特征基因拷贝数通过栈式自编码器降维,得到低维度的特征表示;
步骤4,利用全局最大池化和全连接网络,将各个通道提取出的不同格式和维度的特征规范化至指定维度向量;
步骤5,拼接融合规范化后的药物的全局和局部结构特征,以及癌细胞系的基因组学和转录组学特征;
步骤6,融合后的特征通过全连接的神经网络,预测药物-细胞系反应的IC50值,筛选出具有研究价值的抗癌药物。
2.如权利要求1所述的一种基于多通道神经网络的抗癌药物筛选方法,其特征在于,所述步骤1中,将给定药物的SMILES序列通过RDKit转化为分子图,并以特征矩阵X和邻接矩阵A的形式存储,X是一个n×f大小的矩阵,其中n是化合物的原子节点个数,每个节点由一个f维向量表示,A是一个n×n大小的矩阵,表示节点之间的边;使用三个图卷积层对药物分子图进行特征提取,其中σ表示非线性激活函数,H表示层,上标l表示层数,当l=0时,H(0)即为特征矩阵X;W是可训练参数矩阵,l=0、1、2时的W(0)、W(1)、W(2)的维度分别为f×f、f×2f、f×4f,对应的H(1)、H(2)、H(3)的维度分别为n×f、n×2f、n×4f;/>是添加了自环的图邻接矩阵,/>是图/>的对角度矩阵。
3.如权利要求1所述的一种基于多通道神经网络的抗癌药物筛选方法,其特征在于,所述步骤2中,将药物的分子指纹信息和细胞系的miRNA信息通过三个一维卷积层
l={0,1,2},其中Zl+1(i)表示第l+1个卷积层输出的特征向量的第i个元素,Zl和wl+1分别表示第l+1个卷积层的输入特征和卷积核,b表示偏移量,Kl为输入通道数,m表示卷积核大小,是第k个通道的输入特征,s0i+x表示特征向量索引,s0是卷积步长,/>是第k个通道的卷积核,x表示卷积核元素索引,Ll和Ll+1分别为第l+1个卷积层的输入和输出特征向量长度,p是填充层数量;在每个卷积层提取特征后,将输出的特征数据Zl+1传递给池化层进行特征选择和信息过滤,其中s1i+x表示特征向量的索引,s1表示池化步长,q是一个预定义参数,被设置为q→∞,即最大池化。
4.如权利要求1所述的一种基于多通道神经网络的抗癌药物筛选方法,其特征在于,所述步骤3中,超高维度的基因拷贝数信息通过栈式自编码器降维,即使用比输入更少的隐藏节点来预测输入:h(t)≈t,其中t为输入,h为学习函数;并在各隐层之间添加非线性激活函数ReLU,实现非线性降维;训练时的目标函数采用MSE:其中y为真实值,为预测值,num表示训练样本数量。
5.如权利要求1所述的一种基于多通道神经网络的抗癌药物筛选方法,其特征在于,所述步骤4中,将GCN提取的特征矩阵H(3),通过全局最大池化,转换为一个维度为4f的向量,并通过全连接层,将维度规范至128,得到特征向量v1,表示提取后的药物分子图信息;将1DCNN提取的药物分子指纹和细胞系miRNA,分别通过全连接层将维度规范至128,得到特征向量v2和v3,分别表示提取后的分子指纹和miRNA信息;将AE降维的基因拷贝数信息通过全连接层,将维度规范至128,得到特征向量v4,表示提取后的拷贝数信息。
6.如权利要求1所述的一种基于多通道神经网络的抗癌药物筛选方法,其特征在于,所述步骤5中,将包含药物分子图信息的特征向量v1和分子指纹信息的特征向量v2进行拼接,得到药物特征的最终表示vdrug;将包含细胞系miRNA信息的特征向量v3和基因拷贝数信息的特征向量v4进行拼接,得到细胞系特征的最终表示vcell-line;融合vdrug和vcell-line,得到药物-细胞系对的最终特征vfusion。
7.如权利要求1所述的一种基于多通道神经网络的抗癌药物筛选方法,其特征在于,所述步骤6中,融合后的药物-细胞系对特征vfusion,通过全连接的神经网络,输出节点数定为1,再通过sigmoid函数,将输出映射到0~1之间;对已有IC50标签的数据进行训练,并预测尚未进行实验验证的药物-细胞系对的IC50值,根据预测的IC50值大小,筛选出具有研究价值的抗癌药物。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210011416.8A CN114496303B (zh) | 2022-01-06 | 2022-01-06 | 一种基于多通道神经网络的抗癌药物筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210011416.8A CN114496303B (zh) | 2022-01-06 | 2022-01-06 | 一种基于多通道神经网络的抗癌药物筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114496303A CN114496303A (zh) | 2022-05-13 |
CN114496303B true CN114496303B (zh) | 2024-06-04 |
Family
ID=81509292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210011416.8A Active CN114496303B (zh) | 2022-01-06 | 2022-01-06 | 一种基于多通道神经网络的抗癌药物筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114496303B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115206421B (zh) * | 2022-07-19 | 2023-04-18 | 北京百度网讯科技有限公司 | 药物重定位方法、重定位模型的训练方法及装置 |
CN116705194B (zh) * | 2023-06-06 | 2024-06-04 | 之江实验室 | 一种基于图神经网络的药物抑癌敏感性预测方法与装置 |
CN117275608B (zh) * | 2023-09-08 | 2024-04-26 | 浙江大学 | 基于协同注意力的可解释性抗癌药物协同预测方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019084559A1 (en) * | 2017-10-27 | 2019-05-02 | Apostle, Inc. | SOMATIC MUTATION CANCER PATHOGENIC IMPACT PREDICTION USING DEEP LEARNING BASED METHODS |
CN111210878A (zh) * | 2020-01-06 | 2020-05-29 | 湖南大学 | 一种基于深度学习的药物预测方法 |
CN111276187A (zh) * | 2020-01-12 | 2020-06-12 | 湖南大学 | 一种基于自编码器的基因表达谱特征学习方法 |
CN112420126A (zh) * | 2020-12-07 | 2021-02-26 | 湖南大学 | 一种基于多源数据融合和网络结构扰动的药物靶标预测方法 |
CN112599187A (zh) * | 2020-12-18 | 2021-04-02 | 武汉大学 | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 |
CN112652358A (zh) * | 2020-12-29 | 2021-04-13 | 中国石油大学(华东) | 基于三通道深度学习调控疾病靶点的药物推荐系统、计算机设备、存储介质 |
CN112863693A (zh) * | 2021-02-04 | 2021-05-28 | 东北林业大学 | 基于多通道图卷积网络的药物靶标相互作用预测方法 |
CN113053457A (zh) * | 2021-03-25 | 2021-06-29 | 湖南大学 | 一种基于多通路图卷积神经网络的药物靶标预测方法 |
CN113593633A (zh) * | 2021-08-02 | 2021-11-02 | 中国石油大学(华东) | 基于卷积神经网络的药物-蛋白相互作用预测模型 |
KR20210153540A (ko) * | 2020-06-10 | 2021-12-17 | 주식회사 에이조스바이오 | 인공지능 딥러닝을 활용한 표현형 기반 항암 약물 스크리닝 시스템 |
-
2022
- 2022-01-06 CN CN202210011416.8A patent/CN114496303B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019084559A1 (en) * | 2017-10-27 | 2019-05-02 | Apostle, Inc. | SOMATIC MUTATION CANCER PATHOGENIC IMPACT PREDICTION USING DEEP LEARNING BASED METHODS |
CN111210878A (zh) * | 2020-01-06 | 2020-05-29 | 湖南大学 | 一种基于深度学习的药物预测方法 |
CN111276187A (zh) * | 2020-01-12 | 2020-06-12 | 湖南大学 | 一种基于自编码器的基因表达谱特征学习方法 |
KR20210153540A (ko) * | 2020-06-10 | 2021-12-17 | 주식회사 에이조스바이오 | 인공지능 딥러닝을 활용한 표현형 기반 항암 약물 스크리닝 시스템 |
CN112420126A (zh) * | 2020-12-07 | 2021-02-26 | 湖南大学 | 一种基于多源数据融合和网络结构扰动的药物靶标预测方法 |
CN112599187A (zh) * | 2020-12-18 | 2021-04-02 | 武汉大学 | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 |
CN112652358A (zh) * | 2020-12-29 | 2021-04-13 | 中国石油大学(华东) | 基于三通道深度学习调控疾病靶点的药物推荐系统、计算机设备、存储介质 |
CN112863693A (zh) * | 2021-02-04 | 2021-05-28 | 东北林业大学 | 基于多通道图卷积网络的药物靶标相互作用预测方法 |
CN113053457A (zh) * | 2021-03-25 | 2021-06-29 | 湖南大学 | 一种基于多通路图卷积神经网络的药物靶标预测方法 |
CN113593633A (zh) * | 2021-08-02 | 2021-11-02 | 中国石油大学(华东) | 基于卷积神经网络的药物-蛋白相互作用预测模型 |
Non-Patent Citations (4)
Title |
---|
A drug information embedding method based on graph convolution neural network;peng shaoliang等;《2020 IEEE International Conference on E-health Networking, Application & Services 》;20210414;全文 * |
基于多输入神经网络的药物组合协同作用预测;陈希;秦玉芳;陈明;张重阳;;生物医学工程学杂志;20200831(第04期);全文 * |
基于深度学习框架的实体关系抽取研究进展;李枫林;柯佳;;情报科学;20180305(第03期);全文 * |
基因组大数据变异检测算法的并行优化;彭绍亮等;《大数据》;20201231;第6卷(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114496303A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114496303B (zh) | 一种基于多通道神经网络的抗癌药物筛选方法 | |
CN111985369B (zh) | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 | |
CN108984745A (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN107944410B (zh) | 一种基于卷积神经网络的跨领域面部特征解析方法 | |
CN116417093A (zh) | 一种结合Transformer和图神经网络的药物靶标相互作用预测方法 | |
CN111816255A (zh) | 融合多视角和最优多标签链式学习的rna结合蛋白识别 | |
CN111640471A (zh) | 基于双向长短记忆模型的药物小分子活性预测的方法和系统 | |
CN112766360A (zh) | 一种基于时序二维化和宽度学习的时间序列分类方法和系统 | |
CN114493014A (zh) | 多元时间序列预测方法、系统及计算机产品、存储介质 | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN111832637B (zh) | 基于交替方向乘子法admm的分布式深度学习分类方法 | |
CN111276187A (zh) | 一种基于自编码器的基因表达谱特征学习方法 | |
CN112397155A (zh) | 一种单步逆向合成方法及系统 | |
CN114187966A (zh) | 一种基于生成对抗网络的单细胞rna序列缺失值填补方法 | |
CN114492581A (zh) | 基于迁移学习和注意力机制元学习应用在小样本图片分类的方法 | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN113255675A (zh) | 基于扩张卷积和残差路径的图像语义分割网络结构及方法 | |
CN112784999A (zh) | 基于注意力机制的mobilenet-v1知识蒸馏方法、存储器及终端设备 | |
CN116705146A (zh) | 兼顾分子结构与序列挖掘的多视角酶功能预测方法 | |
CN112071362A (zh) | 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 | |
CN118609639B (zh) | 基于正向决策的玉米跨层分子调控网络构建方法及系统 | |
CN117672407B (zh) | 基于图神经网络预测化合物p450酶代谢位点和代谢产物的方法 | |
CN117352049B (zh) | 一种基于自监督学习和Kronecker积分解的参数高效蛋白质语言模型设计方法 | |
CN114596434B (zh) | 一种基于三分图模型的图像块和标签匹配方法及系统 | |
CN114817546B (zh) | 一种面向纳税人行业分类的标签噪声学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |