CN110232954A - 基于迁移学习的分子对接方法和系统 - Google Patents
基于迁移学习的分子对接方法和系统 Download PDFInfo
- Publication number
- CN110232954A CN110232954A CN201910505743.7A CN201910505743A CN110232954A CN 110232954 A CN110232954 A CN 110232954A CN 201910505743 A CN201910505743 A CN 201910505743A CN 110232954 A CN110232954 A CN 110232954A
- Authority
- CN
- China
- Prior art keywords
- docking
- layer
- samples
- transfer learning
- layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003032 molecular docking Methods 0.000 title claims abstract description 121
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013526 transfer learning Methods 0.000 title claims description 35
- 238000013508 migration Methods 0.000 claims abstract description 16
- 230000005012 migration Effects 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims description 25
- 238000011176 pooling Methods 0.000 claims description 25
- 239000002131 composite material Substances 0.000 claims description 21
- 150000001875 compounds Chemical class 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 8
- 230000001537 neural effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 2
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 8
- 229910052799 carbon Inorganic materials 0.000 description 8
- 230000002209 hydrophobic effect Effects 0.000 description 8
- 229910052757 nitrogen Inorganic materials 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 125000001931 aliphatic group Chemical group 0.000 description 4
- 125000003118 aryl group Chemical group 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 102000003688 G-Protein-Coupled Receptors Human genes 0.000 description 3
- 108090000045 G-Protein-Coupled Receptors Proteins 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000003446 ligand Substances 0.000 description 3
- 102000005962 receptors Human genes 0.000 description 3
- 108020003175 receptors Proteins 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 2
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 2
- 239000000370 acceptor Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229910052698 phosphorus Inorganic materials 0.000 description 2
- 239000011574 phosphorus Substances 0.000 description 2
- 239000011593 sulfur Substances 0.000 description 2
- 229910052717 sulfur Inorganic materials 0.000 description 2
- WKBOTKDWSSQWDR-UHFFFAOYSA-N Bromine atom Chemical compound [Br] WKBOTKDWSSQWDR-UHFFFAOYSA-N 0.000 description 1
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- ZAMOUSCENKQFHK-UHFFFAOYSA-N Chlorine atom Chemical compound [Cl] ZAMOUSCENKQFHK-UHFFFAOYSA-N 0.000 description 1
- PXGOKWXKJXAPGV-UHFFFAOYSA-N Fluorine Chemical compound FF PXGOKWXKJXAPGV-UHFFFAOYSA-N 0.000 description 1
- FYYHWMGAXLPEAU-UHFFFAOYSA-N Magnesium Chemical compound [Mg] FYYHWMGAXLPEAU-UHFFFAOYSA-N 0.000 description 1
- 108091005804 Peptidases Proteins 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 239000004365 Protease Substances 0.000 description 1
- 102100037486 Reverse transcriptase/ribonuclease H Human genes 0.000 description 1
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- GDTBXPJZTBHREO-UHFFFAOYSA-N bromine Substances BrBr GDTBXPJZTBHREO-UHFFFAOYSA-N 0.000 description 1
- 229910052794 bromium Inorganic materials 0.000 description 1
- 239000011575 calcium Substances 0.000 description 1
- 229910052791 calcium Inorganic materials 0.000 description 1
- 239000000460 chlorine Substances 0.000 description 1
- 229910052801 chlorine Inorganic materials 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 229910052731 fluorine Inorganic materials 0.000 description 1
- 239000011737 fluorine Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- PNDPGZBMCMUPRI-UHFFFAOYSA-N iodine Chemical compound II PNDPGZBMCMUPRI-UHFFFAOYSA-N 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 239000011777 magnesium Substances 0.000 description 1
- 229910052749 magnesium Inorganic materials 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000011701 zinc Substances 0.000 description 1
- 229910052725 zinc Inorganic materials 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于迁移学习的分子对接方法和系统,所述方法包括:获取多个对接样本的3维空间坐标、范德华半径和原子类型;根据对接样本的原子类型划分通道数,并根据3维空间坐标及范德华半径计算每个格点上对应的值,得到多通道3维网格数据;将所述多通道3维网格数据输入到网络架构中,输出每个对接样本的分值,并根据分值对对接样本进行归类,以此训练出对接模型,其中,对于第一次训练出来的对接模型用于不同家族的迁移学习上,针对多个对接样本不同的家族训练出不同的对接模型。本发明能够根据对接样本自动训练出一个对接模型,使其能够准确地完成分子对接,并且能够使其符合样本不同的家族的实际应用场景,并提高分子对接的准确率。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于迁移学习的分子对接方法和一种基于迁移学习的分子对接系统。
背景技术
目前分子对接技术领域主要存在两大难点,一个是计算效率,一个是打分函数。
随着GPU通用计算的研究,计算效率问题得到了一定的缓解,但是评判对接的好坏的打分问题仍待解决。传统的打分策略主要有基于知识的评价函数、基于经验的评价函数、以及基于分子力场的评价函数,但是这些打分策略都有自身的缺陷,一般很难有效的根据对接样本自动学习,从而给出一个正确的对接情况。此外,对于不同样本对接的实际场景,还存在对接的准确率较低的情况。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种基于迁移学习的分子对接方法,能够根据对接样本自动训练出一个对接模型,使其能够准确地完成分子对接,并且针对样本不同的家族分别训练出不同的对接模型,使其符合样本不同的家族的实际应用场景,并提高分子对接的准确率。
本发明的第二个目的在于提出一种基于迁移学习的分子对接系统。
为达到上述目的,本发明第一方面实施例提出了一种基于迁移学习的分子对接方法,包括:获取多个对接样本的3维空间坐标、范德华半径和原子类型;根据对接样本的原子类型划分通道数,并根据3维空间坐标及范德华半径计算每个格点上对应的值,得到多通道3维网格数据;将所述多通道3维网格数据输入到网络架构中,输出每个对接样本的分值,并根据分值对对接样本进行归类,以此训练出对接模型,其中,对于第一次训练出来的对接模型用于不同家族的迁移学习上,针对多个对接样本不同的家族训练出不同的对接模型。
根据本发明实施例的基于迁移学习的分子对接方法,通过获取的对接样本的原子类型划分通道数,并根据3维空间坐标及范德华半径计算每个格点上对应的值,得到多通道3维网格数据,然后将多通道3维网格数据输入到网络架构中,获得每个对接样本的分值,最后根据分值对对接样本进行归类,以此训练出对接模型,其中,对于第一次训练出来的对接模型用于不同家族的迁移学习上,针对多个对接样本不同的家族训练出不同的对接模型,由此,能够根据对接样本自动训练出一个对接模型,使其能够准确地完成分子对接,并且针对样本不同的家族分别训练出不同的对接模型,使其符合样本不同的家族的实际应用场景,并提高分子对接的准确率。
另外,根据本发明上述实施例提出的基于迁移学习的分子对接方法还可以具有如下附加的技术特征:
进一步地,所述网络架构包括数据输入层、特征提取层和评分器。
进一步地,所述特征提取层包括多个池化层、多个卷积层、多个多卷积模块、多个多路复合卷积模块和全连接层。
进一步地,所述数据输入层连接到池化层,所述评分器连接到全连接层。
进一步地,所述多路复合卷积模块包括3层,每层包括一个归一化层、一个3x3x3卷积操作层和一个线性单元层。
进一步地,所述评分器还生成反馈信号,用于在训练期间对一个或多个所述池化层、多卷积模块、多路复合卷积模块和全连接层施加监督信号,从而通过将所述监督信号反向传输到串接的多卷积模块和池化层,或者串接的多卷积模块、池化层和多路复合卷积模块,调整深度特征提取层中的神经权重。
根据本发明的一个实施例,其中,针对家族数目不同的情况,采用不同的迁移学习参数,以及调整不同的特征提取层。
进一步地,所述迁移学习参数包括学习率、学习率递减幅度和训练次数。
进一步地,所述调整不同的特征提取层包括:在家族数目稀少的样本中,通过调整少量的卷积层,以防过度迁移。
为达到上述目的,本发明第一方面实施例提出了一种基于迁移学习的分子对接系统,包括1个CPU(Central Processing Unit,中央处理器)和至少1个GPU(GraphicsProcessing Unit,图形处理器),以及至少一个由CPU或GPU处理的程序,所述程序被执行时实现本发明第一方面提出的基于迁移学习的分子对接方法。
根据本发明实施例的基于迁移学习的分子对接系统,能够根据对接样本自动训练出一个对接模型,使其能够准确地完成分子对接,并且针对样本不同的家族分别训练出不同的对接模型,使其符合样本不同的家族的实际应用场景,并提高分子对接的准确率。
附图说明
图1为本发明实施例的基于迁移学习的分子对接方法的流程图;
图2为本发明一个实施例的表征对接样本的示意图;
图3为本发明一个实施例的网络构架的方框图;
图4为本发明一个实施例的深度特征提取层结构示意图;
图5为本发明一个实施例的多卷积模块的示意图;
图6为本发明一个实施例的多路复合卷积模块的结构示意图;
图7为本发明一个实施例的多路复合卷积模块的具体操作步骤流程图;
图8为本发明一个实施例的多路复合卷积模块的示意图;
图9为本发明一个实施例的多路复合卷积层的处理示意流程图;
图10为本发明一个实施例的迁移学习的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的基于迁移学习的分子对接方法的流程图。
如图1所示,本发明实施例的基于迁移学习的分子对接方法,包括以下步骤:
S1,获取多个对接样本的3维空间坐标、范德华半径和原子类型。
S2,根据对接样本的原子类型划分通道数,并根据3维空间坐标及范德华半径计算每个格点上对应的值,得到多通道3维网格数据。
在本发明的一个实施例中,可根据对接样本的原子类型划分通道数,例如,如图2所示,可划分为类型通道0、类型通道1……类型通道33共34个类型通道,并根据3维空间坐标及范德华半径计算每个格点上对应的值,得到图示3维网格数据。
S3,将多通道3维网格数据输入到网络架构中,输出每个对接样本的分值,并根据分值对对接样本进行归类,以此训练出对接模型。
在本发明的一个实施例中,如图3所示,网络架构包括数据输入层10、特征提取层20和评分器30。其中,特征提取层20包括多个池化层、多个卷积层、多个多卷积模块、多个多路复合卷积模块和全连接层,可被配置或者被训练为从多个3维网格数据提取识别特征。数据输入层10连接到池化层,具体地数据输入层10的输出直接连接至一个池化层和一个卷积层,主要用于数据量的缩减;评分器30与特征提取层20相串联,并且根据提取的特征判断对接样本的对接情况,并反馈给特征提取层20,用于在训练期间对一个或多个池化层、多卷积模块、多路复合卷积模块和全连接层施加监督信号,从而调整深度特征提取层中的神经权重。
在本发明的一个具体实施例中,如图4所示,深度特征提取层包括交替的多个多卷积模块、多个多路复合卷积模块、1x1x1卷积层、2x2x2池化层和全连接层,其中,多路复合卷积模块串联在多卷积模块之后,主要用于将每个卷积模块的输出进行堆叠,并且深度特征提取层最后连接至少一个全连接层。其中,首个多卷积模块从输入的3维网格数据提取局部特征,且后续的多卷积模块从在前的池化层输出的提取特征中,进一步提取局部特征,每个池化层从各自的多卷积模块接收局部特征,并且降低数据的维度,每个池化层除了连接在数据输出层以外,还用于连接每个多路复合卷积模块,每个多路复合卷积模块输出至一个1x1x1的卷积层以及一个2x2x2的池化层,并且最后一层的输出连接至一个或多个全连接层。
在本发明的一个实施例中,每个多卷积模块包含多个串联的卷积层,图5所示的为四个串联的卷积层的示意图。然而,在本发明中,多卷积模块可包括任意数量的卷积层,例如1个、2个、3个,或者更多。在多卷积模块仅包含一个卷积层的极端情形中,它降级到传统的卷积模块。因此,多卷积模块是传统卷积模块的泛化。
在本发明的一个实施例中,如图6所示,多路复合卷积模块包括3层,一个归一化层、一个3x3x3卷积操作层和一个线性单元层。
在本发明的一个实施例中,如图7所示,多路复合卷积模块具体操作步骤包括:归一化层可用于执行数据归一化,具体包括可对多上一层输出结果数据进行归一化操作和可对归一化后的数据进行平移和缩放;3x3x3卷积操作层可用于执行3x3x3卷积操作;线性单元层可用于激活上一层输出结果。
在本发明的一个实施例中,上述3个操作层可作为一个整体,并重复N次形成一个多卷积模块,及每层包括N个上述操作层,N个上述操作层依次输出N个特征结果,将这N个特征结果堆叠到一起,从而形成了用于输入下一复合卷积层的特征结果。
在本发明的一个实施例中,每个多路复合卷积模块包括一个或多个串联的复合卷积层,图8所示的为4个串联的复合卷积层的示意图。
在本发明的一个实施例中,如图9所示,首个复合卷积层可生成多个第一输出特征图,下一个复合卷积层可生成多个第二输出特征图,后一个复合卷积层可生成多个第三输出特征图,参照图4,其中每个复合卷积层连接一个1x1x1卷积层,通过1x1x1卷积层连接第一、第二和第三特征图,并且对接收的特征图执行1x1x1的卷积操作,压缩特征图数量。
在本发明的一个实施例中,多路复合卷积模块最后一层的输出连接至全连接层,全连接层最后连接至评分器30,根据评分器30获得对应数据样本的分值,并根据分值情况对样本进行归类。
在本发明的一个实施例中,对于第一次训练出来的对接模型用于不同家族的迁移学习上,针对多个对接样本不同的家族训练出不同的对接模型,采用不同的迁移学习参数,以及调整不同的特征提取层。其中,迁移学习参数包括学习率、学习率递减幅度和训练次数,调整不同的特征提取层包括在家族数目稀少的样本中,通过调整少量的卷积层,以防过度迁移。
根据本发明实施例的基于迁移学习的分子对接方法,通过获取的对接样本的原子类型划分通道数,并根据3维空间坐标及范德华半径计算每个格点上对应的值,得到多通道3维网格数据,然后将多通道3维网格数据输入到网络架构中,获得每个对接样本的分值,最后根据分值对对接样本进行归类,以此训练出对接模型,其中,对于第一次训练出来的对接模型用于不同家族的迁移学习上,针对多个对接样本不同的家族训练出不同的对接模型,由此,能够根据对接样本自动训练出一个对接模型,使其能够准确地完成分子对接,并且针对样本不同的家族分别训练出不同的对接模型,使其符合样本不同的家族的实际应用场景,并提高分子对接的准确率。
图10为本发明的一个实施例的迁移学习的结构示意图。如图10所示,迁移学习的学习过程是将知识从源域迁移到目标域。
下面将以DUD-E数据集为例,进一步介绍本发明的实现过程。
在本发明的一个具体实施例中,DUD-E数据集由102个target组成,有大约20000正样本和大约100万个负样本。为了形成训练集,首先通过对接软件来进行采样打分,并选取合适的对接结果样本作为训练集。
然后,根据对接数据集的特征,将受体和配体划分为不同种类型,比如以DUD-E数据集为例,可以将受体划分为:疏水性脂肪族碳、非疏水性脂肪族碳、疏水性芳香碳、非疏水性芳香碳、钙、铁、镁、氮、受体氮、供体受体氮、磷、硫、锌等多种类型,配体划分为:疏水性脂肪族碳、非疏水性脂肪族碳、疏水性芳香碳、非疏水性芳香碳、溴、氯、氟、碘、氮、受体氮、供体受体氮、磷、硫等多种类型。
根据以上原子类型,每次输入数据输入层10的数据有多个个通道,每个通道都是一个3维网格数据块。
为了更快速的运行程序,计算程序还应该能够预先对数据集进行一个处理,将原本的文件格式转换为二进制文件,只保留原始数据的坐标和原子类型。
为了针对数据集的不平衡问题,计算程序还应该能够解决该问题,具体的实施方式是:强制输入数据输入层100的正负样本比例为1:1,比如一次性输入64个样本,则32个为正样本,32个负样本。
为了防止训练模型出现过拟合的现象,除了加入正则化技术外,计算程序还应该包括有对训练样本进行平移和旋转的功能,这样训练的出来的模型在测试集上进行表现时才不会太多的依赖于受体配体对接时的对接位点。
进一步地,参照图3,在数据处理完的情况下,可将得到的每个通道的3维网格数据以数据块的形式输入到数据输入层10,数据输入层10的输出直接连接至一个2x2x2的池化层和3x3x3的卷积层,主要用于数据量的缩减。然后循环的进行多卷积模块和多复合卷积模块提取对接样本的对接位点特征。其中,首个多卷积模块从输入的3维网格数据提取局部特征,且后续的多卷积模块从在前的池化模块输出的提取特征中,进一步提取局部特征,其中,每个池化模块从各自的多卷积模块接收局部特征,并且降低数据的维度。其中多路复合卷积模块最后一层的输出连接至全连接层,全连接层最后连接至评分器30,根据评分器30获得对应数据样本的分值,并根据分值情况对样本进行归类。
评分器30与特征提取层20相串联,并且根据提取的特征判断对接样本的对接情况,并反馈给特征提取层20,用于在训练期间对一个或多个池化模块、多卷积模块、多路复合卷积模块和全连接模块施加监督信号,从而通过将监督信号反向传输到串接的多卷积模块和池化模块,或者串接的多卷积模块、池化模块和多路复合卷积模块,调整深度特征提取层中的神经权重。
在上述所有样本上训练出一个模型后,为了使得训练的模型更加符合实际应用场景并提高准确度,本发明针对不同家族做了不同的迁移学习。
DUD-E数据集的102个target,根据不同的结构类型可以分为以下5个家族,分别对应的家族和所拥有的target数目为:kinase(26targets)、protease(15targets)、nuclear(11targets)、GPCR(5targets)、other(45targets)。
针对不同家族做不同的迁移学习包括采用不同的迁移学习参数,以及调整不同的特征提取模块,原因在于家族样本数目的不同。
以GPCR为例,因为具有较少的targets,因此在迁移学习时不需要调整所有特征提取层的参数,也因此需要更小的学习率,而对于其他家族,需要调整所有参数以及一个较之GPCR家族来说更大的学习率,来得到一个针对该家族分类效果好的模型。
对应上述实施例,本发明提出了一种基于迁移学习的分子对接系统,包括1个CPU和至少1个GPU,以及至少一个由CPU或GPU处理的程序,程序被执行时可实现上述基于迁移学习的分子对接方法。
根据本发明实施例的基于迁移学习的分子对接系统,能够根据对接样本自动训练出一个对接模型,使其能够准确地完成分子对接,并且针对样本不同的家族分别训练出不同的对接模型,使其符合样本不同的家族的实际应用场景,并提高分子对接的准确率。
在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于迁移学习的分子对接方法,其特征在于,包括:
获取多个对接样本的3维空间坐标、范德华半径和原子类型;
根据对接样本的原子类型划分通道数,并根据3维空间坐标及范德华半径计算每个格点上对应的值,得到多通道3维网格数据;
将所述多通道3维网格数据输入到网络架构中,输出每个对接样本的分值,并根据分值对对接样本进行归类,以此训练出对接模型,
其中,对于第一次训练出来的对接模型用于不同家族的迁移学习上,针对多个对接样本不同的家族训练出不同的对接模型。
2.根据权利要求1所述的基于迁移学习的分子对接方法,其特征在于,所述网络架构包括数据输入层、特征提取层和评分器。
3.根据权利要求2所述的基于迁移学习的分子对接方法,其特征在于,所述特征提取层包括多个池化层、多个卷积层、多个多卷积模块、多个多路复合卷积模块和全连接层。
4.根据权利要求3所述的基于迁移学习的分子对接方法,其特征在于,所述数据输入层连接到池化层,所述评分器连接到全连接层。
5.根据权利要求3或4所述的基于迁移学习的分子对接方法,其特征在于,所述多路复合卷积模块包括3层,每层包括一个归一化层、一个3x3x3卷积操作层和一个线性单元层。
6.根据权利要求5所述的基于迁移学习的分子对接方法,其特征在于,所述评分器还生成反馈信号,用于在训练期间对一个或多个所述池化层、多卷积模块、多路复合卷积模块和全连接层施加监督信号,从而通过将所述监督信号反向传输到串接的多卷积模块和池化层,或者串接的多卷积模块、池化层和多路复合卷积模块,调整深度特征提取层中的神经权重。
7.根据权利要求1所述的基于迁移学习的分子对接方法,其特征在于,其中,针对家族数目不同的情况,采用不同的迁移学习参数,以及调整不同的特征提取层。
8.根据权利要求7所述的基于迁移学习的分子对接方法,其特征在于,所述迁移学习参数包括学习率、学习率递减幅度和训练次数。
9.根据权利要求8所述的基于迁移学习的分子对接方法,其特征在于,所述调整不同的特征提取层包括:
在家族数目稀少的样本中,通过调整少量的卷积层,以防过度迁移。
10.一种基于迁移学习的分子对接系统,其特征在于,包括1个CPU和至少1个GPU,以及至少一个由CPU或GPU处理的程序,所述程序被执行时实现根据权利要求1-9中任一项所述的基于迁移学习的分子对接方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910388097 | 2019-05-10 | ||
CN2019103880970 | 2019-05-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110232954A true CN110232954A (zh) | 2019-09-13 |
CN110232954B CN110232954B (zh) | 2021-06-15 |
Family
ID=67859690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910505743.7A Active CN110232954B (zh) | 2019-05-10 | 2019-06-12 | 基于迁移学习的分子对接方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110232954B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380872A (zh) * | 2020-11-27 | 2021-02-19 | 深圳市慧择时代科技有限公司 | 一种目标实体的情感倾向确定方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222178A (zh) * | 2011-03-31 | 2011-10-19 | 清华大学深圳研究生院 | 一种筛选和/或设计针对多靶标的药物的方法 |
CN102930181A (zh) * | 2012-11-07 | 2013-02-13 | 四川大学 | 基于分子描述符的蛋白质-配体亲和力预测方法 |
CN103500293A (zh) * | 2013-09-05 | 2014-01-08 | 北京工业大学 | 一种非核糖体蛋白质-rna复合物近天然结构的筛选方法 |
WO2014094138A1 (en) * | 2012-12-21 | 2014-06-26 | Universite De Montreal | Screening methods to identify compounds inhibiting the activity of e2 enzymes by stabilization of non-covalent ubiquitin-e2 complexes and pharmaceutical applications related to e2 inhibitors |
CN106446607A (zh) * | 2016-09-26 | 2017-02-22 | 华东师范大学 | 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法 |
CN106960131A (zh) * | 2017-05-05 | 2017-07-18 | 华东师范大学 | 一种基于多特征融合的药物副作用预测方法 |
CN108932400A (zh) * | 2017-05-24 | 2018-12-04 | 北京工业大学 | 一种考虑界面信息的有效的蛋白质-rna复合物结构预测方法 |
CN108984811A (zh) * | 2017-06-05 | 2018-12-11 | 欧阳德方 | 一种药物制剂处方虚拟设计及评估的方法和系统 |
-
2019
- 2019-06-12 CN CN201910505743.7A patent/CN110232954B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222178A (zh) * | 2011-03-31 | 2011-10-19 | 清华大学深圳研究生院 | 一种筛选和/或设计针对多靶标的药物的方法 |
CN102930181A (zh) * | 2012-11-07 | 2013-02-13 | 四川大学 | 基于分子描述符的蛋白质-配体亲和力预测方法 |
WO2014094138A1 (en) * | 2012-12-21 | 2014-06-26 | Universite De Montreal | Screening methods to identify compounds inhibiting the activity of e2 enzymes by stabilization of non-covalent ubiquitin-e2 complexes and pharmaceutical applications related to e2 inhibitors |
CN103500293A (zh) * | 2013-09-05 | 2014-01-08 | 北京工业大学 | 一种非核糖体蛋白质-rna复合物近天然结构的筛选方法 |
CN106446607A (zh) * | 2016-09-26 | 2017-02-22 | 华东师范大学 | 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法 |
CN106960131A (zh) * | 2017-05-05 | 2017-07-18 | 华东师范大学 | 一种基于多特征融合的药物副作用预测方法 |
CN108932400A (zh) * | 2017-05-24 | 2018-12-04 | 北京工业大学 | 一种考虑界面信息的有效的蛋白质-rna复合物结构预测方法 |
CN108984811A (zh) * | 2017-06-05 | 2018-12-11 | 欧阳德方 | 一种药物制剂处方虚拟设计及评估的方法和系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380872A (zh) * | 2020-11-27 | 2021-02-19 | 深圳市慧择时代科技有限公司 | 一种目标实体的情感倾向确定方法及装置 |
CN112380872B (zh) * | 2020-11-27 | 2023-11-24 | 深圳市慧择时代科技有限公司 | 一种目标实体的情感倾向确定方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110232954B (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709903B (zh) | 一种红外与可见光图像融合方法 | |
WO2021134871A1 (zh) | 基于局部二值模式和深度学习的合成人脸图像取证方法 | |
CN111680706B (zh) | 一种基于编码和解码结构的双通道输出轮廓检测方法 | |
CN114092832B (zh) | 一种基于并联混合卷积网络的高分辨率遥感影像分类方法 | |
CN112861729A (zh) | 一种基于伪深度图引导的实时深度补全方法 | |
CN110555841B (zh) | 基于自注意图像融合和dec的sar图像变化检测方法 | |
CN114169442B (zh) | 基于双原型网络的遥感图像小样本场景分类方法 | |
CN109858486B (zh) | 一种基于深度学习的数据中心云端目标识别方法 | |
CN113822284A (zh) | 一种基于边界注意力的rgbd图像语义分割方法 | |
CN103294601B (zh) | 一种基于选择性动态权重神经网络集成的软件可靠性预测方法 | |
CN113743417B (zh) | 语义分割方法和语义分割装置 | |
CN114419449A (zh) | 一种自注意力多尺度特征融合的遥感图像语义分割方法 | |
CN112990336B (zh) | 基于竞争注意力融合的深度三维点云分类网络构建方法 | |
CN116468740A (zh) | 一种图像语义分割模型及分割方法 | |
CN112365511B (zh) | 基于重叠区域检索与对齐的点云分割方法 | |
CN116228792A (zh) | 一种医学图像分割方法、系统及电子装置 | |
CN114943345A (zh) | 基于主动学习和模型压缩的联邦学习全局模型训练方法 | |
CN112861659A (zh) | 一种图像模型训练方法、装置及电子设备、存储介质 | |
CN116386853A (zh) | 面向智慧医疗的深度可分离卷积双重聚合联邦学习方法 | |
CN117253071B (zh) | 基于多级伪标签增强的半监督目标检测方法及系统 | |
CN114882234A (zh) | 多尺度轻量级密集连目标检测网络的构建方法 | |
CN117788810A (zh) | 一种无监督语义分割的学习系统 | |
CN110659680B (zh) | 一种基于多尺度卷积的图像patch匹配方法 | |
CN117058074A (zh) | 基于Transformer和CNN的煤矸石检测方法 | |
CN110232954A (zh) | 基于迁移学习的分子对接方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211130 Address after: 213002 4th floor, science and technology transformation building, No. 3, Meishan Road, Xuejia Town, Xinbei District, Changzhou City, Jiangsu Province Patentee after: PMR (Changzhou) Biotechnology Co.,Ltd. Address before: 213001 No. 1801 Wu Cheng Road, Changzhou, Jiangsu Patentee before: JIANGSU University OF TECHNOLOGY |