CN110265092A - 基于人工智能的抗体-抗原分子对接评价方法和系统 - Google Patents
基于人工智能的抗体-抗原分子对接评价方法和系统 Download PDFInfo
- Publication number
- CN110265092A CN110265092A CN201910506200.7A CN201910506200A CN110265092A CN 110265092 A CN110265092 A CN 110265092A CN 201910506200 A CN201910506200 A CN 201910506200A CN 110265092 A CN110265092 A CN 110265092A
- Authority
- CN
- China
- Prior art keywords
- sample
- docking
- value
- antigene
- antibody
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于人工智能的抗体‑抗原分子对接评价方法和系统,其中,所述方法包括:获取多个抗体‑抗原分子对接样本;计算每个对接样本的用于表征样本间差异情况的综合值;处理多个对接样本数据并基于卷积神经网络得到每个对接样本的打分值;采用自定义的损失函数根据综合值和打分值计算每两个对接样本间的损失值;根据每两个对接样本间的损失值计算多个对接样本的损失均值,并通过优化函数根据损失均值对卷积神经网络进行参数更新。本发明能够通过比较输入样本间的两两差异来选出优异的对接样本,训练出一个能够直接区分出样本好坏的模型,使其更符合实际抗体‑抗原分子对接的实验要求。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于人工智能的抗体-抗原分子对接评价方法、一种非临时性计算机可读存储介质和一种基于人工智能的抗体-抗原分子对接评价系统。
背景技术
目前分子对接技术领域主要存在两大难点,一个是计算效率,一个是打分函数。
随着GPU通用计算的研究,计算效率问题得到了一定的缓解,但是评判对接的好坏的打分问题仍待解决。传统的打分策略主要有基于知识的评价函数、基于经验的评价函数、以及基于分子力场的评价函数,但是这些打分策略都有自身的缺陷。
随着人工智能的神经网络的发展,人工智能的神经网络开始应用于生物信息方面,利用人工智能的神经网络对分子对接打分也开始得到了发展。但是目前将人工智能的神经网络应用于分子对接上普遍还是根据大量工程结构特征对候选模型进行排序,并没有尝试从样本间设计特性,训练出的模型难以直接区分样本的好坏。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种基于人工智能的抗体-抗原分子对接评价方法,能够通过比较输入样本间的两两差异来选出优异的对接样本,训练出一个能够直接区分出样本好坏的模型,使其更符合实际实验要求。
本发明的第二个目的在于提出一种非临时性计算机可读存储介质。
本发明的第三个目的在于提出一种基于人工智能的抗体-抗原分子对接评价系统。
为达到上述目的,本发明第一方面实施例提出了一种基于人工智能的抗体-抗原分子对接评价方法,包括:获取多个抗体-抗原分子对接样本;计算每个对接样本的用于表征样本间差异情况的综合值;处理多个对接样本数据并基于卷积神经网络得到每个对接样本的打分值;采用自定义的损失函数根据所述综合值和所述打分值计算每两个对接样本间的损失值;根据每两个对接样本间的损失值计算多个对接样本的损失均值,并通过优化函数根据所述损失均值对所述卷积神经网络进行参数更新。
根据本发明实施例的基于人工智能的抗体-抗原分子对接评价方法,首先通过获取多个抗体-抗原分子对接样本,然后计算每个对接样本的表征样本间差异情况的综合值,处理多个对接样本数据并基于卷积神经网络得到每个对接样本的打分值,接着采用自定义的损失函数根据综合值和打分值计算每两个对接样本间的损失值,最后根据每两个对接样本间的损失值计算多个对接样本的损失均值并通过优化函数根据损失均值对卷积神经网络进行参数更新,由此,能够通过比较输入样本间的两两差异来选出优异的对接样本,训练出一个能够直接区分出样本好坏的模型,使其更符合实际抗体-抗原分子对接的实验要求。
另外,根据本发明上述实施例提出的基于人工智能的抗体-抗原分子对接评价方法还可以具有如下附加的技术特征:
根据本发明的一个实施例,根据每个对接样本所产生的复合物的各个指标值进行综合计算以得到每个对接样本的用于表征样本间差异情况的综合值。
进一步地,所述各个指标值包括均方根偏差和天然接触数。
进一步地,所述处理多个对接样本数据并基于卷积神经网络得到每个对接样本的打分值,具体包括:获得每个对接样本的3维空间坐标、原子类型,并计算3维空间坐标中每个格点上的值;根据原子类型划分通道,每个通道对应一个3维网格数据,将所有通道按数据块的形式输入到卷积神经网络的数据输入层;数据输入层的数据通过特征提取层提取特征以后进入评分网络层,评分网络层对每个对接样本进行打分以得到每个对接样本的打分值。
进一步地,所述自定义的损失函数处于所述评分网络层,所述采用自定义的损失函数根据所述综合值和所述打分值计算每两个对接样本间的损失值,具体包括:根据所述综合值对对接样本进行两两差异度比较;如果两个对接样本之间的综合值差值大于等于预设差异度阈值,则采用自定义的损失函数根据该两个对接样本的打分值计算该两个对接样本间的损失值;如果两个对接样本之间的综合值差值小于所述预设差异度阈值,则不进行该两个对接样本间损失值的计算。
其中,对接样本i、j之间的损失值为:
Loss样本i、j=weight·Max[0,1-ci、j·(scorei-scorej)]
其中,Loss样本i、j为对接样本i、j之间的损失值;score为所述打分值;weight为样本间差异情况判断值,如果i、j之间的综合值差值大于等于预设差异度阈值,则weight为1,否则为0;ci、j为排序系数。
进一步地,所述优化函数处于所述特征提取层。
为达到上述目的,本发明第二方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面提出的基于人工智能的抗体-抗原分子对接评价方法。
根据本发明实施例的非临时性计算机可读存储介质,通过执行其上存储的计算机程序,能够通过比较输入样本间的两两差异来选出优异的对接样本,训练出一个能够直接区分出样本好坏的模型,使其更符合实际抗体-抗原分子对接的实验要求。
为达到上述目的,本发明第三方面实施例提出了一种基于人工智能的抗体-抗原分子对接评价系统,包括:数据输入层,所述数据输入层用于输入多个抗体-抗原分子对接样本数据和每个对接样本的用于表征样本间差异情况的综合值;特征提取层,所述特征提取层用于提取抗体-抗原分子对接样本的特征;评分网络层,所述评分网络层用于获取每个对接样本的打分值,并采用自定义的损失函数根据所述综合值和所述打分值计算每两个对接样本间的损失值,并根据每两个对接样本间的损失值计算多个对接样本的损失均值,以及将所述损失均值反馈给所述特征提取层,以便所述特征提取层通过优化函数根据所述损失均值进行参数更新。
根据本发明实施例的基于人工智能的抗体-抗原分子对接评价系统,通过数据输入层输入多个抗体-抗原分子对接样本数据和每个对接样本的表征样本间差异情况的综合值,通过特征提取层提取抗体-抗原分子对接样本的特征,通过评分网络层获取每个对接样本的打分值,并采用自定义的损失函数根据综合值和打分值计算每两个对接样本间的损失值,并根据每两个对接样本间的损失值计算多个对接样本的损失均值,以及将损失均值反馈给特征提取层,以便特征提取层通过优化函数根据损失均值进行参数更新,由此,能够通过比较输入样本间的两两差异来选出优异的对接样本,训练出一个能够直接区分出样本好坏的模型,使其更符合实际抗体-抗原分子对接的实验要求。
附图说明
图1为本发明实施例的基于人工智能的抗体-抗原分子对接评价方法的流程图;
图2为本发明一个实施例的表征对接样本的示意图;
图3为本发明一个实施例的特征提取层的结构示意图;
图4为本发明一个实施例的卷积神经网络框架示意图;
图5为本发明一个实施例的自定义损失函数的计算流程图;
图6为本发明一个实施例的基于人工智能的抗体-抗原分子对接评价系统的方框示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的基于人工智能的抗体-抗原分子对接评价方法的流程图。
如图1所示,本发明实施例的基于人工智能的抗体-抗原分子对接评价方法,包括以下步骤:
S1,获取多个抗体-抗原分子对接样本。
S2,计算每个对接样本的用于表征样本间差异情况的综合值。
具体地,可根据每个对接样本所产生的复合物的各个指标值进行综合计算以得到每个对接样本的用于表征样本间差异情况的综合值,其中,各个指标值包括均方根偏差(RMSD)和天然接触数。
S3,处理多个对接样本数据并基于卷积神经网络得到每个对接样本的打分值。
如图2所示,在本发明的一个实施例中,首先可通过获得每个对接样本的3维空间坐标、原子类型,并计算3维空间坐标中每个格点上的值,然后根据原子类型划分通道,例如,可划分为类型通道0、类型通道1……类型通道10共11个类型通道,每个通道对应一个3维网格数据。
在本发明的一个实施例中,卷积神经网络包括数据输入层、特征提取层和评分网络层。
可将上述划分的所有通道按数据块的形式输入到卷积神经网络的数据输入层,最后根据数据输入层的数据通过特征提取层提取特征以后进入评分网络层,评分网络层对每个对接样本进行打分以得到每个对接样本的打分值。
在本发明的一个实施例中,特征提取层包括卷积模块、池化模块以及全连接层模块,其中卷积模块还包括一个归一化模块和一个线性激活层模块。进一步地,每个特征提取层可以包括不同数量的卷积模块、不同数量的池化模块和不同数量的全连接模块,除此之外,还可以包括不同数量的多卷积模块、多路复合卷积模块等。如图3所示,在本发明的一个具体实施例中,特征提取层包括交替的2x2x2池化层模块和3x3x3卷积模块,其中卷积模块最后连接至两个全连接层,全连接层最后连接至评分网络层,数据输入层的输出直接连接至一个2x2x2池化层。
在本发明的一个实施例中,评分网络层与特征提取层相串联,并且根据提取的特征判断对接样本的对接情况,并反馈给特征提取层,可在训练期间对一个或多个所述池化模块、卷积模块、或多卷积模块和多路复合卷积模块、全连接模块施加监督信号,从而通过将监督信号反向传输到串接的卷积模块和池化模块,或者串接的多卷积模块、多复合卷积模块、池化模块,调整特征提取层中的神经权重。
在本发明的一个实施例中,首个卷积模块从输入的3维网格数据提取局部特征,且后续的卷积模块从前一个池化模块输出的提取特征中,进一步提取局部特征,其中,每个池化模块从各自的卷积模块接收局部特征,并且降低数据的维度。
在本发明的一个实施例中,卷积模块还包含另两个模块:归一化模块和线性激活模块,其中归一化模块主要执行2个操作:对上一层输出结果数据进行归一化操作;对归一化后的数据进行平移和缩放。
如图4所示,在本发明的一个实施例中,特征提取层的最后一层连接至两个全连接层,且最后一个全连接层只输出一个神经元,使卷积神经网络模型做回归操作。
S4,采用自定义的损失函数根据综合值和打分值计算每两个对接样本间的损失值。
在本发明的一个实施例中,每个样本经过卷积神经网络特征提取层之后都会通过最后一个全连接层,最后一个全连接层输出一个神经元,即给每个样本一个分值,则每个样本具有两个值,一个卷积神经网络的打分值和一个与其他样本比较差异情况的综合值。
如图5所示,在本发明的一个实施例中,先根据综合值对对接样本进行两两差异度比较,例如一次性输入的样本有N个,先从第一个样本开始处理,可设第一个样本为x(x=0),x号样本与其余N-1个样本的综合值进行两两差异比较,如果两个对接样本之间的综合值差值大于等于预设差异度阈值,则采用自定义的损失函数根据该两个对接样本的打分值计算该两个对接样本间的损失值;如果两个对接样本之间的综合值差值小于所述预设差异度阈值,则不进行该两个对接样本间损失值的计算。
具体地,对接样本i、j之间的损失值可通过下列公式计算:
Loss样本i、j=weight·Max[0,1-ci、j·(scorei-scorej)]
其中,Loss样本i、j为对接样本i、j之间的损失值;score为打分值;weight为样本间差异情况判断值,如果i、j之间的综合值差值大于等于预设差异度阈值,则weight为1,否则为0;ci、j为排序系数,其中,将样本按接近天然复合物的程度进行排序,如果样本i比样本j更接近天然复合物,则ci、j为1,否则ci、j为-1。
在本发明的一个实施例中,自定义的损失函数通过比较每两个对接样本间的综合值差值,当样本间综合值差值较大时,对样本进行特性设计,当样本间综合值差值差异较小时,不对样本进行特性设计,从而可对好的样本和坏的样本进行直接性的区分。
S5,根据每两个对接样本间的损失值计算多个对接样本的损失均值,并通过优化函数根据损失均值对卷积神经网络进行参数更新。
如图3所示,当处理完N个样本后,可通过下列公式计算多个对接样本的损失均值:
其中,NB为一次性输入的样本数。
在本发明的一个实施例中,优化函数处于特征提取层。可将根据上述公式计算得到的损失均值反馈给特征提取层,使其可通过优化函数根据损失均值对卷积神经网络进行参数更新,其中优化函数可以选择SGD、Adam、AdaDelta、Adagrad等。
根据本发明实施例的基于人工智能的抗体-抗原分子对接评价方法,通过获取多个抗体-抗原分子对接样本,然后计算每个对接样本的表征样本间差异情况的综合值,进一步处理多个对接样本数据并基于卷积神经网络得到每个对接样本的打分值,接着采用自定义的损失函数根据综合值和打分值计算每两个对接样本间的损失值,最后根据每两个对接样本间的损失值计算多个对接样本的损失均值并通过优化函数根据损失均值对卷积神经网络进行参数更新,由此,能够通过比较输入样本间的两两差异来选出优异的对接样本,训练出一个能够直接区分出样本好坏的模型,使其更符合实际抗体-抗原分子对接的实验要求。
对应上述实施例,本发明还提出了一种非临时性计算机可读存储介质。
本发明实施例的非临时性计算机可读存储介质,通过执行其上存储的计算机程序,该程序被处理器执行时,可实现本上述基于人工智能的抗体-抗原分子对接评价方法。
根据本发明实施例的非临时性计算机可读存储介质,通过执行其上存储的计算机程序,能够通过比较输入样本间的两两差异来选出优异的对接样本,训练出一个能够直接区分出样本好坏的模型,使其更符合实际抗体-抗原分子对接的实验要求。
为实现上述实施例的基于人工智能的抗体-抗原分子对接评价方法,本发明还提出了一种基于人工智能的抗体-抗原分子对接评价系统。
如图6所示,本发明实施例的基于人工智能的抗体-抗原分子对接评价系统包括数据输入层10、特征提取层20和评分网络层30。
其中,数据输入层10用于输入多个抗体-抗原分子对接样本数据和每个对接样本的用于表征样本间差异情况的综合值,特征提取层20用于提取抗体-抗原分子对接样本的特征,评分网络层30用于获取每个对接样本的打分值,并采用自定义的损失函数根据所述综合值和所述打分值计算每两个对接样本间的损失值,并根据每两个对接样本间的损失值计算多个对接样本的损失均值,以及将所述损失均值反馈给所述特征提取层,以便所述特征提取层通过优化函数根据所述损失均值进行参数更新,由此,能够通过比较输入样本间的两两差异来选出优异的对接样本,训练出一个能够直接区分出样本好坏的模型,使其更符合实际实验要求。
在本发明的一个实施例中,首先可通过获得每个对接样本的3维空间坐标、原子类型,并计算3维空间坐标中每个格点上的值,然后根据原子类型划分通道,例如,如图2所示,可划分为类型通道0、类型通道1……类型通道10等11个类型通道,每个通道对应一个3维网格数据,将所有通道按数据块的形式输入到卷积神经网络的数据输入层,最后根据数据输入层的数据通过特征提取层提取特征以后进入评分网络层,评分网络层对每个对接样本进行打分以得到每个对接样本的打分值。。
具体地,可根据每个对接样本所产生的复合物的各个指标值进行综合计算以得到每个对接样本的用于表征样本间差异情况的综合值,进一步地,各个指标值包括均方根偏差(RMSD)和天然接触数。
在本发明的一个实施例中,特征提取层20包括卷积模块、池化模块以及全连接层模块,其中卷积模块还包括一个归一化模块和一个线性激活层模块。进一步地,每个特征提取层20可以包括不同数量的卷积模块、不同数量的池化模块和不同数量的全连接模块,除此之外,还可以包括不同数量的多卷积模块、多路复合卷积模块等。如图3所示,在本发明的一个具体实施例中,特征提取层20包括交替的2x2x2池化层模块301和3x3x3卷积模块302,其中卷积模块最后连接至两个全连接层303,全连接层303最后连接至评分网络层30,数据输入层10的输出直接连接至一个2x2x2池化层301。
在本发明的一个实施例中,评分网络层30与特征提取层20相串联,并且根据提取的特征判断对接样本的对接情况,并反馈给特征提取层20,可在训练期间对一个或多个所述池化模块、卷积模块、或多卷积模块和多路复合卷积模块、全连接模块施加监督信号,从而通过将监督信号反向传输到串接的卷积模块和池化模块,或者串接的多卷积模块、多复合卷积模块、池化模块,调整特征提取层20中的神经权重。
在本发明的一个实施例中,首个卷积模块从输入的3维网格数据提取局部特征,且后续的卷积模块从前一个池化模块输出的提取特征中,进一步提取局部特征,其中,每个池化模块从各自的卷积模块接收局部特征,并且降低数据的维度。
在本发明的一个实施例中,图3中未示出卷积模块所应包含的另两个模块:归一化模块和线性激活模块,其中归一化模块主要包括2个操作:多上一层输出结果数据进行归一化操作;对归一化后的数据进行平移和缩放。
如图4所示,在本发明的一个实施例中,特征提取层20的最后一层连接至两个全连接层,且最后一个全连接层只输出一个神经元,使卷积神经网络模型做回归操作。
在本发明的一个实施例中,每个样本经过卷积神经网络特征提取层20之后都会通过最后一个全连接层,最后一个全连接层输出一个神经元,即给每个样本一个打分值,则每个样本具有两个值,一个卷积神经网络的打分值和一个与其他样本比较差异情况的综合值。
如图5所示,在本发明的一个实施例中,评分网络层30可根据综合值对对接样本进行两两差异度比较,例如一次性输入的样本有N个,先从第一个样本开始处理,可设第一个样本为x(x=0),x号样本与其余N-1个样本的综合值进行两两差异度比较;如果两个对接样本之间的综合值差值大于等于预设差异度阈值,则采用自定义的损失函数根据该两个对接样本的打分值计算该两个对接样本间的损失值;如果两个对接样本之间的综合值差值小于所述预设差异度阈值,则不进行该两个对接样本间损失值的计算。
具体地,对接样本i、j之间的损失值可通过下列公式计算:
Loss样本i、j=weight·Max[0,1-ci、j·(scorei-scorej)]
其中,Loss样本i、j为对接样本i、j之间的损失值;score为打分值;weight为样本间差异情况判断值,如果i、j之间的综合值大于等于预设差异度阈值,则weight为1,否则为0;ci、j为排序系数,其中,将样本按接近天然复合物的程度进行排序,如果样本i比样本j更接近天然复合物,则ci、j为1,否则ci、j为-1。
在本发明的一个实施例中,自定义的损失函数通过比较每两个对接样本间的综合值差值,当样本间综合值差值较大时,对样本进行特性设计,当样本间综合值差值差异较小时,不对样本进行特性设计,从而可对好的样本和坏的样本进行直接性的区分。
如图3所示,在本发明的一个实施例中,当评分网络层30处理完N个样本后,可通过下列公式计算多个对接样本的损失均值:
其中,NB为一次性输入的样本数。
在本发明的一个实施例中,优化函数处于特征提取层20。评分网络层30可将根据上述公式计算得到的损失均值反馈给特征提取层20,使其通过优化函数根据损失均值对卷积神经网络进行参数更新。其中优化函数可以选择SGD、Adam、AdaDelta、Adagrad等。
根据本发明实施例的基于人工智能的抗体-抗原分子对接评价系统,通过数据输入层输入多个抗体-抗原分子对接样本数据和每个对接样本的表征样本间差异情况的综合值,通过特征提取层提取抗体-抗原分子对接样本的特征,通过评分网络层获取每个对接样本的打分值,并采用自定义的损失函数根据综合值和打分值计算每两个对接样本间的损失值,并根据每两个对接样本间的损失值计算多个对接样本的损失均值,以及将损失均值反馈给特征提取层,以便特征提取层通过优化函数根据损失均值进行参数更新,由此,能够通过比较输入样本间的两两差异来选出优异的对接样本,训练出一个能够直接区分出样本好坏的模型,使其更符合实际抗体-抗原分子对接的实验要求。
对应上述实施例,本发明还提出了一种基于人工智能的抗体-抗原分子对接系统,包括上述基于人工智能的抗体-抗原分子对接评价系统。
根据本发明实施例的基于人工智能的抗体-抗原分子对接系统,通过能够直接区分出样本好坏的模型进行对接评价,更符合实际抗体-抗原分子对接的实验要求。
对于上述实施例中的抗体-抗原分子,其抗原主要指蛋白质,也可以是小分子化合物或核酸。
下面将以SAbDab数据集为例,进一步介绍本发明的实现过程。
在本发明的一个具体实施例中,SAbDab数据集由241个target组成,训练过程以200个target为训练集,41个target为验证集,并保证训练集和验证集里没有相似的结构体系。
进一步地,根据对接数据集的特征,将受体和配体划分为不同种类型,比如以SAbDab数据集为例,可以将受体划分为:硫硒、氮(酰胺)、氮(芳香族)、氮(铵)、氧(羰基)、氧(羟基)、氧(羧基)、碳(SP2)、碳(芳香族)、碳(SP3)等11种类型,配体与受体同样划分为上述11种类型。
进一步地,根据以上原子类型,每次输入数据输入层10的数据有多个通道,每个通道都是一个3维网格数据块。
为了更快速的运行程序,计算程序还应该能够预先对数据集进行一个处理,将原本的文件格式转换为二进制文件,只保留原始数据的坐标和原子类型。
为了针对数据集的不平衡问题,计算程序还应该能够解决该问题,具体地,可强制输入数据输入层10的正负样本比例为1:1,比如一次性输入64个样本,则32个为正样本,32个负样本。
与分类模型不同的是,每类模型需要对每个样本进行标签设定,并将标签也传入数据输入层10中。由于本发明做的是回归模型,因此不需要输入标签,取而代之的是表征样本间差异情况的综合值。其中,综合值的计算主要根据对接样本所产生的复合物的各个指标值进行综合计算,所涉及的指标主要包括均方根偏差(RMSD)、天然接触数。
为了防止训练模型出现过拟合的现象,除了加入正则化技术外,计算程序还应该包括有对训练样本进行平移和旋转的功能,这样训练的出来的模型在测试集上进行表现时才不会太多的依赖于受体配体对接时的对接位点。
在数据处理完的情况下,可将得到的每个通道的3维网格数据以数据块的形式输入到数据输入层10,数据输入层10的输出直接连接至一个2x2x2的池化层301。然后交替的进行2x2x2池化层模块301和3x3x3卷积模块302,卷积模块最后连接至两个全连接层303。具体地,首个卷积模块从输入的3维网格数据提取局部特征,且后续的卷积模块从前一个池化模块301输出的提取特征中,进一步提取局部特征,其中,每个池化模块301从各自的卷积模块接收局部特征,并且降低数据的维度。并且,卷积模块最后一层的输出连接至两个全连接层303,全连接层303最后连接至评分网络30。
需要说明的是,每个特征提取层可以包括不同数量的卷积模块、不同数量的池化模块和不同数量的全连接模块。除此之外,还可以包括不同数量的多卷积模块、多路复合卷积模块等。上述只是实例中的一种情况。
最后,每一个全连接层可输入一个神经元,并将输出的神经元连接至评分网络层30。完成特征提取后,所述的64个样本都有两个值,一个卷积神经网络的打分值和一个与其他样本比较差异情况的综合值。其中,综合值可用于样本两两间差异度比较,首先将1号样本的综合值与其余63个样本的综合值进行两两差异度比较,如果两个样本之间的综合值差值大于所设差异度阈值时,根据自定义损失函数计算两者的损失值,如果两个样本之间的综合值差值小于所设差异度阈值时,则不进行两者的差异计算;依次完成所有样本与其他63个样本的差异情况比较和损失值计算,最终根据损失值计算损失均值,并回馈给网络。
评分网络层30与特征提取层20相串联,并且根据提取的特征判断对接样本的对接情况,并反馈给特征提取层20,用于在训练期间对一个或多个所述池化模块、卷积模块、全连接模块施加监督信号,从而通过将所述监督信号反向传输到串接的卷积模块和池化模块,调整深度特征提取层中的神经权重。
需要说明的是,上述的64个样本为一次性输入数据层的样本数量,当然,这是本实例的一种输入情况,本实例还可一次性输入其他批次样本,这些都应包括在本发明中。
在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种基于人工智能的抗体-抗原分子对接评价方法,其特征在于,包括:
获取多个抗体-抗原分子对接样本;
计算每个对接样本的用于表征样本间差异情况的综合值;
处理多个对接样本数据并基于卷积神经网络得到每个对接样本的打分值;
采用自定义的损失函数根据所述综合值和所述打分值计算每两个对接样本间的损失值;
根据每两个对接样本间的损失值计算多个对接样本的损失均值,并通过优化函数根据所述损失均值对所述卷积神经网络进行参数更新。
2.根据权利要求1所述的基于人工智能的抗体-抗原分子对接评价方法,其特征在于,根据每个对接样本所产生的复合物的各个指标值进行综合计算以得到每个对接样本的用于表征样本间差异情况的综合值。
3.根据权利要求2所述的基于人工智能的抗体-抗原分子对接评价方法,其特征在于,所述各个指标值包括均方根偏差和天然接触数。
4.根据权利要求1所述的基于人工智能的抗体-抗原分子对接评价方法,其特征在于,所述处理多个对接样本数据并基于卷积神经网络得到每个对接样本的打分值,具体包括:
获得每个对接样本的3维空间坐标、原子类型,并计算3维空间坐标中每个格点上的值;
根据原子类型划分通道,每个通道对应一个3维网格数据,将所有通道按数据块的形式输入到卷积神经网络的数据输入层;
数据输入层的数据通过特征提取层提取特征以后进入评分网络层,评分网络层对每个对接样本进行打分以得到每个对接样本的打分值。
5.根据权利要求4所述的基于人工智能的抗体-抗原分子对接评价方法,其特征在于,所述自定义的损失函数处于所述评分网络层,所述采用自定义的损失函数根据所述综合值和所述打分值计算每两个对接样本间的损失值,具体包括:
根据所述综合值对对接样本进行两两差异度比较;
如果两个对接样本之间的综合值差值大于等于预设差异度阈值,则采用自定义的损失函数根据该两个对接样本的打分值计算该两个对接样本间的损失值;
如果两个对接样本之间的综合值差值小于所述预设差异度阈值,则不进行该两个对接样本间损失值的计算。
6.根据权利要求5所述的基于人工智能的抗体-抗原分子对接评价方法,其特征在于,其中,对接样本i、j之间的损失值为:
Loss样本i、j=weight·Max[0,1-ci、j·(scorei-scorej)]
其中,Loss样本i、j为对接样本i、j之间的损失值;score为所述打分值;weight为样本间差异情况判断值,如果i、j之间的综合值差值大于等于预设差异度阈值,则weight为1,否则为0;ci、j为排序系数。
7.根据权利要求6所述的基于人工智能的抗体-抗原分子对接评价方法,其特征在于,所述优化函数处于所述特征提取层。
8.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据权利要求1-4中任一所述的基于人工智能的抗体-抗原分子对接评价方法。
9.一种基于人工智能的抗体-抗原分子对接评价系统,其特征在于,包括:
数据输入层,所述数据输入层用于输入多个抗体-抗原分子对接样本数据和每个对接样本的用于表征样本间差异情况的综合值;
特征提取层,所述特征提取层用于提取抗体-抗原分子对接样本的特征;
评分网络层,所述评分网络层用于获取每个对接样本的打分值,并采用自定义的损失函数根据所述综合值和所述打分值计算每两个对接样本间的损失值,并根据每两个对接样本间的损失值计算多个对接样本的损失均值,以及将所述损失均值反馈给所述特征提取层,以便所述特征提取层通过优化函数根据所述损失均值进行参数更新。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910388098 | 2019-05-10 | ||
CN2019103880985 | 2019-05-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110265092A true CN110265092A (zh) | 2019-09-20 |
CN110265092B CN110265092B (zh) | 2021-08-24 |
Family
ID=67917784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910506200.7A Active CN110265092B (zh) | 2019-05-10 | 2019-06-12 | 基于人工智能的抗体-抗原分子对接评价方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110265092B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112599186A (zh) * | 2020-12-30 | 2021-04-02 | 兰州大学 | 基于多深度学习模型共识的化合物靶蛋白绑定预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106575320A (zh) * | 2014-05-05 | 2017-04-19 | 艾腾怀斯股份有限公司 | 结合亲和力预测系统和方法 |
CN108140131A (zh) * | 2015-10-04 | 2018-06-08 | 艾腾怀斯股份有限公司 | 用于将卷积网络应用于空间数据的系统和方法 |
US20180341754A1 (en) * | 2017-05-19 | 2018-11-29 | Accutar Biotechnology Inc. | Computational method for classifying and predicting ligand docking conformations |
CN108984811A (zh) * | 2017-06-05 | 2018-12-11 | 欧阳德方 | 一种药物制剂处方虚拟设计及评估的方法和系统 |
US20190034581A1 (en) * | 2017-07-25 | 2019-01-31 | Insilico Medicine. Inc. | Deep transcriptomic markers of human biological aging and methods of determining a biological aging clock |
-
2019
- 2019-06-12 CN CN201910506200.7A patent/CN110265092B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106575320A (zh) * | 2014-05-05 | 2017-04-19 | 艾腾怀斯股份有限公司 | 结合亲和力预测系统和方法 |
CN108140131A (zh) * | 2015-10-04 | 2018-06-08 | 艾腾怀斯股份有限公司 | 用于将卷积网络应用于空间数据的系统和方法 |
US20180341754A1 (en) * | 2017-05-19 | 2018-11-29 | Accutar Biotechnology Inc. | Computational method for classifying and predicting ligand docking conformations |
CN108984811A (zh) * | 2017-06-05 | 2018-12-11 | 欧阳德方 | 一种药物制剂处方虚拟设计及评估的方法和系统 |
US20190034581A1 (en) * | 2017-07-25 | 2019-01-31 | Insilico Medicine. Inc. | Deep transcriptomic markers of human biological aging and methods of determining a biological aging clock |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112599186A (zh) * | 2020-12-30 | 2021-04-02 | 兰州大学 | 基于多深度学习模型共识的化合物靶蛋白绑定预测方法 |
CN112599186B (zh) * | 2020-12-30 | 2022-09-27 | 兰州大学 | 基于多深度学习模型共识的化合物靶蛋白绑定预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110265092B (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107341506A (zh) | 一种基于多方面深度学习表达的图像情感分类方法 | |
CN110378799A (zh) | 基于多尺度深度卷积网络的氧化铝综合生产指标决策方法 | |
CN109002845A (zh) | 基于深度卷积神经网络的细粒度图像分类方法 | |
CN108764072A (zh) | 一种基于多尺度融合的血细胞亚型图像分类方法 | |
CN109241995B (zh) | 一种基于改进型ArcFace损失函数的图像识别方法 | |
CN106779087A (zh) | 一种通用机器学习数据分析平台 | |
CN107301221A (zh) | 一种多特征维度堆融合的数据挖掘方法 | |
CN107451101A (zh) | 一种分层集成的高斯过程回归软测量建模方法 | |
CN104850890A (zh) | 基于实例学习和Sadowsky分布的卷积神经网络参数调整方法 | |
CN110363253A (zh) | 一种基于卷积神经网络的热轧带钢表面缺陷分类方法 | |
CN106919951A (zh) | 一种基于点击与视觉融合的弱监督双线性深度学习方法 | |
CN105989368A (zh) | 一种目标检测方法及装置以及移动终端 | |
CN104751469B (zh) | 基于核模糊c均值聚类的图像分割方法 | |
CN106202891A (zh) | 一种面向医疗质量评价的大数据挖掘方法 | |
CN104573862B (zh) | 基于多Agent的湖库、流域的水质监测断面优化布设方法 | |
CN109558902A (zh) | 一种快速目标检测方法 | |
CN104951987B (zh) | 基于决策树的作物育种评价方法 | |
CN106709654A (zh) | 一种加氢裂化流程全局运行状况评估与质量追溯方法 | |
CN104809230A (zh) | 一种基于多分类器集成的卷烟感官质量评估方法 | |
CN107368707A (zh) | 基于us‑elm的基因芯片表达数据分析系统及方法 | |
CN107004066A (zh) | 性状预测模型制作方法和性状预测方法 | |
CN107766695B (zh) | 一种获取外周血基因模型训练数据的方法及装置 | |
CN110059568A (zh) | 基于深层卷积神经网络的多类白细胞自动识别方法 | |
CN106991049A (zh) | 一种软件缺陷预测方法及预测系统 | |
CN106647272A (zh) | 基于k均值改进卷积神经网络的机器人路径规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211130 Address after: 213002 4th floor, science and technology transformation building, No. 3, Meishan Road, Xuejia Town, Xinbei District, Changzhou City, Jiangsu Province Patentee after: PMR (Changzhou) Biotechnology Co.,Ltd. Address before: 213001 No. 1801 Wu Cheng Road, Changzhou, Jiangsu Patentee before: JIANGSU University OF TECHNOLOGY |