CN112185477B - 分子特征的提取及三维定量构效关系的计算方法及装置 - Google Patents

分子特征的提取及三维定量构效关系的计算方法及装置 Download PDF

Info

Publication number
CN112185477B
CN112185477B CN202011025440.4A CN202011025440A CN112185477B CN 112185477 B CN112185477 B CN 112185477B CN 202011025440 A CN202011025440 A CN 202011025440A CN 112185477 B CN112185477 B CN 112185477B
Authority
CN
China
Prior art keywords
feature matrix
feature
molecule
dimensional
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011025440.4A
Other languages
English (en)
Other versions
CN112185477A (zh
Inventor
贾伯阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wangshi Intelligent Technology Co ltd
Original Assignee
Beijing Wangshi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wangshi Intelligent Technology Co ltd filed Critical Beijing Wangshi Intelligent Technology Co ltd
Priority to CN202011025440.4A priority Critical patent/CN112185477B/zh
Publication of CN112185477A publication Critical patent/CN112185477A/zh
Application granted granted Critical
Publication of CN112185477B publication Critical patent/CN112185477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种分子特征的提取及三维定量构效关系的计算方法及装置,其中,该提取方法包括:获取分子的第一特征矩阵;根据所述第一特征矩阵及预设图卷积神经网络模型,生成分子第二特征矩阵;根据预设正方体像素模型及第二特征矩阵,生成第三特征矩阵;根据第三特征矩阵及预设三维图卷积神经网络模型,生成第四特征矩阵;根据第三特征矩阵及第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵;或据第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵。通过实施本发明,解决了只能根据分子二维坐标对神经网络进行训练,导致提取出的分子特征较为片面的问题,可以使用表征分子键的连接关系的三维图结构直接训练神经网络模型。

Description

分子特征的提取及三维定量构效关系的计算方法及装置
技术领域
本发明涉及数据处理领域,具体涉及一种分子特征的提取及三维定量构效关系的计算方法及装置。
背景技术
定量构效关系(QSAR),是使用某种数学模型来描述分子结构与某种分子的生物活性之间的关系。QSAR的基本假设是分子的结构信息包含了与其物理、化学及生物等性质相关的信息,而再通过这些理化性质进而决定该化合物的生物活性。因此化合物的分子结构信息与生物活性也有一定程度的相关。具体的,二维定量构效关系(2D QSAR)有hansch方法、free-wilson方法。基于分子构象的进行QSAR预测的称为三维定量构效关系(下文称3D-QSAR)。
现有技术中有根据分子化合物的smiles编码及其原子坐标,确定分子化合物的QSAR的拟合值;也有将分子表达为图结构,并经由图卷积神经网络(GCN)提取特征矩阵;但是上述方法只能根据大量的分子二维坐标对神经网络进行训练,导致提取出的分子特征表达分子的结构信息较为片面。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的提取出的分子特征表达分子的结构信息较为片面的缺陷,从而提供一种分子特征的提取及三维定量构效关系的计算方法及装置。
根据第一方面,本发明实施例提供了一种分子特征的提取方法,包括:获取分子的第一特征矩阵,所述第一特征矩阵用以表征所述分子的初始特征维度以及原子数目;根据所述第一特征矩阵以及预设图卷积神经网络模型,生成所述分子的第二特征矩阵;所述第二特征矩阵用以表征所述分子的第一特征维度以及原子数目;根据预设正方体像素模型以及所述第二特征矩阵,生成第三特征矩阵,所述第三特征矩阵用以表征所述分子中各原子在空间坐标系的坐标信息以及第一特征维度;根据所述第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵,所述第四特征矩阵用以表征所述分子中各原子在空间坐标系的坐标信息以及第二特征维度;根据所述第三特征矩阵以及所述第四特征矩阵,计算生成用以表征所述分子特征的第五特征矩阵;或根据所述第四特征矩阵,计算生成用以表征所述分子特征的第五特征矩阵。
结合第一方面第一实施方式,在第一方面第一实施方式中,所述获取分子的第一特征矩阵,具体包括:获取分子中的多个原子及原子数目;根据预设编码方式将各原子编码,生成各原子对应的编码向量;根据各编码向量,确定分子的初始特征维度;根据所述原子数目以及初始特征维度,确定所述分子的第一特征矩阵。
结合第一方面,在第一方面第二实施方式中,所述根据预设正方体像素模型以及所述第二特征矩阵,生成第三特征矩阵的步骤中,包括:将所述预设正方体像素模型划分为多个三维像素;当所述原子在所述三维像素的中心时,将所述原子填充至所述三维像素,并确定所述原子在空间坐标系的坐标信息。
结合第一方面,在第一方面第三实施方式中,该方法还包括:根据第一维度参数确定所述第一特征维度,根据第二维度参数确定第二特征维度。
根据第二方面,本发明实施例提供了一种分子三维定量构效关系的计算方法,包括:获取分子的计算层次参数;根据所述计算层次参数确定分子的目标特征矩阵,所述目标特征矩阵是通过多个计算单元生成的,所述计算单元用于执行如第一方面或第一方面任一实施方式所述的分子特征的提取方法;根据预设的全联接层函数,将所述目标特征矩阵转换为一维特征矩阵;根据所述一维特征矩阵,计算生成所述分子的三维定量构效关系值。
根据第三方面,本发明实施例提供了一种分子特征的提取装置,包括:第一特征矩阵获取模块,用于获取分子的第一特征矩阵,所述第一特征矩阵用以表征所述分子的初始特征维度以及原子数目;第二特征矩阵获取模块,用于根据所述第一特征矩阵以及预设图卷积神经网络模型,生成所述分子的第二特征矩阵;所述第二特征矩阵用以表征所述分子的第一特征维度以及原子数目;第三特征矩阵获取模块,用于根据预设正方体像素模型以及所述第二特征矩阵,生成第三特征矩阵,所述第三特征矩阵用以表征所述分子中各原子在空间坐标系的坐标信息以及第一特征维度;第四特征矩阵获取模块,用于根据所述第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵,所述第四特征矩阵用以表征所述分子中各原子在空间坐标系的坐标信息以及第二特征维度;第五特征矩阵获取模块,用于根据所述第三特征矩阵以及所述第四特征矩阵,计算生成用以表征所述分子特征的第五特征矩阵;或根据所述第四特征矩阵,计算生成用以表征所述分子特征的第五特征矩阵。
根据第四方面,本发明实施例提供了一种分子三维定量构效关系的计算装置,包括:计算层次参数获取模块,用于获取分子的计算层次参数;目标特征矩阵确定模块,用于根据所述计算层次参数确定分子的目标特征矩阵,所述目标特征矩阵是通过多个计算单元生成的,所述计算单元用于执行第一方面或第一方面任一实施方式所述的分子特征的提取方法;转换模块,用于根据预设的全联接层函数,将所述目标特征矩阵转换为一维特征矩阵;计算模块,用于根据所述一维特征矩阵,计算生成所述分子的三维定量构效关系值。
根据第五方面,本发明实施例提供了一种计算机设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一实施方式所述的分子特征的提取方法的步骤或者第二方面所述的分子三维定量构效关系的计算方法的步骤。
根据第六方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一实施方式所述的分子特征的提取方法的步骤或者第二方面所述的分子三维定量构效关系的计算方法的步骤。
本发明技术方案,具有如下优点:
本发明提供了一种分子特征的提取及三维定量构效关系的计算方法及装置,其中,该分子特征的提取方法包括:获取分子的第一特征矩阵;根据第一特征矩阵以及预设图卷积神经网络模型,生成分子的第二特征矩阵;根据预设正方体像素模型以及第二特征矩阵,生成第三特征矩阵;根据第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵;根据第三特征矩阵以及第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵;或根据第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵。通过实施本发明,解决了现有技术中存在的只能根据分子二维坐标对神经网络进行训练,导致提取出的分子特征较为片面的问题,可以使用表征分子键的连接关系的三维图结构直接训练神经网络模型,且需要的数据量较少,可以全面的表征分子的结构信息。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中分子特征的提取方法的一个具体示例的流程图;
图2为本发明实施例中分子特征的提取方法的计算第五特征矩阵的一个流程图;
图3为本发明实施例中分子特征的提取方法的计算第五特征矩阵的另一个流程图;
图4为本发明实施例中分子三维定量构效关系的计算方法的一个具体示例的流程图;
图5为本发明实施例中分子三维定量构效关系的计算方法的另一个具体示例的流程图;
图6为本发明实施例中分子三维定量构效关系的计算方法中计算单元的示意图;
图7为本发明实施例中分子特征的提取装置的一个具体示例的原理框图;
图8为本发明实施例中分子三维定量构效关系的计算装置的一个具体示例的原理框图;
图9为本发明实施例中计算机设备的一个具体示例图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
现有的相关技术中,可以通过计算不同的探针分子与化合物之间的相互作用,并根据上述相互作用在不同位置坐标的能量值,获得分子场数据。继而基于计算力场、几何形状等统计量,比较确定QSAR预测值。
而随着科技的发展,在当前算力得到释放的情况下,统计学建模思想可以与计算机行业中的深度学习进行融合,并应用于图像、语音、语言、控制等领域。进一步地,由于小分子化合物独特的结构表达方式,因此可以将深度学习应用于计算机辅助药物设计领域,基于上述背景,本发明提供了一种分子特征的提取及三维定量构效关系的计算方法及装置,目的是通过数据拟合,全面地提取小分子结构中的信息,并将上述信息应用于活性预测、结构预测以及分子的3D-QSAR预测等各方面。
本发明实施例提供了一种分子特征的提取方法,如图1所示,该方法包括:
步骤S11:获取分子的第一特征矩阵,所述第一特征矩阵用以表征所述分子的初始特征维度以及原子数目;在本实施例中,分子的第一特征矩阵可以例如是[N,Mi],其中,N为分子中各原子数目,上述各原子可以例如是C、N、O、F、P、S、Cl、Br、I,Mi可以是分子的初始特征维度,上述初始特征维度确定过程可以是:当以one-hot编码方式对分子进行编码时,可以将分子中的C原子,编码为[1,0,0,0,0,0,0,0,0];N原子编码为[0,1,0,0,0,0,0,0,0];I原子编码为[0,0,0,0,0,0,0,0,1]。此时,C原子、N原子以及I原子对应的小分子化合物的特征维度可以是9,也就是说,初始特征维度可以是9。
其次,根据第一特征矩阵以及预设图卷积神经网络模型,生成分子的第二特征矩阵。在本实施例中,根据生成的第一特征矩阵将小分子化合物输入至预设图卷积神经网络模型(GCN),生成第二特征矩阵[N,Mo],上述模型是可以根据小分子化合物的初始二维结构进行训练的模型。
步骤S12:根据第一特征矩阵以及预设图卷积神经网络模型,生成分子的第二特征矩阵;第二特征矩阵用以表征所述分子的第一特征维度以及原子数目。
在本实施例中,分子可以是任意小分子化合物;分子的第二特征矩阵可以是根据原始的小分子化合物经过图卷积神经网络模型训练后的特征矩阵,第二特征矩阵的形状可以例如是[N,Mo],其中,N可以表示小分子化合物中的各原子数目,小分子中会包含多种原子,例如,C、N、O、F、P、S、Cl、Br、I,N就可以表示上述各原子的数量;M可以表示小分子化合物的特征维度,Mo可以表示第一特征维度;当以one-hot编码方式对小分子进行编码时,生成的编码向量的长度即为特征维度。在通过图卷积神经网络模型训练小分子化合物时,此时对应的编码向量的长度可以根据用户输入的第一维度参数确定,也就是说,第二特征矩阵中的第一特征维度可以例如是根据用户输入的第一维度参数确定。
步骤S13:根据预设正方体像素模型以及第二特征矩阵,生成第三特征矩阵,第三特征矩阵用以表征分子中各原子在空间坐标系的坐标信息以及第一特征维度。
在本实施例中,预设正方体像素模型可以是长宽高均为的正方体,所述正方体可以被切分成p*p*p的三维像素;例如,可以是长宽高均为/>的正方体,所述正方体可以被切分成32*32*32的三维像素,此时,对应的每一像素点的分辨率即为/>根据只具备二维结构的小分子化合物,也就是小分子的第二特征矩阵,通过3D采样以及MMFF优化,对小分子进行三维空间内的采样后,生成对应小分子的三维构象信息。
具体地,当小分子经过三维空间采样后,会被限制于上述长宽高均为的正方体中,此时小分子的三维构象信息就是上述正方体模型。当确定小分子中某原子中心在上述正方体的任意像素点内,对应像素点填充对应原子的特征信息,继而根据正方体的结构信息,确定对应原子在空间坐标系内的坐标信息,即为(x,y,z)。具体地,第三特征矩阵可以是(x,y,z,Mo),也就是将小分子的二维结构转换为三维结构。
步骤S14:根据第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵,第四特征矩阵用以表征分子中各原子在空间坐标系的坐标信息以及第二特征维度。
在本实施例中,根据生成的第三特征矩阵将小分子化合物输入至预设三维图卷积神经网络模型(3D-CCN),上述模型是可以根据小分子化合物的三维结构进行训练的模型,生成第四特征矩阵;具体地,第四特征矩阵可以是[x,y,z,Me],其中,N表示小分子化合物的各原子数目,Me可以表示第二特征维度,通过上述预设三维图卷积神经网络模型机型进行训练时,根据获取到的第二维度参数,确定第二特征维度;上述第二维度参数可以是用户输入的,也就是根据用户指令确定的。
步骤S15:根据第三特征矩阵以及第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵;或根据第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵。
作为本发明一个可选的实施方式,如图2所示,可以根据第四特征矩阵[x,y,z,Me],提取第四特征矩阵对应正方体像素模型中的各像素点中的原子特征,继而根据原始顺序排列各原子,生成第五特征矩阵[N,Me]。
具体地,原始顺序可以是根据输入的分子的第一特征矩阵中的原子顺序确定的。进一步的,第一特征矩阵中的原子顺序的确定是根据分子数据库中的分子文件所存的顺序确定的,或者说,分子文件所存的顺序也可以是随机;但是需要保持特征矩阵中的原子排列顺序的一致。
作为本发明一个可选的实施方式,如图3所示,基于在上述确定第五特征矩阵的过程中,由于大量特征参数以及深层神经网络结构会导致梯度消失或爆炸问题,为了保证最终训练的结果优于多层GCN训练模型,因此可以根据第三特征矩阵以及第四特征矩阵,计算生成第五特征矩阵。具体地,可以叠加第三特征矩阵(x,y,z,Mo),以及第四特征矩阵[x,y,z,Me],进而将叠加之后得到第三特征矩阵与第四特征矩阵之和,对应正方体像素模型中的各像素点中的原子特征,根据原始顺序排列各原子,生成第五特征矩阵[N,Me]。通过融合GCN并加入残差信息,实现了深层网络层跨层传递梯度值,减小了逐层传递中所出现的梯度消失或爆炸的问题,也解决了单纯使用三维像素和3D-CNN网络难以训练的问题,减少训练数据需求,并增加训练效率。
本发明提供了一种分子特征的提取方法,包括:获取分子的第一特征矩阵;根据第一特征矩阵以及预设图卷积神经网络模型,生成分子的第二特征矩阵;根据预设正方体像素模型以及第二特征矩阵,生成第三特征矩阵;根据第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵;根据第三特征矩阵以及第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵;或根据第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵。通过实施本发明,解决了现有技术中存在的只能根据分子二维坐标对神经网络进行训练,导致提取出的分子特征较为片面的问题,可以使用表征分子键的连接关系的三维图结构直接训练神经网络模型,且需要的数据量较少,可以全面的表征分子的结构信息。
作为本发明一个可选的实施方式,上述步骤S11,获取分子的第一特征矩阵的步骤中,具体包括:
首先,获取分子中的多个原子及原子数目;在本实施例中,分子化合物都是由多种原子组成的,需要获取构成分子的原子种类以及对应数目。
然后,根据预设编码方式将各原子编码,生成各原子对应的编码向量;在本实施例中,预设编码方式可以是one-hot编码方式,例如,当上述分子中存在C原子、N原子以及I原子时,将各原子按照one-hot编码方式进行编码,将分子中的C原子,编码向量为[1,0,0,0,0,0,0,0,0];N原子编码向量为[0,1,0,0,0,0,0,0,0];I原子编码向量为[0,0,0,0,0,0,0,0,1]。
然后,根据各编码向量,确定分子的初始特征维度;在本实施例中,初始特征维度可以是分子中各原子对应的编码向量的长度值。例如,根据上述步骤中编码生成的C原子、N原子以及I原子对应的多个编码向量,可以确定各编码向量的长度均为九,因此,分子的初始特征维度可以是9,具体地,本发明对编码向量的长度并不做具体限定,也就是说,初始特征维度可以是根据实际应用场景具体确定。
然后,根据原子数目以及初始特征维度,确定分子的第一特征矩阵。在本实施例中,可以根据各原子的数目确定N;继而生成分子的第一特征矩阵[N,Mi]。
本发明实施例提供的一种分子特征的提取方法,通过结合分子中各原子的编码向量的长度,确定小分子化合物的特征维度,继而可以根据预设图卷积神经网络模型训练生成的第二特征矩阵,此时对应的第一特征维度可以是根据用户输入的特征维度参数确定的,可以减少训练数据的需求,较好地保证训练的收敛效果以及速度,提高训练效率。
作为本发明一个可选的实施方式,上述步骤S12,根据预设正方体像素模型以及第二特征矩阵,生成第三特征矩阵的步骤中,包括:
首先,将预设正方体像素模型划分为多个三维像素;在本实施例中,预设正方体像素模型可以是长宽高均为的正方体,所述正方体可以被切分成p*p*p的三维像素,也就是将正方体切分为多个三维像素点;例如,可以是长宽高均为/>的正方体,所述正方体可以被切分成32*32*32的三维像素,此时,对应的每一三维像素点的分辨率为/>
其次,当原子在三维像素的中心时,将原子填充至三维像素,并确定原子在空间坐标系的坐标信息。在本实施例中,当确定小分子中某原子中心在上述正方体的任意三维像素点内时,可以将对应三维像素点填充对应原子的特征信息,继而根据正方体的结构信息,确定对应原子在空间坐标系内的坐标信息,即为(x,y,z)。
作为本发明一个可选的实施方式,该分子特征的提取方法,还包括:根据第一维度参数确定第一特征维度,根据第二维度参数确定第二特征维度。当第一特征矩阵经过GCN训练生成第二特征矩阵时,第一特征矩阵中的初始特征维度会根据用户设置的第一维度参数进行对应改变,生成第二特征矩阵;其中,第一维度参数可以是根据用户需求确定的,也可以是用户直接输入的。当第三特征矩阵经过3D-CCN训练生成第四特征矩阵时,第三特征矩阵中的第二特征维度会根据用户设置的第二维度参数进行对应改变,生成第四特征矩阵;其中,第二维度参数可以是根据用户需求确定的,也可以是用户直接输入的。
本发明实施例还提供了一种分子三维定量构效关系的计算方法,如图4及图5所示,包括:
步骤S21:获取分子的计算层次参数;在本实施例中,计算层次参数可以是计算的次数,上述计算层次参数可以是用户直接输入的,也可以是根据实际应用场景确定的。
步骤S22:根据计算层次参数确定分子的目标特征矩阵,目标特征矩阵是通过多个计算单元生成的,计算单元用于执行如上述实施例所述的分子特征的提取方法;在本实施例中,计算单元可以是3DGCN-CELL,当计算层次参数为1,此时需执行一次上述实施例中步骤S11-S15的步骤过程,也就是执行一个3DGCN-CELL;当计算层次参数为n,此时需执行上述实施例中步骤S11-S15的过程n次,也就是执行N个3DGCN-CELL。此时,第一个3DGCN-CELL输出结果,也就是第一次生成的第五特征矩阵,即为第二个3DGCN-CELL的输入量,进而循环n次,直至生成目标特征矩阵。
步骤S23:根据预设的全联接层函数,将目标特征矩阵转换为一维特征矩阵;在本实施例中,全联接层函数可以是图5所示的Dense函数,根据预设设置的全联接层函数,可以将目标矩阵转换为一维特征矩阵。
步骤S24:根据一维特征矩阵,计算生成分子的三维定量构效关系值。在本实施例中,分子的三维定量构效关系值可以是output值,也就是根据一维的目标特征矩阵,计算生成分子的3D-QSAR值。
示例性地,以下结合一些具体示意图,详细描述上述3DGCN-CELL的执行过程,如图6所示:
计算单元的输入(input)可以是分子的二维结构,即为第一特征矩阵[N,Mi],也就是[Feature Matrix(2D)];将上述分子的二维结构输入至预设图卷积神经网络模型(GCN)中,生成第二特征矩阵,再经由预设正方体像素模型,完成分子结构的二维结构向三维结构的转换,生成第三特征矩阵,可以是[Feature Matrix(3D)];继而将第三特征矩阵输入至预设三维涂图卷积神经网络模型(3D-CNN)中,生成第四特征矩阵;最后叠加第三特征矩阵以及第四特征矩阵,对应预设正方体像素模型中的各像素点中的原子特征,根据原始顺序排列各原子,生成第五特征矩阵,完成三维矩阵到三维矩阵的转换,生成输出值(output)。
示例性地,可以根据上述实施例所述的方法预测小分子的3D-QSAR的值。训练分子数据可以是小分子的活性值,以nM为单位,截取范围可以是1nM~100uM,根据上述截取范围的log对数,进行归一化处理,生成训练分子数据的3D-QSAR的值。其中,训练样本可以是提取于Chembl的有活性值的数据。
示例性地,可以根据图5所示的完整网络结构或者以上述分子三维定量构效关系的计算方法中的计算单元(3DGCN-CELL)为基础单元,搭建其他网络,提取小分子的特征矩阵,可以用于预测小分子-蛋白质复合物活性、小分子构象排序打分、小分子结构/构象预测等在内的其他目标的任务。
本发明实施例提供的一种分子三维定量构效关系的计算方法,包括:获取分子的计算层次参数;根据计算层次参数确定分子的目标特征矩阵,目标特征矩阵是通过多个计算单元生成的;根据预设的全联接层函数,将目标特征矩阵转换为一维特征矩阵;根据一维特征矩阵,计算生成分子的三维定量构效关系值。通过实施本发明,可以解决相关技术中存在的仅仅根据二维结构,表征分子的结构较为片面的缺陷,进而还解决了相关技术中存在的由于表达分子结构较为片面,进而计算出的分子三维定量构效关系值存在误差的问题,可以使用表征分子键的连接关系的三维图结构直接训练神经网络模型,且需要的数据量较少,可以全面的表征分子的结构信息,计算较为精确的分子三维定量构效关系值。
本发明实施例还提供了一种分子特征的提取装置,如图7所示,该装置包括:
第一特征矩阵获取模块31,用于获取分子的第一特征矩阵,所述第一特征矩阵用以表征所述分子的初始特征维度以及原子数目;详细实施内容可参见上述方法实施例中步骤S11的相关描述。
第二特征矩阵获取模块32,用于根据所述第一特征矩阵以及预设图卷积神经网络模型,生成所述分子的第二特征矩阵;所述第二特征矩阵用以表征所述分子的第一特征维度以及原子数目;详细实施内容可参见上述方法实施例中步骤S12的相关描述。
第三特征矩阵获取模块33,用于根据预设正方体像素模型以及第二特征矩阵,生成第三特征矩阵,第三特征矩阵用以表征分子中各原子在空间坐标系的坐标信息以及第一特征维度;详细实施内容可参见上述方法实施例中步骤S13的相关描述。
第四特征矩阵获取模块34,用于根据第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵,第四特征矩阵用以表征分子中各原子在空间坐标系的坐标信息以及第二特征维度;详细实施内容可参见上述方法实施例中步骤S14的相关描述。
第五特征矩阵获取模块35,用于根据第三特征矩阵以及第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵;或根据第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵。详细实施内容可参见上述方法实施例中步骤S15的相关描述。
本发明实施例提供了一种分子特征的提取装置,包括:第一特征矩阵获取模块31,用于获取分子的第一特征矩阵;第二特征矩阵获取模块32,用于根据第一特征矩阵以及预设图卷积神经网络模型,生成分子的第二特征矩阵;第三特征矩阵获取模块33,用于根据预设正方体像素模型以及第二特征矩阵,生成第三特征矩阵;第四特征矩阵获取模块34,用于根据第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵;第五特征矩阵获取模块35,用于根据第三特征矩阵以及第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵;或根据第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵。通过实施本发明,解决了现有技术中存在的只能根据分子二维坐标对神经网络进行训练,导致提取出的分子特征较为片面的问题,可以使用表征分子键的连接关系的三维图结构直接训练神经网络模型,且需要的数据量较少,可以全面的表征分子的结构信息。
本发明实施例还提供了一种分子三维定量构效关系的计算装置,如图8所示,包括:
计算层次参数获取模块41,用于获取分子的计算层次参数;详细实施内容可参见上述方法实施例中步骤S21的相关描述。
目标特征矩阵确定模块42,用于根据计算层次参数确定分子的目标特征矩阵,目标特征矩阵是通过多个计算单元生成的,计算单元用于执行上述实施例所述的分子特征的提取方法;详细实施内容可参见上述方法实施例中步骤S22的相关描述。
转换模块43,用于根据预设的全联接层函数,将目标特征矩阵转换为一维特征矩阵;详细实施内容可参见上述方法实施例中步骤S23的相关描述。
计算模块44,用于根据一维特征矩阵,计算生成分子的三维定量构效关系值。详细实施内容可参见上述方法实施例中步骤S24的相关描述。
本发明实施例提供的一种分子三维定量构效关系的计算装置,包括:计算层次参数获取模块41,用于获取分子的计算层次参数;目标特征矩阵确定模块42,用于根据计算层次参数确定分子的目标特征矩阵,目标特征矩阵是通过多个计算单元生成的;转换模块43,用于根据预设的全联接层函数,将目标特征矩阵转换为一维特征矩阵;计算模块44,用于根据一维特征矩阵,计算生成分子的三维定量构效关系值。通过实施本发明,可以解决相关技术中存在的仅仅根据二维结构,表征分子的结构较为片面的缺陷,进而还解决了相关技术中存在的由于表达分子结构较为片面,进而计算出的分子三维定量构效关系值存在误差的问题,可以使用表征分子键的连接关系的三维图结构直接训练神经网络模型,且需要的数据量较少,可以全面的表征分子的结构信息,计算较为精确的分子三维定量构效关系值。通过融合GCN与3D-CNN,在利用深度学习提取小分子特征时,可以融合邻接键的信息和3D空间信息,得到较为精确的结果。
本发明实施例还提供了一种计算机设备,如图9所示,该计算机设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图7中以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的分子特征的提取方法以及分子三维定量构效关系的计算方法对应的程序指令/模块(例如,图7所示的第一特征矩阵获取模块31、第二特征矩阵获取模块32、第三特征矩阵获取模块33、第四特征矩阵获取模块34、第五特征矩阵获取模块35以及图8所示的计算层次参数获取模块41、目标特征矩阵确定模块42、转换模块43、计算模块44)。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的分子三维定量构效关系的计算方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器52中,当被所述处理器51执行时,执行如图1及图2所示实施例中的分子特征的提取方法或分子三维定量构效关系的计算方法。
上述计算机设备具体细节可以对应参阅图1以及图4所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
可选地,本发明实施例还提供了一种非暂态计算机可读介质,非暂态计算机可读存储介质存储计算机指令,计算机指令用于使计算机执行如上述实施例中任意一项描述的分子特征的提取方法或分子三维定量构效关系的计算方法,其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.一种分子特征的提取方法,其特征在于,包括:
获取分子的第一特征矩阵,所述第一特征矩阵用以表征所述分子的初始特征维度以及原子数目;
根据所述第一特征矩阵以及预设图卷积神经网络模型,生成所述分子的第二特征矩阵;所述第二特征矩阵用以表征所述分子的第一特征维度以及原子数目;所述第一特征维度是根据用户输入的特征维度参数确定的;
根据预设正方体像素模型以及所述第二特征矩阵,生成第三特征矩阵,所述第三特征矩阵用以表征所述分子中各原子在空间坐标系的坐标信息以及第一特征维度;所述预设正方体像素模型是长宽高均为的正方体,所述正方体可被切分成p*p*p的三维像素;
根据所述第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵,所述第四特征矩阵用以表征所述分子中各原子在空间坐标系的坐标信息以及第二特征维度;所述第二特征维度是根据第二维度参数确定的,所述第二维度参数是根据用户需求确定的,或是用户直接输入的参数;
根据所述第三特征矩阵以及所述第四特征矩阵,计算生成用以表征所述分子特征的第五特征矩阵;或
根据所述第四特征矩阵,计算生成用以表征所述分子特征的第五特征矩阵。
2.根据权利要求1所述的方法,其特征在于,所述获取分子的第一特征矩阵,具体包括:
获取分子中的多个原子及原子数目;
根据预设编码方式将各原子编码,生成各原子对应的编码向量;
根据各编码向量,确定分子的初始特征维度;
根据所述原子数目以及初始特征维度,确定所述分子的第一特征矩阵。
3.根据权利要求1所述的方法,其特征在于,所述根据预设正方体像素模型以及所述第二特征矩阵,生成第三特征矩阵的步骤中,包括:
将所述预设正方体像素模型划分为多个三维像素;
当所述原子在所述三维像素的中心时,将所述原子填充至所述三维像素,并确定所述原子在空间坐标系的坐标信息。
4.一种分子三维定量构效关系的计算方法,其特征在于,包括:
获取分子的计算层次参数;
根据所述计算层次参数确定分子的目标特征矩阵,所述目标特征矩阵是通过多个计算单元生成的,所述计算单元用于执行如权利要求1-3任一项所述的分子特征的提取方法;
根据预设的全联接层函数,将所述目标特征矩阵转换为一维特征矩阵;
根据所述一维特征矩阵,计算生成所述分子的三维定量构效关系值。
5.一种分子特征的提取装置,其特征在于,包括:
第一特征矩阵获取模块,用于获取分子的第一特征矩阵,所述第一特征矩阵用以表征所述分子的初始特征维度以及原子数目;
第二特征矩阵获取模块,用于根据所述第一特征矩阵以及预设图卷积神经网络模型,生成所述分子的第二特征矩阵;所述第二特征矩阵用以表征所述分子的第一特征维度以及原子数目;所述第一特征维度是根据用户输入的特征维度参数确定的;
第三特征矩阵获取模块,用于根据预设正方体像素模型以及所述第二特征矩阵,生成第三特征矩阵,所述第三特征矩阵用以表征所述分子中各原子在空间坐标系的坐标信息以及第一特征维度;所述预设正方体像素模型是长宽高均为的正方体,所述正方体可被切分成p*p*p的三维像素;
第四特征矩阵获取模块,用于根据所述第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵,所述第四特征矩阵用以表征所述分子中各原子在空间坐标系的坐标信息以及第二特征维度;所述第二特征维度是根据第二维度参数确定的,所述第二维度参数是根据用户需求确定的,或是用户直接输入的参数;
第五特征矩阵获取模块,用于根据所述第三特征矩阵以及所述第四特征矩阵,计算生成用以表征所述分子特征的第五特征矩阵;或根据所述第四特征矩阵,计算生成用以表征所述分子特征的第五特征矩阵。
6.一种分子三维定量构效关系的计算装置,其特征在于,包括:
计算层次参数获取模块,用于获取分子的计算层次参数;
目标特征矩阵确定模块,用于根据所述计算层次参数确定分子的目标特征矩阵,所述目标特征矩阵是通过多个计算单元生成的,所述计算单元用于执行如权利要求1-3任一项所述的分子特征的提取方法;
转换模块,用于根据预设的全联接层函数,将所述目标特征矩阵转换为一维特征矩阵;
计算模块,用于根据所述一维特征矩阵,计算生成所述分子的三维定量构效关系值。
7.一种计算机设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-3任一项所述的分子特征的提取方法的步骤或者权利要求4所述的分子三维定量构效关系的计算方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3任一项所述的分子特征的提取方法的步骤或者权利要求4所述的分子三维定量构效关系的计算方法的步骤。
CN202011025440.4A 2020-09-25 2020-09-25 分子特征的提取及三维定量构效关系的计算方法及装置 Active CN112185477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011025440.4A CN112185477B (zh) 2020-09-25 2020-09-25 分子特征的提取及三维定量构效关系的计算方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011025440.4A CN112185477B (zh) 2020-09-25 2020-09-25 分子特征的提取及三维定量构效关系的计算方法及装置

Publications (2)

Publication Number Publication Date
CN112185477A CN112185477A (zh) 2021-01-05
CN112185477B true CN112185477B (zh) 2024-04-16

Family

ID=73944013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011025440.4A Active CN112185477B (zh) 2020-09-25 2020-09-25 分子特征的提取及三维定量构效关系的计算方法及装置

Country Status (1)

Country Link
CN (1) CN112185477B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223632B (zh) * 2021-05-12 2024-02-13 北京望石智慧科技有限公司 一种分子片段库的确定方法、分子分割方法及装置
WO2023123021A1 (zh) * 2021-12-29 2023-07-06 深圳晶泰科技有限公司 获取分子特征描述的方法、装置及存储介质
CN114446413B (zh) * 2022-02-17 2024-05-28 北京百度网讯科技有限公司 一种分子性质预测方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736846A (ja) * 1993-07-19 1995-02-07 Fujitsu Ltd 化合物分子の3次元構造式算出方法
CN101504679A (zh) * 2009-03-19 2009-08-12 西安近代化学研究所 一种含能化合物的计算机辅助设计系统
CN107516012A (zh) * 2017-08-21 2017-12-26 内江师范学院 一种基于有机化合物分子三维结构计算的结构描述符
CN109359534A (zh) * 2018-09-12 2019-02-19 鲁东大学 一种三维物体几何特征提取方法及系统
CN110277173A (zh) * 2019-05-21 2019-09-24 湖南大学 基于Smi2Vec的BiGRU药物毒性预测系统及预测方法
CN111079570A (zh) * 2019-11-29 2020-04-28 北京奇艺世纪科技有限公司 一种人体关键点识别方法、装置及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090024547A1 (en) * 2007-07-17 2009-01-22 Ut-Battelle, Llc Multi-intelligent system for toxicogenomic applications (mista)
JP5083320B2 (ja) * 2007-08-22 2012-11-28 富士通株式会社 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736846A (ja) * 1993-07-19 1995-02-07 Fujitsu Ltd 化合物分子の3次元構造式算出方法
CN101504679A (zh) * 2009-03-19 2009-08-12 西安近代化学研究所 一种含能化合物的计算机辅助设计系统
CN107516012A (zh) * 2017-08-21 2017-12-26 内江师范学院 一种基于有机化合物分子三维结构计算的结构描述符
CN109359534A (zh) * 2018-09-12 2019-02-19 鲁东大学 一种三维物体几何特征提取方法及系统
CN110277173A (zh) * 2019-05-21 2019-09-24 湖南大学 基于Smi2Vec的BiGRU药物毒性预测系统及预测方法
CN111079570A (zh) * 2019-11-29 2020-04-28 北京奇艺世纪科技有限公司 一种人体关键点识别方法、装置及电子设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
3D卷积神经网络的结构优化及中枢神经系统药物的识别;张瑞林等;《西北大学学报(自然科学版)》;第50卷(第01期);第31-38页 *
冷冻电镜生物大分子三维重构关键技术研究;巫小蓉;《中国博士学位论文全文数据库 基础科学辑》;A006-1 *
深度学习在药物设计与发现中的应用;李伟等;《药学学报》;第54卷(第05期);第761-767页 *
神经网络在药物定量构效关系(QSAR)研究中的应用;许卫中等;《第四军医大学学报》(第S1期);第3-65页 *
萃取精馏溶剂的选择(Ⅰ)溶剂分子QSPR的人工神经网络模型;宋海华等;《化工学报》;第58卷(第08期);第2010-2015页 *

Also Published As

Publication number Publication date
CN112185477A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112185477B (zh) 分子特征的提取及三维定量构效关系的计算方法及装置
CN109313670B (zh) 在计算机辅助设计应用中生成晶格建议的方法和系统
CN110852227A (zh) 高光谱图像深度学习分类方法、装置、设备及存储介质
CN111383741B (zh) 医学成像模型的建立方法、装置、设备及存储介质
US20220207370A1 (en) Inferring device, training device, inferring method, and training method
JP2023533907A (ja) 自己注意ベースのニューラルネットワークを使用した画像処理
CN110956655B (zh) 一种基于单目图像的稠密深度估计方法
CN111524232B (zh) 三维建模方法、装置和服务器
RU2745010C1 (ru) Способы реконструкции карты глубины и электронное вычислительное устройство для их реализации
CN112560966B (zh) 基于散射图卷积网络的极化sar图像分类方法、介质及设备
CN113066037B (zh) 基于图注意力机制的多光谱与全色图像融合方法及系统
CN117454495B (zh) 一种基于建筑草图轮廓序列的cad矢量模型生成方法及装置
CN110517352A (zh) 一种物体的三维重建方法、存储介质、终端及系统
CN111383742A (zh) 一种医学成像模型的建立方法、装置、设备及存储介质
CN117115339A (zh) 一种基于NeRF 5D神经辐射场的建筑三维重建与损伤识别方法
CN115049769A (zh) 角色动画生成方法、装置、计算机设备和存储介质
CN112115926B (zh) 基于遥感图像的建筑物体块模型构建方法及相关设备
CN117635444A (zh) 基于辐射差和空间距离的深度补全方法、装置和设备
WO2024087858A1 (zh) 图像处理模型的训练方法、装置、电子设备、计算机程序产品及计算机存储介质
CN117726513A (zh) 一种基于彩色图像引导的深度图超分辨率重建方法及系统
CN111105471B (zh) 用于生成与成像有关的采样掩码的方法和装置
CN115345917A (zh) 低显存占用的多阶段稠密重建方法及装置
CN115618714A (zh) 一种太阳辐射概率预报方法及相关设备
CN112613142B (zh) 一种基于图像的板料成型工艺参数的安全裕度获取方法
CN114816954A (zh) 面向深度学习模型训练的性能预测方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant