发明内容
因此,为了克服上述现有技术的缺点,本发明提供一种可以准确地对不同尺度的生物和化学实验中药物化合物的性质进行预测的药物筛选模型构建方法及药物筛选模型构建装置、药物筛选方法、设备和介质。
为了实现上述目的,本发明提供一种药物筛选模型构建方法,用于蛋白质晶体结构筛选,包括:获取药物训练集,所述药物训练集包含药物蛋白质的化学式、小分子的化学式以及分类标签;基于化学式,绘制药物蛋白质和小分子的初始图网络,所述初始图网络中原子为节点,化学键为连接所述节点的边;采用随机初始化向量标识所述初始图网络中的各所述节点的权重向量;根据所述初始图网络的连接关系重构所述初始图网络的各所述节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络;根据所述分类标签对所述初始图网络和所述至少两层所述重构图网络进行深度学习,构建药物筛选模型。
在其中一个实施例中,所述基于化学式,绘制药物蛋白质和小分子的初始图网络,包括:将所述药物蛋白质与所述小分子基于传统分子动力学进行分子对接,得到目标分子;根据目标分子的化学式,绘制药物蛋白质和小分子的初始图网络。
在其中一个实施例中,所述基于化学式,绘制药物蛋白质和小分子的初始图网络,包括:基于化学式,分别绘制药物蛋白质和小分子的初始图网络,此时的初始图网络包含药物蛋白质的初始图网络和小分子的初始图网络。
在其中一个实施例中,所述采用随机初始化向量标识所述初始图网络中的各所述节点的权重向量,包括:采用均匀分布或正态分布选取(0,1)区间的值生成初始化向量,分配给所述节点作为其权重向量。
在其中一个实施例中,所述根据所述初始图网络的连接关系重构所述初始图网络的各所述节点,得到重构图网络,包括:根据所述初始图网络的连接关系获取各所述节点的权重向量以及与该节点连接的关联节点的关联权重向量;将所述权重向量和所述关联权重向量整合,得到所述节点的重构权重向量;根据所述重构权重向量生成重构图网络。
在其中一个实施例中,所述根据所述分类标签对所述初始图网络和所述至少两层所述重构图网络进行深度学习,构建药物筛选模型,包括:对所述初始图网络和所述至少两层所述重构图网络分别进行特征提取,得到层级网络特征;根据所述分类标签采用深度学习网络学习所述层级网络特征,构建药物筛选模型。
在其中一个实施例中,所述对所述初始图网络和所述至少两层所述重构图网络分别进行特征提取,得到层级网络特征,包括:对所述初始图网络和所述至少两层所述重构图网络通过函数分别进行特征提取,得到函数向量特征;将所述函数向量特征在概率空间中进行归一化操作,得到层级网络特征。
一种药物筛选方法,包括:基于目标蛋白质与小分子的化学式,绘制目标初始图网络,所述目标初始图网络中原子为节点,化学键为连接所述节点的边;将所述目标初始图网络输入药物筛选模型,并输出对所述目标蛋白质与小分子的分析结果,其中,所述药物筛选模型为上述的方法训练得到的。
一种药物筛选模型构建装置,所述装置包括:训练集获取模块,用于获取药物训练集,所述药物训练集包含药物蛋白质的化学式、小分子的化学式以及分类标签;图网络绘制模块,用于基于化学式,绘制药物蛋白质和小分子的初始图网络,所述初始图网络中原子为节点,化学键为连接所述节点的边;向量标识模块,用于采用随机初始化向量标识所述初始图网络中的各所述节点的权重向量;重构模块,用于根据所述初始图网络的连接关系重构所述初始图网络的各所述节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络;模型训练模块,用于根据所述分类标签对所述初始图网络和所述至少两层所述重构图网络进行深度学习,构建药物筛选模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的方法的步骤。
与现有技术相比,本发明的优点在于:通过对与药物蛋白质的化学式、小分子的化学式对应的初始图网络进行建模分析,且在建模时采用初始图网络和重构图网络而非传统的基于分子指纹(Fingerprint)的方式,仅通过机器学习识别同一药物两种不同的图网络,不仅可以有效减少人工特征设计,还可以扩大特征的覆盖范围,提升效率与准确度,且通过利用了大数据以及深度学习方法,大量节省了分子动力学以及量子力学、量子化学等计算消耗,对计算速度有大幅度提升。本发明可以考虑到了蛋白质的高度柔性,基于弹性图神经网络的模拟方式能更好的模拟蛋白质的柔性特点,更能准确地对不同尺度的生物和化学实验中化合物的性质进行预测。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
如图1所示,本公开实施例提供一种药物筛选模型构建方法,可以应用在终端或服务器上,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式智能设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现,方法包括以下步骤:
步骤101,获取药物训练集,药物训练集包含药物蛋白质的化学式、小分子的化学式以及分类标签。
服务器可以获取药物训练集,药物训练集包含药物蛋白质的化学式、小分子的化学式以及分类标签。药物训练集中的药物蛋白质可以是已经经过验证的药物,例如,药物蛋白质是是通过pdb(protein data bank:蛋白质三维结构数据文件)数据库查询整理的具有蛋白-配体共晶结构的蛋白质部分。小分子是具有pdb数据库内的蛋白质中的酶活实验记录的小分子化合物。分类标签可以是说明该药物性质的文字或字母等,例如与药效关联的内容等。
步骤102,基于化学式,绘制药物蛋白质和小分子的初始图网络,初始图网络中原子为节点,化学键为连接节点的边。
服务器基于化学式,绘制初始图网络,初始图网络中原子为节点,化学键为连接节点的边。当两个原子之间存在化学键时,无论该化学键是单键、双键还是三键,均绘制为一条边。初始图网络可以是在拓扑空间内按图结构组织以进行关系推理的函数集合,图结构可以由两个集合组成:节点集合(Node)与边集合(Edge),其中边集合描述节点之间如何互相连接。
在一个实施例中,基于化学式,绘制药物蛋白质和小分子的初始图网络,包括:将药物蛋白质与小分子基于传统分子动力学进行分子对接,得到目标分子;根据目标分子的化学式,绘制药物蛋白质和小分子的初始图网络。如图2所示,服务器可以基于传统分子动力学将药物蛋白质与小分子进行分子对接,并对对接后的目标分子进行绘制,得到初始图网络。
在其中一个实施例中,基于化学式,绘制药物蛋白质和小分子的初始图网络,包括:基于化学式,分别绘制药物蛋白质和小分子的初始图网络,此时的初始图网络包含药物蛋白质的初始图网络和小分子的初始图网络。如图3所示,服务器也可以基于化学式,分别绘制药物蛋白质和小分子的初始图网络,此时的初始图网络包含药物蛋白质的初始图网络和小分子的初始图网络。
步骤103,采用随机初始化向量标识初始图网络中的各节点的权重向量。
服务器采用随机初始化向量标识初始图网络中的各节点的权重向量。服务器可以随机生成任一条边的权重值,而后根据生成的权重值赋予各节点对应的权重向量。在其中一个实施例中,采用随机初始化向量标识初始图网络中的各节点的权重向量包括:采用均匀分布或正态分布选取(0,1)区间的值生成初始化向量,分配给节点作为其权重向量。例如,服务器可以采取均匀分布的方式将权重值赋予各条边,而后再根据生成的权重值赋予各节点对应的权重向量。均匀分布是指向量中每一个值都是等概率分布在(0,1)区间。正态分布是指向量中每一个值都是符合在(0,1)区间的正态分布。
步骤104,根据初始图网络的连接关系重构初始图网络的各节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络。
服务器根据初始图网络的连接关系重构初始图网络的各节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络。优选地,服务器重构图网络的层数为3~6层。服务器每次均是基于新建的重构图网络重复重构步骤,因而每次的重构图网络均不同,且每个节点包含的信息也逐渐丰富。
步骤105,根据分类标签对初始图网络和至少两层重构图网络进行深度学习,构建药物筛选模型。
服务器根据分类标签对初始图网络和至少两层重构图网络进行深度学习,构建药物筛选模型。深度学习网络可以是BP神经网络(Back Propagation)、卷积网络、神经网络等。服务器通过学习网络确定初始图网络和至少两层重构图网络中的网络特征,并将该网络特征训练与分类标签对应,构建得到药物筛选模型。
上述方法,通过对与药物蛋白质的化学式、小分子的化学式对应的初始图网络进行建模分析,且在建模时采用初始图网络和重构图网络而非传统的基于分子指纹(Fingerprint)的方式,仅通过机器学习识别同一药物两种不同的图网络,不仅可以有效减少人工特征设计,还可以扩大特征的覆盖范围,提升效率与准确度,且通过利用了大数据以及深度学习方法,大量节省了分子动力学以及量子力学、量子化学等计算消耗,对计算速度有大幅度提升。本发明可以考虑到了蛋白质的高度柔性,基于弹性图神经网络的模拟方式能更好的模拟蛋白质的柔性特点,更能准确地对不同尺度的生物和化学实验中化合物的性质进行预测。
如图4所示,在其中一个实施例中,根据初始图网络的连接关系重构初始图网络的各节点,得到重构图网络,包括以下步骤:
步骤401,根据初始图网络的连接关系获取各节点的权重向量以及与该节点连接的关联节点的关联权重向量。
服务器根据初始图网络的连接关系获取各节点的权重向量以及与该节点连接的关联节点的关联权重向量。
步骤402,将权重向量和关联权重向量整合,得到节点的重构权重向量。
服务器将权重向量和关联权重向量整合,得到节点的重构权重向量。在一个实施例中,整合公式为
其中N(v
i)为连接所有节点i的节点的集合,v
i为第i个节点,i、j为节点编号,
为第k层网络i、j编号节点的向量,
为边的向量,f
k为第k层网络。
步骤403,根据重构权重向量生成重构图网络。
服务器根据重构权重向量生成重构图网络。
在其中一个实施例中,根据分类标签对初始图网络和至少两层重构图网络进行深度学习,构建药物筛选模型,包括:对初始图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征;根据分类标签采用深度学习网络学习层级网络特征,构建药物筛选模型。
服务器对初始图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征。在一个实施例中,服务器可以分别提取初始图网络和重构图网络的图片特征,分析图网络中的图片细节。在一个实施例中,服务器可以分别提取初始图网络和重构图网络的向量特征,进而分析图网络。具体地,服务器可以根据公式
其中R为readout函数(特征读取函数)。服务器可以采用加和与取平均两种方式选取向量特征。
在其中一个实施例中,对初始图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征,包括:对初始图网络和至少两层重构图网络通过函数分别进行特征提取,得到函数向量特征;将函数向量特征在概率空间中进行归一化操作,得到层级网络特征。
服务器对初始图网络和至少两层重构图网络通过函数分别进行特征提取,得到函数向量特征。服务器根据公式
得到函数向量特征。其中R为readout函数(特征读取函数)。服务器采用取平均数的方式选取向量特征。服务器将函数向量特征在概率空间中进行归一化操作,得到层级网络特征。服务器可以将softmax函数作为分类器的直接函数,并计算实现在概率空间的归一化操作。softmax函数具体数学公式为
其作用是把计算得到的结果从整个实数域归一化到(0,1)区间,从而表示各节点之间的概率。
上述方法,只保留了最核心的化合物信息(比如:原子序数、单键双键等节点或边的信息)作为连接的原子信息,从而能更高效地完成模型训练,并提取出高质量的模型特征。
本申请还提供了一种药物筛选方法,包括:基于目标蛋白质与小分子的化学式,绘制目标初始图网络,目标初始图网络中原子为节点,化学键为连接节点的边;将目标初始图网络输入药物筛选模型,并输出对目标蛋白质与小分子的分析结果,其中,药物筛选模型为上述的方法训练得到的。
在一个实施例中,如图5所示,提供了一种药物筛选模型构建装置,装置包括训练集获取模块501、图网络绘制模块502、向量标识模块503、重构模块504和模型训练模块505。
训练集获取模块501,用于获取药物训练集,药物训练集包含药物蛋白质的化学式、小分子的化学式以及分类标签。
图网络绘制模块502,用于基于化学式,绘制药物蛋白质和小分子的初始图网络,初始图网络中原子为节点,化学键为连接节点的边。
向量标识模块503,用于采用随机初始化向量标识初始图网络中的各节点的权重向量。
重构模块504,用于根据初始图网络的连接关系重构初始图网络的各节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络。
模型训练模块505,用于根据分类标签对初始图网络和至少两层重构图网络进行深度学习,构建药物筛选模型。
在其中一个实施例中,图网络绘制模块包括:
分子对接单元,用于将药物蛋白质与小分子基于传统分子动力学进行分子对接,得到目标分子。
图网络绘制单元,用于根据目标分子的化学式,绘制药物蛋白质和小分子的初始图网络。
在其中一个实施例中,图网络绘制模块包括:
图网络绘制单元,用于基于化学式,分别绘制药物蛋白质和小分子的初始图网络,此时的初始图网络包含药物蛋白质的初始图网络和小分子的初始图网络。
在其中一个实施例中,向量标识模块包括:
向量标识单元,用于采用均匀分布或正态分布选取(0,1)区间的值生成初始化向量,分配给节点作为其权重向量。
在其中一个实施例中,重构模块504包括:
权重向量获取单元,用于根据初始图网络的连接关系获取各节点的权重向量以及与该节点连接的关联节点的关联权重向量。
整合单元,用于将权重向量和关联权重向量整合,得到节点的重构权重向量。
重构单元,用于根据重构权重向量生成重构图网络。
在其中一个实施例中,模型训练模块包括:
特征提取单元,用于对初始图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征。
模型构建单元,用于根据分类标签采用深度学习网络学习层级网络特征,构建药物筛选模型。
在其中一个实施例中,模型训练模块包括:
向量特征提取单元,用于对初始图网络和至少两层重构图网络通过函数分别进行特征提取,得到函数向量特征。
归一化单元,用于将函数向量特征在概率空间中进行归一化操作,得到层级网络特征。
在一个实施例中,提供了一种药物筛选装置,该装置包括图网络绘制模块和药物分析模块。
图网络绘制模块,用于基于目标蛋白质与小分子的化学式,绘制目标初始图网络,目标初始图网络中原子为节点,化学键为连接节点的边。
药物分析模块,用于将目标初始图网络输入药物筛选模型,并输出对目标药物的分析结果,其中,药物筛选模型为上述的方法训练得到的。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储药物训练集或者药物筛选模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种药物筛选模型构建方法或药物筛选方法。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取药物训练集,药物训练集包含药物蛋白质的化学式、小分子的化学式以及分类标签;基于药物化学式,绘制初始图网络,初始图网络中原子为节点,化学键为连接节点的边;采用随机初始化向量标识初始图网络中的各节点的权重向量;根据初始图网络的连接关系重构初始图网络的各节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络;根据分类标签对初始图网络和至少两层重构图网络进行深度学习,构建药物筛选模型。
在一个实施例中,处理器执行计算机程序时实现的基于化学式,绘制药物蛋白质和小分子的初始图网络,包括:将药物蛋白质与小分子基于传统分子动力学进行分子对接,得到目标分子;根据目标分子的化学式,绘制药物蛋白质和小分子的初始图网络。
在一个实施例中,处理器执行计算机程序时实现的基于化学式,绘制药物蛋白质和小分子的初始图网络,包括:基于化学式,分别绘制药物蛋白质和小分子的初始图网络,此时的初始图网络包含药物蛋白质的初始图网络和小分子的初始图网络。
在一个实施例中,处理器执行计算机程序时实现的采用随机初始化向量标识初始图网络中的各节点的权重向量包括:采用均匀分布或正态分布选取(0,1)区间的值生成初始化向量,分配给节点作为其权重向量。
在一个实施例中,处理器执行计算机程序时实现的根据初始图网络的连接关系重构初始图网络的各节点,得到重构图网络,包括:根据初始图网络的连接关系获取各节点的权重向量以及与该节点连接的关联节点的关联权重向量;将权重向量和关联权重向量整合,得到节点的重构权重向量;根据重构权重向量生成重构图网络。
在一个实施例中,处理器执行计算机程序时实现的根据分类标签对初始图网络和至少两层重构图网络进行深度学习,构建药物筛选模型,包括:对初始图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征;根据分类标签采用深度学习网络学习层级网络特征,构建药物筛选模型。
在一个实施例中,处理器执行计算机程序时实现的对初始图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征,包括:对初始图网络和至少两层重构图网络通过函数分别进行特征提取,得到函数向量特征;将函数向量特征在概率空间中进行归一化操作,得到层级网络特征。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:基于目标蛋白质与小分子的化学式,绘制目标初始图网络,目标初始图网络中原子为节点,化学键为连接节点的边;将目标初始图网络输入药物筛选模型,并输出对目标蛋白质与小分子的分析结果,其中,药物筛选模型为上述的方法训练得到的。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取药物训练集,药物训练集包含药物蛋白质的化学式、小分子的化学式以及分类标签;基于药物化学式,绘制初始图网络,初始图网络中原子为节点,化学键为连接节点的边;采用随机初始化向量标识初始图网络中的各节点的权重向量;根据初始图网络的连接关系重构初始图网络的各节点,得到重构图网络,重复重构步骤,得到至少两层重构图网络;根据分类标签对初始图网络和至少两层重构图网络进行深度学习,构建药物筛选模型。
在一个实施例中,计算机程序被处理器执行时实现的基于化学式,绘制药物蛋白质和小分子的初始图网络,包括:将药物蛋白质与小分子基于传统分子动力学进行分子对接,得到目标分子;根据目标分子的化学式,绘制药物蛋白质和小分子的初始图网络。
在一个实施例中,计算机程序被处理器执行时实现的基于化学式,绘制药物蛋白质和小分子的初始图网络,包括:基于化学式,分别绘制药物蛋白质和小分子的初始图网络,此时的初始图网络包含药物蛋白质的初始图网络和小分子的初始图网络。
在一个实施例中,计算机程序被处理器执行时实现的采用随机初始化向量标识初始图网络中的各节点的权重向量包括:采用均匀分布或正态分布选取(0,1)区间的值生成初始化向量,分配给节点作为其权重向量。
在一个实施例中,计算机程序被处理器执行时实现的根据初始图网络的连接关系重构初始图网络的各节点,得到重构图网络,包括:根据初始图网络的连接关系获取各节点的权重向量以及与该节点连接的关联节点的关联权重向量;将权重向量和关联权重向量整合,得到节点的重构权重向量;根据重构权重向量生成重构图网络。
在一个实施例中,计算机程序被处理器执行时实现的根据分类标签对初始图网络和至少两层重构图网络进行深度学习,构建药物筛选模型,包括:对初始图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征;根据分类标签采用深度学习网络学习层级网络特征,构建药物筛选模型。
在一个实施例中,计算机程序被处理器执行时实现的对初始图网络和至少两层重构图网络分别进行特征提取,得到层级网络特征,包括:对初始图网络和至少两层重构图网络通过函数分别进行特征提取,得到函数向量特征;将函数向量特征在概率空间中进行归一化操作,得到层级网络特征。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:基于目标蛋白质与小分子的化学式,绘制目标初始图网络,目标初始图网络中原子为节点,化学键为连接节点的边;将目标初始图网络输入药物筛选模型,并输出对目标蛋白质与小分子的分析结果,其中,药物筛选模型为上述的方法训练得到的。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。