CN111710376A - 大分子及团簇体系分块计算负载均衡方法及系统 - Google Patents

大分子及团簇体系分块计算负载均衡方法及系统 Download PDF

Info

Publication number
CN111710376A
CN111710376A CN202010403157.4A CN202010403157A CN111710376A CN 111710376 A CN111710376 A CN 111710376A CN 202010403157 A CN202010403157 A CN 202010403157A CN 111710376 A CN111710376 A CN 111710376A
Authority
CN
China
Prior art keywords
model
vertex
molecular
molecules
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010403157.4A
Other languages
English (en)
Other versions
CN111710376B (zh
Inventor
马英晋
马硕
张宝花
刘倩
�金钟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN202010403157.4A priority Critical patent/CN111710376B/zh
Publication of CN111710376A publication Critical patent/CN111710376A/zh
Application granted granted Critical
Publication of CN111710376B publication Critical patent/CN111710376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5018Thread allocation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种大分子及团簇体系分块计算负载均衡方法及系统,涉及计算化学、高性能计算、大分子及团簇体系的计算与模拟领域,沿用分片方法中流行的“先分块,再计算”的计算策略,对于分块后的各个分子片,采用化学信息学及机器学习的手段,预估各个分块所需要的计算资源及计算机时,再辅以线性规划的优化方案,使各个分子片在优化的方案下可以达到尽可能接近的实际计算时间,以平衡整个计算过程中的计算负载,最大化硬件的利用效率。

Description

大分子及团簇体系分块计算负载均衡方法及系统
技术领域
本发明涉及计算化学、高性能计算、大分子及团簇体系的计算与模拟领域,具体为一种基于人工智能和化学信息学的大分子及团簇体系分块计算负载均衡方法及系统。
背景技术
对生物分子、有机材料分子等大分子及团簇体系的相关性质的研究所建立的新概念、新理论和新方法,大大拓展了人们对物质世界认识的深度和广度,为理解生命现象、能量转化、环境保护以及寻找与设计新材料提供了重要的基础。目前,受到计算条件及计算时间的限制,传统的量子化学从头算方法(ab initio)还无法直接用于计算大分子及团簇体系的性质,因此,模拟大分子体系的性质主要还是依靠经验性的分子力场以及参数化的半经验模型方法。然而,分子力场、半经验模型的缺陷如缺乏精确电子结构图像,这是大家众所周知且一直以来都在讨论和持续改进的一个问题。
传统的量子力学方法,包括以Hartree-Fock(HF)方法为基础的从头算方法和密度泛函理论(density functional theory,DFT),能够对中小尺寸的体系给出较为准确的描述,由于这些方法的标度很高,很难推广到大体系的计算。如HF和DFT方法的计算标度是N3~4(这里N是能够表示体系尺寸大小的量,如电子数),电子相关方法的话计算标度会更高。为了使得严格而精确的量子力学方法能够应用到生物大分子、溶液分子等体系,在过去的二十多年里人们做出了很多努力,发展了各种线性标度及分块的量子化学方法。在各种方法中,分块方法己经越来越受到大家的欢迎,因为其精度较高、实现也较为简单,而且其计算量随着分子体系的増大近似可呈线性増加。
分块方法是基于分子局部的物理化学性质主要受分子局部结构影响的规律提出的。在此规律下面,可将一个大分子体系按照一定的方法分成一系列的分子碎片,对于每一个分子碎片,可用量子化学方法来计算能量及波函数性质,最后大分子的能量、波函数等性质就可通过加合每一个分子碎片的性质来描述。分子分块方法作为一种实用有效的手段,不仅是因为它的计算时间近似是线性标度的,而且它可以很方便地利用现有的量子化学计算软件,易于并行计算,从而可实现较髙理论水平上的全体系量子化学计算。在过去的几十年里,已经有很多分块方法发展出来,包括分块分子轨道(FMO)方法、分子碎片共轭帽(MFCC)方法、系统的分块法(SFM)、可调整的密度矩阵组装法(ADMA)、分子裁剪法(MTA)、广义的基于能量的分块(GEBP)方法、静电嵌入的多体展开理论(EEMB)、显式的极化势(X-Pol)方法及自动化分块的量子力学和分子力学(AF-QM/MM)方法等等。这些方法的出现极大地提高了量子化学理论计算大分子体系性质的效率。而且由于分块方法本身的特性,它可以很容易地实现大规模的并行计算,使得计算时间不再受体系大小的限制,而是取决于计算机处理器的数量。因此可以说,分块方法突破了传统的量子化学计算受分子体系大小限制的瓶颈,实现了各种理论水平上的高效计算。
与此同时,当前的分子分块方法的侧重点仍然在分块方法的开发方面,对于该方法在大规模并行集群的效率优化方面鲜有报道。由于分片方法普遍采用“先分块,再计算”的计算策略,导致在计算前需要设定各个分子片需要的计算资源,通常研究人员会依据各分子片中的原子数目、原子类型等预估每个分片所需要的计算资源及可能的计算时长。根据的计算经验,越是偏向于实际的分子体系,其分块后的分子片越不规律,也越难以预估其所需要的计算资源及可能的计算时长。因为,现有的分块计算策略在处理实际的大分子计算的时候,往往会存在计算资源分配与分子片实际需要不匹配,以致短板效应明显并拖累并行效率。
发明内容
针对现有的分块计算策略在处理实际的大分子计算中并行效率低下等实际问题,本发明提出了一种基于人工智能和化学信息学的大分子及团簇体系分块计算负载均衡方法,利用机器学习结合化学信息学的手段,对每个分块后的分子片给出预测的计算量,在此基础上智能地分配每一个分子片计算所使用的计算资源(如核心数、线程数),来达到平衡整体计算的负载,提高计算效率的方法。
为实现上述目的,本发明采用以下技术方案:
一种大分子及团簇体系分块计算负载均衡方法,包括以下步骤:
选取若干种已知结构的分子的收敛策略、泛函和基组作为训练数据,来训练机器学习模型:随机森林(RF)模型、双向长短期记忆网络(Bi-LSTM)模型、消息传递神经网络(MPNN)模型和多层图卷积神经网络(MGCN)模型中的一个或多个;
将待预测分子的分子及其分子片的结构信息、收敛策略、泛函和基组作为输入信息,输入到机器学习模型中,来预测计算机时,包括:
将分子及其分子片的结构信息和基函数数目输入到RF模型中进行预测;
将独热形式的分子及其分子片的结构信息和基函数数目输入到Bi-LSTM模型中进行预测;
将分子及其分子片的结构信息输入到MPNN模型中进行预测;
将分子及其分子片的结构信息输入到MGCN模型中进行预测;
根据上述计算机时数据,采用线性规划模型对各个分子片需要的算力进行统筹规划,该线性规划模型的约束条件是计算集群的核心和线程总数目,目标函数为各个分子片所需的实际计算时间尽量接近。
一种大分子及团簇体系分块计算负载均衡系统,包括:
输入模块,负责将待预测分子的分子及其分子片的结构信息、收敛策略、泛函和基组作为输入信息进行输入;
预测模块,包括机器学习模型:RF模型、Bi-LSTM模型、MPNN模型和MGCN模型中的一个或多个;负责选取若干种已知结构的分子的收敛策略、泛函和基组作为训练数据,来训练机器学习模型,然后将输入信息输入到机器学习模型中来预测计算机时;其中,RF模型根据分子及其分子片的结构信息和基函数数目进行预测,Bi-LSTM模型根据独热形式的分子及其分子片的结构信息和基函数数目进行预测,MPNN模型根据分子及其分子片的结构信息进行预测,MGCN模型根据分子及其分子片的结构信息进行预测;
线性规划模块,负责根据计算机时数据,采用线性规划模型对各个分子片需要的算力进行统筹规划,该线性规划模型的约束条件是计算集群的核心和线程总数目,目标函数为各个分子片所需的实际计算时间尽量接近;
输出模块,负责接收线性规划模块的规划结果,并将结果输出和保存。
本发明方法的优点在于:本方法沿用分片方法中流行的“先分块,再计算”的计算策略,对于分块后的各个分子片,采用化学信息学及机器学习的手段,预估各个分块所需要的计算资源及计算机时,再辅以线性规划的优化方案,使各个分子片在优化的方案下可以达到尽可能接近的实际计算时间,以平衡整个计算过程中的计算负载,最大化硬件的利用效率。
附图说明
图1是展示了智能预测系统的整体架构图。
图2是RF的模型结构图。
图3是Bi-LSTM的模型结构图。
图4是MPNN的模型结构图。
图5是MGCN的模型结构图。
具体实施方式
为使本发明的技术方案能更明显易懂,特举实施例并结合附图详细说明如下。
本方案可划分为四个主要的模块:输入模块、预测模块、线性规划模块、输出模块,整体流程架构如附图1所示。各个模块简述如下:
(1)输入模块
该模块负责接收输入的大分子整体信息、所有的分子片信息。具体包括分子及其分子片的结构文件、计算策略(计算方法,包括但不限于泛函和基组的组合)、收敛策略(例如准牛顿方法、最陡下降法)。输入模块将这些信息传递给预测模块。
(2)预测模块
该模块主要负责预测各个分子片所需要的计算机时。这部分可以使用自主开发的基于化学信息学及多种机器学习模型的计算量预测模块。该模块内建多种机器学习模型,分别是:随机森林+前馈神经网络模型(random forest with feedforward neuralnetworks,简称RF)、有注意力机制的双向长短期记忆网络模型(bi-directional longshort term memory with attention,简称Bi-LSTM)、消息传递神经网络模型(messagepassing neural network,简称MPNN)、多级图卷积神经网络模型(multi-level graphconvolutional neural network,简称MGCN),根据需要选择哪一种或几种模型。选取若干种给定的分子的收敛策略、泛函和基组的组合,针对每种组合训练机器学习模型,并封装于预测模块中。这四种机器学习模型可以根据分子结构、基函数数目预测出可靠的计算机时。
四种模型的原理如下所述:
a.RF模型的结构如图2所示,其计算过程可分为输入、预处理、分类、拟合、输出五阶段。在输入阶段,模型接收分子的SMILES编码和基函数数目(记为x)。在预处理阶段,基于分子的SMILES编码,统计出分子中的原子数、支链数、支链上原子数、环数、环上原子数、双键数,将这些信息拼接成一个表示分子结构特征的向量,并送入随即森林分类器。在分类阶段,随机森林分类器会给出输入的分子结构分别属于五种典型结构(线性结构、支链结构、环状结构、直链烯烃结构、聚苯结构)的概率(分别记为PL,PD,PR,PA,PP)。在拟合阶段,使用预训练的五个前馈神经网络模型(分别对应五种典型结构)基于基函数数目分别预测出时间(记为fL(x),fD(x),fR(x),fA(x),fP(x))。最后,模型输出的预测结果为y=PLfL(x)+PDfD(x)+PRfR(x)+PAfA(x)+PPfP(x)
b.Bi-LSTM模型的结构如图3所示,可分为五个层次。首先是输入层,该层接收独热(one-hot)形式的SMILES编码和基函数数目作为输入,SMILES编码被送入词嵌入(WordEmbedding)层。在词嵌入层,使用word2vec算法预训练一个权重矩阵(称为词嵌入,记为W),利用词嵌入将独热形式的SMILES编码转化为实数向量,并送入双向LSTM层(一层前向LSTM层,一层后向LSTM层)。双向LSTM层提取出SMILES中包含的高级结构特征,得到前向和后向两个输出向量(记为Hf和Hb)。接下来是Attention层,该层接收LSTM层输出向量之和作为输入(记为H,H=Hf+Hb),Attention层的输出记为向量c,
c=HaT
a=softmax(wTtanh(H))
最后是输出层,将Attention层的输出c和基函数数目x一起送入全连接网络进行拟合,得到最终的预测计算机时。
c.MPNN模型的结构如图4所示,其计算过程可分为输入、预处理、消息传递、读出、输出五个阶段。在输入阶段,根据分子及其分子片的结构信息将分子建模为图的形式(记为G),模型的输入包括G的顶点向量(记为xv)集合和边向量(evw)集合。每个顶点向量的分量保存该顶点对应原子的原子类型、是否在芳环上以及杂化类型,每个边向量保存这条边对应的化学键的类型。在预处理阶段,xv通过一层网络(称为“顶点网络”)被转化为n×d维的矩阵(称为“点嵌入”),其中n是顶点数目,d是顶点网络隐藏层节点的维度。消息传递阶段对点嵌入执行T次卷积操作,第t次的卷积操作由消息函数Mt和顶点更新函数Ut来定义,顶点v的隐状态
Figure BDA0002490266030000051
由“消息”
Figure BDA0002490266030000052
来更新。因此,消息传递阶段所执行的操作可以归纳为:
Figure BDA0002490266030000053
Figure BDA0002490266030000054
其中,N(v)表示顶点v的邻域,Mt定义为M(hv,hw,eew)=A(evw)hw,w表示顶点,hw表示顶点w的隐状态,A(evw)是一个网络(称为“边网络”),evw表示顶点v和w连结成的边向量,将边向量evw映射为d×d的矩阵(称为“边嵌入”)。顶点更新函数Ut的具体形式是门控循环单元(gated recurrent unit,GRU)。在读出阶段,利用读出函数(readout function)R来得到图G的高层特征表示
Figure BDA0002490266030000055
Figure BDA0002490266030000056
其中R是set2set模型。在输出阶段,将
Figure BDA0002490266030000057
和基函数的数目一起送入全连接网络进行拟合,得到预测的计算机时。
d.MGCN模型的结构如图5所示,其计算过程亦可分为输入、预处理、消息传递、读出、输出五个阶段。在输入阶段,根据分子及其分子片的结构信息将分子建模为图的形式(记为G),模型的输入包括G的顶点向量(记为a0)集合和和边向量(e)集合。每个顶点向量的分量保存该顶点对应原子的原子类型、是否在芳环上以及杂化类型,每个边向量保存这条边对应的化学键的类型以及键长。在预处理阶段,由嵌入层将顶点向量集合和边向量集合转化为顶点嵌入
Figure BDA0002490266030000058
以及边嵌入
Figure BDA0002490266030000059
同时,径向基函数(radialbasis function,RBF)层将键长转化为距离张量
Figure BDA00024902660300000510
D的分量dij代表原子i和j之间的距离。在消息传递阶段,交互层(interaction layer)被构建为层级结构的形式,目的是模拟原子之间的量子相互作用,记第l层交互层输出的边状态为
Figure BDA0002490266030000061
顶点状态为
Figure BDA0002490266030000062
则:
Figure BDA0002490266030000063
Figure BDA0002490266030000064
其中,N表示所有分子体系中所有的分子,dij表示原子i和j之间的距离;he是边状态更新函数,hv是顶点状态更新函数,he的具体形式为:
Figure BDA0002490266030000065
其中,η是一个常量,此处设为0.8,Wue是一个权重矩阵,
Figure BDA0002490266030000066
代表逐元素相加而⊙代表逐元素相乘。hv的具体形式为
Figure BDA0002490266030000067
其中,v为图中表示原子的顶点,u为作为辅助的高斯径向基(Radial BasisFunction)里面的点,是用来辅助表示空间性质的参量;f表示函数,fa、fd、fe分别表示有关顶点、距离、边的函数;M(x)代表一层线性网络,为全连接层,其形式为M(x)=Wx+b,W是权重矩阵,x表示W后小括号中内容,b表示常数项,优化时b会被自动调整。之后,将T个交互层的输出
Figure BDA0002490266030000068
与初始的顶点状态
Figure BDA0002490266030000069
拼接起来,得到向量ai。之后,在读出阶段产生图G的高层特征表示g:
Figure BDA00024902660300000610
式中,r表示MGCN模型最后的readout层里的权重矩阵,在模型训练过程中会自动优化;σ代表softplus函数,为激活函数。在输出阶段,将高层特征表示g和基函数数目一起送入全连接网络进行拟合,得到预测的计算机时。
(3)规划模块
该模块主要依据预测模块提供的计算机时数据,对各个分子片需要的算力进行统筹规划。当前规划模块采用的为线性规划模型,其中约束条件是高性能计算集群的核心、线程总数目,目标函数为各个分子片所需的实际计算时间尽可能接近。
(4)输出模块
输出模块接收规划模块传来的规划结果,并将结果输出保存。输出模块内置多种应用程序接口,可以直接输出程序执行脚本,供集群管理系统的相关组件调用。
本实施例的大分子及团簇体系分块计算负载均衡方法可由python语言实现,系统支持SDF、mol等多种格式的分子文件或量子化学程序执行文件作为输入。此外,在输入时还需指定整体计算所采用的泛函和基组类型。基组类型确定后,系统借助Basis SetExchange量子化学数据库提供的信息计算各个分子片的基函数数目,并结合内置的模型提供预测的计算机时,并以此规划出优化的算力分配方案,保存备用或直接进行任务提交。预测模块涉及RF、Bi-LSTM、MPNN和MGCN等多种机器学习的训练和使用。其中RF模型的随机森林分类器使用scikit-learn模块实现,五种前馈神经网络使用tensorflow深度学习框架实现。Bi-LSTM、MPNN和MGCN模型全部使用pytorch深度学习框架实现。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,本发明的保护范围以权利要求所述为准。

Claims (10)

1.一种大分子及团簇体系分块计算负载均衡方法,其特征在于,包括以下步骤:
选取若干种已知结构的分子的收敛策略、泛函和基组作为训练数据,来训练机器学习模型,该机器学习模型包括随机森林RF模型、双向长短期记忆网络Bi-LSTM模型、消息传递神经网络MPNN模型和多层图卷积神经网络MGCN模型中的一个或多个;
将待预测分子的分子及其分子片的结构信息、收敛策略、泛函和基组作为输入信息,输入到机器学习模型中,来预测计算机时,包括:
将分子及其分子片的结构信息和基函数数目输入到RF模型中进行预测;
将独热形式的分子及其分子片的结构信息和基函数数目输入到Bi-LSTM模型中进行预测;
将分子及其分子片的结构信息输入到MPNN模型中进行预测;
将分子及其分子片的结构信息输入到MGCN模型中进行预测;
根据上述计算机时数据,采用线性规划模型对各个分子片需要的算力进行统筹规划,该线性规划模型的约束条件是计算集群的核心和线程总数目,目标函数为各个分子片所需的实际计算时间尽量接近。
2.如权利要求1所述的方法,其特征在于,分子及其分子片的结构信息包括SMILES编码。
3.如权利要求2所述的方法,其特征在于,RF模型预测分子性质的步骤包括:
接收分子的SMILES编码和基函数数目;
基于分子的SMILES编码,统计出分子中的原子数、支链数、支链上原子数、环数、环上原子数、双键数,并拼接成一个表示分子结构特征的向量,送入随即森林分类器;
随机森林分类器给出输入的分子结构分别属于线性结构、支链结构、环状结构、直链烯烃结构、聚苯结构这五种典型结构的概率;
基于基函数数目,利用预训练的分别对应五种典型结构的五个前馈神经网络模型,分别预测出时间;
将五个模型预测出的时间进行叠加,得到预测的计算机时。
4.如权利要求3所述的方法,其特征在于,分子结构分别属于五种典型结构的概率为PL,PD,PR,PA,PP,利用五个前馈神经网络模型预测出的时间为fL(x),fD(x),fR(x),fA(x),fP(x),则将五个模型预测出的时间进行叠加,得到预测的计算机时为:
y=PLfL(x)+PDfD(x)+PRfR(x)+PAfA(x)+PPfP(x)。
5.如权利要求2所述的方法,其特征在于,Bi-LSTM模型预测分子性质的步骤包括:
接收独热形式的SMILES编码和基函数数目;
利用word2vec算法预训练一个权重矩阵,利用该矩阵将独热形式的SMILES编码转化为实数向量,并送入双向LSTM层;
通过双向LSTM层提取出SMILES中包含的结构特征,得到前向和后向两个输出向量;
通过Attention层将双向LSTM层的两个输出向量之和作为输入,经过处理输出新的向量;
将新的向量和基函数数目送入全连接网络进行拟合,得到预测的计算机时。
6.如权利要求1所述的方法,其特征在于,MPNN模型预测分子性质的步骤包括:
根据分子及其分子片的结构信息将分子建模为图G的形式,将图G的顶点向量集合和边向量集合作为输入,其中每个顶点向量的分量保存该顶点对应原子的原子类型、是否在芳环上以及杂化类型,每个边向量保存这条边对应的化学键的类型;
顶点向量通过一层顶点网络进行点嵌入,转化为n×d维的矩阵,其中n顶点数目,d是顶点网络隐藏层节点的维度;
对点嵌入执行多次卷积操作,得到图G的高层特征表示;
将高层特征表示和基函数数目送入全连接网络进行拟合,得到预测的计算机时。
7.如权利要求6所述的方法,其特征在于,对点嵌入执行多次卷积操作,得到图G的高层特征表示的方法为:
第t次的卷积操作由消息函数Mt和顶点更新函数Ut定义,顶点v的隐状态
Figure FDA0002490266020000021
由消息
Figure FDA0002490266020000022
更新,则卷积操作表示为:
Figure FDA0002490266020000023
Figure FDA0002490266020000024
其中,N(v)表示顶点v的邻域,Mt定义为M(hv,hw,eew)=A(evw)hw,w表示顶点,hw表示顶点w的隐状态,A(evw)是一个边网络,evw表示顶点v和w连结成的边向量,将边向量evw映射为d×d的矩阵,顶点更新函数Ut为门控循环单元;
利用set2set模型R得到图G的高层特征表示
Figure FDA0002490266020000025
Figure FDA0002490266020000026
8.如权利要求1所述的方法,其特征在于,MGCN模型预测分子性质的步骤包括:
根据分子及其分子片的结构信息将分子建模为图G的形式,将图G的顶点向量集合和边向量集合作为输入,其中每个顶点向量的分量保存该顶点对应原子的原子类型、是否在芳环上以及杂化类型,每个边向量保存这条边对应的化学键的类型以及键长;
将顶点向量集合和边向量集合转化为顶点嵌入矩阵和边嵌入矩阵,将键长转化为距离张量,该张量的分量代表原子之间的距离;
利用构建为层级结构的形式的交互层得到图G的高层特征表示;
将高层特征表示和基函数数目送入全连接网络进行拟合,得到预测的计算机时。
9.如权利要求8所述的方法,其特征在于,利用交互层得到图G的高层特征表示的方法为:
记第l层交互层输出的边状态为
Figure FDA0002490266020000031
顶点状态为
Figure FDA0002490266020000032
则:
Figure FDA0002490266020000033
Figure FDA0002490266020000034
其中,N表示所有分子体系中所有的分子,dij表示原子i和j之间的距离;he是边状态更新函数,具体形式为:
Figure FDA0002490266020000035
其中,η是一个常量,Wue是一个权重矩阵,
Figure FDA0002490266020000036
代表逐元素相加,⊙代表逐元素相乘;
其中,hv是顶点状态更新函数,具体形式为:
Figure FDA0002490266020000037
其中,,v为图中表示原子的顶点,u为高斯径向基里面的点;f表示函数,fa、fd、fe分别表示有关顶点、距离、边的函数;M(x)代表一层线性网络,为全连接层,其形式为M(x)=Wx+b,W是权重矩阵,x表示W后小括号中内容,b表示常数项;
将T个交互层的输出
Figure FDA0002490266020000038
与初始的顶点状态
Figure FDA0002490266020000039
拼接起来,得到向量ai
则图G的高层特征表示g:
Figure FDA00024902660200000310
其中,r表示MGCN模型最后的readout层里的权重矩阵;σ代表softplus函数,为激活函数。
10.一种大分子及团簇体系分块计算负载均衡系统,其特征在于,包括:
输入模块,负责将待预测分子的分子及其分子片的结构信息、收敛策略、泛函和基组作为输入信息进行输入;
预测模块,包括机器学习模型,该机器学习模型包括随机森林RF模型、双向长短期记忆网络Bi-LSTM模型、消息传递神经网络MPNN模型和多层图卷积神经网络MGCN模型中的一个或多个;负责选取若干种已知结构的分子的收敛策略、泛函和基组作为训练数据,来训练机器学习模型,然后将输入信息输入到机器学习模型中来预测计算机时;其中,RF模型根据分子及其分子片的结构信息和基函数数目进行预测,Bi-LSTM模型根据独热形式的分子及其分子片的结构信息和基函数数目进行预测,MPNN模型根据分子及其分子片的结构信息进行预测,MGCN模型根据分子及其分子片的结构信息进行预测;
线性规划模块,负责根据计算机时数据,采用线性规划模型对各个分子片需要的算力进行统筹规划,该线性规划模型的约束条件是计算集群的核心和线程总数目,目标函数为各个分子片所需的实际计算时间尽量接近;
输出模块,负责接收线性规划模块的规划结果,并将结果输出和保存。
CN202010403157.4A 2020-05-13 2020-05-13 大分子及团簇体系分块计算负载均衡方法及系统 Active CN111710376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010403157.4A CN111710376B (zh) 2020-05-13 2020-05-13 大分子及团簇体系分块计算负载均衡方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010403157.4A CN111710376B (zh) 2020-05-13 2020-05-13 大分子及团簇体系分块计算负载均衡方法及系统

Publications (2)

Publication Number Publication Date
CN111710376A true CN111710376A (zh) 2020-09-25
CN111710376B CN111710376B (zh) 2023-04-07

Family

ID=72537372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010403157.4A Active CN111710376B (zh) 2020-05-13 2020-05-13 大分子及团簇体系分块计算负载均衡方法及系统

Country Status (1)

Country Link
CN (1) CN111710376B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735540A (zh) * 2020-12-18 2021-04-30 深圳先进技术研究院 一种分子优化方法、系统、终端设备及可读存储介质
CN113140267A (zh) * 2021-03-25 2021-07-20 北京化工大学 一种基于图神经网络的定向分子生成方法
CN113344175A (zh) * 2021-04-29 2021-09-03 山东师范大学 一种团簇能量预测方法及系统
CN115718263A (zh) * 2023-01-09 2023-02-28 北京科技大学 基于注意力的锂离子电池日历老化预测模型和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033738A (zh) * 2018-07-09 2018-12-18 湖南大学 一种基于深度学习的药物活性预测方法
CN109411028A (zh) * 2018-09-27 2019-03-01 大连大学 基于分子自由度深度学习计算水分子能量的方法
CN109979541A (zh) * 2019-03-20 2019-07-05 四川大学 基于胶囊网络的药物分子药代动力学性质和毒性预测方法
US20190272468A1 (en) * 2018-03-05 2019-09-05 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Spatial Graph Convolutions with Applications to Drug Discovery and Molecular Simulation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190272468A1 (en) * 2018-03-05 2019-09-05 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Spatial Graph Convolutions with Applications to Drug Discovery and Molecular Simulation
CN109033738A (zh) * 2018-07-09 2018-12-18 湖南大学 一种基于深度学习的药物活性预测方法
CN109411028A (zh) * 2018-09-27 2019-03-01 大连大学 基于分子自由度深度学习计算水分子能量的方法
CN109979541A (zh) * 2019-03-20 2019-07-05 四川大学 基于胶囊网络的药物分子药代动力学性质和毒性预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
廖康等: "大分子和凝聚相体系的快速量子化学计算:普适的基于能量的分块方法的发展和应用", 《科学通报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735540A (zh) * 2020-12-18 2021-04-30 深圳先进技术研究院 一种分子优化方法、系统、终端设备及可读存储介质
CN112735540B (zh) * 2020-12-18 2024-01-05 深圳先进技术研究院 一种分子优化方法、系统、终端设备及可读存储介质
CN113140267A (zh) * 2021-03-25 2021-07-20 北京化工大学 一种基于图神经网络的定向分子生成方法
CN113140267B (zh) * 2021-03-25 2024-03-29 北京化工大学 一种基于图神经网络的定向分子生成方法
CN113344175A (zh) * 2021-04-29 2021-09-03 山东师范大学 一种团簇能量预测方法及系统
CN115718263A (zh) * 2023-01-09 2023-02-28 北京科技大学 基于注意力的锂离子电池日历老化预测模型和方法
CN115718263B (zh) * 2023-01-09 2023-04-07 北京科技大学 基于注意力的锂离子电池日历老化预测模型和方法

Also Published As

Publication number Publication date
CN111710376B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111710376B (zh) 大分子及团簇体系分块计算负载均衡方法及系统
Alexandrov et al. Gluonts: Probabilistic and neural time series modeling in python
Hancer et al. Pareto front feature selection based on artificial bee colony optimization
CN113544711B (zh) 用于使用聚类收缩的混合算法系统和方法
Li et al. Development and investigation of efficient artificial bee colony algorithm for numerical function optimization
WO2019118299A1 (en) Evolving recurrent networks using genetic programming
CN108875809A (zh) 联合attention机制与神经网络的生物医学实体关系分类方法
CN109325231A (zh) 一种多任务模型生成词向量的方法
CN101546290B (zh) 提高面向对象型软件中类阶层质量预测准确度的方法
CN105184368A (zh) 一种分布式极限学习机优化集成框架方法系统及方法
CN110659367B (zh) 文本分类号的确定方法、装置以及电子设备
CN114816997B (zh) 一种基于图神经网络与双向gru特征抽取的缺陷预测方法
CN112464996A (zh) 基于LSTM-XGBoost的智能电网入侵检测方法
Ganguly Cellular automata evolution: theory and applications in pattern recognition and classification
Zaragoza et al. A two-step method to learn multidimensional Bayesian network classifiers based on mutual information measures
Lazar et al. Accelerating the inference of the Exa. TrkX pipeline
CN117747012A (zh) 一种晶体性质预测方法、装置、计算机设备和储存介质
CN117079744A (zh) 含能分子人工智能设计方法
CN113517045A (zh) 一种基于路径生成的电子病历icd代码预测方法及预测系统
Zheng et al. Label-dividing gated graph neural network for hierarchical text classification
CN116959591A (zh) 基于跨模态模型的靶点信息处理方法、装置、设备及介质
US20230012643A1 (en) Method for predicting c-axis length of lithium compound crystal structure, method for building learning model, and system for predicting crystal structure having maximum c-axis length
CN114372634B (zh) 基于神经网络不平衡优化的短期风电功率预测方法及系统
Xia et al. Efficient synthesis of compact deep neural networks
Zhang et al. Design automation for fast, lightweight, and effective deep learning models: A survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant