CN113971992B - 针对分子属性预测图网络的自监督预训练方法与系统 - Google Patents
针对分子属性预测图网络的自监督预训练方法与系统 Download PDFInfo
- Publication number
- CN113971992B CN113971992B CN202111245984.6A CN202111245984A CN113971992B CN 113971992 B CN113971992 B CN 113971992B CN 202111245984 A CN202111245984 A CN 202111245984A CN 113971992 B CN113971992 B CN 113971992B
- Authority
- CN
- China
- Prior art keywords
- functional group
- functional groups
- training
- prediction
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 46
- 125000000524 functional group Chemical group 0.000 claims abstract description 250
- 239000000126 substance Substances 0.000 claims abstract description 33
- 230000000873 masking effect Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 24
- 238000010586 diagram Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 6
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 238000012805 post-processing Methods 0.000 claims description 4
- 241000631130 Chrysophyllum argenteum Species 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 2
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000003775 Density Functional Theory Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 241000711573 Coronaviridae Species 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- -1 carrier Substances 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 230000037351 starvation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种针对分子属性预测图网络的自监督预训练方法与系统,利用化学领域的知识划分分子中的官能团并构建相应的官能团树,然后基于官能团树设计官能团生成的自监督任务,使得图网络学习到官能团的结构和语义信息,得到更好的分子表示;并且,结合原子层级的遮掩预测任务进行多任务学习,相比于现有技术而言,极大地提高了下游分子属性预测的准确性。
Description
技术领域
本发明涉及机器学习和数据挖掘领域,尤其涉及一种针对分子属性预测图网络的自监督预训练方法与系统。
背景技术
分子属性预测对于药物合成和筛选具有重要的意义,例如对于新冠病毒特效药的筛选。通常需要预测的分子属性包括分子的化学能,药物活性和毒性等。传统的分子属性预测方法例如密度泛函理论(DFT)耗时且昂贵,通常需要若干个小时才能预测一个分子的相关属性。目前,数据驱动的分子属性预测方法可以大大减少预测时间,比较有代表性的一类方法是图网络(GNN)。通常对于分子属性预测任务,可以把输入的分子建模成图结构,即点代表原子,边代表化学键。图网络的输出为希望预测的分子属性。然而训练图网络预测分子属性需要大量有标签分子数据(带有分子属性数据的分子),否则训练得到的图网络容易过拟合。
设计针对图网络的自监督预训练是缓解有标签分子数据匮乏的一种方法。自监督预训练不需要大量有标签数据,可以利用设计的对比,生成或者预测任务在大量无标签分子数据上先学习到分子表示,然后在下游分子属性预测任务上微调。这方面的研究工作可以分为:
1)基于对比学习的自监督预训练。
这类方法将对比学习扩展到图领域。对于输入的一个图结构,可以通过采样边,遮住结点等方法得到同一个图结构的不同变种。对比学习尝试最大化同一个图结构不同变种之间的互信息,降低与其他不同图结构之间的互信息。
2)基于图生成的自监督预训练。
这类方法主要基于图生成的任务进行自监督预训练。通常可以遮住图结构中的部分边和点,通过预训练的图网络去补全遮住的部分。自监督预训练的损失函数可以设计为重构的图结构和原图结构的差异。
3)基于预测的自监督预训练。
这类方法利用图结构本身的一些性质进行自监督预训练。例如对于分子图,原子的属性,邻接结点信息可以作为伪标签。预训练的图网络被要求预测这些伪标签,从而可以更好的学习到分子图的结构和语义信息。
相比于直接在下游任务上训练,自监督预训练不容易过拟合,可以更好的扩展到各种分子的属性预测。但是,目前的分子属性预测图网络的自监督预训练没有考虑到分子官能团的信息,只考虑了分子层级或者原子层级的相关自监督任务,导致无法有效利用化学领域知识帮助分子属性预测图网络的自监督预训练。
发明内容
本发明的目的是提供一种针对分子属性预测图网络的自监督预训练方法与系统,能够有效提高预训练图网络在下游分子属性预测任务上的表现。
本发明的目的是通过以下技术方案实现的:
一种针对分子属性预测图网络的自监督预训练方法,包括:
利用化学领域的知识,划分预训练分子数据集中分子的官能团,并构建官能团树;
利用构建的官能团树,建立官能团生成的自监督预训练任务,官能团生成的每一步都均进行拓扑预测和官能团种类预测;
建立原子层级的遮掩预测任务,并结合官能团生成的自监督预训练任务,构建多层级的自监督与训练任务,使用多任务学习的方式进行训练。
一种针对分子属性预测图网络的自监督预训练系统,用于实现前所述的方法,该系统包括:
官能团树构建模块,用于利用化学领域的知识,划分预训练分子数据集中分子的官能团,并构建官能团树;
官能团生成的自监督预训练任务建立模块,用于利用构建的官能团树,建立官能团生成的自监督预训练任务,官能团生成的每一步都均进行拓扑预测和官能团种类预测;
多任务学习模块,用于建立原子层级的遮掩预测任务,并结合官能团生成的自监督预训练任务,构建多层级的自监督与训练任务,使用多任务学习的方式进行训练。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,利用化学领域的知识划分分子中的官能团并构建相应的官能团树,然后基于官能团树设计官能团生成的自监督任务,使得图网络学习到官能团的结构和语义信息,得到更好的分子表示;并且,结合原子层级的遮掩预测任务进行多任务学习,相比于现有技术而言,极大地提高了下游分子属性预测的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种针对分子属性预测图网络的自监督预训练方法的流程图;
图2为本发明实施例提供的一种图网络自监督预训练的框架图;
图3为本发明实施例提供的一种分子官能团划分示意图;
图4为本发明实施例提供的一种分子官能团生成示意图;
图5为本发明实施例提供的一种针对分子属性预测图网络的自监督预训练系统的示意图;
图6为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的一种针对分子属性预测图网络的自监督预训练方法进行详细描述,图1~图2分别为该方法的流程图与相应的框架图。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
如图1所示,一种针对分子属性预测图网络的自监督预训练方法,主要包括如下步骤:
步骤1、利用化学领域的知识,划分预训练分子数据集中分子的官能团,并构建官能团树。
本发明实施例中,分子数据集包含若干分子,每一分子使用分子图形式表示:G=(V,E),其中,V是分子图的结点集合,E是分子图的边集合。
本发明实施例中,可以利用rdkit工具将获取自分子数据库的分子smiles表示转换得到分子图,所述分子数据库可以通过互联网获取。
本发明实施例中,利用化学领域的知识对分子图进行划分,利用划分的官能团构建官能团树,所述官能团树表示为:其中,/>是官能团树的结点集合,ε是官能团树的边集合;/>表示划分官能团后得到的官能团词典,结点Mi=(Vi,Ei)为一个官能团,且为分子图G的一个子图,Vi为结点Mi中的结点集合,Ei为结点Mi中的边集合,i=1,…,n,n为官能团树的结点数目。
为了方便官能团生成任务,划分的官能团满足如下要求:1)在官能团树中,所有官能团树的结点的并集等于分子图G,形式上,∪iVi=V并且∪iEi∪ε=E。2)在官能团树中,不同结点之间没有重叠,表示为:/>3)划分的结点保留语义信息,即与化学领域的官能团相同或类似。4)产生的官能团词典大小符合设定要求,具体大小要求可根据实际情况或者经验自行设定。
本发明实施例中,所述化学领域的知识主要包括基于化学反应模板规则的BRICS算法和自定义的两条后处理方式,其中:
1)使用基于化学反应模板规则的BRICS算法断开分子中的一些化学键,BRICS算法基于逆合成化学反应,定义了16条规则。当分子与BRICS中的模板对应上时,对应的化学键将被断开。
2)引入自定义的两条后处理方式,主要目的是去除冗余的官能团,控制官能团词典大小,包括:a)当一个化学键连接的两个原子,一个在环上,一个不在环上时,断开化学键;b)当不在环上的原子有三个或者三个以上邻居时,断开与邻居间的化学键,并且选取所述不在环上的原子作为新的官能团。
如图3所示,提供了一种分子官能团划分示意图。图3的上半部分展示了分子官能团划分的三个步骤,分别为BRICS分解(BRICS Fragmentation),进一步分解(FurtherDecomposition)和官能团树的构造(Motif Tree Construction)。图3下半部分展示的是对分子数据集划分官能团后得到的官能团词典(Motif Vocabulary)。
步骤2、利用构建的官能团树,建立官能团生成的自监督预训练任务,官能团生成的每一步都均进行拓扑预测和官能团种类预测。
如图2所示,官能团生成的自监督预训练任务对应左侧上半部分(Motif layer);中间部分(Topology Prediction)与右侧部分(Motif Prediction)分别对应拓扑预测与官能团种类预测,其中的问号表示待预测的拓扑新与官能团种类信息。
本步骤优选实施方式如下:
1、利用构建的官能团树,建立官能团生成的自监督预训练任务。
官能团通常对于分子属性具有决定作用,希望可以将官能团的信息考虑到分子属性预测图网络的自监督预训练中。建立官能团生成的自监督预训练任务的目的是让预训练图网络学习到官能团的分布情况,从而可以在简单微调后扩展到下游分子属性预测任务。
设定预训练图网络为fθ,其中,θ为图网络的模型参数;官能团生成的自监督预训练任务的目的是最大化官能团树的似然,表示为其中,表示官能团树的似然,θ*表示预训练后的模型参数。
对于每个分子,将对应官能团树的生成分解为:加入新的官能团,将新的官能团与已经存在的官能团连边;使用π表示官能团的生成顺序,则官能团树的似然等于所有生成顺序π下官能团树生成概率的期望:其中,/>表示在生成顺序π下官能团树生成概率,/>和επ表示生成顺序π排列下的官能团和连边集合。
当所有的官能团的生成顺序具有相同的概率时(此处主要是为了便于理解相关原理,因此,简化了相关的流程,假设所有的生成顺序π具有相同的概率),此时可以省略符号π,则对于给定的一个官能团的生成顺序,生成一个官能团树的概率能够分解为:等式右侧表示在生成步i,基于已生成官能团和连边ε<i来预测下一个官能团/>(相当于前文介绍的Mi)以及官能团与已有官能团的连边εi,/>表示所需生成的官能团数目。
2、官能团生成的顺序包括深度优先和广度优先。在生成官能团的每一步,预训练图网络需要做一次拓扑预测和一次官能团种类预测。
在官能团生成的过程中,需要选择合适的生成顺序。如图4所示,本发明实施例中主要考虑了两种生成顺序:深度优先和广度优先;图4中,第一行为深度优先顺序;第二行为广度优先顺序。
本发明实施例中,在官能团生成的自监督预训练任务中,通过一定的顺序生成一系列的官能团,从而构成官能团树。在从无到有生成官能团树的过程,选择规范顺序(canonical order)中第一个原子所在的官能团作为起始官能团,其中,所述第一个原子所在的官能团通过前述步骤1构建的官能团树确定;之后,按照深度优先或者广度优先顺序生成官能团,即选择任一方式即可,当然,也可以根据实际情况使用其他已有方式。
本领域技术人员可以理解,规范顺序是化学领域表示分子中原子顺序通用的标准,本发明不做赘述。
使用深度优先方式时,对于每一个访问的官能团,进行拓扑预测与官能团种类预测,包括:当前官能团是否有孩子结点能够扩展,即在当前官能团基础上能否生成新的官能团,若是,则预测新的官能团的种类并递归重复上述过程,其中,访问官能团表示在将要在相应官能团的基础上预测生成新的官能团;使用广度优先方式时,逐层生成官能团,在第k层,预测新生成的官能团,如果第k层的所有官能团都已生成,开始生成下一层的官能团,每次生成新的官能团后均进行官能团种类预测。深度优先与广度优先中拓扑预测与官能团种类预测的方式都是相同的,具体在后文提供相关的计算方式。
在每步官能团的拓扑预测与官能团种类预测时,当前官能团将收到其他已经生成的官能团的消息,所述消息包含已生成官能团和连边的相关信息,基于收到的消息进行预测;在官能团树生成的过程中,消息hi,j沿着官能团树的边传播;令为生成步j时消息的集合,在生成步j时访问官能团/>的嵌入表示为xi;xi可以通过池化官能团/>中的原子的嵌入表示得到。
所述消息hi,j通过之前的消息得到,表示为:
其中,hk,i表示官能团传递给官能团/>的消息,/>表示官能团/>与/>属于集合/>中存在的官能团对,hi,j表示官能团/>传递给官能团/>的消息;GRU表示门控循环单元,本发明实施例中,为官能团树上的消息传播做了改进,所涉及的计算过程为:
zi,j=σ(Wzxi+Uzsi,j+bz)
rk,i=σ(Wrxi+Urhk,i+br)
其中,si,j、zi,j、rk,i、为中间参数,/>表示官能团/>为官能团/>的邻居中除去官能团/>的任一官能团,Wz、Uz、Wr、Ur、W、U代表相应的权重矩阵,bz、br代表相应的偏置向量,可以通过训练学习到。σ(.)代表Sigmoid激活函数。
在当前时间步j,当访问到官能团时,需要预测是否生成新的官能团,结合消息和官能团的嵌入表示,通过包含隐藏层的第一神经网络加上sigmoid函数进行拓扑预测:
其中,d为第一神经网络中隐藏层的维度,Ud、表示权重矩阵;σ(.)表示sigmoid函数;τ(.)表示ReLU激活函数;pj表示拓扑预测结果,即有新的官能团要生成的概率;
当在官能团的基础上生成新的官能团/>后,通过包含隐藏层的第二神经网络加上softmax函数预测新的官能团/>的种类:
qj=softmax(Ulτ(Wlhij))
其中,qj是在官能团词典上的分布概率,l为第二神经网络中隐藏层的维度;Ul、Wl表示权重矩阵。
在训练过程中,每一步做完拓扑和官能团标签预测之后,将它们替代为事实的拓扑结构和官能团(即步骤1构建官能团树中的相应信息),这样模型在预测后续的拓扑结构和官能团标签时可以基于正确的历史信息。
步骤3、建立原子层级的遮掩预测任务,并结合官能团生成的自监督预训练任务,构建多层级的自监督与训练任务,使用多任务学习的方式进行训练。
本发明实施例中,所述原子层级的遮掩预测任务包括:随机采样若干原子和化学键并遮掩住它们的类型,使用预训练的图网络得到相应的嵌入表示,训练一层全连接神经网络,根据输入的嵌入表示预测相应原子或者化学键的类型。如图3所示,原子层级的遮掩预测任务对应左侧下半部分(Atom layer)。
为了在自监督预训练过程中同时考虑到原子层级和官能团层级的信息,考虑了多任务学习并在预训练过程中优化如下损失函数:
其中,表示官能团生成的自监督预训练任务的损失函数,/>与/>分别为原子层级的遮掩预测任务中原子和化学键的预测损失函数(交叉熵损失函数),λ1、λ2与λ3为相应损失函数的权重。
本发明实施例中,官能团生成的自监督预训练任务的损失函数表示为:
其中,与/>分别为拓扑预测和官能团种类预测的损失函数(均可以为交叉熵损失函数),pj与qj分别为拓扑预测和官能团种类预测结果,/>与/>为对应的真实拓扑与标签值,/>表示没有孩子节点(即当前访问的官能团不能生成新的官能团),表示有孩子节点(即当前访问的官能团能够生成新的官能团)。
训练阶段,为了最小化上述损失函数可以采用MGDA-UB算法求解上述多任务问题,在每一步使用Frank-Wolfe算法计算权重λ1、λ2与λ3;可以采用Adams优化器来后向更新模型参数,上述过程能够通过Pytorch自动求解,所涉及的流程可通过常规技术实现,此处不做赘述。相比于依次训练原子层级和官能团层级的自监督任务,多任务学习的形式可以综合考虑多层级信息,同时避免类似持续学习中的灾难遗忘问题。
在上述预训练的基础上,本发明实施例还包括:利用预训练好的图网络,在下游分子属性预测任务中微调,预测具体分子属性。从模型训练的角度来考虑,如果要微调一个模型,就必须有训练集和测试集。本发明实施例中,将分子属性预测数据集中的数据随机分成训练集和测试集,或者使用scaffold split(根据分子结构相似性划分数据集,同一个数据集中的分子结构更加相似)按照分子结构相似性划分训练集和测试集;微调时,利用训练集对预训练好的图网络的模型参数进行更新,利用测试集对微调后的图网络进行测试。同样的,微调过程可以使用Adams优化器来后向更新模型参数,可以通过Pytorch自动求解,所涉及的流程可通过常规技术实现,此处不做赘述。
本发明实施例上述方案,利用化学领域的知识划分分子中的官能团并构建相应的官能团树,然后基于官能团树设计官能团生成的自监督任务,使得图网络学习到官能团的结构和语义信息,得到更好的分子表示;并且,结合原子层级的遮掩预测任务进行多任务学习,相比于现有技术而言,极大地提高了下游分子属性预测的准确性。
本发明另一实施例还提供一种针对分子属性预测图网络的自监督预训练系统,其主要用于实现前述实施例提供的方法,如图5所示,该系统主要包括:
官能团树构建模块,用于利用化学领域的知识,划分预训练分子数据集中分子的官能团,并构建官能团树;
官能团生成的自监督预训练任务建立模块,用于利用构建的官能团树,建立官能团生成的自监督预训练任务,官能团生成的每一步都均进行拓扑预测和官能团种类预测;
多任务学习模块,用于建立原子层级的遮掩预测任务,并结合官能团生成的自监督预训练任务,构建多层级的自监督与训练任务,使用多任务学习的方式进行训练。
需要说明的是,上述系统所涉及的主要技术细节在之前的方法实施例中做了详细说明,故不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
本发明另一实施例还提供一种处理设备,如图6所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
本发明另一实施例还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (6)
1.一种针对分子属性预测图网络的自监督预训练方法,其特征在于,包括:
利用化学领域的知识,划分预训练分子数据集中分子的官能团,并构建官能团树;
利用构建的官能团树,建立官能团生成的自监督预训练任务,官能团生成的每一步都均进行拓扑预测和官能团种类预测;
建立原子层级的遮掩预测任务,并结合官能团生成的自监督预训练任务,构建多层级的自监督与训练任务,使用多任务学习的方式进行训练;
所述利用化学领域的知识,划分预训练分子数据集中分子的官能团,并构建官能团树包括:
分子数据集中的每一分子使用分子图形式表示:G=(V,E),其中,V是分子图的结点集合,E是分子图的边集合;
利用化学领域的知识对分子图进行划分,利用划分的官能团构建官能团树,所述官能团树表示为:其中,/>是官能团树的结点集合,ε是官能团树的边集合;/>表示划分官能团后得到的官能团词典,结点Mi=(Vi,Ei)为一个官能团,且为分子图G的一个子图,Vi为结点Mi中的结点集合,Ei为结点Mi中的边集合,,i=1,…,n,n为官能团树的结点数目;
所述化学领域的知识包括:基于化学反应模板规则的BRICS算法和自定义的两条后处理方式;其中:
使用基于化学反应模板规则的BRICS算法断开分子中的一些化学键,当分子与BRICS中的模板对应上时,对应的化学键将被断开;
自定义的两条后处理方式包括:当一个化学键连接的两个原子,一个在环上,一个不在环上时,断开化学键;当不在环上的原子有三个或者三个以上邻居时,断开与邻居间的化学键,并且选取所述不在环上的原子作为新的官能团;
所述官能团生成的自监督预训练任务,能够使预训练的图网络学习到官能团的分布情况;设定预训练图网络为fθ,其中,θ为图网络的模型参数;官能团生成的自监督预训练任务的目的是最大化官能团树的似然,表示为 表示官能团树的似然,θ*表示预训练后的模型参数;
对于每个分子,将对应官能团树的生成分解为,加入新的官能团,将新的官能团与已经存在的官能团连边;使用π表示官能团的生成顺序,则官能团树的似然概率等于所有生成顺序下官能团树生成概率的期望: 表示在生成顺序π下官能团树生成概率,/>和επ表示生成顺序π排列下的官能团和连边集合;
当所有的官能团的生成顺序具有相同的概率时,省略符号π,则对于给定的一个官能团的生成顺序,生成一个官能团树的概率能够分解为:在生成步i,基于已生成官能团/>和连边ε<i来预测下一个官能团/>以及官能团/>与已有官能团的连边εi;
所述官能团生成的自监督预训练任务中,采用深度优先或者广度优先的方式生成官能团;
基于构建的官能团树,选择规范顺序中第一个原子所在的官能团作为起始官能团;
使用深度优先方式时,对于每一个访问过的官能团,进行拓扑预测与官能团种类预测,包括:当前官能团是否有孩子结点能够扩展,即在当前官能团基础上能否生成新的官能团,若是,则预测新的官能团的标签并递归,其中,访问官能团表示在将要在相应官能团的基础上预测生成新的官能团;使用广度优先方式时,逐层生成官能团,在第k层,预测新生成的官能团,如果第k层的所有官能团都已生成,开始生成下一层的官能团,每次生成新的官能团后均进行官能团种类预测;
在每步官能团的拓扑预测与官能团种类预测时,当前官能团将收到其他已经生成的官能团的消息,所述消息包含已生成官能团和连边的相关信息,基于收到的消息进行预测;在官能团树生成的过程中,消息hi,j沿着官能团树的边传播;令为生成步j时消息的集合,在生成步j时访问的官能团/>的嵌入表示为xi;所述消息hi,j通过之前的消息得到,表示为:
其中,hk,i表示官能团传递给官能团/>的消息,/>表示官能团/>与/>属于集合中存在的官能团对,hi,j表示官能团/>传递给官能团/>的消息;GRU表示门控循环单元,所涉及的计算过程为:
zi,j=σ(Wzxi+Uzsi,j+bz)
rk,i=σ(Wrxi+Urhk,i+br)
其中,si,j、zi,j、rk,i、为中间参数,/>表示官能团/>为官能团/>的邻居中除去官能团/>的任一官能团,Wz、Uz、Wr、Ur、W、U代表相应的权重矩阵,bz、br代表相应的偏置向量,σ(.)代表Sigmoid激活函数;
在当前时间步j,当访问到官能团时,需要预测是否生成新的官能团,结合消息和官能团的嵌入表示,通过包含隐藏层的第一神经网络加上sigmoid函数进行拓扑预测:
其中,d为第一神经网络中隐藏层的维度,Ud、表示权重矩阵;σ(.)表示sigmoid函数;pj表示拓扑预测结果,即有新的官能团要生成的概率;
当在官能团的基础上生成新的官能团/>后,通过包含隐藏层的第二神经网络加上softmax函数预测新的官能团/>的种类:
qj=softmax(Ulτ(Wlhij))
其中,qj是在官能团词典上的分布概率,l为第二神经网络中隐藏层的维度。
2.根据权利要求1所述的一种针对分子属性预测图网络的自监督预训练方法,其特征在于,使用多任务学习的方式进行训练时,损失函数表示为:
其中,表示官能团生成的自监督预训练任务的损失函数,/>与/>分别为原子层级的遮掩预测任务中原子和化学键的预测损失函数,λ1、λ2与λ3为相应损失函数的权重;所述原子层级的遮掩预测任务包括:随机采样若干原子和化学键并遮掩住它们的类型,使用预训练的图网络得到相应的嵌入表示,训练一层全连接神经网络,根据输入的嵌入表示预测相应原子或者化学键的类型;
官能团生成的自监督预训练任务的损失函数表示为:
其中,pj与qj分别为拓扑预测和官能团种类预测结果,与/>为对应的真实拓扑与标签值。
3.根据权利要求1所述的一种针对分子属性预测图网络的自监督预训练方法,其特征在于,该方法还包括:利用预训练好的图网络,在下游分子属性预测任务中微调,预测具体分子属性;
将分子属性预测数据集中的数据随机分成训练集和测试集,或者使用scaffoldsplit,按照分子结构相似性划分训练集和测试集;微调时,利用训练集对预训练好的图网络的模型参数进行更新,利用测试集对微调后的图网络进行测试。
4.一种针对分子属性预测图网络的自监督预训练系统,其特征在于,用于实现权利要求1~3任一项所述的方法,该系统包括:
官能团树构建模块,用于利用化学领域的知识,划分预训练分子数据集中分子的官能团,并构建官能团树;
官能团生成的自监督预训练任务建立模块,用于利用构建的官能团树,建立官能团生成的自监督预训练任务,官能团生成的每一步都均进行拓扑预测和官能团种类预测;
多任务学习模块,用于建立原子层级的遮掩预测任务,并结合官能团生成的自监督预训练任务,构建多层级的自监督与训练任务,使用多任务学习的方式进行训练。
5.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~3任一项所述的方法。
6.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111245984.6A CN113971992B (zh) | 2021-10-26 | 2021-10-26 | 针对分子属性预测图网络的自监督预训练方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111245984.6A CN113971992B (zh) | 2021-10-26 | 2021-10-26 | 针对分子属性预测图网络的自监督预训练方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113971992A CN113971992A (zh) | 2022-01-25 |
CN113971992B true CN113971992B (zh) | 2024-03-29 |
Family
ID=79588389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111245984.6A Active CN113971992B (zh) | 2021-10-26 | 2021-10-26 | 针对分子属性预测图网络的自监督预训练方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113971992B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114944204A (zh) * | 2022-05-13 | 2022-08-26 | 北京字节跳动网络技术有限公司 | 用于管理分子预测的方法、装置、设备和介质 |
CN115831260B (zh) * | 2023-02-16 | 2023-05-12 | 天津大学 | 一种小样本分子毒性预测方法 |
CN116913395B (zh) * | 2023-09-13 | 2023-11-28 | 青岛虹竹生物科技有限公司 | 一种构建小分子肽数据库的数字化方法 |
CN117576710B (zh) * | 2024-01-15 | 2024-05-28 | 西湖大学 | 用于大数据分析的基于图生成自然语言文本的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020167667A1 (en) * | 2019-02-11 | 2020-08-20 | Flagship Pioneering Innovations Vi, Llc | Machine learning guided polypeptide analysis |
WO2021007812A1 (zh) * | 2019-07-17 | 2021-01-21 | 深圳大学 | 一种深度神经网络超参数优化方法、电子设备及存储介质 |
CN112669916A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大学 | 一种基于对比学习的分子图表示学习方法 |
CN113470761A (zh) * | 2021-09-03 | 2021-10-01 | 季华实验室 | 发光材料性质预测方法、系统、电子设备和存储介质 |
-
2021
- 2021-10-26 CN CN202111245984.6A patent/CN113971992B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020167667A1 (en) * | 2019-02-11 | 2020-08-20 | Flagship Pioneering Innovations Vi, Llc | Machine learning guided polypeptide analysis |
WO2021007812A1 (zh) * | 2019-07-17 | 2021-01-21 | 深圳大学 | 一种深度神经网络超参数优化方法、电子设备及存储介质 |
CN112669916A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大学 | 一种基于对比学习的分子图表示学习方法 |
CN113470761A (zh) * | 2021-09-03 | 2021-10-01 | 季华实验室 | 发光材料性质预测方法、系统、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
张越 ; 夏鸿斌 ; .基于弱监督预训练CNN模型的情感分析方法.计算机工程与应用.2018,(13),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113971992A (zh) | 2022-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113971992B (zh) | 针对分子属性预测图网络的自监督预训练方法与系统 | |
Wang et al. | Multilevel wavelet decomposition network for interpretable time series analysis | |
Robinson et al. | Non-stationary dynamic Bayesian networks | |
Saigo et al. | Partial least squares regression for graph mining | |
Zhi-Qiang | Causation, bayesian networks, and cognitive maps | |
EP4227949A1 (en) | Retrosynthesis prediction method for compound molecule, and related apparatus | |
CN113782109A (zh) | 基于蒙特卡洛树的反应物推导方法及逆向合成推导方法 | |
Sanchez et al. | Diffusion models for causal discovery via topological ordering | |
Donate et al. | Evolutionary optimization of sparsely connected and time-lagged neural networks for time series forecasting | |
Kang et al. | Urban traffic travel time short‐term prediction model based on spatio‐temporal feature extraction | |
Connolly | Constructing hidden variables in baysesian networks via conceptual clustering | |
Schrimpf et al. | A flexible approach to automated RNN architecture generation | |
Bacciu et al. | Graph generation by sequential edge prediction. | |
Zhang et al. | Ctfnet: Long-sequence time-series forecasting based on convolution and time–frequency analysis | |
CN115730519A (zh) | 一种基于时空势能场的城市人群流动预测系统及其方法 | |
Harada et al. | Dual convolutional neural network for graph of graphs link prediction | |
Chikwendu et al. | A comprehensive survey on deep graph representation learning methods | |
Ponzoni et al. | Explainable artificial intelligence: A taxonomy and guidelines for its application to drug discovery | |
Parri et al. | A hybrid VMD based contextual feature representation approach for wind speed forecasting | |
Yin et al. | Partial orientation and local structural learning of causal networks for prediction | |
Ma et al. | Rethinking sensors modeling: Hierarchical information enhanced traffic forecasting | |
CN112487110A (zh) | 基于网络结构和节点内容的重叠社区演化分析方法及系统 | |
Buzmakov et al. | Efficient mining of subsample-stable graph patterns | |
Song et al. | Finite expression method for learning dynamics on complex networks | |
CN113641791A (zh) | 专家推荐方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |