CN113470761B - 发光材料性质预测方法、系统、电子设备和存储介质 - Google Patents
发光材料性质预测方法、系统、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113470761B CN113470761B CN202111032103.2A CN202111032103A CN113470761B CN 113470761 B CN113470761 B CN 113470761B CN 202111032103 A CN202111032103 A CN 202111032103A CN 113470761 B CN113470761 B CN 113470761B
- Authority
- CN
- China
- Prior art keywords
- luminescent material
- training
- molecular
- property
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000463 material Substances 0.000 title claims abstract description 181
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000012549 training Methods 0.000 claims abstract description 131
- 125000000524 functional group Chemical group 0.000 claims abstract description 61
- 125000004429 atom Chemical group 0.000 claims description 80
- 239000000126 substance Substances 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 5
- 238000005424 photoluminescence Methods 0.000 claims description 5
- 125000004435 hydrogen atom Chemical group [H]* 0.000 claims description 4
- 238000005401 electroluminescence Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 description 10
- 238000012827 research and development Methods 0.000 description 10
- 239000000370 acceptor Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004020 luminiscence type Methods 0.000 description 4
- 238000002844 melting Methods 0.000 description 4
- 230000008018 melting Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000009835 boiling Methods 0.000 description 2
- 238000006862 quantum yield reaction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 230000005281 excited state Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000011368 organic material Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
Landscapes
- Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据处理技术领域,尤其涉及一种发光材料性质预测方法、系统、电子设备和存储介质,发光材料性质预测方法包括:对无标签的发光材料分子数据进行节点层面的预训练,训练结果作为第一编码器;第一编码器对无标签的发光材料分子数据进行编码,标签从无的发光材料分子数据中抽取出发光材料分子中预定义的官能团,对所述官能团进行分组并组成序列,将序列作为自监督学习的标签进行训练,训练结果作为第二编码器;使用所述第二编码器对待预测的发光材料分子数据进行编码,对待预测的发光材料的性质进行预测。本发明通过设计节点层面和图层面的建模方法,让分子结构更好地被表征,解决了现有方法中出现的特征丢失问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种发光材料性质预测方法、系统、电子设备和存储介质。
背景技术
有机电致发光材料(以下简称发光材料)指在电场作用下能发出光的高分子或小分子有机材料。基于电子给体(Donor)和电子受体(Acceptor)形成的有机发光分子在有机电致发光材料领域里具有非常重要的地位。给-受体型有机发光分子特有的电荷转移特性,使其成为调控分子激发态特性的理想体系,基于给体单元和受体单元的分子设计,可实现较小的单线态-三线态能极差,进而实现100%的激子利用率。传统的方法会在实验室由给体和受体合成发光材料,在获得分子的基础上,进而验证分子发光的性质。凭借实验研发人员的个人经验,可以优先选择可能性更大的给体和受体,减少实验的次数。
然而基于传统方法的有机电致发光材料性质检测需要耗费大量的人力、物力、财力,并且极其依靠一些进口设备。比如如果有100个给体和100个受体,则至少有10000中组合方式,依次实验验证需要耗费大量的时间。即使依靠一些研发人员的个人经验能够选出效果更好地给体和受体,但是依靠个人经验的方法不能大范围推广。
随着机器学习技术在全世界范围内的发展,各个研究领域均开始不同程度地应用机器学习技术。面对一些传统的问题,机器学习从统计、数学、计算机的思路出发,为许多传统学科提供了新的思路,并且取得了一定成果,比如遥感领域、医学图像领域、代码安全领域等。所以也出现了一系列基于机器学习方法的预测材料性质的技术。然而这些技术虽然已经引入了深度学习的方法加速材料预测的进度,但是该方法严重依赖有限元模型生成的材料性能关系表,如果待预测的材料性能不具有高质量的数据,则几乎不能预测,不具有推广性。该技术方法的预测准确率只能保持在30%左右,虽然加速了性质预测的速度,但是在预测的精准度方法还有待提升。
综上所述,现有的发光材料性质预测技术具有人工试验成本过高、预测模型过于依赖人工标注、预测准确率过低的缺点,分子结构建模较为粗糙等缺点。
发明内容
本发明的目的在于提供一种发光材料性质预测方法,旨在解决现有技术中预测准确率过低、分子结构建模粗糙的缺陷。
为了实现上述目的,本发明提供的技术方案为:
一种发光材料性质预测方法,包括:
第一预训练步骤:对无标签的发光材料分子数据进行节点层面的预训练,训练结果作为第一编码器;
第二预训练步骤:利用所述第一编码器对无标签的发光材料分子数据进行编码,从无标签的发光材料分子数据中抽取出发光材料分子中预定义的官能团,官能团为化学原子组成的具有预定功能的基团,就是原子集合,对所述官能团进行分组并组成序列,将序列作为自监督学习的标签进行训练,训练结果作为第二编码器;
预测步骤:使用所述第二编码器对待预测的发光材料分子数据进行编码,对待预测的发光材料的性质进行预测。
进一步地,所述第一预训练步骤具体包括以下步骤:
步骤一:选择无标签发光材料中的一个分子,遍历该分子中的所有原子,选出键的数量大于等于2的所有原子作为中心原子组成序列Y,所述序列Y作为所述第一预训练的标签序列;
步骤二:遍历序列Y中的每个原子,选择其中一个原子设为y,以y为中心,抽取y附近的k层近邻和键作为子结构;
步骤三:将抽取出的子结构遮盖掉原子y,剩余部分使用图神经网络进行编码,被遮盖的y原子作为图神经网络训练的标签,剩余部分是指抽取出来的子结构去掉遮盖原子的部分;
步骤四:对所述序列Y中所有的中心原子进行训练,剔除掉不能收敛或者收敛的误差大于预定值的中心原子;
步骤五:对无标签发光材料的所有分子重复所述步骤一至步骤四的步骤,训练出基于节点层面的图模型作为所述第一编码器。
进一步地,所述图神经网络输入的边信息为所述子结构的邻接矩阵,节点信息为子结构中每个原子的类型、形式电荷、连接的氢原子个数、是否为杂化态原子特征组成的特征矩阵。
进一步地,所述k的值为2。
进一步地,所述第二预训练步骤具体包括以下步骤:
步骤一:对无标签的发光材料分子官能团按照发光性质进行分组,根据分组的结果对预训练数据进行模糊分组,选择其中一个分组的发光材料化学分子,作为每一次预训练的数据集;
步骤二:利用所述第一编码器对发光材料化学分子中的每一个原子进行编码,累加每一个原子的编码,作为最终分子层面的编码。
步骤三:抽取出该发光材料化学分子其中一个分组下面所有的官能团,组成序列F,作为分子层面预训练的标签序列。
步骤四:使用多分类模型对步骤二获得的最终分子层面的编码和步骤三获得的官能团分子层面预训练的标签序列进行训练;
步骤五:当一个分组的官能团训练结束时,对得到的图模型进行评估,将评估后的图模型作为第二编码器;
步骤六:选择其他全部分组的官能团逐一重复步骤二至步骤五,其中,每一分组的官能团训练评估后分别获得一个第二编码器。
进一步地,所述预测步骤具体包括以下步骤:
步骤一:根据发光材料性质分组,选择需要预测的发光性质对应的第二编码器,对发光材料分子数据进行编码;
步骤二:把获得的分子编码作为图模型输入,输入多层感知机,把分子性质转换为数值化数据,并且将分子性质转换得到的数值化数据作为图模型的正确的标签;
步骤三:依次传递所述数值化数据进入多层感知机,得到图神经网络的最后实际输出的发光材料分子数据具有该预测的发光性质的第一概率;
步骤四:计算图神经网络的最后实际输出的发光材料分子数据具有该预测的发光性质的第一概率和发光材料分子数据真实具有该预测的发光性质的第二概率之间的误差,判断误差是否在允许范围内;
步骤五:若误差在允许范围内,则进入步骤六,若误差不在允许范围内,则误差传回网络,更新网络参数,返回步骤三;
步骤六:结束训练,对图模型进行评估测试,并且根据测试结果,对图模型的超参数、结构、层数进行修改,得到训练好的图模型;
步骤七:使用训练好的图模型对待预测的发光材料的性质进行预测。
进一步地,所述发光性质包括光致发光性质、电致发光性质和振子强度中的一种或多种。
相应地,还提供一种发光材料性质预测系统,包括:节点预训练系统、图预训练系统和分子性质预测系统;
所述节点预训练系统对无标签的发光材料分子结构进行自监督预训练,建模方法结合发光材料分子结构本身的化学特征,让预训练模型以k近邻为基本单位学习发光材料分子结构特征,训练得到第一编码器;
所述图预训练系统针对发光性质对官能团分组,对不同分组的官能团的化学性质训练不同的预训练模型,并且所述图预训练系统利用所述第一编码器,在预训练的时候添加节点层面的特征,训练得到第二编码器;
所述分子性质预测系统利用所述第二编码器,对发光材料分子进行嵌入编码,然后利用得到的第二编码器对发光材料的性质进行预测。
相应地,还提供一种电子设备,包括存储器和处理器,所述存储器上存储有发光材料性质预测程序,所述发光材料性质预测程序被所述处理器执行时实现上述的发光材料性质预测方法的步骤。
相应地,还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有发光材料性质预测程序,所述发光材料性质预测程序可被一个或者多个处理器执行,以实现上述的发光材料性质预测方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明提供的发光材料性质预测方法通过深度学习预测发光材料的性质,大幅降低了实验成本,加速了研发速度,本发明通过设计节点层面和图层面的建模方法,让分子结构更好地被表征,解决了现有方法中出现的特征丢失问题。其中节点层面的自监督训练学习方法,极大地降低人工标注的成本和机器学习对标注数据的需求,图层面的自监督训练学习方法,极大地降低人工标注的成本和机器学习对标注数据的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明发光材料性质预测方法一实施例的流程示意图;
图2是图1中发光材料性质预测方法的第一预训练步骤的细化流程示意图;
图3是图1中发光材料性质预测方法的第二预训练步骤的细化流程示意图;
图4是图1中发光材料性质预测方法的预测步骤的细化流程示意图;
图5是本发明发光材料性质预测系统一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
还需要说明的是,当元件被称为“固定于”或“设置于”另一个元件上时,它可以直接在另一个元件上或者可能同时存在居中元件。当一个元件被称为是“连接”另一个元件,它可以是直接连接另一个元件或者可能同时存在居中元件。
另外,在本发明中涉及“第一”“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
图1为本发明发光材料性质预测方法一实施例的流程示意图。
请参考图1,本实施例中,发光材料性质预测方法具体包括以下步骤:
S01、第一预训练步骤
对无标签的发光材料分子数据进行节点层面的预训练,训练结果作为第一编码器。
S02、第二预训练步骤
利用所述第一编码器对无标签的发光材料分子数据进行编码,从无标签的发光材料分子数据中抽取出发光材料分子中预定义的官能团,官能团为化学原子组成的具有预定功能的基团,就是原子集合,对所述官能团进行分组并组成序列,将序列作为自监督学习的标签进行训练,训练结果作为第二编码器。
S03、预测步骤
使用所述第二编码器对待预测的发光材料分子数据进行编码,对待预测的发光材料的性质进行预测。
具体地,步骤S01中输入的无标签的发光材料分子数据为发光材料分子的3D数据结构和SMILES表达式,并且输入的发光材料分子的3D数据结构和SMILES表达式数据均是无标签数据。节点预训练系统将会对输入的无标签发光材料分子数据进行节点层面的预训练,最后的预训练结果作为后续步骤S02中的图预训练系统的编码器,即第一编码器。
具体地,在步骤S02中,输入发光材料分子的3D数据结构和SMILES表达式到图预训练系统,图预训练系统将会抽取出分子中预定义的官能团,按照官能团分组组成序列,并作为自监督学习的标签进行预训练,最后的预训练结果作为下游分子性质预测系统的编码器,即第二编码器。
具体地,在步骤S03中输入有标签的数据,有标签的数据是指利用rdkit从发光材料分子数据中抽取的官能团组成的序列;利用图预训练系统预训练的第二编码器对待预测的发光材料分子数据进行编码,使用编码后的向量作为训练的输入,对发光材料的发光性质进行预测,得到预测结果,其中分子性质预测系统是一个多层感知机模型。根据预测的结果,研发人员调整研发的方向,选择可能性最大的结构进行研发。
在本实施例中,第一编码器和第二编码器的作用在于将输入的发光材料分子数据经过图模型,从分子格式转换为图模型的格式。
在本实施例中,发光材料的性质主要包括以下性质:(1)光致发光性质,比如光致发光波长、荧光量子产率;(2)电致发光性质,比如电致发光波长,外量子效率;(3)溶沸点,比如有机分子熔点、沸点;(4)振子强度。
SMILESS(Simplified molecular input line entry specification),简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范。SMILESS由ArthurWeininger和David Weininger于20世纪80年代晚期开发,并由其他人修改和扩展。
由于SMILESS用一串字符来描述一个三维化学结构,它必然要将化学结构转化成一个生成树,此系统采用纵向优先遍历树算法。转化时,先要去掉氢,还要把环打开。表示时,被拆掉的键端的原子要用数字标记,支链写在小括号里。
SMILESS字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。转换成二维图形可以使用Helson的“结构图生成算法”(Structure DiagramGeneration algorithms)。
通过对发光材料的光致发光性质和电致发光性质的分组和预测,研发人员可以评估发光材料的发光性能优劣,为后续研发方向提供建议。
图2是图1中发光材料性质预测方法的第一预训练步骤的细化流程示意图。
在本实施例中,节点预训练系统会对图中每个节点,最邻近的k层原子和键组成的子结构进行特征提取,这里的节点是指分子中的原子,然后把整个子结构输入图神经网络(GraphNaturalNetwork,GNN)进行训练,子结构中心位置的节点作为训练的标签。
如图2所示,本实施例中,上述步骤S01具体包括以下步骤:
S011:选择无标签发光材料中的一个分子,遍历该分子中的所有原子,选出键的数量大于等于2的所有原子作为中心原子组成序列Y,序列Y作为所述第一预训练的标签序列;
键数量为1的原子很多都是H原子,并且只有一个键则表示周围可利用的特征(比如键,邻接原子)太少,预测效果较差,因此选出拥有键的数量大于等于2的原子为中心原子。
S012:遍历序列Y中的每个原子,选择其中一个原子设为y,以y为中心,抽取y附近的k层近邻和键作为子结构,k一般取2;
一个分子结构包括多个原子,子结构是指其中一个原子的k层近邻和键组成的结构;
S013:将抽取出的子结构遮盖掉原子y,剩余部分使用图神经网络进行编码,被遮盖的y原子作为图神经网络训练的标签,剩余部分是指抽取出来的子结构去掉遮盖原子的部分;
具体地,将步骤S012中抽取出来的子结构遮盖(mask)掉原子y,剩余部分使用图神经网络进行编码,被遮盖的y原子作为图神经网络训练的标签。其中,图神经网络输入的边信息为子结构的邻接矩阵,节点信息为子结构中每个原子的类型、形式电荷、连接的氢原子个数、是否为杂化态等原子特征组成的特征矩阵。
S014:对序列Y中所有的中心原子进行训练,剔除掉不能收敛或者收敛的误差大于预定值的中心原子;
S015:对无标签发光材料的所有分子重复步骤S011-步骤S014,训练出基于节点层面的图模型作为所述第一编码器。
本发明实施例在图模型的建模中,结合化学分子本身的特点,不以单个原子为图模型的基本单位,而是考虑原子和周围k层最近邻组成的子结构的整体特征,这样的图模型设计充分考虑了化学分子的客观规律,即单个原子不具有性质,但是由多个原子组成的特定基团能够影响分子的性质。
图3是图1中发光材料性质预测方法的第二预训练步骤的细化流程示意图。
在本实施例中,图预训练系统将会使用节点预训练系统的节点特征提取器对分子进行编码。其中,步骤S02使用的所有预训练数据和步骤S01互斥,互斥是指步骤S01和步骤S02使用完全不同的两套数据,并且此步骤S02使用的所有分子都具有跟发光性质相关的官能团。官能团具有明显的特征,可以通过一些第三方软件或者算法自动化提取,比如RDkit。本发明实施例会提前预置相关官能团分组,对具有某些官能团的分子也进行分组。本发明实施例对分子中的每个节点使用特征提取器进行编码,然后累加每个原子编码的结果作为最终的分子层面的编码。在实际操作过程中,分子层面的编码也可以由每个原子编码的结果取均值或者拼接特征矩阵,或者再使用一层全连接层进行训练得到。最后使用多分类模型,使用提取的分子官能团作为标签,进行预测。
具体地,如图3所示,本实施例中,上述步骤S02具体包括以下步骤:
S021:对无标签的发光材料分子官能团按照发光性质进行分组,根据分组的结果对预训练数据进行模糊分组,选择其中一个分组的发光材料化学分子作为每一次预训练的数据集;
模糊分组是指分组的依据的官能团发光性质不是固定的,得到的分组的结果是模糊;
具体地,发光材料的性质主要包括以下性质:(1)光致发光性质,比如光致发光波长、荧光量子产率;(2)电致发光性质,比如电致发光波长,外量子效率;(3)溶沸点,比如有机分子熔点、沸点;(4)振子强度。
S022:利用第一编码器对发光材料化学分子中的每一个原子进行编码,累加每一个原子的编码,作为最终分子层面的编码;
S023:抽取出该发光材料化学分子其中一个分组下面所有的官能团,组成序列F,作为分子层面预训练的标签序列;
标签序列是指一堆标签组成的有顺序的集合。
S024:使用多分类模型对步骤S022获得的最终分子层面的编码和步骤S023获得的官能团分子层面预训练的标签序列进行训练;
其中多分类模型可以预测多个发光性质的类别,不止两个发光性质的类别。
S025:当一个分组的官能团训练结束时,对得到的图模型进行评估,将评估后的图模型作为第二编码器;
本实施例中,在分别对每一分组的官能团训练时,都会对应得到多个不同的图模型,因此需要对训练得到的图模型进行评估,具体为评估该图模型对官能团序列的预测准确度,也即评估利用该分组的官能团序列作为标签训练后的预测准确度,最后只选择准确度最好的一个图模型作为第二编码器,也即选择评估通过的图模型作为第二编码器,而其他图模型都为评估不通过,因而不能作为第二编码器。
本实施例对于图模型的预测准确度的评估方式不限,例如可以是基于各图模型的输出结果的精度和召回率进行综合评估,也可以是使用已知官能团输入图模型后进行测算评估。
S026:选择其他全部分组的官能团逐一重复步骤S022-S025,其中,每一分组的官能团训练评估后分别获得一个第二编码器。
本实施例中,剩余未训练的分组的官能团都需要进行一轮步骤S022-S025的处理,执行完步骤S026后结束预训练,每一分组的官能团训练评估后分别获得一个第二编码器,例如,有5个分组的官能团进行预训练,则预训练完成后会对应得到5个第二编码器,也即5个第二编码器分别对应5个分组的官能团。
本发明实施例在图模型的建模中,结合化学分子本身的特点,不以单个原子为图模型的基本单位,而是考虑原子和周围k层最近邻组成的子结构的整体特征。这样的图模型设计充分考虑了化学分子的客观规律,即单个原子不具有性质,但是由多个原子组成的特定基团能够影响分子的性质。
在图层面的预训练方法中,再次结合化学分子本身的特点,分子的化学性质不应该是统一的,不同的化学性质之间有区别和关联,对化学分子中有关联的性质进行分组,比如分子的发光波长和发光效率,让模型在训练的过程中往相似的方向收束。本发明实施例的化学性质分组由人工分组完成。
面对机器学习技术数据匮乏问题,本发明实施例还提出了两种自动化获取标签的方法:一种是在节点层面建模中,自动遮盖(mask)某个原子作为自监督学习的标签,该原子k层最近邻组成的子结构作为输入特征,进行自监督学习;另一种是在图层面的建模中,利用分子官能团列表作为分子的自监督学习标签。
图4是图1中发光材料性质预测方法的预测步骤的细化流程示意图,本发明实施例分子性质预测系统基于上游预训练任务训练的分子特征提取器,对输入的分子3D图结构进行编码,然后利用多层感知机(MultipleLayerPerceptron, MLP)去预测整个图结构的分子属性。
具体地,如图4所示,本实施例中,上述步骤S03具体包括以下步骤:
S031:根据发光材料性质分组,选择需要预测的发光性质对应的第二编码器,对发光材料分子数据进行编码;
S032:把获得的分子编码作为图模型输入,输入多层感知机,把分子性质转换为数值化数据,并且将分子性质转换得到的数值化数据作为图模型的正确的标签;
本实施例中,为便于区分具有相同分子性质的不同分子,因此还需进一步对分子性质进行量化处理。以不同发光材料的发光效率进行举例说明。例如,发光材料A的发光效率进行量化处理后为0.23,而发光材料B的发光效率进行量化处理后为0.47,分子性质进行量化处理后的数值作为图模型的正确的标签。
S033:依次传递所述数值化数据进入多层感知机,得到图神经网络的最后实际输出的发光材料分子数据具有该预测的发光性质的第一概率;
S034:计算图神经网络的最后实际输出的发光材料分子数据具有该预测的发光性质的第一概率和发光材料分子数据真实具有该预测的发光性质的第二概率之间的误差,判断误差是否在允许范围内;
例如:发光材料分子数据实际具有该预测性质的发光性质,即第二概率为1,图神经网络的最后实际输出的发光材料分子数据具有该预测的发光性质的概率为0.4,即第一概率为0.4,则误差为1-0.4-=0.6。若设定的误差允许范围为小于或等于0.3,那么0.6大于0.3,误差不在允许范围内,因此需要将误差传回网络,更新网络参数,并返回步骤S033。而如果误差在允许范围内,则进入步骤S036结束训练。
S035:若误差在允许范围内,则进入步骤S036,若误差不在允许范围内,则误差传回网络,更新网络参数,返回步骤S033;
S036:结束训练,对图模型进行评估测试,并且根据测试结果,对图模型的超参数、结构、层数进行修改,得到训练好的图模型;
图模型的超参数、结构、层数为机器学习的概念,是可以通过手动修改的参数。
S037:使用训练好的图模型对待预测的发光材料的性质进行预测。
材料研发人员根据分子性质预测系统的结果,对材料的研发方向等进行调整,或者验证推荐材料实际的性质。
在具体的实施过程中,材料研发人员获得深度学习系统的预测结果后,会进行少量实验进行验证,再最终根据验证的结果决定之后的研发方向。
本发明实施例包括三个部分:分子图模型建模、分子图模型预训练以及基于分子图模型的发光材料性质预测。
在分子图模型建模中,同时从图模型的节点层面和图层面两个维度对分子进行建模。目前基于图模型的发光材料性质预测方法往往集中在原子层面建模,对每一个原子和其连接的键进行训练。但是发光材料性质往往取决于分子内多个原子相互间的结构,如果只针对单个原子或者键进行建模,不足以刻画出分子内部的结构特征,而对局部结构的建模能够更好地表征出分子的结构特征,所以在本实施例的节点层面建模中,利用最近邻的思路,对每个原子及其周围的k层邻居节点的结构性质进行建模。除了在分子节点层面进行建模,发光材料性质预测方法也会对整个分子建模,并进行图的表征,然后在整个分子的图表征层面进行发光材料性质预测。
本发明实施例提出了基于图层面的发光材料性质预测方法,本实施例认为分子的化学性质相互之间具有一定的关联性,比如在预测发光材料的发光性质中,发光材料分子发光的波长、发光的效率、发光的强度等性质相互之间具有一定的关联,所以对发光材料性质预测必须针对特定领域进行不同的预训练。本发明实施例利用化学研究人员的个人经验,对常见的30种化学性质进行分组,比如把发光材料分子的发光波长、发光颜色、发光效率、分子震动强度这四个性质归为一类,并且利用计算化学的工具,比如RDkit,在发光材料分子中筛选出所有跟此大类性质有关的官能团(functionalgroup),把发光材料分子具有的官能团组成一个序列,作为图层面建模的多分类监督学习标签,进行训练。
当在其他领域应用机器学习技术时,往往会面对数据匮乏、数据难以表征等问题,所以本实施例提出了化学分子领域的图模型预训练方法。首先收集开源的无标签分子数据集,并按照一定规则,自动生成无标签的发光材料分子数据,然后根据化学性质,自动构造预训练模型的标签。在本实施例中,对于节点层面的图模型建模方法,将会对原子进行遮盖(mask),作为训练的标签,然后利用其k层邻居节点组成子结构的结构特征,进行自监督学习。在对节点层面图模型预训练结束后,可以获得一个节点层面的编码器(encoder),利用此编码器对分子中每个原子为中心的子结构进行嵌入(embedding),最后累加,作为分子编码后的向量(vector),同时把抽取的分子官能团作为分子的多分类监督学习标签。根据建立的发光材料分子性质分类表,每次训练只针对同一个性质分类下面的官能团进行训练。因为官能团获取较为容易,不需要人工标注,所以可以短时间获得大量的标签数据,用于图层面的监督学习预训练。根据化学性质官能团的分组,每一组官能团都会预训练出一个预训练模型。
当预训练结束后,根据待预测的化学性质的分组,加载不同的预训练模型,然后再通过在小数据集里面微调(fine-tune),训练发光材料性质预测模型,进而实现发光材料的性质预测。
图5是本发明的发光材料性质预测系统一实施例的结构示意图。
请参考图5,本实施例的发光材料性质预测系统用于实现上述发光材料性质预测方法的步骤,具体包括节点预训练系统、图预训练系统和分子性质预测系统。
本实施例中,节点预训练系统用于实现上述发光材料性质预测方法中的第一预训练步骤。节点预训练系统对无标签的发光材料分子结构进行自监督预训练,建模方法结合发光材料分子结构本身的化学特征,让预训练模型以k近邻为基本单位学习发光材料分子结构特征,训练得到第一编码器。
本实施例中,图预训练系统用于实现上述发光材料性质预测方法中的第二预训练步骤。图预训练系统针对发光性质对官能团分组,对不同分组的官能团的化学性质训练不同的预训练模型,并且图预训练系统利用第一编码器进行训练,在预训练的时候添加节点层面的特征,训练得到第二编码器,让节点和图两个层面的特征更好地融合。
本实施例中,分子性质预测系统用于实现上述发光材料性质预测方法中的预测步骤。分子性质预测系统利用第二编码器对发光材料分子数据进行嵌入编码,然后利用得到的第二编码器对发光材料性质进行预测。具体地,本实施例预训练阶段接收发光材料分子的3D数据结构作为输入。在其他实施例中,发光材料分子数据还有其他表达形式,比如三维坐标、SMILES等,这些表达形式均可以转换为3D数据结构,但是部分数据会丢失一定准确度。由于在预训练阶段并不需要十分精准的数据,所以这些数据均会统一转换为3D数据结构作为预训练输入。而在下游发光材料性质预测阶段,只采用发光材料分子的准确3D数据结构和待预测的发光材料性质作为输入和预测标签。
本发明还提供一种电子设备的实施例,包括存储器和处理器,存储器上存储有发光材料性质预测程序,发光材料性质预测程序被处理器执行时实现上述发光材料性质预测方法的步骤。
本发明还提供一种计算机可读存储介质的实施例,计算机可读存储介质上存储有发光材料性质预测程序,发光材料性质预测程序可被一个或者多个处理器执行,以实现上述发光材料性质预测方法的步骤。处理器通常包括单片机,包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM (PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本发明实施例通过深度学习预测发光材料的性质,大幅降低了实验成本,加速了研发速度。通过设计节点层面和图层面的建模方法,让分子结构更好地被表征,缓解了之前一系列方法中出现的特征丢失问题。通过提出的两种自监督预训练方法,缓解了机器学习标签数据匮乏的问题,降低了人工标注的成本,并且针对预训练阶段,设计了一整套完善的解决方案。
综上所述,本发明以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (10)
1.一种发光材料性质预测方法,其特征在于,包括:
第一预训练步骤:对无标签的发光材料分子数据进行节点层面的预训练,训练结果作为第一编码器,所述节点为发光材料分子中的原子;
第二预训练步骤:利用所述第一编码器对无标签的发光材料分子数据进行编码,从无标签的发光材料分子数据中抽取出发光材料分子中预定义的官能团,官能团为化学原子组成的具有预定功能的基团,就是原子集合,对所述官能团进行分组并组成序列,将序列作为自监督学习的标签进行训练,训练结果作为第二编码器;
预测步骤:使用所述第二编码器对待预测的发光材料分子数据进行编码,对待预测的发光材料的性质进行预测。
2.根据权利要求1所述的一种发光材料性质预测方法,其特征在于,所述第一预训练步骤具体包括以下步骤:
步骤一:选择无标签发光材料中的一个分子,遍历该分子中的所有原子,选出键的数量大于等于2的所有原子作为中心原子组成序列Y,所述序列Y作为所述第一预训练的标签序列;
步骤二:遍历序列Y中的每个原子,选择其中一个原子设为y,以y为中心,抽取y附近的k层近邻和键作为子结构;
步骤三:将抽取出的子结构遮盖掉原子y,剩余部分使用图神经网络进行编码,被遮盖的y原子作为图神经网络训练的标签,剩余部分是指抽取出来的子结构去掉遮盖原子的部分;
步骤四:对所述序列Y中所有的中心原子进行训练,剔除掉不能收敛或者收敛的误差大于预定值的中心原子;
步骤五:对无标签发光材料的所有分子重复所述步骤一至步骤四的步骤,训练出基于节点层面的图模型作为所述第一编码器。
3.根据权利要求2所述的一种发光材料性质预测方法,其特征在于,所述图神经网络输入的边信息为所述子结构的邻接矩阵,节点信息为子结构中每个原子的类型、形式电荷、连接的氢原子个数、是否为杂化态原子特征组成的特征矩阵,所述节点信息不包含被遮盖的y原子的信息。
4.根据权利要求2所述的一种发光材料性质预测方法,其特征在于,所述k的值为2。
5.根据权利要求1所述的一种发光材料性质预测方法,其特征在于,所述第二预训练步骤具体包括以下步骤:
步骤一:对无标签的发光材料分子官能团按照发光性质进行分组,根据分组的结果对预训练数据进行模糊分组,选择其中一个分组的发光材料化学分子,作为每一次预训练的数据集;
步骤二:利用所述第一编码器对发光材料化学分子中的每一个原子进行编码,累加每一个原子的编码,作为最终分子层面的编码;
步骤三:抽取出该发光材料化学分子其中一个分组下面所有的官能团,组成序列F,作为分子层面预训练的标签序列;
步骤四:使用多分类模型对步骤二获得的最终分子层面的编码和步骤三获得的官能团分子层面预训练的标签序列进行训练,得到图模型;
步骤五:当一个分组的官能团训练结束时,对得到的图模型进行评估,将评估后的图模型作为第二编码器;
步骤六:选择其他全部分组的官能团逐一重复步骤二至步骤五,其中,每一分组的官能团训练评估后分别获得一个第二编码器。
6.根据权利要求1所述的一种发光材料性质预测方法,其特征在于,所述预测步骤具体包括以下步骤:
步骤一:根据发光材料性质分组,选择需要预测的发光性质对应的第二编码器,对发光材料分子数据进行编码;
步骤二:把获得的分子编码作为图模型输入,把分子性质转换为数值化数据,并且将分子性质转换得到的数值化数据作为图模型的正确的标签;
步骤三:依次输入所述数值化数据进入多层感知机,得到图模型的图神经网络的最后实际输出的发光材料分子数据具有该预测的发光性质的第一概率;
步骤四:计算图模型的图神经网络的最后实际输出的发光材料分子数据具有该预测的发光性质的第一概率和发光材料分子数据真实具有该预测的发光性质的第二概率之间的误差,判断误差是否在允许范围内;
步骤五:若误差在允许范围内,则进入步骤六,若误差不在允许范围内,则误差传回网络,更新网络参数,返回步骤三;
步骤六:结束训练,对图模型进行评估测试,并且根据测试结果,对图模型的超参数、结构、层数进行修改,得到训练好的图模型;
步骤七:使用训练好的图模型对待预测的发光材料的性质进行预测。
7.根据权利要求6所述的一种发光材料性质预测方法,其特征在于,所述发光性质包括光致发光性质、电致发光性质和振子强度中的一种或多种。
8.一种发光材料性质预测系统,其特征在于,包括:节点预训练系统、图预训练系统和分子性质预测系统;
所述节点预训练系统对无标签的发光材料分子结构进行自监督预训练,建模方法结合发光材料分子结构本身的化学特征,让预训练模型以发光材料分子中每个原子的k层近邻为基本单位学习发光材料分子结构特征,训练得到第一编码器;
所述图预训练系统针对发光性质对官能团分组,对不同分组的官能团的化学性质训练不同的预训练模型,并且所述图预训练系统利用所述第一编码器,在所述预训练模型预训练时添加节点层面的特征,训练得到第二编码器,节点为发光材料分子中的原子;
所述分子性质预测系统利用所述第二编码器,对发光材料分子进行嵌入编码,然后利用训练得到的图模型对发光材料的性质进行预测。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有发光材料性质预测程序,所述发光材料性质预测程序被所述处理器执行时实现如权利要求1-7中任一项所述的发光材料性质预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有发光材料性质预测程序,所述发光材料性质预测程序可被一个或者多个处理器执行,以实现如权利要求1-7中任一项所述的发光材料性质预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111032103.2A CN113470761B (zh) | 2021-09-03 | 2021-09-03 | 发光材料性质预测方法、系统、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111032103.2A CN113470761B (zh) | 2021-09-03 | 2021-09-03 | 发光材料性质预测方法、系统、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113470761A CN113470761A (zh) | 2021-10-01 |
CN113470761B true CN113470761B (zh) | 2022-02-25 |
Family
ID=77867293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111032103.2A Active CN113470761B (zh) | 2021-09-03 | 2021-09-03 | 发光材料性质预测方法、系统、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113470761B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113971992B (zh) * | 2021-10-26 | 2024-03-29 | 中国科学技术大学 | 针对分子属性预测图网络的自监督预训练方法与系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428848A (zh) * | 2019-09-05 | 2020-07-17 | 中国海洋大学 | 基于自编码器和3阶图卷积的分子智能设计方法 |
CN112669916A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大学 | 一种基于对比学习的分子图表示学习方法 |
CN113241128A (zh) * | 2021-04-29 | 2021-08-10 | 天津大学 | 基于分子空间位置编码注意力神经网络模型的分子性质预测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10622098B2 (en) * | 2017-09-12 | 2020-04-14 | Massachusetts Institute Of Technology | Systems and methods for predicting chemical reactions |
CN108912053A (zh) * | 2018-06-29 | 2018-11-30 | 吉林大学 | 一种具有扭曲分子结构的有机发光材料及其在有机电致发光器件中的应用 |
CN113297427A (zh) * | 2021-05-10 | 2021-08-24 | 中南大学 | 一种基于u型嵌套网络的图分类方法 |
-
2021
- 2021-09-03 CN CN202111032103.2A patent/CN113470761B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428848A (zh) * | 2019-09-05 | 2020-07-17 | 中国海洋大学 | 基于自编码器和3阶图卷积的分子智能设计方法 |
CN112669916A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大学 | 一种基于对比学习的分子图表示学习方法 |
CN113241128A (zh) * | 2021-04-29 | 2021-08-10 | 天津大学 | 基于分子空间位置编码注意力神经网络模型的分子性质预测方法 |
Non-Patent Citations (2)
Title |
---|
FraGAT: a fragment-oriented multi-scale graph attention model for molecular property prediction;Ziqiao Zhang et al.;《Bioinformatics》;20210326;第2981-2987页 * |
Motif-Driven Contrastive Learning of Graph Representations;Shichang Zhang et al.;《arXiv:2012.12533v3 [cs.LG]》;20210416;第1-19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113470761A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113257369B (zh) | 一种基于多任务图神经网络的分子毒性预测方法和装置 | |
US20200167659A1 (en) | Device and method for training neural network | |
CN111985572B (zh) | 基于特征比较的通道注意力机制的细粒度图像识别方法 | |
CN114548591B (zh) | 一种基于混合深度学习模型和Stacking的时序数据预测方法及系统 | |
CN103324954B (zh) | 一种基于树结构的图像分类方法及其系统 | |
CN113868432B (zh) | 一种用于钢铁制造企业的知识图谱自动构建方法和系统 | |
CN109033107A (zh) | 图像检索方法和装置、计算机设备和存储介质 | |
CN113470761B (zh) | 发光材料性质预测方法、系统、电子设备和存储介质 | |
CN112001162B (zh) | 基于小样本学习的智能审判系统 | |
CN113688665A (zh) | 一种基于半监督迭代学习的遥感影像目标检测方法及系统 | |
CN115240786A (zh) | 反应物分子的预测方法、训练方法、装置以及电子设备 | |
CN113869418B (zh) | 一种基于全局注意力关系网络的小样本船舶目标识别方法 | |
WO2023087569A1 (zh) | 一种基于XGBoost的光伏组串通信异常识别方法及系统 | |
CN110188263B (zh) | 一种面向异构时距的科学研究热点预测方法及系统 | |
CN113129234A (zh) | 一种场内外特征融合的残缺图像精细修复方法 | |
CN113904844A (zh) | 基于跨模态教师-学生网络的智能合约漏洞检测方法 | |
CN113592939A (zh) | 基于冠脉造影图像判断狭窄血管尺寸的深度学习方法 | |
CN115935372A (zh) | 一种基于图嵌入和双向门控图神经网络的漏洞检测方法 | |
CN116757460A (zh) | 基于深度学习的应急指挥调度平台构建方法及系统 | |
CN115861196A (zh) | 针对多模态医学影像的主动学习方法 | |
CN117036760A (zh) | 一种基于图对比学习的多视图聚类模型实现方法 | |
Li et al. | Symbolic expression transformer: A computer vision approach for symbolic regression | |
CN118072815A (zh) | 一种基于PfgPDI的蛋白质-配体相互作用预测方法 | |
CN117473102B (zh) | 一种基于标签混淆学习的bim知识图谱构建方法和系统 | |
CN113949646A (zh) | 一种基于深度学习的Web服务QoS预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |