CN111724867A - 分子属性测定方法、装置、电子设备及存储介质 - Google Patents

分子属性测定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111724867A
CN111724867A CN202010594496.5A CN202010594496A CN111724867A CN 111724867 A CN111724867 A CN 111724867A CN 202010594496 A CN202010594496 A CN 202010594496A CN 111724867 A CN111724867 A CN 111724867A
Authority
CN
China
Prior art keywords
molecular
molecules
model
loss function
teacher model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010594496.5A
Other languages
English (en)
Other versions
CN111724867B (zh
Inventor
刘淇
陈恩红
郝中楷
陆承镪
黄振亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010594496.5A priority Critical patent/CN111724867B/zh
Publication of CN111724867A publication Critical patent/CN111724867A/zh
Application granted granted Critical
Publication of CN111724867B publication Critical patent/CN111724867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种分子属性测定方法、装置、电子设备及存储介质,应用于分子技术领域,包括:S1用分子拓扑结构图表示每个带标签分子的分子属性数据和每个无标签分子的分子结构数据;S2、将所有带标签分子和所有无标签分子的分子结构拓扑图输入至预先构建的教师模型,利用半监督学习对所有分子结构拓扑图进行训练,得到教师模型的参数;S3、将教师模型的参数迁移到预先构建的学生模型中;S4、利用带标签分子调整学生模型;S5、利用调整后的学生模型给所有无标签分子均赋予标签,得到带标签分子集;S6、将带标签分子集反馈给教师模型;重复执行步骤S2至S6,直至教师模型和学生模型均收敛,利用收敛后的学生模型预测分子属性。可精准地预测未知分子的属性。

Description

分子属性测定方法、装置、电子设备及存储介质
技术领域
本申请涉及分子测定技术领域,尤其涉及一种分子属性测定方法、装置、电子设备及存储介质。
背景技术
新物质材料的发现往往能够带动技术发展和社会进步,从药物研发,到材料开发,都离不开分子发现。在许多领域,为了寻求到具有特定属性的分子,需要对某个可能分子的待选集合。对于集合中的每个分子,需要预测其属性,如果满足要求,则进行进一步研究。预测分子属性的方法主要分为两种,一种是使用传统的物理方法例如密度泛函分析方法,但是这种方法过于耗时无法处理大量数据;另一类方法是数据驱动方法,这类方法从已有数据中学习到分子属性的相关知识并以此来对未知属性进行属性预测。但是数据驱动的方法十分依赖于已知属性的分子数据(称作带标签分子),而带标签分子的数量又非常少,与此同时,大量未知分子属性的分子数据(称作无标签分子)没有被利用起来。
发明内容
本申请的主要目的在于提供一种分子属性测定方法、装置、电子设备及存储介质,可精准预测未知分子的属性。
为实现上述目的,本申请实施例第一方面提供一种分子属性测定方法,包括:
S1、用分子拓扑结构图表示每个带标签分子的分子属性数据和每个无标签分子的分子结构数据;
S2、将所有所述带标签分子和所有所述无标签分子的分子结构拓扑图输入至预先构建的教师模型,利用半监督学习对所有分子结构拓扑图进行训练,得到所述教师模型的参数;
S3、将所述教师模型的参数迁移到预先构建的学生模型中;
S4、利用所述带标签分子调整所述学生模型;
S5、利用调整后的学生模型给所有无标签分子均赋予标签,得到带标签分子集;
S6、将所述带标签分子集反馈给所述教师模型;
重复执行步骤S2至S6,直至所述教师模型和所述学生模型均收敛,利用收敛后的学生模型预测分子属性。
可选的,所述步骤S2中,使用有监督学习的属性损失函数和无监督学习的重建损失函数的和作为半监督学习的损失函数来训练所述教师模型,并使用小批次随机梯度下降算法来更新所述教师模型的参数。
可选的,基于带标签分子表示所述有监督学习的属性损失函数,以及,基于无标签分子从节点级别和图级别表示所述无监督学习的重建损失函数。
可选的,所述基于带标签分子表示所述有监督学习的属性损失函数包括:
利用带标签分子的标签和教师模型输出的带标签分子的预测属性值之间的均方根误差表示所述有监督学习的损失函数;
令Lp为所述有监督学习的属性损失函数,则:
Figure BDA0002555316260000021
其中,yi为第i个带标签分子的标签,fθ为所述教师模型表示的函数,
Figure BDA0002555316260000022
为所述教师模型提取的第i个带标签分子的表征,
Figure BDA0002555316260000023
为所述教师模型输出的第i个带标签分子的预测属性值,N1为带标签分子的数量。
可选的,所述基于无标签分子从节点级别表示所述无监督学习的重建损失函数包括:
获取所述教师模型输出的无标签分子节点级别的表征;
基于节点级别表示学习,使用节点嵌入从表示形式重建无标签分子的分子拓扑结构图中的节点类型和节点之间的距离,得到重建后的无标签分子的结构;
利用节点重建的损失函数和边权重重建函数,表示所述无监督学习的节点级别的重建损失函数。
可选的,所述基于无标签分子从图级别表示所述无监督学习的重建损失函数包括:
S21、获取所述教师模型输出的无标签分子图级别的表征;
S22、基于隐式聚类方法为每个无标签分子分配一个簇ID,所述ID包含由隐式聚类过程生成的多个簇的标记;
S23、使用预设的惩罚损失函数优化教师模型;
重复执行步骤S21至S23,直至至少所述惩罚损失函数收敛,使用聚类损失表示所述无监督学习的图级别的重建损失函数。
本申请实施例第二方面提供一种分子属性测定装置,包括:
结构表示模块,用于用分子拓扑结构图表示每个带标签分子的分子属性数据和每个无标签分子的分子结构数据;
输入训练模块,用于将所有所述带标签分子和所有所述无标签分子的分子结构拓扑图输入至预先构建的教师模型,利用半监督学习对所有分子结构拓扑图进行训练,得到所述教师模型的参数;
迁移模块,用于将所述教师模型的参数迁移到预先构建的学生模型中;
调整模块,用于利用所述带标签分子调整所述学生模型;
赋予模块,用于利用调整后的学生模型给所有无标签分子均赋予标签,得到带标签分子集;
反馈模块,用于将所述带标签分子集反馈给所述教师模型;
重复执行上述模块,直至所述教师模型和所述学生模型均收敛,利用收敛后的学生模型预测分子属性。
可选的,所述输入训练模块,使用有监督学习的属性损失函数和无监督学习的重建损失函数的和作为半监督学习的损失函数来训练所述教师模型,并使用小批次随机梯度下降算法来更新所述教师模型的参数。
本申请实施例第三方面提供了一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本申请实施例第一方面提供的分子属性测定方法。
本申请实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例第一方面提供的分子属性测定方法。
从上述本申请实施例可知,本申请提供的分子属性测定方法、装置、电子设备及存储介质,用半监督学习来进行分子预测,相比于传统方法,能够利用已有带标签分子和无标签分子尤其是大量无标签分子,因此对带标签分子的依赖远小于之前的方法。在预测待测带标签数据上,只需要原有的1/2左右的数据就能达到相同的预测精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的分子属性测定方法的流程示意图;
图2为本申请一实施例提供的分子属性测定方法的流程示意图;
图3为本申请一实施例提供的分子属性测定装置的结构示意图;
图4示出了一种电子设备的硬件结构示意图。
具体实施方式
为使得本申请的申请目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请可以充分利用已有的带标签分子和无标签分子,从中学习出分子属性和分子空间结构的关系,并用来预测未知分子的相关属性。本申请能够预测的属性包括但不限于:UO(温度为OK时分子内能量),U(温度为298.15K时分子内能量),H(温度为298.15K时分子热焓),G(温度为298.15K时分子自由能),Cv(温度为298.15K时分子热容量),zpve(基本振动能),R2(电子空间广度),EHOMO(最高占据分子轨道能量),ELUMO(最低未占分子轨道),μ(偶极矩),R2α(等向极化率)。
请参阅图1,图1为本申请一实施例提供的分子属性测定方法的流程示意图,该方法主要包括以下步骤:
S1、用分子拓扑结构图表示每个带标签分子的分子属性数据和每个无标签分子的分子结构数据;
S2、将所有该带标签分子和所有该无标签分子的分子结构拓扑图输入至预先构建的教师模型,利用半监督学习对所有分子结构拓扑图进行训练,得到该教师模型的参数;
S3、将该教师模型的参数迁移到预先构建的学生模型中;
S4、利用该带标签分子调整该学生模型;
S5、利用调整后的学生模型给所有无标签分子均赋予标签,得到带标签分子集;
S6、将该带标签分子集反馈给该教师模型;
重复执行步骤S2至S6,直至该教师模型和该学生模型均收敛,利用收敛后的学生模型预测分子属性。
在本申请其中一个实施例中,该步骤S2中,使用有监督学习的属性损失函数和无监督学习的重建损失函数的和作为半监督学习的损失函数来训练该教师模型,并使用小批次随机梯度下降算法来更新该教师模型的参数。
在本申请其中一个实施例中,基于带标签分子表示该有监督学习的属性损失函数,以及,基于无标签分子从节点级别和图级别表示该无监督学习的重建损失函数。
在本申请其中一个实施例中,,该基于带标签分子表示该有监督学习的属性损失函数包括:
利用带标签分子的标签和教师模型输出的带标签分子的预测属性值之间的均方根误差表示该有监督学习的损失函数;
令Lp为该有监督学习的属性损失函数,则:
Figure BDA0002555316260000061
其中,yi为第i个带标签分子的标签,fθ为该教师模型表示的函数,
Figure BDA0002555316260000062
为该教师模型提取的第i个带标签分子的表征,
Figure BDA0002555316260000063
为该教师模型输出的第i个带标签分子的预测属性值,N1为带标签分子的数量。
在本申请其中一个实施例中,该基于无标签分子从节点级别表示该无监督学习的重建损失函数包括:
获取该教师模型输出的无标签分子节点级别的表征;
基于节点级别表示学习,使用节点嵌入从表示形式重建无标签分子的分子拓扑结构图中的节点类型和节点之间的距离,得到重建后的无标签分子的结构;
利用节点重建的损失函数和边权重重建函数,表示该无监督学习的节点级别的重建损失函数。
在本申请其中一个实施例中,该基于无标签分子从图级别表示该无监督学习的重建损失函数包括:
S21、获取该教师模型输出的无标签分子图级别的表征;
S22、基于隐式聚类方法为每个无标签分子分配一个簇ID,该ID包含由隐式聚类过程生成的多个簇的标记;
S23、使用预设的惩罚损失函数优化教师模型;
重复执行步骤S21至S23,直至至少该惩罚损失函数收敛,使用聚类损失表示该无监督学习的图级别的重建损失函数。
以下请参阅图2,本申请提供的分子属性测待方法,(1)对数据的预处理;(2)建立教师模型和学生模型的框架;(3)训练教师模型。具体的,在(1)中,选择使用图的数据结构来描述分子。因此,对原始数据,将分子中的每个原子视作一个节点,而每一对原子之间的关系(例如距离)就视作一条边。实施中会对分子的原子构成分别做了嵌入表示,经过嵌入层后,可以分别得到原子的表征和边嵌入表征。在(2)中,需要构建一个教师模型和一个学生模型。本申请对模型没有特定的要求,只要这两个模型是图神经网络模型就可以(图神经网络模型是一种用于处理图结构数据的神经网络模型)。这两个模型交替迭代,本申请用教师模型在带标签分子和无标签分子上来进行预训练,并将参数迁移给学生模型,学生模型利用带标签分子进行微调,并通过预测未知分子数据,给这些数据打上伪标签,回馈到教师模型的学习中。最终,本申请得到一个训练过后的学生模型可以用于预测未知分子的属性。(3)中,使用有监督学习的损失函数和无监督学习的重建损失函数的和作为半监督学习的损失函数,并使用小批次随机梯度下降算法来更新教师模型的参数。
更多的,在(1)中,需要一定数量的分子及其属性数据,这些数据的原始格式需要进行预处理才能传入到后续的处理流程中。对于部分分子,即带标签分子,需要由密度泛函分析方法计算得到其分子的属性数据;而对于无标签分子,则仅仅需要它们的分子结构数据。分子的结构数据表现为分子的原子构成以及每个原子的坐标,通过这些数据,首先将原始的原子的三维空间坐标转换为原子之间的距离矩阵,以此来消除坐标系的选择对分子处理的影响,以达到平移和旋转不变性。预处理中另一部分的操作是对原子进行嵌入操作,在嵌入中使用向量来表示分子中的节点和边。分子中每个原子将会表示为一个向量,而所有相同元素的原子共享一个向量嵌入,例如所有碳原子的表示为同一个向量。这里的向量表示仅和原子的元素种类有关,与其分子的构成和空间结构没有关系。
更多的,在(2)中,教师模型和学生模型的模型结构需要保持一致。在教师模型中使用半监督学习进行强大的嵌入表征学习,具体而言,使用一个基于带标签分子Dl的有监督属性损失和两个基于无标签分子Du∪Dl的无监督表示损失(从图和节点两个级别)。
对于基于带标签数据Dl的有监督的属性损失函数,使用标签和预测值之间的均方根误差来指导模型的优化,令Lp为该有监督学习的属性损失函数,则优化表达式为:
Figure BDA0002555316260000081
yi为第i个带标签分子的标签,fθ为该教师模型表示的函数,
Figure BDA0002555316260000082
为该教师模型提取的第i个带标签分子的表征,
Figure BDA0002555316260000083
为该教师模型输出的第i个带标签分子的预测属性值,N1为带标签分子的数量。
对于基于无标签数据Dl的无监督的重建损失函数,分为两个部分,一个是节点级别表示学习,另一个是图级别的表示学习。
在节点级表示学习中,模型会学习从分子图的几何信息中捕获领域知识。主要思想是使用节点嵌入从表示形式重建节点类型和拓扑(节点之间的距离)。具体来说,模型首先从图中随机采样一些节点和边,然后将这些节点的表示形式传递给模型并使用它们来重构节点类型fi和节点eij之间的距离。数学上来说,这部分需要最小化的损失函数就是如下交叉熵误差
Figure BDA0002555316260000091
其中第一项是节点重建的损失函数,第二项是边权重重建。对于这两项,模型都会优化样本的期望值。Kn是原子类型的数量,我们通过将连续距离划分为几个离散的桶来将连续的边权重转换为离散的分类问题,而Ke是桶的总数。这意味着当且仅当dm里边权值eij最近时eijm=1。这里的gθn、gθe是多层感知机。实际上,模型将随机采样一些节点和边以重建其属性并优化采样期望,发现这种随机采样能够在不降低性能的情况下取得更高的效率。模型从图中采样边以及节点以重构其特征。此外,容易注意到使用完全连接的图表示时一个分子会包含多余的信息,因为一个分子包含3n个自由度(因为每个原子的坐标可以由3个数字确定,n为分子中原子个数)。因此,对大小为O(|G|)的边进行采样是在性能和算法复杂度之间进行有效折衷的方法。通过优化上式中的重建损失,模型可以获得包含分子图的拓扑和特征的节点嵌入。
在图级别表示学习中,尽管可以重建分子拓扑结构的节点嵌入可以有效地表示分子的结构,但是组合图级表示学习对诸如属性预测之类的下游任务是有益的。在这里,本发明提出了一种新颖的方法,可以将图级别的信息纳入全局范围的表示学习中。为了学习图形级表示,关键的问题是利用化学空间内分子之间的相互关系,即相似的分子大致具有相似的特性。受到这种直觉的启发,这里提出了一种基于学习聚类以增强图级别表示的方法。首先,模型将计算图级别的表征。然后,我们使用基于隐式聚类的方法为每个分子分配一个簇ID,该ID包含由隐式聚类过程生成的M个簇的标记。之后,模型使用惩罚损失函数优化模型。反复进行该过程,直到至少达到局部最小值。将S表示为簇ID。首先,模型将图级别嵌入到多层感知器中,并预测概率分布P(s|G)。我们假设存在簇ID的后验分布P(s|G)。接着,优化p和q之间的交叉熵损失,如下所示:
Figure BDA0002555316260000101
其中N是分子的总数。然而,如果没有任何限制施加于P(s|G)时,将很容易得到一个平凡解。这里的关键是将这些簇的ID限制为预定义的先验分布
Figure BDA0002555316260000102
这里选择了给定参数M的均匀分布,这个参数表示整个数据集将被均匀切割为几个相等的子集。特别的,通过利用hardmax方程,使用硬标签技术将P(s|Gi)约束为离散标签。那么,这个优化目标就可以显式地定义为:
Figure BDA0002555316260000103
Figure BDA0002555316260000104
这里交替地优化预测分布q(s|G)和后验分布q(s|G)。对于前者,使用神经网络参数上的梯度下降,对于后者其优化方法可以看作是一个隐式的聚类方法。上式可以重写为:
Figure BDA0002555316260000105
这里的<P,Q>表示两个矩阵P和Q之间的Frobenius点乘。Pij=p(sj|Gi),Qij=q(sj|Gi)和U(p,q)表示p和q的联合分布。在此基础上,本发明加了一项熵正则项进去,并利用Sinkhorn-Knopp算法来获取更快的收敛速度:
Figure BDA0002555316260000106
事实上,这个过程可以看作是一种聚类,所以这里将这个损失函数称作聚类损失。总的来说,要以半监督方式训练教师模型,本发明结合了之前提到的三个损失函数,即需要优化以下损失:
Figure BDA0002555316260000107
对于学生模型,由于教师模型需要同时学习多个任务,其负载较大。而且,由于优化目标之间的冲突,我们发现,相比于单独优化它们,联合优化的效果会更差。特别的,当|Dl|<<|Du|时,它们的效率也很低。每轮迭代中,Lp受到的关注很少。然而,预测精度却是模型最关心的点。
因此,仅使用教师模型的预测精度较低。为了解决这个问题,这里引入了学生模型。通过使用教师模型可以同时优化上述对象来学习表征。而当教师模型的学习过程结束,我们将教师模型的权重转移到学生模型上,并使用学生模型仅对已标记的数据进行微调,以学习与Ls相同的目标属性。在微调过后,我们使用学生模型去推断整个未标签数据集,并给每个未标签数据赋予一个伪标签用于指示学生模型对其属性的预测。那么,无标签数据集就是
Figure BDA0002555316260000112
这里的θs是学生模型的参数。在下一轮迭代中,教师模型同样需要学习伪标签,那么优化目标就变成:
Figure BDA0002555316260000111
这可以看作是教授模型从学生模型的反馈中学习到知识。总之,本发明通过引入两个目标各异的模型来处理损失分歧的问题。教师模型旨在学习一个通用的表征,而学生模型旨在对分子图的属性做出精准的预测。教师模型的预训练也给学生模型做了一个暖启动。
在(3)中,关于模型的训练,本发明实例的损失函数已在前文有详细的描述。小批量随机梯度下降算法被用来优化该损失函数,随之使用的优化器是自适应力矩估计优化器(Adam optimizer)。小批量的数值被设定为64,而初始学习率为10-5
本发明实例依照上述方案,可以充分利用已有数据,包括带标签数据和无标签数据,学习到分子的表征,并用以精准地预测未知分子的属性,从而能加速药学,材料学,医学等领域上特性属性分子的搜寻。
请参阅图3,图3是本申请一实施例提供的分子属性测定装置的结构示意图,该装置主要包括:
结构表示模块10,用于用分子拓扑结构图表示每个带标签分子的分子属性数据和每个无标签分子的分子结构数据;
输入训练模块20,用于将所有该带标签分子和所有该无标签分子的分子结构拓扑图输入至预先构建的教师模型,利用半监督学习对所有分子结构拓扑图进行训练,得到该教师模型的参数;
迁移模块30,用于将该教师模型的参数迁移到预先构建的学生模型中;
调整模块40,用于利用该带标签分子调整该学生模型;
赋予模块50,用于利用调整后的学生模型给所有无标签分子均赋予标签,得到带标签分子集;
反馈模块60,用于将该带标签分子集反馈给该教师模型;
重复执行上述模块,直至该教师模型和该学生模型均收敛,利用收敛后的学生模型预测分子属性。
在本申请其中一个实施例中,该输入训练模块,使用有监督学习的属性损失函数和无监督学习的重建损失函数的和作为半监督学习的损失函数来训练该教师模型,并使用小批次随机梯度下降算法来更新该教师模型的参数。
基于带标签分子表示该有监督学习的属性损失函数,以及,基于无标签分子从节点级别和图级别表示该无监督学习的重建损失函数。
在本申请其中一个实施例中,该基于带标签分子表示该有监督学习的属性损失函数包括:利用带标签分子的标签和教师模型输出的带标签分子的预测属性值之间的均方根误差表示该有监督学习的损失函数;
令Lp为该有监督学习的属性损失函数,则:
Figure BDA0002555316260000121
其中,yi为第i个带标签分子的标签,fθ为该教师模型表示的函数,
Figure BDA0002555316260000122
为该教师模型提取的第i个带标签分子的表征,
Figure BDA0002555316260000123
为该教师模型输出的第i个带标签分子的预测属性值,N1为带标签分子的数量。
在本申请其中一个实施例中,该基于无标签分子从节点级别表示该无监督学习的重建损失函数包括:获取该教师模型输出的无标签分子节点级别的表征;基于节点级别表示学习,使用节点嵌入从表示形式重建无标签分子的分子拓扑结构图中的节点类型和节点之间的距离,得到重建后的无标签分子的结构;利用节点重建的损失函数和边权重重建函数,表示该无监督学习的节点级别的重建损失函数。
在本申请其中一个实施例中,该基于无标签分子从图级别表示该无监督学习的重建损失函数包括:
S21、获取该教师模型输出的无标签分子图级别的表征;
S22、基于隐式聚类方法为每个无标签分子分配一个簇ID,该ID包含由隐式聚类过程生成的多个簇的标记;
S23、使用预设的惩罚损失函数优化教师模型;
重复执行步骤S21至S23,直至至少该惩罚损失函数收敛,使用聚类损失表示该无监督学习的图级别的重建损失函数。
请参见图4,图4示出了一种电子设备的硬件结构图。
本实施例中所描述的电子设备,包括:
存储器41、处理器42及存储在存储器41上并可在处理器上运行的计算机程序,处理器执行该程序时实现前述图1所示实施例中描述的种分子属性测定方法。
进一步地,该电子设备还包括:
至少一个输入设备43;至少一个输出设备44。
上述存储器41、处理器42输入设备43和输出设备44通过总线45连接。
其中,输入设备43具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备44具体可为显示屏。
存储器41可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器41用于存储一组可执行程序代码,处理器42与存储器41耦合。
进一步地,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的电子设备中,该计算机可读存储介质可以是前述图4所示实施例中的电子设备。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图1所示实施例中描述的种分子属性测定方法方法。进一步地,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本公开各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
该集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的一种分子属性测定方法、装置、电子设备及可读存储介质的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种分子属性测定方法,其特征在于,包括:
S1、用分子拓扑结构图表示每个带标签分子的分子属性数据和每个无标签分子的分子结构数据;
S2、将所有所述带标签分子和所有所述无标签分子的分子结构拓扑图输入至预先构建的教师模型,利用半监督学习对所有分子结构拓扑图进行训练,得到所述教师模型的参数;
S3、将所述教师模型的参数迁移到预先构建的学生模型中;
S4、利用所述带标签分子调整所述学生模型;
S5、利用调整后的学生模型给所有无标签分子均赋予标签,得到带标签分子集;
S6、将所述带标签分子集反馈给所述教师模型;
重复执行步骤S2至S6,直至所述教师模型和所述学生模型均收敛,利用收敛后的学生模型预测分子属性。
2.根据权利要求1所述的分子属性测定方法,其特征在于,所述步骤S2中,使用有监督学习的属性损失函数和无监督学习的重建损失函数的和作为半监督学习的损失函数来训练所述教师模型,并使用小批次随机梯度下降算法来更新所述教师模型的参数。
3.根据权利要求2所述的分子属性测定方法,其特征在于,基于带标签分子表示所述有监督学习的属性损失函数,以及,基于无标签分子从节点级别和图级别表示所述无监督学习的重建损失函数。
4.根据权利要求3所述的分子属性测定方法,其特征在于,所述基于带标签分子表示所述有监督学习的属性损失函数包括:
利用带标签分子的标签和教师模型输出的带标签分子的预测属性值之间的均方根误差表示所述有监督学习的损失函数;
令Lp为所述有监督学习的属性损失函数,则:
Figure FDA0002555316250000021
其中,yi为第i个带标签分子的标签,fθ为所述教师模型表示的函数,
Figure FDA0002555316250000022
为所述教师模型提取的第i个带标签分子的表征,
Figure FDA0002555316250000023
为所述教师模型输出的第i个带标签分子的预测属性值,N1为带标签分子的数量。
5.根据权利要求3所述的分子属性测定方法,其特征在于,所述基于无标签分子从节点级别表示所述无监督学习的重建损失函数包括:
获取所述教师模型输出的无标签分子节点级别的表征;
基于节点级别表示学习,使用节点嵌入从表示形式重建无标签分子的分子拓扑结构图中的节点类型和节点之间的距离,得到重建后的无标签分子的结构;
利用节点重建的损失函数和边权重重建函数,表示所述无监督学习的节点级别的重建损失函数。
6.根据权利要求3所述的分子属性测定方法,其特征在于,所述基于无标签分子从图级别表示所述无监督学习的重建损失函数包括:
S21、获取所述教师模型输出的无标签分子图级别的表征;
S22、基于隐式聚类方法为每个无标签分子分配一个簇ID,所述ID包含由隐式聚类过程生成的多个簇的标记;
S23、使用预设的惩罚损失函数优化教师模型;
重复执行步骤S21至S23,直至至少所述惩罚损失函数收敛,使用聚类损失表示所述无监督学习的图级别的重建损失函数。
7.一种分子属性测定装置,其特征在于,包括:
结构表示模块,用于用分子拓扑结构图表示每个带标签分子的分子属性数据和每个无标签分子的分子结构数据;
输入训练模块,用于将所有所述带标签分子和所有所述无标签分子的分子结构拓扑图输入至预先构建的教师模型,利用半监督学习对所有分子结构拓扑图进行训练,得到所述教师模型的参数;
迁移模块,用于将所述教师模型的参数迁移到预先构建的学生模型中;
调整模块,用于利用所述带标签分子调整所述学生模型;
赋予模块,用于利用调整后的学生模型给所有无标签分子均赋予标签,得到带标签分子集;
反馈模块,用于将所述带标签分子集反馈给所述教师模型;
重复执行上述模块,直至所述教师模型和所述学生模型均收敛,利用收敛后的学生模型预测分子属性。
8.根据权利要求7所述的分子属性测定装置,其特征在于,所述输入训练模块,使用有监督学习的属性损失函数和无监督学习的重建损失函数的和作为半监督学习的损失函数来训练所述教师模型,并使用小批次随机梯度下降算法来更新所述教师模型的参数。
9.一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至6中的任一项所述的分子属性测定方法中的各个步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至6中的任一项所述的分子属性测定方法中的各个步骤。
CN202010594496.5A 2020-06-24 2020-06-24 分子属性测定方法、装置、电子设备及存储介质 Active CN111724867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010594496.5A CN111724867B (zh) 2020-06-24 2020-06-24 分子属性测定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010594496.5A CN111724867B (zh) 2020-06-24 2020-06-24 分子属性测定方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111724867A true CN111724867A (zh) 2020-09-29
CN111724867B CN111724867B (zh) 2022-09-09

Family

ID=72569049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010594496.5A Active CN111724867B (zh) 2020-06-24 2020-06-24 分子属性测定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111724867B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862093A (zh) * 2021-01-29 2021-05-28 北京邮电大学 一种图神经网络训练方法及装置
CN113052868A (zh) * 2021-03-11 2021-06-29 奥比中光科技集团股份有限公司 一种抠图模型训练、图像抠图的方法及装置
CN113409898A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 分子结构获取方法、装置、电子设备及存储介质
CN114067928A (zh) * 2022-01-10 2022-02-18 北京晶泰科技有限公司 分子属性预测方法及系统、装置、存储介质和处理器
WO2022135121A1 (zh) * 2020-12-25 2022-06-30 浙江大学 一种基于对比学习的分子图表示学习方法
CN114818948A (zh) * 2022-05-05 2022-07-29 北京科技大学 一种图神经网络的数据-机理驱动的材料属性预测方法
CN114881917A (zh) * 2022-03-17 2022-08-09 深圳大学 基于自监督和语义分割的溶栓疗效预测方法及相关装置
WO2022222492A1 (zh) * 2021-04-23 2022-10-27 中国科学院深圳先进技术研究院 药物分子特征属性的预测方法及预测装置
WO2023097680A1 (zh) * 2021-12-03 2023-06-08 深圳晶泰科技有限公司 确定相邻分子的方法、装置、设计方法和电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631536A (zh) * 2015-12-21 2016-06-01 重庆工商职业学院 基于半监督学习的大规模网络开放课程退课预测算法
CN109034205A (zh) * 2018-06-29 2018-12-18 西安交通大学 基于直推式半监督深度学习的图像分类方法
CN109345515A (zh) * 2018-09-17 2019-02-15 代黎明 样本标签置信度计算方法、装置、设备及模型训练方法
CN109711544A (zh) * 2018-12-04 2019-05-03 北京市商汤科技开发有限公司 模型压缩的方法、装置、电子设备及计算机存储介质
CN110298415A (zh) * 2019-08-20 2019-10-01 视睿(杭州)信息科技有限公司 一种半监督学习的训练方法、系统和计算机可读存储介质
CN110998716A (zh) * 2017-08-11 2020-04-10 微软技术许可有限责任公司 经由教师-学生学习在话音识别中进行的域自适应
CN111027421A (zh) * 2019-11-26 2020-04-17 西安宏规电子科技有限公司 一种基于图的直推式半监督行人再识别方法
CN111062495A (zh) * 2019-11-28 2020-04-24 深圳市华尊科技股份有限公司 机器学习方法及相关装置
CN111222648A (zh) * 2020-01-15 2020-06-02 深圳前海微众银行股份有限公司 半监督机器学习优化方法、装置、设备及存储介质
CN111275101A (zh) * 2020-01-19 2020-06-12 山东超越数控电子股份有限公司 一种飞机液压系统故障识别方法,设备及可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631536A (zh) * 2015-12-21 2016-06-01 重庆工商职业学院 基于半监督学习的大规模网络开放课程退课预测算法
CN110998716A (zh) * 2017-08-11 2020-04-10 微软技术许可有限责任公司 经由教师-学生学习在话音识别中进行的域自适应
CN109034205A (zh) * 2018-06-29 2018-12-18 西安交通大学 基于直推式半监督深度学习的图像分类方法
CN109345515A (zh) * 2018-09-17 2019-02-15 代黎明 样本标签置信度计算方法、装置、设备及模型训练方法
CN109711544A (zh) * 2018-12-04 2019-05-03 北京市商汤科技开发有限公司 模型压缩的方法、装置、电子设备及计算机存储介质
CN110298415A (zh) * 2019-08-20 2019-10-01 视睿(杭州)信息科技有限公司 一种半监督学习的训练方法、系统和计算机可读存储介质
CN111027421A (zh) * 2019-11-26 2020-04-17 西安宏规电子科技有限公司 一种基于图的直推式半监督行人再识别方法
CN111062495A (zh) * 2019-11-28 2020-04-24 深圳市华尊科技股份有限公司 机器学习方法及相关装置
CN111222648A (zh) * 2020-01-15 2020-06-02 深圳前海微众银行股份有限公司 半监督机器学习优化方法、装置、设备及存储介质
CN111275101A (zh) * 2020-01-19 2020-06-12 山东超越数控电子股份有限公司 一种飞机液压系统故障识别方法,设备及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHEN GONG等: "《Label Propagation via Teaching-to-Learn and Learning-to-Teach》", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
JUNTENG JIA等: "《Graph-based Semi-Supervised & Active Learning for Edge Flows》", 《KDD "19: PROCEEDINGS OF THE 25TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY & DATA MINING》 *
屠恩美等: "《半监督学习理论及其研究进展概述》", 《上海交通大学学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022135121A1 (zh) * 2020-12-25 2022-06-30 浙江大学 一种基于对比学习的分子图表示学习方法
CN112862093A (zh) * 2021-01-29 2021-05-28 北京邮电大学 一种图神经网络训练方法及装置
CN112862093B (zh) * 2021-01-29 2024-01-12 北京邮电大学 一种图神经网络训练方法及装置
CN113052868A (zh) * 2021-03-11 2021-06-29 奥比中光科技集团股份有限公司 一种抠图模型训练、图像抠图的方法及装置
WO2022188886A1 (zh) * 2021-03-11 2022-09-15 奥比中光科技集团股份有限公司 一种抠图模型训练、图像抠图的方法及装置
WO2022222492A1 (zh) * 2021-04-23 2022-10-27 中国科学院深圳先进技术研究院 药物分子特征属性的预测方法及预测装置
CN113409898A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 分子结构获取方法、装置、电子设备及存储介质
CN113409898B (zh) * 2021-06-30 2022-05-27 北京百度网讯科技有限公司 分子结构获取方法、装置、电子设备及存储介质
WO2023097680A1 (zh) * 2021-12-03 2023-06-08 深圳晶泰科技有限公司 确定相邻分子的方法、装置、设计方法和电子设备
CN114067928A (zh) * 2022-01-10 2022-02-18 北京晶泰科技有限公司 分子属性预测方法及系统、装置、存储介质和处理器
CN114881917A (zh) * 2022-03-17 2022-08-09 深圳大学 基于自监督和语义分割的溶栓疗效预测方法及相关装置
CN114818948A (zh) * 2022-05-05 2022-07-29 北京科技大学 一种图神经网络的数据-机理驱动的材料属性预测方法

Also Published As

Publication number Publication date
CN111724867B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN111724867B (zh) 分子属性测定方法、装置、电子设备及存储介质
Hao et al. ASGN: An active semi-supervised graph neural network for molecular property prediction
CN107862173B (zh) 一种先导化合物虚拟筛选方法和装置
Chen et al. Efficient ant colony optimization for image feature selection
CN113299354B (zh) 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
CN109461475B (zh) 一种基于人工神经网络的分子属性预测方法
Gui et al. Embedding learning with events in heterogeneous information networks
Yan et al. A New multi-instance multi-label learning approach for image and text classification
Zhang et al. PS-Tree: A piecewise symbolic regression tree
Li et al. Intelligent medical heterogeneous big data set balanced clustering using deep learning
Zhang et al. Modeling the Homophily Effect between Links and Communities for Overlapping Community Detection.
Yan Weighted K-nearest neighbor classification algorithm based on Genetic Algorithm
Guan et al. Large-scale graph neural architecture search
Rashid et al. Knowledge management overview of feature selection problem in high-dimensional financial data: Cooperative co-evolution and MapReduce perspectives
CN114154557A (zh) 癌症组织分类方法、装置、电子设备及存储介质
Fu et al. Deep momentum uncertainty hashing
Zhang et al. Dep-tsp meta: A multiple criteria dynamic ensemble pruning technique ad-hoc for time series prediction
Sahito et al. Semi-supervised learning using Siamese networks
Jiang Learning protein functions from bi-relational graph of proteins and function annotations
Chu et al. Broad minimax probability learning system and its application in regression modeling
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
Zhu et al. Improving Differentiable Architecture Search via Self-Distillation
Qi et al. Supervised deep semantics-preserving hashing for real-time pulmonary nodule image retrieval
Guo et al. End-to-end variational graph clustering with local structural preservation
US20210256374A1 (en) Method and apparatus with neural network and training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant