CN110767271B - 化合物性质预测方法、装置、计算机设备及可读存储介质 - Google Patents

化合物性质预测方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN110767271B
CN110767271B CN201910979509.8A CN201910979509A CN110767271B CN 110767271 B CN110767271 B CN 110767271B CN 201910979509 A CN201910979509 A CN 201910979509A CN 110767271 B CN110767271 B CN 110767271B
Authority
CN
China
Prior art keywords
edge
propagation
node
information
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910979509.8A
Other languages
English (en)
Other versions
CN110767271A (zh
Inventor
荣钰
黄文炳
徐挺洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910979509.8A priority Critical patent/CN110767271B/zh
Priority to CN202011253415.1A priority patent/CN112309509B/zh
Publication of CN110767271A publication Critical patent/CN110767271A/zh
Priority to EP20877236.8A priority patent/EP3992976A4/en
Priority to PCT/CN2020/117433 priority patent/WO2021073391A1/zh
Application granted granted Critical
Publication of CN110767271B publication Critical patent/CN110767271B/zh
Priority to US17/168,162 priority patent/US11942191B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Abstract

本申请实施例公开了一种化合物性质预测方法、装置、计算机设备及可读存储介质,涉及人工智能的计算机视觉技术;具体地可以获取目标化合物的化学结构信息,该化学结构信息包括原子和化学键;根据化学结构信息生成与化学结构信息对应的化学结构图,化学结构图包括原子对应的节点以及化学键对应的边;构建节点的原始节点特征和边的原始边特征;根据节点的原始节点特征、边的原始边特征,在边上进行多轮消息传播,得到边在经过多轮消息传播后的传播状态信息;根据传播状态信息获取边的目标特征;根据边的目标特征预测目标化合物的性质,并输出目标化合物的性质预测结果。该方案科研大大提升化合物性质预测的准确性。

Description

化合物性质预测方法、装置、计算机设备及可读存储介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种化合物性质预测方法、装置、计算机设备及可读存储介质。
背景技术
在药物分析中,如何根据化合物如蛋白质等的结构判断或预测物质的一些性质如化学、生物性质,例如毒性、溶解性,致癌性等等,是一件非常重要的任务。
目前的化合物性质预测方式是采用人工智能(AI,Artificial Intelligence)来实现。比如,可以将性质预测这类任务建模成AI机器学习中的分类问题。具体地,可以通过表示学习的方式,将化合物如蛋白质的结构式转化为在欧式空间中的向量,然后通过神经网络如卷积神经网络(CNN)对其进行分类,进而判断或预测物质的性质如化学/生物性质。
作为表示学习经典方法,卷积神经网络(CNN)已经在识别等领域获得了极大的成功。许多现有模型和架构用于解决大规模分类和识别问题,具体应用有图像(image)、自然语言处理等,但是由于这些应用的源数据都有一个共同点,具有网格(grid)结构。然而,化合物如蛋白质化学结构不具有这样的网格结构,会导致性质预测的准确性较低。
发明内容
本申请实施例提供一种化合物性质预测方法、装置、计算机设备及可读存储介质,可以提高化合物性质预测的准确性。
本申请实施例提供一种化合性质预测方法,包括:
获取目标化合物的化学结构信息,所述化学结构信息包括原子和化学键;
根据所述化学结构信息生成与所述化学结构信息对应的化学结构图,所述化学结构图包括所述原子对应的节点以及所述化学键对应的边;
构建所述节点的原始节点特征和所述边的原始边特征;
根据所述节点的原始节点特征、所述边的原始边特征,在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息;
根据所述传播状态信息获取所述边的目标特征;
根据所述边的目标特征预测目标化合物的性质,并输出目标化合物的性质预测结果。
本申请实施例提供一种基于多层边信息传播模型的化合物性质预测方法,包括:
获取目标化合物的化学结构信息,所述化学结构信息包括原子和化学键;
根据所述化学结构信息生成与所述化学结构信息对应的化学结构图,所述化学结构图包括所述原子对应的节点以及所述化学键对应的边;
根据所述节点的原始节点特征向量、所述边的原始边特征向量获取所述多层边信息传播模型的初始输入信息;
采用所述多层边信息传播模型,基于所述初始输入信息在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息;
采用所述多层边信息传播模型,基于所述传播状态信息获取所述边的目标特征;
采用所述多层边信息传播模型,根据所述边的目标特征预测目标化合物的性质,并输出目标化合物的性质预测结果。
相应的,本申请实施例还提供一种化合物性质预测装置,包括:
获取单元,用于获取目标化合物的化学结构信息,所述化学结构信息包括原子和化学键;
转换单元,用于根据所述化学结构信息生成与所述化学结构信息对应的化学结构图,所述化学结构图包括所述原子对应的节点以及所述化学键对应的边;
特征构建单元,用于构建所述节点的原始节点特征和所述边的原始边特征;
消息传播单元,用于根据所述节点的原始节点特征、所述边的原始边特征,在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息;
特征获取单元,用于根据所述传播状态信息获取所述边的目标特征;
预测单元,用于根据所述边的目标特征预测目标化合物的性质,并输出目标化合物的性质预测结果。
在一实施例中,所述消息传播单元,包括:
初始输入子单元,用于根据所述节点的原始节点特征、所述边的原始边特征获取多轮消息传播的初始输入信息;
传播子单元,用于基于所述初始输入信息在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息。
在一实施例中,所述传播子单元,用于将所述初始输入信息作为当前轮消息传播的当前输入,并基于当前输入进行当前轮消息传播;
根据所述节点的原始节点特征、所述边的当前边特征以及历史传播状态信息,获取所述边在当前轮消息传播时的当前传播状态信息,其中,所述历史传播状态信息为所述边在历史轮消息传播时的传播状态信息;
在进入下一轮消息传播时,根据所述当前传播状态信息、节点的原始节点特征更新所述当前输入,并返回执行于当前输入进行当前轮消息传播的步骤直至完成所有轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息。
在一实施例中,所述传播子单元,用于:
确定所述边的起始节点对应的所有入边;
对所述入边的当前边特征、所述入边上节点的原始节点特征、以及所述入边在历史消息传播时的历史传播状态信息进行融合,得到所述入边的消息;
对所有入边的消息进行聚合,得到所述边在当前轮消息传播时的消息信息;
对所述边在历史轮消息传播时的历史传播状态信息、以及所述消息信息进行融合,得到所述边在当前轮消息传播时的当前传播状态信息。
在一实施例中,所述传播子单元,用于:
根据消息生成参数,对所述入边的当前边特征、所述入边上节点的原始节点特征、以及所述入边在历史消息传播时的历史传播状态信息进行融合,得到融合后特征;
基于激活函数对所述融合后特征进行处理,得到所述入边的消息。
在一实施例中,所述传播子单元,用于:
获取所述边在参考历史轮消息传播时的参考历史传播状态信息;
根据第一融合参数对参考历史传播状态、和所述消息信息进行融合,得到融合后传播状态信息;
基于激活函数对融合后传播状态进行处理,得到所述边在当前轮消息传播时的当前传播状态信息。
在一实施例中,所述传播子单元,用于:根据第二融合参数对所述边的原始边特征、所述边上节点的原始节点特征进行融合,得到所述边的融合后边特征;基于激活函数对融合后边特征进行处理,得到所述边在参考历史轮消息传播时的参考历史传播状态信息。
在一实施例中,所述预测单元,包括:
转换子单元,用于将所述边的目标特征转换成所述化学结构图中每个节点的节点特征;
融合子单元,用于对每个节点的节点特征进行融合,得到所述化学结构图的特征;
预测子单元,用于根据所述化学结构图的特征预测目标化合物的性质。
在一实施例中,所述转换子单元,用于:
针对每个节点,确定与节点相关联的关联边,所述关联边包括所述节点、以及所述节点的邻居节点;
对所有关联边的目标特征进行融合,得到融合后关联边特征;
基于第三融合参数对所述节点的当前节点特征、和所述融合后关联边特征进行融合,得到所述节点的节点特征。
在一实施例中,所述特征构建单元,用于:根据所述原子的原子属性信息构建节点的原始节点特征;根据所述化学键的属性信息构建所述边的原始边特征。
在一实施例中,所述传播子单元,用于:将所述初始输入导入至多层边信息传播模型,所述多层边信息传播模型包括:多个消息传播层、节点特征转化层、和融合层;通过多层边信息传播模型中多个消息传播层在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息;
所述预测单元,用于:通过所述节点特征转化层将所述边的目标特征转换成所述化学结构图中每个节点的节点特征;通过所述融合层对每个节点的节点特征进行融合,得到所述化学结构图的特征;根据所述化学结构图的特征预测目标化合物的性质。
在一实施例中,性质预测装置还包括训练单元,所述训练单元,用于:
获取样本化合物的样本化学结构信息,所述样本化学结构信息包括样本原子和样本化学键;
根据所述样本化学结构信息生成与所述样本化学结构信息对应的样本化学结构图,所述样本化学结构图包括所述样本原子对应的样本节点,所述样本化学键对应的样本边;
构建所述样本节点的样本原始节点特征和所述样本边的样本原始边特征;
采用预设多层边信息传播模型,基于所述节点的样本原始节点特征、所述边的样本原始边特征预测样本化合物的性质,得到样本化合物的性质预测结果;
基于损失函数计算样本化合物的性质预测结果与实际性质之间的损失,并基于损失对所述多层边信息传播模型进行训练,得到训练后的多层边信息传播模型。
相应的,本申请还提供一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现本申请实施例提供的任一种性质预测方法中的步骤。
此外,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的任一种性质预测方法中的步骤。
本申请实施例可以获取目标化合物的化学结构信息,所述化学结构信息包括原子和化学键;根据所述化学结构信息生成与所述化学结构信息对应的化学结构图,所述化学结构图包括所述原子对应的节点以及所述化学键对应的边;构建所述节点的原始节点特征和所述边的原始边特征;根据所述节点的原始节点特征、所述边的原始边特征,在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息;根据所述传播状态信息获取所述边的目标特征;根据所述边的目标特征预测目标化合物的性质,并输出目标化合物的性质预测结果。由于该方案可以将目标物的化学结构式转化成图(Graph)这样的数据结构;并在图数据上采用基于多次消息传播的方式获取图中化学键对应边的特征,基于边的特征预测目标化合物的性质;因此,可以准确地预测出目标化合物的性质,大大提升了性质预测的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的化合物性质预测方法的场景示意图;
图2a是本申请实施例提供化合物性质预测方法的流程图;
图2b是本申请实施例提供的化学结构图转换示意图;
图2c是本申请实施例提供的消息传播计算示意图;
图2d是本申请实施例提供的神经网络层的结构示意图;
图2e是本申请实施例提供的多层边信息传播模型的网络结构示意图;
图3是本申请实施例提供的化合物性质预测方法的另一流程示意图;
图4a是本申请实施例提供的化合物性质预测装置的结构示意图;
图4b是本申请实施例提供的化合物性质预测装置的另一结构示意图;
图4c是本申请实施例提供的化合物性质预测装置的另一结构示意图;
图4d是本申请实施例提供的化合物性质预测装置的另一结构示意图;
图5是本申请实施例提供的计算机设备的结构示意图;
图6a是本发明实施例提供的数据共享系统的一种结构示意图;
图6b是图6a所示的数据共享系统中区块链及区块结构示意图;
图6c是图6b所示的区块链中区块生成流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供一种化合物性质预测方法、装置、计算机设备和计算机可读存储介质。其中,该化合物性质预测装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
本申请实施例提供的化合物性质预测方案涉及人工智能的计算机视觉技术(Computer Vision,CV)。可以通过人工智能的计算机视觉技术实现图像分类如对化学结构式对应的图进行分类。
其中,计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像分类、图像识别、图像分割、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本申请实施例中,所谓化合物性质预测,指的是预测某个化合物的性质或属性,比如,预测化学性质或生物性质,例如化合物的毒性、溶解性,致癌性等等。具体地,化合物性质预测可以包括通过对目标物对应的图结构数据进行性质分类得到化合物性质分类结果。
例如,参见图1,以该性质预测装置集成在计算设备中为例,该计算机设备可以获取目标物的化学结构信息如化学结构式,该化学结构式信息包括原子和化学键;根据化学结构信息生成与化学结构信息对应的化学结构图,该化学结构图可以包括原子对应的节点,化学键对应的边;构建节点的原始节点特征和边的原始边特征;根据节点的原始节点特征、边的原始边特征,在边上进行多轮消息传播,得到边在经过多轮消息传播后的传播状态信息;根据传播状态信息获取边的目标特征;根据边的目标特征预测目标化合物的性质,并输出目标化合物的性质预测结果。比如,可以预测出目标化合物的化学性质或生物性质(如毒性,溶解性,亲水性等)等。
在一实施例中,参考图6a,该计算机设备可以是一个数据共享系统中的一个节点,数据共享系统是指用于进行节点与节点之间数据共享的系统,该数据共享系统中可以包括多个节点,多个节点可以是指数据共享系统中各个网络设备。每个节点中都存储有一条相同的区块链。性质预测装置可以将性质结果存储至区块链中,从而与其它网络设备进行数据共享。
上述图1的例子只是实现本发明实施例的一个系统架构实例,本发明实施例并不限于上述图1所示的系统结构,基于1的系统架构,提出本发明各个实施例。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从化合物性质预测装置的角度进行描述,该化合物性质预测装置具体可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、个人计算(PC,Personal Computer)、微型处理盒子、或者其他设备等。
如图2a所示,该化合物性质预测方法的具体流程可以如下:
201、获取目标化合物的化学结构信息,该化学结构信息包括原子和化学键。
其中,化合物可以是由两种或两种以上不同元素组成的纯净物(区别于单质)。化合物具有一定的特性,既不同于它所含的元素或离子,亦不同于其他化合物,通常还具有一定的组成。在一实施例中,化合物还可以包括蛋白质等生命化合物。
其中,化合物的化学结构信息为用于表示化合物的化学组成结构的信息,比如,可以包括化学结构式等等。
其中,化学结构式是表示用元素符号和短线表示物质如化合物(或单质)分子中原子的排列和结合方式的化学组成式。是一种简单描述分子结构的方法。一般化学结构式可以由原子和化学键构成。例如,如图2b中左图所示,为尼古丁分子(C10H4N2)的化学结构式。
本申请实施例中,获取目标物的化学结构信息的方式可以有多种,比如,可以由用户输入,也可以从数据库中提取。
202、根据化学结构信息生成与化学结构信息对应的化学结构图,该化学结构图包括所述原子对应的节点以及所述化学键对应的边。
比如,在一实施例中,可以将化学结构信息转换成相应的化学结构图。
为了提升性质预测或分类的准确性和效率,本申请实施例可以将目标化合物的化学结构信息如化学结构式转化图(Graph)这样的数据结构,即化学结构图,在图数据上构造基于神经网络的预测方法来预测目标化合物的性质。
其中,化学结构图可以由节点和边组成,图中节点对应于化学结构信息如化学结构式中的原子,图中边(即连线)对应于化学结构信息如化学结构式中的化学键。
具体地,可以将化学结构信息如化学结构式中原子作为虚拟节点,根据原子之间的化学键对各虚拟节点进行连接,得到化学结构图。
例如,参考图2b,尼古丁分子(C10H4N2)可以表示成图这样的数据结构如图2b中右图所示为尼古丁分子的化学结构图,其中原子为图上的节点;化学键为图上的边。
203、构建节点的原始节点特征和边的原始边特征。
本申请实施例中特征的表现形式可以有多种,比如,可以为向量形式,例如,可以构建节点的原始节点特征向量和边的原始边特征向量。
步骤203与步骤202的之间的时序不受序号限制,可以同时执行,也可以步骤203在步骤202之前执行等,具体可以根据实际需求设定。
在一实施例中,根据原子的原子属性信息构建节点的原始节点特征;根据化学键的属性信息构建边的原始边特征。
其中,原子的属性信息可以包括电荷数目,质子数,中子数等,本申请实施例中,可以根据原子的属性例如电荷数目,质子数,中子数建模成原子的特征向量,原子的特征向量可以作为图中与原子对应节点的特征向量。
其中,化学键的属性信息可以包括化学键种类,化学键价态等,本申请实施例可以根据化学键的属性建模成化学键对应边的特征向量。
在本申请实施例中,对于图可以定位为:G(V,E),V为节点集合,E为边集合。图的节点和边都可以有其自己特征向量,此外,本申请实施例可以用xv表示节点v的特征向量,用evw表示边vw的特征向量(在不引起混淆的情况下,E也可以用来表示边特征集合。)。这样一个数据结构可以很方便的表征化学分子。
204、根据节点的原始节点特征、边的原始边特征,在边上进行多轮消息传播,得到边在经过多轮消息传播后的传播状态信息。
其中,图像上边的消息传播是指:将化学结构图上的每条边作为一个实体,每个点看作边与边的连接,边上的信息通过每条边的公共点进行传播。
本申请实施例可以通过化学结构图上边的多轮迭代消息传播,对边的相关边的信息进行聚合,构建出边的特征信息,从而提升性质预测的准确性。由于物质如化合物的性质往往和存在的化学键有关系,很多化学反应的本质其实就是化学键的断裂和重组,因此,基于化学键的特征信息可以准确地预测出目标化合物的性质,大大提升了性质预测的准确性。然而在基于化学键的特征信息进行预测的情况下,如何获取准确地化学键的特征信息是个难题。针对该问题,本申请实施例通过边的多轮消息传播获取化学键自身的信息以及其他关联化学键的信息从而构建化学键的特征信息进行性质预测,可以进一步提升性质预测的准确性。
通过边上的多轮迭代消息传播,可以得到化学结构图中每个边在经过多轮消息传播后的传播状态信息。
在一实施例中,可以先根据原始节点特征和原始边特征获取初始输入信息,然后,基于初始输入信息在边上进行多轮消息传播,也即,步骤“根据节点的原始节点特征、边的原始边特征,在边上进行多轮消息传播,得到边在经过多轮消息传播后的传播状态信息”,可以包括:
根据节点的原始节点特征、边的原始边特征获取多轮消息传播的初始输入信息;
基于初始输入信息在边上进行多轮消息传播,得到边在经过多轮消息传播后的传播状态信息。
在一实施例中,初始输入信息可以包括边在第一轮或第零轮消息传播时的传播状态信息,可以通过边的原始边特征和边上节点的原始节点特征计算得到;具体地,根据融合参数对边的原始边特征、边上节点的原始节点特征进行融合,得到边的融合后边特征;基于激活函数对融合后边特征进行处理,得到初始输入信息。
例如,定义初始输入信息为边vw在第零轮消息传播时的传播状态信息
Figure GDA0002693550320000111
此时,传播状态信息
Figure GDA0002693550320000112
可以通过如下公式计算得到:
Figure GDA0002693550320000113
为融合参数,也可以成为输入参数。
本申请实施例中,基于初始输入信息在边上进行多轮消息传播的方式有多种,比如,可以采用基于节点信息共享的迭代消息传播方式进行;具体地,在一实施例中,步骤“基于初始输入信息在边上进行多轮消息传播,得到边在经过多轮消息传播后的传播状态信息”,可以包括:
将初始输入信息作为当前轮消息传播的当前输入,并基于当前输入进行当前轮消息传播;
根据节点的原始节点特征、边的当前边特征以及历史传播状态信息,获取边在当前轮消息传播时的当前传播状态信息,其中,历史传播状态信息为边在历史轮消息传播时的传播状态信息;
在进入下一轮消息传播时,根据当前传播状态信息、节点的原始节点特征更新当前输入,并返回执行于当前输入进行当前轮消息传播的步骤直至完成所有轮消息传播,得到边在经过多轮消息传播后的传播状态信息。
其中,历史传播状态信息可以为边在历史轮消息传播时的传播状态信息,比如,历史轮消息传播可以根据实际需求设定,比如,可以为当前轮的上一轮消息传播,或者当前轮的上几轮消息传播,或者第一轮消息传播等等。
例如,以t+1表示当前轮消息传播,那么历史轮消息传播可以为t,即上一轮消息传播等。
根据上述消息传播的描述,以n轮消息传播和边vw为例,在计算出边vw的初始状态信息
Figure GDA0002693550320000121
之后,可以将初始状态信息
Figure GDA0002693550320000122
和节点的特征向量集合X作为第1轮消息传播的输入,在边vw进行第1轮消息传播,得到边vw在第1轮消息传播的传播状态信息
Figure GDA0002693550320000123
然后,将传播状态信息
Figure GDA0002693550320000124
和节点的特征向量集合X作为第2轮消息传播的输入,在边vw进行第1轮消息传播,得到边vw在第2轮消息传播的传播状态信息
Figure GDA0002693550320000125
……依次类推直到完成n轮消息传播时,便可以得到边vw在第n轮消息传播的传播状态信息
Figure GDA0002693550320000126
可见,本申请实施例中,节点的特征信息共享于各轮消息传播,因此,上述消息传播即为基于节点信息共享的消息传播。通过基于节点信息共享的消息传播可以得到化学结构图中每个边在经过多轮消息传播后的传播状态信息如
Figure GDA0002693550320000127
在一实施例中,根据节点的原始节点特征、边的当前边特征以及历史传播状态信息,获取边在当前轮消息传播时的当前传播状态信息的方式可以有多种,比如,为了能够提取边的全局特征信息,提升预测准确性,可以对边的入边信息进行聚合的方式获取边在当前轮消息消息传播的状态信息。
具体地,步骤“根据节点的原始节点特征、边的当前边特征以及历史传播状态信息,获取边在当前轮消息传播时的当前传播状态信息”,可以包括:
确定边的起始节点对应的所有入边;
对入边的当前边特征、入边上节点的原始节点特征、以及入边在历史消息传播时的历史传播状态信息进行融合,得到入边的消息;
对所有入边的消息进行聚合,得到边在当前轮消息传播时的消息信息;
对边在历史轮消息传播时的历史传播状态信息、以及消息信息进行融合,得到边在当前轮消息传播时的当前传播状态信息。
其中,某个边的入边指的是:某个边的起始节点的入边,该起始节点为某边上传播消息时的起始节点,起始节点的入边可以为包含该起始节点的邻居边。比如,化学结构图中终点节点为该起始节点的边(即消息传播方向与边的消息传播方向一致的邻居边)。例如,参考图2c,边e35起始点为节点V3,边e35的入边包括e23、e43。
例如,以边vw为例,定义一个基于边evw的消息传播的过程为:
Figure GDA0002693550320000131
Figure GDA0002693550320000132
在上面两式中,
Figure GDA0002693550320000133
为在边evw在t轮消息传播的消息信息;
Figure GDA0002693550320000134
是边evw在t+1轮消息传播的状态信息。N(v)是节点v的邻居集合,K(.)为边消息生成函数,S(.)为边状态融合函数,xk为节点k的特征向量,xv为节点v的特征向量。
通过上述公式,可以对入边kv在t轮消息传播时的状态信息
Figure GDA0002693550320000135
入边节点的特征向量xk、xv进行融合,生成每个入边kv的消息;然后,通过累加的方式将所有入边的消息进行聚合,得到边vw在t+1轮消息传播时的消息信息
Figure GDA0002693550320000136
接着,通过边状态融合函数S(.)将边vw的
Figure GDA0002693550320000137
在t轮消息传播的状态信息进行融合,得到边vw在t+1轮消息传播时的状态信息,从而得到边vw的新特征向量,例如,在状态信息为向量形式时,可以直接将vw在t+1轮消息传播时的状态信息作为边vw的新特征向量。
其中,边的消息生方式有多种,也即对入边的信息融合方式有多种,在一实施例中为了提升边特征的提取精确性,可以通过以下方式融合:
具体地,步骤“,对入边的当前边特征、入边上节点的原始节点特征、以及入边在历史消息传播时的历史传播状态信息进行融合,得到入边的消息”,可以包括:
根据消息生成参数,对入边的当前边特征、入边上节点的原始节点特征、以及入边在历史消息传播时的历史传播状态信息进行融合,得到融合后特征;
基于激活函数对融合后特征进行处理,得到入边的消息。
例如,将边消息生成函数Ki定义为:
Figure GDA0002693550320000138
其中,σ(.),为激活函数,一般的激活函数有ReLu(x)=max(0,x),
Figure GDA0002693550320000141
等,concat为拼接函数,即将三个向量拼接在一起。
Figure GDA0002693550320000142
为消息生成函数参数。
通过该消息生成函数
Figure GDA0002693550320000143
可以生成边vw的消息,同样可以通过上述公式可以获得图中每个入边的消息。
例如,参考图2c,以上为一个计算消息传播的例子。为了计算边e35在t+1轮消息传播的消息信息,首选确定起始点(v3)的所有入边e43、e23。
通过上述定义的边消息生成函数Ki函数计算入边e43、e23的消息;然后,通过上述定义的
Figure GDA0002693550320000144
计算函数,将入边e43、e23的消息融合如累加,得到e35在t+1轮消息传播的消息信息
Figure GDA0002693550320000145
通过上述方式可以获取边在当前轮消息传播的消息信息,之后,本申请实施例可以将当前轮消息传播的消息信息,与历史轮消息传播的历史传播状态信息进行融合,得到边在当前轮消息传播的当前状态信息。比如,通过上述公式可以计算出边vw在t+1轮消息传播时的消息信息
Figure GDA0002693550320000146
然后,基于状态融合函数S将消息信息
Figure GDA0002693550320000147
将边vw的
Figure GDA0002693550320000148
边vw在t轮消息传播的状态信息进行融合,得到边vw在t+1轮消息传播时的状态信息
Figure GDA0002693550320000149
其中,
其中,历史轮消息传播为当前轮之前轮的消息传播,也即之前的消息传播,可以根据实际需求设定,比如,可以为上一轮消息传播(例如本申请实施例中t+1表示当前轮消息传播,t可以表示上一轮消息传播)、第1轮消息传播、第0轮消息传播等等。
在一实施例中,步骤“对边在历史轮消息传播时的历史传播状态信息、以及消息信息进行融合,得到边在当前轮消息传播时的当前传播状态信息”,可以包括:
获取边在参考历史轮消息传播时的参考历史传播状态信息;
根据第一融合参数对参考历史传播状态、和消息信息进行融合,得到融合后传播状态信息;
基于激活函数对融合后传播状态进行处理,得到边在当前轮消息传播时的当前传播状态信息。
其中,参考历史轮消息传播可以之前轮消息传播中任一轮消息传播,可以根据实际需求设定,为上一轮消息传播、第1轮消息传播、第0轮消息传播等等。
例如,以参考历史轮消息传播为第1轮消息传播为例:
将边状态融合函数定义为:
Figure GDA0002693550320000151
Figure GDA0002693550320000152
为融合函数参数(对应上述第一融合参数)。
在一实施例中,参考历史传播状态信息的获取方式有多种,比如,步骤“获取边在参考历史轮消息传播时的参考历史传播状态信息”,可以包括:
根据第二融合参数对边的原始边特征、边上节点的原始节点特征进行融合,得到边的融合后边特征;
基于激活函数对融合后边特征进行处理,得到边在参考历史轮消息传播时的参考历史传播状态信息。
例如,以参考历史轮消息传播为第1轮或者初始轮消息传播为例,其中,
Figure GDA0002693550320000153
为边vw的输入状态,即第1轮消息传播的状态:
定义为:
Figure GDA0002693550320000154
为输入参数(对应上述第二融合参数)。
在一实施例中,为提升消息传播效率和准确性,上述WK,WS等参数在一次传播过程中共享,也即参数共享。
本申请实施例可以通过上述边上的消息传播方式,获取化学结构图中每个边在每一轮消息传播时的状态信息如
Figure GDA0002693550320000155
从而得到每个边在经过多轮消息传播后的状态信息。
为了便于实现消息传播和性质预测,在一实施例中,可以每一轮消息传播过程表示成一个神经网络层,可以称为消息传播层。例如,参考图2d,消息传播层的输入包括节点特征向量集合X、以及所有边在上一轮消息传播时的历史传播状态信息如
Figure GDA0002693550320000156
例如,第一轮消息传播层的输入可以包括节点特征向量集合X、所有边在第0轮消息传播的状态信息H0;经过神经网络层进行消息传播后输出所有边在第一轮消息传播的状态信息Ht
其中,
Figure GDA0002693550320000161
为每条边输入/输出状态向量的集合表示。
因此,本申请实施例提供可以提供一包含多个消息传播层的神经网络来实现消息传播和性质预测,其中,每个消息传播层实现一轮消息传播。比如,可以通过基于节点信息共享的多层边信息传播模型来实现消息传播,该多层边消息传播模型为一个神经网络,包括多个消息传播层。通过该多层边消息传播模型中多个消息传播,根据节点的原始节点特征、边的原始边特征,在边上进行多轮消息传播,得到边在经过多轮消息传播后的传播状态信息。
在一实施例中,步骤“基于初始输入在边上进行多轮消息传播,得到边在经过多轮消息传播后的传播状态信息”,可以包括:
将初始输入导入至多层边信息传播模型,多层边信息传播模型包括:多个消息传播层、节点特征转化层、和融合层;
通过多层边信息传播模型中多个消息传播层在边上进行多轮消息传播,得到边在经过多轮消息传播后的传播状态信息。
例如,在一实施例中,提供了一种基于节点信息共享的多层边信息传播模型,其网络结构参考图2e。参考图2e,模型的输入包括所有节点的特征向量X、所有边的特征向量E;首先根据所有节点的特征向量X、所有边的特征向量E计算出边的初始状态信息H0,将初始状态信息输入至第一个消息传播层K1/S1进行消息传播输出所有边在第一轮消息传播时或后的状态信息H1,将所有节点的特征向量X、状态信息H1输入至第二个消息传播层K2/S2进行消息传播输出所有边在第二轮消息传播时或后的状态信息H2;……依次类推,直到在第n个消息传播层Kn/Sn进行消息传播输出所有边在第n轮消息传播时或后的状态信息Hn
205、根据传播状态信息获取边的目标特征。
通过上述步骤可以得到化学结构图中每条边在经过多轮消息传播后的传播状态信息如
Figure GDA0002693550320000162
本申请实施例可以根据每条边在经过多轮消息传播后的传播状态信息构建每条的目标特征即每条边的新特征。具体地的构建方式有多种,比如,可以直接将边的当前传播状态信息作为边的目标特征。在一实施例中,在状态信息以向量形式表示的情况下,可以直接将边的当前传播状态信息作为边的目标特征向量即边的新特征向量。
206、根据边的目标特征预测目标化合物的性质,并输出目标化合物的性质预测结果。
具体地,目标化合物的性质预测可以通过分类得到,比如,可以根据边的目标特征对化学结构图(Graph)进行分类,得到分类结果,根据分类结果获取目标化合物的性质预测结果,譬如,该分类结果可以直接作为目标化合物的性质类型。
其中,化学结构图的类型、或者性质类型可以划分化学性质、生物性质等,具体地,可以包括毒性、溶解性,致癌性等。
在一实施例中,为提升性质的预测准确性,可以将边的特征转换为化学结构图中各节点的特征,然后,将节点的特征整合为化学结构图的特征,从而进行性质预测。具体地,步骤“根据边的目标特征预测目标化合物的性质”,可以包括:
将边的目标特征转换化学结构成图中每个节点的节点特征;
对每个节点的节点特征进行融合,得到化学结构图的特征;
根据化学结构图的特征预测目标化合物的性质。
其中,边特征转换为节点特征的方式可以有多种,比如,为了提升性质预测或分类的准确性,在一实施例中,步骤“将边的目标特征转换成化学结构图中每个节点的节点特征”,可以包括:
针对每个节点,确定与节点相关联的关联边,关联边包括节点、以及节点的邻居节点;
对所有关联边的目标特征进行融合,得到融合后关联边特征;
基于第三融合参数对节点的当前节点特征、和融合后关联边特征进行融合,得到节点的节点特征。
其中,每个节点的关联边可以包括:终止节点为该节点的边,例如,对于节点v,其关联边可以包括终止节点为节点v的邻居边即边kv,该关联边的起始节点k为节点v邻居节点。
在一实施例中,可以通过多层信息传播模型来实现转换和融合,具体地,步骤“根据边的目标特征预测目标化合物的性质”,可以包括:
通过节点特征转化层将边的目标特征转换成化学结构图中每个节点的节点特征;
通过融合层对每个节点的节点特征进行融合,得到化学结构图的特征;
根据化学结构图的特征预测目标化合物的性质。
例如,参考图2e,多层边信息传播模型还可以包括节点特征转换层(To NodeRepresentation),该节点特征转换层可以将边的目标特征向量转换成节点的特征向量,即将边的向量表示转化为节点向量表示,具体的,给定输入Hn,每个节点v的向量表示可以用以下方法进行计算:
Figure GDA0002693550320000181
在上式中,
Figure GDA0002693550320000182
为输出参数(对应第三融合参数),Wout由所有节点共享。通过To Node Representation,可以将边的特征向量表示转化为节点的特征向量表示。
在一实施例中,为了便于计算,可以对每个节点的节点特征进行融合,得到预定或固定长度的特征向量;即将输出的节点向量转化为定长的图表示向量。
例如,参考图2e,多层边信息传播模型还可以包括融合(Aggregation)层。Aggregation层主要负责将节点的特征向量转化成定长的图特征向量,即将输出的节点向量转化为定长的图表示向量。在一实施例中,为提升计算效率,使用加和函数来进行转化:
Figure GDA0002693550320000183
通过上述模型,本申请实施例可以得到任意图的定长向量表示g。
其中,融合层的融合实现方式除了采用加和函数实现融合,还可以通过最大池化(MaxPooling)、自注意力(Self-attention)等方式融合。
通过上述方式可以得到目标化合物的化学结构图的特征信息如特征向量,然后,基于图像的特征信息预测性质,比如,在一实施例中,可以根据化学结构图的特征信息对化学结构图进行性质分类,得到目标化合物的性质预测结果。其中,化学结构图的类型可以包括生物性质、化学性质等。譬如包括毒性、溶解性,致癌性等。
例如,在一实施例中,可以采用分类器如多层感知分类器根据化学结构图的特征信息对图进行分类,具体地,将化学结构图的特征信息输入至多层感知分类器,由分类器根据特征信息对目标化合物的图进行性质分类,得到性质分类结果。
本申请实施例中多层边信息传播模型可以为经过样本训练后的模型,其训练过程可以包括:
获取样本化合物的样本化学结构信息,所述样本化学结构信息包括样本原子和样本化学键;
根据所述样本化学结构信息生成与所述样本化学结构信息对应的样本化学结构图,所述样本化学结构图包括所述样本原子对应的样本节点,所述样本化学键对应的样本边;
构建样本节点的样本原始节点特征和样本边的样本原始边特征;
采用预设多层边信息传播模型,基于所述节点的样本原始节点特征、所述边的样本原始边特征预测样本化合物的性质,得到样本化合物的性质预测结果;具体地,样本物的性质预测结果可以参考上述实施例的描述;
基于损失函数计算样本化合物的性质预测结果与实际性质之间的损失,并基于损失对多层边信息传播模型进行训练,得到训练后的多层边信息传播模型。
本申请实施例提供的性质预测方法应用场景可以多种,比如,在药物分析场景对药物的性质进行分类,又比如,还可以在软件工程、漏洞等场景中对相似函数搜索等等。
由上可知,本申请实施例采用获取目标化合物的化学结构信息,化学结构信息包括原子和化学键;根据化学结构信息生成与化学结构信息对应的化学结构图,化学结构图包括原子对应的节点以及化学键对应的边;构建节点的原始节点特征和边的原始边特征;根据节点的原始节点特征、边的原始边特征,在边上进行多轮消息传播,得到边在经过多轮消息传播后的传播状态信息;根据当前传播状态信息获取边的目标特征;根据边的目标特征预测目标化合物的性质,并输出目标化合物的性质预测结果。该方案可以将目标化合物的化学结构式转化成图(Graph)这样数据结构;并在图数据上采用基于多次消息传播的方式获取图中化学键对应边的特征(也即获取目标化合物中化学键的特征信息),基于边的特征预测目标化合物的性质。由于可以将任何物质的化学结构式转化成图数据结构,可以适用于任何以及更好地适用于神经网络,灵活性和通用性较强,并且可以提升性质预测的稳定性和效果,进而提升性质预测的准确性,。
此外,由于化合物的性质往往和存在的化学键有关系,很多化学反应的本质其实就是化学键的断裂和重组,因此,基于化学键的特征信息可以准确地预测出目标化合物的性质,大大提升了性质预测的准确性。
根据前面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该化合物性质预测装置具体集成在计算机设备为例进行说明。
(一)模型的训练。
首先,计算机设备可以获取样本化合物集,根据样本物化合集对基于节点信息共享的多层边信息传播模型进行训练。其中,参考图2e,图像识别网络可以包括:多个消息传播层、节点特征转换层(To Node Representation)以及融合(Aggregation)层。模型的结构可以参考上述实施例的描述。
本申请实施例中,可以基于标注了性质的样本化合物的样本化学结构信息如化学结构式多层边信息传播模型进行训练,如可以采用反向传播的方式训练。具体,训练方式如下:
(1)、计算机设备获取样本化合物质的样本化学结构式,样本化学结构式包括样本原子和样本化学键。
(2)、计算机设备将样本化学结构式转换为样本化学结构图,样本化学结构图包括样本原子对应的样本节点,样本化学键对应的样本边。
具体地,转换方式可参考上述实施例描述。
(3)、计算机设备采用多层边信息传播模型,根据样本节点的样本原始节点特征、样本边的样本原始边特征,在样本边上进行多轮消息传播,得到样本边在经过多轮消息传播后的样本传播状态信息。
具体地消息传播方式可以参考上述介绍的消息传播方式。
(4)、计算机设备采用多层边信息传播模型基于样本传播状态信息获取样本边的样本目标特征。
(5)、计算机设备采用分类器根据样本边的样本目标特征预测样本化合物的性质,并输出样本化合物的性质预测结果。
具体地,基于样本目标特征预测样本化合物的性质可以参考上述基于边的目标特征预测目标化合物的过程。
(6)、计算机设备基于损失函数计算样本物的性质预测结果与标注性质之间的损失,并基于损失对多层边信息传播模型进行训练,得到训练后的多层边信息传播模型。
例如,可以通过交叉熵(CrossEntropy)损失函数来衡量当前模型预测和实际标签y的差距,损失函数如下:
oi=MLP(gi)
loss(yi,oi)=CrossEntropy(yi,oi)
在一些实施例中,可以最终的损失函数可以随着具体任务不同而不同。例如,如果最后是一个回归任务,则损失可以函数可以是用MSE(mean-square error,均方误差)损失函数。
(二)通过训练后多层边信息传播模型便可以实现对目标化合物的性质进行预测。
如图3所示,一种性质预测方法,具体流程如下:
301、计算机设备获取目标化合物的化学结构式,化学结构式包括原子和化学键。
比如,计算机设备可以获取药物的化学结构式。
302、计算机设备将化学结构式转换为化学结构图,化学结构图包括原子对应的节点,化学键对应的边。
303、计算机设备根据原子的属性信息构建节点的原始节点特征,根据化学键的属性信息构建边的原始边特征。
例如,根据原子的电荷数目,质子数,中子数等建模成原子的特征向量,根据化学键种类,化学键价态等建模成化学键对应边的特征向量。
304、计算机设备根据节点的原始节点特征、边的原始边特征获取多层边信息传播模型的初始输入信息。
例如,通过如下公式计算得到:
Figure GDA0002693550320000221
为融合参数,也可以成为输入参数。
305、计算机设备采用多层边信息传播模型中多个消息传播层,基于初始输入信息在边上进行多轮消息传播,得到边在经过多轮消息传播后的传播状态信息,进而得到边的目标特征。
具体地,可以参考上述消息传播过程。例如,参考图2e,模型的输入包括所有节点的特征向量X、所有边的特征向量E;首先根据所有节点的特征向量X、所有边的特征向量E计算出边的初始状态信息H0,将初始状态信息输入至第一个消息传播层K1/S1进行消息传播输出所有边在第一轮消息传播时或后的状态信息H1,将所有节点的特征向量X、状态信息H1输入至第二个消息传播层K2/S2进行消息传播输出所有边在第二轮消息传播时或后的状态信息H2;……依次类推,直到在第n个消息传播层Kn/Sn进行消息传播输出所有边在第n轮消息传播时或后的状态信息Hn
306、计算机设备采用节点特征转化层将边的目标特征转换成化学结构图中每个节点的节点特征。
例如,参考图2e,定输入Hn,每个节点v的向量表示可以用以下方法进行计算:
Figure GDA0002693550320000222
在上式中,
Figure GDA0002693550320000223
为输出参数(对应第三融合参数),Wout由所有节点共享。通过To Node Representation,可以将边的特征向量表示转化为节点的特征向量表示。
307、计算机设备采用融合层对每个节点的节点特征进行融合,得到化学结构图的预定长度特征。
例如,参考图2e,融合(Aggregation)层使用加和函数来进行转化:
Figure GDA0002693550320000231
通过上述模型,本申请实施例可以得到任意化学结构图的定长向量表示g。
308、计算机设备采用分类器基于化学结构图的预定长度特征对化学结构图进行性质分类,得到目标化合物的性质预测结果。
比如,可以采用多层感知分类器根据化学结构图的特征信息对化学结构图进行分类,具体地,将化学结构图的特征信息输入至多层感知分类器,由分类器根据特征信息对目标化合物的化学结构图进行性质分类,得到性质分类结果譬如包括毒性、溶解性,致癌性等。
例如,通过上述介绍的方式可以将药物的化学结构式转化为化学结构图结构,通过消息传播得到化学结构图的特征向量,基于化学结构图的特征向量对化学结构图进行性质分类,得到分类结果如毒性,此时,药物的性质预测结果即为毒性。
由上可知,本申请实施例可以通过将给定化合物转化成图(Graph)的表示形式,然后利用基于点信息共享的多层边信息传播模型来对化合物性质进行建模,从而达到对任意输入的化合物判断其对应性质,提升性质预测的准确性和稳定性。
为了更好地实施以上方法,本申请实施例还提供一种性质预测装置,该性质预测装置可以集成在计算机设备,比如服务器或终端等设备中。
例如,如图4a所示,该性质预测装置可以包括获取单元401、转换单元402、特征构建单元403、消息传播单元404、特征获取单元405和预测单元406等,如下:
获取单元401,用于获取目标化合物的化学结构信息,所述化学结构信息包括原子和化学;
转换单元402,用于根据所述化学结构信息生成与所述化学结构信息对应的化学结构图,所述化学结构图包括所述原子对应的节点以及所述化学键对应的边;
特征构建单元403,用于构建所述节点的原始节点特征和所述边的原始边特征;
消息传播单元404,用于根据所述节点的原始节点特征、所述边的原始边特征,在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息;
特征获取单元405,用于根据所述传播状态信息获取所述边的目标特征;
预测单元406,用于根据所述边的目标特征预测目标化合物的性质,并输出目标化合物的性质预测结果。
在一实施例中,参考图4b,所述消息传播单元404,可以包括:
初始输入子单元4041,用于根据所述节点的原始节点特征、所述边的原始边特征获取多轮消息传播的初始输入信息;
传播子单元4042,用于基于所述初始输入信息在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息。
在一实施例中,所述传播子单元4042,用于将所述初始输入信息作为当前轮消息传播的当前输入,并基于当前输入进行当前轮消息传播;
根据所述节点的原始节点特征、所述边的当前边特征以及历史传播状态信息,获取所述边在当前轮消息传播时的当前传播状态信息,其中,所述历史传播状态信息为所述边在历史轮消息传播时的传播状态信息;
在进入下一轮消息传播时,根据所述当前传播状态信息、节点的原始节点特征更新所述当前输入,并返回执行于当前输入进行当前轮消息传播的步骤直至完成所有轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息。
在一实施例中,所述传播子单元4042,用于:
确定所述边的起始节点对应的所有入边;
对所述入边的当前边特征、所述入边上节点的原始节点特征、以及所述入边在历史消息传播时的历史传播状态信息进行融合,得到所述入边的消息;
对所有入边的消息进行聚合,得到所述边在当前轮消息传播时的消息信息;
对所述边在历史轮消息传播时的历史传播状态信息、以及所述消息信息进行融合,得到所述边在当前轮消息传播时的当前传播状态信息。
在一实施例中,所述传播子单元4042,用于:
根据消息生成参数,对所述入边的当前边特征、所述入边上节点的原始节点特征、以及所述入边在历史消息传播时的历史传播状态信息进行融合,得到融合后特征;
基于激活函数对所述融合后特征进行处理,得到所述入边的消息。
在一实施例中,所述传播子单元4042,用于:
获取所述边在参考历史轮消息传播时的参考历史传播状态信息;
根据第一融合参数对参考历史传播状态、和所述消息信息进行融合,得到融合后传播状态信息;
基于激活函数对融合后传播状态进行处理,得到所述边在当前轮消息传播时的当前传播状态信息。
在一实施例中,所述传播子单元4042,用于:根据第二融合参数对所述边的原始边特征、所述边上节点的原始节点特征进行融合,得到所述边的融合后边特征;基于激活函数对融合后边特征进行处理,得到所述边在参考历史轮消息传播时的参考历史传播状态信息。
在一实施例中,参考图4c,所述预测单元406,可以包括:
转换子单元4061,用于将所述边的目标特征转换成所述化学结构图中每个节点的节点特征;
融合子单元4062,用于对每个节点的节点特征进行融合,得到所述化学结构图的特征;
预测子单元4063,用于根据所述化学结构图的特征预测目标化合物的性质。
在一实施例中,所述转换子单元4061,用于:
针对每个节点,确定与节点相关联的关联边,所述关联边包括所述节点、以及所述节点的邻居节点;
对所有关联边的目标特征进行融合,得到融合后关联边特征;
基于第三融合参数对所述节点的当前节点特征、和所述融合后关联边特征进行融合,得到所述节点的节点特征。
在一实施例中,所述特征构建单元403,用于:根据所述原子的原子属性信息构建节点的原始节点特征;根据所述化学键的属性信息构建所述边的原始边特征。
在一实施例中,所述传播子单元4042,用于:将所述初始输入导入至多层边信息传播模型,所述多层边信息传播模型包括:多个消息传播层、节点特征转化层、和融合层;通过多层边信息传播模型中多个消息传播层在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息;
所述预测单元406,用于:通过所述节点特征转化层将所述边的目标特征转换成所述化学结构图中每个节点的节点特征;通过所述融合层对每个节点的节点特征进行融合,得到所述化学结构图的特征;根据所述化学结构图的特征预测目标化合物的性质。
在一实施例中,参考图4d,性质预测装置还包括训练单元407,所述训练单元407,可以具体用于:
获取样本化合物的样本化学结构信息,所述样本化学结构信息包括样本原子和样本化学键;
根据所述样本化学结构信息生成与所述样本化学结构信息对应的样本化学结构图,所述样本化学结构图包括所述样本原子对应的样本节点,所述样本化学键对应的样本边;
构建所述样本节点的样本原始节点特征和所述样本边的样本原始边特征;
采用预设多层边信息传播模型,基于所述节点的样本原始节点特征、所述边的样本原始边特征预测样本化合物的性质,得到样本化合物的性质预测结果;
基于损失函数计算样本化合物的性质预测结果与实际性质之间的损失,并基于损失对所述多层边信息传播模型进行训练,得到训练后的多层边信息传播模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本申请实施例可以性质识别装置通过获取单元401获取目标化合物的化学结构信息,所述化学结构信息包括原子和化学键;由转换单元402根据所述化学结构信息生成与所述化学结构信息对应的化学结构图,所述化学结构图包括所述原子对应的节点以及所述化学键对应的边;由特征构建单元403构建所述节点的原始节点特征和所述边的原始边特征;由消息传播单元404根据所述节点的原始节点特征、所述边的原始边特征,在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息;由特征获取单元405根据所述传播状态信息获取所述边的目标特征;由预测单元406根据所述边的目标特征预测目标化合物的性质,并输出目标化合物的性质预测结果。由于该方案可以将目标化合物的化学结构式转化成图(Graph)这样的数据结构;并在图数据上采用基于多次消息传播的方式获取图中化学键对应边的特征,基于边的特征预测目标化合物的性质;因此,可以准确地预测出目标化合物的性质,大大提升了性质预测的准确性
本申请实施例还提供一种计算机设备,如图5所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图5中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、影像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
计算机设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
获取目标化合物的化学结构信息,所述化学结构信息包括原子和化学键;根据所述化学结构信息生成与所述化学结构信息对应的化学结构图,所述化学结构图包括所述原子对应的节点以及所述化学键对应的边;构建所述节点的原始节点特征和所述边的原始边特征;根据所述节点的原始节点特征、所述边的原始边特征,在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息;根据所述传播状态信息获取所述边的目标特征;根据所述边的目标特征预测目标化合物的性质,并输出目标化合物的性质预测结果。
或者
获取目标化合物的化学结构信息,所述化学结构信息包括原子和化学键;根据所述化学结构信息生成与所述化学结构信息对应的化学结构图,所述化学结构图包括所述原子对应的节点以及所述化学键对应的边;根据所述节点的原始节点特征向量、所述边的原始边特征向量获取所述多层边信息传播模型的初始输入信息;采用所述多层边信息传播模型,基于所述初始输入信息在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息;采用所述多层边信息传播模型,基于所述传播状态信息获取所述边的目标特征;采用所述多层边信息传播模型,根据所述边的目标特征预测目标化合物的性质,并输出目标化合物的性质预测结果。
以上各个操作具体可参见前面的实施例,在此不作赘述。
由上可知,本实施例的计算机设备在获取目标化合物的化学结构信息之后;根据化学结构信息生成化学结构信息对应的化学结构图,所述化学结构图包括原子对应的节点,化学键对应的边;构建所述节点的原始节点特征和所述边的原始边特征;根据所述节点的原始节点特征、所述边的原始边特征,在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息;根据所述传播状态信息获取所述边的目标特征;根据所述边的目标特征预测目标化合物的性质,并输出目标化合物的性质预测结果。由于该方案可以将目标化合物的化学结构式转化成图(Graph)这样的数据结构;并在图数据上采用基于多次消息传播的方式获取图中化学键对应边的特征,基于边的特征预测目标化合物的性质;因此,可以准确地预测出目标化合物的性质,大大提升了性质预测的准确性。
在一实施例中,上述集成有性质预测装置的计算机设备可以为数据共享系统(如区块链系统)中的一个节点,也即本申请实施例提供的性质预测方法可以由数据共享系统(如区块链系统)中节点实现。在一实施例中,还可以将性质预测结果存储至数据共享系统。
其中,数据共享系统中的每个节点在进行正常工作可以接收到输入信息,并基于接收到的输入信息维护该数据共享系统内的数据。为了保证数据共享系统内的信息互通,数据共享系统中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。例如,当数据共享系统中的任意节点接收到输入信息时,数据共享系统中的其他节点便根据共识算法获取该输入信息,将该输入信息作为共享数据中的数据进行存储,使得数据共享系统中全部节点上存储的数据均一致。
对于数据共享系统中的每个节点,均具有与其对应的节点标识,而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识,以便后续根据其他节点的节点标识,将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表,将节点名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息。比如,当集成有所述视频识别装置的终端或者服务器对待识别视频进行视频异常识别,得到识别结果时,将识别结果广播至节点标识列表中,节点标识对应的数据共享系统中的网络设备。下表仅以IP地址为例进行说明。
节点名称 节点标识
节点1 117.114.151.174
节点2 117.116.189.145
节点N 119.123.789.258
数据共享系统中的每个节点均存储一条相同的区块链。区块链由多个区块组成,参见图6b,区块链由多个区块组成,创始块中包括区块头和区块主体,区块头中存储有输入信息特征值、版本号、时间戳和难度值,区块主体中存储有输入信息;创始块的下一区块以创始块为父区块,下一区块中同样包括区块头和区块主体,区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值,并以此类推,使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联,保证了区块中输入信息的安全性。在本实施例中,可以将识别结果存储至区块主体中。
在生成区块链中的各个区块时,参见图6c,区块链所在的节点在接收到输入信息时,对输入信息进行校验,完成校验后,将输入信息存储至内存池中,并更新其用于记录输入信息的哈希树;之后,将更新时间戳更新为接收到输入信息的时间,并尝试不同的随机数,多次进行特征值计算,使得计算得到的特征值可以满足下述公式:
SHA256(SHA256(version+prev_hash+merkle_root+ntime+nbits+x))<TARGET
其中,SHA256为计算特征值所用的特征值算法;version(版本号)为区块链中相关区块协议的版本信息;prev_hash为当前区块的父区块的区块头特征值;merkle_root为输入信息的特征值;ntime为更新时间戳的更新时间;nbits为当前难度,在一段时间内为定值,并在超出固定时间段后再次进行确定;x为随机数;TARGET为特征值阈值,该特征值阈值可以根据nbits确定得到。
这样,当计算得到满足上述公式的随机数时,便可将信息对应存储,生成区块头和区块主体,得到当前区块。随后,区块链所在节点根据数据共享系统中其他节点的节点标识,将新生成的区块分别发送给其所在的数据共享系统中的其他节点,由其他节点对新生成的区块进行校验,并在完成校验后将新生成的区块添加至其存储的区块链中。
本申请实施例可以通过将预测结果存储至区块链,防止预测结果被篡改,提升了性质预测的可信度。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种性质预测方法中的步骤。例如,该计算机程序可以执行如下步骤:
获取目标化合物的化学结构信息,所述化学结构信息包括原子和化学键;根据所述化学结构信息生成与所述化学结构信息对应的化学结构图,所述化学结构图包括所述原子对应的节点以及所述化学键对应的边;构建所述节点的原始节点特征和所述边的原始边特征;根据所述节点的原始节点特征、所述边的原始边特征,在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息;根据所述传播状态信息获取所述边的目标特征;根据所述边的目标特征预测目标化合物的性质,并输出目标化合物的性质预测结果。
或者
获取目标化合物的化学结构信息,所述化学结构信息包括原子和化学键;根据所述化学结构信息生成与所述化学结构信息对应的化学结构图,所述化学结构图包括所述原子对应的节点以及所述化学键对应的边;根据所述节点的原始节点特征向量、所述边的原始边特征向量获取所述多层边信息传播模型的初始输入信息;采用所述多层边信息传播模型,基于所述初始输入信息在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息;采用所述多层边信息传播模型,基于所述传播状态信息获取所述边的目标特征;采用所述多层边信息传播模型,根据所述边的目标特征预测目标化合物的性质,并输出目标化合物的性质预测结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种性质预测方法中的步骤,因此,可以实现本申请实施例所提供的任一种性质预测方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种化合物性质预测方法、装置、计算机设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (22)

1.一种化合物性质预测方法,其特征在于,包括:
获取目标化合物的化学结构信息,所述化学结构信息包括原子和化学键;
根据所述化学结构信息生成与所述化学结构信息对应的化学结构图,所述化学结构图包括所述原子对应的节点以及所述化学键对应的边;
构建所述节点的原始节点特征和所述边的原始边特征;
根据所述节点的原始节点特征、所述边的原始边特征获取多轮消息传播的初始输入信息;
将所述初始输入导入至多层边信息传播模型,所述多层边信息传播模型包括:多个消息传播层、节点特征转化层和融合层;
通过多层边信息传播模型中多个消息传播层在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息;
根据所述传播状态信息获取所述边的目标特征;
通过所述节点特征转化层将所述边的目标特征转换成所述化学结构图中每个节点的节点特征;
通过所述融合层对每个节点的节点特征进行融合,得到所述化学结构图的特征;
根据所述化学结构图的特征预测目标化合物的性质,并输出目标化合物的性质预测结果。
2.如权利要求1所述的化合物性质预测方法,其特征在于,通过多层边信息传播模型中多个消息传播层在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息,包括:
将所述初始输入信息作为当前轮消息传播的当前输入,并基于当前输入进行当前轮消息传播,其中,每一个消息传播层对应一轮消息传播;
通过多层边信息传播模型中消息传播层,根据所述节点的原始节点特征、所述边的当前边特征以及历史传播状态信息,获取所述边在当前轮消息传播时的当前传播状态信息,其中,所述历史传播状态信息为所述边在历史轮消息传播时的传播状态信息;
在进入下一轮消息传播时,根据所述当前传播状态信息、节点的原始节点特征更新所述当前输入,并返回执行基于当前输入进行当前轮消息传播的步骤直至完成所有轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息。
3.如权利要求2所述的化合物性质预测方法,其特征在于,根据所述节点的原始节点特征、所述边的当前边特征以及历史传播状态信息,获取所述边在当前轮消息传播时的当前传播状态信息,包括:
确定所述边的起始节点对应的所有入边;
对所述入边的当前边特征、所述入边上节点的原始节点特征、以及所述入边在历史消息传播时的历史传播状态信息进行融合,得到所述入边的消息;
对所有入边的消息进行聚合,得到所述边在当前轮消息传播时的消息信息;
对所述边在历史轮消息传播时的历史传播状态信息、以及所述消息信息进行融合,得到所述边在当前轮消息传播时的当前传播状态信息。
4.如权利要求3所述的化合物性质预测方法,其特征在于,对所述入边的当前边特征、所述入边上节点的原始节点特征、以及所述入边在历史消息传播时的历史传播状态信息进行融合,得到所述入边的消息,包括:
根据消息生成参数,对所述入边的当前边特征、所述入边上节点的原始节点特征、以及所述入边在历史消息传播时的历史传播状态信息进行融合,得到融合后特征;
基于激活函数对所述融合后特征进行处理,得到所述入边的消息。
5.如权利要求3所述的化合物性质预测方法,其特征在于,对所述边在历史轮消息传播时的历史传播状态信息、以及所述消息信息进行融合,得到所述边在当前轮消息传播时的当前传播状态信息,包括:
获取所述边在参考历史轮消息传播时的参考历史传播状态信息;
根据第一融合参数对参考历史传播状态、和所述消息信息进行融合,得到融合后传播状态信息;
基于激活函数对融合后传播状态进行处理,得到所述边在当前轮消息传播时的当前传播状态信息。
6.如权利要求5所述的化合物性质预测方法,其特征在于,获取所述边在参考历史轮消息传播时的参考历史传播状态信息,包括:
根据第二融合参数对所述边的原始边特征、所述边上节点的原始节点特征进行融合,得到所述边的融合后边特征;
基于激活函数对融合后边特征进行处理,得到所述边在参考历史轮消息传播时的参考历史传播状态信息。
7.如权利要求1-6任一项所述的化合物性质预测方法,其特征在于,根据所述边的目标特征预测目标化合物的性质,包括:
将所述边的目标特征转换成所述化学结构图中每个节点的节点特征;
对每个节点的节点特征进行融合,得到所述化学结构图的特征;
根据所述化学结构图的特征预测目标化合物的性质。
8.如权利要求7所述的化合物性质预测方法,其特征在于,将所述边的目标特征转换成所述化学结构图中每个节点的节点特征,包括:
针对每个节点,确定与节点相关联的关联边,所述关联边包括所述节点、以及所述节点的邻居节点;
对所有关联边的目标特征进行融合,得到融合后关联边特征;
基于第三融合参数对所述节点的当前节点特征、和所述融合后关联边特征进行融合,得到所述节点的节点特征。
9.如权利要求1所述的化合物性质预测方法,其特征在于,构建所述节点的原始节点特征和所述边的原始边特征,包括:
根据所述原子的原子属性信息构建节点的原始节点特征;
根据所述化学键的属性信息构建所述边的原始边特征。
10.如权利要求1所述的化合物性质预测方法,其特征在于,还包括:
获取样本化合物的样本化学结构信息,所述样本化学结构信息包括样本原子和样本化学键;
根据所述样本化学结构信息生成与所述样本化学结构信息对应的样本化学结构图,所述样本化学结构图包括所述样本原子对应的样本节点,所述样本化学键对应的样本边;
构建所述样本节点的样本原始节点特征和所述样本边的样本原始边特征;
采用预设多层边信息传播模型,基于所述节点的样本原始节点特征、所述边的样本原始边特征预测样本化合物的性质,得到样本化合物的性质预测结果;
基于损失函数计算样本化合物的性质预测结果与实际性质之间的损失,并基于损失对所述多层边信息传播模型进行训练,得到训练后的多层边信息传播模型。
11.一种基于多层边信息传播模型的化合物性质预测方法,其特征在于,包括:
获取目标化合物的化学结构信息,所述化学结构信息包括原子和化学键;
根据所述化学结构信息生成与所述化学结构信息对应的化学结构图,所述化学结构图包括所述原子对应的节点以及所述化学键对应的边;
根据所述节点的原始节点特征向量、所述边的原始边特征向量获取所述多层边信息传播模型的初始输入信息;采用所述多层边信息传播模型中多个消息传播层在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息,所述多层边信息传播模型还包括节点特征转化层和融合层;
采用所述多层边信息传播模型,基于所述传播状态信息获取所述边的目标特征;
通过所述节点特征转化层将所述边的目标特征转换成所述化学结构图中每个节点的节点特征;
通过所述融合层对每个节点的节点特征进行融合,得到所述化学结构图的预定长度特征;
根据所述化学结构图的特征预测目标化合物的性质,并输出目标化合物的性质预测结果。
12.一种化合物性质预测装置,其特征在于,包括:
获取单元,用于获取目标化合物的化学结构信息,所述化学结构信息包括原子和化学键;
转换单元,用于根据所述化学结构信息生成与所述化学结构信息对应的化学结构图,所述化学结构图包括所述原子对应的节点以及所述化学键对应的边;
特征构建单元,用于构建所述节点的原始节点特征和所述边的原始边特征;
消息传播单元,用于根据所述节点的原始节点特征、所述边的原始边特征获取多轮消息传播的初始输入信息;将所述初始输入导入至多层边信息传播模型,所述多层边信息传播模型包括:多个消息传播层、节点特征转化层和融合层;通过多层边信息传播模型中多个消息传播层在所述边上进行多轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息;
特征获取单元,用于根据所述传播状态信息获取所述边的目标特征;
预测单元,用于通过所述节点特征转化层将所述边的目标特征转换成所述化学结构图中每个节点的节点特征;通过所述融合层对每个节点的节点特征进行融合,得到所述化学结构图的特征;根据所述化学结构图的特征预测目标化合物的性质,并输出目标化合物的性质预测结果。
13.如权利要求12所述的化合物性质预测装置,其特征在于,所述消息传播单元,包括:
初始输入子单元,用于根据所述节点的原始节点特征、所述边的原始边特征获取多轮消息传播的初始输入信息;
传播子单元,用于将所述初始输入信息作为当前轮消息传播的当前输入,并基于当前输入进行当前轮消息传播;根据所述节点的原始节点特征、所述边的当前边特征以及历史传播状态信息,获取所述边在当前轮消息传播时的当前传播状态信息,其中,所述历史传播状态信息为所述边在历史轮消息传播时的传播状态信息;在进入下一轮消息传播时,根据所述当前传播状态信息、节点的原始节点特征更新所述当前输入,并返回执行于当前输入进行当前轮消息传播的步骤直至完成所有轮消息传播,得到所述边在经过多轮消息传播后的传播状态信息。
14.如权利要求13所述的化合物性质预测装置,其特征在于,所述传播子单元,用于:
确定所述边的起始节点对应的所有入边;
对所述入边的当前边特征、所述入边上节点的原始节点特征、以及所述入边在历史消息传播时的历史传播状态信息进行融合,得到所述入边的消息;
对所有入边的消息进行聚合,得到所述边在当前轮消息传播时的消息信息;
对所述边在历史轮消息传播时的历史传播状态信息、以及所述消息信息进行融合,得到所述边在当前轮消息传播时的当前传播状态信息。
15.如权利要求14所述的化合物性质预测装置,其特征在于,所述传播子单元,用于:
根据消息生成参数,对所述入边的当前边特征、所述入边上节点的原始节点特征、以及所述入边在历史消息传播时的历史传播状态信息进行融合,得到融合后特征;
基于激活函数对所述融合后特征进行处理,得到所述入边的消息。
16.如权利要求15所述的化合物性质预测装置,其特征在于,所述传播子单元,用于:
获取所述边在参考历史轮消息传播时的参考历史传播状态信息;
根据第一融合参数对参考历史传播状态、和所述消息信息进行融合,得到融合后传播状态信息;
基于激活函数对融合后传播状态进行处理,得到所述边在当前轮消息传播时的当前传播状态信息。
17.如权利要求16所述的化合物性质预测装置,其特征在于,所述传播子单元,用于:根据第二融合参数对所述边的原始边特征、所述边上节点的原始节点特征进行融合,得到所述边的融合后边特征;基于激活函数对融合后边特征进行处理,得到所述边在参考历史轮消息传播时的参考历史传播状态信息。
18.如权利要求12所述的化合物性质预测装置,其特征在于,所述预测单元,包括:
转换子单元,用于针对每个节点,确定与节点相关联的关联边,所述关联边包括所述节点、以及所述节点的邻居节点;对所有关联边的目标特征进行融合,得到融合后关联边特征;基于第三融合参数对所述节点的当前节点特征、和所述融合后关联边特征进行融合,得到所述节点的节点特征;
融合子单元,用于对每个节点的节点特征进行融合,得到所述化学结构图的特征;
预测子单元,用于根据所述化学结构图的特征预测目标化合物的性质。
19.如权利要求12所述的化合物性质预测装置,其特征在于,所述特征构建单元,用于:根据所述原子的原子属性信息构建节点的原始节点特征;根据所述化学键的属性信息构建所述边的原始边特征。
20.如权利要求12所述的化合物性质预测装置,其特征在于,还包括训练单元,所述训练单元,用于:
获取样本化合物的样本化学结构信息,所述样本化学结构信息包括样本原子和样本化学键;
根据所述样本化学结构信息生成与所述样本化学结构信息对应的样本化学结构图,所述样本化学结构图包括所述样本原子对应的样本节点,所述样本化学键对应的样本边;
构建所述样本节点的样本原始节点特征和所述样本边的样本原始边特征;
采用预设多层边信息传播模型,基于所述节点的样本原始节点特征、所述边的样本原始边特征预测样本化合物的性质,得到样本化合物的性质预测结果;
基于损失函数计算样本化合物的性质预测结果与实际性质之间的损失,并基于损失对所述多层边信息传播模型进行训练,得到训练后的多层边信息传播模型。
21.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-11任一项所述方法的步骤。
22.一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1-11任一项方法中的步骤。
CN201910979509.8A 2019-10-15 2019-10-15 化合物性质预测方法、装置、计算机设备及可读存储介质 Active CN110767271B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910979509.8A CN110767271B (zh) 2019-10-15 2019-10-15 化合物性质预测方法、装置、计算机设备及可读存储介质
CN202011253415.1A CN112309509B (zh) 2019-10-15 2019-10-15 化合物性质预测方法、装置、计算机设备及可读存储介质
EP20877236.8A EP3992976A4 (en) 2019-10-15 2020-09-24 METHOD AND DEVICE FOR PREDICTING LINK PROPERTIES, AND COMPUTER DEVICE AND READABLE STORAGE MEDIA
PCT/CN2020/117433 WO2021073391A1 (zh) 2019-10-15 2020-09-24 化合物性质预测方法、装置、计算机设备及可读存储介质
US17/168,162 US11942191B2 (en) 2019-10-15 2021-02-04 Compound property prediction method and apparatus, computer device, and readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910979509.8A CN110767271B (zh) 2019-10-15 2019-10-15 化合物性质预测方法、装置、计算机设备及可读存储介质

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202011253415.1A Division CN112309509B (zh) 2019-10-15 2019-10-15 化合物性质预测方法、装置、计算机设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110767271A CN110767271A (zh) 2020-02-07
CN110767271B true CN110767271B (zh) 2021-01-08

Family

ID=69331212

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910979509.8A Active CN110767271B (zh) 2019-10-15 2019-10-15 化合物性质预测方法、装置、计算机设备及可读存储介质
CN202011253415.1A Active CN112309509B (zh) 2019-10-15 2019-10-15 化合物性质预测方法、装置、计算机设备及可读存储介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202011253415.1A Active CN112309509B (zh) 2019-10-15 2019-10-15 化合物性质预测方法、装置、计算机设备及可读存储介质

Country Status (4)

Country Link
US (1) US11942191B2 (zh)
EP (1) EP3992976A4 (zh)
CN (2) CN110767271B (zh)
WO (1) WO2021073391A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210149966A1 (en) * 2019-11-20 2021-05-20 American Chemical Society Systems and methods for performing a computer-implemented prior art search and novel markush landscape
CN110957012B (zh) * 2019-11-28 2021-04-09 腾讯科技(深圳)有限公司 化合物的性质分析方法、装置、设备及存储介质
US20210287137A1 (en) * 2020-03-13 2021-09-16 Korea University Research And Business Foundation System for predicting optical properties of molecules based on machine learning and method thereof
CN111667884B (zh) * 2020-06-12 2022-09-09 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN112086145B (zh) * 2020-09-02 2024-04-16 腾讯科技(深圳)有限公司 一种化合物活性预测方法、装置、电子设备和存储介质
CN111986740A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 化合物分类方法及相关设备
CN111933225B (zh) * 2020-09-27 2021-01-05 平安科技(深圳)有限公司 药物分类方法、装置、终端设备以及存储介质
CN112309508A (zh) * 2020-11-02 2021-02-02 苏州创腾软件有限公司 化合物的解析方法、装置、计算机设备和存储介质
CN113255770B (zh) * 2021-05-26 2023-10-27 北京百度网讯科技有限公司 化合物属性预测模型训练方法和化合物属性预测方法
CN113255769B (zh) * 2021-05-26 2024-03-29 北京百度网讯科技有限公司 化合物属性预测模型训练方法和化合物属性预测方法
WO2022248735A1 (en) * 2021-05-28 2022-12-01 Deepmind Technologies Limited Training graph neural networks using a de-noising objective
CN113488114B (zh) * 2021-07-13 2024-03-01 南京邮电大学 含螺环的芴基分子晶体中分子间非共价键弱相互作用能预测方法及其预测模型训练方法
CN114446413A (zh) * 2022-02-17 2022-05-06 北京百度网讯科技有限公司 一种分子性质预测方法、装置及电子设备
CN115171814A (zh) * 2022-07-18 2022-10-11 慧壹科技(上海)有限公司 一种清洗小分子化合物的数据预处理系统及其方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461475A (zh) * 2018-10-26 2019-03-12 中国科学技术大学 一种基于人工神经网络的分子属性预测方法
JP2019095957A (ja) * 2017-11-21 2019-06-20 株式会社豊田中央研究所 属性値予測装置及び属性値予測プログラム
CN110263780A (zh) * 2018-10-30 2019-09-20 腾讯科技(深圳)有限公司 实现异构图、分子空间结构性质识别的方法、装置和设备
CN110277144A (zh) * 2018-03-15 2019-09-24 国际商业机器公司 使用累积的化学数据创建具有期望性质的新化学化合物以构建用于合成的新化学结构
WO2019186194A2 (en) * 2018-03-29 2019-10-03 Benevolentai Technology Limited Ensemble model creation and selection

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003006999A2 (en) * 2001-07-13 2003-01-23 Pharmacopeia, Inc. System and method for aqueous solubility prediction
US8401797B2 (en) * 2006-09-28 2013-03-19 Los Alamos National Security, Llc Method for predicting enzyme-catalyzed reactions
US20100225650A1 (en) * 2009-03-04 2010-09-09 Grzybowski Bartosz A Networks for Organic Reactions and Compounds
CN103150490B (zh) * 2013-02-20 2015-12-09 浙江大学 用于发现中药活性成分及其作用靶点的网络药理学方法
EP3268870A4 (en) * 2015-03-11 2018-12-05 Ayasdi, Inc. Systems and methods for predicting outcomes using a prediction learning model
CN105138866A (zh) * 2015-08-12 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法
CN108062551A (zh) * 2017-06-28 2018-05-22 浙江大学 一种基于邻接矩阵的图特征提取系统、图分类系统和方法
US10622098B2 (en) * 2017-09-12 2020-04-14 Massachusetts Institute Of Technology Systems and methods for predicting chemical reactions
CN107563121A (zh) 2017-09-15 2018-01-09 西北师范大学 不同取代基取代的四苯基卟啉化合物性质的预测方法
CN107679362B (zh) * 2017-09-19 2020-12-08 广东药科大学 化合物-蛋白质相互作用亲和力识别方法、系统和装置
CN109033738B (zh) * 2018-07-09 2022-01-11 湖南大学 一种基于深度学习的药物活性预测方法
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019095957A (ja) * 2017-11-21 2019-06-20 株式会社豊田中央研究所 属性値予測装置及び属性値予測プログラム
CN110277144A (zh) * 2018-03-15 2019-09-24 国际商业机器公司 使用累积的化学数据创建具有期望性质的新化学化合物以构建用于合成的新化学结构
WO2019186194A2 (en) * 2018-03-29 2019-10-03 Benevolentai Technology Limited Ensemble model creation and selection
CN109461475A (zh) * 2018-10-26 2019-03-12 中国科学技术大学 一种基于人工神经网络的分子属性预测方法
CN110263780A (zh) * 2018-10-30 2019-09-20 腾讯科技(深圳)有限公司 实现异构图、分子空间结构性质识别的方法、装置和设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Neural Message Passing for Quantum Chemistry;Justin Gilmer et al.;《arXiv》;20170612;第1-14页 *
Peter Bjørn Jørgensen et al..Neural Message Passing with Edge Updates for Predicting Properties of Molecules and Materials.《arXiv》.2018,第1-10页. *
Semi-Supervised Graph Classification: A Hierarchical Graph Perspective;Jia Li et al.;《arXiv》;20190410;第1-11页 *
基于图数据挖掘的化合物性质预测方法研究;王晓东;《中国优秀硕士学位论文全文数据库 工程科技辑》;20190115(第01期);第1-16页 *

Also Published As

Publication number Publication date
CN112309509B (zh) 2021-05-28
WO2021073391A1 (zh) 2021-04-22
CN112309509A (zh) 2021-02-02
CN110767271A (zh) 2020-02-07
US11942191B2 (en) 2024-03-26
EP3992976A4 (en) 2022-10-05
US20210158904A1 (en) 2021-05-27
EP3992976A1 (en) 2022-05-04

Similar Documents

Publication Publication Date Title
CN110767271B (zh) 化合物性质预测方法、装置、计算机设备及可读存储介质
Wang et al. SaliencyGAN: Deep learning semisupervised salient object detection in the fog of IoT
US11687588B2 (en) Weakly supervised natural language localization networks for video proposal prediction based on a text query
CN111431742B (zh) 网络信息检测方法、装置、存储介质和计算机设备
CN113094200B (zh) 一种应用程序的故障预测方法和装置
Han et al. Prediction-based learning for continuous emotion recognition in speech
US20220222925A1 (en) Artificial intelligence-based image processing method and apparatus, device, and storage medium
CN113762322A (zh) 基于多模态表示的视频分类方法、装置和设备及存储介质
CN111382190B (zh) 一种基于智能的对象推荐方法、装置和存储介质
CN110598019B (zh) 重复图像识别方法及装置
Wu et al. Language prompt for autonomous driving
CN113761250A (zh) 模型训练方法、商户分类方法及装置
Huang et al. HM-Modularity: A harmonic motif modularity approach for multi-layer network community detection
Shi et al. Network embedding via community based variational autoencoder
Kaya et al. LSTM Based Cross-corpus and Cross-task Acoustic Emotion Recognition.
CN112417289A (zh) 一种基于深度聚类的资讯信息智能推荐方法
KR20190125029A (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
CN113821668A (zh) 数据分类识别方法、装置、设备及可读存储介质
CN112732949A (zh) 一种业务数据的标注方法、装置、计算机设备和存储介质
Li et al. Enhanced broad siamese network for facial emotion recognition in human–robot interaction
Lin et al. The design of error-correcting output codes based deep forest for the micro-expression recognition
Aspandi et al. Audio-visual gated-sequenced neural networks for affect recognition
Hou et al. TrustServing: A quality inspection sampling approach for remote DNN services
Principi et al. The florence 4d facial expression dataset
Sathanur et al. When labels fall short: Property graph simulation via blending of network structure and vertex attributes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40020387

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant