CN113948157A

CN113948157A - 化学反应分类方法、装置、电子设备及存储介质

Info

Publication number: CN113948157A
Application number: CN202010688329.7A
Authority: CN
Inventors: 张一帆; 牛帅程; 赵沛霖; 黄俊洲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2022-01-18
Anticipated expiration: 2040-07-16
Also published as: CN113948157B

Abstract

本公开提供了一种化学反应分类方法、装置、电子设备及存储介质，所述方法包括：确定各目标化合物分别所包含的各原子以及所述各原子之间的拓扑关系，其中，所述各目标化合物包含各反应化合物以及所述各反应化合物经过化学反应后生成的各生成化合物；基于所述各原子以及所述各原子之间的拓扑关系，将所述各目标化合物分别表示为对应的图结构信息；调用预训练的图神经网络，从各所述图结构信息中分别提取所述各目标化合物分别对应的特征信息；基于所述各目标化合物分别对应的特征信息，确定所述化学反应所属的化学反应类别。本公开实施例能够提高化学反应分类的准确度。

Description

化学反应分类方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能领域，具体涉及一种化学反应分类方法、装置、电子设备及存储介质。

背景技术

在各种涉及到化学反应的学科中，对化学反应进行分类常常是实际应用中的基础需求。例如：在新型材料的制备研究中，化学家常常通过将多个化学反应链接在一起来构建合成途径。在这个过程中，最为基础的一项需求便是确定化学反应类别。一旦确定出错误的化学反应类别，便会带来巨大的经济损失。现有技术中，对化合物所提取出的特征信息质量往往较低，从而导致在所提取出的特征信息的基础上所进行的化学反应分类的准确度低下。

发明内容

本公开的一个目的在于提出一种化学反应分类方法、装置、电子设备及存储介质，能够提高化学反应分类的准确度。

根据本公开实施例的一个方面，公开了一种化学反应分类方法，所述方法包括：

确定各目标化合物分别所包含的各原子以及所述各原子之间的拓扑关系，其中，所述各目标化合物包含各反应化合物以及所述各反应化合物经过化学反应后生成的各生成化合物；

基于所述各原子以及所述各原子之间的拓扑关系，将所述各目标化合物分别表示为对应的图结构信息；

调用预训练的图神经网络，从各所述图结构信息中分别提取所述各目标化合物分别对应的特征信息；

基于所述各目标化合物分别对应的特征信息，确定所述化学反应所属的化学反应类别。

在本公开的一个示例性实施例中，基于所述目标化合物所包含的各原子之间的拓扑关系，确定各所述图节点之间的拓扑关系，包括：

根据所述目标化合物所包含的各原子的连接关系，确定对应的各所述图节点的连接关系；

确定所述目标化合物所包含的各原子之间的化学键的化学键类型；

基于对所述化学键类型预先分配的权重，确定各所述图节点的连接关系的连接权重。

在本公开的一个示例性实施例中，基于所述各目标化合物分别对应的特征信息，确定所述化学反应所属的化学反应类别，包括：

将所述各反应化合物的特征信息拼接为第一矩阵；

将所述各生成化合物的特征信息拼接为第二矩阵；

计算将所述第一矩阵转换为所述第二矩阵的第三矩阵，并解析所述第三矩阵的矩阵性质；

基于所述第三矩阵的矩阵性质确定化学反应所属的化学反应类别。

根据本公开实施例的一个方面，公开了一种化学反应分类装置，所述装置包括：

第一确定模块，配置为确定各目标化合物分别所包含的各原子以及所述各原子之间的拓扑关系，其中，所述各目标化合物包含各反应化合物以及所述各反应化合物经过化学反应后生成的各生成化合物；

表示模块，配置为基于所述各原子以及所述各原子之间的拓扑关系，将所述各目标化合物分别表示为对应的图结构信息；

提取模块，配置为调用预训练的图神经网络，从各所述图结构信息中分别提取所述各目标化合物分别对应的特征信息；

第二确定模块，配置为基于所述各目标化合物分别对应的特征信息，确定所述化学反应所属的化学反应类别。

在本公开的一个示例性实施例中，所述装置配置为：

针对每一所述目标化合物，将所述目标化合物所包含的各原子分别确定为对应的图节点；

基于所述目标化合物所包含的各原子之间的拓扑关系，确定各所述图节点之间的拓扑关系；

基于各所述图节点以及各所述图节点之间的拓扑关系，将所述目标化合物表示为对应的所述图结构信息。

在本公开的一个示例性实施例中，所述装置配置为：

针对每一所述目标化合物，识别所述目标化合物所包含的各原子团；

将所述各原子团以及所述目标化合物中除所述各原子团之外的各原子分别确定为对应的图节点；

基于各所述图节点以及各所述图节点之间的拓扑关系，将所述目标化合物表示为所述图结构信息。

在本公开的一个示例性实施例中，所述装置配置为：

针对每一所述目标化合物，通过所述图神经网络提取所述目标化合物所对应的图结构信息中各图节点的节点特征信息；

通过所述图神经网络对所述各图节点的节点特征信息进行融合，得到所述目标化合物的特征信息。

在本公开的一个示例性实施例中，所述装置配置为：

通过所述注意力网络层确定所述各图节点的节点特征信息分别对应的权重；

通过所述图神经网络根据各所述权重对所述各图节点的节点特征信息进行融合，得到所述目标化合物的特征信息。

在本公开的一个示例性实施例中，所述装置配置为：

通过所述注意力网络层确定所述各图节点的节点特征信息分别对应的复杂度；

根据所述复杂度确定所述各图节点的节点特征信息分别对应的权重。

在本公开的一个示例性实施例中，所述装置配置为：

将所述各反应化合物的特征信息拼接为第一矩阵；

将所述各生成化合物的特征信息拼接为第二矩阵；

在本公开的一个示例性实施例中，所述装置配置为：调用预训练的分类模型，从所述各目标化合物的特征信息中确定所述化学反应所属的化学反应类别。

在本公开的一个示例性实施例中，所述装置配置为：在预训练的过程中，以所述图神经网络的输出作为所述分类模型的输入得到所述分类模型的输出，并以所述分类模型的输出为反馈对所述图神经网络以及所述分类模型进行更新。

在本公开的一个示例性实施例中，所述装置配置为：

将预先配置的各样本化合物分别表示为对应的图结构信息，其中，所述各样本化合物包含各反应化合物以及所述各反应化合物经过第一化学反应类别的化学反应后生成的各生成化合物；

调用所述图神经网络，从各所述样本化合物的图结构信息中分别提取所述各样本化合物分别对应的特征信息；

调用所述分类模型，从所述各样本化合物的特征信息中估测所述化学反应所属的第二化学反应类别；

确定所述第一化学反应类别与所述第二化学反应类别之间的偏差；

基于所述偏差对所述图神经网络以及所述分类模型进行更新。

在本公开的一个示例性实施例中，所述装置配置为：

确定所述第一化学反应类别在类别树之中的第一树节点位置以及所述第二化学反应类别在所述类别树之中的第二树节点位置，其中，所述类别树为将所有可能化学反应类别按照所属关系进行排列得到的树状关系；

基于所述第一树节点位置与所述第二树节点位置，计算所述第一化学反应类别与所述第二化学反应类别之间的偏差。

在本公开的一个示例性实施例中，所述装置配置为：

对所述各反应化合物分别对应的特征信息进行平均，得到反应物特征信息；

对所述各生成化合物分别对应的特征信息进行平均，得到化合物特征信息；

通过所述分类模型根据所述反应物特征信息以及所述化合物特征信息确定所述化学反应所属的化学反应类别。

在本公开的一个示例性实施例中，所述装置配置为：

通过预训练的注意力网络对所述各反应化合物分别对应的特征信息进行处理，得到所述各反应化合物分别对应的第一权重；

通过所述注意力网络对所述各生成化合物分别对应的特征信息进行处理，得到所述各生成化合物分别对应的第二权重；

基于所述第一权重对所述各反应化合物的特征信息进行加权，得到反应物特征信息；

基于所述第二权重对所述各生成化合物的特征信息进行加权，得到生成物特征信息；

根据本公开实施例的一个方面，公开了一种化学反应分类电子设备，包括：存储器，存储有计算机可读指令；处理器，读取存储器存储的计算机可读指令，以执行以上所述的方法。

根据本公开实施例的一个方面，公开了一种计算机程序介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行以上所述的方法。

根据本公开实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

本公开实施例在对化学反应进行分类的过程中，针对参与该化学反应的各目标化合物，通过基于目标化合物所包含的各原子以及各原子之间的拓扑关系将目标化合物表示为图结构信息，进而从该图结构信息中提取出的目标化合物所对应的特征信息能够表征该目标化合物所包含的各原子之间的拓扑关系，提高了目标化合物所对应的特征信息的表征能力。从而提高了在目标化合物所对应的特征信息基础上所进行的化学反应分类的准确度。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参考附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。

图1示出了根据本公开一个实施例的化学反应分类的体系架构图。

图2示出了根据本公开一个实施例的化学反应分类方法的流程图。

图3示出了根据本公开一个实施例的类别树的部分结构。

图4示出了根据本公开一个实施例的化学反应分类的实施过程示意图。

图5示出了根据本公开一个实施例的图注意力网络的数据处理示意图。

图6示出了根据本公开一个实施例的化学反应分类装置的框图。

图7示出了根据本公开一个实施例的化学反应分类电子设备的硬件图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些示例实施方式使得本公开的描述将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的示例实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、步骤等。在其它情况下，不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本公开涉及人工智能领域，其中，人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

具体的，本公开实施例应用人工智能领域中的机器学习技术，在对化学反应进行分类的过程中，针对参与该化学反应的各目标化合物，通过基于目标化合物所包含的各原子以及各原子之间的拓扑关系将目标化合物表示为图结构信息，进而从该图结构信息中提取出的目标化合物所对应的特征信息能够表征该目标化合物所包含的各原子之间的拓扑关系，提高了目标化合物所对应的特征信息的表征能力。从而提高了在目标化合物所对应的特征信息基础上所进行的化学反应分类的准确度。

其中，机器学习(Machine Learning,简称ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本公开实施例可以应用于药物科学、环境科学、材料科学或者其他涉及到化学反应的学科中。

在一个实施例中，本公开所提供的化学反应分类方法以计算机程序的形式落地为一应用产品，进而应用于药物科学中化学反应条件的辅助推断中。

具体的，科研人员将实际药物生产过程中已知化学反应类别的各个化学反应式数据按照化学反应类别存储入预设的大型化学反应数据库中；进行新药物的合成时，科研人员首先设计出特定化学反应所对应的各反应化合物以及各生成化合物；将各反应化合物的信息以及各生成化合物的信息上传至该应用产品后，科研人员可以通过该应用产品确定该特定化学反应所属的化学反应类别。进而科研人员可以从该大型化学反应数据库中检索该特定化学反应所属的化学反应类别下的各种化学反应式数据，进而以检索到的化学反应式数据为参考，确定该特定化学反应的最佳反应条件。

图1示出了本公开一实施例的化学反应分类的体系架构图。

该实施例示出了本公开所提出的化学反应分类方法应用于药物研发场景时的体系架构组成：终端、服务器。终端主要用于化合物的模拟设计、化合物结构式的上传、接收并显示服务器下发的分类结果；服务器作为该化学反应分类方法的执行主体，主要用于确定终端所上传的化合物结构式所对应的化学反应所属的化学反应类型。

参考图1所示，用户可以在终端上进行药物分子的模拟设计，对药物分子所包含的原子以及各原子之间的化学键进行增添、删除或者更改；化学反应包含的各反应物以及各生成物均设计完成后，用户点击“上传”按钮，则终端将已区分反应物生成物的目标化合物的结构式上传至服务器，并向服务器请求确定对应的化学反应类别。服务器则根据接收到的结构式，确定各目标化合物分别所包含的各原子以及各原子之间的拓扑关系，进而在此基础上表示为对应的图结构信息，进而调用预训练的图神经网络对图结构信息进行特征信息的提取，进而根据所提取的特征信息确定化学反应类别。服务器将分类结果发送至终端，从而用户可以通过终端所显示的分类结果确定化学反应类别。

需要说明的是，该实施例只是示例性的说明，不应对本公开的功能和使用范围造成限制。其中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。

图2示出了本公开一个实施例的化学反应分类方法的流程图，示例性地以服务器为该方法的执行主体，该方法包括：

步骤S210、确定各目标化合物分别所包含的各原子以及所述各原子之间的拓扑关系，其中，所述各目标化合物包含各反应化合物以及所述各反应化合物经过化学反应后生成的各生成化合物；

步骤S220、基于所述各原子以及所述各原子之间的拓扑关系，将所述各目标化合物分别表示为对应的图结构信息；

步骤S230、调用预训练的图神经网络，从各所述图结构信息中分别提取所述各目标化合物分别对应的特征信息；

步骤S240、基于所述各目标化合物分别对应的特征信息，确定所述化学反应所属的化学反应类别。

本公开实施例中，针对待确定所属化学反应类别的化学反应，服务器确定该化学反应的各反应化合物分别所包含的各原子以及各原子之间的拓扑关系，并确定该化学反应的各生成化合物分别所包含的各原子以及各原子之间的拓扑关系。

具体的，对于实际发生的化学反应，服务器可以根据化学分析仪器对化合物的测定(例如：根据质谱仪、红外光谱仪或者其他仪器对化合物所包含原子、化学键进行测定)确定化合物所包含的各原子以及各原子之间的拓扑关系；对于人为设计待实现的化学反应，服务器可以根据对化合物已完成的设计确定化合物所包含的各原子以及各原子之间的拓扑关系。

本公开实施例中，确定各目标化合物分别所包含的各原子以及各原子之间的拓扑关系后，在此基础上，将各目标化合物分别表示为对应的图结构信息。

在一个实施例中，基于各原子以及各原子之间的拓扑关系，将各目标化合物分别表示为对应的图结构信息，包括：

针对每一目标化合物，将目标化合物所包含的各原子分别确定为对应的图节点；

基于目标化合物所包含的各原子之间的拓扑关系，确定各图节点之间的拓扑关系；

基于各图节点以及各图节点之间的拓扑关系，将目标化合物表示为对应的图结构信息。

该实施例中，服务器将化合物中的基本结构单位分别确定为对应的图节点。

具体的，化合物中的基本结构单位为该化合物所包含的各原子。针对由15个原子组成的反应化合物A，服务器将该15个原子分别确定为对应的15个图节点；基于该15个原子之间的拓扑关系，确定该15个图节点之间的拓扑关系；进而按照该拓扑关系生成该15个图节点所对应的图结构信息，即，反应化合物A所对应的图结构信息。同理，针对其他目标化合物生成对应的图结构信息的过程不再赘述。其中，图结构信息可以以图像数据的形式进行表示，也可以以矩阵数据的形式进行表示：矩阵的每行每列分别代表一个图节点，矩阵中元素的值代表对应行的图节点与对应列的图节点之间的拓扑关系。

该实施例的优点在于，通过高精细度生成图结构信息，从而保证了图结构信息所表征的拓扑关系信息的高丰富度。

在一个实施例中，基于目标化合物所包含的各原子之间的拓扑关系，确定各图节点之间的拓扑关系，包括：

根据目标化合物所包含的各原子的连接关系，确定对应的各图节点的连接关系；

确定目标化合物所包含的各原子之间的化学键的化学键类型；

基于对化学键类型预先分配的权重，确定各图节点的连接关系的连接权重。

该实施例中，在确定各图节点之间的拓扑关系时，服务器根据化学键类型确定各图节点的连接关系的连接权重。

具体的，图节点之间的拓扑关系，主要通过两个方面进行描述：是否相连、若相连则连接权重具体为多少。该实施例中连接权重对应化学键类型的权重。服务器可以根据化学键的作用力强弱为各种化学键类别分配对应的权重(例如：为共价键分配1.5的权重，为离子键分配1.2的权重，为金属键分配1.0的权重)。服务器确定各原子之间的拓扑关系后，针对其中任意两个原子，确定这两个原子之间是否存在相连的化学键。若这两个原子之间存在相连的化学键，则服务器可以确定这两个原子所对应的两个图节点是相连的；进而确定这两个原子之间化学键的类型，并将该化学键类型对应的权重确定为这两个图节点的连接权重。从而服务器确定各图节点之间的拓扑关系。

该实施例的优点在于，通过化学键类型确定各图节点的连接关系的连接权重，使得确定出的各图节点之间的拓扑关系能够精确表征化合物中的化学键信息。

针对每一目标化合物，识别目标化合物所包含的各原子团；

将各原子团以及目标化合物中除各原子团之外的各原子分别确定为对应的图节点；

基于各图节点以及各图节点之间的拓扑关系，将目标化合物表示为图结构信息。

该实施例中，服务器将化合物中的基本功能单位分别确定为对应的图节点。

具体的，化合物中的基本功能单位主要为该化合物所包含的各原子团以及除各原子团之外的单一原子。原子团中的各原子在化学反应的过程中通常作为一个整体参与反应(例如：在化学反应的过程中，原子团“-NH2”中的氮原子以及氢原子通常作为一个整体参与反应)。针对由15个原子组成的反应化合物A，服务器识别出其所包含的各原子团有“-NH2”以及“-OH”，进而将该2个原子团以及其他10个原子分别确定为对应的12个图节点；将该2个原子团分别作为对应的一个整体，根据反应化合物A所包含的15个原子之间的拓扑关系确定该12个图节点之间的拓扑关系；进而生成该12个图节点所对应的图结构信息，即，反应化合物A所对应的图结构信息。

该实施例的优点在于，以化合物的基本功能单位为基准进行图结构信息的生成，在保证图结构信息所表征的拓扑关系信息的丰富度的同时，一定程度上简化了图结构信息降低了后续的信息处理压力。

可以理解的，将基本功能单位确定为图节点的该实施例中确定各图节点之间的拓扑关系的具体实施过程，与将基本结构单位确定为图节点的实施例中确定各图节点之间的拓扑关系的具体实施过程同理，故在此不再赘述。

本公开实施例中，服务器预训练图神经网络。该图神经网络以图结构信息为输入，进而通过该图神经网络对输入的图结构信息进行变换、降维等一系列处理，输出通常为一维向量形式的信息，即得到该图结构信息对应的特征信息。图神经网络从图结构信息中提取得到的特征信息一定程度上仍然能够表征该图结构信息所包含的图节点之间的拓扑关系。

在一个实施例中，从各图结构信息中分别提取各目标化合物分别对应的特征信息，包括：

针对每一目标化合物，通过图神经网络提取目标化合物所对应的图结构信息中各图节点的节点特征信息；

通过图神经网络对各图节点的节点特征信息进行融合，得到目标化合物的特征信息。

该实施例中，针对每一目标化合物，服务器调用预训练的图神经网络，将该目标化合物所对应的图结构信息输入该图神经网络；进而该图神经网络提取出各图节点的节点特征信息，进而再对各图节点的节点特征信息融合，输出目标化合物的特征信息。

在一个实施例中，图神经网络中包含有注意力网络层，从各图结构信息中分别提取各目标化合物分别对应的特征信息，包括：

通过注意力网络层确定各图节点的节点特征信息分别对应的权重；

通过图神经网络根据各权重对各图节点的节点特征信息进行融合，得到目标化合物的特征信息。

该实施例中，服务器预训练的图神经网络中包含有注意力网络层，包含有注意力网络层的图神经网络通常也被称为图注意力网络(Graph Attention Networks,简称GAN)。注意力网络层的作用主要在于根据其自身的处理逻辑自动确定所输入整体数据的各局部数据的权重。例如：将一张人像的图片数据输入注意力网络层，注意力网络层根据自身的处理逻辑自动确定对该人像的图片数据进行后续处理的过程中，要以相对较高的权重对其中人脸部分的图片数据进行该后续处理。

针对每一目标化合物，服务器调用该图神经网络，将该目标化合物所对应的图结构信息输入该图神经网络；进而该图神经网络提取出各图节点的节点特征信息；进而各图节点的节点特征信息输入注意力网络层，注意力网络层进行处理，确定各图节点的节点特征信息分别对应的权重；进而图神经网络根据该权重对各图节点的节点特征信息进行融合，输出目标化合物的特征信息。

该实施例的优点在于，通过注意力网络层的引入，提高了特征信息的提取效率。

在一个实施例中，通过注意力网络层确定各图节点的节点特征信息分别对应的权重，包括：

通过注意力网络层确定各图节点的节点特征信息分别对应的复杂度；

根据复杂度确定各图节点的节点特征信息分别对应的权重。

该实施例中，注意力网络层基于节点特征信息的复杂度为节点特征信息分配权重。

具体的，对于以矩阵数据形式表示的图结构信息，注意力网络层可以以图节点在该矩阵数据中所对应的行向量或者列向量中非零元素的个数为基准，衡量该图节点的节点特征信息的复杂度；对于以图像数据形式表示的图结构信息，注意力网络层可以以图节点内部原子数目以及该图节点所连接其他图节点数目为基准，衡量该图节点的节点特征信息的复杂度。进而再根据复杂度确定图节点的节点特征信息所对应的权重，相对复杂度越高所对应的权重便相对越大。

本公开实施例中，服务器在获取到的各目标化合物分别对应的特征信息基础上确定化学反应所属的化学反应类别。

在一个实施例中，基于各目标化合物分别对应的特征信息，确定化学反应所属的化学反应类别，包括：

将各反应化合物的特征信息拼接为第一矩阵；

将各生成化合物的特征信息拼接为第二矩阵；

计算将第一矩阵转换为第二矩阵的第三矩阵，并解析第三矩阵的矩阵性质；

基于第三矩阵的矩阵性质确定化学反应所属的化学反应类别。

该实施例中，服务器通过矩阵数据之间的转换确定化学反应所属的化学反应类别。

具体的，由于目标化合物中的各生成化合物是由目标化合物中的各反应化合物经过化学反应生成的，各反应化合物的特征信息与各生成化合物的特征信息之间存在一个待确定的数学转换关系，该待确定的数学转换关系对应的即为该化学反应的化学反应类别。其中，该数学转换关系可以表示为矩阵数据。

该实施例中，服务器将获取到的各反应化合物分别对应的特征信息拼接为矩阵A(例如：矩阵A中的每一列向量分别是一个反应化合物所对应的特征信息)，将获取到的各生成化合物分别对应的特征信息拼接为矩阵B(例如：矩阵A中的每一列向量分别是一个反应化合物所对应的特征信息)；将矩阵A与矩阵B转换为同等矩阵维度的方阵(例如：通过在矩阵A与矩阵B中填充0，得到n×n维度的矩阵A以及n×n维度的矩阵B)；求得矩阵B的逆矩阵；将矩阵A与矩阵B的逆矩阵相乘得到矩阵C。该矩阵C即为化学反应类别所对应的矩阵数据。进而服务器通过解析矩阵C的矩阵性质，将矩阵C的矩阵性质与事先总结归纳出的各种化学反应类别所具有的矩阵性质进行对比匹配，从而确定该各反应化合物生成该各生成化合物的化学反应的化学反应类别。

在一个实施例中，基于各目标化合物分别对应的特征信息，确定化学反应所属的化学反应类别，包括：调用预训练的分类模型，从各目标化合物的特征信息中确定化学反应所属的化学反应类别。

该实施例中，服务器预训练分类模型。该分类模型以各反应化合物的特征信息以及各生成化合物的特征信息为输入，进而通过该分类模型对输入的特征信息进行一系列处理，输出分类结果，即化学反应所属的化学反应类别。其中，各反应化合物的特征信息整合为同一个反应特征、且各生成化合物的特征信息整合为同一生成特征后，再将该反应特征与该生成特征输入该分类模型。

该实施例的优点在于，由于分类模型可以以海量的样本数据进行训练，从而使得相比于通过矩阵数据的转换进行的分类，通过调用分类模型能够更精准地进行分类。

在一个实施例中，从各目标化合物的特征信息中确定化学反应所属的化学反应类别，包括：

对各反应化合物分别对应的特征信息进行平均，得到反应物特征信息；

对各生成化合物分别对应的特征信息进行平均，得到化合物特征信息；

通过分类模型根据反应物特征信息以及化合物特征信息确定化学反应所属的化学反应类别。

该实施例中，服务器通过直接平均的方式对化合物的特征信息进行整合。

具体的，对各反应化合物的特征信息进行平均，得到整合后的一个反应物特征信息；对各生成化合物的特征信息进行平均，得到整合后的一个生成物特征信息。进而将该反应物特征信息与该生成物特征信息作为分类模型的输入，从而通过分类模型的处理确定化学反应所属的化学反应类别。

通过预训练的注意力网络对各反应化合物分别对应的特征信息进行处理，得到各反应化合物分别对应的第一权重；

通过注意力网络对各生成化合物分别对应的特征信息进行处理，得到各生成化合物分别对应的第二权重；

基于第一权重对各反应化合物的特征信息进行加权，得到反应物特征信息；

基于第二权重对各生成化合物的特征信息进行加权，得到生成物特征信息；

该实施例中，在图神经网络与分类模型之间引入注意力网络，该注意力网络用于自动确定各化合物对应的权重。进而服务器通过加权的方式对化合物的特征信息进行整合。

具体的，将各反应化合物分别对应的特征信息输入该注意力网络，通过该注意力网络的处理确定各反应化合物分别对应的第一权重；同理确定各生成化合物分别对应的第二权重。进而第一权重对各反应化合物的特征信息进行加权，得到整合后的一个反应物特征信息；根据第二权重对各生成化合物的特征信息进行加权，得到整合后的一个生成物特征信息。通过分类模型对该反应物特征信息与该生成物特征信息的处理，确定化学反应所属的化学反应类别。

在一个实施例中，该方法还包括：在预训练的过程中，以图神经网络的输出作为分类模型的输入得到分类模型的输出，并以分类模型的输出为反馈对图神经网络以及分类模型进行更新。

该实施例中，提取化合物的特征信息的图神经网络与根据化合物的特征信息进行分类的分类模型作为一个整体共同训练。

具体的，在预训练图神经网络的过程中，得到图神经网络输出的化合物的特征信息；在预训练分类模型的过程中，将该化合物的特征信息作为分类模型的输入得到分类模型输出的化学反应类别。此时分类模型输出的化学反应类别一般会与正确结果存在一定差异，故以分类模型输出的化学反应类别作为反馈对分类模型进行更新，并对图神经网络进行更新(例如：根据分类模型输出的化学反应类别与正确结果之间的偏差确定对应的损失函数，进而根据该损失函数对分类模型的参数进行梯度更新，并对图神经网络的参数进行梯度更新)。直到分类模型输出的化学反应类别的正确率达到一定标准时，对图神经网络以及分类模型的预训练结束。

该实施例的优点在于，以这种端到端的训练方式将图神经网络与分类模型共同进行预训练，使得图神经网络提取出的特征信息更加适用于分类模型，从而提高了整体的分类准确度。

在一个实施例中，以图神经网络的输出为分类模型的输入得到分类模型的输出，包括：

将预先配置的各样本化合物分别表示为对应的图结构信息，其中，各样本化合物包含各反应化合物以及各反应化合物经过第一化学反应类别的化学反应后生成的各生成化合物；

调用图神经网络，从各样本化合物的图结构信息中分别提取各样本化合物分别对应的特征信息；

调用分类模型，从各样本化合物的特征信息中预测化学反应所属的第二化学反应类别；

以分类模型的输出为反馈对图神经网络以及分类模型进行更新，包括：

确定第一化学反应类别与第二化学反应类别之间的偏差；

基于偏差对图神经网络以及分类模型进行更新。

该实施例中，第一化学反应类别为正确的分类结果，第二化学反应类别为分类模型所输出的分类结果。服务器根据第一化学反应类别与第二化学反应类别之间的偏差对图神经网络以及分类模型进行更新。

例如：服务器预先已确定化合物A与化合物B经过第一化学反应类别的化学反应后生成化合物C与化合物D。预训练过程中，服务器将化合物A、化合物B、化合物C与化合物D分别表示为对应的图结构信息，并输入图神经网络，得到该图神经网络输出的这4个化合物分别所对应的特征信息；将化合物A的特征信息与化合物B的特征信息整合为同一个反应特征，将化合物C的特征信息与化合物D的特征信息整合为同一个生成特征，并将该反应特征与该生成特征输入分类模型，得到该分类模型估测输出的第二化学反应类别。

服务器确定第一化学反应类别与第二化学反应类别之间的偏差，进而以该偏差为负反馈，根据该偏差对该图神经网络进行更新，并对分类模型进行更新。

在一个实施例中，确定所述第一化学反应类别与所述第二化学反应类别之间的偏差，包括：

该实施例中，服务器预先将所有可能化学反应类别按照所属关系进行排列得到树状关系的类别树。每一可能化学反应类别在该类别树中均对应着一个独一无二的树节点。

服务器得到分类模型估测输出的第二化学反应类别，检索该类别树确定第二化学反应类别在类别树中的第二树节点位置以及第一化学反应类别在类别树中的第一树节点位置。进而基于第一树节点位置与第二树节点位置，计算第一化学反应类别与第二化学反应类别之间的偏差。

具体的，参考图3所示。图3示出了本公开一个实施例中类别树的部分结构。

该实施例中，将各种化学反应类别按照“无机反应”“有机反应”分为两大类，进而再根据所属关系对各个类别下更具体的化学反应类别进行排列，得到如图所示的类别树。

该类别树中，每一层树节点对应着相应的树高度。服务器通过检索该类别树定位第一树节点位置以及第二树节点位置后，即可以以第一树节点位置与第二树节点位置之间的树高度差距、第一树节点位置与第二树节点位置之间的父节点个数为衡量标准，计算第一化学反应类别与第二化学反应类别之间的偏差。其中，第一树节点位置与第二树节点位置之间的树高度差距越大，第一化学反应类别与第二化学反应类别之间的偏差越大；第一树节点位置与第二树节点位置之间的父节点个数越多，第一化学反应类别与第二化学反应类别之间的偏差越大。

需要说明的是，该实施例只是示例性的说明，不应对本公开的功能和使用范围造成限制。

图4示出了本公开一个实施例的化学反应分类的实施过程示意图。

该实施例中，采用引入注意力机制的图注意力网络以提取化合物的特征信息；采用多层感知机(Multi-layer Perceptron)作为用于输出分类结果的分类模型。可以理解的，除了采用多层感知机作为分类模型外，还可以采用循环神经网络作为分类模型。

具体的，对于一个已确定反应物组成和生成物组成的化学反应，将各反应物以及各生成物分别表示为图结构信息并依次输入图注意力网络；图注意力网络中的注意力机制针对各图节点自动分配权重，然后根据权重对各图节点的节点特征进行加权求和，从而得到突出了关键原子或者关键原子团的贡献度的各化合物的特征信息。

各反应物的特征信息被整合为全体反应物所对应的一个反应特征(即上述实施例描述中的“反应物特征信息”)，各生成物的特征信息同样被整合为全体生成物所对应的一个反应特征(即上述实施例描述中的“生成物特征信息”)。将这两个反应特征输入多层感知机，获得多层感知机输出的该化学反应为各种化学反应类别的概率(例如：为胺反应的概率为P1，为硫化反应的概率为P2，为酯化反应的概率为P3等)，进而根据这些概率估测该化学反应所属的化学反应类别。

该实施例中，m个反应物分子以及n个生成物分子分别被表示为图结构信息并依次图注意力网络，经由图注意力网络的处理得到对应的m个反应物分子特征以及n个生成物分子特征。对这m个反应物分子特征进行平均后得到全体反应物所对应的一个反应特征，对这n个生成物分子特征进行平均后得到全体生成物所对应的一个反应特征。进而可以将这两个反应特征作为分类模型的输入，从而估测该化学反应所示的化学反应类别。

图6示出了根据本公开一个实施例的化学反应分类装置，所述装置包括：

第一确定模块310，配置为确定各目标化合物分别所包含的各原子以及所述各原子之间的拓扑关系，其中，所述各目标化合物包含各反应化合物以及所述各反应化合物经过化学反应后生成的各生成化合物；

表示模块320，配置为基于所述各原子以及所述各原子之间的拓扑关系，将所述各目标化合物分别表示为对应的图结构信息；

提取模块330，配置为调用预训练的图神经网络，从各所述图结构信息中分别提取所述各目标化合物分别对应的特征信息；

第二确定模块340，配置为基于所述各目标化合物分别对应的特征信息，确定所述化学反应所属的化学反应类别。

在本公开的一个示例性实施例中，所述装置配置为：

将所述各反应化合物的特征信息拼接为第一矩阵；

将所述各生成化合物的特征信息拼接为第二矩阵；

在本公开的一个示例性实施例中，所述装置配置为：

将预先配置的各样本化合物分别表示为对应的图结构信息，其中，所述各样本化合物由各反应化合物以及所述各反应化合物经过第一化学反应类别的化学反应后生成的各生成化合物组成；

在本公开的一个示例性实施例中，所述装置配置为：

下面参考图7来描述根据本公开实施例的化学反应分类电子设备40。图7显示的化学反应分类电子设备40仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，化学反应分类电子设备40以通用计算设备的形式表现。化学反应分类电子设备40的组件可以包括但不限于：上述至少一个处理单元410、上述至少一个存储单元420、连接不同系统组件(包括存储单元420和处理单元410)的总线430。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元410执行，使得所述处理单元410执行本说明书上述示例性方法的描述部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元410可以执行如图2中所示的各个步骤。

存储单元420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202，还可以进一步包括只读存储单元(ROM)4203。

存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204，这样的程序模块4205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

化学反应分类电子设备40也可以与一个或多个外部设备500(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该化学反应分类电子设备40交互的设备通信，和/或与使得该化学反应分类电子设备40能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口450进行。输入/输出(I/O)接口450与显示单元440相连。并且，化学反应分类电子设备40还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器460通过总线430与化学反应分类电子设备40的其它模块通信。应当明白，尽管图中未示出，可以结合化学反应分类电子设备40使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行上述方法实施例部分描述的方法。

根据本公开的一个实施例，还提供了一种用于实现上述方法实施例中的方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如JAVA、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种化学反应分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，基于所述各原子以及所述各原子之间的拓扑关系，将所述各目标化合物分别表示为对应的图结构信息，包括：

3.根据权利要求1所述的方法，其特征在于，基于所述各原子以及所述各原子之间的拓扑关系，将所述各目标化合物分别表示为对应的图结构信息，包括：

4.根据权利要求1所述的方法，其特征在于，从各所述图结构信息中分别提取所述各目标化合物分别对应的特征信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述图神经网络中包含有注意力网络层，从各所述图结构信息中分别提取所述各目标化合物分别对应的特征信息，包括：

6.根据权利要求5所述的方法，其特征在于，通过所述注意力网络层确定所述各图节点的节点特征信息分别对应的权重，包括：

7.根据权利要求1所述的方法，其特征在于，基于所述各目标化合物分别对应的特征信息，确定所述化学反应所属的化学反应类别，包括：调用预训练的分类模型，从所述各目标化合物的特征信息中确定所述化学反应所属的化学反应类别。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：在预训练的过程中，以所述图神经网络的输出作为所述分类模型的输入得到所述分类模型的输出，并以所述分类模型的输出为反馈对所述图神经网络以及所述分类模型进行更新。

9.根据权利要求8所述的方法，其特征在于，以所述图神经网络的输出为所述分类模型的输入得到所述分类模型的输出，包括：

以所述分类模型的输出为反馈对所述图神经网络以及所述分类模型进行更新，包括：

10.根据权利要求9所述的方法，其特征在于，确定所述第一化学反应类别与所述第二化学反应类别之间的偏差，包括：

11.根据权利要求7所述的方法，其特征在于，从所述各目标化合物的特征信息中确定所述化学反应所属的化学反应类别，包括：

12.根据权利要求7所述的方法，其特征在于，从所述各目标化合物的特征信息中确定所述化学反应所属的化学反应类别，包括：

13.一种化学反应分类装置，其特征在于，所述装置包括：

14.一种化学反应分类电子设备，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求1-12中的任一个所述的方法。

15.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-12中的任一个所述的方法。