CN116665810A

CN116665810A - 一种基于量子图卷积的分子逆向合成方法、系统、存储介质及终端

Info

Publication number: CN116665810A
Application number: CN202310633807.8A
Authority: CN
Inventors: 岳鲜; 杨世璐; 严天沛; 朱钦圣; 李晓瑜; 杨舜坤
Original assignee: Kashgar Electronic Information Industry Technology Research Institute; University of Electronic Science and Technology of China
Current assignee: Kashgar Electronic Information Industry Technology Research Institute; University of Electronic Science and Technology of China
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-08-29

Abstract

本发明公开了一种基于量子图卷积的分子逆向合成方法、系统、存储介质及终端，属于药物分析领域，将目标产物的结构信息和化学属性表示为分子无向图的形式；对每个图节点和连接边使用one‑hot编码的方式映射为唯一的向量；再对分子图节点及连接边信息数据进行量子编码；基于编码后的量子图构建量子图卷积神经网络，输出预测反应中心的位置，得到合成子图；采用图卷积策略网络遍历所述合成子图，识别需要替换或新增的原子并映射到一个动作向量中，解码该动作向量得到反应物的表示。本发明实现从产物图到反应物图的翻译过程，保证最终反应物的可用性，解决目前分子逆向合成任务中计算难度大以及合成路线预测结果不理想的问题，为未来药物研发提供技术参考。

Description

一种基于量子图卷积的分子逆向合成方法、系统、存储介质及终端

技术领域

本发明涉及药物分析领域，尤其涉及一种基于量子图卷积的分子逆向合成方法、系统、存储介质及终端。

背景技术

传统的分子逆向合成需要研究人员具备丰富的化学知识和实验经验，以便能够有效地设计合成方案、选择合适的试剂和反应条件，以及解决在实验过程中可能出现的问题。这需要研究人员对化学反应机理、结构活性关系、反应动力学和分析测试技术等方面有深入的理解和掌握。此外，在分子逆向合成的实验中，还需要考虑反应物的纯度、合成路径的可行性、合成产物的收率和纯度等方面的因素，并且需要对反应过程进行精细的监控和控制。由于这些因素的综合影响，传统的分子逆向合成往往需要耗费大量的时间和资源，而且在实践中往往会遇到各种困难和挑战。因此，利用机器学习等新技术，可以为分子逆向合成提供更快速、高效、准确的方法，从而大大降低实验成本和风险。

在分子逆向合成领域，常用的机器学习方法包括递归神经网络(RNN)、Transformer模型、卷积神经网络等。其中，RNN和Transformer模型是基于序列匹配的方式进行分子逆向合成的常见方法，但由于这些方法无法对反应物的可用性进行有效约束，可能导致合成路线预测结果不理想，对于具体反应物的选择和合成路径的设计仍需要人为干预。相比之下，卷积神经网络可以对分子的局部结构进行提取和表示，但由于其在空间上的局限性，无法完全考虑分子的全局结构信息，导致预测结果可能存在误差。图神经网络是一种利用深度学习对图结构数据进行学习的框架，能够全面考虑分子的拓扑和空间结构信息，并利用图卷积等操作对分子图形进行处理和建模，因此在分子逆向合成领域具有较好的应用前景。

但由于化学反应机理的复杂性和多样性，反应过程中涉及大量的中间产物和过渡态，这些因素增加了反应途径建模的难度，合成路线预测结果不理想。同时，大量药物分子图数据的计算任务对传统计算机提出了巨大挑战。

发明内容

本发明的目的在于克服目前分子逆向合成任务中普遍存在的大规模分子图计算难度大以及合成路线预测结果不理想的问题，提供了一种基于量子图卷积的分子逆向合成方法、系统、存储介质及终端。

本发明的目的是通过以下技术方案来实现的：

在第一方面，提供一种基于量子图卷积的分子逆向合成方法，包括以下步骤：

S1、将目标产物的结构信息和化学属性表示为分子无向图的形式，其中，目标产物的原子作为图节点，原子间的化学键作为连接边；

S2、对每个图节点和连接边使用one-hot编码的方式映射为唯一的向量；再对分子图节点及连接边信息数据进行量子编码，将其转换为相应的量子图；

S3、基于编码后的量子图构建量子图卷积神经网络，输出预测反应中心的位置，断开所述反应中心所在的化学键进而分离得到合成子图；

S4、采用图卷积策略网络遍历所述合成子图，识别需要替换或新增的原子并映射到一个动作向量中，解码该动作向量得到反应物的表示；

S5、重复步骤S1-S4，不断更新反应物，直到合成子图被转换成最终反应物。

作为一优选项，一种基于量子图卷积的分子逆向合成方法，所述对分子图节点及连接边信息数据进行量子编码，包括：

使用角度编码的方式将输入向量编码转换为叠加量子态，转换公式如下：

其中，θ表示量子旋转门的旋转角度，x_i表示one-hot编码得到的向量。

作为一优选项，一种基于量子图卷积的分子逆向合成方法，所述量子图卷积神经网络包括量子图卷积层、量子池化层和量子全连接层。

作为一优选项，一种基于量子图卷积的分子逆向合成方法，所述步骤S3具体包括：

S31、将Hadamard门和相位旋转门操作应用于输入的量子电路，实现对编码后的量子态进行卷积运算，从而提取量子图的特征并更新状态实现信息传递；

S32、将量子图卷积输出的每个张量进行求和，通过CNOT门来控制每个张量的求和结果是否保留，利用SWAP门来将所有保留的张量组合起来，进而得到池化结果；

S33、将量子池化层的输出展平为向量，通过量子神经网络层进行信息处理，输出反应中心的预测结果。

作为一优选项，一种基于量子图卷积的分子逆向合成方法，所述通过量子神经网络层进行信息处理，输出反应中心的预测结果，包括：

量子图卷积神经网络输出反应中心概率分布向量，选择得分最高的反应中心概率分布向量的边作为反应中心。

作为一优选项，一种基于量子图卷积的分子逆向合成方法，所述采用图卷积策略网络遍历所述合成子图之前，还包括：

利用图卷积神经网络根据输入的合成子图实现对节点和边的特征提取，并生成节点和边的特征向量。

作为一优选项，一种基于量子图卷积的分子逆向合成方法，所述识别需要替换或新增的原子并映射到一个动作向量中，包括：

根据节点和边的特征向量生成一个动作向量用于更新合成子图。

在第二方面，提供一种基于量子图卷积的分子逆向合成系统，所述系统包括：

分子无向图构建模块，配置为将目标产物的结构信息和化学属性表示为分子无向图的形式，其中，目标产物的原子作为图节点，原子间的化学键作为连接边；

量子态编码模块，配置为对每个图节点和连接边使用one-hot编码的方式映射为唯一的向量；再对分子图节点及连接边信息数据进行量子编码，将其转换为相应的量子图；

反应中心识别模块，配置为基于编码后的量子图构建量子图卷积神经网络，输出预测反应中心的位置，断开所述反应中心所在的化学键进而分离得到合成子图；

合成子-反应物转换模块，配置为采用图卷积策略网络遍历所述合成子图，识别需要替换或新增的原子并映射到一个动作向量中，重复多次后，解码该动作向量得到反应物的表示。

在第三方面，提供一种计算机存储介质，其上存储有计算机指令，所述计算机指令运行时执行任意一项所述一种基于量子图卷积的分子逆向合成方法中相关内容。

在第四方面，提供一种终端，包括存储器和处理器，存储器上存储有可在处理器上运行的计算机指令，处理器运行计算机指令时执行任意一项所述一种基于量子图卷积的分子逆向合成方法中相关内容。

需要进一步说明的是，上述各选项对应的技术特征在不冲突的情况下可以相互组合或替换构成新的技术方案。

与现有技术相比，本发明有益效果是：

(1)本发明将目标产物的结构信息和化学属性表示为分子无向图的形式；对每个图节点和连接边使用one-hot编码的方式映射为唯一的向量；再对分子图节点及连接边信息数据进行量子编码；基于编码后的量子图构建量子图卷积神经网络，输出预测反应中心的位置，得到合成子图；采用图卷积策略网络遍历所述合成子图，识别需要替换或新增的原子并映射到一个动作向量中，解码该动作向量得到反应物的表示。能够有效刻画分子中各原子之间的复杂关系，并将分子无向图有效编码为量子图，实现从产物图到反应物图的翻译过程，保证了最终反应物的可用性，路线预测结果准确，计算难度低，为未来药物研发提供技术参考。

(2)现有的关于逆合成分析的机器学习算法主要是基于反应模版的方法，其虽然具有较好的可解释性，但是它们需要昂贵的子图匹配，并且一旦匹配失败，则模型不能给出任何的预测。而本发明所提出的是一种不依赖反应模版的方法，克服了对研发人员需要丰富的领域知识的局限性。

(3)鉴于化学反应机理的复杂性和多样性，反应过程包括大量的中间产物和过渡态，导致反应中心预测计算的复杂性极高。借助量子计算的并行性，同时提取产物的多个特征，可以加速反应中心的寻找过程，从而缩短得到准确结果所需的时间，提高计算效率。

附图说明

图1为本发明实施例示出的一种基于量子图卷积的分子逆向合成方法的流程图；

图2为本发明实施例示出的量子态制备示意图；

图3为本发明实施例示出的基于量子图卷积神经网络的反应中心识别示意图；

图4为本发明实施例示出的产物-合成子转化示意图；

图5为本发明实施例示出的图卷积神经网络模型示意图；

图6为本发明实施例示出的策略网络模型示意图；

图7为本发明实施例示出的合成子-反应物转化示例图。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

参照图1，在一示例性实施例中，提供一种基于量子图卷积的分子逆向合成方法，包括以下步骤：

具体地，利用分子图理论的方法将目标产物的结构信息和化学属性表示为分子无向图的形式，原子作为图节点，原子间的化学键作为连接边；对每个节点和边使用one-hot编码的方式映射为唯一的向量；再对分子图节点及边信息数据进行量子编码，将其转换为相应的量子图。对于基于量子图卷积神经网络，输入为编码后的量子图，输出是预测反应中心的位置。通过不断将量子图卷积层和量子池化层交替堆叠在一起，最后添加量子全连接层和输出层，从而得到一个完整的量子图卷积神经网络模型。根据量子图卷积神经网络的输出向量预测处反应中心的位置，然后通过断开反应中心所在的化学键进而分离得到合成子。接着，利用图卷积神经网络实现对节点和边的特征提取并生成节点和边的特征向量，也称嵌入向量。利用策略网络遍历生成的合成子图，识别需要替换或新增的原子，并将其映射到一个动作向量中。解码该动作向量即可得到反应物的表示。最后，通过反复执行步骤S1-S4，不断的实现分子图数据量子态编码、反应中心识别以及合成子-反应物转换等步骤，不断对反应物进行更新，直到合成子图被转换成最终反应物。

其中，在分子逆向合成任务中需要包含化合物信息的数据库来支持研究，目前可用于反应预测的化合物数据库也有很多，例如：PubChem、ChEMBL、ZINC、DrugBank、ChemSpider、PDB等，这些数据库中包含了大量的化合物信息，可用于化合物搜索、筛选和匹配等任务。定义分子无向图时，从数据库中获得的分子数据通常以一些结构信息和化学属性的形式呈现，例如分子中原子的种类和数量，化学键的类型和数量，原子间的距离等，采用分子图理论的方法将这些结构信息表示为无向图。

在一个示例中，一种基于量子图卷积的分子逆向合成方法，所述对分子图节点及连接边信息数据进行量子编码，包括：

具体地，首先对每个节点和边使用one-hot编码方式映射为唯一的向量，再对分子图节点及边信息数据进行量子编码，将其转换为相应的量子图。将one-hot编码得到的经典数据x_i与量子旋转门的旋转角度θ构造对应关系，从而将分子无向图的特征信息转换为量子旋转门的角度，不同的量子旋转门R_x(θ)作用在相应的量子位初始态|0>上，从而将特征信息保留在量子态中，完成了数据的量子态制备。数据的量子态制备示意图如图2所示。

在一个示例中，参照图3，所述量子图卷积神经网络包括量子图卷积层、量子池化层和量子全连接层。量子图卷积神经网络的输入为经分子图数据量子态编码处理得到的量子图，输出为反应中心概率分布向量，即反应性得分。

具体地，所述步骤S3具体包括：

S31、构建量子图卷积层：将Hadamard门和相位旋转门操作应用于输入的量子电路，实现对编码后的量子态进行卷积运算，从而提取量子图的特征并更新状态实现信息传递；

S32、构建量子池化层：将量子图卷积输出的每个张量进行求和，通过CNOT门来控制每个张量的求和结果是否保留，利用SWAP门来将所有保留的张量组合起来，进而得到池化结果；

S33、构建量子全连接层：将量子池化层的输出展平为向量，通过量子神经网络层进行信息处理，输出反应中心的预测结果；

S34构建完整的量子图卷积神经网络：将量子图卷积层和量子池化层交替堆叠在一起，然后添加量子全连接层和输出层，从而构成一个完整的量子图卷积神经网络模型。

进一步地，参照图4，所述通过量子神经网络层进行信息处理，输出反应中心的预测结果，包括：

量子图卷积神经网络输出反应中心概率分布向量，即反应性得分，选择得分最高的反应中心概率分布向量的边作为反应中心，最终，通过断开反应中心所在的化学键进而分离得到合成子。

在一个示例中，一种基于量子图卷积的分子逆向合成方法，所述采用图卷积策略网络遍历所述合成子图之前，还包括：

具体地，参照图5，图卷积神经网络包括输入层、隐藏层和输出层，输入层输入合成子图，隐藏层通过卷积以及非线性激活函数实现对节点和边的特征提取，并生成一个节点和边的嵌入向量。

进一步地，一种基于量子图卷积的分子逆向合成方法，所述识别需要替换或新增的原子并映射到一个动作向量中，包括：

搭建策略网络，策略网络是一个基于LSTM的循环神经网络，可根据合成子图的嵌入向量生成一个动作向量用于更新合成子图。策略网络模型如图6所示。

进一步地，将图卷积神经网络和策略网络组合从而形成图卷积策略网络。利用生成的动作向量对合成子图进行更新，从而实现合成子图到反应物的转换。转换过程如图7所示。将图卷积策略网络生成的反应物重新作为产物，继续重复执行S1-S4，从而实现对反应物的更新，直至产物被转换成最终反应物.

在另一示例性实施例中，提供一种基于量子图卷积的分子逆向合成系统，所述系统包括：

合成子-反应物转换模块，配置为采用图卷积策略网络遍历所述合成子图，识别需要替换或新增的原子并映射到一个动作向量中，重复多次后，解码该动作向量得到反应物的表示。通过反复执行上述几个模块，不断对反应物进行更新，直到合成子图被转换成最终反应物。

在另一示例性实施例中，本发明提供一种计算机存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述一种基于量子图卷积的分子逆向合成方法中相关内容。

基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在另一示例性实施例中，本发明提供一种终端，包括存储器和处理器，存储器上存储有可在处理器上运行的计算机指令，处理器运行计算机指令时执行所述一种基于量子图卷积的分子逆向合成方法中相关内容。

处理器可以是单核或者多核中央处理单元或者特定的集成电路，或者配置成实施本发明的一个或者多个集成电路。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的处理器包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

以上具体实施方式是对本发明的详细说明，不能认定本发明的具体实施方式只局限于这些说明，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演和替代，都应当视为属于本发明的保护范围。

Claims

1.一种基于量子图卷积的分子逆向合成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于量子图卷积的分子逆向合成方法，其特征在于，所述对分子图节点及连接边信息数据进行量子编码，包括：

3.根据权利要求1所述的一种基于量子图卷积的分子逆向合成方法，其特征在于，所述量子图卷积神经网络包括量子图卷积层、量子池化层和量子全连接层。

4.根据权利要求3所述的一种基于量子图卷积的分子逆向合成方法，其特征在于，所述步骤S3具体包括：

5.根据权利要求4所述的一种基于量子图卷积的分子逆向合成方法，其特征在于，所述通过量子神经网络层进行信息处理，输出反应中心的预测结果，包括：

6.根据权利要求1所述的一种基于量子图卷积的分子逆向合成方法，其特征在于，所述采用图卷积策略网络遍历所述合成子图之前，还包括：

7.根据权利要求6所述的一种基于量子图卷积的分子逆向合成方法，其特征在于，所述识别需要替换或新增的原子并映射到一个动作向量中，包括：

8.一种基于量子图卷积的分子逆向合成系统，其特征在于，所述系统包括：

9.一种计算机存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1-7中任意一项所述一种基于量子图卷积的分子逆向合成方法中相关内容。

10.一种终端，包括存储器和处理器，存储器上存储有可在处理器上运行的计算机指令，其特征在于，处理器运行计算机指令时执行权利要求1-7中任意一项所述一种基于量子图卷积的分子逆向合成方法中相关内容。