CN112435715B

CN112435715B - 代谢路径预测方法、装置、终端设备及存储介质

Info

Publication number: CN112435715B
Application number: CN202011260617.9A
Authority: CN
Inventors: 郑奕嘉; 吴红艳; 蔡云鹏; 纪超杰
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2024-03-22
Anticipated expiration: 2040-11-12
Also published as: CN112435715A

Abstract

本申请适用于数据处理技术领域，提供了一种代谢路径预测方法、装置、终端设备及存储介质，包括：获取待预测代谢路径的起始分子和终止分子；获取分子连接关系图；根据所述分子连接关系图，获取至少一个目标分子；根据所述起始分子、所述终止分子和所述至少一个目标分子，获取从所述起始分子到所述终止分子的代谢路径。通过本申请可提高代谢路径的预测效率，降低预测成本。

Description

代谢路径预测方法、装置、终端设备及存储介质

技术领域

本申请属于数据处理技术领域，尤其涉及一种代谢路径预测方法、装置、终端设备及存储介质。

背景技术

代谢路径，是指作为底物的分子在酶的催化下产生的一连串细胞体内的化学反应，该化学反应形成细胞体内的各种代谢产物。代谢路径的发现能够帮助人们更好地理解物质在生物体内的转化过程，同时能够利用生物体内的代谢过程合成一些需要的目标产物(例如药物分子)。

现有方法是通过大量的生物学实验预测代谢路径，这些生物学实验的实验成本较高、耗费时间较长，而且容易受实验设备、实验环境以及实验技术等诸多因素的限制，导致代谢路径的预测效率较低、成本较高。

发明内容

本申请提供了一种代谢路径预测方法、装置、终端设备及存储介质，以提高代谢路径的预测效率，降低预测成本。

第一方面，本申请实施例提供了一种代谢路径预测方法，所述代谢路径预测方法包括：

获取待预测代谢路径的起始分子和终止分子；

获取分子连接关系图，所述分子连接关系图表示至少两个代谢反应中分子之间的连接关系，所述分子连接关系图中的结点表示分子，所述分子连接关系图中的有向边表示该有向边的起始结点通过代谢反应转化为终止结点；

根据所述分子连接关系图，获取至少一个目标分子，所述至少一个目标分子是指从所述起始分子到所述终止分子的过程中途径的分子；

根据所述起始分子、所述终止分子和所述至少一个目标分子，获取从所述起始分子到所述终止分子的代谢路径。

第二方面，本申请实施例提供了一种代谢路径预测装置，所述代谢路径预测装置包括：

分子获取模块，用于获取待预测代谢路径的起始分子和终止分子；

关系图获取模块，用于获取分子连接关系图，所述分子连接关系图表示至少两个代谢反应中分子之间的连接关系，所述分子连接关系图中的结点表示分子，所述分子连接关系图中的有向边表示该有向边的起始结点通过代谢反应转化为终止结点；

目标获取模块，用于根据所述分子连接关系图，获取至少一个目标分子，所述至少一个目标分子是指从所述起始分子到所述终止分子的过程中途径的分子；

路径获取模块，用于根据所述起始分子、所述终止分子和所述至少一个目标分子，获取从所述起始分子到所述终止分子的代谢路径。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述代谢路径预测方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述代谢路径预测方法的步骤。

第五方面，本申请实施例提供了一种计算机程序产品，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行如上述第一方面所述代谢路径预测方法的步骤。

由上可见，本申请先获取待预测代谢路径的起始分子和终止分子，再通过表示不同分子之间的连接关系的分子连接关系图，可以获取到从起始分子到终止分子的过程中途径的所有分子(即至少一个目标分子)，根据起始分子、终止分子和至少一个目标分子，即可预测到从起始分子到目标分子的代谢路径，无需人工通过实验设备进行大量的实验分析，提高了代谢路径的预测效率，降低了代谢路径的预测成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的代谢路径预测方法的实现流程示意图；

图2是分子连接关系图的示例图；

图3是本申请实施例二提供的代谢路径预测方法的实现流程示意图；

图4是本申请实施例三提供的代谢路径预测方法的实现流程示意图；

图5是本申请实施例四提供的代谢路径预测装置的结构示意图；

图6是本申请实施例五提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的代谢路径预测方法可以应用于平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

应理解，本实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

参见图1，是本申请实施例一提供的代谢路径预测方法的实现流程示意图，该代谢路径预测方法应用于终端设备，如图所示该代谢路径预测方法可以包括以下步骤：

步骤101，获取待预测代谢路径的起始分子和终止分子。

其中，待预测代谢路径是指待预测的从起始分子至终止分子的代谢路径，起始分子可以是该代谢路径中首次发生代谢反应的反应物子，终止分子是指该代谢路径中最后一次发生代谢反应得到的目标产物(即最终代谢产物)。需要说明的是，本申请中的分子均可以理解为化合物。

可选地，用户可以根据实际需要自行设定起始分子和终止分子，以通过本申请预测从起始分子到终止分子的代谢路径。例如，在终端设备的显示屏上显示起始框和终止框，提示用户在起始框输入起始分子，在终止框输入终止分子，在检测到用户输入的起始分子和终止分子时，通过本申请预测从起始分子到终止分子的代谢路径。

步骤102，获取分子连接关系图。

其中，分子连接关系图表示至少两个代谢反应中分子之间的连接关系，分子连接关系图中的结点表示分子，分子连接关系图中的有向边表示该有向边的起始结点通过代谢反应转化为终止结点。

可选地，获取分子连接关系图包括：

获取M个代谢反应式，M为大于1的整数；

根据M个代谢反应式，获取分子连接关系图。

具体地，可以从代谢数据库中获取M个代谢反应式，通过对上述M个代谢反应式中每个代谢反应式进行分析，得到每个代谢反应式中包含的分子和分子之间的代谢反应，从而得到上述M个代谢反应式包含的所有分子和所有分子之间的代谢反应，将所有分子中的每个分子均作为分子连接关系图中的一个结点，存在代谢反应的两个结点作为分子连接关系图中的一条有向边，两个结点中的反应物作为该有向边的起始结点，两个结点中的代谢产物作为该有向边的终止结点。其中，代谢反应式可以是指代谢反应的化学反应式，通过对代谢反应式进行分析，可以得到代谢反应式中包含的分子，以及确定作为反应物的分子和作为代谢产物的分子(即得到分子之间的代谢反应)。代谢数据库可以是指包含大量代谢反应式的数据库，例如京都基因与基因组百科全书生化反应(Kyoto Encyclopedia of Genesand Genomes REACTION，KEGG REACTION)数据库。

如图2所示是分子连接关系图的示例图，图2是通过对两个代谢反应式进行分析得到，代谢反应式1是：A+B→C+D，在代谢反应式1中A和B均为反应物，C和D均为代谢产物，代谢反应式2是：C+E→F，在代谢反应式2中C和E均为反应物，F为代谢产物。

需要说明的是，为了满足更多代谢路径的预测，以及提高代谢路径预测的精确度，本申请可以通过对代谢数据库中的大量代谢反应式进行分析，获得结点更多、连接关系更为复杂的分子连接关系图。

步骤103，根据分子连接关系图，获取至少一个目标分子。

其中，至少一个目标分子是指从起始分子到终止分子的过程中途径的分子，也可以理解为从起始分子到终止分子的过程中需要参与的分子。在上述至少一个目标分子的参与下，可以确保从起始分子成功到达终止分子。示例性的，以代谢反应式C+E→F为例，起始分子为C，终止分子为F，预测C到F的代谢路径，根据图2所示分子连接关系图，可以得到目标分子为E。

步骤104，根据起始分子、终止分子和至少一个目标分子，获取从起始分子到终止分子的代谢路径。

其中，本申请在步骤103获取至少一个目标分子时，同时也获取到上述至少一个目标分子在从起始分子到终止分子的代谢路径中的排列顺序(即途径顺序)，那么根据起始分子、终止分子和至少一个目标分子的排列顺序，即可生成从起始分子到终止分子的代谢路径，例如起始分子为A，终止分子为F，获取到五个目标分子，该五个目标分子分别为C、B、G、D、E，该五个目标分子在从A到F的代谢路径中的排列顺序为C→B→G→D→E，那么通过本申请预测到的从A到F的代谢路径为A→C→B→G→D→E→F。

本申请实施例先获取待预测代谢路径的起始分子和终止分子，再通过表示不同分子之间的连接关系的分子连接关系图，可以获取到从起始分子到终止分子的过程中途径的所有分子(即至少一个目标分子)，根据起始分子、终止分子和至少一个目标分子，即可预测到从起始分子到目标分子的代谢路径，无需人工通过实验设备进行大量的实验分析，提高了代谢路径的预测效率，降低了代谢路径的预测成本。

参见图3，是本申请实施例二提供的代谢路径预测方法的实现流程示意图，该代谢路径预测方法应用于终端设备，如图所示该代谢路径预测方法可以包括以下步骤：

步骤301，获取待预测代谢路径的起始分子和终止分子；

该步骤与步骤101相同，具体可参见步骤101的相关描述，在此不再赘述。

步骤302，获取分子连接关系图。

该步骤与步骤102相同，具体可参见步骤102的相关描述，在此不再赘述。

步骤303，将起始分子作为参考分子。

步骤304，检测从分子连接关系图中是否获取到参考分子的邻居分子。

其中，参考分子的邻居分子是指在分子连接关系图中与参考分子通过有向边相连，且是该有向边的终止结点的分子。

具体地，在分子连接关系图中，参考分子与该参考分子的邻居分子通过有向边连接，且参考分子是该有向边的起始结点，参考分子的邻居分子是该有向边的终止结点。

需要说明的是，为了避免预测的代谢路径出现循环，在从分子连接关系图中获取到参考分子的邻居分子时，可以先检测该邻居分子是否为已预测的分子，若为已预测的分子，则从获取到的参考分子的邻居分子中去除该分子，从剩余的邻居分子中获取目标分子。

步骤305，若从分子连接关系图中获取到的邻居分子的数量为一个，则确定该邻居分子为与参考分子相邻的目标分子；若从分子连接关系图中获取到的邻居分子的数量为至少两个，则从至少两个邻居分子中，获取在待预测代谢路径中与参考分子相邻的目标分子。

由于分子连接关系图中包含了大量的分子和分子间的连接关系，故在从分子连接关系图中获取到的邻居分子的数量为一个时，该邻居分子通常是在起始分子到终止分子的真实代谢路径中与参考分子相邻的分子。

在从分子连接关系图中获取到的邻居分子的数量为至少两个时，至少两个邻居分子中可能存在假邻居分子(即在起始分子到终止分子的真实代谢路径中不存在的分子，或者在该真实代谢路径中存在但与参考分子不相邻的分子)，故需要从上述至少两个邻居分子中，获取在真实代谢路径中与参考分子相邻的分子(即获取与参考分子真实相邻的分子)。

可选地，从至少两个邻居分子中，获取与参考分子相邻的目标分子包括：

获取参考分子的特征向量、终止分子的特征向量和至少两个邻居分子中每个邻居分子的特征向量；

将参考分子的特征向量、终止分子的特征向量和每个邻居分子的特征向量输入第一深度网络模型，获取第一深度网络模型输出的每个邻居分子的得分；

确定得分最高的邻居分子为与参考分子相邻的目标分子。

在本实施例中，在通过第一深度网络模型获得一个邻居分子的得分时，可以将参考分子的特征向量、终止分子的特征向量和该邻居分子的特征向量输入至第一深度网络模型，该第一深度网络模型输出该邻居分子的得分。其中，邻居分子的得分反映该邻居分子在真实代谢路径中与参考分子相邻的概率，邻居分子的得分越高，反映该邻居分子在真实代谢路径中与参考分子相邻的概率越大。第一深度网络模型用于输出邻居分子的得分，用户可以根据实际需要自行设定第一深度网络模型的具体结构(例如第一深度网络模型为用于输出邻居分子的得分的多层感知机)，在此不作限定。

其中，获取参考分子的特征向量、终止分子的特征向量和至少两个邻居分子中每个邻居分子的特征向量包括：

获取参考分子的分子图结构、终止分子的分子图结构以及至少两个邻居分子中每个邻居分子的分子图结构，一个分子的分子图结构中的结点表示该分子的原子，该分子的原子之间的化合键表示该分子图结构中的边；

针对第G个分子图结构，第G个分子图结构是指参考分子的分子图结构、终止分子的分子图结构以及至少两个邻居分子中每个邻居分子的分子图结构中的任一分子图结构，获取第G个分子图结构中每个结点的初始特征向量和每条边的初始特征向量，第G个分子图结构中每个结点的初始特征向量是指该结点对应的原子类型的独热编码向量，第G个分子图结构中每条边的初始特征向量是指该边对应的化合键类型的独热编码向量；

根据第G个分子图结构中每个结点的初始特征向量和每条边的初始特征向量，获取第G个分子图结构对应的分子的特征向量。

需要说明的是，可以使用预设分子存储格式对本申请所涉及到的每个分子进行存储，以便于分子的存储以及分子的特征向量的计算。其中，预设分子存储格式可以是指预先设置的对分子进行存储的方式，例如简化分子线性输入规范(Simplified MolecularInput Line Entry System，SMILES)，SMILES是一种用ASCII字符串明确描述分子结构的规范，即将分子结构用一个文本字符串表示。

在本实施例中，可以使用预设分子存储格式对应的预设工具包，对获取到的以预设分子存储格式存储的分子进行解析，从而得到分子中包含的原子和原子之间的化合键，一个分子对应一个分子图结构，将该分子中的每个原子均作为该分子图结构中的一个结点，将该分子的原子之间的化合键作为该分子图结构中的边。例如，在预设分子存储格式为SMILES时，预设工具包为开源化学信息软件(Open-Source Cheminformatics Software，RDKit)，用于解析以SMILES格式存储的分子。

独热编码的原理：根据同一类别的数据生成一组二值向量，类别数据中期待数据对应的二值向量为1，其余为零。以含有十个原子的分子为例进行说明，该分子中期待数据是原子C，在存储该分子时，原子C存储于第一位，故原子C的独热编码向量为[1，0，0，0，0，0，0，0，0，0]。

可选地，根据第G个分子图结构中每个结点的初始特征向量和每条边的初始特征向量，获取第G个分子图结构对应的分子的特征向量包括：

根据第G个分子图结构中每个结点的初始特征向量和每条边的初始特征向量，获取第G个分子图结构中每个结点的目标特征向量；

将第G个分子图结构中所有结点的目标特征向量相加，并将相加后所得值除以第G个分子图结构的结点数量，得到第G个分子图结构对应的分子的特征向量。

在本实施例中，分子图结构可以理解为深度图神经网络(Graph ConvolutionNetwork，GCN)，通过深度图神经网络，可以基于结点的初始特征向量和边的初始特征向量，学习更加复杂的特征向量(即简单的初始特征向量经过多次组合变化得到的高阶复杂特征)，提高代谢路径的预测准确度。

其中，针对第G个分子图结构中的第u个结点，第u个结点为第G个分子图结构中的任一结点，结点集合N(u)为第G个分子图结构中通过边与第u个结点连接的所有结点的集合；根据第G个分子图结构中每个结点的初始特征向量和每条边的初始特征向量，获取第G个分子图结构中每个结点的目标特征向量包括：

根据结点集合N(u)中每个结点的初始特征向量和连接每个结点与第u个结点的边的初始特征向量，获取结点集合N(u)中每个结点到第u个结点的目标特征向量；

将结点集合N(u)中每个结点到第u个结点的目标特征向量相加，得到第u个结点的聚合特征向量；

将第u个结点的初始特征向量和聚合特征向量输入至第二深度网络模型，获取第二深度网络模型输出的第u个结点的目标特征向量。

在本实施例中，第u个结点的聚合特征向量汇聚了来自不同方向的目标特征向量，通过将第u个结点的初始特征向量和聚合特征向量输入至第二深度网络模型，提高了第u个结点的目标特征向量的复杂性，提高了代谢路径的预测精确度。

第二深度网络模型用于输出结点的目标特征向量，用户可以根据实际需要自行设定第二深度网络模型的具体结构(例如第二深度网络模型为用于输出结点的目标特征向量的多层感知机)，在此不作限定。

其中，针对第v个结点，第v个结点为结点集合N(u)中的任一结点，结点集合N(v)为第G个分子图结构中通过边与第v个结点连接的所有结点；根据结点集合N(u)中每个结点的初始特征向量和连接每个结点与第u个结点的边的初始特征向量，获取结点集合N(u)中每个结点到第u个结点的目标特征向量包括：

获取从结点集合N(v)中除第u个结点之外的其他结点到第v个结点的第t-1轮迭代特征向量，t为大于零的整数；

将第v个结点的初始向量向量、连接第v个结点与第u个结点的边的初始特征向量，以及其他结点到第v个结点的第t-1轮迭代特征向量输入至第三深度网络模型，获取第三深度网络模型输出的从第v个结点到第u个结点的第t轮迭代特征向量；

检测t是否达到预设迭代次数；

若t达到预设迭代次数，则停止迭代，并确定从第v个结点到第u个结点的第t轮迭代特征向量为从第v个结点到第u个结点的目标特征向量；

若t未达到预设迭代次数，则确定t＝t+1，并返回执行获取从结点集合N(v)中除第u个结点之外的其他结点到第v个结点的第t-1轮迭代特征向量。

在本实施例中，两个结点之间的初始迭代特征向量为零，通过多次迭代可以将上述从第v个结点到第u个结点的轮迭代特征向量由零更新为目标特征向量，从而抽取出更加复杂的特征向量，提高代谢路径的预测精确度。

第三深度学习模型用于输出迭代特征向量，用户可以根据实际需要自行设定第三深度网络模型的具体结构(例如第三深度网络模型为用于输出迭代特征向量的多层感知机)，在此不作限定。

以第G个分子图结构为例，说明分子的特征向量的获取过程：

第G个分子图结构可以表示为其中，/>表示结点集合，ε_G表示边集合，对于分子图结构/>中每条无向边(v,u)∈ε_G，分别抽取从结点v(即第v个结点)到结点u(第u个结点)的迭代特征向量v_vu和从结点u到结点v的迭代特征向量v_uv，分别汇聚了来自不同方向的特征向量，从结点v到结点u的迭代特征向量的初始值和从结点u到结点v的迭代特征向量的初始值均为零，即/>以从结点v到结点u的迭代特征向量v_vu为例，之后每一轮迭代不断更新从结点v到结点u的迭代特征向量v_vu，第t轮的从结点v到结点u的迭代特征向量/>其中，f_v为结点v的初始特征向量(即原子类型的独热编码向量)，f_vu为边(v,u)的初始特征向量(即边类型的独热编码向量)，w为结点集合N(v)中除结点u之外的其他结点，/>为从结点w到结点v的第t-1轮迭代特征向量，g₃(·)代表一个多层感知机网络(即第三深度网络模型)。

在迭代T轮(即预设迭代次数)之后，根据最后一轮得到的结点集合N(u)中每个结点到第u个结点的目标特征向量，计算第u个结点的目标特征向量f_u为结点u的初始特征向量(即原子类型的独热编码向量)，p为结点集合N(u)中结点，/>为结点p到第u个结点的目标特征向量，g₂(·)代表一个多层感知机网络(即第二深度网络模型)。

第G个分子图结构对应的分子的所有原子的目标特征向量计算均值将该均值作为该分子的特征向量，/>表示第G个分子图结构中结点数量。

步骤306，检测目标分子是否为终止分子。

具体地，若目标分子为终止分子，则确定完成了从起始分子到终止分子的代谢路径预测，从起始分子到终止分子的代谢路径结束，执行步骤309；若目标分子不是终止分子，则确定未完成从起始分子到终止分子的代谢路径预测，从起始分子到终止分子的代谢路径未结束，则执行步骤307。

步骤307，判断返回执行步骤304的次数是否达到预设阈值。

具体地，若返回执行步骤304的次数达到预设阈值，则确定无法获取到从起始分子到终止分子的代谢路径；若返回执行步骤304的次数未达到预设阈值，则执行步骤308，继续进行目标分子的检测，以获取到从起始分子到终止分子的代谢路径。

其中，可以预先设置最大的返回执行次数(即预设阈值)，以避免本申请在一直无法到达终止分子时，始终进行目标分子的检测。

步骤308，将目标分子作为参考分子。

步骤309，根据起始分子、终止分子和至少一个目标分子，获取从起始分子到终止分子的代谢路径。

该步骤与步骤104相同，具体可参见步骤104的相关描述，在此不再赘述。

步骤310，结束。

本申请实施例在实施例一的基础上，通过深度图神经网络学习更加复杂的分子特征，基于复杂的分子特征进行代谢路径的预测，能够提高代谢路径的预测准确度。

参见图4，是本申请实施例三提供的代谢路径预测方法的实现流程示意图，该代谢路径预测方法应用于终端设备，如图所示该代谢路径预测方法可以包括以下步骤：

步骤401，获取待预测代谢路径的起始分子和终止分子。

步骤402，获取分子连接关系图。

步骤403，根据分子连接关系图，获取至少一个目标分子。

该步骤与步骤103相同，具体可参见步骤103的相关描述，在此不再赘述。

步骤404，根据起始分子、终止分子和至少一个目标分子，获取从起始分子到终止分子的代谢路径。

步骤405，获取从起始分子到终止分子的真实代谢路径。

在本实施例中，可以从代谢路径数据库中获取代谢路径数据，代谢路径数据包含分子在生物体内一步步演变得到最终产物的过程，一个代谢路径数据对应一条代谢路径，每一条代谢路径均包含一个起始分子和终止分子，以及从起始分子到终止分子之间的每一步的中间产物(即目标分子)，可以将获取到的代谢路径数据划分为训练集、验证集和测试集，训练集用于训练代谢路径预测模型，验证集用于调节代谢路径预测模型的参数，测试集用于测试训练好的代谢路径预测模型的预测精度。其中，上述代谢路径预测模型可以是指实施例二中涉及到三个深度网络模型，可以通过softmax归一化并极大似然的方式训练代谢路径预测模型。

步骤406，根据预测代谢路径和真实代谢路径，获取从起始分子到目标分子的代谢路径的预测精度。

其中，预测代谢路径是指根据起始分子、终止分子和至少一个目标分子，获取到的从起始分子到目标分子的代谢路径。

例如，从测试集中获取一条代谢路径，该代谢路径为真实代谢路径，该代谢路径的起始分子为步骤401中的起始分子，该代谢路径中的终止分子为步骤401中的终止分子，通过本申请对从起始分子到终止分子的代谢路径进行预测，得到预测的代谢路径，将预测的代谢路径与真实代谢路径进行比较，可以获取本申请对代谢路径的预测精度。

可选地，根据预测代谢路径和真实代谢路径，获取从起始分子到目标分子的代谢路径的预测精度包括：

根据预测代谢路径和真实代谢路径，获取预测正确的分子数量tp，预测正确的分子是指同时存在于预测代谢路径和真实代谢路径中，且在预测代谢路径中的顺序与在真实代谢路径中的顺序相同的分子；

根据预测正确的分子数量tp和预测代谢路径中分子数量，计算预测错误的分子数量fp，预测错误的分子是指存在于预测代谢路径中且不存在于真实代谢路径中，或者同时存在于预测代谢路径和真实代谢路径中且在预测代谢路径中的顺序与在真实代谢路径中的顺序不同的分子；

根据预测正确的分子数量tp和真实代谢路径中分子数量，计算遗漏预测的分子数量fn，遗漏预测的分子是指存在于真实代谢路径中且不存在于预测代谢路径中，或者同时存在于预测代谢路径和真实代谢路径中且在预测代谢路径中的顺序与在真实代谢路径中的顺序不同的分子；

根据预测正确的分子数量tp和预测错误的分子数量fp，计算第一预测值

根据预测正确的分子数量tp和遗漏预测的分子数量fn，计算第二预测值

计算第一预测值和第二预测值的平均值并确定该平均值为从起始分子到终止分子的代谢路径的预测精度。

其中，预测正确的分子也可以理解为预测代谢路径和真实代谢路径的最长公共子序列中的分子，例如，预测代谢路径为A→B→C→D→E→F，预测代谢路径中分子数量为六，真实代谢路径为A→C→B→G→D→E→F，真实代谢路径中分子数量为七，预测代谢路径和真实代谢路径的最长公共子序列为A→C→D→E→F或者A→B→D→E→F，那么预测正确的分子数量为五，预测错误的分子数量为一(即预测代谢路径中分子数量与预测正确的分子数量的差值)，遗漏预测的分子数量为二(即真实代谢路径中分子数量与预测正确的分子数量的差值)。

本申请实施例通过在计算代谢路径的预测精度时，同时考虑预测错误的分子数量和遗漏预测的分子数量，提高了预测精度的准确度。

参见图5，是本申请实施例四提供的代谢路径预测装置的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分。

代谢路径预测装置包括：

分子获取模块51，用于获取待预测代谢路径的起始分子和终止分子；

关系图获取模块52，用于获取分子连接关系图，分子连接关系图表示至少两个代谢反应中分子之间的连接关系，分子连接关系图中的结点表示分子，分子连接关系图中的有向边表示该有向边的起始结点通过代谢反应转化为终止结点；

目标获取模块53，用于根据分子连接关系图，获取至少一个目标分子，至少一个目标分子是指从起始分子到终止分子的过程中途径的分子；

路径获取模块54，用于根据起始分子、终止分子和至少一个目标分子，获取从起始分子到终止分子的代谢路径。

可选地，目标获取模块53包括：

分子确定单元，用于将起始分子作为参考分子；

分子检测单元，用于检测从分子连接关系图中是否获取到参考分子的邻居分子，邻居分子是指在分子连接关系图中与参考分子通过有向边相连，且是该有向边的终止结点的分子；

相邻确定单元，用于若从分子连接关系图中获取到的邻居分子的数量为一个，则确定该邻居分子为与参考分子相邻的目标分子；

相邻获取单元，若从分子连接关系图中获取到的邻居分子的数量为至少两个，则从至少两个邻居分子中，获取与参考分子相邻的目标分子；

终止检测单元，用于检测目标分子是否为终止分子；

阈值判断单元，用于若目标分子不是终止分子，则判断返回执行检测从分子连接关系图中是否获取到参考分子的至少一个邻居分子的步骤的次数是否达到预设阈值；

参考确定单元，用于若返回执行检测从分子连接关系图中是否获取到参考分子的至少一个邻居分子的步骤的次数未达到预设阈值，则将目标分子作为参考分子，返回执行分子检测单元。

可选地，相邻获取单元包括：

向量子单元，用于获取参考分子的特征向量、终止分子的特征向量和至少两个邻居分子中每个邻居分子的特征向量；

得分子单元，用于将参考分子的特征向量、终止分子的特征向量和每个邻居分子的特征向量输入第一深度网络模型，获取第一深度网络模型输出的每个邻居分子的得分；

确定子单元，用于确定得分最高的邻居分子为与参考分子相邻的目标分子；

其中，向量子单元包括：

第一获取子模块，用于获取参考分子的分子图结构、终止分子的分子图结构以及至少两个邻居分子中每个邻居分子的分子图结构，一个分子的分子图结构中的结点表示该分子的原子，该分子的原子之间的化合键表示该分子图结构中的边；

第二获取子模块，用于针对第G个分子图结构，第G个分子图结构是指参考分子的分子图结构、终止分子的分子图结构以及至少两个邻居分子中每个邻居分子的分子图结构中的任一分子图结构，获取第G个分子图结构中每个结点的初始特征向量和每条边的初始特征向量，第G个分子图结构中每个结点的初始特征向量是指该结点对应的原子类型的独热编码向量，第G个分子图结构中每条边的初始特征向量是指该边对应的化合键类型的独热编码向量；

第三获取子模块，用于根据第G个分子图结构中每个结点的初始特征向量和每条边的初始特征向量，获取第G个分子图结构对应的分子的特征向量。

可选地，第三获取子模块具体用于：

将第G个分子图结构中所有结点的目标特征向量相加，并将相加后所得值除以第G个分子图结构的结点数量，得到第G个分子图结构对应的分子的特征向量；

将第u个结点的初始特征向量和聚合特征向量输入至第二深度网络模型，获取第二深度网络模型输出的第u个结点的目标特征向量；

将第v个结点的初始特征向量、连接第v个结点与第u个结点的边的初始特征向量，以及其他结点到第v个结点的第t-1轮迭代特征向量输入至第三深度网络模型，获取第三深度网络模型输出的从第v个结点到第u个结点的第t轮迭代特征向量；

检测t是否达到预设迭代次数；

可选地，上述代谢路径预测装置还包括：

代谢获取模块，用于获取从起始分子到终止分子的真实代谢路径；

精度获取模块，用于根据预测代谢路径和真实代谢路径，获取从起始分子到目标分子的代谢路径的预测精度，预测代谢路径是指根据起始分子、终止分子和至少一个目标分子，获取到的从起始分子到目标分子的代谢路径。

可选地，精度获取模块具体用于：

本申请实施例提供的代谢路径预测装置可以应用在前述方法实施例中，详情参见上述方法实施例的描述，在此不再赘述。

图6是本申请实施例五提供的终端设备的结构示意图。如图6所示，该实施例的终端设备6包括：一个或多个处理器60(图中仅示出一个)、存储器61以及存储在存储器61中并可在处理器60上运行的计算机程序62。处理器60执行计算机程序62时实现上述各个代谢路径预测方法实施例中的步骤

终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备6可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是终端设备6的示例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备6还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器61可以是终端设备6的内部存储单元，例如终端设备6的硬盘或内存。存储器61也可以是终端设备6的外部存储设备，例如终端设备6上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器61还可以既包括终端设备6的内部存储单元也包括外部存储设备。存储器61用于存储计算机程序以及终端设备所需的其他程序和数据。存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本申请实现上述实施例方法中的全部或部分流程，也可以通过一种计算机程序产品来完成，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种代谢路径预测方法，其特征在于，所述代谢路径预测方法包括：

获取待预测代谢路径的起始分子和终止分子；

根据所述起始分子、所述终止分子和所述至少一个目标分子，获取从所述起始分子到所述终止分子的代谢路径；

其中，所述根据所述分子连接关系图，获取至少一个目标分子包括：

将所述起始分子作为参考分子；

检测从所述分子连接关系图中是否获取到所述参考分子的邻居分子，所述邻居分子是指在所述分子连接关系图中与所述参考分子通过有向边相连，且是该有向边的终止结点的分子；

若从所述分子连接关系图中获取到的邻居分子的数量为一个，则确定该邻居分子为与所述参考分子相邻的目标分子；

若从所述分子连接关系图中获取到的所述邻居分子的数量为至少两个，则从至少两个邻居分子中，获取与所述参考分子相邻的目标分子；

检测所述目标分子是否为所述终止分子；

若所述目标分子不是所述终止分子，则判断返回执行所述检测从所述分子连接关系图中是否获取到所述参考分子的至少一个邻居分子的步骤的次数是否达到预设阈值；

若返回执行所述检测从所述分子连接关系图中是否获取到所述参考分子的至少一个邻居分子的步骤的次数未达到所述预设阈值，则将所述目标分子作为参考分子，返回执行所述检测从所述分子连接关系图中是否获取到所述参考分子的至少一个邻居分子的步骤；

其中，所述从所述至少两个邻居分子中，获取与所述参考分子相邻的目标分子包括：

获取所述参考分子的特征向量、所述终止分子的特征向量和所述至少两个邻居分子中每个邻居分子的特征向量；

将所述参考分子的特征向量、所述终止分子的特征向量和所述每个邻居分子的特征向量输入第一深度网络模型，获取所述第一深度网络模型输出的所述每个邻居分子的得分；

确定得分最高的邻居分子为与所述参考分子相邻的目标分子；

其中，所述获取所述参考分子的特征向量、所述终止分子的特征向量和所述至少两个邻居分子中每个邻居分子的特征向量包括：

获取所述参考分子的分子图结构、所述终止分子的分子图结构以及所述至少两个邻居分子中每个邻居分子的分子图结构，一个分子的分子图结构中的结点表示该分子的原子，该分子的原子之间的化合键表示该分子图结构中的边；

针对第G个分子图结构，所述第G个分子图结构是指所述参考分子的分子图结构、所述终止分子的分子图结构以及所述至少两个邻居分子中每个邻居分子的分子图结构中的任一分子图结构，获取所述第G个分子图结构中每个结点的初始特征向量和每条边的初始特征向量，所述第G个分子图结构中每个结点的初始特征向量是指该结点对应的原子类型的独热编码向量，所述第G个分子图结构中每条边的初始特征向量是指该边对应的化合键类型的独热编码向量；

根据所述第G个分子图结构中每个结点的初始特征向量和每条边的初始特征向量，获取所述第G个分子图结构对应的分子的特征向量；

其中，所述根据所述第G个分子图结构中每个结点的初始特征向量和每条边的初始特征向量，获取所述第G个分子图结构对应的分子的特征向量包括：

根据所述第G个分子图结构中每个结点的初始特征向量和每条边的初始特征向量，获取所述第G个分子图结构中每个结点的目标特征向量；

将所述第G个分子图结构中所有结点的目标特征向量相加，并将相加后所得值除以所述第G个分子图结构的结点数量，得到所述第G个分子图结构对应的分子的特征向量；

其中，针对所述第G个分子图结构中的第u个结点，所述第u个结点为所述第G个分子图结构中的任一结点，结点集合N(u)为所述第G个分子图结构中通过边与所述第u个结点连接的所有结点的集合；所述根据所述第G个分子图结构中每个结点的初始特征向量和每条边的初始特征向量，获取所述第G个分子图结构中每个结点的目标特征向量包括：

根据所述结点集合N(u)中每个结点的初始特征向量和连接每个结点与所述第u个结点的边的初始特征向量，获取所述结点集合N(u)中每个结点到所述第u个结点的目标特征向量；

将所述结点集合N(u)中每个结点到所述第u个结点的目标特征向量相加，得到所述第u个结点的聚合特征向量；

将所述第u个结点的初始特征向量和聚合特征向量输入至第二深度网络模型，获取所述第二深度网络模型输出的所述第u个结点的目标特征向量；

其中，针对第v个结点，所述第v个结点为所述结点集合N(u)中的任一结点，结点集合N(v)为所述第G个分子图结构中通过边与所述第v个结点连接的所有结点；所述根据所述结点集合N(u)中每个结点的初始特征向量和连接每个结点与所述第u个结点的边的初始特征向量，获取所述结点集合N(u)中每个结点到所述第u个结点的目标特征向量包括：

获取从所述结点集合N(v)中除所述第u个结点之外的其他结点到所述第v个结点的第t-1轮迭代特征向量，t为大于零的整数；

将所述第v个结点的初始特征向量、连接所述第v个结点与所述第u个结点的边的初始特征向量，以及所述其他结点到所述第v个结点的第t-1轮迭代特征向量输入至第三深度网络模型，获取所述第三深度网络模型输出的从所述第v个结点到所述第u个结点的第t轮迭代特征向量；

检测t是否达到预设迭代次数；

若t达到所述预设迭代次数，则停止迭代，并确定从所述第v个结点到所述第u个结点的第t轮迭代特征向量为从所述第v个结点到所述第u个结点的目标特征向量；

若t未达到所述预设迭代次数，则确定t＝t+1，并返回执行所述获取从所述结点集合N(v)中除所述第u个结点之外的其他结点到所述第v个结点的第t-1轮迭代特征向量。

2.如权利要求1所述的代谢路径预测方法，其特征在于，在获取从所述起始分子到所述终止分子的代谢路径之后，还包括：

获取从所述起始分子到所述终止分子的真实代谢路径；

根据预测代谢路径和所述真实代谢路径，获取从所述起始分子到所述目标分子的代谢路径的预测精度，所述预测代谢路径是指根据所述起始分子、所述终止分子和所述至少一个目标分子，获取到的从所述起始分子到所述目标分子的代谢路径。

3.如权利要求2所述的代谢路径预测方法，其特征在于，所述根据预测代谢路径和所述真实代谢路径，获取从所述起始分子到所述目标分子的代谢路径的预测精度包括：

根据所述预测代谢路径和所述真实代谢路径，获取预测正确的分子数量tp，预测正确的分子是指同时存在于所述预测代谢路径和所述真实代谢路径中，且在所述预测代谢路径中的顺序与在所述真实代谢路径中的顺序相同的分子；

根据所述预测正确的分子数量tp和所述预测代谢路径中分子数量，计算预测错误的分子数量fp，预测错误的分子是指存在于所述预测代谢路径中且不存在于所述真实代谢路径中，或者同时存在于所述预测代谢路径和所述真实代谢路径中且在所述预测代谢路径中的顺序与在所述真实代谢路径中的顺序不同的分子；

根据所述预测正确的分子数量tp和所述真实代谢路径中分子数量，计算遗漏预测的分子数量fn，所述遗漏预测的分子是指存在于所述真实代谢路径中且不存在于所述预测代谢路径中，或者同时存在于所述预测代谢路径和所述真实代谢路径中且在所述预测代谢路径中的顺序与在所述真实代谢路径中的顺序不同的分子；

根据所述预测正确的分子数量tp和所述预测错误的分子数量fp，计算第一预测值

根据所述预测正确的分子数量tp和所述遗漏预测的分子数量fn，计算第二预测值

计算所述第一预测值和所述第二预测值的平均值并确定该平均值为从所述起始分子到所述终止分子的代谢路径的预测精度

4.如权利要求1至3任一项所述的代谢路径预测方法，其特征在于，所述获取分子连接关系图包括：

获取M个代谢反应式，M为大于1的整数；

根据所述M个代谢反应式，获取所述分子连接关系图。

5.一种代谢路径预测装置，其特征在于，所述代谢路径预测装置包括：

路径获取模块，用于根据所述起始分子、所述终止分子和所述至少一个目标分子，获取从所述起始分子到所述终止分子的代谢路径；

将所述起始分子作为参考分子；

检测所述目标分子是否为所述终止分子；

检测t是否达到预设迭代次数；

6.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述代谢路径预测方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述代谢路径预测方法的步骤。