CN111128307A

CN111128307A - 代谢路径预测方法、装置、终端设备及可读存储介质

Info

Publication number: CN111128307A
Application number: CN201911287003.7A
Authority: CN
Inventors: 纪超杰; 吴红艳; 李烨; 蔡云鹏
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-12-14
Filing date: 2019-12-14
Publication date: 2020-05-08
Anticipated expiration: 2039-12-14
Also published as: CN111128307B

Abstract

本申请适用于数据分析技术领域，提供了一种代谢路径预测方法、装置、终端设备及可读存储介质，该方法包括：确定反应规则对应的终止节点；根据所述终止节点与各个上级节点之间的游走概率，确定多个目标节点，各个所述上级节点均与所述终止节点连接；根据所述终止节点和多个所述目标节点，生成所述代谢产物的代谢路径。通过根据反应规则网络中终止节点与各个上级节点之间的游走概率，查找构成代谢路径的各个目标节点，由终止节点和多个目标节点组成代谢路径，避免了在反应规则网络中根据反应物和代谢产物之间的距离确定代谢路径，提高了代谢路径的准确度。

Description

代谢路径预测方法、装置、终端设备及可读存储介质

技术领域

本申请属于数据分析技术领域，尤其涉及代谢路径预测方法、装置、终端设备及可读存储介质。

背景技术

随着科学技术的不断发展，在代谢反应中，可以通过代谢产物推测得到代谢反应中的至少一个反应物，从而预测得到代谢反应的代谢路径。

相关技术中，可以基于预先设定的反应规则网络，查找能够生成代谢产物的反应规则在反应规则网络中对应的多个节点，并根据多个节点生成多个代谢路径，最后选取最短的代谢路径，作为生成该代谢产物的代谢路径。

但是，在实际应用中，代谢产物的反应物并不一定是在反应规则网络中与代谢产物距离最近的反应物，从而造成代谢路径预测不准确的问题。

发明内容

本申请实施例提供了一种代谢路径预测方法、装置、终端设备及可读存储介质，可以解决代谢路径预测不准确的问题。

第一方面，本申请实施例提供了一种代谢路径预测方法，所述方法包括：

确定反应规则对应的终止节点，所述终止节点是反应规则网络中，反应物通过发生所述反应规则所指示的代谢反应得到代谢产物的节点，所述反应规则网络包括多个节点，每个所述节点对应一个反应规则；

根据所述终止节点与各个上级节点之间的游走概率，确定多个目标节点，各个所述上级节点均与所述终止节点连接；

根据所述终止节点和多个所述目标节点，生成所述代谢产物的代谢路径。

可选的，多个所述目标节点包括中间节点和初始节点；

所述根据所述终止节点与各个上级节点之间的游走概率，确定多个目标节点，包括：

对于每个所述中间节点和所述终止节点中的每个节点，确定与所述节点相连接的至少一个上级节点；

根据每个所述上级节点对应的反应规则、所述节点对应的反应规则和所述反应规则网络中每个节点的反应参数进行计算，得到所述节点与各个所述上级节点之间的游走概率；

在多个所述游走概率中，选取参数值最大的游走概率所对应的上级节点作为一个所述目标节点；

获取所述目标节点的反应参数；

若所述目标节点的反应参数满足预先设置的反应条件，将所述目标节点作为所述初始节点，否则，将所述目标节点作为所述中间节点。

可选的，所述根据每个所述上级节点对应的反应规则、所述节点对应的反应规则和所述反应规则网络中每个节点的反应参数进行计算，得到所述节点与各个所述上级节点之间的游走概率，包括：

将每个所述上级节点对应的反应规则和所述节点对应的反应规则均转换为独热编码；

根据所述独热编码和所述反应规则网络中每个节点的反应参数进行计算，得到所述节点与各个所述上级节点之间的游走概率。

可选的，所述根据所述独热编码和所述反应规则网络中每个节点的反应参数进行计算，得到所述节点与各个所述上级节点之间的游走概率，包括：

对于每个所述上级节点，根据所述节点的独热编码、所述上级节点对应的独热编码、以及所述反应规则网络中每个节点的反应参数进行计算，获取所述节点的概率特征表示和所述上级节点的概率特征表示；

根据所述节点的概率特征表示、所述上级节点的概率特征表示、所述节点对应的独热编码和所述上级节点对应的独热编码进行计算，得到所述节点与所述上级节点之间的边的特征表示；

根据所述节点与每个所述上级节点之间的边的特征表示进行计算，得到所述节点与每个所述上级节点之间的游走概率。

可选的，所述反应规则包括：反应增加结构和反应移除结构；

所述将每个所述上级节点对应的反应规则和所述节点对应的反应规则均转换为独热编码，包括：

对每个所述上级节点对应的反应规则的反应增加结构和反应移除结构分别进行转换，得到上级反应增加独热编码和上级反应移除独热编码；

对所述节点对应的反应规则中的反应增加结构和反应移除结构分别进行转换，得到当前反应增加独热编码和当前反应移除独热编码。

可选的，在所述确定反应规则对应的终止节点之前，所述方法还包括：

根据所述代谢产物，确定至少一个备选反应规则；

根据每个所述备选反应规则在所述反应规则网络中对应的备选节点的反应参数，选取所述反应规则。

第二方面，本申请实施例提供了一种代谢路径预测装置，所述装置包括：

第一确定模块，用于确定反应规则对应的终止节点，所述终止节点是反应规则网络中，反应物通过发生所述反应规则所指示的代谢反应得到代谢产物的节点，所述反应规则网络包括多个节点，每个所述节点对应一个反应规则；

第二确定模块，用于根据所述终止节点与各个上级节点之间的游走概率，确定多个目标节点，各个所述上级节点均与所述终止节点连接；

生成模块，用于根据所述终止节点和多个所述目标节点，生成所述代谢产物的代谢路径。

可选的，多个所述目标节点包括中间节点和初始节点；

所述第二确定模块，还用于对于每个所述中间节点和所述终止节点中的每个节点，确定与所述节点相连接的至少一个上级节点；根据每个所述上级节点对应的反应规则、所述节点对应的反应规则和所述反应规则网络中每个节点的反应参数进行计算，得到所述节点与各个所述上级节点之间的游走概率；在多个所述游走概率中，选取参数值最大的游走概率所对应的上级节点作为一个所述目标节点；获取所述目标节点的反应参数；若所述目标节点的反应参数满足预先设置的反应条件，将所述目标节点作为所述初始节点，否则，将所述目标节点作为所述中间节点。

可选的，所述第二确定模块，还用于将每个所述上级节点对应的反应规则和所述节点对应的反应规则均转换为独热编码；根据所述独热编码和所述反应规则网络中每个节点的反应参数进行计算，得到所述节点与各个所述上级节点之间的游走概率。

可选的，所述第二确定模块，还用于对于每个所述上级节点，根据所述节点的独热编码、所述上级节点对应的独热编码、以及所述反应规则网络中每个节点的反应参数进行计算，获取所述节点的概率特征表示和所述上级节点的概率特征表示；根据所述节点的概率特征表示、所述上级节点的概率特征表示、所述节点对应的独热编码和所述上级节点对应的独热编码进行计算，得到所述节点与所述上级节点之间的边的特征表示；根据所述节点与每个所述上级节点之间的边的特征表示进行计算，得到所述节点与每个所述上级节点之间的游走概率。

所述第二确定模块，还用于对每个所述上级节点对应的反应规则的反应增加结构和反应移除结构分别进行转换，得到上级反应增加独热编码和上级反应移除独热编码；对所述节点对应的反应规则中的反应增加结构和反应移除结构分别进行转换，得到当前反应增加独热编码和当前反应移除独热编码。

可选的，所述装置还包括：

第三确定模块，还用于根据所述代谢产物，确定至少一个备选反应规则；

选取模块，用于根据每个所述备选反应规则在所述反应规则网络中对应的备选节点的反应参数，选取所述反应规则。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的代谢路径预测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的代谢路径预测方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的代谢路径预测方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例通过确定反应规则对应的终止节点，并根据终止节点与各个上级节点之间的游走概率，确定多个目标节点，而各个上级节点均与终止节点连接，最后根据终止节点和多个目标节点，生成代谢产物的代谢路径。其中，终止节点是反应规则网络中，反应物通过发生反应规则所指示的代谢反应得到代谢产物的节点，且反应规则网络包括多个节点，每个节点对应一个反应规则。通过根据反应规则网络中终止节点与各个上级节点之间的游走概率，查找构成代谢路径的各个目标节点，由终止节点和多个目标节点组成代谢路径，避免了在反应规则网络中根据反应物和代谢产物之间的距离确定代谢路径，提高了代谢路径的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种反应规则网络的示意图；

图2是本申请提供的一种代谢路径预测方法的示意性流程图；

图3是本申请提供的一种确定反应规则方法的示意性流程图；

图4是本申请提供的一种确定中间节点和初始节点的方法的示意性流程图；

图5是本申请实施例提供的一种代谢路径预测装置的结构框图；

图6是本申请实施例提供的另一种代谢路径预测装置的结构框图；

图7是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的代谢路径预测方法可以应用于平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

例如，所述终端设备可以是WLAN中的站点(STAION，ST)，可以是个人数字处理(Personal Digital Assistant，PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡。

首先，对本申请中涉及的概念进行示例性的解释，图1是本申请提供的一种反应规则网络的示意图，如图1所示，反应规则网络可以包括多个节点，而每个节点与一个反应规则相对应，且每个节点对应的反应规则各不相同。

其中，反应规则网络是根据大量的代谢反应对所组成的反应数据库生成的。代谢反应对表示通过反应物发生代谢反应得到代谢产物。

具体地，可以先根据反应数据库中的各个代谢反应对，按照反应物和代谢产物之间的子图编辑距离，将距离最小的反应物和代谢产物作为反应物-产物对，并基于反应物-产物对确定反应物发生代谢反应的核心位置，也即是反应中心，再将发生该代谢反应所需的原因和条件作为反应签名，最后确定发生代谢反应时反应物-产物对中，反应物和代谢产物分别对应的分子结构所发生的变化，也即是，反应物的分子结构中移除的结构和代谢产物的分子结构中增加的结构，从而得到反应移除结构和反应增加结构。

之后，即可根据确定的反应中心、反应签名、反应增加结构、反应移除结构以及反应物集合中除反应物之外的其他化合物，生成该代谢反应所对应的反应规则。

在对反应数据库中的大量代谢反应对进行分析后，可以得到各个代谢反应所对应的反应规则，从而可以对任意两个反应规则进行遍历，确定任意两个反应规则之间的连通性，进而在连通的两个反应规则之间添加一条边，用以连接这两个反应规则，在对各个反应规则遍历完毕后，即可生成反应规则网络。

其中，两个反应规则之间添加的边是具有方向性的边，用以表示可以通过这条边的起始节点对应的反应规则，发生代谢反应得到的代谢产物，可以作为这条边的终止节点对应的反应规则所需的反应物。或者，用以表示通过这条边的起始节点对应的反应规则所需的反应物，是这条边的终止节点对应的反应规则，发生代谢反应之后生成的代谢产物。

而且，为了便于表示该反应规则网络，可以生成如图1所示的包括多个节点的反应规则网络的示意图，每个节点可以对应一个反应规则。

进一步地，在根据代谢产物结合通过反应规则网络确定代谢路径的过程中，可以根据代谢产物，确定生成该代谢产物的反应规则，从而将该反应规则在反应规则网络中对应的节点作为终止节点，并从与终止节点直接连接或间接连接的各个上级节点中选取目标节点，作为代谢路径的中间节点和初始节点。

其中，该初始节点为代谢路径中首次发生代谢反应的反应规则所对应的节点，该中间节点为根据初始节点对应的代谢产物发生代谢反应，得到终止节点对应的反应物的至少一个反应规则所对应的节点。

图2是本申请提供的一种代谢路径预测方法的示意性流程图，作为示例而非限定，该方法可以应用于上述任意终端设备中，该代谢路径预测方法可以包括：

S201、确定反应规则对应的终止节点。

其中，终止节点是反应规则网络中，反应物通过发生反应规则所指示的代谢反应得到代谢产物的节点。而且，反应规则网络可以包括多个节点，每个节点对应一个反应规则。

在根据代谢产物确定代谢路径的过程中，可以先结合预先设置的反应规则网络，确定多个能够产生代谢产物的备选反应规则，并从多个备选反应规则中确定产生代谢产物的反应规则，从而将该反应规则对应的节点作为终止节点，以便在后续步骤中，可以根据该终止节点得到代谢产物的反应路径。

在一种可能的实现方式中，可以将代谢产物输入反应规则网络，并根据反应规则网络的各个节点对应的反应规则进行查找，确定能够生成代谢产物的至少一个备选反应规则。

进一步地，可以确定每个备选反应规则在反应规则网络中对应的备选节点，并根据每个备选节点的反应参数进行计算，得到每个备选节点发生代谢反应的概率，也即是发生与备选反应规则相对应的代谢反应，得到代谢产物的概率，从而将概率最大的备选节点所对应的备选反应规则，作为得到代谢产物的反应规则，进而可以将该概率最大的备选节点作为终止节点。

其中，反应规则网络中某个节点的反应参数用于表示与该节点相连接的其他节点的数目。

S202、根据终止节点与各个上级节点之间的游走概率，确定多个目标节点。

其中，各个上级节点均与终止节点连接。例如，上级节点可以与终止节点直接连接，也可以通过其他节点与终止节点间接连接，本申请实施例对终止节点的上级节点不做限定。

在确定终止节点后，则可以终止节点和各个上级节点的反应规则，确定终止节点游走至各个上级节点的概率，从而根据不同的概率选取不同的上级节点作为目标节点，以便在后续步骤中，可以根据各个目标节点生成代谢路径。

在一种可能的实现方式中，若上级节点均为与终止节点直接连接的节点，则在计算终止节点游走至各个上级节点的过程中，可以先根据终止节点的反应规则和各个上级节点的反应规则，生成终止节点与各个上级节点之间的边的特征表示，再根据多个边的特征表示进行计算，得到终止节点游走至每个上级节点的游走概率，从而选取概率最大的上级节点作为目标节点。

进一步地，针对上述确定的目标节点，可以按照上述方式再次确定目标节点，直至选取的目标节点无法游走至其他上级节点，从而得到多个目标节点。

S203、根据终止节点和多个目标节点，生成代谢产物的代谢路径。

在得到包括初始节点的多个目标节点之后，可以结合反应规则网络，生成代谢产物的代谢路径。

例如，若反应规则网络是根据初始节点指向终止节点的方向建立的，则可以以初始节点为起点，按照初始节点和其他各个目标节点所指向的方向，将初始节点、其他各个目标节点和终点节点进行连接，从而得到代谢产物的反应路径。

但是，若反应规则网络是根据终止节点指向初始节点的方向建立的，则可以按照与上述方向相反的方向，连接得到代谢产物的反应路径，本申请实施例对此不再赘述。

综上所述，本申请实施例提供的代谢路径预测方法，通过确定反应规则对应的终止节点，并根据终止节点与各个上级节点之间的游走概率，确定多个目标节点，而各个上级节点均与终止节点连接，最后根据终止节点和多个目标节点，生成代谢产物的代谢路径。其中，终止节点是反应规则网络中，反应物通过发生反应规则所指示的代谢反应得到代谢产物的节点，且反应规则网络包括多个节点，每个节点对应一个反应规则。通过根据反应规则网络中终止节点与各个上级节点之间的游走概率，查找构成代谢路径的各个目标节点，由终止节点和多个目标节点组成代谢路径，避免了在反应规则网络中根据反应物和代谢产物之间的距离确定代谢路径，提高了代谢路径的准确度。

另一方面，在确定反应规则的过程中，可以根据各个备选反应规则发生的概率，从多个备选反应规则中选取最有可能产生代谢产物的反应规则，从而能够根据概率确定终止节点，而不是根据各个备选反应规则预测的多个代谢路径的长度选取反应规则，从而提高了代谢路径的准确度。

示例性的，参见图3，图3是本申请提供的一种确定反应规则方法的示意性流程图，作为示例而非限定，该方法可以应用于上述任意终端设备中，可以包括：

S301、根据代谢产物，确定至少一个备选反应规则。

反应规则网络中包括多个节点，而每个节点对应一个反应规则，由于反应规则中包括反应中心、反应签名、反应增加结构和反应移除结构等信息，则可以根据反应规则中的各项信息，判断能够产生代谢产物的各个反应规则所对应的代谢反应，从而得到至少一个备选反应规则。

在一种可能的实现方式中，可以对代谢产物对应的分子结构进行分析，确定该分子结构可能存在的反应中心和反应增加结构，并将该分析结果与各个节点对应的反应规则进行匹配，从而得到至少一个备选反应规则。

S302、根据每个备选反应规则在反应规则网络中对应的备选节点的反应参数，选取反应规则。

在确定各个备选反应规则后，则可以在反应规则网络中确定各个备选反应规则对应的备选节点，并根据每个备选节点的反应参数，确定各个备选节点的反应规则所对应的代谢反应的发生概率，最后根据多个概率，从多个备选反应规则中选取反应规则。

具体地，可以根据预先设置的公式进行计算，得到多维度参数，该多维度参数中的每个维度可以对应反应规则网络中的一个节点，而各个维度的参数值则可以为各个节点的度数(出度或入度)，可以将各个节点的度数作为节点的反应参数，从而得到多个备选节点的反应参数。

其中，节点的度数用于表示与该节点相连接的其他节点的数目。若度数为出度，则节点的出度用于表示以该节点为起点，连接至其他节点的情况下，其他节点的数目即为该节点的出度。若度数为入度，则节点的入度用于表示以该节点为终点，其他节点连接至该节点的情况下，其他节点的数目即为该节点的入度。

但是，反应规则网络中并不是每个节点均是备选节点，则反应规则网络中非备选节点在多维度参数中所对应的参数值可以为统一的预先设定的参数值。例如，该统一的参数值可以为0，也可以为N，还可以为其他统一表示非备选节点的数据，本申请实施例对此不做限定。

进一步地，在确定各个备选节点的反应参数后，可以根据各个反应参数进行计算，确定通过哪个备选节点对应的反应规则发生代谢反应的概率最大，从而根据计算得到的各个概率，从多个备选反应规则中确定反应规则。

具体地，对于每个备选节点，可以先对各个备选节点的反应参数进行求和，得到多个反应参数的和值，再计算该备选节点的反应参数与该和值之间的商值，从而可以将该商值作为该备选节点对应的发生代谢反应的概率。

在得到每个备选节点的概率后，可以将每个概率与其他各个概率进行比较，从而得到多个概率中参数值最大的概率，进而可以将该参数值最大的概率的备选节点所对应的备选反应规则，确定为生成代谢产物的反应规则。

例如，可以通过预先设置的公式

计算每个备选节点的概率。其中，X_vt为备选节点vt的概率，deg(vt)为备选节点vt的反应参数，U为反应规则网络中备选节点的集合，vu为任意一个备选节点，deg(vu)为任意一个备选节点的反应参数。

综上所述，本申请实施例提供的确定反应规则的方法，根据代谢产物，确定至少一个备选反应规则，并根据每个备选反应规则在反应规则网络中对应的备选节点的反应参数，选取反应规则。通过确定各个备选节点的反应参数，并根据各个反应参数进行计算，得到每个备选节点的概率，也即是确定发生各个备选反应规则产生代谢产物的概率，从而根据各个概率选取反应规则，避免了在反应规则网络中根据反应物和代谢产物之间的距离确定反应规则，提高了确定反应规则的准确度，提高了代谢路径的准确度。

另外，由于代谢产物可能是通过发生多个代谢反应产生得到的，则代谢路径中可以包括多个目标节点，而多个目标节点可以包括初始节点和中间节点，而在确定每个中间节点的过程中，可以采用类似的方式进行选取。参见图4，图4是本申请提供的一种确定中间节点和初始节点的方法的示意性流程图，作为示例而非限定，该方法可以应用于上述终端设备中，该方法可以包括：

S401、对于每个中间节点和终止节点中的每个节点，确定与该节点相连接的至少一个上级节点。

由于代谢路径中可能包括多个中间节点，而在通过终止节点确定中间节点的过程中，或者通过任一中间节点确定相对应的其他中间节点或初始节点的过程中，均可采用类似的方式，本申请实施例仅以终止节点和各个中间节点中的任意一个节点为例，介绍如何确定该节点的中间节点或初始节点，也即是，如何从多个上级节点中选取目标节点。

而且，与该节点相连接的上级节点可以为与该节点直接连接的节点，也可以为通过其他节点与该节点间接连接的节点，本申请实施例仅以上级节点为与该节点直接连接的节点为例进行说明。

在一种可能的实现方式中，可以先根据反应规则网络的指向关系，确定该节点的上级节点与该节点之间的指向关系，并根据与该指向关系，从相连接的多个节点中确定至少一个上级节点。

例如，在建立反应规则网络的过程中，按照初始节点指向终止节点的方向建立反应规则网络，则在确定上级节点的过程中，可以将指向该节点的各个节点作为该节点的上级节点，类似的，若按照终止节点指向初始节点的方向建立反应规则网络，则可以将该节点所指向的各个节点作为该节点的上级节点。

S402、根据每个上级节点对应的反应规则、节点对应的反应规则和反应规则网络中每个节点的反应参数进行计算，得到该节点与各个上级节点之间的游走概率。

在确定各个上级节点后，可以从各个上级节点中，根据该节点游走至各个上级节点的概率，选取与该节点相连接的目标节点，以便根据由终止节点和各个中间节点组成的目标节点，生成代谢路径。

进一步地，为了便于对游走概率进行计算，可以先对反应规则进行转换，得到编码后的反应规则，也即是，将反应规则转换为独热编码，从而可以根据独热编码进行计算，得到该节点与各个上级节点之间的游走概率。

可选的，可以将每个上级节点对应的反应规则和节点对应的反应规则均转换为独热编码，再根据独热编码和反应规则网络中每个节点的反应参数进行计算，得到节点与各个上级节点之间的游走概率。

在一种可能的实现方式中，可以根据预先设置的分子子结构集合，并结合至少一个中间节点和终止节点中的任意一个节点的反应规则和该节点的上级节点对应的反应规则中的反应增加结构和反应移除结构，确定分子子结构集合中的哪些分子子结构与反应规则中的反应增加结构和反应移除结构相匹配，从而可以根据匹配结果转换得到独热编码。

其中，该分子子结构集合可以是根据多个反应规则的反应增加结构和反应移除结构组成的。

例如，若分子子结构集合中包括N个无重复的分子子结构，则可以设置N维向量，用于表示转换为独热编码的反应规则，而N维向量中的每个维度可以与分子子结构集合中的一个分子子结构相对应，因此，若反应规则中的反应增加结构和反应移除结构与某个分子子结构相匹配，则可以将该分子子结构对应维度的参数设置为1，而不匹配的分子子结构对应维度的参数则可以设置为0，从而得到转换后的独热编码。

相应的，在得到至少一个中间节点和终止节点中的任意一个节点和该节点的上级节点对应的反应规则转换得到的独热编码后，可以结合反应规则网络中每个节点的反应参数进行计算，确定该节点游走至各个上级节点的游走概率，从而可以根据多个游走概率从上级节点中选取目标节点，进而生成代谢反应的代谢路径。

需要说明的是，在实际应用中，不但可以将反应规则转换为独热编码，还可以将反应规则转换为其他类型的编码，本申请实施例对此不做限定。

而且，本申请实施例仅是以对节点和上级节点对应的反应规则进行转换为例进行说明，但是在实际应用中，可以对反应规则网络中其他各个节点对应的反应规则，采取与上述类似的方式对各个节点对应的反应规则进行转换，从而得到独热编码，本申请实施例对转换的反应规则的数目不做限定。

进一步地，对于每个上级节点，可以根据节点的独热编码、上级节点对应的独热编码、以及反应规则网络中每个节点的反应参数进行计算，获取该节点的概率特征表示和上级节点的概率特征表示，并根据该节点的概率特征表示、上级节点的概率特征表示、节点对应的独热编码和上级节点对应的独热编码进行计算，得到该节点与上级节点之间的边的特征表示，再根据该节点与每个上级节点之间的边的特征表示进行计算，得到该节点与每个上级节点之间的游走概率。

具体地，对于至少一个中间节点和终止节点中的任意一个节点，可以先将该节点和该节点的上级节点的独热编码输入预先训练的多层感知机模型，通过多层感知机模型的输入输出层和至少一个隐藏层，对输入的独热编码进行计算，输出得到该节点游走至各个上级节点的学习参数。

例如，学习参数ω(e_j→i)＝MLP(f_i,f_j)，其中，ω(e_j→i)为节点i游走至上级节点j的学习参数，MLP()为多层感知机模型，f_i为节点i的独热编码，f_j为上级节点j的独热编码。

再根据该学习参数和根据每个节点的反应参数计算得到的初始概率分布，结合预先训练的多层图卷积网络进行多次卷积，得到每次卷积生成的概率特征表示，再结合预先设置的ReLU(Rectified Linear Unit，线性整流函数)进行计算，得到该节点针对上级节点的概率特征表示。

例如，该节点针对上级节点的概率特征表示可以为

其中，[X_k]_i为节点i在经过k次卷积后的概率特征表示，k为多层图卷积网络的层数，ReLU()为ReLU函数，ω(e_j→i)为节点i游走至上级节点j的学习参数，[X_k-1]_j为上级节点j经过k-1次卷积后的概率特征表示。另外，当k＝1时，[X_k]_i为节点i的初始概率分布。

之后可以将该节点针对上级节点的概率特征表示、上级节点的概率特征表示、该节点的独热编码和上级节点的独热编码输入预先训练的另一个多层感知机模型，得到连接该节点和上级节点的边的特征表示。

例如，该节点和上级节点的边的特征表示可以为z_i→j＝MLP(c_i,c_j,f_i,f_j)，其中，z_i→j为连接节点i与上级节点j的边的特征表示，MLP()为多层感知机模型，c_i为节点i针对上级节点j的概率特征表示，c_j为上级节点j针对节点i的概率特征表示，f_i为节点i的独热编码，f_j为上级节点j的独热编码。

在按照上述方式得到至少一个中间节点和终止节点中的任意一个节点和该节点的每个上级节点的边的特征表示后，可以根据多个边的特征表示进行计算，将每个边的特征表示与各个边的特征表示的加和进行比较求商值，从而将得到的商值作为该节点游走至各个上级节点的游走概率。

例如，可以通过公式

进行计算，得到节点游走至上级节点的游走概率。其中，ω_φ(e_i→j)为节点i游走至上级节点j的游走概率，z_i→j为连接节点i与上级节点j的边的特征表示，z_i→l为连接节点i与任意一个上级节点l的边的特征表示。

需要说明的是，反应规则可以包括：反应增加结构和反应移除结构，则在转换得到独热编码的过程中，需要对反应增加结构和反应移除结构进行区分，则可以对每个上级节点对应的反应规则的反应增加结构和反应移除结构分别进行转换，得到上级反应增加独热编码和上级反应移除独热编码，并且对该节点对应的反应规则中的反应增加结构和反应移除结构分别进行转换，得到当前反应增加独热编码和当前反应移除独热编码。

S403、在多个游走概率中，选取参数值最大的游走概率所对应的上级节点作为一个目标节点。

在计算得到多个游走概率后，可以根据各个游走概率的参数值进行比较，从而根据比较结果选取一个目标节点，进而可以通过多个目标节点生成代谢反应的代谢路径。

例如，可以通过冒泡排序的方式，按照参数值由大到小的顺序进行排序，从而得到根据各个游走概率的参数值大小排序后的序列，再选取序列第一位的游走概率所对应的节点作为目标节点。

S404、获取目标节点的反应参数。

在反应规则网络中确定目标节点后，可以判断目标节点是否能够游走至其他的上级节点，从而可以根据判断结果确认是否需要继续查找生成代谢路径的目标节点。

而在判断目标节点是否能够游走至其他的上级节点的过程中，需要根据目标节点的反应参数进行判断。因此，在进行判断之前，可以先获取目标节点的反应参数。

相应的，可以查找目标节点的上级节点，并将查找得到的上级节点的数目作为目标节点的反应参数，而查找上级节点的过程与S401的过程类似，在此不再赘述。

S405、若目标节点的反应参数满足预先设置的反应条件，将该目标节点作为初始节点，否则，将该目标节点作为中间节点。

在确定目标节点的反应参数后，即可根据该反应参数进行判断，确定目标节点的反应参数是否满足预先设置的反应条件，若满足该反应条件，则可以将该目标节点作为代谢路径的初始节点。

在一种可能的实现方式中，在确定目标节点后，可以根据获取的目标节点的反应参数，判断该反应参数是否满足预先设置的反应条件，若反应参数满足该反应条件，则可以确定该目标节点为代谢路径的初始节点，也即是，可以通过该目标节点对应的反应规则发生第一次代谢反应，并通过中间节点和终止节点对应的反应规则，发生相应的代谢反应，最后得到代谢产物。

因此，可以根据初始节点、中间节点和终止节点以及各个节点之间的指向关系，生成代谢产物的反应路径。

但是，若目标节点的反应参数不满足该反应条件，则需要再次执行S401至S405，从而确定目标节点的上级节点，直至得到初始节点。

需要说明的是，在实际应用中，目标节点的反应参数可以为目标节点的度数，该度数可以为出度或入度，参见S302。

相应的，与出度或入度相对应的反应条件可以为出度或入度为0。当出度为0或入度为0时，说明在通过该目标节点对应的反应规则发生代谢反应所需的反应物并不能通过其他代谢反应得到。

因此，可以将出度或入度为0的目标节点作为代谢路径的初始节点。

另外，在确定反应参数的过程中，可以根据反应规则网络的建立方式，选取出度或入度作为目标节点的反应参数。例如，若根据初始节点指向终止节点的方向建立反应规则网络，则可以选取入度作为反应参数；但是，若根据终止节点指向初始节点的方向建立反应规则网络，也即是通过代谢产物逆推得到反应物的方式建立反应规则网络，则可以选取出度作为反应参数。

综上所述，本申请实施例提供的确定中间节点和初始节点的方法，对于终止节点或每个中间节点，确定至少一个与该节点相连接的上级节点，并根据每个上级节点对应的反应规则、该节点对应的反应规则和反应规则网络中每个节点的反应参数进行计算，得到该节点与各个上级节点之间的游走概率，再在多个游走概率中，选取参数值最大的游走概率所对应的上级节点作为该节点的上一节点，而且，可以获取上一节点的反应参数，若上一节点的反应参数满足预先设置的反应条件，可以将上一节点作为初始节点。通过计算节点与各个上级节点之间的游走概率，将概率最大的节点所对应的上级节点作为该节点的上一节点，并根据每个上级节点的反应参数，确定该上级节点是否为初始节点，最后根据游走概率确定终止节点、中间节点和初始节点，避免了在反应规则网络中根据反应物和代谢产物之间的距离确定代谢路径，提高了代谢路径的准确度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

而且，需要说明的是，上述各个实施例可以通过终端设备执行，也可以通过由终端设备训练得到的模型执行，本申请实施例对此不做限定。

进一步地，在终端设备训练模型的过程中，可以根据大量的样本数据执行S201至S203，并将预测得到的代谢路径与样本数据的实际代谢路径进行比较，并结合损失函数得到损失值，从而可以根据损失值对模型中的各个参数进行调整优化，直至模型收敛。

对应于上文实施例所述的代谢路径预测方法，图5是本申请实施例提供的一种代谢路径预测装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图5，该装置包括：

第一确定模块501，用于确定反应规则对应的终止节点，该终止节点是反应规则网络中，反应物通过发生该反应规则所指示的代谢反应得到代谢产物的节点，该反应规则网络包括多个节点，每个该节点对应一个反应规则；

第二确定模块502，用于根据该终止节点与各个上级节点之间的游走概率，确定多个目标节点，各个该上级节点均与该终止节点连接；

生成模块503，用于根据该终止节点和多个该目标节点，生成该代谢产物的代谢路径。

可选的，多个该目标节点包括中间节点和初始节点；

该第二确定模块502，还用于对于每个所述中间节点和所述终止节点中的每个节点，确定与所述节点相连接的至少一个上级节点；根据每个所述上级节点对应的反应规则、所述节点对应的反应规则和所述反应规则网络中每个节点的反应参数进行计算，得到所述节点与各个所述上级节点之间的游走概率；在多个所述游走概率中，选取参数值最大的游走概率所对应的上级节点作为一个所述目标节点；获取所述目标节点的反应参数；若所述目标节点的反应参数满足预先设置的反应条件，将所述目标节点作为所述初始节点，否则，将所述目标节点作为所述中间节点。

可选的，该第二确定模块502，还用于将每个该上级节点对应的反应规则和该节点对应的反应规则均转换为独热编码；根据该独热编码和该反应规则网络中每个节点的反应参数进行计算，得到该节点与各个该上级节点之间的游走概率。

可选的，该第二确定模块502，还用于对于每个该上级节点，根据该节点的独热编码、该上级节点对应的独热编码、以及该反应规则网络中每个节点的反应参数进行计算，获取该节点的概率特征表示和该上级节点的概率特征表示；根据该节点的概率特征表示、该上级节点的概率特征表示、该节点对应的独热编码和该上级节点对应的独热编码进行计算，得到该节点与该上级节点之间的边的特征表示；根据该节点与每个该上级节点之间的边的特征表示进行计算，得到该节点与每个该上级节点之间的游走概率。

可选的，该反应规则包括：反应增加结构和反应移除结构；

该第二确定模块502，还用于对每个该上级节点对应的反应规则的反应增加结构和反应移除结构分别进行转换，得到上级反应增加独热编码和上级反应移除独热编码；对该节点对应的反应规则中的反应增加结构和反应移除结构分别进行转换，得到当前反应增加独热编码和当前反应移除独热编码。

可选的，参见图6，该装置还包括：

第三确定模块504，还用于根据该代谢产物，确定至少一个备选反应规则；

选取模块505，用于根据每个该备选反应规则在该反应规则网络中对应的备选节点的反应参数，选取该反应规则。

综上所述，本申请实施例提供的代谢路径预测装置，通过确定反应规则对应的终止节点，并根据终止节点与各个上级节点之间的游走概率，确定多个目标节点，而各个上级节点均与所述终止节点连接，最后根据终止节点和多个目标节点，生成代谢产物的代谢路径。其中，终止节点是反应规则网络中，反应物通过发生反应规则所指示的代谢反应得到代谢产物的节点，且反应规则网络包括多个节点，每个节点对应一个反应规则。通过根据反应规则网络中终止节点与各个上级节点之间的游走概率，查找构成代谢路径的各个目标节点，由终止节点和多个目标节点组成代谢路径，避免了在反应规则网络中根据反应物和代谢产物之间的距离确定代谢路径，提高了代谢路径的准确度。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种终端设备，该终端设备包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

图7是本申请实施例提供的终端设备的结构示意图。如图7所示，该实施例的终端设备70包括：至少一个处理器701(图7中仅示出一个)处理器、存储器702以及存储在所述存储器702中并可在所述至少一个处理器701上运行的计算机程序703，所述处理器701执行所述计算机程序703时实现下述任意各个代谢路径预测方法实施例中的步骤。

所述终端设备70可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器701、存储器702。本领域技术人员可以理解，图7仅仅是终端设备70的举例，并不构成对终端设备70的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器701可以是中央处理单元(Central Processing Unit，CPU)，该处理器701还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器702在一些实施例中可以是所述终端设备的内部存储单元，例如终端设备70的硬盘或内存。所述存储器702在另一些实施例中也可以是所述终端设备70的外部存储设备，例如所述终端设备70上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器702还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器702用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器702还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种代谢路径预测方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，多个所述目标节点包括中间节点和初始节点；

获取所述目标节点的反应参数；

3.如权利要求2所述的方法，其特征在于，所述根据每个所述上级节点对应的反应规则、所述节点对应的反应规则和所述反应规则网络中每个节点的反应参数进行计算，得到所述节点与各个所述上级节点之间的游走概率，包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述独热编码和所述反应规则网络中每个节点的反应参数进行计算，得到所述节点与各个所述上级节点之间的游走概率，包括：

5.如权利要求3所述的方法，其特征在于，所述反应规则包括：反应增加结构和反应移除结构；

6.如权利要求1至5任一所述的方法，其特征在于，在所述确定反应规则对应的终止节点之前，所述方法还包括：

根据所述代谢产物，确定至少一个备选反应规则；

7.一种代谢路径预测装置，其特征在于，所述装置包括：

8.如权利要求7所述的装置，其特征在于，多个所述目标节点包括中间节点和初始节点；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。