CN112530516B - 一种代谢途径预测方法、系统、终端设备及可读存储介质 - Google Patents

一种代谢途径预测方法、系统、终端设备及可读存储介质 Download PDF

Info

Publication number
CN112530516B
CN112530516B CN202011509783.8A CN202011509783A CN112530516B CN 112530516 B CN112530516 B CN 112530516B CN 202011509783 A CN202011509783 A CN 202011509783A CN 112530516 B CN112530516 B CN 112530516B
Authority
CN
China
Prior art keywords
substance
node
tree
branch
vector representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011509783.8A
Other languages
English (en)
Other versions
CN112530516A (zh
Inventor
纪超杰
吴红艳
蔡云鹏
郑奕嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202011509783.8A priority Critical patent/CN112530516B/zh
Publication of CN112530516A publication Critical patent/CN112530516A/zh
Priority to PCT/CN2021/136847 priority patent/WO2022127687A1/zh
Application granted granted Critical
Publication of CN112530516B publication Critical patent/CN112530516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Physiology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请属于数据分析技术领域,特别是涉及一种代谢途径预测方法、系统、终端设备及可读存储介质。现有的代谢途径预测方法对代谢过程无法提供进一步解释。本申请提供了一种代谢途径预测方法,包括根据第一物质对第二物质进行裁剪获得第一结构,所述第一结构为所述第一物质与所述第二物质的共同分子子结构;将所述第二物质转换为联合树一,所述联合树一为所述第一物质中非共同分子子结构的联合树表示;将所述联合树一与所述第一结构拼接得到结构确定的所述第一物质;将所述结构确定的第一物质作为第二物质二,根据第一物质二重复以上过程得到结构确定的第一物质二;得出代谢途径。为代谢反应的产生提供可能的生物学解释。

Description

一种代谢途径预测方法、系统、终端设备及可读存储介质
技术领域
本申请属于数据分析技术领域,特别是涉及一种代谢途径预测方法、系统、终端设备及可读存储介质。
背景技术
代谢中的化学反应几乎都是在酶的催化下进行的,而且许多酶连续地按顺序地起作用,形成多酶体系,使第一个酶促反应产物变成第二个酶促反应的底物,依此类推。概括生物体代谢途径的重要特征为(1)由代谢的中间体产生许多分支,从而构成了复杂的代谢网;(2)正反应(A→X)与逆反应(X→A)的途径往往是不同的,因此防止达到单纯的平衡状态;(3)在代谢途径的一些中间过程有各种代谢调节作用。把代谢途径以线路图案形式来表示就是代谢图(metabolic map)。
现有的基于规则的代谢路径预测方法:首先通过线下模块来构建一个反应规则网络(RRN),然后通过一个线上模块来对产物的一系列反应物进行预测。或者有借助于于反应规则网络的代谢路径预测方法,它提出的一个端到端的方法是针对这个反应规则网络来找到产物的对应反应物。现有的代谢途径预测是给定一个代谢产物,得到代谢反应物。
现有的代谢途径预测方法中,都是以从某个产物出发以图路径搜索的方式去找到匹配的反应物。所有可能的代谢反应物(或反应模式)都需要出现在图中。如果被搜索的图中不存在某种化合物,那么该化合物就无法被预测出来。
发明内容
1.要解决的技术问题
基于现有的代谢途径预测方法缺乏可解释性,代谢途径的预测只是化合物A到B,再从B到C,而对代谢过程无法提供进一步解释的问题,本申请提供了一种代谢途径预测方法、系统、终端设备及可读存储介质。
2.技术方案
为了达到上述的目的,本申请提供了一种代谢途径预测方法,所述方法包括:根据第一物质对第二物质进行裁剪获得第一结构,所述第一结构为所述第一物质与所述第二物质的共同分子子结构;将所述第二物质转换为联合树一,所述联合树一为所述第一物质中非共同分子子结构的联合树表示;将所述联合树一与所述第一结构拼接得到结构确定的所述第一物质;将所述结构确定的第一物质作为第二物质二,根据第一物质二重复以上过程得到结构确定的第一物质二。
本申请提供的另一种实施方式为:所述裁剪包括获取所述第二物质的待裁剪区域,根据所述待裁剪区域确定裁剪中心,根据所述裁剪中心确定裁剪分支,对所述裁剪分支进行裁剪获得所述第一结构。
本申请提供的另一种实施方式为:所述将所述第二物质转换为联合树一包括:将所述第二物质转换为联合树二;对所述第二物质进行编码转换为节点向量表示一,对所述联合树二进行编码转换为节点向量表示二;将所述节点向量表示一与所述节点向量表示二进行树解码转换为所述联合树一。
本申请提供的另一种实施方式为:所述树解码包括从树根节点开始递归第一节点,判断所述第一节点是否为新节点,如果所述第一节点为新节点,获取所述新节点的化学子结构;循环以上步骤,返回根节点得到所述联合树一。
本申请提供的另一种实施方式为:所述树根节点为所述裁剪中心;通过拓扑结构预测所述第一节点是否为新节点;通过标签预测所述新节点的化学子结构。
本申请提供的另一种实施方式为:将所述联合树一转换为分子图包括:对所述联合树一中所有可能的分子结构组合进行表示得到分子结构组合集;根据第一物质子图,从所述分子结构组合集中选取最优分子结构组合。
本申请提供的另一种实施方式为:将所述第一结构与所述联合树一拼接获得所述第一物质包括将所述联合树一转换为分子图;将所述分子图与所述第一结构进行合并,生成所述结构确定的所述第一物质,得到第二物质代谢为第一物质的模式,依次类推,得到代谢途径。
本申请还提供一种代谢途径预测系统,所述系统包括分子剪裁单元,用于确定第一结构,所述第一结构为第一物质与第二物质的共同分子子结构;转换单元,用于将所述第二物质转换为联合树一,所述联合树一为所述第一物质中非共同分子子结构部分;分子拼接单元,用于将所述第一结构与所述联合树一拼接获得结构确定的所述第一物质;数据输出单元,用于输出物质的代谢途径。
本申请还提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的方法。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所属计算机程序被处理器执行时实现所述的方法。
3.有益效果
与现有技术相比,本申请提供的一种代谢途径预测方法、系统、终端设备及可读存储介质的有益效果在于:
本申请提供的代谢途径预测方法,将现有获取代谢途径的模式级图搜索方法转化为端到端的原子级的分子生成方法,本申请中的代谢途径预测方法不需要提供代谢模式,而由模型自己学习即可得出未知物的代谢途径。
本申请提供的代谢途径预测方法,采用图裁剪的方式获取从代谢产物到反应物代谢过程中的核心变化,从而为该代谢反应的产生提供可能的生物学解释。
本申请提供的代谢途径预测方法,该方法不依赖先验知识,可发现隐藏在代谢反应过程中的未知反应模式。
本申请提供的代谢途径预测方法,通过引入裁剪概念,可实现对模型相关的逻辑的探究。
附图说明
图1是本申请的分子对示例示意图;
图2是本申请的裁剪过程示意图;
图3是本申请的编码器-解码器框架示意图;
图4是本申请的代谢途径预测系统示意图;
图5是本申请的终端设备结构示意图。
具体实施方式
在下文中,将参考附图对本申请的具体实施例进行详细地描述,依照这些详细的描述,所属领域技术人员能够清楚地理解本申请,并能够实施本申请。在不违背本申请原理的情况下,各个不同的实施例中的特征可以进行组合以获得新的实施方式,或者替代某些实施例中的某些特征,获得其它优选的实施方式。
本申请实施例提供的代谢途径预测方法可以应用于平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。
例如,所述终端设备可以是WLAN中的站点(STAION,ST),可以是个人数字处理(Personal Digital Assistant,PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡。
参见图1~5,本申请提供一种代谢途径预测方法,所述方法包括:根据第一物质对第二物质进行裁剪获得第一结构,所述第一结构为所述第一物质与所述第二物质的共同分子子结构;将所述第二物质转换为联合树一,所述联合树一为所述第一物质中非共同分子子结构的联合树表示;将所述联合树一转换为分子图,将所述分子图与所述第一结构拼接得到结构确定的所述第一物质;将所述结构确定的第一物质作为第二物质二,重复以上过程得到结构确定的第一物质二。这里用第一物质二替换第一物质,用第二物质二替换第二物质,重复由第一物质到结构确定的第一物质的过程;重复以上过程,从物质A到物质B,再到物质C,一直进行下去就能得到整个代谢途径。
在测试阶段,第一物质为未知物,第二物质为已知物,则对已知物进行裁剪获得第一结构,所述第一结构为所述未知物与所述已知物的共同分子子结构;将所述已知物转换为联合树一,所述联合树一为所述未知物中非共同分子子结构的联合树表示;将所述联合树一转换为分子图,将所述分子图与所述第一结构拼接得到未知物一,所述未知物一为结构确定的所述未知物;将所述未知物一作为第二已知物,重复以上过程得到第二未知物一。
这里的已知物可以是代谢产物或者反应物,相应的所述未知物为反应物或者代谢产物。
例如,在测试阶段,反应物是未知的,代谢产物是给定的。对代谢产物进行裁剪获得第一结构,所述第一结构为所述反应物与所述代谢产物的共同分子子结构;将所述代谢产物转换为联合树一,所述联合树一为所述未知物中非共同分子子结构的联合树表示;将所述联合树一转换为分子图,将所述分子图与所述第一结构拼接得到反应物一,所述反应物一为结构确定的所述反应物;将结构确定的反应物作为新的代谢产物,则下一个过程里新的代谢产物已知,再去得到新的反应物结构;重复以上过程,得到代谢途径中相邻代谢物质即得到整个代谢途径。
在训练阶段,第一物质为已知物一,第二物质为已知物二,则根据已知物一对已知物二进行裁剪获得第一结构,所述第一结构为所述已知物一与所述已知物二的共同分子子结构;将所述已知物二转换为联合树一,所述联合树一为所述已知物一中非共同分子子结构的联合树表示;将所述联合树一转换为分子图,将所述分子图与所述第一结构拼接得到已知物一。
该已知物一可以是代谢产物或者反应物;该已知物二可以是代谢产物或者反应物。
进一步地,所述裁剪包括获取所述第二物质的待裁剪区域,根据所述带裁剪区域确定裁剪中心,根据所述裁剪中心确定裁剪分支,对所述裁剪分支进行裁剪获得所述第一结构。
进一步地,所述获取所述第二物质的待裁剪区域包括:遍历所述第二物质中的节点一,遍历所述第一物质中的节点二,所述节点一与所述节点二的化学元素相同;该节点一如图2中的第二物质C1,该节点二如图2中的第一物质C1。
遍历节点一的分支一得到第一分支,遍历节点二的分支二得到第二分支,所述第一分支与所述第二分支相同,将所述第一分支或者第二分支中节点数进行记录。
这里的分支一为节点一的所有分支,该分支二为节点二的所有分支。
取节点数中数值最大的所述节点一,所述第一分支为保留区域;所述第一分支以外的分支为待裁剪区域。
具体的,遍历所述第二物质中的所有原子i即节点i(如图1中的第二物质C1):遍历第一物质中所有原子j即节点j,该原子j与所述原子i的化学元素完全相同(如图1中的第一物质C1):遍历该原子i和该原子j的所有分支,得到该原子i分支和该原子j的分支中相同分支,将该相同分支中的原子总数记为si,j
其中,分支为围绕某节点,与其相连的另一个节点所扩展出的区域。如(C2、H3、H4、H5)、(H6)、(H7)和(C8、H9)分别为图1中第二物质节点C1的4个分支。
如图1所示,所述第二物质C1和所述第一物质C1有2个完全相同的分支,即(C2、H3、H4、H5)和(H6),那么所述相同分支中的原子总数si,j=5。
将数值最大的si,j作为si的数值,并记录与所述原子i对应的原子j。
将数值最大的si中的原子i赋予cte,该数值最大的si中的原子i即为裁剪中心,并记录与cte相对应的原子j。
另外,针对所有si,将其转换为归一化后的概率分布,以便于模型学习:
其中VX表示第二物质中的所有原子的集合,exp(.)为指数函数。
ste i即为归一化后的分布。所述第二物质cte中与所述原子j对应的相同分支(可以是多个)即为保留区域;其它分支则为待裁剪区域。每个分支都用1/0表示保留与删除,整体用变量表示U,例如U={(C2、H3、H4、H5):1,(H6):1,(H7):0,(C8、H9):0},此分布即为模型训练所需要拟合的分布。
另外,将j中存在但cte中不存在的分支标记为“待生成”。
综上所述,本申请提供的分子优化方法通过生成最小的分子子结构即能完成对第二物质的优化。
这里的节点选取原子进行表示。
在训练阶段,可从KEGG等开源生物学数据库中得到代谢反应分子对(底物分子,产物分子),图1即为一个抽取到的分子对。
进一步地,所述确定裁剪中心包括:获取所述节点一的向量表示一;对所述向量表示一进行聚合得到所述第二物质的向量表示二;结合所述向量表示一与所述向量表示二预测所述节点一作为所述裁剪中心的概率,对所述节点数进行归一化处理得到节点概率分布,所述节点概率分布数值最大的节点为所述裁剪中心。
具体的,采用Graph message-passing networks(MPNs)对所述第二物质进行表示学习,例如,可以通过预先设置的公式:
计算得到每个节点(原子)的向量表示,即向量表示一。
其中,xi是节点(原子)i的特征表示,xi,j是节点i和j之间边(化学键)的特征表示,mt i,j表示t时刻节点i向j传递的信息,N(i)表示i的所有邻居节点,N(i)\j表示除j以外的所有i的邻居节点,f1和f2均为神经网络。经过x个循环后,得到最终节点i的表示hi。其中原子和化学键的特征表示可以用简单的one-hot编码。
将该向量表示一再进行聚合得到整个第二物质的向量表示即向量表示二:
结合该向量表示一和该向量表示二,通过如下公式预测i节点作为裁剪中心的概率:
si=f3([hX,hi])
其中[,]表示向量拼接操作,f3是一个标准的神经网络。
同ste i的获取一样,通过如下公式对si进行归一化:
其中sst i数值最大的节点即为预测的裁剪中心cst
在模型训练阶段,sst i需要配合损失函数(如KL散度距离)拟合ste i的标记值。测试阶段只需要输出取sst i最大数值对应的节点作为裁剪中心cst即可。
进一步地,所述确定裁剪分支包括:获取分支三的向量表示三,所述分支三为所述裁剪中心的分支,通过所述向量表示一、所述向量表示三和所述第一分支的向量表示预测所述分支三的保留概率,对所述分支三的保留与否做出决策。
这里的分支三为裁剪中心的任一分支。
具体的,根据裁剪中心预测围绕裁剪中心的每个分支,决策保留的分支和删除的分支。通过所述向量表示一hi通过如下公式获得任意分支的向量表示:
其中cst为所述裁剪中心,表示第二物质中围绕所述裁剪中心cst的分支子图。|.|为该子图中的原子个数。
然后,通过神经网络来预测该分支j的保留概率:
其中,f4是一个标准的神经网络,σ为sigmoid函数,和/>分别是反应中心的向量表示、当前待决策是否保留的分支向量表示和已确定保留分支的向量表示。输出大于等于0.5表示保留,小于0.5则删除。关于/>t-1表示上一次迭代序号,每一次迭代模型都需要对一个分支的保留/删除做出决策,如果决定保留下来,则分支就被加入集合Ust t-1,该集合中每个元素都是一个子图。
的获取通过如下公式:
即可获得完整的裁剪后保留区域。如图2所示,阴影部分为保留部分,方框区域为被删除的。
在测试阶段,只要按照如上过程直接得到输出即可。而在训练阶段,这里的输出需要与所述U拟合,可以采用两者之间的交叉熵作为损失函数。
具体的,每一种分子结构都可以使用联合树进行表示,联合树可以将分子图中的复杂分子子结构用一个树节点表示,大大减少分子表示的复杂度。构造联合树,首先需要构建一个联合树节点的备选元素字典,即每个联合树节点可能表示的分子子结构的集合,该词典用D表示。这里选取代谢产物作为第二物质,反应物作为第一物质。
将所述代谢产物用代谢产物图表示,将所述反应物用反应物子图表示;将该代谢产物图(XG)和反应物子图(AG)分别转成联合树表示形式,记为联合树二XT和联合树三AT。
进一步地,所述将所述第二物质转换为联合树一包括:将所述第二物质转换为联合树二;对所述第二物质进行编码转换为节点向量表示一,对所述联合树二进行编码转换为节点向量表示二。
具体的,对该代谢产物图(XG)编码,采用Graph message-passing networks(MPNs)对该代谢产物图(XG)进行表示学习,得到更新后的节点向量表示一表示为:HXG={h1 XG,h2 XG,......},集合内元素的个数是该源分子图(XG)中节点(原子)数量。
对该联合树二(XT)编码;与上述方法类似,采用另一个MPNs对该联合树二(XT)进行学习,得到更新后的树节点向量表示为得到更新后的节点向量二表示为:HXT={h1 XT,h2 XT,......},集合内元素的个数是该联合树二(XT)中树节点数量。
将所述节点向量表示一与所述节点向量表示二进行树解码转换为所述联合树一。进一步地,所述树解码包括从树根节点开始递归第一节点,判断所述第一节点是否为新节点,如果所述第一节点为新节点,获取所述新节点的化学子结构;循环以上步骤,返回根节点得到所述联合树一。
具体的,采用树解码器生成反应物部分(即反应物中反应物与代谢产物不相同的分子子结构部分)子图的联合树结构。反应物部分子图的联合树结构生成过程从一个树根节点开始,然后以深度优先图搜索的方式递归生成新的树节点。在搜索过程中,每一步(访问到每一个树节点)时都需要去做出一个动作决定(拓扑结构预测):为当前节点扩展一个孩子节点(如图2中的1->2)或者返回当前节点的父亲节点(如图2中的3->2)。另外,当决策动作选定为扩展一个孩子节点时,树解码器还需要决定具体该树节点表示哪一个具体的分子子结构(标签预测);当决策动作选定为返回父节点且此时父节点为根节点则得到生成结果。
更进一步的,将联合树中每条边用向量表示;将所述裁剪中心作为当前联合树的根节点,从该根节点开始生成联合树。生成路径中的每条边(每次生成一条边,包括返回父节点的逆向边)都用一个向量表示这条边的信息hit,jt,it和jt表示t时刻这条边两端的节点。该表示向量的获取通过tree gated recurrent unit(GRU)。
例如,可以通过如下公式获取表示向量:
表示到t时刻为止,已经访问过的所有边的集合,形式如{(i1,j1),…,(im,jm)}。
表示所有与it相连且另一端非jt的边。xit是当前正在访问的联合树元素的表示向量,该表示向量可以用所述D的one-hot编码来表示。
通过拓扑结构的预测做出动作决定;例如,可以通过如下公式进行预测:
其中,ht是对当前时刻联合树遍历状态的向量表示,pt是该t时刻拓扑结构预测的结果,1表示为当前节点继续扩展一个孩子节点,0表示返回当前节点的父亲节点。f5、f6、f7和f8均为标准神经网络。τ(.)为一个RELU函数。ud为模型学习参数。关于a1函数的计算公式如下:
h* 1表示图(或树)*中的节点1,最后a1(H*)表示图(或树)*的整体向量表示。f9是一个标准神经网络,[.]为向量拼接操作,|.|表示图中的节点数量。
通过标签预测得到树节点所表示的具体分子子结构:如前所述,如果拓扑结构的预测结果是拓展一个新节点,那么新节点所对应的化学子结构也需要同时预测出来。例如,通过下式进行预测:
f10、f11、f12为一个标准神经网络,ul为模型学习参数。qt为一个D中每个可能化学子结构的概率分布,概率最高的作为该树节点所表示的化学分子子结构。
迭代以上过程,当遍历过程返回根节点,则联合树生成过程结束。在训练阶段,模型的每一步输出都需要拟合AT的树结构,可以使用交叉熵损失函数作为损失函数。
进一步地,将所述第一结构与所述联合树一拼接获得所述第一物质包括将所述联合树一转换为分子图;将所述分子图与所述第一结构进行合并,生成所述结构确定的所述第一物质,得到第二物质代谢为第一物质的模式,依次类推,得到代谢途径。这里的第一物质是未知物或者已知物均可。
在将该联合树进行转换时,需要对联合树可能产生的分子结构进行挑选,挑选出最优的原子组合。
具体的,当联合树确定后,则需要将该联合树转换为分子图。但是联合树向分子图的转换并不是唯一的:同一个联合树可能转换为多个不同的分子图,因为两两树节点所代表的分子结构之间可能存在多种组合方式,如图3所示,由于组合方式较多,则需要在两两树节点之间选择最优的组合结果。
对于任意一个联合树中的节点i,所有围绕这个节点产生的可能分子结构组合表示为但是只有一个为目标组合(即出现在AG中),记为G* i。将联合树中所有可能的化学结构组合进行表示,可采用MPNs进行表示学习得到每个可能化学结构组合的向量表示,记为/>
然后,训练挑选最优组合方式。通过打分函数来为每个可能的化学结构组合打分,例如,可通过下式:
其中,f13为一个神经网络。测试阶段选取得分最高的组合作为最终的化学结构组合即可。训练阶段图解码器的训练目标是最大化AG中的化学结构组合结果对应的分数,并最小化其它组合分数。具体函数如下:
其中,exp(.)为指数函数,log表示对数函数。fs为一个神经网络。G* i为AG中的化学结构组合结果。
迭代不断进行以上步骤,从物质A到物质B,再到物质C......则可得到整个代谢途径。
本申请还提供一种代谢途径预测系统,所述系统包括分子剪裁单元1,用于确定第一结构,所述第一结构为第一物质与第二物质的共同分子子结构;所述分子剪裁单元1包括所述分子剪裁单元1包括解析模块和分子剪裁器;所述解析模块,用于解析第二物质的待裁剪区域;所述分子剪裁器,用于预测第一结构。
转换单元2,用于将所述第二物质转换为联合树一,所述联合树一为所述第一物质中非共同分子子结构部分;所述转换单元2包括编码器和树解码器,所述编码器,用于对所述代谢产物(XG),得到节点向量表示一;对所述联合树二(XT)进行编码,得到树节点向量表示二;所述树解码器,用于对该节点向量表示一和该树节点向量表示二进行树解码得到所述联合树一。
分子拼接单元3,用于将所述第一结构与所述联合树一拼接获得所述第一物质。
所述分子拼接单元3包括分子拼接模块;所述分子拼接模块,用于生成结构确定的第一物质。
所述分子拼接模块包括分子图转换子模块和合并子模块,所述分子图转换子模块将所述联合树一转换为分子图,所述合并子模块将所述分子图与所述第一结构合并生成结构确定的第一物质。
数据输出单元4,用于输出物质的代谢途径。这里的输出包括多种形式,可以是由已知代谢产物得到未知反应物1、未知反应物2......,将每个未知反应物通过屏幕显示或者文本的形式进行输出,得到物质整体代谢途径;也可以是由已知反应物得到未知代谢产物1、未知代谢产物2........,将每个未知代谢产物通过屏幕显示或者文本的形式输出,得到物质整体代谢途径。当然,同时可以通过联合树一的变化即代谢过程中的核心变化,为该代谢反应提供可能的生物学解释。
本申请提供的代谢途径预测方法,通过引入裁剪概念,可实现对模型相关的逻辑的探究;为什么模型会选定某个裁剪中心;为什么会保留某些分支而删除另一些分支,这些保留部分的整体是否满足某个特定的化学特性。
本申请还提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
该实施例的终端设备包括:至少一个处理器(图5中仅示出一个)处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现下述任意各个代谢途径预测方法实施例中的步骤。
所述终端设备可以是台式计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,仅仅是终端设备的举例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器在一些实施例中可以是所述终端设备的内部存储单元,例如终端设备的硬盘或内存。所述存储器在另一些实施例中也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,MC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述存储器还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

Claims (8)

1.一种代谢途径预测方法,其特征在于,所述方法包括:
根据第一物质对第二物质进行裁剪获得第一结构,所述第一结构为所述第一物质与所述第二物质的共同分子子结构;将所述第二物质转换为联合树一,所述联合树一为所述第一物质中非共同分子子结构的联合树表示;将所述联合树一与所述第一结构拼接得到结构确定的所述第一物质;
将所述结构确定的第一物质作为第二物质二,根据第一物质二重复以上过程得到结构确定的第一物质二;用第一物质二替换第一物质,用第二物质二替换第二物质,重复由第一物质到结构确定的第一物质的过程;重复以上过程,从物质A到物质B,再到物质C,一直进行下去就能得到整个代谢途径;所述裁剪包括获取所述第二物质的待裁剪区域,根据所述待裁剪区域确定裁剪中心,根据所述裁剪中心确定裁剪分支,对所述裁剪分支进行裁剪获得所述第一结构;所述获取所述第二物质的待裁剪区域包括:遍历所述第二物质中的节点一,遍历所述第一物质中的节点二,所述节点一与所述节点二的化学元素相同;遍历节点一的分支一得到第一分支,遍历节点二的分支二得到第二分支,所述第一分支与所述第二分支相同,将所述第一分支或者第二分支中节点数进行记录;
取节点数中数值最大的所述节点一,所述第一分支为保留区域;所述第一分支以外的分支为待裁剪区域;
具体的,遍历所述第二物质中的所有原子i即节点i:遍历第一物质中所有原子j即节点j,该原子j与所述原子i的化学元素完全相同:遍历该原子i和该原子j的所有分支,得到该原子i分支和该原子j的分支中相同分支,将该相同分支中的原子总数记为si,j
其中,分支为围绕某节点,与其相连的另一个节点所扩展出的区域;
将数值最大的si,j作为si的数值,并记录与所述原子i对应的原子j;
将数值最大的si中的原子i赋予cte,该数值最大的si中的原子i即为裁剪中心,并记录与cte相对应的原子j;
另外,针对所有si,将其转换为归一化后的概率分布,以便于模型学习:
其中VX表示第二物质中的所有原子的集合,exp(.)为指数函数;
ste i即为归一化后的分布;所述第二物质cte中与所述原子j对应的相同分支即为保留区域;其它分支则为待裁剪区域;每个分支都用1/0表示保留与删除,整体用变量表示U;
另外,将j中存在但cte中不存在的分支标记为“待生成”;
本申请提供的分子优化方法通过生成最小的分子子结构即能完成对第二物质的优化;
在训练阶段,可从KEGG等开源生物学数据库中得到代谢反应分子对;
所述确定裁剪中心包括:获取所述节点一的向量表示一;对所述向量表示一进行聚合得到所述第二物质的向量表示二;结合所述向量表示一与所述向量表示二预测所述节点一作为所述裁剪中心的概率,对所述节点数进行归一化处理得到节点概率分布,所述节点概率分布数值最大的节点为所述裁剪中心;
具体的,采用Graph message-passing networks对所述第二物质进行表示学习,通过预先设置的公式:
计算得到每个节点的向量表示,即向量表示一;
其中,xi是节点i的特征表示,xi,j是节点i和j之间边的特征表示,mt i,j表示t时刻节点i向j传递的信息,N(i)表示i的所有邻居节点,N(i)\j表示除j以外的所有i的邻居节点,f1和f2均为神经网络;经过个循环后,得到最终节点i的表示hi;其中原子和化学键的特征表示可以用简单的one-hot编码;
将该向量表示一再进行聚合得到整个第二物质的向量表示即向量表示二:
结合该向量表示一和该向量表示二,通过如下公式预测i节点作为裁剪中心的概率:
si=f3([hX,hi])
其中[,]表示向量拼接操作,f3是一个标准的神经网络;
同ste i的获取一样,通过如下公式对si进行归一化:
其中sst i数值最大的节点即为预测的裁剪中心cst
在模型训练阶段,sst i需要配合损失函数拟合ste i的标记值;测试阶段只需要输出取sst i最大数值对应的节点作为裁剪中心cst即可;
所述确定裁剪分支包括:获取分支三的向量表示三,所述分支三为所述裁剪中心的分支,通过所述向量表示一、所述向量表示三和所述第一分支的向量表示预测所述分支三的保留概率,对所述分支三的保留与否做出决策;
将代谢产物用代谢产物图表示,将所述反应物用反应物子图表示;将该代谢产物图和反应物子图分别转成联合树表示形式,记为联合树二XT和联合树三AT;
将所述第二物质转换为联合树一包括:将所述第二物质转换为联合树二;对所述第二物质进行编码转换为节点向量表示一,对所述联合树二进行编码转换为节点向量表示二;将所述节点向量表示一与所述节点向量表示二进行树解码转换为所述联合树一;对该代谢产物图编码,采用Graph message-passing networks对该代谢产物图进行表示学习,得到更新后的节点向量表示一表示为:HXG={h1 XG,h2 XG,......},集合内元素的个数是该代谢产物图中节点数量;
对该联合树二编码;与上述方法类似,采用另一个MPNs对该联合树二进行学习,得到更新后的树节点向量表示为得到更新后的节点向量二表示为:HXT={h1 XT,h2 XT,......},集合内元素的个数是该联合树二中树节点数量;
将所述节点向量表示一与所述节点向量表示二进行树解码转换为所述联合树一;进一步地,所述树解码包括从树根节点开始递归第一节点,判断所述第一节点是否为新节点,如果所述第一节点为新节点,获取所述新节点的化学子结构;循环以上步骤,返回根节点得到所述联合树一。
2.如权利要求1所述的代谢途径预测方法,其特征在于,所述树解码包括从树根节点开始递归第一节点,判断所述第一节点是否为新节点,如果所述第一节点为新节点,获取所述新节点的化学子结构;循环以上步骤,返回根节点得到所述联合树一。
3.如权利要求2所述的代谢途径预测方法,其特征在于,所述树根节点为所述裁剪中心;通过拓扑结构预测所述第一节点是否为新节点;通过标签预测所述新节点的化学子结构。
4.如权利要求1所述的代谢途径预测方法,其特征在于,将所述联合树一转换为分子图包括:
对所述联合树一中所有可能的分子结构组合进行表示得到分子结构组合集;根据第一物质子图,从所述分子结构组合集中选取最优分子结构组合。
5.如权利要求1所述的代谢途径预测方法,其特征在于,将所述第一结构与所述联合树一拼接获得所述第一物质包括将所述联合树一转换为分子图;将所述分子图与所述第一结构进行合并,生成所述结构确定的所述第一物质,得到第二物质代谢为第一物质的模式,依次类推,得到代谢途径。
6.一种实现权利要求1~5中任一项代谢途径预测方法的系统,其特征在于,所述系统包括:
分子剪裁单元,用于确定第一结构,所述第一结构为第一物质与第二物质的共同分子子结构;
转换单元,用于将所述第二物质转换为联合树一,所述联合树一为所述第一物质中非共同分子子结构部分;
分子拼接单元,用于将所述第一结构与所述联合树一拼接获得结构确定的所述第一物质;
数据输出单元,用于输出物质的代谢途径。
7.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所属计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。
CN202011509783.8A 2020-12-18 2020-12-18 一种代谢途径预测方法、系统、终端设备及可读存储介质 Active CN112530516B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011509783.8A CN112530516B (zh) 2020-12-18 2020-12-18 一种代谢途径预测方法、系统、终端设备及可读存储介质
PCT/CN2021/136847 WO2022127687A1 (zh) 2020-12-18 2021-12-09 一种代谢途径预测方法、系统、终端设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011509783.8A CN112530516B (zh) 2020-12-18 2020-12-18 一种代谢途径预测方法、系统、终端设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112530516A CN112530516A (zh) 2021-03-19
CN112530516B true CN112530516B (zh) 2023-12-26

Family

ID=75001609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011509783.8A Active CN112530516B (zh) 2020-12-18 2020-12-18 一种代谢途径预测方法、系统、终端设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN112530516B (zh)
WO (1) WO2022127687A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530516B (zh) * 2020-12-18 2023-12-26 深圳先进技术研究院 一种代谢途径预测方法、系统、终端设备及可读存储介质
CN115240785B (zh) * 2022-07-21 2023-09-12 苏州沃时数字科技有限公司 化学反应预测方法、系统、装置及存储介质
CN117316333B (zh) * 2023-11-28 2024-02-13 烟台国工智能科技有限公司 基于通用的分子图表示学习模型的逆合成预测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006072653A (ja) * 2004-09-01 2006-03-16 Fujitsu Ltd 代謝予測支援装置、代謝予測支援方法、代謝予測支援プログラム、および記録媒体
CN109712161A (zh) * 2018-12-26 2019-05-03 上海联影医疗科技有限公司 一种图像分割方法、装置、设备及存储介质
WO2019220445A1 (en) * 2018-05-16 2019-11-21 B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University Identification and prediction of metabolic pathways from correlation-based metabolite networks
CN111128307A (zh) * 2019-12-14 2020-05-08 中国科学院深圳先进技术研究院 代谢路径预测方法、装置、终端设备及可读存储介质
CN111524557A (zh) * 2020-04-24 2020-08-11 腾讯科技(深圳)有限公司 基于人工智能的逆合成预测方法、装置、设备及存储介质
CN111695702A (zh) * 2020-06-16 2020-09-22 腾讯科技(深圳)有限公司 分子生成模型的训练方法、装置、设备及存储介质
CN111710364A (zh) * 2020-05-08 2020-09-25 中国科学院深圳先进技术研究院 一种菌群标记物的获取方法、装置、终端及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909805B (zh) * 2017-03-01 2019-04-02 广西大学 基于多条代谢路径比对重建物种系统发生树的方法
US11417415B2 (en) * 2018-08-10 2022-08-16 International Business Machines Corporation Molecular representation
CN111816265B (zh) * 2020-06-30 2024-04-05 北京晶泰科技有限公司 一种分子生成方法和计算设备
CN112086144B (zh) * 2020-08-28 2024-08-09 深圳先进技术研究院 分子生成方法、装置、电子设备及存储介质
CN112530516B (zh) * 2020-12-18 2023-12-26 深圳先进技术研究院 一种代谢途径预测方法、系统、终端设备及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006072653A (ja) * 2004-09-01 2006-03-16 Fujitsu Ltd 代謝予測支援装置、代謝予測支援方法、代謝予測支援プログラム、および記録媒体
WO2019220445A1 (en) * 2018-05-16 2019-11-21 B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University Identification and prediction of metabolic pathways from correlation-based metabolite networks
CN109712161A (zh) * 2018-12-26 2019-05-03 上海联影医疗科技有限公司 一种图像分割方法、装置、设备及存储介质
CN111128307A (zh) * 2019-12-14 2020-05-08 中国科学院深圳先进技术研究院 代谢路径预测方法、装置、终端设备及可读存储介质
CN111524557A (zh) * 2020-04-24 2020-08-11 腾讯科技(深圳)有限公司 基于人工智能的逆合成预测方法、装置、设备及存储介质
CN111710364A (zh) * 2020-05-08 2020-09-25 中国科学院深圳先进技术研究院 一种菌群标记物的获取方法、装置、终端及存储介质
CN111695702A (zh) * 2020-06-16 2020-09-22 腾讯科技(深圳)有限公司 分子生成模型的训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112530516A (zh) 2021-03-19
WO2022127687A1 (zh) 2022-06-23

Similar Documents

Publication Publication Date Title
CN112530516B (zh) 一种代谢途径预测方法、系统、终端设备及可读存储介质
Jin et al. Junction tree variational autoencoder for molecular graph generation
Jang et al. Applications of artificial intelligence to enzyme and pathway design for metabolic engineering
US11854671B2 (en) Method and apparatus for identifying heterogeneous graph and property of molecular space structure and computer device
Chen et al. Techniques for automated machine learning
Mengersen et al. Mixtures: estimation and applications
Castro et al. Transformer-based protein generation with regularized latent space optimization
CN110874535B (zh) 依存关系对齐组件、依存关系对齐训练方法、设备及介质
WO2024032096A1 (zh) 反应物分子的预测方法、训练方法、装置以及电子设备
KR102109369B1 (ko) 시계열 데이터의 변화를 예측하고 그 이유를 설명하는 인공지능 시스템
CN112086144B (zh) 分子生成方法、装置、电子设备及存储介质
Revin et al. Automated machine learning approach for time series classification pipelines using evolutionary optimization
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN111507070A (zh) 自然语言生成方法和装置
CN116483962A (zh) 一种问答方法、装置、终端设备及可读存储介质
CN112509644B (zh) 一种分子优化方法、系统、终端设备及可读存储介质
CN115798621A (zh) 基于Transformer的上下文感知单步逆合成预测方法和装置
Pittman et al. Bayesian analysis of binary prediction tree models for retrospectively sampled outcomes
CN114627980A (zh) 一种化学逆合成分析方法及系统
CN118312167A (zh) 基于低代码平台的套件机制实现方法及系统
Song et al. Interactive visual pattern search on graph data via graph representation learning
Su et al. Floor plan graph learning for generative design of residential buildings: a discrete denoising diffusion model
CN112735540B (zh) 一种分子优化方法、系统、终端设备及可读存储介质
Ribeiro et al. Importance of statistics for data mining and data science
CN115345106B (zh) 电子器件的Verilog-A模型构建方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant