CN116072227A

CN116072227A - 海洋营养成分生物合成途径挖掘方法、装置、设备和介质

Info

Publication number: CN116072227A
Application number: CN202310206521.1A
Authority: CN
Inventors: 魏志强; 刘昊; 李阳阳; 陈淼; 刘其琛; 林鹏
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-05-05
Anticipated expiration: 2043-03-07
Also published as: CN116072227B

Abstract

本发明涉及一种海洋营养成分生物合成途径挖掘方法、装置、设备和介质，属于生物信息学领域，所述方法包括蛋白质编码区域预测，目标功能酶鉴定和酶活性预测与分析三个关键环节。本发明方法融合了DNA三维结构信息、底物化学特征信息以及蛋白质三维结构信息，提高了模型准确性。另外，本发明将测序得到的宏蛋白质组学数据与鉴定的阳性样本进行比对筛选，这将大大降低假阳性概率，实现酶活性精准预测的同时反向识别关键氨基酸残基。

Description

海洋营养成分生物合成途径挖掘方法、装置、设备和介质

技术领域

本发明属于生物信息学领域，具体地涉及一种海洋营养成分生物合成途径挖掘方法、装置、设备和介质。

背景技术

现有技术已经开发了一系列计算方法来自动识别编码跨基因组序列的特定代谢酶的基因集。其中许多方法最初是针对细菌（有时针对真菌和植物）开发的，但所采用的原理可以扩展到其他生命物种。这些方法各自针对不同的分类群，并且将它们扩展到新的分类空间所需的条件亦有所差异。

从方法策略角度，现有主流方法大多是针对与某类活性化合物相关的生物合成基因簇(biosynthetic gene clusters, BGCs)的识别。BGCs中酶编码基因的物理聚类极大地促进了生物合成途径的识别。尽管BGC在基因含量方面变化很大，并且由于其快速进化和频繁的基因水平转移而通常具有菌株特异性，它们通常确实具有酶家族形式的共同特性，这些酶家族负责催化对整个特定类别的代谢产物的生物合成中至关重要的生化反应。这一特性使得在很大程度上自动化识别基因组中的BGC成为可能。广泛使用的软件工具，如antiSMASH和PRISM，采用蛋白质结构域的轮廓隐马尔可夫模型（pHMMs）来识别编码酶家族的基因组合，这些酶家族是特定途径类型的特征。虽然这两种工具提供的结果通常非常相似，但antiSMASH的开发更多地集中在功能和比较分析上，而PRISM则专门用于化学结构的组合预测，可用于与质谱数据的自动匹配。pHMMs的使用对于识别编码许多成熟类型的生物合成机制的 BGC非常可靠（例如聚酮化合物合酶、NRPSs 和已知类别的核糖体合成和翻译后修饰的肽（ribosomally synthesized and posttranslationally modified peptides，RiPPs）），但存在对研究较少和全新类别的BGC忽视的风险。基于概率的BGC预测方法(例如ClusterFinder（也集成到antiSMASH中）和DeepBGC)或许识别基因组间与代谢相关的非共线基因块的比较基因组学方法，更有可能检测到非标准BGC，但假阳性率较高。此外，对于RiPP，已经出现了用于识别BGCs的专用工具，这些BGCs可以编码产生已知类中的远距离成员酶或全新类的酶。其中一些（例如BAGEL）使用类似于antiSMASH和PRISM的基于pHMM的检测技术。此外，还有研究则使用基于诱饵的方法（使用特定的查询酶编码基因来识别包含它们同源物的基因座）或机器学习方法来识别潜在的前体肽编码基因，可以使用基于代谢组学的匹配以识别特定于分类单元的操纵子，从而被认为编码特定的代谢功能。对于公开可用的基因组，可以在IMG-ABC和antiSMASH-DB等在线数据库中交互式浏览由antiSMASH识别的BGC。

然而，生物中也有许多生物合成途径的例子是由分布在多个染色体上的基因组编码而成的，而不是位于单个基因簇中。当将基因组挖掘方法扩展到生命之树的未开发部分时，其代谢产物生物合成基因组的聚集程度还有待观察。

从算法发展进程角度，早期通过序列比对方式发现保守序列的方法作为功能序列发现主要手段，然而，随着序列相关研究的深入，出现了各种序列挖掘算法。生物序列中的基序挖掘（或基序发现）可以定义为寻找一组相似的、保守的序列元素（“motif”）的问题。这些序列元素通常在核苷酸序列中短且相似，具有共同的生物学功能。早期的motif挖掘方法主要分为两种主要类型：枚举方法和概率方法：枚举方法和概率方法。第一类基于简单的单词枚举。例如：由 Sinha 等人开发的酵母基序查找器 (Yeast Motif Finder，YMF) 算法使用一致性表示来检测酵母基因组中具有少量简并位置的短基序。 YMF主要分为两步：第一步枚举搜索空间的所有主题序列（motif），第二步计算所有motif的z-score以找到得分最高的motif。

为了加快基于枚举的基序挖掘方法的运行速度，使用了一些特殊的方法，如后缀树、并行处理。此外，序列挖掘算法，如LMMO, DirectFS, ABC，DiscMLA, CisFinder，Weeder, Fmotif 和MCES在模型中都使用了这个策略。在基于概率的主题挖掘方法中，将构建一个需要几个参数的概率模型。这些方法为结合区域中每个位点的碱基分布提供了碱基分布，以区分基序是否存在。这些方法通常通过位置特定的评分矩阵（positionspecificscoring matrix，PSSM/PWM）或motif矩阵来构建分布。 PWM是一个m×n大小的矩阵（m代表特定蛋白质结合位点的长度，n代表核苷酸碱基的类型），用于表示motif在每个位置的偏好程度。

近年来，深度学习在各种应用场景中取得了巨大的成功。这使得研究人员尝试将其应用于DNA/RNA基序挖掘。DNA/RNA基序挖掘是基因功能研究的基础，在过去的几十年里，研究人员一直致力于为基序挖掘设计新的高效且准确的算法。相关研究结果表明，以深度学习为代表的算法取得了较好的成绩。现有的序列挖掘深度学习方法大致可以分为三种类型：基于卷积神经网络（convolutional neural network, CNN）的模型、基于循环神经网络（recurrent neural network, RNN）的模型和基于混合CNN-RNN的模型。通过对现有深度学习方法的分析和比较，可以发现在数据充足的情况下，更复杂的模型往往比简单的模型表现更好。

然而现有基于深度学习的主流基因组学数据挖掘方法大都针对某一特定任务（如：抗生素耐药基因的预测）设计端到端深度学习模型，存在通用性不强，灵活性较差问题。此外，从基因组数据中挖掘目标化合物的生物合成途径仍具有挑战性，存在虽然总体数据量较丰富，但是单一功能酶相关数据量可能不足等问题。另外，针对基因组学数据量巨大，对挖掘算法效率要求高的前提下，存在如何均衡效率与精度等问题。

发明内容

针对上述问题，本发明设计开发一种海洋营养成分生物合成途径挖掘方法、装置、设备和介质，基于海量海洋水产品基因组数据，结合自然语言处理神经网络模型，实现编码目标化合物合成相关酶的基因的识别与优先排序。通过基因表达生成每一步合成所需的特定功能酶，最终拟生成一个合成路径。并针对流程中蛋白质编码区域预测、目标功能酶鉴定和酶活性预测与分析三个关键环节相关技术进行优化改进，以提高管线的有效性。

本发明是通过如下技术方案来实现的：

一种海洋营养成分生物合成途径挖掘方法，所述方法的具体步骤如下：

第一步、对潜在的基因组数据进行融合DNA形状特征的蛋白质编码区域的预测；

首先，构建蛋白质编码区域预测相关数据集；从Refseq（NCBI referencesequences）构建相关物种的基因组和转录数据集；其次，从所有生物序列中选择样本并随机打乱作为负样本；使负样本数量等于正样本的数量；最后，将所有样本分成3部分以便进行3倍交叉验证，并从测试数据中去除序列相似度超过50%的样本，以保证测试数据中的每个样本与训练数据中的任何样本的同一性不超过50%；其次，采用深度学习模型实现融合DNA形状信息的序列特征提取；最后，进行蛋白质编码区域标注；给定每个滑动窗口的特征编码向量后，构建深度学习模型来整合序列结构特征、全局序列顺序信息、不重叠的 kmer特征和标签依赖关系，对于生物序列中的每个位置，首先将当前子序列及其相邻子序列编码为DNA形状信息（DSS）、C4和gkm编码，然后将DNA形状信息以及 C2 编码为CNN并与gkm合并，最后馈入双向循环神经网络（BRNN）进行蛋白质编码区域预测，再将预测得到的蛋白质编码区序列转换成氨基酸序列；

第二步、进行目标功能酶的鉴定；

通过对氨基酸序列与特定底物间的亲和力预测情况来实现目的功能酶的鉴定；特定底物：是指根据待挖掘的酶的功能确定的对应底物，本方法中我们认为该底物（即酶的功能）是已知的（或可以预测到的）。所述方法包括以下三个步骤：

（1）预训练ELECTRA模型；首先从PubChem数据库中提取化合物的复合SMILES字符串，从UniProt数据库中提取蛋白质的FASTA序列，分别输入到两个Transformer编码器中，一个充当生成器网络，另一个充当鉴别器网络；分别得到ELECTRA-M模型和ELECTRA-P模型；

（2）将从BRENDA收集的底物信息和蛋白质序列信息输入到经过训练的ELECTRA-M和 ELECTRA-P模型，得到特征张量矩阵，结合CNN和FCNN对米氏常数进行预测；

（3）使用FCNN来预测米氏常数值；

第三步、第二步鉴定得到的阳性鉴定结果与生物实验测序得到的宏蛋白质组数据进行对比筛选，得到具有编码蛋白潜力的阳性鉴定样本，利用现有技术将蛋白质序列转换成pdb格式文件；即预测其三维结构以便进行分子动力学模拟与分析；

第四步、对其进行基于分子动力学和深度学习相结合的预测模型的酶活性的预测分析，从而进行候选样本的选择与排序。

进一步，所述的第四步，首先，构建用于基于分子动力学与深度学习的酶活性预测模型训练与测试数据集；使用分子动力学软件进行分子动力学模拟，在分子动力学模拟之后，以20ps的间隔从每个200ns轨迹中提取快照，作为后续 DL分析的构象数据集；其次，获取分子动力学模拟构象的像素表示；使用像素图来表示数据集中的每个构象，即通过矩阵变换将每个构象的XYZ坐标转换为RGB坐标；最后，构建可解释深度学习算法模型，对酶活性进行预测的同时识别出起作用的关键氨基酸残基，以便后续生物学家进行湿实验验证。

进一步，在第二步中的（3）在每个隐藏层之后应用了批量归一化并在每一层都使用了L2正则化，以防止过拟合。

本发明还提供一种海洋营养成分生物合成途径挖掘的装置，所述装置包括蛋白质编码区域的预测模块、目标功能酶的鉴定模块和对比筛选与活性评估模块；

所述的蛋白质编码区域的预测模块：所述预测模块运行如海洋营养成分生物合成途径挖掘方法中所述第一步的方法；

所述的目标功能酶的鉴定模块：所述鉴定模块运行如海洋营养成分生物合成途径挖掘方法中第二步的方法；

所述的对比筛选与活性评估模块；所述对比筛选与活性评估模块运行如海洋营养成分生物合成途径挖掘方法中所述第三步和第四步的方法。

本发明还提供一种计算机设备，所述设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述海洋营养成分生物合成途径挖掘的方法步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适用于由处理器加载并执行海洋营养成分生物合成途径挖掘的方法。

本发明与现有技术相比的有益效果：本基于深度学习的算法管线流程框架，较以往基因挖掘的端到端深度学习模型灵活性更高，其中功能模块可单独使用，也可组装联合使用。本发明方法融合了DNA三维结构信息、底物化学特征信息以及蛋白质三维结构信息，突破了经典主流方法中仅使用序列信息这一单一类型数据，进一步提高了模型准确性。本发明方法打破传统方法对转录组数据、相同功能酶系数据的依赖，缓解了深度学习模型在特定功能酶编码基因挖掘任务中面临的训练数据不足问题。本发明方法同步开展生物湿实验，将测序得到的宏蛋白质组学数据与鉴定的阳性样本进行比对筛选，这将大大降低假阳性概率。本发明方法中酶活性预测与分析模块，基于分子动力学模拟与可解释深度学习，实现酶活性精准预测的同时反向识别关键氨基酸残基，从而进行作用机制解释，为后续科研人员进行酶优化等酶工程研究提供帮助与支持。

附图说明

图1为本发明的总体流程图；

图2为本发明的DNA形状特征类型示意图； a为小沟宽，b为碱基对间特征图，c为碱基对内特征图；

图3为卷积神经网络结构图；

图4为神经网络模型结构图；

图5为本发明方法与不包含DNA形状特征的kmer+BRNN方法下的性能比较图；

图6为特定功能酶鉴定算法框架图；a为嵌入模型预训练流程图，b为化合物和蛋白质表示图，c为特征提取流程图，d为回归步骤图；

图7为本发明的ELECTRA预训练的原理示意图；

图8为复合SMILES字符串和蛋白质序列嵌入原理示意图；

图9为CNN和FCNN模型架构图；

图10为本发明的模型预测结果图；

图11为本发明的融合多源信息的蛋白质编码区预测的网络架构示意图；

图12为本发明MD构象与像素图转化原理示意图；

图13为SHAP解释器流程图；

图14为预测得到的候选样本序列数据和真实同功能酶系之间的相似性。

具体实施方式

下面通过实施例结合附图来对本发明的技术方案做进一步解释，但本发明的保护范围不受实施例任何形式上限制。

实施例1

一种海洋营养成分生物合成途径挖掘方法，如图1所示，所述方法的具体步骤如下所示：

本实施例方法为构建算法流程框架，本框架主要由3个算法组成，即蛋白质编码区域预测算法、目标功能酶鉴定算法和酶活性预测与分析算法，本步骤分别构建数据集进行算法的训练与调试，并分别测试三个算法的性能。

1、构建融合DNA形状特征的蛋白质编码区域预测模型，测试模型性能。

1.1数据集的构建。

首先对当前研究领域内基因层面的蛋白质编码相关研究进展进行总结，归纳当前研究主要的数据集来源。其次总结当前研究主要的数据集构建方法、DNA序列信息编码方法以及DNA形状特征信息获取方法，设计构建融合形状特征的DNA序列数据集。

本实施例构建的73组带有良好全面注释的小球藻基因组与转录本数据集可从NCBI（https://www.ncbi.nlm.nih.gov/refseq/）下载获得，实验数据格式为TFRecord，分为训练集和数据集两部分。

从Refseq参考序列数据库获取海洋原核生物数据集，每个原核生物物种只有一个参考性或代表性基因组，该数据集上的原核生物代表性基因组被细化，单个基因组已被重新进行注释。从所有DNA序列中选择样本并对样本进行随机洗牌，正例与反例数量相等。将所有样本分成3部分，执行3倍交叉验证，同时从测试集中删除相似样本以保证测试集中的每个样本与训练集中的每个样本一致性不超过40%。

1.2 DNA序列数据及DNA形状特征数据预处理。

首先对数据集中的DNA序列数据进行顺序-离散混合编码，用C4顺序模型来捕获全局序列信息，将核苷酸转换为4位二进制，如A-[1，0，0，0]、G-[0，1，0，0]、C-[0，0，1，0]、T-[0，0，0，1]，用非重叠gkm离散模型来捕获局部序列信息，设置全字段长度l为5，有效核苷酸位置k为3，如使用f（XXAGA）计算字段长度为5的拥有相同间隙三核苷酸（AGA）的数值。其次，通过已有的滑动窗口策略与蒙特卡洛模拟方法，建立四聚体查询表，使用基于四聚体的模型进行预测，对DNA形状特征信息进行提取，获取13个DNA形状特征的信息值，包括小沟宽（MGW）、移位扭曲（Shift）、滑动扭曲（Slide）、攀升扭曲（Rise）、倾斜扭曲（Tilt）、滚动扭曲（Roll）、螺旋扭曲（Helix Twist）、切变扭曲（Shear）、伸展扭曲（Stretch）、交错扭曲（Stagger）、搭扣扭曲（Buckle）、螺旋桨扭曲（Propeller Twist）、开放扭曲（Opening），如图2所示。每个核苷酸位置都具有相应的碱基对间特征值与碱基对内特征值。

对数据进行处理的卷积神经网络如图3，采取多输入并行卷积架构，输入为三个4×L的矩阵。对C4编码信息、DNA shape信息进行卷积计算及最大池化计算，其中卷积计算层使用ReLU(x)=max(0,x)作为激活函数，最后经过flatten层将DNA序列信息与gkm特征以及DNA形状特征进行结合，输入全连接层后，将最终输出作为输入，输入至BRNN进行蛋白质编码区域预测。

1.3 融合DNA形状特征的蛋白质编码区域预测模型迭代训练。

本实施例所使用的样本序列先后使用了两种不同的模型：第一种为融合DNA形状特征信息和序列C4编码的CNN模型。经过C4编码的DNA序列信息与经过MC方法提取出的DNA形状特征信息以两个4×92的矩阵形式作为输入，经过CNN神经网络模型计算后，其输出与包含gkm特征编码信息的一个4×92矩阵一起进行串联运算。第二种为预测核苷酸编码可能性的BRNN模型。将CNN的输出与gkm特征进入BRNN神经网络模型参与双向循环计算，使用两个隐藏层W₁、W₂，正向循环层W_f、反向循环层W_b以及两层激活函数sigmoid以及softmax计算后，输出为对蛋白质编码区域的预测值。所提出的神经网络模型如图4所示，训练过程中，在Tensorflow中使用TFRecord数据格式，学习率设置为常用值10^-3，进行多次迭代训练直至模型稳定。本实例记录了73组小球藻基因组与转录组数据在所述融合DNA形状的CNN+BRNN蛋白质编码区域预测方法与不包含DNA形状特征的kmer+BRNN方法下的性能比较。如图5所示，实验评估证明，融合DNA形状的混合编码预测模型在蛋白质编码区域预测方面表现出更加良好的性能和较高的准确度。

2、构建基于迁移学习融合底物化学信息的特定功能酶鉴定模型，并测试其性能，流程框架见图6。

2.1 构建蛋白质和化合物序列语料库。

需要提前构建针对特定任务的语料库训练 ELECTRA 模型，以获得输入序列的编码层。SMILES字符串是具有简单词汇（只有原子和化学键符号）和一些语法规则的语言结构。与自然语言处理类似，SMILES字符串类似于句子，其中每个原子和键符号都是一个单词。然后可以通过收集许多化合物来自然地组成语料库。例如，SMILES字符串“CC(=)OC1=C”可以列为由标记为由‘C’，‘（’，‘=’，‘）’，‘0’，‘1’组合构成的句子。为了确保来自不同来源的所有SMILES字符串的一致性，我们使用Open Babel将语料库中的所有SMILES字符串转换为规范格式。与SMILES字符串类似，我们从蛋白质FASTA序列中提取单词并创建蛋白质序列语料库，把每个残基看成一个单词，我们利用UniProt数据库收集蛋白质信息。

2.2 提取表征底物信息的复合SMILES字符串和表征酶信息的氨基酸序列嵌入模型，构建张量矩阵。

利用两个独立的ELECTRA模型将SMILES字符串和氨基酸序列分别编码为固定维度的向量。ELECTRA预训练的原理示意图如图7所示，ELECTRA使用两个Transformer编码器作为基础结构：一个充当生成器网络，另一个充当鉴别器网络。生成器通常是一个小的掩码语言模型，它在令牌上产生输出分布。来自SMILES字符串的标记首先被屏蔽，一些被替换为具有固定概率的屏蔽符号[MASK]。然后，将[MASK]标记输入生成器，与鉴别器进行联合预训练。生成器网络首先从被屏蔽的标记中学习，然后用预测值填充缺失的标记，但预测值可能与原始值不同。从PubChem数据库中提取化合物的复合SMILES字符串，从UniProt数据库中提取蛋白质的FASTA序列，分别输入到两个Transformer编码器中，一个充当生成器网络，另一个充当鉴别器网络，在使用SMILES字符串进行预训练后，我们获得了一个ELECTRA-M模型作为编码器，可以将每个SMILES字符串编码为下游任务中的特征向量。类似地，获得一个用氨基酸序列预训练的 ELECTRA-P模型，该模型也将每个氨基酸序列编码成一个特征向量。将氨基酸序列和SMILES字符串作为输入输入到整个框架中，因为SMILES字符串和氨基酸序列的长度不同，将它们截断为固定长度以进行有效表示。为SMILES选择固定长度100，为蛋白质序列选择1000作为数据集的基准。我们根据数据集的分布选择这些最大长度，以便最大长度覆盖数据集中至少80%的蛋白质和化合物。较长的序列被截断到这些长度，而较短的序列用零填充到固定长度。

2.3 将张量矩阵输入到卷积神经网络（CNN）进行特征提取，获得特征向量。

从BRENDA数据库下载了K_M值以及生物体和底物名称、EC编号、酶的UniProt ID和PubMed ID。这产生了一个具有156387个条目的数据集。通过KEGG的同义词列表将底物名称映射到KEGG化合物ID。对于所有不能直接映射到KEGG化合物ID的底物名称，尝试首先通过PubChem中的同义词列表将它们映射到PubChem化合物ID，然后使用MBROLE的Web服务将这些ID映射到KEGG化合物ID。如果UniProt ID可用，通过UniProt映射服务下载所有数据点的氨基酸序列；否则，通过生物体名称和EC编号从BRENDA下载氨基酸序列。然后，删除了(I)所有重复的条目；(II)具有非野生型酶的所有条目；(III)没有该酶的UniProt ID的非细菌生物的条目；以及(IV)底物名称无法映射到KEGG化合物ID的条目。这导致了34526个数据点的过滤集合。对于其中的11737个，可以在KEGG反应数据库中找到EC编号-底物组合的条目。因为只有天然基质的K_M值有意义，所以只保留了这些数据点。对此数据集中的所有K_M值进行了log10转换。将包含11737个条目的最终数据集随机分为训练数据(80%)和测试数据(20%)。我们进一步将训练集分成5个子集，用于对机器学习模型的超参数优化进行5次交叉验证。使用测试数据对超参数优化后的最终模型进行了评估。

从Sabio-RK数据库下载K_M值以及生物体名称、底物名称、EC编号、酶的UniProt ID和PubMed ID。这产生了一个包含8375个条目的数据集。以与上述BRENDA数据集相同的方式处理此数据集。删除了所有具有PubMed ID的条目，该ID已经存在于BRENDA数据集中。这产生了一个包含274个条目的最终数据集，我们将其用作K_M预测的最终模型的附加测试集。

首先通过3种不同的分子指纹（ECFP、RDKit 指纹、MACCS键）来表示每种底物。对于最终数据集中的每个底物，通过 KEGG 化合物ID从KEGG下载了一个MDL Molfile，其中包含其原子和键的2D投影。然后，使用来自 RDKit的包Chem，以Molfile作为输入来计算2048维二进制RDKit指纹、166 维二进制MACCS密钥和1024维二进制ECFP。

把经过预处理的SMILES字符串和氨基酸序列分别嵌入经过训练的ELECTRA-M和ELECTRA-P模型。复合SMILES字符串和蛋白质序列嵌入原理示意图如图8所示，对于单个化合物，来自其SMILES字符串的标记序列（代表原子或结构指示符）被输入经过训练的ELECTRA-M模型以产生复合编码。具体来说，每个token，也就是一个字符，被转换成一个长度为W_C的向量通过 ELECTRA-M，然后是一系列的令牌被转换为一个长度为N_C的序列，最终连接成一个W_C×N_C的张量矩阵作为复合表示。以同样的方式，一个蛋白质残基标记被编码成一个长度为W_P由ELECTRA-P和长度为N_P的氨基酸序列连接成一个W_P×N_P张量矩阵。把得到的两个张量矩阵分别输入到两个相同的特征提取器网络CNN和FCNN中，如图9所示，其内部是由两个SE块和一个全局最大池化层构成，获得SMILES字符串特征向量和氨基酸序列特征向量。使用一维卷积来投影输入化合物或蛋白质张量X∈R^T×256进入特征图U∈R^T×C执行特征重新校准；这个一维卷积在特征方向，因此，首先对这些特征图U进行压缩，并通过特征方向上的全局平均池化来生成通道或特征描述符；交互信息被累积在这个描述符中；压缩操作之后是具有完全连接层和 ReLU 激活的激励操作，该操作通过简单的自选通机制从特征中产生调制权重；SE块的输出是由这些调制权重缩放的特征图U的形式；堆叠的 SE 块进一步扩大了特征之间的这种交互信息；对用于超参数优化的4种底物表示(ECFP、RDKit指纹、MACCS密钥和特定于任务的指纹)中的每一种的训练集进行了5次交叉验证。FCNN由两个隐含层组成，并在隐含层中使用定义为RELU(X)=max(x，0)的修正线性单元(RELU)作为激活函数来引入非线性。我们在每个隐藏层之后应用了批量归一化。此外，我们在每一层都使用了L2正则化，以防止过拟合。

2.4 将提取到的两个特征向量连接成单个向量，并将该向量输入到回归网络中以进行K_M预测。

将步骤2.3提取到的SMILES字符串特征向量和氨基酸序列特征向量连接成单个向量，并将其输入到回归网络中来预测K_M值。

实验结果如图10所示，把从BRENDA和Sabio-RK数据库中提取并预处理的数据嵌入本实施例的模型中进行K_M的预测，横坐标是真实结果，纵坐标是预测结果。大多数的预测结果和真实结果是符合或者接近的，少数误差较大的结果也在可接受的范围之内，说明本实施例的模型提高了预测的准确性。

3、构建基于可解释深度学习算法的分子动力学模拟轨迹智能化分析模型，并测试其性能，框架流程图如图11所示。

3.1构建初始数据集。

从蛋白质数据库（PDB）获得所有正在研究的系统的初始晶体结构以及相关信息，构建包含蛋白质结构以及化合物信息的初始数据集。

3.2对初始数据集进行分子动力学模拟。

在模拟中，将配体和换能器保留在晶体结构中。在分子动力学系统中，所有蛋白质残基在 pH = 7 时设置为标准 CHARMM 质子化状态。然后，将这些蛋白质浸入 4：1质量比的1-棕榈酰基-2-油酰基磷脂酰胆碱：胆固醇扩展膜中，并用 TIP3P 水模型进行溶剂化，通过 CHARMM-GUI 在 0.15 M NaCl 中中和，然后进行 5000 步能量最小化。之后，每个系统在 250 ps 内从 0 加热到 310 K，并在 310 K 下通过 5 ns NVT 进行预平衡。为了增强构象采样，在初始随机速度不同的三个平行 200 ns 模拟中进行每个系统的温度为 310K，压力为 1 个大气压。对于所有模拟，采用 2 fs 步长，并使用 SHAKE 算法来约束所有涉及氢的化学键。使用粒子网格 Ewald 方法计算静电相互作用。CHARMM36 力场用于蛋白质、脂质和盐离子，而所有配体的参数都是使用 CHARMM 一般力场生成。

3.3 MD 构象的像素表示。

在 MD 之后，以 20 ps 的间隔从每个 200 ns 轨迹中提取 10000 个快照，作为后续 ML 分析的构象数据集，通过从 MD 快照中去除配体和换能器仅考虑受体构象。为了尽量减少结构信息损失，使用像素图来表示数据集中的每个构象，其中每个像素点对应一个原子，转化原理如图12所示。需要注意的是，所有 MD 坐标都对齐以在转换为像素图之前移除平移和旋转且不考虑 H 原子。最后通过矩阵变换将每个构象的XYZ坐标转换为RGB坐标，得到特征像素图数据集。具体转化原理如图12所示。RGB 色彩空间用于像素表示，因为它是通过更改和叠加三个颜色通道来表示颜色的标准：红色（R）、绿色（G）和蓝色（B）。RGB 空间中的每个点都对应一种独特的颜色；特别是，每个构象的XYZ坐标通过矩阵变换传输到RGB坐标；

3.4 融合Swin-Transformer和全连接神经网络的分子动力学轨迹分析新模型。

模型融合Swin-Transformer，采取层次化设计；通过包含的4个隐藏层对特征图进行缩小分辨率操作，扩大感受野；

特征图依次通过patch partition层、linear Embedding层、Swin TransformerBlock层以及三个Patch Merging和Swin Transformer Block复合层；为增强模型学习准确率并增加计算效率，Patch Merging层通过降采样以及全连接层改变特征图维度，并且特征图在第二个复合层中需要循环通过三个Swin Transformer Block层，使模型在特征图为的维度上进一步学习；每一个Swin Transformer Block层都包含两个子层，两个子层依次运行，且每个子层都是由Layer Normalization层、Window Attention层、残差连接以及一个Layer Normalization和MLP复合层组成的；唯一区别在于第一个子层的Window Attention层为W-MSA层，第二个子层为Shifted Window Attention层SW-MSA，所以每一个Swin Transformer Block层都经过两次self-attention计算，以此来获取全局的视野；通过Swin-Transformer后构建了一个三层全连接的神经网络，最后输出神经元数为两个，并使用激活函数softmax分类。

3.5 使用步骤3.3中处理后的数据对步骤3.4中所述的新模型进行训练和评估。

使用五重交叉验证，将每条轨迹按照时间顺序分为10组，每组又分为5个折叠；然后，从每组中取出一个折叠来构成验证集，而将每组中剩余的四个折叠组合起来作为训练集；依次重复五次，构建五重交叉验证集；并使用Accuracy评估新模型的性能；

对于分子动力学轨迹分析模型，其包含的4个隐藏层对特征图进行缩小分辨率操作，扩大感受野。输入一个H×W×3的图片，首先将图片达成patch，patch size设置成4×4。然后经过patch partition后将图片尺寸变为。之后通过linear Embedding层以及Swin Transformer Block层，其中linear embedding层会设置超参数C=96。之后在特征图在尺寸为和时通过一个Swin TransformerBlock层，在尺寸为时通过三个Swin Transformer Block层。最后通过三层全连接的神经网络分别包含 512、64 和 2 个神经元，以及 0.5 的 dropout防止过拟合。对于 512 和 64 个神经元的两个全连接层，使用 ReLU 作为激活函数，而在最后一层使用softmax 激活函数进行分类。

为了验证模型的鲁棒性，在一条平行MD轨迹上使用训练好的模型来预测其他两条平行轨迹。结果如表1所示。验证集的预测准确度达到 100%，独立测试集的预测准确度超过99%，显示出高鲁棒性。

表1.模型在三种类型的G蛋白偶联受体独立测试集上的表现

。

3.6 基于SHAP的解释器。

对特征图进行分割，并为分割区域进行编号，通过对特征图部分分割区域的遮掩进行扰动，将扰动后的所有特征图重新进入模型进行分析预测，得到带有小扰动的扰动数据集，构建样本空间，最后通过局部线性近似拟合一次函数，每一个未知数对应分割区域，未知数的系数为起作用大小；SHAP算法加入扰动权重，权重大小通过保留未遮掩的区域多少决定，如图13所示。

对于选择的特定构象，首先添加一些小扰动以获得包含与原始构象相似的构象的扰动数据集。π x用于定义所选构象x周围的局部性。使用训练的新模型在扰动数据集上进行预测。由于扰动数据集非常小且与所选构象相似，分类边界变得简单，接近线性。因此，我们可以根据扰动大小确定权重，并使用直观且可解释的线性模型除以权重来拟合局部边界。具体而言，我们在扰动数据集上训练线性模型，使新模型的预测值与线性模型的预测值之间的误差尽可能小。对于每个构象，SHAP解释器生成一个SHAP矩阵，该矩阵评估每个像素在分类结果中的重要性得分。SHAP矩阵与图像具有相同的维度，其中每个元素对应一个代表原子的像素点。SHAP矩阵中每个元素的取值为 0 或 1。0 值表示该元素对分类选择的影响很小，而 1 值表示该元素对分类决策的影响很大。我们将每个构象的所有SHAP矩阵求和，并对它们进行平均以获得 0 到 1 值之间的分数。值越大，分类结果中的原子越重要。然后，对残基中所有原子的得分进行平均，以表示残基的重要分数。

实施例2、使用实施例1构建的流程框架对岩藻黄质生物合成途径特定功能酶进行挖掘，并对模型性能进行评估。

1、数据预处理。

从海藻、虾蟹、鱼类等海洋水产品基因组数据库中挖掘岩澡黄质生物合成途径酶。在宏基因组数据中鉴定蛋白质编码区（Coding sequence，CDS）非常耗时，因此，在先前基于宏基因组学研究组装的代表性基因组中使用融合DNA形状信息的CDS直接预测算法。根据完整性（大于80%）等条件过滤了海洋生物组样本中存在的97个具有代表性的生物基因组。最终专注于13个合格的代表性基因组。

2、蛋白质编码区域预测。

本实施例所使用的样本序列先后使用了两种不同的模型：（1）融合DNA形状特征信息和序列C4编码的CNN模型。经过C4编码的DNA序列信息与经过MC方法提取出的DNA形状特征信息以两个4×92的矩阵形式作为输入，经过CNN神经网络模型计算后，其输出与包含gkm特征编码信息的一个4×92矩阵一起进行串联运算。（2）预测核苷酸编码可能性的BRNN模型。将CNN的输出与gkm特征进入BRNN神经网络模型参与双向循环计算，使用两个隐藏层W1、W2，正向循环层Wf、反向循环层Wb以及两层激活函数sigmoid以及softmax计算后，输出为对蛋白质编码区域的预测值。

3、目标功能酶鉴定。

将预测得到的CDS数据集转换为蛋白质序列（11,657条）后与目标底物信息进行米氏常数预测，并与已知阳性样本共同参与预测，基于阳性样本预测得到米氏常数数值设置鉴定阈值范围（<2.7 mol/l），并获得阳性样本数据。

具体步骤如下：

3.1提取表征底物信息的复合SMILES字符串和表征酶信息的氨基酸序列嵌入模型，构建张量矩阵。

利用两个独立的ELECTRA模型将SMILES字符串和氨基酸序列分别编码为固定维度的向量。使用第一步中预训练好的ELECTRA模型。其预训练的原理示意图如图2所示，ELECTRA使用两个Transformer编码器作为基础结构：一个充当生成器网络，另一个充当鉴别器网络。这里单独使用其中的生成器进行蛋白质序列和小分子SMILES的特征提取。通常是一个小的掩码语言模型，它在令牌上产生输出分布。来自SMILES字符串的标记首先被屏蔽，一些被替换为具有固定概率的屏蔽符号[MASK]。生成器网络首先从被屏蔽的标记中学习，然后用预测值填充缺失的标记，但预测值可能与原始值不同。将底物的SMILES字符串，以及之前蛋白质编码区域预测得到的FASTA序列，分别输入到两个Transformer编码器中的生成器网络，即SMILES编码器ELECTRA-M模型和氨基酸序列编码器 ELECTRA-P模型。分别得到每个SMILES字符串编码以及氨基酸序列编码作为下游任务中的特征向量。将氨基酸序列和SMILES字符串作为输入输入到整个框架中，因为SMILES字符串和氨基酸序列的长度不同，将它们对齐为固定长度以进行有效表示。为SMILES选择固定长度100，为蛋白质序列选择1000作为数据集的基准。较长的序列被截断到这些长度，而较短的序列用零填充到固定长度。

复合SMILES字符串和蛋白质序列嵌入原理示意图如图8所示，对于单个化合物，来自其SMILES字符串的标记序列（代表原子或结构指示符）被输入经过训练的ELECTRA-M模型以产生复合编码。具体来说，每个token，也就是一个字符，被转换成一个长度为WC的向量通过 ELECTRA-M，然后是一系列的令牌被转换为一个长度为NC的序列，最终连接成一个WC×NC的张量矩阵作为复合表示。以同样的方式，一个蛋白质残基标记被编码成一个长度为WP由ELECTRA-P和长度为NP的氨基酸序列连接成一个WP×NP张量矩阵。把得到的两个张量矩阵分别输入到两个相同的特征提取器网络CNN和FCNN中，其内部是由两个SE块和一个全局最大池化层构成，获得SMILES字符串特征向量和氨基酸序列特征向量。

3.2将提取到的两个特征向量连接成单个向量，并将该向量输入到回归网络中以进行KM预测。

将步骤3.1提取到的SMILES字符串特征向量和氨基酸序列特征向量连接成单个向量，并将其输入到回归网络中来预测K_M值。在回归模型中我们结合CNN和FCNN对米氏常数进行预测。FCNN由两个隐含层组成，并在隐含层中使用定义为RELU(X)=max(x，0)的修正线性单元(RELU)作为激活函数来引入非线性。在每个隐藏层之后应用了批量归一化。此外，在每一层都使用了L2正则化，以防止过拟合。

3.3 根据米氏常数预测值进行阳性样本鉴定。根据阈值范围（<2.7 mol/l），筛选得到阳性样本数据。

4、阳性样本对比筛选，及其三维结构预测。

首先，将鉴定得到的阳性鉴定结果与生物实验测序得到的宏蛋白质组数据进行对比筛选，得到具有编码蛋白潜力的阳性鉴定样本。为了确保计算机中预测的CDS可能表达到蛋白质/肽中，与宏蛋白质组学数据集进行了交叉检查。计算所有CDS序列的k-mers（其中k至少是序列长度的一半，最大值是序列的原始长度），并检查了宏蛋白质组学数据中的肽序列。如果k-mer和代谢蛋白质组学肽之间存在完全匹配，则表明特定CDS序列的一半以上在蛋白质组学数据中以肽形式存在，这提供了额外的证据，证明该CDS可能被表达。其次，利用现有技术将蛋白质序列转换成pdb格式文件；即预测其三维结构以便进行分子动力学模拟与分析。

5、酶活性预测与分析。

5.1 对筛选得到的阳性样本进行分子动力学模拟；

5.2 MD 构象的像素表示；

在 MD 之后，以 20 ps 的间隔从每个 200 ns 轨迹中提取 10000 个快照，作为后续 ML 分析的构象数据集，通过从 MD 快照中去除配体和换能器仅考虑受体构象。为了尽量减少结构信息损失，使用像素图来表示数据集中的每个构象，其中每个像素点对应一个原子，转化原理如图12所示。需要注意的是，所有 MD 坐标都对齐以在转换为像素图之前移除平移和旋转且不考虑 H 原子。最后通过矩阵变换将每个构象的XYZ坐标转换为RGB坐标，得到特征像素图数据集。RGB 色彩空间用于像素表示，因为它是通过更改和叠加三个颜色通道来表示颜色的标准：红色（R）、绿色（G）和蓝色（B）。RGB 空间中的每个点都对应一种独特的颜色；特别是，每个构象的XYZ坐标通过矩阵变换传输到RGB坐标；

5.3 候选样本的选择与排序。

使用步骤一训练得到的分子动力学模拟轨迹智能化分析模型对其进行基于分子动力学和深度学习相结合的预测模型对候选酶活性进行预测的同时识别出起作用的关键氨基酸残基，以便后续生物学家进行湿实验验证。

对于分子动力学轨迹分析模型，其包含的4个隐藏层对特征图进行缩小分辨率操作，扩大感受野。输入一个H×W×3的图片，首先将图片达成patch，patch size设置成4×4。然后经过patch partition后将图片尺寸变为。之后通过linear Embedding层以及SwinTransformer Block层，其中linear embedding层会设置超参数C=96。之后在特征图在尺寸为和时通过一个Swin Transformer Block层，在尺寸为时通过三个Swin TransformerBlock层。最后通过三层全连接的神经网络分别包含512、64 和 2 个神经元，以及 0.5 的dropout防止过拟合。对于 512 和 64 个神经元的两个全连接层，使用 ReLU 作为激活函数，而在最后一层使用 softmax 激活函数进行分类。

6、本实施例酶挖掘方法流程框架性能评估。

使用EMBOSS软件包（版本6.6.0.0）的函数“needleall”中的Needleman-Wunsch算法来估计数据集中我们预测得到的候选样本序列数据和同功能酶系之间的相似性。首先，通过序列对齐，其次，通过计数对齐中的相同AA对。运行过程使用默认参数。对比得出命中情况如图14所示：

本实施例从13组宏基因组数据中挖掘岩澡黄质生物合成途径酶，并与真实相关酶系数据进行相似性比较。如图14所示，为新的模型使用基于深度学习融合多源信息的挖掘算法得到的候选酶序列信息中排名前1%，3%及5%与已发现类似功能酶系序列数据相似性对比结果命中率情况。实验评估表明，本发明揭示了人工智能在发现酶等功能基因组方面的有效性。

Claims

1.一种海洋营养成分生物合成途径挖掘方法，其特征在于，所述方法的具体步骤如下：

第二步、进行目标功能酶的鉴定；

2.根据权利要求1所述一种海洋营养成分生物合成途径挖掘方法，其特征在于，所述的第一步，首先，构建蛋白质编码区域预测相关数据集；从NCBI reference sequences构建相关物种的基因组和转录数据集；其次，从所有生物序列中选择样本并随机打乱作为负样本；使负样本数量等于正样本的数量；最后，将所有样本分成3部分以便进行3倍交叉验证，并从测试数据中去除序列相似度超过50%的样本，以保证测试数据中的每个样本与训练数据中的任何样本的同一性不超过50%；其次，采用深度学习模型实现融合DNA形状信息的序列特征提取；最后，进行蛋白质编码区域标注；给定每个滑动窗口的特征编码向量后，构建深度学习模型来整合序列结构特征、全局序列顺序信息、不重叠的 kmer 特征和标签依赖关系，对于生物序列中的每个位置，首先将当前子序列及其相邻子序列编码为DNA形状信息、C4和gkm编码，然后将DNA形状信息以及 C2 编码为CNN并与gkm合并，最后馈入双向循环神经网络进行蛋白质编码区域预测，再将预测得到的蛋白质编码区序列转换成氨基酸序列。

3.根据权利要求1所述一种海洋营养成分生物合成途径挖掘方法，其特征在于，所述的第二步，通过对氨基酸序列与特定底物间的亲和力预测情况来实现目的功能酶的鉴定；方法包括以下三个步骤：

（2）将从BRENDA收集的底物信息和蛋白质序列信息输入到经过训练的ELECTRA-M和ELECTRA-P模型，得到特征张量矩阵，结合CNN和FCNN对米氏常数进行预测；

（3）使用FCNN来预测米氏常数值。

4.根据权利要求1所述一种海洋营养成分生物合成途径挖掘方法，其特征在于，所述的第四步，首先，构建用于基于分子动力学与深度学习的酶活性预测模型训练与测试数据集；使用分子动力学软件进行分子动力学模拟，在分子动力学模拟之后，以20ps的间隔从每个200ns轨迹中提取快照，作为后续 DL分析的构象数据集；其次，获取分子动力学模拟构象的像素表示；使用像素图来表示数据集中的每个构象，即通过矩阵变换将每个构象的XYZ坐标转换为RGB坐标；最后，构建可解释深度学习算法模型，对酶活性进行预测的同时识别出起作用的关键氨基酸残基，以便后续生物学家进行湿实验验证。

5.根据权利要求3所述一种海洋营养成分生物合成途径挖掘方法，其特征在于，在第二步中通过预测第一步中鉴定得到的蛋白质序列与目标底物之间的米氏常数来实现目标功能酶的鉴定，且其中的（3）在每个隐藏层之后应用了批量归一化并在每一层都使用了L2正则化，以防止过拟合。

6.一种海洋营养成分生物合成途径挖掘的装置，其特征在于，所述装置包括蛋白质编码区域的预测模块、目标功能酶的鉴定模块和对比筛选与活性评估模块；

所述的蛋白质编码区域的预测模块：所述预测模块运行如权利要求1所述一种海洋营养成分生物合成途径挖掘方法中所述第一步的方法；

所述的目标功能酶的鉴定模块：所述鉴定模块运行如权利要求1所述海洋营养成分生物合成途径挖掘方法中第二步的方法；

所述的对比筛选与活性评估模块；所述对比筛选与活性评估模块运行如权利要求1所述一种海洋营养成分生物合成途径挖掘方法中所述第三步和第四步的方法。

7.一种计算机设备，其特征在于，所述设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1所述一种海洋营养成分生物合成途径挖掘方法步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适用于由处理器加载并执行权利要求1所述一种海洋营养成分生物合成途径挖掘方法。