CN111063393B

CN111063393B - 基于信息融合和深度学习的原核生物乙酰化位点预测方法

Info

Publication number: CN111063393B
Application number: CN201911363577.8A
Authority: CN
Inventors: 于彬; 禹昭敏; 陈成; 陈瑞欣; 王磊
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-04-07
Anticipated expiration: 2039-12-26
Also published as: CN111063393A

Abstract

本发明公开了一种基于信息融合和深度学习的原核生物乙酰化位点预测方法，涉及生物信息技术领域。所述预测方法引入多信息融合，从序列信息、物理化学信息、进化信息多方面对蛋白质序列进行特征编码，充分反映乙酰化位点与非乙酰化位点蛋白质序列之间的差异性。Group Lasso对原始特诊空间进行筛选和优化，保留识别乙酰化位点模型的重要特征，得到最佳特征子集，提高模型计算速度和质量。深度神经网络通过层级学习最优特征子集生成具有判别力的特征，有效区分蛋白质序列中的乙酰化位点和非乙酰化位点，同时节约计算时间并且避免其它成本和相关限制，不仅能够帮助深入了解乙酰化分子机制，而且能为进行乙酰化位点识别相关实验验证提供有价值的参考信息。

Description

基于信息融合和深度学习的原核生物乙酰化位点预测方法

技术领域

本发明涉及生物信息技术领域，具体涉及一种基于信息融合和深度学习的原核生物乙酰化位点预测方法。

背景技术

蛋白质翻译后修饰作为一种调控机制，在正常和病理细胞生理学中发挥十分重要的作用。目前人们已发现几百种蛋白质翻译后修饰类型，其中赖氨酸乙酰化修饰对代谢的调控是近年来翻译后修饰研究领域的重要进展之一，该修饰是乙酰基供体通过非酶学或酶学的方式将乙酰基团共价结合到赖氨酸残基的过程。即通过赖氨酸乙酰转移酶将乙酰基团与特定赖氨酸残基进行共价连接，通过赖氨酸脱乙酰酶将乙酰基团移除。

乙酰化修饰在生命进化过程中极为保守，对代谢的调控发生在从低等原核细胞到包括人在内的高等哺乳动物，是一种广泛存在于细胞核或细胞质的亚细胞器内的翻译后修饰调控机制，对许多细胞过程很重要。乙酰化能够调节蛋白质表达，稳定性，定位和合成，影响基因表达和代谢，而且与人类某些疾病有关，因为KATs/KDACs功能异常会影响细胞分裂。研究表明原核生物也普遍存在蛋白质乙酰化修饰现象，而且涉及中心代谢和中间代谢的很多代谢酶都存在乙酰化修饰现象。对乙酰化调控的研究将增进人们对细胞代谢、表观遗传等生命活动的认识，促进了解乙酰化修饰的潜在生物学过程及其后果，同时促进抗癌药物和肿瘤细胞生长抑制剂的研制。

鉴定乙酰化位点是了解乙酰化机制的第一步，传统实验方法，如放射性检测，染色质免疫沉淀和质谱检测被用于识别乙酰化位点。由于这些方法是耗时且昂贵，而且无法识别大量的乙酰化位点，计算方法能够有效、快速地识别乙酰化位点。目前，使用逻辑回归、随机森林、支持向量机等计算方法预测乙酰化位点。逻辑回归是一种基于逻辑函数的回归分析算法。随机森林顾名思义，建立一个由很多决策树组成的森林，而且每颗决策树之间是没有关联的。支持向量机是通过核函数将输入样本映射到高维空间并搜索最优超平面进行分类的监督学习模型。Hou等人在2014年提出了基于逻辑回归分类器的赖氨酸乙酰化位点预测系统LAceP，该系统利用了乙酰化位点周围的氨基酸等级、氨基酸理化性质以及相邻氨基酸转移概率等信息。Li等人基于随机森林提出物种特异性赖氨酸乙酰化预测方法SSPKA，该方法结合序列派生和功能特征与两步特征选择，显著提高了预测性能。Basu等人构建了一个名为PredMod的预测工具，根据组蛋白中乙酰化赖氨酸的序列特征预测位点。Gnad等人利用支持向量机预测乙酰化残基，位点的预测准确度达到78％。Wuyun等人开发了一种新的预测器KA，基于支持向量机(SVM)预测物种特异性赖氨酸乙酰化位点，同时首次引入HSE特征。Shi等人提出了一种名为PLMLA的方法预测乙酰化位点，结合了蛋白质序列信息，二级结构和氨基酸性质，预测准确度达到83.08％。Li等人通过使用支持向量机(SVM)和蛋白质序列偶联模式编码方案，提出赖氨酸乙酰化预测算法LysAcet。Suo等人基于支持向量机提出了名为PSKAcePred的位置特异性方法，该方法结合氨基酸组成信息，进化相似性和物理化学性质对赖氨酸乙酰化位点进行预测，模型准确度达到79.84％。Lee等人提出基于两阶段支持向量机的计算模型N-Ace，结合氨基酸序列、蛋白质的可及表面积和物理化学性质，预测准确度比仅使用氨基酸序列的训练模型高5％至14％。Xu等人基于集成支持向量机的构建了乙酰化位点预测网站服务器EnsemblePail，预测优于单个支持向量机和其它方法。Shao等人提出了一种新的特征提取方法，双相对适应二项式得分贝叶斯BRABSB，并且结合支持向量机(SVM)构建人类特异性赖氨酸乙酰化位点预测器。

值得注意的是，关于乙酰化位点预测的方法仍有很多不足之处。首先，乙酰化修饰不仅广泛存在于真核生物中，而且也广泛存在于原核生物之中，很多研究者对真核生物中乙酰化位点进行预测，而忽略乙酰化修饰在原核生物中的重要性，所以很有必要研究真核生物与原核生物之间乙酰化修饰的差异，迫切需要对原核生物乙酰化位点进行识别。其次，对乙酰化位点进行预测时，单个特征提取算法不能有效提取蛋白质序列信息，没有融合多种特征信息，轻视了多信息融合的重要性。最后，我们发现关于乙酰化位点预测的分类器受限于支持向量机、随机森林、逻辑回归等，预测准确性有限。因此，有必要设计一种新的原核生物乙酰化位点预测方法。

发明内容

本发明的目的在于提供一种基于信息融合和深度学习的原核生物乙酰化位点预测方法，解决上述问题，该预测方法易于实施，预测准确率高。

为解决上述的技术问题，本发明采用以下技术方案：一种基于信息融合和深度学习的原核生物乙酰化位点预测方法，其特征在于，包括以下步骤：

1)收集乙酰化修饰位点信息：从相关文献获得9个原核生物乙酰化位点数据集，生成正负样本对应的类别标签；

2)特征编码：通过8种特征编码方法将蛋白质序列的字符信号转化为数值信号，从氨基酸残基的序列信息、物理化学信息、进化信息对氨基酸残基进行特征提取。通过对不同类型的特征向量进行多信息融合，得到初始特征空间；

3)特征选择：针对初始特征空间，采用Group Lasso去除冗余和不相关信息，保留与分类相关的重要特征，得到最优特征子集；

4)构建预测模型：把最优特征子集以及所对应的类别标签输入到深度神经网络进行交叉验证训练，优化模型的网络结构，结合评价指标评估模型的预测性能和鲁棒性，获得原核生物乙酰化位点预测模型；

5)乙酰化位点预测：将独立测试集中待分析的原核生物蛋白质序列，输入至步骤4)中的预测模型中，预测该蛋白质是否包含乙酰化位点并输出。

更进一步的技术方案是所述步骤1)包括如下子步骤：

1-1)构建的原核生物9个类别的赖氨酸乙酰化位点数据集，分别为E.coli，S.typhimurium，Bacillus subtilis(B.subtilis)，Vibrio parahemolvticus(V.parahemolvticus)，Mycobacterium tuberculosis(M.tuberculosis)，Corynebacterium glutamicum(C.glutamicum)，Erwinia amylovora(E.amylovora)，Geobacillus kaustophilus(G.kaustophilus)，Archaea。其中数据集Archaea来自于古细菌，包括嗜热子虫(T.themophilus)和其它古细菌物种，剩余8个数据集来源于原核生物细菌；

1-2)剔除9个原核生物赖氨酸乙酰化位点数据集中具有修饰位点的错误序列，将含有实验标记乙酰化位点的序列称为正样本，而不含有实验标记乙酰化位点的序列称为负样本，9个原核生物赖氨酸乙酰化位点数据集中的所有正负样本序列均被截短为对称窗口；Archaea数据集的窗口大小为13(-6～6)，V.parahemolvticus数据集的窗口大小为17(-8～8)，剩余7个数据集的样本窗口大小均为21(-10～10)，当正负样本长度不足时，定义虚拟氨基酸O以达到所需窗口大小；

1-3)使用具有30％同源性阈值的CD-HIT对蛋白质序列聚类，得到训练数据集，随机选择10％非同源性赖氨酸乙酰化片段与非乙酰化片段作为9个物种的独立测试数据集；在负数据集中随机选择负样本，使负样本的数量与正样本数量保持相同，达到正负样本的平衡。

更进一步的技术方案是所述步骤2)中多种特征编码方法包括二元编码特征提取方法、伪氨基酸组成特征提取方法、AAindex特征提取方法、NMBroto特征提取方法、分组重量编码特征提取方法、MMI特征提取方法、BLOSUM62特征提取方法、k近邻得分特征提取方法；

所述二元编码特征提取方法基于序列信息，将蛋白质样本序列中的每个氨基酸残基转化成由0和1构成的21维数值向量；

所述伪氨基酸组成特征提取方法依据氨基酸残基的出现频率，描述氨基酸序列中位置和顺序的关系，将其转化为21维特征向量；

所述AAindex特征提取方法通过利用氨基酸指标数据库中的物理化学信息生成12维数值向量；

所述NMBroto特征提取方法从AAindex数据库中选取8种不同的氨基酸指数，利用NMBroto将蛋白质序列不同位置的氨基酸残基的物理化学性质生成特征向量，每一条蛋白质序列生成32维的特征向量；

所述分组重量编码特征提取方法考虑到疏水性和带电特性，将20种氨基酸残基分成4类，两两组合后分成三组，将每条序列样本转化成3条二进制序列，计算每条二进制序列中不同子序列对应数字1出现的概率；子序列个数设置为7，每条蛋白质序列得到3x7＝21维的特征向量；

所述MMI特征提取方法基于氨基酸残基侧链的极性和体积，20种氨基酸分为7个组，把任何3个连续氨基酸作为一个单元，每个单元只考虑氨基酸基本成分，而不考虑氨基酸顺序，计算氨基酸序列上出现的每个类别的频率，生成119维特征向量；

所述BLOSUM62特征提取方法通过BLOSUM62矩阵反映氨基酸残基的进化信息；每个残基用包含m×L个元素的矩阵表示，其中L表示长度，m＝20，代表20种氨基酸，标准化BLOSUM62矩阵的每一行均表示20种常见氨基酸中的一种；

所述k近邻得分特征提取方法通过局部序列的聚类信息来预测蛋白质翻译后修饰位点，从正、负数据集的相似序列中提取特征来捕获乙酰化修饰位点周围的局部序列相似性，每一条蛋白质序列生成7维的特征向量。

更进一步的技术方案是所述步骤3)中Group Lasso在提前将系数向量分组的条件下，通过对一组系数向量添加约束，将每一组系数视为单个变量进行选择，即如果该组系数不为零则该组系数对应的特征被全部选择；反之，如果该组系数全部为零，则该组系数对应的特征全部被舍弃；设定Group Lasso的最佳参数为0.03，得到最优特征子集。

更进一步的技术方案是所述步骤4)中深度神经网络中每一层都是完全连接的，即隐含层或者输出层中的神经元连接到前一层中的所有神经元，一旦将输入数据提供给本网络，就沿着网络层顺序计算输出值，在输出层计算最终输出之前，通过4层隐含层以非线性方式进行转换，每个神经元计算其输入的加权和，并应用非线性激活函数来计算其输出；在网络训练期间，选择ReLU作为激活函数，应用于加权和以计算层的输出值；Adam算法用于优化分类交叉熵损失函数，不同层之间的神经元置零率设置为0.5，softmax函数对于给定输入预测输出层为某一类别的可能性，整个模型由Keras和Tensorflow实施。

更进一步的技术方案是所述步骤5)中独立测试数据集由随机选择步骤1)中10％的非同源性赖氨酸乙酰化片段与非乙酰化片段构成。

更进一步的技术方案是所述伪氨基酸组成特征提取方法中序列p的20+λ维伪氨基酸组成定义如下：

p＝[p₁,p₂,…,p₂₀,p₂₀₊₁,…,p_20+λ]^T

特征向量p中的每一个分量定义如下：

其中w为权重因子，设置为0.05，τ_k为k个紧邻相关的因子，f_u表示为第u种氨基酸在该蛋白质序列中出现的频率u＝1,2,…,20；根据公式，特征向量p前20维表示氨基酸组成，后λ维反映氨基酸序列信息中不同级别的序列相关因子；序列相关因子通过氨基酸的物理化学性质得到，本发明中设定λ最优值为1，每条蛋白质序列生成21维特征向量。

更进一步的技术方案是所述NMBroto特征提取方法的具体步骤如下：

对于给定长度为L的蛋白质残基序列P＝R₁R₂R₃…R_L，将20种常见氨基酸对应的8种物理化学性质的数值，用下面的公式进行标准化：

其中<->表示第ξ种物理化学性质的平均值，SD表示第ξ种物理化学性质的标准差；

Normalized Moreau-Broto Autocorrelation定义如下：

其中

P_i和P_i+d分别表示第i和i+d位置氨基酸标准化的物理化学数值，lag表示自相关的滞后间隔，针对9种原核生物对应的数据集，lag最优值设置为4，利用自相关描述符可以提取蛋白质序列的8×lag维特征向量，每一条蛋白质序列生成32维的特征向量。

更进一步的技术方案是所述分组重量编码特征提取方法20种氨基酸残基分成4类，具体地：

将上述四种划分方式两两合并，得到三种组合，每种组合都将20种氨基酸残基划分成不相交的部分，C1+C2 vs C3+C4，C1+C3 vs C2+C4，C1+C4 vs C2+C3。对于一条蛋白质序列P＝p₁p₂…p_L，将按照如下方式转化成3条二进制序列：

每个二进制序列分成J条长度依次递增的子序列，对于长度为L的蛋白质序列P，可以得到3*J维向量；针对9种原核生物对应的数据集，子序列个数设置为7，每条蛋白质序列得到3x7＝21维的特征向量。

与现有技术相比，本发明的有益效果是：本预测方法引入多信息融合，从序列信息、物理化学信息、进化信息多方面对蛋白质序列进行特征编码，充分反映乙酰化位点与非乙酰化位点蛋白质序列之间的差异性。Group Lasso对原始特诊空间进行筛选和优化，保留识别乙酰化位点模型的重要特征，得到最佳特征子集，提高模型计算速度和质量。深度神经网络通过层级学习最优特征子集生成具有判别力的特征，有效区分蛋白质序列中的乙酰化位点和非乙酰化位点，同时节约计算时间并且避免其它成本和相关限制。

本发明通过在已知数据集上测试，并与其他方法比较，表明该发明在乙酰化位点识别方面具有较好的预测性能。本发明不仅能够帮助深入了解乙酰化分子机制，而且能为生物学家进行乙酰化位点识别相关实验验证进一步提供有价值的参考信息。

附图说明

图1为本发明基于信息融合和深度学习的原核生物乙酰化位点预测方法的流程图。

图2为本发明深度神经网络结构图和网络训练过程图，其中：

图A为DNN的基本网络结构，图B为每一层隐含层计算过程，图C为通过非线性激活函数计算输出值的过程。

图3为本发明中9个数据集特征的t-SNE可视化图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

一种基于信息融合和深度学习的原核生物乙酰化位点预测方法，如图1所示，包括以下步骤：

1)收集乙酰化修饰位点信息：从相关文献获得9个原核生物乙酰化位点数据集，生成正负样本对应的类别标签。

1-1)构建的原核生物9个类别的赖氨酸乙酰化位点数据集，分别为E.coli，S.typhimurium，Bacillus subtilis(B.subtilis)，Vibrio parahemolvticus(V.parahemolvticus)，Mycobacterium tuberculosis(M.tuberculosis)，Corynebacterium glutamicum(C.glutamicum)，Erwinia amylovora(E.amylovora)，Geobacillus kaustophilus(G.kaustophilus)，Archaea。其中数据集Archaea来自于古细菌，包括嗜热子虫(T.themophilus)和其它古细菌物种，剩余8个数据集来源于原核生物细菌。9个数据集来自于不同的资源，包括UniProtKB/Swiss-Prot(UniProt，2016)，NCBI(NCBI，2016)，CPLM数据库以及相关文献。

1-2)剔除9个数据集中具有修饰位点的错误序列，最终得到5316条实验验证的乙酰化蛋白，含有8787个赖氨酸乙酰化位点和87585个赖氨酸非乙酰化位点。将含有实验标记乙酰化位点的序列称为正样本，而不含有实验标记乙酰化位点的序列称为负样本，9个乙酰化数据集中的所有正负样本序列均被截短为对称窗口。Archaea数据集的窗口大小为13(-6～6)，V.parahemolvticus数据集的窗口大小为17(-8～8)，剩余7个数据集的样本窗口大小均为21(-10～10)，当正负样本长度不足时，定义虚拟氨基酸O以达到所需窗口大小。

1-3)使用具有30％同源性阈值的CD-HIT对蛋白质序列聚类，得到7288个赖氨酸乙酰化片段以及41638个赖氨酸非乙酰化片段作为数据集，随机选择10％非同源性赖氨酸乙酰化片段与非乙酰化片段作为9个物种的独立测试数据集。因为负样本数量均远远多余正样本数量，因此在负数据集中随机选择负样本，使负样本的数量与正样本数量保持相同，达到正负样本的平衡。

为了方便后续工作，9个数据集Archaea，B.subtilis，C.glutamicum，E.amylovora，E.coli，G.kaustophilus，M.tuberculosis，S.typhimurium，V.parahemolvticus分别用A.、B.、C.、E.、E.coli、G.、M.、S.和V.表示。

2)特征编码：通过8种特征编码方法将蛋白质序列的字符信号转化为数值信号，从氨基酸残基的序列信息、物理化学信息、进化信息对氨基酸残基进行特征提取。通过对不同类型的特征向量进行多信息融合，得到初始特征空间。

多种特征编码方法包括二元编码特征提取方法、伪氨基酸组成特征提取方法、AAindex特征提取方法、NMBroto特征提取方法、分组重量编码特征提取方法、MMI特征提取方法、BLOSUM62特征提取方法、k近邻得分特征提取方法；

2-1)二元编码特征提取方法：基于序列信息，将蛋白质样本序列中的每个氨基酸残基转化成由0和1构成的21维数值向量。

20种常见氨基酸分别按照‘ACDEFGHIKLMNPQRSTVWY’的顺序进行特征编码，例如：天冬氨酸D用特征向量(001000000000000000000)表示，色氨酸W用特征向量(000000000000000000100)表示，而对于虚拟氨基酸O用向量(000000000000000000001)。因此对于序列窗口长度为L的样本，其二元编码后的维度为21×L。

2-2)伪氨基酸组成特征提取方法(PseAAC)：依据氨基酸残基的出现频率，描述氨基酸序列中位置和顺序的关系，将其转化为21维特征向量。

序列p的20+λ维伪氨基酸组成定义如下：

p＝[p₁,p₂,…,p₂₀,p₂₀₊₁,…,p_20+λ]^T (1)

特征向量p中的每一个分量定义如下：

其中w为权重因子，设置为0.05，τ_k为k个紧邻相关的因子，f_u表示为第u种氨基酸在该蛋白质序列中出现的频率(u＝1,2,…,20)。根据公式(2)，特征向量p前20维表示氨基酸组成，后λ维反映氨基酸序列信息中不同级别的序列相关因子。序列相关因子通过氨基酸的物理化学性质得到，本发明中设定λ最优值为1，每条蛋白质序列生成21维特征向量。

2-3)所述AAindex特征提取方法通过利用氨基酸指标数据库中的物理化学信息生成12维数值向量。

在氨基酸指标(AAindex)数据库参考论文《Hasan,M.M.et al.(2017)Computational identification of protein S-sulfenylation sites byincorporating the multiple sequence features information.Mol.Biosyst.,13,2545-2550》选择了12种氨基酸指数。通过利用这12种物理化学性质，将乙酰化片段以及非乙酰化片段转化成数值信号，对于窗口大小为L的样本，产生12×L维特征向量。

2-4)NMBroto特征提取方法：从AAindex数据库中参考论文《Chen,Z.et al.(2018)iFeature:a python package and web server for features extraction andselection from protein and peptide sequences.Bioinformatics,34,2499-2502》选取8种不同的氨基酸指数，利用Normalized Moreau-Broto Autocorrelation(NMBroto)将蛋白质序列不同位置的氨基酸残基的物理化学性质生成特征向量。具体地：

对于给定长度为L的蛋白质残基序列P＝R₁R₂R₃…R_L，将20种常见氨基酸对应的8种物理化学性质的数值，用式(3)进行标准化：

其中〈-〉表示第ξ种物理化学性质的平均值，SD表示第ξ种物理化学性质的标准差。

Normalized Moreau-Broto Autocorrelation定义如下：

其中

P_i和P_i+d分别表示第i和i+d位置氨基酸标准化的物理化学数值，lag表示自相关的滞后间隔，针对本发明中所指定的9种原核生物对应的数据集，lag最优值设置为4，利用自相关描述符可以提取蛋白质序列的8×lag维特征向量，每一条蛋白质序列生成32维的特征向量。

2-5)分组重量编码特征提取方法：考虑到疏水性和带电特性，将20种氨基酸残基分成4类，两两组合后分成三组，将每条序列样本转化成3条二进制序列，计算每条二进制序列中不同子序列对应数字1出现的概率。具体地：

将上述四种划分方式两两合并，得到三种组合，每种组合都将20种氨基酸残基划分成不相交的部分，C1+C2 vs C3+C4，C1+C3 vs C2+C4，C1+C4 vs C2+C3。对于一条蛋白质序列P＝p₁p₂…p_L，将按照如下方式转化成3条二进制序列。

每个二进制序列分成J条长度依次递增的子序列，例如：对于H₁而言，第j个子序列表达为X₁(j)＝Sum(j)/D(j)。其中Sum(j)表示第j条子序列中数字1的个数，D(j)＝int(j*L/J)代表了第j条子序列的长度，L表示蛋白质序列的长度。综上，对于长度为L的蛋白质序列P，可以得到3*J维向量X＝(X₁,X₂,X₃)。针对本发明中所指定的9种原核生物对应的数据集，子序列个数设置为7，每条蛋白质序列得到3x7＝21维的特征向量。

2-6)MMI特征提取方法：基于氨基酸残基侧链的极性和体积，20种氨基酸分为7个组，把任何3个连续氨基酸作为一个单元，每个单元只考虑氨基酸基本成分，而不考虑氨基酸顺序，计算氨基酸序列上出现的每个类别的频率。具体地：

3-gram的类型可以用'C₀,C₀,C₀'，'C₀,C₀,C₁'，…,'C₆,C₆,C₆'表示，2-gram的类型用'C₀,C₀'，'C₀,C₁'，…,'C₆,C₆'进行表示，通过滑动窗口计算3-gram和2-gram的数量。

熵和互信息(MI)指两个氨基酸之间的相互依赖性。3-gram的3元组MI定义如下：

I(a,b,c)＝I(a,b)-I(a,b|c) (6)

其中a，b和c是一个单元中三个相连氨基酸，I(a,b)的互信息和I(a,b|c)的条件互信息定义为：

I(a,b|c)＝H(a|c)-H(a|b,c) (8)

其中f(a,b)是在一个序列上氨基酸a和b以2-gram产生的频率，f(a)是在序列上一个氨基酸a产生的频率。H(a|c)和H(a|b,c)计算如下：

其中f(a,b,c)表示在一个序列上氨基酸a，b和c以3-gram产生的频率。

为避免3元组和2元组互信息值无穷大，将频率定义为：

其中L表示序列长度，n_a表示出现在该氨基酸序列上的类别a的出现次数。f(a,b)和f(a,b,c)也通过类似的方法计算。

3元组(84维)和2元组(28维)的I(a,b,c)和I(a,b)的互信息分别从氨基酸序列中提取。通过计算氨基酸序列上出现的每个类别的频率，最终生成119维向量。

2-7)BLOSUM62特征提取方法：通过BLOSUM62矩阵反映氨基酸残基的进化信息。训练集中的每个残基用包含m×L个元素的矩阵表示，其中L表示长度，m＝20，代表20种氨基酸。标准化BLOSUM62矩阵的每一行均表示20种常见氨基酸中的一种。

2-8)k近邻得分特征提取方法(KNN算法)：通过局部序列的聚类信息来预测蛋白质翻译后修饰位点，从正、负数据集的相似序列中提取特征来捕获乙酰化修饰位点周围的局部序列相似性。具体地：

对于两个查询序列片段s₁＝(s₁(1),s₁(2),…s₁(L))和s₂＝(s₂(1),s₂(2),…s₂(L))，序列s₁和s₂之间的距离Dist(s₁,s₂)定义如下：

L表示蛋白质序列窗口大小，Sim是归一化的氨基酸替代矩阵，M是替换矩阵，来源于BLOSUM62矩阵，_a和b表示两个氨基酸，max/min{M}分别代表了替换矩阵M中的最大值/最小值。

对于查询序列p＝(p₁,p₂,…p_L)，按照以下三个步骤计算相应的KNN得分。首先，计算查询序列p与所有比较集(包含相同数量的正数据集和负数据集)之间的距离。其次，按照距离进行排序并选择k个最近邻居。最后，k个最近邻居中的正邻居(含有乙酰化位点的样本)的百分比记作KNN得分。

针对不同的k值重复以上步骤以获得乙酰化预测因子的多个特征。在本发明中，考虑到数据集E.包含190条样本，对于9个不同的乙酰化位点数据集，k依次设置为2，4，8，16，32，64，128，因此对于每条蛋白质序列片段，KNN编码对应的维数为7维。

2-9)对每个数据集的8种特征方式进行融合，得到初始特征空间All。

3)特征选择：针对初始特征空间，采用Group Lasso去除冗余和不相关信息，保留与分类相关的重要特征，得到最优特征子集。Group Lasso在提前将系数向量分组的条件下，通过对一组系数向量添加约束，将每一组系数视为单个变量进行选择，即如果该组系数不为零则该组系数对应的特征被全部选择；反之，如果该组系数全部为零，则该组系数对应的特征全部被舍弃；设定Group Lasso的最佳参数为0.03，得到最优特征子集。当参数过小时，特征子集中含有冗余信息，对模型预测效果影响并不显著，当参数过大时，可能剔除了重要特征，也没有显著提高模型预测效果。

Y为N个观测值向量，X为N×P特征矩阵，β为P维系数向量，Group Lasso定义如下：

P个特征被分成了L个组，l＝1,2,...,L，用矩阵X的子矩阵X_l表示与第l组匹配的征矩阵，用β_l表示与其对应的系数向量，利用块坐标下降算法求解Group Lasso的参数，其中α设定值为0.03。

4)构建预测模型：把最优特征子集以及所对应的类别标签输入到深度神经网络进行交叉验证训练，优化模型的网络结构，结合评价指标评估模型的预测性能和鲁棒性。深度神经网络(DNN)是具有4层隐含层的网络结构。

DNN中每一层都是完全连接的，即隐含层或者输出层中的神经元连接到前一层中的所有神经元，如图2A所示。一旦将输入数据提供给DNN，就沿着网络层顺序计算输出值，在输出层计算最终输出之前，通过4层隐含层以非线性方式进行转换，每个神经元计算其输入的加权和，并应用非线性激活函数来计算其输出，如图2B所示。在网络训练期间，选择ReLU(将负信号阈值设为0，正信号保持不变)作为激活函数，应用于加权和以计算层的输出值，如图2C所示。Adam算法用于优化分类交叉熵损失函数，不同层之间的神经元置零率设置为0.5，softmax函数对于给定输入预测输出层为某一类别的可能性，整个模型由Keras和Tensorflow实施，模型参数设置如表1所示。

表1 神经网络的参数范围和设置

5)将独立测试数据集输入至步骤4)中的预测模型中，预测该蛋白质是否包含乙酰化位点并输出。

6)模型评估

选择十折交叉验证方法评估模型性能，将数据集随机分为十份大小相似的互斥子集，每次将其中的一份作为测试样本，用其它九份作为模型的训练样本，交叉验证过程重复十次，将十次交叉验证的平均值作为分类器性能验证结果。选择敏感性Sn、特异性Sp、准确率ACC和马氏相关系数MCC作为度量指标。

敏感性Sn和特异性Sp分别表示模型正确预测正样本和负样本的能力，准确率ACC是分类正确的样本数占样本总数的比例，马氏相关系数MCC能平衡的度量模型的预测性能。为了易于大多数生物学家所理解，上述四个度量指标定义如下：

其中N⁺表示正样本的数量，N^-表示负样本的数量，

表示假阴性样本的数量，

表示假阳性样本的数量。此外，ROC曲线作为衡量模型鲁棒性的重要指标，若一个分类器的曲线被另一个分类器的曲线完全“包住”，则后者的性能优于前者。当曲线发生交叉时，ROC曲线下面积的大小，AUC值能够比较合理的预测模型性。

6-1)为验证Group Lasso的降维方法能有效提高预测准确性，选择singularvalue decomposition(SVD)，mutual information(MI)，information gain(IG)，Extra-Trees(ET)，Elastic net，logistic regression(LR)这6种常规降维方法与之进行对比，将不同降维方法筛选的特征子集输入到深度神经网络中，得到9个数据集关于不同降维方法的维数和乙酰化位点总体预测准确率如表2所示。

表2 不同降维方法对应维数和ACC值对比

由表2可知，9个数据集关于不同特征选择算法对应的ACC值有所不同，结果表明最佳特征子集的确定与降维方法密切相关，相比于其它6种降维方法，Group Lasso具有最好的降维效果，在最少计算量的前提下获得最好的识别性能。ACC值分别达到84.47％、73.89％、75.38％、96.89％、63.08％、89.15％、76.62％、90.51％、75.46％。SVD降维方法虽然显著降低了特征维数，但9个数据集的预测准确率均低于70％。MI和IG特征选择方法虽然特征子集维数与Group Lasso保持一致，但是对应的预测准确率均低于Group Lasso对应的值。ET、Elastic net、LR特征选择方法对应的准确率虽然高于SVD、MI、IG对应的值，但是仍然低于Group Lasso对应的值。Group Lasso能够显著降低特征维度，挖掘高维数据中的有效和重要特征，提高预测结果的准确性。

6-2)为验证本发明中所述的DNN预测准确性，选取AdaBoost、NB、XGBoost、KNN、RF、SVM、CNN、LSTM等8种对比分类器对上文中9个数据集的乙酰化位点进行识别。

AdaBoost算法和NB算法均采用默认参数。XGBoost的学习率设置为0.01，迭代次数为500次。KNN算法中使用欧式距离，近邻点的个数为10。RF中选择基尼系数划分结点，决策树个数设置为500。SVM算法中选择多项式核函数。CNN使用两个卷积和池化层，然后是一个完全连接的输出层。LSTM包括两个长短期记忆(LSTM)层和一个全连接层，每个层都使用ReLU作为激活功能。DNN是具有4层隐含层的网络结构，详细参数设置见表1。将经过GroupLasso选择的最佳特征子集分别输入到9个分类器中，得到9个数据集关于不同分类算法的ACC值如表3所示。

表3 不同分类方法的ACC值对比

由表3可知，针对不同的数据集，各种分类器的预测准确率有所差异，对于数据集A.、C.、E.、G.、M.、S.、V.，深度神经网络预测准确率达到最高，分别为84.47％、75.38％、96.89％、89.15％、76.62％、90.51％、75.46％。AdaBoost识别数据集A.和S.中乙酰化位点时达到最低的预测准确率，比DNN对应的值分别低23.26％和29.74％。XGBoost识别数据集E.和G.中乙酰化位点时达到最低的预测准确率，比DNN对应的值分别低27.61％和28.57％。KNN识别数据集B.和M.中乙酰化位点时达到最低的预测准确率，DNN对应的值分别比KNN高5.38％和9.87％。对于数据集V.，深度神经网络的预测准确率比随机森林对应的值高0.8％，而对于数据集E.coli，支持向量机对应的准确率比DNN高0.29％。以上结果表明，对于9个数据集，DNN能够提高模型的鲁棒性，具有较高的预测准确率。

本发明中的深度网络神经模型(下文简称为DNNAce)通过隐含层从原始输入数据中获取更多的判别特征，展示了深层结构的有效性和合理性，从而提高模型分类的性能。为了直观的观察乙酰化位点和非乙酰化位点之间的差异，使用t-SNE可视化从数据中学习的特征，对深度神经网络的输入层和隐含层最后一层中学习的特征进行可视化，将9个数据集测试样本之间的区分绘制在2D坐标中，如图3所示。

由图3我们可以直观的看到输入层的原始数据非常混乱，正负数据集是混合在一起的。DNNAce模型通过隐含层从蛋白质序列特征中提取抽象特征，学习蛋白质原始输入特征的高级特征以及序列特异性，隐含层的最后一层的高水平特征变得越来越清晰，正负样本两个类能够清楚地分开。特征可视化表明本发明中的深度网络神经模型可以提取用于预测的有用特征，分离多层网络结构处理后的正样本和负样本，展示深层结构的合理性和有效性。

6-3)为了进一步分析本发明中的深度网络神经模型的鲁棒性，得到该模型关于9个原核生物训练集预测结果如表4所示。

表4 DNNAce关于9个原核生物训练集的预测结果

通过表4可以看出，DNNAce关于9个原核生物训练集取得较好的预测结果，除了数据集E.coli的AUC值和AUPR值较低外，其它8个数据集的AUC和AUPR预测值均达到了0.8以上。9个数据集的AUPR值分别达到了0.8971、0.8181、0.8269、0.9949、0.6617、0.9611、0.8355、0.9551、0.8283。

6-4)为了对比预测模型，评估模型的鲁棒性以及预测性能，利用独立测试集进行验证。我们严格按照训练集的流程对独立测试集进行操作，包括特征提取和特征选择中的最佳参数与训练集保持一致。得到预测模型DNNAce与预测模ProAcePred关于9个原核生物独立测试集的预测结果对比如表5所示。

表5 DNNAce与ProAcePred关于独立测试集的预测结果对比

通过表5可知，DNNAce关于9个原核生物的乙酰化位点数据集均取得了较好的预测结果，对应的预测准确率均达到了85％以上，除了数据集E.两种模型对应的ACC值相同，数据集E.coli所对应的ACC值略低于模型ProAcePred对应的值外，另外7个数据集对应的预测准确率均高于模型ProAcePred对应的值，分别高9％、3.06％、5.68％、9.4％、8.44％、13.4％、7.12％。9个数据集对应的AUC值取得了令人满意的结果，均达到了0.9以上，分别比模型ProAcePred对应的值高12％、5.8％、11.32％、0.4％、5.03％、14.6％、13.7％、22.2％、13.57％，同时9个数据集MCC值也均达到了0.7以上。通过与模型ProAcePred在更严格的训练集合上进行对比，表明我们提出的模型DNNAce对于不同的数据集都具有较好的鲁棒性和稳定性，为针对上文中9类原核生物蛋白质乙酰化位点预测的最优模型，同时为蛋白质乙酰化研究提供了准确、简便和快速的研究工具，并为进一步的实验研究提供有价值的参考信息。

尽管这里参照本发明的多个解释性实施例对本发明进行了描述，但是，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说，在本申请公开、附图和权利要求的范围内，可以对模型进行多种变形和改进。除了对模型的变形和改进外，对于本领域技术人员来说，其他的用途也将是明显的。

Claims

1.一种基于信息融合和深度学习的原核生物乙酰化位点预测方法，其特征在于，包括以下步骤：

2)特征编码：通过8种特征编码方法将蛋白质序列的字符信号转化为数值信号，从氨基酸残基的序列信息、物理化学信息、进化信息对氨基酸残基进行特征提取；通过对不同类型的特征向量进行多信息融合，得到初始特征空间；

5)乙酰化位点预测：将独立测试集中待分析的原核生物蛋白质序列，输入至步骤4)中的预测模型中，预测该蛋白质是否包含乙酰化位点并输出；

所述步骤2)中多种特征编码方法包括二元编码特征提取方法、伪氨基酸组成特征提取方法、AAindex特征提取方法、NMBroto特征提取方法、分组重量编码特征提取方法、MMI特征提取方法、BLOSUM62特征提取方法、k近邻得分特征提取方法；

所述MMI特征提取方法基于氨基酸残基侧链的极性和体积，20种氨基酸分为7个组，把任何3个连续氨基酸作为一个单元，每个单元只考虑氨基酸基本成分，而不考虑氨基酸顺序，计算氨基酸序列上出现的每个类别的频率，生成119维向量；

所述BLOSUM62特征提取方法通过BLOSUM62矩阵反映氨基酸残基的进化信息；训练集中的每个残基用包含m×L个元素的矩阵表示，其中L表示长度，m＝20，代表20种氨基酸，标准化BLOSUM62矩阵的每一行均表示20种常见氨基酸中的一种；

所述k近邻得分特征提取方法通过局部序列的聚类信息来预测蛋白质翻译后修饰位点，从正、负数据集的相似序列中提取特征来捕获乙酰化修饰位点周围的局部序列相似性，每一条蛋白质序列生成7维的特征向量；

所述步骤3)中Group Lasso在提前将系数向量分组的条件下，通过对一组系数向量添加约束，将每一组系数视为单个变量进行选择，即如果该组系数不为零则该组系数对应的特征被全部选择；反之，如果该组系数全部为零，则该组系数对应的特征全部被舍弃；设定Group Lasso的最佳参数为0.03，得到最优特征子集；

所述步骤4)中深度神经网络中每一层都是完全连接的，即隐含层或者输出层中的神经元连接到前一层中的所有神经元，一旦将输入数据提供给本网络，就沿着网络层顺序计算输出值，在输出层计算最终输出之前，通过4层隐含层以非线性方式进行转换，每个神经元计算其输入的加权和，并应用非线性激活函数来计算其输出；在网络训练期间，选择ReLU作为激活函数，应用于加权和以计算层的输出值；Adam算法用于优化分类交叉熵损失函数，不同层之间的神经元置零率设置为0.5，softmax函数对于给定输入预测输出层为某一类别的可能性，整个模型由Keras和Tensorflow实施。

2.根据权利要求1所述的基于信息融合和深度学习的原核生物乙酰化位点预测方法，其特征在于：所述步骤1)包括如下子步骤：

1-1)构建的原核生物9个类别的赖氨酸乙酰化位点数据集，分别为E.coli，S.typhimurium，B.subtilis，V.parahemolvticus，M.tuberculosis，C.glutamicum，E.amylovora，G.kaustophilus，Archaea；其中数据集Archaea来自于古细菌，包括T.themophilus和其它古细菌物种，剩余8个数据集来源于原核生物细菌；

1-2)剔除9个数据集中具有修饰位点的错误序列，将含有实验标记乙酰化位点的序列称为正样本，而不含有实验标记乙酰化位点的序列称为负样本，9个乙酰化数据集中的所有正负样本序列均被截短为对称窗口；Archaea数据集的窗口大小为-6～6，V.parahemolvticus数据集的窗口大小为-8～8，剩余7个数据集的样本窗口大小均为-10～10，当正负样本长度不足时，定义虚拟氨基酸O以达到所需窗口大小；

1-3)使用具有30％同源性阈值的CD-HIT对蛋白质序列聚类，得到数据集，随机选择10％的非同源性赖氨酸乙酰化片段与非乙酰化片段作为9个物种的独立测试数据集；在负数据集中随机选择负样本，使负样本的数量与正样本数量保持相同，达到正负样本的平衡。

3.根据权利要求1所述的基于信息融合和深度学习的原核生物乙酰化位点预测方法，其特征在于：所述步骤5)中独立测试数据集由随机选择步骤1)中10％的非同源性赖氨酸乙酰化片段与非乙酰化片段构成。

4.根据权利要求1所述的基于信息融合和深度学习的原核生物乙酰化位点预测方法，其特征在于：所述伪氨基酸组成特征提取方法中序列p的20+λ维伪氨基酸组成定义如下：

p＝[p₁,p₂,…,p₂₀,p₂₀₊₁,…,p_20+λ]^T

特征向量p中的每一个分量定义如下：

其中w为权重因子，设置为0.05，τ_k为k个紧邻相关的因子，f_u表示为第u种氨基酸在该蛋白质序列中出现的频率u＝1,2,…,20；根据公式，特征向量p前20维表示氨基酸组成，后λ维反映氨基酸序列信息中不同级别的序列相关因子；序列相关因子通过氨基酸的物理化学性质得到，设定λ最优值为1，每条蛋白质序列生成21维特征向量。

5.根据权利要求1所述的基于信息融合和深度学习的原核生物乙酰化位点预测方法，其特征在于：所述NMBroto特征提取方法的具体步骤如下：

Normalized Moreau-Broto Autocorrelation定义如下：

其中

6.根据权利要求1所述的基于信息融合和深度学习的原核生物乙酰化位点预测方法，其特征在于：所述分组重量编码特征提取方法20种氨基酸残基分成4类，具体地：

将上述四种划分方式两两合并，得到三种组合，每种组合都将20种氨基酸残基划分成不相交的部分，C1+C2 vs C3+C4，C1+C3 vs C2+C4，C1+C4 vs C2+C3；对于一条蛋白质序列P＝p₁p₂…p_L，将按照如下方式转化成3条二进制序列：