CN113035270B

CN113035270B - 一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法

Info

Publication number: CN113035270B
Application number: CN201911346914.2A
Authority: CN
Inventors: 黄国华; 郑杨
Original assignee: Shaoyang University
Current assignee: Shaoyang University
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2022-07-19
Anticipated expiration: 2039-12-24
Also published as: CN113035270A

Abstract

本发明公开了一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法，包括：将组蛋白序列分割为以赖氨酸为中心，上下游各N个氨基酸残基的片段，对片段进行基于信息熵方法、k间隔氨基酸对组成的特征表示和归一化操作，使用已知丁酰化修饰数据训练随机森林分类器；蛋白序列经过分割和特征表示后输入到训练后的随机森林分类器，分类器输出丁酰化修饰的标注信息。通过上述方式，本发明能够快速、自动、有效地预测组蛋白丁酰化修饰。

Description

一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法

技术领域

本发明涉及计算生物分子学领域，特别是涉及利用人工智能理论和方法计算预测组蛋赖氨酸丁酰化修饰。

背景技术

丁酰化是一种新发现的蛋白质翻译后修饰，指得是丁酰功能基团共价修饰赖氨酸残基的生化反应过程。丁酰化修饰在细胞活动中的作用近年也逐渐被揭示出来。例如，Goudarzi等人证实了组蛋白丁酰化直接激发基因表达和抑制特异性蛋白绑定；Xu等人发现了丁酰化和乙酰化对内生孢子的丙酮丁醇梭状芽孢杆菌的表型和代谢变化有影响，而Lu等人揭示了丁酰化修饰倾向于通过淹没和饥饿的水稻中的外部压力保持基因激活。

确定组蛋白丁酰化修饰是探索其调控功能十分关键的一步。以质谱技术为代表的生物技术组蛋白丁酰化修饰中得到了应用。例如，Zhang使用质谱技术在组蛋白酵母中发现了4个赖氨酸丁酰化位点，Xu等人在人细胞中发现了11个组蛋白丁酰化修饰位点，而Lu等人在水稻中只发现了4个丁酰化修饰位点。现有的生物技术在识别丁酰化修饰方面具有周期长、资金投入大且低通量。本发明提出了一种基于信息熵的快速高效确定组蛋白丁酰化修饰位点的计算方法。

发明内容

本发明主要解决的技术问题是，针对现有方法的不足，提供了一种基于信息熵的组蛋白丁酰化修饰预测方法，通过学习现有组蛋白丁酰化修饰数据的潜在模式，该发明能够有效地确定丁酰化修饰位点。

为解决上述技术问题，本发明提出了一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法，步骤如下。

步骤1：沿着组蛋白序列滑动，将序列分割成以赖氨酸为中心、上下游各N个氨基酸残基的片段；在序列前端或末端，若片段的长度不足（2N+1）氨基酸残基，则以字符X补齐；标注为丁酰化修饰的片段为正样本，随机选择相当数量的非标注为丁酰化修饰的片段为负样本，正样本和负样本共同构成训练集。

步骤2：使用信息熵和k间隔氨基酸对组成方法对正负样本进行特征表示及归一化操作。

步骤3：使用训练数据对随机森林分类器进行训练。

步骤4：将蛋白序列输入到训练后的随机森林分类器，分类器输出丁酰化修饰位点的标注信息。

进一步地，所述步骤2包括正负样本的信息熵、k间隔氨基酸对组成表示以及归一化操作。正负样本的信息熵特征表示，包括以下步骤。

（1）计算正样本的氨基酸信息熵（PIEA），即

，其中

表示正样本中氨基酸

在位置i上出现的概率，可通过训练集中所有正样本的氨基酸在位置i上的频率来估计。

（2）计算正样本的位置信息熵（PIEP），即

其中

表示氨基酸字符集合。

（3）计算负样本的氨基酸信息熵（NIEA），即

，其中

表示负样本中氨基酸

在位置i上出现的概率，可通过训练集中所有负样本的氨基酸在位置i上的频率来估计。

（4）计算负样本的位置信息熵（NIEP），即

。

（5）一个样本s追加到丁酰化修饰系统后，其氨基酸和位置的信息熵计算如下：

，其信息熵的改变分别为PVIEA＝PIEA(α)-PIEAs(α)和PVIEP = PIEP(i)-PIEPs(i)。

（6）一个样本s追加到非丁酰化修饰系统后，其氨基酸和位置的信息熵计算如下：

，其信息熵的改变分别为NVIEA＝NIEA(α)-NIEAs(α)和NVIEP = NIEP(i)-NIEPs(i)。

（7）样本s的信息熵特征表示为PVIEA-NVIEA和 PVIEP-NVIEP。

正负样本的k间隔氨基酸对组成特征表示就是计算不超过1个残基的氨基酸对组成频率，即模式为AA, AC, ...., XX, ABA, ABC, ..., 和 XBX（B为任何一个残基）氨基酸对的频率。

对信息熵和k间隔氨基酸对组成特征进行归一化操作，即

其中

表示未归一化的信息熵或k间隔氨基酸对组成特征。

进一步地，所述步骤4包含以下步骤。

将组蛋白序列划分为以赖氨酸为中心、上下游各N个氨基酸残基的片段；片段的长度不足（2N+1）个氨基酸残基，则以字符X补齐。

对片段按照步骤2进行信息熵、k空间氨基酸对组成特征表示和归一化操作。

将片段的特征表示输入到步骤4中的随机森林分类器中。随机森林分类器对输出为1的结果标注为丁酰化修饰。

有益效果。

本发明将组蛋白序列转化为信息熵和k间隔氨基酸对组成表示，利用已知的丁酰化修饰数据训练一个随机森林分类器；随机森林分类器对未知组蛋白序列进行预测。该发明能够有效地预测组蛋白丁酰化修饰，具有操作简单、速度快、高通量等特点，在实验数据集的测试结果表明本发明具有较好地预测组蛋白丁酰化修饰。

附图说明

图1是本发明方法的示例性流程图；

图2是不同N的3-折交叉验证的ROC曲线；

图3是信息熵（IEE）和k间隔氨基酸对组成特征（CKSAAP）的3-折交叉验证ROC曲线；

图4是不同方法的独立测试的ROC曲线。

具体实施方式

实施例1。

如图1所示，实施步骤如下。

步骤1：从Uniprot数据库下载了6条丁酰化修饰的组蛋白序列。

步骤2：沿着组蛋白序列滑动，将序列分割成以赖氨酸为中心、上下游各N个氨基酸残基的片段；在序列前端或末端，若片段的长度不足（2N+1）氨基酸残基，则以字符X补齐；标注为丁酰化修饰的片段为正样本，随机选择相当数量的非标注为丁酰化修饰的片段为负样本，正样本和负样本共同构成训练集。

步骤3：使用信息熵和k间隔氨基酸对组成方法对正负样本进行特征表示及归一化操作，具体步骤如下。

（1）计算正样本的氨基酸信息熵（PIEA），即

，其中

表示正样本氨基酸

（2）计算正样本的位置信息熵（PIEP），即

，

其中

表示氨基酸字符集合。

（3）计算负样本的氨基酸信息熵（NIEA），即

，其中

表示负样本中氨基酸

（4）计算负样本的位置信息熵（NIEP），即

。

，其信息熵的变化分别为PVIEA＝PIEA(α)-PIEAs(α)和PVIEP = PIEP(i)-PIEPs(i)。

，其信息熵的变化分别为NVIEA＝NIEA(α)-NIEAs(α)和NVIEP = NIEP(i)-NIEPs(i)。

（7）样本s的信息熵特征表示为PVIEA-NVIEA和 PVIEP-NVIEP。

正负样本的k间隔氨基酸对组成特征表示就是计算不超过1个残基的氨基酸对频率，即模式为AA, AC, ...., XX, ABA, ABC, ..., 和 XBX（B为任何一个残基）氨基酸对的频率。

对信息熵和k间隔氨基酸对组成特征进行归一化操作，即

步骤4：3-折交叉验证，将数据集近似平均分成3份，2份用于训练随机森林分类器，另一份用于测试，轮流执行3次。ROC曲线用于描述验证结果，ROC曲线下的面积AUC用于评估实施结果。AUC在0到1之间，值越大，表示结果越好。图2测试了不同N设置的3-折交叉验证预测情况，图3显示了信息熵（IEE）、k间隔氨基酸对组成特征（CKSAAP）的3-折交叉验证情况。

实施例2。

以实施例1中的数据为训练集，并进行信息熵、k间隔氨基酸对组成特征表示和归一化操作。

以实施例1中的数据训练随机森林分类器。

从数据库（Protein Lysine Modifications Database ,PLMD): http://plmd.biocuckoo.org/下载了7条丁酰化修饰的组蛋白序列，分割为片段，并进行信息熵、k间隔氨基酸对组成特征表示和归一化操作。这个数据集为测试集。

测试集输入到随机森林分类器中，进行预测。图4显示了3中不同方法的测试结果。信息熵组合k间隔氨基酸对组成取得了最好的效果（0.80），大于单独的信息熵（0.69）和k间隔氨基酸对组成（0.57）。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法，其特征在于，包括以下步骤：

步骤1：将丁酰化修饰的组蛋白序列进行分割，构建正、负样本集；

步骤2：使用信息熵和k间隔氨基酸对组成方法对正负样本进行特征表示和归一化操作，包括：

a. 正负样本的信息熵特征表示，包括以下步骤：

（1）计算正样本的氨基酸信息熵PIEA，即

其中

表示正样本氨基酸

在位置i上出现的概率，可通过训练集中所有正样本的氨基酸

在位置i上的频率来估计；

（2）计算正样本的位置信息熵PIEP，即

其中

表示氨基酸字符集合；

（3）计算负样本的氨基酸信息熵NIEA，即

其中

表示负样本中氨基酸

在位置i上出现的概率，可通过训练集中所有负样本的氨基酸

在位置i上的频率来估计；

（4）计算负样本的位置信息熵NIEP，即

其信息熵的改变分别为PVIEA = PIEA(α)-PIEAs(α)和PVIEP = PIEP(i)-PIEPs(i)；

其信息熵的改变分别为NVIEA = NIEA(α)-NIEAs(α)和NVIEP = NIEP(i)-NIEPs(i)；

（7）样本s的信息熵特征表示为PVIEA-NVIEA和 PVIEP-NVIEP；

b. 正负样本的k间隔氨基酸对组成特征表示，计算不超过1个残基的氨基酸对组成频率，即模式为AA, AC, ...., XX, ABA, ABC, ...,和XBX氨基酸对的频率，B为任何一个残基；

c. 对信息熵和k间隔氨基酸对组成特征进行归一化操作，即

其中

表示未归一化的信息熵或k间隔氨基酸对组成特征；

步骤3：使用训练集对随机森林分类器进行训练；

2.根据权利要求1所述的一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法，其特征在于：在所述步骤1中，沿着组蛋白序列滑动，将序列分割成以赖氨酸为中心、上下游各N个氨基酸残基的片段；在序列前端或末端，若片段的长度不足( 2N+1) 氨基酸残基，则以字符X补齐；标注为丁酰化修饰的片段为正样本，随机选择相当数量的非标注为丁酰化修饰的片段为负样本，正样本和负样本共同构成训练集。

3.根据权利要求1所述的一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法，其特征在于，所述步骤3使用随机森林作为学习算法，该算法训练决策树的样本和特征属性是随机选择的，最终组合决策树的结果为最终分类结果。

4.根据权利要求1所述的一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法，其特征在于，所述步骤4包含以下内容：

（4.1）沿着组蛋白序列滑动，将序列分割成以赖氨酸为中心、上下游各N个氨基酸残基的片段；在序列前端或末端，若片段的长度不足( 2N+1) 氨基酸残基，则以字符X补齐；

（4.2）对片段按照步骤2进行信息熵、k间隔氨基酸对组成特征表示和归一化操作；

（4.3）将片段的特征表示输入到训练后的随机森林分类器中，随机森林分类器对输出为1的结果标注为丁酰化修饰。