CN113035270B - 一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法 - Google Patents
一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法 Download PDFInfo
- Publication number
- CN113035270B CN113035270B CN201911346914.2A CN201911346914A CN113035270B CN 113035270 B CN113035270 B CN 113035270B CN 201911346914 A CN201911346914 A CN 201911346914A CN 113035270 B CN113035270 B CN 113035270B
- Authority
- CN
- China
- Prior art keywords
- amino acid
- entropy
- information
- sequence
- histone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Crystallography & Structural Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法,包括:将组蛋白序列分割为以赖氨酸为中心,上下游各N个氨基酸残基的片段,对片段进行基于信息熵方法、k间隔氨基酸对组成的特征表示和归一化操作,使用已知丁酰化修饰数据训练随机森林分类器;蛋白序列经过分割和特征表示后输入到训练后的随机森林分类器,分类器输出丁酰化修饰的标注信息。通过上述方式,本发明能够快速、自动、有效地预测组蛋白丁酰化修饰。
Description
技术领域
本发明涉及计算生物分子学领域,特别是涉及利用人工智能理论和方法计算预测组蛋赖氨酸丁酰化修饰。
背景技术
丁酰化是一种新发现的蛋白质翻译后修饰,指得是丁酰功能基团共价修饰赖氨酸残基的生化反应过程。丁酰化修饰在细胞活动中的作用近年也逐渐被揭示出来。例如,Goudarzi等人证实了组蛋白丁酰化直接激发基因表达和抑制特异性蛋白绑定;Xu等人发现了丁酰化和乙酰化对内生孢子的丙酮丁醇梭状芽孢杆菌的表型和代谢变化有影响,而Lu等人揭示了丁酰化修饰倾向于通过淹没和饥饿的水稻中的外部压力保持基因激活。
确定组蛋白丁酰化修饰是探索其调控功能十分关键的一步。以质谱技术为代表的生物技术组蛋白丁酰化修饰中得到了应用。例如,Zhang使用质谱技术在组蛋白酵母中发现了4个赖氨酸丁酰化位点,Xu等人在人细胞中发现了11个组蛋白丁酰化修饰位点,而Lu等人在水稻中只发现了4个丁酰化修饰位点。现有的生物技术在识别丁酰化修饰方面具有周期长、资金投入大且低通量。本发明提出了一种基于信息熵的快速高效确定组蛋白丁酰化修饰位点的计算方法。
发明内容
本发明主要解决的技术问题是,针对现有方法的不足,提供了一种基于信息熵的组蛋白丁酰化修饰预测方法,通过学习现有组蛋白丁酰化修饰数据的潜在模式,该发明能够有效地确定丁酰化修饰位点。
为解决上述技术问题,本发明提出了一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法,步骤如下。
步骤1:沿着组蛋白序列滑动,将序列分割成以赖氨酸为中心、上下游各N个氨基酸残基的片段;在序列前端或末端,若片段的长度不足(2N+1)氨基酸残基,则以字符X补齐;标注为丁酰化修饰的片段为正样本,随机选择相当数量的非标注为丁酰化修饰的片段为负样本,正样本和负样本共同构成训练集。
步骤2:使用信息熵和k间隔氨基酸对组成方法对正负样本进行特征表示及归一化操作。
步骤3:使用训练数据对随机森林分类器进行训练。
步骤4:将蛋白序列输入到训练后的随机森林分类器,分类器输出丁酰化修饰位点的标注信息。
进一步地,所述步骤2包括正负样本的信息熵、k间隔氨基酸对组成表示以及归一化操作。正负样本的信息熵特征表示,包括以下步骤。
(7)样本s的信息熵特征表示为PVIEA-NVIEA和 PVIEP-NVIEP。
正负样本的k间隔氨基酸对组成特征表示就是计算不超过1个残基的氨基酸对组成频率,即模式为AA, AC, ...., XX, ABA, ABC, ..., 和 XBX(B为任何一个残基)氨基酸对的频率。
对信息熵和k间隔氨基酸对组成特征进行归一化操作,即
进一步地,所述步骤4包含以下步骤。
将组蛋白序列划分为以赖氨酸为中心、上下游各N个氨基酸残基的片段;片段的长度不足(2N+1)个氨基酸残基,则以字符X补齐。
对片段按照步骤2进行信息熵、k空间氨基酸对组成特征表示和归一化操作。
将片段的特征表示输入到步骤4中的随机森林分类器中。随机森林分类器对输出为1的结果标注为丁酰化修饰。
有益效果。
本发明将组蛋白序列转化为信息熵和k间隔氨基酸对组成表示,利用已知的丁酰化修饰数据训练一个随机森林分类器;随机森林分类器对未知组蛋白序列进行预测。该发明能够有效地预测组蛋白丁酰化修饰,具有操作简单、速度快、高通量等特点,在实验数据集的测试结果表明本发明具有较好地预测组蛋白丁酰化修饰。
附图说明
图1是本发明方法的示例性流程图;
图2是不同N的3-折交叉验证的ROC曲线;
图3是信息熵(IEE)和k间隔氨基酸对组成特征(CKSAAP)的3-折交叉验证ROC曲线;
图4是不同方法的独立测试的ROC曲线。
具体实施方式
实施例1。
如图1所示,实施步骤如下。
步骤1:从Uniprot数据库下载了6条丁酰化修饰的组蛋白序列。
步骤2:沿着组蛋白序列滑动,将序列分割成以赖氨酸为中心、上下游各N个氨基酸残基的片段;在序列前端或末端,若片段的长度不足(2N+1)氨基酸残基,则以字符X补齐;标注为丁酰化修饰的片段为正样本,随机选择相当数量的非标注为丁酰化修饰的片段为负样本,正样本和负样本共同构成训练集。
步骤3:使用信息熵和k间隔氨基酸对组成方法对正负样本进行特征表示及归一化操作,具体步骤如下。
(7)样本s的信息熵特征表示为PVIEA-NVIEA和 PVIEP-NVIEP。
正负样本的k间隔氨基酸对组成特征表示就是计算不超过1个残基的氨基酸对频率,即模式为AA, AC, ...., XX, ABA, ABC, ..., 和 XBX(B为任何一个残基)氨基酸对的频率。
对信息熵和k间隔氨基酸对组成特征进行归一化操作,即
步骤4:3-折交叉验证,将数据集近似平均分成3份,2份用于训练随机森林分类器,另一份用于测试,轮流执行3次。ROC曲线用于描述验证结果,ROC曲线下的面积AUC用于评估实施结果。AUC在0到1之间,值越大,表示结果越好。图2测试了不同N设置的3-折交叉验证预测情况,图3显示了信息熵(IEE)、k间隔氨基酸对组成特征(CKSAAP)的3-折交叉验证情况。
实施例2。
以实施例1中的数据为训练集,并进行信息熵、k间隔氨基酸对组成特征表示和归一化操作。
以实施例1中的数据训练随机森林分类器。
从数据库(Protein Lysine Modifications Database ,PLMD): http://plmd.biocuckoo.org/下载了7条丁酰化修饰的组蛋白序列,分割为片段,并进行信息熵、k间隔氨基酸对组成特征表示和归一化操作。这个数据集为测试集。
测试集输入到随机森林分类器中,进行预测。图4显示了3中不同方法的测试结果。信息熵组合k间隔氨基酸对组成取得了最好的效果(0.80),大于单独的信息熵(0.69)和k间隔氨基酸对组成(0.57)。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (4)
1.一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法,其特征在于,包括以下步骤:
步骤1:将丁酰化修饰的组蛋白序列进行分割,构建正、负样本集;
步骤2:使用信息熵和k间隔氨基酸对组成方法对正负样本进行特征表示和归一化操作,包括:
a. 正负样本的信息熵特征表示,包括以下步骤:
(1)计算正样本的氨基酸信息熵PIEA,即
(2)计算正样本的位置信息熵PIEP,即
(3)计算负样本的氨基酸信息熵NIEA,即
(4)计算负样本的位置信息熵NIEP,即
(5)一个样本s追加到丁酰化修饰系统后,其氨基酸和位置的信息熵计算如下:
其信息熵的改变分别为PVIEA = PIEA(α)-PIEAs(α)和PVIEP = PIEP(i)-PIEPs(i);
(6)一个样本s追加到非丁酰化修饰系统后,其氨基酸和位置的信息熵计算如下:
其信息熵的改变分别为NVIEA = NIEA(α)-NIEAs(α)和NVIEP = NIEP(i)-NIEPs(i);
(7)样本s的信息熵特征表示为PVIEA-NVIEA和 PVIEP-NVIEP;
b. 正负样本的k间隔氨基酸对组成特征表示,计算不超过1个残基的氨基酸对组成频率,即模式为AA, AC, ...., XX, ABA, ABC, ...,和XBX氨基酸对的频率,B为任何一个残基;
c. 对信息熵和k间隔氨基酸对组成特征进行归一化操作,即
步骤3:使用训练集对随机森林分类器进行训练;
步骤4:将蛋白序列输入到训练后的随机森林分类器,分类器输出丁酰化修饰位点的标注信息。
2.根据权利要求1所述的一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法,其特征在于:在所述步骤1中,沿着组蛋白序列滑动,将序列分割成以赖氨酸为中心、上下游各N个氨基酸残基的片段;在序列前端或末端,若片段的长度不足( 2N+1) 氨基酸残基,则以字符X补齐;标注为丁酰化修饰的片段为正样本,随机选择相当数量的非标注为丁酰化修饰的片段为负样本,正样本和负样本共同构成训练集。
3.根据权利要求1所述的一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法,其特征在于,所述步骤3使用随机森林作为学习算法,该算法训练决策树的样本和特征属性是随机选择的,最终组合决策树的结果为最终分类结果。
4.根据权利要求1所述的一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法,其特征在于,所述步骤4包含以下内容:
(4.1)沿着组蛋白序列滑动,将序列分割成以赖氨酸为中心、上下游各N个氨基酸残基的片段;在序列前端或末端,若片段的长度不足( 2N+1) 氨基酸残基,则以字符X补齐;
(4.2)对片段按照步骤2进行信息熵、k间隔氨基酸对组成特征表示和归一化操作;
(4.3)将片段的特征表示输入到训练后的随机森林分类器中,随机森林分类器对输出为1的结果标注为丁酰化修饰。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911346914.2A CN113035270B (zh) | 2019-12-24 | 2019-12-24 | 一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911346914.2A CN113035270B (zh) | 2019-12-24 | 2019-12-24 | 一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113035270A CN113035270A (zh) | 2021-06-25 |
CN113035270B true CN113035270B (zh) | 2022-07-19 |
Family
ID=76451630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911346914.2A Active CN113035270B (zh) | 2019-12-24 | 2019-12-24 | 一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113035270B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808975A (zh) * | 2016-03-14 | 2016-07-27 | 南京理工大学 | 基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法 |
CN105893787A (zh) * | 2016-06-21 | 2016-08-24 | 南昌大学 | 一种蛋白质翻译后修饰甲基化位点的预测方法 |
CN106909807A (zh) * | 2017-02-14 | 2017-06-30 | 同济大学 | 一种基于多元数据预测药物靶向蛋白互作的预测方法 |
CN109887541A (zh) * | 2019-02-15 | 2019-06-14 | 张海平 | 一种靶点蛋白质与小分子结合预测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008154332A1 (en) * | 2007-06-06 | 2008-12-18 | Becton, Dickinson And Company | Near-infrared dyes as surface enhanced raman scattering reporters |
-
2019
- 2019-12-24 CN CN201911346914.2A patent/CN113035270B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808975A (zh) * | 2016-03-14 | 2016-07-27 | 南京理工大学 | 基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法 |
CN105893787A (zh) * | 2016-06-21 | 2016-08-24 | 南昌大学 | 一种蛋白质翻译后修饰甲基化位点的预测方法 |
CN106909807A (zh) * | 2017-02-14 | 2017-06-30 | 同济大学 | 一种基于多元数据预测药物靶向蛋白互作的预测方法 |
CN109887541A (zh) * | 2019-02-15 | 2019-06-14 | 张海平 | 一种靶点蛋白质与小分子结合预测方法及系统 |
Non-Patent Citations (3)
Title |
---|
Entropy as a Driver of Selectivity for Inhibitor Binding to Histone Deacetylase6;Nicholas J.Porter.et.;《Biochemistry》;20181231;第57卷;第3916-3924页 * |
Feature Extractions for Computationally Predicting Protein Post-Translational Modifications;Guohua Huang.et.;《Current Bioinformatics》;20181231;第13卷(第4期);第387-395页 * |
基于信息熵与深度森林的蛋白质亚细胞位置预测;郭庭炜;《万方》;20191210;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113035270A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Meng et al. | scAAGA: Single cell data analysis framework using asymmetric autoencoder with gene attention | |
US10284577B2 (en) | Method and apparatus for file identification | |
CN108763216A (zh) | 一种基于中文数据集的文本情感分析方法 | |
Patruno et al. | A review of computational strategies for denoising and imputation of single-cell transcriptomic data | |
WO2012141332A1 (en) | Supervised and semi-supervised online boosting algorithm in machine learning framework | |
Zhu et al. | Multi-loss siamese neural network with batch normalization layer for malware detection | |
Singh et al. | Sequence based prediction of enhancer regions from DNA random walk | |
Nguyen et al. | Enhancing metagenome-based disease prediction by unsupervised binning approaches | |
Lopez et al. | C-iSUMO: a sumoylation site predictor that incorporates intrinsic characteristics of amino acid sequences | |
CN113035270B (zh) | 一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法 | |
CN112200814A (zh) | 一种基于改进混合蛙跳算法的高速公路沥青路面裂缝分割的优化算法 | |
Cao et al. | Fair and accurate age prediction using distribution aware data curation and augmentation | |
Khandelwal et al. | Protein-protein interaction prediction from primary sequences using supervised machine learning algorithm | |
Tian et al. | Full-length ribosome density prediction by a multi-input and multi-output model | |
Illian et al. | Functional principal component data analysis: a new method for analysing microbial community fingerprints | |
Cui et al. | Prediction and feature analysis of intron retention events in plant genome | |
CN116204889A (zh) | 一种基于对比学习的软件漏洞评估方法、系统及介质 | |
Shao et al. | An improved SVM method for cDNA microarray image segmentation | |
Alkuhlani et al. | Prediction Of O-Glycosylation Site Using Pre-Trained Language Model And Machine Learning | |
Khullar et al. | Investigating efficacy of transfer learning for fruit classification | |
Yao et al. | A two-stage multi-fidelity design optimization for K-mer-based pattern recognition (KPR) in image processing | |
Dong et al. | Data-driven assessment of dimension reduction quality for single-cell omics data | |
Dai | A New method of LncRNA classification based on ensemble learning | |
CN113989567A (zh) | 垃圾图片分类方法及装置 | |
CN107622184B (zh) | 氨基酸可信度和修饰位点定位的评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |