CN107463802A - 一种原核蛋白质乙酰化位点的预测方法 - Google Patents
一种原核蛋白质乙酰化位点的预测方法 Download PDFInfo
- Publication number
- CN107463802A CN107463802A CN201710654001.1A CN201710654001A CN107463802A CN 107463802 A CN107463802 A CN 107463802A CN 201710654001 A CN201710654001 A CN 201710654001A CN 107463802 A CN107463802 A CN 107463802A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- mtd
- sequence
- amino acid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明公开了一种原核蛋白质乙酰化位点的预测方法,包括步骤:收集数据;数据处理;特征编码:特征训练;构建预测模型。本发明还公开了一种原核蛋白质乙酰化位点的预测方法的应用。本发明方法基于蛋白一级结构信息、物理化学信息和进化信息的多维特征编码,提取原核生物蛋白质乙酰化序列的特征,运用弹性网络Elastic Net优化和筛选最优特征向量,结合支持向量机SVM构建原核乙酰化位点的预测模型,显著提高预测模型对原核乙酰化位点的预测性能;开发的预测软件平台ProAcePred实现了对原核蛋白质乙酰化位点的高通量预测,为蛋白质乙酰化研究提供准确、简便和快速的研究工具,并为进一步的实验研究提供有价值的参考信息。
Description
技术领域
本发明涉及特别用于特定应用的数字计算或数据处理设备或数据处理方法,尤其涉及一种原核蛋白质乙酰化位点的预测方法。
背景技术
乙酰化是保障蛋白质活性所必须的且具有高度调控作用的蛋白质翻译后修饰,它能发生在核心组蛋白、将近40种转录因子和30多种其他蛋白质靶标中。从细菌到人类,蛋白质乙酰化不仅对细胞核功能发挥起关键作用,而且对各种胞质代谢也具有重要调控作用,包括细胞骨架动力学、能量代谢、内吞作用、自体吞噬,甚至包含跨膜信号的传导。对于乙酰化位点的识别将是理解乙酰化分子机制的基础。通过质谱、放射性化学方法和染色体免疫沉淀等实验技术可以对乙酰化位点进行鉴定,但这些实验方法往往费时、费力且费用昂贵。还有十多种预测蛋白质乙酰化位点的方法,诸如Xu通过改进位置权重算法并且运用组合式的支持向量机分类器训练处于“自然”分布状态的特征数据,提出的名为EnsemblePail 的乙酰化预测方法;Basu通过对某些组蛋白上的赖氨酸残基两侧的氨基酸残基进行分层聚类,得到一个双层比对得分矩阵,并最终通过产生的分层树对54条核心组蛋白上的赖氨酸乙酰化进行预测分析。这些预测方法对赖氨酸乙酰化进行预测,都未针对原核生物蛋白乙酰化位点进行预测;而且大多数的预测方法只单纯地运用某一种特征算法,提取的乙酰化位点特征信息不全;在所有的乙酰化预测方法中,仅有两种方法基于两步特征选择的思考对特征进行优化。
发明内容
本发明的目的在于针对现有计算识别方法的不足,提供一种原核蛋白质乙酰化位点的预测方法,还提供一种原核蛋白质乙酰化位点的预测方法的应用。
本发明解决上述技术问题所提供的技术方案为:
一种原核蛋白质乙酰化位点的预测方法,包括如下步骤:
1)收集数据
从蛋白质数据库和相关文献中收集实验验证的原核乙酰化蛋白和位点数据;
2)数据处理
采用去同源性软件和滑动窗口策略构建古生菌、副溶血弧菌、大肠杆菌、谷氨酸棒状杆菌、结核分枝杆菌、枯草芽孢杆菌、嗜热地芽孢杆菌、黎火疫病原细菌和鼠伤寒沙门菌共九种原核生物蛋白乙酰化正样本数据集和负样本数据集;
3)特征编码
提取正样本数据集的蛋白、负样本数据集的蛋白的一级结构信息、进化信息和物理化学性质,对正样本蛋白、负样本蛋白进行多维特征编码;
4)特征训练
采用弹性网络(Elastic Net)方法挑选重要的维数组成新的特征,确定最优特征向量,减少维数,提高预测准确度;
5)构建预测模型
将最优特征向量通过支持向量机(Support Vector Machine,缩略词SVM)进行交叉验证训练,结合评价体系指标对预测结果进行评价,评估模型的预测性能和泛化能力,优化模型参数,建立古生菌、副溶血弧菌、大肠杆菌、谷氨酸棒状杆菌、结核分枝杆菌、枯草芽孢杆菌、嗜热地芽孢杆菌、黎火疫病原细菌和鼠伤寒沙门菌共九种原核生物蛋白乙酰化最优预测模型。
所述步骤1)中的蛋白质数据库是UniProt数据库、CPLM数据库和NCBI数据库中的至少一种。
所述步骤2)的正样本是经实验验证标记的乙酰化位点的数据标记样本。
所述步骤2)的负样本是从与正样本相同的蛋白中随机挑选出与正样本数量相同但未标记的赖氨酸(K)序列的数据标记样本。
所述步骤2)数据处理包括如下子步骤:
2 ▪1)根据结构生物学证实乙酰转移酶对底物的识别不会超过20个氨基酸,最初选择中心赖氨酸两边各20个氨基酸残基;
2 ▪2)采用CD-HIT程序去除从几个不同的蛋白质数据库中收集的同源性即具有相同或相似性大于30%的高同源蛋白序列,所述CD-HIT是一种聚类生物序列以减少序列冗余和改进其他序列分析性能的广泛使用的程序;
2 ▪3)分别对最初的氨基酸片段从上游或下游长度为11到20截取片段;
2 ▪4)基于K-近邻(k-Nearest Neighbor,缩略词KNN)分类算法的打分特征对初始序列进行训练,选择最优的序列窗口,序列片段长度结果为:古生菌片段长度为13,副溶血性弧菌片段长度为17,其它的细菌类片段长度为21。
所述步骤3)特征编码包括如下子步骤:
3 ▪1)样本序列的一级结构信息编码:一级结构信息包括氨基酸成分、二进制编码,氨基酸位置权重和K-空间氨基酸对;
氨基酸成分是根据20种氨基酸在序列片段中出现的频率进行编码;
二进制编码是将序列中每个氨基酸都转化为一个20维的向量;
氨基酸位置权重是根据20种氨基酸在序列片段中不同位置的重要性进行特征编码;
K-空间氨基酸对是查找不同氨基酸对被间隔之后出现的频率,根据频率进行编码;
3 ▪2)样本序列的进化信息编码:基于K-近邻分类算法的打分特征进行编码,先采用氨基酸相似矩阵BLOSUM62定义两条序列的空间距离,再基于该距离对未知的序列与已知的乙酰化序列进行相似性打分,当打分大于0.5时,认为是乙酰化序列,当打分小于或等于0.5时,认为是为非乙酰化序列。
3▪3)样本序列的物理化学信息编码:物理化学信息包括溶剂可及表面面积和氨基酸分组权重编码;基于乙酰化修饰更倾向于发生在表面暴露的氨基酸残基上,利用氨基酸片段中各个氨基酸残基的溶剂可及表面面积,以区分乙酰化和非乙酰化位点;基于氨基酸分组权重进行编码是根据20种氨基酸的物理化学性质,将其分成四类:
疏水基团: C1 = {A, F, G, I, L, M, P, V, W};
极性基团: C2 = {C, N, Q, S, T, Y}; (1)
带正电荷基团: C3 = {K, H, R};
带负电荷基团: C4 = {D, E};
再将集合C1、C2、C3和C4分成三组:C1 + C2 与 C3 + C4;C1 + C3 与 C2 + C4;C1 +C4 与 C2 + C3,
对任意蛋白序列将其按下式进行编码:
再将每一个编码序列分成J个子序列,第j个子序列的特征值由下式定义:
公式(3)中:
函数sum(j):第j个子序列中1的个数之和;
int(L*j/J):第j个子序列的长度;
int( ):取整;
L:序列片段的大小。
所述步骤4)中特征训练包括如下子步骤:
4▪1)假设观测数据{是个观测值的自变量,是第个观测值的相应变量}是彼此相互独立且是标准化的数据,即();
4▪2)Elastic Net是在lasso方法的基础上改进的,能够更好地解决p>N 的情况,同时它还具有组效应,Elastic Net的形式为:
Elastic Net有两个调优参数,先确定,然后用与lasso同样的方法得到估计路径,再选择另一个参数,通过Elastic Net对所有特征向量进行评价打分,再优化参数确定最优特征向量。
所述步骤5)中对预测结果进行分析的评价体系指标具体为:灵敏度(Sn)、特异度(Sp)、准确度(Acc)、马氏相关系数(MCC)和接受者操作特性曲线下的面积(AUC)作为评价指标对预测模型进行评价。
所述步骤5)中优化模型参数的方法是支持向量机SVM核函数为径向基函数,采用LIBSVM中的网格搜索策略对惩罚参数C和核宽度参数γ进行优化调整。
本发明的一种原核蛋白质乙酰化位点的预测方法的应用,其特征在于,基于最优预测模型开发预测软件,所述预测软件是采用MATLAB软件和C#编程语言的预测软件平台ProAcePred。
所述预测软件平台ProAcePred在用户提交至少一条原核蛋白质序列,即可自动给出其蛋白质潜在的乙酰化位点信息,实现对原核生物蛋白质乙酰化位点的高通量预测。
本发明的预测方法与现有方法相比的有益效果如下:
本发明基于蛋白一级结构信息、物理化学信息和进化信息的多特征编码,提取原核生物蛋白质乙酰化序列的特征,运用Elastic Net优化和筛选最优特征向量,结合支持向量机构建原核乙酰化位点的预测模型,显著提高预测模型对原核乙酰化位点的预测性能;本发明开发的预测软件平台ProAcePred,实现了对原核蛋白质乙酰化位点的高通量预测,为蛋白质乙酰化研究提供准确、简便和快速的研究工具,并为进一步的实验研究提供有价值的参考信息。
附图说明
图1是本发明的实施例1的系统流程图;
图2是未进行特征优化和使用Elastic Net优化特征的训练结果对比表;
图3是本发明的实施例2的蛋白名为“P00448”应用软件平台的预测结果图。
具体实施方式
为了更好地理解上述方案,下面结合具体实施例和附图对本发明作进一步说明。
实施例1
一种如图1所示的原核蛋白质乙酰化位点的预测方法,具体步骤如下:
1)收集数据
从UniProt,CPLM和NCBI等蛋白质数据库和相关文献中收集原核生物蛋白质乙酰化数据;
2)数据处理
采用去同源性软件和滑动窗口策略构建古生菌、副溶血弧菌、大肠杆菌、谷氨酸棒状杆菌、结核分枝杆菌、枯草芽孢杆菌、嗜热地芽孢杆菌、黎火疫病原细菌和鼠伤寒沙门菌共九种原核生物蛋白乙酰化正样本数据集和负样本数据集;
正样本是经实验验证标记的乙酰化位点,负样本是从与正样本相同的蛋白中随机挑选的跟正样本数量相同的未标记的赖氨酸(K)序列。数据处理包括如下子步骤:
2 ▪1)根据结构生物学证实乙酰转移酶对底物的识别不会超过20个氨基酸,最初选择中心赖氨酸两边各20个氨基酸残基;
2 ▪2)采用CD-HIT程序去除从几个不同的蛋白质数据库中收集的同源性即具有相同或相似性大于30%的高同源蛋白序列;
2 ▪3)分别对最初的氨基酸片段从上游或下游长度为11到20截取片段;
2 ▪4)基于K-近邻分类算法的打分特征对初始序列进行训练,选择最优的序列窗口,序列片段长度结果为:古生菌片段长度为13,副溶血性弧菌片段长度为17,其它的细菌类片段长度为21;
3)特征编码
提取正样本数据集的蛋白、负样本数据集的蛋白的一级结构信息、进化信息和物理化学性质,对正样本蛋白、负样本蛋白进行多维特征编码,包括如下子步骤:
3 ▪1)样本序列的一级结构信息编码:一级结构信息包括氨基酸成分、二进制编码,氨基酸位置权重和K-空间氨基酸对;氨基酸成分是根据20种氨基酸在序列片段中出现的频率进行编码;二进制编码是将序列中每个氨基酸都转化为一个20维的向量;氨基酸位置权重是根据20种氨基酸在序列片段中不同位置的重要性进行特征编码;K-空间氨基酸对是查找不同氨基酸对被间隔之后出现的频率,根据频率进行编码;
3 ▪2)样本序列的进化信息编码:通过K-近邻打分特征编码样本序列的进化信息,首先采用氨基酸相似矩阵BLOSUM62定义两条序列的空间距离,然后基于该距离计算未知序列与已知的乙酰化序列的相似性打分,当打分大于0.5时认为是乙酰化序列,否则为非乙酰化序列;
3 ▪3)样本序列的物理化学信息编码:物理化学信息包括溶剂可及表面面积和氨基酸分组权重编码;基于乙酰化修饰更倾向于发生在表面暴露的氨基酸残基上,利用氨基酸片段中各个氨基酸残基的溶剂可及表面面积,以区分乙酰化和非乙酰化位点;氨基酸分组权重编码是根据20种氨基酸的物理化学性质,将其分成四类:
疏水基团: C1 = {A, F, G, I, L, M, P, V, W}
极性基团: C2 = {C, N, Q, S, T, Y} (1)
带正电荷基团: C3 = {K, H, R}
带负电荷基团: C4 = {D, E}.
再将集合C1,C2,C3和C4分成三组:C1 + C2 与 C3 + C4;C1 + C3 与 C2 + C4;C1 +C4 与 C2 + C3.
对任意蛋白序列将其按下式进行编码:
再将每一个编码序列分成J个子序列,第j个子序列的特征值由下式定义:
公式(3)中:
函数sum(j):第j个子序列中1的个数之和;
int(L*j/J):第j个子序列的长度;
int( ):取整;
L:序列片段的大小;
4)特征训练
由于多特征编码得到的维数比较大,且有冗余信息,而采用Elastic Net方法挑选重要的维数组成新特征,确定最优特征向量,减少维数,提高预测准确度,Elastic Net的原理是根据逻辑回归的思想进行挑选,包括如下子步骤:
4▪1)假设观测数据{是个观测值的自变量,是第个观测值的相应变量}是彼此相互独立且是标准化的数据,即();
4▪2)Elastic Net是在lasso方法的基础上改进的,它的提出能够更好地解决p>N 的情况,同时它还具有组效应,Elastic Net的形式为:
Elastic Net有两个调优参数,先确定,然后用与lasso同样的方法得到估计路径,再选择另一个参数‘’通过Elastic Net对所有特征向量进行评价打分,再优化参数确定最优特征向量;
5)构建预测模型
基于样本序列特征编码和Elastic Net优化特征方法,将最优特征向量通过支持向量机SVM进行10倍交叉验证机器学习,以灵敏度(Sn)、特异度(Sp)、准确度(Acc)、马氏相关系数(MCC)和接受者操作特性曲线下的面积(AUC)作为评价指标对预测模型进行评价,筛选出古生菌、副溶血弧菌、大肠杆菌、谷氨酸棒状杆菌、结核分枝杆菌、枯草芽孢杆菌、嗜热地芽孢杆菌、黎火疫病原细菌和鼠伤寒沙门菌共九种原核蛋白乙酰化位点的最优预测模型。
未进行特征优化和使用Elastic Net优化特征的训练结果对比表如图2所示,其中“All”代表未进行特征优化的训练结果,“Optimal”代表使用了Elastic Net方法优化特征的训练结果。所有模型中使用Elastic Net对特征进行优化后的训练结果都要比未使用特征优化的结果要高,而且特征维数降低明显,不仅节约预测时间,还实现大数据的预测。古生菌类未使用特征优化的AUC值为0.721,但使用Elastic Net优化特征后,其AUC值达到0.897,比未使用时高出了0.176。黎火疫病原细菌和鼠伤寒沙门氏菌未使用特征优化的AUC值不存在,但使用Elastic Net优化特征后,其AUC值达到较高的值,说明使用Elastic Net方法优化特征能有效提高模型的预测性能。
实施例2
预测软件平台ProAcePred应用于预测蛋白名为“P00448”的乙酰化位点。
预测软件是采用MATLAB软件和C#编程语言的预测软件平台ProAcePred。预测软件平台ProAcePred在用户提交至少一条原核蛋白质序列,例如预测UniProt数据库中的蛋白名为“P00448”的乙酰化位点,只需在预测界面输入该蛋白的FASTA格式,选择预测的模型和合适的阈值,点击“Submit”键,ProAcePred工具将对“P00448”蛋白进行预测,自动给出其蛋白质潜在的乙酰化位点信息,结果会显示在指定区域内,实现对原核生物蛋白质乙酰化位点的高通量预测。
图3是蛋白名为“P00448”的序列在大肠杆菌模型上发生赖氨酸乙酰化的预测结果。如图3所示,预测结果有四列,第一列为蛋白名,第二列为乙酰化位点在蛋白序列中的位置,第三列为以乙酰化位点为中心的长度为21的侧翼序列,第四列为支持向量机SVM预测该位置上的赖氨酸发生乙酰化的概率。采用本方法构建的ProAcePred预测出P00448蛋白质有8个赖氨酸乙酰化位点,分别在序列的第21、30、68、69、91、119、177和187位置处。预测概率越大,表明该位置的氨基酸发生乙酰化的可能性越大,即该位置的赖氨酸是乙酰化位点的可能性越大。用户可根据预测结果,确定可能的蛋白乙酰化位点。如,在第一行中P00448蛋白序列位置为21,表明在该蛋白序列位置为21处的K能发生乙酰化,发生乙酰化的概率为0.5134,以该位点为中心的长度为21的侧翼序列为AYDALEPHFD-K-QTMEIHHTKH。研究者可根据以上提供的预测结果进一步缩小研究范围,从而减少实验验证蛋白质乙酰化位点的次数。
蛋白名为“P00448”的FASTA格式的信息如下:
>sp|P00448|SODM_ECOLI
MSYTLPSLPYAYDALEPHFDKQTMEIHHTKHHQTYVNNANAALESLPEFANLPVEELITKLDQLPADKKTVLRNNAGGHANHSLFWKGLKKGTTLQGDLKAAIERDFGSVDNFKAEFEKAAASRFGSGWAWLVLKGDKLAVVSTANQDSPLMGEAISGASGFPIMGLDVWEHAYYLKFQNRRPDYIKEFWNVVNWDEAAARFAAK
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明由所提交的权利要求书确定的专利保护范围。
Claims (10)
1.一种原核蛋白质乙酰化位点的预测方法,其特征在于,包括如下步骤:
1)收集数据
从蛋白质数据库和相关文献中收集实验验证的原核乙酰化蛋白和位点数据;
2)数据处理
采用去同源性软件和滑动窗口策略构建古生菌、副溶血弧菌、大肠杆菌、谷氨酸棒状杆菌、结核分枝杆菌、枯草芽孢杆菌、嗜热地芽孢杆菌、黎火疫病原细菌和鼠伤寒沙门菌共九种不同原核生物蛋白乙酰化正样本数据集和负样本数据集;
3)特征编码
提取正样本数据集的蛋白、负样本数据集的蛋白的一级结构信息、进化信息和物理化学性质,对正样本蛋白、负样本蛋白进行多维特征编码;
4)特征训练
采用Elastic Net方法挑选重要的维数组成新的特征,确定最优特征向量,减少维数,提高预测准确度;
5)构建预测模型
将最优特征向量通过支持向量机SVM进行交叉验证训练,结合评价体系指标对预测结果进行评价,评估模型的预测性能和泛化能力,优化模型参数,建立古生菌、副溶血弧菌、大肠杆菌、谷氨酸棒状杆菌、结核分枝杆菌、枯草芽孢杆菌、嗜热地芽孢杆菌、黎火疫病原细菌和鼠伤寒沙门菌共九种不同原核生物蛋白乙酰化最优预测模型。
2.根据权利要求1所述的原核蛋白质乙酰化位点的预测方法,其特征在于,所述步骤1)中的蛋白质数据库是UniProt数据库、CPLM数据库和NCBI数据库中的至少一种。
3.根据权利要求1所述的原核蛋白质乙酰化位点的预测方法,其特征在于,所述步骤2)的正样本是经实验验证标记的乙酰化位点的数据标记样本;负样本是从与正样本相同的蛋白中随机挑选出与正样本数量相同但未标记的赖氨酸(K)序列的数据标记样本。
4.根据权利要求1所述的原核蛋白质乙酰化位点的预测方法,其特征在于,所述步骤2)构建样本数据集包括如下子步骤:
2·1)根据结构生物学证实乙酰转移酶对底物的识别不会超过20个氨基酸,最初选择中心赖氨酸两边各20个氨基酸残基;
2·2)采用CD-HIT程序去除从几个不同的蛋白质数据库中收集的同源性即具有相同或相似性大于30%的高同源蛋白序列;
2·3)分别对最初的氨基酸片段从上游或下游长度为11到20截取片段;
2·4)基于K-近邻分类算法的打分特征对初始序列进行训练,选择最优的序列窗口,序列片段长度结果为:古生菌片段长度为13,副溶血性弧菌片段长度为17,其它的细菌类片段长度为21。
5.根据权利要求1所述的原核蛋白质乙酰化位点的预测方法,其特征在于,所述步骤3)特征编码包括如下子步骤:
3·1)样本序列的一级结构信息编码:一级结构信息包括氨基酸成分、二进制编码,氨基酸位置权重和K-空间氨基酸对;
所述氨基酸成分是根据20种氨基酸在序列片段中出现的频率进行编码;
所述二进制编码是将序列中每个氨基酸都转化为一个20维的向量;
所述氨基酸位置权重是根据20种氨基酸在序列片段中不同位置的重要性进行特征编码;
所述K-空间氨基酸对是查找不同氨基酸对被间隔之后出现的频率,根据频率进行编码;
3·2)样本序列的进化信息编码:基于K-近邻分类算法的打分特征进行编码,先采用氨基酸相似矩阵BLOSUM62定义两条序列的空间距离,再基于该距离对未知的序列与已知的乙酰化序列进行相似性打分,当打分大于0.5时,认为是乙酰化序列,当打分小于或等于0.5时,认为是为非乙酰化序列。
3·3)样本序列的物理化学信息编码:物理化学信息包括溶剂可及表面面积和氨基酸分组权重编码;基于乙酰化修饰更倾向于发生在表面暴露的氨基酸残基上,利用氨基酸片段中各个氨基酸残基的溶剂可及表面面积,以区分乙酰化和非乙酰化位点;基于氨基酸分组权重进行编码是根据20种氨基酸的物理化学性质,将其分成四类:
再将集合C1、C2、C3和C4分成三组:C1+C2与C3+C4;C1+C3与C2+C4;C1+C4与C2+C3;
对任意蛋白序列P=(p1,p2,…,pL),将其按下式进行编码:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>H</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mi>f</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mn>1</mn>
</msub>
<mo>+</mo>
<msub>
<mi>C</mi>
<mn>2</mn>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mi>f</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mn>3</mn>
</msub>
<mo>+</mo>
<msub>
<mi>C</mi>
<mn>4</mn>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>H</mi>
<mn>2</mn>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>P</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mi>f</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mn>1</mn>
</msub>
<mo>+</mo>
<msub>
<mi>C</mi>
<mn>3</mn>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mi>f</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mn>2</mn>
</msub>
<mo>+</mo>
<msub>
<mi>C</mi>
<mn>4</mn>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>H</mi>
<mn>3</mn>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mi>f</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mn>1</mn>
</msub>
<mo>+</mo>
<msub>
<mi>C</mi>
<mn>4</mn>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mi>f</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mn>2</mn>
</msub>
<mo>+</mo>
<msub>
<mi>C</mi>
<mn>3</mn>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
再将每一个编码序列分成J个子序列,第j个子序列的特征值由下式定义:
<mrow>
<mi>X</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mfrac>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>int</mi>
<mrow>
<mo>(</mo>
<mi>L</mi>
<mo>&CenterDot;</mo>
<mi>j</mi>
<mo>/</mo>
<mi>J</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
<mi>j</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mn>2</mn>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<mi>J</mi>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
公式(3)中:
函数sum(j):第j个子序列中1的个数之和;
int(L*j/J):第j个子序列的长度;
int():取整;
L:序列片段的大小。
6.根据权利要求1所述的原核蛋白质乙酰化位点的预测方法,其特征在于,所述步骤4)中特征训练包括如下子步骤:
4·1)假设观测数据(Xi,y),i=1,2,…,N{Xi=(Xi1,Xi2,…,Xip)T是i个观测值的自变量,yi是第i个观测值的相应变量}是彼此相互独立且xij是标准化的数据,即
4·2)Elastic Net是在lasso方法的基础上改进的,能够更好地解决p>N的情况,同时它还具有组效应,Elastic Net的形式为:
<mrow>
<mover>
<mi>&beta;</mi>
<mo>^</mo>
</mover>
<mrow>
<mo>(</mo>
<mi>e</mi>
<mi>l</mi>
<mi>a</mi>
<mi>s</mi>
<mi>t</mi>
<mi>i</mi>
<mi>c</mi>
<mi> </mi>
<mi>n</mi>
<mi>e</mi>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>arg</mi>
<munder>
<mi>min</mi>
<mi>&beta;</mi>
</munder>
<msup>
<mi>&beta;</mi>
<mi>T</mi>
</msup>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<msup>
<mi>X</mi>
<mi>T</mi>
</msup>
<mi>X</mi>
<mo>+</mo>
<msub>
<mi>&lambda;</mi>
<mn>2</mn>
</msub>
</mrow>
<mrow>
<mn>1</mn>
<mo>+</mo>
<msub>
<mi>&lambda;</mi>
<mn>2</mn>
</msub>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mi>&beta;</mi>
<mo>-</mo>
<mn>2</mn>
<msup>
<mi>y</mi>
<mi>T</mi>
</msup>
<mi>X</mi>
<mi>&beta;</mi>
<mo>+</mo>
<msub>
<mi>&lambda;</mi>
<mn>1</mn>
</msub>
<mo>|</mo>
<mi>&beta;</mi>
<msub>
<mo>|</mo>
<mn>1</mn>
</msub>
<mo>.</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
Elastic Net有两个调优参数,先确定λ2,然后用与lasso同样的方法得到估计路径,再选择另一个参数λ1,通过Elastic Net对所有特征向量进行评价打分,再优化参数λ2,λ1确定最优特征向量。
7.根据权利要求1所述的原核蛋白质乙酰化位点的预测方法,其特征在于:所述步骤5)对预测结果进行分析的评价体系指标具体为:灵敏度(Sn)、特异度(Sp)、准确度(Acc)、马氏相关系数(MCC)和接受者操作特性曲线下的面积(AUC)作为评价指标对预测模型进行评价。
8.根据权利要求1或7所述的原核蛋白质乙酰化位点的预测方法,其特征在于:所述步骤5)优化模型参数的方法是支持向量机SVM核函数为径向基函数,采用LIBSVM中的网格搜索策略对惩罚参数C和核宽度参数γ进行优化调整。
9.根据权利要求1至8所述的原核蛋白质乙酰化位点的预测方法的应用,其特征在于:基于最优预测模型开发预测软件,所述预测软件是采用MATLAB软件和C#编程语言的预测软件平台ProAcePred。
10.根据权利要求9所述的原核蛋白质乙酰化位点的预测方法的应用,其特征在于:预测软件平台ProAcePred在用户提交至少一条原核蛋白质序列,即可自动给出其蛋白质潜在的乙酰化位点信息,实现对原核生物蛋白质乙酰化位点的高通量预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710654001.1A CN107463802A (zh) | 2017-08-02 | 2017-08-02 | 一种原核蛋白质乙酰化位点的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710654001.1A CN107463802A (zh) | 2017-08-02 | 2017-08-02 | 一种原核蛋白质乙酰化位点的预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107463802A true CN107463802A (zh) | 2017-12-12 |
Family
ID=60548335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710654001.1A Pending CN107463802A (zh) | 2017-08-02 | 2017-08-02 | 一种原核蛋白质乙酰化位点的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107463802A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147870A (zh) * | 2018-07-26 | 2019-01-04 | 刘滨 | 基于条件随机场的固有无序蛋白质的识别方法 |
CN109300111A (zh) * | 2018-08-27 | 2019-02-01 | 杭州德适生物科技有限公司 | 一种基于深度学习的染色体识别方法 |
CN109308935A (zh) * | 2018-09-10 | 2019-02-05 | 天津大学 | 一种基于支持向量机预测非编码dna的方法及应用平台 |
CN109326321A (zh) * | 2018-08-30 | 2019-02-12 | 浙江工业大学 | 一种基于抽象凸估计的k-近邻蛋白质结构预测方法 |
CN109726510A (zh) * | 2019-01-23 | 2019-05-07 | 山东大学 | 一种蛋白质糖化位点鉴定方法 |
CN110033822A (zh) * | 2019-03-29 | 2019-07-19 | 华中科技大学 | 蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统 |
CN110348580A (zh) * | 2019-06-18 | 2019-10-18 | 第四范式(北京)技术有限公司 | 构建gbdt模型的方法、装置及预测方法、装置 |
CN111063393A (zh) * | 2019-12-26 | 2020-04-24 | 青岛科技大学 | 基于信息融合和深度学习的原核生物乙酰化位点预测方法 |
CN111537056A (zh) * | 2020-07-08 | 2020-08-14 | 浙江浙能天然气运行有限公司 | 基于svm与时频域特征的管道沿线第三方施工动态预警方法 |
CN112819495A (zh) * | 2019-11-18 | 2021-05-18 | 南京财经大学 | 一种基于随机多项式核的用户购物意图预测方法 |
CN113362900A (zh) * | 2021-06-15 | 2021-09-07 | 邵阳学院 | 一种预测n4-乙酰胞苷的混合模型 |
CN114496095A (zh) * | 2022-01-20 | 2022-05-13 | 广东药科大学 | 一种修饰位点识别方法、系统、装置及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893787A (zh) * | 2016-06-21 | 2016-08-24 | 南昌大学 | 一种蛋白质翻译后修饰甲基化位点的预测方法 |
-
2017
- 2017-08-02 CN CN201710654001.1A patent/CN107463802A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893787A (zh) * | 2016-06-21 | 2016-08-24 | 南昌大学 | 一种蛋白质翻译后修饰甲基化位点的预测方法 |
Non-Patent Citations (3)
Title |
---|
ZOU H. 等: ""Regularization and variable selection via the elastic-net"", 《JOURNAL OF THE ROYAL STATISTICAL SOCIETY: SERIES B (STATISTIC METHODOLOGY) HOMPAGE》 * |
施绍萍: ""基于支持向量机的蛋白质功能预测新方法研究"", 《中国优秀博士学位论文全文数据库》 * |
陈祥: ""蛋白质翻译后修饰位点识别研究和应用"", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147870A (zh) * | 2018-07-26 | 2019-01-04 | 刘滨 | 基于条件随机场的固有无序蛋白质的识别方法 |
CN109300111A (zh) * | 2018-08-27 | 2019-02-01 | 杭州德适生物科技有限公司 | 一种基于深度学习的染色体识别方法 |
CN109326321A (zh) * | 2018-08-30 | 2019-02-12 | 浙江工业大学 | 一种基于抽象凸估计的k-近邻蛋白质结构预测方法 |
CN109308935A (zh) * | 2018-09-10 | 2019-02-05 | 天津大学 | 一种基于支持向量机预测非编码dna的方法及应用平台 |
CN109726510A (zh) * | 2019-01-23 | 2019-05-07 | 山东大学 | 一种蛋白质糖化位点鉴定方法 |
CN110033822A (zh) * | 2019-03-29 | 2019-07-19 | 华中科技大学 | 蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统 |
CN110348580A (zh) * | 2019-06-18 | 2019-10-18 | 第四范式(北京)技术有限公司 | 构建gbdt模型的方法、装置及预测方法、装置 |
CN110348580B (zh) * | 2019-06-18 | 2022-05-10 | 第四范式(北京)技术有限公司 | 构建gbdt模型的方法、装置及预测方法、装置 |
CN112819495A (zh) * | 2019-11-18 | 2021-05-18 | 南京财经大学 | 一种基于随机多项式核的用户购物意图预测方法 |
CN111063393A (zh) * | 2019-12-26 | 2020-04-24 | 青岛科技大学 | 基于信息融合和深度学习的原核生物乙酰化位点预测方法 |
CN111537056A (zh) * | 2020-07-08 | 2020-08-14 | 浙江浙能天然气运行有限公司 | 基于svm与时频域特征的管道沿线第三方施工动态预警方法 |
CN113362900A (zh) * | 2021-06-15 | 2021-09-07 | 邵阳学院 | 一种预测n4-乙酰胞苷的混合模型 |
CN114496095A (zh) * | 2022-01-20 | 2022-05-13 | 广东药科大学 | 一种修饰位点识别方法、系统、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107463802A (zh) | 一种原核蛋白质乙酰化位点的预测方法 | |
David et al. | Genetic algorithms for evolving deep neural networks | |
Zien et al. | Multiclass multiple kernel learning | |
CN108009405A (zh) | 一种基于机器学习技术预测细菌外膜蛋白质的方法 | |
CN111063393A (zh) | 基于信息融合和深度学习的原核生物乙酰化位点预测方法 | |
Demertzis et al. | Detecting invasive species with a bio-inspired semi-supervised neurocomputing approach: The case of Lagocephalus sceleratus | |
Singh et al. | Sequence based prediction of enhancer regions from DNA random walk | |
CN105095494A (zh) | 一种对分类数据集进行测试的方法 | |
CN103366189A (zh) | 一种高光谱遥感图像的智能化分类方法 | |
Chouaib et al. | Feature selection combining genetic algorithm and adaboost classifiers | |
Hu et al. | Prediction of the β-hairpins in proteins using support vector machine | |
CN112365931B (zh) | 一种用于预测蛋白质功能的数据多标签分类方法 | |
CN105046106B (zh) | 一种用最近邻检索实现的蛋白质亚细胞定位预测方法 | |
Sun et al. | Forecasting day ahead spot electricity prices based on GASVM | |
CN113837293A (zh) | mRNA亚细胞定位模型训练方法、定位方法及可读存储介质 | |
Bhalla et al. | Microarray gene-expression data classification using less gene expressions by combining feature selection methods and classifiers | |
Kavitha et al. | Laplacian score and Top scoring pair Feature selection algorithms | |
Neagoe et al. | A genetic algorithm approach to purify the classifier training labels for the analysis of remote sensing imagery | |
Lo et al. | Generalized k-labelset ensemble for multi-label classification | |
CN113838520B (zh) | 一种iii型分泌系统效应蛋白识别方法及装置 | |
Wang et al. | Multi-label learning for protein subcellular location prediction | |
Azizi et al. | New dynamic classifiers selection approach for handwritten recognition | |
Banki-Koshki et al. | Transcription factor binding sites identification on human genome using an artificial neural network | |
Refahi et al. | Leveraging Large Language Models for Metagenomic Analysis | |
Ahmed et al. | Computational Prediction of Protein S-nitrosylation Sites Mapping on Mus Musculus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171212 |
|
RJ01 | Rejection of invention patent application after publication |