CN113611355B - 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法 - Google Patents

基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法 Download PDF

Info

Publication number
CN113611355B
CN113611355B CN202110950026.2A CN202110950026A CN113611355B CN 113611355 B CN113611355 B CN 113611355B CN 202110950026 A CN202110950026 A CN 202110950026A CN 113611355 B CN113611355 B CN 113611355B
Authority
CN
China
Prior art keywords
antioxidant
protein
algorithm
data
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110950026.2A
Other languages
English (en)
Other versions
CN113611355A (zh
Inventor
赵玉茗
汪国华
翟祎笑
邹权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Forestry University
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Northeast Forestry University
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Forestry University, Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Northeast Forestry University
Priority to CN202110950026.2A priority Critical patent/CN113611355B/zh
Publication of CN113611355A publication Critical patent/CN113611355A/zh
Application granted granted Critical
Publication of CN113611355B publication Critical patent/CN113611355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,涉及医药技术领域,针对现有技术中根据序列信息预测的二级结构,使用PSI‑PRED等工具提取蛋白质二级结构信息的特征时,预测的蛋白质二级结构存在误差,进而导致抗氧化蛋白识别准确低的问题,本申请提出了一种全新的抗氧化蛋白识别方法,利用蛋白质‑蛋白质相互作用的特征和氨基酸的组成来表达抗氧化蛋白序列的特征,能够实现对抗氧化蛋白的准确识别,为相应蛋白质定位、疾病分析及药物研究提供了理论基础。本申请在处理不平衡的抗氧化蛋白数据时引入了多种不平衡数据处理方法,最终使用SMOTE算法处理数据得到的模型最优,优化了抗氧化蛋白的识别效果。

Description

基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法
技术领域
本发明涉及医药技术领域,具体为基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法。
背景技术
活性氧(ROS)是代谢过程的产物。ROS浓度过高会产生过多的氧自由基,生物体内的抗氧化系统不能足够快地消除ROS,从而导致氧化应激。过度的氧化应激会影响大分子结构的破坏,甚至导致细胞死亡,从而导致衰老并引发遗传各种疾病,例如癌症、急慢性肾脏疾病、神经退行性疾病、心血管疾病、糖尿病和动脉粥样硬化。抗氧化蛋白可以平衡这种氧化应激反应,防止过高浓度的ROS引起细胞损伤。然而,传统鉴定抗氧化蛋白的方法存在耗时且成本高的问题,例如蛋白质印迹法。随着基因组数据的不断完善,测序技术和计算机技术、数据挖掘和机器学习方法被用来识别抗氧化蛋白的方法已经有很多。但仍有一些不足之处尚未完全解决。(1)大多数方法在训练样本时没有考虑数据不平衡对分类的影响。特征选择后的特征子集更能代表更多的类型(非抗氧化蛋白),而我们需要找到的是一个更能代表抗氧化蛋白的特征子集。(2)根据序列信息预测的二级结构,使用PSI-PRED等工具提取蛋白质二级结构信息的特征。整个过程复杂且耗时。此外,预测的蛋白质二级结构存在误差,也会影响特征的准确性。因此,急需开发一款能够准确且快速鉴定抗氧化蛋白的模型。
发明内容
本发明的目的是:针对现有技术中根据序列信息预测的二级结构,使用PSI-PRED等工具提取蛋白质二级结构信息的特征时,预测的蛋白质二级结构存在误差,进而导致抗氧化蛋白识别准确低的问题,提出基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白的方法。
本发明为了解决上述技术问题采取的技术方案是:基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,包括以下步骤:
步骤一:获取原始抗氧化蛋白数据集,并对原始抗氧化蛋白数据集进行分层随机抽样,分为测试集和训练集;
步骤二:分别对训练集和测试集中的每一个数据采用氨基酸组成特征提取算法和蛋白质-蛋白质相互作用特征提取算法分别提取特征向量,并将得到的两个特征向量进行拼接后得到完整的特征向量,然后利用训练集和测试集中所有数据对应的完整的特征向量得到训练集向量矩阵和测试集向量矩阵;
步骤三:采用多种不平衡处理算法分别对训练集向量矩阵进行不平衡处理,得到多个不平衡处理后的向量矩阵;
步骤四:采用MRMD算法分别对多个不平衡处理后的向量矩阵进行特征选择,得到多个特征子集;
步骤五:采用随机森林分别对多个特征子集中的抗氧化蛋白进行分类训练,得到多个训练好的分类模型;
步骤六:将多个训练好的分类模型应用在测试集向量矩阵中,得到分类结果,然后根据分类结果选择其中适合于抗氧化蛋白数据的不平衡处理方法,进而确定最终的分类模型;
步骤七:利用最终的分类模型完成抗氧化蛋白的识别。
进一步的,所述原始抗氧化蛋白数据集包括正例数据子集和反例数据子集,所述正例数据子集包括抗氧化蛋白序列文件,所述反例数据子集包括非抗氧化蛋白序列文件。
进一步的,所述步骤一中获取原始抗氧化蛋白数据集之前还包括对下载的抗氧化蛋白序列数据进行格式判断和内容判断的步骤,所述格式判断和内容判断的具体步骤为:
首先,找到抗氧化蛋白序列数据文件以字符串>为开头的行,然后选取下一行的数据作为序列文本数据;之后,判断序列文本数据的内容中是否含有B、J、O、U、X或Z,若含有,则提示输入的文本不符合氨基酸fasta序列,并删除对应数据,若不含有,则保留数据。
进一步的,所述氨基酸组成特征提取算法为CKSAAP,所述蛋白质-蛋白质相互作用特征提取算法为CT。
进一步的,所述多种不平衡处理算法包括采样算法、欠采样算法和组合采样算法。
进一步的,所述采样算法包括:SMOTE算法、BorderlineSMOTE算法、SVMSMOTE算法和ADASYN算法;
所述欠采样算法包括:ClusterCentroids算法和NearMiss算法;
所述组合采样算法包括:SMOTEENN算法和SMOTETomek算法。
进一步的,所述步骤四中MRMD算法利用maxMRi和maxMDi对多个不平衡处理后的向量矩阵进行特征选择,其中,maxMRi表示为:
Figure BDA0003218053780000031
maxMDi表示为:
Figure BDA0003218053780000032
其中,MRi表示第i个抗氧化蛋白实例类别与特征之间的皮尔逊系数,MDi表示第i个抗氧化蛋白实例特征之间的欧式距离,PCC(·)表示皮尔逊系数,Fi表示第i个抗氧化蛋白实例的特征向量,Ci表示第i个抗氧化蛋白实例的类别向量,M表示抗氧化蛋白实例的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,
Figure BDA0003218053780000033
为Fi中所有元素的平均值,
Figure BDA0003218053780000034
为Ci中所有元素的平均值,EDi表示第i个抗氧化蛋白实例特征之间的Euclidean距离,COSi表示第i个抗氧化蛋白实例特征之间的Cosine距离,TCi表示第i个抗氧化蛋白实例特征之间的Tanimoto系数。
进一步的,所述步骤五的具体步骤为:
步骤五一:初始化设置随机森林算法的最大的子树的个数参数n_estimators;
步骤五二:初始化设置参数调整范围为0-200,并设置步长为10;
步骤五三:根据步骤五二的参数范围分别对抗氧化蛋白进行分类,然后用交叉验证方法得到不同参数对应的分类精度;
步骤五四:取分类精度最高时对应的参数作为随机森林算法的最终参数,进而得到训练好的分类模型。
进一步的,所述分类精度表示为:
Figure BDA0003218053780000041
其中ACC表示使用随机森林算法对抗氧化蛋白进行分类得到的分类精度,TP表示预测正确的抗氧化蛋白数量,FP表示预测正确的非抗氧化蛋白数量,TN表示预测错误的抗氧化蛋白数量,FN表示预测错误的非抗氧化蛋白数量。
进一步的,所述步骤六中根据分类结果选择其中适合于抗氧化蛋白数据的不平衡处理方法通过评价指标进行,
所述评价指标为:
Figure BDA0003218053780000042
Figure BDA0003218053780000043
Figure BDA0003218053780000044
Figure BDA0003218053780000045
其中,SE表示分类的灵敏度,SP表示分类的特异性,ACC表示使用随机森林算法对抗氧化蛋白进行分类得到的分类精度,MCC表示马修相关系数,TP表示预测正确的抗氧化蛋白数量,FP表示预测正确的非抗氧化蛋白数量,TN表示预测错误的抗氧化蛋白数量,FN表示预测错误的非抗氧化蛋白数量;
选取ACC大于70%,且MCC大于0.6的模型,然后在选取的模型中选择SE与SP差值最小的模型作为最终模型。
本发明的有益效果是:
(1)本申请提出了一种全新的抗氧化蛋白识别方法,利用蛋白质-蛋白质相互作用的特征和氨基酸的组成来表达抗氧化蛋白序列的特征,能够实现对抗氧化蛋白的准确识别,为相应蛋白质定位、疾病分析及药物研究提供了理论基础。
(2)本申请在处理不平衡的抗氧化蛋白数据时引入了多种不平衡数据处理方法,最终使用SMOTE算法处理数据得到的模型最优,优化了抗氧化蛋白的识别效果。
(3)本申请通过使用随机森林算法构建识别抗氧化蛋白的分类器模型,使得模型识别效率显著增加,大大提高了研究人员的工作效率。
附图说明
图1为本申请的流程图;
图2为不同特征提取方法组合建立的模型的预测结果示意图;
图3为不同数据不平衡处理方法建立的模型的预测结果示意图;
图4为三大类采样算法建立的模型的预测结果平均值的示意图。
具体实施方式
需要特别说明的是,在不冲突的情况下,本申请公开的各个实施方式之间可以相互组合。
具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白的方法,包括以下步骤:
S1、下载抗氧化蛋白序列数据,获取待处理的原始抗氧化蛋白数据集,分层抽样随机选择一部分数据为测试集,其余数据作为训练集。
S2、采用CKSAAP和和CT特征提取抗氧化蛋白数据集的向量特征,得到两个特征文件,并将两个特征文件拼接,得到完整的特征集。
S3、采用多种不平衡处理算法对训练集数据进行不平衡处理,使得数据集达到平衡状态;
S4、采用MRMD算法对特征集进行特征选择,得到特征之间差异性大且特征和标签类别之间具有强相关性的特征子集。
S5、采用随机森林对特征子集中的抗氧化蛋白进行分类训练,得到训练好的分类模型;
S6、将训练好的分类模型应用在测试集中,选择最适合于抗氧化蛋白数据的不平衡处理方法,从而确定最终的分类模型。
步骤S1中获取的原始抗氧化蛋白数据集,包括正例数据集和反例数据集,正例数据集为待分类的抗氧化蛋白序列文件,反例数据集为待分类的非抗氧化蛋白序列文件。
步骤S1中在获取待处理的原始抗氧化蛋白特征数据集之前,需要对下载的抗氧化蛋白序列数据文件进行格式判断和内容判断;格式判断的具体方法为:当读入的抗氧化蛋白序列数据文件的行以字符串“>”为开头时,则取加一行的数据为序列文本数据;内容判断的具体方法为:读取的序列文本数据的内容是否由“G”、“A”、“V”“L”、“I”、“P”、“F”、“Y”、“W”、“S”、“T”、“C”、“M”、“N”、“Q”、“D”、“E”、“K”、“R”、或“H”20种字母组成,若有这20种字母之外的字母出现,则提示输入的文本不符合氨基酸fasta序列。
步骤S2中的特征提取算法包括氨基酸组成特征提取算法和蛋白质-蛋白质相互作用特征提取算法;氨基酸组成特征提取算法为k间隔氨基酸对的组成(Compositionof k-Spaced Amino Acid Pairs)特征提取算法;蛋白质-蛋白质相互作用特征提取算法为联合三元组(Conjoint Triad)特征提取算法。
步骤S3中的多种不平衡处理算法包括过采样算法、欠采样算法和组合采样算法;
所述过采样算法包括:SMOTE算法,BorderlineSMOTE算法,SVMSMOTE算法和ADASYN算法;
所述欠采样算法包括:ClusterCentroids算法和NearMiss算法,其中NearMiss算法的参数version分别为1,2,3;
所述组合采样算法包括:SMOTEENN算法和SMOTETomek算法。
利用上述不平衡处理算法将训练集处理为平衡状态,随后再作为MRMD算法的输入,进行特征选择的降维处理,便于提取出适合识别抗氧化蛋白的特征。
步骤S4中采用MRMD算法对特征集进行特征选择的依据为max(MRi+MDi),其中MRi表示第i个抗氧化蛋白实例类别与特征之间的皮尔逊系数,MDi表示第i个抗氧化蛋白实例特征之间的欧式距离,其中maxMRi值的计算公式如下:
Figure BDA0003218053780000061
maxMDi值的计算公式如下:
Figure BDA0003218053780000071
其中PCC(·)表示皮尔逊系数,Fi表示第i个抗氧化蛋白实例的特征向量,Ci表示第i个抗氧化蛋白实例的类别向量,M表示抗氧化蛋白实例的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,
Figure BDA0003218053780000072
为Fi中所有元素的平均值,
Figure BDA0003218053780000073
为Ci中所有元素的平均值,EDi表示第i个抗氧化蛋白实例特征之间的Euclidean距离,COSi表示第i个抗氧化蛋白实例特征之间的Cosine距离,TCi表示第i个抗氧化蛋白实例特征之间的Tanimoto系数。
步骤S5包括以下分步骤:
S51、初始化设置随机森林算法的最大的子树的个数参数n_estimators;
S52、初始化设置参数调整范围为0-200,且步长为10;
S53、计算使用该参数条件下随机森林算法对抗氧化蛋白进行分类,采用交叉验证方法得到分类精度;
S54、获取分类精度最高时的随机森林算法的参数,得到在该训练集下最优的分类模型。
步骤S53中分类精度的计算公式为:
Figure BDA0003218053780000074
其中ACC表示使用随机森林算法对抗氧化蛋白进行分类得到的分类精度,TP表示预测正确的抗氧化蛋白数量,FP表示预测正确的非抗氧化蛋白数量,TN表示预测错误的抗氧化蛋白数量,FN表示预测错误的非抗氧化蛋白数量。
步骤S6包括以下分步骤:
S61、根据S4所述,得到的最佳特征子集筛选出测试集的特征,作为待测试的数据集;
S62、将分类模型用于待测试的数据集进行分类抗氧化蛋白,得到分类结果;
S63、返回步骤S3对训练集进行不平衡处理,随后进行步骤S4,S5,S6;
S64、待步骤S3中全部算法都遍历后,选择最适合于抗氧化蛋白数据的不平衡处理方法,从而确定最终的分类模型。
实施例:
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种基于氨基酸组成和蛋白质-蛋白质相互作用识别抗氧化蛋白的方法,如图1所示,包括以下步骤S1~S6:
S1、下载抗氧化蛋白序列数据文件,获取待处理的原始抗氧化蛋白特征数据集。
其中,获取的原始抗氧化蛋白特征数据集,包括正例数据集和反例数据集,正例数据集为待分类的抗氧化蛋白序列文件,反例数据集为非抗氧化蛋白序列文件。
本发明实施例中,序列数据文件总共有2个,分别为抗氧化蛋白和非抗氧化蛋白(正例为抗氧化蛋白,含有253个样本,负例为非抗氧化蛋白,含有1552个样本)。
本发明实施例中,在获取待处理的原始抗氧化蛋白特征数据集之前,需要对下载的抗氧化蛋白序列数据文件进行格式判断和内容判断。其中格式判断的具体方法为:当读入的抗氧化蛋白序列数据文件的行以字符串“>”为开头时,则取加一行的数据为序列文本数据。内容判断的具体方法为:读取的序列文本数据的内容是否由“G”、“A”、“V”“L”、“I”、“P”、“F”、“Y”、“W”、“S”、“T”、“C”、“M”、“N”、“Q”、“D”、“E”、“K”、“R”、或“H”20种字母组成,若有这20种字母之外的字母出现,则提示输入的文本不符合氨基酸fasta序列。
S2、采用两种特征提取算法提取原始抗氧化蛋白特征数据集的数据特征,得到两个特征文件。
本发明实施例中,特征提取算法包括氨基酸组成特征提取算法和蛋白质-蛋白质相互作用特征提取算法。
其中,氨基酸组成特征提取算法为k间隔氨基酸对的组成(Composition of k-Spaced Amino Acid Pairs)特征提取算法;蛋白质-蛋白质相互作用特征提取算法为联合三元组(Conjoint Triad)特征提取算法。
本发明实施例中,在k间隔氨基酸对的组成特征提取算法中,相邻核酸的发生频率k取k=2和k=3时分别得到一个特征文件,因此采用上述14中特征提取算法共得到15个特征文件,15个特征文件的维数分布如图2所示。
S3、采用多种不平衡处理算法对训练集数据进行不平衡处理,使得数据集达到平衡状态
本发明实施例中,多种不平衡处理算法包括过采样算法、欠采样算法和组合采样算法;
所述过采样算法包括:SMOTE算法,BorderlineSMOTE算法,SVMSMOTE算法和ADASYN算法;
所述欠采样算法包括:ClusterCentroids算法和NearMiss算法,其中NearMiss算法的参数version分别为1,2,3;
所述组合采样算法包括:SMOTEENN算法和SMOTETomek算法。
利用上述不平衡处理算法将训练集处理为平衡状态,随后再作为MRMD算法的输入,进行特征选择的降维处理,便于提取出适合识别抗氧化蛋白的特征。
S4、采用MRMD算法对特征集进行特征选择,得到特征与实例类别具有强相关性且特征之间具有低冗余性的特征子集。
在MRMD算法中,特征与实例类别之间的相关性用皮尔逊系数表征,皮尔逊系数越大说明特征与实例类别之间的相关性越强,关系越紧密;特征之间的冗余性用欧式距离表征,欧式距离又与Euclidean距离ED,Cosine距离COS和Tanimoto系数TC相关,欧式距离越大说明特征之间的冗余性越低。
基于上述理论,采用MRMD算法对特征集进行特征选择的依据为max(MRi+MDi),其中MRi表示第i个抗氧化蛋白实例类别与特征之间的皮尔逊系数,MDi表示第i个抗氧化蛋白实例特征之间的欧式距离,其中maxMRi值的计算公式如下:
Figure BDA0003218053780000091
maxMDi值的计算公式如下:
Figure BDA0003218053780000101
其中PCC(·)表示皮尔逊系数,Fi表示第i个抗氧化蛋白实例的特征向量,Ci表示第i个抗氧化蛋白实例的类别向量,M表示抗氧化蛋白实例的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,
Figure BDA0003218053780000102
为Fi中所有元素的平均值,
Figure BDA0003218053780000103
为Ci中所有元素的平均值,EDi表示第i个抗氧化蛋白实例特征之间的Euclidean距离,COSi表示第i个抗氧化蛋白实例特征之间的Cosine距离,TCi表示第i个抗氧化蛋白实例特征之间的Tanimoto系数。
S5、采用随机森林对特征子集中的抗氧化蛋白进行分类训练,得到训练好的分类模型。
随机森林算法是一种集成算法,通过集成学习的思想将多棵树集成在一起。该算法的n_estimators参数对算法的性能有重要影响,n_estimators也就是最大的弱学习器的个数。一般来说n_estimators太小,容易欠拟合,n_estimators太大,计算量会太大,并且n_estimators到一定的数量后,再增大n_estimators获得的模型提升会很小,所以一般选择一个适中的数值。
步骤S5包括以下分步骤S51~S54:
S51、初始化设置随机森林算法的最大的子树的个数参数n_estimators;
S52、初始化设置参数调整范围为0-200,且步长为10;
S53、计算使用该参数条件下随机森林算法对抗氧化蛋白进行分类,采用交叉验证方法得到分类精度;
其中,分类精度的计算公式为:
Figure BDA0003218053780000104
其中ACC表示使用极限学习机算法对抗氧化蛋白进行分类得到的分类精度,TP表示预测正确的抗氧化蛋白数量,FP表示预测正确的非抗氧化蛋白数量,TN表示预测错误的抗氧化蛋白数量,FN表示预测错误的非抗氧化蛋白数量。
S54、获取分类精度最高时的随机森林算法的参数,得到在该训练集下最优的分类模型。
S6、采用优化后的极限学习机算法,结合MapReduce并行计算对特征子集中的抗氧化蛋白进行分类训练,得到训练好的分类模型。
步骤S6包括以下分步骤S61~S64:
S61、根据S4所述得到的最佳特征子集筛选出测试集的特征,作为待测试的数据集;
S62、将分类模型用于待测试的数据集进行分类抗氧化蛋白,得到分类结果;
S63、返回步骤S3对训练集进行不平衡处理,随后进行步骤S4,S5,S6;
S64、待步骤S3中全部算法都遍历后,选择最适合于抗氧化蛋白数据的不平衡处理方法,从而确定最终的分类模型。
本发明实施例中,对分类效果进行评价的指标包括SE、SP、ACC和MCC,其计算公式如下:
Figure BDA0003218053780000111
Figure BDA0003218053780000112
Figure BDA0003218053780000113
Figure BDA0003218053780000114
其中TP表示预测正确的抗氧化蛋白数量,FP表示预测正确的非抗氧化蛋白数量,TN表示预测错误的抗氧化蛋白数量,FN表示预测错误的非抗氧化蛋白数量。
下面以一组具体实验例对本发明的识别效果作进一步描述。
首先,已经证实一系列特征提取方法对抗氧化蛋白的分类是有效的,在实验的规划阶段,我们选择了CKSAAP和CTD,和基于蛋白质-蛋白质相互作用的特征CT算法分别组合,寻找最适合目标蛋白的特征组合。其中,CKSAAP分为仅含3-间隔残基对并包含g间隔残基对(g=1,2,3,4,5)。另外,我们采用单一变量的原则,控制其他因素不变,只改变特征提取的方法,观察其对实验结果的影响。特征提取完成后,利用SMOTE和MRMD进行不平衡处理,选择最优特征子集。最终结果是通过使用随机森林分类器和10倍交叉验证方法获得的。结果表明,仅包含3-间隔残基对的组在分类上优于其他组,该结果如图2所示。
我们采用过采样、欠采样和组合方法来处理不平衡的训练数据集。用于过采样的方法是SMOTE、ADASYN、BorderlineSMOTE和SVMSMOTE。处理后的训练集样本达到均衡,分别有1500个正例和1500个负例。ClusterCentroids和NearMiss是欠采样的方法。ClusterCentroids的参数设置是默认的。NearMiss方法的版本参数取1、2、3用于非平衡数据处理。因此,有四种实际的欠采样方法。处理后的训练数据包含200个正例和200个负例。SMOTEENN和SMOTETomek分别采用SMOTE与ENN和Tomek相结合,是组合方法。在我们的研究中,两者的参数设置也是默认的。SMOTEENN之后,处理后的数据集也是不平衡的,其中包括1498个抗氧化蛋白质和29个非抗氧化蛋白质。虽然处理后的数据还处于不平衡状态,但大部分都是抗氧化蛋白,这有助于我们筛选出信号明显的特征。与SMOTEENN不同,SMOTETomek处理的数据是平衡的,包括1500个正例和1500个负例。
训练数据不平衡后,通过MRMD选择最优特征子集,根据不同的特征子集对测试集进行分类。实验结果表明,通过过采样方法处理的数据得到的模型具有更高的灵敏度(SE)、特异性(SP)、准确度(ACC)、马修相关系数(MCC)比其他两种方法好。原因是抗氧化蛋白较少,重复采样样品以加强其信号特征更有利于筛选出抗氧化蛋白。实验结果的比较见图3和图4。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (10)

1.基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于包括以下步骤:
步骤一:获取原始抗氧化蛋白数据集,并对原始抗氧化蛋白数据集进行分层随机抽样,分为测试集和训练集;
步骤二:分别对训练集和测试集中的每一个数据采用氨基酸组成特征提取算法和蛋白质-蛋白质相互作用特征提取算法分别提取特征向量,并将得到的两个特征向量进行拼接后得到完整的特征向量,然后利用训练集和测试集中所有数据对应的完整的特征向量得到训练集向量矩阵和测试集向量矩阵;
步骤三:采用多种不平衡处理算法分别对训练集向量矩阵进行不平衡处理,得到多个不平衡处理后的向量矩阵;
步骤四:采用MRMD算法分别对多个不平衡处理后的向量矩阵进行特征选择,得到多个特征子集;
步骤五:采用随机森林分别对多个特征子集中的抗氧化蛋白进行分类,进而得到多个训练好的分类模型;
步骤六:将多个训练好的分类模型应用在测试集向量矩阵中,得到分类结果,然后根据分类结果选择其中适合于抗氧化蛋白数据的不平衡处理方法,进而确定最终的分类模型;
步骤七:利用最终的分类模型完成抗氧化蛋白的识别。
2.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述原始抗氧化蛋白数据集包括正例数据子集和反例数据子集,所述正例数据子集包括抗氧化蛋白序列文件,所述反例数据子集包括非抗氧化蛋白序列文件。
3.根据权利要求2所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述步骤一中获取原始抗氧化蛋白数据集之前还包括对下载的抗氧化蛋白序列数据进行格式判断和内容判断的步骤,所述格式判断和内容判断的具体步骤为:
首先,找到抗氧化蛋白序列数据文件以字符串>为开头的行,然后选取下一行的数据作为序列文本数据;之后,判断序列文本数据的内容中是否含有B、J、O、U、X或Z,若含有,则提示输入的文本不符合氨基酸fasta序列,并删除对应数据,若不含有,则保留数据。
4.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述氨基酸组成特征提取算法为CKSAAP,所述蛋白质-蛋白质相互作用特征提取算法为CT。
5.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述多种不平衡处理算法包括采样算法、欠采样算法和组合采样算法。
6.根据权利要求5所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于:
所述采样算法包括:SMOTE算法、BorderlineSMOTE算法、SVMSMOTE算法和ADASYN算法;
所述欠采样算法包括:ClusterCentroids算法和NearMiss算法;
所述组合采样算法包括:SMOTEENN算法和SMOTETomek算法。
7.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述步骤四中MRMD算法利用maxMRi和maxMDi对多个不平衡处理后的向量矩阵进行特征选择,其中,maxMRi表示为:
Figure FDA0003601398400000021
maxMDi表示为:
Figure FDA0003601398400000022
其中,MRi表示第i个抗氧化蛋白实例类别与特征之间的皮尔逊系数,MDi表示第i个抗氧化蛋白实例特征之间的欧式距离,PCC(·)表示皮尔逊系数,Fi表示第i个抗氧化蛋白实例的特征向量,Ci表示第i个抗氧化蛋白实例的类别向量,M表示抗氧化蛋白实例的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,
Figure FDA0003601398400000031
为Fi中所有元素的平均值,
Figure FDA0003601398400000032
为Ci中所有元素的平均值,EDi表示第i个抗氧化蛋白实例特征之间的Euclidean距离,COSi表示第i个抗氧化蛋白实例特征之间的Cosine距离,TCi表示第i个抗氧化蛋白实例特征之间的Tanimoto系数。
8.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述步骤五的具体步骤为:
步骤五一:初始化设置随机森林算法的最大的子树的个数参数n_estimators;
步骤五二:初始化设置参数调整范围为0-200,并设置步长为10;
步骤五三:根据步骤五二的参数范围分别对抗氧化蛋白进行分类,然后用交叉验证方法得到不同参数对应的分类精度;
步骤五四:取分类精度最高时对应的参数作为随机森林算法的最终参数,进而得到训练好的分类模型。
9.根据权利要求8所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述分类精度表示为:
Figure FDA0003601398400000033
其中ACC表示使用随机森林算法对抗氧化蛋白进行分类得到的分类精度,TP表示预测正确的抗氧化蛋白数量,FP表示预测正确的非抗氧化蛋白数量,TN表示预测错误的抗氧化蛋白数量,FN表示预测错误的非抗氧化蛋白数量。
10.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述步骤六中根据分类结果选择其中适合于抗氧化蛋白数据的不平衡处理方法通过评价指标进行,
所述评价指标为:
Figure FDA0003601398400000034
Figure FDA0003601398400000041
Figure FDA0003601398400000042
Figure FDA0003601398400000043
其中,SE表示分类的灵敏度,SP表示分类的特异性,ACC表示使用随机森林算法对抗氧化蛋白进行分类得到的分类精度,MCC表示马修相关系数,TP表示预测正确的抗氧化蛋白数量,FP表示预测正确的非抗氧化蛋白数量,TN表示预测错误的抗氧化蛋白数量,FN表示预测错误的非抗氧化蛋白数量;
选取ACC大于70%,且MCC大于0.6的模型,然后在选取的模型中选择SE与SP差值最小的模型作为最终模型。
CN202110950026.2A 2021-08-18 2021-08-18 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法 Active CN113611355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110950026.2A CN113611355B (zh) 2021-08-18 2021-08-18 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110950026.2A CN113611355B (zh) 2021-08-18 2021-08-18 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法

Publications (2)

Publication Number Publication Date
CN113611355A CN113611355A (zh) 2021-11-05
CN113611355B true CN113611355B (zh) 2022-07-29

Family

ID=78308951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110950026.2A Active CN113611355B (zh) 2021-08-18 2021-08-18 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法

Country Status (1)

Country Link
CN (1) CN113611355B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113971985A (zh) * 2021-12-13 2022-01-25 电子科技大学长三角研究院(衢州) 基于集成学习的嗜热蛋白的识别方法、存储介质及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210871A (zh) * 2020-01-09 2020-05-29 青岛科技大学 基于深度森林的蛋白质-蛋白质相互作用预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080085607A (ko) * 2007-03-20 2008-09-24 정유진 지지벡터기계를 이용한 단백질들간의 상호작용 예측 방법
CN112906755A (zh) * 2021-01-27 2021-06-04 深圳职业技术学院 一种植物抗性蛋白识别方法、装置、设备和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210871A (zh) * 2020-01-09 2020-05-29 青岛科技大学 基于深度森林的蛋白质-蛋白质相互作用预测方法

Also Published As

Publication number Publication date
CN113611355A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN109948340B (zh) 一种卷积神经网络和XGBoost相结合的PHP-Webshell检测方法
CN114420212B (zh) 一种大肠杆菌菌株鉴定方法和系统
CN112164426A (zh) 基于TextCNN的药物小分子靶点活性预测方法和装置
CN113611355B (zh) 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法
CN115168856A (zh) 二进制代码相似性检测方法及物联网固件漏洞检测方法
Shujaat et al. Cr-prom: A convolutional neural network-based model for the prediction of rice promoters
AU2020356582A1 (en) Single cell RNA-seq data processing
CN112489723A (zh) 基于局部进化信息的dna结合蛋白预测方法
US20040191804A1 (en) Method of analysis of a table of data relating to gene expression and relative identification system of co-expressed and co-regulated groups of genes
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
Pratas et al. Metagenomic composition analysis of sedimentary ancient DNA from the Isle of Wight
CN111048145B (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
JP6356015B2 (ja) 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム
CN113724779B (zh) 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备
CN114627964B (zh) 一种基于多核学习预测增强子及其强度分类方法及分类设备
CN115579068A (zh) 一种基于预训练和深度聚类的宏基因组物种重建方法
Caliskan et al. Optimized cell type signatures revealed from single-cell data by combining principal feature analysis, mutual information, and machine learning
Zheng et al. Predicting enhancer-promoter interaction based on epigenomic signals
CN111009287B (zh) SLiMs预测模型的生成方法、装置、设备和存储介质
CN115083522B (zh) 细胞类型的预测方法、装置及服务器
CN111383716A (zh) 基因对的筛选方法、装置、计算机设备和存储介质
Cai et al. Application and research progress of machine learning in Bioinformatics
CN105468657B (zh) 一种获取领域重要知识点的方法和系统
US20230116904A1 (en) Selecting a cell line for an assay
CN117708569B (zh) 一种病原微生物信息的识别方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhao Yuming

Inventor after: Wang Guohua

Inventor after: Zhai Daixiao

Inventor after: Zou Quan

Inventor before: Wang Guohua

Inventor before: Zhai Daixiao

Inventor before: Zou Quan

GR01 Patent grant
GR01 Patent grant