CN113611355B

CN113611355B - 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法

Info

Publication number: CN113611355B
Application number: CN202110950026.2A
Authority: CN
Inventors: 赵玉茗; 汪国华; 翟祎笑; 邹权
Original assignee: Northeast Forestry University; Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Northeast Forestry University; Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2022-07-29
Anticipated expiration: 2041-08-18
Also published as: CN113611355A

Abstract

基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法，涉及医药技术领域，针对现有技术中根据序列信息预测的二级结构，使用PSI‑PRED等工具提取蛋白质二级结构信息的特征时，预测的蛋白质二级结构存在误差，进而导致抗氧化蛋白识别准确低的问题，本申请提出了一种全新的抗氧化蛋白识别方法，利用蛋白质‑蛋白质相互作用的特征和氨基酸的组成来表达抗氧化蛋白序列的特征，能够实现对抗氧化蛋白的准确识别，为相应蛋白质定位、疾病分析及药物研究提供了理论基础。本申请在处理不平衡的抗氧化蛋白数据时引入了多种不平衡数据处理方法，最终使用SMOTE算法处理数据得到的模型最优，优化了抗氧化蛋白的识别效果。

Description

基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法

技术领域

本发明涉及医药技术领域，具体为基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法。

背景技术

活性氧(ROS)是代谢过程的产物。ROS浓度过高会产生过多的氧自由基，生物体内的抗氧化系统不能足够快地消除ROS，从而导致氧化应激。过度的氧化应激会影响大分子结构的破坏，甚至导致细胞死亡，从而导致衰老并引发遗传各种疾病，例如癌症、急慢性肾脏疾病、神经退行性疾病、心血管疾病、糖尿病和动脉粥样硬化。抗氧化蛋白可以平衡这种氧化应激反应，防止过高浓度的ROS引起细胞损伤。然而，传统鉴定抗氧化蛋白的方法存在耗时且成本高的问题，例如蛋白质印迹法。随着基因组数据的不断完善，测序技术和计算机技术、数据挖掘和机器学习方法被用来识别抗氧化蛋白的方法已经有很多。但仍有一些不足之处尚未完全解决。(1)大多数方法在训练样本时没有考虑数据不平衡对分类的影响。特征选择后的特征子集更能代表更多的类型(非抗氧化蛋白)，而我们需要找到的是一个更能代表抗氧化蛋白的特征子集。(2)根据序列信息预测的二级结构，使用PSI-PRED等工具提取蛋白质二级结构信息的特征。整个过程复杂且耗时。此外，预测的蛋白质二级结构存在误差，也会影响特征的准确性。因此，急需开发一款能够准确且快速鉴定抗氧化蛋白的模型。

发明内容

本发明的目的是：针对现有技术中根据序列信息预测的二级结构，使用PSI-PRED等工具提取蛋白质二级结构信息的特征时，预测的蛋白质二级结构存在误差，进而导致抗氧化蛋白识别准确低的问题，提出基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白的方法。

本发明为了解决上述技术问题采取的技术方案是：基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法，包括以下步骤：

步骤一：获取原始抗氧化蛋白数据集，并对原始抗氧化蛋白数据集进行分层随机抽样，分为测试集和训练集；

步骤二：分别对训练集和测试集中的每一个数据采用氨基酸组成特征提取算法和蛋白质-蛋白质相互作用特征提取算法分别提取特征向量，并将得到的两个特征向量进行拼接后得到完整的特征向量，然后利用训练集和测试集中所有数据对应的完整的特征向量得到训练集向量矩阵和测试集向量矩阵；

步骤三：采用多种不平衡处理算法分别对训练集向量矩阵进行不平衡处理，得到多个不平衡处理后的向量矩阵；

步骤四：采用MRMD算法分别对多个不平衡处理后的向量矩阵进行特征选择，得到多个特征子集；

步骤五：采用随机森林分别对多个特征子集中的抗氧化蛋白进行分类训练，得到多个训练好的分类模型；

步骤六：将多个训练好的分类模型应用在测试集向量矩阵中，得到分类结果，然后根据分类结果选择其中适合于抗氧化蛋白数据的不平衡处理方法，进而确定最终的分类模型；

步骤七：利用最终的分类模型完成抗氧化蛋白的识别。

进一步的，所述原始抗氧化蛋白数据集包括正例数据子集和反例数据子集，所述正例数据子集包括抗氧化蛋白序列文件，所述反例数据子集包括非抗氧化蛋白序列文件。

进一步的，所述步骤一中获取原始抗氧化蛋白数据集之前还包括对下载的抗氧化蛋白序列数据进行格式判断和内容判断的步骤，所述格式判断和内容判断的具体步骤为：

首先，找到抗氧化蛋白序列数据文件以字符串>为开头的行，然后选取下一行的数据作为序列文本数据；之后，判断序列文本数据的内容中是否含有B、J、O、U、X或Z，若含有，则提示输入的文本不符合氨基酸fasta序列，并删除对应数据，若不含有，则保留数据。

进一步的，所述氨基酸组成特征提取算法为CKSAAP，所述蛋白质-蛋白质相互作用特征提取算法为CT。

进一步的，所述多种不平衡处理算法包括采样算法、欠采样算法和组合采样算法。

进一步的，所述采样算法包括：SMOTE算法、BorderlineSMOTE算法、SVMSMOTE算法和ADASYN算法；

所述欠采样算法包括：ClusterCentroids算法和NearMiss算法；

所述组合采样算法包括：SMOTEENN算法和SMOTETomek算法。

进一步的，所述步骤四中MRMD算法利用maxMR_i和maxMD_i对多个不平衡处理后的向量矩阵进行特征选择，其中，maxMR_i表示为：

maxMD_i表示为：

其中，MR_i表示第i个抗氧化蛋白实例类别与特征之间的皮尔逊系数，MD_i表示第i个抗氧化蛋白实例特征之间的欧式距离，PCC(·)表示皮尔逊系数，F_i表示第i个抗氧化蛋白实例的特征向量，C_i表示第i个抗氧化蛋白实例的类别向量，M表示抗氧化蛋白实例的特征维数，S_FiCi表示F_i中所有元素和C_i中所有元素的协方差，S_Fi表示F_i中所有元素的标准差，S_Ci表示C_i中所有元素的标准差，f_k表示F_i中的第k个元素，c_k表示C_i中的第k个元素，N为F_i和C_i中的元素数量，

为F_i中所有元素的平均值，

为C_i中所有元素的平均值，ED_i表示第i个抗氧化蛋白实例特征之间的Euclidean距离，COS_i表示第i个抗氧化蛋白实例特征之间的Cosine距离，TC_i表示第i个抗氧化蛋白实例特征之间的Tanimoto系数。

进一步的，所述步骤五的具体步骤为：

步骤五一：初始化设置随机森林算法的最大的子树的个数参数n_estimators；

步骤五二：初始化设置参数调整范围为0-200，并设置步长为10；

步骤五三：根据步骤五二的参数范围分别对抗氧化蛋白进行分类，然后用交叉验证方法得到不同参数对应的分类精度；

步骤五四：取分类精度最高时对应的参数作为随机森林算法的最终参数，进而得到训练好的分类模型。

进一步的，所述分类精度表示为：

其中ACC表示使用随机森林算法对抗氧化蛋白进行分类得到的分类精度，TP表示预测正确的抗氧化蛋白数量，FP表示预测正确的非抗氧化蛋白数量，TN表示预测错误的抗氧化蛋白数量，FN表示预测错误的非抗氧化蛋白数量。

进一步的，所述步骤六中根据分类结果选择其中适合于抗氧化蛋白数据的不平衡处理方法通过评价指标进行，

所述评价指标为：

其中，SE表示分类的灵敏度，SP表示分类的特异性，ACC表示使用随机森林算法对抗氧化蛋白进行分类得到的分类精度，MCC表示马修相关系数，TP表示预测正确的抗氧化蛋白数量，FP表示预测正确的非抗氧化蛋白数量，TN表示预测错误的抗氧化蛋白数量，FN表示预测错误的非抗氧化蛋白数量；

选取ACC大于70％，且MCC大于0.6的模型，然后在选取的模型中选择SE与SP差值最小的模型作为最终模型。

本发明的有益效果是：

(1)本申请提出了一种全新的抗氧化蛋白识别方法，利用蛋白质-蛋白质相互作用的特征和氨基酸的组成来表达抗氧化蛋白序列的特征，能够实现对抗氧化蛋白的准确识别，为相应蛋白质定位、疾病分析及药物研究提供了理论基础。

(2)本申请在处理不平衡的抗氧化蛋白数据时引入了多种不平衡数据处理方法，最终使用SMOTE算法处理数据得到的模型最优，优化了抗氧化蛋白的识别效果。

(3)本申请通过使用随机森林算法构建识别抗氧化蛋白的分类器模型，使得模型识别效率显著增加，大大提高了研究人员的工作效率。

附图说明

图1为本申请的流程图；

图2为不同特征提取方法组合建立的模型的预测结果示意图；

图3为不同数据不平衡处理方法建立的模型的预测结果示意图；

图4为三大类采样算法建立的模型的预测结果平均值的示意图。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白的方法，包括以下步骤：

S1、下载抗氧化蛋白序列数据，获取待处理的原始抗氧化蛋白数据集，分层抽样随机选择一部分数据为测试集，其余数据作为训练集。

S2、采用CKSAAP和和CT特征提取抗氧化蛋白数据集的向量特征，得到两个特征文件，并将两个特征文件拼接，得到完整的特征集。

S3、采用多种不平衡处理算法对训练集数据进行不平衡处理，使得数据集达到平衡状态；

S4、采用MRMD算法对特征集进行特征选择，得到特征之间差异性大且特征和标签类别之间具有强相关性的特征子集。

S5、采用随机森林对特征子集中的抗氧化蛋白进行分类训练，得到训练好的分类模型；

S6、将训练好的分类模型应用在测试集中，选择最适合于抗氧化蛋白数据的不平衡处理方法，从而确定最终的分类模型。

步骤S1中获取的原始抗氧化蛋白数据集，包括正例数据集和反例数据集，正例数据集为待分类的抗氧化蛋白序列文件，反例数据集为待分类的非抗氧化蛋白序列文件。

步骤S1中在获取待处理的原始抗氧化蛋白特征数据集之前，需要对下载的抗氧化蛋白序列数据文件进行格式判断和内容判断；格式判断的具体方法为：当读入的抗氧化蛋白序列数据文件的行以字符串“>”为开头时，则取加一行的数据为序列文本数据；内容判断的具体方法为：读取的序列文本数据的内容是否由“G”、“A”、“V”“L”、“I”、“P”、“F”、“Y”、“W”、“S”、“T”、“C”、“M”、“N”、“Q”、“D”、“E”、“K”、“R”、或“H”20种字母组成，若有这20种字母之外的字母出现，则提示输入的文本不符合氨基酸fasta序列。

步骤S2中的特征提取算法包括氨基酸组成特征提取算法和蛋白质-蛋白质相互作用特征提取算法；氨基酸组成特征提取算法为k间隔氨基酸对的组成(Compositionof k-Spaced Amino Acid Pairs)特征提取算法；蛋白质-蛋白质相互作用特征提取算法为联合三元组(Conjoint Triad)特征提取算法。

步骤S3中的多种不平衡处理算法包括过采样算法、欠采样算法和组合采样算法；

所述过采样算法包括：SMOTE算法，BorderlineSMOTE算法，SVMSMOTE算法和ADASYN算法；

所述欠采样算法包括：ClusterCentroids算法和NearMiss算法，其中NearMiss算法的参数version分别为1，2，3；

所述组合采样算法包括：SMOTEENN算法和SMOTETomek算法。

利用上述不平衡处理算法将训练集处理为平衡状态，随后再作为MRMD算法的输入，进行特征选择的降维处理，便于提取出适合识别抗氧化蛋白的特征。

步骤S4中采用MRMD算法对特征集进行特征选择的依据为max(MR_i+MD_i)，其中MR_i表示第i个抗氧化蛋白实例类别与特征之间的皮尔逊系数，MD_i表示第i个抗氧化蛋白实例特征之间的欧式距离，其中maxMR_i值的计算公式如下：

maxMD_i值的计算公式如下：

其中PCC(·)表示皮尔逊系数，F_i表示第i个抗氧化蛋白实例的特征向量，C_i表示第i个抗氧化蛋白实例的类别向量，M表示抗氧化蛋白实例的特征维数，S_FiCi表示F_i中所有元素和C_i中所有元素的协方差，S_Fi表示F_i中所有元素的标准差，S_Ci表示C_i中所有元素的标准差，f_k表示F_i中的第k个元素，c_k表示C_i中的第k个元素，N为F_i和C_i中的元素数量，

为F_i中所有元素的平均值，

步骤S5包括以下分步骤：

S51、初始化设置随机森林算法的最大的子树的个数参数n_estimators；

S52、初始化设置参数调整范围为0-200，且步长为10；

S53、计算使用该参数条件下随机森林算法对抗氧化蛋白进行分类，采用交叉验证方法得到分类精度；

S54、获取分类精度最高时的随机森林算法的参数，得到在该训练集下最优的分类模型。

步骤S53中分类精度的计算公式为：

步骤S6包括以下分步骤：

S61、根据S4所述，得到的最佳特征子集筛选出测试集的特征，作为待测试的数据集；

S62、将分类模型用于待测试的数据集进行分类抗氧化蛋白，得到分类结果；

S63、返回步骤S3对训练集进行不平衡处理，随后进行步骤S4，S5，S6；

S64、待步骤S3中全部算法都遍历后，选择最适合于抗氧化蛋白数据的不平衡处理方法，从而确定最终的分类模型。

实施例：

现在将参考附图来详细描述本发明的示例性实施方式。应当理解，附图中示出和描述的实施方式仅仅是示例性的，意在阐释本发明的原理和精神，而并非限制本发明的范围。

本发明实施例提供了一种基于氨基酸组成和蛋白质-蛋白质相互作用识别抗氧化蛋白的方法，如图1所示，包括以下步骤S1～S6：

S1、下载抗氧化蛋白序列数据文件，获取待处理的原始抗氧化蛋白特征数据集。

其中，获取的原始抗氧化蛋白特征数据集，包括正例数据集和反例数据集，正例数据集为待分类的抗氧化蛋白序列文件，反例数据集为非抗氧化蛋白序列文件。

本发明实施例中，序列数据文件总共有2个，分别为抗氧化蛋白和非抗氧化蛋白(正例为抗氧化蛋白，含有253个样本，负例为非抗氧化蛋白，含有1552个样本)。

本发明实施例中，在获取待处理的原始抗氧化蛋白特征数据集之前，需要对下载的抗氧化蛋白序列数据文件进行格式判断和内容判断。其中格式判断的具体方法为：当读入的抗氧化蛋白序列数据文件的行以字符串“>”为开头时，则取加一行的数据为序列文本数据。内容判断的具体方法为：读取的序列文本数据的内容是否由“G”、“A”、“V”“L”、“I”、“P”、“F”、“Y”、“W”、“S”、“T”、“C”、“M”、“N”、“Q”、“D”、“E”、“K”、“R”、或“H”20种字母组成，若有这20种字母之外的字母出现，则提示输入的文本不符合氨基酸fasta序列。

S2、采用两种特征提取算法提取原始抗氧化蛋白特征数据集的数据特征，得到两个特征文件。

本发明实施例中，特征提取算法包括氨基酸组成特征提取算法和蛋白质-蛋白质相互作用特征提取算法。

其中，氨基酸组成特征提取算法为k间隔氨基酸对的组成(Composition of k-Spaced Amino Acid Pairs)特征提取算法；蛋白质-蛋白质相互作用特征提取算法为联合三元组(Conjoint Triad)特征提取算法。

本发明实施例中，在k间隔氨基酸对的组成特征提取算法中，相邻核酸的发生频率k取k＝2和k＝3时分别得到一个特征文件，因此采用上述14中特征提取算法共得到15个特征文件，15个特征文件的维数分布如图2所示。

S3、采用多种不平衡处理算法对训练集数据进行不平衡处理，使得数据集达到平衡状态

本发明实施例中，多种不平衡处理算法包括过采样算法、欠采样算法和组合采样算法；

所述组合采样算法包括：SMOTEENN算法和SMOTETomek算法。

S4、采用MRMD算法对特征集进行特征选择，得到特征与实例类别具有强相关性且特征之间具有低冗余性的特征子集。

在MRMD算法中，特征与实例类别之间的相关性用皮尔逊系数表征，皮尔逊系数越大说明特征与实例类别之间的相关性越强，关系越紧密；特征之间的冗余性用欧式距离表征，欧式距离又与Euclidean距离ED，Cosine距离COS和Tanimoto系数TC相关，欧式距离越大说明特征之间的冗余性越低。

基于上述理论，采用MRMD算法对特征集进行特征选择的依据为max(MR_i+MD_i)，其中MR_i表示第i个抗氧化蛋白实例类别与特征之间的皮尔逊系数，MD_i表示第i个抗氧化蛋白实例特征之间的欧式距离，其中maxMR_i值的计算公式如下：

maxMD_i值的计算公式如下：

为F_i中所有元素的平均值，

S5、采用随机森林对特征子集中的抗氧化蛋白进行分类训练，得到训练好的分类模型。

随机森林算法是一种集成算法，通过集成学习的思想将多棵树集成在一起。该算法的n_estimators参数对算法的性能有重要影响，n_estimators也就是最大的弱学习器的个数。一般来说n_estimators太小，容易欠拟合，n_estimators太大，计算量会太大，并且n_estimators到一定的数量后，再增大n_estimators获得的模型提升会很小，所以一般选择一个适中的数值。

步骤S5包括以下分步骤S51～S54：

S52、初始化设置参数调整范围为0-200，且步长为10；

其中，分类精度的计算公式为：

其中ACC表示使用极限学习机算法对抗氧化蛋白进行分类得到的分类精度，TP表示预测正确的抗氧化蛋白数量，FP表示预测正确的非抗氧化蛋白数量，TN表示预测错误的抗氧化蛋白数量，FN表示预测错误的非抗氧化蛋白数量。

S6、采用优化后的极限学习机算法，结合MapReduce并行计算对特征子集中的抗氧化蛋白进行分类训练，得到训练好的分类模型。

步骤S6包括以下分步骤S61～S64：

S61、根据S4所述得到的最佳特征子集筛选出测试集的特征，作为待测试的数据集；

本发明实施例中，对分类效果进行评价的指标包括SE、SP、ACC和MCC，其计算公式如下：

其中TP表示预测正确的抗氧化蛋白数量，FP表示预测正确的非抗氧化蛋白数量，TN表示预测错误的抗氧化蛋白数量，FN表示预测错误的非抗氧化蛋白数量。

下面以一组具体实验例对本发明的识别效果作进一步描述。

首先，已经证实一系列特征提取方法对抗氧化蛋白的分类是有效的，在实验的规划阶段，我们选择了CKSAAP和CTD，和基于蛋白质-蛋白质相互作用的特征CT算法分别组合，寻找最适合目标蛋白的特征组合。其中，CKSAAP分为仅含3-间隔残基对并包含g间隔残基对(g＝1,2,3,4,5)。另外，我们采用单一变量的原则，控制其他因素不变，只改变特征提取的方法，观察其对实验结果的影响。特征提取完成后，利用SMOTE和MRMD进行不平衡处理，选择最优特征子集。最终结果是通过使用随机森林分类器和10倍交叉验证方法获得的。结果表明，仅包含3-间隔残基对的组在分类上优于其他组，该结果如图2所示。

我们采用过采样、欠采样和组合方法来处理不平衡的训练数据集。用于过采样的方法是SMOTE、ADASYN、BorderlineSMOTE和SVMSMOTE。处理后的训练集样本达到均衡，分别有1500个正例和1500个负例。ClusterCentroids和NearMiss是欠采样的方法。ClusterCentroids的参数设置是默认的。NearMiss方法的版本参数取1、2、3用于非平衡数据处理。因此，有四种实际的欠采样方法。处理后的训练数据包含200个正例和200个负例。SMOTEENN和SMOTETomek分别采用SMOTE与ENN和Tomek相结合，是组合方法。在我们的研究中，两者的参数设置也是默认的。SMOTEENN之后，处理后的数据集也是不平衡的，其中包括1498个抗氧化蛋白质和29个非抗氧化蛋白质。虽然处理后的数据还处于不平衡状态，但大部分都是抗氧化蛋白，这有助于我们筛选出信号明显的特征。与SMOTEENN不同，SMOTETomek处理的数据是平衡的，包括1500个正例和1500个负例。

训练数据不平衡后，通过MRMD选择最优特征子集，根据不同的特征子集对测试集进行分类。实验结果表明，通过过采样方法处理的数据得到的模型具有更高的灵敏度(SE)、特异性(SP)、准确度(ACC)、马修相关系数(MCC)比其他两种方法好。原因是抗氧化蛋白较少，重复采样样品以加强其信号特征更有利于筛选出抗氧化蛋白。实验结果的比较见图3和图4。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法，其特征在于包括以下步骤：

步骤五：采用随机森林分别对多个特征子集中的抗氧化蛋白进行分类，进而得到多个训练好的分类模型；

步骤七：利用最终的分类模型完成抗氧化蛋白的识别。

2.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法，其特征在于所述原始抗氧化蛋白数据集包括正例数据子集和反例数据子集，所述正例数据子集包括抗氧化蛋白序列文件，所述反例数据子集包括非抗氧化蛋白序列文件。

3.根据权利要求2所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法，其特征在于所述步骤一中获取原始抗氧化蛋白数据集之前还包括对下载的抗氧化蛋白序列数据进行格式判断和内容判断的步骤，所述格式判断和内容判断的具体步骤为：

4.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法，其特征在于所述氨基酸组成特征提取算法为CKSAAP，所述蛋白质-蛋白质相互作用特征提取算法为CT。

5.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法，其特征在于所述多种不平衡处理算法包括采样算法、欠采样算法和组合采样算法。

6.根据权利要求5所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法，其特征在于：

所述采样算法包括：SMOTE算法、BorderlineSMOTE算法、SVMSMOTE算法和ADASYN算法；

所述欠采样算法包括：ClusterCentroids算法和NearMiss算法；

所述组合采样算法包括：SMOTEENN算法和SMOTETomek算法。

7.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法，其特征在于所述步骤四中MRMD算法利用maxMR_i和maxMD_i对多个不平衡处理后的向量矩阵进行特征选择，其中，maxMR_i表示为：

maxMD_i表示为：

为F_i中所有元素的平均值，

8.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法，其特征在于所述步骤五的具体步骤为：

9.根据权利要求8所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法，其特征在于所述分类精度表示为：

10.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法，其特征在于所述步骤六中根据分类结果选择其中适合于抗氧化蛋白数据的不平衡处理方法通过评价指标进行，

所述评价指标为：