CN112309495B

CN112309495B - 基于机器学习的海藻固碳蛋白预测方法及系统

Info

Publication number: CN112309495B
Application number: CN202011189909.8A
Authority: CN
Inventors: 高瑞; 张甘; 刘治平
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-12-09
Anticipated expiration: 2040-10-30
Also published as: CN112309495A

Abstract

本发明公开了一种基于机器学习的海藻固碳蛋白预测方法及系统，包括：获取海洋藻类蛋白质序列数据，对所述数据进行特征提取；对提取的特征进行筛选后，输入到训练好的机器学习分类器；输出海藻固碳蛋白的预测结果。本发明采用机器学习算法来预测蛋白质是否具有固碳功能，相比于基于传统的生物化学实验来对大量的生物序列进行分析的方式，能够有效节省人力物力，避免引入人为误差对结果或造成干扰，具有更高的预测效率和准确率。

Description

基于机器学习的海藻固碳蛋白预测方法及系统

技术领域

本发明涉及海藻固碳蛋白预测技术领域，尤其涉及一种基于机器学习的海藻固碳蛋白预测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

固碳蛋白在藻类的固碳过程中起着关键作用。准确快速鉴定藻类固碳蛋白对研究藻类固碳机制、建立海洋生物碳泵具有重要意义。基于生物序列可很好地分析研究生物的结构和功能，目前在海藻固碳蛋白领域的相关研究多是由传统的生化实验方法进行的，该种方法耗时较长，需投入大量人力物力、时间成本，且易引入人为误差。

发明内容

为了解决上述问题，本发明提出了一种基于机器学习的海藻固碳蛋白预测方法及系统，将机器学习算法用于藻类固碳蛋白的分类预测，能够预测蛋白质是否具有固碳功能，可以提高预测效率和准确率。

在一些实施方式中，采用如下技术方案：

一种基于机器学习的海藻固碳蛋白预测方法，包括：

获取海洋藻类蛋白质序列数据，对所述数据进行特征提取；

对提取的特征进行筛选后，输入到训练好的机器学习分类器；

输出海藻固碳蛋白的预测结果。

进一步地，对于预处理后的数据进行特征提取，具体包括：

分别使用从官能团、香农熵、基于自相关方法的理化性质和基于序列组成中提取的特征来对蛋白质序列数据进行数值描述，将蛋白质序列数据被转换成数字特征向量。

进一步地，对提取的特征进行筛选，具体包括：

计算特征的重要程度，按照特征的重要性进行排序，选择排名前N的特征作为最优特征。

进一步地，分别对不同的机器学习分类器进行训练，包括：朴素贝叶斯、支持向量机、神经网络、K近邻和随机森林；选取分类效果的最好的分类器作为最终的分类器。

进一步地，对于机器学习分类器进行训练的过程包括：

选取不同种类海洋藻类蛋白质序列数据构建数据集；

对所述数据集进行预处理，将处理后的数据集分为训练集和测试集；

对训练集中的数据进行特征提取，根据特征的重要程度筛选出N个特征作为最优特征；

将最优特征在不同的机器学习分类器上进行交叉验证，得到每种机器学习分类器的评价指标；

选取评价指标最优的分类器作为最终的分类器。

进一步地，对所述数据集进行预处理，包括：

清洗蛋白质fasta序列数据，去除质量不高、含有未知氨基酸的序列，使用cd-hit软件去除冗余避免同源偏置；

进行不平衡数据处理，使用ClusterCentroids函数实现欠采样，使用k-means算法的中心点来进行合成新样本。

进一步地，用K折交叉验证来检查预测变量的预期准确性，使用灵敏度，特异性，准确性和Mathew相关系数以及均衡准确率评估预测系统的性能。

在另一些实施方式中，采用如下技术方案：

一种基于机器学习的海藻固碳蛋白预测系统，包括：

用于获取海洋藻类蛋白质序列数据，对所述数据进行特征提取的装置；

用于对提取的特征进行筛选后，输入到训练好的机器学习分类器的装置；

用于输出海藻固碳蛋白的预测结果的装置。

在另一些实施方式中，采用如下技术方案：

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述的基于机器学习的海藻固碳蛋白预测方法。

在另一些实施方式中，采用如下技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述的基于机器学习的海藻固碳蛋白预测方法。

与现有技术相比，本发明的有益效果是：

(1)本发明采用机器学习算法来预测蛋白质是否具有固碳功能，相比于基于传统的生物化学实验来对大量的生物序列进行分析的方式，能够有效节省人力物力，避免引入人为误差对结果或造成干扰，具有更高的预测效率和准确率。

(2)本发明对不平衡数据集进行处理，避免出现样本倾斜，在保证结果科学合理、具备一定准确率的基础上，操作也更为方便快捷，经该方法处理后，模型的灵敏性和特异性均在90％以上，使得分类器更加准确、性能更优。

(3)本发明分别对多种机器学习分类器进行预测，筛选出预测效果最好的分类器，能够针对不同的数据和特征建立有针对性的分类模型，进一步提高分类结果的准确性。

本发明的其他特征和附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本方面的实践了解到。

附图说明

图1为本发明实施例中基于机器学习的海藻固碳蛋白预测方法流程图；

图2为本发明实施例中对机器学习分类器进行训练的过程示意图；

图3为本发明实施例中特征重要程度折线图；

图4为本发明实施例中特征筛选前后各类特征的数量对比；

图5为本发明实施例中五种分类器的准确率(Acc)条形图；

图6为本发明实施例中五种分类器的均衡准确率条形图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

在一个或多个实施方式中，公开了一种基于机器学习的海藻固碳蛋白预测方法，参照图1，包括以下步骤：

步骤(1)：获取海洋藻类蛋白质序列数据，对所述数据进行特征提取；

具体地，单个特征提取策略只能获得片面的信息，不同种类的特征提取方法可以相互补充，以获取蛋白质样本有价值的信息。

本实施例中，使用从官能团，香农熵，理化性质和序列组成中提取的各种特征来对蛋白质样本进行数值描述，将所有蛋白质序列都被转换成数字特征向量；特征的提取策略包含以下几个方面：

1)官能团。官能团决定有机化合物的化学性质。蛋白质的20种氨基酸可分为10组官能团，分别为苯基(F/W/Y)、羧基(D/E)、咪唑(H)、伯胺(K)、胍基(R)、硫醇(C)、硫(M)、氨基(Q/N)、羟基(S/T)和非极性(A/G/I/L/V/P)。

计算蛋白质序列中10种官能团的频率作为一类特征，公式如下：

其中，N(gi)表示给定蛋白质序列中官能团gi的数量，L是给定蛋白质样本的序列长度。

2)香农熵。蛋白质序列中的氨基酸分布具有不确定性。在信息理论中，熵表示系统的均匀或混乱程度，反映系统中随机变量的不确定性。香农熵表示为：

分别计算氨基酸和二肽的香农熵作为第二类特征。P_i(i＝1,2,…,n)为20种氨基酸或400种二肽在蛋白质序列中出现的频率。

3)基于自相关方法的理化性质。

采用自动交叉协方差(ACC)模型从理化特性中捕获信息。计算ACC模型时包括三个物理化学性质，包括疏水性，亲水性和质量。氨基酸的疏水性和亲水性在蛋白质折叠，催化机制以及与其他分子的相互作用中起着重要作用。属性的值从氨基酸索引数据库中获得。蛋白质序列的自相关方法包含自动协方差，交叉协方差和自动交叉协方差。这类特征通过序列中两个低聚物的理化属性，描绘了层次相关性。自动协方差(AC)、交叉协方差(CC)的方法分别评价了相同或不同理化性质下相隔lag距离的两个氨基酸的相关度。ACC方法是AC和CC的综合。

公式如下：

其中，u为理化性质，L为序列长度，P_u(R_i)为氨基酸R_i在理化性质u下的值，

是整个序列在理化性质u下的平均值。

本实施例中，使用自动协方差、交叉协方差的方法，提取三个理化属性(疏水性、亲水性、质量)的特征，经过参数调优，最终选定lag距离取3，此时向量为27维。

自动交叉协方差方法共产生向量N*N*lag维,N为理化性质个数，lag是两个氨基酸间的距离参数，其中自动协方差方法产生N*lag维，交叉协方差方法产生N*(N-1)*lag维。

4)基于序列组成。蛋白质序列的氨基酸组成的方法主要为k-mers，k-mers是指蛋白质序列中长度为k的所有子序列。这类特征提取方法描述了蛋白质序列局部顺序信息。给定一个有着L个氨基酸残基的蛋白质序列R，如：

R＝R₁R₂R₃R₄R₅R₆…R_i…R_L

其中R_i表示在序列第i个位置的氨基酸残基。在上式中，长度为k的连续序列数目为L-k+1，每个残基只有20种可能(A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y)，所以k-mers的数目有20^k种可能，例如2-mer有400种可能。统计并归一化k-mers的所有情况的频率数，组成特征向量。

步骤(2)：对提取的特征进行筛选后，输入到训练好的机器学习分类器；

并非所有提取的特征都可以有助于分类，特征集中的高维向量常常会导致过度拟合、信息冗余和维数灾难，需使用特征选择技术选择高区分度的特征来增强模型性能和减少运算时间。

本实施例中，使用python中的树模型计算特征的重要程度；按照特征的重要性进行排序，选择排名靠前的特征，去除对分类作用很小的特征。

首先对2mer中的400维特征向量进行特征排序，选取前20维向量(WT、WK、HY、HG、YF、MR、YR、YW、FD、KL、EF、IH、WR、YS、DI、FG、EC、DN、GF、FH)，然后同其他特征提取方法共59维向量，再次进行特征重要程度排序。筛选对固碳蛋白分类区别力高的特征，去除无关冗余特征。最终选取最优特征子集，使用重要性排名前29维的特征。

其中，基于氨基酸的字母表，WT、WK、HY、HG、YF、MR、YR、YW、FD、KL、EF、IH、WR、YS、DI、FG、EC、DN、GF、FH分别为20种特征重要度排名靠前的二肽，如WT是色氨酸和苏氨酸组成的二肽。

图3给出了特征重要程度折线图，图3中横轴是29维最优特征集合的特征向量名称，纵轴是这些特征向量的重要度数值。由该图可直观看出各个特征对于分类结果的贡献程度。

图4给出了特征筛选前后各类特征的数量对比，如官能团类的特征筛选前共提取了10维，筛选后保留7维。

步骤(3)：输出海藻固碳蛋白的预测结果。

本实施例种，分别对不同的机器学习分类器进行训练，包括：朴素贝叶斯、支持向量机、神经网络、K近邻和随机森林；选取分类效果的最好的分类器作为最终的分类器。

参照图2，具体的训练过程包括：

选取来自UniProt数据库的海洋藻类蛋白质序列数据构建数据集。共包含5个主要的固碳藻种门类：蓝藻门、绿藻门、红藻门、褐藻门、硅藻门。清洗蛋白质fasta序列数据，去除质量不高、含有未知氨基酸的序列，使用cd-hit软件去除冗余避免同源偏置。经处理后的正样本序列共320条。因正负样本数量悬殊较大，为计算简便又不失合理性，从负样本中随机抽取正样本约5倍的序列。经处理后的负样本序列共1600多条。不平衡数据集易出现样本倾斜，且易出现准确率虽高，但灵敏度特异性低的情况，因此需要进一步的处理。

常用的不平衡数据的处理包括过采样、欠采样、移动分类阈值等。SMOTE算法(Synthetic Minority Oversampling Technique)是经典的过采样方法，其基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。首先，随机选择一个少数类样本，计算它到少数类样本集中所有样本的距离，得到它的k个近邻。再根据样本不平衡比例设置一个采样比例以确定采样倍率n。对于每一个少数类样本x，从其k近邻中随机选择若干个，对其每个近邻选择一个在[0,1]之间的随机数乘以随机近邻和x的特征向量的差，然后加x，以此作为新的样本。

x_new＝x+rand(0，1)×(x^--x)

欠采样方法是采样多数类的数据，减少样本的个数，使其与少数类数目接近。但随机丢弃多数类类样本，可能会丢失一些重要信息。

本公开使用ClusterCentroids函数实现欠采样，使用k-means算法的中心点来进行合成新样本。

将处理后的数据集分为训练集和测试集。

对训练集中的数据进行特征提取和筛选，特征提取和筛选的方法均是采用上述步骤(1)和步骤(2)中的方法，此处不再赘述。

根据评价指标选择合适的分类器并进行参数调优；将所获得的最优特征子集在不同的机器学习分类器上进行多次5折交叉验证，得到每种机器学习分类器的评价指标。

本实施例中，使用多种评价指标来衡量预测器性能的好坏，也就是分类器的分类效果。用K折交叉验证来检查预测变量的预期准确性，使用灵敏度(Sn)，特异性(Sp)，准确性(Acc)和Mathew相关系数(MCC)评估预测系统的性能。灵敏性和特异性的均值也被作为一个评价指标，称为均衡准确率(As)。

本实施例共使用朴素贝叶斯、支持向量机、神经网络、K近邻、随机森林五种分类器进行实验测试，获得ROC曲线及各项性能指标。经对比分析，随机森林分类器的性能最优。

图5给出了五种分类器的准确率(Acc)条形图，左边表示欠采样方法，右边表示过采样方法。可以看出，除神经网络方法外，其余四种分类器准确率都在90％以上，以随机森林分类器的准确率最高，在95％以上。

图6给出了五种分类器的均衡准确率条形图，As为特异性和灵敏度的均值，在不平衡数据集中有较好的评判作用，左边表示欠采样方法，右边表示过采样方法。

实施例二

在一个或多个实施方式中，公开了一种基于机器学习的海藻固碳蛋白预测系统，包括：

用于输出海藻固碳蛋白的预测结果的装置。

需要说明的是，上述装置的具体实现过程均采用实施例一中公开的方式实现，不再赘述。

实施例三

在一个或多个实施方式中，公开了一种终端设备，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

实施例四

在一个或多个实施方式中，公开了一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并实施例一中所述的基于机器学习的海藻固碳蛋白预测方法。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于机器学习的海藻固碳蛋白预测方法，其特征在于，包括：

获取海洋藻类蛋白质序列数据，对所述数据预处理并进行特征提取；

输出海藻固碳蛋白的预测结果；

对于预处理后的数据进行特征提取，具体包括：

分别使用从官能团、香农熵、基于自相关方法的理化性质和基于序列组成中提取的特征来对蛋白质序列数据进行数值描述，将蛋白质序列数据被转换成数字特征向量；

所述基于序列组成提取特征为采用2mer方法进行特征提取；

对提取的特征进行筛选，具体为：

首先对2mer中的400维特征向量进行特征排序，选取前20维向量，20维向量分别为WT、WK、HY、HG、YF、MR、YR、YW、FD、KL、EF、IH、WR、YS、DI、FG、EC、DN、GF、FH，然后同官能团、香农熵、基于自相关方法的理化性质提取的特征共59维向量，再次进行特征重要程度排序；筛选对固碳蛋白分类区别力高的特征，去除无关冗余特征，最终选取最优特征子集，使用重要性排名前29维的特征；

其中，基于氨基酸的字母表，WT、WK、HY、HG、YF、MR、YR、YW、FD、KL、EF、IH、WR、YS、DI、FG、EC、DN、GF、FH分别为20种特征重要度排名靠前的二肽。

2.如权利要求1所述的一种基于机器学习的海藻固碳蛋白预测方法，其特征在于，分别对不同的机器学习分类器进行训练，包括：朴素贝叶斯、支持向量机、神经网络、K近邻和随机森林；选取分类效果的最好的分类器作为最终的分类器。

3.如权利要求1所述的一种基于机器学习的海藻固碳蛋白预测方法，其特征在于，对于机器学习分类器进行训练的过程包括：

选取不同种类海洋藻类蛋白质序列数据构建数据集；

选取评价指标最优的分类器作为最终的分类器。

4.如权利要求3所述的一种基于机器学习的海藻固碳蛋白预测方法，其特征在于，对所述数据集进行预处理，包括：

5.如权利要求3所述的一种基于机器学习的海藻固碳蛋白预测方法，其特征在于，用K折交叉验证来检查预测变量的预期准确性，使用灵敏度，特异性，准确性和Mathew相关系数以及均衡准确率评估预测系统的性能。

6.一种基于机器学习的海藻固碳蛋白预测系统，其特征在于，包括：

用于获取海洋藻类蛋白质序列数据，对所述数据预处理并进行特征提取的装置；

用于输出海藻固碳蛋白的预测结果的装置；

对于预处理后的数据进行特征提取，具体包括：

所述基于序列组成提取特征为采用2mer方法进行特征提取；

对提取的特征进行筛选，具体为：

7.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行权利要求1-5任一项所述的基于机器学习的海藻固碳蛋白预测方法。

8.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行权利要求1-5任一项所述的基于机器学习的海藻固碳蛋白预测方法。