CN113764043A

CN113764043A - 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备

Info

Publication number: CN113764043A
Application number: CN202111063261.4A
Authority: CN
Inventors: 汪国华; 宫越; 邹权
Original assignee: Northeast Forestry University; Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Northeast Forestry University; Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-07
Anticipated expiration: 2041-09-10
Also published as: CN113764043B

Abstract

基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备，本发明涉及囊泡转运蛋白识别方法及识别设备。本发明的目的是为了解决现有囊泡转运蛋白的识别方法效率低、成本高的问题。过程为：S1、获取蛋白序列数据文件；S2、基于S1生成位置特异性得分矩阵，并采用AATP算法从位置特异性得分矩阵中提取特征向量；S3、使用不平衡处理算法得到处理后的特征向量；S4、采用MRMD算法得到特征向量集合；S5、采用XGBoost作为分类器，并进行超参数优化；S6、得到训练好的分类器模型；S7、将待测数据集输入训练好的分类器模型得到分类结果，完成对囊泡转运蛋白的识别。本发明用于蛋白识别领域。

Description

基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备

技术领域

本发明属于计算机技术领域，具体涉及囊泡转运蛋白识别方法及识别设备。

背景技术

近年来，囊泡转运蛋白的研究越来越受到重视。在转运的过程中，当大分子和颗粒不能穿过细胞膜时，囊泡转运蛋白将承担转运它们的任务。迄今为止，许多研究已经证实，异常的囊泡转运蛋白可能引起多种严重危害人类健康的疾病，如Hermansky-Pudlaksyndrome综合征。鉴于囊泡转运蛋白在真核细胞中的重要性，细胞生物学领域的研究人员一直致力于开发能够识别囊泡转运蛋白的实验技术，并取得了优异的成果，比如morpholino knockdown和dissection。这些技术可以准确地鉴定囊泡转运蛋白，但这些技术往往效率不高，成本昂贵，因此寻找一种省时、准确度高的方法来鉴定囊泡转运蛋白显得尤为必要。

发明内容

本发明的目的是为了解决现有囊泡转运蛋白的识别方法效率低、成本高的问题，而提出基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备。

基于位置特异性得分矩阵的囊泡转运蛋白识别方法具体过程为：

S1、获取蛋白序列数据文件；

S2、基于S1获取的蛋白序列数据文件，生成位置特异性得分矩阵，并采用AATP算法从位置特异性得分矩阵中提取特征向量；

S3、使用不平衡处理算法对S2提取的特征向量进行处理，得到处理后的特征向量；

S4、采用MRMD算法对S3得到的处理后的特征向量进行特征选择，得到特征与类别具有强相关性且特征之间具有低冗余性的特征向量集合；

S5、采用XGBoost作为分类器，并进行超参数优化；

S6、将S4得到的特征向量集合输入分类器进行分类训练，得到训练好的分类器模型；

S7、将待测数据集输入训练好的分类器模型得到分类结果，完成对囊泡转运蛋白的识别。

基于位置特异性得分矩阵的囊泡转运蛋白识别设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现基于位置特异性得分矩阵的囊泡转运蛋白识别方法。

本发明的有益效果为：

(1)本发明提出了一种全新的囊泡转运蛋白识别方法，利用位置特异性得分矩阵提取特征，能够实现对囊泡转运蛋白的准确识别，为相应药物开发提供了理论基础。

(2)本发明采用多种不平衡处理算法来降低数据的不平衡性并作出比较，最后选择性能最好的算法。然后使用MRMD降低特征维度，有效提高了模型的识别效果。

(3)本发明采用XGBoost作为学习器，并进行超参数优化，提升了模型对囊泡转运蛋白的处理效率，降低了识别成本。

附图说明

图1为本发明实施例提供的基于位置特异性矩阵的囊泡转运蛋白的识别方法流程图；

图2为本发明实施例提供的不同特征提取方法识别效果示意图；

图3为本发明实施例提供的不同不平衡处理方法识别效果示意图；

图4为本发明实施例提供的降维算法中不同参数识别效果示意图；

图5为本发明实施例提供的不同学习器识别效果示意图。

具体实施方式

具体实施方式一：本实施方式基于位置特异性得分矩阵的囊泡转运蛋白识别方法具体过程为：

S1、获取蛋白序列数据文件；

S1已知囊泡转运蛋白和非囊泡转运蛋白，不平衡处理算法的目的是将两种不平衡的数量进行平衡，将其中数量多的数据进行删减，以平衡两种数量；

使用不平衡处理算法降低S2提取的特征向量数据的不平衡性(数据不平衡是把所有的数据分为两种，一种囊泡转运蛋白，一种是囊泡转运以外的所有数据。然后这两种的数量差别较大，比如说囊泡转运蛋白只有2000个，但另一种有7000多个，两种的数量很不平衡，需要进行处理。)；

S5、采用XGBoost作为分类器，并进行超参数优化；

具体实施方式二：本实施方式与具体实施方式一不同的是，所述S1中获取蛋白序列数据文件；具体过程为：

获取蛋白序列数据文件(公知网站；比如UniProt数据库和Gene Ontology网站，UniProt数据库是一个专门提供蛋白质相关数据的网站)，蛋白序列数据文件包括正例数据集和反例数据集；

所述正例数据集为囊泡转运蛋白序列数据文件，反例数据集为非囊泡转运蛋白序列数据文件。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述S2中基于S1获取的蛋白序列数据文件，生成位置特异性得分矩阵，并采用AATP算法从位置特异性得分矩阵中提取特征向量；具体过程为：

S21、步骤S2中生成位置特异性得分矩阵之前，对S1获取的蛋白序列数据文件的格式和内容进行检错，有格式错误的文件会影响后续步骤，获得正确的蛋白序列数据文件；具体过程为：

S211、对S1获取的蛋白序列数据文件的格式进行检错，获得正确格式的蛋白序列数据文件；

S212、对S211获得的正确格式的蛋白序列数据文件的内容进行检错，获得格式和内容都正确的蛋白序列数据文件；

S22、使用PSI-BLAST程序将S21获得的正确的蛋白序列数据文件与NCBI的非冗余数据库进行比较，获得位置特异性得分矩阵；

位置特异性得分矩阵中包含了蛋白质的重要进化信息，从此矩阵中提取特征能够有效提高囊泡转运蛋白识别模型的效果。

采用特征提取算法AATP从位置特异性得分矩阵中提取特征向量。

特征提取算法AATP由两部分组成，分别是AAC和TPC；所述AAC，是20维的特征向量，表示蛋白质在进化过程中各个氨基酸被改变为其它类型的氨基酸的平均得分。所述TPC，是从转移概率矩阵得到的400维特征，能够有效避免序列中信息的丢失。

采用AATP算法能够有效从位置特异性得分矩阵中提取出最为重要的信息，进一步提高了囊泡转运蛋白的效率和性能。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述S211中对S1获取的蛋白序列数据文件的格式进行检错，获得正确格式的蛋白序列数据文件；具体过程为：

当S1获取的蛋白序列数据文件的行不以字符“>”为开头时，删除此行不规范数据；

当S1获取的蛋白序列数据文件的行以字符“>”为开头时，此行后续数据包括序列的标识号、位置等信息，下一行的数据为此蛋白序列数据文件的文本数据，则获得正确格式的蛋白序列数据文件；

蛋白序列数据文件有很多行

|＞Q20300

MMDQILGTNFTYEGAKEVARGLEGFSAKLAVGYIATIFGLKYYMKDRK

＞D3ZGS3

MEPRLPIGAQPLACLHMVAGLEMKGPLREPCVLTLARRNGQYELIIQLI

＞A2AUC9

MDSQRELAEELRLYQSTLLQDGLKDLLEEKKFIDCTLKAGDKSFPCHRLI

＞O18037

MEAANEVVNLFASQATTPSSLDAVTTLETVSTPTFIFPEVSDSQILQLMI

＞H2E7T7

MALDLLSSYAPGLVESLLTWKGAAGLAAAVALGYIIISNLPGRQVAKPS

＞Q04LE4

MISRFFRHLFEALKSLKRNGWMTVAAVSSVMITLTLVAIFASVIFNTAKI

＞G0Y287

MVKLVEVLQHPDEIVPILQMLHKTYRAKRSYKDPGLAFCYGMLQRVSF

“＞”后面的是蛋白质的标识号，就像第一行里的“Q20300”，然后紧接着的下一行是它的序列。

“＞”后面的信息最少要有一个标识号，其它信息非必需，有时还有length和type两个信息。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述S212中对S211获得的正确格式的蛋白序列数据文件的内容进行检错，获得格式和内容都正确的蛋白序列数据文件；具体过程为：

氨基酸共有20种，分别用20个字母表示，20个字母中不包含“B”、“J”、“O”、“U”、“X”或“Z”；

判断S211获得的正确格式的蛋白序列数据文件的字符串中是否包含“B”、“J”、“O”、“U”、“X”或“Z”，若字符串中不包含“B”、“J”、“O”、“U”、“X”或“Z”，则提示S211获取的蛋白序列数据文件无误，进行S22；

若字符串中包含“B”、“J”、“O”、“U”、“X”或“Z”，则提示S211获取的蛋白序列数据文件存在差错，需要对S211获取的蛋白序列数据文件中包含的“B”、“J”、“O”、“U”、“X”或“Z”删除(包含几个删除几个)，进行S22。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述S3中使用不平衡处理算法对S2提取的特征向量进行处理，得到处理后的特征向量；降低数据的不平衡性；具体过程为：

采用的是一个叫imblearn的工具，它提供了ClusterCentroids、NearMiss、ENN、Randomunder、Smote、SmoteENN和SmoteTomek这些算法。

不平衡处理算法共有七种，分别为ClusterCentroids、NearMiss、ENN、Randomunder、Smote、SmoteENN和SmoteTomek；

采用七种不平衡处理算法分别对S2提取的特征向量进行处理来降低数据的不平衡性，通过交叉验证评估准确率，选取准确率最高的不平衡处理算法作为最终选取的不平衡处理算法；

采用最终选取的不平衡处理算法对S2提取的特征向量进行处理，得到处理后的特征向量，来降低数据的不平衡性；

采用交叉验证的方法。交叉验证也是公知的，就是说把这部分数据分成5份，拿其中4份去训练学习器，然后用剩下的那1份做测试，看看这一份能成功识别多少。交叉验证可以得到准确率，灵敏度，召回率等很多指标，一般选取准确率最高即可。

此步骤保持其他条件不变的情况，仅更改不平衡处理算法进行比较，然后选取效果表现最佳的算法应用于后续的步骤中。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，所述S4中采用MRMD算法对S3得到的处理后的特征向量进行特征选择，得到特征与类别具有强相关性且特征之间具有低冗余性的特征向量集合；具体过程为：

分别采用Hits-a、TrustRank、PageRank、LeaderRank和Hits-h的排序方式对S3得到的处理后的所有特征向量进行排序，获得五种排序方式的特征向量集合；

比如S2提取的所有特征向量有5个特征，采用分别采用Hits-a、TrustRank、PageRank、LeaderRank和Hits-h的排序方式对5个特征进行排序，获得五种排序方式的特征向量集合(每种排序方式的特征向量集合由5个特征的不同排序方式组成)；

采用MRMD算法分别对五种排序方式的特征向量集合中的特征进行特征选择(比如每种排序方式的特征向量集合中5个特征太多了，MRMD算法会将每种排序方式的特征向量集合中5个特征进行筛选)，得到进行特征选择后的五种排序方式的特征向量集合；

采用MRMD算法使用Pearson相关系数来平衡S3得到的蛋白特征集中的特征子集与囊泡转运蛋白和非囊泡转运蛋白两个目标类之间的相关性，并使用多种距离函数来获得每个特征子集的冗余度；MRMD选择的特征子集冗余度低，与目标类相关性强。

比如，5种排序方式的特征向量集合中每种排序方式的特征向量集合由5个特征的不同排序方式组成，每种排序方式的特征向量集合中5个特征太多了，需要筛选出其中最有用的一部分特征出来，MRMD算法会将每种排序方式的特征向量集合中5个特征进行筛选，从第一个特征开始一个一个特征加进特征子集中，看加到多少个为止，特征子集的效果最好。比如

特征向量{姓名，性别，年龄，身高}

排序之后变为{年龄，姓名，身高，性别}

姓名就是其中一个特征，它的特征子集包括{姓名}，{姓名，性别}，{性别，年龄}等等；先计算第一个特征子集{姓名}的max(MR_i+MD_i)，再计算第二个特征子集{姓名，性别}的max(MR_i+MD_i)，依此类推，选max(MR_i+MD_i)最大那个特征子集作为该种排序方式的特征向量进行特征选择后的特征向量集合，每种排序方式的特征向量集合都进行以上选择，获得进行特征选择后的每种排序方式的特征向量集合；

不同的特征排序方式排序结果不同，最后选取的特征子集也不同。

MRMD的作用是对特征向量集合中的特征们进行筛选。

距离函数包括欧式距离函数，余弦距离函数，谷本系数函数。使用这三个函数计算每一个特征子集与目标类的距离，这些距离相加就是冗余度。

对得到的进行特征选择后的五种排序方式的特征向量集合通过交叉验证进行比较，选取准确率最高的特征向量集合。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：本实施方式与具体实施方式一至七之一不同的是，所述采用MRMD算法分别对五种特征子集排序方式中的特征进行特征选择的依据为max(MR_i+MD_i)；

其中MR_i表示第i个蛋白类别与特征之间的皮尔逊系数，MD_i表示第i个蛋白类别与特征之间的欧式距离；

其中maxMR_i值的计算公式如下：

maxMD_i值的计算公式如下：

其中PCC(·)表示皮尔逊系数，F_i表示第i个蛋白的特征向量(囊泡转运蛋白或非囊泡转运蛋白)，C_i表示第i个蛋白的类别(囊泡转运蛋白或非囊泡转运蛋白)，M表示蛋白的特征维数(囊泡转运蛋白或非囊泡转运蛋白)，S_FiCi表示F_i中所有元素和C_i中所有元素的协方差，S_Fi表示F_i中所有元素的标准差，S_Ci表示C_i中所有元素的标准差，f_k表示F_i中的第k个元素，c_k表示C_i中的第k个元素，N为F_i和C_i中的元素数量，

为F_i中所有元素的平均值，

为C_i中所有元素的平均值，ED_i表示第i个蛋白特征之间的欧式(Euclidean)距离(囊泡转运蛋白或非囊泡转运蛋白)，COS_i表示第i个蛋白特征之间的余弦(Cosine)距离(囊泡转运蛋白或非囊泡转运蛋白)，TC_i表示第i个蛋白特征之间的谷本(Tanimoto)系数(囊泡转运蛋白或非囊泡转运蛋白)。

其它步骤及参数与具体实施方式一至七之一相同。

具体实施方式九：本实施方式与具体实施方式一至八之一不同的是，所述S5中采用XGBoost作为分类器，并进行超参数优化；具体过程为：

S51、初始化XGBoost参数：学习率learning_rate＝0.1；最大迭代次数n_estimators＝200；最大深度max_depth＝5；min_child_weight＝1；gamma＝0；subsample＝0.8；colsample_bytree＝0.8；

S52、将初始参数中一个参数作为变量，选定调整范围，其它参数保持不变；使用XGBoost内置交叉验证进行迭代寻找最佳参数；

S53、重复进行步骤S52，直到所有参数均找到最优值，获得所有参数的最优参数，获得最优XGBoost，作为分类器。

其它步骤及参数与具体实施方式一至八之一相同。

具体实施方式十：本实施方式基于位置特异性得分矩阵的囊泡转运蛋白识别设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如具体实施方式一至具体实施方式九之一的一种基于位置特异性矩阵的囊泡转运蛋白识别方法。

采用以下实施例验证本发明的有益效果：

实施例一：

现在将参考附图来详细描述本发明的示例性实施方式。应当理解，附图中示出和描述的实施方式仅仅是示例性的，意在阐释本发明的原理和精神，而并非限制本发明的范围。

本发明实施例提供了一种基于位置特异性得分矩阵的囊泡转运蛋白识别方法，如图1所示，包括以下步骤S1～S7：

S1、下载蛋白序列数据文件。

其中，获取的原始蛋白特征数据集包括正例数据集和反例数据集，正例数据集为囊泡转运蛋白序列文件，反例数据集为非囊泡转运蛋白序列文件。

本发明实施例中，蛋白序列数据文件总共有2个，分别为囊泡转运蛋白的序列数据文件(包含正例囊泡转运蛋白序列9086个)和非囊泡转运蛋白的序列数据文件(包含反例非囊泡转运蛋白序列2533个)。

S2、基于S1获取的蛋白序列数据文件，生成位置特异性得分矩阵，并采用AATP算法从位置特异性得分矩阵中提取特征向量；具体过程为：

S21、对S1获取的蛋白序列数据文件的格式和内容进行检错，获得正确的蛋白序列数据文件；具体过程为：

S211、对S1获取的蛋白序列数据文件的格式进行检错，获得正确格式的蛋白序列数据文件；的具体方法为：

S212、对S211获得的正确格式的蛋白序列数据文件的内容进行检错，获得格式和内容都正确的蛋白序列数据文件；具体方法为：

若字符串中包含“B”、“J”、“O”、“U”、“X”或“Z”，则提示S211获取的蛋白序列数据文件存在差错，需要对S211获取的蛋白序列数据文件中包含的“B”、“J”、“O”、“U”、“X”或“Z”删除(包含几个删除几个)，进行S22；

S3、使用不平衡处理算法来降低数据的不平衡性。

此步骤使用Python软件包Imbalanced-learn所提供的多种不平衡处理方法并进行比较，最后选用效果最好的算法。其中采用算法共有七种，包括ClusterCentroids、NearMiss、ENN、Randomunder、Smote、SmoteENN和SmoteTomek。此步骤保持其他条件不变的情况，仅更改不平衡处理算法进行比较，然后选取效果表现最佳的算法应用于后续的步骤中。

S4、分别采用Hits-a、TrustRank、PageRank、LeaderRank和Hits-h的排序方式对S3得到的处理后的所有特征向量进行排序，获得五种特征子集排序方式；

采用MRMD算法分别对五种特征子集排序方式中的特征进行特征选择(比如每种特征子集中5个特征太多了，MRMD算法会将每种特征子集中5个特征进行筛选)，得到进行特征选择后的五种特征子集排序方式；

对得到的进行特征选择后的五种特征子集排序方式通过交叉验证进行比较，选取准确率最高的特征向量集合。

MRMD算法使用Pearson相关系数来平衡特征子集和目标类之间的相关性，并使用多种距离函数来获得每个特征子集的冗余度。特征之间的冗余性用欧式距离表征，欧式距离又与Euclidean距离ED，Cosine距离COS和Tanimoto系数TC相关，欧式距离越大说明特征之间的冗余性越低。

基于上述理论，采用MRMD算法对特征集进行特征选择的依据为max(MR_i+MD_i)，其中MR_i表示第i个蛋白类别与特征之间的皮尔逊系数，MD_i表示第i个蛋白特征之间的欧式距离，其中maxMR_i值的计算公式如下：

maxMD_i值的计算公式如下：

其中PCC(·)表示皮尔逊系数，F_i表示第i个蛋白的特征向量，C_i表示第i个蛋白的类别向量，M表示蛋白的特征维数，S_FiCi表示F_i中所有元素和C_i中所有元素的协方差，S_Fi表示F_i中所有元素的标准差，S_Ci表示C_i中所有元素的标准差，f_k表示F_i中的第k个元素，c_k表示C_i中的第k个元素，N为F_i和C_i中的元素数量，

为F_i中所有元素的平均值，

为C_i中所有元素的平均值，ED_i表示第i个蛋白特征之间的Euclidean距离，COS_i表示第i个蛋白特征之间的Cosine距离，TC_i表示第i个蛋白特征之间的Tanimoto系数。

S5、采用XGBoost作为学习器，并进行超参数优化；

步骤S5包括以下分步骤S51～S54：

S51、初始化设置XGBoost参数：

learning_rate＝0.1；n_estimators＝200；max_depth＝5；min_child_weight＝1；gamma＝0；subsample＝0.8；colsample_bytree＝0.8。

S52、将初始参数中一个参数作为变量，选定调整范围，其它参数保持不变。使用XGBoost内置交叉验证进行迭代寻找最佳参数；

S53、重复进行步骤S52，直到所有参数均找到最优值；

S54、获得最优参数，将XGBoost投入训练。

下面以一组具体实验例对本发明的识别效果作进一步描述。

首先我们比较AATP算法和其它的基于位置特异性得分矩阵的特征提取方法对囊泡转运蛋白的识别效果，如图2所示，其中评价指标包括ACC、SN、SP和MCC，其计算公式如下：

由图2可知，在分类效果方面AATP算法相比较于其他算法效果更好。使用AATP算法能够有效的从位置特异性得分矩阵中提取信息，从而提高对囊泡转运蛋白识别的效果。

再将不同不平衡处理方法进行比较。本发明共采用七种不平衡处理方法，包括ClusterCentroids、NearMiss、ENN、Randomunder、Smote、SmoteENN和SmoteTomek等方法，其比较结果如图3所示。由图3可知，ENN是当前表现最好的算法，ENN算法会对正负样本中数量较多的一方进行数据清洗，以筛选出具有代表性的样本集。所以后续实验将采用ENN算法来对数据进行不平衡处理。

然后再将本发明中采用的MRMD3.0算法中不同参数所得到的结果进行比较。在MRMD3.0中共有五种排序方式供用户选择，其中包括Hits-a、TrustRank、PageRank、LeaderRank和Hits-h，这五种方法比较结果如图3所示。由图4可知，Hits-h在各项指标中效果最佳，所以选择Hits-h。

最后我们采用不同的学习器进行比较，其中包括XGBoost、RF、KNN和SVM。比较结果如图5所示。由图5可知，毫无疑问XGBoost是最佳选择，XGBoost在保证效率极高的同时还有着较高的准确率，所以本发明采用XGBoost。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.基于位置特异性得分矩阵的囊泡转运蛋白识别方法，其特征在于：所述方法具体过程为：

S1、获取蛋白序列数据文件；

S5、采用XGBoost作为分类器，并进行超参数优化；

2.根据权利要求1所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法，其特征在于：所述S1中获取蛋白序列数据文件；具体过程为：

获取蛋白序列数据文件，蛋白序列数据文件包括正例数据集和反例数据集；

3.根据权利要求2所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法，其特征在于：所述S2中基于S1获取的蛋白序列数据文件，生成位置特异性得分矩阵，并采用AATP算法从位置特异性得分矩阵中提取特征向量；具体过程为：

4.根据权利要求3所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法，其特征在于：所述S211中对S1获取的蛋白序列数据文件的格式进行检错，获得正确格式的蛋白序列数据文件；具体过程为：

当S1获取的蛋白序列数据文件的行以字符“>”为开头时，此行后续数据包括序列的标识号信息，下一行的数据为此蛋白序列数据文件的文本数据，则获得正确格式的蛋白序列数据文件。

5.根据权利要求4所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法，其特征在于：所述S212中对S211获得的正确格式的蛋白序列数据文件的内容进行检错，获得格式和内容都正确的蛋白序列数据文件；具体过程为：

判断S211获得的正确格式的蛋白序列数据文件的字符串中是否包含“B”、“J”、“O”、“U”、“X”或“Z”，若字符串中不包含“B”、“J”、“O”、“U”、“X”或“Z”，则S211获取的蛋白序列数据文件无误，进行S22；

若字符串中包含“B”、“J”、“O”、“U”、“X”或“Z”，则S211获取的蛋白序列数据文件存在差错，需要对S211获取的蛋白序列数据文件中包含的“B”、“J”、“O”、“U”、“X”或“Z”删除，进行S22。

6.根据权利要求5所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法，其特征在于：所述S3中使用不平衡处理算法对S2提取的特征向量进行处理，得到处理后的特征向量；具体过程为：

采用最终选取的不平衡处理算法对S2提取的特征向量进行处理，得到处理后的特征向量。

7.根据权利要求6所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法，其特征在于：所述S4中采用MRMD算法对S3得到的处理后的特征向量进行特征选择，得到特征与类别具有强相关性且特征之间具有低冗余性的特征向量集合；具体过程为：

采用MRMD算法分别对五种排序方式的特征向量集合中的特征进行特征选择，得到进行特征选择后的五种排序方式的特征向量集合；

8.根据权利要求7所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法，其特征在于：所述采用MRMD算法分别对五种特征子集排序方式中的特征进行特征选择的依据为max(MR_i+MD_i)；

其中maxMR_i值的计算公式如下：

maxMD_i值的计算公式如下：

其中PCC(·)表示皮尔逊系数，F_i表示第i个蛋白的特征向量，C_i表示第i个蛋白的类别，M表示蛋白的特征维数，S_FiCi表示F_i中所有元素和C_i中所有元素的协方差，S_Fi表示F_i中所有元素的标准差，S_Ci表示C_i中所有元素的标准差，f_k表示F_i中的第k个元素，c_k表示C_i中的第k个元素，N为F_i和C_i中的元素数量，

为F_i中所有元素的平均值，

为C_i中所有元素的平均值，ED_i表示第i个蛋白特征之间的欧式距离，COS_i表示第i个蛋白特征之间的余弦距离，TC_i表示第i个蛋白特征之间的谷本系数。

9.根据权利要求8所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法，其特征在于：所述S5中采用XGBoost作为分类器，并进行超参数优化；具体过程为：

S51、初始化XGBoost参数：

学习率learning_rate＝0.1；最大迭代次数n_estimators＝200；最大深度max_depth＝5；min_child_weight＝1；gamma＝0；subsample＝0.8；colsample_bytree＝0.8；

10.基于位置特异性得分矩阵的囊泡转运蛋白识别设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求9之一的基于位置特异性得分矩阵的囊泡转运蛋白识别方法。