CN113764043A - 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备 - Google Patents

基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备 Download PDF

Info

Publication number
CN113764043A
CN113764043A CN202111063261.4A CN202111063261A CN113764043A CN 113764043 A CN113764043 A CN 113764043A CN 202111063261 A CN202111063261 A CN 202111063261A CN 113764043 A CN113764043 A CN 113764043A
Authority
CN
China
Prior art keywords
data file
sequence data
protein sequence
protein
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111063261.4A
Other languages
English (en)
Other versions
CN113764043B (zh
Inventor
汪国华
宫越
邹权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Forestry University
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Northeast Forestry University
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Forestry University, Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Northeast Forestry University
Priority to CN202111063261.4A priority Critical patent/CN113764043B/zh
Publication of CN113764043A publication Critical patent/CN113764043A/zh
Application granted granted Critical
Publication of CN113764043B publication Critical patent/CN113764043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备,本发明涉及囊泡转运蛋白识别方法及识别设备。本发明的目的是为了解决现有囊泡转运蛋白的识别方法效率低、成本高的问题。过程为:S1、获取蛋白序列数据文件;S2、基于S1生成位置特异性得分矩阵,并采用AATP算法从位置特异性得分矩阵中提取特征向量;S3、使用不平衡处理算法得到处理后的特征向量;S4、采用MRMD算法得到特征向量集合;S5、采用XGBoost作为分类器,并进行超参数优化;S6、得到训练好的分类器模型;S7、将待测数据集输入训练好的分类器模型得到分类结果,完成对囊泡转运蛋白的识别。本发明用于蛋白识别领域。

Description

基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别 设备
技术领域
本发明属于计算机技术领域,具体涉及囊泡转运蛋白识别方法及识别设备。
背景技术
近年来,囊泡转运蛋白的研究越来越受到重视。在转运的过程中,当大分子和颗粒不能穿过细胞膜时,囊泡转运蛋白将承担转运它们的任务。迄今为止,许多研究已经证实,异常的囊泡转运蛋白可能引起多种严重危害人类健康的疾病,如Hermansky-Pudlaksyndrome综合征。鉴于囊泡转运蛋白在真核细胞中的重要性,细胞生物学领域的研究人员一直致力于开发能够识别囊泡转运蛋白的实验技术,并取得了优异的成果,比如morpholino knockdown和dissection。这些技术可以准确地鉴定囊泡转运蛋白,但这些技术往往效率不高,成本昂贵,因此寻找一种省时、准确度高的方法来鉴定囊泡转运蛋白显得尤为必要。
发明内容
本发明的目的是为了解决现有囊泡转运蛋白的识别方法效率低、成本高的问题,而提出基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备。
基于位置特异性得分矩阵的囊泡转运蛋白识别方法具体过程为:
S1、获取蛋白序列数据文件;
S2、基于S1获取的蛋白序列数据文件,生成位置特异性得分矩阵,并采用AATP算法从位置特异性得分矩阵中提取特征向量;
S3、使用不平衡处理算法对S2提取的特征向量进行处理,得到处理后的特征向量;
S4、采用MRMD算法对S3得到的处理后的特征向量进行特征选择,得到特征与类别具有强相关性且特征之间具有低冗余性的特征向量集合;
S5、采用XGBoost作为分类器,并进行超参数优化;
S6、将S4得到的特征向量集合输入分类器进行分类训练,得到训练好的分类器模型;
S7、将待测数据集输入训练好的分类器模型得到分类结果,完成对囊泡转运蛋白的识别。
基于位置特异性得分矩阵的囊泡转运蛋白识别设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现基于位置特异性得分矩阵的囊泡转运蛋白识别方法。
本发明的有益效果为:
(1)本发明提出了一种全新的囊泡转运蛋白识别方法,利用位置特异性得分矩阵提取特征,能够实现对囊泡转运蛋白的准确识别,为相应药物开发提供了理论基础。
(2)本发明采用多种不平衡处理算法来降低数据的不平衡性并作出比较,最后选择性能最好的算法。然后使用MRMD降低特征维度,有效提高了模型的识别效果。
(3)本发明采用XGBoost作为学习器,并进行超参数优化,提升了模型对囊泡转运蛋白的处理效率,降低了识别成本。
附图说明
图1为本发明实施例提供的基于位置特异性矩阵的囊泡转运蛋白的识别方法流程图;
图2为本发明实施例提供的不同特征提取方法识别效果示意图;
图3为本发明实施例提供的不同不平衡处理方法识别效果示意图;
图4为本发明实施例提供的降维算法中不同参数识别效果示意图;
图5为本发明实施例提供的不同学习器识别效果示意图。
具体实施方式
具体实施方式一:本实施方式基于位置特异性得分矩阵的囊泡转运蛋白识别方法具体过程为:
S1、获取蛋白序列数据文件;
S2、基于S1获取的蛋白序列数据文件,生成位置特异性得分矩阵,并采用AATP算法从位置特异性得分矩阵中提取特征向量;
S3、使用不平衡处理算法对S2提取的特征向量进行处理,得到处理后的特征向量;
S1已知囊泡转运蛋白和非囊泡转运蛋白,不平衡处理算法的目的是将两种不平衡的数量进行平衡,将其中数量多的数据进行删减,以平衡两种数量;
使用不平衡处理算法降低S2提取的特征向量数据的不平衡性(数据不平衡是把所有的数据分为两种,一种囊泡转运蛋白,一种是囊泡转运以外的所有数据。然后这两种的数量差别较大,比如说囊泡转运蛋白只有2000个,但另一种有7000多个,两种的数量很不平衡,需要进行处理。);
S4、采用MRMD算法对S3得到的处理后的特征向量进行特征选择,得到特征与类别具有强相关性且特征之间具有低冗余性的特征向量集合;
S5、采用XGBoost作为分类器,并进行超参数优化;
S6、将S4得到的特征向量集合输入分类器进行分类训练,得到训练好的分类器模型;
S7、将待测数据集输入训练好的分类器模型得到分类结果,完成对囊泡转运蛋白的识别。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述S1中获取蛋白序列数据文件;具体过程为:
获取蛋白序列数据文件(公知网站;比如UniProt数据库和Gene Ontology网站,UniProt数据库是一个专门提供蛋白质相关数据的网站),蛋白序列数据文件包括正例数据集和反例数据集;
所述正例数据集为囊泡转运蛋白序列数据文件,反例数据集为非囊泡转运蛋白序列数据文件。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述S2中基于S1获取的蛋白序列数据文件,生成位置特异性得分矩阵,并采用AATP算法从位置特异性得分矩阵中提取特征向量;具体过程为:
S21、步骤S2中生成位置特异性得分矩阵之前,对S1获取的蛋白序列数据文件的格式和内容进行检错,有格式错误的文件会影响后续步骤,获得正确的蛋白序列数据文件;具体过程为:
S211、对S1获取的蛋白序列数据文件的格式进行检错,获得正确格式的蛋白序列数据文件;
S212、对S211获得的正确格式的蛋白序列数据文件的内容进行检错,获得格式和内容都正确的蛋白序列数据文件;
S22、使用PSI-BLAST程序将S21获得的正确的蛋白序列数据文件与NCBI的非冗余数据库进行比较,获得位置特异性得分矩阵;
位置特异性得分矩阵中包含了蛋白质的重要进化信息,从此矩阵中提取特征能够有效提高囊泡转运蛋白识别模型的效果。
采用特征提取算法AATP从位置特异性得分矩阵中提取特征向量。
特征提取算法AATP由两部分组成,分别是AAC和TPC;所述AAC,是20维的特征向量,表示蛋白质在进化过程中各个氨基酸被改变为其它类型的氨基酸的平均得分。所述TPC,是从转移概率矩阵得到的400维特征,能够有效避免序列中信息的丢失。
采用AATP算法能够有效从位置特异性得分矩阵中提取出最为重要的信息,进一步提高了囊泡转运蛋白的效率和性能。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述S211中对S1获取的蛋白序列数据文件的格式进行检错,获得正确格式的蛋白序列数据文件;具体过程为:
当S1获取的蛋白序列数据文件的行不以字符“>”为开头时,删除此行不规范数据;
当S1获取的蛋白序列数据文件的行以字符“>”为开头时,此行后续数据包括序列的标识号、位置等信息,下一行的数据为此蛋白序列数据文件的文本数据,则获得正确格式的蛋白序列数据文件;
蛋白序列数据文件有很多行
|>Q20300
MMDQILGTNFTYEGAKEVARGLEGFSAKLAVGYIATIFGLKYYMKDRK
>D3ZGS3
MEPRLPIGAQPLACLHMVAGLEMKGPLREPCVLTLARRNGQYELIIQLI
>A2AUC9
MDSQRELAEELRLYQSTLLQDGLKDLLEEKKFIDCTLKAGDKSFPCHRLI
>O18037
MEAANEVVNLFASQATTPSSLDAVTTLETVSTPTFIFPEVSDSQILQLMI
>H2E7T7
MALDLLSSYAPGLVESLLTWKGAAGLAAAVALGYIIISNLPGRQVAKPS
>Q04LE4
MISRFFRHLFEALKSLKRNGWMTVAAVSSVMITLTLVAIFASVIFNTAKI
>G0Y287
MVKLVEVLQHPDEIVPILQMLHKTYRAKRSYKDPGLAFCYGMLQRVSF
“>”后面的是蛋白质的标识号,就像第一行里的“Q20300”,然后紧接着的下一行是它的序列。
“>”后面的信息最少要有一个标识号,其它信息非必需,有时还有length和type两个信息。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述S212中对S211获得的正确格式的蛋白序列数据文件的内容进行检错,获得格式和内容都正确的蛋白序列数据文件;具体过程为:
氨基酸共有20种,分别用20个字母表示,20个字母中不包含“B”、“J”、“O”、“U”、“X”或“Z”;
判断S211获得的正确格式的蛋白序列数据文件的字符串中是否包含“B”、“J”、“O”、“U”、“X”或“Z”,若字符串中不包含“B”、“J”、“O”、“U”、“X”或“Z”,则提示S211获取的蛋白序列数据文件无误,进行S22;
若字符串中包含“B”、“J”、“O”、“U”、“X”或“Z”,则提示S211获取的蛋白序列数据文件存在差错,需要对S211获取的蛋白序列数据文件中包含的“B”、“J”、“O”、“U”、“X”或“Z”删除(包含几个删除几个),进行S22。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述S3中使用不平衡处理算法对S2提取的特征向量进行处理,得到处理后的特征向量;降低数据的不平衡性;具体过程为:
采用的是一个叫imblearn的工具,它提供了ClusterCentroids、NearMiss、ENN、Randomunder、Smote、SmoteENN和SmoteTomek这些算法。
不平衡处理算法共有七种,分别为ClusterCentroids、NearMiss、ENN、Randomunder、Smote、SmoteENN和SmoteTomek;
采用七种不平衡处理算法分别对S2提取的特征向量进行处理来降低数据的不平衡性,通过交叉验证评估准确率,选取准确率最高的不平衡处理算法作为最终选取的不平衡处理算法;
采用最终选取的不平衡处理算法对S2提取的特征向量进行处理,得到处理后的特征向量,来降低数据的不平衡性;
采用交叉验证的方法。交叉验证也是公知的,就是说把这部分数据分成5份,拿其中4份去训练学习器,然后用剩下的那1份做测试,看看这一份能成功识别多少。交叉验证可以得到准确率,灵敏度,召回率等很多指标,一般选取准确率最高即可。
此步骤保持其他条件不变的情况,仅更改不平衡处理算法进行比较,然后选取效果表现最佳的算法应用于后续的步骤中。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述S4中采用MRMD算法对S3得到的处理后的特征向量进行特征选择,得到特征与类别具有强相关性且特征之间具有低冗余性的特征向量集合;具体过程为:
分别采用Hits-a、TrustRank、PageRank、LeaderRank和Hits-h的排序方式对S3得到的处理后的所有特征向量进行排序,获得五种排序方式的特征向量集合;
比如S2提取的所有特征向量有5个特征,采用分别采用Hits-a、TrustRank、PageRank、LeaderRank和Hits-h的排序方式对5个特征进行排序,获得五种排序方式的特征向量集合(每种排序方式的特征向量集合由5个特征的不同排序方式组成);
采用MRMD算法分别对五种排序方式的特征向量集合中的特征进行特征选择(比如每种排序方式的特征向量集合中5个特征太多了,MRMD算法会将每种排序方式的特征向量集合中5个特征进行筛选),得到进行特征选择后的五种排序方式的特征向量集合;
采用MRMD算法使用Pearson相关系数来平衡S3得到的蛋白特征集中的特征子集与囊泡转运蛋白和非囊泡转运蛋白两个目标类之间的相关性,并使用多种距离函数来获得每个特征子集的冗余度;MRMD选择的特征子集冗余度低,与目标类相关性强。
比如,5种排序方式的特征向量集合中每种排序方式的特征向量集合由5个特征的不同排序方式组成,每种排序方式的特征向量集合中5个特征太多了,需要筛选出其中最有用的一部分特征出来,MRMD算法会将每种排序方式的特征向量集合中5个特征进行筛选,从第一个特征开始一个一个特征加进特征子集中,看加到多少个为止,特征子集的效果最好。比如
特征向量{姓名,性别,年龄,身高}
排序之后变为{年龄,姓名,身高,性别}
姓名就是其中一个特征,它的特征子集包括{姓名},{姓名,性别},{性别,年龄}等等;先计算第一个特征子集{姓名}的max(MRi+MDi),再计算第二个特征子集{姓名,性别}的max(MRi+MDi),依此类推,选max(MRi+MDi)最大那个特征子集作为该种排序方式的特征向量进行特征选择后的特征向量集合,每种排序方式的特征向量集合都进行以上选择,获得进行特征选择后的每种排序方式的特征向量集合;
不同的特征排序方式排序结果不同,最后选取的特征子集也不同。
MRMD的作用是对特征向量集合中的特征们进行筛选。
距离函数包括欧式距离函数,余弦距离函数,谷本系数函数。使用这三个函数计算每一个特征子集与目标类的距离,这些距离相加就是冗余度。
对得到的进行特征选择后的五种排序方式的特征向量集合通过交叉验证进行比较,选取准确率最高的特征向量集合。
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八:本实施方式与具体实施方式一至七之一不同的是,所述采用MRMD算法分别对五种特征子集排序方式中的特征进行特征选择的依据为max(MRi+MDi);
其中MRi表示第i个蛋白类别与特征之间的皮尔逊系数,MDi表示第i个蛋白类别与特征之间的欧式距离;
其中maxMRi值的计算公式如下:
Figure BDA0003257246100000081
maxMDi值的计算公式如下:
Figure BDA0003257246100000082
其中PCC(·)表示皮尔逊系数,Fi表示第i个蛋白的特征向量(囊泡转运蛋白或非囊泡转运蛋白),Ci表示第i个蛋白的类别(囊泡转运蛋白或非囊泡转运蛋白),M表示蛋白的特征维数(囊泡转运蛋白或非囊泡转运蛋白),SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,
Figure BDA0003257246100000083
为Fi中所有元素的平均值,
Figure BDA0003257246100000084
为Ci中所有元素的平均值,EDi表示第i个蛋白特征之间的欧式(Euclidean)距离(囊泡转运蛋白或非囊泡转运蛋白),COSi表示第i个蛋白特征之间的余弦(Cosine)距离(囊泡转运蛋白或非囊泡转运蛋白),TCi表示第i个蛋白特征之间的谷本(Tanimoto)系数(囊泡转运蛋白或非囊泡转运蛋白)。
其它步骤及参数与具体实施方式一至七之一相同。
具体实施方式九:本实施方式与具体实施方式一至八之一不同的是,所述S5中采用XGBoost作为分类器,并进行超参数优化;具体过程为:
S51、初始化XGBoost参数:学习率learning_rate=0.1;最大迭代次数n_estimators=200;最大深度max_depth=5;min_child_weight=1;gamma=0;subsample=0.8;colsample_bytree=0.8;
S52、将初始参数中一个参数作为变量,选定调整范围,其它参数保持不变;使用XGBoost内置交叉验证进行迭代寻找最佳参数;
S53、重复进行步骤S52,直到所有参数均找到最优值,获得所有参数的最优参数,获得最优XGBoost,作为分类器。
其它步骤及参数与具体实施方式一至八之一相同。
具体实施方式十:本实施方式基于位置特异性得分矩阵的囊泡转运蛋白识别设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如具体实施方式一至具体实施方式九之一的一种基于位置特异性矩阵的囊泡转运蛋白识别方法。
采用以下实施例验证本发明的有益效果:
实施例一:
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种基于位置特异性得分矩阵的囊泡转运蛋白识别方法,如图1所示,包括以下步骤S1~S7:
S1、下载蛋白序列数据文件。
其中,获取的原始蛋白特征数据集包括正例数据集和反例数据集,正例数据集为囊泡转运蛋白序列文件,反例数据集为非囊泡转运蛋白序列文件。
本发明实施例中,蛋白序列数据文件总共有2个,分别为囊泡转运蛋白的序列数据文件(包含正例囊泡转运蛋白序列9086个)和非囊泡转运蛋白的序列数据文件(包含反例非囊泡转运蛋白序列2533个)。
S2、基于S1获取的蛋白序列数据文件,生成位置特异性得分矩阵,并采用AATP算法从位置特异性得分矩阵中提取特征向量;具体过程为:
S21、对S1获取的蛋白序列数据文件的格式和内容进行检错,获得正确的蛋白序列数据文件;具体过程为:
S211、对S1获取的蛋白序列数据文件的格式进行检错,获得正确格式的蛋白序列数据文件;的具体方法为:
当S1获取的蛋白序列数据文件的行不以字符“>”为开头时,删除此行不规范数据;
当S1获取的蛋白序列数据文件的行以字符“>”为开头时,此行后续数据包括序列的标识号、位置等信息,下一行的数据为此蛋白序列数据文件的文本数据,则获得正确格式的蛋白序列数据文件;
S212、对S211获得的正确格式的蛋白序列数据文件的内容进行检错,获得格式和内容都正确的蛋白序列数据文件;具体方法为:
氨基酸共有20种,分别用20个字母表示,20个字母中不包含“B”、“J”、“O”、“U”、“X”或“Z”;
判断S211获得的正确格式的蛋白序列数据文件的字符串中是否包含“B”、“J”、“O”、“U”、“X”或“Z”,若字符串中不包含“B”、“J”、“O”、“U”、“X”或“Z”,则提示S211获取的蛋白序列数据文件无误,进行S22;
若字符串中包含“B”、“J”、“O”、“U”、“X”或“Z”,则提示S211获取的蛋白序列数据文件存在差错,需要对S211获取的蛋白序列数据文件中包含的“B”、“J”、“O”、“U”、“X”或“Z”删除(包含几个删除几个),进行S22;
S22、使用PSI-BLAST程序将S21获得的正确的蛋白序列数据文件与NCBI的非冗余数据库进行比较,获得位置特异性得分矩阵;
位置特异性得分矩阵中包含了蛋白质的重要进化信息,从此矩阵中提取特征能够有效提高囊泡转运蛋白识别模型的效果。
采用特征提取算法AATP从位置特异性得分矩阵中提取特征向量。
特征提取算法AATP由两部分组成,分别是AAC和TPC;所述AAC,是20维的特征向量,表示蛋白质在进化过程中各个氨基酸被改变为其它类型的氨基酸的平均得分。所述TPC,是从转移概率矩阵得到的400维特征,能够有效避免序列中信息的丢失。
采用AATP算法能够有效从位置特异性得分矩阵中提取出最为重要的信息,进一步提高了囊泡转运蛋白的效率和性能。
S3、使用不平衡处理算法来降低数据的不平衡性。
此步骤使用Python软件包Imbalanced-learn所提供的多种不平衡处理方法并进行比较,最后选用效果最好的算法。其中采用算法共有七种,包括ClusterCentroids、NearMiss、ENN、Randomunder、Smote、SmoteENN和SmoteTomek。此步骤保持其他条件不变的情况,仅更改不平衡处理算法进行比较,然后选取效果表现最佳的算法应用于后续的步骤中。
S4、分别采用Hits-a、TrustRank、PageRank、LeaderRank和Hits-h的排序方式对S3得到的处理后的所有特征向量进行排序,获得五种特征子集排序方式;
采用MRMD算法分别对五种特征子集排序方式中的特征进行特征选择(比如每种特征子集中5个特征太多了,MRMD算法会将每种特征子集中5个特征进行筛选),得到进行特征选择后的五种特征子集排序方式;
对得到的进行特征选择后的五种特征子集排序方式通过交叉验证进行比较,选取准确率最高的特征向量集合。
MRMD算法使用Pearson相关系数来平衡特征子集和目标类之间的相关性,并使用多种距离函数来获得每个特征子集的冗余度。特征之间的冗余性用欧式距离表征,欧式距离又与Euclidean距离ED,Cosine距离COS和Tanimoto系数TC相关,欧式距离越大说明特征之间的冗余性越低。
基于上述理论,采用MRMD算法对特征集进行特征选择的依据为max(MRi+MDi),其中MRi表示第i个蛋白类别与特征之间的皮尔逊系数,MDi表示第i个蛋白特征之间的欧式距离,其中maxMRi值的计算公式如下:
Figure BDA0003257246100000121
maxMDi值的计算公式如下:
Figure BDA0003257246100000122
其中PCC(·)表示皮尔逊系数,Fi表示第i个蛋白的特征向量,Ci表示第i个蛋白的类别向量,M表示蛋白的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,
Figure BDA0003257246100000123
为Fi中所有元素的平均值,
Figure BDA0003257246100000124
为Ci中所有元素的平均值,EDi表示第i个蛋白特征之间的Euclidean距离,COSi表示第i个蛋白特征之间的Cosine距离,TCi表示第i个蛋白特征之间的Tanimoto系数。
S5、采用XGBoost作为学习器,并进行超参数优化;
步骤S5包括以下分步骤S51~S54:
S51、初始化设置XGBoost参数:
learning_rate=0.1;n_estimators=200;max_depth=5;min_child_weight=1;gamma=0;subsample=0.8;colsample_bytree=0.8。
S52、将初始参数中一个参数作为变量,选定调整范围,其它参数保持不变。使用XGBoost内置交叉验证进行迭代寻找最佳参数;
S53、重复进行步骤S52,直到所有参数均找到最优值;
S54、获得最优参数,将XGBoost投入训练。
S6、将S4得到的特征向量集合输入分类器进行分类训练,得到训练好的分类器模型;
S7、将待测数据集输入训练好的分类器模型得到分类结果,完成对囊泡转运蛋白的识别。
下面以一组具体实验例对本发明的识别效果作进一步描述。
首先我们比较AATP算法和其它的基于位置特异性得分矩阵的特征提取方法对囊泡转运蛋白的识别效果,如图2所示,其中评价指标包括ACC、SN、SP和MCC,其计算公式如下:
Figure BDA0003257246100000131
Figure BDA0003257246100000132
Figure BDA0003257246100000133
Figure BDA0003257246100000134
由图2可知,在分类效果方面AATP算法相比较于其他算法效果更好。使用AATP算法能够有效的从位置特异性得分矩阵中提取信息,从而提高对囊泡转运蛋白识别的效果。
再将不同不平衡处理方法进行比较。本发明共采用七种不平衡处理方法,包括ClusterCentroids、NearMiss、ENN、Randomunder、Smote、SmoteENN和SmoteTomek等方法,其比较结果如图3所示。由图3可知,ENN是当前表现最好的算法,ENN算法会对正负样本中数量较多的一方进行数据清洗,以筛选出具有代表性的样本集。所以后续实验将采用ENN算法来对数据进行不平衡处理。
然后再将本发明中采用的MRMD3.0算法中不同参数所得到的结果进行比较。在MRMD3.0中共有五种排序方式供用户选择,其中包括Hits-a、TrustRank、PageRank、LeaderRank和Hits-h,这五种方法比较结果如图3所示。由图4可知,Hits-h在各项指标中效果最佳,所以选择Hits-h。
最后我们采用不同的学习器进行比较,其中包括XGBoost、RF、KNN和SVM。比较结果如图5所示。由图5可知,毫无疑问XGBoost是最佳选择,XGBoost在保证效率极高的同时还有着较高的准确率,所以本发明采用XGBoost。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.基于位置特异性得分矩阵的囊泡转运蛋白识别方法,其特征在于:所述方法具体过程为:
S1、获取蛋白序列数据文件;
S2、基于S1获取的蛋白序列数据文件,生成位置特异性得分矩阵,并采用AATP算法从位置特异性得分矩阵中提取特征向量;
S3、使用不平衡处理算法对S2提取的特征向量进行处理,得到处理后的特征向量;
S4、采用MRMD算法对S3得到的处理后的特征向量进行特征选择,得到特征与类别具有强相关性且特征之间具有低冗余性的特征向量集合;
S5、采用XGBoost作为分类器,并进行超参数优化;
S6、将S4得到的特征向量集合输入分类器进行分类训练,得到训练好的分类器模型;
S7、将待测数据集输入训练好的分类器模型得到分类结果,完成对囊泡转运蛋白的识别。
2.根据权利要求1所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法,其特征在于:所述S1中获取蛋白序列数据文件;具体过程为:
获取蛋白序列数据文件,蛋白序列数据文件包括正例数据集和反例数据集;
所述正例数据集为囊泡转运蛋白序列数据文件,反例数据集为非囊泡转运蛋白序列数据文件。
3.根据权利要求2所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法,其特征在于:所述S2中基于S1获取的蛋白序列数据文件,生成位置特异性得分矩阵,并采用AATP算法从位置特异性得分矩阵中提取特征向量;具体过程为:
S21、对S1获取的蛋白序列数据文件的格式和内容进行检错,获得正确的蛋白序列数据文件;具体过程为:
S211、对S1获取的蛋白序列数据文件的格式进行检错,获得正确格式的蛋白序列数据文件;
S212、对S211获得的正确格式的蛋白序列数据文件的内容进行检错,获得格式和内容都正确的蛋白序列数据文件;
S22、使用PSI-BLAST程序将S21获得的正确的蛋白序列数据文件与NCBI的非冗余数据库进行比较,获得位置特异性得分矩阵;
采用特征提取算法AATP从位置特异性得分矩阵中提取特征向量。
4.根据权利要求3所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法,其特征在于:所述S211中对S1获取的蛋白序列数据文件的格式进行检错,获得正确格式的蛋白序列数据文件;具体过程为:
当S1获取的蛋白序列数据文件的行不以字符“>”为开头时,删除此行不规范数据;
当S1获取的蛋白序列数据文件的行以字符“>”为开头时,此行后续数据包括序列的标识号信息,下一行的数据为此蛋白序列数据文件的文本数据,则获得正确格式的蛋白序列数据文件。
5.根据权利要求4所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法,其特征在于:所述S212中对S211获得的正确格式的蛋白序列数据文件的内容进行检错,获得格式和内容都正确的蛋白序列数据文件;具体过程为:
判断S211获得的正确格式的蛋白序列数据文件的字符串中是否包含“B”、“J”、“O”、“U”、“X”或“Z”,若字符串中不包含“B”、“J”、“O”、“U”、“X”或“Z”,则S211获取的蛋白序列数据文件无误,进行S22;
若字符串中包含“B”、“J”、“O”、“U”、“X”或“Z”,则S211获取的蛋白序列数据文件存在差错,需要对S211获取的蛋白序列数据文件中包含的“B”、“J”、“O”、“U”、“X”或“Z”删除,进行S22。
6.根据权利要求5所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法,其特征在于:所述S3中使用不平衡处理算法对S2提取的特征向量进行处理,得到处理后的特征向量;具体过程为:
不平衡处理算法共有七种,分别为ClusterCentroids、NearMiss、ENN、Randomunder、Smote、SmoteENN和SmoteTomek;
采用七种不平衡处理算法分别对S2提取的特征向量进行处理来降低数据的不平衡性,通过交叉验证评估准确率,选取准确率最高的不平衡处理算法作为最终选取的不平衡处理算法;
采用最终选取的不平衡处理算法对S2提取的特征向量进行处理,得到处理后的特征向量。
7.根据权利要求6所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法,其特征在于:所述S4中采用MRMD算法对S3得到的处理后的特征向量进行特征选择,得到特征与类别具有强相关性且特征之间具有低冗余性的特征向量集合;具体过程为:
分别采用Hits-a、TrustRank、PageRank、LeaderRank和Hits-h的排序方式对S3得到的处理后的所有特征向量进行排序,获得五种排序方式的特征向量集合;
采用MRMD算法分别对五种排序方式的特征向量集合中的特征进行特征选择,得到进行特征选择后的五种排序方式的特征向量集合;
对得到的进行特征选择后的五种排序方式的特征向量集合通过交叉验证进行比较,选取准确率最高的特征向量集合。
8.根据权利要求7所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法,其特征在于:所述采用MRMD算法分别对五种特征子集排序方式中的特征进行特征选择的依据为max(MRi+MDi);
其中MRi表示第i个蛋白类别与特征之间的皮尔逊系数,MDi表示第i个蛋白类别与特征之间的欧式距离;
其中maxMRi值的计算公式如下:
Figure FDA0003257246090000041
maxMDi值的计算公式如下:
Figure FDA0003257246090000042
其中PCC(·)表示皮尔逊系数,Fi表示第i个蛋白的特征向量,Ci表示第i个蛋白的类别,M表示蛋白的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,
Figure FDA0003257246090000043
为Fi中所有元素的平均值,
Figure FDA0003257246090000044
为Ci中所有元素的平均值,EDi表示第i个蛋白特征之间的欧式距离,COSi表示第i个蛋白特征之间的余弦距离,TCi表示第i个蛋白特征之间的谷本系数。
9.根据权利要求8所述基于位置特异性得分矩阵的囊泡转运蛋白识别方法,其特征在于:所述S5中采用XGBoost作为分类器,并进行超参数优化;具体过程为:
S51、初始化XGBoost参数:
学习率learning_rate=0.1;最大迭代次数n_estimators=200;最大深度max_depth=5;min_child_weight=1;gamma=0;subsample=0.8;colsample_bytree=0.8;
S52、将初始参数中一个参数作为变量,选定调整范围,其它参数保持不变;使用XGBoost内置交叉验证进行迭代寻找最佳参数;
S53、重复进行步骤S52,直到所有参数均找到最优值,获得所有参数的最优参数,获得最优XGBoost,作为分类器。
10.基于位置特异性得分矩阵的囊泡转运蛋白识别设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求9之一的基于位置特异性得分矩阵的囊泡转运蛋白识别方法。
CN202111063261.4A 2021-09-10 2021-09-10 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备 Active CN113764043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111063261.4A CN113764043B (zh) 2021-09-10 2021-09-10 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111063261.4A CN113764043B (zh) 2021-09-10 2021-09-10 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备

Publications (2)

Publication Number Publication Date
CN113764043A true CN113764043A (zh) 2021-12-07
CN113764043B CN113764043B (zh) 2022-05-20

Family

ID=78794854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111063261.4A Active CN113764043B (zh) 2021-09-10 2021-09-10 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备

Country Status (1)

Country Link
CN (1) CN113764043B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308526A (zh) * 2008-07-07 2008-11-19 重庆大学 一种高致病性禽流感病毒血凝素蛋白识别方法
CN104331642A (zh) * 2014-10-28 2015-02-04 山东大学 用于识别细胞外基质蛋白的集成学习方法
CN105930688A (zh) * 2016-04-18 2016-09-07 福州大学 基于改进pso算法的蛋白质功能模块检测方法
CN109448787A (zh) * 2018-10-12 2019-03-08 云南大学 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法
US20200065675A1 (en) * 2017-10-16 2020-02-27 Illumina, Inc. Deep Convolutional Neural Networks for Variant Classification
CN111081311A (zh) * 2019-12-26 2020-04-28 青岛科技大学 基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法
CN111428786A (zh) * 2020-03-23 2020-07-17 电子科技大学 基于PageRank的数据特征集降维方法
CN111599409A (zh) * 2020-05-20 2020-08-28 电子科技大学 基于MapReduce并行的circRNA识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308526A (zh) * 2008-07-07 2008-11-19 重庆大学 一种高致病性禽流感病毒血凝素蛋白识别方法
CN104331642A (zh) * 2014-10-28 2015-02-04 山东大学 用于识别细胞外基质蛋白的集成学习方法
CN105930688A (zh) * 2016-04-18 2016-09-07 福州大学 基于改进pso算法的蛋白质功能模块检测方法
US20200065675A1 (en) * 2017-10-16 2020-02-27 Illumina, Inc. Deep Convolutional Neural Networks for Variant Classification
CN109448787A (zh) * 2018-10-12 2019-03-08 云南大学 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法
CN111081311A (zh) * 2019-12-26 2020-04-28 青岛科技大学 基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法
CN111428786A (zh) * 2020-03-23 2020-07-17 电子科技大学 基于PageRank的数据特征集降维方法
CN111599409A (zh) * 2020-05-20 2020-08-28 电子科技大学 基于MapReduce并行的circRNA识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YIXIAO ZHAI等: "Identifying Antioxidant Proteins by Using Amino Acid Composition and Protein-Protein Interactions", 《FRONTIERS IN CELL AND DEVELOPMENTAL BIOLOGY》 *
YUE GONG等: "VTP-Identifier: Vesicular Transport Proteins Identification Based on PSSM Profiles and XGBoost", 《METHODS》 *
YUXIN GONG等: "Accurate Prediction and Key Feature Recognition of Immunoglobulin", 《APPLIED.SCIENCES》 *
宋涛: "基于谱隐马尔可夫模型的蛋白质序列模体识别方法研究", 《中国优秀博硕士学位论文全文数据库(博士)基础科学辑》 *
李小苇等: "基于ACC变换和RFE算法的蛋白质亚核定位预测", 《计算机工程与应用》 *

Also Published As

Publication number Publication date
CN113764043B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
US20080281764A1 (en) Machine Learning System
US20130297607A1 (en) Identification of pattern similarities by unsupervised cluster analysis
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN101763466B (zh) 基于动态样本选择集成的生物信息识别方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN112102899A (zh) 一种分子预测模型的构建方法和计算设备
CN113360701A (zh) 一种基于知识蒸馏的素描图处理方法及其系统
CN111354338A (zh) 基于pso卷积核优化稀疏迁移学习的帕金森语音识别系统
CN110826624A (zh) 一种基于深度强化学习的时间序列分类方法
CN111797267A (zh) 一种医学图像检索方法及系统、电子设备、存储介质
CN116612307A (zh) 一种基于迁移学习的茄科病害等级识别方法
CN113764043B (zh) 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备
CN111048145B (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
CN110942104B (zh) 用于泡沫浮选工况识别过程的混合特征选择方法及系统
CN112579783A (zh) 基于拉普拉斯图谱的短文本聚类方法
CN115408527B (zh) 文本分类方法、装置、电子设备及存储介质
US20040153307A1 (en) Discriminative feature selection for data sequences
CN113611355B (zh) 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法
CN113724779A (zh) 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备
CN115579068A (zh) 一种基于预训练和深度聚类的宏基因组物种重建方法
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
Kancharla et al. An efficient algorithm for feature selection problem in gene expression data: A spider monkey optimization approach
CN113177608B (zh) 一种针对不完整数据的近邻模型特征选择方法及装置
Zhang et al. A hierarchical feature selection model using clustering and recursive elimination methods
CN111383716B (zh) 基因对的筛选方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhao Yuming

Inventor after: Wang Guohua

Inventor after: Gong Yue

Inventor after: Zou Quan

Inventor before: Wang Guohua

Inventor before: Gong Yue

Inventor before: Zou Quan

GR01 Patent grant
GR01 Patent grant