CN113724779B - 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备 - Google Patents

基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备 Download PDF

Info

Publication number
CN113724779B
CN113724779B CN202111027448.9A CN202111027448A CN113724779B CN 113724779 B CN113724779 B CN 113724779B CN 202111027448 A CN202111027448 A CN 202111027448A CN 113724779 B CN113724779 B CN 113724779B
Authority
CN
China
Prior art keywords
protein
data
snares
feature
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111027448.9A
Other languages
English (en)
Other versions
CN113724779A (zh
Inventor
汪国华
张子潇
邹权
杜军平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Forestry University
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Northeast Forestry University
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Forestry University, Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Northeast Forestry University
Priority to CN202111027448.9A priority Critical patent/CN113724779B/zh
Publication of CN113724779A publication Critical patent/CN113724779A/zh
Application granted granted Critical
Publication of CN113724779B publication Critical patent/CN113724779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Analytical Chemistry (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)

Abstract

基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备,属于生物信息技术领域。为了解决现有的蛋白质识别方法识别SNAREs蛋白存在时间开销大、准确率有待于提高的问题。本发明首先对蛋白序列文件,进行去冗余等预处理,通过BLAST比对提取蛋白序列的PSSM矩阵,从PSSM矩阵中获取蛋白质序列的特征数据,使用最大最小标准化算法对特征数据进行归一化处理,判断数据集的平衡状态,选择Smote‑ENN和Smote‑TOMEK采样算法解决不平衡问题;然后使用SVM‑RFE‑CBR算法对特征进行排序,剔除了排序靠后的噪声特征;使用机器学习中的分类器,使用交叉验证的方法训练模型,最终得到有效识别SNAREs蛋白的模型。主要用于SNAREs蛋白的识别。

Description

基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及 设备
技术领域
本发明涉及一种SNAREs蛋白识别方法、系统、存储介质及设备。属于生物信息技术领域。
背景技术
SNAREs(Soluble NSF Attachment protein Receptor)蛋白是位于细胞器及膜泡膜上的跨膜蛋白大家族,能够启动囊泡融合,参与蛋白质与膜转运调节性和非调节性囊泡的胞吐活动的激活和融合过程。自从SNAREs蛋白复合物被发现,它就作为细胞膜融合的关键组分而被广泛研究。不同研究表明,SNAREs蛋白在膜蛋白和非调控囊泡的转运调控中起着不可替代的作用。
胞吐和分泌是生物体最基本的生命现象之一。这些过程维持着个体正常的新陈代谢和生命活动。它们参与生物体从细胞到个体的不同层次,以及生长、发育、繁殖和防御。因此,开发一种有效鉴定SNARE蛋白的方法具有重要。随着SNAREs蛋白研究的不断发展,正确的选择出SNAREs蛋白对于生物实验和研究非常关键。当前已有一些方法用于SNAREs蛋白的识别,但存在方法效率低、识别准确率不达标等问题,并且现有方法并没有考虑到不平衡数据集对泛化能力等效果的影响,也没有处理不平衡数据集时没有较好的方案,对于数据不均衡所造成的模型泛化能力弱和过拟合等问题也没有较好的解决方法。因此,开发出有效识别SNAREs蛋白的方法对于生物学研究有重大的意义。
发明内容
本发明是为了解决现有的蛋白质识别方法识别SNAREs蛋白存在时间开销大、准确率有待于提高的问题。
基于机器学习技术的SNAREs蛋白识别方法,利用最优模型对待识别蛋白进行SNAREs蛋白识别,所述的最优模型的确定过程包括以下步骤:
S1、获取已知的待识别的SNAREs蛋白序列数据集,即原始数据;
获取的SNAREs蛋白序列数据集包含有正例数据和反例数据,正例的数据集为SNAREs蛋白序列文件,反例数据集为非SNAREs蛋白序列文件;
同时将数据集划分为交叉验证训练集和独立测试集;
S2、对数据集预处理,以字符串形式读取数据文件进行处理,判断序列数据的冗余度,使用CD-HIT剔除冗余序列;
S3、利用NR数据库作为比对数据库,使用NCBI-BLAST从预处理过的SNAREs蛋白FASTA文件中提取SNAREs蛋白序列的PSSM矩阵文件,每条蛋白序列提取出一个PSSM矩阵,构建SNAREs蛋白的PSSM矩阵集,统计所有PSSM矩阵文件的大小,将最小PSSM矩阵的维度作为特征维度,并依据特征维度从每个PSSM矩阵中提取数据作为蛋白质序列对应的特征数据,构建特征数据集;
S4、使用最大最小标准化方法对特征数据集进行归一化处理;
S5、针对特征归一化处理后的交叉验证训练集,依据正、反例蛋白质特征数据的数据比例判断特征数据集平衡状态;
特征归一化处理后的交叉验证训练集对应的数据集中正、反例蛋白质特征数据占比相差不超过10%时,数据集处于平衡状态,否则即为不平衡;当正例占据数据集的比例低于20%时,判断数据集为严重不平衡,其他不平衡称为一般不平衡;
数据集处于平衡状态或严重不平衡时,直接进入步骤S7;否则,进入步骤S6;
S6、使用Smote-ENN和Smote-TOMEK采样算法对一般不平衡数据集进行处理,得到平衡的SNAREs蛋白特征数据集;
S7、将S6的SNAREs蛋白特征数据集或不经过S6处理的数据集记为蛋白质特征数据集;采用SVM-RFE-CBR算法对蛋白质特征数据集进行特征排序,得到特征重要性得分的排序结果,以及SVM算法准确率随着排序后的特征的维度不断增加而不断变化的结果;依据排序后不同特征数目的准确率结果来剔除噪声特征,当准确率最高时认为当前最优特征维度,剔除蛋白质特征数据集排序靠后的特征,选择剔除噪声后的特征数据构建最优特征子集,记为交叉验证训练集的最优特征子集;
独立测试集对应的数据集进行相同的操作得到独立测试集的最优特征子集;
S8、采用多种分类器分别对交叉验证训练集的最优特征子集进行分类训练并构建模型,使用独立测试集的最优特征子集进行验证选出最优模型。
进一步地,步骤1中,SNAREs蛋白序列数据包括用户构建的序列数据和公开的测序数据。
进一步地,步骤S2中,获取的蛋白质序列数据待处理之前,需对其进行格式判断、内容判断、冗余度判断:首先按照字符串形式读入蛋白序列数据文件,判断FASTA数据文件每行的开头是否为字符串“>”,与字符串“>”同一行的后续字符为蛋白质的名称,下一行为蛋白质序列数据;读取蛋白质序列数据的内容,蛋白质序列数据中只包含字母“A”、“C”、“D”、“E”、“F”、“G”、“H”、“I”、“K”、“L”、“M”、“N”、“P”、“Q”、“R”、“S”、“T”、“V”、“W”、“Y”,若序列数据中出现了这些字母以外的字符串,即为错误内容,将其删除;然后判断数据文件的冗余度,当序列数据冗余度超过30%时使用CD-HIT对序列数据进行去冗余处理,剔除冗余序列,降低冗余度;
进一步地,步骤S3所述的特征数据为一维数据,依据特征维度从所有的PSSM矩阵文件中提取数据作为蛋白质序列特征数据时,每个PSSM矩阵文件提取一条特征维度对应的数据,把蛋白质序列特征数据组合成一维数据,即为特征数据。
进一步地,步骤S3所述的特征维度为400。
进一步地,步骤S7中采用的SVM-RFE-CBR算法对蛋白质特征集进行特征选择的过程包括以下步骤:
S71、SVM-RFE-CBR算法采用高斯核的方法加快非线性排序计算,对于一组训练样本{xi,yi},i=1,2…,n,特征k排序标准的计算公式如下:
Figure BDA0003243839970000031
其中,K(·,·)K为高斯核函数;是对应xi∈Rd为蛋白质特征数据,yi∈{-1,1}是对应类别数据,表示是否为SNAREs蛋白;(-k)表示特征k被移除,
Figure BDA0003243839970000032
是为了在保持α不变的情况下,去除特征k前后差值;Rd是训练样本的集合,αi、αj是拉格朗日乘数,αi可以依据约束αi≥0和
Figure BDA0003243839970000033
得到;
排序后特征从1维的特征维度逐渐增加到完整特征数据的特征维度并分别使用SVM算法计算准确率,得到准确率随着排序后特征维度增加而不断变化的曲线;当准确率达到最高值时,当前特征维度视为最优特征维度;
S72、使用SVM-RFE-CBR算法对特征数据集进行排序,得到特征排序结果以及最优特征维度;
S73、根据特征排序结果从SNARES蛋白特征数据中选择最优特征子集。
进一步地,步骤S8中采用多种分类器采用交叉验证训练的方法构建最优模型,使用独立测试集测试模型性能包括以下步骤:
S81、利用交叉验证训练集的最优特征子集对随机森林、支持向量机、朴素贝叶斯以及K最邻近分类算法进行交叉验证训练,交叉验证训练中采用一些常用的评价指标来评估并构建模型;
S82、使用独立测试集的最优特征子集对每个模型进行测试,测试结果在独立测试集测试部分可见,对不同模型在独立测试中的结果进行比较,将评价指标最高值最多的模型作为性能最好的模型,即为最优模型。
基于机器学习技术的SNAREs蛋白识别系统,所述系统用于执行基于机器学习技术的SNAREs蛋白识别方法。
一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现基于机器学习技术的SNAREs蛋白识别方法。
一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现基于机器学习技术的SNAREs蛋白识别方法。
有益效果:
本发明提供了一种全新的SNAREs蛋白识别方法,利用PSSM矩阵提取蛋白质序列数据特征,通过后续综合处理可以更加有效且准确的对SNAREs蛋白进行识别,同时本文针对不平衡数据集的不同状态提出了相应了处理方案,有效缓解了不平衡样本造成的模型泛化能力弱的问题,可以进一步提高识别准确率;本发明还能够提高识别蛋白的效率,为研究工作节省了时间和金钱,对于蛋白质识别的研究有积极的推动意义。
附图说明
图1所示为本发明提供的机器学习技术SNAREs蛋白识别方法流程图。
图2所示为使用SVM-RFE-CBR算法对特征排序后,不同维度排序特征数据的SVM算法准确率结果图。
图3所示为SNAREs蛋白数据集使用不同机器学习算法在交叉验证训练集上各项指标的结果图。
图4所示为SNAREs蛋白数据集使用不同机器学习算法在交叉验证训练集上的结果比较图。
图5所示为SNAREs蛋白数据集使用不同方法在独立测试集上各项指标的结果图。
图6所示为SNAREs蛋白数据集识别效果与其它方法识别效果的对比图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,
本实施方式为基于机器学习技术的SNAREs蛋白识别方法,包括以下步骤:
S1、从数据库中收集和下载SNAREs蛋白序列数据,获取已知的待识别的SNAREs蛋白序列数据集,即原始数据;
其中,获取的SNAREs蛋白序列数据集包含有正例数据和反例数据,正例的数据集为SNAREs蛋白序列文件,反例数据集为非SNAREs蛋白序列文件(正例的数量为682,反例数量为2583)。
同时将数据集划分为交叉验证训练集和独立测试集,本实施方式中数据集划分出交叉验证集和独立测试集,交叉验证集的数量为2878(正例的数量为644,反例数量为2234),独立测试集的数量为387(正例的数量为38,反例数量为349)。
S2、对数据集预处理,以字符串形式读取数据文件进行处理,解决格式以及内容的错误,判断序列数据的冗余度,使用CD-HIT剔除冗余序列;
S3、利用NR数据库作为比对数据库,使用NCBI-BLAST从预处理过的SNAREs蛋白FASTA文件中提取SNAREs蛋白序列的PSSM矩阵文件,每条蛋白序列提取出一个PSSM矩阵,构建SNAREs蛋白的PSSM矩阵集,统计所有PSSM矩阵文件的大小,将最小PSSM矩阵的维度作为特征维度,并依据特征维度从每个PSSM矩阵中提取数据作为蛋白质序列对应的特征数据,构建特征数据集;
S4、使用最大最小标准化方法对特征数据集进行归一化处理;
使用最大最小标准化算法把所有特征数据缩放到(0,1)之间,完成特征数据的归一化。归一化处理可以消除指标之间的量纲和取值范围差异的影响,标准化处理将数据按照比例进行缩放,使之落入一个特定的区域,极大的提高了综合分析的效率。
特征归一化处理后的交叉验证集会进行不平衡处理以及特征降维(S5-S7),特征归一化处理后的独立测试集直接进行特征降维(S7),以便与交叉验证集的特征维度和特征顺序保持一致;
S5、针对特征归一化处理后的交叉验证训练集,依据正、反例蛋白质特征数据的数据比例判断特征数据集平衡状态;
特征归一化处理后的交叉验证训练集对应的数据集中正、反例蛋白质特征数据占比相差不超过10%时,数据集处于平衡状态,否则即为不平衡;当正例占据数据集的比例低于20%时,判断数据集为严重不平衡,其他不平衡称为一般不平衡。
数据集处于平衡状态或严重不平衡时,直接进入步骤S7;否则,进入步骤S6;
实施方式步骤S5需进行特征文件平衡判断及相应的平衡处理,依据正、反例数据比例来判断数据集的平衡状态,使用不平衡数据集构建模型时,样本量少的分类所包含的特征过少,很难从中提取规律,会出现模型泛化能力弱的问题,构建的模型也容易因为有限的数据样本而出现过拟合等问题。本发明针对数据集正、反例样本数据比例的不同情况,采用了不同的解决方法,尤其是在样本不平衡时,极大缓解了样本不平衡带来的过拟合、泛化能力弱等问题。当数据集为不平衡数据集时,若正例数据集的数量过少,正例数据集数目占据整体数据集的比例低于20%时,数据集不平衡问题过于严重,训练过少的样本数据会出现过拟合问题。采用采样算法处理不平衡时,采样的数据无法有效提取特征反而会降低模型的效率,后续使用SVM-RFE-CBR算法来缓解严重不平衡问题,本实施方式中,数据集的不平衡问题过于严重未使用采样算法来处理不平衡。当数据集处于其它不平衡状态时,使用SMOTE-ENN和SMOTE-TOMEK算法对序列特征进行平衡处理。
S6、使用Smote-ENN和Smote-TOMEK采样算法对一般不平衡数据集进行处理,得到平衡的SNAREs蛋白特征数据集;
S7、将S6的SNAREs蛋白特征数据集或不经过S6处理的数据集记为蛋白质特征数据集;采用SVM-RFE-CBR算法对蛋白质特征数据集进行特征排序,得到特征重要性得分的排序结果,以及SVM算法准确率随着排序后的特征的维度不断增加而不断变化的结果。依据排序后不同特征数目的准确率结果来剔除噪声特征,当准确率最高时认为当前最优特征维度,剔除蛋白质特征数据集排序靠后(准确率最高时)的特征,选择剔除噪声后的特征数据构建最优特征子集,记为交叉验证训练集的最优特征子集;
独立测试集对应的数据集进行相同的操作得到独立测试集的最优特征子集;
S8、采用机器学习中的随机森林、支持向量机、朴素贝叶斯以及K最邻近分类算法分别对交叉验证训练集的最优特征子集进行分类训练并构建模型,使用独立测试集的最优特征子集进行验证选出最优模型;
S9、利用最优模型对待识别蛋白进行SNAREs蛋白识别。
具体实施方式二:
本实施方式为基于机器学习技术的SNAREs蛋白识别方法,步骤1中,SNAREs蛋白序列数据包括用户构建的序列数据和公开的测序数据;
从数据库中获取公开的SNAREs蛋白序列数据,并构建为FASTA格式文本文件,FASTA格式文本保存有正例的数据集和反例的数据集。
其他步骤与具体实施方式一相同。
具体实施方式三:
本实施方式为基于机器学习技术的SNAREs蛋白识别方法,步骤S2中,获取的蛋白质序列数据待处理之前,需对其进行格式判断、内容判断、冗余度判断:首先按照字符串形式读入蛋白序列数据文件,判断FASTA数据文件每行的开头是否为字符串“>”,与字符串“>”同一行的后续字符为蛋白质的名称,下一行为蛋白质序列数据。读取蛋白质序列数据的内容,蛋白质序列数据中只包含字母“A”、“C”、“D”、“E”、“F”、“G”、“H”、“I”、“K”、“L”、“M”、“N”、“P”、“Q”、“R”、“S”、“T”、“V”、“W”、“Y”,若序列数据中出现了这些字母以外的字符串,即为错误内容,将其删除。然后判断数据文件的冗余度,当序列数据冗余度超过30%时使用CD-HIT对序列数据进行去冗余处理,剔除冗余序列,降低冗余度。
其他步骤与具体实施方式一或二相同。
具体实施方式四:
本实施方式为基于机器学习技术的SNAREs蛋白识别方法,步骤S3中特征提取方法为使用NCBI-BLAST,将预处理过SNAREs蛋白数据集的每个蛋白序列输入BLAST比对程序,下载完整的NR数据库作为比对数据库,分别提取每条SNAREs蛋白序列的PSSM矩阵文件,对所有SNAREs蛋白序列处理过后,将所有蛋白序列的PSSM矩阵文件构建为SNAREs蛋白的PSSM矩阵集,PSSM矩阵文件与蛋白序列一一对应,统计所有蛋白序列PSSM矩阵文件的大小,将最小PSSM矩阵的维度作为特征维度,并依据特征维度从所有的PSSM矩阵文件中提取数据作为蛋白质序列特征数据,每个PSSM矩阵文件提取一条特征维度对应的数据,把蛋白质序列特征数据组合成一维数据,即为特征数据;特征数据顺序与SNAREs蛋白序列一一对应,根据提取后特征数据构建成SNAREs蛋白特征数据集,即特征数据集。
其他步骤与具体实施方式一至三之一相同。
具体实施方式五:
本实施方式为基于机器学习技术的SNAREs蛋白识别方法,步骤S3需对PSSM矩阵文件进行提取,其具体要求为:
A1、使用BLAST从蛋白质序列中提取PSSM矩阵文件;
A2、统计所有蛋白序列PSSM矩阵的大小,得到最小矩阵的大小,作为特征维度,根据特征维度分别从每个蛋白序列的PSSM矩阵文件中提取一条数据,即特征数据;提取的特征数据的顺序与SNAREs蛋白序列一一对应,利用特征数据构建特征数据集;
本实施方式中SNAREs蛋白PSSM数据集的最小PSSM矩阵为400,因此选择400作为特征维度,从所有蛋白对应的PSSM文件中提取20*20的矩阵作为特征数据。
其他步骤与具体实施方式一至四之一相同。
具体实施方式六:
本实施方式为基于机器学习技术的SNAREs蛋白识别方法,步骤S7中采用的SVM-RFE-CBR算法对蛋白质特征集进行特征选择的过程包括以下步骤:
S71、SVM-RFE-CBR算法采用高斯核的方法加快非线性排序计算,对于一组训练样本{xi,yi},i=1,2…,n,特征k排序标准的计算公式如下:
Figure BDA0003243839970000081
其中,K(·,·)K为高斯核函数;是对应xi∈Rd为蛋白质特征数据,yi∈{-1,1}是对应类别数据,表示是否为SNAREs蛋白;(-k)表示特征k被移除,
Figure BDA0003243839970000082
是为了在保持α不变的情况下,去除移除特征k与未移除特征k之间的差值;Rd是训练样本的集合,αi、αj是拉格朗日乘数,αi可以依据约束αi≥0和
Figure BDA0003243839970000083
得到。
排序后特征从1维的特征维度逐渐增加到完整特征数据的特征维度并分别使用SVM算法计算准确率,得到准确率随着排序后特征维度增加而不断变化的曲线。当准确率达到最高值时,当前特征维度视为最优特征维度。
S72、使用SVM-RFE-CBR算法对特征数据集进行排序,得到特征排序结果以及最优特征维度;
S73、根据特征排序结果从PSSM矩阵所构建的SNARES蛋白特征数据中选择最优特征子集。
本实施方式中的SVM-RFE-CBR算法排序结果如图2所示,可以观察到当使用排序后前350维的特征数据时,SVM算法的准确率达到最高值,选择排序后前350维的特征数据构建最优特征子集。
其他步骤与具体实施方式一至五之一相同。
具体实施方式七:
本实施方式为基于机器学习技术的SNAREs蛋白识别方法,步骤S8中采用多种分类器采用交叉验证训练的方法构建最优模型,使用独立测试集测试模型性能包括以下步骤:
S81、利用交叉验证训练集的最优特征子集对随机森林、支持向量机、朴素贝叶斯以及K最邻近分类算法进行交叉验证训练,交叉验证训练中采用一些常用的评价指标来评估并构建模型;
评价指标包括敏感性(Sn)、特异性(Sp)、准确率(ACC)、马修斯相关系数(MCC)和F-分数(F-score),其计算公式如下:
Figure BDA0003243839970000091
其中TP表示预测正确的SNAREs蛋白个数,FP表示预测正确的非SNAREs蛋白个数,TN表示预测错误的SNAREs蛋白个数,FN表示预测错误的非SNAREs蛋白个数。
S82、使用独立测试集的最优特征子集对每个模型进行测试,测试结果在独立测试集测试部分可见,对不同模型在独立测试中的结果进行比较,将评价指标最高值最多的模型作为性能最好的模型,即为最优模型。
下面以一组具体实施例对发明识别SNAREs蛋白的效果作更详细的描述:
使用NCBI-BLAST依据NR数据库从预处理过的蛋白质序列中提取了对应的PSSM矩阵文件。经过对SNAREs蛋白PSSM矩阵数据集的统计,矩阵最小为400维作为特征维度,从每个蛋白序列对应的PSSM矩阵文件中提取前20*20的数据,组成400维的数据作为蛋白序列的特征数据。使用最大最小标准化算法对特征数据进行归一化处理。
判别SNAREs蛋白数据集的不平衡状态,正例占据数据集的比例低于20%,实施例数据集的不平衡问题过于严重,采用SVM-RFE-CBR算法直接对特征数据进行选择排序。依据排序结果,当使用前350排序后的特征时,SVM准确率最高。从特征数据集中提取350维的最优特征数据作为最优特征子集用于蛋白识别模型的构建。
为了选出最优的分类器来构建模型,我们对交叉验证集使用随机森林、支持向量机、朴素贝叶斯以及K最邻近分类算法四个分类算法进行训练构建模型,模型的各项指标如图3所示。我们可以观察到使用支持向量机算法并选择高斯核函数来构建模型时,交叉验证训练的结果Sn、Sp、Acc、MCC分别为0.65、0.97、0.899、0.7。根据四个分类器结果比较结果图4所示。使用独立测试集评估多个模型性能的各项指标如图5所示,使用支持向量机的各种指标为最优值的数量最多,即为最优模型。同时,将模型的各项指标与已有方法进行比较,比较结果如图6所示,可以观察到我们方法的各项指标Sn、Sp、Acc、MCC分别为0.68、0.94、0.91、0.48也明显优于其它方法。
本发明的有益效果为:
本发明提供了一种全新的SNAREs蛋白识别方法,利用PSSM矩阵提取序列数据特征,通过后续综合处理可以更加有效且准确的对SNAREs蛋白进行识别。本发明提高了识别蛋白的效率,为研究工作节省了时间和金钱,对于蛋白质识别的研究有积极的推动意义,为以后的工作起到了启发的作用。
具体实施方式八:
本实施方式为基于机器学习技术的SNAREs蛋白识别系统,,所述系统用于执行基于机器学习技术的SNAREs蛋白识别方法。
具体实施方式九:
本实施方式为一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现基于机器学习技术的SNAREs蛋白识别方法。
具体实施方式十:
本实施方式为一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现基于机器学习技术的SNAREs蛋白识别方法。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (9)

1.基于机器学习技术的SNAREs蛋白识别方法,其特征在于,利用最优模型对待识别蛋白进行SNAREs蛋白识别,所述的最优模型的确定过程包括以下步骤:
S1、获取已知的待识别的SNAREs蛋白序列数据集,即原始数据;
获取的SNAREs蛋白序列数据集包含有正例数据和反例数据,正例的数据集为SNAREs蛋白序列文件,反例数据集为非SNAREs蛋白序列文件;
同时将数据集划分为交叉验证训练集和独立测试集;
S2、对数据集预处理,以字符串形式读取数据文件进行处理,判断序列数据的冗余度,使用CD-HIT剔除冗余序列;
S3、利用NR数据库作为比对数据库,使用NCBI-BLAST从预处理过的SNAREs蛋白FASTA文件中提取SNAREs蛋白序列的PSSM矩阵文件,每条蛋白序列提取出一个PSSM矩阵,构建SNAREs蛋白的PSSM矩阵集,统计所有PSSM矩阵文件的大小,将最小PSSM矩阵的维度作为特征维度,并依据特征维度从每个PSSM矩阵中提取数据作为蛋白质序列对应的特征数据,构建特征数据集;
S4、使用最大最小标准化方法对特征数据集进行归一化处理;
S5、针对特征归一化处理后的交叉验证训练集,依据正、反例蛋白质特征数据的数据比例判断特征数据集平衡状态;
特征归一化处理后的交叉验证训练集对应的数据集中正、反例蛋白质特征数据占比相差不超过10%时,数据集处于平衡状态,否则即为不平衡;当正例占据数据集的比例低于20%时,判断数据集为严重不平衡,其他不平衡称为一般不平衡;
数据集处于平衡状态或严重不平衡时,直接进入步骤S7;否则,进入步骤S6;
S6、使用Smote-ENN和Smote-TOMEK采样算法对一般不平衡数据集进行处理,得到平衡的SNAREs蛋白特征数据集;
S7、将S6的SNAREs蛋白特征数据集或不经过S6处理的数据集记为蛋白质特征数据集;采用SVM-RFE-CBR算法对蛋白质特征数据集进行特征排序,得到特征重要性得分的排序结果,以及SVM算法准确率随着排序后的特征的维度不断增加而不断变化的结果;
依据排序后不同特征数目的准确率结果来剔除噪声特征,当准确率最高时认为当前最优特征维度,剔除蛋白质特征数据集排序靠后的特征,选择剔除噪声后的特征数据构建最优特征子集,记为交叉验证训练集的最优特征子集;
采用的SVM-RFE-CBR算法对蛋白质特征集进行排序和最优特征子集选择的过程包括以下步骤:
S71、SVM-RFE-CBR算法采用高斯核的方法加快非线性排序计算,对于一组训练样本{xi,yi},i=1,2...,n,特征k排序标准的计算公式如下:
Figure FDA0003575139240000021
其中,K(·,·)为高斯核函数;xi∈Rd为蛋白质特征数据,yi∈{-1,1}是对应类别数据,表示是否为SNAREs蛋白;(-k)表示特征k被移除,
Figure FDA0003575139240000022
是为了在保持α不变的情况下,去除特征k前后差值;Rd是训练样本的集合,αi、αj是拉格朗日乘数,αi依据约束αi≥0和
Figure FDA0003575139240000023
得到;
排序后特征从1维的特征维度逐渐增加到完整特征数据的特征维度并分别使用SVM算法计算准确率,得到准确率随着排序后特征维度增加而不断变化的曲线;当准确率达到最高值时,当前特征维度视为最优特征维度;
S72、使用SVM-RFE-CBR算法对特征数据集进行排序,得到特征排序结果以及最优特征维度;
S73、根据特征排序结果从SNARES蛋白特征数据中选择最优特征子集;
独立测试集对应的数据集进行相同的操作得到独立测试集的最优特征子集;
S8、采用多种分类器分别对交叉验证训练集的最优特征子集进行分类训练并构建模型,使用独立测试集的最优特征子集进行验证选出最优模型。
2.根据权利要求1所述的基于机器学习技术的SNAREs蛋白识别方法,其特征在于,步骤1中,SNAREs蛋白序列数据包括用户构建的序列数据和公开的测序数据。
3.根据权利要求1或2所述的基于机器学习技术的SNAREs蛋白识别方法,其特征在于,步骤S2中,获取的蛋白质序列数据待处理之前,需对其进行格式判断、内容判断、冗余度判断:首先按照字符串形式读入蛋白序列数据文件,判断FASTA数据文件每行的开头是否为字符串“>”,与字符串“>”同一行的后续字符为蛋白质的名称,下一行为蛋白质序列数据;读取蛋白质序列数据的内容,蛋白质序列数据中只包含字母“A”、“C”、“D”、“E”、“F”、“G”、“H”、“I”、“K”、“L”、“M”、“N”、“P”、“Q”、“R”、“S”、“T”、“V”、“W”、“Y”,若序列数据中出现了这些字母以外的字符串,即为错误内容,将其删除;然后判断数据文件的冗余度,当序列数据冗余度超过30%时使用CD-HIT对序列数据进行去冗余处理,剔除冗余序列,降低冗余度。
4.根据权利要求3所述的基于机器学习技术的SNAREs蛋白识别方法,其特征在于,步骤S3所述的特征数据为一维数据,依据特征维度从所有的PSSM矩阵文件中提取数据作为蛋白质序列特征数据时,每个PSSM矩阵文件提取一条特征维度对应的数据,把蛋白质序列特征数据组合成一维数据,即为特征数据。
5.根据权利要求4所述的基于机器学习技术的SNAREs蛋白识别方法,其特征在于,步骤S3所述的特征维度为400。
6.根据权利要求1所述的基于机器学习技术的SNAREs蛋白识别方法,其特征在于,步骤S8中采用多种分类器采用交叉验证训练的方法构建最优模型,使用独立测试集测试模型性能包括以下步骤:
S81、利用交叉验证训练集的最优特征子集对随机森林、支持向量机、朴素贝叶斯以及K最邻近分类算法进行交叉验证训练,交叉验证训练中采用评价指标来评估并构建模型;
评价指标包括敏感性Sn、特异性Sp、准确率ACC、马修斯相关系数MCC和F-分数F-score;
S82、使用独立测试集的最优特征子集对每个模型进行测试,测试结果在独立测试集测试部分可见,对不同模型在独立测试中的结果进行比较,将评价指标最高值最多的模型作为性能最好的模型,即为最优模型。
7.基于机器学习技术的SNAREs蛋白识别系统,其特征在于,所述系统用于执行权利要求1至6之一所述的基于机器学习技术的SNAREs蛋白识别方法。
8.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至6之一所述的基于机器学习技术的SNAREs蛋白识别方法。
9.一种基于机器学习技术的SNAREs蛋白识别设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至6之一所述的基于机器学习技术的SNAREs蛋白识别方法。
CN202111027448.9A 2021-09-02 2021-09-02 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备 Active CN113724779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111027448.9A CN113724779B (zh) 2021-09-02 2021-09-02 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111027448.9A CN113724779B (zh) 2021-09-02 2021-09-02 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备

Publications (2)

Publication Number Publication Date
CN113724779A CN113724779A (zh) 2021-11-30
CN113724779B true CN113724779B (zh) 2022-06-17

Family

ID=78681090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111027448.9A Active CN113724779B (zh) 2021-09-02 2021-09-02 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备

Country Status (1)

Country Link
CN (1) CN113724779B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235013B (zh) * 2023-11-10 2024-01-30 中科数创(临沂)数字科技有限公司 一种基于人工智能的智慧档案管理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448787B (zh) * 2018-10-12 2021-10-08 云南大学 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法
CN110825819A (zh) * 2019-09-24 2020-02-21 昆明理工大学 一种处理有缺失值和不平衡非小细胞肺癌数据的二分类方法
CN112489723B (zh) * 2020-12-01 2022-09-06 南京理工大学 基于局部进化信息的dna结合蛋白预测方法
CN112906755A (zh) * 2021-01-27 2021-06-04 深圳职业技术学院 一种植物抗性蛋白识别方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN113724779A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN110633725B (zh) 训练分类模型的方法和装置以及分类方法和装置
CN107609461A (zh) 模型的训练方法、数据相似度的确定方法、装置及设备
CN110287311B (zh) 文本分类方法及装置、存储介质、计算机设备
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN112437053B (zh) 入侵检测方法及装置
CN112950445B (zh) 图像隐写分析中基于补偿的检测特征选择方法
Wolf et al. Computerized paleography: tools for historical manuscripts
CN113611360A (zh) 一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法
CN113724779B (zh) 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备
CN104615635B (zh) 基于方向特征的手掌静脉分类索引构建方法
CN111753299A (zh) 一种基于分组集成的不平衡恶意软件检测方法
JP5049965B2 (ja) データ処理装置及び方法
CN114140246A (zh) 模型训练方法、欺诈交易识别方法、装置和计算机设备
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
CN113837266A (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN111048145B (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
CN107533672A (zh) 模式识别装置、模式识别方法以及程序
CN111383716B (zh) 基因对的筛选方法、装置、计算机设备和存储介质
CN113569957A (zh) 一种业务对象的对象类型识别方法、装置及存储介质
CN110033862B (zh) 一种基于加权有向图的中医量化诊断系统及存储介质
CN113837293A (zh) mRNA亚细胞定位模型训练方法、定位方法及可读存储介质
Pristyanto et al. Comparison of ensemble models as solutions for imbalanced class classification of datasets
CN117076957B (zh) 一种基于多模态信息的人员身份关联方法及系统
CN113764043B (zh) 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant