CN113838524B - S-亚硝基化位点预测方法、模型训练方法及存储介质 - Google Patents

S-亚硝基化位点预测方法、模型训练方法及存储介质 Download PDF

Info

Publication number
CN113838524B
CN113838524B CN202111136267.XA CN202111136267A CN113838524B CN 113838524 B CN113838524 B CN 113838524B CN 202111136267 A CN202111136267 A CN 202111136267A CN 113838524 B CN113838524 B CN 113838524B
Authority
CN
China
Prior art keywords
sequence
nitrosylation
sample
feature set
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111136267.XA
Other languages
English (en)
Other versions
CN113838524A (zh
Inventor
邹权
马家奇
韩轲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Yangtze River Delta Research Institute of UESTC Huzhou
Priority to CN202111136267.XA priority Critical patent/CN113838524B/zh
Publication of CN113838524A publication Critical patent/CN113838524A/zh
Application granted granted Critical
Publication of CN113838524B publication Critical patent/CN113838524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Economics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)

Abstract

本发明提供S‑亚硝基化位点预测模型的训练方法,预测方法和装置,包括:获取数据文件,对数据文件进行预处理,得到序列样本;根据特征提取算法对所述序列样本进行特征提取,并将序列特征拼接,得到初始特征集;对所述初始特征集进行平衡处理,并根据重要性对所述序列特征进行筛选,得到目标特征集;根据目标特征集对集成分类算法进行训练,得到目标S‑亚硝基化位点预测模型。本发明通过样本预处理手段,以及通过对特征集的优化,解决了通过试验筛选的方法来鉴别SNO位点却费时费力且代价不菲的技术问题,并且使得训练速度更快,训练完成后的目标S‑亚硝基化位点预测模型能够更加有效且准确的对S‑亚硝基化位点进行预测。

Description

S-亚硝基化位点预测方法、模型训练方法及存储介质
技术领域
本申请属于序列分析领域,具体涉及一种S-亚硝基化位点预测方法、模型训练方法及存储介质。
背景技术
蛋白质S-亚硝基化(S-Nitrosylation,SNO)是最重要且普遍的翻译后修饰(post-translational modifications,PTM)之一,涉及到一氧化氮(nitric oxide,NO)及其衍生物和半胱氨酸残基的共价修饰。自从Stamler首次发现蛋白质亚硝基化的途径以来,对于蛋白质亚硝基化研究的强度和程度都取得了惊人的进展。不同的研究表明,SNO在众多生理和病理过程中发挥着关键作用,如免疫反应、细胞衰老、转录和翻译后调控以及神经变性。此外,蛋白质亚硝基化等翻译后修饰的异常也会导致许多疾病,如阿尔茨海默病、帕金森病、糖尿病、乳腺癌以及心血管疾病等。由于SNO的低丰度和不稳定特性,SNO的详细机制仍有待阐明。
近年来,通过分子识别并标记蛋白质中的SNO位点,已经完成了多次的大规模蛋白质组学实验筛选,经实验验证的SNO蛋白质数量也是日益增加。因此,预测SNO位点对于理解相关病理和生理机制以及药物开发的基础研究都是必不可少的。但通过大规模试验筛选的方法来鉴别SNO位点却费时费力且代价不菲。
发明内容
本发明针对上述“通过大规模试验筛选的方法来鉴别SNO位点却费时费力且代价不菲”的问题,提供一种S-亚硝基化位点预测方法、模型训练方法及存储介质。
根据本发明的实施例,本发明提供了一种S-亚硝基化位点预测模型的训练方法,包括以下步骤:
SS1获取S-亚硝基化序列数据文件,对数据文件进行预处理,得到序列样本;
SS2根据特征提取算法对所述序列样本进行特征提取,得到序列特征,并将序列特征拼接,得到初始特征集;
SS3对所述初始特征集进行平衡处理,并根据重要性对所述序列特征进行筛选,得到目标特征集;
SS4根据目标特征集对集成分类算法进行训练,得到目标S-亚硝基化位点预测模型。
可选地,步骤SS1,包括以下步骤:
SS11获取S-亚硝基化序列数据文件;
SS12对数据文件进行预处理:在S-亚硝基化序列数据文件中,将S-亚硝基化序列文件作为序列正样本,将非S-亚硝基化序列文件作为序列负样本;
SS13得到序列样本:根据所述序列正样本和所述序列负样本,得到序列样本。
可选地,对数据文件进行预处理,包括以下步骤:对S-亚硝基化序列数据文件进行格式修正、内容修正、冗余度修正;再将其中S-亚硝基化序列文件作为序列正样本,将非S-亚硝基化序列文件作为序列负样本。
可选地,步骤SS2中,所述特征提取算法包括:bidirectional long short termmemory(BiLSTM)算法和bidirectional encoder representations from Transformers(BERT)算法。
可选地,步骤SS2,包括以下步骤:
SS21根据序列样本中同一序列位置顺序,对所述序列样本进行特征提取,得到与序列样本位置顺序相应一致的序列特征;
SS22根据序列样本中同一序列位置顺序对序列特征进行拼接,得到与序列样本位置顺序相应一致的初始特征集。
可选地,步骤SS3,包括以下步骤:
根据edited nearest neighbours(ENN)和adaptive synthetic(ADASYN)算法对所述初始特征集进行平衡处理,并根据MRMD算法对所述序列特征进行筛选,得到目标特征集。
可选地,所述MRMD算法依据maxMRi、mean(maxMDi)以及MRMDscore对所述序列特征进行筛选,公式如下:
其中,其中maxMRi表示i个特征之间的最大关联MR(Max-Relevance)值;MDi表示i个特征之间的最大距离;MRMDscore为最大关联-最大距离(MR-MD)的最终得分;
PCC表示皮尔逊相关系数(Pearsons correlation coefficient),是M-D维的特征向量,由每个实例的第i个特征组成;/>也是一个M-D维的特征向量,它的每个元素都来自每个实例的目标类C;
EDi表示第i个特征的欧几里得距离(Euclidean distance)、COSi表示第i个特征的余弦相似度(cosine similarity),而TCi则表示第i个特征的谷本系数(Tanimotocoefficient),mean(maxMDi)香表示最大距离的均值;
变量wr(0<wr≤1)和wd((0<wd≤1)分别为最大相关度MR和最大距离MD的权重。
可选地,步骤SS4,包括以下步骤:
根据目标特征集对random forest算法进行训练,得到目标S-亚硝基化位点预测模型。
根据本发明的实施例,本发明还提供了一种S-亚硝基化位点预测方法,包括以下步骤:
获取待识别序列样本;
利用如上所述的目标S-亚硝基化位点预测模型对待识别序列样本进行识别,得到S-亚硝基化位点预测结果。
根据本发明的实施例,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的方法步骤。
本发明的有益效果为:
本发明提供的S-亚硝基化位点预测模型的训练方法,通过对训练样本进行预处理,根据特征提取算法对所述序列样本进行特征提取,得到序列特征。并将序列特征拼接,得到初始特征集;再通过平衡处理和特征重要度筛选,在初始特征集中剔除不需要的特征,得到目标特征集用于分类算法的训练,从而得到目标S-亚硝基化位点预测模型。因为样本预处理手段,以及通过对特征集的优化,使得训练速度更快,训练完成后的目标S-亚硝基化位点预测模型能够更加快速有效且准确的对S-亚硝基化位点进行预测。
附图说明
图1为本发明一实施例提供的S-亚硝基化位点预测模型的训练方法流程图;
图2为本发明一实施例提供的S-亚硝基化数据位置特异性偏好图;
图3为本发明一实施例提供的多次交叉验证实验结果图;
图4为本发明一实施例提供的接受者操作特性曲线(ROC)和精准率-召回率(PR)曲线图;
图5为本发明一实施例提供的序列特征选择前后的特征分布图;
图6为本发明一实施例提供的S-亚硝基化位点预测方法流程图。
具体实施方式
如图1所示,本发明提供了一种S-亚硝基化位点预测模型的训练方法,包括以下步骤:
SS1获取S-亚硝基化序列数据文件,步骤SS1中对数据文件进行预处理,得到序列样本;
SS2根据特征提取算法对所述序列样本进行特征提取,得到序列特征,并将序列特征拼接,得到初始特征集;
SS3对所述初始特征集进行平衡处理,并根据重要性对所述序列特征进行筛选,得到目标特征集;
SS4根据目标特征集对集成分类算法进行训练,得到目标S-亚硝基化位点预测模型。
其中,步骤SS1获取S-亚硝基化序列数据文件,对数据文件进行预处理,得到序列样本。
可选地,步骤SS1,包括以下步骤:
SS11获取S-亚硝基化序列数据文件;
SS12步骤SS1中对数据文件进行预处理:在S-亚硝基化序列数据文件中,将S-亚硝基化序列文件作为序列正样本,将非S-亚硝基化序列文件作为序列负样本;
SS13得到序列样本:根据所述序列正样本和所述序列负样本,得到序列样本。
可选地,步骤SS1中对数据文件进行预处理,包括以下步骤:SS121对S-亚硝基化序列数据文件进行格式修正、内容修正、冗余度修正;
SS122再将其中S-亚硝基化序列文件作为序列正样本,将非S-亚硝基化序列文件作为序列负样本。
如图2所示,S-亚硝基化位点和非S-亚硝基化位点位置特异性偏好。该图表示S-亚硝基化位点残基片段周围不同氨基酸的分布及频率特征,其中L代表亮氨酸(leucine)、C代表半胱氨酸(cysteine)、S代表丝氨酸(serine)、E代表谷氨酸(谷氨酸)、K代表赖氨酸(lysine)、D代表天冬氨酸(aspartic acid)以及G代表甘氨酸(glycine)。
本发明实施例具体实现时,当获取的S-亚硝基化序列数据为公开数据时,将其转换成Fasta格式文本,Fasta格式文本保存有正例数据集和反例数据集。而其中,正例数据集为要预测的S-亚硝基化序列文件,所述反例数据集为非S-亚硝基化序列文件。获取的原始S-亚硝基化序列数据待处理之前,可对其进行格式判断、内容判断、冗余度判断:
所述格式判断的具体方法为:当读入的S-亚硝化序列数据文件的行以字符串“>”为开头时,则取加一行的数据为序列文本数据。
所述内容判断的具体方法为:读取的序列文本数据是否由“A”、“C”、“D”、“E”、“F”、“G”、“H”、“I”、“K”、“L”、“M”、“N”、“P”、“Q”、“R”、“S”、“T”、“V”、“W”或“Y”等字母组成。若有这些字母以外的字母出现,如“B”、“X”或“Z”等,则将其删除。
所述冗余度判断的具体方法为:若读入的S-亚硝基化序列文件冗余度超过30%,则使用CD-HIT将其冗余度降至30%以下。
其中,步骤SS2根据特征提取算法对所述序列样本进行特征提取,得到序列特征,并将序列特征拼接,得到初始特征集。
可选地,根据特征提取算法对所述序列样本进行特征提取,得到序列特征,并将序列特征拼接,得到初始特征集,所述特征提取算法包括:bidirectional long short termmemory(BiLSTM)算法和bidirectional encoder representations from Transformers(BERT)算法。两种算法都可以提取双向的序列表征。
BiLSTM算法由LSTM演化而来,LSTM的全称是LongShort-Term Memory,LSTM的计算过程可以概况为,通过对细胞状态中信息遗忘和记忆新的信息,使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态,其中遗忘,记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门,记忆门,输出门来控制。而BiLSTM是Bi-directional Long Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成。例如,前向的LSTML依次输入“谷氨酸”、“半胱氨酸”及“甘氨酸”得到三个向量{hL0,hL1,hL2}。后向的LSTMR依次输入“甘氨酸”,“半胱氨酸”以及“谷氨酸”得到三个向量{hR0,hR1,hR2}。将前向和后向的隐向量进行拼接得到{[hL0,hR2],[hL1,hR1],[hL2,hR0]},即{h0,h1,h2}。
BERT是一个预训练的序列表征模型。它强调了不再像以往一样采用单向序列模型或者把两个单向序列模型进行浅层拼接的方法进行预训练,而是采用新的maskedlanguage model(MLM),以致能生成深度的双向序列表征。BERT利用MLM进行预训练并且采用深层的双向Transformer组件(单向的Transformer一般被称为Transformer decoder,其每一个token(符号)只会attend到目前往左的token。而双向的Transformer则被称为Transformer encoder,其每一个token会attend到所有的token。)来构建整个模型,因此最终生成能融合左右上下文信息的深层双向序列表征。
为了有能力去分辨哪个范围是属于序列A,哪个范围是属于序列B,BERT可采用的方法是:在tokens中把分割token([SEP])插入到每个序列后,以分开不同的序列tokens;为每一个token表征都添加一个可学习的分割embedding来指示其属于序列A还是序列B。
可选地,步骤SS2,包括以下步骤:
SS21根据序列样本中同一序列位置顺序,对所述序列样本进行特征提取,得到与序列样本位置顺序相应一致的序列特征;
SS22根据序列样本中同一序列位置顺序对序列特征进行拼接,得到与序列样本位置顺序相应一致的初始特征集。
本发明实施例具体实现时,利用BiLSTM和BERT算法如上所述对同一序列文件分别进行特征提取;BiLSTM和BERT算法提取的特征分别保存为csv格式文件;对BiLSTM和BERT算法分别生成csv文件的特征数据采用前期融合的方式进行拼接,得到一个完整的特征集进行拼接。如上所述,同时使用这两种特征提取算法的结合,即通过将其提取的特征再次依据序列位置顺序相互拼接的方式,更好的确保了特征序列提取的完整性和准确性,因此比其它算法特征表征能力更强,在预测S-亚硝基化位点时效果更好。
其中,步骤SS3对所述初始特征集进行平衡处理,并根据重要性对所述序列特征进行筛选,得到目标特征集。
可选地,对所述初始特征集进行平衡处理,并根据重要性对所述序列特征进行筛选,得到目标特征集,包括以下步骤:根据edited nearest neighbours(ENN)和adaptivesynthetic(ADASYN)算法对所述初始特征集进行平衡处理,并根据MRMD算法对所述序列特征进行筛选,得到目标特征集。具体的根据edited nearest neighbours(ENN)和adaptivesynthetic(ADASYN)算法平衡正负样本(或称正例数据集和反例数据集),比如如上例中的:正例数据集为要预测的S-亚硝基化序列文件,和反例数据集为非S-亚硝基化序列文件。
可选地,所述MRMD算法依据maxMRi、mean(maxMDi)以及MRMDscore对所述序列特征进行筛选,公式如下:
其中,其中maxMRi表示i个特征之间的最大关联MR(Max-Relevance)值;MDi表示i个特征之间的最大距离;MRMDscore为最大关联-最大距离(MR-MD)的最终得分;
PCC表示皮尔逊相关系数(Pearsonscorrelationcoefficient),是M-D维的特征向量,由每个实例的第i个特征组成;/>也是一个M-D维的特征向量,它的每个元素都来自每个实例的目标类C;
EDi表示第i个特征的欧几里得距离(Euclideandistance)、COSi表示第i个特征的余弦相似度(cosinesimilarity),而TCi则表示第i个特征的谷本系数(Tanimotocoefficient),mean(maxMDi)香表示最大距离的均值;
变量wr(0<wr≤1)和wd((0<wd≤1)分别为最大相关度MR和最大距离MD的权重。
本发明实施例具体实现时,通过上述公式,计算MRMDscore为最大关联-最大距离(MR-MD)的最终得分,并根据分值排序,筛选出重要性较高的序列特征,形成目标特征集(比如前4373维特征集)进行后续的分类器训练,如图5所示,A为实施例中使用MRMD进行特征选择前后BiLSTM和BERT的特征比例分布;B为实施例中每200个MRMD排序特征BiLSTM和BERT的组成数量分布。
其中,步骤SS4根据目标特征集对集成分类算法进行训练,得到目标S-亚硝基化位点预测模型。
可选地,步骤SS4,包括以下步骤:根据目标特征集对random forest算法进行训练,得到目标S-亚硝基化位点预测模型。
本发明实施例中,发明人采用random forest、lightgbm和xgboost(三种均为集成分类算法)分别对MRMD算法选取前4373维特征集进行分类训练,并利用交叉验证测试,找出效果最好的分类算法,交叉验证测试结果如图3所示。
XGBoost算法基于Boosting算法,其主要计算思路为首先在训练样本集中,使用初始权重W1训练得到弱学习器1,再以CART决策树为弱学习器,通过得到的学习误差率的数值,将误差率高的样本权重增加,得到权重W2,然后再基于W2训练得到弱学习器2,以此为规律迭代运行至弱学习器数量为指定数量i,并将i个弱学习器结合为强学习器。XGBoost模型在GBDT的基础上,引入了泰勒二阶函数,因此目标函数相比GBDT有所不同,其公式如下:
式中
——损失函数。
将模型输出和观测结果间的差异量化进行表示,根据实际情况选择,常见的损失函数有Log损失函数、均方误差和绝对值损失函数等。Ω(ft)为模型正则化项,表征术的复杂度,控制模型的总体复杂度,防止过拟合情况发生。
随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。
从直观角度来解释,每棵决策树都是一个运算器,那么对于一个输入样本,N棵树会有N个结果。而随机森林集成了所有的投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的Bagging思想。每棵树的按照如下规则生成:如果训练集大小为N,对于每棵树而言,随机且有放回地从训练集中的抽取N个训练样本(这种采样方式称为bootstrap sample方法),作为该树的训练集;从这里可以知道:每棵树的训练集都是不同的,而且里面包含重复的训练样本。
lightgbm使用的是histogram算法,占用的内存更低,数据分隔的复杂度更低。其思想是将连续的浮点特征离散成k个离散值,并构造宽度为k的Histogram。然后遍历训练数据,统计每个离散值在直方图中的累计统计量。在进行特征选择时,只需要根据直方图的离散值,遍历寻找最优的分割点。
交叉验证测试分类结果的具体方法为:对测试数据分别使用4折、6折、8折以及10折交叉验证。每折均采用敏感性(Sn)、特异性(Sp)、准确率(ACC)和马修斯相关系数(MCC)作为评价指标,其具体公式如下:
T和F代表True和False,是形容词,代表预测是否正确。P和N代表Positive和Negative,是预测结果。当真实标签为正样本时,TP、FN分别表示样品的预测结果为正或负的样本数量;当样本的真标签为负,TN、FP分别表示预测标签为负或预测标签为正。
对选择的分类器算法进行交叉验证测试测试结果如图3所示:可见,其中RF所代表的色块精确度最高。为了进一步证明random forest算法对S-亚硝基化位点预测模型适用性,如图4显示了采用随机森林分类器进行5折交叉验证的受试者工作特征曲线(receiveroperating characteristic curve,ROC)(将一系列(FPR,TPR)作图于二维坐标系中得到的曲线),以及精准率-召回率曲线(precision-recall),Precision为纵轴,Recall为横轴的曲线。
其中,FPR与TPR,Precision和Recall的计算公式为:
T和F代表True和False,是形容词,代表预测是否正确。P和N代表Positive和Negative,是预测结果。当真实标签为正样本时,TP、FN分别表示样品的预测结果为正或负的样本数量;当样本的真标签为负,TN、FP分别表示预测标签为负或预测标签为正。
在受试者工作特征曲线中,AUC,即ROC曲线下的面积就是AUC(Area Under theCurve)越接近1,说明本实施例中的目标S-亚硝基化位点预测模型预测效果越好,图中可见AUC的平均取值在0.97。
ROC曲线中,图中可见AUC的平均取值在0.9746。
当正负样本差距不大的情况下,ROC和PR的趋势是差不多的,因为本实施例,对正负样本做了平衡处理,可见ROC和PR的趋势相近。
根据本发明的实施例,本发明还提供了一种S-亚硝基化位点预测方法,包括以下步骤:
获取待识别序列样本;
利用如上所述的目标S-亚硝基化位点预测模型对待识别序列样本进行识别,得到S-亚硝基化位点预测结果。
本实施例中,即利用本发明提供的训练完成的目标模型,可以用于S-亚硝基化位点。一种可以具体实施的步骤为:
1)获取待识别序列样本;
2)对待识别序列样本件进行预处理,再根据特征提取算法对所述序列样本进行特征提取,并将序列特征拼接,得到初始特征集;
3)对所述初始特征集进行平衡处理,并根据重要性对所述序列特征进行筛选,得到目标特征集;
4)根据集成分类算法对目标特征集进行识别,得到待识别序列样本S-亚硝基化位点样本预测结果。
其中,特征提取算法可为BiLSTM和BERT两种深度学习算法;集成分类算法最优选为random forest算法。
另一种可以具体实施的步骤如图6所示:
S1、获取的S-亚硝基化序列数据文件,判断其质量和冗余度是否符合要求;
若是,则进入步骤S3;
若否,则进入步骤S2;
S2、使用CD-HIT对序列进行去冗余操作,进入步骤S3;
S3、使用BiLSTM和BERT深度学习算法对序列进行特征提取;
S4、采用前期融合的方式对所有特征文件进行拼接,得到一个完整的特征集;
S5、判断序列特征是否属于平衡数据集;
若是,则进入步骤S7;
若否,则进入步骤S6;
S6、使用ENN和ADASYN算法对序列特征进行平衡处理;
S7、采用MRMD算法对特征集进行特征选择,并以特征重要性为标准进行特征排序,剔除噪声特征,保留和实例类别具有强相关性且低冗余的特征子集;
S8、采用random forest、lightgbm和xgboost算法对特征子集进行分类训练,找出最优模型,使用交叉验证进行测试。
本发明提供的S-亚硝基化位点预测方法和S-亚硝基化位点预测模型训练方法,利用BiLSTM和BERT两种深度学习算法表征序列数据特征,在通过与集成分类random forest算法结合,可以更加有效且准确的对S-亚硝基化位点进行预测,这样的结合,经过实验证明,比其它的预测工具的性能更加优秀,如下表所示,Sn,Sp,ACC,MCC,AUC,均远高于其它的预测工具。
与S-亚硝基化位点预测工具的性能比较表。
本发明的实施例,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的方法步骤。
在本权利要求书和说明书对发明步骤描述时,参考术语SS1,SS2,SS3,SS4,一、二、三,1,2,3,4,5并不代表绝对的时间先后或依次进行的顺序,并不代表绝对的步骤之间的逻辑切分,步骤的次序、切分方式可以发明目的能够完成的逻辑前提下,本领域技术人员对于该顺序做出合理的调整,也应在本发明的保护范围之内。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括以下步骤但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统),和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括以下步骤指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括以下步骤优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种S-亚硝基化位点预测模型的训练方法,其特征在于,包括以下步骤:
SS1获取S-亚硝基化序列数据文件,对数据文件进行预处理,得到序列样本;
所述对数据文件进行预处理,包括对S-亚硝基化序列数据文件进行格式判断、内容判断、冗余度判断;
所述格式判断的具体方法为:当读入的S-亚硝化序列数据文件的行以字符串“>”为开头时,则取加一行的数据为序列文本数据;
所述内容判断的具体方法为:读取的序列文本数据是否由 “A”、“C”、“D”、“E”、“F”、“G”、“H”、“I”、“K”、“L”、“M”、“N”、“P”、“Q”、“R”、“S”、“T”、“V”、“W”或“Y”等字母组成,若有这些字母以外的字母出现,如“B”、“X”或“Z”等,则将其删除;
所述冗余度判断的具体方法为:若读入的S-亚硝基化序列文件冗余度超过30%,则使用CD-HIT将其冗余度降至30%以下;
SS2根据特征提取算法对所述序列样本进行特征提取,得到序列特征,并将序列特征拼接,得到初始特征集;
SS3对所述初始特征集进行平衡处理,并根据重要性对所述序列特征进行筛选,得到目标特征集,具体包括以下步骤:
根据edited nearest neighbours (ENN) 和 adaptive synthetic (ADASYN)算法对所述初始特征集进行平衡处理,并根据MRMD算法对所述序列特征进行筛选,得到目标特征集;
SS4根据目标特征集对集成分类算法进行训练,得到目标S-亚硝基化位点预测模型;
步骤SS2,具体包括以下步骤:
SS21根据序列样本中同一序列位置顺序,对所述序列样本进行特征提取,得到与序列样本位置顺序相应一致的序列特征;
SS22根据序列样本中同一序列位置顺序对序列特征进行拼接,得到与序列样本位置顺序相应一致的初始特征集;
其中,步骤SS2中,利用BiLSTM和BERT算法对同一序列文件分别进行特征提取,BiLSTM和BERT算法提取的特征分别保存为csv格式文件;对BiLSTM和BERT算法分别生成csv文件的特征数据采用前期融合的方式进行拼接,得到一个完整的特征集进行拼接。
2.根据权利要求1所述的S-亚硝基化位点预测模型的训练方法,其特征在于,步骤SS1,包括以下步骤:
SS11获取S-亚硝基化序列数据文件;
SS12对数据文件进行预处理:在S-亚硝基化序列数据文件中,将S-亚硝基化序列文件作为序列正样本,将非S-亚硝基化序列文件作为序列负样本;
SS13得到序列样本:根据所述序列正样本和所述序列负样本,得到序列样本。
3.据权利要求1所述的S-亚硝基化位点预测模型的训练方法,其特征在于,所述MRMD算法依据以及/>对所述序列特征进行筛选,公式如下:
其中,表示i个特征之间的最大关联MR(Max-Relevance)值;/>表示i个特征之间的最大距离;/>为最大关联-最大距离(MR-MD)的最终得分;
PCC表示皮尔逊相关系数 (Pearsons correlation coefficient),是M-D维的特征向量,由每个实例的第i个特征组成;/>也是一个M-D维的特征向量,它的每个元素都来自每个实例的目标类C;
表示第i个特征的欧几里得距离 (Euclidean distance)、/>表示第i个特征的余弦相似度 (cosine similarity), 而/>则表示第i个特征的谷本系数(Tanimotocoefficient),/>表示最大距离的均值;
变量和/>分别为最大相关度MR和最大距离MD的权重。
4.根据权利要求1所述的S-亚硝基化位点预测模型的训练方法,其特征在于,步骤SS4,包括以下步骤:
根据目标特征集对random forest算法进行训练,得到目标S-亚硝基化位点预测模型。
5.一种S-亚硝基化位点预测方法,包括以下步骤:
获取待识别序列样本;
利用如权利要求1~4任一项所述的目标S-亚硝基化位点预测模型对待识别序列样本进行识别,得到S-亚硝基化位点预测结果。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~5任一项所述的方法步骤。
CN202111136267.XA 2021-09-27 2021-09-27 S-亚硝基化位点预测方法、模型训练方法及存储介质 Active CN113838524B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111136267.XA CN113838524B (zh) 2021-09-27 2021-09-27 S-亚硝基化位点预测方法、模型训练方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111136267.XA CN113838524B (zh) 2021-09-27 2021-09-27 S-亚硝基化位点预测方法、模型训练方法及存储介质

Publications (2)

Publication Number Publication Date
CN113838524A CN113838524A (zh) 2021-12-24
CN113838524B true CN113838524B (zh) 2024-04-26

Family

ID=78970901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111136267.XA Active CN113838524B (zh) 2021-09-27 2021-09-27 S-亚硝基化位点预测方法、模型训练方法及存储介质

Country Status (1)

Country Link
CN (1) CN113838524B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424663B (zh) * 2022-10-14 2024-04-12 徐州工业职业技术学院 一种基于attention的双向表示模型的RNA修饰位点预测方法
CN116758983A (zh) * 2023-08-23 2023-09-15 山东大学 一种赖氨酸磷酸甘油化位点识别方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161793A (zh) * 2020-01-09 2020-05-15 青岛科技大学 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN111599409A (zh) * 2020-05-20 2020-08-28 电子科技大学 基于MapReduce并行的circRNA识别方法
CN111710360A (zh) * 2020-05-27 2020-09-25 广州大学 一种预测蛋白质序列的方法、系统、装置及介质
WO2021043085A1 (zh) * 2019-09-04 2021-03-11 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质
CN112541356A (zh) * 2020-12-21 2021-03-23 山东师范大学 一种生物医学命名实体识别的方法和系统
CN112906755A (zh) * 2021-01-27 2021-06-04 深圳职业技术学院 一种植物抗性蛋白识别方法、装置、设备和存储介质
CN113178227A (zh) * 2021-04-30 2021-07-27 西安交通大学 多组学融合剪接位点的识别方法及系统、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018350909B2 (en) * 2017-10-16 2021-09-23 Illumina, Inc. Aberrant splicing detection using convolutional neural networks (CNNS)

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021043085A1 (zh) * 2019-09-04 2021-03-11 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质
CN111161793A (zh) * 2020-01-09 2020-05-15 青岛科技大学 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN111599409A (zh) * 2020-05-20 2020-08-28 电子科技大学 基于MapReduce并行的circRNA识别方法
CN111710360A (zh) * 2020-05-27 2020-09-25 广州大学 一种预测蛋白质序列的方法、系统、装置及介质
CN112541356A (zh) * 2020-12-21 2021-03-23 山东师范大学 一种生物医学命名实体识别的方法和系统
CN112906755A (zh) * 2021-01-27 2021-06-04 深圳职业技术学院 一种植物抗性蛋白识别方法、装置、设备和存储介质
CN113178227A (zh) * 2021-04-30 2021-07-27 西安交通大学 多组学融合剪接位点的识别方法及系统、设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Prediction of Protein-Protein Interactions with LSTM Deep Learning Model;Talha Burak Alakus,Ibrahim Turkoglu;2019 ISMSIT;20191216;全文 *
与肿瘤相关的计算microRNA 组学研究综述;李大鹏,鞠颖,廖之君,邹权;《生物信息学》;20151231;全文 *
基于加权PSSM直方图和随机森林集成的蛋白质交互作用位点预测;魏志森;杨静宇;於东军;;南京理工大学学报;20150830(04);全文 *

Also Published As

Publication number Publication date
CN113838524A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN109857889B (zh) 一种图像检索方法、装置、设备及可读存储介质
CN113838524B (zh) S-亚硝基化位点预测方法、模型训练方法及存储介质
JP2020004406A (ja) 分類モデル訓練方法及び装置並びに分類方法及び装置
CN112949408B (zh) 一种过鱼通道目标鱼类实时识别方法和系统
CN110363220B (zh) 行为类别检测方法、装置、电子设备和计算机可读介质
Ragib et al. Pakhichini: Automatic bird species identification using deep learning
WO2023000764A1 (zh) 目标检索方法、装置、设备及存储介质
CN113033665A (zh) 样本扩展方法、训练方法和系统、及样本学习系统
CN116416503A (zh) 一种基于多模态融合的小样本目标检测方法、系统及介质
Ge et al. Coarse-to-fine foraminifera image segmentation through 3D and deep features
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及系统
Muzakir et al. Model for Identification and Prediction of Leaf Patterns: Preliminary Study for Improvement
CN111105041B (zh) 一种用于智慧数据碰撞的机器学习方法及装置
Balipa et al. Alstonia Tree Detection using CNN and Inception V3 Algorithms
Nanditha et al. Classification of animals using toy images
CN116644378A (zh) 一种基于双层嵌套lstm的超长多维时间序列分类方法
CN115497564A (zh) 一种鉴定抗原模型建立方法及鉴定抗原方法
Henri et al. A deep transfer learning model for the identification of bird songs: A case study for Mauritius
CN113408651B (zh) 基于局部判别性增强的无监督三维物体分类方法
Zhang et al. Spatial attention based real-time object detection network for Internet of Things devices
CN113706580A (zh) 一种基于相关滤波跟踪器的目标跟踪方法、系统、设备及介质
Choi et al. Determining the existence of objects in an image and its application to image thumbnailing
CN111813975A (zh) 一种图像检索方法、装置及电子设备
Chandra et al. Deep Neural Networks for Brain Tumor Image Segmentation and Detection
CN117392552B (zh) 一种基于双路径卷积神经网络的叶片病害识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant