CN108388774A - 一种多肽谱匹配数据的在线分析方法 - Google Patents
一种多肽谱匹配数据的在线分析方法 Download PDFInfo
- Publication number
- CN108388774A CN108388774A CN201810042887.9A CN201810042887A CN108388774A CN 108388774 A CN108388774 A CN 108388774A CN 201810042887 A CN201810042887 A CN 201810042887A CN 108388774 A CN108388774 A CN 108388774A
- Authority
- CN
- China
- Prior art keywords
- psm
- flag
- polypeptide
- subprogram
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 46
- 229920001184 polypeptide Polymers 0.000 title claims abstract description 44
- 102000004196 processed proteins & peptides Human genes 0.000 title claims abstract description 44
- 238000001228 spectrum Methods 0.000 title claims abstract description 42
- 238000004458 analytical method Methods 0.000 title claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000006870 function Effects 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000001819 mass spectrum Methods 0.000 abstract description 7
- 230000007547 defect Effects 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 34
- 238000012360 testing method Methods 0.000 description 9
- 238000012797 qualification Methods 0.000 description 6
- 102000004169 proteins and genes Human genes 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- UGTJLJZQQFGTJD-UHFFFAOYSA-N Carbonylcyanide-3-chlorophenylhydrazone Chemical compound ClC1=CC=CC(NN=C(C#N)C#N)=C1 UGTJLJZQQFGTJD-UHFFFAOYSA-N 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 4
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 3
- 125000003275 alpha amino acid group Chemical group 0.000 description 2
- 239000012472 biological sample Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 description 1
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000003277 amino acid sequence analysis Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000000299 nuclear matrix Anatomy 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000002133 sample digestion Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 238000010206 sensitivity analysis Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种多肽谱匹配数据的在线分析方法,适于从高通量串联质谱平台及数据库匹配引擎输出的多肽谱匹配中鉴定正确的匹配。主要步骤包括数据预处理、使用在线学习算法求解优化模型、根据训练得出的分类函数鉴定正确的多肽谱匹配。该技术通过积极集存贮并动态更新对分类函数起作用的样本,实现了大规模多肽谱匹配数据的高效鉴定,克服了现有方法在大规模数据集上存储量大、计算缓慢的缺陷。
Description
技术领域
本发明涉及一种数据分析方法,尤其涉及一种多肽谱匹配数据的在线分析方法。
背景技术
生物质谱技术为蛋白质鉴定提供了高通量、高灵敏度的分析平台,是蛋白质组鉴定的核 心技术。鸟枪法结合数据库搜索策略是大规模蛋白质组鉴定的主流方法,其主要鉴定步骤为: (1)酶切:加入特定的酶,将含有蛋白质混合物的生物样品酶切为多肽混合物;(2)生成质谱: 通过碰撞解离将分离出来的多肽裂解为碎片离子,送入质谱仪分析其质谱图;(3)用数据库匹 配软件比对实验质谱与数据库中的理论质谱,确定最优的多肽质谱匹配(Peptide Spectrum Match,PSM),进而确定多肽的氨基酸序列;(4)依据鉴定出的多肽的氨基酸序列分析并推导 出样品中蛋白质的氨基酸序列。
由于生物样品和生物实验的复杂性,串联质谱平台输出的质谱图中含有大量噪声,导致 数据库搜索引擎给出的多肽谱匹配结果中有大量错误的匹配。当前主流搜索软件给出的PSM 匹配中,正确匹配的数目通常占PSM总数的不足50%。
从数据库搜索引擎给出的大量多肽谱匹配中鉴定出正确匹配的数据分析任务称为多肽谱 匹配鉴定。目前多肽谱匹配鉴定的主流技术有两类。第一类是以PeptideProphet为代表的基 于统计的方法。该类方法假定PSM样本从一个混合分布中抽样得到,并采用期望最大化方法 计算每个PSM正确的概率。第二类是以Percolator为代表的基于核的机器学习技术。该类方 法采用基于核的支持向量机迭代地校正模型以拟合目标PSM,并最终给出PSM的评分。
多肽谱匹配鉴定是一类特殊的半监督学习任务。公告号为CN106156805A的发明所公开的 专利技术可用于该问题的数据分析。该发明将匹配到诱骗谱上的PSM视为有确定性标号的样 本,将其余的PSM视为未标号的样本,采用半监督学习技术从未标号样本中鉴别正确的多肽 谱匹配。在多个实验数据集上,该方法的PSM鉴定数目等性能指标超过了两种主流方法 PeptideProphet和Percolator。
公告号为CN106156805A的发明提出的模型可等价地化为DC规划模型,并采用经典的 CCCP算法求解,进而训练出分类函数以鉴定正确的多肽谱匹配。该技术可简述如下:
设预处理后的训练样本为其中,N为所有PSM训练样本的个数,xi∈Rd为数据库搜索引擎输出的多肽谱匹配,yi∈{-1,+1},负类样本(诱骗PSM)标签为“-1”,其余样本(目标PSM)标签为“+1”。记
Ω-={i|yi=-1},Ω+={i|yi=+1}。
若嵌入经典的C-SVM(支持向量分类机),则公告号为CN106156805A的发明提出的模型可化 为:
其中,w∈RN,θ=[θ1,...,θN]T∈RN是模型待求解的决策变量,θi∈[0,1]表征第i个样本标签 的置信度,C1>0,C2>0,λ>0为模型参数,C1表示负类样本(诱骗PSM)经验损失的权重, C2表示正类样本(目标PSM)经验损失的权重,h(t)=max(0,1-t)为损失函数,决策函数 f(x)=<w,φ(x)>,φ(·)为特征映射。模型(1)与下面的模型等价(具有相同的最优解w):
其中,w∈RN,为常数,Rγ(t)=min(1-γ,max(0,1-t))为正类样本的损失函数。 模型(2)可化为标准的DC规划:
其中hγ(t)=max(0,γ-t)。进一步,采用DC规划的经典批处理算法——CCCP算法求解。
算法1.标准批处理CCCP算法求解模型(2)
步1.初始化:置w0←0,k=0;
步2.步2-1.重复迭代:
wk+1=argminw Jvex(w)+J′cav(wk)w (4)
置k←k+1,直到收敛.
上述数据分析技术与公告号为CN106156805A的发明所公开的数据分析方法虽然可以直 接调用通用的非线性规划软件包求解相应的模型并鉴定正确的多肽谱匹配,但存在以下重要 缺陷:(1)在求解子问题(4)时,需要存贮规模为N×N的稠密的核矩阵,算法所需存贮 量为O(N2),因此仅适用于较小规模的数据集,不能满足高通量质谱平台产生的大规模多肽 谱匹配数据的分析需求;(2)仅适用于批处理环境(即预先已知全部样本的情形)下的数据 分析,不适于高通量质谱平台实时产生的多肽谱匹配数据的在线即时分析。
针对该问题,本发明公开了一种多肽谱匹配数据的在线分析方法。该方法实现了高通量质 谱平台产生的大规模多肽谱匹配数据的高效鉴定,并且鉴定性能在多个指标下超过了目前主 流方法。该方法同时适用于多肽谱匹配数据流的分析,可实时地对多肽谱匹配样本进行鉴定。
发明内容
本发明解决大规模多肽谱匹配鉴定问题所采用的技术方案是使用积极集存贮并动态更新 起作用的样本,使用在线学习算法训练分类函数并对多肽谱匹配样本进行鉴定。该方法主要 包括以下步骤:
步骤1、数据预处理:将样本数据的每个特征转换为数值型数据,去除冗余特征,将每 个特征的数据进行归一化处理。
步骤2、选取核函数k(xi,xj)并确定模型参数C1,C2和γ的值。
步骤3、采用在线学习算法训练分类函数鉴定正确的多肽谱匹配。
记预处理后的多肽谱匹配样本为其中,N为所有训练样本的个数,xi∈Rd为数 据库搜索引擎输出的多肽谱匹配,yi∈{-1,+1},负类样本(诱骗PSM)标签为“-1”,其余样 本(目标PSM)标签为“+1”,使用在线学习算法求解模型(2),训练分类器
步骤4、依据训练得出的分类函数鉴定正确的多肽谱匹配。
各步骤的详细说明
步骤1、数据归一化:将样本的各个特征的数据做平移和放缩,将其转化为均值为0、方 差为1的向量。
步骤2、选取高斯核函数其中σ>0为常数;采用交叉验证 的方法选取模型参数C1和C2,其中C2≥C1>0,参数γ可取值为0。
步骤3、采用在线学习算法求解模型(2)。该步骤是本发明的关键技术。
在线学习算法的技术特点是使用积极集S存贮对模型训练起作用的样本。接收新的PSM 样本后,算法立即将接收的PSM样本加入积极集S,并以积极集S中的样本为训练样本,按 算法1的迭代框架求出最优解,直至接收并处理完全部样本。
在线学习算法的核心是求解子问题(4)。由于子问题(4)中含有未知的特征映射本 发明将子问题(4)转化为如下的对偶规划问题求解:
其中,
在线学习算法的基本模块
在线学习算法的第一个基本模块是子程序Update()。该子程序将解的指定分量置为0(步 1)并更新梯度向量(步2)。
子程序1.Update(i)
输入:指标i
步1.αj←0,其中,j∈S且下界Aj或上界Bj发生改变;
αi←0;
步2.对于所有j∈S,置gj←yj-∑s∈SαsKjs,其中Kjs=k(xj,xs)。
在线学习算法的第二个基本模块是子程序Process()。该子程序在上下界约束条件下, 从积极集中选取一个指标(步1──步3)。选取的准则是:沿相应坐标方向,目标函数值下降 最快。子程序接下来计算相应的步长(步4),并更新解的相应分量和梯度向量(步5)。
子程序2.flag=Process()
输入:无
输出:flag=1:未找到下降方向;
flag=0:找到下降方向;
参数:τ:大于0的较小的数,子程序终止时关于梯度的容许度。
步1.i←argmin{gs|αs>As,s∈S}
j←argmax{gs|αs<Bs,s∈S}
步2.若max(gj-gi)≤τ,则
flag=1,子程序终止;
否则,flag=0;
步3.若(-gi>τ,gj<τ)或(-gi>τ,gj>τ且-gi>gj),则
u←gi,t←i;
否则,u←gj,t←j;
步4.若u<0,则
否则,其中Ktt=k(xt,xt).
步5.置αt←αt+λ;置gs←gs-λKis,
在线学习算法的第三个基本模块是子程序Clean()。它负责从积极集清除部分指标以节 省存贮空间并提高计算效率。该子程序依据特定规则从积极集中选取候选PSM样本的指标(步 1──步2),并从候选指标中清除指定数目的具有最大梯度分量的指标(步3)。
子程序3Clean()
参数:ρ∈(0,1):移除指标的最大比例;
μsafe,μsafe-target:选择候选PSM样本的阈值;
步1、置
步2、选取候选PSM样本的指标,构成S的子集V:
V←{i∈S|αi=0且((yi=-1,gi≥μsafe)或(yi=+1,gi≥1-γ+μsafe)
或(yi=+1,gi≤-μsafe-target))};
步3、若|V|≤ρ|S|,则从S中移除V中所有的指标;
否则,从V中选取梯度分量gi最大的m个指标并从S中移除,m=ρ|S|。
基于上述三个基本模块,本发明公开如算法2所示的在线学习算法求解模型(2)。在 线学习算法接收一个新的样本点后,立即更新对偶子问题(5)的解α、积极集S以及梯度向 量g。算法的迭代格式如下:首先初始化解向量α及积极集S(步1),接受一个新的样本 点后,算法更新下界Aj和上界Bj,j∈Ω+(步2-1),求解以S中的样本为训练集的对偶子问题(5)(步2-2,步2-3),周期性地执行Clean()子程序,从积极集S中清除部分冗余样本(步 2-4)。
算法2.多肽谱匹配鉴定的在线学习算法
参数:M:启动CCCP迭代时,积极集S最少的元素个数;
τ>0:求解对偶问题(5)的精确度;
步1.初始化:置η←0,α←0,
步2.在线迭代:
当一个新的PSM样本{xi,yi}进入时,i=1,2,…
步2-1.更新下界Aj和上界Bj:
置S←S∪{i};,
置
计算Aj=min(0,C2yj)-C2ηjyj,Bj=max(0,C2yj)-C2ηjyj,
步2-2.执行Update(i)
步2-3.置flag←0
While(flag==0)
flag←Process()
End while
步2-4.周期性地执行Clean()。
算法2描述了在线学习环境下,多肽谱匹配数据的分析方法。在批处理环境下,已知PSM数据集的全部样本,则将样本随机地逐一输入算法进行分析。
步骤4.依据训练得出的分类函数鉴定正确的多肽谱匹配。
记α*∈RN为算法2输出的最优解,则算法2训练的分类函数有如下形式:
其中,x∈Rd为PSM样本各个特征构成的向量。
对于PSM样本(xi,yi),按下面的公式计算其得分
将所有PSM样本的得分从高到低排序,并在给定的FDR水平下输出得分较高的PSM。这 些得分高的PSM即为算法鉴定出的正确的多肽谱匹配。
本发明的有益效果
(1)实现了大规模PSM数据的高灵敏度分析和鉴定,所公开的在线分析方法大幅度减少了 对存储量的要求,提高了计算速度,克服了现有技术分析大规模PSM数据集的困难。
(2)所公开的在线学习算法实现了PSM数据的实时在线分析。
附图说明
图1为本发明所公开的多肽谱匹配数据的在线分析方法的流程图,其主体部分是通过在 线学习算法训练分类函数在线学习算法在接收新的PSM样本点后立即将其加入积极集S, 接下来更新上下界Aj,Bj,j∈Ω+∩S,求解对偶子问题,并周期性地移除积极集中的冗余样本。 在线学习算法通过训练出的分类函数计算PSM样本的得分并鉴定正确的多肽谱匹配。图2、 图3和图4分别画出了本发明所公开的在线分析方法和批处理算法在Ups1、Yeast和Tal08 数据集上30次运行的PSM鉴定数目。每次运行均随机选取2/3的样本作为训练集。
具体实施方式
下面结合附图和实例对本发明做进一步说明。选取4个多肽谱匹配鉴定数据集对所公开 方法的有效性进行测试。表1列出了这4个数据集的样本总数、诱骗PSM的数目及目标PSM 的数目。每个数据集均按照2:1的比例随机分成两个子集合——训练集和测试集。本发明公 开的在线分析方法在训练集上训练,得到分类函数,在独立的测试集上测试分类函数的性能。 优化模型(2)的参数C1,C2通过交叉验证选取,参数γ在各个数据集上均取值为0。在各个数据 集上,算法2中的参数取值为M=1000,τ=0.05,ρ=0.25,μsafe=0.3。参数μsafe-target在3个小规模数据集上取值为0.3,在大规模的tal08-large数据集上取值为+∞。
表1数据集
表2列出了本发明采用的方法与当前主流方法PeptideProphet和Percolator鉴定出的PSM数目的比较,其中,FDR=2×FP/(TP+FP),FDR取公认的0.05的水平, TP为鉴定出的正类样本中正确匹配(目标PSM)的个数,FP为鉴定出的正类样本中错误 匹配(诱骗PSM)的个数。由表2可见,本发明采用的方法鉴定的正确匹配的个数比 PeptideProphet和Percolator多2.6%~16.6%。可见,在该指标下,本发明公开的方法 在所测试的数据集上优于另外两种方法。
表2本发明方法与PeptideProphet和Percolator鉴定结果比较(FDR=0.05)
为测试本发明公开的在线学习方法的计算效率和鉴定性能,对同一训练集与测试集分别 采用在线学习方法和批处理算法求解模型(2)并比较耗用时间、鉴定总数及测试集鉴定比率。 批处理算法按算法1的格式迭代求解。子问题的求解通过直接调用Matlab标准二次规划解 对偶模型(5)来实现。在大规模的Tal08-large数据集上,批处理算法存贮核矩阵存在困难, 因此将Tal08-large训练集重采样为6个规模为20000的子数据集,在每个子数据集上训练 一个分类函数并对PSM样本进行评分,最终的PSM的评分为6个评分的均值。在线学习算法 进行了30次独立试验。算法在Intel Core E5 V4 CPU 2.4GHz计算机上运行。表3列出了 本发明方法与批处理算法的运算时间和PSM鉴定结果的比较。在鉴定PSM数量相当的情况下, 本发明所公开的在线学习方法的计算时间大幅减少,仅为批处理算法运算时间的在 Ups1数据集上,在线学习算法在单个训练样本上的平均计算时间为 可实现实时鉴定。在其他3个数据集上,在线学习方法在单个训练样本上的平均 计算时间与Ups1数据集大致相同。在各个数据集上,测试集鉴定比率(测试集上鉴定出的 PSM数目与PSM鉴定总数之比)接近理想比率1/3,说明本发明所公开方法训练得到的分类函 数有良好的推广性能。
表3本发明方法与批处理算法的运算时间和PSM鉴定结果的比较
为比较批处理算法与本发明所公开的在线学习算法的稳定性,将训练集和测试集按2:1 的比例多次随机抽样,分别执行两种算法,各重复30次。图2、图3和图4分别画出了两种 算法在Ups1、Yeast和Tal08数据集上30次运行的PSM鉴定数目。Ups1数据集(图2)上, 批处理算法第8次运行鉴定数目明显少;Yeast数据集(图3)上,两种算法都有稳定的鉴定 性能;Tal08数据集(图4)上,批处理算法第21次运行鉴定的PSM数量明显较少,而在线 学习算法鉴定结果较稳定。可见,本发明所公开的在线分析方法可以有效避免算法陷入较差 的局部最优解从而导致鉴定结果较差的情况。
上述说明结合图表对本发明的具体实施方式进行了描述,但并不是对本发明保护范围的 限制。在本发明的技术方案的基础上,相关技术人员不需要付出创造性劳动即可做出的各种 修改或变形仍在本发明的保护范围以内。
Claims (3)
1.一种多肽谱匹配数据的在线分析方法,其特征在于所述方法包括以下步骤:
步骤1、数据预处理;
步骤2、选取核函数k(xi,xj)并确定模型参数C1,C2和γ的值;
步骤3、采用在线学习算法求解优化模型
其中,为训练样本,xi∈Rd为数据库搜索引擎输出的多肽谱匹配,yi∈{-1,+1},诱骗PSM标签为“-1”,目标PSM标签为“+1”,Ω-={i|yi=-1},Ω+={i|yi=+1},w∈RN是模型待求解的决策变量,C1>0,C2>0,λ>0为模型参数,C1表示负类样本(诱骗PSM)经验损失的权重,C2表示正类样本(目标PSM)经验损失的权重,h(t)=max(0,1-t)为负类样本损失函数,Rγ(t)=min(1-γ,max(0,1-t))为正类样本的损失函数,γ<1为常数,f(x)=<w,φ(x)>,φ(·)为特征映射;
步骤4、依据训练得出的分类函数鉴定正确的多肽谱匹配。
2.如权利要求1所述的一种多肽谱匹配数据的在线分析方法,其特征在于步骤3中的优化模型采用如下在线学习算法求解:
步1、初始化:置η←0,α←0,
步2、在线迭代:
当一个新的PSM样本{xi,yi}进入时,i=1,2,…
步2-1 更新下界Aj和上界Bj:
置S←S∪{i};,
置
计算Aj=min(0,C2yj)-C2ηjyj,Bj=max(0,C2yj)-C2ηjyj,
步2-2 执行Update(i);
步2-3 置flag←0
While(flag==0)
flag←Process()
End while
步2-4 定期执行Clean()。
3.如权利要求1所述的一种多肽谱匹配数据的在线分析方法,其特征在于权利要求2中的在线学习算法含有如下三个子程序作为基本模块:
子程序1 Update(i)
输入:指标i;
步1、αj←0,其中,j∈S且下界Aj或上界Bj发生改变;
αi←0;
步2、对于所有j∈S,置gj←yj-∑s∈SαsKjs,其中Kjs=k(xj,xs);
子程序2 flag=Process()
输入:无;
输出:flag=1:未找到下降方向;
flag=0:找到下降方向;
参数:τ:大于0的较小的数,子程序终止时梯度的容许度;
步1、i←argmin{gs|αs>As,s∈S}
j←argmax{gs|αs<Bs,s∈S};
步2、若max(gj-gi)≤τ,则
flag=1,子程序终止;
否则,flag=0;
步3、若(-gi>τ,gj<τ)或(-gi>τ,gj>τ且-gi>gj),则
u←gi,t←i;
否则,u←gj,t←j;
步4、若u<0,则
否则其中Ktt=k(xt,xt);
步5、置αt←αt+λ;置gs←gs-λKis,
子程序3Clean()
参数:ρ∈(0,1):移除指标的最大比例;
μsafe,μsafe-target:选择候选PSM样本的阈值;
步1、置
步2、选取候选PSM样本的指标,构成S的子集V:
V←{i∈S|αi=0且((yi=-1,gi≥μsafe)或(yi=+1,gi≥1-γ+μsafe)
或(yi=+1,gi≤-μsafe-target))};
步3、若|V|≤ρ|S|,则从S中移除V中所有的指标;
否则,从V中选取梯度分量gi最大的m个指标并从S中移除,m=ρ|S|。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810042887.9A CN108388774B (zh) | 2018-01-17 | 2018-01-17 | 一种多肽谱匹配数据的在线分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810042887.9A CN108388774B (zh) | 2018-01-17 | 2018-01-17 | 一种多肽谱匹配数据的在线分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108388774A true CN108388774A (zh) | 2018-08-10 |
CN108388774B CN108388774B (zh) | 2021-07-23 |
Family
ID=63077121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810042887.9A Expired - Fee Related CN108388774B (zh) | 2018-01-17 | 2018-01-17 | 一种多肽谱匹配数据的在线分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108388774B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111739583A (zh) * | 2020-08-04 | 2020-10-02 | 西湖大学 | 基于优化数据库(Sub-Lib)的数据非依赖性质谱检测方法 |
CN113933373A (zh) * | 2021-12-16 | 2022-01-14 | 成都健数科技有限公司 | 一种利用质谱数据确定有机物结构的方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120191685A1 (en) * | 2009-07-01 | 2012-07-26 | Consejo Superior De Investigaciones Cientificas | Method for identifying peptides and proteins from mass spectrometry data |
CN105787507A (zh) * | 2016-02-16 | 2016-07-20 | 中国石油大学(华东) | 基于预算支持向量集的LS-SVMs在线学习方法 |
CN106156805A (zh) * | 2016-09-12 | 2016-11-23 | 中国石油大学(华东) | 一种样本标签缺失数据的分类器训练方法 |
CN106529204A (zh) * | 2016-10-18 | 2017-03-22 | 中国科学院计算技术研究所 | 一种基于半监督学习的交联质谱多谱排序方法 |
-
2018
- 2018-01-17 CN CN201810042887.9A patent/CN108388774B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120191685A1 (en) * | 2009-07-01 | 2012-07-26 | Consejo Superior De Investigaciones Cientificas | Method for identifying peptides and proteins from mass spectrometry data |
CN105787507A (zh) * | 2016-02-16 | 2016-07-20 | 中国石油大学(华东) | 基于预算支持向量集的LS-SVMs在线学习方法 |
CN106156805A (zh) * | 2016-09-12 | 2016-11-23 | 中国石油大学(华东) | 一种样本标签缺失数据的分类器训练方法 |
CN106529204A (zh) * | 2016-10-18 | 2017-03-22 | 中国科学院计算技术研究所 | 一种基于半监督学习的交联质谱多谱排序方法 |
Non-Patent Citations (5)
Title |
---|
JIALEI WANG等: "Cost-Sensitive Online Classification", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 * |
XIJUN LIANG等: "An adaptive classification model for peptide identification", 《BMC》 * |
YONGXIANG WANG等: "Improved classification model for peptide identification based on self-paced learning", 《BIBM》 * |
赵春婕等: "支持向量机原始问题研究综述", 《陕西理工学院学报》 * |
郭法滨等: "基于半监督学习的弹道目标头体分辨方法", 《优先出版:HTTPS://KNS.CNKI.NET/KCMS/DETAIL/10.1108.TP.20160721.0943.144.HTML》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111739583A (zh) * | 2020-08-04 | 2020-10-02 | 西湖大学 | 基于优化数据库(Sub-Lib)的数据非依赖性质谱检测方法 |
CN113933373A (zh) * | 2021-12-16 | 2022-01-14 | 成都健数科技有限公司 | 一种利用质谱数据确定有机物结构的方法和系统 |
CN113933373B (zh) * | 2021-12-16 | 2022-02-22 | 成都健数科技有限公司 | 一种利用质谱数据确定有机物结构的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108388774B (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wei et al. | An improved protein structural classes prediction method by incorporating both sequence and structure information | |
CA2424031C (en) | System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map | |
Alves et al. | Advancement in protein inference from shotgun proteomics using peptide detectability | |
Ng et al. | Reconfigurable acceleration of genetic sequence alignment: A survey of two decades of efforts | |
CN109801680B (zh) | 基于tcga数据库的肿瘤转移复发预测方法及系统 | |
CN113488104B (zh) | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 | |
CN113762417B (zh) | 基于深度迁移的对hla抗原呈递预测系统的增强方法 | |
CN109189892A (zh) | 一种基于文章评论的推荐方法及装置 | |
CN110349621B (zh) | 肽段-谱图匹配可信度检验方法、系统、存储介质及装置 | |
CN108388774A (zh) | 一种多肽谱匹配数据的在线分析方法 | |
CN105046106B (zh) | 一种用最近邻检索实现的蛋白质亚细胞定位预测方法 | |
Dotan et al. | Effect of tokenization on transformers for biological sequences | |
CN104615910A (zh) | 基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法 | |
DeRonne et al. | Pareto optimal pairwise sequence alignment | |
CN106709273B (zh) | 微藻蛋白质特征序列标签匹配的快速检测方法及系统 | |
CN112382342A (zh) | 一种基于集成特征选择的癌症甲基化数据分类方法 | |
Bai et al. | A unified deep learning model for protein structure prediction | |
CN107729719B (zh) | 一种从头测序方法 | |
CN109243527A (zh) | 一种酶切概率辅助的肽段可检测性预测方法 | |
Aleb et al. | An improved K-means algorithm for DNA sequence clustering | |
Camproux et al. | Exploring the use of a structural alphabet for structural prediction of protein loops | |
CN111652102A (zh) | 一种输电通道目标物辨识方法及系统 | |
CN107657282A (zh) | 多肽鉴定的自步长学习方法 | |
KR20200104672A (ko) | 클러스터링 기법을 이용한 생물종 서식지 추적 방법 및 장치 | |
Li et al. | Prediction of splice site using support vector machine with feature selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210723 |