CN105893790A - 针对质谱缺失蛋白质数据的分类方法 - Google Patents

针对质谱缺失蛋白质数据的分类方法 Download PDF

Info

Publication number
CN105893790A
CN105893790A CN201610465657.4A CN201610465657A CN105893790A CN 105893790 A CN105893790 A CN 105893790A CN 201610465657 A CN201610465657 A CN 201610465657A CN 105893790 A CN105893790 A CN 105893790A
Authority
CN
China
Prior art keywords
data
mass spectrum
wavelet
spectrum
difference degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610465657.4A
Other languages
English (en)
Other versions
CN105893790B (zh
Inventor
范子川
白娟
代亚兰
张自力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University
Original Assignee
Southwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University filed Critical Southwest University
Priority to CN201610465657.4A priority Critical patent/CN105893790B/zh
Publication of CN105893790A publication Critical patent/CN105893790A/zh
Application granted granted Critical
Publication of CN105893790B publication Critical patent/CN105893790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明提供的针对质谱缺失蛋白质数据的分类方法,其特征在于:包括对质谱缺失蛋白质数据进行预处理,所述预处理过程包括:对蛋白质确实数据的原始质谱进行滑动平均补值处理。将处理后的质谱数据转化为小波谱数据,并对小波谱数据中的有用信息进行噪声过滤,根据特征信息,将对所述小波谱数据中的有用信息区别度检验,对经过区别度检验的数据进行训练和分类;本发明中的针对质谱缺失蛋白质数据的分类方法,对质谱缺失蛋白质数据进行预处理,在通过SVM支持向量机的分类方法对经过预处理后的数据进行训练和分类,可以针对长度不一致以及特征不明显的恶劣数据,识别区分特征,最终实现准确分类。

Description

针对质谱缺失蛋白质数据的分类方法
技术领域
本发明涉及蛋白质组学分类领域及通信领域,尤其涉及一种针对质谱缺失蛋白质数据的分类方法。
背景技术
蛋白质质谱技术原理是:利用得到的生物样本,在电子源中进行电离产生离子束,最后进入质量分析仪利用磁场和电场产生速度色散得到质谱数据图。最后得到蛋白质质谱数据。现在比较重要的质谱分析技术有:辅助激光解析电离飞行时间质谱(MALDI—TOFFMS)和表面加强激光解析电离飞行时间质谱(SELDI—TOFFMS)。
随质谱分析技术的快速提高,对质谱数据的有效分析利用也得到广泛研究。如应用到医疗治疗中。在蛋白质质谱数据分类的问题中,由于蛋白质质谱数据本身具有很高的噪声与冗余性等特征,同时蛋白质质谱数据中也有很多与样本识别相关的特征。因此,这些导致分类器训练的复杂性和准确性。
目前大部分研究针对的是成熟的标准质谱数据集,这些数据集都包含了完整且相同的质荷比(m/z)数据,样本数据维度统一,可以直接通过某些特征选择方法提取到对应的生物标志物,从而对不同细胞样本质谱数据进行分类。然而由于实际质谱分析仪器分辨率的影响,以及实际实验生物样本处理失误,最后得到的数据会存在质谱缺失,因而并不是每一个样本对应同一质荷比处对应都有数据,而且每个样本包含的大分子数量也会不一样。由此一般的数据处理,数据挖掘技术无法应用。这将导致数据处理的困难,以及错误分类率的增加。因此,迫切需要一种针对质谱缺失蛋白质数据的高效准确的分类技术,以克服现有技术中的技术缺陷。
发明内容
有鉴于此,本发明提供的针对质谱缺失蛋白质数据的分类方法,以解决上述问题。
本发明提供的针对质谱缺失蛋白质数据的分类方法,包括
a.对质谱缺失蛋白质数据进行预处理,所述预处理过程包括:
a1.对蛋白质确实数据的原始质谱进行滑动平均补值处理,
a2.将处理后的质谱数据转化为小波谱数据,并对小波谱数据中的有用信息进行噪声过滤,
a3.根据特征信息,将对所述小波谱数据中的有用信息区别度检验,
b.对经过区别度检验的数据进行训练和分类。
进一步,所述步骤a3具体包括:根据特征信息将区别度区域分为高区别度区域和低区别度区域,对小波谱数据中的有用信息进行筛选,将低区别度区域中的特征信息删除,将高区别度区域中的特征信息保留。
进一步,所述步骤a1具体包括采用滑动窗口进行滑动取平均值处理,对质谱缺失区域的数据缺失部分,则采用插值的方式进行补值处理。
进一步,所述步骤a2还包括在谱转换过程中,对进行滑动平均补值处理后的含噪信号进行离散二进小波变换,获取小波变换系数对应的模极大值点,根据预先设置的阈值对所有模极大值点进行筛选,根据筛选后的模极大值点重构小波系数,保留小波分解最大尺度。
进一步,所述步骤b还包括采用支持向量机方法,对经过区别度检验后的数据进行分类训练,得到最优的分类器。
进一步,在对新的预测数据集进行预测时,对预测集进行预处理,并将预处理后的数据输入到训练好的分类器进行分类预测。
本发明的有益效果:本发明中的针对质谱缺失蛋白质数据的分类方法,对质谱缺失蛋白质数据进行预处理,在通过SVM支持向量机的分类方法对经过预处理后的数据进行训练和分类,可以针对长度不一致以及特征不明显的恶劣数据,识别区分特征,最终实现准确分类。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1是本发明的原理示意图。
图2是本发明的滑动平均补值原理图。
图3是本发明的区别度检验原理图。
具体实施方式
下面结合附图和实施例对本发明作进一步描述:图1是本发明的原理示意图。
如图1所示,本实施例中的针对质谱缺失蛋白质数据的分类方法,包括
a.对质谱缺失蛋白质数据进行预处理,所述预处理过程包括:
a1.对蛋白质确实数据的原始质谱进行滑动平均补值处理,
a2.将处理后的质谱数据转化为小波谱数据,并对小波谱数据中的有用信息进行噪声过滤,
a3.根据特征信息,将对所述小波谱数据中的有用信息区别度检验,
b.对经过区别度检验的数据进行训练和分类。
如图2所示,在本实施例中,由于质谱缺失数据的质荷比数据量比较小,仅有几十到几百的量级,然而其值域却有上万量级。而且在该值域范围内,样本质荷比一致性较低。所以采用滑动取平均的方法实现数据降维与对齐,并且由于窗口长度的取值问题,对遇到的数据缺失的窗口采用数值插值技术利用周围已有数据进行补值处理,滑动平均补值过程是在原始质谱1的基础上,利用滑动窗口3,对进行滑动取平均值处理,通过滑动窗口3在原始质谱1中自左向右移动,移动过程中对质谱没有缺失的区域进行平均取值,获取数据的变化趋势,若遇到质谱缺失区域2的数据缺失部分,则采用插值的方式,利用周围已有的数据进行补值处理。
在本实施例中,采用小波分析的手段,将质谱数据转化为小波谱数据,将有用信息从噪声中提取出来,通过对滑动平均补值后的数据进行小波谱转换,可以排除噪声提取出有用信息,同时消除在滑动平均补值过程中引入的主观噪声。小波变换(wavelet transform,WT)继承和发展了短时傅立叶变换局部化的思想,同时又克服了窗口大小不随频率变化等缺点,能够提供一个随频率改变的“时间-频率”窗口,是进行信号时频分析和处理的理想工具。它的主要特点是通过变换能够充分突出问题某些方面的特征,能对时间(空间)频率的局部化分析,通过伸缩平移运算对信号(函数)逐步进行多尺度细化,最终达到高频处时间细分,低频处频率细分,能自动适应时频信号分析的要求,从而可聚焦到信号的任意细节,解决了Fourier变换的困难问题,本实施例在谱转换过程中,首先对含噪信号进行离散二进小波变换,并且获取小波变换系数对应的模极大值点。然后对所有模极大值点使用阈值筛选处理。接下来根据保留下来的极大值,重构小波系数。最后保留大尺度层面的小波系数信息,本实施例中的大尺度层面相当于傅里叶变换后的低频。
在本实施例中,对谱转换之后的小波系数信息,利用显著性检验进行区别度检验,显著性检验(significance test)就是事先对总体的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。或者说,显著性检验要判断样本与总体所做的假设之间的差异是纯属机会变异,还是由所做的假设与总体真实情况之间不一致所引起的。显著性检验是针对总体所做的假设做检验,其原理就是“小概率事件实际不可能性原理”来接受或否定假设,优选地,采用显著性检验中的T检验,进一步提取出具有类别区分性的特征信息,对于小波谱上的数据,进一步的筛选区别度大的特征信息,保留高区别度区域4中的特征信息,去掉低区别度区域5中的特征信息,从而大量减少数据的维度,即冗余或者干扰信息,减少分类处理的复杂度。本实施例中的T检验,用于样本含量较小(例如n<30),总体标准差未知的正态分布资料。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。它与z检验、卡方检验并列。本领域技术人员可以知晓也可以采用可以实现本实施例功能的显著性检验中的其他检验方式来进行,在此不再赘述。
在本实施例中,采用SVM支持向量机这种统计学方法分类方法,对经过区别度检验后的数据进行分类训练,得到最优的分类器,在对新的预测数据集进行预测时,也对预测集施以同样三步预处理,并将预处理之后的数据输入到训练好的分类器进行分类预测。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种针对质谱缺失蛋白质数据的分类方法,其特征在于:包括
a.对质谱缺失蛋白质数据进行预处理,所述预处理过程包括:
a1.对蛋白质确实数据的原始质谱进行滑动平均补值处理,
a2.将处理后的质谱数据转化为小波谱数据,并对小波谱数据中的有用信息进行噪声过滤,
a3.根据特征信息,将对所述小波谱数据中的有用信息区别度检验,
b.对经过区别度检验的数据进行训练和分类。
2.根据权利要求1所述的针对质谱缺失蛋白质数据的分类方法,其特征在于:所述步骤a3具体包括:根据特征信息将区别度区域分为高区别度区域和低区别度区域,对小波谱数据中的有用信息进行筛选,将低区别度区域中的特征信息删除,将高区别度区域中的特征信息保留。
3.根据权利要求1所述的针对质谱缺失蛋白质数据的分类方法,其特征在于:所述步骤a1具体包括采用滑动窗口进行滑动取平均值处理,对质谱缺失区域的数据缺失部分,则采用插值的方式进行补值处理。
4.根据权利要求1所述的针对质谱缺失蛋白质数据的分类方法,其特征在于:所述步骤a2还包括在谱转换过程中,对进行滑动平均补值处理后的含噪信号进行离散二进小波变换,获取小波变换系数对应的模极大值点,根据预先设置的阈值对所有模极大值点进行筛选,根据筛选后的模极大值点重构小波系数,保留小波分解最大尺度。
5.根据权利要求1所述的针对质谱缺失蛋白质数据的分类方法,其特征在于:所述步骤b还包括采用支持向量机方法,对经过区别度检验后的数据进行分类训练,得到最优的分类器。
6.根据权利要求5所述的针对质谱缺失蛋白质数据的分类方法,其特征在于:在对新的预测数据集进行预测时,对预测集进行预处理,并将预处理后的数据输入到训练好的分类器进行分类预测。
CN201610465657.4A 2016-06-23 2016-06-23 针对质谱缺失蛋白质数据的分类方法 Active CN105893790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610465657.4A CN105893790B (zh) 2016-06-23 2016-06-23 针对质谱缺失蛋白质数据的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610465657.4A CN105893790B (zh) 2016-06-23 2016-06-23 针对质谱缺失蛋白质数据的分类方法

Publications (2)

Publication Number Publication Date
CN105893790A true CN105893790A (zh) 2016-08-24
CN105893790B CN105893790B (zh) 2019-03-26

Family

ID=56718184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610465657.4A Active CN105893790B (zh) 2016-06-23 2016-06-23 针对质谱缺失蛋白质数据的分类方法

Country Status (1)

Country Link
CN (1) CN105893790B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528668A (zh) * 2016-10-23 2017-03-22 哈尔滨工业大学深圳研究生院 一种基于可视化网络的二阶代谢质谱化合物检测方法
CN107895159A (zh) * 2017-12-14 2018-04-10 西南大学 临床蛋白质质谱数据的分类方法
CN117095134A (zh) * 2023-10-18 2023-11-21 中科星图深海科技有限公司 一种三维海洋环境数据插值处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105334279A (zh) * 2014-08-14 2016-02-17 大连达硕信息技术有限公司 一种高分辨质谱数据的处理方法
CN105411565A (zh) * 2015-11-20 2016-03-23 北京理工大学 基于广义尺度小波熵的心率变异性特征分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105334279A (zh) * 2014-08-14 2016-02-17 大连达硕信息技术有限公司 一种高分辨质谱数据的处理方法
CN105411565A (zh) * 2015-11-20 2016-03-23 北京理工大学 基于广义尺度小波熵的心率变异性特征分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
冯锐等: "基于飞行时间质谱技术对降解检材的插入缺失遗传多态性检验", 《中国司法鉴定》 *
刘杰等: "基于新阈值函数的二进小波变换信号去噪研究", 《东北大学学报(自然科学版)》 *
祝磊等: "基于聚类分析和半监督学习的蛋白质质谱数据分类", 《航天医学与医学工程》 *
邹修明等: "基于T检验与支持向量机的蛋白质质谱数据分析", 《淮阴师范学院学报(自然科学)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528668A (zh) * 2016-10-23 2017-03-22 哈尔滨工业大学深圳研究生院 一种基于可视化网络的二阶代谢质谱化合物检测方法
WO2018072306A1 (zh) * 2016-10-23 2018-04-26 哈尔滨工业大学深圳研究生院 一种基于可视化网络的二阶代谢质谱化合物检测方法
CN106528668B (zh) * 2016-10-23 2018-12-25 哈尔滨工业大学深圳研究生院 一种基于可视化网络的二阶代谢质谱化合物检测方法
CN107895159A (zh) * 2017-12-14 2018-04-10 西南大学 临床蛋白质质谱数据的分类方法
CN117095134A (zh) * 2023-10-18 2023-11-21 中科星图深海科技有限公司 一种三维海洋环境数据插值处理方法
CN117095134B (zh) * 2023-10-18 2023-12-22 中科星图深海科技有限公司 一种三维海洋环境数据插值处理方法

Also Published As

Publication number Publication date
CN105893790B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN112858473B (zh) 一种基于特征融合的道岔尖轨伤损状态监测方法
CN100507971C (zh) 基于独立分量分析的车辆声音识别方法
CN105701470A (zh) 一种基于最优小波包分解的模拟电路故障特征提取方法
CN112949715A (zh) 一种基于svm的轨道交通故障诊断方法
WO2023213332A1 (zh) 一种多源混合型特高频局部放电图谱的分离识别方法
CN108304567B (zh) 高压变压器工况模式识别与数据分类方法及系统
CN105893790A (zh) 针对质谱缺失蛋白质数据的分类方法
CN112528774B (zh) 一种复杂电磁环境下未知雷达信号智能分选系统及方法
Naseem et al. Investigating tree family machine learning techniques for a predictive system to unveil software defects
CN112364296A (zh) 一种基于深度学习的p波到时自动拾取方法
CN115575811A (zh) 一种断路器电寿命预测评估方法、系统、存储介质及设备
CN114167237A (zh) 一种gis局部放电故障识别方法、系统、计算机设备、存储介质
CN117999478A (zh) 用于将色谱数据和元数据链接到合规风险的方法、介质和系统
CN112906740B (zh) 一种针对组织质谱成像结果去除批次间差异的方法
CN112215307B (zh) 一种应用机器学习自动检测地震仪器信号异常的方法
CN111737993A (zh) 一种配电网设备的故障缺陷文本提取设备健康状态方法
CN111025100A (zh) 变压器特高频局部放电信号模式识别方法与装置
Czech et al. A dictionary approach to identifying transient RFI
CN113095364B (zh) 利用卷积神经网络的高铁地震事件提取方法、介质及设备
CN115310499A (zh) 一种基于数据融合的工业设备故障诊断系统及方法
CN115374859A (zh) 一种针对非平衡、多类别的复杂工业数据的分类方法
Ma DeepQuality: mass spectra quality assessment via compressed sensing and deep learning
CN110631827B (zh) 一种基于改进协同表示分类的齿轮箱故障诊断方法
CN107895159A (zh) 临床蛋白质质谱数据的分类方法
CN105095689A (zh) 一种基于韦恩预测的电子鼻数据挖掘方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant