CN107895159A - 临床蛋白质质谱数据的分类方法 - Google Patents

临床蛋白质质谱数据的分类方法 Download PDF

Info

Publication number
CN107895159A
CN107895159A CN201711341974.6A CN201711341974A CN107895159A CN 107895159 A CN107895159 A CN 107895159A CN 201711341974 A CN201711341974 A CN 201711341974A CN 107895159 A CN107895159 A CN 107895159A
Authority
CN
China
Prior art keywords
window
image data
mass spectrometric
proteomic image
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711341974.6A
Other languages
English (en)
Inventor
白娟
张自力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University
Original Assignee
Southwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University filed Critical Southwest University
Priority to CN201711341974.6A priority Critical patent/CN107895159A/zh
Publication of CN107895159A publication Critical patent/CN107895159A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • G06F2218/10Feature extraction by analysing the shape of a waveform, e.g. extracting parameters relating to peaks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06F2218/14Classification; Matching by matching peak patterns

Abstract

本发明提供的一种临床蛋白质质谱数据的分类方法,包括如下步骤:S1.对含噪的临床蛋白质质谱数据进行预处理,剔除质谱数据中的噪声;S2.从剔除噪声的质谱数据中提取出类别区分特征;S3.采用决策树对类别区分特征进行训练,并将待测的蛋白质质谱数据输入到决策树中进行训练分类,通过本发明,能够对蛋白质质谱数据中的噪声进行有效剔除,而且确保剔除噪声的质谱数据的完整性,并且不损坏质谱数据的原有特征,而且算法过程准确,进而确保最终的分类准确性。

Description

临床蛋白质质谱数据的分类方法
技术领域
本发明涉及一种分类方法,尤其涉及一种临床蛋白质质谱数据的分类方法。
背景技术
质谱学是一门研究气相离子结构、性质及反应行为的科学。质谱分析是将生物样本通过激光照射等方法转化为运动的气态离子碎片,并进入质量分析仪在磁场和电场的作用下离子碎片按质荷比(m/z)大小分离并记录得到质谱数据图的分析方法。
现在比较重要的质谱分析技术有:辅助激光解析电离飞行时间质谱(MALDI—TOFFMS)和表面加强激光解析电离飞行时间质谱(SELDI—TOFFMS)。质谱分析方法灵敏度高,试样通常只需要微克级,就可得到一张很好的谱图,因此质谱方法被广泛用于分子细胞结构分析。随质谱分析技术的快速提高,质谱数据已得到广泛的研究利用。如应用到医疗治疗中,完成疾病的早期诊断,细菌的识别等。
在蛋白质质谱数据分类的问题中,目前大部分研究针对的是成熟的标准质谱数据集,这些数据集都包含了完整且相同的质荷比(m/z)数据,样本数据维度统一,可以直接通过某些特征选择方法提取到对应的生物标志物,从而对不同细胞样本质谱数据进行分类。然而在临床数据获取上,即使在每一个获取MS数据的生物实验中,使用相同的材料,并执行相同的操作流程。不同的实验室环境和多样化的个人操作细节是不可避免的。KathrynA.Jackson曾研究表明培养基的变化,培养条件,培养时间对于产生的质谱数据都有显著影响。所以最后临床得到的数据会存在噪声数据,多个样本得到的质谱数据会存在分子量不对应,特征数杂乱无规律,还包含较多的噪声的问题。
因此,为了解决上述技术问题,需要提出一种新的质谱数据的分类方法。
发明内容
有鉴于此,本发明的目的是提供一种临床蛋白质质谱数据的分类方法,能够对蛋白质质谱数据中的噪声进行有效剔除,而且确保剔除噪声的质谱数据的完整性,并且不损坏质谱数据的原有特征,而且算法过程准确,进而确保最终的分类准确性。
本发明提供的一种临床蛋白质质谱数据的分类方法,包括如下步骤:
S1.对含噪的临床蛋白质质谱数据进行预处理,剔除质谱数据中的噪声;
S2.从剔除噪声的质谱数据中提取出类别区分特征;
S3.采用决策树对类别区分特征进行训练,然后将待测的蛋白质质谱数据输入到决策树中进行训练分类。
进一步,步骤S1中,根据如下方法剔除质谱数据中的噪声:
S101.线性扫描蛋白质质谱数据中的峰值信号,并判断每个峰值信号的峰值是否为左右相邻峰值信号的峰值为最大值,如是,则该峰值信号确定为有效的局部峰值信号;
S102.对局部有效峰值信号进行两步分窗算法取窗内有效峰值信号的平均值形成剔除噪声的质谱数据。
进一步,步骤S102中,根据如下方法进行两步分窗算法处理:
将质谱数据中的mass坐标按照系统的最大误差进行分窗,然后取每个窗口的平均峰值作为该窗口的新的峰值,并以分窗时的各窗口的序列值作为新的mass值;
采用滑窗处理算法对新的峰值进行处理,剔除噪声。
进一步,在对mass坐标分窗时,第一步分窗的窗口宽度取系统最大误差,第二步分窗为新的mass坐标的宽度为2的窗口大小进行滑窗处理。
进一步,S201.将步骤S1中剔除噪声的质谱数据样本进行t检验:
其中,为第一类样本的均值,σi0为第一类样本的方差;为第二类样本的均值,σi1为第二类样本的方差,Ti为样本中第i个质谱数据的t统计值;
S201.将t统计值进行排序,选出t统计值最大的10个特征作为先验信息,并采用遗传算法得到质谱数据的类别区分特征。
进一步,步骤S3中,决策树分类过程中,集合多棵决策树组成随机森林对前面步骤提取的区别性特征数据,进行训练以及分类。
本发明的有益效果:通过本发明,能够对蛋白质质谱数据中的噪声进行有效剔除,而且确保剔除噪声的质谱数据的完整性,并且不损坏质谱数据的原有特征,而且算法过程准确,进而确保最终的分类准确性。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的流程图。
图2为本发明的有效的局部峰值示意图。
图3为本发明的t统计量用于提取区别特征原理图。
图4为本发明的遗传算法提取特征的迭代图。
具体实施方式
以下结合说明书附图对本发明做出进一步详细说明:
本发明提供的一种临床蛋白质质谱数据的分类方法,包括如下步骤:
S1.对含噪的临床蛋白质质谱数据进行预处理,剔除质谱数据中的噪声;
S2.从剔除噪声的质谱数据中提取出类别区分特征;
S3.采用决策树对类别区分特征进行训练,然后将待测的蛋白质质谱数据输入到决策树种进行训练分类,其中,决策树分类过程中,集合多棵决策树组成随机森林对前面步骤提取的区别性特征数据,进行训练以及分类;通过本发明,能够对蛋白质质谱数据中的噪声进行有效剔除,而且确保剔除噪声的质谱数据的完整性,并且不损坏质谱数据的原有特征,而且算法过程准确,进而确保最终的分类准确性;其中,决策树算法为现有算法,在此不加以赘述。
本实施例中,在质谱仪中所获得的质谱数据可以描述为水平轴上为质量电荷比(massM/Z),垂直轴上为离子强度(intensity特征值)的直方图,对于非零强度的条带表示为峰值,相应的M/Z比值称为峰值位置,非零强度称为峰高;在医疗或研究机构临床获取质谱数据过程中,由于实验环境、器材、流程、操作的微小差别都会导致获得含噪声的数据;又由于实际实验环境和操作细节等因素的影响,导致所得质谱数据存在数据缺失和随机误差;因此,步骤S1中,根据如下方法剔除质谱数据中的噪声:
S101.线性扫描蛋白质质谱数据中的峰值信号,并判断每个峰值信号的峰值是否为左右相邻峰值信号的峰值最大值,如是,则该峰值信号确定为有效的局部峰值信号,又称为局部极值蛋白峰,如图2所示,图2中虚线区域内的圆圈标注的即为即为局部极值蛋白峰;
S102.对局部有效峰值信号进行两步分窗算法求取所有具有有效峰值信号的平均值形成剔除噪声的质谱数据;具体地:
根据如下方法进行两步分窗算法处理:
将质谱数据中的mass坐标按照系统的最大误差进行分窗,然后取每个窗口的平均峰值作为该窗口的新的峰值,并以分窗时的各窗口的序列值作为新的mass值;
采用滑窗处理算法对新的峰值进行处理,剔除噪声,通过上述的方法,能够有效地剔除数据中存在的各种噪声,而且,在噪声剔除过程中不会对质谱数据的原有特征造成任何影响,确保后续处理中能够准确提取出分类区别特征,从而确保最终结果的准确性。
本实施例中,在对mass坐标分窗时,在对mass坐标滑分窗时,第一步分窗的窗口的宽度取系统的最大误差,但测量峰值是可能落在标准峰左右最大系统误差范围内,即2倍最大误差范围内,所以第二步进行对应新mass坐标的宽度为2滑窗处理;通过以上两步分窗的方法,能够有效地剔除噪声,又能够避免质谱数据的过度损失造成分类解结果的不准确性,其中,滑窗处理算法为现有技术,在此不加以赘述。
本实施例中,步骤S2中,根据如下方法提取出类别区分特征:
S201.将步骤S1中剔除噪声的质谱数据样本进行t检验:
第一类样本:
第二类样本:
其中,为第一类样本的第i个特征的均值,σi0为第一类样本的第i个特征的方差;为第二类样本的第i特征均值,σi1为第二类样本的第i特征的方差,Ti为第i个质谱特征数据的t检验统计值;
S201.将t统计值进行排序,选出t统计值最大的10个特征作为先验信息,并采用遗传算法得到质谱数据的类别区分特征;其中,遗传算法基本框架为现有算法,其具体过程不加以赘述,在遗传算法中,将先验信息编码为基因1,而将其他信息随机标记为0或者1,标记为基因1的特征为有效类别区分特征,通过上述方法,能够准确提取出分类区别特征,确保最终结果的准确性;图3中的虚线框1表示为两类样本特征值存在显著的差异,即高区别度区域;图3中的虚线框2为两类样本特征值无显著差异,即低区别度区域。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种临床蛋白质质谱数据的分类方法,其特征在于:包括如下步骤:
S1.对含噪的临床蛋白质质谱数据进行预处理,剔除质谱数据中的噪声;
S2.从剔除噪声的质谱数据中提取出类别区分特征;
S3.采用决策树对类别区分特征进行训练,然后将待测的蛋白质质谱数据输入到决策树中进行训练分类。
2.根据权利要求1所述的临床蛋白质质谱数据的分类方法,其特征在于:步骤S1中,根据如下方法剔除质谱数据中的噪声:
S101.线性扫描蛋白质质谱数据中的峰值信号,并判断每个峰值信号的峰值是否为左右相邻峰值信号的峰值最大值,如是,则该峰值信号确定为有效的局部峰值信号;
S102.对局部有效峰值信号进行两步分窗算法求取窗内有效峰值信号的平均值形成剔除噪声的新的质谱数据。
3.根据权利要求2所述的临床蛋白质质谱数据的分类方法,其特征在于:步骤S102中,根据如下方法进行两步分窗算法处理:
将质谱数据中的mass坐标按照系统的最大误差进行分窗,然后取每个窗口的平均峰值作为该窗口的新的峰值,并以分窗时的各窗口的序列值作为新的mass值;
采用滑窗处理算法对新的峰值进行处理,剔除噪声。
4.根据权利要求3所述的临床蛋白质质谱数据的分类方法,其特征在于:在对mass坐标分窗时,第一步分窗的窗口宽度取系统最大误差,第二步分窗为新的mass坐标的宽度为2的窗口大小进行滑窗处理。
5.根据权利要求1所述的临床蛋白质质谱数据的分类方法,其特征在于:步骤S2中,根据如下方法提取出类别区分特征:
S201.将步骤S1中剔除噪声的质谱数据样本进行t检验:
其中,为第一类样本的均值,σi0为第一类样本的方差;为第二类样本的均值,σil为第二类样本的方差,Ti为样本中第i个质谱数据的t统计值;
S201.将t统计值进行排序,选出t统计值最大的10个特征作为先验信息,并采用遗传算法得到质谱数据的类别区分特征。
6.根据权利要求1所述的临床蛋白质质谱数据的分类方法,其特征在于:步骤S3中,决策树分类过程中,集合多棵决策树组成随机森林对前面步骤提取的区别性特征数据,进行训练以及分类。
CN201711341974.6A 2017-12-14 2017-12-14 临床蛋白质质谱数据的分类方法 Pending CN107895159A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711341974.6A CN107895159A (zh) 2017-12-14 2017-12-14 临床蛋白质质谱数据的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711341974.6A CN107895159A (zh) 2017-12-14 2017-12-14 临床蛋白质质谱数据的分类方法

Publications (1)

Publication Number Publication Date
CN107895159A true CN107895159A (zh) 2018-04-10

Family

ID=61807878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711341974.6A Pending CN107895159A (zh) 2017-12-14 2017-12-14 临床蛋白质质谱数据的分类方法

Country Status (1)

Country Link
CN (1) CN107895159A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109085282A (zh) * 2018-06-22 2018-12-25 东南大学 一种基于小波变换和随机森林模型的色谱重叠峰解析方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893790A (zh) * 2016-06-23 2016-08-24 西南大学 针对质谱缺失蛋白质数据的分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893790A (zh) * 2016-06-23 2016-08-24 西南大学 针对质谱缺失蛋白质数据的分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J. BAI ET AL.: "Classification of Methicillin-Resistant and Methicillin-Susceptible Staphylococcus Aureus Using an Improved Genetic Algorithm for Feature Selection Based on Mass Spectra", 《ICBBT’17》 *
邹修明等: "基于T检验与支持向量机的蛋白质质谱数据分析", 《淮阴师范学院学报(自然科学)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109085282A (zh) * 2018-06-22 2018-12-25 东南大学 一种基于小波变换和随机森林模型的色谱重叠峰解析方法

Similar Documents

Publication Publication Date Title
EP1337845B1 (en) Method for analyzing mass spectra
Bhargava Towards a practical Fourier transform infrared chemical imaging protocol for cancer histopathology
EP2700042B1 (en) Analyzing the expression of biomarkers in cells with moments
US20020193950A1 (en) Method for analyzing mass spectra
CN107328842B (zh) 基于质谱谱图的无标蛋白质定量方法
US11879829B2 (en) Methods and systems for classifying fluorescent flow cytometer data
AU2002241535A1 (en) Method for analyzing mass spectra
US7860685B2 (en) Method for clustering signals in spectra
CN104680185B (zh) 基于边界点重分类的高光谱图像分类方法
CN109557165B (zh) 用于监控质谱成像制备工作流程的质量的方法
CN115187527A (zh) 一种多源混合型特高频局部放电图谱的分离识别方法
CN112906740B (zh) 一种针对组织质谱成像结果去除批次间差异的方法
CN107895159A (zh) 临床蛋白质质谱数据的分类方法
CN112798678A (zh) 基于血清的新型冠状病毒感染快速检测方法
CN107132268A (zh) 一种用于识别肺癌组织的数据处理装置及系统
CN105893790A (zh) 针对质谱缺失蛋白质数据的分类方法
JP2019184249A (ja) 粒子発生源解析システム、粒子発生源解析方法、及びプログラム
US11495323B2 (en) Microbial classification of a biological sample by analysis of a mass spectrum
Ma DeepQuality: mass spectra quality assessment via compressed sensing and deep learning
CN109190713A (zh) 基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术
CN112014378A (zh) 一种便携式血痕识别仪及其鉴别方法
CN114428139A (zh) 代谢标志物及在制备高尿酸血症的风险预测试剂盒方面中的应用和试剂盒
WO2022108645A1 (en) Method for optimal scaling of cytometry data for machine learning analysis and systems for same
Jouve et al. Statistical power in MALDI/SELDI-TOF studies
CN117611543A (zh) 基于人工智能的t1期大肠癌淋巴结转移风险预测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180410

RJ01 Rejection of invention patent application after publication