CN109190713A - 基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术 - Google Patents
基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术 Download PDFInfo
- Publication number
- CN109190713A CN109190713A CN201811144172.0A CN201811144172A CN109190713A CN 109190713 A CN109190713 A CN 109190713A CN 201811144172 A CN201811144172 A CN 201811144172A CN 109190713 A CN109190713 A CN 109190713A
- Authority
- CN
- China
- Prior art keywords
- mass spectrum
- oophoroma
- serum
- feature
- sparse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N27/00—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
- G01N27/62—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
- G01N27/626—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode using heat to ionise a gas
- G01N27/628—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode using heat to ionise a gas and a beam of energy, e.g. laser enhanced ionisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrochemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Optics & Photonics (AREA)
- Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术。本发明将血清软电离飞行时间质谱技术与带稀疏惩罚性的特征选择算法相结合,形成了一种卵巢癌的微创快检技术体系。本发明针对血清样本的飞行时间质谱数据特点,设计了带稀疏惩罚性的自适应特征选择算法。该特征选择方法能够从原始的一万多维质谱数据中选择得到20个关键特征,进一步对这20个特征做流形学习,将特征降到2维,可得线性可分的可视化结果,在常规的线性SVM等分类器上即可得到非常好的分类效果。在公共数据集上开展的实验证明了本方法在卵巢癌的判别上的有效性。
Description
技术领域
本发明属于基于质谱数据的疾病筛查领域,特别涉及了基于血清样本飞行时间质谱的卵巢癌快速判别技术。
背景技术
据调查,中国每年新发卵巢癌患者约52,100例,死亡22,500例。在妇科恶性肿瘤排名中,卵巢癌的发病率高居第三位,最低生存率仅为39%,5年复发率最高,达到70%。对卵巢癌的诊断和预防具有重大的社会意义。相对于穿刺细胞活检、腹腔镜等传统检测手段,基于血清样本的质谱检测技术是一种微创、简便、快速的检测手段。
基于质谱的快检技术进入实用阶段的关键是高灵敏度、高准确率的数据判别方法,因此很有必要针对卵巢癌血清质谱这种高维稀疏数据的判别方法开展研究。
发明内容
发明目的:本发明的目的是为现有的卵巢癌检测手段,提高一种微创、高效的检测方面。本发明以软电离飞行时间质谱仪为数据源,针对采集到的数据的高维稀疏特点,设计相应的特征降维处理流程,以实现高效的卵巢癌诊断判别。
技术方案
为达到以上目的,本发明采用的技术方案为:
基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术,具体步骤为:
(1)数据获取
将分离后的血清样本应用到疏水性C16蛋白质芯片,使用α-氰基-4-羟基肉桂酸作为基质,放入基质辅助激光解吸电离飞行时间质谱仪。基质辅助激光解吸电离飞行时间质谱仪采用了软电离技术,能够较大程度保留样本中的大分子结构。配合使用的α-氰基-4-羟基肉桂酸基质可以有效电离低于20000Da的多肽和蛋白质。设置质谱仪的激光强度240,探测器灵敏度10,质量聚焦6000,位置50,检测范围0-20000Da,每个样本电离40~80次。
(2)数据分析
由于飞行时间质谱记录的各质荷比离子的数量量级差别较大,首先采用特征归一化做数据预处理:预处理后各个维度的特征将呈现均值为0、方差为1的分布特点。
飞行时间质谱数据往往有几万甚至几十万的维数特征量,直接用于分类训练计算量过大,而且其中的很多相关性不高或者不相关的特征量对于判别分类有较大干扰。实验发现,直接使用非监督降维方法,如主成分分析或MDS、t-SNE等流形学习方法,并不能取得理想的降维效果,降维后的数据经过可视化呈现并不能有效区分阳性和阴性两个类别。
为此,引入带稀疏惩罚项的特征特征选择方法,定义待优化的代价函数为:
其中的L1范数对应稀疏正则化,能够有效抑制各维特征中的弱相关特征。为确定最优的λ1和λ2,采用网格搜索和交叉验证的方法,自适应选择最优超参数,即求解: 为特定超参数取值下优化误差代价函数求得的回归模型。
根据最终选定的回归模型,结合卵巢癌血清样本的数据特点,按照系数θ绝对值的大小逆序选出20个特征作为选定的关键特征。
针对特征选择得到的20个特征,再使用t-SNE流形学习算法将数据降维至2维,并进行可视化。t-SNE根据特征取值的条件概率分别定义降维前后的样本相似度,即和通过优化目标函数得到2维特征,t-SNE较好地保持了降维前后数据局部分布特点的不变性。对这2维进行可视化,能够观察到阳性和阴性样本之间具有显著的分类边界。
最后,选用线性核SVM最为基础分类器,其代价函数为
loss1(z)=max(z,1+z),loss0(z)=max(z,1-z)。通过网格搜索+5叠交叉验证的方法决定超参数C,并确定最终的分类器。
有益效果:
本发明将血清飞行时间质谱检测技术与高维稀疏数据的自适应特征降维方法有机结合,形成了一种卵巢癌的微创快检技术。
其中,本发明使用的基质辅助激光解吸电离飞行时间质谱仪是一种软电离质谱技术,具有高通量、快速、简单的特点,不需要进行前置的物质分离,能够产生样品的整体谱图,支持后续的定性及定量分析。相对于穿刺细胞活检、腹腔镜等检测手段,血浆质谱检测是一种微创、简便、快速的检测手段。血清质谱数据的维度非常高,具有大量的稀疏特征,为此,本发明提出了适用于血清质谱高维稀疏数据的多步骤特征降维流程,通过将带稀疏惩罚项的自适应特征选择和流形学习进行结合,实现了一种高准确率的判别分析方法。
附图说明
图1是血清样本的飞行时间质谱;
图2是单独使用PCA降维可视化的结果;
图3是单独使用t-SNE降维可视化的结果;
图4是带稀疏惩罚项的特征选择和流形学习相结合的降维可视化结果;
图5是线性核SVM分类器。
具体实施方式
下面结合具体实施案例,进一步阐释本发明。应理解本实施案例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落入本申请所附权利要求所限定的范围。
基于血清样本飞行时间质谱和带稀疏惩罚项的自适应特征选择的卵巢癌快速判别技术,包含以下步骤:
步骤1:数据采集。设置患者组和控制组,抽取血样。将分离后的血清样本应用疏水性C16蛋白质芯片,使用α-氰基-4-羟基肉桂酸作为基质,放入基质辅助激光解吸电离飞行时间质谱仪。设置质谱仪的激光强度240,探测器灵敏度10,质量聚焦6000,位置50,检测范围0-20000Da,每个样本电离40~80次。为展示和验证本发明数据分析方法的有效性,本实例选用卵巢癌公共数据集NCI-PBSII-061902,该数据集为发表在著名医学期刊《柳叶刀》的公开数据集,通过飞行时间质谱仪采集得到。该数据集包含162名卵巢癌患者和91名控制组被试者的血清质谱数据。
图1为其中一个样本的飞行时间质谱数据,包含了15154个特征。
步骤2:数据分析。图2和图3是单独使用PCA和t-SNE降维可视化的结果,可见,两类(0-控制组,1-患者组)区分效果并不好。特别是PCA方法中,两类样本交叠较多,不具有可区分的分类边界。
针对以上问题,本发明首先应用带稀疏惩罚项的特征特征选择方法,定义待优化的代价函数为:
采用网格搜索和交叉验证的方法,自适应选择最优超参数,即求解: 为特定超参数取值下优化误差代价函数求得的回归模型。求解得到λ1=0.000645,λ2=0,最重要的前20个特征序号和权重系数如下所示:
对这20个特征使用t-SNE降维,得到图4所示的可视化结果,可见,两类(0-控制组,1-患者组)的区分效果非常好,样本点无交叠,且边界宽度较大。
由于降维可视化效果较好,可采用简单的分类模型,如线性核SVM分类器。得到图5所示的分类边界。该分类器达到了100%的分类准确度。
Claims (2)
1.基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术,其特征在于包括以下步骤:
(1)数据获取
样品准备:将分离后的血清样本应用到疏水性C16蛋白质芯片,使用α-氰基-4-羟基肉桂酸作为基质,该基质能够有效电离低于20000质荷比的多肽和蛋白质。
仪器设定:软电离飞行时间质谱仪,设置激光强度240,探测器灵敏度10,质量聚焦6000,位置50,检测范围0-20000Da,每个样本电离40~80次。
(2)数据分析
数据预处理:飞行时间质谱记录的各质荷比离子的数量量级差别较大,采用以下特征归一化方法:
特征选择:飞行时间质谱数据往往有几万甚至几十万的维数特征量,直接用于分类训练计算量过大,而且其中的很多相关性不高或者不相关的特征量对于判别分类有较大干扰。
首先定义待优化的代价函数:
该代价函数同时包含了L1和L2范数,L2范数对应岭回归正则化,L1范数对应LASSO正则化,是稀疏惩罚项。为确定最优的λ1和λ2,采用网格搜索和交叉验证的方法,自适应选择最优超参数,即求解:
为特定超参数取值下优化误差代价函数求得的回归模型。
根据最终选定的回归模型,按照系数θ绝对值的大小逆序选出20个特征。理论上,经过稀疏惩罚项的系数抑制作用,应观察到后面的大多数特征系数取值为0。
流形学习特征降维和可视化:经过上一步的特征选择,得到了20个左右的关键特征。此时,进一步使用流形学习将数据降维至2维,并进行可视化。
本发明使用t-SNE(t-distributed stochastic neighbor embedding,t分布随机邻域嵌入)非监督方法进行降维。使用条件概率定义降维前的样本点相似度,
降维后的相似度,
待优化的目标函数为,
通过最小化J得到的2维特征从条件概率上保留了原始数据的局部特点。此时,对这2维进行可视化,能够观察到显著的分类边界。
分类判别:分类器使用线性核SVM,其代价函数为,
其中,loss1(z)=max(z,1+z),loss0(z)=max(z,1-z)
超参数C为正则化系数,其值通过网格搜索+5叠交叉验证的方法确定。
最终选定的C值下训练得到的分类器作为卵巢癌快速判别的分类器。
2.根据权利要求1所述的基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术,其特征在于:
步骤(1)描述的血清软电离飞行时间质谱数据采集与步骤(2)描述的质谱分析方法所形成的卵巢癌微创快检技术体系。
步骤(2)描述的针对血清飞行时间质谱数据的多步骤特征降维流程,即先通过带稀疏惩罚项的自适应特征选择得到少量的关键特征,再使用t-SNE流形学习方法,将特征进一步降至2维。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811144172.0A CN109190713A (zh) | 2018-09-29 | 2018-09-29 | 基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811144172.0A CN109190713A (zh) | 2018-09-29 | 2018-09-29 | 基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109190713A true CN109190713A (zh) | 2019-01-11 |
Family
ID=64907870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811144172.0A Pending CN109190713A (zh) | 2018-09-29 | 2018-09-29 | 基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190713A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112885409A (zh) * | 2021-01-18 | 2021-06-01 | 吉林大学 | 一种基于特征选择的结直肠癌蛋白标志物选择系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1778906A (zh) * | 2004-11-17 | 2006-05-31 | 李建远 | 克隆人自体基因的胚胎干细胞定向诱导成体细胞分化 |
US20130013334A1 (en) * | 2005-06-08 | 2013-01-10 | Millennium Pharmaceuticals, Inc. | Methods for the identification, assessment, and treatment of patients with cancer therapy |
CN103412003A (zh) * | 2013-08-21 | 2013-11-27 | 电子科技大学 | 基于半监督领域自适应的气体检测方法 |
CN103502473A (zh) * | 2011-03-01 | 2014-01-08 | 耶鲁大学 | 胃肠胰神经内分泌肿瘤(gep-nen)的预测 |
CN103714536A (zh) * | 2013-12-17 | 2014-04-09 | 深圳先进技术研究院 | 基于稀疏表示的多模态磁共振图像的分割方法及装置 |
CN105069427A (zh) * | 2015-07-29 | 2015-11-18 | 天津市协力自动化工程有限公司 | 一种基于改进的稀疏编码的虹膜识别方法及装置 |
CN105116397A (zh) * | 2015-08-25 | 2015-12-02 | 西安电子科技大学 | 基于mmfa模型的雷达高分辨率距离像目标识别方法 |
CN105740653A (zh) * | 2016-01-27 | 2016-07-06 | 北京工业大学 | 基于LLRFC和相关性分析去除冗余的特征选择方法LLRFC score+ |
CN106250914A (zh) * | 2016-07-22 | 2016-12-21 | 华侨大学 | 基于结构稀疏多核学习的多模态数据特征筛选和分类方法 |
CN106786560A (zh) * | 2017-02-14 | 2017-05-31 | 中国电力科学研究院 | 一种电力系统稳定特征自动提取方法及装置 |
CN106991435A (zh) * | 2017-03-09 | 2017-07-28 | 南京邮电大学 | 基于改进的字典学习的入侵检测方法 |
CN107133651A (zh) * | 2017-05-12 | 2017-09-05 | 太原理工大学 | 基于超网络判别子图的功能磁共振影像数据分类方法 |
CN108596027A (zh) * | 2018-03-18 | 2018-09-28 | 西安电子科技大学 | 基于监督学习分类模型的未知类别信号的检测方法 |
-
2018
- 2018-09-29 CN CN201811144172.0A patent/CN109190713A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1778906A (zh) * | 2004-11-17 | 2006-05-31 | 李建远 | 克隆人自体基因的胚胎干细胞定向诱导成体细胞分化 |
US20130013334A1 (en) * | 2005-06-08 | 2013-01-10 | Millennium Pharmaceuticals, Inc. | Methods for the identification, assessment, and treatment of patients with cancer therapy |
CN103502473A (zh) * | 2011-03-01 | 2014-01-08 | 耶鲁大学 | 胃肠胰神经内分泌肿瘤(gep-nen)的预测 |
CN103412003A (zh) * | 2013-08-21 | 2013-11-27 | 电子科技大学 | 基于半监督领域自适应的气体检测方法 |
CN103714536A (zh) * | 2013-12-17 | 2014-04-09 | 深圳先进技术研究院 | 基于稀疏表示的多模态磁共振图像的分割方法及装置 |
CN105069427A (zh) * | 2015-07-29 | 2015-11-18 | 天津市协力自动化工程有限公司 | 一种基于改进的稀疏编码的虹膜识别方法及装置 |
CN105116397A (zh) * | 2015-08-25 | 2015-12-02 | 西安电子科技大学 | 基于mmfa模型的雷达高分辨率距离像目标识别方法 |
CN105740653A (zh) * | 2016-01-27 | 2016-07-06 | 北京工业大学 | 基于LLRFC和相关性分析去除冗余的特征选择方法LLRFC score+ |
CN106250914A (zh) * | 2016-07-22 | 2016-12-21 | 华侨大学 | 基于结构稀疏多核学习的多模态数据特征筛选和分类方法 |
CN106786560A (zh) * | 2017-02-14 | 2017-05-31 | 中国电力科学研究院 | 一种电力系统稳定特征自动提取方法及装置 |
CN106991435A (zh) * | 2017-03-09 | 2017-07-28 | 南京邮电大学 | 基于改进的字典学习的入侵检测方法 |
CN107133651A (zh) * | 2017-05-12 | 2017-09-05 | 太原理工大学 | 基于超网络判别子图的功能磁共振影像数据分类方法 |
CN108596027A (zh) * | 2018-03-18 | 2018-09-28 | 西安电子科技大学 | 基于监督学习分类模型的未知类别信号的检测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112885409A (zh) * | 2021-01-18 | 2021-06-01 | 吉林大学 | 一种基于特征选择的结直肠癌蛋白标志物选择系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105574474B (zh) | 一种基于质谱信息的生物特征图像识别方法 | |
AU2002241535C1 (en) | Method for analyzing mass spectra | |
US20130238251A1 (en) | Method and system for detecting discriminatory data patterns in multiple sets of data | |
US20180268293A1 (en) | Analysis-data analyzing device and analysis-data analyzing method | |
US20050048547A1 (en) | Classification of disease states using mass spectrometry data | |
Boskamp et al. | A new classification method for MALDI imaging mass spectrometry data acquired on formalin-fixed paraffin-embedded tissue samples | |
CN107992891A (zh) | 基于光谱矢量分析多光谱遥感图像变化检测方法 | |
CN109781917A (zh) | 一种基于分子地图的生物样本智能识别方法 | |
Tian et al. | Towards enhanced metabolomic data analysis of mass spectrometry image: Multivariate Curve Resolution and Machine Learning | |
CN109870533B (zh) | 一种基于分子地图的生物样本快速智能识别方法 | |
Thomas et al. | Enhancing classification of mass spectrometry imaging data with deep neural networks | |
Sinues et al. | Mass spectrometry fingerprinting coupled to National Institute of Standards and Technology Mass Spectral search algorithm for pattern recognition | |
CN114813908A (zh) | 一种乳腺癌代谢生物标志物组合及其指纹模型构建方法与应用 | |
Hicks et al. | The classification and discrimination of glass fragments using non destructive energy dispersive X-ray μfluorescence | |
CN117347643B (zh) | 用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用 | |
Li et al. | MSSort-DIAXMBD: A deep learning classification tool of the peptide precursors quantified by OpenSWATH | |
Koo et al. | Analysis of Metabolomic Profiling Data Acquired on GC–MS | |
CN113514530A (zh) | 一种基于敞开式离子源的甲状腺恶性肿瘤诊断系统 | |
Gholami et al. | A statistical modeling approach for tumor-type identification in surgical neuropathology using tissue mass spectrometry imaging | |
Bader et al. | Reduction of ion mobility spectrometry data by clustering characteristic peak structures | |
CN109190713A (zh) | 基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术 | |
CN112798678A (zh) | 基于血清的新型冠状病毒感染快速检测方法 | |
WO2012107786A1 (en) | System and method for blind extraction of features from measurement data | |
CN111896609A (zh) | 一种基于人工智能分析质谱数据的方法 | |
CN114973245A (zh) | 基于机器学习的细胞外囊泡分类方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190111 |
|
WD01 | Invention patent application deemed withdrawn after publication |