CN117034017B - 一种基于深度学习的质谱图分类方法、系统、介质及设备 - Google Patents
一种基于深度学习的质谱图分类方法、系统、介质及设备 Download PDFInfo
- Publication number
- CN117034017B CN117034017B CN202311150820.4A CN202311150820A CN117034017B CN 117034017 B CN117034017 B CN 117034017B CN 202311150820 A CN202311150820 A CN 202311150820A CN 117034017 B CN117034017 B CN 117034017B
- Authority
- CN
- China
- Prior art keywords
- classification
- mass spectrum
- deep learning
- spectrum data
- mass
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 238000001819 mass spectrum Methods 0.000 claims abstract description 68
- 238000013136 deep learning model Methods 0.000 claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000014759 maintenance of location Effects 0.000 claims abstract description 10
- 238000003491 array Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 14
- 238000013500 data storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000002441 X-ray diffraction Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 1
- 239000013598 vector Substances 0.000 abstract description 5
- 239000000090 biomarker Substances 0.000 abstract description 2
- 238000004949 mass spectrometry Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 5
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 239000003550 marker Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- QZUDBNBUXVUHMW-UHFFFAOYSA-N clozapine Chemical compound C1CN(C)CCN1C1=NC2=CC(Cl)=CC=C2NC2=CC=CC=C12 QZUDBNBUXVUHMW-UHFFFAOYSA-N 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000000575 proteomic method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度学习的质谱图分类方法、系统、介质及设备,涉及质谱分析技术领域。本发明还公开了一种构建用于质谱图分类的深度学习模型的方法,包括获取多个包含分类信息的质谱数据集形成的数组,对数组中的m/zs进行离散化处理;根据intensities中的最大峰值,对intensities进行标准化处理;基于处理后的数组,得到矩阵;利用及质谱数据集对应的分类信息构建深度学习模型。利用本发明的方法和系统,在数据处理上充分利用了原始质谱图上的信息,无须对生物标志物进行鉴定;数据不需要在保留时间上对齐,从而使得模型泛化性能较好;利用一维CNN以及采用相对位置向量编码的Transformer方法建立深度学习模型,模型的训练速度快,训练难度低。
Description
技术领域
本发明涉及质谱分析技术领域,尤其涉及一种基于深度学习的质谱图分类方法、系统、介质及设备。
背景技术
随着深度学习技术在各个领域的快速发展,深度学习也在蛋白质组学领域进一步推进了蛋白质组分析。部分研究通过MSGF+、MaxQuant等工具对原始质谱进行分析鉴定出标志物,通过统计分析获得差异标志物后利用传统机器学习方法,如决策树,支持向量机等建立疾病诊断分类模型;一些研究将质谱数据以图的形式基于卷积神经网络进行特征提取后进行标志物识别和建立疾病诊断模型;这些分类结果过分依赖标志物鉴定的准确率,由于在进行标志物识别的过程中时容易出现标志物不能完全鉴定出来或者鉴定出的标志物与该疾病相关性不大,这将导致下游的诊断模型的准确率下降。
为了不依赖标志物鉴定,提高诊断的准确率,一些研究直接使用深度学习算法直接在质谱原始数据上进行建模来进行疾病诊断,但是首先由于不同实验室对质谱仪参数设置的不同,不同实验室的质谱数据的保留时间RT不是对齐的,从而导致诊断模型的泛化性能不佳;另外,当前研究大部分集中在DIA质谱数据上,这些研究主要把注意力集中在数量巨大的二级质谱上,导致训练过程中需要足够大的内存,诊断模型训练困难。
发明内容
为了解决背景技术中提到的至少一个技术问题,本发明的目的在于提供一种基于深度学习的质谱图分类方法、介质及设备,可以不依赖标志物鉴定,且提供较好的泛化性能,降低模型的训练难度。
为实现上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供了一种构建用于质谱图分类的深度学习模型的方法,包括:
S101,获取多个质谱数据集,包括分类为第一类的质谱数据集和分类为第二类的质谱数据集,所述质谱数据集包括由保留时间RT、质荷比m/z和峰值intensity组成的数组,所有所述RT存储在保留时间列表RTs中,每一个RT对应的多个m/z存储在质荷比列表m/zs中,每一个RT对应的多个intensity存储在峰值列表intensities中,且m/z与intensity一一对应;所述数组的数量与RTs的长度r相等,所述数组的格式为(RT,(m/zs,intensities));
S102,对所述数组中的所述m/zs进行离散化处理;根据所述intensities中的最大峰值,对所述intensities进行标准化处理;基于处理后的数组,得到矩阵;
S103,利用所述及所述质谱数据集对应的分类信息构建深度学习模型;
所述S102包括:
S1021,对所述数组中的m/zs进行离散化处理,包括:
针对r个m/zs,计算离散化的索引,计算公式为
;
其中I是索引,为取下限,/>是离散化尺度,/>为预设的离散化范围的最小值;
S1022,对所述数组中的intensities进行标准化处理,包括:
对每个所述intensities内的intensity进行标准化,标准化计算公式为
;
其中表示intensities中的最大峰值,/>表示标准峰值;
将处于同一索引中的标准峰值求和,计算公式为
;
其中N为索引最大值,为在离散化索引为k时的所有标准峰值的累加值;
S1023,基于每个RT对应的,构成m行r列的矩阵/>,其中m表示离散化后的m/zs的长度,m等于N。
进一步的,所述深度学习模型包括一维CNN模块和Transformer模块,所述Transformer模块包括采用相对位置编码的Positional Embedding和多头注意力机制multi-head Attention。
进一步的,所述深度学习模型的损失函数的计算公式为
;
其中,n为预设的迭代次数,表示预测值,/>代表真实值,所述预测值大于等于0小于等于1,所述真实值为0或1;
当所述损失函数收敛时,则所述深度学习模型训练完毕。
第二方面,本发明实施例提供了一种基于深度学习的质谱图分类方法,利用步骤S102构建待分类的质谱数据集对应的矩阵Xinit,并输入到利用上述方法构建的深度学习模型中,从而得到所述待分类的质谱数据集的分类信息,所述分类信息包括第一类和第二类。
第三方面,本发明实施例提供了一种基于深度学习的质谱图分类系统,包括:
数据输入模块,用于获取待分类的质谱数据集;
数据存储模块,用于存储多个质谱数据集对应的矩阵Xinit及其分类信息;
分类模块,分别与所述数据输入模块和所述数据存储模块连接,用于先根据所述多个质谱数据集对应的Xinit及其分类信息构建深度学习模型,再将所述待分类质谱数据集输入模型中,得到所述待分类质谱数据集的分类信息;
结果输出模块,与所述分类模块连接,用于输出分类结果;
其中,所述Xinit按照步骤S102进行构建。
进一步的,所述结果输出模块进一步与所述数据存储模块连接,用于将所述待分类的质谱数据集对应的Xinit和所述分类结果输入至所述数据存储模块。
第四方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的任一构建用于质谱图分类的深度学习模型的方法。
第五方面,本发明实施例还提供了一种终端设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的任一构建用于质谱图分类的深度学习模型的方法。
与现有技术相比,本发明的有益效果是:
在数据处理上充分利用了原始质谱图上的信息,提高了信息的利用率,从而提高了预测准确度;
直接在原始质谱数据集上进行特征提取,无须对生物标志物进行鉴定;
一个m/z的向量编码可以看作[intensity1,intensity2,…,intensityn],n指RTs的长度,然后在RTs维度上进行累加,数据不需要在保留时间上对齐,从而使得模型泛化性能较好;
利用卷积神经网络以及将绝对位置向量改进为相对位置向量编码的Transformer方法建立深度学习模型,在m/z范围扩大时也能很好地进行分类,且模型的训练速度快,训练难度低。
附图说明
图1为本发明实施例提供的一种构建用于质谱图分类的深度学习模型的方法的流程图;
图2为本发明实施例提供的一种利用训练集训练深度学习模型时损失函数曲线变化的示意图;
图3为本发明实施例提供的一种利用测试集测试深度学习模型时损失函数曲线变化的示意图;
图4为本发明实施例提供的一种测试集的ROC曲线的示意图;
图5为本发明实施例提供的一种基于深度学习的质谱图分类系统的结构图。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术中存在的上述问题,本发明实施例提供了一种基于深度学习的质谱图分类方法、系统、介质及设备,下面分别进行详细说明。
本发明实施例以肝细胞癌HCC的质谱数据为例进行说明,需要说明的是,本发明提供的方法还可以用于其他癌症的质谱数据分类,对此不作限定。
第一方面,本发明实施例提供了一种构建用于质谱图分类的深度学习模型的方法。
实施例一:
如图1所示,图1为本发明实施例提供的一种构建用于质谱图分类的深度学习模型的方法的流程图,包括以下步骤:
S101,获取多个质谱数据集,包括分类为第一类的质谱数据集和分类为第二类的质谱数据集,质谱数据集包括由保留时间RT、质荷比m/z和峰值intensity组成的数组,所有RT存储在保留时间列表RTs中,每一个RT对应的多个m/z存储在质荷比列表m/zs中,每一个RT对应的多个intensity存储在峰值列表intensities中,且m/z与intensity一一对应;数组的数量与RTs的长度r相等,数组的格式为(RT,(m/zs,intensities))。
从质谱数据库中下载原发性肝癌DDA质谱原始文件(.raw格式),提取对应原始质谱图的的保留时间(Retention Time,RT),一级质谱的质荷比(m/z)和相应的峰值(intensity)序列信息,构建r个数组(RT,(m/zs,intensities))。
具体下载顺序为,读取下载地址,确定是否为iProX库地址执行的FTP下载链接,若是,下载标记为raw的文件到以rawdata为文件名的文件夹。
本发明实施例中使用数据集:IPX0000937000;该数据集可通过链接:https:// www.iprox.cn//page/subproject.html?id=IPX0000937001获取得到。
在获取IPX0000937000数据集后,挑选出以Thermo Orbitrap QE HF‐X仪器中采集方式为DDA的数据进行分析。从公共数据库iProX中下载对原始数据文件后缀格式为.raw,我们使用MSConvert软件对原始文件进行格式转换,将其转换为后缀为.mzML的通用格式。
将.mzML文件通过python包proteomics提取质谱的MS1的RT,m/z和intensity信息并以(RT,(m/z,intensity))的格式存储。
S102,对数组中的m/zs进行离散化处理;根据intensities中的最大峰值,对intensities进行标准化处理;基于处理后的数组,得到矩阵。
步骤S102可以细分为如下步骤:
S1021,对数组中的m/zs进行离散化处理,包括:
针对r个m/zs,计算离散化的索引,计算公式为
;
其中I是索引,为取下限,/>是离散化尺度,默认设置为1,/>为预设的离散化范围的最小值;本发明实施例中设定m/z的范围为/>。
S1022,对数组中的intensities进行标准化处理,包括:
对每个intensities内的intensity进行标准化,一次扫描指质谱仪在一个RT上进行的单次数据采集,标准化计算公式为
;
其中表示intensities中的最大峰值,/>表示标准峰值;
将处于同一索引中的标准峰值求和,计算公式为
;
其中N为索引最大值,为在离散化索引为k时的所有标准峰值的累加值。
由于步骤S1021对m/zs进行离散化,同一索引中包含多个峰值,所以将同一索引中的标准峰值求和,实现每个索引对应一个。
S1023,基于每个RT对应的,构成m行r列的矩阵/>,其中r表示RTs的长度,m表示离散化后的m/zs的长度,m等于N。
当在索引为k没有峰出现时,则为0。本发明实施例中设定m/z的范围为,则m为1540,N也为1540。
S103,利用及质谱数据集对应的分类信息构建深度学习模型。
上述深度学习模型包括一维CNN模块和Transformer模块, Transformer模块包括采用相对位置编码的Positional Embedding和多头注意力机制multi-head Attention。
深度学习模型的损失函数的计算公式为
;
其中,n为预设的迭代次数,表示预测值,/>代表真实值,预测值大于等于0小于等于1,真实值为0或1;迭代次数可以根据实际情况设定,本发明实施例设定为200,对此不作限定。
当损失函数收敛时,则深度学习模型训练完毕。
在本发明实施例中,将原始数据分为训练集和测试集进行模型的训练。训练集用于对模型的训练,测试集用于检测模型的性能。
如图2所示,图2为本发明实施例提供的利用训练集训练深度学习模型时损失函数曲线变化的示意图。可以看出训练的过程中模型收敛非常快,在迭代次数到200之后,损失函数开始收敛。
如图3所示,图3为本发明实施例提供的利用测试集测试深度学习模型时损失函数曲线变化的示意图。在迭代200次时损失函数开始收敛,表明深度学习模型训练非常顺利。
经过步骤S102得到的,
;
按照r维度上进行累加获得,
;
先将输入到一维CNN模块进行卷积获得/>,其中,d为一维CNN模块的隐变量维度;
;
再将输入到transfomer中的Positional Embedding中进行计算,获得相对位置编码矩阵/>,其中/>,h指head个数,本发明实施例中设置h=8,q为Positional Embedding的隐变量维度。
输入到transformer中的multi-head Attention中,首先/>通过与三个权重矩阵/>进行矩阵相乘获得计算Attention值所需要的矩阵Q、K、V;矩阵Q、K相乘获得矩阵C;矩阵P、Q相乘获得矩阵Rel;将矩阵C和矩阵Rel相加后经过Softmax函数获得矩阵attention,将attention与矩阵V相乘后,利用rearrange函数进行维度变换获得/>,/>经过线性转换获得矩阵向量后,再与/>累加获得/>,/>经过两层前馈神经网络获得/>后与/>累加获得/>,再将/>进行维度拉平后经过两层前馈神经网络后获得预测结果/>,其中/>为预测值,区间范围[0,1]。
本发明实施例中预设分类阈值为0.5,若大于0.5,则输出分类信息为第一类;若/>不大于0.5,则输出分类信息为第二类。预设分类阈值可以根据实际需求设定,本发明实施例对此不作限定。
可以通过以下指标评估深度学习模型在测试集上的性能:
准确率(Accuracy):正确预测的样本数占总样本数的比例。
精确率(Precision):真正例占所有被模型预测为正例的样本数的比例。
召回率(Recall):真正例占所有真正例的样本数的比例,又称为查全率。
F1分数(F1 Score):精确率和召回率的调和平均值,用于平衡精确率和召回率之间的权衡。
ROC曲线和AUC:ROC曲线绘制了真正例率与假正例率之间的关系,AUC是ROC曲线下的面积,适用于处理类别不平衡问题。
;
;
;
;
其中,
TP:实际为正且分类为正的样本数,真正例数;
FP:实际为负但分类为正的样本数,假正例数;
TN:实际为负且分类为负的样本数,真负例数;
FN:实际为正但分类为负的样本数,假负例数。
如下表1所示,表1是测试集的分类指标结果,从表中可以看出在测试集上,本发明构建的深度学习模型对于质谱数据的分类指标结果均在90%以上。
表1 测试集的分类指标结果
如图4所示,图4为本发明实施例提供的一种测试集的ROC曲线的示意图。图中,实线为ROC曲线,虚线为参考曲线,横坐标为假阳性率(False Positive Rate,FPR),纵坐标为真阳性率(True Positive Rate,TPR),计算公式分别如下:
FPR=FP/N;
TPR=TP/P;
其中,N是真实负样本的个数,FP是N个负样本中被预测为正样本的个数。P是真实正样本的个数,TP是P个正样本中被预测为正样本的个数。
ROC曲线的面积越大说明分类效果越好,由图4可知本发明构建的深度学习模型在测试集上的分类效果卓越。
实施例二:
本发明实施例还提供了一种基于深度学习的质谱图分类方法,利用上述步骤S102构建待分类的质谱数据集对应的矩阵Xinit,并输入到上述深度学习模型中,从而得到待分类的质谱数据集的分类信息。
以HCC为例,当深度学习模型输出的大于0.5时,则表示输入的质谱数据被判定为HCC;当深度学习模型输出的/>不大于0.5时,则表示输入的质谱数据被判定为non-HCC。
实施例三:
本发明实施例还提供了一种基于深度学习的质谱图分类系统,如图5所示,图5为本发明实施例提供的一种基于深度学习的质谱图分类系统的结构图,包括:
数据输入模块,用于获取待分类的质谱数据集;
数据存储模块,用于存储多个质谱数据集对应的矩阵Xinit及其分类信息;
分类模块,分别与数据输入模块和数据存储模块连接,用于先根据多个质谱数据集对应的Xinit及其分类信息构建深度学习模型,再将待分类质谱数据集输入模型中,得到待分类质谱数据集的分类信息;
结果输出模块,与分类模块连接,用于输出分类结果;
其中,Xinit按照步骤S102进行构建。
结果输出模块进一步与数据存储模块连接,用于将待分类的质谱数据集对应的Xinit和分类结果输入至数据存储模块。这样,深度学习模型在应用过程中不断优化,从而进一步提高分类的准确度。
实施例四:
本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一构建用于质谱图分类的深度学习模型的方法。
实施例五:
本发明实施例还提供了一种终端设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一构建用于质谱图分类的深度学习模型的方法。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
Claims (8)
1.一种构建用于质谱图分类的深度学习模型的方法,其特征在于,包括:
S101,获取多个质谱数据集,包括分类为第一类的质谱数据集和分类为第二类的质谱数据集,所述质谱数据集包括由保留时间RT、质荷比m/z和峰值intensity组成的数组,所有所述RT存储在保留时间列表RTs中,每一个RT对应的多个m/z存储在质荷比列表m/zs中,每一个RT对应的多个intensity存储在峰值列表intensities中,且m/z与intensity一一对应;所述数组的数量与RTs的长度r相等,所述数组的格式为(RT,(m/zs,intensities));
S102,对所述数组中的所述m/zs进行离散化处理;根据所述intensities中的最大峰值,对所述intensities进行标准化处理;基于处理后的数组,得到矩阵;
S103,利用所述及所述质谱数据集对应的分类信息构建深度学习模型;
所述S102包括:
S1021,对所述数组中的m/zs进行离散化处理,包括:
针对r个m/zs,计算离散化的索引,计算公式为
;
其中I是索引,为取下限,/>是离散化尺度,/>为预设的离散化范围的最小值;
S1022,对所述数组中的intensities进行标准化处理,包括:
对每个所述intensities内的intensity进行标准化,标准化计算公式为
;
其中表示intensities中的最大峰值,/>表示标准峰值;
将处于同一索引中的标准峰值求和,计算公式为
;
其中N为索引最大值,为在离散化索引为k时的所有标准峰值的累加值;
S1023,基于每个RT对应的,构成m行r列的矩阵/>,其中m表示离散化后的m/zs的长度,m等于N。
2.根据权利要求1所述的构建用于质谱图分类的深度学习模型的方法,其特征在于,所述深度学习模型包括一维CNN模块和Transformer模块,所述Transformer模块包括采用相对位置编码的Positional Embedding和多头注意力机制multi-head Attention。
3.根据权利要求1所述的构建用于质谱图分类的深度学习模型的方法,其特征在于,所述深度学习模型的损失函数的计算公式为
;
其中,n为预设的迭代次数,表示预测值,/>代表真实值,所述预测值大于等于0小于等于1,所述真实值为0或1;
当所述损失函数收敛时,则所述深度学习模型训练完毕。
4.一种基于深度学习的质谱图分类方法,其特征在于,利用权利要求1中S102构建待分类的质谱数据集对应的矩阵Xinit,并输入到权利要求1构建的深度学习模型中,从而得到所述待分类的质谱数据集的分类信息,所述分类信息包括第一类和第二类。
5.一种基于深度学习的质谱图分类系统,其特征在于,包括:
数据输入模块,用于获取待分类的质谱数据集;
数据存储模块,用于存储多个质谱数据集对应的矩阵Xinit及其分类信息;
分类模块,分别与所述数据输入模块和所述数据存储模块连接,用于先根据所述多个质谱数据集对应的Xinit及其分类信息构建深度学习模型,再将所述待分类质谱数据集输入模型中,得到所述待分类质谱数据集的分类信息;
结果输出模块,与所述分类模块连接,用于输出分类结果;
其中,所述Xinit按照权利要求1步骤S102进行构建。
6.根据权利要求5所述的系统,其特征在于,所述结果输出模块进一步与所述数据存储模块连接,用于将所述待分类的质谱数据集对应的Xinit和所述分类结果输入至所述数据存储模块。
7.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至3任意一项所述的方法。
8.一种终端设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311150820.4A CN117034017B (zh) | 2023-09-07 | 2023-09-07 | 一种基于深度学习的质谱图分类方法、系统、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311150820.4A CN117034017B (zh) | 2023-09-07 | 2023-09-07 | 一种基于深度学习的质谱图分类方法、系统、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117034017A CN117034017A (zh) | 2023-11-10 |
CN117034017B true CN117034017B (zh) | 2024-03-19 |
Family
ID=88639805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311150820.4A Active CN117034017B (zh) | 2023-09-07 | 2023-09-07 | 一种基于深度学习的质谱图分类方法、系统、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117034017B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409961A (zh) * | 2023-12-14 | 2024-01-16 | 杭州生奥信息技术有限公司 | 基于质谱数据和深度学习算法的多癌种诊断方法和系统 |
CN118609668A (zh) * | 2024-06-25 | 2024-09-06 | 云鉴康(杭州)医疗科技有限公司 | 基于深度学习质谱分类方法、生物标志物发现方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619366A (zh) * | 2019-09-18 | 2019-12-27 | 颐保医疗科技(上海)有限公司 | 一种基于神经网络的真菌maldi—tof质谱数据识别方法 |
CN113362899A (zh) * | 2021-04-20 | 2021-09-07 | 厦门大学 | 一种基于深度学习的蛋白质质谱数据的分析方法及系统 |
CN113990387A (zh) * | 2021-10-25 | 2022-01-28 | 西湖实验室(生命科学和生物医学浙江省实验室) | 基于im-diat数据结构的应用方法及其应用 |
CN115620818A (zh) * | 2022-08-19 | 2023-01-17 | 国科温州研究院(温州生物材料与工程研究所) | 一种基于自然语言处理的蛋白质质谱肽段验证方法 |
CN115862749A (zh) * | 2022-12-05 | 2023-03-28 | 中国科学院青岛生物能源与过程研究所 | 基于Transformer的质谱数据定性方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3035410B1 (fr) * | 2015-04-24 | 2021-10-01 | Biomerieux Sa | Procede d'identification par spectrometrie de masse d'un sous-groupe de microorganisme inconnu parmi un ensemble de sous-groupes de reference |
US12009194B2 (en) * | 2021-12-14 | 2024-06-11 | Thermo Finnigan Llc | Mass spectrometry data-independent analysis methods with improved efficiency |
-
2023
- 2023-09-07 CN CN202311150820.4A patent/CN117034017B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619366A (zh) * | 2019-09-18 | 2019-12-27 | 颐保医疗科技(上海)有限公司 | 一种基于神经网络的真菌maldi—tof质谱数据识别方法 |
CN113362899A (zh) * | 2021-04-20 | 2021-09-07 | 厦门大学 | 一种基于深度学习的蛋白质质谱数据的分析方法及系统 |
CN113990387A (zh) * | 2021-10-25 | 2022-01-28 | 西湖实验室(生命科学和生物医学浙江省实验室) | 基于im-diat数据结构的应用方法及其应用 |
CN115620818A (zh) * | 2022-08-19 | 2023-01-17 | 国科温州研究院(温州生物材料与工程研究所) | 一种基于自然语言处理的蛋白质质谱肽段验证方法 |
CN115862749A (zh) * | 2022-12-05 | 2023-03-28 | 中国科学院青岛生物能源与过程研究所 | 基于Transformer的质谱数据定性方法 |
Non-Patent Citations (3)
Title |
---|
Amanda Rae Buchberger et al..Mass Spectrometry Imaging: A Review of Emerging Advancements and Future Insights.HHS Public Access.2018,第1-53页. * |
张蓉 ; 冯斌 ; 孙俊 ; .基于QPSO-SVM算法的SELDI-TOF质谱数据分析.计算机应用与软件.2011,(01),全文. * |
董昊.基于深度学习的蛋白质串联质谱数据分析.中国优秀硕士学位论文全文数据库基础科学辑.2021,第2021卷(第02期),第A006-370页. * |
Also Published As
Publication number | Publication date |
---|---|
CN117034017A (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117034017B (zh) | 一种基于深度学习的质谱图分类方法、系统、介质及设备 | |
Chauhan et al. | An efficient data mining classification approach for detecting lung cancer disease | |
CN112036301B (zh) | 一种基于类内特征迁移学习与多源信息融合的驱动电机故障诊断模型构建方法 | |
JP5006214B2 (ja) | ばらつきシミュレーション・システム、ばらつき決定モデル方法と装置ならびにプログラム | |
CN107958267B (zh) | 一种基于光谱线性表示的油品性质预测方法 | |
CN109508740B (zh) | 基于高斯混合噪声生成式对抗网络的物体硬度识别方法 | |
CN112434662B (zh) | 一种基于多尺度卷积神经网络的茶叶病斑自动识别算法 | |
CN117434429B (zh) | 芯片的稳定性测试方法及相关装置 | |
JP5322111B2 (ja) | 類似画像検索装置 | |
CN112541524A (zh) | 基于注意力机制改进的BP-Adaboost多源信息电机故障诊断方法 | |
CN112229632A (zh) | 一种基于敏感特征迁移学习的轴承故障诊断方法 | |
CN112285632A (zh) | 一种基于vmd和样本熵的电磁式电流互感器故障诊断方法 | |
Sriwastawa et al. | Vision transformer and its variants for image classification in digital breast cancer histopathology: A comparative study | |
CN114330114A (zh) | 基于量子支持向量机的铍青铜合金腐蚀速率预测方法 | |
CN112350745B (zh) | 一种跳频通信电台的分选方法 | |
CN117409961A (zh) | 基于质谱数据和深度学习算法的多癌种诊断方法和系统 | |
CN114357870A (zh) | 基于局部加权偏最小二乘的计量设备运行性能预测分析方法 | |
CN112052880A (zh) | 一种基于更新权值支持向量机的水声目标识别方法 | |
CN112016636A (zh) | 一种基于Hadoop框架的作物光谱聚类分析处理方法 | |
CN117078960A (zh) | 一种基于图像特征提取的近红外光谱分析方法及系统 | |
CN117079741A (zh) | 一种基于神经网络的分子绝缘强度预测方法、装置及介质 | |
Abedinia et al. | Building semi-supervised decision trees with semi-cart algorithm | |
CN114141316A (zh) | 一种基于谱图分析的有机物生物毒性预测方法及系统 | |
CN115982566A (zh) | 一种水电机组多通道故障诊断方法 | |
CN106485286B (zh) | 一种基于局部敏感判别的矩阵分类模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |