CN112183677A - 一种基于多通道卷积神经网络的质谱成像分类方法 - Google Patents
一种基于多通道卷积神经网络的质谱成像分类方法 Download PDFInfo
- Publication number
- CN112183677A CN112183677A CN202011341731.4A CN202011341731A CN112183677A CN 112183677 A CN112183677 A CN 112183677A CN 202011341731 A CN202011341731 A CN 202011341731A CN 112183677 A CN112183677 A CN 112183677A
- Authority
- CN
- China
- Prior art keywords
- mass spectrum
- data
- neural network
- convolutional neural
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明提供一种基于多通道卷积神经网络的质谱成像分类方法,包括:对质谱成像数据集进行数据预处理,获得260*134*100的预训练数据;对二维质谱成像数据完成手工标注,获得组织区域分类标注文档,并构建训练数据集和测试数据集;训练并获得一个多通道的深度卷积神经网络模型对质谱成像数据进行特征提取,实现质谱数据空间区域的自动分类。
Description
技术领域
本发明涉及质谱分析技术领域,尤其涉及一种基于多通道卷积神经网络的质谱成像分类方法。
背景技术
质谱成像方法通过质谱直接扫描生物样品,并根据分子空间分布特征进行组织切片的成像。由于大量原始数据的产生,MSI质谱成像数据采集过程中会出现峰值错位,解吸/电离过程中也会产生一些分子加合物和分子碎片噪音,因此机器学习方法已成为MSI相关研究中必不可少的内容。以往质谱成像分类算法一般包含数据预处理和机器学习两个步骤。数据预处理算法涉及基线校正、平滑去噪、质心化处理、归一化、数据降维和特征峰抽取等。其中数据降维和特征提取可减少质谱成像数据的数据量,但缺陷是造成了信息的丢失。许多研究已经描述了各种机器学习策略用于质谱成像分类。包括随机森林算法(RF)[1]、支持向量机(SVM)[2-3]、PCA判别分析[4-7]、递归最大边缘准则(RMMC)或人工神经网络(ANN)[8]已被用于MSI图像的分类和疾病诊断应用。这些算法的缺陷包括对多通道图像高维度数据分类精度较低;算法容易出现过拟合;往往需要分解成多个步骤并在每个独立学习任务执行前均要做数据标注。因此提出一种基于多通道的卷积神经网络的MSI质谱成像分类方法,实现图像组织切片的区域分割,达到图像分割精度和效率的提升。
发明内容
有鉴于此,本发明目的是提供一种基于多通道卷积神经网络的质谱成像分类方法,包括:
S1:对质谱成像数据集进行数据预处理,获得260*134*100的预训练数据;
S2:对预训练数据完成手工标注,获得组织区域分类标注文档,并构建训练数据集和测试数据集;
S3:训练并获得一个多通道的深度卷积神经网络模型对质谱成像数据进行特征提取,实现质谱数据空间区域的自动分类。
进一步地,S1中所述具体包括:
S11:对260*134个像素点上的质谱数据进行基线消除处理,每个分子离子质荷比m/z值对应一个通道,共60000个通道;
S12:对260*134个像素点上的质谱数据进行平滑去噪处理,通道数保持60000个;
S13:对260*134个像素点上的质谱数据进行质心化处理,获得每个像素点上的质谱特征峰集,并构建完整的质谱成像特征峰集,每个像素特征峰共100个,通道数缩减至100;
S14:对质谱成像特征峰集的m/z值进行归一化处理;
S15:对质谱成像特征峰集的丰度值进行归一化处理。
进一步地,步骤S2具体包括:
S21:将260*134*100的预训练数据生成成34056个3*3*100的数据集;
S22:根据已知质谱成像组织区域的光学成像数据,对每个10像素*10像素(对应于质谱成像数据的3*3区域)的平面区域进行组织区域手工标注,共包括三个类型的组织区域,生成组织区域分类标注文档;
S23:根据十倍交叉验证方法,对34056个3*3*100的数据集进行训练数据集和测试数据集的构建。
进一步地,所述的S3具体包括:
S31:对应每个3*3*100的质谱成像数据,通过两种3*3*5的卷积核进行卷积,得到3*3*192的共192个通道的尺寸为3*3的卷积结果,每个通道的每个像素上对应的卷积结果通过带入激活函数ReLU并输出;
S32:对S31的输出卷积结果进行窗口为1*1*2的最大池化下采样,使得通道数缩小为96;
S33:对S32的3*3*96的输出结果进行96次2*2*1的卷积,得到96个通道的尺寸为2*2的卷积结果,每个通道的每个像素上对应的卷积结果通过带入激活函数ReLU并输出;
S34:对S33的输出卷积结果进行窗口为1*1*2的最大池化下采样,使得通道数缩小为48;
S35:对步骤S34得到的2*2*48的输出结果与100个神经元进行完全连接,其中每个神经元的激活函数为ReLU;
S36:对S35中100维的输出结果再次与100个神经元进行完全连接,其中每个神经元的激活函数为ReLU;
S37:采用线性分类器对S36中的100个神经元的特征向量进行分类,并将100个神经元的输出结果连接到1个神经元,得到最终的分类结果;即:1表示组织区域1,2表示组织区域2,3表示组织区域3;其中神经元的激活函数为Softmax函数;
S38:S31至S36中的卷积神经网络的训练采用梯度下降法,在训练误差产生后需进行后向传播算法修正网络连接权值。
本发明提供的技术方案带来的有益效果是:实现精度更高、效率更高的图像组织切片的区域分割。为组织疾病(如癌症)分类和诊断、生物标记物研究、组织分子鉴定和药物开发等方面的应用打下坚实基础。
附图说明
图1是本发明一种基于多通道卷积神经网络的质谱成像分类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1,本发明提供了一种基于多通道卷积神经网络的质谱成像分类方法,包括:
S1:对质谱成像数据集进行数据预处理,获得260*134*100的预训练数据;
S11:对260*134个像素点上的质谱数据进行基线消除处理,每个分子离子质荷比m/z值对应一个通道,共60000个通道;
S12:对260*134个像素点上的质谱数据进行平滑去噪处理,通道数保持60000个;
S13:对260*134个像素点上的质谱数据进行质心化处理,获得每个像素点上的质谱特征峰集,并构建完整的质谱成像特征峰集,每个像素特征峰共100个,通道数缩减至100;
S14:对质谱成像特征峰集的m/z值进行归一化处理;
S15:对质谱成像特征峰集的丰度值进行归一化处理。
S2:对预训练数据完成手工标注,获得组织区域分类标注文档,并构建训练数据集和测试数据集;具体如下:
S21:将260*134*100的预训练数据生成34056个3*3*100的数据集;
S22:根据已知质谱成像组织区域的光学成像数据,对每个10像素*10像素(对应于质谱成像数据的3*3区域)的平面区域进行组织区域手工标注,共包括三个类型的组织区域,生成组织区域分类标注文档;
S23:根据十倍交叉验证方法,对34056个3*3*100的数据集进行训练数据集和测试数据集的构建;
S3:训练并获得一个多通道的深度卷积神经网络模型对质谱成像数据进行特征提取,实现质谱数据空间区域的自动分类,具体包括:
S31:对应每个3*3*100的质谱成像数据,通过两种3*3*5的卷积核进行卷积,得到3*3*192的共192个通道的尺寸为3*3的卷积结果,每个通道的每个像素上对应的卷积结果通过带入激活函数ReLU并输出;
S32:对S31的输出卷积结果进行窗口为1*1*2的最大池化下采样,使得通道数缩小为96;
S33:对S32的3*3*96的输出结果进行96次2*2*1的卷积,得到96个通道的尺寸为2*2的卷积结果,每个通道的每个像素上对应的卷积结果通过带入激活函数ReLU并输出;
S34:对S33的输出卷积结果进行窗口为1*1*2的最大池化下采样,使得通道数缩小为48;
S35:对步骤S34得到的2*2*48的输出结果与100个神经元进行完全连接,其中每个神经元的激活函数为ReLU;
S36:对S35中100维的输出结果再次与100个神经元进行完全连接,其中每个神经元的激活函数为ReLU;
S37:采用线性分类器对S36中的100个神经元的特征向量进行分类,并将100个神经元的输出结果连接到1个神经元,得到最终的分类结果;即:1表示组织区域1,2表示组织区域2,3表示组织区域3;其中神经元的激活函数为Softmax函数;
S38:S31至S36中的卷积神经网络的训练采用梯度下降法,在训练误差产生后需进行后向传播算法(BP算法)修正网络连接权值。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (3)
1.一种基于多通道卷积神经网络的质谱成像分类方法,其特征在于,包括以下几个步骤:
S1:对质谱成像数据集进行数据预处理,获得260*134*100的预训练数据;
S2:对预训练数据完成手工标注,获得组织区域分类标注文档,并构建训练数据集和测试数据集;
S3:训练并获得一个多通道的深度卷积神经网络模型对质谱成像数据集进行特征提取,实现质谱数据空间区域的自动分类;
所述的S3具体包括:
S31:对应每个3*3*100的质谱成像数据,通过两种3*3*5的卷积核进行卷积,得到3*3*192的共192个通道的尺寸为3*3的卷积结果,每个通道的每个像素上对应的卷积结果通过带入激活函数ReLU并输出;
S32:对S31的输出卷积结果进行窗口为1*1*2的最大池化下采样,使得通道数缩小为96;
S33:对S32的3*3*96的输出结果进行96次2*2*1的卷积,得到96个通道的尺寸为2*2的卷积结果,每个通道的每个像素上对应的卷积结果通过带入激活函数ReLU并输出;
S34:对S33的输出卷积结果进行窗口为1*1*2的最大池化下采样,使得通道数缩小为48;
S35:对步骤S34得到的2*2*48的输出结果与100个神经元进行完全连接,其中每个神经元的激活函数为ReLU;
S36:对S35中100维的输出结果再次与100个神经元进行完全连接,其中每个神经元的激活函数为ReLU;
S37:采用线性分类器对S36中的100个神经元的特征向量进行分类,并将100个神经元的输出结果连接到1个神经元,得到最终的分类结果;即:1表示组织区域1,2表示组织区域2,3表示组织区域3;其中神经元的激活函数为Softmax函数;
S38:S31至S36中的卷积神经网络的训练采用梯度下降法,在训练误差产生后需进行后向传播算法修正网络连接权值。
2.根据权利要求1所述的一种基于多通道卷积神经网络的质谱成像分类方法,其特征在于,S1中所述具体包括:
S11:对260*134个像素点上的质谱数据进行基线消除处理,每个分子离子质荷比m/z值对应一个通道,共60000个通道;
S12:对260*134个像素点上的质谱数据进行平滑去噪处理,通道数保持60000个;
S13:对260*134个像素点上的质谱数据进行质心化处理,获得每个像素点上的质谱特征峰集,并构建完整的质谱成像特征峰集,每个像素特征峰共100个,通道数缩减至100;
S14:对质谱成像特征峰集的每个分子离子质荷比m/z值进行归一化处理;
S15:对质谱成像特征峰集的丰度值进行归一化处理。
3.根据权利要求2所述的一种基于多通道卷积神经网络的质谱成像分类方法,其特征在于,步骤S2具体包括:
S21:将260*134*100的预训练数据生成34056个3*3*100的数据集;
S22:根据已知质谱成像组织区域的光学成像数据,对每个10像素*10像素即对应于质谱成像数据的3*3区域的平面区域进行组织区域手工标注,共包括三个类型的组织区域,生成组织区域分类标注文档;
S23:根据十倍交叉验证方法,对34056个3*3*100的数据集进行训练数据集和测试数据集的构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011341731.4A CN112183677B (zh) | 2020-11-25 | 2020-11-25 | 一种基于多通道卷积神经网络的质谱成像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011341731.4A CN112183677B (zh) | 2020-11-25 | 2020-11-25 | 一种基于多通道卷积神经网络的质谱成像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112183677A true CN112183677A (zh) | 2021-01-05 |
CN112183677B CN112183677B (zh) | 2021-02-23 |
Family
ID=73918669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011341731.4A Active CN112183677B (zh) | 2020-11-25 | 2020-11-25 | 一种基于多通道卷积神经网络的质谱成像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183677B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597227A (zh) * | 2023-05-29 | 2023-08-15 | 广东省麦思科学仪器创新研究院 | 质谱图解析方法、装置、设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023203584A1 (en) * | 2022-04-22 | 2023-10-26 | Clarity Bio Systems India Private Limited | Centroiding of mass scan data obtained from high-resolution mass spectrometry (hr-ms) instruments |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190228840A1 (en) * | 2018-01-23 | 2019-07-25 | Spring Discovery, Inc. | Methods and Systems for Determining the Biological Age of Samples |
CN110494892A (zh) * | 2017-05-31 | 2019-11-22 | 三星电子株式会社 | 用于处理多通道特征图图像的方法和装置 |
CN110851594A (zh) * | 2019-10-08 | 2020-02-28 | 浙江工业大学 | 一种基于多通道深度学习模型的文本分类方法及其装置 |
-
2020
- 2020-11-25 CN CN202011341731.4A patent/CN112183677B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110494892A (zh) * | 2017-05-31 | 2019-11-22 | 三星电子株式会社 | 用于处理多通道特征图图像的方法和装置 |
US20190228840A1 (en) * | 2018-01-23 | 2019-07-25 | Spring Discovery, Inc. | Methods and Systems for Determining the Biological Age of Samples |
CN110851594A (zh) * | 2019-10-08 | 2020-02-28 | 浙江工业大学 | 一种基于多通道深度学习模型的文本分类方法及其装置 |
Non-Patent Citations (2)
Title |
---|
周衍挺: "基于改进的多通道卷积神经网络模型的图像分类方法", 《佳木斯大学学报》 * |
许光等: "质谱成像中的计算策略综述", 《分析科学学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597227A (zh) * | 2023-05-29 | 2023-08-15 | 广东省麦思科学仪器创新研究院 | 质谱图解析方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112183677B (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112183677B (zh) | 一种基于多通道卷积神经网络的质谱成像分类方法 | |
Moradi et al. | New features for automatic classification of human chromosomes: A feasibility study | |
CN111951288B (zh) | 一种基于深度学习的皮肤癌病变分割方法 | |
Klibisz et al. | Fast, simple calcium imaging segmentation with fully convolutional networks | |
Vogado et al. | Diagnosing leukemia in blood smear images using an ensemble of classifiers and pre-trained convolutional neural networks | |
CN110490247B (zh) | 图像处理模型生成方法、图像处理方法及装置、电子设备 | |
CN111027590B (zh) | 一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法 | |
NL2025810B1 (en) | Method for classifying and evaluating nitrogen content level of brassica rapa subsp. oleifera (brsro) canopy | |
CN111126361B (zh) | 基于半监督学习和特征约束的sar目标鉴别方法 | |
Raulf et al. | Deep representation learning for domain adaptable classification of infrared spectral imaging data | |
CN112465058A (zh) | 改进GoogLeNet神经网络下多模态医学图像分类方法 | |
CN114140465B (zh) | 基于宫颈细胞切片图像的自适应的学习方法和学习系统 | |
Tabesh et al. | Automated prostate cancer diagnosis and Gleason grading of tissue microarrays | |
CN114266898A (zh) | 一种基于改进EfficientNet的肝癌识别方法 | |
Barburiceanu et al. | Grape leaf disease classification using LBP-derived texture operators and colour | |
CN109785234B (zh) | 一种拉曼成像方法、系统以及装置 | |
KR101967992B1 (ko) | 디지털 병리 시스템의 영상 압축 방법 | |
CN113435488B (zh) | 一种图像采样概率提升方法及其应用 | |
Hong et al. | Weighted elastic net model for mass spectrometry imaging processing | |
CN115115878A (zh) | 一种结合随机遮挡和byol结构的高光谱图像分类方法及其装置 | |
CN112525346A (zh) | 一种基于改进oif的光谱图像最佳波段的选择方法、系统及存储介质 | |
Pathirage et al. | Interpretable dimensionality reduction and classification of mass spectrometry imaging data in a visceral pain model via non-negative matrix factorization | |
Kaoungku et al. | Colorectal Cancer Histology Image Classification Using Stacked Ensembles | |
CN116824586B (zh) | 图像处理方法及应用该方法的黑蒜生产质量在线检测系统 | |
CN113222061B (zh) | 一种基于双路小样本学习的mri图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |