CN112183677B - 一种基于多通道卷积神经网络的质谱成像分类方法 - Google Patents

一种基于多通道卷积神经网络的质谱成像分类方法 Download PDF

Info

Publication number
CN112183677B
CN112183677B CN202011341731.4A CN202011341731A CN112183677B CN 112183677 B CN112183677 B CN 112183677B CN 202011341731 A CN202011341731 A CN 202011341731A CN 112183677 B CN112183677 B CN 112183677B
Authority
CN
China
Prior art keywords
mass spectrum
data
training
convolution
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011341731.4A
Other languages
English (en)
Other versions
CN112183677A (zh
Inventor
甘胜丰
许光
余良俊
罗德纯
李露
胡磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Education
Original Assignee
Hubei University of Education
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Education filed Critical Hubei University of Education
Priority to CN202011341731.4A priority Critical patent/CN112183677B/zh
Publication of CN112183677A publication Critical patent/CN112183677A/zh
Application granted granted Critical
Publication of CN112183677B publication Critical patent/CN112183677B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于多通道卷积神经网络的质谱成像分类方法,包括:对质谱成像数据集进行数据预处理,获得260*134*100的预训练数据;对二维质谱成像数据完成手工标注,获得组织区域分类标注文档,并构建训练数据集和测试数据集;训练并获得一个多通道的深度卷积神经网络模型对质谱成像数据进行特征提取,实现质谱数据空间区域的自动分类。

Description

一种基于多通道卷积神经网络的质谱成像分类方法
技术领域
本发明涉及质谱分析技术领域,尤其涉及一种基于多通道卷积神经网络的质谱成像分类方法。
背景技术
质谱成像方法通过质谱直接扫描生物样品,并根据分子空间分布特征进行组织切片的成像。由于大量原始数据的产生,MSI质谱成像数据采集过程中会出现峰值错位,解吸/电离过程中也会产生一些分子加合物和分子碎片噪音,因此机器学习方法已成为MSI相关研究中必不可少的内容。以往质谱成像分类算法一般包含数据预处理和机器学习两个步骤。数据预处理算法涉及基线校正、平滑去噪、质心化处理、归一化、数据降维和特征峰抽取等。其中数据降维和特征提取可减少质谱成像数据的数据量,但缺陷是造成了信息的丢失。许多研究已经描述了各种机器学习策略用于质谱成像分类。包括随机森林算法(RF)、支持向量机(SVM)、PCA判别分析、递归最大边缘准则(RMMC)或人工神经网络(ANN)已被用于MSI图像的分类和疾病诊断应用。这些算法的缺陷包括对多通道图像高维度数据分类精度较低;算法容易出现过拟合;往往需要分解成多个步骤并在每个独立学习任务执行前均要做数据标注。因此提出一种基于多通道的卷积神经网络的MSI质谱成像分类方法,实现图像组织切片的区域分割,达到图像分割精度和效率的提升。
发明内容
有鉴于此,本发明目的是提供一种基于多通道卷积神经网络的质谱成像分类方法,包括:
S1:对质谱成像数据集进行数据预处理,获得260*134*100的预训练数据;
S2:对预训练数据完成手工标注,获得组织区域分类标注文档,并构建训练数据集和测试数据集;
S3:训练并获得一个多通道的深度卷积神经网络模型对质谱成像数据进行特征提取,实现质谱数据空间区域的自动分类。
进一步地,S1中所述具体包括:
S11:对260*134个像素点上的质谱数据进行基线消除处理,每个分子离子质荷比m/z值对应一个通道,共60000个通道;
S12:对260*134个像素点上的质谱数据进行平滑去噪处理,通道数保持60000个;
S13:对260*134个像素点上的质谱数据进行质心化处理,获得每个像素点上的质谱特征峰集,并构建完整的质谱成像特征峰集,每个像素特征峰共100个,通道数缩减至100;
S14:对质谱成像特征峰集的m/z值进行归一化处理;
S15:对质谱成像特征峰集的丰度值进行归一化处理。
进一步地,步骤S2具体包括:
S21:将260*134*100的预训练数据生成成34056个3*3*100的数据集;
S22:根据已知质谱成像组织区域的光学成像数据,对每个10像素*10像素(对应于质谱成像数据的3*3区域)的平面区域进行组织区域手工标注,共包括三个类型的组织区域,生成组织区域分类标注文档;
S23:根据十倍交叉验证方法,对34056个3*3*100的数据集进行训练数据集和测试数据集的构建。
进一步地,所述的S3具体包括:
S31:对应每个3*3*100的质谱成像数据,通过两种3*3*5的卷积核进行卷积,得到3*3*192的共192个通道的尺寸为3*3的卷积结果,每个通道的每个像素上对应的卷积结果通过带入激活函数ReLU并输出;
S32:对S31的输出卷积结果进行窗口为1*1*2的最大池化下采样,使得通道数缩小为96;
S33:对S32的3*3*96的输出结果进行96次2*2*1的卷积,得到96个通道的尺寸为2*2的卷积结果,每个通道的每个像素上对应的卷积结果通过带入激活函数ReLU并输出;
S34:对S33的输出卷积结果进行窗口为1*1*2的最大池化下采样,使得通道数缩小为48;
S35:对步骤S34得到的2*2*48的输出结果与100个神经元进行完全连接,其中每个神经元的激活函数为ReLU;
S36:对S35中100维的输出结果再次与100个神经元进行完全连接,其中每个神经元的激活函数为ReLU;
S37:采用线性分类器对S36中的100个神经元的特征向量进行分类,并将100个神经元的输出结果连接到1个神经元,得到最终的分类结果;即:1表示组织区域1,2表示组织区域2,3表示组织区域3;其中神经元的激活函数为Softmax函数;
S38:S31至S36中的卷积神经网络的训练采用梯度下降法,在训练误差产生后需进行后向传播算法修正网络连接权值。
本发明提供的技术方案带来的有益效果是:实现精度更高、效率更高的图像组织切片的区域分割。为组织疾病(如癌症)分类和诊断、生物标记物研究、组织分子鉴定和药物开发等方面的应用打下坚实基础。
附图说明
图1是本发明一种基于多通道卷积神经网络的质谱成像分类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1,本发明提供了一种基于多通道卷积神经网络的质谱成像分类方法,包括:
S1:对质谱成像数据集进行数据预处理,获得260*134*100的预训练数据;
S11:对260*134个像素点上的质谱数据进行基线消除处理,每个分子离子质荷比m/z值对应一个通道,共60000个通道;
S12:对260*134个像素点上的质谱数据进行平滑去噪处理,通道数保持60000个;
S13:对260*134个像素点上的质谱数据进行质心化处理,获得每个像素点上的质谱特征峰集,并构建完整的质谱成像特征峰集,每个像素特征峰共100个,通道数缩减至100;
S14:对质谱成像特征峰集的m/z值进行归一化处理;
S15:对质谱成像特征峰集的丰度值进行归一化处理。
S2:对预训练数据完成手工标注,获得组织区域分类标注文档,并构建训练数据集和测试数据集;具体如下:
S21:将260*134*100的预训练数据生成34056个3*3*100的数据集;
S22:根据已知质谱成像组织区域的光学成像数据,对每个10像素*10像素(对应于质谱成像数据的3*3区域)的平面区域进行组织区域手工标注,共包括三个类型的组织区域,生成组织区域分类标注文档;
S23:根据十倍交叉验证方法,对34056个3*3*100的数据集进行训练数据集和测试数据集的构建;
S3:训练并获得一个多通道的深度卷积神经网络模型对质谱成像数据进行特征提取,实现质谱数据空间区域的自动分类,具体包括:
S31:对应每个3*3*100的质谱成像数据,通过两种3*3*5的卷积核进行卷积,得到3*3*192的共192个通道的尺寸为3*3的卷积结果,每个通道的每个像素上对应的卷积结果通过带入激活函数ReLU并输出;
S32:对S31的输出卷积结果进行窗口为1*1*2的最大池化下采样,使得通道数缩小为96;
S33:对S32的3*3*96的输出结果进行96次2*2*1的卷积,得到96个通道的尺寸为2*2的卷积结果,每个通道的每个像素上对应的卷积结果通过带入激活函数ReLU并输出;
S34:对S33的输出卷积结果进行窗口为1*1*2的最大池化下采样,使得通道数缩小为48;
S35:对步骤S34得到的2*2*48的输出结果与100个神经元进行完全连接,其中每个神经元的激活函数为ReLU;
S36:对S35中100维的输出结果再次与100个神经元进行完全连接,其中每个神经元的激活函数为ReLU;
S37:采用线性分类器对S36中的100个神经元的特征向量进行分类,并将100个神经元的输出结果连接到1个神经元,得到最终的分类结果;即:1表示组织区域1,2表示组织区域2,3表示组织区域3;其中神经元的激活函数为Softmax函数;
S38:S31至S36中的卷积神经网络的训练采用梯度下降法,在训练误差产生后需进行后向传播算法(BP算法)修正网络连接权值。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (2)

1.一种基于多通道卷积神经网络的质谱成像分类方法,其特征在于,包括以下几个步骤:
S1:对质谱成像数据集进行数据预处理,获得260*134*100的预训练数据;
S2:对预训练数据完成手工标注,获得组织区域分类标注文档,并构建训练数据集和测试数据集;
S3:训练并获得一个多通道的深度卷积神经网络模型对质谱成像数据集进行特征提取,实现质谱数据空间区域的自动分类;
所述的S3具体包括:
S31:对应每个3*3*100的质谱成像数据,通过两种3*3*5的卷积核进行卷积,得到3*3*192的共192个通道的尺寸为3*3的卷积结果,每个通道的每个像素上对应的卷积结果通过带入激活函数ReLU并输出;
S32:对S31的输出卷积结果进行窗口为1*1*2的最大池化下采样,使得通道数缩小为96;
S33:对S32的3*3*96的输出结果进行96次2*2*1的卷积,得到96个通道的尺寸为2*2的卷积结果,每个通道的每个像素上对应的卷积结果通过带入激活函数ReLU并输出;
S34:对S33的输出卷积结果进行窗口为1*1*2的最大池化下采样,使得通道数缩小为48;
S35:对步骤S34得到的2*2*48的输出结果与100个神经元进行完全连接,其中每个神经元的激活函数为ReLU;
S36:对S35中100维的输出结果再次与100个神经元进行完全连接,其中每个神经元的激活函数为ReLU;
S37:采用线性分类器对S36中的100个神经元的特征向量进行分类,并将100个神经元的输出结果连接到1个神经元,得到最终的分类结果;即:1表示组织区域1,2表示组织区域2,3表示组织区域3;其中神经元的激活函数为Softmax函数;
S38:S31至S36中的卷积神经网络的训练采用梯度下降法,在训练误差产生后需进行后向传播算法修正网络连接权值;
步骤S2具体包括:
S21:将260*134*100的预训练数据生成34056个3*3*100的数据集;
S22:根据已知质谱成像组织区域的光学成像数据,对每个10像素*10像素即对应于质谱成像数据的3*3区域的平面区域进行组织区域手工标注,共包括三个类型的组织区域,生成组织区域分类标注文档;
S23:根据十倍交叉验证方法,对34056个3*3*100的数据集进行训练数据集和测试数据集的构建。
2.根据权利要求1所述的一种基于多通道卷积神经网络的质谱成像分类方法,其特征在于,S1中所述具体包括:
S11:对260*134个像素点上的质谱数据进行基线消除处理,每个分子离子质荷比m/z值对应一个通道,共60000个通道;
S12:对260*134个像素点上的质谱数据进行平滑去噪处理,通道数保持60000个;
S13:对260*134个像素点上的质谱数据进行质心化处理,获得每个像素点上的质谱特征峰集,并构建完整的质谱成像特征峰集,每个像素特征峰共100个,通道数缩减至100;
S14:对质谱成像特征峰集的每个分子离子质荷比m/z值进行归一化处理;
S15:对质谱成像特征峰集的丰度值进行归一化处理。
CN202011341731.4A 2020-11-25 2020-11-25 一种基于多通道卷积神经网络的质谱成像分类方法 Active CN112183677B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011341731.4A CN112183677B (zh) 2020-11-25 2020-11-25 一种基于多通道卷积神经网络的质谱成像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011341731.4A CN112183677B (zh) 2020-11-25 2020-11-25 一种基于多通道卷积神经网络的质谱成像分类方法

Publications (2)

Publication Number Publication Date
CN112183677A CN112183677A (zh) 2021-01-05
CN112183677B true CN112183677B (zh) 2021-02-23

Family

ID=73918669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011341731.4A Active CN112183677B (zh) 2020-11-25 2020-11-25 一种基于多通道卷积神经网络的质谱成像分类方法

Country Status (1)

Country Link
CN (1) CN112183677B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023203584A1 (en) * 2022-04-22 2023-10-26 Clarity Bio Systems India Private Limited Centroiding of mass scan data obtained from high-resolution mass spectrometry (hr-ms) instruments

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597227A (zh) * 2023-05-29 2023-08-15 广东省麦思科学仪器创新研究院 质谱图解析方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102301232B1 (ko) * 2017-05-31 2021-09-10 삼성전자주식회사 다채널 특징맵 영상을 처리하는 방법 및 장치
WO2019147725A1 (en) * 2018-01-23 2019-08-01 Spring Discovery, Inc. Methods and systems for determining the biological age of samples
CN110851594A (zh) * 2019-10-08 2020-02-28 浙江工业大学 一种基于多通道深度学习模型的文本分类方法及其装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023203584A1 (en) * 2022-04-22 2023-10-26 Clarity Bio Systems India Private Limited Centroiding of mass scan data obtained from high-resolution mass spectrometry (hr-ms) instruments

Also Published As

Publication number Publication date
CN112183677A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN110111344B (zh) 病理切片图像分级方法、装置、计算机设备和存储介质
CN112183677B (zh) 一种基于多通道卷积神经网络的质谱成像分类方法
CN110084318B (zh) 一种结合卷积神经网络和梯度提升树的图像识别方法
EP3940592A1 (en) Sample generation method and apparatus, and computer device and storage medium
CN109754017B (zh) 基于可分离的三维残差网络和迁移学习高光谱图像分类方法
Moradi et al. New features for automatic classification of human chromosomes: A feasibility study
US7949181B2 (en) Segmentation of tissue images using color and texture
CN111951288B (zh) 一种基于深度学习的皮肤癌病变分割方法
Vogado et al. Diagnosing leukemia in blood smear images using an ensemble of classifiers and pre-trained convolutional neural networks
CN110490247B (zh) 图像处理模型生成方法、图像处理方法及装置、电子设备
CN111027590B (zh) 一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法
NL2025810B1 (en) Method for classifying and evaluating nitrogen content level of brassica rapa subsp. oleifera (brsro) canopy
Raulf et al. Deep representation learning for domain adaptable classification of infrared spectral imaging data
CN114266898A (zh) 一种基于改进EfficientNet的肝癌识别方法
Chen et al. Imaging and representation learning of solar radio spectrums for classification
CN114140465B (zh) 基于宫颈细胞切片图像的自适应的学习方法和学习系统
Cao et al. Acceleration of histogram‐based contrast enhancement via selective downsampling
Barburiceanu et al. Grape leaf disease classification using LBP-derived texture operators and colour
CN109785234B (zh) 一种拉曼成像方法、系统以及装置
KR101967992B1 (ko) 디지털 병리 시스템의 영상 압축 방법
KR20180006792A (ko) 디지털 병리 시스템의 영상 압축 방법
CN113435488B (zh) 一种图像采样概率提升方法及其应用
CN112525346A (zh) 一种基于改进oif的光谱图像最佳波段的选择方法、系统及存储介质
CN113221942A (zh) 一种基于深度迁移和Cayley-Klein度量的小样本下茶叶病害识别算法
CN114821146A (zh) 一种基于增强的弱监督细粒度阿尔兹海默症分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant