CN112183677A

CN112183677A - 一种基于多通道卷积神经网络的质谱成像分类方法

Info

Publication number: CN112183677A
Application number: CN202011341731.4A
Authority: CN
Inventors: 甘胜丰; 许光; 余良俊; 罗德纯; 李露; 胡磊
Original assignee: Hubei University of Education
Current assignee: Hubei University of Education
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-01-05
Anticipated expiration: 2040-11-25
Also published as: CN112183677B

Abstract

本发明提供一种基于多通道卷积神经网络的质谱成像分类方法，包括：对质谱成像数据集进行数据预处理，获得260*134*100的预训练数据；对二维质谱成像数据完成手工标注，获得组织区域分类标注文档，并构建训练数据集和测试数据集；训练并获得一个多通道的深度卷积神经网络模型对质谱成像数据进行特征提取，实现质谱数据空间区域的自动分类。

Description

一种基于多通道卷积神经网络的质谱成像分类方法

技术领域

本发明涉及质谱分析技术领域，尤其涉及一种基于多通道卷积神经网络的质谱成像分类方法。

背景技术

质谱成像方法通过质谱直接扫描生物样品，并根据分子空间分布特征进行组织切片的成像。由于大量原始数据的产生，MSI质谱成像数据采集过程中会出现峰值错位，解吸/电离过程中也会产生一些分子加合物和分子碎片噪音，因此机器学习方法已成为MSI相关研究中必不可少的内容。以往质谱成像分类算法一般包含数据预处理和机器学习两个步骤。数据预处理算法涉及基线校正、平滑去噪、质心化处理、归一化、数据降维和特征峰抽取等。其中数据降维和特征提取可减少质谱成像数据的数据量，但缺陷是造成了信息的丢失。许多研究已经描述了各种机器学习策略用于质谱成像分类。包括随机森林算法（RF）^[1]、支持向量机（SVM）^[2-3]、PCA判别分析^[4-7]、递归最大边缘准则（RMMC）或人工神经网络（ANN）^[8]已被用于MSI图像的分类和疾病诊断应用。这些算法的缺陷包括对多通道图像高维度数据分类精度较低；算法容易出现过拟合；往往需要分解成多个步骤并在每个独立学习任务执行前均要做数据标注。因此提出一种基于多通道的卷积神经网络的MSI质谱成像分类方法，实现图像组织切片的区域分割，达到图像分割精度和效率的提升。

发明内容

有鉴于此，本发明目的是提供一种基于多通道卷积神经网络的质谱成像分类方法，包括：

S1：对质谱成像数据集进行数据预处理，获得260*134*100的预训练数据；

S2：对预训练数据完成手工标注，获得组织区域分类标注文档，并构建训练数据集和测试数据集；

S3：训练并获得一个多通道的深度卷积神经网络模型对质谱成像数据进行特征提取，实现质谱数据空间区域的自动分类。

进一步地，S1中所述具体包括：

S11：对260*134个像素点上的质谱数据进行基线消除处理，每个分子离子质荷比m/z值对应一个通道，共60000个通道；

S12：对260*134个像素点上的质谱数据进行平滑去噪处理，通道数保持60000个；

S13：对260*134个像素点上的质谱数据进行质心化处理，获得每个像素点上的质谱特征峰集，并构建完整的质谱成像特征峰集，每个像素特征峰共100个，通道数缩减至100；

S14：对质谱成像特征峰集的m/z值进行归一化处理；

S15：对质谱成像特征峰集的丰度值进行归一化处理。

进一步地，步骤S2具体包括：

S21：将260*134*100的预训练数据生成成34056个3*3*100的数据集；

S22：根据已知质谱成像组织区域的光学成像数据，对每个10像素*10像素（对应于质谱成像数据的3*3区域）的平面区域进行组织区域手工标注，共包括三个类型的组织区域，生成组织区域分类标注文档；

S23：根据十倍交叉验证方法，对34056个3*3*100的数据集进行训练数据集和测试数据集的构建。

进一步地，所述的S3具体包括：

S31：对应每个3*3*100的质谱成像数据，通过两种3*3*5的卷积核进行卷积，得到3*3*192的共192个通道的尺寸为3*3的卷积结果，每个通道的每个像素上对应的卷积结果通过带入激活函数ReLU并输出；

S32：对S31的输出卷积结果进行窗口为1*1*2的最大池化下采样，使得通道数缩小为96；

S33：对S32的3*3*96的输出结果进行96次2*2*1的卷积，得到96个通道的尺寸为2*2的卷积结果，每个通道的每个像素上对应的卷积结果通过带入激活函数ReLU并输出；

S34：对S33的输出卷积结果进行窗口为1*1*2的最大池化下采样，使得通道数缩小为48；

S35：对步骤S34得到的2*2*48的输出结果与100个神经元进行完全连接，其中每个神经元的激活函数为ReLU；

S36：对S35中100维的输出结果再次与100个神经元进行完全连接，其中每个神经元的激活函数为ReLU；

S37：采用线性分类器对S36中的100个神经元的特征向量进行分类，并将100个神经元的输出结果连接到1个神经元，得到最终的分类结果；即：1表示组织区域1，2表示组织区域2，3表示组织区域3；其中神经元的激活函数为Softmax函数；

S38：S31至S36中的卷积神经网络的训练采用梯度下降法，在训练误差产生后需进行后向传播算法修正网络连接权值。

本发明提供的技术方案带来的有益效果是：实现精度更高、效率更高的图像组织切片的区域分割。为组织疾病（如癌症）分类和诊断、生物标记物研究、组织分子鉴定和药物开发等方面的应用打下坚实基础。

附图说明

图1是本发明一种基于多通道卷积神经网络的质谱成像分类方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，本发明提供了一种基于多通道卷积神经网络的质谱成像分类方法，包括：

S14：对质谱成像特征峰集的m/z值进行归一化处理；

S15：对质谱成像特征峰集的丰度值进行归一化处理。

S2：对预训练数据完成手工标注，获得组织区域分类标注文档，并构建训练数据集和测试数据集；具体如下：

S21：将260*134*100的预训练数据生成34056个3*3*100的数据集；

S23：根据十倍交叉验证方法，对34056个3*3*100的数据集进行训练数据集和测试数据集的构建；

S3：训练并获得一个多通道的深度卷积神经网络模型对质谱成像数据进行特征提取，实现质谱数据空间区域的自动分类，具体包括：

S38：S31至S36中的卷积神经网络的训练采用梯度下降法，在训练误差产生后需进行后向传播算法（BP算法）修正网络连接权值。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于多通道卷积神经网络的质谱成像分类方法，其特征在于，包括以下几个步骤：

S3：训练并获得一个多通道的深度卷积神经网络模型对质谱成像数据集进行特征提取，实现质谱数据空间区域的自动分类；

所述的S3具体包括：

2.根据权利要求1所述的一种基于多通道卷积神经网络的质谱成像分类方法，其特征在于，S1中所述具体包括：

S14：对质谱成像特征峰集的每个分子离子质荷比m/z值进行归一化处理；

S15：对质谱成像特征峰集的丰度值进行归一化处理。

3.根据权利要求2所述的一种基于多通道卷积神经网络的质谱成像分类方法，其特征在于，步骤S2具体包括：

S21：将260*134*100的预训练数据生成34056个3*3*100的数据集；

S22：根据已知质谱成像组织区域的光学成像数据，对每个10像素*10像素即对应于质谱成像数据的3*3区域的平面区域进行组织区域手工标注，共包括三个类型的组织区域，生成组织区域分类标注文档；