CN110210464A - 一种基于迁移学习的拉曼光谱智能分析方法 - Google Patents

一种基于迁移学习的拉曼光谱智能分析方法 Download PDF

Info

Publication number
CN110210464A
CN110210464A CN201910616759.5A CN201910616759A CN110210464A CN 110210464 A CN110210464 A CN 110210464A CN 201910616759 A CN201910616759 A CN 201910616759A CN 110210464 A CN110210464 A CN 110210464A
Authority
CN
China
Prior art keywords
raman
data
model
interpolation processing
raman spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910616759.5A
Other languages
English (en)
Inventor
洪文晶
张蕊
胡勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201910616759.5A priority Critical patent/CN110210464A/zh
Publication of CN110210464A publication Critical patent/CN110210464A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/65Raman scattering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/693Acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2201/00Features of devices classified in G01N21/00
    • G01N2201/12Circuits of general importance; Signal processing
    • G01N2201/129Using chemometrical methods
    • G01N2201/1296Using chemometrical methods using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本发明涉及拉曼光谱技术领域,提供了一种基于迁移学习的拉曼光谱智能分析方法。所述方法包括:在共焦显微拉曼光谱仪上进行拉曼实验;实验拉曼数据的预处理:包括插值处理、基线校正和归一化;大规模标准拉曼数据库的预处理:包括数据增强和插值处理;构建深度学习模型:构建两种广泛应用的深度学习模型DNN和CNN;迁移学习用于实验拉曼数据的分类;数据分析。通过上述方式,解决了深度学习模型对大规模数据的依赖,为未来将拉曼光谱分析技术推向实际应用提供了一个新思路。

Description

一种基于迁移学习的拉曼光谱智能分析方法
技术领域
本发明涉及拉曼光谱技术领域,更具体的说是一种基于迁移学习的拉曼光谱智能分析方法。
背景技术
拉曼光谱技术在实际生产和生活中的应用以物质检测、识别为主。如对油品按所属精炼厂、提炼过程和质量进行分类;对地质矿石进行品种分类;对血液进行分析,诊断病人是否感染登革热等。实验获得的拉曼光谱图通常是通过人工比对的方法进行分析,这一过程不仅耗费大量具有专业知识的人力,还无法保证分类/识别的准确性和时效性。而对于多分类(比如1000个类别)的情况,人工分析的方法将完全失效。因此,发展一种快速、有效的拉曼光谱分析技术将对拉曼光谱的普及带来极大的提升。
目前已经出现大量关于机器学习在拉曼光谱分析中的研究工作,其中在拉曼光谱的多类别分类问题上,深度学习模型通常可以获得优于传统机器学习模型的效果,但深度神经网络严重依赖于训练数据量,涉及到深度学习模型的研究通常采用的是大型数据库作为训练集。在实际应用中研究者通常难以获得大量的实验拉曼光谱数据来训练深度学习模型,这使得小数据量的数据集光谱识别陷入困境。
发明内容
本发明提供了一种基于迁移学习的拉曼光谱智能分析方法,可以有效解决上述问题。
本发明是这样实现的:
一种基于迁移学习的拉曼光谱智能分析方法,包括以下步骤:
S1,在共焦显微拉曼光谱仪上进行拉曼实验,具体步骤如下:取少量药品于载玻片上,用另一载玻片压住,研磨成粉末状;将载玻片取下,换上盖玻片盖住粉末样品;选定一个采谱范围,然后将分段采得的谱图互相重叠一小部分以接成一张宽频谱图;
S2,实验拉曼数据的预处理:包括插值处理、基线校正和归一化;插值采用的是一阶样条曲线法,插值处理后的每组数据代表拉曼位移从200cm-1到3700cm-1对应的1100个强度数据点;基线校正采用的是不对称最小二乘平滑法,基线校正后只选取1100个数据点中的前1024个点作为谱图的特征;归一化处理将数据的特征尺度化到[0,1]区间;
S3,大规模标准拉曼数据库的预处理:包括数据增强和插值处理;分别用插值处理和数据增强对两个大规模标准拉曼数据库进行预处理;插值处理采用一阶样条曲线获得从200cm-1到3700cm-1的1100个数据点,然后选取前1024个数据点作为样本的特征;数据增强操作包括平移和加噪声,平移是固定拉曼强度序列不变,将拉曼位移增加或减少0~0.6cm-1,加噪声的具体实现方式是对一条曲线中的每一个点都在X轴和Y轴方向加入一个随机噪声;
S4,构建深度学习模型;构建两种广泛应用的深度学习模型DNN和CNN;DNN网络的层数为7层,前6层网络对应的神经元个数分别为3072、2048、2048、2048、2048和1024;网络最后一层的神经元个数与数据集类别数有关,在预训练时为377而在精调时为72;CNN网络的层数为5层,前3层网络为一维卷积网络,后两层为全连接层,最后一层神经元数在预训练时为1322而在精调时为72;模型的分类准确率由K折交叉验证法来确定,其中K等于3;
S5,迁移学习用于实验拉曼数据的分类;模型搭建好后,首先将预处理后的标准拉曼数据库用于模型的预训练,为了防止过拟合当训练集准确率达到90%时即停止;训练好的模型参数用实验拉曼光谱数据集训练模型时作为初始参数使用;
S6,数据分析;对比迁移学习模型与非迁移学习模型的分类准确性。
作为进一步改进的,对于DNN模型前5层的参数用于迁移,对于CNN模型前2层的参数用于迁移。
作为进一步改进的,所述数据增强用来将数据集中的数据量进行扩充。
本发明的有益效果是:本发明提供了一种在数据量少且类别数多的数据集分类问题上表现优异的迁移学习方法-精调,它能从外部数据中学习规律,在有限的数据环境下充分捕捉同类光谱之间的相似性,解决了深度学习模型对大规模数据的依赖,为未来将拉曼光谱分析技术推向实际应用提供了一个新思路。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例的分析方法步骤示意图。
图2为本发明实施的实验拉曼数据预处理操作示意图。
图3为本发明实施例的DNN模型示意图。
图4为本发明实施例的CNN模型示意图。
图5为本发明实施例的基于DNN的迁移学习模型分类准确率示意图。
图6为本发明实施例的基于CNN的迁移学习模型分类准确率示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
参照图1所示,一种基于迁移学习的拉曼光谱智能分析方法,包括以下步骤:
S1.拉曼实验;
本实验在共焦显微拉曼光谱仪上进行,共测试了72种有机物的谱图,具体步骤如下:取少量药品于载玻片上,用另一载玻片压住,研磨成粉末状。将载玻片取下,换上盖玻片盖住粉末样品,以防止测试时粉末溅出污染镜头。为了同时获得较高的光谱分辨率和较宽的光谱范围,采用分段接谱,即先选定一个采谱范围,然后将分段采得的谱图互相重叠一小部分以接成一张宽频谱图。积分时间越长信号越强,因此当信号过饱和时应降低积分时间,反之亦然。本实验设置采谱积分时间为5s,积分次数为1,采谱范围为100-3800cm-1,分别用532nm,633nm和785nm三种波长的激光照射以获得特征峰尽可能明显、荧光包尽可能弱的光谱图,调整激光功率以获得明显的特征峰,每个样品所用的激光功率不是统一的。
S2.实验拉曼数据的预处理:包括插值处理、基线校正和归一化;
插值采用的是一阶样条曲线法,插值处理后的每组数据代表拉曼位移从200cm-1到3700cm-1对应的1100个强度数据点。基线校正采用的是不对称最小二乘平滑法,基线校正后只选取1100个数据点中的前1024个点作为谱图的特征。归一化处理将数据的特征尺度化到[0,1]区间。图2展示了三个预处理步骤后的实验拉曼数据,(a)表示原始光谱,(b)表示插值处理后的光谱,(c)表示基线校正后的光谱,(d)表示归一化后的光谱。
S3.大规模标准拉曼数据库的预处理:包括数据增强和插值处理;
分别用插值处理和数据增强对两个大规模标准拉曼数据库进行预处理。插值处理采用一阶样条曲线获得从200cm-1到3700cm-1的1100个数据点,然后选取前1024个数据点作为样本的特征。数据增强操作包括平移和加噪声,平移是固定拉曼强度序列不变,将拉曼位移增加或减少0~0.6cm-1,加噪声的具体实现方式是对一条曲线中的每一个点都在X轴和Y轴方向加入一个随机噪声。
S4.构建深度学习模型;
构建两种广泛应用的深度学习模型DNN和CNN。DNN网络的层数为7层,前6层网络对应的神经元个数分别为3072、2048、2048、2048、2048和1024。网络最后一层的神经元个数与数据集类别数有关,在预训练时为377而在精调时为72,模型详情见图3。CNN网络的层数为5层,前3层网络为一维卷积网络,后两层为全连接层,最后一层神经元数在预训练时为1322而在精调时为72,模型详情见图4。模型的分类准确率由K折交叉验证法来确定,其中K等于3。
S5.迁移学习用于实验拉曼数据的分类;
模型搭建好后,首先将预处理后的标准拉曼数据库用于模型的预训练,为了防止过拟合当训练集准确率达到90%时即停止。训练好的模型参数用实验拉曼光谱数据集训练模型时作为初始参数使用。
S6.数据分析;
图5显示了基于DNN的迁移学习模型的性能与非迁移学习模型的性能,其中迁移学习模型包括利用有机物数据库和无机物数据库作为源数据库进行预训练两种情形。图中红色虚线代表中位数,绿色三角形表示平均值,盒顶和盒底分别表示前75%和前25%的数值,黑色延长线代表准确率数值范围,且所有准确率结果都是由10次重复实验所获得。从图中可以看出,与非迁移学习模型相比,两种迁移学习模型的分类准确率都有提升,说明本发明涉及到的从标准拉曼光谱数据库到实验拉曼光谱数据集的参数迁移方法有利于提高模型的分类性能。并且与实验拉曼数据不太相似的无机物标准拉曼数据也有利于模型性能的提升,这进一步拓宽了本发明涉及的迁移学习方法的应用场景。图6显示了基于CNN的迁移学习模型和非迁移学习模型的分类准确率,这进一步证明了本发明的迁移学习方法有利于提高用于谱分类的深度学习模型的性能。
以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于迁移学习的拉曼光谱智能分析方法,其特征在于,包括以下步骤:
S1,在共焦显微拉曼光谱仪上进行拉曼实验,具体步骤如下:取少量药品于载玻片上,用另一载玻片压住,研磨成粉末状;将载玻片取下,换上盖玻片盖住粉末样品;选定一个采谱范围,然后将分段采得的谱图互相重叠一小部分以接成一张宽频谱图;
S2,实验拉曼数据的预处理:包括插值处理、基线校正和归一化;插值采用的是一阶样条曲线法,插值处理后的每组数据代表拉曼位移从200cm-1到3700cm-1对应的1100个强度数据点;基线校正采用的是不对称最小二乘平滑法,基线校正后只选取1100个数据点中的前1024个点作为谱图的特征;归一化处理将数据的特征尺度化到[0,1]区间;
S3,大规模标准拉曼数据库的预处理:包括数据增强和插值处理;分别用插值处理和数据增强对两个大规模标准拉曼数据库进行预处理;插值处理采用一阶样条曲线获得从200cm-1到3700cm-1的1100个数据点,然后选取前1024个数据点作为样本的特征;数据增强操作包括平移和加噪声,平移是固定拉曼强度序列不变,将拉曼位移增加或减少0~0.6cm-1,加噪声的具体实现方式是对一条曲线中的每一个点都在X轴和Y轴方向加入一个随机噪声;
S4,构建深度学习模型;构建两种广泛应用的深度学习模型DNN和CNN;DNN网络的层数为7层,前6层网络对应的神经元个数分别为3072、2048、2048、2048、2048和1024;网络最后一层的神经元个数与数据集类别数有关,在预训练时为377而在精调时为72;CNN网络的层数为5层,前3层网络为一维卷积网络,后两层为全连接层,最后一层神经元数在预训练时为1322而在精调时为72;模型的分类准确率由K折交叉验证法来确定,其中K等于3;
S5,迁移学习用于实验拉曼数据的分类;模型搭建好后,首先将预处理后的标准拉曼数据库用于模型的预训练,为了防止过拟合当训练集准确率达到90%时即停止;训练好的模型参数用实验拉曼光谱数据集训练模型时作为初始参数使用;
S6,数据分析;对比迁移学习模型与非迁移学习模型的分类准确性。
2.根据权利要求1所述的拉曼光谱智能分析方法,其特征在于,对于DNN模型前5层的参数用于迁移,对于CNN模型前2层的参数用于迁移。
3.根据权利要求1所述的拉曼光谱智能分析方法,其特征在于,所述数据增强用来将数据集中的数据量进行扩充。
CN201910616759.5A 2019-07-09 2019-07-09 一种基于迁移学习的拉曼光谱智能分析方法 Pending CN110210464A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910616759.5A CN110210464A (zh) 2019-07-09 2019-07-09 一种基于迁移学习的拉曼光谱智能分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910616759.5A CN110210464A (zh) 2019-07-09 2019-07-09 一种基于迁移学习的拉曼光谱智能分析方法

Publications (1)

Publication Number Publication Date
CN110210464A true CN110210464A (zh) 2019-09-06

Family

ID=67796854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910616759.5A Pending CN110210464A (zh) 2019-07-09 2019-07-09 一种基于迁移学习的拉曼光谱智能分析方法

Country Status (1)

Country Link
CN (1) CN110210464A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523582A (zh) * 2020-04-16 2020-08-11 厦门大学 一种基于迁移学习的跨仪器拉曼光谱定性分析方法
CN112716447A (zh) * 2020-12-03 2021-04-30 北京信息科技大学 一种基于拉曼检测光谱数据深度学习的口腔癌分类系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523582A (zh) * 2020-04-16 2020-08-11 厦门大学 一种基于迁移学习的跨仪器拉曼光谱定性分析方法
CN111523582B (zh) * 2020-04-16 2023-05-12 厦门大学 一种基于迁移学习的跨仪器拉曼光谱定性分析方法
CN112716447A (zh) * 2020-12-03 2021-04-30 北京信息科技大学 一种基于拉曼检测光谱数据深度学习的口腔癌分类系统

Similar Documents

Publication Publication Date Title
US20230127698A1 (en) Automated stereology for determining tissue characteristics
US10671833B2 (en) Analyzing digital holographic microscopy data for hematology applications
CN106874956B (zh) 图像分类卷积神经网络结构的构建方法
Otálora et al. Microalgae classification based on machine learning techniques
Marzahl et al. Deep learning-based quantification of pulmonary hemosiderophages in cytology slides
CN109632693A (zh) 一种基于blstm-rnn的太赫兹光谱识别方法
Hu et al. Tumor tissue classification based on micro-hyperspectral technology and deep learning
CN110210464A (zh) 一种基于迁移学习的拉曼光谱智能分析方法
Kalra et al. Automatic classification of pathology reports using TF-IDF Features
Suwannaphong et al. Parasitic egg detection and classification in low-cost microscopic images using transfer learning
CN106709421A (zh) 一种基于变换域特征和cnn的细胞图像识别分类方法
Li et al. Tongue fissure extraction and classification using hyperspectral imaging technology
Vaishnav et al. Gamr: A guided attention model for (visual) reasoning
CN109697459A (zh) 一种面向光学相干断层图像斑块形态检测方法
Liu et al. A dataset for forestry pest identification
CN114399661A (zh) 一种实例感知主干网络训练方法
Haeffele et al. Generative optical modeling of whole blood for detecting platelets in lens-free images
Gupta et al. Simsearch: A human-in-the-loop learning framework for fast detection of regions of interest in microscopy images
Hong et al. Classification of Oil Palm fruit Ripeness Using Artificial Neural Network
CN109086868A (zh) 一种抽象图像情感识别方法
Dondi et al. Stylistic classification of historical violins: a deep learning approach
Nikolskyy et al. Using LabView for real-time monitoring and tracking of multiple biological objects
Singh et al. Neural style transfer for medical image augmentation
Castellano et al. Deep convolutional embedding for painting clustering: case study on Picasso’s artworks
Border et al. Improving quantification of renal fibrosis using Deep-DUET

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190906

WD01 Invention patent application deemed withdrawn after publication