CN117480367A - 用于从数据中去除噪声的方法和装置 - Google Patents
用于从数据中去除噪声的方法和装置 Download PDFInfo
- Publication number
- CN117480367A CN117480367A CN202280041417.5A CN202280041417A CN117480367A CN 117480367 A CN117480367 A CN 117480367A CN 202280041417 A CN202280041417 A CN 202280041417A CN 117480367 A CN117480367 A CN 117480367A
- Authority
- CN
- China
- Prior art keywords
- spectral data
- data
- normalized
- normalization
- spectral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000003595 spectral effect Effects 0.000 claims abstract description 88
- 238000010606 normalization Methods 0.000 claims abstract description 28
- 238000010801 machine learning Methods 0.000 claims abstract description 23
- 238000010183 spectrum analysis Methods 0.000 claims description 3
- 238000001069 Raman spectroscopy Methods 0.000 description 14
- 238000001228 spectrum Methods 0.000 description 14
- 238000003062 neural network model Methods 0.000 description 13
- 238000001237 Raman spectrum Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005481 NMR spectroscopy Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000005136 cathodoluminescence Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000005424 photoluminescence Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01J—MEASUREMENT OF INTENSITY, VELOCITY, SPECTRAL CONTENT, POLARISATION, PHASE OR PULSE CHARACTERISTICS OF INFRARED, VISIBLE OR ULTRAVIOLET LIGHT; COLORIMETRY; RADIATION PYROMETRY
- G01J3/00—Spectrometry; Spectrophotometry; Monochromators; Measuring colours
- G01J3/28—Investigating the spectrum
- G01J3/44—Raman spectrometry; Scattering spectrometry ; Fluorescence spectrometry
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01J—MEASUREMENT OF INTENSITY, VELOCITY, SPECTRAL CONTENT, POLARISATION, PHASE OR PULSE CHARACTERISTICS OF INFRARED, VISIBLE OR ULTRAVIOLET LIGHT; COLORIMETRY; RADIATION PYROMETRY
- G01J3/00—Spectrometry; Spectrophotometry; Monochromators; Measuring colours
- G01J3/28—Investigating the spectrum
Landscapes
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
- Spectrometry And Color Measurement (AREA)
Abstract
一种用于从使用光谱仪记录的光谱数据中去除噪声的方法。该方法包括对光谱数据进行归一化(103)以生成归一化的光谱数据,以及将机器学习模型应用(104)于归一化的光谱数据。该机器学习模型使用归一化的训练数据进行训练以从光谱数据中去除噪声,其中,基于与该训练数据的归一化不同的缩放比例来归一化该光谱数据。
Description
技术领域
本发明涉及用于从数据中、特别是从使用光谱仪记录的光谱数据中去除噪声的方法和装置。该方法和装置特别适用于拉曼光谱法,尽管该方法和装置也可以用于其他形式的光谱法,例如窄线光致发光、荧光、阴极发光、UV可见光(UV Vis)、核磁共振(NMR)、中红外光(mid-IR)或近红外光(NIR)。
背景技术
拉曼效应是样品对光的非弹性散射。在拉曼光谱法中,样品被单色激光照射,并且之后散射光被例如单色仪中的色散设备(诸如衍射光栅)色散,以生成被称为拉曼光谱的光谱。拉曼光谱由诸如电荷耦合器件(CCD)等检测器检测。拉曼光谱装置的示例从美国专利号5,442,438和5,510,894中得知,这些美国专利通过引用并入本文。
不同的化合物具有不同特性的拉曼光谱。因此,拉曼效应可以用于分析样品中存在的化合物。
检测到的光谱包括拉曼光谱以及由系统和周围环境生成的噪声。期望在分析光谱数据以识别存在于样品中的组分之前处理该光谱数据以从该光谱数据中去除噪声。
发明内容
根据本发明的第一方面,提供了一种用于从使用光谱仪记录的光谱数据中去除噪声的方法,该方法包括对光谱数据进行归一化以生成归一化的光谱数据以及将机器学习模型应用于该归一化的光谱数据,该机器学习模型使用归一化的训练数据进行训练以从光谱数据中去除噪声,其中,基于与该训练数据的归一化不同的缩放比例来归一化该光谱数据。
在使用(归一化的)训练数据来训练机器学习模型(诸如神经网络模型)之前,通常会对训练数据执行数据归一化步骤(特征缩放),以便所有的训练数据都具有相同的缩放比例。该机器学习模型所应用于的后续光谱数据通常被归一化至相同的缩放比例。然而,发明人发现,当将机器学习模型应用于缩放至较高值的光谱数据时,机器学习模型在去除噪声方面的效果以及对真实高频特征的任何损害都被降低。当将机器学习模型应用于缩放至较低值的光谱数据时,情况恰恰相反。因此,通过相对于训练数据的缩放比例来调整光谱数据的缩放比例,用户可以控制噪声去除的程度。以这种方式,用户可以控制噪声去除的程度,而无需等待基于重新缩放的训练数据来计算出新的机器学习模型。在将机器学习模型应用于光谱数据(以产生经修改的光谱数据)之后,通过对经修改的光谱数据进行重新缩放,对应用机器学习模型之前应用于光谱数据的归一化进行了反转。该经修改的光谱数据可以被输出,诸如显示给用户。
应理解的是,本文所使用的术语“不同的缩放比例”是指增大或减小使用归一化算法(例如,公式)另外获得的归一化值,该归一化算法用于对训练数据的值进行归一化。该不同的缩放比例可以通过在用于确定训练数据的归一化值的归一化算法中添加乘数(不同于1)来获得。
本文所使用的术语“机器学习模型”是指使用机器学习基于训练数据来构建的算法,该算法可以应用于类似的数据以执行特定的任务(在本发明中是噪声去除)。
光谱数据可以是光谱仪在不同波长/波数/频率下检测到的电磁辐射的强度值。
归一化可以是重新缩放(最小-最大值归一化或最大值归一化),并且该不同的缩放比例是将该光谱数据缩放至与该训练数据的缩放比例不同的范围。例如,训练数据可以被缩放至范围[0,1],而光谱数据可以被缩放至不同的范围,例如具有不同于1的最大值。该不同的缩放比例可以是应用于由以下公式给出的归一化值x’的乘数:
其中,x是特定波长/波数/频率下的光谱数据的强度值。max(x)是光谱数据中的最大x值。min(x)是光谱数据中的最小x值。
归一化可以是最大值归一化,其中,归一化值x’由以下公式给出:
归一化可以是平均(均值中心)值归一化。该不同的缩放比例可以是应用于由以下公式给出的归一化值x’的乘数:
其中,x是特定波长/波数/频率下的光谱数据的强度值。
归一化可以是标准化(Z分数)归一化。该不同的缩放比例可以是应用于由以下公式给出的归一化值x’的乘数:
其中,x是特定波长/波数/频率下的光谱数据的强度值,并且σ是标准差。在进一步的实施例中,除数可以是方差而不是标准差。
该方法可以包括接收由用户选择的要应用于该光谱数据的该不同的缩放比例。
该方法可以包括通过对样品执行光谱分析(诸如,拉曼光谱分析)来生成光谱数据。
该方法可以包括输出(诸如,在屏幕上显示)通过将该机器学习模型应用于该光谱数据而生成的处理后的光谱数据。该方法可以包括分析该处理后的光谱数据以确定样品中存在的组分。该方法可以包括生成输出(诸如,在屏幕上显示),以标识被确定为存在于样品中的一种或多种组分。
该方法可以是计算机实施的。
根据本发明的第二方面,提供了一种用于从记录数据中去除噪声的方法,该方法包括对该记录数据进行归一化以生成归一化的记录数据以及将机器学习模型应用于该归一化的记录数据,该机器学习模型使用归一化的训练数据进行训练以从该记录数据中去除噪声,其中,基于与该训练数据的归一化不同的缩放比例来归一化该记录数据。
根据本发明的第三方面,提供了一种装置,该装置包括处理器,该处理器被配置为执行本发明的第一方面或第二方面的方法。
该装置可以包括光谱仪。
该装置可以包括接口,该接口被配置为接收由该用户输入的要应用于该光谱数据的该不同的缩放比例。
该装置可以包括输出设备(诸如屏幕),以输出该光谱数据的归一化值和/或被确定为存在于该样品中的一种或多种组分。
根据本发明的第四方面,提供了一种数据载体,该数据载体上存储有指令,这些指令在由处理器执行时使该处理器执行本发明的第一方面或第二方面的方法。
该数据载体可以是非暂态数据载体,诸如易失性存储器(例如RAM)、非易失性存储器(例如ROM)、闪存存储器和数据存储设备(诸如硬盘、光盘)、或者暂态数据载体(诸如电子信号或光学信号)。
附图说明
图1是根据本发明的实施例的光谱仪装置的示意图;
图2是光谱仪装置的数据处理模块或编程功能的示意图;
图3a和图3b是展示了使用神经网络模型处理的光谱数据的图示,其中,输入至神经网络模型的光谱数据已被归一化至与训练数据相同的缩放比例;
图4a和图4b是展示了使用神经网络模型处理的相同的光谱数据的图示,其中,输入至神经网络模型的光谱数据已经被归一化至比训练数据更宽的范围;
图5是展示了使用神经网络模型处理的光谱数据的图示,其中,输入至神经网络模型的光谱数据已被归一化至与训练数据相同的缩放比例;以及
图6是展示了使用神经网络模型处理的与图5中的光谱数据相同的光谱数据的图示,其中,输入至神经网络模型的光谱数据已经被归一化至比训练数据更窄的范围。
具体实施方式
参考图1,根据本发明的装置包括连接到计算机25的拉曼光谱仪,该计算机可以访问存储器29。
拉曼光谱仪包括由与光路成45度放置的二向色滤光片12进行90度反射的输入激光束10。替代性地,可以以低入射角(诸如10度)放置全息二向色滤光片。该激光束然后传到物镜16,该物镜将该激光束聚焦到样品18上的焦点19处的一点。光在该照射点处被样品散射,并且被物镜16收集并被准直成平行光束,该平行光束传回至二向色滤光片12。滤光片12拒绝与输入激光束10具有相同频率的瑞利散射光,并透射拉曼散射光。拉曼散射光然后传到拉曼分析仪20。
拉曼分析仪20包括诸如衍射光栅等色散元件。来自分析仪20的光被透镜22聚焦至合适的光电检测器24上。光电检测器阵列是优选的。在本实施例中,检测器24是电荷耦合器件(CCD),其由二维像素阵列构成并且连接到计算机25,该计算机从像素中的每一个获取数据并根据需要对数据进行分析。分析仪20产生沿CCD 24呈线状散布的光谱。
样品18可以被安装在X-Y台上,以便可以在X和Y方向上跨越整个样品扫描焦点19(例如在计算机25的控制下)。然后可以收集多个光谱,每个光谱对应样品上的不同点。然后可以基于根据收集的光谱确定的样品属性来生成图。
计算机25在合适的介质(诸如存储器29)上编程有包括指令的软件代码,这些指令当由计算机25的处理器执行时,使计算机25执行下文所描述的分析例程。替代性地,可以将获得的一个或多个拉曼光谱的数据传输到具有这样的软件的不同的计算机以进行此分析。在任一情况下,随着分析的进行,所确定的值都被存储在相关的计算机中,并且可以被进一步处理以及输出或显示,以示出一个或多个样品中的组分的浓度。
为了处理光谱数据以确定一个或多个存在的拉曼光谱,以及从而确定样品的(一种或多种)化学组分/性质,首先对光谱数据进行处理以去除噪声。
处理器接收由拉曼光谱仪从样品生成的光谱数据101和用户对要应用于光谱数据的归一化的缩放比例的选择102。该缩放比例可以大于或小于在用于训练机器学习模型的训练数据的归一化中应用的缩放比例。在该实施例中,使用神经网络模型,特别是递归神经网络(RNN)(具体地,双向长短期记忆(LSTM)网络)。应用于训练数据的缩放比例被认为是N=1,并且应用于光谱数据的缩放比例是由用户设定的、应用于训练数据集的缩放比例的比率,该用户为光谱数据选择大于或小于1的N值。
使用与用于训练数据的归一化算法相同的归一化算法来归一化103光谱数据,但进一步乘以用户为光谱数据选择的N值。在该实施例中,光谱数据的归一化是由以下公式给出的最大值归一化:
其中,x是特定波长/波数/频率下的光谱数据的强度值,并且x’是归一化值。
将神经网络模型应用104于归一化的光谱数据以从光谱数据中去除噪声。在将机器学习模型应用于光谱数据(以产生经修改的光谱数据)之后,通过对修改后的光谱数据进行重新缩放,对应用机器学习模型之前应用于光谱数据的归一化进行了反转105。然后,对去除了噪声的重新缩放的经修改的光谱数据进行分析106以从光谱数据中识别样品的化学成分。这通常涉及将曲线拟合到已去除噪声的光谱数据,例如将已知的拉曼光谱拟合到光谱数据。分析结果被输出107至用户,例如通过在屏幕上显示。
图3a和图3b是示出了两种不同的输入光谱数据(由计算机用模拟噪声生成)、对应的预测(拟合)曲线、对应的目标光谱以及当根据N=1对光谱数据进行归一化(归一化的缩放比例与训练数据的归一化的缩放比例相同)时的误差的图示。图4a和图4b是示出了相同的输入光谱数据、对应的预测(拟合)曲线、目标光谱以及当根据N=3对光谱数据进行归一化(归一化的缩放比例与训练数据的归一化的缩放比例不同)时的误差的图示。可以看出,根据N=3进行归一化的光谱数据在复制数据中的高频拉曼特征方面表现出更好的性能。
图5是示出了另一输入光谱数据(由计算机用模拟噪声生成)、对应的预测(拟合)曲线、对应的目标光谱以及当根据N=1对光谱数据进行归一化(归一化的缩放比例与训练数据的归一化的缩放比例相同)时的误差的图示。图6是示出了该另一输入光谱数据、对应的预测(拟合)曲线、对应的目标光谱以及当根据N=0.01对光谱数据进行归一化时的误差的图示。可以看出,根据N=0.01进行归一化的光谱数据显示出随后噪声减弱的趋势。
因此,通过相对于训练数据选择光谱数据的缩放比例,可以改变噪声去除的程度,而无需生成新的神经网络模型。因此,该方法允许用户在使用相同的神经网络模型的同时根据用户需求来控制噪声去除量。
Claims (13)
1.一种用于从使用光谱仪记录的光谱数据中去除噪声的方法,所述方法包括对光谱数据进行归一化以生成归一化的光谱数据以及将机器学习模型应用于所述归一化的光谱数据,所述机器学习模型使用归一化的训练数据进行训练以从光谱数据中去除噪声,其中,基于与所述训练数据的归一化不同的缩放比例来归一化所述光谱数据。
2.根据权利要求1所述的方法,其中,所述归一化是重新缩放,并且所述不同的缩放比例是将所述光谱数据缩放至与所述训练数据的缩放比例不同的范围。
3.根据权利要求1所述的方法,其中,所述归一化是平均值归一化。
4.根据权利要求1所述的方法,其中,所述归一化是标准化归一化。
5.根据权利要求1至4所述的方法,包括接收由用户选择的要应用于所述光谱数据的所述不同的缩放比例。
6.根据权利要求1至5所述的方法,包括通过对样品执行光谱分析来生成所述光谱数据。
7.根据权利要求1至6所述的方法,包括输出通过将所述机器学习模型应用于所述光谱数据而生成的处理后的光谱数据。
8.根据权利要求1至7所述的方法,其中,所述方法是计算机实施的。
9.一种装置,所述装置包括处理器,所述处理器被配置为执行根据权利要求1至8中任一项所述的方法。
10.根据权利要求9所述的装置,包括光谱仪。
11.根据权利要求9或权利要求10所述的装置,包括接口,所述接口被配置为接收由所述用户输入的要应用于所述光谱数据的所述不同的缩放比例。
12.根据权利要求9至11中任一项所述的装置,包括输出设备,所述输出设备被配置为输出所述光谱数据的归一化值和/或被确定为存在于所述样品中的一种或多种组分。
13.一种数据载体,所述数据载体上存储有指令,所述指令在由处理器执行时使所述处理器执行根据权利要求1至8中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GBGB2108208.6A GB202108208D0 (en) | 2021-06-09 | 2021-06-09 | Method and apparatus for removing noise from data |
GB2108208.6 | 2021-06-09 | ||
PCT/GB2022/051412 WO2022258951A1 (en) | 2021-06-09 | 2022-06-06 | Method and apparatus for removing noise from data |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117480367A true CN117480367A (zh) | 2024-01-30 |
Family
ID=76838848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280041417.5A Pending CN117480367A (zh) | 2021-06-09 | 2022-06-06 | 用于从数据中去除噪声的方法和装置 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP4352473A1 (zh) |
JP (1) | JP2024522646A (zh) |
CN (1) | CN117480367A (zh) |
GB (1) | GB202108208D0 (zh) |
WO (1) | WO2022258951A1 (zh) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5510894A (en) | 1988-12-22 | 1996-04-23 | Renishaw Plc | Spectroscopic apparatus and methods |
US5442438A (en) | 1988-12-22 | 1995-08-15 | Renishaw Plc | Spectroscopic apparatus and methods |
-
2021
- 2021-06-09 GB GBGB2108208.6A patent/GB202108208D0/en not_active Ceased
-
2022
- 2022-06-06 JP JP2023576055A patent/JP2024522646A/ja active Pending
- 2022-06-06 WO PCT/GB2022/051412 patent/WO2022258951A1/en active Application Filing
- 2022-06-06 CN CN202280041417.5A patent/CN117480367A/zh active Pending
- 2022-06-06 EP EP22731295.6A patent/EP4352473A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4352473A1 (en) | 2024-04-17 |
JP2024522646A (ja) | 2024-06-21 |
GB202108208D0 (en) | 2021-07-21 |
WO2022258951A1 (en) | 2022-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6294333B2 (ja) | 分光装置および分光法 | |
US9784621B2 (en) | Spectroscopic apparatus and methods | |
EP2710353B1 (en) | SPECTROSCOPIC APPARATUS AND METHOD of DETERMINING COMPONENTS PRESENT IN A SAMPLE | |
US11181480B2 (en) | Raman spectroscopy for minerals identification | |
JP6023177B2 (ja) | 多項式フィッティングによるスペクトルデータのバックグラウンド放射線推定 | |
JP6896906B2 (ja) | 分光画像データ処理装置および2次元分光装置 | |
US10969339B2 (en) | Optical readers | |
EP2520914A1 (en) | Estimation of background radiation in spectral data by polynomial fitting | |
CN117480367A (zh) | 用于从数据中去除噪声的方法和装置 | |
CN116026808A (zh) | 一种拉曼光谱判别方法和系统 | |
US20220252516A1 (en) | Spectroscopic apparatus and methods for determining components present in a sample | |
CN113504185A (zh) | 结合libs定标的多光谱农产品重金属含量检测建模系统 | |
EP3867613A1 (en) | Spectroscopic apparatus and methods | |
US12025561B2 (en) | Material identification through image capture of Raman scattering | |
CN113281276B (zh) | 一种矿石组分信息提取方法、设备及存储介质 | |
JP6993682B2 (ja) | トランスクリプトーム推定装置およびトランスクリプトーム推定方法 | |
US20220214280A1 (en) | Material identification through image capture of raman scattering | |
US20220065792A1 (en) | A system and a method of performing spectroscopic analysis of a sample | |
JP2022135652A (ja) | 被検物質の分析方法、分析装置、訓練方法、分析システム、及び分析プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |