CN116648614A - 用于化学分析的光谱数据处理 - Google Patents

用于化学分析的光谱数据处理 Download PDF

Info

Publication number
CN116648614A
CN116648614A CN202180082950.1A CN202180082950A CN116648614A CN 116648614 A CN116648614 A CN 116648614A CN 202180082950 A CN202180082950 A CN 202180082950A CN 116648614 A CN116648614 A CN 116648614A
Authority
CN
China
Prior art keywords
machine learning
spectral data
processing
chemical
learning process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180082950.1A
Other languages
English (en)
Inventor
T·R·T·金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agilent Technologies Inc
Original Assignee
Agilent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agilent Technologies Inc filed Critical Agilent Technologies Inc
Publication of CN116648614A publication Critical patent/CN116648614A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • G01N30/7206Mass spectrometers interfaced to gas chromatograph
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • G01N30/7233Mass spectrometers interfaced to liquid or supercritical fluid chromatograph
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • G01N30/8637Peak shape
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8644Data segmentation, e.g. time windows
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

一种用于操作光谱数据处理系统的方法。所述方法包括接收与至少部分地使用机器学习处理模型处理化学样品的光谱数据相关联的用户输入。所述机器学习处理模型被布置在所述光谱数据处理系统的机器学习控制器中。所述方法还包括基于所述接收到的用户输入来训练所述机器学习处理模型。

Description

用于化学分析的光谱数据处理
技术领域
本发明涉及用于化学分析的光谱数据的处理。所述处理至少部分地基于(多种)基于机器学习的方法。
背景技术
化学分析涉及对化学样品中的物质的化学成分和结构进行分析,并且它可能涉及使用化学分析设备进行定性分析和/或定量分析。
气相色谱-质谱仪是已知的化学分析设备。它将气相色谱仪和质谱仪相结合,并且用于鉴定针对不同应用(药物测试、食品安全相关测试、环境相关测试等)获得的化学样品中的不同物质。
当前可用的气相色谱-质谱仪通常与分析器(例如,计算系统)连接,所述分析器被布置成分析由气相色谱-质谱仪生成的光谱信号。分析器可以运行软件包或应用程序,诸如现有的AMDIS-NIST软件,其使得用户能够分析、查看、调整或编辑光谱数据,以用于对样品执行定性和/或定量分析。在该过程中,输出的质量、定性和/或定量分析结果在很大程度上取决于用户在解释或以其他方式处理数据方面的专业知识和经验。而且,由于实验是独立执行的,因此习惯做法或偏好是独立处理相关联的数据处理。
发明内容
在第一方面,提供了一种用于操作光谱数据处理系统的方法。所述方法包括:接收与至少部分地使用机器学习处理模型处理化学样品的光谱数据相关联的用户输入;以及存储所述用户输入,以用于基于所述接收到的用户输入来训练所述机器学习处理模型。所述机器学习处理模型被布置在所述光谱数据处理系统的机器学习控制器中。对所述光谱数据的处理可以完全基于所述机器学习处理模型,或者可替代地,部分地基于所述机器学习处理模型并且部分地基于以下中的一个或多个:其它机器学习处理模型或非机器学习处理。所述机器学习控制器可以由一个或多个处理器形成,可选地具有一个或多个存储器或存储设备。所述方法是一种计算机实现的方法。所述机器学习处理模型可以被充分地预训练以适合于特定任务(例如,所述模型可以为该特定任务提供一定的准确性)。或者,所述机器学习处理模型可以是用于基线回测的未经训练的或训练不足的模型。非机器学习处理可以包括对光谱数据的各种信号处理,诸如滤波、分割、阈值化、求平均、平滑化、填充、变换、缩放等。
在一个实施方案中,所述方法进一步包括基于所述接收到的用户输入来训练所述机器学习处理模型。在一个例子中,所述接收到的用户输入被直接用于训练所述机器学习处理模型。在另一个例子中,与所述接收到的用户输入相关联的数据用于训练所述机器学习处理模型。
在一个实施方案中,所述方法进一步包括:在接收所述用户输入之前:至少部分地使用所述机器学习处理模型来处理所述光谱数据以提供处理结果。所述处理可以包括使用所述机器学习处理模型执行以下中的一个或多个或全部:光谱信号分割;光谱峰值检测;光谱峰值去卷积;以及化学组分相关信息确定。可以基于所述光谱信号分割、光谱峰值检测和/或光谱峰值去卷积来执行所述化学组分相关信息确定。所述化学组分相关信息确定可以确定所述化学样品中的仅一种、仅一些或所有化学组分。在一个例子中,基于所述机器学习处理模型来执行所有四个示例性操作。在一个例子中,基于所述机器学习处理模型来执行这些示例性操作中的仅一个或仅一些。所述化学组分相关信息确定可以包括以下中的一个或多个:化学组分类别鉴定;化学组分类型鉴定;化学组分鉴定;以及化学组分浓度确定。
在一个实施方案中,所述方法进一步包括:在接收所述用户输入之前:提供对所述光谱数据的处理的处理结果。在一个例子中,所述处理结果可以被提供给输出设备,诸如显示器,以呈现给用户。在一个实施方案中,提供所述处理结果包括提供以下中的至少一个:所述光谱数据的至少一部分的图形表示;以及与所述化学样品中包含的至少一种(一种或一些或所有)化学组分相关联的信息。所述图形表示可以是绘图、光谱、表格、热图等的形式。与所述化学组分相关联的信息可以包括所述至少一种化学组分的身份和/或所述至少一种化学组分中的每一种组分的浓度。
在一个实施方案中,所述方法进一步包括:在所述处理之前:从多个机器学习处理模型中选择所述机器学习处理模型。所述多个机器学习处理模型可以全部布置在所述机器学习控制器中。所述多个机器学习处理模型中的相应一个中的每个可以与相应类型或类别的化学样品、相应的化学分析系统、相应的地理位置、相应的用户(公司、个人等)相关联,并且所述选择可以是基于这些特性。
在一个实施方案中,所述用户输入表示对所述处理结果的正反馈。在一个例子中,基于所述接收到的用户输入(表示正反馈)对所述机器学习处理模型的训练包括基于所述光谱数据和所述处理结果对所述机器学习处理模型进行训练。在一个例子中,与所述接收到的用户输入(表示正反馈)相关联的数据被保留、加权或以其他方式用于所述机器学习处理模型的后续训练中。以这种方式,可以通过学习如用户所指示的正确的内容来增强所述机器学习处理模型。
在一个实施方案中,所述用户输入表示对所述处理结果的负反馈。在一个例子中,所述用户输入与对所述光谱数据的调整和/或对所述处理结果的调整相关联。例如,所述用户输入可以包括以下中的一个或多个:调整后的峰值开始时间;调整后的峰值结束时间;调整后的峰值基线;调整后的背景去除;调整后的保留时间;所述化学样品中化学组分的调整后的身份;以及所述化学样品中化学组分的调整后的浓度。在所述用户输入与对所述光谱数据的调整相关联的一个例子中,所述方法进一步包括至少部分地使用所述机器学习处理模型来处理所述调整后的光谱数据以确定更新的处理结果。基于所述接收到的用户输入(表示负反馈)来训练所述机器学习处理模型可以包括:基于所述调整后的光谱数据和所述更新的处理结果来训练所述机器学习处理模型;基于所述光谱数据(例如,如果没有调整的话)和所述调整后的身份或浓度来训练所述机器学习处理模型。以这种方式,可以通过学习最初是不正确的并且随后由用户调整为正确的内容来改进所述机器学习处理模型。
在一个实施方案中,所述机器学习处理模型包括人工神经网络,诸如深度神经网络。可以使用其他基于机器学习的模型、递归模型或非递归模型。这些可以包括例如递归神经网络、长短期记忆模型、马尔可夫过程、强化学习、门控递归单元模型、深度神经网络、卷积神经网络(例如,Unet)、支持向量机、主成分分析、逻辑回归、决策树/森林,集成方法(组合模型)、回归(贝叶斯/多项式/回归)、随机梯度下降、线性判别分析、最近邻分类或回归、朴素贝叶斯,仅举几例。
在一个实施方案中,所述方法进一步包括:在所述处理之前:确定所述光谱数据的格式,并且如果确定所述光谱数据的格式是专有格式,则将所述光谱数据的格式从所述专有格式转换为开放格式。确定所述光谱数据的格式可以包括确定所述光谱数据的格式是否为可识别的。可以预先确定可接受的或可识别的专有格式。
在一个实施方案中,所述方法进一步包括:接收一个或多个另外的用户输入,每个用户输入与使用所述机器学习处理模型对相应化学样品的相应光谱数据的相应处理相关联;以及存储所述一个或多个接收到的另外的用户输入,以用于基于所述一个或多个接收到的另外的用户输入来训练所述机器学习处理模型。
在一个实施方案中,所述方法进一步包括基于所述一个或多个接收到的另外的用户输入来训练所述机器学习处理模型。在已经接收到预定数量的用户输入之后,根据用户请求,可以连续/递归地等周期性地执行训练。
在一个实施方案中,所述化学样品可以包括邻苯二甲酸酯,或者所述机器学习处理模型可以特别地被适配用于处理与邻苯二甲酸酯相关联的光谱数据。
在一个实施方案中,所述光谱数据是色谱图或质谱的数据。
在一个实施方案中,所述光谱数据处理系统与化学分析系统相关联。所述光谱数据处理系统可以例如经由有线通信连接与所述化学分析系统本地连接。可替代地,所述光谱数据处理系统可以远程连接所述化学分析系统,例如经由无线通信网络。
在一个实施方案中,所述化学分析系统包括气相色谱仪或液相色谱仪,并且所述光谱数据包括化学样品的色谱图的数据。在另一个例子中,所述化学分析系统包括质谱仪,并且所述光谱数据包括化学样品的质谱的数据。所述质谱仪可以是气相色谱-质谱仪或液相色谱-质谱仪。
在第二方面,提供了一种光谱数据处理系统,其包括一个或多个处理器,所述一个或多个处理器被布置成:至少部分地使用机器学习处理模型来接收与化学样品的光谱数据的处理相关联的用户输入;以及基于所述接收到的用户输入来训练所述机器学习处理模型。所述光谱数据处理系统还可以包括一个或多个存储器或存储设备,用于存储所述用户输入和/或所述机器学习处理模型。在一个例子中,所述光谱数据处理系统包括机器学习控制器,并且所述一个或多个处理器和所述一个或多个存储器可以是所述机器学习控制器的一部分。在另一个例子中,所述机器学习控制器可以不包括所述一个或多个处理器,而是可以包括与所述一个或多个处理器可操作地联接的一个或多个其他处理器。在又一例子中,所述一个或多个处理器包括多个处理器,其中至少一个处理器被布置成执行训练并且其中至少一个处理器被布置成执行对光谱数据的处理。
在一个实施方案中,所述一个或多个处理器进一步被布置成:至少部分地使用所述机器学习处理模型来处理所述光谱数据以提供处理结果。
在一个实施方案中,所述一个或多个处理器进一步被布置成使用所述机器学习处理模型来执行以下中的一个或多个或全部:光谱信号分割;光谱峰值检测;光谱峰值去卷积;以及化学组分相关信息确定。所述化学组分相关信息确定可以包括以下中的一个或多个:化学组分类别鉴定;化学组分类型鉴定;化学组分鉴定;以及化学组分浓度确定。
在一个实施方案中,所述光谱数据处理系统还包括被布置成提供对所述光谱数据的处理的处理结果的输出设备。所述输出设备可以包括被布置成显示所述处理结果的显示器。在一个例子中,所述处理结果可以是以下中的至少一个的形式:所述光谱数据的至少一部分的图形表示(例如,绘图/光谱/表格/热图);以及与所述化学样品中包含的至少一种化学组分相关联的信息。与所述化学组分相关联的信息包括:所述至少一种化学组分的身份和/或所述至少一种化学组分中的每一种组分的浓度。
在一个实施方案中,所述一个或多个处理器进一步被布置成:从多个机器学习处理模型中选择所述机器学习处理模型或接收对所述机器学习处理模型的选择。所述多个机器学习处理模型可以全部布置在所述机器学习控制器中。所述多个机器学习处理模型中的相应一个中的每个可以与相应类型或类别的化学样品、相应的化学分析系统、相应的地理位置、相应的用户(公司、个人等)相关联,并且所述选择可以是基于这些特性。
在一个实施方案中,所述用户输入表示对所述处理结果的正反馈。在一个例子中,在接收到表示正反馈的用户输入时,所述一个或多个处理器被布置成:例如至少通过基于所述光谱数据和所述处理结果来训练所述机器学习处理模型,基于所述接收到的用户输入来训练所述机器学习处理模型。
在一个实施方案中,所述用户输入表示对所述处理结果的负反馈。在一个例子中,所述用户输入与对所述光谱数据的调整和/或对所述处理结果的调整相关联。例如,所述用户输入可以包括以下中的一个或多个:调整后的峰值开始时间;调整后的峰值结束时间;调整后的峰值基线;调整后的背景去除;调整后的保留时间;所述化学样品中化学组分的调整后的身份;以及所述化学样品中化学组分的调整后的浓度。在所述用户输入与对所述光谱数据的调整相关联的一个例子中,所述一个或多个处理器被布置成至少部分地使用所述机器学习处理模型来处理所述调整后的光谱数据以确定更新的处理结果。被布置成基于所述接收到的用户输入(表示负反馈)来训练所述机器学习处理模型的所述一个或多个处理器可以基于所述调整后的光谱数据和所述更新的处理结果来训练所述机器学习处理模型;基于所述光谱数据(例如,如果没有调整的话)和所述调整后的身份或浓度来训练所述机器学习处理模型。以这种方式,可以通过学习最初是不正确的并且随后由用户调整为正确的内容来改进所述机器学习处理模型。
在一个实施方案中,所述机器学习处理模型包括人工神经网络,诸如深度神经网络。可以使用其他基于机器学习的模型、递归模型或非递归模型。这些可以包括例如递归神经网络、长短期记忆模型、马尔可夫过程、强化学习、门控递归单元模型、深度神经网络、卷积神经网络(例如,Unet)、支持向量机、主成分分析、逻辑回归、决策树/森林,集成方法(组合模型)、回归(贝叶斯/多项式/回归)、随机梯度下降、线性判别分析、最近邻分类或回归、朴素贝叶斯,仅举几例。
在一个实施方案中,所述一个或多个处理器被布置成:确定所述光谱数据的格式;以及果确定所述光谱数据的格式为专有格式,则将所述光谱数据的格式从所述专有格式转换为开放格式。所述一个或多个处理器可以被布置成确定所述光谱数据的格式是否是可识别的,以便确定所述光谱数据的格式。可以预先确定可接受的或可识别的专有格式。
在一个实施方案中,所述一个或多个处理器被布置成:接收一个或多个另外的用户输入,每个用户输入与使用所述机器学习处理模型对相应化学样品的相应光谱数据的相应处理相关联;并且基于所述一个或多个接收到的另外的用户输入来训练所述机器学习处理模型。所述一个或多个另外的输入可以存储在所述光谱数据处理系统的一个或多个存储器或存储设备中。
在一个实施方案中,所述一个或多个处理器可以在已经接收到预定数量的用户输入之后、根据用户请求、连续地/递归地等周期性地执行训练。
在一个实施方案中,所述化学样品可以包括邻苯二甲酸酯,或者所述机器学习处理模型可以特别地被适配用于处理与邻苯二甲酸酯相关联的光谱数据。
在一个实施方案中,所述光谱数据是色谱图或质谱的数据。
在一个实施方案中,所述光谱数据处理系统与化学分析系统相关联。所述光谱数据处理系统可以例如经由有线通信连接与所述化学分析系统本地连接。可替代地,所述光谱数据处理系统可以远程连接所述化学分析系统,例如经由无线通信网络。
在一个实施方案中,所述化学分析系统包括气相色谱仪或液相色谱仪,并且所述光谱数据包括化学样品的色谱图的数据。在另一个例子中,所述化学分析系统包括质谱仪,并且所述光谱数据包括化学样品的质谱的数据。所述质谱仪可以是气相色谱-质谱仪或液相色谱-质谱仪。
在第三方面,提供了一种系统,所述系统包括:一个或多个化学分析系统;以及第一方面的与所述一个或多个化学分析系统可操作地连接的光谱数据处理系统。所述一个或多个化学分析系统包括:一个或多个气相色谱仪;一个或多个液相色谱仪;一个或多个气相色谱-质谱仪;和/或一个或多个液相色谱-质谱仪。所述系统还可以包括与所述光谱数据处理系统(例如经由通信网络或链路本地或远程地)可操作地连接的一个或多个数据库。所述一个或多个数据库可以包括存储参考光谱数据的数据库,所述数据库可以被所述光谱数据处理系统用来处理光谱数据。所述一个或多个数据库可以包括存储用户输入、训练数据、光谱数据、机器学习处理模型等的另一数据库。
在第四方面中,提供了第一或第二方面中的一个或多个机器学习处理模型。
在第五方面,提供了一种计算机程序产品,其包含第四方面的所述一个或多个机器学习处理模型。
在第六方面,提供了一种具有硬件和/或软件部件的计算机系统,其提供了用于执行第一方面的方法的各种装置。
通过考虑详细的描述和附图,本发明的其他特征和方面将变得显而易见。在适当和适用的情况下,本文中关于一个方面或实施方案描述的任何特征可以与本文中关于任何其他方面或实施方案描述的任何其他特征组合。
附图说明
将参考附图通过举例的方式描述本发明的实施方案,其中:
图1是本发明的一个实施方案中的包括光谱数据处理系统的系统的示意图;
图2是本发明的另一个实施方案中的包括光谱数据处理系统的系统的示意图;
图3是本发明的一个实施方案中的包括多个光谱数据处理系统的系统的示意图;
图4是本发明的另一个实施方案中的包括多个光谱数据处理系统的系统的示意图;
图5A是本发明的另一个实施方案中的包括光谱数据处理系统的系统的示意图;
图5B是本发明的另一个实施方案中的包括光谱数据处理系统的系统的示意图;
图6是本发明的一个实施方案中的光谱数据处理系统的功能框图;
图7是本发明的一个实施方案中的光谱数据处理系统中的机器学习控制器的功能框图;
图8是在本发明的一个实施方案中被布置成执行化学分析的机器学习控制器的示意图;
图9是本发明的一个实施方案中的用于操作光谱数据处理系统的方法的流程图;
图10是本发明的一个实施方案中的处理光谱数据的方法的流程图;
图11是本发明的一个实施方案中的处理光谱数据的方法的流程图;
图12A是本发明的一个实施方案中的机器学习控制器的框图;
图12B是本发明的另一个实施方案中的机器学习控制器的框图;以及
图13是本发明的一个实施方案中的信息处理设备的框图。
具体实施方式
图1示出了本发明的一个实施方案中的系统100。系统100包括光谱数据处理系统102,其经由通信网络106与服务器104可操作地连接。光谱数据处理系统102由硬件和/或软件部件实现,并且被布置成与用户交互以处理化学样品的光谱数据,以便于对化学样品进行分析。光谱数据可以本地地例如经由连接的化学分析系统或远程地从远程连接的化学分析系统或其他信息处理系统(智能电话、膝上型计算机、平板计算机、台式计算机等)而提供给光谱数据处理系统102。除其他部件外,光谱数据处理系统102还包括机器学习控制器108。机器学习控制器108被布置成使用(多个)机器学习处理模型来处理光谱数据。可以由光谱数据处理系统102或由另一系统基于与控制器108的处理相关联的用户输入来训练(多个)机器学习处理模型,如将在下面更详细地描述的。通过基于用户输入来训练(多个)机器学习处理模型,所述(多个)机器学习处理模型在分析化学样品的光谱数据方面可以变得更加准确或有效。在一个例子中,光谱数据处理系统102可以从服务器104获得用于促进对光谱数据的处理的数据。例如,服务器104可以存储已知化学物质或组分的各种标准样品光谱。光谱数据处理系统102可基于其光谱数据来检索这些数据以鉴定化学样品中的化学物质或组分。通信网络106可以提供光谱数据处理系统102与服务器104之间的有线(电缆、USB等)或无线(Wi-Fi、近场通信、蜂窝通信、ZigBee、RFID)通信链路。
图2示出了本发明的一个实施方案中的系统200。系统200包括具有与化学分析系统210本地连接的机器学习控制器208的光谱数据处理系统202。在该例子中,化学分析系统210是气相色谱-质谱仪,并且在其他实施方案中,它可以是可以生成与化学样品相关联的光谱数据的不同类型的化学分析系统。光谱数据处理系统202与图1的光谱数据处理系统102相似或大致相同,不同之处在于:光谱数据处理系统202与化学分析系统210本地连接。化学分析系统210的用户可以容易地访问光谱数据处理系统102以用于处理由化学分析系统210生成的光谱数据,因为这两个系统202、210位于彼此附近(例如,在相同的场所/位置中)或彼此相邻。机器学习控制器208具有与机器学习控制器108相似或大致相同的功能,所述机器学习控制器使用(多个)机器学习处理模型来处理化学样品的光谱数据,所述(多个)模型可以基于与控制器208的处理相关联的用户输入来得以训练,如将在下面更详细地描述的。光谱数据处理系统202与化学分析系统210可以经由有线(电缆、USB等)或无线(Wi-Fi、近场通信、蜂窝通信、ZigBee、RFID)通信链路来连接。
图3示出了本发明的一个实施方案中的系统300。系统300包括具有机器学习控制器308的光谱数据处理系统302、服务器304、和化学分析系统组件,它们经由通信网络306彼此可操作地连接。光谱数据处理系统302、机器学习控制器308、网络306和服务器304的操作和/或布置可以与图1中的光谱数据处理系统102、机器学习控制器108、网络106、和服务器104相似或大致相同。为简单起见,这里不再重复这些内容。化学分析系统组件包括被布置成彼此相邻且可操作地连接的化学分析系统310和光谱数据处理系统312。在该例子中,化学分析系统310是气相色谱-质谱仪,并且在其他实施方案中,它可以是可以生成与化学样品相关联的光谱数据的不同类型的化学分析系统。化学分析系统310的光谱数据处理系统312不包括机器学习控制器,因此其本身不包括任何基于机器学习的处理能力,但是可以经由网络306访问远程光谱数据处理系统302上的机器学习控制器308,以使用机器学习控制器308来处理由化学分析系统310生成的数据。化学分析系统310的光谱数据处理系统312可以充当虚设,即,简单地提供接口以访问远程光谱数据处理系统302。另外地或可替代地,化学分析系统310的光谱数据处理系统312可以能够在不使用任何基于机器学习的处理方法的情况下处理由系统310生成的光谱数据,并且可以在使用或不使用基于机器学习的处理方法的情况下访问服务器304中的数据库以获得对处理光谱数据有用的数据。在该实施方案中,光谱数据处理系统312的用户可以提供关于光谱数据的处理(使用或不使用机器学习处理模型的处理)的用户输入(例如,反馈),例如,处理是否/如何正确、准确、或足够准确;需要对数据和/或结果进行(多个)改变以提高处理的正确性或准确性或以其他方式获得比由系统312处理数据所提供的更有用的结果。用户输入、并且尤其是用户响应于系统的处理(使用或不使用机器学习)而提供的相关联的数据和信息可以用作训练数据(例如,在监督学习中的输入-输出对),以用于训练远程系统302中的机器学习控制器308的(多个)机器学习模型。
图4示出了本发明的一个实施方案中的系统400。系统400与图3中的系统300相似,不同之处在于:化学分析系统410的光谱数据处理系统402B还包括机器学习控制器408B。为简单起见,这里不再重复图3和图4的实施方案的相似之处。这两个机器学习控制器408A、408B都可以提供用于处理光谱数据的机器学习处理能力。在一个例子中,机器学习控制器408A、408B可以包括相同的(多个)机器学习处理模型或至少一些共同的(由两者共享的)(多个)机器学习处理模型。在另一个例子中,机器学习控制器408A、408B可以各自包括相应的(多个)机器学习处理模型,所述模型各自被适配用于处理相应类型或类别的光谱数据。化学分析系统410的光谱数据处理系统402B可以选择性地使用其机器学习控制器408B来处理光谱数据(如果考虑到光谱数据的属性(例如,类别、类型、大小、格式等)是合适的话),并且可以适当地访问远程光谱数据处理系统402A上的机器学习控制器408A以处理光谱数据。在一个例子中,远程光谱数据处理系统402A上的机器学习控制器408A可以是主控制器,并且化学分析系统410的机器学习控制器408B可以是由主控制器控制的从控制器。这两个光谱数据处理系统402A、402B及其相关联的机器学习控制器408A、408B可以经由网络406传送数据和信息,包括如上所述的用户输入和相关联的数据/信息。可以使用训练数据来训练机器学习控制器408A、408B的(多个)机器学习处理模型,所述训练数据包括与关于光谱数据的处理(使用或不使用机器学习处理模型的处理)的用户输入(例如,反馈)相关联的训练数据。
图5A示出了本发明的一个实施方案中的系统500。系统500与图3中的系统300相似(类似特征不重复描述),不同之处在于:在图5A中,多个化学分析系统组件经由网络506与服务器504和具有机器学习控制器508的光谱数据处理系统502可操作地连接。每个化学分析系统组件包括化学分析系统和本地光谱数据处理系统,其可以与图3的化学分析系统组件相似或大致相同。在该实施方案中,远程光谱数据处理系统502可以被不同的光谱数据处理系统访问,以用于处理由不同的化学分析系统生成的光谱数据。机器学习控制器508可以维护或操作一个或多个基于机器学习的处理模型,以用于处理从这些不同的光谱数据处理系统接收的光谱数据。在包括多个机器学习处理模型的一个例子中,机器学习控制器508基于用户选择、基于确定的数据属性、基于特定用户账户、基于访问控制器508的特定光谱数据处理系统等使用最受欢迎的机器学习处理模型来处理光谱数据。在该实施方案中,化学分析系统的光谱数据处理系统的用户可以各自提供关于光谱数据的相应处理(使用或不使用机器学习处理模型的处理)的用户输入(例如,反馈),例如,处理是否/如何正确、准确、或足够准确;需要对数据和/或结果进行(多个)改变以提高处理的正确性或准确性或以其他方式获得比由系统处理数据所提供的更有用的结果。从所有这些化学分析系统组件收集的用户输入、并且尤其是用户响应于系统的处理(使用或不使用机器学习)而提供的相关联的数据和信息中的全部可以用作训练数据(例如,在监督学习中的输入-输出对),以用于训练远程系统502中的机器学习控制器508的一个或多个机器学习处理模型。
图5B示出了本发明的一个实施方案中的系统500’。系统500’实质上是图4的系统400的修改,其中多个(而不是一个)化学分析系统组件各自包括相应的化学分析系统和具有机器学习控制器的本地光谱数据处理系统。每个化学分析系统组件与光谱数据处理系统502A’和机器学习控制器508A’的交互可以与图4中化学分析系统组件与光谱数据处理系统402A和机器学习控制器408A的交互相似或大致相同。在一个例子中,机器学习控制器508A’是控制或操作化学分析系统组件的机器学习控制器的主控制器。在该实施方案中,化学分析系统组件的每个机器学习控制器可以包括机器学习处理模型的单独的公共和私有集合:由两个或更多个系统共享的一个或多个唯一(未共享的)本地机器学习处理模型和/或一个或多个共享的机器学习处理模型。远程光谱数据处理系统502A’上的机器学习控制器508A’可以包括一个或多个全局机器学习处理模型,例如,从多个(例如,选定的)或所有的化学分析系统组件的用户输入和相关联的数据中学习的。在一个例子中,机器学习控制器508A’可以包括(多个)机器学习处理模型的集合,每个机器学习处理模型都适合于可根据需要由化学分析系统组件访问的相应任务(例如,化学品的类别、类型等)。在一个实施方案中,所有机器学习控制器都可以能够仅基于用户输入(本地地、来自一个或多个化学分析系统组件、全局地等)来学习和改进(多个)机器学习处理模型。
图6示出了在本发明的一个实施方案中的光谱数据处理系统(具有机器学习控制器)600的功能框图。图6中所展示的框是未界定结构的功能框并且可以通过硬件和/或软件部件/组合来实现。光谱数据处理系统(具有机器学习控制器)600可以对应于图1至图5B中的任何光谱数据处理系统(具有机器学习控制器)。
系统600包括:处理模块610,用于处理光谱数据;数据储存库,用于临时或永久地存储对处理模块610有用或由处理模块生成的各种数据;训练模块630,被布置成训练(多个)机器学习模型;输入/输出模块640,被布置成发送和/或接收信息或数据;以及数据格式转换模块650,用于转换待由处理模块610处理的光谱数据的格式。应当理解,可以省略一个或多个功能框,并且可以添加一个或多个另外的功能框,以提供光谱数据处理系统的不同实施方案。
在该实施方案中,处理模块610具有机器学习处理模块612和非机器学习处理模块614。机器学习处理模块612被布置成使用基于机器学习的处理模型(诸如存储在数据储存库620中的处理模型)或经由输入/输出模块640从外部设备接收的处理模型来处理光谱数据。机器学习处理模块612包括各种子模块,包括:峰值检测模块,被布置成对光谱数据进行峰值检测;峰值去卷积模块,被布置成对光谱数据的峰值进行去卷积;分割模块,被布置成对光谱数据进行分割;以及化学组分鉴定模块,被布置成鉴定与(多种)化学组分相关联的信息或(多种)化学组分的浓度。非机器学习处理模块614被布置成在不使用基于机器学习的方法的情况下处理光谱数据。例如,非机器学习处理模块614可以用于对光谱数据执行各种信号处理,诸如滤波、分割、阈值化、求平均、平滑化、填充、变换、缩放等。对化学样品的一组光谱数据的每个处理可以涉及仅使用机器学习的处理、仅使用非机器学习的处理、或两者。
数据储存库620存储用户输入数据、用于训练所述(多个)机器学习处理模型的训练数据、用于处理光谱数据的参考光谱数据、和(多个)机器学习模型。用户输入数据涉及由处理模块610执行的处理上的用户输入。例如,如果处理模块610产生的结果令用户满意(认为正确、准确或足够准确),则可以使用原始光谱数据和所得到的处理输出(例如,给定更多的权重)作为机器学习处理模型训练中的输入-输出对;如果处理模块610产生的结果令用户不满意(被认为不正确、不准确或不够准确),则用户可以对原始光谱数据和/或所产生的处理输出进行改变,并且可选地重新运行所述处理,以产生更新的光谱数据/处理输出。这些用户更新的光谱数据/处理输出然后可以被用作机器学习处理模型的训练中的输入-输出对。训练数据可以包括用于训练(多个)模型的数据。在一个实施方案中,可以基于化学样品的类别、应用等对数据进行分类,以用于不同机器学习模型的训练中。参考光谱数据被用作系统600的处理的一部分,以确定样品中化学组分的最可能的候选物(如光谱数据所指示的)。一个或多个机器学习处理模型可以存储在数据储存库620中,并且可以根据需要例如通过训练与系统600可操作地连接的外部设备或从所述外部设备检索来更新模型。
训练模块630被布置成选择或使用适当的训练数据(可选地具有合适的权重),以用于训练(多个)机器学习处理模型。输入/输出模块640可以用于与外部设备通信或者可以用于提供使用户能够与系统600交互以例如接收用于处理的光谱数据的用户界面,提供用于接收用户输入并且可选地使用户能够编辑储存库中的数据、向用户呈现处理输出等的用户界面。
数据格式转换模块650被布置成将光谱数据的格式转换成系统600可使用的格式。在一个例子中,数据格式转换模块650被布置成识别各种光谱数据格式并且被布置成将所述格式转换为系统600的默认优选格式。在一个例子中,数据格式转换模块650被布置成确定接收到的光谱数据的格式,并且在确定所述格式是专有格式时,将所述专有格式转换成默认的(例如,开放的)格式。通过转换专有格式(对于不同类型的化学分析系统或由不同制造商制造的相同类型的化学分析系统可能不同),在处理光谱数据之前,可以减少(如果不消除的话)例如由上述差异引起的不规则,当随后使用光谱数据(具有或不具有用户调整)来训练机器学习处理模型时,这提高了机器学习处理模型的性能。
图7示出了用于图6的系统600的替代处理模块700。处理模块700与处理模块610相似,具有非机器学习处理模块715和多个机器学习处理模块712A-712N,每个机器学习处理模块被布置用于特定的光谱数据处理任务。机器学习处理模块712A-712N各自可以或可以不包括类似于机器学习处理模块的子模块。每个机器学习处理模块可以与以下各项的光谱数据的处理相关联:相应类型或类别的化学样品、相应的化学分析系统、相应的地理位置、相应的用户(公司、个人等)。
图8是本发明的一个实施方案中的机器学习控制器(例如,图1至图6、图12A、图12B中的任何一个)的示例使用。在该实施方案中,具有机器学习处理模型的机器学习控制器被布置成估计以下中的至少一个:化学样品中的一种或多种或所有(每种)化学组分和/或相关联的信息;化学样品中的一种或多种或所有(每种)化学组分的浓度。机器学习控制器被布置成接收以下与光谱数据相关联中的一个或多个作为输入:峰值开始时间、峰值结束时间、峰值基线、化学样品的类型/类别、所需的背景去除、保留时间/指数、以及其他光谱属性/特性。机器学习处理模型被适配用于基于接收到的一个或多个输入来执行分类或回归(使用如本文所呈现的不同的机器学习模型)以确定输出。
图9至图11示出了用于操作光谱数据处理系统的示例性方法,诸如但不限于图1至图6中的任何一个图中的那些(例如,具有机器学习控制器)。应当注意的是,所述方法是示例性的并且只要修改是合乎逻辑的就可以重新排序(以其他方式调整)。
图9中的方法900主要涉及与处理化学样品的光谱数据相关联的用户输入的获得和使用。所述方法开始于步骤902,其中使用机器学习处理模型至少部分地处理化学样品的一组光谱数据。对光谱数据的处理可以完全基于机器学习处理模型,或者可替代地,部分地基于机器学习处理模型并且部分地基于以下中的一个或多个:其它机器学习处理模型或非机器学习处理,如本文(例如,关于图6至图8)所呈现的。作为另一个例子,所述处理可以包括使用机器学习处理模型执行以下中的至少一个:光谱信号分割;光谱峰值检测;光谱峰值去卷积;以及化学组分相关信息确定。可以基于所述光谱信号分割、光谱峰值检测和/或光谱峰值去卷积来执行所述化学组分相关信息确定。所述化学组分相关信息确定可以仅确定所述化学样品中的一种、仅确定部分或全部化学组分,并且可以包括以下中的一个或多个:化学组分类别鉴定;化学组分类型鉴定;化学组分鉴定;以及化学组分浓度确定。
然后,在步骤904中,处理结果例如经由诸如显示器的输出设备被提供给用户。处理结果可以呈现为与化学样品中包含的一种或一些或所有化学组分相关联的光谱数据或信息的至少一部分的图形表示(曲线图、光谱、表格、热图等),诸如(多种)化学组分的身份和/或每种化学组分的浓度。用户然后查看数据和结果,并且在步骤906中,确定他/她是否同意所述结果或者以其他方式认为结果是可接受的。
如果用户同意所述结果,则他/她被要求或可以提供正的用户输入,所述用户输入然后在步骤910中由光谱数据处理系统经由输入设备来接收。机器学习处理模型将基于接收到的用户输入(表示正反馈)而进行训练。在一个例子中,这涉及基于光谱数据和处理结果(与表示正反馈的用户输入相关联的)来训练机器学习处理模型。在一个例子中,与所述接收到的用户输入(表示正反馈)相关联的数据被保留、加权或以其他方式用于所述机器学习处理模型的后续训练中。
如果用户不同意所述结果,则他/她被要求或可以提供负的用户输入,所述用户输入然后在步骤908中由光谱数据处理系统经由输入设备来接收。取决于负的用户输入,所述方法可以返回到步骤904以重新处理数据,特别是当光谱数据被用户调整(与负的用户输入相关联)时。在一个例子中,用户输入与对光谱数据的调整和/或对处理结果的调整相关联,并且包括例如以下中的一个或多个:调整后的峰值开始时间;调整后的峰值结束时间;调整后的峰值基线;调整后的背景去除;调整后的保留时间;化学样品中化学组分的调整后的身份;以及化学样品中化学组分的调整后的浓度。在用户输入(表示负反馈)与对所述光谱数据的调整相关联的一个例子中,所述方法进一步包括至少部分地使用机器学习处理模型来处理调整后的光谱数据以确定更新的处理结果。调整后的光谱数据、光谱数据和/或更新后的处理结果可用于训练机器学习处理模型。在另一个例子中,表示负反馈的用户输入可以简单地是用户的拒绝命令或信息,在这种情况下,光谱数据和/或处理结果可以从训练集中移除,或者可以在随后的训练中被给予减小的权重。
在接收到用户输入(正或负)之后,在步骤912中,存储用户输入、特别是相关联的数据和信息,以用于机器学习处理模型的训练中。
在步骤914中,基于接收到的用户输入(特别是相关联的数据和信息)来训练机器学习处理模型。在已经接收到预定数量的用户输入之后,可以根据需要(例如,基于用户请求)等连续地(例如,每次接收到用户输入时)、定期地以规则或预定的时间间隔(每1小时、每天等)执行所述训练。
图10中的方法1000主要涉及对化学样品的光谱数据的处理。在步骤1002中,对光谱数据(例如光谱或色谱图)进行预处理。根据应用的需要,预处理可以包括基于非机器学习的处理,诸如分割、阈值化、求平均、平滑化、填充、变换、缩放等。然后,例如至少部分地使用基于机器学习的处理方法/机器学习处理模型来处理所述预处理的光谱数据,以在步骤1004中检测预处理的光谱或色谱图中的(多个)峰值、以在步骤1006中确定(多个)感兴趣峰值和相关联属性、以在步骤1008中鉴定与每个感兴趣峰值相关联的(多种)化学组分、并且以在步骤1010中确定每种鉴定的化学组分的浓度。步骤1004至步骤1010中的一个或多个可以基本同时地执行,可选地使用不同的机器学习处理模型或相同的机器学习处理模型。在步骤1006中,可以基于由用户设置的预定标准来确定感兴趣的峰值。在一个例子中,用户可以指定光谱中的感兴趣区域,使得光谱的其他区域不被处理(或者如果被处理,则不呈现给用户)。在步骤1012中,处理结果例如经由诸如显示器的输出设备被提供给用户。处理结果可以呈现为与化学样品中包含的一种或一些或所有化学组分相关联的光谱数据或信息的至少一部分的图形表示(曲线图、光谱、表格、热图等),诸如(多种)化学组分的身份和/或每种化学组分的浓度。用户然后查看数据和结果,并且在步骤1014中,确定他/她是否同意所述结果或者以其他方式认为结果是可接受的。
如果用户同意所述结果或以其他方式认为所述结果是可接受的,则所述方法完成。如果用户不同意所述结果或以其他方式认为所述结果是不可接受的,则他/她可以提供输入以调整光谱、色谱图、处理结果或任何其他设置。如果接收到用户输入(例如,对光谱或色谱图的调整或影响处理结果的任何其他设置/数据/信息),则在步骤1018中,至少部分地使用基于机器学习的处理方法/机器学习处理模型、使用更新的数据来执行处理。这可以涉及对更新的数据重复步骤1002至步骤1010中的一个或多个。在步骤1018之后,在步骤1020中将更新的处理结果提供给用户,在这种情况下,用户可以查看数据和结果,并返回到步骤1014,以确定他/她是否同意所述结果或以其他方式认为所述结果是可接受的。如果用户现在认为所述结果可接受,则所述方法完成,否则用户可以进一步调整光谱、色谱图、处理结果或任何其他设置,并重复步骤1016至步骤1020。
图11中的方法1100主要涉及在处理之前对光谱数据的格式转换。方法1100开始于步骤1102,其中系统接收化学样品的一组光谱数据。然后,在步骤1104中,系统确定接收到的光谱数据的格式。所述确定可以是基于光谱数据的文件的元数据来进行的,或者例如由提供数据的用户来指定的。在步骤1106中,确定接收到的光谱数据的格式是否是系统接受的默认接受(例如,开放)格式。如果所述格式被确定为开放格式,则所述方法进行到步骤1108,其中接收到的光谱数据被接受用于进一步处理。如果所述格式被确定为不是开放格式,则所述方法进行到步骤1110,以确定它是否是专有格式。如果在步骤1110中所述格式被确定为专有格式,则系统然后在步骤1112中将专有格式转换为默认接受的(例如,开放的)格式,并且然后到步骤1108以接受转换后的数据。如果在步骤1110中所述格式被确定为不是专有格式,则所述数据在步骤1114中被拒绝并且将不会被系统处理。当光谱数据的格式既不是默认接受的(例如,开放的)格式也不是可识别的和/或可转换的格式时,就会发生这种情况。
图12A和图12B示出了本发明的两个实施方案中的示例性机器学习控制器1200A、1200B。机器学习控制器1200A、1200B可以用作本文呈现的机器学习控制器(例如,在图1至图6中的任何一个图中)。机器学习控制器1200A包括处理器1020A和存储机器学习处理模型的存储器1204A;机器学习控制器1200A包括处理器1020A和存储多个机器学习处理模型的存储器1204A,每个机器学习处理模型被适配用于特定任务。处理器1202A、1202B可以由以下中的一个或多个形成:CPU、MCU、控制器、逻辑电路、树莓派芯片、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或被配置成解译和/或执行程序指令和/或处理信息和/或数据的任何其他数字或模拟电路。存储器1204A、1204B可以包括一个或多个易失性存储器单元(诸如RAM、DRAM、SRAM)、一个或多个非易失性存储器单元(诸如ROM、PROM、EPROM、EEPROM、FRAM、MRAM、闪存、SSD、NAND和NVDIMM),或者它们的任何组合。
机器学习控制器1200A、1200B被配置成初始化、构造、训练和/或操作一个或多个机器学习处理模型(例如,算法)。在该实施方案中,可以基于监督学习来初始化、构造、训练和/或操作(多个)机器学习处理模型。机器学习控制器1200A、1200B可以呈现有例如由示例输入和它们的实际输出形成的示例输入-输出对,以学习基于所提供的示例输入-输出对将输入映射到输出的通用规则或模型。可以使用不同的机器学习方法、输入数据、输出数据等以不同的方式训练(多个)不同的机器学习处理模型,以适应特定的任务。
机器学习控制器可以被配置成使用各种机器学习方法来执行机器学习。例如,机器学习控制器可以使用不同的基于机器学习的模型、递归模型或非递归模型来实现机器学习程序。这些可以包括例如递归神经网络、长短期记忆模型、马尔可夫过程、强化学习、门控递归单元模型、深度神经网络、卷积神经网络(例如,Unet)、支持向量机、主成分分析、逻辑回归、决策树/森林,集成方法(组合模型)、回归(贝叶斯/多项式/回归)、随机梯度下降、线性判别分析、最近邻分类或回归、朴素贝叶斯等。
可以训练每个机器学习处理模型以执行特定的光谱处理或分类任务。例如,机器学习控制器可以被训练为基于输入光谱数据鉴定与光谱数据相关联的化学样品中的(多种)估计化学组分和/或相关联信息;与光谱数据相关联的化学样品中的(多种)化学组分的估计浓度;等。作为另一个例子,可以训练机器学习控制器以在估计(多种)化学组分和/或相关联信息或浓度之前基于输入光谱数据来鉴定峰值去卷积、数据中的峰值、所需的背景去除。针对其训练相应机器学习处理模型的任务可以基于例如化学样品的类别或类型、用户选择、用户输入、用户(个人/公司)账户、化学分析系统的类型或类别或模型或位置、相关的应用等而变化。不同机器学习处理模型的训练可以不同。例如,用于训练机器学习处理模型的训练例子/数据可以包括不同的信息,并且可以基于待由机器学习处理模型执行的任务而具有不同的维度。
通常,将训练例子提供给机器学习控制器,并且机器学习控制器使用它们来生成或训练模型(例如,规则、方程组等),即机器学习处理模型,这有助于基于新的输入数据对输出进行分类或估计。机器学习控制器可以以不同的方式对不同的训练例子进行加权,以例如对不同的条件或输出进行优先级排序。例如,由光谱数据处理系统的用户提供的用户输入和相关联的数据或信息可以被加权得更重。在一个例子中,如果光谱数据的处理产生了用户认为满意的结果(如用户输入所指示的),则这样的输入光谱数据和输出结果可以在对应的机器学习处理模型的后续训练中被更多地加权,如果光谱数据的处理产生了用户认为不满意的结果(如用户输入所指示的),则由用户调整的这样的光谱数据和/或输出结果可被存储并在对应的机器学习处理模型的后续训练中使用。可选地,导致用户不满意的输入光谱数据和输出结果将在对应的模型的后续训练中被丢弃或给予较少的权重。
在一个实施方案中,人工神经网络由机器学习控制器来实现。人工神经网络典型地包括彼此可操作地连接的输入层、多个隐藏层或节点、以及输出层。输入的数量可基于特定任务而变化。因此,基于机器学习控制器的特定任务,机器学习控制器的(或不同模型的)人工神经网络的输入层可以具有不同数量的节点。隐藏层的数量不同并且可取决于机器学习控制器/模型的特定任务。每个隐藏层可以具有不同数量的节点,并且可以以不同的方式连接到相邻层。例如,所述输入层的每个节点可以连接到第一隐藏层的每个节点,并且所述连接可以各自被分配相应的权重参数。在一个例子中,神经网络的每个节点也可以被分配偏置值。第一隐藏层的节点可以不连接到第二隐藏层的每个节点,并且再次,所述连接各自被分配相应的权重参数。隐藏层的每个节点可以与激活函数相关联,所述激活函数定义隐藏层如何处理从输入层或从先前的隐藏层(上游)接收的输入。这些激活函数可以不同。每个隐藏层可以执行不同的功能。例如,某些隐藏层可以是卷积隐藏层,用于降低输入的维数,而其他隐藏层可以执行更多统计功能,诸如求平均、最大池化等。最后一个隐藏层连接到输出层,输出层通常具有与可能的输出相同数量的节点。在训练期间,人工神经网络接收训练例子的输入,并使用每个节点的偏置以及每个节点之间的连接和对应的权重来生成输出。人工神经网络然后将生成的输出与训练例子的实际输出进行比较。基于生成的输出和训练例子的实际输出,神经网络改变与每个节点连接相关联的权重。在一些实施方案中,神经网络还在训练期间改变与每个节点相关联的权重。训练继续,直到例如使用了预定数量的训练例子、在训练和验证期间达到了某准确度阈值、完成了预定数量的验证迭代等。可以使用不同类型的训练算法(诸如上面列出的那些)来基于训练例子调整节点连接的偏置值和权重。
图13示出了本发明的一个实施方案中的示例性信息处理系统1300,其可以用作服务器或其他信息处理系统,诸如但不限于如图1至图6中任何一个图中的光谱数据处理系统(具有或不具有远程的或与化学分析系统相关联的机器学习控制器)和服务器中的一个或多个或全部。信息处理系统1300可以具有不同的配置,并且它通常包括接收、存储和执行适当的计算机指令、命令或代码所必需的合适部件。信息处理系统1300的主要部件是处理器1302和存储器1304。处理器1302可以由以下中的一个或多个形成:CPU、MCU、控制器、逻辑电路、树莓派芯片、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或被配置成解译和/或执行程序指令和/或处理信息和/或数据的任何其他数字或模拟电路。存储器1304可以包括一个或多个易失性存储器单元(诸如RAM、DRAM、SRAM)、一个或多个非易失性存储器单元(诸如ROM、PROM、EPROM、EEPROM、FRAM、MRAM、闪存、SSD、NAND和NVDIMM),或者它们的任何组合。可选地,信息处理系统1300进一步包括一个或多个输入设备1306,诸如键盘、鼠标、触控笔、图像扫描仪、麦克风、触觉输入设备(例如,触敏屏)、以及图像/视频输入设备(例如,相机)。可选地,信息处理系统1300进一步包括一个或多个输出设备1308,诸如一个或多个显示器(例如,监视器)、扬声器、磁盘驱动器、头戴式耳机、耳机、打印机、3D打印机等。显示器可以包括LCD显示器、LED/OLED显示器、或可以是或可以不是触敏的任何其他合适的显示器。信息处理系统1300可以进一步包括一个或多个磁盘驱动器1312,其可以包括固态驱动器、硬盘驱动器、光盘驱动器、闪存驱动器和/或磁带驱动器。合适的操作系统可以安装在信息处理系统1300中,例如,在磁盘驱动器1312上或在存储器1304中。存储器1304和磁盘驱动器1312可以由处理器1302操作。可选地,信息处理系统1300还包括通信设备1310,用于与一个或多个其他计算设备(诸如服务器、个人计算机、终端、平板计算机、电话或其他无线或手持式计算设备)建立一个或多个通信链路(未示出)。通信设备1310可以是调制解调器、网络接口卡(NIC)、集成网络接口、射频收发器、光学端口、红外端口、USB连接、或其他有线或无线通信接口。通信链路可以是有线的或无线的,用于传送命令、指令、信息和/或数据。在一个例子中,处理器1302、存储器1304、以及可选地(多个)输入设备1306、(多个)输出设备1308、通信设备1310和磁盘驱动器1312通过总线、诸如PCIExpress的外围部件互连(PCI)、通用串行总线(USB)、光学总线或其他类似的总线结构彼此连接。在一个实施方案中,这些部件中的一些可以通过诸如因特网或云计算网络的网络连接。本领域技术人员将理解,图13中示出的信息处理系统1300仅仅是示例性的,并且具有不同配置的不同信息处理系统1300可以能够应用于本发明的实施方案中。
有利地,本发明提供了一种光谱数据处理系统,所述光谱数据处理系统从不同的用户(例如,化学家、科学家、研究人员)学习光谱数据应该如何被处理并使用所学习的知识来处理光谱数据。所述系统可以可选地基于光谱数据所涉及的材料的属性从一个或多个用户获取反馈(例如,随着时间的推移来自相同用户、来自相同或不同地理位置的不同用户等)。所述系统通常可以基于用户反馈随着时间的推移提高其光谱数据处理效率、速度和/或准确性。在一些实现方式中,所述系统能够实现或促进不同用户(例如,化学家、科学家、研究人员)的协作,而不管用于获得光谱数据的光谱仪的类型、型号、配置、制造商和/或操作条件如何。
尽管不是必需的,但是参考附图描述的实施方案可以被实现为应用程序编程接口(API)或被实现为供开发者使用的一系列库,或者可以被包括在另一软件应用中,诸如终端或个人计算机操作系统或便携式计算设备操作系统。通常,由于程序模块包括例程、程序、对象、组件和有助于执行特定功能的数据文件,因此技术人员将理解,软件应用的功能可以分布在多个例程、对象或组件上,以实现本文所期望的相同功能。
还将理解,在本发明的方法和系统完全地由计算系统实现或部分地由计算系统实现的情况下,可以利用任何适当的计算系统架构。这将包括独立式计算机、网络计算机、专用或非专用硬件设备。在使用术语“计算系统”和“计算设备”的情况下,这些术语旨在包括能够实现所描述的功能的计算机或信息处理硬件的任何适当布置。
在一个实现方式中,(多个)光谱数据处理系统和/或(多个)机器学习控制器布置在一个或多个云计算网络上。在另一个实现方式中,(多个)光谱数据处理系统和/或(多个)机器学习控制器布置在一个或多个边缘计算网络(边缘网络)上。在又一个实现方式中,(多个)光谱数据处理系统和/或(多个)机器学习控制器布置在边缘应用上布置的一个或多个专用网络上。在一些其他实施方案中,可以使用其他基于非云或非边缘的网络。网络的选择可以基于安全要求或特定应用。
本领域技术人员应理解,在不偏离广泛描述且要求保护的本发明的范围的情况下,可以对如具体实施方案所示的发明做出众多的变化和/或修改。每个实施方案可以包括如所描述的另外的或更少的功能特征或结构特征。不同实施方案中的特征可以被选择性地组合、分组、重新分组等,以提供新的实施方案,只要得到的组合是合乎逻辑且可行的。
在以上实施方案的一个实现方式中,本发明可用于通过保留指数和质谱来鉴定峰值,并基于峰值去卷积和基线预测来确定浓度。通过使用机器学习进行峰值去卷积等、通过使用具有学习能力的神经网络和算法方法来处理光谱数据、和/或通过从用户交互中学习而进行的光谱数据分析可以随着时间的推移在各种任务上变得更加准确且“智能”,所述各种任务包括但不限于峰值检测(开始/结束时间=基线)、质谱比较前的背景去除以鉴定样品中的(多种)化学组分、以及通过质谱法确认物质。
本发明的所述实施方案因此在所有方面都应该被认为是说明性的,而不是限制性的。所述化学分析系统可以是被布置成产生化学样品的光谱数据的任何系统,包括:气相色谱仪、液相色谱仪、质谱仪(诸如气相色谱-质谱仪或液相色谱-质谱仪)。光谱数据可以是色谱图或质谱的数据。在一个具体应用中,化学样品可以包括邻苯二甲酸酯,并且机器学习处理模型可以特别地被适配用于处理与邻苯二甲酸酯相关联的光谱数据。

Claims (33)

1.一种用于操作光谱数据处理系统的方法,所述方法包括:
接收与至少部分地使用机器学习处理模型处理化学样品的光谱数据相关联的用户输入,所述机器学习处理模型被布置在所述光谱数据处理系统的机器学习控制器中;以及
存储所述接收到的用户输入,以用于基于所述接收到的用户输入来训练所述机器学习处理模型。
2.根据权利要求1所述的方法,其进一步包括:基于所述接收到的用户输入来训练所述机器学习处理模型。
3.根据权利要求1或2所述的方法,其进一步包括:在接收所述用户输入之前:
至少部分地使用所述机器学习处理模型来处理所述光谱数据以提供处理结果,其中,所述处理包括使用所述机器学习处理模型来执行以下中的一个或多个:
光谱信号分割;
光谱峰值检测;
光谱峰值去卷积;以及
化学组分相关信息确定。
4.根据权利要求3所述的方法,其中,基于所述光谱信号分割、所述光谱峰值检测和/或所述光谱峰值去卷积来执行所述化学组分相关信息确定。
5.根据权利要求3或4所述的方法,其中,所述化学组分相关信息确定包括以下中的一个或多个:
化学组分类别鉴定;
化学组分类型鉴定;
化学组分鉴定;以及
化学组分浓度确定。
6.根据权利要求1至5中任一项所述的方法,其进一步包括:在接收所述用户输入之前:
提供对所述光谱数据的处理的处理结果,其中,提供所述处理结果包括提供以下中的至少一个:
所述光谱数据的至少一部分的图形表示;以及
与所述化学样品中包含的至少一种化学组分相关联的信息。
7.根据权利要求6所述的方法,其中,与所述至少一种化学组分相关联的信息包括:
所述至少一种化学组分的身份和/或所述至少一种化学组分中的每一种组分的浓度。
8.根据权利要求3至7中任一项所述的方法,其进一步包括:在所述处理之前:
从布置在所述机器学习控制器中的多个机器学习处理模型中选择所述机器学习处理模型,
其中,所述多个机器学习处理模型中的每个相应的机器学习处理模型与相应类型或类别的化学样品相关联,并且所述选择是基于所述化学样品的类型或类别。
9.根据权利要求3至8中任一项所述的方法,其中,所述用户输入表示对所述处理结果的正反馈。
10.根据权利要求9所述的方法,其进一步包括基于所述接收到的用户输入来训练所述机器学习处理模型,所述训练包括:
基于所述光谱数据和所述处理结果来训练所述机器学习处理模型。
11.根据权利要求3至10中任一项所述的方法,其中,所述用户输入表示对所述处理结果的负反馈。
12.根据权利要求11所述的方法,其中,所述用户输入与对所述光谱数据的调整和/或对所述处理结果的调整相关联,其中,所述用户输入包括以下中的一个或多个:
调整后的峰值开始时间;
调整后的峰值结束时间;
调整后的峰值基线;
调整后的背景去除;
调整后的保留时间;
所述化学样品中的化学组分的调整后的身份;以及
所述化学样品中的化学组分的调整后的浓度。
13.根据权利要求11所述的方法,其中,所述用户输入与对所述光谱数据的调整相关联,并且
所述方法进一步包括:
至少部分地使用所述机器学习处理模型来处理所述调整后的光谱数据,以确定更新的处理结果;并且
其中,所述基于所述接收到的用户输入来训练所述机器学习处理模型包括:
基于调整后的光谱数据和更新后的处理结果来训练所述机器学习处理模型。
14.根据权利要求1至13中任一项所述的方法,其中,所述机器学习处理模型包括人工神经网络。
15.根据权利要求3至14中任一项所述的方法,其进一步包括:在所述处理之前:
确定所述光谱数据的格式;以及
如果确定所述光谱数据的格式是专有格式,则将所述光谱数据的格式从所述专有格式转换为开放格式。
16.根据权利要求1至15中任一项所述的方法,其进一步包括:
接收一个或多个另外的用户输入,每个用户输入与使用所述机器学习处理模型对相应化学样品的相应光谱数据的相应处理相关联;
存储所述一个或多个接收到的另外的用户输入,以用于基于所述一个或多个接收到的另外的用户输入来训练所述机器学习处理模型;
基于所述一个或多个接收到的另外的用户输入来训练所述机器学习处理模型;
其中,训练所述机器学习处理模型包括:
周期性地训练所述机器学习处理模型;或者
在已经接收到预定数量的用户输入之后,训练所述机器学习处理模型。
17.根据权利要求1至16中任一项所述的方法,其中,所述光谱数据是色谱图或质谱的数据,并且其中,所述光谱数据处理系统与化学分析系统相关联。
18.根据权利要求17所述的方法,
其中,所述化学分析系统包括气相色谱仪或液相色谱仪,并且所述光谱数据包括化学样品的色谱图的数据;或者
其中,所述化学分析系统包括质谱仪,并且所述光谱数据包括化学样品的质谱的数据。
19.一种光谱数据处理系统,其包括:
一个或多个处理器,其被布置成:
接收与至少部分地使用机器学习处理模型处理化学样品的光谱数据相关联的用户输入;以及
基于所述接收到的用户输入来训练所述机器学习处理模型。
20.根据权利要求19所述的光谱数据处理系统,其进一步包括具有所述机器学习处理模型的机器学习控制器;所述机器学习控制器包括所述一个或多个处理器。
21.根据权利要求19或20所述的光谱数据处理系统,其中,所述一个或多个处理器进一步被布置成:
至少部分地使用所述机器学习处理模型来处理所述光谱数据以提供处理结果,
其中,所述一个或多个处理器进一步被布置成使用所述机器学习处理模型执行以下中的一个或多个:
光谱信号分割;
光谱峰值检测;
光谱峰值去卷积;以及
化学组分相关信息确定,
其中,所述化学组分相关信息确定包括以下中的一个或多个:
化学组分类别鉴定;
化学组分类型鉴定;
化学组分鉴定;以及
化学组分浓度确定。
22.根据权利要求19至21中任一项所述的光谱数据处理系统,其进一步包括被布置成提供对所述光谱数据的处理的处理结果的输出设备。
23.根据权利要求20至22中任一项所述的光谱数据处理系统,其中,所述一个或多个处理器进一步被布置成:
从布置在所述机器学习控制器中的多个机器学习处理模型中选择所述机器学习处理模型或接收对所述机器学习处理模型的选择,
其中,所述多个机器学习处理模型中的每个相应的机器学习处理模型与相应类型或类别的化学样品相关联,并且所述选择是基于所述化学样品的类型或类别。
24.根据权利要求21至23中任一项所述的光谱数据处理系统,其中,所述用户输入表示对所述处理结果的正反馈,并且其中,所述一个或多个处理器被布置成:至少通过基于所述光谱数据和所述处理结果来训练所述机器学习处理模型,基于所述接收到的用户输入来训练所述机器学习处理模型。
25.根据权利要求21至23中任一项所述的光谱数据处理系统,其中,所述用户输入表示对所述处理结果的负反馈,并且其中,所述用户输入与对所述光谱数据的调整和/或对所述处理结果的调整相关联。
26.根据权利要求25所述的光谱数据处理系统,其中,所述用户输入包括以下中的一个或多个:
调整后的峰值开始时间;
调整后的峰值结束时间;
调整后的峰值基线;
调整后的背景去除;
调整后的保留时间;
所述化学样品中的化学组分的调整后的身份;以及
所述化学样品中的化学组分的调整后的浓度。
27.根据权利要求25所述的光谱数据处理系统,其中,所述用户输入与对所述光谱数据的调整相关联,并且
其中,所述一个或多个处理器被布置成:
至少部分地使用所述机器学习处理模型来处理所述调整后的光谱数据,以确定更新的处理结果。
28.根据权利要求27所述的光谱数据处理系统,其中,所述一个或多个处理器被布置成:至少通过基于所述调整后的光谱数据和所述更新的处理结果来训练所述机器学习处理模型,基于所述接收到的用户输入来训练所述机器学习处理模型。
29.根据权利要求19至28中任一项所述的光谱数据处理系统,其中,所述机器学习处理模型包括人工神经网络。
30.根据权利要求21至29中任一项所述的光谱数据处理系统,其中,所述一个或多个处理器被布置成:
确定所述光谱数据的格式;
如果确定所述光谱数据的格式为专有格式,则将所述光谱数据的格式从所述专有格式转换为开放格式;
接收一个或多个另外的用户输入,每个用户输入与使用所述机器学习处理模型对相应化学样品的相应光谱数据的相应处理相关联;以及
基于所述一个或多个接收到的另外的用户输入来训练所述机器学习处理模型。
31.根据权利要求30所述的光谱数据处理系统,其中,所述一个或多个处理器被布置成周期性地训练所述机器学习处理模型;或者其中,所述一个或多个处理器被布置成在已经接收到预定数量的用户输入之后训练所述机器学习处理模型。
32.根据权利要求19至31中任一项所述的光谱数据处理系统,其中,所述光谱数据是色谱图或质谱的数据;或者其中,所述光谱数据处理系统与化学分析系统相关联。
33.根据权利要求32所述的光谱数据处理系统,其中,所述化学分析系统包括气相色谱仪或液相色谱仪,并且所述光谱数据包括化学样品的色谱图的数据;或者其中,所述化学分析系统包括质谱仪,并且所述光谱数据包括化学样品的质谱的数据,其中,所述质谱仪为气相色谱-质谱仪或液相色谱-质谱仪。
CN202180082950.1A 2020-12-17 2021-10-27 用于化学分析的光谱数据处理 Pending CN116648614A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
HK32020022285 2020-12-17
HK32020022285.1 2020-12-17
PCT/CN2021/126679 WO2022127391A1 (en) 2020-12-17 2021-10-27 Spectral data processing for chemical analysis

Publications (1)

Publication Number Publication Date
CN116648614A true CN116648614A (zh) 2023-08-25

Family

ID=82024064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180082950.1A Pending CN116648614A (zh) 2020-12-17 2021-10-27 用于化学分析的光谱数据处理

Country Status (5)

Country Link
US (1) US20220198326A1 (zh)
EP (1) EP4264238A1 (zh)
CN (1) CN116648614A (zh)
AU (1) AU2021398869A1 (zh)
WO (1) WO2022127391A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11908670B2 (en) 2022-05-16 2024-02-20 Thermo Finnigan Llc Systems and methods of ion population regulation in mass spectrometry
US20240128100A1 (en) * 2022-10-14 2024-04-18 Applied Materials, Inc. Methods and systems for a spectral library at a manufacturing system
CN116502117B (zh) * 2023-04-13 2023-12-15 厦门市帕兰提尔科技有限公司 一种基于ResNet的危险化学品识别方法、装置以及设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6907107B1 (en) * 1999-03-16 2005-06-14 Qinetiq Limited Method and apparatus for the analysis of material composition
US20030055921A1 (en) * 2001-08-21 2003-03-20 Kulkarni Vinay Vasant Method and apparatus for reengineering legacy systems for seamless interaction with distributed component systems
EP1992939A1 (en) * 2007-05-16 2008-11-19 National University of Ireland, Galway A kernel-based method and apparatus for classifying materials or chemicals and for quantifying the properties of materials or chemicals in mixtures using spectroscopic data.
US20150355190A1 (en) * 2014-06-09 2015-12-10 Evol Science LLC Compositions and Methods of Analysis
CN108956583A (zh) * 2018-07-09 2018-12-07 天津大学 用于激光诱导击穿光谱分析的特征谱线自动选择方法
CN110161013B (zh) * 2019-05-14 2020-12-29 上海交通大学 基于机器学习的激光诱导击穿光谱数据处理方法和系统
CN110161532B (zh) * 2019-05-30 2021-03-23 浙江大学 一种基于多波长激光雷达反演气溶胶微物理特性的方法

Also Published As

Publication number Publication date
EP4264238A1 (en) 2023-10-25
AU2021398869A1 (en) 2023-07-20
US20220198326A1 (en) 2022-06-23
WO2022127391A1 (en) 2022-06-23

Similar Documents

Publication Publication Date Title
CN116648614A (zh) 用于化学分析的光谱数据处理
EP3467723B1 (en) Machine learning based network model construction method and apparatus
US20190294925A1 (en) Systems and methods for intelligently curating machine learning training data and improving machine learning model performance
US20190279044A1 (en) Machine learning artifical intelligence system for identifying vehicles
US8196066B1 (en) Collaborative gesture-based input language
CN109471944B (zh) 文本分类模型的训练方法、装置及可读存储介质
CN109409533B (zh) 一种机器学习模型的生成方法、装置、设备及存储介质
CA3109481A1 (en) Identification and application of hyperparameters for machine learning
US11562179B2 (en) Artificial intelligence system for inspecting image reliability
CN111291819A (zh) 图像识别方法、装置、电子设备及存储介质
AU2020348209B2 (en) Using machine learning algorithms to prepare training datasets
US20230084638A1 (en) Method and apparatus for classification model training and classification, computer device, and storage medium
CN110232154B (zh) 基于随机森林的产品推荐方法、装置及介质
CN110717806B (zh) 产品信息推送方法、装置、设备及存储介质
CN112148766A (zh) 利用人工神经网络模型进行数据抽样的方法和系统
CN114187979A (zh) 数据处理、模型训练、分子预测和筛选方法及其装置
CN110717407A (zh) 基于唇语密码的人脸识别方法、装置及存储介质
CN116721713B (zh) 一种面向化学结构式识别的数据集构建方法和装置
CN110879821A (zh) 评分卡模型衍生标签生成方法、装置、设备及存储介质
CN111091585B (zh) 一种目标跟踪方法、设备及存储介质
WO2022147003A1 (en) An adaptive machine learning system for image-based biological sample constituent analysis
CN116226260B (zh) 一种大数据决策方法、系统及云端服务中心
CN115345299A (zh) 模型训练方法、装置、计算机设备及存储介质
CN116783579A (zh) 自动化样本分析器
Arias A convex optimization algorithm for sparse representation and applications in classification problems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination