CN103959292A - 用于近红外光谱分析的化学计量 - Google Patents

用于近红外光谱分析的化学计量 Download PDF

Info

Publication number
CN103959292A
CN103959292A CN201280057729.1A CN201280057729A CN103959292A CN 103959292 A CN103959292 A CN 103959292A CN 201280057729 A CN201280057729 A CN 201280057729A CN 103959292 A CN103959292 A CN 103959292A
Authority
CN
China
Prior art keywords
plant
data
sample
feature
interested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201280057729.1A
Other languages
English (en)
Inventor
R.派
D.Z.卡拉维洛
C.卡尔
D.加西亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Corteva Agriscience LLC
Original Assignee
Dow AgroSciences LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dow AgroSciences LLC filed Critical Dow AgroSciences LLC
Publication of CN103959292A publication Critical patent/CN103959292A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/3563Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2201/00Features of devices classified in G01N21/00
    • G01N2201/12Circuits of general importance; Signal processing
    • G01N2201/129Using chemometrical methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions

Landscapes

  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • General Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明涉及用于鉴定和选择更准确的化学计量模型以经由近红外光谱测量学来分析特定植物样品的系统和方法。本公开还涉及使用这类系统和方法来鉴定植物和植物样品中感兴趣的特征和性状,例如从而协助选择性育种、质量控制和/或存量控制。

Description

用于近红外光谱分析的化学计量
优先权声明
本申请要求2011年9月23日提交的美国临时专利申请系列号61/538,662的权益。
发明领域
本公开涉及用于分析对应于植物性状和特征的近红外光谱数据的系统和方法。本公开的各方面涉及用于开发和鉴定特别适用于从近红外光谱数据辨识感兴趣植物性状的化学计量分析的方法。本公开的一些方面涉及使用全局的、自动化的系统和方法,例如但不限于,从获自多种植物的近红外光谱数据选择包含感兴趣的性状或特征的植物。
发明背景
近红外光谱学(NIRS)采用光子能量来从化学或生物学样品收集能量范围为约650至2500nm的信息(Bokobza(2002)“Origin of near infraredabsorption bands,”于:Near-Infrared Spectroscopy:Principles,Instruments,Applications,Siesler等编,Weinheim,Germany:Wiley-VCH Verlag GmbH;Pasquini(2003)J.Brazilian Chem.Soc.14:198-219)。来自生物学样品的NIRS数据以透射(transmission)或反射计数的形式获得,它是通过样品中O-H、C-H、N-H和S-H化学键的拉伸和弯曲振动测定的。Miller(2001)“Chemicalprinciples of near infrared technology,”于:Near Infared Technology in theAgricultural and Food Industries,Norris和Williams编,St.Paul,MN,U.S.A.:American Association of Cereal Chemists,Inc.;Siesler(2002)“Introduction,”于:Near Infared Spectroscopy:Principles,Instruments,Applications,见上。
在NIRS中,将要测量的样品用近红外(NIR)辐射照射。当NIR辐射穿透样品时,入射光的光谱学属性由于波长依赖性散射和吸收过程而变化,这是由样品的化学组成所决定的(例如,前述O-H、C-H、N-H和S-H化学键的数目和环境)。光谱学属性中的这些变化还取决于光散射属性。例如,近红外反射比光谱学对于颗粒大小和颗粒大小分布中的变化敏感。磨碎谷物谷粒(cereal grain)的颗粒大小随着硬度增加而增加,因此硬谷物面粉比软面粉具有更高的表观吸收值。还有,颗粒大小中的变化导致样品中分散的NIR辐射量中的变化,由此导致所得吸收光谱中的移位。另外,较大的颗粒吸收更多的辐射,如此,较大颗粒的吸收光谱将含有比较小颗粒的吸收光谱更高的值。Pomeranz和Williams(1990)“Wheat hardness:its genetic,structural,andbiochemical background,measurement,and significance,”于:Advances inCereal Science and Technology,Pomeranz,Ed.,St.Paul,MN,U.S.A.:AmericanAssociation of Cereal Chemists,Inc.,pp.471-529.;Hruschka(2001)“Dataanalysis:wavelength selection methods,”于:Near-infrared technology in theagriculture and food industries,见上,pp.39-58。
NIRS已用于对农业产物中的组成进行定量测定。参见例如,Williams等(1982)Cereal Chem.59:473-7;Williams等(1985)J.Agric.Food Chem.33:239-44;Williams和Sobering(1993)J.Near Infared Spectrosc.1:25-32。在谷物中,NIRS已应用于测定质量,包括:玉米的种子组成(参见例如,Eyherabide等(1996)Cereal Chem.73:775-8;Baye等(2006)J.Cereal Sci.43:236-43),例如,种子样品的油、蛋白质、纤维、叶绿素和芥子油苷含量;谷物硬度(Downey等(1986)J.Sci.Food Agric.37:762-6;Norris等(1989)Cereal Foods World34:696-705;Osborne(1991)Postharvest News Inform.2:331-4;Manley等(2002)J.Near Infared Spectrosc.10:71-6);和成熟期间谷物糖类和蛋白质含量中的变化(Gergely和Salgo(2005)J.Near Infared Spectrosc.13:9-17;Gergely和Salgo(2007)J.Near Infared Spectrosc.15:49-58)。
最近一些年中,将NIRS用于别的应用,如例如,检测食物产品中的动物废料(Liu等(2007)J.Food Eng.81:412-8);测定烘焙咖啡中的脂质(Pizarro等(2004)Anal.Chim.Acta509:217-27);验证含酒精饮料中的掺假(Pontes等(2006)Food Res.Inter.39:182-9);监测聚合物挤压工艺(Rohe等(1999)Talanta50:283-90);药学应用(Quaresima等(2003)J.Sports Med.Phys.Fitness43:1-13;Zhou等(2003)J.Pharm.Sci.92:1058-65;Colón等(2005)J.ProcessAnal.Tech.2:8-15;Blanco和Alcalá(2006)Euro.J.Pharm.Sci.27:280-6;Sakudo等(2006)Biochem.Biophys.Commun.341:279-84);和食品分析(Osborne(2000)“Near-infrared spectroscopy in food analysis,”于:Encyclopedia of Analytical Chemistry,Meyers,Ed.,Chichester:John Wiley&Sons,pp.4069-81),以及通常不相关领域中的众多其他应用,如例如石油化学品分析(Davidson等(1992)Proc.S.P.I.E.1681:231-5;Macho和Larrechi(2002)Trends Anal.Chem.21:799-806)。
农业产物样品的NIR光谱基本由一大组谐波或组合谱带组成。由于大多数农业样品的复杂性,这些光谱极其难以解译。一般地,食品成分的NIR光谱显示含有重叠吸收的包络线(envelope)的宽条带。Osborne等(1993)Practical NIRSpectroscopy with Applications in Food and Beverage Analysis,Harlow,England:Longman Scientific&Technical。农业产品样品的光谱可能由波长依赖性的散射效应、仪器噪音、温度影响和/或样品异质性进一步复杂化。等(2007)Postharvest Biol.Tech.46:99-118。这些影响使得难以将特定的吸收带归属于特定的样品组分和官能团。因此,需要使用特定化学计量技术的多变量数据分析来提取掩藏在自NIR测量得到的光谱数据中的相关信息。
化学计量学是通过数据驱动的方法从化学系统提取信息的科学。Beebe等(1998)Chemometrics:a Practical Guide,NY,U.S.A.:John Wiley&Sons,Inc.,pp.1-8和26-55。多变量化学计量分析牵涉提取关于分析的样品和感兴趣变量的相关信息,由此能将该信息简化为更少数量的项,和基本由噪音组成的残余量,因而可以更容易地分析该信息。Geladi(2003)Spectrochimica ActaPart B58:767-82。简化数量的项将具有增加的稳定性,这是由于从数据除去噪音或更少的有用信息的缘故,且因此可以导致更一致的结果解译。同上。
使用化学计量校正模型,对基于植物的样品的快速多变量、化学计量NIRS分析以确定一种或多种特征呈现了一项独特的挑战,其基于例如NIR吸收波长和光谱数据与表型之间关系的性质(线性或非线性等)。该分析因而依赖于化学计量校正模型的开发,其基于训练样品的参照化学分析。由于对每种样品类型和每种特征的独特考虑,单一的化学计量分析不适用于所有性状。
如此,必须以应用依赖性方式从通用化学计量软件程序包如GRAMS-PLS PLUSTM(Galactic Industries Corp.)或OPUS QUANT2TM(Bruker)开发有用的校正模型。这些NIRS校正模型的开发对于准确分析种子样品从而能生成按需的、时间关键性数据是关键的。此外,对NIRS数据的评估通常需要对光谱的直接视觉审查以确定获得NIRS数据的样品中生物学性状或表型的存在。等“Near infrared reflectance spectroscopy and computergraphics visualises unique genotype specific physical-chemical patterns frombarley endosperms,”于Cereal science and technology for feeding ten billionpeople:genomics era and beyond.(Options Méditerranéennes:Série A.Séminaires Méditerranéens81.Meeting of the Eucarpia Cereal Section,2006/11/13-17,Lleida(Spain))Molina Cano等(编),Zaragoza:CIHEAM-IAMZ/IRTA(2008)pp.253-9。
在典型的NIRS平台中,将用于获得NIRS数据的同一仪器还用于实施化学计量分析。然而,这些仪器不含有足以存放所需复杂校正模型还有实施数据分析的存储器。如此,这些平台在实施对基于植物的复杂样品的数据分析时经历严重的效率降低。存放在仪器中的校正模型另外需要连续的监测和在可获得新的参照化学数据时进行更新。如前述的限制对于执行更复杂和成熟的平台和分析施加实际性的阻碍,因为在维持适宜的性能和改进分析之间有所取舍。
发明概述
本文中描述了用于NIRS数据分析的自动化平台的开发,在一些实施方案中,针对与增加基于植物的样品的NIRS分析的通量和鉴定用于分析特定植物或样品特征的改进的化学计量模型有关的某些挑战。在具体的实施方案中,可将对基于植物的样品的NIRS数据分析(例如,种子样品的种子组成分析)用于进行涉及确定样品特征的一种或多种性状或表型的育种选择(例如种子样品中的脂肪酸概貌、蛋白质含量、纤维含量、叶绿素含量等)。在这些和别的实施方案中,本发明提供一种全局NIRS分析系统,其可在不同的仪器类型和环境中执行用于多种作物和多种性状,其中所述分析系统可以为每种作物和性状提供特定的优选分析。
依照前述内容,本文中描述的是用于分析从植物样品获得的NIRS数据的系统和方法。这类系统和方法可用于,例如且无限制地,确定NIRS数据的化学计量模型以鉴定感兴趣的植物性状;确定从植物获得的植物样品中的至少一种特征;确定植物材料中的感兴趣的特征;确定植物中的感兴趣的性状;和/或选择包含感兴趣性状的植物(例如用于植物育种程序中的增殖)。
在一些实施方案中,依照本发明的系统可以包含以下一种或多种:近红外(NIR)分光计;处理器,例如含有数据库,所述数据库包含对应于一种或多种感兴趣特征的来自植物样品的NIR光谱学(NIRS)数据的多种化学计量模型;和分析性编程,例如用于利用所述多种化学计量模型来确定NIRS数据与感兴趣特征之间的关系。在具体的实施方案中,处理器利用所述多种化学计量模型中的每一种来确定NIRS数据与感兴趣特征之间的关系,其中所述处理器鉴定将NIRS数据与感兴趣特征紧密相关的化学计量模型。在具体的实施方案中,所述处理器利用化学计量模型(例如将NIRS数据与感兴趣特征紧密相关的化学计量模型)来确定获得NIRS数据的植物样品中的感兴趣特征。在一些例子中,本发明的系统可以包含NIR分光计和处理器,其中所述分光计和处理器不是物理相连的。
在一些实施方案中,依照本发明的方法可以包含以下一种或多种:要分析的植物样品;从所述植物样品获得的NIRS数据;计算机可读的存储介质,例如含有数据库,所述数据库包含用于分析NIRS数据以确定样品特征的多种化学计量模型;计算机,例如,包含用于利用化学计量模型来确定NIRS数据与样品特征之间的关系的分析性编程;选择用于每一种化学计量模型的参数;利用每一种化学计量模型来确定从所述植物样品获得的NIRS数据与样品特征之间的关系;和确定将从所述植物样品获得的NIRS数据与样品特征最紧密相关的化学计量模型。在具体的例子中,将从所述植物样品获得的NIRS数据与样品特征最紧密相关的化学计量模型鉴定样品的特征。在具体的例子中,样品的特征是感兴趣的植物性状,或者是涉及或指示感兴趣植物性状的特征。
在一些方面,本发明的方法和/或系统可以包含用户界面(例如基于网络的界面)。在具体的例子中,用户界面允许用户指定获得植物样品的植物和感兴趣的植物性状用于分析。本发明的方法或系统可以包含用于鉴定异常数据并将这类数据从分析排除的手段。在一些例子中,本发明的方法或系统可以包含用于标准化NIR数据的手段,其依照获得该数据的NIR仪器。在具体的实施方案中,方法可以包括传播电子信息,该信息包含NIR数据与感兴趣的植物性状之间的关系,如由鉴定所述感兴趣的植物性状的化学计量模型确定的。
在一些方面,依照本发明的方法以全自动方式进行(例如,利用可以全自动方式运行的本发明的系统),其可以降低分析来自植物样品的NIRS数据以确定植物样品或获得该样品的植物材料中的至少一种特征或性状所需的劳动力。在具体的例子中,可利用植物样品中特征或性状的确定来确定获得该样品的植物中的性状。
前述和其它特征将从以下几个实施方案的详细描述变为更加明显的,该描述参照伴随附图进行。
附图简述
图1(a-h)包括依照一些实施方案的例示性网络界面的PYTHONTM代码的例子。
图2(a-g)包括依照一些实施方案的MATLABTM(Natick,MA)代码的例子,有对自动化NIRS数据分析程序的注释。
图3包括对总饱和脂肪酸含量的训练数据分布的描述。
图4包括用于捕捉总饱和脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图5包括对C18:1cis9脂肪酸含量的训练数据分布的描述。
图6包括用于捕捉C18:1cis9脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图7包括对C18:1cis11脂肪酸含量的训练数据分布的描述。
图8包括用于捕捉C18:1cis11脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图9包括对C18:1脂肪酸含量的训练数据分布的描述。
图10包括用于捕捉C18:1脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图11包括对C18:2脂肪酸含量的训练数据分布的描述。
图12包括用于捕捉C18:2脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图13包括对C18:3脂肪酸含量的训练数据分布的描述。
图14包括用于捕捉C18:3脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图15包括对C16:0脂肪酸含量的训练数据分布的描述。
图16包括用于捕捉C16:0脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图17包括对C18:0脂肪酸含量的训练数据分布的描述。
图18包括用于捕捉C18:0脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图19包括对C20:0脂肪酸含量的训练数据分布的描述。
图20包括用于捕捉C20:0脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图21包括对C24:0脂肪酸含量的训练数据分布的描述。
图22包括用于捕捉C24:0脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图23包括对C12:0脂肪酸含量的训练数据分布的描述,和用于捕捉C12:0脂肪酸含量性状的光谱和实际值之间关系的几种模型的比较。
图24包括对C16:1脂肪酸含量的训练数据分布的描述。
图25包括用于捕捉C16:1脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图26包括对C20:1脂肪酸含量的训练数据分布的描述。
图27包括用于捕捉C20:1脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图28包括对C20:2脂肪酸含量的训练数据分布的描述。
图29包括用于捕捉C20:2脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图30包括对C22:0脂肪酸含量的训练数据分布的描述。
图31包括用于捕捉C22:0脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图32包括对C24:1脂肪酸含量的训练数据分布的描述。
图33包括用于捕捉C24:1脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图34包括对C14:0脂肪酸含量的训练数据分布的描述。
图35包括用于捕捉C14:0脂肪酸含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图36包括对水分含量的训练数据分布的描述。
图37包括用于捕捉水分含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图38包括对总油含量的训练数据分布的描述。
图39包括用于捕捉总油含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图40包括对蛋白质含量的训练数据分布的描述。
图41包括用于捕捉蛋白质含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图42包括对芥子油苷(glucosinolate)含量的训练数据分布的描述。
图43包括用于捕捉芥子油苷含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图44包括对叶绿素含量的训练数据分布的描述。
图45包括用于捕捉叶绿素含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图46包括对酸性洗涤剂纤维(ADF)含量的训练数据分布的描述。
图47包括用于捕捉ADF含量性状的光谱和实际值之间关系的几种方法的比较。X轴代表初始值。Y轴代表由特定模型预测的值。
图48包括描述依照一些实施方案用于光谱分析的网络界面的屏幕截图。
发明详述
I.几个实施方案的概览
由于使用已经过增强的作物,农业植物产物越来越多地纳入产物质量和可获性中的改进。经过增强的作物可以通过遗传工程(例如,重组遗传技术)或通过选择性育种程序产生。甚至传统的作物改进实践也可以产生具有改变的遗传学和归因于此的增强特性的植物。例如,增强的玉米品种可以提供改变的脂肪酸概貌(例如增加的油含量、降低的反式脂肪酸含量、增加的油酸含量和降低的亚麻酸含量),或者增加从玉米粒淀粉有效产生乙醇的机会。经改进的作物植物的物理和遗传组成不同于同一物种的相应的常规作物植物。例如,高油玉米、高蔗糖大豆和低亚麻酸芸苔(canola)均可通过其特征性化学组成来区分。这些作物植物还可以通过特征性基因型(如能传递给从相同种质创造的后代植物的)来区分。
能够确定产生植物产物的植物的特征性化学组成和/或基因型是重要的。例如,经遗传工程化的作物和从其生产的植物产物的销售日益成为商业调控的焦点,且即使当其销售未受调控时,顾客也经常期望能够肯定地确定哪种植物产物是从经遗传工程化的植物生产的。此外,种植者及其供应商需要确定田野中作物的来源或构成的能力,例如,以控制所专有的技术的分配和避免其未授权的使用。对于植物分型的其他要求存在于直接育种或遗传工程策略的设计和执行中。这类策略一般产生极大量的植物,必须分析其中感兴趣的性状的存在,例如,以进行期望植物的选择用于进一步使用和/或繁殖。
与使用常规规程来确定植物产物是否从经过遗传增强的作物产生,或定量测定经遗传修饰的物质在植物材料中的百分数有关的一个问题是,这类规程通常牵涉直接遗传分析(例如通过PCR和/或DNA指纹识别),或者更罕见地,可能牵涉对由特定基因或等位基因产生的特定蛋白质的检测和化学分析。这些规程是费时和/或昂贵的,而且它们可能仅得到定性或半定量的结果。另外,且对于植物育种程序尤其具有重要性的是,遗传分析不确定特定等位基因在修饰或创建期望的输出性状中的有效性。经典的遗传分析聚焦于单个的基因和性状,假定为有些接近自由分布。然而,植物中的大多数基因、性状和质量复合物彼此强烈依赖。
用于评估遗传修饰或育种努力的结果的方法应能够以非常小的样品大小使用。例如,在种子作物中,该评估在单一种子基础上最佳实施,因为仅有种子可就期望的性状分离。例如,在玉米中,特定的转基因事件或常规育种杂交可能仅产生具有分离的粒(kernel)的单个穗。相比之下,足以用于大量化学分析的种子供应可能需要多个世代的种子生产或在单个世代中增加的重复测量。
本公开至少部分解决了常规规程的这些不足,其通过提供用于分析小植物样品(例如,种子、营养性植物材料和根材料)来鉴定和量化获得该植物样品的植物中一种或多种性状的经济和有效的方法和系统。另外,本公开提供了改进的化学计量多变量分析方法来从植物样品的可测量特性中预测和确定性状,其利用特定的经改进的化学计量模型。
本文中描述的是一种快速和鲁棒的方法学,其比较针对多种性状的现有技术中的多种化学计量模型,并基于交叉验证结果选择和改进更准确的模型。化学计量数据分析技术的准确性随具体性状而变化。因此,本发明的实施方案具有使用不同算法来比较针对每种性状的校正模型的准确性,并挑出对NIRS数据与性状之间的关系最佳建模的模型的能力。该方法学允许尽可能准确地将每种性状建模,而且它还允许更深地理解NIR光谱与建模的性状之间的关系。
在一些实施方案中,鉴定正确的参数用于每种模型可以是自动化的,从而对更准确模型的选择和改进可以不用耗费手动实施这些任务所需的有价值的资源而进行。另外,校正模型的准确性较大程度上受到数据中存在的异常值(outliers)的影响。这些异常值能代表性状中的真实变异或者是不正确的样品处理或较差质量样品的结果。由于这些异常值能很大地影响数据的分布,因此需要在校正模型开发之前鉴定出异常值。
本发明的方法和/或系统还可以包括自动化的样品处理。与服务器上基于时间的工作调度程序(例如,Cron任务)组合的网上网络界面可以确保数据文件在经由网上界面提交时,由服务器自动分析,而不需要人工干预。网上界面可以自动化地鉴定收集光谱数据的仪器的分辨力,并校正仪器的数据,如此使得化学计量分析全局可达并能够在各种仪器类型中执行。
本文中已显示了本发明的广泛效用和实用性,其使用为农业中NIR分析的公认应用的详细工作例子。例如,使用3种不同的分光镜仪器(Bruker、Foss和NIR),从2种不同作物(芸苔和向日葵)的种子样品获得NIRS数据。本发明的系统和方法用于分析该NIRS数据,并确定例如样品中的种子组成性状,由此通过例子显示本发明实施方案的优点。在一些实施方案中,本发明的系统和方法可用于分析从任何可获得NIRS数据的植物材料(例如液体、固体和粒状材料)获得的光谱数据。
II.缩写
ADF     酸洗涤剂纤维(acid detergent fiber)
ANN     人工神经网络
AOTF    声光可调滤光器(acousto-optic tunable filter)
CR      连续回归(continuum regression)
LCTF    液晶可调滤光器(liquid crystal tunable filter)
LRR     特征根回归(latent root regression)
LWR     局部加权回归
MLR     多元线性回归
MSC     多元散射校正(multiplicative scatter correction)
NIR     近红外
NIRS    近红外光谱学
ODIN    基于邻域计算的图论办法
OLS     普通最小二乘法
OSC     正交信号校正
PCA     主成分分析
PCovR   主协变量回归(principal covariates regression)
PCR     主成分回归
PGP     棱镜-光栅-棱镜滤光器
PLS     偏最小二乘法
PLS-DA  偏最小二乘法判别分析
RR      岭回归(ridge regression)
SIR     分段逆回归(sliced inverse regression)
SNV     标准正态变量
SVM     支持向量机
YSC     黄色种子包被
III.术语
自动化:如本文中使用的,术语“自动化”指遵循来自用户的起始指令自己执行的方法。举例而言,在具体的实施方案中,用户鉴定植物样品和要在植物样品中确定的感兴趣的性状,并启动本发明的自动化分析方法。在这些具体的实施方案中,用户接着接收鉴定出针对感兴趣性状的可用化学计量分析模型的方法输出和该植物样品中感兴趣性状的确定,而不需要用户方面的其它行为。
化学计量:如本文中使用的,术语“化学计量”指使用统计学和数学技术来分析化学数据,以及据此将数据转化成用于决策制定目的的信息的整个过程。Geladi(2003),见上。化学计量使得能将大量数据矩阵中含有的信息简化为更容易理解的信息和残余的噪音组分。同上。关于化学计量和化学计量分析技术的一般信息可见于,例如Beebe等(1998)Chemometrics:aPractical Guide,NY,U.S.A.:John Wiley&Sons,Inc。对于关于NIRS数据的化学计量分析技术的特定信息,参见例如Heise和Winzen(2002)“Chemometricsin near-infrared spectroscopy,”于:Near-Infrared Spectroscopy:Principles,Instruments,Applications,见上,pp.125-61。
在多变量化学计量数据分析过程中,将化学计量分析应用于数据矩阵以从矩阵提取相关信息。对每个对象的分析结果可以以多种方式表示,例如且不限于,吸光度、浓度、峰高、积分和颗粒计数。描述这些表示的一般性术语是“变量”。在本发明的一些实施方案中,NIRS数据包含包括在特定波长处NIR辐射的透射或吸收的变量。当对I对象测量K变量时,所得数据形成大小为IXK的数据矩阵。化学计量牵涉取所得数据矩阵并提取关于对象和变量的隐藏和有意义的信息,这通过许多变量之间的相关成为可能。
变量可以是“同质”或“异质”的。以相同单位测量且能排序的变量是同质的。例如,当变量是在不同波长处测量的吸光度(或透光度)时,它们是同质的,因为它们是以相同单位测量且可通过递增波长排序的。当变量来自不同的仪器时,它们可能是异质的。例如,包括温度、压力、pH和粘度在内的变量集合是异质的,因为这些变量为不同的单位且其顺序无关。还可以有混合的变量(即同质变量如NIRS光谱可以与异质变量混合)。
化学计量分析按照数据矩阵含有可以简化的冗余信息的原理来操作。简化的项更易于解译和理解,具有更高的稳定性,并且与含有噪音和/或不那么有用信息的残余分开。简化的项有时也称为“特征变量(latent variable)”。
不同形式的数据分析(例如分析是否包括数据探索、分类或曲线解析)需要利用不同的化学计量技术。将数据分类成不同的组可以经由不受监督的分类技术如主成分分析(PCA)来进行,如果关于样品没有已知信息的话,或者经由监督分类技术(例如偏最小二乘法判别分析(PLS-DA)),如果关于样品已知足够的信息时。
全局:本发明的方法或系统可称为“全局”的。如本文中使用的,术语“全局”指可用于分析在不同的地理位置(该位置可以包含不同的作物环境)且使用不同的分光镜仪器获得的数据的方法或系统。
提供:如在本文方法的描述中使用的,术语“提供”指使得特定物品可获得。例如,IRS数据可通过多种行为提供,例如且无限制地,从分光计收集数据,和在从分光计收集的情况下从某来源获得数据。
远程:如本文中使用的,术语“远程”仅指NIRS仪器和处理器之间的物理间隔的存在。“遥远(Remoteness)”并不表示第一仪器或物品的位置与第二仪器或物品在地理或技术上分离。
样品:如本文中使用的,术语“样品”指分析技术的对象。例如,一些实施方案包括对植物样品的NIRS表征和/或分析,其中样品是植物部分或从植物部分制备的对象。然而,在一些实施方案中,可以使用本发明的方法来表征和/或分析全植物(例如通过表型和/或基因型)。如此就本公开目的而言,分析的全植物可以纳入术语“样品”的含义中。
电信联系:“电信联系”指可在某装置(例如NIR分光计)和处理器之间产生联系的任何手段,例如,以交换信息或数据或单向流通信息。在一些例子中,所述联系是经由互联网的,但也可以包括硬线连接、无线连接、基于塔或基于卫星的无线连接、或前述的任意组合。
性状:如本文中使用的,术语“性状”指个体的可测量的特征。术语“性状”和“表型”在本文中可交换使用。在本发明一些实施方案中特别感兴趣的是可从NIRS数据鉴定的性状。例如,感兴趣的性状可以是种子组成性状,其可从自种子样品获得的NIRS数据中鉴定。
IV.用于NIR光谱分析的系统
在分析植物产物时,获得该产物的作物的特征必须以最小时间延迟确定。此外,在一个位置处的植物产物的特征应当能够与在另一个位置处的相同植物产物的特征进行比较。这些位置经常可以由实质性地理距离分开。在一些实施方案中,本发明的系统可以具有的优点在于,它能够分析来自植物产物的NIRS数据以确定多个位置处(不管是不是地理上较远的)的特征,并分离关于来自不同仪器或仪器类型产生的噪音和/或对NIRS数据的影响的特征的信息。如此,本发明的实施方案提供用于NIRS数据分析的全局系统。
一些实施方案包括处理器。可以使用任何适宜的能够存放化学计量模型的电子装置或装置组合(例如一个或多个服务器),将模型应用于NIRS数据,并生成和输出结果来执行处理器。多种化学计量模型可以存放于处理器中作为化学计量模型的库。存储于处理器上的化学计量模型的库可修改为纳入校正更新,添加新的校正模型,删除不想要的校正模型,和/或扩展分析新性状或作物的能力。在具体的实施方案中,对化学计量校正模型的库的修改可以不对执行处理器的装置的硬件或软件进行改变而完成。在实施方案中,校正模型的库从NIRS数据开发,该数据含有关于模型意图确定的性状或特征的信息。可以将库中的不同模型应用于NIRS数据,比较其性能,从而确定库的模型中更准确的模型。然后,将该更准确的模型用于从NIRS数据计算性状的值。
在一些实施方案中,可将用于NIR光谱分析的系统用来确定位于远位置中的植物样品的一种或多种特征(例如性状),其利用针对每种特征的单一化学计量模型。NIRS数据可使用在一个位置处的分光计获得,并使用远程处理器分析。例如且无限制地,所述分光计可以位于离执行处理器的电子装置至少约100米、约1英里(1.60km)、约10英里(16.09km)、约100英里(160.9km)、约200英里(321.8km)、约400英里(643.7km)、约600英里(965.6km)、约1000英里(1609.3km)、约2000英里(3218.6km)远或更远。
一些实施方案包括专门的计算机,其包含处理器和特定的分析性编程。所述处理器可以是计算机系统,其可用于存储和操作化学计量模型的库,执行分析性编程以实施化学计量分析,和/或流通分析结果。在具体的实施方案中,处理器可以是单个装置。然而,在别的实施方案中,处理器不是单个装置,例如,处理器可以位于多个计算机服务器上,其中可提供一些副本用于冗余性,而可提供其他副本以建立服务器镜像。如此,如本文中使用的,术语“处理器”可以指一组单一处理器。
在一些实施方案中,一个或多个分析程序可以利用系统鉴定为更准确地确定NIRS样品数据与感兴趣的特征之间关系的化学计量模型,并输出包含该关系的结果。此外,在具体的实施方案中,分析程序可以运行为展示分析性编程的结果(例如,针对感兴趣特征的更准确的化学计量模型,应答新数据进行的模型改变,和/或由模型确定的关系)。
网络界面
在一些实施方案中,本发明的系统可以包括在NIR分光计上运行的软件,或与其附接的电子装置(例如经由电信连接),其装配从植物样品获得的NIRS数据并将NIRS数据传达至网络界面。所述网络界面可以配置为例示NIR分光计与启动器之间的界面,将NIRS数据移动到目录中,并例示一种或多种开始读取目录中NIRS数据的分析程序。这些步骤均可出现在网络界面上。
在一些实施方案中,网络界面可以允许实践者容易地上载NIRS数据(例如,实践者获得的数据,和存储于数据库中的先前获得的数据),并指示信息,其包括例如但不限于,要通过化学计量分析确定的感兴趣的特征,获得植物样品的植物,和/或分光计仪器类型。在具体的实施方案中,可以通过软件从文件中的光谱数据自动鉴定出仪器类型。然后,界面可用于将上载的NIRS数据和选择的不同选项的值提交至处理器。在这些实施方案中,由于NIRS数据经由网络界面网上提交,因而系统的允许部分依赖于维持因特网连通性。然而,如果发生因特网连通性的中断,那么可将NIRS数据存储于仪器上并在连接恢复时经由网络界面提交。
在一些实施方案中,实践者不需要将NIRS数据上载到服务器。在这些和别的实施方案中,基于时间的工作调度程序(例如,Cron任务)可以规律地监测存储每个仪器上NIRS数据的目录,并自动上载存储的数据。在这些实施方案中,不管何时获得因特网连通性,均以指定的时间间隔上载NIRS数据。例如,工作调度程序可以以约24小时、约12小时、约6小时、约4小时、约2小时、约1小时、约45分钟、约30分钟、约20分钟、约10分钟、约7分钟、约5分钟、约3分钟、约2分钟、约1分钟或更短的时间间隔搜索新的NIRS数据。在具体的实施方案中,基于时间的工作调度程序可以以自动化方式开始上载数据的分析和更准确化学计量模型的确定,由此允许在实践者不在时(例如,在晚间休息期间和进行其他任务期间)进行数据分析。
网络界面可以改进植物样品的NIRS分析的通量,例如,通过将NIRS数据集从数据分析解偶联。将NIRS数据集从数据分析解偶联可以允许化学计量模型存放于与分光计相同且不在较远位置处的设施中(如可能在某些常规规程中需要以优化性能的),由此使得更容易基于最新可获的化学计量技术和湿化学数据持续改进校正模型。在一些实施方案中,在与分光计相同的设施或仪器中存放化学计量模型还可以从存储器和处理器瓶颈(在使用远程仪器时典型的)解脱化学计量分析。现场(on-site)处理器功能可以增加NIRS数据分析的计算速度,由此给予实践者制定时间关键性的决策的能力。该配置还允许实践者能更多地访问分析的每种样品的存储和保留内容,而且还供应在光谱分析期间观察到的任何新表型的更快的纳入。
因此,依照前述内容,在一些实施方案中,可使用在一个位置处的分光计获得NIRS数据,并使用附近的处理器分析。例如且无限制地,所述分光计可以位于离执行存放模型的处理器的电子装置少于约100米、约50米、约10米、约5米、或约1米或更短。例如,容纳处理器的电子装置可以与分光计物理相连。
在一些实施方案中,在已上载NIRS数据(不管是自动还是实践者手动的)后,可以自动化选择用于分析获得NIRS数据的植物样品中感兴趣特征的更准确的化学计量模型。在具体的实施方案中,还可以使用选定的化学计量分析自动化生成针对由选定模型预测的感兴趣特征的一组值。随后,电子信息可送达实践者和/或别的指定的接受者,该信息含有选定的模型和/或分析的结果,或具有到达含有该信息的文件或文档的信息。
NIRS仪器
NIRS成像仪可以包含以下组件:光照源;照相机;摄谱仪;和检测器,其均可以偶联至计算机。对于关于NIRS系统及其组件的一般信息,参见例如Reich(2005)Adv.Drug Delivery Rev.57:1109-43;Grahn和Geladi(2007)Techniques and Applications of Hyperspectral Image Analysis,Chichester,England:John Wiley&Sons Ltd.,pp.1-15和313-34.;和Gowen等(2008)Eur.J.Pharm.Biopharm.69:10-22。对于肉眼可见或显微镜图像,还可以使用聚焦镜或显微镜物镜(microscope objective)。
包含在NIRS成像仪中的光照源可以包括,例如但不限于,卤钨灯和氙气等离子灯。使用滤光器(filter)来选择要测量的波长。例如且无限制地,NIRS成像仪可以包含液晶可调滤光器(LCTF);声光可调滤光器(AOTF);或棱镜-光栅-棱镜滤光器(PGP)。NIRS成像仪的照相机单元可以包括,例如且无限制地,铟镓砷化物检测器;硫化铅检测器,或汞-镉-碲化物检测器。
除了光谱信息外,还可以获得样品的空间信息,其通过采用“高光谱成像(hyperspectral imaging)”(有时也称为“化学成像”或“分光镜成像”),一种将常规数字成像和NIR光谱学的物理学组合的先进的分析技术。参见例如,Koehler IV等(2002)Spect.Eur.14:12-9;Burger和Geladi(2006)Analyst131:1152-60;Gowen等(2007)Trends Food Sci.Technol.18:590-8。高光谱成像已显现为农业中的一种强大的分析工具。Kazemi等(2005)CIGR J.VII:1-12;Fernández Pierna等(2006)Chemometrics Intel.Lab.Systems84:114-8;Gorretta等(2006)J.Near Infared Spectrosc.14:231-9;Weinstock等(2006)Appl.Spec.60:9-16;Baeten等(2007)“Hyperspectral imaging techniques:anattractive solution for the analysis of biological and agricultural materials,”于:Techniques and applications of hyperspectral image analysis,Grahn&Geladi,Eds.,Chichester,England:John Wiley&Sons,Ltd.,pp.289-311;Mahesh等(2008)Biosys.Eng.101:50-7;Shahin和Symons(2008)NIR News19:16-8。
高光谱图像普遍称为超立方体。超立方体是一种三维的数据块,其由x和y方向的像素构成的二维图像,和z方向的波长维度限定。超立方体由针对样品的每个空间位置的成百个临近波带组成。高光谱图像中的每个像素由针对样品该特定位置的完整的NIR光谱组成,由此提供该位置的指纹。高光谱图像可通过在特定NIRS安装中可获的几种成像配置,例如点扫描、焦平面扫描和线扫描成像配置获得。
在一些实施方案中,本发明的系统可以配置为采集要从中获得空间信息的样品的高光谱图像,且可包含用于利用多种化学计量模型来确定在由高光谱图像中的像素限定的位置处NIRS数据与样品特征之间关系的分析性编程。
V.用于确定针对NIRS数据分析的更准确的化学计量模型,和利用这类模型来表征植物样品的方法
植物样品和数据收集
在一些实施方案中,依照本发明的方法包括一种植物样品,其中所述植物样品可由NIRS成像仪扫描来获得NIRS数据。任何能通过这类仪器扫描的植物样品均可用于依照一些实施方案的方法中。例如且无限制地,在具体的实施方案中可以分析固体样品、粒状样品和/或液体样品。某些例子涉及分析植物种子样品。在这些实施方案中,植物样品可以包含全种子、磨碎的种子材料、或种子的部分(例如,胚乳、胚等)。
可通过用NIRS成像仪在NIR范围中的一定范围的波长内扫描植物样品来收集NIRS数据。例如,在具体的实施方案中,可在从约650nm至约2500nm的范围内扫描样品。对于单个样品可重复扫描规程以测量平均吸光度。在具体的实施方案中,可以将约5至50次扫描平均(例如,5、6、7、8、9、10、12、14、16、18、20、22、24、26、28、30、35、40、45或50次扫描)。如此收集的平均吸光度可以形成NIRS数据,然后对其分析以确定更准确地预测或鉴定扫描的植物样品中特定的感兴趣特征的化学计量模型。为了确保仪器性能在整个数据采集过程中是一致的,可以在扫描样品之前、期间和之后扫描内部标准。
使用化学计量模型的多变量数据分析
本发明的实施方案利用多种化学计量模型来实施NIRS数据的多变量分析,从而选出更准确地预测或鉴定植物样品中感兴趣特征的模型。一般地,多变量数据分析牵涉从数据矩阵提取信息。根据要实施的分析的类型(例如,数据探索、监督分类、不受监督的分类、和曲线解析)和要分析的特征和样品类型,不同的化学计量模型给出显著不同的结果。就特定特征而言不适用于特定样品类型分类的一种模型可能是对于不同情况下不同分析的最适宜的模型,而且一般地实践者无法先验性知晓几种模型中哪种模型会得到最佳结果。关于使用化学计量模型(包括人工神经网络)的多变量分析的一般信息可见于,例如Massart和Kaufman(1983)The Interpretation of AnalyticalChemical Data by the Use of Cluster Analysis,New York,NY:Wiley.Varmuza(1980)Pattern Recognition in Chemistry,Berlin,Germany:Springer。
预处理
在校正前可将信号处理用于转化光谱数据,该处理有时称为数据“预处理”。参见例如,Brereton(1990)“Pattern recognition,”于:Chemometrics:Applications of Mathematics and Statistics to Laboratory Systems,Chichester,West Sussex,England:Ellis Horwood Ltd.,pp.239-95.;Bro和Heimdal(1996)Chemometrics Int.Lab.Sys.34:85-102。预处理方法可以增加NIRS数据中的信噪比,其通过降低光谱中的噪音,例如通过减少随机噪音、减少基线影响、和/或减少光谱干扰。Beebe等(1998),见上;Heise&Winzen(2002),见上。NIRS数据中的噪音源包括,例如且无限制地,化合物的相互作用、光散射效应、光路径长度变化、和/或由仪器硬件导致的光谱失真(distortion)。
如此,在一些实施方案中可采用预处理方法来减少、消除、或标准化NIRS数据中的信噪比问题,而不显著地减少分光镜信息。通常使用的预处理方法包括,例如且无限制地,标准化(standardizing)、归一化(normalization)、样品加权、平滑、局部滤波、Savitzky-Golay平滑、傅里叶滤波、导数、基线校正方法、多元散射校正(MSC)、标准正态变量(SNV)、正交信号校正(OSC)、均值中心化和变量加权。Beebe等(1998),见上;Heise和Winzen(2002),见上;Feudale等(2002)Chemometrics Int.Lab.Sys.84:114-8;等(2007),见上。为了将预处理方法应用于NIRS数据,依照实践者的判断来选择和提供优化和预处理参数。
在已采用一种或多种预处理方法来提高NIRS数据中的信噪比后,可对数据应用回归和校正技术。例如,回归技术可能是提取包含在NIR光谱的谐波和谱带组合中的信息,和/或提取超立方体中捕获的信息所需要的。
多变量矩阵分析
在一些实施方案中可使用许多适宜的基于特征向量的多变量化学计量分析之一来分析来自植物样品的NIRS数据矩阵。在具体的例子中,任何适宜的多变量化学计量分析技术均可用于从大小为IxK的NIRS数据矩阵提取有用信息,其中I为对象,K为变量。在具体的例子中,“对象”可以是单个植物样品,而“变量”可以是样品在NIR波长处的吸光度。
化学计量分析通常利用线性代数,依照以下符号:
x、y为标量值;
x、y为列向量;
X、Y为矩阵;
X'是x的转置,如此是行向量;
X-1是矩阵的逆;
X+是广义逆;
XY是三维阵列;且
对于阵列,指标为i=1、…、I;j=1、…、J;和k=1、…、K,对于组分数目a=1、…、A。
尽管许多多变量化学计量分析是本领域技术人员可获的,且本发明的实施方案利用多种这类分析(例如,以选择更准确的分析方法),但在本文中详细描述了主成分分析(PCA)的特定技术,以例示具体实施方案的某些特征。当然会理解,通过具体描述PCA,本发明不限于PCA的使用或包括PCA的实施方案。而实际上,考虑到解释所有已知的多变量化学计量分析所需的范围,为了简洁目的,仅举例详细描述了PCA。此外,就本公开目的而言,“实施NIRS数据的多变量化学计量分析的手段”指本领域技术人员已知的用于将数据矩阵简化为有意义信息的多变量化学计量分析/模型。
一般地,PCA转化对象变量为数据集以最佳解释数据中的变化。PCA采用正交转化以将关于可能相关的对象变量的数据转化为一组不相关变量的值的集,其为在PCA中称为“主成分”的特征变量。尽管是有用的,但主成分不天然对应于获得数据矩阵的样品的化学组成。集中主成分的数目低于或等于初始变量的数目。正交转化为使得集中的第一主成分具有尽可能高的方差。如此,第一主成分在初始数据中占有尽可能高的变异性。由转化生成的每个后续组分具有可能的最高方差,尽管它必须满足以下限制,即后续组分对于集中的所有在前组分是正交的。因此,每个主成分代表初始数据中的一个独立的变化源。
依照前述内容,可通过使用头几个主成分来转化多变量数据集,其包含1个轴每变量的数据空间中的一组坐标,从而经转化数据的维度被简化以提供可更容易检查的更低维度空间的多变量数据集。在以下等式中:
X=t1p1'+t2p2'+…+tApA'+E    (1)
其中X是(IXK)矩阵,ta是ath组分的得分值,pa是ath组分的加载值,而E是(IXK)剩余矩阵。PCA试图使用最少的主成分尽可能多地解释X的平方之和。为了实现该目的,使tA为正交的而pA为标准正交的:
ti'tj=0(i>j),pi'pj=0(i>j),pi'pj=1(i>j)    (2)
得分值和加载值用于线图或散点图,其允许有效解译整个数据空间,其中噪音大部分留在残差中。两个主成分的得分图可以包含以下一种或多种:密集的得分簇,不那么密集的得分簇,异常得分,和得分簇之间的梯度。密集簇指示更小的变化,而不那么密集的簇指示更大的变化。可能存在密集簇和不那么密集簇的纯类,但经常在其之间具有梯度。还鉴定了异常值并且可以解释。异常数据的可能来源包括,例如且无限制地,取样误差、分析误差、数据操作误差、和数字圆整。或者,异常值可能基于未知对象类的真实存在。
主成分的各种组合通常在得分图中针对彼此绘制,并检查得分的簇。通过研究得分图,可以确定哪些组分最有助于独特地分离簇。对你的样品中独特种类的数目的了解可以指示预期数目的簇。例如,如果分析来自具有独特油酸含量的两种类型种子的种子材料,那么会预期两个簇在得分图中是明显的。
数据经常通过许多可获方法中的任一种在试图分析之前转化。在一些例子中可以使用变量的分别的线性、对数或指数比例调整。对于一个数据集最佳的特定的比例调整方法不会是最适用于另一个数据集的。如此,必须对要分析的每个数据集确定比例调整方法,通常通过费时的试错进行。
化学计量校正模型
在实施方案中,可以提供化学计量校正模型的数据库,并且可以从分光镜数据的分析中选出最佳的数据库模型来确定植物样品中感兴趣的一种或多种特性。例如,感兴趣的特性可以是与获得样品的植物物种中感兴趣的性状有关的特性。
校正被用于分析化学和生物学中许多问题的化学计量解决方案中。校正被用于开发一种从测量的化学系统属性如NIR吸光度预测感兴趣的特性的模型。已独立或与光谱数据组合地使用许多多变量校正分析。对于关于特定多变量校正模型使用的更详细的信息,参见例如,Martens和(1989)Multivariate Calibration,Chichester,U.K.:Wiley;Beebe等(1998)Chemometrics:a Practical Guide,见上;Brown(1993)Measurement,Regressionand Calibration,Oxford,U.K.:Clarendon Press;Martens和Martens(2000)Multivariate Analysis of Quality,an Introduction,Chichester,U.K.:Wiley;等(2002)A User-friendly Guide to Multivariate Calibration and Classification,Chichester,U.K.:NIR Publications。
校正需要训练数据集,其包括感兴趣特性的参照值和认为对应于该特性的测量属性。例如,训练数据可以获自许多参照样品,包括感兴趣分析物的已知浓度和每种样品的相应NIR光谱。然后,将本领域技术人员已知的许多多变量校正技术之一(例如,偏最小二乘法回归、主成分回归等)用于构建化学计量校正模型,其将一组测量的属性(例如,NIRS数据)与例如样品中感兴趣分析物的浓度相关。所得化学计量校正模型可随后用于有效预测新样品中分析物的浓度。随着收集新数据并添加到训练参照集中,模型可以通过“学习”改进。
多变量校正技术可以允许快速、廉价且非破坏性地测定样品特性,甚至是从含有许多其他特性的非常复杂的样品中(例如相似的化学物种类)。数学校正提供与分析测量形式一样多的建模过程的选择性。例如,NIR光谱学相比于其他分析技术(如IR和Raman光谱学)是极其广泛和非选择性的。然而,在一些实施方案中,使用经选择的多变量校正模型来分析来自复杂植物样品的NIRS数据提供对样品中化学物种类或特性(例如,水分、硬度等)的非常好的确定(例如,鉴定、分类和定量测量)。
用于分析分光镜数据的化学计量模型的校正牵涉建立期望的样品的化学、生物学或物理特性与其光谱之间的回归关系。所述回归关系为:
y=f(x)    (3)
其中y是样品中期望的浓度(或其他特性),而向量x是光谱。如此,从函数f,可从特定样品的测量光谱计算浓度。在本发明的一些实施方案中,多变量校正可能牵涉以下一种或多种:发现函数f;选择用于发现f的校正标准;产生针对f质量的诊断法;使用f来从光谱测定未知的浓度/特性;和该测定的诊断测试。
确定形式y=f(x)的确切关系被数据中的噪音复杂化。因此,回归关系经常以线性形式表示:
y=Xb+f    (4)
其中y是对I个对象的测量应答的向量;X是对I个对象的测量光谱的(IxK)矩阵;b是回归系数的向量;而f是残差向量(不要与函数f混淆)。等式(3)代表硬模型,其中等式f必须是预先已知的或精确确定的。等式(4)是软等式,其中b的一些运行值必须在没有许多系统背景知识的情况下发现。
在化学计量中,当经常可获得比对象更多的变量时,b的计算可通过本领域技术人员已知的许多特征变量方法中的任一种来进行(例如,主成分回归(PCR);偏最小二乘回归(PLS)回归;机器学习技术,人工神经网络(ANN)和支持向量机(SVM);等)。参见例如,Karjalainen和Karjalainen(1996)Data Analysisfor Hyphenated Techniques,Amsterdam,The Netherlands:Elsevier。因此,
y=Tq+f    (5)
其中T是特征变量(例如,来自PCA的主成分)的矩阵而q包含T中列的回归系数。
等式(4)和(5)具有以下b类型的标准解法:
b=(X'X)-1X'y    (6)
b=(T'T)-1T'y,    (7)
或通过定义广义逆X-1
b=X-1y    (8)
用于修改等式(6)-(8)以改进b的计算的许多方法是本领域中已知的。这些方法包括,例如且无限制地:普通最小二乘法(OLS)/多元线性回归(MLR)(Draper和Smith(1981)Applied Regression Analysis,第2版,New York,U.S.A.:Wiley);岭回归(RR)(Hoerl和Kennard(1970)Technometrics8:27-51);主成分回归(PCR)(Massy(1965)J.Am.Stat.Assoc.60:234-56);特征根回归(LRR)(Webster等(1974)Technometrics16:513-22);偏最小二乘回归(PLS)(Helland(1988)Commun.Stat.B,Simulations Comput.17:581-607;(1988)J.Chemometrics2:211-28);分段逆回归(SIR)(Li(1991)J.Am.Stat.Assoc.86:316-42);连续回归(CR)(Stone和Brooks(1990)J.Royal Stat.Soc.B52:237-69);局部加权回归(LWR)(和Isaksson(1989)Appl.Spectrosc.43:328–35);和主协变量回归(PCovR)(de Jong和Kiers(1992)ChemometricsIntelligent Lab.Syst.14:155-64)。
等式(4)和(5)中的模型是线性的。然而,回归系数与测量之间的关系可能是非线性的。有许多改进模型以用于非线性关系的方式,其中任一种均均可用于本发明的一些实施方案中。非线性关系的模型可以例如通过经由X和/或y的转化来改进(Geladi和Dabakk(1995)J.NIR Spectrosc.3:119-32;Geladi(2001)Chemometrics Intelligent Lab.Syst.60:211-24),或通过修改模型以纳入特定的分光镜知识来改进(Barnes等(1989)Appl.Spectrosc.43:772–7;Svensson等(2002)J.Chemometrics16:176-88)。
目前,化学计量分析方法学受限于那些经由Unity、GRAMS和MATLAB工具箱可获的,从而限制了该方法学的使用以及分析的速度。基于大量的文献综述,最普遍用于NIRS分析的四种算法鉴定为主成分回归(PCR)、偏最小二乘(PLS)回归和机器学习技术人工神经网络(ANN)以及支持向量机(SVM)。针对PLS(Cao(2008)Partial Least-Squares and Discriminant Analysis(和辅导一起在因特网上于www.mathworks.com/matlabcentral/fileexchange/18760-partial-least-squares-and-discriminant-analysis可得到))和ANN(ArtificialNeural Networks:ANN DTU MATLAB工具箱(在因特网上于bsp.teithe.gr/members/downloads/DTUToolbox.html可得到))的MATLAB算法以Mathworks程序包获得。还获得LIBSVM,一种强大的SVM执行工具的MATLAB代码。Chang和Lin(2001)LIBSVM:a library for support vectormachines(在因特网上于www.csie.ntu.edu.tw/~cjlin/libsvm可得到)。PCR的MATLAB代码内部(in-house)开发。
校正转移
在一些实施方案中,本发明的方法包括以独立于其上收集NIRS数据的仪器和/或仪器类型的方式对样品特征的化学计量测定。在具体的实施方案中,选择对一个仪器上的感兴趣特征提供更准确测定的化学计量模型,随后将该模型转移用于分析在另一仪器上收集的NIRS数据,而不用再开发模型。在一些实施方案中,本发明的系统和方法转移校正模型的能力允许在不同仪器上生成的数据合并到一起成为单个、更有力的训练集用于开发更优化的模型。关于化学计量模型转移的信息可见于,例如Feam(2001)J.Near InfaredSpectrosc.9:229-44中。
异常值检测
化学计量分析的一个重要组分是检测进行分析的数据,例如用于开发校正模型的训练数据中的异常值。如本文中使用的,术语“异常值”指具有异常光谱概貌或参照化学值的样品。例如,存在污染、降解或较差的样品质量,和/或不一致的样品制备可能导致异常值。在一些实施方案中,可鉴定这类异常值并在模型开发前从训练数据集除去,由此提供模型参数不受这些异常存在的影响。当然会注意到样品品种和特征中的真实变化对于开发准确且有力的模型是重要的。因此,这些变化应与异常值区分从而将其鉴定并在模型开发期间保留它们。在具体的实施方案中,本发明的方法中包括至少一个异常值检测技术。可用的异常值检测技术包括,例如:Mahalanobis距离;样品杠杆作用(sample leverage);和图论测量(graph theoretic measure)(ODIN)。这些技术可以例如以代码执行。在一些例子中,一种投票规程将样品标记为异常值,如果两种或更多种技术将其分类为异常值的话,并指定这些样品进行进一步审查。
VI.针对NIR光谱分析的系统和方法用于进行植物选择和/或育种决策的用途
使用纳入如前文所述的用于NIR光谱分析的机器学习和统计学的平台,可以提供对植物样品中一定范围内的化学组分和物理特征的方便且即时的分析。依照本发明的一些实施方案,针对特定化学物筛选对NIR光谱的测量可以用来探索全植物样品或基因型的化学-物理表征。例如,实施从植物样品获得的NIR数据中感兴趣性状的分析的化学计量校正模型的鉴定和选择,以及如此生成的更优越的分析,可以帮助选择性或直接育种程序中的育种决策。
在具体的实施方案中,选定的化学计量模型可用于从植物样品的NIR数据生成选定的模型对感兴趣的性状或特征在一定范围内的可能确定中的确定。随后,可将这类确定与从其他样品获得的确定相比较,并且可以鉴定出如通过选定模型确定的具有期望性状或特征的一种或多种样品。获得鉴定样品的植物可选择为包含或很可能包含感兴趣的性状或特征,且可以进一步选择用于繁殖或育种以产生包含感兴趣性状的近交植物,或将感兴趣的性状基因渗入到种质中。
提供以下实施例以例示某些具体的特征和/或实施方案。实施例不应理解为将公开限制为例示的具体特征或实施方案。
实施例
实施例1:使用自动化的机器学习和统计学平台来分析芸苔种子的特征
材料和方法
芸苔种子样品从Natreon芸苔,或具有黄色种子包被(YSC)性状的芸苔制备。训练数据通过扫描在SpectraStarTM2500x NIR分光计(Unity Scientific,Inc.)上大槽杯(large spout cup)中的全芸苔种子在650-2500nm波长内收集。将4个步骤的逆时针方向步骤的24次扫描平均以获得吸光度测量。将这些扫描用于形成训练NIR光谱。为了确保仪器性能在整个过程中一致,在扫描训练集之前、期间和之后扫描内部标准。
校正模型
开发PCR、PLS、ANN和SVM化学计量校正模型用于NIR光谱分析,其使用技术编程语言。开发交叉验证路径,并验证每种校正模型对于每种种子组成性状在感兴趣的NIR光谱范围内为鲁棒而准确的。然后,用开发的4种化学计量校正模型中的每一种来分析训练数据,并对于每种种子组成性状将每次分析的结果进行比较。
对于每种性状,将4种校正模型的表现(R2)比较以发现最适宜捕捉性状的光谱与实际值之间关系的模型。在每一情况中,将10倍的交叉验证用于确定回归准确性的可靠估测,由此确保在训练期间观察到的准确性是未来测试样品的回归准确性的无偏见估测。
例如,图4显示针对总饱和脂肪酸含量(Total Sats)的这类比较,其从图3中显示的总饱和脂肪酸训练数据的分析而获得。图4显示对于该性状ANN算法优于其他3种算法,且在所有训练样品上对于性状的实际值最紧密地建模。在Unity机器上对于15种不同的种子组成性状进行类似的分析,且发现从相同训练数据开发的不同校正模型对于不同性状的分析是更优越的。图3-47。
感兴趣的几种特定性状中每一种的数据分布在表1中列表,且这11种性状中每一种的R2值比较在表2中列表。机器学习模型(ANN和SVM)在72%的时间内(8/11)优于传统的统计学办法(PCR和PLS),因此传统的统计学办法在27%的时间内优于机器学习模型。如果研究者仅检查了例如C18:1、C18:2、C18:3和C16:0性状,那么该研究者可能合理地得出结论,即ANN模型至少在所有种子组成性状上是优选的,但显然不是这样的情况。
表1.15种组成性状的数据分布
性状 训练样品数 均值 标准偏差
ADF 76 11.86 2.88
叶绿素 151 15.47 13.56
芥子油苷 402 12.31 6.57
水分 423 5.34 0.74
蛋白质 151 26.56 2.59
总油 423 45.95 3.55
总饱和脂肪酸 1442 6.93 0.63
C18:1 1442 72.28 4.69
C18:2 1442 15 2.99
C18.3 1442 2.9 2.36
C16:0 1442 3.8 0.36
表2.比较15种组成性状的R2
性状 PCR PLS ANN SVM
ADF 0.76±0.21 0.83±0.15 0.69±0.3 0.84±0.11
叶绿素 0.87±0.1 0.94±0.02 0.93±0.04 0.93±0.04
芥子油苷 0.69±0.11 0.77±0.1 0.82±0.08 0.62±0.15
水分 0.94±0.04 0.95±0.03 0.96±0.03 0.93±0.03
蛋白质 0.90±0.06 0.93±0.03 0.89±0.07 0.90±0.04
总油 0.97±0.02 0.98±0.01 0.96±0.02 0.93±0.03
总饱和脂肪酸 0.80±0.03 0.76±0.04 0.91±0.01 0.83±0.04
C18:1 0.94±0.01 0.91±0.02 0.96±0.01 0.91±0.02
C18:2 0.82±0.03 0.84±0.03 0.93±0.01 0.78±0.06
C18.3 0.92±0.02 0.90±0.03 0.97±0.01 0.91±0.03
C16:0 0.71±0.03 0.63±0.05 0.85±0.02 0.75±0.04
表2突出显示了具有对每种性状的最高R2值的方法。在一些情况中,两种或更多种方法具有非常相似的R2值(例如,PLS、ANN和SVM方法在叶绿素性状的分析中表现得非常相似)。芥子油苷性状的R2值相比于其他性状是最低的。这很可能归因于以下事实,即该性状的参照化学方法在相同样品的多次运行之间具有较大的变异性(±3),且校正模型是在这些值的平均上开发的。
依照前述内容在Unity机器上建立用于种子组成性状的校正模型以开发针对向日葵的模型。
异常值检测
基于文献综述,鉴定了3种异常值检测技术(Mahalanobis距离、样品杠杆作用和图论测量(ODIN))并在中执行。执行一种投票规程,其将样品标记为异常值,如果两种或更多种方法学将其分类为执行的异常值的话。
使用该投票规程,1696份样品中有18份被鉴定为异常值。这18个异常值中有6个确定为在样品中具有不充足的种子或泥土,如此从训练集除去。确定18个异常值中有4个可能是YSC种子,因此留出用于进一步研究。而且,18个异常值中有8个确定为在可视区域中具有不同的NIR光谱,可能来自高叶绿素含量,因此也留出用于进一步研究。
网络界面
设计网络界面以将光谱数据收集从数据分析解偶联,由此改进NIRS分析的通量(throughput)。网络界面允许用户容易地上载光谱数据并选择感兴趣的作物和性状。界面将数据和选择的不同选项的值提交至网络服务器,该服务器伺服(host)针对每种性状开发和维护的校正模型。网络界面的截图显示于图48。

Claims (19)

1.一种用于确定近红外分光镜(NIRS)数据的化学计量模型来鉴定植物样品中感兴趣的特征的方法,所述方法包括:
提供要分析的植物样品;
从所述植物样品获得NIRS数据;
提供包含数据库的计算机可读的存储介质,所述数据库包含NIRS数据的多种化学计量模型,其中所述NIRS数据包含关于所述感兴趣特征的信息;
提供包含用于利用所述多种化学计量模型来确定所述NIRS数据与所述感兴趣特征之间的关系的分析性编程的计算机;
选择用于所述多种化学计量模型中每一种的参数;
利用所述多种化学计量模型中的每一种来确定从所述植物样品获得的NIRS数据与所述感兴趣特征之间的关系;并
确定将从所述植物样品获得的NIRS数据与所述感兴趣特征最紧密相关的化学计量模型,其中将从所述植物样品获得的NIRS数据与所述感兴趣特征最紧密相关的化学计量模型鉴定所述感兴趣的特征。
2.依照权利要求1的方法,其中所述方法是自动化的。
3.依照权利要求1的方法,其中所述计算机包含用于鉴定NIR数据中的异常数据的分析性编程,而且在利用所述多种化学计量模型中的每一种来确定所述NIR数据与所述感兴趣的植物性状之间的关系之前将所述异常数据从所述NIR数据移出。
4.依照权利要求1的方法,其中所述计算机包含用于标准化所述NIR数据,从而除去来自用于获得所述NIR数据的NIR分光计对所述NIR数据的影响的分析性编程。
5.依照权利要求1的方法,所述方法还包括用户界面,其中指明获得所述植物样品的植物和所述感兴趣的植物性状。
6.依照权利要求1的方法,所述方法还包括传播电子信息,该信息包含所述NIR数据与所述感兴趣的植物性状之间的关系,如由鉴定所述感兴趣的植物性状的化学计量模型测定的。
7.依照权利要求1的方法,其中所述感兴趣的特征指示获得所述植物样品的植物中感兴趣的植物性状。
8.一种用于在从植物获得的植物样品中确定至少一种感兴趣特征的系统,所述系统包含:
近红外(NIR)分光计;和
含有数据库的处理器,所述数据库包含来自所述植物样品的NIR光谱学(NIRS)数据的多种化学计量模型,其中所述NIRS数据包含关于所述感兴趣特征的信息,还含有用于利用所述多种化学计量模型来确定所述NIRS数据与所述感兴趣特征之间的关系的分析性编程,
其中所述处理器利用所述多种化学计量模型中的每一种来确定NIRS数据与所述感兴趣特征之间的关系,其中所述处理器鉴定将所述NIRS数据与所述感兴趣特征最紧密相关的化学计量模型,且其中所述处理器利用将所述NIRS数据与所述感兴趣的植物性状最紧密相关的化学计量模型来确定所述植物样品中感兴趣的特征。
9.权利要求8的系统,其中所述植物样品中感兴趣的特征指示获得所述植物样品的植物中感兴趣的植物性状。
10.权利要求8的系统,其中所述NIR分光计和所述处理器不是物理附接的。
11.权利要求10的系统,其中所述NIR分光计和所述处理器相隔至少约100英里(160.9km)的距离。
12.一种用于确定近红外分光镜(NIRS)数据的化学计量模型来鉴定植物样品中感兴趣的特征的方法,所述方法包括:
提供要分析的植物样品;
从所述植物样品获得NIRS数据;
提供包含数据库的计算机可读的存储介质,所述数据库包含用于实施NIRS数据的多变量化学计量分析的多种手段,其中所述NIRS数据包含关于所述感兴趣特征的信息;
提供包含用于利用所述多种手段来实施NIRS数据的多变量化学计量分析,从而确定所述NIRS数据与所述感兴趣特征之间的关系的分析性编程的计算机;
选择用于所述多种化学计量模型中每一种的参数;
利用所述多种手段中的每一种来实施NIRS数据的多变量化学计量分析以确定从所述植物样品获得的NIRS数据与所述感兴趣特征之间的关系;并
确定将从所述植物样品获得的NIRS数据与所述感兴趣特征最紧密相关的用于实施NIRS数据的多变量化学计量分析的手段,其中将从所述植物样品获得的NIRS数据与所述感兴趣特征最紧密相关的用于实施NIRS数据的多变量化学计量分析的手段包含鉴定所述感兴趣特征的化学计量模型。
13.一种确定植物材料中的感兴趣特征的方法,所述方法包括:
提供所述植物材料的样品;
利用权利要求8的系统来确定所述样品中的感兴趣特征;并
(a)如果确定所述样品为包含所述感兴趣的特征,那么将所述感兴趣的特征归属于所述植物材料,或
(b)如果确定所述样品为不包含所述感兴趣的特征,那么不将所述感兴趣的特征归属于所述植物材料,
由此确定所述植物材料中的感兴趣的特征。
14.一种用于确定植物中的感兴趣性状的方法,所述方法包括:
提供从所述植物获得的样品;
利用权利要求8的系统来确定所述样品中的特征,其中所述特征指示所述植物中感兴趣的性状;并
(a)如果确定所述样品为包含所述特征,那么将所述感兴趣的性状归属于所述植物,或
(b)如果确定所述样品为不包含所述特征,那么不将所述感兴趣的性状归属于所述植物,
由此确定所述植物中的感兴趣的性状。
15.依照权利要求14的方法,其中所述感兴趣的性状是种子组成性状。
16.一种向植物中引入至少一种期望性状的方法,所述方法包括:
提供从第一植物获得的样品;
利用权利要求8的系统来确定所述样品中特征的存在,其中所述特征指示所述第一植物中感兴趣的性状,由此确定所述第一植物中感兴趣的性状;
将所述第一植物与同一物种的第二植物杂交以产生F1后代植物;
选择具有所述感兴趣性状的一种或多种后代植物来产生选定的后代植物;
将所述选定的后代植物与所述第一植物回交以产生回交后代植物;
选择具有所述第二植物的生理学和形态学特征和所述感兴趣性状的回交后代植物以产生选定的回交后代植物;并
重复所述回交和选择步骤3次以上以产生包含所述感兴趣性状的近交选择的第四代或更高世代的回交后代植物。
17.依照权利要求16的方法,其中在回交步骤后利用权利要求7的系统来确定从所述回交后代植物获得的样品中指示所述感兴趣性状的所述特征的存在。
18.依照权利要求17的方法,其中在每个回交步骤后利用权利要求7的系统来确定从所述回交后代植物获得的样品中指示所述感兴趣性状的所述特征的存在。
19.依照权利要求16的方法,其中所述感兴趣的性状是种子组成性状。
CN201280057729.1A 2011-09-23 2012-09-21 用于近红外光谱分析的化学计量 Pending CN103959292A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161538662P 2011-09-23 2011-09-23
US61/538,662 2011-09-23
PCT/US2012/056453 WO2013043947A1 (en) 2011-09-23 2012-09-21 Chemometrics for near infrared spectral analysis

Publications (1)

Publication Number Publication Date
CN103959292A true CN103959292A (zh) 2014-07-30

Family

ID=47912191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280057729.1A Pending CN103959292A (zh) 2011-09-23 2012-09-21 用于近红外光谱分析的化学计量

Country Status (8)

Country Link
US (1) US20130080070A1 (zh)
EP (1) EP2758906A1 (zh)
CN (1) CN103959292A (zh)
AU (1) AU2012312288A1 (zh)
BR (1) BR102012024001A2 (zh)
CA (1) CA2849326A1 (zh)
RU (1) RU2014116255A (zh)
WO (1) WO2013043947A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104198428A (zh) * 2014-08-21 2014-12-10 中国农业大学 带种衣剂种子真实性快速鉴定方法及系统
CN104819954A (zh) * 2015-04-21 2015-08-05 曾安 免标记物近红外检测样品中生物物质含量的方法
CN105606548A (zh) * 2016-01-28 2016-05-25 深圳市芭田生态工程股份有限公司 一种数据库与运算服务器的工作方法
CN105699304A (zh) * 2016-01-28 2016-06-22 深圳市芭田生态工程股份有限公司 一种获得光谱信息所代表的物质信息的方法
CN106680219A (zh) * 2015-11-06 2017-05-17 深圳市芭田生态工程股份有限公司 一种利用光谱数据和化学检测数据建立数据模型的方法
CN107290300A (zh) * 2017-06-23 2017-10-24 中国科学院亚热带农业生态研究所 一种基于红外光谱的饲料和饲料原料氨基酸含量的预测方法
CN108362659A (zh) * 2018-02-07 2018-08-03 武汉轻工大学 基于多源光谱并联融合的食用油种类快速鉴别方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103344597B (zh) * 2013-05-06 2015-06-10 江南大学 一种抗调味干扰的莲藕内部成分近红外无损检测的方法
CN103575680A (zh) * 2013-11-22 2014-02-12 南京农业大学 一种评估有机肥质量指标的光谱学方法
JP2016017837A (ja) * 2014-07-08 2016-02-01 住友電気工業株式会社 光学測定方法及びアルコールの製造方法
US9678002B2 (en) * 2014-10-29 2017-06-13 Chevron U.S.A. Inc. Method and system for NIR spectroscopy of mixtures to evaluate composition of components of the mixtures
JP6984010B2 (ja) * 2017-09-28 2021-12-17 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 深層学習ベースの散乱補正
JP6410199B1 (ja) * 2018-05-11 2018-10-24 アクティブ販売株式会社 対象体選別装置
DE102018221703A1 (de) * 2018-12-13 2020-06-18 HELLA GmbH & Co. KGaA Verifizierung und Identifizierung eines neuronalen Netzes
ES2955072T3 (es) * 2019-10-17 2023-11-28 Evonik Operations Gmbh Método de predicción de un valor de propiedad de un material usando análisis de componentes principales
CN110632024B (zh) * 2019-10-29 2022-06-24 五邑大学 一种基于红外光谱的定量分析方法、装置、设备以及存储介质
CN113203725A (zh) * 2021-05-06 2021-08-03 塔里木大学 一种基于拉曼光谱技术与化学计量法的苹果身份识别方法
EP4183247A1 (en) * 2021-11-17 2023-05-24 KWS SAAT SE & Co. KGaA Method and apparatus for sorting seeds
WO2024046603A1 (en) * 2022-08-29 2024-03-07 Büchi Labortechnik AG Methods for providing a predictive model for spectroscopy and calibrating a spectroscopic device
WO2024170532A1 (en) 2023-02-14 2024-08-22 Trinamix Gmbh Chemometric model selection by image analysis

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5332408A (en) * 1992-08-13 1994-07-26 Lakeside Biotechnology, Inc. Methods and reagents for backcross breeding of plants
US20020039740A1 (en) * 1998-04-22 2002-04-04 Imaging Research Inc. Process for evaluating chemical and biological assays
US20040084623A1 (en) * 2002-11-06 2004-05-06 Yicheng Long NIR spectroscopy method for analyzing chemical process components
US20060043300A1 (en) * 2004-09-02 2006-03-02 Decagon Devices, Inc. Water activity determination using near-infrared spectroscopy
US20070161347A1 (en) * 2006-01-10 2007-07-12 Lucent Technologies, Inc. Enabling a digital wireless service for a mobile station across two different wireless communications environments
WO2009059176A2 (en) * 2007-11-02 2009-05-07 Ceres, Inc. Materials and methods for use in biomass processing
US20090121138A1 (en) * 2005-03-16 2009-05-14 Alasdair Iain Thomson Measuring Near Infra-Red Spectra Using a Demountable Nir Transmission Cell
US20090321646A1 (en) * 2005-07-12 2009-12-31 Daniel Cozzolino Non-destructive analysis by vis-nir spectroscopy of fluid(s) in its original container
US20110125477A1 (en) * 2009-05-14 2011-05-26 Lightner Jonathan E Inverse Modeling for Characteristic Prediction from Multi-Spectral and Hyper-Spectral Remote Sensed Datasets

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5332408A (en) * 1992-08-13 1994-07-26 Lakeside Biotechnology, Inc. Methods and reagents for backcross breeding of plants
US20020039740A1 (en) * 1998-04-22 2002-04-04 Imaging Research Inc. Process for evaluating chemical and biological assays
US20040084623A1 (en) * 2002-11-06 2004-05-06 Yicheng Long NIR spectroscopy method for analyzing chemical process components
US20060043300A1 (en) * 2004-09-02 2006-03-02 Decagon Devices, Inc. Water activity determination using near-infrared spectroscopy
US20090121138A1 (en) * 2005-03-16 2009-05-14 Alasdair Iain Thomson Measuring Near Infra-Red Spectra Using a Demountable Nir Transmission Cell
US20090321646A1 (en) * 2005-07-12 2009-12-31 Daniel Cozzolino Non-destructive analysis by vis-nir spectroscopy of fluid(s) in its original container
US20070161347A1 (en) * 2006-01-10 2007-07-12 Lucent Technologies, Inc. Enabling a digital wireless service for a mobile station across two different wireless communications environments
WO2009059176A2 (en) * 2007-11-02 2009-05-07 Ceres, Inc. Materials and methods for use in biomass processing
US20110125477A1 (en) * 2009-05-14 2011-05-26 Lightner Jonathan E Inverse Modeling for Characteristic Prediction from Multi-Spectral and Hyper-Spectral Remote Sensed Datasets

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JANNI J,ET AL.,: "Novel near-infrared sampling apparatus for single kernel analysis of oil content in maize", 《 APPLIED SPECTROSCOPY》 *
WEINSTOCK B A,ET AL.,: "Prediction of oil and oleic acid concentrations in individual corn (Zea mays L.) kernels using near-infrared reflectance hyperspectral imaging and multivariate analysis", 《APPLIED SPECTROSCOPY》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104198428A (zh) * 2014-08-21 2014-12-10 中国农业大学 带种衣剂种子真实性快速鉴定方法及系统
CN104198428B (zh) * 2014-08-21 2016-08-24 中国农业大学 带种衣剂种子真实性快速鉴定方法及系统
CN104819954A (zh) * 2015-04-21 2015-08-05 曾安 免标记物近红外检测样品中生物物质含量的方法
CN104819954B (zh) * 2015-04-21 2018-04-17 曾安 免标记物近红外检测样品中生物物质含量的方法
CN106680219A (zh) * 2015-11-06 2017-05-17 深圳市芭田生态工程股份有限公司 一种利用光谱数据和化学检测数据建立数据模型的方法
CN105606548A (zh) * 2016-01-28 2016-05-25 深圳市芭田生态工程股份有限公司 一种数据库与运算服务器的工作方法
CN105699304A (zh) * 2016-01-28 2016-06-22 深圳市芭田生态工程股份有限公司 一种获得光谱信息所代表的物质信息的方法
CN105606548B (zh) * 2016-01-28 2018-06-19 深圳市芭田生态工程股份有限公司 一种数据库与运算服务器的工作方法
CN105699304B (zh) * 2016-01-28 2018-08-14 深圳市芭田生态工程股份有限公司 一种获得光谱信息所代表的物质信息的方法
CN107290300A (zh) * 2017-06-23 2017-10-24 中国科学院亚热带农业生态研究所 一种基于红外光谱的饲料和饲料原料氨基酸含量的预测方法
CN108362659A (zh) * 2018-02-07 2018-08-03 武汉轻工大学 基于多源光谱并联融合的食用油种类快速鉴别方法
CN108362659B (zh) * 2018-02-07 2021-03-30 武汉轻工大学 基于多源光谱并联融合的食用油种类快速鉴别方法

Also Published As

Publication number Publication date
US20130080070A1 (en) 2013-03-28
EP2758906A1 (en) 2014-07-30
RU2014116255A (ru) 2015-10-27
BR102012024001A2 (pt) 2015-11-24
AU2012312288A1 (en) 2014-03-06
WO2013043947A1 (en) 2013-03-28
CA2849326A1 (en) 2013-03-28

Similar Documents

Publication Publication Date Title
CN103959292A (zh) 用于近红外光谱分析的化学计量
Parmley et al. Machine learning approach for prescriptive plant breeding
G. Poley et al. A systematic review of the factors influencing the estimation of vegetation aboveground biomass using unmanned aerial systems
Toscano et al. A precision agriculture approach for durum wheat yield assessment using remote sensing data and yield mapping
Rivera et al. On the semi-automatic retrieval of biophysical parameters based on spectral index optimization
Shu et al. The application of UAV-based hyperspectral imaging to estimate crop traits in maize inbred lines
Lu et al. Evaluating empirical regression, machine learning, and radiative transfer modelling for estimating vegetation chlorophyll content using bi-seasonal hyperspectral images
Newman et al. Explainable machine learning models of major crop traits from satellite-monitored continent-wide field trial data
Zhang et al. Detection of canopy chlorophyll content of corn based on continuous wavelet transform analysis
Liu et al. Growth stages classification of potato crop based on analysis of spectral response and variables optimization
Qi et al. Hyperspectral inversion model of chlorophyll content in peanut leaves
Kopačková et al. Modelling diverse soil attributes with visible to longwave infrared spectroscopy using PLSR employed by an automatic modelling engine
McGrath et al. The potential of handheld near infrared spectroscopy to detect food adulteration: Results of a global, multi-instrument inter-laboratory study
Candiani et al. Evaluation of hybrid models to estimate chlorophyll and nitrogen content of maize crops in the framework of the future CHIME mission
Peng et al. Identification of the best hyperspectral indices in estimating plant species richness in sandy grasslands
Habibi et al. Machine learning techniques to predict soybean plant density using UAV and satellite-based remote sensing
Smith et al. Machine learning algorithms to predict forage nutritive value of in situ perennial ryegrass plants using hyperspectral canopy reflectance data
Duranovich et al. Using proximal hyperspectral sensing to predict herbage nutritive value for dairy farming
Zhou et al. A new coupled elimination method of soil moisture and particle size interferences on predicting soil total nitrogen concentration through discrete nir spectral band data
Paleari et al. Estimating crop nutritional status using smart apps to support nitrogen fertilization. A case study on paddy rice
Flynn et al. Hyperspectral reflectance and machine learning to monitor legume biomass and nitrogen accumulation
Schut et al. Imaging spectroscopy for on‐farm measurement of grassland yield and quality
Cadet et al. Use of machine learning and infrared spectra for rheological characterization and application to the apricot
Abbasi et al. Optimal spectral wavelengths for discriminating orchard species using multivariate statistical techniques
Dai et al. A general methodology for the quantification of crop canopy nitrogen across diverse species using airborne imaging spectroscopy

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140730