CN107076712A - 色谱数据处理方法以及装置 - Google Patents

色谱数据处理方法以及装置 Download PDF

Info

Publication number
CN107076712A
CN107076712A CN201480083142.7A CN201480083142A CN107076712A CN 107076712 A CN107076712 A CN 107076712A CN 201480083142 A CN201480083142 A CN 201480083142A CN 107076712 A CN107076712 A CN 107076712A
Authority
CN
China
Prior art keywords
waveform
chromatogram
peak
composition
chromatographic data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480083142.7A
Other languages
English (en)
Other versions
CN107076712B (zh
Inventor
野田阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Publication of CN107076712A publication Critical patent/CN107076712A/zh
Application granted granted Critical
Publication of CN107076712B publication Critical patent/CN107076712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/26Conditioning of the fluid carrier; Flow patterns
    • G01N30/38Flow patterns
    • G01N30/46Flow patterns using more than one column
    • G01N30/461Flow patterns using more than one column with serial coupling of separation columns
    • G01N30/463Flow patterns using more than one column with serial coupling of separation columns for multidimensional chromatography

Landscapes

  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Treatment Of Liquids With Adsorbents In General (AREA)

Abstract

在将在色谱上重叠的峰进行分离时应用高斯混合模型的EM算法。但是,在此,模型数、也就是说相重叠的成分数本身是不清楚的,因此,适当地设定模型数(S1)后通过EM算法将实测信号适当地分配给各模型并且进行模型参数的拟合(S2、S3)。然后,如果解已收敛(S4中“是”),则判定未被分配的残差信号是否存在峰状波形(S5),如果存在峰状波形则追加峰模型(S6)来再次执行EM算法。在M步骤中,不仅进行使用单纯的高斯函数的优化,还进行使用设想了拖尾的变形高斯函数的优化。另外,在M步骤中,通过重复进行假设了色谱的频谱估计以及假设了频谱的色谱估计,来进行色谱波形和频谱波形这两方的优化。

Description

色谱数据处理方法以及装置
技术领域
本发明涉及一种对通过将光电二极管阵列(PDA)检测器等多通道型检测器、质谱仪用作检测器的液相色谱仪(LC)或气相色谱仪(GC)、或者全二维气相色谱仪(也称为“GC×GC”)、全二维液相色谱仪(也称为“LC×LC”)等分析装置收集到的色谱数据进行处理的色谱数据处理方法以及装置,更详细地说,涉及一种用于将在色谱上、频谱上重叠的源自不同成分的峰进行分离的色谱数据处理方法以及装置。
背景技术
在使用PDA检测器等多通道型检测器的液相色谱仪中,能够以向流动相注入试样的注入时间点为基点,针对从柱出口洗提的试样液重复获取吸光频谱,由此得到具有时间、波长以及吸光度(信号强度)这三个维度的三维色谱数据。另外,在将质谱仪用作检测器的液相色谱仪或气相色谱仪、也就是说液相色谱质谱联用仪或气相色谱质谱联用仪中,能够在质谱仪中重复进行规定的质荷比范围的扫描测定,由此得到具有时间、质荷比以及信号强度(离子强度)这三个维度的三维色谱数据。并且,在全二维气相色谱仪或全二维液相色谱仪中,能够得到具有分离特性互不相同的第一维柱和第二维柱各自的保持时间和信号强度这样的实质上具有三个维度的三维色谱数据。
在下面的说明中,列举了将PDA检测器用作得到三维色谱数据的分析装置的液相色谱仪(下面,只要没有特别明确记载,就将使用PDA检测器的液相色谱仪仅称为“液相色谱仪”)为例子,但是在液相色谱质谱联用仪、气相色谱质谱联用仪、全二维液相色谱仪、全二维气相色谱仪中情形也是同样的。
图13的(a)是由上述液相色谱仪得到的三维色谱数据的概念图。通过从该三维色谱数据提取特定的波长(例如λ0)下的时间方向的吸光度数据,能够制作表示该特定的波长λ0下的测定时刻(也就是说保持时间)与吸光度之间的关系的如该图的(b)所示的波长色谱(下面仅称为“色谱”)。另外,通过从三维色谱数据提取表示特定的时间点(测定时刻)的波长方向的吸光度的数据,能够制作表示该时间点的波长与吸光度之间的关系的吸光频谱(下面仅称为“频谱”)。即,可以说如图13的(a)所示的三维色谱数据在波长方向上具有频谱信息,在时间方向上具有色谱信息。
在使用这种液相色谱仪来进行试样中含有的已知目标成分的定量的情况下,通常制作该目标成分对光的吸收表现得最大的吸收波长下的色谱。而且,一般在该色谱上找到源自目标成分的峰的起点Ts和终点Te来计算峰的面积值,将该峰面积值与预先求出的校准曲线相对照来计算定量值。
在像这样对试样中的目标成分进行定量时,如果制作出的色谱中出现的峰仅源自目标成分则没有问题,但是峰未必是由单一成分(目标成分)引起的,经常存在重叠有源自出乎分析者意图的杂质(广义地说,目标成分以外的成分)的信号的情况。当分析者没有注意到这一情况就进行定量计算时,有损于定量精度。因此,通常在进行定量计算之前,进行所谓的峰纯度判定、即判定是色谱中出现的峰仅源自目标成分,还是含有其它成分。然后,在所关注的峰上重叠有源自目标成分以外的成分的峰的情况下,执行将源自目标成分的峰与源自其它成分的峰进行分离的峰分离处理,求出仅源自目标成分的纯度高的峰,基于该峰来进行定量计算。
作为上述峰纯度判定处理和峰分离处理,一直以来已知各种手法以供实际应用。
例如在专利文献1所记载的峰分离处理中,当分析者指定目标成分的吸收波长时,在沿时间方向排列的各频谱上分别计算在吸收波长附近的波长方向的微分值,生成将该微分值沿时间方向排列而得到的微分色谱。在频谱上的上述吸收波长的位置处出现的峰重叠有其它成分的情况下,微分色谱不平坦而出现峰。因此,根据该微分色谱上是否存在峰来判定是否重叠有其它成分,并且利用该微分色谱上的峰的波形形状等来在频谱上和色谱上将多个成分的峰进行分离。
然而,在这种手法中,需要由分析者自身来指定目标成分特有的吸收波长,为此,分析者需要具有某种程度的经验或熟悉度。即,需要由在某种程度上熟悉分析作业的分析者来进行手工作业。另外,在该峰分离处理手法中,尽管能够将两个成分相重叠的峰进行分离,但是难以将三个以上的成分相重叠的峰分别进行分离。
作为峰分离处理的其它手法,众所周知的是使用反卷积的手法。例如在专利文献2所记载的手法中,针对所得到的色谱,作为大致的色谱波形形状来进行利用高斯函数的反卷积处理或多变量分析处理(因子分析)等,根据其结果,首先求出成分没有重叠的频谱波形。然后,基于所得到的频谱来估计色谱波形,由此将色谱上的峰进行分离。
然而,在像这样使用反卷积处理先估计出频谱、之后使用估计出的频谱波形再估计色谱波形的手法的情况下,存在以下问题:当色谱峰的拖尾存在肩峰时无法在原理上解决,无法进行适当的峰分离。利用图14的(a)~(d)来说明一个例子。
图14的(a)是在将横轴的时间设为x时表示为exp(-x2)+0.1*exp(-(x-3)2)的包含肩峰的函数。使该波形乘以图14的(b)所示的exp(-x)的脉冲响应而得到的结果是图14的(c)所示的波形。当使用高斯函数在理想情况下对该波形进行反卷积处理时,得到如图14的(d)所示的波形。该图14的(d)所示的波形没有成为单纯的衰减曲线。这表示虽然进行了反卷积处理,但是与肩峰对应的保持时间处的频谱混入了主峰的成分。
另外,在专利文献2所记载的手法中,在排除所重叠的其它成分来估计纯度高的频谱时,施加将该频谱的要素限于正值之类的非负限制。然而,一般将由PDA检测器得到的频谱视作多维矢量时,该频谱包含很多相互从属的成分,因此仅施加单纯的非负限制等条件是难以使源自不同成分的频谱彼此分离的。即,以下做法是很困难的:不施加使色谱波形形状自然(成为像是色谱的波形)的非负限制以外的限制,而从在与肩峰的顶对应的保持时间观测到的频谱中仅去除源自主峰的频谱成分。
由于这样,不仅专利文献2所记载的手法,采取首先估计出纯粹的频谱之后求出色谱波形形状这样的顺序的全部手法均无法适当地处理在某个峰的拖尾处产生的肩峰,可以说不适于分离这种波形形状的色谱峰。
专利文献1:国际公开第2013/035639号
专利文献2:日本特开平8-15247号公报
非专利文献1:Geoffrey J.McLachlan与另外一人,The EM Algorithm andExtensions,Wiley Series in Probability and Statistics,2008年
非专利文献2:J.A.Bilmes,A Gentle Tutorial of the EM Algorithm and itsApplication to Parameter Estimation for Gaussian Mixture and Hidden MarkovModels,International Computer Science Institute and Computer ScienceDivision,University of California at Berkeley,1998年
发明内容
发明要解决的问题
本发明是为了解决上述问题而完成的,其目的在于提供如下一种色谱数据处理方法以及装置:基于如上所述的三维色谱数据,对于三个以上的多个峰相重叠而得到的峰、拖尾存在肩峰的峰,也能够自动地、也就是说以无需分析者进行麻烦的伴有判断的输入等的方式得到适当地将源自各试样成分的峰进行分离后的色谱和频谱。
用于解决问题的方案
一般来说,在色谱和频谱中,由纯粹的(也就是说没有重叠其它成分的)某一个成分引起而出现的峰的形状能够以高斯函数来近似地表示。因而,通常来说,无论是在色谱中还是在频谱中,源自多个成分的峰相重叠而得到的峰的形状都能够视作是将多个高斯函数进行线性结合后得到的高斯混合模型(GMM=Gaussian Mixture Model)。
作为在提供某个信号波形时导出合理的高斯混合模型的手法,众所周知高斯混合模型的期望值最大化(EM:Expectation Maximization,下面,按照惯用而称为“EM”)算法。
EM算法是迭代法的一种,是通过重复进行期望值(E)步骤和最大化(M)步骤这两个步骤来求出最大似然估计解的手法,在非专利文献1、2等各种文献中有详细记载,其中,在该期望值(E)步骤中,计算与似然函数的条件概率有关的期望值,在该最大化(M)步骤中,求出使期望值最大化的解。在高斯混合模型的EM算法中,通常会预先提供最佳模型数来作为计算条件之一。与此相对,在是在此作为问题的峰分离处理的情况下,除了三维色谱数据中的一方的二维方向是色谱信息、另一个二维方向是频谱信息、它们是完全不同种类的信息之类的数据形式上的特征以外,还存在高斯混合模型的模型数、也就是说重叠的峰的数量本身不清楚的特征,无法直接应用一般的高斯混合模型的EM算法。
因此,本发明人对高斯混合模型的EM算法进行改进和变形,以应对在此要处理的数据的特征和目的,使得能够以高准确率估计色谱上的在时间上重叠的源自多个成分的各个纯粹的色谱,来良好地将峰分离。
即,为了解决上述问题而完成的本发明是一种色谱数据处理方法,是对针对作为测定对象的试样收集到的、具有时间、信号强度以及第三维度的三维色谱数据进行处理的色谱数据处理方法,通过例如高斯混合模型的EM(期望值最大化)算法那样将峰模型函数的拟合分为两个阶段的步骤来进行,由此将在分别以时间和信号强度为轴的色谱上重叠的、源自所述试样中含有的多个成分的峰进行分离,该色谱数据处理方法的特征在于,包括以下步骤:
a)数据分配步骤,基于与分别以时间和信号强度为轴的色谱的波形形状以及分别以第三维度和信号强度为轴的频谱的波形形状有关的波形形状模型,将所提供的三维色谱数据分配给一个或多个成分,求出每个成分的三维色谱数据,其中,该波形形状模型是预先提供的估计结果和通过后述拟合执行步骤得到的估计结果中的某一个;
b)拟合执行步骤,通过对根据通过所述数据分配步骤得到的每个成分的三维色谱数据求出的色谱和频谱分别进行色谱波形形状的拟合和频谱波形形状的拟合,来对与各成分对应的波形形状模型的参数进行修正,并通过重复执行第一步骤和第二步骤来提高拟合的似然度,其中,在所述第一步骤中,在设色谱波形形状正确的假设下通过最小二乘法来求出频谱波形,在所述第二步骤中,在设频谱波形形状正确的假设下通过最小二乘法来求出色谱波形;以及
c)含有成分判定步骤,将所述数据分配步骤和所述拟合执行步骤重复执行既定次数或者重复执行到能够视作解已收敛为止,之后,以提取或强调与在此时得到的各成分所对应的频谱正交的频谱成分的方式对所提供的三维色谱数据进行过滤处理,基于该过滤后的数据中出现的峰状波形的高度,来判定所述试样是否还含有另外的成分。
即,在本发明所涉及的色谱数据处理方法中,数据分配步骤相当于EM算法中的E(期望值)步骤,拟合执行步骤相当于EM算法中的M(最大化)步骤。
在利用PDA检测器等检测器针对含有通过色谱仪的柱在时间方向上分离出的各种成分的试样重复获取吸光频谱、荧光频谱等来收集三维色谱数据的情况下,上述“第三维度”是波长。
在利用质谱仪针对含有通过色谱仪的柱在时间方向上分离出的各种成分的试样重复获取质谱来收集三维色谱数据的情况下,上述“第三维度”是质荷比m/z。
并且,在利用全二维色谱仪来收集三维色谱数据的情况下,上述“第三维度”是时间(保持时间)。在该情况下,三个维度中的两个是时间,其中一个时间是时间刻度大的第一保持时间,另一个时间是表示第一保持时间的一个时间刻度中的精细的时间刻度的第二保持时间。
另外,在此所说的“三维色谱数据”也可以代替经色谱仪的柱进行成分分离后的试样得到的数据,而针对通过流动注射分析(FIA=Flow Injection Analysis)法不进行成分分离就被导入的试样,利用PDA检测器等多通道型检测器或质谱仪得到的数据。即,在仅含有单一成分的情况下,只要是能够随着时间经过而近似为高斯函数的成分浓度按山形状变化的数据,就能够在本发明所涉及的色谱数据处理方法以及装置中作为处理对象。
在本发明所涉及的色谱数据处理方法中,通过重复进行拟合执行步骤中的峰模型的估计以及数据分配步骤中的峰模型的混合比的估计,来基于所输入的三维色谱数据将色谱峰形状和频谱形状一起估计出来,基于该估计结果来进行峰分离。此时,在拟合执行步骤中,通过交替地重复进行色谱波形的估计和频谱波形的估计,能够提高各自的波形形状的精度。由此,能够对包含拖尾的肩峰也适当地进行峰分离。
当通过适当重复进行拟合执行步骤和数据分配步骤来决定此时的峰模型的假设下的峰模型的混合比时,在含有成分判定步骤中,得到与所提供的三维色谱数据对应的残差。如果峰模型波形的假设适当,且输入数据的分配也适当,则残差应该为大致固定。与此相对,在残差中观测到峰状波形的情况下,估计为峰模型波形的假设不适当,这可以视作此时的模型数的假设很可能不适当,因此推断为还含有另外的成分。然后,在使峰模型数增加的条件下,再次重复进行拟合执行步骤中的峰模型的估计和数据分配步骤中的峰模型的混合比的估计。
通过像这样一边根据基于残差的判断使峰模型数增加一边执行EM算法,能够使峰分离的解接近最佳解。其结果,即使相重叠的成分的数量不清楚,另外即使在三个以上的大量成分相重叠的情况下,也能够进行适当的峰分离。
另外,在本发明所涉及的色谱数据处理方法中,优选的是,在所述含有成分判定步骤中判定为所述试样含有另外的成分时,将所述过滤后的数据中出现的峰状波形作为要追加的该另外的成分的色谱波形形状的初始值来供于所述数据分配步骤的处理。
由此,在使峰模型数增加来再次执行EM算法时,能够从更适当的初始状态起开始该算法。其结果,解的收敛性提高,能够以更少的重复次数进行适当的峰分离。
另外,在本发明所涉及的色谱数据处理方法中,优选为,在所述数据分配步骤中,根据用于峰分离处理的步骤的重复次数或解的收敛度来在比例分配与均等分配之间切换,在所述比例分配中,根据各测定点的理论值的强度比来分配从所提供的三维色谱数据减去基于作为上述估计结果的各色谱波形和各频谱波形计算出的信号强度的理论值而求出的残差信号,在所述均等分配中,将该残差信号均等地分配给各成分。
具体地说,优选为,在EM算法的重复次数少时使用均等分配,如果重复次数大到某种程度则使用比例分配。
另外,在本发明所涉及的色谱数据处理方法中,也可以是,在所述数据分配步骤中,根据利用与各成分对应的频谱的线性加权和进行的最小二乘近似,来分配从所提供的三维色谱数据减去基于作为上述估计结果的各色谱波形和各频谱波形计算出的信号强度的理论值而求出的残差信号。
此外,也可以是,在进行最小二乘近似时,使用残差信号的大小或各成分的所述信号强度的理论值的大小、或者这两方来限制对各成分的频谱赋予的权重。
该分配方法虽然与上述均等分配和比例分配相比很有可能能够进行精度高的分配,但是并非将残差信号全部进行分配。因此,即使在使用这种分配方法的情况下,也期望兼用上述均等分配和比例分配。
另外,在本发明所涉及的色谱数据处理方法中,优选为,求出将各成分的色谱波形以任意的比率进行相加后得到的色谱波形,基于该色谱波形上的强度与所述信号强度的理论值之间的差异,来估计通过EM算法得到的解的稳定性。
另外,在本发明所涉及的色谱数据处理方法中,在拟合执行步骤中,可以将很常见的EMG(Exponential Modified Gaussian)等模型函数用作色谱模型波形,但是更优选的是,利用收录有将峰宽度、峰高度等进行标准化后得到的色谱波形的数据库,从该数据库选择最佳的色谱波形来使用。
由此,能够将更现实的色谱波形用作峰模型,因此拟合的精度进一步提高。
另外,特别是在PDA检测器中,在成分浓度高的情况下线性降低,有时在该影响下频谱形状会发生些许变化。由于该变化而存在以下情况:尽管实际上峰模型数是适当的,但是在含有成分判定步骤中错误判定峰模型数。
因此,在本发明所涉及的色谱数据处理方法中,优选为,在残差信号中存在峰状波形的情况下,基于以该残差信号为矩阵来进行主成分分析所得到的固有值的各要素的大小的比率,判定所述峰状波形是否因检测器的线性劣化所引起,在估计为所述峰状波形因线性劣化所引起时,做出不存在要追加的成分的结论。由此,能够避免过剩的峰分离。
另外,本发明所涉及的色谱数据处理装置,用于实施上述本发明所涉及的色谱数据处理方法,对针对作为测定对象的试样收集到的、具有时间、信号强度以及第三维度的三维色谱数据进行处理,该色谱数据处理装置通过例如高斯混合模型的EM算法那样将峰模型函数的拟合分为两个阶段的步骤来进行,由此将在分别以时间和信号强度为轴的色谱上重叠的、源自所述试样中含有的多个成分的峰进行分离,该色谱数据处理装置的特征在于,具备:
a)数据分配部,其基于与分别以时间和信号强度为轴的色谱的波形形状以及分别以第三维度和信号强度为轴的频谱的波形形状有关的波形形状模型,将所提供的三维色谱数据分配给一个或多个成分,求出每个成分的三维色谱数据,其中,该波形形状模型是预先提供的估计结果和通过后述拟合执行部得到的估计结果中的某一个;
b)拟合执行部,其通过对根据通过所述数据分配部得到的每个成分的三维色谱数据求出的色谱和频谱分别进行色谱波形形状的拟合和频谱波形形状的拟合,来对与各成分对应的波形形状模型的参数进行修正,并通过重复执行第一步骤和第二步骤来提高拟合的似然度,其中,在所述第一步骤中,在设色谱波形形状正确的假设下通过最小二乘法来求出频谱波形,在所述第二步骤中,在设频谱波形形状正确的假设下通过最小二乘法来求出色谱波形;以及
c)含有成分判定部,其将所述数据分配部的处理和所述拟合执行部的处理重复执行既定次数或者重复执行到能够视作解已收敛为止,之后,以提取或强调与在此时得到的各成分所对应的频谱正交的频谱成分的方式对所提供的三维色谱数据进行过滤处理,基于该过滤后的数据中出现的峰状波形的高度,来判定所述试样是否还含有另外的成分。
发明的效果
根据本发明所涉及的色谱数据处理方法以及装置,例如,即使基于利用将PDA检测器等多通道型检测器、质谱仪用作检测器的色谱仪收集到的三维色谱数据来制作出的色谱或频谱中出现的峰是源自三个以上的多个成分的峰相重叠后得到的峰、或者是拖尾存在肩峰这样的峰,也能够将重叠的峰准确地分离。由此,即使在例如色谱仪的分离性能不好的情况下,也能够以高精度对试样中含有的多个成分进行定量。
附图说明
图1是具备实施本发明所涉及的色谱数据处理方法的色谱数据处理装置的液相色谱仪的一个实施例的概要结构图。
图2是表示作为本发明的一个实施例的峰分离处理的基本过程的流程图。
图3是表示利用高斯混合模型(峰为2个的情况)得到的色谱波形的一例的图。
图4是峰模型的参数估计处理的流程图。
图5是峰的宽度的估计处理的说明图。
图6是表示存在峰状波形的情况下的频谱残差色谱的一例的图。
图7是表示对某个输入信号进行主成分分析时的主成分与固有值之间的关系的图表。
图8是表示拖尾上的杂质峰的状况的图。
图9是表示其它实施例中的峰分离处理的流程图。
图10是表示图9中的PCA维度下的EM追加步骤中的处理过程的流程图。
图11是表示图9中的PCA维度下的EM步骤中的处理过程的流程图。
图12是表示图9中的实际维度下的EM步骤中的处理过程的流程图。
图13是表示由液相色谱仪得到的三维色谱数据的概念图(a)和波长色谱的一例的图(b)。
图14是表示拖尾上存在肩峰的情况下的反卷积处理的一例的图,是分别表示原始的峰波形(a)、脉冲响应波形(b)、(a)的峰波形乘以(b)的脉冲响应波形而得到的波形(c)以及使用高斯函数在理想情况下对(c)的峰波形进行反卷积处理而得到的结果的波形(d)的图。
具体实施方式
首先,参照附图来说明本发明所涉及的色谱数据处理方法的一个实施例。
该色谱数据处理方法是:对已说明的如图13的(a)所示的三维色谱数据实施峰分离处理,估计试样中含有的每个成分的色谱波形和频谱波形。图2是该峰分离处理的基本流程图。
如众所周知的那样,色谱或频谱中出现的纯粹的峰的形状近似地表示为高斯函数。因此,通常情况下,无论是在色谱中还是在频谱中,源自多个成分的峰的重叠都能够视作是将多个高斯函数进行线性结合后得到的高斯混合模型。因此,在此,在色谱上或频谱上的峰分离中利用高斯混合模型(GMM)的EM算法。EM算法一般是重复执行对表示针对概率变量的概率密度函数的概率模型的参数进行优化的步骤(也就是说M步骤)以及对基于该概率模型的信号分离进行优化的步骤(也就是说E步骤)的算法。在此,各概率模型分别表示由与一个成分对应的三维色谱数据构成的一个峰,该数据具有色谱波形信息和频谱波形信息。然后,设将多个概率模型以各自的浓度进行混合后得到的结果为观测信号来进行模型化。图3表示两个概率模型(模型1、2)以及将它们混合后得到的波形的例子。
GMM的EM算法本身在以往被使用于各种领域。一般来说,在GMM的EM算法中,已知的是,若不在提供适当的概率模型数或大致的初始值的状态下执行处理,则会陷入局部最优解。然而,在峰分离处理的情况下,除了存在除了具有色谱信息以外还具有频谱信息之类的数据形式上的特征以外,还存在概率模型的数量、也就是说相重叠的色谱峰的数量原本不清楚的特征。因此,为了解决最佳的概率模型的数量不清楚这一问题,通过以GMM的EM算法为基本并追加如下面说明的各种特征或变形,来使得能够进行良好的峰分离处理。
此外,如上所述,GMM的EM算法及其计算方法在以非专利文献1和2为代表的各种文献中有详细记载,因此在此省略其详细说明。
如上所述,在此,在相同的保持时间范围和相同的波长范围内重叠的成分的数量、也就是说峰分离处理后的峰模型数在处理之前是未知的。因此,假设峰数是1来从峰模型数=1起开始处理。另外,适当地设定这一个峰的模型参数(步骤S1)。
此外,也可以是,不将峰数的初始值设为1,而是将通过进行在利用现有手法的峰分离或色谱的信号处理中一般进行的利用直线的峰分割而得到的结果设为峰数的初始值。即,若已知峰数不是某个值以下的情况的概率高,则只要将该值作为初始值,就能够更高效地(也就是说以短处理时间)得到最终的结果。
接着,作为EM算法的E步骤,基于遵循所设定的模型参数的峰模型,来对所输入的色谱信号进行分配(步骤S2)。其中,在峰数为1的状态下执行步骤S2时,不需要进行信号分配,因此实质上跳过步骤S2。
在该E步骤中,在理想情况下,使所输入的色谱信号乘以用峰模型参数表示的频谱而得到的信号为进行分配的信号,但是在此还以误差最小二乘基准对各峰模型在频谱中的高度进行优化。如果是一般的GMM,则与对各峰模型赋予的权重成正比地分配在该优化后未被分配而残留的残差信号。在此,这样也是可以的,但是更优选的是,对进行了理想的信号分配之后的残差信号适当地进行下面叙述的比例分配、均等分配、频谱分配这三种不同的方法的信号分配。
(1)比例分配
比例分配是按波长来进行与一般的GMM同样的处理。即,与峰模型波形上的强度成正比地分配基于峰模型和输入信号而得到的残差信号。
(2)均等分配
均等分配是将与输入信号对应的残差信号均等地分配给全部峰模型的分配。这在EM步骤的初始阶段等所估计的峰模型与真正的值之间的偏离大的情况下特别有效。
(3)频谱分配
在频谱分配中,在各保持时间,视作残差信号是各峰模型的频谱的合成值,通过最小二乘法来求出各个频谱的大小。其中,为了避免超适应,使用施加了各频谱成分的权重为残差频谱与各峰模型的频谱的内积或与该内积相近的规定值以下这样的限制的、带限制的最小二乘法。频谱分配虽然是相当有效的信号分配方法,但是无法将残差信号全部分配。因此,需要再通过比例分配或均等分配将由于进行频谱分配而残留的残差信号进行分配。
如果各峰模型被分配了信号,则接着,作为EM算法的M步骤,对分配给各峰模型的信号执行峰模型的拟合,以使似然度提高的方式修正模型参数(步骤S3)。
一般来说,在理想的由液相色谱仪得到的色谱数据中,不依赖于成分浓度等,各峰模型示出固有的频谱。因此在此,以由各峰模型必然具有固有的频谱这样的频谱信息带来的制约为前提,来执行改进后的处理。
即,在步骤S3中,兼用假设峰形状是单纯的高斯函数的高斯分布M步骤以及预先假设有拖尾的m-高斯分布(变形高斯分布)M步骤。
通常的高斯函数无法表现拖尾,因此利用高斯分布M步骤进行的参数优化在精度这一点上不佳。另一方面具有以下优点:参数的数量可以较少,因此由于超适应而陷入局部最优解的担忧小。与此相对,在m-高斯分布M步骤中,不使用理想的高斯函数,而是使用基于EMG(Exponential Modified Gaussian)函数等拖尾模型函数、或实测得到的峰波形等制作出的波形群来进行拟合,由此求出峰模型波形。因此,与高斯分布M步骤相比,能够高精度地进行峰模型波形近似。但另一方面,与高自由度相应地,存在易于由于超适应而陷入局部最优解的缺点。因此,在此,在重复进行步骤S2、S3的EM算法的初期,使用相比于精度更重视处理稳定性的通常的高斯分布M步骤,在EM算法的后期,使用重视精度的m-高斯分布M步骤。由此,能够兼顾处理的稳定性和峰波形估计的精度。
各M步骤的详情如下。
(1)高斯分布M步骤
通常情况下,在GMM中对概率密度函数进行高斯分布的拟合,但是在此使用各保持时间的频谱(也就是说表示波长与信号强度之间的关系的波形)来代替概率密度函数。
图4是此时的峰模型的参数估计处理的流程图。
即,首先适当地设定初始频谱(步骤S11),之后在设频谱已知的假设下,以该频谱与分配信号的内积为输入,计算在各波长下共同的最佳的色谱峰的模型参数(步骤S12)。一旦由此决定了色谱波形,就接着在设色谱波形的模型参数已知的假设下计算该色谱波形与分配信号的内积,将其决定为最佳的频谱(步骤S13)。这样,作为峰模型的参数,估计色谱上的峰的宽度和位置,并且也估计频谱。此外,在此,色谱或频谱包含基线噪声,因此无法使用在以一般的概率分布为对象的GMM中使用的、基于分布的矩量来求出模型参数的方法。因此,通过使用最小二乘法来进行峰的位置和宽度的估计。
(2)m-高斯分布M步骤
除了将纳入了包含拖尾的变形要素的变形高斯分布用作模型函数以外,该M步骤的目的与上述的高斯分布M步骤相同。
在求取色谱上的峰的宽度和位置、或者拖尾形状时,在求出该峰的位置和宽度之后,与收录有各种变形高斯分布模型波形的数据库进行对照。
通过在时间方向上以子样本为单位进行均值偏移并估计峰顶,来进行峰的位置的估计。另一方面,如图5所示,通过将峰高度的最大值设为1,并以使宽度内的信号平均高度为0.72的方式决定宽度,来进行峰的宽度的估计。由此,能够高精度且与半值宽度相比更具鲁棒性地求出峰宽。当然,平均高度也可以使用0.72以外的值。
另外,关于拖尾形状,只要通过与上述数据库进行对照来提取出形状的类似性最高的(相关度高的)波形即可。既可以通过基于模型函数在妥当的范围内调整参数来制作该数据库,也可以对实测出的波形进行聚类分析来求出该数据库。可以将一个峰划分为前半(前延)部和后半(拖尾)部来分别实施上述处理,但是也可以不进行这种划分而对使前半部和后半部成组的数据进行处理。
如果上述步骤S2、S3的处理结束,则判定解是否已收敛。另外,判定是否即使解没有收敛、也已将步骤S2、S3的处理的执行重复了既定次数(步骤S4)。然后,如果解没有收敛、处理的重复也没有达到既定次数,则返回到步骤S2。因而,在从步骤S4返回到S2的情况下,使用在步骤S3(M步骤)中修正得到的模型参数来执行步骤S2(E步骤)。
如果步骤S4中判定为“是”,则通过实施EM算法来求出残留的残差信号,并判定该残差信号是否存在峰状波形,由此判断是否要追加峰模型(步骤S5)。
具体地说,从所输入的色谱信号中提取与各峰模型的频谱正交的频谱来作为残差信号,在各保持时间计算该残差信号的二阶范数。然后,制作将该残差信号的二阶范数按时间序列进行排列而得到的频谱残差色谱。在至少对所关注的色谱上的峰上重叠的多个成分分别确定了峰模型的情况下,残差信号大致为零,或者虽然由于背景噪声等影响而不为零、但是残差信号在时间上没有大的变动。因而,如果在频谱残差色谱中观测到峰状波形,则认为是残差信号中尚残留有另外的成分。在该情况下,需要新追加峰模型。图6是存在峰状波形的情况下的频谱残差色谱的一例。
为了判定在频谱残差色谱中是否存在峰状波形,能够使用已知的各种峰检测方法,但是在此如下那样判定是否存在峰状波形。
即,对频谱残差色谱实施峰检测,确定包含最大值的半值宽度(在此是信号强度为最大值的60%的宽度)。然后,计算该半值宽度内的信号强度的5阶微分,将其作为噪声水平,将半值宽度内的信号的最大值与最小值之差同噪声水平进行比较,如果相比于噪声水平足够大(例如如果是噪声水平的规定倍以上),则判定为它是峰状波形。
如果如上所述那样在步骤S5中判定为残差信号中存在峰状波形,则估计为重叠有另外的成分,基于该峰状波形来设定适当的模型初始值,在此基础上追加模型峰(步骤S6),返回到步骤S2。另一方面,如果在步骤S5中判定为残差信号不存在峰状波形,则判断为不需要追加模型峰,结束处理。
但是,在虽然残差信号中存在峰状波形、但是其峰高度为残差信号整体的SN比水平以下的情况下,该峰实际为噪声变动的可能性高。因此,按波长使残差信号标准化,在各波长下峰状波形的最大值部分处的残差信号的频谱为上述噪声水平以下的情况下,认为是例外,不追加模型峰,结束处理。
在从步骤S6返回到S2的情况下,在增加了一个峰模型的状态下再次重复执行上述步骤S2~S4的EM算法。然后,当所关注的峰变为能够视作不再有其它重叠的成分的状态时,在步骤S5中判定为“否”,处理结束,确定与各成分相对应的色谱和频谱。
但是,在将PDA检测器用作检测器的情况下,期望的是,除了噪声以外,还考虑伴随检测器的线性的劣化而产生伪峰状波形。
即,一般来说,PDA检测器具有对高浓度试样的检测的线性会劣化的趋势。因此,在以随着成分浓度变高而频谱的峰状波形发生变化、针对同一试样成分的频谱的形状不变为前提的本数据处理方法中,有时上述峰状波形的变化会作为意想不到的峰状波形出现在残差信号上。
在所输入的色谱信号理想的情况下,当对该信号进行主成分分析(PCA)时,出现与重叠的峰的数量相应的具有大固有值的要素,剩余的固有值包含噪声。图7是表示对某个输入信号进行主成分分析时的主成分与固有值之间的关系的图表。如图7中A所示,在检测器不存在线性劣化且重叠的峰仅有一个的情况下,第一主成分的固有值突出地变大。与此相对,在重叠的峰不是仅有一个的信号的情况下,如图7中B所示,第一主成分的固有值的大小并非大到相比于第二主成分的固有值等突出的程度。
另一方面,图7中的C、D是检测器存在线性劣化的情况下的例子,C是线性劣化小的情况下的固有值,D是线性劣化大的情况下的固有值。根据这些结果可知,与几乎不存在线性劣化的情况下的固有值相比,第二主成分和第三主成分大,线性劣化的程度越大则第二主成分和第三主成分也越大。据此可知,通过判定对所输入的信号进行主成分分析时的第一主成分~第三主成分的固有值,能够判断因检测器的线性劣化引起的要素在残差信号中是否占据大部分。
因此,在本实施例的数据处理方法中,在经验上优选采用如下那样的方法。即,对输入色谱信号进行15维的主成分分析,在将残差的第一主成分的固有值设为Z1、将第n~m主成分的固有值的二阶范数设为Zn-m、同样地将与输入信号所对应的固有值有关的变量设为S时,使用通过下面的式子求出的指标值。当然,也能够使用矩量等表示分布范围的特征量来求出第一主成分~第三主成分的固有值的大小。
ZR1=sqrt{(Z1 2-Z12-15 2)/(Z2-5 2-Z12-15 2)}
ZR2=sqrt{(Z1 2-Z12-15 2)/(Z6-8 2-Z12-15 2)}
SR1=sqrt{(S1 2-S12-15 2)/(S2-5 2-S12-15 2)}
SR2=sqrt{(S1 2-S12-15 2)/(S6-8 2-S12-15 2)}
在ZR1/SR1<0.5且ZR2/SR2<0.01时判定为存在劣化。
如果如上所述那样做出存在线性劣化的结论,则即使在频谱残差色谱中观测到峰状波形,其原因在于检测器的线性劣化的可能性也很高。因此,在该情况下,优选不进行步骤S6中的峰模型追加,结束处理。
另外,如上所述,在本实施例的数据处理方法中,为了处理峰的拖尾,在特定的条件下不唯一地求解,解变得不稳定。例如EMG函数等的拖尾能够近似为多个高斯函数。因此,在该多个高斯函数之一与杂质峰的形状大致一致的情况下,通过调整拖尾度来成为以下的解:即使杂质峰与主成分峰的频谱相加,结果也自然(参照图8)。
即使将该主成分峰的频谱与杂质峰相加、波形形状也自然这样的条件表示:当按色谱的时间轴来考虑时,即使加上少许杂质峰,主成分的色谱也能够自然地拟合到改变拖尾的程度。因此,优选的是,追加以下步骤:在使主成分的色谱的峰模型波形与杂质成分的色谱的峰模型波形相加时,根据模型拟合步骤中的二乘误差增加多大程度来判断解的稳定性。
另外,在色谱上的某个峰是大峰与小峰的合成峰的情况下,在解的稳定性上成为问题的是小峰的变动。因此,也可以是,将频谱的二阶范数用作各峰模型的高度,设想使较小的色谱的峰变动固定比例(例如±10%左右)的情况,求出模型拟合步骤中的二乘误差的变动量,基于该变动量来进行不稳定解的判定。
另外,在进行如上所述的解的稳定性的判定和不稳定解的判定的结果是得到存在显著不稳定的解这一结果、且与频谱有一定以上的相关度的情况下,有可能是原本为一个的峰被分配为过多数量的峰。因此,也可以是,除了进行判定这种情况的处理以外,在确认了分配过多的情况下,进行使多个峰模型合并的合并处理来减少峰模型的数量。
并且,在纯产物检查等特定用途中,在如上所述那样判定为是不稳定解的情况下,有时希望知道在什么程度的范围内解不稳定。这例如是如下的情况:在设定了如果杂质的峰面积相对于不稳定解的峰面积为1.5以下则合格这样的合格与否判定基准时,计算出杂质的峰面积为1,且判定为它是不稳定解。在该情况下,判断不稳定解是否会变为1.5倍以上是很重要的。
为了应对这种情况,例如优选为,使用以使峰高度或峰面积等相同的方式进行标准化后的色谱波形来调查解变得不稳定的范围,之后与频谱中的各波长的信号强度成正比地分别求出各波长下的解的范围。
接着,参照图9~图12所示的流程图来说明以上述实施例的色谱数据处理方法为基本、实现处理的高速化且加上如上所述的附加性处理的其它实施例的色谱数据处理方法。
在该色谱数据处理方法中,对于三维色谱数据,通过主成分分析对各频谱进行维度压缩(步骤S21)。这是为了压缩处理对象的数据量。然后,实施与图2中的步骤S1同样的步骤S22的初始设定,之后执行PCA维度下的EM追加步骤处理(步骤S23)。
如图10所示,该处理从M步骤开始,这是由于在峰模型数为1时实质上不进行E步骤,与图2中按步骤S1→S2→S3进行的处理没有任何变化。然后,图10中的步骤S232、S233与图2中的步骤S5、S6实质上相同,在图10中,在步骤S233中判定为“是”时进入步骤S234的处理与图2中在步骤S5中判定为“是”时经过步骤S6返回到S2的处理相同。
在此,在步骤S234的E步骤中,作为与进行了理想的信号分配之后的残差信号有关的信号分配,利用了上述三个方法中的均等分配和比例分配。即,在将步骤S234~S237的重复次数设为i时,在i小于10且为奇数的情况下进行利用均等分配的信号分配,在i小于10且为偶数的情况以及i为10以上的情况下进行利用比例分配的信号分配(步骤S235)。然后,在之后的步骤S236的M步骤中,如果上述重复次数i小于20则执行高斯分布M步骤的处理,如果i为20以上则执行m-高斯分布M步骤的处理(步骤S236)。在执行M步骤之后,判定EM步骤的重复次数i是否已达到规定数(步骤S237),如果未达到规定数则返回到步骤S234。在此,规定数例如设为50即可。然后,如果步骤S237中判定为“是”,则与在图2中从步骤S4进入S5同样地,从S237返回到S232。然后,如果不需要新追加峰模型,则在步骤S233中判定为“否”,结束该PCA维度下的EM追加步骤的处理。
接着,执行PCA维度下的EM步骤处理(步骤S24)。即,如图11所示,在E步骤中根据重复次数来选择性地执行利用均等分配的信号分配和利用比例分配的信号分配(步骤S241~S243),在M步骤中执行m-高斯分布M步骤的处理(步骤S244)。然后,判定估计出的频谱是否已收敛(步骤S245),在判定为已收敛的情况下,例如如上所述那样判定是否存在显著不稳定的解且频谱有一定以上的相关度,由此判定是否分配过多(步骤S246)。在判定为分配过多的情况下,进行将多个峰模型合并的合并处理来减少峰模型的数量(步骤S247),返回到步骤S241。另一方面,在步骤S246中判定为未分配过多的情况下,不需要合并模型,因此结束处理。
如果这样在PCA维度上得到了解,则解除PCA的维度压缩,由此将解在实际维度上的频谱中展开(步骤S25)。然后,在实际维度中再次执行遵循与图11所示的流程图同样的如图12所示的流程图的利用EM步骤的峰分离(步骤S26)。在实际维度中不进行峰模型的追加,仅进行单纯的EM步骤的重复和峰模型的合并。因此,实际维度下的EM步骤的执行不那么耗费时间,能够提高峰分离的精度。
当然,也可以不像上述实施例那样将PCA维度上的处理与实际维度上的处理相组合,而是仅通过PCA维度上的处理来进行峰分离,还可以反之仅通过实际维度上的处理来进行峰分离。前者在缩短处理时间上有效,后者由于不实施PCA维度压缩/解压缩而在安装的简便度和峰分离的精度上有利。
接着,说明包括实施参照图2说明的色谱数据处理方法的色谱数据处理装置的LC分析装置的一个实施例。图1是该LC分析装置的概要结构图。说明该LC分析装置的结构和概要动作。
该LC分析装置包括LC部1和数据处理部2。在LC部1中,送液泵12从流动相容器11吸引流动相后以固定流量输送到喷射器13。喷射器13在规定的定时将试样液注入到流动相中。所注入的试样液被推向流动相后被导入到柱14,在通过柱14的期间试样液中的各成分在时间方向上被分离,从柱14出口被洗提。配置于柱14出口的PDA检测器15针对随着时间经过而依次导入的洗提液重复测定规定波长范围的吸光度分布。通过该测定得到的信号被模拟数字(A/D)转换器16转换为数字信号后,作为三维色谱数据被输入到数据处理部2。
数据处理部2具备保存三维色谱数据的色谱数据存储部21、收录有各种变形高斯分布模型波形等的模型函数数据库22、对三维色谱数据执行以如上所述的GMM的EM算法为基本的峰分离处理的峰分离处理部23、基于按成分分离出的色谱峰来进行定量计算的定量运算部24等功能模块。另外,数据处理部2例如连接有供分析者指定数据处理所需的各种参数的输入部3以及用于显示峰分离结果和定量运算结果等的显示部4。
在本实施例的LC分析装置中,将由LC部1针对一个试样收集到的三维色谱数据作为一个数据文件暂时保存在色谱数据存储部21中,当分析者在输入部3中指定处理对象的数据文件并在此基础上指示开始执行峰分离处理等时,峰分离处理部23通过使用模型函数数据库22并且进行上述的处理来分别估计按成分分离出的色谱波形和频谱波形。定量运算部24计算估计出的色谱波形上的峰的面积,基于其面积值来计算定量值。
在本实施例的LC分析装置中,即使在LC部1中没有充分地将目标成分与其它成分分离的情况下,在数据处理部2中也会以高精度求出目标成分的色谱峰的波形,因此能够准确地计算出该目标成分的浓度。
此外,上述实施例的色谱数据处理方法和LC分析装置是本发明的一个例子,即使在本发明的宗旨的范围内适当施加变形、追加、修正,也包含于本申请权利要求书,这是显而易见的。
例如,在本发明中获取作为处理对象的三维色谱数据的色谱仪的检测器也可以不是如上所述的PDA检测器等多通道型检测器,也可以是能够进行高速的波长扫描的紫外可见分光光度计、红外分光光度计、近红外分光光度计、荧光分光光度计等。另外,也可以是将质谱仪作为检测器的液相色谱质谱联用仪、气相色谱质谱联用仪。
另外,在利用PDA检测器等对不是通过柱的分析而是通过流动注射分析(FIA=Flow Injection Analysis)法导入的试样进行检测的情况下得到的数据也是具有时间、波长以及吸光度这三个维度的三维数据,与由液相色谱仪收集的三维色谱数据实质上相同。因而,能够将本发明也应用于这种处理数据的装置,这是显而易见的。
附图标记说明
1:LC部;11:流动相容器;12:送液泵;13:喷射器;14:柱;15:PDA检测器;16:模拟数字转换器;2:数据处理部;21:色谱数据存储部;22:模型函数数据库;23:峰分离处理部;24:定量运算部;3:输入部;4:显示部。

Claims (9)

1.一种色谱数据处理方法,是对针对作为测定对象的试样收集到的、具有时间、信号强度以及第三维度的三维色谱数据进行处理的色谱数据处理方法,将峰模型函数的拟合分为两个阶段的步骤来进行,由此将在分别以时间和信号强度为轴的色谱上重叠的、源自所述试样中含有的多个成分的峰进行分离,该色谱数据处理方法的特征在于,包括以下步骤:
a)数据分配步骤,基于与分别以时间和信号强度为轴的色谱的波形形状以及分别以第三维度和信号强度为轴的频谱的波形形状有关的波形形状模型,将所提供的三维色谱数据分配给一个或多个成分,求出每个成分的三维色谱数据,其中,该波形形状模型是预先提供的估计结果和通过后述拟合执行步骤得到的估计结果中的某一个;
b)拟合执行步骤,通过对根据通过所述数据分配步骤得到的每个成分的三维色谱数据求出的色谱和频谱分别进行色谱波形形状的拟合和频谱波形形状的拟合,来对与各成分对应的波形形状模型的参数进行修正,并通过重复执行第一步骤和第二步骤来提高拟合的似然度,其中,在所述第一步骤中,在设色谱波形形状正确的假设下通过最小二乘法来求出频谱波形,在所述第二步骤中,在设频谱波形形状正确的假设下通过最小二乘法来求出色谱波形;以及
c)含有成分判定步骤,将所述数据分配步骤和所述拟合执行步骤重复执行既定次数或者重复执行到能够视作解已收敛为止,之后,以提取或强调与在此时得到的各成分所对应的频谱正交的频谱成分的方式对所提供的三维色谱数据进行过滤处理,基于该过滤后的数据中出现的峰状波形的高度,来判定所述试样是否还含有另外的成分。
2.根据权利要求1所述的色谱数据处理方法,其特征在于,
在所述含有成分判定步骤中判定为所述试样含有另外的成分时,将所述过滤后的数据中出现的峰状波形作为要追加的该另外的成分的色谱波形形状的初始值来供于所述数据分配步骤的处理。
3.根据权利要求1或2所述的色谱数据处理方法,其特征在于,
在所述数据分配步骤中,根据用于峰分离处理的步骤的重复次数或解的收敛度来在比例分配与均等分配之间切换,在所述比例分配中,根据各测定点的理论值的强度比来分配从所提供的三维色谱数据减去基于各色谱波形和各频谱波形计算出的信号强度的理论值而求出的残差信号,在所述均等分配中,将该残差信号均等地分配给各成分。
4.根据权利要求1~3中的任一项所述的色谱数据处理方法,其特征在于,
在所述数据分配步骤中,根据利用与各成分对应的频谱的线性加权和进行的最小二乘近似,来分配从所提供的三维色谱数据减去基于各色谱波形和各频谱波形计算出的信号强度的理论值而求出的残差信号。
5.根据权利要求4所述的色谱数据处理方法,其特征在于,
在进行最小二乘近似时,使用残差信号的大小或各成分的信号强度的理论值的大小、或者这两方来限制对各成分的频谱赋予的权重。
6.根据权利要求1~5中的任一项所述的色谱数据处理方法,其特征在于,
求出将各成分的色谱波形以任意的比率进行相加后得到的色谱波形,基于该色谱波形上的强度与信号强度的理论值之间的差异,来估计通过EM算法得到的解的稳定性。
7.根据权利要求1~6中的任一项所述的色谱数据处理方法,其特征在于,
在所述拟合执行步骤中,利用收录有将峰宽度、峰高度进行标准化后得到的色谱波形的数据库,从该数据库选择最佳的色谱波形来使用。
8.根据权利要求1~7中的任一项所述的色谱数据处理方法,其特征在于,
在所述过滤后的残差信号中存在峰状波形的情况下,基于以该残差信号为矩阵来进行主成分分析所得到的固有值的各要素的大小的比率,判定所述峰状波形是否因检测器的线性劣化所引起,在估计为所述峰状波形因线性劣化所引起时,做出不存在要追加的成分的结论。
9.一种色谱数据处理装置,用于执行根据权利要求1~8中的任一项所述的色谱数据处理方法,对针对作为测定对象的试样收集到的、具有时间、信号强度以及第三维度的三维色谱数据进行处理,该色谱数据处理装置将峰模型函数的拟合分为两个阶段的步骤来进行,由此将在分别以时间和信号强度为轴的色谱上重叠的、源自所述试样中含有的多个成分的峰进行分离,该色谱数据处理装置的特征在于,具备:
a)数据分配部,其基于与分别以时间和信号强度为轴的色谱的波形形状以及分别以第三维度和信号强度为轴的频谱的波形形状有关的波形形状模型,将所提供的三维色谱数据分配给一个或多个成分,求出每个成分的三维色谱数据,其中,该波形形状模型是预先提供的估计结果和通过后述拟合执行部得到的估计结果中的某一个;
b)拟合执行部,其通过对根据通过所述数据分配部得到的每个成分的三维色谱数据求出的色谱和频谱分别进行色谱波形形状的拟合和频谱波形形状的拟合,来对与各成分对应的波形形状模型的参数进行修正,并通过重复执行第一步骤和第二步骤来提高拟合的似然度,其中,在所述第一步骤中,在设色谱波形形状正确的假设下通过最小二乘法来求出频谱波形,在所述第二步骤中,在设频谱波形形状正确的假设下通过最小二乘法来求出色谱波形;以及
c)含有成分判定部,其将所述数据分配部的处理和所述拟合执行部的处理重复执行既定次数或者重复执行到能够视作解已收敛为止,之后,以提取或强调与在此时得到的各成分所对应的频谱正交的频谱成分的方式对所提供的三维色谱数据进行过滤处理,基于该过滤后的数据中出现的峰状波形的高度,来判定所述试样是否还含有另外的成分。
CN201480083142.7A 2014-09-03 2014-09-03 色谱数据处理方法以及装置 Active CN107076712B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/073196 WO2016035167A1 (ja) 2014-09-03 2014-09-03 クロマトグラムデータ処理方法及び装置

Publications (2)

Publication Number Publication Date
CN107076712A true CN107076712A (zh) 2017-08-18
CN107076712B CN107076712B (zh) 2019-01-11

Family

ID=55439268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480083142.7A Active CN107076712B (zh) 2014-09-03 2014-09-03 色谱数据处理方法以及装置

Country Status (4)

Country Link
US (1) US10416134B2 (zh)
JP (1) JP6260709B2 (zh)
CN (1) CN107076712B (zh)
WO (1) WO2016035167A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111721852A (zh) * 2019-03-20 2020-09-29 日本株式会社日立高新技术科学 色谱仪的数据处理装置、数据处理方法以及色谱仪
CN111902719A (zh) * 2018-02-19 2020-11-06 塞尔诺生物科学有限责任公司 可靠自动的质谱分析
CN113167777A (zh) * 2018-10-02 2021-07-23 株式会社岛津制作所 鉴别器的生成方法
CN113419020A (zh) * 2021-06-30 2021-09-21 成都师范学院 糖化血红蛋白重叠峰识别方法、装置、系统、设备及介质
CN113607867A (zh) * 2021-07-23 2021-11-05 清华大学合肥公共安全研究院 一种基于峰体映射的双重叠谱峰解析方法
CN113659961A (zh) * 2021-07-19 2021-11-16 广东迈能欣科技有限公司 一种应用于二氧化碳传感器的滤波算法
WO2022081587A1 (en) * 2020-10-12 2022-04-21 Leco Corporation Unresolved complex mixture separation of data collected in two-dimensional gas chromatography
CN114391099A (zh) * 2019-10-02 2022-04-22 株式会社岛津制作所 波形解析方法和波形解析装置
CN114646715A (zh) * 2020-12-21 2022-06-21 株式会社岛津制作所 波形处理辅助装置以及波形处理辅助方法
CN115398226A (zh) * 2020-04-17 2022-11-25 株式会社岛津制作所 波形信息估计方法及装置以及峰波形处理方法及装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106574914B (zh) * 2014-06-24 2018-09-11 株式会社岛津制作所 全二维色谱用数据处理装置
WO2016103388A1 (ja) * 2014-12-25 2016-06-30 株式会社島津製作所 分析装置
US11187685B2 (en) * 2015-02-16 2021-11-30 Shimadzu Corporation Noise level estimation method, measurement data processing device, and program for processing measurement data
JP6711453B2 (ja) * 2017-03-29 2020-06-17 日本電気株式会社 電気泳動解析装置、電気泳動解析方法及びプログラム
GB2577435B (en) * 2017-06-12 2022-08-31 Hitachi High Tech Corp Chromatography mass spectrometry and chromatograph mass spectrometer
DE112019000840T5 (de) * 2018-03-14 2020-11-12 Hitachi High-Tech Corporation Chromatographie-Massenspektrometrie-Verfahren und Chromatograph-Massenspektrometer
EP3865872A4 (en) * 2018-11-19 2022-08-10 Canon Kabushiki Kaisha INFORMATION PROCESSING DEVICE, METHOD FOR CONTROLLING AN INFORMATION PROCESSING DEVICE, PROGRAM, CALCULATION DEVICE AND CALCULATION METHOD
CN110441420B (zh) * 2019-08-02 2022-04-22 长园深瑞监测技术有限公司 一种在线监测油中溶解气体气相色谱峰自动识别方法
CN111337606B (zh) * 2020-03-19 2023-03-31 南通乐尔环保科技有限公司 一种应用于色谱分析的重叠峰处理方法
JP7375928B2 (ja) * 2020-05-28 2023-11-08 株式会社島津製作所 ピークトラッキング装置、ピークトラッキング方法およびピークトラッキングプログラム
JP7332045B2 (ja) * 2020-05-29 2023-08-23 株式会社島津製作所 データ処理装置、データ処理方法、データ処理プログラムおよび分析装置
CN116136518B (zh) * 2023-04-20 2023-08-01 杭州泽天春来科技有限公司 色谱仪
CN116242954A (zh) * 2023-05-06 2023-06-09 精智未来(广州)智能科技有限公司 一种呼气分子分析气相色谱数据的自动化分析方法与系统
CN117907511B (zh) * 2024-03-20 2024-06-14 浙江灵析精仪科技发展有限公司 一种多组分重叠峰的自动化解析方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060194329A1 (en) * 2003-03-31 2006-08-31 Atsushi Ogiwara Sample analyzing method and sample analyzing program
WO2007092575A2 (en) * 2006-02-08 2007-08-16 Thermo Finnigan Llc A two-step method to align three dimensional lc-ms chromatographic surfaces
JP2011153966A (ja) * 2010-01-28 2011-08-11 Shimadzu Corp 三次元クロマトグラム用データ処理方法及びデータ処理装置
CN102590406A (zh) * 2012-01-16 2012-07-18 湖南中烟工业有限责任公司 基于气相色谱-质谱分析数据的三维信息对比分析方法
CN102590407A (zh) * 2012-01-16 2012-07-18 湖南中烟工业有限责任公司 基于气相色谱-质谱分析的共流出峰解析及谱库检索方法
JP2013171014A (ja) * 2012-02-23 2013-09-02 Shimadzu Corp クロマトグラフ用データ処理装置及びデータ処理方法
CN103765207A (zh) * 2011-09-05 2014-04-30 株式会社岛津制作所 色谱数据处理装置及处理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5644503A (en) * 1994-03-28 1997-07-01 Hitachi, Ltd. Methods and apparatuses for analyzing multichannel chromatogram
JP3025145B2 (ja) * 1994-03-28 2000-03-27 株式会社日立製作所 マルチチャンネルクロマトグラム解析方法及び装置
JP3270290B2 (ja) * 1994-04-28 2002-04-02 株式会社日立製作所 マルチチャンネルクロマトグラムの解析方法及びデータ処理装置
JP5146344B2 (ja) * 2009-02-09 2013-02-20 株式会社島津製作所 クロマトグラフ用データ処理装置
JP5333295B2 (ja) * 2010-03-09 2013-11-06 株式会社島津製作所 クロマトグラムピーク純度判定装置
WO2014108992A1 (ja) * 2013-01-08 2014-07-17 株式会社島津製作所 クロマトグラフ質量分析用データ処理装置
WO2015033478A1 (ja) * 2013-09-09 2015-03-12 株式会社島津製作所 ピーク検出方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060194329A1 (en) * 2003-03-31 2006-08-31 Atsushi Ogiwara Sample analyzing method and sample analyzing program
WO2007092575A2 (en) * 2006-02-08 2007-08-16 Thermo Finnigan Llc A two-step method to align three dimensional lc-ms chromatographic surfaces
JP2011153966A (ja) * 2010-01-28 2011-08-11 Shimadzu Corp 三次元クロマトグラム用データ処理方法及びデータ処理装置
CN103765207A (zh) * 2011-09-05 2014-04-30 株式会社岛津制作所 色谱数据处理装置及处理方法
CN102590406A (zh) * 2012-01-16 2012-07-18 湖南中烟工业有限责任公司 基于气相色谱-质谱分析数据的三维信息对比分析方法
CN102590407A (zh) * 2012-01-16 2012-07-18 湖南中烟工业有限责任公司 基于气相色谱-质谱分析的共流出峰解析及谱库检索方法
JP2013171014A (ja) * 2012-02-23 2013-09-02 Shimadzu Corp クロマトグラフ用データ処理装置及びデータ処理方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111902719A (zh) * 2018-02-19 2020-11-06 塞尔诺生物科学有限责任公司 可靠自动的质谱分析
CN111902719B (zh) * 2018-02-19 2024-05-07 塞尔诺生物科学有限责任公司 自动的质谱分析方法和仪器
CN113167777A (zh) * 2018-10-02 2021-07-23 株式会社岛津制作所 鉴别器的生成方法
CN113167777B (zh) * 2018-10-02 2024-01-05 株式会社岛津制作所 鉴别器的生成方法
CN111721852B (zh) * 2019-03-20 2023-09-22 日本株式会社日立高新技术科学 色谱仪的数据处理装置、数据处理方法以及色谱仪
CN111721852A (zh) * 2019-03-20 2020-09-29 日本株式会社日立高新技术科学 色谱仪的数据处理装置、数据处理方法以及色谱仪
CN114391099A (zh) * 2019-10-02 2022-04-22 株式会社岛津制作所 波形解析方法和波形解析装置
CN115398226B (zh) * 2020-04-17 2024-02-09 株式会社岛津制作所 波形信息估计方法及装置以及峰波形处理方法及装置
CN115398226A (zh) * 2020-04-17 2022-11-25 株式会社岛津制作所 波形信息估计方法及装置以及峰波形处理方法及装置
WO2022081587A1 (en) * 2020-10-12 2022-04-21 Leco Corporation Unresolved complex mixture separation of data collected in two-dimensional gas chromatography
GB2613119A (en) * 2020-10-12 2023-05-24 Leco Corp Unresolved complex mixture separation of data collected in two-dimensional gas chromatography
CN114646715A (zh) * 2020-12-21 2022-06-21 株式会社岛津制作所 波形处理辅助装置以及波形处理辅助方法
CN114646715B (zh) * 2020-12-21 2023-08-04 株式会社岛津制作所 波形处理辅助装置以及波形处理辅助方法
CN113419020A (zh) * 2021-06-30 2021-09-21 成都师范学院 糖化血红蛋白重叠峰识别方法、装置、系统、设备及介质
CN113659961A (zh) * 2021-07-19 2021-11-16 广东迈能欣科技有限公司 一种应用于二氧化碳传感器的滤波算法
CN113659961B (zh) * 2021-07-19 2024-01-30 广东迈能欣科技有限公司 一种应用于二氧化碳传感器的滤波算法
CN113607867A (zh) * 2021-07-23 2021-11-05 清华大学合肥公共安全研究院 一种基于峰体映射的双重叠谱峰解析方法
CN113607867B (zh) * 2021-07-23 2024-06-11 清华大学合肥公共安全研究院 一种基于峰体映射的双重叠谱峰解析方法

Also Published As

Publication number Publication date
JPWO2016035167A1 (ja) 2017-06-08
JP6260709B2 (ja) 2018-01-17
WO2016035167A1 (ja) 2016-03-10
CN107076712B (zh) 2019-01-11
US20170336370A1 (en) 2017-11-23
US10416134B2 (en) 2019-09-17

Similar Documents

Publication Publication Date Title
CN107076712A (zh) 色谱数据处理方法以及装置
Wang et al. Applicability of the PROSPECT model for estimating protein and cellulose+ lignin in fresh leaves
Georgouli et al. Continuous statistical modelling for rapid detection of adulteration of extra virgin olive oil using mid infrared and Raman spectroscopic data
Shoko et al. Progress in the remote sensing of C3 and C4 grass species aboveground biomass over time and space
Fortunel et al. Environmental factors predict community functional composition in A mazonian forests
Nelson et al. Estimating Quebec provincial forest resources using ICESat/GLAS
CN108427934B (zh) 一种高光谱影像混合像元分解方法
CN110455722A (zh) 橡胶树叶片磷含量高光谱反演方法和系统
CN103528990A (zh) 一种近红外光谱的多模型建模方法
Schuhfried et al. Classification of 7 monofloral honey varieties by PTR-ToF-MS direct headspace analysis and chemometrics
Brillante et al. Electrical imaging of soil water availability to grapevine: a benchmark experiment of several machine-learning techniques
Ahmadi et al. A systematic study on the accuracy of chemical quantitative analysis using soft modeling methods
Nussbaum et al. Mapping of soil properties at high resolution in Switzerland using boosted geoadditive models
Ortiz et al. Usefulness of PARAFAC for the quantification, identification, and description of analytical data
Luo Shorten spatial-spectral RNN with parallel-GRU for hyperspectral image classification
CN106529008A (zh) 一种基于蒙特卡罗及lasso的双集成偏最小二乘建模方法
Gomez et al. Analysis of the uncertainties affecting predictions of clay contents from VNIR/SWIR hyperspectral data
Tu et al. Hyperspectral image classification using a superpixel–pixel–subpixel multilevel network
Masoum et al. Discrimination of wines based on 2D NMR spectra using learning vector quantization neural networks and partial least squares discriminant analysis
Malinowski Abstract factor analysis of data with multiple sources of error and a modified Faber–Kowalski F‐test
Wan et al. Improving retrieval of leaf chlorophyll content from Sentinel-2 and Landsat-7/8 imagery by correcting for canopy structural effects
Fakhri et al. A novel vegetation index-based workflow for semi-arid, sparse woody cover mapping
Chinembiri et al. Hierarchical Bayesian geostatistics for C stock prediction in disturbed plantation forest in Zimbabwe
Wan et al. MAE-NIR: A masked autoencoder that enhances near-infrared spectral data to predict soil properties
Lin et al. A model for forest type identification and forest regeneration monitoring based on deep learning and hyperspectral imagery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant