CN114878735B

CN114878735B - 通过两个变量确定的数据的解析方法

Info

Publication number: CN114878735B
Application number: CN202111214030.9A
Authority: CN
Inventors: 小泽弘明; 藤田雄一郎; 石滨泰; 吉井和佳
Original assignee: Shimadzu Corp; Kyoto University
Current assignee: Shimadzu Corp; Kyoto University
Priority date: 2021-01-22
Filing date: 2021-10-19
Publication date: 2024-01-23
Anticipated expiration: 2041-10-19
Also published as: JP7440870B2; US20220237261A1; JP2022113039A; CN114878735A

Abstract

本发明涉及数据解析方法，即使试样成分的种类数未知，也能够基于测量试样得到的数据矩阵，求出具有适当因子数的频谱矩阵及轮廓矩阵。本发明基于数据矩阵X，利用第1矩阵S与第2矩阵P的积SP来近似X，求出S及P，具有以下工序：准备多个正则化参数的候选λr及1个诱导解的稀疏性的正则化函数；对多个λr分别求解优化问题，将求出的矩阵Srt及矩阵Prt决定为S的候选Sr及P的候选Pr；分别对每个X的矩阵元及对应的Sr与Pr的积的矩阵元的组合，使用将概率分布变量转换为共同的概率分布的函数求出转换值；分别求出转换值和累积分布函数的拟合优度；将拟合优度为最大值者、或者拟合优度为规定的阈值以上且λr的值为最大者的Sr及Pr决定为S及P。

Description

通过两个变量确定的数据的解析方法

技术领域

本发明涉及对通过依赖于测量对象成分的第1变量与另一个第2变量这两个变量确定的数据进行解析的方法。例如，在通过色谱仪质量分析装置得到的每个保留时间的各m/z(质荷比)的检测强度的数据中，m/z(质荷比)对应第1变量，保留时间对应第2变量。在通过成像质量分析装置得到的每个位置的m/z强度的数据中，m/z对应第1变量，位置对应第2变量。在通过成像FT-IR(傅里叶变换红外分光光度计)得到的每个位置的吸收频谱的数据中，吸收波长对应第1变量，位置对应第2变量。

背景技术

如上述那样通过两个变量确定的数据以由第1变量的值相互不同的N行数据与第2变量的值相互不同的M列数据构成的N行M列的数据矩阵表示。这里，N、M分别为自然数。例如，在液相色谱仪质量分析装置(LC/MS)或气相色谱仪质量分析装置(GC/MS)这样的色谱仪质量分析装置中，获取由示出在某保留时间中的N种m/z中的检测强度的N个数据构成的质谱，这些数据成为数据矩阵中的某1个列中的N个数据。然后，通过在不同的M个保留时间中分别获取质谱，从而在M个列中分别得到N个数据。其结果为，得到N行M列的数据矩阵。

由色谱仪质量分析装置测量的试样中包含1种或多种成分。另外，此处试样所包含的“成分”是指，色谱或质谱中形成规定以上的高度(或大小)的峰的有意义的成分。若设为试样中包含有K种(K为自然数)成分，则每个保留时间的质谱或每个m/z的质量色谱成为将根据这些K种成分分别得到的质谱或质量色谱重叠后的图谱。若能够将像这样重叠后的质谱分离为每个成分的K种质谱、重叠后的质量色谱分离为每个成分的K种色谱，则能够得到每个成分的信息。为此，能够使用被称为矩阵分解的方法(例如专利文献1)。

在矩阵分解中，以能够以N行K列的频谱矩阵S和K行M列的轮廓矩阵P的积SP来表示前述的N行M列的数据矩阵X的方式，求出频谱矩阵S及轮廓矩阵P。此处K如上述那样相当于试样中包含的成分的种类的数目，在矩阵分解的方法中被称为“因子数”。频谱矩阵S的各列与K种成分中每种成分的质谱对应，轮廓矩阵P的各行与K种成分中每种成分的色谱对应。

这些频谱矩阵S及轮廓矩阵P通常无法以解析方式求出。于是，使用了下述这样的方法：即，使用计算机，对于多个频谱矩阵S及轮廓矩阵P的候选，对各频谱矩阵S的候选及各轮廓矩阵P的候选的积SP，分别通过规定的函数D(x|y)(被称为“距离函数”或“散度”)对每个矩阵元定义与作为目标的数据矩阵X所对应的矩阵元的误差后，求出这些矩阵元中每个矩阵元的误差的总和，以该值成为最小的方式求出频谱矩阵S及轮廓矩阵P。在距离函数D(x|y)中，使用以(x-y)²表示的欧氏距离(Euclidean distance)、以xlog(x/y)-(x-y)表示的广义KL散度(Kullback-Leibler divergence)、以(x/y)-log(x/y)-1表示的IS散度(Itakura-Saito divergence)、将它们广义化的β散度等，

[数1]

该函数的每个矩阵元的总和D(X|SP)＝Σ_n，mD(X_nm|(SP)_nm)示出数据矩阵X与积SP的差异度。在此，(SP)_nm为由积SP构成的矩阵的矩阵元。

另一方面，在概率分布的参数的推测问题中，常通过最大似然估计来得到参数的推测值。即，在拥有参数θ(θ也可以是拥有多个维度的向量)的概率分布中，以表示相对于数据x的参数θ的似然性的似然度函数p(x|θ)成为最大的方式求出θ。在此，由于通过似然度的最大化而得到的参数θ的推测值与将负的对数似然度函数-log p(x|θ)最小化而得到的参数θ的推测值一致，因此经常使用更容易进行计算的负的对数似然度的最小化。

于是，在将矩阵分解作为最大似然度推测问题进行解释的情况下，以将上述的距离函数D(X|SP)最小化的方式求出矩阵S，P的情况与对矩阵的各元素的分别设想与距离函数对应的概率分布和似然度函数p(X_nm|(SP)_nm)的情况一致。即，若例举(i)高斯分布、(ii)泊松分布、(iii)指数分布、(iv)Tweedie分布作为概率分布，则各自的负的对数似然度函数与(i)欧氏距离、(ii)广义KL散度、(iii)IS散度、(iv)β散度对应(例如非专利文献1)。另外，此处对于4个例子示出了概率分布与距离函数的对应关系，但一般地，对于任意的概率分布，只要将其负的对数似然度函数设为距离函数，就能进行相同的推测。

此外，在稀疏建模的技术领域中，使用了以参数的推测值变得稀疏(sparse)的方式(在矩阵中，为0的矩阵元变多)，定义将L1范数等作为诱导解的稀疏性的正则化项而加入至距离函数而得的损失函数，通过将该损失函数最小化，使得不需要的参数被推测为0的LASSO(Least Absolute Shrinkage and Selection Operator：最小绝对值收敛和选择算子)等的方法。

现有技术文献

专利文献

专利文献1：美国专利公开公报第2009/0121125号

非专利文献

非专利文献1：吉井和佳等4名，《NMF vs PLCA：用于多重音生成过程的无限因子模型与无限混合模型》，日本信息处理学会研究报告MUS(音乐信息科学)，vol.2016-MUS-112，No.21，pp.1-10，2016年8月1日

发明内容

发明要解决的技术问题

在对数据矩阵X进行矩阵分解时，必须决定因子数K。此时，在试样中包含的成分的种类的数目为已知的情况下将该数目设为因子数K即可，但在大多数情况下，这样的数目是未知的。若像这样试样中包含的成分的种类的数目为未知，则由于难以适当确定因子数K，因此也难以基于数据矩阵X适当求出频谱矩阵S及轮廓矩阵P。此外，在像稀疏建模那样，将诱导解的稀疏性的正则化项追加至损失函数的情况下，也难以适当地决定正则化参数的值。

本发明要解决的技术问题在于，提供一种数据解析方法，即使试样中包含的成分的种类的数目是未知的，也能够基于通过对该试样的测量得到的数据矩阵X，求出具有适当的、即接近该成分的数目的因子数K的频谱矩阵S及轮廓矩阵P。

用于解决上述技术问题的方案

为了解决上述技术问题而完成的本发明的依赖于两个变量的数据的解析方法为，基于从分析装置得到的、由第1变量的值相互不同的N行数据与第2变量的值相互不同的M列数据构成的N行M列的数据矩阵X，以利用N行K列的第1矩阵S与K行M列的第2矩阵P的积SP来近似该数据矩阵X的方式，求出该第1矩阵S及第2矩阵P的方法，具有以下工序：

正则化参数与正则化函数准备工序，准备多个正则化参数的候选λr(r是从1到r_max的自然数)、以及1个诱导解的稀疏性的正则化函数R(S，P)；

矩阵候选决定工序，对于所述多个正则化参数的候选λr，分别求解优化问题，从而将以示出所述数据矩阵X与所述积SP的差异度的距离函数D(X|SP)、与正则化参数候选λr和正则化函数R(S，P)的积λrR(S，P)之和即损失函数L(S，P)＝D(X|SP)+λrR(S，P)的值达到最小的方式求出的矩阵Srt及矩阵Prt决定为作为第1矩阵S的候选Sr及作为第2矩阵P的候选的Pr；

概率分布转换工序，对于所述多个正则化参数的候选λr的每一个，分别对每个所述数据矩阵X的矩阵元X_nm及与之对应的所述第1矩阵候选Sr和所述第2矩阵候选Pr的积SrPr的矩阵元(SrPr)_nm的组合，使用将与所述距离函数D(X_nm|(SP)_nm)对应的概率分布P_nm变量转换为共同的概率分布Pcommon的函数F_nm，求出被变量转换为共同的概率分布Pcommon而得的转换值y_nm＝F_nm(X_nm|(SrPr)_nm)；

拟合优度计算工序，对于所述多个正则化参数的候选λr，分别求出所述转换值y_mn和概率分布Pcommon的累积分布函数的拟合优度；

矩阵决定工序，所述多个正则化参数的候选λr中，将对于所述拟合优度为最大值者、或者所述拟合优度为规定的阈值以上且所述第1矩阵候选Sr及所述第2矩阵候选Pr中的所述λr的值为最大者决定的所述第1矩阵候选Sr及所述第2矩阵候选Pr决定为第1矩阵S及第2矩阵P。

另外，此处为了方便起见，对第1矩阵赋予与前述频谱矩阵相同的标记“S”，对第2矩阵赋予与前述轮廓矩阵相同的标记“P”，可以按标记将第1矩阵设为频谱矩阵，将第2矩阵设为轮廓矩阵，也可以与之相反地，将第1矩阵设为轮廓矩阵，将第2矩阵设为频谱矩阵。在后者的情况下，与前述的定义不同，频谱矩阵被定义为K行M列的矩阵，轮廓矩阵被定义为N行K列的矩阵。

根据该方法，通过诱导稀疏性的正则化效果，即使试样中包含的成分的种类的数目是未知的，也能够准备作为不需要的因子的列全部成为0的第1矩阵候选Sr、以及行的值全部变为0的第2矩阵候选Pr。另一方面，若正则化参数的值过小，则取0以外的值的S的列数(即推测的因子数K)变得过多，从而发生过拟合(即overfit，指由于使用复杂的模型，导致即使是不合理的错误模型，与数据的一致度依然变高，也称为“过学习”)。另一方面，若正则化参数的值过大，则推测的因子数K变得过少而发生无法与数据良好适应的欠拟合(underfit、欠学习)。

在本发明中，从矩阵候选决定工序中对于多个正则化参数的候选λr分别1组1组地决定的候选(Sr，Pr)中，在从概率分布转换工序到矩阵决定工序的工序中使用与理想分布的拟合优度(下文详细描述)进行缩限，由此能够得到1组第1矩阵S及第2矩阵P(以及与它们对应的1个因子数K)。由此，能够防止产生过拟合与欠拟合。即，能够防止将因子数K设定得比实际的成分的数目多，能够求出具有适当的因子数K的第1矩阵S及第2矩阵P。

作为诱导解的稀疏性的正则化函数，已知有通常被称为“L1范数(norm)”、“L1范数与L2范数的线性组合”、“体积约束(Volume Constraint)”的函数。在本发明中的正则化函数R(S，P)中，L1范数与L2范数的线性组合以R(S，P)＝α(|S|₁+|P|₁)+(1-α)(|S|₂ ²+|P|₂ ²)表示，(其中，|S|₁＝Σ_i，jS_i，j，|P|₁＝Σ_i，jP_i，j，|S|₂＝(Σ_i，jS_i，j ²)^1/2，|P|₂＝(Σ_i，jP_i，j ²)^1/2，α是0到1之间的常数)，L1范数符合α＝1的情况。“体积约束”在添加次数的限制以使P的各列的总和达到1以下之后，对S应用迹范数(schatten1范数)、det|S^TS|、logdet|S^TS+δI|(其中，I为单位矩阵，δ为控制正则化函数的超参数(hyperparameter))中的任一个。

概率分布的累积分布函数(在此使用广义的变量x标记为f(x))是使用示出以此为前提的数据的概率分布的概率密度函数p(x)而求出的函数。

[数2]

概率密度函数p(x)例如可例举上述的(i)高斯分布、(ii)泊松分布、(iii)指数分布、(iv)Tweedie分布的各函数。与在此例示的4种概率密度函数p(x)对应的累积分布函数f(x)分别与上述的(i)欧氏距离、(ii)广义KL散度、(iii)IS散度、(iv)β散度各自对应。

在概率分布转换工序求出的转换值y_nm＝F_nm(X_nm|(SrPr)_nm)以将与数据的各矩阵元X_nm及积SrPr的各矩阵元(SrPr)_nm对应的概率分布Pnm变量转换为共同的概率分布Pcommon的方式求出。例如，在将广义KL散度设为距离函数的情况下，对应的概率分布Pnm成为泊松分布。此时，利用任意的随机变量在由累积分布函数进行变量转换时服从标准均匀分布这一情况(概率积分变换：Probability integral transform)，将F_nm设为累积分布函数，由此能够将Pcommon设为标准均匀分布。矩阵分解的有效性越高，被变量转换为标准均匀分布的转换值y_nm所成的经验分布函数与设想的概率分布Pcommon的累积分布函数的拟合优度(goodness of fit)就越高。于是，在拟合优度计算工序中，对于多个正则化参数的候选λr，分别求出转换值y_nm与概率分布Pcommon的累积分布函数的拟合优度。在此，拟合优度能够利用Kolmogorov-Smirnov统计量等已知的拟合优度。此外，作为第2个具体例，在数据的每个矩阵元X_nm的噪声的方差σ_nm ²为已知的情况下，可以将概率分布Pcommon设为标准正态分布，将累积分布函数F_nm(X_nm|(SrPr)_nm)设为(X_nm-(SrPr)_nm)/σ_nm，使用表示设想转换值y_nm平均为0的情况下的无偏方差是否接近1的-|σy²-1|用作拟合优度。

[数3]

像这样求出拟合优度后，在矩阵决定工序中，将对于(i)拟合优度为最大值者、或者(ii)拟合优度为规定的阈值以上且正则化参数为最大者中的任一个决定的第1矩阵候选Sr及第2矩阵候选Pr决定为第1矩阵S及第2矩阵P。在此，(ii)基于认为在拟合优度在某种程度上较高(规定的阈值以上)的范围内，使用尽可能简单(K较小)的模型较为正确的事实。

发明效果

根据本发明，即使试样中包含的成分的种类的数目是未知的，也能够基于通过对该试样的测量得到的数据矩阵X，求出具有适当的、即接近该成分的数目的因子数K的频谱矩阵(第1矩阵或第2矩阵)及轮廓矩阵(第2矩阵或第1矩阵)。

附图说明

图1是示出执行本发明的一实施方式的数据解析方法的色谱仪质量分析装置的一实施方式的概略构成图。

图2是示出图1所示的色谱仪质量分析装置的动作的流程图。

图3是使用三维数据、以及质谱及色谱的数据的一例，概念性示出数据矩阵、以及频谱矩阵及轮廓矩阵的图。

图4是示出图1所示的色谱仪质量分析装置的一部分动作，即本实施方式的数据解析方法的操作的详细内容的流程图。

图5是以色谱及质谱示出在由本实施方式的数据解析方法执行的矩阵分解的计算的例子中使用的给出数据矩阵的测量数据的图。

图6是将给出数据矩阵的测量数据以多个质量色谱的叠写示出的图。

图7是示出执行矩阵分解时得到的、由于λr过小而导致正则化不充分的质谱及色谱的计算结果的例子的图。

图8是示出执行矩阵分解时得到的、由于λr过大而导致正则化不充分的质谱及色谱的计算结果的例子的图。

图9是示出通过伴随使用了最优λr的适当的正则化的矩阵分解得到的、质谱及色谱的计算结果的例子的图。

具体实施方式

使用图1～图9对本发明的数据解析方法的一实施方式、以及执行该数据解析方法的色谱仪质量分析装置进行说明。

(1)执行本实施方式的数据解析方法的色谱仪质量分析装置的构成

图1示出执行本实施方式的数据解析方法的液相色谱仪/离子阱飞行时间型质量分析装置(LC/IT-TOFMS)1的主要部分的构成。该LC/IT-TOFMS1大致具有液相色谱仪(LC)部10、质量分析(MS)部20、数据处理部40、分析控制部50。

LC部10具有流动相容器11、送液泵12、注射器13、色谱柱14。流动相容器11储存流动相。送液泵12抽吸流动相容器11内的流动相并以恒定流量向注射器13输送。注射器13具备自动进样器，自动地选择预先准备的试样，在规定的时机将规定量的试样注入流动相中。若通过注射器13向流动相中注入试样，则试样随着流动相的流动而被导入色谱柱14。在通过色谱柱14的期间，试样中的各种成分被分离，在时间上错开地从色谱柱14的出口洗脱，被导入MS部20。

MS部20具有被维持为大气压气氛的离子化室21、和由涡轮分子泵(未图示)抽真空来维持为高真空气氛的分析室29，在它们之间配设有真空度阶段性升高的第1级中间真空室24及第2级中间真空室27。离子化室21与第1级中间真空室24经由细径的脱溶剂管23而连通，第1级中间真空室24与第2级中间真空室27经由穿设于圆锥形状的锥孔体26的顶部的小径的孔而连通。分别在第1级中间真空室24内配置有第1离子导向器25，在第2级中间真空室27内配置有第2离子导向器28。

在离子化室21中配置有作为离子源的ESI喷嘴22。ESI喷嘴22将从LC部10供给的包含试样成分的洗脱液作为因从高压电源(未图示)施加的直流高电压而带电的微小液滴向离子化室21内进行喷雾。该带电液滴与源自大气的气体分子碰撞而进一步被粉碎为微细的液滴，迅速地干燥(被脱溶剂化)而使试样分子汽化。该试样分子发生离子蒸发反应而被离子化。产生的包含离子的微小液滴因离子化室21与第1级中间真空室24的压差被引入脱溶剂管23内，在通过脱溶剂管23内的期间进一步推进脱溶剂化而产生离子。另外，将试样分子离子化的方法不限于在此所述的电喷雾离子化法(ESI)，例如还能够使用大气压化学离子化法(APCI)或大气压光离子化法(APPI)。

通过了脱溶剂管23的离子被第1离子导向器25及第2离子导向器28收敛并通过第1级中间真空室24及第2级中间真空室27，被送往分析室29。

在分析室29内设有离子阱30、作为质量分离器的飞行时间型质量分离器(TOF)31、以及离子检测器33。

在离子阱30中，由通过从电源(未图示)对各电极施加的高频电压形成的四极电场将离子暂时捕获并蓄积。蓄积在离子阱30的内部的各种离子在规定的时机一齐被赋予动能，从离子阱30朝向TOF31被放出。

此外，离子阱30如图示那样，构成为能够供给例如氩等碰撞诱导解离(CID)气体，能够通过CID使蓄积在离子阱30的离子开裂而生成产物离子。在进行MS²分析时，首先在将各种离子蓄积在离子阱30之后，控制对电极施加的电压，从而在这些离子中仅将具有特定的m/z的离子选择性地保留为前体离子，之后将CID气体导入离子阱30使其促进前体离子的开裂。将像这样生成的产物离子在规定的时机一齐从离子阱30朝向TOF31放出。

TOF31具备从直流电源(未图示)施加直流电压的反射电极32，通过由此形成的直流电场的作用使离子折回，从而到达离子检测器33。一齐从离子阱30射出的离子中，m/z越小的离子，则越快地飞行，以与m/z相应的时间差到达离子检测器33。离子检测器33将与到达的离子数相应的电流输出为检测信号。

在离子检测器33连接有将检测信号转换为数字值的A/D转换器34。由A/D转换器34转换后的检测信号被输入至数据处理部40。

数据处理部40具有：数据矩阵创建部41、矩阵分解执行部42、m/z检测部43、保留时间检测部44、MS²分析执行条件决定部(相当于在所述MS^m分析执行条件决定部中m＝2者)45。矩阵分解执行部42在其内部具有正则化参数与正则化函数准备部421、矩阵候选决定部422、概率分布转换部423、拟合优度计算部424、矩阵决定部425。这些各部的详细内容将在后面描述。此外，数据处理部40与存储部61连接。

分析控制部50为了执行LC/MS分析及LC/MS²分析而控制LC部10及MS部20的各部的动作，具有LC/MS分析执行部(相当于在所述MS^m-1执行部中m＝2者)51及LC/MS²分析执行部(相当于在所述MS^m执行部中m＝2者)52。

这些数据处理部40及分析控制部50由搭载了规定的控制/处理软件的个人计算机(PC)来实现。此外，存储部61由该PC所具有的硬盘和固态驱动器等存储装置来实现。该PC还具有显示部(显示器)62、以及由键盘、鼠标、触摸面板等器件构成的操作部63。

(2)包含本实施方式的数据解析方法的LC/IT-TOFMS1的动作

接着，使用图2及图3，对包含本实施方式的数据解析方法的LC/IT-TOFMS1的动作进行说明。同时，对数据处理部40所具有的各构成元件的功能进行说明。

首先，若操作者使用操作部63进行规定的测量开始操作，则LC/IT-TOFMS1通过由LC/MS分析执行部51控制LC/IT-TOFMS1的各部，如以下那样执行对目标试样的LC/MS分析(步骤1)。由此，将从注射器13被注入流动相中的目标试样送入色谱柱14，将来自色谱柱14的洗脱液导入MS部20并反复进行质量分析。从MS部20的离子检测器33输出的检测信号在由A/D转换器34转换为数字值后，被输入到数据处理部40的数据矩阵创建部41。

在数据矩阵创建部41中，获取通过来自离子阱30的1次离子射出而在规定的m/z范围内按每个m/z得到的N个信号来作为N行M列的数据矩阵X中的1行中包含的N个矩阵元的值。然后，在以时间差进行的M次离子射出中分别以相同方式获取数据，基于这些数据，创建如下述那样的N行M列的数据矩阵X(步骤2)。

[数4]

在此，数据矩阵X的各矩阵元X_nm(n为1～N的任一个，m为1～M的任一个)示出在第m次离子射出时(与保留时间对应)检测到的、在所述m/z范围内的第n个m/z的强度。数据矩阵X的各矩阵元X_nm具有0或正值(非负值)。

接着，矩阵分解执行部42通过后述(“(3)本实施方式的数据解析方法(矩阵分解的操作)的详细内容”)的方法执行矩阵分解，以利用N行K列的频谱矩阵S和K行M列的轮廓矩阵(也称为“色谱矩阵”)P的积SP来近似数据矩阵X的方式，求出频谱矩阵S及轮廓矩阵P(步骤3)。频谱矩阵S相当于所述第1矩阵S，轮廓矩阵P相当于所述第2矩阵P。频谱矩阵S及轮廓矩阵P分别如以下那样表示。

[数5]

[数6]

在此，频谱矩阵S的各矩阵元s_nk(n为1～N的任一个，k为1～K的任一个)示出试样中包含的K种成分的1种(设为第k种成分)在质谱的各m/z中的强度。此外，轮廓矩阵P的各矩阵元p_km示出第k种成分在色谱的各保留时间中的强度。即，在上述的频谱矩阵S中以虚线包围的矩阵元示出每种成分的质谱，在轮廓矩阵P中以虚线包围的矩阵元示出每种成分的色谱。频谱矩阵S的各矩阵元s_nk及轮廓矩阵P的各矩阵元p_km均具有0或正值(非负值)。在图3中，使用三维数据71、以及质谱72及色谱73的数据的一例，概念性地图示出数据矩阵X、以及频谱矩阵S及轮廓矩阵P。

接着，m/z检测部43在各列(即k为1～K的范围)进行如下这样的操作：即，根据得到的频谱矩阵S的第k列中的质谱检测1个或多个峰，求出与这些峰对应的m/z(步骤4)。与这些峰对应的m/z成为源自目标试样中包含的第k种成分的前体离子的m/z的候选。此外，保留时间检测部44在各行(即k为1～K的范围)进行如下这样的操作：即，根据得到的轮廓矩阵P的第k行中的色谱检测1个或多个峰，求出与这些峰对应的保留时间(步骤5)。与这些峰对应的保留时间成为目标试样中包含的第k种成分的保留时间的候选。

MS²分析执行条件决定部45根据这些在步骤4得到的频谱矩阵S的第k列中的m/z的候选、和在步骤5得到的轮廓矩阵P的第k行中的保留时间的候选，在k为1～K的范围内分别(即对目标试样中包含的每种成分)创建由前体离子的m/z的候选与保留时间的候选的对构成的前体离子列表L(步骤6)。

在此，在预先获取到不包含试样的背景的LC/MS的数据的情况下，MS²分析执行条件决定部45也可以进行如下操作：即，基于该背景的数据，从前体离子列表L中去除源自背景的m/z的候选和保留时间的候选的对，选择剩余的候选的对作为新的m/z的候选和保留时间的候选的对(步骤7)。或者，也可以在步骤7中，基于该背景的数据，仅选择处于未受背景的影响的m/z及保留时间的范围内的m/z的候选及保留时间的候选的对作为新的m/z的候选和保留时间的候选的对，以此代替该操作。此外，也可以省略这些步骤7的操作。

MS²分析执行条件决定部45基于得到的(在执行步骤7的情况下为去除了源自背景的m/z的候选和保留时间的候选的对之后的)前体离子列表L，决定伴随所述试样中包含的成分的前体离子的筛选及开裂的MS²分析的执行条件(MS²分析方法)(步骤8)。在MS²分析中通常这样的分析方法对每种成分是已知的，因此在使存储部61预先存储了这样的已知的分析方法之后，基于前体离子列表L中包含的m/z和保留时间的候选的信息，使MS²分析执行条件决定部45从存储部61读取分析方法即可。

在决定分析方法时，能够将对1个试样的MS²分析的分析方法分割为多个，以使1次MS²分析的循环时间(采样间隔)达到规定值以下。由此，能够确保充分的采样率，能够提高定量的灵敏度。

此外，在决定分析方法时，能够对分析对象的每种成分设定不同的碰撞能量。由此，在每种成分的适当的碰撞能量为已知的情况下，能够更适当地进行对每种成分的分析。或者，也可以对分析对象的每种成分分别设定多个碰撞能量。由此，在每种成分的适当的碰撞能量不明的情况下，能够通过以多个碰撞能量试行来求出最合适的开裂条件。

基于这样决定的分析方法，LC/IT-TOFMS1通过由LC/MS²分析执行部52控制LC/IT-TOFMS1的各部来执行LC/MS²分析(步骤9)。LC/MS²分析在前体离子列表L中包含的全部保留时间中执行。在全部保留时间中的LC/MS²分析完成时，LC/IT-TOFMS1的一系列动作结束。

(3)本实施方式的数据解析方法(矩阵分解的操作)的详细内容

接着，使用图4，将本实施方式的数据解析方法，即在矩阵分解执行部42中执行的矩阵分解的操作(步骤3)的详细内容与矩阵分解执行部42内的各部的功能一起进行说明。

首先，正则化参数与正则化函数准备部421准备多个(在此设为b个，b为自然数)正则化参数的候选λr和1个正则化函数R(S，P)(步骤31，正则化参数与正则化函数准备工序)。在本实施方式中，使用矩阵S的L1范数与矩阵P的L1范数之和即R(S，P)＝|S|₁+|P|₁作为正则化函数R(S，P)。在此，矩阵的L1范数是指该矩阵的全部矩阵元之和。正则化参数的候选λr适当确定多个正实数。

进一步地，矩阵候选决定部422通过以下2个方法中的任一个，对每个正则化参数的候选λr决定频谱矩阵候选(第1矩阵候选)Sr及轮廓矩阵候选(第2矩阵候选)Pr(矩阵候选决定工序)。在第1方法中，将假定候选的组(Srt，Prt)直接决定为频谱矩阵候选Sr及轮廓矩阵候选Pr(步骤33)。

在第2方法中，执行以下的操作来代替步骤33。首先，将Srt、Prt设为初始值，以使不包含正则化项的第2损失函数L₂(S，P)＝D(X|SP)最小化的方式求出矩阵Srt2及矩阵Prt2(步骤33-1)。然后，将这些矩阵Srt2及矩阵Prt2决定为频谱矩阵候选Sr及轮廓矩阵候选Pr(步骤33-2)。

在通过这2个方法中的任一个确定了频谱矩阵S及轮廓矩阵P的候选的组(Sr，Pr)后，概率分布转换部423对于b个正则化参数的候选λr，分别准备与误差函数D(X_nm|(SP)_nm)对应的概率分布的累积分布函数F_nm(步骤34)。然后，对于b个正则化参数的候选λr，分别对每个数据矩阵X的矩阵元X_nm、以及与之对应的频谱矩阵候选Sr和轮廓矩阵候选Pr的积SrPr的矩阵元(SrPr)_nm的组合(X_nm，(SrPr)_nm)，将这些矩阵元的值代入累积分布函数F_nm，由此求出期待服从标准均匀分布的y_nm＝F_nm(X_nm|(SrPr)_nm)(步骤35)。已知在本实施方式中使用的与损失函数即广义KL散度D_KL(X|SP)＝Xlog(X/SP)-(X-SP)对应的累积分布函数F(X|SP)为泊松分布的累积分布函数。

接着，拟合优度计算部424对于b个正则化参数的候选λr，分别计算由概率分布转换部423求出的y_nm＝F_nm(X_nm|(SrPr)_nm)的经验分布与标准均匀分布的累积分布函数的拟合优度(步骤36，拟合优度计算工序)。在拟合优度的计算中，能够使用被称为柯尔莫诺夫-斯米尔诺夫(Kolmogorov-Smirnov：KS)统计量、克拉美-冯·米塞斯(Cramer-von Mises)统计量、或者安德森-达令(Anderson-Darling)统计量的统计学中已知的拟合优度计算方法。

接着，矩阵决定部425将对每个正则化参数的候选λr计算出的拟合优度的值进行对比，将与拟合优度达到最大值的正则化参数的候选λr对应的频谱矩阵候选Sr及轮廓矩阵候选Pr决定为频谱矩阵S及轮廓矩阵P(步骤37，矩阵决定工序)。另外，也可以代替拟合优度达到最大值的正则化参数的候选λr而将拟合优度为规定的阈值以上的正则化参数的候选λr中、对应的频谱矩阵候选Sr及轮廓矩阵候选Pr中的正则化参数λr为最大者决定为频谱矩阵S及轮廓矩阵P。通过以上步骤，矩阵分解的操作完成。

(4)矩阵分解的计算的例

接着，使用图5的左图所示的色谱与右图所示的质谱的数据，对进行矩阵分解的计算的例子进行说明。在此，在左图中，将通过1次测量得到的色谱分离为分别起因于4种成分的合计4个峰及背景(BG)这样的合计5个色谱来示出。这5个色谱分别与数据矩阵的各行对应。从而，在该例中，实际的(通过实验得到的)数据中的j的值为5。在右图中，对于这5个色谱分别示出了对应的质谱。

图6中，对于实际的(通过实验得到的)数据，大量重叠地示出m/z不同的质量色谱。该图示出了数据矩阵X的信息。即，1个质量色谱中的每个保留时间的强度的值的集合相当于数据矩阵X的1行中的矩阵元的值的集合。此外，某个保留时间中的大量质量色谱的强度的值的集合相当于数据矩阵X的1列中的矩阵元的值的集合。

对于这样的数据矩阵X，对于λr为3个值(1，256，512)的情况，分别通过本实施方式的矩阵分解的方法决定频谱矩阵候选Sr及轮廓矩阵候选Pr，求出拟合优度。

图7中，示出对于λr＝1的情况求出的轮廓矩阵候选Pr的矩阵元的各行作为色谱(左图)，并示出频谱矩阵候选Sr的矩阵元的各列作为质谱(右图)。同样地，图8中，示出对于λr＝512的情况求出的色谱与质谱，图9中，示出对于λr＝256的情况求出的色谱与质谱。图7～图9中同时示出KS统计量的计算值。KS统计量是通过KS检验得到的数值，且该数值越小表示拟合优度越高。

在λr＝1的情况下(图7)，KS统计量为0.0924。此外，所求出的轮廓矩阵候选Pr及频谱矩阵候选Sr中的K的值为7，比实际的值(K＝5)大。这表示由于λr过小导致正则化不充分。实际上，所得到的色谱及质谱显而易见地与实际的数据(图5)不一致。

在λr＝512的情况下(图8)，KS统计量为0.2652。此外，所求出的轮廓矩阵候选Pr及频谱矩阵候选Sr中的K的值为2，比实际的值小。这表示由于λr过大导致正则化的效果变得过强。所得到的色谱及质谱显而易见地与实际的数据(图5)不一致。

相对于此，在λr＝256的情况下(图9)，KS统计量为0.0164，且在3个候选中达到最小。即，拟合优度在3个候选中为最大。从而，从3个候选中可得到λr＝256的情况下的轮廓矩阵候选Pr及频谱矩阵候选Sr作为轮廓矩阵P及频谱矩阵S。所得到的轮廓矩阵P及频谱矩阵S中的j的值为5，与实际的数据一致。此外，根据这些轮廓矩阵P及频谱矩阵S求出的色谱及质谱接近实际的数据(图5)。

在此示出了基于根据3个正则化参数的候选λr分别得到的轮廓矩阵候选Pr及频谱矩阵候选Sr的色谱及质谱，但正则化参数的候选λr不限于3个。正则化参数的候选λr的数目越多，越能够求出更准确的轮廓矩阵P及频谱矩阵S。

(5)其他

在上述实施方式中，分别将数据矩阵X规定为N行M列、将频谱矩阵S规定为N行K列、将轮廓矩阵P规定为K行M列，但也可以取而代之地，分别将数据矩阵X规定为M行N列、将频谱矩阵S规定为K行N列、将轮廓矩阵P规定为M行K列。在该情况下，轮廓矩阵P相当于所述第1矩阵，频谱矩阵S相当于所述第2矩阵。此外，使用积PS代替积SP(在此，S及P并非第1矩阵及第2矩阵的标记，而是该例中的频谱矩阵及轮廓矩阵的标记)。

色谱仪质量分析装置的构成不限定于上述的TOFMS1。例如，也可以将本发明应用于使用了将四极滤质器等滤质器与碰撞池组合而得的装置来代替在上述实施方式中使用的离子阱30、并使用了正交加速型的TOF来代替在上述实施方式中使用的TOF31的色谱仪质量分析装置。此外，也可以将本发明应用于TOFMS以外的色谱仪质量分析装置。

除了通过色谱仪质量分析装置得到的数据以外，本发明也可适用于通过成像质量分析装置和成像FT-IR等得到的数据。在成像质量分析装置中，第1变量及第2变量的任一方为m/z，另一方相当于表示位置的数值。在成像FT-IR中，第1变量及第2变量的任一方为吸收波长，另一方相当于表示位置的数值。

另外，本发明不限定于上述实施方式，不言而喻，可进行各种各样的变形。

[方案]

本领域技术人员可理解上述的示例性的实施方式为以下方案的具体例。

(第1项)

第1项的数据解析方法为，基于从分析装置得到的、由第1变量的值相互不同的N行数据与第2变量的值相互不同的M列数据构成的N行M列的数据矩阵X，以利用N行K列的第1矩阵S与K行M列的第2矩阵P的积SP来近似该数据矩阵X的方式，求出该第1矩阵S及第2矩阵P的方法，具有以下工序：

概率分布转换工序，对于所述多个正则化参数的候选λr，分别对每个所述数据矩阵X的矩阵元X_nm及与之对应的所述第1矩阵候选Sr与所述第2矩阵候选Pr的积SrPr的矩阵元(SrPr)_nm的组合，使用将与所述距离函数D(X_nm|(SP)_nm)对应的概率分布P_nm变量转换为共同的概率分布Pcommon的函数F_nm，求出被变量转换为共同的概率分布Pcommon的值即转换值y_nm＝F_nm(X_nm|(SrPr)_nm)；

拟合优度计算工序，对于所述多个正则化参数的候选λr，分别求出所述转换值y_nm和概率分布Pcommon的累积分布函数的拟合优度；

根据第1项的数据解析方法，即使试样中包含的成分的种类的数目是未知的，也能够基于通过对该试样的测量得到的数据矩阵X，求出具有适当的、即接近该成分的数目的因子数K的第1矩阵S及第2矩阵P。

(第2项)

第2项的数据解析方法是在第1项的数据解析方法的所述矩阵候选决定工序中，不将所述矩阵Srt及所述矩阵Prt决定为第1矩阵候选Sr及第2矩阵候选Pr，而是将该矩阵Srt及该矩阵Prt设为初始值，以使不包含正则化项的第2损失函数L₂(S，P)＝D(X|SP)最小化的方式求出矩阵Srt2及矩阵Prt2，并将该矩阵Srt2及该矩阵Prt2决定为第1矩阵候选Sr及第2矩阵候选Pr。

根据第2项的数据解析方法，由于将以损失函数L(S，P)＝D(X|SP)+λrR(S，P)的值达到最小的方式求出的矩阵Srt及矩阵Prt设为初始值，进而进行不包含正则化项的第2优化的判定，因此能够修正因正则化引起的残差的偏差，选择更接近实际数据的第1矩阵候选Sr及第2矩阵候选Pr。因此，能够提高最终求出的第1矩阵S及第2矩阵P的精度。

(第3项)

第3项的数据解析方法是在第1项或第2项的数据解析方法中，所述正则化函数R(S，P)是L1范数、或者L1范数与L2范数的线性组合、或者以P的各列的总和达到1以下的方式添加解的约束后对S应用迹范数、det|S^TS|、logdet|S^TS+δI|(其中，I为单位矩阵，δ为控制正则化函数的超参数)中的任一个。

(第4项)

第4项的数据解析方法是在第1项～第3项的任一项的数据解析方法中，所述累积分布函数为高斯分布的累积分布函数、泊松分布的累积分布函数、指数分布的累积分布函数、Tweedie分布的累积分布函数中的任一个。

(第5项)

第5项的数据解析方法是在第1项～第4项的任一项的数据解析方法中，使用柯尔莫诺夫-斯米尔诺夫检验、克拉美-冯·米塞斯检验、以及安德森-达令检验中的任一个求出所述拟合优度。

(第6项)

第6项的数据解析方法是在第1项～第4项的任一项的数据解析方法中，每个所述矩阵元X_nm的噪声的方差σ_nm ²为已知的情况下，可以将所述概率分布Pcommon设为标准正态分布，将所述累积分布函数F_nm(X_nm|(SrPr)_nm)设为(X_nm-(SrPr)_nm)/σ_nm，将使用设想所述转换值y_nm平均为0的情况下的无偏方差表示的-|σy²-1|用作所述拟合优度。

[数7]

在本发明中，能够适当使用在第3项中例举的各种正则化函数R(S，P)以及在第4项中例举的各种累积分布函数F(X|SP)。此外，在拟合优度的计算中能够适当使用在第5项或第6项中例举的统计学领域中已知的各种方法。

(第7项)

第7项的数据解析方法是在第1项～第6项的任一项的数据解析方法中，所述分析装置为色谱仪质量分析装置(1)，所述第1变量及所述第2变量的任一方为m/z，另一方为保留时间。

(第8项)

第8项的数据解析方法是在第1项～第6项的任一项的数据解析方法中，所述分析装置为成像质量分析装置，所述第1变量及所述第2变量的任一方为m/z，另一方为表示位置的数值。

(第9项)

第9项的数据解析方法是在第1项～第6项的任一项的数据解析方法中，所述分析装置为成像傅里叶变换红外分光光度计，所述第1变量及所述第2变量的任一方为吸收波长，另一方为表示位置的数值。

如第7～第9项所述，本发明能够适宜地用于通过色谱仪质量分析装置、成像质量分析装置及成像傅里叶变换红外分光光度计得到的数据的解析。

附图标记说明

1 液相色谱仪/离子阱飞行时间型质量分析装置(LC/IT-TOFMS)

10 液相色谱仪(LC)部

11 流动相容器

12 送液泵

13 注射器

14 色谱柱

20 质量分析(MS)部

21 离子化室

22 ESI喷嘴

23 脱溶剂管

24 第1级中间真空室

25 第1离子导向器

26 锥孔体

27 第2级中间真空室

28 第2离子导向器

29 分析室

30 离子阱

31 TOF

32 反射电极

33 离子检测器

34 A/D转换器

40 数据处理部

41 数据矩阵创建部

42 矩阵分解执行部

421 正则化参数与正则化函数准备部

422 矩阵候选决定部

423 概率分布转换部

424 拟合优度计算部

425 矩阵决定部

43 m/z检测部

44 保留时间检测部

45 MS2分析执行条件决定部

50 分析控制部

51 LC/MS分析执行部

52 LC/MS²分析执行部

61 存储部

62 显示部

63 操作部

71 三维数据

72 质谱

73 色谱。

Claims

1.一种数据解析方法，是基于从分析装置得到的、由第1变量的值相互不同的N行数据与第2变量的值相互不同的M列数据构成的N行M列的数据矩阵X，以利用N行K列的第1矩阵S与K行M列的第2矩阵P的积SP来近似该数据矩阵X的方式，求出该第1矩阵S及第2矩阵P的方法，其特征在于，具有以下工序：

正则化参数与正则化函数准备工序，准备多个正则化参数的候选λr、以及1个诱导解的稀疏性的正则化函数R(S，P)，其中，r是从1到r_max的自然数；

矩阵候选决定工序，对于所述多个正则化参数的候选λr，分别求解优化问题，从而将以示出所述数据矩阵X与所述积SP的差异度的距离函数D(X|SP)、与正则化参数候选λr和正则化函数R(S，P)的积λrR(S，P)之和即损失函数L(S，P)＝D(X|SP)+λrR(S，P)的值达到最小的方式求出的矩阵Srt及矩阵Prt决定为第1矩阵S的候选Sr及作为第2矩阵P的候选的Pr；

矩阵决定工序，所述多个正则化参数的候选λr中，将对于所述拟合优度为最大值者、或者所述拟合优度为规定的阈值以上且所述第1矩阵候选Sr及所述第2矩阵候选Pr中的所述λr的值为最大者决定的所述第1矩阵候选Sr及所述第2矩阵候选Pr决定为第1矩阵S及第2矩阵P，

所述分析装置为色谱仪质量分析装置，所述第1变量及所述第2变量的任一方为m/z，另一方为保留时间。

2.如权利要求1所述的数据解析方法，其特征在于，在所述矩阵候选决定工序中，不将所述矩阵Srt及所述矩阵Prt决定为第1矩阵候选Sr及第2矩阵候选Pr，而是将该矩阵Srt及该矩阵Prt设为初始值，以使不包含正则化项的第2损失函数L₂(S，P)＝D(X|SP)最小化的方式求出矩阵Srt2及矩阵Prt2，并将该矩阵Srt2及该矩阵Prt2决定为第1矩阵候选Sr及第2矩阵候选Pr。

3.如权利要求1所述的数据解析方法，其特征在于，所述正则化函数R(S，P)是L1范数、或者L1范数与L2范数的线性组合、或者以P的各列的总和达到1以下的方式添加解的约束后对S应用迹范数、det|S^TS|、logdet|S^TS+δI|中的任一个，其中，I为单位矩阵，δ为控制正则化函数的超参数。

4.如权利要求1所述的数据解析方法，其特征在于，所述累积分布函数为由表示高斯分布的函数求出的累积分布函数、由表示泊松分布的函数求出的累积分布函数、由表示指数分布的函数求出的累积分布函数、由表示Tweedie分布的函数求出的累积分布函数中的任一个。

5.如权利要求1所述的数据解析方法，其特征在于，使用柯尔莫诺夫-斯米尔诺夫检验、克拉美-冯·米塞斯检验、以及安德森-达令检验中的任一个求出所述拟合优度。

6.如权利要求1所述的数据解析方法，其特征在于，在每个所述矩阵元X_nm的噪声的方差σ_nm ²为已知的情况下，将所述概率分布Pcommon设为标准正态分布，将所述累积分布函数F_nm(X_nm|(SrPr)_nm)设为(X_nm-(SrPr)_nm)/σ_nm，将使用设想所述转换值y_nm平均为0的情况下的下式示出的无偏方差表示的-|σy²-1|用作拟合优度，