JP2021009540A - Data analysis device and method - Google Patents

Data analysis device and method Download PDF

Info

Publication number
JP2021009540A
JP2021009540A JP2019122748A JP2019122748A JP2021009540A JP 2021009540 A JP2021009540 A JP 2021009540A JP 2019122748 A JP2019122748 A JP 2019122748A JP 2019122748 A JP2019122748 A JP 2019122748A JP 2021009540 A JP2021009540 A JP 2021009540A
Authority
JP
Japan
Prior art keywords
data
statistical
vector
samples
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019122748A
Other languages
Japanese (ja)
Other versions
JP7437003B2 (en
Inventor
山本 博之
Hiroyuki Yamamoto
博之 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Human Metabolome Technologies Inc
Original Assignee
Human Metabolome Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Human Metabolome Technologies Inc filed Critical Human Metabolome Technologies Inc
Priority to JP2019122748A priority Critical patent/JP7437003B2/en
Publication of JP2021009540A publication Critical patent/JP2021009540A/en
Application granted granted Critical
Publication of JP7437003B2 publication Critical patent/JP7437003B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To enable various data analyses while considering orders among statistic samples.SOLUTION: A data analysis device (5) performs a multivariate analysis of a plurality of statistic samples about a plurality of data items. The data analysis device includes a storage part (52) and a control part (51). The storage part 52 records statistic data (X) for managing a plurality of data items in each sample, and order information (D) showing orders among the plurality of statistic samples. The control part performs arithmetic processing based on the statistic data and the order information. The control part calculates a first vector (wx) corresponding to an explanatory variable and a second vector (wy) corresponding to an auxiliary variable so as to optimize covariance between the explanatory variable (t) in a main component analysis of the statistic data and the auxiliary variable (s) undergoing setting of a constraint condition following the order information (S12), and calculates a score corresponding to the plurality of statistic samples on the basis of at least one of the first and second vectors (S13).SELECTED DRAWING: Figure 9

Description

本発明は、統計的手法でデータ解析を行うデータ解析装置、方法及びプログラムに関する。 The present invention relates to a data analysis device, method and program for performing data analysis by a statistical method.

従来、例えばメタボロミクスでは多数の代謝物等のデータを解析するための多変量解析手法として、主成分分析(PCA:Principal Component Analysis)と部分的最小二乗法(PLS:Partial Least Squares)が良く用いられている(非特許文献1など参照)。 Conventionally, for example, in metabolomics, principal component analysis (PCA: Principal Component Analysis) and partial least squares regression (PLS: Partial Least Squares) are often used as multivariate analysis methods for analyzing data of a large number of metabolites. (Refer to Non-Patent Document 1 and the like).

特許文献1は、PLSを応用したPLS−ROG(Rank Order of Groups)に、カーネル法の概念を導入したカーネルPLS−ROGという手法を開示している。カーネルPLS−ROGによると、統計サンプルが成す群の順序をスコアに反映させながら種々の統計データの統合解析等が行え、群の順序を考慮しながら多様なデータ解析を可能にする。 Patent Document 1 discloses a method called kernel PLS-ROG, which introduces the concept of the kernel method into PLS-ROG (Rank Order of Groups) to which PLS is applied. According to the kernel PLS-ROG, integrated analysis of various statistical data can be performed while reflecting the order of the groups formed by the statistical samples in the score, and various data analysis can be performed while considering the order of the groups.

国際公開第2017/090566号International Publication No. 2017/090566

Hiroyuki Yamamoto, et al., "Dimensionality reduction for metabolome data using PCA, PLS, OPLS, and RFDA with differential penalties to latent variables", Chemom. Intell. Lab. Syst., 98 (2009) 136-142.Hiroyuki Yamamoto, et al., "Dimensionality reduction for metabolome data using PCA, PLS, OPLS, and RFDA with differential penalties to latent variables", Chemom. Intell. Lab. Syst., 98 (2009) 136-142. Yasumune Nakayama, et al., "Novel Strategy for Non-Targeted Isotope-Assisted Metabolomics by Means of Metabolic Turnover and Multivariate Analysis" Metabolites 2014, 4(3), 722-739Yasumune Nakayama, et al., "Novel Strategy for Non-Targeted Isotope-Assisted Metabolomics by Means of Metabolic Turnover and Multivariate Analysis" Metabolites 2014, 4 (3), 722-739 Pongsuwan W, et al., "Prediction of Japanese green tea ranking by gas chromatography/mass spectrometry-based hydrophilic metabolite fingerprinting." J Agric Food Chem. 2007 Jan 24;55(2):231-6.Pongsuwan W, et al., "Prediction of Japanese green tea ranking by gas chromatography / mass spectrometry-based hydrophilic metabolite fingerprinting." J Agric Food Chem. 2007 Jan 24; 55 (2): 231-6.

PLSは教師あり次元削減法の一種である一方、PCAは教師なし手法である。本願発明者は、PCAのような解析手法においてサンプル間の順序をスコアに反映しながら、ローディングの仮説検定といった多様なデータ解析を可能にする方法について、鋭意研究を重ねた。 PLS is a type of supervised dimensionality reduction method, while PCA is an unsupervised method. The inventor of the present application has conducted extensive research on a method that enables various data analysis such as a loading hypothesis test while reflecting the order between samples in a score in an analysis method such as PCA.

本発明の目的は、統計サンプル間の順序を考慮しながら多様なデータ解析を可能にするデータ解析装置および方法を提供することである。 An object of the present invention is to provide a data analysis device and method that enable various data analysis while considering the order between statistical samples.

本発明に係るデータ解析装置は、複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行う装置である。データ解析装置は、記憶部と、制御部とを備える。記憶部は、統計サンプル毎に複数のデータ項目を管理する統計データ、及び複数の統計サンプル間の順序を示す順序情報を記録する。制御部は、統計データ及び順序情報に基づく所定の演算処理を行う。制御部は、統計データの主成分分析における説明変数と、順序情報に従う制約条件が設定される補助変数との間の共分散を最適化するように、説明変数に対応する第1のベクトルと、補助変数に対応する第2のベクトルとを算出し、第1のベクトルと第2のベクトルとの内の少なくとも一方に基づいて、複数の統計サンプルに対するスコアを算出する。 The data analysis device according to the present invention is a device that performs multivariate analysis on a plurality of data items on a plurality of statistical samples. The data analysis device includes a storage unit and a control unit. The storage unit records statistical data for managing a plurality of data items for each statistical sample, and order information indicating the order between the plurality of statistical samples. The control unit performs predetermined arithmetic processing based on statistical data and order information. The control unit uses the first vector corresponding to the explanatory variable to optimize the covariance between the explanatory variable in the principal component analysis of the statistical data and the auxiliary variable for which the constraint condition according to the order information is set. A second vector corresponding to the auxiliary variable is calculated, and a score for a plurality of statistical samples is calculated based on at least one of the first vector and the second vector.

本発明に係るデータ解析方法は、コンピュータが複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行う方法である。コンピュータの記憶部52には、統計サンプル毎に複数のデータ項目を管理する統計データ、及び複数の統計サンプル間の順序を示す順序情報が記録されている。本方法は、コンピュータが、統計データの主成分分析における説明変数と、順序情報に従う制約条件が設定される補助変数との間の共分散を最適化するように、説明変数に対応する第1のベクトルと、補助変数に対応する第2のベクトルとを算出するステップと、第1のベクトルと第2のベクトルとの内の少なくとも一方に基づいて、複数の統計サンプルに対するスコアを算出するステップとを含む。 The data analysis method according to the present invention is a method in which a computer performs multivariate analysis on a plurality of data items on a plurality of statistical samples. In the storage unit 52 of the computer, statistical data for managing a plurality of data items for each statistical sample and order information indicating the order among the plurality of statistical samples are recorded. In this method, the first method corresponds to the explanatory variables so that the computer optimizes the covariance between the explanatory variables in the principal component analysis of the statistical data and the auxiliary variables for which the constraints according to the order information are set. A step of calculating a vector and a second vector corresponding to an auxiliary variable, and a step of calculating a score for a plurality of statistical samples based on at least one of the first vector and the second vector. Including.

本発明に係るデータ解析装置および方法によると、統計データの主成分分析における説明変数と、順序情報に従う制約条件が設定される補助変数との間の共分散を最適化する理論の適用により、統計サンプル間の順序を考慮しながら多様なデータ解析を可能にすることができる。 According to the data analysis apparatus and method according to the present invention, statistics are obtained by applying a theory that optimizes the covariance between the explanatory variables in the principal component analysis of statistical data and the auxiliary variables for which constraint conditions according to ordinal information are set. It is possible to analyze various data while considering the order between samples.

OS−PCAの理論を説明するための図Diagram for explaining the theory of OS-PCA データ解析の事例1におけるPCAの解析結果を示す図The figure which shows the analysis result of PCA in the case 1 of data analysis. データ解析の事例1におけるOS−PCAの解析結果を示す図The figure which shows the analysis result of OS-PCA in the case 1 of data analysis. データ解析の事例1におけるOS−PCAのローディングの仮説検定例を示す図表Chart showing an example of hypothesis testing of OS-PCA loading in case 1 of data analysis データ解析の事例2におけるPCAの解析結果を示す図The figure which shows the analysis result of PCA in the case 2 of data analysis. データ解析の事例2におけるOS−PCAの解析結果を示す図The figure which shows the analysis result of OS-PCA in the case 2 of data analysis. 実施形態1に係るデータ解析装置の構成を示すブロック図Block diagram showing the configuration of the data analysis apparatus according to the first embodiment データ解析装置によるデータ解析処理を示すフローチャートFlowchart showing data analysis processing by data analysis device データ解析処理におけるOS−PCA演算処理を示すフローチャートFlowchart showing OS-PCA arithmetic processing in data analysis processing

以下、添付の図面を参照して本発明に係るデータ解析装置、方法及びプログラムの実施の形態を説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。 Hereinafter, embodiments of the data analysis apparatus, method, and program according to the present invention will be described with reference to the accompanying drawings. In each of the following embodiments, the same reference numerals are given to the same components.

(実施形態1)
1.概要
本発明の実施形態1に係るデータ解析方法による統計解析の概要について説明する。以下では、メタボロミクスに対する本データ解析方法の適用例を説明する。
(Embodiment 1)
1. 1. Outline An outline of statistical analysis by the data analysis method according to the first embodiment of the present invention will be described. The application example of this data analysis method to metabolomics will be described below.

メタボロミクスは、生体内の低分子の代謝物を包括的に解析する研究分野である。メタボロミクスでは、例えば、動物の組織や微生物の細胞、人間の血液や尿などの生体サンプル(試料)を種々の分析装置で測定し、サンプルに含まれる代謝物の濃度等を解析する。測定された種々の代謝物の濃度の値等が記録されるメタボロームデータは、例えば下記のようなn行q列のデータ行列Xの形式で表される。

Figure 2021009540
Metabolomics is a research field that comprehensively analyzes low-molecular-weight metabolites in vivo. In metabolomics, for example, biological samples (samples) such as animal tissues, microbial cells, human blood and urine are measured by various analyzers, and the concentration of biotransforms contained in the samples is analyzed. The metabolome data in which the measured concentrations of various biotransforms and the like are recorded is represented in the form of the data matrix X of n rows and q columns as shown below.
Figure 2021009540

ここで、nはサンプルの個数であり、qは測定された代謝物の数(即ちデータ項目数)である。上式(1)は、例えばメタボロームデータとして1行当たりに、行番号に対応するサンプルで測定されたq個の代謝物の測定値を記録できる。測定値の代わりに、各種の計算値が記録されてもよい(例えばアイソトポマー比など)。 Here, n is the number of samples, and q is the number of measured metabolites (that is, the number of data items). The above equation (1) can record, for example, the measured values of q metabolites measured in the sample corresponding to the line number per line as metabolome data. Various calculated values may be recorded instead of the measured values (eg, isotopomer ratio, etc.).

メタボロームデータの解析は、主成分分析を用いると、以下のような手順で行われる。即ち、まずメタボロームデータの主成分分析によるスコアにおいてサンプルのデータ分布を可視化して、所望の表現型、群情報や時系列情報等と関連する主成分を見つけ出す。その後、主成分に対応するローディングの仮説検定に基づき有意な代謝物を選出することにより、選出された代謝物群と代謝パスウェイとの関連性を調べること等が行える。 The analysis of metabolome data is performed by the following procedure using principal component analysis. That is, first, the data distribution of the sample is visualized in the score obtained by the principal component analysis of the metabolome data, and the principal component related to the desired phenotype, group information, time series information, etc. is found. After that, by selecting significant metabolites based on the loading hypothesis test corresponding to the main component, the relationship between the selected metabolite group and the metabolic pathway can be investigated.

以上のようなメタボロームデータ解析においては、メタボロームデータに加えて、サンプルまたは群同士の関係に関する付加的な情報が、予め与えられていることがある。従来の典型的な多変量解析は、メタボロームデータを解析するために有用である一方で、このような付加情報は解析の際に考慮されない。このため、典型的なPCA等においては、サンプルの可視化に用いられるスコアに付加情報が反映されず、解析を進めることが困難な場合がある。このような問題を回避するために付加情報を組み込んだ解析手法として、「平滑化PCA」が、以前に本発明者らにより提案された(非特許文献1)。 In the metabolome data analysis as described above, in addition to the metabolome data, additional information regarding the relationship between samples or groups may be given in advance. While conventional typical multivariate analysis is useful for analyzing metabolome data, such additional information is not considered in the analysis. Therefore, in a typical PCA or the like, additional information may not be reflected in the score used for visualizing the sample, and it may be difficult to proceed with the analysis. As an analysis method incorporating additional information in order to avoid such a problem, "smoothing PCA" has been previously proposed by the present inventors (Non-Patent Document 1).

平滑化PCAは、経時的に採取されたサンプルのメタボロームデータを解析するためには有用である。例えば、微生物の培養や発酵の研究においては、様々な物質の濃度変化を経時的に見るためにメタボロームデータの解析が行われている。本発明者らの研究によると、酵母の発酵過程を可視化する目的でメタボロームデータに平滑化PCAを適用して、その有効性が確認された(非特許文献1)。ここで、本発明者は、平滑化PCAはローディングの統計的な意味を理論的に説明することができず、統計的な基準でローディングから代謝物を選出することが困難であるという問題に着目した。 Smoothed PCA is useful for analyzing metabolome data of samples taken over time. For example, in research on culturing and fermentation of microorganisms, metabolome data is analyzed in order to observe changes in the concentrations of various substances over time. According to the research by the present inventors, the effectiveness of smoothing PCA was applied to the metabolome data for the purpose of visualizing the fermentation process of yeast (Non-Patent Document 1). Here, the present inventor focuses on the problem that smoothed PCA cannot theoretically explain the statistical meaning of loading, and it is difficult to select biotransforms from loading on a statistical basis. did.

そこで、本発明者は上記の問題について鋭意検討を重ね、平滑化PCAと同等の計算結果が得られて且つローディングの仮説検定により統計的に有意な代謝物を選出することを可能にする主成分分析の一手法「直交平滑化PCA(OS−PCA:Orthogonal Smoothed PCA)」を考案した。 Therefore, the present inventor repeated diligent studies on the above problems, and obtained a calculation result equivalent to that of smoothed PCA, and made it possible to select a statistically significant metabolite by a loading hypothesis test. We devised one method of analysis, "Orthogonal Smoothed PCA (OS-PCA)".

2.理論
以下、本実施形態に係るOS−PCAの理論について説明する。
2. 2. Theory The theory of OS-PCA according to this embodiment will be described below.

2−1.平滑化PCAについて
OS−PCA及び平滑化PCAといった各種の解析手法において、解析対象とする統計データは、例えば式(1)のデータ行列Xとして表される。以下、データ行列Xにおけるp列目のデータを「x」とする。データ行列Xは、例えば各列のデータx(p=1〜q)を、n個の成分間(即ちサンプル間)において平均「0」且つ分散「1」にスケーリングして用いられる。
2-1. Smoothed PCA In various analysis methods such as OS-PCA and smoothed PCA, the statistical data to be analyzed is represented by, for example, the data matrix X of the equation (1). Hereinafter, the data in the p-th column in the data matrix X will be referred to as “x p ”. The data matrix X is used, for example, by scaling the data x p (p = 1 to q) of each column to an average of "0" and a variance of "1" between n components (that is, between samples).

データ行列Xに対する主成分分析のスコアには、次式(2)のようなn次元ベクトルの説明変数tを用いることができる。
t=Xw (2)
For the score of the principal component analysis for the data matrix X, the explanatory variable t of the n-dimensional vector as in the following equation (2) can be used.
t = Xw x (2)

上式(2)において、重みベクトルwはq次元ベクトルであり、q個の成分を有する。上式(2)によると、重みベクトルwの各成分は、データ行列Xにおけるデータ項目毎に説明変数tの重み付けを示す。説明変数tのn個の値が、それぞれ対応するサンプルのスコアを示すこととなる。 In the above equation (2), the weight vector w x is a q-dimensional vector and has q components. According to the above equation (2), each component of the weight vector w x indicates the weight of the explanatory variable t for each data item in the data matrix X. The n values of the explanatory variables t indicate the scores of the corresponding samples.

OS−PCAと平滑化PCAとは、上記の各種変数に加えて、後述する平滑化パラメータκ及びダミー行列Dを共通に用いる。まず、平滑化PCAは、次式(31)〜(32)のように定式化される(非特許文献1)。

Figure 2021009540
In addition to the various variables described above, the OS-PCA and the smoothing PCA commonly use the smoothing parameter κ and the dummy matrix D, which will be described later. First, the smoothed PCA is formulated as the following equations (31) to (32) (Non-Patent Document 1).
Figure 2021009540

上式(31)〜(32)において、「’」は行列等の転置を表す(以下同様)。上式(32)の左辺における第2項は、平滑化パラメータκに基づく平滑化項を構成する。 In the above equations (31) to (32), "'" represents the transpose of a matrix or the like (the same applies hereinafter). The second term on the left side of the above equation (32) constitutes a smoothing term based on the smoothing parameter κ.

上式(31)〜(32)によると、平滑化PCAは、次式(33)のように一般化固有値問題に帰着する。なお、Iは単位行列であり、λは固有値である。

Figure 2021009540
According to the above equations (31) to (32), the smoothed PCA results in a generalized eigenvalue problem as in the following equation (33). Note that I is an identity matrix and λ is an eigenvalue.
Figure 2021009540

2−2.OS−PCAについて
本実施形態に係るOS−PCAは、以上のような平滑化PCAとは別の定式化で平滑化項を取り入れるべく、次式(3)のような補助変数sを導入する。
s=Xw (3)
2-2. OS-PCA The OS-PCA according to the present embodiment introduces the auxiliary variable s as in the following equation (3) in order to incorporate the smoothing term by a formulation different from the smoothing PCA as described above.
s = Xw y (3)

補助変数sは、後述する制約条件が設定される補助的な変数である(式(6)参照)。補助変数sは、説明変数tと同様にn次元ベクトルであり、サンプル毎のスコアを構成できる。又、上式(3)において、重みベクトルwは、説明変数tの重みベクトルwと同様にq次元ベクトルである。上式(3)によると、重みベクトルwの各成分は、データ行列Xにおけるデータ項目毎に補助変数sの重み付けを示す。 The auxiliary variable s is an auxiliary variable in which the constraint conditions described later are set (see Equation (6)). The auxiliary variable s is an n-dimensional vector like the explanatory variable t, and a score for each sample can be constructed. Further, in the above equation (3), the weight vector w y, as well as the weight vector w x explanatory variables t and q-dimensional vector. According to the above equation (3), each component of the weight vector w y indicates the weighting of the auxiliary variables s for each data item in the data matrix X.

平滑化PCAは、主成分スコアに対応する一変数tの分散を最大化した(式(31)参照)。これに代えて、本実施形態のOS−PCAは、二変数tとsの共分散を最大化することで主成分を求めるように定式化される。具体的に、本手法は次式(4)〜(6)のように定式化される。

Figure 2021009540
The smoothed PCA maximized the variance of the one variable t corresponding to the principal component score (see equation (31)). Instead, the OS-PCA of the present embodiment is formulated to obtain the principal component by maximizing the covariance of the two variables t and s. Specifically, this method is formulated as the following equations (4) to (6).
Figure 2021009540

上式(4)〜(6)において、平滑化パラメータκは0<κ<1の範囲内で設定され、行列Pは次式(7)のように表される。
P=(1−κ)I+κX’D’DX (7)
In the above equations (4) to (6), the smoothing parameter κ is set within the range of 0 <κ <1, and the matrix P is expressed as in the following equation (7).
P = (1-κ) I + κX'D'DX (7)

上式(4)において、共分散cov(t,s)の引数に目的変数は含まれない。このように、本手法は、特にPLS等のように目的変数の情報を利用してはおらず、教師無し手法である。又、本手法において、上式(4)の最大化は局所的であってもよく、上記の条件式(5),(6)を満たす範囲で共分散cov(t,s)を最適化するように、複数の固有値に対する固有ベクトルを算出可能である。 In the above equation (4), the objective variable is not included in the argument of the covariance cov (t, s). As described above, this method does not utilize the information of the objective variable as in PLS and the like, and is an unsupervised method. Further, in this method, the maximization of the above equation (4) may be local, and the covariance cov (t, s) is optimized within the range satisfying the above conditional equations (5) and (6). As described above, it is possible to calculate the eigenvectors for a plurality of eigenvalues.

上記の条件式(5)は、重みベクトルwの大きさを「1」に設定する条件(即ち正規化条件)を表す。条件式(6)は、平滑化パラメータκの分、重みベクトルwの大きさを「1」からずらす制約条件を表す。同式(6)の左辺第2項は、ダミー行列Dによってデータ行列X中のサンプル間のデータを平滑化する平滑化項である。 The above conditional expression (5) represents a condition (that is, a normalization condition) for setting the magnitude of the weight vector w x to “1”. Condition (6), the partial smoothing parameter kappa, representing the constraint condition of shifting the magnitude of the weight vector w y "1". The second term on the left side of the equation (6) is a smoothing term that smoothes the data between the samples in the data matrix X by the dummy matrix D.

ダミー行列Dは、サンプル間の順序に応じた平滑化を設定するための行列である。ダミー行列Dとしては、例えば図1(A)に示すように一次の差分行列D(1)又は二次の差分行列D(2)を採用できる。各差分行列D(1),D(2)の行毎に、差分を取る順序のサンプル間で、データの平滑化を実現できる。 The dummy matrix D is a matrix for setting smoothing according to the order between samples. As the dummy matrix D, for example, as shown in FIG. 1 (A), a first-order difference matrix D (1) or a second-order difference matrix D (2) can be adopted. Data smoothing can be realized between the samples in the order of taking the difference for each row of each difference matrix D (1) and D (2) .

図1(A),(B)では、サンプル間の群の数が1つの場合の各差分行列D(1),D(2)の行数及び列数を例示している。群の個数が複数G個の場合、ダミー行列Dは、群毎のダミー行列D(1)〜D(G)を用いて、図1(C)に示すように(ブロック)対角的に設定可能である。群毎のダミー行列D(1)〜D(G)は、それぞれ同じ群のサンプル間で、図1(A),(B)と同様の差分行列を採用可能である。 In FIGS. 1A and 1B, the number of rows and the number of columns of each difference matrix D (1) and D (2) when the number of groups between samples is one are illustrated. When the number of groups is a plurality of G, the dummy matrix D is set diagonally (block) as shown in FIG. 1 (C) by using the dummy matrices D (1) to D (G) for each group. It is possible. For the dummy matrices D (1) to D (G) for each group, the same difference matrix as in FIGS. 1 (A) and 1 (B) can be adopted between the samples in the same group.

上式(4)〜(11)のように定式化されたOS−PCAは、ラグランジュ乗数法を用いることにより、下記のラグランジュ関数Jの最適化問題として記述できる(λ,λはラグランジュ乗数)。

Figure 2021009540
The OS-PCA formulated as in the above equations (4) to (11) can be described as the following optimization problem of the Lagrange function J by using the Lagrange multiplier method (λ x and λ y are the Lagrange multipliers). ).
Figure 2021009540

上記の関数Jを各ベクトルw,wで偏微分することで、次式(8),(9)がそれぞれ得られる。

Figure 2021009540
By partially differentiating the above function J each vector w x, in w y, the following equation (8), obtained respectively (9).
Figure 2021009540

上式(8),(9)は、各ベクトルw,wについて、次式(10),(11)のように整理できる。

Figure 2021009540
Equation (8), (9), each vector w x, for w y, the following equation (10), can be summarized as (11).
Figure 2021009540

上式(10),(11)において、固有値λは、λ=4λλを満たす。上式(10)において、右辺は固有値λと重みベクトルwの積であり、左辺は対称行列と重みベクトルwとの積となっている。 In the above equations (10) and (11), the eigenvalue λ satisfies λ = 4λ x λ y . In the above equation (10), the right side is the product of the eigenvalue λ and the weight vector w x , and the left side is the product of the symmetric matrix and the weight vector w x .

上式(10)によると、本手法は、説明変数tの重みベクトルwについて固有値問題で記述されている。平滑化PCAは、一般化固有値問題に帰着したことから、固有ベクトルが互いに直交しなかった。これに対して、本実施形態のOS−PCAは、上記の固有値問題から説明変数tの重みベクトルwに関して、別々の固有値λに対する固有ベクトルが互いに直交することが分かる。 According to the above equation (10), this method describes the weight vector w x of the explanatory variable t as an eigenvalue problem. The smoothed PCA resulted in a generalized eigenvalue problem, so the eigenvectors were not orthogonal to each other. On the other hand, in the OS-PCA of the present embodiment, it can be seen from the above eigenvalue problem that the eigenvectors for different eigenvalues λ are orthogonal to each other with respect to the weight vector w x of the explanatory variable t.

以上のOS−PCAによると、式(10),(11)の固有値λ別に、固有ベクトルとしての重みベクトルw,wを計算し、式(2),(3)に代入することにより、各変数t,sの成分としてサンプルのスコアを算出することができる。以下、最も大きい固有値λによるスコアを第1主成分といい、次に大きい固有値λによるスコアを第2主成分という場合がある。 According to the above OS-PCA, equation (10), apart from the eigenvalues λ of (11), the weight vector w x as eigenvectors, and w y calculated equation (2), by substituting (3), each The score of the sample can be calculated as a component of the variables t and s. Hereinafter, the score with the largest eigenvalue λ may be referred to as the first principal component, and the score with the next largest eigenvalue λ may be referred to as the second principal component.

2−2−1.ローディングの仮説検定について
以上のようなOS−PCAによると、平滑化項によりサンプル間の順序情報をスコアに反映できると共に、重みベクトルwが、ローディングの仮説検定を可能とする統計的な性質を満たす(式(13))。この点について以下、説明する。
2-2-1. About loading hypothesis test According to the above OS-PCA, the order information between samples can be reflected in the score by the smoothing term, and the weight vector w x has statistical properties that enable loading hypothesis test. Satisfy (Equation (13)). This point will be described below.

まず、データ行列Xにおけるp番目(p=1〜q)のデータ項目(代謝物)のデータxと、スコアsと相関係数corr(s,x)は、次式(12)のように表される。

Figure 2021009540
First, the data x p data items p-th in the data matrix X (p = 1 to q) (metabolite), the score s and the correlation coefficient corr (s, x p) is the following formula (12) It is represented by.
Figure 2021009540

データ行列Xのスケーリングによる分散Var(x)=1、及び式(3),(8),(12)によると、相関係数corr(s,x)は、次式(13)のように表すことができる。

Figure 2021009540
According to the variance Var (x p ) = 1 by scaling the data matrix X and the equations (3), (8), and (12), the correlation coefficient corr (s, x p ) is as in the following equation (13). Can be expressed in.
Figure 2021009540

上式(13)において、wx,pは重みベクトルwのp番目の成分である。上式(13)右辺の分母は、p番目の変数に影響を与えない。よって、最終的に重みベクトルwは、p番目のデータxとスコアsとの相関係数corr(s,x)に比例するという、統計的な性質を有することが分かる。 In the above equation (13), w x and p are the p-th components of the weight vector w x . The denominator on the right side of the above equation (13) does not affect the p-th variable. Therefore, it can be seen that the weight vector w x finally has a statistical property that it is proportional to the correlation coefficient corr (s, x p ) between the p-th data x p and the score s.

又、R=corr(s,x)とおくと、次式(14)のt統計量(t-statistic)は自由度n−2のt分布に従う。

Figure 2021009540
If R = corr (s, x p ), the t-statistic of the following equation (14) follows the t distribution with n-2 degrees of freedom.
Figure 2021009540

以上より、本手法によると、重みベクトルwの各成分を用いて、代謝物等のデータ項目毎に上記のt統計量に基づくp値等を得ることができる。すなわち、本実施形態のOS−PCAによると、PCA等と同様に、ローディングの統計的仮説検定を行うことができる。 From the above, according to this method, it is possible to obtain a p-value or the like based on the above t-statistic for each data item such as a metabolite by using each component of the weight vector w x . That is, according to the OS-PCA of the present embodiment, a statistical hypothesis test of loading can be performed in the same manner as the PCA and the like.

2−2−2.平均化操作について
本実施形態のOD−PCAは、1つのサンプルについて繰り返し測定されたことで、繰り返しサンプルによる複数のデータがデータ行列X中にある場合、このようなデータを扱うために、同一サンプル由来のデータに対して平均化の操作を導入することができる。平均化操作を導入したOS−PCAは、次式(15)〜(17)のように表される。

Figure 2021009540
2-2-2. About the averaging operation The OD-PCA of the present embodiment is repeatedly measured for one sample, and when a plurality of data from the repeated samples are in the data matrix X, the same sample is used to handle such data. An averaging operation can be introduced for the derived data. The OS-PCA into which the averaging operation is introduced is expressed by the following equations (15) to (17).
Figure 2021009540

上式(15)〜(17)において、平均化のためのダミー行列Mは、次式(18)のようなn行g列の行列で表される。なお、gは、繰り返しの解消後のサンプル数であり、解消前のn個のサンプルにおける(データの繰り返しによる)群の数とも考えることができる。

Figure 2021009540
In the above equations (15) to (17), the dummy matrix M for averaging is represented by an n-by-g matrix as in the following equation (18). In addition, g is the number of samples after the elimination of the repetition, and can be considered as the number of groups (by repeating the data) in the n samples before the elimination.
Figure 2021009540

上式(18)において、各ベクトルm〜mは、それぞれ対応するサンプルについてデータの繰り返しの個数分の次元を有する。例えば、1番目のサンプルの平均化のためのベクトルmは、繰り返しのデータの個数n1に基づき、次式(19)のように表される。
’=[1/n1,1/n1,1/n1,…,1/n1] (19)
In the above equation (18), each vector m 1 to mg has a dimension corresponding to the number of repeated data for the corresponding sample. For example, the vector m 1 for averaging the first sample is expressed by the following equation (19) based on the number n1 of repeated data.
m 1 '= [1 / n1, 1 / n1, 1 / n1, ..., 1 / n1] (19)

又、式(17)における行列Qは、平均化操作をしない場合の行列Pに対応しており、次式(20)のように表される。
Q=(1−κ)I+X’M’D’DMX (20)
Further, the matrix Q in the equation (17) corresponds to the matrix P when the averaging operation is not performed, and is expressed as in the following equation (20).
Q = (1-κ) I + X'M'D'DMX (20)

上式(15)〜(17)によると、平均化行列Mによって繰り返しサンプル毎に平均化操作を実現できる。この場合のOS−PCAも、上述した場合と同様に固有値問題で記述できる。具体的には、次式(21)〜(22)のように記述される。

Figure 2021009540
According to the above equations (15) to (17), the averaging operation can be realized for each repeated sample by the averaging matrix M. The OS-PCA in this case can also be described by the eigenvalue problem as in the case described above. Specifically, it is described as the following equations (21) to (22).
Figure 2021009540

3.検証事例について
以上のようなOS−PCAの理論について、実際のメタボロームデータを用いた検証を行った。2つの検証事例として、ターンオーバー解析と、緑茶のメタボロームデータとにOS−PCAを適用し、通常の主成分分析の解析結果と比較して、OS−PCAの有用性を確認した。各事例について、以下説明する。
3. 3. Verification example The above OS-PCA theory was verified using actual metabolome data. As two verification cases, OS-PCA was applied to the turnover analysis and the metabolome data of green tea, and the usefulness of OS-PCA was confirmed by comparing with the analysis result of the usual principal component analysis. Each case will be described below.

3−1.事例1
事例1においては、非特許文献2と同様のターンオーバー解析について、典型的なPCAとOS−PCAとを適用した。
3-1. Case 1
In Case 1, a typical PCA and OS-PCA were applied for the same turnover analysis as in Non-Patent Document 2.

本事例では、酵母Saccharomyces cerevisiae BY4742(アミノ酸カクテル)およびX2180株(最小培地とアミノ酸カクテル)について、13Cグルコースで同位体標識したサンプルを用いた。サンプリングは、0秒、10秒、20秒、40秒、80秒、160秒、320秒、640秒、1280秒、及び2560秒という時系列(即ちサンプル間の順序)で行った。各サンプリング結果に対してGC/MSによる代謝物の測定値(メタボロームデータ)から、アイソトポマー比を計算した値を、解析対象の統計データ(即ちデータ行列X)として用いた。 In this case, samples of yeast Saccharomyces cerevisiae BY4742 (amino acid cocktail) and X2180 strain (minimum medium and amino acid cocktail) areotope-labeled with 13 C glucose were used. Sampling was performed in a time series of 0 seconds, 10 seconds, 20 seconds, 40 seconds, 80 seconds, 160 seconds, 320 seconds, 640 seconds, 1280 seconds, and 2560 seconds (that is, the order between samples). The value obtained by calculating the isotopomer ratio from the measured value (metabolomics data) of the metabolome by GC / MS for each sampling result was used as the statistical data to be analyzed (that is, the data matrix X).

上記の統計データに関して、まず通常のPCA(即ちκ=0)を行った結果を図2に示す。図2において、横軸は第1主成分のスコアを示し、縦軸は第2主成分のスコア(PC2)を示す。図2によると、通常のPCAにおいては、第1主成分で時系列の様子が確認できてはいるものの、株間の差は、確認できていない。 FIG. 2 shows the results of performing normal PCA (that is, κ = 0) with respect to the above statistical data. In FIG. 2, the horizontal axis represents the score of the first principal component, and the vertical axis represents the score of the second principal component (PC2). According to FIG. 2, in a normal PCA, although the state of the time series can be confirmed with the first principal component, the difference between the strains cannot be confirmed.

非特許文献2では、上記のアイソトポマー比について全サンプルの平均を引いたデータを利用して主成分分析を行うことで、株間の差が主成分スコアに現れるように工夫が為されている。又、この結果から、注目すべき代謝物としてLysineの4TMSとIsoleucineの2TMSを挙げている。しかしながら、非特許文献2の方法では時系列の情報が失われている。さらに、アイソトポマー比そのものを直接データとして利用していないので、関連する代謝物を選出する際に、目視で確認する必要が生じてしまう。 In Non-Patent Document 2, the principal component analysis is performed using the data obtained by subtracting the average of all the samples for the above isotopomer ratio, so that the difference between the strains appears in the principal component score. From this result, Lysine's 4TMS and Isoleucine's 2TMS are cited as notable metabolites. However, in the method of Non-Patent Document 2, time-series information is lost. Furthermore, since the isotopomer ratio itself is not directly used as data, it becomes necessary to visually confirm it when selecting related metabolites.

次に、本実施形態に係るOS−PCAの結果を図3(A),(B)に示す。本例では、平滑化パラメータκ=0.999においてOS−PCAを上記の統計データに適用した。 Next, the results of OS-PCA according to this embodiment are shown in FIGS. 3 (A) and 3 (B). In this example, OS-PCA was applied to the above statistical data with a smoothing parameter κ = 0.999.

図3(A)では、OS−PCAにおける説明変数tの第1主成分のスコア(PC1t)を横軸に示し、同変数tの第2成分のスコア(PC2t)を縦軸に示す。図3(B)では、OS−PCAにおける補助変数sの第1主成分のスコア(PC1s)を横軸に示し、同変数sの第2成分のスコア(PC2s)を縦軸に示す。 In FIG. 3A, the score (PC1t) of the first principal component of the explanatory variable t in OS-PCA is shown on the horizontal axis, and the score (PC2t) of the second component of the variable t is shown on the vertical axis. In FIG. 3B, the score (PC1s) of the first principal component of the auxiliary variable s in OS-PCA is shown on the horizontal axis, and the score (PC2s) of the second component of the variable s is shown on the vertical axis.

図3(A),(B)に示す結果より、OS−PCAでは各変数t,sについて、第1主成分で時系列を確認できると共に、第2主成分で株間の差すなわち群間差を確認することができた。第2主成分のスコアPC2sについては、特に培地による違いが現れていることから、対応するローディングに着目した。図4に、本事例におけるローディングの仮説検定結果を示す。 From the results shown in FIGS. 3 (A) and 3 (B), in OS-PCA, the time series can be confirmed for each variable t and s with the first principal component, and the difference between strains, that is, the difference between groups can be confirmed with the second principal component. I was able to confirm. Regarding the score PC2s of the second principal component, the corresponding loading was focused on because the difference appeared depending on the medium. FIG. 4 shows the results of the loading hypothesis test in this case.

図4に示すように、ローディングとしてLysine_3TMS_Minor::C00047、Lysine_4TMS_Major::C00047、Histidine::C00135+0、及びPeak-63の4つのピーク(代謝物)について、上記スコアPC2sと有意に負の相関が確認された。この結果は、非特許文献2で注目すべき代謝物として挙げているLysineの4TMSを含んでおり、既存の報告とも一致していることが分かる。 As shown in FIG. 4, there is a significant negative correlation with the above score PC2s for the four peaks (biotransformers) of Lysine_3TMS_Minor :: C00047, Lysine_4TMS_Major :: C00047, Histidine :: C00135 + 0, and Peak-63 as loading. confirmed. It can be seen that this result includes Lysine's 4TMS, which is listed as a notable metabolite in Non-Patent Document 2, and is consistent with existing reports.

以上のように、本実施形態に係るOS−PCAを用いることで、時系列の情報および群間差が確認され、ローディングの統計的仮説検定を用いて選出した代謝物についても妥当および結果が得られた。 As described above, by using the OS-PCA according to the present embodiment, time-series information and differences between groups were confirmed, and valid and results were obtained for the biotransformers selected by using the statistical hypothesis test of loading. Was done.

3−2.事例2
本事例では、緑茶の品評会でランク付けされた緑茶の葉のメタボローデータを解析対象として用いた(非特許文献3)。本データは、1位、6位、11位、16位、21位、31位、36位、41位、46位、及び51位といった順序を有する各々の緑茶について、それぞれ3回ずつ測定されたデータである。これにより、3サンプルずつの群が形成され得る。
3-2. Case 2
In this case, the metabolic syndrome data of green tea leaves ranked at the green tea fair was used as the analysis target (Non-Patent Document 3). This data was measured three times for each green tea having the order of 1st, 6th, 11th, 16th, 21st, 31st, 36th, 41st, 46th, and 51st. It is data. As a result, a group of 3 samples can be formed.

上記の統計データに関して、まずPCAの結果を図5に示す。図5では、図2と同様に第1及び第2主成分のスコアを示している。図5によると、PCAでは幾つかの群の傾向は確認できるが、品評会のランキングとの関連性は確認できない。 Regarding the above statistical data, first, the result of PCA is shown in FIG. FIG. 5 shows the scores of the first and second principal components as in FIG. According to FIG. 5, PCA can confirm the tendency of some groups, but cannot confirm the relevance to the ranking of the competition.

次に、本実施形態に係るOS−PCAの結果を図6に示す。本例では、平滑化パラメータκ=0.1においてOS−PCAを上記の統計データに適用した。図6(A)では、OS−PCAにおける補助変数sの第1主成分のスコア(PC1os)を横軸に示し、同変数sの第2成分のスコア(PC2os)を縦軸に示す。 Next, the result of OS-PCA according to this embodiment is shown in FIG. In this example, OS-PCA was applied to the above statistical data with a smoothing parameter κ = 0.1. In FIG. 6A, the score (PC1os) of the first principal component of the auxiliary variable s in OS-PCA is shown on the horizontal axis, and the score (PC2os) of the second component of the variable s is shown on the vertical axis.

図6に示す結果より、OS−PCAにおける第1主成分のスコアPC1osでは、(21位のサンプルについては比較的スコアが低いものの)概ねランクの順序に合った関係が確認できる。そこで、第1主成分のスコアPC1osについてのローディングの統計的仮説検定を行った。 From the results shown in FIG. 6, it can be confirmed that the score PC1os of the first principal component in OS-PCA generally matches the order of rank (although the score is relatively low for the 21st-ranked sample). Therefore, a statistical hypothesis test of loading was performed for the score PC1os of the first principal component.

上記の仮説検定の結果としては、未知のピーク(代謝物)も含めた225物質中、p<0.05で有意なものは73個あり、q<0.05で有意なものは57個あった。その中でも特に上記のスコアPC1osとの相関係数が0.7より高く、名前が既知のものは、下記の5物質であった。
Raffinose(R=-0.8600, p=1.133×10-9, q=2.550×10-7)
threo-3-Hydroxy-L-aspartic acid(R=-0.7912, p=1.941×10-7, q=1.764×10-5)
Arabinose(R=-0.7880, p=2.352×10-7, q=1.764×10-5)
Shikimic acid(R=-0.7334, p=4.023×10-6, q=2.073×10-4)
Galactose(R=-0.7228, p=6.450×10-6, q=2.073×10-4)
As a result of the above hypothesis test, among 225 substances including unknown peaks (metabolites), 73 were significant when p <0.05, and 57 were significant when q <0.05. It was. Among them, the following five substances had a correlation coefficient higher than 0.7 and a known name in particular with the above score PC1os.
Raffinose (R = -0.8600, p = 1.133 × 10 -9 , q = 2.550 × 10 -7 )
threo-3-Hydroxy-L-aspartic acid (R = -0.7912, p = 1.941 × 10 -7 , q = 1.674 × 10 -5 )
Arabinose (R = -0.7880, p = 2.352 × 10 -7 , q = 1.764 × 10 -5 )
Shikimic acid (R = -0.7334, p = 4.023 × 10 -6 , q = 2.073 × 10 -4 )
Galactose (R = -0.7228, p = 6.450 × 10 -6 , q = 2.073 × 10 -4 )

既存の報告では、品評会でのランクと関連する物質として、糖類、アミノ酸、及びQuinic acidが挙げられている。上記のOS−PCAによる解析結果において、糖類については、Raffinose、Arabinose、GalactoseがスコアPC1osと高い負の相関を有し、ランクの高い緑茶にはこれらの糖類が多く含まれることが確認された。又、アミノ酸については、上記の各糖類に比べると相関は小さいものの、Serine(R=0.5427, p=1.945×10-3, q=1.287×10-2、Glycine(R=0.5385, p=2.140×10-3, q=1.338×10-2)がスコアPC1osと有意な正の相関を有し、この2つのアミノ酸は、ランクの高い緑茶には少ない傾向がある。また、その他いくつかのアミノ酸も統計的に有意な相関が確認できた。なお、Quinic acidについてはスコアPC1osとの統計的な有意な相関は確認されなかった。 Existing reports list sugars, amino acids, and quinic acid as substances associated with their rank at the show. In the above analysis results by OS-PCA, it was confirmed that Raffinose, Arabinose, and Galactose had a high negative correlation with the score PC1os, and that high-ranked green tea contained a large amount of these sugars. Regarding amino acids, although the correlation is smaller than that of the above saccharides, Serine (R = 0.5427, p = 1.945 × 10 -3 , q = 1.287 × 10 -2 , Glycine (R = 0.5385, p = 2.140 ×) 10 -3 , q = 1.338 × 10 -2 ) has a significant positive correlation with the score PC1os, and these two amino acids tend to be less in high-ranked green tea, as well as some other amino acids. A statistically significant correlation was confirmed. For Quinic acid, no statistically significant correlation with the score PC1os was confirmed.

以上のように、平滑化PCAの問題点を改良したOS−PCAを提案し、ローディングの統計的な性質を理論的に示した。実際のメタボローム解析に適用し、OS−PCスコアに注目すべきパターンを確認できると共に、統計的仮説検定を用いて代謝物を選出し、従来の知見との一致を確認することができた。 As described above, we proposed an OS-PCA that improved the problems of the smoothed PCA, and theoretically showed the statistical properties of loading. By applying it to the actual metabolome analysis, we were able to confirm a pattern that should be noted for the OS-PC score, and selected biotransformers using the statistical hypothesis test, and confirmed the agreement with the conventional findings.

4.データ解析装置について
以上のようなOS−PCAを実現するデータ解析装置について、以下説明する。
4. Data analysis device The data analysis device that realizes the above OS-PCA will be described below.

4−1.構成
本実施形態に係るデータ解析装置5の構成について、図7を用いて説明する。図7は、データ解析装置5の構成を示すブロック図である。
4-1. Configuration The configuration of the data analysis device 5 according to the present embodiment will be described with reference to FIG. FIG. 7 is a block diagram showing the configuration of the data analysis device 5.

データ解析装置5は、例えばPC(パーソナルコンピュータ)などの情報処理装置で構成される。データ解析装置5は、図7に示すように、制御部51と、記憶部52と、操作部53と、表示部54と、機器インタフェース55と、ネットワークインタフェース56とを備える。 The data analysis device 5 is composed of an information processing device such as a PC (personal computer). As shown in FIG. 7, the data analysis device 5 includes a control unit 51, a storage unit 52, an operation unit 53, a display unit 54, an equipment interface 55, and a network interface 56.

制御部51は、例えばソフトウェアと協働して所定の機能を実現するCPUやMPU等を含み、データ解析装置5の全体動作を制御する。制御部51は、記憶部52に格納されたデータやプログラムを読み出して種々の演算処理を行い、各種の機能を実現する。例えば、制御部51は、本実施形態に係るデータ解析方法をデータ解析装置5に行わせるための命令群を含んだプログラムを実行する。上記のプログラムは、インターネット等の通信ネットワークから提供されてもよいし、可搬性を有する記録媒体に格納されていてもよい。 The control unit 51 includes, for example, a CPU, an MPU, or the like that realizes a predetermined function in cooperation with software, and controls the overall operation of the data analysis device 5. The control unit 51 reads data and programs stored in the storage unit 52 and performs various arithmetic processes to realize various functions. For example, the control unit 51 executes a program including a group of instructions for causing the data analysis device 5 to perform the data analysis method according to the present embodiment. The above program may be provided from a communication network such as the Internet, or may be stored in a portable recording medium.

また、制御部51は、所定の機能を実現するように設計された専用の電子回路や再構成可能な電子回路などのハードウェア回路であってもよい。制御部51は、CPU、MPU、GPU、マイコン、DSP、FPGA、ASIC等の種々の半導体集積回路で構成されてもよい。 Further, the control unit 51 may be a hardware circuit such as a dedicated electronic circuit or a reconfigurable electronic circuit designed to realize a predetermined function. The control unit 51 may be composed of various semiconductor integrated circuits such as a CPU, MPU, GPU, microcomputer, DSP, FPGA, and ASIC.

記憶部52は、データ解析装置5の機能を実現するために必要なプログラム及びデータを記憶する記録媒体であり、例えばハードディスク(HDD)や半導体記憶装置(SSD)を備える。また、記憶部52は、例えば、DRAMやSRAM等の半導体デバイスを備えてもよく、データを一時的に記憶するとともに制御部51の作業エリアとしても機能する。 The storage unit 52 is a recording medium that stores programs and data necessary for realizing the functions of the data analysis device 5, and includes, for example, a hard disk (HDD) or a semiconductor storage device (SSD). Further, the storage unit 52 may be provided with a semiconductor device such as a DRAM or SRAM, and temporarily stores data and also functions as a work area of the control unit 51.

操作部53は、ユーザが操作を行うユーザインタフェースである。操作部53は、例えば、キーボード、タッチパッド、タッチパネル、ボタン、スイッチ、及びこれらの組み合わせで構成される。操作部53は、ユーザによって入力される諸情報を取得する取得部の一例である。 The operation unit 53 is a user interface on which the user operates. The operation unit 53 is composed of, for example, a keyboard, a touch pad, a touch panel, buttons, switches, and a combination thereof. The operation unit 53 is an example of an acquisition unit that acquires various information input by the user.

表示部54は、例えば、液晶ディスプレイや有機ELディスプレイで構成される。表示部54は、例えば操作部53から入力された情報など、種々の情報を表示する。 The display unit 54 is composed of, for example, a liquid crystal display or an organic EL display. The display unit 54 displays various information such as information input from the operation unit 53.

機器インタフェース55は、データ解析装置5に他の機器を接続するための回路(モジュール)である。機器インタフェース55は、所定の通信規格にしたがい通信を行う取得部の一例である。所定の規格には、USB、HDMI(登録商標)、IEEE1395、WiFi、Bluetooth(登録商標)等が含まれる。 The device interface 55 is a circuit (module) for connecting another device to the data analysis device 5. The device interface 55 is an example of an acquisition unit that performs communication according to a predetermined communication standard. Predetermined standards include USB, HDMI®, IEEE1395, WiFi, Bluetooth® and the like.

ネットワークインタフェース56は、無線または有線の通信回線を介してデータ解析装置5をネットワークに接続するための回路(モジュール)である。ネットワークインタフェース56は、所定の通信規格に準拠した通信を行う取得部の一例である。所定の通信規格には、IEEE802.3,IEEE802.11a/11b/11g/11ac等の通信規格が含まれる。 The network interface 56 is a circuit (module) for connecting the data analysis device 5 to the network via a wireless or wired communication line. The network interface 56 is an example of an acquisition unit that performs communication conforming to a predetermined communication standard. Predetermined communication standards include communication standards such as IEEE802.3 and IEEE802.11a / 11b / 11g / 11ac.

以上の説明では、PC等で構成されるデータ解析装置5の一例を説明した。データ解析装置5はこれに限定されず、種々の情報処理装置(即ちコンピュータ)であってもよい。例えば、データ解析装置5は、ASPサーバなどの一つ又は複数のサーバ装置であってもよい。また、コンピュータクラスタ或いはクラウドコンピューティングなどにおいて、本開示に係るデータ解析方法が実現されてもよい。 In the above description, an example of the data analysis device 5 composed of a PC or the like has been described. The data analysis device 5 is not limited to this, and may be various information processing devices (that is, a computer). For example, the data analysis device 5 may be one or more server devices such as an ASP server. Further, the data analysis method according to the present disclosure may be realized in a computer cluster, cloud computing, or the like.

例えば、データ解析装置5は、外部から通信ネットワークを介して入力されたメタボロームデータをネットワークインタフェース56により取得して、本実施形態のデータ解析方法を実行してもよい。データ解析装置5は、ネットワークインタフェース56から外部に、データ解析方法の解析結果を送信してもよい。 For example, the data analysis device 5 may acquire the metabolome data input from the outside via the communication network by the network interface 56 and execute the data analysis method of the present embodiment. The data analysis device 5 may transmit the analysis result of the data analysis method to the outside from the network interface 56.

4−2.動作
本実施形態に係るデータ解析装置5の動作について、図8〜図9を用いて説明する。図8は、データ解析装置5によるデータ解析処理を示すフローチャートである。図9は、データ解析処理におけるOS−PCA演算処理を示すフローチャートである。
4-2. Operation The operation of the data analysis device 5 according to the present embodiment will be described with reference to FIGS. 8 to 9. FIG. 8 is a flowchart showing a data analysis process by the data analysis device 5. FIG. 9 is a flowchart showing an OS-PCA calculation process in the data analysis process.

図8に示すフローチャートの各処理は、データ解析装置5の制御部51によって実行される。 Each process of the flowchart shown in FIG. 8 is executed by the control unit 51 of the data analysis device 5.

まず、制御部51は、解析対象の統計データの一例として、データ行列Xを取得する(S1)。例えばメタボロミクスの解析対象の統計データとして、メタボロームデータを示すデータ行列XがステップS1において取得される。データ行列Xにおけるデータは、代謝物の測定値であってもよいし、測定結果に基づく各種の計算値(例えばアイソトポマー比)であってもよい。 First, the control unit 51 acquires the data matrix X as an example of the statistical data to be analyzed (S1). For example, as statistical data to be analyzed for metabolomics, a data matrix X showing metabolome data is acquired in step S1. The data in the data matrix X may be a measured value of the metabolite or various calculated values (for example, isotopomer ratio) based on the measurement result.

ステップS1において、制御部51は、例えば記憶部52において予め格納されたデータを作業エリアに読み出して、データ行列Xを取得する。制御部51は、操作部53におけるユーザの操作によりデータを入力してもよいし、制御部51は、外部から各種インタフェース55,56を用いて、データ行列Xを取得してもよい。 In step S1, the control unit 51 reads, for example, the data stored in advance in the storage unit 52 into the work area to acquire the data matrix X. The control unit 51 may input data by the operation of the user in the operation unit 53, or the control unit 51 may acquire the data matrix X from the outside using various interfaces 55 and 56.

また、制御部51は、データ行列Xにおけるサンプル間の順序に関する順序情報の一例であるダミー行列Dを取得する(S2)。例えば、ユーザの操作によってメタボロームデータの入力時等に、サンプル間の順序の情報が設定される。 Further, the control unit 51 acquires a dummy matrix D, which is an example of order information regarding the order between samples in the data matrix X (S2). For example, information on the order between samples is set when metabolome data is input by a user operation.

ステップS2において、制御部51は、例えば記憶部52に格納された情報を参照して、ダミー行列Dを取得する。例えば、制御部51は、サンプル間に設定された順序において近接する二つ以上のサンプルのデータ間の差分を取るように行列要素の値を決定してダミー行列Dを生成し、記憶部51の作業エリアに保持する。制御部51は、各種インタフェース55,56或いは操作部53を用いて、ダミー行列Dを取得してもよい。 In step S2, the control unit 51 acquires the dummy matrix D by referring to the information stored in the storage unit 52, for example. For example, the control unit 51 determines the value of the matrix element so as to take the difference between the data of two or more samples adjacent to each other in the order set between the samples, generates the dummy matrix D, and generates the dummy matrix D of the storage unit 51. Hold in the work area. The control unit 51 may acquire the dummy matrix D by using various interfaces 55 and 56 or the operation unit 53.

さらに、制御部41は、取得したデータ行列Xにおいて平均化操作の対象となるデータすなわち繰り返しサンプルがあるか否かを判断する(S3)。制御部51は、繰り返しサンプルがないと判断した場合(S3でNO)、特にステップS4の処理は行わず、ステップS5に進む。ステップS3,S4の処理は、例えばユーザの操作に応じて実行される。 Further, the control unit 41 determines whether or not there is data to be averaged, that is, a repeating sample in the acquired data matrix X (S3). When the control unit 51 determines that there is no repeated sample (NO in S3), the control unit 51 proceeds to step S5 without performing the process of step S4 in particular. The processes of steps S3 and S4 are executed, for example, in response to a user operation.

制御部51は、データ行列Xにおいて繰り返しサンプルがあると判断した場合(S3でYES)、繰り返しサンプル間で平均化操作を行うためのダミー行列Mを取得する(S4)。ステップS3,S4の処理は、例えば制御部51が取得したデータ行列Xにおいて行方向に記録されたデータ項目の情報を参照することによって、実行されてもよい。例えば、制御部51は、データ行列X中の繰り返しサンプルの個数に応じて、ダミー行列Mを生成する(式(18)参照)。 When the control unit 51 determines that there are repeated samples in the data matrix X (YES in S3), the control unit 51 acquires a dummy matrix M for performing an averaging operation between the repeated samples (S4). The processes of steps S3 and S4 may be executed, for example, by referring to the information of the data items recorded in the row direction in the data matrix X acquired by the control unit 51. For example, the control unit 51 generates a dummy matrix M according to the number of repeated samples in the data matrix X (see equation (18)).

次に、制御部51は、取得したデータ行列X及びダミー行列D,Mに基づいて、上述したOS−PCAの理論を適用してスコアを算出する処理であるOS−PCA演算処理を行う(S5)。図9のフローチャートを用いて、OS−PCA演算処理(S5)の一例を説明する。 Next, the control unit 51 performs an OS-PCA calculation process, which is a process of calculating a score by applying the above-mentioned OS-PCA theory, based on the acquired data matrix X and dummy matrices D and M (S5). ). An example of the OS-PCA arithmetic processing (S5) will be described with reference to the flowchart of FIG.

図9の例において、まず、制御部51は、データ行列Xにおいて代謝物などのデータ項目毎にサンプル間の平均が「0」で且つ分散が「1」になるように、データのスケーリング(規格化)を行う(S10)。なお、データのスケーリング(S10)は、データ行列Xの取得時(S1)に行われてもよい。又、取得されたデータ行列Xがスケーリング済みの場合、ステップS10の処理は省略可能である。 In the example of FIG. 9, first, the control unit 51 scales the data (standard) so that the average between the samples is "0" and the variance is "1" for each data item such as a biotransform in the data matrix X. (S10). The data scaling (S10) may be performed at the time of acquisition of the data matrix X (S1). Further, when the acquired data matrix X has been scaled, the process of step S10 can be omitted.

次に、制御部51は、OS−PCAの理論における演算式に、スケーリングされたデータ行列X及びダミー行列D,Mを代入する(S11)。繰り返しサンプルがない場合(S3でNO)、制御部51は、各行列X,Dに基づきステップS11の演算式として式(10)等を用いる。繰り返しサンプルがある場合(S3でYES)、制御部51は、各行列X,D,Mに基づき演算式として式(21)等を用いる。各演算式は、例えば記憶部52に予め格納されている。 Next, the control unit 51 substitutes the scaled data matrix X and the dummy matrices D and M into the arithmetic expression in the theory of OS-PCA (S11). When there is no repeating sample (NO in S3), the control unit 51 uses the equation (10) or the like as the arithmetic expression in step S11 based on the matrices X and D. When there is a repeating sample (YES in S3), the control unit 51 uses the equation (21) or the like as an arithmetic expression based on the respective matrices X, D, and M. Each calculation formula is stored in advance in, for example, a storage unit 52.

次に、制御部51は、代入した演算式による固有値問題における1つ又は複数の固有値λおよび固有ベクトルを計算する(S12)。これにより、共分散cov(t,s)を最適化するように各重みベクトルw,wが算出される。 Next, the control unit 51 calculates one or more eigenvalues λ and eigenvectors in the eigenvalue problem by the substituted arithmetic expression (S12). Accordingly, the covariance cov (t, s) for optimizing such that each weight vector w x, w y is calculated.

ステップS12において、例えば制御部51は、式(10)の各固有値λを算出し、算出した固有値λが大きい順に固有ベクトルとして、1個以上(n−1)個以下の重みベクトルwを算出する。さらに、制御部51は、算出した重みベクトルwの固有値λを式(11)に代入して、対応する重みベクトルwを算出する。なお、重みベクトルwの算出には、式(8),(9)が用いられてもよい。 In step S12, for example, the control unit 51 calculates each eigenvalue λ of the equation (10), and calculates one or more (n-1) or less weight vectors w x as eigenvectors in descending order of the calculated eigenvalues λ. .. Further, the control unit 51, the eigenvalues λ of the calculated weight vector w x into Equation (11), calculates the corresponding weight vector w y. Incidentally, the calculation of the weight vector w y the formula (8) may be employed (9).

次に、制御部51は、固有値λ及び固有ベクトルの計算結果に基づいて、対応するスコアを算出する(S13)。制御部51は、スコアの算出(S13)によってOS−PCA演算処理(図8のS5)を終了し、ステップS5に進む。 Next, the control unit 51 calculates the corresponding score based on the calculation results of the eigenvalue λ and the eigenvector (S13). The control unit 51 ends the OS-PCA calculation process (S5 in FIG. 8) by calculating the score (S13), and proceeds to step S5.

ステップS13において、例えば制御部51は、別々の固有値λによる固有ベクトル毎に、重みベクトルw及び式(2)に基づき説明変数tのn個の値を各サンプルのスコアとして算出する。又、補助変数sについても同様に、制御部51は、重みベクトルw及び式(3)に基づき補助変数sの値をスコアとして算出する。なお、ステップS13では、二変数t,sのうちの一方のみによるスコアが算出されてもよい。スコアの算出は、例えば固有値λが大きい順に、第1主成分、或いは第1及び第2主成分などと制限して行われてもよい。 In step S13, for example, the control unit 51 calculates n values of the explanatory variables t as scores of each sample based on the weight vector w x and the equation (2) for each eigenvector with different eigenvalues λ. Also, Similarly, the auxiliary variable s, the control unit 51 calculates the value of the auxiliary variable s based on the weight vector w y and equation (3) as a score. In step S13, the score based on only one of the two variables t and s may be calculated. The score may be calculated by limiting the first principal component, the first and second principal components, and the like in descending order of the eigenvalues λ, for example.

図8に戻り、OS−PCA演算処理(S5)の算出結果に基づいて、制御部51は、算出したスコアを表示するように表示部54を制御する(S6)。例えば、制御部51は、二変数t,sのそれぞれについて、例えば図3(A),(B)のように、第1及び第2主成分の各スコアをそれぞれサンプル毎のプロットとして表示部54に表示させる。 Returning to FIG. 8, the control unit 51 controls the display unit 54 so as to display the calculated score based on the calculation result of the OS-PCA calculation process (S5) (S6). For example, the control unit 51 displays each of the scores of the first and second principal components as a plot for each sample for each of the two variables t and s, for example, as shown in FIGS. 3A and 3B. To display.

次に、制御部51は、操作部53においてユーザの操作を受け付け、ユーザがさらなるデータ解析のため、表示したスコアの種類(第1又は第2主成分等)のいずれかを選択したか否かを判断する(S7)。例えば、ユーザは、表示部54に表示されたスコアのプロット画像により、サンプル間の順序が反映されたスコアの種類を選択することができる(図3(A),(B)参照)。ステップS7の選択は、例えば補助変数sによるスコアの種類について受け付けられる。 Next, the control unit 51 accepts the user's operation in the operation unit 53, and whether or not the user has selected one of the displayed score types (first or second principal component, etc.) for further data analysis. Is determined (S7). For example, the user can select the type of score that reflects the order between the samples from the plot image of the score displayed on the display unit 54 (see FIGS. 3A and 3B). The selection of step S7 is accepted, for example, for the type of score by the auxiliary variable s.

制御部51は、ユーザがスコアの種類を選択しなかったと判断した場合(S6でNO)、本処理を終了する。 When the control unit 51 determines that the user has not selected the score type (NO in S6), the control unit 51 ends this process.

一方、ユーザがスコアの種類のいずれかを選択したと判断した場合(S6でYES)、制御部51は、選択した主成分に対応する重みベクトルwに基づいて、ローディングの仮説検定を実施するための処理を実行する(S8〜S9)。 On the other hand, when it is determined that the user has selected one of the score types (YES in S6), the control unit 51 performs a loading hypothesis test based on the weight vector w x corresponding to the selected principal component. (S8 to S9).

例えば、制御部51は、選択したスコアの補助変数sと、データ行列Xにおける代謝物などのデータ項目毎のデータxとの相関係数corr(s,x)を計算する(S8)。また、制御部51は、例えば式(14)のt統計量に基づき、各データ項目のp値を取得する。 For example, the control unit 51 calculates the correlation coefficient corr (s, x p ) between the auxiliary variable s of the selected score and the data x p for each data item such as a metabolite in the data matrix X (S8). Further, the control unit 51 acquires the p-value of each data item based on, for example, the t-statistic of the equation (14).

さらに、制御部51は、各データ項目のp値と所定のしきい値(「α」とする)とを比較して、しきい値α未満のp値を有するデータ項目を選出する(S9)。しきい値αは、統計的に有意な水準を示し、例えばα=0.05である。ステップS9により、例えばデータ項目が代謝物に関する場合、統計的な有意水準を満たす代謝物が、自動的に選出される。制御部51は、ステップS8,S9の計算結果を示すリスト等(例えば図4)を生成してもよい。 Further, the control unit 51 compares the p-value of each data item with a predetermined threshold value (referred to as “α”), and selects a data item having a p-value less than the threshold value α (S9). .. The threshold value α indicates a statistically significant level, for example, α = 0.05. In step S9, for example, if the data item relates to a metabolite, the metabolite that meets the statistical significance level is automatically selected. The control unit 51 may generate a list or the like (for example, FIG. 4) showing the calculation results of steps S8 and S9.

制御部51は、以上のようにローディングの仮説検定の処理(S8,S9)を実行すると、図8に示すデータ解析処理を終了する。 When the control unit 51 executes the loading hypothesis testing process (S8, S9) as described above, the data analysis process shown in FIG. 8 ends.

以上のデータ解析処理によると、OS−PCAの理論に基づくデータ解析方法を実施して、サンプル間の順序を反映したスコアが得られる。さらに、当該スコアに対する相関が統計的に有意な代謝物等を選出するようなローディングの仮説検定を実現できる。 According to the above data analysis process, a data analysis method based on the theory of OS-PCA is carried out, and a score reflecting the order between the samples is obtained. Furthermore, a loading hypothesis test can be realized in which a metabolite or the like whose correlation with the score is statistically significant is selected.

なお、以上の説明では、ステップS9において統計的に有意なデータ項目が自動的に選出される例を説明したが、当該選出は自動的に行われなくてもよい。例えば、ユーザが、ステップS5の処理結果を用いることにより、仮説検定の計算を適宜行って統計的に有意なデータ項目を選出してもよい。 In the above description, an example in which statistically significant data items are automatically selected in step S9 has been described, but the selection does not have to be performed automatically. For example, the user may appropriately calculate the hypothesis test and select statistically significant data items by using the processing result of step S5.

5.まとめ
以上のように、本実施形態のデータ解析装置5は、複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行う。データ解析装置5は、記憶部52と、制御部51とを備える。記憶部52は、統計サンプル毎に複数のデータ項目を管理する統計データの一例であるデータ行列X、及び複数の統計サンプル間の順序を示す順序情報の一例であるダミー行列Dを記録する。制御部51は、統計データ及び順序情報に基づく所定の演算処理(S5)を行う。制御部51は、統計データの主成分分析における説明変数tと、順序情報に従う制約条件(式(6),(17))が設定される補助変数sとの間の共分散を最適化するように、説明変数tに対応する重みベクトルw(第1のベクトル)と、補助変数sに対応する重みベクトルw(第2のベクトル)とを算出する(S12)。制御部51は、第1のベクトルと第2のベクトルとの内の少なくとも一方に基づいて、複数の統計サンプルに対するスコアを算出する(S13)。
5. Summary As described above, the data analysis device 5 of the present embodiment performs multivariate analysis on a plurality of data items on a plurality of statistical samples. The data analysis device 5 includes a storage unit 52 and a control unit 51. The storage unit 52 records a data matrix X, which is an example of statistical data that manages a plurality of data items for each statistical sample, and a dummy matrix D, which is an example of order information indicating the order between the plurality of statistical samples. The control unit 51 performs a predetermined arithmetic process (S5) based on the statistical data and the order information. The control unit 51 optimizes the covariance between the explanatory variable t in the principal component analysis of the statistical data and the auxiliary variable s in which the constraint conditions (equations (6) and (17)) according to the order information are set. to be calculated as the weight vector w x corresponding to the explanatory variable t (first vector), the weight vector corresponding to the auxiliary variable s w y (second vector) (S12). The control unit 51 calculates a score for a plurality of statistical samples based on at least one of the first vector and the second vector (S13).

以上のデータ解析装置5によると、OS−PCAの理論に従って、ローディングの仮説検定が可能な重みベクトルwに基づき、サンプル間の順序を反映したスコアが得られ、統計サンプル間の順序を考慮しながら多様なデータ解析を可能にすることができる。 According to the above data analysis device 5, a score reflecting the order between samples is obtained based on the weight vector w x that enables hypothesis testing of loading according to the theory of OS-PCA, and the order between statistical samples is taken into consideration. However, it is possible to analyze various data.

本実施形態において、制約条件は、順序情報が示す順序において統計サンプル毎のデータを平滑化する平滑化項(式(6),(17)の左辺第2項)によって規定される。こうした補助変数sの重みベクトルwに関する平滑化項により、サンプル間の順序を反映したスコアと、ローディングの仮説検定が可能な重みベクトルwとを両立することができる。 In the present embodiment, the constraint condition is defined by a smoothing term (the second term on the left side of equations (6) and (17)) that smoothes the data for each statistical sample in the order indicated by the order information. The smoothing term relates weight vector w y of such auxiliary variables s, the score reflects the order between samples, it is possible to achieve both the possible weights hypothesis test loading vector w x.

本実施形態において、スコアは、例えば図3(C)に示すように、ダミー行列Dのような順序情報が示す順序において増大又は減少する。本実施形態のデータ解析装置5によると、このようにスコアにサンプル間の順序を反映できる。 In the present embodiment, the score increases or decreases in the order indicated by the order information such as the dummy matrix D, for example, as shown in FIG. 3C. According to the data analysis device 5 of the present embodiment, the order between the samples can be reflected in the score in this way.

本実施形態における順序情報は、例えば図1(C)に示すダミー行列Dのように、複数の統計サンプルが成す群毎に、統計サンプル間の順序を示してもよい。これにより、サンプル間の群の情報をスコアに反映することも可能である。 The order information in the present embodiment may indicate the order between the statistical samples for each group formed by a plurality of statistical samples, for example, as in the dummy matrix D shown in FIG. 1C. This makes it possible to reflect the group information between the samples in the score.

本実施形態において、重みベクトルwは、統計データにおけるデータ項目毎のデータxと、重みベクトルwに基づくスコアsとの間の相関係数corr(s,x)に比例する複数q個の成分を有する。制御部51は、重みベクトルwの各成分に基づいて、複数のデータ項目の中から、統計的な有意水準を満たすデータ項目を選出してもよい(S9)。これにより、ローディングの仮説検定を自動化することもできる。 In this embodiment, the weight vector w x includes data x p for each data item in statistical data, the correlation coefficient corr (s, x p) between the score s based on the weight vector w y plurality proportional to q It has individual components. The control unit 51 may select a data item satisfying the statistical significance level from a plurality of data items based on each component of the weight vector w x (S9). This also makes it possible to automate the loading hypothesis test.

本実施形態において、統計データの一例のデータ行列Xは、生体内の複数の代謝物を複数のデータ項目として、データ項目毎に対応する代謝物に関する測定値および計算値の少なくとも一方を含む。代謝物に関するデータ行列XにOS−PCAを適用することにより、メタボロミクスにおいて統計サンプル間の順序を考慮しながら多様なデータ解析を可能にすることができる。 In the present embodiment, the data matrix X of an example of statistical data includes a plurality of biotransformers in a living body as a plurality of data items, and includes at least one of a measured value and a calculated value relating to the corresponding biotransformer for each data item. By applying OS-PCA to the data matrix X for biotransforms, it is possible to analyze various data in metabolomics while considering the order between statistical samples.

本実施形態のデータ解析方法は、データ解析装置5のようなコンピュータが複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行う方法である。コンピュータの記憶部52には、統計サンプル毎に複数のデータ項目を管理する統計データ、及び複数の統計サンプル間の順序を示す順序情報が記録されている。本方法は、コンピュータが、統計データの主成分分析における説明変数tと、順序情報に従う制約条件が設定される補助変数sとの間の共分散を最適化するように、説明変数tに対応する第1のベクトルと、補助変数sに対応する第2のベクトルとを算出するステップ(S12)と、 第1のベクトルと第2のベクトルとの内の少なくとも一方に基づいて、複数の統計サンプルに対するスコアを算出するステップ(S13)とを含む。 The data analysis method of the present embodiment is a method in which a computer such as the data analysis device 5 performs multivariate analysis on a plurality of data items on a plurality of statistical samples. In the storage unit 52 of the computer, statistical data for managing a plurality of data items for each statistical sample and order information indicating the order among the plurality of statistical samples are recorded. The method corresponds to the explanatory variable t so that the computer optimizes the covariance between the explanatory variable t in the principal component analysis of the statistical data and the auxiliary variable s in which the constraints according to the order information are set. For a plurality of statistical samples based on the step (S12) of calculating the first vector and the second vector corresponding to the auxiliary variable s, and at least one of the first vector and the second vector. It includes a step (S13) of calculating a score.

本実施形態では、上記のデータ解析方法をコンピュータに実行させるためのプログラムが提供される。このプログラムは、各種のコンピュータ可読で非一時的な記録媒体に格納して提供可能である。上記のデータ解析方法及びプログラムによると、説明変数tと、順序情報に従う制約条件が設定される補助変数sとの間の共分散cov(t,s)を最適化する理論OS−PCAの適用により、統計サンプル間の順序を考慮しながら多様なデータ解析を可能にすることができる。 In this embodiment, a program for causing a computer to execute the above data analysis method is provided. This program can be provided by storing it on various computer-readable, non-temporary recording media. According to the above data analysis method and program, by applying the theoretical OS-PCA that optimizes the covariance cov (t, s) between the explanatory variable t and the auxiliary variable s in which the constraint condition according to the order information is set. , It is possible to analyze various data while considering the order between statistical samples.

(他の実施形態)
上記の実施形態1では、メタボロミクスに対する本データ解析方法の適用例を説明した。本データ解析方法はメタボロミクスに限らず、種々のオミックス解析や計量化学の多変量解析に適用してもよい。この場合、測定データは、同一生体内におけるオミックス解析又は計量化学によって得られるデータであってもよい。
(Other embodiments)
In the first embodiment described above, an application example of this data analysis method to metabolomics has been described. This data analysis method is not limited to metabolomics, and may be applied to various omics analysis and multivariate analysis of chemometrics. In this case, the measurement data may be data obtained by omics analysis or chemometrics in the same living body.

5 データ解析装置
51 制御部
52 記憶部
5 Data analysis device 51 Control unit 52 Storage unit

Claims (8)

複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行うデータ解析装置であって、
前記統計サンプル毎に前記複数のデータ項目を管理する統計データ、及び前記複数の統計サンプル間の順序を示す順序情報を記録する記憶部と、
前記統計データ及び前記順序情報に基づく所定の演算処理を行う制御部とを備え、
前記制御部は、
前記統計データの主成分分析における説明変数と、前記順序情報に従う制約条件が設定される補助変数との間の共分散を最適化するように、前記説明変数に対応する第1のベクトルと、前記補助変数に対応する第2のベクトルとを算出し、
前記第1のベクトルと前記第2のベクトルとの内の少なくとも一方に基づいて、前記複数の統計サンプルに対するスコアを算出する
データ解析装置。
A data analysis device that performs multivariate analysis on multiple data items for multiple statistical samples.
A storage unit that records statistical data that manages the plurality of data items for each statistical sample, and order information that indicates the order between the plurality of statistical samples.
It is provided with a control unit that performs predetermined arithmetic processing based on the statistical data and the order information.
The control unit
The first vector corresponding to the explanatory variable and the first vector corresponding to the explanatory variable so as to optimize the covariance between the explanatory variable in the principal component analysis of the statistical data and the auxiliary variable for which the constraint condition according to the order information is set. Calculate with the second vector corresponding to the auxiliary variable,
A data analysis device that calculates scores for the plurality of statistical samples based on at least one of the first vector and the second vector.
前記制約条件は、前記順序情報が示す順序において前記統計サンプル毎のデータを平滑化する平滑化項によって規定される
請求項1に記載のデータ解析装置。
The data analysis apparatus according to claim 1, wherein the constraint condition is defined by a smoothing term that smoothes data for each statistical sample in the order indicated by the order information.
前記スコアは、前記順序情報が示す順序において増大又は減少する
請求項1又は2に記載のデータ解析装置。
The data analysis apparatus according to claim 1 or 2, wherein the score increases or decreases in the order indicated by the order information.
前記順序情報は、複数の統計サンプルが成す群毎に、前記統計サンプル間の順序を示す
請求項1〜3のいずれか1項に記載のデータ解析装置。
The data analysis apparatus according to any one of claims 1 to 3, wherein the order information indicates the order between the statistical samples for each group formed by a plurality of statistical samples.
前記第1のベクトルは、前記統計データにおける前記データ項目毎のデータと、前記第2のベクトルに基づくスコアとの間の相関係数に比例する複数の成分を有し、
前記制御部は、前記第1のベクトルの各成分に基づいて、前記複数のデータ項目の中から、統計的な有意水準を満たすデータ項目を選出する
請求項1〜4のいずれか1項に記載のデータ解析装置。
The first vector has a plurality of components proportional to the correlation coefficient between the data for each data item in the statistical data and the score based on the second vector.
The control unit according to any one of claims 1 to 4, which selects a data item satisfying a statistical significance level from the plurality of data items based on each component of the first vector. Data analyzer.
前記統計データは、生体内の複数の代謝物を前記複数のデータ項目として、前記データ項目毎に対応する代謝物に関する測定値および計算値の少なくとも一方を含む
請求項1〜5のいずれか1項に記載のデータ解析装置。
The statistical data is any one of claims 1 to 5, which comprises at least one of a measured value and a calculated value relating to the corresponding biotransformer for each of the data items, with the plurality of biotransformers in the living body as the plurality of data items. The data analysis apparatus described in 1.
コンピュータが複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行うデータ解析方法であって、
前記コンピュータの記憶部には、前記統計サンプル毎に前記複数のデータ項目を管理する統計データ、及び前記複数の統計サンプル間の順序を示す順序情報が記録されており、
前記コンピュータが、
前記統計データの主成分分析における説明変数と、前記順序情報に従う制約条件が設定される補助変数との間の共分散を最適化するように、前記説明変数に対応する第1のベクトルと、前記補助変数に対応する第2のベクトルとを算出するステップと、
前記第1のベクトルと前記第2のベクトルとの内の少なくとも一方に基づいて、前記複数の統計サンプルに対するスコアを算出するステップと
を含むデータ解析方法。
A data analysis method in which a computer performs multivariate analysis on multiple data items on multiple statistical samples.
In the storage unit of the computer, statistical data for managing the plurality of data items for each statistical sample, and order information indicating the order between the plurality of statistical samples are recorded.
The computer
The first vector corresponding to the explanatory variable and the first vector corresponding to the explanatory variable so as to optimize the covariance between the explanatory variable in the principal component analysis of the statistical data and the auxiliary variable for which the constraint condition according to the order information is set. Steps to calculate the second vector corresponding to the auxiliary variable,
A data analysis method comprising the step of calculating a score for the plurality of statistical samples based on at least one of the first vector and the second vector.
請求項7に記載のデータ解析方法をコンピュータに実行させるためのプログラム。 A program for causing a computer to execute the data analysis method according to claim 7.
JP2019122748A 2019-07-01 2019-07-01 Data analysis device and method Active JP7437003B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019122748A JP7437003B2 (en) 2019-07-01 2019-07-01 Data analysis device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019122748A JP7437003B2 (en) 2019-07-01 2019-07-01 Data analysis device and method

Publications (2)

Publication Number Publication Date
JP2021009540A true JP2021009540A (en) 2021-01-28
JP7437003B2 JP7437003B2 (en) 2024-02-22

Family

ID=74200004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019122748A Active JP7437003B2 (en) 2019-07-01 2019-07-01 Data analysis device and method

Country Status (1)

Country Link
JP (1) JP7437003B2 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6501593B2 (en) 2015-04-03 2019-04-17 住友化学株式会社 Prediction rule generation system, prediction system, prediction rule generation method and prediction method
KR20180082472A (en) 2015-11-26 2018-07-18 휴먼 메타볼롬 테크놀로지스 가부시키가이샤 Data interpretation device, method and program
WO2019202728A1 (en) 2018-04-20 2019-10-24 ヒューマン・メタボローム・テクノロジーズ株式会社 Data analyzer and data analysis method

Also Published As

Publication number Publication date
JP7437003B2 (en) 2024-02-22

Similar Documents

Publication Publication Date Title
Fong et al. Bayesian inference for generalized linear mixed models
Chapman et al. Statistical learning theory for high dimensional prediction: Application to criterion-keyed scale development.
JP6286111B2 (en) Data analysis apparatus, method and program
Brendel et al. Evaluation of different tests based on observations for external model evaluation of population analyses
US8788291B2 (en) System and method for estimation of missing data in a multivariate longitudinal setup
US7668826B2 (en) Predicting apparatus, predicting method, and computer product
Montagna et al. Bayesian latent factor regression for functional and longitudinal data
Zhao et al. An improved independent component regression modeling and quantitative calibration procedure
Shamshoian et al. Bayesian analysis of longitudinal and multidimensional functional data
Hagar et al. Comparison of hazard rate estimation in R
Duan et al. Joint hierarchical Gaussian process model with application to personalized prediction in medical monitoring
JP7437003B2 (en) Data analysis device and method
Tan et al. Correspondence analysis of microarray time-course data in case–control design
Long et al. Risk prediction for prostate cancer recurrence through regularized estimation with simultaneous adjustment for nonlinear clinical effects
US9858390B2 (en) Reference model for disease progression
Calhoun Out-of-sample comparisons of overfit models
de Silva et al. Modeling and analysis of functional method comparison data
An et al. Efficient direct sampling MCEM algorithm for latent variable models with binary responses
Dunson Multivariate kernel partition process mixtures
Gecili et al. Bayesian regularization for a nonstationary Gaussian linear mixed effects model
Hassani et al. Degrees of freedom estimation in principal component analysis and consensus principal component analysis
Mitra et al. Effective integration of geotagged, ancilliary longitudinal survey datasets to improve adulthood obesity predictive models
Maiti et al. A distribution-free smoothed combination method of biomarkers to improve diagnostic accuracy in multi-category classification
Pryseley et al. Using earlier measures in a longitudinal sequence as a potential surrogate for a later one
Almanjahie et al. Functional Nonparametric Predictions in Food Industry Using Near-Infrared Spectroscopy Measurement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230620

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240202

R150 Certificate of patent or registration of utility model

Ref document number: 7437003

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150