JP2012039994A

JP2012039994A - 主成分算出方法、トランスクリプトーム解析方法、遺伝子、老化判定方法、コンピュータプログラム、記憶媒体、及び解析装置

Info

Publication number: JP2012039994A
Application number: JP2010214256A
Authority: JP
Inventors: Tomokazu Konishi; 智一小西
Original assignee: Akita Prefectural University
Current assignee: Akita Prefectural University
Priority date: 2010-07-21
Filing date: 2010-09-24
Publication date: 2012-03-01
Anticipated expiration: 2030-09-24
Also published as: JP5854346B2; JP2015043782A

Abstract

【課題】多数の測定項目からなるデータに対応する、解析装置を用いた主成分算出方法を提供する。
【解決手段】
解析装置を用いてデータ行列から主成分を算出する主成分方法である。そして、解析装置は、主成分を、その主成分の算出に用いたサンプル数又は測定項目数の平方根で除することでスケーリングする。また、解析装置は、スケーリングした前記主成分から、所定の閾値で前記発現量が変化したサンプルを選択する。これにより、測定項目がある程度異なる、しかし測定項目が多いようなデータに対応することができる。
【選択図】図３

Description

本発明は、主成分算出方法、トランスクリプトーム解析方法、遺伝子、老化判定方法、コンピュータプログラム、記憶媒体、及び解析装置に係り、特に実験データを用いて主成分を算出する主成分算出方法、トランスクリプトーム解析方法、遺伝子、老化判定方法、コンピュータプログラム、記憶媒体、及び解析装置に関する。

主成分分析（ｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ）は行列データを、次元を圧縮することで要約する、多変量解析の手法である。
非特許文献１を参照すると、主成分分析は、元々、Ｐｅａｒｓｏｎによる空間と行列要素の距離についての考察を起源としている。この上で、非特許文献２を参照すると、Ｈｏｔｅｌｌｉｎｇが手法としてまとめたとされている。
また、非特許文献３及び４を参照すると、主成分分析は広く使われており、特に大きな次元をもつトランスクリプトーム（ｔｒａｎｓｃｒｉｐｔｏｍｅ）データの解析等に適用することが考えられている。
トランスクリプトームは、所定の条件における細胞内の総合的なｍＲＮＡ（ｍｅｓｓｅｎｇｅｒＲＮＡ、ｔｒａｎｓｃｒｉｐｔｓ）の発現量の状態等を示す。生物は、通常、同一個体内で同一の遺伝情報（ゲノム）を備えているものの、トランスクリプトームは、組織の細胞の差、分化状態、年齢、細胞外からの刺激等に対する応答により異なっている。
トランスクリプトームに係る複数のｍＲＮＡの発現量は、ＤＮＡアレイ（マイクロアレイ）等を用いて測定可能である。

まず、図１３を参照して、主成分分析の原理について説明する。
図１３は、従来の主成分分析の原理を示した説明図である。図１３の例では、３群９サンプルで４測定項目の分析対象を、９×４行列の行列Ｘとして計算している。
この計算では、行列Ｘとして、特異値分解を用いて、軸を特異ベクトルＵやＶとして求め、それらのベクトルを用いて主成分ＰＣを求めている。

主成分分析では、測定項目数やサンプル数が多く、且つ線形か、線形への変換が可能である多変量データの中から、項目間とサンプル間に固有ベクトルを発見する。そのベクトルを用いてデータを評価することで、多変量データを効率的に要約する。

多くの測定においては、データをサンプルｓ×測定項目ｇの行列で表すことができる。
この行列は、「サンプルという次元で表された測定項目分の要素のベクトル」でも、また「測定項目という次元で表されたサンプル分の要素のベクトル」でもある。
いずれの考え方でも次元数は大きくなりがちだが、これらの次元は実際には必ずしも直交しておらず、また要素の違いを効率よく表してもいない。
主成分分析では行列の次元をあらわす軸を新しく設定する。それらの新たな軸はそれぞれ直交している。また第一の軸は要素群の中心に添い、また第二の軸は第一の軸で表されなかった残渣の中心に沿う。
こうすることで、それぞれの新しく設定された軸はオリジナルの行列よりも少ない次元でデータを効率よく近似する。

この作業を特異値分解（ｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎ）で説明する。
Ｘを、その項目の平均でセンタリングするなどして標準化したデータ行列、またＸ'をＸの転置行列であるとする。このとき、

Ｘ＝Ｕ・Ｌ^1/2・Ｖ’

ここでＵとＶは特異ベクトルを記すユニタリ行列で、Ｖはサンプルのための軸を、Ｕは項目のための軸を記録している。またＬ^1/2はｄｉａｇｏｎａｌｍａｔｒｉｘで、その対角成分に特異値が大きい順にソートされている。また、また、Ｖ’はＶの転置行列を示す。
サンプルの主成分ＰＣｓ、項目の主成分ＰＣｇは、次の式で定義される。

ＰＣｇ＝Ｘ・Ｖ

また同様に、

ＰＣｓ＝Ｘ’・Ｕ

ＰＣｓは、Ｘ’の主成分である。

特異値分解の定義式から明らかなように、それぞれの主成分はユニタリ行列との内積をとることで分解前のＸ又はＸ’を再現できる。
そこで、これはＸやＸ’を回転させたものであることがわかる。あるいは、もとの行列の要素の位置関係はそのままに、直交軸を新たに設定したともいえる。
これらの軸は互いに直交し、かつ要素の違いをもっともよく表す方向から選択されるために、オリジナルの軸よりも少ない次元でデータを表すことができる。これがデータの次元の圧縮の原理となる。
それぞれの主成分は、サンプル数や遺伝子数に依存している。これらの値は、もともとの要素をそれぞれの新しい軸に投影したときの、原点からの距離の総和を表している。つまり、サンプルの主成分ＰＣｓなら項目の距離の総和で、項目の主成分ＰＣｇならサンプルの距離の総和である。当然のごとく、サンプルや項目の数が変われば、この値も変化する。
すなわち、非特許文献４を参照すると、主成分は相対値であり、そのＸの中だけで意味をもつ。

ここで、従来のトランスクリプトーム形成を線形的に解析あるいは予測する情報処理装置として、特許文献１を参照すると、熱力学モデルを用いてトランスクリプトーム形成機構を近似することで、当該モデルを用いてトランスクリプトームの情報処理を行う情報処理装置が記載されている（以下、従来技術１とする。）。
従来技術１の熱力学モデルを用いた情報処理装置は、各ｍＲＮＡの濃度を、各ｍＲＮＡの合成速度を決定するエネルギーパラメータと各ｍＲＮＡの分解速度を決定するエネルギーパラメータとを用いて定義すると共に、前記エネルギーパラメータを塩基配列特異的にＲＮＡないしＤＮＡに結合する因子の細胞内局所的濃度と前記因子の標的となりうる塩基配列が持つ特有の係数とを用いて定義する。
従来技術１では、ｍＲＮＡの濃度、因子の細胞局所内濃度、塩基配列が持つ特有の係数の値の少なくとも一つ以上を前記熱力学モデルへ入力し、残りの値を未知数として算出して出力する。
従来技術１の熱力学モデルを用いた情報処理装置によれば、配列とタンパク性因子との相互作用を客観的に表すことで、ゲノムの量的な情報のトランスクリプトームレベルでの解読やトランスクリプトームの再現が可能となり、様々な実験と測定の結果を比較したり知見の統合をするためのプラットフォームを提供することができる。

特開２００６−２３６０１１

Ｐｅａｒｓｏｎ，Ｋ（１９０１）， ’ＯｎＬｉｎｅｓａｎｄＰｌａｎｅｓｏｆＣｌｏｓｅｓｔＦｉｔｔｏＳｙｓｔｅｍｓｏｆＰｏｉｎｔｓｉｎＳｐａｃｅ’，ＰｈｉｌｏｓｏｐｈｉｃａｌＭａｇａｚｉｎｅ，２（６），５５９−７２．Ｈｏｔｅｌｌｉｎｇ，Ｈ．（１９３３）， ’Ａｎａｌｙｓｉｓｏｆａｃｏｍｐｌｅｘｏｆｓｔａｔｉｓｔｉｃａｌｖａｒｉａｂｌｅｓｉｎｔｏｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔｓ’，ＪｏｕｒｎａｌｏｆＥｄｕｃａｔｉｏｎａｌＰｓｙｃｈｏｌｏｇｙ，２４（７），４９８−５２０．Ｊａｃｋｓｏｎ，Ｊ．Ｅｄｗａｒｄ（１９９１），ＡＵｓｅｒ’ｓＧｕｉｄｅｔｏＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔｓ（ＮｅｗＹｏｒｋ：ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ）．Ｓｈａｗ，ＰｅｔｅｒＪ．Ａ．（２００３），ＭｕｌｔｉｖａｒｉａｔｅＳｔａｔｉｓｔｉｃｓｆｏｒｔｈｅＥｎｖｉｒｏｎｍｅｎｔａｌＳｃｉｅｎｃｅｓ（Ｌｏｎｄｏｎ：ＨｏｄｄｅｒＡｒｎｏｌｄ）．

まず、従来技術１の熱力学モデルを用いた情報処理装置は、モデルにｍＲＮＡの濃度、因子の細胞局所内濃度、塩基配列が持つ特有の係数等をモデルに代入する必要があり、大きな次元をもつデータである汎用的なマイクロアレイのデータに適用することが難しかった。
このため、大きな次元をもつデータを解析するのに適している従来の主成分分析を用いて、一般的なマイクロアレイのｍＲＮＡ量を測定したトランスクリプトームデータを解析することが望まれていた。
ところが、従来の主成分分析は、下記の点でトランスクリプトームデータに適用することについて問題があった。

まず、トランスクリプトームデータとして記録するための検査項目は、しばしば変更されるという問題があった。これに加えて、トランスクリプトームを調べるためのマイクロアレイには、市販されているだけでも何種類もあり、アップデートされるたびに種類が増えるという問題があった。
さらに、マイクロアレイは、それぞれがカバーする遺伝子の種類は異なることが多く、検査項目がまちまちであった。
ところが、従来の主成分分析では、こういったマイクロアレイの変更や、マイクロアレイデータの検査項目の変更には対応していないという問題があった。

この理由として、マイクロアレイにより計測するｍＲＮＡのサンプルや検査項目や遺伝子の種類については、全てが同様の重み、又は重要さをもつわけではないことが挙げられる。
また、マイクロアレイを用いた測定は、多くの場合、複数の生体サンプルを用いて、繰り返して行われる。この際の実験の繰り返し回数は、必ずしも同じ数ではない。このため、行列データ内のサンプルは、全てが同等に独立且つ同じ重さを持つわけではない。
しかしながら、従来の主成分分析はこうした重みの違いに対応しておらず、その補正の手段がないという問題があった。

また、マイクロアレイの実験では、サンプル間で、実験の繰り返しによる共通性とは無関係に、なんらかの変動が共通することがしばしば生じる。
たとえば、実験において、異なる群の複数のサンプルが同一の疾病に罹患したときは、その影響が主成分分析で検出されてしまっていた。
このため、こうした群と無関係の動向により、有効な変化を主成分として発見することが妨げられ、また擬陽性となる過誤の原因にもなっていた。

また、従来の主成分分析は、群の偏りに対応していないという問題があった。
たとえば、細胞の薬物応答に対応するトランスクリプトームを解析するトキシコロジーに主成分分析を用いた際、同じような物質（薬物）群がデータ行列に多く含まれている場合、主成分分析により発見される軸の方向性は、それらの物質群を過大に評価するようになるという問題があった。

また、従来の主成分分析は、健康診断のような、測定項目が病院間である程度異なる、しかし測定項目が多いようなデータについても対応していなかった。

本発明の主成分算出方法は、解析装置を用いてデータ行列から主成分を算出する主成分算出方法であって、前記解析装置は、主成分を、その主成分の算出に用いたサンプル数又は測定項目数の平方根で除することでスケーリングし、前記解析装置は、スケーリングした前記主成分から、所定の閾値でサンプルを選択することを特徴とする。
本発明のトランスクリプトーム解析方法は、前記主成分算出方法によりトランスクリプトームを解析するトランスクリプトーム解析方法であって、前記トランスクリプトームに係る発現量の変化の前記データ行列から前記主成分を計算し、前記主成分を、前記主成分の算出に用いた前記データ行列の前記サンプル数の平方根、又は該主成分の算出に用いた前記データ行列の前記測定項目数の平方根で除することでスケーリングし、スケーリングした前記主成分から、前記所定の閾値で前記発現量が変化したことを判定して選択することを特徴とする。
本発明のトランスクリプトーム解析方法は、前記発現量の変化は、ＲＮＡの量、翻訳されたタンパク質の量、翻訳されたタンパク質の活性、及びタンパク質が代謝して産生された代謝産物の量のいずれかを含むことを特徴とする。
本発明のトランスクリプトーム解析方法は、前記所定の閾値は、スケーリングした主成分を正規分布と比較して、確率０．００１の両側の擬陽性を許容する閾値であることを特徴とする。
本発明のトランスクリプトーム解析方法は、二つ以上のスケーリングした前記主成分を比較することで、前記発現量が変化したことを判定することを特徴とする。
本発明のトランスクリプトーム解析方法は、特異ベクトルで表される前記主成分の軸を求めるために、トレーニングデータを用いることを特徴とする。
本発明のトランスクリプトーム解析方法は、前記トレーニングデータは、前記データ行列の測定項目を選択して作成し、前記選択されなかった項目のデータをゼロで置き換えて、オリジナルの行列の大きさを保つことを特徴とする。
本発明のトランスクリプトーム解析方法は、前記主成分を算出する際に、欠失したデータをゼロで置き換えることを特徴とする。
本発明のトランスクリプトーム解析方法は、前記トレーニングデータから求めた軸を前記データ行列に適用し、前記主成分を計算することを特徴とする。
本発明のトランスクリプトーム解析方法は、前記トレーニングデータから求めた軸を、データ評価のための重みとして使用することを特徴とする。
本発明のトランスクリプトーム解析方法は、トレーニングデータから軸を求める際に、データ平均以外の選択されたデータを基準として使用することを特徴とする。
本発明のトランスクリプトーム解析方法は、前記主成分を計算する際に、データ平均以外の選択されたデータを基準として使用することを特徴とする。
本発明のトランスクリプトーム解析方法は、前記主成分を計算する際に、下記式によりセンタリングを行って再標準化したデータ行列Ｘ_s、データ行列Ｘ_pを用い、

ここで、ｐ：実験群の番号であることを特徴とする。
本発明のトランスクリプトーム解析方法は、前記データ行列Ｘ_pを特異値分解すると、左特異ベクトルＵ_pと対角行列Ｌ^1/2および右特異ベクトルＶ_pの関係が下記式である

ことを特徴とする。
本発明のトランスクリプトーム解析方法は、前記主成分のうち、サンプル毎の主成分ＰＣ_sは、下記式である

ことを特徴とする。
本発明のトランスクリプトーム解析方法は、前記主成分のうち、遺伝子ごとの主成分ＰＣ_gは、下記式である

ことを特徴とする。
本発明の遺伝子は、前記トランスクリプトーム解析方法により選択されたことを特徴とする。
本発明の遺伝子は、前記発現量の変化は、老化による皮膚の細胞の遺伝子発現の変化であることを特徴とする。
本発明の遺伝子は、前記選択された遺伝子は、アフィメトリクス社の遺伝子ＩＤ番号において、１４３９２００＿ｘ＿ａｔ、１４３９６２５＿ａｔ、１４５３５１１＿ａｔ、１４２９８３５＿ａｔ、１４５７９６７＿ａｔ、１４５０４５５＿ｓ＿ａｔ、１４１６２３９＿ａｔ、１４４９４７５＿ａｔ、１４４１９９１＿ａｔ、１４２１００１＿ａ＿ａｔ、１４２２８２５＿ａｔ、１４５１３８２＿ａｔ、１４５３００９＿ａｔ、１４１６７７６＿ａｔ、１４３５７９２＿ａｔ、１４１８９８９＿ａｔ、１４３７４３１＿ａｔ、１４３１１７１＿ａｔ、１４５０４７５＿ａｔ、１４４８４７０＿ａｔ、１４５１４２４＿ａｔ、１４２３２７１＿ａｔ、１４４８３９７＿ａｔ、１４４２０８９＿ａｔ、１４４８３０３＿ａｔ、１４２０５３８＿ａｔ、１４４８９３２＿ａｔ、１４３０１３２＿ａｔ、１４２１５８９＿ａｔ、１４２７１７９＿ａｔ、１４２０４０９＿ａｔ、１４３６５５７＿ａｔ、１４２７３７８＿ａｔ、１４６０１８５＿ａｔ、１４３１１６５＿ａｔ、１４５０５３６＿ｓ＿ａｔ、１４２６２０３＿ａｔ、１４２１６９１＿ａｔ、１４２９９５７＿ａｔ、１４２７３６６＿ａｔ、１４３１６５０＿ａｔ、１４５０５４０＿ｘ＿ａｔ、１４２２２０９＿ｓ＿ａｔ、１４３６０５５＿ａｔ、１４５０７７４＿ａｔ、１４３８２３９＿ａｔ、１４３０６３５＿ａｔ、１４４９５５９＿ａｔ、１４３５１８４＿ａｔ、１４１９３２３＿ａｔ、１４１９７６７＿ａｔ、１４２２７６０＿ａｔ、１４４９１７０＿ａｔ、１４２０４６７＿ａｔ、１４２２２４０＿ｓ＿ａｔ、１４４８０２１＿ａｔ、１４２７８６６＿ｘ＿ａｔ、１４３３９２４＿ａｔ、１４６００４９＿ｓ＿ａｔ、１４１５９２７＿ａｔ、１４１５８３２＿ａｔ、１４３６１１９＿ａｔ、１４３４４４９＿ａｔ、１４１９０２８＿ａｔ、１４４８４２１＿ｓ＿ａｔ、１４２４２６６＿ｓ＿ａｔ、１４５０８７１＿ａ＿ａｔ、１４３１８５６＿ａ＿ａｔ、１４２４５２８＿ａｔ、１４１８７９６＿ａｔ、１４２７１６８＿ａ＿ａｔ、１４２７８８４＿ａｔ、１４２２４３７＿ａｔ、１４２６２５１＿ａｔ、１４５２９６８＿ａｔ、１４５０８３９＿ａｔ、１４４１９２８＿ｘ＿ａｔ、１４２０８５４＿ａｔ、１４３４２０２＿ａ＿ａｔ、１４１６８０３＿ａｔ、１４３８９６６＿ｘ＿ａｔ、１４２９４０３＿ｘ＿ａｔ、１４３６１１５＿ａｔ、１４１７８３６＿ａｔ、１４４８１９４＿ａ＿ａｔ、１４１７７１４＿ｘ＿ａｔ、１４２２６１０＿ｓ＿ａｔ、１４３７６６５＿ａｔ、１４５１０４７＿ａｔ、１４１６６４０＿ａｔ、１４１８５３８＿ａｔ、１４１８０６３＿ａｔ、１４３５８５１＿ａｔ、１４４８２２８＿ａｔ、１４１７２７５＿ａｔ、１４５４６５１＿ｘ＿ａｔ、１４２６７５８＿ｓ＿ａｔ、１４１７３５９＿ａｔ、１４２４０１０＿ａｔ、１４２３２５３＿ａｔ、１４１９４８７＿ａｔ、１４３５３８２＿ａｔ、１４５００７９＿ａｔ、１４１７１４９＿ａｔ、１４２８８９６＿ａｔ、１４１７３５５＿ａｔ、１４５６３１５＿ａ＿ａｔ、１４２４５５６＿ａｔ、１４２７５８０＿ａ＿ａｔ、１４４８２０１＿ａｔ、１４２０８８４＿ａｔ、１４３６８５３＿ａ＿ａｔ、１４４９２０６＿ａｔ、１４３５５８５＿ａｔ、１４２２９７３＿ａ＿ａｔ、１４１６７１３＿ａｔ、１４５１８０１＿ａｔ、１４５４６０８＿ｘ＿ａｔ、１４１９０６３＿ａｔからなる群の１種であるチップコンテンツで測定される遺伝子、及び該遺伝子のオーソログから選択することを特徴とする。
本発明の遺伝子は、前記選択された遺伝子は、ＵｎｉＧｅｎｅＩＤ番号において、Ｍｍ．４６４８８６、Ｍｍ．４５４５２６、Ｍｍ．１５８７６６、Ｍｍ．３３３６６１、Ｍｍ．８６３３１、Ｍｍ．２７４４７、Ｍｍ．３２１７、Ｍｍ．２７３２７１、Ｍｍ．４２５４９１、Ｍｍ．２３２５２３、Ｍｍ．７５４９８、Ｍｍ．３５０８３、Ｍｍ．３３９３３２、Ｍｍ．９１１４、Ｍｍ．３６２６４４、Ｍｍ．２３０２４９、Ｍｍ．３２０３１７、Ｍｍ．１７１３５７、Ｍｍ．５１９４、Ｍｍ．４２３０７８、Ｍｍ．９９９８９、Ｍｍ．３９０６８３、Ｍｍ．２５６５２、Ｍｍ．３４０７９１、Ｍｍ．３０２６０２、Ｍｍ．４９９０２、Ｍｍ．４２２７９９、Ｍｍ．１８０２５６、Ｍｍ．４３９６７３、Ｍｍ．４３９７３８、Ｍｍ．３７９５２、Ｍｍ．２９１４９８、Ｍｍ．１０６８６８、、Ｍｍ．４４１６７２、Ｍｍ．３４３７２、Ｍｍ．１９６６８９、Ｍｍ．４６１０９、Ｍｍ．３０９６７、Ｍｍ．１５８２８１、Ｍｍ．４１６８４４、Ｍｍ．３８９９９３、Ｍｍ．４２２８００、Ｍｍ．２９０６７７、Ｍｍ．２４６６９７、Ｍｍ．３４４４１、Ｍｍ．１３８４３７、Ｍｍ．１７６３、Ｍｍ．２５２５９、Ｍｍ．２０８５４、Ｍｍ．２０８５１、Ｍｍ．２５０３５８、Ｍｍ．８５２５３、Ｍｍ．３４２０１、Ｍｍ．１０６９３、Ｍｍ．４４０１６７、Ｍｍ．４６７４９５、Ｍｍ．３９２１７６、Ｍｍ．５０１０９、Ｍｍ．６８６、Ｍｍ．２６７９、Ｍｍ．２６３１３８、Ｍｍ．２５０７８６、Ｍｍ．２９７４４４、Ｍｍ．３８３２１６、Ｍｍ．２９１１０、Ｍｍ．４６０６、Ｍｍ．３４７７６、Ｍｍ．４５１２７、Ｍｍ．２０４２８、Ｍｍ．２９７８５９、Ｍｍ．２４９５５５、Ｍｍ．１０２９９、Ｍｍ．１０８５５７、Ｍｍ．４１５５６、Ｍｍ．４０７４１５、Ｍｍ．２７１９７３、Ｍｍ．２７５３２０、Ｍｍ．２５６０５８、Ｍｍ．２４７２０、Ｍｍ．２８７１４６、Ｍｍ．１９１２８１、Ｍｍ．８１９１６、Ｍｍ．２０１６４、Ｍｍ．１４８０２、Ｍｍ．１９６１１０、Ｍｍ．２８１０１８、Ｍｍ．３３１９７９、Ｍｍ．１９３、Ｍｍ．５８５０７、Ｍｍ．２９８１９９、Ｍｍ．６２２８、Ｍｍ．２９８２５１、Ｍｍ．１７２、Ｍｍ．３９０４０、Ｍｍ．２５２０６３、Ｍｍ．２８９６４５、Ｍｍ．７３８６、Ｍｍ．２７２２７８、Ｍｍ．９９８６、Ｍｍ．３７９０６７、Ｍｍ．４００２５３、Ｍｍ．２２３６７、Ｍｍ．３７０５、Ｍｍ．２８４２４６、Ｍｍ．３８９８００、Ｍｍ．２４１２０５、Ｍｍ．１２７７３１、Ｍｍ．２９３２６３、Ｍｍ．１９１５５、Ｍｍ．２９１３２、Ｍｍ．１７４８４、Ｍｍ．３１６８８５、Ｍｍ．１８１２５、Ｍｍ．２８５８５、Ｍｍ．２９３５８、Ｍｍ．３３８５０８、Ｍｍ．２１０８、Ｍｍ．３０６０２１からなる群の１種である遺伝子、及び該遺伝子のオーソログから選択することを特徴とする。
本発明の老化判定方法は、前記遺伝子のいずれかの発現量を、老化の指標として用いることを特徴とする。
本発明の老化判定方法は、老化によって遺伝子発現が変化することが明らかになった、前記遺伝子又は前記遺伝子の調節領域に、レポーター遺伝子を接続して作成した指示遺伝子を用い、翻訳されたタンパク質の活性、及び／又はタンパク質が代謝して産生された代謝産物の量を、前記老化の指標として判定することを特徴とする。
本発明の老化判定方法は、マウス皮膚やマウス皮膚由来の培養細胞の老化を判定することを特徴とする。
本発明の老化判定方法は、前記オーソログを、マウス以外の生物種の老化の指標に用いることを特徴とする。
本発明の老化判定方法は、トランスクリプトームに係る発現量の変化のデータ行列から、主成分分析または特異値分解によって求めた係数を用いることを特徴とする。
本発明の老化判定方法は、老化の指標の作成のために、トランスクリプトームに係る発現量の変化のデータ行列の主成分を用いることを特徴とする。
本発明の老化判定方法は、老化の指標の作成のために、トランスクリプトームに係る発現量の変化のデータ行列を分解して得たユニタリ行列を用いることを特徴とする。
本発明の老化判定方法は、ｎ個の遺伝子ｇの測定値ｘ_s,gより、サンプルｓの指標ＡＩ_sを下記式、

を用いて計算することを特徴とする。
本発明の疾病判定方法は、前記主成分算出方法により疾病群と対照群とを比較することを特徴とする。
本発明のコンピュータプログラムは、前記主成分算出方法を実行することを特徴とする。
本発明の記憶媒体は、前記コンピュータプログラムを記憶したことを特徴とする。
本発明の解析装置は、データ行列から主成分を計算する主成分演算部と、前記主成分を、前記主成分の算出に用いた前記データ行列のサンプル数の平方根、又は該主成分の算出に用いた前記データ行列の測定項目数の平方根で除することでスケーリングする主成分スケーリング部とを備え、スケーリングした前記主成分から、所定の閾値でサンプルを選択することを特徴とする。

本発明によれば、直交軸を、分析するデータではなくトレーニングデータから見いだし、スケーリングを行うことで、検査項目が変更されたり、重みの違いがあったり、同じような物質群が多く含まれていたりする行列データを、従来より正確に解析する主成分算出方法を提供することができる。

本発明の第１の実施の形態に係る解析装置１０の制御構成を示すブロック図である。本発明の第１の実施の形態に係る軸の発見と設定を、その適用から切り離す手法についての概念図である。本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析処理のフローチャートである。本発明の第１の実施の形態に係る実施例１において、全データから軸を決定した例と、トレーニングデータから軸を決定した例を示す図である。本発明の第１の実施の形態に係る実施例２において、軸を発見するサンプルに偏りを持たせた観察例と、偏りがない例を示す図である。本発明の第１の実施の形態に係る実施例１のデータについて、ｓＰＣｓとｓＰＣｇとを同軸に表示したバイプロットの例を示す図である。本発明の第２の実施の形態に係る遺伝子リスト作成に用いた主成分分析の結果を示すプロット図である。本発明の第２の実施の形態に係るオーソログの検索結果の例を示す図である。本発明の第２の実施の形態に係るリストから１０遺伝子を選んで、各サンプルの老化度を算出した例を示す図である。本発明の第２の実施の形態に係る実施例３において、標準化で算出されたパラメータを示す図である。本発明の第２の実施の形態に係る実施例４において、ｓＰＣ１ｇの度数分布を示すグラフヒストグラムである。本発明の第２の実施の形態に係る、ｓＰＣ１ｇと正規分布との差を示すＱＱプロットである。従来の主成分分析の手法を説明する概念図である。

＜第１の実施の形態＞
〔解析装置１０の制御構成〕
まず、図１を参照して、本発明の第１の実施の形態に係る解析装置１０（トランスクリプトーム解析装置）の制御構成について説明する。
解析装置１０は、例えばＰＣ／ＡＴ互換機や汎用機等である計算装置であって、Ｌｉｎｕｘ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）等のＯＳがインストールされている。
解析装置１０の主な構成要素としては、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の制御・演算装置である制御部１００と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）やＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やフラッシュメモリやＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒａｉｖｅ）等の記憶装置である記憶部１１０と、キーボードやマウス等のポインティングデバイスやタッチパネル等やマイクロアレイ解析装置等の外部機器からのＩ／Ｏインターフェイス等を含む入力部１３０と、液晶ディスプレイや有機ＥＬディスプレイや印刷を行うプリンタ等である表示部１４０と、１０００Ｂａｓｅ−Ｔ等の規格のＬＡＮボードや無線ＬＡＮボード等であるネットワーク入出力部１５０とを備えている。
解析装置１０は、主に記憶部１１０に記憶された各種プログラムと、データベース等を含むデータとを用いて制御部１００が実行することで、本発明の第１の実施の形態に係るトランスクリプトーム解析方法をハードウェア資源を用いて実現することができる。

記憶部１１０には、本発明の第１の実施の形態に係るトランスクリプトーム解析方法を実現するためのコンピュータプログラムとデータが記憶されている。この記憶部１１０のプログラムとデータを用いて、本発明の第１の実施の形態に係るトランスクリプトーム解析方法を実行することができる。
このプログラムとデータは、トレーニングデータ作成部２１０と、特異ベクトル演算部２２０と、主成分演算部２３０と、主成分スケーリング部２４０と、データベース２５０とを含んで構成される。

トレーニングデータ作成部２１０は、サンプルの選択と測定項目の選択をして、さらに基準となる項目値を決定し、トレーニングデータを作成する部位である。

特異ベクトル演算部２２０は、トレーニングデータを特異値分解ないし固有値分解して特異ベクトル又はその部分を求め、保存する部位である。

主成分演算部２３０は、上述の特異ベクトル又はその部分を読み込み、基準とサンプルデータとから作成された標準化データを処理して、主成分を求める部位である。

主成分スケーリング部２４０は、主成分分析により求められた主成分をスケーリングする部位である。

データベース２５０は、ＳＱＬ等のデータベースや各種データを記憶する部位である。
データベース２５１には、主にマイクロアレイデータ２５１、トレーニングデータ２５２、軸データ２５３、主成分データ２５４を記憶している。

マイクロアレイデータ２５１は、各実験における群を比較するための、一般的なマイクロアレイのデータを行列データ等で記憶する部位である。
マイクロアレイデータ２５１は、例えば、アフィメトリクス社製のＡｆｆｙｍｅｔｒｉｘＭｕｒｉｎｅＧｅｎｏｍｅＵ７４Ｖｅｒｓｉｏｎ２Ａｒｒａｙの測定データを用いることができる。
また、マイクロアレイデータ２５１は、行列の要素の欠落等である欠失したデータを補った測定データを行列データとして記憶する。この行列データを、トレーニングデータ２５２から求た主成分分析の直交軸に適用（評価）することで、主成分分析による分析結果が得られる。
また、マイクロアレイデータ２５１には、後述する代表値も記憶することができる。

トレーニングデータ２５２は、主成分分析を行う際に、測定値の偏りを排して、軸の発見を行い、主成分を求めるためのトレーニングデータである。
このトレーニングデータは、行列データＸ_tとして記憶する。

軸データ２５３は、主成分分析において、行列データのなかから見いだす直交する軸の値を記憶するデータである。軸データ２５３は、後述するようにスケーリングされて保持される。
この軸データ２５３としては、行列データＸ_tから求めた特異ベクトル等を記すユニタリ行列であるＵ_t及びＶ_t、行列データＸ_tから求めたｄｉａｇｏｎａｌｍａｔｒｉｘであるＬ_t ^1/2等を記憶する。

主成分データ２５４は、マイクロアレイデータ２５１の行列データを軸データ２５３に適用して得られる主成分を記憶するデータである。
この主成分データ２５４としては、主成分ＰＣｇ及びこれに直交する主成分ＰＣｓを記憶する。
また、ＰＣｇをスケーリングした主成分であるｓＰＣｇ、ＰＣｓをスケーリングした主成分であるｓＰＣｓを記憶する。

〔トランスクリプトーム用主成分分析処理〕
次に、図２〜図３を参照して、本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析方法を実行するトランスクリプトーム用主成分分析処理について説明する。
なお、本実施形態において用いるトランスクリプトームデータは、ｍＲＮＡの発現量だけでなく、タンパク質の増減やタンパク質の活性等、幅広い分野のトランスクリプトームデータに対応することができる。

上述したように、主成分分析は、行列データのなかから幾つかの直交する軸を見いだし、その軸に沿ってデータを解析することでデータを要約する方法である。
この主成分分析は、特に大きな次元をもつデータを効率よく客観的に要約することができるが、その結果はデータの中だけで意味をもつ相対値であり、一般性がない。また、行列データを構成するサンプル中に偏りがあると、その偏りは結果に反映される。

このため、本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析方法においては、軸の発見と適用（評価）とを分離する。
軸の発見においては、主成分分析の直交軸を、分析するデータではなくトレーニングデータから見いだす。この上で、実際のマイクロアレイの実験データを、発見した軸に適用し、主成分を求める。
このように、トレーニングデータから軸を発見することで、サンプルの偏りを排することができる。
また、軸の発見と適用とを分離することによって、軸を広く共有することを可能にするため、分析結果が一般性を持つようになるという効果が得られる。
さらに、主成分をスケーリングすることで、分析値を絶対値で表すことができる。

ここで、図２を参照して、本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析方法の概要について説明する。
図２は、本実施形態において、軸の発見と設定を、その適用から切り離すトランスクリプトーム用主成分分析方法についての概念図である。
本実施形態に係るトランスクリプトーム用主成分分析方法では、軸を求める際にトレーニングデータを用いる。図２の例では、それぞれの群の代表値を用いている。
また、図２の例では、項目２を非選択とし、当該データを０で置き換えている。
さらに、本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析方法では、特異値分解で軸を特異ベクトルとして求め、それらベクトルを用いて主成分ＰＣを求める。すなわち、主成分分析の軸を発見するために、行列Ｘの全てを使わずに、Ｘの一部、ないしＸから導かれた、より小さい行列Ｘ_t（トレーニングデータ）を用い、その軸を用いて解析する。
スケーリングについては、図２の例では、項目数及びサンプル数が３であるので、３の平方根で除することでスケーリングする。
このように構成することで、主成分分析の拡張と一般化により、従来の主成分分析処理では解析が難しかったマイクロアレイデータについて解析できる。
以下で、図３のフローチャートを参照して、本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析処理の詳細について説明する。
これらの処理は、制御部１００が記憶部１１０のプログラムとデータを実行することで実現する。

ステップＳ１０１において、制御部１００は、初期化処理を行う。
具体的には、制御部１００は、記憶部１１０のデータベース２５０のマイクロアレイデータ２５１を参照して、欠失データがあった場合は、これを０（ゼロ）等で置き換える処理を行う。
また、制御部１００は、トレーニングデータ２５２、軸データ２５３、主成分データ２５４のような記憶領域を確保し、各種プログラムの初期化にあたる処理をする。

（欠失データの取り扱い）
具体的に、この初期化処理における欠失データの取り扱いについて説明する。
たとえば、マイクロアレイを用いた具体的な実験においては、マイクロアレイ上のゴミや異物等、工学系のトラブル、信号トラブル等で、完全なマイクロアレイデータが得られないことがある。すなわち、いずれかの項目が測定できないことがあり、この場合、マイクロアレイデータの一部の欠失として記憶される。
ここで、従来の主成分分析のように、軸とデータが別々に測定される場合、このようなデータの欠失が重要になる可能性がある。たとえば、ひとつのデータの欠失によって、ひとつのサンプルの主成分が算出不能になる。
このため、本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析処理においては、欠失したデータをゼロで置き換えて、欠失したデータを補う。
欠失したデータをゼロで置き換えるのは、いわゆるフェイルセーフのような考えに基づく措置である。欠失したデータをゼロで置き換えることにより、主成分は、いささかゼロに近づく。これは、距離総和から置き換えた要素が消えるからである。
しかしながら、主成分が逆に遠ざかることはないので、項目の値となるｓＰＣｇや、サンプルの値となるｓＰＣｓにしても、欠失データによって絶対値が大きくなることがないという効果が得られるため好適である。

次に、ステップＳ１０２において、制御部１００は、トレーニングデータ作成部２１０を用いて、トレーニングデータ決定処理を行う。
このトレーニングデータ決定処理においては、制御部１００は、測定項目の選択、基準値の設定、代表値の選択、項目の選択、項目の基準値の設定、基準値での標準化等を行う。

まず、制御部１００は、サンプル及びは測定項目を選択してトレーニングデータを作成する。
この際、制御部１００は、平均などでサンプル情報を要約して設定して使用することもできる。

（サンプル及び測定項目の選択）
まず、制御部１００は、予め分散分析などで群間の有意差を確認して、測定項目を絞っておくことで、サンプル及び測定項目を選択し、トレーニングデータの行列Ｘ_tに設定する。これにより、代表値を定めることができる。
このようなサンプル及び測定項目の選択を行い、群間で有意な違いがあった測定項目に限定することで、擬陽性の過誤の可能性を小さくすることが可能になる。
また、同様に、制御部１００は、測定限界から外れた項目も対象外にする。この際、対象から除外された項目を削除するのではなく、該当する要素の値を全てゼロに置き換えることで、行列の型を保ちながら解析することが可能になる。
これにより、トランスクリプトームデータにおいて、軸を共有することが可能になる。

（トレーニングデータの構造）
以上のような処理におけるトレーニングデータの構造については、データや測定値の偏りを排するためには、軸の発見に用いるトレーニングデータの構造を均一にすることが望ましい。たとえば、一つの分野の薬剤が複数回測定されていて、他の分野の薬剤に比べて多い場合、その頻度を薬剤の分野ごとに調節するべきだ。
また、繰り返し測定がおこなわれている場合、その一つ一つのサンプルは独立したものではなくなる。繰り返し測定された箇所のデータを、サンプル平均値で置き換えれば、個体差の影響は減少される。
このようなトレーニングデータを作成することで、「群をまたいで偶然に一致した何らかの原因による」変動を、誤って検出する可能性を、従来の主成分分析よりずっと小さくすることが可能になる。

次に、ステップＳ１０３において、制御部１００は、特異ベクトル演算部２２０を用いて、軸設定・発見処理を行う。
具体的には、制御部１００は、異値分解や固有値分解等を行い、特異ベクトルを求める。
たとえば、特異値分解を用いる場合、制御部１００は、選択されたサンプルと測定項目からなるデータの行列Ｘ_tについて特異値分解をし、以下の式により特異ベクトルを求める。

Ｘ_t ＝Ｕ_t・Ｌ_t ^1/2・Ｖ_t’

ここで、Ｖ_tはサンプルのための軸を、Ｕ_tは項目のための軸に係るデータである。

次に、ステップＳ１０４において、制御部１００は、特異ベクトル演算部２２０を用いて、軸保存処理を行う。
具体的には、制御部１００は、異値分解や固有値分解等により求めた特異ベクトル等を、軸データ２５３に記憶する。

次に、ステップＳ１０５において、制御部１００は、主成分演算部２３０を用いて、軸読み込み処理を行う。
具体的には、制御部１００は、上述のステップＳ１０４にて気押した軸データ２５３を読み出して、主成分の演算をするためにＲＡＭ等に配置する。

次に、ステップＳ１０６において、制御部１００は、主成分演算部２３０を用いて、データ読み込み処理を行う。
具体的には、制御部１００は、上述のトレーニングデータから、項目の基準値を設定して、この基準値で標準化（正規化）を行う。

（基準にするデータの設定）
制御部１００は、項目の基準値を基準にするデータを特定してトレーニングデータに設定する。
この際、制御部１００は、基準にするデータとして、全データの平均値を選択することが可能である。
また当然のごとく、制御部１００は、基準にするデータについて、全データの平均値ではないデータを選択をすることもできる。
この設定された基準にするデータは主成分の原点となる。すなわち、ある特定の基準やコントロール実験が考えられる際は、これを用いるべきである。
さらに、基準にするデータは、例えば、それぞれの実験環境下毎で、解析装置１０のユーザやデータの提供者が入力部１３０を用いて設定することができる。
このようにして定められた基準にするデータによって、環境の違いを補正することが期待できる。
つまり、軸は複数の測定値で共有しつつ、基準にするデータは各測定値で定めることが好適である。

次に、ステップＳ１０７において、制御部１００は、主成分演算部２３０を用いて、主成分計算処理を行う。
具体的には、制御部１００は、上述のトレーニングデータを用いて作成した軸データ２５３を、マイクロアレイデータ２５１の行列データに適用する。より具体的には、制御部１００は、図２により説明したように、主成分ＰＣｓとＰＣｇとを下記の式により求める：

ＰＣｇ＝Ｘ_t’・Ｕ_t
ＰＣｓ＝Ｘ・Ｖ_t

制御部１００は、求めたＰＣｇ及びＰＣｓを主成分データ２５４に記憶する。

次に、ステップＳ１０８において、制御部１００は、主成分スケーリング部２４０を用いて、スケーリング処理を行う。
ここで、トレーニングデータ行列Ｘ_tにより求められた軸を用いて主成分分析を行うためには、主成分の一般化、つまり項目やサンプルが変わってもその値を比べられることが必要である。
値を比較することで、トレーニングデータを作成する際の項目やサンプル群の選択の妥当性を確認することができる。
この一般化を実現するために、下記で説明する主成分の値のスケーリングを行う。

制御部１００は、主成分の値を、その計算に用いられた実質の項目ないしサンプルの数の平方根で除することでスケーリングを行う。これは、特異ベクトルの要素の二乗和が１になることと、主成分の要素の数とから演繹される。
たとえば、Ｘの要素の数が４倍になれば、ベクトルの各要素の期待値は１／２倍になる。このため、主成分の期待値は４／２＝２倍になると見込まれる。この場合、ルート（４）＝２で主成分を除することで、最初のＸの主成分と同じスケールをもたせることができる。
このように、項目ないしサンプルの数の平方根で除しておけば、項目ないしサンプルの平均値として主成分を扱うことができる。よって、要素数にかかわらず比較が可能になるという効果が得られる。
具体的なスケーリング方法としては、制御部１００は、主成分ＰＣｇについて、サンプル数ｎ＿ｓａｍｐｌｅであるときに、前述したユニタリ行列Ｕ_tを用いて、以下の式により、ｓＰＣｇを求める：

ｓＰＣｇ＝ＰＣｇ／（ｎ＿ｓａｍｐｌｅ^1/2）
＝Ｘ_t’・Ｕ_t ／（ｎ＿ｓａｍｐｌｅ^1/2）

ｓＰＣｇの値は、項目の主成分に含まれる、ひとつのサンプルの寄与の平均値である。

また、制御部１００は、同様に選択された項目の数の値がｎ＿ｇｅｎｅであるとき、サンプルの値に含まれるひとつの項目の寄与平均値であるｓＰＣｓを求める：

ｓＰＣｓ＝Ｘ・Ｖ_t／（ｎ＿ｇｅｎｅ^1/2）

ｓＰＣｇやｓＰＣｓの値は、異なる数のサンプルや項目から求めたとしても、それぞれの一つあたりの寄与として表わされるために比較可能である。
制御部１００は、求めたｓＰＣｇ、ｓＰＣｓの値も主成分データ２５４に記憶する。
以上により、本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析処理を終了する。

以上の構成により、以下のような効果を得ることができる。
まず、従来技術１の情報処理装置は、大きな次元をもつ汎用的なマイクロアレイのデータに適用することが難しかった。
しかしながら、大きな次元をもつデータを解析するのに適している従来の主成分分析では、検査項目が変更されたり、重みの違いがあったり、同じような物質群が多く含まれていたりする通常の実験で用いられるトランスクリプトームのデータで、正確な解析ができないという問題があった。
これに対して、本発明の第１の実施の形態に係る解析装置１０は、分析するデータではなくトレーニングデータから主成分分析の軸を発見し、スケーリングを行うことで、これらのトランスクリプトームデータを分析することができる。

また、本発明の第１の実施の形態に係る解析装置１０は、軸の発見と設定を適用から切り離して主成分分析を行う。
これにより、軸を異なる分析者・ラボ（研究所）間・異なる測定項目をもつ測定間で共有することが可能になる。

さらに、本発明の第１の実施の形態に係る解析装置１０は、軸を共有することで、異なる分析者・ラボ間で同一の分析を行うことができる。そのため。分析結果が、あるデータの組み合わせのなかで閉じたものではなくなる。すなわち、ある分析結果を、他の実験データの分析結果と客観性をもって比較することが可能になる。
また、本発明の第１の実施の形態に係る解析装置１０は、スケーリングをすることで値が相対値ではなくなる。
本発明の第１の実施の形態に係る解析装置１０は、これらの処理により、主成分に一般性を持たせることができる。
このため、既存の軸を未知資料に適用することで、その資料を分類することもできる。

さらに、本発明の第１の実施の形態に係る解析装置１０は、トレーニングデータを用いることで、サンプルや群の偏りにたいして分析がよりロバストになり、実験の目的に沿った結果を得ることができる。

また、従来の主成分分析では、偶然によって定められる主成分の符号を除けば、行列が与えられれば、主成分がほぼ一元的に求まっていた。すなわち、従来の主成分分析で解析者であるユーザーに委ねられていたのは距離の定義だけであった。距離の定義は、行列をいかに標準化するかの選択によって変わり、この標準化のあとには選択肢はなかった。このため、従来の主成分分析の解析結果では、ある意味、客観性が保証されていた。
しかしながら、従来の主成分分析を、トランスクリプトームデータに対応させるため、項目の数やサンプルの数が変わったデータに適用しようとすると、距離の和である主成分のスケールが変わるので、それらの値は比較できないという問題があった。
これに対して、本発明の第１の実施の形態に係る解析装置１０においても、トレーニングデータを使うので、従来の主成分分析方法とは、定性的に異なる点が生じる。すなわち、軸をどのデータ行列から調査するのかに任意性が与えられれば、「どの項目を選択し、どのサンプルを選択するか（代表値をどう導くか）」という選択肢が生じる。
これにより、一見したところ客観性が損われるように思われる。しかしながら、本発明の第１の実施の形態に係る解析装置１０は、主成分の値をスケーリングにより絶対値とすることで、異なる選択による結果の間に比較可能性をもたせることができる。
よって、いずれの選択肢がより適切であるかを検討できるように保つことができる。

以下、本発明の第１の実施の形態に係る解析装置１０を用いて、具体的なマイクロアレイの実験データを使用した解析処理を行い、その結果がどう変化するのかを示す。

〔実施例１〕
まず、図４を参照して、マウス乳腺の妊娠と出産にかかわるタイムコース実験の解析に用いた例を示す。この実験では、ＮＣＢＩのＧＥＯデータベースにあるＳｅｒｉｅｓＧＳＥ８１９１のデータ（ＵＲＬ＜ｈｔｔｐ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｇｅｏ／ｑｕｅｒｙ／ａｃｃ．ｃｇｉ？ａｃｃ＝ＧＳＥ８１９１＞、「Ｋｅｙｓｔａｇｅｓｉｎｍａｍｍａｒｙｇｌａｎｄｄｅｖｅｌｏｐｍｅｎｔ．」）を用いた。具体的には、ＮＣＢＩのＧＥＯデータベースにあるＳｅｒｉｅｓＧＳＭ２０２６６６から（続き番号で）ＧＳＭ２０２７０５までの４０データを用い、使用されたチップはＡｆｆｙｍｅｔｒｉｘＭｕｒｉｎｅＧｅｎｏｍｅＵ７４Ｖｅｒｓｉｏｎ２Ａｒｒａｙである。
より具体的には、図４は、図はサンプルの、スケーリングした主成分であるｓＰＣｓ１とｓＰＣｓ２値を示している。図中に１から６までの数値で表されているのが妊娠の進行に伴う経過、７から９は出産後、１０は断乳後であり、各群４サンプル分のデータを示している。
図４（ａ）は、全データから軸を発見した例を示す。また、図４（ｂ）は、それぞれの群の平均値からなるトレーニングデータから軸を発見した例を示す。
この結果から明らかなように、ｓＰＣｓ１は母乳産生のための乳腺の発達過程を、ｓＰＣｓ２は断乳後の過程を、それぞれ軸として検出していると考えられる。
このように、トレーニングデータを使うことで、郡内のばらつきが減少しており、それはｓＰＣｓ２で特に顕著である。
すなわち、軸を発見・定義するためのトレーニングデータと、分析対象のデータとを分離することで、分析がより目的に叶ったものになる。この効果は、たとえば群間の分離の改善となって現れる。
実際に、図４（ｂ）においては、群間の分離が著しく改善されている。これは、特にｓＰＣｓ２の軸が、サンプルの個体差の影響から免れ、より現象をよく反映するようになったからだと考えられる。

〔実施例２〕
次に、図５を参照して、いわゆるトキシコロジーの分野のデータの分析に用いた結果を示す。この実験では、毒性が強いサンプル１，３，５を、そうでない２，４，６および薬物を与えないＣ群と比較したものである。毒性のない２，４，６群はＣ群の近くに位置している。なお、６のサンプルのひとつは、おそらく毒性のあるサンプルと取り違えたものだと考えられる。
より具体的には、図５（ａ）は、軸を発見するサンプルに偏りを持たせた観察例を示す。また、図５（ｂ）は、偏りがない例を示す。
図５においては、いずれの結果も、群の平均値をトレーニングデータとして軸を決定している。しかしながら、図５（ａ）では群５（アスタリスクで強調している）だけ、代表値ではなく全てのデータをトレーニングデータの中に含めてある。この操作によって、データ数の偏りを人為的に起こして、その影響を観察した。
図５（ａ）では、ｓＰＣｓ２は群５の郡内の差を分離することに費やされていることが明白である。これに対して、図５（ｂ）では、それぞれの群が同じような主成分をとっており、ｓＰＣｓ２では１，３，５群が分離している。もちろん、郡内の差はサンプルの個体差を反映したものであり、着目すべき重要なものではない。
つまり、図５（ａ）では、サンプルの偏りが、本来の調査目的を隠してしまっている。これは、サンプルの種類に偏りがある場合、従来の主成分分析法では避けられない現象であった。
これに対して、図５（ｂ）では、そうした場合でも適切なトレーニングデータを用いることで、偏りの影響を避けられることを示している。
すなわち、トレーニングデータを用いることで、サンプルの偏りに起因する軸の重み付けの間違いが解決する。これはサンプルの偏りに対する頑健さとなって現れる。

図６は、図４（ｂ）と同じデータについて、ｓＰＣｓとｓＰＣｇを同時に表示する、いわゆるバイプロットを行ったものである。
図中の一つの円はそれぞれの遺伝子のｓＰＣｇを、番号はそれぞれの群のｓＰＣｓを示している。
約１万の測定項目をもつｓＰＣｓと、たかだか１０のサンプル代表値から計算されるｓＰＣｇが同じ軸の上で表示されていることが、主成分のスケーリングの効果を端的に表している。
ここで、非特許文献４を参照すると、スケーリングをしない場合、軸の目盛りは共有できない。
これに対して、図６では、ｓＰＣが負である遺伝子が、群１０を特徴付けていることが簡単に理解できる。

また、図４の実施例１と、図５の実施例２とでは、全く異なる測定であるにもかかわらず、その軸のスケールがだいたい同じであった。
このことから、これらの実験でのトランスクリプトームの変化の規模はだいたい同一であったことがわかる。
すなわち、それぞれの測定で測定するためのｍＲＮＡ等のチップコンテンツが異なり、遺伝子数が異なるにもかかわらず、こうした比較ができることも、主成分のスケーリングの効果のひとつである。

また、主成分分析はもともと、多数の測定項目をもつデータのなかからトレンドを見いだし、軸を定義する方法である。
上述した本実施形態に係るトランスクリプトーム用主成分分析方法を用いることで、トレーニングデータを用いて、たとえば健康診断で得られるデータのなかから、特定の疾病を示唆する測定項目とそれぞれの重みを発見することができる。この軸を個々の測定データに適用することで、その疾病を発見することが可能になる。

また、本実施形態に係るトランスクリプトーム用主成分分析方法においては、トキシコロジーなどのマイクロアレイを分析する際に、適切なトレーニングデータを用いて軸を定義し、それを個々のサンプルのデータに適用することで、サンプルをクラス分けすることができる。
これによって、新たなサンプルについても、どんな種類の毒性があるのかを調べることができる。

また、本発明の本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析方法は、主成分を、その主成分の算出に用いたサンプル数または測定項目数の平方根で除することでスケーリングすることを特徴とする。
また、本発明の本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析方法は、複数のスケーリングした主成分を比較することを特徴とする。
また、本発明の本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析方法は、特異ベクトルで表されるような主成分の軸を求めるために、トレーニングデータを用いることを特徴とする。
また、本発明の本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析方法は、データの測定項目を選択してトレーニングデータを作成する際に、選択されなかった項目のデータをゼロで置き換えて、オリジナルの行列の大きさを保つことを特徴とする。
また、本発明の本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析方法は、主成分を算出する際に、欠損データをゼロで置き換えることを特徴とする。
また、本発明の本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析方法は、トレーニングデータから求めた軸を用いてデータを評価し、主成分を求めることを特徴とする。
また、本発明の本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析方法は、トレーニングデータから求めた軸を、データ評価のための重みとして使用することを特徴とする。
また、本発明の本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析方法は、トレーニングデータから軸を求める際に、データ平均以外の任意のデータを基準に使用することを特徴とする。
また、本発明の本発明の第１の実施の形態に係るトランスクリプトーム用主成分分析方法は、主成分を求める際に、データ平均以外の任意のデータを基準に使用すること。
また、本発明の本発明の第１の実施の形態に係るコンピュータプログラムは、前記トランスクリプトーム用主成分分析方法を実行することを特徴とする。
また、本発明の本発明の第１の実施の形態に係る計算装置は、前記トランスクリプトーム用主成分分析方法を実行することを特徴とする。

＜第２の実施の形態＞
〈遺伝子発現を用いた、皮膚の老化過程の指標の作成方法〉
次に、本発明の第２の実施の形態に係る遺伝子発現を用いた皮膚の老化過程の指標の作成方法について説明する。本発明の第２の実施の形態に係る遺伝子発現を用いた皮膚の老化過程の指標の作成方法では、上述の第１の実施の形態に係るトランスクリプトーム用主成分分析方法を用いて、皮膚の老化に関するトランスクリプトームを解析し、皮膚の老化過程の指標を作成する。

老化は、他の多くの生理現象と同じく、老化は一つの遺伝子によっておきるのではなく、複数の遺伝子がかかわる現象であると考えられる。
老化にともなって皮膚組織の性質は変化する。この変化を検出し、また老化の程度を客観的に測定することは、老化を研究調査し、老化に対抗する措置を開発する上で重要である。

本発明の第２の実施の形態に係る遺伝子発現を用いた皮膚の老化過程の指標の作成方法は、皮膚組織において発現を特異的に変化させる遺伝子のリストを提供する。
また、この遺伝子のリストに記載した遺伝子の発現量を計測した値に係数を乗じてから合算することで、皮膚の老化の指標を算出する方法を提供する。

指標の使用目的の一つは、たとえば物質や療法・施術のためのスクリーニングである。生物個体の皮膚、または培養細胞を用いて、様々な薬剤を投与し、老化の指標を変化させるものを選択することができる。

また指標は、生物個体の皮膚の老化の度合いを計測する際にも重要である。これはたとえば、スクリーニングされた物質が実際に効果を持ったかどうかを確認するときに使用される。
本発明の実施の形態に係る皮膚老化指標作成方法によれば、皮膚の老化の度合いを客観的に評価することができる。

（指標の作成）
マイクロアレイを用いて遺伝子発現を網羅的に調べることで、どの遺伝子がどの程度に老化にかかわるのかを明らかにした。データ解析の際に、複数の生理条件にあるサンプルのデータを主成分分析することで、老化に特異的にはたらく遺伝子を同定し、表１と２に掲げる遺伝子のリストを作成した。

データの標準化には、客観的なパラメトリック法である３パラメータ対数正規分布を利用する方法を用いた。これはデータの統計学的な分布を手がかりにして、その分布の母数を求め、正規分布へとデータを標準化する方法である。
具体的な標準化の実行方法は、国際公開第０２／００１４７７号公報、国際公開第２００８／０５６６９３号公報、特表２０１０−５１０５５７号公報、特開２００４−０１３５７３号公報、特開２００６−２３６０１１号公報、Ｋｏｎｉｓｈｉ，Ｔｏｍｏｋａｚｕ（２００４）， 'Ｔｈｒｅｅ−ｐａｒａｍｅｔｅｒｌｏｇｎｏｒｍａｌｄｉｓｔｒｉｂｕｔｉｏｎｕｂｉｑｕｉｔｏｕｓｌｙｆｏｕｎｄｉｎｃＤＮＡｍｉｃｒｏａｒｒａｙｄａｔａａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏｐａｒａｍｅｔｒｉｃｄａｔａｔｒｅａｔｍｅｎｔ'，ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ，５，５．、Ｋｏｎｉｓｈｉ，Ｔｏｍｏｋａｚｕ（２００８）， 'ＤａｔａＤｉｓｔｒｉｂｕｔｉｏｎｏｆＳｈｏｒｔＯｌｉｇｏｎｕｃｌｅｏｔｉｄｅＥｘｐｒｅｓｓｉｏｎＡｒｒａｙｓａｎｄＩｔｓＡｐｐｌｉｃａｔｉｏｎｔｏｔｈｅＣｏｎｓｔｒｕｃｔｉｏｎｏｆａＧｅｎｅｒａｌｉｚｅｄＩｎｔｅｌｌｅｃｔｕａｌＦｒａｍｅｗｏｒｋ'，ＳｔａｔＡｐｐｌＧｅｎｅｔＭｏｌＢｉｏｌ．，７（１），Ａｒｔｉｃｌｅ２５．等を参照して実現することができる。

またデータの解析には、第１の実施の形態に係るトランスクリプトーム用主成分分析方法を用いた。この際の解析装置の構成は、第１の実施の形態に係る解析装置１０と同様である。
主成分分析は、分析者であるユーザーが設定する自由パラメータがないので、元々、客観性が高い。また、第１の実施の形態に係るトランスクリプトーム用主成分分析方法は、マイクロアレイデータのように、独立性が高くないこともあるデータにおいても、客観性の高い分析データを得ることができる。
また、主成分分析は、老化や紫外線（ＵｌｔｒａＶｉｏｌｅｔ、ＵＶ）刺激といった異なる方向性のシグナルの影響を分離して見分けるために好適である。
以下で、皮膚の老化に関するマイクロアレイの実験データを用いて、トランスクリプトーム用主成分分析方法を実行した例についての詳細を説明する。

（トランスクリプトーム用主成分分析方法の軸発見とサンプルへの適用の説明）
まず、ｚ標準化されたマイクロアレイデータをサンプルｓと遺伝子ｇの行列で表す。この行列から、遺伝子毎に当該遺伝子の平均を減じる、いわゆるセンタリングを行い、再標準化する。これは、全データの遺伝子毎の平均により、それぞれの遺伝子の値を減ずることで、主成分分析の結果のゼロを原点に重ねる処理である。この再標準化したデータ行列Ｘ_sを、軸設定・発見処理の計算の対象に用いる。
また、各実験群ｐのサンプルの代表値を同様なデータの行列で表す。この代表値としては、例えば、その群内での遺伝子の平均値を用いることができる。このサンプルの代表値のデータの行列についても、センタリングを行って再標準化する。この再標準化したデータ行列Ｘ_pについても、軸設定・発見処理の計算の対象に用いる。
このＸ_sとＸ_pをベクトルとして表現すると、以下の数式の通りである：

次に、標準化したデータ行列Ｘ_pを特異値分解すると、左特異ベクトルＵ_pと対角行列Ｌ^1/2および右特異ベクトルＶ_pが得られる。なお、Ｕ_p及びＶ_pは、それぞれ第１の実施の形態に係るＵ_t及びＶ_tとそれぞれ同様のベクトルを示す。
この際のＸ_p、Ｕ_p、Ｌ^1/2、Ｖ_pの関係は、以下の数式の通りである：

ここで、Ｖ_p’はＶ_pの転置行列である。

サンプル毎の主成分ＰＣ_sは、以下の数式により算出する。

また、遺伝子ごとの主成分ＰＣ_gは、以下の数式により算出する。

（遺伝子リストの作成）
老化に関連する遺伝子を、例えば、以下のように同定し、表１と表２を作成した。

マウス（ＢＬ６）の生後１週間の個体、その母親（生後２か月）、およびリタイアした老齢マウス（生後２年）の３群から皮膚組織を得、それぞれよりトータルＲＮＡを抽出し、アフィメトリクス社製ＧｅｎｅＣｈｉｐによるマイクロアレイ測定を行った。
測定値をパラメトリック法で標準化し、各遺伝子について群間で有意な発現の差があることを、ＡＮＯＶＡ法を用いてｐ−ｖａｌｕｅの閾値０．０１で確認した。
さらに、有意差が確認された遺伝子について、それぞれの群の平均値をつかってＸ_pを求め、上述のトランスクリプトーム用主成分分析方法により、主成分分析を行った。その結果、ＰＣ１とＰＣ２を得た。
ＰＣ１は、ＰＣｓにあたるサンプルに着目した、マイクロアレイデータの主成分である。
ＰＣ２は、ＰＣｇにあたる項目に着目した、マイクロアレイデータの主成分である。ここでは、ＰＣｇは、遺伝子を示す。

図７を参照して、このＰＣ１とＰＣ２について説明する。図７においては、ＰＣ１の主成分スコアを横軸、ＰＣ２の主成分スコアを縦軸に示す。丸はそれぞれ一つの遺伝子に対応する。文字Ｃは生後１週間、Ｍは２か月の母親、Ｏは２年の老齢マウスのサンプルを現す。
ＰＣ１について、大きな絶対値をとる遺伝子には皮膚に特異的に発現するものが多く見られた。またＰＣ２では、乳腺および抗体産生に大きく関与するものがみられた。そこでＰＣ２は授乳期の母親の特性が、ＰＣ１は皮膚の老化が顕れていると判断した。実際、それぞれのマウス個体の年齢とＰＣ１上の位置は対応していた。
それぞれのサンプルのＰＣ値は、それぞれ６倍の値を用いてプロットしてある。

老化の指標となる遺伝子群のリストは、有意な発現の違いをもち（Ｐ＜０．０１）、ＰＣ１の主成分スコアの絶対値が大きく（０．３以上）、且つ主成分スコアのＰＣ２の絶対値が小さい（０．３以下）を基準にして選ばれた。

以下の表１に、ＰＣ１及びＰＣ２を用いて選択された、老化によって遺伝子発現を増大させる遺伝子群を示す。表１では、選択に用いた主成分ＰＣ_g１およびＰＣ_g２を併せて示す。
この遺伝子を特定する手段として、アフィメトリクス社のＩＤ番号、通常使われている遺伝子の略称、および公的なデータベースの登録番号としてＵｎｉＧｅｎｅＩＤ番号を示す。これらの遺伝子の配列は公知であり、それぞれの番号から容易に検索することが可能である。

また、老化によって遺伝子発現を減少させる遺伝子群を下記の表２に示す。

すなわち、アフィメトリクス社の遺伝子ＩＤ番号が以下のチップコンテンツで測定される遺伝子とそのオーソログのｍＲＮＡ等の発現量を皮膚の老化の指標に用いることができる：
１４３９２００＿ｘ＿ａｔ、１４３９６２５＿ａｔ、１４５３５１１＿ａｔ、１４２９８３５＿ａｔ、１４５７９６７＿ａｔ、１４５０４５５＿ｓ＿ａｔ、１４１６２３９＿ａｔ、１４４９４７５＿ａｔ、１４４１９９１＿ａｔ、１４２１００１＿ａ＿ａｔ、１４２２８２５＿ａｔ、１４５１３８２＿ａｔ、１４５３００９＿ａｔ、１４１６７７６＿ａｔ、１４３５７９２＿ａｔ、１４１８９８９＿ａｔ、１４３７４３１＿ａｔ、１４３１１７１＿ａｔ、１４５０４７５＿ａｔ、１４４８４７０＿ａｔ、１４５１４２４＿ａｔ、１４２３２７１＿ａｔ、１４４８３９７＿ａｔ、１４４２０８９＿ａｔ、１４４８３０３＿ａｔ、１４２０５３８＿ａｔ、１４４８９３２＿ａｔ、１４３０１３２＿ａｔ、１４２１５８９＿ａｔ、１４２７１７９＿ａｔ、１４２０４０９＿ａｔ、１４３６５５７＿ａｔ、１４２７３７８＿ａｔ、１４６０１８５＿ａｔ、１４３１１６５＿ａｔ、１４５０５３６＿ｓ＿ａｔ、１４２６２０３＿ａｔ、１４２１６９１＿ａｔ、１４２９９５７＿ａｔ、１４２７３６６＿ａｔ、１４３１６５０＿ａｔ、１４５０５４０＿ｘ＿ａｔ、１４２２２０９＿ｓ＿ａｔ、１４３６０５５＿ａｔ、１４５０７７４＿ａｔ、１４３８２３９＿ａｔ、１４３０６３５＿ａｔ、１４４９５５９＿ａｔ、１４３５１８４＿ａｔ、１４１９３２３＿ａｔ、１４１９７６７＿ａｔ、１４２２７６０＿ａｔ、１４４９１７０＿ａｔ、１４２０４６７＿ａｔ、１４２２２４０＿ｓ＿ａｔ、１４４８０２１＿ａｔ、１４２７８６６＿ｘ＿ａｔ、１４３３９２４＿ａｔ、１４６００４９＿ｓ＿ａｔ、１４１５９２７＿ａｔ、１４１５８３２＿ａｔ、１４３６１１９＿ａｔ、１４３４４４９＿ａｔ、１４１９０２８＿ａｔ、１４４８４２１＿ｓ＿ａｔ、１４２４２６６＿ｓ＿ａｔ、１４５０８７１＿ａ＿ａｔ、１４３１８５６＿ａ＿ａｔ、１４２４５２８＿ａｔ、１４１８７９６＿ａｔ、１４２７１６８＿ａ＿ａｔ、１４２７８８４＿ａｔ、１４２２４３７＿ａｔ、１４２６２５１＿ａｔ、１４５２９６８＿ａｔ、１４５０８３９＿ａｔ、１４４１９２８＿ｘ＿ａｔ、１４２０８５４＿ａｔ、１４３４２０２＿ａ＿ａｔ、１４１６８０３＿ａｔ、１４３８９６６＿ｘ＿ａｔ、１４２９４０３＿ｘ＿ａｔ、１４３６１１５＿ａｔ、１４１７８３６＿ａｔ、１４４８１９４＿ａ＿ａｔ、１４１７７１４＿ｘ＿ａｔ、１４２２６１０＿ｓ＿ａｔ、１４３７６６５＿ａｔ、１４５１０４７＿ａｔ、１４１６６４０＿ａｔ、１４１８５３８＿ａｔ、１４１８０６３＿ａｔ、１４３５８５１＿ａｔ、１４４８２２８＿ａｔ、１４１７２７５＿ａｔ、１４５４６５１＿ｘ＿ａｔ、１４２６７５８＿ｓ＿ａｔ、１４１７３５９＿ａｔ、１４２４０１０＿ａｔ、１４２３２５３＿ａｔ、１４１９４８７＿ａｔ、１４３５３８２＿ａｔ、１４５００７９＿ａｔ、１４１７１４９＿ａｔ、１４２８８９６＿ａｔ、１４１７３５５＿ａｔ、１４５６３１５＿ａ＿ａｔ、１４２４５５６＿ａｔ、１４２７５８０＿ａ＿ａｔ、１４４８２０１＿ａｔ、１４２０８８４＿ａｔ、１４３６８５３＿ａ＿ａｔ、１４４９２０６＿ａｔ、１４３５５８５＿ａｔ、１４２２９７３＿ａ＿ａｔ、１４１６７１３＿ａｔ、１４５１８０１＿ａｔ、１４５４６０８＿ｘ＿ａｔ、１４１９０６３＿ａｔとそのオーソログ。

また、ＵｎｉＧｅｎｅＩＤ番号が以下の遺伝子とそのオーソログのｍＲＮＡ等の発現量についても、皮膚の老化の指標に用いることができる：
Ｍｍ．４６４８８６、Ｍｍ．４５４５２６、Ｍｍ．１５８７６６、Ｍｍ．３３３６６１、Ｍｍ．８６３３１、Ｍｍ．２７４４７、Ｍｍ．３２１７、Ｍｍ．２７３２７１、Ｍｍ．４２５４９１、Ｍｍ．２３２５２３、Ｍｍ．７５４９８、Ｍｍ．３５０８３、Ｍｍ．３３９３３２、Ｍｍ．９１１４、Ｍｍ．３６２６４４、Ｍｍ．２３０２４９、Ｍｍ．３２０３１７、Ｍｍ．１７１３５７、Ｍｍ．５１９４、Ｍｍ．４２３０７８、Ｍｍ．９９９８９、Ｍｍ．３９０６８３、Ｍｍ．２５６５２、Ｍｍ．３４０７９１、Ｍｍ．３０２６０２、Ｍｍ．４９９０２、Ｍｍ．４２２７９９、Ｍｍ．１８０２５６、Ｍｍ．４３９６７３、Ｍｍ．４３９７３８、Ｍｍ．３７９５２、Ｍｍ．２９１４９８、Ｍｍ．１０６８６８、、Ｍｍ．４４１６７２、Ｍｍ．３４３７２、Ｍｍ．１９６６８９、Ｍｍ．４６１０９、Ｍｍ．３０９６７、Ｍｍ．１５８２８１、Ｍｍ．４１６８４４、Ｍｍ．３８９９９３、Ｍｍ．４２２８００、Ｍｍ．２９０６７７、Ｍｍ．２４６６９７、Ｍｍ．３４４４１、Ｍｍ．１３８４３７、Ｍｍ．１７６３、Ｍｍ．２５２５９、Ｍｍ．２０８５４、Ｍｍ．２０８５１、Ｍｍ．２５０３５８、Ｍｍ．８５２５３、Ｍｍ．３４２０１、Ｍｍ．１０６９３、Ｍｍ．４４０１６７、Ｍｍ．４６７４９５、Ｍｍ．３９２１７６、Ｍｍ．５０１０９、Ｍｍ．６８６、Ｍｍ．２６７９、Ｍｍ．２６３１３８、Ｍｍ．２５０７８６、Ｍｍ．２９７４４４、Ｍｍ．３８３２１６、Ｍｍ．２９１１０、Ｍｍ．４６０６、Ｍｍ．３４７７６、Ｍｍ．４５１２７、Ｍｍ．２０４２８、Ｍｍ．２９７８５９、Ｍｍ．２４９５５５、Ｍｍ．１０２９９、Ｍｍ．１０８５５７、Ｍｍ．４１５５６、Ｍｍ．４０７４１５、Ｍｍ．２７１９７３、Ｍｍ．２７５３２０、Ｍｍ．２５６０５８、Ｍｍ．２４７２０、Ｍｍ．２８７１４６、Ｍｍ．１９１２８１、Ｍｍ．８１９１６、Ｍｍ．２０１６４、Ｍｍ．１４８０２、Ｍｍ．１９６１１０、Ｍｍ．２８１０１８、Ｍｍ．３３１９７９、Ｍｍ．１９３、Ｍｍ．５８５０７、Ｍｍ．２９８１９９、Ｍｍ．６２２８、Ｍｍ．２９８２５１、Ｍｍ．１７２、Ｍｍ．３９０４０、Ｍｍ．２５２０６３、Ｍｍ．２８９６４５、Ｍｍ．７３８６、Ｍｍ．２７２２７８、Ｍｍ．９９８６、Ｍｍ．３７９０６７、Ｍｍ．４００２５３、Ｍｍ．２２３６７、Ｍｍ．３７０５、Ｍｍ．２８４２４６、Ｍｍ．３８９８００、Ｍｍ．２４１２０５、Ｍｍ．１２７７３１、Ｍｍ．２９３２６３、Ｍｍ．１９１５５、Ｍｍ．２９１３２、Ｍｍ．１７４８４、Ｍｍ．３１６８８５、Ｍｍ．１８１２５、Ｍｍ．２８５８５、Ｍｍ．２９３５８、Ｍｍ．３３８５０８、Ｍｍ．２１０８、Ｍｍ．３０６０２１とそのオーソログ。

（指標の算出）
次に、リストにある遺伝子のひとつ、望ましくは複数の遺伝子について、被測定サンプルでの発現量を測定して、それらの遺伝子の発現量を、あらかじめ定めた基準値と比較し、発現量の変化を調べる。

この発現量の変化に、あらかじめ定めておいた係数を乗ずる。係数は、たとえば老化で発現が減少することがわかっている遺伝子では負値、発現が増大する遺伝子では正値になるように定める。

上記で遺伝子ごとに得た値を合算して老化の指標とする。
ここで、サンプルｓの指標ＡＩ_sは、ｎ個の遺伝子ｇの測定値ｘ_s,gより、下記の数式を用いて求める。

ここで、ｂ_gはその遺伝子の基準値、ｋ_gは遺伝子ごとの係数である。

指標に用いられる遺伝子は、表１および表２にある遺伝子のうちのいずれか、又はいくつかの組み合わせを用いて、得ることができる。

測定値ｘ_s,gは、ｚ標準化したマイクロアレイデータの場合は、そのｚスコアであるか、又はセンタリングして再標準化したｚスコアを用いることができる。

いわゆる「発現量」として、例えば、ｍＲＮＡやタンパク質の細胞内濃度や活性のように、対数変換していない数値が測定値として得られる場合には、ｘ_s,gはそれらの値の対数値を用いる。
この際、対数の底は統一する必要があるが、どの値でもかまわない。

基準値ｂ_gは、それぞれの遺伝子について、たとえば１週令のマウスにおける平均値として定義することができる。

係数ｋ_gは、遺伝子に関しての主成分、または特異値分解によって得る２種類のユニタリ行列のうち左特異ベクトルＵ_pを用いればよい。
もちろん、ベクトルの方向を分析者が指定できないため、主成分分析の結果は符号が逆になりうる。その際は、符号を逆転させて、老化が進行する方向を正にすればよい。また、指標として値を扱いやすくするために、共通の任意な定数を乗じてもよい。

係数ｋ_gは、最も簡単には、たとえば主成分が正ならプラス１，負ならマイナス１とすることができる。

さらに、遺伝子には発現を変動させやすいものとそうでないものがある。この遺伝子発現の変動を標準化するためには、主成分で１を除した値を係数ｋ_gにすることで対応可能である。

以上のように構成することで、以下のような効果を得ることができる。
従来、老化に関する実験の遺伝子データから、老化の指標となる遺伝子候補のリストを得るのは難しかった。これは、網羅的な遺伝子発現データは測定誤差を含み、また遺伝子発現は老化以外の条件でも変化するためである。すなわち、網羅的な遺伝子発現データから、どの遺伝子に着目すればいいかを見出すのは難しい課題であった。

この従来の問題点の具体例として、どの遺伝子も、発現量にはある程度の揺らぎがある。また測定値には誤差が含まれる。さらに、どの遺伝子も、老化とは無関係な刺激でその発現を変化させることがあり得る。
そこで、単一の遺伝子の発現測定の結果は、かならずしも老化を正しく反映しない。たとえば、特開平１０−１２３１３０号公報ではエラスターゼの活性だけを測定しているが、この活性のゆらぎはそのままデータに反映される。

また、着目している遺伝子が、皮膚の老化を調べるという目的のために最も適切かどうかは、網羅的に遺伝子を調べないことには判明しない。

この網羅性という観点からは、たとえば特表２００２−５３５９９７号公報にあるような、ディファレンシャル・スクリーニング法で遺伝子群を決定する方策は不完全である。
これは、使用するプライマーによって、あるいはスクリーニングの条件によって、遺伝子群の一部の結果しか観測できないからである。
また一般的にこの種の方法は定量性を持たないため、老化以外の多くの要因で変化する遺伝子発現のなかから適切な遺伝子を選択するのは困難である。

ただし、網羅的な遺伝子測定は、しばしばデータの数理的な処理に困難を伴う。具体的には、データを客観的に処理することができずに、測定ノイズを信号と解釈する過誤をおかしがちである。

特に、マイクロアレイなどの網羅的な分析手段は、データを不完全な相対値で算出するため、データの標準化は分析結果に大きな影響を与える。

また遺伝子にはそれぞれ、老化以外の条件でどの程度に発現変動が変わり得るか、また老化によってどの程度発現変動があるかにおいて、その性質が異なる。
たとえば、特開２００７−２５９８５１号公報に見られるように、ただその発現変動が大きいことだけで遺伝子を選択すると、そうした特性を反映することができない。これは過誤の原因である。

また発現変化を理解する際に、分析者を視覚的に補助する方法として、たとえば各種のクラスタリングがある。しかしこれらの方法は、変化の類似性を定義した上で行うものであるが、その定義には客観性がない。
これらの方法は、ところが、特開２００８−１７８３９０号公報や、特表２００５−５２４３８２号公報等に見られるように、遺伝子の選択に用いられることがある。しかしながら、その原理上の限界のゆえに、クラスタリングを用いた遺伝子群の選択はしばしば大きな過誤の原因となる。

また、複数の遺伝子発現をいかに客観的に統合して、ひとつ、ないし限定された少数の指標として現すかが重要である。すなわち、従来、それぞれの遺伝子の発現変化をまとめて、１〜数個の指標にしないと、その遺伝子変化を評価することができなかった。さらに、指標には客観性が求められた。
多数の遺伝子発現の情報は、それだけでは理解しがたいからである。

これに対して、本発明の第２の実施の形態に係るリストは、老化を客観的に評価するために、遺伝子発現を用いた指標を提供する。
このため、本発明の第２の実施の形態においては、複数の実験群にマイクロアレイ測定を行って遺伝子発現を調べ、それを主成分分析で精査し、主成分を得た。この主成分に関わり、他の因子に関わらないことを指標にして、老化に関与する遺伝子のリストを得た。このリストにある遺伝子の遺伝子発現を被験者で調べ、その値を合算処理することで、老化の指標にする。合算処理には、主成分分析から求められた係数を用いる。
これにより、発現量の揺らぎにロバストで、データを客観的に処理することができ、従来のクラスタリングよりも精度が高く、遺伝子発現を少数の指標として得ることができる。よって、本発明の第２の実施の形態に係るリストは、老化に関する遺伝子発現を用いた指標を提供することができる。

（マウス以外の生物への応用）
また、皮膚の老化は他の生物、特に、他のほ乳類を含む高等動物において、マウスと同じように起きると考えられる。
老化はゲノムに支配された現象であり、弾力の喪失、光沢の低下、脱毛など、よく似通ったプロセスでおきるからである。

遺伝子の多くは、これら高等動物の間で共通である。つまり、同じ起源である遺伝子が働いている。
また、多くの遺伝子は、多くの生物種に共通して存在していて、それぞれ共通の働きを担っている。
こうした、別種の生物にある相同な遺伝子は、当該遺伝子のオーソログと呼ばれている。
当然、マウスで発見された遺伝子のオーソログは、たとえばヒトでも同じ働きをしている。マウスの老化段階で発現する遺伝子は、ヒトでもやはり老化段階で発現することが予想される。

すなわち、上述のリストにあるマウスの遺伝子のオーソログが、マウスの場合と同様に、ヒトを含む他の生物種において、共通して働くことは明白である。

こうした、マウス以外の生物のオーソログは、以下に述べるような方法で容易に特定することができる。
オーソログは、第一に、アフィメトリクス社の提供する情報から探すことができる。たとえばＭｏｕｓｅ４３０＿２．ｎａ３０．ｏｒｔｈｏｌｏｇ．ｃｓｖというファイルがインターネットを通じて公開・提供されている。
これは、この実験で使用したＭｏｕｓｅ４３０＿２チップにある遺伝子のオーソログを、同社の別のチップのなかから探して作成されているファイルである。ＰｒｏｂｅＳｅｔＩＤを指定することで、どのチップのどの遺伝子がオーソログであるかを、そのチップのＰｒｏｂｅＳｅｔＩＤで示している。
チップとＰｒｏｂｅＳｅｔＩＤが指定されることで、同社が用意しているアノテーションファイルで、その遺伝子のＵｎｉＧｅｎｅＩＤを探すことができる。たとえば、Ｍｏｕｓｅ４３０＿２チップならばＭｏｕｓｅ４３０＿２．ｎａ３０．ａｎｎｏｔ．ｃｓｖというファイルが公開されている。
このＩＤを指定することで、ＮＣＢＩなどの公的なデータベースを通じて、その遺伝子の塩基配列を知ることができる。

図８を参照して、いくつかの遺伝子について、オーソログを検索した例を示す。図８では、Ｍｏｕｓｅ４３０＿２チップのＰｒｏｂｅＳｅｔＩＤからヒトのチップでのＰｒｏｂｅＳｅｔＩＤを探し、またそれぞれからＵｎｉＧｅｎｅＩＤを求めた例を示している。
このような一連の作業は、当業者であれば容易に行うことができる。また探し出す生物種の対象はヒトには限定されず、アフィメトリクス社が提供する全ての生物種がその対象となり得る。

また、オーソログを、当該遺伝子の配列の相似性を利用してデータベースから探すことができる。
上述の例で説明したＭｏｕｓｅ４３０＿２チップのコンテンツの遺伝子は、その塩基配列が公開されている。その塩基配列や、さらに翻訳したアミノ酸配列を用いて、公共のデータベースを、ＢＬＡＳＴのようなローカルアラインメント・アルゴリズム等を用いて検索し、オーソログを見つけることができる。この際、着目する生物種のなかでスコアがもっとも高い、またはＥ値がもっとも低いこといった条件をもって、オーソログを発見することもできる。
これによって、アフィメトリクス社が提供しない生物種でも、オーソログを発見することもできる。一連の作業は当業者であれば容易に行うことができる。

また、配列の相似性を利用してクローニングを行い、オーソログを同定することもできる。
加えて、着目する生物種のＤＮＡライブラリーから、マウス遺伝子のプローブを用いて、遺伝子をクローニングすることもできる。
同様に、マウス遺伝子の配列を基に、プライマーを設計し、ＲＴ−ＰＣＲ法等を用いて遺伝子を増幅してクローニングすることもできる。
また抗体を利用して、発現ライブラリーを用いてクローニングすることもできる。
一連の作業は、当業者であれば容易に行うことができる。

本発明の第２の実施の形態に係るリストの作成には、網羅的な測定が可能であるマイクロアレイを用いた。もちろん、スクリーニングや老化度の計測のためにも、マイクロアレイを用いることができる。
しかしながら、本実施形態のトランスクリプトーム用主成分分析方法は、マイクロアレイデータ以外の行列データを用いて、主成分分析を行うことが可能である。
たとえば、マイクロアレイ以外の、もっと簡便な方法で発現量を測定しても、リストを作成することが可能である。網羅性が不要であるためである。

マイクロアレイ以外の発現量を測定する方法としては、ＲＴ−ＰＣＲ法やリアルタイムＰＣＲ法等の手法で、転写物であるｍＲＮＡの量を測定することがまず考えられる。
この際に、コントロールとなるハウスキーピング遺伝子等の転写物を用いて標準化し、その転写物が基準値からどれほど違っているかを測定できる。

（発現量の定義）
なお、本発明の第１又は第２の実施の形態において、遺伝子の「発現量」とは、その遺伝子からの転写物の量や、翻訳産物の量、翻訳産物の活性、その活性により産出された物質の量等を示す。

すなわち、本発明の第１及び第２の実施の形態において、「発現量」とは、ｍＲＮＡの量の増減を示すだけではなく、より幅広い概念として定義される。
たとえば、ｍＲＮＡの量の増減は、そのコードするタンパク質の量の増減と対応すると考えられる。すなわち、特異抗体を用いてタンパク質を検出すれば、さらに簡便に測定を行うことができる。これを、「発現量」の行列データとして得ることができる。このタンパク質の検出としては、それぞれのタンパク質の増減割合の対数値に係数を乗じて合算することで指標を得ることができる。
また、ｍＲＮＡだけではなく、ｓｎＲＮＡ等の細胞内調整に関わるＲＮＡの「発現量」を測定し、行列データとして用いることができる。

また、タンパク質の活性をタンパク量の代わりに、「発現量」として、行列データに使用することも可能である。

また、培養細胞を使用したスクリーニング系のデータを用いて、「発現量」として、行列データに使用することも可能である。
このスクリーニング系の構築については、着目した遺伝子の調節領域、つまりプロモーター配列やシス配列等にレポーター遺伝子を接続した遺伝子を作成し、活性測定が容易な指示遺伝子（コンストラクト）を作成することができる。このレポーター遺伝子は、ＣＡＴ（ｃｈｌｏｒａｍｐｈｅｎｉｃｏｌａｃｅｔｙｌｔｒａｎｓｆｅｒａｓｅ）等の酵素活性を持つレポーター遺伝子や、ルシフェラーゼ等の発光などを呈する遺伝子を用いることができる。
選択された遺伝子を培養細胞に導入することで、レポーター遺伝子の活性を測定しながら容易にスクリーングが可能になる。

（本発明の実施の形態に係る主成分算出方法の他分野への適用）
なお、本発明の第１又は第２の実施形態に係る主成分算出方法は、拡張された主成分分析方法として、トランスクリプトームの解析だけではなく、健康診断のような、測定項目が例えば病院間である程度異なるものの、測定項目が多いようなデータにも適用することができる。
たとえば、なんらかの疾病が健康診断のいずれかの項目で発見される可能性を調べたい時には、疾病群と対照群を設定し、それぞれの群の代表値を、平均を取る等により求める。この際、測定値はなるべくリニアになるような数値で表し、定性的なデータ等になるようにする。そして、データを項目ごとにセンタリングして、各項目の平均がゼロになるようにする。さらに、ある項目について、いくつかの病院で測定されていない場合には、その欠損値をゼロで置き換える。このようにして得た２群・多項目の行列から、軸を表す各ユニタリ行列、ＰＣｇ１（項目の主成分）、及びＰＣｓ１を得ることができる。ＰＣｇ１で大きな絶対値をもつ測定項目群は、その疾病をよく表す項目である。また、得たユニタリ行列Ｖ_pから、各個人のＰＣｓ１ないしｓＰＣｓ１を得ることができる。
この結果、ある程度大きな集団からのランダムサンプルを用いて、それぞれの個人のＰＣｓ１乃至ｓＰＣｓ１の分布を調べれば、下記の実施例４に記載した計算方法を用いて閾値を計算することができる。
このとき主成分ＰＣｓの分布が実質的に正規分布であったり、あるいは閾値よりも絶対値の大きなＰＣｓをもつ個人の割合が、その疾病の罹患率よりも明らかに小さかった等の場合には、その疾病は使用した健康診断の項目では評価できないことになる。また、逆であるなら、その疾病はその項目で評価できることになる。さらに、ある疾病にだけ着目する場合には、ＰＣ１ｇが大きな絶対値をもつ項目を、その測定の容易さやコストなども勘案しながら、実施する測定項目を取捨選択することができる。また、勿論ＰＣ１ｇは、その疾病の原因や治療法を研究する上でも重要な知見となる。
ＰＣｓ１が閾値を超えた個人には、その疾病が疑われることになる。もし複数の疾病に注目するときは疾病群の数が増え、注目するべき主成分の数も増加することは言うまでもない。ただし、必ずしもそれは疾病と同じだけの数になるわけではなく、おそらく、似た症状をもつ疾病群は同一の主成分に影響するので、当該の主成分によって判断されることになる。

〔実施例３〕
図９を参照して、本発明の第２の実施の形態に係るリストにある遺伝子から、１０遺伝子を選んで、各サンプルの老化度を測定したケースについて説明する。
図９は、センタリングした標準化データから指標を得る方法を示す。
基準値は、これらデータの中から、遺伝子ごとに、幼齢のマウスの平均として求めた。また係数は主成分ＰＣ_g１に、指標を見やすくするための定数１７を乗じたものを用いた。
得られた値を合算して指標を得た。各サンプルの値を棒グラフで示す。
以下、この実施例３の具体的な計算方法について、より詳しく説明する。

（標準化）
まず、実施例１と同様のＮＣＢＩのＧＥＯデータベースにあるＳｅｒｉｅｓＧＳＭ２０２６６６〜ＧＳＭ２０２７０５までの４０データをマイクロアレイの行列データとして取得した。
このデータを、株式会社スカイライト・バイオテック社のＳｕｐｅｒＮＯＲＭデータ標準化サービスを利用して、３パラメータ対数正規分布を用いるパラメトリック法でＰＭデータを標準化し、ｚスコアを求めた。
また標準化したＰＭデータのトリム平均から各遺伝子の発現レベルを求めた。この遺伝子の発現レベルは、「ＫｏｎｉｓｈｉＴ（２００８）ＤａｔａＤｉｓｔｒｉｂｕｔｉｏｎｏｆＳｈｏｒｔＯｌｉｇｏｎｕｃｌｅｏｔｉｄｅＥｘｐｒｅｓｓｉｏｎＡｒｒａｙｓａｎｄＩｔｓＡｐｐｌｉｃａｔｉｏｎｔｏｔｈｅＣｏｎｓｔｒｕｃｔｉｏｎｏｆａＧｅｎｅｒａｌｉｚｅｄＩｎｔｅｌｌｅｃｔｕａｌＦｒａｍｅｗｏｒｋ．ＳｔａｔＡｐｐｌＧｅｎｅｔＭｏｌＢｉｏｌ７：Ａｒｔｉｃｌｅ２５．」「ＫｏｎｉｓｈｉＴ．（２００４）Ｔｈｒｅｅ−ｐａｒａｍｅｔｅｒｌｏｇｎｏｒｍａｌｄｉｓｔｒｉｂｕｔｉｏｎｕｂｉｑｕｉｔｏｕｓｌｙｆｏｕｎｄｉｎｃＤＮＡｍｉｃｒｏａｒｒａｙｄａｔａａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏｐａｒａｍｅｔｒｉｃｄａｔａｔｒｅａｔｍｅｎｔ．ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ，５，５．」に従って求めた。

（標準化で算出されたパラメータ）
図１０を参照して、上述の標準化で算出されたパラメータについて説明する。各パラメータは、以下の通りである：

ｌｏｗｅｒ信頼区間下限
ｕｐｐｅｒ信頼区間上限
ｓａｔｕｒａｔｉｏｎ測定限界
ｇａｍｍａ γ （バックグラウンド）
ｓｉｇｍａ σ （分布の幅）
ｍｕ μ （分布の中心）

なお、使用した対数の底は１０である。

（繰り返し測定の十分な遺伝子の選定）
主成分分析は、データの中の全体の傾向を知るための方法でもあるので、データに含まれる個別のサンプルの個体差によるばらつきはノイズとして働く。
遺伝子のなかには不安定なものもあり、ある程度の数の繰り返し測定を行わない限り、遺伝子の発現量等の変化は明らかにならない。これは、発現量等が大きく変化していても同様である。
もちろん、同一サンプルから測定できるマイクロアレイの繰り返し回数には限りがあるので、例えば、チップコンテンツの半分程度の遺伝子で、十分な数の繰り返し測定がなされていないという可能性がある。
これらの遺伝子からの情報はノイズが大きいと考えられ、主成分分析の精度を低下させる可能性が考えられる。そこで、これらの遺伝子からの情報を除くことにした。
このため、十分な観測数があるかどうかを遺伝子ごとに判断するために、分散分析（２ｗａｙＡＮＯＶＡ）を遺伝子ごとに行った。これは各遺伝子に対応するＰＭデータのｚスコアを対応させながら、群間で有意に発現に違いがあるかどうかを検定する方法である。帰無仮説は「各群で発現量は一致する」とする。仮定する式は：

発現量の差＝ＰＭセルの感度の差＋群間差

で、閾値０．００２の両側検定を行った。すなわち、群間差について計算されたＰ値が０．００１以下の遺伝子を、十分な観測数があるとして選択した。この閾値の設定はマイクロアレイデータの検定としては普通に用いられるものである。
また多数の検定が行われることになるが、検定の多重性は考慮していない。遺伝子の安定性は個々に異なるので、各遺伝子の検定結果は個別に判断されるべきだからである。
この検定は、「ＫｏｎｉｓｈｉＴ，ＫｏｎｉｓｈｉＦ，ＴａｋａｓａｋｉＳ，ＩｎｏｕｅＫ，ＮａｋａｙａｍａＫ，ＫｏｎａｇａｙａＡ（２００８）ＣｏｉｎｃｉｄｅｎｃｅｂｅｔｗｅｅｎＴｒａｎｓｃｒｉｐｔｏｍｅＡｎａｌｙｓｅｓｏｎＤｉｆｆｅｒｅｎｔＭｉｃｒｏａｒｒａｙＰｌａｔｆｏｒｍｓＵｓｉｎｇａＰａｒａｍｅｔｒｉｃＦｒａｍｅｗｏｒｋ．ＰＬｏＳＯＮＥ３：ｅ３５５５．」の方法に従って行った。

（マイクロアレイ用主成分分析に供するデータ）
この分析にはＰＭデータを遺伝子ごとに（トリム平均によって）まとめたデータを用いた。具体的には、スカイライト・バイオテック社製のＳｕｐｅｒＮＯＲＭデータ標準化サービスで提供されるＰＩＶＯＴ出力ファイルにあるｚスコアを用いた。
この際、上述の分散分析で帰無仮説が棄却されなかった遺伝子の情報を取り除くため、これらの遺伝子の値は全てゼロに置き換えた。
これにより、ノイズが主成分分析の結果に影響を与えないようにすることができる。また、特定の遺伝子を削除することで、行列の形が変わることを防ぐことができる。
また、全ての欠失したデータはゼロに置き換えた。この理由としては、上述したように、欠失したデータがあると主成分分析の計算ができないため、これを置き換える必要があるためである。この際、欠失したデータをゼロで置き換えるのは、いわゆるフェイル・セーフによる措置である。これは、上述のように、欠落したデータをゼロで置き換える限り、擬陽性（ｆａｌｓｅｐｏｓｉｔｉｖｅ）の原因にならないためである。

次に、欠失したデータを置き換えた行列データの全ての測定要素（遺伝子）毎に、データをセンタリングした。このセンタリングは、全データの遺伝子毎の平均をもってそれぞれの遺伝子の値を減ずる処理である。これにより、主成分分析の結果のゼロを原点に重ねることができる。
いずれかのコントロール実験区の値で減ずるならば、原点はその実験区に重なる。また遺伝子の発現レベルの差は生体の機能と相関するため、分散の統一は行っていない。

群ごとに各遺伝子の平均値を求め、各群の代表値とした。この代表値をＸｔとして用いて特異値分解し、３つの行列Ｕ_t，Ｌ^1/2 _tとＶ_t'を求めた。
上述の第１又は第２の実施の形態で説明したように、全データから軸を決定した場合や、群に偏りがあるばあいのシミュレーションでは、Ｘの内容がそれぞれに異なっている。
遺伝子ごとの主成分であるＰＣ_gはＸ_tとＵ_tから求めた。
また、サンプルの主成分であるＰＣ_sは全てのデータＸとＶ_tから求めた。このため、群の代表値ではなく、各サンプルの値が算出されている。これはサンプル間にどの程度の個体差があるのかを観察できるようにするための措置である。

以上により、行列データＸ_sを作成し、マイクロアレイデータ２５１に記憶した。その後、第１の実施の形態のトランスクリプトーム用主成分分析方法及び第２の実施の形態の各処理を行い、遺伝子リストを得た。

〔実施例４〕
次に、図１１〜１２を参照して、マイクロアレイデータ主成分分析の結果から遺伝子を選択する方法について説明する。
まず、上述の実施例１と同様のＮＣＢＩのＧＥＯデータベースにあるＳｅｒｉｅｓＧＳＭ２０２６６６〜ＧＳＭ２０２７０５までの４０データをマイクロアレイの行列データとして取得し、上述の第１の実施の形態に係るマイクロアレイデータ主成分分析方法を用いて分析を行った。その後、遺伝子を選択した。

上述したように、主成分分析における各主成分は多くの数を合算して得られる。たとえば、遺伝子の主成分は、サンプルごとに算出された要素を合算したものである。
もし、これらの要素に生物学的な意味が乏しければ、要素間には明確な相関がなく、独立していることになる。
そして、各要素はサンプル間の差異から得られるものなので、その分布様式は同一となると過程できる。
さらに、要素がむしろランダム数でシミュレートできるような性質のものであるのなら、中心極限定理から、その合算の結果は正規分布することが予測される。

図１１は、取得したｓＰＣ１ｇの度数分布を示すグラフヒストグラムである。縦軸は、度数（Ｆｒｅｑｕｅｎｃｙ）、横軸は各要素の数を示す。図１１の確認されたｓＰＣ１ｇの分布は、概要として正規分布していた。特に、その分布中心は、正規分布に沿った分布をしていた。
図１２は、取得したｓＰＣ１ｇの分布と、理論的な正規分布とを比較したＱＱプロットの例である。ＱＱプロットは、ある確率ｐを与えたときに、２つの確率点（ｑｕａｎｔｉｌｅ）となるｑ１とｑ２とを、それぞれ縦軸、横軸にとってプロットした確率プロットである（「Ｇｎａｎａｄｅｓｉｋａｎ，Ｒ．；Ｗｉｌｋ，Ｍ．Ｂ．（１９６８）， "Ｐｒｏｂａｂｉｌｉｔｙｐｌｏｔｔｉｎｇｍｅｔｈｏｄｓｆｏｒｔｈｅａｎａｌｙｓｉｓｏｆｄａｔａ"，Ｂｉｏｍｅｔｒｉｋａ５５（１）：１〜１７」を参照）。このＱＱプロットでは、ソートしたｓＰＣ１ｇの実データと正規分布の理論値を一次近似した。
ノイズの影響を避けて直線部分だけからパラメータを求めるために、ロバストなチューキーの方法を用いた（「Ｔｕｋｅｙ，Ｊ．Ｗ．（１９７７）．ＥｘｐｌｏｒａｔｏｒｙＤａｔａＡｎａｌｙｓｉｓ，ＲｅａｄｉｎｇＭａｓｓａｃｈｕｓｅｔｔｓ：Ａｄｄｉｓｏｎ−Ｗｅｓｌｅｙ．」を参照）。図１２の実線は、近似直線式を示す（ｙ＝０．０９ｘ）。
図１２のＱＱプロットによると、分布中心は、正規分布に沿った分布をしていることは、明らかである。ただし、分布の両端はより絶対値の大きな値を示す傾向が顕著で、グラフの上下方向にプロットが曲がった。これは、ランダムでない要素間の相関があることを示唆している。
具体的には、近似直線と実データは、実データの値として±０．１７くらいから乖離しはじめる。この程度の値から、強い意味をもつ遺伝子群が混じってくると考えることができる。逆に、全てがランダムだったと仮定すると、実データはこの近似直線上にのっていたはずである。

ランダムな要素の組み合わせとして、確率０．００１の両側の擬陽性を受け入れるとすると、理論値としてｚスコア±３．３が、所定の閾値となる。これを、図１２の、縦の波線として示す。
あるいは、０．００１／２の確率で、分布中心で観測されたようなランダムな効果は、±３．３というｚスコアを記録しうることになる。これは近似直線から、ｓＰＣ１ｇの値として±０．３に相当する。これを、図１２の横の波線として示す。
そこで、ｓＰＣ１ｇの値がこれらを超える遺伝子を選択した。この選択した中の遺伝子に期待される擬陽性の確率は、０．００１よりも小さくなる。
同様の計算を実施例２トキシコロジーの分野のデータからの分析結果であるｓＰＣｇ２にも行い、０．３という域値を得た。所定の閾値により、トキシコロジーに関連する遺伝子を得ることも可能であった。

なお、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。

１０解析装置
１００制御部
１１０記憶部
１３０入力部
１４０表示部
１５０ネットワーク入出力部
２１０トレーニングデータ作成部
２２０特異ベクトル演算部
２３０主成分演算部
２４０主成分スケーリング部
２５０データベース
２５１マイクロアレイデータ
２５２トレーニングデータ
２５３軸データ
２５４主成分データ

Claims

解析装置を用いてデータ行列から主成分を算出する主成分算出方法であって、
前記解析装置は、主成分を、その主成分の算出に用いたサンプル数又は測定項目数の平方根で除することでスケーリングし、
前記解析装置は、スケーリングした前記主成分から、所定の閾値でサンプルを選択する
ことを特徴とする主成分算出方法。
請求項１に記載の主成分算出方法によりトランスクリプトームを解析するトランスクリプトーム解析方法であって、
前記トランスクリプトームに係る発現量の変化の前記データ行列から前記主成分を計算し、
前記主成分を、前記主成分の算出に用いた前記データ行列の前記サンプル数の平方根、又は該主成分の算出に用いた前記データ行列の前記測定項目数の平方根で除することでスケーリングし、
スケーリングした前記主成分から、前記所定の閾値で前記発現量が変化したことを判定して選択する
ことを特徴とするトランスクリプトーム解析方法。
前記発現量の変化は、ＲＮＡの量、翻訳されたタンパク質の量、翻訳されたタンパク質の活性、及びタンパク質が代謝して産生された代謝産物の量のいずれかを含む
ことを特徴とする請求項２に記載のトランスクリプトーム解析方法。
前記所定の閾値は、スケーリングした主成分を正規分布と比較して、確率０．００１の両側の擬陽性を許容する閾値である
ことを特徴とする請求項２又は３に記載のトランスクリプトーム解析方法。
二つ以上のスケーリングした前記主成分を比較することで、前記発現量が変化したことを判定する
ことを特徴とする請求項２乃至４のいずれか１項に記載のトランスクリプトーム解析方法。
特異ベクトルで表される前記主成分の軸を求めるために、トレーニングデータを用いる
ことを特徴とする請求項２乃至５のいずれか１項に記載のトランスクリプトーム解析方法。
前記トレーニングデータは、前記データ行列の測定項目を選択して作成し、
前記選択されなかった項目のデータをゼロで置き換えて、オリジナルの行列の大きさを保つ
ことを特徴とする請求項２乃至６のいずれか１項に記載のトランスクリプトーム解析方法。
前記主成分を算出する際に、欠失したデータをゼロで置き換える
ことを特徴とする請求項２乃至７のいずれか１項に記載のトランスクリプトーム解析方法。
前記トレーニングデータから求めた軸を前記データ行列に適用し、前記主成分を計算する
ことを特徴とする請求項２乃至８のいずれか１項に記載のトランスクリプトーム解析方法。
前記トレーニングデータから求めた軸を、データ評価のための重みとして使用する
ことを特徴とする請求項２乃至９のいずれか１項に記載のトランスクリプトーム解析方法。
トレーニングデータから軸を求める際に、データ平均以外の選択されたデータを基準として使用する
ことを特徴とする請求項２乃至１０のいずれか１項に記載のトランスクリプトーム解析方法。
前記主成分を計算する際に、データ平均以外の選択されたデータを基準として使用する
ことを特徴とする請求項２乃至１１のいずれか１項に記載のトランスクリプトーム解析方法。
前記主成分を計算する際に、下記式によりセンタリングを行って再標準化したデータ行列Ｘ_s、データ行列Ｘ_pを用い、

ここで、ｐ：実験群の番号である
ことを特徴とする請求項２乃至１２のいずれか１項に記載のトランスクリプトーム解析方法。
前記データ行列Ｘ_pを特異値分解すると、左特異ベクトルＵ_pと対角行列Ｌ^1/2および右特異ベクトルＶ_pの関係が下記式である

ことを特徴とする請求項２乃至１３のいずれか１項に記載のトランスクリプトーム解析方法。
前記主成分のうち、サンプル毎の主成分ＰＣ_sは、下記式である

ことを特徴とする請求項２乃至１４のいずれか１項に記載のトランスクリプトーム解析方法。
前記主成分のうち、遺伝子ごとの主成分ＰＣ_gは、下記式である

ことを特徴とする請求項２乃至１５のいずれか１項に記載のトランスクリプトーム解析方法。
請求項２乃至１６のいずれか１項に記載のトランスクリプトーム解析方法により選択された
ことを特徴とする遺伝子。
前記発現量の変化は、老化による皮膚の細胞の遺伝子発現の変化である
ことを特徴とする請求項１７に記載の遺伝子。
前記選択された遺伝子は、アフィメトリクス社の遺伝子ＩＤ番号において、
１４３９２００＿ｘ＿ａｔ、１４３９６２５＿ａｔ、１４５３５１１＿ａｔ、１４２９８３５＿ａｔ、１４５７９６７＿ａｔ、１４５０４５５＿ｓ＿ａｔ、１４１６２３９＿ａｔ、１４４９４７５＿ａｔ、１４４１９９１＿ａｔ、１４２１００１＿ａ＿ａｔ、１４２２８２５＿ａｔ、１４５１３８２＿ａｔ、１４５３００９＿ａｔ、１４１６７７６＿ａｔ、１４３５７９２＿ａｔ、１４１８９８９＿ａｔ、１４３７４３１＿ａｔ、１４３１１７１＿ａｔ、１４５０４７５＿ａｔ、１４４８４７０＿ａｔ、１４５１４２４＿ａｔ、１４２３２７１＿ａｔ、１４４８３９７＿ａｔ、１４４２０８９＿ａｔ、１４４８３０３＿ａｔ、１４２０５３８＿ａｔ、１４４８９３２＿ａｔ、１４３０１３２＿ａｔ、１４２１５８９＿ａｔ、１４２７１７９＿ａｔ、１４２０４０９＿ａｔ、１４３６５５７＿ａｔ、１４２７３７８＿ａｔ、１４６０１８５＿ａｔ、１４３１１６５＿ａｔ、１４５０５３６＿ｓ＿ａｔ、１４２６２０３＿ａｔ、１４２１６９１＿ａｔ、１４２９９５７＿ａｔ、１４２７３６６＿ａｔ、１４３１６５０＿ａｔ、１４５０５４０＿ｘ＿ａｔ、１４２２２０９＿ｓ＿ａｔ、１４３６０５５＿ａｔ、１４５０７７４＿ａｔ、１４３８２３９＿ａｔ、１４３０６３５＿ａｔ、１４４９５５９＿ａｔ、１４３５１８４＿ａｔ、１４１９３２３＿ａｔ、１４１９７６７＿ａｔ、１４２２７６０＿ａｔ、１４４９１７０＿ａｔ、１４２０４６７＿ａｔ、１４２２２４０＿ｓ＿ａｔ、１４４８０２１＿ａｔ、１４２７８６６＿ｘ＿ａｔ、１４３３９２４＿ａｔ、１４６００４９＿ｓ＿ａｔ、１４１５９２７＿ａｔ、１４１５８３２＿ａｔ、１４３６１１９＿ａｔ、１４３４４４９＿ａｔ、１４１９０２８＿ａｔ、１４４８４２１＿ｓ＿ａｔ、１４２４２６６＿ｓ＿ａｔ、１４５０８７１＿ａ＿ａｔ、１４３１８５６＿ａ＿ａｔ、１４２４５２８＿ａｔ、１４１８７９６＿ａｔ、１４２７１６８＿ａ＿ａｔ、１４２７８８４＿ａｔ、１４２２４３７＿ａｔ、１４２６２５１＿ａｔ、１４５２９６８＿ａｔ、１４５０８３９＿ａｔ、１４４１９２８＿ｘ＿ａｔ、１４２０８５４＿ａｔ、１４３４２０２＿ａ＿ａｔ、１４１６８０３＿ａｔ、１４３８９６６＿ｘ＿ａｔ、１４２９４０３＿ｘ＿ａｔ、１４３６１１５＿ａｔ、１４１７８３６＿ａｔ、１４４８１９４＿ａ＿ａｔ、１４１７７１４＿ｘ＿ａｔ、１４２２６１０＿ｓ＿ａｔ、１４３７６６５＿ａｔ、１４５１０４７＿ａｔ、１４１６６４０＿ａｔ、１４１８５３８＿ａｔ、１４１８０６３＿ａｔ、１４３５８５１＿ａｔ、１４４８２２８＿ａｔ、１４１７２７５＿ａｔ、１４５４６５１＿ｘ＿ａｔ、１４２６７５８＿ｓ＿ａｔ、１４１７３５９＿ａｔ、１４２４０１０＿ａｔ、１４２３２５３＿ａｔ、１４１９４８７＿ａｔ、１４３５３８２＿ａｔ、１４５００７９＿ａｔ、１４１７１４９＿ａｔ、１４２８８９６＿ａｔ、１４１７３５５＿ａｔ、１４５６３１５＿ａ＿ａｔ、１４２４５５６＿ａｔ、１４２７５８０＿ａ＿ａｔ、１４４８２０１＿ａｔ、１４２０８８４＿ａｔ、１４３６８５３＿ａ＿ａｔ、１４４９２０６＿ａｔ、１４３５５８５＿ａｔ、１４２２９７３＿ａ＿ａｔ、１４１６７１３＿ａｔ、１４５１８０１＿ａｔ、１４５４６０８＿ｘ＿ａｔ、１４１９０６３＿ａｔ
からなる群の１種であるチップコンテンツで測定される遺伝子、及び該遺伝子のオーソログから選択する
ことを特徴とする請求項１８に記載の遺伝子。
前記選択された遺伝子は、ＵｎｉＧｅｎｅＩＤ番号において、
Ｍｍ．４６４８８６、Ｍｍ．４５４５２６、Ｍｍ．１５８７６６、Ｍｍ．３３３６６１、Ｍｍ．８６３３１、Ｍｍ．２７４４７、Ｍｍ．３２１７、Ｍｍ．２７３２７１、Ｍｍ．４２５４９１、Ｍｍ．２３２５２３、Ｍｍ．７５４９８、Ｍｍ．３５０８３、Ｍｍ．３３９３３２、Ｍｍ．９１１４、Ｍｍ．３６２６４４、Ｍｍ．２３０２４９、Ｍｍ．３２０３１７、Ｍｍ．１７１３５７、Ｍｍ．５１９４、Ｍｍ．４２３０７８、Ｍｍ．９９９８９、Ｍｍ．３９０６８３、Ｍｍ．２５６５２、Ｍｍ．３４０７９１、Ｍｍ．３０２６０２、Ｍｍ．４９９０２、Ｍｍ．４２２７９９、Ｍｍ．１８０２５６、Ｍｍ．４３９６７３、Ｍｍ．４３９７３８、Ｍｍ．３７９５２、Ｍｍ．２９１４９８、Ｍｍ．１０６８６８、、Ｍｍ．４４１６７２、Ｍｍ．３４３７２、Ｍｍ．１９６６８９、Ｍｍ．４６１０９、Ｍｍ．３０９６７、Ｍｍ．１５８２８１、Ｍｍ．４１６８４４、Ｍｍ．３８９９９３、Ｍｍ．４２２８００、Ｍｍ．２９０６７７、Ｍｍ．２４６６９７、Ｍｍ．３４４４１、Ｍｍ．１３８４３７、Ｍｍ．１７６３、Ｍｍ．２５２５９、Ｍｍ．２０８５４、Ｍｍ．２０８５１、Ｍｍ．２５０３５８、Ｍｍ．８５２５３、Ｍｍ．３４２０１、Ｍｍ．１０６９３、Ｍｍ．４４０１６７、Ｍｍ．４６７４９５、Ｍｍ．３９２１７６、Ｍｍ．５０１０９、Ｍｍ．６８６、Ｍｍ．２６７９、Ｍｍ．２６３１３８、Ｍｍ．２５０７８６、Ｍｍ．２９７４４４、Ｍｍ．３８３２１６、Ｍｍ．２９１１０、Ｍｍ．４６０６、Ｍｍ．３４７７６、Ｍｍ．４５１２７、Ｍｍ．２０４２８、Ｍｍ．２９７８５９、Ｍｍ．２４９５５５、Ｍｍ．１０２９９、Ｍｍ．１０８５５７、Ｍｍ．４１５５６、Ｍｍ．４０７４１５、Ｍｍ．２７１９７３、Ｍｍ．２７５３２０、Ｍｍ．２５６０５８、Ｍｍ．２４７２０、Ｍｍ．２８７１４６、Ｍｍ．１９１２８１、Ｍｍ．８１９１６、Ｍｍ．２０１６４、Ｍｍ．１４８０２、Ｍｍ．１９６１１０、Ｍｍ．２８１０１８、Ｍｍ．３３１９７９、Ｍｍ．１９３、Ｍｍ．５８５０７、Ｍｍ．２９８１９９、Ｍｍ．６２２８、Ｍｍ．２９８２５１、Ｍｍ．１７２、Ｍｍ．３９０４０、Ｍｍ．２５２０６３、Ｍｍ．２８９６４５、Ｍｍ．７３８６、Ｍｍ．２７２２７８、Ｍｍ．９９８６、Ｍｍ．３７９０６７、Ｍｍ．４００２５３、Ｍｍ．２２３６７、Ｍｍ．３７０５、Ｍｍ．２８４２４６、Ｍｍ．３８９８００、Ｍｍ．２４１２０５、Ｍｍ．１２７７３１、Ｍｍ．２９３２６３、Ｍｍ．１９１５５、Ｍｍ．２９１３２、Ｍｍ．１７４８４、Ｍｍ．３１６８８５、Ｍｍ．１８１２５、Ｍｍ．２８５８５、Ｍｍ．２９３５８、Ｍｍ．３３８５０８、Ｍｍ．２１０８、Ｍｍ．３０６０２１
からなる群の１種である遺伝子、及び該遺伝子のオーソログから選択する
ことを特徴とする請求項１８に記載の遺伝子。
請求項１８乃至２０のいずれか１項に記載の遺伝子のいずれかの発現量を、老化の指標として用いる
ことを特徴とする老化判定方法。
老化によって遺伝子発現が変化することが明らかになった、前記遺伝子又は前記遺伝子の調節領域に、レポーター遺伝子を接続して作成した指示遺伝子を用い、
翻訳されたタンパク質の活性、及び／又はタンパク質が代謝して産生された代謝産物の量を、前記老化の指標として判定する
ことを特徴とする請求項２１に記載の老化判定方法。
マウス皮膚やマウス皮膚由来の培養細胞の老化を判定する
ことを特徴とする請求項２１又は２２に記載の老化判定方法。
前記オーソログを、マウス以外の生物種の老化の指標に用いる
ことを特徴とする請求項２１乃至２３のいずれか１項に記載の老化判定方法。
トランスクリプトームに係る発現量の変化のデータ行列から、主成分分析または特異値分解によって求めた係数を用いる
ことを特徴とする請求項２１乃至２４のいずれか１項に記載の老化判定方法。
老化の指標の作成のために、トランスクリプトームに係る発現量の変化のデータ行列の主成分を用いる
ことを特徴とする請求項２１乃至２５のいずれか１項に記載の老化判定方法。
老化の指標の作成のために、トランスクリプトームに係る発現量の変化のデータ行列を分解して得たユニタリ行列を用いる
ことを特徴とする請求項２１乃至２６のいずれか１項に記載の老化判定方法。
ｎ個の遺伝子ｇの測定値ｘ_s,gより、サンプルｓの指標ＡＩ_sを下記式、

を用いて計算する
ことを特徴とする請求項２１乃至２７のいずれか１項に記載の老化判定方法。
請求項１に記載の主成分算出方法により疾病群と対照群とを比較する
ことを特徴とする疾病判定方法。
請求項１に記載の主成分算出方法を実行する
ことを特徴とするコンピュータプログラム。
請求項３０に記載のコンピュータプログラムを記憶した記憶媒体。
データ行列から主成分を計算する主成分演算部と、
前記主成分を、前記主成分の算出に用いた前記データ行列のサンプル数の平方根、又は該主成分の算出に用いた前記データ行列の測定項目数の平方根で除することでスケーリングする主成分スケーリング部とを備え、
スケーリングした前記主成分から、所定の閾値でサンプルを選択する
ことを特徴とする解析装置。