JP2012039994A - 主成分算出方法、トランスクリプトーム解析方法、遺伝子、老化判定方法、コンピュータプログラム、記憶媒体、及び解析装置 - Google Patents
主成分算出方法、トランスクリプトーム解析方法、遺伝子、老化判定方法、コンピュータプログラム、記憶媒体、及び解析装置 Download PDFInfo
- Publication number
- JP2012039994A JP2012039994A JP2010214256A JP2010214256A JP2012039994A JP 2012039994 A JP2012039994 A JP 2012039994A JP 2010214256 A JP2010214256 A JP 2010214256A JP 2010214256 A JP2010214256 A JP 2010214256A JP 2012039994 A JP2012039994 A JP 2012039994A
- Authority
- JP
- Japan
- Prior art keywords
- data
- principal component
- gene
- aging
- transcriptome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
【解決手段】
解析装置を用いてデータ行列から主成分を算出する主成分方法である。そして、解析装置は、主成分を、その主成分の算出に用いたサンプル数又は測定項目数の平方根で除することでスケーリングする。また、解析装置は、スケーリングした前記主成分から、所定の閾値で前記発現量が変化したサンプルを選択する。これにより、測定項目がある程度異なる、しかし測定項目が多いようなデータに対応することができる。
【選択図】図3
Description
非特許文献1を参照すると、主成分分析は、元々、Pearsonによる空間と行列要素の距離についての考察を起源としている。この上で、非特許文献2を参照すると、Hotellingが手法としてまとめたとされている。
また、非特許文献3及び4を参照すると、主成分分析は広く使われており、特に大きな次元をもつトランスクリプトーム(transcriptome)データの解析等に適用することが考えられている。
トランスクリプトームは、所定の条件における細胞内の総合的なmRNA(messenger RNA、transcripts)の発現量の状態等を示す。生物は、通常、同一個体内で同一の遺伝情報(ゲノム)を備えているものの、トランスクリプトームは、組織の細胞の差、分化状態、年齢、細胞外からの刺激等に対する応答により異なっている。
トランスクリプトームに係る複数のmRNAの発現量は、DNAアレイ(マイクロアレイ)等を用いて測定可能である。
図13は、従来の主成分分析の原理を示した説明図である。図13の例では、3群9サンプルで4測定項目の分析対象を、9×4行列の行列Xとして計算している。
この計算では、行列Xとして、特異値分解を用いて、軸を特異ベクトルUやVとして求め、それらのベクトルを用いて主成分PCを求めている。
この行列は、「サンプルという次元で表された測定項目分の要素のベクトル」でも、また「測定項目という次元で表されたサンプル分の要素のベクトル」でもある。
いずれの考え方でも次元数は大きくなりがちだが、これらの次元は実際には必ずしも直交しておらず、また要素の違いを効率よく表してもいない。
主成分分析では行列の次元をあらわす軸を新しく設定する。それらの新たな軸はそれぞれ直交している。また第一の軸は要素群の中心に添い、また第二の軸は第一の軸で表されなかった残渣の中心に沿う。
こうすることで、それぞれの新しく設定された軸はオリジナルの行列よりも少ない次元でデータを効率よく近似する。
Xを、その項目の平均でセンタリングするなどして標準化したデータ行列、またX'をXの転置行列であるとする。このとき、
X = U・L1/2・V’
ここでUとVは特異ベクトルを記すユニタリ行列で、Vはサンプルのための軸を、Uは項目のための軸を記録している。またL1/2はdiagonal matrixで、その対角成分に特異値が大きい順にソートされている。また、また、V’はVの転置行列を示す。
サンプルの主成分PCs、項目の主成分PCgは、次の式で定義される。
PCg = X・V
また同様に、
PCs = X’・U
PCsは、X’の主成分である。
そこで、これはXやX’を回転させたものであることがわかる。あるいは、もとの行列の要素の位置関係はそのままに、直交軸を新たに設定したともいえる。
これらの軸は互いに直交し、かつ要素の違いをもっともよく表す方向から選択されるために、オリジナルの軸よりも少ない次元でデータを表すことができる。これがデータの次元の圧縮の原理となる。
それぞれの主成分は、サンプル数や遺伝子数に依存している。これらの値は、もともとの要素をそれぞれの新しい軸に投影したときの、原点からの距離の総和を表している。つまり、サンプルの主成分PCsなら項目の距離の総和で、項目の主成分PCgならサンプルの距離の総和である。当然のごとく、サンプルや項目の数が変われば、この値も変化する。
すなわち、非特許文献4を参照すると、主成分は相対値であり、そのXの中だけで意味をもつ。
従来技術1の熱力学モデルを用いた情報処理装置は、各mRNAの濃度を、各mRNAの合成速度を決定するエネルギーパラメータと各mRNAの分解速度を決定するエネルギーパラメータとを用いて定義すると共に、前記エネルギーパラメータを塩基配列特異的にRNAないしDNAに結合する因子の細胞内局所的濃度と前記因子の標的となりうる塩基配列が持つ特有の係数とを用いて定義する。
従来技術1では、mRNAの濃度、因子の細胞局所内濃度、塩基配列が持つ特有の係数の値の少なくとも一つ以上を前記熱力学モデルへ入力し、残りの値を未知数として算出して出力する。
従来技術1の熱力学モデルを用いた情報処理装置によれば、配列とタンパク性因子との相互作用を客観的に表すことで、ゲノムの量的な情報のトランスクリプトームレベルでの解読やトランスクリプトームの再現が可能となり、様々な実験と測定の結果を比較したり知見の統合をするためのプラットフォームを提供することができる。
このため、大きな次元をもつデータを解析するのに適している従来の主成分分析を用いて、一般的なマイクロアレイのmRNA量を測定したトランスクリプトームデータを解析することが望まれていた。
ところが、従来の主成分分析は、下記の点でトランスクリプトームデータに適用することについて問題があった。
さらに、マイクロアレイは、それぞれがカバーする遺伝子の種類は異なることが多く、検査項目がまちまちであった。
ところが、従来の主成分分析では、こういったマイクロアレイの変更や、マイクロアレイデータの検査項目の変更には対応していないという問題があった。
また、マイクロアレイを用いた測定は、多くの場合、複数の生体サンプルを用いて、繰り返して行われる。この際の実験の繰り返し回数は、必ずしも同じ数ではない。このため、行列データ内のサンプルは、全てが同等に独立且つ同じ重さを持つわけではない。
しかしながら、従来の主成分分析はこうした重みの違いに対応しておらず、その補正の手段がないという問題があった。
たとえば、実験において、異なる群の複数のサンプルが同一の疾病に罹患したときは、その影響が主成分分析で検出されてしまっていた。
このため、こうした群と無関係の動向により、有効な変化を主成分として発見することが妨げられ、また擬陽性となる過誤の原因にもなっていた。
たとえば、細胞の薬物応答に対応するトランスクリプトームを解析するトキシコロジーに主成分分析を用いた際、同じような物質(薬物)群がデータ行列に多く含まれている場合、主成分分析により発見される軸の方向性は、それらの物質群を過大に評価するようになるという問題があった。
本発明のトランスクリプトーム解析方法は、前記主成分算出方法によりトランスクリプトームを解析するトランスクリプトーム解析方法であって、前記トランスクリプトームに係る発現量の変化の前記データ行列から前記主成分を計算し、前記主成分を、前記主成分の算出に用いた前記データ行列の前記サンプル数の平方根、又は該主成分の算出に用いた前記データ行列の前記測定項目数の平方根で除することでスケーリングし、スケーリングした前記主成分から、前記所定の閾値で前記発現量が変化したことを判定して選択することを特徴とする。
本発明のトランスクリプトーム解析方法は、前記発現量の変化は、RNAの量、翻訳されたタンパク質の量、翻訳されたタンパク質の活性、及びタンパク質が代謝して産生された代謝産物の量のいずれかを含むことを特徴とする。
本発明のトランスクリプトーム解析方法は、前記所定の閾値は、スケーリングした主成分を正規分布と比較して、確率0.001の両側の擬陽性を許容する閾値であることを特徴とする。
本発明のトランスクリプトーム解析方法は、二つ以上のスケーリングした前記主成分を比較することで、前記発現量が変化したことを判定することを特徴とする。
本発明のトランスクリプトーム解析方法は、特異ベクトルで表される前記主成分の軸を求めるために、トレーニングデータを用いることを特徴とする。
本発明のトランスクリプトーム解析方法は、前記トレーニングデータは、前記データ行列の測定項目を選択して作成し、前記選択されなかった項目のデータをゼロで置き換えて、オリジナルの行列の大きさを保つことを特徴とする。
本発明のトランスクリプトーム解析方法は、前記主成分を算出する際に、欠失したデータをゼロで置き換えることを特徴とする。
本発明のトランスクリプトーム解析方法は、前記トレーニングデータから求めた軸を前記データ行列に適用し、前記主成分を計算することを特徴とする。
本発明のトランスクリプトーム解析方法は、前記トレーニングデータから求めた軸を、データ評価のための重みとして使用することを特徴とする。
本発明のトランスクリプトーム解析方法は、トレーニングデータから軸を求める際に、データ平均以外の選択されたデータを基準として使用することを特徴とする。
本発明のトランスクリプトーム解析方法は、前記主成分を計算する際に、データ平均以外の選択されたデータを基準として使用することを特徴とする。
本発明のトランスクリプトーム解析方法は、前記主成分を計算する際に、下記式によりセンタリングを行って再標準化したデータ行列Xs、データ行列Xpを用い、
本発明のトランスクリプトーム解析方法は、前記データ行列Xpを特異値分解すると、左特異ベクトルUpと対角行列L1/2および右特異ベクトルVpの関係が下記式である
本発明のトランスクリプトーム解析方法は、前記主成分のうち、サンプル毎の主成分PCsは、下記式である
本発明のトランスクリプトーム解析方法は、前記主成分のうち、遺伝子ごとの主成分PCgは、下記式である
本発明の遺伝子は、前記トランスクリプトーム解析方法により選択されたことを特徴とする。
本発明の遺伝子は、前記発現量の変化は、老化による皮膚の細胞の遺伝子発現の変化であることを特徴とする。
本発明の遺伝子は、前記選択された遺伝子は、アフィメトリクス社の遺伝子ID番号において、1439200_x_at、 1439625_at、 1453511_at、 1429835_at、 1457967_at、 1450455_s_at、 1416239_at、 1449475_at、 1441991_at、 1421001_a_at、 1422825_at、 1451382_at、 1453009_at、 1416776_at、 1435792_at、 1418989_at、 1437431_at、 1431171_at、 1450475_at、 1448470_at、 1451424_at、 1423271_at、 1448397_at、 1442089_at、 1448303_at、 1420538_at、 1448932_at、 1430132_at、 1421589_at、 1427179_at、 1420409_at、 1436557_at、 1427378_at、 1460185_at、 1431165_at、 1450536_s_at、 1426203_at、 1421691_at、 1429957_at、 1427366_at、 1431650_at、 1450540_x_at、 1422209_s_at、 1436055_at、 1450774_at、 1438239_at、 1430635_at、 1449559_at、 1435184_at、 1419323_at、 1419767_at、 1422760_at、 1449170_at、 1420467_at、 1422240_s_at、 1448021_at、 1427866_x_at、 1433924_at、 1460049_s_at、 1415927_at、 1415832_at、 1436119_at、 1434449_at、 1419028_at、 1448421_s_at、 1424266_s_at、 1450871_a_at、 1431856_a_at、 1424528_at、 1418796_at、 1427168_a_at、 1427884_at、 1422437_at、 1426251_at、 1452968_at、 1450839_at、 1441928_x_at、 1420854_at、 1434202_a_at、 1416803_at、 1438966_x_at、 1429403_x_at、 1436115_at、 1417836_at、 1448194_a_at、 1417714_x_at、 1422610_s_at、 1437665_at、 1451047_at、 1416640_at、 1418538_at、 1418063_at、 1435851_at、 1448228_at、 1417275_at、 1454651_x_at、 1426758_s_at、 1417359_at、 1424010_at、 1423253_at、 1419487_at、 1435382_at、 1450079_at、 1417149_at、 1428896_at、 1417355_at、 1456315_a_at、 1424556_at、 1427580_a_at、 1448201_at、 1420884_at、 1436853_a_at、 1449206_at、 1435585_at、 1422973_a_at、 1416713_at、 1451801_at、 1454608_x_at、 1419063_atからなる群の1種であるチップコンテンツで測定される遺伝子、及び該遺伝子のオーソログから選択することを特徴とする。
本発明の遺伝子は、前記選択された遺伝子は、UniGene ID番号において、Mm.464886、 Mm.454526、 Mm.158766、 Mm.333661、 Mm.86331、 Mm.27447、 Mm.3217、 Mm.273271、 Mm.425491、 Mm.232523、 Mm.75498、 Mm.35083、 Mm.339332、 Mm.9114、 Mm.362644、 Mm.230249、 Mm.320317、 Mm.171357、 Mm.5194、 Mm.423078、 Mm.99989、 Mm.390683、 Mm.25652、 Mm.340791、 Mm.302602、 Mm.49902、 Mm.422799、 Mm.180256、 Mm.439673、 Mm.439738、 Mm.37952、 Mm.291498、 Mm.106868、 、 Mm.441672、 Mm.34372、 Mm.196689、 Mm.46109、 Mm.30967、 Mm.158281、 Mm.416844、 Mm.389993、 Mm.422800、 Mm.290677、 Mm.246697、 Mm.34441、 Mm.138437、 Mm.1763、 Mm.25259、 Mm.20854、 Mm.20851、 Mm.250358、 Mm.85253、 Mm.34201、 Mm.10693、 Mm.440167、 Mm.467495、 Mm.392176、 Mm.50109、 Mm.686、 Mm.2679、 Mm.263138、 Mm.250786、 Mm.297444、 Mm.383216、 Mm.29110、 Mm.4606、 Mm.34776、 Mm.45127、 Mm.20428、 Mm.297859、 Mm.249555、 Mm.10299、 Mm.108557、 Mm.41556、 Mm.407415、 Mm.271973、 Mm.275320、 Mm.256058、 Mm.24720、 Mm.287146、 Mm.191281、 Mm.81916、 Mm.20164、 Mm.14802、 Mm.196110、 Mm.281018、 Mm.331979、 Mm.193、 Mm.58507、 Mm.298199、 Mm.6228、 Mm.298251、 Mm.172、 Mm.39040、 Mm.252063、 Mm.289645、 Mm.7386、 Mm.272278、 Mm.9986、 Mm.379067、 Mm.400253、 Mm.22367、 Mm.3705、 Mm.284246、 Mm.389800、 Mm.241205、 Mm.127731、 Mm.293263、 Mm.19155、 Mm.29132、 Mm.17484、 Mm.316885、 Mm.18125、 Mm.28585、 Mm.29358、 Mm.338508、 Mm.2108、 Mm.306021からなる群の1種である遺伝子、及び該遺伝子のオーソログから選択することを特徴とする。
本発明の老化判定方法は、前記遺伝子のいずれかの発現量を、老化の指標として用いることを特徴とする。
本発明の老化判定方法は、老化によって遺伝子発現が変化することが明らかになった、前記遺伝子又は前記遺伝子の調節領域に、レポーター遺伝子を接続して作成した指示遺伝子を用い、翻訳されたタンパク質の活性、及び/又はタンパク質が代謝して産生された代謝産物の量を、前記老化の指標として判定することを特徴とする。
本発明の老化判定方法は、マウス皮膚やマウス皮膚由来の培養細胞の老化を判定することを特徴とする。
本発明の老化判定方法は、前記オーソログを、マウス以外の生物種の老化の指標に用いることを特徴とする。
本発明の老化判定方法は、トランスクリプトームに係る発現量の変化のデータ行列から、主成分分析または特異値分解によって求めた係数を用いることを特徴とする。
本発明の老化判定方法は、老化の指標の作成のために、トランスクリプトームに係る発現量の変化のデータ行列の主成分を用いることを特徴とする。
本発明の老化判定方法は、老化の指標の作成のために、トランスクリプトームに係る発現量の変化のデータ行列を分解して得たユニタリ行列を用いることを特徴とする。
本発明の老化判定方法は、n個の遺伝子gの測定値xs,gより、サンプルsの指標AIsを下記式、
本発明の疾病判定方法は、前記主成分算出方法により疾病群と対照群とを比較することを特徴とする。
本発明のコンピュータプログラムは、前記主成分算出方法を実行することを特徴とする。
本発明の記憶媒体は、前記コンピュータプログラムを記憶したことを特徴とする。
本発明の解析装置は、データ行列から主成分を計算する主成分演算部と、前記主成分を、前記主成分の算出に用いた前記データ行列のサンプル数の平方根、又は該主成分の算出に用いた前記データ行列の測定項目数の平方根で除することでスケーリングする主成分スケーリング部とを備え、スケーリングした前記主成分から、所定の閾値でサンプルを選択することを特徴とする。
〔解析装置10の制御構成〕
まず、図1を参照して、本発明の第1の実施の形態に係る解析装置10(トランスクリプトーム解析装置)の制御構成について説明する。
解析装置10は、例えばPC/AT互換機や汎用機等である計算装置であって、Linux(登録商標)、Windows(登録商標)等のOSがインストールされている。
解析装置10の主な構成要素としては、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の制御・演算装置である制御部100と、RAM(Random Access Memory)やROM(Read Only Memory)やHDD(Hard Disk Drive)やフラッシュメモリやSSD(Solid State Draive)等の記憶装置である記憶部110と、キーボードやマウス等のポインティングデバイスやタッチパネル等やマイクロアレイ解析装置等の外部機器からのI/Oインターフェイス等を含む入力部130と、液晶ディスプレイや有機ELディスプレイや印刷を行うプリンタ等である表示部140と、1000Base−T等の規格のLANボードや無線LANボード等であるネットワーク入出力部150とを備えている。
解析装置10は、主に記憶部110に記憶された各種プログラムと、データベース等を含むデータとを用いて制御部100が実行することで、本発明の第1の実施の形態に係るトランスクリプトーム解析方法をハードウェア資源を用いて実現することができる。
このプログラムとデータは、トレーニングデータ作成部210と、特異ベクトル演算部220と、主成分演算部230と、主成分スケーリング部240と、データベース250とを含んで構成される。
データベース251には、主にマイクロアレイデータ251、トレーニングデータ252、軸データ253、主成分データ254を記憶している。
マイクロアレイデータ251は、例えば、アフィメトリクス社製のAffymetrix Murine Genome U74 Version 2 Arrayの測定データを用いることができる。
また、マイクロアレイデータ251は、行列の要素の欠落等である欠失したデータを補った測定データを行列データとして記憶する。この行列データを、トレーニングデータ252から求た主成分分析の直交軸に適用(評価)することで、主成分分析による分析結果が得られる。
また、マイクロアレイデータ251には、後述する代表値も記憶することができる。
このトレーニングデータは、行列データXtとして記憶する。
この軸データ253としては、行列データXtから求めた特異ベクトル等を記すユニタリ行列であるUt及びVt、行列データXtから求めたdiagonal matrixであるLt 1/2等を記憶する。
この主成分データ254としては、主成分PCg及びこれに直交する主成分PCsを記憶する。
また、PCgをスケーリングした主成分であるsPCg、PCsをスケーリングした主成分であるsPCsを記憶する。
次に、図2〜図3を参照して、本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法を実行するトランスクリプトーム用主成分分析処理について説明する。
なお、本実施形態において用いるトランスクリプトームデータは、mRNAの発現量だけでなく、タンパク質の増減やタンパク質の活性等、幅広い分野のトランスクリプトームデータに対応することができる。
この主成分分析は、特に大きな次元をもつデータを効率よく客観的に要約することができるが、その結果はデータの中だけで意味をもつ相対値であり、一般性がない。また、行列データを構成するサンプル中に偏りがあると、その偏りは結果に反映される。
軸の発見においては、主成分分析の直交軸を、分析するデータではなくトレーニングデータから見いだす。この上で、実際のマイクロアレイの実験データを、発見した軸に適用し、主成分を求める。
このように、トレーニングデータから軸を発見することで、サンプルの偏りを排することができる。
また、軸の発見と適用とを分離することによって、軸を広く共有することを可能にするため、分析結果が一般性を持つようになるという効果が得られる。
さらに、主成分をスケーリングすることで、分析値を絶対値で表すことができる。
図2は、本実施形態において、軸の発見と設定を、その適用から切り離すトランスクリプトーム用主成分分析方法についての概念図である。
本実施形態に係るトランスクリプトーム用主成分分析方法では、軸を求める際にトレーニングデータを用いる。図2の例では、それぞれの群の代表値を用いている。
また、図2の例では、項目2を非選択とし、当該データを0で置き換えている。
さらに、本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法では、特異値分解で軸を特異ベクトルとして求め、それらベクトルを用いて主成分PCを求める。すなわち、主成分分析の軸を発見するために、行列Xの全てを使わずに、Xの一部、ないしXから導かれた、より小さい行列Xt(トレーニングデータ)を用い、その軸を用いて解析する。
スケーリングについては、図2の例では、項目数及びサンプル数が3であるので、3の平方根で除することでスケーリングする。
このように構成することで、主成分分析の拡張と一般化により、従来の主成分分析処理では解析が難しかったマイクロアレイデータについて解析できる。
以下で、図3のフローチャートを参照して、本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析処理の詳細について説明する。
これらの処理は、制御部100が記憶部110のプログラムとデータを実行することで実現する。
具体的には、制御部100は、記憶部110のデータベース250のマイクロアレイデータ251を参照して、欠失データがあった場合は、これを0(ゼロ)等で置き換える処理を行う。
また、制御部100は、トレーニングデータ252、軸データ253、主成分データ254のような記憶領域を確保し、各種プログラムの初期化にあたる処理をする。
具体的に、この初期化処理における欠失データの取り扱いについて説明する。
たとえば、マイクロアレイを用いた具体的な実験においては、マイクロアレイ上のゴミや異物等、工学系のトラブル、信号トラブル等で、完全なマイクロアレイデータが得られないことがある。すなわち、いずれかの項目が測定できないことがあり、この場合、マイクロアレイデータの一部の欠失として記憶される。
ここで、従来の主成分分析のように、軸とデータが別々に測定される場合、このようなデータの欠失が重要になる可能性がある。たとえば、ひとつのデータの欠失によって、ひとつのサンプルの主成分が算出不能になる。
このため、本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析処理においては、欠失したデータをゼロで置き換えて、欠失したデータを補う。
欠失したデータをゼロで置き換えるのは、いわゆるフェイルセーフのような考えに基づく措置である。欠失したデータをゼロで置き換えることにより、主成分は、いささかゼロに近づく。これは、距離総和から置き換えた要素が消えるからである。
しかしながら、主成分が逆に遠ざかることはないので、項目の値となるsPCgや、サンプルの値となるsPCsにしても、欠失データによって絶対値が大きくなることがないという効果が得られるため好適である。
このトレーニングデータ決定処理においては、制御部100は、測定項目の選択、基準値の設定、代表値の選択、項目の選択、項目の基準値の設定、基準値での標準化等を行う。
この際、制御部100は、平均などでサンプル情報を要約して設定して使用することもできる。
まず、制御部100は、予め分散分析などで群間の有意差を確認して、測定項目を絞っておくことで、サンプル及び測定項目を選択し、トレーニングデータの行列Xtに設定する。これにより、代表値を定めることができる。
このようなサンプル及び測定項目の選択を行い、群間で有意な違いがあった測定項目に限定することで、擬陽性の過誤の可能性を小さくすることが可能になる。
また、同様に、制御部100は、測定限界から外れた項目も対象外にする。この際、対象から除外された項目を削除するのではなく、該当する要素の値を全てゼロに置き換えることで、行列の型を保ちながら解析することが可能になる。
これにより、トランスクリプトームデータにおいて、軸を共有することが可能になる。
以上のような処理におけるトレーニングデータの構造については、データや測定値の偏りを排するためには、軸の発見に用いるトレーニングデータの構造を均一にすることが望ましい。たとえば、一つの分野の薬剤が複数回測定されていて、他の分野の薬剤に比べて多い場合、その頻度を薬剤の分野ごとに調節するべきだ。
また、繰り返し測定がおこなわれている場合、その一つ一つのサンプルは独立したものではなくなる。繰り返し測定された箇所のデータを、サンプル平均値で置き換えれば、個体差の影響は減少される。
このようなトレーニングデータを作成することで、「群をまたいで偶然に一致した何らかの原因による」変動を、誤って検出する可能性を、従来の主成分分析よりずっと小さくすることが可能になる。
具体的には、制御部100は、異値分解や固有値分解等を行い、特異ベクトルを求める。
たとえば、特異値分解を用いる場合、制御部100は、選択されたサンプルと測定項目からなるデータの行列Xtについて特異値分解をし、以下の式により特異ベクトルを求める。
Xt = Ut・Lt 1/2・Vt’
ここで、Vtはサンプルのための軸を、Utは項目のための軸に係るデータである。
具体的には、制御部100は、異値分解や固有値分解等により求めた特異ベクトル等を、軸データ253に記憶する。
具体的には、制御部100は、上述のステップS104にて気押した軸データ253を読み出して、主成分の演算をするためにRAM等に配置する。
具体的には、制御部100は、上述のトレーニングデータから、項目の基準値を設定して、この基準値で標準化(正規化)を行う。
制御部100は、項目の基準値を基準にするデータを特定してトレーニングデータに設定する。
この際、制御部100は、基準にするデータとして、全データの平均値を選択することが可能である。
また当然のごとく、制御部100は、基準にするデータについて、全データの平均値ではないデータを選択をすることもできる。
この設定された基準にするデータは主成分の原点となる。すなわち、ある特定の基準やコントロール実験が考えられる際は、これを用いるべきである。
さらに、基準にするデータは、例えば、それぞれの実験環境下毎で、解析装置10のユーザやデータの提供者が入力部130を用いて設定することができる。
このようにして定められた基準にするデータによって、環境の違いを補正することが期待できる。
つまり、軸は複数の測定値で共有しつつ、基準にするデータは各測定値で定めることが好適である。
具体的には、制御部100は、上述のトレーニングデータを用いて作成した軸データ253を、マイクロアレイデータ251の行列データに適用する。より具体的には、制御部100は、図2により説明したように、主成分PCsとPCgとを下記の式により求める:
PCg = Xt’・Ut
PCs = X・Vt
制御部100は、求めたPCg及びPCsを主成分データ254に記憶する。
ここで、トレーニングデータ行列Xtにより求められた軸を用いて主成分分析を行うためには、主成分の一般化、つまり項目やサンプルが変わってもその値を比べられることが必要である。
値を比較することで、トレーニングデータを作成する際の項目やサンプル群の選択の妥当性を確認することができる。
この一般化を実現するために、下記で説明する主成分の値のスケーリングを行う。
たとえば、Xの要素の数が4倍になれば、ベクトルの各要素の期待値は1/2倍になる。このため、主成分の期待値は4/2=2倍になると見込まれる。この場合、ルート(4)=2で主成分を除することで、最初のXの主成分と同じスケールをもたせることができる。
このように、項目ないしサンプルの数の平方根で除しておけば、項目ないしサンプルの平均値として主成分を扱うことができる。よって、要素数にかかわらず比較が可能になるという効果が得られる。
具体的なスケーリング方法としては、制御部100は、主成分PCgについて、サンプル数n_sampleであるときに、前述したユニタリ行列Utを用いて、以下の式により、sPCgを求める:
sPCg = PCg/(n_sample1/2)
= Xt’・Ut /(n_sample1/2)
sPCgの値は、項目の主成分に含まれる、ひとつのサンプルの寄与の平均値である。
sPCs = X・Vt/(n_gene1/2)
sPCgやsPCsの値は、異なる数のサンプルや項目から求めたとしても、それぞれの一つあたりの寄与として表わされるために比較可能である。
制御部100は、求めたsPCg、sPCsの値も主成分データ254に記憶する。
以上により、本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析処理を終了する。
まず、従来技術1の情報処理装置は、大きな次元をもつ汎用的なマイクロアレイのデータに適用することが難しかった。
しかしながら、大きな次元をもつデータを解析するのに適している従来の主成分分析では、検査項目が変更されたり、重みの違いがあったり、同じような物質群が多く含まれていたりする通常の実験で用いられるトランスクリプトームのデータで、正確な解析ができないという問題があった。
これに対して、本発明の第1の実施の形態に係る解析装置10は、分析するデータではなくトレーニングデータから主成分分析の軸を発見し、スケーリングを行うことで、これらのトランスクリプトームデータを分析することができる。
これにより、軸を異なる分析者・ラボ(研究所)間・異なる測定項目をもつ測定間で共有することが可能になる。
また、本発明の第1の実施の形態に係る解析装置10は、スケーリングをすることで値が相対値ではなくなる。
本発明の第1の実施の形態に係る解析装置10は、これらの処理により、主成分に一般性を持たせることができる。
このため、既存の軸を未知資料に適用することで、その資料を分類することもできる。
しかしながら、従来の主成分分析を、トランスクリプトームデータに対応させるため、項目の数やサンプルの数が変わったデータに適用しようとすると、距離の和である主成分のスケールが変わるので、それらの値は比較できないという問題があった。
これに対して、本発明の第1の実施の形態に係る解析装置10においても、トレーニングデータを使うので、従来の主成分分析方法とは、定性的に異なる点が生じる。すなわち、軸をどのデータ行列から調査するのかに任意性が与えられれば、「どの項目を選択し、どのサンプルを選択するか(代表値をどう導くか)」という選択肢が生じる。
これにより、一見したところ客観性が損われるように思われる。しかしながら、本発明の第1の実施の形態に係る解析装置10は、主成分の値をスケーリングにより絶対値とすることで、異なる選択による結果の間に比較可能性をもたせることができる。
よって、いずれの選択肢がより適切であるかを検討できるように保つことができる。
まず、図4を参照して、マウス乳腺の妊娠と出産にかかわるタイムコース実験の解析に用いた例を示す。この実験では、NCBIのGEOデータベースにあるSeries GSE8191のデータ(URL<http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE8191>、「Key stages in mammary gland development.」)を用いた。具体的には、NCBIのGEOデータベースにあるSeries GSM202666 から(続き番号で)GSM202705までの40データを用い、使用されたチップはAffymetrix Murine Genome U74 Version 2 Arrayである。
より具体的には、図4は、図はサンプルの、スケーリングした主成分であるsPCs1とsPCs2値を示している。図中に1から6までの数値で表されているのが妊娠の進行に伴う経過、7から9は出産後、10は断乳後であり、各群4サンプル分のデータを示している。
図4(a)は、全データから軸を発見した例を示す。また、図4(b)は、それぞれの群の平均値からなるトレーニングデータから軸を発見した例を示す。
この結果から明らかなように、sPCs1は母乳産生のための乳腺の発達過程を、sPCs2は断乳後の過程を、それぞれ軸として検出していると考えられる。
このように、トレーニングデータを使うことで、郡内のばらつきが減少しており、それはsPCs2で特に顕著である。
すなわち、軸を発見・定義するためのトレーニングデータと、分析対象のデータとを分離することで、分析がより目的に叶ったものになる。この効果は、たとえば群間の分離の改善となって現れる。
実際に、図4(b)においては、群間の分離が著しく改善されている。これは、特にsPCs2の軸が、サンプルの個体差の影響から免れ、より現象をよく反映するようになったからだと考えられる。
次に、図5を参照して、いわゆるトキシコロジーの分野のデータの分析に用いた結果を示す。この実験では、毒性が強いサンプル1,3,5を、そうでない2,4,6および薬物を与えないC群と比較したものである。毒性のない2,4,6群はC群の近くに位置している。なお、6のサンプルのひとつは、おそらく毒性のあるサンプルと取り違えたものだと考えられる。
より具体的には、図5(a)は、軸を発見するサンプルに偏りを持たせた観察例を示す。また、図5(b)は、偏りがない例を示す。
図5においては、いずれの結果も、群の平均値をトレーニングデータとして軸を決定している。しかしながら、図5(a)では群5(アスタリスクで強調している)だけ、代表値ではなく全てのデータをトレーニングデータの中に含めてある。この操作によって、データ数の偏りを人為的に起こして、その影響を観察した。
図5(a)では、sPCs2は群5の郡内の差を分離することに費やされていることが明白である。これに対して、図5(b)では、それぞれの群が同じような主成分をとっており、sPCs2では1,3,5群が分離している。もちろん、郡内の差はサンプルの個体差を反映したものであり、着目すべき重要なものではない。
つまり、図5(a)では、サンプルの偏りが、本来の調査目的を隠してしまっている。これは、サンプルの種類に偏りがある場合、従来の主成分分析法では避けられない現象であった。
これに対して、図5(b)では、そうした場合でも適切なトレーニングデータを用いることで、偏りの影響を避けられることを示している。
すなわち、トレーニングデータを用いることで、サンプルの偏りに起因する軸の重み付けの間違いが解決する。これはサンプルの偏りに対する頑健さとなって現れる。
図中の一つの円はそれぞれの遺伝子のsPCgを、番号はそれぞれの群のsPCsを示している。
約1万の測定項目をもつsPCsと、たかだか10のサンプル代表値から計算されるsPCgが同じ軸の上で表示されていることが、主成分のスケーリングの効果を端的に表している。
ここで、非特許文献4を参照すると、スケーリングをしない場合、軸の目盛りは共有できない。
これに対して、図6では、sPCが負である遺伝子が、群10を特徴付けていることが簡単に理解できる。
このことから、これらの実験でのトランスクリプトームの変化の規模はだいたい同一であったことがわかる。
すなわち、それぞれの測定で測定するためのmRNA等のチップコンテンツが異なり、遺伝子数が異なるにもかかわらず、こうした比較ができることも、主成分のスケーリングの効果のひとつである。
上述した本実施形態に係るトランスクリプトーム用主成分分析方法を用いることで、トレーニングデータを用いて、たとえば健康診断で得られるデータのなかから、特定の疾病を示唆する測定項目とそれぞれの重みを発見することができる。この軸を個々の測定データに適用することで、その疾病を発見することが可能になる。
これによって、新たなサンプルについても、どんな種類の毒性があるのかを調べることができる。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、複数のスケーリングした主成分を比較することを特徴とする。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、特異ベクトルで表されるような主成分の軸を求めるために、トレーニングデータを用いることを特徴とする。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、データの測定項目を選択してトレーニングデータを作成する際に、選択されなかった項目のデータをゼロで置き換えて、オリジナルの行列の大きさを保つことを特徴とする。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、主成分を算出する際に、欠損データをゼロで置き換えることを特徴とする。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、トレーニングデータから求めた軸を用いてデータを評価し、主成分を求めることを特徴とする。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、トレーニングデータから求めた軸を、データ評価のための重みとして使用することを特徴とする。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、トレーニングデータから軸を求める際に、データ平均以外の任意のデータを基準に使用することを特徴とする。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、主成分を求める際に、データ平均以外の任意のデータを基準に使用すること。
また、本発明の本発明の第1の実施の形態に係るコンピュータプログラムは、前記トランスクリプトーム用主成分分析方法を実行することを特徴とする。
また、本発明の本発明の第1の実施の形態に係る計算装置は、前記トランスクリプトーム用主成分分析方法を実行することを特徴とする。
〈遺伝子発現を用いた、皮膚の老化過程の指標の作成方法〉
次に、本発明の第2の実施の形態に係る遺伝子発現を用いた皮膚の老化過程の指標の作成方法について説明する。本発明の第2の実施の形態に係る遺伝子発現を用いた皮膚の老化過程の指標の作成方法では、上述の第1の実施の形態に係るトランスクリプトーム用主成分分析方法を用いて、皮膚の老化に関するトランスクリプトームを解析し、皮膚の老化過程の指標を作成する。
老化にともなって皮膚組織の性質は変化する。この変化を検出し、また老化の程度を客観的に測定することは、老化を研究調査し、老化に対抗する措置を開発する上で重要である。
また、この遺伝子のリストに記載した遺伝子の発現量を計測した値に係数を乗じてから合算することで、皮膚の老化の指標を算出する方法を提供する。
本発明の実施の形態に係る皮膚老化指標作成方法によれば、皮膚の老化の度合いを客観的に評価することができる。
マイクロアレイを用いて遺伝子発現を網羅的に調べることで、どの遺伝子がどの程度に老化にかかわるのかを明らかにした。データ解析の際に、複数の生理条件にあるサンプルのデータを主成分分析することで、老化に特異的にはたらく遺伝子を同定し、表1と2に掲げる遺伝子のリストを作成した。
具体的な標準化の実行方法は、国際公開第02/001477号公報、国際公開第2008/056693号公報、特表2010−510557号公報、特開2004−013573号公報、特開2006−236011号公報、Konishi, Tomokazu (2004), 'Three−parameter lognormal distribution ubiquitously found in cDNA microarray data and its application to parametric data treatment', BMC Bioinformatics, 5, 5.、Konishi, Tomokazu (2008), 'Data Distribution of Short Oligonucleotide Expression Arrays and Its Application to the Construction of a Generalized Intellectual Framework', Stat Appl Genet Mol Biol., 7 (1), Article 25.等を参照して実現することができる。
主成分分析は、分析者であるユーザーが設定する自由パラメータがないので、元々、客観性が高い。また、第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、マイクロアレイデータのように、独立性が高くないこともあるデータにおいても、客観性の高い分析データを得ることができる。
また、主成分分析は、老化や紫外線(Ultra Violet、UV)刺激といった異なる方向性のシグナルの影響を分離して見分けるために好適である。
以下で、皮膚の老化に関するマイクロアレイの実験データを用いて、トランスクリプトーム用主成分分析方法を実行した例についての詳細を説明する。
まず、z標準化されたマイクロアレイデータをサンプルsと遺伝子gの行列で表す。この行列から、遺伝子毎に当該遺伝子の平均を減じる、いわゆるセンタリングを行い、再標準化する。これは、全データの遺伝子毎の平均により、それぞれの遺伝子の値を減ずることで、主成分分析の結果のゼロを原点に重ねる処理である。この再標準化したデータ行列Xsを、軸設定・発見処理の計算の対象に用いる。
また、各実験群pのサンプルの代表値を同様なデータの行列で表す。この代表値としては、例えば、その群内での遺伝子の平均値を用いることができる。このサンプルの代表値のデータの行列についても、センタリングを行って再標準化する。この再標準化したデータ行列Xpについても、軸設定・発見処理の計算の対象に用いる。
このXsとXpをベクトルとして表現すると、以下の数式の通りである:
この際のXp、Up、L1/2、Vpの関係は、以下の数式の通りである:
老化に関連する遺伝子を、例えば、以下のように同定し、表1と表2を作成した。
測定値をパラメトリック法で標準化し、各遺伝子について群間で有意な発現の差があることを、ANOVA法を用いてp−valueの閾値0.01で確認した。
さらに、有意差が確認された遺伝子について、それぞれの群の平均値をつかってXpを求め、上述のトランスクリプトーム用主成分分析方法により、主成分分析を行った。その結果、PC1とPC2を得た。
PC1は、PCsにあたるサンプルに着目した、マイクロアレイデータの主成分である。
PC2は、PCgにあたる項目に着目した、マイクロアレイデータの主成分である。ここでは、PCgは、遺伝子を示す。
PC1について、大きな絶対値をとる遺伝子には皮膚に特異的に発現するものが多く見られた。またPC2では、乳腺および抗体産生に大きく関与するものがみられた。そこでPC2は授乳期の母親の特性が、PC1は皮膚の老化が顕れていると判断した。実際、それぞれのマウス個体の年齢とPC1上の位置は対応していた。
それぞれのサンプルのPC値は、それぞれ6倍の値を用いてプロットしてある。
この遺伝子を特定する手段として、アフィメトリクス社のID番号、通常使われている遺伝子の略称、および公的なデータベースの登録番号としてUniGeneID番号を示す。これらの遺伝子の配列は公知であり、それぞれの番号から容易に検索することが可能である。
1439200_x_at、 1439625_at、 1453511_at、 1429835_at、 1457967_at、 1450455_s_at、 1416239_at、 1449475_at、 1441991_at、 1421001_a_at、 1422825_at、 1451382_at、 1453009_at、 1416776_at、 1435792_at、 1418989_at、 1437431_at、 1431171_at、 1450475_at、 1448470_at、 1451424_at、 1423271_at、 1448397_at、 1442089_at、 1448303_at、 1420538_at、 1448932_at、 1430132_at、 1421589_at、 1427179_at、 1420409_at、 1436557_at、 1427378_at、 1460185_at、 1431165_at、 1450536_s_at、 1426203_at、 1421691_at、 1429957_at、 1427366_at、 1431650_at、 1450540_x_at、 1422209_s_at、 1436055_at、 1450774_at、 1438239_at、 1430635_at、 1449559_at、 1435184_at、 1419323_at、 1419767_at、 1422760_at、 1449170_at、 1420467_at、 1422240_s_at、 1448021_at、 1427866_x_at、 1433924_at、 1460049_s_at、 1415927_at、 1415832_at、 1436119_at、 1434449_at、 1419028_at、 1448421_s_at、 1424266_s_at、 1450871_a_at、 1431856_a_at、 1424528_at、 1418796_at、 1427168_a_at、 1427884_at、 1422437_at、 1426251_at、 1452968_at、 1450839_at、 1441928_x_at、 1420854_at、 1434202_a_at、 1416803_at、 1438966_x_at、 1429403_x_at、 1436115_at、 1417836_at、 1448194_a_at、 1417714_x_at、 1422610_s_at、 1437665_at、 1451047_at、 1416640_at、 1418538_at、 1418063_at、 1435851_at、 1448228_at、 1417275_at、 1454651_x_at、 1426758_s_at、 1417359_at、 1424010_at、 1423253_at、 1419487_at、 1435382_at、 1450079_at、 1417149_at、 1428896_at、 1417355_at、 1456315_a_at、 1424556_at、 1427580_a_at、 1448201_at、 1420884_at、 1436853_a_at、 1449206_at、 1435585_at、 1422973_a_at、 1416713_at、 1451801_at、 1454608_x_at、 1419063_atとそのオーソログ。
Mm.464886、 Mm.454526、 Mm.158766、 Mm.333661、 Mm.86331、 Mm.27447、 Mm.3217、 Mm.273271、 Mm.425491、 Mm.232523、 Mm.75498、 Mm.35083、 Mm.339332、 Mm.9114、 Mm.362644、 Mm.230249、 Mm.320317、 Mm.171357、 Mm.5194、 Mm.423078、 Mm.99989、 Mm.390683、 Mm.25652、 Mm.340791、 Mm.302602、 Mm.49902、 Mm.422799、 Mm.180256、 Mm.439673、 Mm.439738、 Mm.37952、 Mm.291498、 Mm.106868、 、 Mm.441672、 Mm.34372、 Mm.196689、 Mm.46109、 Mm.30967、 Mm.158281、 Mm.416844、 Mm.389993、 Mm.422800、 Mm.290677、 Mm.246697、 Mm.34441、 Mm.138437、 Mm.1763、 Mm.25259、 Mm.20854、 Mm.20851、 Mm.250358、 Mm.85253、 Mm.34201、 Mm.10693、 Mm.440167、 Mm.467495、 Mm.392176、 Mm.50109、 Mm.686、 Mm.2679、 Mm.263138、 Mm.250786、 Mm.297444、 Mm.383216、 Mm.29110、 Mm.4606、 Mm.34776、 Mm.45127、 Mm.20428、 Mm.297859、 Mm.249555、 Mm.10299、 Mm.108557、 Mm.41556、 Mm.407415、 Mm.271973、 Mm.275320、 Mm.256058、 Mm.24720、 Mm.287146、 Mm.191281、 Mm.81916、 Mm.20164、 Mm.14802、 Mm.196110、 Mm.281018、 Mm.331979、 Mm.193、 Mm.58507、 Mm.298199、 Mm.6228、 Mm.298251、 Mm.172、 Mm.39040、 Mm.252063、 Mm.289645、 Mm.7386、 Mm.272278、 Mm.9986、 Mm.379067、 Mm.400253、 Mm.22367、 Mm.3705、 Mm.284246、 Mm.389800、 Mm.241205、 Mm.127731、 Mm.293263、 Mm.19155、 Mm.29132、 Mm.17484、 Mm.316885、 Mm.18125、 Mm.28585、 Mm.29358、 Mm.338508、 Mm.2108、 Mm.306021とそのオーソログ。
次に、リストにある遺伝子のひとつ、望ましくは複数の遺伝子について、被測定サンプルでの発現量を測定して、それらの遺伝子の発現量を、あらかじめ定めた基準値と比較し、発現量の変化を調べる。
ここで、サンプルsの指標AIsは、n個の遺伝子gの測定値xs,gより、下記の数式を用いて求める。
この際、対数の底は統一する必要があるが、どの値でもかまわない。
もちろん、ベクトルの方向を分析者が指定できないため、主成分分析の結果は符号が逆になりうる。その際は、符号を逆転させて、老化が進行する方向を正にすればよい。また、指標として値を扱いやすくするために、共通の任意な定数を乗じてもよい。
従来、老化に関する実験の遺伝子データから、老化の指標となる遺伝子候補のリストを得るのは難しかった。これは、網羅的な遺伝子発現データは測定誤差を含み、また遺伝子発現は老化以外の条件でも変化するためである。すなわち、網羅的な遺伝子発現データから、どの遺伝子に着目すればいいかを見出すのは難しい課題であった。
そこで、単一の遺伝子の発現測定の結果は、かならずしも老化を正しく反映しない。たとえば、特開平10−123130号公報ではエラスターゼの活性だけを測定しているが、この活性のゆらぎはそのままデータに反映される。
これは、使用するプライマーによって、あるいはスクリーニングの条件によって、遺伝子群の一部の結果しか観測できないからである。
また一般的にこの種の方法は定量性を持たないため、老化以外の多くの要因で変化する遺伝子発現のなかから適切な遺伝子を選択するのは困難である。
たとえば、特開2007−259851号公報に見られるように、ただその発現変動が大きいことだけで遺伝子を選択すると、そうした特性を反映することができない。これは過誤の原因である。
これらの方法は、ところが、特開2008−178390号公報や、特表2005−524382号公報等に見られるように、遺伝子の選択に用いられることがある。しかしながら、その原理上の限界のゆえに、クラスタリングを用いた遺伝子群の選択はしばしば大きな過誤の原因となる。
多数の遺伝子発現の情報は、それだけでは理解しがたいからである。
このため、本発明の第2の実施の形態においては、複数の実験群にマイクロアレイ測定を行って遺伝子発現を調べ、それを主成分分析で精査し、主成分を得た。この主成分に関わり、他の因子に関わらないことを指標にして、老化に関与する遺伝子のリストを得た。このリストにある遺伝子の遺伝子発現を被験者で調べ、その値を合算処理することで、老化の指標にする。合算処理には、主成分分析から求められた係数を用いる。
これにより、発現量の揺らぎにロバストで、データを客観的に処理することができ、従来のクラスタリングよりも精度が高く、遺伝子発現を少数の指標として得ることができる。 よって、本発明の第2の実施の形態に係るリストは、老化に関する遺伝子発現を用いた指標を提供することができる。
また、皮膚の老化は他の生物、特に、他のほ乳類を含む高等動物において、マウスと同じように起きると考えられる。
老化はゲノムに支配された現象であり、弾力の喪失、光沢の低下、脱毛など、よく似通ったプロセスでおきるからである。
また、多くの遺伝子は、多くの生物種に共通して存在していて、それぞれ共通の働きを担っている。
こうした、別種の生物にある相同な遺伝子は、当該遺伝子のオーソログと呼ばれている。
当然、マウスで発見された遺伝子のオーソログは、たとえばヒトでも同じ働きをしている。マウスの老化段階で発現する遺伝子は、ヒトでもやはり老化段階で発現することが予想される。
オーソログは、第一に、アフィメトリクス社の提供する情報から探すことができる。たとえばMouse430_2.na30.ortholog.csvというファイルがインターネットを通じて公開・提供されている。
これは、この実験で使用したMouse430_2チップにある遺伝子のオーソログを、同社の別のチップのなかから探して作成されているファイルである。Probe Set IDを指定することで、どのチップのどの遺伝子がオーソログであるかを、そのチップのProbe Set IDで示している。
チップとProbe Set IDが指定されることで、同社が用意しているアノテーションファイルで、その遺伝子のUniGene IDを探すことができる。たとえば、Mouse430_2チップならばMouse430_2.na30.annot.csvというファイルが公開されている。
このIDを指定することで、NCBIなどの公的なデータベースを通じて、その遺伝子の塩基配列を知ることができる。
このような一連の作業は、当業者であれば容易に行うことができる。また探し出す生物種の対象はヒトには限定されず、アフィメトリクス社が提供する全ての生物種がその対象となり得る。
上述の例で説明したMouse430_2チップのコンテンツの遺伝子は、その塩基配列が公開されている。その塩基配列や、さらに翻訳したアミノ酸配列を用いて、公共のデータベースを、BLASTのようなローカルアラインメント・アルゴリズム等を用いて検索し、オーソログを見つけることができる。この際、着目する生物種のなかでスコアがもっとも高い、またはE値がもっとも低いこといった条件をもって、オーソログを発見することもできる。
これによって、アフィメトリクス社が提供しない生物種でも、オーソログを発見することもできる。一連の作業は当業者であれば容易に行うことができる。
加えて、着目する生物種のDNAライブラリーから、マウス遺伝子のプローブを用いて、遺伝子をクローニングすることもできる。
同様に、マウス遺伝子の配列を基に、プライマーを設計し、RT−PCR法等を用いて遺伝子を増幅してクローニングすることもできる。
また抗体を利用して、発現ライブラリーを用いてクローニングすることもできる。
一連の作業は、当業者であれば容易に行うことができる。
しかしながら、本実施形態のトランスクリプトーム用主成分分析方法は、マイクロアレイデータ以外の行列データを用いて、主成分分析を行うことが可能である。
たとえば、マイクロアレイ以外の、もっと簡便な方法で発現量を測定しても、リストを作成することが可能である。網羅性が不要であるためである。
この際に、コントロールとなるハウスキーピング遺伝子等の転写物を用いて標準化し、その転写物が基準値からどれほど違っているかを測定できる。
なお、本発明の第1又は第2の実施の形態において、遺伝子の「発現量」とは、その遺伝子からの転写物の量や、翻訳産物の量、翻訳産物の活性、その活性により産出された物質の量等を示す。
たとえば、mRNAの量の増減は、そのコードするタンパク質の量の増減と対応すると考えられる。すなわち、特異抗体を用いてタンパク質を検出すれば、さらに簡便に測定を行うことができる。これを、「発現量」の行列データとして得ることができる。このタンパク質の検出としては、それぞれのタンパク質の増減割合の対数値に係数を乗じて合算することで指標を得ることができる。
また、mRNAだけではなく、snRNA等の細胞内調整に関わるRNAの「発現量」を測定し、行列データとして用いることができる。
このスクリーニング系の構築については、着目した遺伝子の調節領域、つまりプロモーター配列やシス配列等にレポーター遺伝子を接続した遺伝子を作成し、活性測定が容易な指示遺伝子(コンストラクト)を作成することができる。このレポーター遺伝子は、CAT(chloramphenicol acetyltransferase)等の酵素活性を持つレポーター遺伝子や、ルシフェラーゼ等の発光などを呈する遺伝子を用いることができる。
選択された遺伝子を培養細胞に導入することで、レポーター遺伝子の活性を測定しながら容易にスクリーングが可能になる。
なお、本発明の第1又は第2の実施形態に係る主成分算出方法は、拡張された主成分分析方法として、トランスクリプトームの解析だけではなく、健康診断のような、測定項目が例えば病院間である程度異なるものの、測定項目が多いようなデータにも適用することができる。
たとえば、なんらかの疾病が健康診断のいずれかの項目で発見される可能性を調べたい時には、疾病群と対照群を設定し、それぞれの群の代表値を、平均を取る等により求める。この際、測定値はなるべくリニアになるような数値で表し、定性的なデータ等になるようにする。そして、データを項目ごとにセンタリングして、各項目の平均がゼロになるようにする。さらに、ある項目について、いくつかの病院で測定されていない場合には、その欠損値をゼロで置き換える。このようにして得た2群・多項目の行列から、軸を表す各ユニタリ行列、PCg1(項目の主成分)、及びPCs1を得ることができる。PCg1で大きな絶対値をもつ測定項目群は、その疾病をよく表す項目である。また、得たユニタリ行列Vpから、各個人のPCs1ないしsPCs1を得ることができる。
この結果、ある程度大きな集団からのランダムサンプルを用いて、それぞれの個人のPCs1乃至sPCs1の分布を調べれば、下記の実施例4に記載した計算方法を用いて閾値を計算することができる。
このとき主成分PCsの分布が実質的に正規分布であったり、あるいは閾値よりも絶対値の大きなPCsをもつ個人の割合が、その疾病の罹患率よりも明らかに小さかった等の場合には、その疾病は使用した健康診断の項目では評価できないことになる。また、逆であるなら、その疾病はその項目で評価できることになる。さらに、ある疾病にだけ着目する場合には、PC1gが大きな絶対値をもつ項目を、その測定の容易さやコストなども勘案しながら、実施する測定項目を取捨選択することができる。また、勿論PC1gは、その疾病の原因や治療法を研究する上でも重要な知見となる。
PCs1が閾値を超えた個人には、その疾病が疑われることになる。もし複数の疾病に注目するときは疾病群の数が増え、注目するべき主成分の数も増加することは言うまでもない。ただし、必ずしもそれは疾病と同じだけの数になるわけではなく、おそらく、似た症状をもつ疾病群は同一の主成分に影響するので、当該の主成分によって判断されることになる。
図9を参照して、本発明の第2の実施の形態に係るリストにある遺伝子から、10遺伝子を選んで、各サンプルの老化度を測定したケースについて説明する。
図9は、センタリングした標準化データから指標を得る方法を示す。
基準値は、これらデータの中から、遺伝子ごとに、幼齢のマウスの平均として求めた。 また係数は主成分PCg1に、指標を見やすくするための定数17を乗じたものを用いた。
得られた値を合算して指標を得た。各サンプルの値を棒グラフで示す。
以下、この実施例3の具体的な計算方法について、より詳しく説明する。
まず、実施例1と同様のNCBIのGEOデータベースにあるSeries GSM202666〜GSM202705までの40データをマイクロアレイの行列データとして取得した。
このデータを、株式会社スカイライト・バイオテック社のSuperNORMデータ標準化サービスを利用して、3パラメータ対数正規分布を用いるパラメトリック法でPMデータを標準化し、zスコアを求めた。
また標準化したPMデータのトリム平均から各遺伝子の発現レベルを求めた。この遺伝子の発現レベルは、「Konishi T (2008) Data Distribution of Short Oligonucleotide Expression Arrays and Its Application to the Construction of a Generalized Intellectual Framework. Stat Appl Genet Mol Biol 7: Article 25.」「 Konishi T. (2004) Three−parameter lognormal distribution ubiquitously found in cDNA microarray data and its application to parametric data treatment. BMC Bioinformatics, 5, 5.」に従って求めた。
図10を参照して、上述の標準化で算出されたパラメータについて説明する。各パラメータは、以下の通りである:
lower 信頼区間下限
upper 信頼区間上限
saturation 測定限界
gamma γ (バックグラウンド)
sigma σ (分布の幅)
mu μ (分布の中心)
なお、使用した対数の底は10である。
主成分分析は、データの中の全体の傾向を知るための方法でもあるので、データに含まれる個別のサンプルの個体差によるばらつきはノイズとして働く。
遺伝子のなかには不安定なものもあり、ある程度の数の繰り返し測定を行わない限り、遺伝子の発現量等の変化は明らかにならない。これは、発現量等が大きく変化していても同様である。
もちろん、同一サンプルから測定できるマイクロアレイの繰り返し回数には限りがあるので、例えば、チップコンテンツの半分程度の遺伝子で、十分な数の繰り返し測定がなされていないという可能性がある。
これらの遺伝子からの情報はノイズが大きいと考えられ、主成分分析の精度を低下させる可能性が考えられる。そこで、これらの遺伝子からの情報を除くことにした。
このため、十分な観測数があるかどうかを遺伝子ごとに判断するために、分散分析(2way ANOVA)を遺伝子ごとに行った。これは各遺伝子に対応するPMデータのzスコアを対応させながら、群間で有意に発現に違いがあるかどうかを検定する方法である。帰無仮説は「各群で発現量は一致する」とする。仮定する式は:
発現量の差 = PMセルの感度の差 + 群間差
で、閾値0.002の両側検定を行った。すなわち、群間差について計算されたP値が0.001以下の遺伝子を、十分な観測数があるとして選択した。この閾値の設定はマイクロアレイデータの検定としては普通に用いられるものである。
また多数の検定が行われることになるが、検定の多重性は考慮していない。遺伝子の安定性は個々に異なるので、各遺伝子の検定結果は個別に判断されるべきだからである。
この検定は、「Konishi T, Konishi F, Takasaki S, Inoue K, Nakayama K, Konagaya A(2008) Coincidence between Transcriptome Analyses on Different Microarray Platforms Using a Parametric Framework. PLoS ONE 3: e3555.」の方法に従って行った。
この分析にはPMデータを遺伝子ごとに(トリム平均によって)まとめたデータを用いた。具体的には、スカイライト・バイオテック社製のSuperNORMデータ標準化サービスで提供されるPIVOT出力ファイルにあるzスコアを用いた。
この際、上述の分散分析で帰無仮説が棄却されなかった遺伝子の情報を取り除くため、これらの遺伝子の値は全てゼロに置き換えた。
これにより、ノイズが主成分分析の結果に影響を与えないようにすることができる。また、特定の遺伝子を削除することで、行列の形が変わることを防ぐことができる。
また、全ての欠失したデータはゼロに置き換えた。この理由としては、上述したように、欠失したデータがあると主成分分析の計算ができないため、これを置き換える必要があるためである。この際、欠失したデータをゼロで置き換えるのは、いわゆるフェイル・セーフによる措置である。これは、上述のように、欠落したデータをゼロで置き換える限り、擬陽性(false positive)の原因にならないためである。
いずれかのコントロール実験区の値で減ずるならば、原点はその実験区に重なる。また遺伝子の発現レベルの差は生体の機能と相関するため、分散の統一は行っていない。
上述の第1又は第2の実施の形態で説明したように、全データから軸を決定した場合や、群に偏りがあるばあいのシミュレーションでは、Xの内容がそれぞれに異なっている。
遺伝子ごとの主成分であるPCgはXtとUtから求めた。
また、サンプルの主成分であるPCsは全てのデータXとVtから求めた。このため、群の代表値ではなく、各サンプルの値が算出されている。これはサンプル間にどの程度の個体差があるのかを観察できるようにするための措置である。
次に、図11〜12を参照して、マイクロアレイデータ主成分分析の結果から遺伝子を選択する方法について説明する。
まず、上述の実施例1と同様のNCBIのGEOデータベースにあるSeries GSM202666〜GSM202705までの40データをマイクロアレイの行列データとして取得し、上述の第1の実施の形態に係るマイクロアレイデータ主成分分析方法を用いて分析を行った。その後、遺伝子を選択した。
もし、これらの要素に生物学的な意味が乏しければ、要素間には明確な相関がなく、独立していることになる。
そして、各要素はサンプル間の差異から得られるものなので、その分布様式は同一となると過程できる。
さらに、要素がむしろランダム数でシミュレートできるような性質のものであるのなら、中心極限定理から、その合算の結果は正規分布することが予測される。
図12は、取得したsPC1gの分布と、理論的な正規分布とを比較したQQプロットの例である。QQプロットは、ある確率pを与えたときに、2つの確率点(quantile)となるq1とq2とを、それぞれ縦軸、横軸にとってプロットした確率プロットである(「Gnanadesikan, R.; Wilk, M.B. (1968), "Probability plotting methods for the analysis of data", Biometrika 55 (1): 1〜17」を参照)。このQQプロットでは、ソートしたsPC1gの実データと正規分布の理論値を一次近似した。
ノイズの影響を避けて直線部分だけからパラメータを求めるために、ロバストなチューキーの方法を用いた(「Tukey, J. W. (1977). Exploratory Data Analysis, Reading Massachusetts: Addison−Wesley.」を参照)。図12の実線は、近似直線式を示す(y=0.09x)。
図12のQQプロットによると、分布中心は、正規分布に沿った分布をしていることは、明らかである。ただし、分布の両端はより絶対値の大きな値を示す傾向が顕著で、グラフの上下方向にプロットが曲がった。これは、ランダムでない要素間の相関があることを示唆している。
具体的には、近似直線と実データは、実データの値として±0.17くらいから乖離しはじめる。この程度の値から、強い意味をもつ遺伝子群が混じってくると考えることができる。逆に、全てがランダムだったと仮定すると、実データはこの近似直線上にのっていたはずである。
あるいは、0.001/2の確率で、分布中心で観測されたようなランダムな効果は、±3.3というzスコアを記録しうることになる。これは近似直線から、sPC1gの値として±0.3に相当する。これを、図12の横の波線として示す。
そこで、sPC1gの値がこれらを超える遺伝子を選択した。この選択した中の遺伝子に期待される擬陽性の確率は、0.001よりも小さくなる。
同様の計算を実施例2トキシコロジーの分野のデータからの分析結果であるsPCg2にも行い、0.3という域値を得た。所定の閾値により、トキシコロジーに関連する遺伝子を得ることも可能であった。
100 制御部
110 記憶部
130 入力部
140 表示部
150 ネットワーク入出力部
210 トレーニングデータ作成部
220 特異ベクトル演算部
230 主成分演算部
240 主成分スケーリング部
250 データベース
251 マイクロアレイデータ
252 トレーニングデータ
253 軸データ
254 主成分データ
Claims (32)
- 解析装置を用いてデータ行列から主成分を算出する主成分算出方法であって、
前記解析装置は、主成分を、その主成分の算出に用いたサンプル数又は測定項目数の平方根で除することでスケーリングし、
前記解析装置は、スケーリングした前記主成分から、所定の閾値でサンプルを選択する
ことを特徴とする主成分算出方法。 - 請求項1に記載の主成分算出方法によりトランスクリプトームを解析するトランスクリプトーム解析方法であって、
前記トランスクリプトームに係る発現量の変化の前記データ行列から前記主成分を計算し、
前記主成分を、前記主成分の算出に用いた前記データ行列の前記サンプル数の平方根、又は該主成分の算出に用いた前記データ行列の前記測定項目数の平方根で除することでスケーリングし、
スケーリングした前記主成分から、前記所定の閾値で前記発現量が変化したことを判定して選択する
ことを特徴とするトランスクリプトーム解析方法。 - 前記発現量の変化は、RNAの量、翻訳されたタンパク質の量、翻訳されたタンパク質の活性、及びタンパク質が代謝して産生された代謝産物の量のいずれかを含む
ことを特徴とする請求項2に記載のトランスクリプトーム解析方法。 - 前記所定の閾値は、スケーリングした主成分を正規分布と比較して、確率0.001の両側の擬陽性を許容する閾値である
ことを特徴とする請求項2又は3に記載のトランスクリプトーム解析方法。 - 二つ以上のスケーリングした前記主成分を比較することで、前記発現量が変化したことを判定する
ことを特徴とする請求項2乃至4のいずれか1項に記載のトランスクリプトーム解析方法。 - 特異ベクトルで表される前記主成分の軸を求めるために、トレーニングデータを用いる
ことを特徴とする請求項2乃至5のいずれか1項に記載のトランスクリプトーム解析方法。 - 前記トレーニングデータは、前記データ行列の測定項目を選択して作成し、
前記選択されなかった項目のデータをゼロで置き換えて、オリジナルの行列の大きさを保つ
ことを特徴とする請求項2乃至6のいずれか1項に記載のトランスクリプトーム解析方法。 - 前記主成分を算出する際に、欠失したデータをゼロで置き換える
ことを特徴とする請求項2乃至7のいずれか1項に記載のトランスクリプトーム解析方法。 - 前記トレーニングデータから求めた軸を前記データ行列に適用し、前記主成分を計算する
ことを特徴とする請求項2乃至8のいずれか1項に記載のトランスクリプトーム解析方法。 - 前記トレーニングデータから求めた軸を、データ評価のための重みとして使用する
ことを特徴とする請求項2乃至9のいずれか1項に記載のトランスクリプトーム解析方法。 - トレーニングデータから軸を求める際に、データ平均以外の選択されたデータを基準として使用する
ことを特徴とする請求項2乃至10のいずれか1項に記載のトランスクリプトーム解析方法。 - 前記主成分を計算する際に、データ平均以外の選択されたデータを基準として使用する
ことを特徴とする請求項2乃至11のいずれか1項に記載のトランスクリプトーム解析方法。 - 請求項2乃至16のいずれか1項に記載のトランスクリプトーム解析方法により選択された
ことを特徴とする遺伝子。 - 前記発現量の変化は、老化による皮膚の細胞の遺伝子発現の変化である
ことを特徴とする請求項17に記載の遺伝子。 - 前記選択された遺伝子は、アフィメトリクス社の遺伝子ID番号において、
1439200_x_at、 1439625_at、 1453511_at、 1429835_at、 1457967_at、 1450455_s_at、 1416239_at、 1449475_at、 1441991_at、 1421001_a_at、 1422825_at、 1451382_at、 1453009_at、 1416776_at、 1435792_at、 1418989_at、 1437431_at、 1431171_at、 1450475_at、 1448470_at、 1451424_at、 1423271_at、 1448397_at、 1442089_at、 1448303_at、 1420538_at、 1448932_at、 1430132_at、 1421589_at、 1427179_at、 1420409_at、 1436557_at、 1427378_at、 1460185_at、 1431165_at、 1450536_s_at、 1426203_at、 1421691_at、 1429957_at、 1427366_at、 1431650_at、 1450540_x_at、 1422209_s_at、 1436055_at、 1450774_at、 1438239_at、 1430635_at、 1449559_at、 1435184_at、 1419323_at、 1419767_at、 1422760_at、 1449170_at、 1420467_at、 1422240_s_at、 1448021_at、 1427866_x_at、 1433924_at、 1460049_s_at、 1415927_at、 1415832_at、 1436119_at、 1434449_at、 1419028_at、 1448421_s_at、 1424266_s_at、 1450871_a_at、 1431856_a_at、 1424528_at、 1418796_at、 1427168_a_at、 1427884_at、 1422437_at、 1426251_at、 1452968_at、 1450839_at、 1441928_x_at、 1420854_at、 1434202_a_at、 1416803_at、 1438966_x_at、 1429403_x_at、 1436115_at、 1417836_at、 1448194_a_at、 1417714_x_at、 1422610_s_at、 1437665_at、 1451047_at、 1416640_at、 1418538_at、 1418063_at、 1435851_at、 1448228_at、 1417275_at、 1454651_x_at、 1426758_s_at、 1417359_at、 1424010_at、 1423253_at、 1419487_at、 1435382_at、 1450079_at、 1417149_at、 1428896_at、 1417355_at、 1456315_a_at、 1424556_at、 1427580_a_at、 1448201_at、 1420884_at、 1436853_a_at、 1449206_at、 1435585_at、 1422973_a_at、 1416713_at、 1451801_at、 1454608_x_at、 1419063_at
からなる群の1種であるチップコンテンツで測定される遺伝子、及び該遺伝子のオーソログから選択する
ことを特徴とする請求項18に記載の遺伝子。 - 前記選択された遺伝子は、UniGene ID番号において、
Mm.464886、 Mm.454526、 Mm.158766、 Mm.333661、 Mm.86331、 Mm.27447、 Mm.3217、 Mm.273271、 Mm.425491、 Mm.232523、 Mm.75498、 Mm.35083、 Mm.339332、 Mm.9114、 Mm.362644、 Mm.230249、 Mm.320317、 Mm.171357、 Mm.5194、 Mm.423078、 Mm.99989、 Mm.390683、 Mm.25652、 Mm.340791、 Mm.302602、 Mm.49902、 Mm.422799、 Mm.180256、 Mm.439673、 Mm.439738、 Mm.37952、 Mm.291498、 Mm.106868、 、 Mm.441672、 Mm.34372、 Mm.196689、 Mm.46109、 Mm.30967、 Mm.158281、 Mm.416844、 Mm.389993、 Mm.422800、 Mm.290677、 Mm.246697、 Mm.34441、 Mm.138437、 Mm.1763、 Mm.25259、 Mm.20854、 Mm.20851、 Mm.250358、 Mm.85253、 Mm.34201、 Mm.10693、 Mm.440167、 Mm.467495、 Mm.392176、 Mm.50109、 Mm.686、 Mm.2679、 Mm.263138、 Mm.250786、 Mm.297444、 Mm.383216、 Mm.29110、 Mm.4606、 Mm.34776、 Mm.45127、 Mm.20428、 Mm.297859、 Mm.249555、 Mm.10299、 Mm.108557、 Mm.41556、 Mm.407415、 Mm.271973、 Mm.275320、 Mm.256058、 Mm.24720、 Mm.287146、 Mm.191281、 Mm.81916、 Mm.20164、 Mm.14802、 Mm.196110、 Mm.281018、 Mm.331979、 Mm.193、 Mm.58507、 Mm.298199、 Mm.6228、 Mm.298251、 Mm.172、 Mm.39040、 Mm.252063、 Mm.289645、 Mm.7386、 Mm.272278、 Mm.9986、 Mm.379067、 Mm.400253、 Mm.22367、 Mm.3705、 Mm.284246、 Mm.389800、 Mm.241205、 Mm.127731、 Mm.293263、 Mm.19155、 Mm.29132、 Mm.17484、 Mm.316885、 Mm.18125、 Mm.28585、 Mm.29358、 Mm.338508、 Mm.2108、 Mm.306021
からなる群の1種である遺伝子、及び該遺伝子のオーソログから選択する
ことを特徴とする請求項18に記載の遺伝子。 - 請求項18乃至20のいずれか1項に記載の遺伝子のいずれかの発現量を、老化の指標として用いる
ことを特徴とする老化判定方法。 - 老化によって遺伝子発現が変化することが明らかになった、前記遺伝子又は前記遺伝子の調節領域に、レポーター遺伝子を接続して作成した指示遺伝子を用い、
翻訳されたタンパク質の活性、及び/又はタンパク質が代謝して産生された代謝産物の量を、前記老化の指標として判定する
ことを特徴とする請求項21に記載の老化判定方法。 - マウス皮膚やマウス皮膚由来の培養細胞の老化を判定する
ことを特徴とする請求項21又は22に記載の老化判定方法。 - 前記オーソログを、マウス以外の生物種の老化の指標に用いる
ことを特徴とする請求項21乃至23のいずれか1項に記載の老化判定方法。 - トランスクリプトームに係る発現量の変化のデータ行列から、主成分分析または特異値分解によって求めた係数を用いる
ことを特徴とする請求項21乃至24のいずれか1項に記載の老化判定方法。 - 老化の指標の作成のために、トランスクリプトームに係る発現量の変化のデータ行列の主成分を用いる
ことを特徴とする請求項21乃至25のいずれか1項に記載の老化判定方法。 - 老化の指標の作成のために、トランスクリプトームに係る発現量の変化のデータ行列を分解して得たユニタリ行列を用いる
ことを特徴とする請求項21乃至26のいずれか1項に記載の老化判定方法。 - 請求項1に記載の主成分算出方法により疾病群と対照群とを比較する
ことを特徴とする疾病判定方法。 - 請求項1に記載の主成分算出方法を実行する
ことを特徴とするコンピュータプログラム。 - 請求項30に記載のコンピュータプログラムを記憶した記憶媒体。
- データ行列から主成分を計算する主成分演算部と、
前記主成分を、前記主成分の算出に用いた前記データ行列のサンプル数の平方根、又は該主成分の算出に用いた前記データ行列の測定項目数の平方根で除することでスケーリングする主成分スケーリング部とを備え、
スケーリングした前記主成分から、所定の閾値でサンプルを選択する
ことを特徴とする解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010214256A JP5854346B2 (ja) | 2010-07-21 | 2010-09-24 | トランスクリプトーム解析方法、疾病判定方法、コンピュータプログラム、記憶媒体、及び解析装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010163920 | 2010-07-21 | ||
JP2010163920 | 2010-07-21 | ||
JP2010214256A JP5854346B2 (ja) | 2010-07-21 | 2010-09-24 | トランスクリプトーム解析方法、疾病判定方法、コンピュータプログラム、記憶媒体、及び解析装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014237923A Division JP2015043782A (ja) | 2010-07-21 | 2014-11-25 | 遺伝子及び老化判定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012039994A true JP2012039994A (ja) | 2012-03-01 |
JP5854346B2 JP5854346B2 (ja) | 2016-02-09 |
Family
ID=45897021
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010214256A Expired - Fee Related JP5854346B2 (ja) | 2010-07-21 | 2010-09-24 | トランスクリプトーム解析方法、疾病判定方法、コンピュータプログラム、記憶媒体、及び解析装置 |
JP2014237923A Pending JP2015043782A (ja) | 2010-07-21 | 2014-11-25 | 遺伝子及び老化判定方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014237923A Pending JP2015043782A (ja) | 2010-07-21 | 2014-11-25 | 遺伝子及び老化判定方法 |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP5854346B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017091277A (ja) * | 2015-11-11 | 2017-05-25 | チトセ バイオ エボリューション ピーティーイー リミテッド | 細胞を分類可能な遺伝子の選出方法 |
JP2018530815A (ja) * | 2015-08-17 | 2018-10-18 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 生体データにおけるパターン認識のマルチレベルアーキテクチャ |
CN110033823A (zh) * | 2018-01-12 | 2019-07-19 | 丰田自动车株式会社 | 转录组解析装置及解析方法 |
US10379052B2 (en) | 2017-12-06 | 2019-08-13 | The University Of Tokyo | Transcriptome estimation device and transcriptome estimation method |
JP2019154273A (ja) * | 2018-03-09 | 2019-09-19 | 国立大学法人 東京大学 | 生物応答の解析方法、解析プログラム、及び解析装置 |
CN117150249A (zh) * | 2023-07-31 | 2023-12-01 | 广州雅纯化妆品制造有限公司 | 一种化妆品的功效评估方法、装置、设备及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512511B (zh) * | 2015-11-24 | 2018-07-06 | 南开大学 | 一种对异质网络中的节点进行聚类的方法 |
JP6979280B2 (ja) * | 2017-04-11 | 2021-12-08 | 株式会社日本バイオデータ | トランスクリプトームデータの解析方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000200098A (ja) * | 1999-01-07 | 2000-07-18 | Sony Corp | 学習装置および学習方法、並びに認識装置および認識方法 |
JP2002297567A (ja) * | 2001-03-29 | 2002-10-11 | Toyota Central Res & Dev Lab Inc | 確率変数の代表値の関数のばらつきを推定する方法、コンピュータ・プログラムおよびそれを記録した記録媒体 |
JP2005323573A (ja) * | 2004-05-17 | 2005-11-24 | Sumitomo Pharmaceut Co Ltd | 遺伝子発現データ解析方法および、疾患マーカー遺伝子の選抜法とその利用 |
JP2008536094A (ja) * | 2005-02-04 | 2008-09-04 | ロゼッタ インファーマティクス エルエルシー | 乳癌患者における化学療法反応性を予測する方法 |
JP2009512097A (ja) * | 2005-10-18 | 2009-03-19 | ハネウェル・インターナショナル・インコーポレーテッド | 早期イベント検出のためのシステム、方法、およびコンピュータプログラム |
JP2009529329A (ja) * | 2006-03-09 | 2009-08-20 | トラスティーズ オブ ボストン ユニバーシティ | 鼻腔上皮細胞の遺伝子発現プロファイルを用いた、肺疾患のための診断および予後診断の方法 |
JP2010216851A (ja) * | 2009-03-13 | 2010-09-30 | Olympus Corp | 物質検出システム |
-
2010
- 2010-09-24 JP JP2010214256A patent/JP5854346B2/ja not_active Expired - Fee Related
-
2014
- 2014-11-25 JP JP2014237923A patent/JP2015043782A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000200098A (ja) * | 1999-01-07 | 2000-07-18 | Sony Corp | 学習装置および学習方法、並びに認識装置および認識方法 |
JP2002297567A (ja) * | 2001-03-29 | 2002-10-11 | Toyota Central Res & Dev Lab Inc | 確率変数の代表値の関数のばらつきを推定する方法、コンピュータ・プログラムおよびそれを記録した記録媒体 |
JP2005323573A (ja) * | 2004-05-17 | 2005-11-24 | Sumitomo Pharmaceut Co Ltd | 遺伝子発現データ解析方法および、疾患マーカー遺伝子の選抜法とその利用 |
JP2008536094A (ja) * | 2005-02-04 | 2008-09-04 | ロゼッタ インファーマティクス エルエルシー | 乳癌患者における化学療法反応性を予測する方法 |
JP2009512097A (ja) * | 2005-10-18 | 2009-03-19 | ハネウェル・インターナショナル・インコーポレーテッド | 早期イベント検出のためのシステム、方法、およびコンピュータプログラム |
JP2009529329A (ja) * | 2006-03-09 | 2009-08-20 | トラスティーズ オブ ボストン ユニバーシティ | 鼻腔上皮細胞の遺伝子発現プロファイルを用いた、肺疾患のための診断および予後診断の方法 |
JP2010216851A (ja) * | 2009-03-13 | 2010-09-30 | Olympus Corp | 物質検出システム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018530815A (ja) * | 2015-08-17 | 2018-10-18 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 生体データにおけるパターン認識のマルチレベルアーキテクチャ |
US11710540B2 (en) | 2015-08-17 | 2023-07-25 | Koninklijke Philips N.V. | Multi-level architecture of pattern recognition in biological data |
JP2017091277A (ja) * | 2015-11-11 | 2017-05-25 | チトセ バイオ エボリューション ピーティーイー リミテッド | 細胞を分類可能な遺伝子の選出方法 |
US10379052B2 (en) | 2017-12-06 | 2019-08-13 | The University Of Tokyo | Transcriptome estimation device and transcriptome estimation method |
CN110033823A (zh) * | 2018-01-12 | 2019-07-19 | 丰田自动车株式会社 | 转录组解析装置及解析方法 |
JP2019154273A (ja) * | 2018-03-09 | 2019-09-19 | 国立大学法人 東京大学 | 生物応答の解析方法、解析プログラム、及び解析装置 |
JP7061768B2 (ja) | 2018-03-09 | 2022-05-02 | 国立大学法人 東京大学 | 生物応答の解析方法、解析プログラム、及び解析装置 |
CN117150249A (zh) * | 2023-07-31 | 2023-12-01 | 广州雅纯化妆品制造有限公司 | 一种化妆品的功效评估方法、装置、设备及存储介质 |
CN117150249B (zh) * | 2023-07-31 | 2024-04-16 | 广州雅纯化妆品制造有限公司 | 一种化妆品的功效评估方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5854346B2 (ja) | 2016-02-09 |
JP2015043782A (ja) | 2015-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5854346B2 (ja) | トランスクリプトーム解析方法、疾病判定方法、コンピュータプログラム、記憶媒体、及び解析装置 | |
Cole et al. | Performance assessment and selection of normalization procedures for single-cell RNA-seq | |
Chung et al. | Jaccard/Tanimoto similarity test and estimation methods for biological presence-absence data | |
Wu et al. | PROPER: comprehensive power evaluation for differential expression using RNA-seq | |
MX2008013978A (es) | Metodos y aparatos para identificar el estado de enfermedades utilizando biomarcadores. | |
Dunkler et al. | Statistical analysis principles for Omics data | |
CA2877436C (en) | Systems and methods for generating biomarker signatures | |
US20200126637A1 (en) | Methods for identifying agents with desired biological activity | |
Rahnenführer et al. | Statistical analysis of high-dimensional biomedical data: a gentle introduction to analytical goals, common approaches and challenges | |
Altman | Replication, variation and normalisation in microarray experiments | |
Waldron et al. | Meta-analysis in gene expression studies | |
Choi et al. | Analytical performance of Envisia: a genomic classifier for usual interstitial pneumonia | |
Cohen Freue et al. | MDQC: a new quality assessment method for microarrays based on quality control reports | |
Raddatz et al. | Microarray-based gene expression analysis for veterinary pathologists: A review | |
Afzal et al. | Revealing genetic links of Type 2 diabetes that lead to the development of Alzheimer’s disease | |
KR101067352B1 (ko) | 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체 | |
WO2014050160A1 (ja) | 動的ネットワークバイオマーカーの検出装置、検出方法及び検出プログラム | |
Lee et al. | Detection of correlated hidden factors from single cell transcriptomes using Iteratively Adjusted-SVA (IA-SVA) | |
JP6198161B2 (ja) | 動的ネットワークバイオマーカーの検出装置、検出方法及び検出プログラム | |
JP2020064642A (ja) | 検出装置、記録媒体、検出方法及び検出プログラム | |
Koch et al. | Accessing cancer metabolic pathways by the use of microarray technology | |
Gubler | High-throughput screening data analysis | |
Riddell et al. | An adaptive clinical trials procedure for a sensitive subgroup examined in the multiple sclerosis context | |
Pine et al. | Use of diagnostic accuracy as a metric for evaluating laboratory proficiency with microarray assays using mixed-tissue RNA reference samples | |
Farooqi et al. | A hybrid method for differentially expressed genes identification and ranking from RNA-Seq data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130806 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140924 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150414 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150604 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5854346 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |