多くの生物の機能は転写や翻訳の調節を介して様々な遺伝子の発現を変化させることによって達成され、疾患の発症やその進行、疾患治療薬の投与などの攪乱によって遺伝子の発現状態が敏感に変化する。そこで、治療薬の候補となりうる極めて多くの化学物質を用いて生物の細胞を刺激することにより得られた遺伝子の発現状態の変化をマイクロアレイにより測定した結果を収集したデータベースが整備され、特定の疾患によりもたらされた遺伝子発現状態の変化と同様の変化或いは反対の変化を与える化学物質の検索を介して上記疾患の新規な治療薬の候補を発見するために利用されている。このようなデータベースとして、CMap(Connectivity Map)(非特許文献1;Science 2006;313(5795):1929-1935)やLINCS(Library of Integrated Netwark-based Cellular Signature)(非特許文献2;http://www.lincsproject.org/)などがある。例えば、非特許文献3(Cancer Sci 2013;104:1017-1026)には、ヒト前立腺癌の治療薬であるドセタキセルに応答しない去勢抵抗性前立腺癌の治療のための候補薬剤を得ることを目的としてCMapを利用した検索を実施し、検索の結果得られたリバビリンがドセタキセルに応答する前立腺癌に変化させたことが報告されている。
非特許文献3のように特定の目的をもって非特許文献1や非特許文献2のようなデータベースを使用するためには、研究者が検索のために予め遺伝子発現シグネチャを定義しなければならず、定義のためには一般に特定の処理を施した細胞と対照細胞との間に2倍以上の発現差がある遺伝子が指標として選択される。しかし、発現差が2倍未満である指標であっても重要な生物学的意味を有する場合があるため、データベースに包含されている指標の全てが解析のために使用されるのが好ましい。また、疾患の発症やその進行、化学物質の投与などの攪乱を受けた生物が示す生物応答の変化は、遺伝子の変化に止まらず、タンパク質や代謝物の種類や量、さらには生物の活動状態や成長状態などの高次の応答も変化するため、これらの指標も使用可能な解析方法が好ましい。そこで、予めのシグネチャの定義を要しない方法として、収集された多数の化学物質のいずれかによる刺激を受けた生物が示す生物応答のデータを基にして、生物応答の類似性に基づき化学物質を複数の群にクラスター化する技術が提案されている。
例えば、特許文献1(特表2007-513606号公報)には、微生物が周囲環境から受けた外部刺激、例えば化学物質による刺激、に起因する微生物の生化学的組成の変化が刺激の性質に特異的であることの発見から導かれた、化学化合物(化学物質)のための分類スキームを作る方法であって、有機体を多数の個々の化学化合物に1世代時間未満の期間暴露することによって決定される有機体の生化学的応答プロファイルを類似性に従いクラスター化することを含む方法(この文献の図1参照)、及び、化学化合物を分類する方法であって、上記分類スキームを用意するステップと、分類されるべき化学化合物に有機体を曝露して生化学的応答プロファイルを決定するステップと、上記分類スキームにおいて上記生化学的応答プロファイルのクラスター化された位置を決定するステップとを含む方法(この文献の図2参照)が提案されている。また、類似性に従いクラスター化するために主成分分析が好適であることも開示されている。
特許文献1では、植物、動物(ヒトを含む)、及び微生物を含む何らかの有機体を対象とすることができ、生化学的応答プロファイルは有機体の刺激前の生化学的組成から刺激後の生化学的組成を差し引き一般的試験影響について修正することにより生成され、上記生化学的組成は、ポリヌクレオチド、例えば核酸、(ポリ)ペプチド又はタンパク質、多糖類、脂質、リポ多糖類及び/又は他の細胞の高分子や、代謝中間物質、例えばショ糖、有機酸、アルコール、脂肪酸、アミノ酸、ヌクレオチドなどの多くの生体分子の測定により決定されると説明されている。実施例では、シュードモナス・プチダ(Pseudomonas putida)をエリスロマイシン、テトラサイクリン、コリスチン及び硫酸ポリミキシンBのいずれかで刺激した試料及び対照試料のRNAの発現がマイクロアレイによって分析され、分析結果から得られた生化学的応答プロファイルから、エリスロマイシン及びテトラサイクリンから成るタンパク質合成作用を有する化学物質群と、コリスチン及び硫酸ポリミキシンBから成る膜完全性作用を有する化学物質群とに分類された結果が報告されている(この文献の図4参照)。
しかし、疾患の発症やその進行、化学物質の投与などの攪乱を受けた生物が生命現象として示す生物応答、例えば種々の遺伝子の発現量の増減は、単一の反応様式(生理作用)に起因することもあるが、複数の独立した反応様式が関与した結果であることもある。また、異なる反応様式から類似した生物応答が発現することもあり、複数の独立した反応様式が関与した生物応答が新たな反応様式に起因するように見えることもある。したがって、特許文献1に開示されたような生物応答の類似性に依存した分類だけでは足りず、多種多様な攪乱を受けた生物が示した複数の反応様式が関与した生物応答を個々の独立した反応様式に起因した応答に分離した上で各攪乱の各反応様式における応答強度を算出することができれば、例えば、特定の疾患において特異的に発現する反応様式を発見することができ、また既存の化学物質が示す認識されていなかった反応様式を発見することができ、さらには新規に合成された化学物質が示す反応様式や応答強度を知ることができ、目的に応じて緻密に設計された疾患の治療が可能になる。
そこで、本発明の目的は、攪乱を受けた生物試料が示す生物応答の解析方法であって、生物応答のスペクトル分解方法ということもできる、多種多様な攪乱のいずれかを受けた生物が示した複数の反応様式が関与した生物応答を個々の独立した反応様式に起因した応答に分離した上で、上記生物応答を与えた攪乱の各反応様式における応答強度を算出することが可能な解析方法を提供することであり、また、この方法を実施するための解析プログラム及び解析装置を提供することである。
上記課題を解決する本発明の方法は、攪乱を受けた生物試料が示す生物応答のコンピュータによる解析方法であって、上記コンピュータが、
a)異なる種類の攪乱を受けた少なくとも2種の被験生物試料及び上記攪乱を受けていない対照生物試料についての同一の検出法を用いて測定された少なくとも2種の生物応答指標の発現値に基づき得られた、各生物応答指標についての、各被験生物試料における発現値の対照生物試料における発現値からの変化量に対応する値を、基礎データとして、該基礎データを与えた攪乱と関連づけて読み込むステップ、
b)上記a)ステップにおいて読み込まれた基礎データのそれぞれについて、該基礎データと-1との積を仮想データとして算出するステップ、
c)上記a)ステップにおいて読み込まれた基礎データと上記b)ステップにおいて算出された仮想データの全てを結合して、データ全体の重心が0となるデータ群を得るステップ、
d)上記c)ステップにおいて得られたデータ群について主成分分析を行い、得られた主成分からノイズ成分を廃棄し、残余の主成分について、互いに独立した反応様式に対応する主成分固有ベクトルから構成された反応様式行列を得るステップ、
及び、
e)上記d)ステップにおいて得られた反応様式行列に含まれる各主成分固有ベクトルと上記a)ステップにおいて読み込まれた各攪乱に関連付けられた基礎データとから、各攪乱の各反応様式における応答強度に対応する主成分スコアから構成された応答強度行列を得るステップ
を実行することを特徴とする。
本発明において、「生物」は、動物、植物及び微生物のいずれであっても良く、「生物試料」は、生物の全部であっても良く、生物の一部の器官、組織又は細胞であっても良い。「攪乱」とは、上記生物試料の状態を変化させる要因を意味し、生物が発症した疾患の種類や発症からの経過時間、同時に発症している疾患の種類やその数、生物に投与される化学物質の種類やその濃度及び投与時間、併用投与される化学物質の種類やその数、生物の成長や老化、生物の周囲環境の変化やその持続時間、遺伝子操作などが例示される。なお、「化学物質」とは1以上の元素から成る物質を意味する。そして、生物試料が受ける攪乱の内容は、一般に、単独で生物試料の状態を変化させうる要素と、他の要素と組み合わせられることにより生物試料の状態を変化させうる要素と、で規定される。例えば、「化学物質Aを濃度Bで用いて刺激する」という内容の攪乱では、化学物質Aは前者に当たり、濃度Bは後者に当たる。本発明では、前者を攪乱の独立要素といい、後者を攪乱の従属要素という。異なる種類の攪乱は、一般的には独立要素に関して異なっているが、独立要素が同一であっても従属要素の相違により異なる反応様式が発現することがあるため、従属要素に関して異なっていても良い。また、本発明において、「生物応答」とは、上記生物試料が示す生命活動として把握される現象を意味し、本発明では生物応答の状態が生物応答指標の発現値によって把握される。生物試料が示す生物応答は、単一の反応様式に起因する応答であることもあり、2種以上の独立した反応様式が関与した複合的な応答であることもある。また、本発明では、異なる種類の攪乱を受けた少なくとも2種の被験生物試料と対照生物試料とが解析のために使用される。攪乱の種類と被験生物試料とは対応しており、異なる種類の攪乱から異なる種類の被験生物試料が導かれる。攪乱の種類、したがってまた被験生物試料の種類の数は、2以上であれば制限がない。被験生物試料と対照生物試料とは、攪乱を受ける前後の試料であっても良く、同一の条件で採取された生物試料を複数の群に分割し、一つの群を対照生物試料とし、残余の群に所定の攪乱を受けさせることによって被験生物試料を得ても良い。
また、本発明では、生物応答指標についての発現値を同一の検出法を用いて測定した結果が解析のために使用される。「生物応答指標」は、上記生物試料の生命活動を反映した指標であれば特に制限がなく、例として、上記生物試料が発現した様々な遺伝子、様々なタンパク質、様々な代謝物、上記生物試料の活動状態、増殖状態、成長状態が挙げられる。本発明では、少なくとも2種の生物応答指標、例えば、少なくとも2種の遺伝子、少なくとも2種のタンパク質、が解析のために使用される。生物応答指標の種類の数は、2以上であれば制限がない。但し、本発明では、被験生物試料における発現値と対照生物試料における発現値とが対比されるのであるから、生物応答指標は定量することができる指標でなければならない。定量のための測定方法としては、目的の生物応答指標の発現値を測定可能な方法として知られている方法を特に限定なく使用することができる。また、「発現値」は、上記生物応答指標の発現量であっても良く、発現量に比例する値、例えば二次元電気泳動画像のスポットの強度、であっても良い。但し、本発明の解析方法のために用いる発現値は、同一の検出法により測定されなければならない。例えば、DNAマイクロアレイによる測定結果と二次元電気泳動による測定結果とを1回の本発明の解析方法の実施において同時に使用することはできない。ただし、同一の検出法による測定であれば、各被験生物試料における発現値と対照生物試料における発現値とが同時に測定されている必要はない。
本発明の解析方法では、各生物応答指標についての、各被験生物試料における発現値の対照生物試料における発現値からの変化量に対応する値が基礎データとして使用される。各生物応答指標についての基礎データは、各被験生物試料における発現値の対照生物試料における発現値からの変化量を反映しているデータであれば特に限定がなく、例えば、各被験生物試料における発現値から対照生物試料における発現値を減算した値、各被験生物試料における発現値の対数値から対照生物試料における発現値の対数値を減算した値、CMapやLINCSにおいて使用されているmoderated Z-score(Cell 171,1437-1452.e17 (2017)参照)、及び、一般に使用されているrobust Z-score(例えばhttp://dx.doi.org/10.5772/52508参照)を本発明において基礎データとして使用することができる。さらには、これらのデータに対して規格化処理を施すことによって得られた規格化値も、各被験生物試料における発現値の対照生物試料における発現値からの変化量を反映しているため、本発明において基礎データとして使用することもできる。分析に用いるデータを得るための規格化処理は、従来の一般的な主成分分析において慣用的に行われているが、本発明においてもこの慣用的な処理を適用した後のデータを基礎データとすることができる。
収集された多くのデータの全体から何らかの知識を得るためには、特許文献1においても採用されている、高次元データ(生物応答指標の数と同じ次元のデータ)の持つ情報をできるだけ損なわずに低次元空間情報に縮約する主成分分析が有効である。図1の上図は、上記a)ステップにおいて読み込まれた、生物応答指標の識別番号i(i=1,2,・・・)、攪乱の識別番号j(j=1,2,・・・)についての基礎データFD
ijの全てを用いて主成分分析を行ったときの、生物応答指標の数Xと同じ次元の空間のうちの2次元を示した図である。この図において、各基礎データの位置は、
で表されるが、データ全体の重心の位置が収集されたデータによって変化し、原点からデータ全体の重心へのベクトル、すなわち、基礎データのデータ全体の重心の位置と対照の位置との距離が収集されたデータによって変化するため、このような変化する値に生物学的な意味を付帯させることができず、したがってこの変化する重心から出発した互いに独立な各主成分固有ベクトルにも生物学的な意味を付帯させることができない。
そこで、発明者らは、上記a)ステップにおいて読み込まれた基礎データの全てと、上記b)ステップにおいて算出された基礎データと-1との積である仮想データの全てと、を上記ステップc)において結合してデータ全体の重心が原点(対照)となるデータ群を得、得られたデータ群を主成分分析に供することを検討した。仮想データを設定することは、基礎データに現れる攪乱の効果が反対方向(原点(対照)に戻る方向)にも働くはずであるとの仮定の下に採用された。図1の下図は、上記データ群を用いて主成分分析を行ったときの、生物応答指標の数Xと同じ次元の空間のうちの2次元を示した図である。基礎データFD
ijとこれに対する仮想データVD
ijとは、原点(対照)に関して点対称の位置にある。また、データ全体の重心の位置は、収集されたデータによって変化せず、常に原点(対照)の位置にある。この図では、各基礎データの位置は、
で表される。
図1の下図から明らかなように、基礎データの全てと仮想データの全てを用いて主成分分析を行うと、各主成分固有ベクトルは原点(対照の位置)から出発することになり、しかも各主成分固有ベクトルは互いに直交し、したがって互いに独立である。このことから、上記d)ステップにおいて、主成分分析後にノイズ成分を廃棄し、残余の主成分固有ベクトルを互いに独立した反応様式に対応させることができると考えられる。また、上記e)ステップにおいて、各主成分固有ベクトルと各攪乱に関連づけられた基礎データのベクトルとの内積を算出すれば、各攪乱の各反応様式における応答強度に対応する主成分スコアが得られると考えられる。ここで、「ノイズ成分」とは、主成分軸におけるデータの分散にもはやなんらの特徴も見出すことができない成分を意味し、使用される生物応答データによって異なる。
そして、検証の結果、以下で実施例を用いて説明するが、攪乱に対する複数の反応様式が関与した生物応答を個々の独立した反応様式に起因した応答に分離することができ、上記攪乱の分離された各反応様式における応答強度を算出することに成功した。したがって、各基礎データに現れる各攪乱の効果が反対方向(原点(対照)に戻る方向)にも働くはずであるとの仮定の下に採用された仮想データをも使用した主成分分析が妥当であることがわかった。ここで、それぞれの主成分固有ベクトルに対応する反応様式は、単一の反応様式である場合が多いが、2以上の反応様式が一体不可分に結合した反応様式である場合もある。しかし、2以上の反応様式が一体不可分に結合した反応様式である場合でも、他の主成分固有ベクトルに対応する反応様式とは独立である。
本発明の方法により、各主成分固有ベクトルに対応する独立した反応様式に分離することができるが、得られた反応様式の種類に関する情報、例えば、微小管阻害作用であるのか、プロテアソーム阻害作用であるのか、といった情報を解析結果から直ちに知ることはできない。反応様式の種類は、一般には各攪乱と対応した主成分スコアの大小と攪乱のいくつかに関して先行文献等に開示された既知の情報とから推定される。したがって、上記少なくとも2種の被験生物試料に与える攪乱の中に、反応様式が既知である攪乱が含まれているのが好ましい。
上述したように、本発明では、各生物応答指標についての各被験生物試料における発現値と対照生物試料における発現値との相違を示す基礎データと該基礎データと-1との積である仮想データとを結合することにより得られたデータ全体の重心が0となるデータ群について主成分分析を行うという特徴的な方法により、生物応答のスペクトル分解が達成される。生物応答指標の種類の数及び攪乱の種類の数はそれぞれ2以上であれば良いが、生物応答指標の種類の数及び/又は攪乱の種類の数が増加するほど、上記基礎データの中に外れ値が混在する確率が高くなる。このような場合には、従来の一般的な主成分分析において慣用的に行われているように外れ値検定を行い、外れ値を除いたデータを基礎データとして解析のために使用すれば良い。この他、上述した基礎データと仮想データとを結合したデータ群について主成分分析を行うという本発明の特徴的な方法を実行した後であれば、従来の一般的な主成分分析において分析結果の解釈を容易にするために行われているバリマックス回転等の慣用的な処理を本発明においても適用することができる。
本発明はまた、コンピュータに、上記a)ステップ、上記b)ステップ、上記c)ステップ、上記d)ステップ、及び上記e)ステップを実行させるための、攪乱を受けた生物試料が示す生物応答の解析プログラムを提供する。該プログラムとコンピュータとの協働により、本発明の生物応答の解析方法を実行することができ、多種多様な攪乱のいずれかを受けた生物が示した複数の反応様式が関与した生物応答を個々の独立した反応様式に起因した応答に分離した上で、上記生物応答を与えた攪乱の各反応様式における応答強度を算出することができる。
本発明はまた、攪乱を受けた生物試料が示す生物応答の解析装置であって、
異なる種類の攪乱を受けた少なくとも2種の被験生物試料及び上記攪乱を受けていない対照生物試料についての同一の検出法を用いて測定された少なくとも2種の生物応答指標の発現値に基づき得られた、各生物応答指標についての、各被験生物試料における発現値の対照生物試料における発現値からの変化量に対応する値を、基礎データとして、該基礎データを与えた攪乱と関連づけて読み込む、データ読み込み手段、
上記データ読み込み手段により読み込まれた基礎データのそれぞれについて、該基礎データと-1との積を仮想データとして算出する、仮想データ算出手段、
上記データ読み込み手段により読み込まれた基礎データと上記仮想データ算出手段により算出された仮想データの全てを結合して、データ全体の重心が0となるデータ群を得る、データ群生成手段、
上記データ群生成手段により生成されたデータ群について主成分分析を行い、得られた主成分からノイズ成分を廃棄し、残余の主成分について、互いに独立した反応様式に対応する主成分固有ベクトルから構成された反応様式行列を得る、反応様式行列生成手段、
及び、
上記反応様式行列生成手段により生成された反応様式行列に含まれる各主成分固有ベクトルと上記データ読み込み手段により読み込まれた各攪乱に関連付けられた基礎データとから、各攪乱の各反応様式における応答強度に対応する主成分スコアから構成された応答強度行列を得る、応答強度行列生成手段
を備えたことを特徴とする、生物応答の解析装置を提供する。この解析装置により、多種多様な攪乱のいずれかを受けた生物が示した複数の反応様式が関与した生物応答を個々の独立した反応様式に起因した応答に分離した上で、上記生物応答を与えた攪乱の各反応様式における応答強度を算出することができる。
本発明の生物応答の解析方法、解析プログラム、及び解析装置によると、多種多様な攪乱のいずれかを受けた生物が示した複数の反応様式が関与した生物応答を個々の独立した反応様式に起因した応答に分離した上で、上記生物応答を与えた攪乱の各反応様式における応答強度を算出することができ、したがって、生物応答のスペクトル分解が可能になる。
以下、本発明の攪乱を受けた生物試料が示す生物応答の解析方法、この方法を実施するための解析装置及び解析プログラムに関する一実施の形態について図2~図5を参照しながら説明し、さらに実施例により解析結果を示すが、本発明は以下の実施の形態及び実施例に限定されず、本発明の趣旨を逸脱しない範囲での変更が可能である。
本実施の形態の解析装置は、演算処理部、記憶部、キーボード等の入力部、ディスプレー等の出力部等を備えた一般的なコンピュータにより構成されており、記憶部に記憶されているソフトウェア(解析プログラム)との協働により、攪乱を受けた生物試料が示す生物応答の解析装置として動作するように構成されている。図2は、本実施の形態の解析装置における機能のブロック図を示している。本実施の形態の解析装置1は、データ読み込み手段10、仮想データ算出手段20、データ群生成手段30、反応様式行列生成手段40、及び応答強度行列生成手段50から構成されている。
データ読み込み手段10は、まず、解析のために使用される情報として、少なくとも2種の被験生物試料のそれぞれが受けた攪乱の内容、上記被験生物試料及び上記攪乱を受けていない対照生物試料についての同一の検出法を用いて測定された少なくとも2種の生物応答指標の内容、及び、上記被験生物試料及び対照生物試料のそれぞれにおける各生物応答指標の発現値を用いて予め算出された、各生物応答指標についての、各被験生物試料における発現値の対照生物試料における発現値からの変化量に対応する基礎データを読み込む機能を有する。データ読み込み手段10が、各被験生物試料及び対照生物試料のそれぞれにおける各生物応答指標の発現値を読み込み、読み込んだ値を基に上記基礎データを得るための計算を行うことによっても、結果的に解析のために必要な基礎データを読み込むことができる。
上記被験生物試料及び対照生物試料のそれぞれにおける各生物応答指標の発現値は、非特許文献1や非特許文献2のような既存のデータベースから得られても良く、既存の学術論文から得られても良く、本実施の形態の解析装置1を使用するために収集された、多種多様な攪乱を受けた生物試料における生物応答指標の発現値、例えば、生物細胞内の種々の遺伝子の発現量の増減、種々のタンパク質の発現量の増減、種々の代謝物の存在量の増減、細胞株の大きさの増減、微生物の増殖率や致死率の増減、植物の分布面積や結実率の増減、動物の繁殖率や活動率の増減を測定に適した方法、例えば、DNAマイクロアレイ、定量PCR、サザンブロッティング、ノーザンブロッティング、二次元電気泳動、クロマトグラフィー、質量分析、顕微鏡や目視による観察により測定したデータから得られても良い。但し、1回の解析の実施のために用いられる発現値は、同一の検出法により測定されなければならない。また、最終的に得られた解析結果の解釈の容易性を考慮して、少なくとも2種の被験生物試料を与える攪乱の中に反応様式が既知である攪乱が含まれているのが好ましい。
データ読み込み手段10は、読み込んだ基礎データを用いて攪乱毎に該攪乱と関連した基礎データをまとめた基礎データテーブルを生成し、生成した基礎データテーブルを仮想データ算出手段20及び応答強度行列生成手段50に送信するように構成されている。
仮想データ算出手段20は、基礎データ読み込み手段10から送信された基礎データテーブルに含まれている基礎データのそれぞれについて、該基礎データと-1との積を仮想データとして算出し、攪乱毎に該処理に関連した仮想データをまとめた仮想データテーブルを生成し、生成した仮想データテーブルをデータ読み込み手段10から送信された基礎データテーブルと共にデータ群生成手段30に送信するように構成されている。データ群生成手段30は、仮想データ算出手段20から送信された、基礎データテーブルに含まれている基礎データと仮想データテーブルに含まれている仮想データの全てを結合して、データ全体の重心が0となるデータ群を得、これを反応様式行列生成手段40に送信するように構成されており、反応様式行列生成手段40は、データ群生成手段30が生成したデータ群について主成分分析を行い、得られた主成分からノイズ成分を廃棄し、残余の主成分について、互いに独立した反応様式に対応する主成分固有ベクトルから構成される反応様式行列を生成し、これを応答強度行列生成手段50に送信するように構成されている。
応答強度行列生成手段50は、反応様式行列生成手段40から送信された反応様式行列に含まれる各反応様式に対応する主成分固有ベクトルとデータ読み込み手段10から送信された基礎データテーブルに含まれている各攪乱に関連付けられた基礎データのベクトルとの内積を算出し、各攪乱の各反応様式における応答強度に対応する主成分スコアから構成される応答強度行列を生成するように構成されている。
次に、本実施の形態の解析装置1における具体的な処理について説明する。図3は、解析装置1が起動されてから解析を終えるまでの処理の基本的な流れを示したフローチャートである。以下では、所定の細胞株にm種の薬剤A~薬剤Mのいずれかを含む攪乱を受けさせることにより発現したn種のタンパク質を生物応答指標として説明する。
オペレータにより解析装置1が起動されると、データ読み込み手段10は、オペレータにより予め準備された、被験生物試料を得るために使用された攪乱j(j=1,2,・・・,m)の内容、すなわち薬剤名、生物応答指標i(i=1,2,・・・,n)の内容、すなわちタンパク質名、及び、攪乱jを受けた被験生物試料及び対照生物試料のそれぞれにおける生物応答指標iの発現値を用いて算出された基礎データFDij(i=1,2,・・・,n;j=1,2,・・・,m)を読み込む(S1)。次いで、データ読み込み手段10は、読み込んだ基礎データを用いて、攪乱毎に該攪乱と関連した基礎データをまとめた基礎データテーブルを生成する(S2)。図4(A)は、生成された基礎データテーブルを概略的に示している。
次に、仮想データ算出手段20は、データ読み込み手段10から送信された基礎データテーブルに含まれている基礎データ(FDij)のそれぞれについて、該基礎データと-1との積を仮想データ(VDij)(i=1,2,・・・,n;j=1,2,・・・,m)として算出し、攪乱毎に該処理に関連した仮想データをまとめた仮想データテーブルを生成する(S3)。図4(B)は、生成された仮想データテーブルを概略的に示している。
次に、データ群生成手段30は、仮想データ算出手段20から送信された基礎データテーブルに含まれている基礎データと仮想データテーブルに含まれている仮想データの全てを結合して、図1の下図に示したようなデータ全体の重心が0となるデータ群を生成する(S4)。
次に、反応様式生成手段40は、データ群生成手段30から送信されたデータ群について主成分分析を行い(S5)、得られた主成分から主成分軸におけるデータの分散にもはやなんらの特徴も見出すことができないノイズ成分を廃棄し、残余の主成分(第h主成分)(h=1,2,・・・)について、互いに独立した反応様式に対応する主成分固有ベクトルPhi(h=1,2,・・・;i=1,2,・・・,n)から構成される反応様式行列を生成する(S6)。図5(A)は、生成された反応様式行列を概略的に示している。各主成分固有ベクトルは互いに直交し、互いに独立であるため(図1の下図参照)、各主成分固有ベクトルに対応する反応様式も互いに独立である。
最後に、応答強度行列生成手段50は、反応様式行列生成手段40から送信された反応様式行列に含まれる各反応様式に対応する主成分固有ベクトルを用いて、各主成分ベクトルとデータ読み込み手段10から送信された基礎データテーブルに含まれている攪乱j(j=1,2,・・・,m)に関連付けられた基礎データ(FDij)(i=1,2,・・・,n)のベクトルとの内積を算出し、攪乱jの各反応様式における応答強度に対応する主成分スコアShj(h=1,2,・・・;j=1,2,・・・,m)から構成される応答強度行列を生成する(S7)。図5(B)は、生成された応答強度行列を概略的に示している。
応答強度行列において、同一の主成分hにおけるスコア(Shj)は、共通の反応様式に関する各攪乱の相対的な応答強度を示しており、大きなスコア値を示す攪乱ほどこの共通に現れる反応様式を強く発現したことを意味している。また、それぞれの攪乱が示すスコア値を対比した結果、特定の攪乱のみが特定の主成分において大きなスコア値を示していれば、この攪乱が他の攪乱とは異なる特異的な反応様式を発現したことを意味している。
反応様式の種類に関する情報は、主成分スコアの大小と攪乱のいくつかに関して先行文献等に開示された既知の情報とから推定することが可能である。例えば、攪乱のために使用された化学物質群の中に微小管阻害作用を示すことが知られていた化学物質が複数含まれており、これらの化学物質の第1主成分スコアが高ければ、第1主成分の反応様式は微小管阻害作用であると推定することができる。
したがって、反応様式が知られている化学物質を含む化学物質群と新たに合成された化学物質群とを用いて所定の生物試料を刺激し、各生物試料が示した生物応答指標の発現値を用いて本実施の形態の解析方法を実施し、得られた応答強度行列を参照することにより、新たに合成された化学物質群の反応様式を推定することができ、新たに合成された化学物質群の中から特異性のある反応様式を示す化学物質或いは化学物質の構造部分を選択することも可能になる。また、反応様式が知られている化学物質についても、本実施の形態の解析方法を実施することによって、該化学物質が従来知られていた反応様式とは別の反応様式をも発現すること、或いは、従来知られていた反応様式が実際には2つ以上の独立した反応様式の組み合わせであったこと、を発見することもできる。さらに、同一の主成分における2種以上の化学物質のスコアを合計することにより、当該主成分に対応する反応様式に関するこれらの化学物質の併用効果を推定することもできる。
また、先行文献等に開示された既知の情報を用いても反応様式が推定されなかった主成分については、この主成分におけるスコア値の大小を考慮した化学物質を選択してこれらの示す生理作用を研究することにより、上記主成分と新たな反応様式とを対応付けることも可能である。したがって、新たに発見された反応様式に特化した化学物質、例えば特定の疾患に対する治療薬、を提案することも可能になる。
以上、本発明の実施の形態について、所定の細胞株にm種の薬剤A~薬剤Mのいずれかを含む攪乱を受けさせることにより発現したn種のタンパク質を生物応答指標とした例を用いて説明したが、本発明の実施の形態によって解析される生物応答を与える攪乱は、生物に投与される化学物質の種類において異なるものに限定されず、生物試料の状態を変化させる要因となりうるものであれば良い。例えば、特定の疾患を有する動物、特にヒトの血液から得られた生物応答指標を用いて本発明の実施の形態を実施することにより、特定の疾患において特異的に発現する反応様式を発見することができ、発見された反応様式に特化した治療薬を提案することも可能になる。
次に、本発明の変形実施形態について説明する。上述したように、本発明では、各生物応答指標についての各被験生物試料における発現値の対照生物試料における発現値からの変化量に対応する値を基礎データとして使用することができ、各被験生物試料における発現値から対照生物試料における発現値を減算した値、各被験生物試料における発現値の対数値から対照生物試料における発現値の対数値を減算した値、moderated Z-score、robust Z-score等に加えて、これらの値に対して規格化処理を施すことによって得られた規格化値も基礎データとして使用することができるが、規格化処理の方法としては、攪乱毎に該攪乱と関連づけられた規格化を施す前の基礎データ(上記減算値、Z-scoreなど)のL2ノルムを算出し、得られたL2ノルムにより該L2ノルムの算出に用いた規格化を施す前の基礎データを除算することにより規格化する方法が好ましい。上記被験生物試料を与える攪乱は、上述したように独立要素と従属要素とから構成されるが、L2ノルムを用いて規格化された基礎データを使用することにより、従属要素の影響を抑制して独立要素に絞った解析が可能になる。識別番号jの攪乱を受けた被験生物試料に関するL2ノルム、及び、識別番号jの攪乱を受けた被験生物試料についての識別番号iの生物応答指標に関する規格化値(FD
ij)は以下の式によって表される。但し、以下の式におけるFDij´は、規格化を施す前の基礎データを意味している。
また、本発明の解析方法において、生物応答指標の種類の数及び攪乱の種類の数はそれぞれ2以上であれば制限がないが、生物応答指標の種類の数及び/又は攪乱の種類の数が増加するほど上記基礎データの中に外れ値が混在する確率が高くなる。このような場合には、外れ値検定を行い、外れ値を除いたデータを基礎データとして使用するのが好ましい。外れ値検定の方法としては、攪乱毎に該攪乱と関連づけられた基礎データのL2ノルムを算出し、得られたL2ノルムに関して外れ値検定を行い、外れ値と判定されたL2ノルムに関連付けられた基礎データを解析の対象から除く方法が好ましい。上述したように、本発明では各基礎データに現れる各攪乱の効果が反対方向(原点(対照)に戻る方向)にも働くはずであるとの仮定の下に採用された仮想データをも使用した主成分分析が行われるが、生物試料に回復不能なダメージを与えた攪乱に関してはもはや上記仮定が当てはまらない。外れ値検定をL2ノルムに関して行うことにより、回復不能なダメージを与えた攪乱に関する減算値が解析のために使用されることを回避することができる。また、対照生物試料の示した生物応答指標の発現値と略同等の発現値を示した被験生物試料に関する基礎データは解析のノイズとなりうるが、上記外れ値検定によりこのような基礎データが解析のために使用されることも回避することができる。外れ値検定のためには、例えばスミルノフ・グラブス検定やトンプソン検定を使用することができる。
さらに、上記実施の形態では、基礎データと仮想データとを結合したデータ全体の重心が0となるデータ群について行った主成分分析により得られた、互いに独立した反応様式に対応する主成分固有ベクトルから構成された反応様式行列を基にして、該反応様式行列に含まれる各主成分固有ベクトルと各攪乱に関連付けられた基礎データのベクトルとの内積を算出することにより、各攪乱の各反応様式における応答強度に対応する主成分スコアから構成された応答強度行列を得ているが、上記反応様式行列についてバリマックス回転を行って修正反応様式行列を得、上記反応様式行列に含まれる各主成分固有ベクトルに代えて上記修正反応様式行列に含まれる各主成分固有ベクトルを用いて、このベクトルと各攪乱に関連付けられた基礎データのベクトルとの内積を算出することにより、各攪乱の各反応様式における応答強度に対応する主成分スコアから構成された応答強度行列を得るのが好ましい。この方法により、行列に関与する上記生物応答指標の数を最少化することができるため、本発明の解析方法の結果からの各反応様式の解釈が容易になる。バリマックス回転により生成される修正反応様式行列は、図5(A)における上記反応様式行列に含まれる主成分固有ベクトルPhi(h=1,2,・・・;i=1,2,・・・,n)を上記修正反応様式行列に含まれる主成分固有ベクトルPVhi(h=1,2,・・・;i=1,2,・・・,n)に代えたものに相当し、バリマックス回転を介して生成される応答強度行列は、図5(B)における上記反応様式行列に含まれる各主成分固有ベクトルと各攪乱に関連付けられた基礎データのベクトルとの内積Shj(h=1,2,・・・;j=1,2,・・・,m)を上記修正反応様式行列に含まれる各主成分固有ベクトルと各攪乱に関連付けられた基礎データのベクトルとの内積SVhj(h=1,2,・・・;j=1,2,・・・,m)に代えたものに相当する。
実施例1
既存のデータベースCMapに収容されている遺伝子発現データの中から、ヒト乳癌細胞株MCF-7に14種類の異なる攪乱を受けさせた被験生物試料及び対照生物試料に関してDNAマイクロアレイにより11911種類の遺伝子(生物応答指標)の発現量を測定した結果に基づき算出された、各遺伝子についての各被験生物試料における発現値の対照生物試料における発現値からの変化量に対応するmoderated Z-score(以下、「mZスコア」と表す。)を入手した。上記攪乱は、包含される化学物質及び濃度の点で異なる液を使用して上記細胞株を6時間刺激する処理である。攪乱のために用いられた液の組成及び液中の化学物質が示す既知の作用(反応様式)を表1に示す。
表2には、各攪乱に関するmZスコアから得られた相関係数を示す。反応様式が同じである化学物質どうしは高い相関係数を示すことが期待されるが、表2から、アルキル化剤であるプロカルバジンのmZスコアとダカルバジンとのmZスコアの相関係数が0.04であり極めて低く、CaモジュレータであるイオノマイシンのmZスコアとタプシガルギンのmZスコアとの相関係数も0.44と低い値であることがわかる。このことから、特許文献1に開示されている方法のような生物応答の類似性に着目した化学物質の分類には限界があることが分かる。
そこで、本発明の生物応答の解析方法を実施した。まず、入手した上記mZスコアに基づき、攪乱毎にL2ノルムを算出し、得られたL2ノルムに関してスミルノフ・グラブス検定法を用いて外れ値検定を行ったが、外れ値は存在しなかった。次いで、上記mZスコアについて、攪乱毎に該攪乱と関連づけられたmZスコアを該データから算出されたL2ノルムにより除算して規格化して規格化値を得た。そして、得られた規格化値を基礎データとして用いて、攪乱毎に該攪乱と関連した基礎データをまとめた基礎データテーブルを得た。表3に、攪乱の内容、遺伝子名、及び攪乱毎の各遺伝子の基礎データをまとめた基礎データテーブルを示した。但し、基礎データテーブルが大量の基礎データ(12×11911個のデータ)を含むため、表3では、基礎データの一部の数値のみが記載され、他が省略されている。また、表3における「NA」の表記は特定の名称が付与されていない遺伝子を意味しているが、それぞれの「NA」は異なる遺伝子を表している。
次いで、この基礎データテーブルに含まれている各基礎データに-1を乗算して仮想データを算出し、基礎データと仮想データの全てを結合してデータ全体の重心が0となるデータ群を得、得られたデータ群について主成分分析を行い、寄与率8%未満のノイズ成分を廃棄したところ、6個の主成分固有ベクトルから構成された反応様式行列が得られた。表4に、得られた反応様式行列を示した。表4においても、データ量の観点から、一部の数値のみが示されている。
次いで、得られた反応様式行列に含まれている各主成分固有ベクトルと上記基礎データテーブルに含まれている基礎データ(規格化値)のベクトルとの内積を算出することにより応答強度行列を得た。表5に、得られた応答強度行列を示す。全化合物が共通して高い応答スコアを示している第1主成分P1は、細胞死を反映していると考えられる。
表2に示した生物応答の類似性に着目した分類では、特にアルキル化剤であるプロカルバジンのmZスコアとダカルバジンのmZスコアとの相関係数が極めて低い値になるという問題があったが、本発明の解析方法の実施により、表5から把握されるように、プロカルバジンの応答スコアが-0.699、ダカルバジンの応答スコアが-0.693であり、類似した値が得られた。また、アルキル化剤に関する結果だけでなく、TopoII阻害剤どうし(第2主成分P2参照)、PI3K阻害剤どうし(第3主成分P3参照、符号は+)、Caモジュレータどうし(第4主成分P4参照)、HSP90阻害剤どうし(第5主成分P5参照)、微小管重合阻害剤どうし(第3主成分P3参照、符号は-)も同様に類似した応答スコアを示した。この結果から、本発明の解析方法の実施により、生物応答を個々の独立した反応様式に起因した応答に分離した上で、上記生物応答を与えた攪乱の各反応様式における応答強度を算出することができたことがわかる。
また、表6には、表4の反応様式行列にバリマックス回転を施して修正反応様式行列を得、得られた修正反応様式行列に含まれている各主成分固有ベクトルと上記基礎データテーブルに含まれている基礎データ(規格化値)のベクトルとの内積を算出することにより得た応答強度行列を示した。
バリマックス回転は、行列に関与する生物応答指標の数を最少化して解析結果の解釈を容易にする目的のために行われる処理である。そして、表6から明らかなように、反応様式の異なるTopoII阻害剤、PI3K阻害剤、Caモジュレータ、アルキル化剤、HSP90阻害剤及び微小管重合阻害剤がそれぞれ異なる主成分(TopoII阻害剤は第3主成分PV3、PI3K阻害剤は第1主成分PV1、Caモジュレータは第4主成分PV4、アルキル化剤は第6主成分PV6、HSP90阻害剤は第5主成分PV5、微小管重合阻害剤は第2主成分PV6)において高い正又は負のスコアを示す上に、同じ反応様式を示す化学物質どうしが類似した応答スコアを示し、本発明の解析方法においてもバリマックス回転の有効性が認められた。
実施例2
学術論文“Combinatorial Targeting of the Androgen Receptor for Prostate Cancer Therapy”(https://digital.library.adelaide.edu.au/dspace/bitstream/2440/97874/2/02whole.pdf)から、3種の薬剤を単独で或いは組み合わせて用いて前立腺癌細胞を6時間刺激した被験生物試料及び対照生物試料に関してDNAマイクロアレイにより遺伝子(生物応答指標)発現量を測定した結果(底を2とした発現量の対数値)を入手し、各遺伝子についての各被験生物試料における発現値の対照生物試料における発現値からの変化量に対応するrobust Z-score(以下、「rZスコア」と表す。)を算出した。攪乱のために用いられた液の組成を表7に示す。表中の17-AAGはHSP90阻害剤、ビカルタミドは抗アンドロゲン剤、SAHAはヒストンデアセチラーゼ阻害剤であり、それぞれ別の反応様式を示す。なお、上記論文では、攪乱の実験は1条件につき6回行われていた。
得られた上記rZスコアに基づき、実施例1と同様の解析方法を実施した。まず、攪乱毎にL2ノルムを算出し、得られたL2ノルムに関してスミルノフ・グラブス検定法を用いて外れ値検定を行ったが、外れ値は存在しなかった。次いで、上記rZスコアについて、攪乱毎に該攪乱と関連づけられたrZスコアを該データから算出されたL2ノルムにより除算して規格化し、規格化値を得た。そして、得られた規格化値を基礎データとして用いて、攪乱毎に該攪乱と関連した基礎データをまとめた基礎データテーブルを得た。表8に、攪乱の内容、遺伝子名、及び攪乱毎の各遺伝子の基礎データをまとめた基礎データテーブルを示した。但し、基礎データテーブルが大量の基礎データを含むため、表8では、基礎データの一部の数値のみが記載され、他が省略されている。
次いで、この基礎データテーブルに含まれている各基礎データに-1を乗算して仮想データを算出した。そして、基礎データと仮想データの全てを結合してデータ全体の重心が0となるデータ群を得、得られたデータ群について主成分分析を行い、ノイズ成分を廃棄したところ、5個の主成分固有ベクトルから構成された反応様式行列が得られた。表9に、得られた反応様式行列を示した。表9においても、データ量の観点から、一部の数値のみが示されている。
次いで、得られた反応様式行列に含まれている各主成分固有ベクトルと、上記基礎データテーブルに含まれている基礎データ(規格化値)のベクトルとの内積を算出して応答強度行列を得た。表10に、得られた応答強度行列を示す。行列中の応答スコアの値は、平均値±標準誤差の形式で表されている。表10から把握されるように、各主成分について、化学物質Aの応答スコアと化学物質Bの応答スコアとを加算すると、化学物質A+Bの応答スコアにおおよそ相当し、化学物質Aの応答スコアと化学物質Sの応答スコアとを加算すると、化学物質A+Sの応答スコアにおおよそ相当し、化学物質Bの応答スコアと化学物質Sの応答スコアとを加算すると、化学物質B+Sの応答スコアにおおよそ相当していた。したがって、本発明の解析方法の実施により、生物応答を個々の独立した反応様式に起因した応答に分離した上で、上記生物応答を与えた攪乱の各反応様式における応答強度を算出することができたことがわかる。
さらに、反応様式行列にバリマックス回転を施して修正反応様式行列を得、得られた修正反応様式行列に含まれている各主成分固有ベクトルと、上記基礎データテーブルに含まれている基礎データ(規格化値)のベクトルと、を用いて応答強度行列を得た。表11に得られた応答強度行列を示す。行列中の応答スコアの値は、平均値±標準誤差の形式で表されている。表10と表11との対比により、各化学物質の加算の効果がより明確に把握され、したがってバリマックス回転の有効性が認められた。