JP6558754B2

JP6558754B2 - 情報処理装置、指標次元抽出方法、および指標次元抽出プログラム

Info

Publication number: JP6558754B2
Application number: JP2015156703A
Authority: JP
Inventors: 朋健中村; 隆平原田; 育照重田
Original assignee: Fujitsu Ltd; University of Tsukuba NUC
Current assignee: Fujitsu Ltd; University of Tsukuba NUC
Priority date: 2015-08-07
Filing date: 2015-08-07
Publication date: 2019-08-14
Anticipated expiration: 2035-08-07
Also published as: JP2017037378A; US20170039268A1; US10275512B2

Description

本発明は、情報処理装置、指標次元抽出方法、および指標次元抽出プログラムに関する。

タンパク質を構成する原子は少しずつ位置を変えており、タンパク質の構造は時々刻々変化する。このようなタンパク質の構造の変化をコンピュータでシミュレーションする技術として、分子動力学（ＭＤ：Molecular Dynamics）シミュレーションがある。

ＭＤシミュレーションでは、初期状態として配置された原子それぞれに、他の原子からおよぶ力が計算され、その力を受けた原子がどのように運動するかがニュートンの運動方程式に基づいて計算される。これにより、最初の配置から一定時間経過後の原子の配置が算出される。コンピュータによりこの計算を繰り返すことで、タンパク質構造変化を再現し、例えばタンパク質の機能解析に役立てることができる。

ＭＤシミュレーションによるタンパク質の構造変化の再現には、様々な方法が提案されている。例えば、ＭＤシミュレーションを用いたタンパク質の構造変化の再現手法の１つに、ＯＦＬＯＯＤと呼ばれる、はずれ値検出に基づくタンパク質構造変化サンプリング手法がある。

ＯＦＬＯＯＤでは、ＭＤシミュレーションで得られた原子座標時系列データ（トラジェクトリ）のクラスタリングが行われる。なおトラジェクトリは、時々刻々変化するタンパク質の原子座標の集合である。さらにＯＦＬＯＯＤでは、トラジェクトリに含まれるタンパク質構造のうち、いずれのクラスタにも含まれないタンパク質構造がはずれ値として取得される。そしてＯＦＬＯＯＤでは、はずれ値に対して、再度、短時間のＭＤシミュレーションが実行される。これにより、まれに発生するタンパク質構造を考慮に入れた、適切な生体分子の機能変化解析が可能となる。

なお、ＯＦＬＯＯＤにおけるクラスタリングでは、ＦｌｅｘＤｉｃｅと呼ばれるクラスタリング手法が利用されている。ＦｌｅｘＤｉｃｅは、高次元データ空間上の疎な領域によって分けられる密な領域のデータ要素をリアルタイムに集めるクラスタリング手法である。

他にも、タンパク質構造を解析する様々な技術がある。例えば、相関のない振動モードに分解して、タンパク質の大規模構造変化につながる緩和の遅い重要な振動モードを抽出する解析手法も提案されている。また独立したサブスペースの解析により、タンパク質の連結された組織的動きを検出する方法が提案されている。また好ましい生物学的機能を有する最適化されたタンパク質について、タンパク質ライブラリーを効率的に作成しスクリーニングする方法も考えられている。また機能性ペプチドを効率的に見出すことを可能にする技術も考えられている。さらに、単純な線状コードを用いて複合炭水化物を表すことによって、複合炭水化物を保存し、検索し、比較し、分析する方法も考えられている。

特開２０１０−８８４５１号公報特開２０１０−２２２３００号公報特表２００４−５０５３３４号公報

Ryuhei Harada, Tomotake Nakamura, Yu Takano, and Yasuteru Shigeta, "Protein Folding Pathways Extracted by OFLOOD: Outlier FLOODing Method" Journal of Computational Chemistry, January 15, 2015, Volume 36, Issue 2, pages 97-102. 中村朋健, 上土井陽子, 若林真一, 吉田典可、「FlexDice：高次元な大規模データセットに対する高速クラスタリング手法」、情報処理学会論文誌、データベース、Vol. 46、No. SIG 18、pp. 40-49、2005年12月. Yusuke Naritomi and Sotaro Fuchigami, "Slow dynamics in protein fluctuations revealed by time-structure based independent component analysis: The case of domain motions", The Journal of chemical physics 134, 065101, 2011 Feb. 14. Shun Sakuraba, Yasumasa Joti, Akio Kitao, "Detecting coupled collective motions in protein by independent subspace analysis.", The Journal of chemical physics 133, 185102, 2010 Nov. 14.

ＯＦＬＯＯＤなどの技術でタンパク質の構造解析を行う場合、解析指標として適切な反応座標（次元）を選択しなければ、興味のあるタンパク質構造変化を抽出することはできない。解析に用いられる次元は、例えば、特定の原子の特定の軸の座標や、特定の２つの原子間の距離などである。従来は、タンパク質の構造解析を行う際には、経験的にある程度分かっている重要な次元が用いられている。

しかし、既に分かっている重要な次元以外にも重要な次元が存在する可能性がある。現在、そのような未知の重要な次元を見つけ出す有効な方法がない。タンパク質の構造変化の解析を効率的に実施するには、重要な次元を確実に選択してタンパク質の構造解析を実施することが重要である。

このような物質の構造解析に用いる重要な次元の選択の困難性に関する問題は、タンパク質に限らず、構造が変化する物質（例えばタンパク質以外の生体高分子）の構造解析全般において、同様に存在する。

１つの側面では、物質の構造解析において重要な次元を確実に解析指標として採用できるようにすることを目的とする。

１つの案では、構造が変化する物質の複数の構造と、物質の構造を表す複数の次元のうちの、物質の構造解析の指標とする指標次元の集合である次元集合とを記憶する記憶部と、複数の次元のうちの、次元集合に含まれていない複数の候補次元それぞれについて、候補次元と次元集合に含まれるすべての指標次元とを座標軸とする多次元空間において複数の構造のクラスタリングを行い、最も多くのクラスタを生成させることができた特定の候補次元を、指標次元として次元集合に追加する演算部と、を有する情報処理装置が提供される。

１態様によれば、物質の構造解析において重要な次元を確実に解析指標として採用可能となる。

第１の実施の形態に係る情報処理装置の構成例を示す図である。第２の実施の形態に用いるコンピュータのハードウェアの一構成例を示す図である。隠れ次元を用いたタンパク質構造解析機能を示すブロック図である。トラジェクトリの一例を示す図である。タンパク質の構造データの一例を示す図である。トラジェクトリの生成例を示す図である。ＦｌｅｘＤｉｃｅによるクラスタリングの一例を示す図である。次元の付加によるクラスタ数の増加状況を示す図である。隠れ次元の判定例を示す図である。タンパク質構造解析処理の手順の一例を示すフローチャートである。

以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第１の実施の形態〕
まず、第１の実施の形態について説明する。第１の実施の形態は、構造が変化する物質の構造解析を行う際に、解析に重要な指標となる次元を漏らさずに選択可能な情報処理装置である。

図１は、第１の実施の形態に係る情報処理装置の構成例を示す図である。情報処理装置１０は、記憶部１１と演算部１２とを有する。
記憶部１１は、構造が変化する物質の複数の構造（物質構造１１ａ−１，１１ａ−２，・・・）と、物質の構造を表す複数の次元のうちの、構造解析の指標とする次元の集合である次元集合１１ｂとを記憶する。次元集合１１ｂには、初期値として、例えば予め重要であることが既知の次元が設定されている。

演算部１２は、物質の構造を表す複数の次元のうちの、次元集合１１ｂに含まれていない複数の次元を、候補次元とする。そして演算部１２は、複数の候補次元それぞれについて、候補次元と次元集合１１ｂに含まれるすべての指標次元とを座標軸とする多次元空間において物質構造１１ａ−１，１１ａ−２，・・・のクラスタリングを行う（ステップＳ１）。例えば、物質の構造を表す複数の次元として「ｄ₁，ｄ₂，ｄ₃，ｄ₄，ｄ₅」があり、そのうち「ｄ₁，ｄ₂」については重要な次元であることが既知であるものとする。この場合、「ｄ₃，ｄ₄，ｄ₅」それぞれが候補次元となる。このとき演算部１２は、「ｄ₁，ｄ₂，ｄ₃」の３次元空間におけるクラスタリング、「ｄ₁，ｄ₂，ｄ₄」の３次元空間におけるクラスタリング、および「ｄ₁，ｄ₂，ｄ₅」の３次元空間におけるクラスタリングを行う。

そして演算部１２は、複数の候補次元のうち最も多くのクラスタを生成させることができた候補次元を、重要ではあるがまだ解析の指標とされていない次元（隠れ次元）と判断し、その隠れ次元を次元集合１１ｂに追加する（ステップＳ２）。図１の例では、次元ｄ₃を追加してクラスタリングした結果、６つのクラスタが生成されている。次元ｄ₄を追加してクラスタリングした結果、５つのクラスタが生成されている。次元ｄ₅を追加してクラスタリングした結果、２つのクラスタが生成されている。すなわち、次元ｄ₃を追加した場合に、最もクラスタ数が多くなっている。そこで、演算部１２は、次元ｄ₃を隠れ次元と判定し、次元集合１１ｂに追加する。隠れ次元が次元集合１１ｂに追加されることで、その隠れ次元は、以後、構造解析の指標として扱われる。

さらに演算部１２は、次元集合１１ｂに構造解析の指標とする次元が追加されるごとに、次元集合１１ｂに含まれる指標次元を指標として複数の構造に基づく物質の構造解析を行う（ステップＳ３）。例えば演算部１２は、ＯＦＬＯＯＤによる解析を行う。ＯＦＬＯＯＤを実施する場合、演算部１２は、次元集合１１ｂに含まれる指標次元を座標軸とする多次元空間において複数の構造のクラスタリングを行い、いずれのクラスタにも含まれないはずれ値となった構造を初期構造とするＭＤシミュレーションを行う。

また演算部１２は、ＭＤシミュレーションを行った場合、ＭＤシミュレーションによって生成される物質の構造を、記憶部１１に格納する。そして演算部１２は、記憶部１１に物質の構造が格納されるごとに、上記ステップＳ１〜Ｓ３の処理を繰り返し実行する。

このような情報処理装置１０によれば、複数の次元の中から重要な隠れ次元を適切に判定することができる。その結果、重要な次元を確実に構造解析の指標として採用することができる。

例えば、物質の構造を表すすべての次元を用いて構造解析を実施できれば、極めて詳細な解析が可能となる。しかし、タンパク質のような複雑な構造を有する物質の場合、次元数が多く、すべての次元を用いた解析は、情報処理装置１０の性能上、現実には無理である。そこで、選択された重要な次元を用いて解析することになる。予め重要であると分かっている次元もあるが、他の多くの次元は重要かどうかが不明である。重要と思われていない次元であっても、有用な次元の可能性がある。このように、重要であるかどうかが不明な次元のなかに、実際には重要な次元（隠れ次元）が存在するとき、第１の実施の形態によれば、その隠れ次元を自動で抽出し、構造解析の際の指標次元に追加できる。隠れ次元を加えて解析を行うことで、より詳細な構造解析が可能となる。しかも、特に重要と思われる次元のみを指標次元に加えるため、計算量の増加は最小減に抑えられる。

また第１の実施の形態では、クラスタリングにより生成されるクラスタ数が最多となる次元を、隠れ次元としている。このような隠れ次元を解析の指標として用いれば、物質の複数の構造を、より少ない指標で適切に分類できる。物質の複数の構造を適切に分類できることで、物質の構造変化などの解析の精度を向上させることができる。例えば、クラスタ間を遷移するような大きな構造変化を捉えるための解析を実施する場合、クラスタが正しく生成されることで、目的の構造変化を正しく認識することができる。

なお、演算部１２は、例えば情報処理装置１０が有するプロセッサにより実現することができる。また、記憶部１１は、例えば情報処理装置１０が有するメモリにより実現することができる。

〔第２の実施の形態〕
次に第２の実施の形態について説明する。第２の実施の形態は、解析対象物質をタンパク質として、第１の実施の形態をより具体化したものである。

図２は、第２の実施の形態に用いるコンピュータのハードウェアの一構成例を示す図である。コンピュータ１００は、プロセッサ１０１によって装置全体が制御されている。プロセッサ１０１には、バス１０９を介してメモリ１０２と複数の周辺機器が接続されている。プロセッサ１０１は、マルチプロセッサであってもよい。プロセッサ１０１は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、またはＤＳＰ（Digital Signal Processor）である。プロセッサ１０１がプログラムを実行することで実現する機能の少なくとも一部を、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）などの電子回路で実現してもよい。

メモリ１０２は、コンピュータ１００の主記憶装置として使用される。メモリ１０２には、プロセッサ１０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ１０２には、プロセッサ１０１による処理に利用する各種データが格納される。メモリ１０２としては、例えばＲＡＭ（Random Access Memory）などの揮発性の半導体記憶装置が使用される。

バス１０９に接続されている周辺機器としては、ＨＤＤ（Hard Disk Drive）１０３、グラフィック処理装置１０４、入力インタフェース１０５、光学ドライブ装置１０６、機器接続インタフェース１０７およびネットワークインタフェース１０８がある。

ＨＤＤ１０３は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。ＨＤＤ１０３は、コンピュータ１００の補助記憶装置として使用される。ＨＤＤ１０３には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、フラッシュメモリなどの不揮発性の半導体記憶装置（ＳＳＤ：Solid State Drive）を使用することもできる。

グラフィック処理装置１０４には、モニタ２１が接続されている。グラフィック処理装置１０４は、プロセッサ１０１からの命令に従って、画像をモニタ２１の画面に表示させる。モニタ２１としては、ＣＲＴ（Cathode Ray Tube）を用いた表示装置や液晶表示装置などがある。

入力インタフェース１０５には、キーボード２２とマウス２３とが接続されている。入力インタフェース１０５は、キーボード２２やマウス２３から送られてくる信号をプロセッサ１０１に送信する。なお、マウス２３は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

光学ドライブ装置１０６は、レーザ光などを利用して、光ディスク２４に記録されたデータの読み取りを行う。光ディスク２４は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク２４には、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）などがある。

機器接続インタフェース１０７は、コンピュータ１００に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース１０７には、メモリ装置２５やメモリリーダライタ２６を接続することができる。メモリ装置２５は、機器接続インタフェース１０７との通信機能を搭載した記録媒体である。メモリリーダライタ２６は、メモリカード２７へのデータの書き込み、またはメモリカード２７からのデータの読み出しを行う装置である。メモリカード２７は、カード型の記録媒体である。

ネットワークインタフェース１０８は、ネットワーク２０に接続されている。ネットワークインタフェース１０８は、ネットワーク２０を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。

以上のようなハードウェア構成によって、第２の実施の形態の処理機能を実現することができる。なお、第１の実施の形態に示した装置も、図２に示したコンピュータ１００と同様のハードウェアにより実現することができる。

コンピュータ１００は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第２の実施の形態の処理機能を実現する。コンピュータ１００に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、コンピュータ１００に実行させるプログラムをＨＤＤ１０３に格納しておくことができる。プロセッサ１０１は、ＨＤＤ１０３内のプログラムの少なくとも一部をメモリ１０２にロードし、プログラムを実行する。またコンピュータ１００に実行させるプログラムを、光ディスク２４、メモリ装置２５、メモリカード２７などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ１０１からの制御により、ＨＤＤ１０３にインストールされた後、実行可能となる。またプロセッサ１０１が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。

以上のようなハードウェアのコンピュータ１００により、隠れ次元を用いたタンパク質の構造解析が行われる。
図３は、隠れ次元を用いたタンパク質構造解析機能を示すブロック図である。コンピュータ１００は、隠れ次元を用いたタンパク質構造解析を行うため、記憶部１１０、クラスタリング部１２０、隠れ次元判定部１３０、およびＯＦＬＯＯＤ部１４０を有する。

記憶部１１０は、複数のトラジェクトリ１１１−１，１１１−２，・・・、重要次元情報１１２、および隠れ次元情報１１３を記憶する。トラジェクトリ１１１−１，１１１−２，・・・は、タンパク質構造の時系列変化を表すデータである。トラジェクトリ１１１−１，１１１−２，・・・それぞれには、複数のタンパク質構造が含まれる。重要次元情報１１２は、既知となっている重要な反応座標（重要次元）を示す情報である。重要次元情報１１２は、タンパク質構造解析の実行前に、予め設定される情報である。隠れ次元情報１１３は、重要次元以外の反応座標のうち、タンパク質構造解析に重要な自由度と判断された反応座標（隠れ次元）を示す情報である。

クラスタリング部１２０は、重要次元に対して別の一次元（候補次元）を加えた多次元空間で、複数のトラジェクトリ１１１−１，１１１−２，・・・のクラスタリングを行う。クラスタリング技術としては、例えばＦｌｅｘＤｉｃｅを用いる。クラスタリング部１２０は、候補次元を変えながら、繰り返しクラスタリングを実行する。

隠れ次元判定部１３０は、クラスタリング結果に基づいて隠れ次元を判定する。例えば隠れ次元判定部１３０は、候補次元ごとに実行されたクラスタリングにより生成されたクラスタ数を、クラスタリング部１２０から取得する。そして隠れ次元判定部１３０は、重要次元のみで実行したクラスタリングで生成されるクラスタを、さらに多くのクラスタに、最も多く分割できる候補次元を、隠れ次元と判定する。

ＯＦＬＯＯＤ部１４０は、重要次元と隠れ次元とに基づいてＯＦＬＯＯＤを実行し、タンパク質構造分布の緩和状況を可視化する。ここでタンパク質構造分布の緩和とは、タンパク質構造変化の収束を意味する。またＯＦＬＯＯＤの過程で実行されるＦｌｅｘＤｉｃｅのクラスタリングにより、クラスタ（準安定構造）の分布の変化を可視化する。ＯＦＬＯＯＤの結果の可視化では、例えばＯＦＬＯＯＤに用いた反応座標を軸とした空間内に、生成されたタンパク質構造を示すドットがプロットされた図がモニタ２１に表示される。

なお、図３に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。
次に、記憶部１１０に格納される情報について詳細に説明する。

図４は、トラジェクトリの一例を示す図である。トラジェクトリ１１１には、例えばＭＤシミュレーションにより、タンパク質が初期構造から変化する様子が示されている。図４の例では、ＭＤシミュレーション上の時間間隔Δｔごとの構造が示されている。トラジェクトリ１１１に含まれるタンパク質構造は、例えばタンパク質を構成する原子の座標を含む構造データで表される。

図５は、タンパク質の構造データの一例を示す図である。構造データ１１１ａには、構造の識別番号が付与されている。構造データ１１１ａ内の「ＡＴＯＭ」で始まる各行が、タンパク質に含まれる各原子の情報である。

各行には「ＡＴＯＭ」から右に向かって、原子の通し番号、原子タイプの分類、残基の種類、分子鎖の名前、残基番号、原子のＸ座標、原子のＹ座標、原子のＸ座標、原子の占有率、温度因子、および元素名が設定されている。

以下、タンパク質構造解析処理について詳細に説明する。
タンパク質構造解析処理では、まずＭＤシミュレーションにより生成されたトラジェクトリが、記憶部１１０に格納される。

図６は、トラジェクトリの生成例を示す図である。例えばユーザは、実験によるタンパク質の立体構造の解析を行い、解析結果であるタンパク質構造をコンピュータ１００に入力する。例えばＸ線や核磁気共鳴（ＮＭＲ：Nuclear Magnetic Resonance）により、タンパク質の立体構造を決定することができる。解析により得られたタンパク質構造を、初期構造（入力データ）として、コンピュータ１００がＭＤシミュレーションを実行する。ＭＤシミュレーションにより、タンパク質に働く力に基づいて運動方程式が解かれ、時々刻々変化するタンパク質構造を示すトラジェクトリが出力される。出力されたトラジェクトリは、記憶部１１０に格納される。

このようにして得られたトラジェクトリを元に、ＯＦＬＯＯＤ部１４０によるタンパク質構造変化抽出が行われる。
なお、第２の実施の形態に係る技術を適用せずにＯＦＬＯＯＤを実施すると、経験的にある程度分かっている重要な次元のみを用いて構造リサンプリングが実行される。実際問題として、予め興味のあるタンパク質構造変化に重要な次元は自明でないことがほとんどであり、最適な次元を設定することができない場合には、効率的にタンパク質構造変化を抽出できない。

そこで第２の実施の形態では、クラスタリング部１２０が、ＭＤシミュレーションから得られるトラジェクトリをクラスタリングし、隠れ次元判定部１３０が、タンパク質構造変化にとって重要である自由度を隠れ次元として推定する。これにより、経験則に基づくことなく重要な次元を設定し、ＯＦＬＯＯＤにおける構造変化抽出の高速化や、効率的な準安定構造の抽出が可能となる。

なお、トラジェクトリのクラスタリングは、例えばＦｌｅｘＤｉｃｅにより行うことができる。
図７は、ＦｌｅｘＤｉｃｅによるクラスタリングの一例を示す図である。ＦｌｅｘＤｉｃｅは、高次元かつ大規模なデータベースから規則性や特徴を見つけ出すためのクラスタリング手法の１つである。ＦｌｅｘＤｉｃｅでは、データ要素を分類する指標を軸とする多次元空間に、データ要素が配置される。タンパク質構造をデータ要素とする場合、例えば特定の原子のある軸の座標、所定の２つの原子間距離などが、分類の指標となる。図７の例では、２つの指標で分類した場合を想定した例が示されている。

ＦｌｅｘＤｉｃｅでは、２つの指標それぞれに対応する２つの軸を有する平面が定義される。各タンパク質構造は、指標の値に応じて、第１レイヤ（１ｓｔｌａｙｅｒ）の平面上に配置される。第１レイヤでは、すべてのタンパク質構造を包含する１つの矩形領域が、セル３１として定義される。

上位のレイヤのセルを、セル内のタンパク質構造の密度に応じて分割しながら、第２レイヤ、第３レイヤ、・・・と、新たなレイヤが生成される。例えば、セル内のタンパク質構造の密度が上限値以上であれば、そのセルは、密セルと判断される。セル内のタンパク質構造の密度が上限値より小さく、下限値以上であれば、そのセルは、中セルと判断される。セル内のタンパク質構造の密度が下限値より小さければ、そのセルは、疎セルと判断される。上位レイヤの次の下位レイヤを生成するとき、上位レイヤのセルのうち、中セルのみが各軸方向に２分割（全体で４分割）される。例えば第ｋレイヤ（ｋは２以上の整数）におけるセル３２は中セルと判断され、第ｋ＋１レイヤにおいて４つのセルに分割されている。一方、セル３３は、密セルであるため分割されておらず、セル３４は疎セルであるため分割されていない。

このようなレイヤの生成が、所定のレイヤまで繰り返し行われる。そして、最後のレイヤにおいて、隣接する密セル同士が結合される。結合されたセルに含まれるタンパク質構造の集合が、クラスタ４１，４２を構成する。

このようなＦｌｅｘＤｉｃｅによるクラスタリングでは、クラスタ４１，４２に含まれないタンパク質構造５１が存在する。このタンパク質構造５１が、はずれ値として検出される。

クラスタリング部１２０は、隠れ次元を推定するために、候補次元を変えながら、図７に示すようなクラスタリングを繰り返す。そして隠れ次元判定部１３０が、クラスタリングにより生成されるクラスタ数を観察し、次元付加によりクラスタ数が最も大きく変化した次元を重要な隠れ次元と判定する。

図８は、次元の付加によるクラスタ数の増加状況を示す図である。図８の左側には、既知の重要次元を指標としたときのタンパク質構造の分布が示されている。横軸は、タンパク質構造の重要次元の値であり、縦軸は、重要次元の値ごとのタンパク質構造数である。この例では、既知の重要次元を指標としてクラスタリングを行った結果、タンパク質の場外の分布がガウス分布（調和的分布）となっている。すなわち分布状況が単峰性であり、クラスタリングにより得られるクラスタは１だけである。

図８の右側には、重要次元と１つの候補次元とを指標としたときのタンパク質構造の分布が示されている。横軸は、タンパク質構造の候補次元の値であり、縦軸は、候補次元の値ごとのタンパク質構造数である。この例では、候補次元の付加により、クラスタ数が１つ（左）から２つ（右）に変化している。つまり、候補次元の付加前は分布のピークが１つであったが、候補次元の付加によりピークが２つ（多峰性）になり非調和性が現れた。分布状況のピークが２つになったことで、クラスタリングにより得られるクラスタも２つとなる。

このように、次元付加によりクラスタの数が多次元空間で変化する場合がある。そこで、隠れ次元判定部１３０は、追加する次元を変えながらＦｌｅｘＤｉｃｅによりクラスタリングが行われたときのクラスタの数の変化を観察し、最も大きく分布が摂動を受ける候補次元を隠れ次元と判定する。

図９は、隠れ次元の判定例を示す図である。図９の例では、ｄ₁，ｄ₂次元が重要な次元であることが既知であるものとする。この場合、まずｄ₁，ｄ₂次元でのクラスタリングが行われる。図９の例では、準安定構造をＣ１およびＣ２としたとき、準安定構造ごとのクラスタが生成されている。この場合のクラスタ数は「２」である。

ここで、隠れ次元の候補としてｄ₃，ｄ₄，ｄ₅次元があるものとする。この場合、クラスタリング部１２０は、ｄ₁，ｄ₂，ｄ₃次元でのクラスタリング、ｄ₁，ｄ₂，ｄ₄次元でのクラスタリング、およびｄ₁，ｄ₂，ｄ₅次元でのクラスタリングを行う。ｄ₁，ｄ₂，ｄ₃次元でのクラスタリングにより生成されたクラスタの数は「６」である。ｄ₁，ｄ₂，ｄ₄次元でのクラスタリングにより生成されたクラスタの数は「５」である。ｄ₁，ｄ₂，ｄ₅次元でのクラスタリングにより生成されたクラスタの数は「２」である。

その結果、次元を１つ上げたクラスタリングにおいて、最も多くクラスタの数が変化したのは、ｄ₃次元を付加した場合であることが分かる。そこで、ｄ₃が隠れ次元と判定される。

以後、次元数を１つずつ増やしてクラスタ数の変化が観察され、順次、隠れ次元が判定される。すなわち、次元を１つ上げた際に、次元を上げる前と比較して最もクラスタ数の増加が大きい次元が隠れ次元と判定される。

なお、隠れ次元を１つ増やすごとにＯＦＬＯＯＤ部１４０がＯＦＬＯＯＤを実行することで、より適切なクラスタリングによる、タンパク質構造のサンプリング抽出が可能となる。すなわちＯＦＬＯＯＤ部１４０は、既に生成されているタンパク質構造を、ＦｌｅｘＤｉｃｅによりクラスタリングする。図７に示したように、ＦｌｅｘＤｉｃｅを実施すると、いずれのクラスタにも含まれないタンパク質構造が、はずれ値として検出される。ＯＦＬＯＯＤ部１４０は、検出したはずれ値を初期構造として、ＭＤシミュレーションを行い、トラジェクトリを生成する。

隠れ次元を追加してＦｌｅｘＤｉｃｅを実施すれば、クラスタ（準安定構造）を正確に求めることができる。これは、クラスタに含まれない（準安定構造ではない）はずれ値検出の正確性も増すことを意味する。不安定なタンパク質構造を適格にはずれ値として検出できることで、ＯＦＬＯＯＤによるタンパク質構造の探索範囲の拡張効率が向上し、例えば天然構造を効率的に検出することができるようになる。

次に、タンパク質構造解析処理の手順について、フローチャートを参照して説明する。
図１０は、タンパク質構造解析処理の手順の一例を示すフローチャートである。以下、図１０に示す処理をステップ番号に沿って説明する。

［ステップＳ１０１］クラスタリング部１２０は、タンパク質ダイナミクスを記述する次元の中から、既知の重要次元を選択する。例えばクラスタリング部１２０は、記憶部１１０内の重要次元情報１１２を参照し、どの次元が重要次元なのかを認識する。以下、タンパク質ダイナミクスを記述する次元数をｎ（ｎは１以上の整数）とする。

［ステップＳ１０２］クラスタリング部１２０は、実験によって得られたタンパク質構造を初期構造としたＭＤシミュレーションの結果として出力されたトラジェクトリを対象として、クラスタリングを行う。例えばクラスタリング部１２０は、トラジェクトリを構成する複数のタンパク質構造の構造データを記憶部１１０から取得し、その構造データに示されるタンパク質構造を、ＦｌｅｘＤｉｃｅによりクラスタリングする。クラスタリングの結果、準安定構造であるタンパク質構造の集合を表すクラスタが生成される。このとき生成されたクラスタを「クラスタＡ」とする。

［ステップＳ１０３］クラスタリング部１２０は、生成したクラスタ数を、次元追加前クラスタ数としてメモリ１０２に記録する。
［ステップＳ１０４］クラスタリング部１２０は、タンパク質ダイナミクスを記述する次元のうち、既知の重要次元または既に隠れ次元と判定されている次元以外のｉ番目の次元ｄ_i（ここでｉは１以上ｎ−２以下の整数）を、１つ選択する。なお、クラスタリング部１２０は、記憶部１１０内の重要次元情報１１２を参照して、どの次元が重要次元なのかを認識し、隠れ次元情報１１３を参照して、どの次元が隠れ次元なのかを認識する。

［ステップＳ１０５］クラスタリング部１２０は、既知の重要次元および既に隠れ次元と判定されている次元に、選択した次元を追加した多次元空間上で、ＦｌｅｘＤｉｃｅによるクラスタリングを行う。すなわちクラスタリング部１２０は、１つの次元ｄ_iを追加して１次元だけ次元数が上がった構造空間上でトラジェクトリをクラスタリングする。ここで、次元ｄ_iを追加したクラスタリングにより生成されたクラスタ集合Ａ_iの要素数をＥ_iとする。

なおステップＳ１０５においてクラスタリング部１２０が実行するクラスタリング手法は、ＦｌｅｘＤｉｃｅ以外の手法でもよい。例えば、はずれ値の存在を許容しないクラスタリング手法（すべての要素がいずれかのクラスタに含まれる）を用いてもよい。

［ステップＳ１０６］クラスタリング部１２０は、次元追加前クラスタ数からの、ステップＳ１０５のクラスタリングで生成されたクラスタの増加数を、選択した次元に対応付けてメモリ１０２に記録する。

［ステップＳ１０７］クラスタリング部１２０は、タンパク質ダイナミクスを記述する次元のうち、ステップＳ１０４〜Ｓ１０６の処理が未処理の次元があるか否かを判断する。未処理の次元があれば、処理がステップＳ１０４に進められる。すべての次元に対する処理が終了したら、処理がステップＳ１０８に進められる。

［ステップＳ１０８］隠れ次元判定部１３０は、既知の重要次元または既に隠れ次元と判定されている次元以外の次元のうち、次元追加前よりも最も多くのクラスタが生成される次元を、隠れ次元と判定する。例えば数学的に記述すると、ｍａｘ｛Ｅ_i｜１≦ｉ≦ｎ−２｝のｉに対応する次元ｄ_iが重要な隠れ次元となる。隠れ次元を判定すると、隠れ次元判定部１３０は、隠れ次元と判定した次元の情報を、記憶部１１０内の隠れ次元情報１１３に追加する。

［ステップＳ１０９］隠れ次元判定部１３０は、隠れ次元が存在したか否かを判断する。例えば隠れ次元判定部１３０は、次元の追加によりクラスタ数が増加する次元が少なくとも１つあれば、隠れ次元が存在したと判断する。隠れ次元が存在した場合、処理がステップＳ１１０に進められる。隠れ次元が存在しなければ処理が終了する。

［ステップＳ１１０］ＯＦＬＯＯＤ部１４０は、ステップＳ１０８で判定した隠れ次元を追加した多次元空間で、ＯＦＬＯＯＤを実行する。すなわちＯＦＬＯＯＤ部１４０は、新たな隠れ次元を追加した空間でＦｌｅｘＤｉｃｅによるクラスタリングを行い、はずれ値を初期構造としたＭＤシミュレーションを行う。ＯＦＬＯＯＤの実行により、タンパク質構造分布の緩和を観察することができる。例えば、クラスタ（準安定構造）の分布の変化を観察できる。

［ステップＳ１１１］ＯＦＬＯＯＤ部１４０は、ＯＦＬＯＯＤにより生成されたトラジェクトリを記憶部１１０に格納する。
［ステップＳ１１２］クラスタリング部１２０は、さらに隠れ次元を追加するか否かを判断する。例えばクラスタリング部１２０は、隠れ次元と判定した次元数が、所定数に達していなければ、さらに隠れ次元を追加すると判断する。隠れ次元と判定した次元数が所定数に達した場合、これ以上の隠れ次元は追加しないと判断する。さらに隠れ次元を追加する場合、処理をステップＳ１０４に進める。隠れ次元を追加しない場合、処理が終了する。

このように、使用していない次元を１ずつ付加しながらクラスタの数の変化を観察し、隠れ次元を判定しながらＯＦＬＯＯＤを繰り返していくことで、タンパク質構造分布の緩和が観察できる。しかも、隠れ次元が随時追加されることで、ＯＦＬＯＯＤ内でのはずれ値の判定精度が向上し、大きな構造変化を起こしやすい構造を正確に特定できる。そして大きな構造変化を起こしやすい構造を初期構造としたＭＤシミュレーションにより、迅速にタンパク質構造分布を緩和させることができる。タンパク質構造分布の緩和は、タンパク質構造変化の収束を意味しており、取り得る可能性のある構造変化を十分探索し終えたことを示す。すなわち、タンパク質構造分布が迅速に緩和するということは、隠れ次元に基づくＯＦＬＯＯＤにより効率的に構造探索が実施できたことを意味する。

なお、第２の実施の形態の技術は、多くの分野で利用可能である。例えば、タンパク質機能解析に重要なタンパク質の遅い運動が再現できる。これらのタンパク質大規模構造変化は、通常のＭＤシミュレーションでは再現する事ができない生物学的レアイベントであり、貴重な構造サンプリングデータとして実験データと比較しうる点において、非常に有用である。また第２の実施の形態により、構造空間にどのような準安定構造が分布しているかを調べることは、直接自由エネルギー地形を探索することに直結する。そのため、リガンド結合による分子認識問題などにも応用可能であり、薬物設計に利用可能である。

以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の２以上の構成（特徴）を組み合わせたものであってもよい。

１０情報処理装置
１１記憶部
１１ａ−１，１１ａ−２，・・・物質構造
１１ｂ次元集合
１２演算部

Claims

構造が変化する物質の複数の構造と、前記物質の構造を表す複数の次元のうちの、前記物質の構造解析の指標とする指標次元の集合である次元集合とを記憶する記憶部と、
前記複数の次元のうちの、前記次元集合に含まれていない複数の候補次元それぞれについて、候補次元と前記次元集合に含まれるすべての前記指標次元とを座標軸とする多次元空間において前記複数の構造のクラスタリングを行い、最も多くのクラスタを生成させることができた特定の候補次元を、前記指標次元として前記次元集合に追加する演算部と、
を有する情報処理装置。
前記演算部は、さらに、
前記特定の候補次元が前記指標次元として前記次元集合に追加されると、前記次元集合に含まれるすべての前記指標次元を指標として、前記複数の構造に基づく前記物質の構造解析を行う、
請求項１記載の情報処理装置。
前記演算部は、さらに、
前記構造解析の過程で生成された物質の構造を前記記憶部に格納し、前記記憶部に該構造が格納されるごとに、前記クラスタリング、前記追加、および前記構造解析を繰り返し実行する、
請求項２記載の情報処理装置。
前記演算部は、構造解析において、前記次元集合に含まれるすべての前記指標次元それぞれを座標軸とする多次元空間において前記複数の構造のクラスタリングを行い、いずれのクラスタにも含まれないはずれ値となった構造を初期構造とする分子動力学シミュレーションを行う、
請求項２または３記載の情報処理装置。
コンピュータが、
構造が変化する物質の構造を表す複数の次元のうちの、前記物質の構造解析の指標とする指標次元の集合である次元集合に含まれない複数の候補次元それぞれについて、候補次元と前記次元集合に含まれるすべての前記指標次元とを座標軸とする多次元空間において、前記物質の複数の構造のクラスタリングを行い、
最も多くのクラスタを生成させることができた特定の候補次元を、前記指標次元として前記次元集合に追加する、
指標次元抽出方法。
コンピュータに、
構造が変化する物質の構造を表す複数の次元のうちの、前記物質の構造解析の指標とする指標次元の集合である次元集合に含まれない複数の候補次元それぞれについて、候補次元と前記次元集合に含まれるすべての前記指標次元とを座標軸とする多次元空間において、前記物質の複数の構造のクラスタリングを行い、
最も多くのクラスタを生成させることができた特定の候補次元を、前記指標次元として前記次元集合に追加する、
処理を実行させる指標次元抽出プログラム。