JP6558754B2 - 情報処理装置、指標次元抽出方法、および指標次元抽出プログラム - Google Patents

情報処理装置、指標次元抽出方法、および指標次元抽出プログラム Download PDF

Info

Publication number
JP6558754B2
JP6558754B2 JP2015156703A JP2015156703A JP6558754B2 JP 6558754 B2 JP6558754 B2 JP 6558754B2 JP 2015156703 A JP2015156703 A JP 2015156703A JP 2015156703 A JP2015156703 A JP 2015156703A JP 6558754 B2 JP6558754 B2 JP 6558754B2
Authority
JP
Japan
Prior art keywords
dimension
dimensions
index
clustering
substance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015156703A
Other languages
English (en)
Other versions
JP2017037378A (ja
Inventor
朋健 中村
朋健 中村
隆平 原田
隆平 原田
育照 重田
育照 重田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
University of Tsukuba NUC
Original Assignee
Fujitsu Ltd
University of Tsukuba NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, University of Tsukuba NUC filed Critical Fujitsu Ltd
Priority to JP2015156703A priority Critical patent/JP6558754B2/ja
Priority to US15/228,873 priority patent/US10275512B2/en
Publication of JP2017037378A publication Critical patent/JP2017037378A/ja
Application granted granted Critical
Publication of JP6558754B2 publication Critical patent/JP6558754B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Description

本発明は、情報処理装置、指標次元抽出方法、および指標次元抽出プログラムに関する。
タンパク質を構成する原子は少しずつ位置を変えており、タンパク質の構造は時々刻々変化する。このようなタンパク質の構造の変化をコンピュータでシミュレーションする技術として、分子動力学(MD:Molecular Dynamics)シミュレーションがある。
MDシミュレーションでは、初期状態として配置された原子それぞれに、他の原子からおよぶ力が計算され、その力を受けた原子がどのように運動するかがニュートンの運動方程式に基づいて計算される。これにより、最初の配置から一定時間経過後の原子の配置が算出される。コンピュータによりこの計算を繰り返すことで、タンパク質構造変化を再現し、例えばタンパク質の機能解析に役立てることができる。
MDシミュレーションによるタンパク質の構造変化の再現には、様々な方法が提案されている。例えば、MDシミュレーションを用いたタンパク質の構造変化の再現手法の1つに、OFLOODと呼ばれる、はずれ値検出に基づくタンパク質構造変化サンプリング手法がある。
OFLOODでは、MDシミュレーションで得られた原子座標時系列データ(トラジェクトリ)のクラスタリングが行われる。なおトラジェクトリは、時々刻々変化するタンパク質の原子座標の集合である。さらにOFLOODでは、トラジェクトリに含まれるタンパク質構造のうち、いずれのクラスタにも含まれないタンパク質構造がはずれ値として取得される。そしてOFLOODでは、はずれ値に対して、再度、短時間のMDシミュレーションが実行される。これにより、まれに発生するタンパク質構造を考慮に入れた、適切な生体分子の機能変化解析が可能となる。
なお、OFLOODにおけるクラスタリングでは、FlexDiceと呼ばれるクラスタリング手法が利用されている。FlexDiceは、高次元データ空間上の疎な領域によって分けられる密な領域のデータ要素をリアルタイムに集めるクラスタリング手法である。
他にも、タンパク質構造を解析する様々な技術がある。例えば、相関のない振動モードに分解して、タンパク質の大規模構造変化につながる緩和の遅い重要な振動モードを抽出する解析手法も提案されている。また独立したサブスペースの解析により、タンパク質の連結された組織的動きを検出する方法が提案されている。また好ましい生物学的機能を有する最適化されたタンパク質について、タンパク質ライブラリーを効率的に作成しスクリーニングする方法も考えられている。また機能性ペプチドを効率的に見出すことを可能にする技術も考えられている。さらに、単純な線状コードを用いて複合炭水化物を表すことによって、複合炭水化物を保存し、検索し、比較し、分析する方法も考えられている。
特開2010−88451号公報 特開2010−222300号公報 特表2004−505334号公報
Ryuhei Harada, Tomotake Nakamura, Yu Takano, and Yasuteru Shigeta, "Protein Folding Pathways Extracted by OFLOOD: Outlier FLOODing Method" Journal of Computational Chemistry, January 15, 2015, Volume 36, Issue 2, pages 97-102. 中村 朋健, 上土井 陽子, 若林 真一, 吉田 典可、「FlexDice:高次元な大規模データセットに対する高速クラスタリング手法」、情報処理学会論文誌、データベース、Vol. 46、No. SIG 18、pp. 40-49、2005年12月. Yusuke Naritomi and Sotaro Fuchigami, "Slow dynamics in protein fluctuations revealed by time-structure based independent component analysis: The case of domain motions", The Journal of chemical physics 134, 065101, 2011 Feb. 14. Shun Sakuraba, Yasumasa Joti, Akio Kitao, "Detecting coupled collective motions in protein by independent subspace analysis.", The Journal of chemical physics 133, 185102, 2010 Nov. 14.
OFLOODなどの技術でタンパク質の構造解析を行う場合、解析指標として適切な反応座標(次元)を選択しなければ、興味のあるタンパク質構造変化を抽出することはできない。解析に用いられる次元は、例えば、特定の原子の特定の軸の座標や、特定の2つの原子間の距離などである。従来は、タンパク質の構造解析を行う際には、経験的にある程度分かっている重要な次元が用いられている。
しかし、既に分かっている重要な次元以外にも重要な次元が存在する可能性がある。現在、そのような未知の重要な次元を見つけ出す有効な方法がない。タンパク質の構造変化の解析を効率的に実施するには、重要な次元を確実に選択してタンパク質の構造解析を実施することが重要である。
このような物質の構造解析に用いる重要な次元の選択の困難性に関する問題は、タンパク質に限らず、構造が変化する物質(例えばタンパク質以外の生体高分子)の構造解析全般において、同様に存在する。
1つの側面では、物質の構造解析において重要な次元を確実に解析指標として採用できるようにすることを目的とする。
1つの案では、構造が変化する物質の複数の構造と、物質の構造を表す複数の次元のうちの、物質の構造解析の指標とする指標次元の集合である次元集合とを記憶する記憶部と、複数の次元のうちの、次元集合に含まれていない複数の候補次元それぞれについて、候補次元と次元集合に含まれるすべての指標次元とを座標軸とする多次元空間において複数の構造のクラスタリングを行い、最も多くのクラスタを生成させることができた特定の候補次元を、指標次元として次元集合に追加する演算部と、を有する情報処理装置が提供される。
1態様によれば、物質の構造解析において重要な次元を確実に解析指標として採用可能となる。
第1の実施の形態に係る情報処理装置の構成例を示す図である。 第2の実施の形態に用いるコンピュータのハードウェアの一構成例を示す図である。 隠れ次元を用いたタンパク質構造解析機能を示すブロック図である。 トラジェクトリの一例を示す図である。 タンパク質の構造データの一例を示す図である。 トラジェクトリの生成例を示す図である。 FlexDiceによるクラスタリングの一例を示す図である。 次元の付加によるクラスタ数の増加状況を示す図である。 隠れ次元の判定例を示す図である。 タンパク質構造解析処理の手順の一例を示すフローチャートである。
以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第1の実施の形態〕
まず、第1の実施の形態について説明する。第1の実施の形態は、構造が変化する物質の構造解析を行う際に、解析に重要な指標となる次元を漏らさずに選択可能な情報処理装置である。
図1は、第1の実施の形態に係る情報処理装置の構成例を示す図である。情報処理装置10は、記憶部11と演算部12とを有する。
記憶部11は、構造が変化する物質の複数の構造(物質構造11a−1,11a−2,・・・)と、物質の構造を表す複数の次元のうちの、構造解析の指標とする次元の集合である次元集合11bとを記憶する。次元集合11bには、初期値として、例えば予め重要であることが既知の次元が設定されている。
演算部12は、物質の構造を表す複数の次元のうちの、次元集合11bに含まれていない複数の次元を、候補次元とする。そして演算部12は、複数の候補次元それぞれについて、候補次元と次元集合11bに含まれるすべての指標次元とを座標軸とする多次元空間において物質構造11a−1,11a−2,・・・のクラスタリングを行う(ステップS1)。例えば、物質の構造を表す複数の次元として「d1,d2,d3,d4,d5」があり、そのうち「d1,d2」については重要な次元であることが既知であるものとする。この場合、「d3,d4,d5」それぞれが候補次元となる。このとき演算部12は、「d1,d2,d3」の3次元空間におけるクラスタリング、「d1,d2,d4」の3次元空間におけるクラスタリング、および「d1,d2,d5」の3次元空間におけるクラスタリングを行う。
そして演算部12は、複数の候補次元のうち最も多くのクラスタを生成させることができた候補次元を、重要ではあるがまだ解析の指標とされていない次元(隠れ次元)と判断し、その隠れ次元を次元集合11bに追加する(ステップS2)。図1の例では、次元d3を追加してクラスタリングした結果、6つのクラスタが生成されている。次元d4を追加してクラスタリングした結果、5つのクラスタが生成されている。次元d5を追加してクラスタリングした結果、2つのクラスタが生成されている。すなわち、次元d3を追加した場合に、最もクラスタ数が多くなっている。そこで、演算部12は、次元d3を隠れ次元と判定し、次元集合11bに追加する。隠れ次元が次元集合11bに追加されることで、その隠れ次元は、以後、構造解析の指標として扱われる。
さらに演算部12は、次元集合11bに構造解析の指標とする次元が追加されるごとに、次元集合11bに含まれる指標次元を指標として複数の構造に基づく物質の構造解析を行う(ステップS3)。例えば演算部12は、OFLOODによる解析を行う。OFLOODを実施する場合、演算部12は、次元集合11bに含まれる指標次元を座標軸とする多次元空間において複数の構造のクラスタリングを行い、いずれのクラスタにも含まれないはずれ値となった構造を初期構造とするMDシミュレーションを行う。
また演算部12は、MDシミュレーションを行った場合、MDシミュレーションによって生成される物質の構造を、記憶部11に格納する。そして演算部12は、記憶部11に物質の構造が格納されるごとに、上記ステップS1〜S3の処理を繰り返し実行する。
このような情報処理装置10によれば、複数の次元の中から重要な隠れ次元を適切に判定することができる。その結果、重要な次元を確実に構造解析の指標として採用することができる。
例えば、物質の構造を表すすべての次元を用いて構造解析を実施できれば、極めて詳細な解析が可能となる。しかし、タンパク質のような複雑な構造を有する物質の場合、次元数が多く、すべての次元を用いた解析は、情報処理装置10の性能上、現実には無理である。そこで、選択された重要な次元を用いて解析することになる。予め重要であると分かっている次元もあるが、他の多くの次元は重要かどうかが不明である。重要と思われていない次元であっても、有用な次元の可能性がある。このように、重要であるかどうかが不明な次元のなかに、実際には重要な次元(隠れ次元)が存在するとき、第1の実施の形態によれば、その隠れ次元を自動で抽出し、構造解析の際の指標次元に追加できる。隠れ次元を加えて解析を行うことで、より詳細な構造解析が可能となる。しかも、特に重要と思われる次元のみを指標次元に加えるため、計算量の増加は最小減に抑えられる。
また第1の実施の形態では、クラスタリングにより生成されるクラスタ数が最多となる次元を、隠れ次元としている。このような隠れ次元を解析の指標として用いれば、物質の複数の構造を、より少ない指標で適切に分類できる。物質の複数の構造を適切に分類できることで、物質の構造変化などの解析の精度を向上させることができる。例えば、クラスタ間を遷移するような大きな構造変化を捉えるための解析を実施する場合、クラスタが正しく生成されることで、目的の構造変化を正しく認識することができる。
なお、演算部12は、例えば情報処理装置10が有するプロセッサにより実現することができる。また、記憶部11は、例えば情報処理装置10が有するメモリにより実現することができる。
〔第2の実施の形態〕
次に第2の実施の形態について説明する。第2の実施の形態は、解析対象物質をタンパク質として、第1の実施の形態をより具体化したものである。
図2は、第2の実施の形態に用いるコンピュータのハードウェアの一構成例を示す図である。コンピュータ100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してメモリ102と複数の周辺機器が接続されている。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、またはDSP(Digital Signal Processor)である。プロセッサ101がプログラムを実行することで実現する機能の少なくとも一部を、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現してもよい。
メモリ102は、コンピュータ100の主記憶装置として使用される。メモリ102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ102には、プロセッサ101による処理に利用する各種データが格納される。メモリ102としては、例えばRAM(Random Access Memory)などの揮発性の半導体記憶装置が使用される。
バス109に接続されている周辺機器としては、HDD(Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
HDD103は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD103は、コンピュータ100の補助記憶装置として使用される。HDD103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、フラッシュメモリなどの不揮発性の半導体記憶装置(SSD:Solid State Drive)を使用することもできる。
グラフィック処理装置104には、モニタ21が接続されている。グラフィック処理装置104は、プロセッサ101からの命令に従って、画像をモニタ21の画面に表示させる。モニタ21としては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置などがある。
入力インタフェース105には、キーボード22とマウス23とが接続されている。入力インタフェース105は、キーボード22やマウス23から送られてくる信号をプロセッサ101に送信する。なお、マウス23は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ装置106は、レーザ光などを利用して、光ディスク24に記録されたデータの読み取りを行う。光ディスク24は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク24には、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。
機器接続インタフェース107は、コンピュータ100に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース107には、メモリ装置25やメモリリーダライタ26を接続することができる。メモリ装置25は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ26は、メモリカード27へのデータの書き込み、またはメモリカード27からのデータの読み出しを行う装置である。メモリカード27は、カード型の記録媒体である。
ネットワークインタフェース108は、ネットワーク20に接続されている。ネットワークインタフェース108は、ネットワーク20を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
以上のようなハードウェア構成によって、第2の実施の形態の処理機能を実現することができる。なお、第1の実施の形態に示した装置も、図2に示したコンピュータ100と同様のハードウェアにより実現することができる。
コンピュータ100は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施の形態の処理機能を実現する。コンピュータ100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、コンピュータ100に実行させるプログラムをHDD103に格納しておくことができる。プロセッサ101は、HDD103内のプログラムの少なくとも一部をメモリ102にロードし、プログラムを実行する。またコンピュータ100に実行させるプログラムを、光ディスク24、メモリ装置25、メモリカード27などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ101からの制御により、HDD103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
以上のようなハードウェアのコンピュータ100により、隠れ次元を用いたタンパク質の構造解析が行われる。
図3は、隠れ次元を用いたタンパク質構造解析機能を示すブロック図である。コンピュータ100は、隠れ次元を用いたタンパク質構造解析を行うため、記憶部110、クラスタリング部120、隠れ次元判定部130、およびOFLOOD部140を有する。
記憶部110は、複数のトラジェクトリ111−1,111−2,・・・、重要次元情報112、および隠れ次元情報113を記憶する。トラジェクトリ111−1,111−2,・・・は、タンパク質構造の時系列変化を表すデータである。トラジェクトリ111−1,111−2,・・・それぞれには、複数のタンパク質構造が含まれる。重要次元情報112は、既知となっている重要な反応座標(重要次元)を示す情報である。重要次元情報112は、タンパク質構造解析の実行前に、予め設定される情報である。隠れ次元情報113は、重要次元以外の反応座標のうち、タンパク質構造解析に重要な自由度と判断された反応座標(隠れ次元)を示す情報である。
クラスタリング部120は、重要次元に対して別の一次元(候補次元)を加えた多次元空間で、複数のトラジェクトリ111−1,111−2,・・・のクラスタリングを行う。クラスタリング技術としては、例えばFlexDiceを用いる。クラスタリング部120は、候補次元を変えながら、繰り返しクラスタリングを実行する。
隠れ次元判定部130は、クラスタリング結果に基づいて隠れ次元を判定する。例えば隠れ次元判定部130は、候補次元ごとに実行されたクラスタリングにより生成されたクラスタ数を、クラスタリング部120から取得する。そして隠れ次元判定部130は、重要次元のみで実行したクラスタリングで生成されるクラスタを、さらに多くのクラスタに、最も多く分割できる候補次元を、隠れ次元と判定する。
OFLOOD部140は、重要次元と隠れ次元とに基づいてOFLOODを実行し、タンパク質構造分布の緩和状況を可視化する。ここでタンパク質構造分布の緩和とは、タンパク質構造変化の収束を意味する。またOFLOODの過程で実行されるFlexDiceのクラスタリングにより、クラスタ(準安定構造)の分布の変化を可視化する。OFLOODの結果の可視化では、例えばOFLOODに用いた反応座標を軸とした空間内に、生成されたタンパク質構造を示すドットがプロットされた図がモニタ21に表示される。
なお、図3に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。
次に、記憶部110に格納される情報について詳細に説明する。
図4は、トラジェクトリの一例を示す図である。トラジェクトリ111には、例えばMDシミュレーションにより、タンパク質が初期構造から変化する様子が示されている。図4の例では、MDシミュレーション上の時間間隔Δtごとの構造が示されている。トラジェクトリ111に含まれるタンパク質構造は、例えばタンパク質を構成する原子の座標を含む構造データで表される。
図5は、タンパク質の構造データの一例を示す図である。構造データ111aには、構造の識別番号が付与されている。構造データ111a内の「ATOM」で始まる各行が、タンパク質に含まれる各原子の情報である。
各行には「ATOM」から右に向かって、原子の通し番号、原子タイプの分類、残基の種類、分子鎖の名前、残基番号、原子のX座標、原子のY座標、原子のX座標、原子の占有率、温度因子、および元素名が設定されている。
以下、タンパク質構造解析処理について詳細に説明する。
タンパク質構造解析処理では、まずMDシミュレーションにより生成されたトラジェクトリが、記憶部110に格納される。
図6は、トラジェクトリの生成例を示す図である。例えばユーザは、実験によるタンパク質の立体構造の解析を行い、解析結果であるタンパク質構造をコンピュータ100に入力する。例えばX線や核磁気共鳴(NMR:Nuclear Magnetic Resonance)により、タンパク質の立体構造を決定することができる。解析により得られたタンパク質構造を、初期構造(入力データ)として、コンピュータ100がMDシミュレーションを実行する。MDシミュレーションにより、タンパク質に働く力に基づいて運動方程式が解かれ、時々刻々変化するタンパク質構造を示すトラジェクトリが出力される。出力されたトラジェクトリは、記憶部110に格納される。
このようにして得られたトラジェクトリを元に、OFLOOD部140によるタンパク質構造変化抽出が行われる。
なお、第2の実施の形態に係る技術を適用せずにOFLOODを実施すると、経験的にある程度分かっている重要な次元のみを用いて構造リサンプリングが実行される。実際問題として、予め興味のあるタンパク質構造変化に重要な次元は自明でないことがほとんどであり、最適な次元を設定することができない場合には、効率的にタンパク質構造変化を抽出できない。
そこで第2の実施の形態では、クラスタリング部120が、MDシミュレーションから得られるトラジェクトリをクラスタリングし、隠れ次元判定部130が、タンパク質構造変化にとって重要である自由度を隠れ次元として推定する。これにより、経験則に基づくことなく重要な次元を設定し、OFLOODにおける構造変化抽出の高速化や、効率的な準安定構造の抽出が可能となる。
なお、トラジェクトリのクラスタリングは、例えばFlexDiceにより行うことができる。
図7は、FlexDiceによるクラスタリングの一例を示す図である。FlexDiceは、高次元かつ大規模なデータベースから規則性や特徴を見つけ出すためのクラスタリング手法の1つである。FlexDiceでは、データ要素を分類する指標を軸とする多次元空間に、データ要素が配置される。タンパク質構造をデータ要素とする場合、例えば特定の原子のある軸の座標、所定の2つの原子間距離などが、分類の指標となる。図7の例では、2つの指標で分類した場合を想定した例が示されている。
FlexDiceでは、2つの指標それぞれに対応する2つの軸を有する平面が定義される。各タンパク質構造は、指標の値に応じて、第1レイヤ(1st layer)の平面上に配置される。第1レイヤでは、すべてのタンパク質構造を包含する1つの矩形領域が、セル31として定義される。
上位のレイヤのセルを、セル内のタンパク質構造の密度に応じて分割しながら、第2レイヤ、第3レイヤ、・・・と、新たなレイヤが生成される。例えば、セル内のタンパク質構造の密度が上限値以上であれば、そのセルは、密セルと判断される。セル内のタンパク質構造の密度が上限値より小さく、下限値以上であれば、そのセルは、中セルと判断される。セル内のタンパク質構造の密度が下限値より小さければ、そのセルは、疎セルと判断される。上位レイヤの次の下位レイヤを生成するとき、上位レイヤのセルのうち、中セルのみが各軸方向に2分割(全体で4分割)される。例えば第kレイヤ(kは2以上の整数)におけるセル32は中セルと判断され、第k+1レイヤにおいて4つのセルに分割されている。一方、セル33は、密セルであるため分割されておらず、セル34は疎セルであるため分割されていない。
このようなレイヤの生成が、所定のレイヤまで繰り返し行われる。そして、最後のレイヤにおいて、隣接する密セル同士が結合される。結合されたセルに含まれるタンパク質構造の集合が、クラスタ41,42を構成する。
このようなFlexDiceによるクラスタリングでは、クラスタ41,42に含まれないタンパク質構造51が存在する。このタンパク質構造51が、はずれ値として検出される。
クラスタリング部120は、隠れ次元を推定するために、候補次元を変えながら、図7に示すようなクラスタリングを繰り返す。そして隠れ次元判定部130が、クラスタリングにより生成されるクラスタ数を観察し、次元付加によりクラスタ数が最も大きく変化した次元を重要な隠れ次元と判定する。
図8は、次元の付加によるクラスタ数の増加状況を示す図である。図8の左側には、既知の重要次元を指標としたときのタンパク質構造の分布が示されている。横軸は、タンパク質構造の重要次元の値であり、縦軸は、重要次元の値ごとのタンパク質構造数である。この例では、既知の重要次元を指標としてクラスタリングを行った結果、タンパク質の場外の分布がガウス分布(調和的分布)となっている。すなわち分布状況が単峰性であり、クラスタリングにより得られるクラスタは1だけである。
図8の右側には、重要次元と1つの候補次元とを指標としたときのタンパク質構造の分布が示されている。横軸は、タンパク質構造の候補次元の値であり、縦軸は、候補次元の値ごとのタンパク質構造数である。この例では、候補次元の付加により、クラスタ数が1つ(左)から2つ(右)に変化している。つまり、候補次元の付加前は分布のピークが1つであったが、候補次元の付加によりピークが2つ(多峰性)になり非調和性が現れた。分布状況のピークが2つになったことで、クラスタリングにより得られるクラスタも2つとなる。
このように、次元付加によりクラスタの数が多次元空間で変化する場合がある。そこで、隠れ次元判定部130は、追加する次元を変えながらFlexDiceによりクラスタリングが行われたときのクラスタの数の変化を観察し、最も大きく分布が摂動を受ける候補次元を隠れ次元と判定する。
図9は、隠れ次元の判定例を示す図である。図9の例では、d1,d2次元が重要な次元であることが既知であるものとする。この場合、まずd1,d2次元でのクラスタリングが行われる。図9の例では、準安定構造をC1およびC2としたとき、準安定構造ごとのクラスタが生成されている。この場合のクラスタ数は「2」である。
ここで、隠れ次元の候補としてd3,d4,d5次元があるものとする。この場合、クラスタリング部120は、d1,d2,d3次元でのクラスタリング、d1,d2,d4次元でのクラスタリング、およびd1,d2,d5次元でのクラスタリングを行う。d1,d2,d3次元でのクラスタリングにより生成されたクラスタの数は「6」である。d1,d2,d4次元でのクラスタリングにより生成されたクラスタの数は「5」である。d1,d2,d5次元でのクラスタリングにより生成されたクラスタの数は「2」である。
その結果、次元を1つ上げたクラスタリングにおいて、最も多くクラスタの数が変化したのは、d3次元を付加した場合であることが分かる。そこで、d3が隠れ次元と判定される。
以後、次元数を1つずつ増やしてクラスタ数の変化が観察され、順次、隠れ次元が判定される。すなわち、次元を1つ上げた際に、次元を上げる前と比較して最もクラスタ数の増加が大きい次元が隠れ次元と判定される。
なお、隠れ次元を1つ増やすごとにOFLOOD部140がOFLOODを実行することで、より適切なクラスタリングによる、タンパク質構造のサンプリング抽出が可能となる。すなわちOFLOOD部140は、既に生成されているタンパク質構造を、FlexDiceによりクラスタリングする。図7に示したように、FlexDiceを実施すると、いずれのクラスタにも含まれないタンパク質構造が、はずれ値として検出される。OFLOOD部140は、検出したはずれ値を初期構造として、MDシミュレーションを行い、トラジェクトリを生成する。
隠れ次元を追加してFlexDiceを実施すれば、クラスタ(準安定構造)を正確に求めることができる。これは、クラスタに含まれない(準安定構造ではない)はずれ値検出の正確性も増すことを意味する。不安定なタンパク質構造を適格にはずれ値として検出できることで、OFLOODによるタンパク質構造の探索範囲の拡張効率が向上し、例えば天然構造を効率的に検出することができるようになる。
次に、タンパク質構造解析処理の手順について、フローチャートを参照して説明する。
図10は、タンパク質構造解析処理の手順の一例を示すフローチャートである。以下、図10に示す処理をステップ番号に沿って説明する。
[ステップS101]クラスタリング部120は、タンパク質ダイナミクスを記述する次元の中から、既知の重要次元を選択する。例えばクラスタリング部120は、記憶部110内の重要次元情報112を参照し、どの次元が重要次元なのかを認識する。以下、タンパク質ダイナミクスを記述する次元数をn(nは1以上の整数)とする。
[ステップS102]クラスタリング部120は、実験によって得られたタンパク質構造を初期構造としたMDシミュレーションの結果として出力されたトラジェクトリを対象として、クラスタリングを行う。例えばクラスタリング部120は、トラジェクトリを構成する複数のタンパク質構造の構造データを記憶部110から取得し、その構造データに示されるタンパク質構造を、FlexDiceによりクラスタリングする。クラスタリングの結果、準安定構造であるタンパク質構造の集合を表すクラスタが生成される。このとき生成されたクラスタを「クラスタA」とする。
[ステップS103]クラスタリング部120は、生成したクラスタ数を、次元追加前クラスタ数としてメモリ102に記録する。
[ステップS104]クラスタリング部120は、タンパク質ダイナミクスを記述する次元のうち、既知の重要次元または既に隠れ次元と判定されている次元以外のi番目の次元di(ここでiは1以上n−2以下の整数)を、1つ選択する。なお、クラスタリング部120は、記憶部110内の重要次元情報112を参照して、どの次元が重要次元なのかを認識し、隠れ次元情報113を参照して、どの次元が隠れ次元なのかを認識する。
[ステップS105]クラスタリング部120は、既知の重要次元および既に隠れ次元と判定されている次元に、選択した次元を追加した多次元空間上で、FlexDiceによるクラスタリングを行う。すなわちクラスタリング部120は、1つの次元diを追加して1次元だけ次元数が上がった構造空間上でトラジェクトリをクラスタリングする。ここで、次元diを追加したクラスタリングにより生成されたクラスタ集合Aiの要素数をEiとする。
なおステップS105においてクラスタリング部120が実行するクラスタリング手法は、FlexDice以外の手法でもよい。例えば、はずれ値の存在を許容しないクラスタリング手法(すべての要素がいずれかのクラスタに含まれる)を用いてもよい。
[ステップS106]クラスタリング部120は、次元追加前クラスタ数からの、ステップS105のクラスタリングで生成されたクラスタの増加数を、選択した次元に対応付けてメモリ102に記録する。
[ステップS107]クラスタリング部120は、タンパク質ダイナミクスを記述する次元のうち、ステップS104〜S106の処理が未処理の次元があるか否かを判断する。未処理の次元があれば、処理がステップS104に進められる。すべての次元に対する処理が終了したら、処理がステップS108に進められる。
[ステップS108]隠れ次元判定部130は、既知の重要次元または既に隠れ次元と判定されている次元以外の次元のうち、次元追加前よりも最も多くのクラスタが生成される次元を、隠れ次元と判定する。例えば数学的に記述すると、max{Ei|1≦i≦n−2}のiに対応する次元diが重要な隠れ次元となる。隠れ次元を判定すると、隠れ次元判定部130は、隠れ次元と判定した次元の情報を、記憶部110内の隠れ次元情報113に追加する。
[ステップS109]隠れ次元判定部130は、隠れ次元が存在したか否かを判断する。例えば隠れ次元判定部130は、次元の追加によりクラスタ数が増加する次元が少なくとも1つあれば、隠れ次元が存在したと判断する。隠れ次元が存在した場合、処理がステップS110に進められる。隠れ次元が存在しなければ処理が終了する。
[ステップS110]OFLOOD部140は、ステップS108で判定した隠れ次元を追加した多次元空間で、OFLOODを実行する。すなわちOFLOOD部140は、新たな隠れ次元を追加した空間でFlexDiceによるクラスタリングを行い、はずれ値を初期構造としたMDシミュレーションを行う。OFLOODの実行により、タンパク質構造分布の緩和を観察することができる。例えば、クラスタ(準安定構造)の分布の変化を観察できる。
[ステップS111]OFLOOD部140は、OFLOODにより生成されたトラジェクトリを記憶部110に格納する。
[ステップS112]クラスタリング部120は、さらに隠れ次元を追加するか否かを判断する。例えばクラスタリング部120は、隠れ次元と判定した次元数が、所定数に達していなければ、さらに隠れ次元を追加すると判断する。隠れ次元と判定した次元数が所定数に達した場合、これ以上の隠れ次元は追加しないと判断する。さらに隠れ次元を追加する場合、処理をステップS104に進める。隠れ次元を追加しない場合、処理が終了する。
このように、使用していない次元を1ずつ付加しながらクラスタの数の変化を観察し、隠れ次元を判定しながらOFLOODを繰り返していくことで、タンパク質構造分布の緩和が観察できる。しかも、隠れ次元が随時追加されることで、OFLOOD内でのはずれ値の判定精度が向上し、大きな構造変化を起こしやすい構造を正確に特定できる。そして大きな構造変化を起こしやすい構造を初期構造としたMDシミュレーションにより、迅速にタンパク質構造分布を緩和させることができる。タンパク質構造分布の緩和は、タンパク質構造変化の収束を意味しており、取り得る可能性のある構造変化を十分探索し終えたことを示す。すなわち、タンパク質構造分布が迅速に緩和するということは、隠れ次元に基づくOFLOODにより効率的に構造探索が実施できたことを意味する。
なお、第2の実施の形態の技術は、多くの分野で利用可能である。例えば、タンパク質機能解析に重要なタンパク質の遅い運動が再現できる。これらのタンパク質大規模構造変化は、通常のMDシミュレーションでは再現する事ができない生物学的レアイベントであり、貴重な構造サンプリングデータとして実験データと比較しうる点において、非常に有用である。また第2の実施の形態により、構造空間にどのような準安定構造が分布しているかを調べることは、直接自由エネルギー地形を探索することに直結する。そのため、リガンド結合による分子認識問題などにも応用可能であり、薬物設計に利用可能である。
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。
10 情報処理装置
11 記憶部
11a−1,11a−2,・・・ 物質構造
11b 次元集合
12 演算部

Claims (6)

  1. 構造が変化する物質の複数の構造と、前記物質の構造を表す複数の次元のうちの、前記物質の構造解析の指標とする指標次元の集合である次元集合とを記憶する記憶部と、
    前記複数の次元のうちの、前記次元集合に含まれていない複数の候補次元それぞれについて、候補次元と前記次元集合に含まれるすべての前記指標次元とを座標軸とする多次元空間において前記複数の構造のクラスタリングを行い、最も多くのクラスタを生成させることができた特定の候補次元を、前記指標次元として前記次元集合に追加する演算部と、
    を有する情報処理装置。
  2. 前記演算部は、さらに、
    前記特定の候補次元が前記指標次元として前記次元集合に追加されると、前記次元集合に含まれるすべての前記指標次元を指標として、前記複数の構造に基づく前記物質の構造解析を行う、
    請求項1記載の情報処理装置。
  3. 前記演算部は、さらに、
    前記構造解析の過程で生成された物質の構造を前記記憶部に格納し、前記記憶部に該構造が格納されるごとに、前記クラスタリング、前記追加、および前記構造解析を繰り返し実行する、
    請求項2記載の情報処理装置。
  4. 前記演算部は、構造解析において、前記次元集合に含まれるすべての前記指標次元それぞれを座標軸とする多次元空間において前記複数の構造のクラスタリングを行い、いずれのクラスタにも含まれないはずれ値となった構造を初期構造とする分子動力学シミュレーションを行う、
    請求項2または3記載の情報処理装置。
  5. コンピュータが、
    構造が変化する物質の構造を表す複数の次元のうちの、前記物質の構造解析の指標とする指標次元の集合である次元集合に含まれない複数の候補次元それぞれについて、候補次元と前記次元集合に含まれるすべての前記指標次元とを座標軸とする多次元空間において、前記物質の複数の構造のクラスタリングを行い、
    最も多くのクラスタを生成させることができた特定の候補次元を、前記指標次元として前記次元集合に追加する、
    指標次元抽出方法。
  6. コンピュータに、
    構造が変化する物質の構造を表す複数の次元のうちの、前記物質の構造解析の指標とする指標次元の集合である次元集合に含まれない複数の候補次元それぞれについて、候補次元と前記次元集合に含まれるすべての前記指標次元とを座標軸とする多次元空間において、前記物質の複数の構造のクラスタリングを行い、
    最も多くのクラスタを生成させることができた特定の候補次元を、前記指標次元として前記次元集合に追加する、
    処理を実行させる指標次元抽出プログラム。
JP2015156703A 2015-08-07 2015-08-07 情報処理装置、指標次元抽出方法、および指標次元抽出プログラム Active JP6558754B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015156703A JP6558754B2 (ja) 2015-08-07 2015-08-07 情報処理装置、指標次元抽出方法、および指標次元抽出プログラム
US15/228,873 US10275512B2 (en) 2015-08-07 2016-08-04 Information processing apparatus and index dimension extracting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015156703A JP6558754B2 (ja) 2015-08-07 2015-08-07 情報処理装置、指標次元抽出方法、および指標次元抽出プログラム

Publications (2)

Publication Number Publication Date
JP2017037378A JP2017037378A (ja) 2017-02-16
JP6558754B2 true JP6558754B2 (ja) 2019-08-14

Family

ID=58047284

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015156703A Active JP6558754B2 (ja) 2015-08-07 2015-08-07 情報処理装置、指標次元抽出方法、および指標次元抽出プログラム

Country Status (2)

Country Link
US (1) US10275512B2 (ja)
JP (1) JP6558754B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4002383A3 (en) 2020-11-13 2022-08-03 Tokyo Institute of Technology Information processing device, information processing method, recording medium recording information processing program, and information processing system
US20220199204A1 (en) * 2020-12-18 2022-06-23 International Business Machines Corporation Iterative state detection for molecular dynamics data
JP7057003B1 (ja) 2021-02-26 2022-04-19 国立大学法人東京工業大学 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム
JP7057004B1 (ja) 2021-03-05 2022-04-19 国立大学法人東京工業大学 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002536301A (ja) * 1999-01-27 2002-10-29 ザ スクリプス リサーチ インスティテュート タンパク質モデリングツール
IL152683A0 (en) 2000-05-19 2003-06-24 Glycominds Ltd System and method for carbohydrate sequence presentation, comparison and analysis
CA2485732A1 (en) 2002-05-20 2003-12-04 Abmaxis, Inc. Generation and selection of protein library in silico
SG177012A1 (en) 2002-05-20 2012-01-30 Abmaxis Inc Generation and selection of protein library in silico
US8374828B1 (en) * 2007-12-24 2013-02-12 The University Of North Carolina At Charlotte Computer implemented system for protein and drug target design utilizing quantified stability and flexibility relationships to control function
JP5582433B2 (ja) 2009-03-24 2014-09-03 国立大学法人名古屋大学 機能性ペプチドを表すルールの抽出法、機能性ペプチドの設計法及び調製法、ポリペプチド又はポリペプチド含有組成物の評価法、並びに機能性ペプチド
US20130304432A1 (en) * 2012-05-09 2013-11-14 Memorial Sloan-Kettering Cancer Center Methods and apparatus for predicting protein structure

Also Published As

Publication number Publication date
JP2017037378A (ja) 2017-02-16
US20170039268A1 (en) 2017-02-09
US10275512B2 (en) 2019-04-30

Similar Documents

Publication Publication Date Title
Karagiorgi et al. Machine learning in the search for new fundamental physics
US10546245B2 (en) Methods for mapping data into lower dimensions
Higham et al. Fitting a geometric graph to a protein–protein interaction network
WO2019129060A1 (zh) 自动生成机器学习样本的特征的方法及系统
JP6558754B2 (ja) 情報処理装置、指標次元抽出方法、および指標次元抽出プログラム
Song et al. Combining Models from Multiple Sources for RGB-D Scene Recognition.
Zhu et al. Developing a pattern discovery method in time series data and its GPU acceleration
Bhardwaj et al. Classification of clusters in collision cascades
Sarumathiy et al. Improvement in Hadoop performance using integrated feature extraction and machine learning algorithms
JP2017037377A (ja) 情報処理装置、シミュレーション方法、およびシミュレーションプログラム
US10671917B1 (en) System for mapping extracted Neural activity into Neuroceptual graphs
Kang et al. Interactive hierarchical tag clouds for summarizing spatiotemporal social contents
Boutsinas A new biclustering algorithm based on association rule mining
Barlowe et al. WaveMap: Interactively Discovering Features From Protein Flexibility Matrices Using Wavelet‐based Visual Analytics
Shi et al. VNGEP: Filter pruning based on von Neumann graph entropy
JP7404705B2 (ja) 結晶材料解析装置、結晶材料解析方法、及び結晶材料解析プログラム
Huang et al. VINCENT: towards efficient exploratory subgraph search in graph databases
Li et al. A real-time machine learning and visualization framework for scientific workflows
Barbieri et al. PALLADIO: a parallel framework for robust variable selection in high-dimensional data
Vandromme et al. A scalable biclustering method for heterogeneous medical data
Riba et al. Error-tolerant coarse-to-fine matching model for hierarchical graphs
Lakshmi et al. Review on density based clustering algorithms for big data
Baker et al. Parallel hybrid quantum-classical machine learning for kernelized time-series classification
Prasad Multiscale graph-based framework for efficient multi-sensor integration and event detection
Steed et al. Extreme scale visual analytics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190709

R150 Certificate of patent or registration of utility model

Ref document number: 6558754

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250