JP4084040B2 - 蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体 - Google Patents

蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体 Download PDF

Info

Publication number
JP4084040B2
JP4084040B2 JP2001398569A JP2001398569A JP4084040B2 JP 4084040 B2 JP4084040 B2 JP 4084040B2 JP 2001398569 A JP2001398569 A JP 2001398569A JP 2001398569 A JP2001398569 A JP 2001398569A JP 4084040 B2 JP4084040 B2 JP 4084040B2
Authority
JP
Japan
Prior art keywords
fragment
sequence
matrix
query
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001398569A
Other languages
English (en)
Other versions
JP2003196575A (ja
Inventor
静司 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Celestar Lexico Sciences Inc
Original Assignee
Celestar Lexico Sciences Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Celestar Lexico Sciences Inc filed Critical Celestar Lexico Sciences Inc
Priority to JP2001398569A priority Critical patent/JP4084040B2/ja
Priority to EP02792060A priority patent/EP1460559A4/en
Priority to PCT/JP2002/013832 priority patent/WO2003056461A1/ja
Publication of JP2003196575A publication Critical patent/JP2003196575A/ja
Priority to US10/846,622 priority patent/US20050026217A1/en
Application granted granted Critical
Publication of JP4084040B2 publication Critical patent/JP4084040B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体に関し、特に、配列と構造の相関により蛋白質の立体構造を予測する蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体に関する。
【0002】
【従来の技術】
蛋白質の立体構造は、配列情報から一意に決まると言われている。つまり、配列空間と構造空間との間には何らかの相関があるということである。ここで、配列空間と構造空間(ネイティブ構造の空間)の大きさを比較してみると、配列空間の方が大きいと言える。なぜなら、進化的に見ると、配列が多少変化したとしても構造はあまり変化しているようには見えないからである。このことを換言すると、構造の方が配列よりも進化的に保守性が強いとも言える。
【0003】
また、近年の進化的に良く似た蛋白質の構造解析によって、似たような配列をもつ蛋白質は、似たような全体構造をもつということが明らかになってきた。全体は部分の組み合わせから作られていると考えると、蛋白質の全体構造に対して成り立つであろう上記のような経験則が、蛋白質の一部を切り出した部分に関してもある程度成り立つのではないかと考えることができる。
【0004】
実際に、蛋白質の似たような部分配列は似たような部分構造となるという部分配列と部分構造とに相関のあるものが存在している。最近の研究では、部分配列と部分構造との相関を利用して、部分配列から全体構造を組み立てるという試みが試されてきている。
【0005】
例えば、Kim T.Simons等 「Assembly of Protein Tertiary Structures from Fragments with Similar Local Sequences using Simulated Annealing and Bayesian Scoring Functions」J.Mol.Biol.(1997)268,209p−225p(以下「文献1」という)や、ChristopherBystroff等「Predection of Local Structure in Proteins Using a Library of Sequence−Structure Motifs」J.Mol.Biol.(1998)281,565p−577p(以下「文献2」という)により開示された研究においては、部分配列に対応する構造をクラスタリングすることにより、広大な構造(folding)空間を狭めることが可能となり、フォールディング・シミュレーションの計算時間の短縮にも繋がっている。
【0006】
ここで、文献1には、localな配列によってlocal構造は特定の偏った構造に制限されるので構造空間は小さくなること、その構造は配列上近い蛋白質の構造に類似していること、配列のプロファイルをマルチプルアラインメントにより求め、問合せ(query)配列との距離の近さを求めることなどが開示されている。
【0007】
また、文献2には、断片構造と配列の相関がある場合には、断片の配列傾向から限られた数の構造の候補がとりだせること、構造に関しては二つの構造指標を用いてクラスタリングを行い、また、配列についてはfrequency profileの距離を使って計算し、クラスター作成は配列が似ているものの中から構造が似ているものを探してクラスター化することにより実際に配列−構造断片のクラスターを作成することが開示されている。
【0008】
従来技術による構造クラスター作成過程を図1および図2を用いて説明する。ここで、図1は、従来技術により配列をプロファイルで表現した場合の一例を示す図であり、図2は、従来技術による構造クラスター作成イメージを示す図である。
【0009】
まず、配列をプロファイルで表現する。ここで、図1(a)に示すように、配列(AGGED)に対応するアミノ酸に「1」を設定することにより、プロファイルを作成する。また、例えば配列(AGGED)と(ADGDD)が一つのクラスターを構成しているときには、このクラスターのプロファイルを図1(b)のように作成する。すなわち、クラスター内に属する配列に関して、ある位置に存在するアミノ酸の頻度を設定することにより、プロファイルを作成する。プロファイルで比較することにより、配列一つとクラスター間の類似度が計算できる。
【0010】
そして、配列プロファイルの似ているものが同じクラスター(図2の(a)における1から5)に入るように、配列空間においてクラスタリングする(図2の(a))。すなわち、配列プロファイルの類似度を計算して、配列全体の類似度を計算することにより、等方向的なクラスターが作成される。
【0011】
そして、その配列が構造空間においてどの点に対応するかの相関を見て(図2の(b)では、クラスター1について構造空間との相関をとっている)、配列−構造間の相関が大きいものをクラスター化する(図2の(c))。すなわち、図2(b)の配列空間のクラスターに含まれる一つ一つの配列について、構造空間の点が近いもの(構造が似ているもの)を抽出し、構造が似ていないものは捨てる。このように作成されたクラスターと、捨てられた配列とを用いて、処理を繰返すことにより、構造クラスターを作成する。
【0012】
【発明が解決しようとする課題】
しかしながら、これらの従来の手法においては、配列プロファイルを用いた静的な配列と構造との相関クラスターを作っているが、実際には配列空間と構造空間との相関は複雑な多様体を形成していると思われ、プロファイルといういわば空間上で等方向的な相関の取り方では不十分であるという問題点を有していた。
【0013】
また、全体構造は部分構造から作られるとはいえ、当然のことながら部分的に相関の大きいもの、小さいもの、または、相関が見えないものなどがあるはずであり、従来の手法においては、それらの定量化も不十分であるという問題点を有していた。
【0014】
本発明は上記問題点に鑑みてなされたもので、相関の複雑な多様体や相関の確信度をも表現可能なように、部分配列から部分構造の相関を計算することのできる、蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することを目的としている。
【0015】
【課題を解決するための手段】
このような目的を達成するため、請求項1に記載の蛋白質構造予測装置は、記憶部と制御部を少なくとも備えた蛋白質構造予測装置であって、上記記憶部は、蛋白質の配列情報と立体構造情報とを対応付けて記憶した蛋白質構造データベース、を備え、上記制御部は、上記蛋白質構造データベースに記憶された上記蛋白質の配列情報および上記立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成手段と、上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する断片配列類似性検索手段と、上記断片配列類似性検索手段にて取得された上記類似度スコアが、上記断片配列と上記類似の断片配列との行列で表される類似性マトリックスを作成して上記記憶部に格納する類似性マトリックス作成手段と、上記断片配列がどの上記断片構造クラスターに属しているかが、上記断片配列と上記断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して上記記憶部に格納する構造クラスター情報マトリックス作成手段と、上記類似性マトリックス作成手段にて上記記憶部に格納された上記類似性マトリックスと、上記構造クラスター情報マトリックス作成手段にて上記記憶部に格納された上記構造クラスター情報マトリックスとの積に基づいて、上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度、上記断片配列と上記断片構造クラスターとの行列で表される確信度マトリックスを作成して上記記憶部に格納する確信度マトリックス作成手段と、利用者に問合せ配列を入力させる問合せ配列入力手段と、上記問合せ配列入力手段にて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成手段と、上記問合せ断片配列作成手段にて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する問合せ断片配列類似性検索手段と、上記確信度マトリックス作成手段にて上記記憶部に格納された上記確信度マトリックスと、上記問合せ断片配列類似性検索手段にて取得された上記類似の断片配列についての上記類似度スコアのベクトルの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算手段と、上記断片構造確率計算手段にて計算された上記確率に従って上記断片構造クラスターをソートすることにより、上記問合せ配列の上記断片構造を予測する断片配列構造予測手段とを備えたことを特徴とする。
【0016】
この装置によれば、蛋白質構造データベースに記憶された蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成し、断片配列について配列空間上における周囲の断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得し、取得された類似度スコアが、断片配列と類似の断片配列との行列で表される類似性マトリックスを作成して記憶部に格納し、断片配列がどの断片構造クラスターに属しているかが、断片配列と断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して記憶部に格納し、記憶部に格納された類似性マトリックスと、記憶部に格納された構造クラスター情報マトリックスとの積に基づいて、断片配列の類似配列が断片構造クラスターに属する確率である確信度、断片配列と断片構造クラスターとの行列で表される確信度マトリックスを作成して記憶部に格納する。そして、利用者に問合せ配列を入力させ、入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成し、作成された問合せ断片配列について、断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得し、記憶部に格納された確信度マトリックスと、取得された類似の断片配列についての類似度スコアのベクトルの積に基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算し、計算された確率に従って断片構造クラスターをソートすることにより、問合せ配列の断片構造を予測するので、相関の複雑な多様体や相関の確信度をも表現可能なように、部分配列から部分構造の相関を計算し、その部分構造を予測することができるようになる。すなわち、本発明は、構造を計算する際、相関の度合に応じて複数の構造候補の確率(確信度)を与えて持たせておく(確信度の関数を構造変化の確率として用いる)ことができる。
【0017】
また、蛋白質立体構造を相関の大きな部分構造のブロックとして考える手法は以前からあるが、本装置ではまず部分構造のクラスターを作り、構造配列相関多様体の複雑な形を考慮して、問合せ(query)配列が与えられた後に動的に配列相関クラスターを作ることができる。
【0018】
また、本装置は、構造クラスターを違う観点から(例えば、断片配列の長さ、断片構造の解像度、構造クラスターの大きさ、相関の度合い等)いくつも作り、それぞれのデータセットからの構造予測結果を統合して構造を計算することができるようになる。
【0019】
また、請求項2に記載の蛋白質構造予測装置は、請求項1に記載の蛋白質構造予測装置において、上記確信度マトリックス作成手段は、規格化された上記類似性マトリックスと上記構造クラスター情報マトリックスとの積に基づいて、上記確信度マトリックスを作成し、上記断片構造確率計算手段は、規格化された上記類似度スコアのベクトルと上記確信度マトリックスとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する上記確率を計算すること、を特徴とする
【0020】
これは確信度マトリックスの作成の一例を一層具体的に示すものである。この装置によれば、規格化された類似性マトリックスと構造クラスター情報マトリックスとの積に基づいて、確信度マトリックスを作成し、規格化された類似度スコアのベクトルと確信度マトリックスとの積に基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算するので、行列演算手法を用いて類似性検索結果に基づいて簡易かつ精緻に確信度を計算することができるようになる。
【0021】
また、請求項3に記載の蛋白質構造予測装置は、請求項1または2に記載の蛋白質構造予測装置において、上記制御部は、上記断片配列構造予測手段にて予測された上記問合せ配列に関する上記断片構造の上記確率のうち、最大の上記確率を持つ上記断片構造にて初期全体構造を作成し、統計的ポテンシャル法、MC法、または、シミュレーテッド・アニーリング法に基づいて、上記初期全体構造について全体構造のエネルギー値の最適化を行う全体構造最適化手段、をさらに備えたことを特徴とする。
【0022】
この装置によれば、予測された問合せ配列に関する断片構造の確率のうち、最大の確率を持つ断片構造にて初期全体構造を作成し、統計的ポテンシャル法、MC法、または、シミュレーテッド・アニーリング法に基づいて、初期全体構造について全体構造のエネルギー値の最適化を行うので、まず、初期構造を作成する際に様々な可能な断片配列に分割しそれらの最適な予測結果を統合することができるようになる。また、初期構造をさらに最適化を行うことにより、全体構造予測の精度をさらに上げることができるようになる。
【0023】
また、本発明は蛋白質構造予測方法に関するものであり、請求項4に記載の蛋白質構造予測方法は、記憶部と制御部を少なくとも備えた蛋白質構造予測装置において実行される蛋白質構造予測方法であって、上記記憶部は、蛋白質の配列情報と立体構造情報とを対応付けて記憶した蛋白質構造データベースを備えており、上記制御部において実行される、上記蛋白質構造データベースに記憶された上記蛋白質の配列情報および上記立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成ステップと、上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する断片配列類似性検索ステップと、上記断片配列類似性検索ステップにて取得された上記類似度スコアが、上記断片配列と上記類似の断片配列との行列で表される類似性マトリックスを作成して上記記憶部に格納する類似性マトリックス作成ステップと、上記断片配列がどの上記断片構造クラスターに属しているかが、上記断片配列と上記断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して上記記憶部に格納する構造クラスター情報マトリックス作成ステップと、上記類似性マトリックス作成ステップにて上記記憶部に格納された上記類似性マトリックスと、上記構造クラスター情報マトリックス作成ステップにて上記記憶部に格納された上記構造クラスター情報マトリックスとの積に基づいて、上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度、上記断片配列と上記断片構造クラスターとの行列で表される確信度マトリックスを作成して上記記憶部に格納する確信度マトリックス作成ステップと、利用者に問合せ配列を入力させる問合せ配列入力ステップと、上記問合せ配列入力ステップにて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成ステップと、上記問合せ断片配列作成ステップにて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する問合せ断片配列類似性検索ステップと、上記確信度マトリックス作成ステップにて上記記憶部に格納された上記確信度マトリックスと、上記問合せ断片配列類似性検索ステップにて取得された上記類似の断片配列についての上記類似度スコアのベクトルの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算ステップと、上記断片構造確率計算ステップにて計算された上記確率に従って上記断片構造クラスターをソートすることにより、上記問合せ配列の上記断片構造を予測する断片配列構造予測ステップとを含むことを特徴とする。
【0024】
この方法によれば、蛋白質構造データベースに記憶された蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成し、断片配列について配列空間上における周囲の断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得し、取得された類似度スコアが、断片配列と類似の断片配列との行列で表される類似性マトリックスを作成して記憶部に格納し、断片配列がどの断片構造クラスターに属しているかが、断片配列と断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して記憶部に格納し、記憶部に格納された類似性マトリックスと、記憶部に格納された構造クラスター情報マトリックスとの積に基づいて、断片配列の類似配列が断片構造クラスターに属する確率である確信度、断片配列と断片構造クラスターとの行列で表される確信度マトリックスを作成して記憶部に格納する。そして、利用者に問合せ配列を入力させ、入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成し、作成された問合せ断片配列について、断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得し、記憶部に格納された確信度マトリックスと、取得された類似の断片配列についての類似度スコアのベクトルの積に基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算し、計算された確率に従って断片構造クラスターをソートすることにより、問合せ配列の断片構造を予測するので、相関の複雑な多様体や相関の確信度をも表現可能なように、部分配列から部分構造の相関を計算し、その部分構造を予測することができるようになる。すなわち、本発明は、構造を計算する際、相関の度合いに応じて複数の構造候補の確率(確信度)を与えて持たせておく(確信度の関数を構造変化の確率として用いる)ことができる。
【0025】
また、蛋白質立体構造を相関の大きな部分構造のブロックとして考える手法は以前からあるが、本方法ではまず部分構造のクラスターを作り、構造配列相関多様体の複雑な形を考慮して、問合せ(query)配列が与えられた後に動的に配列相関クラスターを作ることができる。
【0026】
また、本方法は、構造クラスターを違う観点から(例えば、断片配列の長さ、断片構造の解像度、構造クラスターの大きさ、相関の度合い等)いくつも作り、それぞれのデータセットからの構造予測結果を統合して構造を計算することができるようになる。
【0027】
また、請求項5に記載の蛋白質構造予測方法は、請求項4に記載の蛋白質構造予測方法において、上記確信度マトリックス作成ステップにおいて、規格化された上記類似性マトリックスと上記構造クラスター情報マトリックスとの積に基づいて、上記確信度マトリックスを作成し、上記断片構造確率計算ステップにおいて、規格化された上記類似度スコアのベクトルと上記確信度マトリックスとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する上記確率を計算すること、を特徴とする
【0028】
これは確信度マトリックスの作成の一例を一層具体的に示すものである。この方法によれば、規格化された類似性マトリックスと構造クラスター情報マトリックスとの積に基づいて、確信度マトリックスを作成し、規格化された類似度スコアのベクトルと確信度マトリックスとの積に基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算するので、行列演算手法を用いて類似性検索結果に基づいて簡易かつ精緻に確信度を計算することができるようになる。
【0029】
また、請求項6に記載の蛋白質構造予測方法は、請求項4または5に記載の蛋白質構造予測方法において、上記制御部において実行される、上記断片配列構造予測ステップにて予測された上記問合せ配列に関する上記断片構造の上記確率のうち、最大の上記確率を持つ上記断片構造にて初期全体構造を作成し、統計的ポテンシャル法、MC法、または、シミュレーテッド・アニーリング法に基づいて、上記初期全体構造について全体構造のエネルギー値の最適化を行う全体構造最適化ステップ、をさらに含むことを特徴とする。
【0030】
この方法によれば、予測された問合せ配列に関する断片構造の確率のうち、最大の確率を持つ断片構造にて初期全体構造を作成し、統計的ポテンシャル法、MC法、または、シミュレーテッド・アニーリング法に基づいて、初期全体構造について全体構造のエネルギー値の最適化を行うので、まず、初期構造を作成する際に様々な可能な断片配列に分割しそれらの最適な予測結果を統合することができるようになる。また、初期構造をさらに最適化を行うことにより、全体構造予測の精度をさらに上げることができるようになる。
【0031】
また、本発明はプログラムに関するものであり、請求項7に記載のプログラムは、記憶部と制御部を少なくとも備えたコンピュータに実行させるためのプログラムであって、上記記憶部は、蛋白質の配列情報と立体構造情報とを対応付けて記憶した蛋白質構造データベースを備えており、上記制御部において、上記蛋白質構造データベースに記憶された上記蛋白質の配列情報および上記立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成ステップと、上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する断片配列類似性検索ステップと、上記断片配列類似性検索ステップにて取得された上記類似度スコアが、上記断片配列と上記類似の断片配列との行列で表される類似性マトリックスを作成して上記記憶部に格納する類似性マトリックス作成ステップと、上記断片配列がどの上記断片構造クラスターに属しているかが、上記断片配列と上記断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して上記記憶部に格納する構造クラスター情報マトリックス作成ステップと、上記類似性マトリックス作成ステップにて上記記憶部に格納された上記類似性マトリックスと、上記構造クラスター情報マトリックス作成ステップにて上記記憶部に格納された上記構造クラスター情報マトリックスとの積に基づいて、上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度、上記断片配列と上記断片構造クラスターとの行列で表される確信度マトリックスを作成して上記記憶部に格納する確信度マトリックス作成ステップと、利用者に問合せ配列を入力させる問合せ配列入力ステップと、上記問合せ配列入力ステップにて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成ステップと、上記問合せ断片配列作成ステップにて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する問合せ断片配列類似性検索ステップと、上記確信度マトリックス作成ステップにて上記記憶部に格納された上記確信度マトリックスと、上記問合せ断片配列類似性検索ステップにて取得された上記類似の断片配列についての上記類似度スコアのベクトルの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算ステップと、上記断片構造確率計算ステップにて計算された上記確率に従って上記断片構造クラスターをソートすることにより、上記問合せ配列の上記断片構造を予測する断片配列構造予測ステップとをコンピュータに実行させることを特徴とする。
【0032】
このプログラムによれば、蛋白質構造データベースに記憶された蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成し、断片配列について配列空間上における周囲の断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得し、取得された類似度スコアが、断片配列と類似の断片配列との行列で表される類似性マトリックスを作成して記憶部に格納し、断片配列がどの断片構造クラスターに属しているかが、断片配列と断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して記憶部に格納し、記憶部に格納された類似性マトリックスと、記憶部に格納された構造クラスター情報マトリックスとの積に基づいて、断片配列の類似配列が断片構造クラスターに属する確率である確信度、断片配列と断片構造クラスターとの行列で表される確信度マトリックスを作成して記憶部に格納する。そして、利用者に問合せ配列を入力させ、入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成し、作成された問合せ断片配列について、断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得し、記憶部に格納された確信度マトリックスと、取得された類似の断片配列についての類似度スコアのベクトルの積に基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算し、計算された確率に従って断片構造クラスターをソートすることにより、問合せ配列の断片構造を予測するので、相関の複雑な多様体や相関の確信度をも表現可能なように、部分配列から部分構造の相関を計算し、その部分構造を予測することができるようになる。すなわち、本発明は、構造を計算する際、相関の度合に応じて複数の構造候補の確率(確信度)を与えて持たせておく(確信度の関数を構造変化の確率として用いる)ことができる。
【0033】
また、蛋白質立体構造を相関の大きな部分構造のブロックとして考える手法は以前からあるが、本プログラムではまず部分構造のクラスターを作り、構造配列相関多様体の複雑な形を考慮して、問合せ(query)配列が与えられた後に動的に配列相関クラスターを作ることができる。
【0034】
また、本プログラムは、構造クラスターを違う観点から(例えば、断片配列の長さ、断片構造の解像度、構造クラスターの大きさ、相関の度合い等)いくつも作り、それぞれのデータセットからの構造予測結果を統合して構造を計算することができるようになる。
【0035】
また、請求項8に記載のプログラムは、請求項7に記載のプログラムにおいて、上記確信度マトリックス作成ステップにおいて、規格化された上記類似性マトリックスと上記構造クラスター情報マトリックスとの積に基づいて、上記確信度マトリックスを作成し、上記断片構造確率計算ステップにおいて、規格化された上記類似度スコアのベクトルと上記確信度マトリックスとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する上記確率を計算すること、を特徴とする
【0036】
これは確信度マトリックスの作成の一例を一層具体的に示すものである。このプログラムによれば、規格化された類似性マトリックスと構造クラスター情報マトリックスとの積に基づいて、確信度マトリックスを作成し、規格化された類似度スコアのベクトルと確信度マトリックスとの積に基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算するので、行列演算手法を用いて類似性検索結果に基づいて簡易かつ精緻に確信度を計算することができるようになる。
【0037】
また、請求項9に記載のプログラムは、請求項7または8に記載のプログラムにおいて、上記制御部において実行させる、上記断片配列構造予測ステップにて予測された上記問合せ配列に関する上記断片構造の上記確率のうち、最大の上記確率を持つ上記断片構造にて初期全体構造を作成し、統計的ポテンシャル法、MC法、または、シミュレーテッド・アニーリング法に基づいて、上記初期全体構造について全体構造のエネルギー値の最適化を行う全体構造最適化ステップ、をさらに含むことを特徴とする。
【0038】
このプログラムによれば、予測された問合せ配列に関する断片構造の確率のうち、最大の確率を持つ断片構造にて初期全体構造を作成し、統計的ポテンシャル法、MC法、または、シミュレーテッド・アニーリング法に基づいて、初期全体構造について全体構造のエネルギー値の最適化を行うので、まず、初期構造を作成する際に様々な可能な断片配列に分割しそれらの最適な予測結果を統合することができるようになる。また、初期構造をさらに最適化を行うことにより、全体構造予測の精度をさらに上げることができるようになる。
【0039】
また、本発明は記録媒体に関するものであり、請求項10に記載の記録媒体は、上記請求項7から9のいずれか一つに記載されたプログラムをコンピュータ読み取り可能に記録したことを特徴とする。
【0040】
この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行させることによって、請求項7から9のいずれか一つに記載されたプログラムをコンピュータを利用して実現することができ、これら各プログラムと同様の効果を得ることができる。
【0041】
【発明の実施の形態】
以下に、本発明にかかる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
【0042】
[本発明の概要]
以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。図3は本発明の基本原理を示す概念図である。
本発明は、概略的に、以下の基本的特徴を有する。すなわち、本発明は、相関の複雑な多様体を表現し、相関の大きさの度合い(確信度)をも計算することができる、部分配列から部分構造への相関の新しい計算手法を提案する。
【0043】
本発明は、まず様々なデータセットから様々な大きさの構造クラスターを作り、その中から配列の類似性データを取り出す。そして、利用者から問合せ(query)配列が与えられた後に、様々な部分配列への分割に対して様々な大きさの構造クラスターを用いて、疑似的に動的な配列から構造への相関クラスターを作成して、部分配列との相関の大きさを計算する。その相関クラスターから、部分構造の予測を行う。
【0044】
本発明におけるクラスター作成過程を以下に説明する。まず、本発明は、配列断片の構造分類を行う。すなわち、既知の蛋白質構造データベースなどに格納された配列情報および構造情報に基づいて、典型的な断片構造を抽出し、それらの断片構造を分類する。
【0045】
そして、図3(a)に示すように、ある断片配列の配列空間における周辺がどのような構造をとっているかをみる。そして、図3(b)に示すように、それぞれの断片配列の周りでどのような典型構造が得られるかをみることにより、配列−構造間の仮想的なクラスターを作成することができる。すなわち、本発明は、ある配列Aの周りに存在するこの配列に似ている配列が、構造空間上でどの構造クラスターに属するか(どのような似方をしていれば、どの構造クラスターに属するか)を計算し、この配列の周りに仮想的なクラスターを作成する。そして、本発明は、ある未知構造配列断片Xが与えられたとき、これが配列Aに似ている、配列Cに似ているなどの情報を取得し、これらの情報に基づいて仮想クラスターを組み合わせて、最終的に配列がどの構造クラスターに属するかを予測する。
【0046】
本発明の全体構造の予測は、次の手順で行う。まず、得られた部分構造の候補から、相関の強さの度合い(確信度)を比較し、相関の強く、部分配列の長い部分構造を用いて行う。相関の弱い部分構造も、確率と共にデータとして保持しておく。そして、保持したデータを用いて、これを次の構造の候補として構造を変化させていくことによりフォールディング・シミュレーション(foldingsimulation)を行う。そして、構造のトポロジーが完成したら全原子系での構造精密化(最適化)を行う。
【0047】
[システム構成]
まず、本システムの構成について説明する。図4は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。本システムは、概略的に、蛋白質構造予測装置100と、蛋白質構造情報等に関する外部データベースやホモロジー検索等の外部プログラム等を提供する外部システム200とを、ネットワーク300を介して通信可能に接続して構成されている。
【0048】
図4においてネットワーク300は、蛋白質構造予測装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。
【0049】
図4において外部システム200は、ネットワーク300を介して、蛋白質構造予測装置100と相互に接続され、利用者に対して蛋白質構造情報等に関する外部データベースやホモロジー検索等の外部分析プログラムを実行するウェブサイトを提供する機能を有する。
【0050】
ここで、外部システム200は、WEBサーバやASPサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。
【0051】
図4において蛋白質構造予測装置100は、概略的に、蛋白質構造予測装置100の全体を統括的に制御するCPU等の制御部102、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部104、入力装置112や出力装置114に接続される入出力制御インターフェース部108、および、各種のデータベースやテーブル(蛋白質構造データベース106a〜確信度マトリックス106d)を格納する記憶部106を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、この蛋白質構造予測装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。
【0052】
記憶部106に格納される各種のデータベースやテーブル(蛋白質構造データベース106a〜確信度マトリックス106d)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0053】
これら記憶部106の各構成要素のうち、蛋白質構造データベース106aは、アミノ酸配列情報(1次構造)と立体構造情報とを対応付けて記録した蛋白質構造情報を格納したデータベースである。蛋白質構造データベース106aは、配列冗長性を排除したものであるものが好ましい。蛋白質構造データベース106aは、インターネットを経由してアクセスする外部の蛋白質構造データベース(例えば、PDB_SELECT等)であってもよく、また、これらのデータベースをコピーしたり、オリジナルの蛋白質構造を格納したり、さらに独自のアノテーション情報等を付加したりして作成したインハウスデータベースであってもよい。
【0054】
また、類似性マトリックス106bは、断片配列に関する類似性検索結果に関する情報等を格納するマトリックステーブルである。
【0055】
また、構造クラスター情報マトリックス106cは、断片配列がどの断片構造クラスターに属しているかを示す情報等を格納するマトリックステーブルである。
【0056】
また、確信度マトリックス106dは、ある断片配列が他の断片配列に似ているという情報が得られたとき、その断片配列が断片構造に属する確信度(確率)を表す情報等を格納するマトリックステーブルである。
【0057】
また、図4において、制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、断片構造クラスター作成部102a、断片配列類似性検索部102b、類似性マトリックス作成部102c、構造クラスター情報マトリックス作成部102d、確信度マトリックス作成部102e、問合せ配列入力部102f、問合せ断片配列作成部102g、問合せ断片配列類似性検索部102h、断片構造確率計算部102i、断片配列構造予測部102j、および、全体構造最適化部102kを備えて構成されている。
【0058】
このうち、断片構造クラスター作成部102aは、蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成手段である。また、断片配列類似性検索部102bは、断片配列について配列空間上における周囲の断片配列と配列類似性検索を行う断片配列類似性検索手段である。また、類似性マトリックス作成部102cは、断片配列類似性検索手段により断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作成手段である。
【0059】
また、構造クラスター情報マトリックス作成部102dは、断片配列がどの断片構造クラスターに属しているかを示す構造クラスター情報を、断片配列と上記構造クラスターの行列で表示した構造クラスター情報マトリックスを作成する構造クラスター情報マトリックス作成手段である。また、確信度マトリックス作成部102eは、断片配列の類似配列が断片構造クラスターに属する確率である確信度を、断片配列と構造クラスターとの行列で表示する確信度マトリックスを作成する確信度マトリックス作成手段である。
【0060】
また、問合せ配列入力部102fは、利用者に問合せ配列を入力させる問合せ配列入力手段である。また、問合せ断片配列作成部102gは、問合せ配列入力手段にて入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成手段である。また、問合せ断片配列類似性検索部102hは、問合せ断片配列作成手段にて作成された問合せ断片配列について、断片配列と配列類似性検索を行う問合せ断片配列類似性検索手段である。また、断片構造確率計算部102iは、確信度マトリックス作成手段にて作成した確信度マトリックスと、問合せ断片配列類似性検索手段の検索結果とに基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算する断片構造確率計算手段である。
【0061】
また、断片配列構造予測部102jは、断片構造確率計算手段にて計算された確率に基づいて、問合せ配列の断片構造を予測する断片配列構造予測手段である。また、全体構造最適化部102kは、最大の確信度を持つ断片構造にて決定された初期全体構造について所定の最適化を行う全体構造最適化手段である。なお、これら各部によって行なわれる処理の詳細については、後述する。
【0062】
[システムの処理]
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に図5〜図15を参照して詳細に説明する。
【0063】
[断片構造予測処理]
次に、断片構造予測処理の詳細について図5〜図14を参照して説明する。図5は、本実施の形態における本システムの断片構造予測処理の一例を示すフローチャートである。
【0064】
まず、蛋白質構造予測装置100は、断片構造クラスター作成部102aの処理により、蛋白質構造データベース106aにアクセスして、蛋白質の配列情報(例えば、アミノ酸配列情報など)および立体構造情報を取得し、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを生成する(ステップSA−1)。ここで、図6は、断片構造クラスター作成部102aが蛋白質構造データベース106aから断片配列とそれに対応する断片構造とを取得する場合の一例を示す概念図である。図6に示すように、断片構造クラスター作成部102aは、所定の長さの断片配列(図6においては7アミノ酸残基)毎に配列を分割し、その断片配列が取る断片構造と対応付けて記憶部106に格納する。ここで、断片の長さは、7残基に限らず、様々な長さで断片構造を分割することができる。
【0065】
ついで、蛋白質構造予測装置100は、断片構造クラスター作成部102aの処理により、断片構造の類似度に基づいて断片構造クラスターを作成する(ステップSA−2)。ここで、図7は、断片構造クラスター作成部102aが作成する断片配列の断片構造クラスターの一例を示す図である。図7に示すように、断片構造クラスター作成部102aは、断片構造の類似度(例えば、rmsdやdmeなど)を類似度の指標として、自己組織化マップ(SOM;self organized map)、k−平均法(k−means)、階層的クラスタリングなどの既知のクラスタリング手法を用いてクラスター化する。
【0066】
また、図8は、階層的クラスター手法を用いて断片構造クラスターを作成する場合の一例を示す図である。図8に示すように、断片構造クラスター作成部102aは、全ての断片構造の距離を計算し、一番距離の近いものを順次まとめていくことによりクラスター化を行っている。ここで、クラスター間の距離は、例えば、それぞれのクラスターに属するもの全ての距離を計算して平均をとる等により計算する。
【0067】
ついで、蛋白質構造予測装置100は、断片配列類似性検索部102bの処理により、全ての断片配列について配列空間上における周囲の断片配列とblast検索等の既存の配列類似性検索手法により、類似の断片配列、類似度スコア、その断片配列が属する断片構造クラスターを取得する(ステップSA−3)。ここで、図9は、断片配列Aについて、その類似の断片配列(D、F、G、S、I等)と、類似度スコア(50、30、28、25、20等)と、その断片配列が属する断片構造クラスター(α、α、β、α、γ等)を検索した場合を示す概念図である。
【0068】
ついで、蛋白質構造予測装置100は、類似性マトリックス作成部102cの処理により、断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックス106bを作成する(ステップSA−4)。ここで、図10は、類似性マトリックス106bに格納される情報の一例を示す図である。図10に示すように、類似性マトリックス106bには、各断片配列に関して類似性検索を実行した結果を格納する。
【0069】
ついで、蛋白質構造予測装置100は、構造クラスター情報マトリックス作成部102dの処理により、断片配列がどの断片構造クラスターに属しているかを示す構造クラスター情報マトリックス106cを作成する(ステップSA−5)。図11は、構造クラスター情報マトリックス106cに格納される情報の一例を示す図である。図11に示すように、断片配列が属する断片構造クラスターに「1」の構造クラスター情報が設定されている。
【0070】
ついで、蛋白質構造予測装置100は、確信度マトリックス作成部102eの処理により、ある断片配列が他の断片配列と類似しているという情報が得られたときに、その断片配列が他の断片配列の構造クラスターに属する確率である確信度を示す確信度マトリックス106dを作成する(ステップSA−6)。ここで、図12は、確信度マトリックス作成部102eが類似性マトリックス106bおよび構造クラスター情報マトリックス106cに基づいて確信度マトリックス106dを作成することを示す概念図である。図12に示すように、確信度マトリックス作成部102eは、規格化した類似性マトリックス106bと構造クラスター情報マトリックス106cの積をとることにより確信度マトリックス106dを作成する。
【0071】
ついで、蛋白質構造予測装置100は、問合せ配列入力部102fの処理により、利用者に問合せ(query)配列を入力させる(ステップSA−7)。この配列の入力は、外部のアミノ酸配列を格納したデータベースから所望の配列を利用者に選択させることにより入力してもよく、また、所望の配列を利用者が直接入力してもよい。
【0072】
ついで、蛋白質構造予測装置100は、問合せ断片配列作成部102gの処理により、問合せ配列について所定の長さの断片配列(例えば7アミノ酸残基)に分割し、その断片配列(問合せ断片配列)を記憶部106に格納する(ステップSA−8)。ここで、断片の長さは、7残基に限らず、様々な長さで断片構造を分割してもよい。
【0073】
ついで、蛋白質構造予測装置100は、問合せ断片配列類似性検索部102hの処理により、問合せ配列の各断片配列(問合せ断片配列)について配列類似性を検索し(ステップSA−9)、その検索結果に基づいて、断片構造確率計算部102iの処理により、断片配列が属する断片構造の確率を計算する(ステップSA−10)。ここで、図13は、問合せ配列(問合せ断片配列)Xについて類似性検索を行い、その検索結果に確信度マトリックス106dを掛け合わせて属する断片構造の確率を計算する場合の一例を示す概念図である。図13に示すように、問合せ配列Xの規格化された類似度ベクトルに確信度マトリックス106dを掛け合わせることにより、問合せ配列Xが各断片構造クラスターに属する確率(確信度)を計算することができる。
【0074】
ついで、蛋白質構造予測装置100は、断片配列構造予測部102jの処理により、この計算された確率(確信度)に基づいて問合せ配列の断片構造を予測する(ステップSA−11)。ここで、図14は、断片配列構造予測部102jによる断片構造予測の一例を示す概念図である。図14に示すように、断片配列構造予測部102jは、問合せ配列Xの類似配列の属する構造クラスターの確信度に従ってソートすることにより、その問合せ断片配列Xが断片構造αに属すると予想する。これにて、断片構造予測処理が終了する。
【0075】
[全体構造予測処理]
次に、全体構造予測処理の詳細について図15を参照して説明する。図15は、本実施形態における本システムの全体構造予測処理の一例を示すフローチャートである。
【0076】
まず、利用者が問合せ(query)配列を入力する(ステップSB−1)。
【0077】
そして、蛋白質構造予測装置100は、問合せ断片配列作成部102gの処理により、問合せ(query)配列を所定の長さの断片配列に分割する(ステップSB−2)。ここで、異なる長さで分割した複数のパターンの断片配列を作成する(図15では2つのパターンを作成している)。
【0078】
そして、蛋白質構造予測装置100は、上述の方法により、断片構造を予測する(ステップSB−3)。
【0079】
そして、蛋白質構造予測装置100は、断片配列構造予測部102jの処理により、最大の確信度を持つ断片構造により初期の全体構造を作成する(ステップSB−4)。
【0080】
そして、蛋白質構造予測装置100は、全体構造最適化部102kの処理により、統計的ポテンシャル法や、MC法や、シミュレーテッド・アニーリング(SA)などを用いて、全体構造について最適化を行う(ステップSB−5)。
【0081】
ここで、最適化の一例を以下に説明する。
(1)全体構造のエネルギー値(Eold)を計算する。
【0082】
(2)継ぎ目の部分については、ランダムに二面角を動かし、動かした後のエネルギー値(Enew)を計算し、動かした二面角が次のステップで採用される確率ρを、
ρ=exp(−βΔE)
(ここで、ΔE= Enew − Eold
により計算する。
【0083】
(3)断片構造については、予測された断片構造の中からランダムに選んで構造を入れ替え、入れ替えた後の確信度(Pnew)のエネルギー値(Enew)を計算し、入れ替えた後の断片構造が次のステップで採用される確率ρを、
ρ=Pnew exp(−βEnew) / Pold exp(−βEold
により計算する。
【0084】
そして、(1)から(3)を繰返すことにより最適化を行う。これにて、全体構造予測処理が終了する。
【0085】
[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
【0086】
例えば、蛋白質構造予測装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、蛋白質構造予測装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
【0087】
また、実施の形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
【0088】
また、蛋白質構造予測装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
例えば、蛋白質構造予測装置100の各部(各装置)が備える処理機能、特に制御部にて行なわれる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じて蛋白質構造予測装置100に機械的に読み取られる。すなわち、ROMまたはHDなどの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAMにロードされることによって実行され、CPUと協働して制御部を構成する。
【0089】
しかしながら、このコンピュータプログラムは、蛋白質構造予測装置100に対して任意のネットワークを介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
【0090】
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
【0091】
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
【0092】
また、ネットワーク300は、蛋白質構造予測装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC―P方式等の携帯回線交換網/携帯パケット交換網や、無線呼出網や、Bluetooth等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
【0093】
記憶部106に格納される各種のデータベース等(蛋白質構造データベース106a〜確信度マトリックス106d)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0094】
また、蛋白質構造予測装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
【0095】
さらに、蛋白質構造予測装置100の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。
【0096】
【発明の効果】
以上詳細に説明したように、本発明によれば、蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成し、断片配列について配列空間上における周囲の断片配列と配列類似性検索を行い、断片配列の類似配列が断片構造クラスターに属する確率である確信度を、断片配列と構造クラスターとの行列で表示する確信度マトリックスを作成する。そして、利用者に問合せ配列を入力させ、入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成し、作成された問合せ断片配列について、断片配列と配列類似性検索を行い、作成した確信度マトリックスと検索結果とに基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算し、計算された確率に基づいて、問合せ配列の断片構造を予測するので、相関の複雑な多様体や相関の確信度をも表現可能なように、部分配列から部分構造の相関を計算し、その部分構造を予測することができるようになる。すなわち、本発明は、構造を計算する際、相関の度合に応じて複数の構造候補の確率(確信度)を与えて持たせておく(確信度の関数を構造変化の確率として用いる)ことができる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0097】
また、蛋白質立体構造を相関の大きな部分構造のブロックとして考える手法は以前からあるが、本装置ではまず部分構造のクラスターを作り、構造配列相関多様体の複雑な形を考慮して、問合せ(query)配列が与えられた後に動的に配列相関クラスターを作ることができる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0098】
また、本発明によれば、構造クラスターを違う観点から(例えば、断片配列の長さ、断片構造の解像度、構造クラスターの大きさ、相関の度合い等)いくつも作り、それぞれのデータセットからの構造予測結果を統合して構造を計算することができる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0099】
また、本発明によれば、断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作成手段と、断片配列がどの断片構造クラスターに属しているかを示す構造クラスター情報を、断片配列と構造クラスターの行列で表示した構造クラスター情報マトリックスを作成し、作成した類似性マトリックスと構造クラスター情報マトリックスとに基づいて、確信度マトリックスを作成するので、行列演算手法を用いて類似性検索結果に基づいて簡易かつ精緻に確信度を計算することができる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0100】
さらに、本発明によれば、最大の確信度を持つ断片構造にて決定された初期全体構造について所定の最適化を行うので、まず、初期構造を作成する際に様々な可能な断片配列に分割しそれらの最適な予測結果を統合することができるようになる。また、初期構造をさらに最適化を行うことにより、全体構造予測の精度をさらに上げることができる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することができる。
【図面の簡単な説明】
【図1】従来技術により配列をプロファイルで表現した場合の一例を示す図である。
【図2】従来技術による構造クラスター作成イメージを示す図である。
【図3】本発明の基本原理を示す概念図である。
【図4】本発明が適用される本システムの構成の一例を示すブロック図である。
【図5】本実施形態における本システムの断片構造予測処理の一例を示すフローチャートである。
【図6】断片構造クラスター作成部102aが蛋白質構造データベース106aから断片配列とそれに対応する断片構造とを取得する場合の一例を示す概念図である。
【図7】断片構造クラスター作成部102aが作成する断片配列の断片構造クラスターの一例を示す図である。
【図8】階層的クラスター手法を用いて断片構造クラスターを作成する場合の一例を示す図である。
【図9】断片配列Aについて、その類似の断片配列(D、F、G、S、I等)と、類似度スコア(50、30、28、25、20等)と、その断片配列が属する断片構造クラスター(α、α、β、α、γ等)を検索した場合を示す概念図である。
【図10】類似性マトリックス106bに格納される情報の一例を示す図である。
【図11】構造クラスター情報マトリックス106cに格納される情報の一例を示す図である。
【図12】確信度マトリックス作成部102eが類似性マトリックス106bおよび構造クラスター情報マトリックス106cに基づいて確信度マトリックス106dを作成することを示す概念図である。
【図13】問合せ配列(問合せ断片配列)Xについて類似性検索を行い、その検索結果に確信度マトリックス106dを掛け合わせて属する断片構造の確率を計算する場合の一例を示す概念図である。
【図14】断片配列構造予測部102jによる断片構造予測の一例を示す概念図である。
【図15】本実施形態における本システムの全体構造予測処理の一例を示すフローチャートである。
【符号の説明】
100 蛋白質構造予測装置
102 制御部
102a 断片構造クラスター作成部
102b 断片配列類似性検索部
102c 類似性マトリックス作成部
102d 構造クラスター情報マトリックス作成部
102e 確信度マトリックス作成部
102f 問合せ配列入力部
102g 問合せ断片配列作成部
102h 問合せ断片配列類似性検索部
102i 断片構造確率計算部
102j 断片配列構造予測部
102k 全体構造最適化部
104 通信制御インターフェース部
106 記憶部
106a 蛋白質構造データベース
106b 類似性マトリックス
106c 構造クラスター情報マトリックス
106d 確信度マトリックス
108 入出力制御インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク

Claims (10)

  1. 記憶部と制御部を少なくとも備えた蛋白質構造予測装置であって、
    上記記憶部は、
    蛋白質の配列情報と立体構造情報とを対応付けて記憶した蛋白質構造データベース、
    を備え、
    上記制御部は、
    上記蛋白質構造データベースに記憶された上記蛋白質の配列情報および上記立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成手段と、
    上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する断片配列類似性検索手段と、
    上記断片配列類似性検索手段にて取得された上記類似度スコアが、上記断片配列と上記類似の断片配列との行列で表される類似性マトリックスを作成して上記記憶部に格納する類似性マトリックス作成手段と、
    上記断片配列がどの上記断片構造クラスターに属しているかが、上記断片配列と上記断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して上記記憶部に格納する構造クラスター情報マトリックス作成手段と、
    上記類似性マトリックス作成手段にて上記記憶部に格納された上記類似性マトリックスと、上記構造クラスター情報マトリックス作成手段にて上記記憶部に格納された上記構造クラスター情報マトリックスとの積に基づいて、上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度、上記断片配列と上記断片構造クラスターとの行列で表される確信度マトリックスを作成して上記記憶部に格納する確信度マトリックス作成手段と、
    利用者に問合せ配列を入力させる問合せ配列入力手段と、
    上記問合せ配列入力手段にて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成手段と、
    上記問合せ断片配列作成手段にて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する問合せ断片配列類似性検索手段と、
    上記確信度マトリックス作成手段にて上記記憶部に格納された上記確信度マトリックスと、上記問合せ断片配列類似性検索手段にて取得された上記類似の断片配列についての上記類似度スコアのベクトルの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算手段と、
    上記断片構造確率計算手段にて計算された上記確率に従って上記断片構造クラスターをソートすることにより、上記問合せ配列の上記断片構造を予測する断片配列構造予測手段と、
    を備えたことを特徴とする蛋白質構造予測装置。
  2. 上記確信度マトリックス作成手段は、
    規格化された上記類似性マトリックスと上記構造クラスター情報マトリックスとの積に基づいて、上記確信度マトリックスを作成し、
    上記断片構造確率計算手段は、
    規格化された上記類似度スコアのベクトルと上記確信度マトリックスとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する上記確率を計算すること、
    を特徴とする請求項1に記載の蛋白質構造予測装置。
  3. 上記制御部は、
    上記断片配列構造予測手段にて予測された上記問合せ配列に関する上記断片構造の上記確率のうち、最大の上記確率を持つ上記断片構造にて初期全体構造を作成し、統計的ポテンシャル法、MC法、または、シミュレーテッド・アニーリング法に基づいて、上記初期全体構造について全体構造のエネルギー値の最適化を行う全体構造最適化手段、
    をさらに備えたことを特徴とする請求項1または2に記載の蛋白質構造予測装置。
  4. 記憶部と制御部を少なくとも備えた蛋白質構造予測装置において実行される蛋白質構造予測方法であって、
    上記記憶部は、蛋白質の配列情報と立体構造情報とを対応付けて記憶した蛋白質構造データベースを備えており、
    上記制御部において実行される、
    上記蛋白質構造データベースに記憶された上記蛋白質の配列情報および上記立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成ステップと、
    上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する断片配列類似性検索ステップと、
    上記断片配列類似性検索ステップにて取得された上記類似度スコアが、上記断片配列と上記類似の断片配列との行列で表される類似性マトリックスを作成して上記記憶部に格納する類似性マトリックス作成ステップと、
    上記断片配列がどの上記断片構造クラスターに属しているかが、上記断片配列と上記断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して上記記憶部に格納する構造クラスター情報マトリックス作成ステップと、
    上記類似性マトリックス作成ステップにて上記記憶部に格納された上記類似性マトリックスと、上記構造クラスター情報マトリックス作成ステップにて上記記憶部に格納された上記構造クラスター情報マトリックスとの積に基づいて、上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度、上記断片配列と上記断片構造クラスターとの行列で表される確信度マトリックスを作成して上記記憶部に格納する確信度マトリックス作成ステップと、
    利用者に問合せ配列を入力させる問合せ配列入力ステップと、
    上記問合せ配列入力ステップにて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成ステップと、
    上記問合せ断片配列作成ステップにて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する問合せ断片配列類似性検索ステップと、
    上記確信度マトリックス作成ステップにて上記記憶部に格納された上記確信度マトリックスと、上記問合せ断片配列類似性検索ステップにて取得された上記類似の断片配列についての上記類似度スコアのベクトルの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算ステップと、
    上記断片構造確率計算ステップにて計算された上記確率に従って上記断片構造クラスターをソートすることにより、上記問合せ配列の上記断片構造を予測する断片配列構造予測ステップと、
    を含むことを特徴とする蛋白質構造予測方法。
  5. 上記確信度マトリックス作成ステップにおいて、
    規格化された上記類似性マトリックスと上記構造クラスター情報マトリックスとの積に基づいて、上記確信度マトリックスを作成し、
    上記断片構造確率計算ステップにおいて、
    規格化された上記類似度スコアのベクトルと上記確信度マトリックスとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する上記確率を計算すること、
    を特徴とする請求項4に記載の蛋白質構造予測方法。
  6. 上記制御部において実行される、
    上記断片配列構造予測ステップにて予測された上記問合せ配列に関する上記断片構造の上記確率のうち、最大の上記確率を持つ上記断片構造にて初期全体構造を作成し、統計的ポテンシャル法、MC法、または、シミュレーテッド・アニーリング法に基づいて、上記初期全体構造について全体構造のエネルギー値の最適化を行う全体構造最適化ステップ、
    をさらに含むことを特徴とする請求項4または5に記載の蛋白質構造予測方法。
  7. 記憶部と制御部を少なくとも備えたコンピュータに実行させるためのプログラムであって、
    上記記憶部は、蛋白質の配列情報と立体構造情報とを対応付けて記憶した蛋白質構造データベースを備えており、
    上記制御部において、
    上記蛋白質構造データベースに記憶された上記蛋白質の配列情報および上記立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成ステップと、
    上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する断片配列類似性検索ステップと、
    上記断片配列類似性検索ステップにて取得された上記類似度スコアが、上記断片配列と上記類似の断片配列との行列で表される類似性マトリックスを作成して上記記憶部に格納する類似性マトリックス作成ステップと、
    上記断片配列がどの上記断片構造クラスターに属しているかが、上記断片配列と上記断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して上記記憶部に格納する構造クラスター情報マトリックス作成ステップと、
    上記類似性マトリックス作成ステップにて上記記憶部に格納された上記類似性マトリックスと、上記構造クラスター情報マトリックス作成ステップにて上記記憶部に格納された上記構造クラスター情報マトリックスとの積に基づいて、上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度、上記断片配列と上記断片構造クラスターとの行列で表される確信度マトリックスを作成して上記記憶部に格納する確信度マトリックス作成ステップと、
    利用者に問合せ配列を入力させる問合せ配列入力ステップと、
    上記問合せ配列入力ステップにて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成ステップと、
    上記問合せ断片配列作成ステップにて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する問合せ断片配列類似性検索ステップと、
    上記確信度マトリックス作成ステップにて上記記憶部に格納された上記確信度マトリックスと、上記問合せ断片配列類似性検索ステップにて取得された上記類似の断片配列についての上記類似度スコアのベクトルの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算ステップと、
    上記断片構造確率計算ステップにて計算された上記確率に従って上記断片構造クラスターをソートすることにより、上記問合せ配列の上記断片構造を予測する断片配列構造予測ステップと、
    をコンピュータに実行させるためのプログラム。
  8. 上記確信度マトリックス作成ステップにおいて、
    規格化された上記類似性マトリックスと上記構造クラスター情報マトリックスとの積に基づいて、上記確信度マトリックスを作成し、
    上記断片構造確率計算ステップにおいて、
    規格化された上記類似度スコアのベクトルと上記確信度マトリックスとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する上記確率を計算すること、
    を特徴とする請求項7に記載のプログラム。
  9. 上記制御部において実行させる、
    上記断片配列構造予測ステップにて予測された上記問合せ配列に関する上記断片構造の上記確率のうち、最大の上記確率を持つ上記断片構造にて初期全体構造を作成し、統計的ポテンシャル法、MC法、または、シミュレーテッド・アニーリング法に基づいて、上記初期全体構造について全体構造のエネルギー値の最適化を行う全体構造最適化ステップ、
    をさらに含むことを特徴とする請求項7または8に記載のプログラム。
  10. 上記請求項7から9のいずれか一つに記載されたプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2001398569A 2001-12-27 2001-12-27 蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体 Expired - Fee Related JP4084040B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2001398569A JP4084040B2 (ja) 2001-12-27 2001-12-27 蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体
EP02792060A EP1460559A4 (en) 2001-12-27 2002-12-27 DEVICE FOR PREDICTING A PROTEIN STRUCTURE, METHOD FOR PREDICTING A PROTEIN STRUCTURE, PROGRAM AND RECORDING MEDIUM
PCT/JP2002/013832 WO2003056461A1 (fr) 2001-12-27 2002-12-27 Dispositif de prediction de structure proteique, procede de prediction de structure proteique, programme et support d'enregistrement associes
US10/846,622 US20050026217A1 (en) 2001-12-27 2004-05-17 Protein structure prediction device, protein structure prediction method, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001398569A JP4084040B2 (ja) 2001-12-27 2001-12-27 蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体

Publications (2)

Publication Number Publication Date
JP2003196575A JP2003196575A (ja) 2003-07-11
JP4084040B2 true JP4084040B2 (ja) 2008-04-30

Family

ID=19189362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001398569A Expired - Fee Related JP4084040B2 (ja) 2001-12-27 2001-12-27 蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体

Country Status (4)

Country Link
US (1) US20050026217A1 (ja)
EP (1) EP1460559A4 (ja)
JP (1) JP4084040B2 (ja)
WO (1) WO2003056461A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716169B2 (en) 2005-12-08 2010-05-11 Electronics And Telecommunications Research Institute System for and method of extracting and clustering information
US9454642B2 (en) * 2010-07-02 2016-09-27 Nec Solution Innovators, Ltd. Prediction device, prediction method, program, and recording medium
CN104200130B (zh) * 2014-07-23 2017-08-11 浙江工业大学 一种基于树结构副本交换和片段组装的蛋白质结构预测方法
JP2017037377A (ja) * 2015-08-07 2017-02-16 富士通株式会社 情報処理装置、シミュレーション方法、およびシミュレーションプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3012441B2 (ja) * 1993-10-01 2000-02-21 日本電気株式会社 タンパク質立体構造予測方法
JP3585613B2 (ja) * 1995-12-08 2004-11-04 富士通株式会社 蛋白質の二次構造予測方法及び装置

Also Published As

Publication number Publication date
JP2003196575A (ja) 2003-07-11
EP1460559A1 (en) 2004-09-22
WO2003056461A1 (fr) 2003-07-10
US20050026217A1 (en) 2005-02-03
EP1460559A4 (en) 2007-01-24

Similar Documents

Publication Publication Date Title
Keller et al. Experimental protein mixture for validating tandem mass spectral analysis
Wang et al. Exploiting ontology graph for predicting sparsely annotated gene function
US20090083275A1 (en) Method, Apparatus and Computer Program Product for Performing a Visual Search Using Grid-Based Feature Organization
Lee et al. Processing and optimizing main memory spatial-keyword queries
JP2004086862A (ja) タンパク質相互作用情報処理装置、タンパク質相互作用情報処理方法、プログラム、および、記録媒体
Selvitopi et al. Distributed many-to-many protein sequence alignment using sparse matrices
Baeten et al. Reconstruction of protein backbones from the BriX collection of canonical protein fragments
CA2942106A1 (en) Aligning and clustering sequence patterns to reveal classificatory functionality of sequences
JP4084040B2 (ja) 蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体
Lo et al. Conformational epitope matching and prediction based on protein surface spiral features
JP2003330934A (ja) 変異体配列解析装置、変異体配列解析方法、プログラム、および、記録媒体
Vaddadi et al. Read mapping on genome variation graphs
Hui et al. Incremental mining of temporal patterns in interval-based database
JP3880417B2 (ja) 遺伝子発現情報管理装置、遺伝子発現情報管理方法、プログラム、および、記録媒体
Moschopoulos et al. GIBA: a clustering tool for detecting protein complexes
Woo et al. MONACO: accurate biological network alignment through optimal neighborhood matching between focal nodes
Liu et al. TM-search: An Efficient and Effective Tool for Protein Structure Database Search
EP1460560A1 (en) Apparatus for predicting interaction site, method of predicting interaction site, program and recording medium
CN115862742A (zh) 基于自注意力机制的双向肽段测序方法及应用
EP1471444A1 (en) Rna sequence analyzer, and rna sequence analysis method, program and recording medium
JP4054574B2 (ja) 相互作用部位予測装置、相互作用部位予測方法、プログラム、および、記録媒体
JP4250443B2 (ja) 抗体設計装置、抗体設計方法、プログラム、および、記録媒体
CN113519029A (zh) 生物测序
Plewczynski et al. Molecular modeling of phosphorylation sites in proteins using a database of local structure segments
JPWO2004051546A1 (ja) 配列情報処理装置、配列情報処理方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080214

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110222

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110222

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130222

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140222

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees