JP4084040B2

JP4084040B2 - 蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体

Info

Publication number: JP4084040B2
Application number: JP2001398569A
Authority: JP
Inventors: 静司齋藤
Original assignee: Celestar Lexico Sciences Inc
Current assignee: Celestar Lexico Sciences Inc
Priority date: 2001-12-27
Filing date: 2001-12-27
Publication date: 2008-04-30
Anticipated expiration: 2021-12-27
Also published as: WO2003056461A1; JP2003196575A; EP1460559A1; US20050026217A1; EP1460559A4

Description

【０００１】
【発明の属する技術分野】
本発明は、蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体に関し、特に、配列と構造の相関により蛋白質の立体構造を予測する蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体に関する。
【０００２】
【従来の技術】
蛋白質の立体構造は、配列情報から一意に決まると言われている。つまり、配列空間と構造空間との間には何らかの相関があるということである。ここで、配列空間と構造空間（ネイティブ構造の空間）の大きさを比較してみると、配列空間の方が大きいと言える。なぜなら、進化的に見ると、配列が多少変化したとしても構造はあまり変化しているようには見えないからである。このことを換言すると、構造の方が配列よりも進化的に保守性が強いとも言える。
【０００３】
また、近年の進化的に良く似た蛋白質の構造解析によって、似たような配列をもつ蛋白質は、似たような全体構造をもつということが明らかになってきた。全体は部分の組み合わせから作られていると考えると、蛋白質の全体構造に対して成り立つであろう上記のような経験則が、蛋白質の一部を切り出した部分に関してもある程度成り立つのではないかと考えることができる。
【０００４】
実際に、蛋白質の似たような部分配列は似たような部分構造となるという部分配列と部分構造とに相関のあるものが存在している。最近の研究では、部分配列と部分構造との相関を利用して、部分配列から全体構造を組み立てるという試みが試されてきている。
【０００５】
例えば、ＫｉｍＴ．Ｓｉｍｏｎｓ等「ＡｓｓｅｍｂｌｙｏｆＰｒｏｔｅｉｎＴｅｒｔｉａｒｙＳｔｒｕｃｔｕｒｅｓｆｒｏｍＦｒａｇｍｅｎｔｓｗｉｔｈＳｉｍｉｌａｒＬｏｃａｌＳｅｑｕｅｎｃｅｓｕｓｉｎｇＳｉｍｕｌａｔｅｄＡｎｎｅａｌｉｎｇａｎｄＢａｙｅｓｉａｎＳｃｏｒｉｎｇＦｕｎｃｔｉｏｎｓ」Ｊ．Ｍｏｌ．Ｂｉｏｌ．（１９９７）２６８，２０９ｐ−２２５ｐ（以下「文献１」という）や、ＣｈｒｉｓｔｏｐｈｅｒＢｙｓｔｒｏｆｆ等「ＰｒｅｄｅｃｔｉｏｎｏｆＬｏｃａｌＳｔｒｕｃｔｕｒｅｉｎＰｒｏｔｅｉｎｓＵｓｉｎｇａＬｉｂｒａｒｙｏｆＳｅｑｕｅｎｃｅ−ＳｔｒｕｃｔｕｒｅＭｏｔｉｆｓ」Ｊ．Ｍｏｌ．Ｂｉｏｌ．（１９９８）２８１，５６５ｐ−５７７ｐ（以下「文献２」という）により開示された研究においては、部分配列に対応する構造をクラスタリングすることにより、広大な構造（ｆｏｌｄｉｎｇ）空間を狭めることが可能となり、フォールディング・シミュレーションの計算時間の短縮にも繋がっている。
【０００６】
ここで、文献１には、ｌｏｃａｌな配列によってｌｏｃａｌ構造は特定の偏った構造に制限されるので構造空間は小さくなること、その構造は配列上近い蛋白質の構造に類似していること、配列のプロファイルをマルチプルアラインメントにより求め、問合せ（ｑｕｅｒｙ）配列との距離の近さを求めることなどが開示されている。
【０００７】
また、文献２には、断片構造と配列の相関がある場合には、断片の配列傾向から限られた数の構造の候補がとりだせること、構造に関しては二つの構造指標を用いてクラスタリングを行い、また、配列についてはｆｒｅｑｕｅｎｃｙｐｒｏｆｉｌｅの距離を使って計算し、クラスター作成は配列が似ているものの中から構造が似ているものを探してクラスター化することにより実際に配列−構造断片のクラスターを作成することが開示されている。
【０００８】
従来技術による構造クラスター作成過程を図１および図２を用いて説明する。ここで、図１は、従来技術により配列をプロファイルで表現した場合の一例を示す図であり、図２は、従来技術による構造クラスター作成イメージを示す図である。
【０００９】
まず、配列をプロファイルで表現する。ここで、図１（ａ）に示すように、配列（ＡＧＧＥＤ）に対応するアミノ酸に「１」を設定することにより、プロファイルを作成する。また、例えば配列（ＡＧＧＥＤ）と（ＡＤＧＤＤ）が一つのクラスターを構成しているときには、このクラスターのプロファイルを図１（ｂ）のように作成する。すなわち、クラスター内に属する配列に関して、ある位置に存在するアミノ酸の頻度を設定することにより、プロファイルを作成する。プロファイルで比較することにより、配列一つとクラスター間の類似度が計算できる。
【００１０】
そして、配列プロファイルの似ているものが同じクラスター（図２の（ａ）における１から５）に入るように、配列空間においてクラスタリングする（図２の（ａ））。すなわち、配列プロファイルの類似度を計算して、配列全体の類似度を計算することにより、等方向的なクラスターが作成される。
【００１１】
そして、その配列が構造空間においてどの点に対応するかの相関を見て（図２の（ｂ）では、クラスター１について構造空間との相関をとっている）、配列−構造間の相関が大きいものをクラスター化する（図２の（ｃ））。すなわち、図２（ｂ）の配列空間のクラスターに含まれる一つ一つの配列について、構造空間の点が近いもの（構造が似ているもの）を抽出し、構造が似ていないものは捨てる。このように作成されたクラスターと、捨てられた配列とを用いて、処理を繰返すことにより、構造クラスターを作成する。
【００１２】
【発明が解決しようとする課題】
しかしながら、これらの従来の手法においては、配列プロファイルを用いた静的な配列と構造との相関クラスターを作っているが、実際には配列空間と構造空間との相関は複雑な多様体を形成していると思われ、プロファイルといういわば空間上で等方向的な相関の取り方では不十分であるという問題点を有していた。
【００１３】
また、全体構造は部分構造から作られるとはいえ、当然のことながら部分的に相関の大きいもの、小さいもの、または、相関が見えないものなどがあるはずであり、従来の手法においては、それらの定量化も不十分であるという問題点を有していた。
【００１４】
本発明は上記問題点に鑑みてなされたもので、相関の複雑な多様体や相関の確信度をも表現可能なように、部分配列から部分構造の相関を計算することのできる、蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することを目的としている。
【００１５】
【課題を解決するための手段】
このような目的を達成するため、請求項１に記載の蛋白質構造予測装置は、記憶部と制御部を少なくとも備えた蛋白質構造予測装置であって、上記記憶部は、蛋白質の配列情報と立体構造情報とを対応付けて記憶した蛋白質構造データベース、を備え、上記制御部は、上記蛋白質構造データベースに記憶された上記蛋白質の配列情報および上記立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成手段と、上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する断片配列類似性検索手段と、上記断片配列類似性検索手段にて取得された上記類似度スコアが、上記断片配列と上記類似の断片配列との行列で表される類似性マトリックスを作成して上記記憶部に格納する類似性マトリックス作成手段と、上記断片配列がどの上記断片構造クラスターに属しているかが、上記断片配列と上記断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して上記記憶部に格納する構造クラスター情報マトリックス作成手段と、上記類似性マトリックス作成手段にて上記記憶部に格納された上記類似性マトリックスと、上記構造クラスター情報マトリックス作成手段にて上記記憶部に格納された上記構造クラスター情報マトリックスとの積に基づいて、上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度が、上記断片配列と上記断片構造クラスターとの行列で表される確信度マトリックスを作成して上記記憶部に格納する確信度マトリックス作成手段と、利用者に問合せ配列を入力させる問合せ配列入力手段と、上記問合せ配列入力手段にて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成手段と、上記問合せ断片配列作成手段にて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する問合せ断片配列類似性検索手段と、上記確信度マトリックス作成手段にて上記記憶部に格納された上記確信度マトリックスと、上記問合せ断片配列類似性検索手段にて取得された上記類似の断片配列についての上記類似度スコアのベクトルとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算手段と、上記断片構造確率計算手段にて計算された上記確率に従って上記断片構造クラスターをソートすることにより、上記問合せ配列の上記断片構造を予測する断片配列構造予測手段とを備えたことを特徴とする。
【００１６】
この装置によれば、蛋白質構造データベースに記憶された蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成し、断片配列について配列空間上における周囲の断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得し、取得された類似度スコアが、断片配列と類似の断片配列との行列で表される類似性マトリックスを作成して記憶部に格納し、断片配列がどの断片構造クラスターに属しているかが、断片配列と断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して記憶部に格納し、記憶部に格納された類似性マトリックスと、記憶部に格納された構造クラスター情報マトリックスとの積に基づいて、断片配列の類似配列が断片構造クラスターに属する確率である確信度が、断片配列と断片構造クラスターとの行列で表される確信度マトリックスを作成して記憶部に格納する。そして、利用者に問合せ配列を入力させ、入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成し、作成された問合せ断片配列について、断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得し、記憶部に格納された確信度マトリックスと、取得された類似の断片配列についての類似度スコアのベクトルとの積に基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算し、計算された確率に従って断片構造クラスターをソートすることにより、問合せ配列の断片構造を予測するので、相関の複雑な多様体や相関の確信度をも表現可能なように、部分配列から部分構造の相関を計算し、その部分構造を予測することができるようになる。すなわち、本発明は、構造を計算する際、相関の度合に応じて複数の構造候補の確率（確信度）を与えて持たせておく（確信度の関数を構造変化の確率として用いる）ことができる。
【００１７】
また、蛋白質立体構造を相関の大きな部分構造のブロックとして考える手法は以前からあるが、本装置ではまず部分構造のクラスターを作り、構造配列相関多様体の複雑な形を考慮して、問合せ（ｑｕｅｒｙ）配列が与えられた後に動的に配列相関クラスターを作ることができる。
【００１８】
また、本装置は、構造クラスターを違う観点から（例えば、断片配列の長さ、断片構造の解像度、構造クラスターの大きさ、相関の度合い等）いくつも作り、それぞれのデータセットからの構造予測結果を統合して構造を計算することができるようになる。
【００１９】
また、請求項２に記載の蛋白質構造予測装置は、請求項１に記載の蛋白質構造予測装置において、上記確信度マトリックス作成手段は、規格化された上記類似性マトリックスと上記構造クラスター情報マトリックスとの積に基づいて、上記確信度マトリックスを作成し、上記断片構造確率計算手段は、規格化された上記類似度スコアのベクトルと上記確信度マトリックスとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する上記確率を計算すること、を特徴とする。
【００２０】
これは確信度マトリックスの作成の一例を一層具体的に示すものである。この装置によれば、規格化された類似性マトリックスと構造クラスター情報マトリックスとの積に基づいて、確信度マトリックスを作成し、規格化された類似度スコアのベクトルと確信度マトリックスとの積に基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算するので、行列演算手法を用いて類似性検索結果に基づいて簡易かつ精緻に確信度を計算することができるようになる。
【００２１】
また、請求項３に記載の蛋白質構造予測装置は、請求項１または２に記載の蛋白質構造予測装置において、上記制御部は、上記断片配列構造予測手段にて予測された上記問合せ配列に関する上記断片構造の上記確率のうち、最大の上記確率を持つ上記断片構造にて初期全体構造を作成し、統計的ポテンシャル法、ＭＣ法、または、シミュレーテッド・アニーリング法に基づいて、上記初期全体構造について全体構造のエネルギー値の最適化を行う全体構造最適化手段、をさらに備えたことを特徴とする。
【００２２】
この装置によれば、予測された問合せ配列に関する断片構造の確率のうち、最大の確率を持つ断片構造にて初期全体構造を作成し、統計的ポテンシャル法、ＭＣ法、または、シミュレーテッド・アニーリング法に基づいて、初期全体構造について全体構造のエネルギー値の最適化を行うので、まず、初期構造を作成する際に様々な可能な断片配列に分割しそれらの最適な予測結果を統合することができるようになる。また、初期構造をさらに最適化を行うことにより、全体構造予測の精度をさらに上げることができるようになる。
【００２３】
また、本発明は蛋白質構造予測方法に関するものであり、請求項４に記載の蛋白質構造予測方法は、記憶部と制御部を少なくとも備えた蛋白質構造予測装置において実行される蛋白質構造予測方法であって、上記記憶部は、蛋白質の配列情報と立体構造情報とを対応付けて記憶した蛋白質構造データベースを備えており、上記制御部において実行される、上記蛋白質構造データベースに記憶された上記蛋白質の配列情報および上記立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成ステップと、上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する断片配列類似性検索ステップと、上記断片配列類似性検索ステップにて取得された上記類似度スコアが、上記断片配列と上記類似の断片配列との行列で表される類似性マトリックスを作成して上記記憶部に格納する類似性マトリックス作成ステップと、上記断片配列がどの上記断片構造クラスターに属しているかが、上記断片配列と上記断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して上記記憶部に格納する構造クラスター情報マトリックス作成ステップと、上記類似性マトリックス作成ステップにて上記記憶部に格納された上記類似性マトリックスと、上記構造クラスター情報マトリックス作成ステップにて上記記憶部に格納された上記構造クラスター情報マトリックスとの積に基づいて、上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度が、上記断片配列と上記断片構造クラスターとの行列で表される確信度マトリックスを作成して上記記憶部に格納する確信度マトリックス作成ステップと、利用者に問合せ配列を入力させる問合せ配列入力ステップと、上記問合せ配列入力ステップにて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成ステップと、上記問合せ断片配列作成ステップにて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する問合せ断片配列類似性検索ステップと、上記確信度マトリックス作成ステップにて上記記憶部に格納された上記確信度マトリックスと、上記問合せ断片配列類似性検索ステップにて取得された上記類似の断片配列についての上記類似度スコアのベクトルとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算ステップと、上記断片構造確率計算ステップにて計算された上記確率に従って上記断片構造クラスターをソートすることにより、上記問合せ配列の上記断片構造を予測する断片配列構造予測ステップとを含むことを特徴とする。
【００２４】
この方法によれば、蛋白質構造データベースに記憶された蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成し、断片配列について配列空間上における周囲の断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得し、取得された類似度スコアが、断片配列と類似の断片配列との行列で表される類似性マトリックスを作成して記憶部に格納し、断片配列がどの断片構造クラスターに属しているかが、断片配列と断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して記憶部に格納し、記憶部に格納された類似性マトリックスと、記憶部に格納された構造クラスター情報マトリックスとの積に基づいて、断片配列の類似配列が断片構造クラスターに属する確率である確信度が、断片配列と断片構造クラスターとの行列で表される確信度マトリックスを作成して記憶部に格納する。そして、利用者に問合せ配列を入力させ、入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成し、作成された問合せ断片配列について、断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得し、記憶部に格納された確信度マトリックスと、取得された類似の断片配列についての類似度スコアのベクトルとの積に基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算し、計算された確率に従って断片構造クラスターをソートすることにより、問合せ配列の断片構造を予測するので、相関の複雑な多様体や相関の確信度をも表現可能なように、部分配列から部分構造の相関を計算し、その部分構造を予測することができるようになる。すなわち、本発明は、構造を計算する際、相関の度合いに応じて複数の構造候補の確率（確信度）を与えて持たせておく（確信度の関数を構造変化の確率として用いる）ことができる。
【００２５】
また、蛋白質立体構造を相関の大きな部分構造のブロックとして考える手法は以前からあるが、本方法ではまず部分構造のクラスターを作り、構造配列相関多様体の複雑な形を考慮して、問合せ（ｑｕｅｒｙ）配列が与えられた後に動的に配列相関クラスターを作ることができる。
【００２６】
また、本方法は、構造クラスターを違う観点から（例えば、断片配列の長さ、断片構造の解像度、構造クラスターの大きさ、相関の度合い等）いくつも作り、それぞれのデータセットからの構造予測結果を統合して構造を計算することができるようになる。
【００２７】
また、請求項５に記載の蛋白質構造予測方法は、請求項４に記載の蛋白質構造予測方法において、上記確信度マトリックス作成ステップにおいて、規格化された上記類似性マトリックスと上記構造クラスター情報マトリックスとの積に基づいて、上記確信度マトリックスを作成し、上記断片構造確率計算ステップにおいて、規格化された上記類似度スコアのベクトルと上記確信度マトリックスとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する上記確率を計算すること、を特徴とする。
【００２８】
これは確信度マトリックスの作成の一例を一層具体的に示すものである。この方法によれば、規格化された類似性マトリックスと構造クラスター情報マトリックスとの積に基づいて、確信度マトリックスを作成し、規格化された類似度スコアのベクトルと確信度マトリックスとの積に基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算するので、行列演算手法を用いて類似性検索結果に基づいて簡易かつ精緻に確信度を計算することができるようになる。
【００２９】
また、請求項６に記載の蛋白質構造予測方法は、請求項４または５に記載の蛋白質構造予測方法において、上記制御部において実行される、上記断片配列構造予測ステップにて予測された上記問合せ配列に関する上記断片構造の上記確率のうち、最大の上記確率を持つ上記断片構造にて初期全体構造を作成し、統計的ポテンシャル法、ＭＣ法、または、シミュレーテッド・アニーリング法に基づいて、上記初期全体構造について全体構造のエネルギー値の最適化を行う全体構造最適化ステップ、をさらに含むことを特徴とする。
【００３０】
この方法によれば、予測された問合せ配列に関する断片構造の確率のうち、最大の確率を持つ断片構造にて初期全体構造を作成し、統計的ポテンシャル法、ＭＣ法、または、シミュレーテッド・アニーリング法に基づいて、初期全体構造について全体構造のエネルギー値の最適化を行うので、まず、初期構造を作成する際に様々な可能な断片配列に分割しそれらの最適な予測結果を統合することができるようになる。また、初期構造をさらに最適化を行うことにより、全体構造予測の精度をさらに上げることができるようになる。
【００３１】
また、本発明はプログラムに関するものであり、請求項７に記載のプログラムは、記憶部と制御部を少なくとも備えたコンピュータに実行させるためのプログラムであって、上記記憶部は、蛋白質の配列情報と立体構造情報とを対応付けて記憶した蛋白質構造データベースを備えており、上記制御部において、上記蛋白質構造データベースに記憶された上記蛋白質の配列情報および上記立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成ステップと、上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する断片配列類似性検索ステップと、上記断片配列類似性検索ステップにて取得された上記類似度スコアが、上記断片配列と上記類似の断片配列との行列で表される類似性マトリックスを作成して上記記憶部に格納する類似性マトリックス作成ステップと、上記断片配列がどの上記断片構造クラスターに属しているかが、上記断片配列と上記断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して上記記憶部に格納する構造クラスター情報マトリックス作成ステップと、上記類似性マトリックス作成ステップにて上記記憶部に格納された上記類似性マトリックスと、上記構造クラスター情報マトリックス作成ステップにて上記記憶部に格納された上記構造クラスター情報マトリックスとの積に基づいて、上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度が、上記断片配列と上記断片構造クラスターとの行列で表される確信度マトリックスを作成して上記記憶部に格納する確信度マトリックス作成ステップと、利用者に問合せ配列を入力させる問合せ配列入力ステップと、上記問合せ配列入力ステップにて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成ステップと、上記問合せ断片配列作成ステップにて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する問合せ断片配列類似性検索ステップと、上記確信度マトリックス作成ステップにて上記記憶部に格納された上記確信度マトリックスと、上記問合せ断片配列類似性検索ステップにて取得された上記類似の断片配列についての上記類似度スコアのベクトルとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算ステップと、上記断片構造確率計算ステップにて計算された上記確率に従って上記断片構造クラスターをソートすることにより、上記問合せ配列の上記断片構造を予測する断片配列構造予測ステップとをコンピュータに実行させることを特徴とする。
【００３２】
このプログラムによれば、蛋白質構造データベースに記憶された蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成し、断片配列について配列空間上における周囲の断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得し、取得された類似度スコアが、断片配列と類似の断片配列との行列で表される類似性マトリックスを作成して記憶部に格納し、断片配列がどの断片構造クラスターに属しているかが、断片配列と断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して記憶部に格納し、記憶部に格納された類似性マトリックスと、記憶部に格納された構造クラスター情報マトリックスとの積に基づいて、断片配列の類似配列が断片構造クラスターに属する確率である確信度が、断片配列と断片構造クラスターとの行列で表される確信度マトリックスを作成して記憶部に格納する。そして、利用者に問合せ配列を入力させ、入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成し、作成された問合せ断片配列について、断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得し、記憶部に格納された確信度マトリックスと、取得された類似の断片配列についての類似度スコアのベクトルとの積に基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算し、計算された確率に従って断片構造クラスターをソートすることにより、問合せ配列の断片構造を予測するので、相関の複雑な多様体や相関の確信度をも表現可能なように、部分配列から部分構造の相関を計算し、その部分構造を予測することができるようになる。すなわち、本発明は、構造を計算する際、相関の度合に応じて複数の構造候補の確率（確信度）を与えて持たせておく（確信度の関数を構造変化の確率として用いる）ことができる。
【００３３】
また、蛋白質立体構造を相関の大きな部分構造のブロックとして考える手法は以前からあるが、本プログラムではまず部分構造のクラスターを作り、構造配列相関多様体の複雑な形を考慮して、問合せ（ｑｕｅｒｙ）配列が与えられた後に動的に配列相関クラスターを作ることができる。
【００３４】
また、本プログラムは、構造クラスターを違う観点から（例えば、断片配列の長さ、断片構造の解像度、構造クラスターの大きさ、相関の度合い等）いくつも作り、それぞれのデータセットからの構造予測結果を統合して構造を計算することができるようになる。
【００３５】
また、請求項８に記載のプログラムは、請求項７に記載のプログラムにおいて、上記確信度マトリックス作成ステップにおいて、規格化された上記類似性マトリックスと上記構造クラスター情報マトリックスとの積に基づいて、上記確信度マトリックスを作成し、上記断片構造確率計算ステップにおいて、規格化された上記類似度スコアのベクトルと上記確信度マトリックスとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する上記確率を計算すること、を特徴とする。
【００３６】
これは確信度マトリックスの作成の一例を一層具体的に示すものである。このプログラムによれば、規格化された類似性マトリックスと構造クラスター情報マトリックスとの積に基づいて、確信度マトリックスを作成し、規格化された類似度スコアのベクトルと確信度マトリックスとの積に基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算するので、行列演算手法を用いて類似性検索結果に基づいて簡易かつ精緻に確信度を計算することができるようになる。
【００３７】
また、請求項９に記載のプログラムは、請求項７または８に記載のプログラムにおいて、上記制御部において実行させる、上記断片配列構造予測ステップにて予測された上記問合せ配列に関する上記断片構造の上記確率のうち、最大の上記確率を持つ上記断片構造にて初期全体構造を作成し、統計的ポテンシャル法、ＭＣ法、または、シミュレーテッド・アニーリング法に基づいて、上記初期全体構造について全体構造のエネルギー値の最適化を行う全体構造最適化ステップ、をさらに含むことを特徴とする。
【００３８】
このプログラムによれば、予測された問合せ配列に関する断片構造の確率のうち、最大の確率を持つ断片構造にて初期全体構造を作成し、統計的ポテンシャル法、ＭＣ法、または、シミュレーテッド・アニーリング法に基づいて、初期全体構造について全体構造のエネルギー値の最適化を行うので、まず、初期構造を作成する際に様々な可能な断片配列に分割しそれらの最適な予測結果を統合することができるようになる。また、初期構造をさらに最適化を行うことにより、全体構造予測の精度をさらに上げることができるようになる。
【００３９】
また、本発明は記録媒体に関するものであり、請求項１０に記載の記録媒体は、上記請求項７から９のいずれか一つに記載されたプログラムをコンピュータ読み取り可能に記録したことを特徴とする。
【００４０】
この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行させることによって、請求項７から９のいずれか一つに記載されたプログラムをコンピュータを利用して実現することができ、これら各プログラムと同様の効果を得ることができる。
【００４１】
【発明の実施の形態】
以下に、本発明にかかる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
【００４２】
［本発明の概要］
以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。図３は本発明の基本原理を示す概念図である。
本発明は、概略的に、以下の基本的特徴を有する。すなわち、本発明は、相関の複雑な多様体を表現し、相関の大きさの度合い（確信度）をも計算することができる、部分配列から部分構造への相関の新しい計算手法を提案する。
【００４３】
本発明は、まず様々なデータセットから様々な大きさの構造クラスターを作り、その中から配列の類似性データを取り出す。そして、利用者から問合せ（ｑｕｅｒｙ）配列が与えられた後に、様々な部分配列への分割に対して様々な大きさの構造クラスターを用いて、疑似的に動的な配列から構造への相関クラスターを作成して、部分配列との相関の大きさを計算する。その相関クラスターから、部分構造の予測を行う。
【００４４】
本発明におけるクラスター作成過程を以下に説明する。まず、本発明は、配列断片の構造分類を行う。すなわち、既知の蛋白質構造データベースなどに格納された配列情報および構造情報に基づいて、典型的な断片構造を抽出し、それらの断片構造を分類する。
【００４５】
そして、図３（ａ）に示すように、ある断片配列の配列空間における周辺がどのような構造をとっているかをみる。そして、図３（ｂ）に示すように、それぞれの断片配列の周りでどのような典型構造が得られるかをみることにより、配列−構造間の仮想的なクラスターを作成することができる。すなわち、本発明は、ある配列Ａの周りに存在するこの配列に似ている配列が、構造空間上でどの構造クラスターに属するか（どのような似方をしていれば、どの構造クラスターに属するか）を計算し、この配列の周りに仮想的なクラスターを作成する。そして、本発明は、ある未知構造配列断片Ｘが与えられたとき、これが配列Ａに似ている、配列Ｃに似ているなどの情報を取得し、これらの情報に基づいて仮想クラスターを組み合わせて、最終的に配列がどの構造クラスターに属するかを予測する。
【００４６】
本発明の全体構造の予測は、次の手順で行う。まず、得られた部分構造の候補から、相関の強さの度合い（確信度）を比較し、相関の強く、部分配列の長い部分構造を用いて行う。相関の弱い部分構造も、確率と共にデータとして保持しておく。そして、保持したデータを用いて、これを次の構造の候補として構造を変化させていくことによりフォールディング・シミュレーション（ｆｏｌｄｉｎｇｓｉｍｕｌａｔｉｏｎ）を行う。そして、構造のトポロジーが完成したら全原子系での構造精密化（最適化）を行う。
【００４７】
［システム構成］
まず、本システムの構成について説明する。図４は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。本システムは、概略的に、蛋白質構造予測装置１００と、蛋白質構造情報等に関する外部データベースやホモロジー検索等の外部プログラム等を提供する外部システム２００とを、ネットワーク３００を介して通信可能に接続して構成されている。
【００４８】
図４においてネットワーク３００は、蛋白質構造予測装置１００と外部システム２００とを相互に接続する機能を有し、例えば、インターネット等である。
【００４９】
図４において外部システム２００は、ネットワーク３００を介して、蛋白質構造予測装置１００と相互に接続され、利用者に対して蛋白質構造情報等に関する外部データベースやホモロジー検索等の外部分析プログラムを実行するウェブサイトを提供する機能を有する。
【００５０】
ここで、外部システム２００は、ＷＥＢサーバやＡＳＰサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム２００の各機能は、外部システム２００のハードウェア構成中のＣＰＵ、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。
【００５１】
図４において蛋白質構造予測装置１００は、概略的に、蛋白質構造予測装置１００の全体を統括的に制御するＣＰＵ等の制御部１０２、通信回線等に接続されるルータ等の通信装置（図示せず）に接続される通信制御インターフェース部１０４、入力装置１１２や出力装置１１４に接続される入出力制御インターフェース部１０８、および、各種のデータベースやテーブル（蛋白質構造データベース１０６ａ〜確信度マトリックス１０６ｄ）を格納する記憶部１０６を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、この蛋白質構造予測装置１００は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク３００に通信可能に接続されている。
【００５２】
記憶部１０６に格納される各種のデータベースやテーブル（蛋白質構造データベース１０６ａ〜確信度マトリックス１０６ｄ）は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【００５３】
これら記憶部１０６の各構成要素のうち、蛋白質構造データベース１０６ａは、アミノ酸配列情報（１次構造）と立体構造情報とを対応付けて記録した蛋白質構造情報を格納したデータベースである。蛋白質構造データベース１０６ａは、配列冗長性を排除したものであるものが好ましい。蛋白質構造データベース１０６ａは、インターネットを経由してアクセスする外部の蛋白質構造データベース（例えば、ＰＤＢ＿ＳＥＬＥＣＴ等）であってもよく、また、これらのデータベースをコピーしたり、オリジナルの蛋白質構造を格納したり、さらに独自のアノテーション情報等を付加したりして作成したインハウスデータベースであってもよい。
【００５４】
また、類似性マトリックス１０６ｂは、断片配列に関する類似性検索結果に関する情報等を格納するマトリックステーブルである。
【００５５】
また、構造クラスター情報マトリックス１０６ｃは、断片配列がどの断片構造クラスターに属しているかを示す情報等を格納するマトリックステーブルである。
【００５６】
また、確信度マトリックス１０６ｄは、ある断片配列が他の断片配列に似ているという情報が得られたとき、その断片配列が断片構造に属する確信度（確率）を表す情報等を格納するマトリックステーブルである。
【００５７】
また、図４において、制御部１０２は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部１０２は、機能概念的に、断片構造クラスター作成部１０２ａ、断片配列類似性検索部１０２ｂ、類似性マトリックス作成部１０２ｃ、構造クラスター情報マトリックス作成部１０２ｄ、確信度マトリックス作成部１０２ｅ、問合せ配列入力部１０２ｆ、問合せ断片配列作成部１０２ｇ、問合せ断片配列類似性検索部１０２ｈ、断片構造確率計算部１０２ｉ、断片配列構造予測部１０２ｊ、および、全体構造最適化部１０２ｋを備えて構成されている。
【００５８】
このうち、断片構造クラスター作成部１０２ａは、蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成手段である。また、断片配列類似性検索部１０２ｂは、断片配列について配列空間上における周囲の断片配列と配列類似性検索を行う断片配列類似性検索手段である。また、類似性マトリックス作成部１０２ｃは、断片配列類似性検索手段により断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作成手段である。
【００５９】
また、構造クラスター情報マトリックス作成部１０２ｄは、断片配列がどの断片構造クラスターに属しているかを示す構造クラスター情報を、断片配列と上記構造クラスターの行列で表示した構造クラスター情報マトリックスを作成する構造クラスター情報マトリックス作成手段である。また、確信度マトリックス作成部１０２ｅは、断片配列の類似配列が断片構造クラスターに属する確率である確信度を、断片配列と構造クラスターとの行列で表示する確信度マトリックスを作成する確信度マトリックス作成手段である。
【００６０】
また、問合せ配列入力部１０２ｆは、利用者に問合せ配列を入力させる問合せ配列入力手段である。また、問合せ断片配列作成部１０２ｇは、問合せ配列入力手段にて入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成手段である。また、問合せ断片配列類似性検索部１０２ｈは、問合せ断片配列作成手段にて作成された問合せ断片配列について、断片配列と配列類似性検索を行う問合せ断片配列類似性検索手段である。また、断片構造確率計算部１０２ｉは、確信度マトリックス作成手段にて作成した確信度マトリックスと、問合せ断片配列類似性検索手段の検索結果とに基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算する断片構造確率計算手段である。
【００６１】
また、断片配列構造予測部１０２ｊは、断片構造確率計算手段にて計算された確率に基づいて、問合せ配列の断片構造を予測する断片配列構造予測手段である。また、全体構造最適化部１０２ｋは、最大の確信度を持つ断片構造にて決定された初期全体構造について所定の最適化を行う全体構造最適化手段である。なお、これら各部によって行なわれる処理の詳細については、後述する。
【００６２】
［システムの処理］
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に図５〜図１５を参照して詳細に説明する。
【００６３】
［断片構造予測処理］
次に、断片構造予測処理の詳細について図５〜図１４を参照して説明する。図５は、本実施の形態における本システムの断片構造予測処理の一例を示すフローチャートである。
【００６４】
まず、蛋白質構造予測装置１００は、断片構造クラスター作成部１０２ａの処理により、蛋白質構造データベース１０６ａにアクセスして、蛋白質の配列情報（例えば、アミノ酸配列情報など）および立体構造情報を取得し、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを生成する（ステップＳＡ−１）。ここで、図６は、断片構造クラスター作成部１０２ａが蛋白質構造データベース１０６ａから断片配列とそれに対応する断片構造とを取得する場合の一例を示す概念図である。図６に示すように、断片構造クラスター作成部１０２ａは、所定の長さの断片配列（図６においては７アミノ酸残基）毎に配列を分割し、その断片配列が取る断片構造と対応付けて記憶部１０６に格納する。ここで、断片の長さは、７残基に限らず、様々な長さで断片構造を分割することができる。
【００６５】
ついで、蛋白質構造予測装置１００は、断片構造クラスター作成部１０２ａの処理により、断片構造の類似度に基づいて断片構造クラスターを作成する（ステップＳＡ−２）。ここで、図７は、断片構造クラスター作成部１０２ａが作成する断片配列の断片構造クラスターの一例を示す図である。図７に示すように、断片構造クラスター作成部１０２ａは、断片構造の類似度（例えば、ｒｍｓｄやｄｍｅなど）を類似度の指標として、自己組織化マップ（ＳＯＭ；ｓｅｌｆｏｒｇａｎｉｚｅｄｍａｐ）、ｋ−平均法（ｋ−ｍｅａｎｓ）、階層的クラスタリングなどの既知のクラスタリング手法を用いてクラスター化する。
【００６６】
また、図８は、階層的クラスター手法を用いて断片構造クラスターを作成する場合の一例を示す図である。図８に示すように、断片構造クラスター作成部１０２ａは、全ての断片構造の距離を計算し、一番距離の近いものを順次まとめていくことによりクラスター化を行っている。ここで、クラスター間の距離は、例えば、それぞれのクラスターに属するもの全ての距離を計算して平均をとる等により計算する。
【００６７】
ついで、蛋白質構造予測装置１００は、断片配列類似性検索部１０２ｂの処理により、全ての断片配列について配列空間上における周囲の断片配列とｂｌａｓｔ検索等の既存の配列類似性検索手法により、類似の断片配列、類似度スコア、その断片配列が属する断片構造クラスターを取得する（ステップＳＡ−３）。ここで、図９は、断片配列Ａについて、その類似の断片配列（Ｄ、Ｆ、Ｇ、Ｓ、Ｉ等）と、類似度スコア（５０、３０、２８、２５、２０等）と、その断片配列が属する断片構造クラスター（α、α、β、α、γ等）を検索した場合を示す概念図である。
【００６８】
ついで、蛋白質構造予測装置１００は、類似性マトリックス作成部１０２ｃの処理により、断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックス１０６ｂを作成する（ステップＳＡ−４）。ここで、図１０は、類似性マトリックス１０６ｂに格納される情報の一例を示す図である。図１０に示すように、類似性マトリックス１０６ｂには、各断片配列に関して類似性検索を実行した結果を格納する。
【００６９】
ついで、蛋白質構造予測装置１００は、構造クラスター情報マトリックス作成部１０２ｄの処理により、断片配列がどの断片構造クラスターに属しているかを示す構造クラスター情報マトリックス１０６ｃを作成する（ステップＳＡ−５）。図１１は、構造クラスター情報マトリックス１０６ｃに格納される情報の一例を示す図である。図１１に示すように、断片配列が属する断片構造クラスターに「１」の構造クラスター情報が設定されている。
【００７０】
ついで、蛋白質構造予測装置１００は、確信度マトリックス作成部１０２ｅの処理により、ある断片配列が他の断片配列と類似しているという情報が得られたときに、その断片配列が他の断片配列の構造クラスターに属する確率である確信度を示す確信度マトリックス１０６ｄを作成する（ステップＳＡ−６）。ここで、図１２は、確信度マトリックス作成部１０２ｅが類似性マトリックス１０６ｂおよび構造クラスター情報マトリックス１０６ｃに基づいて確信度マトリックス１０６ｄを作成することを示す概念図である。図１２に示すように、確信度マトリックス作成部１０２ｅは、規格化した類似性マトリックス１０６ｂと構造クラスター情報マトリックス１０６ｃの積をとることにより確信度マトリックス１０６ｄを作成する。
【００７１】
ついで、蛋白質構造予測装置１００は、問合せ配列入力部１０２ｆの処理により、利用者に問合せ（ｑｕｅｒｙ）配列を入力させる（ステップＳＡ−７）。この配列の入力は、外部のアミノ酸配列を格納したデータベースから所望の配列を利用者に選択させることにより入力してもよく、また、所望の配列を利用者が直接入力してもよい。
【００７２】
ついで、蛋白質構造予測装置１００は、問合せ断片配列作成部１０２ｇの処理により、問合せ配列について所定の長さの断片配列（例えば７アミノ酸残基）に分割し、その断片配列（問合せ断片配列）を記憶部１０６に格納する（ステップＳＡ−８）。ここで、断片の長さは、７残基に限らず、様々な長さで断片構造を分割してもよい。
【００７３】
ついで、蛋白質構造予測装置１００は、問合せ断片配列類似性検索部１０２ｈの処理により、問合せ配列の各断片配列（問合せ断片配列）について配列類似性を検索し（ステップＳＡ−９）、その検索結果に基づいて、断片構造確率計算部１０２ｉの処理により、断片配列が属する断片構造の確率を計算する（ステップＳＡ−１０）。ここで、図１３は、問合せ配列（問合せ断片配列）Ｘについて類似性検索を行い、その検索結果に確信度マトリックス１０６ｄを掛け合わせて属する断片構造の確率を計算する場合の一例を示す概念図である。図１３に示すように、問合せ配列Ｘの規格化された類似度ベクトルに確信度マトリックス１０６ｄを掛け合わせることにより、問合せ配列Ｘが各断片構造クラスターに属する確率（確信度）を計算することができる。
【００７４】
ついで、蛋白質構造予測装置１００は、断片配列構造予測部１０２ｊの処理により、この計算された確率（確信度）に基づいて問合せ配列の断片構造を予測する（ステップＳＡ−１１）。ここで、図１４は、断片配列構造予測部１０２ｊによる断片構造予測の一例を示す概念図である。図１４に示すように、断片配列構造予測部１０２ｊは、問合せ配列Ｘの類似配列の属する構造クラスターの確信度に従ってソートすることにより、その問合せ断片配列Ｘが断片構造αに属すると予想する。これにて、断片構造予測処理が終了する。
【００７５】
［全体構造予測処理］
次に、全体構造予測処理の詳細について図１５を参照して説明する。図１５は、本実施形態における本システムの全体構造予測処理の一例を示すフローチャートである。
【００７６】
まず、利用者が問合せ（ｑｕｅｒｙ）配列を入力する（ステップＳＢ−１）。
【００７７】
そして、蛋白質構造予測装置１００は、問合せ断片配列作成部１０２ｇの処理により、問合せ（ｑｕｅｒｙ）配列を所定の長さの断片配列に分割する（ステップＳＢ−２）。ここで、異なる長さで分割した複数のパターンの断片配列を作成する（図１５では２つのパターンを作成している）。
【００７８】
そして、蛋白質構造予測装置１００は、上述の方法により、断片構造を予測する（ステップＳＢ−３）。
【００７９】
そして、蛋白質構造予測装置１００は、断片配列構造予測部１０２ｊの処理により、最大の確信度を持つ断片構造により初期の全体構造を作成する（ステップＳＢ−４）。
【００８０】
そして、蛋白質構造予測装置１００は、全体構造最適化部１０２ｋの処理により、統計的ポテンシャル法や、ＭＣ法や、シミュレーテッド・アニーリング（ＳＡ）などを用いて、全体構造について最適化を行う（ステップＳＢ−５）。
【００８１】
ここで、最適化の一例を以下に説明する。
（１）全体構造のエネルギー値（Ｅ_old）を計算する。
【００８２】
（２）継ぎ目の部分については、ランダムに二面角を動かし、動かした後のエネルギー値（Ｅ_new）を計算し、動かした二面角が次のステップで採用される確率ρを、
ρ＝ｅｘｐ（−βΔＥ）
（ここで、ΔＥ＝Ｅ_new− Ｅ_old）
により計算する。
【００８３】
（３）断片構造については、予測された断片構造の中からランダムに選んで構造を入れ替え、入れ替えた後の確信度（Ｐ_new）のエネルギー値（Ｅ_new）を計算し、入れ替えた後の断片構造が次のステップで採用される確率ρを、
ρ＝Ｐ_new ｅｘｐ（−βＥ_new）／Ｐ_old ｅｘｐ（−βＥ_old）
により計算する。
【００８４】
そして、（１）から（３）を繰返すことにより最適化を行う。これにて、全体構造予測処理が終了する。
【００８５】
［他の実施の形態］
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
【００８６】
例えば、蛋白質構造予測装置１００がスタンドアローンの形態で処理を行う場合を一例に説明したが、蛋白質構造予測装置１００とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
【００８７】
また、実施の形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
【００８８】
また、蛋白質構造予測装置１００に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
例えば、蛋白質構造予測装置１００の各部（各装置）が備える処理機能、特に制御部にて行なわれる各処理機能については、その全部または任意の一部を、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）および当該ＣＰＵにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じて蛋白質構造予測装置１００に機械的に読み取られる。すなわち、ＲＯＭまたはＨＤなどの記憶部１０６などには、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）と協働してＣＰＵに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、ＲＡＭにロードされることによって実行され、ＣＰＵと協働して制御部を構成する。
【００８９】
しかしながら、このコンピュータプログラムは、蛋白質構造予測装置１００に対して任意のネットワークを介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
【００９０】
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるＲＯＭ、ＲＡＭ、ＨＤ等の任意の「固定用の物理媒体」、あるいは、ＬＡＮ、ＷＡＮ、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
【００９１】
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
【００９２】
また、ネットワーク３００は、蛋白質構造予測装置１００と外部システム２００とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、ＬＡＮ（有線／無線の双方を含む）や、ＶＡＮや、パソコン通信網や、公衆電話網（アナログ／デジタルの双方を含む）や、専用回線網（アナログ／デジタルの双方を含む）や、ＣＡＴＶ網や、ＩＭＴ２０００方式、ＧＳＭ方式またはＰＤＣ／ＰＤＣ―Ｐ方式等の携帯回線交換網／携帯パケット交換網や、無線呼出網や、Ｂｌｕｅｔｏｏｔｈ等の局所無線網や、ＰＨＳ網や、ＣＳ、ＢＳまたはＩＳＤＢ等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
【００９３】
記憶部１０６に格納される各種のデータベース等（蛋白質構造データベース１０６ａ〜確信度マトリックス１０６ｄ）は、ＲＡＭ、ＲＯＭ等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【００９４】
また、蛋白質構造予測装置１００は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア（プログラム、データ等を含む）を実装することにより実現してもよい。
【００９５】
さらに、蛋白質構造予測装置１００の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をＣＧＩ（ＣｏｍｍｏｎＧａｔｅｗａｙＩｎｔｅｒｆａｃｅ）を用いて実現してもよい。
【００９６】
【発明の効果】
以上詳細に説明したように、本発明によれば、蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成し、断片配列について配列空間上における周囲の断片配列と配列類似性検索を行い、断片配列の類似配列が断片構造クラスターに属する確率である確信度を、断片配列と構造クラスターとの行列で表示する確信度マトリックスを作成する。そして、利用者に問合せ配列を入力させ、入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成し、作成された問合せ断片配列について、断片配列と配列類似性検索を行い、作成した確信度マトリックスと検索結果とに基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算し、計算された確率に基づいて、問合せ配列の断片構造を予測するので、相関の複雑な多様体や相関の確信度をも表現可能なように、部分配列から部分構造の相関を計算し、その部分構造を予測することができるようになる。すなわち、本発明は、構造を計算する際、相関の度合に応じて複数の構造候補の確率（確信度）を与えて持たせておく（確信度の関数を構造変化の確率として用いる）ことができる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することができる。
【００９７】
また、蛋白質立体構造を相関の大きな部分構造のブロックとして考える手法は以前からあるが、本装置ではまず部分構造のクラスターを作り、構造配列相関多様体の複雑な形を考慮して、問合せ（ｑｕｅｒｙ）配列が与えられた後に動的に配列相関クラスターを作ることができる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することができる。
【００９８】
また、本発明によれば、構造クラスターを違う観点から（例えば、断片配列の長さ、断片構造の解像度、構造クラスターの大きさ、相関の度合い等）いくつも作り、それぞれのデータセットからの構造予測結果を統合して構造を計算することができる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することができる。
【００９９】
また、本発明によれば、断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作成手段と、断片配列がどの断片構造クラスターに属しているかを示す構造クラスター情報を、断片配列と構造クラスターの行列で表示した構造クラスター情報マトリックスを作成し、作成した類似性マトリックスと構造クラスター情報マトリックスとに基づいて、確信度マトリックスを作成するので、行列演算手法を用いて類似性検索結果に基づいて簡易かつ精緻に確信度を計算することができる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０１００】
さらに、本発明によれば、最大の確信度を持つ断片構造にて決定された初期全体構造について所定の最適化を行うので、まず、初期構造を作成する際に様々な可能な断片配列に分割しそれらの最適な予測結果を統合することができるようになる。また、初期構造をさらに最適化を行うことにより、全体構造予測の精度をさらに上げることができる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することができる。
【図面の簡単な説明】
【図１】従来技術により配列をプロファイルで表現した場合の一例を示す図である。
【図２】従来技術による構造クラスター作成イメージを示す図である。
【図３】本発明の基本原理を示す概念図である。
【図４】本発明が適用される本システムの構成の一例を示すブロック図である。
【図５】本実施形態における本システムの断片構造予測処理の一例を示すフローチャートである。
【図６】断片構造クラスター作成部１０２ａが蛋白質構造データベース１０６ａから断片配列とそれに対応する断片構造とを取得する場合の一例を示す概念図である。
【図７】断片構造クラスター作成部１０２ａが作成する断片配列の断片構造クラスターの一例を示す図である。
【図８】階層的クラスター手法を用いて断片構造クラスターを作成する場合の一例を示す図である。
【図９】断片配列Ａについて、その類似の断片配列（Ｄ、Ｆ、Ｇ、Ｓ、Ｉ等）と、類似度スコア（５０、３０、２８、２５、２０等）と、その断片配列が属する断片構造クラスター（α、α、β、α、γ等）を検索した場合を示す概念図である。
【図１０】類似性マトリックス１０６ｂに格納される情報の一例を示す図である。
【図１１】構造クラスター情報マトリックス１０６ｃに格納される情報の一例を示す図である。
【図１２】確信度マトリックス作成部１０２ｅが類似性マトリックス１０６ｂおよび構造クラスター情報マトリックス１０６ｃに基づいて確信度マトリックス１０６ｄを作成することを示す概念図である。
【図１３】問合せ配列（問合せ断片配列）Ｘについて類似性検索を行い、その検索結果に確信度マトリックス１０６ｄを掛け合わせて属する断片構造の確率を計算する場合の一例を示す概念図である。
【図１４】断片配列構造予測部１０２ｊによる断片構造予測の一例を示す概念図である。
【図１５】本実施形態における本システムの全体構造予測処理の一例を示すフローチャートである。
【符号の説明】
１００蛋白質構造予測装置
１０２制御部
１０２ａ断片構造クラスター作成部
１０２ｂ断片配列類似性検索部
１０２ｃ類似性マトリックス作成部
１０２ｄ構造クラスター情報マトリックス作成部
１０２ｅ確信度マトリックス作成部
１０２ｆ問合せ配列入力部
１０２ｇ問合せ断片配列作成部
１０２ｈ問合せ断片配列類似性検索部
１０２ｉ断片構造確率計算部
１０２ｊ断片配列構造予測部
１０２ｋ全体構造最適化部
１０４通信制御インターフェース部
１０６記憶部
１０６ａ蛋白質構造データベース
１０６ｂ類似性マトリックス
１０６ｃ構造クラスター情報マトリックス
１０６ｄ確信度マトリックス
１０８入出力制御インターフェース部
１１２入力装置
１１４出力装置
２００外部システム
３００ネットワーク

Claims

記憶部と制御部を少なくとも備えた蛋白質構造予測装置であって、
上記記憶部は、
蛋白質の配列情報と立体構造情報とを対応付けて記憶した蛋白質構造データベース、
を備え、
上記制御部は、
上記蛋白質構造データベースに記憶された上記蛋白質の配列情報および上記立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成手段と、
上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する断片配列類似性検索手段と、
上記断片配列類似性検索手段にて取得された上記類似度スコアが、上記断片配列と上記類似の断片配列との行列で表される類似性マトリックスを作成して上記記憶部に格納する類似性マトリックス作成手段と、
上記断片配列がどの上記断片構造クラスターに属しているかが、上記断片配列と上記断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して上記記憶部に格納する構造クラスター情報マトリックス作成手段と、
上記類似性マトリックス作成手段にて上記記憶部に格納された上記類似性マトリックスと、上記構造クラスター情報マトリックス作成手段にて上記記憶部に格納された上記構造クラスター情報マトリックスとの積に基づいて、上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度が、上記断片配列と上記断片構造クラスターとの行列で表される確信度マトリックスを作成して上記記憶部に格納する確信度マトリックス作成手段と、
利用者に問合せ配列を入力させる問合せ配列入力手段と、
上記問合せ配列入力手段にて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成手段と、
上記問合せ断片配列作成手段にて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する問合せ断片配列類似性検索手段と、
上記確信度マトリックス作成手段にて上記記憶部に格納された上記確信度マトリックスと、上記問合せ断片配列類似性検索手段にて取得された上記類似の断片配列についての上記類似度スコアのベクトルとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算手段と、
上記断片構造確率計算手段にて計算された上記確率に従って上記断片構造クラスターをソートすることにより、上記問合せ配列の上記断片構造を予測する断片配列構造予測手段と、
を備えたことを特徴とする蛋白質構造予測装置。
上記確信度マトリックス作成手段は、
規格化された上記類似性マトリックスと上記構造クラスター情報マトリックスとの積に基づいて、上記確信度マトリックスを作成し、
上記断片構造確率計算手段は、
規格化された上記類似度スコアのベクトルと上記確信度マトリックスとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する上記確率を計算すること、
を特徴とする請求項１に記載の蛋白質構造予測装置。
上記制御部は、
上記断片配列構造予測手段にて予測された上記問合せ配列に関する上記断片構造の上記確率のうち、最大の上記確率を持つ上記断片構造にて初期全体構造を作成し、統計的ポテンシャル法、ＭＣ法、または、シミュレーテッド・アニーリング法に基づいて、上記初期全体構造について全体構造のエネルギー値の最適化を行う全体構造最適化手段、
をさらに備えたことを特徴とする請求項１または２に記載の蛋白質構造予測装置。
記憶部と制御部を少なくとも備えた蛋白質構造予測装置において実行される蛋白質構造予測方法であって、
上記記憶部は、蛋白質の配列情報と立体構造情報とを対応付けて記憶した蛋白質構造データベースを備えており、
上記制御部において実行される、
上記蛋白質構造データベースに記憶された上記蛋白質の配列情報および上記立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成ステップと、
上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する断片配列類似性検索ステップと、
上記断片配列類似性検索ステップにて取得された上記類似度スコアが、上記断片配列と上記類似の断片配列との行列で表される類似性マトリックスを作成して上記記憶部に格納する類似性マトリックス作成ステップと、
上記断片配列がどの上記断片構造クラスターに属しているかが、上記断片配列と上記断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して上記記憶部に格納する構造クラスター情報マトリックス作成ステップと、
上記類似性マトリックス作成ステップにて上記記憶部に格納された上記類似性マトリックスと、上記構造クラスター情報マトリックス作成ステップにて上記記憶部に格納された上記構造クラスター情報マトリックスとの積に基づいて、上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度が、上記断片配列と上記断片構造クラスターとの行列で表される確信度マトリックスを作成して上記記憶部に格納する確信度マトリックス作成ステップと、
利用者に問合せ配列を入力させる問合せ配列入力ステップと、
上記問合せ配列入力ステップにて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成ステップと、
上記問合せ断片配列作成ステップにて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する問合せ断片配列類似性検索ステップと、
上記確信度マトリックス作成ステップにて上記記憶部に格納された上記確信度マトリックスと、上記問合せ断片配列類似性検索ステップにて取得された上記類似の断片配列についての上記類似度スコアのベクトルとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算ステップと、
上記断片構造確率計算ステップにて計算された上記確率に従って上記断片構造クラスターをソートすることにより、上記問合せ配列の上記断片構造を予測する断片配列構造予測ステップと、
を含むことを特徴とする蛋白質構造予測方法。
上記確信度マトリックス作成ステップにおいて、
規格化された上記類似性マトリックスと上記構造クラスター情報マトリックスとの積に基づいて、上記確信度マトリックスを作成し、
上記断片構造確率計算ステップにおいて、
規格化された上記類似度スコアのベクトルと上記確信度マトリックスとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する上記確率を計算すること、
を特徴とする請求項４に記載の蛋白質構造予測方法。
上記制御部において実行される、
上記断片配列構造予測ステップにて予測された上記問合せ配列に関する上記断片構造の上記確率のうち、最大の上記確率を持つ上記断片構造にて初期全体構造を作成し、統計的ポテンシャル法、ＭＣ法、または、シミュレーテッド・アニーリング法に基づいて、上記初期全体構造について全体構造のエネルギー値の最適化を行う全体構造最適化ステップ、
をさらに含むことを特徴とする請求項４または５に記載の蛋白質構造予測方法。
記憶部と制御部を少なくとも備えたコンピュータに実行させるためのプログラムであって、
上記記憶部は、蛋白質の配列情報と立体構造情報とを対応付けて記憶した蛋白質構造データベースを備えており、
上記制御部において、
上記蛋白質構造データベースに記憶された上記蛋白質の配列情報および上記立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成ステップと、
上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する断片配列類似性検索ステップと、
上記断片配列類似性検索ステップにて取得された上記類似度スコアが、上記断片配列と上記類似の断片配列との行列で表される類似性マトリックスを作成して上記記憶部に格納する類似性マトリックス作成ステップと、
上記断片配列がどの上記断片構造クラスターに属しているかが、上記断片配列と上記断片構造クラスターとの行列で表される構造クラスター情報マトリックスを作成して上記記憶部に格納する構造クラスター情報マトリックス作成ステップと、
上記類似性マトリックス作成ステップにて上記記憶部に格納された上記類似性マトリックスと、上記構造クラスター情報マトリックス作成ステップにて上記記憶部に格納された上記構造クラスター情報マトリックスとの積に基づいて、上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度が、上記断片配列と上記断片構造クラスターとの行列で表される確信度マトリックスを作成して上記記憶部に格納する確信度マトリックス作成ステップと、
利用者に問合せ配列を入力させる問合せ配列入力ステップと、
上記問合せ配列入力ステップにて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成ステップと、
上記問合せ断片配列作成ステップにて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行い、類似の断片配列と類似度スコアとを取得する問合せ断片配列類似性検索ステップと、
上記確信度マトリックス作成ステップにて上記記憶部に格納された上記確信度マトリックスと、上記問合せ断片配列類似性検索ステップにて取得された上記類似の断片配列についての上記類似度スコアのベクトルとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算ステップと、
上記断片構造確率計算ステップにて計算された上記確率に従って上記断片構造クラスターをソートすることにより、上記問合せ配列の上記断片構造を予測する断片配列構造予測ステップと、
をコンピュータに実行させるためのプログラム。
上記確信度マトリックス作成ステップにおいて、
規格化された上記類似性マトリックスと上記構造クラスター情報マトリックスとの積に基づいて、上記確信度マトリックスを作成し、
上記断片構造確率計算ステップにおいて、
規格化された上記類似度スコアのベクトルと上記確信度マトリックスとの積に基づいて、上記問合せ断片配列が上記断片構造クラスターに属する上記確率を計算すること、
を特徴とする請求項７に記載のプログラム。
上記制御部において実行させる、
上記断片配列構造予測ステップにて予測された上記問合せ配列に関する上記断片構造の上記確率のうち、最大の上記確率を持つ上記断片構造にて初期全体構造を作成し、統計的ポテンシャル法、ＭＣ法、または、シミュレーテッド・アニーリング法に基づいて、上記初期全体構造について全体構造のエネルギー値の最適化を行う全体構造最適化ステップ、
をさらに含むことを特徴とする請求項７または８に記載のプログラム。
上記請求項７から９のいずれか一つに記載されたプログラムを記録したコンピュータ読み取り可能な記録媒体。