JP2010165216A

JP2010165216A - 立体構造データ帰属方法、立体構造データ帰属プログラム及び立体構造データ帰属装置

Info

Publication number: JP2010165216A
Application number: JP2009007535A
Authority: JP
Inventors: Osami Ikeda; 修己池田; Yuri Ikeda; 有理池田; Makiko Suwa; 牧子諏訪; Yukimitsu Yabuki; 幸光矢葺
Original assignee: Information & Mathematical Science Laboratory Inc; National Institute of Advanced Industrial Science and Technology AIST
Current assignee: Information & Mathematical Science Laboratory Inc; National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2009-01-16
Filing date: 2009-01-16
Publication date: 2010-07-29
Anticipated expiration: 2029-01-16
Also published as: JP5433894B2

Abstract

【課題】タンパク質等の生体高分子に関する立体構造データを格納したデータベースと配列情報を格納したデータベースとを正確に統合し、立体構造データを配列情報に正確に帰属させる。
【解決手段】少なくともタンパク質の立体構造データと当該立体構造データを取得する際に使用した改変アミノ酸配列情報とが関連付けられたデータセットを有する第２のデータベースから読み出したデータセットに含まれる改変アミノ酸配列情報と改変に関する情報と用い、改変前のアミノ酸配列情報を作成し、上記改変前のアミノ酸配列情報をキーとして、少なくともタンパク質のアミノ酸配列情報と生物種情報とが関連付けられたデータセットを有する第１のデータベースに含まれるデータセットを検索し、第１のデータベースに含まれるアミノ酸配列情報が改変前のアミノ酸配列情報に対して所定の値以上の同一性を示し且つ第１のデータベースに含まれる生物種情報が改変前のアミノ酸配列情報に関する生物種情報と一致するデータセットを特定する。
【選択図】図２

Description

本発明は、複数のデータベースに別個に収集されたデータを統合し、有用なデータセットを構築する際に適用される方法、コンピュータプログラム及び装置に関する。

塩基配列情報やアミノ酸配列情報、タンパク質の立体構造情報といった種々の生物関連情報は、現在、種々のデータベースに蓄積され広く利用されている。例えば、アミノ酸配列情報を蓄積したデータベースとしては、例えばEntrez Protein、SWISS-PROT、PRF等が知られている。なかでもSWISS-PROTには、タンパク質について名称、機能、細胞内局在性、翻訳後修飾、アミノ酸配列情報、構造などの基本的な情報が関連付けられて格納されている。また、タンパク質等の生体高分子についてその立体構造データを蓄積したデータベースとしては、例えばPDB（Protein Data Bank）等が知られている。このPDBには、生体高分子の立体構造（原子座標）、当該立体構造が得られた際の実験方法、解像度及び塩基配列情報やアミノ酸配列情報などの情報が関連付けられて格納されている。

非特許文献１には、PDBに格納された立体構造データをSWISS-PROTに格納されたデータセットに帰属させる手法及びシステム（Seq2Structと呼称される）が開示されている。非特許文献１に開示されたシステムでは、PDBにエントリされた配列情報をクエリー配列としてSWISS-PROTに含まれる配列情報に対してBLASTを用いて検索し、相同性の最も高い配列情報を特定している。

ところが、非特許文献１に開示されたシステムでは、PDBに格納された立体構造データをSWISS-PROTのデータセットに対して厳密に正確な対応付けができていない。例えば、PDBに格納された一つのチェインに関する立体構造データが相同性検索結果において配列一致度が同値であるが配列生物種の異なる複数のSWISS-PROTデータに帰属されているといった不正確な対応付けがなされている場合が少なくない。

Via A., Zanzoni A., Helmer-Citterich M. (2005) Seq2Struct: a resource for establishing sequence-structure links. Bioinformatics. 2005 Feb 15;21(4):551-3.

以上のように、タンパク質等の生体高分子に関する立体構造データを格納したデータベースと上記配列情報を格納したデータベースとを正確に統合して、利用者にとって有用な知識を与えうるシステムがないといった実情があった。そこで、本発明は、このような実情に鑑み、タンパク質等の生体高分子に関する立体構造データを格納したデータベースと上記配列情報を格納したデータベースとを正確に統合することができる、換言すれば立体構造データを配列情報に正確に帰属させることができる方法、コンピュータプログラム及び装置を提供することを目的としている。

上述した目的を達成した本発明は以下を包含する。
すなわち、本発明に係る立体構造データ帰属方法は、記憶部と処理部と通信部とを備え、少なくともタンパク質のアミノ酸配列情報と生物種情報とが関連付けられたデータセットを有する第１のデータベースと、少なくともタンパク質の立体構造データと当該立体構造データを取得する際に使用した改変アミノ酸配列情報とが関連付けられたデータセットを有する第２のデータベースとに対してアクセス可能なコンピュータに以下の工程ａ及び工程ｂを実行させるものである。

工程ａ：上記第２のデータベースから上記通信部により読み出したデータセットに含まれる改変アミノ酸配列情報と改変に関する情報とを用い、上記処理部が改変前のアミノ酸配列情報を作成する。

工程ｂ：上記改変前のアミノ酸配列情報をキーとして上記第１のデータベースに含まれるデータセットを上記処理部が検索し、上記第１のデータベースに含まれるアミノ酸配列情報が上記改変前のアミノ酸配列情報に対して所定の値以上の同一性を示し且つ上記第１のデータベースに含まれる生物種情報が上記改変前のアミノ酸配列情報に関する生物種情報と一致するデータセットを上記処理部が特定する。

本発明に係る立体構造データ帰属方法によれば、立体構造データを得るための改変アミノ酸配列から作成した改変前のアミノ酸配列を使用して第１のデータベースを検索し、また、生物種情報の一致性を指標としているため、立体構造データを第１のデータベースに含まれるデータセットに高精度に帰属させることができる。

また、本発明に係る立体構造データ帰属方法における上記工程ｂでは、上記改変前のアミノ酸配列情報を問い合わせ配列としてFASTA法を適用して上記同一性を算出することが好ましい。

さらに、本発明に係る立体構造データ帰属方法は、上記工程ｂに先立って、上記第１のデータベースに含まれるデータセットのなかから、上記第２のデータベースに含まれる上記改変前のアミノ酸配列情報に関する生物種情報と一致する生物種情報を含むデータセットを上記処理部が抽出する工程ｃを上記コンピュータに更に実行させるものであってもよい。

さらにまた、本発明に係る立体構造データ帰属方法は、上記工程ｂで特定した第１のデータベースに含まれるデータセットに含まれるアミノ酸配列情報に対する、上記工程ａで第２のデータベースから読み出した改変前アミノ酸配列情報のカバー率を上記処理部が算出する工程ｄを上記コンピュータに更に実行させるものであってもよい。

さらにまた、本発明に係る立体構造データ帰属方法は、第１のデータベースに含まれる二次構造情報及び/又はドメイン情報に基づいて、第２のデータベースに含まれる改変前アミノ酸配列情報がカバーする領域について予め複数のレベルが規定されており、上記工程ｂで特定した第１のデータベースに含まれるデータセットに含まれるアミノ酸配列情報に対して、上記工程ａで第２のデータベースから読み出した改変前アミノ酸配列情報がカバーしている領域が上記複数のレベルのうち、如何なるレベルに合致するか上記処理部が判断する工程ｅを上記コンピュータに更に実行させるものであってもよい。

さらにまた、本発明に係る立体構造データ帰属方法において、上記第２のデータベースに同じタンパク質チェインに関する複数のデータセットが含まれている場合、上記工程ａでは、各データセットに含まれる改変アミノ酸配列情報及び改変に関する情報を用いて候補アミノ酸配列情報を作成し、複数の候補アミノ酸配列情報間における相違を多数決の原理により訂正して上記改変前のアミノ酸配列情報を作成することが好ましい。

さらにまた、本発明に係る立体構造データ帰属方法は、上記工程ｂの結果として、上記工程ａで読み出した第２のデータベースに含まれるデータセットについて、上記工程ｂで特定した第１のデータベースに含まれるデータセットへの帰属を示す情報を上記記憶部へ記憶する工程ｆを上記コンピュータに更に実行させるものであってもよい。

さらにまた、本発明に係る立体構造データ帰属方法は、上記工程ｂの結果として、上記工程ｂで特定した第１のデータベースに含まれるデータセットと上記工程ａで読み出した第２のデータベースに含まれるデータセットとを統合して出力装置に出力することが好ましい。なお、本発明に係る立体構造データ帰属方法において、上記工程ｄ及び/又は上記工程ｅを実行させる場合、これら上記工程ｄ及び/又は上記工程ｅの結果を併せて出力してもよい。

さらにまた、本発明に係る立体構造データ帰属方法において、上記第１のデータベースとしては例えばSWISS-PROTを適用することができ、上記第２のデータベースとしてはPDB（Protein Data Bank）を適用することができる。

なお、本発明は、記憶部と処理部と通信部とを備え、上記第１のデータベースと上記第２のデータベースとに対してアクセス可能なコンピュータにインストールされるコンピュータプログラムとして、上述した立体構造データ帰属方法を実現することができる。さらに、本発明は、このコンピュータプログラムをコンピュータにインストールすることで、当該コンピュータを立体構造データ帰属装置として機能させることができる。

本発明によれば、生体高分子を立体構造解析した結果として得られる立体構造データを、配列情報が格納されたデータセットに対して正確に帰属させることができる。本発明を適用することで、立体構造データを正確に帰属したデータセットを利用することができ、立体構造データといった創薬などの分野において有効に応用することが可能となる。

本発明を適用した立体構造データ帰属装置の一構成例を示すブロック図である。本発明を適用した立体構造データ帰属装置の一構成例を示す機能ブロック図である。本発明を適用した立体構造データ帰属装置の他の構成例を示す機能ブロック図である。 SWISS-PROT1と、PDB3とにそれぞれ格納されている情報の一例を示す図である。本発明を適用した立体構造データ帰属プログラムの処理の流れを示すフローチャート図である。本発明を適用した立体構造データ帰属プログラムの処理フローを模式的に示す図である。図６に続き、本発明を適用した立体構造データ帰属プログラムの処理フローを模式的に示す図である。図７に続き、本発明を適用した立体構造データ帰属プログラムの処理フローを模式的に示す図である。 SWISS-PROTに格納されたデータセットから膜タンパク質クラスに関するデータセットを検索する方法を示す図である。 SWISS-PROTに格納されたデータセットからGタンパク質共役型受容体ファミリーに関するデータセットを検索する方法を示す図である。 SWISS-PROTに格納されたデータセットから膜電位型イオンチャネルファミリーに関するデータセットを検索する方法を示す図である。 SWISS-PROTに格納されたデータセットからGPIアンカー型リポタンパク質ファミリーに関するデータセットを検索する方法を示す図である。 SWISS-PROTのエントリから一部の情報を削除し、拡張SWISS-PROTタンパク質データセットを作成する過程の一例を示す図である。図１３Ａに続き、SWISS-PROTのエントリから一部の情報を削除し、拡張SWISS-PROTタンパク質データセットを作成する過程の一例を示す図である。 SWISS-PROTに格納されたデータセットから成熟タンパク質アミノ酸配列（MQ配列）情報を作成する過程の一例を示す図である。拡張SWISS-PROTタンパク質データセットにおけるエントリの一例を示す図である。 PDBに格納されたデータセットからタンパク質のチェインリストを作成する過程の一例を示す図である。拡張PDBチェインタンパク質データセットにおけるエントリの一例を示す図である。拡張PDBチェインタンパク質データセットの作成の際にPDBのエントリから情報抽出する箇所を示す図である。図１８Ａに続き、拡張PDBチェインタンパク質データセットの作成の際にPDBのエントリから情報抽出する箇所を示す図である。図１８Ｂに続き、拡張PDBチェインタンパク質データセットの作成の際にPDBのエントリから情報抽出する箇所を示す図である。拡張PDBチェインタンパク質データセット内に格納した改変後アミノ酸配列（EQ配列）情報から改変前アミノ酸配列（PQ配列）情報を作成する一例を示す図である。図１９Ａに続き、拡張PDBチェインタンパク質データセット内に格納した改変後アミノ酸配列（EQ配列）情報から改変前アミノ酸配列（PQ配列）情報を作成する一例を示す図である。 Overlapped identityの算出式と算出例を示した図である。 Ungapped identityの算出式と算出例を示した図である。本発明を適用した立体構造データ帰属装置による出力の一形態を示す図である。

以下に、本発明を図面を参照して詳細に説明する。
本発明は、タンパク質のアミノ酸配列情報及び当該タンパク質に関する生物種情報が関連付けられたデータセットを有する第１のデータベースと、タンパク質等の生体高分子に関する立体構造データが収集されたデータベース（第２のデータベース）とを利用して、第２のデータベースに収集された立体構造データを第１のデータベースに含まれるデータセットに高精度に帰属させるシステムである。以下の説明において、本システムを立体構造データ帰属システムと呼称する。

本立体構造データ帰属システムにおいて、上記第１のデータベースとしては、タンパク質のアミノ酸配列情報及び当該タンパク質に関する生物種情報を含む構成であれば特に限定されないが、その他、タンパク質の説明に関する情報、タンパク質をコードする遺伝子名に関する情報、参照文献に関する情報及びタンパク質の特徴等に関する情報などが含まれていてもよい。第１のデータベースとしては、例えば、SWISS-PROT、TrEMBL、PIR、Entrez Protein、PRF等のデータベースを使用することができる。また、SWISS-PROT、TrEMBL及びPIRの各データベースが統合されたUniProtデータベースを使用することもできる。

一例として、SWISS-PROTには、所定のタンパク質について、識別番号、受入番号、エントリの日付、タンパク質の説明、タンパク質をコードする遺伝子名、タンパク質又は遺伝子の生物種情報、細胞内小器官ゲノム由来情報、生物分類情報、生物分類相互参照情報、宿主生物情報、参照文献番号、参照文献役割情報、参照文献コメント情報、参照文献相互参照情報、参照文献グループ情報、参照文献著者情報、参照文献題名情報、参照文献誌情報、コメント情報、データベース相互参照情報、キーワード情報、特徴情報、及びアミノ酸配列情報が関連付けられてデータセットとして登録されている。SWISS-PROTにおいて、識別番号はID行に出力され、受入番号AC行に出力され、エントリの日付DT行に出力され、タンパク質の説明はDE行に出力され、タンパク質をコードする遺伝子名はGN行に出力され、タンパク質又は遺伝子の生物種情報はOS行に出力され、細胞内小器官ゲノム由来情報はOG行に出力され、生物階層分類情報はOC行に、生物分類相互参照情報はOX行に出力され、宿主生物情報はOH行に出力され、参照文献番号はRN行に出力され、参照文献役割情報はRP行に出力され、参照文献コメント情報はRC行に出力され、参照文献相互参照情報はRX行に出力され、参照文献グループ情報はRG行に出力され、参照文献著者情報はRA行に出力され、参照文献題名情報はRT行に出力され、参照文献誌情報はRL行に出力され、コメント情報はCC行に出力され、データベース相互参照情報はDR行に出力され、キーワード情報はKW行に出力され、特徴情報はFT行に出力され、アミノ酸配列情報はSQ行に出力される。

なお、DR行として出力されるデータベース相互参照情報とは、EMBL、PIR及びUniGene等の他の配列データベース； SWISS-2DPAGE等の２次元ゲルデータベース；Gene3D、HAMAP、InterPro、PANTHER、PIRSF、Pfam、PRINTS、ProDom、PROSITE、SMART及びTIGRFAMs等の遺伝子ファミリー・ドメインデータベース；Ensembl、GenomeReviews、KEGG及びTIGR等のアノテーションデータベース；HSSP、PDB及びSMR（SWISS-MODEL Repository）等の３次元構造データベース；及び生物ごとのデータベース等における識別番号情報を意味する。

また、FT行として出力される特徴情報とは、タンパク質の所定の領域や配列に関する情報を意味する。より具体的に、FT行には、特徴に関するキー名、当該特徴の配列における開始位置並びに終了位置及び当該特徴の説明が出力される。より具体的に、特徴としては、例えば、シグナルペプチド配列の領域、プロペプチド配列の領域、トランジットペプチド配列の領域、トポロジカルドメイン領域、膜貫通領域、内部繰り返し配列領域、カルシウム結合領域、亜鉛フィンガー領域、DNA結合領域、ヌクレオチドリン酸塩結合領域、コイルドコイル領域、生物学的意味のあるモチーフ領域及びタンパク質２次構造（α-へリックス、β-シート、ターン）領域等のタンパク質の機能に関する特徴が挙げられる。また、これらの特徴は、キー名として定義される。例えば、シグナルペプチド配列の領域に関する特徴にはキー名としてSIGNALが定義され、プロペプチド配列の領域に関する特徴にはキー名としてPROPEPが定義され、トランジットペプチド配列の領域に関する特徴にはキー名としてTRANSITが定義され、膜貫通領域に関する特徴にはキー名としてTRANSMEMが定義され、タンパク質２次構造に関する特徴にはキー名としてHELIX、STRAND及びTURNが定義されている。また、これら特徴の開始位置及び終了位置は、エントリされた前駆体アミノ酸配列におけるN末端から数えた数値として登録されている。

さらに、SQ行として出力されるアミノ酸配列情報は、所謂、アミノ酸の一文字表記則に従ったアルファベットで登録されている。また、エントリされたアミノ酸配列の全残基数や分子量といった情報も併せて登録されている。

一方、本立体構造データ帰属システムにおいて、上記第２のデータベースは、少なくとも、タンパク質に関する立体構造データ及び当該立体構造データを取得する際に使用した改変アミノ酸配列情報が関連付けられたデータセットが収集されていれば特に限定されないが、その他、生物種情報、タンパク質の説明に関する情報、タンパク質をコードする遺伝子名に関する情報、参照文献に関する情報及びタンパク質の特徴等に関する情報などが含まれていてもよい。

第２のデータベースとしては、例えば、PDB、HSSP及びSMR等を使用することができる。第２のデータベースには、構造解析が行われたタンパク質（複合体の場合もある）毎にデータセットが登録されている。ここで構造解析とは、X線結晶構造解析、核磁気共鳴解析及びシンクロトロン放射光結晶構造解析、電子線構造解析、中性子溶液散乱解析、振動分光解析法を挙げることができる。これら構造解析によれば所定のタンパク質或いはタンパク質複合体について、原子座標データを得ることができる。すなわち、タンパク質の立体構造データとしては、一例として原子座標データを挙げることができる。

一例として、PDBには、構造解析を行ったタンパク質について、見出し、タイトル、分子情報、生物種情報、キーワード、実験系情報、登録者情報、登録日、参照文献情報、実験条件情報、データベース相互参照情報、構造解析に使用したタンパク質のアミノ酸配列情報及び原子座標データが関連付けられたデータセットとして格納されている。PDBにおいて、見出しはHEADER行に出力され、タイトルはTITLE行に出力され、分子情報はCOMPND行に出力され、生物種情報はSOURCE行に出力され、キーワードはKEYWDS行に出力され、実験系情報はEXPDTA行に出力され、登録者情報はAUTHOR行に出力され、登録日REVDAT行に出力され、参照文献情報はJRNL行に出力され、実験条件情報はREMARK行に出力され、データベース相互参照情報はDBREF行に出力され、改変前後のアミノ酸残基の種類と位置に関する情報はSEQADV行に出力され、構造解析に使用した精製タンパク質のアミノ酸配列情報はSEQRES行に出力され、原子座標データはATOM行に出力される。

なお、COMPND行に出力される分子情報とは、構造解析の対象となったタンパク質が単量体であるか複合体であるかに関する情報、複合体である場合には当該複合体を構成する各チェインに関する情報及び当該タンパク質の機能による名称情報が挙げられる。また、キーワードはKEYWDS行に出力されるキーワードとは、構造解析の対象となったタンパク質の機能ドメインに関する情報等が挙げられる。REMARK行に出力される実験条件情報とは、構造解析の際に行った実験条件、構造解析の解像度、REFINEMENTに使用した条件、構造解析の際に像として得られなかったタンパク質におけるアミノ酸残基又は原子の欠損に関する情報等が挙げられる。すなわち、REMARK行には、実験者が意図せずに立体構造中のアミノ酸が欠損していた場合、欠損したアミノ酸の種類及び当該アミノ酸の位置に関する情報が出力される。また、SEQADV行に出力されるタンパク質の改変に関する情報とは、例えば、構造解析対象となったタンパク質を安定的に結晶化する際に行ったアミノ酸残基の置換、挿入及び欠失に関する情報であり、改変対象のアミノ酸残基の位置及び改変前後のアミノ酸残基の種類に関する情報を意味する。

以上のように、PDBにおいて、タンパク質の改変に関する情報（欠失に関する情報、挿入に関する情報及び置換に関する情報）は、REMARK行及びSEQADV行に出力されることとなる。

さらに、SEQRES行に出力されるアミノ酸配列情報は、上述した改変後のタンパク質のアミノ酸配列情報である。なお、構造解析の対象となったタンパク質が複数のチェインからなる複合体である場合には、各チェインにアルファベットの符号を付し、アルファベットで特定されるチェイン毎に、タンパク質の改変に関する情報や改変後のアミノ酸配列情報が登録されている。

本立体構造データ帰属システムでは、上述した第１のデータベース及び第２のデータベースから所望のデータを読み出し、特徴的なデータの加工及び演算を行うことによって、第２のデータベースに格納された少なくとも立体構造データを第１のデータベースに格納されたデータセットに帰属させることができる。本立体構造データ帰属システムの一例として、図１に示すように、SWISS-PROT等の第1のデータベース1（以下SWISS-PROT1と称する場合のある）とPDB等の第2のデータベース3とにネットワーク5経由でアクセス可能な通信部（通信インターフェイス部）11を有する立体構造データ帰属装置7を挙げることができる。立体構造データ帰属装置7は、例えば、一般的なコンピュータにより構成することができる。すなわち、図1に示すように、立体構造データ帰属装置7には、通信部11に加えて、ハードディスク（HDD）などの記憶装置15と、RAMなどのメモリ17と、LCDディスプレイなどの表示部21と、マウスやキーボードなどの入力部23と、全体を制御するCPU（制御部、処理部）25とを備えている。

HDD15には、オペレーティングシステム（OS）の他に、本発明に係る立体構造データ帰属処理を実行するための処理プログラムが記憶領域15aに記憶されている。この処理プログラムが起動されることによって、コンピュータが立体構造データ帰属装置7として機能する。立体構造データ帰属装置7の機能構成図を図２に示す。すなわち、立体構造データ帰属装置7は、上記第２のデータベース3から通信部11により読み出したデータセットに含まれる改変アミノ酸配列情報と改変に関する情報と用いてCPU25が改変前のアミノ酸配列情報を作成する配列作成処理部30と、配列作成処理部30で作成した改変前のアミノ酸配列情報をキーとして第１のデータベース1に含まれるデータセットをCPU25が検索し、第１のデータベース1に含まれるアミノ酸配列情報が上記改変前のアミノ酸配列情報に対して所定の値以上の同一性を示し且つ第１のデータベース1に含まれる生物種情報が上記改変前のアミノ酸配列情報に関する生物種情報が一致するデータセットをCPU25が特定するデータ特定処理部31とから構成される。

配列作成処理部30では、先ず、通信部11を介して、PDB3に格納されているデータセットから立体構造解析の対象となったタンパク質のアミノ酸配列を読み出す。具体的には、PDB3に格納されているデータセットからSEQRES行に記録されたアミノ酸配列情報を読み出す。なお、このアミノ酸配列情報は、立体構造解析に際して適宜、改変された精製タンパク質に関するアミノ酸配列情報である。また、配列作成処理部30は、PDB3に格納されているデータセットから立体構造解析の際に行ったアミノ酸残基の改変に関する情報を読み出す。具体的には、PDB3に格納されているデータセットからREMARK行に記録された、像として得られなかったアミノ酸残基の欠損に関する情報を読み出し、SEQADV行に記録された、アミノ酸残基の置換に関する情報を読み出す。

ここで、SEQRES行に記録されたアミノ酸配列情報とは、アミノ酸の種類を意味するアルファベットからなるテキスト形式のデータである。また、アミノ酸残基の改変に関する情報とは、アミノ酸残基の改変が欠失である場合には欠失対象アミノ酸残基の位置及び当該アミノ酸の種類を示すデータあり、アミノ酸残基の改変が置換である場合には置換対象アミノ酸残基の位置及び置換前後のアミノ酸の種類を示すデータであり、アミノ酸残基の改変が付加である場合には付加対象のアミノ酸の位置及び当該アミノ酸の種類を示すデータである。

配列作成処理部30では、PDB3から読み出したアミノ酸配列情報と、アミノ酸残基の改変に関する情報とを使用して、改変前のアミノ酸配列情報を作成する。具体的に、アミノ酸残基の改変に関する情報がアミノ酸の欠失に関する情報である場合、PDB3から読み出したアミノ酸配列情報に対して欠失対象となったアミノ酸残基を付加することで改変前のアミノ酸配列情報を作成する。アミノ酸残基の改変に関する情報がアミノ酸の置換に関する情報である場合、PDB3から読み出したアミノ酸配列情報に含まれる置換後のアミノ酸残基を、置換前のアミノ酸残基に変更することで改変前のアミノ酸配列情報を作成する。アミノ酸残基の改変に関する情報がアミノ酸の付加に関する情報である場合、PDB3から読み出したアミノ酸配列情報に対して、付加されているアミノ酸残基を削除することで改変前のアミノ酸配列情報を作成する。改変前のアミノ酸配列情報は、改変後のアミノ酸配列情報と同様にアミノ酸の種類を示すアルファベットからなるテキスト形式のデータとして作成される。

一方、データ特定処理部31は、PDB3に格納されている立体構造データをSWISS-PROT1に格納されているデータセットに帰属させる処理を行う。具体的に、以下の条件を満たす場合に、PDB3に格納されている立体構造データをSWISS-PROT1に格納されているデータセットに帰属させる。先ず第１に、SWISS-PROT1に格納されているデータセットのなかで、配列作成処理部30で作成した改変後のアミノ酸配列情報に所定の値以上の同一性を示すアミノ酸配列情報が含まれるデータセットである。第２に、SWISS-PROT1に格納されているデータセットのなかで、配列作成処理部30で作成した改変後のアミノ酸配列情報に関する生物種情報と一致する生物種情報が含まれるデータセットである。

ここで、データ特定処理部31は、配列作成処理部30で作成した改変後のアミノ酸配列情報を問い合わせ配列（クエリー配列と称される）として、FASTA等の相同性検索プログラムを用いてSWISS-PROT1を検索する。相同性検索プログラムとしてFASTAを利用する場合、例えばE-value（クエリー配列と検索配列の組み合わせが偶然に見つかる個数を表した統計的有意性を示す期待値）が1.0以下、かつ、Identity（クエリー配列と、検索にヒットした配列との間におけるアミノ酸配列情報の一致度）が95%以上の条件を設定し、SWISS-PROT1におけるSQ行に格納されたアミノ酸配列情報を検索する。また、データ特定処理部31は、PDB3のSOURCE行に格納されている、配列作成処理部30で作成した改変後のアミノ酸配列情報に関する生物種情報と、SWISS-PROT1におけるOS行とを比較することで、生物種情報が一致するデータセットを検索する。

なお、データ特定処理部31では、上述した相同性検索処理に先立って、SWISS-PROT1におけるOS行を検索して配列作成処理部30で作成した改変後のアミノ酸配列情報に関する生物種情報を含むデータセットを抽出しておき、抽出したデータセットに対して上述した相同性検索処理を行ってもよい。あるいは、データ特定処理部31では、上述した相同性検索によって検索された１又は複数のデータセットに対して、OS行を検索して配列作成処理部30で作成した改変後のアミノ酸配列情報に関する生物種情報を含むデータセットを特定してもよい。

ところで、HDD15の記憶領域15aに記憶された本発明に係る立体構造データ帰属処理を実行するための処理プログラムが起動されることによって、コンピュータが図３に示すような立体構造データ帰属装置7として機能するものであってもよい。すなわち、図３に示す立体構造データ帰属装置7は、上述した配列作成処理部30及びデータ特定処理部31を備え、更に、SWISS-PROT1に含まれるデータセットのなかから、PDB3に含まれる上記改変前のアミノ酸配列情報に関する生物種情報と一致する生物種情報を含むデータセットを抽出するデータ抽出部32と、データ特定処理部31で特定したSWISS-PROT1に含まれるデータセットに含まれるアミノ酸配列情報に対する、配列作成処理部30でPDB3から読み出した改変前アミノ酸配列情報のカバー率をCPU25が算出するカバー率算出処理部33と、データ特定処理部31で特定したSWISS-PROT1に含まれるデータセットに含まれるアミノ酸配列情報に対して、上記配列作成処理部30でPDB3から読み出した改変前アミノ酸配列情報がカバーしている領域が如何なるレベルに合致するかCPU25が判断するレベル判定処理部34とを備える。また、図３に示す立体構造データ帰属装置7は、データ特定処理部31、カバー率算出処理部33及びレベル判定処理部34における処理結果を表示部21や通信部11を介して他の情報端末に出力する出力処理部35を備えていても良い。さらに、また、図３に示す立体構造データ帰属装置7は、データ特定処理部31、カバー率算出処理部33及びレベル判定処理部34における処理結果をメモリ17やHDD15、通信部11を介して他の記憶装置に記憶する記憶処理部36を備えていても良い。

ここで、データ抽出処理部32は、上述したデータ特定処理部31における相同性検索処理に先立って、SWISS-PROT1に格納されたデータセットに含まれる生物種情報に基づいて所定の生物種情報を含むデータセットを抽出する。すなわち、データ抽出処理部32は、通信部11を介してSWISS-PROT1にアクセスし、OS行を検索対象として所定の生物種に関連するデータセットを読み出してメモリ17やHDD15に記録する。ここで、生物種情報とは、例えば属及び種により特定される生物名称、好ましくは属、種及び株により特定される生物名称を挙げることができる。特に、データ抽出処理部32は、配列作成処理部30にて作成した改変前のアミノ酸配列情報に関連する生物種情報と一致する生物種情報を含むデータセットを抽出することが好ましい。

また、カバー率算出処理部33は、データ特定処理部31で特定したSWISS-PROT1のデータセットに含まれる成熟タンパク質のアミノ酸配列情報において、PDB3に登録され、立体構造が解析されたタンパク質のアミノ酸配列が占める割合を算出する。言い換えると、カバー率算出処理部33は、SWISS-PROT1のデータセットに含まれるアミノ酸配列情報において、PDB3に登録されているアミノ酸配列が占める割合を算出する。

さらに、レベル判定処理部34は、データ特定処理部31において帰属が決定された立体構造データが、タンパク質における如何なる領域をカバーしているかを示すレベルを判定する。すなわち、PDB3に登録されているアミノ酸配列からなる領域（構造決定領域）が、SWISS-PROT1に登録されているタンパク質における如何なる領域をカバーしているかを示すレベルを判定する。レベル判定処理部34は、HDD15や他の記憶装置等に予め格納されているレベルテーブルを参照して上記レベルを判定する。ここで、レベルテーブルとは、タンパク質の種類毎に規定されるものであり、所定のタンパク質について二次構造情報及び/又はドメイン情報に基づいて複数のレベルを定義している。

具体的には、膜タンパク質については、構造決定領域が成熟タンパク質の全領域をカバーしている場合にはレベルAとし、構造決定領域が末端ループ構造（C末端及びN末端）以外の全ての膜貫通ドメインをカバーしている場合にはレベルBとし、構造決定領域が部分的に膜貫通ドメインをカバーしている場合にはレベルCとし、構造決定領域がループ構造（C末端、N末端及び膜貫通領域間ループ）を含む場合にはレベルDとする。また、膜タンパク質のなかでもGタンパク質共役型受容体ファミリー、膜電位型イオンチャネルファミリー、GPIアンカー型リポタンパク質ファミリー等のファミリー毎にレベルテーブルを準備することができる。

また、膜タンパク質以外にもタンパク質としては、細胞内に局在する受容体タンパク質、所定の生体内化学反応を触媒する酵素タンパク質等についてもレベルテーブルを準備することができる。例えば、細胞内に局在する受容体タンパク質については、構造決定領域が成熟タンパク質の全領域をカバーしている場合にはレベルAとし、構造決定領域がリガンド結合領域をカバーしている場合にはレベルBとし、構造決定領域が部分的にリガンド結合領域をカバーしている場合にはレベルCとし、構造決定領域がリガンド結合領域以外の領域をカバーしている場合にはレベルDとする。例えば、酵素タンパク質については、構造決定領域が成熟タンパク質の全領域をカバーしている場合にはレベルAとし、構造決定領域が酵素活性ドメインをカバーしている場合にはレベルBとし、構造決定領域が部分的に酵素活性ドメインをカバーしている場合にはレベルCとし、構造決定領域が酵素活性ドメイン以外をカバーしている場合にはレベルDとする。

レベル判定処理部34は、上述したレベルテーブルを参照することによって、データ特定処理部31で実行した相同性検索処理の結果から、PDB3から読み出した改変前アミノ酸配列情報がカバーしている領域が上記複数のレベルのうち、如何なるレベルに合致するか判断することができる。

以上のように、図２又は図３に示した立体構造データ帰属装置7によれば、PDB3に登録された立体構造データを、SWISS-PROT1に登録されたデータセットに正確に関連付けることができる。以下、本発明に係る立体構造データ帰属プログラムの一例として、PDB3に格納されたタンパク質に関する立体構造データを、SWISS-PROT1に格納されデータセットに帰属させる処理について現状のSWISS-PROT1及びPDB3の仕様に基づいてより詳細に説明する。なお、以下の説明は、現状のSWISS-PROT1及びPDB3の仕様に基づくものであり、これらSWISS-PROT1及びPDB3の仕様が変更されれば、当該変更に応じて以下の処理プログラムも適宜変更することができる。したがって、以下の説明における処理プログラムは、本発明の技術的範囲を限定するものではない。

SWISS-PROT1及びPDB3に格納されているそれぞれ情報の一例を図４に示す。図4の左側にはSWISS-PROT1に格納されたデータセットの一例を示し、図4の右側にはPDB3に格納されているデータセットの一例を示す。図4に示すように、両データベースはフォーマットが大きく異なっており、SWISS-PROT1には、所定のタンパク質に関する機能や名称等を記載した領域1a（ID行からFT行）と、タンパク質のアミノ酸配列情報を記載した領域1b（SQ行）とが設けられている。また、図４に示すように、PDB3は、符号3aから3dに示されるように、タンパク質の立体構造解析の結果として立体構造データが、登録者ベースで登録されている。すなわち、PDB3においては、同じタンパク質について多数の登録者による多数のデータセットが登録されることとなる。また、PDB3は、登録者以外の人手が入っていないため、フォーマットエラーをもつデータセットが多数登録されている。特に、PDB3には約5万の生体高分子の立体構造が収められているが、この中から特定のタンパク質クラス／ファミリー（例えば、膜タンパク質）だけを正確に判別、収集するのは困難である。すなわち、PDB3には、タンパク質の機能情報等のアノテーションがキーワードとしてKEYWDS行に登録されるが、フォーマットエラーが存在するため、また登録者がデータ登録時にキーワードを用意しなかったため、例えばキーワードに“membrane protein”を与えて検索を行っても全ての膜タンパク質構造エントリを正確に取得することは非常に困難である。

なお、PDB3では、例えば同じタンパク質の複合4量体（ホモテトラマー）立体構造を1エントリ内に4チェインとして登録されている。例えば、PDB3への立体構造データ登録の時点では、高度好塩性古細菌がもつタンパク質の1つであるバクテリオロドプシンの情報は、SWISS-PROT1においては1エントリ、PDBにおいては71エントリ・8789チェインに登録されている。

本発明に係る立体構造データ帰属プログラムにおける処理フローチャートを図５に示す。なお、以下の説明におけるステップ番号は、図５においてS1等として示している。

先ず本処理フローでは、ステップ１〜２（図５においてS1〜S2）によりSWISS-PROT1の全データセットから拡張SWISS-PROTタンパク質データセットを作成し、ステップ３〜６（図５においてS3〜S6）によりPDB3から拡張PDBチェインタンパク質データセットを作成する。なお、ステップ１〜２とステップ３〜６とは、如何なる順序で実行してもよい。また、図５に示すステップ１〜１１の処理を、より詳細な処理フローとして図６〜８に示す。

ステップ１
ステップ１では、SWISS-PROTの全データセットからいくつかの検索キーを組み合わせて、特定のタンパク質クラス／ファミリーに属するデータセットのみを抽出し、それ以外のデータセットは除外する。ただし、全タンパク質を対象とする場合は、この処理を省くことができる。例えば、検索キーの組み合わせ例と検索されるタンパク質クラス／ファミリーの例とを以下a)〜d)に示す。なお、図６〜８においては、一例として膜タンパク質クラスに関するデータセットを抽出した例を開示する。

a）SWISS-PROTのKW行に“Transmembrane”が出現し、且つFT行に“TRANSMEM”が1回以上出現すると、膜タンパク質クラスと判断する。このケースに該当するSWISS-PROTのエントリ例を図９に示す。矢印で示した箇所が関係する箇所であり、この例が膜タンパク質クラスに関するデータセットであると判定できる。

b）KW行に“Transmembrane”及び“G-protein coupled receptor”が出現し、且つFT行に“TRANSMEM”が7回出現すると、Gタンパク質共役型受容体ファミリーと判断する。このケースに該当するSWISS-PROTのエントリ例を図１０に示す。矢印で示した箇所が関係する箇所であり、この例がGタンパク質共役型受容体ファミリーに関するデータセットであると判定できる。

c）KW行に“Transmembrane”、“Ionic channel”及び“Voltage-gated channel”が出現し、且つFT行に“TRANSMEM”が2回以上出現すると、膜電位型イオンチャネルファミリーと判断する。このケースに該当するSWISS-PROTのエントリ例を図１１に示す。矢印で示した箇所が関係する箇所であり、この例が膜電位型イオンチャネルファミリーに関するデータセットであると判定できる。

d）KW行に“Lipoprotein”、“GPI-anchor”及び“Membrane”が出現し、且つFT行に“LIPID”が1回出現すると、GPIアンカー型リポタンパク質ファミリーと判断する。このケースに該当するSWISS-PROTのエントリ例を図１２に示す。矢印で示した箇所が関係する箇所であり、この例がGPIアンカー型リポタンパク質ファミリーに関するデータセットであると判定できる。

ステップ２
ステップ２では、ステップ１で抽出した特定のタンパク質クラス／ファミリーに属するデータセットについて、各データの削除及び必要に応じて新規データを追加し、拡張SWISS-PROTタンパク質データセットを作成する。

例えば、SWISS-PROTのデータセットのなかから、一部の行（RN行、RP行、RX行、RA行、RT行、RL行、CC行、DR行（“DR EMBL行”と“DR PIR行”は削除しない。ただし、これらの行が存在しないエントリもある。）とFT行（ただし“FT HELIX行”、“FT STRAND行”、“FT TURN行”のみ））を削除する（図１３Ａ及び１３Ｂ参照）。

ところで、SWISS-PROTのデータセットには、前駆体タンパク質のアミノ酸配列が含まれるものの、翻訳後修飾による成熟タンパク質のアミノ酸配列は含まれていない。また、SWISS-PROTのデータセットには、選択的スプライシング（alternative splicing）やアイソフォーム（isoform）等によって生成される複数のタンパク質についてそれぞれのアミノ酸配列が含まれていない。このため、ステップ２では、SWISS-PROTのデータセットにおけるSQ行に含まれるアミノ酸配列から、成熟タンパク質や、選択的スプライシングによって生成されるタンパク質のアミノ酸配列、アイソフォーム毎のアミノ酸配列を作成して追加する。具体的には、SWISS-PROTのデータセットにおけるSQ行に登録されたアミノ酸配列から、SWISS-PROTのデータセットにおけるFT CHAIN行に登録された数値範囲のアミノ酸配列を抽出し、新たなアミノ酸配列情報を作成する。ここで、FT CHAIN行には、SQ行に登録されたアミノ酸配列における、成熟タンパク質や種々のバリアント、アイソフォームの開始位置及び終了位置が記録されている。前駆体タンパク質のアミノ酸配列が登録され、FT CHAIN行に成熟タンパク質の開始位置と終了位置が登録されたデータセットの一例を図１４に示す。また、図１４には、FT CHAIN行を参照してSQ行のアミノ酸配列から成熟タンパク質のアミノ酸配列を作成した例を併せて記載する。

ステップ２において、SWISS-PROTのデータセットから所定の行を削除するとともに、新たに作成したアミノ酸配列をMQ行として追加して得られるデータ拡張SWISS-PROTタンパク質データセットの一例を図１５に示す。以上のようにステップ２により、ステップ１で抽出した特定のタンパク質クラス／ファミリーに属するデータセットについて、データ拡張SWISS-PROTタンパク質データセットを作成する。

ステップ３
ステップ３では、PDBの全エントリ中から、タンパク質のエントリのみを抽出する。タンパク質以外（DNAやRNA）のエントリは除外する。

ステップ４
ステップ４では、PDBに含まれるデータセットを、タンパク質のチェイン（サブユニット）毎に分離（これをPDBチェインとよぶ。）してPDBチェインのリストを作成する。すなわち、PDBに登録されたデータセットからタンパク質のPDBチェインリストファイルを作成する。作成手順を以下（i）〜（v）に示す。（i）各PDBエントリファイルの“HEADER行”の改行コードの前（ただし、スペース文字を除いて）に4文字で記載されているPDBコードを記憶する。（ii）“COMPND CHAIN行”のコロン文字の後に記載されている文字からカンマ文字を除き、1文字単位（これがチェインIDとなる）で記憶する。（iii）もし（ii）で記憶した各チェインIDが“ATOM行”の行頭22文字目に存在していれば、PDBチェインリストファイルに“ID”、スペース3文字、（i）で記憶したPDBコード、コロン文字、（ii）で記憶したチェインID、改行コード、“//”、改行コードの順で記録する。一方、（ii）で記憶したチェインIDが“ATOM行”の行頭22文字目に存在していなければ、PDBエントリファイルの記載にミスがあるため、次のPDBエントリファイルに処理を移す。（iv）（iii）の処理を該当エントリファイル内で記憶した全チェインIDについて同様の処理を行う。（v）（i）〜（iv）の処理を全てのPDBエントリファイルに対して行う。以上の処理を図１６に示す。

ステップ５
ステップ５では、ステップ４で作成したタンパク質のPDBチェインリストに下記1）から11）までの処理にしたがって得た情報を上書きしていくことによって、PDBチェイン毎に、SWISS-PROTを模した記述形式に書き直す。書き直した結果を図１７に示し、図１７を参照して以下に説明する。

1）タンパク質分子名情報：PDBに登録されたデータセットにおいて、まず、PDBチェインIDに対応（マッチ）するIDを“COMPND行”から検索し、その“MOL_ID”番号を記憶する。次に、記憶した“MOL_ID”番号をもつ“COMPND行”の“MOLECULE:”の後ろから改行コード前までに記載されているタンパク質分子名情報を記憶する。この情報を拡張PDBチェインタンパク質データセット内の該当するPDBチェインの“DE行”の中に付加・格納する。ただし、PDBに登録されたデータセットにはタンパク質名情報の記載が無い場合もある。

2）生物種名情報：PDBに登録されたデータセットにおいて、まず、PDBチェインIDに対応（マッチ）するIDを“COMPND行”から検索し、その“MOL_ID”番号を記憶する。次に、記憶した“MOL_ID”番号をもつ“SOURCE行”の“ORGANISM_SCIENTIFIC:”の後ろから改行コード前までに記載されている生物種名情報を記憶する。この情報を拡張PDBチェインタンパク質データセット内の該当するPDBチェインの“OS行”の中に付加・格納する。ただし、PDBエントリファイルには生物種名情報の記載が無い場合もある。

3）生物種一般名情報：PDBに登録されたデータセットにおいて、まず、PDBチェインIDに対応（マッチ）するIDを“COMPND行”から検索し、その“MOL_ID”番号を記憶する。次に、記憶した“MOL_ID”番号をもつ“SOURCE行”の“ORGANISM_COMMON:”の後ろから改行コード前までに記載されている生物種一般名情報を記憶する。この情報を拡張PDBチェインタンパク質データセット内の該当するPDBチェインの“OC行”の中に付加・格納する。ただし、PDBに登録されたデータセットには生物種一般名情報の記載が無い場合もある。

4）遺伝子名情報：PDBに登録されたデータセットにおいて、まず、PDBチェインIDに対応（マッチ）するIDを“COMPND行”から検索し、その“MOL_ID”番号を記憶する。次に、記憶した“MOL_ID”番号をもつ“SOURCE行”の“GENE:”の後ろから改行コード前までに記載されている遺伝子名情報を記憶する。この情報を拡張PDBチェインタンパク質データセット内の該当するPDBチェインの“GN行”の中に付加・格納する。ただし、PDBに登録されたデータセットには遺伝子名情報の記載が無い場合もある。

5）立体構造決定実験情報：PDBに登録されたデータセットにおいて、PDBチェインIDに対応（マッチ）するIDを“COMPND行”から検索し、その“MOL_ID”番号を記憶する。次に、記憶した“MOL_ID”番号をもつ“EXPDTA行”に記載されている立体構造決定実験情報を記憶する。次に、“REMARK行”の中から解像度（オングストロームA値）とR因子の値を記憶する。記憶した情報を拡張PDBチェインタンパク質データセット内の該当するPDBチェインの“EX行”の中に付加・格納する。ただし、PDBに登録されたデータセットには立体構造決定実験情報の記載が無い場合もある。

6）データベース相互参照情報：PDBに登録されたデータセットにおいて、PDBチェインIDに対応（マッチ）するIDを“COMPND行”から検索し、その“MOL_ID”番号を記憶する。次に、記憶した“MOL_ID”番号をもつ“DBREF行”に記載されているPDBチェインIDと、参照データベース名と、そのデータベースに登録されているID（Identifier）名とAC（Accession）番号を記憶する。記憶した情報を拡張PDBチェインタンパク質データセット内の該当するPDBチェインの“DR行”の中に付加・格納する。ただし、PDBに登録されたデータセットには、データベース相互参照情報の記載が無い場合もある。

7）アミノ酸欠損情報：PDBに登録されたデータセットにおいて、PDBチェインIDに対応（マッチ）するIDを“COMPND行”から検索し、その“MOL_ID”番号を記憶する。次に、記憶した“MOL_ID”番号をもつ“REMARK行”の中から“MISSING RESIDUES”以下に記載されているPDBチェインIDと欠損アミノ酸残基の種類と残基番号(位置)の情報を記憶する。次に、記憶したこれらの情報を拡張PDBチェインタンパク質データセット内の該当するPDBチェインの“FT MISSING行”の中に付加・格納する。ただし、PDBに登録されたデータセットにはアミノ酸欠損情報の記載が無い場合もある。なお、アミノ酸欠損情報とは、構造解析対象のタンパク質が結晶化剤や緩衝液中において揺らぐことで特に構造動的部分が不安定になっていることに起因して、結晶構造回折像が低解像度として与えられる結果、原子座標が得られないアミノ酸残基に関する情報である。

8）アミノ酸改変情報：PDBに登録されたデータセットにおいて、PDBチェインIDに対応（マッチ）するIDを“COMPND行”から検索し、その“MOL_ID”番号を記憶する。次に、記憶した“MOL_ID”番号をもつ“SEQADV行”に記載されているチェインID、改変後のアミノ酸残基の種類と残基番号（位置）、改変前のアミノ酸残基の種類と残基番号（位置）の情報を記憶する。次に、記憶したこれらの情報を拡張PDBチェインタンパク質データセット内の該当するPDBチェインの“FT CONFLICT行”の中に付加・格納する。ただし、PDBに登録されたデータセットにはアミノ酸改変情報の記載が無い場合もある。

9）精製アミノ酸配列情報：PDBに登録されたデータセットにおいて、PDBチェインIDに対応（マッチ）するIDを“COMPND行”から検索し、その“MOL_ID”番号を記憶する。次に、記憶した“MOL_ID”番号をもつ“SEQRES行”に記載されているPDBチェインID、精製タンパク質アミノ酸配列情報を記憶する。図１８Ａから１８Ｃまでに示すように、PDBエントリファイルに記載されている精製タンパク質アミノ酸配列情報は3文字コードであるため1文字コードへ変換する。次に、記憶したこれらの情報を拡張PDBチェインタンパク質データセット内の該当するPDBチェインの“SQ行”の中に付加・格納する。さらに、“SQ行”には総残基数の情報も付加・格納する。

10）立体構造原子座標が得られたタンパク質のアミノ酸配列情報：PDBに登録されたデータセットにおいて、PDBチェインIDに対応（マッチ）するIDを“COMPND行”から検索し、その“MOL_ID”番号を記憶する。次に、記憶した“MOL_ID”番号をもつ“ATOM行”に記載されているPDBチェインID、アミノ酸残基の種類と残基番号を記憶する。図１８Ａから１８Ｃまでに示すように、PDBエントリファイルに記載されている立体構造原子座標が得られたタンパク質のアミノ酸配列情報は3文字コードであるため、1文字コードへ変換する。アミノ酸残基は残基番号順に連続したアミノ酸配列（EQ配列）情報として作成する。次に、これらの情報を拡張PDBチェインタンパク質データセット内の該当するPDBチェインの“EQ行”の中に付加・格納する。さらに、“EQ行”には総残基数の情報も付加・格納する。

11）改変前アミノ酸配列情報：PDBに含まれるタンパク質のアミノ酸配列情報は、構造解析実験における都合により人工的にアミノ酸の欠失や置換、挿入といった改変を施している場合が多い。そこで、前述した拡張PDBチェインタンパク質データセット内の該当するPDBチェインの“FT MISSING行”に格納したアミノ酸欠失情報と、“FT CONFLICT行”に格納したアミノ酸置換情報、該当するPDBエントリファイルのATOM行に記載されているアミノ酸残基番号情報を利用することによって、改変後タンパク質のアミノ酸配列情報であるEQ配列情報から改変前のアミノ酸配列情報に変換する。この処理を図１９Ａ及び１９Ｂに模式的に示す。すなわち、上記10)で作成したEQ行のアミノ酸配列に対して、“FT MISSING行”で特定される欠失したアミノ酸を組み込むとともに、“FT CONFLICT行”で特定される置換されたアミノ酸を置換前のアミノ酸に変更する。これにより、改変前のアミノ酸配列を作成することができ、拡張PDBチェインタンパク質データセット内の該当するPDBチェインの“PQ行”の中に付加・格納する。同様に、“PQ行”には総残基数の情報も付加・格納する。

以上の処理によって、PDBエントリファイルから抽出した情報と、拡張PDBチェインタンパク質データセットへ加工し格納した情報の対応関係を表1にまとめる。上記の1）から11）までが、表1中の1）から11）までに対応する。

ステップ６
上記ステップ５における2)の処理において、“SOURCE行”の“ORGANISM_SCIENTIFIC:”の後ろに生物種名情報が登録されていない場合には、他のデータベースにアクセスして、生物種名情報を読み出し、拡張PDBチェインタンパク質データセットの該当するPDBチェインのエントリ内の“OS行”の中に付加・格納する。ここで、他のデータベースとしては、アメリカ合衆国立バイオテクノロジー情報センター（NCBI）のMMDB（Molecular Modeling DataBase）PDBeastデータベースを挙げることができる。このPDBeastデータベースは、アメリカ合衆国立バイオテクノロジー情報センター（NCBI）がMMDB（Molecular Modeling DataBase）の自動更新システムを構築するにあたり、PDBに生物種名情報の記載漏れが多く存在しているために、タンパク質立体構造情報−ゲノム情報間の対応付けが困難であったことから、人手によってPDBチェイン毎に生物種名情報を割り当てたデータベースである。PDBeastデータベースを使用する場合、Tax.tableファイルを用いて、該当するPDBチェインIDをTax.tableファイルの中から検索し、マッチしたPDBチェインID以降（同一の行）に記載されている生物種名情報を読み出し、“OS行”の中に付加・格納することができる。ただし、MMDB PDBeastの方針は、細菌株違いの亜種（subspecies。例えば大腸菌K12株とO157株など）の区別を行わないとしている。

ステップ７
ステップ７では、ステップ２で作成された拡張SWISS-PROTタンパク質データセットの全エントリのMQ配列情報と、上記ステップ５で作成された拡張PDBチェインタンパク質データセットの全エントリのPQ配列情報との総当りで、配列相同性検索アルゴリズムFASTAを用いて検索する（この際、BLASTシリーズやSSEARCHなど、その他の配列相同性検索アルゴリズムを使用してもよい）。このとき、PQ配列情報が存在しない場合、つまり人工的改変の記述がないチェインの場合には、EQ配列情報を用いる。FASTA検索の結果、E-value（クエリー配列と検索配列の組み合わせが偶然に見つかる個数を表した統計的有意性を示す期待値）が1.0以下、かつ、Identity（検索クエリーであるPQ配列情報あるいはEQ配列情報と、検索にヒットしたMQ配列情報との間でのアライメント結果におけるアミノ酸配列情報の一致度）が95%以上になったペア（拡張SWISS-PROTタンパク質データセットのMQ配列情報と拡張PDBチェインのPQ配列情報とのペア）は、同一のタンパク質を示すペアの候補とみなす。条件を満たさないペアは除外する。

ここで、拡張PDBチェインタンパク質データセットに非標準アミノ酸残基（例えばXを割り当てる）及びギャップが含まれていた場合には、Identityとしては、図２０に示したOverlapped identityを用いることが好ましい。Overlapped identityは、アライメントにおいてX残基部分とギャップ挿入部分の不一致結果を考慮しないで算出した一致度を意味する。

一方、非標準アミノ酸残基が含まれておらずギャップのみが含まれている場合には、図２１に示したUngapped identityを用いることが好ましい。Ungapped identityは、アライメントにおいて挿入されたギャップを考慮しないで算出した一致度を意味する。

ステップ８
ステップ８では、ステップ７で特定したペア候補について、生物種名情報を比較し、生物種名が一致した場合は確定ペアとみなす。生物種名が一致しなかったペアは除外する。すなわち、ステップ７で特定したペア候補の全てについて、ステップ２で作成された拡張SWISS-PROTタンパク質データセットに含まれるOS行と、ステップ６で作成された拡張PDBチェインタンパク質データセットにおけるOS行とを比較する。

ステップ９
ステップ９では、ステップ８で特定した確定ペアについて、拡張SWISS-PROTタンパク質データセット側のMQ配列情報と拡張PDBチェインタンパク質データセット側のEQ配列情報間のアライメントを、FASTAを用いて求める（この際、BLASTシリーズやSSEARCHなど、その他の配列相同性検索アルゴリズムを使用してもよい）。アライメントされた領域における配列一致度から、SWISS-PROT側のMQ配列情報の中で立体構造が決定した配列領域の割合を求めることができる。

ステップ１０
ステップ１０では、ステップ８で特定した確定ペアについて、拡張SWISS-PROTタンパク質データセット側のSQ配列情報と拡張PDBチェインタンパク質データセット側のEQ配列情報間のアライメントを、FASTAを用いて求める（この際、BLASTシリーズやSSEARCHなど、その他の配列相同性検索アルゴリズムを使用してもよい）。アライメントされた領域の残基位置から、SWISS-PROT側のSQ配列情報の中で立体構造が決定した領域の残基位置が求まる。

ステップ１１
ステップ１１では、ステップ１〜１０の処理の結果を新たな結果ファイルとして作成する。結果ファイルのフォーマットとしては、何ら限定されないが、例えば、図２２に示すように、元のSWISS-PROTフォーマットと比較すると、“MQ行（成熟タンパク質アミノ酸配列情報）”が新たに付加され、“DR PDB行（PDBとのデータベース相互参照情報）”のフォーマットを変更して独自の記述形式にしたがって上書きしたものを挙げることができる。すなわち、PDBにおける立体構造データとリンクするPDBエントリ名を、SWISS-PROTに格納されたデータセットに帰属させることができる。また、結果ファイルのフォーマットとしては、PDBにおいて立体構造データが解析されたチェイン名、実験方法、解像度等を併せて出力するものでもよい。また、ステップ９や１０で決定した構造決定領域の割合や構造決定領域開始位置及び終了位置を併せて出力することもできる。

以上のステップを経て、SWISS-PROTに立体構造の詳細情報が付加され、アミノ酸配列・機能・立体構造の対応付けが可能な全てのタンパク質、あるいは特定クラス／ファミリータンパク質総合データベースを提供することができる。

また、上述したように、構造決定開始位置及び終了位置がSWISS-PROTに格納されたアミノ酸配列に基づいて判明しており、また、SWISS-PROTにはタンパク質の機能ドメインや二次構造に関する情報が格納されているため、これらを利用することによって、構造決定領域を、予め定義した複数のレベルのうち如何なるレベルに合致するか判断することができる。なお、このレベル判定の結果は、図２２に示すように、DR行の一部として出力することができる。具体的に、レベル判定は、例えば、以下の定義を含むレベルテーブルを準備しておき、当該レベルテーブルを参照して構造決定領域がどのレベルに合致するか判断することで行われる。
・Level-A: 構造決定領域が成熟配列領域を全て含む。
・Level-B: 構造決定領域が末端ループ（N and/or C末端ループ）領域以外、かつ、全ての膜貫通領域を含む。
・Level-C: 構造決定領域が部分的に膜貫通領域を含む。
・Level-D: 構造決定領域がループ（N, C末端 and/or 膜貫通領域間ループ）領域を含む。

さらに、レベル判定を行った場合には、立体構造決定領域のレベル（A、B、C、D）ごとに集計し、それぞれのデータセットを作成することもできる。これによって、例えばレベルAのデータのみが欲しいユーザに提供が可能となる。

さらにまた、立体構造解析の解像度や立体構造解析野際のアミノ酸配列の改変率に従って、さらに詳細なレベル判定を行ってもよい。すなわち、配列-高品質立体構造データ選別フィルタとして、例えば、以下の条件を設定し、これら条件を全て満たすデータを配列-高品質立体構造データとして選別することができる。
・解像度 < 2.8オングストローム（0.28nm）
・R因子の値 ≦ 0.3000
・アミノ酸改変率 < 5%
・アミノ酸改変連続出現 < 4残基
なお、上記の条件を変更することで、所望のレベル分類を行うこともできる。

以上に説明したように、本発明に係る立体構造データ帰属装置7によれば、各種のレベル判定結果を含む統合データベースを提供することで、より信頼性の高い立体構造が得られているタンパク質の詳細情報を抽出することができ、より高精度な立体構造データを必要とする創薬などの分野での応用が可能である。また、得られた統合データベースを利用することで、信頼性の高い立体構造が得られているタンパク質に対する相同タンパク質をヒトゲノムデータから同定し、次に、タンパク質立体構造データを鋳型として、ヒトゲノムから同定された相同タンパク質に対して、既存のホモロジーモデリング手法による構造予測を行うことによって、創薬研究に寄与することが可能である。さらに、得られた統合データベースを利用することで、創薬上で特に重要なタンパク質立体構造データを選別・抽出し、それらのタンパク質の基準振動解析などの高度な構造シミュレーションを行うことにより、創薬研究の加速、新産業の創出への寄与が期待できる。

1…SWISS-PROT（第1のデータベース）、3…PDB（第2のデータベース）、5…ネットワーク、7…タンパク質の情報検索装置、11…通信部（通信インターフェイス部）、15…記憶装置、15a…処理プログラム記憶領域、17…メモリ、21…表示部、23…入力部、25…CPU（処理部・制御部）。

Claims

記憶部と処理部と通信部とを備え、少なくともタンパク質のアミノ酸配列情報と生物種情報とが関連付けられたデータセットを有する第１のデータベースと、少なくともタンパク質の立体構造データと当該立体構造データを取得する際に使用した改変アミノ酸配列情報とが関連付けられたデータセットを有する第２のデータベースとに対してアクセス可能なコンピュータに、
上記第２のデータベースから上記通信部により読み出したデータセットに含まれる改変アミノ酸配列情報と改変に関する情報とを用い、上記処理部が改変前のアミノ酸配列情報を作成する工程ａと、
上記改変前のアミノ酸配列情報をキーとして上記第１のデータベースに含まれるデータセットを上記処理部が検索し、上記第１のデータベースに含まれるアミノ酸配列情報が上記改変前のアミノ酸配列情報に対して所定の値以上の同一性を示し且つ上記第１のデータベースに含まれる生物種情報が上記改変前のアミノ酸配列情報に関する生物種情報に一致するデータセットを上記処理部が特定する工程ｂとを実行させる、立体構造データ帰属方法。
上記工程ｂでは、上記改変前のアミノ酸配列情報を問い合わせ配列としてFASTA法を適用して上記同一性を算出することを特徴とする請求項１記載の立体構造データ帰属方法。
上記工程ｂに先立って、上記第１のデータベースに含まれるデータセットのなかから、上記第２のデータベースに含まれる上記改変前のアミノ酸配列情報に関する生物種情報と一致する生物種情報を含むデータセットを上記処理部が抽出する工程ｃを更に実行させることを特徴とする請求項１記載の立体構造データ帰属方法。
上記工程ｂで特定した第１のデータベースに含まれるデータセットに含まれるアミノ酸配列情報に対する、上記工程ａで第２のデータベースから読み出した改変前アミノ酸配列情報のカバー率を上記処理部が算出する工程ｄを更に実行させることを特徴とする請求項１記載の立体構造データ帰属方法。
第１のデータベースに含まれる二次構造情報及び/又はドメイン情報に基づいて、第２のデータベースに含まれる改変前アミノ酸配列情報がカバーする領域について予め複数のレベルが規定されており、
上記工程ｂで特定した第１のデータベースに含まれるデータセットに含まれるアミノ酸配列情報に対して、上記工程ａで第２のデータベースから読み出した改変前アミノ酸配列情報がカバーしている領域が上記複数のレベルのうち、如何なるレベルに合致するか上記処理部が判断する工程ｅを更に実行させることを特徴とする請求項１記載の立体構造データ帰属方法。
上記第２のデータベースに同じタンパク質チェインに関する複数のデータセットが含まれている場合、上記工程ａでは、各データセットに含まれる改変アミノ酸配列情報及び改変に関する情報を用いて候補アミノ酸配列情報を作成し、複数の候補アミノ酸配列情報間における相違を多数決の原理により訂正して上記改変前のアミノ酸配列情報を作成することを特徴とする請求項１記載の立体構造データ帰属方法。
上記工程ｂの結果として、上記工程ａで読み出した第２のデータベースに含まれるデータセットについて、上記工程ｂで特定した第１のデータベースに含まれるデータセットへの帰属を示す情報を上記記憶部へ記憶する工程ｆを更に実行させることを特徴とする請求項１記載の立体構造データ帰属方法。
上記工程ｂの結果として、上記工程ｂで特定した第１のデータベースに含まれるデータセットと上記工程ａで読み出した第２のデータベースに含まれるデータセットとを統合して出力装置に出力することを特徴とする請求項１記載の立体構造データ帰属方法。
上記工程ｂ及び工程ｄの結果として、上記工程ｂで特定した第１のデータベースに含まれるデータセットと上記工程ａで読み出した第２のデータベースに含まれるデータセットとを統合するとともに、上記カバー率を関連付けて出力装置に出力することを特徴とする請求項４記載の立体構造データ帰属方法。
上記工程ｂ及び工程ｅの結果として、上記工程ｂで特定した第１のデータベースに含まれるデータセットと上記工程ａで読み出した第２のデータベースに含まれるデータセットとを統合するとともに、上記レベルを関連付けて出力装置に出力することを特徴とする請求項５記載の立体構造データ帰属方法。
上記第１のデータベースはSWISS-PROTであり、上記第２のデータベースはProtein Data Bankであることを特徴とする請求項１記載の立体構造データ帰属方法。
記憶部と処理部と通信部とを備え、少なくともタンパク質のアミノ酸配列情報と生物種情報とが関連付けられたデータセットを有する第１のデータベースと、少なくともタンパク質の立体構造データと当該立体構造データを取得する際に使用した改変アミノ酸配列情報とが関連付けられたデータセットを有する第２のデータベースとに対してアクセス可能なコンピュータに、
上記第２のデータベースから上記通信部により読み出したデータセットに含まれる改変アミノ酸配列情報と改変に関する情報とを用い、上記処理部が改変前のアミノ酸配列情報を作成する工程ａと、
上記改変前のアミノ酸配列情報をキーとして上記第１のデータベースに含まれるデータセットを上記処理部が検索し、上記第１のデータベースに含まれるアミノ酸配列情報が上記改変前のアミノ酸配列情報に対して所定の値以上の同一性を示し且つ上記第１のデータベースに含まれる生物種情報が上記改変前のアミノ酸配列情報に関する生物種情報に一致するデータセットを上記処理部が特定する工程ｂとを実行させる、立体構造データ帰属プログラム。
上記工程ｂでは、上記改変前のアミノ酸配列情報を問い合わせ配列としてFASTA法を適用して上記同一性を算出することを特徴とする請求項１２記載の立体構造データ帰属プログラム。
上記工程ｂに先立って、上記第１のデータベースに含まれるデータセットのなかから、上記第２のデータベースに含まれる上記改変前のアミノ酸配列情報に関する生物種情報と一致する生物種情報を含むデータセットを上記処理部が抽出する工程ｃを更に実行させることを特徴とする請求項１２記載の立体構造データ帰属プログラム。
上記工程ｂで特定した第１のデータベースに含まれるデータセットに含まれるアミノ酸配列情報に対する、上記工程ａで第２のデータベースから読み出した改変前アミノ酸配列情報のカバー率を上記処理部が算出する工程ｄを更に実行させることを特徴とする請求項１２記載の立体構造データ帰属プログラム。
第１のデータベースに含まれる二次構造情報及び/又はドメイン情報に基づいて、第２のデータベースに含まれる改変前アミノ酸配列情報がカバーする領域について予め複数のレベルが規定されており、
上記工程ｂで特定した第１のデータベースに含まれるデータセットに含まれるアミノ酸配列情報に対して、上記工程ａで第２のデータベースから読み出した改変前アミノ酸配列情報がカバーしている領域が上記複数のレベルのうち、如何なるレベルに合致するか上記処理部が判断する工程ｅを更に実行させることを特徴とする請求項１２記載の立体構造データ帰属プログラム。
上記第２のデータベースに同じタンパク質チェインに関する複数のデータセットが含まれている場合、上記工程ａでは、各データセットに含まれる改変アミノ酸配列情報及び改変に関する情報を用いて候補アミノ酸配列情報を作成し、複数の候補アミノ酸配列情報間における相違を多数決の原理により訂正して上記改変前のアミノ酸配列情報を作成することを特徴とする請求項１２記載の立体構造データ帰属プログラム。
上記工程ｂの結果として、上記工程ａで読み出した第２のデータベースに含まれるデータセットについて、上記工程ｂで特定した第１のデータベースに含まれるデータセットへの帰属を示す情報を上記記憶部へ記憶する工程ｆを更に実行させることを特徴とする請求項１２記載の立体構造データ帰属プログラム。
上記工程ｂの結果として、上記工程ｂで特定した第１のデータベースに含まれるデータセットと上記工程ａで読み出した第２のデータベースに含まれるデータセットとを統合して出力装置に出力することを特徴とする請求項１２記載の立体構造データ帰属プログラム。
上記工程ｂ及び工程ｄの結果として、上記工程ｂで特定した第１のデータベースに含まれるデータセットと上記工程ａで読み出した第２のデータベースに含まれるデータセットとを統合するとともに、上記カバー率を関連付けて出力装置に出力することを特徴とする請求項１５記載の立体構造データ帰属プログラム。
上記工程ｂ及び工程ｅの結果として、上記工程ｂで特定した第１のデータベースに含まれるデータセットと上記工程ａで読み出した第２のデータベースに含まれるデータセットとを統合するとともに、上記レベルを関連付けて出力装置に出力することを特徴とする請求項１６記載の立体構造データ帰属プログラム。
上記第１のデータベースはSWISS-PROTであり、上記第２のデータベースはProtein Data Bankであることを特徴とする請求項１２記載の立体構造データ帰属プログラム。
記憶部と処理部と通信部とを備え、少なくともタンパク質のアミノ酸配列情報と生物種情報とが関連付けられたデータセットを有する第１のデータベースと、少なくともタンパク質の立体構造データと当該立体構造データを取得する際に使用した改変アミノ酸配列情報とが関連付けられたデータセットを有する第２のデータベースとに対してアクセス可能な立体構造データ帰属装置であって、
上記第２のデータベースから上記通信部により読み出したデータセットに含まれる改変アミノ酸配列情報と改変に関する情報とを用いて上記処理部が改変前のアミノ酸配列情報を作成する配列作成処理部と、
上記改変前のアミノ酸配列情報をキーとして上記第１のデータベースに含まれるデータセットを上記処理部が検索し、上記第１のデータベースに含まれるアミノ酸配列情報が上記改変前のアミノ酸配列情報に対して所定の値以上の同一性を示し且つ上記第１のデータベースに含まれる生物種情報が上記改変前のアミノ酸配列情報に関する生物種情報に一致するデータセットを上記処理部が特定するデータ特定処理部とから構成される、立体構造データ帰属装置。
上記データ特定処理部では、上記改変前のアミノ酸配列情報を問い合わせ配列としてFASTA法を適用して上記同一性を算出することを特徴とする請求項２３記載の立体構造データ帰属装置。
上記第１のデータベースに含まれるデータセットのなかから、上記第２のデータベースに含まれる上記改変前のアミノ酸配列情報に関する生物種情報と一致する生物種情報を含むデータセットを上記処理部が抽出するデータ抽出処理部を更に含むことを特徴とする請求項２３記載の立体構造データ帰属装置。
上記データ特定処理部で特定した第１のデータベースに含まれるデータセットに含まれるアミノ酸配列情報に対する、上記配列作成処理部で第２のデータベースから読み出した改変前アミノ酸配列情報のカバー率を算出するカバー率算出処理部を更に含むことを特徴とする請求項２３記載の立体構造データ帰属装置。
第１のデータベースに含まれる二次構造情報及び/又はドメイン情報に基づいて、第２のデータベースに含まれる改変前アミノ酸配列情報がカバーする領域について予め複数のレベルが規定されており、
上記データ特定処理部で特定した第１のデータベースに含まれるデータセットに含まれるアミノ酸配列情報に対して、上記配列作成処理部で第２のデータベースから読み出した改変前アミノ酸配列情報がカバーしている領域が上記複数のレベルのうち、如何なるレベルに合致するか上記処理部が判断するレベル判定処理部を更に含むことを特徴とする請求項２３記載の立体構造データ帰属装置。
上記第２のデータベースに同じタンパク質チェインに関する複数のデータセットが含まれている場合、上記配列作成処理部では、各データセットに含まれる改変アミノ酸配列情報及び改変に関する情報を用いて候補アミノ酸配列情報を作成し、複数の候補アミノ酸配列情報間における相違を多数決の原理により訂正して上記処理部が上記改変前のアミノ酸配列情報を作成することを特徴とする請求項２３記載の立体構造データ帰属装置。
上記データ特定処理部の結果として、上記配列作成処理部で読み出した第２のデータベースに含まれるデータセットについて、上記データ特定処理部で特定した第１のデータベースに含まれるデータセットへの帰属を示す情報を上記記憶部へ記憶する記憶処理部を更に含むことを特徴とする請求項２３記載の立体構造データ帰属装置。
上記データ特定処理部の結果として、上記データ特定処理部で特定した第１のデータベースに含まれるデータセットと上記配列作成処理部で読み出した第２のデータベースに含まれるデータセットとを統合して出力装置に出力することを特徴とする請求項２３記載の立体構造データ帰属装置。
上記データ特定処理部及びカバー率算出処理部の結果として、上記データ特定処理部で特定した第１のデータベースに含まれるデータセットと上記配列作成処理部で読み出した第２のデータベースに含まれるデータセットとを統合するとともに、上記カバー率を関連付けて出力装置に出力することを特徴とする請求項２６記載の立体構造データ帰属装置。
上記データ特定処理部及びレベル判定処理部の結果として、上記データ特定処理部で特定した第１のデータベースに含まれるデータセットと上記配列作成処理部で読み出した第２のデータベースに含まれるデータセットとを統合するとともに、上記レベルを関連付けて出力装置に出力することを特徴とする請求項２７記載の立体構造データ帰属装置。
上記第１のデータベースはSWISS-PROTであり、上記第２のデータベースはProtein Data Bankであることを特徴とする請求項２３記載の立体構造データ帰属装置。