JP2010165216A - 立体構造データ帰属方法、立体構造データ帰属プログラム及び立体構造データ帰属装置 - Google Patents
立体構造データ帰属方法、立体構造データ帰属プログラム及び立体構造データ帰属装置 Download PDFInfo
- Publication number
- JP2010165216A JP2010165216A JP2009007535A JP2009007535A JP2010165216A JP 2010165216 A JP2010165216 A JP 2010165216A JP 2009007535 A JP2009007535 A JP 2009007535A JP 2009007535 A JP2009007535 A JP 2009007535A JP 2010165216 A JP2010165216 A JP 2010165216A
- Authority
- JP
- Japan
- Prior art keywords
- database
- amino acid
- acid sequence
- data set
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000547 structure data Methods 0.000 title claims abstract description 126
- 238000000034 method Methods 0.000 title claims description 59
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 165
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 154
- 238000012986 modification Methods 0.000 claims abstract description 95
- 230000004048 modification Effects 0.000 claims abstract description 94
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 173
- 238000012545 processing Methods 0.000 claims description 117
- 238000004891 communication Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 6
- 238000013075 data extraction Methods 0.000 claims description 5
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims 2
- 150000001413 amino acids Chemical class 0.000 abstract description 32
- 229920001222 biopolymer Polymers 0.000 abstract description 8
- 241000894007 species Species 0.000 description 46
- 101000644537 Homo sapiens Sequestosome-1 Proteins 0.000 description 32
- 102100020814 Sequestosome-1 Human genes 0.000 description 32
- 125000000539 amino acid group Chemical group 0.000 description 30
- 238000004458 analytical method Methods 0.000 description 15
- 238000012916 structural analysis Methods 0.000 description 13
- 238000006467 substitution reaction Methods 0.000 description 12
- 108010052285 Membrane Proteins Proteins 0.000 description 9
- 238000012217 deletion Methods 0.000 description 9
- 230000037430 deletion Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 239000012528 membrane Substances 0.000 description 7
- 102000018697 Membrane Proteins Human genes 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 102000004190 Enzymes Human genes 0.000 description 5
- 108090000790 Enzymes Proteins 0.000 description 5
- 102000003688 G-Protein-Coupled Receptors Human genes 0.000 description 5
- 108090000045 G-Protein-Coupled Receptors Proteins 0.000 description 5
- 108090000862 Ion Channels Proteins 0.000 description 5
- 102000004310 Ion Channels Human genes 0.000 description 5
- 102000004895 Lipoproteins Human genes 0.000 description 5
- 108090001030 Lipoproteins Proteins 0.000 description 5
- 210000004899 c-terminal region Anatomy 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000007876 drug discovery Methods 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 238000010845 search algorithm Methods 0.000 description 4
- 102000001708 Protein Isoforms Human genes 0.000 description 3
- 108010029485 Protein Isoforms Proteins 0.000 description 3
- 230000027455 binding Effects 0.000 description 3
- 239000003446 ligand Substances 0.000 description 3
- 239000002243 precursor Substances 0.000 description 3
- 208000011616 HELIX syndrome Diseases 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- -1 SWISS-PROT Proteins 0.000 description 2
- 125000001314 canonical amino-acid group Chemical group 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 239000013078 crystal Substances 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 102000035118 modified proteins Human genes 0.000 description 2
- 108091005573 modified proteins Proteins 0.000 description 2
- 238000000302 molecular modelling Methods 0.000 description 2
- 230000004481 post-translational protein modification Effects 0.000 description 2
- 108090000765 processed proteins & peptides Proteins 0.000 description 2
- 230000004853 protein function Effects 0.000 description 2
- 230000009145 protein modification Effects 0.000 description 2
- 102000005962 receptors Human genes 0.000 description 2
- 108020003175 receptors Proteins 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000203069 Archaea Species 0.000 description 1
- 108010082845 Bacteriorhodopsins Proteins 0.000 description 1
- 102000005701 Calcium-Binding Proteins Human genes 0.000 description 1
- 108010045403 Calcium-Binding Proteins Proteins 0.000 description 1
- 108091006146 Channels Proteins 0.000 description 1
- 230000004568 DNA-binding Effects 0.000 description 1
- 241001646716 Escherichia coli K-12 Species 0.000 description 1
- 241001333951 Escherichia coli O157 Species 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 102000006335 Phosphate-Binding Proteins Human genes 0.000 description 1
- 108010058514 Phosphate-Binding Proteins Proteins 0.000 description 1
- 101800001554 RNA-directed RNA polymerase Proteins 0.000 description 1
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 239000007853 buffer solution Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010894 electron beam technology Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 210000005061 intracellular organelle Anatomy 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 210000003463 organelle Anatomy 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000004960 subcellular localization Effects 0.000 description 1
- 230000005469 synchrotron radiation Effects 0.000 description 1
- 238000002460 vibrational spectroscopy Methods 0.000 description 1
- 239000011701 zinc Substances 0.000 description 1
- 229910052725 zinc Inorganic materials 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】少なくともタンパク質の立体構造データと当該立体構造データを取得する際に使用した改変アミノ酸配列情報とが関連付けられたデータセットを有する第2のデータベースから読み出したデータセットに含まれる改変アミノ酸配列情報と改変に関する情報と用い、改変前のアミノ酸配列情報を作成し、上記改変前のアミノ酸配列情報をキーとして、少なくともタンパク質のアミノ酸配列情報と生物種情報とが関連付けられたデータセットを有する第1のデータベースに含まれるデータセットを検索し、第1のデータベースに含まれるアミノ酸配列情報が改変前のアミノ酸配列情報に対して所定の値以上の同一性を示し且つ第1のデータベースに含まれる生物種情報が改変前のアミノ酸配列情報に関する生物種情報と一致するデータセットを特定する。
【選択図】図2
Description
すなわち、本発明に係る立体構造データ帰属方法は、記憶部と処理部と通信部とを備え、少なくともタンパク質のアミノ酸配列情報と生物種情報とが関連付けられたデータセットを有する第1のデータベースと、少なくともタンパク質の立体構造データと当該立体構造データを取得する際に使用した改変アミノ酸配列情報とが関連付けられたデータセットを有する第2のデータベースとに対してアクセス可能なコンピュータに以下の工程a及び工程bを実行させるものである。
本発明は、タンパク質のアミノ酸配列情報及び当該タンパク質に関する生物種情報が関連付けられたデータセットを有する第1のデータベースと、タンパク質等の生体高分子に関する立体構造データが収集されたデータベース(第2のデータベース)とを利用して、第2のデータベースに収集された立体構造データを第1のデータベースに含まれるデータセットに高精度に帰属させるシステムである。以下の説明において、本システムを立体構造データ帰属システムと呼称する。
ステップ1では、SWISS-PROTの全データセットからいくつかの検索キーを組み合わせて、特定のタンパク質クラス/ファミリーに属するデータセットのみを抽出し、それ以外のデータセットは除外する。ただし、全タンパク質を対象とする場合は、この処理を省くことができる。例えば、検索キーの組み合わせ例と検索されるタンパク質クラス/ファミリーの例とを以下a)〜d)に示す。なお、図6〜8においては、一例として膜タンパク質クラスに関するデータセットを抽出した例を開示する。
ステップ2では、ステップ1で抽出した特定のタンパク質クラス/ファミリーに属するデータセットについて、各データの削除及び必要に応じて新規データを追加し、拡張SWISS-PROTタンパク質データセットを作成する。
ステップ3では、PDBの全エントリ中から、タンパク質のエントリのみを抽出する。タンパク質以外(DNAやRNA)のエントリは除外する。
ステップ4では、PDBに含まれるデータセットを、タンパク質のチェイン(サブユニット)毎に分離(これをPDBチェインとよぶ。)してPDBチェインのリストを作成する。すなわち、PDBに登録されたデータセットからタンパク質のPDBチェインリストファイルを作成する。作成手順を以下(i)〜(v)に示す。(i)各PDBエントリファイルの“HEADER行”の改行コードの前(ただし、スペース文字を除いて)に4文字で記載されているPDBコードを記憶する。(ii)“COMPND CHAIN行”のコロン文字の後に記載されている文字からカンマ文字を除き、1文字単位(これがチェインIDとなる)で記憶する。(iii)もし(ii)で記憶した各チェインIDが“ATOM行”の行頭22文字目に存在していれば、PDBチェインリストファイルに“ID”、スペース3文字、(i)で記憶したPDBコード、コロン文字、(ii)で記憶したチェインID、改行コード、“//”、改行コードの順で記録する。一方、(ii)で記憶したチェインIDが“ATOM行”の行頭22文字目に存在していなければ、PDBエントリファイルの記載にミスがあるため、次のPDBエントリファイルに処理を移す。(iv)(iii)の処理を該当エントリファイル内で記憶した全チェインIDについて同様の処理を行う。(v)(i)〜(iv)の処理を全てのPDBエントリファイルに対して行う。以上の処理を図16に示す。
ステップ5では、ステップ4で作成したタンパク質のPDBチェインリストに下記1)から11)までの処理にしたがって得た情報を上書きしていくことによって、PDBチェイン毎に、SWISS-PROTを模した記述形式に書き直す。書き直した結果を図17に示し、図17を参照して以下に説明する。
上記ステップ5における2)の処理において、“SOURCE行”の“ORGANISM_SCIENTIFIC:”の後ろに生物種名情報が登録されていない場合には、他のデータベースにアクセスして、生物種名情報を読み出し、拡張PDBチェインタンパク質データセットの該当するPDBチェインのエントリ内の“OS行”の中に付加・格納する。ここで、他のデータベースとしては、アメリカ合衆国立バイオテクノロジー情報センター(NCBI)のMMDB(Molecular Modeling DataBase)PDBeastデータベースを挙げることができる。このPDBeastデータベースは、アメリカ合衆国立バイオテクノロジー情報センター(NCBI)がMMDB(Molecular Modeling DataBase)の自動更新システムを構築するにあたり、PDBに生物種名情報の記載漏れが多く存在しているために、タンパク質立体構造情報−ゲノム情報間の対応付けが困難であったことから、人手によってPDBチェイン毎に生物種名情報を割り当てたデータベースである。PDBeastデータベースを使用する場合、Tax.tableファイルを用いて、該当するPDBチェインIDをTax.tableファイルの中から検索し、マッチしたPDBチェインID以降(同一の行)に記載されている生物種名情報を読み出し、“OS行”の中に付加・格納することができる。ただし、MMDB PDBeastの方針は、細菌株違いの亜種(subspecies。例えば大腸菌K12株とO157株など)の区別を行わないとしている。
ステップ7では、ステップ2で作成された拡張SWISS-PROTタンパク質データセットの全エントリのMQ配列情報と、上記ステップ5で作成された拡張PDBチェインタンパク質データセットの全エントリのPQ配列情報との総当りで、配列相同性検索アルゴリズムFASTAを用いて検索する(この際、BLASTシリーズやSSEARCHなど、その他の配列相同性検索アルゴリズムを使用してもよい)。このとき、PQ配列情報が存在しない場合、つまり人工的改変の記述がないチェインの場合には、EQ配列情報を用いる。FASTA検索の結果、E-value(クエリー配列と検索配列の組み合わせが偶然に見つかる個数を表した統計的有意性を示す期待値)が1.0以下、かつ、Identity(検索クエリーであるPQ配列情報あるいはEQ配列情報と、検索にヒットしたMQ配列情報との間でのアライメント結果におけるアミノ酸配列情報の一致度)が95%以上になったペア(拡張SWISS-PROTタンパク質データセットのMQ配列情報と拡張PDBチェインのPQ配列情報とのペア)は、同一のタンパク質を示すペアの候補とみなす。条件を満たさないペアは除外する。
ステップ8では、ステップ7で特定したペア候補について、生物種名情報を比較し、生物種名が一致した場合は確定ペアとみなす。生物種名が一致しなかったペアは除外する。すなわち、ステップ7で特定したペア候補の全てについて、ステップ2で作成された拡張SWISS-PROTタンパク質データセットに含まれるOS行と、ステップ6で作成された拡張PDBチェインタンパク質データセットにおけるOS行とを比較する。
ステップ9では、ステップ8で特定した確定ペアについて、拡張SWISS-PROTタンパク質データセット側のMQ配列情報と拡張PDBチェインタンパク質データセット側のEQ配列情報間のアライメントを、FASTAを用いて求める(この際、BLASTシリーズやSSEARCHなど、その他の配列相同性検索アルゴリズムを使用してもよい)。アライメントされた領域における配列一致度から、SWISS-PROT側のMQ配列情報の中で立体構造が決定した配列領域の割合を求めることができる。
ステップ10では、ステップ8で特定した確定ペアについて、拡張SWISS-PROTタンパク質データセット側のSQ配列情報と拡張PDBチェインタンパク質データセット側のEQ配列情報間のアライメントを、FASTAを用いて求める(この際、BLASTシリーズやSSEARCHなど、その他の配列相同性検索アルゴリズムを使用してもよい)。アライメントされた領域の残基位置から、SWISS-PROT側のSQ配列情報の中で立体構造が決定した領域の残基位置が求まる。
ステップ11では、ステップ1〜10の処理の結果を新たな結果ファイルとして作成する。結果ファイルのフォーマットとしては、何ら限定されないが、例えば、図22に示すように、元のSWISS-PROTフォーマットと比較すると、“MQ行(成熟タンパク質アミノ酸配列情報)”が新たに付加され、“DR PDB行(PDBとのデータベース相互参照情報)”のフォーマットを変更して独自の記述形式にしたがって上書きしたものを挙げることができる。すなわち、PDBにおける立体構造データとリンクするPDBエントリ名を、SWISS-PROTに格納されたデータセットに帰属させることができる。また、結果ファイルのフォーマットとしては、PDBにおいて立体構造データが解析されたチェイン名、実験方法、解像度等を併せて出力するものでもよい。また、ステップ9や10で決定した構造決定領域の割合や構造決定領域開始位置及び終了位置を併せて出力することもできる。
・Level-A: 構造決定領域が成熟配列領域を全て含む。
・Level-B: 構造決定領域が末端ループ(N and/or C末端ループ)領域以外、かつ、全ての膜貫通領域を含む。
・Level-C: 構造決定領域が部分的に膜貫通領域を含む。
・Level-D: 構造決定領域がループ(N, C末端 and/or 膜貫通領域間ループ)領域を含む。
・解像度 < 2.8オングストローム(0.28nm)
・R因子の値 ≦ 0.3000
・アミノ酸改変率 < 5%
・アミノ酸改変連続出現 < 4残基
なお、上記の条件を変更することで、所望のレベル分類を行うこともできる。
Claims (33)
- 記憶部と処理部と通信部とを備え、少なくともタンパク質のアミノ酸配列情報と生物種情報とが関連付けられたデータセットを有する第1のデータベースと、少なくともタンパク質の立体構造データと当該立体構造データを取得する際に使用した改変アミノ酸配列情報とが関連付けられたデータセットを有する第2のデータベースとに対してアクセス可能なコンピュータに、
上記第2のデータベースから上記通信部により読み出したデータセットに含まれる改変アミノ酸配列情報と改変に関する情報とを用い、上記処理部が改変前のアミノ酸配列情報を作成する工程aと、
上記改変前のアミノ酸配列情報をキーとして上記第1のデータベースに含まれるデータセットを上記処理部が検索し、上記第1のデータベースに含まれるアミノ酸配列情報が上記改変前のアミノ酸配列情報に対して所定の値以上の同一性を示し且つ上記第1のデータベースに含まれる生物種情報が上記改変前のアミノ酸配列情報に関する生物種情報に一致するデータセットを上記処理部が特定する工程bとを実行させる、立体構造データ帰属方法。 - 上記工程bでは、上記改変前のアミノ酸配列情報を問い合わせ配列としてFASTA法を適用して上記同一性を算出することを特徴とする請求項1記載の立体構造データ帰属方法。
- 上記工程bに先立って、上記第1のデータベースに含まれるデータセットのなかから、上記第2のデータベースに含まれる上記改変前のアミノ酸配列情報に関する生物種情報と一致する生物種情報を含むデータセットを上記処理部が抽出する工程cを更に実行させることを特徴とする請求項1記載の立体構造データ帰属方法。
- 上記工程bで特定した第1のデータベースに含まれるデータセットに含まれるアミノ酸配列情報に対する、上記工程aで第2のデータベースから読み出した改変前アミノ酸配列情報のカバー率を上記処理部が算出する工程dを更に実行させることを特徴とする請求項1記載の立体構造データ帰属方法。
- 第1のデータベースに含まれる二次構造情報及び/又はドメイン情報に基づいて、第2のデータベースに含まれる改変前アミノ酸配列情報がカバーする領域について予め複数のレベルが規定されており、
上記工程bで特定した第1のデータベースに含まれるデータセットに含まれるアミノ酸配列情報に対して、上記工程aで第2のデータベースから読み出した改変前アミノ酸配列情報がカバーしている領域が上記複数のレベルのうち、如何なるレベルに合致するか上記処理部が判断する工程eを更に実行させることを特徴とする請求項1記載の立体構造データ帰属方法。 - 上記第2のデータベースに同じタンパク質チェインに関する複数のデータセットが含まれている場合、上記工程aでは、各データセットに含まれる改変アミノ酸配列情報及び改変に関する情報を用いて候補アミノ酸配列情報を作成し、複数の候補アミノ酸配列情報間における相違を多数決の原理により訂正して上記改変前のアミノ酸配列情報を作成することを特徴とする請求項1記載の立体構造データ帰属方法。
- 上記工程bの結果として、上記工程aで読み出した第2のデータベースに含まれるデータセットについて、上記工程bで特定した第1のデータベースに含まれるデータセットへの帰属を示す情報を上記記憶部へ記憶する工程fを更に実行させることを特徴とする請求項1記載の立体構造データ帰属方法。
- 上記工程bの結果として、上記工程bで特定した第1のデータベースに含まれるデータセットと上記工程aで読み出した第2のデータベースに含まれるデータセットとを統合して出力装置に出力することを特徴とする請求項1記載の立体構造データ帰属方法。
- 上記工程b及び工程dの結果として、上記工程bで特定した第1のデータベースに含まれるデータセットと上記工程aで読み出した第2のデータベースに含まれるデータセットとを統合するとともに、上記カバー率を関連付けて出力装置に出力することを特徴とする請求項4記載の立体構造データ帰属方法。
- 上記工程b及び工程eの結果として、上記工程bで特定した第1のデータベースに含まれるデータセットと上記工程aで読み出した第2のデータベースに含まれるデータセットとを統合するとともに、上記レベルを関連付けて出力装置に出力することを特徴とする請求項5記載の立体構造データ帰属方法。
- 上記第1のデータベースはSWISS-PROTであり、上記第2のデータベースはProtein Data Bankであることを特徴とする請求項1記載の立体構造データ帰属方法。
- 記憶部と処理部と通信部とを備え、少なくともタンパク質のアミノ酸配列情報と生物種情報とが関連付けられたデータセットを有する第1のデータベースと、少なくともタンパク質の立体構造データと当該立体構造データを取得する際に使用した改変アミノ酸配列情報とが関連付けられたデータセットを有する第2のデータベースとに対してアクセス可能なコンピュータに、
上記第2のデータベースから上記通信部により読み出したデータセットに含まれる改変アミノ酸配列情報と改変に関する情報とを用い、上記処理部が改変前のアミノ酸配列情報を作成する工程aと、
上記改変前のアミノ酸配列情報をキーとして上記第1のデータベースに含まれるデータセットを上記処理部が検索し、上記第1のデータベースに含まれるアミノ酸配列情報が上記改変前のアミノ酸配列情報に対して所定の値以上の同一性を示し且つ上記第1のデータベースに含まれる生物種情報が上記改変前のアミノ酸配列情報に関する生物種情報に一致するデータセットを上記処理部が特定する工程bとを実行させる、立体構造データ帰属プログラム。 - 上記工程bでは、上記改変前のアミノ酸配列情報を問い合わせ配列としてFASTA法を適用して上記同一性を算出することを特徴とする請求項12記載の立体構造データ帰属プログラム。
- 上記工程bに先立って、上記第1のデータベースに含まれるデータセットのなかから、上記第2のデータベースに含まれる上記改変前のアミノ酸配列情報に関する生物種情報と一致する生物種情報を含むデータセットを上記処理部が抽出する工程cを更に実行させることを特徴とする請求項12記載の立体構造データ帰属プログラム。
- 上記工程bで特定した第1のデータベースに含まれるデータセットに含まれるアミノ酸配列情報に対する、上記工程aで第2のデータベースから読み出した改変前アミノ酸配列情報のカバー率を上記処理部が算出する工程dを更に実行させることを特徴とする請求項12記載の立体構造データ帰属プログラム。
- 第1のデータベースに含まれる二次構造情報及び/又はドメイン情報に基づいて、第2のデータベースに含まれる改変前アミノ酸配列情報がカバーする領域について予め複数のレベルが規定されており、
上記工程bで特定した第1のデータベースに含まれるデータセットに含まれるアミノ酸配列情報に対して、上記工程aで第2のデータベースから読み出した改変前アミノ酸配列情報がカバーしている領域が上記複数のレベルのうち、如何なるレベルに合致するか上記処理部が判断する工程eを更に実行させることを特徴とする請求項12記載の立体構造データ帰属プログラム。 - 上記第2のデータベースに同じタンパク質チェインに関する複数のデータセットが含まれている場合、上記工程aでは、各データセットに含まれる改変アミノ酸配列情報及び改変に関する情報を用いて候補アミノ酸配列情報を作成し、複数の候補アミノ酸配列情報間における相違を多数決の原理により訂正して上記改変前のアミノ酸配列情報を作成することを特徴とする請求項12記載の立体構造データ帰属プログラム。
- 上記工程bの結果として、上記工程aで読み出した第2のデータベースに含まれるデータセットについて、上記工程bで特定した第1のデータベースに含まれるデータセットへの帰属を示す情報を上記記憶部へ記憶する工程fを更に実行させることを特徴とする請求項12記載の立体構造データ帰属プログラム。
- 上記工程bの結果として、上記工程bで特定した第1のデータベースに含まれるデータセットと上記工程aで読み出した第2のデータベースに含まれるデータセットとを統合して出力装置に出力することを特徴とする請求項12記載の立体構造データ帰属プログラム。
- 上記工程b及び工程dの結果として、上記工程bで特定した第1のデータベースに含まれるデータセットと上記工程aで読み出した第2のデータベースに含まれるデータセットとを統合するとともに、上記カバー率を関連付けて出力装置に出力することを特徴とする請求項15記載の立体構造データ帰属プログラム。
- 上記工程b及び工程eの結果として、上記工程bで特定した第1のデータベースに含まれるデータセットと上記工程aで読み出した第2のデータベースに含まれるデータセットとを統合するとともに、上記レベルを関連付けて出力装置に出力することを特徴とする請求項16記載の立体構造データ帰属プログラム。
- 上記第1のデータベースはSWISS-PROTであり、上記第2のデータベースはProtein Data Bankであることを特徴とする請求項12記載の立体構造データ帰属プログラム。
- 記憶部と処理部と通信部とを備え、少なくともタンパク質のアミノ酸配列情報と生物種情報とが関連付けられたデータセットを有する第1のデータベースと、少なくともタンパク質の立体構造データと当該立体構造データを取得する際に使用した改変アミノ酸配列情報とが関連付けられたデータセットを有する第2のデータベースとに対してアクセス可能な立体構造データ帰属装置であって、
上記第2のデータベースから上記通信部により読み出したデータセットに含まれる改変アミノ酸配列情報と改変に関する情報とを用いて上記処理部が改変前のアミノ酸配列情報を作成する配列作成処理部と、
上記改変前のアミノ酸配列情報をキーとして上記第1のデータベースに含まれるデータセットを上記処理部が検索し、上記第1のデータベースに含まれるアミノ酸配列情報が上記改変前のアミノ酸配列情報に対して所定の値以上の同一性を示し且つ上記第1のデータベースに含まれる生物種情報が上記改変前のアミノ酸配列情報に関する生物種情報に一致するデータセットを上記処理部が特定するデータ特定処理部とから構成される、立体構造データ帰属装置。 - 上記データ特定処理部では、上記改変前のアミノ酸配列情報を問い合わせ配列としてFASTA法を適用して上記同一性を算出することを特徴とする請求項23記載の立体構造データ帰属装置。
- 上記第1のデータベースに含まれるデータセットのなかから、上記第2のデータベースに含まれる上記改変前のアミノ酸配列情報に関する生物種情報と一致する生物種情報を含むデータセットを上記処理部が抽出するデータ抽出処理部を更に含むことを特徴とする請求項23記載の立体構造データ帰属装置。
- 上記データ特定処理部で特定した第1のデータベースに含まれるデータセットに含まれるアミノ酸配列情報に対する、上記配列作成処理部で第2のデータベースから読み出した改変前アミノ酸配列情報のカバー率を算出するカバー率算出処理部を更に含むことを特徴とする請求項23記載の立体構造データ帰属装置。
- 第1のデータベースに含まれる二次構造情報及び/又はドメイン情報に基づいて、第2のデータベースに含まれる改変前アミノ酸配列情報がカバーする領域について予め複数のレベルが規定されており、
上記データ特定処理部で特定した第1のデータベースに含まれるデータセットに含まれるアミノ酸配列情報に対して、上記配列作成処理部で第2のデータベースから読み出した改変前アミノ酸配列情報がカバーしている領域が上記複数のレベルのうち、如何なるレベルに合致するか上記処理部が判断するレベル判定処理部を更に含むことを特徴とする請求項23記載の立体構造データ帰属装置。 - 上記第2のデータベースに同じタンパク質チェインに関する複数のデータセットが含まれている場合、上記配列作成処理部では、各データセットに含まれる改変アミノ酸配列情報及び改変に関する情報を用いて候補アミノ酸配列情報を作成し、複数の候補アミノ酸配列情報間における相違を多数決の原理により訂正して上記処理部が上記改変前のアミノ酸配列情報を作成することを特徴とする請求項23記載の立体構造データ帰属装置。
- 上記データ特定処理部の結果として、上記配列作成処理部で読み出した第2のデータベースに含まれるデータセットについて、上記データ特定処理部で特定した第1のデータベースに含まれるデータセットへの帰属を示す情報を上記記憶部へ記憶する記憶処理部を更に含むことを特徴とする請求項23記載の立体構造データ帰属装置。
- 上記データ特定処理部の結果として、上記データ特定処理部で特定した第1のデータベースに含まれるデータセットと上記配列作成処理部で読み出した第2のデータベースに含まれるデータセットとを統合して出力装置に出力することを特徴とする請求項23記載の立体構造データ帰属装置。
- 上記データ特定処理部及びカバー率算出処理部の結果として、上記データ特定処理部で特定した第1のデータベースに含まれるデータセットと上記配列作成処理部で読み出した第2のデータベースに含まれるデータセットとを統合するとともに、上記カバー率を関連付けて出力装置に出力することを特徴とする請求項26記載の立体構造データ帰属装置。
- 上記データ特定処理部及びレベル判定処理部の結果として、上記データ特定処理部で特定した第1のデータベースに含まれるデータセットと上記配列作成処理部で読み出した第2のデータベースに含まれるデータセットとを統合するとともに、上記レベルを関連付けて出力装置に出力することを特徴とする請求項27記載の立体構造データ帰属装置。
- 上記第1のデータベースはSWISS-PROTであり、上記第2のデータベースはProtein Data Bankであることを特徴とする請求項23記載の立体構造データ帰属装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009007535A JP5433894B2 (ja) | 2009-01-16 | 2009-01-16 | 立体構造データ帰属方法、立体構造データ帰属プログラム及び立体構造データ帰属装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009007535A JP5433894B2 (ja) | 2009-01-16 | 2009-01-16 | 立体構造データ帰属方法、立体構造データ帰属プログラム及び立体構造データ帰属装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010165216A true JP2010165216A (ja) | 2010-07-29 |
JP5433894B2 JP5433894B2 (ja) | 2014-03-05 |
Family
ID=42581314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009007535A Expired - Fee Related JP5433894B2 (ja) | 2009-01-16 | 2009-01-16 | 立体構造データ帰属方法、立体構造データ帰属プログラム及び立体構造データ帰属装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5433894B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017520862A (ja) * | 2014-03-27 | 2017-07-27 | マサチューセッツ インスティテュート オブ テクノロジー | 水溶性膜タンパク質ならびにその調製および使用方法 |
JP2021082097A (ja) * | 2019-11-21 | 2021-05-27 | 株式会社日立製作所 | 情報処理システムおよび検索方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1040257A (ja) * | 1996-07-24 | 1998-02-13 | Hitachi Ltd | 文字配列比較方法、およびそれを用いたアセンブル方法 |
-
2009
- 2009-01-16 JP JP2009007535A patent/JP5433894B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1040257A (ja) * | 1996-07-24 | 1998-02-13 | Hitachi Ltd | 文字配列比較方法、およびそれを用いたアセンブル方法 |
Non-Patent Citations (3)
Title |
---|
JPN6013035807; Andrew C.R. Martin: 'PDBSprotEC: a Web-accessible database linking PDB chains to EC numbers via SwissProt' Bioinformatics Vol.20 No.6, 20040205, p.986-988 * |
JPN6013035808; Allegra Via, Andreas Zanzoni and Manuela Helmer-Citterich: 'Seq2Struct: a resource for establishing sequence-structure links' Bioinformatics Vol.21 No.4, 20040928, p.551-553 * |
JPN6013035810; Fabrice PA David, Yum L Yip: 'SSMap: A new UniProt-PDB mapping resource for the curation of structural-related information in the' BMC Bioinformatics Vol.9, 20080923, p.391 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017520862A (ja) * | 2014-03-27 | 2017-07-27 | マサチューセッツ インスティテュート オブ テクノロジー | 水溶性膜タンパク質ならびにその調製および使用方法 |
JP2020119589A (ja) * | 2014-03-27 | 2020-08-06 | マサチューセッツ インスティテュート オブ テクノロジー | 水溶性膜タンパク質ならびにその調製および使用方法 |
JP2021082097A (ja) * | 2019-11-21 | 2021-05-27 | 株式会社日立製作所 | 情報処理システムおよび検索方法 |
JP7341866B2 (ja) | 2019-11-21 | 2023-09-11 | 株式会社日立製作所 | 情報処理システムおよび検索方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5433894B2 (ja) | 2014-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200232029A1 (en) | Systems and methods for mitochondrial analysis | |
US20230272483A1 (en) | Systems and methods for analyzing circulating tumor dna | |
Bağcı et al. | DIAMOND+ MEGAN: fast and easy taxonomic and functional analysis of short and long microbiome sequences | |
Hauser et al. | MMseqs software suite for fast and deep clustering and searching of large protein sequence sets | |
Bork et al. | Predicting function: from genes to genomes and back | |
Ebersberger et al. | HaMStR: profile hidden markov model based search for orthologs in ESTs | |
Clamp et al. | Distinguishing protein-coding and noncoding genes in the human genome | |
Madera et al. | The SUPERFAMILY database in 2004: additions and improvements | |
Ladics et al. | Bioinformatics and the allergy assessment of agricultural biotechnology products: industry practices and recommendations | |
EP2444914A2 (en) | Genetic information management system and method | |
Riley et al. | Identifying cognate binding pairs among a large set of paralogs: the case of PE/PPE proteins of Mycobacterium tuberculosis | |
Alqahtani et al. | Statistical mitogenome assembly with repeats | |
Tripp et al. | Toward a standard in structural genome annotation for prokaryotes | |
JP5433894B2 (ja) | 立体構造データ帰属方法、立体構造データ帰属プログラム及び立体構造データ帰属装置 | |
Sillitoe et al. | Assessing strategies for improved superfamily recognition | |
KR100836166B1 (ko) | 단백질의 아미노산 서열로부터 삼차 구조를 예측하기 위한장치 및 이의 예측 방법 | |
Sahu et al. | Healthcare information technology for rural healthcare development: insight into bioinformatics techniques | |
Pavesi et al. | Using Weeder for the discovery of conserved transcription factor binding sites | |
Schafferhans et al. | The PSSH database of alignments between protein sequences and tertiary structures | |
Pazos et al. | Practical protein bioinformatics | |
Alshammari et al. | Combine Cryo-EM density map and residue contact for protein structure prediction: a case study | |
Waman et al. | Three-dimensional structure databases of biological macromolecules | |
CN114334010B (zh) | 用于布尼亚相关病毒属种分类的自动识别方法及系统 | |
JP7352985B2 (ja) | 生物学的配列情報の取り扱い | |
Mou et al. | In Silico Functional Annotation of VP 128 Hypothetical Protein from Vibrio parahaemolyticus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120113 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20120113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130723 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130924 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131022 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20131121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20131121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5433894 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |