JP3630414B2 - 塩基配列のクラスタ生成システム、塩基配列のクラスタ生成方法、該クラスタ生成方法を実行するためのプログラム、および該プログラムを記憶したコンピュータ可読な記録媒体、および塩基配列情報提供システム - Google Patents

塩基配列のクラスタ生成システム、塩基配列のクラスタ生成方法、該クラスタ生成方法を実行するためのプログラム、および該プログラムを記憶したコンピュータ可読な記録媒体、および塩基配列情報提供システム Download PDF

Info

Publication number
JP3630414B2
JP3630414B2 JP2002146201A JP2002146201A JP3630414B2 JP 3630414 B2 JP3630414 B2 JP 3630414B2 JP 2002146201 A JP2002146201 A JP 2002146201A JP 2002146201 A JP2002146201 A JP 2002146201A JP 3630414 B2 JP3630414 B2 JP 3630414B2
Authority
JP
Japan
Prior art keywords
sequence
base
base sequence
cluster
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002146201A
Other languages
English (en)
Other versions
JP2003345805A (ja
Inventor
哲朗 渋谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2002146201A priority Critical patent/JP3630414B2/ja
Priority to US10/426,118 priority patent/US8032305B2/en
Publication of JP2003345805A publication Critical patent/JP2003345805A/ja
Application granted granted Critical
Publication of JP3630414B2 publication Critical patent/JP3630414B2/ja
Priority to US13/209,097 priority patent/US9589102B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、生体由来の塩基配列の系統化を行うための技術に関し、より詳細には本発明は、所定の塩基配列が、他の塩基配列からのスプライシング(切断)に由来するものであるか否かを高速に判定してクラスタを生成する、クラスタ生成システム、コンピュータ・システムに対して上述したクラスタ生成を実行させる方法、該方法を実行させるためのプログラム、該プログラムが記録されたコンピュータ可読な記録媒体、および該クラスタ生成方法を使用した塩基配列情報提供システムに関する。
【0002】
【従来の技術】
真核生物のタンパクは、mRNAから翻訳されて生成されるため、生物の体内に発現しているmRNAを調べることは非常に重要であり、また種々の知見を得るための有用な技術となっている。上述したmRNAは、DNAから転写され生成されるが、タンパクに翻訳される前に、スプライシングとよばれる何段階もの切断を経て、より小さなmRNAとされることが知られている。したがって、本来同じ遺伝子領域から転写され、スプライシングされて生成したmRNAが複数存在し得る。このため、同一のDNA領域に由来するmRNAのうちの1つの塩基配列の存在を検査するだけで、その遺伝子が生体内で発現しているかどうかを判定できることとなる。
【0003】
一方で、これまで生物の体内で発現しているmRNAの配列を実際にシーケンシングし、それらをトランススクリプターゼなどの逆転写酵素を使用して逆転写を行い、本来のDNAに対応するDNA配列として再現し、これらのDNA配列(以下、cDNAと略する。)をデータベース化した、cDNAライブラリが知られている。上述したcDNAデータベースには、mRNAの生成過程を反映し、DNAの同一の遺伝子領域に由来する塩基鎖長の異なるmRNAから得られたcDNAが複数含まれることになる。上述したように、遺伝子領域の特定領域ごとに対応するタンパクが発現しているか否かを判定するという観点からは、重複した領域に由来するcDNAを用いて実験を行うことは、実験コストの増大につながり、好ましくないことが多い。このため、同一の遺伝子領域に由来するcDNAから得られる塩基配列を、1つのグループとする正確なクラスタリングを行うことは、遺伝子の特定領域の機能を特定する作業の高速化、実験コストの削減、それに伴う探索範囲の拡大を可能とするので、これまで非常に重要な問題となっていた。
【0004】
不都合なことには、これまで上述したクラスタリングを行うための計算量は非常に膨大なものとなり、現実的な時間内で有意義な結果を得ることが困難であることも知られている。例えば従来では、2つの塩基配列がスプライシングにより生成された、いわゆるスプライスト・ペアであるかどうかは、スプライスト・アラインメント(spliced alignment)法と呼ばれる方法で判断されている。この方法は非常に時間のかかる手法であり、cDNAライブラリのような巨大な配列集合に含まれる、すべてのペアに対して計算を行うのはきわめて困難である。たとえば、マウスのcDNAライブラリであるFANTOMと呼ばれるデータベースには、21076本の塩基配列が含まれている。この塩基配列に対して総当りで計算するものと仮定すると、通常の計算機1台では100年以上かかるという、重大な問題があった。上述した不都合に対応するべく、これまでスプライスト・アラインメントに対して、種々の改善が検討されて来ている。
【0005】
また、上述したクラスタリングの効率を向上させることも検討されてきており、たとえば、Jonathan Usuka, Wei Zhu and Volker Brendel, Optimal Spliced Alignment of Homologous cDNA to a Genomic DNA Template, BIOINFORMATICS, Vol16. no. 3, 2000, pp. 203−211.では、隠れマルコフモデルを用いてスプライスト・アラインメントをモデル化することで、アラインメントを行っている。Usukaらによれば、テキストとしての長い配列(もとの生物のDNAにあたる)の中からcDNAに対応する領域を求める方法が開示されている。Usukaらによれば、具体的にはテキスト配列中で、サフィックス・アレイを用いて12−mer (12塩基の並び)を共有する領域が候補として用いられている。Usukaらは、12−merの塩基配列を使用した理由については、特に説明しておらず、このため塩基配列の鎖長に柔軟に対応可能であるか否かについては、何ら明らかにはされていない。
【0006】
また、G. Navarro and R. Baeza−Yates, A New Indexing Method for Approximate String Matching, Proc. CPM99, LNCS 1645, pp. 163−185, 1999では、edit distance(以下、編集距離として参照する。)を定義し、この編集距離が所定の断片編集距離の最大許容値k以下であるような部分配列をテキストから見出す、近似パターン・マッチング法(approximate pattern matching)を開示している。Navarroらはまた、配列をd本の部分配列に分割して、それぞれの分割された配列と、k/dより編集距離が小さいようなテキスト中の部分配列を探し出し、その周辺を候補として扱う方法を開示している。
【0007】
R. Mott, EST_GENOME: A Program to Align Spliced DNA Sequences, CABIOS, Vol. 13, no. 4, 1997, pp. 477−478.では、Smith−Watermanの動的計画法によるアルゴリズムを変形し、スプライス・サイトについて許容される最小の長さより短いスプライス・サイトを排除するべく、スプライス・サイトに対してペナルティを課すことが試みられている。この他にも種々の方法が提案されているが、いずれの方法も、種々の鎖長の塩基配列に柔軟に対応しつつ、計算時間を短縮し、なおかつ許容可能なハードウエア資源を使用して塩基配列のクラスタリングを行うという点では充分なものではない。
【0008】
さらには、上述した先行技術は、いずれもクラスタリング手法について開示しているものの、いずれもスプライシングを考慮しない尺度(通常の類似度のようなもの)でクラスタリングしており、スプライシングの前後関係を考慮したクラスタリング方法を提供するものではない。
【0009】
【発明が解決しようとする課題】
したがって、上述したスプライスト・アラインメントを適用して、塩基配列のクラスタリングを行う前に、候補となりえる塩基配列を充分な精度で、なおかつ取りこぼしなく、さらには高速に絞り込んでおく技術が必要とされていた。また、上述した種々の従来技術が存在しているものの、これまでcDNAデータベースなどに保持された塩基配列と、保持されたcDNAからスプライシングにより生成される可能性の高い塩基配列とを関連づけ、クラスタ生成を行うことができる、高速で、かつ計算時間およびハードウエア資源の削減を可能とする、クラスタ生成システム、塩基配列のクラスタリングを可能とする方法、および該方法を実行させるためのプログラム、該プログラムを含むコンピュータ可読な記憶媒体が必要とされていた。また、ユーザに対して有限の時間で、かつハードウエア資源の制約を緩和しつつ、クラスタ生成を可能とするクラスタ生成システム、塩基配列のクラスタリングを可能とする方法、および該方法を実行させるためのプログラム、該プログラムを含むコンピュータ可読な記憶媒体が必要とされていた。
【0010】
さらにこれまで、スプライスト・ペアに関連する塩基配列情報を効率的にユーザへと提供することを可能とする塩基配列情報提供システムが必要とされていた。
【0011】
【課題を解決するための手段】
すなわち、本発明は、スプライスト・アラインメントなどの高精度で、労力を要する計算を用いて比較を行う前に、スプライシングの特性を有効に利用して、クラスタ生成を行うことにより、スプライスト・ペアとなる可能性の高い塩基配列を選択したクラスタを提供することができれば、スプライスト・アラインメントの時間を著しく短縮することができるという着想に基づいてなされたものである。本発明の方法は、スプライシングの前後関係を考慮して不必要な塩基配列を排除することを可能とし、単にハッシュを使用して塩基配列を選択するよりも塩基配列を絞り込んだ高次レベルのクラスタを生成する。このようにして得られたクラスタに対して高精度のスプライスト・アラインメントを適用することにより、塩基配列を高速、かつ高精度にスプライシングの前後関係をクラスタリングすることを可能とする。
【0012】
本発明を適用することにより、例えばcDNAデータベース内の多数の候補を計算前に排除することができ、結果的に計算時間を大幅に圧縮することができる。さらに、本発明のクラスタ生成方法は、塩基配列に対して特別な処理を施さずに処理を行うことができるので、本発明により得られた結果を従来のスプライスト・アライメント方法に提供することが可能となる。
【0013】
すなわち本発明によれば、塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連してクラスタを生成するシステムであって、
前記断片塩基配列をクエリー配列として登録するための手段と、
前記クエリー配列と、データベースから読み出された前記塩基配列との間の断片編集距離を所定の最大許容値と比較するための手段と、
前記クエリー配列と、前記塩基配列との間の断片編集距離が前記最大許容値以下の前記断片塩基配列を選択して第1のクラスタを生成して記憶手段に登録するための手段と、
を含む、クラスタ生成システムが提供される。
【0014】
本発明においては、前記比較手段は、前記最大許容値から、前記クエリー配列と前記塩基配列との間の塩基一致により減少されるカウンタを含んで構成することが好ましい。本発明においては、前記クラスタ生成システムは、前記第1のクラスタから第2のクラスタを生成して記憶手段に記憶させる手段を含み、該第2のクラスタを生成するための手段は、
前記塩基配列に対してスプライス長を定義し、前記クエリー配列と前記第1のクラスタに含まれる塩基配列との間にスプライス長に関連して重み付けされたスコアを生成するための手段と、
前記スコアを、前記塩基配列の塩基数および前記クエリー配列の塩基数に関連して繰り返し、テーブルを生成するための手段と、
前記テーブルを使用して前記塩基配列に対して前記クエリー配列に関連したスコアを決定する手段とを含むことが好ましい。
【0015】
本発明における前記スプライス長は、20〜60の塩基数とされることが好ましい。本発明においては、前記塩基配列は、前記塩基配列は、真核生物のDNA配列および前記真核生物において発現したmRNAまたは前記mRNAの塩基配列から逆転写により得られるcDNA断片配列を含むことができる。本発明における前記クエリー配列は、真核生物のDNA配列および前記真核生物において発現したmRNAまたは前記mRNAの塩基配列から逆転写により得られるcDNA断片配列を含む、DNA断片配列または、mRNAから逆転写により得られるcDNA断片配列とすることができる。
【0016】
本発明によれば、塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタを生成する方法であって、
前記断片塩基配列をクエリー配列として登録するステップと、
前記クエリー配列と、データベースから読み出された前記塩基配列との間の断片編集距離を所定の最大許容値と比較するステップと、
前記クエリー配列と、前記塩基配列との間の断片編集距離が前記最大許容値以下の前記断片塩基配列を選択して第1のクラスタを生成して記憶手段に登録するステップと、
を含む、クラスタ生成方法が提供できる。
【0017】
本発明によれば、塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタを生成する方法をコンピュータ・システムに実行させるためのプログラムが記録されたコンピュータ可読な記録媒体であって、該プログラムは、前記コンピュータ・システムに対して、
前記断片塩基配列をクエリー配列として登録するステップと、
前記クエリー配列と、データベースから読み出された前記塩基配列との間の断片編集距離を所定の最大許容値と比較するステップと、
前記クエリー配列と、前記塩基配列との間の断片編集距離が前記最大許容値以下の前記断片塩基配列を選択して第1のクラスタを生成して記憶手段に登録するステップと、
を実行させる、コンピュータ可読な記録媒体が提供できる。
【0018】
本発明によれば、塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタを生成する方法をコンピュータ・システムに実行させるためのプログラムであって、該プログラムは、前記コンピュータ・システムに対して、
前記断片塩基配列をクエリー配列として登録するステップと、
前記クエリー配列と、データベースから読み出された前記塩基配列との間の断片編集距離を所定の最大許容値と比較するステップと、
前記クエリー配列と、前記塩基配列との間の断片編集距離が前記最大許容値以下の前記断片塩基配列を選択して第1のクラスタを生成して記憶手段に登録するステップと、
を実行させる、プログラムが提供できる。
【0019】
本発明によれば、塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタをの情報を提供するためのシステムであって、
ネットワークに接続され、前記ネットワークを介してクエリー配列を受信するサーバと、
塩基配列を含むデータベースとを含み、
前記サーバは、
前記断片塩基配列をクエリー配列として登録するための手段と、
前記クエリー配列と、データベースから読み出された前記塩基配列との間の断片編集距離を所定の最大許容値と比較するするための手段と、
前記クエリー配列と、前記塩基配列との間の断片編集距離が前記最大許容値以下の前記断片塩基配列を選択して第1のクラスタを生成して記憶手段に登録するための手段と、
前記第1のクラスタから第2のクラスタを生成して記憶手段に記憶させる手段と、
前記ネットワークを介して前記第2のクラスタを送出するための手段と
を含む塩基配列情報提供システムが提供できる。
【0020】
【発明の実施の形態】
以下、本発明について図面に示す実施の形態をもってより詳細に説明するが、本発明は後述する実施の形態に限定されるものではない。なお、本発明においては、スプライシングとは、特定の実施の形態においては、真核生物(および古細菌)における機構を意味するが、さらに広く、mRNAをスプライシングして、より短い塩基配列を生成するプロセスが生成する、生物由来の塩基配列一般に適用することが可能である。また、本発明においては、2つの塩基配列に着目した時、スプライシング以前の塩基配列を親配列、スプライシング以後の配列を子配列と定義する。また、本発明においては、上述した関係のペアを、スプライスト・ペアと定義する。
【0021】
また、与えられたmRNAに対して複数のスプライシングの可能性があるといわれており、そのために、遺伝子の数よりも生体内において生成されるタンパクの種類がはるかに多いといわれている。また、スプライシングは、塩基配列のうち、ドナー・サイトおよびとアクセプター・サイトと呼ばれる部位の間の領域で生じるものとされている。ドナー・サイトおよびアクセプター・サイトには、それぞれ特徴的な配列があり、特に、ドナー・サイトは、GTで始まることが非常に多く、またアクセプター・サイトは、AGで終了することが多いことが知られている。しかしながら、本発明においては同様の特性を有するサイトの対であっても同様に適用することができることは、言うまでもないことである。
【0022】
切断されるサイト(スプライス・サイト)の中間にも特徴的な配列があることも知られている。また、スプライス・サイトの長さには下限があり、最低でも20〜60、より多くの場合には、50〜60程の塩基長であるとされている。また、アラインメント(alignment)とは、本発明においては、2本またはそれ以上の塩基配列に対して適当にギャップ(多くの場合“−”で表す)を挿入して並べることで、塩基配列を比較する方法のことを意味する。
【0023】
本発明は、本質的には塩基配列の比較を、塩基配列の適合の程度に関連した得点を与え、その得点が最も低く、あるいは高くなるように、あるいはそれに近いものになるように並べることにより塩基配列相互の比較を行う。本発明において使用する用語「射影」とは、上述したように、クエリー配列と、対象とされる塩基配列に対して適切なギャップをもってアライメントされた塩基配列の対比を行い、得点を与えることを意味する。
【0024】
図1には、本発明が適用される塩基配列を含むデータベースの概略的構成を示す。図1には、7個のcDNA配列cDNA1〜cDNA7が示されており、図1において、たとえば、cDNA1とcDNA5とは、真核生物のゲノムDNAの異なったDNA領域に由来する、グループAとグループBとに帰属されているのが示されている。また、cDNA2とcDNA3とは、スプライシングにより生成されたmRNAから逆転写により生成されたcDNAであって、cDNA1に対応するmRNAからスプライシングにより生成されていることが示されている。また、cDNA6とcDNA7とは、cDNA5に対応するmRNAからスプライシングされて生成されたmRNAから逆転写により生成されたcDNAであり、cDNA5は、対応するmRNAから逆転写により生成されており、これらはスプライスト・ペアとさている。このため、上述したクラスタリングを正確に行うためには、スプライシングの前後関係にある、すなわちスプライスト・ペアかどうかの判断を正確にしなければならない。
【0025】
本発明では、DNAからmRNAに転写される段階や、mRNAがスプライシングによって切断されて短鎖の塩基配列とされる段階での塩基の変化は、0ではないが、非常に低い確率であることを利用して、クラスタ生成を行うものである。この際、mRNA配列をシーケンサを使用してシーケンシングする段階で、読み取りの誤りがおきることもある。これらの誤りは手法にもよるものの、もっとも大きいドラフト・シークエンシングの場合を例にとれば、概ね5%以下であるといえる。本発明は、本発明者が鋭意検討を加えた結果、塩基の変化と上述したシーケンシングの誤差とをあわせた率を誤り率rを定義し、子配列(長さm)のm個の塩基のうち、m×(1−r)個以上の塩基は順番をかえないまま、必ず親配列(長さn)にも存在しなければならないことに着目してクラスタ生成を行うことにより、高効率のクラスタ生成を行うことが可能であることを見出すことによりなされたものである。
【0026】
すなわち、親配列のサブシーケンスであれば、親配列と子配列との塩基配列の相違に対応する編集距離が、m×r以下でなければならない。ただし、所定の塩基配列のサブシーケンスとは、対象とされている塩基配列の塩基から、いくつかの塩基を欠落させて、残りの塩基を同じ順に並べた塩基配列を意味する。本発明においては、編集距離とは、塩基の変異、挿入、削除によって所与の配列を別の配列に変換する場合に、別の配列を得るまでの上述した操作の回数、より具体的にはギャップを除けば異なる塩基の数に相当する。ただし、本発明では、親配列のサブシーケンスを考慮すれば良いので、削除は考えなくてよい。本発明におけるサブシーケンスとは、配列からいくつかの塩基を削除して、短くした塩基配列を意味する。具体的には、たとえば塩基配列ATCTGGは、塩基配列ATGCTAGGのサブシーケンスである。
【0027】
また、本発明においては、親配列の任意のサブシーケンスと子配列の断片編集距離(spliced edit distance)を定義する。また、変数kを、m×r以下の整数とする。上述した誤り率rは、充分に小さいことが知られているので、kも小さいことが期待される。そこで、本発明では、変数kをクラスタ生成における断片編集距離の最大値許容値として選択する。このため本発明は、精密なスプライスト・アラインメントよりも高速に、O(k×m+n)という計算時間で、クラスタを生成することが可能となる。また、この計算に必要なメモリはO(k+n+m)である。本発明は、この計算結果を用いて、スプライスト・ペアの候補を大幅に減らすことを可能とするものである。
【0028】
図2は、本発明のスプライシング・アライメント方法を使用して、スプライスト・ペアのクラスタを生成するプロセスのフローチャートである。本発明のクラスタリング方法は、ステップS10から開始し、ステップ12において、クエリー配列を設定する。このクエリー配列の指定は、キーボードといった入力手段から直接クラスタ生成を実行するコンピュータ・システムに対して入力することができる。また、クエリー配列の入力は、ネットワークを介して、クライアント・コンピュータから入力することもできる。また、登録されたユーザに対して、ブラウザ・ソフトウエアを使用してインターネットといったネットワークを介してクエリー配列の入力を許可することもできる。入力されたクエリー配列は、コンピュータ・システムに含まれる適切なバッファ・メモリなどに登録され、必要に応じて中央処理装置(CPU)から呼び出されることにより、データベース内の塩基配列に対しての射影を行うことができる構成とされている。
【0029】
さらに本発明のクラスタ生成方法は、ステップS14において、塩基配列のみを考慮して共有部分を含むペアを抽出する既存のフィルタを使用して塩基配列の絞り込みを行なう。このフィルタリングは、単にクエリー配列における塩基が含まれているか否かなどを使用してこれまで知られた、たとえばハッシュ法により実行することができる。また、本発明の可能な実施の形態においては、ステップS14のフィルタリングを使用しなくとも良い。
【0030】
さらに、本発明の方法は、ステップS16において、本発明のクラスタ方法を実行させて、さらにスプライスト・ペアの絞り込みを実行する。本発明により絞り込みが行われたスプライスト・ペアの可能性の高い塩基配列から構成された第1のクラスタを射影を行う母集合として、ステップS18において、高精度のスプライシング・アライメントを実行し、ユーザ入力されたクエリー配列に対する正確なスプライスト・ペアを検索し、クラスタとして登録する。
【0031】
次いで、本発明においてはステップS20においてステップS18で得られたクラスタをユーザに提供し、ステップS22において本発明の方法を終了する。ユーザへのクラスタとされた塩基配列の提供は、インターネットといったネットワークを使用して行うことも可能であるし、イーサネット(登録商標)などで構築されたローカル・エリア・ネットワーク(LAN)を使用して行うこともできる。また、特に、ネットワークを使用しないスタンドアローンのシステムにおいては、ディスプレイ・スクリーンに表示すること、または、ハードプリンタなどにより出力を行うこと、または、フレキシブル・ディスク、フラッシュ・メモリ、光磁気ディスクなど、携帯型の記録手段に記録することなどにより行うことができる。
【0032】
ユーザは、提供されたクラスタ情報を使用して、塩基配列データベースに登録されたうち、スプライスト・ペアに対する知見を高速に得ることが可能となり、もともとの染色体のDNA配列の同一の領域から発現した塩基配列であるか否かの判定を迅速に行うことが可能となる。
【0033】
図3は、本発明の塩基配列の第1のクラスタを生成する方法の概略的なフローチャートを示す。図3に示した本発明の第1のクラスタの生成方法は、ステップS24の初期化から開始し、ステップS26において子配列における先頭塩基から計算を開始させることを宣言するため、変数child_positionを1に設定し、同時に中途断片編集距離min_kについて初期化を行う。この中途断片編集距離min_kは、塩基の不一致の加減を与える、本発明において採用される本質的なパラメータである。ステップS28において、子配列の塩基の位置を示す変数child_positionがmを越えたか否かを判断し、すでに子配列の塩基について判断を終了している場合(真)には、子配列の塩基の不一致数は、設定された編集距離の最大許容値k以下なので、判断している子配列を、スプライスト・ペアの可能性が高く、第1のクラスタとして選択し、ステップS30においてメモリ、ハードディスクなどの記憶手段へと登録する。なお、図3に示したステップS28の判断が可能なのは、後述するように、図3のプロセスのステップS28の判断に分岐するのは、中途断片編集距離min_kが常に設定された断片編集距離の最大許容値よりも小さい場合だけに制限されているためである。
【0034】
ステップS28の判断が否定的である場合(偽)には、本発明のプロセスは、ステップS32へと進み、より詳細には後述するように、子配列に関して見出された不一致を判定するための処理が行われる。ステップS32の処理の後、ステップS34において中途断片編集距離min_kが、設定された最大許容値kよりも大きいか否かを判断する。ステップS34の判断が肯定的である場合(真)には、スプライスト・ペアではないものとし、ステップS36において、第1のクラスタとして登録せず、以後の計算には使用しない。なお、この処理は、たとえば除外フラグを設定する、または実行中のメモリ内から削除してしまうなど、これまで知られたいかなる方法を使用することもできる。ステップS16の判断が否定的である場合(偽)には、ステップS38で子配列の塩基の位置をインクリメントさせた後、ステップS28へと分岐し、ステップS28〜ステップS38を繰り返し、スプライスト・ペアとなる可能性の高い子配列の第1のクラスタを生成する。本発明においては、子配列となるクラスタへの登録は、これまで知られたいかなる方法を使用しても行うことができ、例えば、メモリ、またはハードディスクといった記憶手段に、そのための領域を確保して、順次子配列データを蓄積して行くこともできる。また、本発明においては、スプライスト・ペアとして登録される塩基配列であることを示すペア・フラグを設けておき、塩基配列IDと、ペア・フラグとを含むデータとして記憶手段に登録しておくこともできる。
【0035】
図4は、ステップS24における初期化の詳細を示したフローチャートである。図4に示すように、本発明における図4における初期化は、ステップS40において子配列の判定塩基位置iをまず初期化し、ステップS42において、子配列の塩基配列の数が設定した最大許容値kより大きいか否かを判断し、i>kである場合(真)には、初期化を終了し、図3のステップS26へと結果を返す。ステップS42の判断においてiがk以下の場合(偽)には、ステップS44において変数positions[i]を0に初期化し、iをインクリメントさせ、ステップS42の判断が真(i>k)となるまで、変数positions[i]を初期化を繰り返す。
【0036】
図5は、図3に示したフローチャートにおけるステップS32のプロセスを詳細に示したフローチャートである。図5に示すプロセスは、ステップS46において、変数max_kを、断片編集距離の最大許容値k(m×r以下の正の整数)、または判断している子配列の塩基の位置に対応する値へと設定し、同時に相違カウンタiを定義し、相違カウンタiを、初期値max_kに設定する。この相違カウンタiは、設定された最大許容値kから開始し、一致した塩基が存在すると、デクリメントされるカウンタである。さらに、ステップS48においては、相違カウンタiが、min_kよりも小さいか否かを判断する。
【0037】
このmin_kは、上述したように親配列と、子配列との間の塩基の中途断片編集距離に対応する変数であり、図3のステップ26において示した特定の実施の形態においては、初期値として0が用いられているが、本発明においては適宜、対象となる塩基配列を考慮して、たとえばユーザが0以外の値を入力することもできる。ステップS48の判断において、相違カウンタiがmin_kよりも小さな場合(真)には、それ以後の一致判断を終了させ、図3のステップS34へと結果を渡す。また、ステップS48において、相違カウンタiがmin_k以上の場合には、ステップS48において相違カウンタiの値が0か否かを判断する。i=0(真)の場合には、ステップS52において、変数position[i]を、親配列P[1, .. , position[i]+1]までのうち、C[child_position]で示される子配列の塩基が最初に出現する位置とする。また、i=0でない場合(偽)には、ステップS54において親配列の次の塩基位置について判断を行い、直前のposition[i−1]の値と、親配列の次の塩基位置の値のうちの小さい方の値を、position[i]の値として設定する。
【0038】
ステップS52およびステップS54の後、ステップS56において更新された変数positions[i]が、判断している親配列の塩基数nよりも大きいか否かを判断する。変数position[i]が判断する親配列の塩基数n以下である場合(偽)には、それまでに子配列の該当する塩基に対応する値が返されているので、親配列は、判断している子配列についてはスプライスト・ペアとする可能性があるものとして、ステップS58で相違カウンタiをデクリメントさせ、再度ステップS48の判断を行い、i<min_kの条件が満たされるまで、反復を繰り返す。また、ステップS56の判断において、変数position[i]が、判断する親配列の塩基数nよりも大きい場合(真)には、その時点まで子配列の判断している塩基が見出されていないので、スプライスト・ペアとして選択すると誤判断を生じさせるリスクが高まるので、ステップS60で中途断片編集距離min_kを、i+1に設定する。
【0039】
さらにステップS58で相違カウンタiを減分させ、リスクに対応してステップS48の判断を確実に終了させることで、高速化することを可能とし、無駄な計算を効率的に防止する構成とされている。同時に本発明における上述したプロセスは、単に共通する塩基部分のみではなく、スプライシングの特性を有効に利用し、誤りの発生確率を考慮して設定される編集距離よりも塩基配列の違いが少ない塩基配列を選択して抽出するので、抽出される塩基数を削減すると共に、スプライスト・ペアの信頼性についてもより向上させること可能となる。
【0040】
なお、本発明においては、塩基配列の比較は、それぞれ、アデニン(A)、グアニン(G)、シトシン(c)、チミン(T)、といった塩基を文字ベースで比較することもできるし、4種の塩基に対応するように塩基配列を数値化して、数値ベースで比較することもできる。
【0041】
図6は、上述したフローチャートで示された第1のクラスタを生成するプロセスを実行させるための擬似コードを示す。なお、図6に示した疑似コードにおいては、親配列をP[1..n]とし、子配列をC[1..m]としている。また、図5に示した擬似コードで、next_char_position(P, i, c)で示される関数は、P[i..n]の中で最初に出てくる塩基“c”の位置(整数)を返す関数である。ただし、そのような塩基が存在しない場合はn+1を返すものとする。これは、DNAの場合のような塩基の種類が限られている場合は、適当なデータ構造を予め生成しておくことで、許容可能な時間で計算可能である。
【0042】
また、図7には、本発明の処理によりクラスタリングされる塩基配列を模式的に示す。上述したように最小の近似パラメータは、図7に示されるアラインメントで、子配列中のギャップについては不利に取り扱わないとするアラインメントに相当する。このため、たとえば塩基配列の一致について、一致が0点、不一致が1点、親配列中のギャップが1点、子配列中のギャップが0点、というような得点を与えるものと仮定すると、アラインメントの得点のうちの最小得点が、図6の擬似コードで得られた近似パラメータと等しくなる。なお、図7に示した実施の形態のアラインメントは、この得点設定による得点での最小のアラインメントであるが、その得点は2でありmin_k=2と一致する。
【0043】
ここで、図7に示した塩基配列に基づき、本発明につき、図6に示した疑似コードに沿って説明する。図7に示された実施の形態においては、親配列が、「GGCTCTTGAACAAACGCTGGAGCTGAGGATTCATCTCGGA」であり、子配列が、「GCTGAGAAGAGGTTTCATCT」なので、図3〜図5で示されたプロセスにおいては、最終的にk≧2として設定すれば、上の擬似コード中の▲2▼で示される処理まで計算が進み、min_k=2という値が得られ、これはスプライスト・ペアである可能性が充分に高いといえる。
【0044】
また、図6に示した擬似コードにおいて、k=1として設定した場合は、▲1▼で示される処理まで進行した段階でクラスタリング処理は終了し、これがスプライスト・ペアである可能性はない、という結果を返すことになる。上述したように、▲1▼の段階の処理で終了したものについては、更に詳しい検査を行なわないので、本発明においては結果として、計算時間を大幅に短縮できることになる。
【0045】
図8は、上述したクラスタリングの処理の具体的な処理プロセスを、より塩基鎖長の短い具体的な親配列モデルおよび子配列モデルを使用して表とした図である。図8においては、親配列を、「CGCGCATGAA」とし、子配列を「GCCCATGC」として、これら2つの塩基配列の編集距離が、k=3以下かどうかについて検討している。図8においては、図3〜図5で示した処理<B>の直後の child_position、 positions[i]、min_k、max_kの値の処理に対応した変化を示すために、これらの値を出力したものを各列に示している。図8に示した2つの塩基配列では、処理<B>は、合計で8回呼び出されることになる。この場合min_k=2が出力され、スプライスト・ペアである可能性が高い、という結果を得ることができる。
【0046】
図8に示される場合において、たとえば、k=0(塩基が完全に一致する場合)と設定した場合、child_position=4の際の処理<B>の動作後には、min_k>0となり、希望する近似の程度スプライスト・ペアではない、という結果になることも、図8から示される。なお、図8において「−」で示されている欄は、処理<B>で処理されなかったposition[i]のエントリーを示す。
【0047】
以下、本発明における精密なスプライスト・アラインメントを用いて、正確なスプライスト・ペアかどうかの判定を行うプロセスについて説明する。この正確なスプライスト・アラインメントは、上述した通りに生成された第1のクラスタを使用して行う。第1のクラスタは、上述したようにユーザの希望する塩基の不一致の数の範囲内で塩基配列が一致する子配列が選択され、保持されているので、単に塩基の種類のみを考慮したクラスタリングにより子配列の数を制限する以上に塩基配列を制限でき、さらにスプライスト・ペアとしての可能性の高い塩基配列から形成されている。このため、後述する本発明による高精度のスプライスト・アラインメントの効率を向上させることができる。本発明のスプライスト・アラインメントでは、まず、親配列と子配列の考えられる任意のアラインメントのうち、次に説明する得点が最小であるようなアラインメントを求める。
【0048】
【数6】
Figure 0003630414
【0049】
本発明において上述したマッチング・スコアとは、塩基どうしのマッチングの得点を最初に与えておいて、それが並んでいると、その組に割り当てられた得点を加えることにより得られる。また、本発明においては、スプライス・サイトとは、子配列中のスプライス長(min_splice_length)以上のギャップのことをいう。上述した通り、その最初の塩基部分をドナー・サイト、最後の塩基部分をアクセプター・サイトというが、それぞれ、それぞれに特徴的な配列(多くはGTで始まり、AGで終了する)かどうかで、それぞれ適当なスコアを更に加えるものとする。具体的には、たとえば、GTで始まるスプライス・サイトには得点は加えない、すなわちスプライス・サイトを含むことを有利に作用させるが、それ以外は1点加え不利に取り扱うなど、適宜設定することができる。
【0050】
また、上述した内側のギャップは、本発明においては配列の最初の塩基と最後の塩基との間のいずれかに挿入されるギャップのことを意味する。本発明において使用する外側のギャップとは、配列の最初の文字より前、あるいは最後の文字より後に挿入されるギャップのことをいう。
【0051】
図9には、上述した設定の下でアラインメントの得点を求めるためのフローチャートを示す。図9に示されるようにアライメントの得点は、ステップS60の初期化から開始し、ステップS62において変数j(正の整数)を1に初期設定する。その後ステップS64においてjとnとを比較して、jがnを超える場合(真)には、すべての塩基配列について得点が得られているので、ステップS66において、結果をNmnとして出力させる。また、ステップS64の判断においてjがnより小さい場合(偽)には、ステップS68においてi=1に設定し、ステップS70においてiとmとを比較する。ステップS70の比較においてiがmよりも大きな場合(真)には、すでに対象としている子配列について得点を算出することが必要ではないので、ステップS72においてjをインクリメントさせて、ステップS64へと分岐し、ステップS64〜ステップS70の判断を繰り返すことで、無用な計算を排除する。さらにステップS70において、iがm以下である場合(偽)には、ステップS74の処理が実行され、各要素の得点が算出される。ステップS74の処理の後、ステップS76においてiをインクリメントし、m以下のiについて同様の処理を反復する。
【0052】
図10は、図9において説明したステップS60の初期化の詳細を示したフローチャートである。図10に示されるように、まず、ステップS80において、変数jを0に初期化し、ステップS82において、j>nか否かを判断する。ステップS82の判断において、j>nでない場合(偽)には、ステップS84において、子配列の外側のギャップ・スコアN0,jを所定のjについて設定する。その後、jを1だけインクリメントし、ステップS82へと戻す。ステップS82の判断において、jがn以上となった場合(偽)には、ステップS86において、i=0に初期化し、ステップS88においてi>mか否かを判断する。ステップS86の判断においてi>mでない場合(偽)には、ステップS90において親配列の外側のギャップ・スコアNi,0を所定のiについて設定し、iを1だけインクリメントし、再度ステップS88の判断を実行させ、i>mとなった場合(真)に、ステップS60の初期化を終了する。この段階では、本発明において特定の実施の形態において採用する動的計画法において使用されるテーブル(以下、単にテーブルとして参照する)Ni,jの要素のうち、第1列目および第1行目が規定される。なお、本発明におけるクラスタ生成を行うことができる限り、いわゆる動的計画法と知られている技術に限定されるものではなく、いかなる方法により生成される同様のテーブルでも用いることができる。
【0053】
図11は、図9のステップS74の処理の詳細を示したフローチャートである。図11に示されたステップS74の処理は、ステップS90においてi<mであるか否かの判断を行い、i<mである場合(真)には、ステップS92において子配列における内側のギャップ・スコアとして変数child_gap_scoreを得る。また、ステップS90の判断がi<mでない場合(偽)には、ステップS94において子配列における外側のギャップ・スコアとして変数child_gap_scoreを得る。その後、ステップS96においてj<nの判断を行い、j<nの場合(真)には、ステップS100において親配列の内側ギャップ・スコアとして、parent_gap_scoreを得る。また、ステップS96において、j<nではない場合(偽)には、ステップS98で親配列の外側ギャップ・スコアとしてparent_gap_scoreを得る。
【0054】
その後、ステップS102においてテーブルの要素を決定し、ステップS104において、値Si,jを算出する。Si,jは、子配列の塩基鎖長とは関係しないスプライス・サイトに対して独立して加算されるスコアである。ステップS104においてスプライス・サイトのスコアが算出されると図10に示したステップS74の処理から図9のステップS68へと結果を渡し、m以下のiについてスコア値を生成する。
【0055】
図12は、図9〜図11において説明した本発明における高精度のスプライスト・アライメントを使用する第2のクラスタ生成のためのプロセスを実行させるための疑似コードを示した図である。図12に示した疑似コードにおいては、上述したと同様に親配列をP[1..n]、子配列をC[1..m]とする。この擬似コードの中で、関数match(a,b)は、塩基aと塩基bの間のマッチング・スコアをいう。また、donor(P,i)はPのi番目の場所のドナー・サイトの得点を示し、acceptor(P,i)は、同様にその場所のアクセプター・サイトとしての得点を示す。なお、図12に示した擬似コード中には、スプライス・サイトについての得点である、splice scoreは含まれていないが、図12の擬似コードにおいては、ドナー・サイトおよびアクセプター・サイトのスコアに含ませることにより対応した。図12に示した疑似コードにおいては、Nnmが最終的な得点として得られることになる。
【0056】
図13は、上述したテーブルの概略的な構成とスコア計算に用いる要素とを示した概略図である。図13に示したテーブルは、行が親の塩基配列、列が子の塩基配列として構成されている。本発明においては、図12に示した疑似コードにおけるNi,jの要素は、図13に示される3つの要素e1〜e3および上述したSi,j ー1の値であるe4の、4つの要素うちの最小なものとして得ることができる。したがって、本発明においては、図13に示したテーブルのうち、計算に使用するメモリ量として、i−1行と、i行の2行分のメモリのみを割り当てることも可能となり、メモリ資源といったハードウエア資源を減少させることで、さらに計算時間およびハードウエア資源を削減することが可能となる。また、図13においては、最終的に得点として得られるNnmは、e5として示されている。
【0057】
本発明における子配列のスプライスト・アラインメントは、本発明の実施の形態では、子配列について得られたスコアNnmを使用して、与えられた子配列の塩基数mにおいてユーザが希望する適切な誤り率rを乗じたm×rを与え、このm×r以下のスコアの子配列をスプライスト・ペアとすることにより達成することができる。
【0058】
なお、本発明において使用することができる精密なスプライスト・アラインメントを行う部分の方法は、本発明のさらに他の実施の形態ではこれまで知られたいかなる方法でも用いることができ、たとえばUsukaらによる方法を使用することができる。
【0059】
また、本発明のさらに他の実施の形態においては、本発明の方法で得られたspliced edit distanceは、親に含まれるギャップの数と不一致数の和の下限となる。このため、本発明におけるパラメータ設定において、それぞれに対するスコア(gap_score やマッチング・スコアなど)の中に負のものがない場合、スプライスト・アラインメントと判定されるようなアラインメントの親配列に含まれるギャップの数とミスマッチの数の和の上限を計算することは非常に容易であり、断片編集距離(spliced edit distance)が、ギャップ数と不一致数との和の上限値よりも大きいものは候補から除外する処理を用いることもできる。
【0060】
さらに、本発明のさらに他の実施の形態においては、スプライスト・ペアの判定基準をhとする(hは、上述したように子配列の長さに比例、とするのが妥当であるが、そうでなくてもよい)、この親配列のギャップの数とミスマッチの数の和の上限は、
【0061】
【数7】
Figure 0003630414
となる。ただし、min_mismatch_scoreは、mina b{match(a, b)}で表され、マッチしなかった塩基のペアの中で、最小のスコアに対応する。本発明において使用するパラメータの中で、負にする必要のあるものはない。また、分母となる親のギャップ・ペナルティや、不一致のスコアを0以下にすることも通常は考えられないため、良好な断片編集距離(spliced edit distance)の上限を与えることができ、それを用いて、候補を減らすこともできる。
【0062】
さらに本発明のさらに他の実施の形態においては、スライスト・ペアとなる候補を減らすための手法として、本発明のクラスタ生成方法を、さらの別の絞り込みの手法と同時に使用することもできる。
【0063】
図14には、本発明のコンピュータ・システムの概略図を示す。図14に示された本発明のコンピュータ・システムは、インターネットといったネットワーク10に接続されたサーバ12と、サーバ12に対してクエリー配列を送信するためのクライアント14とを含んで構成されている。また、サーバ12は、塩基配列を保持したデータベース16を管理しており、サーバ12が受信したクエリー配列を使用して、データベース16に保持された塩基配列に対してクエリー配列を射影して、本発明に従い、グローバル・フィルタリングにより第1のクラスタを生成する。
【0064】
本発明において説明する特定の実施の形態においては、塩基配列は、cDNAであり、クエリー配列はmRNAであるものとすることができるが、本発明によりスプライス・サイトおよびスプライス長を適用することが可能な塩基配列であれば、本発明は真核生物ばかりではなく、ウイルス、バクテリアなど種々の生物に由来する塩基配列に適用することができる。その後、生成された第1のクラスタを使用して、高精度のスプライスト・アラインメントを行い、第2のクラスタを生成し、第2のクラスタをユーザへと提供する。
【0065】
図15は、本発明のクラスタ生成方法およびクラスタリング方法を実行するためのサーバ12の構成を示したブロック図である。図15に示すように、サーバ12は、cDNAといった塩基配列を保持するデータベース16を管理しており、新たに見出された塩基配列を、例えばキーボードといった入力手段18からの入力に応じて登録することができる構成とされている。サーバ12は、本発明のプログラムを実行するための中央処理装置(CPU)20と、プログラムと、実行中のテーブルと、生成された塩基配列のクラスタなどを保持させるためのメモリ22とを含んで構成されている。また、サーバ12は、本発明のプログラムが記録されたハードディスクといった記憶媒体を含む記憶装置24を管理している。サーバ12は、ユーザの要求に応じて本発明のプログラムを記憶装置24から読み出し、実行することができる構成とされている。
【0066】
さらに、本発明のサーバ12は、ネットワーク・インタフェイス・カード(NIC)、モデム、DSUなどを含んで構成される通信手段26を含んで構成されており、イーサネット(登録商標)、公衆電話回線、ISDN、光通信、ADSLといった媒体を用いて相互接続を行うネットワーク10を通して、図示しないクライアントとの間において通信を可能とする構成とされている。
【0067】
本発明のサーバ12は、本発明のクラスタ生成方法を含むプログラムがユーザにより起動されると、ユーザ入力または、ネットワーク10を介して取得したクエリー配列を、塩基データベース16に保持された塩基配列に対して射影して第1のクラスタ30を生成する。また、生成された第1のクラスタの結果を使用して、スプライスト・アラインメントを実行し、高精度のスプライスト・ペアからなる第2のクラスタ32を生成する。第2のクラスタ32は、いかなるフォーマットとして構成することができるが、例えば、クエリー配列に対して、スプライスト・ペアとなる塩基配列をリストしたテーブルとして構成することができる。その後、上述の通りに生成された第2のクラスタ32は、ネットワーク10を介して図示しないクライアント・コンピュータへと送信される。
【0068】
本発明のクラスタ生成方法を実行させるためのプログラムは、種々のプログラミング言語、例えばC言語、C++言語、Java(登録商標)、などを使用して記述することができ、本発明のプログラムを記述したコードは、磁気テープ、フレキシブル・ディスク、ハード・ディスク、コンパクト・ディスク、光磁気ディスク、ディジタル・バーサタイル・ディスク(DVD)といったコンピュータ可読な記録媒体に保持させることができる。
【0069】
【実施例】
以下、本発明を具体的な実施の形態をもって説明するが、後述する実施例についても、本発明を制限するものではない。
【0070】
(実施例1)
本発明の実施例1では、塩基配列としてマウスのcDNAを含んで構成されたFANTOM1.10のライブラリ(Kawai, J., Shinagawa, A., Shibata, K., Yoshino, M/, Ishii, Y., Arakawa, T., Hara, A., Fukunishi, Y., Konno, H., et al. (2001) ”Functional annotation of a full−length mouse cDNA collection.”, Nature, Vol. 409, 685−690)の中から、スプライスト・ペアをすべて探し出す実験を行った。この実験では、以下のようなスプライスト・アラインメントの設定で、スコアが子配列の長さの5%以下になるような組み合わせをすべて計算した。下記表1に本発明の実施例において使用した条件を示す。
【0071】
【表1】
Figure 0003630414
【0072】
上述した条件の下で、cDNAライブラリの配列に対してスプライスト・アラインメントを行った。クエリー配列としては、FANTOM1.10のライブラリの中の78番の塩基配列(アクセッション番号AK002309)を使用した。また、親配列としては、別の実験からスプライスト・ペアであることが判明しているFANTOM1.10のライブラリの中の20621番の塩基配列を使用した。図16および図17には、本発明において使用した、クエリー配列および親配列を示す。なお、図16および図17に示したアラインメント中の「−」はギャップを示し、「=」はスプライス・サイトを表す。また、図16および図17に示されたアラインメントにおいては、上側列が親配列、下側列がクエリー配列である。
【0073】
上述した条件このアラインメントのスコアとして、本発明により12.0が得られた。このスコアは、クエリー配列の長さ(1162)の5%以下であるので、本発明の方法によりクエリー配列と、親配列とは、スプライシングの関係にあると判断されることが示された。なお、上述したクエリー配列と親配列とは、スプライス・サイトのドナー・アクセプターは通常のGT−AGのペアであり、本発明においては典型的な実施例であるものの、本発明によりスプライスト・ペアとしてリストされていることが示された。
【0074】
(実施例2)
同一の親配列を使用し、クエリー配列のスプライスト・アライメントを親配列に対して実行した。cDNAライブラリは、21706本の配列があるため、考えられるペアの数は、21706x21705=44176700組ある(親配列・子配列の区別があるため)。上述した組み合わせに対して、ハッシュ法による共有部分配列を持つ組を調べるフィルタを適用し、ペアの数を、288380組まで絞り込みを行った。なお、これを調べるための計算時間は、インターナショナル・ビジネス・マシーンズ・コーポレーション製RS64IIIプロセッサ(450MHz)を搭載したワークステーションRS−6000(インターナショナル・ビジネス・マシーンズ・コーポレーション製)を使用して、205秒を要した。
【0075】
この288380組のペアに対して、本発明により候補を絞り込むと、37812組まで塩基配列絞り込みが行われた第1のクラスタを生成することができた。なお、この計算は2765秒かかった(約44分)。得られた37812組の塩基配列を含む第1のクラスタを使用して、クエリー配列に対するスプライスト・アライメントを実行したところ、スプライスト・アラインメントを得るために79399秒(約22時間)を要した。この計算の結果、5140組のスプライシングの関係にあるペアを列挙することができた。その結果に基づき、cDNAライブラリを真核生物のゲノムDNAの異なった領域に対応する16532グループに分類することができた。
【0076】
(比較例)
比較例として、実施例2と同一の条件を使用し、同一の親配列、同一のクエリー配列を使用し、クエリー配列のスプライスト・アライメントを親配列に対して実行した。ハッシュ法を使用して得られた、288380組のの塩基配列に対して直接、Usukaらの方法によりスプライスト・アラインメントを行なったところ、同一の結果を得るために最大で約200時間の計算が必要であった。本発明によれば、塩基配列のクラスタリングを行うことにより、著しく計算時間を短縮することができることが判明した。
【0077】
すなわち、本発明によれば、cDNAデータベースなどに保持された塩基配列と、保持されたcDNAからスプライシングにより生成される可能性の高い塩基配列とを関連づけ、クラスタリングを行うことができる、高速で、かつ計算時間およびハードウエア資源の削減を可能とする、クラスタ生成システム、塩基配列のクラスタリングを可能とする方法、および該方法を実行させるためのプログラム、該プログラムを含むコンピュータ可読な記憶媒体を提供することが可能となる。また、ユーザに対して有限の時間で、かつハードウエア資源の制約を緩和することを可能とするクラスタ生成システム、塩基配列のクラスタリングを可能とする方法、および該方法を実行させるためのプログラム、該プログラムを含むコンピュータ可読な記憶媒体が可能となる。
【0078】
さらに本発明によれば、スプライスト・ペアに関連する塩基配列情報を効率的に提供することを可能とする塩基配列情報提供システムを提供することが可能となる。
【0079】
これまで、本発明を特定の実施の形態に基づいて説明してきたが、本発明は、上述した特定の実施の形態に限定されるものではなく、前後関係を持って切断される塩基配列の間の近似度があれば、いかなる生物の塩基配列にでも適用することができる。また、本発明においては、スプライス・サイトとしては、GT−AGペアだけではなく、これまで知られたいかなるペア、または同等の機能を与えるペアであっても適用することができる。
【図面の簡単な説明】
【図1】本発明が適用される塩基配列データベースの構成を示した図。
【図2】本発明のクラスタ生成方法の概略的なフローチャートを示した図。
【図3】本発明における第1のクラスタの生成方法のフローチャートを示した図。
【図4】図3に示した初期化ステップの詳細を示したフローチャート。
【図5】図3に示したフローチャートのステップS28の詳細な処理を示した図。
【図6】図3に示したフローチャートの概略的な疑似コードを示した図。
【図7】本発明が適用される塩基配列の実施の形態を示した図。
【図8】図3に示したクラスタ生成方法により与えられる各変数を反復回数に対して示した図。
【図9】本発明におけるスプライスト・アラインメントの概略的なフローチャートを示した図
【図10】図9において示した初期化ステップの詳細なフローチャートを示した図。
【図11】図9のステップS74の処理の詳細なフローチャート。
【図12】本発明における第2のクラスタを生成するための概略的な疑似コードを示した図。
【図13】本発明におけるテーブルの概略的な構成と、スコア計算に用いる要素とを示した図。
【図14】本発明の塩基配列情報提供システムの概略的な実施の形態を示した図。
【図15】本発明のクラスタ生成を実行するサーバの概略的な構成を示したブロック図。
【図16】本発明の実施例において使用した塩基配列を示した図。
【図17】本発明の実施例において使用した塩基配列を示した図(図16の続き)。
【符号の説明】
10…塩基配列情報提供システム
12…サーバ
14…クライアント
16…塩基データベース
18…入力手段
20…CPU
22…メモリ
24…記憶装置
26…通信手段
30…第1のクラスタ
32…第2のクラスタ

Claims (12)

  1. 塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタを生成するシステムであって、
    前記断片塩基配列をクエリー配列として登録するための手段と、
    前記クエリー配列と、データベースから読み出された前記塩基配列との間の中途断片編集距離と相違カウンタとを比較して、前記相違カウンタが前記中途断片編集距離以上の場合には、前記クエリー配列の塩基数の判断位置を変更し、変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返すことに応答して前記中途断片編集距離を相違カウンタ+1の値に設定すると共に前記相違カウンタをデクリメントさせ、前記相違カウンタが前記中途断片編集距離よりも小さいと判断された場合には、前記中途断片編集距離が所定の最大許容値以下であるか否かを判断し、前記中途断片編集距離が前記所定の最大許容値以下であると判断された場合には、前記塩基配列の塩基位置をインクリメントさせて前記インクリメントされた塩基位置が前記塩基配列の塩基数を越えたか否かを判断し、前記中途断片編集距離が前記最大許容値以下で前記塩基配列の塩基数を越えたと判断した場合には、前記最大許容値以下の塩基一致があるとして塩基配列を第1のクラスタとして記憶手段に登録し、前記塩基配列の塩基数以下の塩基判断位置において前記中途断片編集距離が所定の最大許容値を越えるまで前記変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返した場合には、前記クエリー配列と前記塩基配列との間には前記最大許容値以下の塩基一致が無いとして第1のクラスタへの登録を行わない手段と、
    前記第1のクラスタから第2のクラスタを生成して記憶手段に記憶させる手段を含み、
    該第2のクラスタを生成するための手段は、
    前記塩基配列と前記クエリー配列との塩基のマッチングにおいて前記塩基配列および前記クエリー配列について挿入されたギャップの数についてそれぞれ内側のギャップの数および外側のギャップの数を取得し、さらに前記塩基配列に対して定義されるスプライス長を参照して、前記クエリー配列と前記第1のクラスタに含まれる塩基配列との間にスプライス長よりも長いスプライス・サイトについて、前記スプライス・サイトに対して定義されたドナー・サイトおよびアクセプター・サイトを規定し、前記ドナー・サイトの数と前記アクセプター・サイトの数と塩基配列についてスプライス長の存在数とを算出し、前記ドナー・サイトの数と前記アクセプター・サイトの数と、前記スプライス長の存在数と、前記内側のギャップの数および前記外側のギャップの数を使用して、
    下記式
    Figure 0003630414
    で示される値からテーブルを作成し、テーブルのうちの行中でスプライス長だけ前のスコアを使用した比較を行うことにより最小となる前記塩基配列を第2のクラスタとして登録する手段を含む
    クラスタ生成システム。
  2. 前記スプライス長は、20〜60の塩基数とされる、請求項に記載のクラスタ生成システム。
  3. 前記塩基配列は、真核生物のDNA配列および前記真核生物において発現したmRNAまたは前記mRNAの塩基配列から逆転写により得られるcDNA断片配列を含む、
    請求項1に記載のクラスタ生成システム。
  4. 前記クエリー配列は、DNA断片配列または、または前記真核生物において発現したmRNAまたは前記mRNAから逆転写により得られるcDNA断片配列を含む
    請求項1に記載のクラスタ生成システム。
  5. 塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタをコンピュータに対して生成させるための方法であって、前記方法は、コンピュータに対して、
    前記断片塩基配列をクエリー配列として登録するステップと
    前記クエリー配列と、データベースから読み出された前記塩基配列との間の中途断片編集距離と相違カウンタとを比較して、前記相違カウンタが前記中途断片編集距離以上の場合には、前記クエリー配列の塩基数の判断位置を変更し、変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返すことに応答し前記中途断片編集距離を相違カウンタ+1の値に設定すると共に前記相違カウンタをデクリメントさせ、前記相違カウンタが前記中途断片編集距離よりも小さいと判断された場合には、前記中途断片編集距離が所定の最大許容値以下であるか否かを判断し、前記中途断片編集距離が前記所定の最大許容値以下であると判断された場合には、前記塩基配列の塩基位置をインクリメントさせて前記インクリメントされた塩基位置が前記塩基配列の塩基数を越えたか否かを判断し、前記中途断片編集距離が前記最大許容値以下で前記塩基配列の塩基数を越えたと判断した場合には、前記最大許容値以下の塩基一致があるとして塩基配列を第1のクラスタとして記憶手段に登録し、前記塩基配列の塩基数以下の塩基判断位置において前記中途断片編集距離が所定の最大許容値を越えるまで前記変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返した場合には、前記クエリー配列と前記塩基配列との間には前記最大許容値以下の塩基一致が無いとして第1のクラスタへの登録を行わないステップと、
    前記第1のクラスタから第2のクラスタを生成して記憶手段に記憶させるステップとを実行させ、
    該第2のクラスタを生成するステップは、
    前記塩基配列と前記クエリー配列との塩基のマッチングにおいて前記塩基配列および前記クエリー配列について挿入されたギャップの数についてそれぞれ内側のギャップの数および外側のギャップの数を取得し、さらに前記塩基配列に対して定義されるスプライス長を参照して、前記クエリー配列と前記第1のクラスタに含まれる塩基配列との間にスプライス長よりも長いスプライス・サイトについて、前記スプライス・サイトに対して定義されたドナー・サイトおよびアクセプター・サイトを規定し、前記ドナー・サイトの数と前記アクセプター・サイトの数と塩基配列についてスプライス長の存在数とを算出し、前記ドナー・サイトの数と前記アクセプター・サイトの数と、前記スプライス長の存在数と、前記内側のギャップの数および前記外側のギャップの数を使用して、
    下記式
    Figure 0003630414
    で示される値からテーブルを作成し、テーブルのうちの行中でスプライス長だけ前のスコアを使用した比較を行うことにより最小となる前記塩基配列を第2のクラスタとして登録する手段を含む
    クラスタ生成方法
  6. 前記スプライス長は、20〜60の塩基数とされ、前記塩基配列は、DNA配列およびmRNAの配列から得られるcDNA断片配列を含む、
    請求項に記載のクラスタ生成方法。
  7. 塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタを生成する方法をコンピュータ・システムに実行させるためのプログラムが記録されたコンピュータ可読な記録媒体であって、該プログラムは、前記コンピュータ・システムに対して、
    前記断片塩基配列をクエリー配列として登録するステップと
    前記クエリー配列と、データベースから読み出された前記塩基配列との間の中途断片編集距離と相違カウンタとを比較して、前記相違カウンタが前記中途断片編集距離以上の場合には、前記クエリー配列の塩基数の判断位置を変更し、変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返すことに応答して前記中途断片編集距離を相違カウンタ+1の値に設定すると共に前記相違カウンタをデクリメントさせ、前記相違カウンタが前記中途断片編集距離よりも小さいと判断された場合には、前記中途断片編集距離が所定の最大許容値以下であるか否かを判断し、前記中途断片編集距離が前記所定の最大許容値以下であると判断された場合には、前記塩基配列の塩基位置をインクリメントさせて前記インクリメントされた塩基位置が前記塩基配列の塩基数を越えたか否かを判断し、前記中途断片編集距離が前記最大許容値以下で前記塩基配列の塩基数を越えたと判断した場合には、前記最大許容値以下の塩基一致があるとして塩基配列を第1のクラスタとして記憶手段に登録し、前記塩基配列の塩基数以下の塩基判断位置において前記中途断片編集距離が所定の最大許容値を越えるまで前記変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返した場合には、前記クエリー配列と前記塩基配列との間には前記最大許容値以下の塩基一致が無いとして第1のクラスタへの登録を行わないステップと、
    前記第1のクラスタから第2のクラスタを生成して記憶手段に記憶させるステップとを実行させ、
    該第2のクラスタを生成するステップは、
    前記塩基配列と前記クエリー配列との塩基のマッチングにおいて前記塩基配列および前記クエリー配列について挿入されたギャップの数についてそれぞれ内側のギャップの数および外側のギャップの数を取得し、さらに前記塩基配列に対して定義されるスプライス長を参照して、前記クエリー配列と前記第1のクラスタに含まれる塩基配列との間にスプライス長よりも長いスプライス・サイトについて、前記スプライス・サイトに対して定義されたドナー・サイトおよびアクセプター・サイトを規定し、前記ドナー・サイトの数と前記アクセプター・サイトの数と塩基配列についてスプライス長の存在数とを算出し、前記ドナー・サイトの数と前記アクセプター・サイトの数と、前記スプライス長の存在数と、前記内側のギャップの数および前記外側のギャップの数を使用して、
    下記式
    Figure 0003630414
    で示される値からテーブルを作成し、テーブルのうちの行中でスプライス長だけ前のスコアを使用した比較を行うことにより最小となる前記塩基配列を第2のクラスタとして登録する手段を含む
    プログラムを記録したコンピュータ可読な記憶媒体。
  8. 前記スプライス長は、20〜60の塩基数とされ、前記塩基配列および前記クエリー配列は、真核生物のDNA配列および前記真核生物において発現したmRNAまたは前記mRNAの塩基配列から逆転写により得られるcDNA断片配列を含む、
    請求項に記載の記録媒体。
  9. 塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタを生成する方法をコンピュータ・システムに実行させるためのプログラムであって、該プログラムは、前記コンピュータ・システムに対して、
    前記断片塩基配列をクエリー配列として登録するステップと
    前記クエリー配列と、データベースから読み出された前記塩基配列との間の中途断片編集距離と相違カウンタとを比較して、前記相違カウンタが前記中途断片編集距離以上の場合には、前記クエリー配列の塩基数の判断位置を変更し、変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返すことに応答して前記中途断片編集距離を相違カウンタ+1の値に設定すると共に前記相違カウンタをデクリメントさせ、前記相違カウンタが前記中途断片編集距離よりも小さいと判断された場合には、前記中途断片編集距離が所定の最大許容値以下であるか否かを判断し、前記中途断片編集距離が前記所定の最大許容値以下であると判断された場合には、前記塩基配列の塩基位置をインクリメントさせて前記インクリメントされた塩基位置が前記塩基配列の塩基数を越えたか否かを判断し、前記中途断片編集距離が前記最大許容値以下で前記塩基配列の塩基数を越えたと判断した場合には、前記最大許容値以下の塩基一致があるとして塩基配列を第1のクラスタとして記憶手段に登録し、前記塩基配列の塩基数以下の塩基判断位置において前記中途断片編集距離が所定の最大許容値を越えるまで前記変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返した場合には、前記クエリー配列と前記塩基配列との間には前記最大許容値以下の塩基一致が無いとして第1のクラスタへの登録を行わないステップと、
    前記第1のクラスタから第2のクラスタを生成して記憶手段に記憶させるステップとを実行させ、
    該第2のクラスタを生成するステップは、
    前記塩基配列と前記クエリー配列との塩基のマッチングにおいて前記塩基配列および前記クエリー配列について挿入されたギャップの数についてそれぞれ内側のギャップの数および外側のギャップの数を取得し、さらに前記塩基配列に対して定義されるスプライス長を参照して、前記クエリー配列と前記第1のクラスタに含まれる塩基配列との間にスプライス長よりも長いスプライス・サイトについて、前記スプライス・サイトに対して定義されたドナー・サイトおよびアクセプター・サイトを規定し、前記ドナー・サイトの数と前記アクセプター・サイトの数と塩基配列についてスプライス長の存在数とを算出し、前記ドナー・サイトの数と前記アクセプター・サイトの数と、前記スプライス長の存在数と、前記内側のギャップの数および前記外側のギャップの数を使用して、
    下記式
    Figure 0003630414
    で示される値からテーブルを作成し、テーブルのうちの行中でスプライス長だけ前のスコアを使用した比較を行うことにより最小となる前記塩基配列を第2のクラスタとして登録する手段を含む
    コンピュータ実行可能なプログラム
  10. 前記スプライス長は、20〜60の塩基数とされ、前記塩基配列および前記クエリー配列は、真核生物のDNA配列および前記真核生物において発現したmRNAまたは前記mRNAの塩基配列から逆転写により得られるcDNA断片配列を含む、
    請求項に記載のプログラム。
  11. 塩基配列のスプライシングにより生成される断片塩基配列についてスプライシングに関連して塩基配列のクラスタ情報を提供するためのシステムであって、
    ネットワークに接続され、前記ネットワークを介してクエリー配列を受信するサーバと、
    塩基配列を含むデータベースとを含み、
    前記サーバは、
    前記断片塩基配列をクエリー配列として登録するための手段と、
    前記クエリー配列と、データベースから読み出された前記塩基配列との間の中途断片編集距離と相違カウンタとを比較して、前記相違カウンタが前記中途断片編集距離以上の場合には、前記クエリー配列の塩基数の判断位置を変更し、変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返すことに応答して前記中途断片編集距離を相違カウンタ+1の値に設定すると共に前記相違カウンタをデクリメントさせ、前記相違カウンタが前記中途断片編集距離よりも小さいと判断された場合には、前記中途断片編集距離が所定の最大許容値以下であるか否かを判断し、前記中途断片編集距離が前記所定の最大許容値以下であると判断された場合には、前記塩基配列の塩基位置をインクリメントさせて前記インクリメントされた塩基位置が前記塩基配列の塩基数を越えたか否かを判断し、前記中途断片編集距離が前記最大許容値以下で前記塩基配列の塩基数を越えたと判断した場合には、前記最大許容値以下の塩基一致があるとして塩基配列を第1のクラスタとして記憶手段に登録し、前記塩基配列の塩基数以下の塩基判断位置において前記中途断片編集距離が所定の最大許容値を越えるまで前記変数 positions[i] が前記クエリー配列の塩基数よりも大きな値を返した場合には、前記クエリー配列と前記塩基配列との間には前記最大許容値以下の塩基一致が無いとして第1のクラスタへの登録を行わない手段と、
    前記第1のクラスタから第2のクラスタを生成して記憶手段に記憶させる手段を含み、
    該第2のクラスタを生成するための手段は、
    前記塩基配列と前記クエリー配列との塩基のマッチングにおいて前記塩基配列および前記クエリー配列について挿入されたギャップの数についてそれぞれ内側のギャップの数および外側のギャップの数を取得し、さらに前記塩基配列に対して定義されるスプライス長を参照して、前記クエリー配列と前記第1のクラスタに含まれる塩基配列との間にスプライス長よりも長いスプライス・サイトについて、前記スプライス・サイトに対して定義されたドナー・サイトおよびアクセプター・サイトを規定し、前記ドナー・サイトの数と前記アクセプター・サイトの数と塩基配列についてスプライス長の存在数とを算出し、前記ドナー・サイトの数と前記アクセプター・サイトの数と、前記スプライス長の存在数と、前記内側のギャップの数および前記外側のギャップの数を使用して、
    下記式
    Figure 0003630414
    で示される値からテーブルを作成し、テーブルのうちの行中でスプライス長だけ前のスコアを使用した比較を行うことにより最小となる前記塩基配列を第2のクラスタとして登録する手段を含む
    塩基配列情報提供システム。
  12. 前記塩基配列および前記クエリー配列は、 DNA 断片配列または、前記真核生物において発現した mRNA または前記 mRNA から逆転写により得られる cDNA 断片配列を含む
    請求項11に記載の塩基配列情報提供システム。
JP2002146201A 2002-05-21 2002-05-21 塩基配列のクラスタ生成システム、塩基配列のクラスタ生成方法、該クラスタ生成方法を実行するためのプログラム、および該プログラムを記憶したコンピュータ可読な記録媒体、および塩基配列情報提供システム Expired - Fee Related JP3630414B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2002146201A JP3630414B2 (ja) 2002-05-21 2002-05-21 塩基配列のクラスタ生成システム、塩基配列のクラスタ生成方法、該クラスタ生成方法を実行するためのプログラム、および該プログラムを記憶したコンピュータ可読な記録媒体、および塩基配列情報提供システム
US10/426,118 US8032305B2 (en) 2002-05-21 2003-04-29 Base sequence cluster generating system, base sequence cluster generating method, program for performing cluster generating method, and computer readable recording medium on which program is recorded and system for providing base sequence information
US13/209,097 US9589102B2 (en) 2002-05-21 2011-08-12 Base sequence cluster generating system, base sequence cluster generating method, program for performing cluster generating method, and computer readable recording medium on which program is recorded and system for providing base sequence information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002146201A JP3630414B2 (ja) 2002-05-21 2002-05-21 塩基配列のクラスタ生成システム、塩基配列のクラスタ生成方法、該クラスタ生成方法を実行するためのプログラム、および該プログラムを記憶したコンピュータ可読な記録媒体、および塩基配列情報提供システム

Publications (2)

Publication Number Publication Date
JP2003345805A JP2003345805A (ja) 2003-12-05
JP3630414B2 true JP3630414B2 (ja) 2005-03-16

Family

ID=29766372

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002146201A Expired - Fee Related JP3630414B2 (ja) 2002-05-21 2002-05-21 塩基配列のクラスタ生成システム、塩基配列のクラスタ生成方法、該クラスタ生成方法を実行するためのプログラム、および該プログラムを記憶したコンピュータ可読な記録媒体、および塩基配列情報提供システム

Country Status (2)

Country Link
US (2) US8032305B2 (ja)
JP (1) JP3630414B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
WO2016100049A1 (en) 2014-12-18 2016-06-23 Edico Genome Corporation Chemically-sensitive field effect transistor
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10811539B2 (en) 2016-05-16 2020-10-20 Nanomedical Diagnostics, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
CA3050247A1 (en) * 2017-01-18 2018-07-26 Illumina, Inc. Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths
EP3602350A4 (en) * 2017-03-19 2021-01-27 Ofek Eshkolot Research And Development Ltd. SYSTEM AND METHOD FOR GENERATING FILTERS FOR SEARCHING FOR K-MISAPPARATIONS

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5556749A (en) * 1992-11-12 1996-09-17 Hitachi Chemical Research Center, Inc. Oligoprobe designstation: a computerized method for designing optimal DNA probes
US6519583B1 (en) * 1997-05-15 2003-02-11 Incyte Pharmaceuticals, Inc. Graphical viewer for biomolecular sequence data
CA2425852C (en) * 2000-10-13 2009-09-29 Chiron Corporation Cytomegalovirus intron a fragments
JP2004259119A (ja) * 2003-02-27 2004-09-16 Internatl Business Mach Corp <Ibm> 塩基配列のスクリーニングを行うためのコンピュータ・システム、そのための方法、該方法をコンピュータに対して実行させるためのプログラムおよび該プログラムを記憶したコンピュータ可読な記録媒体

Also Published As

Publication number Publication date
US20110295977A1 (en) 2011-12-01
JP2003345805A (ja) 2003-12-05
US9589102B2 (en) 2017-03-07
US20040072204A1 (en) 2004-04-15
US8032305B2 (en) 2011-10-04

Similar Documents

Publication Publication Date Title
US9589102B2 (en) Base sequence cluster generating system, base sequence cluster generating method, program for performing cluster generating method, and computer readable recording medium on which program is recorded and system for providing base sequence information
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
JP3672242B2 (ja) パターン検索方法、パターン検索装置、コンピュータプログラム及び記憶媒体
US6714874B1 (en) Method and system for the assembly of a whole genome using a shot-gun data set
US7856409B2 (en) Nucleotide sequence screening
EP3084426B1 (en) Iterative clustering of sequence reads for error correction
JP5985040B2 (ja) データ解析装置、及びその方法
Kalyanaraman et al. Space and time efficient parallel algorithms and software for EST clustering
US20180060484A1 (en) Extending assembly contigs by analyzing local assembly sub-graph topology and connections
JPH11134366A (ja) データベースの特異値の数を推定する方法及び装置
US20190267110A1 (en) System and method for sequence identification in reassembly variant calling
CN114783523A (zh) 使用分级反向索引表的dna比对
Zhao et al. Multitrans: an algorithm for path extraction through mixed integer linear programming for transcriptome assembly
Gavin et al. Pooled library tissue tags for EST-based gene discovery
US11482304B2 (en) Alignment methods, devices and systems
CN112669902B (zh) 检测基因组结构变异的方法、计算设备和存储介质
Marcolin et al. Efficient k-mer Indexing with Application to Mapping-free SNP Genotyping.
Li et al. Seeding with minimized subsequence
JP5129809B2 (ja) ハプロタイプ推定装置、および、プログラム
JP7352985B2 (ja) 生物学的配列情報の取り扱い
CN110232140B (zh) 具有局部-整体约束的一次性近似模式匹配方法
Oehl A combinatorial approach for reconstructing rDNA repeats
US20030092053A1 (en) Storage medium, method for designing genotyping-microarray and computer system containing the same
Ramírez-Rafael et al. REvolutionH-tl: R econstruction of Evolution ary H istories t oo l
Scheetz et al. Informatics for efficient EST-based gene discovery in normalized and subtracted cDNA libraries

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040302

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040528

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041207

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20041207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041213

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071224

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081224

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees