JP2005346340A - フラグメントによる配列クラスタリング・アラインメント方法 - Google Patents
フラグメントによる配列クラスタリング・アラインメント方法 Download PDFInfo
- Publication number
- JP2005346340A JP2005346340A JP2004164387A JP2004164387A JP2005346340A JP 2005346340 A JP2005346340 A JP 2005346340A JP 2004164387 A JP2004164387 A JP 2004164387A JP 2004164387 A JP2004164387 A JP 2004164387A JP 2005346340 A JP2005346340 A JP 2005346340A
- Authority
- JP
- Japan
- Prior art keywords
- fragment
- sequence
- sequences
- information
- directed graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000012634 fragment Substances 0.000 title claims abstract description 230
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000012300 Sequence Analysis Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 25
- 239000002299 complementary DNA Substances 0.000 description 16
- 108090000623 proteins and genes Proteins 0.000 description 11
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 108020004707 nucleic acids Proteins 0.000 description 3
- 102000039446 nucleic acids Human genes 0.000 description 3
- 150000007523 nucleic acids Chemical class 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 108091035707 Consensus sequence Proteins 0.000 description 2
- 108091092878 Microsatellite Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 1
- 241000255581 Drosophila <fruit fly, genus> Species 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 241000244206 Nematoda Species 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 239000002585 base Substances 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000126 in silico method Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000002887 multiple sequence alignment Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000010839 reverse transcription Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】複数の配列を比較した結果である、複数の配列に共通する部分配列や、特定の塩基配列にのみ存在する部分配列の情報(フラグメント情報)が与えられたときに、配列を互いに共通部分が多い配列のグループごとに分類するクラスタリング処理と、グループ内で、配列の各部位の対応関係を明らかにするアラインメント処理を行なう。
【解決手段】与えられたフラグメント情報に基づき、それらのフラグメントをノードとしてもつ有向グラフを構築する。この有向グラフから閉路を削除した後、最小重み経路を探索する公知の手法を用いて最小重み経路を同定する。この経路に対応するフラグメント列をもとに、互いに共通部分の多い配列を同定し、さらに、前記最小重み経路を利用して、各配列をフラグメント単位でマルチプルアラインメントする。
【選択図】図1
【解決手段】与えられたフラグメント情報に基づき、それらのフラグメントをノードとしてもつ有向グラフを構築する。この有向グラフから閉路を削除した後、最小重み経路を探索する公知の手法を用いて最小重み経路を同定する。この経路に対応するフラグメント列をもとに、互いに共通部分の多い配列を同定し、さらに、前記最小重み経路を利用して、各配列をフラグメント単位でマルチプルアラインメントする。
【選択図】図1
Description
複数の塩基配列に共通に存在する部分文字列を抽出した結果に基づき、配列のクラスタリングおよびアラインメントを行なうための方法に関する。
国際共同プロジェクト及び米国ベンチャー企業により、2000年6月にヒトゲノムの文字配列決定の完了が宣言されたほか、大腸菌や酵母菌、線虫、ショウジョウバエ、マウスなど、多くの生物のゲノム配列が続々と決定された。ゲノム配列において、機能上重要な部位は、種間で保存性が高いことが知られている。これは、機能上重要な部位では、中立的な突然変異が起こりにくいためである。したがって、近縁種で相同性のある部位の配列を比較することにより、ゲノム配列中の機能上重要な部位を同定することが可能である。
ゲノム配列と並び、cDNA配列の解析も重要と考えられている。cDNAとは、生体内のmRNAを逆転写して得られるDNAであり、その配列を解析することは、生体内で発現している遺伝子の配列を解析することに他ならない。cDNA配列の一部を配列決定したESTと呼ばれる配列は、米国の公共機関のデータベースに2千万件以上蓄積されている折、ヒトの全長cDNA配列を、全遺伝子の2/3以上を網羅すると言われる2万配列以上をアノテーション付きで公開するデータベースも構築された(今西等の文献“Imanishi, T., et al., Integrative Annotation of 21,037 Human Genes Validated by Full-Length cDNA Clones, PLoS Biol. Vol 2, Issue 6, 2004.”)。これらの膨大なcDNA配列データを用いて遺伝子の機能を調べたり、同一遺伝子に由来するcDNA配列を同定したりする際にも、cDNA配列の比較解析が有効である。
多数の配列の同時相互比較を、最適化問題と見て最適解を探索する処理は、計算量的に極めて困難であり、短時間で効率よく最適解を得る方法は存在しないと言われている。そのため、最適解を得ることは保証されないものの、高速処理が可能で実用的に十分な比較結果を得るための手法が開発されてきた。それらの手法のうち、配列の類似性が極めて高い領域をまず同定し、その結果に基づいて配列全体の比較を行なう手法が、ゲノム配列やcDNA配列の比較においては有効である。このような配列の比較解析を行なう従来技術には、以下に述べるものがある。
非特許文献1のホモロジー検索の方法は、ひとつの問い合わせ配列と複数の配列を格納したデータベースが与えられたとき、問い合わせ配列に類似する領域をもつほかの配列を探索する技術であり、配列の比較解析のツールとして利用できる。ただし、この方法は、2配列間の類似する領域、または、ある1配列に類似する多数の配列上の領域を同定することができるのみである。多数の配列に共通する類似配列の探索や、多数の配列間で対応する部分の同定、多数のcDNA配列中で同一遺伝子に由来する配列の同定といった問題を、直接的に処理することはできない。
2配列の比較を、効率よく行なう手法として、非特許文献2のDelcherらの手法が知られている。この手法では、まず与えられた2配列に共通するMUM(Maximal Unique Match)と呼ばれる部分配列を抽出する。そして、得られたMUMを、数列中の最長の単調増加部分列を抽出する方法を用いて整列させ、2配列の共通部分が配列全体でどう分布しているかを明らかにする。共通部分間のギャップは、同様の手法を再帰的に適用することで埋める。Delcherらは、非特許文献3においてこの手法の改良を行なっているが、比較できる配列の数は2にとどまっており、3つ以上の配列を同時に比較することはできない。
Hohlらは、複数のゲノム配列を高速にアラインメントすることを目的とし、3つ以上の配列に共通する部分配列を抽出し、抽出された部分配列を整列し、その結果に基づき複数配列のアラインメントを高速に生成する方法を開発した(非特許文献4)。しかし、Hohlらの方法は、全配列に共通の配列のみを対象としており、一部の配列にのみ共通する配列を抽出することができない。そのため、複数のゲノム配列の全てではなく一部のみの配列に共通する部分配列や、cDNA配列中の選択的スプライシングが行なわれるエクソン配列を見落とすという問題がある。
一方で、3つ以上の配列から、共通する部分配列を抽出する試みも行なわれている(非特許文献5)。しかし、非特許文献5は、UEB(共通する部分配列)を抽出する手法を提案するだけであって、それだけでは、配列を共通部分が多い配列ごとのグループに分類するクラスタリングや、配列間で対応する部分を明らかにするアラインメントを行なうための方法が提供されるわけではない。
Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z., Miller, W. and Lipman, D.J., Gapped BLAST and PSI-BLAST: a new generation of protein database search programs, Nucleic Acid Research, 25:3389-3402, 1997
Delcher, A.L., Kasif, S., Fleischmann, R.D., Peterson, J., White, O. and Salzberg, S.L., Alignment of whole genomes, Nucleic Acids Research, 27(11):2369-2376, 1999.
Delcher, A.L., Phillippy, A., Carlton, J., and Salzberg, S.L., Fast algorithms for large-scale genome alignment and comparison, Nucleic Acids Research, 30(11):2478-2483, 2002.
Hohl, M., Kurtz, S., and Ohlebusch, E., Efficient multiple genome alignment, Bioinformatics 18 Suppl.1, S312-S320, 2002.
Yasuda, T., Kimura, K., Nishikawa, T., Towards Splicing Pattern Detection Based on cDNA Sequences, Genome Informatics 14:422-423, 2003.
本発明は、塩基配列のフラグメント情報が与えられた場合に、そのフラグメント情報に基づき配列のクラスタリングおよびアラインメントを行なう方法を提供することを目的としている。
図1は、本発明のフラグメント列解析方法を模式的に示す図であり、処理対象となる三つの塩基配列の塩基、フラグメント、フラグメント列、および、処理結果の例を示す。
本発明では、入力として、複数のフラグメントの列が与えられることを想定する。本発明の処理対象となる塩基配列は、ゲノム配列やcDNA配列といった塩基配列であり、分析の対象となる塩基配列が、当初からフラグメント情報を持ったものとして与えられるわけでは無い。しかし、背景技術で説明したように、ゲノム配列やcDNA配列といった塩基配列をフラグメント情報に変換する手法は種々の提案があるので、これらのいずれかにより処理されたフラグメント情報に基づき配列のクラスタリングおよびアラインメントを行なう方法を提供するものである。
本発明では、複数の塩基配列に共通するか、または、特定の塩基配列のみに存在する部分配列をフラグメントと呼び、ある塩基配列に現れるフラグメントを、該塩基配列に現れる順に並べたものをフラグメント列と呼ぶ。
塩基配列1はフラグメントf1,f2およびf3からなるフラグメントの列から成り、塩基配列2はフラグメントf1およびf3からなるフラグメントの列から成り、塩基配列3はフラグメントf4,f5およびもう1つのf4からなるフラグメントの列から成るものとする。このような複数の塩基配列1−3のフラグメント情報が与えられたとき、それぞれの塩基配列からフラグメントを抽出して、各塩基配列におけるフラグメントの並び、すなわち、フラグメント列を導出する。塩基配列1のフラグメント列F1は<f1,f2,f3>であり、塩基配列2のフラグメント列F2は<f1,f3>であり、塩基配列3のフラグメント列F3は<f4,f5,f4>である。
これらのフラグメント列F1−F3を相互比較し、互いに共通部分が多いグループ1031、1032に分類するクラスタリングと、クラスタリングされたフラグメント列間のアラインメントを行なって複数のフラグメント列間で共通する部分の対応関係1041、1042を明らかにする。
上記の処理を効率良く行なう方法を提供することが、本発明の課題である。
上記の課題を解決するために、次の(1)−(4)の工程からなる方法を実行する。
(1)複数のフラグメント列のフラグメント情報が与えられたとき、常に隣り合って現れるフラグメントを統合する。
(2)フラグメント列の集合をDAG(directed acyclic graph)と呼ばれるデータ構造に変換し、DAG上の2点間の最短路を同定する方法を用いて、互いに共通部分の多いフラグメント列を同定する。
(3)DAG上の最短路を探索する際に、前もって与えられたスコア関数により各フラグメントのスコアを計算する。あるフラグメントfのスコアを計算するスコア関数としては、例えば、フラグメント長をL(f)、該フラグメントの全フラグメント列中における総出現回数をN(f)とするとき、score(f)=L(f)N(f)、score(f)=L(f)、または、score(f)=L(f)log(N(f))を用いる。
(4)DAG上の最短路に対応するフラグメント列が、全フラグメント列中の一部のフラグメント列からなる、互いに共通部分の多いグループを特徴付けているとみなし、該フラグメント列を用いて、該グループに属するフラグメント列を同定する。
(5)前記グループに属するフラグメント列間のマルチプルアラインメントを行なう。
(1)複数のフラグメント列のフラグメント情報が与えられたとき、常に隣り合って現れるフラグメントを統合する。
(2)フラグメント列の集合をDAG(directed acyclic graph)と呼ばれるデータ構造に変換し、DAG上の2点間の最短路を同定する方法を用いて、互いに共通部分の多いフラグメント列を同定する。
(3)DAG上の最短路を探索する際に、前もって与えられたスコア関数により各フラグメントのスコアを計算する。あるフラグメントfのスコアを計算するスコア関数としては、例えば、フラグメント長をL(f)、該フラグメントの全フラグメント列中における総出現回数をN(f)とするとき、score(f)=L(f)N(f)、score(f)=L(f)、または、score(f)=L(f)log(N(f))を用いる。
(4)DAG上の最短路に対応するフラグメント列が、全フラグメント列中の一部のフラグメント列からなる、互いに共通部分の多いグループを特徴付けているとみなし、該フラグメント列を用いて、該グループに属するフラグメント列を同定する。
(5)前記グループに属するフラグメント列間のマルチプルアラインメントを行なう。
本発明によれば、塩基配列に基づき作られたフラグメント列に基づき、同一遺伝子に由来するcDNA配列や近縁種のゲノム配列のようなグループごとに、フラグメント列を分類し、マルチプルアラインメントにより配列中の対応する箇所を同定することが可能になる。
以下、本発明の実施の形態について説明する。最初に、本明細書で使用する記号と用語及び概念を定義する。
(1)フラグメント:解析の対象である塩基配列の一部分。ある塩基配列に固有の場合や、複数の塩基配列に共通する場合がある。複数の配列に共通する場合には、主に完全一致の場合を想定しているが、少数の塩基の置換や短いギャップを許すなどバリエーションも考えられる。非特許文献5で説明されているUEBがフラグメントの例であるが、他の種類のフラグメントに対しても、本発明の方法は有効である。
(2)フラグメント列:フラグメントの順序つきの列。フラグメントf1,f2,...,fnがこの順に並んだ列を<f1,f2,...,fn>と表記する。図1に例を挙げた。なお、本明細書ではi番目のフラグメント列をFiで表し、フラグメント列の数をKとすれば、1≦i≦Kとする。
(3)O(f(n)):関数g(n)に対しg(n)=O(f(n))であるとは、ある定数cが存在して、十分大きなnに対しg(n)≦cf(n)が成立することである。また、ある量が「O(f(n))である」とは、その量がnの関数g(n)以下であり、g(n)=O(f(n))であることを意味する。
(1)フラグメント:解析の対象である塩基配列の一部分。ある塩基配列に固有の場合や、複数の塩基配列に共通する場合がある。複数の配列に共通する場合には、主に完全一致の場合を想定しているが、少数の塩基の置換や短いギャップを許すなどバリエーションも考えられる。非特許文献5で説明されているUEBがフラグメントの例であるが、他の種類のフラグメントに対しても、本発明の方法は有効である。
(2)フラグメント列:フラグメントの順序つきの列。フラグメントf1,f2,...,fnがこの順に並んだ列を<f1,f2,...,fn>と表記する。図1に例を挙げた。なお、本明細書ではi番目のフラグメント列をFiで表し、フラグメント列の数をKとすれば、1≦i≦Kとする。
(3)O(f(n)):関数g(n)に対しg(n)=O(f(n))であるとは、ある定数cが存在して、十分大きなnに対しg(n)≦cf(n)が成立することである。また、ある量が「O(f(n))である」とは、その量がnの関数g(n)以下であり、g(n)=O(f(n))であることを意味する。
以下、図面を参照しつつ、本発明の方法について詳述する。
図2は、本発明による処理の全体を示すフローチャートである。
ステップS201:配列のバリエーションにより分断されたフラグメントの統合
本発明では、複数のフラグメント列が与えられたとき、まず、各フラグメント列について、それぞれのフラグメントが単一のフラグメントと見なすのが好ましいが、SNPやマイクロサテライトにより2つ以上に分断されているフラグメントに対しては、統合して一つのフラグメントに置き換える処理を行なう。そのため、あるフラグメントfまたはf'を含むすべてのフラグメント列において、フラグメントfの直後のフラグメントがf’である場合、フラグメントfとフラグメントf’を統合し新しいフラグメントf’’で置き換える。
本発明では、複数のフラグメント列が与えられたとき、まず、各フラグメント列について、それぞれのフラグメントが単一のフラグメントと見なすのが好ましいが、SNPやマイクロサテライトにより2つ以上に分断されているフラグメントに対しては、統合して一つのフラグメントに置き換える処理を行なう。そのため、あるフラグメントfまたはf'を含むすべてのフラグメント列において、フラグメントfの直後のフラグメントがf’である場合、フラグメントfとフラグメントf’を統合し新しいフラグメントf’’で置き換える。
図3は分断されているフラグメントを統合する例の説明図である。上段に示すように、塩基配列1ではフラグメントfの直後のフラグメントf’が塩基Aで分断され、塩基配列2ではフラグメントfの直後のフラグメントf’が塩基無しで分断され、塩基配列3はフラグメントfの直後のフラグメントf’が塩基Gで分断されている例である。ここで、301は分断されたフラグメント間に存在するギャップであり、SNPと考えられるものの例である。統合後のフラグメントf’’のフラグメント長L(f’’)は、L(f’’)=L(f)+L(f’)で定義する。統合後のフラグメントf’’を下段に示す。
フラグメントfと直後のフラグメントf’の、元の塩基配列中での距離が与えられれば、それらの中間のギャップに相当する領域301の性質を解析することができる。図3の例のように、フラグメントfと直後のフラグメントf’の距離が常に1以下でありギャップ301に存在する塩基が一意でない場合には、このギャップ301はSNPまたはシーケンシングエラーである。また、フラグメントfと直後のフラグメントf’の距離が、常にある定数A,Bと整数nを用いてn*A+Bと表現できれば、フラグメントfと直後のフラグメントf’の間にタンデムリピートの存在が示唆される。ギャップ301の配列をsとすれば、sを塩基数でAだけずらした配列とs自身を比較することにより、実際にマイクロサテライト等のタンデムリピートが存在するか否か判定できる。
ステップS202:全フラグメント列に基づく有向グラフGの構築
全てのフラグメント列に基づき、有向グラフGを構築する。図4はフラグメント列に基づき構築される有向グラフGを、図1の例から構築して示す図である。有向グラフGは、ノード401の集合Vと、ノード間を結ぶ有向辺(エッジ402)の集合Eから成る。このとき、E⊆V×Vである。
全てのフラグメント列に基づき、有向グラフGを構築する。図4はフラグメント列に基づき構築される有向グラフGを、図1の例から構築して示す図である。有向グラフGは、ノード401の集合Vと、ノード間を結ぶ有向辺(エッジ402)の集合Eから成る。このとき、E⊆V×Vである。
まず、ノードの集合Vは次のように構築する。
V={f|fをフラグメント列の要素にもつフラグメント列が存在}∪{s,t}
ただし、sおよびtは、それぞれ、配列の先頭と終端を象徴的に表すシンボルである。
ただし、sおよびtは、それぞれ、配列の先頭と終端を象徴的に表すシンボルである。
一方、エッジ(ノード間を結ぶ有向辺)の集合Eは次のように構築する。
E={(f,f’)|あるフラグメント列で、fはf’に先行(fの直後にf’が存在しなくても良い)}
∪{(s,f)|fはフラグメント列中の任意のフラグメント}
∪{(t,f)|fはフラグメント列中の任意のフラグメント}
−{(f,f’)|あるフラグメント列で、フラグメントf’はフラグメントfに先行(f’の直後にfが存在しなくても良い)}
エッジ構築後、出入りするエッジのないノードは、削除してもよい。集合Eと集合Vを構築する順番を入れ替え、エッジの無いノードは初めから作らないことにしてもよい。
∪{(s,f)|fはフラグメント列中の任意のフラグメント}
∪{(t,f)|fはフラグメント列中の任意のフラグメント}
−{(f,f’)|あるフラグメント列で、フラグメントf’はフラグメントfに先行(f’の直後にfが存在しなくても良い)}
エッジ構築後、出入りするエッジのないノードは、削除してもよい。集合Eと集合Vを構築する順番を入れ替え、エッジの無いノードは初めから作らないことにしてもよい。
各エッジ(f,f’)に、重みw403を設け、w(f,f’)=−score(f’)で定義する。ただし、w(f,t)=0と定める。さらに、任意の(f,f’)∈Eに対し変数D(f,f’)404を準備し、次の式を満足するように初期化する。
D(f,f’)=(全フラグメント中で、fがf’に先行する回数)
ステップS203:有向グラフGにおける閉路の除去
有向グラフG上を、深さ優先探査し、コルメン等の文献”Cormen, T.H., Leiserson, C.E., Rivest, R.L., Clifford, S.,Introduction to algorithms (second edition), chapter 22 and 24, MIT Press, Cambridge, MA, 2001.”で述べられている後退辺(文献中ではback edge)を探索する。なお、後退辺とは、有向グラフG上の深さ優先探索中に、あるノードuから出てその祖先ノードvへ入るエッジのことである。後退辺であるエッジが見つかったら、そのエッジを削除する。後退辺であるエッジを削除しても、vからuに至るパスが存在するので、有向グラフGの連結成分の数は不変である。深さ優先探査が終了した時点で、グラフGは、閉路の無い有向グラフになっている。このようなグラフはDAG(directed acyclic graph)と呼ばれている(前出:コルメン等の文献)。
ステップS203:有向グラフGにおける閉路の除去
有向グラフG上を、深さ優先探査し、コルメン等の文献”Cormen, T.H., Leiserson, C.E., Rivest, R.L., Clifford, S.,Introduction to algorithms (second edition), chapter 22 and 24, MIT Press, Cambridge, MA, 2001.”で述べられている後退辺(文献中ではback edge)を探索する。なお、後退辺とは、有向グラフG上の深さ優先探索中に、あるノードuから出てその祖先ノードvへ入るエッジのことである。後退辺であるエッジが見つかったら、そのエッジを削除する。後退辺であるエッジを削除しても、vからuに至るパスが存在するので、有向グラフGの連結成分の数は不変である。深さ優先探査が終了した時点で、グラフGは、閉路の無い有向グラフになっている。このようなグラフはDAG(directed acyclic graph)と呼ばれている(前出:コルメン等の文献)。
ステップS204:有向グラフGにおける重み最小経路の探索
有向グラフGを、前記コルメン等の文献に記載の方法TOPOLOGICAL−SORT(G)を用いてトポロジカルソートする。そして、同じく、コルメン等の文献に記載の方法DAG−SHORTEST−PATHS(G,w,s)を用いて、配列の先頭sから配列の終端tに至る最小重みの経路Poを探索する。ただし、ここで言う経路とは、有向グラフGのノードを順序をつけて並べたものであって、隣合うノード間には先行するノードから後のノードへのエッジが存在するものである。ある経路Pの重みを、P中でノードv1の次のノードをv2とするとき、式(1)で定義する。ただし、score(t)=0と定める。Poとは、式(1)を最大化する経路である。
有向グラフGを、前記コルメン等の文献に記載の方法TOPOLOGICAL−SORT(G)を用いてトポロジカルソートする。そして、同じく、コルメン等の文献に記載の方法DAG−SHORTEST−PATHS(G,w,s)を用いて、配列の先頭sから配列の終端tに至る最小重みの経路Poを探索する。ただし、ここで言う経路とは、有向グラフGのノードを順序をつけて並べたものであって、隣合うノード間には先行するノードから後のノードへのエッジが存在するものである。ある経路Pの重みを、P中でノードv1の次のノードをv2とするとき、式(1)で定義する。ただし、score(t)=0と定める。Poとは、式(1)を最大化する経路である。
ステップS205:Poを用いた同一グループに属する配列の判定
式(1)を最大化する経路Poから、配列の先頭s、配列の終端tを除いて得られるフラグメント列をFoとする。ラグメント列Foに現れる任意のフラグメントfについて、フラグメントfがあるフラグメント列Fiにn(f,Fi)回現れるならば、フラグメント列Fi毎に設けられる変数overlap(i)に、L(f)n(f,Fi)を加える。実装を簡単にするために、単にL(f)を加える方法もある。なお、overlap(i)の初期値は0とする。
式(1)を最大化する経路Poから、配列の先頭s、配列の終端tを除いて得られるフラグメント列をFoとする。ラグメント列Foに現れる任意のフラグメントfについて、フラグメントfがあるフラグメント列Fiにn(f,Fi)回現れるならば、フラグメント列Fi毎に設けられる変数overlap(i)に、L(f)n(f,Fi)を加える。実装を簡単にするために、単にL(f)を加える方法もある。なお、overlap(i)の初期値は0とする。
この処理が終わった段階で、overlap(i)の値は、式(2)となる。
一方、フラグメント列Fiが抽出された元の塩基配列Siの長さを|Si|とする。ここで、overlap(s)/|Si|が与えられたパラメータTを上回る場合には、フラグメント列Fiはフラグメント列Foと十分に良く重なると判断する。フラグメント列Foと十分によく重なると判断されたフラグメント列Fiを、互いに共通部分が多いフラグメント列のグループに属するものとする。このグループを、以下グループCと呼ぶ。
ステップS206:グループCのフラグメント列のアラインメント
グループCに属すると判定されたフラグメント列を、マルチプルアラインメントする。そのためには、トンプソン等の文献"Thompson, J.D., Plewniak, F., and Poch, O., A comprehensive comparison of multiple sequence alignment programs, Nucleic Acids Research, 27: 2682-2690, 1999."に挙げられている各種のシステムで活用されている方法を使用すればよい。
グループCに属すると判定されたフラグメント列を、マルチプルアラインメントする。そのためには、トンプソン等の文献"Thompson, J.D., Plewniak, F., and Poch, O., A comprehensive comparison of multiple sequence alignment programs, Nucleic Acids Research, 27: 2682-2690, 1999."に挙げられている各種のシステムで活用されている方法を使用すればよい。
また、アラインメントの質を若干落としつつも、高速に動作し、かつ実用上十分な質の結果が得られる方法として、本発明では次の方法を提供する。
フラグメント列Foは、ステップS205にて得られたグループCに属するフラグメント列と共通部分が多いと判定されているフラグメント列である。そこでフラグメント列Foに、グループCに属するフラグメント列を、ダルビン等の文献”Durbin, R., Eddy, S., Krogh, A., Mitchison, G., Biological sequence analysis: Probabilistic models of proteins and nucleic acids, chapter 2, Cambridge University Press, Cambridge, UK, 1998.”に記載の大域アラインメントアルゴリズムを用いてアラインメントする。その結果得られるコンセンサス配列を新たにフラグメント列Foと見なして、グループCの未処理で残っているフラグメント列に、同様の処理を行なう。これを、グループCから未処理のフラグメント列が無くなるまで、繰り返し実行する。
ステップS207:有向グラフGを、未処理フラグメント列に対し再構築
有向グラフGから、グループCのフラグメント列を削除する。その方法を2つ述べる。1つ目は、グループCに属するフラグメント列を除いたフラグメント列に対して、有向グラフGを作り直すことである。この場合、ステップS203も改めて実行し、有向グラフG中の閉路を除去する必要がある。2つ目は、以下の(1)−(2)の処理を行なう方法である。
(1)フラグメントf,f’を、式(1)を、最大化する経路Po中で隣接する2つのノードとする。
(2)エッジ(f,f’)が存在する場合には、変数D(f,f’)から1を減じる。変数D(f,f’)が0になったら、エッジ(f,f’)を削除する。その際、ノードfに出入りするエッジが無くなれば、ノードfをGから削除してもよい。同様に、ノードf’に出入りするエッジが無くなれば、ノードfを有向グラフGから削除してもよい。
有向グラフGから、グループCのフラグメント列を削除する。その方法を2つ述べる。1つ目は、グループCに属するフラグメント列を除いたフラグメント列に対して、有向グラフGを作り直すことである。この場合、ステップS203も改めて実行し、有向グラフG中の閉路を除去する必要がある。2つ目は、以下の(1)−(2)の処理を行なう方法である。
(1)フラグメントf,f’を、式(1)を、最大化する経路Po中で隣接する2つのノードとする。
(2)エッジ(f,f’)が存在する場合には、変数D(f,f’)から1を減じる。変数D(f,f’)が0になったら、エッジ(f,f’)を削除する。その際、ノードfに出入りするエッジが無くなれば、ノードfをGから削除してもよい。同様に、ノードf’に出入りするエッジが無くなれば、ノードfを有向グラフGから削除してもよい。
この方法で、エッジが削除されることはあっても新たに導入されることはないので、有向グラフGに新たな閉路が生じることはなく、有向グラフGはDAGのままに保たれる。
繰り返し
新たに再構築された有向グラフGを用いて、ステップS204−S207を繰り返す。残っているフラグメント列が存在する間、この繰り返しを行なう。
新たに再構築された有向グラフGを用いて、ステップS204−S207を繰り返す。残っているフラグメント列が存在する間、この繰り返しを行なう。
本発明の方法の処理時間
Lfをフラグメント列の長さ(フラグメント列のフラグメント数)の最大値、
Lcをグループのコンセンサス配列の長さの最大値、
Mを最大のグループサイズ、
Nをクラスタ数、
Fをフラグメントの数とする。
Lfをフラグメント列の長さ(フラグメント列のフラグメント数)の最大値、
Lcをグループのコンセンサス配列の長さの最大値、
Mを最大のグループサイズ、
Nをクラスタ数、
Fをフラグメントの数とする。
このとき、ステップS201に要する処理時間は、O(F)、
ステップS202に要する処理時間は、O(|V|+|E|)=O(|V|Lf2)=O(FLf2)、
ステップS203に要する処理時間は、O(|E|)=O(|V|Lf2)=O(FLf2)、
ステップS204を一回実行するために要する時間は、O(|V|+|E|)=O(FLf2)、
ステップS205を一回実行するために要する処理時間は、O(FLc+F)=O(FLc)、
ステップS206を一回実行するために要する処理時間は、O(MLcLf)、
ステップS207を一回実行するために要する処理時間は、O(MLf)である。
ステップS202に要する処理時間は、O(|V|+|E|)=O(|V|Lf2)=O(FLf2)、
ステップS203に要する処理時間は、O(|E|)=O(|V|Lf2)=O(FLf2)、
ステップS204を一回実行するために要する時間は、O(|V|+|E|)=O(FLf2)、
ステップS205を一回実行するために要する処理時間は、O(FLc+F)=O(FLc)、
ステップS206を一回実行するために要する処理時間は、O(MLcLf)、
ステップS207を一回実行するために要する処理時間は、O(MLf)である。
ステップS204−S207は、N回繰り返す。
ただし、本発明の方法全体で、処理するフラグメント列数はFであるため、
ステップS206を実行するために要する処理時間は、O(FLcLf)、
ステップS207を実行するために要する処理時間は、O(FLf)である。
ステップS206を実行するために要する処理時間は、O(FLcLf)、
ステップS207を実行するために要する処理時間は、O(FLf)である。
よって、本発明の方法全体の処理時間は、漸近的時間計算量で表すと、式(3)の通りとなる。
本発明の方法は、フラグメント数が極端に多くなると処理に時間がかかるが、フラグメント数は塩基数よりも少ないため、実用的には十分短い時間で処理が可能である。
本発明の方法を実現する装置
本発明は,前記方法を実行するための装置も提供する。図5に、本発明の方法を実現する装置の一例の説明図を示す。該装置は,主記憶装置506に上記方法を実行するプログラム505を格納し,さらに有向グラフGやフラグメント列を格納する。プログラム505は,中央演算装置501により実行される。計算結果は、ディスプレイ502を通じて表示されるか、補助記憶装置507に格納されるか、またはそれら両方の処理が行なわれる。
本発明は,前記方法を実行するための装置も提供する。図5に、本発明の方法を実現する装置の一例の説明図を示す。該装置は,主記憶装置506に上記方法を実行するプログラム505を格納し,さらに有向グラフGやフラグメント列を格納する。プログラム505は,中央演算装置501により実行される。計算結果は、ディスプレイ502を通じて表示されるか、補助記憶装置507に格納されるか、またはそれら両方の処理が行なわれる。
ユーザが直接フラグメント列やパラメータを与える場合には、入力はキーボード503およびポインティングデバイス504を用いて行なわれる。本発明の装置は、インターネットやイントラネット等のネットワークによって他の装置と通信可能に接続されていても良い。フラグメント列は、例えばファイルの形で与えられ、CD−R等の記録媒体に記録されたファイル、あるいはネットワークを介して受信したファイルを読み込むことによって主記憶装置506に取り込まれる。本明細書では、フラグメント列を装置の主記憶装置506に取り込むための手段を総称してフラグメント列入力手段という。
本発明の方法で得られた、フラグメント列のクラスタリングおよびマルチプルアラインメントの結果を表示する場合、見易さや解析の容易さの観点から、図1の例の下部のように、クラスタリングの結果得られたグループを象徴的に表すボックス103により区別し、マルチプルアラインメントにより対応するとわかったフラグメント104を、図1のように揃えて表示することが好ましい。
(実施例1)
本発明の方法を実装したシステムを作成し、本発明の方法で塩基配列のスプライシングパターンを解析できることを実証した。以下では、パラメータTの値を0.25、score(f)=L(f)N(f)とした場合の結果について述べる。また、有向グラフGの再構築には、1つ目の方法を用い、マルチプルアラインメントには本明細書で述べた高速手法を用いた。
本発明の方法を実装したシステムを作成し、本発明の方法で塩基配列のスプライシングパターンを解析できることを実証した。以下では、パラメータTの値を0.25、score(f)=L(f)N(f)とした場合の結果について述べる。また、有向グラフGの再構築には、1つ目の方法を用い、マルチプルアラインメントには本明細書で述べた高速手法を用いた。
米国公共機関のデータベースRefSeqに、2004年5月6日の時点で登録されているヒト遺伝子のcDNA配列のうち、”transcript variant”との表記があるもの全て(6357配列)を収集し、その中から無作為に選択した100〜2000配列について、非特許文献5の方法で得られたUEBをフラグメントとして、フラグメント列を構成し、本発明の方法によりクラスタリングおよびアラインメントを行った。プルット等の文献”Pruitt, K.D., and Maglott, D.R., RefSeq and LocusLink: NCBI gene-centered resources, Nucleic Acids Research 29:137-140, 2001.”におけるLocusLinkにおいて、同一遺伝子座の配列を同一クラスタと見なしたデータを正解データとし、本発明の方法によるクラスタリング結果の評価を行なった。正解データに含まれるクラスタの集合をC0、本発明の方法により生成されたクラスタの集合をC1とするとき、式(4)で表されるジャッカードインデックス−Jaccard index−J(C1,C2)を、評価指標として用いた。
図6はLocusLinkを正解データとした場合の本発明のクラスタリング結果の精度を示すグラフである。
ゲノム配列を用いずcDNA配列だけでクラスタリングを行なう場合、SNPやシーケンシングエラーによる配列のバリエーションや、ファミリー遺伝子や共通ドメインにより別遺伝子でも配列類似性が存在するといった問題がある。完全なクラスタリングは困難であり、ジャッカードインデックスで0.9を超える結果は、十分な精度であると言える。
図7は本発明の実施に要する処理時間を示すグラフである。2000配列の処理に要した処理時間は74.8秒で、本発明が実用的な処理速度を持つことがわかる。ただし、フラグメント列の数が増加するに従い、処理時間が急激に増大するため、多数の配列を扱う場合には注意が必要である。なお、この実施例においては、クロック周波数が3GHzのCPUを持ち、2GBの主記憶を搭載した計算機を使用した。
図8は、図1で考え方を説明した分析結果のディスプレイ502上の表示例を示す図である。フラグメントf1,f2,---,fnを横軸に表示し、フラグメント列F1,F2,---を縦軸に表示する。各フラグメント列について存在が確認できたフラグメントの位置を見やすいXYマトリクス表示で示す。さらに、クラスタリングの結果得られたフラグメント列のグループごとに分離して表示する。この結果、クラスタリングとマルチプルアラインメントの結果が、明確に表示できることになる。さらに、XYマトリクス表示の下段に、各フラグメントの塩基配列を表示すれば、解析者にとって参考となる。
本発明を、cDNA配列やゲノム配列の解析に用いることで、in silicoアノテーションが進み、創薬、診断等の技術開発に欠かせない有用遺伝子の発見が加速されるものと期待される。
103…互いに共通部分の多いフラグメント列のグループを表す矩形、104…互いに共通部分の多いフラグメント列のグループ中で複数のフラグメント列間で対応するフラグメントを表す矩形、301…分断されたフラグメント間に存在するギャップ、401…フラグメントから生成された、有向グラフのノード、402…フラグメント列から構築される有向グラフのエッジ、403…フラグメント列から構築される有向グラフの重みw、404…フラグメント列から構築される有向グラフの変数Dの値、501…中央演算装置、502…ディスプレイ、503…キーボード、504…ポインティングデバイス、505…本発明の方法を実行するためのプログラム、506…主記憶装置、507…補助記憶装置。
Claims (9)
- 与えられたフラグメント情報に基づき、それらのフラグメントをノードとしてもつ有向グラフを構築すること、
該有向グラフから閉路を削除した後、最小重み経路を同定すること、
該経路に対応するフラグメント列をもとに、互いに共通部分の多い配列を同定すること、よりなることを特徴とするフラグメント列解析方法。 - 前記フラグメント情報において、あるフラグメントf1またはf2を含むすべてのフラグメント列において、フラグメントf1の直後にフラグメントf2が続く場合に、フラグメントf1とフラグメントf2を統合し、新たなフラグメントとする請求項1記載のフラグメント列解析方法。
- 前記フラグメント情報において、あるフラグメントf1またはf2を含むすべてのフラグメント列において、フラグメントf1の直後にフラグメントf2が続く場合に、フラグメントf1とフラグメントf2の元の塩基配列中での距離が1以下であり、フラグメントf1とフラグメントf2の間にある塩基が一意でない場合、フラグメントf1とフラグメントf2の間にSNPが存在すると判定する請求項1記載のフラグメント列解析方法。
- 前記フラグメント情報において、あるフラグメントf1またはf2を含むすべてのフラグメント列において、フラグメントf1の直後にフラグメントf2が続く場合に、フラグメントf1とフラグメントf2の元の塩基配列中の距離がある定数A、Bと整数nによりn*A+Bと常に表現できる場合には、フラグメントf1とフラグメントf2の間にある部分配列sを塩基数でAずらした配列と部分配列sを比較することによって、タンデムリピートの存在を判定する請求項1記載のフラグメント列解析方法。
- 前記フラグメント情報において、与えられたフラグメント列中のフラグメントをノードとし、あるフラグメント列で、あるフラグメントf1があるフラグメントf2に先行するとき、ノードf1とノードf2の間にエッジを設ける請求項1記載のフラグメント列解析方法。
- 前記フラグメント情報において、互いに共通部分を多く持つとされたフラグメント列のマルチプルアラインメントを行なう請求項1記載のフラグメント列解析方法。
- 前記フラグメント情報において、前記最小重み経路を、フラグメント列のマルチプルアラインメントにおける初期値とする請求項1記載のフラグメント列解析方法。
- 与えられたフラグメント情報に基づき、それらのフラグメントをノードとしてもつ有向グラフを構築すること、
該有向グラフから閉路を削除した後、最小重み経路を同定すること、
該経路に対応するフラグメント列をもとに、互いに共通部分の多い配列を同定すること、よりなることを特徴とするフラグメント列解析プログラム。 - 与えられたフラグメント情報に基づき、それらのフラグメントをノードとしてもつ有向グラフを構築すること、
該有向グラフから閉路を削除した後、最小重み経路を同定すること、
該経路に対応するフラグメント列をもとに、互いに共通部分の多い配列を同定すること、よりなる処理を経て解析されたフラグメント列解析結果を
フラグメントf1,f2,---,fnと、フラグメント列F1,F2,---とをXYマトリクスで表示するとともに、各フラグメント列について存在が確認できたフラグメントについてXYマトリクス交点の位置にフラグメントの存在を示す表示を行なうことを特徴とするフラグメント列解析結果の表示方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004164387A JP2005346340A (ja) | 2004-06-02 | 2004-06-02 | フラグメントによる配列クラスタリング・アラインメント方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004164387A JP2005346340A (ja) | 2004-06-02 | 2004-06-02 | フラグメントによる配列クラスタリング・アラインメント方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005346340A true JP2005346340A (ja) | 2005-12-15 |
Family
ID=35498664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004164387A Pending JP2005346340A (ja) | 2004-06-02 | 2004-06-02 | フラグメントによる配列クラスタリング・アラインメント方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005346340A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008225689A (ja) * | 2007-03-09 | 2008-09-25 | National Institute Of Agrobiological Sciences | 遺伝子クラスタリング装置、遺伝子クラスタリング方法およびプログラム |
JP2010170287A (ja) * | 2009-01-22 | 2010-08-05 | Hitachi Ltd | データ抽出システム |
JP2016536698A (ja) * | 2013-08-21 | 2016-11-24 | セブン ブリッジズ ジェノミクス インコーポレイテッド | 配列をアラインするための方法およびシステム |
-
2004
- 2004-06-02 JP JP2004164387A patent/JP2005346340A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008225689A (ja) * | 2007-03-09 | 2008-09-25 | National Institute Of Agrobiological Sciences | 遺伝子クラスタリング装置、遺伝子クラスタリング方法およびプログラム |
JP2010170287A (ja) * | 2009-01-22 | 2010-08-05 | Hitachi Ltd | データ抽出システム |
JP2016536698A (ja) * | 2013-08-21 | 2016-11-24 | セブン ブリッジズ ジェノミクス インコーポレイテッド | 配列をアラインするための方法およびシステム |
JP2020042813A (ja) * | 2013-08-21 | 2020-03-19 | セブン ブリッジズ ジェノミクス インコーポレイテッド | 配列をアラインするための方法およびシステム |
US11211146B2 (en) | 2013-08-21 | 2021-12-28 | Seven Bridges Genomics Inc. | Methods and systems for aligning sequences |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11756652B2 (en) | Systems and methods for analyzing sequence data | |
US11810648B2 (en) | Systems and methods for adaptive local alignment for graph genomes | |
You et al. | GOLabeler: improving sequence-based large-scale protein function prediction by learning to rank | |
US10192026B2 (en) | Systems and methods for genomic pattern analysis | |
US20230357842A1 (en) | Systems and methods for mitochondrial analysis | |
Reinert et al. | Alignment of next-generation sequencing reads | |
Ciriello et al. | AlignNemo: a local network alignment method to integrate homology and topology | |
Frise et al. | Systematic image‐driven analysis of the spatial Drosophila embryonic expression landscape | |
Li et al. | Prediction of protein domain with mRMR feature selection and analysis | |
JP2017500004A (ja) | 遺伝子試料について遺伝子型解析するための方法およびシステム | |
CN113555062B (zh) | 一种用于基因组碱基变异检测的数据分析系统及分析方法 | |
US20180247016A1 (en) | Systems and methods for providing assisted local alignment | |
US20220254444A1 (en) | Systems and methods for detecting recombination | |
Blanchette | Computation and analysis of genomic multi-sequence alignments | |
JP2016224865A (ja) | 系統樹を構築する装置、方法およびシステム | |
JP2005346340A (ja) | フラグメントによる配列クラスタリング・アラインメント方法 | |
US20040072204A1 (en) | Base sequence cluster generating system, base sequence cluster generating method, program for performing cluster generating method, and computer readable recording medium on which program is recorded and system for providing base sequence Information | |
Atasever et al. | 3-State Protein Secondary Structure Prediction based on SCOPe Classes | |
Bathoorn et al. | Frequent episode mining to support pattern analysis in developmental biology | |
JP4991287B2 (ja) | 特異的塩基配列探索方法 | |
JP2004295606A (ja) | 遺伝子機能推定装置、遺伝子機能推定方法、および、プログラム | |
Liu et al. | Sequence similarity alignment algorithm in bioinformatics: Techniques and challenges | |
Majhi et al. | Artificial Intelligence in Bioinformatics | |
WO2016040287A1 (en) | Variant-calling data from amplicon-based sequencing methods | |
Kaniwa | A kmer-based parallel algorithm for pattern searching in DNA sequences on shared-memory model |