JP2005176730A6

JP2005176730A6 - ｃＤＮＡ配列をゲノム配列にマッピングする方法

Info

Publication number: JP2005176730A6
Application number: JP2003423065A
Authority: JP
Inventors: 知弘安田; 徹久光
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Filing date: 2003-12-19
Publication date: 2006-04-06

Abstract

【課題】ｃＤＮＡ配列を、ゲノム配列上に高速にマッピングする。
【解決手段】ゲノム配列を、互いに重ならない連続するK塩基の文字列(K-mer)に分割し、各K-merが出現するゲノム配列上の座標をテーブルに格納する。このテーブルを利用して、ｃＤＮＡ上のすべてのK-merとゲノム配列上のK-merで完全一致するものとを組にする。K-merの組のうち、偶然の一致でなく正しいマッピングに相当する組を、数列中の最長単調増加部分列を抽出する問題の効率的な解法を利用して高速に同定する。こうして得られたマッピングに相当するK-merの組を配列アラインメントによって塩基の対応へ拡張した後、スプライスサイトにおける補正を行う。さらに、最適なパラメータ選択を可能とするため、リアルタイム応答が可能な対話式インタフェースを提供する。
【選択図】図１

Description

本発明は、ｃＤＮＡ配列を高速にゲノム配列上にマッピングする方法に関する。

2000年6月に，国際コンソーシアム及び米国セレラ社がヒトゲノムのドラフト配列決定完了を宣言し，2003年中には配列決定が完了する見込みである(非特許文献１)。ゲノム配列の解析だけでは得られない情報を獲得するために，生体内で発現している遺伝子の配列を直接解析できるｃＤＮＡ配列解析がその重要性を増しつつあり，我が国ではヒトｃＤＮＡ配列を取得する国家プロジェクト「完全長ｃＤＮＡ構造解析」(Full-length human cDNA sequencing project, http://www.nedo.go.jp/bio-e/)が2001年まで3年間行われたほか，米国やドイツでも同様のプロジェクトが進行している(非特許文献２)。

ｃＤＮＡ配列のゲノム配列上での位置を同定し，１塩基ごとにｃＤＮＡ配列とゲノム配列の対応関係を得ること，すなわちｃＤＮＡ配列のゲノム配列へのマッピングは，生体現象を解明するために重要である。その理由は，以下の通りである。まず，ｃＤＮＡ配列は発現している遺伝子の配列そのものであるため，遺伝子に相当するゲノム配列上の領域を同定できるほか，関心のある特定の遺伝子のゲノム上での位置を知ることもできる。遺伝子のゲノム上での位置が明らかになることで，遺伝子の発現制御を行うプロモーター配列の解析も可能となる。さらに，遺伝子のエクソン・イントロン構造は，ゲノム配列やｃＤＮＡ配列を個々に解析するだけでは同定が困難であるが，ｃＤＮＡ配列をゲノム配列にマッピングすれば正確に同定できる。

公共データベースに蓄積され公開されているｃＤＮＡ配列の量は増加の一途を辿っており，「完全長ｃＤＮＡ構造解析」プロジェクトでは，平均2273塩基の配列が20,894配列( (株)へリックス研究所及び東京大学医科学研究所取りまとめ分)が配列決定されたほか，ｃＤＮＡ配列の一部を配列決定したＥＳＴと呼ばれる配列のデータ量は，米国ＮＣＢＩのｄｂＥＳＴデータベース(非特許文献３)に、ヒトだけで500万配列以上が蓄積されている。一方，ゲノム配列も約30億塩基にもなる巨大な配列である。こうした膨大な配列データを入力とし，マッピングを行うためには，大規模な配列データを高速に処理可能なシステムが必要である。

ｃＤＮＡ配列のゲノム配列へのマッピングに利用可能なツールとしては，ＢＬＡＳＴ(非特許文献４)，ＭｅｇａＢＬＡＳＴ(非特許文献５)，ｓｉｍ４(非特許文献６)，ＢＬＡＴ(非特許文献７)，Ｓｑｕａｌｌ(非特許文献８)が知られている。

ＢＬＡＳＴ，ＭｅｇａＢＬＡＳＴは，問い合わせ配列に類似する配列をデータベース中から探索する一般的なソフトウェアであり、ゲノム配列へのマッピングを目的に開発された技術ではないため，遺伝子のエクソン・イントロン構造や、イントロン配列は多くの場合ＧＴで始まりＡＧで終わることを全く考慮していない。したがって，そのままではマッピングに用いることはできず，マッピングに必要な処理を行う後処理システムの開発が必須となる。

遺伝子のエクソン，イントロン構造等を考慮したマッピングを行うツールとしてはｓｉｍ４が広く使用されている。しかし，非特許文献８における調査によれば、ｓｉｍ４は後に開発されたＢＬＡＴに比べ7倍，Ｓｑｕａｌｌに比べ400倍低速であり，大規模な配列情報のアノテーションに使用するのは困難である。

カルフォルニア大学サンタクルス校で開発されたＢＬＡＴは，処理速度に定評のあるツールで，主記憶の少ない安価な計算機環境でも動作可能である。しかし，後述のＳｑｕａｌｌほどの高速処理はできない。

東京大学で開発されたＳｑｕａｌｌの処理速度はＢＬＡＴを大きく上回る。しかし，Ｓｑｕａｌｌは大容量主記憶を前提としており，ヒトゲノムのように大規模なゲノム配列を扱う場合には大規模な計算機でなければ動作させることができないと考えられる。

このほか、理化学研究所からｃＤＮＡ配列のゲノム配列へのマッピングに関する特許が出願されている(特許文献１)。しかしこの技術は、ｃＤＮＡ配列とゲノム配列の類似領域を検索する処理をＢＬＡＳＴ等の外部プログラム依存しており、マッピング処理全体の一部のみを対象としたものである。

特開2001-155009号公報、発明者: 林崎良英(理化学研究所)、「エクソンイントロンジャンクション決定装置及び遺伝子領域決定装置並びにそれらの決定方法」 International Human Genome Sequencing Consortium, Initial sequencing and analysis of the human genome, Nature, 409:860-921, 2001; Venter, J.C., et al., The sequence of the Human Genome, Science, 291:1304-1351, 2001 Strausberg, R.L., Feingold, E.A., Klausner, R.D., Collins, F.S., The Mammalian Gene Collection, Science, 286:466-457, 1999; Wiemann, S., et al., Toward a Catalog of Human Genes and Proteins: Sequencing and Analysis of 500 Novel Complete Protein Coding Human cDNAs, Genome Res., 11(3):422-435, 2001 Boguski, M.S., Lowe, T.M., Tolstoshev, C.M., dbEST - database for "expressed sequence tags", Nat. Genet., 4(4):332-3,1993 Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z., Miller, W., and Lipman, D.J., Gapped BLAST and PSI-BLAST: a new generation of protein database search programs, Nuc. Acid Res. 25:3389-3402, 1997. Zhang, Z., Schwartz, S., Wagner, L., and Miller, W., A Greedy Algorithm for Aligning DNA Sequences, J. Comput. Biol., 7:203-214, 2000.

Florea, L., Hartzell, G., Hang, Z., Rubin, G.M., and Miller, W., A Computer Program for Aligning a cDNA Sequence with a Genomic DNA Sequence, Genome Res., 8:967-974, 1998. Kent, J.W., BLAT - The BLAST-like Alignment Tool, Genome Res., 12:656-664, 2002. Ogasawara, J. and Morishita, S., Fast and Sensitive Algorithm for Aligning ESTs to Human Genome, Proceedings of the IEEE Computer Society Bioinformatics Conference, 2002. Gusfield, D., Algorithms on strings, trees, and sequences. Computer Science and Computational Biology, Cambridge University Press, New York, 1997 Burset, M., Seledtsov, I.A., and Solovyev, V.V., SpliceDB: database of canonical and non-canonincal mammalian splice sites, Nuc. Acid. Res., 29:255-259, 2001 Pruitt, K.D. and Maglott, D.R., RefSeq and LocusLink: NCBI gene-centered resources, Nuc. Acid. Res., 29:137-140, 2001 Rains, E.M., Increasing subsequences and the classical groups, Electr. J. Com. 5(1), 1998

ｃＤＮＡ配列をゲノム配列へマッピングする際に解決すべき課題について述べるために，ｃＤＮＡ配列とゲノム配列の対応関係を説明する。

ゲノム上の遺伝子は，図２に示すように，まずｍＲＮＡ前駆体へと転写され，さらにスプライシングと呼ばれる過程でエクソンと呼ばれる領域だけが残されｍＲＮＡが生成される。このとき除去される領域は，イントロンと呼ばれる。ｍＲＮＡは不安定で壊れやすい物質であるため，配列決定などの解析を行う際には、逆転写と呼ばれる過程を経てＤＮＡに変換することが多い。このとき得られるＤＮＡが，ｃＤＮＡ(complementary ＤＮＡ)である。したがって，ｃＤＮＡ配列はゲノム配列の一部分を抜き出し，さらに一部を間引いた配列といえる。ただし，ｃＤＮＡ配列とゲノム配列は同一の個体について決定されるわけではないため，個体差による差異があるほか，配列決定のエラーによる差異もありうる。

したがって，ｃＤＮＡ配列をゲノム配列へ高速にマッピングするためには，ｃＤＮＡ配列とゲノム配列のエクソン部分が類似する位置を同定すること、ｃＤＮＡ配列とゲノム配列を比較し，ある程度配列の差異を許容しつつ配列のアラインメントを行うこと、及び、ｃＤＮＡ配列中のエクソン境界を，ゲノム配列と比較することにより同定することを、高速に遂行することが課題となる。

本発明は、以下のようなステップでｃＤＮＡ配列をマッピングする。
（１）ゲノム配列を、互いに重ならないＫ塩基の部分文字列、すなわちnon-overlapping K-merに分解し、各K-merが出現するゲノム上の位置をテーブルに登録する。
（２）ｃＤＮＡ配列上で位置ｐの K-merが，完全一致するゲノム配列上のK-merの位置をｑとするとき，数値ｐとｑのペア(ｐ,ｑ)を作成する。
（３）ｃＤＮＡ上で位置ｐのK-merに関する全てのペア(ｐ,ｑ)から成る列を，ｑに関し降順に整列して得られる列をＳ(ｐ)とする。Ｓ(ｐ)は，要素数0の列であってもよい。
（４）各Ｓ(ｐ)をｐの昇順に連結したペアの列を構成し，Ｓとする。すなわちＳ=Ｓ(0)Ｓ(1)Ｓ(2)...Ｓ(ｎ−１)である。ここに，ｎはｃＤＮＡ配列上のoverlapping K-merの数である。
（５）Ｓから，部分列Ｓ’を抽出する。ただし，Ｓ’においてｑの値は昇順であり，かつＳ’はこうしたｑが昇順になる部分列のうち最長のものでなければならない。
（６）ペアの列Ｓ’を先頭から読み，ペア (ｐ,ｑ)が現れたら，ｃＤＮＡ配列上の位置ｐのK-merと，ゲノム配列上の位置ｑにあるK-merの組を選択する。Ｓ’を読み終わった時点で選択されなかったK-merの組は，棄却する。
（７）以上の処理で得られたK-merの対応関係を、非特許文献2の文字列比較方法により配列上の任意の対応関係へ拡張し、さらにイントロン配列がＧＴで開始しＡＧで終了するよう、アラインメントの補正を行う。

本発明によれば、パーソナルコンピュータ程度の小規模な計算機システムで、ｃＤＮＡ配列のゲノム配列への高速なマッピングが可能となる。

本発明の方法の概要を図３に記す。なお，本明細書でK-merとは、長さがＫ塩基の短い塩基配列を表す。Ｋの大きさは、高々30塩基程度である。

［ゲノム配列のインデキシング］
始めに，ゲノム配列上の各K-merが出現する位置を，テーブルに登録する。本発明では，ゲノム配列上の全K-merではなく，Ｋ塩基ごとに１つのK-merをテーブルに記録し，隣接するK-merが互いに重ならないようにする。Ｋ=3である場合の例を，図４に示す。ゲノム配列中の出現回数が，ユーザから与えられたパラメータを上回るK-merは，リピート配列の一部であると考え，以降の処理では無視する。図4の例で，仮にこの出現回数のユーザパラメータが2であるとすれば，「ＴＣＣ」は頻度が3でユーザパラメータ2より大きいため，以降の処理では無視される。

ゲノム上のK-merのインデキシングには，図４のようにゲノム配列上でＫ塩基ごとにK-merを抽出する方法，すなわちnon-overlapping K-merを用いる方法と，図５のようにゲノム上のあらゆるK-merをテーブルに登録する方法，すなわちoverlapping K-merを用いる方法の2種類がある。Non-overlapping K-merを用いる場合には，配列の誤りがあった場合にK-merの一致を見落とす可能性が高くなる欠点があるものの，消費メモリがoverlapping K-merに比べおよそ１/Ｋに抑えられるという利点があるため、本発明では消費主記憶が少なくて済むnon-overlapping K-merによるインデキシングを採用した。

［ｃＤＮＡ配列とゲノム配列上で完全一致するK-merの組の列挙］
上述のテーブルを参照し，ｃＤＮＡ配列上の全K-merについて，ゲノム配列上のK-merで完全一致するものを探索し，列挙する。ｃＤＮＡ配列上のK-merはoverlapping K-merとする。テーブルに登録されているゲノム配列上のK-merはnon-overlapping K-merであるため，エクソン境界を除き，ｃＤＮＡ配列上のK-merはＫ塩基ごとにゲノム配列上のK-merと完全一致が見られると期待される。ただし，ＳＮＰ等による差異のために，エクソン境界以外でもｃＤＮＡ配列とゲノム配列上のK-merが完全一致しない場合がありうる一方，配列の偶然一致のために，ゲノム配列上で遺伝子の位置と無関係なK-merの完全一致が見られる場合もある(図６)。

［完全一致するK-merの確からしい組の選択］
ｃＤＮＡ配列上とゲノム配列上で完全一致するK-merの，偶然の一致を含む対応関係のうちで，図１の太い矢印109で示したような確からしいものだけを選択する必要がある。本発明では，同一ストランドの場合、ｃＤＮＡ配列上で上流にあるK-merは，ゲノム配列上でも上流にあることに着目した。なお、本発明における完全一致するK-merの確からしい組の選択方法の概要を、図１４に示した。

本発明の方法では，与えられた数列中の最長の単調増加部分数列を抽出する問題の解法を利用し，K-merの選択を行う。与えられた数列中の，最長の単調増加部分数列を抽出する問題は「Longest increasing subequence promblem」と呼ばれている。以下では，最長の単調増加部分数列(longest increasing subsequence)を「ＬＩＳ」と略記する。例えば，数列 <551, 323, 458, 961, 725, 239, 119, 866, 647, 1031>に対して，<323, 458, 725, 866, 1031>はＬＩＳである。ＬＩＳは，与えられた数列長nに対し，O(n log n)の処理時間で求められることが知られている(非特許文献９)。以下で，ＬＩＳを求めるアルゴリズムを応用し，K-merの選択を行なう本発明の方法を説明する。

ｃＤＮＡ配列上で位置ｐの K-merと，ゲノム配列上のK-merの位置ｑのK-merが完全一致するとき，こうしたK-merの組ひとつについて、数値ｐとｑのペア(ｐ,ｑ)をひとつ作成する。次に、ｃＤＮＡ上で位置ｐのK-merに関する全てのペア(ｐ,ｑ)から成る列を，ｑに関し降順にソートして得られる列をＳ(ｐ)とする。Ｓ(ｐ)は，要素数0の列であってもよい。各Ｓ(ｐ)をｐの昇順に連結したペアの列を構成し，Ｓとする。すなわちＳ=Ｓ(0)Ｓ(1)Ｓ(2)...Ｓ(ｎ−１)である。ここに，ｎはｃＤＮＡ配列上のoverlapping K-merの数である。

こうして構築した列Ｓから，部分列Ｓ’を抽出する。Ｓ’は、ｑの値は昇順に整列されており，かつＳ’はこうしたｑが昇順になる部分列のうち最長のものという性質を満足しなければならない。このようなペアの列Ｓ’を抽出後、列Ｓ’を先頭から読み，ペア (ｐ,ｑ)が現れたら，ｃＤＮＡ配列上の位置ｐのK-merと，ゲノム配列上の位置ｑにあるK-merの組を選択する。Ｓ’を読み終わった時点で選択されなかったK-merの組は，棄却する。

上記K-mer選択方式の具体例を説明する。図６の，ｃＤＮＡ配列上でｐ=27の位置にあるK-merはゲノム上でｑ=323, 551の位置のK-merに対応し，以下ｐ=62のK-merはｑ=458のK-mer，ｐ=100ではｑ=119, 239, 725, 961，ｐ=138ではｑ=647, 866，ｐ=167ではｑ=1031のゲノム配列上のK-merと完全一致している状況について考察する。

まず，ｃＤＮＡ配列上の各K-merについて，ペア(ｐ,ｑ)のリストを作成し，ｑについて降順にソートする。ｃＤＮＡ上の位置ｐのK-merに対応するリストをＳ(ｐ)とすれば，要素数が0でない列Ｓ(ｐ)は，以下の5つである。
S (27)=<(27,551),(27,323)>
S (62)=<(62,458>
S (100)=<(100,961),(100,725),(100,239),(100,119)>
S(138)=<(138,866),(138,647)>
S (167)=<(167,1031)>

次に，これらを連結したリストＳ= Ｓ(0)Ｓ(1)Ｓ(2)...Ｓ(ｎ−１)を構成する。
S=<(27,551),(27,323),(62,458),(100,961),(100,725),(100,239),(100,119),(138,866),(138,647),(167,1031)>

このＳの部分列で，ｑが単調増加する最長の部分列を，ＬＩＳの解法を用いて同定する。次の式の[]で囲まれた部分が，ｑが単調増加する最長のＳの部分列である。
S=<(27,551),[(27,323),(62,458)],(100,961),[(100,725)],(100,239),(100,119),[(138,866)],(138,647),[(167,1031)]>

その部分列を取り出し，Ｓ’とする。
S’=<(27,323),(62,458),(100,725),(138,866),(167,1031)>

Ｓ’を先頭から読み進め，各ペアについてｃＤＮＡ配列上とゲノム配列上のK-merの完全一致の組を１つずつ選択していく。ｃＤＮＡ配列上で位置ｐ=27のK-merをゲノム上の位置ｑ=323のK-merに対応させ，ｃＤＮＡ配列上でｐ=62，100，138，167のK-merはゲノム上の位置ｑ=458，725，866，1031のK-merに対応させる。これにより，図１のように，確からしいK-merの完全一致の組が選択される。

この手法により，確からしいK-merの組が選択される理由は，次の通りである。ステップ2において，ｑについて降順ソートを行っているため，Ｓ中で同一のｐに対応するペアの列は、ｑの値が降順の列になる。したがって，Ｓ’には，同一のｐに対応するペアは，高々１つしか含まれないことが保証される。すなわち、ｃＤＮＡ配列上に任意のK-merはゲノム上の高々１ヶ所にしかマッピングされない。さらに，ステップ4においてｑが昇順になるようにＳ’を構成しているから，ｃＤＮＡ配列とゲノム配列で順序が同一となるK-merの位置が抽出される。ｑが昇順となるK-merの列のうち，最も長いものが，最も確からしいマッピングと考えられる。

この手順で得られたK-merの列の長さをｎ，ｃＤＮＡ配列長をＱ、Ｔをユーザの与えるパラメータとするとき，ｎＫ/Ｑ≧Ｔが満足されれば，ｃＤＮＡ配列上の十分な数のK-merがゲノム配列上のK-merに対応付けられたと考え，検討対象となっているｃＤＮＡ配列がゲノム配列にマッピングできたと判断する。

ゲノム配列にマッピングできないｃＤＮＡ配列であっても，ｎＫ/Ｑ≧Ｔを満足するK-merの列が偶然にできてしまう可能性を減らすために，本発明ではゲノム配列上に幅Ｗ塩基のウィンドウを設け，ウィンドウの範囲内に入ったK-merだけを処理の対象とする。隣り合うウィンドウはＷ/２塩基の重なりを持つこととし，ウィンドウ境界で遺伝子領域が分割されることを防ぐ。ウィンドウ内に，ｃＤＮＡ配列上のK-merと完全一致するK-merの数が少なく，ｎＫ/Ｑ≧Ｔが満たされる見込みが無い場合には，そのｃＤＮＡ配列はマッピング不可能と判断してK-merの選択処理を打ち切る。これにより、不必要な場合はＬＩＳを計算する処理を省略できるため、全体の処理時間が削減できる。

［ｃＤＮＡ配列とゲノム配列のアラインメント］
上記の手順により、ｃＤＮＡ配列とゲノム配列上の完全一致するK-merの組のうち、マッピングに対応するものが選択されたら、その周辺でｃＤＮＡ配列とゲノム配列の配列比較を行い，塩基配列のアラインメントを構築する(図７)。ｃＤＮＡ配列とゲノム配列はエクソン領域であっても完全に一致するとは限らず，ＳＮＰ等によりある程度の差異が含まれることがある。したがって，配列比較には，ある程度の配列の差異を許容した高速なアルゴリズムが求められる。そうしたアルゴリズムの一例として、非特許文献２に記載のアルゴリズムが挙げられる。配列比較の際，完全一致するK-merの組が近傍にある場合，同一の領域で2回以上アラインメントの処理を行うことを防ぐ必要がある(図８)。そのためには，配列比較を行う区間を，隣接するK-mer及び既にアラインメントされた領域の手前までに制限すればよい。配列比較により，隣接するK-merを中心とする領域と接することがわかった場合には，それらを１つのエクソンと見なし統合する。

［アラインメントのスプライスサイトにおける補正］
図９に示すように，ゲノム上のイントロン領域は，ほとんどの場合ＧＴで始まりＡＧで終わる。Ｂｕｒｓｅｔらの調査によると，98.71%がこの規則に従う(非特許文献１０)。ｃＤＮＡ配列とゲノム配列とのアラインメントにおいて，図１０のように曖昧さがある場合には，ｃＤＮＡ配列上でエクソン境界の位置を移動させることで，ミスマッチや挿入・削除の導入を防ぎつつ，イントロンがＧＴで始まりＡＧで終わるようアラインメントを構成する。なお、イントロンの開始位置・終了位置の塩基は、ＧＴ−ＡＧの場合のほか、わずかながらＧＣ−ＡＧの場合もある。そのため、補正を行ってもＧＴ−ＡＧとできない場合、同様の処理によりイントロンがＧＣで始まりＡＧで終わるアラインメントの構築を試みることが好ましい。

［本発明の方法の、統計的有意性の検討］
まず、ゲノム配列上にマッピングされるべきｃＤＮＡ配列が、本発明の方法により高い確率でマッピングされることを示す。ｃＤＮＡ配列とゲノム配列の相同性の高い領域においてｃＤＮＡ配列とゲノム配列のある塩基が一致する確率をＭ、マッピングされるK-merの数をｎ、ｎが取りうる最大の値をＮ、ｃＤＮＡ配列の長さをＱとする。マッピング可能なｃＤＮＡ配列が、本発明の方法でマッピング可能と判定される確率をＰ(ｎ≧ＱＴ/Ｋ)とすれば、Ｐ(ｎ≧ＱＴ/Ｋ)は下記数１を満たす。ここに、ｐ=Ｍ^Ｋ(ＭのＫ乗)である。

全長ｃＤＮＡ配列の長さは多くの場合2000塩基程度であることを考慮しＱ=2000とし、Ｔ=0.5とした場合に、Ｐ(ｎ≧ＱＴ/Ｋ)を計算した結果を表１に示す。

正しいマッピングに対応するK-merのｎ個の組は、本発明の正しいK-merを選択する過程を経ても、ｎ個が残るはずである。つまり、ｎ≧ＱＴ/Ｋを満足すれば、そのｃＤＮＡ配列は本発明の方法によりマッピング可能と判定される。ゲノム配列との類似性が96%以上のｃＤＮＡ配列であれば、Ｋ≦13のとき、99%以上の確率でマッピングは可能であるとわかる。なお、表１の計算にあたり、ＮをＱ/Kを超えない最大の整数で近似した。実際のＮの値は、ｃＤＮＡ配列エクソン境界の数と位置に依存し、Ｑ/Kよりも若干小さい値となる。また、ゲノム上のウィンドウの大きさＷは、十分な大きさであると仮定した。非特許文献７の技術の解析結果によれば、ＲｅｆＳｅｑデータベース(非特許文献１１) の配列をゲノム配列上にマッピングした場合に、マッピングされた領域のゲノム配列上での幅は最大で約230万塩基で、ウィンドウの大きさＷは数百万塩基程度あればよいことがわかる。

次に、偶然に生じる一致が原因で、ｎＫ/Ｑ≧Ｔが満足されてしまう確率が少ないことを示す。長さがＱ塩基のｃＤＮＡ配列とゲノム配列上の幅Ｗのウィンドウの間に、偶然の一致が生じる回数の期待値は、非特許文献７と同様の議論で、下記数２で表される。複数のW,Kの値について、具体的に数値を計算した値を下記表２に示した。

これは平均値であって、もっと多数の完全一致が生じる場合もあるが、その場合でもｎＫ/Ｑ≧Ｔが成立する可能性は、ほとんどないことを説明する。一般に、長さがｎのランダムな順列に存在する最長の単調増加部分列の長さＬｎは、下記数３で表される確率分布に従うことが知られている(非特許文献１２)。しかし、この数式を直接計算するのは困難であるため、本明細書では、下記数４（ランダムな順列に存在する最長単調増加部分列の長さが、ｋ以上である確率の上限）により、Ｌｎが長さｋ以上になる確率を評価する。この式が成り立つ根拠は、Ｌｎ≧ｋならば、長さｋ以上の単調増加部分列が少なくともひとつ存在し、長さｋの部分列の数がｎ!/(k! (N-k)!) で、それらの各々が単調増加列になっている確率がそれぞれ１/ｋ!だからである。

下記表３に、K-merの完全一致が平均の3倍の場合にｎＫ/Ｑ≧Ｔが確率の上限を示した。上限の値は、数４の右辺（不等号の右側の部分）の値とした。分散の大きさを考慮すれば、実際にK-merの完全一致が平均の3倍にもなることは、ほとんどないと考えられる。表３から、前記のパラメータに関しては、偶然にｎＫ/Ｑ≧Ｔが満足されることはほとんどないことがわかる。なお、Ｐ(Ｌｎ≧ｋ)≦Ｐ(Ｌｎ’≧ｋ) (ｎ’≧ｎ)であるから、完全一致の組の数がもっと少ない場合を考慮しても、十分な長さの完全一致する組の列ができてしまう確率は十分に小さい。

［実施例１］
本発明の方法を実装したプロトタイプシステムを構築し、ＲｅｆＳｅｑデータベース (非特許文献１１) のｃＤＮＡ配列を22番染色体のゲノム配列へマッピングすることにより，22番染色体の配列を同定可能か検証した。ＲｅｆＳｅｑ配列は，2003年1月26日に更新された配列を使用した。なお，ＲｅｆＳｅｑのｃＤＮＡ配列は，対応する染色体の番号が既知であり，22番染色体に由来する配列は，453配列であった。

まず，22番染色体に由来するＲｅｆＳｅｑのｃＤＮＡ配列を，22番染色体にマッピング可能か否かを評価した。その結果，453配列中マッピングできなかった配列は７本のみであり，(453−7)/453=98.5%のｃＤＮＡ配列をマッピングすることに成功した。

一方，全ＲｅｆＳｅｑ配列の22番染色体へのマッピングを試み，誤ってマッピングされる配列がないか検討した。その結果，ＲｅｆＳｅｑの全配列18,255配列のうち，504配列が22番染色体にマッピングされた。すなわち，マッピングされた配列のうち9割近い (453−7)/504=88.5%が22番染色体のｃＤＮＡ配列であった。

この結果より，ｃＤＮＡ配列のゲノム配列上へのマッピングに，大きな問題がないことを確認した。なお，22番染色体に由来しない配列が22番染色体にマッピングされた場合，22番染色体上のファミリー遺伝子や，パラログ，偽遺伝子に高い相同性を持つ場合が考えられるため，上記の88.5%は22番染色体へのマッピングの正解率そのものではなく，正解率の下限値といえる。

なお、パラメータの値としてＫ=12，Ｔ=0.40，Ｗ=2×10⁶を用いた。塩基配列のアラインメントアルゴリズムは非特許文献５のものを用い、スプライスサイトにおけるアラインメントの補正はＧＴ−ＡＧについてのみ行った。

［実施例２］
本発明と同様に，ｃＤＮＡ配列をゲノム配列上へ高速にマッピングする技術として、非特許文献７、非特許文献８の技術が知られており、それらを実装したＢＬＡＴ, Ｓｑｕａｌｌも広く知られている。そこで，これらのシステムと本発明の方法を実装した前記の開発中のプロトタイプシステムで、全ＲｅｆＳｅｑ配列を22番染色体ゲノム配列にマッピングするために要する処理時間の比較を行った。Ｓｑｕａｌｌ，ＢＬＡＴの処理時間は，Ogasawaraらが計測した非特許文献８の数値を引用した。なお、本発明のプロトタイプシステムは精度向上のための改良がまだ必要な段階にあるが、マッピング処理において最も時間を要する処理，すなわちｃＤＮＡ配列に対応するゲノム配列上のおおまかな位置の同定と，配列アラインメントの処理が既に実装済みであり，今後の改良で大幅な速度低下は無いと思われる。

処理時間を比較した結果を下記表４（本発明の方法を実装したプロトタイプシステムおよび、既存技術の性能比較表）に示す。動作環境や使用したＲｅｆＳｅｑ配列のバージョンが異なっているが，処理速度がＣＰＵのクロック周波数に比例し１配列あたりの計算時間が配列のバージョンに依存しないと仮定すれば，本発明のプロトタイプシステムの処理速度はＢＬＡＴを大きく上回り、Ｓｑｕａｌｌと同程度といえる。ただし、Ｓｑｕａｌｌは本システムと同程度の処理速度をもつが，overlapping K-merによるゲノム配列のインデキシングを採用しているため，計算機主記憶の消費が激しいと思われる。これに対し、本発明のプロトタイプシステムは，主記憶がわずか１ＧＢのパーソナルコンピュータで動作することに成功した。

［実施例３］
パラメータの最適値は、ある程度までは統計的な評価により推定することが可能だが、入力となるゲノム配列やｃＤＮＡ配列にも依存するため、最適な値を事前に決定するのは困難である。高精度なマッピングを行うためには、対話式インタフェースを用いて、ユーザがマッピング状況を確認しつつ最適なパラメータ値を調整できることが望ましい。以下で、こうしたことが可能なインタフェースの例について説明する。

図１１に、本発明のインタフェース例1101を示す。このインタフェースは、全ゲノム表示領域1102、拡大ゲノム表示領域1103、マッピング状況表示領域1104及びパラメータの値の表示と入力を行う入力ボックス1117とスライダー1118からなる。

全ゲノム表示領域1102には、入力として与えられる全ゲノム配列を象徴的に示すグラフィカル表示が表示される。図11には、ヒトゲノムの全常染色体と性染色体が表示される例を示した。この全ゲノム表示領域には、拡大ゲノム表示領域1103及びマッピング状況表示領域1104が対象とする染色体を強調するグラフィカル表示1105、ｃＤＮＡ配列がマッピングされる領域を表する印1106、1104のマッピング状況表示領域に表示されている位置を表す印1107、1103の拡大ゲノム表示領域に表示されている領域に相当する位置を表す矩形1108が表示される。

全ゲノム表示領域1102の、染色体を示すグラフィカル表示のひとつをクリックすると、染色体を強調表示するグラフィカル表示1105がその染色体に移動する。こうして1105で強調される染色体は、拡大ゲノム表示領域1103及びマッピング状況表示領域1104が表示する対象になり、さらにパラメータが1117又は1118を操作して変更されたとき、マッピング処理を再度実行する対象となる。ｃＤＮＡ配列がマッピングされた領域を表す印1106をポインティングデバイスで指定すると、1104のマッピング状況表示領域に表示されているゲノム領域を印1106の位置へ変更することができる。また、矩形1108の位置を変更することで、拡大ゲノム表示領域1103に表示されるゲノム領域を変更することができる。

拡大ゲノム表示領域1103には、ある染色体の一部が拡大表示され、マッピングの結果得られたエクソン・イントロン構造の閲覧が可能である。ここに表示される領域の一部がマッピング状況表示領域1104にも表示されている場合、その領域は、例えば1112の矩形のように、わかりやすく強調表示される。

マッピング状況表示領域1104には、ｃＤＮＡ配列を象徴的に表すグラフィカル表示1113、ゲノム配列を象徴的に表すグラフィカル表示1114、ｃＤＮＡ配列上のK-merを象徴的に表すグラフィカル表示1115、ゲノム配列上のK-merを象徴的に表すグラフィカル表示1116が表示される。

パラメータＫ、Ｔ、Ｗの値は、数値入力ボックス1117又はスライダー1118で変更することができる。ただし、Ｋの値を調整する場合には、あらかじめＫがとりうるすべての値について、non-olverlapping K-merによるゲノム配列のインデキシングを完了しておく。主記憶容量の限界などの要因により、複数のＫについてnon-overlapping K-merによるインデキシング結果のテーブルを保持するのが困難な場合には、Ｋについては数値入力ボックス1117及びスライダー1118を単一の値に固定し、変更を認めないものとする。

パラメータＴの値を減少させると、マッピングの感度が上がり、マッピングされるlocusが増加する一方で、K-merの単調増加列が偶然にＫＮ/Ｌ≧Ｔを満足しまう場合が増加し、ノイズが拡大する。Ｗを増加させると、locusが長い遺伝子のマッピングが正確になることが期待されるが、やはりノイズが拡大する恐れがある。Ｋの値を減少させると、K-merの完全一致がＳＮＰなどの影響を受けにくくなるため、感度が上がることが期待されるが、Ｔ、Ｗの場合と同様にノイズの拡大を招く恐れがある。ユーザは、インタフェース1101を用いて、Ｋ、Ｔ、Ｗの値を動かしながら表示領域1102、1103、1104を閲覧することで、最適なパラメータの値を調整することができる。

上記のインタフェースを対話的なものとするためには、マッピングの再計算と画面の更新をリアルタイムで行う必要がある。本発明の方法は、表４に示したように、染色体22番の場合1配列あたり0.014秒でマッピング可能であり、リアルタイム応答を実現するために十分な性能をもつ。

図１２に、このインタフェースを実現するための装置の構成の一例を示す。該装置は，主記憶1205に本発明の方法を実行するプログラム1206を格納し，さらにｃＤＮＡ配列やゲノム配列を格納する。プログラム1206は，中央演算装置1201により実行される。図１１のインタフェース1101計算結果は，ディスプレイ1202を通じて表示される。ユーザからの入力はキーボード1203及びポインティングデバイス1204を用いて行われる。

［ｃＤＮＡゲノムマッピングシステムの実行］
図１３に、本発明のｃＤＮＡゲノムマッピングシステムを端末上で実行するための初期画面例を示す。本発明の方法を実装したシステムにおいて、ｃＤＮＡ配列、ゲノム配列、および、パラメータＫ、Ｔ、Ｗを指定するためのＧＵＩインタフェースの一例である。このインタフェースの例では、ｃＤＮＡ配列とゲノム配列は、いずれもファイルに格納されており、ファイル名を入力することによって配列データを取得することを想定している。

ゲノム配列を格納したファイルのファイル名は、記入欄1301にキーボード等を用いて入力するか、ボタン1302を押してファイルセレクタを表示し、ファイルセレクタを用いて指定する。ｃＤＮＡ配列を格納したファイルのファイル名も同様に、記入欄1303にキーボード等を用いて入力するか、ボタン1304を押してファイルセレクタを表示し、ファイルセレクタを用いて指定する。パラメータＫ、Ｔ、Ｗの値は、数値入力ボックス1305の対応する箇所にキーボード等を用いて直接入力するか、スライダー1306で変更する。

図１５は、本発明の方法を実装し、実施例１および実施例２の項で述べたように、予め配列データおよびパラメータを与え、マッピング処理を自動一括実行する場合に、インタフェースのハードウェアが行なう処理と、ソフトウェアが行なう処理の関連を表すフローチャートである。図中、細い線の矩形がインタフェースの処理、太い線の矩形がソフトウェアの処理である。

図１６は、本発明の方法を実装し、実施例３の項で述べた対話型インタフェースを通じてマッピング処理を行なう場合に、インタフェースのハードウェアが行なう処理と、ソフトウェアが行なう処理の関連を表すフローチャートである。図中、細い線の矩形がインタフェースの処理、太い線の矩形がソフトウェアの処理である。

ｃＤＮＡ配列とゲノム配列に含まれる情報を最大限に活用するためには、ｃＤＮＡ配列をゲノム配列にマッピングする技術が不可欠である。背景技術の項で述べたように、ゲノム配列上の遺伝子に相当する領域の同定，特定の遺伝子のゲノム上での位置の同定、プロモーター配列の解析，遺伝子のエクソン・イントロン構造の同定などが可能になる。ゲノム配列とｃＤＮＡ配列が異なる個体から得られることを利用して、ＳＮＰも検出できる。こうして得られるデータは、創薬をはじめとするバイオテクノロジーに必須のものである。つまり、マッピング技術はｃＤＮＡ配列及びゲノム配列を勝つようする他の多くの技術の基盤となるものである。

また、生命科学に関する教育の現場では、学生等が関心のある遺伝子をゲノム配列にマッピングする実習を行う場合、多数の生徒が同時にマッピング処理を行うと、計算機に大きな負荷がかかる。本発明の方法を用いれば、小規模な計算機でもマッピング処理が可能なため、安価な計算機で対処でき、実習が可能な環境を低コストで提供できる。

ｃＤＮＡ配列上のK-merとゲノム配列上のK-merの、完全一致の組から、本発明の方法によりマッピングに相当する組を選択する処理の説明図。ゲノムとｃＤＮＡの関係、及びマッピングの概念についての説明図。本発明の方法の概要。ゲノム配列上のnon-overlapping K-merをテーブルに登録する処理の説明図。この図は、K=3の例。ゲノム配列上のoverlapping K-merをテーブルに登録する処理の説明図。この図は、Ｋ=3の例。ｃＤＮＡ配列上のK-merとゲノム配列上のK-merの、完全一致の組についての説明図。 K-merの対応に基づき、配列比較を行い塩基の対応関係に拡張する処理の説明図。 K-merの対応に基づき、配列比較を行い塩基の対応関係に拡張する際に、２つ以上のK-merの対応が存在し配列比較の処理が重複する場合が発生することの説明図。 K-merの対応に基づき、配列比較を行い塩基の対応関係に拡張する処理の説明図。スプライスサイトにおいて、イントロンがＧＴで始まりＡＧで終了するよう塩基の対応を補正する処理の説明図。本発明のパラメータを、マッピング結果をリアルタイムで確認しつつ調整することを可能にするインタフェースの一例。図１１のインタフェースを実現するための装置の一例。本発明のｃＤＮＡゲノムマッピングシステムを端末上で実行するための画面例。本発明の方法において、cDNA配列上のK-merと、ゲノム配列上のK-merを対応させる方法を説明するフローチャート。本発明の方法を実装し、マッピング処理を自動一括実行する場合に、インタフェースのハードウェアが行なう処理と、ソフトウェアが行なう処理の関連を表すフローチャート。本発明の方法を実装し、対話型インタフェースを通じてマッピング処理を行なう場合に、インタフェースのハードウェアが行なう処理と、ソフトウェアが行なう処理の関連を表すフローチャート。

符号の説明

101: ｃＤＮＡ配列。
102: ｃＤＮＡ配列上の座標を表す数値。
103: あるK-merのｃＤＮＡ配列上の座標。
104: ｃＤＮＡ配列上の、あるひとつのK-mer。
105: ゲノム配列。
106: あるK-merのゲノム配列上の座標。
107: ゲノム配列上の座標を表す数値。
108: ゲノム配列上の、あるひとつのK-mer。
109: ｃＤＮＡ配列上のあるK-merとゲノム配列上のあるK-merの組であって、本発明の方法によりマッピングに相当するとして選択された組を象徴的に示す矢印。
110: ｃＤＮＡ配列上のあるK-merとゲノム配列上のあるK-merの組であって、本発明の方法によりマッピングに相当しないとして棄却された対応を象徴的に示す矢印。
401: ゲノム配列上のnon-overlapping K-merの例。ここでは、Ｋ=3である。
402: ゲノム配列上のnon-overlapping K-merをテーブルに登録する処理を象徴的に示す矢印。
403: ゲノム配列上のnon-overlapping K-merが登録されたテーブル。
501: ゲノム配列上のoverlapping K-merの例。ここでは、Ｋ=3である。
502: ゲノム配列上のoverlapping K-merをテーブルに登録する処理を象徴的に示す矢印。
503: ゲノム配列上のoverlapping K-merが登録されたテーブル。
601: ｃＤＮＡ配列上のあるK-merと、ゲノム配列上のあるK-merの組を象徴的に示す矢印。
701: 完全一致するｃＤＮＡ配列上のK-merとゲノム配列上のK-merを表す矩形。
702: 完全一致するK-merの組に基づき、配列比較を行なって塩基の対応へと拡張していくことを象徴的に示す矢印。
801: 完全一致するK-merの組に基づき、配列比較を行なって塩基の対応へと拡張していく仮定で、K-merの複数の対応から開始され、衝突してしまう拡張を象徴的に示す矢印。
901: ｃＤＮＡ配列上のエクソン境界に、イントロンと対応させるために挿入されたギャップ。
902: ゲノム配列上で、エクソンに相当する部分。
903: ゲノム配列上で、イントロンに相当する部分。
904: イントロンの開始位置に存在するグアニン(Ｇ)とチミン(Ｔ)。
905: イントロンの末尾位置に存在するアデニン(Ａ)とグアニン(Ｇ)。
1001: ゲノム配列上で、エクソンに相当すると思われるが、隣接するイントロンがＧＴで始まらずＡＧでも終わらないために、確実にエクソンに相当するとはいえない部分。
1002: ゲノム配列上で、塩基の対応からはイントロンに相当するが、ＧＴで始まらずＡＧでも終わらないために、確実にイントロンに相当するとはいえない部分。
1003: スプライスサイトにおけるアラインメントの補正処理を象徴的に示す矢印。
1004: スプライスサイトにおけるアラインメント補正のため、下流側のエクソンの開始位置にあったグアニン(Ｇ)を上流側のエクソンの末尾位置に移動させる処理を象徴的に示す矢印。
1101: 本発明の高精度ゲノムマッピングインタフェースの例。
1102: 本発明の高精度ゲノムマッピングインタフェースの例における、全ゲノム表示領域。
1103: 本発明の高精度ゲノムマッピングインタフェースの例における、拡大ゲノム表示領域。
1104: 本発明の高精度ゲノムマッピングインタフェースの例における、ｃＤＮＡ配列上のK-merとゲノム配列上のK-merの完全一致する組を表示するマッピング状況表示領域。
1105: 全ゲノム配列のうち、拡大ゲノム表示領域1103及びマッピング状況表示領域1104で表示する染色体を表すグラフィカル表示の例。
1106: 全ゲノム配列上で、ｃＤＮＡ配列がマッピングされた位置を表す印の例。
1107: 全ゲノム配列上で、ｃＤＮＡ配列がマッピングされた位置のうち、ｃＤＮＡ配列上のK-merとゲノム配列上のK-merの対応を表示する領域1104に表示されている位置を表す印の例。
1108: 全ゲノム配列上で、拡大ゲノム表示領域1103に表示される領域を表示あるいは選択するために用いられる矩形の表示例。
1109: ゲノム配列の表示例。
1110: ゲノム配列上の、エクソンの表示例。
1111: ｃＤＮＡ配列がマッピングされた領域の表示例。
1112: マッピング状況表示領域1104に表示されているゲノム上の領域を表す印の例。
1113: ｃＤＮＡ配列の表示例。
1114: ゲノム配列の表示例。
1115: ｃＤＮＡ配列上のK-merの表示例。
1116: ゲノム配列上のK-merの表示例。
1117: パラメータの、数値表示及び入力を行うボックス。
1118: パラメータの、数値表示及び入力を行うスライダー。
1201: 本発明の方法を実行するＣＰＵ。
1202: 1101のインタフェースを表示するためのディスプレイ。
1203: 1101のインタフェースにおいて、入力を行うためのキーボード。
1204: 1101のインタフェースにおいて、入力を行うためのポインティングデバイス。
1205: 本発明の方法を実行する計算機の主記憶装置。
1206: 1205の主記憶に格納された、本発明の方法を実行するためのプログラム。
1207: 1205の主記憶内に構築された、ゲノム配列上のnon-overlapping K-merのテーブル。
1208: 入力であるｃＤＮＡ配列、ゲノム配列が格納された補助記憶装置。
1301: ゲノム配列を格納したファイルのファイル名を表示し、かつ入力も可能な記入欄。
1302: ゲノム配列を格納したファイルのファイル名を指定するための、ファイルセレクタを表示させるためのボタン。
1303: cDNA配列を格納したファイルのファイル名を表示し、かつ入力も可能な記入欄。
1304: cDNA配列を格納したファイルのファイル名を指定するための、ファイルセレクタを表示させるためのボタン。
1305: パラメータK,T,Wの、数値表示および入力を行なうための数値入力ボックス。
1306: パラメータK,T,Wの、数値表示および入力を行なうためのスライダー。

Claims

ｃＤＮＡ配列の配列情報が入力されるステップと、
前記ｃＤＮＡ配列をＫ塩基長の部分配列に分けるステップと、
前記ｃＤＮＡ配列と比較すべきゲノム配列をＫ塩基長の部分配列に分けるステップと、
前記ｃＤＮＡ配列のＫ塩基長の部分配列と一致する、前記ゲノム配列のＫ塩基長のｎ個（ｎ≧１）の部分配列の座標を対応させるステップと、
前記ｃＤＮＡ配列のＫ塩基長の部分配列の座標ｐを第１の要素とし、その部分配列と一致する前記ゲノム配列のＫ塩基長の部分配列の座標ｑを第２の要素とした組（ｐ、ｑ）の列を、ｐ毎に、ｑが降順となるように形成するステップと、
前記第１の要素ｐが昇順となるように、前記列を連結するステップと、
前記連結された列から、前記第２の要素ｑが昇順になる部分列を抽出するステップと、
前記抽出された部分列について、前記ｃＤＮＡ配列のＫ塩基長の部分配列と前記ゲノム配列のＫ塩基長の部分配列との対応付を行うステップと、
前記Ｋ塩基を対応付けた情報を、ｃＤＮＡ配列とゲノム配列のアラインメントを行うことにより、個々の塩基の対応へ拡張するステップと、
前記個々の塩基の対応を出力するステップとを有することを特徴とするｃＤＮＡ配列のマッピング方法。
前記Ｋ塩基長は、３０塩基長以下であることを特徴とする請求項１記載のｃＤＮＡ配列のマッピング方法。
ｃＤＮＡ配列をＫ塩基長の部分配列に分ける前記ステップは、前記ｃＤＮＡ配列を１塩基ずつずらして得られる部分配列に分けるステップであることを特徴とする請求項１記載のｃＤＮＡ配列のマッピング方法。
ゲノム配列を互いに異なるＫ塩基長の部分配列に分ける前記ステップは、互いに重ならないＫ塩基長部分配列に分けることを特徴とする請求項１記載のｃＤＮＡ配列のマッピング方法。
ゲノム配列上の幅Ｗの領域のみを切り出して、請求項１記載の方法を適用し、さらに前記幅Ｗの領域を移動させて同様に請求項１記載の方法を適用することを特徴とするｃＤＮＡ配列のマッピング方法。
前記対応付けた情報を出力するステップは、１の軸にｃＤＮＡ配列、他の軸にゲノム配列を２次元的に配置した情報を出力するステップであることを特徴とする請求項１記載のｃＤＮＡ配列のマッピング方法。
前記個々の塩基を対応させるステップは、イントロン配列がＧＴで始まりＡＧで終わるようにスプライスサイトの位置を補正する処理を包含するステップであることを特徴とする請求項１記載のｃＤＮＡ配列のマッピング方法。
ゲノム配列情報が記憶されたゲノム配列格納手段と、
ｃＤＮＡ配列情報を入力させる入力部と、
入力された前記ｃＤＮＡ配列を、Ｋ塩基長の部分配列に分割する分割手段と、
格納された前記ゲノム配列情報を、Ｋ塩基長の部分配列に分割する分割手段と、
前記ｃＤＮＡ配列のＫ塩基長の部分配列を、前記ゲノム配列のＫ塩基長の部分配列と比較し、前記ｃＤＮＡ配列のＫ塩基長の部分配列と一致する１つ又は複数のゲノム配列のＫ塩基長の部分配列の座標を同定する比較手段と、
前記ｃＤＮＡ配列のＫ塩基長の部分配列の座標を第１の要素ｐとし、その部分配列と一致する前記ゲノム配列のＫ塩基長の部分配列の座標を第２の要素ｑとする組（ｐ,ｑ）の列を、ｐ毎に、ｑが降順となるように形成し、続いてｐが昇順となるように、前記列を連結し、その後、前記第２の要素ｑが昇順になる部分列を抽出する計算手段と、
前記抽出された部分列について、前記ｃＤＮＡ配列のＫ塩基長の部分配列と前記ゲノム配列のＫ塩基長の部分配列との対応付を行う手段と、
前記Ｋ塩基を対応付けた情報を、ｃＤＮＡ配列とゲノム配列のアラインメントを行うことにより、個々の塩基の対応へ拡張する手段と、
前記個々の塩基の対応を出力する出力手段とを有することを特徴とするｃＤＮＡ配列のマッピングシステム。
ｃＤＮＡ配列上のＫ塩基長の部分配列と、それらと完全一致するひとつ以上のゲノム配列上のＫ塩基長の部分配列を請求項１〜７項のうちいずれか１項に記載の方法でマッピングされた結果をグラフィカル表示し、前記請求項１〜７項のうちいずれか１項に記載の方法のひとつ以上のパラメータが変更された場合に、マッピング処理を再実行した結果を表示することを特徴とする表示方法。