JP2005176730A6 - cDNA配列をゲノム配列にマッピングする方法 - Google Patents

cDNA配列をゲノム配列にマッピングする方法 Download PDF

Info

Publication number
JP2005176730A6
JP2005176730A6 JP2003423065A JP2003423065A JP2005176730A6 JP 2005176730 A6 JP2005176730 A6 JP 2005176730A6 JP 2003423065 A JP2003423065 A JP 2003423065A JP 2003423065 A JP2003423065 A JP 2003423065A JP 2005176730 A6 JP2005176730 A6 JP 2005176730A6
Authority
JP
Japan
Prior art keywords
sequence
cdna
partial
cdna sequence
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2003423065A
Other languages
English (en)
Other versions
JP2005176730A (ja
Inventor
知弘 安田
徹 久光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003423065A priority Critical patent/JP2005176730A/ja
Priority claimed from JP2003423065A external-priority patent/JP2005176730A/ja
Priority to US11/011,954 priority patent/US20050159898A1/en
Publication of JP2005176730A publication Critical patent/JP2005176730A/ja
Publication of JP2005176730A6 publication Critical patent/JP2005176730A6/ja
Abandoned legal-status Critical Current

Links

Images

Abstract

【課題】 cDNA配列を、ゲノム配列上に高速にマッピングする。
【解決手段】 ゲノム配列を、互いに重ならない連続するK塩基の文字列(K-mer)に分割し、各K-merが出現するゲノム配列上の座標をテーブルに格納する。このテーブルを利用して、cDNA上のすべてのK-merとゲノム配列上のK-merで完全一致するものとを組にする。K-merの組のうち、偶然の一致でなく正しいマッピングに相当する組を、数列中の最長単調増加部分列を抽出する問題の効率的な解法を利用して高速に同定する。こうして得られたマッピングに相当するK-merの組を配列アラインメントによって塩基の対応へ拡張した後、スプライスサイトにおける補正を行う。さらに、最適なパラメータ選択を可能とするため、リアルタイム応答が可能な対話式インタフェースを提供する。
【選択図】 図1

Description

本発明は、cDNA配列を高速にゲノム配列上にマッピングする方法に関する。
2000年6月に,国際コンソーシアム及び米国セレラ社がヒトゲノムのドラフト配列決定完了を宣言し,2003年中には配列決定が完了する見込みである(非特許文献1)。ゲノム配列の解析だけでは得られない情報を獲得するために,生体内で発現している遺伝子の配列を直接解析できるcDNA配列解析がその重要性を増しつつあり,我が国ではヒトcDNA配列を取得する国家プロジェクト「完全長cDNA構造解析」(Full-length human cDNA sequencing project, http://www.nedo.go.jp/bio-e/)が2001年まで3年間行われたほか,米国やドイツでも同様のプロジェクトが進行している(非特許文献2)。
cDNA配列のゲノム配列上での位置を同定し,1塩基ごとにcDNA配列とゲノム配列の対応関係を得ること,すなわちcDNA配列のゲノム配列へのマッピングは,生体現象を解明するために重要である。その理由は,以下の通りである。まず,cDNA配列は発現している遺伝子の配列そのものであるため,遺伝子に相当するゲノム配列上の領域を同定できるほか,関心のある特定の遺伝子のゲノム上での位置を知ることもできる。遺伝子のゲノム上での位置が明らかになることで,遺伝子の発現制御を行うプロモーター配列の解析も可能となる。さらに,遺伝子のエクソン・イントロン構造は,ゲノム配列やcDNA配列を個々に解析するだけでは同定が困難であるが,cDNA配列をゲノム配列にマッピングすれば正確に同定できる。
公共データベースに蓄積され公開されているcDNA配列の量は増加の一途を辿っており,「完全長cDNA構造解析」プロジェクトでは,平均2273塩基の配列が20,894配列( (株)へリックス研究所及び東京大学医科学研究所取りまとめ分)が配列決定されたほか,cDNA配列の一部を配列決定したESTと呼ばれる配列のデータ量は,米国NCBIのdbESTデータベース(非特許文献3)に、ヒトだけで500万配列以上が蓄積されている。一方,ゲノム配列も約30億塩基にもなる巨大な配列である。こうした膨大な配列データを入力とし,マッピングを行うためには,大規模な配列データを高速に処理可能なシステムが必要である。
cDNA配列のゲノム配列へのマッピングに利用可能なツールとしては,BLAST(非特許文献4),MegaBLAST(非特許文献5),sim4(非特許文献6),BLAT(非特許文献7),Squall(非特許文献8)が知られている。
BLAST,MegaBLASTは,問い合わせ配列に類似する配列をデータベース中から探索する一般的なソフトウェアであり、ゲノム配列へのマッピングを目的に開発された技術ではないため,遺伝子のエクソン・イントロン構造や、イントロン配列は多くの場合GTで始まりAGで終わることを全く考慮していない。したがって,そのままではマッピングに用いることはできず,マッピングに必要な処理を行う後処理システムの開発が必須となる。
遺伝子のエクソン,イントロン構造等を考慮したマッピングを行うツールとしてはsim4が広く使用されている。しかし,非特許文献8における調査によれば、sim4は後に開発されたBLATに比べ7倍,Squallに比べ400倍低速であり,大規模な配列情報のアノテーションに使用するのは困難である。
カルフォルニア大学サンタクルス校で開発されたBLATは,処理速度に定評のあるツールで,主記憶の少ない安価な計算機環境でも動作可能である。しかし,後述のSquallほどの高速処理はできない。
東京大学で開発されたSquallの処理速度はBLATを大きく上回る。しかし,Squallは大容量主記憶を前提としており,ヒトゲノムのように大規模なゲノム配列を扱う場合には大規模な計算機でなければ動作させることができないと考えられる。
このほか、理化学研究所からcDNA配列のゲノム配列へのマッピングに関する特許が出願されている(特許文献1)。しかしこの技術は、cDNA配列とゲノム配列の類似領域を検索する処理をBLAST等の外部プログラム依存しており、マッピング処理全体の一部のみを対象としたものである。
特開2001-155009号公報、発明者: 林崎良英(理化学研究所)、「 エクソンイントロンジャンクション決定装置及び遺伝子領域決定装置並びにそれらの決定方法」 International Human Genome Sequencing Consortium, Initial sequencing and analysis of the human genome, Nature, 409:860-921, 2001; Venter, J.C., et al., The sequence of the Human Genome, Science, 291:1304-1351, 2001 Strausberg, R.L., Feingold, E.A., Klausner, R.D., Collins, F.S., The Mammalian Gene Collection, Science, 286:466-457, 1999; Wiemann, S., et al., Toward a Catalog of Human Genes and Proteins: Sequencing and Analysis of 500 Novel Complete Protein Coding Human cDNAs, Genome Res., 11(3):422-435, 2001 Boguski, M.S., Lowe, T.M., Tolstoshev, C.M., dbEST - database for "expressed sequence tags", Nat. Genet., 4(4):332-3,1993 Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z., Miller, W., and Lipman, D.J., Gapped BLAST and PSI-BLAST: a new generation of protein database search programs, Nuc. Acid Res. 25:3389-3402, 1997. Zhang, Z., Schwartz, S., Wagner, L., and Miller, W., A Greedy Algorithm for Aligning DNA Sequences, J. Comput. Biol., 7:203-214, 2000.
Florea, L., Hartzell, G., Hang, Z., Rubin, G.M., and Miller, W., A Computer Program for Aligning a cDNA Sequence with a Genomic DNA Sequence, Genome Res., 8:967-974, 1998. Kent, J.W., BLAT - The BLAST-like Alignment Tool, Genome Res., 12:656-664, 2002. Ogasawara, J. and Morishita, S., Fast and Sensitive Algorithm for Aligning ESTs to Human Genome, Proceedings of the IEEE Computer Society Bioinformatics Conference, 2002. Gusfield, D., Algorithms on strings, trees, and sequences. Computer Science and Computational Biology, Cambridge University Press, New York, 1997 Burset, M., Seledtsov, I.A., and Solovyev, V.V., SpliceDB: database of canonical and non-canonincal mammalian splice sites, Nuc. Acid. Res., 29:255-259, 2001 Pruitt, K.D. and Maglott, D.R., RefSeq and LocusLink: NCBI gene-centered resources, Nuc. Acid. Res., 29:137-140, 2001 Rains, E.M., Increasing subsequences and the classical groups, Electr. J. Com. 5(1), 1998
cDNA配列をゲノム配列へマッピングする際に解決すべき課題について述べるために,cDNA配列とゲノム配列の対応関係を説明する。
ゲノム上の遺伝子は,図2に示すように,まずmRNA前駆体へと転写され,さらにスプライシングと呼ばれる過程でエクソンと呼ばれる領域だけが残されmRNAが生成される。このとき除去される領域は,イントロンと呼ばれる。mRNAは不安定で壊れやすい物質であるため,配列決定などの解析を行う際には、逆転写と呼ばれる過程を経てDNAに変換することが多い。このとき得られるDNAが,cDNA(complementary DNA)である。したがって,cDNA配列はゲノム配列の一部分を抜き出し,さらに一部を間引いた配列といえる。ただし,cDNA配列とゲノム配列は同一の個体について決定されるわけではないため,個体差による差異があるほか,配列決定のエラーによる差異もありうる。
したがって,cDNA配列をゲノム配列へ高速にマッピングするためには,cDNA配列とゲノム配列のエクソン部分が類似する位置を同定すること、cDNA配列とゲノム配列を比較し,ある程度配列の差異を許容しつつ配列のアラインメントを行うこと、及び、cDNA配列中のエクソン境界を,ゲノム配列と比較することにより同定することを、高速に遂行することが課題となる。
本発明は、以下のようなステップでcDNA配列をマッピングする。
(1)ゲノム配列を、互いに重ならないK塩基の部分文字列、すなわちnon-overlapping K-merに分解し、各K-merが出現するゲノム上の位置をテーブルに登録する。
(2)cDNA配列上で位置pの K-merが,完全一致するゲノム配列上のK-merの位置をqとするとき,数値pとqのペア(p,q)を作成する。
(3)cDNA上で位置pのK-merに関する全てのペア(p,q)から成る列を,qに関し降順に整列して得られる列をS(p)とする。S(p)は,要素数0の列であってもよい。
(4)各S(p)をpの昇順に連結したペアの列を構成し,Sとする。すなわちS=S(0)S(1)S(2)...S(n−1)である。ここに,nはcDNA配列上のoverlapping K-merの数である。
(5)Sから,部分列S’を抽出する。ただし,S’においてqの値は昇順であり,かつS’はこうしたqが昇順になる部分列のうち最長のものでなければならない。
(6)ペアの列S’を先頭から読み,ペア (p,q)が現れたら,cDNA配列上の位置pのK-merと,ゲノム配列上の位置qにあるK-merの組を選択する。S’を読み終わった時点で選択されなかったK-merの組は,棄却する。
(7)以上の処理で得られたK-merの対応関係を、非特許文献2の文字列比較方法により配列上の任意の対応関係へ拡張し、さらにイントロン配列がGTで開始しAGで終了するよう、アラインメントの補正を行う。
本発明によれば、パーソナルコンピュータ程度の小規模な計算機システムで、cDNA配列のゲノム配列への高速なマッピングが可能となる。
本発明の方法の概要を図3に記す。なお,本明細書でK-merとは、長さがK塩基の短い塩基配列を表す。Kの大きさは、高々30塩基程度である。
[ゲノム配列のインデキシング]
始めに,ゲノム配列上の各K-merが出現する位置を,テーブルに登録する。本発明では,ゲノム配列上の全K-merではなく,K塩基ごとに1つのK-merをテーブルに記録し,隣接するK-merが互いに重ならないようにする。K=3である場合の例を,図4に示す。ゲノム配列中の出現回数が,ユーザから与えられたパラメータを上回るK-merは,リピート配列の一部であると考え,以降の処理では無視する。図4の例で,仮にこの出現回数のユーザパラメータが2であるとすれば,「TCC」は頻度が3でユーザパラメータ2より大きいため,以降の処理では無視される。
ゲノム上のK-merのインデキシングには,図4のようにゲノム配列上でK塩基ごとにK-merを抽出する方法,すなわちnon-overlapping K-merを用いる方法と,図5のようにゲノム上のあらゆるK-merをテーブルに登録する方法,すなわちoverlapping K-merを用いる方法の2種類がある。Non-overlapping K-merを用いる場合には,配列の誤りがあった場合にK-merの一致を見落とす可能性が高くなる欠点があるものの,消費メモリがoverlapping K-merに比べおよそ1/Kに抑えられるという利点があるため、本発明では消費主記憶が少なくて済むnon-overlapping K-merによるインデキシングを採用した。
[cDNA配列とゲノム配列上で完全一致するK-merの組の列挙]
上述のテーブルを参照し,cDNA配列上の全K-merについて,ゲノム配列上のK-merで完全一致するものを探索し,列挙する。cDNA配列上のK-merはoverlapping K-merとする。テーブルに登録されているゲノム配列上のK-merはnon-overlapping K-merであるため,エクソン境界を除き,cDNA配列上のK-merはK塩基ごとにゲノム配列上のK-merと完全一致が見られると期待される。ただし,SNP等による差異のために,エクソン境界以外でもcDNA配列とゲノム配列上のK-merが完全一致しない場合がありうる一方,配列の偶然一致のために,ゲノム配列上で遺伝子の位置と無関係なK-merの完全一致が見られる場合もある(図6)。
[完全一致するK-merの確からしい組の選択]
cDNA配列上とゲノム配列上で完全一致するK-merの,偶然の一致を含む対応関係のうちで,図1の太い矢印109で示したような確からしいものだけを選択する必要がある。本発明では,同一ストランドの場合、cDNA配列上で上流にあるK-merは,ゲノム配列上でも上流にあることに着目した。なお、本発明における完全一致するK-merの確からしい組の選択方法の概要を、図14に示した。
本発明の方法では,与えられた数列中の最長の単調増加部分数列を抽出する問題の解法を利用し,K-merの選択を行う。与えられた数列中の,最長の単調増加部分数列を抽出する問題は「Longest increasing subequence promblem」と呼ばれている。以下では,最長の単調増加部分数列(longest increasing subsequence)を「LIS」と略記する。例えば,数列 <551, 323, 458, 961, 725, 239, 119, 866, 647, 1031>に対して,<323, 458, 725, 866, 1031>はLISである。LISは,与えられた数列長nに対し,O(n log n)の処理時間で求められることが知られている(非特許文献9)。以下で,LISを求めるアルゴリズムを応用し,K-merの選択を行なう本発明の方法を説明する。
cDNA配列上で位置pの K-merと,ゲノム配列上のK-merの位置qのK-merが完全一致するとき,こうしたK-merの組ひとつについて、数値pとqのペア(p,q)をひとつ作成する。次に、cDNA上で位置pのK-merに関する全てのペア(p,q)から成る列を,qに関し降順にソートして得られる列をS(p)とする。S(p)は,要素数0の列であってもよい。各S(p)をpの昇順に連結したペアの列を構成し,Sとする。すなわちS=S(0)S(1)S(2)...S(n−1)である。ここに,nはcDNA配列上のoverlapping K-merの数である。
こうして構築した列Sから,部分列S’を抽出する。S’は、qの値は昇順に整列されており,かつS’はこうしたqが昇順になる部分列のうち最長のものという性質を満足しなければならない。このようなペアの列S’を抽出後、列S’を先頭から読み,ペア (p,q)が現れたら,cDNA配列上の位置pのK-merと,ゲノム配列上の位置qにあるK-merの組を選択する。S’を読み終わった時点で選択されなかったK-merの組は,棄却する。
上記K-mer選択方式の具体例を説明する。図6の,cDNA配列上でp=27の位置にあるK-merはゲノム上でq=323, 551の位置のK-merに対応し,以下p=62のK-merはq=458のK-mer,p=100ではq=119, 239, 725, 961,p=138ではq=647, 866,p=167ではq=1031のゲノム配列上のK-merと完全一致している状況について考察する。
まず,cDNA配列上の各K-merについて,ペア(p,q)のリストを作成し,qについて降順にソートする。cDNA上の位置pのK-merに対応するリストをS(p)とすれば,要素数が0でない列S(p)は,以下の5つである。
S (27)=<(27,551),(27,323)>
S (62)=<(62,458>
S (100)=<(100,961),(100,725),(100,239),(100,119)>
S(138)=<(138,866),(138,647)>
S (167)=<(167,1031)>
次に,これらを連結したリストS= S(0)S(1)S(2)...S(n−1)を構成する。
S=<(27,551),(27,323),(62,458),(100,961),(100,725),(100,239),(100,119),(138,866),(138,647),(167,1031)>
このSの部分列で,qが単調増加する最長の部分列を,LISの解法を用いて同定する。次の式の[]で囲まれた部分が,qが単調増加する最長のSの部分列である。
S=<(27,551),[(27,323),(62,458)],(100,961),[(100,725)],(100,239),(100,119),[(138,866)],(138,647),[(167,1031)]>
その部分列を取り出し,S’とする。
S’=<(27,323),(62,458),(100,725),(138,866),(167,1031)>
S’を先頭から読み進め,各ペアについてcDNA配列上とゲノム配列上のK-merの完全一致の組を1つずつ選択していく。cDNA配列上で位置p=27のK-merをゲノム上の位置q=323のK-merに対応させ,cDNA配列上でp=62,100,138,167のK-merはゲノム上の位置q=458,725,866,1031のK-merに対応させる。これにより,図1のように,確からしいK-merの完全一致の組が選択される。
この手法により,確からしいK-merの組が選択される理由は,次の通りである。ステップ2において,qについて降順ソートを行っているため,S中で同一のpに対応するペアの列は、qの値が降順の列になる。したがって,S’には,同一のpに対応するペアは,高々1つしか含まれないことが保証される。すなわち、cDNA配列上に任意のK-merはゲノム上の高々1ヶ所にしかマッピングされない。さらに,ステップ4においてqが昇順になるようにS’を構成しているから,cDNA配列とゲノム配列で順序が同一となるK-merの位置が抽出される。qが昇順となるK-merの列のうち,最も長いものが,最も確からしいマッピングと考えられる。
この手順で得られたK-merの列の長さをn,cDNA配列長をQ、Tをユーザの与えるパラメータとするとき,nK/Q≧Tが満足されれば,cDNA配列上の十分な数のK-merがゲノム配列上のK-merに対応付けられたと考え,検討対象となっているcDNA配列がゲノム配列にマッピングできたと判断する。
ゲノム配列にマッピングできないcDNA配列であっても,nK/Q≧Tを満足するK-merの列が偶然にできてしまう可能性を減らすために,本発明ではゲノム配列上に幅W塩基のウィンドウを設け,ウィンドウの範囲内に入ったK-merだけを処理の対象とする。隣り合うウィンドウはW/2塩基の重なりを持つこととし,ウィンドウ境界で遺伝子領域が分割されることを防ぐ。ウィンドウ内に,cDNA配列上のK-merと完全一致するK-merの数が少なく,nK/Q≧Tが満たされる見込みが無い場合には,そのcDNA配列はマッピング不可能と判断してK-merの選択処理を打ち切る。これにより、不必要な場合はLISを計算する処理を省略できるため、全体の処理時間が削減できる。
[cDNA配列とゲノム配列のアラインメント]
上記の手順により、cDNA配列とゲノム配列上の完全一致するK-merの組のうち、マッピングに対応するものが選択されたら、その周辺でcDNA配列とゲノム配列の配列比較を行い,塩基配列のアラインメントを構築する(図7)。cDNA配列とゲノム配列はエクソン領域であっても完全に一致するとは限らず,SNP等によりある程度の差異が含まれることがある。したがって,配列比較には,ある程度の配列の差異を許容した高速なアルゴリズムが求められる。そうしたアルゴリズムの一例として、非特許文献2に記載のアルゴリズムが挙げられる。配列比較の際,完全一致するK-merの組が近傍にある場合,同一の領域で2回以上アラインメントの処理を行うことを防ぐ必要がある(図8)。そのためには,配列比較を行う区間を,隣接するK-mer及び既にアラインメントされた領域の手前までに制限すればよい。配列比較により,隣接するK-merを中心とする領域と接することがわかった場合には,それらを1つのエクソンと見なし統合する。
[アラインメントのスプライスサイトにおける補正]
図9に示すように,ゲノム上のイントロン領域は,ほとんどの場合GTで始まりAGで終わる。Bursetらの調査によると,98.71%がこの規則に従う(非特許文献10)。cDNA配列とゲノム配列とのアラインメントにおいて,図10のように曖昧さがある場合には,cDNA配列上でエクソン境界の位置を移動させることで,ミスマッチや挿入・削除の導入を防ぎつつ,イントロンがGTで始まりAGで終わるようアラインメントを構成する。なお、イントロンの開始位置・終了位置の塩基は、GT−AGの場合のほか、わずかながらGC−AGの場合もある。そのため、補正を行ってもGT−AGとできない場合、同様の処理によりイントロンがGCで始まりAGで終わるアラインメントの構築を試みることが好ましい。
[本発明の方法の、統計的有意性の検討]
まず、ゲノム配列上にマッピングされるべきcDNA配列が、本発明の方法により高い確率でマッピングされることを示す。cDNA配列とゲノム配列の相同性の高い領域においてcDNA配列とゲノム配列のある塩基が一致する確率をM、マッピングされるK-merの数をn、nが取りうる最大の値をN、cDNA配列の長さをQとする。マッピング可能なcDNA配列が、本発明の方法でマッピング可能と判定される確率をP(n≧QT/K)とすれば、P(n≧QT/K)は下記数1を満たす。ここに、p=M^K(MのK乗)である。
Figure 2005176730
全長cDNA配列の長さは多くの場合2000塩基程度であることを考慮しQ=2000とし、T=0.5とした場合に、P(n≧QT/K)を計算した結果を表1に示す。
Figure 2005176730
正しいマッピングに対応するK-merのn個の組は、本発明の正しいK-merを選択する過程を経ても、n個が残るはずである。つまり、n≧QT/Kを満足すれば、そのcDNA配列は本発明の方法によりマッピング可能と判定される。ゲノム配列との類似性が96%以上のcDNA配列であれば、K≦13のとき、99%以上の確率でマッピングは可能であるとわかる。なお、表1の計算にあたり、NをQ/Kを超えない最大の整数で近似した。実際のNの値は、cDNA配列エクソン境界の数と位置に依存し、Q/Kよりも若干小さい値となる。また、ゲノム上のウィンドウの大きさWは、十分な大きさであると仮定した。非特許文献7の技術の解析結果によれば、RefSeqデータベース(非特許文献11) の配列をゲノム配列上にマッピングした場合に、マッピングされた領域のゲノム配列上での幅は最大で約230万塩基で、ウィンドウの大きさWは数百万塩基程度あればよいことがわかる。
次に、偶然に生じる一致が原因で、nK/Q≧Tが満足されてしまう確率が少ないことを示す。長さがQ塩基のcDNA配列とゲノム配列上の幅Wのウィンドウの間に、偶然の一致が生じる回数の期待値は、非特許文献7と同様の議論で、下記数2で表される。複数のW,Kの値について、具体的に数値を計算した値を下記表2に示した。
Figure 2005176730
Figure 2005176730
これは平均値であって、もっと多数の完全一致が生じる場合もあるが、その場合でもnK/Q≧Tが成立する可能性は、ほとんどないことを説明する。一般に、長さがnのランダムな順列に存在する最長の単調増加部分列の長さLnは、下記数3で表される確率分布に従うことが知られている(非特許文献12)。しかし、この数式を直接計算するのは困難であるため、本明細書では、下記数4(ランダムな順列に存在する最長単調増加部分列の長さが、k以上である確率の上限)により、Lnが長さk以上になる確率を評価する。この式が成り立つ根拠は、Ln≧kならば、長さk以上の単調増加部分列が少なくともひとつ存在し、長さkの部分列の数がn!/(k! (N-k)!) で、それらの各々が単調増加列になっている確率がそれぞれ1/k!だからである。
Figure 2005176730
Figure 2005176730
下記表3に、K-merの完全一致が平均の3倍の場合にnK/Q≧Tが確率の上限を示した。上限の値は、数4の右辺(不等号の右側の部分)の値とした。分散の大きさを考慮すれば、実際にK-merの完全一致が平均の3倍にもなることは、ほとんどないと考えられる。表3から、前記のパラメータに関しては、偶然にnK/Q≧Tが満足されることはほとんどないことがわかる。なお、P(Ln≧k)≦P(Ln’≧k) (n’≧n)であるから、完全一致の組の数がもっと少ない場合を考慮しても、十分な長さの完全一致する組の列ができてしまう確率は十分に小さい。
Figure 2005176730
[実施例1]
本発明の方法を実装したプロトタイプシステムを構築し、RefSeqデータベース (非特許文献11) のcDNA配列を22番染色体のゲノム配列へマッピングすることにより,22番染色体の配列を同定可能か検証した。RefSeq配列は,2003年1月26日に更新された配列を使用した。なお,RefSeqのcDNA配列は,対応する染色体の番号が既知であり,22番染色体に由来する配列は,453配列であった。
まず,22番染色体に由来するRefSeqのcDNA配列を,22番染色体にマッピング可能か否かを評価した。その結果,453配列中マッピングできなかった配列は7本のみであり,(453−7)/453=98.5%のcDNA配列をマッピングすることに成功した。
一方,全RefSeq配列の22番染色体へのマッピングを試み,誤ってマッピングされる配列がないか検討した。その結果,RefSeqの全配列18,255配列のうち,504配列が22番染色体にマッピングされた。すなわち,マッピングされた配列のうち9割近い (453−7)/504=88.5%が22番染色体のcDNA配列であった。
この結果より,cDNA配列のゲノム配列上へのマッピングに,大きな問題がないことを確認した。なお,22番染色体に由来しない配列が22番染色体にマッピングされた場合,22番染色体上のファミリー遺伝子や,パラログ,偽遺伝子に高い相同性を持つ場合が考えられるため,上記の88.5%は22番染色体へのマッピングの正解率そのものではなく,正解率の下限値といえる。
なお、パラメータの値としてK=12,T=0.40,W=2×106を用いた。塩基配列のアラインメントアルゴリズムは非特許文献5のものを用い、スプライスサイトにおけるアラインメントの補正はGT−AGについてのみ行った。
[実施例2]
本発明と同様に,cDNA配列をゲノム配列上へ高速にマッピングする技術として、非特許文献7、非特許文献8の技術が知られており、それらを実装したBLAT, Squallも広く知られている。そこで,これらのシステムと本発明の方法を実装した前記の開発中のプロトタイプシステムで、全RefSeq配列を22番染色体ゲノム配列にマッピングするために要する処理時間の比較を行った。Squall,BLATの処理時間は,Ogasawaraらが計測した非特許文献8の数値を引用した。なお、本発明のプロトタイプシステムは精度向上のための改良がまだ必要な段階にあるが、マッピング処理において最も時間を要する処理,すなわちcDNA配列に対応するゲノム配列上のおおまかな位置の同定と,配列アラインメントの処理が既に実装済みであり,今後の改良で大幅な速度低下は無いと思われる。
処理時間を比較した結果を下記表4(本発明の方法を実装したプロトタイプシステムおよび、既存技術の性能比較表)に示す。動作環境や使用したRefSeq配列のバージョンが異なっているが,処理速度がCPUのクロック周波数に比例し1配列あたりの計算時間が配列のバージョンに依存しないと仮定すれば,本発明のプロトタイプシステムの処理速度はBLATを大きく上回り、Squallと同程度といえる。ただし、Squallは本システムと同程度の処理速度をもつが,overlapping K-merによるゲノム配列のインデキシングを採用しているため,計算機主記憶の消費が激しいと思われる。これに対し、本発明のプロトタイプシステムは,主記憶がわずか1GBのパーソナルコンピュータで動作することに成功した。
Figure 2005176730
[実施例3]
パラメータの最適値は、ある程度までは統計的な評価により推定することが可能だが、入力となるゲノム配列やcDNA配列にも依存するため、最適な値を事前に決定するのは困難である。高精度なマッピングを行うためには、対話式インタフェースを用いて、ユーザがマッピング状況を確認しつつ最適なパラメータ値を調整できることが望ましい。以下で、こうしたことが可能なインタフェースの例について説明する。
図11に、本発明のインタフェース例1101を示す。このインタフェースは、全ゲノム表示領域1102、拡大ゲノム表示領域1103、マッピング状況表示領域1104及びパラメータの値の表示と入力を行う入力ボックス1117とスライダー1118からなる。
全ゲノム表示領域1102には、入力として与えられる全ゲノム配列を象徴的に示すグラフィカル表示が表示される。図11には、ヒトゲノムの全常染色体と性染色体が表示される例を示した。この全ゲノム表示領域には、拡大ゲノム表示領域1103及びマッピング状況表示領域1104が対象とする染色体を強調するグラフィカル表示1105、cDNA配列がマッピングされる領域を表する印1106、1104のマッピング状況表示領域に表示されている位置を表す印1107、1103の拡大ゲノム表示領域に表示されている領域に相当する位置を表す矩形1108が表示される。
全ゲノム表示領域1102の、染色体を示すグラフィカル表示のひとつをクリックすると、染色体を強調表示するグラフィカル表示1105がその染色体に移動する。こうして1105で強調される染色体は、拡大ゲノム表示領域1103及びマッピング状況表示領域1104が表示する対象になり、さらにパラメータが1117又は1118を操作して変更されたとき、マッピング処理を再度実行する対象となる。cDNA配列がマッピングされた領域を表す印1106をポインティングデバイスで指定すると、1104のマッピング状況表示領域に表示されているゲノム領域を印1106の位置へ変更することができる。また、矩形1108の位置を変更することで、拡大ゲノム表示領域1103に表示されるゲノム領域を変更することができる。
拡大ゲノム表示領域1103には、ある染色体の一部が拡大表示され、マッピングの結果得られたエクソン・イントロン構造の閲覧が可能である。ここに表示される領域の一部がマッピング状況表示領域1104にも表示されている場合、その領域は、例えば1112の矩形のように、わかりやすく強調表示される。
マッピング状況表示領域1104には、cDNA配列を象徴的に表すグラフィカル表示1113、ゲノム配列を象徴的に表すグラフィカル表示1114、cDNA配列上のK-merを象徴的に表すグラフィカル表示1115、ゲノム配列上のK-merを象徴的に表すグラフィカル表示1116が表示される。
パラメータK、T、Wの値は、数値入力ボックス1117又はスライダー1118で変更することができる。ただし、Kの値を調整する場合には、あらかじめKがとりうるすべての値について、non-olverlapping K-merによるゲノム配列のインデキシングを完了しておく。主記憶容量の限界などの要因により、複数のKについてnon-overlapping K-merによるインデキシング結果のテーブルを保持するのが困難な場合には、Kについては数値入力ボックス1117及びスライダー1118を単一の値に固定し、変更を認めないものとする。
パラメータTの値を減少させると、マッピングの感度が上がり、マッピングされるlocusが増加する一方で、K-merの単調増加列が偶然にKN/L≧Tを満足しまう場合が増加し、ノイズが拡大する。Wを増加させると、locusが長い遺伝子のマッピングが正確になることが期待されるが、やはりノイズが拡大する恐れがある。Kの値を減少させると、K-merの完全一致がSNPなどの影響を受けにくくなるため、感度が上がることが期待されるが、T、Wの場合と同様にノイズの拡大を招く恐れがある。ユーザは、インタフェース1101を用いて、K、T、Wの値を動かしながら表示領域1102、1103、1104を閲覧することで、最適なパラメータの値を調整することができる。
上記のインタフェースを対話的なものとするためには、マッピングの再計算と画面の更新をリアルタイムで行う必要がある。本発明の方法は、表4に示したように、染色体22番の場合1配列あたり0.014秒でマッピング可能であり、リアルタイム応答を実現するために十分な性能をもつ。
図12に、このインタフェースを実現するための装置の構成の一例を示す。該装置は,主記憶1205に本発明の方法を実行するプログラム1206を格納し,さらにcDNA配列やゲノム配列を格納する。プログラム1206は,中央演算装置1201により実行される。図11のインタフェース1101計算結果は,ディスプレイ1202を通じて表示される。ユーザからの入力はキーボード1203及びポインティングデバイス1204を用いて行われる。
[cDNAゲノムマッピングシステムの実行]
図13に、本発明のcDNAゲノムマッピングシステムを端末上で実行するための初期画面例を示す。本発明の方法を実装したシステムにおいて、cDNA配列、ゲノム配列、および、パラメータK、T、Wを指定するためのGUIインタフェースの一例である。このインタフェースの例では、cDNA配列とゲノム配列は、いずれもファイルに格納されており、ファイル名を入力することによって配列データを取得することを想定している。
ゲノム配列を格納したファイルのファイル名は、記入欄1301にキーボード等を用いて入力するか、ボタン1302を押してファイルセレクタを表示し、ファイルセレクタを用いて指定する。cDNA配列を格納したファイルのファイル名も同様に、記入欄1303にキーボード等を用いて入力するか、ボタン1304を押してファイルセレクタを表示し、ファイルセレクタを用いて指定する。パラメータK、T、Wの値は、数値入力ボックス1305の対応する箇所にキーボード等を用いて直接入力するか、スライダー1306で変更する。
図15は、本発明の方法を実装し、実施例1および実施例2の項で述べたように、予め配列データおよびパラメータを与え、マッピング処理を自動一括実行する場合に、インタフェースのハードウェアが行なう処理と、ソフトウェアが行なう処理の関連を表すフローチャートである。図中、細い線の矩形がインタフェースの処理、太い線の矩形がソフトウェアの処理である。
図16は、本発明の方法を実装し、実施例3の項で述べた対話型インタフェースを通じてマッピング処理を行なう場合に、インタフェースのハードウェアが行なう処理と、ソフトウェアが行なう処理の関連を表すフローチャートである。図中、細い線の矩形がインタフェースの処理、太い線の矩形がソフトウェアの処理である。
cDNA配列とゲノム配列に含まれる情報を最大限に活用するためには、cDNA配列をゲノム配列にマッピングする技術が不可欠である。背景技術の項で述べたように、ゲノム配列上の遺伝子に相当する領域の同定,特定の遺伝子のゲノム上での位置の同定、プロモーター配列の解析,遺伝子のエクソン・イントロン構造の同定などが可能になる。ゲノム配列とcDNA配列が異なる個体から得られることを利用して、SNPも検出できる。こうして得られるデータは、創薬をはじめとするバイオテクノロジーに必須のものである。つまり、マッピング技術はcDNA配列及びゲノム配列を勝つようする他の多くの技術の基盤となるものである。
また、生命科学に関する教育の現場では、学生等が関心のある遺伝子をゲノム配列にマッピングする実習を行う場合、多数の生徒が同時にマッピング処理を行うと、計算機に大きな負荷がかかる。本発明の方法を用いれば、小規模な計算機でもマッピング処理が可能なため、安価な計算機で対処でき、実習が可能な環境を低コストで提供できる。
cDNA配列上のK-merとゲノム配列上のK-merの、完全一致の組から、本発明の方法によりマッピングに相当する組を選択する処理の説明図。 ゲノムとcDNAの関係、及びマッピングの概念についての説明図。 本発明の方法の概要。 ゲノム配列上のnon-overlapping K-merをテーブルに登録する処理の説明図。この図は、K=3の例。 ゲノム配列上のoverlapping K-merをテーブルに登録する処理の説明図。この図は、K=3の例。 cDNA配列上のK-merとゲノム配列上のK-merの、完全一致の組についての説明図。 K-merの対応に基づき、配列比較を行い塩基の対応関係に拡張する処理の説明図。 K-merの対応に基づき、配列比較を行い塩基の対応関係に拡張する際に、2つ以上のK-merの対応が存在し配列比較の処理が重複する場合が発生することの説明図。 K-merの対応に基づき、配列比較を行い塩基の対応関係に拡張する処理の説明図。 スプライスサイトにおいて、イントロンがGTで始まりAGで終了するよう塩基の対応を補正する処理の説明図。 本発明のパラメータを、マッピング結果をリアルタイムで確認しつつ調整することを可能にするインタフェースの一例。 図11のインタフェースを実現するための装置の一例。 本発明のcDNAゲノムマッピングシステムを端末上で実行するための画面例。 本発明の方法において、cDNA配列上のK-merと、ゲノム配列上のK-merを対応させる方法を説明するフローチャート。 本発明の方法を実装し、マッピング処理を自動一括実行する場合に、インタフェースのハードウェアが行なう処理と、ソフトウェアが行なう処理の関連を表すフローチャート。 本発明の方法を実装し、対話型インタフェースを通じてマッピング処理を行なう場合に、インタフェースのハードウェアが行なう処理と、ソフトウェアが行なう処理の関連を表すフローチャート。
符号の説明
101: cDNA配列。
102: cDNA配列上の座標を表す数値。
103: あるK-merのcDNA配列上の座標。
104: cDNA配列上の、あるひとつのK-mer。
105: ゲノム配列。
106: あるK-merのゲノム配列上の座標。
107: ゲノム配列上の座標を表す数値。
108: ゲノム配列上の、あるひとつのK-mer。
109: cDNA配列上のあるK-merとゲノム配列上のあるK-merの組であって、本発明の方法によりマッピングに相当するとして選択された組を象徴的に示す矢印。
110: cDNA配列上のあるK-merとゲノム配列上のあるK-merの組であって、本発明の方法によりマッピングに相当しないとして棄却された対応を象徴的に示す矢印。
401: ゲノム配列上のnon-overlapping K-merの例。ここでは、K=3である。
402: ゲノム配列上のnon-overlapping K-merをテーブルに登録する処理を象徴的に示す矢印。
403: ゲノム配列上のnon-overlapping K-merが登録されたテーブル。
501: ゲノム配列上のoverlapping K-merの例。ここでは、K=3である。
502: ゲノム配列上のoverlapping K-merをテーブルに登録する処理を象徴的に示す矢印。
503: ゲノム配列上のoverlapping K-merが登録されたテーブル。
601: cDNA配列上のあるK-merと、ゲノム配列上のあるK-merの組を象徴的に示す矢印。
701: 完全一致するcDNA配列上のK-merとゲノム配列上のK-merを表す矩形。
702: 完全一致するK-merの組に基づき、配列比較を行なって塩基の対応へと拡張していくことを象徴的に示す矢印。
801: 完全一致するK-merの組に基づき、配列比較を行なって塩基の対応へと拡張していく仮定で、K-merの複数の対応から開始され、衝突してしまう拡張を象徴的に示す矢印。
901: cDNA配列上のエクソン境界に、イントロンと対応させるために挿入されたギャップ。
902: ゲノム配列上で、エクソンに相当する部分。
903: ゲノム配列上で、イントロンに相当する部分。
904: イントロンの開始位置に存在するグアニン(G)とチミン(T)。
905: イントロンの末尾位置に存在するアデニン(A)とグアニン(G)。
1001: ゲノム配列上で、エクソンに相当すると思われるが、隣接するイントロンがGTで始まらずAGでも終わらないために、確実にエクソンに相当するとはいえない部分。
1002: ゲノム配列上で、塩基の対応からはイントロンに相当するが、GTで始まらずAGでも終わらないために、確実にイントロンに相当するとはいえない部分。
1003: スプライスサイトにおけるアラインメントの補正処理を象徴的に示す矢印。
1004: スプライスサイトにおけるアラインメント補正のため、下流側のエクソンの開始位置にあったグアニン(G)を上流側のエクソンの末尾位置に移動させる処理を象徴的に示す矢印。
1101: 本発明の高精度ゲノムマッピングインタフェースの例。
1102: 本発明の高精度ゲノムマッピングインタフェースの例における、全ゲノム表示領域。
1103: 本発明の高精度ゲノムマッピングインタフェースの例における、拡大ゲノム表示領域。
1104: 本発明の高精度ゲノムマッピングインタフェースの例における、cDNA配列上のK-merとゲノム配列上のK-merの完全一致する組を表示するマッピング状況表示領域。
1105: 全ゲノム配列のうち、拡大ゲノム表示領域1103及びマッピング状況表示領域1104で表示する染色体を表すグラフィカル表示の例。
1106: 全ゲノム配列上で、cDNA配列がマッピングされた位置を表す印の例。
1107: 全ゲノム配列上で、cDNA配列がマッピングされた位置のうち、cDNA配列上のK-merとゲノム配列上のK-merの対応を表示する領域1104に表示されている位置を表す印の例。
1108: 全ゲノム配列上で、拡大ゲノム表示領域1103に表示される領域を表示あるいは選択するために用いられる矩形の表示例。
1109: ゲノム配列の表示例。
1110: ゲノム配列上の、エクソンの表示例。
1111: cDNA配列がマッピングされた領域の表示例。
1112: マッピング状況表示領域1104に表示されているゲノム上の領域を表す印の例。
1113: cDNA配列の表示例。
1114: ゲノム配列の表示例。
1115: cDNA配列上のK-merの表示例。
1116: ゲノム配列上のK-merの表示例。
1117: パラメータの、数値表示及び入力を行うボックス。
1118: パラメータの、数値表示及び入力を行うスライダー。
1201: 本発明の方法を実行するCPU。
1202: 1101のインタフェースを表示するためのディスプレイ。
1203: 1101のインタフェースにおいて、入力を行うためのキーボード。
1204: 1101のインタフェースにおいて、入力を行うためのポインティングデバイス。
1205: 本発明の方法を実行する計算機の主記憶装置。
1206: 1205の主記憶に格納された、本発明の方法を実行するためのプログラム。
1207: 1205の主記憶内に構築された、ゲノム配列上のnon-overlapping K-merのテーブル。
1208: 入力であるcDNA配列、ゲノム配列が格納された補助記憶装置。
1301: ゲノム配列を格納したファイルのファイル名を表示し、かつ入力も可能な記入欄。
1302: ゲノム配列を格納したファイルのファイル名を指定するための、ファイルセレクタを表示させるためのボタン。
1303: cDNA配列を格納したファイルのファイル名を表示し、かつ入力も可能な記入欄。
1304: cDNA配列を格納したファイルのファイル名を指定するための、ファイルセレクタを表示させるためのボタン。
1305: パラメータK,T,Wの、数値表示および入力を行なうための数値入力ボックス。
1306: パラメータK,T,Wの、数値表示および入力を行なうためのスライダー。

Claims (9)

  1. cDNA配列の配列情報が入力されるステップと、
    前記cDNA配列をK塩基長の部分配列に分けるステップと、
    前記cDNA配列と比較すべきゲノム配列をK塩基長の部分配列に分けるステップと、
    前記cDNA配列のK塩基長の部分配列と一致する、前記ゲノム配列のK塩基長のn個(n≧1)の部分配列の座標を対応させるステップと、
    前記cDNA配列のK塩基長の部分配列の座標pを第1の要素とし、その部分配列と一致する前記ゲノム配列のK塩基長の部分配列の座標qを第2の要素とした組(p、q)の列を、p毎に、qが降順となるように形成するステップと、
    前記第1の要素pが昇順となるように、前記列を連結するステップと、
    前記連結された列から、前記第2の要素qが昇順になる部分列を抽出するステップと、
    前記抽出された部分列について、前記cDNA配列のK塩基長の部分配列と前記ゲノム配列のK塩基長の部分配列との対応付を行うステップと、
    前記K塩基を対応付けた情報を、cDNA配列とゲノム配列のアラインメントを行うことにより、個々の塩基の対応へ拡張するステップと、
    前記個々の塩基の対応を出力するステップとを有することを特徴とするcDNA配列のマッピング方法。
  2. 前記K塩基長は、30塩基長以下であることを特徴とする請求項1記載のcDNA配列のマッピング方法。
  3. cDNA配列をK塩基長の部分配列に分ける前記ステップは、前記cDNA配列を1塩基ずつずらして得られる部分配列に分けるステップであることを特徴とする請求項1記載のcDNA配列のマッピング方法。
  4. ゲノム配列を互いに異なるK塩基長の部分配列に分ける前記ステップは、互いに重ならないK塩基長部分配列に分けることを特徴とする請求項1記載のcDNA配列のマッピング方法。
  5. ゲノム配列上の幅Wの領域のみを切り出して、請求項1記載の方法を適用し、さらに前記幅Wの領域を移動させて同様に請求項1記載の方法を適用することを特徴とするcDNA配列のマッピング方法。
  6. 前記対応付けた情報を出力するステップは、1の軸にcDNA配列、他の軸にゲノム配列を2次元的に配置した情報を出力するステップであることを特徴とする請求項1記載のcDNA配列のマッピング方法。
  7. 前記個々の塩基を対応させるステップは、イントロン配列がGTで始まりAGで終わるようにスプライスサイトの位置を補正する処理を包含するステップであることを特徴とする請求項1記載のcDNA配列のマッピング方法。
  8. ゲノム配列情報が記憶されたゲノム配列格納手段と、
    cDNA配列情報を入力させる入力部と、
    入力された前記cDNA配列を、K塩基長の部分配列に分割する分割手段と、
    格納された前記ゲノム配列情報を、K塩基長の部分配列に分割する分割手段と、
    前記cDNA配列のK塩基長の部分配列を、前記ゲノム配列のK塩基長の部分配列と比較し、前記cDNA配列のK塩基長の部分配列と一致する1つ又は複数のゲノム配列のK塩基長の部分配列の座標を同定する比較手段と、
    前記cDNA配列のK塩基長の部分配列の座標を第1の要素pとし、その部分配列と一致する前記ゲノム配列のK塩基長の部分配列の座標を第2の要素qとする組(p,q)の列を、p毎に、qが降順となるように形成し、続いてpが昇順となるように、前記列を連結し、その後、前記第2の要素qが昇順になる部分列を抽出する計算手段と、
    前記抽出された部分列について、前記cDNA配列のK塩基長の部分配列と前記ゲノム配列のK塩基長の部分配列との対応付を行う手段と、
    前記K塩基を対応付けた情報を、cDNA配列とゲノム配列のアラインメントを行うことにより、個々の塩基の対応へ拡張する手段と、
    前記個々の塩基の対応を出力する出力手段とを有することを特徴とするcDNA配列のマッピングシステム。
  9. cDNA配列上のK塩基長の部分配列と、それらと完全一致するひとつ以上のゲノム配列上のK塩基長の部分配列を請求項1〜7項のうちいずれか1項に記載の方法でマッピングされた結果をグラフィカル表示し、前記請求項1〜7項のうちいずれか1項に記載の方法のひとつ以上のパラメータが変更された場合に、マッピング処理を再実行した結果を表示することを特徴とする表示方法。
JP2003423065A 2003-12-19 2003-12-19 cDNA配列をゲノム配列にマッピングする方法 Abandoned JP2005176730A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003423065A JP2005176730A (ja) 2003-12-19 2003-12-19 cDNA配列をゲノム配列にマッピングする方法
US11/011,954 US20050159898A1 (en) 2003-12-19 2004-12-15 Method that aligns cDNA sequences to genome sequences

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003423065A JP2005176730A (ja) 2003-12-19 2003-12-19 cDNA配列をゲノム配列にマッピングする方法

Publications (2)

Publication Number Publication Date
JP2005176730A JP2005176730A (ja) 2005-07-07
JP2005176730A6 true JP2005176730A6 (ja) 2006-04-06

Family

ID=34746817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003423065A Abandoned JP2005176730A (ja) 2003-12-19 2003-12-19 cDNA配列をゲノム配列にマッピングする方法

Country Status (2)

Country Link
US (1) US20050159898A1 (ja)
JP (1) JP2005176730A (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8050872B2 (en) * 2007-05-04 2011-11-01 New York University System and method for rapid searching of highly similar protein-coding sequences using bipartite graph matching
JP6457811B2 (ja) 2011-09-23 2019-01-23 オックスフォード ナノポール テクノロジーズ リミテッド ポリマー単位を含むポリマーの解析
EP3736339B1 (en) 2012-02-16 2022-07-27 Oxford Nanopore Technologies plc Analysis of measurements of a polymer
US10083275B2 (en) 2012-12-13 2018-09-25 International Business Machines Corporation Stable genes in comparative transcriptomics
GB201222928D0 (en) 2012-12-19 2013-01-30 Oxford Nanopore Tech Ltd Analysis of a polynucleotide
CN103065067B (zh) * 2012-12-26 2016-07-06 深圳先进技术研究院 短序列组装中序列片段的过滤方法及系统
KR101600660B1 (ko) * 2013-05-09 2016-03-07 삼성에스디에스 주식회사 리드의 퀄리티를 고려한 염기 서열 처리 시스템 및 방법
CN103761453B (zh) * 2013-12-09 2017-10-27 天津工业大学 一种基于簇图结构的并行基因拼接方法
KR102551897B1 (ko) 2014-10-16 2023-07-06 옥스포드 나노포어 테크놀로지즈 피엘씨 폴리머의 분석
US20160246921A1 (en) * 2015-02-25 2016-08-25 Spiral Genetics, Inc. Multi-sample differential variation detection
US10319465B2 (en) 2016-11-16 2019-06-11 Seven Bridges Genomics Inc. Systems and methods for aligning sequences to graph references
TW202107475A (zh) * 2019-04-26 2021-02-16 日商位元生醫股份有限公司 單一生物單位之序列資訊之新穎處理法

Similar Documents

Publication Publication Date Title
Alser et al. Technology dictates algorithms: recent developments in read alignment
Herrero et al. Ensembl comparative genomics resources
Diniz et al. Bioinformatics: an overview and its applications
US20200232029A1 (en) Systems and methods for mitochondrial analysis
US10600217B2 (en) Methods for the graphical representation of genomic sequence data
Li Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences
US9165109B2 (en) Sequence assembly and consensus sequence determination
Zhu et al. Refined annotation of the Arabidopsis genome by complete expressed sequence tag mapping
US20160259880A1 (en) Systems and methods for genomic pattern analysis
Batzoglou The many faces of sequence alignment
US20090076735A1 (en) Method, system and software arrangement for comparative analysis and phylogeny with whole-genome optical maps
WO2017120128A1 (en) Systems and methods for adaptive local alignment for graph genomes
JP2005176730A6 (ja) cDNA配列をゲノム配列にマッピングする方法
JP2005176730A (ja) cDNA配列をゲノム配列にマッピングする方法
US8788522B2 (en) Pair character string retrieval system
CA3019336A1 (en) Methods for analysis of digital data
US20220254444A1 (en) Systems and methods for detecting recombination
CN112885412B (zh) 基因组注释方法、装置、可视化平台和存储介质
US20180060484A1 (en) Extending assembly contigs by analyzing local assembly sub-graph topology and connections
JP6691871B2 (ja) 融合遺伝子解析装置、融合遺伝子解析方法、及びプログラム
JP5469882B2 (ja) 生物種同定方法及びシステム
MXPA05010276A (es) Perfil genomico de sitios de enlace al factor regulador.
US20170132361A1 (en) Sequence assembly method
Li et al. A novel genome-scale repeat finder geared towards transposons
JP2000285120A (ja) 遺伝子発現探索方法及びその装置