JPH1040257A - 文字配列比較方法、およびそれを用いたアセンブル方法 - Google Patents

文字配列比較方法、およびそれを用いたアセンブル方法

Info

Publication number
JPH1040257A
JPH1040257A JP8194340A JP19434096A JPH1040257A JP H1040257 A JPH1040257 A JP H1040257A JP 8194340 A JP8194340 A JP 8194340A JP 19434096 A JP19434096 A JP 19434096A JP H1040257 A JPH1040257 A JP H1040257A
Authority
JP
Japan
Prior art keywords
character
probability
reliability
sequence
assembling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8194340A
Other languages
English (en)
Inventor
Tetsuo Nishikawa
哲夫 西川
Keiichi Nagai
啓一 永井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8194340A priority Critical patent/JPH1040257A/ja
Publication of JPH1040257A publication Critical patent/JPH1040257A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

(57)【要約】 【課題】 高精度で効率的に複数のDNA配列のアセン
ブルを行うための文字配列比較方法、およびそれを用い
たアセンブル方法を提供すること。 【解決手段】 データ入力プログラム201、文字精度計
算プログラム202、文字精度を使用した配列間比較プロ
グラム203、文字精度を使用したアセンブル配列導出プ
ログラム204、およびアセンブル結果の表示プログラム2
05を順次実行し、文字精度を利用して、複数の配列間で
重なり部分を検出し、重なりを持つ配列間でアラインメ
ントを行い、アセンブル配列を得、アセンブル配列をア
センブル配列の精度とともに表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字配列比較方
法、およびそれを用いたアセンブル方法に関し、特にDN
A、RNAやアミノ酸の配列の文字配列比較方法、およびそ
れを用いたアセンブル方法に関する。
【0002】
【従来の技術】ヒトや酵母、マウス等の遺伝子DNAを全
て決定する大規模ゲノムプロジェクトが世界的な規模で
進行中であり、医学に対する甚大な貢献が期待されてい
る。ゲノム配列の決定方法は、ショットガン法(バイオ
テクノロジーのためのコンピュータ入門、1995年、コロ
ナ社、第 55頁から第58頁)が配列決定の最も一般的な
方法として使用されている。ショットガン法では、数k
塩基〜数10k塩基のDNA配列を超音波等でランダムな長さ
の配列に切断した試料を用いて配列決定を行い、その後
決定された配列どうしの重なりを計算機で検出して接続
(以下、このように接続することを「アセンブル」とい
う)していくことでより長い領域の配列を決定してい
く。以下、このように接続された配列を「アセンブル配
列」という。
【0003】その際、配列決定されたDNA断片中には通
常誤りがあるので、誤りを一定量のしきい値まで許容し
て重なりの検出を行う。また、接続された配列中の各文
字間で対応づけを行ったものから最終的な塩基配列を決
定する際、各塩基位置に対して多数決のルールで塩基を
決定する。以下、対応付け、および対応付けを行ったも
のを「アラインメント」という。複数の塩基が有意な候
補として上がった場合、その情報を文字で表現し、最後
にエレクトロフェログラムを参照しながらマニュアルで
最終的に塩基を確定する。アラインメントを行う際に
は、最も厳密な比較が可能なダイナミックプログラミン
グを重なりの検出に用いるアルゴリズムが多く提案され
ている(ジェノミクス、14(1992)第18頁から25頁(Ge
nomics、14(1992)pp18−25))。
【0004】最近では、全体の配列決定の効率を増加さ
せるために、より大規模なアセンブリングを行う例が増
えてきている(ジェノム・サイエンス・アンド・テクノ
ロジー、1(1995)第9頁から19頁(Genome Science & T
echnology、1(1995)pp9−19))。
【0005】
【発明が解決しようとする課題】数10k塩基以上の大規
模なアセンブリングになると、重なり検出時間や編集の
手間が増加しアセンブリングのスループット向上が必要
になってくるとともに、配列決定自体の精度のむらやリ
ピート配列の存在などから生じてくるアセンブルの精度
の低下が問題になってくる。アセンブルのスループット
は、大規模プロジェクトの迅速な遂行にとって非常に重
要な要素であり、またアセンブル結果の精度はDNA配列
からアミノ酸への翻訳結果の精度に直結し、最終的な機
能解析の質を左右するという点で非常に重要である。
【0006】従来のアセンブルの方法は、アラインメン
トやアラインメントからの配列決定の際に、各DNA断片
の各塩基位置での所定の文字である確率およびこの確率
の値の信頼度(この確率と信頼度の組を、以下「文字精
度」という)を使用していない。すなわち、アラインメ
ントされた文字間で矛盾があると、各部分に対等の重み
を付けて最終的な配列決定を行っている。ところが、実
際のDNA断片においては、配列決定装置や装置の稼働条
件、あるいは試料DNAの前処理反応等に応じて配列決定
のもとになる電気泳動エレクトロフェログラムのパター
ンの質が変化する。その結果、試料断片による精度の違
いや断片内の位置に依存した文字精度の変化が大きい点
に問題がある。
【0007】例えば、DNA断片の3’側では5’側に比
べて配列決定時のピークの識別が困難なため、挿入や欠
失のエラーが多いことが知られている。また、ストップ
反応のため同一場所に複数のピークが出現して塩基種の
決定を間違う場合や、DNA電気泳動のむらのため連続し
たピークがその周辺よりも圧縮され欠失エラーが生じる
場合もある。従来法では、このように文字精度にむらの
ある断片群の各部分を対等に扱ってアラインメントを行
う結果、文字精度の悪い部分が全体のアラインメントに
悪影響を与える場合が生じる。例えば、文字精度の悪い
部分をうまく接続するために誤りの許容しきい値を大き
くしてアセンブルを行うと、そのせいで他の部分でノイ
ズ配列が重なってきてうまく接続できないというような
ことが起こる。このアラインメントへの悪影響は、アセ
ンブル自体の最適化の手間に加えて、アセンブルの完成
のためにさらに余分な実験が必要になることから、全体
の配列決定のスループットを大幅に低下させる点に問題
がある。
【0008】また、アラインメントが間違い、誤った配
列が最終的に決定されてしまう場合がありえる。特にス
ペースの誤りが生じた場合は、アミノ酸への翻訳結果を
大幅に狂わせる結果となり、決定された配列データを用
いたあらゆる研究や医療に支障をきたす場合が生じてく
る。また、アセンブルの結果最終的に決定された配列
は、その機能解析が行なわれる。同時に、決定された配
列の中の部分配列の両端の配列から、PCRプライマーと
呼ばれる20塩基長程度のDNA断片を設計する。設計され
たDNA断片を用いてその部分配列を含むDNA断片を増幅さ
せ、マーカーとして利用することも行なわれている。ア
ラインメントの間違いは、決定された配列から設計され
たPCRプライマーの間違いにつながり、そのPCRプライマ
ーの利用の精度を低下させることになる。
【0009】上記従来技術では、複数のDNA配列のアセ
ンブルの際に、各DNA配列の各塩基の文字精度について
配慮されておらず、大規模なアセンブルの際にアセンブ
ルの精度が悪化する点に問題があり、さらにアセンブル
の効率が低下する点に問題がある。
【0010】本発明の目的は、前記従来技術の諸問題を
解決する、文字精度を利用した文字配列比較方法、およ
びそれを用いたアセンブル方法を提供することにある。
【0011】
【課題を解決するための手段】上記目的を達成するため
に本発明では、複数種類の文字が並ぶ複数の文字配列の
所定の部分を対向させ、対向位置で文字が所定の文字で
ある確率と、確率の信頼度と、所定の文字の組合せにつ
いての所定の類似度スコアと、を用いて、対向位置で対
向する文字間の類似性を示す文字間スコアを求める文字
配列比較方法に特徴を有する。さらに、文字間スコア
を、複数の文字配列の所定の部分にわたり積算し、積算
値が最大になるように、所定の部分を対向させ、複数種
類の文字が並ぶ複数の文字配列、確率および信頼度を、
核酸断片のエレクトロフェログラム情報から求める。
【0012】複数の文字配列を構成する文字は、A、
C、G、T、およびスペースであり、エレクトロフェロ
グラム情報は、ピーク位置、S/N比、ピーク間隔、お
よぴピーク幅を含み、確率および信頼度に対応して類似
度スコアを設定する。エレクトロフェログラム情報は、
さらに微分係数を含んでいてもよい。また、複数の文字
配列の一致度を、確率および信頼度から求める。複数の
文字配列の文字データ、確率、信頼度、およびエレクト
ロフェログラム情報が情報記憶媒体に記憶されていても
よい。
【0013】さらに詳細に本発明を説明すると、複数種
類の文字が並ぶ複数の文字配列の所定の部分を対向さ
せ、対向位置のそれぞれで対向する文字の組合せとして
所定の文字の組合せを考慮して、所定の文字の組合せに
ついての所定の類似度スコアのそれぞれに、対向位置で
所定の文字の組合せである確率を掛け、確率が掛けられ
た類似度スコアを、所定の文字の組合せのすべてについ
て積算して得られる積算値に、対向位置で所定の文字の
組合せである確率の信頼度を掛けた値を対向位置での文
字間スコアとする文字配列比較方法に特徴を有する。
【0014】複数の文字配列の所定の部分を対向させる
際、複数の文字配列の少なくとも一つの文字配列に少な
くとも一つのスペースを加え、文字間スコアが、スペー
スに隣接する位置での文字が所定の文字である確率の信
頼度とスペースに対向する位置での文字が所定の文字で
ある確率の信頼度とから求められるスコアを含み、文字
間スコアを、複数の文字配列の所定の部分にわたり積算
し、積算値が最大になるように、所定の部分を対向させ
る。
【0015】さらに本発明では、上記文字配列比較方法
を用いて、対向位置のそれぞれに対して文字を推定し、
推定された文字からなるアセンブル配列を求めるアセン
ブル方法に特徴を有する。確率および信頼度から、アセ
ンブル配列のそれぞれの文字について、推定された文字
である確率、および推定された文字である確率の信頼度
を求める。アセンブル配列を、推定された文字である確
率、および推定された文字である確率の信頼度と共に表
示してもよい。
【0016】アラインメントを行う際には、配列中の文
字間の類似度スコアの絶対値を、信頼度が小さい位置に
おいて信頼度の高い位置における値よりも小さくする。
このようにアラインメントを行うことにより、信頼度の
低い位置におけるスコアの全体スコアに対する重みを小
さくすることができる。その結果、信頼度の低い位置に
おける配列間違いが全体のスコアに及ぼしていた悪影響
を低減させ、より精度の高いアラインメントが得られる
ようになる。
【0017】さらに、配列中の文字間の類似度スコアを
計算する際、あらかじめ定義された各文字種間の固有の
類似度に各文字種をとる確率の重みをかけて、各文字種
について総和をとることによって計算を行う。これによ
って、これまで切り捨てられていた、各文字が他の文字
である可能性を考慮にいれてスコアを計算することが可
能になり、正確なアラインメントが得られるようにな
る。特にスペースの配置がより正確になり、最終配列中
のスペースの精度が向上する。従って、DNA配列からア
ミノ酸配列への翻訳の精度が格段に向上し、機能解析が
より高精度で可能になる。
【0018】本方法によって、アセンブルの効率と質を
大幅に高め、現在活発に進行中のゲノム計画の迅速な遂
行に寄与することが可能である。また、得られた精度情
報を伴った配列情報をPCRプライマー作成、およびデー
タベース検索や作成に活用することが可能であり、ゲノ
ム計画で主要な役割をはたすこれらの技術の高精度化に
大きく寄与することが可能である。
【0019】
【発明の実施の形態】図1を用いて、以下、本発明の一
実施の形態を説明する。本実施の形態においては、文字
配列間の比較を行う場合の例として、ショットガン法で
得られた2本以上のDNA塩基配列に対して、それらの間
の比較に基づいてそれらの間の重なりを検出し、それに
よってもとの配列を再現する方法(アセンブル法と称す
る)の例を説明する。本実施の形態では、DNA塩基配
列について説明するが、RNA塩基配列であってもよ
い。
【0020】本装置は、ディスプレイ100、キーボード1
01、中央制御装置CPU102、光磁気ディスクドライバ10
3、入力データ302(配列データ104、エレクトロフェロ
グラムデータ105、文字精度データ106、配列決定条件デ
ータ107、および文字精度パラメータ表108)を格納する
磁気ディスク109、主メモリ200から構成される。主メモ
リ200には、データ入力プログラム201、文字精度計算プ
ログラム202、文字精度を使用した配列間比較プログラ
ム203、文字精度を使用したアセンブル配列導出プログ
ラム204、アセンブル結果の表示プログラム205、および
階層制御プログラム207が格納されると共に、データエ
リア206が確保されている。これらのプログラムはCPU10
2で実行される。
【0021】まず、キーボード101から入力されるコマ
ンドによりCPU102が階層制御プログラム207を実行し、
その制御に基づいてデータ入力プログラム201、文字精
度計算プログラム202、文字精度を使用した配列間比較
プログラム203、文字精度を使用したアセンブル配列導
出プログラム204、およびアセンブル結果の表示プログ
ラム205を順次実行する。データ入力の際には、階層制
御プログラム207の制御に基づいてCPU102がデータ入力
プログラムを実行して、光磁気ディスクドライバ103に
挿入される光磁気ディスク300中の入力データ302(配列
データ104、エレクトロフェログラムデータ105、文字精
度データ106、配列決定条件データ107、および文字精度
パラメータ表108)を読み込み磁気ディスク109中に配列
データ104、エレクトロフェログラムデータ105、文字精
度データ106、配列決定条件データ107、および文字精度
パラメータ表108として格納する。データ入力は、配列
決定装置301から直接ネットワークを介して行ってもよ
い。
【0022】文字精度データが得られていない場合に
は、CPU102が文字精度計算プログラム202を実行して、
読み込んだエレクトロフェログラムデータを用いて文字
精度を導出する。文字精度の導出の際には、配列決定条
件データに基づいて作成された文字精度パラメータ表を
用いる。文字精度パラメータ表108の作成はプログラム
実行前に行っておいてもよいし、文字精度計算プログラ
ム202中で行ってもよい。文字精度パラメータ表、およ
び導出された文字精度は、文字精度パラメータ表108、
および文字精度データ106として磁気ディスク109中に格
納される。
【0023】次に、文字精度を使用した配列間比較プロ
グラム203をCPU102が実行する。その際、キーボード101
から入力された配列間比較に用いる誤り許容率が、CPU1
02に送られる。配列間比較は、導出、あるいは入力され
た文字精度データと誤り許容率を用いて行なわれ、全配
列間で重なり部分の検出を行う。その後、文字精度を使
用したアセンブル配列導出プログラム204を実行して、
配列間比較プログラムで得られた重なりを持つ配列間で
アラインメントを行い、それを基にアセンブル結果を求
める。この際にも、文字精度を利用して行う。得られた
アセンブル配列は、アセンブル結果の表示プログラム20
5を実行して、アセンブル配列の精度とともにディスプ
レイ上に表示する。以上が本発明の文字配列比較方法、
およびそれを用いたアセンブル方法を用いた装置の概略
である。
【0024】図2を用いて、以下、各プログラムの詳細
について説明する。 (データ入力プログラム)図2(a)に示すようにデータ
入力プログラム201は、配列入力ステップ400、エレクト
ロフェログラム入力ステップ401、文字精度入力ステッ
プ402、および配列決定条件入力ステップ403から構成さ
れる。
【0025】配列入力ステップ400において、アセンブ
ルを行う2本以上のDNA塩基配列を入力する。その際、
各配列の方向情報も入力する。エレクトロフェログラム
入力ステップ401では、配列決定装置で測定されたDNA断
片のエレクトロフェログラムの数値情報を入力する。文
字精度入力ステップ402では、あらかじめ文字精度がエ
レクトロフェログラムに基づいて求められていた場合
に、その文字精度情報を入力する。配列決定条件入力ス
テップ403では、配列決定に関わる各種の条件を入力す
る。例えば、DNA試料の配列決定反応のプロトコル(特
にDNA合成酵素の種類)や配列決定装置の電気泳動の各
種条件(ゲル濃度、泳動長、ゲル厚、印加電界強度)を
入力する。
【0026】(文字精度計算プログラム)図2(b)に示
す文字精度計算プログラム202は、信頼度計算ステップ5
00と確率計算ステップ501からなる。文字精度は、各文
字位置での所定の文字である確率、およびこの確率の値
の信頼度の組であり、あらかじめ文字精度がエレクトロ
フェログラムに基づいて求められていない場合は、本プ
ログラム202によって、入力したエレクトロフェログラ
ムを用いて文字精度の計算を行う。
【0027】図3は、DNAシーケンサーから出力されたエ
レクトロフェログラムの例であり、配列決定に用いられ
る文字精度の定義に用いられる量を示す図である。エレ
クトロフェログラムは、一つのDNA試料に対して4つの蛍
光強度のスペクトルで表わされる。それぞれのスペクト
ルは、塩基種A、C、G、Tに対応したシーケンシング反応
DNA断片の電気泳動スペクトルであり、横軸は泳動時間
である。例えば、A反応のスペクトル中の各ピークは、D
NA試料から生成されたA塩基種を末端に持つさまざまな
長さのDNA断片に対応している。DNA断片が長い程、ピー
クの出現時間が遅くなる。試料DNAの塩基配列は、4つの
スペクトルを泳動時間の順に同時にみていき、4つのス
ペクトルの内どのスペクトル中でピークが出現するか
を、時間順に同定していくことによって決定される。こ
の際、ほぼ一定間隔で一定の位置に4つのスペクトル中
の全てにピークが出現する。これらのうち3つは反応の
アーティファクトに起因する。通常の方法では、同じ位
置で最も大きいピークを真の反応ピークと同定し塩基種
を決定する。
【0028】本方法においては、配列中(ここでは配列
1とする)の各文字位置(ピーク位置m)における各種文
字を取りえる確率を、各文字位置における各文字種のピ
ーク強度の相対比から(数1)に示すように定義する。
【0029】
【数1】
【0030】ここで、 PA 1,m :配列1のm番目文字位置において、A文字である確率、 PC 1,m :配列1のm番目文字位置において、C文字である確率、 PG 1,m :配列1のm番目文字位置において、G文字である確率、 PT 1,m :配列1のm番目文字位置において、T文字である確率、 Iam、Icm、Igm、Itm:ピーク位置mにおけるA、C、G、Tのピーク強度。
【0031】次に、配列1中の各文字位置における(ピ
ーク位置m)確率の信頼度B1,mは、例えば(数2)で表
わされる。
【0032】
【数2】
【0033】ここで、 F1=Snmの増加関数、 F2=dam/Wmの増加関数、 F3=dam/davmの関数、 Snm=Max(Iam/Na, Icm/Nc, Igm/Ng, Itm/Nt)、 dam=( dm + dm+1 )/2、 Wm=Min(Wam,Wcm,Wgm,Wtm)、 davm=(dm-10+dm-9+dm-8+ - - -+dm+8+dm+9)/20、 Iam、Icm、Igm、Itm:ピーク位置mにおけるA、 C、 G、
Tのピーク強度、 Na、Nc、Ng、Nt :A、 C、 G、 Tスペクトルのノイズ
振幅、 dm :ピーク位置mとピーク位置m+1のピ
ーク間の間隔、 Wam、Wcm、Wgm、Wtm:ピーク位置mにおけるA、 C、 G、
Tのピーク半値幅。
【0034】ピークのS/N比(Iam/Na、Icm/Nc、Igm
/Ng、Itm/Nt)が大きい程、ノイズの中からのピーク
の検出が容易になる。また、ピーク間隔/ピーク幅(da
m/Wm)が大きい程ピークが良く分離される。従って、F
1とF2の項は、ピークのS/N比とピーク間隔/ピーク幅
が大きい程、得られたピークの信頼度が増加することを
取り入れるためのものである。ピーク間隔がその周辺に
比べて異なる値を持つ場合は、ピークのコンプレッショ
ン(DNA断片内の相補的領域間の結合によってDNA断片の
移動度に変化が生じピークの圧縮が引き起こされる現
象)が生じている可能性が高く、そこのピークの信頼度
は低くなると考えられる。F3の項は、この要素を信頼度
に取り入れるためのものである。
【0035】例えば、F1では、図4(a)に示すようなS字
型の関数を用いて、Snmが1を越えたところで急速に大
きくなり1に近づくようにすれば良い。また、F2では、
図4(b)に示すようなS字型の関数を用いて、dam/Wmが
0から1に近づいたところで急速に1に近づくようにす
れば良い。F3の項としては、着目するピークのdam値と
着目するピーク周辺のピーク(例えば前後合わせて20ピ
ーク)についての平均値davmとの比dam/davmの関数と
して、図4(c)に示すようにdam/davm=1の近傍のみで1
近くの値をとり1から離れるに従って急速に0に近づく
関数を選べばよい。
【0036】F1、F2、F3中の最適なパラメータの組(以
下、「文字精度パラメータ表」という)は配列決定条件
によって異なるので、読み込んだ配列決定条件データに
基づいて文字精度パラメータ表を決定する。文字精度パ
ラメータ表に影響のある配列決定条件データとしては、
配列決定反応のプロトコル、特にDNA合成酵素の種類や
配列決定装置の電気泳動の各種条件(ゲル濃度、泳動
長、ゲル厚、印加電界強度)がある。これらの条件が異
なれば、電気泳動のエレクトロフェログラムのピーク形
状が異なり、信頼度の最適関数も異なる結果になる。
【0037】信頼度としては、上述のF1、F2、F3以外に
も、エレクトロフェログラム中のピークのS/N比、ピー
ク1次微分、ピーク2次微分、ピーク間隔、およびピー
ク幅等のより一般的な関数として定義することが可能で
ある。
【0038】(文字精度を使用した配列間比較プログラ
ム)図2(c)に示す文字精度を使用した配列間比較プロ
グラム203は、2配列間最適アラインメントの導出ステ
ップ600と2配列最適アラインメントに基づいた配列間
接続判定ステップ601からなる。
【0039】図5(a)は、2つの配列間の最適アライン
メントを導出する方法を示す図である。図5(a)に示す
ように、2配列間比較においては、配列中にスペース挿
入を許した配列間の各文字間の対応付けを考える。スペ
ース挿入とは、一方の配列中のひとまとまりの文字列を
隣接する文字から1文字以上ずらして、もう一方の配列
との間で対応付けを行うことである。スペース挿入を行
うことによって、2つの配列間の対応付けを最適化する
ことが可能である。
【0040】従来の2つの配列間の比較においては、各
文字間の対応に対する文字間スコアを、固有の文字種間
類似度表から求める。この際、スペースも文字として扱
う。次に、文字間スコアを配列の左端から加算してい
き、加算スコアが正の値になる位置を左端に持ち、加算
スコアが最大になる位置を右端に持つ領域を特定する
(加算スコアの最大値をSmとする)。次に、各文字間の
対応付けとしてあらゆる場合を考えて、その中でSmが最
大になる対応付けを決定する(最適対応付け)。Smが最
大になる対応付けの下での上記領域をコンセンサス配列
といい、コンセンサス配列中のSmを配列間スコアとい
う。通常は、最適化問題の一解法であるダイナミックプ
ログラミング法(ジャーナル・オブ・モレキュラー・バ
イオロジー、147(1981年)第195頁から197頁(J. Mol.
Biol.、147(1981)pp195−197))で最適対応付けと
配列間スコアを求める。
【0041】図5(b)に、本方法における文字間スコア
の計算方法を示す。本方法は、文字間スコアを文字精度
を用いて計算するところに特徴がある。そうすることに
よって、文字精度の低い領域が、全体のアラインメント
や類似度に影響を与え、全体のアセンブル結果に悪影響
を与えることを防ぐことができる。文字間スコアは、図
5(b)に示すように対応する2つの文字の文字精度(文
字の確率と信頼度)を用いて計算する。
【0042】スペース以外の文字間スコアSc m,nは、対
応する2つの文字位置の信頼度と各文字種をとる確率、
およびあらかじめ定められた固有の文字種間類似度の関
数として計算する。これは、信頼度の増加関数であり、
例えば、(数3)で示すような関数を用いる。
【0043】
【数3】
【0044】ここで、 Sc m,n:配列1のm番目位置と、配列2中のn番目位置の
間の文字間スコア、 Ai,j :あらかじめ定められた文字種i,j間の固有の類似
度、 B1,m :配列1のm番目文字位置における信頼度(正の
値)、 B2,n :配列2のn 番目文字位置における信頼度(正の
値)、 Pi 1,m :配列1のm番目文字位置において、i文字である
確率(i=A, G, C, T)、 Pj 2,n :配列2のn 番目文字位置において、j文字であ
る確率(j=A, G, C, T)。
【0045】対応する文字のどちらか一方がスペースで
ある場合の文字間スコア(スペーススコア)Ss m,n(k)の
計算を、(数4)に示した関数を用いて行う。まず、ス
ペースが一方の配列中で1個以上連続する場合を考え、
連続するスペースの組に対しての文字間スコアを定義す
る。スペーススコアは、対応する文字位置の信頼度とス
ペース個数の関数として計算する。スペース側の信頼度
は、スペース位置の両隣りの位置の信頼度の平均値をと
る。スペースに相対する側の信頼度は、スペースに対応
する位置の信頼度をスペース長にわたって平均した値を
とる。
【0046】
【数4】
【0047】ここで、 Ss m,n(k):配列1のm番目とm+1番目位置の間にスペース
がk個入り、スペースの先頭が配列2中のn番目位置に対
応する場合の文字間スコア、 a:負の定数、 b:負の定数。
【0048】(数3)、(数4)で定義した文字間スコ
アを用いて、上で示したように2配列間の最適アライン
メント、およびコンセンサス配列を求める。
【0049】次に、2つの配列の最適アラインメントに
基づいた配列間接続判定ステップ601(図2(c))を
行う。二つの配列の接続判定の指標として、配列間スコ
ア、あるいは2配列間の一致度を用いる。接続判定は、
配列間スコア、あるいは2配列間の一致度が一定のしき
い値を越えるかどうか、およびコンセンサス配列長が一
定値以上かどうかを判定することによって行う。2配列
間の一致度Rは、2配列のアラインメントのコンセンサ
ス配列内における、2配列間の文字の一致度であり、文
字確率と信頼度を用いて求める。例えば(数5)に示す
ような関数で表現される。
【0050】
【数5】
【0051】ここで、(数5)中のLはコンセンサス配
列長である。
【0052】( 文字精度を使用したアセンブル配列導
出プログラム)図2(d)に示す文字精度を使用したアセ
ンブル配列導出プログラム204は、接続配列間のアライ
ンメントステップ700、およびアセンブル結果導出ステ
ップ701から構成される。
【0053】図6(a)は、接続配列間のアラインメント
ステップ700、およびアセンブル結果導出ステップ701を
説明する図であり、図6(b)は、アセンブル結果導出ス
テップ701によるアセンブル結果導出の例を説明する図
である。
【0054】図6(a)をまず説明する。文字精度を使用
した配列間比較プログラム203によって、全ての2配列
間で配列間比較を行い、配列間接続判定を行う。この接
続判定の結果を用いて、接続可能な配列をグループにま
とめる。一般的には、図6(a)に示すように複数のグル
ープが得られる。接続可能な配列グループ内の配列か
ら、まず2配列間の一致度Rの最も大きい配列間アライ
ンメントを取り出し、順次Rの大きい順に配列アライン
メントを付加していくことによって、接続配列間のアラ
インメントステップ700を行う。
【0055】次に、得られた各アラインメントについ
て、アセンブル結果の導出ステップ701を行い、アセン
ブル結果を導出する。一つの接続可能な配列グループか
らのアセンブル結果をコンティグという。一般的には、
複数のグループに対応した複数のコンティグが得られ
る。
【0056】次に、図6(b)を用いてアセンブル結果の
導出ステップ701を説明する。アラインメント中の対応
する各配列内の文字(スペースを含む)の文字精度を用
いて、アセンブル配列の文字精度を導出する。例えば、
アセンブル結果の各文字種をとる確率Pi mは(数6)、
確率Pi m の信頼度Bmは(数7)に示す関数を用いて計算
する。
【0057】
【数6】
【0058】
【数7】
【0059】ここで、 Pi m :N個の配列のアセンブル結果のm番目位置における
i文字種をとる確率(i=A,C,G,T,−(スペース))、 Bm:N個の配列のアセンブル結果のm番目位置における確
率の信頼度、 Pi k,m :配列kのm番目文字位置において、i文字種であ
る確率、 スペース以外の場合は、エレクトロフェログラムから得
られた確率を使用、スペースの場合は、P- k,m=1、PA k,m
=0、PC k,m=0、PG k,m=0、PT k,m=0 とする。
【0060】Bk,m:配列kのm番目文字位置における確率
の信頼度、スペース以外の場合は、エレクトロフェログ
ラムから得られた信頼度を使用、スペースの場合は、ス
ペースの両側に隣接する文字位置の信頼度の平均値を使
用。
【0061】図6(b)に示すように、m文字位置において
A、C、G、Tあるいは−(スペース)である確率は、(数
6)を用いてそれぞれ0.54、0.13、0.06、0.15、012が
得られる。また、m文字位置における確率の信頼度は
(数7)を用いて0.66が得られる。
【0062】(アセンブル結果の表示プログラム)図2
(e)に示すアセンブル結果の表示プログラム205は、アセ
ンブル配列とアセンブル配列文字精度の出力ステップ80
0から構成される。
【0063】図7に、アセンブル結果の表示プログラム
205によって出力されるアセンブル結果表示の例を示
す。アセンブル結果表示は、アセンブルの全体的情報表
示(図7(a))と、アラインメント情報表示(図7(b)お
よび(c))に分けて出力する。アセンブルの全体的情報
表示は、各コンティグの長さ、および各コンティグを構
成する配列の数と配列名リストである。アラインメント
情報表示は、各コンティグ内の各配列間の粗いアライン
メントの表示(図7(b))、および詳細なアラインメン
ト表示(図7(c))からなる。
【0064】図7(b)の粗いアラインメント表示では、
配列長の大きさを持つ矢印で配列を表し、各矢印の配置
でアラインメントを表現する。矢印の向きは、以下の意
味を持つ。一本鎖DNAの両末端は5’末端と3’末端に
区別され、通常5’末端から3’末端の方向に矢印を付
ける。通常、配列決定は、5’末端から3’末端の方向
に向かって行われる。従って、矢印の方向は、配列決定
の方向(エレクトロフェログラムの泳動時間が増加する
方向)と同じになる。矢印で示される配列は、配列決定
反応で使用された鋳型DNAの相補鎖の配列である。矢
印が左から右へ向かって表示された配列の配列決定に使
用された鋳型DNAの相補鎖を、鋳型DNAとして配列
決定された配列は、右から左へ向かった矢印で表示す
る。矢印が左から右へ向かって表示された配列(+配
列)の鋳型DNAと、矢印が右から左へ向かって表示さ
れた配列(−配列)の鋳型DNAとは互いに相補鎖であ
る。配列比較では、矢印が右から左へ向かって表示され
た配列については、矢印で示される配列の各塩基と相補
な塩基を要素として持つ配列を使用して、他の配列と比
較する。一般に、配列決定の方向に向かうに従って、配
列の文字精度は悪化する。従って、矢印の配置から、文
字精度に関する大まかな情報を得ることができる。
【0065】粗いアラインメント表示では、配列アライ
ンメントの下部に配列長のスケールを表示しておく。ま
た、配列アラインメントの上部にアセンブル結果におけ
る文字確率の信頼度をグラフ表示する。信頼度の値は各
塩基位置における値以外にも、各塩基位置における値に
各種の演算を施した値を用いることができる。例えば、
一定の大きさの塩基長領域内で平均化した値を用いれ
ば、長い塩基長領域にわたる信頼度の概略を知ることが
可能である。あるいは、一定の大きさの塩基長領域内に
おける信頼度の最低の値を用いれば、信頼度が特に低い
塩基長領域を同定することが可能である。必要に応じて
アラインメント内の各配列の信頼度についても同じよう
に表示できるようにする。また、一定の信頼度以下の文
字があれば、その塩基位置を適当な印を用いて表示す
る。このような表示を行うことによって、各コンティグ
内のどの辺が信頼度が高くあるいは低いかを一瞥して認
識することが可能である。信頼度が低い領域について
は、優先的に詳細なアラインメント表示やエレクトロフ
ェログラム表示を調べることによって、信頼度の低い原
因を探ることができる。
【0066】図7(c)の詳細なアラインメント表示で
は、アラインメント中の配列文字を表現した詳細表示を
行う。詳細表示では、入力している各配列のエレクトロ
フェログラムの情報を同時に表示できるようにしてお
く。
【0067】詳細表示では各コンティグにおいて、各文
字位置における、各配列出力中の最も確からしい文字を
並べて出力する。また、アセンブル配列においても、最
も確率の大きい文字を出力する。さらに、各文字位置に
おける各配列とアセンブル配列中の文字について、各文
字の確率情報、および信頼度情報を対応する位置に表示
する。表示方法としては、例えば図7(c)の右側に示す
ように、1)それぞれの情報を数値で表示することや、
2)信頼度を一つのバーの大きさで表現し、確率を各文
字に対応したバーの大きさで表現する等が可能である。
【0068】単一の塩基であるかどうかの確からしさを
表す量として、(数6)のPi mを用いて計算されるMが考
えられ、Mは(数8)で与えられる。
【0069】
【数8】
【0070】Mは各塩基種の確率が同一の時に最低値を
とり、どれか一つの塩基種の確率が1の場合に最大値1
をとる。従って、Mを各文字位置について計算して、そ
の値を数値あるいはグラフによって各文字位置に表示す
れば、単一の塩基であるか、あるいはそうでない確率が
大きい領域を選択することが可能である。単一の塩基で
ない確率が大きい領域を感度良く選択するには、MからM
の最小値を引いた量の逆数(M')を表示してやればよ
い。また、粗いアラインメント表示において、M'の値が
一定の値以上の文字があればその塩基位置を適当な印を
用いて表示してやれば、単一の塩基でない確率が大きい
領域を同定することが可能となる。
【0071】(有効例1)図8に、本方法が、アライン
メントの精度に効果がある第一の例を示す。図8(a)
は、真の配列がわかっている場合に、3本の配列1、
2、3から従来法によるアセンブル配列を求めた例を示
す。ここで、真の配列はアセンブル配列の下に表示し
た。このように、配列1ではi+1の位置にスペースが挿
入され、配列2ではiの位置にスペースが挿入されたた
めに、iの位置では、配列1と配列3、i+1の位置では、
配列2と配列3でGとなる。その結果、iとi+1における
アセンブル配列はGGとなる。真の配列ではGは単独であ
るから、G塩基の挿入が生じる結果となる。
【0072】図8(b)、(c)を用いて、本発明の文字精度
を用いてアラインメントを行った結果を説明する。図8
(b)では、DNAシーケンサーから得られた3本の配列のエ
レクトロフェログラムを示す。ここでは、A、C、G、Tの
各エレクトロフェログラムを重ねて表示している。ま
た、各エレクトロフェログラムの上部に、最も確率の高
い塩基を表示している。簡単のために、確率の信頼度を
ピーク間隔/ピーク半値幅(dam/Wm)のみの関数とし
て表現する場合を考える。また、各種塩基をとる確率の
項の影響を無視して考える。各スペクトルの下部に各ピ
ークのdam/Wmをグラフで示した。また、dam/Wmから得
られる信頼度を、図4(a)の関数を用いて計算し、計算
結果を図示した。
【0073】図8(c)の左に、これらの文字精度の情報
を用いて計算した各配列間のアラインメントとアライン
メントの信頼度を示す。図8(c)の右に、全配列間のア
ラインメントとアラインメントの信頼度を示す。まず、
3本の配列の全ての組み合わせの2配列間についてアラ
インメント計算をダイナミックプログラミングを用いて
行う。その結果、図8(c)の左側に示したように3つの
アラインメントが得られる。また、それぞれのアライン
メントに対する信頼度を(数7)を用いて各配列の文字
確率の信頼度の和として求め、アラインメントの下に示
した。
【0074】次に、3つのアラインメントの内アライン
メントの信頼度の低い配列2−配列3間のアラインメン
トは捨て、配列1−配列2間のアラインメントと配列1
−配列3間のアラインメントを組み合わせる。配列1−
配列3間のアラインメントに対して、配列2のアライン
メントを付加することによって、図8(c)の右側に示す
全配列間のアラインメントが得られる。配列2のアライ
ンメントの付加の際には、配列1−配列2間のアライン
メントを使用する。
【0075】このように、スペースの位置が、iの位置
で配列1と配列2の配列間で揃うことによって、アセン
ブル配列として単独のGのみを含む配列が得られる。こ
のように、エレクトロフェログラムから得られる配列の
信頼度を用いることによって、従来の配列情報のみから
アラインメントする方法(図8(a))で生じた挿入エラ
ーを、生じることなくアラインメントが行えるようにな
る。
【0076】(有効例2)図9に、本方法が、アライン
メントの精度に効果がある第二の例を示す。5本の配列
のアラインメントで、配列決定の方向(DNAの2本鎖の互
いに相補な配列の内、どちらの配列を決定したかによっ
て決まる)によってスペースの有無が異なる例である。
この場合、実際の配列には、スペースはなく、−方向の
2つの断片は、正確に配列決定がなされている。+方向
の3つの断片は、DNA断片の2次構造形成に起因した電
気泳動速度の増加によるDNA断片のピークの圧縮現象の
ため、2本のピークが重なった結果、スペースが生じて
いる。このような例は、GC含量が多い配列領域で特に多
く発生することが知られている。ここで、配列1のm+1
における塩基は、Cである確率が0.5、Gである確率が0.4
である。
【0077】図9(a)の従来方法では、この場合配列
1のm+1における塩基はCとみなし、配列2〜5のCと重
ねてアラインメントする。その結果、配列1のmの部位
にはスペースが挿入され、全体としてmの部位ではGが二
つ、スペースが三つになり、多数決のルールに従い最終
配列にはmの位置にスペースが挿入される。最終的に、
真の配列に1文字スペースが生じた結果を出力すること
になり、アミノ酸配列への翻訳を間違う結果になる。
【0078】図9(b)の本方法では、配列1のm+1にお
いてCである確率が0.5、Gである確率が0.4であるという
文字精度の情報を用いて、他の配列とアラインメント計
算を行う。その結果、配列1のm位置にスペースを入れ
ない方が、全体のスコアは大きくなる。なぜなら、まず
m位置の文字間スコアに対するスペーススコアの影響が
なくなる。また、m位置にスペースを挿入しない場合
は、配列1のm位置においてCである確率0.5、Gである確
率が0.4になり、配列2、3のm位置におけるG文字との
間の文字間スコアが正の値を取るので、全体の文字間ス
コアが増加する。その結果、アセンブル配列のm位置に
おいてGである確率が0.5を越え、アセンブル配列のm位
置にはスペースを入れない方が確からしいということに
なる。結局、図9(a)の従来方法と違って、図9(b)
の本方法では、真の配列を得ることが可能になる。
【0079】このように、文字精度を用いることによっ
て、従来方法で生じていたスペースエラーを生じること
なく、正確なアセンブル配列を得ることが可能である。
その結果、アミノ酸への翻訳の間違いの頻度を減少させ
ることが可能になり、より精度の高い機能推定が可能に
なる。
【0080】(有効例3)図10に、アラインメントは
正確でも、アラインメントからの正確なアセンブル配列
が得られない従来法に対し、本方法が有効な場合を示
す。図9と同じ5本の配列のアラインメントを考える。
ここで、配列1のm+1における塩基は、図9の場合と異
なり、Cである確率が1であるとする。しかし、配列1
のmとm+1における信頼度が低い場合を考える。
【0081】図10(a)の従来方法では、図9の場合と
同様に配列1のmの位置にスペースが挿入される。その
結果、最終的にアセンブル配列のmの部位に間違ってス
ペースが挿入される。
【0082】図10(b)の本方法では、次のようにな
る。各配列中のmの位置における信頼度と各塩基種をと
る確率が図10(c)で示すような場合を考える。配列1の
アラインメントにおいては、m+1でCである確率が1であ
ることから、mの位置に挿入が生じる。しかし、配列
1、4、5のmの位置における信頼度(0.3, 0.2, 0.1)
が低いことから、全体としてのmの位置における確率
は、(数6)を用いて、Gである確率が0.74、スペース
である確率が0.26となり、真の配列をより反映したアセ
ンブル配列を出力することが可能となる。
【0083】(有効例4)図11に、信頼度の導入によ
って配列接続がしやすくなる例を示す。2本の配列の接
続を考える。どちらも+方向の配列で、左側が5’、右
側が3’方向であるとする。配列1の3’側が配列2の
5’側と重なり合って、重なり長は100塩基とする。通
常、配列の3’側は、DNA断片の電気泳動の分離能力の
制限のため、5’側に比べて文字精度が悪い。そこで、
簡単のため、重なりの前半50塩基では、配列1、配列2の
両配列の信頼度が1.0で、後半50塩基では、配列1の信頼
度が0.5、配列2の信頼度が1.0であると仮定する。ま
た、エラーは後半にのみ12個生じていると仮定する。
【0084】従来方法における一致度は、考慮している
塩基長領域で一致している塩基数を領域長で割った値で
あり、この場合、一致度=88/100=88%である。一致
度のしきい値を90%に設定していれば、この重なりは認
定されないことになる。信頼度を考慮に入れて計算する
本方法では、次のようになる。エラーは同じく後半で12
個生じているとすると、一致度は(数5)で示す信頼度
を用いて計算され、92%となる。この場合、90%のしき
い値でも重なりが認定されることになる。別の領域で同
じように、例えば12個のエラーが生じておりかつ両方の
配列の信頼度が1の場合、一致度は(数5)で示す信頼
度を用いて計算され、88%となり、90%のしきい値では
この重なりは認定されないことになる。
【0085】このように、信頼度の導入によって、一致
度Rに対する、信頼度の低い領域のエラーの影響を減ら
すことができる。その結果、領域によってしきい値を変
化させることなく、一定のしきい値を用いて配列接続を
良好に行うことが可能になる。
【0086】(文字精度出力の活用例)例えば図7に表
示されたアセンブル配列の文字精度には、さまざまな有
効使用法がある。まず、得られたアセンブル最終配列の
チェックに使用することが可能である。例えば、信頼度
の低い部位はエレクトロフェログラムを参考に見直し、
その結果必要があればその領域を再実験の対象にするこ
とができる。また、得られた最終配列からPCRプライマ
ーやマーカーを設計する際に、信頼度の高い領域を選ん
で設計を行う。そうすることによって、より信頼性の高
いPCR実験やマーカーの使用が可能になる。
【0087】(数7)の確率の情報もPCRプライマーやマ
ーカーを設計する際に使用できる。例えば、一つの塩基
である確率が大きい領域をできるだけ選択することや、
複数の塩基を取りえる部位を使用せざるをえない場合
に、それらの塩基種を取りえる確率に応じて塩基を混合
してPCRプライマーやマーカーを設計することによっ
て、より信頼性の高いPCR実験やマーカーを用いた実験
が可能になる。一つの塩基である確率が大きい領域を選
択するには、出力方法で説明した(数8)のMの値の表示
を用いればよい。スペースが入る確率が0.5近くあるよ
うな部位では、スペースを入れた場合と入れない場合の
両方の場合においてアミノ酸への翻訳を行えば、翻訳さ
れたアミノ酸配列から機能を推定する場合に間違って推
定する機会を低減させることが可能である。
【0088】また、こうやって得られたアセンブル配列
を検索配列として、GenBank等の配列データベースに対
して検索を行う場合、本方法で用いた方法と同じ方法で
検索配列とデータベース配列間の比較を行うことによっ
て、より精度の高い検索が可能になる。また、文字精度
の情報を配列の情報とともにデータベースに登録してお
けば、上記の高精度なPCRプライマーやマーカーが容易
に使用可能になるし、文字精度を用いた配列検索の精度
をより向上させることが可能になる。
【0089】上述のように、得られた文字精度を伴った
配列の情報をPCRプライマー作成、およびデータベース
検索や作成に活用することが可能であり、ゲノム計画で
主要な役割をはたすPCRやデータベース検索技術の高精
度化に大きく寄与することが可能である。
【0090】
【発明の効果】本発明によれば、配列の文字精度を用い
てアセンブリングを行うことによって、質が高く正確な
アセンブル結果を少ない手間で得ることが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施の形態の構成を示す図。
【図2】本発明の実施の形態中で用いられるプログラム
の各ステップを示す図。
【図3】配列決定に用いられるエレクトロフェログラム
中で文字精度の定義に用いられる量を示す図。
【図4】信頼度を定義する関数を示す図であり、(a)信
頼度に対するSnmの項のSnm依存性を表す図、(b)信頼度
に対するdam/Wmの項のdam/Wm依存性を表す図、および
(c)信頼度に対するdam/davmの項のdam/davm依存性を
表す図。
【図5】(a)2つの配列間の最適アラインメントを導出
する方法を示す図、および(b)文字間スコアを計算する
方法を示す図。
【図6】(a)接続配列間のアラインメントステップ700、
およびアセンブル結果導出ステップ701を説明する図、
および(b)アセンブル結果導出ステップ701によるアセン
ブル結果導出の例を説明する図。
【図7】アセンブル結果の表示方法を示す図であり、
(a)アセンブルの全体的情報表示を示す図、(b)各コンテ
ィグ内の各配列間の粗いアラインメントの表示を示す
図、および(c)各コンティグ内の各配列間の詳細なアラ
インメント表示を示す図。
【図8】本方法が、正確なアラインメントに有効である
第一の例を示す図であり、(a)従来法によるアラインメ
ント結果を示す図、(b)DNAシーケンサーから得られたエ
レクトロフェログラムと信頼度を示す図、および(c)文
字精度の情報を用いて計算した各配列間のアラインメン
トとアラインメントの信頼度、および全配列間のアライ
ンメントとアラインメントの信頼度を示す図。
【図9】本方法が、正確なアラインメントに有効である
第二の例を示す図であり、(a)従来方法における配列間
のアラインメントおよびアセンブル配列を示す図、およ
び(b)本方法において文字精度を使用して、配列間のア
ラインメントおよびアセンブル配列を求めた図。
【図10】本方法が、正確なアラインメントに有効であ
る第三の例を示す図であり、(a)従来方法における配列
間のアラインメントおよびアセンブル配列を示す図、
(b)本方法において文字精度を使用して、配列間のアラ
インメントおよびアセンブル配列を求めた図、および
(c)文字位置mでのアセンブル配列の文字精度の計算方法
を示す図。
【図11】本方法が、正確な配列接続に有効である例を
示す図。
【符号の説明】
100…ディスプレイ、101…キーボード、102…中央制御
装置CPU、103…光磁気ディスクドライバ、104…配列デ
ータ、105…エレクトロフェログラムデータ、106…文字
精度データ、107…配列決定条件データ、108…文字精度
パラメータ表、109…磁気ディスク、200…主メモリ、20
1…データ入力プログラム、202…文字精度計算プログラ
ム、203…文字精度を使用した配列間比較プログラム、2
04…文字精度を使用したアセンブル配列導出プログラ
ム、205…アセンブル結果の表示プログラム、206…デー
タエリア、207…階層制御プログラム、300…光磁気ディ
スク、301…配列決定装置、302…入力データ、400…配
列入力ステップ、401…エレクトロフェログラム入力ス
テップ、402…文字精度入力ステップ、403…配列決定条
件入力ステップ、500…信頼度計算ステップ、501…確率
計算ステップ、600…2配列間最適アラインメントの導
出ステップ、601…2配列最適アラインメントに基づい
た配列間接続判定ステップ、700…接続配列間のアライ
ンメントステップ、701…アセンブル結果導出ステッ
プ、800…アセンブル配列とアセンブル配列文字精度の
出力ステップ。

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】複数種類の文字が並ぶ複数の文字配列の所
    定の部分を対向させ、対向位置で前記文字が所定の文字
    である確率と、前記確率の信頼度と、所定の文字の組合
    せについての所定の類似度スコアと、を用いて、前記対
    向位置で対向する文字間の類似性を示す文字間スコアを
    求めることを特徴とする文字配列比較方法。
  2. 【請求項2】前記文字間スコアを、前記複数の文字配列
    の前記所定の部分にわたり積算し、積算値が最大になる
    ように、前記所定の部分を対向させることを特徴とする
    請求項1に記載の文字配列比較方法。
  3. 【請求項3】複数種類の文字が並ぶ前記複数の文字配
    列、前記確率および前記信頼度を、核酸断片のエレクト
    ロフェログラム情報から求めることを特徴とする請求項
    2に記載の文字配列比較方法。
  4. 【請求項4】前記複数の文字配列を構成する文字が、
    A、C、G、T、およびスペースであることを特徴とす
    る請求項3に記載の文字配列比較方法。
  5. 【請求項5】前記エレクトロフェログラム情報は、ピー
    ク位置、S/N比、ピーク間隔、およびピーク幅を含む
    ことを特徴とする請求項3に記載の文字配列比較方法。
  6. 【請求項6】前記エレクトロフェログラム情報は、さら
    に微分係数を含むことを特徴とする請求項5に記載の文
    字配列比較方法。
  7. 【請求項7】前記確率および前記信頼度に対応して前記
    類似度スコアを設定することを特徴とする請求項3に記
    載の文字配列比較方法。
  8. 【請求項8】前記複数の文字配列の一致度を、前記確率
    および前記信頼度から求めることを特徴とする請求項3
    に記載の文字配列比較方法。
  9. 【請求項9】前記複数の文字配列の文字データ、前記確
    率、前記信頼度、および前記エレクトロフェログラム情
    報が情報記憶媒体に記憶されていることを特徴とする請
    求項3に記載の文字配列比較方法。
  10. 【請求項10】請求項3記載の文字配列比較方法を用い
    て、前記対向位置のそれぞれに対して文字を推定し、推
    定された文字からなるアセンブル配列を求めることを特
    徴とするアセンブル方法。
  11. 【請求項11】前記確率および前記信頼度から、前記ア
    センブル配列のそれぞれの文字について、推定された文
    字である確率、および推定された文字である前記確率の
    信頼度を求めることを特徴とする請求項10に記載のア
    センブル方法。
  12. 【請求項12】前記アセンブル配列を、推定された文字
    である前記確率、および推定された文字である前記確率
    の前記信頼度と共に表示することを特徴とする請求項1
    1に記載のアセンブル方法。
  13. 【請求項13】複数種類の文字が並ぶ複数の文字配列の
    所定の部分を対向させ、対向位置のそれぞれで対向する
    文字の組合せとして所定の文字の組合せを考慮して、所
    定の文字の組合せについての所定の類似度スコアのそれ
    ぞれに、前記対向位置で所定の文字の組合せである確率
    を掛け、前記確率が掛けられた前記類似度スコアを、所
    定の文字の組合せのすべてについて積算して得られる積
    算値に、前記対向位置で所定の文字の組合せである前記
    確率の信頼度を掛けた値を前記対向位置での文字間スコ
    アとすることを特徴とする文字配列比較方法。
  14. 【請求項14】前記複数の文字配列の所定の部分を対向
    させる際、前記複数の文字配列の少なくとも一つの文字
    配列に少なくとも一つのスペースを加え、前記文字間ス
    コアが、前記スペースに隣接する位置での文字が所定の
    文字である確率の信頼度と前記スペースに対向する位置
    での文字が所定の文字である確率の信頼度とから求めら
    れるスコアを含むことを特徴とする請求項13に記載の
    文字配列比較方法。
  15. 【請求項15】前記文字間スコアを、前記複数の文字配
    列の前記所定の部分にわたり積算し、積算値が最大にな
    るように、前記所定の部分を対向させることを特徴とす
    る請求項14に記載の文字配列比較方法。
  16. 【請求項16】複数種類の文字が並ぶ前記複数の文字配
    列、前記確率および前記信頼度を、核酸断片のエレクト
    ロフェログラム情報から求めることを特徴とする請求項
    15に記載の文字配列比較方法。
  17. 【請求項17】請求項16記載の文字配列比較方法を用
    いて、前記対向位置のそれぞれに対して文字を推定し、
    推定された文字からなるアセンブル配列を求めることを
    特徴とするアセンブル方法。
  18. 【請求項18】前記確率および前記信頼度から、前記ア
    センブル配列のそれぞれの文字について、推定された文
    字である確率、および推定された文字である前記確率の
    信頼度を求めることを特徴とする請求項17に記載のア
    センブル方法。
  19. 【請求項19】前記アセンブル配列を、推定された文字
    である前記確率、および推定された文字である前記確率
    の前記信頼度と共に表示することを特徴とする請求項1
    7に記載のアセンブル方法。
JP8194340A 1996-07-24 1996-07-24 文字配列比較方法、およびそれを用いたアセンブル方法 Pending JPH1040257A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8194340A JPH1040257A (ja) 1996-07-24 1996-07-24 文字配列比較方法、およびそれを用いたアセンブル方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8194340A JPH1040257A (ja) 1996-07-24 1996-07-24 文字配列比較方法、およびそれを用いたアセンブル方法

Publications (1)

Publication Number Publication Date
JPH1040257A true JPH1040257A (ja) 1998-02-13

Family

ID=16322967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8194340A Pending JPH1040257A (ja) 1996-07-24 1996-07-24 文字配列比較方法、およびそれを用いたアセンブル方法

Country Status (1)

Country Link
JP (1) JPH1040257A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11296553A (ja) * 1998-04-10 1999-10-29 Nec Corp 複数文字列アライメント方法およびシステム
JP2002544613A (ja) * 1999-05-19 2002-12-24 アベンティス・ファーマスーティカルズ・インコーポレイテツド 高速フーリエ変換を使用する核酸配列内のプロフィル検索
JP2003157267A (ja) * 2001-11-19 2003-05-30 Hitachi Ltd 核酸塩基配列のアセンブル方法及びアセンブル装置
JP2004362548A (ja) * 1999-10-19 2004-12-24 Lg Electronics Inc マルチメディアのコンテンツ検索方法
WO2009057757A1 (ja) * 2007-10-31 2009-05-07 National Institute Of Agrobiological Sciences 塩基配列決定プログラム、塩基配列決定装置および塩基配列決定方法
JP2010165216A (ja) * 2009-01-16 2010-07-29 National Institute Of Advanced Industrial Science & Technology 立体構造データ帰属方法、立体構造データ帰属プログラム及び立体構造データ帰属装置
JP2010205206A (ja) * 2009-03-06 2010-09-16 Nippon Software Management Kk 塩基配列決定方法、塩基配列決定装置およびそのプログラム
JP2014529109A (ja) * 2011-06-06 2014-10-30 コーニンクレッカ フィリップス エヌ ヴェ 核酸配列データのアセンブリに関する方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11296553A (ja) * 1998-04-10 1999-10-29 Nec Corp 複数文字列アライメント方法およびシステム
JP2002544613A (ja) * 1999-05-19 2002-12-24 アベンティス・ファーマスーティカルズ・インコーポレイテツド 高速フーリエ変換を使用する核酸配列内のプロフィル検索
US8050869B2 (en) 1999-05-19 2011-11-01 Aventisub II, Inc. Profile searching in nucleic acid sequences using the Fast Fourier Transformation
JP4852735B2 (ja) * 1999-05-19 2012-01-11 アベンティスユービー・セカンド・インコーポレイテッド 高速フーリエ変換を使用する核酸配列内のプロフィル検索
JP2004362548A (ja) * 1999-10-19 2004-12-24 Lg Electronics Inc マルチメディアのコンテンツ検索方法
JP2003157267A (ja) * 2001-11-19 2003-05-30 Hitachi Ltd 核酸塩基配列のアセンブル方法及びアセンブル装置
WO2009057757A1 (ja) * 2007-10-31 2009-05-07 National Institute Of Agrobiological Sciences 塩基配列決定プログラム、塩基配列決定装置および塩基配列決定方法
JP5288355B2 (ja) * 2007-10-31 2013-09-11 独立行政法人農業生物資源研究所 塩基配列決定プログラム、塩基配列決定装置および塩基配列決定方法
JP2010165216A (ja) * 2009-01-16 2010-07-29 National Institute Of Advanced Industrial Science & Technology 立体構造データ帰属方法、立体構造データ帰属プログラム及び立体構造データ帰属装置
JP2010205206A (ja) * 2009-03-06 2010-09-16 Nippon Software Management Kk 塩基配列決定方法、塩基配列決定装置およびそのプログラム
JP2014529109A (ja) * 2011-06-06 2014-10-30 コーニンクレッカ フィリップス エヌ ヴェ 核酸配列データのアセンブリに関する方法

Similar Documents

Publication Publication Date Title
US10991453B2 (en) Alignment of nucleic acid sequences containing homopolymers based on signal values measured for nucleotide incorporations
US6681186B1 (en) System and method for improving the accuracy of DNA sequencing and error probability estimation through application of a mathematical model to the analysis of electropherograms
Batzoglou et al. ARACHNE: a whole-genome shotgun assembler
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
JP7319197B2 (ja) 標的核酸のシークエンシングデータをアライメントする方法
US20100094563A1 (en) System and Method for Consensus-Calling with Per-Base Quality Values for Sample Assemblies
CN108710784A (zh) 一种基因转录变异几率及变异方向的算法
US20040142347A1 (en) Mitochondrial DNA autoscoring system
JPH1040257A (ja) 文字配列比較方法、およびそれを用いたアセンブル方法
Xu et al. Gene prediction by pattern recognition and homology search
US5891632A (en) Method and device for fragment trace data display in DNA base sequencing
US20080046187A1 (en) Method, system and software arrangement for detecting or determining similarity regions between datasets
Ogasawara et al. A fast and sensitive algorithm for aligning ESTs to the human genome
Zhang et al. MSAID: multiple sequence alignment based on a measure of information discrepancy
Tammi et al. TRAP: Tandem Repeat Assembly Program produces improved shotgun assemblies of repetitive sequences
Xu et al. Computational gene prediction using neural networks and similarity search
JP2000285120A (ja) 遺伝子発現探索方法及びその装置
CN116343923B (zh) 一种基因组结构变异同源性识别方法
Tammi et al. ReDiT: Repeat Discrepancy Tagger—a shotgun assembly finishing aid
CN114520024A (zh) 一种基于k-mer的序列联配方法
Durai Novel graph based algorithms for transcriptome sequence analysis
Kishi et al. Gene prediction by multiple spliced alignment
Dudić et al. Demystification of RNAseq Quality Control
CN117894367A (zh) 微生物特异性序列保守性的筛选评估方法
JP2003079366A (ja) プライマーウォーキング支援のための情報処理システム