JP2004527728A

JP2004527728A - ベースコーリング装置及びプロトコル

Info

Publication number: JP2004527728A
Application number: JP2002520159A
Authority: JP
Inventors: ワルサー、ディック; バーサ、ガボール・ティー; モリス、マクドナルド・エス
Original assignee: インサイト・ゲノミックス・インコーポレイテッド
Priority date: 2000-08-14
Filing date: 2001-08-10
Publication date: 2004-09-09
Also published as: CA2419126A1; WO2002015107A3; EP1423816A2; US20020147548A1; AU2001283299A1; WO2002015107A2

Abstract

従来の核酸シークエンシング装置からの電気泳動トレースデータを用いて、ばらつきのあるピーク間隔を許容するベースコーリングの方法を開示する。この方法により、質の高いベースコール及び信頼できるクオリティ値が得られる。更に、現在のベースコールと次のベースコールとの間の欠失エラーの確率を推定する新しいタイプのクオリティ値を開示する。ベースコーラの性能をより正確に識別するベンチマークのための新規なプロトコルを提供する。

Description

【０００１】
（関連特許出願に対するクロスリファレンス）
本願は、２０００年８月１４日出願のＷａｌｔｈｅｒ他による米国仮特許出願第６０／２２５，０８３号（発明の名称「ＢＡＳＥＣＡＬＬＩＮＧＳＹＳＴＥＭＡＮＤＰＲＯＴＯＣＯＬ」）、並びに２０００年１２月２０日出願のＷａｌｔｈｅｒ他による米国仮特許出願第６０／２５７，６２１号（発明の名称「ＢＡＳＥＣＡＬＬＩＮＧＳＹＳＴＥＭＡＮＤＰＲＯＴＯＣＯＬ」）の優先権を主張する。これらの特許出願に言及することをもって本明細書の一部とする。
【０００２】
（著作権について）
本明細書の開示の一部は、著作権が保護されるべきものを含む。本著作権者は、米国特許庁が記録した或いは公開した特許文献と同一のあらゆる特許文献即ち開示のコピー即ち複製については異論はないが、その他については全ての著作権等を行使する。
【０００３】
（本発明の技術分野）
本発明はバイオインフォマティクスに関する。本発明は、特に、生物の配列を推定するためのコンピュータを用いた方法、装置、及びメディアに関する。
【０００４】
（本発明の背景）
ＤＮＡのシークエンシングは通常、精製されたＤＮＡ鋳型を用いて始める。精製されたＤＮＡ鋳型に対して、４つのヌクレオチド（塩基）のそれぞれを反応させ、フラグメントの集団を生成する。フラグメントのサイズは、配列のどこで塩基対を形成するかによって異なる。フラグメントは、塩基特異的蛍光色素で標識し、次にスラブゲルまたはキャピラリ電気泳動装置で分離する。フラグメントがシークエンサーの検出範囲を超えて移動すると、レーザが信号をスキャンする。ヌクレオチド塩基の特定についての情報は、プライマーに付着した塩基特異的色素（ダイ−プライマー反応）またはジデオキシ鎖終結ヌクレオチド（ダイ−ターミネーター反応）により得られる。更に、レーントラッキング（ｌａｎｅｔｒａｃｋｉｎｇ）、プロファイリング（ｐｒｏｆｉｌｉｎｇ）（スラブゲルのみ）、並びにトレース処理（ｔｒａｃｅｐｒｏｃｅｓｓｉｎｇ）のステップが含まれる。これにより、シークエンシング中の多くの時点における４つの塩基のそれぞれに対応する信号強度の４つのアレイ（トレース）のセットが生成される。トレース処理には、ベースライン差引き、開始位置及び終了位置の特定、スペクトルの分離、解像度の強化、及び或る種の移動度補正が含まれる。ＤＮＡシークエンシングの最終ステップでは、シークエンシングにより、４つの異なる塩基に対して得られた処理済トレースデータを実際のヌクレオチド配列に翻訳する。このプロセスをベースコーリング（ｂａｓｅｃａｌｌｉｎｇ）と呼ぶ。
【０００５】
ベースコールの問題を解決するための方策には、神経回路網（米国特許第５，３６５，４５５号及び同第５，５０２，７７３号）、グラフ理論、同形逆重畳積分（Ｉｖｅｓ他、（１９９４）ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＢｉｏｍｅｄｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ４１：５０９、及び米国特許第５，２７３，６３２号）、モジュラー（ｏｂｊｅｃｔｏｒｉｅｎｔｅｄ）構造検出及び推定、分類法（ＰＣＴ出願：ＷＯ９６／３６８７２）、相関解析、及びフーリエ解析があり、それに動的プログラミングが続く。別の関連特許に、ベースコーリングが開示されている。例えば、ＰＣＴ出願：ＷＯ９８／１１２５８ではファジー理論と組み合わせたブラインド逆重畳積分を用い、ＰＣＴ出願：ＷＯ９６／３５８１０では高次元「立体空間」における２塩基プロトタイプの較正セットとの比較を用い、また、ＰＣＴ出願：ＷＯ９８／００７０８では単体ピークモデルとの比較を用いている。
【０００６】
ベースコールに用いる計算アルゴリズムの正確さは、得られる配列の質に直接影響を与え、シークエンシングに関係するコストに大きく関わり、また、ＳＮＰ（一塩基多形）に対して用いることができるか否かにも関わってくる。ベースコールは理想的なデータ（全ての４つの塩基に対してノイズがなく等間隔でガウス形ピークをもつデータ）に対してはアルゴリズム的に問題ないが、実際のトレースデータに対しては当然困難であり、エラーが生じやすい。不可避な実験及び装置の因子により、ピークの間隔及び高さにばらつきがあり、１次ピークの下側に２次ピークがくるなど得られるデータの質が低下する（例えば、Ｅｗｉｎｇら（１９９８）ＧｅｎｏｍｅＲｅｓ．８：１７５−１８５を参照）。
【０００７】
ベースコールにエラーが生じやすいため、それぞれの割当て塩基に対して推定の信頼性（クオリティ値）を与えるのが好ましい。信頼性の推定は、多くの既存のベースコールアルゴリズムにおける肝要な部分である。例えば、Ｇｉｄｄｉｎｇｓ（１９９３）ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２１：４５３０−４５４０、Ｇｏｌｄｅｎら（１９９３）ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｆｉｒｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓｆｏｒＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ（ｅｄ．Ｈｕｎｔｅｒ，Ｌ．，Ｓｅａｒｌｓ，Ｄ．，Ｓｈａｖｌｉｃｋ，Ｊ．）：ｐｐｌ３６−１４４．ＡＡＡＩＰｒｅｓｓ，ＭｅｎｌｏＰａｒｋ，ＣＡ、Ｇｉｄｄｉｎｇｓ（１９９８）ＧｅｎｏｍｅＲｅｓ．８：６４４−６６５、及びＥｗｉｎｇら（１９９８）ＧｅｎｏｍｅＲｅｓ．８：１８６−１９４を参照されたい。クオリティ値は、正しい配列アセンブリ及びＳＮＰの信頼性の高い検出において極めて重要である。例えば、Ｂｕｅｔｏｗら（１９９９）ＮａｔＧｅｎｅｔ．２１：３２３−３２５、及びＡｌｔｓｈｕｌｅｒら（２０００）Ｎａｔｕｒｅ．４０７：５１３−５１６を参照されたい。スラブゲル・シークエンシング装置に対する信頼性の高いベースコールに加えて、推定のエラー率に直接言い換えることができるクオリティ値の概念の積極的な導入により、Ｐｈｒｅｄが最も広く用いられるベースコールソフトウエアになった。例えば、Ｒｉｃｈｔｅｒｉｃｈ（１９９８）ＧｅｎｏｍｅＲｅｓ．８：２５１−２５９を参照されたい。
【０００８】
Ｐｈｒｅｄアルゴリズムには、ばらつきのあるピーク間隔の処理、特にピーク間の間隔がトレースに沿って突然変化する（一般的には「アコーディオン効果」と呼ばれる）ＭｅｇａＢＡＣＥシークエンシング装置に対して重大な問題点がある。Ｐｈｒｅｄは、まず理想的なピーク位置を推定し、次にこれに観察されたピークを合わせ、実際のコールを生成する。問題は、Ｐｈｒｅｄが推定ピーク情報を計算及び使用する方法に起因する。Ｐｈｒｅｄはまず、最も均一な間隔のクロマトグラムの部分を探し、そこから始める。この方法の各ステップには、間隔の変化の割合に制限がある。間隔が速く変化し過ぎると、Ｐｈｒｅｄは実際の間隔と同期させることができなくなる。様々なピーク間隔を処理できるようにＰｈｒｅｄの性能改善を試みたが、十分な成果は得られなかった。脱同期が起こると、Ｐｈｒｅｄは均一なピーク間隔を維持するべくベースコールを加えたり取り除いたりする。これにより、余分な挿入や欠失が起こり、これにより重大なアセンブルの問題が起きたり、アミノ酸配列に翻訳する際の読み枠のずれが起きたりする。
【０００９】
現在使用されている及びＤＮＡシークエンシングから利用可能な大量の情報の推定、解析、及び処理のために、改善されたコンピュータシステム及び方法が要望されている。
【００１０】
（本発明の概要）
入力として間隔即ち時間が異なるノイズのある、ピークをもつ複数の信号を用いて、本発明は、解像度を高くしてピークを検出し、ピーク（即ち、ベースコール）の配列を決定する。この方法は、全体的なピーク間隔の推定に依存する従来の方法よりもピーク検出及び／または割当て及び局所ピーク間隔に重点を置いている。以上のことから、ここに記載する方法は、ばらつきのあるピーク間隔に対して効果を発揮する。
【００１１】
具体的には、この方法は、入力トレースに含まれる情報を組合せて新しいトレース（ＬＴと呼ぶ）を生成する。このトレースＬＴは、相互に関連する各トレース位置及び理想的なガウス型ピークに対するその近さによって計算される。新しく生成された変換されたトレースを、次に組合せてＬＴトレースを生成する。初めの相互関連ステップによりピーク様形状を改良し、全ての入力トレースを個別に分析しないでもピークの解像度を高めることができる。
【００１２】
好適な実施形態では、本発明は、シークエンシング・クロマトグラム・トレースデータからのベースコーリングのための新規のアルゴリズムを実行するベースコーリングソフトウエア（「ＬｉｆｅＴｒａｃｅ」と呼ぶ）を提供する。ここに記載するベースコーリング方法は、ベースコールを除去、統合、追加するために、コールクオリティ値（後述）、局所ピーク間隔の推定、及び他のクオリティ閾値を用いる。
【００１３】
本発明の別の実施形態は、新規のクオリティ値即ちギャップクオリティ値を提供する。ギャップクオリティ値は、或る塩基と次の塩基との間に別の塩基が存在する、即ち欠失エラーが生じている確率を推定する。この新規なクオリティ値により、個体間の自然のばらつきとして生じる実際の欠失（ＳＮＰ）を特定することができる。
【００１４】
ＬｉｆｅＴｒａｃｅはまた、各ベースコールのために従来のクオリティ値も計算する。Ｐｈｒｅｄはルックアップテーブル表（即ち、非連続）の方法を用いてトレースパラメータをクオリティ値／観察されたエラー率と一致させる。本発明は、改良されたコールクオリティ値の計算、並びに連続的なパラメータがコールクオリティを判定するために用いられるコールクオリティ値の決定方法を提供する。
【００１５】
本発明はまた、動的プログラミング法にコールクオリティ値及びギャプクオリティ値を利用する配列アラインメント法を提供する。後述するように、この配列アラインメント法は、ベースコーラーの性能をベンチマークする際に有用である。加えて、クオリティ値を較正する際にも使用できる。
【００１６】
本発明の別の実施態様は、従来の方法よりも性能の違いを容易に識別する、ベースコーリングアルゴリズムの性能を比較するための方法を提供する。本発明のこの方法に従えば、エラー統計が伸長された配列に対して収集される。より具体的には、本発明は、ベンチマークされた一方のアルゴリズムが寄与する最もクオリティの高いアラインメントにより境界が決定される配列領域を解析する。ベンチマークのこの方法は、個々に記載するアラインメント法を用いる。
【００１７】
本発明のこれらの特徴及び利点、並びにその他の特徴及び利点を、関連する図を参照して詳細に説明する。
【００１８】
（好適な実施形態の説明）
概要
本発明は、ベースコーリング処理（方法）及びベースコーリングのために構成された装置に関する。本発明はまた、本発明の処理を実行するための命令及びデータ構造等を提供するための機械読取可能媒体に関する。本発明に従えば、電気泳動法でのＤＮＡの分離による信号を特定の方法で操作及び解析して、相当する特性を引き出す。これらの特性を用いて、本発明の装置及び方法により、ＤＮＡの配列についての結果を自動的に導き出すことができる。より具体的には、本発明はクオリティの高いベースコール及び信頼できるクオリティ値を提供する。本発明はまた、現在のベースコールと次のベースコールとの間の検出エラーの確率を推定する各ベースコールのギャップ値に関連する新しいタイプのクオリティ値を提供する。以前に公表された方法とのベースコーラー性能の差異を明確にするベンチマーキングのための新規のプロトコルを開示する。
【００１９】
（定義）
特別に定義しない場合は、本明細書に用いる技術用語及び科学用語は、本発明が属する分野の一般的な技術者によって普通に理解される意味と同じ意味で用いられている。ここに記載する方法及び要素に類似した或いは同等のあらゆる方法及び装置を本発明の実施及び検査に用いることができるが、好適な方法、装置、及び要素を説明する。本明細書で言及する全ての刊行物は本明細書の一部とする。これらの刊行物が先の発明であるからといって、そのような開示により本発明が無効であると解釈されるべきものではない。
【００２０】
「電気泳動法」は、電界において分子の移動度の違いにより分子を分離する方法のことである。生体高分子の場合、電気泳動法はアガロースゲルやポリアクリルアミド等のポリマーゲルにおいて実施されるのが普通である。電荷密度が類似したＤＮＡやＲＮＡ等の生体高分子の分離は、最終的には分子量に関連する。
【００２１】
「データトレース」は、或る連鎖終了シークエンシング反応で生成され、ＤＮＡシークエンサーで検出されるオリゴヌクレオチドフラグメントの移動バンドを表す一連のピーク及び谷を指す。データトレースは、未処理のデータトレースまたは処理したデータトレースの何れかである。
【００２２】
本発明は、図面を用いて特定の実施形態を元に説明する。しかしながら、当業者には明らかなように、本発明は、開示した全てを用いなくとも実施可能である。本発明の或る動作や特徴の代わりに別の要素や方法を用い得る場合が多い。
【００２３】
Ａ．ベースコールのための装置及び方法
本発明の一実施形態に従った高いレベルでの処理の流れ１０１を図１に示す。図示されているように、処理は１０３で始まり、配列データ処理ツールが電気泳動検出装置からデータを受け取る。このようなデータは、試料の核酸配列を表し、電気泳動検出装置の精度によっては、データを送る前にある程度の処理（後述）をする場合がある。別法では、配列トレースデータ処理ツールは、電気泳動検出装置と一体化してもよい。
【００２４】
本発明の方法に従って処理されるデータトレースは、自動化ＤＮＡシーケンサーの蛍光検出装置を用いる信号収集が好ましい。しかしながら、本発明は、あらゆるタイプの検出器を用いる実時間フラグメントパターンを含む空間または時間におけるオリゴヌクレオチドフラグメントの分離を反映するあらゆるデータセットに適用できる。このような検出器は、例えば米国特許第５，５４３，０１８号に開示されているような極性検出器、オートラジオグラフ或いは染色したゲルの濃度計トレース、レーザースキャンされたゲルからのデータ、質量分光法によって分離されたサンプルからのフラグメントパターンがある。
【００２５】
電気泳動検出装置或いはＤＮＡシーケンサーは、限定するものではないがスラブゲル電気泳動法、チューブゲル電気泳動法、またはキャピラリーゲル電気泳動法を含むＤＮＡを分離するための様々な電気泳動手段を利用することができる。
自動化ＤＮＡシーケンサーは、
ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ，Ｉｎｃ．（ＦｏｓｔｅｒＣｉｔｙ，ＣＡ）、ＰａｒｍａｃｉａＢｉｏｔｅｃｈ，Ｉｎｃ．（Ｐｉｓｃａｔａｗａｙ，ＮＪ）、Ｌｉ−Ｃｏｒ，Ｉｎｃ．（Ｌｉｎｃｏｌｎ，ＮＥ）、ＭｏｌｅｃｕｌａｒＤｙｎａｍｉｃｓＩｎｃ．（Ｓｕｎｎｙｖａｌｅ，ＣＡ）、及びＶｉｓｉｂｌｅＧｅｎｅｔｉｃｓ，Ｉｎｃ．（Ｔｏｒｏｎｔｏ）から入手できる。ここに開示する方法は、限定するものではないがＡｍｅｒｓｈａｍが販売するＭｅｇａＢＡＣＥ１０００キャピラリー・シーケンサー、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓが販売するＡＢＩ−３７００キャピラリー・シーケンサー、及びＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓが販売するＡＢＩ−３７７スラブゲル・シークエンシング装置と共に用いることができる。
【００２６】
上記したように、データトレースは、ここに記載するベースコーリング方法を用いる解析の前に、処理されるのが好ましい。具体的には、電気泳動データはトレース処理される。このようなトレース処理分野は当分野で周知であり、ベースライン差引き、開始位置及び終了位置の特定、スペクトルの分離、解像度の強化、及びある種の移動度の補正から構成され得る。
【００２７】
場合によっては、トレース値は装置の検出閾値を超え、超えた値が切り取られ、ピークが平坦にされる。このような場合、切り取られたピークを二次関数に一致するギャップに置き換えて、切断されたピークをよりピークらしくする必要に応じて用いる予備処理ステップを含み得る。別法では、ここに開示するＬｉｆｅＴｒａｃｅアルゴリズムの一部として行っても良い。
【００２８】
具体的には、いわゆる「開始ピーク」及び「終了ピーク」（即ち、開始点及び終了点）を特定することが有用である。これらは、連鎖終了シークエンシング方法の変更例に見られる。これらのピークは、短鎖伸長生成物の周りのベースコーリングを妨害する大量の反応しなかったプライマー、及び長鎖伸長生成物の周りのベースコーリングを妨害する大量の完全配列を含む。これらのピークは、その大きさ、電気泳動処理の開始及び終了位置に対する位置、またはその他の方法で識別して除去される。
【００２９】
開始及び終了ピークを除去した後、確認された全てのピークが一般的な値に割当てられる高さと同一の高さを有するようにデータトレースを標準化することができる。この処理により、化学反応及び酵素作用による信号のばらつきが軽減され、２００塩基対或いはそれ以上の領域のシークエンシングにおいて、ホモ接合試料に対して、及び適度なヘテロ接合性即ち約５から１０％未満のヘテロ接合性を有する多くのヘテロ接合試料に対して良く機能する。スペクトル分離、スペクトル逆重量積分、又は多成分解析は、未処理の蛍光信号を、それぞれが１つの色を表す個別の染料で生成される成分にする非相関処理のことである。色の分離は、特異値分解（ＳＶＤ）又は当分野で周知の他の方法などの未処理のデータを染料のスペクトルに一致させる最小自乗法による推定により達成することができる。
【００３０】
ダイ（染料）の移動度シフトは、電気泳動移動度におけるダイ特異的な差異であって、これは、ベースコーラーに送られる電気泳動データがこれらのシフトに対して予め補償するための処理がされていない場合は、較正によって得ることができるし、またベースコーリングの一部として推定することもできる。移動度シフトを決定するための幾つかのアルゴリズムがここに開示されているが、これらは通常、シフトのセットに対してウィンドウ化された時間において局所探索を行い、ダイ−チャネル間のピークが重なる寸法を最小にする。
【００３１】
ステップ１０３でトレースデータを得た後、シーケンスデータ処理ツールがそのトレースデータを処理して、もとのピークを細くし、ピーク間のあらゆる重なりを小さくしてそれぞれのピークを分離する。幅がゼロの鋭いピーク（数学用語ではデルタ関数）が、全てを特定し、ピークが十分に分離されるのが好ましい。好適な実施形態では、これは、理想的なガウス型ピークを有する現在のトレースセグメントの相互相関計算を行って達成することができる。
【００３２】
ピーク特性即ちセグメントの中心を備えたセグメントは、最大トレース値を有し、モデルピーク（相関係数ｒが＋１近傍）と高い相互相関を有し、凹状領域が負の相関（ｒ〜−１）を有し、モノトーン領域が相関性を有しない（ｒ〜０）。元のトレースを、０から１の範囲に調整されたｒの対応する値で乗じ、ピークを細くし、これを繰り返し行ってデルタ関数にする。相互相関変換は以下のようにして求めることができる。
【００３３】
【数１】

ここでＴ（ｂａｓｅ，ｌｏｃ）は、位置ｌｏｃのｂａｓｅ（Ａ，Ｃ，ＧｏｒＴ）に関連するダイの色に対して検出された蛍光強度（トレース値）であり、即ちｒ（）は以下に説明する相互相関係数であり、ＭＰは理想的なガウスモデルピークである。
【００３４】
値Ｒ（ｂａｓｅ，ｌｏｃ）は、ベースコーリングの際に用いられる全てのトレース位置におけるピーク形状のインジケータを提供する。相互相関係数ｒは以下のようにして求めることができる。
【００３５】
【数２】

ここで、σ_Ｔ及びσ_ＭＰはそれぞれ、Ｔ及びＭＰの標準偏差である。Ｎは考慮するセグメントにおけるトレース位置の数であり好ましくはＮ＝６である。即ち、７個のトレースポイントのウィンドウである。クオリティフィルタリングの前の初めに割当てられたベースコール１つにおけるトレースポイントの数が７未満の場合は、ややアンダーサンプルされたクロマトグラムに対処するためにＮ＝４に調整される。ｒは、終端３トレースポイントの両方に対してゼロに設定される。
【００３６】
モデルピークは理想的なガウスピークとして以下の式で表される。
【００３７】
【数３】

標準偏差σは３．５に設定される（上記した条件に従ってアンダーサンプルされたクロマトグラムの場合は２．５）。
【００３８】
ステップ１０５において、シーケンスデータ処理ツールが、元のトレースに類似しているがピークが細くなった、即ち調整された４つの新しいトレースを生成する。ステップ１０７では、これらの４つのトレースが組み合わせられて、それぞれのトレース位置で最大ｆ値を取るようにして１つのトレースが生成される。同時平滑化を伴う閉じた形では、この新しいトレース（「ＬＴ」もしくは「Ｌｉｆｅｔｒａｃｅ」と呼ぶ）は以下のように求めることができる。
【００３９】
【数４】

ｋの値が大きいと、ＬＴ（ｌｏｃ）の値がｆの４つの値の最大値に収束し、ｋの値が小さいと、連立式に関数ＬＴ（ｌｏｃ）が滑らかになる。ｋ値の範囲を検査した結果、最良の値はｋ＝４のときに得られた。
【００４０】
上記した変換処理を図２に例示する。図２には、４つの元のトレースと、ピーク検出の基となる複合トレースＬＴが示されている。ベースコールが一番上の列に示され、この列には、クオリティ値に一致するピーク位置を示す縦線が設けられ、縦線の長さが長ければ長いほどクオリティ値が高いことを示している。この列の２本の水平線はそれぞれクオリティ値０と１５を示している。位置ａ）、ｂ）、及びｃ）は、上記したトレース変換（変換されたトレースＬＴ）によって得られた、容易になったピーク検出を例示する。このトレース変換により、極大値ではなくピークの肩でピークを高い信頼で検出できるようになり、重なっているピークを分離し、更にトレースＬＴの極大値に反映されていないため残留トレースからのノイズを軽減することが可能である。ノイズの軽減と同様にピークの分離が改善されていることも明らかである。４つのトレースを解析してピークを検出するのに代わって、１つのトレース（ＬＴ）で十分である。ＬＴの全ての極大値及び極小値はＬＴをスキャンして検出される。
【００４１】
ピークは、３つの連続したデータポイントの内の中間のデータポイントとして特定される。このとき、内側のデータポイントは外側の２つのデータポイントよりも高い位置にある（即ち極大値法）。極小値（３つの連続したデータポイントの中間のデータポイントが他の２つの外側のデータポイントよりも低い）も特定される。別法では、極大値と近接する極小値との差が閾値、例えば５％を超える場合は、トレース特性を実際のピークとして割当ててもよい。ベースラインからの極小値の高さを用いて偽性ピークを除去してもよい。別のピーク検出方法もまた可能であり当分野で周知である。
【００４２】
ステップ２０９で、実際のベースコーリングが行われ、検出したピークが塩基に割当てられる。ベースコールが、以下の式に従ってＬＴの検出した全ての極大値に割当てられる。
【００４３】
【数５】

ここで、Ｒ（ｂａｓｅ，ｌｏｃ）は式１から得られるピーク形状の因子であり、Ａはｌｏｃに中心がある７つのトレースピクセルのウィンドウにおけるトレースの下側の領域である。所定のピーク位置で極大値部分領域を有する塩基が選択され、所定の塩基のピーク状のトレースがどのようであるか（因子Ｒ）によって重み付けされる。現在位置における減少している部分領域のみ（因子Ｒでない）に従ってトレースがソートされた時に割当てられた塩基が第３或いは第４の塩基である場合は、Ｎ（決定されていない場合）が現在のピークに割当てられる。
【００４４】
Ｂ．クオリティ値の計算
コールの信頼性を評価できて低いクオリティコールと高いクオリティコールとを区別できる対応するクオリティ値は、実際のベースコールと同様に重要である。例えばＬａｗｒｅｎｃｅら、（１９９４）Ｎｕｃｌ．ＡｃｉｄＲｅｓ．２２：１２７２−１２８０及びＥｗｉｎｇ（１９９８）前出を参照されたい。本発明は２つの異なったクオリティ値、即ちコールのクオリティと実際の塩基がコールされなかったことを示唆するコール間の間隔のクオリティ（ギャップクオリティ）とを区別して用いる。
【００４５】
ギャップクオリティ値は、ベースコールが抜けた、即ちベースコーリング中に欠失エラーが生じるという確率を推定できる。アラインメント処理にこのギャップクオリティ値を用いることにより、アラインメント中の欠失エラーの正確な特定ができ、良い結果が得られる。従って、ギャップクオリティを用いて、ＳＮＰ（一塩基多形）、即ちベースコールエラーから確実に区別されるべき欠失を特定することができる。ここに開示する方法を用いて配列アラインメントを利用する実質的に全ての方法（例えば、配列をコンセンサス配列にアッセンブルし、複数の配列アラインメントを作成してモチーフなどを特定する）において、良い結果が得られる。
【００４６】
更に、クオリティ値に関連して得られるエラー統計は、ベースコールエラーがアラインメント中に正しく配置されなければならない。例えば、従来の標準的な動的プログラミングは、あいまいなトレース位置ではなくクオリティ値の高いベースコールに欠失エラーを誤って割当ててしまうことが頻繁に起こる。同様に、トレースデータにおける挿入エラーに続く２、３塩基の後の欠失エラーが、１つの置換エラーとして解釈される場合もある。本方法は、欠失エラーの正確な判定によるクオリティ値の改善された較正を提供する。
【００４７】
本発明の一実施形態に従った、コールされた塩基（ベース）に対するクオリティ値の計算についての高いレベルでの処理の流れ３０１が図３に示されている。塩基のクオリティ値は、ピーク位置及びその近傍のトレース特性から計算される。まず、ステップ３０３で、ノイズ、即ちコールされた塩基の下側の第２のピークのレベルが次のように求められる。
【００４８】
【数６】

ここで、Ｓは式５から求めることができ、Ｓ_{ｌａｒｇｅｓｔ}及びＳ_{ｓｅｃｏｎｄ} _{ｌａｒｇｅｓｔ}はそれぞれ、Ｓの最大値及び２番目に大きい値である。
【００４９】
ステップ３０５において、塩基の中心にある２０のベースコールの平均ピーク高さＰ_ｍの１／３より小さいピークに対応したクオリティ値を√（ＬＴ（ｌｏｃ）／（Ｐ_ｍ／３））で乗じる。理想的なピーク形状でないピークの場合は、ＬＴ（ｌｏｃ）はこの位置における最大トレース値よりも小さい。従って、
【００５０】
【数７】

ここで、Ｔ_ｍａｘは位置ｌｏｃでの最大トレース値である。
【００５１】
ステップ３０７において、ＬＴの非対称のトレース形状のクオリティを求めるために、以下の式のように因数分解される。
【００５２】
【数８】

ここで、ｒはＬ_ｌｏｃ＋ _ｉ値とＬｔ_{ｌｏｃ−ｉ}の値との間の線形な相関係数であって、ｉは１から、平均ピーク分割の半分、即ちピークの前後の整数値までの値である。
【００５３】
クオリティが低いことを表すピーク間隔のばらつきは、ステップ３０９で以下の式によって補正される。
【００５４】
【数９】

＜ｄ＞は、所定のコールの左右のはじめの２０のピーク間距離に対して求めた平均ピーク間隔を表す。コール位置及びそれに続く次のコール位置はそれぞれ、現在位置に対応するＬＴの１／３より大きいＬＴ値を有し、σ_ｄは標準偏差に関連する。
【００５５】
ステップ３１１で、ギャップクオリティ値が求められる。ギャップクオリティ値は２つの成分からなる。１つは連続する２つのコール間のノイズの程度であり、もう１つはコールされていないがそこに存在する可能性のある塩基を示す塩基ｉと塩基ｉ＋１との間の過度に広いピーク間隔である。
【００５６】
【数１０】

【数１１】

ここで、Ｒ_{ｎｏｉｓｅ}はコールされたピークｉ及びピークｉ＋１の下側の別のベーストレースの部分領域である。塩基がクオリティフィルタリング中に除去されると、このコールの前の塩基のギャップクオリティ値が下がる。最後のベースコールには、任意のギャップクオリティ値０．５が割当てられる（注：このスコアは後にスケーリングされる）。
【００５７】
最後の処理ステップ３１３において、クオリティ値は全てのベースコールに対して平滑化し、式ｑ＝−１０×ｌｏｇ_１０（ｐ）（Ｅｗｉｎｇ（１９９８）、前出）に従ってスケールに変換される。この式のｑはクオリティ値であり、ｐは実際に観察されたエラー率である。クオリティ値が、半対数プロットにおいて二次関数に類似した単調なｑとｐの関係を生むため、スケールの較正は単純な変換によって行うことができる。所定の塩基のｑ値が前のベースコール及び次のベースコールのｑ値よりも大きい場合は、ｑ値は３つの相加平均として計算される。これは、こうしなければ低いクオリティ領域に高いｑ値が付与されるのを回避するために行われる。
【００５８】
図４は、ギャップクオリティ値の概念を例示する。この例では、ベースコールエラーが生じている。即ち、実際のベースコール「Ｃ」が抜けている。この１つのＣ欠失により、下側に示されているように、アラインメント値は同じであるが、３つの異なったアラインメントが生成され得る。しかしながら、このクロマトグラムは、連続する３つのＣのうちの始めの位置でエラーが起こっていることを示している。これは、近接するベースコールの高いクオリティ値に比べて前のＡの低いギャップクオリティ値に反映されている。これをアラインメント中のギャップクオリティ値を考慮することにより、ギャップが最初の位置に適切に配置される。図４はまた、一連の同じ塩基における欠失エラーが異なってアラインメントされ得る様子を示している。ギャップクオリティ値により、欠失エラーの位置を特定でき、ギャップクオリティ値と欠失エラーとの間の関係が適宜に確立できる。
【００５９】
図５はコールされた塩基におけるクオリティフィルタリングについての高いレベルでの処理５０１を例示する。好ましくは幾つかのクオリティ基準に従ってクオリティフィルタリングの２つの相互作用が行われ、同じ塩基が続く場合にはピークが除去される或いは統合される。最後に、ピーク検出アルゴリズムが割当てた塩基の数が少なすぎ、ピークの幅が大きい場合には、ベースコールの追加が可能であるかどうかトレースがチェックされる。
【００６０】
クオリティフィルタリングに用いられるクオリティ基準及び関連するクオリティ閾値の選択は発見的方法で導かれ得る。ステップ５０３を参照されたい。クオリティフィルタリングのこのようなパラメータの１つは、適切なピーク間隔の正しい推定である。本発明は、内部的に割当てられたクオリティ値及びこの領域におけるピーク間の距離の均一性によって決定された、利用可能なクオリティの高い領域に距離が最も近いトレースデータのクオリティの低い領域における正しいピーク間距離を適切に推定する。
【００６１】
ステップ５０５において、ベースコールがクオリティ値の昇順に従ってソートされる。ステップ５０７において、最も低いクオリティ値から、ベースコールがクオリティ基準を満たしているかどうかチェックされ、満たしていない場合は除去される。これらのクオリティの閾値（通常は９などが用いられる）により、潜在的なベースコールの除去の前あるいは後、またはその両方において許容できる最小のピーク高さ及びピーク間の距離が制限される。
【００６２】
連続する２つの同じタイプの塩基を１つにすると、高いクオリティ領域により一致した新しいピーク間隔が得られ、２つのコール間の対応するトレースが明確な分離を示さず、クオリティの低いコールが除去される。ステップ５０９を参照されたい。
【００６３】
ガウス型に類似した幅の広いピークは、初めは１つのベースコールが割当てられる。しかしながら、同じタイプの複数の塩基が１つのピークにされる可能性がある。このようなピークを検出するために、ステップ５１１で、全てのピークの幅が測定され、現在のピークに近接したクオリティの高い領域に対して観察された平均ピーク分割を比較する。式「０．４５＋ピーク幅／ピーク間隔」の整数値が１より大きい場合は、対応する塩基数が現在のピークに加えられる。幅を測定する際、異なる塩基のピークが重なっていてはならない。最大トレース値が１つの塩基から別の塩基に変わる場合、ＬＴの値がｍａｘ（ＬＴｓ）／１０よりも低くなり、また現在の位置における最大トレース値もｍａｘ（ＬＴｓ）／６よりも低くなり、前のピークが終わる。前記した全ての閾値を超えた場合に次のピークが再び始まる。指標ｓは、クロマトグラムにおける同じ大きさの３つのセグメントのどれが現在処理されているかを意味する。これにより、クロマトグラム全長に渡る最大トレース値の変化が分かる。挿入されたピークには、ｍａｘ（クオリティ値）／１０の任意のクオリティ値が割当てられる。
【００６４】
ピーク幅測定の処理はまた、ピーク間の距離としてギャップを識別する。様々な理由から、これらのギャップが実際の塩基の脱落を表しており、対応する数のＮのベースコールが加えられる。
【００６５】
Ｃ．ベンチマーキングプロトコル
本発明はまた、ベースコーリングアルゴリズムの性能をベンチマークするための方法を提供する。具体的には、本発明の性能を検査してｐｈｒｅｄと比較するために、２つの異なった方法を実施する。第１の方法１では、ｐｈｒｅｄ出版物（Ｅｗｉｎｇら、前出）に詳細が示されているベンチマーキングアルゴリズム採用した。ここでは、ベースコールが前出のＥｗｉｎｇ他による文献に示されているアラインメントパラメータを用いてクロスマッチにより既知の実際のコンセンサス配列に対してアラインメントされる。２つのコールされた配列が整列されたアラインメント領域（即ち、互いに整列可能な領域）が、ベースコールエラー、即ち置換エラー、欠失エラー、または挿入エラーについて解析される。互いに整列可能な領域を超えて実際の配列と整列するベースコールは、これらのコールを生成したベースコーラーのために追加的に整列された塩基の数に入れられる。要するに、この方法は両方のベースコーラーが広い範囲に一致するようなクオリティの高い領域に解析を制限し、結果としてエラー統計が類似しなければならない。しかしながら、一方のベースコーラーが、少ないベースコールエラーでより整列し易い塩基を一貫して生成する可能性がある。方法１では、これが追加的に整列したベースの数に反映されるが、それらの領域における実際のエラー率の比較はできない。
【００６６】
コンセンサスアラインメントが解析される方法１とは対照的に、エラー統計がコンセンサス配列ストレッチに対して収集される。コンセンサス配列ストレッチの境界は、ここに記載する方法２の一方のベースコーラーによって導かれた最も左（コンセンサス配列に対して）及び最も右のＢｌａｓｔＨｉｇｈＳｃｏｒｉｎｇＰａｉｒ（ＨＳＰ）境界（問い合わせ配列（ＬｉｆｅＴｒａｃｅまたはｐｈｒｅｄ）とコンセンサス配列との間の整列したセグメント）によって決定される。その原理は、２つのベースコーラーの一方による高スコアＢＬＡＳＴヒット（ｈｉｇｈｓｃｏｒｉｎｇＢｌａｓｔｈｉｔ）がそのトレースデータがそのような正確なベースコーリングを許したことを証明し、これにより他方のベースコーラーの性能が下回っているということである。
【００６７】
各クロマトグラムにおいて、ｐｈｒｅｄ及びＬｉｆｅＴｒａｃｅにより生成されたヌクレオチド配列が、デフォルトパラメータを用いてプログラムｂｌａｓｔｎによりコンセンサス配列（実際の配列）に整列される（Ａｌｔｓｃｈｕｌｅｔａｌ．（１９９０）Ｊ．Ｍｏｌ．Ｂｉｏｌ．２１５：４０３−４１０，ｖｅｒｓｉｏｎ２．０ａ１９−ＷａｓｈＵ）。Ｐｈｒｅｄ配列又はＬｉｆｅＴｒａｃｅ配列の一方からのｐ値が１０−^２０よりも小さいトップのＨＳＰに属する初めの塩基及び最後の塩基に対応する最も小さい及び最も大きいトレース位置を用いて、アラインメント可能なトレースデータの開始及び終了位置を決定する。開始トレース位置と終了トレース位置との間にくる全ての塩基が、ｐｈｒｅｄ及びＬｉｆｅＴｒａｃｅ配列の両方から切り取られ、完全な動的プログラミングを用いて決定されたコンセンサス配列のヒット領域に対して再び整列される（初めのコンセンサス塩基と最後のコンセンサス塩基との間の配列はｐｈｒｅｄもしくはＬｉｆｅＴｒａｃｅの何れかによって見つけられる）。Ｎｅｅｄｌｅｍａｎ及びＷｕｎｓｃｈ，（１９７０）Ｊ．Ｍｏｌ．Ｂｉｏｌ．４８：４４３−４５３を参照されたい。ベクター配列によりベースコールエラーが発生しないようにするために、何れかのベースコーラーが両端において少なくとも１０個の連続した塩基に対して完全に一致しなければならず、またエラー統計がそのアラインメントの残りの中間部分に対してのみ収集されなければならない。
【００６８】
クオリティ値に関連したエラー統計を得るためには、ベースコールエラーが整列の際に適正に配置されなければならない。例えば、欠失エラーが４つの連続するＣで起こった場合（３つのＣのみがコールされた場合）、４つの塩基の何れかに起因し、全体のアラインメント値は変わらない。従って、このような欠失エラーが、標準的な動的プログラミング中にあいまいなトレース位置ではなくクオリティの高いベースコールに誤って割当てられる可能性がある。同様に、トレースデータにおける挿入エラーの２、３塩基の後の欠失エラーが誤って１つの置換エラーと見なされる場合が実際にある。Ｂｅｒｎｏ（１９９６）ＧｅｎｏｍｅＲｅｓ．６：９０−９１を参照されたい。このような問題の影響が出ないようにするために、アラインメント中に一致値のような実際のクオリティ値及びギャップペナルティを用いた。その結果、連続した塩基における欠失が最もクオリティの低い位置、即ち最もエラーが起こり易い位置に配置され、クオリティの高いベースコールが優先して一致が割当てられる。詳細には、位置特異的一致に対しては＋１＋ＬｉｆｅＴｒａｃｅＱｓｃｏｒｅ（ｂａｓｅＣａｌｌ）／５の値、ミスマッチに対しては−２、位置依存的ギャップペナルティには（３＋ＬｉｆｅＴｒａｃｅＧａｐＱｓｃｏｒｅ（ｂａｓｅＣａｌｌ）／１０）が用いられた。置換エラー及び挿入エラーは、対応するベースコールの通常のクオリティ値に関連し、欠失エラーは、次にコールされる塩基に対してギャップのクオリティが測定されるためギャップの前の塩基のギャップクオリティ値に関連する。
【００６９】
Ｄ．ソフトウエア／ハードウエア
本発明の実施形態は、１或いは複数のコンピュータシステムにデータをストアしたり、そのコンピュータシステムを介して転送するなどの様々な処理を用いる。本発明の実施形態はまた、これらの処理を実行するための装置に関する。この装置は、必要な目的のために特別に製造されたものであっても良いし、或いはコンピュータプログラム及び／またはそのコンピュータにストアされたデータ構造によって選択的に作動する或いは再構築される汎用目的のコンピュータを用いても良い。ここに記載する処理は、本質的に任意の特定のコンピュータ或いはその他の装置に関連していない。特に、様々な汎用目的の装置を、ここでの開示に従って書き込まれたプログラムと共に用いてもよいが、必要な方法の各ステップを実行するために特別に製造された装置がより好ましい。これらの様々な装置の特定の構造が以下の説明から明らかになるであろう。
【００７０】
加えて、本発明の実施形態は、コンピュータ実行動作を実施するためのプログラム命令及び／またはデータ（データ構造を含む）を含むコンピュータ読み取り可能ディア或いはコンピュータプログラムに関する。コンピュータ読み取り可能メディアとして、限定するものではないが、ハードディスク、フロッピー（登録商標）ディスク、及び磁気テープなどの磁気メディア、ＣＤ−ＲＯＭディスクなどの光学メディア、磁気光学メディア、半導体記憶装置、並びにＲＯＭ及びＲＡＭなどのプログラム命令をストアして実行するように特別に構成されたハードウエア装置が含まれる。で実現可能である。プログラム命令として、コンパイラーによって生成されるような機械コード、並びにインタープリターを用いてコンピュータによって実行されるより高いレベルのコードを含むファイルの両方がある。
【００７１】
図６は、好適に構成即ちデザインされると本発明のイメージ解析装置として働く典型的なコンピュータシステムを例示する。コンピュータシステム６００が、主記憶装置６０６（通常はＲＡＭ）及び主記憶装置６０４（通常はＲＯＭ）を含む記憶装置に接続された任意の数のプロセッサ６０２（セントラルプロセシングユニットまたはＣＰＵとも呼ぶ）を含む。ＣＰＵ６０２は、プログラムが可能な装置（例えば、ＣＰＬＤ及びＦＰＧＡ）やゲートアレイＡＳＩＣなどのプログラムができない装置などのマイクロコントローラ及びマイクロプロセッサまたは一般目的のマイクロプロセッサを含む様々なタイプが可能である。当分野で周知のように、主記憶装置６０４がデータ及び命令をＣＰＵに一方向的に転送し、主記憶装置６０６がデータ及び命令を双方向的に転送するために用いられる。これらの主記憶装置の双方は、上記したような好適なコンピュータ読み取り可能メディアを含み得る。また大容量記憶装置６０８が、ＣＰＵ６０２に双方向的に接続されており、追加のデータ記憶容量を提供し、上記したようなあらゆるコンピュータ読み取り可能メディアを含み得る。大容量記憶装置６０８はプログラム及びデータなどをストアするために用いられ、通常はハードディスクなどの二次記憶メディアである。大容量記憶装置６０８に保存された情報は、場合によっては、仮想メモリとして主記憶装置６０６の一部として通常の方法で組み込まれ得る。ＣＤ−ＲＯＭ６１４などの特定の大容量記憶装置もまた、ＣＰＵに双方向的にデータがやり取りされる。
【００７２】
ＣＰＵ６０２はまた、ビデオモニタ、トラックボール、マウス、キーボード、マイクロフォン、タッチ式ディスプレイ、トランスデューサーカードリーダー、磁気或いは紙テープリーダー、タブレット、スタイラス、音声或いは手書き認識装置、または他のコンピュータなどの既知の入力装置などの１或いは複数の入出力装置に接続するインターフェース６１０に接続されている。最後に、ＣＰＵ６０２はステップ６１２に全体的に示されているような外部接続を用いてデータベース、コンピュータなどの外部装置、または電話網に必要に応じて接続することができる。このような接続により、ＣＰＵはここに記載するステップを実行するために、ネットワークから情報を受け取ったり、ネットワークに情報を出力することが可能である。
【００７３】
一実施形態では、コンピュータシステム６００は電気泳動検出装置に直接接続されている。電気泳動検出装置からのデータが解析のためにインターフェース６１２を介してシステム６００に送られる。或いは、システム６００によって処理されたデータ或いはトレースが、データベースや他のリポジトリーなどのデータ記憶源から送られる。また、イメージもインターフェース６１２を介して送られる。コンピュータシステム６００において、主記憶装置６０６或いは大容量記憶装置６０８などの記憶装置が、データ或いはトレースイメージを少なくとも一時的にバッファ或いはストアする。このデータを用いて、イメージ解析装置６００が、ベースコーリング及びベンチマーキングなどの様々な解析処理を実行する。プロセッサは、ストアされたイメージまたはデータに対して様々な動作を実行し得る。
【００７４】
（実施例）
以下に示す例は、本発明に従った方法及びシステムがベースコーリング及びベンチマーキングに対して効果的であることを示す実験結果を提供する。後述する例は、例示目的であって、本発明がこれらの例によって限定されるものではないことを理解されたい。
【００７５】
概要
バージョン０．９９０７７．ｆのｐｈｒｅｄをこの実験に用いた。ｐｈｒｅｄのこのバージョンは、ＡＢＩ−３７７、ＭｅｇａＢＡＣＥ１０００、及びＡＢＩ−３７００に対する装置固有のクオリティ値較正を利用する。ＬｉｆｅＴｒａｃｅはＣで書かれている。ＬｉｆｅＴｒａｃｅは、標準的なＸ１１ライブラリに基づいたクロマトグラムトレースデータを表示するためのグラフィカルインターフェースを提供し、任意のＵＮＩＸ（登録商標）Ｘｗｉｎｄｏｗシステム上で動作する。
【００７６】
Ａ．性能試験
本発明の方法を、一般的に使用される３つのシークエンシング装置、即ちＭｅｇａＢＡＣＥ、ＡＢＩ−３７００キャピラリシークエンサー、及びＡＢＩ−３７７スラブゲルシークエンシング装置について評価した。本発明のベースコーラー（ＬｉｆｅＴｒａｃｅ）及びｐｈｒｅｄベースコーラーの正確さを評価するために、以下の表１に示されている３つのヒトＢＡＣクローン（第７染色体）からのＭｅｇａＢＡＣＥリードの大きなセットを用いた。
【００７７】
【表１】

それぞれのクローンは、ショットガンシークエンシング法によりかなり深くシークエンシングした（１０ｘ−２０ｘ）。次に配列をアッセンブルし仕上げた。仕上がった配列は極めて正確であり、エラーは５０，０００塩基に１未満と推定される。従ってこれらの配列は、ベースコーラーの正確さを評価するのに適している。
【００７８】
以下の表２には、解析に用いられる多数のリードが示されている。各配列は、ＡｍｅｒｓｈａｍのＭｅｇａＢＡＣＥ１０００キャピラリシークエンサーを用いて読まれた。トレース処理は、Ｃｉｍａｒｒｏｎｖ１．６１解析ソフトウエア（ＣｉｍａｒｒｏｎＳｏｆｔｗａｒｅＩｎｃ．，ＳａｌｔＬａｋｅＣｉｔｙ，Ｕｔａｈ）を用いて行われた。データセットは、反応によって分類され、ダイプライマーのリードはダイターミネーターのリードとは別に解析された。追加の試験を、反応（プライマー、ターミネーター）が混合する合計４，７１４のＡＢＩ−３７００シークエンサークロマトグラムについて行った。ＨｕｍａｎＣｏｌｌａｇｅｎａｓｅ（ＧｅｎＢａｎｋ受入れ番号：Ｕ７８０４５）にアセンブルされる１，１８４のＡＢＩ−３７７クロマトグラムの小さいセットを、スラブゲルシークエンサーのベンチマーキングに用いた。
【００７９】
Ｂ．ベンチマーキング
方法１に従ったＭｅｇａＢＡＣＥクロマトグラムのセットにおける性能試験（性能試験の部分を参照）から得られた２つのベースコーラーｐｈｒｅｄ及びＬｉｆｅＴｒａｃｅについてのベンチマーク統計が以下の表２及び表３に示されている。本発明は、ダイプライマーに対してはｐｈｒｅｄよりも２．４％以上多い整列した塩基を提供し、ダイターミネーターに対しては２．１％以上多い整列した塩基を提供する。この大きな違いは長いリードによるが、相当な部分が追加の整列されたリードによる。
【００８０】
【表２】

本方法は、全体としてダイプライマーにおいてエラーが１７％少なく、そのうち置換エラーが１７％少なく、挿入及び欠失エラーが１６％少ない。ダイターミネーターデータの場合は、本方法は全体として１３％エラーが少なく、そのうち置換エラーが１５％少なく挿入及び欠失エラーが１０％少ない。エラーのタイプ及び塩基の位置による詳細が図７に示されている。ダイプライマー及びダイターミネーターの両方のセットにおいて、並びに全ての位置の範囲において、ここに記載する方法は一貫して合計エラーが少なく、「Ｎ（不明）」のコールが僅かであるため置換エラーが少ない。本方法によって生成された挿入及び欠失エラーの数は、塩基位置１００−５００の範囲において大幅に少なくなっており、一般にこの範囲は、エラー統計において最も高いクオリティのトレース情報であってベースコール数が最も多い（表３を参照）。
【００８１】
【表３】

両方のベースコーラーが実際の配列に整列した領域にエラー解析を限定することによって、方法１が、両方のベースコーラーのエラー生成の少ない領域に対するエラー統計が集まる傾向になる。しかしながら、本方法の方法１で追加的に整列した塩基は、ｐｈｒｅｄが例外的に多くのエラーを生成する領域に対してエラーが少ない実際に信頼性の高いベースコールである。例えば、或るクロマトグラムに対して、方法１は２０２塩基の連帯的に整列可能な配列領域を生成する。この領域は、ｐｈｒｅｄではエラーが７、本方法ではエラーが０であって、２６４の余分な整列した塩基が含まれる。これとは対照的に方法２は、ＬｉｆｅＴｒａｃｅがコールした配列に基づいた４６５の塩基の開始ｂｌａｓｔアラインメントを生成する。このアラインメントにおいて、同等のクロマトグラム領域におけるベースコールエラーがｐｈｒｅｄでは６７であり、本方法ではエラーが０である。方法２は、明らかに追加の整列した塩基を更に解析して性能の差を広げている。
【００８２】
ベースコーラー間、即ちｐｈｒｅｄと方法２を用いるここに記載する方法（ＬｉｆｅＴｒａｃｅ）との間の性能の比較が表４−表７に要約されている。
【００８３】
【表４】

【表５】

【表６】

【表７】

より具体的には、表４−表７に、方法２（方法のセクションを参照）を用いたＭｅｇａＢＡＣＥのダイ−プライマー及びダイ−ターミネーターのセットの両方における性能試験から得られたエラー統計の詳細が示されている。これらの表には、全ての可能なエラーの組み合わせが列記されている。例えば、ＭｅｇａＢＡＣＥ＿プライマーのセットに対して、ＬｉｆｅＴｒａｃｅが正しくコールしたのにｐｈｒｅｄに置換エラーがあったのは１２，１９２であるのに対してｐｈｒｅｄが正しくコールしたのにＬｉｆｅＴｒａｃｅに置換エラーがあったのは１０７，２７であり、また両方のベースコーラーに置換エラーがあったのは１４，０６９である。「平均ＢＬＡＳＴヒット長さ」は、コールされた配列と仕上がった実際のコンセンサス配列との間のスコアの高い配列アラインメントの長さを指す。「Ｎ」とコールされたものは塩基としてカウントされ、置換エラー及び挿入エラーとなる。
【００８４】
２つのＭｅｇａＢＡＣＥのセット（ダイ−プライマー及びダイ−ターミネーター）において、ＬｉｆｅＴｒａｃｅはｐｈｒｅｄよりもベースコールエラーが３０％少ない。既に説明したように、方法２におけるｐｈｒｅｄに対するＬｉｆｅＴｒａｃｅのエラーが方法１よりも急激に減少したのは、ＬｉｆｅＴｒａｃｅによる追加の整列した塩基にまでエラーの解析を拡大したことに起因する。特に挿入エラーが大幅に減少している。これは、図８に例示されているようにｐｈｒｅｄがばらつきのあるピーク間隔に対する調整に頻繁に失敗しているためである。ＬｉｆｅＴｒａｃｅによる置換エラーの数もｐｈｒｅｄに比べて減少している。プライマーセットにおいて、ＬｉｆｅＴｒａｃｅが正しくコールしたのにｐｈｒｅｄに置換エラーがあったのは１２，１９２ベースコールあるのに対してｐｈｒｅｄが正しくコールしたのにＬｉｆｅＴｒａｃｅにエラーがあったのは１０，７２７であり、ｐｈｒｅｄに対するＬｉｆｅＴｒａｃｅのエラーが１２％少ない。ダイ−ターミネーターにおいては、同じように比較した置換エラーが２．３％減少している。ＬｉｆｅＴｒａｃｅによる挿入／欠失エラーの合計数は、主に挿入エラーの著しい減少により大幅に減少している（ダイ−プライマーでは４２％少なく、ダイ−ターミネーターでは４７％少ない）。ＬｉｆｅＴｒａｃｅで生成された、実際の配列に対するコールされた配列の開始ＢＬＡＳＴアラインメントがｐｈｒｅｄよりも平均３〜５％長いことは、正しいコールの数が増えたことを示している。
【００８５】
ＡＢＩ−３７７シーケンサーのクロマトグラムのセットにおいて、ｐｈｒｅｄ及びＬｉｆｅＴｒａｃｅの全体の性能は、ほぼ同じ合計エラー率である。エラーのタイプを分類すると、ＬｉｆｅＴｒａｃｅがこのセットに対してはより多数の挿入エラー及び欠失エラーを生成しているが、置換エラー数の減少により相殺されている。挿入／欠失エラーの数が多いことから、実際のコンセンサス配列に対するコールされた配列の開始ＢＬＡＳＴアラインメントがｐｈｒｅｄよりも２％短くなっている。しかしながら、挿入／欠失は配列アセンブルの文字列においてより重大である。つまり、挿入／欠失は置換エラーよりも対処が困難であって重大な読み枠シフトのエラーを引き起こし得る。
【００８６】
ＡＢＩ−３７００のクロマトグラムにおいても同様の結果が得られた。具体的には、ＬｉｆｅＴｒａｃｅの生成した置換エラーが２９％少なく、挿入／欠失エラーが１３％多く、全体として約１０％エラーが多い。ｐｈｒｅｄに対するＬｉｆｅＴｒａｃｅのベースコールエラーの相対的な上昇は、主にリードの端部に限定されている。すなわち、この端部は極めてクオリティの低い領域である。リードを、約５００ヌクレオチドのリード長さ或いは元の長さの約３分の２に対応するピクセル位置６０００で切断すると、エラー統計はＬｉｆｅＴｒａｃｅに有利になり、ｐｈｒｅｄよりも置換エラーが６％少なく、挿入／欠失エラーが２０％少なく、全体としてエラーが１３％少なくなる。従って、ＬｉｆｅＴｒａｃｅはクオリティの低いリード端部ではエラーが多いが、クオリティの高い領域では生成するエラーがかなり少ない。多くの後処理には、或る種のクオリティクリッピングを伴い、これによりクオリティの高い領域におけるエラー数の減少がより顕著になる。
【００８７】
ＬｉｆｅＴｒａｃｅにより達成されたＭｅｇａＢＡＣＥベースコールエラーの大幅な削減は、主にｐｈｒｅｄが例外的に多くのエラーを生成するクロマトグラムの場合に限られる。図９は、ｐｈｒｅｄ或いはＬｉｆｅＴｒａｃｅの何れかの大きい方のエラー数によるクロマトグラムにおいて検出されたエラーの関数として、ｐｈｒｅｄに対するＬｉｆｅＴｒａｃｅのエラー率を示す。ＬｉｆｅＴｒａｃｅの改善された性能が、エラー数の多い（＞２５）クロマトグラムでより明確である。ここでも、これは、ｐｈｒｅｄがばらつきのあるピーク間隔の調整が困難であることによって説明される。これらのクロマトグラムの多くは明らかにクオリティが高いが、それでもｐｈｒｅｄはピーク間隔を均一にするべく追加の塩基を挿入する（図８）。しかしながら、ＬｉｆｅＴｒａｃｅはまた、両方のベースコーラーが生成するエラー数の少ないクオリティの高いクロマトグラムにおいてもｐｈｒｅｄよりも性能が優れている。ＬｉｆｅＴｒａｃｅは、エラーの少ない（＜６エラー）ダイ−ターミネーターのクロマトグラムにおいてのみエラーをやや多く生成する（約５％）。しかしながら、このクロマトグラムのサブセットは、図９の累積クロマトグラムのカウントから分かるように、解析された全てのクロマトグラムの内の僅か約２０％である。ｐｈｒｅｄに対するＬｉｆｅＴｒａｃｅの比較は、ＡＢＩ−３７７のデータにおいてほぼ平坦であり、このことから両方のベースコーラーが全てのクロマトグラムのクオリティ範囲に亘って均一に動作することが分かる。ＭｅｇａＢＡＣＥのデータとは対照的に、ＡＢＩ−３７００のクオリティの高いクロマトグラムにおいてＬｉｆｅＴｒａｃｅの性能が向上しているのが分かる。ＬｉｆｅＴｒａｃｅは、ＬｉｆｅＴｒａｃｅ及びｐｈｒｅｄの両方が生成するエラーが比較的少ないクロマトグラムにおいて生成するエラーが少ないことが観察された。これは、上記した切り取られたＡＢＩ−３７００クロマトグラムにおけるエラー率が低下したことによる。
【００８８】
ＬｉｆｅＴｒａｃｅは、実際のベースコールのクオリティと、塩基間のギャップクオリティの２つのクオリティ値を区別する。ＬｉｆｅＴｒａｃｅのクオリティ値に影響を及ぼすトレース関連パラメータが、実際に観察されたエラー率と単調な関係を示す生のクオリティ値を生成したため、ベースコールクオリティ値とギャップクオリティ値の両方を、ｑ＝−１０×ｌｏｇ_１０（エラー率）であるｐｈｒｅｄにより導入された規約に対して較正することが可能であった。コールされた塩基に割当てられた較正されたクオリティ値を、図１０の観察されたエラー率と比較する。プライマーとターミネーターの両方のセットにおいて、ＬｉｆｅＴｒａｃｅのクオリティ値が予想エラー率の信頼できる予測子であることが分かり、理想線から狭い範囲に入る。このことは、２つのセット間の広がりがやや広いがｐｈｒｅｄにも当てはまる。しかしながら、ｐｈｒｅｄのクオリティ値により、置換、挿入、及び欠失の３つ全てのエラーの確率を推定できることに留意されたい。図１０では、ＬｉｆｅＴｒａｃｅ及びｐｈｒｅｄの何れにおいても、欠失エラーが考慮されていない。欠失した塩基は、対応するクオリティ値を有し得ない。本発明は、ギャップクオリティ値を採用するが、ｐｈｒｅｄはクオリティの低いギャップ（広いギャップ、即ち中間にピークを有する可能性のあるギャップ）を隣接するベースコールのクオリティ値に伝播する。
【００８９】
ベースコーリングにおいてクオリティ値を割当てる目的は、誤っている可能性の或るベースコールとクオリティの高いベースコールとを確実に区別することにある。図１１には、ＬｉｆｅＴｒａｃｅ及びｐｈｒｅｄの全てのコールに対するクオリティ値の分布と比較したベースコールエラーに関連するクオリティ値についてのヒストグラムがプロットされている。ベースコールエラーがクオリティの低い領域に蓄積され、他の大多数のベースコールと十分に分離されるのが理想的である。全体の分布は、ＬｉｆｅＴｒａｃｅ及びｐｈｒｅｄにおいて類似しているが、ｐｈｒｅｄのヒストグラムはＬｉｆｅＴｒａｃｅよりもかなり凹凸がある。これは、トレースパラメータをクオリティ値／観察されたエラー率に一致させるようにｐｈｒｅｄがルックアップテーブルを利用していることによる。一方、ＬｉｆｅＴｒａｃｅは、クオリティの判定に連続したパラメータを利用しているため、滑らかな曲線になっている。
【００９０】
図１２には、割当てられたギャップクオリティ値が推定値を有し、観察されたエラー率が正確に推定されていることが示されている。欠失エラーは、ギャップクオリティの低いギャップコールに限定され、クオリティの高いデータ群からは十分に分離している（図１３）。図１２及び図１３は、置換／挿入エラーを示す図１０及び図１１に相当するプロットであり、欠失エラーについてのデータを示している。現行では、成分の或る１つの特定の閾値がギャップクオリティに寄与しているため、可能な最も低いギャップクオリティ値は１５である。実際には多くのギャップコールが１５以下になることがあるが、そのような場合はギャップクオリティを１５にする。
【００９１】
ベースコーリングの正確さはまた、クロマトグラムに施される予備処理による影響を大きく受け、予備処理の違いにより較結果が異なり得る。例えば選択されたリード長さ、またはピーク当たりのサンプリング率等の他の技術パラメータが、記録されたクロマトグラムのクオリティに体系的に影響を与え、たとえ同じタイプの装置で生成されたとしてもクロマトグラムのセットに違いがでる。このようなセット間の体系的な差異は、クオリティ値の較正により補償するのが好ましい。
【００９２】
付録ソフトウエア
本明細書一部として含まれる付録ソフトウエア（ＩｎｃｙｔｅＧｅｎｏｍｉｃｓ，Ｉｎｃが著作権者）は、本発明の実施形態を実現するための擬似コードを提供する。しかしながら、本発明を別の方法でも実現可能であることを理解されたい。
【００９３】
上記した説明は例示目的であって限定することを意図したものではない。本発明の様々な変更例が本開示により可能であることは、当業者には明らかであろう。本発明は特にＤＮＡ（天然或いは非天然）の評価について説明しているが、これは単なる例示目的であって、本方法はＲＮＡ等の他の物質にも適用可能である。従って、本発明の範囲は、上記の説明により限定されるべきものではなく、請求の範囲等によってのみ限定されるものであることを理解されたい。
【外１】

【外２】

【外３】

【外４】

【外５】

【外６】

【外７】

【外８】

【外９】

【外１０】

【外１１】

【外１２】

【外１３】

【外１４】

【外１５】

【図面の簡単な説明】
【図１】
ベースコーリングのための本発明の高いレベルの処理の流れを示す線図。
【図２】
ＬｉｆｅＴｒａｃｅによるクロマトグラムトレースデータの処理を例示する図。４つの元のデータトレースと、ピーク検出の基礎となる複合トレースＬＴが図示されている。ＬｉｆｅＴｒａｃｅベースコールが一番上の列に示されており、ＬｉｆｅＴｒａｃｅクオリティ値に対応するピーク位置を示す縦線は、長さが長ければ長いほどクオリティ値が高いことを示す。この列の２本の水平線はそれぞれクオリティ値０と１５を示している。
【図３】
クオリティ値を計算するための本発明の高いレベルの処理の流れを示す線図。
【図４】
ギャップクオリティの概念を例示する図。サンプルのクロマトグラムの一部が、トレースと、ピーク位置を示す縦線マークの長さによって定量化されたクオリティ値に対応するコールを示す。２本の縦線の内の左側の縦線は、実際のベースコールのクオリティ値を表し、右側の縦線は、ベースコールされた塩基の後のギャップのクオリティを表す
【図５】
ベースコールされた塩基におけるクオリティ・フィルタリングの性能のための本発明の高いレベルの処理の流れを示す線図。
【図６】
本発明の様々なベースコーリングアルゴリズム等の本発明の様々な実施態様を実施するために用いることができるコンピュータシステムのブロック図。
【図７Ａ】
方法１を用いた、ＭｅｇａＢＡＣＥダイ−プライマーのセットにおけるｐｈｒｅｄ（グレーの棒）とＬｉｆｅＴｒａｃｅ（黒の棒）との性能比較を示す図（性能分析の部分を参照）。ベースコールエラーが、ベースコールされた配列の所定部分において、様々なタイプのエラーに対して解析されている。「Ｎ」は、未確定塩基である「Ｎ」とベースコールされたものを指す。
【図７Ｂ】
方法１を用いた、ＭｅｇａＢＡＣＥダイ−ターミネーターのセットにおけるｐｈｒｅｄ（グレーの棒）とＬｉｆｅＴｒａｃｅ（黒の棒）との性能比較を示す図（性能分析の部分を参照）。ベースコールエラーが、ベースコールされた配列の所定部分において、様々なタイプのエラーに対して解析されている。「Ｎ」は、未確定塩基である「Ｎ」とベースコールされたものを指す。
【図８】
パネルＡは、対応するベースコールを備えたサンプルＭｅｇａＢＡＣＥクロマトグラムである。ピークを示す縦線の長さはクオリティ値に一致し、その長さが長いほどクオリティが高いことを示す。２本の水平線のクオリティ値はそれぞれ０と１５である。パネルＢは、ＬｉｆｅＴｒａｃｅによって決定されたピーク位置に対応するピーク間の距離を示す。所定のクロマトグラム位置（ｘの値）における各ピークに対して、次のピークまでの距離（ｙの値）がプロットされている。パネルＡに示されているクロマトグラムセグメントは、４０００と４４００との間のクロマトグラム位置に対応する。
【図９】
クロマトグラムのクオリティに従って分類されたクロマトグラムのセットにおけるｐｈｒｅｄエラーに対するＬｉｆｅＴｒａｃｅ（ＬＴ）エラーの比較を示す。ここで、クオリティは、ＬｉｆｅＴｒａｃｅ或いはｐｈｒｅｄの何れかによって生成された許容される最大エラー数、即ち、ｍａｘ（ＬｉｆｅＴｒａｃｅ＿エラー、ｐｈｒｅｄ＿エラー）として表される。例えば、ＬｉｆｅＴｒａｃｅ及びｐｈｒｅｄのそれぞれが生成したエラーが５未満のクロマトグラムは、クオリティの高いクロマトグラムとする。グラフに示されているように、クロマトグラムの或るセットにおいてｐｈｒｅｄは多くのエラーを生成したが、ＬｉｆｅＴｒａｃｅは極少数のエラーを生成しており、ＬｉｆｅＴｒａｃｅの方がｐｈｒｅｄよりも性能が高い。エラー率は、ｐｈｒｅｄエラーの数によって標準化する。即ち、ｐｈｒｅｄは相対エラー率が１の水平線である。破線は、カラーコードがｌｅｇｅｎｄカラーに一致する所定の閾値におけるセットのクロマトグラムの全数によって標準化されたクロマトグラムの数の累積合計に対応する。
【図１０】
ＬｉｆｅＴｒａｃｅ及びｐｈｒｅｄのクオリティ値の忠実度を示す。実際の配列に整列された全てのベースコールに対するクオリティ値は、幅Δ（クオリティ値）＝２の間隔でビンに分類された。半対数プロットは、クオリティ値に関連して各ビンにおいて観察されたエラー率を示す。このクオリティ値は、解析されたダイ−プライマー及びダイ−ターミネーターＭｅｇａＢＡＣＥクロマトグラムのセットにおけるビンに対応している。欠失エラーが新規に導入されたギャップクオリティ値（図１３を参照）によって補足されるため、置換エラー及び挿入エラーのみが考慮されており、欠失した塩基自体は、存在しないのであるからクオリティ値を有していない。「理想線」は、ｑ＝−１０×ｌｏｇ_１０（観察されたエラー率）である。
【図１１】
クオリティ値の選択的なパワー及びクオリティの高いベースコールの保持を示す。クオリティ値の頻度分布は置換エラー及び挿入エラーに関連し、クロマトグラムのセットにおけるＬｉｆｅＴｒａｃｅ及びｐｈｒｅｄベースコーラーによる全てのベースコールが解析された。頻度は、幅２の単位のクオリティ値の間隔内のビンにあるコールに対して計算された。
【図１２】
ＬｉｆｅＴｒａｃｅギャップクオリティ値の忠実度を示す。解析されたＭｅｇａＢＡＣＥクロマトグラムのセット（プライマー及びターミネーター）についてのアラインメントにおける前の塩基に割当てられたギャップクオリティ値に関連する欠失エラーの観察された頻度の半対数プロットである。ギャップの前の塩基のギャップクオリティ値は、次にコールされた塩基に対するギャップクオリティを獲得する。すなわち、低いギャップクオリティは、その塩基と次にコールされた塩基との間に別の塩基が入る可能性が高く、欠失エラーの可能性があることを示している。ＬｉｆｅＴｒａｃｅでは、ギャップはコールと考えられ、「観察されたエラー率」は、コールされた全てのギャップの内の誤ったギャップ（塩基間のミスした実際のベースコール）である。ビンの幅は４クオリティ単位であり、「理想線」は図１０と同様である。
【図１３】
ＬｉｆｅＴｒａｃｅギャップクオリティ値の選択的なパワーを示す。クオリティ値の頻度分布は欠失エラー（ギャップの前のベースコールに割当てられたギャップクオリティ）に関連し、クロマトグラムのセットにおけるＬｉｆｅＴｒａｃｅベースコーラーによる全てのギャップコールが解析された。頻度は、幅２の単位のクオリティ値の間隔内のビンにあるコールに対して計算された。

Claims

核酸ポリマーの配列を決定するための方法であって、
（ａ）電気泳動検出装置におけるＤＮＡシークエンシング反応の生成物を検出する複数のチャネルからデータトレースを得るステップと、
（ｂ）（ｉ）４つの前記データトレースのそれぞれに相互相関係数を適用して、４つの調整されたトレースを生成するステップであって、前記相互相関係数が前記各トレースを理想的なガウス型ピークと比較し、前記調整されたトレースが元の前記データトレースよりも細いピークを有するようにする、該ステップと、（ｉｉ）前記４つの調整されたトレースを組み合わせて複合トレースを生成するステップとを含む処理によって前記データトレースを組み合わせるステップと、
（ｃ）ピーク間隔を利用しない処理によって前記複合トレースにおけるピークを検出するステップと、
（ｄ）前記ピークにベースコールを割当てて前記核酸ポリマーの配列を決定するステップとを含むことを特徴とする方法。
前記データトレースが予備処理されていることを特徴とする請求項１に記載の方法。
前記予備処理が、
（ｉ）自動化電気泳動検出装置におけるＤＮＡシークエンシング反応の生成物を検出する複数のチャネルから未処理のデータを得るステップと、
（ｉｉ）前記未処理のデータの開始点と終了点を特定するステップと、
（ｉｉｉ）前記未処理のデータのベースラインを確立するステップと、
（ｉｖ）前記未処理のデータからベースラインを差引いて、ベースライン補正データを生成するステップと、
（ｖ）前記ベースライン補正データを分離してデータトレースを生成する、スペクトル若しくはリーク（ｌｅａｋａｇｅ）の分離を含む分離ステップとを含むことを特徴とする請求項２に記載の方法。
前記電気泳動検出装置が、スラブゲル電気泳動法、チューブゲル電気泳動法、またはキャピラリーゲル電気泳動法を用いることを特徴とする請求項１に記載の方法。
前記電気泳動検出装置が、ＭｅｇａＢＡＣＥキャピラリーシークエンシング装置であることを特徴とする請求項４に記載の方法。
更に、少なくとも１つのベースコールに対して少なくとも１つのクオリティ値を生成するステップを含むことを特徴とする請求項１に記載の方法。
前記少なくとも１つのクオリティ値が、ギャップクオリティ値であり、前記ギャップクオリティ値が、近接する２つの割当てられたベースコール間の欠失エラーの可能性を評価することを特徴とする請求項６に記載の方法。
前記ギャップクオリティ値が、近接する前記２つの割当てられたベースコール間のノイズの程度、並びに近接する前記２つの割当てられたベースコール間の過剰に広いピーク間隔の程度を測定することを特徴とする請求項７に記載の方法。
更に、前記クオリティ値を用いて、ベースコールが前記核酸ポリマーの配列から除去されたり付加されたりするクオリティフィルタリングするステップを含むことを特徴とする請求項６に記載の方法。
前記ＤＮＡシークエンシング反応が、ダイ−ターミネーターまたはダイ−プライマー法を用いることを特徴とする請求項１に記載の方法。
核酸ポリマーの配列を決定するためのプログラム命令がストアされた機械読取可能媒体を含むコンピュータプログラム製品であって、前記プログラム命令が、
電気泳動検出装置におけるＤＮＡシークエンシング反応の生成物を検出する複数のチャネルからデータトレース得るためのコードと、
（ｉ）４つの前記データトレースのそれぞれに相互相関係数を適用して、４つの調整されたトレースを生成するステップであって、前記相互相関係数が前記各トレースを理想的なガウス型ピークと比較し、前記調整されたトレースが元の前記データトレースよりも細いピークを有するようにする、該ステップと、（ｉｉ）前記４つの調整されたトレースを組み合わせて複合トレースを生成するステップとを含む処理によって前記データトレースを組み合わせるためのコードと、
前記ピークをベースコールに割当てて、前記核酸ポリマーの配列を決定するためのコードとを含むことを特徴とするコンピュータプログラム製品。
前記データトレースが予備処理されていることを特徴とする請求項１１に記載のコンピュータプログラム製品。
前記予備処理が、
（ｉ）自動化電気泳動検出装置におけるＤＮＡシークエンシング反応の生成物を検出する複数のチャネルから未処理のデータを得るステップと、
（ｉｉ）前記未処理のデータの開始点と終了点を特定するステップと、
（ｉｉｉ）前記未処理のデータのベースラインを確立するステップと、
（ｉｖ）前記未処理のデータからベースラインを差引いて、ベースライン補正データを生成するステップと、
（ｖ）前記ベースライン補正データを分離してデータトレースを生成する、スペクトル若しくはリークの分離を含む分離ステップとを含むことを特徴とする請求項１２に記載のコンピュータプログラム製品。
前記電気泳動検出装置が、スラブゲル電気泳動法、チューブゲル電気泳動法、またはキャピラリーゲル電気泳動法を用いることを特徴とする請求項１１に記載のコンピュータプログラム製品。
前記電気泳動検出装置が、ＭｅｇａＢＡＣＥキャピラリーシークエンシング装置であることを特徴とする請求項１４に記載のコンピュータプログラム製品。
更に、少なくとも１つのベースコールに対して少なくとも１つのクオリティ値を生成するためのコードを含むことを特徴とする請求項１１に記載のコンピュータプログラム製品。
前記少なくとも１つのクオリティ値が、ギャップクオリティ値であり、前記ギャップクオリティ値が、近接する２つの割当てられたベースコール間の欠失エラーの可能性を評価することを特徴とする請求項１６に記載のコンピュータプログラム製品。
前記ギャップクオリティ値が、近接する前記２つの割当てられたベースコール間のノイズの程度、並びに近接する前記２つの割当てられたベースコール間の過剰に広いピーク間隔の程度を測定することを特徴とする請求項１７に記載のコンピュータプログラム製品。
更に、前記クオリティ値を用いて、ベースコールが前記核酸ポリマーの配列から除去されたり付加されたりするクオリティフィルタリングするステップを含むことを特徴とする請求項１６に記載のコンピュータプログラム製品。
核酸ポリマーの配列を決定するためのプログラム命令を少なくとも一時的にストアできるように構成された記憶装置を含む演算装置であって、前記プログラム命令が、
電気泳動検出装置におけるＤＮＡシークエンシング反応の生成物を検出する複数のチャネルからデータトレース得るためのコードと、
（ｉ）４つの前記データトレースのそれぞれに相互相関係数を適用して、４つの調整されたトレースを生成するステップであって、前記相互相関係数が前記各トレースを理想的なガウス型ピークと比較し、前記調整されたトレースが元の前記データトレースよりも細いピークを有するようにする、該ステップと、（ｉｉ）前記４つの調整されたトレースを組み合わせて複合トレースを生成するステップとを含む処理によって前記データトレースを組み合わせるためのコードと、
前記ピークをベースコールに割当てて、前記核酸ポリマーの配列を決定するためのコードとを含むことを特徴とする演算装置。
前記データトレースが予備処理されていることを特徴とする請求項２０に記載の演算装置。
前記予備処理が、
（ｉ）自動化電気泳動検出装置におけるＤＮＡシークエンシング反応の生成物を検出する複数のチャネルから未処理のデータを得るステップと、
（ｉｉ）前記未処理のデータの開始点と終了点を特定するステップと、
（ｉｉｉ）前記未処理のデータのベースラインを確立するステップと、
（ｉｖ）前記未処理のデータからベースラインを差引いて、ベースライン補正データを生成するステップと、
（ｖ）前記ベースライン補正データを分離してデータトレースを生成する、スペクトル若しくはリークの分離を含む分離ステップとを含むことを特徴とする請求項２１に記載の演算装置。
前記電気泳動検出装置が、スラブゲル電気泳動法、チューブゲル電気泳動法、またはキャピラリーゲル電気泳動法を用いることを特徴とする請求項２０に記載の演算装置。
前記電気泳動検出装置が、ＭｅｇａＢＡＣＥキャピラリーシークエンシング装置であることを特徴とする請求項２３に記載の演算装置。
更に、少なくとも１つのベースコールに対して少なくとも１つのクオリティ値を生成するためのコードを含むことを特徴とする請求項２０に記載の演算装置。
前記少なくとも１つのクオリティ値が、ギャップクオリティ値であり、前記ギャップクオリティ値が、近接する２つの割当てられたベースコール間の欠失エラーの可能性を評価することを特徴とする請求項２５に記載の演算装置。
前記ギャップクオリティ値が、近接する前記２つの割当てられたベースコール間のノイズの程度、並びに近接する前記２つの割当てられたベースコール間の過剰に広いピーク間隔の程度を測定することを特徴とする請求項２６に記載の演算装置。
更に、前記クオリティ値を用いて、ベースコールが前記核酸ポリマーの配列から除去されたり付加されたりするクオリティフィルタリングするステップを含むことを特徴とする請求項２５に記載の演算装置。
近接する２つの割当てられたベースコール間にベースコールが抜けている確率を推定する方法であって、
（ａ）近接する前記２つの割当てられたベースコール間のノイズの程度を測定するステップと、
（ｂ）近接する前記２つの割当てられたベースコール間のピーク間隔を測定するステップと、
（ｃ）近接する前記２つの割当てられたベースコール間にベースコールが抜けている確率を示すギャップクオリティ値を計算するステップとを含むことを特徴とする方法。
前記ベースコールが請求項１の方法を用いて割当てられることを特徴とする請求項２９に記載の方法。
近接する２つの割当てられたベースコール間にベースコールが抜けている確率を推定するためのプログラム命令がストアされた機械読取可能媒体を含むコンピュータプログラム製品であって、前記プログラム命令が、
近接する前記２つの割当てられたベースコール間のノイズの程度を測定するためのコードと、
近接する前記２つの割当てられたベースコール間のピーク間隔を測定するためのコードと、
近接する前記２つの割当てられたベースコール間にベースコールが抜けている確率を示すギャップクオリティ値を計算するステップとを含むことを特徴とするコンピュータプログラム製品。
近接する２つの割当てられたベースコール間にベースコールが抜けている確率を推定するためのプログラム命令を少なくとも一時的にストアできるように構成された記憶装置を含む演算装置であって、前記プログラム命令が、
近接する前記２つの割当てられたベースコール間のノイズの程度を測定するためのコードと、
近接する前記２つの割当てられたベースコール間のピーク間隔を測定するためのコードと、
近接する前記２つの割当てられたベースコール間にベースコールが抜けている確率を示すギャップクオリティ値を計算するステップとを含むことを特徴とする演算装置。
ベースコーラーの性能をベンチマークするための方法であって、
（ａ）２つのベースコーリングアルゴリズムを用いて核酸配列を決定して、２つの検査配列を得るステップと、
（ｂ）配列比較アルゴリズムを用いて、前記２つの検査配列間の整列した配列を特定するステップと、
（ｃ）前記配列比較アルゴリズムを用いて、前記整列した配列と前記検査配列の各配列とを比較するステップと、
（ｄ）前記比較からクオリティの高い最も左及び最も右のアラインメントを決定するステップと、
（ｅ）前記整列した配列を、前記最も左及び最も右のアラインメントに一致する最も左及び最も右の境界を特定して伸長するステップと、
（ｆ）前記最も左の境界と前記最も右の境界との間の前記伸長した整列した配列に対するエラー統計を収集するステップとを含むことを特徴とする方法。
前記配列比較アルゴリズムがＢＬＡＳＴであることを特徴とする請求項３３に記載の方法。
前記エラー統計が、クオリティ値に関連して得られることを特徴とする請求項３３に記載の方法。
前記クオリティ値が、コールクオリティ値及びギャップクオリティ値であることを特徴とする請求項３５に記載の方法。
高いコールクオリティ値が優先されることを特徴とする請求項３６に記載の方法。
低いギャップクオリティ値が欠失エラーの可能性が高いことを示すことを特徴とする請求項３６に記載の方法。
置換エラーが前記コールクオリティ値に関係することを特徴とする請求項３６に記載の方法。
挿入エラーが前記コールクオリティ値に関係することを特徴とする請求項３６に記載の方法。
ベースコーラーの性能をベンチマークするためのプログラム命令がストアされた機械読取可能媒体を含むコンピュータプログラム製品であって、前記プログラム命令が、
２つのベースコーリングアルゴリズムを用いて核酸配列を決定して、２つの検査配列を得るためのコードと、
配列比較アルゴリズムを用いて、前記２つの検査配列間の整列した配列を特定するためのコードと、
前記配列比較アルゴリズムを用いて、前記整列した配列と前記検査配列の各配列とを比較するためのコードと、
前記比較からクオリティの高い最も左及び最も右のアラインメントを決定するためのコードと、
前記整列した配列を、前記最も左及び最も右のアラインメントに一致する最も左及び最も右の境界を特定して伸長するためのコードと、
前記最も左の境界と前記最も右の境界との間の前記伸長した整列した配列に対するエラー統計を収集するためのコードとを含むことを特徴とするコンピュータプログラム製品。
前記配列比較アルゴリズムがＢＬＡＳＴであることを特徴とする請求項４１に記載のコンピュータプログラム製品。
前記エラー統計が、クオリティ値に関連して得られることを特徴とする請求項４１に記載のコンピュータプログラム製品。
前記クオリティ値が、コールクオリティ値及びギャップクオリティ値であることを特徴とする請求項４３に記載のコンピュータプログラム製品。
高いコールクオリティ値が優先されることを特徴とする請求項４４に記載のコンピュータプログラム製品。
低いギャップクオリティ値が欠失エラーの可能性が高いことを示すことを特徴とする請求項４３に記載のコンピュータプログラム製品。
置換エラーが前記コールクオリティ値に関係することを特徴とする請求項４４に記載のコンピュータプログラム製品。
挿入エラーが前記コールクオリティ値に関係することを特徴とする請求項４４に記載のコンピュータプログラム製品。
ベースコーラーの性能をベンチマークするためのプログラム命令を少なくとも一時的にストアできるように構成された記憶装置を含む演算装置であって、前記プログラム命令が、
２つのベースコーリングアルゴリズムを用いて核酸配列を決定して、２つの検査配列を得るためのコードと、
配列比較アルゴリズムを用いて、前記２つの検査配列間の整列した配列を特定するためのコードと、
前記配列比較アルゴリズムを用いて、前記整列した配列と前記検査配列の各配列とを比較するためのコードと、
前記比較からクオリティの高い最も左及び最も右のアラインメントを決定するためのコードと、
前記整列した配列を、前記最も左及び最も右のアラインメントに一致する最も左及び最も右の境界を特定して伸長するためのコードと、
前記最も左の境界と前記最も右の境界との間の前記伸長した整列した配列に対するエラー統計を収集するためのコードとを含むことを特徴とする演算装置。
前記配列比較アルゴリズムがＢＬＡＳＴであることを特徴とする請求項４９に記載の演算装置。
前記エラー統計が、クオリティ値に関連して得られることを特徴とする請求項４９に記載の演算装置。
前記クオリティ値が、コールクオリティ値及びギャップクオリティ値であることを特徴とする請求項５１に記載の演算装置。
高いコールクオリティ値が優先されることを特徴とする請求項５２に記載の演算装置。
低いギャップクオリティ値が欠失エラーの可能性が高いことを示すことを特徴とする請求項５２に記載の演算装置。
置換エラーが前記コールクオリティ値に関係することを特徴とする請求項５２に記載の演算装置。
挿入エラーが前記コールクオリティ値に関係することを特徴とする請求項５２に記載の演算装置。
連続的に変化しているベースコールクオリティのパラメータに依存する処理によって推定されるコールクオリティ値。
前記処理がルックアップテーブルを利用しないことを特徴とする請求項５７に記載のコールクオリティ値。
割当てられた所定のベースコールの後にベースコールが抜けた可能性を推定するギャップクオリティ値。
前記割当てられたベースコールが、請求項１に記載の方法によって決定されることを特徴とする請求項５９に記載のギャップクオリティ値。
前記ギャップクオリティ値が、請求項２９に記載の方法によって導き出されることを特徴とする請求項５９に記載のギャップクオリティ値。