JP2004527728A - ベースコーリング装置及びプロトコル - Google Patents

ベースコーリング装置及びプロトコル Download PDF

Info

Publication number
JP2004527728A
JP2004527728A JP2002520159A JP2002520159A JP2004527728A JP 2004527728 A JP2004527728 A JP 2004527728A JP 2002520159 A JP2002520159 A JP 2002520159A JP 2002520159 A JP2002520159 A JP 2002520159A JP 2004527728 A JP2004527728 A JP 2004527728A
Authority
JP
Japan
Prior art keywords
quality value
base
sequence
call
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002520159A
Other languages
English (en)
Inventor
ワルサー、ディック
バーサ、ガボール・ティー
モリス、マクドナルド・エス
Original Assignee
インサイト・ゲノミックス・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インサイト・ゲノミックス・インコーポレイテッド filed Critical インサイト・ゲノミックス・インコーポレイテッド
Publication of JP2004527728A publication Critical patent/JP2004527728A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/26Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating electrochemical variables; by using electrolysis or electrophoresis
    • G01N27/416Systems
    • G01N27/447Systems using electrophoresis
    • G01N27/44756Apparatus specially adapted therefor
    • G01N27/44782Apparatus specially adapted therefor of a plurality of samples
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • G01N30/8634Peak quality criteria
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8641Baseline
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • G06F2218/10Feature extraction by analysing the shape of a waveform, e.g. extracting parameters relating to peaks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06F2218/14Classification; Matching by matching peak patterns

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Debugging And Monitoring (AREA)

Abstract

従来の核酸シークエンシング装置からの電気泳動トレースデータを用いて、ばらつきのあるピーク間隔を許容するベースコーリングの方法を開示する。この方法により、質の高いベースコール及び信頼できるクオリティ値が得られる。更に、現在のベースコールと次のベースコールとの間の欠失エラーの確率を推定する新しいタイプのクオリティ値を開示する。ベースコーラの性能をより正確に識別するベンチマークのための新規なプロトコルを提供する。

Description

【0001】
(関連特許出願に対するクロスリファレンス)
本願は、2000年8月14日出願のWalther他による米国仮特許出願第60/225,083号(発明の名称「BASECALLING SYSTEM AND PROTOCOL」)、並びに2000年12月20日出願のWalther他による米国仮特許出願第60/257,621号(発明の名称「BASECALLING SYSTEM AND PROTOCOL」)の優先権を主張する。これらの特許出願に言及することをもって本明細書の一部とする。
【0002】
(著作権について)
本明細書の開示の一部は、著作権が保護されるべきものを含む。本著作権者は、米国特許庁が記録した或いは公開した特許文献と同一のあらゆる特許文献即ち開示のコピー即ち複製については異論はないが、その他については全ての著作権等を行使する。
【0003】
(本発明の技術分野)
本発明はバイオインフォマティクスに関する。本発明は、特に、生物の配列を推定するためのコンピュータを用いた方法、装置、及びメディアに関する。
【0004】
(本発明の背景)
DNAのシークエンシングは通常、精製されたDNA鋳型を用いて始める。精製されたDNA鋳型に対して、4つのヌクレオチド(塩基)のそれぞれを反応させ、フラグメントの集団を生成する。フラグメントのサイズは、配列のどこで塩基対を形成するかによって異なる。フラグメントは、塩基特異的蛍光色素で標識し、次にスラブゲルまたはキャピラリ電気泳動装置で分離する。フラグメントがシークエンサーの検出範囲を超えて移動すると、レーザが信号をスキャンする。ヌクレオチド塩基の特定についての情報は、プライマーに付着した塩基特異的色素(ダイ−プライマー反応)またはジデオキシ鎖終結ヌクレオチド(ダイ−ターミネーター反応)により得られる。更に、レーントラッキング(lane tracking)、プロファイリング(profiling)(スラブゲルのみ)、並びにトレース処理(trace processing)のステップが含まれる。これにより、シークエンシング中の多くの時点における4つの塩基のそれぞれに対応する信号強度の4つのアレイ(トレース)のセットが生成される。トレース処理には、ベースライン差引き、開始位置及び終了位置の特定、スペクトルの分離、解像度の強化、及び或る種の移動度補正が含まれる。DNAシークエンシングの最終ステップでは、シークエンシングにより、4つの異なる塩基に対して得られた処理済トレースデータを実際のヌクレオチド配列に翻訳する。このプロセスをベースコーリング(basecalling)と呼ぶ。
【0005】
ベースコールの問題を解決するための方策には、神経回路網(米国特許第5,365,455号及び同第5,502,773号)、グラフ理論、同形逆重畳積分(Ives 他、 (1994) IEEE Transactions on Biomedical Engineering 41: 509、及び米国特許第5,273,632号)、モジュラー(object oriented)構造検出及び推定、分類法(PCT出願:WO96/36872)、相関解析、及びフーリエ解析があり、それに動的プログラミングが続く。別の関連特許に、ベースコーリングが開示されている。例えば、PCT出願:WO98/11258ではファジー理論と組み合わせたブラインド逆重畳積分を用い、PCT出願:WO96/35810では高次元「立体空間」における2塩基プロトタイプの較正セットとの比較を用い、また、PCT出願:WO98/00708では単体ピークモデルとの比較を用いている。
【0006】
ベースコールに用いる計算アルゴリズムの正確さは、得られる配列の質に直接影響を与え、シークエンシングに関係するコストに大きく関わり、また、SNP(一塩基多形)に対して用いることができるか否かにも関わってくる。ベースコールは理想的なデータ(全ての4つの塩基に対してノイズがなく等間隔でガウス形ピークをもつデータ)に対してはアルゴリズム的に問題ないが、実際のトレースデータに対しては当然困難であり、エラーが生じやすい。不可避な実験及び装置の因子により、ピークの間隔及び高さにばらつきがあり、1次ピークの下側に2次ピークがくるなど得られるデータの質が低下する(例えば、Ewing ら (1998) Genome Res. 8: 175−185を参照)。
【0007】
ベースコールにエラーが生じやすいため、それぞれの割当て塩基に対して推定の信頼性(クオリティ値)を与えるのが好ましい。信頼性の推定は、多くの既存のベースコールアルゴリズムにおける肝要な部分である。例えば、Giddings (1993) Nucleic Acids Res. 21: 4530−4540、Goldenら (1993) Proceedings of the first International Conference on Intelligent Systems for Molecular Biology (ed. Hunter, L., Searls, D., Shavlick, J.): ppl36−144. AAAI Press, Menlo Park, CA、Giddings (1998) Genome Res. 8: 644−665、及びEwingら (1998) Genome Res. 8 : 186−194を参照されたい。クオリティ値は、正しい配列アセンブリ及びSNPの信頼性の高い検出において極めて重要である。例えば、Buetow ら (1999) Nat Genet. 21: 323−325、及びAltshulerら (2000) Nature. 407: 513−516を参照されたい。スラブゲル・シークエンシング装置に対する信頼性の高いベースコールに加えて、推定のエラー率に直接言い換えることができるクオリティ値の概念の積極的な導入により、Phredが最も広く用いられるベースコールソフトウエアになった。例えば、Richterich (1998) Genome Res. 8 : 251−259を参照されたい。
【0008】
Phredアルゴリズムには、ばらつきのあるピーク間隔の処理、特にピーク間の間隔がトレースに沿って突然変化する(一般的には「アコーディオン効果」と呼ばれる)MegaBACEシークエンシング装置に対して重大な問題点がある。Phredは、まず理想的なピーク位置を推定し、次にこれに観察されたピークを合わせ、実際のコールを生成する。問題は、Phredが推定ピーク情報を計算及び使用する方法に起因する。Phredはまず、最も均一な間隔のクロマトグラムの部分を探し、そこから始める。この方法の各ステップには、間隔の変化の割合に制限がある。間隔が速く変化し過ぎると、Phredは実際の間隔と同期させることができなくなる。様々なピーク間隔を処理できるようにPhredの性能改善を試みたが、十分な成果は得られなかった。脱同期が起こると、Phredは均一なピーク間隔を維持するべくベースコールを加えたり取り除いたりする。これにより、余分な挿入や欠失が起こり、これにより重大なアセンブルの問題が起きたり、アミノ酸配列に翻訳する際の読み枠のずれが起きたりする。
【0009】
現在使用されている及びDNAシークエンシングから利用可能な大量の情報の推定、解析、及び処理のために、改善されたコンピュータシステム及び方法が要望されている。
【0010】
(本発明の概要)
入力として間隔即ち時間が異なるノイズのある、ピークをもつ複数の信号を用いて、本発明は、解像度を高くしてピークを検出し、ピーク(即ち、ベースコール)の配列を決定する。この方法は、全体的なピーク間隔の推定に依存する従来の方法よりもピーク検出及び/または割当て及び局所ピーク間隔に重点を置いている。以上のことから、ここに記載する方法は、ばらつきのあるピーク間隔に対して効果を発揮する。
【0011】
具体的には、この方法は、入力トレースに含まれる情報を組合せて新しいトレース(LTと呼ぶ)を生成する。このトレースLTは、相互に関連する各トレース位置及び理想的なガウス型ピークに対するその近さによって計算される。新しく生成された変換されたトレースを、次に組合せてLTトレースを生成する。初めの相互関連ステップによりピーク様形状を改良し、全ての入力トレースを個別に分析しないでもピークの解像度を高めることができる。
【0012】
好適な実施形態では、本発明は、シークエンシング・クロマトグラム・トレースデータからのベースコーリングのための新規のアルゴリズムを実行するベースコーリングソフトウエア(「Life Trace」と呼ぶ)を提供する。ここに記載するベースコーリング方法は、ベースコールを除去、統合、追加するために、コールクオリティ値(後述)、局所ピーク間隔の推定、及び他のクオリティ閾値を用いる。
【0013】
本発明の別の実施形態は、新規のクオリティ値即ちギャップクオリティ値を提供する。ギャップクオリティ値は、或る塩基と次の塩基との間に別の塩基が存在する、即ち欠失エラーが生じている確率を推定する。この新規なクオリティ値により、個体間の自然のばらつきとして生じる実際の欠失(SNP)を特定することができる。
【0014】
LifeTraceはまた、各ベースコールのために従来のクオリティ値も計算する。Phredはルックアップテーブル表(即ち、非連続)の方法を用いてトレースパラメータをクオリティ値/観察されたエラー率と一致させる。本発明は、改良されたコールクオリティ値の計算、並びに連続的なパラメータがコールクオリティを判定するために用いられるコールクオリティ値の決定方法を提供する。
【0015】
本発明はまた、動的プログラミング法にコールクオリティ値及びギャプクオリティ値を利用する配列アラインメント法を提供する。後述するように、この配列アラインメント法は、ベースコーラーの性能をベンチマークする際に有用である。加えて、クオリティ値を較正する際にも使用できる。
【0016】
本発明の別の実施態様は、従来の方法よりも性能の違いを容易に識別する、ベースコーリングアルゴリズムの性能を比較するための方法を提供する。本発明のこの方法に従えば、エラー統計が伸長された配列に対して収集される。より具体的には、本発明は、ベンチマークされた一方のアルゴリズムが寄与する最もクオリティの高いアラインメントにより境界が決定される配列領域を解析する。ベンチマークのこの方法は、個々に記載するアラインメント法を用いる。
【0017】
本発明のこれらの特徴及び利点、並びにその他の特徴及び利点を、関連する図を参照して詳細に説明する。
【0018】
(好適な実施形態の説明)
概要
本発明は、ベースコーリング処理(方法)及びベースコーリングのために構成された装置に関する。本発明はまた、本発明の処理を実行するための命令及びデータ構造等を提供するための機械読取可能媒体に関する。本発明に従えば、電気泳動法でのDNAの分離による信号を特定の方法で操作及び解析して、相当する特性を引き出す。これらの特性を用いて、本発明の装置及び方法により、DNAの配列についての結果を自動的に導き出すことができる。より具体的には、本発明はクオリティの高いベースコール及び信頼できるクオリティ値を提供する。本発明はまた、現在のベースコールと次のベースコールとの間の検出エラーの確率を推定する各ベースコールのギャップ値に関連する新しいタイプのクオリティ値を提供する。以前に公表された方法とのベースコーラー性能の差異を明確にするベンチマーキングのための新規のプロトコルを開示する。
【0019】
(定義)
特別に定義しない場合は、本明細書に用いる技術用語及び科学用語は、本発明が属する分野の一般的な技術者によって普通に理解される意味と同じ意味で用いられている。ここに記載する方法及び要素に類似した或いは同等のあらゆる方法及び装置を本発明の実施及び検査に用いることができるが、好適な方法、装置、及び要素を説明する。本明細書で言及する全ての刊行物は本明細書の一部とする。これらの刊行物が先の発明であるからといって、そのような開示により本発明が無効であると解釈されるべきものではない。
【0020】
「電気泳動法」は、電界において分子の移動度の違いにより分子を分離する方法のことである。生体高分子の場合、電気泳動法はアガロースゲルやポリアクリルアミド等のポリマーゲルにおいて実施されるのが普通である。電荷密度が類似したDNAやRNA等の生体高分子の分離は、最終的には分子量に関連する。
【0021】
「データトレース」は、或る連鎖終了シークエンシング反応で生成され、DNAシークエンサーで検出されるオリゴヌクレオチドフラグメントの移動バンドを表す一連のピーク及び谷を指す。データトレースは、未処理のデータトレースまたは処理したデータトレースの何れかである。
【0022】
本発明は、図面を用いて特定の実施形態を元に説明する。しかしながら、当業者には明らかなように、本発明は、開示した全てを用いなくとも実施可能である。本発明の或る動作や特徴の代わりに別の要素や方法を用い得る場合が多い。
【0023】
A.ベースコールのための装置及び方
本発明の一実施形態に従った高いレベルでの処理の流れ101を図1に示す。図示されているように、処理は103で始まり、配列データ処理ツールが電気泳動検出装置からデータを受け取る。このようなデータは、試料の核酸配列を表し、電気泳動検出装置の精度によっては、データを送る前にある程度の処理(後述)をする場合がある。別法では、配列トレースデータ処理ツールは、電気泳動検出装置と一体化してもよい。
【0024】
本発明の方法に従って処理されるデータトレースは、自動化DNAシーケンサーの蛍光検出装置を用いる信号収集が好ましい。しかしながら、本発明は、あらゆるタイプの検出器を用いる実時間フラグメントパターンを含む空間または時間におけるオリゴヌクレオチドフラグメントの分離を反映するあらゆるデータセットに適用できる。このような検出器は、例えば米国特許第5,543,018号に開示されているような極性検出器、オートラジオグラフ或いは染色したゲルの濃度計トレース、レーザースキャンされたゲルからのデータ、質量分光法によって分離されたサンプルからのフラグメントパターンがある。
【0025】
電気泳動検出装置或いはDNAシーケンサーは、限定するものではないがスラブゲル電気泳動法、チューブゲル電気泳動法、またはキャピラリーゲル電気泳動法を含むDNAを分離するための様々な電気泳動手段を利用することができる。
自動化DNAシーケンサーは、
Applied Biosystems, Inc. (Foster City, CA)、Parmacia Biotech, Inc. (Piscataway, NJ)、Li−Cor, Inc. (Lincoln, NE)、Molecular Dynamics Inc. (Sunnyvale, CA)、及びVisible Genetics, Inc. (Toronto)から入手できる。ここに開示する方法は、限定するものではないがAmershamが販売するMegaBACE 1000キャピラリー・シーケンサー、Applied Biosystemsが販売するABI−3700キャピラリー・シーケンサー、及びApplied Biosystemsが販売するABI−377スラブゲル・シークエンシング装置と共に用いることができる。
【0026】
上記したように、データトレースは、ここに記載するベースコーリング方法を用いる解析の前に、処理されるのが好ましい。具体的には、電気泳動データはトレース処理される。このようなトレース処理分野は当分野で周知であり、ベースライン差引き、開始位置及び終了位置の特定、スペクトルの分離、解像度の強化、及びある種の移動度の補正から構成され得る。
【0027】
場合によっては、トレース値は装置の検出閾値を超え、超えた値が切り取られ、ピークが平坦にされる。このような場合、切り取られたピークを二次関数に一致するギャップに置き換えて、切断されたピークをよりピークらしくする必要に応じて用いる予備処理ステップを含み得る。別法では、ここに開示するLifeTraceアルゴリズムの一部として行っても良い。
【0028】
具体的には、いわゆる「開始ピーク」及び「終了ピーク」(即ち、開始点及び終了点)を特定することが有用である。これらは、連鎖終了シークエンシング方法の変更例に見られる。これらのピークは、短鎖伸長生成物の周りのベースコーリングを妨害する大量の反応しなかったプライマー、及び長鎖伸長生成物の周りのベースコーリングを妨害する大量の完全配列を含む。これらのピークは、その大きさ、電気泳動処理の開始及び終了位置に対する位置、またはその他の方法で識別して除去される。
【0029】
開始及び終了ピークを除去した後、確認された全てのピークが一般的な値に割当てられる高さと同一の高さを有するようにデータトレースを標準化することができる。この処理により、化学反応及び酵素作用による信号のばらつきが軽減され、200塩基対或いはそれ以上の領域のシークエンシングにおいて、ホモ接合試料に対して、及び適度なヘテロ接合性即ち約5から10%未満のヘテロ接合性を有する多くのヘテロ接合試料に対して良く機能する。スペクトル分離、スペクトル逆重量積分、又は多成分解析は、未処理の蛍光信号を、それぞれが1つの色を表す個別の染料で生成される成分にする非相関処理のことである。色の分離は、特異値分解(SVD)又は当分野で周知の他の方法などの未処理のデータを染料のスペクトルに一致させる最小自乗法による推定により達成することができる。
【0030】
ダイ(染料)の移動度シフトは、電気泳動移動度におけるダイ特異的な差異であって、これは、ベースコーラーに送られる電気泳動データがこれらのシフトに対して予め補償するための処理がされていない場合は、較正によって得ることができるし、またベースコーリングの一部として推定することもできる。移動度シフトを決定するための幾つかのアルゴリズムがここに開示されているが、これらは通常、シフトのセットに対してウィンドウ化された時間において局所探索を行い、ダイ−チャネル間のピークが重なる寸法を最小にする。
【0031】
ステップ103でトレースデータを得た後、シーケンスデータ処理ツールがそのトレースデータを処理して、もとのピークを細くし、ピーク間のあらゆる重なりを小さくしてそれぞれのピークを分離する。幅がゼロの鋭いピーク(数学用語ではデルタ関数)が、全てを特定し、ピークが十分に分離されるのが好ましい。好適な実施形態では、これは、理想的なガウス型ピークを有する現在のトレースセグメントの相互相関計算を行って達成することができる。
【0032】
ピーク特性即ちセグメントの中心を備えたセグメントは、最大トレース値を有し、モデルピーク(相関係数rが+1近傍)と高い相互相関を有し、凹状領域が負の相関(r〜−1)を有し、モノトーン領域が相関性を有しない(r〜0)。元のトレースを、0から1の範囲に調整されたrの対応する値で乗じ、ピークを細くし、これを繰り返し行ってデルタ関数にする。相互相関変換は以下のようにして求めることができる。
【0033】
【数1】
Figure 2004527728
ここでT(base, loc)は、位置locのbase (A,C,G or T)に関連するダイの色に対して検出された蛍光強度(トレース値)であり、即ちr()は以下に説明する相互相関係数であり、MPは理想的なガウスモデルピークである。
【0034】
値R(base, loc)は、ベースコーリングの際に用いられる全てのトレース位置におけるピーク形状のインジケータを提供する。相互相関係数rは以下のようにして求めることができる。
【0035】
【数2】
Figure 2004527728
ここで、σ及びσMPはそれぞれ、T及びMPの標準偏差である。Nは考慮するセグメントにおけるトレース位置の数であり好ましくはN=6である。即ち、7個のトレースポイントのウィンドウである。クオリティフィルタリングの前の初めに割当てられたベースコール1つにおけるトレースポイントの数が7未満の場合は、ややアンダーサンプルされたクロマトグラムに対処するためにN=4に調整される。rは、終端3トレースポイントの両方に対してゼロに設定される。
【0036】
モデルピークは理想的なガウスピークとして以下の式で表される。
【0037】
【数3】
Figure 2004527728
標準偏差σは3.5に設定される(上記した条件に従ってアンダーサンプルされたクロマトグラムの場合は2.5)。
【0038】
ステップ105において、シーケンスデータ処理ツールが、元のトレースに類似しているがピークが細くなった、即ち調整された4つの新しいトレースを生成する。ステップ107では、これらの4つのトレースが組み合わせられて、それぞれのトレース位置で最大f値を取るようにして1つのトレースが生成される。同時平滑化を伴う閉じた形では、この新しいトレース(「LT」もしくは「Lifetrace」と呼ぶ)は以下のように求めることができる。
【0039】
【数4】
Figure 2004527728
kの値が大きいと、LT(loc)の値がfの4つの値の最大値に収束し、kの値が小さいと、連立式に関数LT(loc)が滑らかになる。k値の範囲を検査した結果、最良の値はk=4のときに得られた。
【0040】
上記した変換処理を図2に例示する。図2には、4つの元のトレースと、ピーク検出の基となる複合トレースLTが示されている。ベースコールが一番上の列に示され、この列には、クオリティ値に一致するピーク位置を示す縦線が設けられ、縦線の長さが長ければ長いほどクオリティ値が高いことを示している。この列の2本の水平線はそれぞれクオリティ値0と15を示している。位置a)、b)、及びc)は、上記したトレース変換(変換されたトレースLT)によって得られた、容易になったピーク検出を例示する。このトレース変換により、極大値ではなくピークの肩でピークを高い信頼で検出できるようになり、重なっているピークを分離し、更にトレースLTの極大値に反映されていないため残留トレースからのノイズを軽減することが可能である。ノイズの軽減と同様にピークの分離が改善されていることも明らかである。4つのトレースを解析してピークを検出するのに代わって、1つのトレース(LT)で十分である。LTの全ての極大値及び極小値はLTをスキャンして検出される。
【0041】
ピークは、3つの連続したデータポイントの内の中間のデータポイントとして特定される。このとき、内側のデータポイントは外側の2つのデータポイントよりも高い位置にある(即ち極大値法)。極小値(3つの連続したデータポイントの中間のデータポイントが他の2つの外側のデータポイントよりも低い)も特定される。別法では、極大値と近接する極小値との差が閾値、例えば5%を超える場合は、トレース特性を実際のピークとして割当ててもよい。ベースラインからの極小値の高さを用いて偽性ピークを除去してもよい。別のピーク検出方法もまた可能であり当分野で周知である。
【0042】
ステップ209で、実際のベースコーリングが行われ、検出したピークが塩基に割当てられる。ベースコールが、以下の式に従ってLTの検出した全ての極大値に割当てられる。
【0043】
【数5】
Figure 2004527728
ここで、R(base, loc)は式1から得られるピーク形状の因子であり、Aはlocに中心がある7つのトレースピクセルのウィンドウにおけるトレースの下側の領域である。所定のピーク位置で極大値部分領域を有する塩基が選択され、所定の塩基のピーク状のトレースがどのようであるか(因子R)によって重み付けされる。現在位置における減少している部分領域のみ(因子Rでない)に従ってトレースがソートされた時に割当てられた塩基が第3或いは第4の塩基である場合は、N(決定されていない場合)が現在のピークに割当てられる。
【0044】
B.クオリティ値の計算
コールの信頼性を評価できて低いクオリティコールと高いクオリティコールとを区別できる対応するクオリティ値は、実際のベースコールと同様に重要である。例えばLawrenceら、(1994) Nucl. Acid Res. 22: 1272−1280及びEwing (1998) 前出を参照されたい。本発明は2つの異なったクオリティ値、即ちコールのクオリティと実際の塩基がコールされなかったことを示唆するコール間の間隔のクオリティ(ギャップクオリティ)とを区別して用いる。
【0045】
ギャップクオリティ値は、ベースコールが抜けた、即ちベースコーリング中に欠失エラーが生じるという確率を推定できる。アラインメント処理にこのギャップクオリティ値を用いることにより、アラインメント中の欠失エラーの正確な特定ができ、良い結果が得られる。従って、ギャップクオリティを用いて、SNP(一塩基多形)、即ちベースコールエラーから確実に区別されるべき欠失を特定することができる。ここに開示する方法を用いて配列アラインメントを利用する実質的に全ての方法(例えば、配列をコンセンサス配列にアッセンブルし、複数の配列アラインメントを作成してモチーフなどを特定する)において、良い結果が得られる。
【0046】
更に、クオリティ値に関連して得られるエラー統計は、ベースコールエラーがアラインメント中に正しく配置されなければならない。例えば、従来の標準的な動的プログラミングは、あいまいなトレース位置ではなくクオリティ値の高いベースコールに欠失エラーを誤って割当ててしまうことが頻繁に起こる。同様に、トレースデータにおける挿入エラーに続く2、3塩基の後の欠失エラーが、1つの置換エラーとして解釈される場合もある。本方法は、欠失エラーの正確な判定によるクオリティ値の改善された較正を提供する。
【0047】
本発明の一実施形態に従った、コールされた塩基(ベース)に対するクオリティ値の計算についての高いレベルでの処理の流れ301が図3に示されている。塩基のクオリティ値は、ピーク位置及びその近傍のトレース特性から計算される。まず、ステップ303で、ノイズ、即ちコールされた塩基の下側の第2のピークのレベルが次のように求められる。
【0048】
【数6】
Figure 2004527728
ここで、Sは式5から求めることができ、Slargest及びSsecond largestはそれぞれ、Sの最大値及び2番目に大きい値である。
【0049】
ステップ305において、塩基の中心にある20のベースコールの平均ピーク高さPの1/3より小さいピークに対応したクオリティ値を√(LT(loc)/(P/3))で乗じる。理想的なピーク形状でないピークの場合は、LT(loc)はこの位置における最大トレース値よりも小さい。従って、
【0050】
【数7】
Figure 2004527728
ここで、Tmaxは位置locでの最大トレース値である。
【0051】
ステップ307において、LTの非対称のトレース形状のクオリティを求めるために、以下の式のように因数分解される。
【0052】
【数8】
Figure 2004527728
ここで、rはLloc+ 値とLtloc−iの値との間の線形な相関係数であって、iは1から、平均ピーク分割の半分、即ちピークの前後の整数値までの値である。
【0053】
クオリティが低いことを表すピーク間隔のばらつきは、ステップ309で以下の式によって補正される。
【0054】
【数9】
Figure 2004527728
<d>は、所定のコールの左右のはじめの20のピーク間距離に対して求めた平均ピーク間隔を表す。コール位置及びそれに続く次のコール位置はそれぞれ、現在位置に対応するLTの1/3より大きいLT値を有し、σは標準偏差に関連する。
【0055】
ステップ311で、ギャップクオリティ値が求められる。ギャップクオリティ値は2つの成分からなる。1つは連続する2つのコール間のノイズの程度であり、もう1つはコールされていないがそこに存在する可能性のある塩基を示す塩基iと塩基i+1との間の過度に広いピーク間隔である。
【0056】
【数10】
Figure 2004527728
【数11】
Figure 2004527728
ここで、Rnoiseはコールされたピークi及びピークi+1の下側の別のベーストレースの部分領域である。塩基がクオリティフィルタリング中に除去されると、このコールの前の塩基のギャップクオリティ値が下がる。最後のベースコールには、任意のギャップクオリティ値0.5が割当てられる(注:このスコアは後にスケーリングされる)。
【0057】
最後の処理ステップ313において、クオリティ値は全てのベースコールに対して平滑化し、式q=−10×log10(p)(Ewing (1998)、前出)に従ってスケールに変換される。この式のqはクオリティ値であり、pは実際に観察されたエラー率である。クオリティ値が、半対数プロットにおいて二次関数に類似した単調なqとpの関係を生むため、スケールの較正は単純な変換によって行うことができる。所定の塩基のq値が前のベースコール及び次のベースコールのq値よりも大きい場合は、q値は3つの相加平均として計算される。これは、こうしなければ低いクオリティ領域に高いq値が付与されるのを回避するために行われる。
【0058】
図4は、ギャップクオリティ値の概念を例示する。この例では、ベースコールエラーが生じている。即ち、実際のベースコール「C」が抜けている。この1つのC欠失により、下側に示されているように、アラインメント値は同じであるが、3つの異なったアラインメントが生成され得る。しかしながら、このクロマトグラムは、連続する3つのCのうちの始めの位置でエラーが起こっていることを示している。これは、近接するベースコールの高いクオリティ値に比べて前のAの低いギャップクオリティ値に反映されている。これをアラインメント中のギャップクオリティ値を考慮することにより、ギャップが最初の位置に適切に配置される。図4はまた、一連の同じ塩基における欠失エラーが異なってアラインメントされ得る様子を示している。ギャップクオリティ値により、欠失エラーの位置を特定でき、ギャップクオリティ値と欠失エラーとの間の関係が適宜に確立できる。
【0059】
図5はコールされた塩基におけるクオリティフィルタリングについての高いレベルでの処理501を例示する。好ましくは幾つかのクオリティ基準に従ってクオリティフィルタリングの2つの相互作用が行われ、同じ塩基が続く場合にはピークが除去される或いは統合される。最後に、ピーク検出アルゴリズムが割当てた塩基の数が少なすぎ、ピークの幅が大きい場合には、ベースコールの追加が可能であるかどうかトレースがチェックされる。
【0060】
クオリティフィルタリングに用いられるクオリティ基準及び関連するクオリティ閾値の選択は発見的方法で導かれ得る。ステップ503を参照されたい。クオリティフィルタリングのこのようなパラメータの1つは、適切なピーク間隔の正しい推定である。本発明は、内部的に割当てられたクオリティ値及びこの領域におけるピーク間の距離の均一性によって決定された、利用可能なクオリティの高い領域に距離が最も近いトレースデータのクオリティの低い領域における正しいピーク間距離を適切に推定する。
【0061】
ステップ505において、ベースコールがクオリティ値の昇順に従ってソートされる。ステップ507において、最も低いクオリティ値から、ベースコールがクオリティ基準を満たしているかどうかチェックされ、満たしていない場合は除去される。これらのクオリティの閾値(通常は9などが用いられる)により、潜在的なベースコールの除去の前あるいは後、またはその両方において許容できる最小のピーク高さ及びピーク間の距離が制限される。
【0062】
連続する2つの同じタイプの塩基を1つにすると、高いクオリティ領域により一致した新しいピーク間隔が得られ、2つのコール間の対応するトレースが明確な分離を示さず、クオリティの低いコールが除去される。ステップ509を参照されたい。
【0063】
ガウス型に類似した幅の広いピークは、初めは1つのベースコールが割当てられる。しかしながら、同じタイプの複数の塩基が1つのピークにされる可能性がある。このようなピークを検出するために、ステップ511で、全てのピークの幅が測定され、現在のピークに近接したクオリティの高い領域に対して観察された平均ピーク分割を比較する。式「0.45+ピーク幅/ピーク間隔」の整数値が1より大きい場合は、対応する塩基数が現在のピークに加えられる。幅を測定する際、異なる塩基のピークが重なっていてはならない。最大トレース値が1つの塩基から別の塩基に変わる場合、LTの値がmax(LTs)/10よりも低くなり、また現在の位置における最大トレース値もmax(LTs)/6よりも低くなり、前のピークが終わる。前記した全ての閾値を超えた場合に次のピークが再び始まる。指標sは、クロマトグラムにおける同じ大きさの3つのセグメントのどれが現在処理されているかを意味する。これにより、クロマトグラム全長に渡る最大トレース値の変化が分かる。挿入されたピークには、max(クオリティ値)/10の任意のクオリティ値が割当てられる。
【0064】
ピーク幅測定の処理はまた、ピーク間の距離としてギャップを識別する。様々な理由から、これらのギャップが実際の塩基の脱落を表しており、対応する数のNのベースコールが加えられる。
【0065】
C.ベンチマーキングプロトコル
本発明はまた、ベースコーリングアルゴリズムの性能をベンチマークするための方法を提供する。具体的には、本発明の性能を検査してphredと比較するために、2つの異なった方法を実施する。第1の方法1では、phred出版物(Ewing ら、 前出)に詳細が示されているベンチマーキングアルゴリズム採用した。ここでは、ベースコールが前出のEwing 他による文献に示されているアラインメントパラメータを用いてクロスマッチにより既知の実際のコンセンサス配列に対してアラインメントされる。2つのコールされた配列が整列されたアラインメント領域(即ち、互いに整列可能な領域)が、ベースコールエラー、即ち置換エラー、欠失エラー、または挿入エラーについて解析される。互いに整列可能な領域を超えて実際の配列と整列するベースコールは、これらのコールを生成したベースコーラーのために追加的に整列された塩基の数に入れられる。要するに、この方法は両方のベースコーラーが広い範囲に一致するようなクオリティの高い領域に解析を制限し、結果としてエラー統計が類似しなければならない。しかしながら、一方のベースコーラーが、少ないベースコールエラーでより整列し易い塩基を一貫して生成する可能性がある。方法1では、これが追加的に整列したベースの数に反映されるが、それらの領域における実際のエラー率の比較はできない。
【0066】
コンセンサスアラインメントが解析される方法1とは対照的に、エラー統計がコンセンサス配列ストレッチに対して収集される。コンセンサス配列ストレッチの境界は、ここに記載する方法2の一方のベースコーラーによって導かれた最も左(コンセンサス配列に対して)及び最も右のBlast High Scoring Pair (HSP)境界(問い合わせ配列(LifeTraceまたはphred)とコンセンサス配列との間の整列したセグメント)によって決定される。その原理は、2つのベースコーラーの一方による高スコアBLASTヒット(high scoring Blast hit)がそのトレースデータがそのような正確なベースコーリングを許したことを証明し、これにより他方のベースコーラーの性能が下回っているということである。
【0067】
各クロマトグラムにおいて、phred及びLifeTraceにより生成されたヌクレオチド配列が、デフォルトパラメータを用いてプログラムblastnによりコンセンサス配列(実際の配列)に整列される(Altschul et al. (1990) J. Mol. Biol. 215: 403−410, version 2.0a19−WashU)。Phred配列又はLifeTrace配列の一方からのp値が10−20よりも小さいトップのHSPに属する初めの塩基及び最後の塩基に対応する最も小さい及び最も大きいトレース位置を用いて、アラインメント可能なトレースデータの開始及び終了位置を決定する。開始トレース位置と終了トレース位置との間にくる全ての塩基が、phred及びLifeTrace配列の両方から切り取られ、完全な動的プログラミングを用いて決定されたコンセンサス配列のヒット領域に対して再び整列される(初めのコンセンサス塩基と最後のコンセンサス塩基との間の配列はphredもしくはLifeTraceの何れかによって見つけられる)。Needleman及びWunsch, (1970) J. Mol. Biol. 48:443−453を参照されたい。ベクター配列によりベースコールエラーが発生しないようにするために、何れかのベースコーラーが両端において少なくとも10個の連続した塩基に対して完全に一致しなければならず、またエラー統計がそのアラインメントの残りの中間部分に対してのみ収集されなければならない。
【0068】
クオリティ値に関連したエラー統計を得るためには、ベースコールエラーが整列の際に適正に配置されなければならない。例えば、欠失エラーが4つの連続するCで起こった場合(3つのCのみがコールされた場合)、4つの塩基の何れかに起因し、全体のアラインメント値は変わらない。従って、このような欠失エラーが、標準的な動的プログラミング中にあいまいなトレース位置ではなくクオリティの高いベースコールに誤って割当てられる可能性がある。同様に、トレースデータにおける挿入エラーの2、3塩基の後の欠失エラーが誤って1つの置換エラーと見なされる場合が実際にある。Berno (1996) Genome Res. 6: 90−91を参照されたい。このような問題の影響が出ないようにするために、アラインメント中に一致値のような実際のクオリティ値及びギャップペナルティを用いた。その結果、連続した塩基における欠失が最もクオリティの低い位置、即ち最もエラーが起こり易い位置に配置され、クオリティの高いベースコールが優先して一致が割当てられる。詳細には、位置特異的一致に対しては+1+LifeTraceQscore(baseCall)/5の値、ミスマッチに対しては−2、位置依存的ギャップペナルティには(3+LifeTraceGapQscore(baseCall)/10)が用いられた。置換エラー及び挿入エラーは、対応するベースコールの通常のクオリティ値に関連し、欠失エラーは、次にコールされる塩基に対してギャップのクオリティが測定されるためギャップの前の塩基のギャップクオリティ値に関連する。
【0069】
D.ソフトウエア/ハードウエア
本発明の実施形態は、1或いは複数のコンピュータシステムにデータをストアしたり、そのコンピュータシステムを介して転送するなどの様々な処理を用いる。本発明の実施形態はまた、これらの処理を実行するための装置に関する。この装置は、必要な目的のために特別に製造されたものであっても良いし、或いはコンピュータプログラム及び/またはそのコンピュータにストアされたデータ構造によって選択的に作動する或いは再構築される汎用目的のコンピュータを用いても良い。ここに記載する処理は、本質的に任意の特定のコンピュータ或いはその他の装置に関連していない。特に、様々な汎用目的の装置を、ここでの開示に従って書き込まれたプログラムと共に用いてもよいが、必要な方法の各ステップを実行するために特別に製造された装置がより好ましい。これらの様々な装置の特定の構造が以下の説明から明らかになるであろう。
【0070】
加えて、本発明の実施形態は、コンピュータ実行動作を実施するためのプログラム命令及び/またはデータ(データ構造を含む)を含むコンピュータ読み取り可能ディア或いはコンピュータプログラムに関する。コンピュータ読み取り可能メディアとして、限定するものではないが、ハードディスク、フロッピー(登録商標)ディスク、及び磁気テープなどの磁気メディア、CD−ROMディスクなどの光学メディア、磁気光学メディア、半導体記憶装置、並びにROM及びRAMなどのプログラム命令をストアして実行するように特別に構成されたハードウエア装置が含まれる。で実現可能である。プログラム命令として、コンパイラーによって生成されるような機械コード、並びにインタープリターを用いてコンピュータによって実行されるより高いレベルのコードを含むファイルの両方がある。
【0071】
図6は、好適に構成即ちデザインされると本発明のイメージ解析装置として働く典型的なコンピュータシステムを例示する。コンピュータシステム600が、主記憶装置606(通常はRAM)及び主記憶装置604(通常はROM)を含む記憶装置に接続された任意の数のプロセッサ602(セントラルプロセシングユニットまたはCPUとも呼ぶ)を含む。CPU602は、プログラムが可能な装置(例えば、CPLD及びFPGA)やゲートアレイASICなどのプログラムができない装置などのマイクロコントローラ及びマイクロプロセッサまたは一般目的のマイクロプロセッサを含む様々なタイプが可能である。当分野で周知のように、主記憶装置604がデータ及び命令をCPUに一方向的に転送し、主記憶装置606がデータ及び命令を双方向的に転送するために用いられる。これらの主記憶装置の双方は、上記したような好適なコンピュータ読み取り可能メディアを含み得る。また大容量記憶装置608が、CPU602に双方向的に接続されており、追加のデータ記憶容量を提供し、上記したようなあらゆるコンピュータ読み取り可能メディアを含み得る。大容量記憶装置608はプログラム及びデータなどをストアするために用いられ、通常はハードディスクなどの二次記憶メディアである。大容量記憶装置608に保存された情報は、場合によっては、仮想メモリとして主記憶装置606の一部として通常の方法で組み込まれ得る。CD−ROM614などの特定の大容量記憶装置もまた、CPUに双方向的にデータがやり取りされる。
【0072】
CPU602はまた、ビデオモニタ、トラックボール、マウス、キーボード、マイクロフォン、タッチ式ディスプレイ、トランスデューサーカードリーダー、磁気或いは紙テープリーダー、タブレット、スタイラス、音声或いは手書き認識装置、または他のコンピュータなどの既知の入力装置などの1或いは複数の入出力装置に接続するインターフェース610に接続されている。最後に、CPU602はステップ612に全体的に示されているような外部接続を用いてデータベース、コンピュータなどの外部装置、または電話網に必要に応じて接続することができる。このような接続により、CPUはここに記載するステップを実行するために、ネットワークから情報を受け取ったり、ネットワークに情報を出力することが可能である。
【0073】
一実施形態では、コンピュータシステム600は電気泳動検出装置に直接接続されている。電気泳動検出装置からのデータが解析のためにインターフェース612を介してシステム600に送られる。或いは、システム600によって処理されたデータ或いはトレースが、データベースや他のリポジトリーなどのデータ記憶源から送られる。また、イメージもインターフェース612を介して送られる。コンピュータシステム600において、主記憶装置606或いは大容量記憶装置608などの記憶装置が、データ或いはトレースイメージを少なくとも一時的にバッファ或いはストアする。このデータを用いて、イメージ解析装置600が、ベースコーリング及びベンチマーキングなどの様々な解析処理を実行する。プロセッサは、ストアされたイメージまたはデータに対して様々な動作を実行し得る。
【0074】
(実施例)
以下に示す例は、本発明に従った方法及びシステムがベースコーリング及びベンチマーキングに対して効果的であることを示す実験結果を提供する。後述する例は、例示目的であって、本発明がこれらの例によって限定されるものではないことを理解されたい。
【0075】
概要
バージョン0.99077.fのphredをこの実験に用いた。phredのこのバージョンは、ABI−377、MegaBACE 1000、及びABI−3700に対する装置固有のクオリティ値較正を利用する。LifeTraceはCで書かれている。LifeTraceは、標準的なX11ライブラリに基づいたクロマトグラムトレースデータを表示するためのグラフィカルインターフェースを提供し、任意のUNIX(登録商標) Xwindowシステム上で動作する。
【0076】
A.性能試験
本発明の方法を、一般的に使用される3つのシークエンシング装置、即ちMegaBACE、ABI−3700キャピラリシークエンサー、及びABI−377スラブゲルシークエンシング装置について評価した。本発明のベースコーラー(LifeTrace)及びphredベースコーラーの正確さを評価するために、以下の表1に示されている3つのヒトBACクローン(第7染色体)からのMegaBACEリードの大きなセットを用いた。
【0077】
【表1】
Figure 2004527728
それぞれのクローンは、ショットガンシークエンシング法によりかなり深くシークエンシングした(10x−20x)。次に配列をアッセンブルし仕上げた。仕上がった配列は極めて正確であり、エラーは50,000塩基に1未満と推定される。従ってこれらの配列は、ベースコーラーの正確さを評価するのに適している。
【0078】
以下の表2には、解析に用いられる多数のリードが示されている。各配列は、AmershamのMegaBACE 1000キャピラリシークエンサーを用いて読まれた。トレース処理は、Cimarron v1.61解析ソフトウエア(Cimarron Software Inc., Salt Lake City, Utah)を用いて行われた。データセットは、反応によって分類され、ダイプライマーのリードはダイターミネーターのリードとは別に解析された。追加の試験を、反応(プライマー、ターミネーター)が混合する合計4,714のABI−3700シークエンサークロマトグラムについて行った。Human Collagenase (GenBank 受入れ番号:U78045)にアセンブルされる1,184のABI−377クロマトグラムの小さいセットを、スラブゲルシークエンサーのベンチマーキングに用いた。
【0079】
B.ベンチマーキング
方法1に従ったMegaBACEクロマトグラムのセットにおける性能試験(性能試験の部分を参照)から得られた2つのベースコーラーphred及びLifeTraceについてのベンチマーク統計が以下の表2及び表3に示されている。本発明は、ダイプライマーに対してはphredよりも2.4%以上多い整列した塩基を提供し、ダイターミネーターに対しては2.1%以上多い整列した塩基を提供する。この大きな違いは長いリードによるが、相当な部分が追加の整列されたリードによる。
【0080】
【表2】
Figure 2004527728
本方法は、全体としてダイプライマーにおいてエラーが17%少なく、そのうち置換エラーが17%少なく、挿入及び欠失エラーが16%少ない。ダイターミネーターデータの場合は、本方法は全体として13%エラーが少なく、そのうち置換エラーが15%少なく挿入及び欠失エラーが10%少ない。エラーのタイプ及び塩基の位置による詳細が図7に示されている。ダイプライマー及びダイターミネーターの両方のセットにおいて、並びに全ての位置の範囲において、ここに記載する方法は一貫して合計エラーが少なく、「N(不明)」のコールが僅かであるため置換エラーが少ない。本方法によって生成された挿入及び欠失エラーの数は、塩基位置100−500の範囲において大幅に少なくなっており、一般にこの範囲は、エラー統計において最も高いクオリティのトレース情報であってベースコール数が最も多い(表3を参照)。
【0081】
【表3】
Figure 2004527728
両方のベースコーラーが実際の配列に整列した領域にエラー解析を限定することによって、方法1が、両方のベースコーラーのエラー生成の少ない領域に対するエラー統計が集まる傾向になる。しかしながら、本方法の方法1で追加的に整列した塩基は、phredが例外的に多くのエラーを生成する領域に対してエラーが少ない実際に信頼性の高いベースコールである。例えば、或るクロマトグラムに対して、方法1は202塩基の連帯的に整列可能な配列領域を生成する。この領域は、phredではエラーが7、本方法ではエラーが0であって、264の余分な整列した塩基が含まれる。これとは対照的に方法2は、LifeTraceがコールした配列に基づいた465の塩基の開始blastアラインメントを生成する。このアラインメントにおいて、同等のクロマトグラム領域におけるベースコールエラーがphredでは67であり、本方法ではエラーが0である。方法2は、明らかに追加の整列した塩基を更に解析して性能の差を広げている。
【0082】
ベースコーラー間、即ちphredと方法2を用いるここに記載する方法(LifeTrace)との間の性能の比較が表4−表7に要約されている。
【0083】
【表4】
Figure 2004527728
【表5】
Figure 2004527728
【表6】
Figure 2004527728
【表7】
Figure 2004527728
より具体的には、表4−表7に、方法2(方法のセクションを参照)を用いたMegaBACEのダイ−プライマー及びダイ−ターミネーターのセットの両方における性能試験から得られたエラー統計の詳細が示されている。これらの表には、全ての可能なエラーの組み合わせが列記されている。例えば、MegaBACE_プライマーのセットに対して、LifeTraceが正しくコールしたのにphredに置換エラーがあったのは12,192であるのに対してphredが正しくコールしたのにLifeTraceに置換エラーがあったのは107,27であり、また両方のベースコーラーに置換エラーがあったのは14,069である。「平均BLASTヒット長さ」は、コールされた配列と仕上がった実際のコンセンサス配列との間のスコアの高い配列アラインメントの長さを指す。「N」とコールされたものは塩基としてカウントされ、置換エラー及び挿入エラーとなる。
【0084】
2つのMegaBACEのセット(ダイ−プライマー及びダイ−ターミネーター)において、LifeTraceはphredよりもベースコールエラーが30%少ない。既に説明したように、方法2におけるphredに対するLifeTraceのエラーが方法1よりも急激に減少したのは、LifeTraceによる追加の整列した塩基にまでエラーの解析を拡大したことに起因する。特に挿入エラーが大幅に減少している。これは、図8に例示されているようにphredがばらつきのあるピーク間隔に対する調整に頻繁に失敗しているためである。LifeTraceによる置換エラーの数もphredに比べて減少している。プライマーセットにおいて、LifeTraceが正しくコールしたのにphredに置換エラーがあったのは12,192ベースコールあるのに対してphredが正しくコールしたのにLifeTraceにエラーがあったのは10,727であり、phredに対するLifeTraceのエラーが12%少ない。ダイ−ターミネーターにおいては、同じように比較した置換エラーが2.3%減少している。LifeTraceによる挿入/欠失エラーの合計数は、主に挿入エラーの著しい減少により大幅に減少している(ダイ−プライマーでは42%少なく、ダイ−ターミネーターでは47%少ない)。LifeTraceで生成された、実際の配列に対するコールされた配列の開始BLASTアラインメントがphredよりも平均3〜5%長いことは、正しいコールの数が増えたことを示している。
【0085】
ABI−377シーケンサーのクロマトグラムのセットにおいて、phred及びLifeTraceの全体の性能は、ほぼ同じ合計エラー率である。エラーのタイプを分類すると、LifeTraceがこのセットに対してはより多数の挿入エラー及び欠失エラーを生成しているが、置換エラー数の減少により相殺されている。挿入/欠失エラーの数が多いことから、実際のコンセンサス配列に対するコールされた配列の開始BLASTアラインメントがphredよりも2%短くなっている。しかしながら、挿入/欠失は配列アセンブルの文字列においてより重大である。つまり、挿入/欠失は置換エラーよりも対処が困難であって重大な読み枠シフトのエラーを引き起こし得る。
【0086】
ABI−3700のクロマトグラムにおいても同様の結果が得られた。具体的には、LifeTraceの生成した置換エラーが29%少なく、挿入/欠失エラーが13%多く、全体として約10%エラーが多い。phredに対するLifeTraceのベースコールエラーの相対的な上昇は、主にリードの端部に限定されている。すなわち、この端部は極めてクオリティの低い領域である。リードを、約500ヌクレオチドのリード長さ或いは元の長さの約3分の2に対応するピクセル位置6000で切断すると、エラー統計はLifeTraceに有利になり、phredよりも置換エラーが6%少なく、挿入/欠失エラーが20%少なく、全体としてエラーが13%少なくなる。従って、LifeTraceはクオリティの低いリード端部ではエラーが多いが、クオリティの高い領域では生成するエラーがかなり少ない。多くの後処理には、或る種のクオリティクリッピングを伴い、これによりクオリティの高い領域におけるエラー数の減少がより顕著になる。
【0087】
LifeTraceにより達成されたMegaBACEベースコールエラーの大幅な削減は、主にphredが例外的に多くのエラーを生成するクロマトグラムの場合に限られる。図9は、phred或いはLifeTraceの何れかの大きい方のエラー数によるクロマトグラムにおいて検出されたエラーの関数として、phredに対するLifeTraceのエラー率を示す。LifeTraceの改善された性能が、エラー数の多い( >25)クロマトグラムでより明確である。ここでも、これは、phredがばらつきのあるピーク間隔の調整が困難であることによって説明される。これらのクロマトグラムの多くは明らかにクオリティが高いが、それでもphredはピーク間隔を均一にするべく追加の塩基を挿入する(図8)。しかしながら、LifeTraceはまた、両方のベースコーラーが生成するエラー数の少ないクオリティの高いクロマトグラムにおいてもphredよりも性能が優れている。LifeTraceは、エラーの少ない( <6エラー)ダイ−ターミネーターのクロマトグラムにおいてのみエラーをやや多く生成する(約5%)。しかしながら、このクロマトグラムのサブセットは、図9の累積クロマトグラムのカウントから分かるように、解析された全てのクロマトグラムの内の僅か約20%である。phredに対するLifeTraceの比較は、ABI−377のデータにおいてほぼ平坦であり、このことから両方のベースコーラーが全てのクロマトグラムのクオリティ範囲に亘って均一に動作することが分かる。MegaBACEのデータとは対照的に、ABI−3700のクオリティの高いクロマトグラムにおいてLifeTraceの性能が向上しているのが分かる。LifeTraceは、LifeTrace及びphredの両方が生成するエラーが比較的少ないクロマトグラムにおいて生成するエラーが少ないことが観察された。これは、上記した切り取られたABI−3700クロマトグラムにおけるエラー率が低下したことによる。
【0088】
LifeTraceは、実際のベースコールのクオリティと、塩基間のギャップクオリティの2つのクオリティ値を区別する。LifeTraceのクオリティ値に影響を及ぼすトレース関連パラメータが、実際に観察されたエラー率と単調な関係を示す生のクオリティ値を生成したため、ベースコールクオリティ値とギャップクオリティ値の両方を、q=−10×log10(エラー率)であるphredにより導入された規約に対して較正することが可能であった。コールされた塩基に割当てられた較正されたクオリティ値を、図10の観察されたエラー率と比較する。プライマーとターミネーターの両方のセットにおいて、LifeTraceのクオリティ値が予想エラー率の信頼できる予測子であることが分かり、理想線から狭い範囲に入る。このことは、2つのセット間の広がりがやや広いがphredにも当てはまる。しかしながら、phredのクオリティ値により、置換、挿入、及び欠失の3つ全てのエラーの確率を推定できることに留意されたい。図10では、LifeTrace及びphredの何れにおいても、欠失エラーが考慮されていない。欠失した塩基は、対応するクオリティ値を有し得ない。本発明は、ギャップクオリティ値を採用するが、phredはクオリティの低いギャップ(広いギャップ、即ち中間にピークを有する可能性のあるギャップ)を隣接するベースコールのクオリティ値に伝播する。
【0089】
ベースコーリングにおいてクオリティ値を割当てる目的は、誤っている可能性の或るベースコールとクオリティの高いベースコールとを確実に区別することにある。図11には、LifeTrace及びphredの全てのコールに対するクオリティ値の分布と比較したベースコールエラーに関連するクオリティ値についてのヒストグラムがプロットされている。ベースコールエラーがクオリティの低い領域に蓄積され、他の大多数のベースコールと十分に分離されるのが理想的である。全体の分布は、LifeTrace及びphredにおいて類似しているが、phredのヒストグラムはLifeTraceよりもかなり凹凸がある。これは、トレースパラメータをクオリティ値/観察されたエラー率に一致させるようにphredがルックアップテーブルを利用していることによる。一方、LifeTraceは、クオリティの判定に連続したパラメータを利用しているため、滑らかな曲線になっている。
【0090】
図12には、割当てられたギャップクオリティ値が推定値を有し、観察されたエラー率が正確に推定されていることが示されている。欠失エラーは、ギャップクオリティの低いギャップコールに限定され、クオリティの高いデータ群からは十分に分離している(図13)。図12及び図13は、置換/挿入エラーを示す図10及び図11に相当するプロットであり、欠失エラーについてのデータを示している。現行では、成分の或る1つの特定の閾値がギャップクオリティに寄与しているため、可能な最も低いギャップクオリティ値は15である。実際には多くのギャップコールが15以下になることがあるが、そのような場合はギャップクオリティを15にする。
【0091】
ベースコーリングの正確さはまた、クロマトグラムに施される予備処理による影響を大きく受け、予備処理の違いにより較結果が異なり得る。例えば選択されたリード長さ、またはピーク当たりのサンプリング率等の他の技術パラメータが、記録されたクロマトグラムのクオリティに体系的に影響を与え、たとえ同じタイプの装置で生成されたとしてもクロマトグラムのセットに違いがでる。このようなセット間の体系的な差異は、クオリティ値の較正により補償するのが好ましい。
【0092】
付録ソフトウエア
本明細書一部として含まれる付録ソフトウエア(Incyte Genomics, Incが著作権者)は、本発明の実施形態を実現するための擬似コードを提供する。しかしながら、本発明を別の方法でも実現可能であることを理解されたい。
【0093】
上記した説明は例示目的であって限定することを意図したものではない。本発明の様々な変更例が本開示により可能であることは、当業者には明らかであろう。本発明は特にDNA(天然或いは非天然)の評価について説明しているが、これは単なる例示目的であって、本方法はRNA等の他の物質にも適用可能である。従って、本発明の範囲は、上記の説明により限定されるべきものではなく、請求の範囲等によってのみ限定されるものであることを理解されたい。
【外1】
Figure 2004527728
【外2】
Figure 2004527728
【外3】
Figure 2004527728
【外4】
Figure 2004527728
【外5】
Figure 2004527728
【外6】
Figure 2004527728
【外7】
Figure 2004527728
【外8】
Figure 2004527728
【外9】
Figure 2004527728
【外10】
Figure 2004527728
【外11】
Figure 2004527728
【外12】
Figure 2004527728
【外13】
Figure 2004527728
【外14】
Figure 2004527728
【外15】
Figure 2004527728

【図面の簡単な説明】
【図1】
ベースコーリングのための本発明の高いレベルの処理の流れを示す線図。
【図2】
LifeTraceによるクロマトグラムトレースデータの処理を例示する図。4つの元のデータトレースと、ピーク検出の基礎となる複合トレースLTが図示されている。LifeTraceベースコールが一番上の列に示されており、LifeTraceクオリティ値に対応するピーク位置を示す縦線は、長さが長ければ長いほどクオリティ値が高いことを示す。この列の2本の水平線はそれぞれクオリティ値0と15を示している。
【図3】
クオリティ値を計算するための本発明の高いレベルの処理の流れを示す線図。
【図4】
ギャップクオリティの概念を例示する図。サンプルのクロマトグラムの一部が、トレースと、ピーク位置を示す縦線マークの長さによって定量化されたクオリティ値に対応するコールを示す。2本の縦線の内の左側の縦線は、実際のベースコールのクオリティ値を表し、右側の縦線は、ベースコールされた塩基の後のギャップのクオリティを表す
【図5】
ベースコールされた塩基におけるクオリティ・フィルタリングの性能のための本発明の高いレベルの処理の流れを示す線図。
【図6】
本発明の様々なベースコーリングアルゴリズム等の本発明の様々な実施態様を実施するために用いることができるコンピュータシステムのブロック図。
【図7A】
方法1を用いた、MegaBACEダイ−プライマーのセットにおけるphred(グレーの棒)とLifeTrace(黒の棒)との性能比較を示す図(性能分析の部分を参照)。ベースコールエラーが、ベースコールされた配列の所定部分において、様々なタイプのエラーに対して解析されている。「N」は、未確定塩基である「N」とベースコールされたものを指す。
【図7B】
方法1を用いた、MegaBACEダイ−ターミネーターのセットにおけるphred(グレーの棒)とLifeTrace(黒の棒)との性能比較を示す図(性能分析の部分を参照)。ベースコールエラーが、ベースコールされた配列の所定部分において、様々なタイプのエラーに対して解析されている。「N」は、未確定塩基である「N」とベースコールされたものを指す。
【図8】
パネルAは、対応するベースコールを備えたサンプルMegaBACEクロマトグラムである。ピークを示す縦線の長さはクオリティ値に一致し、その長さが長いほどクオリティが高いことを示す。2本の水平線のクオリティ値はそれぞれ0と15である。パネルBは、LifeTraceによって決定されたピーク位置に対応するピーク間の距離を示す。所定のクロマトグラム位置(xの値)における各ピークに対して、次のピークまでの距離(yの値)がプロットされている。パネルAに示されているクロマトグラムセグメントは、4000と4400との間のクロマトグラム位置に対応する。
【図9】
クロマトグラムのクオリティに従って分類されたクロマトグラムのセットにおけるphredエラーに対するLifeTrace(LT)エラーの比較を示す。ここで、クオリティは、LifeTrace或いはphredの何れかによって生成された許容される最大エラー数、即ち、max(LifeTrace_エラー、phred_エラー) として表される。例えば、LifeTrace及びphredのそれぞれが生成したエラーが5未満のクロマトグラムは、クオリティの高いクロマトグラムとする。グラフに示されているように、クロマトグラムの或るセットにおいてphredは多くのエラーを生成したが、LifeTraceは極少数のエラーを生成しており、LifeTraceの方がphredよりも性能が高い。エラー率は、phredエラーの数によって標準化する。即ち、phredは相対エラー率が1の水平線である。破線は、カラーコードがlegendカラーに一致する所定の閾値におけるセットのクロマトグラムの全数によって標準化されたクロマトグラムの数の累積合計に対応する。
【図10】
LifeTrace及びphredのクオリティ値の忠実度を示す。実際の配列に整列された全てのベースコールに対するクオリティ値は、幅Δ(クオリティ値)=2の間隔でビンに分類された。半対数プロットは、クオリティ値に関連して各ビンにおいて観察されたエラー率を示す。このクオリティ値は、解析されたダイ−プライマー及びダイ−ターミネーターMegaBACEクロマトグラムのセットにおけるビンに対応している。欠失エラーが新規に導入されたギャップクオリティ値(図13を参照)によって補足されるため、置換エラー及び挿入エラーのみが考慮されており、欠失した塩基自体は、存在しないのであるからクオリティ値を有していない。「理想線」は、q=−10×log10(観察されたエラー率)である。
【図11】
クオリティ値の選択的なパワー及びクオリティの高いベースコールの保持を示す。クオリティ値の頻度分布は置換エラー及び挿入エラーに関連し、クロマトグラムのセットにおけるLifeTrace及びphredベースコーラーによる全てのベースコールが解析された。頻度は、幅2の単位のクオリティ値の間隔内のビンにあるコールに対して計算された。
【図12】
LifeTraceギャップクオリティ値の忠実度を示す。解析されたMegaBACEクロマトグラムのセット(プライマー及びターミネーター)についてのアラインメントにおける前の塩基に割当てられたギャップクオリティ値に関連する欠失エラーの観察された頻度の半対数プロットである。ギャップの前の塩基のギャップクオリティ値は、次にコールされた塩基に対するギャップクオリティを獲得する。すなわち、低いギャップクオリティは、その塩基と次にコールされた塩基との間に別の塩基が入る可能性が高く、欠失エラーの可能性があることを示している。LifeTraceでは、ギャップはコールと考えられ、「観察されたエラー率」は、コールされた全てのギャップの内の誤ったギャップ(塩基間のミスした実際のベースコール)である。ビンの幅は4クオリティ単位であり、「理想線」は図10と同様である。
【図13】
LifeTraceギャップクオリティ値の選択的なパワーを示す。クオリティ値の頻度分布は欠失エラー(ギャップの前のベースコールに割当てられたギャップクオリティ)に関連し、クロマトグラムのセットにおけるLifeTraceベースコーラーによる全てのギャップコールが解析された。頻度は、幅2の単位のクオリティ値の間隔内のビンにあるコールに対して計算された。

Claims (61)

  1. 核酸ポリマーの配列を決定するための方法であって、
    (a)電気泳動検出装置におけるDNAシークエンシング反応の生成物を検出する複数のチャネルからデータトレースを得るステップと、
    (b)(i)4つの前記データトレースのそれぞれに相互相関係数を適用して、4つの調整されたトレースを生成するステップであって、前記相互相関係数が前記各トレースを理想的なガウス型ピークと比較し、前記調整されたトレースが元の前記データトレースよりも細いピークを有するようにする、該ステップと、(ii)前記4つの調整されたトレースを組み合わせて複合トレースを生成するステップとを含む処理によって前記データトレースを組み合わせるステップと、
    (c)ピーク間隔を利用しない処理によって前記複合トレースにおけるピークを検出するステップと、
    (d)前記ピークにベースコールを割当てて前記核酸ポリマーの配列を決定するステップとを含むことを特徴とする方法。
  2. 前記データトレースが予備処理されていることを特徴とする請求項1に記載の方法。
  3. 前記予備処理が、
    (i)自動化電気泳動検出装置におけるDNAシークエンシング反応の生成物を検出する複数のチャネルから未処理のデータを得るステップと、
    (ii)前記未処理のデータの開始点と終了点を特定するステップと、
    (iii)前記未処理のデータのベースラインを確立するステップと、
    (iv)前記未処理のデータからベースラインを差引いて、ベースライン補正データを生成するステップと、
    (v)前記ベースライン補正データを分離してデータトレースを生成する、スペクトル若しくはリーク(leakage)の分離を含む分離ステップとを含むことを特徴とする請求項2に記載の方法。
  4. 前記電気泳動検出装置が、スラブゲル電気泳動法、チューブゲル電気泳動法、またはキャピラリーゲル電気泳動法を用いることを特徴とする請求項1に記載の方法。
  5. 前記電気泳動検出装置が、MegaBACEキャピラリーシークエンシング装置であることを特徴とする請求項4に記載の方法。
  6. 更に、少なくとも1つのベースコールに対して少なくとも1つのクオリティ値を生成するステップを含むことを特徴とする請求項1に記載の方法。
  7. 前記少なくとも1つのクオリティ値が、ギャップクオリティ値であり、前記ギャップクオリティ値が、近接する2つの割当てられたベースコール間の欠失エラーの可能性を評価することを特徴とする請求項6に記載の方法。
  8. 前記ギャップクオリティ値が、近接する前記2つの割当てられたベースコール間のノイズの程度、並びに近接する前記2つの割当てられたベースコール間の過剰に広いピーク間隔の程度を測定することを特徴とする請求項7に記載の方法。
  9. 更に、前記クオリティ値を用いて、ベースコールが前記核酸ポリマーの配列から除去されたり付加されたりするクオリティフィルタリングするステップを含むことを特徴とする請求項6に記載の方法。
  10. 前記DNAシークエンシング反応が、ダイ−ターミネーターまたはダイ−プライマー法を用いることを特徴とする請求項1に記載の方法。
  11. 核酸ポリマーの配列を決定するためのプログラム命令がストアされた機械読取可能媒体を含むコンピュータプログラム製品であって、前記プログラム命令が、
    電気泳動検出装置におけるDNAシークエンシング反応の生成物を検出する複数のチャネルからデータトレース得るためのコードと、
    (i)4つの前記データトレースのそれぞれに相互相関係数を適用して、4つの調整されたトレースを生成するステップであって、前記相互相関係数が前記各トレースを理想的なガウス型ピークと比較し、前記調整されたトレースが元の前記データトレースよりも細いピークを有するようにする、該ステップと、(ii)前記4つの調整されたトレースを組み合わせて複合トレースを生成するステップとを含む処理によって前記データトレースを組み合わせるためのコードと、
    前記ピークをベースコールに割当てて、前記核酸ポリマーの配列を決定するためのコードとを含むことを特徴とするコンピュータプログラム製品。
  12. 前記データトレースが予備処理されていることを特徴とする請求項11に記載のコンピュータプログラム製品。
  13. 前記予備処理が、
    (i)自動化電気泳動検出装置におけるDNAシークエンシング反応の生成物を検出する複数のチャネルから未処理のデータを得るステップと、
    (ii)前記未処理のデータの開始点と終了点を特定するステップと、
    (iii)前記未処理のデータのベースラインを確立するステップと、
    (iv)前記未処理のデータからベースラインを差引いて、ベースライン補正データを生成するステップと、
    (v)前記ベースライン補正データを分離してデータトレースを生成する、スペクトル若しくはリークの分離を含む分離ステップとを含むことを特徴とする請求項12に記載のコンピュータプログラム製品。
  14. 前記電気泳動検出装置が、スラブゲル電気泳動法、チューブゲル電気泳動法、またはキャピラリーゲル電気泳動法を用いることを特徴とする請求項11に記載のコンピュータプログラム製品。
  15. 前記電気泳動検出装置が、MegaBACEキャピラリーシークエンシング装置であることを特徴とする請求項14に記載のコンピュータプログラム製品。
  16. 更に、少なくとも1つのベースコールに対して少なくとも1つのクオリティ値を生成するためのコードを含むことを特徴とする請求項11に記載のコンピュータプログラム製品。
  17. 前記少なくとも1つのクオリティ値が、ギャップクオリティ値であり、前記ギャップクオリティ値が、近接する2つの割当てられたベースコール間の欠失エラーの可能性を評価することを特徴とする請求項16に記載のコンピュータプログラム製品。
  18. 前記ギャップクオリティ値が、近接する前記2つの割当てられたベースコール間のノイズの程度、並びに近接する前記2つの割当てられたベースコール間の過剰に広いピーク間隔の程度を測定することを特徴とする請求項17に記載のコンピュータプログラム製品。
  19. 更に、前記クオリティ値を用いて、ベースコールが前記核酸ポリマーの配列から除去されたり付加されたりするクオリティフィルタリングするステップを含むことを特徴とする請求項16に記載のコンピュータプログラム製品。
  20. 核酸ポリマーの配列を決定するためのプログラム命令を少なくとも一時的にストアできるように構成された記憶装置を含む演算装置であって、前記プログラム命令が、
    電気泳動検出装置におけるDNAシークエンシング反応の生成物を検出する複数のチャネルからデータトレース得るためのコードと、
    (i)4つの前記データトレースのそれぞれに相互相関係数を適用して、4つの調整されたトレースを生成するステップであって、前記相互相関係数が前記各トレースを理想的なガウス型ピークと比較し、前記調整されたトレースが元の前記データトレースよりも細いピークを有するようにする、該ステップと、(ii)前記4つの調整されたトレースを組み合わせて複合トレースを生成するステップとを含む処理によって前記データトレースを組み合わせるためのコードと、
    前記ピークをベースコールに割当てて、前記核酸ポリマーの配列を決定するためのコードとを含むことを特徴とする演算装置。
  21. 前記データトレースが予備処理されていることを特徴とする請求項20に記載の演算装置。
  22. 前記予備処理が、
    (i)自動化電気泳動検出装置におけるDNAシークエンシング反応の生成物を検出する複数のチャネルから未処理のデータを得るステップと、
    (ii)前記未処理のデータの開始点と終了点を特定するステップと、
    (iii)前記未処理のデータのベースラインを確立するステップと、
    (iv)前記未処理のデータからベースラインを差引いて、ベースライン補正データを生成するステップと、
    (v)前記ベースライン補正データを分離してデータトレースを生成する、スペクトル若しくはリークの分離を含む分離ステップとを含むことを特徴とする請求項21に記載の演算装置。
  23. 前記電気泳動検出装置が、スラブゲル電気泳動法、チューブゲル電気泳動法、またはキャピラリーゲル電気泳動法を用いることを特徴とする請求項20に記載の演算装置。
  24. 前記電気泳動検出装置が、MegaBACEキャピラリーシークエンシング装置であることを特徴とする請求項23に記載の演算装置。
  25. 更に、少なくとも1つのベースコールに対して少なくとも1つのクオリティ値を生成するためのコードを含むことを特徴とする請求項20に記載の演算装置。
  26. 前記少なくとも1つのクオリティ値が、ギャップクオリティ値であり、前記ギャップクオリティ値が、近接する2つの割当てられたベースコール間の欠失エラーの可能性を評価することを特徴とする請求項25に記載の演算装置。
  27. 前記ギャップクオリティ値が、近接する前記2つの割当てられたベースコール間のノイズの程度、並びに近接する前記2つの割当てられたベースコール間の過剰に広いピーク間隔の程度を測定することを特徴とする請求項26に記載の演算装置。
  28. 更に、前記クオリティ値を用いて、ベースコールが前記核酸ポリマーの配列から除去されたり付加されたりするクオリティフィルタリングするステップを含むことを特徴とする請求項25に記載の演算装置。
  29. 近接する2つの割当てられたベースコール間にベースコールが抜けている確率を推定する方法であって、
    (a)近接する前記2つの割当てられたベースコール間のノイズの程度を測定するステップと、
    (b)近接する前記2つの割当てられたベースコール間のピーク間隔を測定するステップと、
    (c)近接する前記2つの割当てられたベースコール間にベースコールが抜けている確率を示すギャップクオリティ値を計算するステップとを含むことを特徴とする方法。
  30. 前記ベースコールが請求項1の方法を用いて割当てられることを特徴とする請求項29に記載の方法。
  31. 近接する2つの割当てられたベースコール間にベースコールが抜けている確率を推定するためのプログラム命令がストアされた機械読取可能媒体を含むコンピュータプログラム製品であって、前記プログラム命令が、
    近接する前記2つの割当てられたベースコール間のノイズの程度を測定するためのコードと、
    近接する前記2つの割当てられたベースコール間のピーク間隔を測定するためのコードと、
    近接する前記2つの割当てられたベースコール間にベースコールが抜けている確率を示すギャップクオリティ値を計算するステップとを含むことを特徴とするコンピュータプログラム製品。
  32. 近接する2つの割当てられたベースコール間にベースコールが抜けている確率を推定するためのプログラム命令を少なくとも一時的にストアできるように構成された記憶装置を含む演算装置であって、前記プログラム命令が、
    近接する前記2つの割当てられたベースコール間のノイズの程度を測定するためのコードと、
    近接する前記2つの割当てられたベースコール間のピーク間隔を測定するためのコードと、
    近接する前記2つの割当てられたベースコール間にベースコールが抜けている確率を示すギャップクオリティ値を計算するステップとを含むことを特徴とする演算装置。
  33. ベースコーラーの性能をベンチマークするための方法であって、
    (a)2つのベースコーリングアルゴリズムを用いて核酸配列を決定して、2つの検査配列を得るステップと、
    (b)配列比較アルゴリズムを用いて、前記2つの検査配列間の整列した配列を特定するステップと、
    (c)前記配列比較アルゴリズムを用いて、前記整列した配列と前記検査配列の各配列とを比較するステップと、
    (d)前記比較からクオリティの高い最も左及び最も右のアラインメントを決定するステップと、
    (e)前記整列した配列を、前記最も左及び最も右のアラインメントに一致する最も左及び最も右の境界を特定して伸長するステップと、
    (f)前記最も左の境界と前記最も右の境界との間の前記伸長した整列した配列に対するエラー統計を収集するステップとを含むことを特徴とする方法。
  34. 前記配列比較アルゴリズムがBLASTであることを特徴とする請求項33に記載の方法。
  35. 前記エラー統計が、クオリティ値に関連して得られることを特徴とする請求項33に記載の方法。
  36. 前記クオリティ値が、コールクオリティ値及びギャップクオリティ値であることを特徴とする請求項35に記載の方法。
  37. 高いコールクオリティ値が優先されることを特徴とする請求項36に記載の方法。
  38. 低いギャップクオリティ値が欠失エラーの可能性が高いことを示すことを特徴とする請求項36に記載の方法。
  39. 置換エラーが前記コールクオリティ値に関係することを特徴とする請求項36に記載の方法。
  40. 挿入エラーが前記コールクオリティ値に関係することを特徴とする請求項36に記載の方法。
  41. ベースコーラーの性能をベンチマークするためのプログラム命令がストアされた機械読取可能媒体を含むコンピュータプログラム製品であって、前記プログラム命令が、
    2つのベースコーリングアルゴリズムを用いて核酸配列を決定して、2つの検査配列を得るためのコードと、
    配列比較アルゴリズムを用いて、前記2つの検査配列間の整列した配列を特定するためのコードと、
    前記配列比較アルゴリズムを用いて、前記整列した配列と前記検査配列の各配列とを比較するためのコードと、
    前記比較からクオリティの高い最も左及び最も右のアラインメントを決定するためのコードと、
    前記整列した配列を、前記最も左及び最も右のアラインメントに一致する最も左及び最も右の境界を特定して伸長するためのコードと、
    前記最も左の境界と前記最も右の境界との間の前記伸長した整列した配列に対するエラー統計を収集するためのコードとを含むことを特徴とするコンピュータプログラム製品。
  42. 前記配列比較アルゴリズムがBLASTであることを特徴とする請求項41に記載のコンピュータプログラム製品。
  43. 前記エラー統計が、クオリティ値に関連して得られることを特徴とする請求項41に記載のコンピュータプログラム製品。
  44. 前記クオリティ値が、コールクオリティ値及びギャップクオリティ値であることを特徴とする請求項43に記載のコンピュータプログラム製品。
  45. 高いコールクオリティ値が優先されることを特徴とする請求項44に記載のコンピュータプログラム製品。
  46. 低いギャップクオリティ値が欠失エラーの可能性が高いことを示すことを特徴とする請求項43に記載のコンピュータプログラム製品。
  47. 置換エラーが前記コールクオリティ値に関係することを特徴とする請求項44に記載のコンピュータプログラム製品。
  48. 挿入エラーが前記コールクオリティ値に関係することを特徴とする請求項44に記載のコンピュータプログラム製品。
  49. ベースコーラーの性能をベンチマークするためのプログラム命令を少なくとも一時的にストアできるように構成された記憶装置を含む演算装置であって、前記プログラム命令が、
    2つのベースコーリングアルゴリズムを用いて核酸配列を決定して、2つの検査配列を得るためのコードと、
    配列比較アルゴリズムを用いて、前記2つの検査配列間の整列した配列を特定するためのコードと、
    前記配列比較アルゴリズムを用いて、前記整列した配列と前記検査配列の各配列とを比較するためのコードと、
    前記比較からクオリティの高い最も左及び最も右のアラインメントを決定するためのコードと、
    前記整列した配列を、前記最も左及び最も右のアラインメントに一致する最も左及び最も右の境界を特定して伸長するためのコードと、
    前記最も左の境界と前記最も右の境界との間の前記伸長した整列した配列に対するエラー統計を収集するためのコードとを含むことを特徴とする演算装置。
  50. 前記配列比較アルゴリズムがBLASTであることを特徴とする請求項49に記載の演算装置。
  51. 前記エラー統計が、クオリティ値に関連して得られることを特徴とする請求項49に記載の演算装置。
  52. 前記クオリティ値が、コールクオリティ値及びギャップクオリティ値であることを特徴とする請求項51に記載の演算装置。
  53. 高いコールクオリティ値が優先されることを特徴とする請求項52に記載の演算装置。
  54. 低いギャップクオリティ値が欠失エラーの可能性が高いことを示すことを特徴とする請求項52に記載の演算装置。
  55. 置換エラーが前記コールクオリティ値に関係することを特徴とする請求項52に記載の演算装置。
  56. 挿入エラーが前記コールクオリティ値に関係することを特徴とする請求項52に記載の演算装置。
  57. 連続的に変化しているベースコールクオリティのパラメータに依存する処理によって推定されるコールクオリティ値。
  58. 前記処理がルックアップテーブルを利用しないことを特徴とする請求項57に記載のコールクオリティ値。
  59. 割当てられた所定のベースコールの後にベースコールが抜けた可能性を推定するギャップクオリティ値。
  60. 前記割当てられたベースコールが、請求項1に記載の方法によって決定されることを特徴とする請求項59に記載のギャップクオリティ値。
  61. 前記ギャップクオリティ値が、請求項29に記載の方法によって導き出されることを特徴とする請求項59に記載のギャップクオリティ値。
JP2002520159A 2000-08-14 2001-08-10 ベースコーリング装置及びプロトコル Pending JP2004527728A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US22508300P 2000-08-14 2000-08-14
US25762100P 2000-12-20 2000-12-20
PCT/US2001/025195 WO2002015107A2 (en) 2000-08-14 2001-08-10 Basecalling system and protocol

Publications (1)

Publication Number Publication Date
JP2004527728A true JP2004527728A (ja) 2004-09-09

Family

ID=26919286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002520159A Pending JP2004527728A (ja) 2000-08-14 2001-08-10 ベースコーリング装置及びプロトコル

Country Status (6)

Country Link
US (1) US20020147548A1 (ja)
EP (1) EP1423816A2 (ja)
JP (1) JP2004527728A (ja)
AU (1) AU2001283299A1 (ja)
CA (1) CA2419126A1 (ja)
WO (1) WO2002015107A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006084471A (ja) * 2004-09-15 2006-03-30 F Hoffmann La Roche Ag 核酸クロマトグラムを処理するためのシステムおよび方法
WO2008050426A1 (fr) * 2006-10-26 2008-05-02 Shimadzu Corporation Procede destine a determiner la sequence de base d'un acide nucleique
WO2018181432A1 (ja) * 2017-03-29 2018-10-04 日本電気株式会社 電気泳動解析装置、電気泳動解析方法及びプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7222059B2 (en) * 2001-11-15 2007-05-22 Siemens Medical Solutions Diagnostics Electrophoretic trace simulator
AU2003247429A1 (en) * 2002-05-30 2003-12-19 Fei Gao Method of detecting dna variation in sequence data
US7006206B2 (en) * 2003-05-01 2006-02-28 Cidra Corporation Method and apparatus for detecting peaks in an optical signal using a cross-correlation filter
EP1981993A4 (en) * 2006-02-06 2010-09-15 Siemens Healthcare Diagnostics METHODS FOR DETECTING PICS IN A TRACE OF NUCLEIC ACID VARIABLES
WO2007092855A2 (en) * 2006-02-06 2007-08-16 Siemens Healthcare Diagnostics Inc. Methods for resolving convoluted peaks in a chromatogram
US9388462B1 (en) * 2006-05-12 2016-07-12 The Board Of Trustees Of The Leland Stanford Junior University DNA sequencing and approaches therefor
US11288576B2 (en) * 2018-01-05 2022-03-29 Illumina, Inc. Predicting quality of sequencing results using deep neural networks
US11210554B2 (en) * 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5502773A (en) * 1991-09-20 1996-03-26 Vanderbilt University Method and apparatus for automated processing of DNA sequence data
US5365455A (en) * 1991-09-20 1994-11-15 Vanderbilt University Method and apparatus for automatic nucleic acid sequence determination
US5273632A (en) * 1992-11-19 1993-12-28 University Of Utah Research Foundation Methods and apparatus for analysis of chromatographic migration patterns
US5853979A (en) * 1995-06-30 1998-12-29 Visible Genetics Inc. Method and system for DNA sequence determination and mutation detection with reference to a standard
US6090550A (en) * 1994-12-23 2000-07-18 Imperial College Of Science, Technology And Medicine Automated DNA sequencing comparing predicted and actual measurements
US5916747A (en) * 1995-06-30 1999-06-29 Visible Genetics Inc. Method and apparatus for alignment of signals for use in DNA based-calling
US5733729A (en) * 1995-09-14 1998-03-31 Affymetrix, Inc. Computer-aided probability base calling for arrays of nucleic acid probes on chips
US6043036A (en) * 1996-04-23 2000-03-28 Aclara Biosciences Method of sequencing nucleic acids by shift registering
EP0944739A4 (en) * 1996-09-16 2000-01-05 Univ Utah Res Found METHOD AND DEVICE FOR ANALYZING PATTERNS OF CHROMATOGRAPHIC MIGRATION
SE9702008D0 (sv) * 1997-05-28 1997-05-28 Pharmacia Biotech Ab A method and a system for nucleic acid seouence analysis
WO1999049403A1 (en) * 1998-03-26 1999-09-30 Incyte Pharmaceuticals, Inc. System and methods for analyzing biomolecular sequences
CA2328881A1 (en) * 1998-04-16 1999-10-21 Northeastern University Expert system for analysis of dna sequencing electropherograms

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006084471A (ja) * 2004-09-15 2006-03-30 F Hoffmann La Roche Ag 核酸クロマトグラムを処理するためのシステムおよび方法
WO2008050426A1 (fr) * 2006-10-26 2008-05-02 Shimadzu Corporation Procede destine a determiner la sequence de base d'un acide nucleique
US8306756B2 (en) 2006-10-26 2012-11-06 Shimadzu Corporation Method of determining base sequence of nucleic acid
WO2018181432A1 (ja) * 2017-03-29 2018-10-04 日本電気株式会社 電気泳動解析装置、電気泳動解析方法及びプログラム
JPWO2018181432A1 (ja) * 2017-03-29 2020-02-06 日本電気株式会社 電気泳動解析装置、電気泳動解析方法及びプログラム

Also Published As

Publication number Publication date
US20020147548A1 (en) 2002-10-10
WO2002015107A2 (en) 2002-02-21
CA2419126A1 (en) 2002-02-21
WO2002015107A3 (en) 2004-04-08
EP1423816A2 (en) 2004-06-02
AU2001283299A1 (en) 2002-02-25

Similar Documents

Publication Publication Date Title
US5853979A (en) Method and system for DNA sequence determination and mutation detection with reference to a standard
US6554987B1 (en) Method and apparatus for alignment of signals for use in DNA base-calling
CN109767810B (zh) 高通量测序数据分析方法及装置
US7406385B2 (en) System and method for consensus-calling with per-base quality values for sample assemblies
JP2019531700A5 (ja)
KR101828052B1 (ko) 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치
JP2004527728A (ja) ベースコーリング装置及びプロトコル
CA3046660A1 (en) Methods and systems for determining paralogs
EP2602734A1 (en) Robust variant identification and validation
CN107463797B (zh) 高通量测序的生物信息分析方法及装置、设备及存储介质
Walther et al. Basecalling with lifetrace
WO2008007630A1 (fr) Méthode et appareil de recherche de protéine
CN110291388B (zh) 电泳解析方法、电泳解析装置以及电泳解析程序
CN114005489B (zh) 基于三代测序数据检测点突变的分析方法和装置
CN110970089B (zh) 胎儿浓度计算的预处理方法、预处理装置及其应用
US20160026756A1 (en) Method and apparatus for separating quality levels in sequence data and sequencing longer reads
US20240161870A1 (en) Alignment of target and reference sequences of polymer units
JP4894860B2 (ja) 核酸塩基配列信頼度の算定方法
CN114242164B (zh) 一种全基因组复制的分析方法、装置和存储介质
Aldawiri et al. A Novel Approach for Mapping Ambiguous Sequences of Transcriptomes
Gutierrez On the use of distance maps in the analysis of 1D DNA gel images
CN114703263B (zh) 一种群组染色体拷贝数变异检测方法及装置
Dago et al. RNA-Seq evaluating several custom microarrays background correction and gene expression data normalization systems
Crysnanto Establishing Bovine Pangenome Graphs
KR20180094498A (ko) 핵산 시퀀스를 분석하는 방법 및 장치