JP2001502165A - クロマトグラフ泳動パターンの分析方法および装置 - Google Patents

クロマトグラフ泳動パターンの分析方法および装置

Info

Publication number
JP2001502165A
JP2001502165A JP10514017A JP51401798A JP2001502165A JP 2001502165 A JP2001502165 A JP 2001502165A JP 10514017 A JP10514017 A JP 10514017A JP 51401798 A JP51401798 A JP 51401798A JP 2001502165 A JP2001502165 A JP 2001502165A
Authority
JP
Japan
Prior art keywords
data
band
generating
normalized
fuzzy logic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10514017A
Other languages
English (en)
Inventor
マークス,アンディ,エフ.
Original Assignee
ユニバーシティ オブ ユタ リサーチ ファウンデイション
マークス,アンディ,エフ.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ユニバーシティ オブ ユタ リサーチ ファウンデイション, マークス,アンディ,エフ. filed Critical ユニバーシティ オブ ユタ リサーチ ファウンデイション
Publication of JP2001502165A publication Critical patent/JP2001502165A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/26Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating electrochemical variables; by using electrolysis or electrophoresis
    • G01N27/416Systems
    • G01N27/447Systems using electrophoresis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Electrochemistry (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

(57)【要約】 本発明は反復ブラインドデコンボルーションおよびファジー論理アルゴリズムを使用してクロマトグラフィックデータ内の情報包含信号を検出および分析する方法および装置を含む。本発明の方法により、ゲルおよび毛管電気泳動を含む広範なDNA配列情報源からのクロマトグラフィックデータが分析される。オートラジオグラム、単一フロオロ、4レーンおよび4フロオロ、単一レーン蛍光クロマトグラフィックデータが適切な未処理入力データ源である。本発明の塩基呼出し方法からの出力は呼び出した(同定された)配列データおよび呼び出した塩基に対する品質値を含んでいる。

Description

【発明の詳細な説明】 クロマトグラフ泳動パターンの分析方法および装置 I. 発明の背景 A. 発明の分野 本発明は分子混合物に広く適用されるクロマトグラフ泳動(ミグレーション) パターンの信号検出および分析の分野に関する。特に、本発明はDNA配列決定 に適用されるクロマトグラフ泳動パターンの信号検出および分析に関する。 B. 関連技術の説明 クロマトグラフデータ内の情報包含信号を効率的かつ正確に検出し分析する能 力は大量のデータを処理するのに重要である。このような能力は、大量の情報が 発生されそれを分析および統合して人間の全体ゲノムの代表的な配列を発生しな ければならない、ヒューマンゲノムプロジェクト等のプロジェクトにとって特に 重要である。DNA配列(シーケンス)情報の分析を促進するために、さまざま な方法が開発されている。例えば、クラークチベットの米国特許(第5,365 ,455号)にはDNA配列データの自動化された処理方法が開示されている。 この特許はその全体が本開示の一部としてここに組み入れられている。このチベ ットの方法では入力データセットから得られる有益な変数から情報が引き出され る。このような有益な変数には隣接信号間の相対強度、相対信号間隔およびパタ ーン認識ファクターが含まれる。 しかしながら、チベットの方法はクロマトグラフデータの量により制限される 。チベットの方法は塩基同定(「呼出し」)(base identifica tion(calling)”)システムを学習するクロマトグラフデータの再 現性にある程度依存している。したがって、クロマトグラフデータを発生する装 置はラン毎に一貫させてアルゴリズムを再学習することを回避する必要がある。 クロマトグラフデータは情報包含信号を不明瞭にする背景ノイズや泳動収差を含 むことが多いため、信号間隔に基づく分析により信号識別に誤差を生じることが ある。同様に、信号強度は予測不能に変動することが多い ため、強度に基づく信号識別によりやはり著しい同定誤差が生じることがある。 トーマスストックハムおよびジェフアイベスの米国特許(第5,273,63 2号)にはブラインドデコンボルーション(blind deconvolut ion)(“BD”)を使用する塩基同定の別の方法が開示されている。この発 明はその全体が本開示の一部としてここに組み入れられている。ストックハムお よびアイベスの方法はブラインドデコンボルーションを使用してクロマトグラフ データ内の情報包含信号を鮮明にするものである。しかしながら、この方法は下 記のように著しく限定される。第1に、それは走査したオートラジオグラム画像 データから引き出されるデータに依存する。第2に、この方法はBDフィルター バンド幅のユーザ入力およびプログラマーによるさまざまなしきい値に対する変 更を必要とする。第3に、ストックハムおよびアイベスの方法はレーン(lan e)毎の移動度(モビリティ)の違いを適切に処理しない。第4に、挿入/削除 および修正論理が単純すぎる。第5に、想定ピーク検出がしきい値に基づいてい るため、バンド振幅がしきい値よりも低下する場合にバンド検出を見逃すことが ある。第6に、ストックハムおよびアイベスの方法は隣接サンプルセグメントを 配列させ併合させる能力が欠けている。最後に、この方法には自動データルーテ ィングおよび/もしくは配列アセンブリに有用なバンド品質測度が欠けている。 II. 発明の要約および目的 本発明はクロマトグラフデータ内の情報包含信号の検出および分析方法および 装置を含んでいる。また、本発明はクロマトグラフデータ内の信号ピークを検出 して鮮鋭化する方法および装置も含んでいる。広範な分離プロセスからのクロマ トグラフデータを分析できることは本発明の利点である。限定はしないが、この ような分離プロセスにはゲルおよび毛管電気泳動が含まれる。 本発明は信号データを前処理し、連続するサンプルセグメントを読み出し、高 品質配列のブロックを選択し、次にアラインされた高品質配列のトレースを発生 するステップを含んでいる。クロマトグラフデータが多数のレーン内で分別(f ractionated)された単一フルオロ(fluor)サンプルおよび単 一レーン内で分別された多数のフルオロサンプルを含むことができることは 本発明の利点である。 背景ノイズのベースライン除去によりクロマトグラフデータを前処理する方法 を提供することが本発明の目的である。ベースライン除去(subtracti on)方法を分析されるクロマトグラフデータのタイプに従って変えられること は本発明の利点である。さらに、前処理中に希薄なクロマトグラフデータを補間 できることは本発明の利点である。 連続サンプルセグメント内の前処理された信号を読み出すことが本発明の目的 である。サンプルセグメントサイズを迅速かつ効率的に信号分析するのに十分な 大きさにできることは利点である。 クロマトグラフデータ内に均一に分布されていない情報包含信号を検出する方 法および装置を提供するが本発明の目的である。この分析技術は反復ブラインド デコンボルーションを使用してサンプルセグメント内のバンド周波数を求める。 前処理されたクロマトグラフデータ内の信号を最適に検出するように、フィルタ ーバンド幅を反復中に自動的に変えられることは本発明の利点である。1つ以上 の信号タイプ(例えば、“バンド−ライト(band−lite)”信号)が足 りないセグメントを有するクロマトグラフデータから引き出された信号データを 検出して修正することも本発明の機能である。 移動度差を検出して修正する方法および装置を提供することが本発明の目的で ある。バンド位置や間隔情報ではなくモンテカルロアライメントを使用して移動 度差を修正することは本発明の特徴である。モンテカルロアライメントが信号ア ライメントを最適化する反復プロセスであることは本発明の利点である。 ファジー論理を使用してバンド検出を改善することが本発明の目的である。各 ブロックが特定のデータ分析方法を提供するファジー論理ブロックを使用してバ ンド検出を実施することは本発明の特徴である。特定の分析機能に対して各ファ ジー論理ブロックを最適化できることが本発明の目的である。 オプションとして各信号に対する品質メジャー(measure)測度を提供 できることが本発明の目的である。後続するアライメントステップ中に品質メジ ャーを利用できることが本発明の特徴である。品質メジャーは所与の品質メジャ ーよりも上のデータについて引き続く分析を制限するための左右カットオフ点を 提供できることが本発明の利点である。 当業者ならば、添付図を参照しながら本明細書を読めば本発明のこれらおよび その他の目的、特徴および利点が自明であるものと思われる。 III. 図面の簡単な説明 図1は塩基呼出方法のフロー図。 図2は図1の前処理ステップのフロー図。 図3は図1の塩基読出しステップのフロー図。 図4は図3のエキストラ正規化(extra−mormalization) ステップのフロー図。 図5は図3のピーク検出および細分ステップのフロー図。 図6は図5のOmitOkNファジー論理ブロックのフロー図。 図7は図6のOKSpMembershipファジー論理ブロックのフロー図 。 図8は図6のOmitOkN Bad Spacing Membershi pファジー論理ブロックのフロー図。 図9は図6のOmitOkN Cross Bandingファジー論理ブロ ックのフロー図。 図10は図6のOmitOkN Heightファジー論理ブロックのフロー 図。 図11は図5のGapCheckファジー論理ブロックのフロー図。 図12は図11のGapCheck Gap Membershipファジー 論理ブロックのフロー図。 図13は図11のGapCheck Width Membershipファ ジー論理ブロックのフロー図。 図14は図4のモンテカルロアライメント機能のフロー図。 図15は図1のBaseQualファジー論理ブロックのフロー図。 図16は図15のBaseQual Height Membershipフ ァジー論理ブロックのフロー図。 図17は図15のBaseQual Cross Banding Memb ershipファジー論理ブロックのフロー図。 図18は図15のBaseQual Width Membershipファ ジー論理ブロックのフロー図。 図19は図15のBaseQual Shape Membershipファ ジー論理ブロックのフロー図。 図20は図15のBaseQual Baseline Buzz Memb ershipファジー論理ブロックのフロー図。 図21は図15のBaseQual OK Spacing Members hipファジー論理ブロックのフロー図。 図22は図2のBaseline Substractionアルゴリズムの フロー図。 図23は図1のPre−Processing Begin/End Det ectionのフロー図。 IV. 好ましい実施例の詳細な説明 本発明はクロマトグラフデータ内の情報包含信号の検出および分析方法および 装置を提供する。好ましい実施例では、本発明はオートラジオグラム、4レーン −単一フルオロ(four lane−single fluor)、および単 一レーン−4フルオロデータを含むさまざまなイメージング技術を利用するDN A配列分析機からのクロマトグラフデータを分析する。本発明は、さらに、発明 の方法を実施する一般的および専用装置を含んでいる。最後に、本発明は本発明 の方法と組み合わせる下記の構成要素の1つ以上を含むキットを含んでいる、D NA配列装置、信号検出装置、分析前、分析中および分析後のクロマトグラフデ ータを保存する情報記憶装置、および分析した配列情報をディスプレイする出力 装置。 DNA配列分析について、本発明の方法はDNA配列装置からの出力を入力と して取り入れ呼び出した各塩基に対する呼び出した配列、配列されたトレース、 およびバンドメトリクス(band metrics)を戻す。各サンプルセグ メントが読み出された後で、その呼び出した配列、配列されたトレース、および バンドメトリクスは予め読み出されたセグメントと連結される。ラダー全体が読 み出された後で、最終ステップにおいて呼び出した各塩基のメトリクスが分析さ れ品質値が割り当てられる。品質値は高品質配列の最大ブロックを識別(同定) して左右カットオフ値を確立するのに使用される。“プリアンブル”配列が利用 できる場合には、塩基呼出しソフトウェアは呼び出した配列内のプリアンブルを 捜し出してそれを越える左カットオフ値を設定しようとする。このようなプリア ンブル配列は収集データから除外されるプライマー配列や既知の配列を含むこと ができる。この後者のステップによりこのソフトウェアにより呼び出した配列が 最小量の人間の介在と結合される機会が改善される。 以下に本発明の方法の各機能の詳細な説明を行う。本発明の図示する実施例は 後述する有用な特徴の応用を例示するものであり、各実施例の下記の検討におい てこれらおよびその他の有用な新しい特徴がさらに参照される。これらの典型的 な実施例は本発明の方法を実施するのに必要な方法および装置の範囲を限定する ものではない。 図1において、塩基呼出しソフトウェアは最初に入力データセット101につ いて前処理ステップ102を実施する。前処理はスペクトル分離、背景除去およ び入力データセット101の補間を含むことができる。次に、前処理したデータ セット103はステップ104−106へ入り、前処理したデータの連続するサ ンプルセグメントが読み出される。サンプルセグメント104は効率的な信号分 析を提供する任意適切なサイズとすることができる。本発明の最も好ましい実施 例では、第1のセグメントは2048走査線サンプルである。後続するセグメン トも2048サンプルでちり、148サンプルが前のセグメントに重複している 。以下の説明は最も好ましいサンプルセグメントサイズに基づいているが、本発 明の範囲はそのセグメントサイズに限定されるものではない。 各サンプルセグメント104は最初に粗いバンド間隔を推定するために分析さ れる。その後、セグメント104は第2の時間において予測されたバンド間隔を 細分するために分析される。バンド間隔によりブラインドデコンボルーション中 に利用される再構成フィルターの選択が駆動される。バンド間隔およびバンド幅 は逆関係である。2048走査線のサンプルセグメントが2度読み出され(細分 化サンプルセグメント)その2048走査線セグメントについてそのバンド間隔 が測定されて正規化されると、2048サンプルの次のサンプルセグメントが読 み出される。次のサンプルセグメントは前のセグメントに148走査線(すなわ ち、およそ15ヌクレオチド塩基)だけ重複して隣接セグメントのフレームおよ び相対的位置決めを確立する。最終サンプルセグメント104に達するまで、後 続するセグメント104は同様に処理される。元のデータセットにおいて204 8よりも少ない走査線しか利用できない場合には、擬似ランダムノイズを発生し て必要な2048サンプルへサンプルセグメントを補充する。非ランダムノイズ はブラインドデコンボルーションおよびアライメントステップ中に不適切な処理 を生じるため、擬似ランダムノイズは好ましい。 全てのサンプルセグメントが処理される(2回読み出され、正規化されセグメ ントが配列される)と、処理され配列されたデータは3つのファジー論理ブロッ クにおいて分析される。ファジー論理では多値論理によりピーク検出が改善され る。ファジー論理を使用することにより、ギャツプは“幾分大きく”なり、バン ドは“それほど高くはなく”なる。また、ファジー論理により論理演算子(例え ば、AND,OR,NOT)が提供される。塩基呼出し方法における各論理ブロ ックはそのデータの特別な分析を提供する。論理ブロックは正規化された入力デ ータを処理し、バンドの近傍バンドに基づく絶対的および相対的基準に基づいて 各バンドを本質的に分類する。例えば、ファジー論理ブロック108は各塩基、 その上流コンテキストを分析して呼び出した各バンド(塩基アイデンティティ) へ品質値を割り当てる。品質値の割当てに続いて、ファジー論理ブロック108 は処理され配列されたデータ107内の高品質データの最大ブロックも識別する 。高品質データブロックに対する右左カットオフ点は記録され左右カットオフ点 として設定される。出力データセット109は完成したトレース、品質値を割り 当てられた呼び出した塩基および示唆された左右カットオフ点を含んでいる。出 力データセット109は、オプションとして、全てのバンドをほぼ同じバンド振 幅へ正規化するように視覚的に改善して視覚的に改善されないトレースの鋸歯の 様相を除去することができる。 A. 前処理 図2において、入力データセット201は2048x4トレースマトリクスで ある。最初のステップは前記背景信号を含む最初の走査線およびこのような信号 (トレース202a参照)を含む最終走査線について入力データセット201を 分析することにより開始および終了点を確立することである。プライマーピーク 等のアーチファクトによる大きい信号スパイクは除外される。 図23において、前処理開始/終了サブルーチンは信号振幅に基づいて開始お よび終了点を識別する。開始および終了点は後続操作に対して使用可能な信号を 定義する。典型的に、使用可能信号は最大最左信号振幅(いわゆるプライマーピ ーク)のすぐ左で始まり、サンプルセグメントデータ終りもしくは最大信号振幅 の別の領域に遭遇するまで続く。(典型的に、後者のピークはバイオストレプテ ーション(biostreptation)ピークと呼ばれる)。特に、ステッ プ2302から2305はサンプルセグメントをゾーンへ分割し各ゾーン内の最 大信号振幅を求めることにより想定開始および終了点を識別する。ステップ23 06は第2のプライマーピークが存在するかどうかを確認する。第2のピークが 存在すれば、ステップ2306は第2のプライマーピークに開始点を設定する。 ステップ2307および2308は開始および終了点の最終調整を行い、信号の 前半の平均よりも低い振幅の第1のサンプルへ開始点を設定し、終了点を終りか ら350サンプル設定し戻す。 図2において、次に前処理開始/終了データ202のベースラインがステップ 203で求められる。前処理開始/終了データ202の各フロオロについて単一 ベースラインが確立される。前処理開始/終了データ202からベースラインを 減じてベースライン除去データセット203が発生される。例えば、ベースライ ン除去の後で、局所化データセット207はベースライン除去データセット20 8となる。本発明のより好ましい実施例では、単一ベースラインは全レーンから のデータに基づいて確立される。それにより1レーン内の1ランの不十分に分解 能の塩基近くのベースラインが求められる。確実に共通ベースラインを有する2 つのフロオロは無いため、現在利用できるDNA配列データはこの実施例を不可 能にする。 図22において、ベースラインは前処理開始/終了2201のベースラインを 推定して確立することができる。実施例では、各トレースレーンは増大する指数 しきい値を使用して2回処理される。左から右へ1つのパスが行われ(1つのベ ースラインを確立する)(ステップ2202)、次のパスが右から左へ行われる (もう1つのベースラインを確立する)(ステップ2203)。2つのベースラ イン近似の幾何学的手段をとることにより、かなり自然な減数が作り出される。 (サンプルトレース2205および2206参照)。 増大する指数しきい値を使用してベースライン近似を確立するために、最初の 10サンプル内で見つかった最低点にしきい値が初期設定される。連続する各サ ンプルが考慮されると、上向きに緩やかに傾斜する指数によりしきい値が増分さ れる。サブしきい値サンプルに遭遇すると、前のサブしきい値点と現在の点との 間のベースラインが点間の線分として取り出される。しきい値は新しいサブしき い値サンプル値へリセットされプロセスは継続する。100サンプル後にサブし きい値点が見つからなければ、ベースラインの100点セグメントが計算され( ここでも、区分的に線形)、指数の増大率が増加する。指数は75サンプルのス パンにわたって最も最近のサブしきい点の振幅の1/3だけ増大するように計算 される。 ベースライン除去に続いて、ベースライン除去されたデータセット203は好 ましくはスペクトル分離または漏れ分離(leakage separate) される。このステップにより毛管電気泳動データの品質が著しく改善される。信 号対ノイズ比が2.0以下のスラブゲルについて、分離ステップ204によりデ ータ品質は著しく改善されて読出し不能データが読み出せるようになる。好まし くは、分離ステップ204は前処理中にユーザ入力なしで実施される。 4フルオロ単一レーンデータについて、ベースライン除去データセット203 がスペクトル分離されるっ単一フルオロ4レーンデータについて、データセット 203は漏れ分離される。いずれかの分離について、分離アルゴリズム204は 分離を実施するのに使用される特性マトリクス(CHM)を形成する。スペクト ル分離について、特性マトリクスは4フロオロデータ内のスペクトルクロストー クを捕捉する。漏れ分離について、特性マトリクスは隣接レーン内の信号に対す る問題とするレーンの中心の信号からの漏れの比率から発生される。毛管電気泳 動データについて、この比率は“ピーク中心”において測定される。スラブゲル データについては、特性マトリクスを発生するのに全データ点が使用される。 分離マトリクスは次式に従って計算される。 SST=inv(CHM*CHMT-1 ここに、CHMのカラムは各レーンに対する比率を保持している。比率は各カラ ム内の最大要素が1の値を有するように正規化される。分離204の結果として 分離されたデータセット204が得られる。 バンド当たり少なくとも8走査線(サンプル)を含む前処理されたデータ20 6について処理ステップ104−106が最適に実施される。バンド当たり走査 線数を増すために、ベースライン除去データセット203もしくは分離データセ ット204はオプションとして3次スプライン補間(cubic spline interpolation)205を使用してサンプル数を2倍もしくは3 倍に増すことができる。 B. 読み出し 図3において、例示した読出ステップは2048走査線のサンプルセグメント 301を分析する。各サンプルセグメント301は最初にブラインドデコンボル ーションを行って未知のローレンシアンブラーリング(Laurentian blurring)機能の影響を相殺してトレースの振幅を正規化する。ブライ ンドデコンボルーションは、本開示の一部としてここに組み入れられている、テ ィ.ジー.ストッカムおよびジェー.ジー.アイベスの米国特許(第5,273 ,632号)に記載されている。 本発明の方法にはストッカムおよびアイベスの方法を凌ぐ下記の改善が含まれ ている。最初の2048サンプルはフィルターバンド幅(“FBW”)値に対す る初期狭バンド推量によりブラインドデコンボルーションされる。狭バンド推量 は初期読取値がサンプルセグメントに沿ったバンド密度を過大評価しないように ものとされる。バンド密度の伝統的な推定値が与えられると、それに続くより適 したFBWが選択され、それを使用してセグメントが再読出しされる。各セグメ ントの第2の読出しについて選択されるFBWも引き続くセグメントの第1読出 しに使用されるFBWとして利用できる。最善FBWを求めるこの反復方法は実 際上非常に貴重であることが判っており、バンド密度はおよそ6サンプル/バン ドからおよそ50サンプル/バンドまで変動することができ、所与のラダー内だ けでなく配列ラン毎に行われる。本発明の実施例では、この方法は採択できる広 範な入力に適合することができる。 本発明の方法はブラインドデコンボルーション302中にフィルターバンド幅 (FBW)を選択する手段を含んでいる。実施例では、次式を使用してフィルタ ーバンド幅に中央バンド間隔がマップされる。 K=2*sqrt(ln(0.23)/−0.5) FBW=0.5+(K/med_band_spacing)* (2048/(2*pi)) ブラインドデコンボルーションステップ302は信号をデブラー(dblur )又は鮮明にしてその振幅を正規化する。続くブラインドデコンボルーションで は、エキストラ正規化機能303がサンプル内の移動度差によるバンド間隔を調 整する。また、エキストラ正規化機能303は特に1つ以上のレーンが拡張領域 に対してアークバンド−ライトであるモノ、ジもしくはトリ−ヌクレオチド反復 の領域において、ブラインドデコンボルーションがスプリアスバンドを生成する 傾向も修正する。 図4において、エキストラ正規化303はブラインドデコンボルーションによ り生成される2種のアーチファクト(artifacts)を修正する。パス4 06−410はバンド−ライトレーン内で生成されるアーチファクトを相殺する 。簡単にいえば、相対レーン信号強度および相対レーンバンド周波数を比較する ことによりブラインドデコンボルーションされたデータセット406がバンドー ライトレーンに対して走査される。レーン信号強度分析に使用されるプロクシ( proxy)はキャッシュレーンで見つけられる第97番パーセント点信号振幅 である。バンド周波数に使用されるプロクシは問題とするレーンが最大信号振幅 を有する信号の割合である。サンプルセグメント内の4つの全レーン内で見つか る全バンドの15%よりも少ないレーンであって、他のレーンに較べてバンド振 幅が低ければ、そのレーン内のバンドの振幅は減衰される。バンド振幅が最低で あれば、それらの振幅は半分に減衰される。最低よりも上のバンド振幅であれば 、振幅は元のバンド振幅の3/4まで減衰される。それとは対照的に、A,G, CおよびTの周波数が等しい理想的な配列データでは、各トレースは時間の25 %を占めなければならな1い。 エキストラ正規化パス401−403はレーン間の移動度差を修正して実際の バンド−ライト減衰404を実施する。簡単にいえば、ブラインドデコンボルー ション401は過大もしくは一致バンドにより任意の領域を識別するように分析 される。これらの領域はゼロ(ベースライン)に設定される。これらの領域がゼ ロに設定されなければ、モンテカルロアライメントアルゴリズム403はそれら を分離するように焦点を合わせた異常なアライメントを生じる。 図14において、移動度シフトはオートラジオグラフおよび特にゲルのエッジ 近くの単一フルオロ4レーンデータで最も顕著である。前記したストッカムおよ びアイベスの従来の方法では、バンド間隔をできる限りほぼ均一な値へ駆動して レーンをアラインするように試みるアルゴリズムが記載されている。適切にアラ イメントされないと、多くの真のバンドは他のバンドの蔭とされて検出されなく なるため、この方法は制限される。アルゴリズムは検出されたバンド間の間隔を 正規化しようと試みはしたが、データ内に存在する大多数のバンドしか知らない 。 本発明はバンド位置や間隔情報を使用しないアルゴリズムを使用する。本発明 では、ベースラインを共有する時のデータの4つのレーン全ての“包絡線”の積 分を最大にしようとする。x軸がAおよびGレーン間の関係を定義し、y軸がA G関係とCレーン間の関係を定義し、z軸がAGC関係とTレーン間の関係を定 義する3D空間のモンテカルロ探索を使用してアライメントが達成される。考え られるアライメントの初期集合(initialset)が選択され、各三つ組 (triple)がアラインされるトレースに適用され、得られる包絡線の積分 が計算される。次に、最大積分が得られる三つ組の部分集合(subset)が 細分される。最低積分を生じる三つ組は考慮する集合から除去される。それは最 大積分を生じる三つ組のランダム変更から得られる三つ組と置換される。最大数 の反復が生じるかあるいは高積分三つ組集合内の変動が適切な低い値に達すると 、最大を生じる三つ組が考慮するセグメントに対するアライメントベクトルとし て選択される。 特に、x軸がトレース1とトレース2間のオフセットを指定し、y軸がトレース12レジストリとトレース3間のオフセットを指定し、z軸が トレース123レジストリとトレース4間のオフセットを指定する3次元空間内 で探索が行われる(1401参照)。利用するアルゴリズムは元々The Co mputer Journal,Vol.20,No.4にダブリュエル.プラ イスが記載したものであり、本開示の一部としてここに組み入れられている。 最初に、1組の想定アライメント解1401が発生される。空間内の点周りの 6つの同心立方体の格子点のアドレスが初期アライメント解として使用される。 初めて手順が使用される時、同心立方体格子の中心点は原点(x0=0,y0=0 ,z0=0)である。後続する呼出しは格子を原点に中心合わせすることを継続 するか、もしくは格子を前のアライメント解(xn-1,yn-1,zn-1)に中心合 わせして探索をバイアスすることができる。 各アライメント推量は4値のシフトベクトルへ変換され、1つの値はゼロであ る。マトリクス内の各トレースはシフトベクトル内に指定された量だけシフトさ れ、シフトされたトレースの包絡線が得られ(トレースに沿った各位置で見つか る4つのトレース値の最大値)合計される。和はアライメント推量により作り出 される包絡線の積分を表す。低積分値は不十分なアライメントを表し(例えば、 1402参照、そこではバンドは“肩を並べて”配置されるのではなく他の後ろ に配列される)、高積分値は良好なアライメントに対応する(例えば、1407 参照、そこでは全バンドが完全に露呈され“肩を並べて”配置される)。 全てのアライメント推量が評価されると、最悪アライメント解が最善アライメ ント解1405の小さいランダム摂動(perturbation)により置換 される。新しいアライメント解が評価され、プロセスが繰り返され、新しい最悪 アライメントが新しい最善アライメントの摂動と置換される。最後に、3D空間 内の1組の点が最善アライメント解1406の周りに収束する。 図3において、続いてエキストラ正規化303、ステップ304、ピーク検出 および細分が行われる。次に、アラインされたトレースの想定ピーク検出が行わ れる。図5において、ブラインドデコンボルーション、エキストラ正規化データ セット501に想定ピーク検出502が実施される(無停止、減衰および相対移 動度修正)。トレース包絡線が最初に求められる。ストッカムおよびアイベスの 特許には基礎データから引き出されるしきい値により各トレース内のピークを別 別に検出することが記載されている。本発明の方法では、トレース包絡線はピー ク検出されしきい値は利用されない。ピークはその2つの近傍のいずれかよりも 高いサンプルとして自由に定義される。後続する処理はこの自由に定義された想 定ピークリストを抜粋する。このピーク検出形式はより高速(4ではなく1トレ ース)かつ誤差を受けにくい(サブしきい値ピークはない)。これに対して、ス トッカムおよびアイベスの特許では、そのアライメントアルゴリズムがピーク位 置情報を使用してレーンアライメントを求めようとするため、個別のトレースピ ーク検出を必要とする。 挿入誤差を含む想定バンド検出502における誤差を識別(同定)するために 、各想定ピークの瞬時間隔、クロスバンディング、高さ、および隣接バンドとの 間隔が測定される(ステップ503)。これらの観察された間隔測定値は二次曲 線に当てはめられる。この二次適合は全読出しセグメントに沿ったバンド間隔の 期待値として使用される。期待されるバンド間隔を定義するこの方法は、間隔が 極端に変化するセグメントだけでなく、ストッカムおよびアイベスの特許と同様 に、平均間隔が適切な期待値であるセグメントも処理するのに十分な汎用性であ る。本発明の方法では、削除の挿入および領域を十分識別(同定)するのにより 多くの情報が必要であることが判っており、その結果、本発明の方法は一連の挿 入および削除を除去することができる。 次に、3つのファジー論理ブロック504の最初のブロック、OmitOkN Fuzzy Logic、を使用してバンド検出プロセスの最尤挿入アーチフ ァクトであるバンドが識別される。このブロックは検出をOK,AMBIGUO US,もしくはOMITとして分類する。OMIT分類を与えた想定バンドは想 定ピークセットから除去される。図6において、各バンドはその属性601をい くつかをその第1の論理ブロックにより調べている。バンドがその近傍にいずれ かについてあるべきところにあれば、変数okSpが設定される(ステップ60 2)。 図7において、OmitOkN Ok Spacingファジー論理ブロック に対するメンバーシップ関数の目的は期待された間隔の整数倍である間隔測定値 を“受け入れる”ことである。したがって、観察された間隔は期待された間隔に 対するその関係を使用して〔0..1〕の間隔の値へ正規化される(ステップ7 02)。ブロック702に示す例では、0.3の正規化された間隔が0.7の真 値によりOKであることが判る(ステップ702および例704)。バンド移動 、圧縮、バンド形状(したがって、バンドピーク位置)、および他のファクター の経過が与えられると、期待された間隔が13である時にその近傍から17間隔 を取られたピークは理想的でも酷いものでもない。 図8において、OmitOkN Bad Scapingファジー論理ブロッ クについて、メンバーシップ関数の目的は期待された間隔の整数倍ではない間隔 測定値を“咎める”ことである。したがって、観察された間隔は期待された間隔 に対するその関係を使用して〔0..1〕の間隔へ正規化される(ステップ80 2)。ステップ802−03および例804に示す例では、0.3の正規化され た間隔が0.5の真値によりBADであることが判り、この間隔はそれほど良い 間隔ではない。 バンドがその近傍のいずれかに対してあるべき所になければ、変数abSpが “真”に設定される(ステップ603)。“クロスバンディング”の量(すなわ ち、読出セグメントの特別の領域に対する2つのバンドによる競合<compe tition>量)が高ければ、変数badXbが“真”に設定される(ステッ プ604)。同様に、クロスバンディングが無視できる場合には、変数negl Xbが“真”に設定される。図9において、クロスバンディングは検出されたバ ンドの基底にある走査線に対する競合量を指定する。疑わしい性質のバンドはそ の頂点がベースラインに近いため広範なクロスバンド比を有する。しかしながら 、有意振幅の圧縮および停止によりそれらのクロスバンディングを測定させるこ とができる。クロスバンディングメンバーシップ関数はOKもしくはAMBIG UOUSバンドを識別するのに最もよく使用される。提供した図では(例901 )、第1の複体(complex)は同じ位置を張り合う2つのバンドを有し、 2番目に大きいバンドは最大の半分の振幅である。クロスバンディング比(ステ ップ902)は次に大きいバンド、ここではXb=2、で除した最大バンドの振 幅である。1つのバンドは明らかに選択したバンドである第2の複体 では、この比率は無限大に近づく。クロスバンディング比が1.5であるステッ プ903の例では、badXbメンバーシップは0.25であり、ネグリジブル (negligible)Xbメンバーシップは1.0である、すなわち、1. 5の比率は無視できることが判るがバンドの正当性が問題となる。 バンド高さも極小かokか分類される(ステップ605)。図10において、 高さメンバーシップ関数に対して、メンバーシップ集合はデータを提供するマシ ンから観察される一般的な信号品質について最善にカスタマイズされる。実施例 では、バンドが交差する所で測定した振幅の中間(メデイアン)値の関数により 高さメンバーシップ関数中断点が求められる。特に、tinyHt関数は0.4* med_intersect_ptで中断し、1.1*med_interse ct_ptでゼロである。同様に、okHt関数は0.5*med_inter sect_ptでゼロとなり、1.5*med_intersect_ptで1 .0に平坦化される。ブラインドデコンボルーションプロセスはバンド振幅を〔 0..1〕間隔へ正規化し、大概のバンドは0.1を越える高さを有する。この 例は高さが0.07よりも低くなる時にその高さに基づいてバンドを咎め始める 点で典型的である。ステップ1002に示す例では、測定されたバンド高さは0 .1であり1.0のokHt内および0.0のtinyHt内にメンバーシップ を有している。この集合の例に従って、バンドは十分な高さを有する。 次に、これら6つの変数はファジー組合せ論理への入力となる。ファジー論理 の著しい利点はこれらの変数を含むルール間の矛盾を協調して除去できることで ある。OKとして分類されるバンドはクロスバンディングを無視することができ OK高さもしくはOK間隔を有するものである(ステップ606)。曖昧として 分類されるバンドは悪いクロスバンディングを示し、OK高さもしくはOK間隔 であり僅かな高さである(ステップ607)。典型的に、曖昧なバンドは十分な 振幅で正しく配置されるがクロスバンディングが著しいバンドである(ステップ 607)。明確な挿入として分類される、したがって省かれる、バンドは無視で きる高さを特徴とする(ステップ608)。通常クロスバンディング測定値が信 頼できないベースラインの非常に近くで挿入が行われるため、バンドを省くべき かを判断する時にクロスバンディングは考慮されない。 次に、ルールファイヤリング(rule firing)の強度を使用して出 力集合が校正又はスケール処理される(ステップ609)。図示する例では(6 10)、出力集合OKは振幅1.0で校正され、出力集合N(曖昧)は0.25 で校正され、集合OMITは0.0で校正される。逆ファジー化(defuzz ification)、すなわち出力ルール集合からきっぱりした(結論)値を 得る、ことは得られる“マス(mass)”の重心を計算して達成される。本例 では、バンドはOKであるという結論に達する(ステップ611)。 図5において、ファジー論理ブロック504に続いて、各ピークの瞬時間隔、 瞬時バンド幅、その左近傍への間隔(左間隔)、バンド幅および呼び出した塩基 が再測定される(ステップ505)。これらの観察されたバンド間隔は2次曲線 に当てはめられ、それは読出しセグメントに沿った期待された間隔として利用で きる。同様に、観察されたバンド幅測定値も2次曲線に当てはめられ、それは読 出しセグメントに沿った期待された間隔として利用できる。 次に、第2のファジー論理ブロック506、GapCheck Fuzzy Logic、はバンドもしくはバンド間のギャップを識別し、2次適合により予 測されるバンド間隔を達成するために1つ以上のバンドを挿入する必要がある。 このブロックは検出をNORMAL,SPLITもしくはSUFFERING FROM UPSTEAM TURBULENCEとして分類する。ギャップが 分裂され適切な数のバンドが挿入される(ステップ507)。SPLIT分類を 与えるバンドが適切な回数分裂され、分割点は分裂される間隔の重心である。重 心はSPLITバンドとその左近傍間の溝(trough)の底部ではなく、不 十分に規定されたバンドの肩部上に挿入を配置するのに使用される。サイズ間隔 および期待されたバンド間隔に応じて、1つ以上の挿入を作ることができる。各 挿入は規定されたBegin,MiddleおよびEnd走査線値を有する。 図11をより詳細に調べると、ファジー論理ブロックGapCheckにより 考慮される各バンド対は測定されるいくつかの属性を有している(ステップ11 01)。特に、期待された間隔曲線、曲線幅曲線、バンド幅、左ギャップ(最左 近傍とのギャップ)および配列が求められる。上流配列にはGC−リッチネスの 測度が割り当てられる(ステップ1102)。これらの測定値は左へ5バンドの 配列のGCリッチネスと結び付けると、左へ付加バンドを必要とするバンドの識 別に有益である。このギャップは期待された間隔に関して間隔[−1..無限大 ]上へ正規化される(ステップ1103)。あるべき所にバンドが配置されてい るかどうかを確認する(その絶対間隔には関係なく間隔曲線がどれだけ離れてい るかに焦点を合わせる)OmitOkN論理とは異なり、GapCheck論理 ブロックではバンドのその左近傍からの絶対距離が関心事である。ギャップが間 隔曲線の整数倍であれば(例えば、その左近傍から3間隔)、その左へ2つのバ ンドを挿入して適切な間隔を確立する。対内のバンド間のギャップの他に、この 論理はバンドの幅も考慮する。バンド幅は間隔[−1..無限大]上へ正規化さ れる(ステップ1104)。通常、バンド分解能が減少して観察されたトレース 内の領域に含まれるピークが所要数よりも少なければ、対内の一方もしくは両方 のバンドは本来の幅よりも広い。バンド間のギャップは限界に近くしてバンド幅 を決定要因とすることができる。最後に、大きいギャップおよびバンド幅は上流 GC−リッチネスの存在下ではより非攻撃的に調べなければならない。 バンド対内の各バンドの正規化された左ギャップは大(ステップ1105)、 中(ステップ1106)もしくは小(ステップ1107)として分類される。図 12はGapCheckバンドギャップメンバーシップ関数の詳細を示す。簡単 にいえば、メンバーシップ関数は期待値(egp)とは異なる場合の観察された ギャップ測定値(ogp)を特徴とする。ギャップはBnおよびBn-1間で測定さ れる(ステップ1201)。観察されたギャップは式ngp=ogp/egp− 1.0により間隔[−1..無限大]へ正規化される。ステップ1203の例で は、0.1の正規化されたギャップは全ての集合内に0.0メンバーシップを有 する、すなわち、ギャップは期待値に合致し小、中もしくは大ではない(ステッ プ1203)。 図11では、ステップ1108においてバンド対内の各バンドの正規化され幅 は大として分類される。図13はGapCheckバンド幅メンバーシップ関数 の詳細を示す。このメンバーシップ関数は期待値(ewd)を越える場合の観察 されたバンド幅測定値(owd)を特徴ずける。幅はBnの開始点および終了点 で測定される(ステップ1301)。ステップ1303の例では、0.2の正規 化されたギャップは0.2のBigWidth内にメンバーシップを有し、バン ドはその幅ではないが期待されたものよりも広い(ステップ1304)。 図11では、RULE NORM(ステップ1109)において、下記のいず れかが真であればバンドnはその左ギャップ分裂(spiit)が必要とマーク されることはない。 a)大きいギャップ(bigGapn)があるが上流配列はGC−リッチであ る、 b)対内の第1のバンドとのギャップは小(smlGapn-1)であり2つの バンドは広くない(!bigWidnおよび!bigWidn-1)(すなわち、バ ンド間ギャップは無視)、あるいは、 c)2つのバンド間ギャップは大ではない(!bigGapn)。 ステップ1110において、RULE SPLITは下記のいずれかが真であ ればバンドnをその左ギャップ分裂が必要であるとマークする、 a)2つのバンド間ギャップが大であり(bigGapn)第1および/もし くは第2のバンドが広い(bigWidn-1もしくはbigWidn)、あるいは 、 b)2つのバンド間ギャップが大であり(bigGapn)第1のバンドの左 のギャップは小ではなく(!smlGapn-1)上流配列はgc−リッチではな い(!gcrich)。 RULE SPLIT(a)は広いおよび正規のバンドの組合せを検出し(い ずれかの順序)、RULE SPLIT(b)は大きいギャップにより分離され る一続きの広いバンドを選択する。次に、ルールファイヤリングの強度を使用し て出力集合を校正又はスケール処理する(ステップ1111)。1112の例で は、出力集合NORMALは振幅1.0により校正され出力集合SPLTは0. 25で校正される。得られる“マス”の重心を計算して結論が形成される。11 12の例では、バンドはNORMALであるという結論に達する。 想定ピーク挿入誤差を識別するために、ステップ507においてクロスバンデ ィング、瞬時間隔、バンド高さ、バンド振幅、および隣接バンドとの間隔(左右 ギャップ)が再計算される。観察されたバンド間隔測定値は2次曲線でフィット されるか又はこれに当てはめられる。この2次適合は全読出しセグメントに沿っ たバンド間隔の期待値として使用される。次に、OmitOkN Fuzzy論 理ブロック(ステップ508)を使用してバンド検出プロセスの最尤挿入アーチ ファクトであるバンドが識別される。任意の全てのこのようなバンドが想定ピー ク集合から除去される。新たに提示される挿入はこのステップにおいて削除する ことができる。ファジー論理バンド細分ステージは、リーダーが信号脱落の2, 3の塩基領域に遭遇する時に、挿入および削除を低減して任意のバンド呼出しを 防止するという重要な利点を付加する。挿入検出の詳細については図6および添 付文を参照されたい。この処理を乗り切る想定ピークの集合は考慮する読出しセ グメントに対するバンドとして記録される(ステップ509)。 C. 処理およびアライメント 図1において、読出し機能104−106は全ての入力データセット101が 分析されるまでサンプルセグメントを連続的に処理する。各サンプルセグメント 104は所定の量だけ前のサンプルセグメントに重複するため、読み出されアラ インされた各サンプルセグメント106の相対的位置決めは既知である。ステッ プ107は読み出されアラインされた全サンプルセグメント106を組み立てて 、処理され再組立てられたサンプルセグメント107を形成する。 D. 後処理編集 本発明の実施例では、最終プロセスが1組の測定されたバンド特徴を第3のフ ァジー論理ブロック、BaseQualファジー論理ブロック109により分析 する。このブロックは品質測度を呼び出した各バンドへ割り当てる。このブロッ クはバンド高さ、幅、形状、左右ギャップ、クロスバンディングおよびベースラ イン“バズ(buzz)”に基づいて評価する。この品質値は間隔(0.0から 1.0)で後続する配列アライメント/併合(merging)ステップ中に使 用することができる。本発明は品質値を使用して他の配列とアライメントおよび 併合させて大きなDNA配列とすると考えられる高品質配列の最長ブロックを選 択する。左右カットオフ点を選択するアルゴリズムは表面を発生し、x軸にはM OVING AVERAGE FILTER WIDTHとラベルがつけられ、 y軸にはTHRESHOLDとラベルがつけられ、z軸にはREAD LENGTHとラベルがつけられる。品質値は6個の移動平均フィルターにより 濾波され、濾波されたデータは9つのしきい値と比較される。前記しきい値濾波 された品質値の最長隣接ブロックは特定のフィルター幅、しきい値対に対する表 面の読出した長さ値を与える。最後に、この表面は広域フィルターおよび低しき い値読出し長さにわたって狭域フィルターおよび高しきい値読出し長さが有利で あるように校正される。次に、表面最大z値が読出し長さとして選択され、関連 する前記最初および最後のしきい値濾波品質値指標は、それぞれ、左および右の カットオフ点として利用できる。このEDITステージに“プリアンブル”配列 が提出され、かつ確立された左カットオフ点を越えて配列が見つかる場合には、 カットオフ点はさらに左へ移されて“プリアンブル”配列は除外される。 図15において、BaseQualファジー論理アルゴリズムは呼び出した塩 基の品質を評価する。ある配列アセンブリアルゴリズムは正しくない配列の領域 を含む配列の組立てができず、他の配列アセンブリアルゴリズムは各塩基がその 品質(あるいは逆に、その誤差の確率)の品質を伴う場合しか配列の組立てをで きないことが経験から判っている。前者の場合、正しくない配列領域がアセンブ リプログラムにより考慮されなくされると、良好な配列の大部分がうまく組み立 てられる。後者の場合、低品質領域が識別されると、全体塩基呼出しプロダクト が組み立てられる。いすれの場合も、孤立して遭遇する正しくない配列は通常経 験のある技師により外観検査で識別される。このプロセスは時間を消費し単調で 微妙な誤差は検出されないことがある。しかしながら、一般的に正しくない塩基 呼出しは基礎データトレースが限界に近い所でなされる。 BaseQualルーチンは呼び出した各塩基の多数の特徴を測定および分析 することにより品質評価を自動化する(ステップ1501)。ファジー論理を使 用してあるバンドプレゼンテーションパターンを識別しそれらに品質のレベルが 割り当てられる。これらのバンド特徴にはバンド高さ、クロスバンディング、バ ンド幅、バンド形状、バンドの小ギャップおよびバンドの大ギャップが含まれる 。 バンド高さ変動は多くの分類において有益である。6つのファジー変数を使用 してバンドの高さが分類される[極小(tiny)、小(small)、中(m oderate)、正規(normal)、高(tall)および集約的に、 OK](ステップ1502)。BaseQual高さメンバーシップ関数の詳細 を示す図16では、メンバーシップ関数は観察されたバンド高さ測定値を特徴と する。“極小”もくしは“小”の高さを有するバンドは通常疑わしく、極小バン ドは単なる小よりもさらに疑わしい。中位高さのバンドおよび高いバンドも厳密 な調査が必要である。高いバンドはアミド(amid)停止、圧縮中に、スラブ ゲル、アヘチファクト(artifacts)上で見つかるために疑わしい。ス テップ1602の例では、0.18のバンド高さは1.0のNormalHei ght内にメンバーシップを有する、すなわちバンドの高さは公差内であること が判る(例1603参照)。 ステップ1503において、トレースの同じ領域に対する2つのトレースによ る競合の測度であるクロスバンディングも有益である。図17において、Bas eQualクロスバンディングメンバーシップ関数は観察されたバンドのクロス バンディング測定値を特徴とする。クロスバンディング測定値は支配的なトレー スの次の支配的なトレースに対する比率である。1.5よりも高い比率は無視で きるクロスバンディングと考えられ、より低い比率(考えられる最低比率は1. 0)は疑わしい。図1702の例に戻って、1.35のクロスバンディング比は 0.33のnegligibleXb内(および、否定!negligible Xb内の0.67)にメンバーシップを有することが判る。ステップ1504に おいて、バンド幅(観察されたバンド幅の2次適合(quadiatic fi t)に基づいて正規化された)はもう1つの有益な変数である。図18において 、BaseQualバンド幅メンバーシップ関数は、バンドの観察された幅が期 待されたバンド幅に対してて正規化される。メンバーシップ関数の目的は正規化 されたバンド幅がどれだけ正規であるかを確認することである。ステップ180 2の例では、0.2の正規化された幅は1.0の正規集合内にメンバーシッブを 有する(1803の例参照)。ステップ1505において、バンド形状、バンド の2次適合係数と理想的バンドの2次適合係数との間の線形相関係数は、異常な 形状のバンドを識別する。BaseQualバンド形状メンバーシップ関数は塩 基呼出しの品質を決定するのに有益である。ラン内で観察されるバンド高さと幅 の範囲は著しく変動する。1実施例では、サンプルレ ート変換により観察されたバンド幅が正規化され、バンド振幅は1.0に正規化 され、次に結果が理想的なガウス鐘(ベル)形状バンドと比較された。この方法 は計算費用が高くつき、観察された形状に関する多くの情報がモルフィング(m orphing)プロセスを介して放棄される。 より好ましい実施例では、各バンドの高さ値は2次曲線でフィットされるか又 はこれに当てはめられる。同様に、理想的バンド形状が2次曲線に当てはめられ る。 (理想的バンド形状は正規の高さおよび期待された幅を有するように規定 される)。この方法により各サンプル集合は同数の点へ換算される。これら2つ のサンプル集合の線形相関係数として形状メトリック(metric)が取られ る。この形状メトリックが0.5よりも小さければバンドの形状は“異常”であ ることが経験的に判っている。ステップ1902の例において、0.6の形状メ トリックは1.0のGoodShape内にメンバーシップを有することが判る (例1903参照)。 ステップ1506において、他の2つの比率の比として定義された“ベースラ インバズ(baseline buzz)”は呼び出したバンドの領域(ドメイ ン)に対するいくつかのトレースによる競合があるトレース領域リージョン(通 常は終端)を識別するのを助ける。トレースの限界(マージン)に向かってベー スラインは極めてビジー(busy)となることがあり、それが基礎(アンダー ライ)データの品質を処理してその上で読出しが行われると、疑わしくなる。ベ ースラインバズは正しくない信号処理、もくしは正しい処理を拒むほど誤差の多 い基礎データから生じる。いずれの場合も、呼び出した配列は疑わなければなら ない。図20において、バズ測定値が0.2よりも上であれば問題のある配列で あるシグナルが開始される。ステップ2003および例2004において、0. 28のバズ測定値は0.63のokBuz内(および否定!okBuz内の0. 37)にメンバーシップを有する。この場合、バンドの品質が間題となる。 ステップ1507において、バンドの左右近傍とのギャップはさらにバンド品 質の評価における情報を与える変数である。これらの測定値は、前の全ての努力 がその逆であるにもかかわらず、好ましい位置に近すぎるか遠すぎる位置に留ま るバンドを識別するのを助ける。BaseQualバンド間隔メンバーシップ関 数の詳細に関する図21において、バンドの観察された間隔が期待された間隔に 関して正規化される。メンバーシップ関数の目的は正規化されたバンド間隔がど れほど正規であるかを確認することである。ブロック2102および2103に 示す例では、0.2の正規化された間隔は0.1のOK Spacing内のメ ンバーシップにより無条件(unqualified)OKを受信する。 ステップ1508において、いくつかの変数[例えば、バズ(buzz)、幅 (width)、形状(shape)、および間隔(spacing)]の論理 的組合せがバンドへ品質値を割り当てるルールを追跡(tractable)可 能に維持するのを助ける。変数1Badは1つの測度が公差(トーレランス)外 であったことを示す。同様に、変数2Bad,3Badおよび4Badは2つ、 3つもくしは全ての測定値が公差外であることを示す。最後に、変数4Okは4 つの全ての測定値が公差内であることを示す。 続いて、一連の9つのルールを適用して品質評価が求められる。RULEQU AL10において、最低品質評価は高さが極小で不正確に配置位置づけされたバ ンドにより構成される(ステップ1509)。このルールにある程度一致するバ ンドについて、このルールは0付近に重心を有する出力集合へ非ゼロ校正値を割 り当てる(ステップ1519)。第2の品質評価、RULE QUAL20、は 短く、クロスバンディングの兆候を示し、不正確に配置されたバンドにより構成 される(ステップ1510)。このルールにある程度一致するバンドについて、 このルールは13付近に重心を有する出力集合へ非ゼロ校正値を割り当てる(ス テップ1519)。 第3の品質評価、RULE QUAL30、は高さが極小で不正確に配置され たバンドにより構成される(ステップ1511)。このルールにある程度一致す るバンドは25付近に重心を有する出力集合への非ゼロ校正値を割り当てられる (ステップ1519)。第4の品質評価、RULE QUAL40、は小もくし は中の高さを有しクロスバンディングの兆候を示すかあるいは3Badもくしは 4Bad属性を有するバンドにより構成される(ステップ1512)。このルー ルにある程度一致するバンドは38付近に重心を有する出力集合への非ゼロ校正 値を割り当てられる(ステップ1519)。 第5の品質評価、RULE QUAL50、は小もくしは中の高さを有しある 程度のクロスバンディングを示すかあるいは2Badもくしは3Bad属性を有 するバンドにより構成される(悪い属性が1つ少ない点で品質クラス4よりも幾 分良い)(ステップ1513)。このルールにある程度一致するバンドは50付 近に重心を有する出力集合へ非ゼロ校正値を割り当てる(ステップ1519)。 第6の品質評価、RULE QUAL60、はOK高さを有しベースラインバズ 、無視できないクロスバンディングの兆候を示すか、2Bad属性を有するバン ドへ適用される(ステップ1514)。このルールにある程度一致するバンドは 63付近に重心を有する出力集合へ非ゼロ校正値を割り当てる(ステップ151 9)。 より高度の品質を有するバンドは第7から第9の品質評価を満たす。第7品質 評価、RULE QUAL70、は3つの一般的クラスの中の1つのバンドから 構成されている(ステップ1515)。1つのクラスのバンドはOK高さ、僅か なベースラインバズ、無視できるクロスバンディングを有し、属性は2Badで ある。もう1つのクラスのバンドは無視できるクロスバンディングを示し、OK 高さを有し、ベースラインバズがなく、正しく配置されるが、幅が異常で形状が 悪い(runfilと呼ばれるこのクラスは分解能の悪いランのバンド内へバン ドが挿入されることを特徴とする)。最終クラスのバンドは4OK属性を有する が、高さが低く恐らくはあるパーセントのクロスバンディングを有する。このル ールにある程度一致するバンドは75付近に重心を有する出力集合へ非ゼロ校正 値を割り当てる(ステップ1519)。 第8品質評価、RULE QUAL80、はOK高さ、僅かなベースラインバ ズ、無視できるクロスバンディングを有するバンドにより構成されるが、属性は 1Badである(ステップ1516)。このルールにある程度一致する(多くが そうである)バンドは88付近に重心を有する出力集合へ非ゼロ校正値を割り当 てる(例1519)。最高品質評価、RULE QUAL90、は外観上絶対的 に何も悪くないバンドにより構成される(ステップ1517)。このルールにあ る程度一致する(やはり良い品質入力、多くがそうである)バンドは100付近 に重心を有する出力集合へ非ゼロ校正値を割り当てる(ステップ1519)。最 後に、他の全てのファジー論理ブロックと同様に、出力集合は各ルールファイヤ リングの強度により校正され、重心を計算して最終品質評価が求められる。 E. 最終配列アセンブリ BaseQual Fuzzy Logic分析からの最終品質評価は最終配 列109の長さを制御する。高品質配列データが所望される場合、品質評価決定 は最終配列の呼出し長さを制限することができる。長い呼出し長さが所望され、 低品質配列が受け入れられる場合、品質評価が支援できることは他の配列分析か ら得られる配列データを相関させることである。例えば、重複する配列が得られ る場合、品質評価はどの塩基呼出しがより信頼できるかを決定することができる 。同様に、DNAの両方のストランドを利用できる場合、品質評価はより高い確 率の塩基呼出しの同定を支援する。 F. 塩基呼出しソフトウェアのコンピュータによる実施 本発明による塩基呼出しソフトウェアはPentium−および486−内蔵 PC等の標準デスクトップコンピュータ上で実施することができる。プロセッサ がそれほど強力ではないコンピュータも適切ではあるが、各入力データセットに 対する全体処理時間は遅くなる。好ましくは、このようなコンピュータは少なく とも中央処理装置ダイナミックメモリおよび処理された情報を出力する装置を含 む。本発明による塩基呼出しソフトウェアはコンピュータディスケット、着脱自 在媒体、ハードドライプ、CD、磁気テープおよび同様な電子記憶手段を含む任 意適切な記憶媒体上に格納することができる。 本発明は数々の特定実施例と共に記載され図解されたが、ここに図解され記載 された発明原理から逸脱せずに修正変更が可能であることを当業者は理解するで あろう。 本発明はその精神または主要特性から逸脱せずに、他の特定形態で実施し得る 。上記実施例は全ての点で図解のためであって拘束するためではないと考えられ るべきである。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(GH,KE,LS,MW,S D,SZ,UG,ZW),EA(AM,AZ,BY,KG ,KZ,MD,RU,TJ,TM),AL,AM,AT ,AU,AZ,BA,BB,BG,BR,BY,CA, CH,CN,CU,CZ,DE,DK,EE,ES,F I,GB,GE,GH,HU,ID,IL,IS,JP ,KE,KG,KP,KR,KZ,LC,LK,LR, LS,LT,LU,LV,MD,MG,MK,MN,M W,MX,NO,NZ,PL,PT,RO,RU,SD ,SE,SG,SI,SK,SL,TJ,TM,TR, TT,UA,UG,UZ,VN,YU,ZW (72)発明者 マークス,アンディ,エフ. アメリカ合衆国84101 ユタ州,ソルトレ イクシティ,サウス ウエスト テンプル ナンバー 530,175

Claims (1)

  1. 【特許請求の範囲】 1. 未処理核酸配列データ内の塩基アイデンティティの決定方法であって、該 方法は、 未処理核酸配列データを含む未処理入力データを受信するステップと、 前記入力データを前処理して前処理されたデータを発生するステップと、 前記前処理データのブラインドデコンボルーションによりブラインドデコンボ ルーションされたデータを発生するステップと、 前記ブラインドデコンボルーションされたデータをエキストラ正規化してエキ ストラ正規化されたデータを発生するステップと、 ピーク検出手段を使用して前記エキストラ正規化されたデータ内のピークを検 出して処理されたデータを発生するステップと、 ファジー論理編集手段を使用して前記処理されたデータの品質を編集して呼び 出したヌクレオチド配列および前記呼び出した配列に対する少なくとも1つの品 質値を発生するステップと、 を含む塩基アイデンティティ決定方法。 2. DNA分子のヌクレオチド配列を決定する方法であって、該方法は、 DNA配列分析を行うDNA分子の泳動パターンを符号化して入力データを発 生する1組のレーン信号を与えるステップと、 前記入力データを前処理して前処理されたデータを発生するステップであって 、 開始および終了点を同定するステップと、 ベースラインノイズを除去するステップと、 分離マトリクスを使用して前記入力データをスペトル分離してスペトルクロ ストークを修正するステップと、 分離マトリクスを使用して前記入力データを漏れ分離してレーン漏れを修正 するステップと、 の少なくとも1つを含む前処理データ発生ステップと、 前記前処理されたデータのブラインドデコンボルーションによりブラインドデ コンボルーションされたデータを発生ステップであって、前記ブラインドデコン ボルーションは前記前処理されたデータ内の信号をデブラーリングして信号振幅 を正規化し、前記ブラインドデコンボルーションは反復フィルターバンド幅アル ゴリズムを使用するブラインドデコンボルーションステップと、 前記ブラインドデコンボルーションされたデータをエキストラ正規化してエキ ストラ正規化されたデータを発生するステップであって、 モンテカルロアライメントを使用して相対信号移動度差を修正するステップ と、 ブラインドデコンボルーションにより強調された信号を減衰するステップと 、 の少なくとも1つを含むエキストラ正規化データ発生ステップと、 前記エキストラ正規化されたデータ内のピークを検出してピーク検出データを 発生するステップと、 ファジー論理挿入検出アルゴリズムを使用して前記ピーク検出データ内の挿入 を同定し除去するステップと、 ファジー論理ギャップチェックアルゴリズムを使用して前記ピーク検出データ 内のギャップを同定して充填するステップと、 処理された配列データを発生するステップと、 を含む配列決定方法。 3. 未処理核酸配列データ内のDNA配列を同定する方法を実行するようにプ ログラムされたデジタルコンピュータシステムであって、該デジタルコンピュー タシステムは、 中央処理装置と、 ダイナミックメモリと、 データ出力手段と、を含み、 前記方法は、 未処理核酸配列データを含む未処理入力データを受信するステップと、 前記入力データを前処理して前処理されたデータを発生するステップと、 前記前処理データのブラインドデコンボルーションによりブラインドデコンボ ルーションされたデータを発生するステップと、 前記ブラインドデコンボルーションされたデータをエキストラ正規化してエキ ストラ正規化されたデータを発生するステップと、 前記エキストラ正規化されたデータ内のピークを検出してピーク検出データを 発生するステップと、 ファジー論理挿入検出アルゴリズムを使用して前記ピーク検出データ内の挿入 を同定して除去するステップと、 ファジー論理ギャップチェックアルゴリズムを使用して前記ピーク検出データ 内のギャップを同定して充填するステップと、 処理された配列データを発生するステップと、 ファジー論理編集手段を使用して前記処理されたデータの品質を編集して呼び 出したヌクレオチド配列を発生して前記呼び出した配列に対する少なくとも1つ の品質値を発生するステップと、 を含むデジタルコンピュータシステム。
JP10514017A 1996-09-16 1997-09-16 クロマトグラフ泳動パターンの分析方法および装置 Pending JP2001502165A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US2524196P 1996-09-16 1996-09-16
US60/025,241 1996-09-16
PCT/US1997/016933 WO1998011258A1 (en) 1996-09-16 1997-09-16 Method and apparatus for analysis of chromatographic migration patterns

Publications (1)

Publication Number Publication Date
JP2001502165A true JP2001502165A (ja) 2001-02-20

Family

ID=21824887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10514017A Pending JP2001502165A (ja) 1996-09-16 1997-09-16 クロマトグラフ泳動パターンの分析方法および装置

Country Status (5)

Country Link
US (1) US6208941B1 (ja)
EP (1) EP0944739A4 (ja)
JP (1) JP2001502165A (ja)
AU (1) AU4588297A (ja)
WO (1) WO1998011258A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5853979A (en) 1995-06-30 1998-12-29 Visible Genetics Inc. Method and system for DNA sequence determination and mutation detection with reference to a standard
US5916747A (en) 1995-06-30 1999-06-29 Visible Genetics Inc. Method and apparatus for alignment of signals for use in DNA based-calling
US6404907B1 (en) 1998-06-26 2002-06-11 Visible Genetics Inc. Method for sequencing nucleic acids with reduced errors
US6760668B1 (en) * 2000-03-24 2004-07-06 Bayer Healthcare Llc Method for alignment of DNA sequences with enhanced accuracy and read length
WO2002015107A2 (en) * 2000-08-14 2002-02-21 Incyte Genomics, Inc. Basecalling system and protocol
US7593819B2 (en) 2001-07-11 2009-09-22 Applied Biosystems, Llc Internal calibration standards for electrophoretic analyses
US6598013B1 (en) * 2001-07-31 2003-07-22 University Of Maine Method for reducing cross-talk within DNA data
AU2002329425A1 (en) * 2001-10-04 2003-04-14 Scientific Generics Limited Dna sequencer
US7222059B2 (en) * 2001-11-15 2007-05-22 Siemens Medical Solutions Diagnostics Electrophoretic trace simulator
DE10315581B4 (de) * 2003-04-05 2007-06-28 Agilent Technologies, Inc. (n.d.Ges.d.Staates Delaware), Palo Alto Verfahren zur Qualitätsbestimmung von RNA-Proben
JP3978193B2 (ja) * 2004-03-15 2007-09-19 ジーイー・メディカル・システムズ・グローバル・テクノロジー・カンパニー・エルエルシー クロストーク補正方法およびx線ct装置
WO2007035864A2 (en) * 2005-09-20 2007-03-29 Cell Biosciences, Inc. Electrophoresis standards, methods and kits
US20080035484A1 (en) 2006-07-10 2008-02-14 Jiaqi Wu Method and apparatus for precise selection and extraction of a focused component in isoelectric focusing performed in micro-channels
US10107782B2 (en) * 2008-01-25 2018-10-23 ProteinSimple Method to perform limited two dimensional separation of proteins and other biologicals
US9330148B2 (en) * 2011-06-30 2016-05-03 International Business Machines Corporation Adapting data quality rules based upon user application requirements

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4888695A (en) 1983-01-08 1989-12-19 Fuji Photo Film Co., Ltd. Signal processing method in autoradiography
US4868749A (en) 1983-01-08 1989-09-19 Fuji Photo Film Co., Ltd. Signal processing method in autoradiography
US4837687A (en) 1985-03-27 1989-06-06 Fuji Photo Film Co. Ltd. Method for analyzing an autoradiograph
US4941092A (en) 1985-05-23 1990-07-10 Fuji Photo Film Co., Ltd. Signal processing method for determining base sequence of nucleic acid
JPS6285861A (ja) 1985-10-11 1987-04-20 Fuji Photo Film Co Ltd 核酸の塩基配列決定のための信号処理方法
JPS6285862A (ja) 1985-10-11 1987-04-20 Fuji Photo Film Co Ltd 核酸の塩基配列決定のための信号処理方法
EP0240729A3 (en) 1986-03-05 1988-08-24 Fuji Photo Film Co., Ltd. Method of analyzing autoradiograph for determining base sequence of nucleic acid
US4885696A (en) 1986-03-26 1989-12-05 Fuji Photo Film Co., Ltd. Signal processing method for determining base sequence of nucleic acid
JPS62228165A (ja) 1986-03-29 1987-10-07 Fuji Photo Film Co Ltd 核酸の塩基配列決定のための信号処理方法
JPS63167290A (ja) 1986-12-27 1988-07-11 Fuji Photo Film Co Ltd オ−トラジオグラフ解析のための信号処理方法
JPH0664057B2 (ja) 1987-01-06 1994-08-22 富士写真フイルム株式会社 オ−トラジオグラフ解析のための信号処理方法
EP0478753B1 (en) 1990-04-06 1997-07-02 The Perkin-Elmer Corporation Automated molecular biology laboratory
US5119316A (en) 1990-06-29 1992-06-02 E. I. Du Pont De Nemours And Company Method for determining dna sequences
US5218529A (en) 1990-07-30 1993-06-08 University Of Georgia Research Foundation, Inc. Neural network system and methods for analysis of organic materials and structures using spectral data
US5098536A (en) 1991-02-01 1992-03-24 Beckman Instruments, Inc. Method of improving signal-to-noise in electropherogram
US5888819A (en) * 1991-03-05 1999-03-30 Molecular Tool, Inc. Method for determining nucleotide identity through primer extension
US5419825A (en) 1991-07-29 1995-05-30 Shimadzu Corporation Base sequencing apparatus
US5365455A (en) * 1991-09-20 1994-11-15 Vanderbilt University Method and apparatus for automatic nucleic acid sequence determination
US5502773A (en) * 1991-09-20 1996-03-26 Vanderbilt University Method and apparatus for automated processing of DNA sequence data
US5379420A (en) 1991-12-26 1995-01-03 Trw Inc. High-speed data searching apparatus and method capable of operation in retrospective and dissemination modes
US5400249A (en) 1992-03-27 1995-03-21 University Of Iowa Research Foundation Apparatus for assessing relatedness from autoradiograms
US5329461A (en) 1992-07-23 1994-07-12 Acrogen, Inc. Digital analyte detection system
US5273632A (en) * 1992-11-19 1993-12-28 University Of Utah Research Foundation Methods and apparatus for analysis of chromatographic migration patterns
WO1995005458A1 (en) 1993-08-12 1995-02-23 Perlin Mark W A system and method for producing maps and cloning genes therefrom
US5580728A (en) 1994-06-17 1996-12-03 Perlin; Mark W. Method and system for genotyping
DE4428658A1 (de) * 1994-08-12 1996-02-15 Siemens Ag Verfahren zur Erkennung von Signalen mittels Fuzzy-Klassifikation
US5741462A (en) * 1995-04-25 1998-04-21 Irori Remotely programmable matrices with memories
US5867402A (en) * 1995-06-23 1999-02-02 The United States Of America As Represented By The Department Of Health And Human Services Computational analysis of nucleic acid information defines binding sites
US5604100A (en) 1995-07-19 1997-02-18 Perlin; Mark W. Method and system for sequencing genomes

Also Published As

Publication number Publication date
WO1998011258A1 (en) 1998-03-19
EP0944739A1 (en) 1999-09-29
EP0944739A4 (en) 2000-01-05
US6208941B1 (en) 2001-03-27
AU4588297A (en) 1998-04-02

Similar Documents

Publication Publication Date Title
JP2001502165A (ja) クロマトグラフ泳動パターンの分析方法および装置
RU2411690C2 (ru) Способ и устройство отображения стереоскопического изображения, способ для создания данных 3d изображения из входных данных 2d изображения и устройство для создания данных 3d изображения из входных данных 2d изображения
JP4751495B2 (ja) 構造画像成分を識別する方法及び装置
JP2009516172A (ja) 合成画像を使用した生物学的特徴の発見
AU671984B2 (en) Method for identifying objects using data processing techniques
JP2000011170A (ja) 離散的ピクセル画像を強調する方法及び装置
JP4795359B2 (ja) 画像セグメンテーション
Lukac et al. A multichannel order-statistic technique for cDNA microarray image processing
US7656942B2 (en) Denoising signals containing impulse noise
JP2004038984A (ja) 補間画像フィルタ処理の方法及び装置
EP1529207A2 (en) Histological assessment
JP2015503763A5 (ja)
US7764820B2 (en) Multi-threshold peripheral equalization method and apparatus for digital mammography and breast tomosynthesis
US6963670B2 (en) CT dose reduction filter with a computationally efficient implementation
CN113034528B (zh) 基于影像组学的靶区及危及器官勾画轮廓准确性检验方法
CN111584002B (zh) 用于检测肿瘤突变负荷的方法、计算设备和计算机存储介质
CN116363126A (zh) 一种数据线usb插头焊接质量检测方法
KR100788642B1 (ko) 디지털 영상 텍스쳐 분석 방법
CN113256608A (zh) 工件缺陷检测方法和装置
JP4550398B2 (ja) 一連の画像に現れる物体の動きを表現する方法、一連の画像中の画像における物体の選択を識別する方法、画像に対応する信号を処理することによって一連の画像を探索する方法、及び装置
CN112258534A (zh) 一种超声图像中小脑蚓部的定位及分割方法
WO2001031321A2 (en) Information extraction from gel electrophoresis images
CN111951254A (zh) 基于边缘引导加权平均的源相机识别方法及系统
Yoon et al. Bayesian Inference for 2D gel electrophoresis image analysis
JP2002006474A (ja) マスクパターン画像処理方法