JP2004516455A - Methods, systems, and products for evaluating biological data - Google Patents

Methods, systems, and products for evaluating biological data Download PDF

Info

Publication number
JP2004516455A
JP2004516455A JP2002513951A JP2002513951A JP2004516455A JP 2004516455 A JP2004516455 A JP 2004516455A JP 2002513951 A JP2002513951 A JP 2002513951A JP 2002513951 A JP2002513951 A JP 2002513951A JP 2004516455 A JP2004516455 A JP 2004516455A
Authority
JP
Japan
Prior art keywords
algorithm
allele
quality
generating
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002513951A
Other languages
Japanese (ja)
Other versions
JP2004516455A5 (en
Inventor
ヘインズ ブリュー,
ヒュー ジェイ. パシカ,
ユンダン ルー,
デイビッド ピー. ホールデン,
Original Assignee
アプレラ コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アプレラ コーポレイション filed Critical アプレラ コーポレイション
Publication of JP2004516455A publication Critical patent/JP2004516455A/en
Publication of JP2004516455A5 publication Critical patent/JP2004516455A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Abstract

本発明に従った、方法、システム、および製品が、対立遺伝子コールを行うために提供される。特定の実施形態において、対立遺伝子コーリングは、いくつかの対立遺伝子コーリングアルゴリズムからコールを受信するコミッティマシンを提供することによって、達成される。複数の対立遺伝子コーリングアルゴリズムからのコールを受信することによって、このコミッティマシンは、種々の条件にわたって高い信頼水準を備えるコールを行う。特定の実施形態は、少なくとも二つのアルゴリズムおよび、少なくとも二つの対立遺伝子コーリングについての品質評価値を使用する方法を提供する。対立遺伝子コーリングのための独自の個々のアルゴリズムがまた、提供される。Methods, systems, and products according to the present invention are provided for making allele calls. In certain embodiments, allele calling is achieved by providing a committee machine that receives calls from several allele calling algorithms. By receiving calls from multiple allele calling algorithms, the committee machine makes calls with a high level of confidence over various conditions. Certain embodiments provide a method that uses a quality rating for at least two algorithms and at least two allele callings. A unique individual algorithm for allele calling is also provided.

Description

【0001】
(発明の分野)
本発明は、核の情報に値を割り当てるためのデータ方法およびシステムに関する。特定の実施形態において、この方法およびシステムは、対立遺伝子に値を割り当てるために使用される。
【0002】
(発明の背景)
核酸の情報を分析するための多くの技術が存在する。例えば、特定の技術は、遺伝的多型性の研究に関与する。多型は、集団内の異なる個体における、核酸配列の所定の部分における差異に関与する。このような多型は、核酸がタンパク質をコードしない領域で生じ得る。このような領域において、所定の短い配列の多数の反復がしばしば存在する。例えば、所定のジヌクレオチド(例えば、GCまたはCA)、トリヌクレオチド、あるいはより大きな反復単位の複数の反復領域が存在し得る。より大きな反復単位(反復モチーフ内のより多数のヌクレオチド塩基)は、しばしば、「ミニサテライト(minisatellite)」といわれる。より小さな反復領域(反復モチーフ内の1、2、3、4、5、または6ヌクレオチド)は、しばしば、「マイクロサテライト(microsatellite)」または「短直列反復(short tandem repeat)(STR)」といわれる。進化を通して、個体は、しばしば所定の遺伝子座での反復数が異なる。
【0003】
このような反復領域は、遺伝子マーカーとして役立ち得る。なぜなら、個体は、所定の遺伝子座(位置)または多くの遺伝子座(位置)での反復数が異なり得るからである。所定の遺伝子座での各々の異なる形態は、対立遺伝子として公知である。所定の位置でのこれらの差異は、多くの目的(このような個体の独特の遺伝的パターンに基く、遺伝物質からの個体の積極的な同定を含む)のために有用な遺伝子マーカーとして役立ち得る。
【0004】
また、個体間のバリエーションは、疾患または他の遺伝的状態の素因を示し得る。連鎖研究もまた、対立遺伝子の決定に関与する。
【0005】
従って、所定の遺伝子座での特定の対立遺伝子の積極的な同定に、多くの努力が集中されてきた。例えば、所定の遺伝子座でのジヌクレオチド反復の数を決定する方法は、問題の領域を増幅するためのPCRの使用を含む。サンプルにおける特定の遺伝子座の位置決めをし、そして増幅を開始するために、プライマーを使用する。増幅後、増幅された物質のフラグメント長を決定することによって、サンプルにおける所定の遺伝子座での特定の対立遺伝子を決定する。フラグメント長を決定することによって、その遺伝子座でのジヌクレオチド反復数を決定し得る。従って、その遺伝子座での特定の対立遺伝子が同定される。
【0006】
しかし、人為産物がこのプロセスにおいて生成され得、これにより所定の遺伝子座での実際の対立遺伝子の正確な決定が困難になり得る。これらの人為産物は、PCRのスタッター(stutter)の結果であり得、これは、研究する領域における反復ヌクレオチドの増幅での誤りから生じ得る。詳細には、PCR反応におけるポリメラーゼは、研究した核酸領域に存在する反復単位の1つ以上をスリップまたはミスし得る。さらに、余計なAヌクレオチドが、増幅の間に追加され得る。従って、PCRのスタッターおよび/または追加のAの変形が生じる場合、この増幅産物は、代表的に、正確な増幅された対立遺伝子だけでなく、対立遺伝子の反復単位の1つ以上を欠失したより短い反復もまた含む。実際、このデータは、種々の長さの複数のピークを示し得、ここでこのデータは、1つの長さのみを反映するべきである。
【0007】
対立遺伝子を決定するプロセスの種々の段階で、生成されたデータから得られる所定の対立遺伝子の結果において見極められる(placed)正確さおよび確かさのレベルを増加するような改善を提供することもまた、有用である。
【0008】
(発明の要旨)
本発明の特定の実施形態は、対立遺伝子コール(allele call)を行うための、コンピュータで実行される方法を提供する。特定の実施形態において、この方法は、以下を包含する:
核酸情報を表すデータを受信する工程;
少なくとも2つの異なる対立遺伝子コールアルゴリズムをこのデータに適用して、各アルゴリズムについての結果を提供する工程;および
各アルゴリズムの結果間の一致に依存して、このデータにおける対立遺伝子コールを同定し、そして各コールについての確かさのレベルを割り当てる工程。
【0009】
本発明の特定の実施形態は、対立遺伝子コールレポートを得るための、コンピュータで実行される方法を提供し、この方法は、以下の工程を包含する:
核酸情報を表すデータを受信する工程;
少なくとも2つの異なるアルゴリズムをこのデータに適用して、対立遺伝子コールレポートを提供する工程;
少なくとも2つの異なるアルゴリズムのうちの1つに基づいて、第一アルゴリズムの品質評価値を生成する工程;
少なくとも2つの異なるアルゴリズムのうちの他方に基づいて、第二アルゴリズムの品質評価値を生成する工程;
少なくとも第一および第二のアルゴリズムの品質評価値に基づいて、対立遺伝子コールレポートの品質評価値(quality value)を生成する工程;ならびに
生成された対立遺伝子コールレポートの品質評価値を考慮して、対立遺伝子コールレポートの正確さを推定する工程。
【0010】
本発明の特定の実施形態に従って、独特のコールアルゴリズムもまた、提供される。
【0011】
本特許書類は、カラーで作製された少なくとも1つの図面を含む。カラーの図面を含む本特許の謄本は、請求および必要な費用の支払いの際に、特許庁により提供される。
【0012】
特定の実施形態に従って、このシステムは、対立遺伝子コールレポートを生じる図46に示されるアルゴリズムの1つ以上を含み得る。
【0013】
(詳細な説明)
以下の本発明の詳細な説明は、添付の図面を参照する。本説明は、例示的な手段を含むが、他の手段が可能であり、そして本発明の精神および範囲から逸脱することなく記載の手段に対して変更がなされ得る。以下の詳細な説明は、本発明を限定しない。むしろ、本発明の範囲は、添付の特許請求の範囲によって規定される。可能な場合は常に、図面および以下の説明またはそれの一部を言及するために、同じ参照番号が、図面および以下の説明を通じて使用される。いくつかの文書が、本願を通じて議論される。これらの文書全てが、任意の目的のためにその全体が参考として本明細書中に特に援用される。出願人「Applera Corporation」、発明の名称「測定データと基準との間の一致を評価するための方法およびシステム」として挙げられる、発明者Heinz BreuおよびHugh J.Pasikaとして挙げられる、特許協力条約出願番号_____(割り当てられていない)(2001年7月23日出願)は、任意の目的に対して参考として援用される。
【0014】
以下の定義は、本願に使用される用語に対して提供される。
【0015】
「対立遺伝子」−対立遺伝子は、同じ座位における2つ以上の代替形態のうちの1つである。所定の座位に関して、二倍体生物は、ホモ接合体(2つの相同染色体の各々の上に同じ対立遺伝子を有する)であっても、ヘテロ接合体(2つの相同染色体の各々の上に異なる対立遺伝子を有する)であってもよい。非二倍体生物は、2つよりも多い対立遺伝子を有し得る。
【0016】
「対立遺伝子コーリング(allele calling)」−フラグメント分析が実行される場合、マーカーを含む核酸の領域は、対立遺伝子の局在を可能にする既知のプライマー部位と隣接する。例えば、対立遺伝子における変化は、異なるフラグメント長を生じ得る。従って、これらの対立遺伝子について、プライマー間の核酸配列の長さの決定は、対立遺伝子コーリングと称される。例えば、2つの対立遺伝子が存在する場合、異なる長さを有する核酸の2断片が存在する。
【0017】
「座位」−個々の核酸配列の位置(position)を規定する、特有の染色体位置(location)。
【0018】
「対立遺伝子シグネチャー(allele signature)」−PCR増幅の間に、PCRのスタッターがしばしば生じ、このスタッターは、予想パターン中に出現するさらなるピークを生じる。生じ得る他の人為産物は、+Aのひずみである。本来の信号、スタッター、および他の人為産物の組み合わせが、対立遺伝子シグネチャーと称される。
【0019】
「マーカー」−マーカーは、ゲノム中の目印として考えられ得、そして核酸の非コード領域中に出現し得る。連鎖マッピングにおけるこれらの使用は、これらの多型から生じる。多くの異なる型のマーカーが存在する。
【0020】
「アルゴリズム」−アルゴリズムは、結果を達成するための1つ以上の工程のプロセスである。本願において、用語「コンポーネント」は、用語「アルゴリズム」と交換可能に使用される。
【0021】
他に詳細に示されない限り、本願における単数形の使用は、複数形も同様に含む。例えば、用語「アルゴリズム(単数形)」の使用は、少なくとも1つのアルゴリズムを含むが、1つより多くのアルゴリズムを含み得る。
【0022】
(システム)
特定の実施形態に従って、システムは、図46に示されるフローチャートに示されるアルゴリズムまたはコンポーネントのうちの1つ以上を含む。以下の節は、このフローチャートに示される各アルゴリズムを議論する。特定の実施形態において、システムは、図46の中のアルゴリズムの全てを含む。特定の実施形態において、システムはこれらのアルゴリズムの全てを含むわけはない。特定の実施形態において、システムは、図46に示される1つ以上の先のアルゴリズムに既に供された情報を獲得し得、次いで、図46に示される1つ以上の続くアルゴリズムを続行する。例えば、システムは、オフスケール(offscale)およびマルチコンポーネント化(multicomponenting)プロセスまたは類似のプロセスに既に供された情報で開始し得、次いで、フローチャート中に示される引続くアルゴリズムのうちの1つを続行する。特定の実施形態において、システムは、アルゴリズムから得られる情報を別のシステムに提供し得、次いで、この別のシステムが、結果を得るためにその情報を使用する。
【0023】
特定の実施形態において、システムは、自動化スコアリングまたはDNAフラグメントのサイジングを可能にする。特定の実施形態において、これらのフラグメントは、主としてマイクロサテライトであるが、他のマーカー(例えば、アメロゲニン(amelogenlin)、snpマーカー)が使用され得る。これらのマーカーからのスコアは、種々の適用に使用され得る。このシステムの特定の実施形態についての2つの例示的な適用(限定ではない)は、連鎖マッピング(Linkage Mapping)およびヒト認識(Human Identification)(HID)についてのデータベース化である。
【0024】
連鎖マッピングの特定の実施形態において、関連する個体の多数のサンプルからの対立遺伝子コールは、目的の遺伝子が存在するDNA領域を規定するために使用される。
【0025】
ヒト認識(HID)の特定の実施形態において、マーカーセットについての遺伝子コールは、個体についてのプロフィールを形成する。これは、データベースに保存され得、そして犯罪に対する嫌疑を一致させるために犯罪現場から得られたプロフィールと比較され得る。個体のプロフィールはまた、父性を決定するために使用され得る。
【0026】
本発明と一致する特定の実施形態に使用され得るアルゴリズムおよびプロセスの以下の説明は、特定の所望の結果を得るために適用され得る特定のアルゴリズムの議論を含む。便宜上、特定の名称が、これらのアルゴリズムを参照するために選択されている。しかし、本発明と一致するシステムおよび方法は、開示されるアルゴリズムに限定されない。これらのシステムおよび方法は、同じ結果または類似の結果を提供する他のアルゴリズムを含み得る。
【0027】
(オフスケール検出)
特定の実施形態において、システムは、オフスケール検出アルゴリズムを含む。特定の走査数についての任意のフィルタにおけるデータ(例えば、蛍光信号)が設定最大値よりも大きい場合、オフスケール検出アルゴリズムは、この位置(走査数)をオフスケールとして処理する。従って、その走査数のそのデータにフラグを立てる。特定の実施形態において、オフスケール検出は、データ収集プロセスにおいて実行される。このような実施形態および特定の他の実施形態において、システムは、オフスケール検出を実行する必要はない。
【0028】
(マルチコンポーネント化)
特定の実施形態において、システムは、サンプルファイルについてのマルチコンポーネント化コンポーネントを含む。マルチコンポーネント化アルゴリズムは、光学的にフィルタを通過したデータを色素(day)濃度データに変換するプロセスである。例えば、生のデータは、重複する異なる色の色素の蛍光を含み得る。マルチコンポーネント化は、異なる色素由来の信号が他の各色素由来の信号と干渉しないように、このような信号を精製する。特定の実施形態において、マルチコンポーネント化プロセスは、サンプルファイルからの行列値の読込みを取り、そしてこれを生の信号に掛けて、マルチコンポーネント化信号データを得る。
【0029】
例えば、特定の実施形態において、生のデータ信号Fは、装置によって使用されるf光学フィルタの各々からの応答を提供するf−タプルのリストである。この情報は、各色素の濃度を提供するd−タプルのリストDに変換される。このように実行されるために、システムは、化学測定行列Mを提供する(ここで、D=FMである)。従って、このシステムは単に、フィルタ応答のベクトルに化学測定行列を掛ける。
【0030】
特定の実施形態において、マルチコンポーネント化は、データ収集プロセスにおいて実行される。このような実施形態および特定の他の実施形態において、システムは、マルチコンポーネント化を実行する必要はない。
【0031】
(ベースライン処理)
特定の実施形態において、システムは、ベースラインアルゴリズムを含み、このベースラインアルゴリズムは、信号からの特定のベースラインシフトを差し引く。特定の実施形態において、ベースラインシフトは、不能の操作状態(例えば、温度変動またはローディング状態における差異)によって生じ得る。例えば、ベースラインシフトは、キャピラリーを使用する場合に異なる圧力で生じ得るか、またはキャピラリーをローディングする場合に異なる容積で生じ得る。
【0032】
特定の実施形態において、ベースラインアルゴリズムは、3つのパラメーター(ウィンドウサイズ、スムースサイズおよびスパイクサイズ)を使用する。特定の実施形態において、システムは、スムースサイズを−1(スムージングなし)に、およびスパイクサイズを21に固定する。特定の実施形態において、システムは、異なる装置について異なるウィンドウサイズを使用する。例えば、Applied Biosystems 310装置および377装置について、システムは、ウィンドウサイズに99を使用し、Applied Biosystems 3700装置について、システムはウィンドウサイズに251を使用する。
【0033】
特定の実施形態において、ベースラインアルゴリズムは、ノイズの下に乗る頴底部のベースラインおよびノイズの上に乗る頂部のベースラインを見出す。このベースラインアルゴリズムは次いで、この2つを平均化する。
【0034】
特定の実施形態において、ベースラインアルゴリズムは、信号中の最小値および最大値を見出すことによって作動する。特定の実施形態において、ベースライン処理コンポーネントは、x点についてウィンドウサイズ k=2k+1において、最大信号値であるlocalVectorMaxを規定する。
【0035】
【数1】

Figure 2004516455
パラメーターkは、「ベースラインウィンドウサイズ」と呼ばれる。同様に、ベースライン処理コンポーネントは、x点についてウィンドウサイズ2k+1において、最小信号値であるlocalVectorMinを規定する。
【0036】
【数2】
Figure 2004516455
特定の実施形態において、これらの演算子は、オーバーローディングされて、最小値ベクトルおよび最大値ベクトルを提供する:
【0037】
【数3】
Figure 2004516455
特定の実施形態において、信号をベースライン処理するために、信号において、フラグメントピークのような「有用な情報」を排除する。例えば、構造がk=101単位を超えて伸びると仮定すると、所定の点において効力のあるベースラインが、このウィンドウの範囲内であるべきである。
【0038】
特定の実施形態に従って実行される実施例は、図19〜23に示される。図19において、信号は、構造を含まず、一定して傾斜したベースラインを有する。特定の実施形態において、ベースラインアルゴリズムは、広範囲にわたって信号に手をつけないままにするべきである。しかし、図中のlocalVectorMinの効果も考慮すること。これは、信号から多く取りすぎる。
【0039】
ポジティブな構造は、図20に示されるように、以下:
【0040】
【数4】
Figure 2004516455
を実行することによって排除され得る。青で示される生じる底部のベースラインは、なおもいくつかのネガティブな構造を保持する。特定の実施形態において、このような構造は、いかなる有意な距離にわたっても少しでも超えるべきではなく、そしてより狭いウィンドウサイズ(例えば、サイズσ=21(すなわち、スパイクサイズ))を用いて排除され得る。
【0041】
【数5】
Figure 2004516455
結果は、図21に青で示される。
【0042】
特定の実施形態において、バックグラウンドノイズの「中間部」を通過するベースラインが望まれる場合、頂部のベースラインおよびこれら2つの平均を計算し得る。特定の実施形態において、頂部のベースラインを計算するために、ネガティブなピークを最初に排除し、次いで、ポジティブなピークを排除する:
【0043】
【数6】
Figure 2004516455
図22は、緑で頂部のベースライン、青で底部のベースライン、および黒で平均のベースラインを示す。図23に示されるように、信号からベースラインを差し引きすることによってベースラインを取り除くことは、システムにとって簡単な問題である。
【0044】
特定の実施形態において、ベースライン処理ウィンドウサイズは、ユーザによって設定可能である。特定の実施形態において、当業者は適切なウィンドウサイズを入手し得る。特定の実施形態において、小さすぎるウィンドウは、非常に密接してピークの跡をつけ、その結果、ベースラインのピークが短く現れる。特定の実施形態において、大きすぎるウィンドウサイズは、ベースラインバリエーション(例えば、プライマーピークのテイル)の跡を十分に密接させず、その結果、ベースラインのピークは、高く現れ、そして分解に不十分である。
【0045】
(ピーク検出)
特定の実施形態において、このシステムは、ピーク検出アルゴリズムを用いる。このようなアルゴリズムによって、作成されたデータのどこに実際のピークが存在するかの予測が補助される。特定の実施形態において、このようなアルゴリズムは、以下の4つのパラメータを使用する:次数、ウインドウ幅、tauB(ピークが開始する最小傾斜)、およびtauE(ピークが終わる最小傾斜)。特定の実施形態において、このシステムは、以下を用いる:次数が3、ウインドウ幅が99、tauBが0.0、そしてtauEが0.0。特定の実施形態において、このシステムは次数2を用いる。
【0046】
特定の実施形態において、このアルゴリズムはまた、以下の2つのさらなるパラメータをとる:最小ピーク高さおよび最小ピーク幅(最大半分での全幅)。特定の実施形態において、このシステムは、これらの2つのさらなるパラメータを用いて、ノイズピークを除去する。このような実施形態において、ピーク(その高さが最小ピーク高さより低いか、または最大半分での全幅が最小ピーク幅よりも狭い)が、フィルタリングプロセスに入れられる。特定の実施形態において、このシステムは、最小ピーク幅を2(走査数)に固定する。最小ピーク高さについて、特定の実施形態において、このシステムは以下の2つの選択肢を提供する:自動決定およびユーザ特定。自動決定様式において、特定の実施形態では、このシステムは、ベースラインのアルゴリズムを用いて、ノイズレベルを算定し、そして最小ピーク高さは、ノイズレベルの高さの10倍に選択される。特定の実施形態において、上記で考察された特定のベースラインアルゴリズムを用いることができる。ユーザが特定する様式において、特定の実施形態では、ユーザが、青/緑/黄/赤/オレンジ(橙)の色素について最小ピーク高さを特定する。
【0047】
当業者は、特定の実施形態では、使用される特別な装置によって作成されるデータに関する適切な次数およびウインドウ幅を決定することができる。
【0048】
特定の実施形態において、サイズコーリングピーク検出器は、Savitzky−Golay検出器と呼ばれる。
【0049】
ピークは、信号中で極大である。このピーク検出器は、一次導関数において正から負へのゼロ交差を見出したとき、ピークを検出する。図24は例を示す。この位置は、図25に示すように、(一次関数の計算に起因して)ピークの最高点とは異なることに注意のこと。特定の実施形態において、ゼロ交差をピーク位置として用い得、そして特定の実施形態において、最高点をピーク位置として用い得る。
【0050】
Savitzky−Golay検出器は、2つのユーザ特定パラメータ(負でないTBおよび正でないΓ)を用いて一次導関数の立ち上がり端部の閾値によってピークの開始と終わりを評価する。特定の実施形態において、Γは「ピーク開始の傾斜閾値(Slope Threshold for Peak Start)」と呼ばれ、そしてΓは「ピーク終わりの傾斜閾値(Slope Threshold for Peak End)」と呼ばれる。この検出器は、ピーク位置の左へ検索することによってピークの開始を見出す。ピークが開始したところで、一次導関数は負から正へΓと交差する(越える)。この検出器は、ピーク位置の右へ検索することによってピークの終わりを見出す。ピークが終わるところで、一次導関数はまた、負から正へΓと交差する(越える)。このピークが対称(例えば、ガウシアン)である場合、図26に例示されるように、代表的に|Γ|=|Γ|である。
【0051】
一方では、このピークが対称(例えば、指数関数的に改変されたガウシアン)である場合、対称性の開始条件および終了条件を設定することにより、図27に示されるように、意外な結果が生じ得る。この場合、代表的には、図28に示されるように、非対象の終了基準を設定する。しかし、特定の実施形態において、単に、Γ=Γ=0であると設定することで十分であり得る。なぜなら、バックグラウンドノイズによってさらに細かい値が不可能であり得るからである。
【0052】
このピーク検出器は、以下のとおり、幅がkのSavitzky−Golay「ウインドウ」を用いて、一次導関数を計算する。図28においてx=30で一次導関数が望ましいと仮定する。図29は、赤で印された領域を拡大する。このアルゴリズムは最初に多項式曲線をkデータにあてはめる。
【0053】
例えば、赤い曲線は、5ポイントに対して二次方程式適合であり、緑の曲線は、三次方程式適合である。次いで、このアルゴリズムは、この曲線を区別し、そしてx=30で導関数を推定する。この場合、二次方程式からの一次導関数は、x=30でほぼ0であり、一方、三次方程式由来の一次導関数は、基礎にある信号をさらに近くに近似させることに注意のこと。
【0054】
Savitzky−Golay技術は、あらゆるウインドウに対して曲線に適合させる必要なく、この導関数を計算し得る(W.H.Press,B.P.Flannery,S.A.Teukolsky,およびW.T,Vetterling,General linear least squares,In Numerical Recipes in C,第14.3章、第528〜539頁、Cambridge University Press,1988)。特定の実施形態において、「多項式次数(Polynominal Degree)」と呼ばれるパラメータdは、使用される多項式の次数を決定する。
【0055】
特定の実施形態において、わずかな特別の場合の用途において、二次(d=2)を使用する。特定の実施形態において、三次(d=3)を使用する。なぜなら、これは、図30に例示するように、小さい「ライダー(rider)」ピークに完全に従うからである。特定の実施形態において、d=4を用いる。
【0056】
ウインドウサイズkは、この検出器の管理パラメータである。特定の実施形態において、期待される(最大ではない)全ピーク幅の最大半分(FWHM)の1.5倍にkを設定する。kの効果は、ノイズの存在下で明白であり得る。図31は、赤色曲線としてk=5で、そして緑曲線としてk=21で算出した一次導関数を示す。特定の実施形態において、Savitzky−Golay技術は、スムージングの一種であり、平滑曲線を生じるkのさらに大きい値を用いる。特定の実施形態において、Savitzky−Golay技術は、平均化によるスムージングに比べて、ピークを(最大値を低下することによって)下げることを強制せず、そして(端部をあげることによって)外へはずすことを強制しない。
【0057】
特定の実施形態において、大きい値のkは、分離されたピークを効果的に追跡するが、それらは、完全に分離されていないピークを無力にし得る。図32において、アルゴリズムは、k=5について3つのピークを検出するが、k=21については1つだけである。
【0058】
特定の実施形態において、先鋭なコーナーがこのアルゴリズムにおいて人為的結果を生じ得る。図33における断ち切られた曲線は、単一のピークとみるべきである。しかし、d=3およびk=5を用いて(ここで、Γ=5、そしてΓ=−5)、偽のゼロ交差が見られ得る。
【0059】
これらの人為的結果を回避するため、特定の実施形態において、検出を望むFWHMの特徴より大きいkを設定する。例えば、図34は、k=11の効果を示す。
【0060】
先鋭なコーナーの人為的結果を除けば、特定の実施形態において、Savitzky−Golay検出器は、明白な谷がピークを分離する場合にのみ、複数のピークを検出する。例えば、このような実施形態において、図35では、検出器は、1つのピークしか検出しない。
【0061】
しかし、このピークは、ショルダー部分を有する。特定の実施形態において、当業者は、二次導関数を検討することによってショルダーを見出すピーク検出器を有し得る。特定の実施形態において、このアルゴリズムは、類似であるが異なる左側および右側の盛り上がったショルダー(bank shoulder)を検出する。左側の盛り上がったショルダーについて、一次導関数は、正であり、そしてゼロを越える(交差する)(これによってピークを生じる)ように「試み」ている。ショルダーの位置は、正の一次導関数における極大によって印される。このアルゴリズムは、二次導関数の負から正へのゼロ交差を見つけることによってこの位置を見出す。ショルダーの開始は、傾斜が非常に急に増大することを(ショルダーに備えて)停止する(すなわち、二次導関数における極大による)ポイントである。ショルダーの終わりは、同じ条件で(ピークまたは別のショルダーに備えて)印される。図36は、小さい円でこれらの3つの位置(ショルダーの開始、ショルダーの位置、およびショルダーの終わり)を印す。
【0062】
右側の盛り上がったショルダーについて、一次導関数は、負であり、そしてゼロ交差する(これによってピークを生じる)ように「試み」ている。ショルダーの位置は、負の一次導関数における極大によって印される。このアルゴリズムは、二次導関数の正から負へのゼロ交差を見つけることによってこの位置を見出す。ここでも、ショルダーの開始および終わりは、二次導関数における極大によって印される。図37は、小さい円でこれらの3つの位置(ショルダーの開始、ショルダーの位置、およびショルダーの終わり)を印す。
【0063】
図38におけるプロットは、特定の実施例に従う、ピーク検出器のショルダー検出の最終結果を示す。
【0064】
特定の実施形態において、一旦ピーク検出器が、全てのピークが一次導関数の解の中であることを見出せば、この検出器はユーザの規定した最小の高さおよび幅の制限を満たすピークのみを選択する。ピークの高さは、その開始からその終わりまでの最大信号値である。特定の実施形態において、ピーク検出アルゴリズムは、ピークの高さが少なくともその色素についてのピーク振幅閾値の高さである場合にのみ、ピークを報告する。特定の実施形態において、青、緑、黄色、赤、およびオレンジ(橙)の色素の閾値は、それぞれ、「B:」、「G:」、「Y:」、および「R:」、および「O:」と呼ぶ。
【0065】
特定の実施形態において、ピーク検出アルゴリズムは、ピークの幅が少なくともそのピーク幅閾値の幅である場合にのみ、ピークを報告する。特定の実施形態において、この閾値は、全ての色素について同じである。
【0066】
(ピーク領域)
一旦検出されれば、ピーク検出アルゴリズムは、ピークの開始からその終わりまでの(ベースラインの)蛍光値の合計であるピークの面積を測定する。これは、ピークの多くが上にあるベースラインよりも下にある場合、負の面積を生じ得ることに注意のこと。特定の実施形態において、終点の補整(平均化)を用いてベースラインを平坦化し得る。
【0067】
特定の実施形態において、当業者は、ピーク検出器のピーク幅および検出閾値を評価可能である。
【0068】
(サイズ標準適合)
特定の実施形態では、サイズ標準適合アルゴリズム(これは、「サイズ標準マッチャー」または「サイズマッチャー」とも呼ばれ得る)を使用する。このようなアルゴリズムは、標準サンプルで作成したデータを、標準的なサンプルに存在するはずの実際のサイズへ適合させる。例えば、ヌクレオチド長110、114、117、120、および125を有する標準サンプルを使用し得る。標準的サンプルを実行し、そしていくつかのデータピークを得る。このサイズ標準適合アルゴリズムは、5つの公知のヌクレオチド長に相当するピークを予想する。従って、引き続いて、これらのピークに対してサンプル中のデータを比較して、サンプル中のフラグメントのヌクレオチド長さを決定し得る。
【0069】
特定の実施形態において、サイズ標準適合アルゴリズムは、以下の3つのパラメータを含む:比率(ratio factor)(ピーク高さの重要性 対 局所直線性の重要性)、最小合格品質(acceptable quality)(動的なプログラム反復を終わらせるために用いる)、および余分なピークの数(サイズ適合において予想されたピークの数は、サイズ標準規定フラグメントの数+余分なピークの数である)。特定の実施形態において、このアルゴリズムは、比率を0.6に、そして最小合格品質を0.75に固定する。特定の実施形態において、このアルゴリズムは、余分なピークの数を、Applied Biosystems 310/377装置データについて10に、そしてApplied Biosystems 3700装置データについて25に固定する。
【0070】
特定の実施形態において、統計学に基づく品質値は、結果を適合するために作成される。
【0071】
特定の実施形態において、当業者は、所定の装置とともに用いられ得る余分なピークの数を調整し得る。
【0072】
特定の実施形態において、このアルゴリズムは、サンプルのオフスケール領域内に位置したピークを無視する。特定の実施形態において、このアルゴリズムは、サイズ標準規定が適合プロセスにおいて完全に適合されていない場合、サイズ適合プロセスが不能である。
【0073】
特定の実施形態において、このアルゴリズムは、2つのプライマーピーク検出方法を実行する。最初は、プライマーピーク高さ抑制方法(primer−peak−height−supression method)である。この方法は、プライマーピークが最高であると仮定して、中央ピークのピーク高さで、最高のピークのピーク高さを置き換える。第二は、プライマーピーク位置を見出すことである。この方法は、プライマーピークが信号の第一の半分以内に位置し、そしてサイズ標準フラグメントが、信号の第二の半分に位置すると仮定する。例えば、第二の半分中の全てのピークの平均ピーク高さをとり、そしてその平均を5倍して、可能性のあるプライマーピーク高さを得る。この方法は、信号の第一の半分において後ろ向きに働き、最後のプライマーピークを見出す。
【0074】
特定の実施形態において、サイズ標準適合アルゴリズムは、入力として(例えば、通電クロマトグラフ由来の)ピークのリスト、および(例えば、ヌクレオチドの)フラグメントサイズのリストをとる。これによって出力として適合(すなわち、<ピーク、サイズ>形式の対のリスト)が得られる。ここで各ピークおよび各フラグメントのサイズは、多くとも一回しか出現しない。特定の実施形態において、サイズ標準適合アルゴリズムは、適合を評価し、そして良好な適合を見出すためのアルゴリズムを用いる。
【0075】
特定の実施形態では、ポイント間でエッジの配列として2つの構成配列を処理することによって適合を評価するアルゴリズムを使用する。適合はまた、エッジ間の一致である。2つのエッジであるeおよびe(終点を共有する)は、長さの比(r=|e|/|e|)を規定する。ここでも、適合はまた、比の間の一致である。ピーク位置とフラグメントサイズとの間の関係が「多かれ少なかれ(more or less)」直線であるとの仮定のもとで、対応する比は代表的には等しいはずである。特定の実施形態において、このアルゴリズムは、この特性を測定するためのratio cost(レシオコスト)を導く。特定の実施形態において、このコンポーネントはまた、ハイトコストを導くことによって大きいピーク上に集中する。適合の総コストは、これらの構成的コストの加重合計である。
【0076】
特定の実施形態において、アルゴリズムは、最大コストとの適合を見出しながら、サイズ適合問題を構築する。このような実施形態において、コストは分離可能である。すなわち、いくつかのさらなる数学を用いて、このアルゴリズムは、結果を独立して最大化し得る。特定の実施形態において、このコストはまた、局所であることの利点を享受し得、これによって直線性からの全体的な偏差を補償する。このコストはまた0と1との間の品質値を導く。
【0077】
サイズ標準は、各々が既知のサイズの、1セットのDNAフラグメントである。サイズ標準規定は、単にこれらのサイズのリストである。サイズ標準規定は代表的に、サイズ標準を使用する装置に依存せず、従って、実行条件のいずれの特定のセットのいずれにも依存しないことに注意のこと。
【0078】
レーン内サイズ標準は、機器上でサイズ標準を電気泳動することから得られるピークの組である。ピークの位置および高さを決定する。
【0079】
特定の実施形態において、サイズ標準適合アルゴリズムは、入力として、レーン内サイズ標準およびサイズ標準規定を用いる。これは、出力として適合(すなわち、形態の対のリスト(ピーク、サイズ))を生成し、ここで、各ピークおよび各フラグメントサイズは、多くて1回生じる。ピークは、位置(例えば、走査数における)および高さ(例えば、蛍光単位における)を有する。フラグメントサイズは、ヌクレオチドで与えられる。
【0080】
少なくともサイズと同数のピークが存在すると仮定する。さらに、おそらくこのリストの末端からいくつかの数を除いて、全てのサイズが対応するピークを有すると仮定する。この除外は、ユーザが、より大きいフラグメントが溶出する機会を得る前に、電気泳動を早く停止し得る状況をモデル化することを意味する。
【0081】
特定の実施形態において、以下を使用する。
【0082】
【数7】
Figure 2004516455
を、例えば、漸増走査数によって与えられる、nピーク位置のリストと仮定する。
【0083】
【数8】
Figure 2004516455
を、例えば、蛍光単位で与えられる、対応するnピークの高さのリストと仮定する。サイズ標準規定
【0084】
【数9】
Figure 2004516455
は、漸増ヌクレオチドのnフラグメントサイズサイズのリストである。前提により、n≧nである。サイズ標準適合は、対M={(i,0)、(i,1)、...、(i,n)}の組であり、ここで、iは、漸増する位数であり、すなわち、ここで、添字j<kは、i<iを意味する。
【0085】
(実施例1 ピーク、サイズ、および適合)
図39において示されるピーク、サイズ、および適合を考える。リストPは、n=11のピーク位置:
P=[968、1029、1203、1259、1412、1535、1714、1751、1785、1837、1928]
を含む。
これらのnピークは、高さHを有する。
【0086】
H=[2722、6219、1060、5380、7726、1082、7424、1263、7335、7937、1562]。
【0087】
サイズ標準規定は、n=5のサイズSを有する:
S=[75、100、139、150、160]。
【0088】
最終的に、Mは、図において示される適合である:
M={(3,0)、(4,1)、(6,2)、(8,3)、(9、4)}。
【0089】
大きいOh記号は、アルゴリズムの複雑性を表すために使用される。この記号は、最悪の場合および平均的場合の資源分析において遍在する。手短に言うと、関数fは、全てのx≧Nについて、|f(x)|≦c|g(x)|となるように正の定数cおよびNが存在する場合、別の関数gの次数であるといわれる(f(x)=O(g(x)と書かれる))。
【0090】
(適合を評価する)
適合が存在すると仮定する。特定の実施形態において、サイズ標準適合アルゴリズムは、その2つのコンポーネントの配列を調査することによって適合を評価する。これは、ピーク間のエッジの配列としてのピークの配列、およびサイズについての類似性を処理する。例えば、M={(3,0)、(4,1)、(6,2)、(8,3)、(9,4)}は、実施例1からの適合である。そのピーク配列(指標)配列は、[3、4、6、8、9]であり、これは、4つのエッジ:(3,4)、(4,6)、(6,8)、および(8,9)を有する。同様に、そのフラグメントサイズ規定(指標)配列は、[0、1、2、3、4]であり、これはまた、4つのエッジ:(0,1)、(1,2)、(2,3)、および(3,4)も有する。
【0091】
適合はまた、エッジ間の対応である。本実施例において、ピークエッジ(6,8)は、規定エッジ(2,3)に対応する。2つのエッジは、これらが終末点を共有する場合、隣接していると仮定する。この実施例において、(4,6)および(6,8)は、これらがピーク6を共有するので、隣接している。2つの隣接エッジ(i,j)および(j,k)は、長さの比rijk
【0092】
【数10】
Figure 2004516455
を規定する。
【0093】
特定の実施形態において、全てのサイズを適合するためのサイズ比:
【0094】
【数11】
Figure 2004516455
についてのより経済学的な記号を使用し得る。
さらに、適合はまた、比の間の対応である。本実施例において、ピーク比r689は、サイズ比rに対応する。
【0095】
ピーク位置とフラグメント間の関係が、「多かれ少なかれ」直線的であるという仮定の元で、対応する比は、代表的に等しいはずである。より正式には、サイズsのフラグメントは、位置pにおいて生じると仮定する。全てのiについてp=as+bとなるような係数aおよびbが存在する場合、
【0096】
【数12】
Figure 2004516455
である。
【0097】
比の対応する対rijkおよびrの類似性を測定するために、これらの比のコストc(i,j,k,f)が、
【0098】
【数13】
Figure 2004516455
であると規定し得る。
全ての0≦i<j<k<nについて0≦c(i,j,k,f)≦1そして0≦f<n−2であることに注意する。また、c(i,j,k,f)=1は、理想の同等の比を示す。この比の適合のコストは、個々のコストの合計である。
【0099】
特定の実施形態において、大きいピークに対する適合濃縮物を有する。この目的のために、適合したピークiの最も高いコストc(i)を、最大のピークの高さhによって分割されるその高さであると規定し得る。より正式には、
【0100】
【数14】
Figure 2004516455
である。
さらに、特定の実施形態において、全てのピーク0≦i<nについて0≦c(i)≦1、そしてc(i)=1は、理想の最大の高さのピークに対応する。
【0101】
これらの2つの型のコストを組み合わせるために、これらに重みを加え得、そしてこれらを合計し得る。2つのみのコストが存在するので、単一の重量パラメーターα(ここで、0≦α≦1)が十分である。適合Mの総コストc(M)は、重みを加えた合計である:
【0102】
【数15】
Figure 2004516455
ここで、最大コストを有する適合を見出す場合、サイズ標準適合問題を定式化し得る。このコストは、加重の各要素がほとんど3つの隣接点に依存するという意味で局所的であることに注意する。特定の実施形態において、この特性は、サイズ標準適合アルゴリズムが直線性からの全体的な偏差を補正することを可能にする。
【0103】
(品質の尺度)
全ての適合に対する最大の可能なコストによって適合のコストを除算する場合、その質を示す0と1の間の数を有する。このありうる最大のコストはどのくらいであろうか。このような適合における比の全ての対は、その最大値(すなわち、α×1)に寄与する。全部でn−2の比の対が存在する。同様に、全ての適合したピークが、最大の高さであり、その結果、全てのn個の適合したピーク(各規定サイズについてのピーク)は、(1−α)×1に寄与する。従って、ありうる最大のコスト
【0104】
【数16】
Figure 2004516455
は、
【0105】
【数17】
Figure 2004516455
である。
従って、適合Mの質は、
【0106】
【数18】
Figure 2004516455
によって与えられる。
【0107】
他の可能な品質の尺度は、単なる比のコストの合計、および適合における最悪の比のコストを含む。
【0108】
(効果的なアルゴリズム)
特定のアルゴリズムにおいて、上記式の利点は、コストが分離可能であることである。すなわち、いくつかのさらなる数学を用いて、独立して、部分列を最大化し得る。この特性は、効率的な動的プログラミングアルゴリズムを生じる。特定の実施形態において、このアルゴリズムは、効率的であり(低い次数の多項式の時間および空間で実行する)、そして最適な解決法を保証する。
【0109】
c:
【0110】
【数19】
Figure 2004516455
は、適合の下位の問題の最大コストを示すと仮定する。特に、c(j,k,f)は、ピークjがサイズfに適合しそしてピークkがサイズf+1に適合する様式で、0〜f+1の規定フラグメントを有する、0〜kのピークを適合させる最大コストを示すと仮定する。従って、全てのサイズを適合させるコストは、
【0111】
【数20】
Figure 2004516455
であり、ここで、Mは、最適な適合である。全ての規定フラグメントが、いくつかのピークと適合するが、ピークのnのみが本実施形態において適合する必要があることに注意する。
【0112】
ここで、再帰的に、最大コストを表し得る。f=0について、計算する比は存在しないので、最も高いコスト:
【0113】
【数21】
Figure 2004516455
に関心があることのみを必要とする。
f>0について、新しい比のコストおよび以前の下位の問題のコストに、新しく適合したピークkについての高さのコストを加えることによって、再帰的にコストを計算し得る:
【0114】
【数22】
Figure 2004516455
これらの等式をアルゴリズムに変換することは、簡単である。特定の実施形態において、サイズ標準適合アルゴリズムは、一貫した順序で個々の要素を計算する。さらに、計算を限定することによって規定における全てのサイズを適合させ得るという事実を利用し得る。特定の実施形態において、サイズ標準適合アルゴリズムは、k>j≧fについてc(j,k,f)を計算することのみ必要である。なぜなら、ピークjは、j<fの場合に、全てのfサイズに適合され得ないためである。同様に、特定の実施形態において、サイズ標準適合アルゴリズムは、下位の問題のc(i,j,f−1)(ここで、i≧f−1)のみを調査する必要がある。なぜなら、i<f−1の場合、ピークiは、全てのf−1サイズに適合し得ないためである。
【0115】
この目的のために、アルゴリズム2は、等式10を解き、そしてアルゴリズム3は、等式11を解く。
【0116】
(アルゴリズム2 再帰の基礎(f=0の場合))
【0117】
【数23】
Figure 2004516455
(アルゴリズム3 適合のコストを計算する(f>0の場合))
【0118】
【数24】
Figure 2004516455
言及したように、これらのアルゴリズムは、最適な適合のコストのみを計算する。依然として、この計算からの適合が検索される。このことはしばしば、力学的プログラミングアルゴリズムの標準的な部分である。メモリの必要が非常に高い場合には、これはしばしば、コスト行列から最適なコストへの経路の再計算の実行である。特定の実施形態は、比較的小さなシーケンスを有するので、バックポインタ(すなわち、前者p)のアレイを維持することによって、メモリの代わりに時間を用い得る。アルゴリズム3の8行目の後に、行「p(j,k,f)←i」を追加することによって、このアレイは容易に維持される。この割り当ては、コストc(j,k,f)に対する前者が、c(i,j,f−1)であることを示す。次いで、サイズ標準適合アルゴリズムは、等式9から、後方に追跡することによって、最適な適合を再構築し得る。
【0119】
(コンピュータリソース)
(理論的な実行時間分析)
特定の実施形態において、このアルゴリズムの実行時間の複雑さは、6行目および7行目を実行する回数によって支配される。これらの行自体が、一定の時間で実行される。内側(i)のループは、これらを
【0120】
【数25】
Figure 2004516455
実行する。従って、jループは、これらを
【0121】
【数26】
Figure 2004516455
実行する。kループは、k=f+n−n+1=f+m+1で終了し、ここで、m=n−nは、外側のピークの数である。この様式で継続すると、これらの行が合計でT(m,n)回実行されることがわかる。ここで、
【0122】
【数27】
Figure 2004516455
である。この式は、見かけほど手強くはない。なぜなら、内側の3つの和は、値fとは独立であるからである。変数の賢明な置換によって、以下がわかる:
【0123】
【数28】
Figure 2004516455
計算により、以下:
【0124】
【数29】
Figure 2004516455
が示され、従って、
【0125】
【数30】
Figure 2004516455
である。すなわち、実行時間は、規定フラグメントの数と共に直線的にのみ増加するが、これは、外側のピークの数の三乗として増加する。ピークの数が規定フラグメントの数と等しい場合(すなわち、m=0の場合)、6行目および7行目は、n−2回のみ実行され、これは、任意の適合を評価するために比較される必要のある比の数と全く同じであることに注目のこと。
【0126】
(実験的測定)
前出の小節における理論的な分析により、アルゴリズムの漸近的な挙動を理解することが可能である。すなわち、これによって、入力が大きい場合の実行時間の傾向を予測することが可能となる。より小さい入力については、特定の実施形態において、種々のオーバーヘッド因子が、実行時間に影響を与える。
【0127】
いくつかのセットの合成データおよびアルゴリズムのC++実装の時間が構築され得る。このデータは、n=5からn=40のフラグメントサイズの、サイズ標準規定を含む。全ての場合において、i番目のフラグメントは20iのサイズを有し、ここでiは1以上である。レーン内のピークは、規定サイズと等しい位置を有するが、これらはまた、m=0からm=20のさらなるピークを有し、ここで、i番目のさらなるピークは、0以上のiに対して、位置10+20iを有する。nとmとの各組み合わせに対して、試験プログラムは、適合コンポーネントを20回実行し、そしてまた経過時間を20で除算して、各実行に対する時間をミリ秒で与える。
【0128】
図40〜42は、その結果を示す。最も近いミリ秒に丸められた実行時間自体は、下に与えられる。
【0129】
(メモリ)
コストおよび前者を保持するための全アレイは、実数値「(m+n=m+2mn +n 」を使用し得る。従って、これらのアレイの初期化には、m=O(n )である場合に、最適化アルゴリズムより漸近的に多くの時間がかかる。このことが問題となる場合には、これらのアレイを、これらがO(m)の空間および時間を占有するように、希薄なアレイとして実装し得る。別の解決法は、ピークの指標を用いずに全アレイを位置合わせすることよりむしろ、等式13における置換された変数を用いて全アレイを使用することである。第三の可能性は、全マトリックスを初期化するのではなく、全マトリックスを使用し、そして配分することである。
【0130】
(実際的な懸念)
特定の実施形態において、サイズ標準適合アルゴリズムが適切な大きさであるように、候補ピークのセットを決定することが望まれ得る。外側のピークの数を指定するパラメータmを考慮するように、選択され得る。次いで、特定の実施形態において、サイズ標準適合アルゴリズムは、先のサイズコーリング工程によって検出された全てのピークから、n=n+mの最も高いピークを抽出する。特定の実施形態において、m=4を使用し得る。特定の実施形態において、1/2と3/4との間の重みづけ因子αを使用し得る。
【0131】
分析者は、代表的に、レーン内のサイズ標準に対応するサイズ標準規定を選択するべきである。しかし、分析者が、より長いフラグメントが溶出する機会を得る前に、早く実行を終了することは、あり得ることである。この場合には、厳密にいうと、定義は、正確ではない。この状況においていくらかのエラー強さを提供するために、最適適合が最小の認容可能な品質パラメータを満足するか否かを試験し得る。満足しない場合には、最後の規定サイズを除去し、そして再度試行して、その品質が認容可能となるまでこのプロセスを反復し得る。あるいは、その品質が認容不可能である場合には、適合に戻らずにこのプロセスを単に報告し得る。
【0132】
(サイズコーリング)
特定の実施形態において、このシステムは、サイズコーリングアルゴリズムを使用する。このサイズコーリングアルゴリズムは、標準サイズの観点から、サンプルからのデータピークに対応するヌクレオチドサイズを予測する。
【0133】
特定の実施形態において、このようなアルゴリズムは、以下の5つのサイズコーリングアルゴリズムのうちの、少なくとも1つを使用する:ローカルサザン、グローバルサザン、二次最小自乗、三次最小自乗、および三次式近似補間。
【0134】
特定の実施形態において、サイズコーリングアルゴリズムは、走査数(リードフレーム、データポイントなど)を、フラグメントサイズにマッピングする。特定の実施形態において、このサイズコーリングアルゴリズムは、グローバル(または最小自乗当てはめ)法およびローカル(または補間)法を提供する。特定の実施形態において、サイズコーリングアルゴリズムは、3つのグローバル法(二次最小自乗、三次最小自乗、およびグローバルサザン)ならびに2つのローカル法(三次式近似およびローカルサザン)を含む。
【0135】
(グローバル法)
特定の実施形態において、グローバル法は、走査数Jにおけるフラグメントのサイズf(x)を、関数fを評価することによって、決定する。この関数は、方法に依存する:
二次多項式:f(x)=ax+bx+c
三次多項式:f(x)=ax+bx+cx+d
グローバルサザン:f(x)=k/(m−m)+k、ここで移動度m=1/k。
【0136】
関数が評価され得る前に、この関数は代表的に、データに当てはめられ得る。特定の実施形態において、各グローバル当てはめ法の目的は、二乗した誤差の合計を最小にする係数(a、b、m、・・・)を見出すことである。すなわち、適合したサイズ標準対{(x,y):i=1、2、・・・、n}、(x=標準走査数、y=標準サイズ)のセットが与えられると、以下の合計:
【0137】
【数31】
Figure 2004516455
を最小にする、fに対する係数を見出す。ここで、e=y−f(x)である。標準的な方法を使用して、この作業を達成し得る。例えば、W.H.Press,B.P.Flannery,S.A.Teukolsky,およびW.T.Vetterling,General linear least squares,Numerical Recipes in C,14.3章、528−539頁、Cambridge University Press,1988を参照のこと。
【0138】
(ローカル法)
(三次式近似)
三次式近似とは、製図された機械的スプラインを数値的にシミュレートすることを意味する。特定の実施形態において、これは、全ての隣接する点の対を、その独自の三次多項式と結び付ける。特定の実施形態において、これは、ある点を共有する2つの曲線が、その点において同じ値(第一の導関数および第二の導関数)を有することを確実にする。特定の実施形態において、これらの拘束は、解をほぼ決定する。特定の実施形態において、最後の拘束は、サイズコーリングアルゴリズムがいわゆる自然スプライン(これに対して、終点における第二の導関数は0である)を使用することである。特定の実施形態において、サイズコーリングアルゴリズムは、これらの拘束を、線形の等式のセットとして表し、これを次いで、ガウスの消去法を用いて解く(W.H.Press,B.P.Flannery,S.A.Teukolsky,およびW.T.Vetterling,General linear least squares,Numerical Recipes in C,14.3章、528−539頁、Cambridge University Press,1988)。
【0139】
(ローカルサザン)
オートラジオグラムに対して、移動度mは、同位体の、注入ウェルからの移動した距離に比例する(なぜなら、時間が一定であるので)。サザン(Southern,Measurement of DNA length by gel electrophoresis,Analytical Biochemistry,100:319−323(1919))は、フラグメントサイズ対1/mが、(ほぼ)直線であることに注目した:
(m)=k/m+k
【0140】
高い移動度の(短い)フラグメントのみが、この直線の予測に当てはまらなかった。これらの高い移動度のフラグメントを考慮するために、サザンは、この等式に、初期移動度mを導入した:
(m)=k/(m−m)+k (5.1)。
【0141】
特定の実施形態において、走査数xは、時間に対応し(なぜなら、キャピラリー長、すなわちウェルから読み取りまでの距離が、一定であるので)、そして移動度に反比例する。単純にするために、m=1/xを設定し得る。
【0142】
走査数xが与えられると、特定の実施形態において、サイズコーリングアルゴリズム(ローカルサザン法)は、走査xが走査bとcとの間であるように、サイズ標準フラグメントa、b、c、およびdを見出す。これらのフラグメントは、それぞれf(1/a)、f(1/c)、f(1/d)およびf(1/d)の既知の大きさを有する。特定の実施形態において、サイズコーリングアルゴリズムは、次いで、等式5.1において、m=1/a、m=1/b、およびm=1/cを用いて、3つの等式の系を設定し、そしてこれらを、k、k、およびmに対して正確に解く。一旦これらの値が得られると、特定の実施形態において、これは、m=1/xにおいて得られた等式fS1(m)を評価することによって、mにおける曲線を補間する。
【0143】
さらに、特定の実施形態において、サイズコーリングアルゴリズムは、等式5.1において、m=1/b、m=1/c、およびm=1/dを用いて、3つの等式の別の系を設定し、そしてこれらを、k、k、およびmに対して正確に解く。次いで、これは、m=1/xにおいてサザンの等式fS2(m)を評価する。最後に、特定の実施形態において、サイズコーリングアルゴリズムは、移動度mを有するフラグメントサイズが(fS2(m)+fS1(m))/2となるように、得られた2つの大きさを平均する。
【0144】
(限界における解)
サザンの論文(Southern,Measurement of DNA length by gel electrophoresis,Analytical Biochemistry,100:319−323(1919))において取り組まれていない潜在的な問題が存在する。これを確認するために、サザンの等式5.1を、fS2(m)をyとし、kをkとし、そしてkをyと新たに命名することによって、書き直す。
y=k/(m−m)+(y)。
簡単な並べ替えにより、以下の等式が得られる:
(y−y)(m−m)=k
これは、サザンの等式が双曲線を表すことを明らかにする。ここで、双曲線は、限界のみにおいて、直線セグメントを記載する。その点に関してさらに、(m,y)、(m,y)、および(m,y)が、3つの共線の点であると仮定する。有限の定数k、mc、およびycは存在せず、その結果、等式5.2は、3つ全ての点(m,y)、(m,y)、および(m,y)を通る。このような状況は、フラグメント分析の適用において生じ得、そして実際に生じ、そして取り組まれる。
【0145】
特定の実施形態において、サイズコーリングアルゴリズムは、このような同一直線上の三重線を検出し、そしてサイズ対移動度空間(移動度空間)において直線的に補間してサイズをコールする。例えば、10塩基対、20塩基対および30塩基対のサイズ標準フラグメントを有し、それらが、それぞれ、12回、15回および20回の走査で溶出することを想定する。次いで、これらは、1回の走査あたり1/12、1/15および1/20のキャピラリー長の移動度を有する。これらの点は、図43に示されるように、移動度空間において同一直線上にある。
【0146】
図44における例によって示されるように、移動度空間における同一直線上の点が、走査対移動度空間(走査空間)において同一直線上にないことに留意する。従って、このサイズコーリングアルゴリズムがこのような点を走査空間において直線的に補間することによって処理することは、不正確である。
【0147】
一方、このサイズコーリングアルゴリズムが走査空間において同一直線上にある3つの点に遭遇することを想定する。このような点は、移動度空間において同一直線上になく、そしてサザンの等式(等式5.1)が、変化を伴わずに当てはまる。サザンの等式は、このような点を走査空間において直線的に補間し、予測されるような平滑な曲線(実際には、線分)を生じる。
【0148】
図45は、両方のケースを示し、そして特定の実施形態におけるサイズコーリングアルゴリズムが走査17にてフラグメントをどのようにサイズ付けするかを示す。左側の3つのサイズ標準点は、移動度空間において同一直線上にあり、一方、右側の3点は、走査空間において同一直線上にある。特定の実施形態において、このサイズコーリングアルゴリズムは、移動度空間における直線的な補間によって、走査17にて青色の「+」を得る。特定の実施形態において、このアルゴリズムは、3つのサザン等式の系を解析することによって、緑色の「+」を得る。次いで、このアルゴリズムは、これらの2つのサイズを平均することによって、黒色の「+」によって示されるように、走査17でのフラグメントをサイズ付けする。
【0149】
(対立遺伝子コーリング)
特定の実施形態において、このシステムは、対立遺伝子コーリングコンポーネントを使用する。このようなコンポーネントは、どのデータが対立遺伝子に正確に対応するかを解釈するために使用される。特定の実施形態において、1以上のアルゴリズムを使用して、対立遺伝子に正確に対応するデータ点を決定する。
【0150】
特定の実施形態において、1より多い対立遺伝子コーリングアルゴリズムを使用して、そしてこのコンポーネントは、コミッティ(committee)アプローチにおいて組み合わせた情報を使用して、対立遺伝子ココールを提供する。特定の実施形態において、単一の対立遺伝子コーリングアルゴリズムを使用し得る。
【0151】
特定の実施形態の以下の説明は、PCR増幅を使用して所定の遺伝子座でのジヌクレオチド反復を分析する場合の対立遺伝子コーリングに関する。本発明は、このような作業に決して限定されず、そして任意の数の反復に関し得、または他の型の遺伝子多型に関し得る。他の多型としては、SNP(一ヌクレオチド多型)、一塩基挿入および欠失、ならびに1より多い塩基が関連する挿入および欠失、および再編成が挙げられるが、これらに限定されない。
【0152】
同様に、これらのアルゴリズムの実施形態は、他の型のデータに適用され得、ここで、複数のアルゴリズムが、それらの信頼値における解釈およびスコア付けを代表的に必要する、結果を生じる。このような他の適用分野としては、以下が挙げられるが、これらに限定されない:塩基コーリング(basecalling)(デノボ配列、混合塩基配列および比較配列);SNP塩基コーリング;マイクロアレイの点検出;タンパク質配列決定;タンパク質/遺伝子発現;ペプチド検索(ノイズが生じる時系列整列化の問題);および生物学的系のモデリング。当業者は、本発明に従って評価され得る、多くの型の核酸情報およびアミノ酸情報の全てを認識する。例としては、上記の適用のいずれかからのデータ、および任意の特性(核酸またはアミノ酸の長さ、分子量、あるいは核酸同一性またはアミノ酸同一性)の評価が挙げられるが、これらに限定されない。
【0153】
データ解釈のこれらの適用の全てについてのコミッティアプローチにおいて、1つのみのアルゴリズムに依存するよりむしろ、1より多いアルゴリズムからの出力を使用する。しばしば、異なるアルゴリズムは、種々の条件に依存して、他のアルゴリズムを超える種々の利点を有し得る。このコミッティアプローチは、異なるアルゴリズムを使用して、複数のデータ点の正確な解釈に対する、有意な信頼値を生じる。特定の実施形態に従って、このコミッティアプローチは、操作環境を最初に確立する概念(この1例は、本明細書中に記載されるエンベロープコーラー(envelope caller)によって例示される)と組み合わせる場合に、特に強力である。
【0154】
種々の遺伝子座において所定の対立遺伝子を決定するために、PCRを使用して、異なる対立遺伝子を有することが公知である遺伝子の領域を選択的に増幅し得る。この例において、所定の遺伝子座で異なる長さのジヌクレオチド反復を位置付けることを試行する。米国特許第5,580,728号は、本発明の方法に従って使用して、サンプル中の遺伝物質を増幅し、そして増幅された核酸の異なる長さに相関するデータを獲得する、特定の方法を記載する。米国特許第5,580,728号およびそこで引用される全ての文献は、本明細書中に参考として明確に援用される。生成され得る可能なデータを、図6に示す。
【0155】
図6は、PCR増幅プロセスによって生成された人為産物を含む結果を例示する。このような人為産物を除くと、このデータは、93塩基対および103塩基対でピークを示し、これは、その個体が、93塩基対および103塩基対のサイズの2つの対立遺伝子についてヘテロ接合性であることを示す。しかし、PCRスタッター(どもり)は、93塩基対の対立遺伝子について91塩基対および89塩基対にてさらなるピークを導入し、そして103塩基対の対立遺伝子について101塩基対、99塩基対および97塩基対にてさらなるピークを導入する。このスタッターは、サンプル中の実際の対立遺伝子より1以上のジヌクレオチド分短いフラグメントを生じる。また、PCRプロセスの間に、さらなるAヌクレオチドが付加され得、これは、余分な塩基対を有する、図6における人為産物(すなわち、93塩基対の対立遺伝子について94塩基対、および103塩基対の対立遺伝子について104塩基対)を生じる。図6は、対立遺伝子93および103を有するヘテロ接合性の個体を表し、そして人為産物を含む、比較的単純なパターンを示す。しかし、これらの導入され得る人為産物は、実際の対立遺伝子が共に類似し、そして対立遺伝子サインが重複する場合、必ずしも簡単に無視されるわけではない。従って、本発明は、データを解釈しそして正確な対立遺伝子コールを行うためのシステムを提供する。
【0156】
PCRスタッターおよびAヌクレオチドの付加は、米国特許第5,580,728号に考察される。この特許は、正確な対立遺伝子コールを行うことを試行するために使用され得る、特定のアルゴリズムを考察する。本発明は、代表的には、より信頼性の高い対立遺伝子コーリングを提供する。本発明は、新しいアルゴリズムのみならず、コールの信頼性を増加するために1より多いアルゴリズムを使用するシステムを包含する。
【0157】
図1は、本発明に従う方法およびシステムが実行され得る、コミッティシステム100の概要ブロック図を示す。データ102は、DNA配列決定機(例えば、ABI 3700 DNA配列決定機(Applied Biosystems))からの代表的なサイズコールデータを含む。データ102は、複数の対立遺伝子コーリングアルゴリズム(例えば、エンベロープ検出コーラー(envelope detection caller)アルゴリズム104、最適化プログラムコーラー(optimizer caller)アルゴリズム106およびヒューリスティックコーラー(heuristic caller)アルゴリズム108)にパスされ得る。エンベロープ検出コーラーアルゴリズム104は、対立遺伝子が空間的にうまく分離されている場合に、ヘテロ接合性の対立遺伝子パターンを検出する。最適化プログラムコーラーアルゴリズム106は、応答信号(例えば、生のマイクロサテライト信号)を考慮してインパルス機能(例えば、対立遺伝子ピークの位置)を同定する。ヒューリスティックコーラーアルゴリズム108は、複数の規則およびフィルタを使用し、対立遺伝子でないピークを考慮から排除する。アルゴリズム104、106および108についてのさらなる情報を、以下に提供する。
【0158】
各アルゴリズムは、コミッティマシン110にそれらの結果を報告する。このコミッティマシン110は、論理および/または規則を使用して、コールに信頼水準を割り当てる。コミッティマシン110は、大まかな結果を生じ、そしてコールを予測し得る。つまり、コミッティマシン110は、いくつかのコーラーからコール結果を受信し、そして異なるコーラー間の一致の程度を考慮して、回答が正確である統計的確率に基づいて、得られるコールについての信頼度を提供し得る。このエキスパートのコミッティについてのより多くの情報を、以下にさらに説明する。信頼水準は、コーリングアルゴリズム104、106および108間の一致を考慮することによって作成され得る。結果112は、コミッティマシン110によって行われた各試験についての信頼水準を含み、そして結果112は、コンピュータ114のユーザに対して転送される。
【0159】
コミッティシステム100は、従来の対立遺伝子コーリングアルゴリズムより多くの利点を提供する。第1に、各アルゴリズムは、コールがあるか否かの決定において異なるストラテジーを使用するので、全てのコーラーが一致する場合、次いで、極めて高い値の信頼性が、コールに付与され得る。しかし、全ての対立遺伝子コーリングアルゴリズムが一致しない場合、どのアルゴリズムが一致するかに依存して、コールに対して異なる信頼水準が付与される。大きいデータ集団にわたって異なるアルゴリズム間の一致のレベルを考慮することによって、統計的に有意な信頼性の値が、対立遺伝子コールに割り当てられ得る。
【0160】
(I.コミッティ対立遺伝子コーリングシステム操作)
図2は、特定の実施形態に従って、対立遺伝子コールの処理においてデータ処理システムによって実行される工程の、フローチャートを示す。第1に、このデータ処理システムは、サイズコールフラグメント分析データを受信する(工程202)。
【0161】
次いで、受信されたデータは、種々の対立遺伝子コーリングアルゴリズムを使用して処理され得る(工程204)。各コーラーアルゴリズムは、異なる環境下で異なる信号に対してうまく作動する。同じデータセットに対して1より多いコーラーを使用することによって、コミッティマシン110は、コールに信頼水準を割り当てる。アルゴリズムは、データの複雑性を試験し得、そしてその複雑性が特定の要件をパスし、適切なコールを作製し得るか、またはデータの複雑性に拘わらずコールを作製し得る。いくつかの例示的コーリングアルゴリズムを、図3A〜3Dに示す。
【0162】
一旦、データが、各対立遺伝子コーリングアルゴリズムを用いて分析されると、各コールの結果が、コミッティマシン110に転送される(工程206)。コミッティマシン110は、コールの結果を処理し(工程208)、決定を調整し、そしてコーリングアルゴリズムの結果に対して適切な信頼性の値を割り当てる。この調整の結果は、信頼性の値と共に、フラグメント長(コール)としてユーザに報告される(工程210)。
【0163】
(II.エンベロープコーラー)
図3Aは、特定の実施形態に従ってエンベロープコーラーアルゴリズムを用いて対立遺伝子を処理する場合に、データ処理システムによって行われる工程のフローチャートを示す。エンベロープコーラーアルゴリズムは、代表的に、対立遺伝子が空間的にうまく分離されている場合に、ヘテロ接合性の対立遺伝子パターンを検出するために使用される。エンベロープコーラーは、コールを作製する前に核酸配列決定機からの信号の複雑性を評価し、そして信号の複雑性が閾値より下にある場合(すなわち、その信号がコーラーの操作領域内にある)に、コールを作製する。従って、このコーラーは、コーラーが認識する制限された領域で作動するので、このコーラーは、正確である高い確率にあり、そのコールは、極めて正確であり得る。
【0164】
第1に、このアルゴリズムは、スムージングのような前処理を実施し得る(工程302)。例えば、このアルゴリズムは、N点スムージングを使用し得、これは、各点を、それ自体およびその両側のN個の点にわたる局所平均で置き換える。各点をこのような平均で置き換えることによって、信号からノイズが除去され、そしてより平滑な信号が残る。
【0165】
次に、信号の極小値および極大値が決定される(工程303)。これは、その処理において信号の微分計算を使用する、Savitzky−Golayアルゴリズム(例えば、Numerical Recipes in C:The Art of Scientific Computing,William H.Press,Saul A.Teukolsky,William T.Vetterling,Brain P.Flannery,Cambridge University Press、1992、650−655頁を参照のこと)のような技術を使用することによる。他のピーク検出方法が、使用され得る。この工程は、信号の一般形状をより少ない点で効果的に表すことによって、信号の次元数を有意に減少する。この効果は、図7に示され得る。ここで、元の信号は実線である。極小値および極大値の計算後に、信号を破線で表す。
【0166】
工程304において、新しい信号が、極大値のみを維持することによって形成される。これは、信号の包絡線を決定する効果を有する。図7において、この信号は、点線で示される。次に、信号を、アルゴリズムにパスし戻し、アルゴリズムが、極小値および極大値を決定する(工程305)。この新し表示を用いて、次いで、元の信号を、各極小値にてパネルに分割する(工程306)。パネルは、信号の大きいセクションであり、これは、その信号の深い局所極小値によって区切られる。図7において、6つのパネルが存在し、表1に概略されるように区切られる。
【0167】
Figure 2004516455
【0168】
信号の複雑性およびこのアルゴリズムがコールを作製するか否かを決定するために、このアルゴリズムは、3つのパネルが存在するか否かを最初に決定する(工程308)。少なくとも3つのパネルが存在する場合、このアルゴリズムは、例えば、パネル中の各エレメントの平方を合計することによって、各パネルについてエネルギーレベルを計算する(工程312)。規定された領域における信号のエネルギーを評価する他の方法は、使用され得る。このアルゴリズムは、2つのうまく分離されている対立遺伝子の包絡線特徴について検索するので、代表的には、2つの別個の対立遺伝子サインが存在するか否かを確かめるために3つのパネルを使用する。X個の対立遺伝子について検索する場合、X個の別個の対立遺伝子サインが存在するかを確かめるために、代表的には、X+1個のパネルを使用する。
【0169】
3つの最大エネルギーレベル(それぞれE1、E2、およびE3−これらは、図中のパネル1、2、および5に対応する)を用いて、エンベロープコーラーアルゴリズムは「閾値」決定を実施する(工程314)。すなわち、これらの3つのエネルギーレベル(E1、E2、およびE3)を用いて、このアルゴリズムは、例えば特定の実施形態では、E2がE1の20%より大きいか否か、およびE3がE2の7%にすぎないか否かを決定する。これらの実施形態においてこれらの条件が存在する場合、この信号は、エンベロープコーラーが作動し得るのに十分に低い複雑度である。次いで、最大エネルギーを有するパネルの各々における最大ピークを記録することによってコールがなされる。従って、図7において図示される事例については、93塩基対および103塩基対の菱形記号が頂上にあるピークでコールがなされる。
【0170】
要約すると、エンベロープコーラーの特定の実施形態は、以下を含み得る:
1.信号をmin/max検出アルゴリズムに通し、最小値を切り捨てる。従って、信号のエンベロープは、最大である点を連結することにより得られる。
2.この新規な信号をmin/max検出アルゴリズムに再度通す。
3.min/max情報を用いて信号を目的のパネルに分ける。ここでの目的のパネルは、信号が初め低く、次いで急速に増加し、そして再度ベースラインまで低下するものとして定義される。これらの実施形態では、これらの領域中のエネルギーは、これらの領域中のデータの二乗を合計することにより算出される。
4.最大エネルギーを有する3つの領域のみを考慮する。
5.信号中の2つの優勢ピークを選択し、そしその信号は異種接合条件を表すとする。このような場合、対立遺伝子コールは、最大エネルギーを有する2つのパネル中の最大値である。
【0171】
(以下のコードは、エンベロープコーラー法の特定の実施形態に従って使用され得る)
ライン6のコールは、信号をパネルに分け、そしてパネルのエネルギーを算出するサブルーチンエンベロープ(ライン21〜53)をコールし、次いで最大エネルギー含量を有する3つのパネルを同定する。ライン10は、工程4で与えられる条件を試験する。これらの条件が適合する場合、ライン11は対立遺伝子コールを反復する。
【0172】
【表1】
Figure 2004516455
Figure 2004516455
(III.最適化プログラムコーラー)
米国特許第5,580,728号(これは、参考として援用される)は、逆重畳積分を介する対立遺伝子コールを記載する。これは、本発明の特定の実施形態と一致する最適化プログラムコーラーアルゴリズムに類似する。
【0173】
特定の実施形態によれば、最適化プログラムコーラーは以下のように作動する。アルゴリズムは、応答信号(生のマイクロサテライト信号)を与える衝撃関数(対立遺伝子ピークの位置)を同定する逆重畳積分の原理において作動する。ルーチンは、逆重畳積分を生じるためにモデルフィット最適化を用いる。最適化されたモデルパラメーターは、ピーク位置、ピーク高、およびスタッター率である。
【0174】
特定の実施形態によれば、アルゴリズムは、まず、ビン(bin)でサンプリングすることにより次元換算(dimentionality reduction)を実施し、次いで、最大ピークを優勢対立遺伝子として同定する。ビンは、対立遺伝子を見出すことが期待される位置である。データが生成される方法のために、フラグメント長は、整数の塩基対としてめったに記録されない。従って、ビンの中心のいくらかの閾値内に入る任意のピークが、その長さであるといわれる。特定の実施形態では、この閾値は、+/−0.15塩基対である。従って、ピークが100.87塩基対のサイズであると称され、そしてビンが101bpに存在したとしたら、ピークは101bpであると記録される。
【0175】
ビンでのサンプリングにより、解析からデータ点を除去できる。ビンは、以前にコンパイルしたデータによって決定される。例えば、期待された対立遺伝子位置を反映する、以前にコンパイルされた統計値に基づいて、元のセットのビンをシステムに通し、そしてサンプリンググリッドが、これらのビンを収容する1塩基対グリッドを内挿することにより形成される。これは、信号がサンプリングされる、1塩基対間隔で配された連続したビンを作出する。
【0176】
スタッターの量が変化したビルディングモデルを通じて、アルゴリズムは、もとの信号から差し引かれた際にそのモデルが最も低い残留誤差を生じる衝撃関数を選択することにより、次に最も考えられる対立遺伝子を選択する。
【0177】
特定の実施形態による図3(B)中のフローチャートは、以下のようにコンセプトを図示する:
1)ビンでサンプリングする(320)−上述したように、ビンは、対立遺伝子を見出すことが期待される位置である。従って、上の信号は、これらの位置でサンプリングされる。代表的には、これらの位置は、最小値および最大値を含むが、信号の他の部分(フラット領域、スタッターピーク)もまた含む。
【0178】
2)最小値および最大値を見出す(322)−Savitsky−Golayアプローチを用いて、最小値および最大値の正確な位置を突き止める。最大値は、可能な対立遺伝子を表す。
【0179】
3)1つの対立遺伝子として優勢ピークを選択する(324)−代表的には、最大ピークが対立遺伝子である−このピークを選択することが安全な戦略であり、他の対立遺伝子を見出す問題はいまや減少される(存在する場合)。
【0180】
4)二次ピークの位置、ならびに優勢ピークおよび二次ピークの両方におけるスタッターの量を変化させることにより一連の仮説(モデル)を形成する(326)。
【0181】
5)工程(2)で見出された信号から各モデルを差し引く(328)。残差が表中に残る。
【0182】
6)最も低い残差を有するモデルを選択する(330)−最も低い残差を生じるモデルが、工程(2)からの信号を最良に記載し、従ってウィナー(winner)と宣言される。対立遺伝子コールは、モデルにおいて生じた対立遺伝子の位置である。
【0183】
7)任意のさらなる規則(例えば、特定の閾値以下のレフトピークを除去する)の適用後にコールをユーザに伝える(332)−実験は、特定の閾値以下のピークは、通常ノイズであることを示している。
【0184】
特定の実施形態によれば、主な最適化プログラムコーラーアルゴリズム工程は以下のように要約される:
1)データ換算:
通過される先験のビンを用いて、さらなるビンを含むサンプリンググリッドを構築する。次いで、信号をサンプリングし、マイクロサテライト信号の簡易化された不連続な表示、本質的にはビンの中心にピーク高さ、を与える。図8を参照のこと。
2)最高ピークを見出し、それが対立遺伝子ピークの1つ(「A」対立遺伝子)であると仮定する。図8を参照のこと。
3)B対立遺伝子について検索する:
アルゴリズムは、残差信号(すなわち、観測信号から仮定信号を差し引いた後の信号の残り)を最小化するB対立遺伝子のピークの位置、高さ、およびスタッター率について検索する。(Bピークは、実際にはAピークと同じであり得る(すなわち、ホモ接合体))。
【0185】
図9は、B対立遺伝子についての検索における2つの異なる試みを図示する。A対立遺伝子が最高ピークであると仮定したことを思い起こしてほしい。B対立遺伝子についての位置、高さ、スタッター率についての異なる仮説を立てる。A仮説とB仮設とを重ね合わせることにより複合信号を作成する。次いで、仮定された信号を観測された信号と比較し、残留誤差を算出する。最も低い残留誤差を有する仮説をB対立遺伝子と記録する。
【0186】
最良のB対立遺伝子パラメーターについて検索するために使用した方法は、フレキシブルである。このアルゴリズムの第一の実行において、検索スペースを取り除くために簡単な帰納法が使用されたが、それは、最良のB対立遺伝子についての徹底的な検索であった。共役勾配、シンプレックスまたは模擬アニーリングのような方法が適用され得た。
【0187】
(IV.ヒューリスティックコーラー)
図3Cは、特定の実施形態によるヒューリスティックコーラーアルゴリズムを用いて対立遺伝子を処理する際にデータプロセシングシステムにより実行される工程のフローチャートを示す。ヒューリスティックコーラーアルゴリズムは、対立遺伝子ではないピークを除くために複数の規則(フィルタ)を使用する。フィルタを用いてピークを除くことにより、残ったピーク(単数または複数)が対立遺伝子であり得る。
【0188】
第一に、多数の前処理工程のいずれかが実行され得る。例としては、エンベロープコーラーで言及したN点スムージングまたはノイズ定量(またはNoise Checker)が挙げられる。ノイズ定量は、信号の質を評価するために使用される。Noise Quantificationの例は、以下の工程を包含する:
1)信号を採取する工程;
2)図3Aの302におけるようにスムージングを実行する工程;
3)もとの信号からスムージングした信号を差し引く工程;および
4)2つの信号間の差異の二乗を合計し、誤差平方和(sum squared error;SSE)を得る工程。
【0189】
信号がノイズを比較的含まない場合、SSEは低く、コールにおいてより多くの信頼が置かれ得る。SSEが高い場合、ユーザは、信号を観察し、コールを人為的に作製することが賢明であると警告される。
【0190】
特定の実施形態に従う、任意のこのようなプリプロセシング工程の後に、このプロセスは、ヒューリスティックコーラーアルゴリズムがピーク検出アルゴリズム(例えば、Svitzky−Golayアルゴリズム)を使用してピークリストを形成する工程342を含む。特定の実施形態に従って、以下の3つの部分の情報(ピーク位置、ピーク高さ、およびピーク幅)を含むそれぞれのピークについての項目を有するリストが形成される。次に、種々のフィルタを適用して、正しい対立遺伝子コールでないピークを除去する(工程344)。
【0191】
使用され得る1つ以上の規則の非限定的な例としては、以下が挙げられる:
スプリットピークを除く(スプリットピークチェッカー)
バックグラウンドピークを除く(バックグラウンドピークチェッカー)
プラスA歪みに起因するピークを除く(プラスAチェッカー)
スパイクピーク(spikey peak)を除く(スパイクピークチェッカー)
ショルダーピークを除く(ショルダーピークチェッカー)
スタッターピークを除く(スタッターチェッカー)
スプリットピークは、高さの類似した(例えば、少なくとも約70%)、ピークリストに見られる2つのピークであり、そして代表的に、約0.1塩基対未満離れている。これらは、代表的に、二本鎖DNAおよび一本鎖DNAの混合物によってもたらされる。特定の実施形態に従って、スプリットピークが検出される場合、スプリットピークの高さのみが保存される。
【0192】
バックグラウンドピークは、任意の有意なスタッターを有さない偽のピークである。スタッターは、ほとんどいつもジヌクレオチドマーカーで生じる。従って、任意の有意なスタッターを有さないピークは、バックグラウンドピークと考えられ、このリストから除く。バックグラウンドピークは、代表的に、サンプル夾雑物に起因する。
【0193】
スパイクピークは、高いが他のピークでは代表的でない幅を有する偽ピークである。ピークリストは、高さデータ、幅データおよび位置データを有する。従って、平均ピーク幅が決定され得、集団の残りと比較して狭すぎる任意のピークは、除かれる。これらは、代表的に、サンプル夾雑物によって引き起こされる。
【0194】
ショルダーピークは、別のピークの非常に近くに見え、従って、ショルダーの外観を有するピークである。これらは、代表的に、より低い高さであり、0.1bpより大きく離れ、1bpより小さく離れることを除いて、スパイクピークに類似する。これらは、しばしば、機器のノイズによって引き起こされる。特定の実施形態において、ショルダーピークは、除かれる。
【0195】
特定の実施形態に従って、工程344に適用されるフィルタは、図3Dのフローチャートに示されるフィルタのうちの少なくとも1つを含む。一塩基対チェッカーは、一つの塩基対ピークが存在するか否かを見るために隣接ピークをチェックする。特定の実施形態において、フィルタの順序が変更され得る。例えば、特定の実施形態に従って、プラスAチェッカーおよびショルダーピークチェッカーは、図3Dのフローチャートで互いに切り換えられる(図3Dに示される最終アセンブラは、最終結果を構築し、対立遺伝子をコールする)。
【0196】
一旦、全ての対立遺伝子でないピークが除かれると、ヒューリスティックコーラーアルゴリズムは、1つまたは2つの残りのピークが存在するか否かを決定する(工程346)。2つより多くの残りのピークが存在する場合、ピークの数を1つまたは2つに減少させるために、さらなるフィルタが適用される(工程348)。これらの規則は、観測によって決定される特別の場合に基づく。規則の非制限的な例は、4つのピークが残る場合、一般的に、最も低い2つが除かれるということである。一旦、1つまたは2つのピークが残ると、これらは、対立遺伝子コールとして指定され、コミッティマシン(committee machine)を通過する(工程350)。
【0197】
図10〜12は、特定の実施形態に従う、ヒューリスティックアルゴリズムを用いて評価され得るデータを示す。
【0198】
特定の実施形態において、ヒューリスティックコーラーは、所与のマーカーについて2つの対立遺伝子の最大が存在することを想定する。特定の実施形態において、所与のマーカーについて対立遺伝子の最大数にこのような想定が存在しない。
【0199】
(V.コミッティマシン処理)
以下の例AおよびBは、本発明の特定の実施形態に従うコミッティ(committee)アプローチを説明する。
【0200】
(例A)
図4は、ユーザに報告される最終対立遺伝子コールおよびそれらの関連する信頼値を決定する場合の特定の実施形態に従う、コミッティマシン110によって実行される工程を示す。コミッティマシン110は、一セットの規則を使用することによって、コールを調停する。例示的な規則のテーブル(表2)は、以下に示される。最初のコミッティマシン110は、どのコーラーが一致するかを決定する(工程402)。
【0201】
次に、コミッティマシン110は、正確なコールを決定し、これらのコールについての信頼水準の伝達、割り当てを行う(工程404)。特定の実施形態に従って、信頼水準は、代表的なデータの代表的である大きなサンプルセットにわたる表2の種々の場合を考慮することによって決定される。例えば、3つ全てのアルゴリズムが一致する場合(ケース1)、コミッティマシンは、コールが99.9%正しいことを想定し、従って、0.999の信頼値を割り当てる。エンベロープコーラーについてのコールがなく、最適化プログラムコーラーおよびヒューリスティックコーラーについて同じコールがある場合、コミッティマシン110は、信頼値を0.970として規定する。ヒューリスティックアルゴリズムについてコールがなく、エンベロープ方法および最適化プログラムについて同じコールがある場合、コミッティマシン110は、それらのコールをユーザに通し、そして0.621の信頼値を割り当てる。最適化プログラムのみがコールを生成する場合、コミッティマシン110は、0.692の正しい信頼値を割り当てる。そして最後に、上記シナリオに適合しない任意の場合は、ヒューリスティックアルゴリズムによって与えられるコールを割り当てられ、そして0.771の信頼値を割り当てられる。上に列挙された一致の決定は、例示的である。当業者は、信頼の他の決定が利用可能であることを理解する。例えば、さらなるアルゴリズムを使用して、特定の実施形態に従うより正確な信頼水準を作製し得る。
【0202】
Figure 2004516455
【0203】
信頼水準はまた、コミッティアプローチに使用される特定のアルゴリズムの使用および得られる結果に精通した人によって割り当てられ得る。特定のアルゴリズムを用いた経験を描くとき、このような人は、種々のアルゴリズムによって得られ得る可能な併用した結果のそれぞれについての信頼水準を割り当て得る。
【0204】
(例B)
1.対立遺伝子コーリングアルゴリズム
この実施形態において、3つの異なる対立遺伝子コーリングアルゴリズムが実行される。それぞれが別の異なる原理を有する。コーラーは、以下である:
エンベロープ:あるレベルの複雑性より下のヘテロ接合性データを分類するのみである。これは、非常に高いレベルの正確性をもってなされ、対立遺伝子の間の良好な分離を伴う、比較的ノイズのない強力なヘテロ接合性信号の特徴的なエンベロープの検出に基づく視覚的アプローチを使用する。このデータが問題があるようである場合、エンベロープは、コールを作製することを拒否する。
【0205】
最適化プログラム:対立遺伝子の位置、スタッターおよび+A人為産物(artifact)の量を使用する、対立遺伝子信号のパラメーター化に基づく仮説の形成を含む最尤的アプローチを使用する。この信号エネルギー量を最も良く説明する仮説は、ウィナーを断言し、対立遺伝子コールがウィニング仮説を形成する際に使用される。
【0206】
ヒューリスティック(heuristic):対立遺伝子コーリングの規則に基づくシステム。最初に、全てのピークは、対立遺伝子を割り当て、そしてエキスパート規則を使用して、真の対立遺伝子のみが残るまで、誤った候補を除く。それぞれの方法に当てられた節は、以下である。
【0207】
a.ヒューリスティックコーラー
特定のプログラムは、Genotyper対立遺伝子コーリングアルゴリズム(ABI PRISMTM Genotyper(登録商標)2.0 User’s Manual.PE Applied Biosystems、1996、850 Lincoln Centre Drive、Foster City、CA94404)を実行し、そして対立遺伝子コーリングプロセスの間、トリヌクレオチドマーカーおよびテトラヌクレオチドマーカーについてのこのアルゴリズムを再使用する。このプロセスに含まれる工程は、以下に概説される。
【0208】
1.ピークを位置付ける。マーカーサイズ範囲内の全てのピークを見つけ出しそして同定する。
【0209】
2.ピークを標識化する。全てのピークの対立遺伝子を示す。
【0210】
3.グローバルカットオフ。最大ピークを見つけ出す。閾値より下の任意のピークをコールされた対立遺伝子リストから除く。この閾値は、カットオフ値(cutoffValue)×ピークの最大高さとして決定される(ここでカットオフ値は、ユーザが規定するパラメーターである)。
【0211】
4.A除去。任意の2つの隣接ピークについて、ピーク間の距離が特定の数(ユーザパラメーター+A距離)内にあり、そして上流ピーク高さと下流ピークの高さとの間の比がユーザパラメーターA比を越える場合、下流ピークは、コールされる対立遺伝子から除去される。
【0212】
5.スタッターの除去。任意の隣接する2つのピークについて、ピーク間距離が、ユーザパラメータースタッター距離内にあり、下流ピークの高さと上流ピークの高さとの間の比が、ユーザパラメーターの比を越える場合、上流ピークは、コールされた対立遺伝子リストから除去される。
【0213】
6.対立遺伝子を示す、任意の残りのピークが対立遺伝子であると示す。
【0214】
図13は、代表的な標準的ヘテロ接合対立遺伝子サインを示す(丸印は、ユーザが注釈した対立遺伝子コールを示す。x軸は、塩基対である。y軸は、A/Dカウント(電圧強度)である)。
【0215】
アルゴリズムは、きれいなジヌクレオチドマーカーデータについて比較的良好に振る舞い、そしてテトラヌクレオチドマーカーデータについて非常に良好に振舞う。しかし、トリヌクレオチドマーカーについて、データがなく、このアルゴリズムがどのように振る舞うかは、確実にはわからない。しかし、全ての可能性において、おそらく、非常に良好に実行する。
【0216】
このアルゴリズムの特定の実施形態は、5つのパラメーターを含む:カットオフ値(cutoffValue)、A距離(A distance)、A比(A ratio)、スタッター距離(stutter distance)およびスタッター比(sutter ratio)。このプログラムは、これらのパラメーターについてデフォルト値を提供し、そしてユーザがユーザインターフェースのこれらの値を調節し得る。
【0217】
大量のジヌクレオチドマーカーデータを調べる際に、Genotyperアルゴリズムが最適でなかったいくつかの状況が存在したことが明らかになった。これらの状況は、巨大な大多数のGenotyperエラーを構成する。これらの場合は、以下である:
1.差示的増幅。1つの対立遺伝子が、別の対立遺伝子よりもかなり高い。グローバルカットオフ規則は、より低い対立遺伝子を除く。
【0218】
2.1bp対立遺伝子。一塩基対のみによって分離される2つの対立遺伝子が存在する。
【0219】
3.ブリードスルー(bleedthrough)(プルアップ(pullup))ピーク。強い隣接カラーピーク(neighboring color peak)およびマルチコンポーネントの不正確性に起因するピークが存在する。これは、HID適用について最適未満であり得る。
【0220】
4.バックグラウンドピーク。1つの信号のバックグラウンドピークが、乏しいゲルスラブに起因して存在する。
【0221】
5.スパイクスタッターピーク。異常に高く狭いスタッターピーク。
【0222】
ヒューリスティックアルゴリズムは、これらのエラーの潜在的な原因に取り組む。
【0223】
ヒューリスティックアルゴリズムは、さらなる規則を含む。特定の実施形態に従って、これらの規則は、特徴的変数(ピーク高さ、ピーク幅、ピーク開始位置、ピーク末端位置、ピーク開始高さ、ピーク末端高さ、ピーク間のピーク高さ比、ピーク間の塩基対間隔)の組み合わせを使用して、どのピークがコールされる対立遺伝子であるべきかを見出す。特定の実施形態において、アルゴリズムは、以下のように進行する。
【0224】
1.ノイズチェッカー。信号のノイズレベルをチェックする。この信号が、ノイズが多すぎる場合、このプロセスは、中断される。
【0225】
2.スプリットピークチェッカー。隣接ピークが分裂(splitting)についてチェックされる。分裂が存在する場合、より高いピークのみが保存される。
【0226】
3.バックグラウンドピークチェッカー。このピークは、これらが単一のバックグラウンドピークであるか否かを見るためにチェックされる。
【0227】
4.スモール/ショルダーピークチェッカー。有意でないピークおよび/またはショルダーピークが除かれる。
【0228】
5.スパイクピークチェッカー。スパイクスタッターピークを除く。
【0229】
6.Aチェッカー。Aピークを除く。
【0230】
7.スタッターチェッカー。スタッターピークを除く。
【0231】
8.特別ピークチェッカー。ピークが異なる増幅があるか否かを見るためにチェックされる。
【0232】
9.優先的増幅、または一塩基対対立遺伝子が存在する場合。
【0233】
これらのさらなる規則は、非常に良好に実施し、そして実質的に、エラーの数を減少する。
【0234】
(b.最適化プログラムコーラー)
この実施形態におけるこのコーリングストラテジーは、対立遺伝子のシグネチャーについての合理的なモデルが、本来の信号の近似を確立するのに使用され得るという仮説に基づく。次いで、この近似は、本来の信号から減算される。最も小さい有意の誤差を生じる概算が、対立遺伝子の位置を与える。
【0235】
対立遺伝子シグネチャーを試験する上で、PCRスタッターおよびA歪みは、理想的な孤立したピークを修飾する。ノイズと組み合わさったこれらは、対立遺伝子のピークの位置決めを困難にする。図13は、信号に対するそれらの効果を示す。ここで、PCRスタッターは、212bpおよび223bpにおける主要信号の左側に一連の縮小ピークとして現れ、そしてA歪みは、主要ローブの右側に小さなピークとして現れる。
【0236】
PCRスタッターピークが一定の割合で減少すると想定し、そしてA歪みに値を割り当てることにより、対立遺伝子シグネチャーの単純なモデルは、以下の3つの情報を用いてパラメータ化される:
・対立遺伝子の位置;
・対立遺伝子の高さ;
・パーセンテージスタッター。
【0237】
従って、検索空間が作製され、ここで、一連の候補対立遺伝子ピークについてのこれらのパラメータの全ての組み合わせが考慮され、そしてそれらの得られる画像が獲得される。次いでこれらの画像は、本来の信号から減算され得、そして最も低い残差を有するパラメータのセットが、ウィナーとみなされる。この方法で、対立遺伝子位置が同定される。これらの実施形態に従うプロセスは、図14にフローチャートで表わされる。
【0238】
これらの実施形態において、再処理工程は、単に、その次元を減少させるために本来の信号をサンプリングする工程のみを含む。これは、その信号;ピークおよび谷の最も重要な特徴を算出することにより実施され得る。このようにコンパクトな形態で信号を表わすことにより、その検索空間は、有意に減少する。これらのピークは、対立遺伝子コールの可能性とみなされる候補対立遺伝子ピークのセットを形成する。再処理後、次の2つのボックスは、可変性のパラメータおよび残差の算出を示す。このプロセスは反復され、そして最後のボックスにおいて、ウィナーの対立遺伝子ピークのセット(1つのピークのセットであり得る)が表わされる。このアルゴリズムの実際の出力は、図15に含まれる。
【0239】
本明細書中に示されるフレームは、2つの場合を実証する;第1(フレーム(a、c、e))は最適な解であり、そして第2(フレーム(b、d、f)により形成される欄)は、近いがその信号を十分に説明せず、そして高い有意の誤差を残す解を示す。両方の場合において、上フレームは、概算された信号を示す。候補対立遺伝子は、赤線の位置により与えられる。中フレームは、異なるスタッターパラメータを与えられた推測される(hypothesized)信号を示す。そして最後に、下フレームは、得られる残差を示す。右側の画像の欄は、より良い仮説を明確に実証し、それによって、ウィナーの仮説が示される。対立遺伝子コールは、提案されたピークの位置(赤線)により与えられる。
【0240】
(c.エンベロープコーラー)
エンベロープコーラーは、一般的に他のコーラーはいかなるコールも生成し得るが、このエンベロープコーラーは、正確であるという高い確率(probably)が存在することを決定する場合に対立遺伝子をコールするのみであるという原理に基づき開発される。エンベロープコーラーがコールを生成する場合、それは極めて正確であり得る。このことは、このコールにおける信頼を高め、そしてこれにより、全てのクラスのデータはさらなる考慮を必要としない。その基礎は、信号のエンベロープの考慮にあり、そして2つの大量のエネルギーが検出されるはずであり(信号中の2つの大きなこぶ)、このデータは、ヘテロ接合性であると決定される。次いで、対立遺伝子コーリングが、単に、各々のこぶにおける最大ピークを見つけることにより実施される。いくつかの単純なヒューリスティック規則が、加えられ、その正確性をわずかに増加し得る。詳細には、これらは、失敗が起こる一握りのケースを網羅し得る。しかし、特定の実施形態において、これらのさらなるヒューリスティクスは、代表的に、省略され、その代わり、全てのコーラーの組み合わせが、このデータのサブセットにおけるほぼ100%のマークに対する信用を増大させるために使用される。特定の実施形態において、これらのコーリングストラテジーは、それら各々が特定のデータの長所を提示する目的において基本的に異なるはずであり、従って、このコーラーへのヒューリスティック規則の追加により、このような実施形態におけるその同一性が失われる。
【0241】
このプロセスを、図16における特定の実施形態に従って説明する。この信号は、6つのパネルに分解され、そしてエネルギーが算出される。p1およびp2と示されたパネルは、それらが最も大きなエネルギーを含むことを示すために影付きで示される。エネルギーはEで示され、そしてこれは信号の二乗の和である。p3と示されたパネルは、3番目に大きなエネルギー含量を含む。特定の実施形態において、このアルゴリズムは、以下の2つの基準が満たされる場合、コールを生成するように進行する。
p2/Ep1 > 0.2
p3/Ep2 < 0.07
このコールは、パネル1およびパネル2の各々における最大値を発見することにより、生成される。等式1および等式2における0.2および0.07の値を、試行錯誤して決定した。これにより、容易に分類されるデータとより不明瞭な場合との間の好適な区別がなされるようである。
【0242】
(2.組み合わせストラテジー)
特定の例において、個々のアルゴリズムは、単独で用いられる場合、最適でないかもしれない。エキスパートのコミッティ(committee of experts)のアプローチにおいて、コールの信頼性の程度は、異なるコーラー間のコンセンサスにおける程度を与えられる場合に正確な解答の統計的な確率に基づく。このことは特に、この実施形態に従うコーラーの1つが、コールが正当であるとみなされる場合にコールを生成するのみであるとみなされる場合に、適当なアプローチである。この実施形態において、データは、以下の5つのカテゴリーのうちの1つに分類される。
【0243】
エンベロープ、最適化プログラム、ヒューリスティックについて同一のコール:これらの3つのアルゴリズムは一致する。これにより、高い信頼性の結果が導かれる。
【0244】
エンベロープはコールせず、最適化プログラム、およびヒューリスティックは一致する:この信号は、分類するのにより困難であるとみなされ、そしてこのプロセスは、2つのより洗練されたアプローチに任される。この結果は、「悪い」データについての上述よりもいくらか信頼性が低くても十分に信頼できることが示される。
【0245】
ヒューリスティックはコールせず、他は一致する:時々、ヒューリスティックアルゴリズムはコールされない。このことは、特に、ノイズの多いデータの場合にあてはまる。このような場合、エンベロープと最適化プログラムとの間の一致が生じる場合に結果が示されるような場合、その結果が示され、そして信頼値が、このような状況が正確である確率として規定される。
【0246】
最適化プログラムコールのみ:これは、データに問題があり、エンベロープアルゴリズムもヒューリスティックアルゴリズムもコールされない状況を網羅する。
【0247】
以前にコールされなかった任意のデータ:データが上述の場合にコールされない場合、コーリングのためのヒューリスティックルーチンに通される。このアルゴリズムは、代表的に、単独で作用する場合のその正確性の観点で、最適化プログラムを凌ぐ。
【0248】
(結果)
異なる研究室からの2つのシリーズのデータに対する結果を、表3に示す。
【0249】
【表2】
Figure 2004516455
表3:コーリングアルゴリズム間の一致を考慮することにより生成される信頼値を示す結果。R1−エンベロープ、R2−最適化プログラム、R3−ヒューリスティック。confを除く全ての欄は、パーセント−年齢である。例−このカテゴリーに属する完全なデータセットにおける例の百分率。ストラテジー、この欄の補正は、このカテゴリーにおける正確である例の百分率を与える。confは、信頼値であり、それは、所定のカテゴリーについてのパーセント補正である。試験されたトレースの総数は:Lab1−10724、Lab2−8000、Lab3−14192である。
【0250】
全ての数字(信頼値を除く)は、百分率である。例と示された欄は、そのカテゴリーに分類されたデータセットの百分率である。次の2つの欄は、正確におよび不正確に分類された欄1からのデータの百分率を列挙する。パーセント補正は、欄confに渡され、信頼値として用いられる。1つの他の偶然の観察は、lab2が、処理するのが非常に困難なデータを所有するということである。このことは、最終レベルの処理に通された例の数により観察され得る。このデータは、ストラグラー(stragler)と示される。ストラグラーは、上記の表3に列挙される4つのカテゴリーのいずれにも適合しない状況を含む。例えば,異なるアルゴリズムが矛盾する対立遺伝子コールを提供する状況は、ストラグラーとみなされる。このデータにおいて、図3におけるデータは、アルゴリズムR3により生成されたコールが、このような状況でアルゴリズムR2により生成されたコールよりも正確であることを示すので、このシステムは、アルゴリズムR2およびR3の対立遺伝子コール結果に矛盾が存在する場合、デフォルトアルゴリズムとしてR3の結果を使用し得る。
【0251】
最後の2列は、データの同一部分についてである。それらは、デフォルトコーラーが、正確なコールより高いパーセントを有する場合、ヒューリスティックであることを示す。
【0252】
別の興味深い機会は、レポートとして顧客にこれらの結果を手渡すことである(特に、コンセンサスが存在しない「分類するのが困難」なカテゴリーに分類された例の場合)。これは、図17の用紙に含まれ得、そしてデータの検査のための見栄えのする補助を提供する。図17は、25のマーカーを示す。いくつかの場合、コンセンサスに達したと考えられるが、そのように示されていない。なぜならば、コールの「同一性」を決定するための閾値が、低く設定されすぎていたからである。しかし、ほとんどの場合、データに問題がある理由が見られ得る。赤円は、ユーザに注釈を与え、3つのレベルのアスタリスクは、下から上に向かって、エンベロープ、最適化プログラム、およびヒューリスティックについてのコールを与える。
【0253】
(結論)
マルチコーラーアプローチは、コールにおける信頼性に確かな数字を提供するという点で、重要である。同様に、どの程度容易にデータが分類されるかに基づきこのデータを異なるカテゴリーに分割することにより、マルチコーラーアプローチは、結果を検査するための方法を提供する点で十分に役立つ。
【0254】
これらの3つの方法は競合すると考えられるべきでないことを心に留めることは、非常に重要である。むしろ、それらが全体的に異なる原理に基づく場合、それらは、お互いを確認するように機能する。ヒューリスティックコーラーは、その背後に膨大な量のドメイン知識を有する。最適化プログラムはより形式的な検出および推定フレームワークを用い、それによって仮説が対立遺伝子位置について形成され、そして最大公算に類似され、信号のエネルギーを最も説明する仮説が、最も可能性のある説明として選択される。エンベロープは、非常に単純な視覚的検査を用いて、容易に分類されるデータを同定する。これらの3つのアルゴリズムは各々、それらの長所を有し、そして協奏形式で作用する場合、非常に屈強なシステムおよびコールの中に含まれ得る高程度の信頼性は、高い信頼性が種々の観点からのコンセンサスを必要とするという事実による。
【0255】
(VI.構造)
図5は、本発明の実施形態が実行される特定の実施形態に従うコンピュータシステム500を示すブロック線図である。コンピュータシステム500は、バス502または他の情報を交換するための他の連絡機構、および情報を処理するためのバス502に接続されたプロセッサ504を含む。コンピュータシステム500はまた、対立遺伝子コールを決定するためのバス502に接続されたメモリ506(このメモリは、ランダムアクセスメモリ(RAM)または他の動的記憶デバイスであり得る)およびプロセッサ504により実行される指示を含む。メモリ506はまた、プロセッサ504により実行される指示の実行中の一時的変数または他の中間情報を保存するために使用され得る。コンピュータシステム500はさらに、プロセッサ504のために静的な情報および指示を保存するためのバス502に接続された読み出し専用メモリ(ROM)508または他の静的記憶デバイスを含む。記憶デバイス510(例えば、磁気ディスクまたは光学ディスク)は、情報および指示を保存するために提供され、そしてバス502に接続される。
【0256】
コンピュータシステム500は、情報をコンピュータのユーザに表示するために、バス502を通じてディスプレイ512(例えば、陰極線管(CRT)または液晶ディスプレイ(LCD))に接続され得る。入力デバイス514(アルファベットキーおよび他のキーを含む)は、プロセッサ504に情報およびコマンドの選択を伝達するために、バス502に接続される。別の型のユーザ入力デバイスは、プロセッサ504に方向情報およびコマンドの選択を伝達するため、およびディスプレイ512においてカーソルの動作を制御するためのカーソルコントロール516(たとえば、マウス、トラックボール、またはカーソル指示キー)である。この入力デバイスは、代表的に、平面における位置をデバイスに特定させる2つの軸(第1軸(例えば、x)および第2軸(例えば、y))における2の自由度を有する。
【0257】
コンピュータシステム500は、対立遺伝子コールを提供し、そして種々のコールについての信頼度のレベルを提供する。本発明の特定の実行と一致して、対立遺伝子コールのための信頼度のレベルを、メモリ506に含まれる1以上の命令の1以上のシークエンスを実行するプロセッサ504に応答する、コンピュータシステム500によって提供する。このような命令を、別のコンピュータ読み取り可能な媒体(例えば、記憶デバイス510)からメモリ506に読み込み得る。メモリ506に含まれる命令のシークエンスの実行は、プロセッサ504に、本明細書中に記載されるプロセス状態を実行させる。あるいは、ハードワイヤードの回路を、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて使用して、本発明を実行し得る。本発明のこのような実行は、ハードウェア回路およびソフトウェアのいずれの特定の組み合わせにも限定されない。
【0258】
用語「コンピュータ読み取り可能な媒体」は、本明細書中で使用される場合、実行のためにプロセッサ504に命令を提供することに関与する、任意の媒体をいう。このような媒体は、多くの形態をとり得、不揮発性媒体、揮発性媒体および伝達媒体が挙げられるが、これらに限定されない。不揮発性媒体としては、例えば、光学ディスクまたは磁気ディスク(例えば、記憶デバイス510)が挙げられる。揮発性媒体としては、ダイナミックメモリ(例えば、メモリ506)が挙げられる。伝達媒体としては、同軸ケーブル、銅ワイヤおよび光ファイバー(バス502を備えたワイヤを含む)が挙げられる。伝達媒体はまた、電磁波および赤外線データ伝達の間に生成されるような、音波または光波の形態をとり得る。
【0259】
コンピュータ読み取り可能な共通の形態としては、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープまたは任意の他の磁気媒体、CD−ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理的媒体、RAM、PROM、およびEPROM、FLASH−EPROM、任意の他のメモリチップまたはカートリッジ、本明細書中以降に記載されるような搬送波、あるいはコンピュータが読み取り得る任意の他の媒体が挙げられる。
【0260】
コンピュータ読み取り可能な媒体の種々の形態は、実行のためのプロセッサ504に対する1以上の命令の1以上のシークエンスを実行することに関与し得る。例えば、これらの命令は、最初に、離れたコンピュータの磁気ディスクで実行され得る。この離れたコンピュータは、そのダイナミックメモリに命令をロードし、そしてその命令を、モデムを使用して、電話回線を通じて送信する。コンピュータシステム500に位置するモデムは、電話回線でデータを受信し得、そしてこのデータを赤外線信号に変換するために、赤外線送信機を使用し得る。バス502に接続された赤外線検出器は、赤外線信号で運ばれるデータを受信し得、そしてバス502にデータを配置し得る。バス502は、メモリ506にデータを運び、プロセッサ504は、ここから命令を取り出し、そして実行する。メモリ506によって受け取られる命令は、必要に応じて、プロセッサ504による実行の前または後のいずれかに、記憶デバイス510に記憶され得る。
【0261】
説明として、本発明の特定の実施形態と一致したシステムは、少なくとも2つの異なる対立遺伝子コーリングアルゴリズムからの入力としてコールを受信するコミッティマシンを提供する。これらのコールを受信することによって、このコミッティマシンは、多様な状態の信頼度のレベルを決定し得る。
【0262】
コミッティ対立遺伝子コーリングアプローチの特定の実施形態の先の記載は、網羅的ではなく、決して特許請求された本発明を限定しない。例えば、先の記載は、特定の対立遺伝子コーリングアルゴリズムに関して主に記載されたが、本発明の概念はまた、任意の他の型の対立遺伝子コーリングアルゴリズム(例えば、CybergeneticsからのTrueAlleleまたはMolecular DynamicsからのGenetic Profilerプログラム)にも適用され得る。異なるアルゴリズムが使用される場合、例えば、データを示す大きいサンプルセットを超えて種々の場合を分析することによって、または実験に基づいてこのような信頼度値を割り当てるアルゴリズムに当業者を精通させることによって、上で考察したような結果の可能な組み合わせについて、信頼度値を割り当て得る。さらに、記載された実行は、ソフトウェアを含むが、本発明は、ハードウェアおよびソフトウェアの組み合わせとして、またはハードウェア単独で実行され得る。本発明は、オブジェクト指向および非オブジェクト指向のプログラミングシステムの両方を用いて実行され得る。
【0263】
(ビンの割り当て)
特定の実施形態において、このシステムは、ビン割り当てアルゴリズムを使用する。特定の実施形態において、サンプルから特にコールされた対立遺伝子データポイントを、集団中の特定の既知の対立遺伝子サイズに一致させることが所望される。特定の実施形態において、このような既知の対立遺伝子サイズは、既に提供されている。ビンは、代表的に、既知の対立遺伝子サイズの中心点および中心点からの所定のプラスおよびマイナスの値から構成される。従って、例えば、特定の実施形態に従うビンは、既知の対立遺伝子サイズの中心点を含み、そして中心点のいずれかの側の0.5ポイントを含む。従って、サンプル由来のデータポイントが、そのビン内に入る場合、それがビンに割り当てられ、そしてそのビンの中心点の値が、与えられる。対立遺伝子がいずれのビン内にも位置しない場合、未知の対立遺伝子として割り当てられる。ビンは、任意の適切なサイズであり得る。
【0264】
特定の実施形態において、ビンを割り当てる統計学的アプローチを開発することが可能である。各ビンの集団頻度を仮定することは公知であり、そして各ビン内の対立遺伝子は、通常は分散され、単純なベイズのアプローチが、ビンを割り当てるために使用され得る。
【0265】
(自動ビン処理(binning))
特定の実施形態において、このシステムは、自動ビン処理アルゴリズムを含む。このような実施形態において、所定の集団についての対立遺伝子ビンを決定し得る。特定の実施形態において、対立遺伝子のサイズが、集団についていまだ知られていない場合、このようなアルゴリズムを使用して、対立遺伝子サイズビンを確立し得る。特定の実施形態において、このようなアルゴリズムを使用して、集団中の既知の対立遺伝子サイズ情報に対して、さらに対立遺伝子ビンを加算し得る。例えば、自動ビン処理コンポーネントを使用して、その集団について既知の対立遺伝子ビン内に入らない対立遺伝子がコールされた場合、集団についてのさらなる対立遺伝子サイズビンを決定し得る。
【0266】
特定の実施形態において、自動ビン処理アルゴリズムは、集団についてコールされた全ての対立遺伝子を収集し、そして自動的に対立遺伝子のデータポイントに基づいて所定のビンの中心に、各々の対立遺伝子を割り当てる。特定の実施形態において、このアルゴリズムはまた、対立遺伝子のデータポイントと、その割り当てられた中心ビン値との間の距離に基づく、各対立遺伝子についてのコストを算定する。従って、さらなるデータポイントは、コストが高いほど、割り当てられたビン中心に入る。特定の実施形態において、次いで、この自動ビン処理アルゴリズムは、全ての対立遺伝子についての総コストを算定する。この総コストが特定の閾値レベルを下回る場合、選択されたビン中心を決定する。この総コストが、その閾値レベルを上回る場合、この自動ビン処理アルゴリズムは、各対立遺伝子にビン中心を再び割り当て、そして総コストが閾値レベルを下回るまで、反復プロセスで総コストを算定する。特定の実施形態において、最終ビン中心が決定された後、ビン中心のいずれかの側の所定の値を、最終ビンを得るために加算する。特定の実施形態において、0.5が、最終ビン幅を得るために、ビン中心の各々の側に加算される。
【0267】
特定の実施形態において、この自動ビン処理アルゴリズムは、自動ビン処理のための典型的なk平均クラスター化アルゴリズムを使用する。特定の実施形態において、このアルゴリズムは、入力サンプルから、全ての対立遺伝子を収集し、その品質評価値が特定の数(0.1)未満である対立遺伝子を除去し(以下の品質評価値の考察を参照のこと)、そして以下の表4に示されるように、ビンを見出すためにこれらを反復プロセスに送り込む。
【0268】
【表3】
Figure 2004516455
次いで、品質評価値を、これらの新たに生成されたビンについてのいくつかの大きいデータセット研究に基づいて、生成する(以下の品質評価値の考察を参照のこと)。
【0269】
(アルゴリズムサブグループ)
特定の実施形態において、このシステムは、前処理アルゴリズムを含み、このアルゴリズムは、基準外検出アルゴリズム、マルチコンポーネント化アルゴリズム、およびベースライン処理アルゴリズムのうち少なくとも1つを含む。
【0270】
特定の実施形態において、このシステムは、データ変換アルゴリズムを含み、このアルゴリズムは、ピーク検出アルゴリズム、サイズ標準一致アルゴリズム、ラダーシフトアルゴリズム、およびサイズコーリングアルゴリズムのうち少なくとも1つを含む。
【0271】
特定の実施形態において、このシステムは、対立遺伝子コールレポーティングアルゴリズムを含み、このアルゴリズムは、対立遺伝子コーリングアルゴリズム、自動ビン処理アルゴリズムおよびビン割り当てアルゴリズムのうち少なくとも1つを含む。
【0272】
(対立遺伝子コールレポート)
特定の実施形態において、この対立遺伝子コールレポートは、対立遺伝子コーリングアルゴリズムが適用された後に提供され得る、レポートされた対立遺伝子コールである。特定の実施形態において、この対立遺伝子コールレポートは、対立遺伝子コーリングアルゴリズムおよび1以上の引き続くアルゴリズムが適用された後に提供され得る。例えば、特定の実施形態において、この対立遺伝子コールレポートは、対立遺伝子コーリングアルゴリズムおよび引き続くビン割り当てアルゴリズムが適用された後に提供され得る。特定の実施形態において、対立遺伝子コールレポートの予測された正確さは、以下に考察されるような特定の品質評価値を考慮して生成され得る。特定の実施形態において、この予測された正確さは、正しいと予測された対立遺伝子コールレポートである。
【0273】
(品質評価値および警告フラッグ)
特定の実施形態において、このシステムは、1以上の品質評価値(QV)および/または警告フラッグを使用する。特定の実施形態において、品質評価値は、データ中のコールされた対立遺伝子の正確さを予測するために使用され得る。特定の実施形態において、品質評価値および/または警告フラッグは、対立遺伝子コールレポートの正確さを予測するために使用され得る。特定の実施形態において、この予測された正確さは、この対立遺伝子コールレポートが正しいか否かの予測である。特定の実施形態において、この品質評価値が所定の閾値を下回る場合、このデータを再びチェックすることが推奨される。特定の実施形態において、この品質評価値がさらなる閾値を下回る場合、このデータを全く考慮しないことが推奨される。特定の実施形態において、この予測された正確さは、対立遺伝子コールレポートが正しいか否かを予測するための値を提供する。
【0274】
品質評価値は、システム内のアルゴリズムのいずれかまたは全てについて使用され得る。例示的な品質評価値を、以下で考察する。
【0275】
(マルチコンポーネント化QV)
特定の実施形態において、このシステムは、マルチコンポーネント化結果の品質評価値を決定するために、マルチコンポーネント化QVを使用する。特定の実施形態において、本明細書中で参考として援用される、2000年1月18日に発行された、Sharafに対する米国特許第6015667号において考察されるような方法を使用し得る。
【0276】
(ベースライン処理QV)
特定の実施形態において、このシステムは、ベースライン処理結果の品質評価値を決定するために、ベースライン処理QVを使用する。例えば、特定の実施形態において、最も可能性のあるモデルが適合する方法がベースライン処理について使用される場合、このモデルの1つのコンポーネントとしてのベースライン処理および他のコンポーネントとしてのフラグメントピークと共に、残りの信号は、ベースライン処理のエラーを示す。
【0277】
(サイズ標準適合(size standard matching)QV)
特定の実施形態において、このシステムは、サイズ標準適合QVを使用して、サイズ標準適合結果の品質評価値(quality value)を決定する。特定の実施形態において、このサイズ標準適合QVは、2つのプロセスを使用して決定される。第一のプロセスは、適合結果から走査数の塩基対比または倍率(これは、比の逆である)を算出するプロセスである。この比が0.25よりも大きい場合(言い換えると、倍率が、1塩基対あたり4つの走査未満である場合)、この適合結果は正確ではなく、品質評価値は0.0である。特定の実施形態において、第二のプロセスは、カイ二乗検定に基づく。この第二のプロセスは、サイズ標準の規定から、これら全てのフラッグメント間の(塩基対における)理論的な(予測される)距離を算出する。適合ピークから、これらのマッピングされたフラッグメント間の(塩基対における)観察された距離を算出する。カイ二乗検定は、これら二組の距離が十分類似しているか否かを見るために行われる。この検定のP値は、適合の品質評価値として報告される。
【0278】
このプロセスの例は、以下である。このプロセスにおいて、観察されるピーク分布が予測されるピーク分布と異ならないという仮定の下にカイ二乗値を決定している。これは、特定の実施形態に従う以下の様式において算出され得る。
【0279】
サイズ決めした後、ピークは2つの値を有する:サイズ(ピークのサイズ)および走査数(ピークを走査する時間)。以下のデータが得られたと仮定する:
【0280】
【表4】
Figure 2004516455
2つの外部ピークを使用して倍率を決定し得る。この場合において、1塩基あたり、(1000−5000)/(300−50)=16走査である。各ピーク対について、これらの間の、観察された塩基対距離を算出し得る。上記データについて(例えば、50bpと100bpのピーク間)、50塩基対距離であると予測されるが、観察された塩基対距離は、809/16=50.5625塩基対である。
【0281】
各ピーク対についてこれを算出することによって、観察されるピーク分布が予測されるピーク分布と異ならないという仮定の下にカイ二乗値を算出し得る。次いで、得られたP値を、サイズ品質評価値として使用する。他のフラッグは、代表的に、これに影響を及ぼさない。
【0282】
(対立遺伝子コーリングQV)
特定の実施形態において、このシステムは、対立遺伝子コーリングQVを使用して、対立遺伝子コーリングアルゴリズムの品質評価値を決定する。特定の実施形態において、1つより多くの対立遺伝子コーリングアルゴリズムが使用され、そして対立遺伝子コーリングQVは、1つより多くの対立遺伝子コーリングアルゴリズムから得られた結果に基づく。特定の実施形態において、1つより多くの対立遺伝子コーリングアルゴリズムについての結果に基づく対立遺伝子コーリングQVは、コンセンサス値またはコンセンサス品質評価値と呼ばれる。
【0283】
特定の実施形態において、対立遺伝子コーリングQVは、各対立遺伝子コーリングアルゴリズムについて作成される。当業者は、種々の対立遺伝子コーリングアルゴリズムについての品質評価値を作成するためのプロセスを決定し得る。特定の実施形態において、対立遺伝子コーリングを生じる各対立遺伝子コーリングアルゴリズムについての品質評価値を平均化することによって、対立遺伝子コーリングアルゴリズムを組み合わせるための、全体の対立遺伝子コーリングQVを作成し得る。特定の実施形態において、対立遺伝子コーリングを生じる対立遺伝子コーリングアルゴリズムの最小の個々の品質評価値を選択することによって、対立遺伝子コーリングアルゴリズムを組み合わせるための、全体の対立遺伝子コーリングQVを作成し得る。特定の実施形態において、対立遺伝子コーリングを生じる対立遺伝子コーリングアルゴリズムの最大の個々の品質評価値を選択することによって、対立遺伝子コーリングアルゴリズムを組み合わせるための、全体の対立遺伝子コーリングQVを作成し得る。特定の実施形態において、1つの対立遺伝子コーリングアルゴリズムのみが対立遺伝子コーリングを生じる場合、この対立遺伝子コーリングアルゴリズムの品質評価値は、全体の品質評価値として使用され得る。
【0284】
1つより多くの対立遺伝子コーリングアルゴリズムが適用される、特定の実施形態において、対立遺伝子コーリングの品質評価値は、異なる対立遺伝子コーリングアルゴリズム間のコンセンサスの種々のカテゴリーに合致する正確なコーリングの割合の観点から作成され得る。例えば、異なる対立遺伝子コーリングアルゴリズムを有する公知の対立遺伝子を用いて多数のサンプルをプロセスし得る。次いで、全ての対立遺伝子コーリングアルゴリズムのコンセンサスが存在し、かつ種々の異なるレベルのコンセンサスが存在する場合(例えば、特定のアルゴリズムがコーリングを生じ、他のアルゴリズムがコーリングを生じない場合)、正確な対立遺伝子のコーリングの割合が決定される。次いで、これらの割合に基づく対立遺伝子コーリングQVを作成し得る。
【0285】
特定の実施形態において、1つの研究室で全ての研究を行わせて、各カテゴリーについての正確な対立遺伝子のコーリングの割合を、QVについて使用し得る。従って、全ての対立遺伝子コーリングアルゴリズムが対立遺伝子をコールする場合、99%の対立遺伝子のコーリングが正確である。すなわち、全てのアルゴリズムが引き続く研究においてコーリングを生じる場合、0.99のQVを使用する。アルゴリズムAおよびBが一致し、アルゴリズムCがコーリングを生じない場合、75%の対立遺伝子のコーリングが正確である。すなわち、このような結果が引き続く研究において得られる場合、0.75のQVを使用する。
【0286】
特定の実施形態において、1つより多くの研究室でこのようなデータを作成させることによって、対立遺伝子コーリングQVを決定し得る。特定の実施形態において、次いで、異なる研究室から得られた結果の各カテゴリーについて、QVの結果を平均化し得る。特定の実施形態において、次いで、異なる研究室から得られた結果の各カテゴリーについて、最小のQVを使用し得る。特定の実施形態において、次いで、異なる研究室から得られた結果の各カテゴリーについて、最大のQVを使用し得る。
【0287】
特定の実施形態において、エンベロープコーラー、最適化コーラーおよびヒューリスティックコーラーを共に使用する場合、対立遺伝子コーリングQVについて、上記で議論される信頼値を使用し得る。例えば、特定の実施形態において、上記表2または表3に示される信頼値を使用し得る。
【0288】
(ヒューリスティックQV)
特定の実施形態において、ヒューリスティック対立遺伝子コーリングアルゴリズムは、いくつかのヒューリスティック規定を使用して、その対立遺伝子コーリングプロセスに適切である(膨大な試験データに基づく)が主観的な品質評価値(qvH)を作成する。特定の実施形態は、以下の規定を用いる:
1.品質評価値は1.0で開始する;
2.ノイズチェッカー(Noise Checker)について、品質評価値は(1.0〜ノイズレベル)を掛ける;
3.特別ピークチェッカー(Special Peak Checker)について、信号が特有のスタッターパターンおよび特有の複数ピークパターンを含むことを、アルゴリズムが決定する場合、品質評価値は、連続して0.5を掛ける。
4.コールされた対立遺伝子ピークが、ユーザが設定可能なピーク高度比、ピーク絶対高度および広範なピーク閾値を妨害する場合、品質評価値はさらに減少される。
【0289】
(自動ビン処理(auto binning)QV)
特定の実施形態において、このシステムは、自動ビン処理QVを使用して、自動ビン処理コンポーネントの品質評価値を決定する。特定の実施形態において、この自動ビン処理QVは、自動ビン処理プロセスの間に決定される。特定の実施形態において、全てのビンの中心を見出した後、自動ビン処理のコンポーネントは、関与する全ての対立遺伝子およびビンの中心を通って繰り返され、残差(平均平方誤差)を算出する。この残差は、マーカー反復によって調整される。この調整した残差ARは、ビン処理品質評価値のための決定因子として使用される。特定の実施形態において、膨大なデータセット検索から、以下の規定が見出される。ARが0.30未満の場合、ビン処理は良好であり、手動検査は必要なく、そして品質評価値は1.0に設定される。ARが0.30と0.40との間である場合、ビンは良好であるようであり、いくつかのビンをチェックする必要があり、そしてその品質評価値は0.50に設定される。ARが0.40より大きい場合、ビンは受容不可能であり、対立遺伝子のサイズにおいていくつかの誤差が存在し得、全てのビンをチェックする必要があり、そしてその品質評価値は0.0に設定される。また、特定の実施形態において、ユーザが自動ビン処理コンポーネントを用いることなくビンをセットする場合、品質評価値は1.0に設定される。
【0290】
(ビン割り当て(bin assigning)QV)
特定の実施形態において、このシステムは、ビン割り当てQVを使用して、サンプルの対立遺伝子の割り当ての品質評価値を決定してビンを設定する。特定の実施形態において、このビン割り当てQVは、ビンの中心から所定の対立遺伝子が配置された位置までの距離によって決定される。特定の実施形態において、このビン割り当て値QVは、対立遺伝子がビン内で減少する場合、1に設定し、対立遺伝子がビン内で減少しない場合、0.1に設定する。
【0291】
(対立遺伝子コーリング警告フラッグ)
特定の実施形態において、このシステムは、ユーザの複数の警告フラッグを報告している。この警告フラッグは、データの精度に関する潜在的な問題が存在し得ることをユーザに警告する。特定の実施形態は、以下の警告フラッグを用いる:
(オフスケール)
オフスケールピークがコーリング範囲内に存在する場合、このフラッグを設定する。(このコーリング範囲は、サイズコーリングが行われた後に算出される)
(スパイクピーク)
スパイクピークがマーカー信号中に存在する場合、このフラッグを設定する。特定の実施形態において、クラスターにおける最も狭いピークが隣接したピークより50%少ない幅を有する場合、このフラッグを設定する。
【0292】
(1塩基対ピーク)
1塩基対の対立遺伝子がマーカー信号中に存在する場合、このフラッグを設定する。例えば、特定の実施形態において、1塩基対のみによって分離された2つのコールされた対立遺伝子が存在する場合、このフラッグを設定する。
【0293】
(ピーク高度比)
2つの対立遺伝子が存在し、かつ低い対立遺伝子高度と高い対立遺伝子高度との間の比が特定のレベルより低い場合、このフラッグを設定する。特定の実施形態において、このレベルを0.5に設定する。
【0294】
(ピーク絶対高度)
対立遺伝子が特定の値よりも小さい場合、このフラッグを設定する。特定の実施形態において、ホモ接合の場合、これらの値を200に設定し、ヘテロ接合の場合、これらの値を100に設定する。
【0295】
(ビン処理問題(binning problem))
コールされた対立遺伝子がユーザの規定した任意のビンに割り当てられない場合、このフラッグを設定する。
【0296】
(ブリードスルー)
マーカー信号がブリードスルーピークを含む(ピークを上昇させる)場合、このフラッグを設定する。特定の実施形態において、1走査内に異なる色のピークが存在し、かつこのピークが、より大きなピークの20%未満である場合、ブリードスルーが検出される。
【0297】
(ブロードピーク)
コールされた対立遺伝子のピーク幅が特定の値よりも広い場合、このフラッグを設定する。特定の実施形態において、この値を1.5塩基対に設定する。特定の実施形態において、ピーク高度の半分で、ピーク幅を測定する。
【0298】
(バックグラウンドピーク)
マーカー信号が単一(孤立)ピークを含む場合、このフラッグを設定する。特定の実施形態において、バックグラウンドピークは、クラスターに適合しないピークである。特定の実施形態において、マイクロサテライトのパターンに適合しない、大きなピークのそばに小さいピークが存在する場合、バックグラウンドピークが存在すると決定する。このようなバックグラウンドピークは、スラブゲル電気泳動におけるいくつかの誤差に起因して生じ得る。
【0299】
(スプリットピーク(split peak))
特定の実施形態において、以下のデータが得られる場合、このフラッグを設定する:
【0300】
【表5】
Figure 2004516455
・a/b>10およびz/w>10、ならびに2つのピーク間の距離が0.25塩基対未満、または、
・a/b>8およびz/w>40、ならびに2つのピーク間の距離が0.25塩基対未満。より高いピークをリアル対立遺伝子として使用する。
【0301】
(対立遺伝子誤差の数)
対立遺伝子の数が、種について起こり得る最大数を越えるか、または対立遺伝子が見出されない場合、このフラッグを設定する。
【0302】
以下の表5は、本発明の特定の実施形態を示し、種々のワーニングフラッグを用いている:
(表5−−使用されるフラッグの要約(黒丸=使用;および空白=未使用)
【0303】
【表6】
Figure 2004516455
オフスケールもまた、特定の実施形態に従って、3つ(連結ジヌクレオチド、連結トリおよびテトラ、ならびにHIDトリおよびテトラ)全てに使用される。
【0304】
対立遺伝子ラダーサンプルに対して使用されない。
【0305】
(対立遺伝子コールレポートQV)
特定の実施形態において、このシステムは、対立遺伝子コールレポートQV(全体品質評価値とも呼ばれる)を用いて、対立遺伝子コールレポートの品質評価値を決定する。(上で議論されるように、対立遺伝子コールレポートは、対立遺伝子コーリングアルゴリズムおよびビン割り当てアルゴリズムを適用した後、提供される)。
【0306】
特定の実施形態において、一連の個々のアルゴリズムコンポーネント品質評価値からの品質評価値の積分に基づいて、対立遺伝子コールレポート品質評価値を生じ得る。
【0307】
qv対立遺伝子=qvサイズ適合Xqv対立遺伝子ピークピックXqvビンアサインXqvビン
qvサイズ適合は、サイズ適合アルゴリズムに由来する。
【0308】
Qv対立遺伝子ピークピックは、対立遺伝子ピークピッキングアルゴリズムに由来する。このシステムが、2つ以上の対立遺伝子ピークピッキングアルゴリズムを使用する場合、Qv対立遺伝子ピークピックは、コンセンサス値であり得る。
【0309】
Qvビン割り当ては、ビン割り当てアルゴリズムに由来する。
【0310】
Qvビンは、集合に対するビンの設定に由来する。特定の実施形態において、この値は、自動ビン処理アルゴリズムによって生じる。ビンが、ユーザによって特定されない限り、qvビンは、1.0である。
【0311】
特定の実施形態において、以下の品質評価値のいずれかまたは全てに基づいて、対立遺伝子コールレポート品質評価値を生じ得る。特定の実施形態において、対立遺伝子コールレポート品質評価値を、以下で使用される2つ以上の個々の値またはフラッグを乗算することによって、生じる。
【0312】
サイズ適合QV
対立遺伝子ピークピッキングQV(特定の実施形態において、これは、コンセンサス値であり得、内部較正に基づく割合である。ラダーを含む特定の実施形態において、コンセンサス値よりむしろマーカー品質評価値を使用し得る。)
ビン割り当てQV
自動ビン処理QV
以下のフラッグのいずれかがセットである場合、0.5の倍数が各場合に使用される:バックグラウンドピーク、オフスケール、ピーク高の割合、ピークの絶対的高さ。ピーク高の割合の場合に、高さの低いほうの対立遺伝子が左にある場合、0.5の代りに0.25の倍数を使用する。
【0313】
多くの対立遺伝子エラーフラッグが存在する場合、品質評価値を0に設定する。
【0314】
ユーザが、手動で、品質評価値に影響されたデータのいずれかを編集する場合、この値は、編集される因子について、1に設定される。
【0315】
特定の実施形態において、2つを超える対立遺伝子が存在する場合、全ての対立遺伝子の品質評価値を平均化して、遺伝子型品質評価値を提供し得る。このような実施形態において、各対立遺伝子は、それ自体の品質評価値を有し、これらの品質評価値の全てを平均化して、遺伝子型品質評価値を得る。
【0316】
特定の実施形態において、同じマーカーに対して、個々に生じるいくつかの対立遺伝子コールレポートQVの平均値に基づいた対立遺伝子コールレポートQVを生じ得る。
【0317】
(ヒトの同定)
特定の実施形態において、このシステムは、ヒトの同定に使用される。このような特定の実施形態において、所定の集団に対する各マーカーにおいて異なる既知の対立遺伝子を含む特定の所定のマーカーが存在する。各マーカーに対して、既知の対立遺伝子を、ユーザに、生じたデータを比較し得るラダーとして提供する。このラダーは、異なる大きさのヌクレオチドを含む試料であり、所定のマーカーに対する特定の対立遺伝子にそれぞれ対応する。
【0318】
ユーザはまた、ビンが、ラダー中の各対立遺伝子に対する、大きさの異なるヌクレオチドのそれぞれの予想される大きさにそれぞれ対応するビン中央を有することを知らされる。実行から実行および機器から機器について、プロセスにおいてラダーを用いる場合、これらのラダーの位置に対して特定のシフトが存在し得る。換言すれば、実験においてラダーを用いる場合、生じたデータは、ラダーピークサイズを含み得、これは、予測されるビン中央に正確には対応せず、予測されるビン中央より多くのピークを含み得る。従って、特定の実施形態において、ラダーシフトアルゴリズムを用いて、これらのラダーシフトおよび/またはさらなるピークの原因となるビン位置を調節し、実験試料中の対立遺伝子の大きさを決定するのに、調節されていないビン位置より正確な結果を提供し得るビンを提供し得る。
【0319】
特定の実施形態において、ラダーシフトを見出すために、このシステムは、ラダーの位置を見つけ(ユーザにより報告される、ラダーの対立遺伝子についてのビン中央を予測する、ビン規定を調査することによる)、動的プログラミングアルゴリズムを用いて、ビン位置をラダー信号のピークに一致させる。特定の実施形態において、ラダーファイルで得られる正確なピークと、ビン規定(報告された予想されるビン中央)を一致させることにより、ラダーのシフトおよび/または余分なピークを説明するために、上で議論されるようなサイズ標準適合アルゴリズムを用い得る。特定の実施形態において、ラダーが典型的に、非常に強い信号なので、適合アルゴリズムは、最小ピーク高の100〜150rfuを用いる。適合の後、シフトを、各ラダービン規定/ピーク対について計算する。
【0320】
次いで各ラダーに、試料から得られたピークを割り当てるために、改訂されたビンを提供する。例えば、システムがサンプル中の対立遺伝子をコールした後、この対立遺伝子を、シフトを用いて調節されたビンに対して割り当てる。
【0321】
特定の実施形態に従って、このプロセスは、表5のフローチャートを用いて進む:
【0322】
【表7】
Figure 2004516455
特定の実施形態において、上で議論されるサイズ標準適合コンポーネントを、以下のラダーシフトに対して用いる。これらの実施形態において、所定のラダー内の対立遺伝子は、ビンに割り当てられる。特定の実施形態において、ユーザはまた、仮想ビンに対して警告される。仮想ビンは、対立遺伝子がその中に存在し得るが、可能性のある対立遺伝子は、ラダーにおいて提供されないビンである。特定の実施形態において、ラダー中で、実際の対立遺伝子について決定されたシフトが存在する場合、仮想ビンは、シフトされる必要があり得る。以下の記載において、このシフトは、各マーカーのラダーに対して、他のマーカーに対する他のラダーとは無関係に検出される。
【0323】
特定の実施形態において、上で議論される、サイズ標準適合セクションにおける、サイズ標準適合アルゴリズムを用いて、ラダーで生じたデータを、ラダーにおいて実際に観察されるピークに対して、予測されるピークを一致させることによって評価する(特定に実施形態において、100rfuを超えるピークを用いる)。
【0324】
・特定のマーカーに対する所定のラダーの予想数より少ないピークが観察される場合、ラダーを分析におけるマーカーとして用いるべきではない(この結果は、各マーカーに対する各ラダーに無関係に決定されることに注意)。
【0325】
・特定のマーカーに対する所定のラダーの予想数より多いピークが観察される場合、サイズ標準適合コンポーネントは、観察されるパターンを予測されるパターンに合わせるよう試みる。
【0326】
・適合がうまくいく場合、特定の実施形態において、マーカー品質評価値(ラダーシフト品質評価値とも呼ばれる)を生じる。特定の実施形態において、マーカー品質評価値は、上で議論される、サイズ標準適合QVセクションにおける、同一の技術を用いて生成される。(このマーカー品質評価値は、対立遺伝子コーリング品質評価値の代わりに、全体の遺伝子型クオリティーにおいて用いられる。)
余分なピークは、必ずしも低い品質評価値を生じないことを注意する。
【0327】
ここで、このアルゴリズムは、どのラダーピークがどのビンを表すかを認識する。これは、上で計算される対立遺伝子ラダーピークサイズを獲得し、そして予測されるビン中央の値をこれから減算する。これは、対立遺伝子ラダーファイルにおけるビンに対して、ビンシフトを提供する。任意の仮想ビンは、最も近いラダービンと同じその左側へのシフトを与えられる。従って、ラダーファイルが、予測されたビン中央から+0.2シフトした対立遺伝子ビン中央を有する場合、このようなラダービンの右側の仮想ビンはまた、+0.2シフトした中央を有する。
【0328】
特定の実施形態において、このシフトは、各マーカーについて計算されて、各ラダーファイルからのビンシフトは、計算され、保存される。特定の実施形態において、所定のラダーは、このプロセスにおいて1回より多く実行される。このような実施形態において、任意のビンシフトを、ラダーと交差する個々のビンを平均化することにより、平均化し得る。例えば、マーカーXにおけるビンが、+1、+2および+0のシフトを、マーカーXに対する3つの分離した試料ラダー中に有することが想定される。平均シフトは、+1)である。(これらのビンシフトが重複したビンを生じるか否かについて調べていないことを注意する。)また、平均は、単回の実行で使用される、全てのラダーファイルに、わたることに注意する。特定の実施形態において、個々の実行は、同じフォルダ中の全てのファイルである。
【0329】
(ビンシフトの使用)
ピークが、試験試料中の対立遺伝子であることを決定した後、このピークサイズを、シフトしたビンと比較して、どのビンがどこに配置されるべきかを決定する。試験対立遺伝子が、1つのビン内に入る場合、このような対立遺伝子が、このビンに対応するラダーの特定の対立遺伝子に対応することを結論付け得る。この対立遺伝子が1つより多いビンに割り当てられ得るかまたはビンに割り当てられ得ない場合、この対立遺伝子は、オフラダー対立遺伝子として表示される。
【0330】
(特定の実施形態に従うシステムコンポーネント)
図18は、特定の実施形態で使用するための、より詳細なデータ処理システム100の図を示す。システム100は、メモリ120、補助的保存装置130、中央処理装置(CPU)140、入力装置150およびビデオディスプレイ160を備える。メモリ120は、規定を伴う適合インラインサイズ標準に対するアルゴリズムならびに連結マッピングマーカーおよびヒト同定マーカーに対するアルゴリズム備えたソフトウェア122を備える。
【0331】
本発明の局面は、メモリに保存されるよう記載されるが、当業者は、これらの局面を、他のコンピュータ読み取り可能な媒体(例えば、ハードディスク、フロッピー(登録商標)ディスクおよびCD−ROMのような補助的保存装置;インターネットのようなネットワークから受信する搬送波;またはROMもしくはRAMの他の形態)上に保存するか、またはこれから読み取り得ることを理解する。さらに、システム100の特定のコンポーネントおよびプログラムが記載されるが、当業者は、これが、付加されるかまたは異なるコンポーネントもしくはプログラムを備え得ることを理解する。
【図面の簡単な説明】
【図1】
図1は、対立遺伝子コールを提供する場合の、本発明の特定の実施形態と一致した方法およびシステムを用いる使用についての概要ブロック図を示す。
【図2】
図2は、本発明の特定の実施形態と一致した方法およびシステムを実施する場合の、対立遺伝子コールを処理しているデータ処理システムによって行われる工程のフローチャートを示す。
【図3A】
図3Aは、本発明の特定の実施形態と一致した方法およびシステムを用いて使用するための、例示的な対立遺伝子コールアルゴリズムを示す。
【図3B】
図3Bは、本発明の特定の実施形態と一致した方法およびシステムを用いて使用するための、例示的な対立遺伝子コールアルゴリズムを示す。
【図3C】
図3Cは、本発明の特定の実施形態と一致した方法およびシステムを用いて使用するための、例示的な対立遺伝子コールアルゴリズムを示す。
【図3D】
図3Dは、本発明の特定の実施形態と一致した方法およびシステムを用いて使用するための、例示的な対立遺伝子コールアルゴリズムを示す。
【図4】
図4は、本発明の特定の実施形態と一致した方法およびシステムを用いて使用するための、図1のコミティマシンによって実行される工程のフローチャートを示す。
【図5】
図5は、本発明の特定の実施形態と一致した方法およびシステムを実行するためのシステムのブロック図を示す。
【図6】
図6は、本発明の特定の実施形態を使用して生成され、次いで解釈され得るデータを示す。
【図7】
図7は、実施例II(エンベロープコーラー)において議論されるデータを示す。
【図8】
図8は、実施例III(最適化プログラムコーラー)において議論されるデータを示す。
【図9】
図9は、実施例III(最適化プログラムコーラー)において議論される対立遺伝子を検索するための方法を示す。
【図10】
図10は、特定の実施形態に従うヒューリスティックアルゴリズムを用いて評価され得るデータを示す。
【図11】
図11は、特定の実施形態に従う動的アルゴリズムを用いて評価され得るデータを示す。
【図12】
図12は、特定の実施形態に従う動的アルゴリズムを用いて評価され得るデータを示す。
【図13】
図13は、代表的な標準的ヘテロ接合性対立遺伝子のサインを示す。(丸印は、ユーザが注釈をつけた対立遺伝子コールを示す。x軸は、塩基対である。y軸は、A/Dカウント(電圧強度)である。)
【図14】
図14は、実施例V(コミティマシン処理)において議論される実施形態に従う、対立遺伝子コールルーチンにおける工程を示す。まず、サンプリングを介して信号が単純化され、そしてそのピークが位置決めされる。これは、近似されるべき標的信号を形成する。この2つの相互連結されたボックスは、パラメータを変更するプロセス、および得られた信号が最初のサンプリングされたバージョンとどれだけ近く一致しているかを試験するプロセスを示す。最も近い一致を生じるパラメータのセットは、対立遺伝子コールを含む。
【図15】
図15は、実施例V(コミティマシン処理)において議論されるデータを示す。これは、最適化ルーチンにおける仮説の形成を示す。2つの列は、最適な解(左列)および最適以下の解(右列)を表す。パネル(a)は、標的ベクトルおよび候補ピークの位置を示す2本の赤線を示す。パネル(c)は、スタッターおよびAの異なる値を使用して形成された仮説を示す。パネル(c)は、パネル(a)における信号からのパネル(c)における信号の差し引きから生じる残留誤差を示す(誤差平方和=0.0355)。パネル(b,d,f)は、わずかに異なる対立遺伝子仮説についての同じプロセスを示す。これは、質の悪い仮説であり、残差は多少有意である(SSE=0.4715)。このx軸は、この点ではいくらか無意味である。なぜなら、これは、成功する仮説を選択した後に、塩基対指数にマッピングし戻されるためである。
【図16】
図16は、実施例V(コミティマシン処理)において議論されるデータを示し、そしてエンベロープコーラーアルゴリズムによるヘテロ接合体の信号のパネルへの分割を示す。これらのパネルは、信号エネルギーに従って順位付けされ、そして目的の3つがp1、p2およびp3と標識され、そして強い対立遺伝子サインを含む2つのパネルが、青で陰を付けられている。丸印は、ユーザが注釈をつけた対立遺伝子コールを示す。(x軸は、塩基対である。y軸は、A/Dカウント(電圧強度)である。
【図17】
図17は、実施例V(コミティマシン処理)において議論されるような、レポートが達成され得る方法の例を示す。これらは、一致に至らなかった場合の例であり、そして解釈が困難なデータを示す。
【図18】
図18は、特定の実施形態に従うシステムの概要ブロック図を示す。
【図19】
図19は、信号が「構造」を含まない場合の、ベースライン決定の際のlocalvectorMinの影響の例示的データを示す。(「構造」は、ピークのような「有用な情報」である)。
【図20】
図20は、ポジティブな構造を排除した特定の実施形態に従う例示的データを示す。
【図21】
図21は、ネガティブスパイクを排除した後の、例示的な底部ベースラインを示す。
【図22】
図22は、ベースライン決定が頂部と底部の平均を取ることによって行われる場合の、特定の実施形態に従う例示的なデータを示す。
【図23】
図23は、特定の実施形態に従うベースライン決定した信号を示す。
【図24】
図24は、特定の実施形態に従う例示的なデータを示す。
【図25】
図25は、特定の実施形態に従うピーク位置の詳細を示す例示的なデータを示す。
【図26】
図26は、ピークが対称である場合の、例示的なデータを示す。
【図27】
図27は、ピークが対称ではない場合の、例示的なデータを示す。
【図28】
図28は、ピークが対称ではない場合の、例示的なデータを示す。
【図29】
図29は、図28において赤でマークした領域を拡大する。
【図30】
図30は、特定の実施形態に従う多項式をあてはめることによって一次導関数を算出することによる、例示的なデータを示す。
【図31】
図31は、特定の実施形態に従う導関数をスムージングするためにkを使用する、例示的なデータを示す。
【図32】
図32は、特定の例示的データにおけるピークを示す。
【図33】
図33は、特定の例示的データにおけるピークを示す。
【図34】
図34は、特定の実施形態に従う、特定の人為産物を回避するための方法を示す。
【図35】
図35は、ショルダーを有するピークを示す例示的データを示す。
【図36】
図36は、特定の実施形態において、二次導関数を分析することによってショルダーを見出し得る方法を示す、例示的データを示す。
【図37】
図37は、特定の実施形態において、二次導関数を分析することによってショルダーを見出し得る方法を示す、例示的データを示す。
【図38】
図38は、特定の実施形態に従う、ピーク検出者のショルダー検出の最終結果を示す。
【図39】
図39は、ピーク、サイズおよび一致の例示的データを示す。
【図40】
図40は、特定の実施形態に従う実行時間のメッシュを示す。
【図41】
図41は、各曲線が、特定の実施形態に従う余計なピークの数を一定に保ち得る方法を示す。
【図42】
図42は、各曲線が、特定の実施形態に従うサイズ標準規定において、サイズ数を一定に保ち得る方法を示す。
【図43】
図43は、特定の実施形態に従う線形補間を示す。
【図44】
図44は、特定の実施形態に従う線形補間を示す。
【図45】
図45は、特定の実施形態に従うサイズコールアルゴリズムの例示的データを示す。
【図46】
図46は、特定の実施形態に従うシステムのフローチャートを示す。[0001]
(Field of the Invention)
The present invention relates to data methods and systems for assigning values to nuclear information. In certain embodiments, the methods and systems are used to assign values to alleles.
[0002]
(Background of the Invention)
There are many techniques for analyzing nucleic acid information. For example, certain techniques involve the study of genetic polymorphisms. Polymorphisms involve differences in predetermined portions of a nucleic acid sequence among different individuals in a population. Such polymorphisms can occur in regions where the nucleic acid does not encode a protein. In such regions, there are often multiple repeats of a given short sequence. For example, there may be multiple repeat regions of a given dinucleotide (eg, GC or CA), trinucleotide, or larger repeat unit. Larger repeat units (more nucleotide bases within the repeat motif) are often referred to as "minisatellites." Smaller repeat regions (1, 2, 3, 4, 5, or 6 nucleotides within a repeat motif) are often referred to as "microsatellites" or "short tandem repeats (STRs)." . Through evolution, individuals often differ in the number of repeats at a given locus.
[0003]
Such repetitive regions can serve as genetic markers. This is because individuals may differ in the number of repeats at a given locus (location) or at many loci (locations). Each different form at a given locus is known as an allele. These differences at a given location can serve as useful genetic markers for many purposes, including the active identification of individuals from genetic material based on the unique genetic pattern of such individuals. .
[0004]
Also, inter-individual variation may be indicative of a predisposition to a disease or other genetic condition. Linkage studies also involve allele determination.
[0005]
Therefore, much effort has been focused on the active identification of specific alleles at a given locus. For example, a method for determining the number of dinucleotide repeats at a given locus involves the use of PCR to amplify the region of interest. Primers are used to locate a particular locus in the sample and to initiate amplification. After amplification, the particular allele at a given locus in the sample is determined by determining the fragment length of the amplified material. By determining the fragment length, the number of dinucleotide repeats at that locus can be determined. Thus, a particular allele at that locus is identified.
[0006]
However, artifacts can be generated in this process, which can make accurate determination of the actual allele at a given locus difficult. These artifacts can be the result of a stutter in PCR, which can result from errors in the amplification of repeated nucleotides in the region under study. In particular, the polymerase in a PCR reaction can slip or miss one or more of the repeating units present in the studied nucleic acid region. In addition, extra A nucleotides can be added during amplification. Thus, when PCR stutters and / or additional A variants occur, the amplification product typically lacks the correct amplified allele as well as one or more of the allelic repeat units. Shorter iterations are also included. In fact, the data may show multiple peaks of various lengths, where the data should reflect only one length.
[0007]
At various stages of the allele determination process, providing improvements such as increasing the level of accuracy and certainty in a given allele result obtained from the generated data may also be provided. Is useful.
[0008]
(Summary of the Invention)
Certain embodiments of the present invention provide a computer-implemented method for making an allele call. In certain embodiments, the method includes:
Receiving data representing nucleic acid information;
Applying at least two different allele call algorithms to the data to provide a result for each algorithm; and
Identifying allelic calls in this data, depending on the agreement between the results of each algorithm, and assigning a level of certainty for each call.
[0009]
Certain embodiments of the present invention provide a computer-implemented method for obtaining an allele call report, the method comprising the following steps:
Receiving data representing nucleic acid information;
Applying at least two different algorithms to this data to provide an allele call report;
Generating a quality estimate for a first algorithm based on one of at least two different algorithms;
Generating a quality estimate for a second algorithm based on the other of the at least two different algorithms;
Generating an allele call report quality value based at least on the quality values of the first and second algorithms;
Estimating the accuracy of the allele call report in consideration of the quality evaluation value of the generated allele call report.
[0010]
In accordance with certain embodiments of the present invention, a unique call algorithm is also provided.
[0011]
This patent document contains at least one drawing executed in color. Copies of this patent, including color drawings, will be provided by the Patent Office upon request and payment of the necessary fee.
[0012]
According to certain embodiments, the system may include one or more of the algorithms shown in FIG. 46 that generate an allele call report.
[0013]
(Detailed description)
The following detailed description of the invention refers to the accompanying drawings. This description includes exemplary means, but other means are possible and changes can be made to the described means without departing from the spirit and scope of the invention. The following detailed description does not limit the invention. Rather, the scope of the present invention is defined by the appended claims. Wherever possible, the same reference numbers will be used throughout the drawings and the following description to refer to the drawings and the following description or portions thereof. Several documents are discussed throughout this application. All of these documents are specifically incorporated herein by reference in their entirety for any purpose. Applicants "Applela Corporation", inventors Heinz Breu and Hugh J., cited under the title of the invention "Methods and systems for evaluating the agreement between measured data and standards". Patent Cooperation Treaty Application No. ______ (not assigned), filed as Pasika, filed July 23, 2001, is incorporated by reference for any purpose.
[0014]
The following definitions are provided for terms used in this application.
[0015]
"Allele"-an allele is one of two or more alternatives at the same locus. For a given locus, a diploid organism may be homozygous (having the same allele on each of the two homologous chromosomes) or heterozygotes (a different allele on each of the two homologous chromosomes). Having a gene). Non-diploid organisms can have more than two alleles.
[0016]
"Allele calling"-When fragment analysis is performed, the region of the nucleic acid that includes the marker is flanked by known primer sites that allow for allele localization. For example, changes in alleles can result in different fragment lengths. Thus, for these alleles, determining the length of the nucleic acid sequence between the primers is called allele calling. For example, if two alleles are present, there are two fragments of the nucleic acid having different lengths.
[0017]
"Locus"-a unique chromosomal location that defines the position of an individual nucleic acid sequence.
[0018]
“Allele signature” —During PCR amplification, a stutter of PCR often occurs, which results in additional peaks appearing in the expected pattern. Another artifact that can occur is + A strain. The combination of the original signal, stutter, and other artifacts is called an allele signature.
[0019]
“Marker” —A marker may be considered as a landmark in the genome and may appear in a non-coding region of a nucleic acid. Their use in linkage mapping results from these polymorphisms. There are many different types of markers.
[0020]
"Algorithm"-An algorithm is a process of one or more steps for achieving a result. In this application, the term “component” is used interchangeably with the term “algorithm”.
[0021]
Unless otherwise indicated, use of the singular in this application includes the plural. For example, use of the term "algorithm (singular)" includes at least one algorithm, but may include more than one algorithm.
[0022]
(system)
According to a particular embodiment, the system includes one or more of the algorithms or components shown in the flowchart shown in FIG. The following sections discuss each algorithm shown in this flowchart. In certain embodiments, the system includes all of the algorithms in FIG. In certain embodiments, the system does not include all of these algorithms. In certain embodiments, the system may obtain information already subjected to one or more previous algorithms shown in FIG. 46, and then proceed with one or more subsequent algorithms shown in FIG. For example, the system may start with information already subjected to an offscale and multicomponenting process or similar process, and then proceed with one of the subsequent algorithms shown in the flowchart. I do. In certain embodiments, a system may provide information from an algorithm to another system, which then uses that information to obtain results.
[0023]
In certain embodiments, the system allows for automated scoring or sizing of DNA fragments. In certain embodiments, these fragments are predominantly microsatellites, but other markers (eg, amelogenin, snp markers) can be used. Scores from these markers can be used for various applications. Two non-limiting applications for specific embodiments of this system are Linkage Mapping and human identification (HID) database.
[0024]
In certain embodiments of linkage mapping, allele calls from multiple samples of related individuals are used to define the DNA region where the gene of interest is located.
[0025]
In certain embodiments of human recognition (HID), genetic calls for a set of markers form a profile for an individual. This can be stored in a database and compared to profiles obtained from crime scenes to match allegations of crime. Individual profiles can also be used to determine paternity.
[0026]
The following description of the algorithms and processes that may be used for a particular embodiment consistent with the present invention includes a discussion of the particular algorithm that may be applied to achieve a particular desired result. For convenience, specific names have been chosen to refer to these algorithms. However, systems and methods consistent with the present invention are not limited to the disclosed algorithms. These systems and methods may include other algorithms that provide the same or similar results.
[0027]
(Off-scale detection)
In certain embodiments, the system includes an off-scale detection algorithm. If the data (eg, fluorescence signal) in any filter for a particular number of scans is greater than the set maximum, the off-scale detection algorithm treats this position (number of scans) as off-scale. Thus, a flag is set for that data for that scan number. In certain embodiments, off-scale detection is performed in a data collection process. In such and certain other embodiments, the system need not perform off-scale detection.
[0028]
(Multi-component)
In certain embodiments, the system includes a multi-component component for the sample file. The multi-component conversion algorithm is a process of converting optically filtered data into dye density data. For example, the raw data may include the fluorescence of overlapping different colored dyes. Multicomponenting purifies such signals so that signals from different dyes do not interfere with signals from each other dye. In certain embodiments, the multi-componentization process takes a read of the matrix values from the sample file and multiplies this with the raw signal to obtain multi-componented signal data.
[0029]
For example, in certain embodiments, the raw data signal F is a list of f-tuples that provide a response from each of the f optical filters used by the device. This information is converted into a list D of d-tuples that provide the concentration of each dye. To be implemented in this way, the system provides a chemistry measurement matrix M (where D = FM). Thus, the system simply multiplies the vector of the filter response by the chemistry measurement matrix.
[0030]
In certain embodiments, multi-componenting is performed in a data collection process. In such and certain other embodiments, the system need not perform multi-componentization.
[0031]
(Baseline processing)
In certain embodiments, the system includes a baseline algorithm that subtracts a particular baseline shift from the signal. In certain embodiments, the baseline shift may be caused by an impaired operating condition (eg, a temperature fluctuation or a difference in loading conditions). For example, a baseline shift can occur at different pressures when using capillaries, or at different volumes when loading capillaries.
[0032]
In certain embodiments, the baseline algorithm uses three parameters (window size, smooth size, and spike size). In certain embodiments, the system fixes the smooth size to -1 (no smoothing) and the spike size to 21. In certain embodiments, the system uses different window sizes for different devices. For example, for Applied Biosystems 310 and 377 devices, the system uses 99 for the window size, and for Applied Biosystems 3700 devices, the system uses 251 for the window size.
[0033]
In certain embodiments, the baseline algorithm finds a baseline at the bottom of the lip that rides on the noise and a baseline at the top that rides on the noise. The baseline algorithm then averages the two.
[0034]
In certain embodiments, the baseline algorithm operates by finding minimum and maximum values in the signal. In certain embodiments, the baseline processing component has a window size k = 2k for x points2At +1, the maximum signal value, localVectorMax, is defined.
[0035]
(Equation 1)
Figure 2004516455
The parameter k is called “baseline window size”. Similarly, the baseline processing component has a window size of 2k for x points.2At +1, the minimum signal value, localVectorMin, is defined.
[0036]
(Equation 2)
Figure 2004516455
In certain embodiments, these operators are overloaded to provide a minimum value vector and a maximum value vector:
[0037]
(Equation 3)
Figure 2004516455
In certain embodiments, to "baseline" the signal, "useful information" such as fragment peaks in the signal are eliminated. For example, assuming that the structure extends beyond k = 101 units, a valid baseline at a given point should be within this window.
[0038]
An example implemented according to a particular embodiment is shown in FIGS. In FIG. 19, the signal contains no structure and has a constantly sloped baseline. In certain embodiments, the baseline algorithm should leave the signal untouched extensively. However, consider the effect of localVectorMin in the figure. This takes too much from the signal.
[0039]
The positive structure, as shown in FIG.
[0040]
(Equation 4)
Figure 2004516455
By performing the following. The resulting bottom baseline, shown in blue, still retains some negative structure. In certain embodiments, such a structure should not be exceeded at all over any significant distance and may be eliminated using a smaller window size (eg, size σ = 21 (ie, spike size)). .
[0041]
(Equation 5)
Figure 2004516455
The results are shown in blue in FIG.
[0042]
In certain embodiments, if a baseline that passes through the "middle" of background noise is desired, a top baseline and an average of the two may be calculated. In certain embodiments, to calculate the top baseline, negative peaks are first eliminated and then positive peaks are eliminated:
[0043]
(Equation 6)
Figure 2004516455
FIG. 22 shows the top baseline in green, the bottom baseline in blue, and the average baseline in black. Removing the baseline by subtracting the baseline from the signal, as shown in FIG. 23, is a simple matter for the system.
[0044]
In certain embodiments, the baseline processing window size is configurable by a user. In certain embodiments, one skilled in the art may obtain an appropriate window size. In certain embodiments, a window that is too small will trace the peak very closely, resulting in a short peak in the baseline. In certain embodiments, a window size that is too large does not leave traces of the baseline variation (eg, the tail of the primer peak) close enough so that the baseline peak appears high and is insufficiently resolved. is there.
[0045]
(Peak detection)
In certain embodiments, the system uses a peak detection algorithm. Such an algorithm assists in predicting where the actual peak will be in the generated data. In certain embodiments, such an algorithm uses the following four parameters: order, window width, tauB (minimum slope at which the peak starts), and tauE (minimum slope at which the peak ends). In a specific embodiment, the system uses the following: order 3, window width 99, tauB 0.0, and tauE 0.0. In certain embodiments, the system uses order two.
[0046]
In certain embodiments, the algorithm also takes the following two additional parameters: minimum peak height and minimum peak width (full width at half maximum). In certain embodiments, the system uses these two additional parameters to remove noise peaks. In such an embodiment, the peak, whose height is less than the minimum peak height or whose full width at half maximum is less than the minimum peak width, is entered into the filtering process. In certain embodiments, the system fixes the minimum peak width to 2 (the number of scans). For the minimum peak height, in certain embodiments, the system offers two options: automatic determination and user identification. In the auto-decision mode, in certain embodiments, the system uses a baseline algorithm to calculate the noise level, and the minimum peak height is selected to be 10 times the noise level height. In certain embodiments, the particular baseline algorithm discussed above may be used. In a user-specified manner, in certain embodiments, the user specifies a minimum peak height for blue / green / yellow / red / orange (orange) dyes.
[0047]
One skilled in the art can determine, in certain embodiments, the appropriate order and window width for the data produced by the particular device used.
[0048]
In certain embodiments, the size calling peak detector is referred to as a Savitzky-Golay detector.
[0049]
The peak is maximal in the signal. The peak detector detects a peak when it finds a positive to negative zero crossing in the first derivative. FIG. 24 shows an example. Note that this position is different from the peak maximum (due to the linear function calculation), as shown in FIG. In certain embodiments, the zero crossing may be used as a peak position, and in certain embodiments, the highest point may be used as a peak position.
[0050]
The Savitzky-Golay detector uses two user-specific parameters (non-negative TB and non-positive ΓE) Is used to evaluate the start and end of the peak according to the threshold at the rising edge of the first derivative. In certain embodiments,BIs called "Slope Threshold for Peak Start", and ΓEIs referred to as the "Slope Threshold for Peak End". The detector finds the start of a peak by searching to the left of the peak position. At the beginning of the peak, the first derivative goes from negative to positive.BIntersects (exceeds) This detector finds the end of the peak by searching to the right of the peak position. At the end of the peak, the first derivative also goes from negative to positive ΓEIntersects (exceeds) When this peak is symmetric (for example, Gaussian), as shown in FIG.B| = | ΓE|.
[0051]
On the other hand, if this peak is symmetric (eg, an exponentially modified Gaussian), setting start and end conditions for symmetry can produce unexpected results, as shown in FIG. obtain. In this case, typically, a non-target end criterion is set as shown in FIG. However, in certain embodiments, simplyB= ΓEIt may be sufficient to set = 0. This is because background noise may make finer values impossible.
[0052]
This peak detector calculates the first derivative using a Savitzky-Golay “window” of width k as follows: Assume that the first derivative is desired at x = 30 in FIG. FIG. 29 enlarges the area marked in red. The algorithm first fits a polynomial curve to k data.
[0053]
For example, the red curve is a quadratic fit for 5 points, and the green curve is a cubic fit. The algorithm then distinguishes the curve and estimates the derivative at x = 30. Note that in this case, the first derivative from the quadratic equation is nearly zero at x = 30, while the first derivative from the cubic equation approximates the underlying signal more closely.
[0054]
The Savitzky-Golay technique can calculate this derivative without having to fit the curve for every window (WH Press, BP Flannery, SA Teukolsky, and WT Vetterling. , General linear least squares, In Numerical Recipes in C, Chapter 14.3, pp. 528-539, Cambridge University Press, 1988). In certain embodiments, the parameter d, called "Polynomial Degree", determines the degree of the polynomial used.
[0055]
In certain embodiments, a second order (d = 2) is used in a few special case applications. In certain embodiments, a third order (d = 3) is used. This is because this perfectly follows the small "rider" peak, as illustrated in FIG. In certain embodiments, d = 4 is used.
[0056]
The window size k is a management parameter of this detector. In a specific embodiment, k is set to 1.5 times the maximum (FWHM) of the expected (not maximum) total peak width. The effect of k may be apparent in the presence of noise. FIG. 31 shows the first derivative calculated at k = 5 for the red curve and k = 21 for the green curve. In certain embodiments, the Savitzky-Golay technique is a type of smoothing and uses larger values of k that result in a smooth curve. In certain embodiments, the Savitzky-Golay technique does not force the peak to be lowered (by lowering the maximum value) and moves out (by raising the edge) compared to smoothing by averaging. Do not force that.
[0057]
In certain embodiments, large values of k effectively track separated peaks, but they can disable peaks that are not completely separated. In FIG. 32, the algorithm detects three peaks for k = 5, but only one for k = 21.
[0058]
In certain embodiments, sharp corners can produce artifacts in this algorithm. The truncated curve in FIG. 33 should be viewed as a single peak. However, using d = 3 and k = 5 (where ΓB= 5 and ΓB= -5), a false zero crossing can be seen.
[0059]
To avoid these artifacts, in certain embodiments, we set k greater than the FWHM feature we want to detect. For example, FIG. 34 shows the effect of k = 11.
[0060]
With the exception of sharp corner artifacts, in certain embodiments, the Savitzky-Golay detector detects multiple peaks only if distinct valleys separate the peaks. For example, in such an embodiment, in FIG. 35, the detector detects only one peak.
[0061]
However, this peak has a shoulder portion. In certain embodiments, one skilled in the art may have a peak detector that finds a shoulder by considering the second derivative. In certain embodiments, the algorithm detects similar but different left and right raised shoulders. For the raised shoulder on the left, the first derivative is positive and “attempts” to cross (intersect) (thus causing a peak). The position of the shoulder is marked by a maximum in the positive first derivative. The algorithm finds this location by finding the negative to positive zero crossings of the second derivative. The start of the shoulder is the point where the slope stops increasing very sharply (in preparation for the shoulder) (ie, due to a maximum in the second derivative). The end of the shoulder is marked under the same conditions (in preparation for a peak or another shoulder). FIG. 36 marks these three positions (shoulder start, shoulder position, and shoulder end) with small circles.
[0062]
For the raised shoulder on the right, the first derivative is negative and “attempts” to cross zero (thus producing a peak). The position of the shoulder is marked by a maximum in the negative first derivative. The algorithm finds this location by finding the positive-to-negative zero crossings of the second derivative. Again, the beginning and end of the shoulder are marked by a maximum in the second derivative. FIG. 37 marks these three positions (shoulder start, shoulder position, and shoulder end) with small circles.
[0063]
The plot in FIG. 38 shows the end result of shoulder detection of the peak detector, according to a specific example.
[0064]
In certain embodiments, once the peak detector finds that all peaks are in the solution of the first derivative, the detector will only detect peaks that meet the minimum height and width limits specified by the user. Select The peak height is the maximum signal value from its start to its end. In certain embodiments, the peak detection algorithm reports a peak only if the peak height is at least as high as the peak amplitude threshold for that dye. In certain embodiments, the threshold values for the blue, green, yellow, red, and orange (orange) dyes are “B:”, “G:”, “Y:”, and “R:”, and “R:”, respectively. O: ".
[0065]
In certain embodiments, the peak detection algorithm reports a peak only if the width of the peak is at least as wide as its peak width threshold. In certain embodiments, this threshold is the same for all dyes.
[0066]
(Peak area)
Once detected, the peak detection algorithm measures the area of the peak, which is the sum of the (baseline) fluorescence values from the start of the peak to its end. Note that this can result in a negative area if many of the peaks are below the overlying baseline. In certain embodiments, the baseline may be flattened using endpoint compensation (averaging).
[0067]
In certain embodiments, one skilled in the art can evaluate the peak width and detection threshold of the peak detector.
[0068]
(Size standard conformity)
In certain embodiments, a size standard adaptation algorithm (which may also be referred to as a “size standard matcher” or “size matcher”) is used. Such an algorithm fits the data generated in a standard sample to the actual size that would be present in the standard sample. For example, a standard sample having nucleotide lengths 110, 114, 117, 120, and 125 may be used. Run a standard sample and get some data peaks. This size standard fitting algorithm predicts peaks corresponding to five known nucleotide lengths. Thus, the data in the sample can subsequently be compared to these peaks to determine the nucleotide length of the fragment in the sample.
[0069]
In certain embodiments, the size standard fitting algorithm includes the following three parameters: ratio factor (importance of peak height versus importance of local linearity), minimum acceptable quality (dynamic). And the number of extra peaks (the number of peaks expected in a size fit is the number of size standard defined fragments + the number of extra peaks). In a specific embodiment, the algorithm fixes the ratio to 0.6 and the minimum pass quality to 0.75. In certain embodiments, the algorithm fixes the number of extra peaks to 10 for Applied Biosystems 310/377 instrument data and 25 for Applied Biosystems 3700 instrument data.
[0070]
In certain embodiments, a statistically based quality value is created to fit the results.
[0071]
In certain embodiments, one skilled in the art can adjust the number of extra peaks that can be used with a given device.
[0072]
In certain embodiments, the algorithm ignores peaks located within the off-scale region of the sample. In certain embodiments, the algorithm disables the size adaptation process if the size standards are not fully adapted in the adaptation process.
[0073]
In certain embodiments, the algorithm implements two primer peak detection methods. The first is a primer-peak-height-suppression method. This method replaces the peak height of the highest peak with the peak height of the central peak, assuming that the primer peak is the highest. The second is to find primer peak positions. This method assumes that the primer peak is located within the first half of the signal and the size standard fragment is located in the second half of the signal. For example, take the average peak height of all peaks in the second half, and multiply the average by 5 to get the potential primer peak height. This method works backwards in the first half of the signal and finds the last primer peak.
[0074]
In certain embodiments, the size standard fitting algorithm takes as input a list of peaks (eg, from a running chromatograph) and a list of fragment sizes (eg, of nucleotides). This gives a match (ie a list of pairs of the form <peak, size>) as output. Here, the size of each peak and each fragment appears at most once. In certain embodiments, the size standard fit algorithm uses an algorithm to evaluate the fit and find a good fit.
[0075]
Certain embodiments use an algorithm that evaluates the match by treating the two constituent arrays as an array of edges between points. A match is also a match between edges. Two edges e1And e2(Sharing the end point) is the length ratio (r = | e2| / | E1|). Again, the match is also a match between the ratios. Under the assumption that the relationship between peak position and fragment size is a "more or less" straight line, the corresponding ratios should typically be equal. In certain embodiments, the algorithm derives a ratio cost for measuring this property. In certain embodiments, this component also concentrates on large peaks by deriving height costs. The total cost of fitting is a weighted sum of these constituent costs.
[0076]
In certain embodiments, the algorithm constructs a size matching problem, finding a match with the maximum cost. In such an embodiment, the costs are separable. That is, with some additional mathematics, the algorithm may independently maximize the result. In certain embodiments, this cost may also benefit from being local, thereby compensating for overall deviations from linearity. This cost also leads to a quality value between 0 and 1.
[0077]
A size standard is a set of DNA fragments, each of known size. The size standard is simply a list of these sizes. Note that size standard provisions are typically independent of the device using the size standard, and therefore are not dependent on any particular set of execution conditions.
[0078]
The intra-lane size standard is the set of peaks resulting from electrophoresis of the size standard on the instrument. Determine the position and height of the peak.
[0079]
In certain embodiments, the size standard adaptation algorithm uses the in-lane size standard and the size standard definition as input. This produces a match (ie, a list of morphological pairs (peak, size)) as output, where each peak and each fragment size occurs at most once. A peak has a position (eg, in number of scans) and a height (eg, in fluorescent units). Fragment sizes are given in nucleotides.
[0080]
Assume that there are at least as many peaks as size. Furthermore, assume that all but probably some numbers from the end of this list have corresponding peaks. This exclusion means modeling the situation where the user can stop electrophoresis early before getting a chance to elute larger fragments.
[0081]
In certain embodiments, the following is used.
[0082]
(Equation 7)
Figure 2004516455
Is given, for example, by an increasing number of scans, npAssume a list of peak positions.
[0083]
(Equation 8)
Figure 2004516455
To the corresponding n, for example given in fluorescence unitspAssume a list of peak heights. Standard size rules
[0084]
(Equation 9)
Figure 2004516455
Is the increasing nucleotide nsIt is a list of fragment sizes. By assumption, np≧ nsIt is. The size standard conformity is the pair M = {(i0, 0), (i1, 1),. . . , (In, Ns)}, Where ijIs an increasing order, ie, where the subscript j <k is ij<IkMeans
[0085]
(Example 1 peak, size, and fit)
Consider the peaks, sizes, and fits shown in FIG. List P is np= 11 peak position:
P = [968, 1029, 1203, 1259, 1412, 1535, 1714, 1751, 1785, 1837, 1928]
including.
These npThe peak has a height H.
[0086]
H = [2722, 6219, 1060, 5380, 7726, 1082, 7424, 1263, 7335, 7937, 1562].
[0087]
The standard size rule is ns= 5 with size S:
S = [75, 100, 139, 150, 160].
[0088]
Finally, M is the fit shown in the figure:
M = {(3,0), (4,1), (6,2), (8,3), (9,4)}.
[0089]
The large Oh symbol is used to indicate the complexity of the algorithm. This symbol is ubiquitous in worst-case and average-case resource analysis. In short, the function f is a function of another function g if there are positive constants c and N such that | f (x) | ≦ c | g (x) | It is said to be degree (f (x) = O (written as g (x))).
[0090]
(Evaluate conformity)
Assume that a match exists. In certain embodiments, the size standard fit algorithm evaluates fit by examining the sequence of the two components. This deals with the arrangement of peaks as an arrangement of edges between peaks, and similarities in size. For example, M = {(3,0), (4,1), (6,2), (8,3), (9,4)} is an adaptation from the first embodiment. The peak array (index) array is [3, 4, 6, 8, 9], which has four edges: (3, 4), (4, 6), (6, 8), and ( 8, 9). Similarly, its fragment size definition (index) sequence is [0, 1, 2, 3, 4], which also has four edges: (0,1), (1,2), (2, 3) and (3, 4).
[0091]
Fit is also a correspondence between edges. In this embodiment, the peak edge (6, 8) corresponds to the specified edge (2, 3). Assume that two edges are adjacent if they share an endpoint. In this example, (4,6) and (6,8) are adjacent because they share peak 6. The two adjacent edges (i, j) and (j, k) have a length ratio rijk:
[0092]
(Equation 10)
Figure 2004516455
Is defined.
[0093]
In certain embodiments, size ratios to fit all sizes:
[0094]
(Equation 11)
Figure 2004516455
More economical symbols for can be used.
Furthermore, the fit is also a correspondence between the ratios. In this embodiment, the peak ratio r689Is the size ratio r2Corresponding to
[0095]
Under the assumption that the relationship between peak position and fragment is "more or less" linear, the corresponding ratios will typically be equal. More formally, size siFragment at position piSuppose that P for all ii= AsiIf there are coefficients a and b such that + b
[0096]
(Equation 12)
Figure 2004516455
It is.
[0097]
The corresponding pair of ratios rijkAnd rfThe cost of these ratios, c, to determine the similarity ofr(I, j, k, f) is
[0098]
(Equation 13)
Figure 2004516455
Can be defined as
All 0 ≦ i <j <k <np0 ≦ c forr(I, j, k, f) ≦ 1 and 0 ≦ f <nsNote that -2. Also, cr(I, j, k, f) = 1 indicates an ideal equivalent ratio. The cost of adapting this ratio is the sum of the individual costs.
[0099]
In certain embodiments, having a fit concentrate for a large peak. For this purpose, the highest cost c of the fitted peak ih(I) may be defined as its height divided by the height h of the largest peak. More formally,
[0100]
[Equation 14]
Figure 2004516455
It is.
Further, in certain embodiments, all peaks 0 ≦ i <np0 ≦ c forh(I) ≦ 1, and ch(I) = 1 corresponds to the peak of the ideal maximum height.
[0101]
To combine these two types of costs, they can be weighted and summed. Since there are only two costs, a single weight parameter α (where 0 ≦ α ≦ 1) is sufficient. The total cost c (M) of the match M is the weighted sum:
[0102]
(Equation 15)
Figure 2004516455
Now, when finding the fit with the maximum cost, a size standard fit problem may be formulated. Note that this cost is local in the sense that each element of the weight depends almost on three neighbors. In certain embodiments, this property allows the size standard fitting algorithm to correct for overall deviations from linearity.
[0103]
(A measure of quality)
If we divide the cost of a match by the maximum possible cost for all matches, we have a number between 0 and 1 indicating its quality. What is this possible maximum cost? Every pair of ratios in such a fit contributes to its maximum value (ie, α × 1). There are a total of n-2 ratio pairs. Similarly, all matched peaks are at maximum height, so that all n matched peaks (peaks for each defined size) contribute to (1−α) × 1. Therefore, the maximum possible cost
[0104]
(Equation 16)
Figure 2004516455
Is
[0105]
[Equation 17]
Figure 2004516455
It is.
Therefore, the quality of the fit M is
[0106]
(Equation 18)
Figure 2004516455
Given by
[0107]
Other possible quality measures include simply the sum of the ratio costs, and the worst ratio cost in the fit.
[0108]
(Effective algorithm)
For certain algorithms, an advantage of the above equation is that the costs are separable. That is, some additional mathematics may be used to maximize the subsequence independently. This property results in an efficient dynamic programming algorithm. In certain embodiments, the algorithm is efficient (performs in low order polynomial time and space) and guarantees an optimal solution.
[0109]
c:
[0110]
[Equation 19]
Figure 2004516455
Denote the maximum cost of the subordinate problem of the fit. In particular, c (j, k, f) is the maximum that fits a peak from 0 to k with defined fragments from 0 to f + 1 in such a way that peak j fits size f and peak k fits size f + 1. Suppose we show cost. Therefore, the cost of fitting all sizes is
[0111]
(Equation 20)
Figure 2004516455
Where M*Is the best fit. All defined fragments match some peaks, but the peak nsNote that only one need be adapted in this embodiment.
[0112]
Here, the maximum cost can be expressed recursively. For f = 0, there is no ratio to calculate, so the highest cost:
[0113]
(Equation 21)
Figure 2004516455
You only need to be interested in
For f> 0, the cost can be calculated recursively by adding the height cost for the newly fitted peak k to the cost of the new ratio and the cost of the previous lower problem:
[0114]
(Equation 22)
Figure 2004516455
Converting these equations into algorithms is straightforward. In certain embodiments, the size standard fitting algorithm calculates the individual elements in a consistent order. In addition, one can take advantage of the fact that all sizes in the definition can be adapted by limiting the calculations. In certain embodiments, the size standard fit algorithm need only calculate c (j, k, f) for k> j ≧ f. This is because peak j cannot be fitted to all f sizes if j <f. Similarly, in certain embodiments, the size standard adaptation algorithm needs to examine only the sub-problem c (i, j, f-1), where i ≧ f−1. This is because if i <f−1, the peak i cannot fit all f−1 sizes.
[0115]
To this end, Algorithm 2 solves Equation 10 and Algorithm 3 solves Equation 11.
[0116]
(Algorithm 2 Basics of recursion (when f = 0))
[0117]
(Equation 23)
Figure 2004516455
(Algorithm 3 Compute the cost of adaptation (if f> 0))
[0118]
[Equation 24]
Figure 2004516455
As mentioned, these algorithms only calculate the cost of the best fit. Still, matches from this calculation are retrieved. This is often a standard part of mechanical programming algorithms. If the memory needs are very high, this is often a recalculation of the path from the cost matrix to the optimal cost. Certain embodiments have a relatively small sequence so that time can be used instead of memory by maintaining an array of back pointers (ie, the former p). This array is easily maintained by adding a row “p (j, k, f) ← i” after the eighth row of Algorithm 3. This assignment indicates that the former for the cost c (j, k, f) is c (i, j, f-1). The size standard fit algorithm may then reconstruct the best fit from Equation 9 by tracking backwards.
[0119]
(Computer resources)
(Theoretical execution time analysis)
In certain embodiments, the execution time complexity of this algorithm is governed by the number of times that lines 6 and 7 are executed. These rows themselves are executed in a certain time. The inner (i) loop
[0120]
(Equation 25)
Figure 2004516455
Execute. Thus, the j loop
[0121]
(Equation 26)
Figure 2004516455
Execute. The k loop is k = f + nP-NS+ 1 = f + m + 1, where m = nP-NSIs the number of outer peaks. Continuing in this fashion, these rows total T (m, nS). here,
[0122]
[Equation 27]
Figure 2004516455
It is. This formula is not as formidable as it looks. This is because the inner three sums are independent of the value f. With sensible substitution of variables, we can see:
[0123]
[Equation 28]
Figure 2004516455
By calculation, the following:
[0124]
(Equation 29)
Figure 2004516455
Is shown and therefore
[0125]
[Equation 30]
Figure 2004516455
It is. That is, the execution time increases only linearly with the number of defined fragments, but increases as the cube of the number of outer peaks. If the number of peaks is equal to the number of defined fragments (ie, if m = 0), the sixth and seventh rows will have nSNote that only -2 runs are performed, which is exactly the number of ratios that need to be compared to evaluate any match.
[0126]
(Experimental measurement)
The theoretical analysis in the preceding bar makes it possible to understand the asymptotic behavior of the algorithm. That is, this makes it possible to predict the tendency of the execution time when the input is large. For smaller inputs, in certain embodiments, various overhead factors affect execution time.
[0127]
Times for C ++ implementation of some sets of synthetic data and algorithms may be constructed. This data is nS= 5 to nSIncludes size standard definition for = 40 fragment size. In all cases, the ith fragment has a size of 20i, where i is 1 or greater. The peaks in the lanes have positions equal to the defined size, but they also have additional peaks from m = 0 to m = 20, where the ith additional peak is for zero or more i. , Location 10 + 20i. nSFor each combination of and m, the test program executes the matching component 20 times, and also divides the elapsed time by 20 to give the time in milliseconds for each execution.
[0128]
40 to 42 show the results. The execution time itself, rounded to the nearest millisecond, is given below.
[0129]
(memory)
All arrays to hold cost and the former have real values "(m + nS)2nS= M2nS+ 2mnS 2+ NS 3May be used. Therefore, initialization of these arrays requires m3= O (nS 2) Takes asymptotically more time than the optimization algorithm. If this is a problem, these arrays can be replaced by O (m3nS) Can be implemented as a sparse array to occupy space and time. Another solution is to use the entire array with the permuted variables in Equation 13, rather than aligning the entire array without the peak index. A third possibility is to use and allocate the whole matrix instead of initializing the whole matrix.
[0130]
(Practical concerns)
In certain embodiments, it may be desirable to determine a set of candidate peaks such that the size standard fitting algorithm is of an appropriate size. It can be chosen to take into account a parameter m specifying the number of outer peaks. Then, in certain embodiments, the size standard fitting algorithm determines that from all peaks detected by the previous size calling step, nP= NSThe highest peak of + m is extracted. In certain embodiments, m = 4 may be used. In certain embodiments, a weighting factor α between 1/2 and 3/4 may be used.
[0131]
The analyst should typically select a size standard definition that corresponds to the size standard in the lane. However, it is possible that the analyst will terminate the run early before having the opportunity to elute the longer fragments. In this case, strictly speaking, the definition is not accurate. To provide some error robustness in this situation, it can be tested whether the best fit satisfies the minimum acceptable quality parameters. If not, the last defined size may be removed and tried again, and the process repeated until the quality is acceptable. Alternatively, if the quality is unacceptable, the process may simply be reported without reverting to compliance.
[0132]
(Size calling)
In certain embodiments, the system uses a size calling algorithm. This size calling algorithm predicts the nucleotide size corresponding to the data peak from the sample in terms of the standard size.
[0133]
In certain embodiments, such an algorithm uses at least one of the following five size calling algorithms: local Southern, global Southern, quadratic least square, cubic least square, and cubic approximation. .
[0134]
In certain embodiments, the size calling algorithm maps the number of scans (lead frames, data points, etc.) to fragment size. In certain embodiments, the size calling algorithm provides a global (or least squares fit) method and a local (or interpolation) method. In certain embodiments, the size calling algorithm includes three global methods (quadratic least square, cubic least square, and global southern) and two local methods (cubic approximation and local southern).
[0135]
(Global Law)
In certain embodiments, the global method determines the fragment size f (x) at scan number J by evaluating a function f. This function depends on the method:
Quadratic polynomial: f2(X) = ax2+ Bx + c
Third-order polynomial: f3(X) = ax3+ Bx2+ Cx + d
Global Southern: f2(X) = k1/ (Mm-m0) + K2, Where the mobility m = 1 / k.
[0136]
Before the function can be evaluated, the function can typically be fitted to the data. In certain embodiments, the goal of each global fit is to determine the coefficients (a, b, m) that minimize the sum of the squared errors.0, ...). That is, the matched size standard pair {(xi, Yi): Given a set of i = 1, 2,..., N}, (x = standard number of scans, y = standard size), the following sum:
[0137]
[Equation 31]
Figure 2004516455
Find the coefficient for f that minimizes Where ei= Yi−f (xi). This can be accomplished using standard methods. For example, W.S. H. Press, B.C. P. Flannery, S .; A. Teukolsky, and W.C. T. See Vetterling, General linear least squares, Numerical Recipes in C, Chapter 14.3, 528-539, Cambridge University Press, 1988.
[0138]
(Local law)
(Cubic approximation)
Cubic approximation means numerically simulating a drawn mechanical spline. In certain embodiments, this associates every pair of adjacent points with its own cubic polynomial. In certain embodiments, this ensures that two curves that share a point have the same value at that point (first and second derivatives). In certain embodiments, these constraints substantially determine the solution. In certain embodiments, a final constraint is that the size calling algorithm uses so-called natural splines (whereas the second derivative at the endpoint is zero). In a particular embodiment, the size calling algorithm represents these constraints as a set of linear equations, which are then solved using Gaussian elimination (WH Press, BP Frankery, SA Teukolsky and WT Vetterling, General linear least squares, Numerical Recipes in C, Chapter 14.3, pages 528-539, Cambridge University Press, 1988).
[0139]
(Local Southern)
For an autoradiogram, the mobility m is proportional to the distance the isotope traveled from the injection well (since the time is constant). Southern (Measurement of DNA length by gel electrophoresis, Analytical Biochemistry, 100: 319-323 (1919)) noted that the fragment size versus 1 / m is (almost) linear:
fS(M) = k1/ M + k2.
[0140]
Only high mobility (short) fragments did not fit this linear prediction. To account for these high mobility fragments, Southern calculates the initial mobility m0Introduced:
fS(M) = k1/ (Mm-m0) + K2        (5.1).
[0141]
In certain embodiments, the scan number x corresponds to time (because the capillary length, ie, the distance from the well to the read, is constant) and is inversely proportional to mobility. For simplicity, m = 1 / x may be set.
[0142]
Given a number of scans x, in a particular embodiment, the size calling algorithm (local Southern method) determines the size standard fragments a, b, c, and d such that scan x is between scans b and c. Find out. These fragments are respectively fS(1 / a), fS(1 / c), fS(1 / d) and fSIt has a known magnitude of (1 / d). In a particular embodiment, the size calling algorithm then sets up a system of three equations using m = 1 / a, m = 1 / b, and m = 1 / c in equation 5.1. And these are k1, K2, And m0Solve exactly for Once these values are obtained, in a particular embodiment, this corresponds to the equation f obtained at m = 1 / xS1Interpolate the curve at m by evaluating (m).
[0143]
Further, in certain embodiments, the size calling algorithm uses m = 1 / b, m = 1 / c, and m = 1 / d in equation 5.1 to obtain another system of three equations. And set these to k1, K2, And m0Solve exactly for Then this is the Southern equation f at m = 1 / xS2Evaluate (m). Finally, in certain embodiments, the size calling algorithm determines that the fragment size with mobility m is (fS2(M) + fS1(M)) The two obtained magnitudes are averaged to obtain / 2.
[0144]
(Solution at the limit)
There is a potential problem not addressed in Southern's paper (Southern, Measurement of DNA length by gel electrophoresis, Analytical Biochemistry, 100: 319-323 (1919)). To confirm this, Southern Equation 5.1 is transformed to fS2Let (m) be y and k1Is k, and k2To y0By renaming it.
y = k / (m-m0) + (Y0).
A simple permutation gives the following equation:
(Yy0) (M-m0) = K1.
This reveals that the Southern equation represents a hyperbola. Here, the hyperbola describes a straight line segment only at the limit. In that regard, (m1, Y1), (M2, Y2) And (m3, Y3) Is the point of the three collinear lines. There are no finite constants k, mc, and yc, so that equation 5.2 shows that all three points (m1, Y1), (M2, Y2) And (m3, Y3Pass). Such situations can and do occur in the application of fragment analysis.
[0145]
In certain embodiments, the size calling algorithm detects such collinear triplets and calls for size by linearly interpolating in size versus mobility space (mobility space). For example, assume that you have size standard fragments of 10, 20, and 30 base pairs and that they elute at 12, 15, and 20 scans, respectively. They then have a capillary length mobility of 1/12, 1/15 and 1/20 per scan. These points are on the same straight line in the mobility space, as shown in FIG.
[0146]
Note that, as illustrated by the example in FIG. 44, points that are collinear in mobility space are not collinear in scan versus mobility space (scan space). Therefore, it is incorrect for the size calling algorithm to process such points by linearly interpolating them in scan space.
[0147]
On the other hand, assume that the size calling algorithm encounters three co-linear points in scan space. Such points are not collinear in mobility space, and the Southern equation (Eq. 5.1) applies without change. The Southern equation linearly interpolates such points in scan space, yielding a smooth curve (actually a line segment) as expected.
[0148]
FIG. 45 illustrates both cases and illustrates how the size calling algorithm in a particular embodiment sizes fragments in scan 17. The three size standard points on the left are collinear in mobility space, while the three points on the right are collinear in scan space. In certain embodiments, the size calling algorithm obtains a blue “+” on scan 17 by linear interpolation in mobility space. In certain embodiments, the algorithm obtains a green "+" by analyzing a system of three Southern equations. The algorithm then sizes the fragments in scan 17 by averaging these two sizes, as indicated by the black “+”.
[0149]
(Allele calling)
In certain embodiments, the system uses an allele calling component. Such components are used to interpret which data exactly corresponds to an allele. In certain embodiments, one or more algorithms are used to determine data points that exactly correspond to an allele.
[0150]
In certain embodiments, using more than one allele calling algorithm, and this component provides the allele cocall using information combined in a committee approach. In certain embodiments, a single allele calling algorithm may be used.
[0151]
The following description of particular embodiments relates to allele calling when analyzing dinucleotide repeats at a given locus using PCR amplification. The invention is in no way limited to such work, and may relate to any number of repeats, or may relate to other types of genetic polymorphisms. Other polymorphisms include, but are not limited to, SNPs (single nucleotide polymorphisms), single base insertions and deletions, and insertions and deletions involving more than one base, and rearrangements.
[0152]
Similarly, embodiments of these algorithms can be applied to other types of data, where multiple algorithms produce results that typically require interpretation and scoring in their confidence values. Such other areas of application include, but are not limited to: basecalling (de novo, mixed and comparative) and SNP base calling; microarray point detection; protein sequencing. Protein / gene expression; peptide search (noise-causing chronological alignment problem); and modeling of biological systems. One skilled in the art will recognize all of the many types of nucleic acid and amino acid information that can be evaluated in accordance with the present invention. Examples include, but are not limited to, data from any of the above applications and assessment of any property (nucleic acid or amino acid length, molecular weight, or nucleic acid or amino acid identity).
[0153]
In a committee approach for all of these applications of data interpretation, the output from more than one algorithm is used rather than relying on only one algorithm. Often, different algorithms may have different advantages over other algorithms, depending on different conditions. This committee approach produces significant confidence in the correct interpretation of multiple data points using different algorithms. In accordance with certain embodiments, this committee approach is particularly useful when combined with the concept of first establishing an operating environment (an example of which is illustrated by the envelope caller described herein). Powerful.
[0154]
To determine a given allele at various loci, PCR can be used to selectively amplify regions of the gene that are known to have different alleles. In this example, we attempt to locate dinucleotide repeats of different lengths at a given locus. U.S. Patent No. 5,580,728 discloses a specific method of using the method of the invention to amplify genetic material in a sample and obtain data correlated to different lengths of the amplified nucleic acid. Describe. US Pat. No. 5,580,728 and all references cited therein are expressly incorporated herein by reference. Possible data that can be generated is shown in FIG.
[0155]
FIG. 6 illustrates results including artifacts generated by the PCR amplification process. Excluding such artifacts, the data show peaks at 93 and 103 base pairs, indicating that the individual is heterozygous for two alleles of 93 and 103 base pairs in size. It is shown that. However, PCR stutter introduces additional peaks at 91 and 89 base pairs for the 93 base pair allele, and 101, 99 and 97 base pairs for the 103 base pair allele. Introduce additional peaks at This stutter results in a fragment that is one or more dinucleotides shorter than the actual allele in the sample. Also, during the PCR process, additional A nucleotides can be added, which can result in artifacts in FIG. 6 with extra base pairs (ie, 94 base pairs for a 93 base pair allele, and 103 base pairs). 104 base pairs for the allele). FIG. 6 represents a heterozygous individual with alleles 93 and 103, and shows a relatively simple pattern, including artifacts. However, these introduceable artifacts are not always easily ignored when the actual alleles are similar and the allele signatures overlap. Thus, the present invention provides a system for interpreting data and making accurate allele calls.
[0156]
PCR stutter and addition of A nucleotides are discussed in US Pat. No. 5,580,728. This patent discusses specific algorithms that can be used to try to make an accurate allele call. The present invention typically provides more reliable allele calling. The present invention encompasses systems that use more than one algorithm to increase call reliability, as well as new algorithms.
[0157]
FIG. 1 shows a schematic block diagram of a committee system 100 in which the methods and systems according to the present invention may be implemented. Data 102 includes representative size call data from a DNA sequencer (eg, ABI 3700 DNA Sequencer (Applied Biosystems)). The data 102 may be passed to a plurality of allele calling algorithms (eg, an envelope detection caller algorithm 104, an optimizer caller algorithm 106, and a heuristic caller algorithm 108). The envelope detection caller algorithm 104 detects heterozygous allele patterns when the alleles are well separated in space. The optimization program caller algorithm 106 identifies the impulse function (eg, the location of the allele peak) in view of the response signal (eg, a raw microsatellite signal). The heuristic caller algorithm 108 uses multiple rules and filters to eliminate non-allelic peaks from consideration. Further information about algorithms 104, 106 and 108 is provided below.
[0158]
Each algorithm reports its results to the committee machine 110. The committee machine 110 assigns a confidence level to the call using logic and / or rules. The committee machine 110 can produce rough results and predict calls. That is, the committee machine 110 receives call results from several callers, and considers the degree of match between different callers, and based on the statistical probability that the answer is accurate, Can be provided. More information about this expert committee is described further below. Confidence levels may be created by considering the match between calling algorithms 104, 106 and 108. The results 112 include a confidence level for each test performed by the committee machine 110, and the results 112 are forwarded to a user of the computer 114.
[0159]
Committee system 100 offers many advantages over conventional allele calling algorithms. First, since each algorithm uses a different strategy in determining whether there is a call, if all callers match, then a very high value of reliability can be given to the call. However, if all the allele calling algorithms do not match, the call is given a different confidence level, depending on which algorithm matches. By considering the level of agreement between different algorithms over a large data population, statistically significant confidence values can be assigned to allele calls.
[0160]
(I. Committee Allele Calling System Operation)
FIG. 2 shows a flowchart of steps performed by a data processing system in processing an allele call, in accordance with certain embodiments. First, the data processing system receives size call fragment analysis data (step 202).
[0161]
The received data may then be processed using various allele calling algorithms (step 204). Each caller algorithm works well for different signals under different circumstances. By using more than one caller for the same data set, committee machine 110 assigns a confidence level to the call. The algorithm may test the complexity of the data, and the complexity may pass specific requirements and make an appropriate call, or make a call regardless of the data complexity. Some exemplary calling algorithms are shown in FIGS.
[0162]
Once the data has been analyzed using each allele calling algorithm, the results of each call are forwarded to the committee machine 110 (step 206). The committee machine 110 processes the results of the call (step 208), adjusts the decision, and assigns appropriate reliability values to the results of the calling algorithm. The result of this adjustment, along with a confidence value, is reported to the user as a fragment length (call) (step 210).
[0163]
(II. Envelope caller)
FIG. 3A shows a flowchart of the steps performed by a data processing system when processing an allele using an envelope caller algorithm in accordance with certain embodiments. The envelope caller algorithm is typically used to detect heterozygous allelic patterns when the alleles are well separated in space. The envelope caller evaluates the complexity of the signal from the nucleic acid sequencer before making the call, and if the signal complexity is below a threshold (ie, the signal is within the operating area of the caller) Next, a call is made. Thus, because the caller operates in a limited area that the caller recognizes, the caller is at a high probability of being accurate and the call can be very accurate.
[0164]
First, the algorithm may perform pre-processing such as smoothing (step 302). For example, the algorithm may use N-point smoothing, which replaces each point with a local average over itself and N points on each side. Replacing each point with such an average removes noise from the signal and leaves a smoother signal.
[0165]
Next, the local minimum and local maximum of the signal are determined (step 303). This uses the Savitzky-Golay algorithm (eg, Numerical Recipes in C: The Art of Scientific Computing, William H. Press, Saul A. Teukolsky, Wil. Flannery, Cambridge University Press, 1992, pages 650-655). Other peak detection methods can be used. This step significantly reduces the number of dimensions of the signal by effectively representing the general shape of the signal with fewer points. This effect can be shown in FIG. Here, the original signal is a solid line. After calculation of the local minimum and local maximum, the signal is represented by a dashed line.
[0166]
In step 304, a new signal is formed by maintaining only local maxima. This has the effect of determining the envelope of the signal. In FIG. 7, this signal is indicated by a dotted line. Next, the signal is passed back to the algorithm, which determines the local minimum and local maximum (step 305). Using this new representation, the original signal is then divided into panels at each local minimum (step 306). A panel is a large section of a signal, which is delimited by deep local minima of the signal. In FIG. 7, there are six panels, demarcated as outlined in Table 1.
[0167]
Figure 2004516455
[0168]
To determine the signal complexity and whether the algorithm makes a call, the algorithm first determines whether there are three panels (step 308). If there are at least three panels, the algorithm calculates an energy level for each panel, for example, by summing the squares of each element in the panel (step 312). Other methods of estimating the energy of a signal in a defined area may be used. Since this algorithm searches for the envelope features of two well-separated alleles, it typically uses three panels to see if there are two distinct allele signatures. . When searching for X alleles, typically X + 1 panels are used to see if there are X distinct allele signatures.
[0169]
Using the three maximum energy levels (E1, E2, and E3-, respectively, which correspond to panels 1, 2, and 5 in the figure), the envelope caller algorithm performs a "threshold" determination (step 314). . That is, using these three energy levels (E1, E2, and E3), the algorithm can determine, for example, in a particular embodiment, whether E2 is greater than 20% of E1 and E3 is 7% of E2. To determine if it is just When these conditions are present in these embodiments, the signal is of low enough complexity that the envelope caller can operate. A call is then made by recording the highest peak in each of the panels with the highest energy. Thus, for the case illustrated in FIG. 7, calls are made at peaks with diamond symbols at 93 and 103 base pairs at the top.
[0170]
In summary, a particular embodiment of an envelope caller may include:
1. Pass the signal through a min / max detection algorithm and truncate the minimum. Thus, the envelope of the signal is obtained by concatenating the points that are maximum.
2. This new signal is passed again through the min / max detection algorithm.
3. The signal is divided into target panels using min / max information. A panel of interest here is defined as a signal that is initially low, then increases rapidly, and then falls back to baseline. In these embodiments, the energy in these regions is calculated by summing the squares of the data in these regions.
4. Only the three regions with the highest energies are considered.
5. Suppose that two dominant peaks in the signal are selected, and that the signal represents a heterogeneous junction condition. In such a case, the allele call is the highest value in the two panels with the highest energy.
[0171]
(The following code may be used according to a specific embodiment of the envelope caller method)
The call on line 6 splits the signal into panels and calls the subroutine envelope (lines 21-53) that calculates the panel energy, and then identifies the three panels with the highest energy content. Line 10 tests the conditions given in step 4. If these conditions are met, line 11 repeats the allele call.
[0172]
[Table 1]
Figure 2004516455
Figure 2004516455
(III. Optimization program caller)
U.S. Pat. No. 5,580,728, which is incorporated by reference, describes an allele call via deconvolution. This is similar to an optimizer caller algorithm consistent with certain embodiments of the present invention.
[0173]
According to a particular embodiment, the optimization program caller operates as follows. The algorithm works on the principle of deconvolution which identifies the shock function (location of the allele peak) giving the response signal (raw microsatellite signal). The routine uses model fit optimization to produce the deconvolution. Optimized model parameters are peak position, peak height, and stutter rate.
[0174]
According to certain embodiments, the algorithm first performs a dimensionality reduction by sampling in bins, and then identifies the largest peak as the dominant allele. Bins are locations where one would expect to find an allele. Due to the way the data is generated, fragment lengths are rarely recorded as integer base pairs. Thus, any peak that falls within some threshold of the bin center is said to be of that length. In certain embodiments, the threshold is +/- 0.15 base pairs. Thus, the peak is said to be 100.87 base pairs in size, and if the bin was at 101 bp, the peak is recorded as 101 bp.
[0175]
Bin sampling can remove data points from the analysis. The bin is determined by previously compiled data. For example, based on previously compiled statistics reflecting expected allele positions, pass the original set of bins through the system, and the sampling grid will fit within a 1 bp grid containing these bins. It is formed by inserting. This creates a series of bins spaced one base pair apart where the signal is sampled.
[0176]
Through a building model with varying amounts of stutter, the algorithm selects the next most probable allele by selecting the shock function that causes the model to have the lowest residual error when subtracted from the original signal. .
[0177]
The flowchart in FIG. 3B according to a particular embodiment illustrates the concept as follows:
1) Sampling in bins (320)-As mentioned above, bins are locations where one would expect to find an allele. Thus, the above signal is sampled at these locations. Typically, these locations include minimum and maximum values, but also include other parts of the signal (flat regions, stutter peaks).
[0178]
2) Find the minimum and maximum (322)-Use the Savitsky-Golay approach to locate the exact minimum and maximum. The maximum value represents the possible allele.
[0179]
3) Select the dominant peak as one allele (324)-typically the largest peak is the allele-selecting this peak is a safe strategy and the problem of finding the other allele is Now reduced (if any).
[0180]
4) Form a series of hypotheses (models) by varying the position of the secondary peak, and the amount of stutter at both the dominant and secondary peaks (326).
[0181]
5) Subtract each model from the signal found in step (2) (328). Residuals remain in the table.
[0182]
6) Select the model with the lowest residual (330)-the model that produces the lowest residual best describes the signal from step (2), and is therefore declared a winner. An allele call is the location of an allele that has occurred in the model.
[0183]
7) Communicate the call to the user after applying any additional rules (eg, removing left peaks below a certain threshold) (332)-Experiments show that peaks below a certain threshold are usually noise ing.
[0184]
According to a particular embodiment, the main optimizer caller algorithm steps are summarized as follows:
1) Data conversion:
Using the a priori bins passed through, build a sampling grid that includes additional bins. The signal is then sampled to provide a simplified, discontinuous representation of the microsatellite signal, essentially a peak height at the center of the bin. See FIG.
2) Find the highest peak and assume that it is one of the allele peaks ("A" allele). See FIG.
3) Search for the B allele:
The algorithm searches for the location, height, and stutter rate of the B allele peak that minimizes the residual signal (ie, the remainder of the signal after subtracting the hypothesized signal from the observed signal). (The B peak may actually be the same as the A peak (ie, homozygote)).
[0185]
FIG. 9 illustrates two different attempts at searching for the B allele. Recall that we assumed that the A allele was the highest peak. Make different hypotheses about location, height, and stutter rate for the B allele. A composite signal is created by overlapping the A hypothesis and the B hypothesis. Then, the assumed signal is compared with the observed signal to calculate a residual error. The hypothesis with the lowest residual error is recorded as the B allele.
[0186]
The method used to search for the best B allele parameter is flexible. In the first run of this algorithm, a simple induction was used to remove search space, but it was an exhaustive search for the best B allele. Methods such as conjugate gradient, simplex or simulated annealing could be applied.
[0187]
(IV. Heuristic caller)
FIG. 3C shows a flowchart of the steps performed by a data processing system in processing an allele using a heuristic caller algorithm according to certain embodiments. The heuristic caller algorithm uses multiple rules (filters) to remove peaks that are not alleles. By removing the peaks using a filter, the remaining peak (s) may be alleles.
[0188]
First, any of a number of pre-processing steps can be performed. Examples include N-point smoothing or noise quantification (or Noise Checker) mentioned in the envelope caller. Noise quantification is used to assess signal quality. Examples of Noise Quantification include the following steps:
1) collecting a signal;
2) performing smoothing as at 302 in FIG. 3A;
3) subtracting the smoothed signal from the original signal; and
4) Summing the squares of the difference between the two signals to obtain a sum squared error (SSE).
[0189]
If the signal is relatively noise-free, the SSE is low and more confidence can be placed in the call. If the SSE is high, the user observes the signal and is alerted that it is wise to artificially make the call.
[0190]
After any such pre-processing steps, in accordance with certain embodiments, the process includes a step 342 where the heuristic caller algorithm forms a peak list using a peak detection algorithm (eg, the Svittzky-Golay algorithm). According to a particular embodiment, a list is formed with an entry for each peak that includes the following three parts of information (peak position, peak height, and peak width). Next, various filters are applied to remove peaks that are not correct allele calls (step 344).
[0191]
Non-limiting examples of one or more rules that can be used include the following:
Excluding split peaks (split peak checker)
Exclude background peaks (background peak checker)
Exclude peaks caused by plus A distortion (plus A checker)
Excluding spike peak (spike peak checker)
Excluding shoulder peak (Shoulder peak checker)
Excluding stutter peaks (stutter checker)
Split peaks are two peaks of similar height (eg, at least about 70%) found in the peak list and are typically less than about 0.1 base pairs apart. These are typically provided by a mixture of double- and single-stranded DNA. According to a particular embodiment, when a split peak is detected, only the height of the split peak is stored.
[0192]
Background peaks are spurious peaks without any significant stutter. Stutter almost always occurs with dinucleotide markers. Therefore, peaks without any significant stutter are considered background peaks and are removed from this list. Background peaks are typically due to sample contaminants.
[0193]
Spike peaks are spurious peaks that are high but have a width that is not typical of other peaks. The peak list has height data, width data, and position data. Thus, the average peak width can be determined and any peaks that are too narrow compared to the rest of the population are eliminated. These are typically caused by sample contaminants.
[0194]
A shoulder peak is a peak that appears very close to another peak and thus has the appearance of a shoulder. These are typically lower in height, similar to spike peaks, except that they are more than 0.1 bp apart and less than 1 bp. These are often caused by equipment noise. In certain embodiments, shoulder peaks are omitted.
[0195]
According to certain embodiments, the filters applied to step 344 include at least one of the filters shown in the flowchart of FIG. 3D. The single base pair checker checks adjacent peaks to see if there is one base pair peak. In certain embodiments, the order of the filters may be changed. For example, according to a particular embodiment, the plus A checker and the shoulder peak checker are switched to each other in the flowchart of FIG. 3D (the final assembler shown in FIG. 3D builds the final result and calls the allele).
[0196]
Once all non-allelic peaks have been removed, the heuristic caller algorithm determines whether there are one or two remaining peaks (step 346). If there are more than two remaining peaks, an additional filter is applied to reduce the number of peaks to one or two (step 348). These rules are based on special cases determined by observation. A non-limiting example of a rule is that if four peaks remain, the lowest two are typically removed. Once one or two peaks remain, they are designated as allele calls and pass through a committee machine (step 350).
[0197]
10-12 illustrate data that can be evaluated using a heuristic algorithm, according to certain embodiments.
[0198]
In certain embodiments, the heuristic caller assumes that there is a maximum of two alleles for a given marker. In certain embodiments, there is no such assumption for the maximum number of alleles for a given marker.
[0199]
(V. Committee machine processing)
Examples A and B below illustrate a committee approach in accordance with certain embodiments of the present invention.
[0200]
(Example A)
FIG. 4 illustrates the steps performed by the committee machine 110 according to certain embodiments when determining the final allele calls and their associated confidence values to be reported to the user. Committee machine 110 mediates the call by using a set of rules. An exemplary rules table (Table 2) is shown below. The first committee machine 110 determines which caller matches (step 402).
[0201]
Next, the committee machine 110 determines the correct calls and communicates and assigns confidence levels for these calls (step 404). According to a particular embodiment, the confidence level is determined by considering the various cases of Table 2 over a large sample set that is representative of representative data. For example, if all three algorithms match (case 1), the committee machine assumes that the call is 99.9% correct and therefore assigns a confidence value of 0.999. If there is no call for the envelope caller and the same call for the optimization program caller and the heuristic caller, the committee machine 110 defines the confidence value as 0.970. If there are no calls for the heuristic algorithm and the same calls for the envelope method and the optimizer, the committee machine 110 passes those calls to the user and assigns a confidence value of 0.621. If only the optimizer generates a call, the committee machine 110 assigns a correct confidence value of 0.692. And finally, in any case that does not fit the above scenario, it is assigned a call given by a heuristic algorithm and is assigned a confidence value of 0.771. The determination of a match listed above is exemplary. One skilled in the art will understand that other decisions of trust are available. For example, additional algorithms may be used to create a more accurate confidence level according to a particular embodiment.
[0202]
Figure 2004516455
[0203]
Confidence levels can also be assigned by those familiar with the use of the particular algorithm used in the committee approach and the results obtained. When depicting experience with a particular algorithm, such a person may be assigned a confidence level for each of the possible combined results that can be obtained by the various algorithms.
[0204]
(Example B)
1. Allele calling algorithm
In this embodiment, three different allele calling algorithms are performed. Each has a different principle. The callers are:
Envelope: Only classifies heterozygosity data below a certain level of complexity. This is done with a very high level of accuracy and uses a visual approach based on the detection of the characteristic envelope of strong heterozygous signals, relatively noise-free, with good separation between alleles. . If this data appears problematic, the envelope refuses to make the call.
[0205]
Optimization program: Uses a maximum likelihood approach that involves the formation of a hypothesis based on parameterization of the allele signal, using allele positions, stutters and the amount of + A artifacts. The hypothesis that best describes this amount of signal energy asserts Wiener and allele calls are used in forming the winning hypothesis.
[0206]
Heuristic: A system based on the rules of allele calling. Initially, all peaks are assigned alleles and use expert rules to eliminate false candidates until only true alleles remain. The sections that apply to each method are as follows:
[0207]
a. Heuristic caller
A specific program uses the Genotyper allele calling algorithm (ABI PRISM).TM  Genotyper (R) 2.0 User's Manual. PE Applied Biosystems, 1996, 850 Lincoln Center Drive, Foster City, CA 94404), and reuse this algorithm for trinucleotide and tetranucleotide markers during the allele calling process. The steps involved in this process are outlined below.
[0208]
1. Locate the peak. Find and identify all peaks within the marker size range.
[0209]
2. Label the peak. All peak alleles are indicated.
[0210]
3. Global cutoff. Find the largest peak. Remove any peaks below the threshold from the called allele list. This threshold is determined as cutoff value (cutoffValue) × maximum peak height (where the cutoff value is a parameter defined by the user).
[0211]
4.+A removal. For any two adjacent peaks, the distance between the peaks is within a certain number (user parameter + A distance) and the ratio between the upstream peak height and the downstream peak height is the user parameter+Above the A ratio, downstream peaks are eliminated from the called allele.
[0212]
5. Removal of stutter. For any two adjacent peaks, if the peak-to-peak distance is within the user parameter stutter distance and the ratio between the downstream peak height and the upstream peak height exceeds the user parameter ratio, then the upstream peak is: Removed from the called allele list.
[0213]
6. Any remaining peaks indicating an allele are indicated as alleles.
[0214]
FIG. 13 shows a typical canonical heterozygous allele signature (circles indicate allele calls annotated by the user; x-axis is base pairs; y-axis is A / D count (voltage Strength)).
[0215]
The algorithm behaves relatively well for clean dinucleotide marker data and very well for tetranucleotide marker data. However, for trinucleotide markers, there is no data and it is not certain how this algorithm behaves. However, it performs very well in all possibilities, probably.
[0216]
Particular embodiments of this algorithm include five parameters: cutoff value (cutoffValue),+A distance (+A distance),+A ratio (+A ratio, stutter distance and stutter ratio. The program provides default values for these parameters and allows the user to adjust these values in the user interface.
[0217]
In examining the large amounts of dinucleotide marker data, it became apparent that there were several situations where the Genotyper algorithm was not optimal. These situations constitute a huge majority of Genotyper errors. In these cases:
1. Differential amplification. One allele is significantly higher than another. Global cutoff rules exclude lower alleles.
[0218]
2.1 bp allele. There are two alleles separated by only one base pair.
[0219]
3. Bleedthrough (pullup) peak. There are strong neighboring color peaks and peaks due to multi-component inaccuracies. This may be less than optimal for HID applications.
[0220]
4. Background peak. One signal background peak is present due to poor gel slab.
[0221]
5. Spike stutter peak. Unusually high and narrow stutter peak.
[0222]
Heuristic algorithms address the potential sources of these errors.
[0223]
Heuristic algorithms include additional rules. According to a particular embodiment, these rules are based on the characteristic variables (peak height, peak width, peak start position, peak end position, peak start height, peak end height, peak height ratio between peaks, peak to peak Base pair spacing) to find out which peak should be the called allele. In a specific embodiment, the algorithm proceeds as follows.
[0224]
1. Noise checker. Check the signal noise level. If the signal is too noisy, the process is interrupted.
[0225]
2. Split peak checker. Adjacent peaks are checked for splitting. If a split is present, only the higher peak is preserved.
[0226]
3. Background peak checker. The peaks are checked to see if they are a single background peak.
[0227]
4. Small / shoulder peak checker. Non-significant peaks and / or shoulder peaks are removed.
[0228]
5. Spike peak checker. Excludes spike stutter peaks.
[0229]
6.+A checker.+Exclude A peak.
[0230]
7. Stutter checker. Excludes stutter peaks.
[0231]
8. Special peak checker. The peaks are checked to see if there is a different amplification.
[0232]
9. Preferential amplification, or when a single base pair allele is present.
[0233]
These additional rules perform very well and substantially reduce the number of errors.
[0234]
(B. Optimization program caller)
This calling strategy in this embodiment is based on the hypothesis that a reasonable model for the signature of the allele can be used to establish an approximation of the original signal. This approximation is then subtracted from the original signal. The estimate that produces the least significant error gives the location of the allele.
[0235]
In testing allele signatures, PCR stutter and+The A distortion modifies the ideal isolated peak. These, combined with noise, make it difficult to locate allele peaks. FIG. 13 shows their effect on the signal. Here, the PCR stutter appears as a series of reduced peaks to the left of the main signal at 212 bp and 223 bp, and+A distortion appears as a small peak to the right of the main lobe.
[0236]
Assuming that the PCR stutter peak decreases at a constant rate, and+By assigning a value to the A distortion, a simple model of the allele signature is parameterized with three pieces of information:
Allele location;
Allele height;
・ Percentage stutter.
[0237]
Thus, a search space is created, where all combinations of these parameters for a series of candidate allele peaks are considered and their resulting images are obtained. These images can then be subtracted from the original signal, and the set of parameters with the lowest residual is considered the winner. In this way, allelic positions are identified. The process according to these embodiments is represented by a flowchart in FIG.
[0238]
In these embodiments, the reprocessing step simply involves sampling the original signal to reduce its dimensions. This can be done by calculating the most important features of the signal; peaks and valleys. By representing the signal in such a compact form, its search space is significantly reduced. These peaks form a set of candidate allele peaks that are considered possible allele calls. After reprocessing, the next two boxes show the variability parameter and residual calculation. This process is repeated, and in the last box a set of Wiener allele peaks (which can be a set of one peak) is represented. The actual output of this algorithm is contained in FIG.
[0239]
The frames shown herein demonstrate two cases; the first (frame (a, c, e)) is the optimal solution and the second (frame (b, d, f) forms Column indicates solutions that are close but do not fully explain the signal and leave high significant errors. In both cases, the upper frame shows the estimated signal. Candidate alleles are given by the position of the red line. The middle frame shows a hypothesized signal given different stutter parameters. And finally, the lower frame shows the resulting residual. The column in the image on the right clearly demonstrates the better hypothesis, which indicates Wiener's hypothesis. Allele calls are given by the position of the proposed peak (red line).
[0240]
(C. Envelope caller)
Envelope callers generally call alleles when other callers can generate any call, but this envelope caller determines that there is a high probability of being correct It is developed based on the principle. When an envelope caller generates a call, it can be very accurate. This increases the confidence in this call, and thus all classes of data do not require further consideration. The basis is in consideration of the envelope of the signal, and two large amounts of energy should be detected (two large bumps in the signal) and this data is determined to be heterozygous. Allele calling is then performed simply by finding the largest peak in each hump. Some simple heuristic rules may be added, slightly increasing its accuracy. In particular, they may cover a handful of cases where failures occur. However, in certain embodiments, these additional heuristics are typically omitted, and instead all caller combinations are used to increase confidence in nearly 100% of the marks in this subset of data. Is done. In certain embodiments, these calling strategies should be fundamentally different for the purpose of each presenting the strengths of particular data, and thus the addition of heuristic rules to this caller will result in such embodiments. Loses its identity.
[0241]
This process is described according to the specific embodiment in FIG. This signal is decomposed into six panels and the energy is calculated. The panels labeled p1 and p2 are shaded to indicate that they contain the highest energy. The energy is denoted by E, and this is the sum of the squares of the signal. The panel labeled p3 contains the third largest energy content. In certain embodiments, the algorithm proceeds to generate a call if the following two criteria are met:
Ep2/ Ep1  > 0.2
Ep3/ Ep2  <0.07
This call is generated by finding the maximum value in each of Panel 1 and Panel 2. The values of 0.2 and 0.07 in Equations 1 and 2 were determined by trial and error. This seems to make a good distinction between easily classified data and less ambiguous cases.
[0242]
(2. Combination strategy)
In certain instances, individual algorithms may not be optimal when used alone. In the expert of experts approach, the degree of call reliability is based on the statistical probability of an accurate answer given the degree in consensus between different callers. This is an appropriate approach, especially if one of the callers according to this embodiment is deemed to only generate a call if the call is deemed legitimate. In this embodiment, the data falls into one of the following five categories.
[0243]
Identical calls for envelopes, optimizers, and heuristics: these three algorithms agree. This leads to high reliability results.
[0244]
The envelope does not call, the optimizer, and the heuristic agree: the signal is considered more difficult to classify, and the process is left to two more sophisticated approaches. This result indicates that the data is somewhat reliable, although somewhat less reliable than described above for "bad" data.
[0245]
Heuristics do not call, others match: sometimes heuristic algorithms are not called. This is especially true for noisy data. In such cases, where a result is indicated when a match between the envelope and the optimizer occurs, the result is indicated, and a confidence value is defined as the probability that such a situation is accurate. You.
[0246]
Optimized program calls only: This covers situations where there is a problem with the data and no envelope or heuristic algorithms are called.
[0247]
Any data not previously called: If the data is not called in the above case, it is passed through a heuristic routine for calling. This algorithm typically outperforms the optimizer in terms of its accuracy when acting alone.
[0248]
(result)
The results for two series of data from different laboratories are shown in Table 3.
[0249]
[Table 2]
Figure 2004516455
Table 3: Results showing the confidence values generated by considering the match between calling algorithms. R1-envelope, R2-optimizer, R3-heuristic. All columns except conf are percent-age. Examples-Percentage of examples in the complete dataset belonging to this category. Strategy, the correction in this column gives the percentage of examples that are correct in this category. conf is a confidence value, which is a percent correction for a given category. The total number of traces tested are: Lab1-10724, Lab2-8000, Lab3-14192.
[0250]
All numbers (except confidence values) are percentages. The column labeled "Example" is the percentage of the dataset classified into that category. The next two columns list the percentage of data from column 1 correctly and incorrectly classified. The percent correction is passed to the field conf and used as a confidence value. One other casual observation is that lab2 owns data that is very difficult to process. This can be observed by the number of examples that have passed through the final level of processing. This data is denoted as straggler. Strugglers include situations that do not fit into any of the four categories listed in Table 3 above. For example, situations where different algorithms provide conflicting allele calls are considered stragglers. In this data, since the data in FIG. 3 indicates that the call generated by algorithm R3 is more accurate in such a situation than the call generated by algorithm R2, the system relies on algorithms R2 and R3. If there is a discrepancy in the allele call results, the result of R3 may be used as the default algorithm.
[0251]
The last two columns are for the same part of the data. They indicate heuristics if the default caller has a higher percentage than the exact call.
[0252]
Another interesting opportunity is to hand these results to the customer as a report (especially in cases where there is no consensus in the "difficult to classify" category). This can be included on the sheet of FIG. 17 and provides a nice aid for inspection of the data. FIG. 17 shows 25 markers. In some cases, consensus has been reached, but is not so indicated. This is because the threshold for determining the “identity” of the call was set too low. However, in most cases, you can see why there is a problem with the data. The red circle annotates the user, and the three levels of asterisks, from bottom to top, give calls for envelopes, optimizers, and heuristics.
[0253]
(Conclusion)
The multi-call approach is important in that it provides a reliable number in the call. Similarly, by dividing the data into different categories based on how easily the data is categorized, the multi-caller approach helps well in providing a way to examine the results.
[0254]
It is very important to keep in mind that these three methods should not be considered conflicting. Rather, they work to identify each other if they are based on totally different principles. Heuristic callers have a vast amount of domain knowledge behind them. The optimization program uses a more formal detection and estimation framework, whereby hypotheses are formed for allele positions and similar to maximum likelihood, and the hypothesis that best describes the energy of the signal is the most likely explanation Is selected as The envelope uses very simple visual inspection to identify easily categorized data. Each of these three algorithms has their strengths, and when working in concerted form, a very robust system and a high degree of reliability that can be included in a call, a high degree of reliability may require different perspectives. Due to the fact that it requires consensus from
[0255]
(VI. Structure)
FIG. 5 is a block diagram illustrating a computer system 500 according to a particular embodiment in which embodiments of the present invention may be implemented. Computer system 500 includes a bus 502 or other communication mechanism for exchanging other information, and a processor 504 connected to bus 502 for processing information. Computer system 500 is also executed by a memory 506 (which may be random access memory (RAM) or other dynamic storage device) and a processor 504 connected to bus 502 for determining allele calls. Instructions. Memory 506 may also be used to store temporary variables or other intermediate information during execution of instructions executed by processor 504. Computer system 500 further includes a read-only memory (ROM) 508 or other static storage device connected to bus 502 for storing static information and instructions for processor 504. A storage device 510 (eg, a magnetic or optical disk) is provided for storing information and instructions, and is connected to bus 502.
[0256]
Computer system 500 may be connected to a display 512 (eg, a cathode ray tube (CRT) or a liquid crystal display (LCD)) via bus 502 for displaying information to a computer user. Input devices 514 (including alphabet keys and other keys) are connected to bus 502 for communicating information and command selections to processor 504. Another type of user input device is a cursor control 516 (eg, a mouse, trackball, or cursor indicator key) for communicating direction information and command selections to the processor 504 and for controlling cursor movement on the display 512. ). The input device typically has two degrees of freedom in two axes (a first axis (e.g., x) and a second axis (e.g., y)) that allow the device to locate in a plane.
[0257]
Computer system 500 provides allele calls and provides a level of confidence for various calls. Consistent with a particular implementation of the present invention, the level of confidence for the allele call is determined by computer system 500 in response to processor 504 executing one or more sequences of one or more instructions contained in memory 506. provide. Such instructions may be loaded into memory 506 from another computer-readable medium (eg, storage device 510). Execution of the sequence of instructions contained in memory 506 causes processor 504 to perform the process states described herein. Alternatively, the invention may be practiced using hard-wired circuitry instead of or in combination with software instructions. Such an implementation of the present invention is not limited to any particular combination of hardware circuits and software.
[0258]
The term "computer-readable medium" as used herein refers to any medium that participates in providing instructions to processor 504 for execution. Such a medium may take many forms, including but not limited to, non-volatile media, volatile media, and transmission media. Non-volatile media includes, for example, optical or magnetic disks (eg, storage device 510). Volatile media includes dynamic memory (eg, memory 506). Transmission media include coaxial cables, copper wire and fiber optics, including the wires that comprise bus 502. Transmission media can also take the form of acoustic or light waves, such as those generated during electromagnetic and infrared data transmission.
[0259]
Common computer readable forms include, for example, floppy disks, flexible disks, hard disks, magnetic tapes or any other magnetic media, CD-ROMs, any other optical media, punch cards, paper tapes, Any other physical medium with a pattern of holes, RAM, PROM, and EPROM, FLASH-EPROM, any other memory chip or cartridge, carrier wave as described hereinafter, or computer readable Any other medium that can be obtained is included.
[0260]
Various forms of computer readable media may be involved in executing one or more sequences of one or more instructions to processor 504 for execution. For example, these instructions may be initially executed on a magnetic disk of a remote computer. The remote computer loads the instructions into its dynamic memory and sends the instructions over a telephone line using a modem. A modem located at computer system 500 may receive the data on the telephone line and use an infrared transmitter to convert the data to an infrared signal. An infrared detector connected to bus 502 may receive data carried in the infrared signal and place data on bus 502. Bus 502 carries data to memory 506, from which processor 504 retrieves and executes instructions. The instructions received by memory 506 may be stored on storage device 510, either before or after execution by processor 504, as appropriate.
[0261]
By way of illustration, a system consistent with certain embodiments of the present invention provides a committee machine that receives calls as input from at least two different allele calling algorithms. By receiving these calls, the committee machine may determine the level of confidence in the various states.
[0262]
The foregoing description of specific embodiments of the committee allele calling approach is not exhaustive and in no way limits the claimed invention. For example, while the preceding description has been primarily described with respect to particular allele calling algorithms, the concepts of the present invention may also be applied to any other type of allele calling algorithm (e.g., TrueAllele from Cybergenetics or Molecular Dynamics from Molecular Dynamics). Genetic Profiler program). If different algorithms are used, for example, by analyzing different cases over a large sample set representing the data, or by familiarizing one of skill in the art with algorithms that assign such confidence values empirically. , For each possible combination of results as discussed above, a confidence value may be assigned. Further, while the described implementations include software, the invention may be implemented as a combination of hardware and software or in hardware alone. The invention can be implemented using both object-oriented and non-object-oriented programming systems.
[0263]
(Bin allocation)
In certain embodiments, the system uses a bin assignment algorithm. In certain embodiments, it is desirable to match allele data points specifically called from the sample to a particular known allele size in the population. In certain embodiments, such known allele sizes are already provided. A bin is typically composed of a center point of known allele size and predetermined plus and minus values from the center point. Thus, for example, a bin according to certain embodiments includes a center point of a known allele size, and includes 0.5 points on either side of the center point. Thus, if a data point from a sample falls within the bin, it is assigned to the bin and the value of the bin's center point is given. If the allele is not located in either bin, it is assigned as an unknown allele. The bin can be of any suitable size.
[0264]
In certain embodiments, a statistical approach to assigning bins can be developed. It is known to assume the population frequency of each bin, and the alleles within each bin are usually scattered, and a simple Bayesian approach can be used to assign bins.
[0265]
(Automatic binning)
In certain embodiments, the system includes an automatic binning algorithm. In such embodiments, an allele bin for a given population may be determined. In certain embodiments, if the size of the allele is not yet known for the population, such an algorithm may be used to establish an allele size bin. In certain embodiments, such an algorithm may be used to add additional allele bins to known allele size information in a population. For example, if an allele that does not fall within a known allele bin for the population is called using the automatic binning component, additional allele size bins for the population may be determined.
[0266]
In certain embodiments, the automatic bin processing algorithm collects all called alleles for a population and automatically assigns each allele to the center of a given bin based on allele data points. . In certain embodiments, the algorithm also calculates a cost for each allele based on the distance between the data point of the allele and its assigned central bin value. Thus, the more data points, the higher the cost, will fall into the assigned bin center. In certain embodiments, the automatic binning algorithm then calculates the total cost for all alleles. If this total cost is below a certain threshold level, the selected bin center is determined. If the total cost is above the threshold level, the automatic binning algorithm reassigns bin centers to each allele and calculates the total cost in an iterative process until the total cost is below the threshold level. In certain embodiments, after the final bin center is determined, predetermined values on either side of the bin center are added to obtain the final bin. In certain embodiments, 0.5 is added to each side of the bin center to obtain the final bin width.
[0267]
In certain embodiments, the automatic binning algorithm uses a typical k-means clustering algorithm for automatic binning. In certain embodiments, the algorithm collects all alleles from the input sample and removes alleles whose quality rating is less than a certain number (0.1) (the following quality rating of (See discussion) and feed them into an iterative process to find bins, as shown in Table 4 below.
[0268]
[Table 3]
Figure 2004516455
A quality rating is then generated based on some large dataset studies on these newly generated bins (see Quality Rating Considerations below).
[0269]
(Algorithm subgroup)
In certain embodiments, the system includes a pre-processing algorithm, wherein the algorithm includes at least one of an out-of-standard detection algorithm, a multi-componentization algorithm, and a baseline processing algorithm.
[0270]
In certain embodiments, the system includes a data conversion algorithm, wherein the algorithm includes at least one of a peak detection algorithm, a size standard match algorithm, a ladder shift algorithm, and a size calling algorithm.
[0271]
In certain embodiments, the system includes an allele call reporting algorithm, wherein the algorithm includes at least one of an allele calling algorithm, an automatic bin processing algorithm, and a bin assignment algorithm.
[0272]
(Allele call report)
In certain embodiments, the allele call report is a reported allele call that can be provided after an allele calling algorithm has been applied. In certain embodiments, the allele call report may be provided after the allele calling algorithm and one or more subsequent algorithms have been applied. For example, in certain embodiments, the allele call report may be provided after the allele calling algorithm and subsequent bin assignment algorithm have been applied. In certain embodiments, the predicted accuracy of the allele call report may be generated taking into account certain quality ratings as discussed below. In certain embodiments, the predicted accuracy is a predicted allele call report that is correct.
[0273]
(Quality evaluation value and warning flag)
In certain embodiments, the system uses one or more quality ratings (QVs) and / or warning flags. In certain embodiments, the quality rating may be used to predict the accuracy of the called allele in the data. In certain embodiments, quality ratings and / or warning flags can be used to predict the accuracy of an allele call report. In certain embodiments, the predicted accuracy is a prediction of whether the allele call report is correct. In certain embodiments, if the quality rating falls below a predetermined threshold, it is recommended that the data be checked again. In certain embodiments, it is recommended not to consider this data at all if the quality rating falls below a further threshold. In certain embodiments, the predicted accuracy provides a value for predicting whether the allele call report is correct.
[0274]
The quality rating may be used for any or all of the algorithms in the system. Exemplary quality ratings are discussed below.
[0275]
(Multi-component QV)
In certain embodiments, the system uses a multi-component QV to determine a quality rating of the multi-component result. In certain embodiments, a method as discussed in US Pat. No. 6,015,667 to Sharaf, issued Jan. 18, 2000, which is incorporated herein by reference, may be used.
[0276]
(Baseline processing QV)
In certain embodiments, the system uses the baseline processing QV to determine a quality rating of the baseline processing result. For example, in certain embodiments, if the method that the most likely model fits is used for baseline processing, the rest of the model may be combined with the baseline processing as one component and the fragment peaks as the other components. Signal indicates an error in the baseline processing.
[0277]
(Size standard matching QV)
In certain embodiments, the system uses the size standard conformance QV to determine a quality value of the size standard conformance result. In certain embodiments, this size standard conformance QV is determined using two processes. The first process is to calculate the base pair ratio or magnification of the scan number (which is the opposite of the ratio) from the fit results. If the ratio is greater than 0.25 (in other words, if the magnification is less than 4 scans per base pair), the fit is not accurate and the quality score is 0.0. In certain embodiments, the second process is based on a chi-square test. This second process calculates the theoretical (expected) distance (in base pairs) between all of these fragments from the size standard definition. From the fitted peaks, the observed distance (in base pairs) between these mapped fragments is calculated. The chi-square test is performed to see if these two sets of distances are sufficiently similar. The P value of this test is reported as a quality rating of the fit.
[0278]
An example of this process is as follows. In this process, the chi-square value is determined under the assumption that the observed peak distribution is not different from the expected peak distribution. This may be calculated in the following manner according to a particular embodiment.
[0279]
After sizing, the peak has two values: size (size of peak) and number of scans (time to scan peak). Assume we have the following data:
[0280]
[Table 4]
Figure 2004516455
The magnification can be determined using two external peaks. In this case, (1000-5000) / (300-50) = 16 scans per base. For each peak pair, the observed base pair distance between them can be calculated. For the above data (e.g., between the peaks of 50 bp and 100 bp), it is expected to be a 50 base pair distance, but the observed base pair distance is 809/16 = 50.5625 base pairs.
[0281]
By calculating this for each peak pair, the chi-square value can be calculated under the assumption that the observed peak distribution is not different from the predicted peak distribution. Next, the obtained P value is used as a size quality evaluation value. Other flags typically do not affect this.
[0282]
(Allele calling QV)
In certain embodiments, the system uses the allele calling QV to determine a quality rating for the allele calling algorithm. In certain embodiments, more than one allele calling algorithm is used, and the allele calling QV is based on results obtained from more than one allele calling algorithm. In certain embodiments, an allele calling QV based on results for more than one allele calling algorithm is referred to as a consensus value or consensus quality rating.
[0283]
In certain embodiments, an allele calling QV is created for each allele calling algorithm. One of skill in the art can determine a process for creating quality estimates for various allele calling algorithms. In certain embodiments, an overall allele calling QV for combining the allele calling algorithms may be created by averaging the quality ratings for each allele calling algorithm resulting in an allele calling. In certain embodiments, an overall allele calling QV for combining allele calling algorithms may be created by selecting the minimum individual quality rating of the allele calling algorithm that results in an allele calling. In certain embodiments, an overall allele calling QV for combining allele calling algorithms may be created by selecting the largest individual quality rating of the allele calling algorithm that results in the allele calling. In certain embodiments, if only one allele calling algorithm results in an allele calling, then the quality rating of this allele calling algorithm may be used as the overall quality rating.
[0284]
In certain embodiments, where more than one allele calling algorithm is applied, the quality rating of the allele calling is the percentage of exact calling that fits various categories of consensus between different allele calling algorithms. Can be created from a perspective. For example, multiple samples can be processed with known alleles having different allele calling algorithms. Then, if there is consensus for all allele calling algorithms and there are various different levels of consensus (e.g., certain algorithms produce calls and other algorithms do not), the exact The rate of gene calling is determined. An allele calling QV based on these ratios can then be generated.
[0285]
In certain embodiments, having all studies performed in one laboratory, the exact allele calling percentage for each category may be used for QV. Thus, if all allele calling algorithms call alleles, 99% of allele calling is accurate. That is, if all algorithms produce calling in subsequent studies, use a QV of 0.99. If algorithms A and B match and algorithm C does not produce a call, the 75% allele calling is correct. That is, if such results are obtained in a subsequent study, a QV of 0.75 is used.
[0286]
In certain embodiments, by having more than one lab create such data, the allele calling QV can be determined. In certain embodiments, the QV results may then be averaged for each category of results obtained from different laboratories. In certain embodiments, the minimum QV may then be used for each category of results obtained from different laboratories. In certain embodiments, the largest QV may then be used for each category of results obtained from different laboratories.
[0287]
In certain embodiments, when using envelope callers, optimized callers, and heuristic callers together, the confidence values discussed above for allele calling QV may be used. For example, in certain embodiments, the confidence values shown in Table 2 or Table 3 above may be used.
[0288]
(Heuristic QV)
In certain embodiments, the heuristic allele calling algorithm uses several heuristic rules, but is subjective (based on extensive test data) but subjective quality rating (qvH) for the allele calling process. Create Particular embodiments use the following conventions:
1. Quality rating starts at 1.0;
2. For the Noise Checker, the quality rating is multiplied by (1.0 to noise level);
3. For the Special Peak Checker, if the algorithm determines that the signal contains a unique stutter pattern and a unique multiple peak pattern, the quality rating value is continuously multiplied by 0.5.
4. If the called allele peak interferes with the user configurable peak height ratio, peak absolute height and broad peak threshold, the quality rating is further reduced.
[0289]
(Auto binning QV)
In certain embodiments, the system uses the automatic binning QV to determine a quality rating for the automatic binning component. In certain embodiments, this automatic binning QV is determined during the automatic binning process. In certain embodiments, after finding the centers of all bins, the components of automatic binning are repeated through all the alleles involved and the centers of the bins to calculate the residual (mean squared error). This residual is adjusted by marker iteration. This adjusted residual AR is used as a determinant for the bin processing quality evaluation value. In certain embodiments, the following definitions are found from extensive dataset searches. If AR is less than 0.30, binning is good, no manual inspection is required, and the quality rating is set to 1.0. If the AR is between 0.30 and 0.40, the bin appears to be good, some bins need to be checked, and its quality rating is set to 0.50. If the AR is greater than 0.40, the bin is unacceptable, there may be some error in the size of the allele, all bins need to be checked, and the quality rating is 0.0 Is set to Also, in certain embodiments, if the user sets bins without using the automatic binning component, the quality rating is set to 1.0.
[0290]
(Bin assigning QV)
In certain embodiments, the system uses the bin assignment QV to determine the quality rating of the allele assignment of the sample and set the bin. In certain embodiments, this bin assignment QV is determined by the distance from the center of the bin to the location where the given allele is located. In certain embodiments, this bin assignment value QV is set to 1 if the allele decreases in the bin and to 0.1 if the allele does not decrease in the bin.
[0291]
(Allele calling warning flag)
In certain embodiments, the system is reporting multiple warning flags of the user. This warning flag warns the user that there may be a potential problem with the accuracy of the data. Particular embodiments use the following warning flags:
(Off-scale)
Set this flag if the off-scale peak is within the calling range. (This calling range is calculated after size calling is performed)
(Spike peak)
Set this flag if a spike peak is present in the marker signal. In certain embodiments, this flag is set if the narrowest peak in the cluster has a width that is 50% less than the adjacent peak.
[0292]
(1 base pair peak)
This flag is set if a one base pair allele is present in the marker signal. For example, in certain embodiments, set this flag if there are two called alleles separated by only one base pair.
[0293]
(Peak altitude ratio)
This flag is set if there are two alleles and the ratio between the low and high allele heights is below a certain level. In certain embodiments, this level is set to 0.5.
[0294]
(Peak absolute altitude)
Set this flag if the allele is less than a certain value. In certain embodiments, for homozygotes, these values are set to 200, and for heterozygotes, these values are set to 100.
[0295]
(Binning problem)
Set this flag if the called allele is not assigned to any user defined bin.
[0296]
(Bleed-through)
Set this flag if the marker signal contains a bleed-through peak (increase the peak). In certain embodiments, bleed-through is detected if there are peaks of different colors within one scan and this peak is less than 20% of the larger peak.
[0297]
(Broad peak)
Set this flag if the peak width of the called allele is wider than a certain value. In certain embodiments, this value is set to 1.5 base pairs. In certain embodiments, the peak width is measured at half the peak altitude.
[0298]
(Background peak)
This flag is set if the marker signal contains a single (isolated) peak. In certain embodiments, a background peak is a peak that does not fit into a cluster. In certain embodiments, a background peak is determined to be present if there are small peaks near the large peaks that do not match the microsatellite pattern. Such background peaks can occur due to some errors in slab gel electrophoresis.
[0299]
(Split peak)
In certain embodiments, set this flag if the following data is available:
[0300]
[Table 5]
Figure 2004516455
A / b> 10 and z / w> 10, and the distance between the two peaks is less than 0.25 base pairs, or
A / b> 8 and z / w> 40, and the distance between the two peaks is less than 0.25 base pairs. Use the higher peak as the real allele.
[0301]
(Number of allelic errors)
Set this flag if the number of alleles exceeds the maximum possible number for the species or if the allele is not found.
[0302]
Table 5 below shows a specific embodiment of the present invention and uses various warning flags:
(Table 5-Summary of flags used (filled circles = used; and blanks = unused)
[0303]
[Table 6]
Figure 2004516455
Off-scale is also used for all three (linking dinucleotides, linking tris and tetras, and HID tris and tetras), according to certain embodiments.
[0304]
*Not used for allele ladder samples.
[0305]
(Allele Call Report QV)
In certain embodiments, the system uses an allele call report QV (also called an overall quality rating) to determine a quality rating for the allele call report. (As discussed above, an allele call report is provided after applying the allele calling and bin assignment algorithms).
[0306]
In certain embodiments, an allele call report quality rating may be generated based on the integration of the quality rating from a series of individual algorithm component quality ratings.
[0307]
qv allele = qv size fit Xqv allele peak pick Xqv bin assign Xqv bin
qv size fitting comes from a size fitting algorithm.
[0308]
The Qv allele peak pick is derived from the allele peak picking algorithm. If the system uses more than one allele peak picking algorithm, the Qv allele peak pick can be a consensus value.
[0309]
Qv bin assignment comes from the bin assignment algorithm.
[0310]
Qv bins come from the bin configuration for the set. In certain embodiments, this value is generated by an automatic binning algorithm. Unless the bin is specified by the user, the qv bin is 1.0.
[0311]
In certain embodiments, an allele call report quality rating may be generated based on any or all of the following quality ratings: In certain embodiments, the allele call report quality rating is generated by multiplying two or more individual values or flags used below.
[0312]
Size compatible QV
Allele peak picking QV (in certain embodiments, this may be a consensus value and is a percentage based on internal calibration. In certain embodiments including ladders, a marker quality rating rather than a consensus value may be used. .)
Bin allocation QV
Automatic bin processing QV
If any of the following flags are set, multiples of 0.5 are used in each case: background peak, off-scale, percentage of peak height, absolute height of peak. If the lower allele is on the left for peak height percentages, use a multiple of 0.25 instead of 0.5.
[0313]
If there are many allele error flags, set the quality rating to zero.
[0314]
If the user manually edits any of the data affected by the quality rating value, this value is set to 1 for the factor to be edited.
[0315]
In certain embodiments, if more than two alleles are present, the quality rating of all alleles may be averaged to provide a genotype quality rating. In such an embodiment, each allele has its own quality rating and all of these quality ratings are averaged to obtain a genotype quality rating.
[0316]
In certain embodiments, for the same marker, an allele call report QV based on the average of several individually occurring allele call reports QV may be generated.
[0317]
(Human identification)
In certain embodiments, the system is used for human identification. In certain such embodiments, there are certain predetermined markers that include a different known allele at each marker for a given population. For each marker, the known allele is provided to the user as a ladder from which the resulting data can be compared. This ladder is a sample containing nucleotides of different sizes, each corresponding to a particular allele for a given marker.
[0318]
The user is also informed that the bin has a bin center corresponding to the expected size of each of the different sized nucleotides for each allele in the ladder. When using ladders in the process, from run to run and from instrument to instrument, there may be certain shifts in the position of these ladders. In other words, when using a ladder in an experiment, the resulting data may include the ladder peak size, which does not correspond exactly to the predicted bin center, but includes more peaks than the predicted bin center. obtain. Thus, in certain embodiments, a ladder shift algorithm is used to adjust the bin positions responsible for these ladder shifts and / or additional peaks and to determine the size of the allele in the experimental sample. Bins may be provided that may provide more accurate results than bin positions that have not been performed.
[0319]
In certain embodiments, to find the ladder shift, the system locates the ladder (by predicting the bin center for alleles of the ladder, as reported by the user, by examining the bin definition), A dynamic programming algorithm is used to match the bin position to the peak of the ladder signal. In certain embodiments, by matching the exact peaks obtained in the ladder file with the bin definition (reported expected bin center), the above is explained to account for ladder shifts and / or extra peaks. Size standard adaptation algorithms as discussed in. In certain embodiments, since the ladder is typically a very strong signal, the fitting algorithm uses a minimum peak height of 100-150 rfu. After fitting, the shift is calculated for each ladder bin definition / peak pair.
[0320]
Each ladder is then provided with a revised bin to assign the peak obtained from the sample. For example, after the system calls an allele in a sample, the allele is assigned to bins that have been adjusted using shifts.
[0321]
According to a particular embodiment, the process proceeds using the flowchart of Table 5:
[0322]
[Table 7]
Figure 2004516455
In certain embodiments, the size compliant components discussed above are used for the following ladder shifts. In these embodiments, alleles within a given ladder are assigned to bins. In certain embodiments, the user is also alerted to the virtual bin. A virtual bin is a bin in which alleles may be present, but possible alleles are not provided in the ladder. In certain embodiments, the virtual bin may need to be shifted if there is a shift determined for the actual allele in the ladder. In the description below, this shift is detected for each marker ladder independently of other ladders for other markers.
[0323]
In certain embodiments, using the size standard fitting algorithm in the size standard fitting section discussed above, the data generated in the ladder is used to map the expected peaks to the peaks actually observed in the ladder. Evaluate by matching (in certain embodiments, use peaks greater than 100 rfu).
[0324]
If less peaks are observed than the expected number of a given ladder for a particular marker, the ladder should not be used as a marker in the analysis (note that this result is determined independently for each ladder for each marker) .
[0325]
• If more peaks are observed than the expected number of predetermined ladders for a particular marker, the size standard fit component attempts to match the observed pattern to the expected pattern.
[0326]
If the fit is successful, in certain embodiments, it produces a marker quality score (also called a ladder shift quality score). In certain embodiments, the marker quality estimates are generated using the same techniques in the size standard compliant QV section discussed above. (This marker quality rating is used in the overall genotype quality instead of the allele calling quality rating.)
Note that extra peaks do not necessarily result in a low quality rating.
[0327]
Here, the algorithm recognizes which ladder peak represents which bin. This gets the allele ladder peak size calculated above, and subtracts the predicted bin center value therefrom. This provides a bin shift for bins in the allele ladder file. Any virtual bin is given the same shift to its left as the nearest ladder bin. Thus, if the ladder file has an allele bin center shifted +0.2 from the predicted bin center, the virtual bin to the right of such a ladder bin will also have a center shifted +0.2.
[0328]
In certain embodiments, this shift is calculated for each marker, and the bin shift from each ladder file is calculated and stored. In certain embodiments, a given ladder is executed more than once in this process. In such an embodiment, any bin shift may be averaged by averaging the individual bins that intersect the ladder. For example, it is assumed that the bin at marker X has a shift of +1, +2 and +0 in three separate sample ladders for marker X. The average shift is +1). (Note that we have not checked whether these bin shifts result in duplicate bins.) Also note that the average is over all ladder files used in a single run. In certain embodiments, each run is all files in the same folder.
[0329]
(Use bin shift)
After determining that a peak is an allele in a test sample, the peak size is compared to the shifted bins to determine which bin should be located where. If the test allele falls within one bin, it can be concluded that such an allele corresponds to a particular allele of the ladder corresponding to this bin. If the allele can be assigned to more than one bin or cannot be assigned to a bin, the allele is designated as an off-ladder allele.
[0330]
(System components according to certain embodiments)
FIG. 18 shows a diagram of a more detailed data processing system 100 for use in certain embodiments. The system 100 includes a memory 120, an auxiliary storage device 130, a central processing unit (CPU) 140, an input device 150, and a video display 160. The memory 120 comprises software 122 with algorithms for conforming inline size standards with rules and algorithms for linked mapping markers and human identification markers.
[0331]
Although aspects of the invention are described as being stored in memory, those skilled in the art will recognize these aspects as other computer readable media, such as hard disks, floppy disks, and CD-ROMs. On an auxiliary storage device; a carrier received from a network such as the Internet; or ROM or other form of RAM). Additionally, while particular components and programs of the system 100 are described, those skilled in the art will appreciate that they may include additional or different components or programs.
[Brief description of the drawings]
FIG.
FIG. 1 shows a schematic block diagram for use with methods and systems consistent with certain embodiments of the present invention in providing allele calls.
FIG. 2
FIG. 2 shows a flowchart of the steps performed by a data processing system processing an allele call in implementing a method and system consistent with certain embodiments of the present invention.
FIG. 3A
FIG. 3A illustrates an exemplary allele call algorithm for use with methods and systems consistent with certain embodiments of the present invention.
FIG. 3B
FIG. 3B illustrates an exemplary allele call algorithm for use with methods and systems consistent with certain embodiments of the present invention.
FIG. 3C
FIG. 3C illustrates an exemplary allele call algorithm for use with methods and systems consistent with certain embodiments of the present invention.
FIG. 3D
FIG. 3D illustrates an exemplary allele call algorithm for use with methods and systems consistent with certain embodiments of the present invention.
FIG. 4
FIG. 4 shows a flowchart of the steps performed by the committee machine of FIG. 1 for use with a method and system consistent with certain embodiments of the present invention.
FIG. 5
FIG. 5 shows a block diagram of a system for performing the methods and systems consistent with certain embodiments of the present invention.
FIG. 6
FIG. 6 shows data generated and then interpreted using certain embodiments of the present invention.
FIG. 7
FIG. 7 shows the data discussed in Example II (envelope caller).
FIG. 8
FIG. 8 shows the data discussed in Example III (optimization program caller).
FIG. 9
FIG. 9 shows a method for searching for alleles discussed in Example III (optimization program caller).
FIG. 10
FIG. 10 shows data that can be evaluated using a heuristic algorithm according to certain embodiments.
FIG. 11
FIG. 11 shows data that can be evaluated using a dynamic algorithm according to certain embodiments.
FIG.
FIG. 12 shows data that can be evaluated using a dynamic algorithm according to certain embodiments.
FIG. 13
FIG. 13 shows the signature of a representative canonical heterozygous allele. (Circles indicate allele calls annotated by the user; x-axis is base pairs; y-axis is A / D count (voltage strength).)
FIG. 14
FIG. 14 illustrates steps in an allele call routine, according to the embodiment discussed in Example V (committee machine processing). First, the signal is simplified via sampling and its peak is located. This forms the target signal to be approximated. The two interconnected boxes show the process of changing the parameters and testing how closely the resulting signal matches the original sampled version. The set of parameters that produces the closest match includes allele calls.
FIG.
FIG. 15 shows data discussed in Example V (committee machine processing). This illustrates the formation of a hypothesis in the optimization routine. The two columns represent the optimal solution (left column) and the suboptimal solution (right column). Panel (a) shows two red lines indicating the positions of the target vector and the candidate peak. Panel (c) includes a stutter and+3 shows a hypothesis formed using different values of A. Panel (c) shows the residual error resulting from subtraction of the signal in panel (c) from the signal in panel (a) (sum of squared errors = 0.0355). Panels (b, d, f) show the same process for slightly different allele hypotheses. This is a poor hypothesis and the residuals are somewhat significant (SSE = 0.4715). The x-axis is somewhat meaningless in this regard. This is because after selecting a successful hypothesis, it is mapped back to the base pair index.
FIG.
FIG. 16 shows the data discussed in Example V (committee machine processing), and shows the division of the heterozygous signal into panels by the envelope caller algorithm. These panels are ranked according to signal energy, and three of interest are labeled p1, p2 and p3, and two panels containing strong allele signatures are shaded in blue. Circles indicate allele calls annotated by the user. (The x-axis is base pairs. The y-axis is A / D count (voltage intensity).
FIG.
FIG. 17 shows an example of how a report can be achieved, as discussed in Example V (Committee Machine Processing). These are examples where no agreement was reached, and represent data that is difficult to interpret.
FIG.
FIG. 18 shows a schematic block diagram of a system according to a particular embodiment.
FIG.
FIG. 19 shows exemplary data of the effect of localvectorMin on baseline determination when the signal does not include “structure”. ("Structure" is "useful information" such as peaks).
FIG.
FIG. 20 shows exemplary data according to certain embodiments that excludes positive structures.
FIG. 21
FIG. 21 shows an exemplary bottom baseline after negative spikes have been eliminated.
FIG. 22
FIG. 22 shows exemplary data according to certain embodiments when the baseline determination is made by taking the average of the top and bottom.
FIG. 23
FIG. 23 illustrates a baseline determined signal according to a particular embodiment.
FIG. 24
FIG. 24 shows exemplary data according to certain embodiments.
FIG. 25
FIG. 25 shows exemplary data showing details of peak locations according to certain embodiments.
FIG. 26
FIG. 26 shows exemplary data where the peaks are symmetric.
FIG. 27
FIG. 27 shows exemplary data when the peaks are not symmetric.
FIG. 28
FIG. 28 shows exemplary data when the peaks are not symmetric.
FIG. 29
FIG. 29 enlarges the area marked in red in FIG.
FIG. 30
FIG. 30 shows exemplary data by calculating the first derivative by fitting a polynomial according to a particular embodiment.
FIG. 31
FIG. 31 shows example data using k to smooth the derivative according to certain embodiments.
FIG. 32
FIG. 32 shows peaks in certain exemplary data.
FIG. 33
FIG. 33 shows peaks in certain exemplary data.
FIG. 34
FIG. 34 illustrates a method for avoiding certain artifacts, according to certain embodiments.
FIG. 35
FIG. 35 shows exemplary data showing a peak with a shoulder.
FIG. 36
FIG. 36 shows example data illustrating, in certain embodiments, how a shoulder may be found by analyzing the second derivative.
FIG. 37
FIG. 37 shows example data illustrating, in certain embodiments, how a shoulder may be found by analyzing the second derivative.
FIG. 38
FIG. 38 illustrates the end result of a peak detector shoulder detection, according to certain embodiments.
FIG. 39
FIG. 39 shows exemplary data for peaks, sizes and matches.
FIG. 40
FIG. 40 illustrates a runtime mesh in accordance with a particular embodiment.
FIG. 41
FIG. 41 shows how each curve can keep the number of extra peaks constant according to certain embodiments.
FIG. 42
FIG. 42 shows how each curve can keep the number of sizes constant in a size standard specification according to a particular embodiment.
FIG. 43
FIG. 43 illustrates linear interpolation according to a particular embodiment.
FIG. 44
FIG. 44 illustrates linear interpolation according to a particular embodiment.
FIG. 45
FIG. 45 illustrates example data of a size call algorithm according to a particular embodiment.
FIG. 46
FIG. 46 shows a flowchart of a system according to a particular embodiment.

Claims (63)

対立遺伝子コールを行うためのコンピュータにより実行される方法であって、該方法は、以下:
核酸情報を表現するデータを受信する工程;
少なくとも二つの異なる対立遺伝子コーリングアルゴリズムを、該データに適用し、各アルゴリズムに対する結果を提供する工程;および
該アルゴリズム各々の結果間での一致に依存して、該データ内で対立遺伝子コールを同定し、そして各コールに対する信頼水準を割り当てる工程、
を包含する、方法。
A computer-implemented method for making an allele call, comprising:
Receiving data representing nucleic acid information;
Applying at least two different allele calling algorithms to the data and providing a result for each algorithm; and identifying allele calls within the data depending on the match between the results of each of the algorithms. And assigning a confidence level for each call,
A method comprising:
請求項1に記載のコンピュータにより実行される方法であって、ここで、前記の、少なくとも二つの異なる対立遺伝子コーリングアルゴリズムを、前記データに適用し、各アルゴリズムに対する結果を提供する工程において適用される、前記対立遺伝子コーリングアルゴリズムは、エンベロープ検出コーラーアルゴリズム、最適化プログラムコーラーアルゴリズム、およびヒューリスティックコーラーアルゴリズムから選択される、方法。The computer-implemented method of claim 1, wherein the at least two different allele calling algorithms are applied to the data and providing a result for each algorithm. The method wherein the allele calling algorithm is selected from an envelope detection caller algorithm, an optimization program caller algorithm, and a heuristic caller algorithm. 対立遺伝子コールを行うためのコンピュータにより実行される方法であって、該方法は、以下:
核酸情報を表現する信号を受信する工程;
該信号が予め規定された複雑度未満であるか否かを決定する工程;および
該決定に基づいて、該信号に対する対立遺伝子コールを行う工程、
を包含する、方法。
A computer-implemented method for making an allele call, comprising:
Receiving a signal representing nucleic acid information;
Determining whether the signal is less than a predefined complexity; and making an allele call to the signal based on the determination;
A method comprising:
対立遺伝子コールを行うためのコンピュータにより実行される方法であって、該方法は、以下:
核酸情報を表現する信号を受信する工程;
一セットのフィルタを該信号に適用し、対立遺伝子を表現しないピークを除去する工程であって、ここで該フィルタのセットは、以下:
スプリットピークチェッカー;バックグラウンドピークチェッカー;ショルダーピークチェッカー;スパイクピークチェッカー;特別ピークチェッカー;および一塩基対チェッカーのうち少なくとも一つを含む、工程;および
該信号に該フィルタのセットを適用した後の該データ中の残存ピークが対立遺伝子であることを決定する工程、
を包含する、方法。
A computer-implemented method for making an allele call, comprising:
Receiving a signal representing nucleic acid information;
Applying a set of filters to the signal to remove peaks that do not represent alleles, wherein the set of filters comprises:
Including at least one of a split peak checker; a background peak checker; a shoulder peak checker; a spike peak checker; a special peak checker; and a single base pair checker; and the step of applying the set of filters to the signal. Determining that the residual peak in the data is an allele;
A method comprising:
請求項4に記載の方法であって、ここで、前記適用する工程は、以下のサブ工程:
前記信号におけるピークのリストを生成する工程;
各ピークに関連する特徴を決定する工程;
該決定された特徴に基づいて、ピークを該リストから除去する工程、
を包含する、方法。
5. The method of claim 4, wherein the applying step comprises the following sub-steps:
Generating a list of peaks in the signal;
Determining features associated with each peak;
Removing peaks from the list based on the determined characteristics;
A method comprising:
前記核酸情報は核酸の長さである、請求項1、請求項3、または請求項4のいずれかの方法。The method according to claim 1, wherein the nucleic acid information is a length of the nucleic acid. ヌクレオチド情報またはアミノ酸情報を解釈するためのコンピュータにより実行される方法であって、該方法は、以下:
ヌクレオチド情報またはアミノ酸情報を表現するデータを受信する工程;
少なくとも二つの異なる対立遺伝子コーリングアルゴリズムを、該データに適用し、各アルゴリズムに対する結果を提供する工程;および
該アルゴリズム各々の結果間での一致に依存して、該データ内で少なくとも一つの正確な結果を同定し、そして該少なくとも一つの正確な結果に対して信頼水準を割り当てる工程、
を包含する、方法。
A computer-implemented method for interpreting nucleotide or amino acid information, the method comprising:
Receiving data representing nucleotide information or amino acid information;
Applying at least two different allele calling algorithms to the data and providing a result for each algorithm; and at least one exact result in the data, depending on the match between the results of each of the algorithms Identifying and assigning a confidence level to said at least one accurate result.
A method comprising:
請求項7に記載のコンピュータにより実行される方法であって、ここで、前記の少なくとも二つの異なるアルゴリズムを、前記データに適用し、各アルゴリズムに対する結果を提供する工程において適用されるアルゴリズムは、エンベロープ検出コーラーアルゴリズム、最適化プログラムコーラーアルゴリズム、およびヒューリスティックコーラーアルゴリズムから選択される、方法。8. The computer-implemented method of claim 7, wherein applying the at least two different algorithms to the data and providing a result for each algorithm comprises an envelope. A method selected from a detection caller algorithm, an optimization program caller algorithm, and a heuristic caller algorithm. 核酸情報を表現するデータに関連する対立遺伝子コールを行うためのコンピュータにより実行される方法であって、該方法は、以下:
複数の対立遺伝子コーリングアルゴリズムの各々を、核酸情報を表現するデータに適用し、該データ中に表現されるいずれの対立遺伝子コールが存在するか否かを決定する工程であって、ここで、各対立遺伝子コーリングアルゴリズムは、該データ中に表現される対立遺伝子コールが存在するか否かを決定するときに異なるストラテジーを適用する工程;
該適用された対立遺伝子コーリングアルゴリズムの全てからの結果が一致する場合、該対立遺伝子コーリングアルゴリズムを適用した間に該データ内で同定された任意の対立遺伝子コールについて、高い信頼水準を割り当てる工程;
該適用された対立遺伝子コーリングアルゴリズムの全てからの結果が一致しない場合、適用された対立遺伝子コーリングアルゴリズムのどの組み合わせが一致した結果を共有するかに依存して、該対立遺伝子コーリングアルゴリズムを適用した間に該データ内で同定された任意の対立遺伝子コールについて、異なる信頼水準を割り当てる工程;および
該結果および、該データにおいて同定された任意の対立遺伝子コールに対する信頼水準の任意の割り当てに関連する情報を含むレポートを出力する工程、
を包含する、方法。
A computer-implemented method for making an allele call relating to data representing nucleic acid information, the method comprising:
Applying each of the plurality of allele calling algorithms to data representing nucleic acid information to determine whether any allele calls represented in the data are present, wherein each The allele calling algorithm applying a different strategy when determining whether there is an allele call represented in the data;
Assigning a high confidence level for any allele calls identified in the data while applying the allele calling algorithm, if the results from all of the applied allele calling algorithms match;
If the results from all of the applied allele calling algorithms do not match, then depending on which combination of the applied allele calling algorithms share the matched results, Assigning a different confidence level for any allele call identified in said data; and the result and information relating to any assignment of confidence level to any allele call identified in said data. Output report including
A method comprising:
請求項9に記載のコンピュータにより実行される方法であって、ここで、前記の、複数の対立遺伝子コーリングアルゴリズムの各々を、核酸情報を表現するデータに適用し、該データ中に表現されるいずれの対立遺伝子コールが存在するか否かを決定する工程で適用される対立遺伝子コーリングアルゴリズムが、エンベロープ検出コーラーアルゴリズム、最適化プログラムコーラーアルゴリズム、およびヒューリスティックコーラーアルゴリズムから選択され、ここで、各対立遺伝子コーリングアルゴリズムは、該データ中に表現される任意の対立遺伝子コールが存在するか否かを決定するときに異なるストラテジーを適用する、方法。10. The computer-implemented method of claim 9, wherein each of the plurality of allele calling algorithms is applied to data representing nucleic acid information, and any of the plurality of allele calling algorithms is represented in the data. The allele calling algorithm applied in the step of determining whether allele calls are present is selected from an envelope detection caller algorithm, an optimization program caller algorithm, and a heuristic caller algorithm, where each allele calling The method wherein the algorithm applies a different strategy when determining whether any allele calls expressed in the data are present. 対立遺伝子コールを行うためのシステムであって、該システムは、以下:
プログラム命令を実行するために設定されたプロセッサ;および
該プロセッサによる実行によって、
核酸情報を表現するデータを受信し、
少なくとも二つの異なる対立遺伝子コーリングアルゴリズムを、該データに適用し、各アルゴリズムに対する結果を提供し、そして
該アルゴリズム各々の結果間での一致に依存して、該データ内で対立遺伝子コールを同定し、そして各コールに対する信頼水準を割り当てる
ためのプログラム命令を含むメモリ、
を備える、システム。
A system for making an allele call, comprising:
A processor configured to execute program instructions; and, by execution by the processor,
Receiving data representing nucleic acid information,
Applying at least two different allele calling algorithms to the data, providing results for each algorithm, and identifying allele calls within the data, depending on the match between the results of each of the algorithms; And memory containing program instructions for assigning a confidence level for each call,
A system comprising:
請求項11に記載のシステムであって、ここで、前記適用された対立遺伝子コーリングアルゴリズムは、エンベロープ検出コーラーアルゴリズム、最適化プログラムコーラーアルゴリズム、およびヒューリスティックコーラーアルゴリズムから選択される、システム。12. The system of claim 11, wherein the applied allele calling algorithm is selected from an envelope detection caller algorithm, an optimization program caller algorithm, and a heuristic caller algorithm. 前記核酸情報は核酸の長さを含む、請求項11に記載のシステム。The system according to claim 11, wherein the nucleic acid information includes a length of the nucleic acid. 対立遺伝子コールを行うためのシステムであって、該システムは、以下:
プログラム命令を実行するために設定されたプロセッサ;および
該プロセッサによる実行によって、
核酸情報を表現する信号を受信し、
該信号が予め規定された複雑度未満であるか否かを決定し、そして
該決定に基づいて、該信号に対する対立遺伝子コールを行う
ためのプログラム命令を含むメモリ、
を備える、システム。
A system for making an allele call, comprising:
A processor configured to execute program instructions; and, by execution by the processor,
Receiving a signal representing nucleic acid information,
A memory comprising program instructions for determining whether the signal is less than a predefined complexity and making an allele call to the signal based on the determination;
A system comprising:
前記核酸情報は核酸の長さを含む、請求項14に記載のシステム。15. The system according to claim 14, wherein the nucleic acid information includes a length of the nucleic acid. 対立遺伝子コールを行うためのシステムであって、該システムは、以下:
プログラム命令を実行するために設定されたプロセッサ;および
該プロセッサによる実行によって、
核酸情報を表現する信号を受信し、
一セットのフィルタを該信号に適用し、対立遺伝子を表現しないピークを除去し、ここで該フィルタのセットは、以下:スプリットピークチェッカー;バックグラウンドピークチェッカー;ショルダーピークチェッカー;スパイクピークチェッカー;特別ピークチェッカー;および一塩基対チェッカーのうち少なくとも一つを含み、そして、
該信号に該フィルタのセットを適用した後の該データ中の残存ピークが、対立遺伝子であることを決定する、
ためのプログラム命令を含むメモリ、
を備える、システム。
A system for making an allele call, comprising:
A processor configured to execute program instructions; and, by execution by the processor,
Receiving a signal representing nucleic acid information,
A set of filters is applied to the signal to remove peaks that do not represent alleles, where the set of filters includes: a split peak checker; a background peak checker; a shoulder peak checker; a spike peak checker; A checker; and at least one of a single base pair checker; and
Determining that the residual peak in the data after applying the set of filters to the signal is an allele;
Memory containing program instructions for
A system comprising:
請求項16に記載のシステムであって、ここで、前記プログラム命令を実行するプロセッサは、前記フィルタのセットを前記信号に適用し、対立遺伝子を表現しないピークを除去する場合に該プロセッサは、該信号におけるピークのリストを生成し、各ピークに関連する特徴を決定し、そして、該決定された特徴に基づいて、ピークを該リストから除去する、システム。17. The system of claim 16, wherein the processor executing the program instructions applies the set of filters to the signal to remove peaks that do not represent alleles. A system for generating a list of peaks in a signal, determining features associated with each peak, and removing peaks from the list based on the determined features. 前記核酸情報は、核酸の長さを含む、請求項16に記載のシステム。17. The system according to claim 16, wherein the nucleic acid information includes a length of the nucleic acid. ヌクレオチド情報またはアミノ酸情報を解釈するためのシステムであって、該システムは、以下:
プログラム命令を実行するためのプロセッサ;および
該プロセッサによる実行によって、
ヌクレオチド情報またはアミノ酸情報を表現するデータを受信し、
少なくとも二つの異なる対立遺伝子コーリングアルゴリズムを、該データに適用し、各アルゴリズムに対する結果を提供し、そして
該アルゴリズム各々の結果間での一致に依存して、該データ内で少なくとも一つの正確な結果を同定し、そして少なくとも一つの正確な結果に対する信頼水準を割り当てる、
ためのプログラム命令を記憶するメモリ、
を備える、システム。
A system for interpreting nucleotide or amino acid information, the system comprising:
A processor for executing program instructions; and, by execution by the processor,
Receiving data representing nucleotide information or amino acid information,
At least two different allele calling algorithms are applied to the data to provide a result for each algorithm, and depending on the match between the results of each of the algorithms, at least one exact result within the data is obtained. Identifying and assigning a confidence level for at least one accurate result,
For storing program instructions for
A system comprising:
請求項19に記載のシステムであって、ここで、前記適用されるアルゴリズムは、エンベロープ検出コーラーアルゴリズム、最適化プログラムコーラーアルゴリズム、およびヒューリスティックコーラーアルゴリズムから選択される、システム。20. The system of claim 19, wherein the applied algorithm is selected from an envelope detection caller algorithm, an optimization program caller algorithm, and a heuristic caller algorithm. 核酸情報を表現するデータに関連する対立遺伝子コールを行うためのシステムであって、該システムは、以下:
プログラム命令を実行するためのプロセッサ;および
該プロセッサによる実行によって、
複数の対立遺伝子コーリングアルゴリズムの各々を、核酸情報を表現するデータに適用し、該データ中に表現されるいずれかの対立遺伝子コールが存在するか否かを決定し、ここで、各対立遺伝子コーリングアルゴリズムは、該データ中に表現される対立遺伝子コールが存在するか否かを決定するときに異なるストラテジーを適用し、
該適用された対立遺伝子コーリングアルゴリズムの全てからの結果が一致する場合、該対立遺伝子コーリングアルゴリズムを適用した間に該データ内で同定された任意の対立遺伝子コールについて、高い信頼水準を割り当て、
該適用された対立遺伝子コーリングアルゴリズムの全てからの結果が一致しない場合、適用された対立遺伝子コーリングアルゴリズムのどの組み合わせが一致した結果を共有するかに依存して、該対立遺伝子コーリングアルゴリズムを適用した間に該データ内で同定された任意の対立遺伝子コールについて、異なる信頼水準を割り当て、そして、
該結果および、該データにおいて同定された任意の対立遺伝子コールに対する信頼水準の任意の割り当てに関連する情報を含むレポートを出力する
ためのプログラム命令を記憶するメモリ、
を備える、システム。
A system for making an allele call relating to data representing nucleic acid information, the system comprising:
A processor for executing program instructions; and, by execution by the processor,
Applying each of the plurality of allele calling algorithms to data representing nucleic acid information to determine whether any allele calls represented in the data are present, wherein each allele calling is performed. The algorithm applies different strategies when determining whether the allele call represented in the data is present,
If the results from all of the applied allele calling algorithms match, assign a high confidence level for any allele calls identified in the data while applying the allele calling algorithm;
If the results from all of the applied allele calling algorithms do not match, then depending on which combination of the applied allele calling algorithms share the matched results, Assign different confidence levels for any allele call identified in the data, and
A memory for storing the results and program instructions for outputting a report including information relating to any assignment of confidence levels to any allele calls identified in the data;
A system comprising:
請求項21に記載のシステムであって、ここで、前記適用される対立遺伝子コーリングアルゴリズムは、エンベロープ検出コーラーアルゴリズム、最適化プログラムコーラーアルゴリズム、およびヒューリスティックコーラーアルゴリズムから選択される、システム。22. The system according to claim 21, wherein the applied allele calling algorithm is selected from an envelope detection caller algorithm, an optimization program caller algorithm, and a heuristic caller algorithm. コンピュータシステムを制御して、正確な対立遺伝子コールを行うための方法を実施する命令を含むコンピュータ読み取り可能媒体であって、該方法は、以下:
核酸情報を表現するデータを受信する工程;
少なくとも二つの異なる対立遺伝子コーリングアルゴリズムを、該データに適用し、各アルゴリズムに対する結果を提供する工程;および
該アルゴリズム各々の結果間での一致に依存して、該データ内で対立遺伝子コールを同定し、そして各コールに対する信頼水準を割り当てる工程、
を包含する、方法である、媒体。
A computer-readable medium containing instructions for performing a method for controlling a computer system to make an accurate allele call, the method comprising:
Receiving data representing nucleic acid information;
Applying at least two different allele calling algorithms to the data and providing a result for each algorithm; and identifying allele calls within the data depending on the match between the results of each of the algorithms. And assigning a confidence level for each call,
A medium, which is a method, comprising:
請求項23に記載のコンピュータ読み取り可能媒体であって、ここで、前記の、少なくとも二つの異なる対立遺伝子コーリングアルゴリズムを、該データに適用し、各アルゴリズムに対する結果を提供する工程において適用される対立遺伝子コーリングアルゴリズムは、エンベロープ検出コーラーアルゴリズム、最適化プログラムコーラーアルゴリズム、およびヒューリスティックコーラーアルゴリズムから選択される、媒体。24. The computer readable medium of claim 23, wherein said at least two different allele calling algorithms are applied to said data and said alleles are applied in a step of providing a result for each algorithm. The calling algorithm is a medium selected from an envelope detection caller algorithm, an optimization program caller algorithm, and a heuristic caller algorithm. コンピュータシステムを制御して、対立遺伝子コールを行うための方法を実施する命令を含むコンピュータ読み取り可能媒体であって、該方法は、以下:
核酸情報を表現する信号を受信する工程;
該信号が予め規定された複雑度未満であるか否かを決定する工程;および
該決定に基づいて、該信号に対する対立遺伝子コールを行う工程、
を包含する、媒体。
A computer-readable medium containing instructions for controlling a computer system to perform a method for making an allele call, the method comprising:
Receiving a signal representing nucleic acid information;
Determining whether the signal is less than a predefined complexity; and making an allele call to the signal based on the determination;
And a medium.
コンピュータシステムを制御して、対立遺伝子コールを行うための方法を実施する命令を含むコンピュータ読み取り可能媒体であって、該方法は、以下:
核酸情報を表現する信号を受信する工程;
一セットのフィルタを該信号に適用し、対立遺伝子を表現しないピークを除去する工程であって、ここで該フィルタのセットは、以下:
スプリットピークチェッカー;バックグラウンドピークチェッカー;ショルダーピークチェッカー;スパイクピークチェッカー;特別ピークチェッカー;および一塩基対チェッカーのうち少なくとも一つを含む、工程;および
該信号に該フィルタのセットを適用した後の該データ中の残存ピークが対立遺伝子であることを決定する工程、
を包含する、媒体。
A computer-readable medium containing instructions for controlling a computer system to perform a method for making an allele call, the method comprising:
Receiving a signal representing nucleic acid information;
Applying a set of filters to the signal to remove peaks that do not represent alleles, wherein the set of filters comprises:
Including at least one of a split peak checker; a background peak checker; a shoulder peak checker; a spike peak checker; a special peak checker; and a single base pair checker; and the step of applying the set of filters to the signal. Determining that the residual peak in the data is an allele;
And a medium.
請求項26に記載のコンピュータ読み取り可能媒体であって、ここで、前記フィルタのセットを適用する工程は、以下:
前記信号におけるピークのリストを生成する工程;
各ピークに関連する特徴を決定する工程;および
該決定された特徴に基づいて、ピークを該リストから除去する工程、
を包含する、媒体。
27. The computer readable medium of claim 26, wherein applying the set of filters comprises:
Generating a list of peaks in the signal;
Determining features associated with each peak; and removing peaks from the list based on the determined features.
And a medium.
前記核酸情報は核酸の長さである、請求項23、請求項25、または請求項26のいずれかに記載のコンピュータシステムを制御して、対立遺伝子コールを行うための方法を実施する命令を含むコンピュータ読み取り可能媒体。27. The nucleic acid information includes instructions for controlling a computer system according to any of claims 23, 25, or 26 to perform a method for making an allele call, wherein the nucleic acid information is a length of the nucleic acid. Computer readable medium. コンピュータシステムを制御して、ヌクレオチド情報またはアミノ酸情報を解釈するための方法を実施する命令を含むコンピュータ読み取り可能媒体であって、該方法は、以下:
ヌクレオチド情報またはアミノ酸情報を表現するデータを受信する工程;
少なくとも二つの異なるアルゴリズムを、該データに適用し、各アルゴリズムに対する結果を提供する工程;および
該アルゴリズム各々の結果間での一致に依存して、該データ内で少なくとも一つの正確な結果を同定し、そして該少なくとも一つの正確な結果に対して信頼水準を割り当てる工程、
を包含する、媒体。
A computer-readable medium containing instructions for controlling a computer system to perform a method for interpreting nucleotide or amino acid information, the method comprising:
Receiving data representing nucleotide information or amino acid information;
Applying at least two different algorithms to the data and providing a result for each algorithm; and identifying at least one accurate result in the data, depending on a match between the results of each of the algorithms. Assigning a confidence level to the at least one accurate result;
And a medium.
請求項29に記載のコンピュータ読み取り可能媒体であって、ここで、前記適用されるアルゴリズムは、エンベロープ検出コーラーアルゴリズム、最適化プログラムコーラーアルゴリズム、およびヒューリスティックコーラーアルゴリズムから選択される、媒体。30. The computer readable medium of claim 29, wherein the applied algorithm is selected from an envelope detection caller algorithm, an optimization program caller algorithm, and a heuristic caller algorithm. コンピュータシステムを制御して、核酸情報を表現するデータに関連する対立遺伝子コールを行うための方法を実施する命令を含むコンピュータ読み取り可能媒体であって、該方法は、以下:
複数の対立遺伝子コーリングアルゴリズムの各々を、核酸情報を表現するデータに適用し、該データ中に表現される任意の対立遺伝子コールが存在するか否かを決定する工程であって、ここで、各対立遺伝子コーリングアルゴリズムは、該データ中に表現される対立遺伝子コールが存在するか否かを決定するときに異なるストラテジーを適用する工程;
該適用された対立遺伝子コーリングアルゴリズムの全てからの結果が一致する場合、該対立遺伝子コーリングアルゴリズムを適用した間に該データ内で同定された任意の対立遺伝子コールについて、高い信頼水準を割り当てる工程;
該適用された対立遺伝子コーリングアルゴリズムの全てからの結果が一致しない場合、適用された対立遺伝子コーリングアルゴリズムのどの組み合わせが一致した結果を共有するかに依存して、該対立遺伝子コーリングアルゴリズムを適用した間に該データ内で同定された任意の対立遺伝子コールについて、異なる信頼水準を割り当てる工程;および
該結果および、該データにおいて同定された任意の対立遺伝子コールに対する信頼水準の任意の割り当てに関連する情報を含むレポートを出力する工程、
を包含する、媒体。
A computer-readable medium comprising instructions for controlling a computer system to make a method for making an allele call relating to data representing nucleic acid information, the method comprising:
Applying each of the plurality of allele calling algorithms to data representing nucleic acid information to determine whether any allele calls represented in the data are present, wherein each The allele calling algorithm applying a different strategy when determining whether there is an allele call represented in the data;
Assigning a high confidence level for any allele calls identified in the data while applying the allele calling algorithm, if the results from all of the applied allele calling algorithms match;
If the results from all of the applied allele calling algorithms do not match, then depending on which combination of the applied allele calling algorithms share the matched results, Assigning a different confidence level for any allele call identified in said data; and the result and information relating to any assignment of confidence level to any allele call identified in said data. Output report including
And a medium.
請求項31に記載のコンピュータ読み取り可能媒体であって、ここで、前記の、複数の対立遺伝子コーリングアルゴリズムの各々を、核酸情報を表現するデータに適用し、該データ中に表現されるいずれかのの対立遺伝子コールが存在するか否かを決定する工程で適用される対立遺伝子コーリングアルゴリズムは、エンベロープ検出コーラーアルゴリズム、最適化プログラムコーラーアルゴリズム、およびヒューリスティックコーラーアルゴリズムから選択され、ここで、各対立遺伝子コーリングアルゴリズムは、該データ中に表現される対立遺伝子コールが存在するか否かを決定するときに異なるストラテジーを適用する、媒体。32. The computer-readable medium of claim 31, wherein each of the plurality of allele calling algorithms is applied to data representing nucleic acid information, and any of the plurality of allele calling algorithms is represented in the data. The allele calling algorithm applied in the step of determining whether allele calls are present is selected from an envelope detection caller algorithm, an optimization program caller algorithm, and a heuristic caller algorithm, where each allele call is An algorithm, wherein the algorithm applies a different strategy when determining whether there is an allele call represented in the data. 対立遺伝子コールを行うためのシステムであって、該システムは、以下:
核酸情報を表現するデータを受信するための手段;
少なくとも二つの異なる対立遺伝子コーリングアルゴリズムを、該データに適用し、各アルゴリズムに対する結果を提供するための手段;および
該アルゴリズム各々の結果間での一致に依存して、該データ内で対立遺伝子コールを同定し、そして各コールに対する信頼水準を割り当てるための手段、
を含む、システム。
A system for making an allele call, comprising:
Means for receiving data representing nucleic acid information;
Means for applying at least two different allele calling algorithms to the data and providing a result for each algorithm; and, depending on the match between the results of each of the algorithms, determining allele calls within the data. Means to identify and assign a confidence level for each call,
The system, including.
対立遺伝子コールレポートを得るためのコンピュータにより実行される方法であって、該方法は、以下:
核酸情報を表現するデータを受信する工程;
少なくとも二つの異なるアルゴリズムを、該データに適用し、対立遺伝子コールレポートを提供する工程;
該少なくとも二つの異なるアルゴリズムのうちの一つに基づいて、第一アルゴリズム品質評価値を生成する工程;
該少なくとも二つの異なるアルゴリズムのうちの別のものに基づいて、第二アルゴリズム品質評価値を生成する工程;
少なくとも該第一のアルゴリズム品質評価値および該第二のアルゴリズム品質評価値に基づいて、対立遺伝子コールレポート品質評価値を生成する工程;および
生成された該対立遺伝子コールレポート品質評価値を考慮して、対立遺伝子コールレポートの確度を予測する工程、
を包含する、方法。
A computer-implemented method for obtaining an allele call report, comprising:
Receiving data representing nucleic acid information;
Applying at least two different algorithms to the data to provide an allele call report;
Generating a first algorithm quality estimate based on one of the at least two different algorithms;
Generating a second algorithm quality estimate based on another of the at least two different algorithms;
Generating an allele call report quality assessment based on at least the first algorithm quality assessment and the second algorithm quality assessment; and taking into account the generated allele call report quality assessment. The process of predicting the accuracy of the allele call report,
A method comprising:
請求項34に記載のコンピュータにより実行される方法であって、ここで、前記の、少なくとも二つの異なるアルゴリズムを適用する工程は、以下のa)〜c)のアルゴリズム:
a)プリプロセシングアルゴリズムであって、オフスケール検出アルゴリズム、マルチコンポーネント化アルゴリズム、およびベースライン処理アルゴリズムのうち少なくとも一つのアルゴリズムを含む、アルゴリズム;
b)データ変換アルゴリズムであって、ピーク検出アルゴリズム、サイズ標準適合アルゴリズム、およびサイズコーリングアルゴリズムのうち少なくとも一つのアルゴリズムを含む、アルゴリズム;および
c)対立遺伝子コールレポーティングアルゴリズムであって、対立遺伝子コーリングアルゴリズム、自動ビン処理アルゴリズム、およびビン割り当てアルゴリズムのうち少なくとも一つのアルゴリズムを含む、アルゴリズム、
のうちの少なくとも二つを適用することを包含する、方法。
35. The computer-implemented method according to claim 34, wherein said applying at least two different algorithms comprises the following algorithms a) -c):
a) pre-processing algorithms, including at least one of an off-scale detection algorithm, a multi-component algorithm, and a baseline processing algorithm;
b) a data conversion algorithm, including at least one of a peak detection algorithm, a size standard adaptation algorithm, and a size calling algorithm; and c) an allele call reporting algorithm, the allele calling algorithm; An algorithm, including at least one of an automatic binning algorithm and a bin allocation algorithm,
A method comprising applying at least two of the above.
請求項35に記載のコンピュータにより実行される方法であって、ここで、前記の、第一の品質評価値および第二の品質評価値を生成する工程は、前記データ変換アルゴリズムについての品質評価値を生成する工程、および対立遺伝子コールレポーティングアルゴリズムについての品質評価値を生成する工程を包含する、方法。36. The computer-implemented method of claim 35, wherein said generating a first quality rating and a second quality rating comprises a quality rating for said data conversion algorithm. And generating a quality score for the allele call reporting algorithm. 請求項35に記載のコンピュータにより実行される方法であって、ここで、前記の、少なくとも二つの異なるアルゴリズムを適用する工程は、以下:
データ変換アルゴリズムであって、ピーク検出アルゴリズム、サイズ標準適合アルゴリズム、およびサイズコーリングアルゴリズムのうち少なくとも一つのアルゴリズムを含む、アルゴリズム;および
対立遺伝子コールレポーティングアルゴリズムであって、対立遺伝子コーリングアルゴリズム、自動ビン処理アルゴリズム、およびビン割り当てアルゴリズムのうち少なくとも一つのアルゴリズムを含む、アルゴリズム、
を適用する工程を包含する、方法。
36. The computer-implemented method of claim 35, wherein said applying at least two different algorithms comprises:
A data conversion algorithm, including at least one of a peak detection algorithm, a size standard adaptation algorithm, and a size calling algorithm; and an allele call reporting algorithm, an allele calling algorithm, an automatic binning algorithm. , And at least one of the bin allocation algorithms,
A method comprising applying
請求項37に記載のコンピュータにより実行される方法であって、ここで、前記の、第一のアルゴリズム品質評価値および第二のアルゴリズム品質評価値を生成する工程は、前記データ変換アルゴリズムについての品質評価値を生成する工程および前記対立遺伝子コールレポーティングアルゴリズムについての品質評価値生成する工程を包含する、方法。38. The computer-implemented method of claim 37, wherein said generating a first algorithm quality metric and a second algorithm quality metric comprises a quality for said data conversion algorithm. Generating a reputation value and generating a quality reputation value for the allele call reporting algorithm. 請求項35に記載のコンピュータにより実行される方法であって、ここで、前記少なくとも二つの異なるアルゴリズムを適用する工程は、以下:
データ変換アルゴリズムであって、ピーク検出アルゴリズム、サイズ標準適合アルゴリズム、およびサイズコーリングアルゴリズムを含む、アルゴリズム;および
対立遺伝子コールレポーティングアルゴリズムであって、対立遺伝子コーリングアルゴリズムを含む、アルゴリズム、
を適用する工程を包含する、方法。
36. The computer-implemented method of claim 35, wherein applying the at least two different algorithms comprises:
An algorithm including a peak detection algorithm, a size standard fitting algorithm, and a size calling algorithm; and an allele call reporting algorithm including an allele calling algorithm.
A method comprising applying
請求項39に記載のコンピュータにより実行される方法であって、ここで、前記の、第一のアルゴリズム品質評価値および第二のアルゴリズム品質評価値を生成する工程は、前記サイズ標準適合アルゴリズムについての品質評価値を生成する工程を包含するプロセスによって、前記データ変換アルゴリズムについての品質評価値を生成する工程、および前記対立遺伝子コーリングアルゴリズムについての品質評価値を生成する工程を包含するプロセスによって、前記対立遺伝子コールレポーティングアルゴリズムについての品質評価値生成する工程を包含する、方法。40. The computer-implemented method of claim 39, wherein said generating a first algorithm quality value and a second algorithm quality value comprises: Generating a quality rating for the data transformation algorithm by a process comprising generating a quality rating; and generating a quality rating for the allele calling algorithm. Generating a quality score for the gene call reporting algorithm. 請求項35に記載のコンピュータにより実行される方法であって、ここで、前記の、少なくとも二つの異なるアルゴリズムを適用する工程は、以下:
データ変換アルゴリズムであって、ピーク検出アルゴリズム、サイズ標準適合アルゴリズム、およびサイズコーリングアルゴリズムを含む、アルゴリズム;および
対立遺伝子コールレポーティングアルゴリズムであって、対立遺伝子コーリングアルゴリズム、およびビン割り当てアルゴリズムを含む、アルゴリズム、
を適用する工程を包含する、方法。
36. The computer-implemented method of claim 35, wherein said applying at least two different algorithms comprises:
An algorithm, including a peak detection algorithm, a size standard adaptation algorithm, and a size calling algorithm; and an allele call reporting algorithm, including an allele calling algorithm, and a bin assignment algorithm.
A method comprising applying
請求項41に記載のコンピュータにより実行される方法であって、ここで、前記の、第一のアルゴリズム品質評価値および第二のアルゴリズム品質評価値を生成する工程は、サイズ標準適合アルゴリズムについての品質評価値を生成する工程を包含するプロセスによって、前記データ変換アルゴリズムについての品質評価値を生成する工程、および対立遺伝子コーリングアルゴリズムについての品質評価値を生成する工程を包含するプロセスによって、前記対立遺伝子コールレポーティングアルゴリズムについての品質評価値を生成する工程を包含する、方法。42. The computer-implemented method of claim 41, wherein said generating a first algorithm quality measure and a second algorithm quality measure comprises a quality for a size standard conformance algorithm. Generating a quality rating for the data conversion algorithm by a process comprising generating a rating; andgenerating a quality rating for the allele calling algorithm by the process comprising generating a quality rating for the allele calling algorithm. Generating a quality score for a reporting algorithm. 請求項42に記載のコンピュータにより実行される方法であって、ここで、前記の、対立遺伝子コールレポーティングアルゴリズムについての品質評価値を生成するプロセスは、前記ビン割り当てアルゴリズムについての品質評価値を生成する工程、ならびに前記対立遺伝子コーリングアルゴリズムについての品質評価値および該ビン割り当てアルゴリズムについての品質評価値に基づいて該対立遺伝子コールレポーティングアルゴリズムについての品質評価値を生成する工程をさらに含む、方法。43. The computer-implemented method of claim 42, wherein said generating a quality rating for an allele call reporting algorithm generates a quality rating for said bin assignment algorithm. A method further comprising: generating a quality score for the allele call reporting algorithm based on a quality score for the allele calling algorithm and a quality score for the bin assignment algorithm. 請求項35に記載のコンピュータにより実行される方法であって、ここで、前記の、少なくとも二つの異なるアルゴリズムを適用する工程は、以下:
データ変換アルゴリズムであって、ピーク検出アルゴリズム、サイズ標準適合アルゴリズム、およびサイズコーリングアルゴリズムを含む、アルゴリズム;および
対立遺伝子コールレポーティングアルゴリズムであって、対立遺伝子コーリングアルゴリズム、自動ビン処理アルゴリズム、およびビン割り当てアルゴリズム、
を適用する工程を包含する、方法。
36. The computer-implemented method of claim 35, wherein said applying at least two different algorithms comprises:
A data conversion algorithm, including a peak detection algorithm, a size standard fitting algorithm, and a size calling algorithm; and an allele call reporting algorithm, including an allele calling algorithm, an automatic bin processing algorithm, and a bin assignment algorithm.
A method comprising applying
請求項44に記載のコンピュータにより実行される方法であって、ここで、前記の、第一のアルゴリズム品質評価値および第二のアルゴリズム品質評価値を生成する工程は、前記サイズ標準適合アルゴリズムについての品質評価値を生成する工程を包含するプロセスによって、前記データ変換アルゴリズムについての品質評価値を生成する工程、および対立遺伝子コーリングアルゴリズムについての品質評価値を生成する工程を包含するプロセスによって、前記対立遺伝子コールレポーティングアルゴリズムについての品質評価値生成する工程を包含する、方法。45. The computer-implemented method of claim 44, wherein said generating a first algorithm quality estimate and a second algorithm quality estimate comprises: Generating a quality rating for the data transformation algorithm by a process comprising generating a quality rating, and generating a quality rating for the allele calling algorithm by the process comprising: A method comprising generating a quality rating for a call reporting algorithm. 請求項45に記載のコンピュータにより実行される方法であって、ここで、前記対立遺伝子コールレポーティングアルゴリズムについての品質評価値を生成するためのプロセスは、前記ビン割り当てアルゴリズムについての品質評価値を生成する工程、ならびに該対立遺伝子コーリングアルゴリズムについての品質評価値および該ビン割り当てアルゴリズムについての品質評価値に基づいて該対立遺伝子コールレポーティングアルゴリズムについての品質評価値を生成する工程をさらに含む、方法。46. The computer-implemented method of claim 45, wherein the process for generating a quality score for the allele call reporting algorithm generates a quality score for the bin assignment algorithm. The method further comprising: generating a quality score for the allele call reporting algorithm based on a quality score for the allele calling algorithm and a quality score for the bin assignment algorithm. 請求項46に記載のコンピュータにより実行される方法であって、ここで、前記の、対立遺伝子コールレポーティングアルゴリズムについての品質評価値を生成するためのプロセスは、前記自動ビン処理アルゴリズムについての品質評価値を生成する工程、および前記対立遺伝子コーリングアルゴリズムについての品質評価値、前記ビン割り当てアルゴリズムについての品質評価値、および該自動ビン処理アルゴリズムについての品質評価値に基づいて該対立遺伝子コールレポーティングアルゴリズムについての品質評価値を生成する工程をさらに含む、方法。47. The computer-implemented method of claim 46, wherein said process for generating a quality rating for an allele call reporting algorithm comprises: a quality rating for said automatic binning algorithm. Generating a quality rating for the allele calling algorithm, a quality rating for the bin assignment algorithm, and a quality rating for the allele call reporting algorithm based on the quality rating for the automatic binning algorithm. The method further comprising generating an evaluation value. 請求項34に記載のコンピュータにより実行される方法であって、ここで、前記の、少なくとも二つの異なるアルゴリズムを適用する工程は、以下:
プリプロセシングアルゴリズムであって、オフスケール検出アルゴリズム、マルチコンポーネント化アルゴリズム、およびベースライン処理のうち少なくとも一つを含む、アルゴリズム;
データ変換アルゴリズムであって、ピーク検出アルゴリズム、サイズ標準適合アルゴリズム、およびサイズコーリングアルゴリズムのうち少なくとも一つのアルゴリズムを含む、アルゴリズム;および
対立遺伝子コールレポーティングアルゴリズムであって、対立遺伝子コーリングアルゴリズム、自動ビン処理アルゴリズム、およびビン割り当てアルゴリズムのうち少なくとも一つのアルゴリズムを含む、アルゴリズム
を適用する工程を包含する、方法。
35. The computer-implemented method of claim 34, wherein said applying at least two different algorithms comprises:
A preprocessing algorithm, comprising at least one of an off-scale detection algorithm, a multi-component algorithm, and a baseline process;
A data conversion algorithm, including at least one of a peak detection algorithm, a size standard adaptation algorithm, and a size calling algorithm; and an allele call reporting algorithm, an allele calling algorithm, an automatic binning algorithm. And applying the algorithm, including at least one of the bin assignment algorithms.
請求項48に記載のコンピュータにより実行される方法であって、ここで、前記の、第一のアルゴリズム品質評価値および第二のアルゴリズム品質評価値を生成する工程は、前記データ変換アルゴリズムについての品質評価値を生成する工程、および前記対立遺伝子コールレポーティングアルゴリズムについての品質評価値を生成する工程を包含する、方法。49. The computer-implemented method according to claim 48, wherein said generating a first algorithm quality estimate and a second algorithm quality estimate comprises a quality for said data conversion algorithm. Generating a rating value; and generating a quality rating value for the allele call reporting algorithm. 請求項49に記載のコンピュータにより実行される方法であって、該方法は、前記プリプロセシングアルゴリズムについての品質評価値を生成する工程を包含する第三の品質評価値を生成する工程、および少なくとも、第一、第二、および第三のアルゴリズム品質評価値に基づいて、対立遺伝子コールレポート品質評価値を生成する工程をさらに包含する、方法。50. The computer-implemented method of claim 49, wherein the method comprises: generating a third quality evaluation value comprising generating a quality evaluation value for the pre-processing algorithm; and The method further comprising generating an allele call report quality rating based on the first, second, and third algorithm quality ratings. 請求項48に記載のコンピュータにより実行される方法であって、ここで、前記少なくとも二つの異なるアルゴリズムを適用する工程は、以下:
プリプロセシングアルゴリズムであって、オフスケール検出アルゴリズム、マルチコンポーネント化アルゴリズム、およびベースライン処理アルゴリズムのうち少なくとも一つを含む、アルゴリズム;
データ変換アルゴリズムであって、ピーク検出アルゴリズム、サイズ標準適合アルゴリズム、およびサイズコーリングアルゴリズムのうち少なくとも一つのアルゴリズムを含む、アルゴリズム;および
対立遺伝子コールレポーティングアルゴリズムであって、対立遺伝子コーリングアルゴリズム、およびビン割り当てアルゴリズムを含む、アルゴリズム
を適用する工程を包含する、方法。
49. The computer-implemented method according to claim 48, wherein applying the at least two different algorithms comprises:
A preprocessing algorithm, the algorithm including at least one of an off-scale detection algorithm, a multi-component algorithm, and a baseline processing algorithm;
A data conversion algorithm, including at least one of a peak detection algorithm, a size standard adaptation algorithm, and a size calling algorithm; and an allele call reporting algorithm, an allele calling algorithm, and a bin assignment algorithm. A method comprising applying an algorithm, comprising:
請求項51に記載のコンピュータにより実行される方法であって、ここで、前記の、第一のアルゴリズム品質評価値および第二のアルゴリズム品質評価値を生成する工程は、前記サイズ標準適合アルゴリズムについての品質評価値を生成する工程を包含するプロセスによって、前記データ変換アルゴリズムについての品質評価値を生成する工程、および前記対立遺伝子コーリングアルゴリズムについての品質評価値を生成する工程を包含するプロセスによって、前記対立遺伝子コールレポーティングアルゴリズムについての品質評価値生成する工程を包含する、方法。52. The computer-implemented method of claim 51, wherein said generating a first algorithm quality metric and a second algorithm quality metric comprises generating a first algorithm quality metric and a second algorithm quality metric. Generating a quality rating for the data transformation algorithm by a process comprising generating a quality rating; and generating a quality rating for the allele calling algorithm. Generating a quality score for the gene call reporting algorithm. 請求項52に記載のコンピュータにより実行される方法であって、ここで、前記対立遺伝子コールレポーティングアルゴリズムについての品質評価値を生成するプロセスは、ビン割り当てアルゴリズムについての品質評価値を生成する工程、および該対立遺伝子コーリングアルゴリズムについての品質評価値および該ビン割り当てアルゴリズムについての品質評価値に基づいて該対立遺伝子コールレポーティングアルゴリズムについての品質評価値を生成する工程をさらに含む、方法。53. The computer-implemented method of claim 52, wherein the step of generating a quality score for the allele call reporting algorithm comprises generating a quality score for a bin assignment algorithm; The method further comprising generating a quality rating for the allele call reporting algorithm based on the quality rating for the allele calling algorithm and the quality rating for the bin assignment algorithm. 請求項35に記載のコンピュータにより実行される方法であって、ここで、前記の、少なくとも二つの異なるアルゴリズムを適用する工程は、以下:
データ変換アルゴリズムであって、ピーク検出アルゴリズム、サイズ標準適合アルゴリズム、およびサイズコーリングアルゴリズムを含む、アルゴリズム;および
対立遺伝子コールレポーティングアルゴリズムであって、少なくとも二つの異なる対立遺伝子コーリングアルゴリズムを適用して、各アルゴリズムに対する結果を提供する工程を包含する、アルゴリズム、
を適用する工程を包含する、方法。
36. The computer-implemented method of claim 35, wherein said applying at least two different algorithms comprises:
A data conversion algorithm, including a peak detection algorithm, a size standard fitting algorithm, and a size calling algorithm; and an allele call reporting algorithm, wherein at least two different allele calling algorithms are applied to each algorithm. An algorithm comprising providing a result for
A method comprising applying
請求項54に記載のコンピュータにより実行される方法であって、前記の、第一のアルゴリズム品質評価値および第二のアルゴリズム品質評価値を生成する工程は、前記サイズ標準適合アルゴリズムについての品質評価値を生成する工程を包含するプロセスによって、前記データ変換アルゴリズムについての品質評価値を生成する工程、および少なくとも二つの異なる対立遺伝子コーリングの各々の結果に基づく対立遺伝子コーリングアルゴリズムについての品質評価値を生成する工程を包含するプロセスによって、前記対立遺伝子コールレポーティングアルゴリズムについての品質評価値生成する工程を包含する、方法。55. The computer-implemented method of claim 54, wherein said generating a first algorithm quality metric and a second algorithm quality metric comprises providing a quality metric for the size standard conformance algorithm. Generating a quality score for the data conversion algorithm, and generating a quality score for an allele calling algorithm based on the results of each of the at least two different allele callings by a process comprising generating Generating a quality score for said allele call reporting algorithm by a process comprising the step of: 請求項34に記載のコンピュータにより実行される方法であって、ここで、前記の、少なくとも二つの異なるアルゴリズムを適用する工程は、以下:
データ変換アルゴリズムであって、ピーク検出アルゴリズム、ラダーシフトアルゴリズム、およびサイズコーリングアルゴリズムを含む、アルゴリズム;および
対立遺伝子コールレポーティングアルゴリズムであって、対立遺伝子コーリングアルゴリズム、およびビン割り当てアルゴリズムを含む、アルゴリズム、
を適用する工程を包含する、方法。
35. The computer-implemented method of claim 34, wherein said applying at least two different algorithms comprises:
An algorithm, including a peak detection algorithm, a ladder shift algorithm, and a size calling algorithm; and an allele call reporting algorithm, including an allele calling algorithm, and a bin assignment algorithm.
A method comprising applying
請求項56に記載のコンピュータにより実行される方法であって、ここで、第一のアルゴリズム品質評価値および第二のアルゴリズム品質評価値を生成する工程は、前記ラダーシフトアルゴリズムについての品質評価値を生成する工程を包含するプロセスによって、前記データ変換アルゴリズムについての品質評価値を生成する工程、および前記ビン割り当てアルゴリズムについての品質評価値を生成する工程を包含するプロセスによって、対立遺伝子コールレポーティングアルゴリズムについての品質評価値を生成する工程を包含する、方法。57. The computer-implemented method according to claim 56, wherein generating a first algorithm quality estimate and a second algorithm quality estimate comprises generating a quality estimate for the ladder shift algorithm. Generating a quality rating for the data conversion algorithm by a process comprising generating; and generating a quality rating for the bin assignment algorithm by a process comprising: A method comprising generating a quality rating. 請求項34に記載のコンピュータにより実行される方法であって、ここで、前記少なくとも二つの異なるアルゴリズムを適用する工程は、以下のアルゴリズム:
オフスケール検出アルゴリズム;
マルチコンポーネント化アルゴリズム;
ピーク検出アルゴリズム;
ベースライン処理アルゴリズム;
サイズ標準適合アルゴリズム;
サイズコーリングアルゴリズム;
対立遺伝子コーリングアルゴリズム;
自動ビン処理アルゴリズム;および
ビン割り当てアルゴリズム
のうち少なくとも二つを適用する工程を包含する、方法。
35. The computer-implemented method of claim 34, wherein applying the at least two different algorithms comprises the following algorithm:
Off-scale detection algorithm;
Multi-component algorithm;
Peak detection algorithm;
Baseline processing algorithm;
Size standard conformance algorithm;
Size calling algorithm;
Allele calling algorithm;
A method comprising applying at least two of an automatic binning algorithm; and a bin assignment algorithm.
請求項58に記載のコンピュータにより実行される方法であって、ここで、少なくとも二つの異なるアルゴリズムを適用する工程は、ベースライン処理アルゴリズム、サイズ標準適合アルゴリズム、サイズコーリングアルゴリズム、対立遺伝子コーリングアルゴリズム、およびビン割り当てアルゴリズムを適用する工程を含む、方法。59. The computer-implemented method of claim 58, wherein applying at least two different algorithms comprises: a baseline processing algorithm, a size standard fitting algorithm, a size calling algorithm, an allele calling algorithm, and A method comprising applying a bin assignment algorithm. 請求項59に記載のコンピュータにより実行される方法であって、ここで、前記、第一のアルゴリズム品質評価値および第二のアルゴリズム品質評価値を生成する工程は、サイズ標準適合アルゴリズムおよび対立遺伝子コーリングアルゴリズムについての品質評価値を生成する工程を包含する、方法。60. The computer-implemented method of claim 59, wherein said generating a first algorithm quality metric and a second algorithm quality metric comprises a size standard fit algorithm and an allele calling. A method comprising generating a quality score for an algorithm. 請求項60に記載のコンピュータにより実行される方法であって、該方法は、ビン割り当てアルゴリズムについての品質評価値を生成する工程を包含する第三の品質評価値を生成する工程、および少なくとも、第一、第二、および第三のアルゴリズム品質評価値に基づいて、対立遺伝子コールレポート品質評価値を生成する工程をさらに包含する、方法。61. The computer-implemented method of claim 60, wherein the method comprises: generating a third quality estimate comprising generating a quality estimate for a bin assignment algorithm; The method further comprising generating an allele call report quality rating based on the first, second, and third algorithm quality ratings. 対立遺伝子コールを行うためのシステムであって、該システムは、以下:
プログラム命令を実行するために設定されたプロセッサ;および
該プロセッサによる実行によって、
核酸情報を表現するデータを受信し;
少なくとも二つの異なるアルゴリズムを、該データに適用し、対立遺伝子コールレポートを提供し;
該少なくとも二つの異なるアルゴリズムのうちの一つに基づいて、第一のアルゴリズム品質評価値を生成し;
該少なくとも二つの異なるアルゴリズムのうちの別のものに基づいて、第二のアルゴリズム品質評価値を生成し;
該少なくとも第一および第二のアルゴリズム品質評価値に基づいて、対立遺伝子コールレポート品質評価値を生成し;
該生成された対立遺伝子コールレポート品質評価値を考慮して、対立遺伝子コールレポートの確度を予測する
ためのプログラム命令を含むメモリ、
を備える、システム。
A system for making an allele call, comprising:
A processor configured to execute program instructions; and, by execution by the processor,
Receiving data representing nucleic acid information;
Applying at least two different algorithms to the data to provide an allele call report;
Generating a first algorithm quality metric based on one of the at least two different algorithms;
Generating a second algorithm quality estimate based on another of the at least two different algorithms;
Generating an allele call report quality rating based on the at least first and second algorithm quality ratings;
A memory including program instructions for predicting the accuracy of the allele call report in view of the generated allele call report quality assessment value;
A system comprising:
コンピュータシステムを制御して、対立遺伝子コールを行うための方法を実施する命令を含むコンピュータ読み取り可能媒体であって、該方法は、以下:
核酸情報を表現するデータを受信する工程;
少なくとも二つの異なるアルゴリズムを、該データに適用し、対立遺伝子コールレポートを提供する工程;
該少なくとも二つの異なるアルゴリズムのうちの一つに基づいて、第一のアルゴリズム品質評価値を生成する工程;
該少なくとも二つの異なるアルゴリズムのうちの別のものに基づいて、第二のアルゴリズム品質評価値を生成する工程;
該少なくとも第一および第二のアルゴリズム品質評価値に基づいて、対立遺伝子コールレポート品質評価値を生成する工程;ならびに
該生成された対立遺伝子コールレポート品質評価値を考慮して、対立遺伝子コールレポートの精度を予測する工程
を含む、媒体。
A computer-readable medium containing instructions for controlling a computer system to perform a method for making an allele call, the method comprising:
Receiving data representing nucleic acid information;
Applying at least two different algorithms to the data to provide an allele call report;
Generating a first algorithm quality metric based on one of the at least two different algorithms;
Generating a second algorithm quality estimate based on another of the at least two different algorithms;
Generating an allele call report quality assessment based on the at least first and second algorithm quality assessments; and taking into account the generated allele call report quality assessment, A medium including a step of predicting accuracy.
JP2002513951A 2000-07-21 2001-07-23 Methods, systems, and products for evaluating biological data Pending JP2004516455A (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US21969700P 2000-07-21 2000-07-21
US22755600P 2000-08-23 2000-08-23
US72491000A 2000-11-28 2000-11-28
US29012901P 2001-05-10 2001-05-10
PCT/US2001/023629 WO2002008469A2 (en) 2000-07-21 2001-07-23 Methods, systems, and articles of manufacture for evaluating biological data

Publications (2)

Publication Number Publication Date
JP2004516455A true JP2004516455A (en) 2004-06-03
JP2004516455A5 JP2004516455A5 (en) 2005-02-03

Family

ID=27499158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002513951A Pending JP2004516455A (en) 2000-07-21 2001-07-23 Methods, systems, and products for evaluating biological data

Country Status (5)

Country Link
EP (1) EP1349960A2 (en)
JP (1) JP2004516455A (en)
AU (1) AU2002211212A1 (en)
CA (1) CA2416764A1 (en)
WO (1) WO2002008469A2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163720A (en) * 2004-12-06 2006-06-22 Hitachi Software Eng Co Ltd Method and apparatus for displaying gene information
WO2007119779A1 (en) 2006-04-14 2007-10-25 Nec Corporation Individual discrimination method and apparatus
JP2017532699A (en) * 2014-09-05 2017-11-02 ナントミクス,エルエルシー Systems and methods for origin determination

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003247832A1 (en) * 2002-06-28 2004-01-19 Applera Corporation A system and method for snp genotype clustering
EP1862929A1 (en) * 2006-02-28 2007-12-05 Hitachi Software Engineering Co., Ltd. Genotyping result evaluation method and system
CN105579676B (en) * 2013-08-27 2017-11-14 日产自动车株式会社 The multi link formula reciprocating block slider crank mechanism of internal combustion engine

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5580728A (en) * 1994-06-17 1996-12-03 Perlin; Mark W. Method and system for genotyping
US6019896A (en) * 1998-03-06 2000-02-01 Molecular Dynamics, Inc. Method for using a quality metric to assess the quality of biochemical separations
US6236944B1 (en) * 1998-04-16 2001-05-22 Northeastern University Expert system for analysis of DNA sequencing electropherograms

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163720A (en) * 2004-12-06 2006-06-22 Hitachi Software Eng Co Ltd Method and apparatus for displaying gene information
WO2007119779A1 (en) 2006-04-14 2007-10-25 Nec Corporation Individual discrimination method and apparatus
JP2017532699A (en) * 2014-09-05 2017-11-02 ナントミクス,エルエルシー Systems and methods for origin determination

Also Published As

Publication number Publication date
WO2002008469A3 (en) 2003-07-17
AU2002211212A1 (en) 2002-02-05
EP1349960A2 (en) 2003-10-08
WO2002008469A9 (en) 2003-11-20
CA2416764A1 (en) 2002-01-31
WO2002008469A2 (en) 2002-01-31

Similar Documents

Publication Publication Date Title
US20020116135A1 (en) Methods, systems, and articles of manufacture for evaluating biological data
US6681186B1 (en) System and method for improving the accuracy of DNA sequencing and error probability estimation through application of a mathematical model to the analysis of electropherograms
US6807490B1 (en) Method for DNA mixture analysis
US6236944B1 (en) Expert system for analysis of DNA sequencing electropherograms
US20220101944A1 (en) Methods for detecting copy-number variations in next-generation sequencing
US20100094563A1 (en) System and Method for Consensus-Calling with Per-Base Quality Values for Sample Assemblies
CN111868832A (en) Method for identifying copy number abnormality
Riman et al. Understanding the characteristics of sequence-based single-source DNA profiles
JP2004516455A (en) Methods, systems, and products for evaluating biological data
US7912652B2 (en) System and method for mutation detection and identification using mixed-base frequencies
Roy et al. NGS-μsat: Bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms
EP3884502B1 (en) Method and computer program product for analysis of fetal dna by massive sequencing
US20050009046A1 (en) Identification of haplotype diversity
Talenti et al. The evolution and convergence of mutation spectra across mammals
CN117393054A (en) Method and device for identifying true and false positive of copy number variation of nucleic acid sample and source of cell division
Roberts et al. A high-throughput computational framework for identifying significant copy number aberrations from array comparative genomic hybridisation data
Pique-Regi Sparse representation models and applications to bioinformatics
Frühwirth-Schnatter et al. IFAS Research Paper Series

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060720