JP2022060425A

JP2022060425A - ヌクレオチド配列決定データの２次分析のためのシステムおよび方法

Info

Publication number: JP2022060425A
Application number: JP2022025557A
Authority: JP
Inventors: ジョゼガルシアフランシスコ; Jose Garcia Francisco; ラスィコム; Come Raczy; デイアーロン; Day Aaron; ジェイ．カーニーマイケル; J Carney Michael
Original assignee: Illumina Inc
Current assignee: Illumina Inc
Priority date: 2016-10-07
Filing date: 2022-02-22
Publication date: 2022-04-14
Anticipated expiration: 2037-10-06
Also published as: IL300135A; MX2022011757A; KR20190017825A; KR20230044335A; JP6898441B2; AU2021277671A1; RU2741807C2; JP7387777B2; IL263512B1; CN109416927B; CA3027179C; US11646102B2; MY193917A; JP2019522861A; KR102515638B1; WO2018068014A9; BR122023004154A2; ZA201808277B; CN109416927A; JP7051937B2

Abstract

【課題】ヌクレオチド配列決定データの２次分析のためのシステムおよび方法を提供すること。【解決手段】時間効率的様式でヌクレオチド配列決定データの二次分析を行うためのシステムおよび方法が、本明細書で開示される。いくつかの実施形態は、配列リードが配列決定システムによって生成される間に二次分析を反復して行う工程を包含する。二次分析は、参照配列（例えば、ヒト参照ゲノム配列）に対する配列リードのアラインメントおよびサンプルと参照との間の差異を検出するためのこのアラインメントの利用の両方を包含し得る。二次分析は、遺伝子の差異の検出、バリアント検出および遺伝子決定、一塩基多型（ＳＮＰｓ）、小さな挿入および欠失（インデル）、ならびにＤＮＡにおける構造的変化（例えば、コピー数バリアント（ＣＮＶｓ）および染色体再配置）の識別を可能にし得る。【選択図】なし

Description

関連出願
本願は、２０１６年１０月７日に出芽された米国仮出願番号第６２／４０５８２４号に基づく優先権を主張しており；その内容は、その全体が参考として本明細書中に援用される。

背景
分野
本開示は、一般に、ＤＮＡ配列決定の分野に関し、より詳細には、次世代配列決定適用のためにリアルタイム二次分析を行うためのシステムおよび方法に関する。

関連技術の説明
遺伝子変異は、配列リードにおいて－参照配列に対して－バリアントを識別することによって識別され得る。バリアントを識別するために、被験体に由来するサンプルは、配列リードを得るために、配列決定機器を使用して完全に配列決定され得る。配列リードを得た後、その配列リードは、バリアント呼び出しの前にアセンブルまたは整列され得る。従って、バリアントを識別する工程は、連続して行われかつ配列決定プロセスの完了後に行うために時間を浪費し得る別個の工程を包含する。

要旨
本明細書で開示されるのは、ポリヌクレオチドを配列決定するためのシステムおよび方法である。一実施形態において、上記システムは、以下を含む：参照ヌクレオチド配列を含むメモリ；プロセッサであって、以下の工程：リードの第１のヌクレオチド部分配列を配列決定システムから受け取る工程；上記参照配列上での上記リードの第１の複数の候補位置を決定するために、上記第１のヌクレオチド部分配列を第１のアラインメントパスを使用して処理する工程；上記第１のヌクレオチド部分配列が、上記決定された候補位置に基づいて上記参照配列に整列するか否かを決定する工程；第２のヌクレオチド部分配列を上記配列決定システムから受け取る工程；上記参照配列に整列する上記リードの第２の複数の候補位置を決定するために、上記第２のヌクレオチド部分配列を処理する工程であって、上記リードが上記参照配列に整列する場合には、第２のアラインメントパス、およびそうでなければ、第１のアラインメントパスを使用し、ここで上記第２のアラインメントパスは、上記リードの上記第２の複数の候補位置を決定するために、上記第１のアラインメントパスより計算上効率的である工程を包含する方法を行う命令を実行するように構成されたプロセッサ。

一実施形態において、上記方法は、第１のヌクレオチド部分配列を、配列決定実行の間に配列決定システムから受け取る工程；およびリードの上記第１のヌクレオチド部分配列の二次分析を、第１の分析パスまたは第２の分析パスを使用して、参照配列に基づいて行う工程であって、ここで上記第２の分析パスは、上記二次分析を行うにあたって上記第１のプロセシングパスより計算上効率的である工程を包含する。
特定の実施形態において、例えば、以下が提供される：
（項目１）
ポリヌクレオチドを配列決定するためのシステムであって：
参照ヌクレオチド配列を含むメモリ；
プロセッサであって、以下の工程：
リードの第１のヌクレオチド部分配列を配列決定システムから受け取る工程；
該参照配列上での該リードの第１の複数の候補位置を決定するために、該第１のヌクレオチド部分配列を、第１のアラインメントパスを使用して処理する工程；
該第１のヌクレオチド部分配列が、該決定された候補位置に基づいて該参照配列に整列するか否かを決定する工程；
第２のヌクレオチド部分配列を該配列決定システムから受け取る工程；
該参照配列に整列する該リードの第２の複数の候補位置を決定するために、該第２のヌクレオチド部分配列を処理する工程であって、
該リードが該参照配列に整列される場合には、第２のアラインメントパス、そして
そうでなければ、第１のアラインメントパスを使用し、ここで該第２のアラインメントパスは、該リードの該第２の複数の候補位置を決定するために、該第１のアラインメントパスより計算上効率的である、工程、を包含する方法を行う命令を実行するように構成されたプロセッサ、を含むシステム。
（項目２）
前記第２のヌクレオチド部分配列は、アラインメント品質評価基準に基づいて、前記第１のアラインメントパスまたは前記第２のアラインメントパスを使用して処理される、項目１に記載のシステム。
（項目３）
前記第１のヌクレオチド部分配列は、長さが１またはこれより多くのヌクレオチドである、項目１に記載のシステム。
（項目４）
前記第２のヌクレオチド部分配列は、長さが１またはこれより多くのヌクレオチドである、項目１に記載のシステム。
（項目５）
前記第２のアラインメントパスは、メモリ使用量またはコンピューテーションオペレーションの回数において、前記第１のアラインメントパスより計算上効率的である、項目１に記載のシステム。
（項目６）
前記プロセッサは、前記第１のヌクレオチド部分配列が前記参照配列に整列される場合に、前記第１の複数の候補位置のうちの少なくとも１つに相当するデータを保存するようにさらに構成される、項目１に記載のシステム。
（項目７）
前記プロセッサは、前記リードが前記参照配列に整列したままである場合に、前記第２の複数の候補位置のうちの少なくとも１つに相当するデータを保存するようにさらに構成される、項目６に記載のシステム。
（項目８）
前記第２のヌクレオチド部分配列を、前記第２のアラインメントパスを使用して処理する工程は、単純アラインメントスコアを決定するために、単純アラインメントを行うことを包含する、項目１に記載のシステム。
（項目９）
前記単純アラインメントを行うことは、前記第１の複数の候補位置に基づいて、前記第２のヌクレオチド部分配列と前記参照配列上の該第２のヌクレオチド部分配列の相当する配列とを比較することを包含する、項目８に記載のシステム。
（項目１０）
前記第２のヌクレオチド部分配列を、第２のプロセシングパスを使用して処理する工程は、前記リードの前記第２の複数の候補位置の各々についてマッピング品質（ＭａｐＱ）スコアを決定する工程をさらに包含する、項目８に記載のシステム。
（項目１１）
前記単純アラインメントスコアは、前記ＭａｐＱスコアを含む、項目１０に記載のシステム。
（項目１２）
前記プロセッサは、前記第１の複数の候補位置のうちの少なくとも１つまたは前記第２の複数の候補位置のうちの少なくとも１つを含む前記第１のまたは第２のアラインメントパスの出力に対してバリアント呼び出しを行うようにさらに構成される、項目１に記載のシステム。
（項目１３）
前記第１のまたは第２のアラインメントパスの出力に対して前記バリアント呼び出しを行う工程は、
該第１のまたは第２のアラインメントパスの出力に対して、第１のバリアント呼び出しパスまたは第２のバリアント呼び出しパスを使用してバリアント呼び出しを行うことであって、ここで該第２のバリアント呼び出しパスは、前記第２の部分配列のバリアント呼び出しにおいて、該第１のバリアント呼び出しパスより計算上効率的であることを包含する、項目１２に記載のシステム。
（項目１４）
前記バリアント呼び出しは、バリアント呼び出し評価基準に基づいて、前記第１のまたは第２のアラインメントパスの出力を使用して行われる、項目１２に記載のシステム。
（項目１５）
前記バリアント呼び出し評価基準は、前記参照配列の位置において呼び出される多くの異なる塩基タイプに基づいて決定される、項目１４に記載のシステム。
（項目１６）
前記第１のヌクレオチド部分配列を処理する工程は、前記配列決定システムが、配列決定実行の間に前記第２のヌクレオチド部分配列を決定する前に完了する、項目１に記載のシステム。
（項目１７）
前記配列決定システムは、逐次合成配列決定を行う方法を実行して、前記第１の部分配
列を決定する、項目１に記載のシステム。
（項目１８）
ポリヌクレオチドを配列決定するための方法であって、該方法は、
配列決定実行の間に、リードの第１のヌクレオチド部分配列を、配列決定システムから受け取る工程；および
該リードの該第１のヌクレオチド部分配列の二次分析を、第１の分析パスまたは第２の分析パスを使用して参照配列に基づいて行う工程であって、ここで該第２の分析パスは、該二次分析を行うにあたって前記第１のプロセシングパスより計算上効率的である工程、を包含する方法。
（項目１９）
前記二次分析を行う工程は、前記参照配列に整列する前記リードの第１の複数の候補位置を決定するために、前記第１のヌクレオチド部分配列を処理することであって：
該リードが該参照配列に整列されない場合には、第１のアラインメントパス、そして
そうでなければ、第２のアラインメントパスを使用し、ここで該第２のアラインメントパスは、該リードの該第１の複数の候補位置を決定するために、該第１のアラインメントパスより計算上効率的であること、を包含する、項目１８に記載の方法。
（項目２０）
前記第２のヌクレオチド部分配列を、前記第２のアラインメントパスを使用して処理することは、単純アラインメントスコアを決定するために、単純アラインメントを行うことを包含する、項目１９に記載の方法。
（項目２１）
前記二次分析の結果は、前記第１のアラインメントパスの出力、前記第２のアラインメントパスの出力、またはこれらのうちの任意の組み合わせを含む、項目１９に記載の方法。
（項目２２）
前記二次分析を行う工程は、以下：
第１のまたは第２のアラインメントパスの出力に対して、第１のバリアント呼び出しパスまたは第２のバリアント呼び出しパスを使用してバリアント呼び出しを行うことであって、ここで該第２のバリアント呼び出しパスは、前記第１の部分配列のバリアント呼び出しにおいて該第１のバリアント呼び出しパスより計算上効率的であること、を含む前記第１のヌクレオチド部分配列のバリアント呼び出しを行うことを包含する、項目１８に記載の方法。
（項目２３）
前記二次分析の結果は、前記第１のバリアント呼び出しパスの出力、前記第２のバリアント呼び出しパスの出力、またはこれらのうちのいずれかの組み合わせを含む、項目２２に記載の方法。
（項目２４）
前記配列決定実行の間に前記二次分析の結果をユーザーに提供する工程をさらに包含する、項目１８に記載の方法。
（項目２５）
前記二次分析の結果は、固定された区間で前記ユーザーに提供される、項目２４に記載の方法。
（項目２６）
前記二次分析の結果は、前記ユーザーの要求に応じて、該ユーザーに提供される、項目２４に記載の方法。
（項目２７）
前記二次分析を行う工程は、前記リードの前記第１のヌクレオチド部分配列の二次分析を、前記配列決定実行の先の配列決定区間からの結果に基づいて行うことを包含する、項目１８に記載の方法。

図１は、リアルタイム分析を行うための例示的な配列決定システムを示す模式図である。

図２は、リアルタイム分析を行うための例示的なコンピューターシステムの機能的ブロック図を示す。

図３は、逐次合成配列決定を行うための例示的方法のフローチャートである。

図４は、塩基呼び出しを行うための例示的方法のフローチャートである。

図５Ａおよび図５Ｂは、例示的な反復アラインメントおよびバリアント呼び出しを示す。図５Ａおよび図５Ｂは、例示的な反復アラインメントおよびバリアント呼び出しを示す。

図６は、リアルタイム二次配列分析を行うための例示的方法のフローチャートである。

図７Ａおよび図７Ｂは、二次分析の旧来の方法（図７Ａ）と二次分析の反復方法（図７Ｂ）とを比較する模式図である。図７Ａおよび図７Ｂは、二次分析の旧来の方法（図７Ａ）と二次分析の反復方法（図７Ｂ）とを比較する模式図である。

図８は、１６塩基区間でのリード生成の模式図である。

図９Ａは、リアルタイム二次分析を行うための例示的方法のフローチャートである。図９Ｂは、Ｋマーごとに処理されるデータを示す予測線グラフである。図９Ｃは、実行時間を示す棒グラフである。

図１０は、リアルタイム二次分析を行うための例示的方法の別のフローチャートである。

図１１Ａおよび図１１Ｂは、既存のバリアント呼び出し側（図１１Ａ）と本明細書に記載されるとおりの高信頼度・低プロセシングパスを使用するバリアント呼び出し側（図１１Ｂ）とを比較する。図１１Ａおよび図１１Ｂは、既存のバリアント呼び出し側（図１１Ａ）と本明細書に記載されるとおりの高信頼度・低プロセシングパスを使用するバリアント呼び出し側（図１１Ｂ）とを比較する。

詳細な説明
以下の詳細な説明において、添付の図面に対して参照が行われる。添付の図面は、本明細書の一部を形成する。図面において、類似記号は、状況が別段規定しなければ、代表的には類似の構成要素を識別する。詳細な説明、図面、および特許請求の範囲において記載される例証的実施形態は、限定することを意味しない。他の実施形態が利用され得、本明細書に示される主題の趣旨または範囲から逸脱することなく他の変更が行われ得る。本開示の局面が、本明細書で一般的に記載されかつ図面の中で図示されるように、広く種々の異なる構成で取り合わせられ得、置き換えられ得、組み合わされ得、分離され得、そして設計され得、これらの全てが、本明細書中で明示的に企図されることは、容易に理解される。

本明細書で開示されるのは、ヌクレオチド配列決定データの二次分析を時間効率的様式において行うためのシステムおよび方法である。いくつかの実施形態において、上記方法は、配列リードが配列決定システムによって生成される間に、二次分析を反復して行う工程を包含する。二次分析は、参照配列（例えば、ヒト参照ゲノム配列）への配列リードのアラインメントおよびサンプルとその参照との間の差異を検出するためのこのアラインメントの利用の両方を包含し得る。二次分析は、遺伝子の差異の検出、バリアント検出および遺伝子決定、一塩基多型（ＳＮＰｓ）、小さな挿入および欠失（インデル）、ならびにＤＮＡにおける構造的変化（例えば、コピー数バリアント（ＣＮＶｓ）および染色体再配置）の識別を可能にし得る。

配列リードが生成される間に二次分析を行うことによって、そのシステムおよび方法は、リアルタイムで（またはゼロもしくは低レイテンシで）、予備バリアント呼び出しを反復して決定し得る。バリアント決定の最終結果は、配列決定実行の終了後まもなく（または終了直後に）利用可能になり得る。あるいは、配列決定実行は、バリアント呼び出しが実行の間に十分な信頼度で利用可能であれば、早期に終結され得る。いくつかの実施形態において、バリアント決定（例えば、バリアント呼び出し）に関する情報のみが、配列決定システムから転送される。これは、外部にあるシステムにおいてバリアント決定を行うことと比較して、必要とされるデータ帯域を低減または最小化し得る。さらに、バリアント情報のみが、さらなる処理のためにコンピューティングシステム（例えば、クラウドコンピューティングシステム）に送られ得る。この実施形態において、配列決定実行は、配列決定プロセス全体の完了前に終結され得る。例えば、目的の病原体が何であるかが、配列決定実行の多数の配列決定サイクルの後に決定される場合、その配列決定実行は、終結され得る。従って、特定の回答（例えば、病原体識別）までの時間は、短縮され得る。一実施形態において、そのシステムの出力および中間結果としては、複製のヒストグラム、正確なマッチ、単一または二重のＳＮＰｓ、および単一および二重のインデルを含み得る。

定義
別段定義されなければ、本明細書で使用される技術用語および科学用語は、本開示が属する分野の当業者によって一般的に理解されるものと同じ意味を有する。例えば、Ｓｉｎｇｌｅｔｏｎら，ＤｉｃｔｉｏｎａｒｙｏｆＭｉｃｒｏｂｉｏｌｏｇｙａｎｄＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ第２版，Ｊ．Ｗｉｌｅｙ＆Ｓｏｎｓ（ＮｅｗＹｏｒｋ，ＮＹ１９９４）；Ｓａｍｂｒｏｏｋら，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ，ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ，ＣｏｌｄＳｐｒｉｎｇｓＨａｒｂｏｒＰｒｅｓｓ（ＣｏｌｄＳｐｒｉｎｇｓＨａｒｂｏｒ，ＮＹ１９８９）を参照のこと。本開示の目的のために、以下の用語が以下で定義される。

リアルタイム二次分析を行うための配列決定機
本明細書で開示されるのは、時間および／またはコンピューティング資源効率的様式において、二次分析を反復して行うためのシステムおよび方法である、二次分析は、参照配列（例えば、ヒト参照ゲノム配列）への配列リードのアラインメントおよびサンプルと参照との間の差異を検出するためのこのアラインメントの利用の両方を包含し得る。二次分析は、遺伝的差異の検出、バリアント検出および遺伝子決定、一塩基多型（ＳＮＰｓ）、小さな挿入および欠失（インデル）、ならびにＤＮＡにおける構造的変化（例えば、コピー数バリアント（ＣＮＶｓ）および染色体再配置）の識別を可能にし得る。二次分析は、配列決定データが次の配列決定サイクルのために生成されている最中に、１つの配列決定サイクルに関して行われ得る。

図１は、リアルタイム二次分析を行うための例示的な配列決定システム１００を示す模式図である。配列決定システム１００によって利用される配列決定法の非限定的な例としては、逐次合成配列決定を行う方法およびＨｅｌｉｓｃｏｐｅ単一分子配列決定法を含み得る。配列決定システム１００は、配列決定システム１００の一部である流体システム１０４によって供給される配列決定試薬を使用して、生の配列決定データを生成するように構成された光学システム１０２を含み得る。その生の配列決定データは、光学システム１０２によって捕捉される蛍光画像を含み得る。配列決定システム１００の一部であるコンピューターシステム１０６は、通信チャネル１０８ａおよび１０８ｂを介して、光学システム１０２および流体システム１０４を制御するように構成され得る。例えば、光学システム１０２のコンピューターインターフェース１１０は、コンピューターシステム１０６と通信チャネル１０８ａを通じて通信するように構成され得る。

配列決定反応の間に、流体システム１０４は、１またはこれより多くの試薬チューブ１１２を通じて、取り付けステージ１１６上に配置されたフローセル１１４へのおよびそのフローセル１１４からの試薬の流れを方向付け得る。その試薬は、例えば、蛍光標識されたヌクレオチド、緩衝液、酵素、および切断試薬であり得る。フローセル１１４は、少なくとも１つの流体チャネルを含み得る。フローセル１１４は、パターン化アレイフローセルまたはランダムアレイフローセルであり得る。フローセル１１４は、少なくとも１つの流体チャネルにおいて配列決定されるべき一本鎖ポリヌクレオチドの複数のクラスターを含み得る。そのポリヌクレオチドの長さは、例えば、２００塩基から１０００塩基までの範囲に及んで変動し得る。そのポリヌクレオチドは、フローセル１１４の１またはこれより多くの流体チャネルに付着され得る。いくつかの実施形態において、フローセル１１４は、複数のビーズを含み得、ここで各ビーズは、配列決定されるべきポリヌクレオチドの複数のコピーを含み得る。取り付けステージ１１６は、光学システム１０２の他の構成要素と関連して、フローセル１１４の適切なアラインメントおよび動きを可能にするように構成され得る。一実施形態において、取り付けステージ１１６は、フローセル１１４をレンズ１１８と整列させるために使用され得る。

光学システム１０２は、所定の波長にある光を生成するように構成された複数のレーザー１２０を含み得る。レーザー１２０によって生成される光は、光ファイバーケーブル１２２を通過して、フローセル１１４において蛍光標識を励起し得る。レンズ１１８（フォーカサー１２４に取り付けられる）は、ｚ軸に沿って動き得る。そのフォーカスした蛍光発光は、検出器１２６、例えば、電荷結合素子（ＣＣＤ）センサまたは相補型金属酸化膜半導体（ＣＭＯＳ）センサによって検出され得る。

光学システム１０２のフィルタアセンブリ１２８は、フローセル１１４において蛍光標識の蛍光発光をフィルタにかけるように構成され得る。フィルタアセンブリ１２８は、第１のフィルタおよび第２のフィルタを含み得る。各フィルタは、システムにおいて使用されている蛍光分子のタイプに依存して、ロングパスフィルタ、ショートパスフィルタ、またはバンドパスフィルタであり得る。第１のフィルタは、検出器１２６によって第１の蛍光標識の蛍光発光を検出するように構成され得る。第２のフィルタは、検出器１２６によって第２の蛍光標識の蛍光発光を検出するように構成され得る。フィルタアセンブリ１２８において２つのフィルタがあると、検出器１２６は、蛍光発光の２種の異なる波長を検出し得る。

いくつかの実施形態において、光学システム１０２は、蛍光発光を分割するように構成されたダイクロイック要素（ｄｉｃｈｒｏｉｃ）を含み得る。光学システム１０２は、２つの検出器（第１の波長にある蛍光発光を検出するための第１のフィルタを連結した第１の検出器、および第２の波長にある蛍光発光を検出するための第２のフィルタを連結した第２の検出器）を含み得る。

使用時に、配列決定されるべきポリヌクレオチドを有するサンプルは、フローセル１１４の中に載せられ、取り付けステージ１１６に配置される。コンピューターシステム１０６は、次いで、流体システム１０４を作動して、配列決定サイクルを開始する。配列決定反応の間に、コンピューターシステム１０６は、通信インターフェース１０８ｂを通じて流体システム１０４に命令して、試薬（例えば、ヌクレオチドアナログ）をフローセル１１４へと供給する。通信インターフェース１０８ａおよびコンピューターインターフェース１１０を通じて、コンピューターシステム１０６は、光学システム１０２のレーザー１２０を制御して、所定の波長にある光を発生させ、配列決定されている最中のポリヌクレオチドにハイブリダイズされる成長中のプライマーへと組み込まれる蛍光標識に連結されたヌクレオチドアナログ上で光るように構成される。コンピューターシステム１０６は、光学システム１０２の検出器１２６を制御して、蛍光画像中のヌクレオチドアナログの発光スペクトルを捕捉する。コンピューターシステム１０６は、検出器１２６からの蛍光画像を受け取り、その受け取った蛍光画像を処理して、配列決定されている最中のポリヌクレオチドのヌクレオチド配列を決定する。

コンピューターシステム
配列決定システム１００のコンピューターシステム１０６は、上記で考察されるように、光学システム１０２および流体システム１０４を制御するように構成され得る。コンピューターシステム１０６に関しては多くの構成が可能であるが、一実施形態は、図２に図示される。図２に示されるように、コンピューターシステム１０６は、メモリ２０４、記憶装置２０６、および通信インターフェース２０８と電子的に通信状態にあるプロセッサ２０２を含み得る。一実施形態において、コンピューターシステム１０６は、配列アラインメントを行い、バリアント呼び出しを生成するために、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィクス処理ユニット（ＧＰＵ）、および／またはベクトル中央演算処理装置（ＣＰＵ）を含む。

プロセッサ２０２は、流体システム１０４に、配列決定反応の間に試薬をフローセル１１４へと供給させる命令を実行するように構成され得る。プロセッサ２０２は、光学システム１０２のレーザー１２０を制御して、所定の波長にある光を生成する命令を実行し得る。プロセッサ２０２は、光学システム１０２の検出器１２６を制御し、データを検出器１２６から受け取る命令を実行し得る。プロセッサ２０２は、検出器１２６から受け取ったデータ（例えば、蛍光画像）を処理し、検出器１２６から受け取ったデータに基づいて、ポリヌクレオチドのヌクレオチド配列を決定する命令を実行し得る。

メモリ２０４は、配列決定システム１００の電源が入っているときに、コンピューターシステム１０６の機能を発揮するようにプロセッサ２０２を構成するための命令を保存するように構成され得る。配列決定システム１００の電源が切られているときには、記憶装置２０６が、コンピューターシステム１０６の機能を発揮するようにプロセッサ２０２を構成するための命令を保存し得る。通信インターフェース２０８は、コンピューターシステム１０６と、光学システム１０２、流体システム１０４の間の通信を促進するように構成され得る。

コンピューターシステム１０６は、配列決定システム１００の配列決定結果（バリアント呼び出しのような二次分析の結果を含む）をディスプレイするためのディスプレイデバイス（示さず）と通信するように構成されたユーザーインターフェース２１０を含み得る。ユーザーインターフェース２１０は、配列決定システム１００のユーザーからの入力を受け取るように構成され得る。コンピューターシステム１０６の光学システムインターフェース２１２および流体システムインターフェース２１４は、光学システム１０２および流体システム１０４を、図１に図示される通信リンク１０８ａおよび１０８ｂを通じて制御するように構成され得る。例えば、光学システムインターフェース２１２は、光学システム１０２のコンピューターインターフェース１１０と、通信リンク１０８ａを通じて通信し得る。

コンピューターシステム１０６は、検出器１２６から受け取ったデータを使用して、ポリヌクレオチドのヌクレオチド配列を決定するように構成された核塩基決定機２１６を含み得る。核塩基決定機２１６は、検出器１２６によって捕捉された蛍光画像を使用して、フローセル１１４におけるポリヌクレオチドクラスターの位置のテンプレートを生成し得る。核塩基決定機２１６は、生成された位置テンプレートに基づいて、検出器１２６によって捕捉された蛍光画像においてフローセル１１４におけるポリヌクレオチドクラスターの位置を記録し得る。核塩基決定機２１６は、蛍光画像から蛍光発光の強度を抽出して、抽出された強度を生成し得る。核塩基決定機２１６は、その抽出された強度からポリヌクレオチドの塩基を決定し得る。核塩基決定機２１６は、決定されたポリヌクレオチドの塩基の品質スコアを決定し得る。

コンピューターシステム１０６は、反復アライナー２１８およびバリアント呼び出し側２２０（例えば、Ｓｔｒｅｌｋａバリアント呼び出し側）（ｓｉｔｅｓ．ｇｏｏｇｌｅ．ｃｏｍ／ｓｉｔｅ／ｓｔｒｅｌｋａｓｏｍａｔｉｃｖａｒｉａｎｔｃａｌｌｅｒ／ｈｏｍｅ／ｆａｑ）を含み得る。配列決定サイクルの間に、反復アライナー２１８は、核塩基決定機２１６によって決定された配列リードを、参照配列へと整列させ得る。その整列された配列リードは、関連付けスコアを有し得る。そのスコアは、配列リードが参照配列に正確に整列された確率（例えば、ミスマッチパーセンテージ）であり得る。いくつかの実行において、コンピューターシステム１０６は、配列リードを参照配列に整列させるために、およびバリアント呼び出しを決定するために、ハードウェア（例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはグラフィクス処理ユニット（ＧＰＵ））を含み得る。いくつかの実施形態において、反復アライナー２１８およびバリアント呼び出し側２２０は、コンピューターシステム１０６とは別個のコンピューターシステムによって実行され得る。いくつかの実施形態において、コンピューターシステム１０６は、配列決定システム１００の一体型構成要素であり得る。いくつかの実施形態において、光学システム１０２、流体システム１０４、および／またはコンピューターシステム１０６は、１つの機械の中に一体化され得る。

逐次合成配列決定を行う方法
図３は、配列決定システム１００を利用して逐次合成配列決定を行うための例示的方法３００のフローチャートである。方法３００がブロック３０５で開始した後、フラグメント化二本鎖ポリヌクレオチドフラグメントを含むフローセル１１４は、ブロック３１０で受け取られる。そのフラグメント化二本鎖ポリヌクレオチドフラグメントは、デオキシリボ核酸（ＤＮＡ）サンプルから生成され得る。そのＤＮＡサンプルは、種々の供給源、例えば、生物学的サンプル、細胞サンプル、環境サンプル、またはこれらのうちのいずれかの組み合わせに由来し得る。ＤＮＡサンプルは、患者に由来する生物学的流体、組織、および細胞のうちの１またはこれより多くを含み得る。例えば、そのＤＮＡサンプルは、血液、尿、脳脊髄液、胸膜液、羊水、精液、唾液、骨髄、生検サンプル、またはこれらのうちのいずれかの組み合わせから採取され得るか、またはこれらを含み得る。

ＤＮＡサンプルは、目的の細胞に由来するＤＮＡを含み得る。その目的の細胞は、変動し得、いくつかの実施形態では、悪性表現型を発現し得る。いくつかの実施形態において、その目的の細胞は、腫瘍細胞、骨髄細胞、がん細胞、幹細胞、内皮細胞、ウイルス感染した細胞、病原性の、寄生生物の細胞、またはこれらのうちのいずれかの組み合わせを含み得る。

フラグメント化二本鎖ポリヌクレオチドフラグメントの長さは、２００塩基から１０００塩基までの範囲に及び得る。フラグメント化二本鎖ポリヌクレオチドフラグメントを含むフローセル１１４がブロック３１０において一旦受け取られると、方法３００は、ブロック３１５へと進み、このブロックにおいてその二本鎖ポリヌクレオチドフラグメントは、フローセル（例えば、フローセル１１４）の１またはこれより多くのチャネルの内表面に付着されたポリヌクレオチドフラグメントのクラスターへとブリッジ増幅される。フローセルの１またはこれより多くのチャネルの内表面は、２タイプのプライマー（例えば、第１のプライマータイプ（Ｐ１）および第２のプライマータイプ（Ｐ２））を含み得、そのＤＮＡフラグメントは、周知の方法によって増幅され得る。

フローセル１１４内でクラスターを生成した後、方法３００は、逐次合成配列決定を行うプロセスを開始し得る。その逐次合成配列決定を行うプロセスは、一本鎖ポリヌクレオチドフラグメントのクラスターのヌクレオチド配列を決定する工程を包含し得る。配列５’－Ｐ１－Ｆ－Ａ２Ｒ－３’を有する一本鎖ポリヌクレオチドフラグメントのクラスターの配列を決定するために、配列Ａ２Ｆ（これは、配列Ａ２Ｒに相補的である）を有するプライマーは、ブロック３２０において、０個、１個、または２個の標識を有するヌクレオチドアナログとともに添加されてＤＮＡポリメラーゼによって伸長されて、成長中のプライマー－ポリヌクレオチドを形成し得る。

各配列決定サイクルの間に、４タイプのヌクレオチドアナログは、その成長中のプライマー－ポリヌクレオチドへと添加されて組み込まれ得る。その４タイプのヌクレオチドアナログは、異なる改変を有し得る。例えば、第１のタイプのヌクレオチドは、いかなる蛍光標識とも結合体化していないデオキシグアノシン三リン酸（ｄＧＴＰ）のアナログであり得る。第２のタイプのヌクレオチドは、第１のタイプの蛍光標識とリンカーを介して結合体化したデオキシチミジン三リン酸（ｄＴＴＰ）のアナログであり得る。第３のタイプのヌクレオチドは、第２のタイプの蛍光標識とリンカーを介して結合体化したデオキシシチジン三リン酸（ｄＣＴＰ）のアナログであり得る。第４のタイプのヌクレオチドは、第１のタイプの蛍光標識および第２のタイプの蛍光標識の両方と、１またはこれより多くのリンカーを介して結合体化したデオキシアデノシン三リン酸（ｄＡＴＰ）のアナログであり得る。リンカーは、１またはこれより多くの切断基を含み得る。その後の配列決定サイクルの前に、蛍光標識は、ヌクレオチドアナログから除去され得る。例えば、蛍光標識をヌクレオチドアナログに付着させるリンカーは、そのリンカーが、ホスフィン試薬によって各組み込みサイクル後に切断され得、それによって、その蛍光標識をその後の配列決定サイクルから放出するように、例えば、炭素上にアジドおよび／またはアルコキシ基を含み得る。

ヌクレオチド三リン酸は、配列決定が制御され、僅か１個のヌクレオチドアナログが各サイクルにおいて各伸長中のプライマー－ポリヌクレオチド上に付加され得るように、３’位において可逆的にブロックされ得る。例えば、ヌクレオチドアナログの３’リボース位は、アルコキシおよびアジド官能基の両方を含み得、これらは、ホスフィン試薬での切断によって除去可能であり得、それによって、さらに伸長され得るヌクレオチドを作り得る。ヌクレオチドアナログの組み込みの後に、流体システム１０４は、任意の組み込まれていないヌクレオシドアナログおよび酵素を除去するために、フローセル１１４の１またはこれより多くのチャネルを洗浄し得る。その後の配列決定サイクルの前に、可逆的な３’ブロックは、別のヌクレオチドアナログが各伸長中のプライマー－ポリヌクレオチド上に付加され得るように、除去され得る。

ブロック３２５において、レーザー（例えば、レーザー１２０）は、所定の波長で２種の蛍光標識を励起し得る。ブロック３３０において、その蛍光標識からのシグナルは、検出され得る。蛍光標識を検出する工程は、例えば、２種のフィルタを使用する検出器１２６によって、第１の波長および第２の波長において、２種の蛍光画像で蛍光発光を捕捉する工程を包含し得る。第１の蛍光標識の蛍光発光は、第１の波長にまたはその付近にあり得、第２の蛍光標識の蛍光発光は、第２の波長にまたはその付近にあり得る。その蛍光画像は、後にオフラインで処理するために保存され得る。いくつかの実施形態において、その蛍光画像は、各クラスターにおいて成長中のプライマー－ポリヌクレオチドの配列をリアルタイムで決定するために処理され得る。

オンラインでのリアルタイム蛍光画像化処理において、検出される蛍光シグナルを含む蛍光画像は、ブロック３３５において処理され得、組み込まれたヌクレオチドの塩基が決定され得る。決定された各ヌクレオチド塩基に関して、品質スコアがブロック３４０において決定され得る。決定ブロック３４５において、例えば、シグナルの品質に基づいて、または所定の塩基数の後に、より多くのヌクレオチドを検出するか否か、決定が行われ得る。より多くのヌクレオチドが検出されることになる場合、次の配列決定サイクルのヌクレオチド決定は、ブロック３２０において行われ得る。いくつかの実施形態において、標識されたヌクレオチドは、クラスターに相当するＤＮＡ鎖のうちの一方の末端に付加され得る。その標識されたヌクレオチドはまた、クラスターに相当するＤＮＡ鎖のうちの他方の末端に付加され得る。ＤＮＡ鎖のうちの一方の末端にあるリードは、しばしばリード１セットといわれ、ＤＮＡ鎖のうちの他方の末端にあるそれらリードは、しばしばリード２セットといわれる。単一のポリヌクレオチド二重鎖上の２つの場所に由来する配列の２またはこれより多くのリードの決定を可能にする配列決定技術は、ペアエンド（ｐａｉｒｅｄ－ｅｎｄ）（ＰＥ）配列決定法として公知である。単一のポリヌクレオチド二重鎖上の２つの場所に由来する配列のその２またはこれより多くのリードは、リード１セット、リード２セットなどといわれる。ペアエンド配列決定法は、米国特許出願番号１４／６８３，５８０に記載されている；その内容は、その全体において本明細書に参考として援用される。ペアエンドアプローチの利点は、単一のテンプレートに由来する２つのストレッチを配列決定することから得られることになる情報が、ランダム様式で２つの独立したテンプレートのうちの各々を配列決定するより有意に多いことである。

次の配列決定サイクルの前に、蛍光標識は、ヌクレオチドアナログから除去され得、その可逆的な３’ブロックは、別のヌクレオチドアナログが各伸長中のプライマー－ポリヌクレオチド上に付加され得るように除去され得る。蛍光画像がすべて処理された後、方法３００は、ブロック３５０において終結し得る。

塩基呼び出し
塩基呼び出しは、グアニン（Ｇ）、チミン（Ｔ）、シトシン（Ｃ）、またはアデニン（Ａ）であると配列決定されている最中の、成長中のプライマー－ポリヌクレオチドのクラスターへと組み込まれたヌクレオチドの塩基を決定するプロセスをいい得る。図４は、配列決定システム１００を利用して、塩基呼び出しを行うための例示的方法４００のフローチャートである。図３で図示されるブロック３３５において検出されたシグナルを処理する工程は、方法４００の塩基呼び出しを行う工程を包含し得る。ブロック４０５において開始した後、所定の波長の光が、レーザーを使用して生成され得る。その生成された光は、ブロック４１０においてヌクレオチドアナログ上で光り得る。例えば、コンピューターシステム１０６は、その光学システムインターフェース２１２および通信チャネル１０８ａを通じて、レーザー１２０に所定の波長にある光を生成させ得る。

レーザーで生成された光は、フローセル（例えば、フローセル１１４）の１またはこれより多くのチャネルの内表面上に付着された成長中のプライマー－ポリヌクレオチドへと組み込まれたヌクレオチドアナログ上で光り得る。プライマー－ポリヌクレオチドは、配列決定プライマーにハイブリダイズされた一本鎖ポリヌクレオチドフラグメントのクラスターを含み得る。ヌクレオチドアナログは各々、０個、１個、または２個の蛍光標識を含み得る。その２個の蛍光標識は、第１の蛍光標識および第２の蛍光標識であり得る。その蛍光標識は、レーザーで生成された光によって励起された後、蛍光発光を発し得る。例えば、第１の蛍光標識は、例えば、第１の蛍光画像において捕捉され得る第１の波長にある蛍光発光を生じ得る。第２の蛍光標識は、例えば、第２の蛍光画像において捕捉され得る第２の波長にある蛍光発光を生じ得る。

ヌクレオチドアナログは、第１のタイプのヌクレオチド、第２のタイプのヌクレオチド、第３のタイプのヌクレオチド、および第４のタイプのヌクレオチドを含み得る。その第１のタイプのヌクレオチド、例えば、デオキシグアノシン三リン酸（ｄＧＴＰ）のアナログは、第１の蛍光標識にも第２の蛍光標識にも結合体化されない。第２のタイプのヌクレオチド、例えば、デオキシチミジン三リン酸（ｄＴＴＰ）のアナログは、第１のタイプの蛍光標識と結合体化され得るが、第２のタイプの蛍光標識には結合体化されない。第３のタイプのヌクレオチド、例えば、デオキシシチジン三リン酸（ｄＣＴＰ）のアナログは、第２のタイプの蛍光標識と結合体化され得るが、第１のタイプの蛍光標識とは結合体化されない。第４のタイプのヌクレオチド、例えば、デオキシアデノシン三リン酸（ｄＡＴＰ）のアナログは、第１の蛍光標識および第２のタイプの蛍光標識の両方と結合体化され得る。

ブロック４１５において、第１の波長および第２の波長にあるヌクレオチドアナログの蛍光発光は、少なくとも１つの検出器を使用して検出され得る。例えば、検出器１２６は、２つの蛍光画像（第１の波長にある第１の蛍光画像および第２の波長にある第２の蛍光画像）を捕捉し得る。その２つの蛍光画像を光学システム１０２から受け取った後、核塩基決定機２１６は、その２つの蛍光画像において蛍光発光の存在または非存在を決定し得る。

第１のタイプのヌクレオチドは、第１の蛍光標識にも第２の蛍光標識にも結合体化されていないので、その第１のタイプのヌクレオチドは、第１の波長にあるかまたは第２の波長にある蛍光発光を、全くまたは最小限にしか生成できない。決定ブロック４２０において、蛍光発光が検出されない場合、そのヌクレオチドは、第１のタイプのヌクレオチド（例えば、ｄＧＴＰ）であると決定され得る。何らかのまたは最小限を超える蛍光発光が検出される場合、方法４００は、決定ブロック４２５へと進み得る。

第２のタイプのヌクレオチドは、第１のタイプの蛍光標識と結合体化され、第２のタイプの蛍光標識とは結合体化されないので、その第２のタイプのヌクレオチドは、第１の波長にある蛍光発光を生成し得、第２の波長にある蛍光発光を全くまたは最小限にしか生成できない。決定ブロック４２５において、第２の波長にある蛍光発光は、第２の蛍光画像において検出されず、かつ決定ブロック４２０から、第１の波長にある蛍光発光が第１の蛍光画像において検出される場合、ヌクレオチドは、第２のタイプのヌクレオチド（例えば、ｄＴＴＰ）であると決定され得る。蛍光発光が第２波長において検出される場合、方法４００は、決定ブロック４３０へと進み得る。

第３のタイプのヌクレオチドは、第２のタイプの蛍光標識と結合体化され、第１のタイプの蛍光標識とは結合体化されないので、その第３のタイプのヌクレオチドは、第２の波長にある蛍光発光を生成し得、第１の波長にある蛍光発光を全くまたは最小限にしか生成できない。決定ブロック４３０において、第１の波長にある蛍光発光が第１の蛍光画像において検出されず、かつ決定ブロック４２５から、第２の波長にある蛍光発光が第２の蛍光画像において検出される場合、ヌクレオチドは、第３のタイプのヌクレオチド（例えば、ｄＣＴＰ）であると決定され得る。

第４のタイプのヌクレオチドは、第１のタイプの蛍光標識および第２のタイプの蛍光標識の両方と結合体化されるので、その第４のタイプのヌクレオチドは、第１の波長または第２の波長にある蛍光発光を生成し得る。決定ブロック４３０において、蛍光発光が第１の蛍光画像で第１の波長において検出され、かつ決定ブロック４２５から、蛍光発光が第２の蛍光画像で第２の波長において検出され得る場合、ヌクレオチドは、第４のタイプのヌクレオチド（例えば、ｄＡＴＰ）であると決定され得る。

フローセル１１４は、配列決定されるべき成長中のプライマー－ポリヌクレオチドのクラスターを含み得る。決定ブロック４３５において、所定の配列決定サイクルに対して処理されるべき蛍光発光を有する少なくとももう１個のクラスターが存在する場合、方法４００は、ブロック４１０において継続し得る。一本鎖ポリヌクレオチドのクラスターがそれ以上処理されるべきではない場合、方法４００は、ブロック４４０において終了し得る。

配列決定法
本明細書で記載される方法は、種々の核酸配列決定技術とともに使用され得る。特に適用可能な技術は、核酸がアレイの中の固定された位置に付着され、その結果、それらの相対的な位置が変化せず、そしてそのアレイが反復して画像化されるものである。画像が異なるカラーチャネルにおいて、例えば、一方のヌクレオチド塩基タイプを別のものから区別するために使用される異なる標識が同時に存在して得られる実施形態は、特に適用可能である。いくつかの実施形態において、標的核酸のヌクレオチド配列を決定するプロセスは、自動化プロセスであり得る。好ましい実施形態としては、逐次合成配列決定を行う（「ＳＢＳ」）技術が挙げられる。

「逐次合成配列決定を行う（「ＳＢＳ」）技術」は、一般に、テンプレート鎖に対するヌクレオチドの反復付加を通じて、発生しようとしている核酸鎖の酵素による伸長を包含する。ＳＢＳの旧来の方法において、単一のヌクレオチドモノマーは、各送達においてポリメラーゼの存在下で標的ヌクレオチドに提供され得る。しかし、本明細書で記載される方法において、１種より多くのタイプのヌクレオチドモノマーが、送達においてポリメラーゼの存在下で標的核酸に提供され得る。

反復アラインメントおよびバリアント呼び出し
図５Ａおよび図５Ｂは、一実施形態に従う例示的な反復アラインメントおよびバリアント呼び出しプロセスを示す。ある数の最小限の配列決定サイクルを画像化した後、リアルタイム一次分析が、各整列されていないリードに関する塩基呼び出しおよび品質スコアを決定するために行われ得る。図５Ａにおいて、示される最小限の数の配列決定サイクルは、３である。いくつかの実施形態において、最小限の配列決定サイクルは、１６、３２、またはこれより多くのサイクルであり得る。塩基呼び出しおよび品質スコア決定は、図３を参照して上記で例証される。各リードは、最も可能性の高いアラインメントが選択された状態で参照配列に整列され得、次いで、そのリードは、積み重ねられて、バリアント呼び出しが行われ得る。

図５Ａにおいて、一次分析は、整列されていない配列リード（例えば、ＣＣＡ５０４ａ、ＴＴＡ５０４ｄ、およびＴＡＧ５０４ｋ）を、フローセル上で示された１６個のクラスターから決定する工程を包含する。一次分析という標題の下では、各クラスターは、文字列として表される（各文字は、配列決定されたポリヌクレオチドを表す）。最小限の数のサイクルが一旦配列決定された（例えば、３サイクル）後、二次分析は、その１６個の配列リードを、図５Ａにおいて二次分析という標題の下で示される参照配列（ＧＡＴＴＡＣＡＴＡＡＧＡＴＴＣＴＴＴＣＡＴＣＧ５０８）に整列させる工程を包含し得る。二次分析の図において、参照配列の下に整列された配列は、ポリヌクレオチドの積み重ねを構成する。例として、配列リードＣＣＡ５０４ａ（「一次分析」という標題の下での列１）、ＴＴＡ５０４ｄ（列４）、およびＴＡＧ５０４ｋ（列１１）は、参照配列５０８のＴＴＡＣＡＴ５１２部分配列内でそれぞれ配列ＡＣＡ、ＴＴＡ、およびＴＡＣに、それぞれ１個、０個、および１個のミスマッチとともに整列され得る。従って、ＴＴＡＣＡＴ５１２部分配列の第３の位置は、正確性のある程度の確率を伴って、参照配列５０８においてＡの代わりにＣ５１６ａであると決定され得、ＴＴＡＣＡＴ５１２部分配列の第４の位置は、正確性のある程度の確率を伴って、参照配列においてＣの代わりにＧ５１６ｂであると決定され得る。参照配列の他のバリアントは、同様に決定され得る。

新たな配列決定サイクルが行われ、塩基呼び出しが決定されるにつれて、アラインメント確率は、さらに正確になり得、そのリードアラインメントは、新たな最も可能性の高いアラインメントにシフトし得る。このシフトは、影響を及ぼされる領域において行われるべき新たなバリアント呼び出しを誘発する。図５Ｂにおいて、第４の配列決定サイクルの後に、第３の配列決定サイクルからの配列決定リードＣＣＡ５０４ａ、ＴＴＡ５０４ｄ、およびＴＡＧ５０４ｋは、それぞれ、ＣＣＡＴ５０４ａ’（「一次分析」という標題の下での列１）、ＴＴＡＣ５０４ｄ’（列４）、およびＴＡＧＧ５０４ｋ’（列１１）になる。その配列リードＣＣＡＴ５０４ａ’およびＴＴＡＣ５０４ｄ’はなお、それぞれ１個および０個のミスマッチを伴って、参照配列５０８のＴＴＡＣＡＴ５１２部分配列に整列され得る。配列リードＣＣＡＴ５０４ａ’およびＴＴＡＣ５０４ｄ’に関しては、そのアラインメント位置は、図５Ａで示される反復と図５Ｂで示される反復との間で変化しない；ＴＴＡＣＡＴ５１２部分配列の第３の位置は、参照配列においてＡの代わりにＣ５１６ａであると決定され得る。リードＴＡＧＧ５０４ｋ’をＴＴＡＣＡＴ５１２部分配列に整列させることは、２個のミスマッチを要求する。しかし、配列リードＴＡＧＧ５０４ｋ’は、より高い確率を伴って、参照配列５０８のＴＡＡＧ５２０に整列され得る。なぜならこのアラインメントは、１個のみのミスマッチを有するからである。図５Ａおよび図５Ｂの例は、配列決定実行が進行するにつれてアラインメント位置がシフトし得、バリアント呼び出しが改善し得ることを示す。

いくつかの実施形態において、配列リードを参照配列に整列させる工程は、各配列リードに関するノード上でリーフとして最も可能性の高いアラインメントのリストを維持することを包含する。各リーフは、関連付けられた確率を有し得る。ある閾値未満に低下する確率を伴うリーフは、トリミングされ得る。

リアルタイム二次分析
図６は、リアルタイム二次配列分析を行うための例示的方法６００のフローチャートである。方法６００がブロック６０５で開始した後、配列決定サイクルの画像化データは、ブロック６１０において受け取られ得る。例えば、コンピューターシステム１０６は、その画像化データを検出器１２６から受け取り得る。ブロック６１５において、塩基が決定され得、その塩基の品質スコアが決定され得る。画像化データを生成し、塩基を決定し、その決定された塩基の品質を決定する工程は、図３～４を参照しながら上記で例証される。各配列決定サイクルの後に、配列決定リードの長さは、１ヌクレオチド長くなり得る。例えば、３１回目の配列決定サイクルの後に、その配列決定リードは、長さが３１ヌクレオチドであり、３２回目の配列決定サイクルの後に、その配列決定リードは、長さが１ヌクレオチド長くなって、３２ヌクレオチドになる。

決定ブロック６２０において、ある数の最小限の配列決定サイクルが行われたか否かが、決定され得る。最小限の配列決定サイクルは、１６サイクル、３２サイクル、またはこれより多くのサイクルであり得る。行われる配列決定サイクルのサイクルが、要求される最小限の配列決定サイクルより少ない場合、方法６００は、ブロック６１０へと進む。行われる配列決定サイクルの数が、要求される少なくとも最小限の配列決定サイクルである場合、方法６００は、ブロック６２５へと進む。

ブロック６２５において、決定される配列リードは、参照配列に整列され得る。方法６００は、異なる実行において異なるアラインメント方法を利用し得る。アラインメント方法の非限定的な例としては、グルーバルアラインメント（例えば、Ｎｅｅｄｌｅｍａｎ－Ｗｕｎｓｃｈアルゴリズム）、局所アラインメント、ダイナミックプログラミング（例えば、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズム）、ヒューリスティックアルゴリズムまたは確率論的方法、プログレッシブ法、繰り返し法、モチーフ検索またはプロファイル分析（ｐｒｏｆｉｌｅａｎａｌｙｓｉｓ）、遺伝的アルゴリズム、焼きなまし法（ｓｉｍｕｌａｔｅｄａｎｎｅａｌｉｎｇ）、ペアワイズアラインメント、多重配列アラインメントが挙げられる。

ブロック６３０において、バリアントが決定され得る。最初のバリアントは、所定のバリアント閾値に達した後にのみ呼び出され得る。バリアント閾値は、考えられるＰＣＲまたは配列決定エラーに起因して重要であり得る。バリアント閾値は、参照配列の対応する位置における塩基とは異なる参照配列の位置への塩基のアラインメントに基づき得る。

図５Ａにおいて、バリアント閾値は、１つの観察である。従って、ＴＴＡＣＡＴの第３の位置は、参照配列においてＡの代わりにＣであると決定され得る。バリアント閾値が２またはこれより大きい場合、Ｃバリアントは、特定の配列決定サイクルにおいてブロック６３０で呼び出されない。図５Ｂにおいて、ＴＴＡＣＡＴの第３の位置は、バリアント閾値が多くて２回の観察である場合、参照配列においてＡの代わりにＣであると決定され得る。いくつかの実施形態において、バリアント閾値は、参照配列の特定の位置に整列される全ての塩基のパーセンテージ（例えば、１％、５％、１０％、２５％、５０％、またはこれより大きい）であり得る。以下でさらに詳細に記載されるように、最も可能性の高いアラインメントは、各配列リードに関するノード上でリーフとして保存され得る。各リーフは、関連付けられた確率を有し得る。ある閾値未満に低下する確率を伴うリーフは、トリミングされ得る。従って、参照配列上のヌクレオチド位置に関して呼び出されるバリアントは、その後のサイクルの間にさらに正確になり得るかまたは脱落し得る。

読まれるべきヌクレオチドがまだ存在するか、または全ての配列決定サイクルが完了しているかは、決定ブロック６３５において決定がなされ得る。この決定は、例えば、シグナルの品質または所定の塩基数の後に基づき得る。読まれるべきヌクレオチドがまだ存在し、全ての配列決定サイクルが完了しているわけではない場合、方法６００は、ブロック６１０へと進み、このブロックにおいて配列決定データは、次の配列決定サイクルのために生成され得る。読まれるべきヌクレオチドがもう存在せず、全ての配列決定サイクルが完了している場合、方法６００は、ブロック６５０において終了する。

いくつかの実施形態において、ブロック６２５およびブロック６３０、ならびにブロック６１０およびブロック６１５は、最小限の数の配列決定サイクルが行われた後に、並行して行われ得る。例えば、３２回の配列決定サイクルが行われた後に、方法は、ブロック６２５へと進んで、長さが３２ヌクレオチドである配列リードのアラインメントを行う。方法６００がブロック６２５においてアラインメントを、およびブロック６３０においてバリアント呼び出しを行う間に、次の配列決定サイクル（すなわち、３３回目の配列決定サイクル）が行われ得る。従って、バリアントは、３３回目の配列決定サイクルが完了する前にブロック６３０において決定され得る。そして方法６００は、配列決定サイクルが行われている間に、アラインメントおよびバリアント呼び出しをリアルタイムで（またはゼロもしくは低レイテンシで）可能にし得る。さらに、先の配列決定サイクルの間に呼び出されたバリアントは、その後のサイクルの間にさらに正確になり得る。従って、図６で図示されるバリアント呼び出しは、反復プロセスであり得る。例えば、３２回目の配列決定サイクルの後にまたは３３回目の配列決定サイクルの間に呼び出されたバリアントは、呼び出された最初のバリアントであり得る。その後の配列決定サイクルの間に、その呼び出されたバリアントは、さらに正確になり得る（特定のヌクレオチド位置に関して以前に呼び出されたバリアントは、もはや呼び出されず、脱落することを含む）。別の例としては、図５Ａおよび図５Ｂに示されるように、ＴＴＡＣＡＴの第４の位置に関するバリアントは、第３のサイクルの後にＧであると呼び出されたが、その位置に関するバリアントは、第４の位置の後で呼び出されなかった。

別の実施形態において、配列決定プロセスは、全ての配列決定サイクルが完了している時間の前に終結され得る。例えば、特定の標的バリアントが全ての配列決定サイクルの完了前に識別される場合、その配列決定プロセスは終結し得る。これは、システムが試薬に関するコストを節約し、標的バリアント呼び出しが行われる前に全てのサイクルを完了する必要があるシステムより早く、所望の結果を提供することを可能にする。

いくつかの実施形態において、アラインメントは、ブロック６２５において行われなくてもよく、バリアントは、配列決定サイクルごとにブロック６３０において呼び出されてもよい。例えば、アラインメントが行われ得、バリアントは、ｎ回目の配列決定サイクルごとに呼び出される（ここでｎは、１、２、３、４、５、１０、２０、またはこれより多くの回数の配列決定サイクルである）。いくつかの実施形態において、ブロック６２５において行われるアラインメントの頻度およびブロック６３０において呼び出されるバリアントは、先の配列決定サイクルにおいて呼び出されるバリアントの数に基づき得る。例えば、多数のバリアントが１つの配列決定サイクルにおいて呼び出される場合、アラインメントおよびバリアント呼び出しは、より高い頻度で（例えば、次のサイクル）またはより低い頻度で行われてもよい。別の例として、１つの配列決定サイクルにおいてバリアントが呼び出されなかったか、または新たなバリアントが呼び出されなかった場合、アラインメントおよびバリアント呼び出しは、より高い頻度でまたはより低い頻度で（例えば、次のサイクルにはない）行われてもよい。

いくつかの実施形態において、ブロック６３０におけるバリアント呼び出しは、参照配列の領域に対して選択的に行われ得る。整列されている最中の参照配列の一部は、異なる実行において異なり得る。例えば、バリアント呼び出しは、参照配列への配列リードのアラインメントが先の配列決定サイクルの間に（例えば、配列決定サイクルの直前に）変化した場合に、参照配列の領域に対して選択的に行われ得る。別の例として、整列されている最中の参照配列のその領域は、既知の一塩基多型（ＳＮＰ）位置に基づいて決定され得る。

いくつかの実施形態において、リアルタイム二次配列分析を行うための方法６００は、各リードに関するツリー構造に基づき得る。そのツリーのルートは、配列のスタートを示す「＄」をつけて区別され得る。そのルートの子ノードは、４個の考えられる塩基呼び出し：「Ａ」、「Ｃ」、「Ｇ」および「Ｔ」に相当する。そのツリーにおける各ノードは、これと関連付けられる３個の変数を有し得る：現在のリード（配列Ｗといわれる）からの塩基に伴って、ルートからそのノードへと至る現在のブランチの配列（配列Ｓといわれる）の差異の総数、そして配列Ｓとマッチする参照中の全ての位置に関して、参照配列のＢｕｒｒｏｗｓ－ＷｈｅｅｌｅｒＴｒａｎｓｆｏｒｍ（ＢＷＴ）における開始インデックスおよび停止インデックス。ＢＷＴの重要な特性は、共通する開始配列を有する全ての列が、変換において連続的であることは保証されているので、配列Ｓとマッチする参照への個々のインデックスのリストを維持するよりむしろ、開始インデックスおよび停止インデックスを追跡することが十分であることである。これは、ヒト参照ゲノムへのリードのマッピングの場合には価値あることである。なぜなら非常に多くの反復領域が存在するからである。

次いで、ルートの各子ノードには、それ自体に４つの考えられる塩基「Ａ」、「Ｃ」、「Ｇ」および「Ｔ」に相当する４つの子ノードがある。繰り返すと、現在のリードＷの配列にともなう差異の数は、追跡され得る。例えば、最初の２サイクルのリードが、「Ｃ」、そして次に「Ｔ」であった場合、そのリードは、ルート－＞Ｃ－＞Ｔによって定義されるツリーを通るパスを有し得る。従って、合計の蓄積された差異は、最後のＴノードに関してゼロである。対照的に、ルート－＞Ａ－＞Ｇによって定義されるパスに関しては、Ｇノードにおける合計の蓄積された差異は、２である。なぜならＡもＧも、現在のリードにおける相当するサイクルとマッチしないからである。

いくつかの実施形態において、受容可能である参照との差異の数に関する限界は、定義され得る。一旦その限界に達した後、そのブランチは無効であり、もはやその後のサイクルにおいて分析されない。適切なインデックスとともに、ＢＷＴ変換は、各ノードにおいて必要な計算を一定のＯ（１）時間で行うために使用され得る。コンピューテーションに必要とされるメモリの量、およびツリーにおけるノードの数は、許容可能なエラー閾値の総数によって影響を及ぼされる。いくつかの実施形態において、小さな挿入および欠失のサポートは、実行され得る。

いくつかの実施形態において、より複雑な再配置は、複数のシードを通じて取り扱われる。すなわち、特定のリードがどこにもマッチしないと見出される場合、そのプロセスは、リードの他の部分がどこかにマッピングされると見込んで、いくらか後のサイクルにおいて再び始まり得る。これらのリードの全てが追跡され得るので、より複雑な分析（例えば、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズムのようなダイナミックプログラミング法）が、利用可能なコンピューティング能力が存在する場合に行われ得る。

代替の実施形態
さらなる実施形態は、配列決定リードの反復処理を含む二次分析のためのシステムおよび方法である。二次分析は、参照配列（例えば、ヒト参照ゲノム配列）への配列リードのアラインメントおよびサンプルと参照との間の差異を検出するためのこのアラインメントの利用（例えば、バリアント検出および呼び出し）の両方を包含し得る。１つの実行において、アラインメントおよびバリアント呼び出し結果は、配列決定機が実行を終了する前に得られ得る。例えば、これらの結果は、利用可能なコンピューティング資源に依存する時間区間で提供され得る。これは、前の反復からの中間アラインメント結果を、現在の反復からのアラインメント結果で拡張することによって達成され得る。その現在の反復からのアラインメント結果は、現在の反復の新たに配列決定された塩基と、以前に整列された位置における参照配列からの塩基とを比較することによって生成される。その比較の結果は、前の反復からのアラインメント結果と合わせられ、その合わされた出力は、次の反復のために保存される。

図７Ａおよび図７Ｂは、二次分析の旧来の方法（図７Ａ）と本開示の実施形態の二次分析（図７Ｂ）とを比較する模式図である。図７Ａは、二次分析の旧来の方法に関して、リードにおける塩基の完全なセットが配列決定されるまでアラインメントが進まないことを図示する。アラインメントプロセスは、多重アラインメント処理工程を含み得る。第１のアラインメント処理工程は、リードにおいて配列決定された塩基の完全なセットが利用可能になるのを待つ。アラインメントプロセスが完了した後、バリアント呼び出し側プロセス（多重バリアント呼び出し側処理工程を含む）が始まり得る。第１のバリアント呼び出し側処理工程は、アラインメントデータの完全なセットが利用可能になるのを待つ。

図７Ｂは、本開示の一実施形態に従う二次分析の反復方法を図示する。示されるように、アラインメントおよびバリアント呼び出しは、リアルタイムで実行し、反復結果を生成する。処理は、固定された区間で予定され得る。その固定された区間は、Ｎ個の塩基の部分配列の到着を含み得る（ここでＮは、正の整数（例えば、１６）である）。例えば、処理は、１６塩基の区間で起こり得る。別の例として、処理は、１個、２個、４個、８個、１６個、３２個、６４個、１２８個、１５１個、またはこれより多くの塩基の区間で起こり得る。１つの実行において、処理は、１～１５２の間の任意の数の区間で、最も好ましくは１６±８の区間で起こり得る。一実施形態において、その区間は、１つの反復から別の反復まで変化し得る。配列決定システム（例えば、図１中の配列決定システム１００）は、図８で図示されるとおりの１６塩基の区間で配列リードを生成し得る。あるいは、各処理区間における塩基の数は、異なり得る。例えば、第１の区間は、１６塩基が配列決定された後に処理され得、第２の反復は、１８塩基が配列決定された後に処理され得る。反復における塩基の数は、１程度に低くてもよいし、リードにおける塩基の数程度に高くてもよい。

図７Ｂに記載されるプロセスは、ペアエンド配列決定技術が使用される場合、リード１セットまたはリード２セットに適用され得る。さらに、リード１セットを処理するときに捕捉された情報は、リード２セットに適用され得る。例えば、アラインメント工程を、リード１セットが配列決定される間にまたはその後に、従来の方法を使用して実行することは可能であり、この情報は、リード２ポリヌクレオチドが配列決定される場合に、リード２セットを処理するために使用され得る。

ここで図８を参照すると、一本鎖ポリヌクレオチドの多重リード８０４ａ～８０４ｄが、配列決定機器から生成され得る。これらの一本鎖ポリヌクレオチドは、長さが１５１塩基であり得る（塩基０から塩基１５０までとして言及される）。これら一本鎖ポリヌクレオチドの配列は、上記で記載される逐次合成配列決定を行う方法で決定され得る。１６回の配列決定サイクルの反復０（第１の反復）の後に、配列リードの１６塩基は、配列決定システムによって決定され得る。例えば、塩基０から塩基１５の配列リードは、リード０（８０４ａ）に関して生成され、塩基０～塩基１５の配列リードは、リード１（８０４ｂ）に関して決定されるなど。別の１６回の配列決定サイクルの反復１（第２の反復）の後に、配列のさらなる１６塩基が各リードに関して決定される。例えば、塩基１６から塩基３１は、リード０（８０４ａ）に関して生成される。配列決定システムは、各クラスターの塩基１２８から塩基１４３の配列リードが反復８において生成されるまで、１６塩基区間でリードを生成し続け得る。配列決定システムは、反復９（最後の反復）において各クラスターの塩基１４４から塩基１５１のリードを生成し得る。代替の実施形態において、各反復において生成される塩基の数は、異なり得る（反復あたりの塩基の数は、利用可能なコンピューティング資源によって決定される）。例えば、第１の処理区間は、１６塩基からなり得る一方で、第２の処理区間は、１８塩基からなり得る。処理区間における塩基の最小数は、１であり、処理区間における塩基の最大数は、リードの長さに等しい。

図７Ｂを参照すると、アラインメントは、図示されるように１６塩基の区間で起こり得る。バリアント呼び出しは、アラインメントが完了した後に、１６の区間で起こり得る。例えば、リアルタイム二次分析のための配列決定システムは、１．３時間ごとに配列リードの１６塩基を出力し得る。リアルタイム二次分析のために、アラインメントおよびバリアント呼び出しを行うために必要とされる合計時間は、ユーザーが配列リードの次の１６塩基が利用可能である前に行われたバリアント呼び出しへのアクセスを有し得るように、１．３時間以内であるべきである。

一実施形態において、処理は、固定された反復工程なしで、利用可能なコンピューター資源に関して可能な限り早く連続して起こり得る。分析は、自己調節し得、可能な限り配列決定進捗に近い。アラインメントおよびバリアント呼び出し結果は、必要に応じていつでも生成され得る。

代替の実施形態－アラインメント
図９Ａは、リアルタイム二次分析を行うための例示的方法９００のフローチャートである。方法９００は、２つのパスを含む：旧来の二次分析法の低信頼度・高コンピューテーションプロセシングパスおよび本開示の一実施形態に従う高信頼度・低コンピューテーションプロセシングパス。低信頼度・高プロセシングパスおよび高信頼度・低プロセシングパスは、それぞれ、青色のパスおよび黄色のパスとして本明細書で言及される。

低信頼度・高コンピューテーションプロセシングパスは、参照配列への各リードの配列アラインメントを含み得る。このパスに関して、リードの利用可能な反復からの全ての塩基は、そのリードを参照配列に整列させるために使用される。例えば、反復０および反復１が各々１６塩基からなる場合、３２塩基がアライナーによって処理される。多くの従来のアラインメント技術のうちの１つは、低信頼度・高コンピューテーションパスのために使用され得る。配列アラインメントが一旦完了した後、マッピングおよびアラインメント位置は、保存およびスコア付けされ得る。全てのリードが整列された後、バリアントが呼び出され得る。

方法９００は、高信頼度・低コンピューテーションプロセシングパスを追加することによって、二次分析の旧来の方法を改良する。反復０において、方法９００は、多くの配列決定サイクルが完了して、各リードの多くの塩基を生成するのを待つ。例えば、方法９００は、配列決定の１６サイクルが完了して、各リードの１６塩基を生成するのを待ち得る。反復０の間に、各リードの１６塩基は、低信頼度・高コンピューテーションプロセシングパスに従って分析および処理される。その旧来の方法は、青色のパスとして本明細書で言及される。反復１および任意のその後の反復の間に、各リードの次の１６塩基が、低信頼度・高コンピューテーションプロセシングパスまたは高信頼度・低コンピューテーションプロセシングパスのいずれかに従って分析される。そのリードが直前の反復において十分な信頼度で整列された場合、現在の反復の１６塩基は、高信頼度・低コンピューテーションプロセシングパスに従って分析される。そうでなければ、現在の反復の１６塩基は、高信頼度・低コンピューテーションプロセシングパスに従って分析される。

リードが直前の反復において十分な信頼度で整列された場合、現在の反復の１６塩基は、参照配列の次の１６塩基に整列される。このアラインメントは、単純アラインメントと本明細書でいわれ、これは、従来の配列アラインメントと比較して低い処理を要する。参照配列全体への配列アラインメントの代わりに、現在の反復の１６塩基と参照配列の次の１６塩基との間のミスマッチの数が、決定され得る。ミスマッチの数が閾値を上回る場合、その１６塩基の処理は、低信頼度・高コンピューテーションプロセシングパスに戻り得る。ｉｓＡｌｉｇｎｅｄ変数は、低信頼度・高プロセシングパスに戻る際に、０または偽に設定され得る。ミスマッチの数は、現在の反復の１６塩基または現在の反復および前の反復の全ての塩基に関して決定され得る。

ミスマッチの数が閾値を下回る場合、１６塩基の処理は、高信頼度・低コンピューテーションプロセシングパスの中に留まり得、特定のリードのアラインメント結果が保存され得る。代替の評価基準は、そのｉｓＡｌｉｇｎｅｄ変数が０または偽に設定されるか否かを決定するように系統立てられ得る。例えば、ミスマッチの数が閾値を下回る場合、（ＭＡＰｐｉｎｇＱｕａｌｉｔｙ）ＭａｐＱスコアが計算され得る。そのＭａｐＱスコアは、－１０ｌｏｇ_１０Ｐｒ｛ｍａｐｐｉｎｇｐｏｓｉｔｉｏｎｉｓｗｒｏｎｇ（マッピング位置は誤りである）｝に等価であり得、最も近い整数に丸められ得る。よって、現在マッピングされているあるランダムリードの確率が０．９９であった場合、そのＭａｐＱスコアは、２０（すなわち、０．０１＊－１０のｌｏｇ_１０）であるはずである。正確なマッチの確率が０．９９９に増大した場合、そのＭａｐＱスコアは、３０に増大する。逆に、正確なマッチの確率はゼロに向かう傾向にあるので、そのＭａｐＱスコアも同様である。

１６塩基の処理が高信頼度・低コンピューテーションプロセシングパスに留まる場合、リードは、積み重ねに寄与し得る（多重リードが参照配列の類似の位置に整列される場合、これらのリードが参照配列上で互いの上に「積み重なる」ようになる）。１６塩基の処理が、低信頼度・高コンピューテーションプロセシングパスに戻る場合、リードは、重ね合わせから除去され得る。一実施形態において、リードは、候補の数、配列アラインメント位置の総数が、閾値（例えば、１０００）より低い場合にのみ、低信頼度・高コンピューテーションプロセシングパスにおいて処理される。リードが処理される場合のアラインメントの結果は、保存される。

図９Ｂは、図９Ａに示される方法９００を使用して２つのプロセシングパスによって処理されるデータの量の概念プロットである。１６回の配列決定サイクルの後、各リードの１６塩基が、配列決定システムによって生成される。そのリードは、反復０の間に低信頼度・高コンピューテーションプロセシングパスにおいて全て処理される。３２回の配列決定サイクルの後に、その候補のうちのおよそ７５％が、反復１の後に整列されると考えられる。これらの候補は、反復２の間に高信頼度・低コンピューテーションプロセシングパスにおいて処理される。反復２の後に、その候補のうちのおよそ９０％が整列されると考えられ、反復３の間に、高信頼度・低コンピューテーションプロセシングパスにおいて処理される。リードが高信頼度・低コンピューテーションプロセシングパスにおいて処理される場合に、より少ないコンピューティングおよび処理が要求された。なぜなら単純アラインメントのみが要求されるからである。多くのデータが高信頼度・低コンピューテーションプロセシングパスにおいて処理されかつより少ない処理がこのパスにおいて要求されるので、要求される合計時間は、リードが低信頼度・高コンピューテーションプロセシングパスにおいて処置されるのみである場合より短い。従って、アラインメントおよびバリアント呼び出し結果は、配列決定機が実行を終了する前に得られ得る。これらの結果は、利用可能なコンピューティング資源に依存する時間区間でユーザーに提供され得る。よって、方法９００は、リアルタイム二次分析を可能にするために時間効率的様式において二次分析を行い得る。

図９Ｃは、図１０に記載されるアライナーの推定される実行時間改善を示す。「塩基」データは、図１０の中の「既存処理（ＥｘｉｓｔｉｎｇＰｒｏｃｅｓｓｉｎｇ）」（従来のまたは青色のパス）のみを使用して精製される。「リード１を載せる（ＬｏａｄＲｅａｄ１）」データは、リード１セットからのデータが整列され、事前に保存され、次いで、リード２セットにおけるデータの処置を加速するために利用される場合に、低下した処理サイクルを示す。方法９００は、高信頼度・低コンピューテーションプロセシングパスのために単純アライナーの２つのタイプ：正確なマッチをスキップする単純アライナーまたは単一のミスマッチをスキップする単純なアライナー、のうちの１つを実行し得る。単一のマッチをスキップする単純アライナーは、ゼロ個または単一のミスマッチを許容する。「正確なマッチをスキップする（ＳｋｉｐＥｘａｃｔＭａｔｃｈｅｓ）」データは、現在の反復の１６塩基が、以前に決定された参照位置における参照配列の１６塩基と正確にマッチすれば、従来の（青色の）パスがスキップされる場合に低下した処理サイクルを示す。「単一のミスマッチをスキップする（ＳｋｉｐＳｉｎｇｌｅＭｉｓｍａｔｃｈｅｓ）」データは、現在の反復の１６塩基が、せいぜい１個のミスマッチを有する以前に決定された参照位置において参照配列の１６塩基に整列されれば、従来の（青色の）パスがスキップされる場合に低下した処理サイクルを示す。図９Ｃは、ベースラインと比較して、方法９００は、単一のミスマッチが高信頼度・低コンピューテーションプロセシングパスにおいて検出されたときに従来の処理をスキップした単純アライナーを利用する場合、実行時間が３倍短縮されることを示す。これらの数字は全ての処理工程を含まないプロトタイププロセッサによって生成されたものであり、結果として、期待値の投影であることに注意のこと。

図１０は、リアルタイム二次分析を行うための例示的方法１０００の別のフローチャートである。方法１０００および図９Ａに示される方法９００は、同じ低信頼度・高コンピューテーションプロセシングパスおよび異なる高信頼度・低コンピューテーションプロセシングパスを実行し得る。方法１０００の高信頼度・低コンピューテーションプロセシングパスは、単純アラインメントの後にＭａｐＱスコアを生成し、ＭａｐＱスコアを使用して、高信頼度・低コンピューテーションプロセシングパスにおいて処理し続けるか、低信頼度・高プロセシングパスに戻るのかを決定する。

実行時間の高パーセンテージが、リードの小さなパーセンテージで起こる。いくつかの実施形態において、方法９００または方法１０００の低信頼度・高コンピューテーションプロセシングパスは、評価基準を使用して決定される場合の成功の信頼度が低い場合、整列および保存工程をスキップし得る。一実施形態において、評価基準が生成され得、この評価基準は、部分配列が参照配列に整列し得る候補位置の数を示す。アラインメント成功の信頼度は、候補位置の数が多い場合には低い。第２の実施形態において、アラインメント成功の信頼度は、配列における塩基の多様性が低い場合には低い。塩基の多様性は、例えば、部分配列における特有のｎマーの数を計数することによって決定され得、ここでそのｎマーは、部分配列自体の長さより短いかまたはその長さに等しい長さを有する部分配列における塩基の配列である。

代替の実施形態－バリアント呼び出し側
図１１Ａおよび図１１Ｂは、既存のバリアント呼び出し法、Ｓｔｒｅｌｋａスモールバリアント呼び出し側（図１１Ａ）、および本開示のバリアント呼び出し法（図１１Ｂ）の単純化したフロー図を示す。図１１Ａは、スモールバリアント呼び出し側が、入力としてアライナーから生成された積み重ね情報を使用することを示す。積み重ねから、スモールバリアント呼び出し側は、アクティブ領域として公知の配列バリエーションの領域を識別する。次に、デノボリアセンブリは、そのアクティブ領域に適用され得る。各ゲノム位置において、ゲノム位置における配列決定されたポリヌクレオチドが、Ａ、Ｃ、Ｔ、またはＧである可能性を決定するために、確率が生成される。これらの確率から、バリアントが検出され得る。

図１１Ｂは、本発明において開示されるとおりのバリアント呼び出し側の実施形態を示す。この実施形態において、ゲノム位置におけるポリヌクレオチドが高信頼度で決定され得るか否かを決定するために、評価基準が生成される。例えば、高信頼度決定は、所定のゲノム位置における全てのポリヌクレオチドが同じである場合に生成され得る。あるいは、高信頼度決定は、ゲノム位置における同じタイプのポリヌクレオチドの数が閾値より高い場合に、行われ得る。高信頼度を決定するための代替の評価基準はまた、実行され得る。ポリヌクレオチドが高信頼度で決定され得る場合、その確率の系統立て（ｆｏｒｍｕｌａｔｉｏｎｏｆｔｈｅｐｒｏｂａｂｉｌｉｔｉｅｓ）は、スキップされ得、単純バリアント呼び出し工程が実行され得る。例えば、単純バリアント呼び出し側は、高信頼度で検出される任意のバリアントを呼び出し得る。

確率工程の生成および既存のバリアント呼び出し法のバリアント呼び出し工程は、合わせて、バリアント呼び出し側のコンピューティングおよび処理のうちの４０％までを要求し得る。図１１Ｂは、既存のバリアント呼び出し法の低信頼度・高コンピューテーションプロセシングパス、および高信頼度・低コンピューテーションプロセシングパスの両方を実行するバリアント呼び出し法１１００を示す。高信頼度・低コンピューテーションプロセシングパスを追加することによって、Ｓｔｒｅｌｋａバリアント呼び出し側を最適化し、処理を４０％近く減少させた。高信頼度・低コンピューテーションプロセシングパスは、代替のバリアント呼び出し側に追加され得る。

図７Ｂに示されるように、バリアント呼び出し側は、反復処理ウインドウ内で実行され得る。図１１Ａまたは図１１Ｂのバリアント呼び出し側は、反復処理ウインドウ内で反復して実行され得る。さらに、バリアント呼び出し側の１より多くのタイプが、反復処理ウインドウ内で実行され得る。例えば、スモールバリアント呼び出し側（例えば、Ｓｔｒｅｌｋａ）、および代替のバリアント呼び出し側（例えば、構造バリアント呼び出し側またはコピー数バリアント呼び出し側）は、反復処理ウインドウ内で実行され得る。

以前に記載された実施形態のうちの少なくともいくつかにおいて、ある実施形態において使用される１またはこれより多くの要素は、このような置き換えが技術的に可能でないのでなければ、別の実施形態において交換可能に使用され得る。種々の他の省略、追加および改変が、特許請求された主題の範囲から逸脱することなく、上記の方法および構造に対して行われ得ることは、当業者によって認識される。全てのこのような改変および変更は、添付の特許請求の範囲によって規定されるように、主題の範囲内に入ることが意図される。

本明細書での実質的に任意の複数形および／または単数形の用語の使用に関しては、当業者は、状況および／または適用に適している場合には、複数形から単数形および／または単数形から複数形へと解釈し得る。種々の単数形／複数形の入れ替えは、明瞭性のために、本明細書で明示的に示され得る。

一般に、本明細書で使用される用語、および特に添付の特許請求の範囲（例えば、添付の特許請求項の範囲の本体部分）において使用される用語が、概して「非限定の（ｏｐｅｎ）」用語として意図される（例えば、用語「含む、包含する（ｉｎｃｌｕｄｉｎｇ）」は、「が挙げられるが、これらに限定されない（ｉｎｃｌｕｄｉｎｇｂｕｔｎｏｔｌｉｍｉｔｅｄｔｏ）」と解釈されるべきであり、用語「有する（ｈａｖｉｎｇ）」は、「少なくとも有する（ｈａｖｉｎｇａｔｌｅａｓｔ）」と解釈されるべきであり、用語「含む、包含する（ｉｎｃｌｕｄｅｓ）」は、「が挙げられるが。これらに限定されない（ｉｎｃｌｕｄｅｓｂｕｔｉｓｎｏｔｌｉｍｉｔｅｄｔｏ）」と解釈されるべきである、など）は、当業者によって理解される。導入された請求項の記載の具体的数字が意図される場合、このような意図が請求項の中で明示的に記載され、そしてこのような記載がない場合には、このような意図が存在しないことは、当業者によってさらに理解される。例えば、理解の助けとして、以下の添付の特許請求の範囲は、請求項の記載を導入するために導入句「少なくとも１（ａｔｌｅａｓｔｏｎｅ）」および「１またはこれより多く（ｏｎｅｏｒｍｏｒｅ）」の使用を含み得る。しかし、このような語句の使用は、不定冠詞「１つの、ある（ａ）」または「１つの、ある（ａｎ）」による請求項の記載の導入が、同じ請求項が導入句「１またはこれより多く」または「少なくとも１」、および「１つの、ある（ａ）」または「１つの、ある（ａｎ）」のような不定冠詞を含む場合にすら、このような導入された請求項の記載を含む任意の特定の請求項を、１つのみのこのような記載を含む実施形態に限定することを示唆するとは解釈されるべきでない（例えば、「１つの、ある（ａ）」および／または「１つの、ある（ａｎ）」は、「少なくとも１」または「１またはこれより多く」を意味すると解釈されるべきである）；請求項の記載を導入するために使用される定冠詞の使用に関しても同じことが当てはまる。さらに、導入された請求項の記載の具体的な数が明示的に記載されている場合ですら、当業者は、このような記載が少なくともその記載された数を意味すると解釈されるべきであることを認識する（例えば、「２つの記載（ｔｗｏｒｅｃｉｔａｔｉｏｎｓ）」というそのままの記載は、他の修飾語がなければ、少なくとも２つの記載、または２またはこれより多くの記載を意味する）。さらに、「Ａ、Ｂ、およびＣのうちの少なくとも１つなど（ａｔｌｅａｓｔｏｎｅｏｆＡ，Ｂ，ａｎｄＣ，ｅｔｃ．）」に類似の慣例が使用されるそれらの場合には、概してこのような解釈は、当業者がその慣例を理解する意味において意図される（例えば、「Ａ、Ｂ、およびＣのうちの少なくとも１つを有するシステム（ａｓｙｓｔｅｍｈａｖｉｎｇａｔｌｅａｓｔｏｎｅｏｆＡ，Ｂ，ａｎｄＣ）」は、Ａのみ、Ｂのみ、Ｃのみ、ＡおとびＢを一緒に、ＡおよびＣを一緒に、ＢおよびＣを一緒に、ならびに／またはＡ、Ｂ、およびＣを一緒に有するシステムが挙げられるがこれらに限定されない、など）。「Ａ、Ｂ、およびＣのうちの少なくとも１つなど」に類似の慣例が使用されるそれらの場合において、概してこのような解釈は、当業者がその慣例を理解する意味において意図される（例えば、「Ａ、Ｂ、およびＣのうちの少なくとも１つを有するシステム」は、Ａのみ、Ｂのみ、Ｃのみ、ＡおとびＢを一緒に、ＡおよびＣを一緒に、ＢおよびＣを一緒に、ならびに／またはＡ、Ｂ、およびＣを一緒に有するシステムが挙げられるがこれらに限定されない、など）。実質的に任意の離節語、および／または２またはこれより多くの選択肢的な用語を表す語句は、説明の中であろうが、請求項の中であろうが、図面の中であろうが、その用語のうちの一方、その用語のうちのいずれか、または両方の用語を含むという可能性を企図することが理解されるべきであることは、当業者によってさらに理解される。例えば、語句「ＡまたはＢ（ＡｏｒＢ）」は、「Ａ」もしくは「Ｂ」、または「ＡおよびＢ」の可能性を含むことが理解される。

さらに、本開示の特徴および局面が、マーカッシュグループに関して記載される場合、当業者は、本開示がまたそれによって、マーカッシュグループの任意の個々のメンバーまたはメンバーの下位グループに関して記載されることを認識する。

当業者によって理解されるように、任意のおよび全ての目的のために、例えば、書面による説明を提供するという点から、本明細書で開示される全ての範囲はまた、任意のおよび全ての考えられる部分範囲およびその部分範囲の組み合わせを包含する。任意の列挙された範囲は、十分に記載されておりかつその同じ範囲が少なくとも１／２、１／３、１／４、１／５、１／１０などへと分解されることを可能にすると容易に理解され得る。非限定的な例として、本明細書で考察される各範囲は、下１／３、中央１／３、および上１／３などへと容易に分解され得る。同様に当業者によって理解されるように、「まで」、「少なくとも」、「より大きい」、「より小さい」などのような全ての文言は、記載される数字を含み、上記で考察されるように部分範囲へとその後に分解され得る範囲に言及する。最後に、当業者によって理解されるように、範囲は、各個々のメンバーを含む。従って、例えば、１～３個の物品を有する群は、１個、２個、または３個の物品を有する群に言及する。同様に、１～５個の物品を有する群は、１個、２個、３個、４個または５個の物品を有する群に言及するなど。

種々の局面および実施形態が本明細書で開示されてきたが、他の局面および実施形態が当業者に明らかである。本明細書で開示される種々の局面および実施形態は、例証目的であり、限定するとは意図されず、その真の範囲および趣旨は、以下の特許請求の範囲によって示される。

Claims

ポリヌクレオチドを配列決定するためのシステムであって、
ポリヌクレオチドのヌクレオチド配列を決定するように構成された配列決定装置と、
前記配列決定装置を制御し、かつ以下を含む方法を行う命令を実行するように構成されたプロセッサであって、前記方法が、
前記ポリヌクレオチドの第１のヌクレオチド部分配列を受け取る工程と、
前記第１のヌクレオチド部分配列が、第１の信頼度で参照配列に整列するかどうかを決定する工程と、
前記配列決定装置から前記ポリヌクレオチドの第２のヌクレオチド部分配列を受け取る工程であって、前記第２のヌクレオチド部分配列が、前記第１のヌクレオチド部分配列に加えて、１つまたは複数の追加のヌクレオチドを含む、工程と、
前記第１のヌクレオチド部分配列が、前記第１の信頼度で前記参照配列に整列する場合に、前記第２のヌクレオチド部分配列中の前記１つまたは複数の追加のヌクレオチドを、前記参照配列と比較する工程と
を含む、プロセッサと
を含む、システム。
前記第１の信頼度は、ミスマッチの数または正確なマッチの確率に依存する、請求項１に記載のシステム。
前記第１のヌクレオチド部分配列は、長さが１つまたは複数のヌクレオチドである、請求項１に記載のシステム。
前記第２のヌクレオチド部分配列は、長さが１つまたは複数のヌクレオチドである、請求項１記載のシステム。
前記第２のヌクレオチド部分配列中の前記１つまたは複数の追加のヌクレオチドを、前記参照配列と比較する工程は、単純アラインメントプロセスを含み、前記単純アラインメントプロセスは、前記第１のヌクレオチド部分配列を前記参照配列に整列させるのに用いられるプロセスよりも、メモリ使用量またはコンピューテーションオペレーションの回数において計算上効率的である、請求項１記載のシステム。
前記プロセッサは、前記第１のヌクレオチド部分配列と前記参照配列との比較から得られる第１の複数の候補位置のうちの少なくとも１つに相当するデータを保存するようにさらに構成される、請求項１に記載のシステム。
前記プロセッサは、前記第２のヌクレオチド部分配列と前記参照配列との比較から得られる第２の複数の候補位置のうちの少なくとも１つに相当するデータを保存するようにさらに構成される、請求項１に記載のシステム。
前記プロセッサは、前記単純アライメントプロセスに基づいて、ＭａｐＱスコアを決定するようにさらに構成される、請求項５に記載のシステム。
前記第２のヌクレオチド部分配列中の前記１つまたは複数の追加のヌクレオチドを、前記参照配列と比較する工程は、前記第１の複数の候補位置に基づいて、前記第２のヌクレオチド部分配列を、前記参照配列上の前記第２のヌクレオチド部分配列の相当する配列と比較することを含む、請求項６に記載のシステム。
前記プロセッサは、前記第２の複数の候補位置の各々についてマッピング品質（ＭａｐＱ）スコアを決定するようにさらに構成される、請求項７に記載のシステム。
前記第１のヌクレオチド部分配列が前記参照配列と整列するかどうかの決定が、配列決定反応が完了する前に開始される、請求項１に記載のシステム。
前記プロセッサは、前記第１のヌクレオチド部分配列または前記第２のヌクレオチド部分配列に対してバリアント呼び出しを行うようにさらに構成される、請求項１に記載のシステム。
前記バリアント呼び出しを実行することは、
第１のバリアント呼び出しプロセスまたは第２のバリアント呼び出しプロセスを用いてバリアント呼び出しを行う工程であって、前記第２のバリアント呼び出しプロセスは、前記第２のヌクレオチド部分配列のバリアント呼び出しにおいて、前記第１のバリアント呼び出しプロセスよりも計算上効率的である、工程を含む、請求項１２に記載のシステム。
前記バリアント呼び出しは、バリアント呼び出し評価基準に基づいて、前記第１のヌクレオチド部分配列と前記参照配列との整列に用いられるプロセス、または前記第２のヌクレオチド部分配列中の前記１つまたは複数の追加のヌクレオチドと前記参照配列との比較に用いられるプロセスの出力を用いて行われる、請求項１２に記載のシステム。
バリアント呼び出し評価基準は、前記参照配列の位置において呼び出される多くの異なる塩基タイプに基づいて決定される、請求項１４に記載のシステム。
前記第２のヌクレオチド部分配列の処理は、配列決定反応が完了する前に開始される、請求項１に記載のシステム。
前記配列決定装置が、逐次合成配列決定を行う、請求項１記載のシステム。
ヌクレオチド部分配列を有するポリヌクレオチドの配列を決定するための、コンピュータに実装された方法であって、
配列決定実行の間に、リードの第１のヌクレオチド部分配列を、配列決定装置から受け取る工程と、
第１の処理または第２の処理を用いて、参照配列に基づいて前記リードの前記第１のヌクレオチド部分配列の二次分析を行う工程であって、前記第２の処理は、前記二次分析を行うにあたって、前記第１の処理よりも計算上効率的であり、かつ前記二次分析は、
前記第１のヌクレオチド部分配列と前記参照配列とを比較して、前記参照配列の第１の部分配列を決定する工程と、
前記配列決定装置が追加のヌクレオチドリードを生成すべきかどうかを決定する工程と
を含む、工程と
を含む、方法。
前記二次分析を行うことが、前記参照配列上の前記リードの第１の複数の候補位置を決定するために、前記第１のヌクレオチド部分配列を処理することであって、
前記リードが前の反復において前記参照配列に整列されない場合には、前記第１の処理、
それ以外の場合には、前記第２の処理
を使用し、前記第２の処理は、前記リードの前記第１の複数の候補位置を決定するために、前記第１の処理よりも計算上効率的である、請求項１８に記載の方法。
前記第２の処理を用いて前記第１のヌクレオチド部分配列を処理することが、ＭａｐＱスコアを決定するために単純アラインメントを行うことを含む、請求項１９に記載の方法。
前記二次分析の結果が、前記第１の処理の出力、前記第２の処理の出力、またはそれらの任意の組み合わせを含む、請求項１９に記載の方法。
前記二次分析を行う工程が、
第１のバリアント呼び出しプロセスまたは第２のバリアント呼び出しプロセスを用いて、前記第１の処理または前記第２の処理の出力に対して、バリアント呼び出しを行う工程であって、前記第２のバリアント呼び出し処理が、前記第１のヌクレオチド部分配列のバリアント呼び出しにおいて、前記第１のバリアント呼び出しプロセスよりも計算上効率的である、工程
を含む、前記第１のヌクレオチド部分配列のバリアント呼び出しを行うことを含む、請求項１８に記載の方法。
前記二次分析の結果が、第１のバリアント呼び出しプロセスの出力、第２のバリアント呼び出しプロセスの出力、またはそれらの任意の組み合わせを含む、請求項２２に記載の方法。
前記配列決定実行の間に、前記二次分析の結果をユーザーに提供する工程をさらに含む、請求項１８に記載の方法。
前記二次分析の結果は、固定された区間で前記ユーザーに提供される、請求項２４に記載の方法。
前記二次分析の結果は、前記ユーザーの要求に応じて、前記ユーザーに提供される、請求項２４に記載の方法。
前記二次分析を行う工程は、前記配列決定実行の前の配列決定区間からの結果に基づいて、前記リードの前記第１のヌクレオチド部分配列の二次分析を行うことを含む、請求項１８に記載の方法。
請求項１８～２７のいずれかに記載の方法をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体。
請求項１～１７のいずれかに記載のシステムの機能をコンピュータに実現させるプログラムを記録したコンピュータ読取可能な記録媒体。