JP2023539544A

JP2023539544A - 人工知能予測ベースコールに基づいたクラスターの検出及びフィルタリング

Info

Publication number: JP2023539544A
Application number: JP2022581614A
Authority: JP
Inventors: ドルナ・カシフハギギ; ギャヴィン・デレク・パーナビー
Original assignee: イルミナインコーポレイテッド
Priority date: 2020-08-28
Filing date: 2021-08-26
Publication date: 2023-09-15
Also published as: WO2022047038A1; EP4205123A1; CA3184598A1; KR20230058319A; AU2021332341A1; US20220067489A1; CN115769301A; IL299034A

Abstract

開示された技術は、信頼できないクラスターを識別して、ベースコールの精度及び効率を改善することに関する。開示された技術は、複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第１のサブセットに対するサイクルごとのクラスターデータにアクセスすることと、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するサイクルごとの確率四分位数を生成することを含む、配列決定サイクルの第１のサブセット内のそれぞれの配列決定サイクルにおいて複数のクラスターの中のそれぞれのクラスターをベースコールすることと、を含む。開示された技術は、それぞれのクラスターごと、サイクルごとの確率四分位数が識別する確率に基づいて、それぞれのクラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することと、複数のクラスターの中の、フィルタ値の配列が閾値「Ｍ」を下回る少なくとも「Ｎ」個のフィルタ値を含むクラスターを信頼できないクラスターとして識別することと、配列決定動作の配列決定サイクルの残りにおける信頼できないクラスターのベースコールをバイパスすることと、を含む。

Description

優先権出願
本出願は、２０２０年８月２８日に出願された「ＤＥＴＥＣＴＩＮＧＡＮＤＦＩＬＴＥＲＩＮＧＣＬＵＳＴＥＲＳＢＡＳＥＤＯＮＡＲＴＩＦＩＣＩＡＬＩＮＴＥＬＬＩＧＥＮＣＥ－ＰＲＥＤＩＣＴＥＤＢＡＳＥＣＡＬＬＳ」と題する米国特許仮出願第６３／０７２，０３２号（代理人整理番号ＩＬＬＭ１０１８－１／ＩＰ－１８６０－ＰＲＶ）の利益を主張する、２０２１年８月２５日に出願された「ＤＥＴＥＣＴＩＮＧＡＮＤＦＩＬＴＥＲＩＮＧＣＬＵＳＴＥＲＳＢＡＳＥＤＯＮＡＲＴＩＦＩＣＩＡＬＩＮＴＥＬＬＩＧＥＮＣＥ－ＰＲＥＤＩＣＴＥＤＢＡＳＥＣＡＬＬＳ」と題する米国特許第１７／４１１，９８０号（代理人整理番号ＩＬＬＭ１０１８－２／ＩＰ－１８６０－ＵＳ）の優先権を主張する。該優先権出願は、参照により本明細書に組み込まれる。

組み込み
以下は、本明細書に完全に記載されているかのように、全ての目的のために参照により組み込まれる。
２０１９年３月２１日に出願された「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許仮出願第６２／８２１，６０２号（代理人整理番号ＩＬＬＭ１００８－１／ＩＰ－１６９３－ＰＲＶ）、
２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＧｅｎｅｒａｔｉｏｎｏｆＳｅｑｕｅｎｃｉｎｇＭｅｔａｄａｔａ」と題する米国特許仮出願第６２／８２１，６１８号（代理人整理番号ＩＬＬＭ１００８－３／ＩＰ－１７４１－ＰＲＶ）、
２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する米国特許仮出願第６２／８２１，６８１号（代理人整理番号ＩＬＬＭ１００８－４／ＩＰ－１７４４－ＰＲＶ）、
２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＱｕａｌｉｔｙＳｃｏｒｉｎｇ」と題する米国特許仮出願第６２／８２１，７２４号（代理人整理番号ＩＬＬＭ１００８－７／ＩＰ－１７４７－ＰＲＶ）、
２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許仮出願第６２／８２１，７６６号（代理人整理番号ＩＬＬＭ１００８－９／ＩＰ－１７５２－ＰＲＶ）、
２０１９年６月１４日に出願された「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する蘭国特許出願第２０２３３１０号（代理人整理番号ＩＬＬＭ１００８－１１／ＩＰ－１６９３－ＮＬ）、
２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＧｅｎｅｒａｔｉｏｎｏｆＳｅｑｕｅｎｃｉｎｇＭｅｔａｄａｔａ」と題する蘭国特許出願第２０２３３１１号（代理人整理番号ＩＬＬＭ１００８－１２／ＩＰ－１７４１－ＮＬ）、
２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する蘭国特許出願第２０２３３１２号（代理人整理番号ＩＬＬＭ１００８－１３／ＩＰ－１７４４－ＮＬ）、
２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＱｕａｌｉｔｙＳｃｏｒｉｎｇ」と題する蘭国特許出願第２０２３３１４号（代理人整理番号ＩＬＬＭ１００８－１４／ＩＰ－１７４７－ＮＬ）、
２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する蘭国特許出願第２０２３３１６号（代理人整理番号ＩＬＬＭ１００８－１５／ＩＰ－１７５２－ＮＬ）、
２０１９年５月１６日に出願された「ＳｙｓｔｅｍｓａｎｄＤｅｖｉｃｅｓｆｏｒＣｈａｒａｃｔｅｒｉｚａｔｉｏｎａｎｄＰｅｒｆｏｒｍａｎｃｅＡｎａｌｙｓｉｓｏｆＰｉｘｅｌ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許仮出願第６２／８４９，０９１号（代理人整理番号ＩＬＬＭ１０１１－１／ＩＰ－１７５０－ＰＲＶ）、
２０１９年５月１６日に出願された「ＢａｓｅＣａｌｌｉｎｇＵｓｉｎｇＣｏｎｖｏｌｕｔｉｏｎｓ」と題する米国特許仮出願第６２／８４９，１３２号（代理人整理番号ＩＬＬＭ１０１１－２／ＩＰ－１７５０－ＰＲ２）、
２０１９年５月１６日に出願された「ＢａｓｅＣａｌｌｉｎｇＵｓｉｎｇＣｏｍｐａｃｔＣｏｎｖｏｌｕｔｉｏｎｓ」と題する米国特許仮出願第６２／８４９，１３３号（代理人整理番号ＩＬＬＭ１０１１－３／ＩＰ－１７５０－ＰＲ３）、
２０２０年２月２０日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇｏｆＩｎｄｅｘＳｅｑｕｅｎｃｅｓ」と題する米国特許仮出願第６２／９７９，３８４号（代理人整理番号ＩＬＬＭ１０１５－１／ＩＰ－１８５７－ＰＲＶ）、
２０２０年２月２０日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＭａｎｙ－Ｔｏ－ＭａｎｙＢａｓｅＣａｌｌｉｎｇ」と題する米国特許仮出願第６２／９７９，４１４号（代理人整理番号ＩＬＬＭ１０１６－１／ＩＰ－１８５８－ＰＲＶ）、
２０２０年２月２０日に出願された「ＫｎｏｗｌｅｄｇｅＤｉｓｔｉｌｌａｔｉｏｎ－ＢａｓｅｄＣｏｍｐｒｅｓｓｉｏｎｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｅｒ」と題する米国特許仮出願第６２／９７９，３８５号（代理人整理番号ＩＬＬＭ１０１７－１／ＩＰ－１８５９－ＰＲＶ）、
２０２０年２月２０日に出願された「Ｍｕｌｔｉ－ＣｙｃｌｅＣｌｕｓｔｅｒＢａｓｅｄＲｅａｌＴｉｍｅＡｎａｌｙｓｉｓＳｙｓｔｅｍ」と題する米国特許仮出願第６２／９７９，４１２号（代理人整理番号ＩＬＬＭ１０２０－１／ＩＰ－１８６６－ＰＲＶ）、
２０２０年２月２０日に出願された「ＤａｔａＣｏｍｐｒｅｓｓｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する米国特許仮出願第６２／９７９，４１１号（代理人整理番号ＩＬＬＭ１０２９－１／ＩＰ－１９６４－ＰＲＶ）、及び
２０２０年２月２０日に出願された「ＳｑｕｅｅｚｉｎｇＬａｙｅｒｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する米国特許仮出願第６２／９７９，３９９号（代理人整理番号ＩＬＬＭ１０３０－１／ＩＰ－１９８２－ＰＲＶ）。

開示される技術は、人工知能型コンピュータ及びデジタルデータ処理システム、並びに知能（すなわち、知識ベースのシステム、推論システム、及び知識取得システム）を模倣するための対応するデータ処理方法及び製品に関し、不確実性を伴う推論のためのシステム（例えば、ファジーロジックシステム）、適応システム、機械学習システム、及び人工ニューラルネットワークを含む。具体的には、開示される技術は、データを分析するための深層畳み込みニューラルネットワークなどの深層ニューラルネットワークを使用することに関する。

このセクションで考察される主題は、単にこのセクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、このセクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。このセクションの主題は、単に、異なるアプローチを表し、それ自体はまた、特許請求される技術の実施態様に対応し得る。

ベースコールは、リードの位置ごとに塩基及び関連する品質値を割り当てる。配列決定された塩基の品質は、チャスティティフィルタと呼ばれる手順を伴うＩｌｌｕｍｉｎａシーケンサによって評価される。チャスティティは、最高強度値を最高強度値と２番目に高い強度値との合計で割ったものとして決定され得る。品質評価は、ベースコールの第１のサブセット内の２番目に悪いチャスティティが閾値未満であるリードを識別することと、それらのリードを不良品質データとしてマーキングすることと、を含み得る。ベースコールの第１のサブセットは、任意の好適な数のベースコールであり得る。例えば、サブセットは、最初の１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、又は最初の２５ベースコールを超えてもよい。これは、リードフィルタリングと呼ばれる場合があり、そのため、このカットオフを満たすクラスターは、「フィルタを通過」したものと称される。

いくつかの実施態様では、それぞれのクラスターからの信号の純度は、最初の２５サイクルにわたって検査され、チャスティティ値として計算される。最大１サイクルはチャスティティ閾値（例えば、０．６）を下回ってもよく、そうでなければ、リードはチャスティティフィルタを通過しない。

Ｉｌｌｕｍｉｎａは、ベースコールのエラー確率の評価を記憶するために使用されるＰｈｒｅｄスコアを計算する。Ｐｈｒｅｄスコアは、強度プロファイル（シフトされた純度：最も明るいチャンネルが占めるシグナルの量は？）及び信号対ノイズ比（背景と重なる信号：コロニーからの信号は、フローセルの周辺領域から十分に線引きされているか？）に基づいて計算される。Ｉｌｌｕｍｉｎａは、最も強い塩基信号のチャスティティ、所与のベースコールの信号が近くの塩基の信号よりはるかに強いかどうか、配列決定の過程でコロニーを表すスポットが疑わしいほど曖昧であるかどうか（強度減衰）、並びに先行サイクル及び後続サイクルにおける信号がきれいに見えるかどうかを定量化しようとする。

人工知能予測ベースコールに基づいて、信頼できないクラスターを検出し、フィルタリングする機会が生まれる。結果としてベースコールの精度及び品質が改善され得る。

図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺どおりではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明において、開示された技術の様々な実施態様は、以下の図面を参照して説明される。
開示された技術の様々な態様を示すブロック図である。例示的なソフトマックス関数を示す。開示された技術によって生成される例示的なクラスターごと、サイクルごとの確率四分位数を示す。フィルタ値を使用して信頼できないクラスターを識別する例を示す。ベースコールｄの精度及び効率を改善するために信頼できないクラスターを識別する方法の一実施態様を示すフロー図である。配列決定システムの一実施態様を示す。配列決定システムは、構成可能なプロセッサを含む。配列決定システムの一実施態様を示す。配列決定システムは、構成可能なプロセッサを含む。ベースコールセンサー出力などの、配列決定システムからのセンサーデータの分析のためのシステムの簡略ブロック図である。ホストプロセッサが、構成可能プロセッサ上で動作するニューラルネットワークによって予測されるベースコールに基づいて信頼できないクラスターをフィルタリングすることを可能にし、更に、構成可能プロセッサが、信頼できないクラスターを識別するデータを使用して信頼できる残りの中間表現を生成することを可能にする、開示されたデータフローロジックの一実施態様を示す。ホストプロセッサが、構成可能プロセッサ上で動作するニューラルネットワークによって予測されるベースコールに基づいて信頼できないクラスターをフィルタリングすることを可能にし、更に、ホストプロセッサが、信頼できないクラスターを識別するデータを使用して信頼できるクラスターのみをベースコールすることを可能にする、開示されたデータフローロジックの別の実施態様を示す。ホストプロセッサが、構成可能プロセッサ上で動作するニューラルネットワークによって予測されるベースコールに基づいて信頼できないクラスターをフィルタリングすることを可能にし、更に信頼できないクラスターを識別するデータを使用して、信頼できる残りのクラスターごとのデータを生成する、開示されたデータフローロジックの更に別の実施態様を示す。本明細書で「ＤｅｅｐＲＴＡ」と称される開示された技術と、Ｒｅａｌ－ＴｉｍｅＡｎａｌｙｓｉｓ（ＲＴＡ）ソフトウェアと呼ばれるＩｌｌｕｍｉｎａの従来のベースコーラーとの対比による空のウェル及び非空ウェルの検出の比較分析の結果を示す。本明細書で「ＤｅｅｐＲＴＡ」と称される開示された技術と、Ｒｅａｌ－ＴｉｍｅＡｎａｌｙｓｉｓ（ＲＴＡ）ソフトウェアと呼ばれるＩｌｌｕｍｉｎａの従来のベースコーラーとの対比による空のウェル及び非空ウェルの検出の比較分析の結果を示す。本明細書で「ＤｅｅｐＲＴＡ」と称される開示された技術と、Ｒｅａｌ－ＴｉｍｅＡｎａｌｙｓｉｓ（ＲＴＡ）ソフトウェアと呼ばれるＩｌｌｕｍｉｎａの従来のベースコーラーとの対比による空のウェル及び非空ウェルの検出の比較分析の結果を示す。本明細書で「ＤｅｅｐＲＴＡ」と称される開示された技術と、Ｒｅａｌ－ＴｉｍｅＡｎａｌｙｓｉｓ（ＲＴＡ）ソフトウェアと呼ばれるＩｌｌｕｍｉｎａの従来のベースコーラーとの対比による空のウェル及び非空ウェルの検出の比較分析の結果を示す。本明細書で「ＤｅｅｐＲＴＡ」と称される開示された技術と、Ｒｅａｌ－ＴｉｍｅＡｎａｌｙｓｉｓ（ＲＴＡ）ソフトウェアと呼ばれるＩｌｌｕｍｉｎａの従来のベースコーラーとの対比による空のウェル及び非空ウェルの検出の比較分析の結果を示す。開示された技術を実装するために使用され得るコンピュータシステムである。

以下の考察は、開示される技術を当業者が作製及び使用することを可能にするために提示され、特定の用途及びその要件に関連して提供される。開示される実施態様に対する様々な修正は、当業者には容易に明らかとなり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、他の実施態様及び用途に適用され得る。したがって、開示される技術は、示される実施態様に限定されることを意図するものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。

本開示は、信頼できないクラスターの検出及びフィルタリングに特に有用な人工知能ベースの画像分析の方法及びシステムを提供する。図１は、例示的なデータ分析及びフィルタリングシステム、並びにその構成要素の一部を示す。システムは、画像生成システム１３２、サイクルごとのクラスターデータ１１２、データプロバイダ１０２、ニューラルネットワークベースのベースコーラー１０４、確率四分位数１０６、検出及びフィルタリングロジック１４６、並びに信頼できないクラスター１２４を識別するデータを含む。システムは、１つ以上のプログラムされたコンピュータによって形成され得、本明細書に記載される方法の１つ以上の工程を行うために実行されるコードを有するプログラミングが、１つ以上の機械可読媒体上に記憶されている。例えば、図示された実施態様では、システムは、サイクルごとのクラスターデータ１１２をデジタル画像データ、例えば、一緒にアレイ又は他のオブジェクトの画像を形成する個々の画素又はピクセルを表す画像データとして出力するように構成された画像生成システム１３２を含む。

（ニューラルネットワークベースのベースコール）
ベースコールは、配列のヌクレオチド組成を決定するプロセスである。ベースコールは、ＩｌｌｕｍｉｎａのｉＳｅｑ、ＨｉＳｅｑＸ、ＨｉＳｅｑ３０００、ＨｉＳｅｑ４０００、ＨｉＳｅｑ２５００、ＮｏｖａＳｅｑ６０００、ＮｅｘｔＳｅｑ５５０、ＮｅｘｔＳｅｑ１０００、ＮｅｘｔＳｅｑ２０００、ＮｅｘｔＳｅｑＤｘ、ＭｉＳｅｑ、及びＭｉＳｅｑＤｘなどの配列決定機器によって行われる、配列決定反応中に生成された画像データ、すなわち配列決定画像の分析を伴う。以下の説明は、一実施態様に従って、配列決定画像がどのように生成され、それらが何を描写するのかを概説する。

ベースコールは、配列決定機器の生信号、すなわち、配列決定画像から抽出された強度データをヌクレオチド配列にデコードする。一実施態様では、Ｉｌｌｕｍｉｎａプラットフォームは、ベースコールのための環状可逆終端（Cyclic Reversible Termination、ＣＲＴ）化学を採用する。このプロセスは、新たに添加された各ヌクレオチドの放出信号を追跡しながら、蛍光標識されたヌクレオチドを有するテンプレート鎖に相補的な新生鎖を伸長させることに依存する。蛍光標識されたヌクレオチドは、ヌクレオチド型のフルオロフォア信号をアンカーする３’除去可能ブロックを有する。

配列決定は、反復サイクルで行われ、各々は３つの工程、つまり、（ａ）蛍光標識されたヌクレオチドを添加することによる出現鎖の伸長と、（ｂ）配列決定機器の光学システムの１以上のレーザを使用してフルオロフォアを励起させ、光学システムの異なるフィルタを通した撮像によって配列決定画像を生成することと、（ｃ）次の配列決定サイクルに備えてフルオロフォアを切断し、３’ブロックを除去することと、の３つの工程を各々含む反復サイクルで行われる。取り込み及び撮像サイクルは、指定された数の配列決定サイクルまで繰り返され、リード長を定義する。このアプローチを使用して、各サイクルはテンプレート鎖に沿って新しい位置を照合する。

Ｉｌｌｕｍｉｎａシーケンサの膨大な能力は、数百万又は更には数十億ものクラスター（例えば、クラスター）のＣＲＴ反応を同時に実行及び検知する能力に起因する。クラスターは、テンプレート鎖の約１０００個の同一のコピーを含むが、クラスターのサイズ及び形状は様々である。クラスターは、配列決定ラン前に、入力ライブラリのブリッジ増幅又は排除増幅によって、テンプレートストランドから成長させる。増幅及びクラスター伸長の目的は、撮像デバイスが一本鎖のフルオロフォア信号を確実に感知することができないため、放出される信号の強度を増加させることである。しかしながら、クラスター内の鎖の物理的距離は小さいため、撮像デバイスは鎖のクラスターを単一のスポットとして知覚する。

配列決定は、フローセル、つまり入力鎖を保持する小さいガラススライドの中で行われる。フローセルは、顕微鏡撮像、励起レーザ、及び蛍光フィルタを含む光学システムに接続される。フローセルは、レーンと呼ばれる複数のチャンバを含む。レーンは互いに物理的に分離されており、試料の交差汚染なしに区別可能な異なるタグ付き配列決定ライブラリを含むことができる。配列決定機器の撮像デバイス（例えば、電荷結合素子（Charge-Coupled Device、ＣＣＤ）又は相補的金属酸化物半導体（Complementary Metal-Oxide-Semiconductor、ＣＭＯＳ）センサーなどの固体撮像素子）は、タイルと呼ばれる一連の非重複領域において、レーンに沿った複数の場所でスナップショットを取る。例えば、ＩｌｌｕｍｉｎａのＧｅｎｏｍｅＡｎａｌｙｚｅｒＩＩにはレーン当たり１００個のタイル、ＩｌｌｕｍｉｎａのＨｉＳｅｑ２０００にはレーン当たり６８個のタイルが存在する。タイルは数十万～数百万個のクラスターを保持する。

配列決定の出力は、それぞれクラスターの強度放射及びそれらの周囲背景を示す配列決定画像である。配列決定画像は、配列決定中に配列にヌクレオチドを組み込む結果として生成される強度放射を示す。強度放射は、関連するクラスター及びそれらの周囲の背景に由来するものである。

説明は、以下のように構成される。まず、一実施態様に従って、ニューラルネットワークベースのベースコーラー１０４への入力を説明する。次いで、ニューラルネットワークベースのベースコーラー１０４の構造及び形態の例を示す。最後に、一実施態様による、ニューラルネットワークベースのベースコーラー１０４の出力を説明する。

ニューラルネットワークベースのベースコーラー１０４に関する更なる詳細は、参照により本明細書に組み込まれる、２０１９年３月２１日出願の「ＡＲＴＩＦＩＣＩＡＬＩＮＴＥＬＬＩＧＥＮＣＥ－ＢＡＳＥＤＳＥＱＵＥＮＣＩＮＧ」と題する米国特許仮出願第６２／８２１，７６６号（代理人整理番号ＩＬＬＭ１００８－９／ＩＰ－１７５２－ＰＲＶ）に見出すことができる。

一実施形態では、画像パッチは、配列決定画像から抽出される。データプロバイダ１０２は、ベースコールのための「入力画像データ」として、抽出された画像パッチをニューラルネットワークベースのベースコーラー１０４に提供する。画像パッチは、寸法ｗ×ｈを有し、ｗ（幅）及びｈ（高さ）は、１から１０，０００の範囲の任意の数（例えば、３×３、５×５、７×７、１０×１０、１５×１５、２５×２５）である。いくつかの実施態様では、ｗとｈとは同じである。他の実施態様では、ｗとｈとは異なる。

配列決定は、対応するｍ個の撮像チャネルについて配列決定サイクルごとにｍ個の画像を生成する。一実施態様では、各画像チャネルは、複数のフィルタ波長帯域のうちの１つに対応する。別の実施態様では、各画像チャネルは、配列決定サイクルにおける複数の撮像事象のうちの１つに対応する。更に別の実施態様では、各画像チャネルは、特定のレーザによる照射と特定の光学フィルタを通した撮像との組み合わせに対応する。

特定の配列決定サイクルのための入力画像データを準備するために、ｍ個の画像の各々から画像パッチが抽出される。４－、２－、及び１－チャネル化学などの異なる実施態様では、ｍは、４又は２である。他の実施態様では、ｍは、１、３、又は４よりも大きい。入力画像データは、いくつかの実施態様では、光学ピクセルドメイン内にあり、他の実施態様では、アップサンプリングされたサブピクセルドメイン内にある。

例えば、配列決定が２つの異なる画像チャネル、つまり赤色チャネル及び緑色チャネルを使用すると考える。次いで、各配列決定サイクルにおいて、信号決定は、赤色画像及び緑色画像を生成する。このようにして、一連のｋ回の配列決定サイクルについて、ｋ対の赤色画像及び緑色画像を有する配列が出力として生成される。

入力画像データは、配列決定ランの一連のｋ回の配列決定サイクルについて生成されたサイクルごとの画像パッチの配列を含む。サイクルごとの画像パッチは、１つ以上の画像チャネル（例えば、赤色チャネル及び緑色チャネル）の関連するクラスター及びそれらの周囲の背景についての強度データを含む。一実施態様では、単一のターゲットクラスター（例えば、クラスター）がベースコールされる場合、サイクルごとの画像パッチは、標的関連クラスターの強度データを含む中心ピクセルを中心とし、サイクルごとの画像パッチの中心以外のピクセルは、標的関連クラスターに隣接する関連クラスターの強度データを含む。複数の配列決定サイクルのためのサイクルごとの画像パッチは、サイクルごとのクラスターデータ１１２として記憶される。

入力画像データは、複数の配列決定サイクル（例えば、現在の配列決定サイクル、１つ以上の先行する配列決定サイクル、及び１つ以上の連続する配列決定サイクル）のデータを含む。一実施態様では、入力画像データは、ベースコールされる現在の（時点ｔ）配列決定サイクルのデータが、（ｉ）左隣接／コンテキスト／以前の／先行する／前の（時点ｔ－１）配列決定サイクルのデータ、及び（ｉｉ）右隣接／コンテキスト／次の／連続する／後続の（時点ｔ＋１）配列決定サイクルのデータを伴うように、３回の配列決定サイクルのデータを含む。別の実施態様では、入力画像データは、５回の配列決定サイクルのデータを含み、ベースコールされる現在の（時間ｔ）配列決定サイクルのデータは、（ｉ）第１の左隣接／コンテキスト／以前の／先行する／前の（時間ｔ－１）配列決定サイクルのデータと、（ｉｉ）第２の左隣接／コンテキスト／以前の／先行する／前の（時間ｔ－２）配列決定サイクルのデータと、（ｉｉｉ）第１の右隣接／コンテキスト／次の／連続する／後続の（時間ｔ＋１）配列決定サイクルのデータと、（ｉｖ）第２の右隣接／コンテキスト／次の／連続する／後続の（時間ｔ＋２）配列決定サイクルのデータと、を伴う。更に別の実施態様では、入力画像データは、７回の配列決定サイクルのデータを含み、ベースコールされる現在の（時間ｔ）配列決定サイクルのデータは、（ｉ）第１の左隣接／コンテキスト／以前の／先行する／前の（時間ｔ－１）配列決定サイクルのデータと、（ｉｉ）第２の左隣接／コンテキスト／以前の／先行する／前の（時間ｔ－２）配列決定サイクルのデータと、（ｉｉｉ）第３の左隣接／コンテキスト／以前の／先行する／前の（時間ｔ－３）配列決定サイクルのデータと、（ｉｖ）第１の右隣接／コンテキスト／次の／連続する／後続の（時間ｔ＋１）配列決定サイクルのデータと、（ｖ）第２の右隣接／コンテキスト／次の／連続する／後続の（時間ｔ＋２）配列決定サイクルのデータと、（ｖｉ）第３の右隣接／コンテキスト／次の／連続する／後続の（時間ｔ＋３）配列決定サイクルのデータと、を伴う。他の実施態様では、入力画像データは、単一の配列決定サイクルのデータを含む。更に他の実施態様では、入力画像データは、５８、７５、９２、１３０、１６８、１７５、２０９、２２５、２３０、２７５、３１８、３２５、３３０、５２５、又は６２５配列決定サイクルのデータを含む。

一実施態様では、現在の（時間ｔ）配列決定サイクルからの配列決定画像は、第１及び第２の先行する（時間ｔ－１、時間ｔ－２）配列決定サイクルからの配列決定画像と、第１及び第２の後続の（時間ｔ＋１、時間ｔ＋２）配列決定サイクルからの配列決定画像と、を伴う。一実施態様によれば、ニューラルネットワークベースのベースコーラー１０４は、その畳み込み層を介して配列決定画像を処理し、代替表現を生成する。次いで、その代替表現は、出力層（例えば、ソフトマックス層）によって使用され、現在の（時間ｔ）配列決定サイクル、又は配列決定サイクルのそれぞれ（すなわち、現在の（時間ｔ）配列決定サイクル、第１及び第２の先行する（時間ｔ－１、時間ｔ－２）配列決定サイクル、及び第１及び第２の後続の（時間ｔ＋１、時間ｔ＋２）配列決定サイクル）のいずれかに対するベースコールを生成する。得られたベースコールは、配列決定リードを形成する。

別の実施態様では、現在の（時間ｔ）配列決定サイクルからの配列決定画像は、先行する（時間ｔ－１）配列決定サイクルからの配列決定画像、及び後続する（時間ｔ＋１）配列決定サイクルからの配列決定画像を伴う。一実施態様によれば、ニューラルネットワークベースのベースコーラー１０４は、その畳み込み層を介して配列決定画像を処理し、代替表現を生成する。次いで、その代替表現は、出力層（例えば、ソフトマックス層）によって使用され、現在の（時間ｔ）配列決定サイクル、又は配列決定サイクルのそれぞれ、すなわち、現在の（時間ｔ）配列決定サイクル、先行する（時間ｔ－１）配列決定サイクル、及び後続する（時間ｔ＋１）配列決定サイクルのいずれかに対するベースコールを生成する。得られたベースコールは、配列決定リードを形成する。

一実施態様では、ニューラルネットワークベースのベースコーラー１０４は、特定の配列決定サイクルに対する単一のターゲットクラスターのためのベースコールを出力する。別の実施態様では、ニューラルネットワークベースのベースコーラー１０４は、特定の配列決定サイクルで複数のターゲットクラスター内の各ターゲットクラスターのためのベースコールを出力する。更に別の実施態様では、ニューラルネットワークベースのベースコーラー１０４は、複数の配列決定サイクル内の各配列決定サイクルで複数のターゲットクラスター内の各ターゲットクラスターのためのベースコールを出力することによって、各ターゲットクラスターのためのベースコール配列を生成する。

一実施態様では、ニューラルネットワークベースのベースコーラー１０４は、多層パーセプトロン（Multilayer Perceptron、ＭＬＰ）である。別の実施態様では、ニューラルネットワークベースのベースコーラー１０４は、フィードフォワードニューラルネットワークである。更に別の実施態様では、ニューラルネットワークベースのベースコーラー１０４は、完全に接続されたニューラルネットワークである。更なる実施態様では、ニューラルネットワークベースのベースコーラー１０４は、完全畳み込みニューラルネットワークである。更に別の実施態様では、ニューラルネットワークベースのベースコーラー１０４は、セマンティックセグメンテーションニューラルネットワークである。なお別の更なる実施態様では、ニューラルネットワークベースのベースコーラー１０４は、敵対的生成ネットワーク（generative adversarial network、ＧＡＮ）である。

一実施態様では、ニューラルネットワークベースのベースコーラー１０４は、複数の畳み込み層を有する畳み込みニューラルネットワーク（ＣＮＮ）である。別の実施態様では、ニューラルネットワークベースのベースコーラー１０４は、長い短期メモリネットワーク（ＬＳＴＭ）、双方向ＬＳＴＭ（Ｂｉ－ＬＳＴＭ）、又はゲートされた反復単位（ＧＲＵ）などの反復ニューラルネットワーク（ＲＮＮ）である。更に別の実施態様では、ニューラルネットワークベースのベースコーラー１０４は、ＣＮＮ及びＲＮＮの両方を含む。

更に他の実施態様では、ニューラルネットワークベースのベースコーラー１０４は、１Ｄ畳み込み、２Ｄ畳み込み、３Ｄ畳み込み、４Ｄ畳み込み、５Ｄ畳み込み、拡張又は膨張畳み込み、転置畳み込み、深さ単位分離可能畳み込み、点単位畳み込み、１×１畳み込み、グループ畳み込み、平坦化（flattened）畳み込み、空間及びクロスチャネル（spatial and cross-channel）畳み込み、シャッフルグループ化（shuffled grouped）畳み込み、空間的分離可能畳み込み、並びに逆畳み込みを使用することができる。ニューラルネットワークベースのベースコーラー１０４は、ロジスティック回帰／対数損失、多クラスクロスエントロピー／ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、Ｌ１損失、Ｌ２損失、平滑Ｌ１損失、及びＨｕｂｅｒ損失などの１つ又はそれ以上の損失関数を使用することができる。それは、ＴＦＲｅｃｏｒｄ、圧縮符号化（例えば、ＰＮＧ）、シャーディング、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期／非同期確率的勾配降下法（stochastic gradient descent、ＳＧＤ）のような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット（ＬＳＴＭ又はＧＲＵなど）、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能（例えば、非線形変換関数は、整流線形ユニット（ＲｅＬＵ）、漏れやすいＲｅＬＵ，指数関数的ライナーユニット（ＥＬＵ）、シグモイド及び双曲線正接（ｔａｎｈ））、バッチ正規化層、規則化層、ドロップアウト、プール層（例えば、最大又は平均プール）、グローバル平均プール層、及び注意機構のような非線形変換機能を含み得る。

ニューラルネットワークベースのベースコーラー１０４は、逆伝播ベースの勾配更新技術を使用して学習する。ニューラルネットワークベースのベースコーラー１０４が学習するために使用され得る例示的な勾配降下技術としては、確率的勾配降下、バッチ勾配降下、及びミニバッチ勾配降下が挙げられる。ニューラルネットワークベースのベースコーラー１０４が学習するために使用され得る勾配降下最適化アルゴリズムのいくつかの例としては、Ｍｏｍｅｎｔｕｍ、Ｎｅｓｔｏｒｖ加速勾配、Ａｄａｇｒａｄ、Ａｄａｄｅｌｔａ、ＲＭＳｐｒｏｐ、Ａｄａｍ、ＡｄａＭａｘ、Ｎａｄａｍ、及びＡＭＳＧｒａｄが挙げられる。

ニューラルネットワークベースのベースコーラー１０４は、異なる配列決定サイクルに対するデータの処理を分離するために、専用のアーキテクチャを使用する。上記の専用のアーキテクチャを使用する動機をまず説明する。上述のように、ニューラルネットワークベースのベースコーラー１０４は、現在の配列決定サイクル、１つ以上の先行する配列決定サイクル、及び１つ以上の後続の配列決定サイクルに対する強度コンテキスト化パッチを処理する。追加の配列決定サイクルに対するデータは、配列ごとに固有のコンテキストを提供する。ニューラルネットワークベースのベースコーラー１０４は、学習中に配列固有のコンテキストを学習し、それらをベースコールする。更に、事前及び事後配列決定サイクルに対するデータは、プレフェージング及びフェージング信号の２次の寄与を現在の配列決定サイクルに提供する。

しかしながら、異なる配列決定サイクルで、かつ異なる画像チャネル内に捕捉される画像は、位置合わせ不良であり、互いに残留位置合わせ誤差を有する。この位置合わせ不良を考慮するために、専用アーキテクチャは、配列決定サイクルどうしの間では情報を混合せず、同一の配列決定サイクル内でのみ情報を混合する、空間畳み込み層を含む。

空間畳み込み層は、畳み込みの「専用の非共有」配列を介して複数の配列決定サイクルの各々に対して独立してデータを処理することによって分離を操作する、いわゆる「分離された畳み込み」を使用する。分離された畳み込みは、任意の他の配列決定サイクルのデータ及び得られた特徴マップ上で畳み込むことなく、所与の配列決定サイクル、すなわち、サイクル内のみのデータ及び得られた特徴マップ上で畳み込む。

例えば、入力データが、（ｉ）ベースコールされる現在の（時間ｔ）配列決定サイクルに対する現在の強度コンテキスト化パッチと、（ｉｉ）以前の（時間ｔ－１）配列決定サイクルに対する以前の強度コンテキスト化パッチと、（ｉｉｉ）次の（時間ｔ＋１）配列決定サイクルに対する次の強度コンテキスト化パッチと、を含むとする。次いで、専用アーキテクチャは、３つの別個の畳み込みパイプライン、すなわち、現在の畳み込みパイプライン、以前の畳み込みパイプライン、及び次の畳み込みパイプラインを開始する。現在のデータ処理パイプラインは、現在の（時間ｔ）配列決定サイクルに対する現在の強度コンテキスト化パッチを入力として受信し、複数の空間畳み込み層７８４を介して独立してそれを処理して、最終空間畳み込み層の出力としていわゆる「現在の空間畳み込み表現」を生成する。以前の畳み込みパイプラインは、以前の（時間ｔ－１）配列決定サイクルに対する以前の強度コンテキスト化パッチを入力として受信し、複数の空間畳み込み層を介して独立してそれを処理して、最終空間畳み込み層の出力としていわゆる「以前の空間畳み込み表現」を生成する。次の畳み込みパイプラインは、次の（時間ｔ＋１）配列決定サイクルに対する次の強度コンテキスト化パッチを入力として受信し、複数の空間畳み込み層を介して独立してそれを処理して、最終空間畳み込み層の出力としていわゆる「次の空間畳み込み表現」を生成する。

いくつかの実施態様では、現在、以前、及び次の畳み込みパイプラインは、並行して実行される。いくつかの実施態様では、空間畳み込み層は、専用構造内の空間畳み込みネットワーク（又はサブネットワーク）の一部である。

ニューラルネットワークベースのベースコーラー１０４は、配列決定サイクル間、すなわち、サイクル間で情報を混合する時間的畳み込み層を更に含む。時間的畳み込み層は、空間畳み込みネットワークからそれらの入力を受信し、それぞれのデータ処理パイプラインに対して最終空間畳み込み層によって生成される空間畳み込み表現で動作する。

時間的畳み込み層のサイクル間動作性自由度は、空間畳み込みネットワークへの入力として供給される画像データ内に存在する位置合わせ不良特性が、空間畳み込み層の配列によって実行される、分離された畳み込みのスタック又はカスケードによって空間畳み込み表現からパージされるという事実から生じる。

時間的畳み込み層は、スライドウィンドウベースでの後続の入力で入力チャネル上でグループごとに畳み込む、いわゆる「組み合わせ畳み込み」を使用する。一実施態様では、後続の入力は、以前の空間畳み込み層又は以前の時間的畳み込み層によって生成される後続の出力である。

いくつかの実施態様では、時間的畳み込み層は、専用構造内の時間的畳み込みネットワーク（又はサブネットワーク）の一部である。時間的畳み込みネットワークは、空間畳み込みネットワークからその入力を受信する。一実施態様では、時間的畳み込みネットワークの第１の時間的畳み込み層は、配列決定サイクル間の空間畳み込み表現をグループごとに組み合わせる。別の実施態様では、時間的畳み込みネットワークの後続の時間的畳み込み層は、以前の時間的畳み込み層の連続する出力を組み合わせる。最終時間的畳み込み層の出力は、出力を生成する出力層に供給される。出力は、１つ以上の配列決定サイクルで１つ以上のクラスターをベースコールするために使用される。

一実施態様では、信頼できないクラスターのベースコールをバイパスすることは、信頼できないクラスターを、ニューラルネットワークベースのベースコーラー１０４の空間畳み込み層を介してのみ処理し、信頼できないクラスターを、ニューラルネットワークベースのベースコーラー１０４の時間的畳み込み層を介して処理しないことを指す。

本出願の文脈では、信頼できないクラスターはまた、いずれのクラスターも示さないピクセルによって識別され、そのようなピクセルは、時間的畳み込み層による処理から破棄される。いくつかの実施態様では、これは、生物学的試料が堆積されるウェルが空であるときに生じる。

信頼できないクラスターの検出及びフィルタリング
開示された技術は、信頼できないクラスターを検出し、フィルタリングする。以下の考察は、信頼できないクラスターを説明する。

信頼できないクラスターは、所望の信号を、バックグラウンド信号と比較して有意ではない量しか発しない、低品質クラスターである。信頼できないクラスターの信号対雑音比は、実質的に低く、例えば、１未満である。いくつかの実施態様では、信頼できないクラスターは、所望の信号を全く生成しない場合がある。他の実施態様では、信頼できないクラスターは、バックグラウンドと比較して非常に少ない量の信号しか生成しない場合があり得る。一実施態様では、信号は、光信号であり、例えば、蛍光、発光、散乱、又は吸収信号を含むことを意図する。信号レベルとは、所望又は所定の特性を有する検出されたエネルギー又は符号化された情報の量を意味する。例えば、光信号は、強度、波長、エネルギー、周波数、電力、輝度などのうちの１つ以上によって定量化することができる。他の信号は、電圧、電流、電界強度、磁場強度、周波数、電力、温度などの特性に従って定量化することができる。信頼できないクラスターにおける信号の不在は、ゼロの信号レベル、又はノイズとは有意に区別されない信号レベルであると理解される。

信頼できないクラスターの不十分な品質の信号には、多くの潜在的な理由がある。信頼できないクラスター中の約１０００個の分子のうちの相当大きな割合が、特定の位置で異なる塩基を含むように、コロニー増幅におけるポリメラーゼ連鎖反応（polymerase chain reaction、ＰＣＲ）エラーが存在する場合、２つの塩基に対する信号を観察し得るが、これは、不十分な品質のしるしとして解釈され、フェーズエラーと称される。フェーズエラーは、信頼できないクラスター内の個々の分子が、（例えば、フェージングと呼ばれる、３’ターミネーターの不完全な除去を原因として）いくつかのサイクルでヌクレオチドを組み込まず、他の分子よりも遅れてしまう場合、又は（例えば、プリフェージングと呼ばれる、効果的な３’ブロックなしでヌクレオチドの組み込みを原因として）個々の分子が単一のサイクルで２つ以上のヌクレオチドを組み込んでいる場合に生じる。これにより、配列コピーの読み出しにおける、同期の喪失がもたらされる。信頼できないクラスターにおける、フェージング及びプレフェージングによって影響を受ける配列の割合は、サイクル数の増加と共に増加し、読み取りの品質が高いサイクル数で低下する傾向がある主な理由である。

信頼できないクラスターはまた、フェーディングの結果として生じる。フェーディングは、サイクル数の関数としての信頼できないクラスターの信号強度における指数関数的減衰である。配列決定動作が進行するにつれて、信頼できないクラスターのストランドが過度に洗浄され、反応種を作成するレーザ放出に曝露され、過酷な環境条件に置かれる。これらの全ては、信頼できないクラスターにおいて断片が徐々に失われる結果を招き、それらの信号強度を低下させる。

信頼できないクラスターはまた、発育の十分ではないコロニー、すなわち、パターン形成されたフローセル上に空又は部分的にしか充填されないウェルを生成してしまう、信頼できないクラスターの小さなクラスターサイズにも起因する。すなわち、いくつかの実施態様では、信頼できないクラスターは、パターン化されたフローセル上の、空のウェル、多クローン性ウェル、及び曖昧なウェルを示す。信頼できないクラスターはまた、非排他的な増幅によって引き起こされる、重なり合うコロニーから生じる。信頼できないクラスターはまた、例えば、フローセルの縁部に位置することに起因する、照明不足又は不均一な照明から生じる。信頼できないクラスターはまた、放出された信号を不明確化するフローセル上の不純物から生じる。信頼できないクラスターはまた、複数のクラスターが同一のウェルに堆積される場合に生じる、多クローン性クラスターも含む。

ここでは、ベースコールの精度及び効率を改善するために、検出及びフィルタリングロジック１４６によって信頼できないクラスターがどのように検出及びフィルタリングされるかについて論じる。データプロバイダ１０２は、サイクルごとのクラスターデータ１１２をニューラルネットワークベースのベースコーラー１０４に提供する。サイクルごとのクラスターデータ１１２は、複数のクラスターに対するものであり、配列決定動作の配列決定サイクルの第１のサブセットに対するものである。例えば、配列決定動作が１５０配列決定サイクルを有すると考える。次いで、配列決定サイクルの第１のサブセットは、１５０配列決定サイクルのうちの任意のサブセット、例えば、１５０サイクル配列決定動作のうちの最初の５、１０、１５、２５、３５、４０、５０、又は１００の配列決定サイクルを含むことができる。また、各配列決定サイクルは、複数のクラスター内のクラスターの強度放射を描写する配列決定画像を作り出す。このように、複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第１のサブセットに対するサイクルごとのクラスターデータ１１２は、１５０サイクル配列決定動作の最初の５、１０、１５、２５、３５、４０、５０、又は１００の配列決定サイクルに対する配列決定画像のみを含み、１５０サイクル配列決定動作の残りの配列決定サイクルに対する配列画像を含まない。

ニューラルネットワークベースのベースコーラー１０４は、配列決定サイクルの第１のサブセット内のそれぞれの配列決定サイクルにおいて複数のクラスターの中のそれぞれのクラスターをベースコールする。そうするために、ニューラルネットワークベースのベースコーラー１０４は、サイクルごとのクラスターデータ１１２を処理し、サイクルごとのクラスターデータ１１２の中間表現を生成する。次いで、ニューラルネットワークベースのベースコーラー１０４は、出力層を通して中間表現を処理し、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するクラスターごと、サイクルごとの確率四分位数を生成する。出力層の例としては、ソフトマックス関数、ログ－ソフトマックス関数、アンサンブル出力平均関数、多重レイヤパーセプトロン不確実関数、ベイズガウス分布関数、及びクラスター強度関数が挙げられる。クラスターごと、サイクルごとの確率四分位数は、確率四分位数１０６として記憶される。

以下の考察は、一例としてソフトマックス関数を使用して、クラスターごと、サイクルごとの確率四分位数に焦点を当てている。最初に、ソフトマックス関数、次いでクラスターごと、サイクルごとの確率四分位数を説明する。

ソフトマックス関数は、マルチクラス分類のための好ましい関数である。ソフトマックス関数は、全ての可能な標的クラスにわたって各標的クラスの確率を計算する。ソフトマックス関数の出力範囲はゼロと１との間であり、全ての確率の合計は１に等しい。ソフトマックス関数は、所与の入力値の指数及び全ての入力値の指数値の合計を計算する。入力値の指数と指数値の合計との比は、本明細書で「指数正規化」と称されるソフトマックス関数の出力である。

形式的には、いわゆるソフトマックス分類子を学習することは、クラスではなくむしろ各クラスの確率の信頼性予測を返すため、真の分類子よりもむしろクラス確率への回帰である。ソフトマックス関数は、ある種類の値を取り、合計で１になる確率にそれらを変換する。ソフトマックス関数は、任意の実数値のｎ－次元ベクトルを０～１の範囲内の実数値のｎ－次元ベクトルに押し込む。したがって、ソフトマックス関数を使用することは、出力が有効で、指数関数的に正規化された確率質量関数（非負及び合計１になる）であることを保証する。

直感的に、ソフトマックス関数は、最大関数の「ソフト」バージョンである。「ソフト」という用語は、ソフトマックス関数が連続的であり微分可能であるという事実に由来する。１つの最大要素を選択する代わりに、最大入力要素が比例してより大きな値を取得し、他方が値の割合が少なくなるように、ベクトルを全体の部分に分解する。確率分布を出力する特性は、分類タスクにおける確率的解釈に適したソフトマックス関数をもたらす。

ソフトマックス層への入力のベクトルとして、ｚを考慮するとしよう。ソフトマックス層ユニットは、ソフトマックス層内のノードの数であり、したがって、ｚベクトルの長さは、ソフトマックス層内のユニットの数である（１０個の出力ユニットを有する場合、１０個のｚ要素がある）。

ｎ－次元ベクトルＺ＝［Ｚ_１，Ｚ_２，．．．Ｚ_ｎ］の場合、ソフトマックス関数は、指数正規化（exp）を使用して、その和が１になる、範囲［０，１］の範囲内の正規化された値を有する別のｎ－次元ベクトルｐ（Ｚ）を生成する。

図２Ａは、例示的なソフトマックス関数を示す。ソフトマックス関数は、

として３つのクラスに適用される。３つの出力は常に、合計１になることに留意されたい。したがって、それらは、離散確率質量関数を定義する。

特定のクラスターごと、サイクルごとの確率四分位数は、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基である、Ａ、Ｃ、Ｔ、及びＧの確率を識別する。ニューラルネットワークベースのベースコーラー１０４の出力層がソフトマックス関数を使用する場合、クラスターごと、サイクルごとの確率四分位数での確率は、合計すると１になる、指数的に正規化された分類スコアである。図２Ｂは、クラスター１（２０２、茶色で示される）に対する、及び配列決定サイクル１～Ｓ（２１２）に対するソフトマックス関数によってそれぞれ生成された、例示的なクラスターごと、サイクルごとの確率四分位数２２２を示す。言い換えれば、配列決定サイクルの第１のサブセットは、Ｓ個の配列決定サイクルを含む。

検出及びフィルタリングロジック１４６は、クラスターごと、サイクルごとの確率四分位数からフィルタ値を生成することに基づいて、信頼できないクラスターを識別する。本出願では、クラスターごと、サイクルごとの確率四分位数は、ベースコール分類スコア又は正規化ベースコール分類スコア又は初期ベースコール分類スコア又は正規化された初期ベースコール分類スコア又は初期ベースコールとも呼ばれる。

フィルタ計算機１１６は、それぞれのクラスターごと、サイクルごとの確率四分位数が識別する確率に基づいて、それぞれのクラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することによって、それぞれのクラスターのフィルタ値の配列２３２を生成する。フィルタ値の配列２３２は、フィルタ値１２６として記憶される。

クラスターごと、サイクルごとの確率四分位数に対するフィルタ値は、確率のうちの１つ以上を含む算術演算に基づいて決定される。一実施態様では、フィルタ計算機１１６によって使用される算術演算は減算である。例えば、図２Ｂに示す実施態様では、クラスターごと、サイクルごとの確率四分位数に対するフィルタ値は、確率のうちの最も高い確率（マゼンタ色で示される）から確率のうちの２番目に高い確率（青色に示される）を差し引くことによって決定される。

別の実施態様では、フィルタ計算機１１６によって使用される算術演算は除算である。例えば、クラスターごと、サイクルごとの確率四分位数に対するフィルタ値は、確率のうちの最も高い確率（マゼンタ色に示されている）の確率のうちの２番目に高い確率（青色で示される）に対する比として決定される。なお別の実施態様では、フィルタ計算機１１６によって使用される算術演算は、加算である。なお更なる実施態様では、フィルタ計算機１１６によって使用される算術演算は、乗算である。

一実施態様では、フィルタ計算機１１６は、フィルタリング関数を使用してフィルタ値１２６を生成する。一例では、フィルタリング関数は、最も明るいベース強度を、最も明るいベース強度と２番目に明るいベース強度との合計で割った比として、チャスティティを定義するチャスティフィルタである。別の例では、フィルタリング関数は、最大対数確率関数、最小二乗誤差関数、平均信号対雑音比（signal-to-noise ratio、ＳＮＲ）、及び最小絶対誤差関数のうちの少なくとも１つである。

信頼できないクラスター識別子１３６は、フィルタ値１２６を使用して、複数のクラスター内のいくつかのクラスターを、信頼できないクラスター１２４として識別する。信頼できないクラスター１２４を識別するデータは、コンピュータ可読形式又は媒体にあり得る。信頼できないクラスターは、器具ＩＤ、機器上のラン番号、フローセルＩＤ、レーン番号、タイル番号、クラスターのＸ座標、クラスターのＹ座標、及び固有の分子識別子（unique molecular identifier、ＵＭＩ）によって識別することができる。信頼できないクラスター識別子１３６は、複数のクラスターのうち、フィルタ値の配列が、閾値「Ｍ」を下回る「Ｎ」個のフィルタ値を含むクラスターを信頼できないクラスター１２４として識別する。一実施態様では、「Ｎ」は１～５の範囲である。別の実施態様では、「Ｍ」は０．５～０．９９の範囲である。

図３は、フィルタ値１２６を使用して信頼できないクラスター１２４を識別する例を示す。図３では、閾値「Ｍ」は０．５であり、フィルタ値の数「Ｎ」は２である。図３は、３つのクラスター１、２、及び３に対する３つのフィルタ値の配列３０２、３１２、及び３２２をそれぞれ示す。クラスター１の第１の配列３０２では、Ｍ未満の２つのフィルタ値（紫色で示される）が存在する、すなわちＮ＝２であり、したがって、クラスター１は、信頼できないクラスターとして識別される。クラスター２の第２の配列３１２では、Ｍ未満の３つのフィルタ値（ピンク色で示される）が存在する、すなわちＮ＝３であり、したがって、クラスター２は、信頼できないクラスターとして識別される。クラスター３の第３の配列３２２では、Ｍ未満の１つのフィルタ値（緑色で示される）のみが存在する、すなわちＮ＝１であり、したがって、クラスター３は、信頼できるクラスターとして識別される。

ここでは、データプロバイダ１０２によって実装されるバイパスロジック１４２について論じる。バイパスロジック１４２は、配列決定動作の配列決定サイクルの残りにおける信頼できないクラスター（例えば、クラスター１及び２）のベースコールをバイパスすることによって、配列決定サイクルの残りにおいて、複数のクラスターのうち、信頼できないクラスターとして識別されないクラスターのみをベースコールする。例えば、配列決定動作の配列決定サイクルの第１のサブセットが２５の配列決定サイクルを含み、配列決定動作が合計で１００配列決定サイクルを有するものとする。次いで、最初の２５配列決定サイクルの後、クラスター１、２、及び３のそれぞれは、上記のフィルタリング関数に基づいた２５個のフィルタ値のそれぞれの配列を有する。

次いで、配列決定サイクルの残りは、１００サイクル配列決定動作の最後の７５サイクルを含む。次いで、最初の２５配列決定サイクルの後、及び２６回目の配列決定サイクルの前に、信頼できないクラスター識別子１３６は、２５個のフィルタ値のそれぞれの配列に基づいて、クラスター１、２、及び３のうちのどれが信頼できないクラスターであるかを決定する。次いで、残りの配列決定サイクル、すなわち、１００サイクル配列決定動作の最後の７５サイクルで、バイパスロジック１４２は、信頼できないクラスター識別子１３６によって信頼できないクラスターとして識別されるクラスター（例えば、クラスター１及び２）をベースコールせず（すなわち、ベースコールを停止する）、信頼できないクラスター識別子１３６によって信頼できないクラスターとして識別されないクラスター（例えば、クラスター３）のみを継続してベースコールする。言い換えれば、信頼できないクラスターは、配列決定動作のサイクル１～２５についてのみベースコールされ、配列決定動作のサイクル２６～１００についてはベースコールされないが、信頼できるクラスターは、配列決定動作の全てのサイクル１～１００についてベースコールされる。

クラスター及びベースコールに関して使用するとき、フィルタリングという用語は、クラスターをデータポイントとして破棄又は無視することを指す。したがって、強度又は品質の不十分な任意のクラスターがフィルタリングされ得、出力データセットには含まれない。いくつかの実施態様では、低品質クラスターのフィルタリングは、配列決定動作中に１つ以上の別個のポイントで行われる。いくつかの実施態様では、フィルタリングはテンプレート生成中に行われる。代替的に、又は追加的に、いくつかの実施態様では、フィルタリングは、事前定義されたサイクルの後に行われる。特定の実施態様では、フィルタリングは、サイクル１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９で若しくはその後に、又はサイクル３０以降に行われる。いくつかの実施態様では、フィルタリングはサイクル２５で行われ、その結果、最初の２５サイクルに対して決定されたフィルタ値の配列に基づいて信頼できないクラスターがフィルタリングされる。

図４は、ベースコールの精度及び効率を改善するために信頼できないクラスターを識別する方法の一実施態様を示すフロー図である。本明細書に記載の方法の様々なプロセス及び工程は、コンピュータを使用して行われ得る。コンピュータは、検出デバイスの一部であるか、コンピュータによって処理されるデータを取得するために使用される検出デバイスとネットワーク化されているか、又は検出デバイスから分離しているプロセッサを含み得る。いくつかの実施態様では、情報（例えば、画像データ）は、本明細書に開示されるシステムの構成要素間で直接又はコンピュータネットワークを介して送信され得る。ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）は、システムを含むコンピュータ及びコンピューティングデバイスが接続されている、インターネットへのアクセスを含む企業コンピューティングネットワークであり得る。一実施態様では、ＬＡＮは、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）業界標準に準拠する。場合によっては、情報（例えば、画像データ）は、入力デバイス（例えば、ディスクドライブ、コンパクトディスクプレーヤ、ＵＳＢポートなど）を介して本明細書に開示されるシステムに入力される。場合によっては、情報は、例えば、ディスク又はフラッシュドライブなどの記憶デバイスから情報をロードすることによって受信される。

本明細書に記載されるアルゴリズム又は他のプロセスを実行するために使用されるプロセッサは、マイクロプロセッサを含み得る。マイクロプロセッサは、ＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎ製のＰｅｎｔｉｕｍ（商標）プロセッサなどの任意の従来の汎用シングルチップ又はマルチチップマイクロプロセッサであり得る。特に有用なコンピュータは、１２８ＧＢのＲＡＭ、及び２ＴＢのソリッドステートディスクドライブを有する、ＩｎｔｅｌＩｖｙｂｒｉｄｇｅｄｕａｌ－１２コアプロセッサ、ＬＳＩＲＡＩＤコントローラを利用し得る。更に、プロセッサは、デジタル信号プロセッサ又はグラフィックスプロセッサなどの任意の従来の専用プロセッサを含み得る。プロセッサは、典型的には、従来のアドレスライン、従来のデータライン、及び１つ以上の従来の制御ラインを有する。

本明細書に開示される実施態様は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの任意の組み合わせを生成するための標準的なプログラミング技術又は工学技術を使用して、方法、装置、システム、又は物品として実装されてもよい。本明細書で使用するとき、用語「製造物品」は、光学記憶デバイスなどのハードウェア又はコンピュータ可読媒体、並びに揮発性又は不揮発性メモリデバイス内に実装されるコード又は論理を指す。そのようなハードウェアとしては、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、複合プログラマブル論理デバイス（Complex Programmable Logic Device、ＣＰＬＤ）、プログラマブルロジックアレイ（Programmable Logic Array、ＰＬＡ）、マイクロプロセッサ、又は他の同様の処理装置が挙げられ得るが、これらに限定されない。特定の実施態様では、本明細書に記載される情報又はアルゴリズムは、非一過性記憶媒体中に存在する。

特定の実施態様では、本明細書に記載されるコンピュータ実装の方法は、物体の複数の画像が取得されている間に、リアルタイムで行われ得る。このようなリアルタイム分析は、核酸配列が流体及び検出工程の繰り返しサイクルに供される核酸配列決定用途に特に有用である。配列決定データの分析は、多くの場合、本明細書に記載される方法をリアルタイム又は背景で実行するのに有益であり得る一方で、他のデータ収集又は分析アルゴリズムがプロセス中である間に、本明細書に記載される方法を実行することが有益であり得る。本方法で使用することができるリアルタイム分析法の例は、Ｉｌｌｕｍｉｎａ，Ｉｎｃ（ＳａｎＤｉｅｇｏ，Ｃａｌｉｆ）から市販されており、及び／又は、参照により本明細書に組み込まれる米国特許出願公開第２０１２／００２０５３７（Ａ１）号に記載されているＭｉＳｅｑ及びＨｉＳｅｑ配列決定機器に使用されるものである。

アクション４０２で、方法は、複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第１のサブセットに対するサイクルごとのクラスターデータにアクセスすることを含む。

アクション４１２では、方法は、配列決定サイクルの第１のサブセット内のそれぞれの配列決定サイクルにおいて複数のクラスターの中のそれぞれのクラスターをベースコールすることを含む。

アクション４２２では、方法は、サイクルごとのクラスターデータを処理し、サイクルごとのクラスターデータの中間表現を生成することと、を含む。

アクション４３２では、方法は、出力層を介して中間表現を処理し、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するクラスターごと、サイクルごとの確率四分位数を生成することを含む。特定のクラスターごと、サイクルごとの確率四分位数は、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基である、Ａ、Ｃ、Ｔ、及びＧの確率を識別する。

アクション４４２では、方法は、クラスターごと、サイクルごとの確率四分位数が識別する確率に基づいて、クラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することによって、それぞれのクラスターのフィルタ値の配列を生成することを含む。

アクション４５２では、方法は、複数のクラスターのうち、フィルタ値の配列が、閾値「Ｍ」を下回る少なくとも「Ｎ」個のフィルタ値を含むクラスターを信頼できないクラスターとして識別することを含む。

アクション４６２では、方法は、配列決定動作の配列決定サイクルの残りにおける信頼できないクラスターのベースコールをバイパスすることによって、配列決定サイクルの残りにおいて、複数のクラスターのうち、信頼できないクラスターとして識別されないクラスターのみをベースコールすることを含む。

配列決定システム
図５Ａ及び図５Ｂは、配列決定システム５００Ａの一実施態様を示す。配列決定システム５００Ａは、構成可能プロセッサ５４６を含む。構成可能プロセッサ５４６は、本明細書に開示されるベースコール技術を実施する。配列決定システムは、「シーケンサ」とも称される。

配列決定システム５００Ａは、生物学的物質又は化学物質のうちの少なくとも１つに関連する任意の情報又はデータを得るように動作し得る。いくつかの実施態様では、配列決定システム５００Ａは、ベンチトップデバイス又はデスクトップコンピュータと同様であり得るワークステーションである。例えば、所望の反応を実施するためのシステム及び構成要素の大部分（又は全て）は、共通のハウジング５０２内にあってもよい。

特定の実施態様では、配列決定システム５００Ａは、ｄｅｎｏｖｏｓｅｑｕｅｎｃｉｎｇ、全ゲノム又は標的ゲノム領域の再配列、及びメタゲノミクスを含むがこれらに限定されない、様々な用途のために構成された核酸配列決定システムである。シーケンサはまた、ＤＮＡ又はＲＮＡ分析に使用されてもよい。いくつかの実施態様では、配列決定システム５００Ａはまた、バイオセンサー内に反応部位を生成するように構成されてもよい。例えば、配列決定システム５００Ａは、サンプルを受容し、サンプル由来のクローン的に増幅された核酸の表面結合クラスターを生成するように構成され得る。各クラスターは、バイオセンサー内の反応部位を構成するか、又はその一部であってもよい。

例示的な配列決定システム５００Ａは、バイオセンサー５１２と相互作用して、バイオセンサー５１２内で所望の反応を行うように構成されたシステム受け部又はインターフェース５１０を含んでもよい。図５Ａに関して以下の説明では、バイオセンサー５１２はシステム受け部５１０内に装填される。しかしながら、バイオセンサー５１２を含むカートリッジは、システム受け部５１０に挿入されてもよく、一部の状態では、カートリッジは一時的又は永久的に除去され得ることが理解される。上述のように、カートリッジは、とりわけ、流体制御及び流体貯蔵構成要素を含んでもよい。

特定の実施態様では、配列決定システム５００Ａは、バイオセンサー５１２内で多数の平行反応を行うように構成されている。バイオセンサー５１２は、所望の反応が生じ得る１つ以上の反応部位を含む。反応部位は、例えば、バイオセンサーの固体表面に固定化されてもよく、又はバイオセンサーの対応する反応チャンバ内に位置するビーズ（又は他の可動基材）に固定化されてもよい。反応部位は、例えば、クローン的に増幅された核酸のクラスターを含むことができる。バイオセンサー５１２は、固体撮像デバイス（例えば、ＣＣＤ又はＣＭＯＳイメージャ）及びそれに取り付けられたフローセルを含んでもよい。フローセルは、配列決定システム５００Ａから溶液を受容し、溶液を反応部位に向けて方向付ける１つ以上の流路を含んでもよい。任意選択的に、バイオセンサー５１２は、熱エネルギーを流路の内外に伝達するための熱要素と係合するように構成され得る。

配列決定システム５００Ａは、相互に相互作用して、生物学的又は化学的分析のための所定の方法又はアッセイプロトコルを実行する、様々な構成要素、アセンブリ、及びシステム（又はサブシステム）を含んでもよい。例えば、配列決定システム５００Ａは、配列決定システム５００Ａの様々な構成要素、アセンブリ、及びサブシステムと通信し得るシステムコントローラ５０６と、更にバイオセンサー５１２と、を含む。例えば、システム受け部５１０に加えて、配列決定システム５００Ａはまた、配列決定システム５００Ａ及びバイオセンサー５１２の流体ネットワーク全体にわたる流体の流れを制御するための流体制御システム５０８と、バイオアッセイシステムによって使用され得る全ての流体（例えば、ガス又は液体）を保持するように構成された流体貯蔵システム５１４と、流体ネットワーク、流体貯蔵システム５１４、及び／又はバイオセンサー５１２内の流体の温度を調整し得る温度制御システム５０４と、バイオセンサー５１２を照明するように構成された照明システム５１６と、を含み得る。上述のように、バイオセンサー５１２を有するカートリッジがシステム受け部５１０内に装填される場合、カートリッジはまた、流体制御及び流体貯蔵構成要素を含んでもよい。

また、配列決定システム５００Ａは、ユーザーと対話するユーザーインターフェース５１８を含んでもよい。例えば、ユーザーインターフェース５１８は、ユーザーから情報を表示又は要求するディスプレイ５２０と、ユーザー入力を受け取るためのユーザー入力デバイス５２２と、を含んでもよい。いくつかの実施態様では、ディスプレイ５２０及びユーザー入力デバイス５２２は、同じデバイスである。例えば、ユーザーインターフェース５１８は、個々のタッチの存在を検出し、またディスプレイ上のタッチの場所を識別するように構成されたタッチ検知ディスプレイを含んでもよい。しかしながら、マウス、タッチパッド、キーボード、キーパッド、ハンドヘルドスキャナー、音声認識システム、動き認識システムなどの他のユーザー入力デバイス５２２が使用されてもよい。以下でより詳細に説明するように、配列決定システム５００Ａは、所望の反応を実施するために、バイオセンサー５１２（例えば、カートリッジの形態）を含む様々な構成要素と通信してもよい。配列決定システム５００Ａはまた、バイオセンサーから得られたデータを分析して、ユーザーに所望の情報を提供するように構成されてもよい。

システムコントローラ５０６は、マイクロコントローラ、低減命令セットコンピュータ（Reduced Instruction Set Computer、ＲＩＳＣ）、特定用途向け集積回路（Application Specific Integrated Circuit、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Field Programmable Gate Array、ＦＰＧＡ）、粗粒化再構成可能構造（Coarse-Grained Reconfigurable Architecture、ＣＧＲＡ）、ロジック回路、及び本明細書に記載される機能を実行することができる任意の他の回路又はプロセッサを含んでもよい。上記の実施例は、例示的なものに過ぎず、したがって、システムコントローラという用語の定義及び／又は意味を制限することを意図するものではない。例示的実施態様では、システムコントローラ５０６は、検出データの取得及び分析のうちの少なくとも１つのために、１つ以上の記憶要素、メモリ、又はモジュール内に記憶された命令のセットを実行する。検出データは、ピクセル信号の複数の配列を含むことができ、それにより、数百万個のセンサー（又はピクセル）のそれぞれからのピクセル信号の配列を、多くのベースコールサイクルにわたって検出することができる。記憶要素は、配列決定システム５００Ａ内の情報源又は物理メモリ要素の形態であってもよい。

命令セットは、本明細書に記載される様々な実施態様の方法及びプロセスなどの特定の動作を実行するように配列決定システム５００Ａ又はバイオセンサー５１２に指示する様々なコマンドを含んでもよい。命令のセットは、有形の非一時的コンピュータ可読媒体又は媒体の一部を形成し得るソフトウェアプログラムの形態であってもよい。本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、ＲＡＭメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、及び不揮発性ＲＡＭ（ＮＶＲＡＭ）メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは、例示的なものに過ぎず、したがって、コンピュータプログラムの記憶に使用可能なメモリの種類に限定されない。

ソフトウェアは、システムソフトウェア又はアプリケーションソフトウェアなどの様々な形態であってもよい。更に、ソフトウェアは、別個のプログラムの集合、又はより大きいプログラム内のプログラムモジュール若しくはプログラムモジュールの一部分の形態であってもよい。ソフトウェアはまた、オブジェクト指向プログラミングの形態のモジュール式プログラミングを含んでもよい。検出データを取得した後、検出データは、ユーザー入力に応じて処理された配列決定システム５００Ａによって自動的に処理されてもよく、又は別の処理マシン（例えば、通信リンクを介したリモート要求）によって行われる要求に応じて処理されてもよい。図示の実施態様では、システムコントローラ５０６は分析モジュール５４４を含む。他の実施態様では、システムコントローラ５０６は分析モジュール５４４を含まず、代わりに分析モジュール５４４へのアクセスを有する（例えば、分析モジュール５４４は、クラウド上で別個にホスティングされ得る）。

システムコントローラ５０６は、通信リンクを介して、バイオセンサー５１２及び配列決定システム５００Ａの他の構成要素に接続されてもよい。システムコントローラ５０６はまた、オフサイトシステム又はサーバに通信可能に接続されてもよい。通信リンクは、配線、コード、又は無線であってもよい。システムコントローラ５０６は、ユーザーインターフェース５１８及びユーザー入力デバイス５２２からユーザー入力又はコマンドを受信してもよい。

流体制御システム５０８は、流体ネットワークを含み、流体ネットワークを通る１つ以上の流体の流れを調節するように構成されている。流体ネットワークは、バイオセンサー５１２及び流体貯蔵システム５１４と流体連通していてもよい。例えば、選択された流体が流体貯蔵システム５１４から引き出され、制御された方法でバイオセンサー５１２に方向付けられてもよく、又は流体は、バイオセンサー５１２から引き出され、例えば、流体貯蔵システム５１４内の廃棄物リザーバに方向付けられてもよい。図示されていないが、流体制御システム５０８は、流体ネットワーク内の流体の流量又は圧力を検出する流量センサーを含んでもよい。センサーは、システムコントローラ５０６と通信してもよい。

温度制御システム５０４は、流体ネットワーク、流体貯蔵システム５１４及び／又はバイオセンサー５１２の異なる領域における流体の温度を調節するように構成されている。例えば、温度制御システム５０４は、バイオセンサー５１２と相互作用し、バイオセンサー５１２内の反応部位に沿って流れる流体の温度を制御する熱循環器を含んでもよい。温度制御システム５０４はまた、配列決定システム５００Ａ又はバイオセンサー５１２の中実要素又は構成要素の温度を調節してもよい。図示されていないが、温度制御システム５０４は、流体又は他の構成要素の温度を検出するためのセンサーを含んでもよい。センサーは、システムコントローラ５０６と通信してもよい。

流体貯蔵システム５１４は、バイオセンサー５１２と流体連通しており、所望の反応を行うために使用される様々な反応成分又は反応物質を貯蔵してもよい。流体貯蔵システム５１４はまた、流体ネットワーク及びバイオセンサー５１２を洗浄又はクリーニングし、反応物質を希釈するための流体を貯蔵してもよい。例えば、流体貯蔵システム５１４は、試料、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液などを保存するための様々なリザーバを含んでもよい。更に、流体貯蔵システム５１４はまた、バイオセンサー５１２から廃棄物を受容するための廃棄物リザーバを含んでもよい。カートリッジを含む実施態様形態では、カートリッジは、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの１つ以上を含み得る。したがって、これらのシステムに関する本明細書に記載される構成要素のうちの１つ以上は、カートリッジハウジング内に収容され得る。例えば、カートリッジは、サンプル、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液、廃棄物などを保存するための様々なリザーバを有し得る。したがって、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの１つ以上は、カートリッジ又は他のバイオセンサーを介してバイオアッセイシステムと取り外し可能に係合され得る。

照明システム５１６は、バイオセンサーを照明するための光源（例えば、１つ以上の発光ダイオード（Light-Emitting Diode、ＬＥＤ））及び複数の光学構成要素を含んでもよい。光源の例としては、レーザ、アークランプ、ＬＥＤ、又はレーザダイオードが挙げられ得る。光学部品は、例えば、反射器、偏光板、ビームスプリッタ、コリメータ、レンズ、フィルタ、ウェッジ、プリズム、鏡、検出器などであってもよい。照明システムを使用する実施態様では、照明システム５１６は、励起光を反応部位に方向付けるように構成されてもよい。一例として、蛍光団は、緑色の光の波長によって励起されてもよく、そのため、励起光の波長は約５３２ｎｍであり得る。一実施態様では、照明システム５１６は、バイオセンサー５１２の表面の表面法線に平行な照明を生成するように構成されている。別の実施態様では、照明システム５１６は、バイオセンサー５１２の表面の表面法線に対してオフアングルである照明を生成するように構成されている。更に別の実施態様では、照明システム５１６は、いくつかの平行照明及びある程度のオフアングル照明を含む複数の角度を有する照明を生成するように構成されている。

システム受け部又はインターフェース５１０は、機械的、電気的、及び流体的な方法のうちの少なくとも１つにおいてバイオセンサー５１２と係合するように構成されている。システム受け部５１０は、バイオセンサー５１２を所望の配向に保持して、バイオセンサー５１２を通る流体の流れを容易にし得る。システム受け部５１０はまた、バイオセンサー５１２と係合するように構成された電気接点を含んでもよく、それにより、配列決定システム５００Ａは、バイオセンサー５１２と通信することができ、及び／又はバイオセンサー５１２に電力を供給することができる。更に、システム受け部５１０は、バイオセンサー５１２と係合するように構成された流体ポート（例えば、ノズル）を含んでもよい。いくつかの実施態様では、バイオセンサー５１２は、機械的、電気的、更に流体的な方法で、システム受け部５１０に取り外し可能に連結される。

加えて、配列決定システム５００Ａは、他のシステム若しくはネットワークと遠隔で、又は他のバイオアッセイシステム５００Ａと通信してもよい。バイオアッセイシステム（複数可）５００Ａによって得られた検出データは、リモートデータベースに記憶されてもよい。

図５Ｂは、図５Ａのシステムで使用され得るシステムコントローラ５０６のブロック図である。一実施態様では、システムコントローラ５０６は、互いに通信し得る１つ以上のプロセッサ又はモジュールを含む。プロセッサ又はモジュールのそれぞれは、特定のプロセスを実行するためのアルゴリズム（例えば、有形及び／又は非一時的コンピュータ可読記憶媒体上に記憶された命令）又はサブアルゴリズムを含んでもよい。システムコントローラ５０６は、モジュールの集合として概念的に例示されるが、専用ハードウェアボード、ＤＳＰ、プロセッサなどの任意の組み合わせを利用して実装されてもよい。あるいは、システムコントローラ５０６は、単一のプロセッサ又は複数のプロセッサを備えた既製のＰＣを利用して実装されてもよく、機能動作はプロセッサ間に分散される。更なる選択肢として、以下に記載されるモジュールは、特定のモジュール式機能が専用ハードウェアを利用して実施されるハイブリッド構成を利用して実装されてもよく、残りのモジュール式機能は、既製のＰＣなどを利用して実施される。モジュールはまた、処理ユニット内のソフトウェアモジュールとして実装されてもよい。

動作中、通信ポート５５０は、バイオセンサー５１２（図５Ａ）及び／又はサブシステム５０８、５１４、５０４（図５Ａ）に情報（例えば、コマンド）を送信するか、バイオセンサー５１２（図５Ａ）及び／又はサブシステム５０８、５１４、５０４（図５Ａ）から情報（例えば、データ）を受信し得る。実施態様では、通信ポート５５０は、ピクセル信号の複数の配列を出力し得る。通信リンク５３４は、ユーザーインターフェース５１８からユーザー入力を受信し（図５Ａ）、ユーザーインターフェース５１８にデータ又は情報を送信し得る。バイオセンサー５１２又はサブシステム５０８、５１４、５０４からのデータは、バイオアッセイセッション中に、システムコントローラ５０６によってリアルタイムで処理されてもよい。追加的に又は代替的に、データは、バイオアッセイセッション中にシステムメモリ内に一時的に記憶され、リアルタイム又はオフライン操作よりも遅く処理されてもよい。

図５Ｂに示すように、システムコントローラ５０６は、中央処理装置（ＣＰＵ）５５２と共に主制御モジュール５２４と通信する複数のモジュール５２６～５４８を含んでもよい。主制御モジュール５２４は、ユーザーインターフェース５１８と通信してもよい（図５Ａ）。モジュール５２６～５４８は、主制御モジュール５２４と直接通信するものとして示されているが、モジュール５２６～５４８はまた、互いに、ユーザーインターフェース５１８と、及びバイオセンサー５１２と直接通信してもよい。また、モジュール５２６～５４８は、他のモジュールを介して主制御モジュール５２４と通信してもよい。

複数のモジュール５２６～５４８は、サブシステム５０８、５１４、５０４及び５１６とそれぞれ通信するシステムモジュール５２８～５３２、５２６を含む。流体制御モジュール５２８は、流体ネットワークを通る１つ以上の流体の流れを制御するために、流体制御システム５０８と通信して、流体ネットワークの弁及び流量センサーを制御してもよい。流体貯蔵モジュール５３０は、流体が少ないとき、又は廃棄物リザーバが満タン容量又はほぼ満タン容量にあるときにユーザーに通知してもよい。流体貯蔵モジュール５３０はまた、流体が所望の温度で貯蔵され得るように、温度制御モジュール５３２と通信してもよい。照明モジュール５２６は、所望の反応（例えば、結合事象）が生じた後など、プロトコル中に指定された時間で反応部位を照明するために、照明システム５１６と通信してもよい。いくつかの実施態様では、照明モジュール５２６は、照明システム５１６と通信して、指定された角度で反応部位を照明してもよい。

複数のモジュール５２６～５４８はまた、バイオセンサー５１２と通信するデバイスモジュール５３６と、バイオセンサー５１２に関連する識別情報を決定する識別モジュール５３８と、を含んでもよい。デバイスモジュール５３６は、例えば、システム受け部５１０と通信して、バイオセンサーが配列決定システム５００Ａとの電気的及び流体的接続を確立したことを確認してもよい。識別モジュール５３８は、バイオセンサー５１２を識別する信号を受信してもよい。識別モジュール５３８は、バイオセンサー５１２の識別情報を使用して、他の情報をユーザーに提供してもよい。例えば、識別モジュール５３８は、ロット番号、製造日、又はバイオセンサー５１２で動作することが推奨されるプロトコルを決定し、その後表示してもよい。

複数のモジュール５２６～５４８はまた、バイオセンサー５１２から信号データ（例えば、画像データ）を受信及び分析する分析モジュール５４４（信号処理モジュール又は信号プロセッサとも呼ばれる）も含む。分析モジュール５４４は、検出／画像データを記憶するためのメモリ（例えば、ＲＡＭ又はフラッシュ）を含む。検出データは、ピクセル信号の複数の配列を含むことができ、それにより、数百万個のセンサー（又はピクセル）のそれぞれからのピクセル信号の配列を、多くのベースコールサイクルにわたって検出することができる。信号データは、その後の分析のために記憶されてもよく、又は所望の情報をユーザーに表示するためにユーザーインターフェース５１８に送信されてもよい。いくつかの実施態様では、信号データは、分析モジュール５４４が信号データを受信する前に、固体撮像素子（例えば、ＣＭＯＳ画像センサー）によって処理され得る。

分析モジュール５４４は、複数の配列決定サイクルのそれぞれにおいて、光検出器から画像データを取得するように構成されている。画像データは、光検出器によって検出される発光信号から導出され、ニューラルネットワークベースのベースコーラー１０４を介して、複数の配列決定サイクルのそれぞれに対して画像データを処理し、複数の配列決定サイクルのそれぞれで分析物のうちの少なくともいくつかに対するベースコールを生成する。光検出器は、１つ以上のオーバーヘッドカメラ（例えば、バイオセンサー５１２上のクラスターの画像を上から撮影するＩｌｌｕｍｉｎａのＧＡＩＩｘのＣＣＤカメラ）の一部であってもよく、又はバイオセンサー５１２自体の一部（例えば、バイオセンサー５１２上のクラスターの下にあり、底部からのクラスターの画像を取るＩｌｌｕｍｉｎａのｉＳｅｑのＣＭＯＳ画像センサー）であってもよい。

光検出器の出力は、それぞれクラスターの強度放射及びそれらの周囲背景を示す配列決定画像である。配列決定画像は、配列決定中に配列にヌクレオチドを組み込む結果として生成される強度放射を示す。強度放射は、関連する検体及びそれらの周囲の背景からのものである。配列決定画像は、メモリ５４８に記憶される。

プロトコルモジュール５４０及び５４２は、メイン制御モジュール５２４と通信して、所定のアッセイプロトコルを実施する際にサブシステム５０８、５１４及び５０４の動作を制御する。プロトコルモジュール５４０及び５４２は、所定のプロトコルに従って特定の動作を実行するように配列決定システム５００Ａに指示するための命令セットを含み得る。図示のように、プロトコルモジュールは、配列決定ごとの合成プロセスを実行するための様々なコマンドを発行するように構成された、合成による配列決定（Sequencing-By-Synthesis、ＳＢＳ）モジュール５４０であってもよい。ＳＢＳにおいて、核酸テンプレートに沿った核酸プライマーの伸長を監視して、テンプレート中のヌクレオチド配列を決定する。下にある化学プロセスは、（例えば、ポリメラーゼ酵素により触媒される）又はライゲーション（例えば、リガーゼ酵素により触媒される）であり得る。特定のポリマー系ＳＢＳの実施態様では、プライマーに付加されるヌクレオチドの順序及び種類の検出を使用してテンプレートの配列を決定することができるように、蛍光標識ヌクレオチドをテンプレート依存様式でプライマー（それによってプライマーを伸長させる）に添加する。例えば、第１のＳＢＳサイクルを開始するために、１つ以上の標識されたヌクレオチド、ＤＮＡポリメラーゼなどを、核酸テンプレートのアレイを収容するフローセル内に／それを介して送達することができる。核酸テンプレートは、対応する反応部位に位置してもよい。プライマー伸長が、組み込まれる標識ヌクレオチドを、撮像事象を通して検出することができる、これらの反応部位が検出され得る。撮像イベントの間、照明システム５１６は、反応部位に励起光を提供することができる。任意選択的に、ヌクレオチドは、ヌクレオチドがプライマーに付加されると、更なるプライマー伸長を終結する可逆的終結特性を更に含むことができる。例えば、可逆的ターミネーター部分を有するヌクレオチド類似体をプライマーに付加して、デブロッキング作用因子が送達されてその部分を除去するまで、その後の伸長が起こらないようにすることができる。したがって、可逆終端を使用する別の実施態様では、フローセル（検出前又は検出後）にデブロッキング試薬を送達するために、コマンドを与えることができる。１つ以上のコマンドは、様々な送達工程間の洗浄（複数可）をもたらすために与えられ得る。次いで、サイクルをｎ回繰り返してプライマーをｎヌクレオチドだけ伸長させることによって、長さｎの配列を検出することができる。例示的な配列決定技術は、例えば、Ｂｅｎｔｌｅｙら、Ｎａｔｕｒｅ４５６：５３－５９（２００５）、国際公開第０４／０１５４９７号、米国特許第７，０５７，０２６号、国際公開第９１／０６６７５号、同第０７／１２３７４４号、米国特許第７，３２９，４９２号、同第７，２１１，４１４号、同第７，３１５，０１９号、同第７，４０５，２５１号、及び同第２００５／０１４７０５０５２号に記載されており、これらのそれぞれは、参照により本明細書に組み込まれる。

ＳＢＳサイクルのヌクレオチド送達工程では、単一の種類のヌクレオチドのいずれかを一度に送達することができ、又は複数の異なるヌクレオチドタイプ（例えば、Ａ、Ｃ、Ｔ、及びＧ）を送達することができる。一度に単一の種類のヌクレオチドのみが存在するヌクレオチド送達構成では、異なるヌクレオチドは、個別化された送達に固有の時間的分離に基づいて区別することができるため、異なるヌクレオチドは別個の標識を有する必要はない。したがって、配列決定方法又は装置は、単一の色検出を使用することができる。例えば、励起源は、単一の波長又は単一の波長範囲の励起のみを提供する必要がある。ある時点で、送達がフローセル内に存在する複数の異なるヌクレオチドをもたらすヌクレオチド送達構成では、異なるヌクレオチドタイプを組み込む部位は、混合物中のそれぞれのヌクレオチドタイプに結合された異なる蛍光標識に基づいて区別することができる。例えば、４つの異なる蛍光団のうちの１つをそれぞれ有する４つの異なるヌクレオチドを使用することができる。一実施態様では、４つの異なるフルオロフォアは、スペクトルの４つの異なる領域における励起を使用して区別することができる。例えば、４つの異なる励起放射線源を使用することができる。あるいは、４つ未満の異なる励起源を使用することができるが、単一源からの励起放射線の光学的濾過を使用して、フローセルにおいて異なる励起放射線の範囲を生成することができる。

いくつかの実施態様では、４つ未満の異なる色を、４つの異なるヌクレオチドを有する混合物中で検出することができる。例えば、ヌクレオチドの対は、同じ波長で検出することができるが、対のうちの１つのメンバーに対する強度の差に基づいて、又は、対の他の部材について検出された信号と比較して明らかなシグナルを出現又は消失させる、対の１つのメンバーへの変化（例えば、化学修飾、光化学修飾、又は物理的改質を行うことを介して）に基づいて区別され得る。４個未満の色の検出を使用して４個の異なるヌクレオチドを区別するための例示的な装置及び方法が、例えば、米国特許出願第６１／５３５２９４号及び同第６１／６１９，５７５号に記載されており、それらの全体が参照により本明細書に組み込まれる。２０１２年９月２１日に出願された米国特許出願第１３／６２４，２００号は、その全体が参照により組み込まれる。

複数のプロトコルモジュールはまた、バイオセンサー５１２内の製品を増幅するための流体制御システム５０８及び温度制御システム５０４にコマンドを発行するように構成された試料調製（又は生成）モジュール５４２を含んでもよい。例えば、バイオセンサー５１２は、配列決定システム５００Ａに係合されてもよい。増幅モジュール５４２は、バイオセンサー５１２内の反応チャンバに必要な増幅成分を送達するように、流体制御システム５０８に命令を発行することができる。他の実施態様では、反応部位は、テンプレートＤＮＡ及び／又はプライマーなどの増幅のためのいくつかの成分を既に含有していてもよい。増幅成分を反応チャンバに送達した後、増幅モジュール５４２は、既知の増幅プロトコルに従って異なる温度段階を通して温度制御システム５０４にサイクルするように指示し得る。いくつかの実施態様では、増幅及び／又はヌクレオチドの取り込みは、等温的に実施される。

ＳＢＳモジュール５４０は、クローン性アンプリコンのクラスターがフローセルのチャネル内の局所領域上に形成されるブリッジＰＣＲを実行するコマンドを発行することができる。ブリッジＰＣＲを介してアンプリコンを生成した後、アンプリコンを「線形化」して、一本鎖テンプレートＤＮＡを作製してもよく、ｓｓｔＤＮＡ及び配列決定プライマーは、関心領域に隣接する普遍配列にハイブリダイズされてもよい。例えば、合成方法による可逆的ターミネーター系配列決定を、上記のように又は以下のように使用することができる。

各ベースコール又は配列決定サイクルは、例えば、修飾ＤＮＡポリメラーゼ及び４種類のヌクレオチドの混合物を使用することによって達成することができる単一の塩基によってｓｓｔＤＮＡを延長することができる。異なる種類のヌクレオチドは、固有の蛍光標識を有することができ、各ヌクレオチドは、各サイクルにおいて単一塩基の組み込みのみが生じることを可能にする可逆的ターミネーターを更に有し得る。単一の塩基をｓｓｔＤＮＡに添加した後、励起光が反応部位に入射し、蛍光発光を検出することができる。検出後、蛍光標識及びターミネーターは、ｓｓｔＤＮＡから化学的に切断され得る。別の同様の基本コーリング又は配列決定サイクルは、以下の通りであってもよい。そのような配列決定プロトコルでは、ＳＢＳモジュール５４０は、バイオセンサー５１２を通る試薬及び酵素溶液の流れを方向付けるように流体制御システム５０８に指示することができる。本明細書に記載される装置及び方法と共に利用することができる例示的な可逆性ターミネーターベースのＳＢＳ方法は、米国特許出願公開第２００７／０１６６７０５（Ａ１）号、同第２００６／０１５６^＊３９０１（Ａ１）号、米国特許第７，０５７，０２６号、米国特許出願公開第２００６／０２４０４３９（Ａ１）号、同第２００６／０２５１４７１４７０９（Ａ１）号、国際公開第０５／０６５５１４号、米国特許出願公開第２００５／０１４７００９００（Ａ１）号、国際公開第０６／０５Ｂ１９９号及び国際公開第０７／０１４７０２５１号（それぞれ参照によりその全体が本明細書に組み込まれる）に記載されている。可逆性ターミネーターベースのＳＢＳの例示的な試薬が、米国特許第７，５４１，４４４号、同第７，０５７，０２６号、同第７，４１４，１４７１６号、同第７，４２７，６７３号、同第７，５６６，５３７号、同第７，５９２，４３５号、及び国際公開第０７／１４５３５３６５号に記載されており、これらのそれぞれは、参照により本明細書に組み込まれる。

いくつかの実施態様では、増幅及びＳＢＳモジュールは、単一のアッセイプロトコルで動作してもよく、例えば、テンプレート核酸は増幅され、続いて同じカートリッジ内で配列される。

配列決定システム５００Ａはまた、ユーザーがアッセイプロトコルを再構成することを可能にし得る。例えば、配列決定システム５００Ａは、決定されたプロトコルを修正するために、ユーザーインターフェース５１８を通じてユーザーにオプションを提供し得る。例えば、バイオセンサー５１２が増幅のために使用されると判定された場合、配列決定システム５００Ａは、アニーリングサイクルの温度を要求し得る。更に、配列決定システム５００Ａは、選択されたアッセイプロトコルに対して一般的に許容されないユーザー入力をユーザーが提供した場合に、ユーザーに警告を発行し得る。

実施態様では、バイオセンサー５１２は、センサー（又はピクセル）のミリオンを含み、それらのそれぞれは、連続するベースコールサイクルにわたって複数のピクセル信号の配列を生成する。分析モジュール５４４は、センサーのアレイ上のセンサーの行方向及び／又は列方向の場所に従って、ピクセル信号の複数の配列を検出し、それらを対応するセンサー（又はピクセル）に属させる。

構成可能プロセッサ
図５Ｃは、ベースコールセンサー出力などの配列決定システム５００Ａからのセンサーデータの分析のためのシステムの簡略ブロック図である。図５Ｃの例では、システムは、構成可能プロセッサ５４６を含む。構成可能プロセッサ５４６は、中央処理ユニット（central processing unit、ＣＰＵ）５５２（すなわち、ホストプロセッサ）によって実行されるランタイムプログラムと協調して、ベースコーラー（例えば、ニューラルネットワークベースのベースコーラー１０４）を実行し得る。配列決定システム５００Ａは、バイオセンサー５１２及びフローセルを含む。フローセルは、遺伝物質のクラスターが、遺伝物質中の塩基を識別するためにクラスター内の反応を引き起こすために使用される一連の検体フローに曝露される１つ以上のタイルを含み得る。センサーは、タイルデータを提供するために、フローセルの各タイルにおける配列の各サイクルの反応を感知する。遺伝的配列決定はデータ集約的操作であり、このデータ集約的動作は、ベースコールセンサーデータを、ベースコール動作中に感知された各遺伝物質群のベースコールの配列に変換する。

本実施例のシステムは、ベースコール動作を調整するための実行時プログラムを実行するＣＰＵ５５２と、タイルデータのアレイの配列、ベースコール動作によって生成されたベースコールリード、及びベースコール動作で使用される他の情報を記憶するためのメモリ５４８Ｂと、を含む。また、この図では、システムは、構成ファイル（単数又は複数）、例えば、ＦＰＧＡビットファイル、並びに構成可能プロセッサ５４６を構成及び再構成し、ニューラルネットワークを実行するために使用されるニューラルネットワークのモデルパラメータを記憶しするメモリ５４８Ａを含む。配列決定システム５００Ａは、構成可能プロセッサを構成するためのプログラムを含み得、いくつかの実施態様では、ニューラルネットワークを実行する再構成可能プロセッサを含み得る。

配列決定システム５００Ａは、バス５８９によって構成可能プロセッサ５４６に結合される。バス５８９は、高スループット技術、例えば、一実施例では、ＰＣＩ－ＳＩＧ規格（ＰＣＩＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ）によって現在維持及び開発されているＰＣＩｅ規格（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＥｘｐｒｅｓｓ）と互換性のあるバス技術を使用して実装され得る。また、この実施例では、メモリ５４８Ａは、バス５９３によって構成可能プロセッサ５４６に結合される。メモリ５４８Ａは、構成可能プロセッサ５４６を有する回路基板上に配設されたオンボードメモリであってもよい。メモリ５４８Ａは、ベースコール動作で使用される作業データの構成可能プロセッサ５４６による高速アクセスに使用される。バス５９３はまた、ＰＣＩｅ規格と互換性のあるバス技術などの高スループット技術を使用して実装され得る。

フィールドプログラマブルゲートアレイＦＰＧＡ、粗いグレー構成可能な再構成可能アレイＣＧＲＡｓ、並びに他の構成可能かつ再構成可能なデバイスを含む構成可能なプロセッサは、コンピュータプログラムを実行する汎用プロセッサを使用して達成され得るよりも、より効率的に又はより高速に様々な機能を実装するように構成することができる。構成可能なプロセッサの構成は、時にはビットストリーム又はビットファイルと称される構成ファイルを生成するために機能的な説明を編集することと、構成ファイルをプロセッサ上の構成可能要素に配布することと、を含む。構成ファイルは、データフローパターンを設定するように回路を構成することにより、分散メモリ及び他のオンチップメモリリソースの使用、ルックアップテーブルコンテンツ、構成可能な論理ブロックの動作、及び構成可能な論理ブロックの動作、及び構成可能なアレイの構成可能な相互接続及び他の要素のような構成可能な実行ユニットとを含む。構成ファイルがフィールド内で変更され得る場合、ロードされた構成ファイルを変更することによって構成ファイルを変更することができる場合に再構成可能である。例えば、構成ファイルは、揮発性ＳＲＡＭ要素内に、不揮発性読み書きメモリ素子内に記憶されてもよく、構成可能又は再構成可能なプロセッサ上の構成可能要素のアレイ間に分散されたものであってもよい。様々な市販の構成可能なプロセッサは、本明細書に記載されるようなベースコール動作において使用するのに好適である。例としては、Ｇｏｏｇｌｅのテンソル処理ユニット（ＴＰＵ）（商標）、ＧＸ４ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）、ＧＸ９ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）、ＮＶＩＤＩＡＤＧＸ－１（商標）、Ｍｉｃｒｏｓｏｆｔ’ＳｔｒａｔｉｘＶＦＰＧＡ（商標）、ＧｒａｐｈｃｏｒｅのＩｎｔｅｌｌｉｇｅｎｔＰｒｏｃｅｓｓｏｒＵｎｉｔ（ＩＰＵ）（商標）、ＱｕａｌｃｏｍｍのＺｅｒｏｔｈＰｌａｔｆｏｒｍ（商標）（Ｓｎａｐｄｒａｇｏｎｐｒｏｃｅｓｓｏｒｓ（商標）、ＮＶＩＤＩＡＶｏｌｔａ（商標）、ＮＶＩＤＩＡのドライブＰＸ（商標）、ＮＶＩＤＩＡのＪＥＴＳＯＮＴＸ１／ＴＸ２ＭＯＤＵＬＥ（商標）、Ｉｎｔｅｌ’ｓＮｉｒｖａｎａＴＭ、ＭｏｖｉｄｉｕｓＶＰＵ（商標）、ＦｕｊｉｔｓｕＤＰＩ（商標）、アームＤｙｎａｍｉｃＩＱ（商標）、ＩＢＭＴｒｕｅＮｏｒｔｈ（商標）、ＬａｍｂｄａＧＰＵＳｅｒｖｅｒｗｉｔｈＴｅｓｔａＶ１００ｓ（商標）、ＸｉｌｉｎｘＡｌｖｅｏ（商標）Ｕ２００、ＸｉｌｉｎｘＡｌｖｅｏ（商標）Ｕ２５０、ＸｉｌｉｎｘＡｌｖｅｏ（商標）Ｕ２８０、Ｉｎｔｅｌ／ＡｌｔｅｒａＳｔｒａｔｉｘ（商標）ＧＸ２８００、Ｉｎｔｅｌ／ＡｌｔｅｒａＳｔｒａｔｉｘ（商標）ＧＸ２８００、及びＩｎｔｅｌＳｔｒａｔｉｘ（商標）ＧＸ１０Ｍ、が含まれる。いくつかの実施例では、ホストＣＰＵは、構成可能プロセッサと同じ集積回路上に実装することができる。

本明細書に記載の実施態様は、構成可能プロセッサ５４６を使用して、ニューラルネットワークベースのベースコーラー１０４を実装する。構成可能プロセッサ５４６の構成ファイルは、高レベルの記述言語ＨＤＬ又はレジスタ転送レベルＲＴＬ言語仕様を使用して実行されるロジック機能を指定することによって実装され得る。本明細書は、選択された構成可能プロセッサが構成ファイルを生成するように設計されたリソースを使用してコンパイルすることができる。構成可能なプロセッサではない場合がある特定用途向け集積回路の設計を生成する目的で、同じ又は類似の仕様をコンパイルすることができる。

したがって、本明細書に記載される全ての実施態様における構成可能プロセッサ構成可能プロセッサ５４６の代替例は、本明細書に記載されるようなニューラルネットワークベースのベースコール動作を実行するように構成された、特定用途向けＡＳＩＣ若しくは専用集積回路若しくは集積回路のセットを含む構成されたプロセッサ、又はシステムオンチップＳＯＣデバイス、又はシステムオンチップＳＯＣデバイス、又はグラフィック処理ユニット（ＧＰＵ）プロセッサ若しくは粗粒度再構成可能アーキテクチャ（Coarse-Grained Reconfigurable Architecture、ＣＧＲＡ）プロセッサを含む。

一般に、ニューラルネットワークの動作を実行するように構成された、本明細書に記載の構成可能なプロセッサ及び構成されたプロセッサは、本明細書ではニューラルネットワークプロセッサと称される。

構成可能プロセッサ５４６は、この実施例では、構成可能プロセッサ上で構成可能要素５９１のアレイ（例えば、構成ロジックブロック（Configuration Logic Block、ＣＬＢ）、例えばルックアップテーブル（Look Up Table、ＬＵＴ）、フリップフロップ、演算処理ユニット（ＰＭＵ）、及び計算メモリユニット（Compute Memory Unit、ＣＭＵ）、構成可能なＩ／Ｏブロック、プログラマブル相互接続）を構成する、ＣＰＵ５５２によって実行されるプログラムを使用してロードされる構成ファイル又は他のソースによって、ベースコール関数を実行するように構成されている。この実施例では、構成は、バス５８９及び５９３に結合され、ベースコール動作で使用される要素間でデータ及び制御パラメータを分散するための関数を実行するデータフローロジック５９７を含む。

また、構成可能プロセッサ５４６は、データフローロジック５９７を用いて構成されて、ニューラルネットワークベースのベースコーラー１０４を実行する。ロジック５９７は、マルチサイクル実行クラスター（例えば、５７９）を含み、この実施例では、実行クラスターＸを介した実行クラスター１を含む。マルチサイクル実行クラスターの数は、動作の所望のスループットを伴うトレードオフ、及び構成可能プロセッサ５４６上の利用可能なリソースに従って選択され得る。

マルチサイクル実行クラスターは、構成可能プロセッサ５４６上の構成可能な相互接続及びメモリリソースを使用して実装されるデータ流路５９９によってデータフローロジック５９７に結合される。また、マルチサイクル実行クラスターは、構成可能な相互接続及びメモリリソースを使用して、例えば構成可能プロセッサ５４６上に実装される制御経路５９５によってデータフローロジック５９７に結合され、利用可能な実行クラスターを示す制御信号、ニューラルネットワークベースのベースコーラー１０４の動作の実行のための入力ユニットを利用可能な実行クラスターに提供するための準備、ニューラルネットワークベースのベースコーラー１０４の学習されたパラメータを提供するための準備、ベースコール分類データの出力パッチを提供するための準備、並びにニューラルネットワークベースのベースコーラー１０４の実行に使用される他の制御データを提供する。

構成可能プロセッサ５４６は、学習されたパラメータを使用してニューラルネットワークベースのベースコーラー１０４の動作を実行して、ベースコール動作の検知サイクルに関する分類データを生成するように構成されている。ニューラルネットワークベースのベースコーラー１０４の動作を実行して、ベースコール動作の被験者検知サイクルの分類データを生成する。ニューラルネットワークベースのベースコーラー１０４の動作は、Ｎ個の検知サイクルのそれぞれの検知サイクルからのタイルデータのアレイの数Ｎを含む配列で動作し、Ｎ回の検知サイクルは、本明細書に記載される例での時間配列における動作ごとの１つの塩基位置に対する異なるベースコール動作のためのセンサーデータを提供する。任意選択的に、Ｎ個の感知サイクルのうちのいくつかは、実行される特定のニューラルネットワークモデルに従って必要に応じて、配列から出ることができる。数Ｎは、１を超える任意の数であり得る。本明細書に記載されるいくつかの実施例では、Ｎ個の検知サイクルの検知サイクルは、被験者の検知サイクルに先行する少なくとも１つの検知サイクル、及び被験者サイクルの後の少なくとも１回の検知サイクルについての検知サイクルのセットを表す。本明細書では、数Ｎが５以上の整数である、実施例が記載される。

データフローロジック５９７は、Ｎ個のアレイの空間的に位置合わせされたパッチのタイルデータを含む所与の動作のための入力ユニットを使用して、ニューラルネットワークベースのベースコーラー１０４の動作のために、メモリ５４８Ａから構成可能プロセッサ５４６に、タイルデータ及びモデルパラメータの少なくともいくつかの学習されたパラメータを移動させるように構成されている。入力ユニットは、１回のＤＭＡ動作におけるダイレクトメモリアクセス動作によって、又は、配備されたニューラルネットワークの実行と協調して、利用可能なタイムスロットの間に移動するより小さいユニット内で移動させることができる。

本明細書に記載される感知サイクルのタイルデータは、１つ以上の特徴を有するセンサーデータのアレイを含むことができる。例えば、センサーデータは、ＤＮＡ、ＲＮＡ、又は他の遺伝物質の遺伝的配列における塩基位置で４塩基のうちの１つを識別するために分析される２つの画像を含むことができる。タイルデータはまた、画像及びセンサーに関するメタデータを含むことができる。例えば、ベースコール動作の実施態様では、タイルデータは、タイル上の遺伝物質群の中心からのセンサーデータのアレイ内の各ピクセルの距離を示す中心情報からの距離などの、クラスターとの画像の位置合わせに関する情報を含むことができる。

以下に記載されるように、ニューラルネットワークベースのベースコーラー１０４の実行中に、タイルデータはまた、ニューラルネットワークベースのベースコーラー１０４の実行中に生成されるデータも含み得る。このデータは、ニューラルネットワークベースのベースコーラー１０４の動作中に再計算されるのではなく再使用することができる中間データと称される。例えば、ニューラルネットワークベースのベースコーラー１０４の実行中に、データフローロジック５９７は、タイルデータのアレイの所与のパッチのセンサーデータの代わりに、中間データをメモリ５４８Ａに書き込むことができる。このような実施態様は、以下により詳細に記載される。

図示されているように、ベースコール動作の検知サイクルからタイルのセンサーデータを含むタイルデータを記憶する実行時プログラムによってアクセス可能なメモリ（例えば、５４８Ａ）を含む、ベースコールセンサー出力の分析のためのシステムが説明される。また、システムは、メモリへのアクセスを有する構成可能プロセッサ５４６などのニューラルネットワークプロセッサを含む。ニューラルネットワークプロセッサは、訓練されたパラメータを使用してニューラルネットワークの動作を実行して、感知サイクルのための分類データを生成するように構成される。本明細書に記載されるように、ニューラルネットワークの動作は、被験者サイクルを含むＮ個の感知サイクルのそれぞれの感知サイクルからタイルデータのＮ個のアレイの配列で動作して、被験者サイクルの分類データを生成する。データフローロジック９０８は、Ｎ個の感知サイクルのそれぞれの検知サイクルからのＮ個のアレイの空間的に位置合わせされたパッチのデータを含む入力ユニットを使用して、ニューラルネットワークの実行のために、メモリからニューラルネットワークプロセッサにタイルデータ及び訓練されたパラメータを移動させるために提供される。

また、ニューラルネットワークプロセッサがメモリへのアクセスを有し、複数の実行クラスターを含み、ニューラルネットワークを実行するように構成された複数の実行クラスター内の実行クラスターを含むシステムも説明される。データフローロジック５９７は、複数の実行クラスター内の利用可能な実行クラスターにタイルデータの入力ユニットを提供することであって、入力ユニットは、被験者検知サイクルを含むそれぞれの検知サイクルからタイルデータのアレイのＮ個の空間的に位置合わせされたパッチを含む、ことと、実行クラスターに、Ｎ個の空間的に位置合わせされたパッチをニューラルネットワークに適用して、被験者検知サイクルの空間的に位置合わせされたパッチに対する分類データの出力パッチを生成させることであって、Ｎは１より大きい、ことと、を行うために、メモリへのアクセス及び複数の実行クラスターの中の実行クラスターへのアクセスを有する。

データフローロジック
図６は、ホストプロセッサが、構成可能プロセッサ上で動作するニューラルネットワークによって予測されるベースコールに基づいて信頼できないクラスターをフィルタリングすることを可能にし、更に、構成可能プロセッサが、信頼できないクラスターを識別するデータを使用して信頼できる残りの中間表現を生成することを可能にする、開示されたデータフローロジックの一実施態様を示す。

アクション１では、データフローロジック５９７は、メモリ５４８Ｂから初期クラスターデータを要求する。初期クラスターデータは、上述のように、配列決定動作の初期配列決定サイクル、すなわち、配列決定動作の配列決定サイクルの第１のサブセットにおけるクラスターの強度放射を示す配列決定画像を含む。例えば、初期クラスターデータは、配列決定動作の最初の２５配列決定サイクル（初期配列決定サイクル）の配列決定画像を含み得る。

クラスターは、高い空間密度（例えば、低マイクロメートル又はサブマイクロメートルの解像度）でフローセル上に配置されるため、初期クラスターデータの配列決定画像は、信頼できるクラスター及び信頼できないクラスターの両方を含み得る複数のクラスターからの強度放射を示すことに留意されたい。すなわち、特定の信頼できないクラスターが特定の信頼できるクラスターに隣接している場合、初期クラスターデータの配列決定画像は複数のクラスターから放出された光又は信号を捕捉する光学解像度で捕捉されるため、初期クラスターデータの対応する配列決定画像は、信頼できないクラスター及び信頼できるクラスターの両方からの強度放射を示す。

アクション２では、メモリ５４８Ｂは、初期クラスターデータをデータフローロジック５９７に送信する。

アクション３では、データフローロジック５９７は、初期クラスターデータを構成可能プロセッサ５４６に提供する。

アクション４では、構成可能プロセッサ５４６上で動作するニューラルネットワークベースのベースコーラー１０４は、初期クラスターデータから初期中間表現（例えば、特徴マップ）を生成し（例えば、その空間及び時間的畳み込み層を介して初期クラスターデータを処理することによる）、初期中間表現に基づいて、複数のクラスターに対する、及び初期配列決定サイクルに対する初期ベースコール分類スコアを生成する。一実施態様では、初期ベースコール分類スコアは正規化されず、例えば、ソフトマックス関数による指数正規化に供されない。

アクション５では、構成可能プロセッサ５４６は、正規化されない初期ベースコール分類スコアをデータフローロジック５９７に送信する。

アクション６では、データフローロジック５９７は、正規化されない初期ベースコール分類スコアをホストプロセッサ５５２に提供する。

アクション７では、ホストプロセッサ５５２は、正規化されない初期ベースコール分類スコアを正規化し（例えば、ソフトマックス関数を適用することによる）、正規化された初期ベースコール分類スコア、すなわち初期ベースコールを生成する。

アクション８では、ホストプロセッサ５５２上で動作する検出及びフィルタリングロジック１４６は、正規化された初期ベースコール分類スコア／初期ベースコールを使用して、「信頼できないクラスターの検出及びフィルタリング」という表題のセクションで上述したように、フィルタ値の生成に基づいて、複数のクラスターの中の信頼できないクラスターを識別する。

アクション９では、ホストプロセッサ５５２は、信頼できないクラスターを識別するデータをデータフローロジック５９７に送信する。信頼できないクラスターは、器具ＩＤ、機器上のラン番号、フローセルＩＤ、レーン番号、タイル番号、クラスターのＸ座標、クラスターのＹ座標、及び固有の分子識別子（ＵＭＩ）によって識別することができる。

アクション１０では、データフローロジック５９７は、メモリ５４８Ｂからの残りのクラスターデータを要求する。残りのクラスターデータは、上述のように、配列決定動作の残りの配列決定サイクル、すなわち配列決定動作の配列決定サイクルの第１のサブセットを含まない配列決定動作の配列決定サイクルにおけるクラスターの強度放射を示す配列決定画像を含む。例えば、残りのクラスターデータは、１００サイクル配列決定動作の２６～１００回目の配列決定サイクル（最後の７５配列決定サイクル）の配列画像を含み得る。

クラスターは、高い空間密度（例えば、低マイクロメートル又はサブマイクロメートルの解像度）でフローセル上に配置されるため、残りのクラスターデータの配列決定画像は、信頼できるクラスター及び信頼できないクラスターの両方を含み得る複数のクラスターからの強度放射を示すことに留意されたい。すなわち、特定の信頼できないクラスターが特定の信頼できるクラスターに隣接している場合、残りのクラスターデータの配列決定画像は複数のクラスターから放出された光又は信号を捕捉する光学解像度で捕捉されるため、残りのクラスターデータの対応する配列決定画像は、信頼できないクラスター及び信頼できるクラスターの両方からの強度放射を示す。

アクション１１では、メモリ５４８Ｂは、残りのクラスターデータをデータフローロジック５９７に送信する。

アクション１２では、データフローロジック５９７は、信頼できないクラスターを識別するデータを構成可能プロセッサ５４６に送信する。信頼できないクラスターは、器具ＩＤ、機器上のラン番号、フローセルＩＤ、レーン番号、タイル番号、クラスターのＸ座標、クラスターのＹ座標、及び固有の分子識別子（ＵＭＩ）によって識別することができる。

アクション１３では、データフローロジック５９７は、残りのクラスターデータを構成可能プロセッサ５４６に送信する。

アクション１４では、構成可能プロセッサ５４６上で動作するニューラルネットワークベースのベースコーラー１０４は、残りのクラスターデータから残りの中間表現（例えば、特徴マップ）を生成する（例えば、その空間畳み込み層を介して残りのクラスターデータを処理することによる）。構成可能プロセッサ５４６は、信頼できないクラスターを識別するデータを使用して、残りの中間表現から、残りのクラスターデータの部分から生じる信頼できないクラスターを表す部分を除去することによって、信頼できる残りの中間表現を生成する。一実施態様では、信頼できないクラスターを識別するデータは、初期クラスターデータ及び残りのクラスターデータにおける信頼できないクラスターの強度放射を示すピクセルを識別する。いくつかの実施態様では、構成可能プロセッサ５４６は、ニューラルネットワークベースのベースコーラー１０４によって残りのクラスターデータから生成されたピクセル化された特徴マップから、残りの配列決定サイクルに対して捕捉された信頼できないクラスターの強度放射を示す、残りのクラスターデータのピクセルから生じる特徴マップピクセルを破棄することによって、信頼できる残りの中間表現を生成するように更に構成されている。

アクション１５では、構成可能プロセッサ５４６は、信頼できる残りの中間表現をニューラルネットワークベースのベースコーラー１０４に提供し、ニューラルネットワークベースのベースコーラー１０４に、複数のクラスターの中の、信頼できないクラスターではないクラスターに対する、及び残りの配列決定サイクルに対する残りのベースコール分類スコアのみを生成させることによって、信頼できないクラスターに対する残りのベースコール分類スコアの生成をバイパスするように更に構成されている。一実施態様では、残りのベースコール分類スコアは正規化されず、例えば、ソフトマックス関数による指数正規化に供されない。

アクション１６では、構成可能プロセッサ５４６は、正規化されない残りのベースコール分類スコアをデータフローロジック５９７に送信する。

アクション１７では、データフローロジック５９７は、正規化されない残りのベースコール分類スコアをホストプロセッサ５５２に提供する。

アクション１８では、ホストプロセッサ５５２は、正規化されない残りのベースコール分類スコアを正規化し（例えば、ソフトマックス関数を適用することによる）、正規化された残りのベースコール分類スコア、すなわち残りのベースコールを生成する。

図７は、ホストプロセッサが、構成可能プロセッサ上で動作するニューラルネットワークによって予測されるベースコールに基づいて信頼できないクラスターをフィルタリングすることを可能にし、更に、ホストプロセッサが、信頼できないクラスターを識別するデータを使用して信頼できるクラスターのみをベースコールすることを可能にする、開示されたデータフローロジックの別の実施態様を示す。

アクション９では、ホストプロセッサ５５２は、信頼できないクラスターを識別するデータをデータフローロジック５９７に送信する。

アクション１２では、データフローロジック５９７は、残りのクラスターデータを構成可能プロセッサ５４６に送信する。

アクション１３では、構成可能プロセッサ５４６上で動作するニューラルネットワークベースのベースコーラー１０４は、残りのクラスターデータから残りの中間表現（例えば、特徴マップ）を生成する（例えば、その空間及び時間的畳み込み層を介して残りのクラスターデータを処理することによる）。ニューラルネットワークベースのベースコーラー１０４は、残りの中間表現に基づいて、複数のクラスターに対する、及び残りの配列決定サイクルに対する残りのベースコール分類スコアを更に生成する。一実施態様では、残りのベースコール分類スコアは正規化されず、例えば、ソフトマックス関数による指数正規化に供されない。

アクション１４では、構成可能プロセッサ５４６は、正規化されない残りのベースコール分類スコアをデータフローロジック５９７に送信する。

アクション１５では、データフローロジック５９７は、信頼できないクラスターを識別するデータをホストプロセッサ５５２に送信する。

アクション１６では、データフローロジック５９７は、正規化されない残りのベースコール分類スコアをホストプロセッサ５５２に提供する。

アクション１７では、ホストプロセッサ５５２は、正規化されない残りのベースコール分類スコアを正規化し（例えば、ソフトマックス関数を適用することによる）、信頼できないクラスターを識別するデータを使用して、複数のクラスターの中の、信頼できないクラスターではないクラスターのみをベースコールすることによって正規化された残りのベースコール分類スコア、すなわち、残りのベースコールを生成することによって、残りの配列決定サイクルにおける信頼できないクラスターのベースコールをバイパスする。一実施態様では、信頼できないクラスターを識別するデータは、信頼できないクラスターの位置座標を識別する。

図８は、ホストプロセッサが、構成可能プロセッサ上で動作するニューラルネットワークによって予測されるベースコールに基づいて信頼できないクラスターをフィルタリングすることを可能にし、更に信頼できないクラスターを識別するデータを使用して、信頼できる残りのクラスターごとのデータを生成する、開示されたデータフローロジックの更に別の実施態様を示す。

アクション１では、データフローロジック５９７は、メモリ５４８Ｂから初期のクラスターごとのデータを要求する。クラスターごとのデータは、配列決定画像から抽出され、ベースコールされるターゲットクラスターを中心とする画像パッチを指す。画像パッチの中心ピクセルは、ターゲットクラスターの中心を含む。画像パッチは、ターゲットクラスターに加えて、ターゲットクラスターに隣接する追加のクラスターからの信号も示す。初期のクラスターごとのデータは、上述のように、ターゲットクラスターを中心とする画像パッチを含み、配列決定動作の初期配列決定サイクル、すなわち、配列決定動作の配列決定サイクルの第１のサブセットにおけるターゲットクラスターの強度放射を示す。例えば、初期のクラスターごとのデータは、配列決定動作の最初の２５配列決定サイクル（初期配列決定サイクル）の画像パッチを含み得る。

アクション２では、メモリ５４８Ｂは、初期のクラスターごとのデータをデータフローロジック５９７に送信する。

アクション３では、データフローロジック５９７は、初期のクラスターごとのデータを構成可能プロセッサ５４６に提供する。

アクション４では、構成可能プロセッサ５４６上で動作するニューラルネットワークベースのベースコーラー１０４は、初期のクラスターごとのデータから初期の中間表現（例えば、特徴マップ）を生成し（例えば、その空間及び時間的畳み込み層を介して初期のクラスターごとのデータを処理することによる）、初期中間表現に基づいて、複数のクラスターに対する、及び初期配列決定サイクルに対する初期ベースコール分類スコアを生成する。一実施態様では、初期ベースコール分類スコアは正規化されず、例えば、ソフトマックス関数による指数正規化に供されない。

アクション１０では、データフローロジック５９７は、メモリ５４８Ｂからの残りのクラスターごとのデータを要求する。残りのクラスターごとのデータは、上述のように、ターゲットクラスターを中心とする画像パッチを含み、配列決定動作の残りの配列決定サイクル、すなわち配列決定動作の配列決定サイクルの第１のサブセットを含まない配列決定動作の配列決定サイクルにおけるターゲットクラスターの強度放射を示す。例えば、残りのクラスターごとのデータは、１００サイクル配列決定動作の２６～１００回目の配列決定サイクル（最後の７５配列決定サイクル）の画像パッチを含み得る。

アクション１１では、メモリ５４８Ｂは、残りのクラスターごとのデータをデータフローロジック５９７に送信する。

アクション１２では、データフローロジック５９７は、信頼できないクラスターを識別するデータを使用して、残りのクラスターごとのデータから、信頼できないクラスターを表すクラスターごとのデータを除去することによって、信頼できる残りのクラスターごとのデータを生成する。

アクション１３では、データフローロジック５９７は、信頼できる残りのクラスターごとのデータを構成可能プロセッサ５４６に提供する。

アクション１４では、構成可能プロセッサ５４６上で動作するニューラルネットワークベースのベースコーラー１０４は、複数のクラスターの中の、信頼できないクラスターではないクラスターに対する、及び残りの配列決定サイクルに対する残りのベースコール分類スコアのみを生成させることによって、信頼できないクラスターに対する残りのベースコール分類スコアの生成をバイパスするように更に構成されている。一実施態様では、残りのベースコール分類スコアは正規化されず、例えば、ソフトマックス関数による指数正規化に供されない。

アクション１５では、構成可能プロセッサ５４６は、正規化されない残りのベースコール分類スコアをデータフローロジック５９７に送信する。

アクション１７では、ホストプロセッサ５５２は、正規化されない残りのベースコール分類スコアを正規化し（例えば、ソフトマックス関数を適用することによる）、正規化された残りのベースコール分類スコア、すなわち残りのベースを生成する。

技術的改善
図９、図１０、図１１、図１２、及び図１３は、本明細書に開示され、「ＤｅｅｐＲＴＡ」と称されるデータフローロジックと、Ｒｅａｌ－ＴｉｍｅＡｎａｌｙｓｉｓ（ＲＴＡ）ソフトウェアと呼ばれるＩｌｌｕｍｉｎａの従来のベースコーラーとの対比による空のウェル及び非空ウェルの検出の比較分析の結果を示す。

図９では、３つのプロット全てにおいて、ｘ軸は、最初の２５サイクルにわたる最小スコア差であり、スコア差は、最も高い尤度から２番目に高い尤度を差し引いた結果である。ｙ軸は、１つのタイル内のクラスターの数である。第１のプロットは、ＲＴＡチャスティティフィルタを通過したクラスターでの結果である。中間プロットは空のウェル（ＲＴＡによると、これらのナノウェルにクラスターがない）についてのものである。第３のプロットは、ＲＴＡチャスティティフィルタに失敗したクラスターでの結果である。ＲＴＡチャスティティフィルタを使用して信頼できないものとして検出されたクラスターの多数は、最初の２５サイクルにおける低スコア差の少なくとも１つのインスタンスを有する。

図１０では、１つのタイルの位置合わせメトリックが示されている。最後の列は、ＲＴＡチャスティティフィルタ及びＲＴＡベースコールに基づいて信頼できるクラスターを使用する位置合わせメトリックを示す。最後から２つ目は、ＲＴＡチャスティティフィルタ及びＤｅｅｐＲＴＡベースコールに基づいて信頼できるクラスターを使用する位置合わせメトリックを示す。最初の２列は、開示されたデータフローロジックに基づいてＤｅｅｐＲＴＡベースコール及び信頼できるクラスターを使用する位置合わせメトリックであり、閾値は０．８（第１の列）、又は０．９（第２の列）であり、最初の２５サイクルのうちの２つは、信頼できないと見なされる閾値を満たしていない必要がある。

図１１では、図１０と同様に、０．９７閾値が追加されている。開示されたデータフローロジック及び閾値０．９７を使用すると、同様の（又はより良い）位置合わせメトリックを維持しながら、ＲＴＡチャスティティフィルタを使用することと比較してより多くのクラスターが信頼できるものとして検出される。

図１２は、配列決定動作の１８個のタイルからのデータに基づく位置合わせメトリックを示す。第１の列は、閾値０．９７を使用したＤｅｅｐＲＴＡベースコール及び信頼できるクラスターであり（最高尤度から２番目に高い尤度を差し引く）、最初の２５サイクルのうちの２つは、信頼できないと見なされる閾値を下回る必要がある。最後の列は、ＲＴＡチャスティティフィルタを使用したＤｅｅｐＲＴＡベースコール及び信頼できるクラスターである。開示されたデータフローロジックを使用すると、同様の位置合わせメトリックを維持しながら、ＲＴＡチャスティティフィルタを使用することと比較してより多くのクラスターが信頼できるものとして検出される。

図１３は、ＲＴＡチャスティティフィルタと、異なる閾値を使用した開示されたデータフローロジックとの比較を示す。開示されたデータフローロジックによって検出された信頼できないクラスターの大きな割合も、ＲＴＡチャスティティフィルタによって信頼できないものとして検出された。

コンピュータシステム
図１４は、本明細書に開示されたベースコール技術を実施するために配列決定システム５００Ａによって使用され得るコンピュータシステム１４００である。コンピュータシステム１４００は、バスサブシステム１４５５を介して多数の周辺デバイスと通信する少なくとも１つの中央処理装置（ＣＰＵ）１４７２を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイル記憶サブシステム１４３６を含む記憶サブシステム８５８、ユーザーインターフェース入力デバイス１４３８、ユーザーインターフェース出力デバイス１４７６、並びにネットワークインターフェースサブシステム１４７４を含むことができる。入力デバイス及び出力デバイスは、コンピュータシステム１４００とのユーザー対話を可能にする。ネットワークインターフェースサブシステム１４７４は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。

一実施態様では、システムコントローラ５０６は、記憶サブシステム１４１０及びユーザーインターフェース入力デバイス１４３８に通信可能にリンクされている。

ユーザーインターフェース入力デバイス１４３８は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含んでもよい。一般に、用語「入力デバイス」の使用は、コンピュータシステム１４００に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。

ユーザーインターフェース出力デバイス１４７６は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、ＬＥＤディスプレイ、陰極線管（Cathode Ray Tube、ＣＲＴ）、液晶ディスプレイ（Liquid Crystal Display、ＬＣＤ）などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、音声出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステム１４００からユーザー又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方式を含むことを意図している。

記憶サブシステム８５８は、本明細書に記載されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、概して、深層学習プロセッサ１４７８によって実行される。

深層学習プロセッサ１４７８は、グラフィック処理ユニット（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、及び／又は粗粒化再構成可能構造（ＣＧＲＡ）であり得る。深層学習プロセッサ１４７８は、ＧｏｏｇｌｅＣｌｏｕｄＰｌａｔｆｏｒｍ（商標）、Ｘｉｌｉｎｘ（商標）及びＣｉｒｒａｓｃａｌｅ（商標）などの深層学習クラウドプラットフォームによってホスティングされ得る。深層学習プロセッサ１４７８の例は、ＧｏｏｇｌｅのＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＴＰＵ）（商標）、ＧＸ４ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）、ＧＸ１４ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）のようなラックマウントソリューション、ＮＶＩＤＩＡＤＧＸ－１（商標）、Ｍｉｃｒｏｓｏｆｔ’ＳｔｒａｔｉｘＶＦＰＧＡ（商標）、ＧｒａｐｈｃｏｒｅのＩｎｔｅｌｌｉｇｅｎｔＰｒｏｃｅｓｓｏｒＵｎｉｔ（ＩＰＵ）（商標）、Ｓｎａｐｄｒａｇｏｎｐｒｏｃｅｓｓｏｒｓ（商標）を有するＱｕａｌｃｏｍｍのＺｅｒｏｔｈＰｌａｔｆｏｒｍ（商標）、ＮＶＩＤＩＡのＶｏｌｔａ（商標）、ＮＶＩＤＩＡのＤＲＩＶＥＰＸ（商標）、ＮＶＩＤＩＡのＪＥＴＳＯＮＴＸ１／ＴＸ２ＭＯＤＵＬＥ（商標）、ＩｎｔｅｌのＮｉｒｖａｎａ（商標）、ＭｏｖｉｄｉｕｓＶＰＵ（商標）、ＦｕｊｉｔｓｕＤＰＩ（商標）、ＡＲＭのＤｙｎａｍｉｃＩＱ（商標）、ＩＢＭＴｒｕｅＮｏｒｔｈ（商標）、ＴｅｓｔａＶ１００ｓ（商標）を有するＬａｍｂｄａＧＰＵＳｅｒｖｅｒ、及び他のものを含む。

記憶サブシステム８５８で使用されるメモリサブシステム１４２２としては、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ（random access memory、ＲＡＭ）１４３２と、固定命令が記憶された読み取り専用メモリ（read only memory、ＲＯＭ）１４３４と、を含む多数のメモリが挙げられ得る。ファイル記憶サブシステム１４３６は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、これには、ハードディスクドライブ、関連する取り外し可能な媒体を伴うフロッピーディスクドライブ、ＣＤ－ＲＯＭドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジが挙げられ得る。特定の実施態様の機能を実装するモジュールは、ファイル記憶サブシステム１４３６によって記憶サブシステム８５８内に、又はプロセッサによってアクセス可能な他のマシン内に記憶され得る。

バスサブシステム１４５５は、コンピュータシステム１４００の様々な構成要素及びサブシステムを、意図されるように互いに通信させるための機構を提供する。バスサブシステム１４５５は、単一のバスとして概略的に示されているが、バスサブシステムの代替実施態様は、複数のバスを使用することができる。

コンピュータシステム１４００自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩くネットワーク化されたコンピュータの広く分散されたセット、又は任意の他のデータ処理システム若しくはユーザーデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークは絶え間なく変化する性質のものであるため、図１４に示されるコンピュータシステム１４００の説明は、本発明の好ましい実施態様を例示する目的のための特定の実施例としてのみ意図される。コンピュータシステム１４００の多くの他の構成は、図１４に示されるコンピュータシステムよりも多くの又は少ない構成要素を有することができる。

特定の実施態様
人工知能予測ベースコールに基づいたクラスターのフィルタリングの様々な実施態様を説明する。実施態様の１つ以上の特徴は、基本の実施態様と組み合わせることができ、システム、方法、又は物品として実施することができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の１つ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらのオプションのユーザーを定期的に通知する。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施態様の各々に参照することにより本明細書に組み込まれる。

一実施態様では、開示された技術は、ニューラルネットワークベースのベースコールの精度及び効率を改善するために、信頼できないクラスターを識別するコンピュータ実装方法を提案する。開示された技術は、複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第１のサブセットに対するサイクルごとのクラスターデータにアクセスする。

開示された技術は、ニューラルネットワークベースのベースコーラーを使用して、配列決定サイクルの第１のサブセット内のそれぞれの配列決定サイクルにおいて複数のクラスターの中のそれぞれのクラスターをベースコールする。これは、ニューラルネットワークベースのベースコーラーを介してサイクルごとのクラスターデータを処理し、サイクルごとのクラスターデータの中間表現を生成することを含む。これは、出力層を介して中間表現を処理し、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するクラスターごと、サイクルごとの確率四分位数を生成することを更に含む。特定のクラスターごと、サイクルごとの確率四分位数は、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基である、Ａ、Ｃ、Ｔ、及びＧの確率を識別する。

開示された技術は、それぞれのクラスターごと、サイクルごとの確率四分位数が識別する確率に基づいて、それぞれのクラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することによって、それぞれのクラスターのフィルタ値の配列を生成する。

開示された技術は、複数のクラスターの中の、フィルタ値の配列が閾値「Ｍ」を下回る「Ｎ」個のフィルタ値を含むクラスターを信頼できないクラスターとして識別する。

開示された技術は、配列決定動作の配列決定サイクルの残りにおける信頼できないクラスターのベースコールをバイパスすることによって、ニューラルネットワークベースのベースコーラーを使用して、配列決定サイクルの残りにおいて、複数のクラスターの中の、信頼できないクラスターとして識別されないクラスターのみをベースコールする。

項目
１．ベースコールの精度及び効率を改善するために信頼できないクラスターを識別するコンピュータ実装方法であって、方法は、
複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第１のサブセットに対するサイクルごとのクラスターデータにアクセスすることと、
配列決定サイクルの第１のサブセット内のそれぞれの配列決定サイクルにおいて複数のクラスターの中のそれぞれのクラスターをベースコールすることであって、
サイクルごとのクラスターデータを処理し、サイクルごとのクラスターデータの中間表現を生成することと、
出力層を介して中間表現を処理し、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するクラスターごと、サイクルごとの確率四分位数を生成することと、を含み、特定のクラスターごと、サイクルごとの確率四分位数は、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基であるＡ、Ｃ、Ｔ、及びＧの確率を識別する、ことと、
それぞれのクラスターごと、サイクルごとの確率四分位数が識別する確率に基づいて、それぞれのクラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することによって、それぞれのクラスターのフィルタ値の配列を生成することと、
複数のクラスターの中の、フィルタ値の配列が閾値「Ｍ」を下回る少なくとも「Ｎ」個のフィルタ値を含むクラスターを信頼できないクラスターとして識別することと、
配列決定動作の配列決定サイクルの残りにおける信頼できないクラスターのベースコールをバイパスすることによって、配列決定サイクルの残りにおいて、複数のクラスターの中の、信頼できないクラスターとして識別されないクラスターのみをベースコールすることと、を含む、コンピュータ実装方法。
２．クラスターごと、サイクルごとの確率四分位数に対するフィルタ値は、確率のうちの１つ以上を含む算術演算に基づいて決定される、項目１に記載のコンピュータ実装方法。
３．算術演算は減算である、項目１～２に記載のコンピュータ実装方法。
４．クラスターごと、サイクルごとの確率四分位数に対するフィルタ値は、確率のうちの最高確率から確率のうちの２番目に高い確率を差し引くことによって決定される、項目１～３に記載のコンピュータ実装方法。
５．算術演算は除算である、項目１～４に記載のコンピュータ実装方法。
６．クラスターごと、サイクルごとの確率四分位数に対するフィルタ値は、確率のうちの最高確率と確率のうちの２番目に高い確率との比として決定される、項目１～５に記載のコンピュータ実装方法。
７．算術演算は加算である、項目１～６に記載のコンピュータ実装方法。
８．算術演算は乗算である、項目１～７に記載のコンピュータ実装方法。
９．「Ｎ」は１～５の範囲である、項目１～８に記載のコンピュータ実装方法。
１０．「Ｍ」は０．５～０．９９の範囲である、項目１～９に記載のコンピュータ実装方法。
１１．第１のサブセットは、配列決定動作の１～２５回の配列決定サイクルを含む、項目１～１０に記載のコンピュータ実装方法。
１２．第１のサブセットは、配列決定動作の１～５０回の配列決定サイクルを含む、項目１～１１に記載のコンピュータ実装方法。
１３．出力層はソフトマックス層であり、クラスターごと、サイクルごとの確率四分位数での確率は、合計すると１になる、指数関数的に正規化された分類スコアである、項目１～１２に記載のコンピュータ実装方法。
１４．信頼できないクラスターは、パターン化されたフローセル上の、空のウェル、多クローン性ウェル、及び曖昧なウェルを示す、項目１～１３に記載のコンピュータ実装方法。
１５．フィルタ値は、フィルタリング関数によって生成される、項目１～１４に記載のコンピュータ実装方法。
１６．フィルタリング関数は、最も明るいベース強度を、最も明るいベース強度と２番目に明るいベース強度との合計で割った比としてチャスティティを定義するチャスティフィルタである、項目１～１５に記載のコンピュータ実装方法。
１７．フィルタリング関数は、最大対数確率関数、最小二乗誤差関数、平均信号対雑音比（ＳＮＲ）、及び最小絶対誤差関数のうちの少なくとも１つである、項目１～１６に記載のコンピュータ実装方法。
１８．
サイクルごとのクラスターデータの強度データに基づいて、それぞれのクラスターに対する配列決定サイクルの第１のサブセット内の配列決定サイクルの平均ＳＮＲを決定することであって、強度データは、複数のクラスターの中のクラスターの強度放射及び周囲の背景の強度放射を示す、ことと、
複数のクラスターの中の、平均ＳＮＲが閾値を下回るクラスターを信頼できないクラスターとして識別することと、を更に含む、項目１～１７に記載のコンピュータ実装方法。
１９．
配列決定サイクルの第１のサブセット内の配列決定サイクルに対して生成されたクラスターごと、サイクルごとの確率四分位数での最大確率スコアに基づいて、それぞれのクラスターの平均確率スコアを決定することと、
複数のクラスターの中の、平均確率スコアが閾値を下回るクラスターを信頼できないクラスターとして識別することと、を更に含む、項目１～１８に記載のコンピュータ実装方法。
２０．ニューラルネットワークベースのベースコールの精度及び効率を改善するためのシステムであって、システムは、
メモリであって、複数のクラスターについて、配列決定動作の初期配列決定サイクルに対する初期クラスターデータと、配列決定動作の残りの配列決定サイクルに対する残りのクラスターデータと、を記憶する、メモリと、
ホストプロセッサであって、メモリへのアクセスを有し、検出及びフィルタリングロジックを実行して信頼できないクラスターを識別するように構成された、ホストプロセッサと、
構成可能プロセッサであって、メモリへのアクセスを有し、ニューラルネットワークを実行してベースコール分類スコアを生成するように構成された、構成可能プロセッサと、
データフローロジックであって、メモリ、ホストプロセッサ、及び構成可能プロセッサへのアクセスを有し、
初期クラスターデータをニューラルネットワークに提供し、ニューラルネットワークに、初期クラスターデータから初期中間表現を生成することに基づいて、複数のクラスターに対する、及び初期配列決定サイクルに対する初期ベースコール分類スコアを生成させることと、
初期ベースコール分類スコアを検出及びフィルタリングロジックに提供し、検出及びフィルタリングロジックに、初期ベースコール分類スコアからフィルタ値を生成することに基づいて、複数のクラスターの中の信頼できないクラスターを識別させることと、
残りのクラスターデータをニューラルネットワークに提供し、ニューラルネットワークに、残りのクラスターデータから残りの中間表現を生成させることと、
信頼できないクラスターを識別するデータを構成可能プロセッサに提供し、構成可能プロセッサに、残りの中間表現から、残りのクラスターデータの部分から生じる信頼できないクラスターを表す部分を除去することによって、信頼できる残りの中間表現を生成させることと、を行うように構成された、データフローロジックと、を備える、システム。
２１．構成可能プロセッサは、信頼できる残りの中間表現をニューラルネットワークに提供し、ニューラルネットワークに、複数のクラスターの中の、信頼できないクラスターではないクラスターに対する、及び残りの配列決定サイクルに対する残りのベースコール分類スコアのみを生成させることによって、信頼できないクラスターに対する残りのベースコール分類スコアの生成をバイパスするように更に構成されている、項目２０に記載のシステム。
２２．初期及び残りのベースコール分類スコアは正規化されない、項目２０～２１に記載のシステム。
２３．データフローロジックは、正規化されない初期及び残りのベースコール分類スコアをホストプロセッサに提供し、ホストプロセッサに、出力関数を適用させ、合計すると１になる、指数関数的に正規化された初期及び残りのベースコール分類スコアを生成させ、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基であるＡ、Ｃ、Ｔ、及びＧの確率を示させるように更に構成されており、
出力関数は、ソフトマックス関数、ｌｏｇ－ｓｏｆｔｍａｘ関数、アンサンブル出力平均関数、多層パーセプトロン不確実関数、ベイズガウス分布関数、及びクラスター強度関数のうちの少なくとも１つである、項目２０～２２に記載のシステム。
２４．ホストプロセッサは、確率のうちの１つ以上を含む算術演算に基づいて、指数関数的に正規化された初期ベースコール分類スコアからフィルタ値を生成するように更に構成されている、項目２０～２３に記載のシステム。
２５．算術演算は減算である、項目２０～２４に記載のシステム。
２６．フィルタ値は、確率のうちの最高確率から確率のうちの２番目に高い確率を差し引くことによって生成される、項目２０～２５に記載のシステム。
２７．算術演算は除算である、項目２０～２６に記載のシステム。
２８．フィルタ値は、確率のうちの最高確率と確率のうちの２番目に高い確率との比として生成される、項目２０～２７に記載のシステム。
２９．算術演算は加算である、項目２０～２８に記載のシステム。
３０．算術演算は乗算である、項目２０～２９に記載のシステム。
３１．ホストプロセッサは、初期クラスターデータ内の強度データからそれぞれのクラスターに対して決定された平均信号対雑音比（ＳＮＲ）に基づいてフィルタ値を生成するように更に構成されており、強度データは、複数のクラスターの中のクラスターの強度放射及び周囲の背景の強度放射を示す、項目項目２０～３０に記載のシステム。
３２．ホストプロセッサは、初期ベースコール分類スコアの中の最大分類スコアからそれぞれのクラスターに対して決定された平均確率スコアに基づいてフィルタ値を生成するように更に構成されている、項目２０～３１に記載のシステム。
３３．信頼できないクラスターを識別するデータは、信頼できないクラスターの位置座標を識別する、項目２０～３２に記載のシステム。
３４．ホストプロセッサは、複数のクラスターの中の、閾値「Ｍ」を下回る初期配列決定サイクルの「Ｎ」個のフィルタ値を有するクラスターを信頼できないクラスターとして識別するように更に構成されている、項目２０～３３に記載のシステム。
３５．「Ｎ」は１～５の範囲である、項目２０～３４に記載のシステム。
３６．「Ｍ」は０．５～０．９９の範囲である、項目２０～３５に記載のシステム。
３７．ホストプロセッサは、指数関数的に正規化された残りのベースコール分類スコアのうちの最高スコアに基づいて、残りの配列決定サイクルにおいて複数のクラスターの中の、信頼できないクラスターではないクラスターのみをベースコールすることによって、残りの配列決定サイクルにおける信頼できないクラスターのベースコールをバイパスするように更に構成されている、項目２０～３６に記載のシステム。
３８．初期クラスターデータ及び残りのクラスターデータはピクセル化されたデータであり、
中間表現はピクセル化された特徴マップであり、
部分はピクセルである、項目２０～３７に記載のシステム。
３９．信頼できないクラスターを識別するデータは、初期クラスターデータ及び残りのクラスターデータにおける信頼できないクラスターの強度放射を示すピクセルを識別する、項目２０～３８に記載のシステム。
４０．信頼できないクラスターを識別するデータは、いずれの強度放出も示さないピクセルを識別する、項目２０～３９に記載のシステム。
４１．構成可能プロセッサは、ニューラルネットワークの空間畳み込み層によって、残りのクラスターデータから生成されたピクセル化された特徴マップから、残りの配列決定サイクルに対して捕捉された信頼できないクラスターの強度放射を示す、残りのクラスターデータのピクセルから生じる特徴マップピクセルを破棄することによって、信頼できる残りの中間表現を生成するように更に構成されている、項目２０～４０に記載のシステム。
４２．残りの中間表現は、信頼できる残りの中間表現の４～９倍の合計ピクセル数を有する、項目２０～４１に記載のシステム。
４３．破棄することは、ニューラルネットワークに、より少ないピクセルで動作させることでより少ない計算動作を実行することによって、残りのベースコール分類スコアを生成させる、項目２０～４２に記載のシステム。
４４．破棄することは、クラスター強度状態情報を含む、構成可能プロセッサとの間でやり取りされるデータの量、及びデータ記憶の量を低減させる、項目２０～４３に記載のシステム。
４５．信頼できないクラスターは、パターン化されたフローセル上の、空のウェル、多クローン性ウェル、及び曖昧なウェルを示す、項目２０～４４に記載のシステム。
４６．ニューラルネットワークベースのベースコールの精度及び効率を改善するためのシステムであって、システムは、
メモリであって、複数のクラスターについて、配列決定動作の初期配列決定サイクルに対する初期クラスターデータと、配列決定動作の残りの配列決定サイクルに対する残りのクラスターデータと、を記憶する、メモリと、
ホストプロセッサであって、メモリへのアクセスを有し、検出及びフィルタリングロジックを実行して信頼できないクラスターを識別するように構成された、ホストプロセッサと、
構成可能プロセッサであって、メモリへのアクセスを有し、ニューラルネットワークを実行してベースコール分類スコアを生成するように構成された、構成可能プロセッサと、
データフローロジックであって、メモリ、ホストプロセッサ、及び構成可能プロセッサへのアクセスを有し、
初期クラスターデータをニューラルネットワークに提供し、ニューラルネットワークに、初期クラスターデータから初期中間表現を生成することに基づいて、複数のクラスターに対する、及び初期配列決定サイクルに対する初期ベースコール分類スコアを生成させることと、
初期ベースコール分類スコアを検出及びフィルタリングロジックに提供し、検出及びフィルタリングロジックに、初期ベースコール分類スコアからフィルタ値を生成することに基づいて、複数のクラスターの中の信頼できないクラスターを識別させることと、
残りのクラスターデータをニューラルネットワークに提供し、ニューラルネットワークに、残りのクラスターデータから残りの中間表現を生成することに基づいて、複数のクラスターに対する、及び残りの配列決定サイクルに対する残りのベースコール分類スコアを生成させることと、
残りのベースコール分類スコアをホストプロセッサに提供し、ホストプロセッサに、信頼できないクラスターを識別するデータを使用して、複数のクラスターの中の、信頼できないクラスターではないクラスターのみをベースコールさせることによって、残りの配列決定サイクルにおける信頼できないクラスターのベースコールをバイパスすることと、を行うように構成された、データフローロジックと、を備える、システム。
４７．ニューラルネットワークベースのベースコールの精度及び効率を改善するためのシステムであって、システムは、
メモリであって、複数のクラスターについて、配列決定動作の初期配列決定サイクルに対する初期のクラスターごとのデータと、配列決定動作の残りの配列決定サイクルに対する残りのクラスターごとのデータと、を記憶する、メモリと、
ホストプロセッサであって、メモリへのアクセスを有し、検出及びフィルタリングロジックを実行して信頼できないクラスターを識別するように構成された、ホストプロセッサと、
構成可能プロセッサであって、メモリへのアクセスを有し、ニューラルネットワークを実行してベースコール分類スコアを生成するように構成された、構成可能プロセッサと、
データフローロジックであって、メモリ、ホストプロセッサ、及び構成可能プロセッサへのアクセスを有し、
初期のクラスターごとのデータをニューラルネットワークに提供し、ニューラルネットワークに、初期のクラスターごとのデータから初期中間表現を生成することに基づいて、複数のクラスターに対する、及び初期配列決定サイクルに対する初期ベースコール分類スコアを生成させることと、
初期ベースコール分類スコアを検出及びフィルタリングロジックに提供し、検出及びフィルタリングロジックに、初期ベースコール分類スコアからフィルタ値を生成することに基づいて、複数のクラスターの中の信頼できないクラスターを識別させることと、
信頼できないクラスターを識別するデータを使用して、残りのクラスターごとのデータから、信頼できないクラスターを表すクラスターごとのデータを除去することによって、信頼できる残りのクラスターごとのデータを生成することと、
信頼できる残りのクラスターごとのデータをニューラルネットワークに提供し、ニューラルネットワークに、複数のクラスターの中の、信頼できないクラスターではないクラスターに対する、及び残りの配列決定サイクルに対する残りのベースコール分類スコアのみを生成させることによって、信頼できないクラスターに対する残りのベースコール分類スコアの生成をバイパスすることと、を行うように構成された、データフローロジックと、を備える、システム。
４８．信頼できないクラスターを識別して、ベースコールの精度及び効率を改善するためのコンピュータプログラム命令が記憶された非一時的コンピュータ可読記憶媒体であって、該命令は、プロセッサ上で実行されると、
複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第１のサブセットに対するサイクルごとのクラスターデータにアクセスすることと、
配列決定サイクルの第１のサブセット内のそれぞれの配列決定サイクルにおいて複数のクラスターの中のそれぞれのクラスターをベースコールすることであって、
サイクルごとのクラスターデータを処理し、サイクルごとのクラスターデータの中間表現を生成することと、
出力層を介して中間表現を処理し、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するクラスターごと、サイクルごとの確率四分位数を生成することと、を含み、特定のクラスターごと、サイクルごとの確率四分位数は、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基であるＡ、Ｃ、Ｔ、及びＧの確率を識別する、ことと、
それぞれのクラスターごと、サイクルごとの確率四分位数が識別する確率に基づいて、それぞれのクラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することによって、それぞれのクラスターのフィルタ値の配列を生成することと、
複数のクラスターの中の、フィルタ値の配列が閾値「Ｍ」を下回る少なくとも「Ｎ」個のフィルタ値を含むクラスターを信頼できないクラスターとして識別することと、
配列決定動作の配列決定サイクルの残りにおける信頼できないクラスターのベースコールをバイパスすることによって、配列決定サイクルの残りにおいて、複数のクラスターの中の、信頼できないクラスターとして識別されないクラスターのみをベースコールすることと、を含む方法を実施する、非一時的コンピュータ可動記憶媒体。
４９．メモリに結合された１つ以上のプロセッサを含むシステムであって、メモリは、ベースコールを実施するためのコンピュータ命令がロードされ、命令は、プロセッサ上で実行されると、
複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第１のサブセットに対するサイクルごとのクラスターデータにアクセスすることと、
配列決定サイクルの第１のサブセット内のそれぞれの配列決定サイクルにおいて複数のクラスターの中のそれぞれのクラスターをベースコールすることであって、
サイクルごとのクラスターデータを処理し、サイクルごとのクラスターデータの中間表現を生成することと、
出力層を介して中間表現を処理し、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するクラスターごと、サイクルごとの確率四分位数を生成することと、を含み、特定のクラスターごと、サイクルごとの確率四分位数は、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基であるＡ、Ｃ、Ｔ、及びＧの確率を識別する、ことと、
それぞれのクラスターごと、サイクルごとの確率四分位数が識別する確率に基づいて、それぞれのクラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することによって、それぞれのクラスターのフィルタ値の配列を生成することと、
複数のクラスターの中の、フィルタ値の配列が閾値「Ｍ」を下回る少なくとも「Ｎ」個のフィルタ値を含むクラスターを信頼できないクラスターとして識別することと、
配列決定動作の配列決定サイクルの残りにおける信頼できないクラスターのベースコールをバイパスすることによって、配列決定サイクルの残りにおいて、複数のクラスターの中の、信頼できないクラスターとして識別されないクラスターのみをベースコールすることと、を含むアクションを実施する、システム。

本発明は、上述の好ましい実施形態及び実施例を参照して開示されているが、これらの実施例は、限定的な意味でではなく例示的な意味で意図されていることが理解されるべきである。当業者であれば、変更及び組み合わせが容易に生じ、その変更及び組み合わせは、本発明の趣旨及び以下の特許請求の範囲の範囲内にあると考えられる。

１０２データプロバイダ
１０４ニューラルネットワークベースのベースコーラー
１０６確率四分位数
１１２サイクルごとのクラスターデータ
１１６フィルタ計算機
１２４信頼できないクラスター
１２６フィルタ値
１３２画像生成システム
１３６信頼できないクラスター識別子
１４２バイパスロジック
１４６検出及びフィルタリングロジック
５００配列決定システム
５０２共通のハウジング
５０４温度制御システム
５０６システムコントローラ
５０８流体制御システム
５１０システム受け部
５１２バイオセンサー
５１４流体貯蔵システム
５１６照明システム
５１８ユーザーインターフェース
５２０ディスプレイ
５２２ユーザー入力デバイス
５２４主制御モジュール
５２６照明モジュール
５２８流体制御モジュール
５３０流体貯蔵モジュール
５３２温度制御モジュール
５３４通信リンク
５３６デバイスモジュール
５３８識別モジュール
５４２増幅モジュール
５４４分析モジュール
５４６構成可能プロセッサ
５４８メモリ
５５０通信ポート
５５２ホストプロセッサ
５８９バス
５９３バス
５９５制御経路
５９７データフローロジック
５９９データ流路
１４００コンピュータシステム
１４１０記憶サブシステム
１４２２使用されるメモリサブシステム
１４３２ＲＡＭ
１４３４ＲＯＭ
１４３６ファイル記憶サブシステム
１４３８ユーザーインターフェース入力デバイス
１４５５バスサブシステム
１４７２中央処理装置（ＣＰＵ）
１４７４ネットワークインターフェースサブシステム
１４７６ユーザーインターフェース出力デバイス
１４７８深層学習プロセッサ

Claims

信頼できないクラスターを識別して、ベースコールの精度及び効率を改善するコンピュータ実装方法であって、前記方法は、
複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第１のサブセットに対するサイクルごとのクラスターデータにアクセスすることと、
前記配列決定サイクルの第１のサブセット内のそれぞれの配列決定サイクルにおいて前記複数のクラスターの中のそれぞれのクラスターをベースコールすることであって、
前記サイクルごとのクラスターデータを処理し、前記サイクルごとのクラスターデータの中間表現を生成することと、
出力層を介して前記中間表現を処理し、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するクラスターごと、サイクルごとの確率四分位数を生成することと、を含み、特定のクラスターごと、サイクルごとの確率四分位数は、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基であるＡ、Ｃ、Ｔ、及びＧの確率を識別する、ことと、
それぞれのクラスターごと、サイクルごとの確率四分位数が識別する前記確率に基づいて、前記それぞれのクラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することによって、それぞれのクラスターのフィルタ値の配列を生成することと、
前記複数のクラスターの中の、フィルタ値の配列が閾値「Ｍ」を下回る少なくとも「Ｎ」個のフィルタ値を含むクラスターを信頼できないクラスターとして識別することと、
前記配列決定動作の配列決定サイクルの残りにおける前記信頼できないクラスターのベースコールをバイパスすることによって、前記配列決定サイクルの残りにおいて、前記複数のクラスターの中の、前記信頼できないクラスターとして識別されないクラスターのみをベースコールすることと、を含む、コンピュータ実装方法。
クラスターごと、サイクルごとの確率四分位数に対する前記フィルタ値は、前記確率のうちの１つ以上を含む算術演算に基づいて決定される、請求項１に記載のコンピュータ実装方法。
前記算術演算は減算である、請求項１～２のいずれか一項に記載のコンピュータ実装方法。
前記クラスターごと、サイクルごとの確率四分位数に対する前記フィルタ値は、前記確率のうちの最高確率から前記確率のうちの２番目に高い確率を差し引くことによって決定される、請求項１～３のいずれか一項に記載のコンピュータ実装方法。
前記算術演算は除算である、請求項１～４のいずれか一項に記載のコンピュータ実装方法。
前記クラスターごと、サイクルごとの確率四分位数に対する前記フィルタ値は、前記確率のうちの前記最高確率と前記確率のうちの前記２番目に高い確率との比として決定される、請求項１～５のいずれか一項に記載のコンピュータ実装方法。
前記算術演算は加算である、請求項１～６のいずれか一項に記載のコンピュータ実装方法。
前記算術演算は乗算である、請求項１～７のいずれか一項に記載のコンピュータ実装方法。
前記「Ｎ」は１～５の範囲である、請求項１～８のいずれか一項に記載のコンピュータ実装方法。
前記「Ｍ」は０．５～０．９９の範囲である、請求項１～９のいずれか一項に記載のコンピュータ実装方法。
前記第１のサブセットは、前記配列決定動作の１～２５回の配列決定サイクルを含む、請求項１～１０のいずれか一項に記載のコンピュータ実装方法。
前記第１のサブセットは、前記配列決定動作の１～５０回の配列決定サイクルを含む、請求項１～１１のいずれか一項に記載のコンピュータ実装方法。
前記出力層はソフトマックス層であり、前記クラスターごと、サイクルごとの確率四分位数での前記確率は、合計すると１になる、指数関数的に正規化された分類スコアである、請求項１～１２のいずれか一項に記載のコンピュータ実装方法。
前記信頼できないクラスターは、パターン化されたフローセル上の、空のウェル、多クローン性ウェル、及び曖昧なウェルを示す、請求項１～１３のいずれか一項に記載のコンピュータ実装方法。
前記フィルタ値は、フィルタリング関数によって生成される、請求項１～１４のいずれか一項に記載のコンピュータ実装方法。
前記フィルタリング関数は、最も明るいベース強度を、前記最も明るいベース強度と２番目に明るいベース強度との合計で割った比としてチャスティティを定義するチャスティフィルタである、請求項１～１５のいずれか一項に記載のコンピュータ実装方法。
前記フィルタリング関数は、最大対数確率関数、最小二乗誤差関数、平均信号対雑音比（ＳＮＲ）、及び最小絶対誤差関数のうちの少なくとも１つである、請求項１～１６のいずれか一項に記載のコンピュータ実装方法。
前記サイクルごとのクラスターデータの強度データに基づいて、それぞれのクラスターに対する前記配列決定サイクルの第１のサブセット内の配列決定サイクルの平均ＳＮＲを決定することであって、前記強度データは、前記複数のクラスター内のクラスターの強度放射及び周囲の背景の強度放射を示す、ことと、
前記複数のクラスターの中の、平均ＳＮＲが閾値を下回るクラスターを前記信頼できないクラスターとして識別することと、を更に含む、請求項１～１７のいずれか一項に記載のコンピュータ実装方法。
前記配列決定サイクルの第１のサブセット内の前記配列決定サイクルに対して生成されたクラスターごと、サイクルごとの確率四分位数での最大確率スコアに基づいて、それぞれのクラスターの平均確率スコアを決定することと、
前記複数のクラスターの中の、平均確率スコアが閾値を下回るクラスターを前記信頼できないクラスターとして識別することと、を更に含む、請求項１～１８のいずれか一項に記載のコンピュータ実装方法。
ニューラルネットワークベースのベースコールの精度及び効率を改善するためのシステムであって、前記システムは、
メモリであって、複数のクラスターについて、配列決定動作の初期配列決定サイクルに対する初期クラスターデータと、前記配列決定動作の残りの配列決定サイクルに対する残りのクラスターデータと、を記憶する、メモリと、
ホストプロセッサであって、前記メモリへのアクセスを有し、検出及びフィルタリングロジックを実行して信頼できないクラスターを識別するように構成された、ホストプロセッサと、
構成可能プロセッサであって、前記メモリへのアクセスを有し、ニューラルネットワークを実行してベースコール分類スコアを生成するように構成された、構成可能プロセッサと、
データフローロジックであって、前記メモリ、前記ホストプロセッサ、及び前記構成可能プロセッサへのアクセスを有し、
前記初期クラスターデータを前記ニューラルネットワークに提供し、前記ニューラルネットワークに、前記初期クラスターデータから初期中間表現を生成することに基づいて、前記複数のクラスターに対する、及び前記初期配列決定サイクルに対する初期ベースコール分類スコアを生成させることと、
前記初期ベースコール分類スコアを前記検出及びフィルタリングロジックに提供し、前記検出及びフィルタリングロジックに、前記初期ベースコール分類スコアからフィルタ値を生成することに基づいて、前記複数のクラスターの中の信頼できないクラスターを識別させることと、
前記残りのクラスターデータを前記ニューラルネットワークに提供し、前記ニューラルネットワークに、前記残りのクラスターデータから残りの中間表現を生成させることと、
前記信頼できないクラスターを識別するデータを前記構成可能プロセッサに提供し、前記構成可能プロセッサに、前記残りの中間表現から、前記残りのクラスターデータの部分から生じる前記信頼できないクラスターを表す部分を除去することによって、信頼できる残りの中間表現を生成させることと、を行うように構成された、データフローロジックと、を備える、システム。