JP2023525993A

JP2023525993A - 等化ベースの画像処理及び空間クロストーク減衰器

Info

Publication number: JP2023525993A
Application number: JP2022567386A
Authority: JP
Inventors: エリック・ジョン・オジャード; ラミ・メヒオ; ギャヴィン・デレク・パーナビー; ニティン・ウドパ; ジョン・エス・ヴィエチェリ
Original assignee: イルミナインコーポレイテッド
Priority date: 2020-05-05
Filing date: 2021-05-05
Publication date: 2023-06-20
Also published as: CA3174053A1; CN115461778A; US11694309B2; BR112022022361A2; AU2021268952A1; IL297889A; EP4147196A1; US11188778B1; WO2021226285A1; US20220067418A1; KR20230006464A; US20210350163A1; US20230385991A1; MX2022013820A

Abstract

開示される技術は、ベースコールのための配列決定画像からの空間クロストークを減衰させる。特に、開示される技術は、画像にアクセスし、この画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す。ピクセルは、ターゲットクラスターの中心を含む中心ピクセルを含む。ピクセル内の各ピクセルは、複数のサブピクセルに分割可能である。ターゲットクラスターの中心を含む中心ピクセルの複数のサブピクセルのうちの特定のサブピクセルに応じて、開示される技術は、サブピクセルルックアップテーブルのバンクから、特定のサブピクセルに対応するサブピクセルルックアップテーブルを選択する。選択されたサブピクセルルックアップテーブルは、信号対ノイズ比を最大化するように構成されているピクセル係数を含む。開示される技術は、ピクセル係数とピクセルとを要素ごとに乗算し、重み付き和を決定する。

Description

（優先権出願）
本ＰＣＴ出願は、２０２１年５月５日に出願された「ＥＱＵＡＬＩＺＡＴＩＯＮ－ＢＡＳＥＤＩＭＡＧＥＰＲＯＣＥＳＳＩＮＧＡＮＤＳＰＡＴＩＡＬＣＲＯＳＳＴＡＬＫＡＴＴＥＮＵＡＴＯＲ」と題する米国特許仮出願第６３／０２０，４４９号（代理人整理番号ＩＬＬＭ１０３２－１／ＩＰ－１９９１－ＰＲＶ）及び２０２０年５月４日に出願された「ＥＱＵＡＬＩＺＡＴＩＯＮ－ＢＡＳＥＤＩＭＡＧＥＰＲＯＣＥＳＳＩＮＧＡＮＤＳＰＡＴＩＡＬＣＲＯＳＳＴＡＬＫＡＴＴＥＮＵＡＴＯＲ」と題する米国特許仮出願第１７／３０８，０３５号（代理人整理番号ＩＬＬＭ１０３２－２／ＩＰ－１９９１－ＵＳ）の利益を主張する。その優先権出願は、全ての目的のために参照により組み込まれる。

（発明の分野）
開示された技術は、画像の自動分析又はパターンの認識のための装置及び対応する方法に関する。本明細書には、（ａ）認識前にその視覚的品質を向上させることと、（ｂ）センサ又は記憶されたプロトタイプに対して画像を位置決めして位置合わせすること、又は無関係なデータを廃棄することによって画像データの量を減少させることと、（ｃ）画像の有意な特性を測定することと、を目的として画像を変換するシステムが含まれる。具体的には、開示された技術は、等化ベースの画像処理技術を使用してセンサピクセルから空間的クロストークを除去することに関する。

（関連出願の相互参照）
組み込み
以下は、本明細書に完全に記載されているかのように、全ての目的のために参照により組み込まれる。
２０１８年３月２６日に出願された「ＤＥＴＥＣＴＩＯＮＡＰＰＡＲＡＴＵＳＨＡＶＩＮＧＡＭＩＣＲＯＦＬＵＯＲＯＭＥＴＥＲ，ＡＦＬＵＩＤＩＣＳＹＳＴＥＭ，ＡＮＤＡＦＬＯＷＣＥＬＬＬＡＴＣＨＣＬＡＭＰＭＯＤＵＬＥ」と題する米国特許非仮出願第１５／９３６，３６５号、
２０１９年９月１１日に出願された「ＦＬＯＷＣＥＬＬＳＡＮＤＭＥＴＨＯＤＳＲＥＬＡＴＥＤＴＯＳＡＭＥ」と題する米国特許非仮出願第１６／５６７，２２４号、
２０１９年６月１２日に出願された「ＤＥＶＩＣＥＦＯＲＬＵＭＩＮＥＳＣＥＮＴＩＭＡＧＩＮＧ」と題する米国特許非仮出願第１６／４３９，６３５号、
２０１７年５月１２日に出願された「ＩＮＴＥＧＲＡＴＥＤＯＰＴＯＥＬＥＣＴＲＯＮＩＣＲＥＡＤＨＥＡＤＡＮＤＦＬＵＩＤＩＣＣＡＲＴＲＩＤＧＥＵＳＥＦＵＬＦＯＲＮＵＣＬＥＩＣＡＣＩＤＳＥＱＵＥＮＣＩＮＧ」と題する米国特許非仮出願第１５／５９４，４１３号、
２０１９年３月１２日に出願された「ＩＬＬＵＭＩＮＡＴＩＯＮＦＯＲＦＬＵＯＲＥＳＣＥＮＣＥＩＭＡＧＩＮＧＵＳＩＮＧＯＢＪＥＣＴＩＶＥＬＥＮＳ」と題する米国特許非仮出願第１６／３５１，１９３号、
２００９年１２月１５日に出願された「ＤＹＮＡＭＩＣＡＵＴＯＦＯＣＵＳＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＡＳＳＡＹＩＭＡＧＥＲ」と題する米国特許非仮出願第１２／６３８，７７０号、
２０１３年３月１日に出願された「ＫＩＮＥＴＩＣＥＸＣＬＵＳＩＯＮＡＭＰＬＩＦＩＣＡＴＩＯＮＯＦＮＵＣＬＥＩＣＡＣＩＤＬＩＢＲＡＲＩＥＳ」と題する米国特許非仮出願第１３／７８３，０４３号、
２０１１年１月１３日に出願された「ＤＡＴＡＰＲＯＣＥＳＳＩＮＧＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＳ」と題する米国特許非仮出願第１３／００６，２０６号、
２０１４年１０月３１日に出願された「ＩＭＡＧＥＡＮＡＬＹＳＩＳＵＳＥＦＵＬＦＯＲＰＡＴＴＥＲＮＥＤＯＢＪＥＣＴＳ」と題する米国特許非仮出願第１４／５３０，２９９号、
２０１４年１２月３日に出願された「ＭＥＴＨＯＤＳＡＮＤＳＹＳＴＥＭＳＦＯＲＡＮＡＬＹＺＩＮＧＩＭＡＧＥＤＡＴＡ」と題する米国特許非仮出願第１５／１５３，９５３号、
２０１３年９月６日に出願された「ＣＥＮＴＲＯＩＤＭＡＲＫＥＲＳＦＯＲＩＭＡＧＥＡＮＡＬＹＳＩＳＯＦＨＩＧＨＤＥＮＳＩＴＹＣＬＵＳＴＥＲＳＩＮＣＯＭＰＬＥＸＰＯＬＹＮＵＣＬＥＯＴＩＤＥＳＥＱＵＥＮＣＩＮＧ」と題する米国特許非仮出願第１４／０２０，５７０号、
２０１４年１０月３１日に出願された「ＩＭＡＧＥＡＮＡＬＹＳＩＳＵＳＥＦＵＬＦＯＲＰＡＴＴＥＲＮＥＤＯＢＪＥＣＴＳ」と題する米国特許非仮出願第１４／５３０，２９９号、
２００９年９月２３日に出願された「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＤＥＴＥＲＭＩＮＩＮＧＴＨＥＡＣＣＵＲＡＣＹＯＦＤＮＡＢＡＳＥＩＤＥＮＴＩＦＩＣＡＴＩＯＮＳ」と題する米国特許非仮出願第１２／５６５，３４１号、
２００７年３月３０日に出願された「ＳＹＳＴＥＭＳＡＮＤＤＥＶＩＣＥＳＦＯＲＳＥＱＵＥＮＣＥＢＹＳＹＮＴＨＥＳＩＳＡＮＡＬＹＳＩＳ」と題する米国特許非仮出願第１２／２９５，３３７号、
２００８年１月２８日に出願された「ＩＭＡＧＥＤＡＴＡＥＦＦＩＣＩＥＮＴＧＥＮＥＴＩＣＳＥＱＵＥＮＣＩＮＧＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭ」と題する米国特許非仮出願第１２／０２０，７３９号、
２０１３年３月１５日に出願された「ＢＩＯＳＥＮＳＯＲＳＦＯＲＢＩＯＬＯＧＩＣＡＬＯＲＣＨＥＭＩＣＡＬＡＮＡＬＹＳＩＳＡＮＤＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＳＡＭＥ」と題する米国特許非仮出願第１３／８３３，６１９号（代理人整理番号ＩＰ－０６２６－ＵＳ）、
２０１６年６月７日に出願された「ＢＩＯＳＥＮＳＯＲＳＦＯＲＢＩＯＬＯＧＩＣＡＬＯＲＣＨＥＭＩＣＡＬＡＮＡＬＹＳＩＳＡＮＤＭＥＴＨＯＤＳＯＦＭＡＮＵＦＡＣＴＵＲＩＮＧＴＨＥＳＡＭＥ」と題する米国特許非仮出願第１５／１７５，４８９号（代理人整理番号ＩＰ－０６８９－ＵＳ）、
２０１３年４月２６日に出願された「ＭＩＣＲＯＤＥＶＩＣＥＳＡＮＤＢＩＯＳＥＮＳＯＲＣＡＲＴＲＩＤＧＥＳＦＯＲＢＩＯＬＯＧＩＣＡＬＯＲＣＨＥＭＩＣＡＬＡＮＡＬＹＳＩＳＡＮＤＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＴＨＥＳＡＭＥ」と題する米国非特許非仮出願第１３／８８２，０８８号（代理人整理番号ＩＰ－０４６２－ＵＳ）、
２０１２年９月２１日に出願された「ＭＥＴＨＯＤＳＡＮＤＣＯＭＰＯＳＩＴＩＯＮＳＦＯＲＮＵＣＬＥＩＣＡＣＩＤＳＥＱＵＥＮＣＩＮＧ」と題する米国特許非仮出願第１３／６２４，２００号（代理人整理番号ＩＰ－０５３８－ＵＳ）、
２０１９年３月２１日に出願された「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許仮出願第６２／８２１，６０２号（代理人整理番号ＩＬＬＭ１００８－１／ＩＰ－１６９３－ＰＲＶ）、
２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＧｅｎｅｒａｔｉｏｎｏｆＳｅｑｕｅｎｃｉｎｇＭｅｔａｄａｔａ」と題する米国特許仮出願第６２／８２１，６１８号（代理人整理番号ＩＬＬＭ１００８－３／ＩＰ－１７４１－ＰＲＶ）、
２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する米国特許仮出願第６２／８２１，６８１号（代理人整理番号ＩＬＬＭ１００８－４／ＩＰ－１７４４－ＰＲＶ）、
２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＱｕａｌｉｔｙＳｃｏｒｉｎｇ」と題する米国特許仮出願第６２／８２１，７２４号（代理人整理番号ＩＬＬＭ１００８－７／ＩＰ－１７４７－ＰＲＶ）、
２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許仮出願第６２／８２１，７６６号（代理人整理番号ＩＬＬＭ１００８－９／ＩＰ－１７５２－ＰＲＶ）、
２０１９年６月１４日に出願された「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する蘭国特許出願第２０２３３１０号（代理人整理番号ＩＬＬＭ１００８－１１／ＩＰ－１６９３－ＮＬ）、
２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＧｅｎｅｒａｔｉｏｎｏｆＳｅｑｕｅｎｃｉｎｇＭｅｔａｄａｔａ」と題する蘭国特許出願第２０２３３１１号（代理人整理番号ＩＬＬＭ１００８－１２／ＩＰ－１７４１－ＮＬ）、
２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する蘭国特許出願第２０２３３１２号（代理人整理番号ＩＬＬＭ１００８－１３／ＩＰ－１７４４－ＮＬ）、
２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＱｕａｌｉｔｙＳｃｏｒｉｎｇ」と題する蘭国特許出願第２０２３３１４号（代理人整理番号ＩＬＬＭ１００８－１４／ＩＰ－１７４７－ＮＬ）、及び
２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する蘭国特許出願第２０２３３１６号（代理人整理番号ＩＬＬＭ１００８－１５／ＩＰ－１７５２－ＮＬ）。
２０２０年３月２０日に出願された「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許非仮出願第１６／８２５，９８７号（代理人整理番号ＩＬＬＭ１００８－１６／ＩＰ－１６９３－ＵＳ）、
２０２０年３月２０日に出願された「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許非仮出願第１６／８２５，９９１号（代理人整理番号ＩＬＬＭ１００８－１７／ＩＰ－１７４１－ＵＳ）、
２０２０年３月２０日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する米国特許非仮出願第１６／８２６，１２６号（代理人整理番号ＩＬＬＭ１００８－１８／ＩＰ－１７４４－ＵＳ）、
２０２０年３月２０日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＱｕａｌｉｔｙＳｃｏｒｉｎｇ」と題する米国特許非仮出願第１６／８２６，１３４号（代理人整理番号ＩＬＬＭ１００８－１９／ＩＰ－１７４７－ＵＳ）、
２０２０年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許非仮出願第１６／８２６，１６８号（代理人整理番号ＩＬＬＭ１００８－２０／ＩＰ－１７５２－ＰＲＶ）、
２０１９年５月１６日に出願された「ＳｙｓｔｅｍｓａｎｄＤｅｖｉｃｅｓｆｏｒＣｈａｒａｃｔｅｒｉｚａｔｉｏｎａｎｄＰｅｒｆｏｒｍａｎｃｅＡｎａｌｙｓｉｓｏｆＰｉｘｅｌ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許仮出願第６２／８４９，０９１号（代理人整理番号ＩＬＬＭ１０１１－１／ＩＰ－１７５０－ＰＲＶ）、
２０１９年５月１６日に出願された「ＢａｓｅＣａｌｌｉｎｇＵｓｉｎｇＣｏｎｖｏｌｕｔｉｏｎｓ」と題する米国特許仮出願第６２／８４９，１３２号（代理人整理番号ＩＬＬＭ１０１１－２／ＩＰ－１７５０－ＰＲ２）、
２０１９年５月１６日に出願された「ＢａｓｅＣａｌｌｉｎｇＵｓｉｎｇＣｏｍｐａｃｔＣｏｎｖｏｌｕｔｉｏｎｓ」と題する米国特許仮出願第６２／８４９，１３３号（代理人整理番号ＩＬＬＭ１０１１－３／ＩＰ－１７５０－ＰＲ３）、
２０２０年２月２０日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇｏｆＩｎｄｅｘＳｅｑｕｅｎｃｅｓ」と題する米国特許仮出願第６２／９７９，３８４号（代理人整理番号ＩＬＬＭ１０１５－１／ＩＰ－１８５７－ＰＲＶ）、
２０２０年２月２０日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＭａｎｙ－Ｔｏ－ＭａｎｙＢａｓｅＣａｌｌｉｎｇ」と題する米国特許仮出願第６２／９７９，４１４号（代理人整理番号ＩＬＬＭ１０１６－１／ＩＰ－１８５８－ＰＲＶ）、
２０２０年２月２０日に出願された「ＫｎｏｗｌｅｄｇｅＤｉｓｔｉｌｌａｔｉｏｎ－ＢａｓｅｄＣｏｍｐｒｅｓｓｉｏｎｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｅｒ」と題する米国特許仮出願第６２／９７９，３８５号（代理人整理番号ＩＬＬＭ１０１７－１／ＩＰ－１８５９－ＰＲＶ）、
２０２０年２月２０日に出願された「Ｍｕｌｔｉ－ＣｙｃｌｅＣｌｕｓｔｅｒＢａｓｅｄＲｅａｌＴｉｍｅＡｎａｌｙｓｉｓＳｙｓｔｅｍ」と題する米国特許仮出願第６２／９７９，４１２号（代理人整理番号ＩＬＬＭ１０２０－１／ＩＰ－１８６６－ＰＲＶ）、
２０２０年２月２０日に出願された「ＤａｔａＣｏｍｐｒｅｓｓｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する米国特許仮出願第６２／９７９，４１１号（代理人整理番号ＩＬＬＭ１０２９－１／ＩＰ－１９６４－ＰＲＶ）、及び
２０２０年２月２０日に出願された「ＳｑｕｅｅｚｉｎｇＬａｙｅｒｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する米国特許仮出願第６２／９７９，３９９号（代理人整理番号ＩＬＬＭ１０３０－１／ＩＰ－１９８２－ＰＲＶ）。

このセクションで考察される主題は、単にこのセクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、このセクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。このセクションの主題は、単に、異なるアプローチを表し、それ自体はまた、特許請求される技術の実施態様に対応し得る。

生物学的又は化学的研究における様々なプロトコルは、局所支持体表面上又は所定の反応チャンバ内で多数の制御された反応を実施することを含む。次いで、所望の反応を観察又は検出することができ、その後の分析は、反応に関与する化学物質の特性を同定又は明らかにするのに役立ち得る。例えば、いくつかの多重アッセイにおいて、識別可能な標識（例えば、蛍光標識）を有する未知の検体は、制御された条件下で何千もの既知のプローブに曝露され得る。各既知のプローブは、マイクロプレートの対応するウェル内に堆積させることができる。既知のプローブとウェル内の未知の検体との間で起こる任意の化学反応を観察することは、検体の特性を同定又は明らかにするのを補助することができる。そのようなプロトコルの他の例としては、合成による配列決定又は環状アレイ配列決定などの、既知のＤＮＡ配列決定プロセスが挙げられる。環状アレイ配列決定において、ＤＮＡ特徴部（例えば、テンプレート核酸）の高密度アレイは、酵素的操作の反復サイクルを通して配列決定される。各サイクルの後、画像を捕捉し、続いて、他の画像を用いて分析して、ＤＮＡ特徴の配列を判定することができる。

より具体的な例として、１つの既知のＤＮＡ配列決定システムは、パイロ配列決定プロセスを使用し、数百万のウェルを有する融合光ファイバフェースプレートを有するチップを含む。目的のゲノムからクローン的に増幅されたｓｓｔＤＮＡを有する単一捕捉ビーズを各ウェルに沈着させる。捕獲ビーズがウェル中に堆積された後、特異的ヌクレオチドを含む溶液をフェースプレートに沿って流すことによって、ヌクレオチドがウェルに連続的に添加される。ウェル内の環境は、特定のウェルを通って流れるヌクレオチドが対応する捕獲ビーズ上のＤＮＡ鎖を相補する場合、ヌクレオチドがＤＮＡ鎖に付加されるようなものである。ＤＮＡ鎖のコロニーはクラスターと呼ばれる。クラスターへのヌクレオチドの取り込みは、最終的に化学発光シグナルを生成するプロセスを開始する。システムは、フェースプレートに直接隣接して配置され、ウェル中のＤＮＡクラスターからの光信号を検出するように構成されたＣＣＤカメラを含む。パイロ配列決定プロセス全体を通して得られた画像のその後の分析により、目的のゲノムの配列を決定することができる。

しかしながら、上記パイロ配列決定システムは、他のシステムに加えて、特定の制限を有し得る。例えば、光ファイバのフェースプレートは酸エッチングされ、何百万もの小さいウェルを形成する。ウェルは、互いにほぼ間隔を置いて配置され得るが、他の隣接するウェルに関してウェルの正確な位置を知ることは困難である。ＣＣＤカメラがフェースプレートに直接隣接して位置決めされる場合、ウェルはＣＣＤカメラのピクセルに沿って均等に分布されず、したがって、ウェルはピクセルと既知の様式では整列されない。空間クロストークは、隣接するウェル間のウェル間クロストークであり、対象のウェルからの真の光信号と他の不要な光信号とを後続の分析において区別することを困難にする。また、蛍光発光は実質的に等方性である。検体の密度が増加するにつれて、隣接する検体からの望ましくない発光（例えば、クロストーク）を管理又は説明することはますます困難になる。結果として、配列決定サイクルの間に記録されたデータは注意深く分析する必要がある。

ベースコール精度は、高処理能力ＤＮＡ配列決定及びリードマッピング及びゲノムアセンブリなどの下流分析にとって極めて重要である。隣接クラスター間の空間クロストークは、配列決定誤差の大部分を説明する。したがって、クラスター強度データにおける空間クロストークを補正することにより、ＤＮＡ配列決定誤差を減少させ、ベースコール精度を改善する機会が生じる。

本発明の一態様は、ベースコールのコンピュータ実装方法を提供する。コンピュータ実装方法は、画像にアクセスすることであって、前記画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す、アクセスすることと、信号対ノイズ比を最大化するように構成されているピクセル係数を含むルックアップテーブルを選択することと、前記ピクセル係数を前記画像中の前記ピクセルの強度値を用いて畳み込み、出力を生成することと、前記ターゲットクラスターを前記出力に基づいてベースコールすることと、を含む。

特許又は出願ファイルは、カラーで創作された少なくとも１つの図面を含む。カラー図面（単数又は複数）を有するこの特許又は特許出願公開のコピーは、必要な料金の要求及び支払いの際に、庁によって提供される。カラー図面はまた、補足コンテンツタブを介してＰＡＩＲ（ｐａｔｅｎｔａｐｐｌｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ：特許出願情報検索）で利用可能であり得る。

図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺どおりではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明において、開示された技術の様々な実施態様は、以下の図面を参照して説明される。

等化器を訓練することによってルックアップテーブル（lookup table、ＬＵＴ）／等化器フィルタを生成する一実施態様を示す。センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサピクセルを使用してクラスターをベースコールするために、図１のＬＵＴ／等化器フィルタを使用する一実施態様を示す。フローセル上の少なくとも５つのクラスター／ウェルの中心／点源を含む配列決定画像の一例を可視化する。図２の配列決定画像からピクセルパッチ（黄）を抽出する一例を可視化したものであり、ターゲットクラスター１（青）の中心がピクセルパッチの中心ピクセルに含まれるようになっている。クラスターからピクセルへの信号の一例を可視化する。クラスターからピクセルへの信号オーバラップの一例を可視化する。クラスター信号パターンの一例を可視化する。図３のピクセルパッチからの空間クロストークを減衰させるために使用されるサブピクセルＬＵＴグリッドの一例を可視化する。ピクセル内のクラスター／ウェル中心のサブピクセル位置に基づく図１ＢのＬＵＴバンクからのＬＵＴ／等化器フィルタの選択を示す。ターゲットクラスター１（青）の中心がピクセルの中心と実質的に同心でない一実施態様を示す。選択されたＬＵＴのセットの間で補間し、それぞれのＬＵＴ重みを生成する一実施態様を示す。ＬＵＴ１２、７、８、及び１３の計算された重みを使用して重みカーネルを生成する重みカーネル生成器を示す。重みカーネルの補間ピクセル係数をピクセルパッチ内のピクセルの強度値で要素ごとに乗算し、乗算の中間積を合計して出力を生成する要素ごと乗算器を示す。ＬＵＴ１２、７、８、１３の係数の例を示す。ＬＵＴ１２、７、８、１３の係数の例を示す。ＬＵＴ１２、７、８、１３の係数の例を示す。ＬＵＴ１２、７、８、１３の係数の例を示す。ＬＵＴ１２、７、８、１３の係数の例を示す。ＬＵＴ１２、７、８、１３の係数の例を示す。重みカーネルの例を示す。ＬＵＴ１２、７、８、及び１３の計算された重みから重みカーネルを生成するために重みカーネル生成器によって使用される重みカーネル生成論理の一例を示す。ＬＵＴ１２、７、８、及び１３の計算された重みから重みカーネルを生成するために重みカーネル生成器によって使用される重みカーネル生成論理の一例を示す。重みカーネルの補間ピクセル係数がどのように信号対ノイズ比を最大化し、クラスター２、３、４、及び５からのクロストークによって破壊された信号からターゲットクラスター１の基礎となる信号を復元するかを示す。重みカーネルの補間ピクセル係数がどのように信号対ノイズ比を最大化し、クラスター２、３、４、及び５からのクロストークによって破壊された信号からターゲットクラスター１の基礎となる信号を復元するかを示す。訓練中の誤差計算のためのグラウンドトゥルース値として使用される塩基ごとの強度ターゲットを中心に含む塩基ごとのガウスフィットの一実施態様を示す。開示された技術を実施するために使用することができるコンピュータシステムである。等化器を訓練するために使用することができる適合等化技術の一実施態様を示す。開示された技術の様々な性能測定基準を示す。開示された技術の様々な性能測定基準を示す。開示された技術の様々な性能測定基準を示す。開示された技術の様々な性能測定基準を示す。開示された技術の様々な性能測定基準を示す。

以下の説明は、典型的には、特定の構造的実施態様及び方法を参照して行われる。本技術を具体的に開示された実施態様及び方法に限定する意図はないが、本技術は他の特徴、要素、方法及び実施態様を用いて実施することができることを理解されたい。好ましい実施態様は、特許請求の範囲によって定義される範囲を限定するためではなく、本技術を説明するために記載される。当業者は、以下の説明に対する様々な等価な変形を認識するであろう。

ルックアップテーブルの生成
図１は、等化器１０４を訓練することによってルックアップテーブル（ＬＵＴ）（又はＬＵＴバンク）１０６を生成する一実施態様を示している。等化器１０４は、ここでは等化器ベースのベースコーラー１０４とも称される。システム１００Ａは、最小二乗推定を使用して等化器１０４を訓練する訓練器１１４を含む。等化器と最小二乗推定に関する追加の詳細は、本出願に含まれる付録に記載されている。

配列決定画像１０２は、ＩｌｌｕｍｉｎａのｉＳｅｑ、ＨｉＳｅｑＸ、ＨｉＳｅｑ３０００、ＨｉＳｅｑ４０００、ＨｉＳｅｑ２５００、ＮｏｖａＳｅｑ６０００、ＮｅｘｔＳｅｑ５５０、ＮｅｘｔＳｅｑ１０００、ＮｅｘｔＳｅｑ２０００、ＮｅｘｔＳｅｑＤｘ、ＭｉＳｅｑ、及びＭｉＳｅｑＤｘなどの配列決定機器によって実行される配列決定ラン中に生成される。一実施態様では、Ｉｌｌｕｍｉｎａシーケンサは、ベースコールのために環状可逆終端（cyclic reversible termination、ＣＲＴ）化学を使用する。このプロセスは、新たに添加された各ヌクレオチドの放出信号を追跡しながら、蛍光標識されたヌクレオチドを有するテンプレート鎖に相補的な新生鎖を伸長させることに依存する。蛍光標識されたヌクレオチドは、ヌクレオチド型のフルオロフォア信号をアンカーする３‘除去可能ブロックを有する。

配列決定は、反復サイクルで行われ、各々は３つの工程、つまり、（ａ）蛍光標識されたヌクレオチドを添加することによる出現鎖の伸長と、（ｂ）配列決定機器の光学システムの１以上のレーザを使用してフルオロフォアを励起させ、光学システムの異なるフィルタを通した撮像によって配列決定画像を生成することと、（ｃ）次の配列決定サイクルに備えてフルオロフォアを切断し、３’ブロックを除去することと、の３つの工程を各々含む反復サイクルで行われる。取り込み及び撮像サイクルは、指定された数の配列決定サイクルまで繰り返され、リード長を定義する。このアプローチを使用して、各サイクルはテンプレート鎖に沿って新しい位置を照合する。

Ｉｌｌｕｍｉｎａシーケンサの膨大な能力は、数百万又は更には数十億もの検体（例えば、クラスター）のＣＲＴ反応を同時に実施及び感知する能力に起因する。クラスターは、テンプレート鎖の約１０００個の同一のコピーを含むが、クラスターのサイズ及び形状は様々である。クラスターは、配列決定ラン前に、入力ライブラリのブリッジ増幅又は排除増幅によって、テンプレートストランドから成長させる。増幅及びクラスター伸長の目的は、撮像デバイスが一本鎖のフルオロフォア信号を確実に感知することができないため、放出される信号の強度を増加させることである。しかしながら、クラスター内の鎖の物理的距離は小さいため、撮像デバイスは鎖のクラスターを単一のスポットとして知覚する。

配列決定は、フローセル、つまり入力鎖を保持する小さいガラススライドの中で行われる。フローセルは、顕微鏡撮像、励起レーザ、及び蛍光フィルタを含む光学システムに接続される。フローセルは、レーンと呼ばれる複数のチャンバを含む。レーンは互いに物理的に分離されており、試料の交差汚染なしに区別可能な異なるタグ付き配列決定ライブラリを含むことができる。いくつかの実施態様では、フローセルは、パターン化された表面を含む。「パターン化された表面」は、固体支持体の露出層内又はその上における、異なる領域の配置を指す。例えば、１つ以上の領域は、１つ以上の増幅プライマーが存在する特徴であり得る。この特徴は、増幅プライマーが存在しない間質領域によって分離され得る。いくつかの実施態様では、パターンは、行及び列にある特徴のｘ－ｙフォーマットであり得る。いくつかの実施態様では、パターンは、特徴及び／又は間質領域の反復配列であり得る。いくつかの実施態様では、パターンは、特徴及び／又は間質領域のランダム配列であり得る。本明細書に記載される方法及び組成物において使用することができる例示的なパターン付き表面は、米国特許第８，７７８，８４９号、米国特許第９，０７９，１４８号、米国特許第８，７７８，８４８号、及び米国特許出願公開第第２０１４／０２４３２２４号、に記載されており、その各々は参照により本明細書に組み込まれる。

いくつかの実施態様において、フローセルは、表面におけるウェル又は窪みのアレイを含む。これは、フォトリソグラフィ、スタンピング技術、成形技術、及びマイクロエッチング技術を含むがこれらに限定されない様々な技術を使用して、当該技術分野において一般的に知られているように製造することができる。当該技術分野において理解されるように、使用される技術は、アレイ基板の組成及び形状に依存する。

パターン付き表面内の特徴は、ガラス、シリコン、プラスチック、又はポリ（Ｎ－（５－アジドアセトアミルペンチル）アクリルアミド－ｃｏ－アクリルアミド）（ＰＡＺＡＭ、例えば、各々、参照によりその全体が本明細書に組み込まれる米国特許出願公開第２０１３／１８４７９６号、国際公開第２０１６／０６６５８６号及び同第２０１５－００２８１３号を参照されたい）などのパターン化された共有結合ゲルを有する他の好適な固体支持体上のウェル（例えば、マイクロウェル又はナノウェル）配列におけるウェルであってもよい。このプロセスは、配列決定のために使用されるゲルパッドを作成し、これは、多数のサイクルで配列決定動作にわたって安定であり得る。ポリマーをウェルに共有結合することは、様々な用途の間に、構造化基材の寿命全体にわたってゲルを構造化特徴部に維持するのに有用である。しかしながら、多くの実施態様では、ゲルは、ウェルに共有結合される必要はない。例えば、いくつかの条件では、構造化基質のどの部分にも共有結合されていないシランフリーのアクリルアミド（ＳＦＡ、例えば、米国特許第８，５６３，４７７号を参照、その全体が参照により本明細書に組み込まれる）をゲル材料として使用することができる。

特定の別の実施態様では、構造化基材は、ウェル（例えば、マイクロウェル又はナノセル）を用いて固体支持材料をパターニングし、パターン化された支持体をゲル材料（例えば、ＰＡＺＡＭ、ＳＦＡ、又はその化学修飾された変異体）でコーティングすることによって作製することができ、ＳＦＡ（アジド－ＳＦＡ）のアジド化バージョンなど、及びゲルコーティングされた支持体を、例えば化学研磨又は機械研磨によって研磨し、それによって、ウェル内にゲルを保持するが、ウェル間の構造化基材の表面上の間隙領域から実質的に全てのゲルを除去又は不活性化する。ゲル材料にプライマー核酸を付着させることができる。次いで、標的核酸（例えば、フラグメント化されたヒトゲノム）の溶液を、個々の標的核酸がゲル材料に付着したプライマーとの相互作用を介して個々のウェルに播種するように、研磨された基質と接触させることができる。ゲル材料が存在しないか不活性であるため、ターゲット核酸は間質領域を占有しない。標的核酸の増幅は、介在領域内のゲルの不在又は非活性が、増殖する核酸コロニーの外向きの移動を防止するため、ウェルに限定されるであろう。このプロセスは、製造可能であり、スケーラブルであり、従来のマイクロ又はナノ製造方法を利用する。

配列決定機器の撮像デバイス（例えば、電荷結合素子（Charge-Coupled Device、ＣＣＤ）又は相補的金属酸化物半導体（Complementary Metal-Oxide-Semiconductor、ＣＭＯＳ）センサなどの固体撮像素子）は、タイルと呼ばれる一連の非重複領域において、レーンに沿った複数の場所でスナップショットを取る。例えば、レーン当たり６４個又は９６個のタイルが存在し得る。タイルは数十万～数百万個のクラスターを保持する。

配列決定ランの出力は配列決定画像であり、各々がクラスター及びその周囲の背景の強度放射を示す。配列決定画像は、配列決定中に配列にヌクレオチドを組み込む結果として生成される強度放射を示す。強度放射は、関連する検体／クラスター及びそれらの周囲の背景から生じる。

配列決定画像１０２は、複数の配列決定機器、配列決定ラン、サイクル、フローセル、タイル、ウェル、及びクラスターから供給される。一実施態様では、配列決定画像は、撮像チャネルベースで等化器１０４によって処理される。配列決定ランは、ｍ個の撮像チャネルに対応する配列決定サイクル当たりｍ個の画像を生成する。一実施態様では、各撮像チャネルは複数のフィルタ波長帯域のうちの１つに対応する。別の実施態様では、各撮像チャネルは、配列決定サイクルにおける複数の撮像イベントの１つに対応する。更に別の実施態様では、各撮像チャネルは、特定のレーザによる照射と特定の光学フィルタを通した撮像との組み合わせに対応する。４－チャネル化学、２－チャネル化学及び１－チャネル化学のような異なる実施態様においては、ｍは４又は２である。他の実施態様では、ｍは１、３、又は４より大きい。

別の実施態様では、入力データは、分子伸長中の水素イオンの放出によって誘発されるｐＨ変化に基づく。ｐＨ変化は検出され、組み込まれた塩基の数に比例する電圧変化に変換される（例えば、ＩｏｎＴｏｒｒｅｎｔの場合）。更に別の実施態様では、入力データは、生体センサを使用して、分析物がナノ細孔を通過するとき、又はその開口部付近を通過する際に電流の破壊を測定するためにバイオセンサを使用するナノ細孔検知から構築される。例えば、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ（ＯＮＴ）配列決定は、以下の概念に基づく：ナノ細孔を介して膜を介してＤＮＡ（又はＲＮＡ）の単一鎖を通過させ、膜にわたって電位差を印加する。細孔内に存在するヌクレオチドは、細孔の電気抵抗に影響を及ぼし、そのため、経時的な電流測定は、細孔を通過するＤＮＡ塩基の配列を示すことができる。この電流信号（プロットされたときにその外観に起因する「押しつぶし」）は、ＯＮＴシーケンサによって収集された生データである。これらの測定値は、４ｋＨｚ周波数（例えば）で取られた１６ビットの整数データ取得（Data Acquisition、ＤＡＣ）値として記憶される。１秒当たり～４５０塩基対のＤＮＡ鎖速度を用いて、これは、平均して、塩基当たり約９つの生観察を与える。次いで、この信号を処理して、個々の読み取りに対応する開孔信号の破断を識別する。これらの生信号の伸長は、ベースコールされ、ＤＡＣ値をＤＮＡ塩基の配列に変換するプロセスである。いくつかの実施態様では、入力データは、正規化又はスケーリングされたＤＡＣ値を含む。非画像ベースのシーケンスデータに関する追加情報は、２０２０年５月１６日に出願された「ＢａｓｅＣａｌｌｉｎｇＵｓｉｎｇＣｏｎｖｏｌｕｔｉｏｎｓ」と題する米国特許仮出願第６２／８４９，１３２号（代理人整理番号ＩＬＬＭ１０１１－２／ＩＰ－１７５０－ＰＲ２）、２０１９年５月１６日に出願された「ＢａｓｅＣａｌｌｉｎｇＵｓｉｎｇＣｏｍｐａｃｔＣｏｎｖｏｌｕｔｉｏｎｓ」と題する米国特許仮出願第６２／８４９，１３３号（代理人整理番号ＩＬＬＭ１０１１－３／ＩＰ－１７５０－ＰＲ３）、及び２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許非仮出願第１６／８２６，１６８号（代理人整理番号ＩＬＬＭ１００８－２０／ＩＰ－１７５２－ＰＲＶ）に見出すことができる。

訓練
等化器１０４は、サブピクセル解像度を有する複数のＬＵＴ（等化器フィルタ）１０６を有するＬＵＴバンクを生成する。一実施態様では、ＬＵＴバンクのために等化器１０４によって生成されるＬＵＴ１０６の数は、配列決定画像１０２のセンサピクセルが分割されるか又は分割され得るサブピクセルの数に依存する。例えば、配列決定画像１０２のセンサピクセルが各々ｎ×ｎ個のサブピクセル（例えば、５×５個のサブピクセル）に分割可能である場合、等化器１０４はｎ^２のＬＵＴ１０６（例えば、２５個のＬＵＴ）を生成する。

訓練の一実施態様では、配列決定画像からのデータは、ウェルサブピクセル位置によってビン化される。例えば、５×５ＬＵＴの場合、ウェルの１／２５番目の中心はビン（１，１）にあり（例えば、センサピクセルの左上隅）、ウェルの１／２５番目はビン（１，２）にあり、以下同様である。各ウェル－センター－ビンについての等化器係数は、各ビン内にあるウェルからのデータのサブセットについて最小二乗推定を用いて決定される。等化器１０４への入力は、それらのビンに対する配列決定画像の生の感覚ピクセルである。得られた推定等化器係数はビンごとに異なる。

各ＬＵＴは、訓練から学習された複数の係数を有する。一実施態様では、ＬＵＴ内の係数の数は、クラスターをベースコールするために使用されるセンサピクセルの数に対応する。例えば、クラスターをベースコールするために使用されるセンサピクセル（画像又はピクセルパッチ）の局所グリッドがサイズｐ×ｐ（例えば、９×９ピクセルパッチ）の場合、各ＬＵＴはｐ^２の係数（例えば、８１の係数）を有する。

訓練は、信号対ノイズ比を最大化するように、ベースコールされるターゲットクラスターからの強度放射及び１以上の隣接クラスターからの強度放射を表すピクセルの強度値を混合／結合するように構成されている等化器係数を生成する。信号対ノイズ比において最大化された信号は、ターゲットクラスターからの強度放射であり、信号対ノイズ比において最小化されたノイズは、隣接するクラスターからの強度放射、すなわち、空間クロストークにいくつかのランダムノイズを（例えば、背景強度放射を説明するために）加えたものである。等化器係数は重みとして使用され、混合／結合は、等化器係数とピクセルの強度値との間で要素ごとの乗算を実行して、ピクセルの強度値の重み付き和を計算することを含む。

訓練中に、等化器１０４は、一実施態様によると、最小二乗推定によって信号対ノイズ比を最大化することを学習する。最小二乗推定を使用して、等化器１０４は、対象ウェル周辺のピクセル強度と所望の出力とから共有等化器係数を推定するように訓練される。最小二乗推定は、二乗誤差を最小にし、ノイズ増幅の効果を考慮した係数を出力するので、この目的に適している。

所望の出力は、強度チャネルがオンである場合にはウェル位置（点源）におけるインパルスであり、強度チャネルがオフである場合には背景レベルである。いくつかの実施態様では、グラウンドトゥルースベースコール１１２が、所望の出力を生成するために使用される。いくつかの実施態様において、グラウンドトゥルースベースコール１１２は、ウェル当たりのＤＣオフセット、増幅係数、ポリクローナル性の程度、及び最小二乗推定に含まれるゲインオフセットパラメータを説明するように修正される。一実施態様では、訓練中に、ＤＣオフセット、すなわち固定オフセットが最小二乗推定値の一部として計算される。推論の間、ＤＣオフセットはバイアスとして各等化器計算に加算される。

一実施態様では、所望の出力は、等化器を使用しないＩｌｌｕｍｉｎａのリアルタイム分析（Real-time Analysis、ＲＴＡ）ベースコーラーを使用して推定される。ＲＴＡに関する詳細は、米国特許出願第１３／００６，２０６号に見出すことができ、これは、本明細書に完全に記載されているかのように参照により組み込まれる。ＲＴＡベースコーラーは、グラウンドトゥルースベースコール１１２を発信するために使用される。これは、ＲＴＡのベースコール誤差率が低いためである。ベースコール誤差は、多くの訓練例で平均化される。別の実施態様では、グラウンドトゥルースベースコール１１２は、整列されたゲノムデータを使用して供給されるが、整列されたゲノムデータは、ノイズを平均化するための複数の配列決定プラットフォーム及び配列決定ランから得られた知識を組み込んだ参照ゲノム及び真実情報を使用することができるので、より良い品質を有する。

グラウンドトゥルースベースコール１１２は、それぞれ、塩基Ａ、Ｃ、Ｇ、及びＴの強度プロファイルを確実に表すベース固有の強度値である。ＲＴＡのようなベースコーラーは、配列決定画像１０２を処理し、ベースコールごとに色ごとの強度値／出力を生成することによってクラスターをベースコールする。色ごとの強度値は、塩基ごとの強度値とみなすことができる。これは、化学のタイプ（例えば、２色化学又は４色化学）に応じて、色が塩基Ａ、Ｃ、Ｇ、及びＴの各々にマップされるためである。最も近い強度プロファイルが一致する塩基が呼び出される。

図１６は、訓練中の誤差計算のためのグラウンドトゥルース値として使用される塩基ごとのターゲットを中心に含む塩基ごとのガウスフィットの一実施態様を示している。訓練データ（例えば、数十、数百、数千、又は数百万のベースコール）内の多数のベースコールに対してベースコーラーによって生成された塩基ごとの強度出力は、塩基ごとの強度分布を生成するために使用される。図１６は、それぞれ、塩基Ａ、Ｃ、Ｇ、Ｔの塩基ごとの強度出力の確率分布である４つのガウス雲のチャートを示している。４つのガウス雲の中心における強度値は、それぞれ、塩基Ａ、Ｃ、Ｇ、及びＴに対するグラウンドトゥルースベースコール１１２が与えられたグラウンドトゥルース強度ターゲットとして使用され、ここでは強度ターゲットと称される。

訓練中に、等化器１０４に供給される入力画像データは、グラウンドトゥルースベースコールとして塩基「Ａ」で注釈されることを考慮されたい。次に、等化器１０４のターゲット／所望出力は、図１６の緑色雲の中心における強度値、すなわち、塩基Ａに対する強度ターゲットである。同様に、ベース「Ｃ」のグラウンドトゥルースベースコールに対して、等化器１０４の所望出力は、図１６の青色雲の中心における強度値、すなわち、ベースＣに対する強度ターゲットである。したがって、等化器１０４の訓練中のターゲット又は所望の出力は、訓練データにおいて平均化された後の各塩基Ａ、Ｃ、Ｇ及びＴに対する平均強度である。一実施態様では、訓練器１１４は最小二乗推定を使用して等化器１０４の係数を適合させ、等化器出力誤差をこれらの強度ターゲットに最小化する。

一実施態様では、訓練中に、等化器１０４は、所与のルックテーブル（ＬＵＴ）内の係数を、所与のベースでラベル付けされた配列決定画像のピクセルに適用する。これは、係数をピクセルの強度値を用いて要素ごとに乗算し、強度値の重み付き和を生成することを含み、係数は重みとして機能し／作用し／使用される。重み付き和は、等化器１０４の予測出力となる。次に、コスト／誤差関数（例えば、二乗誤差の和（sum of squared errors、ＳＳＥ））に基づいて、重み付き和と所与のベース（例えば、対応する強度ガウスフィットの中心から所与のベースで観測された平均強度として）に対して決定された強度ターゲットとの間の誤差（例えば、最小二乗誤差、最小平均二乗誤差）が計算される。ＳＳＥのようなコスト関数は、適合的アプローチを用いて等化器係数を推定するために用いられる微分可能な関数であり、係数に関する誤差の導関数を評価することができ、これらの導関数を用いて、誤差を最小化する値で係数を更新する。このプロセスは、更新された係数が誤差を減少させなくなるまで繰り返される。他の実施態様では、等化器１０４を訓練するためにバッチ最小二乗法が使用される。

他の実施態様では、図１６に示す塩基ごとの強度分布／ガウス雲は、ウェルごとに生成され、ＤＣオフセット、増幅係数、及び／又は位相パラメータを追加することによってノイズを補正することができる。このようにして、特定のウェルのウェル位置に応じて、対応する塩基ごとのガウス雲を使用して、その特定のウェルに対するターゲット強度値を生成することができる。

一実施態様では、バイアス項が、等化器１０４の出力を生成するドット積に加算される。訓練中、バイアスパラメータは、等化器係数、すなわち、最小二乗又は最小平均二乗（least mean squares、ＬＭＳ）を学習するために使用される同様のアプローチを使用して推定することができる。いくつかの実施態様では、バイアスパラメータの値は、１に等しい一定値であり、すなわち、入力ピクセル強度と共に変化しない値である。等化器係数セットごとに１つのバイアスが存在する。バイアスは訓練中に学習され、その後、推論中に使用するために固定される。学習バイアスは、各ＬＵＴの学習係数と共に、推論中の全ての等化器計算において使用されるＤＣオフセットを表す。このバイアスは、異なるクラスターサイズ、異なる背景強度、変化する刺激応答、変化する焦点、変化するセンサ感度、及び変化するレンズ収差によって引き起こされるランダムノイズを説明する。

更に他の決定指向の実施態様では、等化器１０４の出力は、訓練目的に対して正しいと推定される。

訓練の別の実施態様では、等化器１０４は、ビンに対して単一のＬＵＴ（等化器フィルタ）のみを生成し、次いで、複数のビンごと補間フィルタ１０８を使用して、残りのビンに対して残りの等化器フィルタを生成する。この実施態様では、全ての訓練例に対する全てのウェルの周りのセンサピクセルは、十分に整列された空間に再サンプリング／補間される（すなわちウェルはそれぞれのピクセルパッチ／局所グリッドの中心に置かれる）。次いで、全ての例について再サンプリングされたピクセルは、全てのウェルにわたって一貫して整列される。

しかしながら、ベースコールのための実際のオンラインシステムにおいて等化器１０４によって生成された単一等化器フィルタを適用するために、配列決定画像の生のセンサピクセルを前処理して、よく整列された空間に戻す必要がある。すなわち、各ウェルの周りの生のピクセルに対して補間を実行し、補間パラメータは所与のウェルのサブピクセル位置に依存して変化する必要がある。この補間プロセスを回避するために、所与のウェルサブピクセル位置に対する全体的な応答を事前に計算する。良好に整列されたピクセル空間に生のピクセル強度を補間することにより、良好に整列された等化器入力値を計算する。補間応答と等化器応答を一緒に畳み込み、計算を削減した。補間フィルタはサブピクセルウェル位置によって変化するので、これにより、サブピクセルウェル位置ごとに異なる等化器係数セット／等化器フィルタが与られ、それによって残りのビンについて残りのＬＵＴが生成される。したがって、訓練のこの実施態様において、単一等化器フィルタの係数のみが訓練中に訓練されるが、事前計算プロセスは、単一等化器フィルタと共にビン固有補間フィルタ１０８を適用することによってＬＵＴベースの等化器のバンクを生成する。ここで、ＬＵＴインデックスはサブピクセルウェル位置である。

訓練器１１４は、等化器１０４を訓練し、複数の訓練器を訓練し、ＬＵＴ１０６の訓練係数を生成することができる。訓練技術の例として、最小二乗推定、最小二乗法、最小平均二乗、及び再帰的最小二乗が挙げられる。最小二乗法では、残差の二乗和が最小になるように、関数のパラメータがデータセットに最も適合するように調整される。最小二乗推定アルゴリズムの詳細については、「最小二乗法」、ｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗ／ｉｎｄｅｘ．ｐｈｐ？ｔｉｔｌｅ＝Ｌｅａｓｔ＿ｓｑｕａｒｅｓ＆ｏｌｄｉｄ＝９５１７３７８２１（最終訪問先は２０２０年４月２８日）を参照されたい。これは参照により本明細書に完全に記載されているかのごとく組み込まれる。最小二乗法（ordinary least squares）は、線形回帰モデルにおける推定のための最小二乗法（least squares method）の一種である。最小二乗法アルゴリズムの詳細については、「Ｏｒｄｉｎａｒｙｌｅａｓｔｓｑｕａｒｅｓ」、ｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗ／ｉｎｄｅｘ．ｐｈｐ？ｔｉｔｌｅ＝Ｏｒｄｉｎａｒｙ＿ｌｅａｓｔ＿ｓｑｕａｒｅｓ＆ｏｌｄｉｄ＝９５１７７０３６６（最終訪問先は２０２０年４月２８日）を参照されたい。これは参照により本明細書に完全に記載されているかのごとく組み込まれる。他の実施態様では、他の推定アルゴリズム及び適合等化アルゴリズムを使用して等化器１０４を訓練することができる。

等化器１０４はオフラインモードで訓練することができる。オフラインモードにおいて、一実施態様によれば、ＬＵＴ１０６の訓練された係数は、以下のバッチ最小二乗等化論理を使用して生成される。

上式において、ＬＵＴ係数はベータハットであり、ピクセル強度はＸであり、ターゲットはｙである。ＤＣ項もピクセル強度及び係数（例えば、全ての場合に１に固定される追加強度項）に追加される。次に、一例として、Ｘがサイズ８２（＝９×９入力強度＋一定ＤＣ項）×バッチ内の訓練例数の行列であり、Ｙが各訓練例に対するターゲット出力であると考える。すなわち各値は訓練例トゥル－スに依存するＯＮ／ＯＦＦ雲の強度中心である。ベータハットは、二乗された残差の和を最小化する係数のセットであり、サイズも８２（＝９×９係数＋１ＤＣ項）である。

等化器１０４はまた、シーケンサが動作しており、配列決定ランが周期的に進行している間に、ＬＵＴ１０６の係数を適合させて、タイルごと又はサブタイルごとに、温度（例えば、光学歪み）、焦点、化学、機械固有の変動などの変化を追跡するように、オンラインモードで訓練することができる。オンラインモードでは、ＬＵＴ１０６の訓練された係数は、適合等化を使用して生成される。オンラインモードでは、確率的勾配降下法の一形態である最小平均二乗法を訓練アルゴリズムとして使用する。最小平均二乗アルゴリズムの詳細については、「最小二乗平均フィルタ」、ｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗ／ｉｎｄｅｘ．ｐｈｐ？ｔｉｔｌｅ＝Ｌｅａｓｔ＿ｍｅａｎ＿ｓｑｕａｒｅｓ＿ｆｉｌｔｅｒ＆ｏｌｄｉｄ＝９４１８９９１９８（最終訪問先は２０２０年４月２８日）を参照されたい。これは参照により本明細書に完全に記載されているかのごとく組み込まれる。

最小平均二乗法では、各係数に対する二乗誤差の勾配を用いて、二乗誤差の期待値であるコスト関数を最小化する方向に係数を移動させる。これは非常に低い計算コストを有し、係数当たりの乗算及び累算演算のみが実行される。係数を除いて、長期保存は必要ない。最小平均二乗法は、大量のデータを処理するのに適している（例えば、何十億ものクラスターからのデータを並列処理する）。最小平均二乗法の拡張には、正規化最小平均二乗法及び周波数領域最小平均二乗法が含まれ、これらもここで使用することができる。いくつかの実施態様では、最小平均二乗法は、本発明者らの決定が正しいと仮定する決定指向の方法、すなわち、本発明者らの誤差率が非常に低く、小さいμ値が不正確なベースコールによる妨害された更新をフィルタリングする方法で適用することができる。

図１８は、等化器１０４を訓練するために使用することができる適合等化技術の一実施態様を示している。ここで、等化論理はｙ＝ｘ．ｈ＋ｄであり、式中、ｘは入力ピクセル強度、ｈは等化器係数、ｄはＤＣオフセットである。一実施態様では、ｘ及びｈはそれぞれ、長さ８１を有する行及び列ベクトルである。このベクトルモデルは，入力ピクセルと係数を表す９×９行列の内積に相当する。コストは二乗誤差の期待値である。勾配の更新により、誤差二乗の期待値を減少させる方向に各係数が移動する。これにより、次の更新が行われる。

上式において、ｈは等化器係数（例えば、９×９等化器係数）のベクトルであり、ｘは等化器入力強度（例えば、ピクセルパッチ内の９×９ピクセル）のベクトルであり、ｅはｘの８１個の値を用いて実行された等化器計算の誤差であり、すなわち、等化器出力ごとにただ１つの誤差項である。

この更新を適用すると、９×９等化器係数の新しい推定値が生成される。この推定値は、平均二乗誤差（mean squared error、ＭＳＥ）を低減する方向に（平均して）等化器係数を移動する。等化器係数ごとに１回ずつ、８１回の更新が行われる。いくつかの実施態様では、Ｍｕは、適合レート／収束速度を変更するために使用される小さい定数である。ＤＣ項の更新は、同様の方式で計算することができる。ゲイン項の更新も同様の方式で計算することができる。

係数セットは、例えば、タイル、タイルの領域、又はフローセル表面の間で共有することができる。これは、入力データが変更されたときに係数セットを保存及び復元することによって行われる。

いくつかの実施態様では、線形補間が係数セットに適用されるので、更新は、以下の様式でわずかに異なって適用される。
ｈ（ｑ，ｎ＋１）＝ｈ（ｑ，ｎ）＋ｌａｍｂｄａ＿ｑ．ｍｕ．ｘ（ｎ）．ｅ（ｎ）

上式において、ｈ（ｑ，ｎ）はサイクルｎにおける重みｑであり、ｌａｍｂｄａ＿ｑは係数の特定のセットに対する線形補間重みであり、二次元における線形補間による等化器出力当たり４回の更新を含むことができる。

再帰最小二乗法は、最小二乗法を再帰アルゴリズムに拡張したものである。再帰最小二乗アルゴリズムの詳細については、「再帰最小二乗フィルタ」、ｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗ／ｉｎｄｅｘ．ｐｈｐ？ｔｉｔｌｅ＝Ｒｅｃｕｒｓｉｖｅ＿ｌｅａｓｔ＿ｓｑｕａｒｅｓ＿ｆｉｌｔｅｒ＆ｏｌｄｉｄ＝９１６４０６５０２（最終訪問先は２０２０年４月２８日）を参照されたい。これは参照により本明細書に完全に記載されているかのごとく組み込まれる。

マルチドメイン実施態様では、ＬＵＴ１０６及びそれらの訓練された係数は、複数のドメインに沿って生成することができる。ドメインの例として、シーケンサ又は配列決定機器／マシン（例えば、ＩｌｌｕｍｉｎａのＮｅｘｔＳｅｑ、ＭｉＳｅｑ、ＨｉＳｅｑ及びそれらのそれぞれのモデル）、配列決定プロトコル及び化学（例えば、ブライド増幅、排除増幅）、配列決定ラン（例えば、順方向及び逆方向）、配列決定照明（例えば、構造化、非構造化、角度付き）、配列決定装置（例えば、オーバヘッドＣＣＤカメラ、下にあるＣＭＯＳセンサ、１つのレーザ、複数のレーザ）、撮像技術（１チャネル、２チャネル、４チャネル）、フローセル（例えば、パターン化されたもの、パターン化されていないもの、ＣＭＯＳチップに埋め込まれたもの、下にあるＣＣＤカメラ）、及びフローセル上の空間分解能（例えば、フローセル内の異なる領域又は象限（例えば、フローセル上の異なるタイル（例えば、レーザ又はカメラ又は流体システムに近いタイル上にあるエッジウェルの場合））及びタイル内の異なる領域（例えば、タイル上の異なるレーン（例えば、レーザ又はカメラ又は流体システムに近いレーン上にあるエッジウェルの場合））が挙げられる。当業者は、配列決定と典型的に関連する他の選択可能なドメイン及びパラメータ（例えば、画像処理アルゴリズム、画像位置合わせアルゴリズム、グラウンドトゥルース注釈スキーム（例えば、強度値のような連続ラベル、ワンホット符号化のようなハードラベル、ソフトマックススコアのようなソフトラベル）、温度、焦点、レンズ、配列決定試薬、配列決定バッファ）が同様に含まれることを理解する。

それぞれのドメインを使用して生成された配列決定画像を使用して、それぞれのドメインに対して別個の異なる訓練セットを作成することができる。離散訓練セットを使用して等化器１０４を訓練し、対応する領域に対して訓練された係数を有するＬＵＴを生成することができる。複数のドメインにおけるそれぞれのドメインに対して特別に訓練されて生成された訓練係数は、現在又は進行中の配列決定操作においてどのドメイン又はドメインの組み合わせが使用されているかに応じて、オンラインモード中に記憶され、アクセスされ得る。例えば、配列決定操作のために、フローセルのエッジウェルにより好適な第１の係数セットを、同じフローセルのセンターウェルにより好適な第２の係数セットと共に使用することができる。

一実施態様では、構成ファイルは、ドメインの異なる組み合わせを指定することができ、オンラインモード中に分析して、構成ファイルによって識別されるドメインに特有の異なるセットの係数を選択することができる。

複数訓練の実施態様において、等化器１０４は、訓練だけでなく事前訓練も受ける。すなわち、ＬＵＴ１０６及びそれらの係数は、最初に、第１の訓練技術を使用して訓練前段階で訓練され、次に、第２の訓練技術を使用して更なる訓練段階で再訓練又は更に訓練される。第１及び第２の訓練技術は、上記の訓練技術のいずれかであり得る。こぶしと第２の訓練技術は同じであっても、異なっていてもよい。例えば、事前訓練段階は、バッチ最小二乗法訓練技術を使用するオフラインモードであってもよく、訓練段階は、反復確率最小平均二乗技術を使用するオンラインモードであってもよい。

いくつかの実施態様では、マルチドメイン及びマルチ訓練の実装態様は、ドメイン固有の係数が事前訓練され、次いでドメイン固有の様式で更に訓練されるように組み合わせることができる。すなわち、更なる訓練（例えば、オンラインモード）は、その特定のドメインを表し、訓練前段階で使用されたデータに類似するデータのみを使用して、その特定のドメインの係数を再訓練する。他の知識伝達の実施態様では、事前訓練及び訓練は、ドメイン全体からの訓練データを使用することができ、例えば、係数セットは、パターン化されたフローセルからの画像を使用して事前訓練中に生成されるが、パターン化されていないフローセルからの画像を使用して後続の訓練段階中に再訓練される。

空間クロストーク減衰器
図２は、センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサピクセルを使用してコールクラスターをベースコールにするために、図１の訓練されたＬＵＴ／等化器フィルタ１０６を使用する一実施態様を示している。訓練された等化器ベースコーラー１０４は、ベースコールが行われる推論段階中に動作する。いくつかの実施態様では、図２に示すアクションは、ベースコール段階の前の前処理段階で実行され、ベースコールのためにベースコーラーによって使用されるクロストーク補正された画像データを生成する。

一実施態様では、等化器係数は、撮像チャネルベース及びターゲットクラスターベースで配列決定画像１１６から抽出されたピクセルパッチ１２０（画像パッチ又はセンサピクセルの局所グリッド）に適用される。撮像チャネルベースに関して、いくつかの実施態様では、各配列決定画像は、複数の撮像チャネルの画像データを有する。２つの異なる撮像チャネル、すなわち赤色チャネル及び緑色チャネルを使用するＩｌｌｕｍｉｎａシーケンサの光学システムを考える。次いで、各配列決定サイクルにおいて、光学システムは、赤色チャネル強度を有する赤色画像及び緑色チャネル強度を有する緑色画像を生成し、これらは一緒になって（典型的な色画像のＲＧＢチャネルのように）単一の配列決定画像を形成する。

訓練中、係数は、予測／推定出力と所望／実際出力との間の誤差を最小化することによって信号対ノイズ比（signal-to-noise ratio、ＳＮＲ）を最大化するように訓練／構成される。誤差の一例は、平均二乗誤差（ＭＳＥ）又は平均二乗偏差（mean squared deviation、ＭＳＤ）である。信号対ノイズ比において最大化された信号は、ベースコールされたターゲットクラスター（例えば、画像パッチの中心にあるクラスター）からの強度放射であり、信号対ノイズ比において最小化されたノイズは、１以上の隣接クラスター、すなわち、空間クロストーク、加えて他のノイズ源（例えば、背景強度放射を説明するための）からの強度放射である。訓練された係数は、ピクセルの強度値の重み付き和を計算するために、画像パッチのピクセルに要素ごとに乗算される。次に、重み付き和を使用して、ターゲットクラスターをベースコールする。

一実施態様では、パッチ抽出器１１８は、単一の配列決定画像から、赤色チャネルからの赤色ピクセルパッチ、及び緑色チャネルについての緑色ピクセルパッチを抽出する。他の実施態様では、赤色ピクセルパッチは、対象配列決定サイクルの赤色配列決定画像から抽出され、緑色ピクセルパッチは、対象配列決定サイクルの緑色配列決定画像から抽出される。ＬＵＴ１０６の係数は、赤色ピクセルパッチのための赤色重み付き和及び緑色ピクセルパッチのための緑色重み付き和を生成するために使用される。次に、赤色重み付き和と緑色重み付き和を両方とも使用して、ターゲットクラスターをベースコールする。ピクセルパッチ１２０は、寸法ｗ×ｈを有し、式中、ｗ（幅）及びｈ（高さ）は、１及び１０，０００（例えば、３×３、５×５、７×７、９×９、１５×１５、２５×２５）の範囲の任意の数である。いくつかの実施態様では、ｗ及びｈは同じである。他の実施態様では、ｗ及びｈは異なる。当業者は、１つ、２つ、３つ、４つ、又はそれ超のチャネル又は画像のデータを、ターゲットクラスターについての配列決定サイクル当たり生成することができ、１つ、２つ、３つ、４つ、又はそれ超のパッチがそれぞれ抽出されて、ターゲットクラスターをベースコールするための１つ、２つ、３つ、４つ以上の重み和がそれぞれ生成されることを理解するであろう。

配列決定画像１１６からピクセルパッチ１２０を抽出するターゲットクラスターベースに関して、ピクセル抽出部１１８は、配列決定画像１１６上のクラスター／ウェルの中心の位置に基づいて、抽出された各ピクセルパッチの中心ピクセルがターゲットクラスター／ウェルの中心を含むようにピクセルパッチ１２０を抽出する。いくつかの実施態様では、パッチ抽出器１１８は、クラスター／ウェル中心を配列決定画像上に位置決めし、クラスター／ウェル中心（すなわち、中心ピクセル）を含む配列決定画像のピクセルを識別し、中心ピクセルの周囲の連続的に隣接するピクセル近傍のピクセルパッチを抽出する。

図２は、フローセル上の少なくとも５つのクラスター／ウェルの中心／点源を含む配列決定画像２００の一例を可視化している。配列決定画像２００のピクセルは、ターゲットクラスター１（青）からの強度放射と、追加の隣接クラスター２（紫）、クラスター３（オレンジ）、クラスター４（茶）、及びクラスター５（緑）からの強度放射を示している。

図３は、配列決定画像２００からピクセルパッチ３００（黄）を抽出する一例を可視化したものであり、ターゲットクラスター１（青）の中心がピクセルパッチ３００の中心ピクセル２０６に含まれるようになっている。図３はまた、隣接するクラスター２（紫）、クラスター３（オレンジ）、クラスター４（茶）、及びクラスター５（緑）の中心をそれぞれ含む他のピクセル２０２、２０４、２１４、及び２１６を示している。

図４は、クラスター対ピクセル信号４００の一例を可視化している。一実施態様では、センサピクセル（黄）はピクセル平面内にある。空間クロストークは、試料平面（例えば、フローセル）に周期的に分布したクラスター４１２によって引き起こされる。一実施態様において、ターゲットクラスター及び追加の隣接クラスターは、フローセル上に菱形で周期的に分布され、フローセルのウェル上に固定化される。別の実施態様では、ターゲットクラスター及び追加の隣接クラスターは、六角形のフローセル上に周期的に分布され、フローセルのウェル上に固定化される。クラスターからの信号コーン４０２は、少なくとも１つのレンズ（例えば、オーバヘッド又は隣接するＣＣＤカメラの１以上のレンズ）を介して、センサピクセル（例えば、ピクセルパッチ３００）のローカルグリッドに光学的に結合される。

クラスターは、菱形及び六角形の他に、正方形、菱状形、三角形などの他の規則的な形状に配置することができる。更に他の実施態様では、クラスターは、ランダムで非周期的な配置で試料平面上に配置される。当業者は、クラスターが、特定の配列決定の実施態様によって必要とされるように、任意の配置で試料平面上に配置され得ることを理解する。

図５は、クラスター対ピクセル信号オーバラップ５００の一例を可視化している。信号コーン４０２は、重なり合ってセンサピクセルに衝突し、空間クロストーク５０２を生成する。

図６は、クラスター信号パターン６００の一例を可視化している。一実施態様では、クラスター信号パターン６００は、減衰パターン６０２に従う。この場合、クラスター信号は、クラスター中心で最も強く、クラスター中心から遠ざかって伝播するにつれて減衰する。

図６はまた、ターゲットクラスター１からの強度放射と、隣接するクラスター２、クラスター３、クラスター４、及びクラスター５からの強度放射との重み付き和を計算することによって信号対ノイズ比を最大化するように訓練／構成された等化器係数６０４の一例を示している。等化器係数６０４は重みとして機能する。重み付き和は、等化器係数６０４を含む第１の行列と、ピクセル強度値を含む第２の行列とを要素ごとに乗算することによって計算され、各ピクセル強度値は、クラスター１、２、３、４、及び５のうちの１以上からの放射と、ピクセルセンサによって測定されたシステム内の他のノイズ源との和である。

図７は、ピクセルパッチ３００からの空間クロストークを減衰させるために使用されるサブピクセルＬＵＴグリッド７００の一例を可視化している。ピクセルパッチ３００内の各ピクセルは、複数のサブピクセルに分割可能である。図７において、ターゲットクラスター１（青）の中心を含むピクセル２０６は、訓練されたＬＵＴ１０６の数と同数のサブピクセルに分割される。すなわち、ピクセル２０６は、訓練中に等化器１０４がＬＵＴ１０６を生成したビンの数と同じ数のサブピクセルに分割される。結果として、ピクセル２０６の各サブピクセルは、決定指向フィードバック及び最小二乗推定を使用して等化器１０４によって生成されたＬＵＴバンク内のそれぞれのＬＵＴに対応する。

図７に示す例では、ピクセル２０６（中心ピクセル）は、５×５のサブピクセルＬＵＴグリッド７００に分割され、訓練の結果として適合フィルタ１０４によって生成された２５個のＬＵＴ（等化器フィルタ）にそれぞれ対応する２５個のサブピクセルを生成する。２５個のＬＵＴの各々は、信号対ノイズ比を最大化するように、ターゲットクラスター１からの強度放射と、隣接するクラスター２、クラスター３、クラスター４、及びクラスター５からの強度放射示すピクセルパッチ３００内のピクセルの強度値を混合／結合するように構成されている係数を含む。信号対ノイズ比において最大化された信号は、ターゲットクラスターからの強度放射であり、信号対ノイズ比において最小化されたノイズは、隣接するクラスター２、クラスター３、クラスター４、及びクラスター５からの強度放射、すなわち、空間クロストークにいくつかのランダムノイズを（例えば、背景強度放射を説明するために）加えたものである。ＬＵＴ係数は重みとして使用され、混合／結合には、ＬＵＴ係数とピクセルパッチ３００内のピクセルの強度値との間で要素ごとの乗算を実行して、ピクセルの強度値の重み付き和を計算することが含まれる。

２５個のＬＵＴの各々における係数の数は、ピクセルパッチ３００におけるピクセルの数と同じであり、すなわち、ピクセルパッチ３００における９×９のピクセルについての各ＬＵＴにおける９×９の係数グリッドである。これは、係数がピクセルパッチ３００内のピクセルを用いて要素ごとに乗算されるためである。

一実施態様では、ピクセル－サブピクセル変換器（図１Ｂには図示せず）は、予め設定されたピクセル除数パラメータ（例えば、５×５のサブピクセルＬＵＴグリッド７００を生成するために１サブピクセル当たり１／５ピクセル）に基づいてピクセル２０６をサブピクセルＬＵＴグリッド７００に分割する。例えば、ピクセルは、以下の境界、すなわち－０．５、－０．３、－０．１、０．１、０．３、０．５を有する５つのサブピクセルビンに分割され得る。

図７において、ターゲットクラスター１（青）の中心は、変換ピクセル７０２の中心と実質的に同心であることに留意されたい。これは、（ｉ）テンプレート画像に対して配列決定画像２００を位置合わせし、アフィン変換及び非線形変換パラメータを決定することと、（ｉｉ）パラメータを使用してターゲットクラスター１（青）の位置座標を配列決定画像７０２の画像座標に変換することと、（ｉｉｉ）ターゲットクラスター１（青）の変換された位置座標を使用して補間を適用してその中心を変換されたピクセル２００の中心と実質的に同心にすることと、によって、配列決定画像２００、したがってピクセルパッチ３００が再サンプリングされ、ターゲットクラスター１（青）の中心が変換されたピクセル７０２の中心と実質的に同心になるからである。試料平面におけるウェルの位置は既知であり、特定のウェルに対する等化器入力が生ピクセル空間内のどこにあるかを計算するために使用することができる。次に、補間を使用して、生の画像からそれらの位置における強度を復元することができる。

図８は、ピクセル内のクラスター／ウェル中心のサブピクセル位置に基づくＬＵＴバンク１０６からのＬＵＴ／等化器フィルタの選択を示している。ターゲットクラスターの中心（青）は、サブピクセルＬＵＴグリッド７００の特定のサブピクセル１２にあり、ピクセル２０６の特定のサブピクセル１２はＬＵＴバンク１０６内のＬＵＴ１２に対応するので、ＬＵＴセレクタ１２２は、ピクセルパッチ３００のピクセルに適用するためにＬＵＴバンク１０６からＬＵＴ１２とその係数を選択する。次に、要素ごと乗算器１３４は、ピクセルパッチ３００内のピクセルの強度値に対して、ＬＵＴ１２の係数を要素ごとに乗算し、乗算の積を合計して出力（例えば、重み付き和１３６）を生成する。この出力は、ターゲットクラスター１をベースコールするために使用される（例えば、この出力をベースコーラー１３８への入力として供給する）。

等化器１０４は、図７及び図８に関して上で考察されたように、ターゲットクラスターがピクセルの中心と実質的に同心である場合に、以下の等化論理を実施する。

上記式において、ウェル中心座標（ｍ，ｎ）は、ウェルが実質的にピクセルと整列されることを保証するために整数である。ｐ（ｉ，ｊ）は、位置ｉ、ｊにおけるピクセル強度である。ｗ（ｉ，ｊ）は、位置ｉ、ｊにおけるピクセルに対する等化器重みである。ｉ、ｊは、ｐ（ｍ，ｎ）、例えば、－４＜＝ｉ＜＝４、－４＜＝ｊ＜＝４を中心とするウェルを囲むピクセル範囲にわたって作用する総和限界であり、出力は入力ピクセルの加重平均である。

図９は、図８に関して考察されたような再サンプリングが実行されないために、ターゲットクラスター１の中心（青）がピクセル２０６の中心と実質的に同心でない一実施態様を示している。そのような実施態様では、補間係数を有する補間ＬＵＴを生成するために、選択されたＬＵＴ１２４のセットの間で補間が行われる。補間係数を有する補間ＬＵＴは、本明細書では重みカーネル１３２とも称される。

まず、図８のように、ターゲットクラスター１（青）の中心が含まれる特定のサブピクセルに対応する第１のＬＵＴ、すなわち、ＬＵＴ１２が選択される。次に、ＬＵＴセレクタ１２２は、サブピクセルルックテーブルのバンク１０６から、特定のサブピクセルに最も連続して隣接するサブピクセルに対応する追加のサブピクセルルックアップテーブルを選択する。図９において、特定のサブピクセル１２に接する最も近接して隣接するサブピクセルは、サブピクセル７、８、及び１３であり、したがって、ＬＵＴ７、８、及び１３は、それぞれＬＵＴバンク１０６から選択される。

図１０は、選択されたＬＵＴのセットの間で補間し、それぞれのＬＵＴ重みを生成する一実施態様を示している。補間器１２６は、選択されたＬＵＴ１２、７、８、及び１３の係数を使用し、ＬＵＴ１２、７、８、及び１３の各々について重み１２８を生成する補間論理（例えば、線形、双線形、又は双三次補間）で構成される。

図１３Ａ、図１３Ｂ、図１３Ｃ、図１３Ｄ、図１３Ｅ、図１３Ｆは、ＬＵＴ１２、７、８、１３の係数の例を示している。これらの図はまた、ＬＵＴ１２、７、８及び１３についての重み１２８を計算するために補間器１２６によって使用される補間論理の実施例１３１２、１３２２及び１３３２を示している。これらの図はまた、ＬＵＴ１２、７、８、及び１３について計算された重み１２８の例を示している。これらの図はＥｘｃｅｌシートのスナップショットである。これらの図の青い矢印と色分けは、補間論理を示すためにＥｘｃｅｌのＴｒａｃｋＰｒｅｃｅｄｅｎｃｅ機能によって生成されている。

図１１は、ＬＵＴ１２、７、８、及び１３について計算された重み１２８を使用して重みカーネル１３２を生成する重みカーネル生成器１３０を示している。図１４Ａは、重みカーネル１３２の例を示している。図１４Ｂ及び図１４Ｃは、ＬＵＴ１２、７、８、及び１３について計算された重み１２８から重みカーネル１３２を生成するために重みカーネル生成器１３０によって使用される重みカーネル生成論理の一例１４０２を示している。重みカーネル１３２は、信号対ノイズ比を最大化するように、ターゲットクラスター１からの強度放射及び隣接するクラスター２、クラスター３、クラスター４、及びクラスター５からの強度放射を表すピクセルパッチ３００内のピクセルの強度値を混合／結合するように構成されている補間ピクセル係数１４１２を含む。信号対ノイズ比において最大化された信号は、ターゲットクラスターからの強度放射であり、信号対ノイズ比において最小化されたノイズは、隣接するクラスター２、クラスター３、クラスター４、及びクラスター５からの強度放射、すなわち、空間クロストークにいくつかのランダムノイズを（例えば、背景強度放射を説明するために）加えたものである。補間ピクセル係数１４１２は重みとして使用され、混合／結合は、ＬＵＴ係数とピクセルパッチ３００内のピクセルの強度値との間で要素ごとの乗算を実行して、ピクセルの強度値の重み付き和を計算することを含む。

図１２は、重みカーネル１３２の補間ピクセル係数１４１２をピクセルパッチ３００内のピクセルの強度値で要素ごとに乗算し、乗算の中間積１２０２を合計して重み付き和１３６を生成する要素ごと乗算器１３４を示している。各ウェルに対して、光学システムは、点広がり関数（光学システムの応答）を有する点源（ウェルにおけるクラスター強度）上で動作する。いくつかの実施態様では、異なるクラスターサイズ、異なる背景強度、変化する刺激応答、変化する焦点、変化するセンサ感度、及び変化するレンズ収差によって引き起こされるノイズを説明するために、バイアスが動作に加えられる。捕捉された画像は、全てのウェルからの応答の重ね合わせである。選択されたＬＵＴは、各ウェルの周りのシステム応答を等化して、そのウェルから点源の強度を推定する。すなわち、それは、センサピクセルの局所グリッドを生成した点源の強度を推定するために、センサピクセルの局所近傍／グリッドにわたってＰＳＦ強度を処理する。この等化器演算は、等化器係数を有するローカルグリッド内のセンサピクセル上のドット積である。

等化器１０４は、図９、図１０、図１１及び図１２に関して上で考察されたように、ターゲットクラスターが中心ピクセルの中心と実質的に同心でない場合に、以下の等化論理を実施する。ウェルがピクセルの中心にない場合、等化器１０４の出力は、配列決定画像のピクセルの実際のピクセル強度から導出される仮想ピクセル強度ｐ’（ｉ，ｊ）の関数として計算される。

上記式において、ウェル中心座標（ｍ，ｎ）は小数部を有することができる。各「仮想」等化器入力ｐ’（ｉ，ｊ）は、ピクセル近傍に補間フィルタを適用することによって生成される。一実施態様では、ウィンドウ付きｓｉｎｃローパスフィルタｈ（ｘ，ｙ）が補間のために使用される。他の実施態様では、双線形補間フィルタのような他のフィルタを使用することができる。

位置（ｉ，ｊ）における仮想ピクセルは、補間フィルタを使用して以下のように計算される。

式（１）及び（２）を組み合わせることにより、等化器１０４は、以下のように生のピクセル強度のみを使用する。

上式において、ｈは、サブピクセルオフセットｆｒａｃ（ｍ）、ｆｒａｃ（ｎ）が与えられて固定される。ｕ、ｖは、等化器入力を生成するための補間に使用されるピクセルの範囲を指定し、ｉ、ｊは、等化器１０４への入力として使用される仮想ピクセルの範囲を指定する。

指定されたサブピクセルオフセットでは、変化するのは入力ピクセルだけであり、フィルタ又は重みは変化しない。したがって、各ビン化されたサブピクセルオフセットの中心に対して、補間された等化器係数の固定セットを計算する。出力は以下のようになる。

上記の式において、ｈ_{ｆｍ，ｆｎ}は、ビン化された分数サブピクセルオフセットｆｍ、ｆｎを有するウェルに対するＬＵＴ等化器係数を表し、式中、（ｆｍ，ｆｎ）はＬＵＴ指数である。

図１５Ａ及び図１５Ｂは、重みカーネルの補間ピクセル係数１４１２がどのように信号対ノイズ比を最大化し、クラスター２、３、４、及び５からのクロストークによって破壊された信号からターゲットクラスター１の基礎となる信号を復元するかを示している。

重み付き和１３６は、ベースコール１４０を生成するためにベースコール１３８への入力として供給される。ベースコーラー１３８は、非ニューラルネットワークベースのベースコーラー又はニューラルネットワークベースのベースコーラーとすることができ、両方の例は、米国特許出願第６２／８２１，７６６号及び同第１６／８２６，１６８号のような参照により本明細書に組み込まれる出願に記載されている。

更に他の実施態様では、補間の必要性は、各々が多数のサブピクセルビン（例えば、ＬＵＴごとに５０、７５、１００、１５０、２００、３００などのサブピクセルビン）を有する大きいＬＵＴを有することによって排除される。

図１９Ａは、ＮｏｖａＳｅｑシーケンサからの画像を使用してベースコール誤差率を表すグラフを示している。誤差率はｘ軸のサイクルで示される。ｙ軸の０．００４は、ベースコール誤差率０．４％を表す。ここでの誤差率は、読み取りをＰｈｉ－Ｘ参照にマッピングし、整列させた後に計算される。Ｐｈｉ－Ｘ参照は、高信頼のグラウンドトゥルースセットである。青線はレガシーのベースコーラーである。赤線は、本明細書に開示された改善された等化器ベースのベースコーラー１０４である。全体の誤差率は、制限された余分な計算を犠牲にして５７％減少する。後のサイクルにおけるベース誤差率は、システムにおける余分なノイズ（例えば、プリフェージング／フェージング、クラスター減光）に起因して、より高くなっている。後のサイクルで性能が向上しており、これは、より長い読み取りをサポートすることができることを示しているため、価値があるものである。サイクル間性能変動も著しく低減されている。

図１９Ｂ－１及び図１９Ｂ－２は、ＮｏｖａＳｅｑシーケンサ及びＶｅｇａシーケンサからのシーケンスデータに対する開示された等化器ベースのベースコーラー１０４の性能結果の別の例を示している。ＮｏｖａＳｅｑシーケンサに対して、開示された等化器ベースのベースコーラー１０４は、ベースコール誤差率を５０％超減少させる。Ｖｅｇａシーケンサに対して、開示された等化器ベースのベースコーラー１０４は、ベースコール誤差率を３５％超減少させる。

図１９Ｃは、ＮｅｘｔＳｅｑ２０００シーケンサからのシーケンスデータに対する開示された等化器ベースのベースコーラー１０４の性能結果の別の例を示している。ＮｅｘｔＳｅｑ２０００シーケンサに対して、開示された等化器ベースのベースコーラー１０４は、スループットを含まない平均で１０％だけベースコール誤差率を減少させる。

図１９Ｄは、開示された等化器ベースのベースコーラー１０４によって必要とされる計算リソースの一実施態様を示している。図示のように、開示された等化器ベースのベースコーラー１０４は、２～７スレッドの範囲の少数のＣＰＵスレッドを使用して実行することができる。したがって、開示された等化器ベースのベースコーラー１０４は、計算上効率的なベースコーラーであり、これはベース誤差率を大幅に低減し、したがって、いかなる追加の計算又はＧＰＵ、ＦＰＧＡ、ＡＳＩＣなどの特殊なプロセッサを必要とすることなく、ほとんどの既存のシーケンサに統合することができる。

本出願において、用語「クラスター」、「ウェル」、「試料」及び「蛍光試料」は、ウェルが対応するクラスター／試料／蛍光試料を含有するので、交換可能に使用される。本明細書中で定義されるように、「試料」及びその誘導体は、最も広い意味で使用され、標的を含むことが疑われる任意の試料、培養物などを含む。いくつかの実施態様において、試料は、ＤＮＡ、ＲＮＡ、ＰＮＡ、ＬＮＡ、キメラ又はハイブリッド形態の核酸を含む。試料は、１以上の核酸を含有する任意の生物学的試料、臨床試料、外科試料、農業試料、大気試料又は水試料を含むことができる。この用語はまた、任意の単離された核酸試料、例えば、ゲノムＤＮＡ、新鮮凍結又はホルマリン固定パラフィン包埋核酸試料を含む。試料は、単一個体、遺伝的に関連するメンバーからの核酸試料のコレクション、遺伝的に関連しないメンバーからの核酸試料、腫瘍試料及び正常組織試料のような単一個体からの核酸試料（適合）、又は母体被験体から得られた母体及び胎児ＤＮＡのような遺伝物質の２つの異なる形態を含む単一供給源からの試料、又は植物又は動物ＤＮＡを含む試料中の汚染細菌ＤＮＡの存在に由来し得ることも想定される。いくつかの実施態様において、核酸物質の供給源は、例えば新生児スクリーニングに典型的に使用されるような新生児から得られた核酸を含むことができる。

核酸試料は、ゲノムＤＮＡ（genomic DNA、ｇＤＮＡ）などの高分子量物質を含むことができる。試料は、ＦＦＰＥ又は保管されたＤＮＡ試料から得られた核酸分子などの低分子量物質を含むことができる。別の実施態様では、低分子量物質は、酵素的又は機械的にフラグメント化されたＤＮＡを含む。試料は、無細胞循環ＤＮＡを含むことができる。いくつかの実施態様において、試料は、生検、腫瘍、擦過物、スワブ、血液、粘液、尿、血漿、精液、毛髪、レーザ捕捉顕微解剖、外科的切除、及び他の臨床的又は実験室で得られた試料から得られた核酸分子を含み得る。いくつかの実施態様において、試料は、疫学的、農業的、法医学又は病原性試料であり得る。いくつかの実施態様において、試料は、ヒト又は哺乳動物源などの動物から得られた核酸分子を含むことができる。別の実施態様では、試料は、植物、細菌、ウイルス又は真菌などの非哺乳類源から得られた核酸分子を含むことができる。いくつかの実施態様において、核酸分子の供給源は、保存又は絶滅した試料又は種であり得る。

更に、本明細書中に開示される方法及び組成物は、法医学試料からの分解及び／又はフラグメント化されたゲノムＤＮＡなどの低品質核酸分子を有する核酸試料を増幅するのに有用であり得る。一実施態様では、法医学試料は、犯罪現場から得られた核酸、行方不明者ＤＮＡデータベースから得られた核酸、法医学調査と関連した研究所から得られた核酸を含むことができ、又は法執行機関、１以上の軍隊若しくはそのような要員によって得られた法医学試料を含むことができる。核酸試料は、例えば、口腔スワブ、紙、布、又は唾液、血液、若しくは他の体液で含浸され得る他の基質に由来する、精製された試料又は溶解物を含む粗ＤＮＡであり得る。それ自体、いくつかの実施態様において、核酸試料は、ゲノムＤＮＡのようなＤＮＡの少量又はフラグメント化された部分を含み得る。いくつかの実施態様において、標的配列は、限定されるものではないが、血液、痰、血漿、精液、尿及び血清を含む１つ以上の体液に存在し得る。いくつかの実施態様において、標的配列は、毛髪、皮膚、組織試料、剖検又は犠牲者の遺体から得ることができる。いくつかの実施態様において、１つ以上の標的配列を含む核酸は、死亡した動物又はヒトから得ることができる。いくつかの実施態様において、標的配列は、微生物、植物細胞又は昆虫学的のような非ヒトから得られた核酸を含むことができる。いくつかの実施態様において、標的配列又は増幅された標的配列は、ヒト同定を対象とする。いくつかの実施態様において、本開示は、一般に、法医学試料の特徴を同定するための方法に関する。いくつかの実施態様において、本開示は、一般に、本明細書に開示された１つ以上の標的特異的プライマー、又は本明細書に概説されたプライマー設計基準を用いて設計された１以上の標的特異的プライマーを使用するヒト同定方法に関する。一実施態様において、少なくとも１つの標的配列を含む法医学試料又はヒト同定試料は、本明細書に開示された標的特異的プライマーのいずれか１つ以上を用いて、又は本明細書に概説されたプライマー基準を用いて増幅することができる。

本明細書中で使用される場合、用語「隣接する」は、２つの反応部位に関して使用される場合、２つの反応部位の間に他の反応部位が存在しないことを意味する。用語「隣接する」は、隣接する検出経路及び隣接する光検出器に関して使用される場合、同様の意味を有し得る（例えば、隣接する光検出器はその間に他の光検出器を有さない）。場合によっては、反応部位は他の反応部位に隣接していなくてもよいが、依然として他の反応部位の直近に存在していてもよい。第１の反応部位からの蛍光発光シグナルが第２の反応部位と関連する光検出器によって検出される場合、第１の反応部位は第２の反応部位の直近にあってもよい。より具体的には、第１の反応部位は、第２の反応部位と関連する光検出器が、例えば、第１の反応部位からのクロストークを検出する場合、第２の反応部位のすぐ近くにあってもよい。隣接する反応部位は、互いに隣接するように連続していてもよく、又は隣接部位は、間に介在スペースを有する非連続であってもよい。

技術的な改善及び用語
特許、特許出願、記事、書籍、論文、及びウェブページが挙げられるがこれらに限定されない、本出願において引用された全ての文献及び類似材料は、そうした文献及び類似材料の形式に関わりなく、それらの全体が参照により明示的に組み込まれる。組み込まれた文献及び類似の材料のうちの１つ以上が、以下に限定するわけではないが、定義された用語、用語使用、記載された技術などで、本出願とは異なる、又は矛盾する場合には、本出願が優越する。用語に関する更なる情報は、２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許非仮出願第１６／８２６，１６８号（代理人整理番号ＩＬＬＭ１００８－２０／ＩＰ－１７５２－ＰＲＶ）及び２０２０年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許仮出願第６２／８２１，７６６号（代理人整理番号ＩＬＬＭ１００８－９／ＩＰ－１７５２－ＰＲＶ）に見出すことができる。

開示される技術は、核酸テンプレート又はその相補体、例えば、ＤＮＡ若しくはＲＮＡポリヌクレオチド又は他の核酸試料などの核酸試料から得ることができる核酸配列情報の品質及び量を改善するためにニューラルネットワークを使用する。したがって、開示される技術の特定の実施は、以前に利用可能な方法と比較して、より高いスループットのポリヌクレオチド配列決定、例えば、より高いＤＮＡ又はＲＮＡ配列データの収集速度、配列データ収集におけるより高い効率、及び／又はそのような配列データを得る低コストを提供する。

開示される技術は、ニューラルネットワークを使用して、固相核酸クラスターの中心を識別し、そのようなクラスターの配列決定中に生成される光信号を解析して、隣接する、隣接する、又は重複するクラスター間で曖昧さなく区別して、単一の離散したソースクラスターに配列決定シグナルを割り当てる。したがって、これら及び関連する実施態様は、高密度クラスターアレイの領域からの、配列データなどの有意義な情報の回収を可能にし、有用な情報は、重複する又は非常に近接して離間配置された隣接クラスターの影響を混乱させることに起因して、そのような領域から以前に得られなかった場合がある。重複するシグナルの効果（例えば、核酸配列決定において使用されるような）の効果を含む。

以下により詳細に記載されるように、特定の実施態様では、本明細書で提供されるように、１つ又は複数の核酸クラスターに固定化された固体支持体を含む組成物が提供される。各クラスターは、同じ配列の複数の固定化された核酸を含み、本明細書で提供されるような検出可能な中心標識を有する識別可能な中心を有し、識別可能な中心は、クラスター内の周囲領域において固定化された核酸と区別可能である。また、識別可能な中心を有するこのようなクラスターを作製及び使用するための方法も本明細書に記載される。

本開示の実施態様は、多数の状況での使用が見出され、その利点は、クラスター内の実質的に中心の位置の位置を識別、決定、アノテーション、記録、ないしは別の方法で割り当てる能力から得られる、多くの状況において使用が見出されるであろう。ハイスループット核酸配列決定、光学的又は他のシグナルを個別のソースクラスターに割り当てるための画像解析アルゴリズムの開発、及び固定化された核酸クラスターの中心の認識が望ましい及び有益である他の用途が望ましい。

特定の実施態様では、本発明は、核酸配列決定（例えば、「配列決定」）などのハイスループット核酸分析に関連する方法を企図する。例示的なハイスループット核酸解析としては、非限定的に、デノボ配列決定、再配列決定、全ゲノム配列決定、遺伝子発現解析、遺伝子発現モニタリング、エピジェネティクス分析、ゲノムメチル化分析、対立遺伝子特異的プライマー伸長（Allele Specific Primer Extension、ＡＰＳＥ）、遺伝的多様性プロファイリング、全ゲノム多型発見及び解析、単一ヌクレオチド多型解析、ハイブリダイゼーション系配列決定法などが挙げられる。当業者は、様々な異なる核酸が、本発明の方法及び組成物を使用して分析され得ることを理解するであろう。

本発明の実施は核酸配列決定に関連して記載されているが、それらは、異なる時点で取得された画像データ、空間位置、又は他の時間的若しくは物理的観点で取得された画像データが分析される任意の分野において適用可能である。例えば、本明細書に記載される方法及びシステムは、マイクロアレイ、生物学的検体、細胞、生物などからの画像データが取得され、異なる時点又は視点で取得され、分析される、分子生物学及び細胞生物学の分野において有用である。画像は、蛍光顕微鏡法、光学顕微鏡法、共焦点顕微鏡法、光学画像化法、磁気共鳴画像化法、トモグラフィ走査などが挙げられるが、これらに限定されない、当該技術分野において既知の任意の数の技術を使用して得ることができる。別の例として、本明細書に記載される方法及びシステムは、監視、空中、又は衛星撮像技術などによって取得された画像データが、異なる時点又は視点で取得され、分析される場合に適用することができる。本方法及びシステムは、視野内で取得された画像を分析するのに特に有用であり、この視野内で、観察される検体は、視野内の互いに対して同じ場所に留まる。しかしながら、検体は、別個の画像で異なる特性を有してもよく、例えば、検体は、視野の別々の画像において異なるように見える場合がある。例えば、検体は、異なる画像で検出された所与の検体の色とは異なるように見える場合があり、異なる画像内の所与の検体のために検出された信号の強度の変化、又は更には、１つの画像中の所与の検体の信号の外観、及び別の画像内の検体の信号の消失を示し得る。

本明細書で使用するとき、用語「検体」は、相対位置に従って他の点又は領域と区別することができるパターンの点又は領域を意味することを意図する。個々の検体は、特定のタイプの１つ以上の分子を含むことができる。例えば、検体は、特定の配列を有する単一の標的核酸分子を含むことができ、又は検体は、同じ配列（及び／又はその相補的配列）を有するいくつかの核酸分子を含むことができる。パターンの異なる検体である異なる分子は、パターン内の検体の場所に従って互いに分化させることができる。例示的な検体としては、基材中のウェル、基材中又は基材上のビーズ（又は他の粒子）、基材からの突出部、基材上の隆起部、基材上のゲル材料のパッド、又は基材内のチャネルが挙げられる。

検出、特徴付け、又は識別される様々な標的検体のいずれも、本明細書に記載される装置、システム、又は方法で使用することができる。例示的な検体としては、限定するものではないが、核酸（例えば、ＤＮＡ、ＲＮＡ又はそれらの類似体）、タンパク質、多糖類、細胞、抗体、エピトープ、受容体、リガンド、酵素（例えば、キナーゼ、ホスファターゼ又はポリメラーゼ）、小分子薬物候補、細胞、ウイルス、生物などが挙げられるが、これらに限定されない。

用語「検体」、「核酸」、「核酸分子」、及び「ポリヌクレオチド」という用語は、本明細書において互換的に使用される。様々な実施態様では、核酸は、特定のタイプの核酸分析のために、本明細書で提供されるようなテンプレート（例えば、核酸テンプレート、又は核酸テンプレートに相補的な核酸相補体）として使用されてもよく、核酸増幅、核酸発現解析、及び／又は核酸配列決定、又はこれらの好適な組み合わせが挙げられるが、これらに限定されない。特定の実施における核酸としては、例えば、３‘－５‘ホスホジエステル中のデオキシリボヌクレオチドの直鎖ポリマー、又はデオキシリボ核酸（DeoxyriboNucleic Acid、ＤＮＡ）、例えば、一本鎖及び二本鎖ＤＮＡ、ゲノムＤＮＡ、コピーＤＮＡ若しくは相補的ＤＮＡ（complementary DNA、ｃＤＮＡ）、組換えＤＮＡ、又は任意の形態の合成ＤＮＡ若しくは修飾ＤＮＡが挙げられる。他の実施態様では、核酸としては、例えば、３‘－５‘ホスホジエステル中のリボヌクレオチドの直鎖ポリマー、又はリボ核酸（RiboNucleic Acid、ＲＮＡ）などの他の結合、例えば、一本鎖及び二本鎖ＲＮＡ、メッセンジャー（ｍＲＮＡ）、コピーＲＮＡ又は相補的ＲＮＡ（complementary RNA、ｃＲＮＡ）、代替的に、スプライシングされたｍＲＮＡ、リボソームＲＮＡ、小核ＲＮＡ（small nucleolar RNA、ｓｎｏＲＮＡ）、マイクロＲＮＡ（microRNA、ｍｉＲＮＡ）、低干渉ＲＮＡ（small interfering RNA、ｓＲＮＡ）、ピウイＲＮＡ（piwi RNA、ｐｉＲＮＡ）、又は任意の形態の合成若しくは修飾ＲＮＡ。本発明の組成物及び方法において使用される核酸は、長さが変化してもよく、無傷又は完全長の分子若しくはフラグメント、又はより大きい核酸分子のより小さい部分であってもよい。特定の実施態様では、核酸は、本明細書の他の箇所に記載されるように、１つ以上の検出可能な標識を有してもよい。

用語「検体」、「クラスター」、「核酸クラスター」、「核酸コロニー」、及び「ＤＮＡクラスター」は互換的に使用され、固体支持体に結合された核酸テンプレート及び／又はその相補体の複数のコピーを指す。典型的には、特定の好ましい実施態様では、核酸クラスターは、それらの５‘末端を介して固体支持体に結合されたテンプレート核酸及び／又はその相補体の複数のコピーを含む。核酸クラスターを構成する核酸鎖のコピーは、一本鎖又は二本鎖形態であってもよい。クラスター内に存在する核酸テンプレートのコピーは、例えば、標識部分の存在に起因して、互いに異なる対応する位置にヌクレオチドを有することができる。対応する位置はまた、異なる化学構造を有するが、ウラシル及びチミンの場合など、類似のＷａｔｓｏｎ－Ｃｒｉｃｋ塩基対形成特性を有するアナログ構造を含むことができる。

核酸のコロニーはまた、「核酸クラスター」と称されることもある。核酸コロニーは、本明細書の他の箇所で更に詳細に記載されるように、クラスター増幅又はブリッジ増幅技術によって任意に作成することができる。標的配列の複数の反復は、ローリングサークル増幅手順を使用して作成された混乱剤などの単一の核酸分子中に存在し得る。

本発明の核酸クラスターは、使用される条件に応じて、異なる形状、サイズ、及び密度を有することができる。例えば、クラスターは、実質的に円形、多面、ドーナツ形、又はリング形状の形状を有することができる。核酸クラスターの直径は、約０．２μｍ～約６μｍ、約０．３μｍ～約４μｍ、約０．４μｍ～約３μｍ、約０．５μｍ～約２μｍ、約０．７５μｍ～約１．５μｍ、又は任意の介在直径であるように設計することができる。特定の実施態様において、核酸クラスターの直径は、約０．５μｍ、約１μｍ、約１．５μｍ、約２μｍ、約２．５μｍ、約３μｍ、約４μｍ、約５μｍ、又は約６μｍである。核酸クラスターの直径は、クラスターの産生において実施される増幅サイクルの数、核酸テンプレートの長さ、又はクラスターが形成される表面に付着したプライマーの密度を含むが、これらに限定されない多数のパラメータによって影響され得る。核酸クラスターの密度は、典型的には、０．１／ｍｍ^２、１／ｍｍ^２、１０／ｍｍ^２１００／ｍｍ^２１，０００／ｍｍ^２１０，０００／ｍｍ^２～１００，０００／ｍｍ^２の範囲であるように設計することができる。本発明は、一部では、より高密度の核酸クラスター、例えば、１００，０００／ｍｍ^２～１，０００，０００／ｍｍ^２、及び１，０００，０００／ｍｍ^２～１０，０００，０００／ｍｍ^２を更に企図する。

本明細書で使用するとき、「検体」は、検体又は視野内の対象領域である。マイクロアレイデバイス又は他の分子分析デバイスに関連して使用される場合、検体は、類似又は同一の分子によって占有される領域を指す。例えば、検体は、増幅オリゴヌクレオチド、又は同じ又は類似の配列を有するポリヌクレオチド又はポリペプチドの任意の他の群であり得る。他の実施態様では、検体は、試料上の物理的領域を占有する任意の要素又は要素群であり得る。例えば、検体は、ランドのパセル、水の本体などであってもよい。検体が撮像されると、各検体は、一部の領域を有する。したがって、多くの実施態様では、検体は、単に１つのピクセルではない。

検体間の距離は、任意の数の方式で説明することができる。いくつかの実施態様では、検体間の距離は、１つの検体の中心から別の検体の中心まで説明することができる。他の実施態様では、距離は、１つの検体の縁部から別の検体の縁部まで、又は各検体の最も外側の識別可能な点間に記載することができる。検体の縁部は、チップ上の理論的若しくは実際の物理的境界、又は検体の境界内のいくつかの点として説明することができる。他の実施態様では、距離は、試料上の固定点、又は試料の画像に関して説明することができる。

一般に、分析方法に関して、いくつかの実施態様が本明細書に記載される。自動又は半自動化方式で方法を実行するためのシステムも提供されることが理解されるであろう。したがって、本開示は、ニューラルネットワークベースのテンプレート生成及びベースコールシステムを提供し、システムは、プロセッサと、記憶デバイスと、画像分析のためのプログラムと、を含み、プログラムは、本明細書に記載の方法のうちの１つ以上を実行するための命令を含む。したがって、本明細書に記載される方法は、例えば、本明細書に記載されるか又は当該技術分野において既知の構成要素を有するコンピュータ上で実行することができる。

本明細書に記載される方法及びシステムは、様々な物体のうちのいずれかを分析するのに有用である。特に有用な物体は、固体担体又は付着した検体を有する固相表面である。本明細書に記載される方法及びシステムは、ｘｙ平面における検体の繰り返しパターンを有する物体と共に使用される場合、利点を提供する。一例は、細胞、ウイルス、核酸、タンパク質、抗体、炭水化物、小分子（薬物候補など）、生物学的活性分子、又は他の対象検体の集合を有するマイクロアレイである。

核酸及びポリペプチドなどの生物学的分子を有する検体を有するアレイの用途の数が増えてきた。このようなマイクロアレイは、典型的には、デオキシリボ核酸（ＤＮＡ）又はリボ核酸（ＲＮＡ）プローブが挙げられる。これらは、ヒト及び他の生物に存在するヌクレオチド配列に特異的である。特定の用途では、例えば、個々のＤＮＡ又はＲＮＡプローブをアレイの個々の検体に取り付けることができる。既知のヒト又は生物からのものなどの試験試料は、標的核酸（例えば、遺伝子フラグメント、ｍＲＮＡ、又はアンプリコン）が配列中のそれぞれの検体で相補的プローブにハイブリダイズするように、アレイに曝露することができる。プローブは、標的特異的プロセス（例えば、標的核酸上に存在する標識に起因して、又は検体においてハイブリダイズした形態で存在するプローブ又は標的の酵素標識に起因して）標識することができる。次いで、検体の上の特定の光の周波数を走査して、どの標的核酸が試料中に存在するかを識別することによって検査することができる。

生物学的マイクロアレイは、遺伝子配列決定及び類似の用途に使用され得る。一般に、遺伝子配列決定は、ＤＮＡ又はＲＮＡのフラグメントなどの標的核酸の長さのヌクレオチドの順序を決定することを含む。比較的短い配列は、典型的には、各検体において配列決定され、得られた配列情報は、様々な生物情報科学法において使用されて、フラグメントが由来する多くの広範な長さの遺伝物質の配列を確実に決定するために、様々な生物情報科学法において使用されてもよい。特徴的フラグメントの自動化されたコンピュータベースのアルゴリズムが開発されており、ゲノムマッピング、遺伝子の識別、及びそれらの機能などにおいて、より最近使用されてきた。マイクロアレイは、多数の変異体が存在するため、ゲノム含有量を特徴付けるのに特に有用であり、このことは、個々のプローブ及び標的に対して多くの実験を実施する代替物であるため、ゲノム含有量を特徴付けるのに特に有用である。マイクロアレイは、実用的な様式でこのような調査を実施するための理想的なフォーマットである。

当該技術分野において既知の様々な検体アレイ（「マイクロアレイ」とも称される）のいずれも、本明細書に記載される方法又はシステムにおいて使用することができる。典型的なアレイは、各々が個々のプローブ又はプローブの集団を有する検体を含む。後者の場合、各検体におけるプローブの集団は、典型的には、単一種のプローブを有する均質である。例えば、核酸配列の場合、各検体は、各々、共通の配列を有する複数の核酸分子を有することができる。しかしながら、いくつかの実施態様では、アレイの各検体における集団は、不均質であり得る。同様に、タンパク質配列は、単一のタンパク質又はタンパク質の集団を有する検体を有することができ、典型的には、同じアミノ酸配列を有するが、必ずしもそうではない。プローブは、例えば、プローブを表面に共有結合することによって、又はプローブと表面との非共有相互作用を介して、アレイの表面に取り付けることができる。いくつかの実施態様では、核酸分子などのプローブは、ゲル層を介して表面に付着させることができ、例えば、米国特許出願第１３／７８４，３６８号及び米国特許出願公開第２０１１／００５９８６５（Ａ１）号に記載されており、これらの各々は参照により本明細書に組み込まれる。

例示的なアレイとしては、限定するものではないが、Ｉｌｌｕｍｉｎａ，Ｉｎｃ（ＳａｎＤｉｅｇｏ，Ｃａｌｉｆ．）から入手可能なＢｅａｄＣｈｉｐアレイ又は他のもの、例えば、プローブが、表面上に存在するビーズ（例えば、表面上のウェル内のビーズ）に取り付けられる、以下、米国特許第６，２６６，４５９号、米国特許第６，３５５，４３１号米国特許第６，７７０，４４１号米国特許第６，８５９，５７０号若しくは米国特許第７，６２２，２９４号、又は国際公開第００／６３４３７号に、記載されたものなどの他のものが挙げられ、これらの各々は、参照により本明細書に組み込まれる。使用することができる市販のマイクロアレイの更なる例としては、例えば、ＶＬＳＩＰＳ（商標）（ＶｅｒｙＬａｒｇｅＳｃａｌｅＩｍｍｏｂｉｌｉｚｅｄＰｏｌｙｍｅｒＳｙｎｔｈｅｓｉｓ）技術と称されることがある技術に従って合成されたＡｆｆｙｍｅｔｒｉｘ（登録商標）ＧｅｎｅＣｈｉｐ（登録商標）マイクロアレイ又は他のマイクロアレイが挙げられる。スポッティングされたマイクロアレイはまた、本開示のいくつかの実施態様による方法又はシステムにおいて使用することができる。例示的なスポッティングされたマイクロアレイは、ＡｍｅｒｓｈａｍＢｉｏｓｃｉｅｎｃｅｓから入手可能なＣｏｄｅＬｉｎｋ（商標）Ａｒｒａｙである。有用な別のマイクロアレイは、ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓから入手可能なＳｕｒｅＰｒｉｎｔ（商標）Ｔｅｃｈｎｏｌｏｇｙなどのインクジェット印刷法を使用して製造されるものである。

他の有用な配列としては、核酸配列決定用途で使用されるものが挙げられる。例えば、ゲノムフラグメント（多くの場合、クラスターと称される）のアンプリコンを有するアレイは、Ｂｅｎｔｌｅｙｅｔａｌ．，Ｎａｔｕｒｅ４５６：５３－５９（２００８）、国際公開第０４／０１８４９７号、国際公開第９１／０６６７８号、国際公開第０７／１２３７４４号、米国特許第７，３２９，４９２号、米国特許第７，２１１，４１４号、米国特許第７，３１５，０１９号、米国特許７，４０５，２８１号若しくは米国特許７，０５７，０２６号、又は米国特許出願公開第２００８／０１０８０８２（Ａ１）号に記載されており、これらの各々は参照により本明細書に組み込まれる。核酸配列決定に有用な別のタイプの配列は、エマルションＰＣＲ技術から生成される粒子の配列である。実施例は、Ｄｒｅｓｓｍａｎｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ１００：８８１７－８８２２（２００３）、国際公開第０５／０１０１４５号、米国特許出願公開第２００５／０１３０１７３号又は米国特許出願公開第２００５／００６４４６０号に記載されており、これらの各々は、その全体が参照により本明細書に組み込まれる。

核酸配列に使用される配列は、多くの場合、核酸検体のランダムな空間パターンを有する。例えば、ＩｌｌｕｍｉｎａＩｎｃから入手可能なＨｉＳｅｑ又はＭｉＳｅｑ配列決定プラットフォーム（ＳａｎＤｉｅｇｏ，Ｃａｌｉｆ．）は、核酸配列がランダム播種、続いてブリッジ増幅によって形成されるフローセルを利用する。しかしながら、パターン化された配列は、核酸配列又は他の分析用途にも使用することができる。パターン化されたアレイの例、それらの製造方法及びその使用方法は、米国特許出願第１３／７８７，３９６号、米国特許第１３／７８３，０４３号、米国特許第１３／７８４，３６８号、米国特許出願公開第２０１３／０１１６１５３（Ａ１）号、及び米国特許出願公開第２０１２／０３１６０８６（Ａ１）号に記載されており、これらの各々は参照により本明細書に組み込まれる。このようなパターン化された配列の検体を使用して、単一の核酸テンプレート分子を捕捉して、例えば、ブリッジ増幅を介して、均質なコロニーの後続の形成を行うことができる。このようなパターン化された配列は、核酸配列決定用途に特に有用である。

アレイ（又は本明細書の方法又はシステムで使用される他の物体）上の検体のサイズは、特定の用途に適するように選択することができる。例えば、いくつかの実施態様では、アレイの検体は、単一の核酸分子のみを収容するサイズを有することができる。このサイズ範囲の複数の検体を有する表面は、単一分子分解能で検出するための分子の配列を構築するのに有用である。このサイズ範囲の検体もまた、核酸分子のコロニーをそれぞれ含む検体を有するアレイでの使用にも有用である。したがって、アレイの検体は各々、約１ｍｍ^２以下、約５００μｍ^２以下、約１００μｍ^２以下、約１０μｍ^２以下、約１μｍ^２以下、約５００ｎｍ^２以下、又は約１００ｎｍ^２以下、約１０ｎｍ^２以下、約５ｎｍ^２以下、又は約１ｎｍ^２以下の面積を有することができる。代替的に又は追加的に、アレイの検体は、約１ｍｍ^２以上、約５００μｍ^２以上、約１００μｍ^２以上、約１０μｍ^２以上、約１μｍ^２以上、約５００ｎｍ^２以上、約１００ｎｍ^２以上、約１０ｎｍ^２以上、約５ｎｍ^２以上、又は約１ｎｍ^２以上である。実際に、検体は、上記に例示したものから選択される上限と下限との間の範囲内の大きさを有することができる。表面の検体のいくつかのサイズ範囲が核酸及び核酸のスケールに関して例示されてきたが、これらのサイズ範囲の検体は、核酸を含まない用途に使用され得ることが理解されるであろう。検体のサイズは、核酸用途に使用されるスケールに必ずしも限定される必要はないことが更に理解されるであろう。

検体のアレイなどの複数の検体を有する物体を含む実施例では、検体は、互いの間の空間で分離されている、別個のものとすることができる。本発明において有用なアレイは、最大で１００μｍ、５０μｍ、１０μｍ、５μｍ、１μｍ、０．５μｍ以下の縁部から縁部までの距離によって分離される検体を有することができる。代替的に又は追加的に、アレイは、少なくとも０．５μｍ、１μｍ、５μｍ、１０μｍ、５０μｍ、１００μｍ以上の縁部から縁部までの距離によって分離される検体を有することができる。これらの範囲は、検体の平均縁部間隔及び縁部間隔、並びに最小又は最大間隔に適用することができる。

いくつかの実施態様では、アレイの検体は、別個である必要はなく、代わりに、隣接する検体は互いに当接することができる。検体が別個であるか否かに関わらず、検体及び／又は検体のピッチの大きさは、アレイが所望の密度を有することができるように変化し得る。例えば、規則的なパターンにおける平均検体ピッチは、最大で１００μｍ、５０μｍ、１０μｍ、５μｍ、１μｍ、０．５μｍ以下であり得る。代替的に又は追加的に、規則的なパターンにおける平均検体ピッチは、少なくとも０．５μｍ、１μｍ、５μｍ、１０μｍ、５０μｍ、１００μｍ以上であり得る。これらの範囲は、規則的なパターンの最大ピッチ又は最小ピッチにも適用することができる。例えば、規則的なパターンの最大検体ピッチは、１００μｍ以下、５０μｍ以下、１０μｍ以下、５μｍ以下、１μｍ以下、０．５μｍ以下とすることができ、かつ／又は規則的なパターンにおける最小検体ピッチは、少なくとも０．５μｍ、１μｍ、５μｍ、１０μｍ、５０μｍ、１００μｍ以上であり得る。

アレイ内の検体の密度は、単位面積当たりに存在する検体の数に関しても理解され得る。例えば、アレイに関する検体の平均密度は、少なくとも約１×１０^３検体／ｍｍ^２、１×１０^４検体／ｍｍ^２、１×１０^５検体／ｍｍ^２、１×１０^６検／ｍｍ^２、１×１０^７検体／ｍｍ^２、１×１０^８検体／ｍｍ^２、又は１×１０^９検体／ｍｍ^２以上であり得る。代替的に又は追加的に、アレイに関する検体の平均密度は、最大で約１×１０^９検体／ｍｍ^２、１×１０^８検体／ｍｍ^２、１×１０^７検体／ｍｍ^２、１×１０^６検体／ｍｍ^２、１×１０^５検体／ｍｍ^２、１×１０^４検体／ｍｍ^２、又は１×１０^３検体／ｍｍ^２以下であり得る。

上記の範囲は、例えば、検体のアレイの全て又は一部を含む規則的なパターンの全て又は一部に適用することができる。

パターン内の検体は、様々な形状のいずれかを有することができる。例えば、アレイの表面上などの二次元平面で観察される場合、検体は、丸みを帯びた、円形、楕円形、矩形、正方形、対称、非対称、三角形、多角形などに見える場合がある。検体は、例えば六角形又は直線パターンを含む規則的な繰り返しパターンで配置することができる。パターンは、所望のレベルのパッキングを達成するように選択され得る。例えば、円形検体は、六角形の配置で最適に充填される。当然のことながら、他のパッキング構成もまた、円形検体のために使用することができ、逆もまた同様である。

パターンは、パターンの最小幾何学的単位を形成するサブセット内に存在する検体の数に関して特徴付けることができる。サブセットは、例えば、少なくとも約２、３、４、５、６、１０個以上の検体を含み得る。検体のサイズ及び密度に応じて、幾何学的単位は、１ｍｍ^２、５００μｍ^２、１００μｍ^２、５０μｍ^２、１０μｍ^２、１μｍ^２、５００ｎｍ^２、１００ｎｍ^２、５０ｎｍ^２、１０ｎｍ^２以下の面積を占めることができる。代替的に又は追加的に、幾何学的単位は、１０ｎｍ^２、５０ｎｍ^２、１００ｎｍ^２、５００ｎｍ^２、１μｍ^２、１０μｍ^２、５０μｍ^２、１００μｍ^２、５００μｍ^２、１ｍｍ^２以上の面積を占めることができる。形状、サイズ、ピッチなどの幾何学的単位における検体の特性は、アレイ又はパターンの検体に関して、より一般的に本明細書に記載されるものから選択することができる。

検体の規則的なパターンを有するアレイは、検体の相対的な場所に対して順序付けられるが、各検体の１つ以上の他の特性に対してランダムであってもよい。例えば、核酸配列の場合、核酸検体は、それらの相対的な位置に関して規則的であるが、任意の特定の検体に存在する核酸種に関する配列の知識に関してランダムであってもよい。より具体的な例として、テンプレート核酸を有する検体の反復パターンを播種し、各検体でテンプレートを増幅して、検体においてテンプレートのコピーを形成することによって形成される核酸配列（例えば、クラスター増幅又はブリッジ増幅を介して、核酸検体の規則的なパターンを有するが、配列にわたる核酸の配列の分布に関してランダムであろう。したがって、アレイ上の核酸材料の存在の検出は、検体の繰り返しパターンをもたらすことができるのに対し、配列特異的検出は、アレイにわたる信号の非反復分布をもたらすことができる。

本明細書におけるパターン、順序、ランダム性などの説明は、アレイ上の検体などの物体上の検体にも関するだけでなく、画像中の検体にも関連することが理解されるであろう。したがって、パターン、順序、ランダム性などは、限定するものではないが、グラフィカルユーザインターフェース又は他の出力デバイスなどのコンピュータ可読媒体又はコンピュータ構成要素を含むがこれらに限定されない、画像データを記憶、操作、又は通信するために使用される様々なフォーマットのうちのいずれかに存在することができる。

本明細書で使用するとき、用語「画像」は、物体の全て又は一部の表現を意味することを意図する。表現は、光学的に検出された再現であり得る。例えば、蛍光、発光、散乱、又は吸収信号から画像を得ることができる。画像内に存在する物体の部分は、物体の表面又は他のｘｙ面であり得る。典型的には、画像は二次元表現であるが、場合によっては、画像内の情報は、３つ以上の次元から導出することができる。画像は、光学的に検出された信号を含む必要はない。非光信号を代わりに存在させることができる。画像は、本明細書の他の箇所に記載されるもののうちの１つ以上などの、コンピュータ可読フォーマット又は媒体に提供することができる。

本明細書で使用するとき、「画像」は、試料又は他の物体の少なくとも一部分の再現又は表現を指す。いくつかの実施態様では、再現は、例えばカメラ又は他の光学検出器によって生成される光再現である。再現は、非光学的再現、例えば、ナノ細孔検体のアレイから得られる電気信号の表現、又はイオン感応性ＣＭＯＳ検出器から得られた電気信号の表現であり得る。特定の実施態様では、非光学的再現性は、本明細書に記載される方法又は装置から除外され得る。画像は、例えば、１００μｍ、５０μｍ、１０μｍ、５μｍ、１μｍ、又は０．５μｍ未満離れたものを含む、様々な間隔のいずれかで存在する検体の検体を区別することができる解像度を有することができる。

本明細書で使用するとき、「取得」、「取得」、及び同様の用語は、画像ファイルを取得するプロセスの任意の部分を指す。いくつかの実施態様では、データ取得は、標本の画像を生成することと、標本内の信号を探すことと、信号の画像を探すか又は生成するように検出デバイスに指示することと、画像ファイルの更なる分析又は変換のための命令、及び画像ファイルの任意の数の変換又は操作のための命令を与えることと、を含むことができる。

本明細書で使用するとき、用語「テンプレート」は、信号又は検体間の場所又は関係の表現を指す。したがって、いくつかの実施態様では、テンプレートは、検体中の検体に対応する信号の表現を有する物理的グリッドである。いくつかの実施態様では、テンプレートは、チャート、テーブル、テキストファイル、又は検体に対応する場所を示す他のコンピュータファイルであり得る。本明細書に提示される実施態様では、異なる基準点で捕捉された試料の画像のセットにわたって検体の場所を追跡するためにテンプレートが生成される。例えば、テンプレートは、ｘ、ｙ座標のセット、又は別の検体に対する１つの検体の方向及び／若しくは距離を記述する値のセットであり得る。

本明細書で使用するとき、用語「標本」は、画像が取り込まれる物体又は物体の領域を指すことができる。例えば、画像が土壌の表面から撮影される実施例では、ランドのパセルは、標本であり得る。生体分子の分析がフローセル内で行われる他の実施態様では、フローセルは、任意の数のサブディビジョンに分割されてもよく、これらの各々は検体であってもよい。例えば、フローセルは、様々な流路又はレーンに分割されてもよく、各レーンは、画像化される２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０７０、８０、９０、１００、１１０、１２０、１４０、１６０、１８０、２００、４００、６００、８００、１０００個以上の別個の領域に更に分割され得る。フローセルの一例は８つのレーンを有し、各レーンは１２０個の標本又はタイルに分割されている。別の実施態様では、試料は、複数のタイル、又は更にはフローセル全体で作製されてもよい。したがって、各検体の画像は、撮像されるより大きい表面の領域を表すことができる。

本明細書に記載される範囲及び連続数リストへの言及は、列挙された数だけではなく、列挙された数字間の全ての実数を含むことが理解されるであろう。

本明細書で使用するとき、「参照点」は、画像間の任意の時間的又は物理的区別を指す。好ましい別の実施態様では、基準点は時間点である。より好ましい実施態様では、参照点は、配列決定反応中の時点又はサイクルである。しかしながら、用語「基準点」は、画像を区別又は分離することができる、角度、回転、時間、又は他の態様などの画像を区別又は分離する他の態様を含むことができる。

本明細書で使用するとき、「画像のサブセット」は、セット内の画像のグループを指す。例えば、サブセットは、画像のセットから選択される１、２、３、４、６、８、１０、１２、１４、１６、１８、２０、３０、４０、５０、６０又は任意の数の画像を含んでもよい。特定の別の実施態様では、サブセットは、１、２、３、４、６、８、１０、１２、１４、１６、１８、２０、３０、４０、５０、６０以下、又は画像のセットから選択される任意の数の画像を含んでもよい。好ましい別の実施態様では、画像は、各サイクルに相関する４つの画像を有する１つ以上の配列決定サイクルから得られる。したがって、例えば、サブセットは、４サイクルにわたって取得された１６画像のグループであり得る。

塩基は、ヌクレオチド塩基又はヌクレオチド、（アデニン）、Ｃ（シトシン）、Ｔ（チミン）、又はＧ（グアニン）を指す。本出願は、「塩基」及び「ヌクレオチド」を互換的に使用する。

用語「染色体」は、ＤＮＡ及びタンパク質成分（特にヒストン）を含むクロマチンストランドに由来する、生きている細胞の本発明の有効性を有する遺伝子キャリアを指す。従来の国際的に認識されている個々のヒトゲノム染色体番号付けシステムが本明細書で使用される。

「部位」という用語は、参照ゲノム上の固有の位置（例えば、染色体ＩＤ、染色体位置及び配向）を指す。いくつかの実施態様では、部位は、残基、配列タグ、又は配列上のセグメントの位置であってもよい。用語「遺伝子座」は、参照染色体上の核酸配列又は多型の特定の位置を指すために使用されてもよい。

本明細書における用語「試料」は、典型的には、配列決定及び／又はフェーズドされる核酸を含有する生物液、細胞、組織、器官、又は生物に由来する試料、又は配列決定及び／又はフェーズドされる核酸配列を少なくとも１つ含有する核酸の混合物に由来する試料を指す。このような試料としては、痰／口腔流体、羊水、血液、血液画分、細針生検試料（例えば、外科生検、針生検など）、尿、腹膜流体、胸膜流体、組織外植片、臓器培養物、及びこれらの任意の他の組織若しくは細胞調製物、又はこれらの画分若しくは誘導体が挙げられるが、これらに限定されない。試料は、多くの場合、ヒト被験者（例えば、患者）から採取されるが、試料は、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含むがこれらに限定されない、染色体を有する任意の生物から採取することができる。試料は、生物学的源から得られるように、又は試料の特性を修正する前処理後に、直接使用することができる。例えば、このような前処理は、血漿を血液から調製すること、粘性流体を希釈することなどを含んでもよい。前処理の方法には、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸フラグメント化、干渉成分の不活性化、試薬の添加、溶解などを含んでもよいが、これらに限定されない。

用語「配列」は、互いに結合されたヌクレオチドの鎖を含むか、又はそれを表す。ヌクレオチドは、ＤＮＡ又はＲＮＡに基づくことができる。１つの配列は、複数のサブ配列を含んでもよいことを理解されたい。例えば、単一の配列（例えば、ＰＣＲアンプリコン）は、３５０ヌクレオチドを有してもよい。試料読み取りは、これらの３５０ヌクレオチド内に複数のサブ配列を含んでもよい。例えば、試料読み取りは、例えば、２０～５０ヌクレオチドを有する第１及び第２のフランキングサブ配列を含んでもよい。第１及び第２の隣接するサブ配列は、対応するサブ配列（例えば、４０～１００ヌクレオチド）を有する反復セグメントの両側に位置してもよい。隣接するサブ配列の各々は、プライマーサブ配列（例えば、１０～３０ヌクレオチド）を含んでもよい（又はその一部分を含み得る）。読み取りを容易にするために、用語「サブ配列」は「配列」と称されるが、２つの配列は、共通のストランド上で互いに別個である必要はないことが理解される。本明細書に記載の様々な配列を区別するために、配列は、異なる標識（例えば、標的配列、プライマー配列、隣接配列、参照配列など）を与えられてもよい。「対立遺伝子」などの他の用語は、同様の物体を区別するために異なるラベルを与えられてもよい。アプリケーションは、「読み取り」及び「配列読み取り」を互換的に使用する。

用語「ペアエンド配列決定（paired end sequencing）」は、標的フラグメントの両端を配列する配列決定方法を指す。ペアエンド配列決定は、ゲノム再構成及び反復セグメントの検出、並びに遺伝子融合及び新規転写物の検出を容易にし得る。ペアエンド配列決定の方法は、国際公開第０７０１０２５２号、国際出願第ＧＢ２００７／００３７９８号、及び米国特許出願公開第２００９／００８８３２７号に記載されており、これらは各々参照により本明細書に組み込まれる。一実施例では、一連の動作は、以下のように実行され得る。（ａ）核酸のクラスターを生成し、（ｂ）核酸を線形化し、（ｃ）上記のように、第１の配列決定プライマーをハイブリダイズし、伸長、走査及びデブロッキングのサイクルを繰り返し実行し、（ｄ）相補的なコピーを合成することによって、フローセル表面上の標的核酸を「反転」させ、（ｅ）再合成された鎖を線形化し、（ｆ）上記のように、第２の配列決定プライマーをハイブリダイズし、伸長、走査及びデブロッキングのサイクルを繰り返し実行する。反転操作は、ブリッジ増幅の単一サイクルについて上述した試薬を送達することができる。

用語「参照ゲノム」又は「参照配列」は、対象からの識別された配列を参照するために使用され得る任意の生物の部分的又は完全ないずれかの特定の既知のゲノム配列を指す。例えば、ヒト被験者に使用される参照ゲノム、並びに多くのその他の生物が、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎａｔｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖで見出される。「ゲノム」とは、核酸配列で発現される、生物又はウイルスの完全な遺伝子情報を意味する。ゲノムは、ＤＮＡの遺伝子及び非コード配列の両方を含む。参照配列は、それに位置合わせされたリードよりも大きくてもよい。例えば、それは、少なくとも約１００倍大きい、又は少なくとも約１０００倍大きい、又は少なくとも約１０，０００倍大きい、又は少なくとも約１０５倍大きい、又は少なくとも約１０６倍大きい、又は少なくとも約１０７倍大きい場合がある。一実施例では、参照ゲノム配列は、完全長ヒトゲノムのものである。別の例では、参照ゲノム配列は、染色体１３などの特定のヒト染色体に限定される。いくつかの実施態様では、参照染色体は、ヒトゲノムバージョンｈｇ１９からの染色体配列である。このような配列は、染色体参照配列と称される場合があるが、用語参照ゲノムは、そのような配列を網羅することを意図している。参照配列の他の例としては、その他の種のゲノム、並びに任意の種の染色体、部分染色体領域（ストランドなど）等が挙げられる。様々な実施態様では、参照ゲノムは、複数の個体に由来するコンセンサス配列又は他の組み合わせである。しかしながら、特定の用途では、参照配列は、特定の個体から採取されてもよい。他の実施態様では、「ゲノム」はまた、ゲノム配列の特定の記憶形式及び表現を使用するいわゆる「グラフゲノム」も被覆する。一実施態様では、グラフゲノムは、線形ファイルにデータを記憶する。別の実施態様では、グラフゲノムは、代替的な配列決定（例えば、小さい差異を有する染色体の異なるコピー）がグラフ内の異なる経路として記憶されている表現を指す。グラフゲノムの実装に関する追加情報は、ｈｔｔｐｓ：／／ｗｗｗ．ｂｉｏｒｘｉｖ．ｏｒｇ／ｃｏｎｔｅｎｔ／ｂｉｏｒｘｉｖ／ｅａｒｌｙ／２０１８／０３／２０／１９４５３０．ｆｕｌｌ．ｐｄｆ．にて参照することができ、その内容は、その全体が参照により本明細書に組み込まれる。

用語「読み取り」は、ヌクレオチド試料又は参照のフラグメントを記述する配列データの集合を指す。用語「読み取り」は、試料読み取り及び／又は参照読み取りを指し得る。典型的には、必ずしもそうではないが、読み取りは、試料又は参照における連続的な塩基対の短い配列を表す。読み取りは、試料又は参照フラグメントのベース対配列（ＡＴＣＧ）によって記号的に表されてもよい。読み取りが参照配列と一致するか、又は他の基準を満たすかを判定するために、メモリデバイスに記憶され、適切に処理されてもよい。読み取りは、配列決定装置から直接、又は試料に関する記憶された配列情報から間接的に得られてもよい。場合によっては、例えば、染色体又はゲノム領域又は遺伝子に位置合わせされ、特異的に割り当てられ得る、より大きい配列又は領域を識別するために使用することができる十分な長さ（例えば、少なくとも約２５ｂｐ）のＤＮＡ配列である。

次世代配列決定法としては、例えば、合成技術（Ｉｌｌｕｍｉｎａ）、ピロ配列決定（４５４）、イオン半導体技術（ＩｏｎＴｏｒｒｅｎｔｓｅｑｕｅｎｃｉｎｇ）、一分子リアルタイム配列決定（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）及びライゲーションによる配列決定（ＳＯＬｉＤ配列決定）が挙げられる。配列決定法に応じて、各読み取りの長さは、約３０ｂｐ～１０，０００ｂｐを超えて変化し得る。例えば、ＳＯＬｉＤシーケンサを用いたＤＮＡ配列決定法は、約５０ｂｐの核酸リードを生成する。別の例では、ＩｏｎＴｏｒｒｅｎｔＳｅｑｕｅｎｃｉｎｇは、最大４００ｂｐの核酸リードを生成し、４５４のピロ配列は、約７００ｂｐの核酸リードを生成する。更に別の例では、単分子リアルタイム配列決定法は、１０，０００ｂｐ～１５，０００ｂｐのリードを生成し得る。したがって、特定の実施態様では、核酸配列のリードは、３０～１００ｂｐ、５０～２００ｂｐ、又は５０～４００ｂｐの長さを有する。

用語「試料読み取り」、「試料配列」又は「試料フラグメント」は、試料から対象とするゲノム配列に関する配列データを指す。例えば、試料読み取りは、順方向及び逆方向プライマー配列を有するＰＣＲアンプリコンからの配列データを含む。配列データは、任意の選択配列方法論から得ることができる。試料の読み取りは、例えば、配列単位合成（sequencing-by-synthesis、ＳＢＳ）反応、配列決定・ライゲーション反応、又は反復要素の長さ及び／若しくは同一性を決定することが望ましい任意の他の好適な配列決定方法論であり得る。試料読み取りは、複数の試料読み取りに由来するコンセンサス（例えば、平均又は加重）配列であり得る。特定の実施態様では、参照配列を提供することは、ＰＣＲアンプリコンのプライマー配列に基づいて目的の遺伝子座を識別することを含む。

用語「生フラグメント」は、試料読み取り又は試料フラグメント内の対象とする指定位置又は二次位置に少なくとも部分的に重なり合う、対象とするゲノム配列の一部の配列データを指す。生フラグメントの非限定的な例としては、二重ステッチされたフラグメント、単純なステッチされたフラグメント、及び単純な非ステッチのフラグメントが挙げられる。用語「生」は、生フラグメントが試料読み取りにおける配列データとのいくつかの関係を有する配列データを含むことを示すために使用され、生フラグメントが、試料読み取りにおける潜在的変異体に対応し、かつそれを認証又は確認する支持変異体を示すかどうかに関わらず、使用される。用語「生フラグメント」は、フラグメントが、試料読み取りにおける変異型コールを検証する支持変異体を必ずしも含むことを示すものではない。例えば、試料読み取りが、第１の変異体を呈するために、変異型コールアプリケーションによって判定されるとき、この変異型コールアプリケーションは、１つ以上の生フラグメントが、試料読み取りにおける変異体を考慮して、そうでなければ発生することが予想され得る、対応するタイプの「支持」変異体を欠くと判定することができる。

用語「マッピング」、「整列された」、「整列している」、又は「整列する」という用語は、読み取り又はタグを参照配列と比較し、それによって、参照配列が読み取り配列を含むかどうかを判定するプロセスを指す。参照配列が読み取られた場合、読み取りは参照配列にマップされてもよく、又は特定の別の実施態様では、参照配列内の特定の位置にマッピングされてもよい。いくつかの場合において、整列は、リードが特定の参照配列のメンバーであるか否か（すなわち、リードが参照配列中に存在するか又は存在していないか）を単に伝える。例えば、ヒト染色体１３についての参照配列に対するリードの位置合わせは、染色体１３の参照配列中にリードが存在するかどうかを伝える。本情報を提供するツールは、セットメンバーシップテスタ（set membership tester）と呼ばれる場合がある。場合によっては、位置合わせは、読み取り又はタグマップがある参照配列内の位置を更に示す。例えば、参照配列がヒトゲノム配列全体である場合、整列は、染色体１３上にリードが存在することを示してもよく、更に、リードが染色体１３の特定の鎖及び／又は部位にあることを更に示してもよい。

用語「インデル」は、生物のＤＮＡ中の塩基の挿入及び／又は欠失を指す。マイクロインデルは、１～５０ヌクレオチドの正味変化をもたらすインデルを表す。インデルの長さが３の倍数でない限り、ゲノムの領域をコードする際に、フレームシフト変異が生じる。インデルは、点突然変異と対比することができる。インデル挿入物は、配列からヌクレオチドを欠失させるが、点変異は、ＤＮＡ中の全体的な数を変えることなくヌクレオチドのうちの１つを置き換える置換の形態である。インデルはまた、隣接するヌクレオチドにおける置換として定義され得るＴａｎｄｅｍＢａｓｅ変異（Tandem Base Mutation、ＴＢＭ）と対比することもできる（主に２つの隣接するヌクレオチドで置換されるが、隣接する３つのヌクレオチドでの置換が観察された。

用語「変異体」は、核酸参照とは異なる核酸配列を指す。典型的な核酸配列変異体としては、限定するものではないが、単一のヌクレオチド多型（Single Nucleotide Polymorphism、ＳＮＰ）、短い欠失及び挿入多型（Ｉｎｄｅｌ）、コピー数変動（Copy Number Variation、ＣＮＶ）、マイクロ衛星マーカー、又は短いタンデム反復及び構造変異が挙げられる。体細胞変異体コールは、ＤＮＡ試料中に低頻度で存在する変異体を識別するための努力である。体細胞変異体のコーリングは、癌治療の文脈において対象となる。癌は、ＤＮＡにおける変異の蓄積によって引き起こされる。腫瘍由来のＤＮＡ試料は、一般的に不均質であり、いくつかの正常細胞、癌進行の早期段階（より少ない突然変異を伴う）、及び一部の後期細胞（より多くの変異を有する）を含む。この不均一性のため、腫瘍を配列決定するとき（例えば、ＦＦＰＥ試料から）、体細胞変異は、多くの場合、低頻度で現れる。例えば、ＳＮＶは、所与の塩基を被覆するリードの１０％のみに見られ得る。変異体分類子によって体細胞又は生殖細胞系として分類される変異体は、本明細書では「試験中の変異体」とも称される。

用語「ノイズ」は、配列決定プロセス及び／又は変異型コールアプリケーションにおける１つ以上の誤差から生じる、誤りのある変異型コールを指す。

用語「変異体頻度」は、集団内の特定の遺伝子座における対立遺伝子（遺伝子の変異体）の相対頻度を表し、分画又は割合として表される。例えば、分画又は割合は、その対立遺伝子を保有する集団中の全ての染色体の割合であってもよい。一例として、試料変異体頻度は、個体から対象となるゲノム配列について得られたリード及び／又は試料の数に対応する「集団」にわたって、対象とするゲノム配列に沿った特定の遺伝子座／位置における対立遺伝子／変異体の相対頻度を表す。別の例として、ベースライン変異体頻度は、１つ以上のベースラインゲノム配列に沿った特定の遺伝子座／位置における対立遺伝子／変異体の相対頻度を表し、ここで、１つ以上のベースラインゲノム配列について得られた、１つ以上のベースラインゲノム配列に沿った特定の遺伝子座／位置における対立遺伝子／変異体の相対頻度を表す。

用語「変異型対立遺伝子頻度（Variant Allele Frequency、ＶＡＦ）」は、変異体を標的位置での全体的な被覆率で割った、配列決定されたリードの割合を指す。ＶＡＦは、変異体を保有する配列決定されたリードの割合の尺度である。

用語「位置」、「指定位置」、及び「遺伝子座」は、ヌクレオチド配列内の１つ以上のヌクレオチドの位置又は座標を指す。用語「位置」、「指定位置」、及び「遺伝子座」はまた、ヌクレオチドの配列における１つ以上の塩基対の位置又は座標を指す。

用語「ハプロタイプ」は、互いに遺伝する染色体上の隣接する部位における対立遺伝子の組み合わせを指す。ハプロタイプは、存在する場合、座の所与のセットの間に生じた組換えイベントの数に応じて、１つの遺伝子座、いくつかの座、又は染色体全体であってもよい。

本明細書における「閾値」という用語は、試料、核酸、又はその一部（例えば、読み取り）を特徴付けるためのカットオフとして使用される数値又は数値を指す。閾値は、経験的分析に基づいて変化してもよい。閾値は、そのような値を生じさせる源が特定の様式で分類されるべきかどうかを判定するために、測定値又は計算値と比較することができる。閾値は、経験的又は分析的に識別することができる。閾値の選択は、ユーザが分類を行う必要があることを望む信頼度に依存する。閾値は、特定の目的（例えば、感度及び選択性のバランスのために）選択されてもよい。本明細書で使用するとき、用語「閾値」は、分析の過程が変化し得る点、及び／又はアクションがトリガされ得る点を示す。閾値は、所定の数である必要はない。その代わりに、閾値は、例えば、複数の因子に基づく関数であってもよい。閾値は、状況に適応し得る。更に、閾値は、上限、下限、又は限界間の範囲を示し得る。

いくつかの実施態様では、配列決定データに基づく指標又はスコアは、閾値と比較され得る。本明細書で使用するとき、用語「メトリック」又は「スコア」は、配列決定データから決定された値又は結果を含んでもよく、又は配列決定データから決定された値又は結果に基づく関数を含んでもよい。閾値と同様に、指標又はスコアは、状況に適応し得る。例えば、指標又はスコアは、正規化された値であってもよい。スコア又はメトリックの例として、１つ以上の実施態様は、データを分析する際にカウントスコアを使用することができる。計数スコアは、試料読み取りの数に基づいてもよい。試料読み取りは、試料読み取りが少なくとも１つの共通の特性又は品質を有するように、１つ以上のフィルタリング段階を経ていてもよい。例えば、計数スコアを決定するために使用される試料読み取りの各々は、参照配列と整列されていてもよく、又は潜在的な対立遺伝子として割り当てられてもよい。共通の特性を有する試料読み取りの数をカウントして、リードカウントを決定することができる。カウントスコアは、読み取りカウントに基づいてもよい。いくつかの実施態様では、計数スコアは、リードカウントと等しい値であってもよい。他の実施例では、計数スコアは、リードカウント及び他の情報に基づいてもよい。例えば、計数スコアは、遺伝子座の特定の対立遺伝子のリードカウント、及び遺伝子座の合計リード数に基づいてもよい。いくつかの実施態様では、計数スコアは、遺伝子座のリードカウント及び以前に得られたデータに基づいてもよい。いくつかの実施態様では、計数スコアは、所定の値間の正規化スコアであってもよい。計数スコアはまた、試料の他の遺伝子座からのリードカウントの関数、又は対象となる試料と同時に動作された他の試料からのリードカウントの関数であってもよい。例えば、計数スコアは、特定の対立遺伝子の読み取りカウント及び試料中の他の遺伝子座の読み取りカウント、及び／又は他の試料からのリードカウントの関数であってもよい。一例として、他の遺伝子座からのリードカウント及び／又は他の試料からのリードカウントを使用して、特定の対立遺伝子についての計数スコアを正規化してもよい。

用語「被覆率」又は「フラグメント被覆率」は、配列の同じフラグメントに対する多数の試料読み取りの計数又は他の尺度を指す。リードカウントは、対応するフラグメントをカバーするリードの数のカウントを表し得る。代替的に、被覆率は、履歴知識、試料の知識、遺伝子座の知識などに基づく指定された因子を、リードカウントに掛けることによって決定されてもよい。

用語「読み取り深さ」（従来、「×」が続く数）は、標的位置における重複アラインメントを伴う配列決定されたリードの数を指す。これは、多くの場合、間隔のセット（エキソン、遺伝子、又はパネルなど）のカットオフを超える平均又は百分率として表現される。例えば、臨床報告は、パネル平均被覆率が、標的化されたベースカバー＞１００×の９８％を有する１，１０５×であると言うことができる。

用語「ベースコール品質スコア」又は「Ｑスコア」は、単一の配列決定された塩基が正しい確率に反比例する０－５０からの範囲のＰＨＲＥＤスケールされた確率を指す。例えば、２０のＱを有するＴベースコールは、９９．９９％の確率で正しいと考えられる。Ｑ＜２０での任意のベースコールは、低品質であるとみなされるべきであり、変異体を支持する配列決定されたリードのかなりの割合が低い場合に識別される任意の変異体は、潜在的に偽陽性であるとみなされるべきである。

用語「変異体リード」又は「変異体リード番号」は、変異体の存在を支持する配列決定されたリードの数を指す。

「撚れ性（strandedness）」（又はＤＮＡ撚れ性）に関して、ＤＮＡ中の遺伝的メッセージは、文字Ａ、Ｇ、Ｃ、及びＴの文字、例えば、５’－ＡＧＧＡＣＡ－３’として表すことができる。多くの場合、配列は、本明細書に示される方向、すなわち、５‘端を左に、３‘端を右に書き込む。ＤＮＡは、（特定のウイルスのように）一本鎖分子として生じる場合があるが、通常、二本鎖単位としてＤＮＡを見つける。これは、２つの抗平行ストランドを有する二重螺旋構造を有する。この場合、「逆平行」という語は、２つのストランドが平行に動作するが、反対の極性を有することを意味する。二本鎖ＤＮＡは、塩基とペアリングによって一緒に保持され、ペアリングは、アデニン（Ａ）対がチミン（Ｔ）及びシトシン（Ｃ）対とグアニン（Ｇ）との対となるように、常に保持される。このペアリングは相補性と称され、１本のＤＮＡ鎖は、他方の相補体であると言われる。したがって、二本鎖ＤＮＡは、５’－ＡＧＧＡＣＡ－３’及び３’－ＴＣＣＴＧＴ－５’と同様に、２つのストリングとして表され得る。２つのストランドは、反対の極性を有することに留意されたい。したがって、２つのＤＮＡ鎖のストランド性は、基準ストランド及びその補体、順方向及び逆方向ストランド、トップ及びボトムストランド、センス及びアンチセンスストランド、又はワトソン及びクリックストランドと称され得る。

リードアライメント（リードマッピングとも呼ばれる）は、ゲノム中の配列が由来する場合に、参照するプロセスである。アライメントが行われると、所与の読み取りの「マッピング品質」又は「マッピング品質スコア（mapping quality score、ＭＡＰＱ）」は、ゲノム上のその位置が正しい確率を定量化する。マッピング品質は、位相スケールで符号化され、Ｐはアライメントが正しくない確率である。確率はＰ＝１０^{（－ＭＡＱ／１０）}のように計算され、式中ＭＡＰＱはマッピング品質である。例えば、－４の電力に対する４０＝１０のマッピング品質は、読み取りが不正確に位置合わせされた０．０１％の機会が存在することを意味する。したがって、マッピング品質は、読み取りの基本品質、参照ゲノムの複雑性、及びペアエンド情報などのいくつかの位置合わせ因子と関連付けられる。最初に、読み取りの基本品質が低い場合、観察された配列が誤っている可能性があり、したがってそのアライメントが誤っていることを意味する。第２に、マッピング能力はゲノムの複雑さを指す。反復領域は、これらの領域に含まれるマップ及びリードをマッピングすることがより困難であり、通常、マッピング品質が低くなる。この文脈では、ＭＡＰＱは、リードが一意的に整列されておらず、それらの実際の原点を決定することができないという事実を反映する。第３に、パリッドエンド配列決定データの場合、コンコダント対は、より良好に整列される可能性が高い。マッピング品質が高いほど、アライメントがより良好である。良好なマッピング品質と整合された読み取りは、通常、読み出し配列が良好であり、高いマッピング可能領域内ではわずかな不一致と位置合わせされたことを意味する。ＭＡＰＱ値は、アライメント結果の品質管理として使用することができる。２０よりも高いＭＡＰＱと位置合わせされたリードの割合は、通常、下流分析のためである。

本明細書で使用するとき、「信号」は、例えば画像内の発光、好ましくは発光などの検出可能なイベントを指す。したがって、好ましい別の実施態様では、信号は、画像内に捕捉された任意の検出可能な発光（すなわち、「スポット」）を表すことができる。したがって、本明細書で使用するとき、「信号」は、検体の検体からの実際の放出の両方を指すことができ、実際の検体と相関しない擬似発光を指すことができる。したがって、信号はノイズから生じ得、試験片の実際の検体を代表しないように後に廃棄することができる。

本明細書で使用するとき、用語「クランプ」は、一群の信号を指す。特定の実施態様では、信号は、異なる検体に由来する。好ましい別の実施態様では、信号クランプは、一緒にクラスター化する信号群である。より好ましい実施態様では、信号クランプは、１つの増幅オリゴヌクレオチドによって覆われた物理的領域を表す。各信号クランプは、理想的には、いくつかの信号（テンプレートサイクル当たり１つ、恐らくはクロストークによってより多く）として観察されるべきである。したがって、２つ（以上）の信号が同じ信号のクランプからテンプレートに含まれる、重複する信号が検出される。

本明細書で使用するとき、「最小」、「最大」、「最小化」、「最大化」、及びその文法的変異形などの用語は、絶対最大値又は最小値ではない値を含むことができる。いくつかの実施態様では、値は、最大値及び最小値付近を含む。他の実施例では、値は、局所的最大値及び／又は局所最小値を含むことができる。いくつかの実施態様では、値は、絶対最大値又は最小値のみを含む。

本明細書で使用するとき、「クロストーク」は、別個の画像においても検出される１つの画像内の信号の検出を指す。好ましい別の実施態様では、クロストークは、放射された信号が２つの別個の検出チャネルで検出されるときに発生し得る。例えば、放射された信号が１つの色で発生する場合、その信号の放射スペクトルは、別の色で別の放射された信号と重なってもよい。好ましい実施態様では、ヌクレオチド塩基Ａ、Ｃ、Ｇ、及びＴの存在を示すために使用される蛍光分子は、別個のチャネルで検出される。しかし、Ａ及びＣの発光スペクトルは重複するため、色チャネルを使用した検出中に、Ｃ色信号の一部が検出され得る。したがって、Ａ信号とＣ信号との間のクロストークにより、１つのカラー画像からの信号が他のカラー画像に現れることを可能にする。いくつかの実施態様では、Ｇ及びＴクロストークがある。いくつかの実施態様では、チャネル間のクロストークの量は非対称である。チャネル間のクロストークの量は、とりわけ、適切な放射スペクトルを有する信号分子の選択、並びに検出チャネルのサイズ及び波長範囲の選択によって制御され得ることが理解されるであろう。

本明細書で使用するとき、「位置合わせする（register）」、「位置合わせすること（registering）」、「位置合わせ（registration）」、及び同様の用語は、画像又はデータセット内の信号を、別の時点又は視点からの画像又はデータセット内の信号と相関させるための任意のプロセスを指す。例えば、位置合わせを使用して、画像のセットからの信号を整列させてテンプレートを形成することができる。別の例では、位置合わせを使用して、他の画像からの信号をテンプレートに位置合わせすることができる。１つの信号は、別の信号に直接又は間接的に位置合わせされてもよい。例えば、画像「Ｓ」からの信号は、画像「Ｇ」に直接位置合わせされてもよい。別の例として、画像「Ｎ」からの信号は、画像「Ｇ」に直接位置合わせされてもよく、代替的に、画像「Ｎ」からの信号は、以前に画像「Ｇ」に位置合わせされた画像「Ｓ」に位置合わせされてもよい。したがって、画像「Ｎ」からの信号は、画像「Ｇ」に間接的に位置合わせされる。

本明細書で使用するとき、用語「基準」は、物体内又は物体上の区別可能な基準点を意味することを意図する。基準点は、例えば、マーク、第２の物体、形状、縁部、領域、不規則性、チャネル、ピット、ポストなどであり得る。基準点は、物体の画像内に、又は物体を検出することに由来する別のデータセット内に存在することができる。基準点は、物体の平面内のｘ及び／又はｙ座標によって指定することができる。代替的に又は追加的に、基準点は、例えば、物体と検出器との相対位置によって定義される、ｘｙ平面に直交するｚ座標によって指定することができる。基準点に対する１つ以上の座標は、物体の１つ以上の他の検体、又は物体に由来する画像又は他のデータセットに対して指定することができる。

本明細書で使用するとき、用語「光信号」は、例えば、蛍光、発光、散乱、又は吸収信号を含むことを意図する。光信号は、紫外線（Ultraviolet、ＵＶ）範囲（約２００～３９０ｎｍ）、可視（Visible、ＶＩＳ）範囲（約３９１～７７０ｎｍ）、赤外線（Infrared、ＩＲ）範囲（約０．７７１～２５マイクロメートル）、又は電磁スペクトルの他の範囲で検出することができる。これらの範囲のうちの１つ以上の全て又は一部を除外する方式で、光信号を検出することができる。

本明細書で使用するとき、用語「信号レベル」は、所望又は所定の特性を有する検出されたエネルギー又は符号化された情報の量又は量を意味することを意図する。例えば、光信号は、強度、波長、エネルギー、周波数、電力、輝度などのうちの１つ以上によって定量化することができる。他の信号は、電圧、電流、電界強度、磁場強度、周波数、電力、温度などの特性に従って定量化することができる。信号の不在は、ゼロの信号レベル、又はノイズとは有意に区別されない信号レベルであると理解される。

本明細書で使用するとき、用語「シミュレートする」は、物又はアクションの特性を予測する物又はアクションの表現又はモデルを作成することを意味することを意図する。表現又はモデルは、多くの場合、物又はアクションと区別可能であり得る。例えば、表現又はモデルは、色、被加工、サイズ、又は形状の全て又は一部から検出される信号の強度などの１つ以上の特性に対するものと区別することができる。特定の実施態様では、表現又はモデルは、物又はアクションと比較して、理想化、誇張、ミュート、又は不完全であり得る。したがって、いくつかの実施態様では、モデルの表現は、例えば、上記の特性のうちの少なくとも１つに関して表すものであることを表すものであることができる。表現又はモデルは、本明細書の他の箇所に記載されるもののうちの１つ以上などのコンピュータ可読フォーマット又は媒体に提供され得る。

本明細書で使用するとき、用語「特定の信号」は、背景エネルギー又は情報などの他のエネルギー又は情報にわたって選択的に観察される、検出されたエネルギー又は符号化情報を意味することを意図する。例えば、特定の信号は、特定の強度、波長、又は色で検出された光信号；特定の周波数、電力、又は電界強度で検出された電気信号；又は分光法及び分析検出に関連する当該技術分野で既知の他の信号であり得る。

本明細書で使用するとき、用語「スワス（swath）」は、物体の矩形部分を意味することを意図する。スワスは、ストリップの最長寸法に平行な方向に、物体と検出器との間の相対移動によって走査される細長いストリップであり得る。一般に、矩形部分又はストリップの幅は、その全長に沿って一定である。物体の複数のスワスは、互いに平行であってもよい。物体の複数のスワスは、互いに重なり合い、互いに隣接するか、又は間質領域によって互いに分離され得る。

本明細書で使用するとき、用語「分散」は、予想される差、及び観察される差、又は２つ以上の観測結果間の差を意味することを意図する。例えば、分散は、期待値と測定値との間の不一致であり得る。標準偏差、標準偏差の二乗、変動係数などの統計関数を使用して、分散を表すことができる。

本明細書で使用するとき、用語「ｘｙ座標」は、ｘｙ平面内の位置、サイズ、形状、及び／又は向きを指定する情報を意味することを意図する。情報は、例えば、デカルト座標系における数値座標であり得る。座標は、ｘ軸及びｙ軸の一方又は両方に対して提供することができ、又はｘｙ平面内の別の場所に対して提供することができる。例えば、物体の検体の座標は、対象物の基準又は他の検体の位置に対する検体の場所を指定することができる。

本明細書で使用するとき、用語「ｘｙ平面」は、直線軸ｘ及びｙによって画定される二次元領域を意味することを意図する。検出器及び検出器によって観察される物体を参照して使用される場合、領域は検出器と検出されている物体との間の観測方向に直交するように更に指定することができる。

本明細書で使用するとき、用語「ｚ座標」は、ｘｙ平面に直交する軸に沿った点、線、又は領域の位置を指定する情報を意味することを意図する。特定の実施態様では、ｚ軸は、検出器によって観察される物体の領域に直交する。例えば、光学系の焦点の方向は、ｚ軸に沿って指定されてもよい。

いくつかの実施態様では、獲得された信号データは、アフィン変換を用いて変換される。いくつかのそのような実施態様では、テンプレートの生成は、色チャネル間のアフィン変換が動作間に一貫しているという事実を使用する。この一貫性のため、標本中の検体の座標を決定する際に、デフォルトオフセットのセットを使用することができる。例えば、デフォルトオフセットファイルは、Ａチャネルなどの１つのチャネルに対する異なるチャネルに対する相対変換（シフト、スケール、スキュー）を含むことができる。しかしながら、他の実施態様では、動作中及び／又は動作間の色チャネルドリフト間のオフセットは、オフセット駆動型テンプレート生成を困難にする。このような実施例では、本明細書で提供される方法及びシステムは、オフセットしたテンプレート生成を利用することができ、これについては以下で更に説明する。

上記の実施態様のいくつかの態様では、システムはフローセルを含み得る。いくつかの態様では、フローセルは、レーン、又は他の構成のタイルを含み、タイルの少なくとも一部は、１つ以上の検体群を含む。いくつかの態様では、検体は、核酸などの複数の分子を含む。特定の態様では、フローセルは、標識されたヌクレオチド塩基を核酸の配列に送達し、それによって、核酸を含む検体に対応するシグナルを生成するように、検体内の核酸にハイブリダイズするプライマーを伸長させるように構成される。好ましい実施態様では、検体内の核酸は、互いに同一又は実質的に同一である。

本明細書に記載される画像解析システムのいくつかにおいて、画像のセット内の各画像は、色信号を含み、異なる色は、異なるヌクレオチド塩基に対応する。いくつかの態様では、画像のセットの各画像は、少なくとも４つの異なる色から選択される単一の色を有する信号を含む。いくつかの態様では、画像のセット内の各画像は、４つの異なる色から選択される単一の色を有する信号を含む。本明細書に記載されるシステムのいくつかにおいて、核酸は、４つの異なる画像を生成するように、４つの異なる標識ヌクレオチド塩基を分子の配列に提供することにより、核酸を配列決定することができ、各画像は単一の色を有するシグナルを含み、信号色が、４つの異なる画像の各々に対して異なることにより、核酸内の特定の位置に存在する４つの可能なヌクレオチドに対応する４つのカラー画像のサイクルを生成する。特定の態様では、システムは、追加の標識ヌクレオチド塩基を分子の配列に送達するように構成されているフローセルを含み、それによって複数のカラー画像のサイクルを生成する。

好ましい実施態様形態では、本明細書で提供される方法は、プロセッサがアクティブにデータを収集しているか、又はプロセッサが低活動状態にあるかどうかを判定することを含み得る。多数の高品質画像を収集及び記憶することは、典型的には、大量の記憶容量を必要とする。更に、収集され記憶されると、画像データの分析はリソース集約的になり得、追加の画像データの収集及び記憶などの他の機能の処理能力を妨げる可能性がある。したがって、本明細書で使用するとき、用語「低活動状態」は、所与の時間におけるプロセッサの処理能力を指す。いくつかの実施態様では、低活動状態は、プロセッサがデータを収集及び／又は記憶していないときに生じる。いくつかの実施態様では、一部のデータ収集及び／又は記憶が行われる場合には、低いアクティビティ状態が生じるが、他の機能に干渉することなく画像解析が同時に生じ得るように、追加の処理能力が残る。

本明細書で使用するとき、「競合を識別する」とは、複数のプロセスがリソースに対して競合する状況を識別することを指す。いくつかのそのような実施態様では、１つのプロセスは、別のプロセスに対して優先度を与えられる。いくつかの実施態様では、競合は、時間、処理能力、記憶能力、又は優先度が与えられる任意の他のリソースの割り当てに対する優先度を与える必要性に関連し得る。したがって、いくつかの実施態様では、処理時間又は容量が、データセットを分析し、データセットを取得及び／又は記憶するかのいずれかなどの２つのプロセス間に分散される場合、２つのプロセス間の不一致が存在し、プロセスのうちの１つに優先度を与えることによって解決することができる。

本明細書では、画像解析を実行するためのシステムも提供される。システムは、プロセッサと、記憶容量と、画像解析用のプログラムと、を含むことができ、プログラムは、記憶のための第１のデータセット及び分析のための第２のデータセットを処理するための命令を含み、処理は、記憶装置上の第１のデータセットを取得及び／又は記憶することと、プロセッサが第１のデータセットを取得していないときに第２のデータセットを解析することと、を含む。特定の態様では、プログラムは、第１のデータセットを収集及び／又は記憶することと、第２のデータセットを解析することとの間の競合の少なくとも１つのインスタンスを識別するための命令を含み、第１のデータセットを収集及び／又は記憶することが優先度を与えられるように、画像データを取得及び／又は記憶することが優先される。特定の態様では、第１のデータセットは、光学撮像デバイスから収集された画像ファイルを含む。特定の態様では、システムは、光学撮像デバイスを更に備える。いくつかの態様では、光学撮像デバイスは、光源と検出デバイスとを備える。

本明細書で使用するとき、用語「プログラム」は、タスク又はプロセスを実行するための命令又はコマンドを指す。用語「プログラム」は、用語「モジュール」と互換的に使用され得る。特定の実施態様では、プログラムは、同じコマンドセットの下で実行される様々な命令のコンパイルであり得る。他の実施態様では、プログラムは、別個のバッチ又はファイルを参照することができる。

以下に記載されるのは、本明細書に記載される画像解析を実行するための方法及びシステムを利用する驚くべき効果の一部である。いくつかの配列決定の実現例では、配列決定システムの有用性の重要な尺度は、その全体的な効率である。例えば、１日当たりに生成されるマッピング可能なデータの量、並びに機器の設置及び動作の総コストは、経済的な配列決定ソリューションの重要な態様である。マッピング可能なデータを生成し、システムの効率を高めるための時間を短縮するために、リアルタイムのベースコールを機器コンピュータ上で有効にすることができ、配列決定ケミストリ及び画像化と並行して動作することができる。これにより、配列決定ケミストリ仕上げの前に、データ処理及び分析が完了することを可能にする。更に、中間データに必要な記憶を低減し、ネットワークを横切って移動する必要があるデータの量を制限することができる。

配列出力が増加している間、本明細書で提供されるシステムからネットワークに転送された動作ごとのデータ、及び二次分析処理ハードウェアは、実質的に減少している。機器コンピュータ（取得コンピュータ）上でデータを変換することにより、ネットワークロードが劇的に低減される。これらのオン機器、オフネットワークデータ低減技術を伴わずに、ＤＮＡ配列決定機器のフレットの画像出力は、ほとんどのネットワークをクリップルするであろう。

ハイスループットＤＮＡ配列決定機器の広範な採用は、使用の容易さ、用途の範囲に対する支持、及び実質的に任意のラボ環境に対する適合性によって、部分的に駆動されてきた。本明細書に提示される高度に効率的なアルゴリズムは、配列決定機器を制御することができる単純なワークステーションに、有意な分析機能を加えることを可能にする。計算ハードウェアの必要条件のこの低減は、配列決定出力レベルが増加し続けるにつれて、更に重要となる、いくつかの実用的な利点を有する。例えば、単純なタワー、熱生成、実験室設置面積、及び電力消費を最小限に抑えるために、画像解析及びベースコールを行うことによって、最小に保たれる。対照的に、他の商業的な配列決定技術は、１次分析のために、最大５回の処理電力で、そのコンピューティングインフラストラクチャを最近ランプアップして、熱出力及び電力消費の増加を開始する。したがって、いくつかの実施態様では、本明細書で提供される方法及びシステムの計算効率は、サーバハードウェアを最小限に抑えながら、それらの配列決定スループットを増加させることを可能にする。

したがって、いくつかの実施態様では、本明細書に提示される方法及び／又はシステムは、状態マシンとして機能し、各試料の個々の状態の追跡を保ち、試料が次の状態に進む準備ができていることを検出すると、適切な処理を行い、試料をその状態に前進させる。状態マシンがファイルシステムを監視して、好ましい実施態様に従って試料が次の状態に進む準備ができているかを判定する方法のより詳細な例が、以下の実施例１に記載されている。

好ましい実施態様では、本明細書で提供される方法及びシステムは、マルチスレッドであり、構成可能な数のスレッドと協働することができる。したがって、例えば、核酸配列決定の文脈において、本明細書で提供される方法及びシステムは、リアルタイム分析のためのライブ配列決定動作中に背景において作用することができ、又はオフライン分析のために既存の画像データセットを使用して動作することができる。特定の好ましい実施態様では、方法及びシステムは、各スレッドを、それが関与する検体のそれ自体のサブセットを与えることによって、マルチスレッドを取り扱う。これにより、スレッド保持の可能性が最小限に抑えられる。

本開示の方法は、検出装置を使用して物体の標的画像を取得する工程を含むことができ、この画像は、物体上の検体の繰り返しパターンを含む。表面の高解像度撮像が可能な検出装置が特に有用である。特定の実施態様では、検出装置は、本明細書に記載される密度、ピッチ、及び／又は検体サイズにおける検体を区別するのに十分な分解能を有するであろう。表面から画像又は画像データを得ることができる検出装置が特に有用である。例示的な検出器は、物体と検出器とを静的関係に維持しつつ、面積画像を取得するように構成されたものである。走査装置も使用することができる。例えば、連続領域画像を取得する装置（例えば、「工程及びショット」検出器と呼ばれる）を使用することができる。また、物体の表面上の点又は線を連続的に走査して、表面の画像を構築するためにデータを蓄積するデバイスも有用である。点走査検出器は、表面のｘ－ｙ平面内のラスタ運動を介して物体の表面上の点（すなわち、小さい検出領域）を走査するように構成することができる。線走査検出器は、物体の表面のｙ次元に沿った線を走査するように構成することができ、この線の最長寸法は、ｘ次元に沿って生じる。検出デバイス、物体、又はその両方を移動させて、走査検出を達成することができることが理解されるであろう。例えば核酸配列決定用途において特に有用な検出装置は、米国特許出願公開第２０１２／０２７０３０５（Ａ１）号、第２０１３／００２３４２２（Ａ１）号及び同第２０１３／０２６０３７２（Ａ１）号、並びに米国特許第５，５２８，０５０号、米国特許第５，７１９，３９１号、米国特許第８，１５８，９２６号、及び米国特許第８，２４１，５７３号に記載されており、これらの各々は、参照により本明細書に組み込まれる。

本明細書に開示される実施態様は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの任意の組み合わせを生成するためのプログラミング技術又は工学技術を使用して、製造方法、装置、システム、又は物品として実装されてもよい。本明細書で使用するとき、用語「製造物品」は、光学記憶デバイスなどのハードウェア又はコンピュータ可読媒体、並びに揮発性又は不揮発性メモリデバイス内に実装されるコード又は論理を指す。そのようなハードウェアとしては、フィールドプログラマブルゲートアレイ（field programmable gate array、ＦＰＧＡ）、粗粒度再構成可能構造（coarse grained reconfigurable architecture、ＣＧＲＡ）、特定用途向け集積回路（application-specific integrated circuit、ＡＳＩＣ）、複合プログラマブル論理デバイス（Complex Programmable Logic Device、ＣＰＬＤ）、プログラマブルロジックアレイ（Programmable Logic Array、ＰＬＡ）、マイクロプロセッサ、又は他の同様の処理装置が挙げられるが、これらに限定されない。特定の実施態様では、本明細書に記載される情報又はアルゴリズムは、非一過性記憶媒体中に存在する。

特定の実施態様形態では、本明細書に記載されるコンピュータ実装の方法は、物体の複数の画像が取得されている間、リアルタイムで発生することができる。このようなリアルタイム分析は、核酸配列が流体及び検出工程の繰り返しサイクルに供される核酸配列決定用途に特に有用である。配列決定データの分析は、多くの場合、本明細書に記載される方法をリアルタイム又は背景で実行するのに有益であり得る一方で、他のデータ収集又は分析アルゴリズムがプロセス中である間に、本明細書に記載される方法を実行することが有益であり得る。本方法で使用することができるリアルタイム分析法の例は、Ｉｌｌｕｍｉｎａ，Ｉｎｃ（ＳａｎＤｉｅｇｏ，Ｃａｌｉｆ）から市販されており、及び／又は、参照により本明細書に組み込まれる米国特許出願公開第２０１２／００２０５３７（Ａ１）号に記載されているＭｉＳｅｑ及びＨｉＳｅｑ配列決定機器に使用されるものである。

１つ以上のプログラムされたコンピュータによって形成され、本明細書に記載される方法の１つ以上の工程を実行するために実行されるコードを有するプログラミングが、１つ以上の機械可読媒体上に記憶されている、例示的データ分析システム。一実施態様では、例えば、システムは、標的物体からデータを取得するように構成されている１つ以上の検出システム（例えば、光学撮像システム）へのシステムのネットワーキングを可能にするように設計されたインターフェースを含む。インターフェースは、適切な場合には、データを受信及び条件することができる。特定の実施態様では、検出システムは、例えば、アレイ又は他の物体の画像を一緒に形成する個々の画像要素又はピクセルを表す画像データを出力する。プロセッサは、処理コードによって定義された１つ以上のルーチンに従って、受信した検出データを処理する。処理コードは、様々なタイプのメモリ回路に記憶されてもよい。

現時点で企図される実施態様によれば、検出データ上で実行される処理コードは、検出データを分析して、データ内で可視又は符号化された個々の検体の場所、及び検体が検出されない場所（すなわち、検体が存在しないか、又は、既存の検体から有意な信号が検出されない場所）及びメタデータを判定するように設計されたデータ分析ルーチンを含む。特定の実施態様では、アレイ内の検体位置は、典型的には、撮像された検体に付着した蛍光染料の存在に起因して、非検体位置よりも明るく見える。検体は、例えば、検体におけるプローブの標的が検出されているアレイ内に存在しない場合、検体は、それらの周囲領域よりも明るく見える必要はないことが理解されるであろう。個々の検体が現れる色は、使用される染料、並びに撮像目的のために撮像システムによって使用される光の波長の関数であり得る。標的が結合されていない、又は特定のラベルを有さない検体は、マイクロアレイ内の予想される場所などの他の特性に従って識別することができる。

データ分析ルーチンがデータ中に個々の検体を配置すると、値割り当てが実行され得る。一般に、値割り当ては、対応する場所における検出器構成要素（例えば、ピクセル）によって表されるデータの特性に基づいて、各検体にデジタル値を割り当てる。すなわち、例えば、画像化データが処理されるとき、値割り当てルーチンは、特定の場所で特定の色又は波長の光が特定の場所で検出されたことを認識するように設計されてもよい。典型的なＤＮＡ画像化用途では、例えば、４つの共通ヌクレオチドは、４つの別個の区別可能な色によって表される。次いで、各色は、そのヌクレオチドに対応する値を割り当てられてもよい。

本明細書で使用するとき、用語「モジュール」、「システム」、又は「システムコントローラ」は、１つ以上の機能を実行するように動作するハードウェア及び／又はソフトウェアシステム及び回路を含み得る。例えば、モジュール、システム、又はシステムコントローラは、コンピュータメモリなどの有形及び非一時的コンピュータ可読記憶媒体上に記憶された命令に基づいて動作を実行する、コンピュータプロセッサ、コントローラ、又は他のログベースのデバイスを含んでもよい。代替的に、モジュール、システム、又はシステムコントローラは、有線論理及び回路に基づいて動作を実行する、有線デバイスを含んでもよい。添付の図面に示されるモジュール、システム、又はシステムコントローラは、ソフトウェア又は結線命令に基づいて動作するハードウェア及び回路、ハードウェアを動作させるように命令するソフトウェア、又はそれらの組み合わせを表し得る。モジュール、システム、又はシステムコントローラは、１つ又はコンピュータマイクロプロセッサなどの１つ以上のプロセッサを含む、及び／又はそれと接続されるハードウェア回路又は回路を含むか、又は表すことができる。

本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、ＲＡＭメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、及び不揮発性ＲＡＭ（ＮＶＲＡＭ）メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは単なる例であり、コンピュータプログラムの記憶に使用可能なメモリのタイプに限定されるものではない。

分子生物学分野では、使用中の核酸配列決定のためのプロセスの１つは、配列番号合成である。この技術は、非常に平行な配列決定プロジェクトに適用することができる。例えば、自動プラットフォームを使用することにより、数百万の配列決定反応を同時に行うことが可能である。したがって、本発明の実施態様の１つは、核酸配列決定中に生成された画像データを収集、記憶、及び分析するための機器及び方法に関する。

収集及び記憶することができるデータ量の莫大なゲインは、合理化された画像解析方法を更により有益にする。例えば、本明細書に記載される画像解析方法は、設計者及びエンドユーザの両方が、既存のコンピュータハードウェアの効率的な使用を行うことを可能にする。したがって、本明細書では、迅速に増加するデータ出力の面における処理データの計算量を低減する方法及びシステムが本明細書に提示される。例えば、ＤＮＡ配列決定の分野では、収率は最近の過程で１５倍に拡大され、ＤＮＡ配列決定デバイスの単一の動作において何百ギガーゼに達する可能性がある。計算インフラストラクチャの要件が比例的に増加した場合、大規模なゲノム規模の実験は、ほとんどの研究者に到達していない。したがって、より多くの生配列データの生成は、二次分析及びデータ記憶の必要性を増加させ、データ輸送及び記憶の最適化を非常に有益にする。本明細書に提示される方法及びシステムのいくつかの実施態様は、使用可能な配列データを生成するために必要な時間、ハードウェア、ネットワーキング、及び実験室インフラストラクチャ要件を低減することができる。

本開示は、方法を実行するための様々な方法及びシステムを説明する。方法のいくつかの例は、一連の工程として記載される。しかしながら、実施態様は、本明細書に記載される特定の工程及び／又は工程の順序に限定されないことを理解されたい。工程は省略されてもよく、工程は修正されてもよく、及び／又は他の工程が追加されてもよい。更に、本明細書に記載される工程を組み合わせることができ、工程は同時に実行されてもよく、工程は同時に実行されてもよく、工程は複数のサブ工程に分割されてもよく、工程は、異なる順序で実行されてもよく、又は工程（又は一連の工程）は、反復的に再実行されてもよい。加えて、本明細書には異なる方法が記載されているが、他の実施態様では、異なる方法（又は異なる方法の工程）を組み合わせてもよいことを理解されたい。

いくつかの実施態様では、タスク又は動作を実行するように「構成された」処理ユニット、プロセッサ、モジュール、又はコンピューティングシステムは、タスク又は動作を実行するように特に構造化されていると理解され得る（例えば、タスク又は動作を実行するように調整又は意図された、及び／又はタスク若しくは動作を実行するように調整若しくは意図された１つ以上のプログラム又は命令を有すること、及び／又はタスク若しくは動作を実行するように調整又は意図された処理回路の配置を有する）。明確さ及び疑義の回避のために、汎用コンピュータ（適切にプログラムされた場合にタスク又は動作を実行するように構成された」となり得る）汎用コンピュータは、タスク又は動作を実行するために具体的にプログラム又は構造的に変更されない限り、タスク又は動作を実行するように「構成されている」ように構成されていない）。

更に、本明細書に記載される方法の操作は、操作が、商業的に妥当な時間期間内に、当業者には、平均的なヒト又は当業者によって実施されることができないように、十分に複雑であり得る。例えば、本方法は、そのような人が商業的に妥当な時間内で方法を完了することができないように、比較的複雑な計算に依存し得る。

本出願全体を通して、様々な刊行物、特許、又は特許出願が参照されている。これらの出版物の全体の開示は、本発明が属する技術分野の状態をより完全に説明するために、本出願において参照により本明細書に組み込まれる。

用語「含む（comprising）」は、本明細書では、列挙された要素のみならず、任意の追加の要素を更に包含する、オープンエンドであることが意図される。

本明細書で使用するとき、用語「各々」は、項目の集合を参照して使用されるとき、集合内の個々の項目を識別することを意図しているが、必ずしも集合内の全ての項目を指すものではない。明示的な開示又は文脈がそうでないことを明確に指示する場合、例外が生じ得る。

上記の実施例を参照して本発明を説明してきたが、本発明から逸脱することなく様々な修正を行うことができることを理解されたい。

本出願のモジュールは、ハードウェア又はソフトウェアで実装することができ、図に示されるように、正確に同じブロックで分割される必要はない。いくつかは、異なるプロセッサ若しくはコンピュータ上に実装されてもよく、又は多数の異なるプロセッサ若しくはコンピュータの中で広がることもできる。加えて、モジュールの一部は、達成される機能に影響を及ぼすことなく、図に示されるものとは並行して、又は異なる順序で操作され得ることが理解されるであろう。また、本明細書で使用するとき、用語「モジュール」は、モジュールを構成するために本明細書で考慮することができる、「サブモジュール」を含むことができる。モジュールとして指定された図のブロックはまた、方法におけるフローチャート工程と考えることができる。

本明細書で使用するとき、情報項目の「識別」は、その情報の項目の直接仕様を必ずしも必要としない。情報は、単に、一方向の１つ以上の層を通じた実際の情報を単に参照することによって、又は情報の実際の項目を決定するのに十分である異なる情報の１つ以上のアイテムを識別することによって、フィールド内で「識別され得る」ことができる。加えて、用語「指定する」は、本明細書では、「識別する」と同じであることを意味する。

本明細書で使用するとき、所与の信号、イベント又は値は、「前デセサー信号、イベント又は前デセサー信号の値、所与の信号、イベント、又は値によって影響されるイベント又は値に依存する。介在処理要素、工程又は期間が存在する場合、所与の信号、イベント、又は値は、「前デセサー信号、イベント又は値」に依存して「存在する」ことができる。介在処理要素又は工程が２つ以上の信号、イベント、又は値を組み合わせる場合、処理要素又は工程の信号出力は、信号、イベント、又は値入力の各々「に依存している」とみなされる。所与の信号、イベント又は値が前デセサー信号、イベント又は値と同じである場合、これは単に、所与の信号、イベント、又は値が「前デセサー信号、イベント又は値」に依存して「依存して」又は「依存して」又は「ベースデセサー信号、イベント又は値」に基づいて、「依存して」又は「依存する」とみなされる。別の信号、イベント又は値に対する所与の信号、イベント、又は値の「応答性」は、同様に定義される。

本明細書で使用するとき、「並行して」又は「並行して」は、正確な同時性を必要としない。個人の１人の評価が、個人の別の評価が完了する前に開始する場合に十分である。

コンピュータシステム
図１７は、開示された技術を実施するために使用することができるコンピュータシステム１７００である。コンピュータシステム１７００は、バスサブシステム１７５５を介して多数の周辺デバイスと通信する少なくとも１つの中央処理装置（central processing unit、ＣＰＵ）１７７２を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイル記憶サブシステム１７３６を含む記憶サブシステム１７１０、ユーザインターフェース入力デバイス１７３８、ユーザインターフェース出力デバイス１７７６、並びにネットワークインターフェースサブシステム１７７４を含むことができる。入力デバイス及び出力デバイスは、コンピュータシステム１７００とのユーザ対話を可能にする。ネットワークインターフェースサブシステム１７７４は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。

一実施態様では、等化器ベースコーラー１０４は、記憶サブシステム１７１０及びユーザインターフェース入力デバイス１７３８に通信可能にリンクされる。

ユーザインターフェース入力デバイス１７３８は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含んでもよい。一般に、用語「入力デバイス」の使用は、コンピュータシステム１７００に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。

ユーザインターフェース出力デバイス１７７６は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、ＬＥＤディスプレイ、陰極線管（Cathode Ray Tube、ＣＲＴ）、液晶ディスプレイ（Liquid Crystal Display、ＬＣＤ）などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、音声出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステム１７００からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方式を含むことを意図している。

記憶サブシステム１７１０は、本明細書に記載されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、一般にプロセッサ１７７８によって実行される。

プロセッサ１７７８は、グラフィック処理ユニット（graphics processing unit、ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、及び／又は粗粒化再構成可能構造（ＣＧＲＡ）であり得る。プロセッサ１７７８は、ＧｏｏｇｌｅＣｌｏｕｄＰｌａｔｆｏｒｍ（商標）、Ｘｉｌｉｎｘ（商標）及びＣｉｒｒａｓｃａｌｅ（商標）などの深層学習クラウドプラットフォームによってホスティングすることができる。プロセッサ１７７８の例は、ＧｏｏｇｌｅのＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＴＰＵ）（商標）、ＧＸ４ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）、ＧＸ１７ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）のようなラックマウントソリューション、ＮＶＩＤＩＡＤＧＸ－１（商標）、Ｍｉｃｒｏｓｏｆｔ’ ＳｔｒａｔｉｘＶＦＰＧＡ（商標）、ＧｒａｐｈｃｏｒｅのＩｎｔｅｌｌｉｇｅｎｔＰｒｏｃｅｓｓｏｒＵｎｉｔ（ＩＰＵ）（商標）、Ｓｎａｐｄｒａｇｏｎｐｒｏｃｅｓｓｏｒｓ（商標）を有するＱｕａｌｃｏｍｍのＺｅｒｏｔｈＰｌａｔｆｏｒｍ（商標）、ＮＶＩＤＩＡのＶｏｌｔａ（商標）、ＮＶＩＤＩＡのＤＲＩＶＥＰＸ（商標）、ＮＶＩＤＩＡのＪＥＴＳＯＮＴＸ１／ＴＸ２ＭＯＤＵＬＥ（商標）、ＩｎｔｅｌのＮｉｒｖａｎａ（商標）、ＭｏｖｉｄｉｕｓＶＰＵ（商標）、ＦｕｊｉｔｓｕＤＰＩ（商標）、ＡＲＭのＤｙｎａｍｉｃＩＱ（商標）、ＩＢＭＴｒｕｅＮｏｒｔｈ（商標）、ＴｅｓｔａＶ１００ｓ（商標）を有するＬａｍｂｄａＧＰＵＳｅｒｖｅｒ、及び他のものを含む。

記憶サブシステム１７１０で使用されるメモリサブシステム１７２２は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ（random access memory、ＲＡＭ）１７３２と、固定命令が記憶された読み取り専用メモリ（read only memory、ＲＯＭ）１７３４とを含む多数のメモリを含むことができる。ファイル記憶サブシステム１７３６は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体、ＣＤ－ＲＯＭドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。特定の実施態様の機能を実装するモジュールは、記憶サブシステム１７１０内のファイル記憶サブシステム１７３６によって、又はプロセッサによってアクセス可能な他のマシン内に記憶され得る。

バスサブシステム１７５５は、コンピュータシステム１７００の様々な構成要素及びサブシステムを、意図されるように互いに通信させるための機構を提供する。バスサブシステム１７５５は、単一のバスとして概略的に示されているが、バスサブシステムの代替実施態様は、複数のバスを使用することができる。

コンピュータシステム１７００自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩くネットワーク化されたコンピュータの緩く分散したセット、又は任意の他のデータ処理システム若しくはユーザデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークの変化の性質により、図１７に示されるコンピュータシステム１７００の説明は、本発明の好ましい実施態様を例示する目的のための特定の例としてのみ意図される。コンピュータシステム１７００の多くの他の構成は、図１７に示されるコンピュータシステムよりも多くの又は少ない構成要素を有することができる。

特定の実施態様
開示された技術は、等化ベースの画像処理技術を使用してセンサピクセルからの空間クロストークを減衰させる。開示された技術は、システム、方法、又は製品として実施することができる。実施態様の１つ以上の特徴を、塩基実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の１つ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらのオプションのユーザを定期的に通知する。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施態様の各々に参照することにより本明細書に組み込まれる。

一実施態様では、開示された技術は、センサピクセルからの空間クロストークを減衰させるコンピュータ実装方法を提案する。

開示された技術は、試料平面内に周期的に分布した蛍光試料によって引き起こされるピクセル平面内のセンサピクセル上の空間クロストークを解決する。蛍光試料からの信号コーンは、少なくとも１つのレンズを介してセンサピクセルの局所グリッドに光学的に結合される。信号コーンは重なり合ってセンサピクセルに衝突し、それによって空間的クロストークを生成する。

開示された技術は、少なくとも１つのサブピクセルルックアップテーブルにおいて、レンズを通して投影された特徴的な信号コーンの特徴的な広がりと、センサピクセルの局所グリッド内のセンサピクセルによって検出された蛍光に対する特徴的な信号コーンの結果的な寄与とを捕捉する。センサピクセルのローカルグリッドは、特性信号コーンの中心と実質的に同心である。

開示された技術は、サブピクセル解像度で特徴的広がりを表現するサブピクセルルックアップテーブルのセットの間を補間して、標的蛍光試料中心に基づいて補間ルックアップテーブルを生成する。

開示された技術は、ターゲット局所グリッド内のセンサピクセルと補間ルックアップテーブルを畳み込むことによって、信号コーンの中心をセンサピクセルのターゲット局所グリッドの実質的に中心に投影する標的蛍光試料から信号を分離する。

開示された技術は、標的蛍光試料からの蛍光の強度として、単離されたシグナルの畳み込まれた寄与の和を使用する。

次いで開示された技術は、蛍光強度を用いて第１の標的蛍光試料をベースコールする。蛍光強度は、複数の撮像チャネルにおける各撮像チャネルについて、第１の標的蛍光試料について決定される。４つの撮像チャネルを使用して、配列決定サイクル当たり４つの画像を生成する４チャネル化学を考える。次いで、第１の標的蛍光試料について、上記のように開示された技術を用いて、４つの蛍光強度が決定される。次いで、４つの蛍光強度は、第１の標的蛍光試料をベースコールするために、ベースコーラーによって処理される。同様に、２チャネル化学では、２つの強度の蛍光を使用して、第１の標的蛍光試料をベースコールする。

開示されるこのセクション及び技術の他のセクションに記載される方法は、開示される追加の方法に関連して説明される以下の特徴及び／又は特徴のうちの１つ以上を含むことができる。簡潔性の目的で、本出願に開示される特徴の組み合わせは、個別に列挙されず、特徴の各ベースセットで繰り返されない。読者は、この方法で識別された特徴が、本出願の他のセクションにおける実施態様として識別された基本特徴のセットと容易に組み合わせることができる方法を理解するであろう。

いくつかの実施態様において、周期的に分布された蛍光試料は、菱形に配列される。他の実施態様では、周期的に分布された蛍光試料は、六角形形状に配列される。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行して上記の方法のいずれかを実行するように動作可能な１つ以上のプロセッサとを含むシステムを含むことができる。

別の実施態様では、開示された技術は、ベースコールのコンピュータ実装方法を提案する。

開示された技術は、そのピクセルがターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す画像にアクセスする。ピクセルは、ターゲットクラスターの中心を含む中心ピクセルを含む。ピクセル内の各ピクセルは、複数のサブピクセルに分割可能である。

特定のサブピクセルに応じて、ターゲットクラスターの中心を含む中心ピクセルの複数のサブピクセルにおいて、開示された技術は、サブピクセルルックアップテーブルのバンクから、特定のサブピクセルに対応するサブピクセルルックアップテーブルを選択する。選択されたサブピクセルルックアップテーブルは、ターゲットクラスターからの強度放射を受け入れ、隣接するクラスターからの強度放射を除外するように構成されているピクセル係数を含む。

開示された技術は、画像中のピクセルの強度値に対して、ピクセル係数を要素ごとに乗算し、乗算の積を合計して出力を生成する。

開示された技術は、ターゲットクラスターをベースコールするために出力を使用する。

他の実施態様のためのこの特定の実施態様セクションで考察される特徴の各々は、この実施態様に等しく適用される。上記のように、全ての方法はここでは繰り返されず、参照により繰り返されるべきである。

いくつかの実施態様では、開示された技術は、更に、（ｉ）サブピクセルルックテーブルのバンクから、特定のサブピクセルに最も近接して隣接するサブピクセルに対応する追加のサブピクセルルックアップテーブルを選択することと、（ｉｉ）選択されたサブピクセルルックアップテーブル及び選択された追加のサブピクセルルックアップテーブルのピクセル係数の間を補間することと、ターゲットクラスターからの強度放射を受け入れ、隣接するクラスターからの強度放射を拒否するように構成されている補間ピクセル係数を生成することと、（ｉｉｉ）画像内のピクセルの強度値に対して、補間ピクセル係数を要素ごとに乗算し、乗算の積を合計して出力を生成することと、（ｉｖ）出力を使用してターゲットクラスターをベースコールすることと、を含む。

いくつかの実施態様において、ターゲットクラスター及び追加の隣接クラスターは、フローセル上に菱形で周期的に分布され、フローセルのウェル上に固定化される。他の実施態様では、ターゲットクラスター及び追加の隣接クラスターは、六角形のフローセル上に周期的に分布され、フローセルのウェル上に固定化される。

いくつかの実施態様では、補間は、線形補間、双一次補間、及び双三次補間のうちの少なくとも１つに基づく。

いくつかの実施態様では、サブピクセルルックアップテーブルのバンク内のサブピクセルルックアップテーブルのピクセル係数は、決定指向等化を使用して等化器を訓練する結果として学習される。一実施態様では、決定指向等化は、損失関数として最小二乗推定を使用する。一実施態様では、最小二乗推定は、グラウンドトゥルースベースコールを使用して二乗誤差を最小化する。一実施態様では、グラウンドトゥルースベースコールは、ＤＣオフセット、増幅係数、及びポリクローナル性の程度を説明するように修正される。

いくつかの実施態様では、サブピクセルルックアップテーブルのバンク内のサブピクセルルックアップテーブルのピクセル係数は、（ｉ）決定指向等化を用いて等化器を訓練した結果としてピクセル係数が学習された単一のサブピクセルルックアップテーブルと、（ｉｉ）予め計算された補間フィルタのセットとの組み合わせから導出される。補間フィルタのセットにおける各補間フィルタは、複数のサブピクセルにおける各サブピクセルにそれぞれ対応する。

開示された技術は、更に、（ｉ）テンプレート画像に対して画像を位置合わせし、アフィン変換パラメータ及び非線形変換パラメータを決定することと、（ｉｉ）パラメータを使用してターゲットクラスター及び追加の隣接クラスターの位置座標を画像の画像座標に変換し、変換されたピクセルを有する変換画像を生成することと、（ｉｉｉ）ターゲットクラスター及び追加の隣接クラスターの変換された位置座標を使用して補間を適用して、それぞれのクラスター中心を、クラスター中心を含むそれぞれの変換されたピクセルの中心と実質的に同心にすることと、によって、ターゲットクラスターの中心を中心ピクセルの中心と実質的に同心にすることを含む。

開示された技術は更に、特定の配列決定サイクルにおいてそれぞれの撮像チャネルを使用して捕捉された複数の画像中の各画像に対する出力を生成することと、各画像に対してそれぞれ生成された出力を使用してターゲットクラスターをベースコールすることと、を含む。

本発明者らは、以下の項目を開示する。
１．ベースコールのコンピュータ実装方法であって、方法は、
画像にアクセスすることであって、画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示し、ピクセルは、ターゲットクラスターの中心を含む中心ピクセルを含み、ピクセル内の各ピクセルは、複数のサブピクセルに分割可能である、アクセスすることと、
特定のサブピクセルに応じて、ターゲットクラスターの中心を含む中心ピクセルの複数のサブピクセルにおいて、サブピクセルルックアップテーブルのバンクから、特定のサブピクセルに対応するサブピクセルルックアップテーブルを選択することであって、選択されたサブピクセルルックアップテーブルは、信号対ノイズ比を最大化するように構成されているピクセル係数を含む、選択することと、
画像中のピクセルの強度値に対して、ピクセル係数を要素ごとに乗算し、乗算の積を合計して出力を生成することであって、ピクセル係数は、重みとして機能し、出力は、強度値の重み付き和である、生成することと、
出力を使用して、ターゲットクラスターをベースコールすることと、を含む、方法。
２．信号対ノイズ比において最大化された信号は、ターゲットクラスターからの強度放射であり、信号対ノイズ比において最小化されたノイズは、隣接クラスターからの強度放射である、項目１に記載のコンピュータ実装方法。
３．要素ごとの乗算は、所与の等化器係数セットに対してバイアスを加える、項目１に記載のコンピュータ実装方法。
４．バイアスは、背景ノイズ強度を平均化するＤＣオフセットである、項目３に記載のコンピュータ実装方法。
５．
サブピクセルルックテーブルのバンクから、特定のサブピクセルに最も近接して隣接するサブピクセルに対応する追加のサブピクセルルックアップテーブルを選択することと、
選択されたサブピクセルルックアップテーブル及び選択された追加のサブピクセルルックアップテーブルのピクセル係数間を補間し、信号対ノイズ比を最大化するように構成されている補間ピクセル係数を生成することと、
補間画像中のピクセルの強度値に対して、ピクセル係数を要素ごとに乗算し、乗算の積を合計して出力を生成することであって、補間ピクセル係数は、重みとして機能し、出力は、強度値の重み付き和である、生成することと、
出力を使用して、ターゲットクラスターをベースコールすることと、を更に含む、項目１に記載のコンピュータ実装方法。
６．ターゲットクラスター及び追加の隣接クラスターは、フローセル上に菱形で周期的に分布され、フローセルのウェル上に固定化される、項目１に記載のコンピュータ実装方法。
７．ターゲットクラスター及び追加の隣接クラスターは、六角形のフローセル上に周期的に分布され、フローセルのウェル上に固定化される、項目６に記載のコンピュータ実装方法。
８．補間は、線形補間、双一次補間、及び双三次補間のうちの少なくとも１つに基づいている、項目１に記載のコンピュータ実装方法。
９．サブピクセルルックアップテーブルのバンク内のサブピクセルルックアップテーブルのピクセル係数は、最小二乗推定、最小二乗法、最小平均二乗、及び再帰最小二乗のうちの少なくとも１つを使用して等化器を訓練する結果として学習される、項目１に記載のコンピュータ実装方法。他の実施態様では、他の推定アルゴリズム及び適合アルゴリズムを使用して等化器を訓練することができる。
１０．等化器をオフラインモードで訓練することを更に含み、オフラインモードでは、サブピクセルルックアップテーブルのピクセル係数は、以前に実行された配列決定ランからの訓練データのバッチで訓練された後に固定される、項目９に記載のコンピュータ実装方法。
１１．オンラインモードで等化器を訓練することを更に含み、オンラインモードでは、進行中の配列決定ランからの訓練データが利用可能になるにつれて、サブピクセルルックアップテーブルのピクセル係数が反復的に更新される、項目１０に記載のコンピュータ実装方法。
１２．訓練データ内の画像の以前のベースコール中に生成された４つの塩基Ａ、Ｃ、Ｇ、及びＴの各々の塩基ごとの強度分布にアクセスすることと、塩基ごとの強度分布のそれぞれの中心を、塩基ごとのグラウンドトゥルースターゲット強度として選択することと、塩基ごとのグラウンドトゥルースターゲット強度を使用して等化器を訓練することと、を更に含む、項目１１に記載のコンピュータ実装方法。
１３．オフラインモードで等化器を事前訓練することと、オンラインモードで等化器を再訓練することと、を更に含む、項目１２に記載のコンピュータ実装方法。
１４．単一の等化器係数セットと予め計算された補間フィルタセットとを共に適用することにより、サブピクセルルックアップテーブルのバンク内にルックアップテーブルを生成することを更に含み、ピクセル強度を補間して等化器に対する入力を生成することを含む、項目９に記載のコンピュータ実装方法。これは、等化器入力を生成するために補間されたピクセル強度値を使用することにより、訓練された等化器係数と比較してピクセルに関して実質的に異なるアライメントを有するクラスターに対するピクセル重みを計算することを含む。補間及び等化器フィルタ応答は、単一の共有ＬＵＴを用いた効率的な実施態様のために一緒に畳み込むことができる。他の実施態様では、補間フィルタ計算は、サブピクセルにビン化することなく直接行うことができる。
１５．
テンプレート画像に対して画像を位置合わせし、アフィン変換パラメータ及び非線形変換パラメータを決定することと、
パラメータを使用して、ターゲットクラスター及び追加の隣接クラスターの位置座標を画像の画像座標に変換し、変換されたピクセルを有する変換画像を生成することと、
ターゲットクラスター及び追加の隣接クラスターの変換された位置座標を使用して補間を適用し、それぞれのクラスター中心を、クラスター中心を含むそれぞれの変換されたピクセルの中心と実質的に同心にすることと、によって、ターゲットクラスターの中心を中心ピクセルの中心と同心にすることを更に含む、項目１に記載のコンピュータ実装方法。
１６．特定の配列決定サイクルにおいてそれぞれの撮像チャネル及び／又は色チャネルを使用して捕捉された複数の画像中の各画像に対する出力を生成することと、各画像に対してそれぞれ生成された出力を使用してターゲットクラスターをベースコールすることと、を更に含む、項目４に記載のコンピュータ実装方法。
１７．試料平面内に配置された蛍光試料から、同様に試料平面内の周囲の蛍光源によって破壊された信号から基礎となる信号を復元するコンピュータ実装方法であって、方法は、
少なくとも１つのサブピクセルルックアップテーブルにおいて、周囲の蛍光源からの破壊を考慮したサンプリングに基づいたセンサピクセルアレイによる画像面における照明の特徴的な集合を取り込み、次いで、蛍光試料の中心座標がセンサアレイの中心ピクセルにわたって分布された位置にあり、その位置が中心ピクセルの座標の中心に対して分布された場合に、センサピクセルアレイによる照明の特徴的な集合のためのルックアップテーブルのセットを生成することと、
センサピクセルアレイの中心ピクセルの任意の場所に蛍光試料の中心座標を有する画像を受信することであって、画像は、周囲の蛍光源によって破壊されている、受信することと、中心ピクセル内の蛍光試料の中心座標を受信することと、
ルックアップテーブルのセット内のルックアップテーブル間の補間に基づいて、蛍光試料の受信中心座標に対してカスタマイズされたセンサピクセルアレイによる照明の特徴的な集合の補間テーブルを計算することと、
補間ルックアップテーブルをターゲット局所グリッド内のセンサピクセルを用いて要素ごとに乗算することによって、信号コーンの中心をセンサピクセルのターゲット局所グリッドの実質的に中心に投影する標的蛍光試料からの信号を復元することと、
要素ごとの乗算の積の和を標的蛍光試料からの蛍光強度として用いること、
蛍光強度を用いて第１の標的蛍光試料をベースコールすることと、を含む、方法。
１．ベースコールのコンピュータ実装方法であって、方法は、
画像にアクセスすることであって、画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す、アクセスすることと、
信号対ノイズ比を最大化するように構成されているピクセル係数を含むルックアップテーブルを選択することと、
ピクセル係数を画像中のピクセルの強度値を用いて畳み込み、出力を生成することと、
ターゲットクラスターを出力に基づいてベースコールすることと、を含む、方法。
２．信号対ノイズ比において最大化された信号は、ターゲットクラスターからの強度放射であり、信号対ノイズ比において最小化されたノイズは、隣接クラスターからの強度放射に追加のノイズ源を加えたものである、請求項１に記載のコンピュータ実装方法。
３．ピクセルは、ターゲットクラスターの中心を含む中心ピクセルを含み、ピクセル内の各ピクセルは、複数のサブピクセルに分割可能である、請求項１に記載のコンピュータ実装方法。
４．ルックアップテーブルは、サブピクセルルックアップテーブルである、請求項３に記載のコンピュータ実装方法。
５．
特定のサブピクセルに応じて、ターゲットクラスターの中心を含む中心ピクセルの複数のサブピクセルにおいて、サブピクセルルックアップテーブルのバンクから、特定のサブピクセルに対応するサブピクセルルックアップテーブルを選択することであって、選択されたサブピクセルルックアップテーブルは、ピクセル係数を含む、選択することと、
画像中のピクセルの強度値に対して、ピクセル係数を要素ごとに乗算し、乗算の積合計して出力を生成することであって、ピクセル係数は、重みとして機能し、出力は、強度値の重み付き和である、生成することと、
出力を使用して、ターゲットクラスターをベースコールすることであって、複数の撮像チャネルにおける各撮像チャネルの出力を生成することと、各撮像チャネルの出力を使用してターゲットクラスターをベースコールすることと、を含む、ベースコールすることと、を更に含む、請求項４に記載のコンピュータ実装方法。
６．要素ごとの乗算は、所与の等化器係数セットのバイアスを加算し、バイアスは、背景ノイズ強度を平均化するＤＣオフセットである、請求項５に記載のコンピュータ実装方法。
７．
サブピクセルルックテーブルのバンクから、特定のサブピクセルに連続して隣接するサブピクセルに対応する追加のサブピクセルルックアップテーブルを選択することと、
選択されたサブピクセルルックアップテーブル及び選択された追加のサブピクセルルックアップテーブルのピクセル係数に基づいて、信号対ノイズ比を最大化するように構成されている補間ピクセル係数を生成することと、
補間ピクセル係数を画像内のピクセルの強度値を用いて畳み込み、出力を生成することと、
ターゲットクラスターを出力に基づいてベースコールすることと、を更に含む、請求項５に記載のコンピュータ実装方法。
８．
画像中のピクセルの強度値に対して、ピクセル係数を要素ごとに乗算し、乗算の積を合計して出力を生成することであって、補間ピクセル係数は、重みとして機能し、出力は、強度値の重み付き和である、生成することと、を更に含む、請求項７に記載のコンピュータ実装方法。
９．最小二乗推定、最小二乗法、最小平均二乗、及び再帰最小二乗のうちの少なくとも１つを使用して等化器を訓練して、ピクセル係数を生成することを更に含む、請求項１に記載のコンピュータ実装方法。
１０．等化器をオフラインモードで訓練することを更に含み、オフラインモードでは、サブピクセルルックアップテーブルのピクセル係数は、以前に実行された配列決定ランからの訓練データのバッチで訓練された後に固定される、請求項９に記載のコンピュータ実装方法。
１１．等化器をオンラインモードで訓練することを更に含み、オンラインモードでは、サブピクセルルックアップテーブルのピクセル係数は、進行中の配列決定ラン中に反復的に更新される、請求項１０に記載のコンピュータ実装方法。
１２．訓練データ内の画像の以前のベースコール中に生成された４つの塩基Ａ、Ｃ、Ｇ、及びＴの各々の塩基ごとの強度分布にアクセスすることと、塩基ごとの強度分布のそれぞれの中心を、対応する色チャネルの塩基ごとのグラウンドトゥルースターゲット強度として選択することと、塩基ごとのグラウンドトゥルースターゲット強度を使用して等化器を訓練することと、を更に含む、請求項１１に記載のコンピュータ実装方法。
１３．オフラインモードで等化器を事前訓練することと、オンラインモードで等化器を再訓練することと、を更に含む、請求項１２に記載のコンピュータ実装方法。
１４．単一の等化器係数セットと予め計算された補間フィルタセットとを共に適用することにより、サブピクセルルックアップテーブルのバンク内にルックアップテーブルを生成することを更に含み、ピクセル強度を補間して等化器に対する入力を生成することを含む、請求項９に記載のコンピュータ実装方法。
１５．
テンプレート画像に対して画像を位置合わせし、アフィン変換パラメータ及び非線形変換パラメータを決定することと、
パラメータを使用して、ターゲットクラスター及び追加の隣接クラスターの位置座標を画像の画像座標に変換し、変換されたピクセルを有する変換画像を生成することと、
ターゲットクラスター及び追加の隣接クラスターの変換された位置座標を使用して補間を適用し、それぞれのクラスター中心を、クラスター中心を含むそれぞれの変換されたピクセルの中心と同心にすることと、によって、ターゲットクラスターの中心を中心ピクセルの中心と同心にすることを更に含む、請求項１に記載のコンピュータ実装方法。
１６．ベースコールを実施するためのコンピュータプログラム命令を記憶している非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサ上で実行されると、
画像にアクセスすることであって、画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す、アクセスすることと、
信号対ノイズ比を最大化するように構成されているピクセル係数を含むルックアップテーブルを選択することと、
ピクセル係数を画像中のピクセルの強度値を用いて畳み込み、出力を生成することと、
ターゲットクラスターを出力に基づいてベースコールすることと、を含む命令を実装する、非一時的コンピュータ可読記憶媒体。
１７．信号対ノイズ比において最大化された信号は、ターゲットクラスターからの強度放射であり、信号対ノイズ比において最小化されたノイズは、隣接クラスターからの強度放射に追加のノイズ源を加えたものである、請求項１６に記載の非一時的コンピュータ可読記憶媒体。
１８．最小二乗推定、最小二乗法、最小平均二乗、及び再帰最小二乗のうちの少なくとも１つを使用して等化器を訓練して、ピクセル係数を生成することを更に含む方法を実施する、請求項１６に記載の非一時的コンピュータ可読記憶媒体。
１９．メモリに結合された１以上のプロセッサを含むシステムであって、メモリは、ベースコールを実施するためのコンピュータ命令がロードされ、命令は、プロセッサ上で実行されると、
画像にアクセスすることであって、画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す、アクセスすることと、
信号対ノイズ比を最大化するように構成されているピクセル係数を含むルックアップテーブルを選択することと、
ピクセル係数を画像中のピクセルの強度値を用いて畳み込み、出力を生成することと、
ターゲットクラスターを出力に基づいてベースコールすることと、を含むアクションを実装する、システム。
２０．最小二乗推定、最小二乗法、最小平均二乗、及び再帰最小二乗のうちの少なくとも１つを使用して等化器を訓練して、ピクセル係数を生成することを含むアクションを更に実装する、請求項１９に記載のシステム。

本発明は、上述の好ましい実施態様及び実施例を参照して開示されているが、これらの実施例は、限定的な意味でではなく例示的な意味で意図されていることが理解されるべきである。当業者であれば、変更及び組み合わせが容易に生じ、その変更及び組み合わせは、本発明の趣旨及び以下の特許請求の範囲の範囲内にあると考えられる。

１００Ａシステム
１０２配列決定画像
１０４等化器ベースコーラー
１０６ＬＵＴ／ＬＵＴバンク
１０８補間フィルタ
１１２グラウンドトゥルースベースコール
１１４訓練器

Claims

ベースコールのコンピュータ実装方法であって、前記方法は、
画像にアクセスすることであって、前記画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す、アクセスすることと、
信号対ノイズ比を最大化するように構成されているピクセル係数を含むルックアップテーブルを選択することと、
前記ピクセル係数を前記画像中の前記ピクセルの強度値を用いて畳み込み、出力を生成することと、
前記ターゲットクラスターを前記出力に基づいてベースコールすることと、を含む、コンピュータ実装方法。
前記信号対ノイズ比において最大化された信号は、前記ターゲットクラスターからの前記強度放射であり、前記信号対ノイズ比において最小化されたノイズは、前記隣接クラスターからの前記強度放射に追加のノイズ源を加えたものである、請求項１に記載のコンピュータ実装方法。
前記ピクセルは、前記ターゲットクラスターの中心を含む中心ピクセルを含み、前記ピクセル内の各ピクセルは、複数のサブピクセルに分割可能である、請求項１に記載のコンピュータ実装方法。
前記ルックアップテーブルは、サブピクセルルックアップテーブルである、請求項３に記載のコンピュータ実装方法。
前記ターゲットクラスターの前記中心を含む前記中心ピクセルの複数のサブピクセルのうちの特定のサブピクセルに応じて、サブピクセルルックアップテーブルのバンクから、前記特定のサブピクセルに対応する前記サブピクセルルックアップテーブルを選択することであって、選択された前記サブピクセルルックアップテーブルは、前記ピクセル係数を含む、選択することと、
前記画像中の前記ピクセルの前記強度値に対して、前記ピクセル係数を要素ごとに乗算し、前記乗算の積を合計して前記出力を生成することであって、前記ピクセル係数は、重みとして機能し、前記出力は、前記強度値の重み付き和である、生成することと、
前記出力を使用して、前記ターゲットクラスターをベースコールすることであって、複数の撮像チャネルにおける各撮像チャネルの前記出力を生成することと、各撮像チャネルの前記出力を使用して前記ターゲットクラスターをベースコールすることと、を含む、ベースコールすることと、を更に含む、請求項４に記載のコンピュータ実装方法。
前記要素ごとの乗算は、所与の等化器係数セットのバイアスを加算し、前記バイアスは、背景ノイズ強度を平均化するＤＣオフセットである、請求項５に記載のコンピュータ実装方法。
サブピクセルルックテーブルの前記バンクから、前記特定のサブピクセルに連続して隣接するサブピクセルに対応する追加のサブピクセルルックアップテーブルを選択することと、
選択された前記サブピクセルルックアップテーブル及び選択された前記追加のサブピクセルルックアップテーブルのピクセル係数に基づいて、前記信号対ノイズ比を最大化するように構成されている補間ピクセル係数を生成することと、
前記補間ピクセル係数を前記画像内の前記ピクセルの前記強度値を用いて畳み込み、出力を生成することと、
前記ターゲットクラスターを前記出力に基づいてベースコールすることと、を更に含む、請求項５に記載のコンピュータ実装方法。
前記画像中の前記ピクセルの前記強度値に対して、前記補間ピクセル係数を要素ごとに乗算し、前記乗算の積を合計して前記出力を生成することであって、前記補間ピクセル係数は、重みとして機能し、前記出力は、前記強度値の重み付き和である、生成すること、を更に含む、請求項７に記載のコンピュータ実装方法。
最小二乗推定、最小二乗法、最小平均二乗、及び再帰最小二乗のうちの少なくとも１つを使用して等化器を訓練して、前記ピクセル係数を生成することを更に含む、請求項１に記載のコンピュータ実装方法。
前記等化器をオフラインモードで訓練することを更に含み、前記オフラインモードでは、サブピクセルルックアップテーブルの前記ピクセル係数は、以前に実行された配列決定ランからの訓練データのバッチで訓練された後に固定される、請求項９に記載のコンピュータ実装方法。
前記等化器をオンラインモードで訓練することを更に含み、前記オンラインモードでは、サブピクセルルックアップテーブルの前記ピクセル係数は、進行中の配列決定ラン中に反復的に更新される、請求項１０に記載のコンピュータ実装方法。
前記訓練データ内の画像の以前のベースコール中に生成された４つの塩基Ａ、Ｃ、Ｇ、及びＴの各々の塩基ごとの強度分布にアクセスすることと、前記塩基ごとの強度分布のそれぞれの中心を、対応する色チャネルの塩基ごとのグラウンドトゥルースターゲット強度として選択することと、前記塩基ごとのグラウンドトゥルースターゲット強度を使用して前記等化器を訓練することと、を更に含む、請求項１１に記載のコンピュータ実装方法。
前記オフラインモードで前記等化器を事前訓練することと、前記オンラインモードで前記等化器を再訓練することと、を更に含む、請求項１２に記載のコンピュータ実装方法。
単一の等化器係数セットと予め計算された補間フィルタセットとを共に適用することにより、サブピクセルルックアップテーブルの前記バンク内に前記ルックアップテーブルを生成することを更に含み、ピクセル強度を補間して前記等化器に対する入力を生成することを含む、請求項９に記載のコンピュータ実装方法。
テンプレート画像に対して前記画像を位置合わせし、アフィン変換パラメータ及び非線形変換パラメータを決定することと、
前記パラメータを使用して、前記ターゲットクラスター及び前記追加の隣接クラスターの位置座標を前記画像の画像座標に変換し、変換されたピクセルを有する変換画像を生成することと、
前記ターゲットクラスター及び前記追加の隣接クラスターの変換された前記位置座標を使用して補間を適用し、それぞれのクラスター中心を、前記クラスター中心を含むそれぞれの変換されたピクセルの中心と同心にすることと、によって、前記ターゲットクラスターの前記中心を前記中心ピクセルの中心と同心にすることを更に含む、請求項１に記載のコンピュータ実装方法。
ベースコールを実施するためのコンピュータプログラム命令を記憶している非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサ上で実行されると、
画像にアクセスすることであって、前記画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す、アクセスすることと、
信号対ノイズ比を最大化するように構成されているピクセル係数を含むルックアップテーブルを選択することと、
前記ピクセル係数を前記画像中の前記ピクセルの強度値を用いて畳み込み、出力を生成することと、
前記ターゲットクラスターを前記出力に基づいてベースコールすることと、を含む命令を実装する、非一時的コンピュータ可読記憶媒体。
前記信号対ノイズ比において最大化された信号は、前記ターゲットクラスターからの前記強度放射であり、前記信号対ノイズ比において最小化されたノイズは、前記隣接クラスターからの前記強度放射に追加のノイズ源を加えたものである、請求項１６に記載の非一時的コンピュータ可読記憶媒体。
最小二乗推定、最小二乗法、最小平均二乗、及び再帰最小二乗のうちの少なくとも１つを使用して等化器を訓練して、前記ピクセル係数を生成することを更に含む方法を実装する、請求項１６に記載の非一時的コンピュータ可読記憶媒体。
メモリに結合された１つ以上のプロセッサを含むシステムであって、前記メモリは、ベースコールを実施するためのコンピュータ命令がロードされ、前記命令は、前記プロセッサ上で実行されると、
画像にアクセスすることであって、前記画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す、アクセスすることと、
信号対ノイズ比を最大化するように構成されているピクセル係数を含むルックアップテーブルを選択することと、
前記ピクセル係数を前記画像中の前記ピクセルの強度値を用いて畳み込み、出力を生成することと、
前記ターゲットクラスターを前記出力に基づいてベースコールすることと、を含むアクションを実装する、システム。
最小二乗推定、最小二乗法、最小平均二乗、及び再帰最小二乗のうちの少なくとも１つを使用して等化器を訓練して、前記ピクセル係数を生成することを含むアクションを更に実装する、請求項１９に記載のシステム。