JP2022526470A

JP2022526470A - 人工知能ベースのベースコール

Info

Publication number: JP2022526470A
Application number: JP2020572703A
Authority: JP
Inventors: キショール・ジャガナタン; ジョン・ランドール・ゴベル; アミラリ・キア
Original assignee: イルミナインコーポレイテッド
Priority date: 2019-03-21
Filing date: 2020-03-21
Publication date: 2022-05-25
Also published as: US20220292297A1; KR20210142529A; KR20210145115A; IL279522A; JP2022535306A; EP3942070A1; MX2020014288A; IL279533A; JP2022525267A; MX2020014299A; EP3942073A2; BR112020026433A2; IL279525A; SG11202012441QA; AU2020241905A1; BR112020026408A2; EP3942074A2; BR112020026455A2; SG11202012463YA; US20230268033A1

Abstract

開示される技術は、入力データをニューラルネットワークによって処理し、入力データの代替表現を生成する。入力データは、配列決定実行の１つ又はそれ以上の配列決定サイクルのそれぞれのためのサイクルごとの画像データを含む。サイクルごとの画像データは、それぞれの配列決定サイクルにおいて捕捉された１つ又はそれ以上の分析物及びそれらの周囲背景の強度発光を表現する。開示される技術は、代替表現を出力層によって処理し、出力を生成し、出力に基づいて、配列決定サイクルのうちの１つ又はそれ以上における１つ又はそれ以上の分析物をベースコールする。

Description

（優先権出願）
本出願は、以下の出願の優先権又は利益を主張する。

２０１９年３月２１日に出願された「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国仮特許出願第６２／８２１，６０２号（代理人整理番号ＩＬＬＭ１００８－１／ＩＰ－１６９３－ＰＲＶ）、

２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＧｅｎｅｒａｔｉｏｎｏｆＳｅｑｕｅｎｃｉｎｇＭｅｔａｄａｔａ」と題する米国仮特許出願第６２／８２１，６１８号（代理人整理番号ＩＬＬＭ１００８－３／ＩＰ－１７４１－ＰＲＶ）、

２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する米国仮特許出願第６２／８２１，６８１号（代理人整理番号ＩＬＬＭ１００８－４／ＩＰ－１７４４－ＰＲＶ）、

２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＱｕａｌｉｔｙＳｃｏｒｉｎｇ」と題する米国仮特許出願第６２／８２１，７２４号（代理人整理番号ＩＬＬＭ１００８－７／ＩＰ－１７４７－ＰＲＶ）、

２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国仮特許出願第６２／８２１，７６６号（代理人整理番号ＩＬＬＭ１００８－９／ＩＰ－１７５２－ＰＲＶ）、

２０１９年６月１４日に出願された「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する蘭国特許出願第２０２３３１０号（代理人整理番号ＩＬＬＭ１００８－１１／ＩＰ－１６９３－ＮＬ）、

２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＧｅｎｅｒａｔｉｏｎｏｆＳｅｑｕｅｎｃｉｎｇＭｅｔａｄａｔａ」と題する蘭国特許出願第２０２３３１１号（代理人整理番号ＩＬＬＭ１００８－１２／ＩＰ－１７４１－ＮＬ）、

２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する蘭国特許出願第２０２３３１２号（代理人整理番号ＩＬＬＭ１００８－１３／ＩＰ－１７４４－ＮＬ）、

２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＱｕａｌｉｔｙＳｃｏｒｉｎｇ」と題する蘭国特許出願第２０２３３１４号（代理人整理番号ＩＬＬＭ１００８－１４／ＩＰ－１７４７－ＮＬ）、及び

２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する蘭国特許出願第２０２３３１６号（代理人整理番号ＩＬＬＭ１００８－１５／ＩＰ－１７５２－ＮＬ）。

２０２０年３月２０日に出願された「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許出願第１６／８２５，９８７号（代理人整理番号ＩＬＬＭ１００８－１６／ＩＰ－１６９３－ＵＳ）、

２０２０年３月２０日に出願された「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許出願第１６／８２５，９９１号（代理人整理番号ＩＬＬＭ１００８－１７／ＩＰ－１７４１－ＵＳ）、

２０２０年３月２０日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する米国特許出願第１６／８２６，１２６号（代理人整理番号ＩＬＬＭ１００８－１８／ＩＰ－１７４４－ＵＳ）、

２０２０年３月２０日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＱｕａｌｉｔｙＳｃｏｒｉｎｇ」と題する米国特許出願第１６／８２６，１３４号（代理人整理番号第ＩＬＬＭ１００８－１９／ＩＰ－１７４７－ＵＳ）、

２０２０年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許出願第１６／８２６，１６８号（代理人整理番号ＩＬＬＭ１００８－２０／ＩＰ－１７５２－ＰＲＶ）、

本願と同時に出願され、その後ＰＣＴ国際公開第ＷＯ＿＿＿＿＿＿＿＿＿＿＿＿号として公開されている「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題するＰＣＴ特許出願第ＰＣＴ＿＿＿＿＿＿＿＿＿＿＿号（代理人整理番号ＩＬＬＭ１００８－２１／ＩＰ－１６９３－ＰＣＴ）、

本願と同時に出願され、その後、ＰＣＴ国際公開第ＷＯ＿＿＿＿＿＿＿＿＿＿＿＿号として公開されている「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＢａｓｅｄＧｅｎｅｒａｔｉｏｎｏｆＳｅｑｕｅｎｃｉｎｇＭｅｔａｄａｔａ」と題するＰＣＴ特許出願第ＰＣＴ＿＿＿＿＿＿＿＿＿＿号（代理人整理番号第ＩＬＬＭ１００８－２２／ＩＰ－１７４１－ＰＣＴ）、

本願と同時に出願され、その後ＰＣＴ国際公開第ＷＯ＿＿＿＿＿＿＿＿＿＿＿＿号として公開されている「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＱｕａｌｉｔｙＳｃｏｒｉｎｇ」と題するＰＣＴ特許出願第ＰＣＴ＿＿＿＿＿＿＿＿＿＿号（代理人整理番号第ＩＬＬＭ１００８－２４／ＩＰ－１７４７－ＰＣＴ）、及び

本願と同時に出願され、その後ＰＣＴ国際公開第ＷＯ＿＿＿＿＿＿＿＿＿＿＿＿号として公開されている「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題するＰＣＴ特許出願第ＰＣＴ＿＿＿＿＿＿＿＿＿＿＿号（代理人整理番号ＩＬＬＭ１００８－２５／ＩＰ－１７５２－ＰＣＴ）、

優先権出願は、本明細書に完全に記載されているかのように、全ての目的のために参照により本明細書に組み込まれる。
（組み込み）

以下は、本明細書に完全に記載されているかのように、全ての目的のために参照により組み込まれる。

２０１９年５月１６日に出願された「ＳｙｓｔｅｍｓａｎｄＤｅｖｉｃｅｓｆｏｒＣｈａｒａｃｔｅｒｉｚａｔｉｏｎａｎｄＰｅｒｆｏｒｍａｎｃｅＡｎａｌｙｓｉｓｏｆＰｉｘｅｌ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国仮特許出願第６２／８４９，０９１号（代理人整理番号ＩＬＬＭ１０１１－１／ＩＰ－１７５０－ＰＲＶ）、

２０１９年５月１６日に出願された「ＢａｓｅＣａｌｌｉｎｇＵｓｉｎｇＣｏｎｖｏｌｕｔｉｏｎｓ」と題する米国特許仮出願第６２／８４９，１３２号（代理人整理番号ＩＬＬＭ１０１１－２／ＩＰ－１７５０－ＰＲ２）、

２０１９年５月１６日に出願された「ＢａｓｅＣａｌｌｉｎｇＵｓｉｎｇＣｏｍｐａｃｔＣｏｎｖｏｌｕｔｉｏｎｓ」と題する米国仮特許仮出願第６２／８４９，１３３号（代理人整理番号ＩＬＬＭ１０１１－３／ＩＰ－１７５０－ＰＲ３）、

２０２０年２月２０日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇｏｆＩｎｄｅｘＳｅｑｕｅｎｃｅｓ」と題する米国仮特許出願第６２／９７９，３８４号（代理人整理番号ＩＬＬＭ１０１５－１／ＩＰ－１８５７－ＰＲＶ）、

２０２０年２月２０日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＭａｎｙ－Ｔｏ－ＭａｎｙＢａｓｅＣａｌｌｉｎｇ」と題する米国仮特許出願第６２／９７９，４１４号（代理人整理番号ＩＬＬＭ１０１６－１／ＩＰ－１８５８－ＰＲＶ）、

２０２０年２月２０日に出願された「ＫｎｏｗｌｅｄｇｅＤｉｓｔｉｌｌａｔｉｏｎ－ＢａｓｅｄＣｏｍｐｒｅｓｓｉｏｎｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｅｒ」と題する米国仮特許出願第６２／９７９，３８５号（代理人整理番号ＩＬＬＭ１０１７－１／ＩＰ－１８５９－ＰＲＶ）、

２０２０年２月２０日に出願された「Ｍｕｌｔｉ－ＣｙｃｌｅＣｌｕｓｔｅｒＢａｓｅｄＲｅａｌＴｉｍｅＡｎａｌｙｓｉｓＳｙｓｔｅｍ」と題する米国特許仮出願第６２／９７９，４１２号（代理人整理番号ＩＬＬＭ１０２０－１／ＩＰ－１８６６－ＰＲＶ）、

２０２０年２月２０日に出願された「ＤａｔａＣｏｍｐｒｅｓｓｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する米国仮特許出願第６２／９７９，４１１号（代理人整理番号ＩＬＬＭ１０２９－１／ＩＰ－１９６４－ＰＲＶ）、

２０２０年２月２０日に出願された「ＳｑｕｅｅｚｉｎｇＬａｙｅｒｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する米国仮特許出願第６２／９７９，３９９号（代理人整理番号ＩＬＬＭ１０３０－１／ＩＰ－１９８２－ＰＲＶ）、

ＬｉｕＰ，ＨｅｍａｎｉＡ，ＰａｕｌＫ，ＷｅｉｓＣ，ＪｕｎｇＭ，ＷｅｈｎＮ．３Ｄ－ＳｔａｃｋｅｄＭａｎｙ－ＣｏｒｅＡｒｃｈｉｔｅｃｔｕｒｅｆｏｒＢｉｏｌｏｇｉｃａｌＳｅｑｕｅｎｃｅＡｎａｌｙｓｉｓＰｒｏｂｌｅｍｓ．ＩｎｔＪＰａｒａｌｌｅｌＰｒｏｇ．２０１７；４５（６）：１４２０－６０、

Ｚ．Ｗｕ，Ｋ．Ｈａｍｍａｄ，Ｒ．Ｍｉｔｔｍａｎｎ，Ｓ．Ｍａｇｉｅｒｏｗｓｋｉ，Ｅ．Ｇｈａｆａｒ－Ｚａｄｅｈ，ａｎｄＸ．Ｚｈｏｎｇ，「ＦＰＧＡ－ＢａｓｅｄＤＮＡＢａｓｅｃａｌｌｉｎｇＨａｒｄｗａｒｅＡｃｃｅｌｅｒａｔｉｏｎ」，ｉｎＰｒｏｃ．ＩＥＥＥ６１ｓｔＩｎｔ．ＭｉｄｗｅｓｔＳｙｍｐ．ＣｉｒｃｕｉｔｓＳｙｓｔ．，Ａｕｇ．２０１８，ｐｐ．１０９８－１１０１、

Ｚ．Ｗｕ，Ｋ．Ｈａｍｍａｄ，Ｅ．Ｇｈａｆａｒ－Ｚａｄｅｈ，ａｎｄＳ．Ｍａｇｉｅｒｏｗｓｋｉ，「ＦＰＧＡ－Ａｃｃｅｌｅｒａｔｅｄ３ｒｄＧｅｎｅｒａｔｉｏｎＤＮＡＳｅｑｕｅｎｃｉｎｇ」，ｉｎＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＢｉｏｍｅｄｉｃａｌＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓ，Ｖｏｌｕｍｅ１４，Ｉｓｓｕｅ１，Ｆｅｂ．２０２０，ｐｐ．６５－７４、

Ｐｒａｂｈａｋａｒｅｔａｌ．，「Ｐｌａｓｔｉｃｉｎｅ：ＡＲｅｃｏｎｆｉｇｕｒａｂｌｅＡｒｃｈｉｔｅｃｔｕｒｅｆｏｒＰａｒａｌｌｅｌＰａｔｔｅｒｎｓ」，ＩＳＣＡ’１７，Ｊｕｎｅ２４－２８，２０１７，Ｔｏｒｏｎｔｏ，ＯＮ，Ｃａｎａｄａ、

Ｍ．Ｌｉｎ，Ｑ．Ｃｈｅｎ，ａｎｄＳ．Ｙａｎ，「ＮｅｔｗｏｒｋｉｎＮｅｔｗｏｒｋ」，ｉｎＰｒｏｃ．ｏｆＩＣＬＲ，２０１４、

Ｌ．Ｓｉｆｒｅ，「Ｒｉｇｉｄ－ｍｏｔｉｏｎＳｃａｔｔｅｒｉｎｇｆｏｒＩｍａｇｅＣｌａｓｓｉｆｉｃａｔｉｏｎ，Ｐｈ．Ｄ．ｔｈｅｓｉｓ，２０１４、

Ｌ．ＳｉｆｒｅａｎｄＳ．Ｍａｌｌａｔ，「Ｒｏｔａｔｉｏｎ，ＳｃａｌｉｎｇａｎｄＤｅｆｏｒｍａｔｉｏｎＩｎｖａｒｉａｎｔＳｃａｔｔｅｒｉｎｇｆｏｒＴｅｘｔｕｒｅＤｉｓｃｒｉｍｉｎａｔｉｏｎ」，ｉｎＰｒｏｃ．ｏｆＣＶＰＲ，２０１３、

Ｆ．Ｃｈｏｌｌｅｔ，「Ｘｃｅｐｔｉｏｎ：ＤｅｅｐＬｅａｒｎｉｎｇｗｉｔｈＤｅｐｔｈｗｉｓｅＳｅｐａｒａｂｌｅＣｏｎｖｏｌｕｔｉｏｎｓ」，ｉｎＰｒｏｃ．ｏｆＣＶＰＲ，２０１７、

Ｘ．Ｚｈａｎｇ，Ｘ．Ｚｈｏｕ，Ｍ．Ｌｉｎ，ａｎｄＪ．Ｓｕｎ，「ＳｈｕｆｆｌｅＮｅｔ：ＡｎＥｘｔｒｅｍｅｌｙＥｆｆｉｃｉｅｎｔＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｆｏｒＭｏｂｉｌｅＤｅｖｉｃｅｓ」，ｉｎａｒＸｉｖ：１７０７．０１０８３，２０１７、

Ｋ．Ｈｅ，Ｘ．Ｚｈａｎｇ，Ｓ．Ｒｅｎ，ａｎｄＪ．Ｓｕｎ，「ＤｅｅｐＲｅｓｉｄｕａｌＬｅａｒｎｉｎｇｆｏｒＩｍａｇｅＲｅｃｏｇｎｉｔｉｏｎ」，ｉｎＰｒｏｃ．ｏｆＣＶＰＲ，２０１６、

Ｓ．Ｘｉｅ，Ｒ．Ｇｉｒｓｈｉｃｋ，Ｐ．Ｄｏｌｌａｒ，Ｚ．Ｔｕ，ａｎｄＫ．Ｈｅ，「ＡｇｇｒｅｇａｔｅｄＲｅｓｉｄｕａｌＴｒａｎｓｆｏｒｍａｔｉｏｎｓｆｏｒＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ」，ｉｎＰｒｏｃ．ｏｆＣＶＰＲ，２０１７、

Ａ．Ｇ．Ｈｏｗａｒｄ，Ｍ．Ｚｈｕ，Ｂ．Ｃｈｅｎ，Ｄ．Ｋａｌｅｎｉｃｈｅｎｋｏ，Ｗ．Ｗａｎｇ，Ｔ．Ｗｅｙａｎｄ，Ｍ．Ａｎｄｒｅｅｔｔｏ，ａｎｄＨ．Ａｄａｍ，「Ｍｏｂｉｌｅｎｅｔｓ：ＥｆｆｉｃｉｅｎｔＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＭｏｂｉｌｅＶｉｓｉｏｎＡｐｐｌｉｃａｔｉｏｎｓ」，ｉｎａｒＸｉｖ：１７０４．０４８６１，２０１７、

Ｍ．Ｓａｎｄｌｅｒ，Ａ．Ｈｏｗａｒｄ，Ｍ．Ｚｈｕ，Ａ．Ｚｈｍｏｇｉｎｏｖ，ａｎｄＬ．Ｃｈｅｎ，「ＭｏｂｉｌｅＮｅｔＶ２：ＩｎｖｅｒｔｅｄＲｅｓｉｄｕａｌｓａｎｄＬｉｎｅａｒＢｏｔｔｌｅｎｅｃｋｓ」，ｉｎａｒＸｉｖ：１８０１．０４３８１ｖ３，２０１８、

Ｚ．Ｑｉｎ，Ｚ．Ｚｈａｎｇ，Ｘ．Ｃｈｅｎ，ａｎｄＹ．Ｐｅｎｇ，「ＦＤ－ＭｏｂｉｌｅＮｅｔ：ＩｍｐｒｏｖｅｄＭｏｂｉｌｅＮｅｔｗｉｔｈａＦａｓｔＤｏｗｎｓａｍｐｌｉｎｇＳｔｒａｔｅｇｙ」，ｉｎａｒＸｉｖ：１８０２．０３７５０，２０１８、

Ｌｉａｎｇ－ＣｈｉｅｈＣｈｅｎ，ＧｅｏｒｇｅＰａｐａｎｄｒｅｏｕ，ＦｌｏｒｉａｎＳｃｈｒｏｆｆ，ａｎｄＨａｒｔｗｉｇＡｄａｍ．Ｒｅｔｈｉｎｋｉｎｇａｔｒｏｕｓｃｏｎｖｏｌｕｔｉｏｎｆｏｒｓｅｍａｎｔｉｃｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ．ＣｏＲＲ，ａｂｓ／１７０６．０５５８７，２０１７、

Ｊ．Ｈｕａｎｇ，Ｖ．Ｒａｔｈｏｄ，Ｃ．Ｓｕｎ，Ｍ．Ｚｈｕ，Ａ．Ｋｏｒａｔｔｉｋａｒａ，Ａ．Ｆａｔｈｉ，Ｉ．Ｆｉｓｃｈｅｒ，Ｚ．Ｗｏｊｎａ，Ｙ．Ｓｏｎｇ，Ｓ．Ｇｕａｄａｒｒａｍａ，ｅｔａｌ．Ｓｐｅｅｄ／ａｃｃｕｒａｃｙｔｒａｄｅ－ｏｆｆｓｆｏｒｍｏｄｅｒｎｃｏｎｖｏｌｕｔｉｏｎａｌｏｂｊｅｃｔｄｅｔｅｃｔｏｒｓ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６１１．１００１２，２０１６、

Ｓ．Ｄｉｅｌｅｍａｎ，Ｈ．Ｚｅｎ，Ｋ．Ｓｉｍｏｎｙａｎ，Ｏ．Ｖｉｎｙａｌｓ，Ａ．Ｇｒａｖｅｓ，Ｎ．Ｋａｌｃｈｂｒｅｎｎｅｒ，Ａ．Ｓｅｎｉｏｒ，ａｎｄＫ．Ｋａｖｕｋｃｕｏｇｌｕ，「ＷＡＶＥＮＥＴ：ＡＧＥＮＥＲＡＴＩＶＥＭＯＤＥＬＦＯＲＲＡＷＡＵＤＩＯ」，ａｒＸｉｖ：１６０９．０３４９９，２０１６、

Ｓ．Ｏ．Ａｒｉｋ，Ｍ．Ｃｈｒｚａｎｏｗｓｋｉ，Ａ．Ｃｏａｔｅｓ，Ｇ．Ｄｉａｍｏｓ，Ａ．Ｇｉｂｉａｎｓｋｙ，Ｙ．Ｋａｎｇ，Ｘ．Ｌｉ，Ｊ．Ｍｉｌｌｅｒ，Ａ．Ｎｇ，Ｊ．Ｒａｉｍａｎ，Ｓ．ＳｅｎｇｕｐｔａａｎｄＭ．Ｓｈｏｅｙｂｉ，「ＤＥＥＰＶＯＩＣＥ：ＲＥＡＬ－ＴＩＭＥＮＥＵＲＡＬＴＥＸＴ－ＴＯ－ＳＰＥＥＣＨ」，ａｒＸｉｖ：１７０２．０７８２５，２０１７、

Ｆ．ＹｕａｎｄＶ．Ｋｏｌｔｕｎ，「ＭＵＬＴＩ－ＳＣＡＬＥＣＯＮＴＥＸＴＡＧＧＲＥＧＡＴＩＯＮＢＹＤＩＬＡＴＥＤＣＯＮＶＯＬＵＴＩＯＮＳ」，ａｒＸｉｖ：１５１１．０７１２２，２０１６、

Ｋ．Ｈｅ，Ｘ．Ｚｈａｎｇ，Ｓ．Ｒｅｎ，ａｎｄＪ．Ｓｕｎ，「ＤＥＥＰＲＥＳＩＤＵＡＬＬＥＡＲＮＩＮＧＦＯＲＩＭＡＧＥＲＥＣＯＧＮＩＴＩＯＮ」，ａｒＸｉｖ：１５１２．０３３８５，２０１５、

Ｒ．Ｋ．Ｓｒｉｖａｓｔａｖａ，Ｋ．Ｇｒｅｆｆ，ａｎｄＪ．Ｓｃｈｍｉｄｈｕｂｅｒ，「ＨＩＧＨＷＡＹＮＥＴＷＯＲＫＳ」，ａｒＸｉｖ：１５０５．００３８７，２０１５、

Ｇ．Ｈｕａｎｇ，Ｚ．Ｌｉｕ，Ｌ．ｖａｎｄｅｒＭａａｔｅｎａｎｄＫ．Ｑ．Ｗｅｉｎｂｅｒｇｅｒ，「ＤＥＮＳＥＬＹＣＯＮＮＥＣＴＥＤＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＴＷＯＲＫＳ」，ａｒＸｉｖ：１６０８．０６９９３，２０１７、

Ｃ．Ｓｚｅｇｅｄｙ，Ｗ．Ｌｉｕ，Ｙ．Ｊｉａ，Ｐ．Ｓｅｒｍａｎｅｔ，Ｓ．Ｒｅｅｄ，Ｄ．Ａｎｇｕｅｌｏｖ，Ｄ．Ｅｒｈａｎ，Ｖ．Ｖａｎｈｏｕｃｋｅ，ａｎｄＡ．Ｒａｂｉｎｏｖｉｃｈ，「ＧＯＩＮＧＤＥＥＰＥＲＷＩＴＨＣＯＮＶＯＬＵＴＩＯＮＳ」，ａｒＸｉｖ：１４０９．４８４２，２０１４、

Ｓ．ＩｏｆｆｅａｎｄＣ．Ｓｚｅｇｅｄｙ，「ＢＡＴＣＨＮＯＲＭＡＬＩＺＡＴＩＯＮ：ＡＣＣＥＬＥＲＡＴＩＮＧＤＥＥＰＮＥＴＷＯＲＫＴＲＡＩＮＩＮＧＢＹＲＥＤＵＣＩＮＧＩＮＴＥＲＮＡＬＣＯＶＡＲＩＡＴＥＳＨＩＦＴ」，ａｒＸｉｖ：１５０２．０３１６７，２０１５、

Ｊ．Ｍ．Ｗｏｌｔｅｒｉｎｋ，Ｔ．Ｌｅｉｎｅｒ，Ｍ．Ａ．Ｖｉｅｒｇｅｖｅｒ，ａｎｄＩ．Ｉｓｇｕｍ，「ＤＩＬＡＴＥＤＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＵＲＡＬＮＥＴＷＯＲＫＳＦＯＲＣＡＲＤＩＯＶＡＳＣＵＬＡＲＭＲＳＥＧＭＥＮＴＡＴＩＯＮＩＮＣＯＮＧＥＮＩＴＡＬＨＥＡＲＴＤＩＳＥＡＳＥ」，ａｒＸｉｖ：１７０４．０３６６９，２０１７、

Ｌ．Ｃ．Ｐｉｑｕｅｒａｓ，「ＡＵＴＯＲＥＧＲＥＳＳＩＶＥＭＯＤＥＬＢＡＳＥＤＯＮＡＤＥＥＰＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＵＲＡＬＮＥＴＷＯＲＫＦＯＲＡＵＤＩＯＧＥＮＥＲＡＴＩＯＮ」，ＴａｍｐｅｒｅＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，２０１６、

Ｊ．Ｗｕ，「ＩｎｔｒｏｄｕｃｔｉｏｎｔｏＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ」，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙ，２０１７、

「ＩｌｌｕｍｉｎａＣＭＯＳＣｈｉｐａｎｄＯｎｅ－ＣｈａｎｎｅｌＳＢＳＣｈｅｍｉｓｔｒｙ」，Ｉｌｌｕｍｉｎａ，Ｉｎｃ．２０１８，２ｐａｇｅｓ、

「ｓｋｉｋｉｔ－ｉｍａｇｅ／ｐｅａｋ．ｐｙａｔｍａｓｔｅｒ」、ＧｉｔＨｕｂ，５ｐａｇｅｓ，［２０１８－１１－１６に検索］。インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｓｃｉｋｉｔ－ｉｍａｇｅ／ｓｃｉｋｉｔ－ｉｍａｇｅ／ｂｌｏｂ／ｍａｓｔｅｒ／ｓｋｉｍａｇｅ／ｆｅａｔｕｒｅ／ｐｅａｋ．ｐｙ＃Ｌ２５＞から検索、

「３．３．９．１１．Ｗａｔｅｒｓｈｅｄａｎｄｒａｎｄｏｍｗａｌｋｅｒｆｏｒｓｅｇｍｅｎｔａｔｉｏｎ」，Ｓｃｉｐｙｌｅｃｔｕｒｅｎｏｔｅｓ，２ｐａｇｅｓ，［２０１８－１１－１３に検索］。インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｓｃｉｐｙ－ｌｅｃｔｕｒｅｓ．ｏｒｇ／ｐａｃｋａｇｅｓ／ｓｃｉｋｉｔ－ｉｍａｇｅ／ａｕｔｏ＿ｅｘａｍｐｌｅｓ／ｐｌｏｔ＿ｓｅｇｍｅｎｔａｔｉｏｎｓ．ｈｔｍｌ＞から検索、

Ｍｏｒｄｖｉｎｔｓｅｖ，ＡｌｅｘａｎｄｅｒａｎｄＲｅｖｉｓｉｏｎ，ＡｂｉｄＫ．，「ＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎｗｉｔｈＷａｔｅｒｓｈｅｄＡｌｇｏｒｉｔｈｍ」，Ｒｅｖｉｓｉｏｎ４３５３２８５６，２０１３，６ｐａｇｅｓ［２０１８－１１－１３に検索］。インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ｏｐｅｎｃｖ－ｐｙｔｈｏｎ－ｔｕｔｒｏａｌｓ．ｒｅａｄｔｈｅｄｏｃｓ．ｉｏ／ｅｎ／ｌａｔｅｓｔ／ｐｙ＿ｔｕｔｏｒｉａｌｓ／ｐｙ＿ｉｍｇｐｒｏｃ／ｐｙ＿ｗａｔｅｒｓｈｅｄ／ｐｙ＿ｗａｔｅｒｓｈｅｄ．ｈｔｍｌ＞から検索、

Ｍｚｕｒ，「Ｗａｔｅｒｓｈｅｄ．ｐｙ」，２５Ｏｃｔｏｂｅｒ２０１７，３ｐａｇｅｓ，［２０１８－１１－１３に検索］。インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｍｚｕｒ／ｗａｔｅｒｓｈｅｄ／ｂｌｏｂ／ｍａｓｔｅｒ／Ｗａｔｅｒｓｈｅｄ．ｐｙ＞から検索、

Ｔｈａｋｕｒ，Ｐｒａｔｉｂｈａ，ｅｔ．ａｌ．「ＡＳｕｒｖｅｙｏｆＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎＴｅｃｈｎｉｑｕｅｓ」，ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＲｅｓｅａｒｃｈｉｎＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＲｏｂｏｔｉｃｓ，Ｖｏｌ．２，Ｉｓｓｕｅ．４，Ａｐｒｉｌ２０１４，Ｐｇ．：１５８－１６５、

Ｌｏｎｇ，Ｊｏｎａｔｈａｎ，ｅｔ．ａｌ．，「ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓｆｏｒＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ」，：ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，Ｖｏｌ３９，Ｉｓｓｕｅ４，１Ａｐｒｉｌ２０１７，１０ｐａｇｅｓ、

Ｒｏｎｎｅｂｅｒｇｅｒ，Ｏｌａｆ，ｅｔ．ａｌ．，「Ｕ－ｎｅｔ：Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｂｉｏｍｅｄｉｃａｌｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ．」ＩｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｅｄｉｃａｌｉｍａｇｅｃｏｍｐｕｔｉｎｇａｎｄｃｏｍｐｕｔｅｒ－ａｓｓｉｓｔｅｄｉｎｔｅｒｖｅｎｔｉｏｎ，１８Ｍａｙ２０１５，８ｐａｇｅｓ、

Ｘｉｅ，Ｗ．，ｅｔ．ａｌ．，「Ｍｉｃｒｏｓｃｏｐｙｃｅｌｌｃｏｕｎｔｉｎｇａｎｄｄｅｔｅｃｔｉｏｎｗｉｔｈｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｒｅｇｒｅｓｓｉｏｎｎｅｔｗｏｒｋｓ」，Ｃｏｍｐｕｔｅｒｍｅｔｈｏｄｓｉｎｂｉｏｍｅｃｈａｎｉｃｓａｎｄｂｉｏｍｅｄｉｃａｌｅｎｇｉｎｅｅｒｉｎｇ：Ｉｍａｇｉｎｇ＆Ｖｉｓｕａｌｉｚａｔｉｏｎ，６（３），ｐｐ．２８３－２９２，２０１８、

Ｘｉｅ，Ｙｕａｎｐｕ，ｅｔａｌ．，「Ｂｅｙｏｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎ：ｓｔｒｕｃｔｕｒｅｄｒｅｇｒｅｓｓｉｏｎｆｏｒｒｏｂｕｓｔｃｅｌｌｄｅｔｅｃｔｉｏｎｕｓｉｎｇｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ」，ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｅｄｉｃａｌＩｍａｇｅＣｏｍｐｕｔｉｎｇａｎｄＣｏｍｐｕｔｅｒ－ＡｓｓｉｓｔｅｄＩｎｔｅｒｖｅｎｔｉｏｎ．Ｏｃｔｏｂｅｒ２０１５，１２ｐａｇｅｓ、

Ｓｎｕｖｅｒｉｎｋ，Ｉ．Ａ．Ｆ．、「ＤｅｅｐＬｅａｒｎｉｎｇｆｏｒＰｉｘｅｌｗｉｓｅＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＨｙｐｅｒｓｐｅｃｔｒａｌＩｍａｇｅｓ」、ＭａｓｔｅｒｏｆＳｃｉｅｎｃｅＴｈｅｓｉｓ，ＤｅｌｆｔＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，２３Ｎｏｖｅｍｂｅｒ２０１７、１９ｐａｇｅｓ、

Ｓｈｅｖｃｈｅｎｋｏ，Ａ．、「Ｋｅｒａｓｗｅｉｇｈｔｅｄｃａｔｅｇｏｒｉｃａｌ＿ｃｒｏｓｓｅｎｔｒｏｐｙ」，１ｐａｇｅ，［２０１９－０１－１５に検索］。インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ｇｉｓｔ．ｇｉｔｈｕｂ．ｃｏｍ／ｓｋｅｅｅｔ／ｃａｄ０６ｄ５８４５４８ｆｂ４５ｅｅｃｅ１ｄ４ｅ２８ｃｆａ９８ｂ＞から検索、

ｖａｎｄｅｎＡｓｓｅｍ，Ｄ．Ｃ．Ｆ．、「ＰｒｅｄｉｃｔｉｎｇｐｅｒｉｏｄｉｃＡｎｄｃｈａｏｔｉｃｓｉｇｎａｌｓｕｓｉｎｇＷａｖｅｎｅｔｓ」、ＭａｓｔｅｒｏｆＳｃｉｅｎｃｅＴｈｅｓｉｓ，ＤｅｌｆｔＵｎｉｖｅｒｓｉｔｙＯｆＴｅｃｈｎｏｌｏｇｙ，１８Ａｕｇｕｓｔ２０１７，Ｐａｇｅｓ３－３８、

Ｉ．Ｊ．Ｇｏｏｄｆｅｌｌｏｗ，Ｄ．Ｗａｒｄｅ－Ｆａｒｌｅｙ，Ｍ．Ｍｉｒｚａ，Ａ．Ｃｏｕｒｖｉｌｌｅ，ａｎｄＹ．Ｂｅｎｇｉｏ、「ＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＴＷＯＲＫＳ」、ＤｅｅｐＬｅａｒｎｉｎｇ，ＭＩＴＰｒｅｓｓ，２０１６、及び

Ｊ．Ｇｕ，Ｚ．Ｗａｎｇ，Ｊ．Ｋｕｅｎ，Ｌ．Ｍａ，Ａ．Ｓｈａｈｒｏｕｄｙ，Ｂ．Ｓｈｕａｉ，Ｔ．Ｌｉｕ，Ｘ．Ｗａｎｇ，ａｎｄＧ．Ｗａｎｇ、「ＲＥＣＥＮＴＡＤＶＡＮＣＥＳＩＮＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＵＲＡＬＮＥＴＷＯＲＫＳ」、ａｒＸｉｖ：１５１２．０７１０８，２０１７。

（発明の分野）
本開示の技術は、人工知能コンピュータ及びデジタルデータ処理システム、並びに、知能をエミュレーションするための対応するデータ処理方法及び製品（すなわち、知識ベースのシステム、推論システム及び知識取得システム）に関すると共に、不確実性（例えば、ファジー論理システム）、適応システム、機械学習システム、及び人工ニューラルネットワークを用いて推論するためのシステムを含む。具体的には、開示される技術は、データを分析するための深層畳み込みニューラルネットワークなどの深層ニューラルネットワークを使用することに関する。

このセクションで説明される主題は、単にこのセクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、このセクションで言及した問題、又は背景として提供された主題に関連する問題は、先行技術において以前に認識されていると想定されるべきではない。このセクションの主題は、単に、異なるアプローチを表し、それ自体はまた、特許請求される技術の実施に対応し得る。

深層ニューラルネットワークは、高レベル機能を連続的にモデル化するために、複数の非線形及び複雑な変換層を使用する、人工ニューラルネットワークの類である。深層ニューラルネットワークは、観測された出力と予測出力との間の差を伝達してパラメータを調整する逆伝搬を介してフィードバックを提供する。深層ニューラルネットワークは、大きな訓練データセットの利用可能性、並列分散コンピューティングの能力、及び高度な訓練アルゴリズムと共に進化している。深層ニューラルネットワークは、コンピュータビジョン、音声認識、及び自然言語処理などの多数のドメインにおける主な進歩を促進している。

畳み込みニューラルネットワーク（ＣＮＮ）及び反復ニューラルネットワーク（ＲＮＮ）は、深層ニューラルネットワークの構成要素である。畳み込みニューラルネットワークは、特に、畳み込み層、非線形層、及びプーリング層を含む構造で画像認識に成功してきた。反復ニューラルネットワークは、パーセプトロン、長い短期メモリユニット、及びゲートされた反復単位のような構成単位間の周期的接続を有する入力データの連続的な情報を利用するように設計される。加えて、多くの他の出現深層ニューラルネットワークが、深層時空間ニューラルネットワーク、多次元反復ニューラルネットワーク、及び畳み込み自動エンコーダなどの限定された状況に関して提案されてきた。

深層ニューラルネットワークの訓練の目標は、各層における重みパラメータの最適化であり、このことは、より好適な階層表現がデータから学習され得るように、より単純な特徴を複雑な特徴に徐々に組み合わせる。最適化プロセスの単一サイクルは、以下のように構成される。まず、訓練データセットと仮定すると、前方へのパスは、各層内の出力を順次計算し、ネットワークを通って機能信号を順方向に伝搬する。最終出力層において、客観的な損失関数は、推論された出力と所与のラベルとの間の誤差を測定する。訓練誤差を最小化するために、後方へのパスは、連鎖ルールを使用して、誤差信号を逆伝搬し、ニューラルネットワーク全体の全ての重みに対する勾配を計算する。最後に、確率勾配降下に基づいて最適化アルゴリズムを使用して確率パラメータが更新される。バッチ勾配降下が完全データセットごとにパラメータ更新するのに対し、確率的勾配降下は、データ例の各々の小さいセットについて更新を実行することによって確率的近似値を提供する。いくつかの最適化アルゴリズムは確率的勾配降下に由来する。例えば、ＡｄａｇｒａｄａｎｄＡｄａｍ訓練アルゴリズムは、それぞれ、各パラメータの更新頻度及び勾配のモーメントに基づいて学習率を適応的に修正しながら、確率的勾配降下を実行する。

深層ニューラルネットワークの訓練における別のコア要素は規則化であり、規則化は、過剰適合を回避し、したがって良好な一般化性能を達成することを意図する戦略を指す。例えば、重み減衰は、重みパラメータがより小さい絶対値に収束するように、客観的損失関数にペナルティ項を追加する。ドロップアウトは、訓練中にニューラルネットワークから隠れたユニットをランダムに除去し、可能なサブネットワークの集合体と見なすことができる。ドロップアウトの能力を向上させるために、新たな起動関数、ｍａｘｏｕｔ、及びｒｎｎＤｒｏｐと呼ばれる反復性ニューラルネットワークに対するドロップアウトのバリアントが提案されている。更に、バッチ正規化は、ミニバッチ内の各アクティブ化に関するスカラ特徴の正規化を介した新たな規則化方法を提供し、各々の平均及び分散をパラメータとして学習する。

配列データが多次元及び高次元であると仮定すると、深層ニューラルネットワークは、それらの広範な適用性及び強化された予測能力により、生物情報科学研究のためにかなり有望である。畳み込みニューラルネットワークは、モチーフ発見、病原性変異体の同定、及び遺伝子発現推論などのゲノミクスにおける配列に基づく問題を解決するために採用されている。畳み込みニューラルネットワークは、ＤＮＡを研究するのに特に有用な重み共有戦略を使用するが、これは、短い配列モチーフを捕捉することができ、この配列モチーフは、有意な生物学的機能を有すると推定されるＤＮＡ中の局所的パターンを再現する。畳み込みニューラルネットワークの顕著な特徴は、畳み込みフィルタの使用である。

精巧に設計され、手動で巧妙に作り上げられた特徴に基づく従来の分類アプローチとは異なり、畳み込みフィルタは、知識の情報表現に生入力データをマッピングするプロセスに類似した特徴の適応学習を実行する。この意味では、畳み込みフィルタは、そのようなフィルタのセットが入力内の関連するパターンを認識し、訓練手順中にそれ自体を更新することができるため、一連のモチーフスキャナーとして機能する。反復ニューラルネットワークは、タンパク質又はＤＮＡ配列などの様々な長さの連続的データにおける長距離依存性を捉えることができる。

したがって、テンプレートの生成及びベースコールのための、理にかなった深層学習ベースの枠組みを使用する機会が生じる。

ハイスループット技術の時代では、努力ごとに最も低いコストで解釈可能なデータの最高収率を蓄積することは、重大な課題を残している。クラスター形成のためにブリッジ増幅を利用するものなどの核酸配列決定のクラスターベースの方法は、核酸配列決定のスループットを増加させる目的に有益な貢献をしている。これらのクラスターベースの方法は、固体支持体上に固定化された核酸の密集した集団を配列決定することに依存し、典型的には、固体支持体上の別個の場所に位置する複数のクラスターを同時に配列決定する過程で生成される光信号を抑制するための画像解析ソフトウェアの使用を伴う。

しかしながら、このような固相核酸クラスターベースの配列決定技術は、達成することができるスループットの量を制限する相当な障害に直面している。例えば、クラスターベースの配列決定方法では、空間的に分解されるには互いに物理的に近接し過ぎる、又は実際には、固体支持体上で物理的に重なり合う２つ又はそれ以上のクラスターの核酸配列を決定することは障害物をもたらす可能性がある。例えば、現在の画像解析ソフトウェアは、２つの重複クラスターのうちのどれから光信号が発せられたかを判定するための貴重な時間及び計算リソースを必要とする場合がある。結果として、得られ得る核酸配列情報の量及び／又は質に関して、様々な検出プラットフォームにとって妥協が不可避である。

高密度核酸凝集体ベースのゲノミクス法は、ゲノム分析の他の領域にも同様に延在する。例えば、核酸クラスターベースのゲノミクスは、配列決定用途、診断及びスクリーニング、遺伝子発現分析、エピジェネティクス分析、多型の遺伝分析などに使用することができる。これらの核酸クラスターベースのゲノミクス技術のそれぞれは、厳密に近接して又は空間的に重複する核酸クラスターから生成されたデータを分解する能力がない場合に制限される。

明らかに、ゲノミクス（例えば、任意の及び全ての動物、植物、微生物又は他の生物学的種又は集団のゲノム特性評価のための）、薬理ゲノミクス、トランスクリプトミクス、診断、予後、生物医学的リスク評価、臨床及び研究遺伝学、個人向け医療、薬物有効性及び薬物相互作用評価、獣医医学、農業、進化、及び生物学的研究、水性培養、林業、海洋調査、生態学的管理、及び環境管理、並びに他の目的を含む、様々な用途で迅速かつ費用効果の高い方法で取得できる核酸配列データの質と量を向上させる必要がある。

開示される技術は、ハイスループット核酸配列決定技術におけるスループットのレベルを増加させることを含めて、これら及び同様のニーズに対処するニューラルネットワークベースの方法及びシステムを提供すると共に、他の関連する利点を提供する。

特許又は出願ファイルは、カラーで創作された少なくとも１つの図面を含む。カラー図面（単数又は複数）を有するこの特許又は特許出願公開のコピーは、必要な料金の要求及び支払いの際に、庁によって提供される。カラー図面はまた、補助コンテンツタブを介してＰＡＩＲ（ｐａｔｅｎｔａｐｐｌｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ：特許出願情報検索）で利用可能であってもよい。

図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺通りではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明では、開示される技術の様々な実施態様が、以下の図面を参照して説明される。

一実施態様による、ベースコールするためにＲＴＡベースコーラーによって使用される処理段階を示す。

開示されたニューラルネットワークベースのベースコーラーを使用してベースコールする一実施態様を示す。

ニューラルネットワークベースのテンプレート生成器の出力から識別されたクラスター中心の場所／位置情報をサブピクセルドメインからピクセルドメインに変換する一実施態様である。

サイクル固有及び画像チャネル固有の変換を使用して参照クラスター中心からいわゆる「変換されたクラスター中心」を導き出す一実施態様である。

ニューラルネットワークベースのベースコーラーに供給される入力データの一部である画像パッチを示す。

単一のターゲットクラスターがニューラルネットワークベースのベースコーラーによってベースコールされているときに距離チャネルのための距離値を決定する一実施態様を示す。

ピクセルとターゲットクラスターとの間で計算される距離値をピクセル単位で符号化する一実施態様を示す。

複数のターゲットクラスターがニューラルネットワークベースのベースコーラーによって同時にベースコールされているときに距離チャネルのための距離値を決定する一実施態様を示す。

ターゲットクラスターのそれぞれについて、ピクセル中心－最も近いクラスター中心間の距離に基づいて決定されたいくつかの最も近いピクセルを示す。

ピクセルとクラスターのうちの最も近いクラスターとの間で計算される最小距離値をピクセル単位で符号化する一実施態様を示す。

本明細書において「クラスター形状データ」と称される、ピクセル－クラスター間の分類／帰属／カテゴリー化を使用する一実施態様を示す。

クラスター形状データを使用して距離値を計算する一実施態様を示す。

ピクセルと割り当てられたクラスターとの間で計算される距離値をピクセル単位で符号化する一実施態様を示す。

異なる配列決定サイクルのためのデータの処理を分離するために使用されるニューラルネットワークベースのベースコーラーの特殊化したアーキテクチャの一実施態様を示す。

分離された畳み込みの一実施態様を示す。

組み合わせ畳み込みの一実施態様を示す。

組み合わせ畳み込みの別の一実施態様を示す。

各畳み込み層が畳み込みフィルタのバンクを有する、ニューラルネットワークベースのベースコーラーの畳み込み層の一実施態様を示す。

画像チャネルを補足するスケーリングチャネルの２つの構成を示す。

赤色画像及び緑色画像を生成する単一の配列決定サイクルのための入力データの一実施態様を示す。

画像チャネルから生成された特徴マップに組み込まれる加法的バイアスを供給する距離チャネルの一実施態様を示す。

単一のターゲットクラスターをベースコールする一実施態様を示す。単一のターゲットクラスターをベースコールする一実施態様を示す。単一のターゲットクラスターをベースコールする一実施態様を示す。

複数のターゲットクラスターに同時にベースコールする一実施態様を示す。

複数の継続的な配列決定サイクルにおける複数のターゲットクラスターを同時にベースコールし、それによって複数のターゲットクラスターのそれぞれのためのベースコール配列を同時に生成する一実施態様を示す。

単一のクラスターのベースコールの実施態様のための次元数ダイアグラムを示す。

複数のクラスター、単一の配列決定サイクルのベースコールの実施態様のための次元数ダイアグラムを示す。

複数のクラスター、複数の配列決定サイクルのベースコールの実施態様のための次元数ダイアグラムを示す。

多重サイクル入力データの例示的なアレイ化された入力構成を示す。

多重サイクル入力データの例示的なスタック化された入力構成を示す。

ベースコールされているターゲットクラスターの中心を中心ピクセルの中心に配置するように画像パッチのピクセルをリフレームする一実施態様を示す。

（ｉ）中心ピクセルの中心がターゲットクラスターの中心と一致し、（ｉｉ）非中心ピクセルがターゲットクラスターの中心から等距離である、別の例示的なリフレームされた／シフトされた画像パッチを示す。

標準的な畳み込みニューラルネットワーク及びリフレームされた入力を使用して、現在の配列決定サイクルにおける単一のターゲットクラスターをベースコールする一実施態様を示す。

標準的な畳み込みニューラルネットワーク及び整列された入力を使用して、現在の配列決定サイクルにおける複数のターゲットクラスターをベースコールする一実施態様を示す。

標準的な畳み込みニューラルネットワーク及び整列された入力を使用して、複数の配列決定サイクルにおける複数のターゲットクラスターをベースコールする一実施態様を示す。

ニューラルネットワークベースのベースコーラーを訓練する一実施態様を示す。

ニューラルネットワークベースのベースコーラーとして使用されるハイブリッドニューラルネットワークの一実施態様を示す。

現在の隠れ状態表現を生成するためにハイブリッドニューラルネットワークの反復モジュールによって使用される３Ｄ畳み込みの一実施態様を示す。

ベースコールされる一連のｔ個の配列決定サイクルのうちの単一の配列決定サイクルのためのサイクルごとの入力データを畳み込みモジュールの畳み込み層のカスケードによって処理する一実施態様を示す。

単一の配列決定サイクルのサイクルごとの入力データを、畳み込みモジュールの畳み込み層のカスケードによって生成された対応する畳み込み表現と混合する一実施態様を示す。

継続的な配列決定サイクルの平坦化された混合表現をスタックとして配列する一実施態様を示す。

図３４のスタックに順方向及び逆方向での３Ｄ畳み込みの反復適用を受けさせ、一連内のｔ個の配列決定サイクルのそれぞれにおけるクラスターのそれぞれのためのベースコールを生成する一実施態様を示す。

３Ｄ畳み込みを適用する長・短期記憶（ＬＳＴＭ）ネットワークの入力ゲート、活性化ゲート、忘却ゲート、及び出力ゲートによって３Ｄ入力体積ｘ（ｔ）（平坦化された混合表現のグループを含む）を処理する一実施態様を示す。ＬＳＴＭネットワークは、ハイブリッドニューラルネットワークの反復モジュールの一部である。

ニューラルネットワークベースのベースコーラーを訓練するために使用される訓練データ内のトリヌクレオチド（３量体）を平衡化する一実施態様を示す。

ＲＴＡベースコーラーのベースコール精度をニューラルネットワークベースのベースコーラーと比較する。

ＲＴＡベースコーラーのタイル間一般化を同じタイル上でのニューラルネットワークベースのベースコーラーのものと比較する。

ＲＴＡベースコーラーのタイル間一般化を、同じタイル上での、及び異なるタイル上でのニューラルネットワークベースのベースコーラーのものと比較する。

同様に、ＲＴＡベースコーラーのタイル間一般化を異なるタイル上でのニューラルネットワークベースのベースコーラーのものと比較する。

ニューラルネットワークベースのベースコーラーへの入力として供給される異なるサイズの画像パッチが、ベースコール精度にどのような変化をもたらすかを示す。

Ａ．ｂａｕｍａｎｎｉ及びＥ．ｃｏｌｉからの訓練データ上でのニューラルネットワークベースのベースコーラーのレーン間一般化を示す。Ａ．ｂａｕｍａｎｎｉ及びＥ．ｃｏｌｉからの訓練データ上でのニューラルネットワークベースのベースコーラーのレーン間一般化を示す。Ａ．ｂａｕｍａｎｎｉ及びＥ．ｃｏｌｉからの訓練データ上でのニューラルネットワークベースのベースコーラーのレーン間一般化を示す。Ａ．ｂａｕｍａｎｎｉ及びＥ．ｃｏｌｉからの訓練データ上でのニューラルネットワークベースのベースコーラーのレーン間一般化を示す。

図４２、図４３、図４４、及び図４５に関して上述したレーン間一般化のための誤りプロファイルを示す。

図４６の誤りプロファイルによって検出された誤りの発生源が緑色チャネルにおける低いクラスター強度に帰属することを示す。

２回の配列決定実行（リード１及びリード２）についてのＲＴＡベースコーラー及びニューラルネットワークベースのベースコーラーの誤りプロファイルを比較する。

４つの異なる器具上でのニューラルネットワークベースのベースコーラーの実行間一般化を示す。

同じ器具上で実施された４つの異なる実行上でのニューラルネットワークベースのベースコーラーの実行間一般化を示す。

ニューラルネットワークベースのベースコーラーを訓練するために使用される訓練データのゲノム統計を示す。

ニューラルネットワークベースのベースコーラーを訓練するために使用される訓練データのゲノムコンテキストを示す。

ロングリード（例えば、２×２５０）のベースコールにおけるニューラルネットワークベースのベースコーラーのベースコール精度を示す。

ニューラルネットワークベースのベースコーラーが、画像パッチ間にわたって中央クラスターピクセル及びその隣接ピクセルにどのように着目するかの一実施態様を示す。

一実施態様による、ニューラルネットワークベースのベースコーラーを訓練及び実行するために使用される様々なハードウェア構成要素及び構成を示す。他の実施態様では、異なるハードウェア構成要素及び構成が使用される。

ニューラルネットワークベースのベースコーラーを使用して実施することができる様々な配列決定タスクを示す。

ｔ分布型確率的近傍埋め込み法（ｔ－ＳＮＥ）によって可視化された散布図であり、ニューラルネットワークベースのベースコーラーのベースコール結果を表現する。

品質スコアリングのためにニューラルネットワークベースのベースコーラーによって作成されたベースコール信頼確率を選択する一実施態様を示す。

ニューラルネットワークベースの品質スコアリングの一実施態様を示す。

品質スコアとニューラルネットワークベースのベースコーラーによって行われたベースコール信頼性予測との間の対応の一実施態様を示す。品質スコアとニューラルネットワークベースのベースコーラーによって行われたベースコール信頼性予測との間の対応の一実施態様を示す。

推論中にニューラルネットワークベースのベースコーラーによって行われたベースコール信頼性予測から品質スコアを推論する一実施態様を示す。

配列決定画像から導出された入力データを処理し、品質指標を直接生成するように、ニューラルネットワークベースの品質スコアラーを訓練する一実施態様を示す。

推論中にニューラルネットワークベースの品質スコアラーの出力として品質指標を直接生成する一実施態様を示す。

配列決定システムの一実施態様を示す。配列決定システムは、構成可能なプロセッサを含む。配列決定システムの一実施態様を示す。配列決定システムは、構成可能なプロセッサを含む。

ベースコールセンサー出力など、配列決定システムからのセンサーデータの分析のためのシステムの簡略ブロック図である。

ホストプロセッサによって実行される実行時プログラムの機能を含む、ベースコール動作の態様を示す簡略図である。

図６３Ｃに示されるものなどの構成可能プロセッサの構成の簡略図である。

本明細書に開示される技術を実施するために、図６３Ａの配列決定システムによって使用され得るコンピュータシステムである。

データ正規化及びデータ増強を含むことができる、データ前処理の異なる実施態様を示す。

ニューラルネットワークベースのベースコーラーが、細菌データ上で訓練され、ヒトデータ上で試験されるとき（細菌データ及びヒトデータは同じアッセイを共有する（例えば、両方ともイントロンデータを含む））、図６６のデータ正規化技術（ＤｅｅｐＲＴＡ（ｎｏｒｍ））及びデータ増強技術（ＤｅｅｐＲＴＡ（ａｕｇｍｅｎｔ））がベースコール誤り率を減少させることを示す。

ニューラルネットワークベースのベースコーラーが、非エクソンデータ（例えば、イントロンデータ）上で訓練され、エクソンデータ上で試験されるとき、図６６のデータ正規化技術（ＤｅｅｐＲＴＡ（ｎｏｒｍ））及びデータ増強技術（ＤｅｅｐＲＴＡ（ａｕｇｍｅｎｔ））がベースコール誤り率を減少させることを示す。

以下の説明は、開示された技術を当業者が作製及び使用することを可能にするために提示され、特定の用途及びその要件に関連して提供される。開示される実施態様に対する様々な修正は、当業者には容易に明らかとなり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、他の実施態様及び用途に適用され得る。したがって、開示される技術は、示される実施態様に限定されることを意図するものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。
導入

塩基がデジタル画像のシーケンスで分類されるとき、ニューラルネットワークは、過去及び将来のサイクルの画像チャネルと共に現在のサイクル内の複数の画像チャネルを処理する。クラスター内において、ストランドのいくつかは、合成の主過程より先に又は遅れて進み得、この位相の外れた標識付けは、プレフェージング（プレフェージング）又はフェージング（phasing）として知られている。低率のプレフェージング及びポストフェージング（post-phasing）が経験的に観察された場合、プレフェージング及びポストフェージングからもたらされる信号内のノイズのほとんど全ては、現在、過去及び将来のサイクルで、すなわち、３つのサイクルだけでデジタル画像を処理するニューラルネットワークによって処理することができる。

現在のサイクル内のデジタル画像チャネルの間では、画像をサイクル内で整列する慎重なレジストレーションが、正確な塩基分類に強く寄与する。誤りの発生源の中でも、波長及び不一致照明源の組み合わせは、測定されたクラスター中心位置に小さい補正可能な差を生じさせる。画像タイル全体にわたってクラスター中心を正確に位置合わせするために、並進、回転、及びスケーリングを伴う、一般的なアフィン変換を使用することができる。アフィン変換は、画像データをリフレームするために及びクラスター中心についてオフセットを解消するために使用することができる。

画像データをリフレームすることは、典型的には、アフィン変換を適用することによって、画像データを補間することを意味する。リフレームすることにより、対象のクラスター中心をピクセルパッチの中心ピクセルの中央に置くことができる。又は、画像収集時のジッタ及び他の不一致を克服するために、画像をテンプレートと位置合わせすることができる。リフレームすることは、ピクセルパッチ内の全てのピクセルの強度値を調整することを含む。バイリニア及びバイキュービック補間並びに重み付け面積調整は、代替的な方策である。

いくつかの実施態様では、クラスター中心座標を、追加の画像チャネルとしてニューラルネットワークに供給することができる。

距離信号もまた、塩基分類に寄与することができる。いくつかのタイプの距離信号は、クラスター中心からの領域の分離を反映する。最も強い光信号は、クラスター中心と一致すると見なされる。クラスター周辺部に沿った光信号は、近くのクラスターからの漂遊信号を含むことがある。分類は、信号成分の寄与がクラスター中心からのその分離に従って減衰されると、より正確であることが観察されている。機能する距離信号としては、単一クラスター距離チャネル、マルチクラスター距離チャネル、及びマルチクラスター形状ベース距離チャネルが挙げられる。単一クラスター距離チャネルは、中心ピクセル内にクラスター中心を有するパッチに適用される。そのとき、パッチ内の全ての領域の距離は、中心ピクセル内のクラスター中心からの距離である。中心ピクセルと同じクラスターに属していないピクセルには、計算した距離を与える代わりに、背景としてフラグ付けすることができる。マルチクラスター距離チャネルは、各領域から最も近いクラスター中心までの距離を事前計算する。これは、領域を誤ったクラスター中心に接続する可能性を有するが、その可能性は低いものである。マルチクラスター形状ベース距離チャネルは、領域（サブピクセル又はピクセル）を、同じ塩基分類を生成するピクセル中心に隣接領域を介して関連付ける。これにより、いくらかの計算コストで、誤ったピクセルまでの距離を測定する可能性が回避される。距離信号に対するマルチクラスター及びマルチクラスター形状ベースのアプローチは、事前計算、及び画像内の複数のクラスターとの併用の対象となるという利点を有する。

形状情報は、ノイズから信号を分離し、信号対ノイズ比を改善するために、ニューラルネットワークによって使用することができる。上記の考察では、領域分類への及び距離チャネル情報を供給することへのいくつかのアプローチが識別された。いずれのアプローチにおいても、領域は、クラスターエッジを画定するために、背景として（クラスターの一部でないものとして）マーキングすることができる。ニューラルネットワークは、結果として得られる不規則なクラスター形状に関する情報を利用するように訓練することができる。距離情報及び背景分類は、組み合わせても、別個に使用してもよい。当接するクラスターからの信号を分離することは、クラスター密度が増加すると、ますます重要になる。

並列処理の規模を増大させるための１つの方向性は、撮像媒体上のクラスター密度を増加させることである。密度を増加させることは、隣接するクラスターを有するクラスターを読み取るときに背景ノイズを増加させるという欠点を有する。任意のパッチ（例えば、３×３ピクセル）の代わりに、形状データを使用すると、例えば、クラスター密度が増加するのに応じて信号分離を維持するのに役立つ。

開示される技術の一態様を適用すると、塩基分類スコアもまた、品質を予測するために活用することができる。開示される技術は、分類スコアを従来のＳａｎｇｅｒ又はＰｈｒｅｄ品質Ｑ－スコアと直接又は予測モデルを介して相関させることを含む。Ｑ２０、Ｑ３０又はＱ４０などのスコアは、Ｑ＝－１０ｌｏｇ_１０Ｐによって、塩基分類誤り確率に対数的に関係付けられる。Ｑスコアとのクラススコアの相関は、多出力ニューラルネットワーク又は多変量回帰分析を使用して実施することができる。品質スコアのリアルタイム計算の利点は、塩基分類中に、欠陥のある配列決定実行を早期に終了させることができることである。出願人は、分析シーケンスが全体の８分の１～４分の１まで進んだときに、実行を終了させる時折の（まれな）決定が行われ得ることを見出した。終了させる決定は、５０サイクル後又は２５～７５サイクル後に行うことができる。別の方法で３００～１０００サイクルを実行する連続プロセスでは、早期の終了は、実質的なリソースの節約をもたらす。

特殊化した畳み込みニューラルネットワーク（ＣＮＮ）アーキテクチャを使用して、複数のサイクルにわたって塩基を分類することができる。１つの特殊化は、初期層の処理中でのデジタル画像チャネル間の分離を含む。畳み込みフィルタスタックは、処理をサイクル間で分離するように構造化することができ、異なるサイクルからのデジタル画像セットの間のクロストークを防止する。処理をサイクル間で分離する動機は、異なるサイクルにおいて撮影された画像が残差レジストレーション誤差を有し、したがって位置がずれていて、互いに対してランダムな並進オフセットを有することである。これは、センサーの運動段階の動きの有限の精度に起因し、また、異なる周波数チャネルで撮影された画像は、異なる光路及び波長を有するためでもある。

継続的なサイクルからの画像セットを使用する動機は、特定のサイクルにおける信号へのプレフェージング及びポストフェージングの寄与が、２次の寄与であることである。したがって、畳み込みニューラルネットワークが下位層のデジタル画像セットの畳み込みを画像収集サイクル間で構造的に分離することは有用であり得る。

畳み込みニューラルネットワーク構造はまた、クラスター化に関する情報の取り扱いにおいて特殊化することもできる。クラスター中心及び／又は形状のためのテンプレートは、畳み込みニューラルネットワークがデジタル画像データと組み合わせる、追加情報を提供する。クラスター中心の分類及び距離データは、サイクル間にわたって繰り返し適用することができる。

畳み込みニューラルネットワークは、画像フィールド内の複数のクラスターを分類するように構造化することができる。複数のクラスターが分類されるとき、ピクセル又はサブピクセルのための距離チャネルは、ピクセル又はサブピクセルが属する、最も近いクラスター中心又は隣接するクラスター中心のいずれかに対して相対的な距離情報をよりコンパクトに含むことができる。あるいは、各ピクセル若しくはサブピクセルのために、又は少なくとも、クラスター中心を含む各ピクセルのために、大きな距離ベクトルを供給することができ、これにより、所与のピクセルのためのコンテキストである、クラスター中心から全ての他のピクセルまでの完全な距離情報を与える。

ベースコールとのテンプレート生成のいくつかの組み合わせは、面積重み付けの変動を使用して距離チャネルの代わりとなることができる。ここからは、距離チャネルの代わりに、テンプレート生成器の出力が、どのように直接使用され得るかについて説明する。

ピクセル値修正へのテンプレート画像の直接適用に影響を及ぼす３つの検討事項、すなわち、画像セットがピクセル又はサブピクセルドメイン内で処理されるかどうか、いずれのドメインにおいても、面積重みがどのように計算されるか、及びサブピクセルドメインにおいて、補間された強度値を修正するためにテンプレート画像をマスクとして適用すること、について説明する。

ピクセルドメイン内で塩基分類を実行することは、アップサンプリングから生じる計算量の増加（１６倍など）を必要としない利点を有する。ピクセルドメインでは、畳み込みの最上位層であっても、不要な計算を解消するための論理を追加する代わりに、収集されない計算の実行を正当化するのに十分なクラスター密度を有し得る。まず、ピクセルドメインにおいて距離チャネルなしでテンプレート画像データを直接使用する実施例から始める。

いくつかの実施態様では、分類は、特定のクラスターに焦点を合わせる。これらの例では、クラスターの周辺部上のピクセルは、どの隣接するクラスターが分類の焦点であるかに応じて、異なる修正された強度値を有し得る。サブピクセルドメイン内のテンプレート画像は、重複ピクセルが２つの異なるクラスターに強度値を寄与することを示すことができる。本明細書において、２つ以上の隣接する又は当接するクラスターが両方とも同じ光学ピクセルに重なっているとき、この光学ピクセルを「重複ピクセル」と称し、両方のクラスターが、この光学ピクセルからの強度読み取り値に寄与する。流域解析（雨流を稜線において異なる流域に分けることに因んで名付けられた）は、当接するクラスターでさえも分離するために適用することができる。データがクラスターごとの分類のために受信されるとき、テンプレート画像は、クラスターの周辺部に沿った重複ピクセルのための強度データを修正するために使用することができる。重複ピクセルは、どのクラスターが分類の焦点であるかに応じて、異なる修正された強度を有することができる。

ピクセルの修正された強度は、ホームクラスター（すなわち、そのピクセルが属するクラスター又はそのピクセルによって強度発光が主に表現されるクラスター）への重複ピクセル内のサブピクセル寄与に基づいて、アウェイクラスター（すなわち、そのピクセルによって強度発光が表現される非ホームクラスター）とは対照的に、低減させることができる。５つのサブピクセルがホームクラスターの一部であり、２つのサブピクセルがアウェイクラスターの一部であると仮定する。そのとき、７つのサブピクセルは、ホーム又はアウェイクラスターの強度に寄与する。ホームクラスターに焦点がある間、一実施態様では、重複ピクセルは、１６個のサブピクセルのうちの７つがホーム又はアウェイクラスターの強度に寄与するため、７／１６で強度を低減させられる。別の実施態様では、強度は、サブピクセルの総数によって除したホームクラスターに寄与するサブピクセルの面積に基づいて、５／１６で低減させられる。第３の実施態様では、強度は、寄与するサブピクセルの総面積によって除したホームクラスターに寄与するサブピクセルの面積に基づいて、５／７で低減させられる。後者の２つの計算は、焦点がアウェイクラスターに移ると変化し、分子に「２」を有する分数をもたらす。

当然ながら、距離チャネルがクラスター形状のサブピクセルマップと共に考慮されている場合、強度の更なる低減を適用することができる。

分類の焦点であるクラスターのためのピクセル強度がテンプレート画像を使用して修正されると、修正されたピクセル値は、ニューラルネットワークベースの分類器の層によって畳み込みされて、修正された画像を生成する。修正された画像は、継続的な配列決定サイクルにおいて塩基を分類するために使用される。

あるいは、ピクセルドメイン内の分類は、画像のチャンク内の全てのピクセル又は全てのクラスターについて並列に進行することができる。このシナリオでは、中間計算の再利用性を保証するために、ピクセル値の１つの修正のみを適用することができる。上記の分数のいずれも、強度のより小さい又はより大きい減衰が望まれるかどうかに応じて、ピクセル強度を変更するために使用することができる。

画像チャンクのためのピクセル強度がテンプレート画像を使用して修正されると、ピクセル及び周囲コンテキストは、ニューラルネットワークベースの分類器の層によって畳み込みされて、修正された画像を生成することができる。画像チャンク上で畳み込みを実行することにより、共有されたコンテキストを有するピクセル間での中間計算の再利用が可能になる。修正された画像は、継続的な配列決定サイクルにおいて塩基を分類するために使用される。

この説明は、サブピクセルドメイン内での面積重みの適用のために並列化することができる。この並列とは、個々のサブピクセルについて重みを計算することができるということである。重みは、光学ピクセルの異なるサブピクセル部分について同じになり得るが、必ずしもそうである必要はない。重複ピクセルのサブピクセルがそれぞれ５つ及び２つである、ホーム及びアウェイクラスターの上記のシナリオを繰り返すと、ホームクラスターに属するサブピクセルへの強度の割り当ては、ピクセル強度の７／１６、５／１６又は５／７とすることができる。この場合もやはり、距離チャネルがクラスター形状のサブピクセルマップと共に考慮されている場合、強度の更なる低減を適用することができる。

画像チャンクのためのピクセル強度がテンプレート画像を使用して修正されると、サブピクセル及び周囲コンテキストは、ニューラルネットワークベースの分類器の層によって畳み込みされて、修正された画像を生成することができる。画像チャンク上で畳み込みを実行することにより、共有されたコンテキストを有するサブピクセル間での中間計算の再利用が可能になる。修正された画像は、継続的な配列決定サイクルにおいて塩基を分類するために使用される。

別の代替例は、サブピクセルドメイン内に補間された画像データにテンプレート画像をサブピクセルドメイン内で２値マスクとして適用することである。テンプレート画像は、クラスター間の背景ピクセルを必要とするか、又は異なるクラスターからのサブピクセルが当接することを可能にするかのいずれかになるように配置することができる。テンプレート画像は、マスクとして適用することができる。このマスクは、補間されたピクセルがテンプレート画像内で背景として分類されると、その補間されたピクセルが、補間によって割り当てられた値を保持するか、又は背景値（例えば、ゼロ）を受け入れるかどうかを決定する。

この場合もやはり、画像チャンクのためのピクセル強度がテンプレート画像を使用してマスクされると、サブピクセル及び周囲コンテキストは、ニューラルネットワークベースの分類器の層によって畳み込みされて、修正された画像を生成することができる。画像チャンク上で畳み込みを実行することにより、共有されたコンテキストを有するサブピクセル間での中間計算の再利用が可能になる。修正された画像は、継続的な配列決定サイクルにおいて塩基を分類するために使用される。

開示される技術の特徴は、共有されたコンテキスト内で任意の数のクラスターを分類し、中間計算を再利用するために、組み合わせることができる。光学ピクセル解像度において、一実施態様では、約１０パーセントのピクセルが、分類されるクラスター中心を保持する。レガシーシステムでは、不規則な形状のクラスターが観察されると、３×３個の光学ピクセルが、クラスター中心のための潜在的な信号寄与因子として分析のためにグループ化された。最上位の畳み込み層から離れた１つの３×３フィルタであっても、クラスター密度は、実質的に半分よりも多くの光学ピクセルからの光信号をクラスター中心のピクセル内にロールアップする傾向にある。スーパーサンプリングされた解像度においてのみ、最上位の畳み込み層のためのクラスター中心密度は、１パーセント未満に低下する。

共有されたコンテキストは、いくつかの実施態様ではかなり大きい。例えば、１５×１５光学ピクセルコンテキストが、正確な塩基分類に寄与し得る。同等の４倍アップサンプリングされたコンテキストは、６０×６０個のサブピクセルになるであろう。この広大なコンテキストは、ニューラルネットワークが撮像中に不均一な照明及び背景の影響を認識するのに役立つ。

開示される技術は、テンプレート入力内のクラスター境界をデジタル画像入力内で検出された境界と組み合わせるために、下位の畳み込み層において小さなフィルタを使用する。クラスター境界は、ニューラルネットワークが背景条件から信号を分離し、画像処理を背景に対して正規化するのを助ける。

開示された技術は、中間計算を実質的に再利用する。２０～２５個のクラスター中心が１５×１５個の光学ピクセルのコンテキスト領域内に現れると仮定する。そのとき、第１の層の畳み込みが、ブロック単位の畳み込みロールアップにおいて２０～２５回再利用される。再利用率は、最後から２番目の層に至るまで層ごとに低減されていき、最後から２番目の層において、光学解像度における再利用率が初めて１倍未満に低下する。

複数の畳み込み層からのブロック単位のロールアップ訓練及び推論は、ピクセル又はサブピクセルのブロックに継続的なロールアップを適用する。ブロック周辺部の周囲には、第１のデータブロックのロールアップ中に使用されるデータがロールアップの第２のブロックと重なっており、ロールアップの第２のブロックのために再利用することができる、重複ゾーンが存在する。ブロック内には、重複ゾーンによって囲まれた中心領域において、ロールアップすることができ、かつ再利用することができる、ピクセル値及び中間計算が存在する。重複ゾーンを用いると、コンテキストフィールドのサイズを（例えば３×３フィルタの適用によって１５×１５から１３×１３に）漸進的に低減させる畳み込み結果は、畳み込みされた値を保持する同じメモリブロック内に書き込むことができ、ブロック内での基礎計算の再利用を損なうことなくメモリを節約する。より大きなブロックでは、重複ゾーン内の中間計算を共有することは、より少ないリソースを必要とする。より小さいブロックでは、複数のブロックを並列に計算して、重複ゾーン内の中間計算を共有することが可能であり得る。

より大きなフィルタ及び拡張は、下位の畳み込み層がテンプレート及び／又はデジタル画像データ内のクラスター境界に反応した後、畳み込み層の数を低減し、これは、分類を損なうことなく速度計算であり得る。

テンプレートデータのための入力チャネルは、デジタル画像フィールド内の複数のクラスター中心を分類することと一貫性のあるテンプレート構造体を作製するように選択することができる。上記の２つの代替例は、この一貫性基準、すなわち、コンテキスト全体にわたってリフレームし、距離マッピングすることを満たさない。リフレームすることは、１つのクラスターのみの中心を光学ピクセルの中心に配置する。複数のクラスターを分類するためにより良好であるのは、クラスター中心を保持していると分類されるピクセルのために中心オフセットを供給することである。

距離マッピングは、提供される場合、全てのピクセルがそれぞれ独自の距離マップをコンテキスト全体にわたって有しない限り、コンテキスト領域全体にわたって実行することは困難である。より単純な距離マップは、デジタル画像入力ブロックから複数のクラスターを分類するための有用な一貫性を提供する。

ニューラルネットワークは、クラスターの境界におけるピクセル又はサブピクセルのテンプレート内の分類から学習することができ、そのため、距離チャネルは、クラスター中心オフセットチャネルを伴った、２値又は３値分類を供給するテンプレートに置き換えることができる。距離マップは、使用される場合、ピクセル（又はサブピクセル）が属するクラスター中心からのピクセルの距離を与えることができる。又は距離マップは、最も近いクラスター中心までの距離を与えることができる。距離マップは、背景ピクセルに割り当てられたフラグ値で２値分類を符号化することができ、又はピクセル分類からの別個のチャネルとすることができる。クラスター中心オフセットと組み合わされると、距離マップは、３値分類を符号化することができる。いくつかの実施態様、特に１又は２ビットでピクセル分類を符号化する実施態様では、少なくとも開発中に、ピクセル分類のために及び距離のために別個のチャネルを使用することが望ましい場合がある。

開示される技術は、上位層内でいくらかの計算リソースを節約するために計算の低減を含むことができる。クラスター中心オフセットチャネル又は３値分類マップは、ピクセル中心の最終分類に寄与しないピクセル畳み込みの中心を識別するために使用することができる。多くのハードウェア／ソフトウェア実装では、推論中にルックアップを実行し、畳み込みロールアップをスキップすることは、更に９つの乗算及び８つの加算を実行して３×３フィルタを適用するよりも、上位層において効率を向上させることができる。並列実行のために計算をパイプライン処理するカスタムハードウェアでは、全てのピクセルをパイプライン内でそれぞれ分類することができる。そのとき、クラスター中心マップは、クラスター中心と一致するピクセルのみについて結果を収集するために、それらのピクセルに対して最終分類のみが所望されることから、最終の畳み込み後に使用することができる。この場合もやはり、光学ピクセルドメイン内では、現在観察されているクラスター密度において、約１０パーセントのピクセルのためのロールアップされた計算が収集される。４倍アップサンプリングされたドメイン内では、最上位層内でのサブピクセル分類のうちの１パーセント未満が収集されるため、より多くの層が、一部のハードウェア上において、スキップされた畳み込みから利益を得ることができる。
ニューラルネットワークベースのベースコール

図１は、一実施態様による、ベースコールするためにＲＴＡベースコーラーによって使用される処理段階を示す。図１はまた、２つの実施態様による、ベースコールするために、開示されるニューラルネットワークベースのベースコーラーによって使用される処理段階も示す。図１に示すように、ニューラルネットワークベースのベースコーラー２１８は、ＲＴＡベースコーラーによって使用される処理段階の多くを不要にすることによって、ベースコールプロセスを合理化することができる。合理化することにより、ベースコール精度及びスケールが改善する。ニューラルネットワークベースのベースコーラー２１８の第１の実施態様では、ベースコーラーは、ニューラルネットワークベースのテンプレート生成器１５１２の出力から識別されたクラスター中心の場所／位置情報を使用してベースコールを実行する。第２の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、ベースコールするためにクラスター中心の場所／位置情報を使用しない。第２の実施態様は、パターン化されたフローセル設計がクラスター生成に使用されるときに使用される。パターン化されたフローセルは、既知の基準位置に対して正確に位置付けられ、かつパターン化されたフローセル上に事前配置されたクラスター分布を提供する、ナノウェルを含む。他の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、ランダムなフローセル上に生成されたクラスターをベースコールする。

ここからは、ニューラルネットワークが配列決定画像をマッピングしてベースコールするように訓練されているニューラルネットワークベースのベースコールについて説明する。議論は、以下のように整理される。最初に、ニューラルネットワークへの入力について説明する。次に、ニューラルネットワークの構造及び形態について説明する。最後に、ニューラルネットワークの出力について説明する。
入力

図２は、ニューラルネットワーク２０６を使用してベースコールする一実施態様を示す。
主入力：画像チャネル

ニューラルネットワーク２０６への主入力は、画像データ２０２である。画像データ２０２は、配列決定実行中に配列決定器２２２によって生成された配列決定画像１０８から導出される。一実施態様では、画像データ２０２は、配列決定画像２２２から抽出されたｎ×ｎ個の画像パッチを含み、ｎは１～１０，０００の範囲の任意の数である。配列決定実行は、対応するｍ個の画像チャネルのために配列決定サイクルごとにｍ個の画像を生成し、画像パッチは、特定の配列決定サイクルのための画像データを調製するためにｍ個の画像のそれぞれから抽出される。４、２、及び１チャネルケミストリーなどの異なる実施態様では、ｍは４又は２である。他の実施態様では、ｍは、１、３、又は４超である。画像データ２０２は、いくつかの実施態様では光学的なピクセルドメイン内にあり、他の実施態様ではアップサンプリングされたサブピクセルドメイン内にある。

画像データ２０２は、複数の配列決定サイクル（例えば、現在の配列決定サイクル、１つ又はそれ以上の先行する配列決定サイクル、及び１つ又はそれ以上の継続的な配列決定サイクル）のためのデータを含む。一実施態様では、画像データ２０２は、ベースコールされる現在（時間ｔ）の配列決定サイクルのためのデータが、（ｉ）左側フランキング／コンテキスト／前の／先行する／先の（時間ｔ－１の）配列決定サイクルのためのデータ及び（ｉｉ）右側フランキング／コンテキスト／次の／継続的な／後続の（時間ｔ＋１の）配列決定サイクルのためのデータを伴うように、３個の配列決定サイクルのためのデータを含む。他の実施態様では、画像データ２０２は、単一の配列決定サイクルのためのデータを含む。

画像データ２０２は、１つ又はそれ以上のクラスター及びそれらの周囲背景の強度発光を表現する。一実施態様では、単一のターゲットクラスターがベースコールされる場合、画像パッチは、本明細書において「ターゲットクラスター中心化パッチ抽出」と称される概念である、各画像パッチがその中心ピクセル内にターゲットクラスターの中心を含むような方法で、配列決定画像１０８から抽出される。

画像データ２０２は、入力データ２０４内で強度チャネル（画像チャネルとも呼ばれる）を使用して符号化される。特定の配列決定サイクルのために配列決定器２２２から取得されたｍ個の画像のそれぞれについて、その強度データを符号化するために別個の画像チャネルが使用される。例えば、配列決定実行が、各配列決定サイクルにおいて赤色画像及び緑色画像を生成する２チャネルケミストリーを使用し、そのとき、入力データ２０４は、（ｉ）赤色画像内に捕捉された１つ又はそれ以上のクラスター及びそれらの周囲背景の強度発光を表現するｎｘｎ個のピクセルを有する第１の赤色画像チャネルと、（ｉｉ）緑色画像内に捕捉された１つ又はそれ以上のクラスター及びそれらの周囲背景の強度発光を表現するｎｘｎ個のピクセルを有する第２の緑色画像チャネルと、を含むと、考える。

一実施態様では、バイオセンサーは、光センサーのアレイを備える。光センサーは、バイオセンサーの検出表面上の対応するピクセル領域（例えば、反応部位／ウェル／ナノセル）からの情報を感知するように構成されている。ピクセル領域内に配設された分析物は、ピクセル領域、すなわち、関連する分析物と関連付けられると言われる。配列決定サイクルでは、ピクセル領域に対応する光センサーは、関連する検体からの発光／光子を検出／捕捉／検知するように構成され、それに応じて、画像化されたチャネルごとにピクセル信号を生成するように構成される。一実施態様では、各撮像チャネルは、複数のフィルタ波長帯域のうちの１つに対応する。別の実施態様では、各撮像チャネルは、配列決定サイクルで複数の撮像イベントのうちの１つに対応する。更に別の実施態様では、各撮像チャネルは、特定のレーザーを用いた照明と特定の光学フィルタを通した撮像との組み合わせに対応する。

光センサーからのピクセル信号は、（例えば、通信ポートを介して）バイオセンサーに結合された信号プロセッサに伝達される。各配列決定サイクル及び各画像化チャネルについて、信号プロセッサは、ピクセルが対応する光センサーから得られるピクセル信号をそれぞれ描写／含有／示す／表す／特徴付ける画像を生成する。このようにして、画像内のピクセルは、（ｉ）ピクセルによって表されるピクセル信号を生成したバイオセンサーの光センサーと、（ｉｉ）対応する光センサーによって放射が検出され、ピクセル信号に変換された関連分析物と、（ｉｉｉ）関連分析物を保持するバイオセンサーの検出表面上のピクセル領域と、に対応する。

例えば、配列決定動作が２つの異なる画像化チャネル：赤色チャネル及び緑色チャネルを使用すると考える。次いで、各配列決定サイクルにおいて、信号プロセッサは、赤色画像及び緑色画像を生成する。このようにして、配列決定実行の一連のｋ配列決定サイクルについて、赤色画像及び緑色画像のｋ対を有するシーケンスが出力として生成される。

赤色画像及び緑色画像（すなわち、異なる画像化チャネル）内のピクセルは、配列決定サイクル内で１対１の対応を有する。これは、一対の赤色画像及び緑色画像内の対応するピクセルが、異なる画像化チャネル内にある同じ関連する検体の強度データを示すことを意味する。同様に、赤色画像及び緑色画像の対にわたるピクセルは、配列決定サイクル間に１対１の対応を有する。これは、赤色画像及び緑色画像の異なるペア内の対応するピクセルが、配列決定実行の異なる獲得イベント／タイムステップ（配列決定サイクル）に関して、同じ関連する分析物の強度データを示すことを意味する。

赤色画像及び緑色画像（すなわち、異なる画像化チャネル）内の対応するピクセルは、第１の赤色チャネル及び第２の緑チャネル内の強度データを表す、「サイクルごとの画像」のピクセルと見なすことができる。ピクセルがピクセルエリアのサブセットのピクセル信号、すなわち、バイオセンサーの検出面の領域（タイル）を描写するサイクルごとの画像は、「サイクルごとのタイル画像」と呼ばれる。サイクルごとのタイル画像から抽出されたパッチは、「サイクルごとの画像パッチ」と呼ばれる。一実施態様では、パッチ抽出は、入力準備者によって実行される。

画像データは、配列決定実行の一連のｋシーケンスサイクルのために生成された一連のサイクルごとの画像パッチを含む。サイクルごとの画像パッチ内のピクセルは、関連する検体のための強度データを含み、強度データは、関連付けられた検体からの排出を検出するように構成された対応する光センサーによって、１つ又はそれ以上の画像化チャネル（例えば、赤色チャネル及び緑色チャネル）のために取得される。一実施態様では、単一のターゲットクラスターをベースとする場合、サイクルごとの画像パッチは、標的関連検体及び非中心ピクセルに関する強度データを含む中心ピクセルで中心に置かれ、サイクルごとの画像パッチ内の非中心ピクセルは、標的関連検体に隣接する関連する検体の強度データを含む。一実施態様では、画像データは、入力準備者によって調製される。
非画像データ

別の実施態様では、ニューラルネットワークベースのベースコーラー２１８及びニューラルネットワークベースの品質スコアラー６１０２への入力データは、分子延長中の水素イオンの放出によって誘発されるｐＨ変化に基づく。ｐＨ変化は検出され、組み込まれた塩基の数に比例する電圧変化に変換される（例えば、ＩｏｎＴｏｒｒｅｎｔの場合）。

更に別の実施態様では、ニューラルネットワークベースのベースコーラー２１８及びニューラルネットワークベースの品質スコアラー６１０２への入力データは、塩基を同定しながら分析物がナノ細孔の中又はその開口部付近を通過する際の電流の中断を測定するためにバイオセンサーを使用するナノ細孔検知から構築される。例えば、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ（ＯＮＴ）配列決定は、以下の概念に基づく：ナノ細孔を介して膜を介してＤＮＡ（又はＲＮＡ）の単一鎖を通過させ、膜にわたって電位差を印加する。細孔内に存在するヌクレオチドは、細孔の電気抵抗に影響を及ぼし、そのため、経時的な電流測定は、細孔を通過するＤＮＡ塩基の配列を示すことができる。この電流信号（プロットされたときにその外観に起因する「押しつぶし」）は、ＯＮＴシーケンサによって収集された生データである。これらの測定値は、４ｋＨｚ周波数（例えば）で取られた１６ビットの整数データ取得（ＤＡＣ）値として記憶される。１秒当たり～４５０塩基対のＤＮＡ鎖速度を用いて、これは、平均して、塩基当たり約９つの生観察を与える。次いで、この信号を処理して、個々の読み取りに対応する開孔信号の破断を特定する。これらの生信号の伸長は、ベースと呼ばれ、ＤＡＣ値をＤＮＡ塩基の配列に変換するプロセスである。いくつかの実施態様では、入力データは、正規化又はスケーリングされたＤＡＣ値を含む。
補足的な入力：距離チャネル

画像データ２０２は、補足的な距離データ（距離チャネルとも呼ばれる）を伴う。距離チャネルは、画像チャネルから生成された特徴マップに組み込まれる加法的バイアスを供給する。この加法的バイアスは、ピクセル中心－クラスター中心間の距離に基づいていることからベースコール精度に寄与し、ピクセル中心－クラスター中心間の距離は、距離チャネル内にピクセル単位で符号化されている。

「単一のターゲットクラスター」ベースコール実施態様では、入力データ２０４内の各画像チャネル（画像パッチ）について、補足的な距離チャネルは、その中心ピクセルを含み、かつベースコールされるターゲットクラスターの中心からのそのピクセルの中心の距離を識別する。それにより、距離チャネルは、画像パッチの中心ピクセルからの画像パッチのピクセルのそれぞれの距離を示す。

「マルチクラスター」ベースコール実施態様では、入力データ２０４内の各画像チャネル（画像パッチ）について、補足的な距離チャネルは、ピクセルとクラスターのそれぞれとの間の中心間距離に基づいて選択されるクラスターのうちの最も近いクラスターからの各ピクセルの中心間距離を識別する。

「マルチクラスター形状ベース」ベースコール実施態様では、入力データ２０４内の各画像チャネル（画像パッチ）について、補足的な距離チャネルは、１つのクラスターのみに対して各クラスターピクセルを分類することに基づいて選択される割り当てられたクラスターからの各クラスターピクセルの中心間距離を識別する。
補足的な入力：スケーリングチャネル

画像データ２０２は、異なるクラスターサイズ及び不均一な照明条件を考慮する補足的なスケーリングデータ（スケーリングチャネルとも呼ばれる）を伴う。スケーリングチャネルもまた、画像チャネルから生成された特徴マップに組み込まれる加法的バイアスを供給する。この加法的バイアスは、中央クラスターピクセルの平均強度に基づくため、ベースコール精度に寄与し、この平均強度は、スケーリングチャネル内にピクセル単位で符号化されている。
補足的な入力：クラスター中心座標

いくつかの実施態様では、ニューラルネットワークベースのテンプレート生成器１５１２の出力から識別されたクラスター中心の場所／位置情報２１６（例えば、ｘ－ｙ座標）は、ニューラルネットワーク２０６に補足的な入力として供給される。
補足的な入力：クラスター帰属情報

いくつかの実施態様では、ニューラルネットワーク２０６は、どのピクセル又はサブピクセルが、同じクラスターを表現する／に寄与する／に属する背景ピクセル又はサブピクセル、クラスター中心ピクセル又はサブピクセル、及びクラスター／クラスター内部ピクセル又はサブピクセルであるかを分類するクラスター帰属情報を補足的な入力として受信する。他の実施態様では、減衰マップ、２値マップ、及び／若しくは３値マップ、又はそれらの変形が、ニューラルネットワーク２０６への補足的な入力として供給される。
前処理：強度修正

いくつかの実施態様では、入力データ２０４は距離チャネルを含んでいないが、代わりにニューラルネットワーク２０６が、ニューラルネットワークベースのテンプレート生成器１５１２１５１２の出力、すなわち、減衰マップ、２値マップ、及び／又は３値マップに基づいて修正される修正された画像データを入力として受信する。このような実施態様では、画像データ２０２の強度は、距離チャネルの不在を考慮するように修正される。

他の実施態様では、画像データ２０２は、１つ又はそれ以上のロスレス変換動作（例えば、畳み込み、逆畳み込み、フーリエ変換）に供され、結果として得られる修正された画像データは、ニューラルネットワーク２０６への入力として供給される。

ネットワーク構造及び形態
ニューラルネットワーク２０６は、本明細書において「ニューラルネットワークベースのベースコーラー」２１８とも称される。一実施態様では、ニューラルネットワークベースのベースコーラー２１８は、多層パーセプトロン（ＭＬＰ）である。別の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、フィードフォワードニューラルネットワークである。更に別の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、全結合型ニューラルネットワークである。更なる実施態様では、ニューラルネットワークベースのベースコーラー２１８は、完全畳み込みニューラルネットワークである。また更なる実施態様では、ニューラルネットワークベースのベースコーラー２１８は、セマンティックセグメンテーションニューラルネットワークである。

一実施態様では、ニューラルネットワークベースのベースコーラー２１８は、複数の畳み込み層を有する畳み込みニューラルネットワーク（ＣＮＮ）である。別の実施態様では、長・短期記憶ネットワーク（ＬＳＴＭ）、双方向ＬＳＴＭ（Ｂｉ－ＬＳＴＭ）、又はゲート付き回帰型ユニット（ＧＲＵ）などの反復ニューラルネットワーク（ＲＮＮ）である。更に別の実施態様では、ＣＮＮ及びＲＮＮの両方を含む。

更に他の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、１Ｄ重畳、２Ｄ重畳、３Ｄ重畳、４Ｄ重畳、５Ｄ重畳、拡張又は無性重畳、転置重畳、奥行分離可能な重畳、点単位の重畳、１×１重畳、グループ重畳、扁平重畳、空間及びクロスチャネルの重畳、シャッフルされたグループ化重畳、空間的な分離可能な重畳、並びに逆重畳を使用することができる。それは、ロジスティック回帰／対数損失、多クラスクロスエントロピー／ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、Ｌ１損失、Ｌ２損失、平滑Ｌ１損失、及びＨｕｂｅｒ損失などの１つ又はそれ以上の損失機能を使用することができる。それは、ＴＦＲｅｃｏｒｄ、圧縮符号化（例えば、ＰＮＧ）、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期／非同期ＳＧＤのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット（ＬＳＴＭ又はＧＲＵなど）、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能（例えば、非線形変換関数は、整流線形ユニット（ＲｅＬＵ）、漏れやすいＲｅＬＵ、指数関数的ライナーユニット（ＥＬＵ）、シグモイド及び双曲線正接（ｔａｎｈ））、バッチ正規化層、規則化層、ドロップアウト、プール層（例えば、最大又は平均プール）、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。

ニューラルネットワークベースのベースコーラー２１８は、入力データ２０４を処理し、入力データ２０４の代替表現２０８を生成する。代替表現２０８は、いくつかの実施態様では畳み込み表現であり、他の実施態様では隠れ表現である。次いで、代替表現２０８は、出力層２１０によって処理され、出力２１２を生成する。出力２１２は、以下に説明するように、ベースコールを生成するために使用される。
出力

一実施態様では、ニューラルネットワークベースのベースコーラー２１８は、特定の配列決定サイクルのために、単一のターゲットクラスターのためのベースコールを出力する。別の実施態様では、特定の配列決定サイクルのために、複数のターゲットクラスター内の各ターゲットクラスターのためのベースコールを出力する。更に別の実施態様では、複数の配列決定サイクル内の各配列決定サイクルのために、複数のターゲットクラスター内の各ターゲットクラスターのためのベースコールを出力し、それによって、各ターゲットクラスターのためのベースコール配列を生成する。
距離チャネル計算

ここからは、距離チャネルの距離値を計算する際に使用するクラスター中心の適切な場所／位置情報（例えば、ｘ－ｙ座標）がどのように取得されるかについて説明する。
座標のダウンスケーリング

図３は、ニューラルネットワークベースのテンプレート生成器１５１２の出力から識別されたクラスター中心の場所／位置情報をサブピクセルドメインからピクセルドメインに変換する一実施態様である。

クラスター中心の場所／位置情報は、ニューラルネットワークベースのベースコールのために、少なくとも、（ｉ）ベースコールされるターゲットクラスターの中心を中心ピクセル内に含む配列決定画像１０８からの画像パッチを抽出することによって入力データを構築するために、（ｉｉ）画像パッチの中心ピクセルに含まれるターゲットクラスターの中心からの画像パッチのピクセルの中心の距離を識別する距離チャネルを構築するために、及び／又は（ｉｉｉ）ニューラルネットワークベースのベースコーラー２１８への補足的な入力２１６として、使用される。

いくつかの実施態様では、クラスター中心の場所／位置情報は、アップサンプリングされたサブピクセル解像度でニューラルネットワークベースのテンプレート生成器１５１２の出力から識別される。しかしながら、いくつかの実施態様では、ニューラルネットワークベースのベースコーラー２１８は、光学ピクセル解像度の画像データ上で動作する。したがって、一実施態様では、クラスター中心の場所／位置情報は、ニューラルネットワークベースのテンプレート生成器１５１２への入力として供給される画像データをアップサンプリングするために使用されるのと同じアップサンプリング係数でクラスター中心の座標をダウンスケーリングすることによってピクセルドメインに変換される。

例えば、ニューラルネットワークベースのテンプレート生成器１５１２への入力として供給される画像パッチデータが、いくつかの初期配列決定サイクルからの配列決定画像１０８をアップサンプリング係数ｆでアップサンプリングすることによって導出されると考える。そのとき、一実施態様では、ポストプロセッサ１８１４によるニューラルネットワークベースのテンプレート生成器１５１２によって生成され、テンプレート／テンプレート画像３０４に記憶された、クラスター中心３０２の座標は、ｆ（除数）で除される。これらのダウンスケーリングされたクラスター中心座標は、本明細書において「参照クラスター中心」３０８と称され、テンプレート／テンプレート画像３０４内に記憶される。一実施態様では、ダウンスケーリングは、ダウンスケーラー３０６によって実施される。
座標の変換

図４は、サイクル固有及び画像チャネル固有の変換を使用して参照クラスター中心３０８からいわゆる「変換されたクラスター中心」４０４を導き出す一実施態様である。このようにする動機について、最初に議論する。

異なる配列決定サイクルで撮影された配列決定画像は、位置がずれていて、互いに対してランダムな並進オフセットを有する。これは、センサーの運動段階の動きの有限の精度に起因し、また、異なる画像／周波数チャネルで撮影された画像は、異なる光路及び波長を有するためでもある。その結果、参照クラスター中心と、配列決定画像内のクラスター中心の場所／位置との間にオフセットが存在する。このオフセットは、異なる配列決定サイクルにおいて捕捉された画像間、及び異なる画像チャネル内で同じ配列決定サイクルにおいて捕捉された画像内で変化する。

このオフセットを考慮するために、サイクル固有及び画像チャネル固有の変換が参照クラスター中心に適用されて、各配列決定サイクルの画像パッチのためのそれぞれの変換されたクラスター中心を生成する。サイクル固有及び画像チャネル固有の変換は、画像相関を使用して、完全な６パラメータのアフィン変換（例えば、並進、回転、スケーリング、剪断、右反射、左反射）又はプロクラステス変換（例えば、並進、回転、スケーリング、任意選択的にアスペクト比に拡張される）を決定する画像レジストレーションプロセスによって導出され、その更なる詳細は、付録１、２、３、及び４に見出すことができる。

例えば、４つのクラスター中心のための参照クラスター中心が（ｘ_１，ｙ_１）；（ｘ_２，ｙ_２）；（ｘ_３，ｙ_３）；（ｘ_４，ｙ_４）であり、配列決定実行が、各配列決定サイクルにおいて赤色画像及び緑色画像を生成する２チャネルケミストリーを使用する、と考える。そのとき、例示的な配列決定サイクル３では、サイクル固有及び画像チャネル固有の変換は、赤色画像に対して

であり、緑色画像に対して

である。

同様に、例示的な配列決定サイクル９では、サイクル固有及び画像チャネル固有の変換は、赤色画像に対して

であり、緑色画像に対して

である。

そして、配列決定サイクル３の赤色画像のための変換されたクラスター中心

は、参照クラスター中心（ｘ_１，ｙ_１）；（ｘ_２，ｙ_２）；（ｘ_３，ｙ_３）；（ｘ_４，ｙ_４）に変換

を適用することによって導き出され、配列決定サイクル３の緑色画像のための変換されたクラスター中心

を適用することによって導き出される。

同様に、配列決定サイクル９の赤色画像のための変換されたクラスター中心

を適用することによって導き出され、配列決定サイクル９の緑色画像のための変換されたクラスター中心

を適用することによって導き出される。

一実施態様では、変換は、変換器４０２によって実施される。

変換されたクラスター中心４０４は、テンプレート／テンプレート画像３０４内に記憶され、（ｉ）対応する配列決定画像１０８からのパッチ抽出を（例えば、パッチ抽出器４０６によって）行うために、（ｉｉ）距離式

で対応する画像パッチのための距離チャネルを計算するために、及び（ｉｉｉ）ベースコールされている対応する配列決定サイクルのためのニューラルネットワークベースのベースコーラー２１８への補足的な入力として、それぞれ使用される。他の実施態様では、距離の２乗、ｅ＾距離、及びｅ＾（距離の２乗）などの異なる距離式を使用することができる。
画像パッチ

図５は、ニューラルネットワークベースのベースコーラー２１８に供給される入力データの一部である画像パッチ５０２を示す。入力データは、配列決定実行の一連の配列決定サイクルのために生成されたサイクルごとの画像パッチセットのシーケンスを含む。シーケンス内の各サイクルごとの画像パッチセットは、１つ又はそれ以上の画像チャネルのそれぞれ１つのための画像パッチを有する。

例えば、配列決定実行が、各配列決定サイクルにおいて赤色画像及び緑色画像を生成する２チャネルケミストリーを使用し、入力データが、配列決定実行の一連の３つの配列決定サイクル、すなわち、ベースコールされる現在（時間ｔ）の配列決定サイクル、前（時間ｔ－１）の配列決定サイクル、及び次（時間ｔ＋１）の配列決定サイクルにわたるデータを含む、と考える。

そのとき、入力データは、以下のサイクルごとの画像パッチセットのシーケンスを含む：現在の赤色画像パッチ及び現在の緑色画像パッチが現在の配列決定サイクルにおいて捕捉された赤色及び緑色の配列決定画像からそれぞれ抽出されている現在のサイクルの画像パッチセット、前の赤色画像パッチ及び前の緑色画像パッチが前の配列決定サイクルにおいて捕捉された赤色及び緑色の配列決定画像からそれぞれ抽出されている前のサイクルの画像パッチセット、並びに次の赤色画像パッチ及び次の緑色画像パッチが次の配列決定サイクルにおいて捕捉された赤色及び緑色の配列決定画像からそれぞれ抽出されている次のサイクルの画像パッチセット。

各画像パッチのサイズはｎ×ｎとすることができ、ｎは１～１０，０００の範囲の任意の数とすることができる。各画像パッチは、光学ピクセルドメイン内、又はアップサンプリングされたサブピクセルドメイン内にあることができる。図５に示す実施態様では、抽出された画像ページ５０２は、複数のクラスター１～ｍ及びそれらの周囲背景を覆う／表現するピクセルについてのピクセル強度データを有する。また、図示された実施態様では、画像パッチ５０２は、その中心ピクセル内に、ベースコールされているターゲットクラスターの中心を含むような方法で、抽出される。

図５では、ピクセル中心は黒い矩形によって表現され、整数の場所／位置座標を有しており、クラスター中心は紫色の円によって表現され、浮動小数点数の場所／位置座標を有する。
単一のターゲットクラスターのための距離計算

図６は、単一のターゲットクラスターがニューラルネットワークベースのベースコーラー２１８によってベースコールされているときに距離チャネルのための距離値６０２を決定する一実施態様を示す。ターゲットクラスターの中心は、ニューラルネットワークベースのベースコーラー２１８への入力として供給される画像パッチの中心ピクセル内に含まれている。距離値は、各ピクセルについて、その中心とターゲットクラスターの中心との間の距離が決定されるように、ピクセルごとに計算される。したがって、距離値は、入力データの一部である画像パッチのそれぞれ内の各ピクセルについて計算される。

図６は、特定の画像パッチのための３つの距離値ｄ１、ｄｃ、及びｄｎを示す。一実施態様では、距離値６０２は、距離式

を使用して計算され、これは、変換されたクラスター中心４０４上で動作する。他の実施態様では、距離の２乗、ｅ＾距離、及びｅ＾（距離の２乗）などの異なる距離式を使用することができる。

他の実施態様では、画像パッチが、アップサンプリングされたサブピクセル解像度であるとき、距離値６０２は、サブピクセルドメイン内で計算される。

したがって、単一のターゲットクラスターベースコール実施態様では、距離チャネルは、ベースコールされているターゲットクラスターに対してのみ計算される。

図７は、ピクセルとターゲットクラスターとの間で計算される距離値６０２をピクセル単位で符号化すること７０２の一実施態様を示す。一実施態様では、入力データ内において、距離値６０２は距離チャネルの一部として、対応する各画像チャネル（画像パッチ）を「ピクセル距離データ」として補足する。赤色画像及び緑色画像が配列決定サイクルごとに生成される実施例に戻ると、入力データは、赤色画像チャネル及び緑色画像チャネルをピクセル距離データとしてそれぞれ補足する赤色距離チャネル及び緑色距離チャネルを含む。

他の実施態様では、画像パッチが、アップサンプリングされたサブピクセル解像度であるとき、距離チャネルは、サブピクセルごとに符号化される。
複数のターゲットクラスターのための距離計算

図８ａは、複数のターゲットクラスター１～ｍがニューラルネットワークベースのベースコーラー２１８によって同時にベースコールされているときに距離チャネルのための距離値８０２を決定する一実施態様を示す。距離値は、各ピクセルについて、その中心と複数のクラスター１～ｍのそれぞれの各中心との間の距離が決定され、最小距離値（赤色）がピクセルに割り当てられるように、ピクセルごとに計算される。

したがって、距離チャネルは、ピクセルとクラスターのそれぞれとの間の中心間距離に基づいて選択されるクラスターのうちの最も近いクラスターからの各ピクセルの中心間距離を識別する。図示された実施態様では、図８ａは、２つのピクセル及び４つのクラスター中心に対するピクセル中心－クラスター中心間の距離を示す。ピクセル１はクラスター１に最も近く、ピクセルｎはクラスター３に最も近い。

一実施態様では、距離値８０２は、距離式

他の実施態様では、画像パッチが、アップサンプリングされたサブピクセル解像度であるとき、距離値８０２は、サブピクセルドメイン内で計算される。

したがって、マルチクラスターベースコール実施態様では、距離チャネルは、複数のクラスターの中から最も近いクラスターに対して計算される。

図８ｂは、ターゲットクラスター１～ｍのそれぞれについて、ピクセル中心－最も近いクラスター中心間の距離８０４（ｄ１、ｄ２、ｄ２３、ｄ２９、ｄ２４、ｄ３２、ｄｎ、ｄ１３、ｄ１４など）に基づいて決定されたいくつかの最も近いピクセルを示す。

図９は、ピクセルとクラスターのうちの最も近いクラスターとの間で計算される最小距離値をピクセル単位で符号化すること９０２の一実施態様を示す。他の実施態様では、画像パッチが、アップサンプリングされたサブピクセル解像度であるとき、距離チャネルは、サブピクセルごとに符号化される。
クラスター形状に基づく複数のターゲットクラスターのための距離計算

図１０は、複数のターゲットクラスター１～ｍがニューラルネットワークベースのベースコーラー２１８によって同時にベースコールされているときに、本明細書において「クラスター形状データ」又は「クラスター形状情報」と称される、ピクセル－クラスター間の分類／帰属／カテゴリー化１００２を使用して、距離チャネルのためのクラスター距離値１１０２を決定する一実施態様を示す。最初に、以下において、クラスター形状データがどのように生成されるかについて簡単に検討する。

上述したように、ニューラルネットワークベースのテンプレート生成器１５１２の出力は、同じクラスターを表現する／に寄与する／に属する背景ピクセル、中心ピクセル、及びクラスター／クラスター内部ピクセルとしてピクセルを分類するために使用される。このピクセル－クラスター間の分類情報は、ピクセル中心とクラスター中心との間の距離に関係なく、各ピクセルを１つのクラスターのみに帰属させるために使用され、クラスター形状データとして記憶される。

図１０に示す実施態様では、背景ピクセルは灰色に着色され、クラスター１に属するピクセルは黄色に着色され（クラスター１ピクセル）、クラスター２に属するピクセルは緑色に着色され（クラスター２ピクセル）、クラスター３に属するピクセルは赤色に着色され（クラスター３ピクセル）、クラスターｍに属するピクセルは青色に着色されている（クラスターｍピクセル）。

図１１は、クラスター形状データを使用して距離値１１０２を計算する一実施態様を示す。最初に、クラスター形状を考慮しないで計算された距離情報が誤りを起こしやすい理由について説明する。その後、クラスター形状データがこの制限をどのように克服するかについて説明する。

クラスター形状データを使用しない「マルチクラスター」ベースコール実施態様では（図８ａ～図８ｂ及び図９）、ピクセルのための中心間距離値は、複数のクラスターの中から最も近いクラスターに対して計算される。ここで、クラスターＡに属するピクセルが、クラスターＡの中心から遠く離れていて、クラスターＢの中心にはより近くにある場合のシナリオを考える。そのような場合、クラスター形状データなしでは、ピクセルは、（ピクセルが実際に属している）クラスターＡに対する距離値が割り当てられる代わりに、（ピクセルが属していない）クラスターＢに対して計算される距離値を割り当てられる。

「マルチクラスター形状ベース」ベースコール実施態様は、生画像データにおいて定義され、ニューラルネットワークベースのテンプレート生成器１５１２によって生成されるような、真のピクセル－クラスター間のマッピングを使用することによってこれを回避する。

２つの実施態様間の対比は、ピクセル３４及び３５に関して見ることができる。図８ｂでは、ピクセル３４及び３５の距離値は、クラスター形状データを考慮しないで、クラスター３の最も近い中心に対して計算される。しかしながら、図１１では、クラスター形状データに基づいて、ピクセル３４及び３５の距離値１１０２は、（それらが実際に属する）クラスター２に対して計算される。

図１１において、クラスターピクセルはクラスター強度を表現し、背景ピクセルは背景強度を表現する。クラスター距離値は、クラスターのうちの１つのみに対して各クラスターピクセルを分類することに基づいて選択されるクラスターのうちの割り当てられたクラスターからの各クラスターピクセルの中心間距離を識別する。いくつかの実施態様では、背景ピクセルは、０若しくは０．１、又は何らかの他の最小値など、所定の背景距離値を割り当てられる。

一実施態様では、上述したように、クラスター距離値１１０２は、距離式

他の実施態様では、画像パッチがアップサンプリングされたサブピクセル解像度であるとき、クラスター距離値１１０２はサブピクセルドメイン内で計算され、クラスター及び背景帰属１００２はサブピクセルごとに生じる。

したがって、マルチクラスター形状ベースベースコール実施態様では、距離チャネルは、複数のクラスターの中から割り当てられたクラスターに対して計算される。割り当てられたクラスターは、生画像データにおいて定義された真のピクセル－クラスター間のマッピングに従ってクラスターのうちの１つのみに対して各クラスターピクセルを分類することに基づいて選択される。

図１２は、ピクセルと割り当てられたクラスターとの間で計算される距離値１００２をピクセル単位で符号化する一実施態様を示す。他の実施態様では、画像パッチが、アップサンプリングされたサブピクセル解像度であるとき、距離チャネルは、サブピクセルごとに符号化される。

深層学習は、多層ニューラルネットワークを使用する強力な機械学習技術である。コンピュータビジョン及び画像処理ドメインにおける１つの特に成功したネットワーク構造は、畳み込みニューラルネットワーク（ＣＮＮ）であり、各層が、入力テンソル（画像様の多次元高密度アレイ）から異なる形状の出力テンソルへのフィードフォーワード畳み込み変換を実施する。ＣＮＮは、画像の空間コヒーレンス、及び最大３又は４Ｄのアレイ上で訓練を高速にする汎用のグラフィック処理ユニット（ＧＰＵ）の出現により、画像様の入力に特に適している。これらの画像様の特性を活用することは、サポートベクターマシン（ＳＶＭ）又は多層パーセプトロン（ＭＬＰ）などの他の学習方法と比較して、優れた経験的性能をもたらす。

画像データと補足的な距離及びスケーリングデータとの両方を処理するために、標準的なＣＮＮを増強する特殊化したアーキテクチャを導入する。以下の詳細がある。
特殊化したアーキテクチャ

図１３は、異なる配列決定サイクルのためのデータの処理を分離するために使用されるニューラルネットワークベースのベースコーラー２１８の特殊化したアーキテクチャの一実施態様を示す。特殊化したアーキテクチャを使用する動機について、最初に説明する。

上述したように、ニューラルネットワークベースのベースコーラー２１８は、現在の配列決定サイクル、１つ又はそれ以上の先行する配列決定サイクル、及び１つ又はそれ以上の継続的な配列決定サイクルのためのデータを処理する。追加の配列決定サイクルのためのデータは、配列特異的なコンテキストを提供する。ニューラルネットワークベースのベースコーラー２１８は、訓練時に配列特異的なコンテキストを学習し、それらをベースコールする。更に、前及び後の配列決定サイクルのためのデータは、現在の配列決定サイクルにプレフェージング信号及びフェージング信号の２次の寄与を提供する。
空間的な畳み込み層

しかしながら、上述したように、異なる配列決定サイクルにおいて及び異なる画像チャネル内で捕捉された画像は、位置がずれていて、互いに対して残差レジストレーション誤差を有する。この位置ずれを考慮するために、特殊化したアーキテクチャは、配列決定サイクル間で情報を混合せず、配列決定サイクル内でのみ情報を混合する、空間的な畳み込み層を含む。

空間的な畳み込み層は、畳み込みの「専用の共有されていない」シーケンスを介して複数の配列決定サイクルのそれぞれのためのデータを独立して処理することによって分離を操作可能にする、いわゆる「分離された畳み込み」を使用する。分離された畳み込みは、所与の配列決定サイクルのみ、すなわち、イントラサイクルのデータ及び結果として得られる特徴マップにわたって畳み込みを行い、任意の他の配列決定サイクルのデータ及び結果として得られる特徴マップにわたって畳み込みを行うことはない。

例えば、入力データが、（ｉ）ベースコールされる現在（時間ｔ）の配列決定サイクルのための現在のデータ、（ｉｉ）前（時間ｔ－１）の配列決定サイクルのための前のデータ、及び（ｉｉｉ）次（時間ｔ＋１）の配列決定サイクルのための次のデータを含む、と考える。そのとき、特殊化したアーキテクチャは、３つの別個のデータ処理パイプライン（又は畳み込みパイプライン）、すなわち、現在のデータ処理パイプライン、前のデータ処理パイプライン、及び次のデータ処理パイプラインを開始させる。現在のデータ処理パイプラインは、現在（時間ｔ）の配列決定サイクルのための現在のデータを入力として受信し、それを複数の空間的な畳み込み層によって独立して処理して、いわゆる「現在の空間畳み込み表現」を最終の空間的な畳み込み層の出力として生成する。前のデータ処理パイプラインは、前（時間ｔ－１）の配列決定サイクルのための前のデータを入力として受信し、それを複数の空間的な畳み込み層によって独立して処理して、いわゆる「前の空間畳み込み表現」を最終の空間的な畳み込み層の出力として生成する。次のデータ処理パイプラインは、次（時間ｔ＋１）の配列決定サイクルのための次のデータを入力として受信し、それを複数の空間的な畳み込み層によって独立して処理して、いわゆる「次の空間畳み込み表現」を最終の空間的な畳み込み層の出力として生成する。

いくつかの実施態様では、現在、前、及び次の処理パイプラインは並列に実行される。

いくつかの実施態様では、空間的な畳み込み層は、特殊化したアーキテクチャ内の空間的な畳み込みネットワーク（又はサブネットワーク）の一部である。
時間的な畳み込み層

ニューラルネットワークベースのベースコーラー２１８は、配列決定サイクル間、すなわち、インターサイクルの情報を混合する時間的な畳み込み層を更に含む。時間的な畳み込み層は、空間的な畳み込みネットワークからそれらの入力を受信し、それぞれのデータ処理パイプラインのための最終の空間的な畳み込み層によって生成された空間畳み込み表現上で動作する。

時間的な畳み込み層のインターサイクル動作の自由は、位置ずれ特性（空間的な畳み込みネットワークへの入力として供給される画像データ内に存在する）が、空間的な畳み込み層のシーケンスによって実行される分離された畳み込みのカスケードによって空間畳み込み表現から一掃されるという事実から生じる。

時間的な畳み込み層は、スライディングウィンドウに基づいた継続的な入力内の入力チャネルにわたってグループ単位の畳み込みを行う、いわゆる「組み合わせ畳み込み」を使用する。一実施態様では、継続的な入力は、前の空間的な畳み込み層又は前の時間的な畳み込み層によって生成される継続的な出力である。

いくつかの実施態様では、時間的な畳み込み層は、特殊化したアーキテクチャ内の時間的な畳み込みネットワーク（又はサブネットワーク）の一部である。時間的な畳み込みネットワークは、その入力を空間的な畳み込みネットワークから受信する。一実施態様では、時間的な畳み込みネットワークの最初の時間的な畳み込み層が、配列決定サイクル間の空間畳み込み表現をグループ単位で組み合わせる。別の実施態様では、時間的な畳み込みネットワークの後続の時間的な畳み込み層が、前の時間的な畳み込み層の継続的な出力を組み合わせる。

最終の時間的な畳み込み層の出力は、出力を生成する出力層に供給される。出力は、１つ又はそれ以上の配列決定サイクルにおける１つ又はそれ以上のクラスターをベースコールするために使用される。

以下では、分離された畳み込み及び組み合わせ畳み込みについてより詳細に説明する。
分離された畳み込み

前方伝搬の間、特殊化したアーキテクチャは、複数の入力からの情報を２つの段階で処理する。第１の段階では、入力間の情報の混合を防止するために、分離畳み込みが使用される。第２の段階では、入力間で情報を混合するために、組み合わせ畳み込みが使用される。第２の段階からの結果は、複数の入力に対する単一の推論を行うために使用される。

これは、畳み込み層がバッチ内の複数の入力を同時に処理し、バッチ内の各入力に対して対応する推論を行う、バッチモード技術とは異なる。対照的に、特殊化したアーキテクチャは、複数の入力を単一の推論にマッピングする。単一の推論は、４つの塩基（Ａ、Ｃ、Ｔ、及びＧ）のそれぞれについての分類スコアなど、２つ以上の予測を含むことができる。

一実施態様では、入力は、各入力が異なる時間ステップにおいて生成され、複数の入力チャネルを有するように、時間的順序付けを有する。例えば、複数の入力は、以下の３つの入力を含むことができる：時間ステップ（ｔ）における現在の配列決定サイクルによって生成された現在の入力、時間ステップ（ｔ－１）における前の配列決定サイクルによって生成された前の入力、及び時間ステップ（ｔ＋１）における次の配列決定サイクルによって生成された次の入力。別の実施態様では、各入力は、それぞれ、１つ又はそれ以上の前の畳み込み層によって現在の、前の、及び次の入力から導出され、ｋ個の特徴マップを含む。

一実施態様では、各入力は、以下の５つの入力チャネルを含むことができる：赤色画像チャネル（赤色）、赤色距離チャネル（黄色）、緑色画像チャネル（緑色）、緑色距離チャネル（紫色）、及びスケーリングチャネル（青色）。別の実施態様では、各入力は、前の畳み込み層によって生成されたｋ個の特徴マップを含むことができ、各特徴マップは入力チャネルとして処理される。

図１４は、分離された畳み込みの一実施態様を示す。分離された畳み込みは、各入力に畳み込みフィルタを並列に適用することによって、複数の入力を一度に処理する。分離された畳み込みでは、畳み込みフィルタは、同じ入力内の入力チャネルを組み合わせ、異なる入力内の入力チャネルは組み合わせない。一実施態様では、各入力に同じ畳み込みフィルタが並列に適用される。別の実施態様では、各入力に異なる畳み込みフィルタが並列に適用される。いくつかの実施態様では、各空間的な畳み込み層は、ｋ個の畳み込みフィルタのバンクを含み、これらのそれぞれが各入力に並列に適用される。
組み合わせ畳み込み

組み合わせ畳み込みは、異なる入力の対応する入力チャネルをグループ化し、各グループに畳み込みフィルタを適用することによって、異なる入力の間で情報を混合する。対応する入力チャネルのグループ化及び畳み込みフィルタの適用は、スライディングウィンドウに基づいて行われる。このコンテキストにおいて、ウィンドウは、例えば、２つの継続的な配列決定サイクルのための出力を表す、２つ以上の継続的な入力チャネルにわたる。このウィンドウはスライディングウィンドウなので、ほとんどの入力チャネルが２つ以上のウィンドウ内で使用される。

いくつかの実施態様では、異なる入力は、先行する空間的又は時間的な畳み込み層によって生成される出力シーケンスに由来する。出力シーケンスにおいて、異なる入力は、継続的な出力として配列されており、したがって、次の時間的な畳み込み層によって継続的な入力であると見なされる。次いで、次の時間的な畳み込み層において、組み合わせ畳み込みは、継続的な入力内の対応する入力チャネルのグループに畳み込みフィルタを適用する。

一実施態様では、継続的な入力は、現在の入力が時間ステップ（ｔ）における現在の配列決定サイクルによって生成され、前の入力が、時間ステップ（ｔ－１）における前の配列決定サイクルによって生成され、次の入力が、時間ステップ（ｔ＋１）における次の配列決定サイクルによって生成されるような、時間的順序付けを有する。別の実施態様では、各継続的な入力は、それぞれ、１つ又はそれ以上の前の畳み込み層によって現在の、前の、及び次の入力から導出され、ｋ個の特徴マップを含む。

畳み込みフィルタの深さＢは、スライディングウィンドウに基づいて対応する入力チャネルが畳み込みフィルタによってグループ単位で畳み込みされる、継続的な入力の数に依存する。換言すれば、深さＢは、各スライディングウィンドウ内の継続的な入力の数及びグループサイズに等しい。

図１５ａでは、各スライディングウィンドウ内で２つの継続的な入力からの対応する入力チャネルが組み合わされており、したがって、Ｂ＝２である。図１５ｂでは、各スライディングウィンドウ内で３つの継続的な入力からの対応する入力チャネルが組み合わされており、したがって、Ｂ＝３である。

一実施態様では、スライディングウィンドウは、同じ畳み込みフィルタを共有する。別の実施態様では、各スライディングウィンドウに異なる畳み込みフィルタが使用される。いくつかの実施態様では、時間的な畳み込み層は、ｋ個の畳み込みフィルタのバンクを含み、これらのそれぞれがスライディングウィンドウに基づいて継続的な入力に適用される。
フィルタバンク

図１６は、各畳み込み層が畳み込みフィルタのバンクを有する、ニューラルネットワークベースのベースコーラー２１８の畳み込み層の一実施態様を示す。図１６では、５つの畳み込み層が示されており、これらのそれぞれは、６４個の畳み込みフィルタのバンクを有する。いくつかの実施態様では、各空間的な畳み込み層は、ｋ個の畳み込みフィルタのバンクを有し、ｋは、１、２、８、６４、１２８、２５６などの任意の数とすることができる。いくつかの実施態様では、各時間的な畳み込み層は、ｋ個の畳み込みフィルタのバンクを有し、ｋは、１、２、８、６４、１２８、２５６などの任意の数とすることができる。

ここからは、補足的なスケーリングチャネル、及びそれがどのように計算されるかについて説明する。
スケーリングチャネル

図１７は、画像チャネルを補足するスケーリングチャネルの２つの構成を示す。スケーリングチャネルは、ニューラルネットワークベースのベースコーラー２１８に供給される入力データ内にピクセル単位で符号化されている。異なるクラスターサイズ及び不均一な照明条件は、広範囲のクラスター強度が抽出されるという結果をもたらす。スケーリングチャネルによって供給される加法的バイアスは、クラスター間にわたってクラスター強度を同等にする。他の実施態様では、画像パッチが、アップサンプリングされたサブピクセル解像度であるとき、スケーリングチャネルは、サブピクセルごとに符号化される。

単一のターゲットクラスターがベースコールされているとき、スケーリングチャネルは、全てのピクセルに同じスケーリング値を割り当てる。複数のターゲットクラスターが同時にベースコールされているとき、スケーリングチャネルは、クラスター形状データに基づいてピクセルのグループに異なるスケーリング値を割り当てる。

スケーリングチャネル１７１０は、全てのピクセルに対して同じスケーリング値（ｓ１）を有する。スケーリング値（ｓ１）は、ターゲットクラスターの中心を含む中心ピクセルの平均強度に基づく。一実施態様では、平均強度は、ターゲットクラスターに対するＡ及びＴベースコールを生成した２つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって計算される。

スケーリングチャネル１７０８は、クラスター形状データに基づいた対応するクラスターに帰属するそれぞれのピクセルグループに対して異なるスケーリング値（ｓ１、ｓ２、ｓ３、ｓｍ）を有する。各ピクセルグループは、対応するクラスターの中心を含む中央クラスターピクセルを含む。特定のピクセルグループのためのスケーリング値は、その中央クラスターピクセルの平均強度に基づく。一実施態様では、平均強度は、対応するクラスターに対するＡ及びＴベースコールを生成した２つ以上の先行する配列決定サイクル中に観察する中央クラスターピクセルの強度値を平均化することによって計算される。

いくつかの実施態様では、背景ピクセルは、０若しくは０．１、又は何らかの他の最小値であり得る、背景スケーリング値（ｓｂ）を割り当てられる。

一実施態様では、スケーリングチャネル１７０６及びそれらのスケーリング値は、強度スケーラー１７０４によって決定される。強度スケーラー１７０４は、先行する配列決定サイクルからのクラスター強度データ１７０２を使用して、平均強度を計算する。

他の実施態様では、補足的なスケーリングチャネルは、ニューラルネットワークベースのベースコーラー２１８の最後の層より前に又はその層に、ニューラルネットワークベースのベースコーラー２１８の１つ又はそれ以上の中間層より前に又はそれらの層に、及び画像サイズに一致するようにピクセル単位で符号化する代わりに単一の値としてなど、異なる方法で入力として提供することができる。

ここからは、ニューラルネットワークベースのベースコーラー２１８に供給される入力データについて説明する。
入力データ：画像チャネル、距離チャネル、及びスケーリングチャネル

図１８ａは、赤色画像及び緑色画像を生成する単一の配列決定サイクルのための入力データ１８００の一実施態様を示す。入力データ１８００は、以下を含む。
・赤色画像から抽出された画像パッチ内のピクセルに関する赤色強度データ１８０２（赤色）。赤色強度データ１８０２は、赤色画像チャネル内に符号化される。
・ピクセル単位で赤色強度データ１８０２を補足する赤色距離データ１８０４（黄色）。赤色距離データ１８０４は、赤色距離チャネル内に符号化される。
・緑色画像から抽出された画像パッチ内のピクセルに関する緑色強度データ１８０６（緑色）。緑色強度データ１８０６は、緑色画像チャネル内に符号化される。
・ピクセル単位で緑色強度データ１８０６を補足する緑色距離データ１８０８（紫色）。緑色距離データ１８０８は、緑色距離チャネル内に符号化される。
・ピクセル単位で赤色強度データ１８０２及び緑色強度データ１８０６を補足するスケーリングデータ１８１０（青色）。スケーリングデータ１８１０は、スケーリングチャネル内に符号化される。

他の実施態様では、入力データは、より少ない又はより多い数の画像チャネル及び補足的な距離チャネルを含むことができる。一実施例では、４チャネルケミストリーを使用する配列決定実行のために、入力データは、各配列決定サイクルのための４つの画像チャネル、及び４つの補足的な距離チャネルを含む。

ここからは、距離チャネル及びスケーリングチャネルがベースコール精度にどのように寄与するかについて説明する。
加法的バイアス

図１８ｂは、画像チャネルから生成された特徴マップに組み込まれる加法的バイアスを供給する距離チャネルの一実施態様を示す。この加法的バイアスは、ピクセル中心－クラスター中心間の距離に基づいていることからベースコール精度に寄与し、ピクセル中心－クラスター中心間の距離は、距離チャネル内にピクセル単位で符号化されている。

平均して、約３×３のピクセルが、１つのクラスターを含む。クラスターの中心における密度は、クラスターが実質的に中央の場所から外向きに成長することから、外辺部におけるよりも高いと予想される。周辺クラスターピクセルは、近くのクラスターからの競合する信号を含むことができる。したがって、中央クラスターピクセルは、最大強度領域と見なされ、クラスターを確実に識別するビーコンとして機能する。

画像パッチのピクセルは、複数のクラスター（例えば、１０～２００個のクラスター）及びそれらの周囲背景の強度発光を表現する。追加のクラスターは、より広い半径からの情報を組み込み、画像パッチ内に強度発光が表現されている、基礎をなす塩基を見分けることによってベースコール予測に寄与する。換言すれば、クラスターのグループからの強度発光は、個別の塩基（Ａ、Ｃ、Ｔ、又はＧ）に割り当てることができる強度パターンを累積的に作り出す。

補足的な距離チャネルでクラスター中心からの各ピクセルの距離を畳み込みフィルタに明示的に伝えることは、より高いベースコール精度をもたらすことが観察されている。距離チャネルは、どのピクセルがクラスター中心を含んでいるか、及びどのピクセルがクラスター中心からより遠く離れているかを畳み込みフィルタに伝える。畳み込みフィルタは、（ｂ）周辺クラスターピクセル、背景ピクセル、及びそれらから導出される特徴マップよりも、（ａ）中央クラスターピクセル、それらの隣接ピクセル、及びそれらから導出される特徴マップに着目することによって配列決定信号をその適切なソースクラスターに割り当てるために、この情報を使用する。着目することの一実施例では、距離チャネルは、（ａ）から生じた特徴マップに組み込まれている正の加法的バイアスを供給し、（ｂ）から生じた特徴マップに組み込まれている負の加法的バイアスを供給する。

距離チャネルは、画像チャネルと同じ次元数を有する。これにより、畳み込みフィルタは、局所受容フィールド内の画像チャネル及び距離チャネルを別個に評価し、評価をコヒーレントに組み合わせることができる。

単一のターゲットクラスターがベースコールされているとき、距離チャネルは、画像パッチの中心にある１つの中央クラスターピクセルのみを識別する。複数のターゲットクラスターが同時にベースコールされているとき、距離チャネルは、画像パッチ間にわたって分布した複数の中央クラスターピクセルを識別する。

「単一クラスター」距離チャネルは、ベースコールされる単一のターゲットクラスターの中心を中心ピクセル内に含む画像パッチに適用される。単一クラスター距離チャネルは、単一のターゲットクラスターまでの画像パッチ内の各ピクセルの中心間距離を含む。この実施態様では、画像パッチはまた、単一のターゲットクラスターに隣接する追加のクラスターも含むが、追加のクラスターはベースコールされない。

「マルチクラスター」距離チャネルは、ベースコールされる複数のターゲットクラスターの中心をそれぞれの中央クラスターピクセル内に含む画像パッチに適用される。マルチクラスター距離チャネルは、複数のターゲットクラスターの中から最も近いクラスターまでの画像パッチ内の各ピクセルの中心間距離を含む。これは、誤ったクラスターまでの中心間距離を測定する可能性を有するが、その可能性は低いものである。

「マルチクラスター形状ベース」距離チャネルは、ベースコールされる複数のターゲットクラスターの中心をそれぞれの中央クラスターピクセル内に含み、かつピクセル－クラスター間の帰属情報が既知である、画像パッチに適用される。マルチクラスター距離チャネルは、画像パッチ内の各クラスターピクセルの中心から、複数のターゲットクラスターのうちでそのクラスターピクセルに属する又はそれに帰属するクラスターの中心までの距離を含む。背景ピクセルには、計算された距離を与える代わりに、背景としてフラグ付けすることができる。

図１８ｂはまた、画像チャネルから生成された特徴マップに組み込まれる加法的バイアスを供給するスケーリングチャネルの一実施態様も示す。この加法的バイアスは、中央クラスターピクセルの平均強度に基づくため、ベースコール精度に寄与し、この平均強度は、スケーリングチャネル内にピクセル単位で符号化されている。距離チャネルのコンテキストにおける加法的バイアスについての議論は、スケーリングチャネルに類似的に適用される。
加法的バイアスの実施例

図１８ｂは、加法的バイアスがどのようにして距離及びスケーリングチャネルから導出され、画像チャネルから生成された特徴マップに組み込まれるかの一実施例を更に示す。

図１８ｂでは、畳み込みフィルタｉ１８１４は、２つの画像チャネル１８０２及び１８０６、２つの距離チャネル１８０４及び１８０８、並びにスケーリングチャネル１８１０にわたって局所受容フィールド１８１２（マゼンタ）を評価する。距離及びスケーリングチャネルは別個に符号化されるため、加法的バイアスは、チャネル固有の畳み込みカーネル（又は特徴検出器）１８１６ａ～ｅのそれぞれの中間出力１８１６ａ～ｅ（及びバイアス１８１６ｆ）が局所受容フィールド１８１２のための最終出力／特徴マップ要素１８２０としてチャネル単位で蓄積される（１８１８）ときに行われる。この実施例では、２つの距離チャネル１８０４及び１８０８によって供給される加法的バイアスは、それぞれ中間出力１８１６ｂ及び１８１６ｄである。スケーリングチャネル１８１０によって供給される加法的バイアスは、中間出力１８１６ｅである。

加法的バイアスは、ベースコール、すなわち、中央クラスターピクセル及びそれらの隣接ピクセルのピクセル強度についてより重要で信頼性が高いと考えられる画像チャネル内でのそれらの特徴をより強調することによって、特徴マップコンパイレーションプロセスを進める。訓練中、グラウンドトゥルースベースコールとの比較から計算された勾配の逆伝播は、畳み込みカーネルの重みを更新して、中央クラスターピクセル及びそれらの隣接ピクセルに対してより強い活性化をもたらす。

例えば、局所受容フィールド１８１２によって覆われた隣接ピクセルのグループ内のピクセルがクラスター中心を含み、そのとき、距離チャネル１８０４及び１８０８は、クラスター中心へのピクセルの近接度を反映する、と考える。結果として、強度中間出力１８１６ａ及び１８１６ｃがチャネル単位の蓄積１８１８において距離チャネル加法的バイアス１８１６ｂ及び１８１６ｄとマージされると、ピクセルの正にバイアスされた畳み込み表現１８２０がもたらされる。

対照的に、局所受容フィールド１８１２によって覆われたピクセルがクラスター中心の近くにないと、距離チャネル１８０４及び１８０８は、クラスター中心からのそれらの分離を反映する。結果として、強度中間出力１８１６ａ及び１８１６ｃがチャネル単位の蓄積１８１８において距離チャネル加法的バイアス１８１６ｂ及び１８１６ｄとマージされると、ピクセルの負にバイアスされた畳み込み表現１８２０がもたらされる。

同様に、スケーリングチャネル１８１０から導出されるスケーリングチャネル加法的バイアス１８１６ｅは、ピクセルの畳み込み表現１８２０を正に又は負にバイアスすることができる。

明確にするために、図１８ｂは、単一の配列決定サイクルのための入力データ１８００上での単一の畳み込みフィルタｉ１８１４の適用を示す。当業者であれば、この説明が、複数の畳み込みフィルタ（例えば、ｋ個のフィルタのフィルタバンクであり、ｋは８、１６、３２、６４、１２８、２５６などとすることができる）に、複数の畳み込み層（例えば、複数の空間的及び時間的な畳み込み層）、及び複数の配列決定サイクル（例えば、ｔ、ｔ＋１、ｔ－１）に拡張され得ることは理解するであろう。

他の実施態様では、距離及びスケーリングチャネルは、距離及びスケーリングチャネル並びに画像チャネルが同じ次元数を有するので、別々に符号化される代わりに、画像チャネルに直接適用されて、変調されたピクセル増幅）を生成する。更なる実施態様では、畳み込みカーネルの重みは、要素単位の増幅中に画像チャネル内の最も重要な特徴を検出するように、距離及び画像チャネルに基づいて決定される。更に他の実施態様では、距離及びスケーリングチャネルは、第１の層に供給される代わりに、下流の層及び／又はネットワーク（例えば、全結合ネットワーク又は分類層）に補助入力として提供される。また更なる実施態様では、距離及びスケーリングチャネルは、第１の層に供給され、下流の層及び／又はネットワークに（例えば、残差接続を介して）再供給される。

上記の説明は、ｋ個の入力チャネルを有する２Ｄ入力データについてのものである。３Ｄ入力への拡張は、当業者によって理解されるであろう。簡潔に述べると、体積入力は、次元ｋ×ｌ×ｗ×ｈを有する４Ｄテンソルであり、ｌは追加の次元、すなわち、長さである。各個々のカーネルは、４Ｄテンソル内で掃引された４Ｄテンソルであり、３Ｄテンソル（チャネル次元は、横断方向に掃引されないため、潰れている）。

他の実施態様では、入力データ１８００がアップサンプリングされたサブピクセル解像度にあるとき、距離及びスケーリングチャネルはサブピクセルごとに別個に符号化され、加法的バイアスはサブピクセルレベルで行われる。
特殊化したアーキテクチャ及び入力データを使用したベースコール

ここからは、特殊化したアーキテクチャ及び入力データが、ニューラルネットワークベースのベースコールのためにどのように使用されるかについて説明する。
単一のクラスターのベースコール

図１９ａ、図１９ｂ、及び図１９ｃは、単一のターゲットクラスターをベースコールする一実施態様を示す。特殊化したアーキテクチャは、３つの配列決定サイクル、すなわち、ベースコールされる現在（時間ｔ）の配列決定サイクル、前（時間ｔ－１）の配列決定サイクル、及び次（時間ｔ＋１）の配列決定サイクルを処理し、現在（時間ｔ）の配列決定サイクルにおける単一のターゲットクラスターのためのベースコールを生成する。

図１９ａ及び図１９ｂは、空間的な畳み込み層を示す。図１９ｃは、時間的な畳み込み層を、いくつかの他の非畳み込み層と共に示す。図１９ａ及び図１９ｂでは、垂直な点線が、空間的な畳み込み層を特徴マップから分離し、水平な破線が、３つの配列決定サイクルに対応する３つの畳み込みパイプラインを分離している。

各配列決定サイクルのために、入力データは、次元数ｎ×ｎ×ｍ（例えば、図１８ａにおける入力テンソル１８００）のテンソルを含み（ｎは正方形テンソルの幅及び高さを表し、ｍは入力チャネルの数を表す）、３つのサイクルのための次元数ｎ×ｎ×ｍ×ｔの入力データを作成する。

ここで、各サイクルごとのテンソルは、その画像チャネルの中心ピクセル内に、単一のターゲットクラスターの中心を含む。各サイクルごとのテンソルはまた、特定の配列決定サイクルにおいて画像チャネルのそれぞれに捕捉された単一のターゲットクラスターの、いくつかの隣接するクラスターの、及びそれらの周囲背景の強度発光を表現する。図１９ａでは、２つの例示的な画像チャネル、すなわち、赤色画像チャネル及び緑色画像チャネルが示されている。

各サイクルごとのテンソルはまた、対応する画像チャネルを補足する距離チャネル（例えば、赤色距離チャネル及び緑色距離チャネル）も含む。距離チャネルは、単一のターゲットクラスターまでの対応する画像チャネル内の各ピクセルの中心間距離を識別する。各サイクルごとのテンソルは、画像チャネルのそれぞれにおいて強度値をピクセル単位でスケーリングするスケーリングチャネルを更に含む。

特殊化したアーキテクチャは、５つの空間的な畳み込み層及び２つの時間的な畳み込み層を有する。各空間的な畳み込み層は、次元数ｊ×ｊ×∂のｋ個の畳み込みフィルタのバンク（ｊは正方形フィルタの幅及び高さを表し、∂はその深さを表す）を使用して、分離された畳み込みを適用する。各時間的な畳み込み層は、次元数ｊ×ｊ×αのｋ個の畳み込みフィルタのバンク（ｊは正方形フィルタの幅及び高さを表し、αはその深さを表す）を使用して組み合わせ畳み込みを適用する。

特殊化したアーキテクチャは、分類前の層（例えば、平坦化層及び高密度層）及び出力層（例えば、ソフトマックス分類層）を有する。分類前の層は、出力層のための入力を調製する。出力層は、現在（時間ｔ）の配列決定サイクルにおける単一のターゲットクラスターのためのベースコールを生成する。
一貫して減少する空間次元数

図１９ａ、図１９ｂ、及び図１９ｃはまた、畳み込みフィルタによって生成される、結果として得られる特徴マップ（畳み込み表現又は中間畳み込み表現又は畳み込みされた特徴又は活性化マップ）も示す。サイクルごとのテンソルから開始して、結果として得られる特徴マップの空間次元数は、１つの畳み込み層から次の畳み込み層までの間に一定ステップサイズで減少する（本明細書において「一貫して減少する空間次元数」と称される概念）。図１９ａ、図１９ｂ、及び図１９ｃでは、一貫して減少する空間次元数のために、２の例示的な一定ステップサイズが使用される。

一貫して減少する空間次元数は、以下の式によって表される：「現在の特徴マップ空間次元数＝前の特徴マップ空間次元数－畳み込みフィルタ空間次元数＋１」。一貫して減少する空間次元数は、畳み込みフィルタに、中央クラスターピクセル及びそれらの隣接ピクセル上でアテンションの焦点を漸進的に狭めさせ、中央クラスターピクセル及びそれらの隣接ピクセルの間で局所的な依存性を捕捉する特徴を有する特徴マップを生成させる。これは結果として、中央クラスターピクセル内に中心が含まれているクラスターを正確にベースコールするのを助ける。

５つの空間的な畳み込み層の分離された畳み込みは、３つの配列決定サイクル間での情報の混合を防止し、３つの別個の畳み込みパイプラインを維持する。

２つの時間的な畳み込み層の組み合わせ畳み込みは、３つの配列決定サイクルの間で情報を混合する。第１の時間的な畳み込み層は、最終の空間的な畳み込み層によって次及び現在の配列決定サイクルのためにそれぞれ生成された次及び現在の空間畳み込み表現にわたって畳み込みを行う。これにより、第１の時間的出力が得られる。第１の時間的な畳み込み層はまた、最終の空間的な畳み込み層によって現在及び前の配列決定サイクルのためにそれぞれ生成された現在及び前の空間畳み込み表現にわたって畳み込みを行う。これにより、第２の時間的出力が得られる。第２の時間的な畳み込み層は、第１及び第２の時間的出力にわたって畳み込みを行い、最終の時間的出力を生成する。

いくつかの実施態様では、最終の時間的出力は、平坦化層に供給されて、平坦化された出力を生成する。次いで、平坦化された出力は、高密度層に供給されて、高密度出力を生成する。高密度出力は、出力層によって処理されて、現在（時間ｔ）の配列決定サイクルにおける単一のターゲットクラスターのためのベースコールを生成する。

いくつかの実施態様では、出力層は、現在の配列決定サイクルにおける単一のターゲットクラスターに組み込まれた塩基がＡ、Ｃ、Ｔ、及びＧであることの尤度（分類スコア）を生成し、これらの尤度に基づいて塩基をＡ、Ｃ、Ｔ、又はＧとして分類する（例えば、図１９ａの塩基Ａなど、最大尤度を有する塩基が選択される）。このような実施態様では、尤度は、ソフトマックス分類層によって生成される指数関数的に正規化されたスコアであり、合計すると１になる。

いくつかの実施態様では、出力層は、単一のターゲットクラスターのための出力ペアを導出する。出力ペアは、現在の配列決定サイクルにおける単一のターゲットクラスターに組み込まれた塩基がＡ、Ｃ、Ｔ、又はＧであることのクラスラベルを識別し、クラスラベルに基づいて単一のターゲットクラスターをベースコールする。一実施態様では、１，０のクラスラベルがＡ塩基を識別し、０，１のクラスラベルがＣ塩基を識別し、１，１のクラスラベルがＴ塩基を識別し、０，０のクラスラベルがＧ塩基を識別する。別の実施態様では、１，１のクラスラベルがＡ塩基を識別し、０，１のクラスラベルがＣ塩基を識別し、０．５，０．５のクラスラベルがＴ塩基を識別し、０，０のクラスラベルがＧ塩基を識別する。更に別の実施態様では、１，０のクラスラベルがＡ塩基を識別し、０，１のクラスラベルがＣ塩基を識別し、０．５，０．５のクラスラベルがＴ塩基を識別し、０，０のクラスラベルがＧ塩基を識別する。また更なる実施態様では、１，２のクラスラベルがＡ塩基を識別し、０，１のクラスラベルがＣ塩基を識別し、１，１のクラスラベルがＴ塩基を識別し、０，０のクラスラベルがＧ塩基を識別する。

いくつかの実施態様では、出力層は、現在の配列決定サイクルにおける単一のターゲットクラスターに組み込まれた塩基がＡ、Ｃ、Ｔ、又はＧであることを識別する単一のターゲットクラスターのためのクラスラベルを導出し、クラスラベルに基づいて単一のターゲットクラスターをベースコールする。一実施態様では、０．３３のクラスラベルがＡ塩基を識別し、０．６６のクラスラベルがＣ塩基を識別し、１のクラスラベルがＴ塩基を識別し、０のクラスラベルがＧ塩基を識別する。別の実施態様では、０．５０のクラスラベルがＡ塩基を識別し、０．７５のクラスラベルがＣ塩基を識別し、１のクラスラベルがＴ塩基を識別し、０．２５のクラスラベルがＧ塩基を識別する。

いくつかの実施態様では、出力層は、単一の出力値を導出し、この単一の出力値を塩基Ａ、Ｃ、Ｔ、及びＧに対応するクラス値範囲と比較し、この比較に基づいて、単一の出力値を特定のクラス値範囲に割り当て、この割り当てに基づいて単一のターゲットクラスターをベースコールする。一実施態様では、単一の出力値はシグモイド関数を使用して導出され、単一の出力値は０～１の範囲である。別の実施態様では、０～０．２５のクラス値範囲がＡ塩基を表し、０．２５～０．５０のクラス値範囲がＣ塩基を表し、０．５０～０．７５のクラス値範囲がＴ塩基を表し、０．７５～１のクラス値範囲がＧ塩基を表す。

当業者であれば、他の実施態様において、特殊化したアーキテクチャが、より少ない又はより多い数の配列決定サイクルのための入力データを処理することができ、より少ない又はより多い数の空間的及び時間的な畳み込み層を含むことができることは理解するであろう。また、入力データの次元数、入力データ内のサイクルごとのテンソル、畳み込みフィルタ、結果として生じる特徴マップ、及び出力が異なっていてもよい。また、畳み込み層内の畳み込みフィルタの数が異なっていてもよい。それは、異なるパディング及びストライディング構成を使用することができる。それは、異なる分類関数（例えば、シグモイド又は回帰）を使用することができ、全結合層を含んでも含まなくてもよい。それは、１Ｄ重畳、２Ｄ重畳、３Ｄ重畳、４Ｄ重畳、５Ｄ重畳、拡張又は無性重畳、転置重畳、奥行分離可能な重畳、１×１重畳、グループ重畳、扁平重畳、空間及びクロスチャネルの重畳、シャッフルされたグループ化重畳、空間的な分離可能な重畳、及び逆重畳を使用することができる。それは、ロジスティック回帰／対数損失、多クラスクロスエントロピー／ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、Ｌ１損失、Ｌ２損失、平滑Ｌ１損失、及びＨｕｂｅｒ損失などの１つ又はそれ以上の損失機能を使用することができる。それは、ＴＦＲｅｃｏｒｄ、圧縮符号化（例えば、ＰＮＧ）、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期／非同期ＳＧＤのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット（ＬＳＴＭ又はＧＲＵなど）、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能（例えば、非線形変換関数は、整流線形ユニット（ＲｅＬＵ）、漏れやすいＲｅＬＵ、指数関数的ライナーユニット（ＥＬＵ）、シグモイド及び双曲線正接（ｔａｎｈ））、バッチ正規化層、規則化層、ドロップアウト、プール層（例えば、最大又は平均プール）、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。

単一のクラスターのベースコールについて説明してきたが、ここからは、複数のクラスターのベースコールについて説明する。
複数のクラスターのベースコール

入力データのサイズ及びフローセル上のクラスター密度に応じて、１入力当たり１０個～３０万個のクラスターが、ニューラルネットワークベースのベースコーラー２１８によって同時にベースコールされる。これを並列プロセッサ上に実装されたデータ並列戦略及び／又はモデル並列戦略に拡張し、サイズ１０のバッチ又はミニバッチを使用すると、１バッチ当たり又は１ミニバッチ当たり１００個～３００万個のクラスターが同時にベースコールされるという結果になる。

配列決定構成（例えば、クラスター密度、フローセル上のタイルの数）に応じて、タイルは、２万個～３０万個のクラスターを含む。別の実施態様では、ＩｌｌｕｍｉｎａのＮｏｖａＳｅｑ配列決定器が、タイル当たり最大４百万個のクラスターを有する。したがって、タイルの配列決定画像（タイル画像）は、２万個～３０万個のクラスター及びそれらの周囲背景からの強度発光を表現することができる。そのため、一実施態様では、タイル画像全体を含む入力データを使用すると、１入力当たり３０万個のクラスターが同時にベースコールされるという結果になる。別の実施態様では、入力データ内でサイズ１５×１５ピクセルの画像パッチを使用すると、１入力当たり１００個未満のクラスターが同時にベースコールされるという結果になる。当業者であれば、これらの数が、配列決定構成、並列戦略、アーキテクチャの詳細（例えば、最適なアーキテクチャハイパーパラメータに基づく）、及び利用可能な計算に応じて変化し得ることは理解するであろう。

図２０は、複数のターゲットクラスターに同時にベースコールする一実施態様を示す。入力データは、上述の３つの配列決定サイクルのための３つのテンソルを有する。各サイクルごとのテンソル（例えば、図１８ａの入力テンソル１８００）は、特定の配列決定サイクルにおいて画像チャネルのそれぞれに捕捉されたベースコールされる複数のターゲットクラスター及びそれらの周囲背景の強度発光を表現する。他の実施態様では、ベースコールされない、いくつかの追加の隣接するクラスターもまた、コンテキストのために含まれる。

マルチクラスターベースコール実施態様では、各サイクルごとのテンソルは、対応する画像チャネルを補足する距離チャネル（例えば、赤色距離チャネル及び緑色距離チャネル）を含む。距離チャネルは、複数のターゲットクラスターの中から最も近いクラスターまでの対応する画像チャネル内の各ピクセルの中心間距離を識別する。

マルチクラスター形状ベースベースコール実施態様では、各サイクルごとのテンソルは、対応する画像チャネルを補足する距離チャネル（例えば、赤色距離チャネル及び緑色距離チャネル）を含む。距離チャネルは、対応する画像チャネル内の各クラスターピクセルの中心から、複数のターゲットクラスターのうちでそのクラスターピクセルに属する又はそれに帰属するクラスターの中心までの距離を識別する。

各サイクルごとのテンソルは、画像チャネルのそれぞれにおいて強度値をピクセル単位でスケーリングするスケーリングチャネルを更に含む。

図２０では、各サイクルごとのテンソルの空間次元数は、図１９ａに示されるものよりも大きい。すなわち、図１９ａの単一のターゲットクラスターベースコール実施態様では、各サイクルごとのテンソルの空間次元数が１５×１５であるのに対し、図２０の複数のクラスターベースコール実施態様では、各サイクルごとのテンソルの空間次元数は１１４×１１４である。追加のクラスターの強度発光を表現するより大きな量の画素化データを有することは、いくつかの実施態様によれば、複数のクラスターに対して同時に予測されるベースコールの精度を向上させる。
冗長な畳み込みの回避

更に、各サイクルごとのテンソル内の画像チャネルは、配列決定画像から抽出された画像パッチから得られる。いくつかの実施態様では、空間的に連続している（例えば、左部、右部、上部、及び底部で連続している）抽出された画像パッチの間に重複ピクセルが存在する。したがって、一実施態様では、重複ピクセルは冗長な畳み込みを受けず、重複ピクセルが後続の入力の一部であるときは、前の畳み込みからの結果が後のインスタンスで再利用される。

例えば、サイズｎ×ｎピクセルの第１の画像パッチが配列決定画像から抽出され、サイズｍ×ｍピクセルの第２の画像パッチも同じ配列決定画像から抽出され、その結果、第１及び第２の画像パッチが空間的に連続し、ｏ×ｏピクセルの重複領域を共有する、と考える。更に、ｏ×ｏピクセルが第１の画像パッチの一部として畳み込みされて、メモリに記憶される第１の畳み込み表現を生成すると考える。そのとき、第２の画像パッチが畳み込みされると、ｏ×ｏピクセルが再び畳み込みされることはなく、代わりに、第１の畳み込み表現がメモリから取り出され、再利用される。いくつかの実施態様では、ｎ＝ｍである。他の実施態様では、それらは等しくない。

次いで、入力データは、特殊化したアーキテクチャの空間的及び時間的な畳み込み層によって処理されて、次元数ｗ×ｗ×ｋの最終の時間的出力を生成する。ここでも、一貫して減少する空間次元数の事象下で、空間次元数は、各畳み込み層において２の一定ステップサイズで減少する。すなわち、ｎ×ｎの空間次元数の入力データで開始すると、ｗ×ｗの空間次元数の最終の時間的出力が導出される。

次いで、空間次元数ｗ×ｗの最終の時間的出力に基づいて、出力層が、ｗ×ｗ組のユニット内の各ユニットのためのベースコールを生成する。一実施態様では、出力層は、ユニットごとに４つの塩基（Ａ、Ｃ、Ｔ、及びＧ）のための４とおりの分類スコアを生成するソフトマックス層である。すなわち、ｗ×ｗ組のユニット内の各ユニットは、図２０に示されるように、対応するソフトマックスクアドルプルにおける最大分類スコアに基づいてベースコールが割り当てられる。いくつかの実施態様では、ｗ×ｗ組のユニットは、最終の時間的出力を平坦化層及び高密度層によって処理して平坦化された出力及び高密度出力をそれぞれ生成することの結果として導出される。このような実施態様では、平坦化された出力は、ｗ×ｗ×ｋ個の要素を有し、高密度出力は、ｗ×ｗ組のユニットを形成するｗ×ｗ個の要素を有する。

複数のターゲットクラスターのためのベースコールは、ｗ×ｗ組のユニット内のベースコールされたユニットのうちのどれが、中央クラスターピクセル、すなわち、複数のターゲットクラスターのそれぞれの中心を含む入力データ内のピクセルと一致するか、又はそれに対応するかを識別することによって取得される。所与のターゲットクラスターには、所与のターゲットクラスターの中心を含むピクセルと一致する又はそれに対応するユニットのベースコールが割り当てられる。換言すれば、中央クラスターピクセルと一致しない又はそれに対応しないユニットのベースコールはフィルタで除外される。この機能は、ベースコールフィルタリング層によって操作可能になっており、ベースコールフィルタリング層は、いくつかの実施態様では特殊化したアーキテクチャの一部であり、又は他の実施態様では後処理モジュールとして実装されている。

他の実施態様では、複数のターゲットクラスターのためのベースコールは、ｗ×ｗ組のユニット内のベースコールされたユニットのどのグループが同じクラスターを覆うかを識別することによって、すなわち、同じクラスターを表現する入力データ内のピクセルグループを識別することによって取得される。次いで、各クラスター及びその対応するピクセルグループについて、それぞれの４つの塩基クラス（Ａ、Ｃ、Ｔ、及びＧ）の分類スコア（ソフトマックス確率）の平均が、ピクセルグループ内のピクセルにわたって計算され、最も高い平均分類スコアを有する塩基クラスが、クラスターをベースコールするために選択される。

訓練中、いくつかの実施態様では、グラウンドトゥルース比較及び誤差計算は、中央クラスターピクセルと一致する又はそれらに対応するユニットに対してのみ行われ、その結果、それらの予測されたベースコールは、グラウンドトゥルースラベルとして識別される正しいベースコールに対して評価される。

複数のクラスターのベースコールについて説明してきたが、ここからは、複数のクラスター及び複数のサイクルのベースコールについて説明する。
複数のクラスター及び複数のサイクルのベースコール

図２１は、複数の継続的な配列決定サイクルにおける複数のターゲットクラスターを同時にベースコールし、それによって複数のターゲットクラスターのそれぞれのためのベースコール配列を同時に生成する一実施態様を示す。

上述の単一及び複数のベースコール実施態様では、１つの配列決定サイクル（現在（時間ｔ）の配列決定サイクル）におけるベースコールは、３つの配列決定サイクル（現在（時間ｔ）、前／左側フランキング（時間ｔ－１）、及び次／右側フランキング（時間ｔ＋１）の配列決定サイクル）のためのデータを使用して予測され、右側及び左側フランキングの配列決定サイクルは、塩基トリプレットモチーフのための配列特異的なコンテキスト、並びにプレフェージング信号及びフェージング信号の２次の寄与を提供する。この関係は、以下の式によって表される：「入力データにデータが含まれている配列決定サイクルの数（ｔ）＝ベースコールされている配列決定サイクルの数（ｙ）＋右側及び左側フランキングの配列決定サイクルの数（ｘ）」。

図２１では、入力データは、ｔ個の配列決定サイクルのためのｔ個のサイクルごとのテンソルを含んでおり、それにより、入力データの次元数はｎ×ｎ×ｍ×ｔとなり、ここで、ｎ＝１１４、ｍ＝５、及びｔ＝１５である。他の実施態様では、これらの次元数は異なる。ｔ個の配列決定サイクルのうち、第ｔの配列決定サイクル及び第１の配列決定サイクルは、右側及び左側フランキングコンテキストｘとして機能し、それらの間のｙ個の配列決定サイクルがベースコールされる。したがって、ｙ＝１３、ｘ＝２、及びｔ＝ｙ＋ｘである。各サイクルごとのテンソルは、図１８ａの入力テンソル１８００など、画像チャネル、対応する距離チャネル、及びスケーリングチャネルを含む。

次いで、ｔ個のサイクルごとのテンソルを有する入力データは、特殊化したアーキテクチャの空間的及び時間的な畳み込み層によって処理されて、ｙ個の最終の時間的出力を生成し、これらのそれぞれは、ベースコールされているｙ個の配列決定サイクルのそれぞれ１つに対応する。ｙ個の最終の時間的出力のそれぞれは、ｗ×ｗ×ｋの次元数を有する。ここでも、一貫して減少する空間次元数の事象下で、空間次元数は、各畳み込み層において２の一定ステップサイズで減少する。すなわち、ｎ×ｎの空間次元数の入力データで開始すると、ｗ×ｗの空間次元数のｙ個の最終の時間的出力のそれぞれが導出される。

次に、ｙ個の最終の時間的出力のそれぞれが、出力層によって並列に処理される。ｙ個の最終の時間的出力のそれぞれについて、出力層は、ｗ×ｗ組のユニット内の各ユニットのためのベースコールを生成する。一実施態様では、出力層は、ユニットごとに４つの塩基（Ａ、Ｃ、Ｔ、及びＧ）のための４とおりの分類スコアを生成するソフトマックス層である。すなわち、ｗ×ｗ組のユニット内の各ユニットは、図２０に示されるように、対応するソフトマックスクアドルプルにおける最大分類スコアに基づいてベースコールが割り当てられる。いくつかの実施態様では、ｗ×ｗ組のユニットは、ｙ個の最終の時間的出力のそれぞれについて、後のものを平坦化層及び高密度層によってそれぞれに処理して対応する平坦化された出力及び高密度出力を生成することの結果として導出される。このような実施態様では、各平坦化された出力は、ｗ×ｗ×ｋ個の要素を有し、各高密度出力は、ｗ×ｗ組のユニットを形成するｗ×ｗ個の要素を有する。

ｙ個の配列決定サイクルのそれぞれについて、複数のターゲットクラスターのためのベースコールは、対応するｗ×ｗ組のユニット内のベースコールされたユニットのうちのどれが、中央クラスターピクセル、すなわち、複数のターゲットクラスターのそれぞれの中心を含む入力データ内のピクセルと一致するか、又はそれに対応するかを識別することによって取得される。所与のターゲットクラスターには、所与のターゲットクラスターの中心を含むピクセルと一致する又はそれに対応するユニットのベースコールが割り当てられる。換言すれば、中央クラスターピクセルと一致しない又はそれに対応しないユニットのベースコールはフィルタで除外される。この機能は、ベースコールフィルタリング層によって操作可能になっており、ベースコールフィルタリング層は、いくつかの実施態様では特殊化したアーキテクチャの一部であり、又は他の実施態様では後処理モジュールとして実装されている。

入力ごとに、ｙ個の配列決定サイクルのそれぞれにおける複数のターゲットクラスターのそれぞれのためのベースコール、すなわち、複数のターゲットクラスターのそれぞれのための長さｙのベースコール配列がもたらされる。他の実施態様では、ｙは２０、３０、５０、１５０、３００などである。当業者であれば、これらの数が、配列決定構成、並列戦略、アーキテクチャの詳細（例えば、最適なアーキテクチャハイパーパラメータに基づく）、及び利用可能な計算に応じて変化し得ることは理解するであろう。
エンドツーエンドの次元数ダイアグラム

以下の説明は、画像データからベースコールを生成するのに必要な基礎となるデータ次元数変化の異なる実施態様を、上記データ次元数変化を実現するデータオペレータの次元数と共に例示するために、次元数ダイアグラムを使用する。

図２２、図２３、及び図２４では、矩形は、空間的及び時間的な畳み込み層並びにソフトマックス分類層のようなデータオペレータを表し、角に丸みを帯びた矩形は、データオペレータによって生成されたデータ（例えば、特徴マップ）を表す。

図２２は、単一のクラスターのベースコールの実施態様のための次元数ダイアグラム２２００を示す。入力の「サイクル次元」は３であり、第１の時間的な畳み込み層に至るまでは、結果として得られる特徴マップに対して３であり続けることに留意されたい。３のサイクル次元は、３つの配列決定サイクルを提示しており、その連続性は、３つの配列決定サイクルのための特徴マップが別個に生成及び畳み込みされ、かつ３つの配列決定サイクルの間で特徴が混合されないことを表す。分離された畳み込みパイプラインは、空間的な畳み込み層の深さ単位の分離された畳み込みフィルタによって実現される。空間的な畳み込み層の深さ単位の分離された畳み込みフィルタの「深さ次元数」は１であることに留意されたい。これは、深さ単位の分離された畳み込みフィルタが、所与の配列決定サイクルのみ、すなわち、イントラサイクルのデータ及び結果として得られる特徴マップにわたって畳み込みを行うことを可能にし、かつ深さ単位の分離された畳み込みフィルタが、任意の他の配列決定サイクルのデータ及び結果として得られる特徴マップにわたって畳み込みを行うことを防止するものである。

対照的に、時間的な畳み込み層の深さ単位の組み合わせ畳み込みフィルタの深さ次元数は２であることに留意されたい。これは、深さ単位の組み合わせ畳み込みフィルタが、複数の配列決定サイクルからの結果として得られた特徴マップにわたってグループ単位の畳み込みを行い、配列決定サイクル間で特徴を混合することを可能にするものである。

また、２の一定ステップサイズによる「空間次元数」の一貫した減少にも留意されたい。

更に、４つの要素を有するベクトルが、ソフトマックス層によって指数関数的に正規化されて、４つの塩基（Ａ、Ｃ、Ｔ、及びＧ）のための分類スコア（すなわち、信頼性スコア、確率、尤度、ソフトマックススコア）を生成する。最も高い（最大）ソフトマックススコアを有する塩基は、現在の配列決定サイクルにおいてベースコールされている単一のターゲットクラスターに割り当てられる。

当業者であれば、他の実施態様では、例示された次元数が、配列決定構成、並列戦略、アーキテクチャの詳細（例えば、最適なアーキテクチャハイパーパラメータに基づく）、及び利用可能な計算に応じて変化し得ることは理解するであろう。

図２３は、複数のクラスター、単一の配列決定サイクルのベースコールの実施態様のための次元数ダイアグラム２３００を示す。単一のクラスターのベースコールに対するサイクル、深さ、及び空間次元数に関する上記の説明は、この実施態様に適用される。

ここで、ソフトマックス層は、１０，０００個のユニットのそれぞれに対して独立して動作し、１０，０００個のユニットのそれぞれについてソフトマックススコアのそれぞれのクアドルプルを生成する。クアドルプルは、４つの塩基（Ａ、Ｃ、Ｔ、及びＧ）に対応する。いくつかの実施態様では、１０，０００個のユニットは、６４，００００個の平坦化されたユニットの１０，０００個の高密度ユニットへの変換から導出される。

次いで、１０，０００個のユニットのそれぞれのソフトマックススコアクアドルプルから、各クアドルプルにおいて最も高いソフトマックススコアを有する塩基が、１０，０００個のユニットのそれぞれ１つに割り当てられる。

次いで、１０，０００個のユニットのうち、現在の配列決定サイクルにおいて同時にベースコールされている２，５００個のターゲットクラスターのそれぞれの中心を含んでいる２，５００個の中央クラスターピクセルに対応する、それらの２５００個のユニットが選択される。選択された２，５００個のユニットに割り当てられた塩基は、結果として、２，５００個のターゲットクラスターのうちの対応するものに割り当てられる。

図２４は、複数のクラスター、複数の配列決定サイクルのベースコールの実施態様のための次元数ダイアグラム２４００を示す。単一のクラスターのベースコールに対するサイクル、深さ、及び空間次元数に関する上記の説明は、この実施態様に適用される。

更に、複数のクラスターのベースコールに対するソフトマックスベースのベースコール分類についての上記の説明は、ここでも適用される。しかしながら、ここでは、２，５００個のターゲットクラスターのソフトマックスベースのベースコール分類は、ベースコールされた１３個の配列決定サイクルのそれぞれに対して並列に行われ、それによって、２，５００個のターゲットクラスターのそれぞれのための１３個のベースコールを同時に生成する。

当業者であれば、他の実施態様では、例示された次元数が、配列決定構成、並列戦略、アーキテクチャの詳細（例えば、最適なアーキテクチャハイパーパラメータに基づく）、及び利用可能な計算に応じて変化し得ることは理解するであろう。
アレイ化された入力対スタック化された入力

ここからは、ニューラルネットワークベースのコーラーへの多重サイクル入力データが配置され得る２つの構成について説明する。第１の構成は「アレイ化された入力」と呼ばれ、第２の構成は「スタック化された入力」と呼ばれる。アレイ化された入力は、図２５ａに示されており、図１９ａ～図２４に関して上に説明されている。サイクルごとの入力内の画像パッチは、残差レジストレーション誤差に起因して互いに対して位置がずれていることから、アレイ化された入力は、各配列決定サイクルの入力を別個の列／ブロック内に符号化する。特殊化したアーキテクチャは、別個の列／ブロックのそれぞれの処理を分離するために、アレイ化された入力と共に使用される。また、距離チャネルは、サイクル内での画像パッチ間の位置ずれ、及びサイクル間での画像パッチ間の位置ずれを考慮するために、変換されたクラスター中心を使用して計算される。

対照的に、図２５ｂに示される、スタック化された入力は、異なる配列決定サイクルからの入力を単一の列／ブロック内に符号化する。一実施態様では、これにより、スタック化された入力内の画像パッチが、インターサイクル及びイントラサイクルの残差レジストレーション誤差を排除する、アフィン変換及び強度補間によって互いに位置合わせされているため、特殊化したアーキテクチャを使用する必要性がなくなる。いくつかの実施態様では、スタック化された入力は、全ての入力に対して共通のスケーリングチャネルを有する。

別の実施態様では、各画像パッチの中心ピクセルの中心が、ベースコールされている単一のターゲットクラスターの中心と一致するように、画像パッチをリフレーム又はシフトするために、強度補間が使用される。これにより、全ての非中心ピクセルが単一のターゲットクラスターの中心から等距離であるため、補足的な距離チャネルを使用する必要性がなくなる。距離チャネルなしのスタック化された入力は、本明細書において「リフレームされた入力」と称され、図２７に例示されている。

しかしながら、複数のクラスターを伴うベースコール実施態様では、画像パッチに、ベースコールされる複数の中央クラスターピクセルが含まれるため、リムレームすることは実行不可能であり得る。距離チャネルなし、かつリフレームなしのスタック化された入力は、本明細書において「整列された入力」と称され、図２８及び図２９に例示されている。整列された入力は、距離チャネルの計算が所望されず（例えば、計算制限に起因する）、リフレームすることが不可能であるときに使用され得る。

以下のセクションは、特殊化したアーキテクチャ及び補足的な距離チャネルを使用せず、代わりに標準的な畳み込み層及びフィルタを使用する、様々なベースコール実施態様について説明する。
リフレームされた入力：距離チャネルなしの整列された画像パッチ

図２６ａは、ベースコールされているターゲットクラスターの中心を中心ピクセルの中心に配置するように画像パッチ２６０２のピクセルをリフレームする（２６００ａ）一実施態様を示す。ターゲットクラスターの中心（紫色）は、画像パッチ２６０２の中心ピクセル内に収まっているが、図２６００ａに示すように、中心ピクセルの中心からあるオフセット（赤色）の位置にある。

オフセットを排除するために、リフレーマー２６０４が、ピクセルの強度を補間してリフレームを補正することによって画像パッチ２６０２をシフトさせ、リフレームされた／シフトされた画像パッチ２６０６を生成する。シフトされた画像パッチ２６０６では、中心ピクセルの中心は、ターゲットクラスターの中心と一致する。また、非中心ピクセルは、ターゲットクラスターの中心から等距離である。補間は、最近傍強度抽出、ガウシアンベースの強度抽出、２×２サブピクセル領域の平均に基づく強度抽出、２×２サブピクセル領域の最大輝度に基づく強度抽出、３×３サブピクセル領域の平均に基づく強度抽出、バイリニア強度抽出、バイキュービック強度抽出、及び／又は重み付け面積カバー率に基づく強度抽出によって実行することができる。これらの技術は、「強度抽出方法」と題された付録に詳細に記載されている。

図２６ｂは、（ｉ）中心ピクセルの中心がターゲットクラスターの中心と一致し、（ｉｉ）非中心ピクセルがターゲットクラスターの中心から等距離である、別の例示的なリフレームされた／シフトされた画像パッチ２６００ｂを示す。これらの２つの要因により、全ての非中心ピクセルがターゲットクラスターの中心に対して同じ程度の近接度を有するため、補足的な距離チャネルを提供する必要性がなくなる。

図２７は、標準的な畳み込みニューラルネットワーク及びリフレームされた入力を使用して、現在の配列決定サイクルにおける単一のターゲットクラスターをベースコールする一実施態様を示す。図示された実施態様では、リフレームされた入力は、ベースコールされている現在（ｔ）の配列決定サイクルのための現在の画像パッチセット、前（ｔ－１）の配列決定サイクルのための前の画像パッチセット、及び次（ｔ＋１）の配列決定サイクルのための次の画像パッチセットを含む。各画像パッチセットは、１つ又はそれ以上の画像チャネルのそれぞれ１つのための画像パッチを有する。図２７は、２つの画像チャネル、すなわち、赤色チャネル及び緑色チャネルを示す。各画像パッチは、ベースコールされているターゲットクラスター、いくつかの隣接するクラスター、及びそれらの周囲背景を覆うピクセルのためのピクセル強度データを有する。リフレームされた入力はまた、共通のスケーリングチャネルも含む。

図２６ａ～図２６ｂに関して上述したように、リフレームされた入力は、画像パッチが、中心にターゲットクラスターの中心を配置するようにリフレーム又はシフトされるため、いかなる距離チャネルも含んでいない。また、画像パッチは、インターサイクル及びイントラサイクルの残差レジストレーション誤差を除去するために互いに位置合わせされる。一実施態様では、これは、アフィン変換及び強度補間を使用して行われ、その更なる詳細は、付録１、２、３、及び４に見出すことができる。これらの要因により、特殊化したアーキテクチャを使用する必要性がなくなり、代わりに、標準的な畳み込みニューラルネットワークが、リフレームされた入力と共に使用される。

図示された実施態様では、標準的な畳み込みニューラルネットワーク２７００は、標準的な畳み込みフィルタを使用する７つの標準的な畳み込み層を含む。これは、配列決定サイクル間でのデータの混合を防止するための分離された畳み込みパイプラインが存在しないことを意味する（データが整列されており、混合することができるので）。いくつかの実施態様では、中央クラスター中心及びその隣接ピクセルに対して他のピクセルよりも着目するように標準的な畳み込みフィルタを教育するために、一貫して減少する空間次元数の事象が使用される。

次いで、リフレームされた入力は、標準的な畳み込み層によって処理されて、最終畳み込み表現を生成する。最終畳み込み表現に基づいて、現在の配列決定サイクルにおけるターゲットクラスターのためのベースコールは、図１９ｃに関して上述したように、平坦化層、高密度層、及び分類層を使用して同様の様式で取得される。

いくつかの実施態様では、プロセスは、複数の配列決定サイクルにわたって反復されて、ターゲットクラスターのためのベースコールの配列を生成する。

他の実施態様では、プロセスは、複数のターゲットクラスターのための複数の配列決定サイクルにわたって反復されて、複数のターゲットクラスター内の各ターゲットクラスターのためのベースコールの配列を生成する。
整列された入力：距離チャネル及びリフレームなしの整列された画像パッチ

図２８は、標準的な畳み込みニューラルネットワーク及び整列された入力を使用して、現在の配列決定サイクルにおける複数のターゲットクラスターをベースコールする一実施態様を示す。ここで、リフレームすることは、画像パッチが、ベースコールされている複数の中央クラスターピクセルを含んでいるため、実行不可能である。その結果、整列された入力内の画像パッチは、リフレームされない。更に、一実施態様によれば、補足的な距離チャネルは、計算考慮事項に起因して含まれていない。

次いで、整列された入力は、標準的な畳み込み層によって処理されて、最終畳み込み表現を生成する。最終畳み込み表現に基づいて、ターゲットクラスターのそれぞれのためのベースコールは、図２０に関して上述したように平坦化層（任意選択）、高密度層（任意選択）、分類層、及びベースコールフィルタリング層を使用して、同様の様式で現在の配列決定サイクルにおいて取得される。

図２９は、標準的な畳み込みニューラルネットワーク及び整列された入力を使用して、複数の配列決定サイクルにおける複数のターゲットクラスターをベースコールする一実施態様を示す。整列された入力は、標準的な畳み込み層によって処理されて、ベースコールされているｙ個の配列決定サイクルのそれぞれのための最終畳み込み表現を生成する。ｙ個の最終畳み込み表現に基づいて、ターゲットクラスターのそれぞれのためのベースコールは、図２１に関して上述したように平坦化層（任意選択）、高密度層（任意選択）、分類層、及びベースコールフィルタリング層を使用して、ベースコールされているｙ個の配列決定サイクルのそれぞれのために同様の様式で取得される。

当業者であれば、他の実施態様において、標準的な畳み込みニューラルネットワークが、より少ない又はより多い数の配列決定サイクルのためのリフレームされた入力を処理することができ、より少ない又はより多い数の標準的な畳み込み層を含むことができることは理解するであろう。また、リフレームされた入力の次元数、リフレームされた入力内のサイクルごとのテンソル、畳み込みフィルタ、結果として生じる特徴マップ、及び出力が異なっていてもよい。また、畳み込み層内の畳み込みフィルタの数が異なっていてもよい。それは、１Ｄ重畳、２Ｄ重畳、３Ｄ重畳、４Ｄ重畳、５Ｄ重畳、拡張又は無性重畳、転置重畳、奥行分離可能な重畳、１×１重畳、グループ重畳、扁平重畳、空間及びクロスチャネルの重畳、シャッフルされたグループ化重畳、空間的な分離可能な重畳、及び逆重畳を使用することができる。それは、ロジスティック回帰／対数損失、多クラスクロスエントロピー／ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、Ｌ１損失、Ｌ２損失、平滑Ｌ１損失、及びＨｕｂｅｒ損失などの１つ又はそれ以上の損失機能を使用することができる。それは、ＴＦＲｅｃｏｒｄ、圧縮符号化（例えば、ＰＮＧ）、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期／非同期ＳＧＤのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット（ＬＳＴＭ又はＧＲＵなど）、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能（例えば、非線形変換関数は、整流線形ユニット（ＲｅＬＵ）、漏れやすいＲｅＬＵ、指数関数的ライナーユニット（ＥＬＵ）、シグモイド及び双曲線正接（ｔａｎｈ））、バッチ正規化層、規則化層、ドロップアウト、プール層（例えば、最大又は平均プール）、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。
訓練

図３０は、ニューラルネットワークベースのベースコーラー２１８を訓練する（３０００）一実施態様を示す。特殊化したアーキテクチャ及び標準的なアーキテクチャの両方で、ニューラルネットワークベースのベースコーラー２１８は、予測されたベースコール３００４を正しいベースコール３００８と比較し、比較に基づいて誤差３００６を計算する、逆伝播ベースの勾配更新技術を使用して訓練される。そのとき、誤差３００６は勾配を計算するために使用され、勾配は、後方伝播３０１０中にニューラルネットワークベースのベースコーラー２１８の重み及びパラメータに適用される。訓練３０００は、アダムなどの確率的勾配更新アルゴリズムを使用して、訓練器１５１０によって操作可能である。

訓練器１５１０は、訓練データ３００２（配列決定画像１０８に由来する）を使用して、ニューラルネットワークベースのベースコーラー２１８を、予測されたベースコール３００４を生成する前方伝播３０１２及び誤差３００６に基づいて重み及びパラメータを更新する後方伝播３０１０の数千～数百万回の反復にわたって訓練する。訓練３０００に関する更なる詳細は、「深層学習ツール」と題された付録に見出すことができる。
ＣＮＮ－ＲＮＮベースのベースコーラー
ハイブリッドニューラルネットワーク

図３１ａは、ニューラルネットワークベースのベースコーラー２１８として使用されるハイブリッドニューラルネットワーク３１００ａの一実施態様を示す。ハイブリッドニューラルネットワーク３１００ａは、少なくとも１つの畳み込みモジュール３１０４（又は畳み込みニューラルネットワーク（ＣＮＮ））及び少なくとも１つの反復モジュール３１０８（又は反復ニューラルネットワーク（ＲＮＮ））を含む。反復モジュール３１０８は、畳み込みモジュール３１０４からの入力を使用及び／又は受信する。

畳み込みモジュール３１０４は、１つ又はそれ以上の畳み込み層によって入力データ３１０２を処理し、畳み込み出力３１０６を生成する。一実施態様では、入力データ３１０２は、「入力」と題されたセクションに上述したように、画像チャネル又は画像データのみを主入力として含む。ハイブリッドニューラルネットワーク３１００ａに供給される画像データは、上述した画像データ２０２と同じであってもよい。

別の実施態様では、入力データ３１０２はまた、画像チャネル又は画像データに加えて、「入力」と題されたセクションに上述したように、距離チャネル、スケーリングチャネル、クラスター中心座標、及び／又はクラスター帰属情報などの補足的なチャネルも含む。

画像データ（すなわち、入力データ３１０２）は、１つ又はそれ以上のクラスター及びそれらの周囲背景の強度発光を表現する。畳み込みモジュール３１０４は、配列決定実行の一連の配列決定サイクルのための画像データを畳み込み層によって処理し、画像データの１つ又はそれ以上の畳み込み表現（すなわち、畳み込み出力３１０６）を生成する。

一連の配列決定サイクルは、ベースコールされるｔ個の配列決定サイクルのための画像データを含むことができ、ｔは１～１０００の任意の数である。ｔが１５～２１であるときに、正確なベースコール結果が観察されている。

反復モジュール３１１０は、畳み込み出力３１０６を畳み込み、反復出力３１１０を生成する。特に、反復モジュール３１１０は、畳み込み表現及び前の隠れ状態表現を畳み込むことに基づいて現在の隠れ状態表現（すなわち、反復出力３１１０）を生成する。

一実施態様では、反復モジュール３１１０は、畳み込み表現及び前の隠れ状態表現に三次元（３Ｄ）畳み込みを適用し、以下のように数式化される、現在の隠れ状態表現を生成する。
Ｈ_ｔ＝Ｗ１_{３ＤＣＯＮＶ}Ｖ_ｔ＋Ｗ２_{３ＤＣＯＮＶ}ｈ_ｔ－１、式中
ｈ_ｔは、現在の時間ステップｔにおいて生成された現在の隠れ状態表現を表し、
Ｖ_ｔは、現在の時間ステップｔにおける現在のスライディングウィンドウにおいて入力体積を形成する、畳み込み表現のセット又はグループを表し、
Ｗ１_{３ＤＣＯＮＶ} は、Ｖ_ｔに適用された第１の３Ｄ畳み込みフィルタの重みを表し、
ｈ_ｔ－１は、前の時間ステップｔ－１において生成された前の隠れ状態表現を表し、
Ｗ２_{３ＤＣＯＮＶ} は、ｈ_ｔ－１に適用された第２の３Ｄ畳み込みフィルタの重みを表す。

いくつかの実施態様では、Ｗ１_{３ＤＣＯＮＶ}及びＷ２_{３ＤＣＯＮＶ}は、重みが共有されるため同じである。

次いで、出力モジュール３１１２が、反復出力３１１０に基づいてベースコール３１１４を生成する。いくつかの実施態様では、出力モジュール３１１２は、１つ又はそれ以上の全結合層と分類層（例えば、ソフトマックス）とを含む。このような実施態様では、現在の隠れ状態表現は全結合層によって処理され、全結合層の出力は、分類層によって処理されて、ベースコール３１１４を生成する。

ベースコール３１１４は、クラスターのうちの少なくとも１つのための、かつ配列決定サイクルのうちの少なくとも１つのためのベースコールを含む。いくつかの実施態様では、ベースコール３１１４は、クラスターのそれぞれのための、かつ配列決定サイクルのそれぞれのためのベースコールを含む。したがって、例えば、入力データ３１０２が２５個のクラスターのための、かつ１５個の配列決定サイクルのための画像データを含むとき、ベースコール３１０２は、２５個のクラスターのそれぞれに対する１５個のベースコールからなるベースコール配列を含む。
３Ｄ畳み込み

図３１ｂは、現在の隠れ状態表現を生成するためにハイブリッドニューラルネットワーク３１００ｂの反復モジュール３１１０によって使用される３Ｄ畳み込み３１００ｂの一実施態様を示す。

３Ｄ畳み込みは、入力体積内に存在する各ボクセルが、畳み込みカーネルの等価位置におけるボクセルによって乗算される数学的操作である。最後には、結果の合計が出力体積に加算される。図３１ｂでは、３Ｄ畳み込み演算の表現を観察することができ、入力３１１６内の強調されたボクセル３１１６ａが、カーネル３１１８内のそれらの対応するボクセルで乗算される。これらの計算後、それらの合計３１２０ａが、出力３１２０に加算される。

入力体積の座標は（ｘ，ｙ，ｚ）によって与えられ、畳み込みカーネルはサイズ（Ｐ，Ｑ，Ｒ）を有するので、３Ｄ畳み込み演算は、以下のように数学的に定義することができる。

式中
Ｏは、畳み込みの結果であり、
Ｉは、入力体積であり、
Ｋは、畳み込みカーネルであり、
（ｐ，ｑ，ｒ）は、Ｋの座標である。

バイアス項は、明確さを改善するために上記の式から省略されている。

３Ｄ畳み込みは、２Ｄ畳み込みのようにマトリックスから空間的な情報を抽出することに加えて、連続するマトリックスの間に存在する情報も抽出する。これにより、３Ｄ畳み込みは、３Ｄオブジェクトの空間的な情報及び連続画像のセットの時間的な情報の両方をマッピングすることが可能になる。
畳み込みモジュール

図３２は、ベースコールされる一連のｔ個の配列決定サイクルのうちの単一の配列決定サイクルのためのサイクルごとの入力データ３２０２を畳み込みモジュール３１０４の畳み込み層３２００のカスケードによって処理する一実施態様を示す。

畳み込みモジュール３１０４は、サイクルごとの入力データのシーケンス内の各サイクルごとの入力データを畳み込み層のカスケード３２００によって別個に処理する。サイクルごとの入力データのシーケンスは、ベースコールされる配列決定実行の一連のｔ個の配列決定サイクルのために生成され、ｔは１～１０００の任意の数である。したがって、例えば、この一連に１５個の配列決定サイクルが含まれるとき、サイクルごとの入力データのシーケンスは、１５個の異なるサイクルごとの入力データを含む。

一実施態様では、各サイクルごとの入力データは、画像チャネル（例えば、赤色チャネル及び緑色チャネル）又は画像データ（例えば、上記の画像データ２０２）のみを含む。画像チャネル又は画像データは、一連内のそれぞれの配列決定サイクルにおいて捕捉された１つ又はそれ以上のクラスター及びそれらの周囲背景の強度発光を表現する。別の実施態様では、各サイクルごとの入力データは、画像チャネル又は画像データに加えて、距離チャネル及びスケーリングチャネルなどの補足的なチャネルも含む（例えば、上述の入力データ１８００）。

図示された実施態様では、サイクルごとの入力データ３２０２は、ベースコールされる一連のｔ個の配列決定サイクルのうちの単一の配列決定サイクルのための２つの画像チャネル、すなわち、赤色チャネル及び緑色チャネルを含む。各画像チャネルは、サイズ１５×１５の画像パッチ内に符号化される。畳み込みモジュール３１０４は、５つの畳み込み層を含む。各畳み込み層は、サイズ３×３の２５個の畳み込みフィルタのバンクを有する。更に、畳み込みフィルタは、入力画像又はテンソルの高さ及び幅を維持する、いわゆるＳＡＭＥパディングを使用する。ＳＡＭＥパディングを使用すると、出力特徴マップが入力特徴と同じサイズを有するように、入力特徴にパディングが追加される。対照的に、いわゆるＶＡＬＩＤパディングは、パディングなしを意味する。

第１の畳み込み層３２０４は、サイクルごとの入力データ３２０２を処理し、サイズ１５×１５×２５の第１の畳み込み表現３２０６を生成する。第２の畳み込み層３２０８は、第１の畳み込み表現３２０６を処理し、サイズ１５×１５×２５の第２の畳み込み表現３２１０を生成する。第３の畳み込み層３２１２は、第２の畳み込み表現３２１０を処理し、サイズ１５×１５×２５の第３の畳み込み表現３２１４を生成する。第４の畳み込み層３２１６は、第３の畳み込み表現３２１４を処理し、サイズ１５×１５×２５の第４の畳み込み表現３２１８を生成する。第５の畳み込み層３２２０は、第４の畳み込み表現３２１８を処理し、サイズ１５×１５×２５の第５の畳み込み表現３２２２を生成する。ＳＡＭＥパディングは、結果として生じる畳み込み表現の空間次元（例えば、１５×１５）を維持することに留意されたい。いくつかの実施態様では、畳み込み層内の畳み込みフィルタの数は、２、４、１６、３２、６４、１２８、２５６、５１２、及び１０２４など、２のべき乗である。

畳み込みがより深くなると、情報が失われる可能性がある。これを考慮するために、いくつかの実施態様では、スキップコネクションを使用して、（１）元のサイクルごとの入力データを再導入すること、及び（２）それより前の畳み込み層によって抽出された低レベルの空間的特徴をそれより後の畳み込み層によって抽出された高レベルの空間的特徴と組み合わせることを行う。これにより、ベースコール精度の改善が観察される。

図３３は、単一の配列決定サイクルのサイクルごとの入力データ３２０２を、畳み込みモジュール３１０４の畳み込み層のカスケード３２００によって生成されたその対応する畳み込み表現３２０６、３２１０、３２１４、３２１８、及び３２２２と混合する（３３００）一実施態様を示す。畳み込み表現３２０６、３２１０、３２１４、３２１８、及び３２２２は連結されて畳み込み表現のシーケンス３３０４を形成し、次に、サイクルごとの入力データ３２０２と連結されて、混合表現３３０６を生成する。他の実施態様では、連結の代わりに総和が使用される。また、混合３３００は、混合器３３０２によって操作可能になっている。

次いで、平坦化器３３０８が、混合表現３３０６を平坦化し、サイクルごとの平坦化された混合表現３３１０を生成する。いくつかの実施態様では、平坦化された混合表現３３１０は、サイクルごとの入力データ３２０２並びに畳み込み表現３２０６、３２１０、３２１４、３２１８、及び３２２２と少なくとも１つの次元サイズを共有する高次元ベクトル又は二次元（２Ｄ）アレイである（例えば、１５×１９０５、すなわち、同じ行方向次元）。これは、下流の３Ｄ畳み込みにおける特徴抽出を容易にするデータの対称性を生じさせる。

図３２及び図３３は、ベースコールされる一連のｔ個の配列決定サイクルのうちの単一の配列決定サイクルのためのサイクルごとの画像データ３２０２の処理を例示する。畳み込みモジュール３１０４は、ｔ個の配列決定サイクルのそれぞれのためのそれぞれのサイクルごとの画像データを別個に処理し、ｔ個の配列決定サイクルのそれぞれのためのそれぞれのサイクルごとの平坦化された混合表示を生成する。
スタック化

図３４は、継続的な配列決定サイクルの平坦化された混合表現をスタック３４００として配列する一実施態様を示す。図示された実施態様では、１５個の配列決定サイクルのための１５個の平坦化された混合表現３２０４ａ～３２０４ｏがスタック３４００内にスタック化される。スタック３４００は、利用可能な特徴を、３Ｄ畳み込みフィルタの同じ受容フィールド内の空間次元及び時間次元（すなわち、複数の配列決定サイクル）の両方から作成する３Ｄ入力体積である。スタック化は、スタック化器３４０２によって操作可能になっている。他の実施態様では、スタック３４００は、任意の次元数（例えば、１Ｄ、２Ｄ、４Ｄ、５Ｄなど）のテンソルとすることができる。
反復モジュール

配列決定データにおける長期依存性を捕捉するために、具体的には、クロスサイクルの配列決定画像におけるプレフェージング及びフェージングからの２次の寄与を考慮するために、反復処理を使用する。反復処理は、時間ステップの使用により、連続データの分析に使用される。現在の時間ステップにおける現在の隠れ状態表現は、（ｉ）前の時間ステップからの前の隠れ状態表現、及び（ｉｉ）現在の時間ステップにおける現在の入力の関数である。

反復モジュール３１０８は、スタック３４００に順方向及び逆方向での３Ｄ畳み込みの反復適用（すなわち、反復処理３５００）を受けさせ、一連内のｔ個の配列決定サイクルのそれぞれにおけるクラスターのそれぞれのためのベースコールを生成する。３Ｄ畳み込みは、スライディングウィンドウに基づいてスタック３４００内の平坦化された混合表現のサブセットから時空間的な特徴を抽出するために使用される。各スライディングウィンドウ（ｗ）は、それぞれの配列決定サイクルに対応しており、図３５ａ中に橙色で強調されている。いくつかの実施態様では、ｗは、同時にベースコールされている配列決定サイクルの総数に応じて、１、２、３、５、７、９、１５、２１などとなるようにパラメータ化される。一実施態様では、ｗは、同時にベースコールされている配列決定サイクルの総数の分数である。

したがって、例えば、各スライディングウィンドウが、１５個の平坦化された混合表現３２０４ａ～３２０４ｏを含むスタック３４００からの３つの継続的な平坦化された混合表現を含むと考える。そのとき、第１のスライディングウィンドウ内の第１の３つの平坦化された混合表現３２０４ａ～３２０４ｃは、第１の配列決定サイクルに対応し、第２のスライディングウィンドウ内の次の３つの平坦化された混合表現３２０４ｂ～３２０４ｄは、第２の配列決定サイクルに対応し、以下同様である。いくつかの実施態様では、最終の平坦化された混合表現３２０４ｏから開始して、最終の配列決定サイクルに対応する最終のスライディングウィンドウ内に十分な数の平坦化された混合表現を符号化するために、パディングが使用される。

各時間ステップにおいて、反復モジュール３１０８は、（１）現在の入力ｘ（ｔ）及び（２）前の隠れ状態表現ｈ（ｔ－１）を受け取り、現在の隠れ状態表現ｈ（ｔ）を計算する。現在の入力ｘ（ｔ）は、現在のスライディングウィンドウ（（ｗ）、橙色）内に入るスタック３４００からの平坦化された混合表現のサブセットのみを含む。したがって、各時間ステップにおける、各現在の入力ｘ（ｔ）は、複数の平坦化された混合表現（例えば、ｗに応じて、１、２、３、５、７、９、１５、又は２１個の平坦化された混合表現）の３Ｄ体積である。例えば、（ｉ）単一の平坦化された混合表現が次元１５×１９０５を有する二次元（２Ｄ）であり、かつ（ｉｉ）ｗが７であるとき、各時間ステップにおける、各現在の入力ｘ（ｔ）は、次元１５×１９０５×７の３Ｄ体積である。

反復モジュール３１０８は、第１の３Ｄ畳み込み（Ｗ１_{３ＤＣＯＮＶ}）を現在の入力ｘ（ｔ）に適用し、第２の３Ｄ畳み込み（Ｗ２_{３ＤＣＯＮＶ}）を前の隠れ状態表現ｈ（ｔ－１）に適用して、現在の隠れ状態表現ｈ（ｔ）を生成する。いくつかの実施態様では、Ｗ１_{３ＤＣＯＮＶ}及びＷ２_{３ＤＣＯＮＶ}は、重みが共有されるため同じである。
ゲート付き処理

一実施態様では、反復モジュール３１０８は、長・短期記憶（ＬＳＴＭ）ネットワーク又はゲート付き回帰型ユニット（ＧＲＵ）ネットワークなどのゲート付きネットワークによって現在の入力ｘ（ｔ）及び前の隠れ状態表現ｈ（ｔ－１）を処理する。例えば、ＬＳＴＭの実施態様では、現在の入力ｘ（ｔ）は、前の隠れ状態表現ｈ（ｔ－１）と共に、ＬＳＴＭユニットの４つのゲート、すなわち、入力ゲート、活性化ゲート、忘却ゲート、及び出力ゲートのそれぞれによって処理される。これは、図３５ｂに例示されており、この図は、３Ｄ畳み込みを現在の入力ｘ（ｔ）及び前の隠れ状態表現ｈ（ｔ－１）に適用し、出力として現在の隠れ状態表現ｈ（ｔ）を生成するＬＳＴＭユニットによって、現在の入力ｘ（ｔ）及び前の隠れ状態表現ｈ（ｔ－１）を処理する（３５００ｂ）一実施態様を示す。そのような実施態様では、入力、活性化、忘却、及び出力ゲートの重みは、３Ｄ畳み込みを適用する。

いくつかの実施態様では、ゲート付きユニット（ＬＳＴＭ又はＧＲＵ）は、双曲線正接及びシグモイドのような非線形／スカッシング関数を使用しない。

一実施態様では、現在の入力ｘ（ｔ）、前の隠れ状態表現ｈ（ｔ－１）、及び現在の隠れ状態表現ｈ（ｔ）は全て、同じ次元数を有する３Ｄ体積であり、３Ｄ体積として入力、活性化、忘却、及び出力ゲートによって処理されるか、又は生成される。

一実施態様では、反復モジュール３１０８の３Ｄ畳み込みは、ＳＡＭＥパディングと共に、サイズ３×３の２５個の畳み込みフィルタのバンクを使用する。いくつかの実施態様では、畳み込みフィルタのサイズは５×５である。いくつかの実施態様では、反復モジュール３１０８によって使用される畳み込みフィルタの数は、２、４、１６、３２、６４、１２８、２５６、５１２、及び１０２４など、２のべき乗によって因数分解される。
双方向処理

反復モジュール３１０８は、最初に、スライディングウィンドウに基づいて始まりから終わりまで（トップダウンで）スタック３４００を処理し、順方向トラバーサルのための現在の隠れ状態表現のシーケンス（ベクトル）

を生成する。

次いで、反復モジュール３１０８は、スライディングウィンドウに基づいて終わりから始まりまで（ボトムアップで）スタック３４００を処理し、逆方向／リバーストラバーサルのための現在の隠れ状態表現のシーケンス（ベクトル）

を生成する。

いくつかの実施態様では、両方の方向について、各時間ステップで、処理は、ＬＳＴＭ又はＧＲＵのゲートを使用する。例えば、各時間ステップにおいて、順方向の現在の入力ｘ（ｔ）は、ＬＳＴＭユニットの入力、活性化、忘却、及び出力ゲートによって処理されて、順方向の現在の隠れ状態表現

を生成し、逆方向の現在の入力ｘ（ｔ）は、別のＬＳＴＭユニットの入力、活性化、忘却、及び出力ゲートによって処理されて、逆方向の現在の隠れ状態表現

を生成する。

次いで、各時間ステップ／スライディングウィンドウ／配列決定サイクルについて、反復モジュール３１０８は、対応する順方向及び逆方向の現在の隠れ状態表現を組み合わせて（連結又は総和又は平均化して）、組み合わせられた隠れ状態表現

を生成する。

次いで、組み合わせられた隠れ表現

は、１つ又はそれ以上の全結合ネットワークによって処理されて、高密度表現を生成する。次いで、高密度表現は、ソフトマックス層によって処理されて、所与の配列決定サイクルにおけるクラスターのそれぞれに組み込まれた塩基がＡ、Ｃ、Ｔ、及びＧであることの尤度を生成する。塩基は、尤度に基づいてＡ、Ｃ、Ｔ、又はＧとして分類される。これは、一連内のｔ個の配列決定サイクルのそれぞれ（又は各時間ステップ／スライディングウィンドウ）について、並列に又は逐次的にのいずれかで行われる。

当業者であれば、他の実施態様において、ハイブリッドアーキテクチャが、より少ない又はより多い数の配列決定サイクルのための入力データを処理することができ、より少ない又はより多い数の畳み込み層及び反復層を含むことができることは理解するであろう。また、入力データの次元数、現在及び前の隠れ表現、畳み込みフィルタ、結果として生じる特徴マップ、並びに出力が異なっていてもよい。また、畳み込み層内の畳み込みフィルタの数が異なっていてもよい。それは、異なるパディング及びストライディング構成を使用することができる。それは、異なる分類関数（例えば、シグモイド又は回帰）を使用することができ、全結合層を含んでも含まなくてもよい。それは、１Ｄ重畳、２Ｄ重畳、３Ｄ重畳、４Ｄ重畳、５Ｄ重畳、拡張又は無性重畳、転置重畳、奥行分離可能な重畳、１×１重畳、グループ重畳、扁平重畳、空間及びクロスチャネルの重畳、シャッフルされたグループ化重畳、空間的な分離可能な重畳、及び逆重畳を使用することができる。それは、ロジスティック回帰／対数損失、多クラスクロスエントロピー／ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、Ｌ１損失、Ｌ２損失、平滑Ｌ１損失、及びＨｕｂｅｒ損失などの１つ又はそれ以上の損失機能を使用することができる。それは、ＴＦＲｅｃｏｒｄ、圧縮符号化（例えば、ＰＮＧ）、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期／非同期ＳＧＤのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット（ＬＳＴＭ又はＧＲＵなど）、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能（例えば、非線形変換関数は、整流線形ユニット（ＲｅＬＵ）、漏れやすいＲｅＬＵ、指数関数的ライナーユニット（ＥＬＵ）、シグモイド及び双曲線正接（ｔａｎｈ））、バッチ正規化層、規則化層、ドロップアウト、プール層（例えば、最大又は平均プール）、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。
実験結果及び考察

図３６は、ニューラルネットワークベースのベースコーラー２１８を訓練するために使用される訓練データ内のトリヌクレオチド（３量体）を平衡化する一実施態様を示す。平衡化は、訓練データでのゲノムに関する統計の学習を非常に少なくし、ひいては一般化を改善する。ヒートマップ３６０２は、「Ａ．ｂａｕｍａｎｎｉ」と呼ばれる第１の有機体のための訓練データ内の平衡化された３量体を示す。ヒープマップ（Heap map）３６０４は、「Ｅ．ｃｏｌｉ」と呼ばれる第２の有機体のための訓練データ内の平衡化された３量体を示す。

図３７は、ＲＴＡベースコーラーのベースコール精度をニューラルネットワークベースのベースコーラー２１８と比較する。図３７に示されるように、ＲＴＡベースコーラーは、２回の配列決定実行（リード：１及びリード：２）において、より高い誤り率を有する。すなわち、ニューラルネットワークベースのベースコーラー２１８は、両方の配列決定実行において、ＲＴＡベースコーラーよりも性能が優れている。

図３８は、ＲＴＡベースコーラーのタイル間一般化を同じタイル上でのニューラルネットワークベースのベースコーラー２１８のものと比較する。すなわち、ニューラルネットワークベースのベースコーラー２１８では、推論（試験）は、訓練に使用されるのと同じタイルのためのデータ上で実行される。

図３９は、ＲＴＡベースコーラーのタイル間一般化を、同じタイル上での、及び異なるタイル上でのニューラルネットワークベースのベースコーラー２１８のものと比較する。すなわち、ニューラルネットワークベースのベースコーラー２１８は、第１のタイル上のクラスターのためのデータ上で訓練されるが、推論を第２のタイル上のクラスターからのデータ上で実行する。同じタイルの実施態様では、ニューラルネットワークベースのベースコーラー２１８は、タイル５上のクラスターからのデータ上で訓練され、タイル５上のクラスターからのデータ上で試験される。異なるタイルの実施態様では、ニューラルネットワークベースのベースコーラー２１８は、タイル１０上のクラスターからのデータ上で訓練され、タイル５上のクラスターからのデータ上で試験される。

図４０もまた、ＲＴＡベースコーラーのタイル間一般化を異なるタイル上でのニューラルネットワークベースのベースコーラー２１８のものと比較する。異なるタイルの実施態様では、ニューラルネットワークベースのベースコーラー２１８は、タイル１０上のクラスターからのデータ上で訓練され、タイル５上のクラスターからのデータ上で試験された後、タイル２０上のクラスターからのデータ上で訓練され、タイル５上のクラスターからのデータ上で試験される。

図４１は、ニューラルネットワークベースのベースコーラー２１８への入力として供給される異なるサイズの画像パッチが、ベースコール精度にどのような変化をもたらすかを示す。両方の配列決定実行（リード：１及びリード：２）において、誤り率は、パッチサイズが３×３から１１×１１へと増加するにつれて減少している。すなわち、ニューラルネットワークベースのベースコーラー２１８は、画像パッチが大きいほど、より正確なベースコールを生成する。いくつかの実施態様では、ベースコール精度は、１００×１００ピクセル以下の画像パッチを使用することによって、計算効率とのバランスが取られる。他の実施態様では、３０００×３０００ピクセルの大きさの（及びそれより大きい）画像パッチが使用される。

図４２、図４３、図４４、及び図４５は、Ａ．ｂａｕｍａｎｎｉ及びＥ．ｃｏｌｉからの訓練データ上でのニューラルネットワークベースのベースコーラー２１８のレーン間一般化を示す。

図４３を参照すると、一実施態様では、ニューラルネットワークベースのベースコーラー２１８は、フローセルの第１のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で訓練され、フローセルの第１及び第２の両方のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で訓練され、第１及び第２の両方のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で訓練され、第１及び第２の両方のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で試験される。また更なる実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で訓練され、第１及び第２の両方のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で試験される。

一実施態様では、ニューラルネットワークベースのベースコーラー２１８は、フローセルの第１のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で訓練され、フローセルの第１及び第２の両方のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で訓練され、第１及び第２の両方のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で訓練され、第１のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で試験される。また更なる実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で訓練され、第１及び第２の両方のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で試験される。

図４３では、ベースコール精度（誤り率によって測定される）が、これらの実施態様のそれぞれについて、２回の配列決定実行（例えば、リード：１及びリード：２）に対して示されている。

図４４を参照すると、一実施態様では、ニューラルネットワークベースのベースコーラー２１８は、フローセルの第１のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で訓練され、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で訓練され、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で訓練され、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で試験される。また更なる実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で訓練され、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で試験される。

一実施態様では、ニューラルネットワークベースのベースコーラー２１８は、フローセルの第１のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で訓練され、第１のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で訓練され、第１のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で訓練され、第１のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で試験される。また更なる実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で訓練され、第１のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で試験される。

図４４では、ベースコール精度（誤り率によって測定される）が、これらの実施態様のそれぞれについて、２回の配列決定実行（例えば、リード：１及びリード：２）に対して示されている。図４３を図４４と比較すると、後者によってカバーされる実施態様が５０～８０パーセントの誤り低減をもたらすことを見ることができる。

図４５を参照すると、一実施態様では、ニューラルネットワークベースのベースコーラー２１８は、フローセルの第１のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で訓練され、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で訓練され、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で訓練され、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で試験される。第２の第１のレーン内。また更なる実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で訓練され、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で試験される。

一実施態様では、ニューラルネットワークベースのベースコーラー２１８は、フローセルの第１のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で訓練され、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で訓練され、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で訓練され、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で試験される。また更なる実施態様では、ニューラルネットワークベースのベースコーラー２１８は、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータ上で訓練され、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータ上で試験される。

図４５では、ベースコール精度（誤り率によって測定される）が、これらの実施態様のそれぞれについて、２回の配列決定実行（例えば、リード：１及びリード：２）に対して示されている。図４３を図４５と比較すると、後者によってカバーされる実施態様が５０～８０パーセントの誤り低減をもたらすことを見ることができる。

図４６は、図４２、図４３、図４４、及び図４５に関して上述したレーン間一般化のための誤りプロファイルを示す。一実施態様では、誤りプロファイルは、緑色チャネル内のＡ及びＴ塩基のベースコールにおける誤りを検出する。

図４７は、図４６の誤りプロファイルによって検出された誤りの発生源が緑色チャネルにおける低いクラスター強度に帰属することを示す。

図４８は、２回の配列決定実行（リード１及びリード２）についてのＲＴＡベースコーラー及びニューラルネットワークベースのベースコーラー２１８の誤りプロファイルを比較する。この比較により、ニューラルネットワークベースのベースコーラー２１８の優れたベースコール精度が確認される。

図４９ａは、４つの異なる器具上でのニューラルネットワークベースのベースコーラー２１８の実行間一般化を示す。

図４９ｂは、同じ器具上で実施された４つの異なる実行上でのニューラルネットワークベースのベースコーラー２１８の実行間一般化を示す。

図５０は、ニューラルネットワークベースのベースコーラー２１８を訓練するために使用される訓練データのゲノム統計を示す。

図５１は、ニューラルネットワークベースのベースコーラー２１８を訓練するために使用される訓練データのゲノムコンテキストを示す。

図５２は、ロングリード（例えば、２×２５０）のベースコールにおけるニューラルネットワークベースのベースコーラー２１８のベースコール精度を示す。

図５３は、ニューラルネットワークベースのベースコーラー２１８が、画像パッチ間にわたって中央クラスターピクセル及びその隣接ピクセルにどのように着目するかの一実施態様を示す。

図５４は、一実施態様による、ニューラルネットワークベースのベースコーラー２１８を訓練及び実行するために使用される様々なハードウェア構成要素及び構成を示す。他の実施態様では、異なるハードウェア構成要素及び構成が使用される。

図５５は、ニューラルネットワークベースのベースコーラー２１８を使用して実施することができる様々な配列決定タスクを示す。いくつかの実施例としては、品質スコアリング（ＱＳｃｏｒｉｎｇ）及びバリアント分類が挙げられる。図５５はまた、ニューラルネットワークベースのベースコーラー２１８がベースコールを実行するいくつかの例示的な配列決定器具も示す。

図５６は、ｔ分布型確率的近傍埋め込み法（ｔ－ＳＮＥ）によって可視化された散布図５６００であり、ニューラルネットワークベースのベースコーラー２１８のベースコール結果を表現する。散布図５６００は、ベースコール結果が６４（４^３）個のグループにクラスター化され、各グループが主に特定の入力３量体（トリヌクレオチド反復パターン）に対応していることを示す。これは、ニューラルネットワークベースのベースコーラー２１８が、少なくとも３つの配列決定サイクルのための入力データを処理し、配列特異的なモチーフを学習して、現在のベースコールを前の及び継続的なベースコールに基づいて生成するからである。
品質スコアリング

品質スコアリングは、各ベースコールに品質スコアを割り当てるプロセスを指す。品質スコアは、配列決定トレースの予測特徴の値を品質テーブルに基づいて確率に変換する、Ｐｈｒｅｄフレームワークに従って定義される。品質テーブルは、較正データセット上で訓練することによって取得され、配列決定プラットフォームの特性が変化するときに更新される。品質スコアの確率的な解釈は、バリアントコール及び配列アセンブリなどの下流の分析において異なる配列決定リードの適正な統合を可能にする。したがって、品質スコアを定義するための有効なモデルが、いずれのベースコーラーにも不可欠である。

最初に、品質スコアがどのようなものであるかについて説明する。品質スコアは、ベースコールにおける配列決定誤りの確率の尺度である。高い品質スコアは、ベースコールがより信頼でき、不正確である可能性がより低いことを意味する。例えば、ある塩基の品質スコアがＱ３０である場合、この塩基が不正確にコールされている確率は０．００１である。これはまた、ベースコール精度が９９．９％であることも示す。

以下の表は、ベースコール品質スコアと、それらに対応する誤り確率、ベースコール精度率、及びベースコール誤り率との関係を示す。

次に、品質スコアがどのように生成されるかについて説明する。配列決定実行中、品質スコアは、全ての配列決定サイクルのそれぞれについて、全てのタイルのそれぞれの上で、全てのクラスターのそれぞれのための各ベースコールに割り当てられる。Ｉｌｌｕｍｉｎａ品質スコアが、各ベースコールに対して２ステップのプロセスで計算される。各ベースコールに対して、品質予測子値の数が計算される。品質予測子値は、ベースコールが抽出されるクラスターの観察可能な特性である。これらは、強度プロファイル及び信号対ノイズ比などの特性を含み、ベースコール信頼性の様々な態様を測定する。それらは、ベースコールの品質と相関するように経験的に決定されている。

品質モデルは、品質テーブル又はＱテーブルとしても知られ、品質予測子値の組み合わせを列挙し、それらを対応する品質スコアに関連付ける。この関係は、経験的データを使用する較正プロセスによって決定される。新たな品質スコアを推定するために、品質予測子値は、新しいベースコールに対して計算され、事前較正された品質テーブル内の値と比較される。

次に、品質テーブルがどのように較正されるかについて説明する。較正は、複数の器具上で配列決定された様々な十分に特徴付けられたヒト及び非ヒトサンプルを含む経験的データから統計的な品質テーブルが導出されるプロセスである。Ｐｈｒｅｄアルゴリズムの修正版を使用すると、品質テーブルは、生信号の特性、及びリードを適切な参照に位置合わせすることによって決定された誤り率を使用して開発及び改良される。

次に、品質テーブルが時々変化する理由について説明する。品質テーブルは、特定の器具構成及びバージョンのケミストリーによって生成された実行のための品質スコアを提供する。新しいハードウェア、ソフトウェア、又はケミストリーバージョンなど、配列決定プラットフォームの重要な特性が変化するとき、品質モデルは再較正を必要とする。例えば、配列決定ケミストリーの改善は、新たなデータを正確にスコアリングするために品質テーブルの再較正を必要とし、これは、相当量の処理時間及び計算リソースを消費する。
ニューラルネットワークベースの品質スコアリング

品質予測子値又は品質テーブルを使用せず、代わりに、十分に較正されたニューラルネットワークの予測に対する信頼性から品質スコアを推論する、品質スコアリングのためのニューラルネットワークベースの技術を開示する。ニューラルネットワークの文脈において、「較正」とは、主観的な予測と経験的な長期にわたる頻度との間の一貫性又は相関を指す。これは、頻度論者の確実性の観念であり、ニューラルネットワークが、時間の９０％で、特定のラベルが正しいラベルであると主張する場合、評価中、正しいものとなる確率９０％が与えられた全てのラベルの９０％は、正しいラベルである。較正は、精度に対して直交性の関係であることに留意されたい。すなわち、ニューラルネットワークの予測は、正確であっても誤較正され得る。

開示されるニューラルネットワークは、現実世界の配列決定実行のベースコールドメインを適切にモデル化する多様な配列決定特性を有する大規模な訓練セット上で訓練されるため、十分に較正される。特に、様々な配列決定プラットフォーム、配列決定器具、配列決定プロトコル、配列決定ケミストリー、配列決定試薬、クラスター密度、及びフローセルから得られた配列決定画像が、ニューラルネットワークを訓練するための訓練実施例として使用される。他の実施態様では、異なるベースコール及び品質スコアリングモデルは、異なる配列決定プラットフォーム、配列決定器具、配列決定プロトコル、配列決定ケミストリー、配列決定試薬、クラスター密度、及び／又はフローセルに対してそれぞれ使用される。

４つのベースコールクラス（Ａ、Ｃ、Ｔ、及びＧ）のそれぞれについて、多数の配列決定画像が、広範な配列決定条件の下で対応のベースコールクラスを表す強度パターンを識別する訓練実施例として使用される。これにより、結果として、ニューラルネットワークの分類能力を訓練中に存在しない新しいクラスにまで拡張する必要性がなくなる。更に、各訓練実施例は、リードを適切な参照に位置合わせすることに基づいて、対応するグラウンドトゥルースで正確にラベル付けされる。結果としてもたらされるのは、予測に対する信頼性を、以下に数学的に表現される、品質スコアリングのための確実性尺度として解釈することができる、十分に較正されたニューラルネットワークである。

Ｙ＝｛Ａ，Ｃ，Ｔ，Ｇ｝はベースコールクラスＡ、Ｃ、Ｔ、及びＧのためのクラスラベルのセットを示し、Ｘは入力の空間を示すとする。Ｎ_θ（ｙ｜ｘ）は、開示されたニューラルネットワークのうちの１つが入力ｘ∈Ｘ上で予測する確率分布を示し、θはニューラルネットワークのパラメータを示すとする。正しいラベルｙ_ｉを有する訓練実施例ｘ_ｉに対して、ニューラルネットワークはラベル

を予測する。予測は、

であればｃ_ｉ＝１、そうでなければ０の正確性スコアと、信頼性スコア

とを取得する。

ニューラルネットワークＮ_θ（ｙ｜ｘ）は、全ての（ｘ_ｉ，ｙ_ｉ）∈Ｄ及びｒ_ｉ＝αにわたって、ｃ_ｉ＝１である確率がαであるため、データ分布Ｄに対して十分に較正されている。例えば、Ｄからのサンプルから、１００個の予測が得られ、それぞれが信頼性０．８を有する場合、８０個は、ニューラルネットワークＮ_θ（ｙ｜ｘ）によって正確に分類される。より形式的には、Ｐ_θ，Ｄ（ｒ，ｃ）は、Ｄ上でのニューラルネットワークＮ_θ（ｙ｜ｘ）の予測のr及びc値に対する分布を示し、

として表現され、式中、Ｉ_αは、αの周囲の小さい非ゼロの間隔を示す。

十分に較正されたニューラルネットワークは、品質予測子値又は品質テーブルとは異なり、多様な訓練セット上で訓練されるため、それらは、器具構成及びケミストリーバージョンに固有のものではない。これは、２つの利点を有する。第１に、異なる種類の配列決定器具に対して、十分に較正されたニューラルネットワークは、異なる品質テーブルを別個の較正プロセスから導出する必要性をなくす。第２に、同じ配列決定器具に対して、十分に較正されたニューラルネットワークは、配列決定器具の特性が変化するときの再較正の必要性をなくす。以下の詳細がある。
ソフトマックス信頼確率からの品質スコアの推論

第１の十分に較正されたニューラルネットワークは、配列決定画像１０８から導出された入力データを処理し、塩基がＡ、Ｃ、Ｔ、及びＧであることのベースコール信頼確率を生成する、ニューラルネットワークベースのベースコーラー２１８である。ベースコール信頼確率はまた、尤度又は分類スコアと見なすこともできる。一実施態様では、ニューラルネットワークベースのベースコーラー２１８は、ソフトマックス関数を使用して、ベースコール信頼確率をソフトマックススコアとして生成する。

ソフトマックススコアは、較正され（すなわち、それらはグラウンドトゥルース正確性尤度を表す）、したがって、当然のことながら、品質スコアに対応するため、品質スコアは、ニューラルネットワークベースのベースコーラー２１８のソフトマックス関数によって生成されるベースコール信頼確率から推論される。

訓練中にニューラルネットワークベースのベースコーラー２１８によって生成されたベースコール信頼確率のセットを選択し、それらのベースコール誤り率（又はベースコール精度率）を決定することによって、ベースコール信頼確率と品質スコアとの間の対応を具体的に説明する。

それで、例えば、ニューラルネットワークベースのベースコーラー２１８によって生成されたベースコール信頼確率「０．９０」を選択する。ニューラルネットワークベースのベースコーラー２１８が０．９０のソフトマックススコアでベースコール予測を行ったときに多数（例えば、１００００～１００００００の範囲）のインスタンスを取得する。多数のインスタンスは、妥当性検査セット又は試験セットのいずれかから取得することができる。次いで、多数のインスタンスのうちの対応のインスタンスに関連付けられた対応するグラウンドトゥルースベースコールとの比較に基づいて、多数のインスタンスのうちのどれだけでベースコール予測が正しかったかを判定する。

ベースコールが多数のインスタンスの９０パーセントで正確に予測され、誤コールは１０パーセントだったことを観察する。これは、０．９０のソフトマックススコアに対して、ベースコール誤り率が１０％であり、ベースコール精度率が９０％であることを意味し、これは、結果として、品質スコアＱ１０に対応する（上の表を参照）。同様に、０．９９、０．９９９、０．９９９９、０．９９９９９、及び０．９９９９９９のような他のソフトマックススコアに対して、それぞれ、品質スコアＱ２０、Ｑ３０、Ｑ４０、Ｑ５０、及びＱ６０との対応を観察する。これは、図５９ａに示されている。他の実施態様では、ソフトマックススコアと、Ｑ９、Ｑ１１、Ｑ１２、Ｑ２３、Ｑ２５、Ｑ２９、Ｑ３７、及びＱ３９などの品質スコアとの間の対応を観察する。

また、ビニングされた品質スコアとの対応も観察する。例えば、０．８０のソフトマックススコアはビニングされた品質スコアＱ０６に対応し、０．９５のソフトマックススコアはビニングされた品質スコアＱ１５に対応し、０．９９３のソフトマックススコアはビニングされた品質スコアＱ２２に対応し、０．９９７のソフトマックススコアはビニングされた品質スコアＱ２７に対応し、０．９９９１のソフトマックススコアはビニングされた品質スコアＱ３３に対応し、０．９９９５のソフトマックススコアはビニングされた品質スコアＱ３７に対応し、０．９９９９のソフトマックススコアはビニングされた品質スコアＱ４０に対応する。これは、図５９ｂに示されている。

本明細書において使用されるサンプルサイズは、小さなサンプルの問題を回避するために大きくなっており、例えば、１００００～１００００００の範囲とすることができる。いくつかの実施態様では、ベースコール誤り率（又はベースコール精度率）を決定するために使用されるインスタンスのサンプルサイズは、評価されているソフトマックススコアに基づいて選択される。例えば、０．９９のソフトマックススコアに対して、サンプルは、１００個のインスタンスを含み、０．９９９のソフトマックススコアに対して、サンプルは、１０００個のインスタンスを含み、０．９９９９のソフトマックススコアに対して、サンプルは、１００００個のインスタンスを含み、０．９９９９９のソフトマックススコアに対して、サンプルは、１０００００個のインスタンスを含み、０．９９９９９９のソフトマックススコアに対して、サンプルは、１００００００個のインスタンスを含む。

ソフトマックスに関しては、ソフトマックスは、多クラス分類のための出力活性化関数である。形式的には、いわゆるソフトマックス分類器を訓練することは、クラス確率への回帰であり、クラスを返すのではなく、各クラスの尤度の信頼性予測を返すので、真の分類器ではない。ソフトマックス関数は、値のクラスを取り、それらを、合計すると１になる確率値に変換する。ソフトマックス関数は、任意の実数値のk次元ベクトルを０～１の範囲内の実数値のk次元ベクトルにスカッシュする。したがって、ソフトマックス関数を使用することは、出力が、有効な指数関数的に正規化された確率質量関数である（非負かつ合計して１になる）ことを確実にする。

がベクトル

のｉ番目の要素であると考える。

式中

は長さｎのベクトルであり、ｎは分類内のクラスの数である。これらの要素は、０～１の値を有し、それらが有効な確率分布を表すように、合計すると１になる。

例示的なソフトマックス活性化関数５７０６を図５７に示す。ソフトマックス５７０６は、

として３つのクラスに適用される。３つの出力は常に、合計すると１になることに留意されたい。したがって、それらは、離散確率質量関数を定義する。

分類に使用される場合、

は、クラスｉ内にある確率を与える。

「ソフトマックス」という名前は、多少の混乱を与え得る。この関数は、ｍａｘ関数よりも、ａｒｇｍａｘ関数により密接に関連する。用語「ソフト」は、ソフトマックス関数が連続的かつ微分可能であるという事実に由来する。結果がワンホットベクトルとして表現される、ａｒｇｍａｘ関数は、連続的でも微分可能でもない。したがって、ソフトマックス関数は、ａｒｇｍａｘの「ソフト化された」バージョンを提供する。恐らく、ソフトマックス関数を「ｓｏｆｔａｒｇｍａｘ」と呼ぶことがより適切であるであろうが、現在の名前は、確立した慣習となっている。

図５７は、品質スコアリングのためにニューラルネットワークベースのベースコーラー２１８のベースコール信頼確率３００４を選択する（５７００）一実施態様を示す。ニューラルネットワークベースのベースコーラー２１８のベースコール信頼確率３００４は、分類スコア（例えば、ソフトマックススコア又はシグモイドスコア）又は回帰スコアとすることができる。一実施態様では、ベースコール信頼確率３００４は、訓練３０００中に生成される。

いくつかの実施態様では、選択５７００は、量子化に基づいて行われ、この量子化は、ベースコール信頼確率３００４にアクセスし、量子化された分類スコア５７０４を生成する量子化器５７０２によって実行される。量子化された分類スコア５７０４は、任意の実数とすることができる。一実施態様では、量子化された分類スコア５７０４は、

として定義される選択式に基づいて選択される。別の実施態様では、量子化された分類スコア５７０４は、

として定義される選択式に基づいて選択される。

図５８は、ニューラルネットワークベースの品質スコアリング５８００の一実施態様を示す。量子化された分類スコア５７０４のそれぞれについて、ベースコール誤り率５８０８及び／又はベースコール精度率５８１０は、そのベースコール予測３００４を対応するグラウンドトゥルースベースコール３００８と比較することによって決定される（例えば、様々なサンプルサイズを有するバッチにわたって）。比較は、比較器５８０２によって実行され、比較器は、結果として、ベースコール誤り率判定器５８０４及びベースコール精度率判定部５８０６を含む。

次いで、量子化された分類スコア５７０４と品質スコアとの間の対応を確立するために、適合が、量子化された分類スコア５７０４とそれらのベースコール誤り率５８０８（及び／又はそれらのベースコール精度率５８１０）との間で適合判定器５８１２によって決定される。一実施態様では、適合判定器５８１２は回帰モデルである。

適合に基づいて、品質スコアは、相関器５８１４によって、量子化された分類スコア５７０４と相関させられる。

図５９ａ～図５９ｂは、品質スコアとニューラルネットワークベースのベースコーラー２１８によって行われたベースコール信頼性予測との間の対応５９００の一実施態様を示す。ニューラルネットワークベースのベースコーラー２１８のベースコール信頼確率は、分類スコア（例えば、ソフトマックススコア又はシグモイドスコア）又は回帰スコアとすることができる。図５９ａは、品質スコアのための品質スコア対応スキーム５９００ａである。図５９ｂは、ビニングされた品質スコアのための品質スコア対応スキーム５９００ａである。
推論

図６０は、推論６０００中にニューラルネットワークベースのベースコーラー２１８によって行われたベースコール信頼性予測から品質スコアを推論する一実施態様を示す。ニューラルネットワークベースのベースコーラー２１８のベースコール信頼確率は、分類スコア（例えば、ソフトマックススコア又はシグモイドスコア）又は回帰スコアとすることができる。

推論６０００の間、予測されたベースコール６００６には、そのベースコール信頼確率（すなわち、最も高いソフトマックススコア（赤色））が最も対応する品質スコア６００８が割り当てられる。いくつかの実施態様では、品質スコア対応５９００は、品質スコア対応スキーム５９００ａ～５９００ｂをルックアップすることによって作成され、品質スコア推論器６０１２によって操作可能になっている。

いくつかの実施態様では、チャステティ（chastity）フィルタ６０１０が、所与のクラスターのベースコールを、そのコールベースに割り当てられた品質スコア６００８、又は継続的なベースコールサイクルにわたる平均品質スコアが、予め設定された閾値を下回るときに終了させる。

推論６０００は、バッチングなどの平行四辺形技術を含む、数百、数千、及び／又は数百万回の前方伝搬６０１４を含む。推論６０００は、入力データを（配列決定画像１０８から導出された画像チャネル及び／又は補足的なチャネル（例えば、距離チャネル、スケーリングチャネル）と共に）含む推論データ６００２上で実行される。推測６０００は、テスタ６００４によって動作可能である。
ベースコール品質の直接予測

第２の十分に較正されたニューラルネットワークは、配列決定画像１０８から導出された入力データを処理し、品質指標を直接生成する、ニューラルネットワークベースの品質スコアラー６１０２である。

一実施態様では、ニューラルネットワークベースの品質スコアラー６１０２は、多層パーセプトロン（ＭＬＰ）である。別の実施態様では、ニューラルネットワークベースの品質スコアラー６１０２は、フィードフォワードニューラルネットワークである。更に別の実施態様では、ニューラルネットワークベースの品質スコアラー６１０２は、全結合型ニューラルネットワークである。更なる実施態様では、ニューラルネットワークベースの品質スコアラー６１０２は、完全畳み込みニューラルネットワークである。また更なる実施態様では、ニューラルネットワークベースの品質スコアラー６１０２は、セマンティックセグメンテーションニューラルネットワークである。

一実施態様では、ニューラルネットワークベースの品質スコアラー６１０２は、複数の畳み込み層を有する畳み込みニューラルネットワーク（ＣＮＮ）である。別の実施態様では、長・短期記憶ネットワーク（ＬＳＴＭ）、双方向ＬＳＴＭ（Ｂｉ－ＬＳＴＭ）、又はゲート付き回帰型ユニット（ＧＲＵ）などの反復ニューラルネットワーク（ＲＮＮ）である。更に別の実施態様では、ＣＮＮ及びＲＮＮの両方を含む。

更に他の実施態様では、ニューラルネットワークベースの品質スコアラー６１０２は、１Ｄ重畳、２Ｄ重畳、３Ｄ重畳、４Ｄ重畳、５Ｄ重畳、拡張又は無性重畳、転置重畳、奥行分離可能な重畳、点単位の重畳、１ｘ１重畳、グループ重畳、扁平重畳、空間及びクロスチャネルの重畳、シャッフルされたグループ化重畳、空間的な分離可能な重畳、並びに逆重畳を使用することができる。それは、ロジスティック回帰／対数損失、多クラスクロスエントロピー／ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、Ｌ１損失、Ｌ２損失、平滑Ｌ１損失、及びＨｕｂｅｒ損失などの１つ又はそれ以上の損失機能を使用することができる。それは、ＴＦＲｅｃｏｒｄ、圧縮符号化（例えば、ＰＮＧ）、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期／非同期ＳＧＤのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット（ＬＳＴＭ又はＧＲＵなど）、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能（例えば、非線形変換関数は、整流線形ユニット（ＲｅＬＵ）、漏れやすいＲｅＬＵ、指数関数的ライナーユニット（ＥＬＵ）、シグモイド及び双曲線正接（ｔａｎｈ））、バッチ正規化層、規則化層、ドロップアウト、プール層（例えば、最大又は平均プール）、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。

いくつかの実施態様では、ニューラルネットワークベースの品質スコアラー６１０２は、ニューラルネットワークベースのベースコーラー２１８と同じアーキテクチャを有する。

入力データは、配列決定画像１０８から導出された画像チャネル及び／又は補足的なチャネル（例えば、距離チャネル、スケーリングチャネル）を含むことができる。ニューラルネットワークベースの品質スコアラー６１０２は、入力データを処理し、入力データの代替表現を生成する。代替表現は、いくつかの実施態様では畳み込み表現であり、他の実施態様では隠れ表現である。次いで、代替表現は、出力層によって処理されて、出力を生成する。出力は、品質指標を生成するために使用される。

一実施態様では、同じ入力データがニューラルネットワークベースのベースコーラー２１８及びニューラルネットワークベースの品質スコアラーラ６１０２に供給されて、（ｉ）ニューラルネットワークベースのベースコーラー２１８からのベースコール、及び（ｉｉ）ニューラルネットワークベースの品質スコアラーラ６１０２からの対応する品質指標を生成する。いくつかの実施態様では、ニューラルネットワークベースのベースコーラー２１８及びニューラルネットワークベースの品質スコアラー６１０２は、エンドツーエンドの逆伝播で一緒に訓練される。

一実施態様では、ニューラルネットワークベースの品質スコアラー６１０２は、特定の配列決定サイクルのために、単一のターゲットクラスターのための品質指標を出力する。別の実施態様では、特定の配列決定サイクルのために、複数のターゲットクラスター内の各ターゲットクラスターのための品質指標を出力する。更に別の実施態様では、複数の配列決定サイクル内の各配列決定サイクルのために、複数のターゲットクラスター内の各ターゲットクラスターのための品質指標を出力し、それによって、各ターゲットクラスターのための品質指標配列を生成する。

一実施態様では、ニューラルネットワークベースの品質スコアラー６１０２は、配列決定画像１０８からのデータを含み、ベースコール品質グラウンドトゥルースでラベル付けされた訓練実施例上で訓練された畳み込みニューラルネットワークである。ニューラルネットワークベースの品質スコアラー６１０２は、畳み込みニューラルネットワーク６１０２のベースコール品質予測６１０４をベースコール品質グラウンドトゥルース６１０８と漸進的に一致させる逆伝播ベースの勾配更新技術を使用して訓練される。いくつかの実施態様では、塩基を、それが誤ったベースコールである場合は０として、そうでない場合は１としてラベル付けする。その結果、出力は、誤りの確率に対応する。一実施態様では、これにより、入力特徴として配列コンテキストを使用する必要性がなくなる。

畳み込みニューラルネットワーク６１０２の入力モジュールは、１つ又はそれ以上の配列決定サイクルにおいて捕捉された配列決定画像１０８からのデータを、１つ又はそれ以上のクラスターのためにコールされた１つ又はそれ以上の塩基の品質を判定するための畳み込みニューラルネットワーク６１０２に供給する。

畳み込みニューラルネットワーク６１０２の出力モジュールは、畳み込みニューラルネットワーク６１０２による分析を、１つ又はそれ以上のクラスターのためにコールされた１つ又はそれ以上の塩基の品質を識別する出力６２０２に変換する。

一実施態様では、出力モジュールは、高品質、中品質（任意選択であり、点線で示されている）、及び低品質である品質状態の尤度を生成するソフトマックス分類層を更に含む。別の実施態様では、出力モジュールは、高品質及び低品質である品質状態の尤度を生成するソフトマックス分類層を更に含む。当業者であれば、品質スコアを異なるようにかつ識別可能にバケット化する他のクラスが使用され得ることを理解するであろう。ソフトマックス分類層は、複数の品質スコアが割り当てられている品質について尤度を生成する。これらの尤度に基づいて、品質は、複数の品質スコアのうちの１つから品質スコアが割り当てられる。複数の品質スコアは、ベースコール誤り確率に対数的に基づいている。複数の品質スコアは、Ｑ６、Ｑ１０、Ｑ１５、Ｑ２０、Ｑ２２、Ｑ２７、Ｑ３０、Ｑ３３、Ｑ３７、Ｑ４０、及びＱ５０を含む。別の実施態様では、出力モジュールは、品質を識別する連続的な値を生成する回帰層を更に含む。

いくつかの実施態様では、ニューラルネットワークベースの品質スコアラー６１０２は、配列決定画像１０８からのデータをコールされた塩基のための品質予測子値で補足し、品質予測子値を配列決定画像からのデータと共に畳み込みニューラルネットワーク６１０２に供給する、補足的な入力モジュールを更に含む。

いくつかの実施態様では、品質予測子値としては、オンライン重複、純度、フェージング、開始５（start5）、６量体スコア、モチーフ蓄積、エンジネス（endiness）、近似的なホモポリマー、強度減衰、最後から２番目のチャステティ、背景との信号重複（ＳＯＷＢ）、及び／又はシフトされた純度Ｇ調整が挙げられる。他の実施態様では、品質予測子値としては、ピーク高さ、ピーク幅、ピーク位置、相対ピーク位置、ピーク高さ比、ピーク間隔比、及び／又はピーク対応が挙げられる。品質予測子値に関する更なる詳細は、本明細書に完全に記載されているかのように参照により組み込まれる、米国特許出願公開第２０１８／０２７４０２３号及び同第２０１２／００２０５３７号に見出すことができる。
訓練

図６１は、配列決定画像１０８から導出された入力データを処理し、品質指標を直接生成するように、ニューラルネットワークベースの品質スコアラー６１０２を訓練する（６１００）一実施態様を示す。ニューラルネットワークベースの品質スコアラー６１０２は、予測された品質指標６１０４を正しい品質指標６１０８と比較し、比較に基づいて誤差６１０６を計算する、逆伝播ベースの勾配更新技術を使用して訓練される。そのとき、誤差６１０６は勾配を計算するために使用され、勾配は、後方伝播６１１０中にニューラルネットワークベースの品質スコアラー６１０２の重み及びパラメータに適用される。訓練６１００は、アダムなどの確率的勾配更新アルゴリズムを使用して、訓練器１５１０によって操作可能である。

訓練器１５１０は、訓練データ６１１２（配列決定画像１０８に由来する）を使用して、ニューラルネットワークベースの品質スコアラー６１０２を、予測された品質指標を生成する前方伝播６１１６及び誤差６１０６に基づいて重み及びパラメータを更新する後方伝播６１１０の数千～数百万回の反復にわたって訓練する。いくつかの実施態様では、訓練データ６１１２は、品質予測子値６１１４で補足される。訓練６１００に関する更なる詳細は、「深層学習ツール」と題された付録に見出すことができる。
推論

図６２は、推論６２００中にニューラルネットワークベースの品質スコアラー６１０２の出力として品質指標を直接生成する一実施態様を示す。推論６２００は、バッチングなどの平行四辺形技術を含む、数百、数千、及び／又は数百万回の前方伝搬６２０８を含む。推論６２００は、入力データを（配列決定画像１０８から導出された画像チャネル及び／又は補足的なチャネル（例えば、距離チャネル、スケーリングチャネル）と共に）含む推論データ６２０４上で実行される。いくつかの実施態様では、推論データ６２０４は、品質予測子値６２０６で補足される。推測６２００は、テスタ６２１０によって動作可能である。
データ前処理

いくつかの実施態様では、開示される技術は、画像データ２０２内のピクセルに適用され、前処理された画像データ２０２ｐを生成する前処理技術を使用する。このような実施態様では、画像データ２０２の代わりに、前処理された画像データ２０２ｐが、ニューラルネットワークベースのベースコーラー２１８への入力として提供される。データ前処理は、データプリプロセッサ６６０２によって操作可能になっており、データプリプロセッサは、結果として、データ正規化器６６３２及びデータ増強器６６３４を含むことができる。

図６６は、データ正規化及びデータ増強を含むことができる、データ前処理の異なる実施態様を示す。
データ正規化

一実施態様では、データ正規化が、画像データ２０２内のピクセルに画像パッチごとに適用される。これは、結果として得られる正規化された画像パッチのピクセル強度ヒストグラムが、０の５パーセンタイル及び１の９５パーセンタイルを有するように、画像パッチ内のピクセルの強度値を正規化することを含む。すなわち、正規化された画像パッチでは、（ｉ）５％のピクセルは、０未満の強度値を有し、（ｉｉ）別の５％のピクセルは、１を超える強度値を有する。画像データ２０２のそれぞれの画像パッチは、別個に正規化することができ、又は画像データ２０２は、一度に全て正規化することができる。結果としてもたらされるのは、正規化された画像パッチ６６１６であり、これは、前処理された画像データ２０２ｐの一例である。データ正規化は、データ正規化器６６３２によって操作可能になっている。
データ増強

一実施態様では、データ増強は、画像データ２０２内のピクセルの強度値に適用される。これは、（ｉ）画像データ２０２内の全てのピクセルの強度値に同じスケーリング係数を乗算することと、（ｉｉ）画像データ２０２内の全てのピクセルのスケーリングされた強度値に同じオフセット値を加算することと、を含む。単一のピクセルの場合、これは、以下の式によって表すことができる。
増強されたピクセル強度（ＡＰＩ）＝ａＸ＋ｂ
式中、ａはスケーリング係数、Ｘは元のピクセル強度、ｂはオフセット値、ａＸはスケーリングされたピクセル強度である

結果としてもたらされるのは、増強された画像パッチ６６２６であり、これもまた、前処理された画像データ２０２ｐの一例である。データ増強は、データ増強器６６３４によって操作可能になっている。

図６７は、ニューラルネットワークベースのベースコーラー２１８が、細菌データ上で訓練され、ヒトデータ上で試験されるとき（細菌データ及びヒトデータは同じアッセイを共有する（例えば、両方ともイントロンデータを含む））、図６６のデータ正規化技術（ＤｅｅｐＲＴＡ（ｎｏｒｍ））及びデータ増強技術（ＤｅｅｐＲＴＡ（ａｕｇｍｅｎｔ））がベースコール誤り率を減少させることを示す。

図６８は、ニューラルネットワークベースのベースコーラー２１８が、非エクソンデータ（例えば、イントロンデータ）上で訓練され、エクソンデータ上で試験されるとき、図６６のデータ正規化技術（ＤｅｅｐＲＴＡ（ｎｏｒｍ））及びデータ増強技術（ＤｅｅｐＲＴＡ（ａｕｇｍｅｎｔ））がベースコール誤り率を減少させることを示す。

換言すれば、図６６のデータ正規化及びデータ増強技術により、ニューラルネットワークベースのベースコーラー２１８は、訓練では見られなかったデータ上でより良好に一般化し、ひいては過剰適合を低減することが可能になる。

一実施態様では、データ増強は、訓練中及び推論中の両方に適用される。別の実施態様では、データ増強は、訓練中にのみ適用される。更に別の実施態様では、データ増強は、推論中にのみ適用される。
配列決定システム

図６３Ａ及び６３Ｂは、配列決定システム６３００Ａの一実施態様を示す。配列決定システム６３００Ａは、構成可能プロセッサ６３４６を含む。構成可能プロセッサ６３４６は、本明細書に開示されるベースコール技術を実施態様する。配列決定システムは、「シーケンサ」とも称される。

配列決定システム６３００Ａは、生物学的物質又は化学物質のうちの少なくとも１つに関連する任意の情報又はデータを得ることができる。いくつかの実施態様では、配列決定システム６３００Ａは、ベンチトップデバイス又はデスクトップコンピュータと同様であり得るワークステーションである。例えば、所望の反応を実施するためのシステム及び構成要素の大部分（又は全て）は、共通のハウジング６３０２内にあってもよい。

特定の実施態様では、配列決定システム６３００Ａは、ｄｅｎｏｖｏｓｅｑｕｅｎｃｉｎｇ、全ゲノム又は標的ゲノム領域の再配列、及びメタゲノミクスを含むがこれらに限定されない、様々な用途のために構成された核酸配列決定システムである。シーケンサはまた、ＤＮＡ又はＲＮＡ分析に使用されてもよい。いくつかの実施態様では、配列決定システム６３００Ａはまた、バイオセンサー内に反応部位を生成するように構成されてもよい。例えば、配列決定システム６３００Ａは、サンプルを受容し、サンプル由来のクロノウイルス増幅核酸の表面結合クラスターを生成するように構成され得る。各クラスターは、バイオセンサー内の反応部位を構成するか、又はその一部であってもよい。

例示的な配列決定システム６３００Ａは、バイオセンサー６３１２と相互作用して、バイオセンサー６３１２内で所望の反応を行うように構成されたシステム容器又はインターフェース６３１０を含んでもよい。図６３Ａに関して以下の説明では、バイオセンサー６３１２はシステム受け部６３１０内に装填される。しかしながら、バイオセンサー６３１２を含むカートリッジは、システム受け部６３１０に挿入されてもよく、一部の状態では、カートリッジは一時的又は永久的に除去され得ることが理解される。上述のように、カートリッジは、とりわけ、流体制御及び流体貯蔵構成要素を含んでもよい。

特定の実施態様では、配列決定システム６３００Ａは、バイオセンサー６３１２内で多数の平行反応を行うように構成されている。バイオセンサー６３１２は、所望の反応が生じ得る１つ又はそれ以上の反応部位を含む。反応部位は、例えば、バイオセンサーの固体表面に固定化されてもよく、又はバイオセンサーの対応する反応チャンバ内に位置するビーズ（又は他の可動基材）に固定化されてもよい。反応部位は、例えば、クロノウイルス増幅核酸のクラスターを含むことができる。バイオセンサー６３１２は、固体撮像装置（例えば、ＣＣＤ又はＣＭＯＳイメージャ）及びそれに取り付けられたフローセルを含んでもよい。フローセルは、配列決定システム６３００Ａから溶液を受容し、溶液を反応部位に向けて方向付ける１つ又はそれ以上の流路を含んでもよい。任意選択的に、バイオセンサー６３１２は、熱エネルギーを流路の内外に伝達するための熱要素と係合するように構成することができる。

配列決定システム６３００Ａは、相互に相互作用して、生物学的又は化学的分析のための所定の方法又はアッセイプロトコルを実行する、様々な構成要素、アセンブリ、及びシステム（又はサブシステム）を含んでもよい。例えば、配列決定システム６３００Ａは、配列決定システム６３００Ａの様々な構成要素、アセンブリ、及びサブシステムと通信してもよく、またバイオセンサー６３１２も含むシステムコントローラ６３０６を含む。例えば、システム容器６３１０に加えて、配列決定システム６３００Ａはまた、配列決定システム６３００Ａの流体ネットワーク及びバイオセンサー６３１２の流体の流れを制御する流体制御システム６３０８と、バイオアッセイシステムによって使用され得る全ての流体（例えば、気体又は液体）を保持する流体貯蔵システム６３１４と、流体ネットワーク、流体貯蔵システム６３１４及び／又はバイオセンサー６３１２内の流体の温度を調節し得る温度制御システム６３０４と、バイオセンサー６３１２を照明するように構成された照明システム６３１６と、を備えていてもよい。上述のように、バイオセンサー６３１２を有するカートリッジがシステム容器６３１０内に装填される場合、カートリッジはまた、流体制御及び流体貯蔵構成要素を含んでもよい。

また、配列決定システム６３００Ａは、ユーザーと対話するユーザーインターフェース６３１８を含んでもよい。例えば、ユーザーインターフェース６３１８は、ユーザーから情報を表示又は要求するディスプレイ６３２０と、ユーザー入力を受け取るためのユーザー入力デバイス６３２２とを含むことができる。いくつかの実施態様では、ディスプレイ６３２０及びユーザー入力デバイス６３２２は、同じデバイスである。例えば、ユーザーインターフェース６３１８は、個々のタッチの存在を検出し、またディスプレイ上のタッチの場所を識別するように構成されたタッチ感知ディスプレイを含んでもよい。しかしながら、マウス、タッチパッド、キーボード、キーパッド、ハンドヘルドスキャナー、音声認識システム、動き認識システムなどの他のユーザー入力デバイス６３２２が使用されてもよい。以下でより詳細に説明するように、配列決定システム６３００Ａは、所望の反応を実施するために、バイオセンサー６３１２（例えば、カートリッジの形態）を含む様々な構成要素と通信してもよい。配列決定システム６３００Ａはまた、バイオセンサーから得られたデータを分析して、ユーザーに所望の情報を提供するように構成されてもよい。

システムコントローラ６３０６は、マイクロコントローラ、低減命令セットコンピュータ（ＲＩＳＣ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、粗粒化再構成可能構造（ＣＧＲＡｓ）、論理回路、及び本明細書に記載される機能を実行することができる任意の他の回路又はプロセッサと、を備える。上記の実施例は、例示的なものに過ぎず、したがって、システムコントローラという用語の定義及び／又は意味を制限することを意図するものではない。例示的実施態様では、システムコントローラ６３０６は、検出データを取得し分析する少なくとも１つのために、１つ又はそれ以上の記憶要素、メモリ、又はモジュール内に記憶された命令のセットを実行する。検出データは、ピクセル信号の複数のシーケンスを含むことができ、それにより、数百万個のセンサー（又はピクセル）のそれぞれからのピクセル信号のシーケンスを、多くのベースコールサイクルにわたって検出することができる。記憶要素は、配列決定システム６３００Ａ内の情報源又は物理メモリ要素の形態であってもよい。

命令セットは、本明細書に記載される様々な実施態様の方法及びプロセスなどの特定の動作を実行するように配列決定システム６３００Ａ又はバイオセンサー６３１２に指示する様々なコマンドを含んでもよい。命令のセットは、有形の非一時的コンピュータ可読媒体又は媒体の一部を形成し得るソフトウェアプログラムの形態であってもよい。本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、ＲＡＭメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、及び不揮発性ＲＡＭ（ＮＶＲＡＭ）メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは、例示的なものに過ぎず、したがって、コンピュータプログラムの記憶に使用可能なメモリの種類に限定されない。

ソフトウェアは、システムソフトウェア又はアプリケーションソフトウェアなどの様々な形態であってもよい。更に、ソフトウェアは、別個のプログラムの集合、又はより大きいプログラム内のプログラムモジュール若しくはプログラムモジュールの一部の形態であってもよい。ソフトウェアはまた、オブジェクト指向プログラミングの形態のモジュール式プログラミングを含んでもよい。検出データを取得した後、検出データは、ユーザー入力に応じて処理された配列決定システム６３００Ａによって自動的に処理されてもよく、又は別の処理マシン（例えば、通信リンクを介したリモート要求）によって行われる要求に応じて処理されてもよい。図示の別の実施態様では、システムコントローラ６３０６は分析モジュール６３４４を含む。他の別の実施態様では、システムコントローラ６３０６は分析モジュール６３４４を含まず、代わりに分析モジュール６３４４へのアクセスを有する（例えば、分析モジュール６３４４は、クラウド上で別個にホスティングされ得る）。

システムコントローラ６３０６は、通信リンクを介して、バイオセンサー６３１２及び配列決定システム６３００Ａの他の構成要素に接続されてもよい。システムコントローラ６３０６はまた、オフサイトシステム又はサーバに通信可能に接続されてもよい。通信リンクは、配線、コード、又は無線であってもよい。システムコントローラ６３０６は、ユーザーインターフェース６３１８及びユーザー入力デバイス６３２２からユーザー入力又はコマンドを受信してもよい。

流体制御システム６３０８は、流体ネットワークを含み、流体ネットワークを通る１つ又はそれ以上の流体の流れを方向付けるように構成されている。流体ネットワークは、バイオセンサー６３１２及び流体貯蔵システム６３１４と流体連通していてもよい。例えば、流体貯蔵システム６３１４から流体を選択し、制御された方法でバイオセンサー６３１２に向けてもよく、又は流体は、バイオセンサー６３１２から引き出され、例えば、流体貯蔵システム６３１４内の廃棄物リザーバに向けられてもよい。図示されていないが、流体制御システム６３０８は、流体ネットワーク内の流体の流量又は圧力を検出する流量センサーを含んでもよい。センサーは、システムコントローラ６３０６と通信してもよい。

温度制御システム６３０４は、流体ネットワーク、流体貯蔵システム６３１４及び／又はバイオセンサー６３１２の異なる領域における流体の温度を調節するように構成されている。例えば、温度制御システム６３０４は、バイオセンサー６３１２と相互作用し、バイオセンサー６３１２内の反応部位に沿って流れる流体の温度を制御する熱循環器を含んでもよい。温度制御システム６３０４はまた、配列決定システム６３００Ａ又はバイオセンサー６３１２の中実要素又は構成要素の温度を調節してもよい。図示されていないが、温度制御システム６３０４は、流体又は他の構成要素の温度を検出するためのセンサーを含んでもよい。センサーは、システムコントローラ６３０６と通信してもよい。

流体貯蔵システム６３１４は、バイオセンサー６３１２と流体連通しており、所望の反応を行うために使用される様々な反応成分又は反応物質を貯蔵してもよい。流体貯蔵システム６３１４はまた、流体ネットワーク及びバイオセンサー６３１２を洗浄又は洗浄し、反応物質を希釈するための流体を貯蔵してもよい。例えば、流体貯蔵システム６３１４は、試料、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液などを保存するための様々なリザーバを含んでもよい。更に、流体貯蔵システム６３１４はまた、バイオセンサー６３１２から廃棄物を受容するための廃棄物リザーバを含んでもよい。カートリッジを含む実施態様形態では、カートリッジは、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの１つ又はそれ以上を含み得る。したがって、これらのシステムに関する本明細書に記載される構成要素のうちの１つ又はそれ以上は、カートリッジハウジング内に収容され得る。例えば、カートリッジは、サンプル、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液、廃棄物などを保存するための様々なリザーバを有し得る。したがって、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの１つ又はそれ以上は、カートリッジ又は他のバイオセンサーを介してバイオアッセイシステムと取り外し可能に係合され得る。

照明システム６３１６は、バイオセンサーを照明するための光源（例えば、１つ又はそれ以上のＬＥＤ）及び複数の光学構成要素を含んでもよい。光源の例としては、レーザー、アークランプ、ＬＥＤ、又はレーザーダイオードが挙げられる。光学部品は、例えば、反射器、偏光板、ビームスプリッタ、コリマ、レンズ、フィルタ、ウェッジ、プリズム、鏡、検出器などであってもよい。照明システムを使用する実施態様では、照明システム６３１６は、励起光を反応部位に向けるように構成されてもよい。一例として、蛍光団は、緑色の光の波長によって励起されてもよく、そのため、励起光の波長は約５３２ｎｍであり得る。一実施態様では、照明システム６３１６は、バイオセンサー６３１２の表面の表面法線に平行な照明を生成するように構成されている。別の実施態様では、照明システム６３１６は、バイオセンサー６３１２の表面の表面法線に対してオフアングルである照明を生成するように構成されている。更に別の実施態様では、照明システム６３１６は、いくつかの平行照明及びある程度のオフアングル照明を含む複数の角度を有する照明を生成するように構成されている。

システム容器又はインターフェース６３１０は、機械的、電気的、及び流体的な方法のうちの少なくとも１つにおいてバイオセンサー６３１２と係合するように構成される。システム受け部６３１０は、バイオセンサー６３１２を所望の配向に保持して、バイオセンサー６３１２を通る流体の流れを容易にすることができる。システム受け部６３１０はまた、バイオセンサー６３１２と係合するように構成された電気接点を含んでもよく、それにより、配列決定システム６３００Ａは、バイオセンサー６３１２と通信してもよく、及び／又はバイオセンサー６３１２に電力を供給することができる。更に、システム容器６３１０は、バイオセンサー６３１２と係合するように構成された流体ポート（例えば、ノズル）を含んでもよい。いくつかの実施態様では、バイオセンサー６３１２は、電気的に、また流体方式で、システム受け部６３１０に取り外し可能に連結される。

加えて、配列決定システム６３００Ａは、他のシステム若しくはネットワークと遠隔で、又は他のバイオアッセイシステム６３００Ａと通信してもよい。バイオアッセイシステム６３００Ａによって得られた検出データは、リモートデータベースに記憶されてもよい。

図６３Ｂは、図６３Ａのシステムで使用することができるシステムコントローラ６３０６のブロック図である。一実施態様では、システムコントローラ６３０６は、互いに通信することができる１つ又はそれ以上のプロセッサ又はモジュールを含む。プロセッサ又はモジュールのそれぞれは、特定のプロセスを実行するためのアルゴリズム（例えば、有形及び／又は非一時的コンピュータ可読記憶媒体上に記憶された命令）又はサブアルゴリズムを含んでもよい。システムコントローラ６３０６は、モジュールの集合として概念的に例示されるが、専用ハードウェアボード、ＤＳＰ、プロセッサなどの任意の組み合わせを利用して実施態様されてもよい。あるいは、システムコントローラ６３０６は、単一のプロセッサ又は複数のプロセッサを備えた既製のＰＣを使用して実施態様されてもよく、機能動作はプロセッサ間に分散される。更なる選択肢として、以下に記載されるモジュールは、特定のモジュール式機能が専用ハードウェアを利用して実施されるハイブリッド構成を利用して実施態様されてもよく、残りのモジュール式機能は、既製のＰＣなどを利用して実施される。モジュールはまた、処理ユニット内のソフトウェアモジュールとして実施態様されてもよい。

動作中、通信ポート６３５０は、バイオセンサー６３１２（図６３Ａ）及び／又はサブシステム６３０８、６３１４、６３０４（図６３Ａ）から情報（例えば、データ）に情報（例えば、コマンド）を送信してもよい。実施態様形態では、通信ポート６３５０は、ピクセル信号の複数のシーケンスを出力することができる。通信リンク６３３４は、ユーザーインターフェース６３１８からユーザー入力を受信し（図６３Ａ）、ユーザーインターフェース６３１８にデータ又は情報を送信してもよい。バイオセンサー６３１２又はサブシステム６３０８、６３１４、６３０４からのデータは、バイオアッセイセッション中に、システムコントローラ６３０６によってリアルタイムで処理されてもよい。追加的に又は代替的に、データは、バイオアッセイセッション中にシステムメモリ内に一時的に記憶され、リアルタイム又はオフライン操作よりも遅く処理されてもよい。

図６３Ｂに示すように、システムコントローラ６３０６は、中心処理装置（ＣＰＵ）６３５２と共に主制御モジュール６３２４と通信する複数のモジュール６３２６～６３４８を含んでもよい。主制御モジュール６３２４は、ユーザーインターフェース６３１８と通信してもよい（図６３Ａ）。モジュール６３２６～６３４８は、主制御モジュール６３２４と直接通信するものとして示されているが、モジュール６３２６～６３４８はまた、互いに、ユーザーインターフェース６３１８と、及びバイオセンサー６３１２と直接通信してもよい。また、モジュール６３２６～６３４８は、他のモジュールを介して主制御モジュール６３２４と通信してもよい。

複数のモジュール６３２６～６３４８は、サブシステム６３０８、６３１４、６３０４及び６３１６とそれぞれ通信するシステムモジュール６３２８～６３３２、６３２６を含む。流体制御モジュール６３２８は、流体ネットワークを通る１つ又はそれ以上の流体の流れを制御するために、流体制御システム６３０８と通信して、流体ネットワークの弁及び流量センサーを制御してもよい。流体貯蔵モジュール６３３０は、流体が低い場合、又は廃棄物リザーバが容量又はその近くにあるときにユーザーに通知することができる。流体貯蔵モジュール６３３０はまた、流体が所望の温度で貯蔵され得るように、温度制御モジュール６３３２と通信してもよい。照明モジュール６３２６は、所望の反応（例えば、結合事象）が生じた後など、プロトコル中に指定された時間で反応部位を照明するために、照明システム６３１６と通信してもよい。いくつかの実施態様では、照明モジュール６３２６は、照明システム６３１６と通信して、指定された角度で反応部位を照明することができる。

複数のモジュール６３２６～６３４８はまた、バイオセンサー６３１２と通信する装置モジュール６３３６と、バイオセンサー６３１２に関連する識別情報を判定する識別モジュール６３３８とを含んでもよい。装置モジュール６３３６は、例えば、システム容器６３１０と通信して、バイオセンサーが配列決定システム６３００Ａとの電気的及び流体的接続を確立したことを確認することができる。識別モジュール６３３８は、バイオセンサー６３１２を識別する信号を受信してもよい。識別モジュール６３３８は、バイオセンサー６３１２の識別情報を使用して、他の情報をユーザーに提供してもよい。例えば、識別モジュール６３３８は、ロット番号、製造日、又はバイオセンサー６３１２で実行されることが推奨されるプロトコルを決定し、その後表示してもよい。

複数のモジュール６３２６～６３４８はまた、バイオセンサー６３１２から信号データ（例えば、画像データ）を受信及び分析する分析モジュール６３４４（信号処理モジュール又は信号プロセッサとも呼ばれる）も含む。分析モジュール６３４４は、検出／画像データを記憶するためのメモリ（例えば、ＲＡＭ又はフラッシュ）を含む。検出データは、ピクセル信号の複数のシーケンスを含むことができ、それにより、数百万個のセンサー（又はピクセル）のそれぞれからのピクセル信号のシーケンスを、多くのベースコールサイクルにわたって検出することができる。信号データは、その後の分析のために記憶されてもよく、又はユーザーインターフェース６３１８に送信されて、所望の情報をユーザーに表示することができる。いくつかの実施態様では、信号データは、分析モジュール６３４４が信号データを受信する前に、固体撮像素子（例えば、ＣＭＯＳ画像センサー）によって処理され得る。

分析モジュール６３４４は、複数の配列決定サイクルのそれぞれにおいて、光検出器から画像データを取得するように構成される。画像データは、光検出器によって検出された発光信号から導出され、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８を介して、複数の配列決定サイクルのそれぞれについて画像データを処理し、複数の配列決定サイクルのそれぞれにおいて分析物のうちの少なくとも一部のためのベースコールを生成する。光検出器は、１つ又はそれ以上のオーバーヘッドカメラ（例えば、バイオセンサー６３１２上のクラスターの画像を上から撮影するＩｌｌｕｍｉｎａのＧＡＩＩｘのＣＣＤカメラ）の一部であってもよく、又はバイオセンサー６３１２自体の一部（例えば、バイオセンサー６３１２上のクラスターの下にあり、底部からのクラスターの画像を取るＩｌｌｕｍｉｎａのｉＳｅｑのＣＭＯＳ画像センサー）であってもよい。

光検出器の出力は、それぞれクラスターの強度放出及びそれらの周辺背景を示すシーケンス画像である。シーケンス画像は、配列決定中に配列にヌクレオチドを組み込む結果として生成される強度放出を示す。強度放出は、関連する検体及びそれらの周囲の背景からのものである。シーケンス画像は、メモリ６３４８に記憶される。

プロトコルモジュール６３４０及び６３４２は、メイン制御モジュール６３２４と通信して、所定のアッセイプロトコルを実施する際にサブシステム６３０８、６３１４及び６３０４の動作を制御する。プロトコルモジュール６３４０及び６３４２は、所定のプロトコルに従って特定の動作を実行するように配列決定システム６３００Ａに指示するための命令セットを含み得る。図示のように、プロトコルモジュールは、シーケンスごとの合成プロセスを実行するための様々なコマンドを発行するように構成された、配列合成（ＳＢＳ）モジュール６３４０であってもよい。ＳＢＳにおいて、核酸テンプレートに沿った核酸プライマーの伸長を監視して、テンプレート中のヌクレオチド配列を決定する。下にある化学プロセスは、（例えば、ポリメラーゼ酵素により触媒される）又はライゲーション（例えば、リガーゼ酵素により触媒される）であり得る。特定のポリマー系ＳＢＳの実施態様では、プライマーに付加されるヌクレオチドの順序及び種類の検出を使用してテンプレートの配列を決定することができるように、蛍光標識ヌクレオチドをテンプレート依存様式でプライマー（それによってプライマーを伸長させる）に添加する。例えば、第１のＳＢＳサイクルを開始するために、１つ又はそれ以上の標識されたヌクレオチド、ＤＮＡポリメラーゼなどを、核酸テンプレートのアレイを収容するフローセル内に／それを介して送達することができる。核酸テンプレートは、対応する反応部位に位置してもよい。プライマー伸長が、組み込まれる標識ヌクレオチドを、撮像事象を通して検出することができる、これらの反応部位が検出され得る。撮像イベントの間、照明システム６３１６は、反応部位に励起光を提供することができる。任意に、ヌクレオチドは、ヌクレオチドがプライマーに添加されると、更なるプライマー伸長を終結する可逆終端特性を更に含むことができる。例えば、可逆的ターミネーター部分を有するヌクレオチド類似体をプライマーに添加して、デブロッキング剤が部分を除去するためにデブロッキング剤が送達されるまで続く伸長が生じ得ない。したがって、可逆終端を使用する別の実施態様では、フローセル（検出前又は検出後）にデブロッキング試薬を送達するために、コマンドを与えることができる。１つ又はそれ以上のコマンドは、様々な送達工程間の洗浄（複数可）をもたらすために与えられ得る。次いで、サイクルをｎ回繰り返してプライマーをｎ個のヌクレオチドで伸長させることができ、それによって長さｎの配列を検出する。例示的な配列決定技術は、例えば、Ｂｅｎｔｌｅｙｅｔａｌ．，Ｎａｔｕｒｅ４５６：５３－５９（２００６３）、国際公開第０４／０１６３４９７号、米国特許第７，０５７，０２６号、国際公開第９１／０６６７６３号、同第０７／１２３７４４号、米国特許第７，３２９，４９２号、同第７，２１１，４１４号、同第７，３１５，０１９号、米国特許第７，４０５，２６３１号、及び米国特許出願第２００６３／０１４７０６３０６３２号（それぞれ参照により本明細書に組み込まれる）に記載されている。

ＳＢＳサイクルのヌクレオチド送達工程では、単一の種類のヌクレオチドのいずれかを一度に送達することができ、又は複数の異なるヌクレオチドタイプ（例えば、Ａ、Ｃ、Ｔ、及びＧ）を送達することができる。一度に単一の種類のヌクレオチドのみが存在するヌクレオチド送達構成では、異なるヌクレオチドは、個別化された送達に固有の時間的分離に基づいて区別することができるため、異なるヌクレオチドは別個の標識を有する必要はない。したがって、配列決定方法又は装置は、単一の色検出を使用することができる。例えば、励起源は、単一の波長又は単一の波長範囲の励起のみを提供する必要がある。ある時点で、送達がフローセル内に存在する複数の異なるヌクレオチドをもたらすヌクレオチド送達構成では、異なるヌクレオチドタイプを組み込む部位は、混合物中のそれぞれのヌクレオチドタイプに結合された異なる蛍光標識に基づいて区別することができる。例えば、４つの異なる蛍光団のうちの１つをそれぞれ有する４つの異なるヌクレオチドを使用することができる。一実施態様では、４つの異なるフルオロフォアは、スペクトルの４つの異なる領域における励起を使用して区別することができる。例えば、４つの異なる励起放射線源を使用することができる。あるいは、４つ未満の異なる励起源を使用することができるが、単一源からの励起放射線の光学的濾過を使用して、フローセルにおいて異なる励起放射線の範囲を生成することができる。

いくつかの実施態様では、４つ未満の異なる色を、４つの異なるヌクレオチドを有する混合物中で検出することができる。例えば、ヌクレオチドの対は、同じ波長で検出することができるが、対のうちの１つのメンバーに対する強度の差に基づいて、又は、対の他の部材について検出された信号と比較して明らかなシグナルを出現又は消失させる、対の１つのメンバーへの変化（例えば、化学修飾、光化学修飾、又は物理的改質を行うことを介して）に基づいて区別され得る。４つ未満の色の検出を使用して４つの異なるヌクレオチドを区別するための例示的な装置及び方法が、例えば、米国特許出願第６１／５３６３，２９４号及び同第６１／６１９，６３７６３号に記載されており、これらはその全体が参照により本明細書に組み込まれる。２０１２年９月２１日に出願された米国特許出願第１３／６２４，２００号は、その全体が参照により組み込まれる。

複数のプロトコルモジュールはまた、バイオセンサー６３１２内の製品を増幅するための流体制御システム６３０８及び温度制御システム６３０４にコマンドを発行するように構成された試料調製（又は生成）モジュール６３４２を含んでもよい。例えば、バイオセンサー６３１２は、配列決定システム６３００Ａに係合されてもよい。増幅モジュール６３４２は、バイオセンサー６３１２内の反応チャンバに必要な増幅成分を送達するために、流体制御システム６３０８に命令を発行することができる。他の実施態様では、反応部位は、テンプレートＤＮＡ及び／又はプライマーなどの増幅のためのいくつかの成分を既に含有していてもよい。増幅成分を反応チャンバに送達した後、増幅モジュール６３４２は、既知の増幅プロトコルに従って異なる温度段階を通して温度制御システム６３０４にサイクルするように指示し得る。いくつかの実施態様では、増幅及び／又はヌクレオチドの取り込みは、等温的に実施される。

ＳＢＳモジュール６３４０は、クローン性アンプリコンのクラスターがフローセルのチャネル内の局所領域上に形成されるブリッジＰＣＲを実行するコマンドを発行することができる。ブリッジＰＣＲを介してアンプリコンを生成した後、アンプリコンを「線形化」して、一本鎖テンプレートＤＮＡを作製してもよく、ｓｓｔＤＮＡ及び配列決定プライマーは、関心領域に隣接する普遍配列にハイブリダイズされてもよい。例えば、合成方法による可逆的ターミネーター系配列決定を、上記のように又は以下のように使用することができる。

各塩基性コーリング又は配列決定サイクルは、例えば、修飾ＤＮＡポリメラーゼ及び４種類のヌクレオチドの混合物を使用することによって達成することができる単一の塩基によってｓｓｔＤＮＡを延長することができる。異なる種類のヌクレオチドは、固有の蛍光標識を有することができ、各ヌクレオチドは、各サイクルにおいて単一塩基の組み込みのみが生じることを可能にする可逆的ターミネーターを更に有し得る。ｓｓｔＤＮＡ、励起光に単一の塩基を添加した後、反応部位に入射し、蛍光発光を検出することができる。検出後、蛍光標識及びターミネーターは、ｓｓｔＤＮＡから化学的に切断され得る。別の同様の基本コーリング又は配列決定サイクルは、以下の通りであってもよい。そのような配列決定プロトコルでは、ＳＢＳモジュール６３４０は、バイオセンサー６３１２を通る試薬及び酵素溶液の流れを方向付けるように流体制御システム６３０８に指示することができる。本明細書に記載される装置及び方法と共に利用することができる例示的な可逆性ターミネーターベースのＳＢＳ方法は、米国特許出願公開第２００７／０１６６７０５（Ａ１）号、米国特許出願公開第２００６／０１６３６３９０１（Ａ１）号、米国特許第７，０５７，０２６号、米国特許出願公開第２００６／０２４０４３９（Ａ１）号、米国特許出願公開第２００６／０２６３１４７１４７０９（Ａ１）号、国際公開第０５／０６５６３１４号、米国特許出願公開第２００５／０１４７００９００（Ａ１）号、国際公開第０６／０６３Ｂ１９９号及び国際公開第０７／０１４７０２５１号（それぞれ参照によりその全体が本明細書に組み込まれる）に記載されている。可逆性ターミネーター系ＳＢＳの例示的な試薬は、米国特許第７，５４１，４４４号、米国特許第７，０５７，０２６号、同第７，４１４，１４７１６号、同第７，４２７，６７３号、同第７，５６６，５３７号、同第７，５９２，４３５号、及び国際公開第０７／１４６３３５３６６３号に記載されており、これらはそれぞれ参照によりその全体が本明細書に組み込まれる。

いくつかの実施態様では、増幅及びＳＢＳモジュールは、単一のアッセイプロトコルで動作してもよく、例えば、テンプレート核酸は増幅され、続いて同じカートリッジ内で配列される。

配列決定システム６３００Ａはまた、ユーザーがアッセイプロトコルを再構成することを可能にし得る。例えば、決定システム６３００Ａは、決定されたプロトコルを修正するために、ユーザーインターフェース６３１８を通じてユーザーにオプションを提供することができる。例えば、バイオセンサー６３１２が増幅のために使用されると判定された場合、配列決定システム６３００Ａは、アニーリングサイクルの温度を要求し得る。更に、配列決定システム６３００Ａは、選択されたアッセイプロトコルに対して一般的に許容されないユーザー入力をユーザーが提供した場合に、ユーザーに警告を発行し得る。

実施態様形態では、バイオセンサー６３１２は、センサー（又はピクセル）のミリオンを含み、それらのそれぞれは、連続するベースコールサイクルにわたって複数のピクセル信号のシーケンスを生成する。分析モジュール６３４４は、センサーのアレイ上のセンサーの行方向及び／又は列方向の位置に従って、ピクセル信号の複数のシーケンスを検出し、それらを対応するセンサー（又はピクセル）に属させる。

図６３Ｃは、ベースコールセンサー出力などの配列決定システム６３００Ａからのセンサーデータの分析のためのシステムの簡略ブロック図である。図６３Ｃの例では、システムは構成可能プロセッサ６３４６を含む。構成可能プロセッサ６３４６は、中心処理ユニット（ＣＰＵ）６３５２（すなわち、ホストプロセッサ）によって実行される実行時プログラムと協調して、ベースコーラー（例えば、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８）を実行することができる。配列決定システム６３００Ａは、バイオセンサー６３１２及びフローセルを含む。フローセルは、遺伝物質のクラスターが、遺伝物質中の塩基を同定するためにクラスター内の反応を引き起こすために使用される一連の分析物フローに曝露される１つ又はそれ以上のタイルを含み得る。センサーは、タイルデータを提供するために、フローセルの各タイルにおけるシーケンスの各サイクルの反応を検知する。遺伝的配列決定はデータ集約的操作であり、このデータ集約的動作は、ベースコールセンサーデータを、ベースコール動作中に感知された各遺伝物質群のベースコールのシーケンスに変換する。

本実施例のシステムは、ベースコール動作を調整するための実行時プログラムを実行するＣＰＵ６３５２と、タイルデータのアレイのシーケンスを記憶するメモリ６３４８Ｂと、ベースコール動作によって生成されたベースコールリードと、ベースコール動作で使用される他の情報とを記憶する。また、この図では、システムは、構成ファイル（又はファイル）、例えば、ＦＰＧＡビットファイル、並びに構成可能プロセッサ６３４６を構成及び再構成するために使用されるニューラルネットワークのモデルパラメータなどの構成ファイル（又はファイル）を記憶するメモリ６３４８Ａを含む。配列決定システム６３００Ａは、構成可能プロセッサを構成するためのプログラムを含むことができ、いくつかの実施形態では、ニューラルネットワークを実行する再構成可能なプロセッサを含み得る。

配列決定システム６３００Ａは、バス６３８９によって構成可能プロセッサ６３４６に結合される。バス６３８９は、ＰＣＩ－ＳＩＧ規格（ＰＣＩＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ）によって現在維持及び開発されているＰＣＩｅ規格（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＥｘｐｒｅｓｓ）と互換性のあるバス技術などの高スループット技術を使用して実施態様することができる。また、この例では、メモリ６３４８Ａは、バス６３９３によって構成可能プロセッサ６３４６に結合される。メモリ６３４８Ａは、構成可能プロセッサ６３４６を有する回路基板上に配置されたオンボードメモリであってもよい。メモリ６３４８Ａは、ベースコール動作で使用される作業データの構成可能プロセッサ６３４６による高速アクセスに使用される。バス６３９３はまた、ＰＣＩｅ規格と互換性のあるバス技術などの高スループット技術を使用して実施態様することもできる。

フィールドプログラマブルゲートアレイＦＰＧＡ、粗いグレー構成可能な再構成可能アレイＣＧＲＡｓ、並びに他の構成可能かつ再構成可能なデバイスを含む構成可能なプロセッサは、コンピュータプログラムを実行する汎用プロセッサを使用して達成され得るよりも、より効率的に又はより高速に様々な機能を実施態様するように構成することができる。構成可能なプロセッサの構成は、時にはビットストリーム又はビットファイルと称される構成ファイルを生成するために機能的な説明を編集することと、構成ファイルをプロセッサ上の構成可能要素に配布することと、を含む。構成ファイルは、データフローパターンを設定するように回路を構成することにより、分散メモリ及び他のオンチップメモリリソースの使用、ルックアップテーブルコンテンツ、構成可能な論理ブロックの動作、及び構成可能な論理ブロックの動作、及び構成可能なアレイの構成可能な相互接続及び他の要素のような構成可能な実行ユニットとを含む。構成ファイルがフィールド内で変更され得る場合、ロードされた構成ファイルを変更することによって構成ファイルを変更することができる場合に再構成可能である。例えば、構成ファイルは、揮発性ＳＲＡＭ要素内に、不揮発性読み書きメモリ素子内に記憶されてもよく、構成可能又は再構成可能なプロセッサ上の構成可能要素のアレイ間に分散されたものであってもよい。様々な市販の構成可能なプロセッサは、本明細書に記載されるようなベースコール動作において使用するのに好適である。例としては、Ｇｏｏｇｌｅのテンソル処理ユニット（ＴＰＵ）（商標）、ＧＸ４ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）、ＧＸ９ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）、ＮＶＩＤＩＡＤＧＸ－１（商標）、Ｍｉｃｒｏｓｏｆｔ’ ＳｔｒａｔｉｘＶＦＰＧＡ（商標）、ＧｒａｐｈｃｏｒｅのＩｎｔｅｌｌｉｇｅｎｔＰｒｏｃｅｓｓｏｒＵｎｉｔ（ＩＰＵ）（商標）、ＱｕａｌｃｏｍｍのＺｅｒｏｔｈＰｌａｔｆｏｒｍ（商標）（Ｓｎａｐｄｒａｇｏｎｐｒｏｃｅｓｓｏｒｓ（商標）、ＮＶＩＤＩＡＶｏｌｔａ（商標）、ＮＶＩＤＩＡのドライブＰＸ（商標）、ＮＶＩＤＩＡのＪＥＴＳＯＮＴＸ１／ＴＸ２ＭＯＤＵＬＥ（商標）、Ｉｎｔｅｌ’ｓＮｉｒｖａｎａＴＭ、ＭｏｖｉｄｉｕｓＶＰＵ（商標）、ＦｕｊｉｔｓｕＤＰＩ（商標）、アームＤｙｎａｍｉｃＩＱ（商標）、ＩＢＭＴｒｕｅＮｏｒｔｈ（商標）、ＬａｍｂｄａＧＰＵＳｅｒｖｅｒｗｉｔｈＴｅｓｔａＶ１００ｓ（商標）、ＸｉｌｉｎｘＡｌｖｅｏ（商標）Ｕ２００、ＸｉｌｉｎｘＡｌｖｅｏ（商標）Ｕ２５０、ＸｉｌｉｎｘＡｌｖｅｏ（商標）Ｕ２８０、Ｉｎｔｅｌ／ＡｌｔｅｒａＳｔｒａｔｉｘ（商標）ＧＸ２８００、Ｉｎｔｅｌ／ＡｌｔｅｒａＳｔｒａｔｉｘ（商標）ＧＸ２８００、及びＩｎｔｅｌＳｔｒａｔｉｘ（商標）ＧＸ１０Ｍ、が含まれる。いくつかの実施例では、ホストＣＰＵは、構成可能プロセッサと同じ集積回路上に実施態様することができる。

本明細書に記載される実施形態は、構成可能プロセッサ６３４６を使用して、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８を実装する。構成可能プロセッサ６３４６の構成ファイルは、高レベルの記述言語ＨＤＬ又はレジスタ転送レベルＲＴＬ言語仕様を使用して実行されるロジック機能を指定することによって実施態様することができる。本明細書は、選択された構成可能プロセッサが構成ファイルを生成するように設計されたリソースを使用してコンパイルすることができる。構成可能なプロセッサではない場合がある特定用途向け集積回路の設計を生成する目的で、同じ又は類似の仕様をコンパイルすることができる。

したがって、本明細書に記載される全ての実施形態における構成可能プロセッサ構成可能プロセッサ６３４６の代替例は、特定用途向けＡＳＩＣ又は専用集積回路又は集積回路のセットを含む構成されたプロセッサを含み、又はシステムオンチップＳＯＣデバイス、又は本明細書に記載されるようなニューラルネットワークベースのベースコール動作を実行するように構成された、システムオンチップＳＯＣデバイス、又はグラフィック処理ユニット（ＧＰＵ）プロセッサ若しくは粗粒化再構成可能構造（ＣＧＲＡ）プロセッサである。

一般に、ニューラルネットワークの実行を実行するように構成された、本明細書に記載の構成可能なプロセッサ及び構成されたプロセッサは、本明細書ではニューラルネットワークプロセッサと称される。

構成可能プロセッサ６３４６は、この例では、ＣＰＵ６３５２によって実行されるプログラムを使用して、又は構成可能要素６３９１のアレイを構成する他のソースによってロードされた構成ファイルによって構成される（例えば、構成論理ブロック（ＣＬＢ）、例えばルックアップテーブル（ＬＵＴ）、フリップフロップ、演算処理ユニット（ＰＭＵ）、及び計算メモリユニット（ＣＭＵ）、構成可能なＩ／Ｏブロック、プログラマブル相互接続）を計算して、ベースコール機能を実行する。この例では、構成は、バス６３８９及び６３９３に結合され、ベースコール動作で使用される要素間でデータ及び制御パラメータを分散する機能を実行するデータフローロジック６３９７を含む。

また、構成可能プロセッサ６３４６は、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８を実行するために、ベースコール実行論理６３９７を用いて構成される。論理６３９７は、マルチサイクル実行クラスター（例えば、６３７９）を含み、この実施例では、実行クラスターＸを介した実行クラスター１を含む。多重サイクル実行クラスターの数は、動作の所望のスループットを伴うトレードオフ、及び構成可能プロセッサ６３４６上の利用可能なリソースに従って選択することができる。

多重サイクル実行クラスターは、構成可能なプロセッサ６３４６上の構成可能な相互接続及びメモリリソースを使用して実施態様されるデータ流路６３９９によってデータフローロジック６３９７に結合される。また、多重サイクル実行クラスターは、例えば構成可能プロセッサ６３４６上の構成可能な相互接続及びメモリリソースを使用して実装される制御経路６３９５によってもデータフローロジック６３９７に結合されており、これらの制御経路は、利用可能な実行クラスター、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の実行を実施するための入力ユニットを利用可能な実行クラスターに提供する準備ができていること、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８のための訓練されたパラメータを提供する準備ができていること、ベースコール分類データの出力パッチを提供する準備ができていること、並びにニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の実行に使用される他の制御データを示す制御信号を提供する。

構成可能プロセッサ６３４６は、訓練されたパラメータを使用してニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の実行を実行して、ベースコール動作の検知サイクルに関する分類データを生成するように構成される。ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の実行を実行して、ベースコール動作の被験者検知サイクルの分類データを生成する。ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の実行は、Ｎ個の感知サイクルのそれぞれの検知サイクルからのタイルデータのアレイの数Ｎを含むシーケンスで動作し、Ｎ個の検知サイクルは、本明細書に記載される実施例での時間シーケンスにおける動作ごとの１つの基本位置に対する異なる基本呼び出し動作のためのセンサーデータを提供する。任意選択的に、Ｎ個の感知サイクルのうちのいくつかは、実行される特定のニューラルネットワークモデルに従って必要に応じて、シーケンスから出ることができる。数Ｎは、１を超える任意の数であり得る。本明細書に記載されるいくつかの実施例では、Ｎ個の検知サイクルの検知サイクルは、被験者の検知サイクルに先行する少なくとも１つの検知サイクル、及び被験者サイクルの後の少なくとも１回の検知サイクルについての検知サイクルのセットを表す。本明細書では、数Ｎが５以上の整数である、実施例が記載される。

データフローロジック６３９７は、Ｎ個のアレイの空間的に整合されたパッチのタイルデータを含む所与の実行のための入力ユニットを使用して、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の実行のために、メモリ６３４８Ａから構成可能プロセッサ６３４６に、タイルデータ及びモデルパラメータの少なくともいくつかの訓練されたパラメータを移動させるように構成される。入力ユニットは、１回のＤＭＡ動作におけるダイレクトメモリアクセス動作によって、又は、配備されたニューラルネットワークの実行と協調して、利用可能なタイムスロットの間に移動するより小さいユニット内で移動させることができる。

本明細書に記載される感知サイクルのタイルデータは、１つ又はそれ以上の特徴を有するセンサーデータのアレイを含むことができる。例えば、センサーデータは、ＤＮＡ、ＲＮＡ、又は他の遺伝物質の遺伝的配列における塩基位置で４塩基のうちの１つを同定するために分析される２つの画像を含むことができる。タイルデータはまた、画像及びセンサーに関するメタデータを含むことができる。例えば、ベースコール動作の実施形態では、タイルデータは、タイル上の遺伝物質群の中心からのセンサーデータのアレイ内の各ピクセルの距離を示す中心情報からの距離などの、クラスターとの画像の位置合わせに関する情報を含むことができる。

ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の実行中に、タイルデータはまた、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の実行中に生成されるデータも含み得る。ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の実行中に再計算されるのではなく再計算することができる中間データと称される。例えば、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の実行中に、データフローロジック６３９７は、タイルデータのアレイの所与のパッチのセンサーデータの代わりに、中間データをメモリ６３４８Ａに書き込むことができる。このような実施形態は、以下により詳細に記載される。

図示されているように、ベースコール動作の検知サイクルからタイルのセンサーデータを含むタイルデータを記憶する実行時プログラムによってアクセス可能なメモリ（例えば、６３４８Ａ）を含む、ベースコールセンサー出力の分析のためのシステムが説明される。また、システムは、メモリへのアクセスを有する構成可能プロセッサ６３４６などのニューラルネットワークプロセッサを含む。ニューラルネットワークプロセッサは、訓練されたパラメータを使用してニューラルネットワークの実行を実行して、検知サイクルのための分類データを生成するように構成される。本明細書に記載されるように、ニューラルネットワークの実行は、被験者サイクルを含むＮ個の感知サイクルのそれぞれの感知サイクルからタイルデータのＮ個のアレイのシーケンスで動作して、被験者サイクルの分類データを生成する。データフローロジック９０８は、Ｎ個の感知サイクルのそれぞれの感知サイクルからのＮ個のアレイの空間的に整合されたパッチのデータを含む入力ユニットを使用して、ニューラルネットワークの実行のために、メモリからニューラルネットワークプロセッサにタイルデータ及び訓練されたパラメータを移動させるために提供される。

また、ニューラルネットワークプロセッサがメモリへのアクセスを有し、複数の実行クラスターを含み、ニューラルネットワークを実行するように構成された複数の実行クラスター内の実行クラスターを含むシステムも説明される。データフローロジック６３９７は、メモリへのアクセス、及び複数の実行クラスター内のクラスターを実行して、複数の実行クラスター内の利用可能な実行クラスターにタイルデータの入力ユニットを提供し、入力ユニットは、それぞれの感知サイクルからタイルデータのアレイの空間的に整列されたパッチの数Ｎを含む、入力ユニットと、被験者検知サイクルを含み、Ｎ個の空間的に整合されたパッチをニューラルネットワークに適用して、被験者検知サイクルの空間的に整合されたパッチの分類データの出力パッチを生成させるように、実行クラスターに、ニューラルネットワークにＮ個の空間的に位置合わせされたパッチを適用させることと、を含み、Ｎは１より大きい。

図６４Ａは、ホストプロセッサによって実行される実行時プログラムの機能を含む、ベースコール動作の態様を示す簡略図である。この図では、フローセルからの画像センサーの出力は、ライン６４００上で画像処理スレッド６４０１に提供され、画像処理スレッド８００１は、個々のタイルのセンサーデータのアレイ内の位置合わせ及び配置、及び画像の再サンプリングなどの画像上のプロセスを実行することができ、フローセル内の各タイルのタイルクラスターマスクを計算するプロセスによって使用することができ、フローセルの対応するタイル上の遺伝子材料のクラスターに対応するセンサーデータのアレイ内のピクセルを識別するプロセスによって使用することができる。画像処理スレッド６４０１の出力は、ＣＰＵ内のディスパッチロジック６４１０に、ライン６４０２上に提供され、これは、高速バス６４０３上又は高速バス６４０５上のデータキャッシュ６４０４（例えば、ＳＳＤ記憶装置）に、ベースコール動作の状態に従って、図６３Ｃの構成可能プロセッサ６３４６などのニューラルネットワークプロセッサハードウェア６４２０に転送される。処理され、変換された画像は、以前に使用されたサイクルを検知するために、データキャッシュ６４０４上に記憶され得る。ハードウェア６４２０は、ニューラルネットワークによって出力された分類データをディスパッチロジック６４６４に返し、ディスパッチロジック８０８０は、情報をデータキャッシュ６４０４に、又はライン６４１１上でスレッド６４０２に渡し、分類データを使用してベースコール及び品質スコア計算を実行し、ベースコール読み取りのための標準フォーマットでデータを配置することができる。ベースコール及び品質スコア計算を実行するスレッド６４０２の出力は、ベースコールリードを集約するスレッド６４０３に、ライン６４１２上に提供され、データ圧縮などの他の動作を実行し、結果として得られるベースコール出力を顧客による利用のために指定された宛先に書き込む。

いくつかの実施形態では、ホストは、ニューラルネットワークを支持するハードウェア６４２０の出力の最終処理を実行する、スレッド（図示せず）を含むことができる。例えば、ハードウェア６４２０は、マルチクラスターニューラルネットワークの最終層から分類データの出力を提供することができる。ホストプロセッサは、ベースコール及び品質スコアスレッド６４０２によって使用されるデータを設定するために、分類データを超えて、ソフトマックス関数などの出力起動機能を実行することができる。また、ホストプロセッサは、ハードウェア６４２０への入力前のタイルデータのバッチ正規化などの入力動作（図示せず）を実行することができる。

図６４Ｂは、図６３Ｃの構成などの構成可能プロセッサ６３４６の構成の簡略図である。図６４Ｂでは、構成可能プロセッサ６３４６は、複数の高速ＰＣＩｅインターフェースを有するＦＰＧＡを含む。ＦＰＧＡは、図６３Ｃを参照して説明されるデータフローロジック６３９７を含むラッパー６４９０を用いて構成される。ラッパー６４９０は、ＣＰＵ通信リンク６４７７を介してＣＰＵ内の実行時プログラムとのインターフェース及び調整を管理し、ＤＲＡＭ通信リンク６４９７を介してオンボードＤＲＡＭ６４９９（例えば、メモリ６３４８Ａ）との通信を管理する。ラッパー６４９０内のデータフローロジック６３９７は、数Ｎのサイクルのために、オンボードＤＲＡＭ６４９９上のタイルデータのアレイをクラスター６４８５まで横断することによって取得されたパッチデータを提供し、クラスター６４８５からプロセスデータ６４８７を取得して、オンボードＤＲＡＭ６４９９に配信する。ラッパー６４９０はまた、タイルデータの入力アレイ、及び分類データの出力パッチの両方について、オンボードＤＲＡＭ６４９９とホストメモリとの間のデータの転送を管理する。ラッパーは、ライン６４８３上のパッチデータを割り当てられたクラスター６４８５に転送する。ラッパーは、オンボードＤＲＡＭ６４９９から取得されたクラスター６４８５にライン６４８１の重みやバイアスなどの訓練されたパラメータを提供する。ラッパーは、ＣＰＵ通信リンク６４７７を介してホスト上のランタイムプログラムから提供されるか、又はそれに応答して生成されるクラスター６４８５に、ライン６４７９上の構成及び制御データを提供する。クラスターはまた、ホストからの制御信号と協働して使用されて、空間的に整列したパッチデータを提供し、クラスター６４８５のリソースを使用して、パッチデータを介して多重サイクルニューラルネットワークをパッチデータの上で実行するために、ホストからの制御信号と協働して使用されるラッパー６４９０に、ライン６４８９上の状態信号を提供することができる。

上述のように、タイルデータの複数のパッチのうちの対応するパッチ上で実行するように構成されたラッパー６４９０によって管理される単一の構成可能なプロセッサ上に複数のクラスターが存在し得る。各クラスターは、本明細書に記載される複数の感知サイクルのタイルデータを使用して、被験者検知サイクルにおけるベースコールの分類データを提供するように構成することができる。

システムの例では、フィルタ重み及びバイアスのようなカーネルデータを含むモデルデータをホストＣＰＵから構成可能プロセッサに送信することができ、その結果、モデルは、サイクル数の関数として更新され得る。ベースコール動作は、代表的な例では、数百の感知サイクルの順序で含むことができる。ベースコール動作は、いくつかの実施形態では、ペアリングされた端部読み取りを含むことができる。例えば、モデル訓練されたパラメータは、２０サイクルごと（又は他の数のサイクル）ごとに、又は特定のシステム及びニューラルネットワークモデルに実施態様される更新パターンに従って更新されてもよい。いくつかの実施形態では、タイル上の遺伝的クラスター内の所与のストリングのためのシーケンスが、ストリングの第１の端部から（又は上方に）延在する第１の部分と、ストリングの第２の端部から上方（又は下方）に延在する第２の部分とを含む、ペアリングされた端部リードを含むいくつかの実施形態では、訓練されたパラメータは、第１の部分から第２の部分への遷移で更新され得る。

いくつかの実施例では、タイルのための感知データの複数サイクルの画像データは、ＣＰＵから包装材６４９０に送信され得る。ラッパー６４９０は、任意選択的に、感知データの一部の前処理及び変換を行い、その情報をオンボードＤＲＡＭ６４９９に書き込むことができる。各感知サイクルの入力タイルデータは、タイル当たり４０００×３０００ピクセル／タイル以上を含むセンサーデータのアレイを含むことができ、２つの特徴はタイルの２つの画像の色を表し、１ピクセル当たり１つ又は２つのバイトを含むセンサーデータのアレイを含むことができる。数Ｎが、多重サイクルニューラルネットワークの各実施において使用される３回の検知サイクルである実施形態では、多重サイクルニューラルネットワークの各実施のためのタイルデータのアレイは、数当たり数百メガバイトの数で消費することができる。システムのいくつかの実施形態では、タイルデータはまた、タイルごとに１回記憶されたＤＦＣデータのアレイ、又はセンサーデータ及びタイルに関する他のタイプのメタデータも含む。

動作中、多重サイクルクラスターが利用可能である場合、ラッパーは、パッチをクラスターに割り当てる。ラッパーはタイルの横断面にタイルデータの次のパッチをフェッチし、適切な制御及び構成情報と共に割り当てられたクラスターに送信する。クラスターは、構成可能プロセッサ上の十分なメモリを用いて構成されて、パッチを含むデータのパッチを、定位置に処理されているいくつかのシステム内で複数サイクルから保持するのに十分なメモリを有するように構成することができ、様々な実施形態では、ピンポンバッファ技術又はラスタ走査技術を使用して処理される。

割り当てられたクラスターが、現在のパッチのニューラルネットワークのその動作を完了し、出力パッチを生成すると、それはラッパーに信号を送る。ラッパーは、割り当てられたクラスターから出力パッチを読み出すか、あるいは割り当てられたクラスターは、データをラッパーにプッシュする。次いで、ラッパーは、ＤＲＡＭ６４９９内の処理されたタイルのための出力パッチを組み立てる。タイル全体の処理が完了し、データの出力パッチがＤＲＡＭに転送されると、ラッパーは、処理された出力アレイを、特定のフォーマットでホスト／ＣＰＵに返送する。いくつかの実施形態では、オンボードＤＲＡＭ６４９９は、ラッパー６４９０内のメモリ管理論理によって管理される。ランタイムプログラムは、リアルタイム分析を提供するために連続フローで実行される全てのサイクルについての全てのタイルデータのアレイの分析を完了するために、配列決定動作を制御することができる。
技術的な改善及び用語

ベースコールは、蛍光標識されたタグを分析物と共に組み込む又は取り付けることを含む。検体は、ヌクレオチド又はオリゴヌクレオチドであってよく、タグは、特定のヌクレオチド型（Ａ、Ｃ、Ｔ、又はＧ）であってもよい。励起光は、タグを有する検体に向けられ、タグは検出可能な蛍光シグナル又は強度発光を発する。強度発光は、検体に化学的に結合された励起タグによって放出される光子を示す。

特許請求の範囲を含む本出願全体を通して、「画像、画像データ、又は分析物及びそれらの周囲背景の強度放射を示す画像領域が使用されるとき、それらは、検体に取り付けられたタグの強度放射を指す。当業者であれば、取り付けられたタグの強度放出は、タグが取り付けられている検体の強度放射を表すか、又はそれに相当し、したがって互換的に使用されることを理解するであろう。同様に、検体の特性は、検体に取り付けられたタグ、又は取り付けられたタグからの強度放出の特性を指す。例えば、検体の中心とは、検体に取り付けられたタグによって放出される強度放出の中心を指す。別の実施例では、検体の周囲の背景とは、検体に取り付けられたタグによって放出される強度放射の周囲の背景を指す。

特許、特許出願、論文、書籍、木、及びウェブページが挙げられるがこれらに限定されない、本出願において引用された文献及び類似材料は、その全体が参照により明示的に組み込まれる。組み込まれた文献及び類似の材料のうちの１つ又はそれ以上が、定義された用語、用語使用、記載された技術などを含むがこれらに限定されない、本出願とは異なる、又は矛盾する場合には、この出願は制御する。

開示される技術は、核酸テンプレート又はその相補体、例えば、ＤＮＡ若しくはＲＮＡポリヌクレオチド又は他の核酸サンプルなどの核酸サンプルから得ることができる核酸配列情報の品質及び量を改善するためにニューラルネットワークを使用する。したがって、開示される技術の特定の実施は、以前に利用可能な方法と比較して、より高いスループットのポリヌクレオチド配列決定、例えば、より高いＤＮＡ又はＲＮＡ配列データの収集速度、配列データ収集におけるより高い効率、及び／又はそのような配列データを得る低コストを提供する。

開示される技術は、ニューラルネットワークを使用して、固相核酸クラスターの中心を同定し、そのようなクラスターの配列決定中に生成される光信号を解析して、隣接する、隣接する、又は重複するクラスター間で曖昧さなく区別して、単一の離散したソースクラスターに配列決定シグナルを割り当てる。したがって、これら及び関連する実施態様は、高密度クラスターアレイの領域からの、配列データなどの有意義な情報の回収を可能にし、有用な情報は、重複する又は非常に近接して離間配置された隣接クラスターの影響を混乱させることに起因して、そのような領域から以前に得られなかった場合がある。重複するシグナルの効果（例えば、核酸配列決定において使用されるような）の効果を含む。

以下により詳細に記載されるように、特定の実施形態では、本明細書で提供されるように、１つ又は複数の核酸クラスターに固定化された固体支持体を含む組成物が提供される。各クラスターは、同じ配列の複数の固定化された核酸を含み、本明細書で提供されるような検出可能な中心標識を有する識別可能な中心を有し、識別可能な中心は、クラスター内の周囲領域において固定化された核酸と区別可能である。また、識別可能な中心を有するこのようなクラスターを作製及び使用するための方法も本明細書に記載される。

本開示の実施態様は、多数の状況での使用が見出され、その利点は、クラスター内の実質的に中心の位置の位置を識別、決定、アノテーション、記録、ないしは別の方法で割り当てる能力から得られる、多くの状況において使用が見出されるであろう。ハイスループット核酸配列決定、光学的又は他のシグナルを個別のソースクラスターに割り当てるための画像解析アルゴリズムの開発、及び固定化された核酸クラスターの中心の認識が望ましい及び有益である他の用途が望ましい。

特定の実施態様では、本発明は、核酸配列決定（例えば、「配列決定」）などのハイスループット核酸分析に関連する方法を企図する。例示的なハイスループット核酸解析としては、非限定的に、デノボ配列決定、再配列決定、全ゲノム配列決定、遺伝子発現解析、遺伝子発現モニタリング、エピジェネティクス分析、ゲノムメチル化分析、対立遺伝子特異的プライマー伸長（ＡＰＳＥ）、遺伝的多様性プロファイリング、全ゲノム多型発見及び解析、単一ヌクレオチド多型解析、ハイブリダイゼーション系配列決定法などが挙げられる。当業者は、様々な異なる核酸が、本発明の方法及び組成物を使用して分析され得ることを理解するであろう。

本発明の実施は核酸配列決定に関連して記載されているが、それらは、異なる時点で取得された画像データ、空間的位置、又は他の時間的若しくは物理的観点で取得された画像データが分析される任意の分野において適用可能である。例えば、本明細書に記載される方法及びシステムは、マイクロアレイ、生物学的検体、細胞、生物などからの画像データが取得され、異なる時点又は視点で取得され、分析される、分子生物学及び細胞生物学の分野において有用である。画像は、蛍光顕微鏡法、光学顕微鏡法、共焦点顕微鏡法、光学画像化法、磁気共鳴画像化法、トモグラフィー走査などが挙げられるが、これらに限定されない、技術分野において既知の任意の数の技術を使用して得ることができる。別の例として、本明細書に記載される方法及びシステムは、監視、空中、又は衛星撮像技術などによって取得された画像データが、異なる時点又は視点で取得され、分析される場合に適用することができる。この方法及びシステムは、視野内で取得された画像を分析するのに特に有用であり、この視野内で、観察される検体は、視野内の互いに対して同じ場所に留まる。しかしながら、検体は、別個の画像で異なる特性を有してもよく、例えば、検体は、視野の別々の画像において異なるように見える場合がある。例えば、検体は、異なる画像で検出された所与の検体の色とは異なるように見える場合があり、異なる画像内の所与の分析物のために検出された信号の強度の変化、又は更には、１つの画像中の所与の分析物の信号の外観、及び別の画像内の検体の信号の消失を示し得る。

本明細書に記載される例は、学術分析又は商業的分析のための様々な生物学的又は化学的プロセス及びシステムにおいて使用されてもよい。より具体的には、本明細書に記載される例は、指定された反応を示すイベント、特性、品質、又は特性を検出することが望ましい様々なプロセス及びシステムにおいて使用されてもよい。例えば、本明細書に記載される例としては、光検出デバイス、バイオセンサー、及びそれらの構成要素、並びにバイオセンサーと共に動作するバイオアッセイシステムが挙げられる。いくつかの実施例では、装置、バイオセンサー、及びシステムは、フローセルと、実質的に一体型構造で一緒に（取り外し可能に又は固定的に）結合された１つ又はそれ以上の光センサーと、を含み得る。

装置、バイオセンサー、及びバイオアッセイシステムは、個別に又は集合的に検出され得る複数の指定された反応を実施するように構成されてもよい。装置、バイオセンサー、及びバイオアッセイシステムは、複数の指定された反応が並行して生じる多数のサイクルを実行するように構成されてもよい。例えば、装置、バイオセンサー、及びバイオアッセイシステムを使用して、酵素操作及び光又は画像検出／捕捉の反復サイクルを通して、ＤＮＡ特徴の高密度配列を配列することができる。したがって、デバイス、バイオセンサー、及びバイオアッセイシステム（例えば、１つ又はそれ以上のカートリッジを介した）は、試薬又は他の反応成分を反応溶液中に送達する１つ又はそれ以上のマイクロ流体チャネル、バイオセンサー、及びバイオアッセイシステムを含んでもよい。いくつかの実施例では、反応溶液は、約５以下、又は約４以下、又は約３以下のｐＨを含むなど、実質的に酸性であってもよい。いくつかの他の実施例では、反応溶液は、約８以上、又は約９以上、又は約１０以上のｐＨを含むなど、実質的にアルカリ性／塩基性であってもよい。本明細書で使用するとき、用語「酸性」及びその文法的変異体は、約７未満のｐＨ値を指し、用語「塩基性」、「アルカリ性」及びその文法的変異型は、約７を超えるｐＨ値を指す。

いくつかの実施例では、反応部位は、均一又は反復パターンなどの所定の方法で提供又は離間される。いくつかの他の実施例では、反応部位はランダムに分布している。反応部位のそれぞれは、関連する反応部位からの光を検出する１つ又はそれ以上の光ガイド及び１つ又はそれ以上の光センサーと関連付けることができる。いくつかの実施例では、反応部位は、指定された反応を少なくとも部分的に区画化し得る反応凹部又はチャンバ内に位置する。

本明細書で使用するとき、「指定された反応」は、対象となる検体などの対象となる化学物質又は生物学的物質の化学的、電気的、物理的、又は光学的特性（又は品質）のうちの少なくとも１つの変化を含む。特定の実施例では、指定された反応は、例えば、蛍光標識生体分子を対象とする蛍光標識生体分子の組み込みなどの正の結合事象である。より一般的には、指定された反応は、化学変換、化学変化、又は化学的相互作用であってもよい。指定された反応はまた、電気特性の変化であってもよい。特定の実施例では、指定された反応は、検体と蛍光標識された分子を組み込むことを含む。検体はオリゴヌクレオチドであってもよく、蛍光標識分子はヌクレオチドであってもよい。指定された反応は、励起光が標識ヌクレオチドを有するオリゴヌクレオチドに向けられ、蛍光団が検出可能な蛍光シグナルを発するときに、指定された反応が検出され得る。代替例では、検出された蛍光は、化学発光又は生物発光の結果である。指定された反応はまた、例えば、ドナーフルオロフォアをアクセプタ蛍光団に近接させることによって蛍光（又はＦｏｒｓｔｅｒ）共鳴エネルギー移動（ＦＲＥＴ）を増加させることができ、ドナーとアクセプタ蛍光団とを分離することによってＦＲＥＴを減少させ、消光剤をフルオロフォアから分離することによって蛍光を増加させるか、又は消光剤及び蛍光団を共局在させることによって蛍光を減少させることができる。

本明細書で使用するとき、「反応溶液」、「反応成分」又は「反応物質」は、少なくとも１つの指定された反応を得るために使用され得る任意の物質を含む。例えば、潜在的な反応成分としては、例えば、試薬、酵素、サンプル、他の生体分子、及び緩衝液が挙げられる。反応成分は、溶液中の反応部位に送達されてもよく、及び／又は反応部位で固定されてもよい。反応成分は、反応部位で固定化された対象検体などの別の物質と直接又は間接的に相互作用し得る。上記のように、反応溶液は、実質的に酸性であってもよい（すなわち、比較的高い酸性度を含む）（例えば、約５以下のｐＨ、約４以下のｐＨを含む）、又は約３以下のｐＨ、又は実質的にアルカリ性／塩基性（すなわち、比較的高いアルカリ性／塩基性を含む）（例えば、約８以上のｐＨ、約９以上のｐＨ、又は約１０以上のｐＨを含む）。

本明細書で使用するとき、用語「反応部位」は、少なくとも１つの指定された反応が生じ得る局所的領域である。反応部位は、物質がその上に固定され得る反応構造又は基材の支持表面を含んでもよい。例えば、反応部位は、その上に反応成分、例えば、その上に核酸のコロニーを有する反応構造（フローセルのチャネル内に配置され得る）の表面を含んでもよい。いくつかのこのような実施例では、コロニー中の核酸は同じ配列を有し、例えば、一本鎖又は二本鎖テンプレートのクローンコピーである。しかしながら、いくつかの実施例では、反応部位は、例えば、一本鎖又は二本鎖形態で、単一の核酸分子のみを含有してもよい。

複数の反応部位は、反応構造に沿ってランダムに分布してもよく、又は所定の様式で配置されてもよい（例えば、マイクロアレイなどのマトリックス内の並列）。反応部位はまた、指定された反応を区画化するように構成された空間領域又は容積を少なくとも部分的に画定する反応室又は凹部を含むことができる。本明細書で使用するとき、用語「反応チャンバ」又は「反応凹部」は、支持構造体の画定された空間領域（多くの場合、流路と流体連通している）を含む。反応凹部は、周囲環境又は空間領域から少なくとも部分的に分離されてもよい。例えば、複数の反応凹部は、検出表面などの共有された壁によって互いに分離されてもよい。より具体的な例として、反応凹部は、検出表面の内面によって画定された窪み、ウェル、溝、空洞、又は窪みを含むナノセルであってもよく、ナノセルが流路と流体連通することができるように、開口部又は開口部（すなわち、開側面である）を有することができる。

いくつかの実施例では、反応構造の反応凹部は、固体がその中に完全に又は部分的に挿入され得るように、固体（半固体を含む）に対してサイズ及び形状を定められる。例えば、反応凹部は、捕捉ビーズを収容するような大きさ及び形状であってもよい。捕捉ビーズは、クロノウイルス増幅ＤＮＡ又はその上の他の物質を有してもよい。あるいは、反応凹部は、およその数のビーズ又は固体基材を受容するような大きさ及び形状であってもよい。別の例として、反応凹部は、拡散又はフィルタ流体又は反応凹部に流入し得る溶液を制御するように構成された多孔質ゲル又は物質で充填されてもよい。

いくつかの実施例では、光センサー（例えば、フォトダイオード）は、対応する反応部位と関連付けられる。反応部位に関連する光センサーは、関連する反応部位において指定された反応が生じたときに、少なくとも１つの光ガイドを介して、関連する反応部位からの光放射を検出するように構成されている。いくつかの場合では、複数の光センサー（例えば、光検出又はカメラデバイスのいくつかのピクセル）は、単一の反応部位に関連付けられてもよい。他の場合では、単一の光センサー（例えば、単一のピクセル）は、単一の反応部位に、又は反応部位の群と関連付けられてもよい。バイオセンサーの光センサー、反応部位、及び他の特徴は、光の少なくとも一部が反射されることなく光センサーによって直接検出されるように構成されてもよい。

本明細書で使用するとき、「生物学的又は化学物質」は、生体分子、対象試料、対象検体、及び他の化学化合物を含む。生物学的物質又は化学物質を使用して、他の化学化合物を検出、同定、若しくは分析するか、又は他の化学化合物を研究又は分析するための仲介として機能してもよい。特定の実施例では、生物学的物質又は化学物質は、生体分子を含む。本明細書で使用するとき、「生体分子」は、バイオポリマー、ヌクレオチド、核酸、ポリヌクレオチド、オリゴヌクレオチド、タンパク質、酵素、ポリペプチド、抗体、抗原、リガンド、受容体、多糖類、炭水化物、ポリリン酸、細胞、組織、生物、若しくはそれらの断片、又は前述の種の類似体若しくは模倣体などの任意の他の生物学的に活性な化学化合物のうちの少なくとも１つを含む。更なる例では、生物学的若しくは化学物質又は生体分子は、酵素又は試薬などの別の反応の生成物、例えば、ピロ配列決定反応においてピロリン酸を検出するために使用される酵素又は試薬などの酵素又は試薬の生成物を検出する。ピロホスフェート検出に有用な酵素及び試薬は、例えば、参照によりその全体が組み込まれる米国特許公開第２００５／０２４４８７０号に記載されている。

生体分子、試料、及び生物学的物質又は化学物質は、天然に存在しても合成であってもよく、反応凹部又は領域内の溶液又は混合物中に懸濁されてもよい。生体分子、試料、及び生物学的物質又は化学物質もまた、固体相又はゲル材料に結合されてもよい。生体分子、試料、及び生物学的物質又は化学物質はまた、医薬組成物を含んでもよい。場合によっては、対象とする生体分子、試料、及び生物学的物質又は化学物質は、標的、プローブ、又は検体と呼ばれる場合がある。

本明細書で使用するとき、「バイオセンサー」は、反応部位又は反応部位に近接して生じる指定された反応を検出するように構成された複数の反応部位を有する反応構造を含む装置を含む。バイオセンサーは、固体光検出装置又は「撮像」デバイス（例えば、ＣＣＤ又はＣＭＯＳ光検出デバイス）、及び任意選択的に、それに取り付けられたフローセルを含んでもよい。フローセルは、反応部位と流体連通する少なくとも１つの流路を含み得る。１つの特定の例として、バイオセンサーは、生物学的アッセイシステムに流体的かつ電気的に結合するように構成される。バイオアッセイシステムは、所定のプロトコル（例えば、配列番号合成）に従って反応部位に反応溶液を送達し、複数の撮像事象を実施してもよい。例えば、バイオアッセイシステムは、反応溶液を反応部位に沿って流すことができる。反応溶液のうちの少なくとも１つは、同じ又は異なる蛍光標識を有する４種類のヌクレオチドを含んでもよい。ヌクレオチドは、反応部位の対応するオリゴヌクレオチドなどに結合してもよい。次いで、バイオアッセイシステムは、励起光源（例えば、発光ダイオード（ＬＥＤ）などの固体光源）を使用して反応部位を照明することができる。励起光は、波長の範囲を含む所定の波長又は波長を有してもよい。入射励起光によって励起された蛍光標識は、光センサーによって検出され得る発光信号（例えば、励起光とは異なる波長又は波長の光、及び潜在的に互いに異なる）を提供することができる。

本明細書で使用するとき、用語「固定化された」は、生体分子又は生物学的物質又は化学物質に関して使用されるとき、生体分子又は生物学的物質又は化学物質を、光検出デバイス又は反応構造の検出表面などの表面に実質的に付着させることを含む。例えば、生体分子又は生物学的物質又は化学物質は、非共有結合（例えば、静電力、ファンデルワールス、及び疎水性界面の脱水）を含む吸着技術、並びに官能基又はリンカーが生体分子の表面への結合を促進する共有結合技術を含む吸着技術を用いて、反応構造の表面に固定化されてもよい。生体分子又は生物学的物質若しくは化学物質を表面に固定化することは、表面の特性、生体分子又は生物学的物質若しくは化学物質を担持する液体媒体、並びに生体分子又は生物学的物質若しくは化学物質自体の特性に基づいてもよい。いくつかの場合において、表面は、生体分子（又は生物学的物質又は化学物質）を表面に固定化するのを容易にするために、表面を官能化（例えば、化学的又は物理的に修飾）してもよい。

いくつかの実施例では、核酸は、その反応凹部の表面などの反応構造に固定化することができる。特定の実施例では、本明細書に記載される装置、バイオセンサー、バイオアッセイシステム及び方法は、天然ヌクレオチド、及び天然ヌクレオチドと相互作用するように構成された酵素の使用を含んでもよい。天然ヌクレオチドとしては、例えば、リボヌクレオチド又はデオキシリボヌクレオチドが挙げられる。天然ヌクレオチドは、一リン酸、二リン酸、又は三リン酸形態であってよく、アデニン（Ａ）、チミン（Ｔ）、ウラシル（Ｕ）、グアニン（Ｇ）、又はシトシン（Ｃ）から選択される塩基を有することができる。しかしながら、上記ヌクレオチドの非天然ヌクレオチド、修飾ヌクレオチド、又は類似体を使用することができることが理解されるであろう。

上記のように、生体分子又は生物学的物質又は化学物質は、反応構造の反応凹部内の反応部位に固定されてもよい。このような生体分子又は生物学的物質は、干渉嵌め、接着、共有結合、又は捕捉によって、反応凹部内に物理的に保持又は固定化されてもよい。反応凹部内に配置され得る物品又は固体の例としては、ポリマービーズ、ペレット、アガロースゲル、粉末、量子ドット、又は反応チャンバ内で圧縮及び／又は保持され得る他の固体が挙げられる。特定の実施態様では、反応凹部は、ＤＮＡオリゴヌクレオチドに共有結合することができるヒドロゲル層でコーティング又は充填されてもよい。特定の実施例では、ＤＮＡボールなどの核酸超構造は、例えば、反応凹部の内面に取り付けることによって、又は反応凹部内に液体中に滞留することによって、反応凹部内又は反応凹部に配置することができる。ＤＮＡボール又は他の核酸超構造を実施することができ、次いで、反応凹部内又は反応凹部に配置することができる。あるいは、ＤＮＡボールは、反応凹部においてその場で合成することができる。反応凹部内に固定された物質は、固体、液体、又は気体状態であり得る。

本明細書で使用するとき、用語「検体」は、相対位置に従って他の点又は領域と区別することができるパターンの点又は領域を意味することを意図する。個々の分析物は、特定の種類の１つ又はそれ以上の分子を含むことができる。例えば、検体は、特定の配列を有する単一の標的核酸分子を含むことができ、又は検体は、同じ配列（及び／又はその相補的配列）を有するいくつかの核酸分子を含むことができる。パターンの異なる検体である異なる分子は、パターン内の検体の場所に従って互いに分化させることができる。例示的な検体としては、基材中のウェル、基材中又は基材上のビーズ（又は他の粒子）、基材からの突出部、基材上の隆起部、基材上のゲル材料のパッド、又は基材内のチャネルが挙げられる。

検出、特徴付け、又は識別される様々な標的検体のいずれも、本明細書に記載される装置、システム、又は方法で使用することができる。例示的な検体としては、限定するものではないが、核酸（例えば、ＤＮＡ、ＲＮＡ又はそれらの類似体）、タンパク質、多糖類、細胞、抗体、エピトープ、受容体、リガンド、酵素（例えば、キナーゼ、ホスファターゼ又はポリメラーゼ）、小分子薬物候補、細胞、ウイルス、生物などが挙げられるが、これらに限定されない。

用語「検体」、「核酸」、「核酸分子」、及び「ポリヌクレオチド」という用語は、本明細書において互換的に使用される。様々な実施態様では、核酸は、特定の種類の核酸分析のために、本明細書で提供されるようなテンプレート（例えば、核酸テンプレート、又は核酸テンプレートに相補的な核酸相補体）として使用されてもよく、核酸増幅、核酸発現解析、及び／又は核酸配列決定、又はこれらの好適な組み合わせが挙げられるが、これらに限定されない。特定の実施における核酸としては、例えば、３’－５’ホスホジエステル中のデオキシリボヌクレオチドの直鎖ポリマー、又はデオキシリボ核酸（ＤＮＡ）、例えば、一本鎖及び二本鎖ＤＮＡ、ゲノムＤＮＡ、コピーＤＮＡ若しくは相補的ＤＮＡ（ｃＤＮＡ）、組み換えＤＮＡ、又は任意の形態の合成ＤＮＡ若しくは修飾ＤＮＡが挙げられる。他の実施態様では、核酸としては、例えば、３’－５’ホスホジエステル中のリボヌクレオチドの直鎖ポリマー、又はリボ核酸（ＲＮＡ）などの他の結合、例えば、一本鎖及び二本鎖ＲＮＡ、メッセンジャー（ｍＲＮＡ）、コピーＲＮＡ又は相補的ＲＮＡ（ｃＲＮＡ）、あるいはスプライシングされたｍＲＮＡ、リボソームＲＮＡ、小核ＲＮＡ（ｓｎｏＲＮＡ）、ｍｉｃｒｏＲＮＡ（ｍｉＲＮＡ）、低干渉ＲＮＡ（ｓＲＮＡ）、ピウイＲＮＡ（ｐｉＲＮＡ）、又は任意の形態の合成若しくは修飾ＲＮＡ。本発明の組成物及び方法において使用される核酸は、長さが変化してもよく、無傷又は完全長の分子若しくは断片、又はより大きい核酸分子のより小さい部分であってもよい。特定の実施態様では、核酸は、本明細書の他の箇所に記載されるように、１つ又はそれ以上の検出可能な標識を有してもよい。

用語「検体」、「クラスター」、「核酸クラスター」、「核酸コロニー」、及び「ＤＮＡクラスター」は互換的に使用され、固体支持体に結合された核酸テンプレート及び／又はその相補体の複数のコピーを指す。典型的には、特定の好ましい実施態様では、核酸クラスターは、それらの５’末端を介して固体支持体に結合されたテンプレート核酸及び／又はその相補体の複数のコピーを含む。核酸クラスターを構成する核酸鎖のコピーは、一本鎖又は二本鎖形態であってよい。クラスター内に存在する核酸テンプレートのコピーは、例えば、標識部分の存在に起因して、互いに異なる対応する位置にヌクレオチドを有することができる。対応する位置はまた、異なる化学構造を有するが、ウラシル及びチミンの場合など、類似のＷａｔｓｏｎ－Ｃｒｉｃｋ塩基対形成特性を有するアナログ構造を含むことができる。

核酸のコロニーはまた、「核酸クラスター」と呼ばれることもある。核酸コロニーは、本明細書の他の箇所で更に詳細に記載されるように、クラスター増幅又はブリッジ増幅技術によって任意に作成することができる。標的配列の複数の反復は、ローリングサークル増幅手順を使用して作成された混乱剤などの単一の核酸分子中に存在し得る。

本発明の核酸クラスターは、使用される条件に応じて、異なる形状、サイズ、及び密度を有することができる。例えば、クラスターは、実質的に円形、多面、ドーナツ形、又はリング形状の形状を有することができる。核酸クラスターの直径は、約０．２μｍ～約６μｍ、約０．３μｍ～約４μｍ、約０．４μｍ～約３μｍ、約０．５μｍ～約２μｍ、約０．７５μｍ～約１．５μｍ、又は任意の介在直径であるように設計することができる。特定の実施態様において、核酸クラスターの直径は、約０．５μｍ、約１μｍ、約１．５μｍ、約２μｍ、約２．５μｍ、約３μｍ、約４μｍ、約５μｍ、又は約６μｍである。核酸クラスターの直径は、クラスターの産生において実施される増幅サイクルの数、核酸テンプレートの長さ、又はクラスターが形成される表面に付着したプライマーの密度を含むが、これらに限定されない多数のパラメータによって影響され得る。核酸クラスターの密度は、典型的には、０．１／ｍｍ^２、１／ｍｍ^２、１０／ｍｍ２^、１００／ｍｍ２^、１，０００／ｍｍ２^、１０，０００／ｍｍ２^～１００，０００／ｍｍ２^の範囲であるように設計することができる。本発明は、一部では、より高密度の核酸クラスター、例えば、１００，０００／ｍｍ^２～１，０００，０００／ｍｍ^２、及び１，０００，０００／ｍｍ^２～１０，０００，０００／ｍｍ^２を更に企図する。

本明細書で使用するとき、「検体」は、検体又は視野内の対象領域である。マイクロアレイデバイス又は他の分子分析デバイスに関連して使用される場合、分析物は、類似又は同一の分子によって占有される領域を指す。例えば、検体は、増幅オリゴヌクレオチド、又は同じ又は類似の配列を有するポリヌクレオチド又はポリペプチドの任意の他の群であり得る。他の実施態様では、検体は、試料上の物理的領域を占有する任意の要素又は要素群であり得る。例えば、分析物は、ランドのパセル、水の本体などであってもよい。分析物が撮像されると、各検体は、一部の領域を有する。したがって、多くの実施態様では、分析物は、単に１つのピクセルではない。

検体間の距離は、任意の数の方法で説明することができる。いくつかの実施態様では、検体間の距離は、１つの分析物の中心から別の分析物の中心まで説明することができる。他の実施態様では、距離は、１つの分析物の縁部から別の分析物の縁部まで、又は各分析物の最も外側の識別可能な点間に記載することができる。分析物の縁部は、チップ上の理論的若しくは実際の物理的境界、又は分析物の境界内のいくつかの点として説明することができる。他の実施態様では、距離は、試料上の固定点、又は試料の画像に関して説明することができる。

一般に、分析方法に関して、いくつかの実施態様が本明細書に記載される。自動又は半自動化方法で方法を実行するためのシステムも提供されることが理解されるであろう。したがって、本開示は、ニューラルネットワークベースのテンプレート生成及びベースコールシステムを提供し、システムは、プロセッサと、記憶装置と、画像解析用のプログラムと、を含むことができ、プログラムは、本明細書に記載される方法のうちの１つ又はそれ以上を実行するための命令を含む。したがって、本明細書に記載される方法は、例えば、本明細書に記載されるか又は技術分野において既知の構成要素を有するコンピュータ上で実行することができる。

本明細書に記載される方法及びシステムは、様々なオブジェクトのうちのいずれかを分析するのに有用である。特に有用な物体は、固体担体又は付着した検体を有する固相表面である。本明細書に記載される方法及びシステムは、ｘｙ平面における分析物の繰り返しパターンを有する物体と共に使用される場合、利点を提供する。一例は、細胞、ウイルス、核酸、タンパク質、抗体、炭水化物、小分子（薬物候補など）、生物学的活性分子、又は他の対象検体の集合を有するマイクロアレイである。

核酸及びポリペプチドなどの生物学的分子を有する検体を有するアレイの用途の数が増えてきた。このようなマイクロアレイは、典型的には、デオキシリボ核酸（ＤＮＡ）又はリボ核酸（ＲＮＡ）プローブが挙げられる。これらは、ヒト及び他の生物に存在するヌクレオチド配列に特異的である。特定の用途では、例えば、個々のＤＮＡ又はＲＮＡプローブをアレイの個々の検体に取り付けることができる。既知のヒト又は生物からのものなどの試験サンプルは、標的核酸（例えば、遺伝子断片、ｍＲＮＡ、又はアンプリコン）が配列中のそれぞれの検体で相補的プローブにハイブリダイズするように、アレイに曝露することができる。プローブは、標的特異的プロセス（例えば、標的核酸上に存在する標識に起因して、又は検体においてハイブリダイズした形態で存在するプローブ又は標的の酵素標識に起因して）標識することができる。次いで、分析物の上の特定の光の周波数を走査して、どの標的核酸が試料中に存在するかを特定することによって検査することができる。

生物学的マイクロアレイは、遺伝子配列決定及び類似の用途に使用され得る。一般に、遺伝子配列決定は、ＤＮＡ又はＲＮＡの断片などの標的核酸の長さのヌクレオチドの順序を決定することを含む。比較的短い配列は、典型的には、各分析物において配列決定され、得られた配列情報は、様々な生物情報科学法において使用されて、フラグメントが由来する多くの広範な長さの遺伝物質の配列を確実に決定するために、様々な生物情報科学法において使用されてもよい。特徴的断片の自動化されたコンピュータベースのアルゴリズムが開発されており、ゲノムマッピング、遺伝子の同定、及びそれらの機能などにおいて、より最近使用されてきた。マイクロアレイは、多数の変異体が存在するため、ゲノム含有量を特徴付けるのに特に有用であり、このことは、個々のプローブ及び標的に対して多くの実験を実施する代替物であるため、ゲノム含有量を特徴付けるのに特に有用である。マイクロアレイは、実用的な方法でこのような調査を実施するための理想的なフォーマットである。

技術分野において既知の様々な分析物アレイ（「マイクロアレイ」とも呼ばれる）のいずれも、本明細書に記載される方法又はシステムにおいて使用することができる。典型的なアレイは、それぞれが個々のプローブ又はプローブの集団を有する検体を含む。後者の場合、各検体におけるプローブの集団は、典型的には、単一種のプローブを有する均質である。例えば、核酸配列の場合、各検体は、それぞれ共通の配列を有する複数の核酸分子を有することができる。しかしながら、いくつかの実施態様では、アレイの各分析物における集団は、不均質であり得る。同様に、タンパク質配列は、単一のタンパク質又はタンパク質の集団を有する検体を有することができ、典型的には、同じアミノ酸配列を有するが、必ずしもそうではない。プローブは、例えば、プローブを表面に共有結合することによって、又はプローブと表面との非共有相互作用（複数可）を介して、アレイの表面に取り付けることができる。いくつかの実施態様では、核酸分子などのプローブは、例えば、米国特許出願第１３／７８４，３６８号及び米国特許出願公開第２０１１／００５９８６５（Ａ１）号に記載されるように（これらはそれぞれ参照により本明細書に組み込まれる）、ゲル層を介して表面に付着させることができる。

例示的なアレイとしては、限定するものではないが、Ｉｌｌｕｍｉｎａ，Ｉｎｃから入手可能なＢｅａｄＣｈｉｐアレイ（ＳａｎＤｉｅｇｏ，Ｃａｌｉｆ．）又は、例えば、プローブが、表面上に存在するビーズ（例えば、表面上のウェル内のビーズ）に取り付けられ、それぞれ参照により本明細書に組み込まれる、米国特許第６，２６６，４５９号、同第６，３５５，４３１号、同第６，７７０，４４１号、同第６，８５９，５７０号、又は同第７，６２２，２９４号、又は国際公開第００／６３４３７号に記載されたものなどの他のものが挙げられる。使用することができる市販のマイクロアレイの更なる例としては、例えば、ＶＬＳＩＰＳ（商標）（ＶｅｒｙＬａｒｇｅＳｃａｌｅＩｍｍｏｂｉｌｉｚｅｄＰｏｌｙｍｅｒＳｙｎｔｈｅｓｉｓ）技術と呼ばれることがある技術に従って合成されたＡｆｆｙｍｅｔｒｉｘ（登録商標）ＧｅｎｅＣｈｉｐ（登録商標）マイクロアレイ又は他のマイクロアレイが挙げられる。スポットされたマイクロアレイはまた、本開示のいくつかの実施態様による方法又はシステムにおいて使用することができる。例示的なスポッティングされたマイクロアレイは、ＡｍｅｒｓｈａｍＢｉｏｓｃｉｅｎｃｅｓから入手可能なＣｏｄｅＬｉｎｋ（商標）Ａｒｒａｙである。有用な別のマイクロアレイは、ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓから入手可能なＳｕｒｅＰｒｉｎｔＴＭＴｅｃｈｎｏｌｏｇｙなどのインクジェット印刷法を使用して製造されるものである。

他の有用な配列としては、核酸配列決定用途で使用されるものが挙げられる。例えば、ゲノム断片（多くの場合、クラスターと呼ばれる）のアンプリコンを有する配列は、それぞれ参照により本明細書に組み込まれる、Ｂｅｎｔｌｅｙｅｔａｌ．，Ｎａｔｕｒｅ４５６：５３－５９（２００８）、国際公開第０４／０１８４９７号、国際公開第９１／０６６７８号、国際公開第０７／１２３７４４号、米国特許第７，３２９，４９２号、同第７，２１１，４１４号、同第７，３１５，０１９号、同第７，４０５，２８１号、若しくは同第７，０５７，０２６号、又は米国特許出願公開第２００８／０１０８０８２（Ａ１）号に記載されているものなどが特に有用である。核酸配列決定に有用な別の種類の配列は、エマルションＰＣＲ技術から生成される粒子の配列である。実施例は、Ｄｒｅｓｓｍａｎｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ１００：８８１７－８８２２（２００３）、国際公開第０５／０１０１４５号、米国特許出願公開第２００５／０１３０１７３号又は同第２００５／００６４４６０号に記載されており、これらはそれぞれその全体が参照により本明細書に組み込まれる。

核酸配列に使用される配列は、多くの場合、核酸分析物のランダムな空間パターンを有する。例えば、ＩｌｌｕｍｉｎａＩｎｃから入手可能なＨｉＳｅｑ又はＭｉＳｅｑ配列決定プラットフォーム（ＳａｎＤｉｅｇｏ，Ｃａｌｉｆ．）は、核酸配列がランダム播種、続いてブリッジ増幅によって形成されるフローセルを利用する。しかしながら、パターン化された配列は、核酸配列又は他の分析用途にも使用することができる。パターン化されたアレイの例、それらの使用方法及びその使用方法は、米国特許出願第１３／７８７，３９６号、同第１３／７８３，０４３号、同第１３／７８４，３６８号、米国特許出願公開第２０１３／０１１６１５３（Ａ１）号、及び同第２０１２／０３１６０８６（Ａ１）号に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。このようなパターン化された配列の分析物を使用して、単一の核酸テンプレート分子を捕捉して、例えば、ブリッジ増幅を介して、均質なコロニーの後続の形成を行うことができる。このようなパターン化された配列は、核酸配列決定用途に特に有用である。

アレイ（又は本明細書の方法又はシステムで使用される他の物体）上の検体のサイズは、特定の用途に適するように選択することができる。例えば、いくつかの実施態様では、アレイの分析物は、単一の核酸分子のみを収容するサイズを有することができる。このサイズ範囲の複数の検体を有する表面は、単一分子分解能で検出するための分子の配列を構築するのに有用である。このサイズ範囲の検体もまた、核酸分子のコロニーをそれぞれ含む検体を有するアレイでの使用にも有用である。したがって、アレイの検体はそれぞれ、約１ｍｍ^２以下、約５００μｍ^２以下、約１００μｍ^２以下、約１０μｍ^２以下、約１μｍ^２以下、約５００ｎｍ^２以下、又は約１００ｎｍ^２以下、約１０ｎｍ^２以下、約５ｎｍ^２以下、又は約１ｎｍ^２以下の面積を有することができる。代替的に又は追加的に、アレイの検体は、約１ｍｍ^２以上、約５００μｍ^２以上、約１００μｍ^２以上、約１０μｍ^２以上、約１μｍ^２以上、約５００ｎｍ^２以上、約１００ｎｍ^２以上、約１０ｎｍ^２以上、約５ｎｍ^２以上、又は約１ｎｍ^２以上である。実際に、検体は、上記に例示したものから選択される上限と下限との間の範囲内の大きさを有することができる。表面の検体のいくつかのサイズ範囲が核酸及び核酸のスケールに関して例示されてきたが、これらのサイズ範囲の検体は、核酸を含まない用途に使用できることが理解されるであろう。検体のサイズは、核酸用途に使用されるスケールに必ずしも限定される必要はないことが更に理解されるであろう。

分析物のアレイなどの複数の検体を有する物体を含む実施例では、検体は、互いの間の空間で分離されている、別個のものとすることができる。本発明において有用なアレイは、最大で１００μｍ、５０μｍ、１０μｍ、５μｍ、１μｍ、０．５μｍ以下の縁部から縁部までの距離によって分離される分析物を有することができる。代替的に又は追加的に、アレイは、少なくとも０．５μｍ、１μｍ、５μｍ、１０μｍ、５０μｍ、１００μｍ、又はそれ以上の縁部から縁部までの距離によって分離される分析物を有することができる。これらの範囲は、分析物の平均縁部間隔及び縁部間隔、並びに最小又は最大間隔に適用することができる。

いくつかの実施態様では、アレイの分析物は、別個である必要はなく、代わりに、隣接する検体は互いに当接することができる。検体が別個であるか否かに関わらず、検体及び／又は検体のピッチの大きさは、アレイが所望の密度を有することができるように変化し得る。例えば、規則的なパターンにおける平均分析物ピッチは、最大で１００μｍ、５０μｍ、１０μｍ、５μｍ、１μｍ、０．５μｍ以下であり得る。代替的に又は追加的に、規則的なパターンにおける平均分析物ピッチは、少なくとも０．５μｍ、１μｍ、５μｍ、１０μｍ、５０μｍ、１００μｍ、又はそれ以上であり得る。これらの範囲は、規則的なパターンの最大ピッチ又は最小ピッチにも適用することができる。例えば、規則的なパターンの最大分析物ピッチは、１００μｍ以下、５０μｍ以下、１０μｍ以下、５μｍ以下、１μｍ以下、０．５μｍ以下とすることができ、かつ／又は規則的なパターンにおける最小分析物ピッチは、少なくとも０．５μｍ、１μｍ、５μｍ、１０μｍ、５０μｍ、１００μｍ、又はそれ以上であり得る。

アレイ内の検体の密度は、単位面積当たりに存在する検体の数に関しても理解され得る。例えば、アレイに関する検体の平均密度は、少なくとも約１×１０^３検体／ｍｍ^２、１×１０^４検体／ｍｍ^２、１×１０^５検体／ｍｍ^２、１×１０^６検体／ｍｍ２、１×１０６検体／ｍｍ^２、１×１０^７検体／ｍｍ^２、１×１０^８検体／ｍｍ^２、又は１×１０^９検体／ｍｍ^２以上であり得る。あるいは、又はそれに加えて、アレイに関する検体の平均密度は、最大で約１×１０^９検体／ｍｍ^２、１×１０^８検体／ｍｍ^２、１×１０^７検体／ｍｍ^２、１×１０^６検体／ｍｍ^２、１×１０^５検体／ｍｍ^２、１×１０^４検体／ｍｍ^２、又は１×１０^３検体／ｍｍ^２以下であり得る。

上記の範囲は、例えば、分析物のアレイの全て又は一部を含む規則的なパターンの全て又は一部に適用することができる。

パターン内の検体は、様々な形状のいずれかを有することができる。例えば、アレイの表面上などの２次元平面で観察される場合、検体は、丸みを帯びた、円形、楕円形、矩形、正方形、対称、非対称、三角形、多角形などに見える場合がある。検体は、例えば六角形又は直線パターンを含む規則的な繰り返しパターンで配置することができる。パターンは、所望のレベルのパッキングを達成するように選択され得る。例えば、円形分析物は、六角形の配置で最適に充填される。当然のことながら、他の包装構成もまた、円形分析物のために使用することができ、逆もまた同様である。

パターンは、パターンの最小幾何学的単位を形成するサブセット内に存在する検体の数に関して特徴付けることができる。サブセットは、例えば、少なくとも約２、３、４、５、６、１０以上の検体を含み得る。分析物のサイズ及び密度に応じて、幾何学的単位は、１ｍｍ^２、５００μｍ^２、１００μｍ^２、５０μｍ^２、１０μｍ^２、１μｍ^２、５００ｎｍ^２、１００ｎｍ^２、５０ｎｍ^２、１０ｎｍ^２以下の面積を占めることができる。代替的に又は追加的に、幾何学的単位は、１０ｎｍ^２、５０ｎｍ^２、１００ｎｍ^２、５００ｎｍ^２、１μｍ^２、１０μｍ^２、５０μｍ^２、１００μｍ^２、５００μｍ^２、１ｍｍ^２以上の面積を占めることができる。形状、サイズ、ピッチなどの幾何学的単位における検体の特性は、アレイ又はパターンの検体に関して、より一般的に本明細書に記載されるものから選択することができる。

分析物の規則的なパターンを有するアレイは、検体の相対的な場所に対して順序付けられるが、各検体の１つ又はそれ以上の他の特性に対してランダムであってもよい。例えば、核酸配列の場合、核酸検体は、それらの相対的な位置に関して規則的であるが、任意の特定の分析物に存在する核酸種に関する配列の知識に関してランダムであってもよい。より具体的な例として、テンプレート核酸を有する検体の反復パターンを播種し、各検体でテンプレートを増幅して、分析物においてテンプレートのコピーを形成することによって形成される核酸配列（例えば、クラスター増幅又はブリッジ増幅を介して、核酸検体の規則的なパターンを有するが、配列にわたる核酸の配列の分布に関してランダムであろう。したがって、アレイ上の核酸材料の存在の検出は、分析物の繰り返しパターンをもたらすことができるのに対し、配列特異的検出は、アレイにわたる信号の非反復分布をもたらすことができる。

本明細書におけるパターン、順序、ランダム性などの説明は、アレイ上の検体などの物体上の検体にも関するだけでなく、画像中の検体にも関連することが理解されるであろう。したがって、パターン、順序、ランダム性などは、限定するものではないが、グラフィカルユーザーインターフェース又は他の出力デバイスなどのコンピュータ可読媒体又はコンピュータ構成要素を含むがこれらに限定されない、画像データを記憶、操作、又は通信するために使用される様々なフォーマットのうちのいずれかに存在することができる。

本明細書で使用するとき、用語「画像」は、オブジェクトの全て又は一部の表現を意味することを意図する。表現は、光学的に検出された再現であり得る。例えば、蛍光、発光、散乱、又は吸収信号から画像を得ることができる。画像内に存在するオブジェクトの部分は、物体の表面又は他のｘｙ面であり得る。典型的には、画像は２次元表現であるが、場合によっては、画像内の情報は、３つ又はそれ以上の次元から導出することができる。画像は、光学的に検出された信号を含む必要はない。非光信号を代わりに存在させることができる。画像は、本明細書の他の箇所に記載されるもののうちの１つ又はそれ以上などの、コンピュータ可読フォーマット又は媒体に提供することができる。

本明細書で使用するとき、「画像」は、試料又は他の物体の少なくとも一部分の再現又は表現を指す。いくつかの実施態様では、再現は、例えばカメラ又は他の光学検出器によって生成される光再現である。再現は、非光学的再現、例えば、ナノ細孔分析物のアレイから得られる電気信号の表現、又はイオン感応性ＣＭＯＳ検出器から得られた電気信号の表現であり得る。特定の実施態様では、非光学的再現性は、本明細書に記載される方法又は装置から除外され得る。画像は、例えば、１００μｍ、５０μｍ、１０μｍ、５μｍ、１μｍ、又は０．５μｍ未満離れたものを含む、様々な間隔のいずれかで存在する検体の検体を区別することができる解像度を有することができる。

本明細書で使用するとき、「取得(acquiring)」、「取得(acquisition)」、及び同様の用語は、画像ファイルを取得するプロセスの任意の部分を指す。いくつかの実施態様では、データ取得は、標本の画像を生成することと、標本内の信号を探すことと、信号の画像を探すか又は生成するように検出デバイスに指示することと、画像ファイルの更なる分析又は変換のための命令、及び画像ファイルの任意の数の変換又は操作のための命令を与えることと、を含むことができる。

本明細書で使用するとき、用語「テンプレート」は、信号又は検体間の場所又は関係の表現を指す。したがって、いくつかの実施態様では、テンプレートは、検体中の検体に対応する信号の表現を有する物理的グリッドである。いくつかの実施態様では、テンプレートは、チャート、テーブル、テキストファイル、又は分析物に対応する場所を示す他のコンピュータファイルであり得る。本明細書に提示される実施態様では、異なる基準点で捕捉された試料の画像のセットにわたって検体の場所を追跡するためにテンプレートが生成される。例えば、テンプレートは、別の分析物に対する１つの分析物の方向及び／又は距離を記述するｘ、ｙ座標、又は一連の値であり得る。

本明細書で使用するとき、用語「標本」は、画像が取り込まれる物体又は物体の領域を指すことができる。例えば、画像が土壌の表面から撮影される実施例では、ランドのパセルは、標本であり得る。生体分子の分析がフローセル内で行われる他の実施態様では、フローセルは、任意の数のサブディビジョンに分割されてもよく、これらのそれぞれは検体であってもよい。例えば、フローセルは、様々な流路又はレーンに分割されてもよく、各レーンは、画像化される２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、１１０、１２０、１４０、１６０、１８０、２００、４００、６００、８００、１０００個以上の別個の領域に更に分割され得る。フローセルの一例は８つのレーンを有し、各レーンは１２０個の標本又はタイルに分割されている。別の実施態様では、試料は、複数のタイル、又は更にはフローセル全体で作製されてもよい。したがって、各検体の画像は、撮像されるより大きい表面の領域を表すことができる。

本明細書に記載される範囲及び連続数リストへの言及は、列挙された数だけではなく、列挙された数字間の全ての実数を含むことが理解されるであろう。

本明細書で使用するとき、「参照点」は、画像間の任意の時間的又は物理的区別を指す。好ましい別の実施態様では、基準点は時間点である。より好ましい実施態様では、参照点は、配列決定反応中の時点又はサイクルである。しかしながら、用語「基準点」は、画像を区別又は分離することができる、角度、回転、時間、又は他の態様などの画像を区別又は分離する他の態様を含むことができる。

本明細書で使用するとき、「画像のサブセット」は、セット内の画像のグループを指す。例えば、サブセットは、画像のセットから選択される１、２、３、４、６、８、１０、１２、１４、１６、１８、２０、３０、４０、５０、６０又は任意の数の画像を含んでもよい。特定の別の実施態様では、サブセットは、１、２、３、４、６、８、１０、１２、１４、１６、１８、２０、３０、４０、５０、６０以下、又は画像のセットから選択される任意の数の画像を含んでもよい。好ましい別の実施態様では、画像は、各サイクルに相関する４つの画像を有する１つ又はそれ以上の配列決定サイクルから得られる。したがって、例えば、サブセットは、４サイクルにわたって取得された１６画像のグループであり得る。

塩基は、ヌクレオチド塩基又はヌクレオチド、Ａ（アデニン）、Ｃ（シトシン）、Ｔ（チミン）、又はＧ（グアニン）を指す。本出願は、「塩基（複数可）」及び「ヌクレオチド（複数可）」を互換的に使用する。

用語「染色体」は、ＤＮＡ及びタンパク質成分（特にヒストン）を含むクロマチンストランドに由来する、生きている細胞の本発明の有効性を有する遺伝子キャリアを指す。本明細書では、従来の国際的に認識されている個々のヒトゲノム染色体番号付けシステムが本明細書で使用される。

「部位」という用語は、参照ゲノム上の固有の位置（例えば、染色体ＩＤ、染色体位置及び配向）を指す。いくつかの実施態様では、部位は、残基、配列タグ、又は配列上のセグメントの位置であってもよい。用語「遺伝子座」は、参照染色体上の核酸配列又は多型の特定の位置を指すために使用されてもよい。

本明細書における用語「試料」は、典型的には、配列決定及び／又はフェーズドされる核酸を含有する生物液、細胞、組織、器官、又は生物に由来するサンプル、又は配列決定及び／又はフェーズドされる核酸配列を少なくとも１つ含有する核酸の混合物に由来するサンプルを指す。このような試料としては、痰／口腔流体、羊水、血液、血液画分、細針生検試料（例えば、外科生検、針生検など）、尿、腹膜流体、胸膜流体、組織外植片、臓器培養物、及びこれらの任意の他の組織若しくは細胞調製物、又はこれらの画分若しくは誘導体が挙げられるが、これらに限定されない。サンプルは、多くの場合、ヒト被験者（例えば、患者）から採取されるが、試料は、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含むがこれらに限定されない、染色体を有する任意の生物から採取することができる。試料は、生物学的源から得られるように、又は試料の特性を修正する前処理後に、直接使用することができる。例えば、このような前処理は、血漿を血液から調製すること、粘性流体を希釈することなどを含んでもよい。前処理の方法には、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸断片化、干渉成分の不活性化、試薬の添加、溶解などを含んでもよいが、これらに限定されない。

用語「配列」は、互いに結合されたヌクレオチドの鎖を含むか、又はそれを表す。ヌクレオチドは、ＤＮＡ又はＲＮＡに基づくことができる。１つの配列は、複数のサブシーケンスを含んでもよいことを理解されたい。例えば、単一の配列（例えば、ＰＣＲアンプリコン）は、３５０ヌクレオチドを有してもよい。サンプル読み取りは、これらの３５０ヌクレオチド内に複数のサブシーケンスを含んでもよい。例えば、サンプル読み取りは、例えば、２０～５０ヌクレオチドを有する第１及び第２のフランキングサブシーケンスを含んでもよい。第１及び第２の隣接するサブシーケンスは、対応するサブシーケンス（例えば、４０～１００ヌクレオチド）を有する反復セグメントの両側に位置してもよい。隣接するサブ配列のそれぞれは、プライマーサブ配列（例えば、１０～３０ヌクレオチド）を含んでもよい（又はその一部を含み得る）。読書を容易にするために、用語「サブ配列」は「配列」と称されるが、２つの配列は、共通のストランド上で互いに別個である必要はないことが理解される。本明細書に記載の様々な配列を区別するために、配列は、異なる標識（例えば、標的配列、プライマー配列、隣接配列、参照配列など）を与えられてもよい。「対立遺伝子」などの他の用語は、同様の物体を区別するために異なるラベルを与えられてもよい。アプリケーションは、「読み取り（単数又は複数）」及び「シーケンス読み取り（単数又は複数）」を互換的に使用する。

用語「ｐａｉｒｅｄｅｎｄｓｅｑｕｅｎｃｉｎｇ」は、標的フラグメントの両端を配列する配列決定方法を指す。ペレッドエンド配列決定は、ゲノム再構成及び反復セグメントの検出、並びに遺伝子融合及び新規転写物の検出を容易にし得る。パイレッドエンド配列決定の方法は、国際公開第０７０１０２５２号、国際出願ＰＣＴ／ＧＢ２００７／００３７９８号、及び米国特許出願公開第２００９／００８８３２７号に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。一実施例では、一連の操作は、以下のように実施されてもよく、（ａ）核酸のクラスターを生成する、（ｂ）核酸を直鎖化すること、（ｃ）第１の配列決定プライマーをハイブリダイズし、伸長の繰り返しサイクル、走査及び脱ブロッキングを行う。（ｄ）相補的なコピーを合成することによって、フロー細胞表面上の標的核酸を「反転」し、（ｅ）再合成された鎖を直鎖化し、（ｆ）第２配列決定プライマーをハイブリダイズし、伸長の繰り返しサイクル、走査及び脱ブロッキングを行う。反転操作は、ブリッジ増幅の単一サイクルについて上述した試薬を送達することができる。

用語「参照ゲノム」又は「参照配列」は、対象からの同定された配列を参照するために使用され得る任意の生物の部分的又は完全ないずれかの特定の既知のゲノム配列を指す。例えば、ヒト被験者に使用される参照ゲノム、並びに多くの他の生物が、ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖのＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎで見出される。「ゲノム」は、核酸配列で発現される、生物又はウイルスの完全な遺伝子情報を指す。ゲノムは、ＤＮＡの遺伝子及び非コード配列の両方を含む。参照配列は、それに位置合わせされたリードよりも大きくてもよい。例えば、それは、少なくとも約１００倍大きい、又は少なくとも約１０００倍大きい、又は少なくとも約１０，０００倍大きい、又は少なくとも約１０５倍大きい、又は少なくとも約１０６倍大きい、又は少なくとも約１０７倍大きい場合がある。一実施例では、参照ゲノム配列は、完全長ヒトゲノムのものである。別の例では、参照ゲノム配列は、１３番染色体などの特定のヒト染色体に限定される。いくつかの実施態様では、参照染色体は、ヒトゲノムバージョンｈｇ１９からの染色体配列である。このような配列は、染色体参照配列と呼ばれる場合があるが、用語参照ゲノムは、そのような配列を網羅することを意図している。参照配列の他の例としては、他の種のゲノム、並びに任意の種の染色体、サブ染色体領域（ストランドなど）などが挙げられる。様々な実施態様では、参照ゲノムは、複数の個体に由来するコンセンサース配列又は他の組み合わせである。しかしながら、特定の用途では、参照配列は、特定の個体から採取されてもよい。他の実施態様では、「ゲノム」はまた、ゲノム配列の特定の記憶形式及び表現を使用するいわゆる「グラフゲノム」も被覆する。一実施態様では、グラフゲノムは、線形ファイルにデータを記憶する。別の実施態様では、グラフゲノムは、代替的な配列（例えば、小さな差異を有する染色体の異なるコピー）がグラフ内の異なる経路として記憶されている表現を指す。グラフゲノムの実施に関する更なる情報は、ｈｔｔｐｓ：／／ｗｗｗ．ｂｉｏｒｘｉｖ．ｏｒｇ／ｃｏｎｔｅｎｔ／ｂｉｏｒｘｉｖ／ｅａｒｌｙ／２０１８／０３／２０／１９４５３０．ｆｕｌｌ．ｐｄｆにおいて見出すことができ、その内容は参照によりその全体が本明細書に組み込まれる。

用語「読み取られる」は、ヌクレオチドサンプル又は参照のフラグメントを記述する配列データの集合を指す。用語「読み取られる」は、サンプル読み取り及び／又は参照読み取りを指し得る。典型的には、必ずしもそうではないが、読み取りは、サンプル又は参照における連続的な塩基対の短いシーケンスを表す。読み取りは、サンプル又は参照フラグメントのベース対配列（ＡＴＣＧ）によって記号的に表されてもよい。読み取りが基準シーケンスと一致するか、又は他の基準を満たすかを判定するために、メモリデバイスに記憶され、適切に処理されてもよい。読み取りは、配列決定機器から直接、又はサンプルに関する記憶された配列情報から間接的に得られてもよい。場合によっては、例えば、染色体又はゲノム領域又は遺伝子に位置合わせされ、特異的に割り当てられ得る、より大きな配列又は領域を同定するために使用することができる十分な長さ（例えば、少なくとも約２５ｂｐ）のＤＮＡ配列である。

次世代配列決定法としては、例えば、合成技術（Ｉｌｌｕｍｉｎａ）、ピロ配列決定（４５４）、イオン半導体技術（ＩｏｎＴｏｒｒｅｎｔｓｅｑｕｅｎｃｉｎｇ）、一分子リアルタイム配列決定（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）及びライゲーションによる配列決定（ＳＯＬｉＤ配列決定）が挙げられる。配列決定法に応じて、各読み取りの長さは、約３０ｂｐ～１０，０００ｂｐを超えて変化し得る。例えば、ＳＯＬｉＤシーケンサを用いたＤＮＡ配列決定法は、約５０ｂｐの核酸リードを生成する。別の例では、ＩｏｎＴｏｒｒｅｎｔＳｅｑｕｅｎｃｉｎｇは、最大４００ｂｐの核酸リードを生成し、４５４のピロ配列は、約７００ｂｐの核酸リードを生成する。更に別の例では、単分子リアルタイム配列決定法は、１０，０００ｂｐ～１５，０００ｂｐのリードを生成し得る。したがって、特定の実施態様では、核酸配列のリードは、３０～１００ｂｐ、５０～２００ｂｐ、又は５０～４００ｂｐの長さを有する。

用語「サンプル読み取り」、「サンプル配列」又は「サンプル断片」は、サンプルから対象とするゲノム配列に関する配列データを指す。例えば、サンプル読み取りは、順方向及び逆方向プライマー配列を有するＰＣＲアンプリコンからの配列データを含む。配列データは、任意の選択配列手順から得ることができる。サンプルの読み取りは、例えば、配列単位合成（ＳＢＳ）反応、配列決定・ライゲーション反応、又は反復要素の長さ及び／若しくは同一性を決定することが望ましい任意の他の好適な配列決定方法であり得る。サンプル読み取りは、複数のサンプル読み取りに由来するコンセンサース（例えば、平均又は加重）配列であり得る。特定の実施態様では、参照配列を提供する工程は、ＰＣＲアンプリコンのプライマー配列に基づいて目的の遺伝子座を同定することを含む。

用語「生フラグメント」は、サンプル読み取り又はサンプル断片内の対象とする指定位置又は二次位置に少なくとも部分的に重なり合う、対象とするゲノム配列の一部の配列データを指す。生産物断片の非限定的な例としては、二重ステッチされた断片、単純なステッチされたフラグメント、及び単純な非ステッチの断片が挙げられる。用語「生」は、生のフラグメントがサンプル読み取りにおける配列データとのいくつかの関係を有する配列データを含むことを示すために使用され、生のフラグメントが、サンプル読み取りにおける潜在的変異体に対応し、かつそれを認証又は確認する支持変異体を示すかどうかに関わらず、使用される。用語「生フラグメント」は、フラグメントが、サンプル読み取りにおける変異型コールを検証する支持変異体を必ずしも含むことを示すものではない。例えば、サンプル読み取りが、第１の変異体を呈するために、変異型呼び出しアプリケーションによって判定されるとき、この変異型呼び出しアプリケーションは、１つ又はそれ以上の生のフラグメントが、サンプル読み取りにおける変異体を考慮して、そうでなければ発生することが予想され得る、対応する種類の「支持」変異体を欠くと判定することができる。

用語「マッピング」、「整列された」、「整列している」、又は「整列する」という用語は、読み取り又はタグを参照シーケンスと比較し、それによって、参照配列が読み取りシーケンスを含むかどうかを判定するプロセスを指す。参照配列が読み取られた場合、読み取りは参照シーケンスにマップされてもよく、又は特定の別の実施態様では、参照シーケンス内の特定の位置にマッピングされてもよい。いくつかの場合において、整列は、読み取りが特定の参照配列のメンバーであるか否か（すなわち、読み取りが参照配列中に存在するか又は存在していないか）かを単に伝える。例えば、ヒト染色体１３についての参照配列に対する読み取りの位置合わせは、１３番染色体の参照配列中に読み取りが存在するかどうかを伝える。この情報を提供するツールは、設定メンバシップ試験機と呼ばれることがある。場合によっては、位置合わせは、読み取り又はタグマップがある参照シーケンス内の位置を更に示す。例えば、参照配列がヒトゲノム配列全体である場合、アライメントは、染色体１３上にリードが存在することを示してもよく、更に、読み取られたものが染色体１３の特定の鎖及び／又は部位にあることを更に示してもよい。

用語「インデル」は、生物のＤＮＡ中の塩基の挿入及び／又は欠失を指す。マイクロインデルは、１～５０ヌクレオチドの正味変化をもたらすインデルを表す。インデルの長さが３の倍数でない限り、ゲノムの領域をコードする際に、フレームシフト変異が生じる。インデルは、点突然変異と対比することができる。インデル挿入物は、配列からヌクレオチドを欠失させるが、点変異は、ＤＮＡ中の全体的な数を変えることなくヌクレオチドのうちの１つを置き換える置換の形態である。インデルはまた、隣接するヌクレオチドにおける置換として定義され得るＴａｎｄｅｍＢａｓｅ変異（ＴＢＭ）と対比することもできる（主に２つの隣接するヌクレオチドで置換されるが、隣接する３つのヌクレオチドでの置換が観察された。

用語「変異体」は、核酸参照とは異なる核酸配列を指す。典型的な核酸配列変異体としては、限定するものではないが、単一のヌクレオチド多型（ＳＮＰ）、短い欠失及び挿入多型（Ｉｎｄｅｌ）、コピー数変動（ＣＮＶ）、マイクロ衛星マーカー、又は短いタンデム反復及び構造変異が挙げられる。体細胞変異体の呼び出しは、ＤＮＡサンプル中に低頻度で存在する変異体を同定するための努力である。体細胞変異体のコーリングは、癌治療の文脈において対象となる。癌は、ＤＮＡにおける変異の蓄積によって引き起こされる。腫瘍由来のＤＮＡサンプルは、一般的に不均質であり、いくつかの正常細胞、癌進行の早期段階（より少ない突然変異を伴う）、及び一部の後期細胞（より多くの変異を有する）を含む。この不均一性のため、腫瘍を配列決定するとき（例えば、ＦＦＰＥサンプルから）、体細胞変異は、多くの場合、低頻度で現れる。例えば、ＳＮＶは、所与の塩基を被覆するリードの１０％のみに見られ得る。変異体分類子によって体細胞又は生殖細胞系として分類される変異体は、本明細書では「試験中の変異体」とも称される。

用語「ノイズ」は、配列決定プロセス及び／又は変異型呼び出しアプリケーションにおける１つ又はそれ以上の誤差から生じる、誤りのある変異型コールを指す。

用語「変異体頻度」は、集団内の特定の遺伝子座における対立遺伝子（遺伝子の変異体）の相対頻度を表し、分画又は割合として表される。例えば、分画又は割合は、その対立遺伝子を保有する集団中の全ての染色体の割合であってもよい。一例として、サンプル変異体頻度は、個体から対象となるゲノム配列について得られたリード及び／又はサンプルの数に対応する「集団」にわたって、対象とするゲノム配列に沿った特定の遺伝子座／位置における対立遺伝子／変異体の相対頻度を表す。別の例として、ベースライン変異体頻度は、１つ又はそれ以上のベースラインゲノム配列に沿った特定の遺伝子座／位置における対立遺伝子／変異体の相対頻度を表し、ここで、１つ又はそれ以上のベースラインゲノム配列について得られた、１つ又はそれ以上のベースラインゲノム配列に沿った特定の遺伝子座／位置における対立遺伝子／変異体の相対頻度を表す。

用語「変異型対立遺伝子頻度（ＶＡＦ）」は、変異体を標的位置での全体的な被覆率で割った、配列決定されたリードの割合を指す。ＶＡＦは、変異体を保有する配列決定されたリードの割合の尺度である。

用語「位置」、「指定位置」、及び「遺伝子座」は、ヌクレオチド配列内の１つ又はそれ以上のヌクレオチドの位置又は座標を指す。用語「位置」、「指定位置」、及び「遺伝子座」はまた、ヌクレオチドの配列における１つ又はそれ以上の塩基対の位置又は座標を指す。

用語「ハプロタイプ」は、互いに遺伝する染色体上の隣接する部位における対立遺伝子の組み合わせを指す。ハプロタイプは、存在する場合、所与の座の組の間に生じた組み換え事象の数に応じて、１つの遺伝子座、いくつかの座、又は染色体全体であってもよい。

本明細書における「閾値」という用語は、サンプル、核酸、又はその一部（例えば、読み取り）を特徴付けるためのカットオフとして使用される数値又は数値を指す。閾値は、経験的分析に基づいて変化してもよい。閾値は、そのような値を生じさせる源が特定の方法で分類されるべきかどうかを判定するために、測定値又は計算値と比較することができる。閾値は、経験的又は分析的に識別することができる。閾値の選択は、ユーザーが分類を行う必要があることを望む信頼度に依存する。閾値は、特定の目的（例えば、感度及び選択性のバランスのために）選択されてもよい。本明細書で使用するとき、用語「閾値」は、分析の過程が変化し得る点、及び／又はアクションがトリガされ得る点を示す。閾値は、所定の数である必要はない。その代わりに、閾値は、例えば、複数の因子に基づく関数であってもよい。閾値は、状況に適応し得る。更に、閾値は、上限、下限、又は限界間の範囲を示し得る。

いくつかの実施態様では、配列決定データに基づく指標又はスコアは、閾値と比較され得る。本明細書で使用するとき、用語「メトリック」又は「スコア」は、配列決定データから決定された値又は結果を含んでもよく、又は配列決定データから決定された値又は結果に基づく関数を含んでもよい。閾値と同様に、指標又はスコアは、状況に適応し得る。例えば、指標又はスコアは、正規化された値であってもよい。スコア又はメトリックの例として、１つ又はそれ以上の実施態様は、データを分析する際にカウントスコアを使用することができる。計数スコアは、サンプル読み取りの数に基づいてもよい。サンプル読み取りは、サンプル読み取りが少なくとも１つの共通の特性又は品質を有するように、１つ又はそれ以上のフィルタリング段階を経ていてもよい。例えば、計数スコアを決定するために使用されるサンプル読み取りのそれぞれは、参照配列と整列されていてもよく、又は潜在的な対立遺伝子として割り当てられてもよい。共通の特性を有するサンプル読み取りの数をカウントして、読み取りカウントを決定することができる。カウントスコアは、読み取りカウントに基づいてもよい。いくつかの実施態様では、計数スコアは、読み取りカウントと等しい値であってもよい。他の実施例では、計数スコアは、読み取りカウント及び他の情報に基づいてもよい。例えば、計数スコアは、遺伝子座の特定の対立遺伝子の読み取りカウント、及び遺伝子座の合計リード数に基づいてもよい。いくつかの実施態様では、計数スコアは、遺伝子座の読み出しカウント及び以前に得られたデータに基づいてもよい。いくつかの実施態様では、計数スコアは、所定の値間の正規化スコアであってもよい。計数スコアはまた、サンプルの他の遺伝子座からのリードカウントの関数、又は対象となるサンプルと同時に実行された他のサンプルからのリードカウントの関数であってもよい。例えば、計数スコアは、特定の対立遺伝子の読み取りカウント及びサンプル中の他の遺伝子座の読み取りカウント、及び／又は他のサンプルからのリードカウントの関数であってもよい。一例として、他の遺伝子座からのリードカウント及び／又は他のサンプルからのリードカウントを使用して、特定の対立遺伝子についての計数スコアを正規化してもよい。

用語「被覆率」又は「断片被覆率」は、配列の同じフラグメントに対する多数のサンプルリードの計数又は他の尺度を指す。読み取りカウントは、対応するフラグメントをカバーするリードの数のカウントを表し得る。あるいは、被覆率は、履歴知識、サンプルの知識、遺伝子座の知識などに基づく指定された因子を、読み取りカウントに掛けることによって決定されてもよい。

用語「読み取り深さ」（従来、「×」が続く数）は、標的位置における重複アラインメントを伴う配列決定されたリードの数を指す。これは、多くの場合、１組の間隔（エキソン、遺伝子、又はパネルなど）のカットオフを超える平均又は百分率として表現される。例えば、臨床報告は、パネル平均被覆率が、標的化されたベースカバー＞１００×の９８％を有する１，１０５×であると言うことができる。

用語「ベースコール品質スコア」又は「Ｑスコア」は、単一の配列決定された塩基が正しい確率に反比例する０～５０からの範囲のＰＨＲＥＤスケールされた確率を指す。例えば、２０のＱを有するＴベースコールは、９９．９９％の確率で正しいと考えられる。Ｑ＜２０での任意のベースコールは、低品質であると見なされるべきであり、変異体を支持する配列決定されたリードのかなりの割合が低い場合に同定される任意の変異体は、潜在的に偽陽性であると見なされるべきである。

用語「変異体リード」又は「変異体リード番号」は、変異体の存在を支持する配列決定されたリードの数を指す。

「ストリンデディティー」（又はＤＮＡストランド）に関して、ＤＮＡ中の遺伝的メッセージは、文字Ａ、Ｇ、Ｃ、及びＴの文字、例えば、５’－ＡＧＧＡＣＡ－３’として表すことができる。多くの場合、配列は、本明細書に示される方向、すなわち、５’端を左に、３’端を右に書き込む。ＤＮＡは、（特定のウイルスのように）一本鎖分子として生じる場合があるが、通常、二本鎖単位としてＤＮＡを見つける。これは、２つの抗平行ストランドを有する二重螺旋構造を有する。この場合、「逆平行」という語は、２つのストランドが平行に走るが、反対の極性を有することを意味する。二本鎖ＤＮＡは、塩基とペアリングによって一緒に保持され、ペアリングは、アデニン（Ａ）対がチミン（Ｔ）及びシトシン（Ｃ）対とグアニン（Ｇ）との対となるように、常に保持される。このペアリングは相補性と呼ばれ、１本のＤＮＡ鎖は、他方の相補体であると言われる。したがって、二本鎖ＤＮＡは、５’－ＡＧＧＡＣＡ－３’及び３’－ＴＣＣＴＧＴ－５’と同様に、２つのストリングとして表され得る。２つのストランドは、反対の極性を有することに留意されたい。したがって、２つのＤＮＡ鎖のストランド性は、基準ストランド及びその補体、順方向及び逆方向ストランド、トップ及びボトムストランド、センス及びアンチセンスストランド、又はＷａｔｓｏｎ及びＣｒｉｃｋストランドと呼ぶことができる。

リードアライメント（リードマッピングとも呼ばれる）は、ゲノム中の配列が由来する場合に、参照するプロセスである。整列が行われると、所与の読み取りの「マッピング品質」又は「マッピング品質スコア（ＭＡＰＱ）」は、ゲノム上のその位置が正しい確率を定量化する。マッピング品質は、位相スケールで符号化され、Ｐはアライメントが正しくない確率である。確率は、以下のように計算される。式Ｐ＝１０^{（－ＭＡＱ／１０）}中、ＭＡＰＱはマッピング品質である。例えば、－４の電力に対する４０＝１０のマッピング品質は、読み取りが不正確に位置合わせされた０．０１％の機会が存在することを意味する。したがって、マッピング品質は、読み取りの基本品質、参照ゲノムの複雑性、及びパレッドエンド情報などのいくつかの位置合わせ因子と関連付けられる。最初に、読み取りの基本品質が低い場合、観察された配列が誤っている可能性があり、したがってそのアライメントが誤っていることを意味する。第２に、マッピング能力はゲノムの複雑さを指す。反復領域は、これらの領域に含まれるマップ及びリードをマッピングすることがより困難であり、通常、マッピング品質が低くなる。この文脈では、ＭＡＰＱは、リードが一意的に整列されておらず、それらの実際の原点を決定することができないという事実を反映する。第３に、パリッドエンド配列決定データの場合、コンコダント対は、より良好に整列される可能性が高い。マッピング品質が高いほど、アライメントがより良好である。良好なマッピング品質と整合された読み取りは、通常、読み出しシーケンスが良好であり、高いマッピング可能領域内ではわずかな不一致と位置合わせされたことを意味する。ＭＡＰＱ値は、アライメント結果の品質管理として使用することができる。２０よりも高いＭＡＰＱと位置合わせされたリードの割合は、通常、下流分析のためである。

本明細書で使用するとき、「信号」は、例えば画像内の発光、好ましくは発光などの検出可能な事象を指す。したがって、好ましい別の実施態様では、信号は、画像内に捕捉された任意の検出可能な発光（すなわち、「スポット」）を表すことができる。したがって、本明細書で使用するとき、「信号」は、検体の分析物からの実際の放出の両方を指すことができ、実際の分析物と相関しない擬似発光を指すことができる。したがって、信号はノイズから生じ得、試験片の実際の分析物を代表しないように後に廃棄することができる。

本明細書で使用するとき、用語「塊」は、一群の信号を指す。特定の実施態様では、信号は、異なる検体に由来する。好ましい別の実施態様では、信号塊は、一緒にクラスター化する信号群である。より好ましい実施態様では、シグナル凝集は、１つの増幅オリゴヌクレオチドによって覆われた物理的領域を表す。各信号塊は、理想的には、いくつかの信号（テンプレートサイクル当たり１つ、恐らくはクロストークによってより多く）として観察されるべきである。したがって、２つ（又はそれ以上）の信号が同じ信号の塊からテンプレートに含まれる、重複する信号が検出される。

本明細書で使用するとき、「最小」、「最大」、「最小化」、「最大化」、及びその文法的変異形などの用語は、絶対最大値又は最小値ではない値を含むことができる。いくつかの実施態様では、値は、最大値及び最小値付近を含む。他の実施例では、値は、局所的最大値及び／又は局所最小値を含むことができる。いくつかの実施態様では、値は、絶対最大値又は最小値のみを含む。

本明細書で使用するとき、「クロストーク」は、別個の画像においても検出される１つの画像内の信号の検出を指す。好ましい別の実施態様では、クロストークは、放出された信号が２つの別個の検出チャネルで検出されるときに発生し得る。例えば、放射された信号が１つの色で発生する場合、その信号の放射スペクトルは、別の色で別の放射された信号と重なってもよい。好ましい実施態様では、ヌクレオチド塩基Ａ、Ｃ、Ｇ、及びＴの存在を示すために使用される蛍光分子は、別個のチャネルで検出される。しかし、Ａ及びＣの発光スペクトルは重複するため、色チャネルを使用した検出中に、Ｃ色信号の一部が検出され得る。したがって、Ａ信号とＣ信号との間のクロストークにより、１つのカラー画像からの信号が他のカラー画像に現れることを可能にする。いくつかの実施態様では、Ｇ及びＴクロストークがある。いくつかの実施態様では、チャネル間のクロストークの量は非対称である。チャネル間のクロストークの量は、とりわけ、適切な放射スペクトルを有する信号分子の選択、並びに検出チャネルのサイズ及び波長範囲の選択によって制御され得ることが理解されるであろう。

本明細書で使用するとき、「レジスタ」、「登録」、「登録」、及び同様の用語は、画像又はデータセット内の信号を、別の時点又は視点からの画像又はデータセット内の信号と相関させるための任意のプロセスを指す。例えば、位置合わせを使用して、画像のセットからの信号を整列させてテンプレートを形成することができる。別の例では、位置合わせを使用して、他の画像からの信号をテンプレートに位置合わせすることができる。１つの信号は、別の信号に直接又は間接的に登録されてもよい。例えば、画像「Ｓ」からの信号は、画像「Ｇ」に直接登録されてもよい。別の例として、画像「Ｎ」からの信号は、画像「Ｇ」に直接登録されてもよく、あるいは、画像「Ｎ」からの信号は、以前に画像「Ｇ」に登録された画像「Ｓ」に登録されてもよい。したがって、画像「Ｎ」からの信号は、画像「Ｇ」に間接的に登録される。

本明細書で使用するとき、用語「基準」は、物体内又は物体上の区別可能な基準点を意味することを意図する。基準点は、例えば、マーク、第２の物体、形状、縁部、領域、不規則性、チャネル、ピット、ポストなどであり得る。基準点は、オブジェクトの画像内に、又はオブジェクトを検出することに由来する別のデータセット内に存在することができる。基準点は、物体の平面内のｘ及び／又はｙ座標によって指定することができる。代替的に又は追加的に、基準点は、例えば、物体と検出器との相対位置によって定義される、ｘｙ平面に直交するｚ座標によって指定することができる。基準点に対する１つ又はそれ以上の座標は、オブジェクトの１つ又はそれ以上の他の分析物、又はオブジェクトに由来する画像又は他のデータセットに対して指定することができる。

本明細書で使用するとき、用語「光信号」は、例えば、蛍光、発光、散乱、又は吸収信号を含むことを意図する。光信号は、紫外線（ＵＶ）範囲（約２００～３９０ｎｍ）、可視（ＶＩＳ）範囲（約３９１～７７０ｎｍ）、赤外線（ＩＲ）範囲（約０．７７１～２５マイクロメートル）、又は電磁スペクトルの他の範囲で検出することができる。これらの範囲のうちの１つ又はそれ以上の全て又は一部を除外する方法で、光信号を検出することができる。

本明細書で使用するとき、用語「信号レベル」は、所望又は所定の特性を有する検出されたエネルギー又は符号化された情報の量又は量を意味することを意図する。例えば、光信号は、強度、波長、エネルギー、周波数、電力、輝度などのうちの１つ又はそれ以上によって定量化することができる。他の信号は、電圧、電流、電界強度、磁場強度、周波数、電力、温度などの特性に従って定量化することができる。信号の不在は、ゼロの信号レベル、又はノイズとは有意に区別されない信号レベルであると理解される。

本明細書で使用するとき、用語「シミュレートする」は、物理又は行動の特性を予測する物理的又は行動の表現又はモデルを作成することを意味することを意図する。表現又はモデルは、多くの場合、そのもの又は行動と区別可能であり得る。例えば、表現又はモデルは、色、被加工、サイズ、又は形状の全て又は一部から検出される信号の強度などの１つ又はそれ以上の特性に対するものと区別することができる。特定の実施態様では、表現又はモデルは、何か又は行為と比較して、理想化、誇張、ミュート、又は不完全であり得る。したがって、いくつかの実施態様では、モデルの表現は、例えば、上記の特性のうちの少なくとも１つに関して表すものであることを表すものであることができる。表現又はモデルは、本明細書の他の箇所に記載されるもののうちの１つ又はそれ以上などのコンピュータ可読フォーマット又は媒体に提供され得る。

本明細書で使用するとき、用語「特定の信号」は、背景エネルギー又は情報などの他のエネルギー又は情報にわたって選択的に観察される、検出されたエネルギー又は符号化情報を意味することを意図する。例えば、特定の信号は、特定の強度、波長、若しくは色で検出される光信号、特定の周波数、電力若しくは場強度で検出される電気信号、又は分光及び分析検出に関する技術分野において既知の他の信号であり得る。

本明細書で使用するとき、用語「スイング」は、物体の矩形部分を意味することを意図する。スイングは、ストリップの最長寸法に平行な方向に、物体と検出器との間の相対移動によって走査される細長いストリップであり得る。一般に、矩形部分又はストリップの幅は、その全長に沿って一定である。物体の複数のスエージは、互いに平行であってもよい。物体の複数のスエージは、互いに重なり合い、互いに隣接するか、又は間質領域によって互いに分離され得る。

本明細書で使用するとき、用語「分散」は、予想される差、及び観察される差、又は２つ又はそれ以上の観測結果間の差を意味することを意図する。例えば、分散は、期待値と測定値との間の不一致であり得る。標準偏差、標準偏差の二乗、変動係数などの統計関数を使用して、分散を表すことができる。

本明細書で使用するとき、用語「ｘｙ座標」は、ｘｙ平面内の位置、サイズ、形状、及び／又は向きを指定する情報を意味することを意図する。情報は、例えば、デカルトシステムにおける数値座標であり得る。座標は、ｘ軸及びｙ軸の一方又は両方に対して提供することができ、又はｘｙ平面内の別の場所に対して提供することができる。例えば、物体の検体の座標は、対象物の基準又は他の分析物の位置に対する検体の場所を指定することができる。

本明細書で使用するとき、用語「ｘｙ平面」は、直線軸ｘ及びｙによって画定される２次元領域を意味することを意図する。検出器及び検出器によって観察される物体を参照して使用される場合、検出器と検出されている物体との間の観測方向に直交するように更に指定することができる。

本明細書で使用するとき、用語「ｚ座標」は、ｘｙ平面に直交する軸に沿った点、線、又は領域の位置を指定する情報を意味することを意図する。特定の別の実施態様では、ｚ軸は、検出器によって観察される物体の領域に直交する。例えば、光学系の焦点の方向は、ｚ軸に沿って指定されてもよい。

いくつかの実施態様では、獲得された信号データは、アフィン変換を用いて変換される。いくつかのそのような実施態様では、テンプレートの生成は、色チャネル間のアフィン変換が走る間に一貫しているという事実を使用する。この一貫性のため、標本中の検体の座標を決定する際に、デフォルトオフセットのセットを使用することができる。例えば、デフォルトオフセットファイルは、Ａチャネルなどの１つのチャネルに対する異なるチャネルに対する相対変換（シフト、スケール、スキュー）を含むことができる。しかしながら、他の実施態様では、ラン中及び／又は走る間の色チャネルドリフト間のオフセットは、オフセット駆動型テンプレート生成を困難にする。このような実施例では、本明細書で提供される方法及びシステムは、オフセットしたテンプレート生成を利用することができ、これについては以下で更に説明する。

上記の実施態様のいくつかの態様では、システムはフローセルを含み得る。一部の態様では、フローセルは、レーン、又は他の構成のタイルを含み、タイルの少なくとも一部は、１つ又はそれ以上の検体群を含む。一部の態様では、検体は、核酸などの複数の分子を含む。特定の態様では、フローセルは、標識されたヌクレオチド塩基を核酸の配列に送達し、それによって、核酸を含む検体に対応するシグナルを生成するように、検体内の核酸にハイブリダイズするプライマーを伸長させるように構成される。好ましい実施態様では、検体内の核酸は、互いに同一又は実質的に同一である。

本明細書に記載される画像解析システムのいくつかにおいて、画像のセット内の各画像は、色信号を含み、異なる色は、異なるヌクレオチドベースに対応する。一部の態様では、画像のセットの各画像は、少なくとも４つの異なる色から選択される単一の色を有する信号を含む。一部の態様では、画像のセット内の各画像は、４つの異なる色から選択される単一の色を有する信号を含む。本明細書に記載されるシステムのいくつかにおいて、核酸は、４つの異なる画像を生成するように、４つの異なる標識ヌクレオチド塩基を分子の配列に提供することにより、核酸を配列決定することができ、各画像は単一の色を有するシグナルを含み、信号色が、４つの異なる画像のそれぞれに対して異なることにより、核酸内の特定の位置に存在する４つの可能なヌクレオチドに対応する４つのカラー画像のサイクルを生成する、方法。特定の態様では、システムは、追加の標識ヌクレオチド塩基を分子の配列に送達するように構成されたフローセルを含み、それによって複数のカラー画像のサイクルを生成する。

好ましい実施態様形態では、本明細書で提供される方法は、プロセッサがアクティブにデータを取得しているか、又はプロセッサが低活動状態にあるかどうかを判定することを含み得る。多数の高品質画像を取得及び記憶することは、典型的には、大量の記憶容量を必要とする。更に、取得され記憶されると、画像データの分析はリソース集約的になり得、追加の画像データの取得及び記憶などの他の機能の処理能力を妨げる可能性がある。したがって、本明細書で使用するとき、用語「低活動状態」は、所与の時間におけるプロセッサの処理能力を指す。いくつかの実施態様では、低活動状態は、プロセッサがデータを取得及び／又は記憶していないときに生じる。いくつかの実施態様では、一部のデータ取得及び／又はストレージが行われる場合には、低いアクティビティ状態が生じるが、他の機能に干渉することなく画像解析が同時に生じ得るように、追加の処理能力が残る。

本明細書で使用するとき、「競合を特定する」とは、複数のプロセスがリソースに対して競合する状況を特定することを指す。いくつかのそのような実施態様では、１つのプロセスは、別のプロセスに対して優先度を与えられる。いくつかの実施態様では、競合は、時間、処理能力、記憶能力、又は優先度が与えられる任意の他のリソースの割り当てに対する優先度を与える必要性に関連し得る。したがって、いくつかの実施態様では、処理時間又は容量が、データセットを分析し、データセットを取得及び／又は記憶するかのいずれかなどの２つのプロセス間に分散される場合、２つのプロセス間の不一致が存在し、プロセスのうちの１つに優先度を与えることによって解決することができる。

本明細書では、画像解析を実行するためのシステムも提供される。システムは、プロセッサと、記憶容量と、画像解析用のプログラムと、を含むことができ、プログラムは、記憶のための第１のデータセット及び分析のための第２のデータセットを処理するための命令を含み、処理は、記憶装置上の第１のデータセットを取得及び／又は記憶することと、プロセッサが第１のデータセットを取得していないときに第２のデータセットを解析することと、を含む。特定の態様では、プログラムは、第１のデータセットを取得及び／又は記憶することと、第２のデータセットを解析することとの間の競合の少なくとも１つのインスタンスを識別するための命令を含み、第１のデータセットを取得及び／又は記憶することが優先度を与えられるように、画像データを取得及び／又は記憶することが優先される。特定の態様では、第１のデータセットは、光学撮像装置から取得された画像ファイルを含む。特定の態様では、システムは、光学撮像装置を更に備える。一部の態様では、光学撮像装置は、光源と検出デバイスとを備える。

本明細書で使用するとき、用語「プログラム」は、タスク又はプロセスを実行するための命令又はコマンドを指す。用語「プログラム」は、用語「モジュール」と互換的に使用され得る。特定の実施態様では、プログラムは、同じコマンドセットの下で実行される様々な命令のコンパイルであり得る。他の実施態様では、プログラムは、別個のバッチ又はファイルを参照することができる。

以下に記載されるのは、本明細書に記載される画像解析を実行するための方法及びシステムを利用する驚くべき効果の一部である。いくつかの配列決定の実現例では、配列決定システムの有用性の重要な尺度は、その全体的な効率である。例えば、１日当たりに生成されるマッピング可能なデータの量、並びに器具の設置及び実行の総コストは、経済的な配列決定ソリューションの重要な態様である。マッピング可能なデータを生成し、システムの効率を高めるための時間を短縮するために、リアルタイムのベースコールを機器コンピュータ上で有効にすることができ、配列決定ケミストリー及び画像化と並行して実行することができる。これにより、配列決定化学仕上げの前に、データ処理及び分析が完了することを可能にする。更に、中間データに必要な記憶を低減し、ネットワークを横切って移動する必要があるデータの量を制限することができる。

シーケンス出力が増加している間、本明細書で提供されるシステムからネットワークに転送された実行ごとのデータ、及び二次分析処理ハードウェアは、実質的に減少している。機器コンピュータ（取得コンピュータ）上でデータを変換することにより、ネットワークロードが劇的に低減される。これらのオン機器、オフネットワークデータ低減技術を伴わずに、ＤＮＡ配列決定機器のフレットの画像出力は、ほとんどのネットワークをクリップルするであろう。

ハイスループットＤＮＡ配列決定機器の広範な採用は、使用の容易さ、用途の範囲に対する支持、及び実質的に任意の実験室環境に対する適合性によって、部分的に駆動されてきた。本明細書に提示される高度に効率的なアルゴリズムは、配列決定インスツルメントを制御することができる単純なワークステーションに、有意な分析機能を加えることを可能にする。計算ハードウェアの必要条件のこの低減は、配列決定出力レベルが増加し続けるにつれて、更に重要となる、いくつかの実用的な利点を有する。例えば、単純なタワー、熱生成、実験室設置面積、及び電力消費を最小限に抑えるために、画像解析及びベースコールを行うことによって、最小に保たれる。対照的に、他の商業的な配列決定技術は、１次分析のために、最大５回の処理電力で、そのコンピューティングインフラストラクチャを最近ランプアップして、熱出力及び電力消費の増加を開始する。したがって、いくつかの実施態様では、本明細書で提供される方法及びシステムの計算効率は、サーバハードウェアを最小限に抑えながら、それらの配列決定スループットを増加させることを可能にする。

したがって、いくつかの実施態様では、本明細書に提示される方法及び／又はシステムは、状態マシンとして機能し、各試料の個々の状態の追跡を保ち、試料が次の状態に進む準備ができていることを検出すると、適切な処理を行い、試料をその状態に前進させる。状態マシンがファイルシステムを監視して、好ましい実施例に従って試料が次の状態に進む準備ができているかを判定する方法のより詳細な例が、以下の実施例１に記載されている。

好ましい実施態様では、本明細書で提供される方法及びシステムは、マルチスレッドであり、構成可能な数のスレッドと協働することができる。したがって、例えば、核酸配列決定の文脈において、本明細書で提供される方法及びシステムは、リアルタイム分析のためのライブ配列決定実行中に背景において作用することができ、又はオフライン分析のために既存の画像データセットを使用して実行することができる。特定の好ましい実施形態では、方法及びシステムは、それぞれのスレッドを、それが関与する検体のそれ自体のサブセットを与えることによって、マルチスレッドを取り扱う。これにより、スレッド保持の可能性が最小限に抑えられる。

本開示の方法は、検出装置を使用して物体の標的画像を取得する工程を含むことができ、この画像は、オブジェクト上の検体の繰り返しパターンを含む。表面の高解像度撮像が可能な検出装置が特に有用である。特定の実施態様では、検出装置は、本明細書に記載される密度、ピッチ、及び／又は検体サイズにおける検体を区別するのに十分な分解能を有するであろう。表面から画像又は画像データを得ることができる検出装置が特に有用である。例示的な検出器は、物体と検出器とを静的関係に維持しつつ、面積画像を取得するように構成されたものである。走査装置も使用することができる。例えば、連続領域画像を取得する装置（例えば、「ステップ及びショット」検出器と呼ばれる）を使用することができる。また、物体の表面上の点又は線を連続的に走査して、表面の画像を構築するためにデータを蓄積するデバイスも有用である。点走査検出器は、表面のｘ－ｙ平面内のラスタ運動を介してオブジェクトの表面上の点（すなわち、小さい検出領域）を走査するように構成することができる。線走査検出器は、物体の表面のｙ次元に沿った線を走査するように構成することができ、この線の最長寸法は、ｘ次元に沿って生じる。検出デバイス、物体、又はその両方を移動させて、走査検出を達成できることが理解されるであろう。例えば核酸配列決定用途において特に有用な検出装置は、米国特許出願公開第２０１２／０２７０３０５（Ａ１）号、同第２０１３／００２３４２２（Ａ１）号、及び同第２０１３／０２６０３７２（Ａ１）号、並びに米国特許第５，５２８，０５０号、同第５，７１９，３９１号、同第８，１５８，９２６号及び同第８，２４１，５７３号に記載されており、これらはそれぞれ、参照により本明細書に組み込まれる。

本明細書に開示される実施態様は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの任意の組み合わせを生成するためのプログラミング技術又は工学技術を使用して、製造方法、装置、システム、又は物品として実施態様されてもよい。本明細書で使用するとき、用語「製造物品」は、光学記憶デバイスなどのハードウェア又はコンピュータ可読媒体、並びに揮発性又は不揮発性メモリデバイス内に実施態様されるコード又は論理を指す。そのようなハードウェアとしては、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、粗粒度再構成可能構造（ＣＧＲＡ）、特定用途向け集積回路（ＡＳＩＣ）、複合プログラマブル論理デバイス（ＣＰＬＤ）、プログラマブルロジックアレイ（ＰＬＡ）、マイクロプロセッサ、又は他の同様の処理装置が挙げられるが、これらに限定されない。特定の実施態様では、本明細書に記載される情報又はアルゴリズムは、非一過性記憶媒体中に存在する。

特定の実施態様形態では、本明細書に記載されるコンピュータ実装の方法は、物体の複数の画像が取得されている間、リアルタイムで発生することができる。このようなリアルタイム分析は、核酸配列が流体及び検出工程の繰り返しサイクルに供される核酸配列決定用途に特に有用である。配列決定データの分析は、多くの場合、本明細書に記載される方法をリアルタイム又は背景で実行するのに有益であり得る一方で、他のデータ獲得又は分析アルゴリズムがプロセス中である間に、本明細書に記載される方法を実行することが有益であり得る。本方法で使用することができるリアルタイム分析法の例は、Ｉｌｌｕｍｉｎａ，Ｉｎｃ（ＳａｎＤｉｅｇｏ，Ｃａｌｉｆ．）から市販されており、及び／又は、参照により本明細書に組み込まれる米国特許出願公開第２０１２／００２０５３７（Ａ１）号に記載されているＭｉＳｅｑ及びＨｉＳｅｑ配列決定機器に使用されるものである。

１つ又はそれ以上のプログラムされたコンピュータによって形成され、本明細書に記載される方法の１つ又はそれ以上のステップを実行するために実行されるコードを有するプログラミングが、１つ又はそれ以上の機械可読媒体上に記憶されている、例示的データ分析システム。一実施態様では、例えば、システムは、標的オブジェクトからデータを取得するように構成された１つ又はそれ以上の検出システム（例えば、光学撮像システム）へのシステムのネットワーキングを可能にするように設計されたインターフェースを含む。インターフェースは、適切な場合には、データを受信及び条件することができる。特定の実施態様では、検出システムは、例えば、アレイ又は他の物体の画像を一緒に形成する個々の画像要素又はピクセルを表す画像データを出力する。プロセッサは、処理コードによって定義された１つ又はそれ以上のルーチンに従って、受信した検出データを処理する。処理コードは、様々な種類のメモリ回路に記憶されてもよい。

現時点で企図される実施態様によれば、検出データ上で実行される処理コードは、検出データを分析して、データ内で可視又は符号化された個々の検体の場所、及び分析物が検出されない場所（すなわち、分析物が存在しないか、又は、既存の分析物から有意な信号が検出されない場所）及びメタデータを判定するように設計されたデータ分析ルーチンを含む。特定の実施態様では、アレイ内の検体位置は、典型的には、撮像された検体に付着した蛍光染料の存在に起因して、非検体位置よりも明るく見える。検体は、例えば、検体におけるプローブの標的が検出されているアレイ内に存在しない場合、分析物は、それらの周囲領域よりも明るく見える必要はないことが理解されるであろう。個々の検体が現れる色は、使用される染料、並びに撮像目的のために撮像システムによって使用される光の波長の関数であり得る。標的が結合されていない、又は特定のラベルを有さない検体は、マイクロアレイ内の予想される場所などの他の特性に従って特定することができる。

データ分析ルーチンがデータ中に個々の分析物を配置すると、値割り当てが実行され得る。一般に、値割り当ては、対応する場所における検出器構成要素（例えば、ピクセル）によって表されるデータの特性に基づいて、各分析物にデジタル値を割り当てる。すなわち、例えば、画像化データが処理されるとき、値割り当てルーチンは、特定の場所で特定の色又は波長の光が特定の場所で検出されたことを認識するように設計されてもよい。典型的なＤＮＡ画像化用途では、例えば、４つの共通ヌクレオチドは、４つの別個の区別可能な色によって表される。次いで、各色は、そのヌクレオチドに対応する値を割り当てられてもよい。

本明細書で使用するとき、用語「モジュール」、「システム」、又は「システムコントローラ」は、１つ又はそれ以上の機能を実行するように動作するハードウェア及び／又はソフトウェアシステム及び回路を含み得る。例えば、モジュール、システム、又はシステムコントローラは、コンピュータメモリなどの有形及び非一時的コンピュータ可読記憶媒体上に記憶された命令に基づいて動作を実行する、コンピュータプロセッサ、コントローラ、又は他のログベースのデバイスを含んでもよい。あるいは、モジュール、システム、又はシステムコントローラは、有線論理及び回路に基づいて動作を実行する、有線デバイスを含んでもよい。添付の図面に示されるモジュール、システム、又はシステムコントローラは、ソフトウェア又は結線命令に基づいて動作するハードウェア及び回路、ハードウェアを動作させるように命令するソフトウェア、又はそれらの組み合わせを表し得る。モジュール、システム、又はシステムコントローラは、１つ又はコンピュータマイクロプロセッサなどの１つ又はそれ以上のプロセッサを含む、及び／又はそれと接続されるハードウェア回路又は回路を含むか、又は表すことができる。

本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、ＲＡＭメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、及び不揮発性ＲＡＭ（ＮＶＲＡＭ）メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは単なる例であり、コンピュータプログラムの記憶に使用可能なメモリの種類に限定されるものではない。

分子生物学分野では、使用中の核酸配列決定のためのプロセスの１つは、配列番号合成である。この技術は、非常に平行な配列決定プロジェクトに適用することができる。例えば、自動プラットフォームを使用することにより、数百万の配列決定反応を同時に行うことが可能である。したがって、本発明の実施態様の１つは、核酸配列決定中に生成された画像データを取得、記憶、及び分析するための器具及び方法に関する。

取得及び記憶することができるデータ量の莫大なゲインは、合理化された画像解析方法を更により有益にする。例えば、本明細書に記載される画像解析方法は、設計者及びエンドユーザーの両方が、既存のコンピュータハードウェアの効率的な使用を行うことを可能にする。したがって、本明細書では、迅速に増加するデータ出力の面における処理データの計算量を低減する方法及びシステムが本明細書に提示される。例えば、ＤＮＡ配列決定の分野では、収率は最近の過程で１５倍に拡大され、ＤＮＡ配列決定デバイスの単一の実行において何百ギガーゼに達する可能性がある。計算インフラストラクチャの要件が比例的に増加した場合、大規模なゲノム規模の実験は、ほとんどの研究者に到達していない。したがって、より多くの生シーケンスデータの生成は、二次分析及びデータ記憶の必要性を増加させ、データ輸送及び記憶の最適化を非常に有益にする。本明細書に提示される方法及びシステムのいくつかの実施態様は、使用可能なシーケンスデータを生成するために必要な時間、ハードウェア、ネットワーキング、及び実験室インフラストラクチャ要件を低減することができる。

本開示は、方法を実行するための様々な方法及びシステムを説明する。方法のいくつかの例は、一連の工程として記載される。しかしながら、実施態様は、本明細書に記載される特定の工程及び／又は工程の順序に限定されないことを理解されたい。工程は省略されてもよく、工程は修正されてもよく、及び／又は他の工程が追加されてもよい。更に、本明細書に記載される工程を組み合わせることができ、工程は同時に(simultaneously)実行されてもよく、工程は同時に(concurrently)実行されてもよく、工程は複数のサブステップに分割されてもよく、工程は、異なる順序で実行されてもよく、又は工程（又は一連の工程）は、反復的に再実行されてもよい。加えて、本明細書には異なる方法が記載されているが、他の実施態様では、異なる方法（又は異なる方法の工程）を組み合わせてもよいことを理解されたい。

いくつかの実施態様では、タスク又は動作を実行するように「構成された」処理ユニット、プロセッサ、モジュール、又はコンピューティングシステムは、タスク又は動作を実行するように特に構造化されていると理解され得る（例えば、タスク又は動作を実行するように調整又は意図された、及び／又はタスク若しくは動作を実行するように調整若しくは意図された１つ又はそれ以上のプログラム又は命令を有すること、及び／又はタスク若しくは動作を実行するように調整又は意図された処理回路の配置を有する）。明確さ及び疑義の回避のために、汎用コンピュータ（適切にプログラムされた場合にタスク又は動作を実行するように構成された」となり得る）汎用コンピュータは、タスク又は動作を実行するために具体的にプログラム又は構造的に変更されない限り、タスク又は動作を実行するように「構成されている」ように構成されていない）。

更に、本明細書に記載される方法の操作は、操作が、商業的に妥当な時間期間内に、当業者には、平均的なヒト又は当業者によって実施されることができないように、十分に複雑であり得る。例えば、この方法は、そのような人が商業的に妥当な時間内で方法を完了できないように、比較的複雑な計算に依存し得る。

本出願全体を通して、様々な刊行物、特許、又は特許出願が参照されている。これらの出版物の全体の開示は、本発明が属する技術分野の状態をより完全に説明するために、本出願において参照により本明細書に組み込まれる。

用語「含む（comprising）」は、本明細書では、列挙された要素のみならず、任意の追加の要素を更に包含する、オープンエンドであることが意図される。

本明細書で使用するとき、用語「それぞれ」は、項目の集合を参照して使用されるとき、集合内の個々の項目を特定することを意図しているが、必ずしも集合内の全ての項目を指すものではない。明示的な開示又は文脈がそうでないことを明確に指示する場合、例外が生じ得る。

上記の実施例を参照して本発明を説明したが、本発明から逸脱することなく様々な修正を行うことができることを理解されたい。

本出願のモジュールは、ハードウェア又はソフトウェアで実施態様することができ、図に示されるように、正確に同じブロックで分割される必要はない。いくつかは、異なるプロセッサ若しくはコンピュータ上に実施態様されてもよく、又は多数の異なるプロセッサ若しくはコンピュータの中で広がることもできる。加えて、モジュールの一部は、達成される機能に影響を及ぼすことなく、図に示されるものとは並行して、又は異なる順序で操作され得ることが理解されるであろう。また、本明細書で使用するとき、用語「モジュール」は、モジュールを構成するために本明細書で考慮することができる、「サブモジュール」を含むことができる。モジュールとして指定された図のブロックはまた、方法におけるフローチャート工程と考えることができる。

本明細書で使用するとき、情報項目の「識別」は、その情報の項目の直接仕様を必ずしも必要としない。情報は、単に、一方向の１つ又はそれ以上の層を通じた実際の情報を単に参照することによって、又は情報の実際の項目を決定するのに十分である異なる情報の１つ又はそれ以上のアイテムを識別することによって、フィールド内で「識別され得る」ことができる。加えて、用語「指定する」は、本明細書では、「識別する」と同じであることを意味する。

本明細書で使用するとき、所与の信号、イベント又は値は、「前デセサー信号、イベント又は前デセサー信号の値、所与の信号、イベント、又は値によって影響されるイベント又は値に依存する。介在処理要素、工程又は期間が存在する場合、所与の信号、イベント、又は値は、「前デセサー信号、イベント又は値」に依存して「存在する」ことができる。介在処理要素又はステップが２つ又はそれ以上の信号、イベント、又は値を組み合わせる場合、処理要素又はステップの信号出力は、「信号、イベント、又は値入力のそれぞれ」に依存していると見なされる。所与の信号、イベント又は値が前デセサー信号、イベント又は値と同じである場合、これは単に、所与の信号、イベント、又は値が「前デセサー信号、イベント又は値」に依存して「依存して」又は「依存して」又は「ベースデセサー信号、イベント又は値」に基づいて、「依存して」又は「依存する」と見なされる。別の信号、イベント又は値に対する所与の信号、イベント、又は値の「応答性」は、同様に定義される。

本明細書で使用するとき、「並行して」又は「並行して」は、正確な同時性を必要としない。個人の１人の評価が、個人の別の評価が完了する前に開始する場合に十分である。
コンピュータシステム

図６５は、本明細書に開示される技術を実施態様するために配列決定システム８００Ａによって使用され得るコンピュータシステム６５００である。コンピュータシステム６５００は、バスサブシステム６５５５を介して多数の周辺デバイスと通信する、少なくとも１つの中心処理装置（ＣＰＵ）６５７２を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイルストレージサブシステム６５３６、ユーザーインターフェース入力デバイス６５３８、ユーザーインターフェース出力デバイス６５７６及びネットワークインターフェースサブシステム６５７４を含む記憶サブシステム６５１０を含むことができる。入力及び出力デバイスは、コンピュータシステム６５００とのユーザー対話を可能にする。ネットワークインターフェースサブシステム６５７４は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。

一実施態様では、システムコントローラ７８０６は、記憶サブシステム６５１０及びユーザーインターフェース入力デバイス６５３８に通信可能にリンクされている。

ユーザーインターフェース入力デバイス６５３８は、キーボードと、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイスと、スキャナーと、ディスプレイに組み込まれたタッチスクリーンと、音声認識システム及びマイクロフォンなどのオーディオ入力デバイスと、他の種類の入力デバイスと、を含むことができる。一般に、用語「入力デバイス」の使用は、コンピュータシステム６５００に情報を入力するための全ての可能な種類のデバイス及び方法を含むことを意図する。

ユーザーインターフェース出力デバイス６５７６は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、ＬＥＤディスプレイ、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、音声出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力装置」の使用は、コンピュータシステム６５００からユーザー又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能な種類のデバイス及び方法を含むことを意図する。

記憶サブシステム６５１０は、本明細書に記載されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、概して、深層学習プロセッサ６５７８によって実行される。

深層学習プロセッサ６５７８は、グラフィック処理ユニット（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、及び／又は粗粒化再構成可能構造（ＣＧＲＡｓ）であり得る。深層学習プロセッサ６５７８は、ＧｏｏｇｌｅＣｌｏｕｄＰｌａｔｆｏｒｍ（商標）、Ｘｉｌｉｎｘ（商標）及びＣｉｒｒａｓｃａｌｅ（商標）などの深層学習クラウドプラットフォームによってホスティングすることができる。深層学習プロセッサ６５７８の例としては、Ｇｏｏｇｌｅのテンソル処理ユニット（ＴＰＵ）（商標）、ＧＸ４ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）、ＧＸ６５ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）、ＮＶＩＤＩＡＤＧＸ－１（商標）、Ｍｉｃｒｏｓｏｆｔ’ＳｔｒａｔｉｘＶＦＰＧＡ（商標）、ＧｒａｐｈｃｏｒｅのＩｎｔｅｌｌｉｇｅｎｔＰｒｏｃｅｓｓｏｒＵｎｉｔ（ＩＰＵ）（商標）、Ｓｎａｐｄｒａｇｏｎｐｒｏｃｅｓｓｏｒｓ（商標）、ＮＶＩＤＩＡのＶｏｌｔａ（商標）、ＮＶＩＤＩＡのドライブＰＸ（商標）、ＮＶＩＤＩＡのＪＥＴＳＯＮＴＸ１／ＴＸ２ＭＯＤＵＬＥ（商標）、ＩｎｔｅｌのＮｉｒｖａｎａ（商標）、ＭｏｖｉｄｉｕｓＶＰＵ（商標）、ＦｕｊｉｔｓｕＤＰＩ（商標）、アームＤｙｎａｍｉｃＩＱ（商標）、ＩＢＭＴｒｕｅＮｏｒｔｈ（商標）、ＬａｍｂｄａＧＰＵＳｅｒｖｅｒｗｉｔｈＴｅｓｔａＶ１００ｓ（商標）、及び他のものが挙げられる。

記憶サブシステム６５１０で使用されるメモリサブシステム６５２２は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ（ＲＡＭ）６５３２と、固定命令が記憶された読み取り専用メモリ（ＲＯＭ）６５３４とを含む多数のメモリを含むことができる。ファイル記憶サブシステム６５３６は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体、ドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。特定の実施態様の機能を実施態様するモジュールは、ストレージサブシステム６５１０内のファイル記憶サブシステム６５３６によって、又はプロセッサによってアクセス可能な他のマシン内に記憶され得る。

バスサブシステム６５５５は、コンピュータシステム６５００の様々な構成要素及びサブシステムを、意図されるように互いに通信するための機構を提供する。バスサブシステム６５５５は、単一のバスとして概略的に示されているが、バスサブシステムの代替実施態様は、複数のバスを使用することができる。

コンピュータシステム６５００自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩く分散した一組の緩くネットワーク化されたコンピュータ、又は任意の他のデータ処理システム若しくはユーザーデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークの変化の性質により、図６５に示されるコンピュータシステム６５００の説明は、本発明の好ましい実施態様を例示する目的のための特定の例としてのみ意図される。コンピュータシステム６５００の多くの他の構成は、図６５に示されるコンピュータシステムよりも多く又は少ない構成要素を有することができる。
特定の改善

我々は、ニューラルネットワークベースのテンプレート生成及びニューラルネットワークベースのベースコールの様々な実施態様を説明している。実施態様の１つ又はそれ以上の特徴を、ベース実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の１つ又はそれ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらのオプションのユーザーを定期的に通知する。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施のそれぞれに参照することにより本明細書に組み込まれる。
ベースコール－単一分析物距離チャネル

配列決定実行中にフローセルのタイル上で合成された分析物をベースコールするニューラルネットワーク実装方法を開示し、配列決定実行は、複数の配列決定サイクルを有し、複数の配列決定サイクルのそれぞれは、１つ又はそれ以上の画像を有する画像セットを生成し、画像のそれぞれは、１つ又はそれ以上の画像チャネルのうちのそれぞれ１つにおいて分析物及びそれらの周囲背景の強度発光を表現する。方法は、複数の配列決定サイクルのうちの初期のサイクルにおいてそれぞれ生成された初期画像セットをテンプレート生成器によって処理して、テンプレート画像内の分析物の参照中心を識別することを含む。方法は、複数の配列決定サイクルのうちの現在のサイクルにおいて生成された現在の画像セットの、複数の配列決定サイクルのうちの現在のサイクルに先行する複数の配列決定サイクルのうちの１つ又はそれ以上においてそれぞれ生成された１つ又はそれ以上の先行する画像セットの、及び複数の配列決定サイクルのうちの現在のサイクルの後に続く複数の配列決定サイクルのうちの１つ又はそれ以上においてそれぞれ生成された１つ又はそれ以上の後続の画像セットのそれぞれにおける１つ又はそれ以上の画像にアクセスすることを含む。方法は、現在の、先行する、及び後続の画像セット内の画像のそれぞれをテンプレート画像と位置合わせして、サイクル固有及び画像チャネル固有の変換を決定することを含む。方法は、これらの変換を分析物の参照中心に適用して、画像のそれぞれにおける分析物の変換された中心を識別することを含む。方法は、ベースコールされている分析物のうちの特定の１つについて、各画像パッチが、画像のうちの対応の１つにおいて識別された分析物のうちの特定の１つの変換された中心をその中心ピクセル内に含み、画像チャネルのうちの対応する１つにおいて分析物のうちの特定の１つの、分析物のうちのいくつかの隣接する分析物の、及びそれらの周囲背景の強度発光を表現するように、現在の、先行する、後続の画像セット内の画像のそれぞれから画像パッチを抽出することを含む。方法は、各画像パッチについて、その中心ピクセルに含まれた分析物のうちの特定の１つの変換された中心からのそのピクセルの中心の距離を識別する距離情報を生成することを含む。方法は、距離情報を各画像パッチ内にピクセル単位で符号化することによって入力データを構築することを含む。方法は、入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、複数の配列決定サイクルのうちの現在のサイクルにおける分析物のうちの特定の１つに組み込まれた塩基がＡ、Ｃ、Ｔ、及びＧであることの尤度を生成することを含む。方法は、これらの尤度に基づいて塩基をＡ、Ｃ、Ｔ、又はＧとして分類することを含む。

他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。

一実施態様では、方法は、各画像パッチについて、そのピクセルのうちのどれが分析物のうちの特定の１つを覆い、そのピクセルのうちのどれがこれを覆わないかを識別する分析物帰属情報を生成することと、分析物帰属情報を各画像パッチ内にピクセル単位で符号化することによって入力データを構築することと、を含む。一実施態様では、分析物のうちの特定の１つを覆うピクセルは、分析物帰属情報において非ゼロの値が割り当てられる。一実施態様では、分析物のうちの特定の１つを覆わないピクセルは、分析物帰属情報においてゼロの値が割り当てられる。一実施態様では、方法は、畳み込みニューラルネットワークへの入力として、分析物の変換された中心の位置座標を提供することを含む。そのような一実施態様では、入力は、畳み込みニューラルネットワークの第１の層に供給される。別のそのような実施態様では、入力は、畳み込みニューラルネットワークの１つ又はそれ以上の中間層に供給される。更に別のそのような実施態様では、入力は、畳み込みニューラルネットワークの最終層に供給される。一実施態様では、方法は、畳み込みニューラルネットワークへの入力として、画像パッチのピクセルに対応するスケーリング値を有する強度スケーリングチャネルを提供することを含む。そのような実施態様では、スケーリング値は、分析物のうちの特定の１つの中心を含む画像パッチの中心ピクセルの平均強度に基づく。一実施態様では、強度スケーリングチャネルは、画像パッチの全てのピクセルについて同じスケーリング値をピクセル単位で含む。一実施態様では、中心ピクセルの平均強度は、画像チャネルのうちの対応する１つのそれぞれについて決定される。

一実施態様では、中心ピクセルの平均強度は、第１の画像チャネルについて、分析物のうちの特定の１つに対するＡ及びＴベースコールを生成した２つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第２の画像チャネルについて、分析物のうちの特定の１つに対するＡ及びＣベースコールを生成した２つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第１の画像チャネルについて、分析物のうちの特定の１つに対するＡベースコールを生成した２つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第２の画像チャネルについて、分析物のうちの特定の１つに対するＧベースコールを生成した２つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第３の画像チャネルについて、分析物のうちの特定の１つに対するＴベースコールを生成した２つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第３の画像チャネルについて、分析物のうちの特定の１つに対するＣベースコールを生成した２つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。

一実施態様では、配列決定実行は、第１のリードプライマー及び第２のリードプライマーを使用して分析物中の断片の両端部を順方向及び逆方向に配列決定するペアードエンド配列決定を実施し、それによって各断片についてリードペアを生成するものであり、リードペアは、順方向リード及び逆方向リードを有する。一実施態様では、断片の両端部は、連続的に配列決定されて、順方向リード及び逆方向リードを交互に生成する。一実施態様では、断片の両端部は、同時に配列決定されて、順方向リード及び逆方向リードを同時に生成する。一実施態様では、順方向リード及び逆方向リードはそれぞれ、断片のうちの１つ又はそれ以上を含む。一実施態様では、断片のうちの１つ又はそれ以上は、連続的に配列決定される。一実施態様では、断片のうちの１つ又はそれ以上は、同時に配列決定される。一実施態様では、配列決定実行は、単一のリードプライマーを使用して１つの方向で断片を配列決定するシングルリード配列決定を実施する。一実施態様では、配列決定実行は、ループ内で断片の二本鎖コピーを配列決定するサーキュラー配列決定（circular sequencing）を実施し、このループは、所与の断片の二本鎖コピーにわたって複数回反復する。一実施態様では、配列決定実行は、断片の積み重ねられたコピーを配列決定するスタックド配列決定（stacked sequencing）を実施し、所与の断片の積み重ねられたコピーは、垂直又は水平に積み重ねられる。一実施態様では、画像パッチのサイズは、３×３ピクセルから１００００×１００００ピクセルの範囲である。

一実施態様では、変換された中心は、浮動小数点数座標値である。そのような実施態様では、方法は、丸め操作を使用して浮動小数点数座標値を丸めて、変換された中心の整数座標値を生成することと、中心ピクセルを、その整数座標と変換された中心に対して生成された整数座標値との間の重なりに基づいて識別することと、を含む。一実施態様では、丸め操作は、床関数、天井関数、及び／又は丸め関数のうちの少なくとも１つである。一実施態様では、丸め操作は、整数関数及び／又は正整数関数のうちの少なくとも１つである。一実施態様では、テンプレート生成器は、ニューラルネットワークベースのテンプレート生成器である。一実施態様では、出力層はソフトマックス層であり、尤度は、複数の配列決定サイクルのうちの現在のサイクルにおける分析物のうちの特定の１つに組み込まれた塩基がＡ、Ｃ、Ｔ、及びＧであることの指数関数的に正規化されたスコア分布である。

一実施態様では、画像チャネルのそれぞれ１つは、複数のフィルタ波長帯域のうちの１つに対応する。別の実施態様では、画像チャネルのそれぞれ１つは、複数の画像イベントのうちの１つに対応する。一実施態様では、フローセルは、分析物を占有するウェルのアレイを有する、少なくとも１つのパターン化された表面を有する。別の実施態様では、フローセルは、少なくとも１つのパターン化されていない表面を有し、分析物は、非パターン化表面上で不均一に散乱される。一実施態様では、画像セットは、４つの画像を有する。別の実施態様では、画像セットは２つの画像を有する。更に別の実施態様では、画像セットは１つの画像を有する。一実施態様では、配列決定動作は、４チャネル化学を利用する。別の実施態様では、配列決定動作は、２チャネル化学を利用する。更に別の実施態様では、配列決定実行は、１チャネル化学を利用する。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。

配列決定実行中に合成された分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することを含む。入力データは、配列決定実行の現在の配列決定サイクルにおいて生成された現在の画像セットの、現在の配列決定サイクルに先行する配列決定実行の１つ又はそれ以上の配列決定サイクルにおいてそれぞれ生成された１つ又はそれ以上の先行する画像セットの、及び現在の配列決定サイクルの後に続く配列決定実行の１つ又はそれ以上の配列決定サイクルにおいてそれぞれ生成された１つ又はそれ以上の後続の画像セットのそれぞれで１つ又はそれ以上の画像から抽出された画像パッチを含む。画像パッチのそれぞれは、ベースコールされているターゲット分析物の、いくつかの隣接する分析物の、及びそれらの周囲背景の強度発光を対応する画像チャネル内で表現する。入力データは、画像パッチの中心ピクセル内に位置するターゲット分析物の中心からの画像パッチのピクセルの中心の距離を識別するために画像パッチのそれぞれにピクセル単位で符号化されている距離情報を更に含む。方法は、畳み込み表現を出力層によって処理して、出力を生成することを含む。方法は、現在の配列決定サイクルにおけるターゲット分析物を出力に基づいてベースコールすることを含む。

一実施態様では、方法は、畳み込み表現を出力層によって処理して、現在の配列決定サイクルにおけるターゲット分析物に組み込まれた塩基がＡ、Ｃ、Ｔ、及びＧであることの尤度を生成することと、塩基をこれらの尤度に基づいてＡ、Ｃ、Ｔ、又はＧとして分類することと、を含む。一実施態様では、尤度は、ソフトマックス層によって生成される指数関数的に正規化されたスコアである。

一実施態様では、方法は、出力から、現在の配列決定サイクルにおけるターゲット分析物に組み込まれた塩基がＡ、Ｃ、Ｔ、又はＧであることのクラスラベルを識別するターゲット分析物の出力ペアを導出することと、クラスラベルに基づいてターゲット分析物をベースコールすることと、を含む。一実施態様では、１，０のクラスラベルがＡ塩基を識別し、０，１のクラスラベルがＣ塩基を識別し、１，１のクラスラベルがＴ塩基を識別し、０，０のクラスラベルがＧ塩基を識別する。別の実施態様では、１，１のクラスラベルがＡ塩基を識別し、０，１のクラスラベルがＣ塩基を識別し、０．５，０．５のクラスラベルがＴ塩基を識別し、０，０のクラスラベルがＧ塩基を識別する。更に別の実施態様では、１，０のクラスラベルがＡ塩基を識別し、０，１のクラスラベルがＣ塩基を識別し、０．５，０．５のクラスラベルがＴ塩基を識別し、０，０のクラスラベルがＧ塩基を識別する。また更なる実施態様では、１，２のクラスラベルがＡ塩基を識別し、０，１のクラスラベルがＣ塩基を識別し、１，１のクラスラベルがＴ塩基を識別し、０，０のクラスラベルがＧ塩基を識別する。一実施態様では、方法は、出力から、現在の配列決定サイクルにおけるターゲット分析物に組み込まれた塩基がＡ、Ｃ、Ｔ、又はＧであることを識別するターゲット分析物のためのクラスラベルを導出することと、クラスラベルに基づいてターゲット分析物をベースコールすることと、を含む。一実施態様では、０．３３のクラスラベルがＡ塩基を識別し、０．６６のクラスラベルがＣ塩基を識別し、１のクラスラベルがＴ塩基を識別し、０のクラスラベルがＧ塩基を識別する。別の実施態様では、０．５０のクラスラベルがＡ塩基を識別し、０．７５のクラスラベルがＣ塩基を識別し、１のクラスラベルがＴ塩基を識別し、０．２５のクラスラベルがＧ塩基を識別する。一実施態様では、方法は、出力から、単一の出力値を導出することと、単一の出力値を塩基Ａ、Ｃ、Ｔ、及びＧに対応するクラス値範囲と比較することと、比較に基づいて、単一の出力値を特定のクラス値範囲に割り当てることと、割り当てに基づいてターゲット分析物をベースコールすることと、を含む。一実施態様では、単一の出力値はシグモイド関数を使用して導出され、単一の出力値は０～１の範囲である。別の実施態様では、０～０．２５のクラス値範囲がＡ塩基を表し、０．２５～０．５０のクラス値範囲がＣ塩基を表し、０．５０～０．７５のクラス値範囲がＴ塩基を表し、０．７５～１のクラス値範囲がＧ塩基を表す。

配列決定実行中にフローセルのタイル上で合成された分析物をベースコールするニューラルネットワーク実装方法を開示し、配列決定実行は、複数の配列決定サイクルを有し、複数の配列決定サイクルのそれぞれは、１つ又はそれ以上の画像を有する画像セットを生成し、画像のそれぞれは、１つ又はそれ以上の画像チャネルのうちのそれぞれ１つにおいて分析物及びそれらの周囲背景の強度発光を表現する。方法は、複数の配列決定サイクルのうちの初期のサイクルにおいてそれぞれ生成された初期画像セットをテンプレート生成器によって処理して、テンプレート画像内の分析物の参照中心を識別することを含む。方法は、複数の配列決定サイクルのうちの現在のサイクルにおいて生成された現在の画像セットの、複数の配列決定サイクルのうちの現在のサイクルに先行する複数の配列決定サイクルのうちの１つ又はそれ以上においてそれぞれ生成された１つ又はそれ以上の先行する画像セットの、及び複数の配列決定サイクルのうちの現在のサイクルの後に続く複数の配列決定サイクルのうちの１つ又はそれ以上においてそれぞれ生成された１つ又はそれ以上の後続の画像セットのそれぞれにおける１つ又はそれ以上の画像にアクセスすることを含む。方法は、現在の、先行する、及び後続の画像セット内の画像のそれぞれをテンプレート画像と位置合わせして、サイクル固有及び画像チャネル固有の変換を決定することを含む。方法は、これらの変換を分析物の参照中心に適用して、画像のそれぞれにおける分析物の変換された中心を識別することを含む。方法は、ベースコールされている分析物のうちの特定の１つについて、各画像パッチが、画像のうちの対応の１つにおいて識別された分析物のうちの特定の１つの変換された中心をその中心ピクセル内に含み、画像チャネルのうちの対応する１つにおいて分析物のうちの特定の１つの、分析物のうちのいくつかの隣接する分析物の、及びそれらの周囲背景の強度発光を表現するように、現在の、先行する、後続の画像セット内の画像のそれぞれから画像パッチを抽出することを含む。方法は、各画像パッチについて、その中心ピクセルに含まれた分析物のうちの特定の１つの変換された中心からのそのピクセルの中心の距離を識別する距離情報を生成することを含む。方法は、距離情報を各画像パッチ内にピクセル単位で符号化することによって入力データを構築することを含む。方法は、入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、出力を生成することを含む。方法は、複数の配列決定サイクルのうち現在のサイクルにおける分析物のうちの特定の１つを出力に基づいてベースコールすることを含む。

一実施態様では、方法は、畳み込み表現を出力層によって処理して、複数の配列決定サイクルのうち現在のサイクルにおける分析物のうちの特定の１つに組み込まれた塩基がＡ、Ｃ、Ｔ、及びＧであることの尤度を生成することと、塩基をこれらの尤度に基づいてＡ、Ｃ、Ｔ、又はＧとして分類することと、を含む。

一実施態様では、コンピュータ実装方法は、入力データをニューラルネットワークによって処理することと、入力データの代替表現を生成することと、を含む。入力データは、配列決定実行の１つ又はそれ以上の配列決定サイクルのそれぞれのためのサイクルごとの画像データを含む。サイクルごとの画像データは、それぞれの配列決定サイクルにおいて捕捉された１つ又はそれ以上の分析物及びそれらの周囲背景の強度発光を表現する。方法は、代替表現を出力層によって処理することと、出力を生成することと、を含む。方法は、配列決定サイクルのうちの１つ又はそれ以上における分析物のうちの１つ又はそれ以上を出力に基づいてベースコールすることを含む。

一実施態様では、方法は、サイクルごとの画像データのピクセルと分析物のうちの１つ又はそれ以上との間の距離を識別する補足的な距離情報をサイクルごとの画像データに添付することを含む。そのような実施態様では、距離は、分析物のうちの１つ又はそれ以上の中心、形状、及び／又は境界に関するコンテキストをニューラルネットワーク及び出力層による処理に組み込む。一実施態様では、方法は、サイクルごとの画像データのピクセルにスケーリング値を割り当てる補足的なスケーリング情報をサイクルごとの画像データに添付することを含む。そのような実施態様では、スケーリング値は、分析物のうちの１つ又はそれ以上の強度の変動を考慮する。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
ベースコール－多分析物距離チャネル

配列決定実行中に合成された分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、配列決定実行の一連の配列決定サイクルのために生成されたサイクルごとの画像パッチセットのシーケンスを含む入力データにアクセスすることを含む。シーケンス内の各サイクルごとの画像パッチセットは、１つ又はそれ以上の画像チャネルのそれぞれ１つのための画像パッチを有する。各画像パッチは、複数の分析物及びそれらの周囲背景を覆うピクセルのためのピクセル強度データと、ピクセルと分析物のそれぞれとの間の中心間距離に基づいて選択される分析物のうちの最も近い分析物からの各ピクセルの中心間距離を識別するピクセル距離データと、を有する。方法は、入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、現在の配列決定サイクルにおける分析物のうちのそれぞれ１つに組み込まれた塩基がＡ、Ｃ、Ｔ、及びＧであることの尤度を識別する、分析物のそれぞれのためのスコア分布を生成することを含む。方法は、分析物のそれぞれをこれらの尤度に基づいてベースコールすることを含む。

一実施態様では、ピクセル距離データは、各画像パッチ内にピクセル単位で符号化される。一実施態様では、中心間距離は、分析物の変換された中心の位置座標及びピクセル中心の位置座標を使用する距離式から導出される。一実施態様では、方法は、畳み込みニューラルネットワークへの入力として、各画像パッチのピクセルに対応するスケーリング値を有する強度スケーリングチャネルを提供することを含み、スケーリング値は、分析物の変換された中心を含む各画像パッチ内の中心ピクセルの平均強度の組み合わせに基づく。一実施態様では、強度スケーリングチャネルは、画像パッチの全てのピクセルのピクセル強度データに同じスケーリング値をピクセル単位で適用する。一実施態様では、強度スケーリングチャネルは、第１の中心ピクセルの平均強度から導出された第１のスケーリング値が、第１の中心ピクセルに連続的に隣接している隣接ピクセルの第１のピクセル近傍に適用され、別の中心ピクセルの平均強度から導出される別のスケーリング値が、別の中心ピクセルに連続的に隣接している隣接ピクセルの別のピクセル近傍に適用されるように、画像パッチのピクセルのピクセル強度データにピクセル近傍に基づいて異なるスケーリング値をピクセル単位で適用する。一実施態様では、ピクセル近傍は、中心ピクセルを中心とするｍ×ｎのピクセルパッチであり、ピクセルパッチは３×３ピクセルである。一実施態様では、ピクセル近傍は、中心ピクセルを中心とするｎ接続されたピクセル近傍である。一実施態様では、中心ピクセルの平均強度は、画像チャネルのうちの対応する１つのそれぞれについて決定される。一実施態様では、中心ピクセルの平均強度は、第１の画像チャネルについて、分析物のうちの対応の分析物に対するＡ及びＴベースコールを生成した２つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第２の画像チャネルについて、分析物のうちの対応の分析物に対するＡ及びＣベースコールを生成した２つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第１の画像チャネルについて、分析物のうちの対応の分析物に対するＡベースコールを生成した２つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第２の画像チャネルについて、分析物のうちの対応の分析物に対するＧベースコールを生成した２つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第３の画像チャネルについて、分析物のうちの対応の分析物に対するＴベースコールを生成した２つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第３の画像チャネルについて、分析物のうちの対応の分析物に対するＣベースコールを生成した２つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、方法は、各画像パッチについて、そのピクセルのうちのどれが分析物を覆い、そのピクセルのうちのどれがこれらを覆わないかを識別する分析物帰属情報を生成することと、分析物帰属情報を各画像パッチ内にピクセル単位で符号化することによって入力データを構築することと、を含む。一実施態様では、分析物を覆うピクセルは、分析物帰属情報において非ゼロの値が割り当てられる。一実施態様では、分析物を覆わないピクセルは、分析物帰属情報においてゼロの値が割り当てられる。一実施態様では、各画像パッチのサイズは、３×３ピクセルから１００００×１００００ピクセルの範囲である。一実施態様では、出力層はソフトマックス層であり、スコア分布は指数関数的に正規化されたスコア分布である。

配列決定実行中に合成された分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、配列決定実行の一連の配列決定サイクルのために生成されたサイクルごとの画像パッチセットのシーケンスを含む入力データにアクセスすることを含む。シーケンス内の各サイクルごとの画像パッチセットは、１つ又はそれ以上の画像チャネルのそれぞれ１つのための画像パッチを有する。各画像パッチは、複数の分析物及びそれらの周囲背景を覆うピクセルのためのピクセル強度データと、ピクセルと分析物のそれぞれとの間の中心間距離に基づいて選択される分析物のうちの最も近い分析物からの各ピクセルの中心間距離を識別するピクセル距離データと、を有する。方法は、入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、出力を生成することを含む。方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。

一実施態様では、方法は、出力から、現在の配列決定サイクルにおける分析物のそれぞれ１つに組み込まれた塩基がＡ、Ｃ、Ｔ、及びＧであることを識別する分析物のそれぞれのためのスコア分布を導出することと、分析物のそれぞれを尤度に基づいてベースコールすることと、を含む。一実施態様では、出力層はソフトマックス層であり、スコア分布は指数関数的に正規化されたスコア分布である。一実施態様では、方法は、出力から、現在の配列決定サイクルにおける分析物のそれぞれ１つに組み込まれた塩基がＡ、Ｃ、Ｔ、及びＧであることを識別する分析物のそれぞれのための出力ペアを導出することと、分析物のそれぞれをクラスラベルに基づいてベースコールすることと、を含む。一実施態様では、方法は、出力から、単一の出力値を導出することと、単一の出力値を塩基Ａ、Ｃ、Ｔ、及びＧに対応するクラス値範囲と比較することと、比較に基づいて、単一の出力値を特定のクラス値範囲に割り当てることと、分析物のそれぞれを割り当てに基づいてベースコールすることと、を含む。一実施態様では、単一の出力値はシグモイド関数を使用して導出され、単一の出力値は０～１の範囲である。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
ベースコール－多分析物形状ベース距離チャネル

配列決定実行中に合成された分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、配列決定実行の一連の配列決定サイクルのために生成されたサイクルごとの画像パッチセットのシーケンスを含む入力データにアクセスすることを含む。シーケンス内の各サイクルごとの画像パッチセットは、１つ又はそれ以上の画像チャネルのそれぞれ１つのための画像パッチを有する。各画像パッチは、分析物強度を表現する分析物ピクセル及び背景強度を表現する背景ピクセルを使用して複数の分析物及びそれらの周囲背景の強度発光を表現する。各画像パッチは、分析物のうちの１つのみに対して各分析物ピクセルを分類することに基づいて選択される分析物のうちの割り当てられた分析物からの各分析物ピクセルの中心間距離を識別する分析物距離データと共に符号化される。方法は、入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、現在の配列決定サイクルにおける分析物のうちのそれぞれ１つに組み込まれた塩基がＡ、Ｃ、Ｔ、及びＧであることの尤度を識別する、分析物のそれぞれのためのスコア分布を生成することを含む。方法は、分析物のそれぞれをこれらの尤度に基づいてベースコールすることを含む。

一実施態様では、分析物は、複数の分析物ピクセルにわたる不規則な形状を有し、ピクセル－分析物間の分類は、不規則な形状に基づく。一実施態様では、全ての背景ピクセルは、分析物距離データ内で同じ最小中心間距離が割り当てられる。一実施態様では、全ての背景ピクセルは、同じ最小強度が割り当てられる。一実施態様では、各分析物ピクセルは、ニューラルネットワークベースのテンプレート生成器によって生成された減衰マップに基づいて、分析物のうちの１つのみに分類される。そのような実施態様では、減衰マップは、分析物を隣接ピクセルからなる不連続領域として、分析物の中心を不連続領域のうちの対応する領域の質量中心にある中心ピクセルとして、及びそれらの周囲背景を不連続領域のいずれにも属していない背景ピクセルとして表現する。一実施態様では、不連続領域のうちの対応する領域内の隣接ピクセルは、隣接ピクセルが属する不連続領域内の中心ピクセルからの隣接ピクセルの距離に従って重み付けされた強度値を有する。一実施態様では、不連続領域のうちの対応する領域内の隣接ピクセルは、同じ分析物に属し、かつそれを共同で表現する分析物内部ピクセルとしてカテゴリー化され、分析物ごとにメモリに記憶される。一実施態様では、中心ピクセルは、不連続領域のうちの対応する領域内で最も高い強度値を有する。一実施態様では、背景ピクセルは全て、減衰マップ内で同じ最低強度値を有する。一実施態様では、分析物距離データは、各画像パッチ内へのピクセル単位の符号化である。一実施態様では、中心間距離は、分析物の変換された中心の位置座標及びピクセル中心の位置座標を使用する距離式から導出される。一実施態様では、分析物の変換された中心は、減衰マップによって識別された分析物の中心にサイクル固有の変換及び画像チャネル固有の変換を適用することによって導出される。

一実施態様では、方法は、畳み込みニューラルネットワークへの入力として、各画像パッチのピクセルに対応するスケーリング値を有する強度スケーリングチャネルを提供することを含む。そのような実施態様では、スケーリング値は、分析物の変換された中心を含む各画像パッチ内の中心ピクセルの平均強度の組み合わせに基づく。一実施態様では、強度スケーリングチャネルは、第１の分析物の中心を含む第１の中心ピクセルの平均強度から導出された第１のスケーリング値が、第１の分析物に属し、かつそれを共同で表現する隣接ピクセルの第１のピクセルグループに適用され、別の分析物の中心を含む別の中心ピクセルの平均強度から導出された別のスケーリング値が、別の分析物に属し、かつそれを共同で表現する隣接ピクセルの別のピクセルグループに適用されるように、画像パッチのピクセルのピクセル強度データにピクセルグループに基づいて異なるスケーリング値をピクセル単位で適用する。一実施態様では、中心ピクセルの平均強度は、画像チャネルのうちの対応する１つのそれぞれについて決定される。一実施態様では、方法は、各画像パッチについて、そのピクセルのうちのどれが分析物を覆い、そのピクセルのうちのどれがこれらを覆わないかを識別する分析物帰属情報を生成することと、分析物帰属情報を各画像パッチ内にピクセル単位で符号化することによって入力データを構築することと、を含む。一実施態様では、分析物を覆うピクセルは、分析物帰属情報において非ゼロの値が割り当てられる。別の実施態様では、分析物を覆わないピクセルは、分析物帰属情報においてゼロの値が割り当てられる。

配列決定実行中に合成された分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、配列決定実行の一連の配列決定サイクルのために生成されたサイクルごとの画像パッチセットのシーケンスを含む入力データにアクセスすることを含む。シーケンス内の各サイクルごとの画像パッチセットは、１つ又はそれ以上の画像チャネルのそれぞれ１つのための画像パッチを有する。各画像パッチは、分析物強度を表現する分析物ピクセル及び背景強度を表現する背景ピクセルを使用して複数の分析物及びそれらの周囲背景の強度発光を表現する。各画像パッチは、分析物のうちの１つのみに対して各分析物ピクセルを分類することに基づいて選択される分析物のうちの割り当てられた分析物からの各分析物ピクセルの中心間距離を識別する分析物距離データと共に符号化される。方法は、入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、出力を生成することを含む。方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。

他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
特殊化したアーキテクチャ

互いに対してレジストレーション誤差を有する配列決定画像を使用して分析物をベースコールするネットワーク実装方法を開示する。方法は、配列決定実行の一連の配列決定サイクルのために生成されたサイクルごとの画像パッチセットのシーケンスにアクセスすることを含む。シーケンスは、サイクルごとの画像パッチセット間にわたって、及びサイクルごとの画像パッチセット内で画像パッチ間のレジストレーション誤差を有する。シーケンス内の各画像パッチは、一連内の対応する配列決定サイクルにおける対応する画像チャネル内において、ベースコールされているターゲット分析物の、いくつかの隣接する分析物の、及びそれらの周囲背景の強度情報を表現する。シーケンス内の各画像パッチは、その中心ピクセル内に位置するターゲット分析物の中心からのそのピクセルの中心の距離を識別する距離情報と共に符号化される。方法は、第１の畳み込みサブネットワークによって各サイクルごとの画像パッチセットを別個に処理して、各配列決定サイクルのための中間畳み込み表現を生成することを含み、これは、強度及び距離情報を組み合わせ、かつ結果として得られる畳み込み表現を配列決定サイクル内でのみ組み合わせ、かつ配列決定サイクル間では組み合わせない畳み込みを適用することを含む。方法は、第２の畳み込みサブネットワークによって一連内の継続的な配列決定サイクルのための中間畳み込み表現をグループ単位で処理して、一連のための最終畳み込み表現を生成することを含み、これは、中間畳み込み表現を組み合わせ、かつ結果として得られる畳み込み表現を配列決定サイクルの間で組み合わせる畳み込みを適用することを含む。方法は、最終畳み込み表現を出力層によって処理して、出力を生成することを含む。方法は、現在の配列決定サイクルにおけるターゲット分析物を出力に基づいてベースコールすることを含む。

一実施態様では、シーケンス内の各画像パッチは、複数の分析物及びそれらの周囲背景を覆うピクセルのためのピクセル強度データと、ピクセルと分析物のそれぞれとの間の中心間距離に基づいて選択される分析物のうちの最も近い分析物からの各ピクセルの中心間距離を識別するピクセル距離データと、を有する。そのような実施態様では、方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。一実施態様では、シーケンス内の各画像パッチは、分析物強度を表現する分析物ピクセル及び背景強度を表現する背景ピクセルを使用して複数の分析物及びそれらの周囲背景の強度発光を表現し、各分析物ピクセルを分析物のうちの１つのみに分類することに基づいて選択される分析物のうちの割り当てられた分析物からの各分析物ピクセルの中心間距離を識別する分析物距離データと共に符号化される。そのような実施態様では、方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。一実施態様では、方法は、第１の畳み込みサブネットワークへの入力として、ターゲット分析物及び／又は隣接する分析物の位置座標を提供することを含む。一実施態様では、方法は、第２の畳み込みサブネットワークへの入力として、ターゲット分析物及び／又は隣接する分析物の位置座標を提供することを含む。一実施態様では、方法は、出力層への入力として、ターゲット分析物及び／又は隣接する分析物の位置座標を提供することを含む。

レジストレーション誤差を有する画像データを使用して分析物をベースコールするネットワーク実装方法を開示する。方法は、配列決定実行の一連の配列決定サイクルのための入力データにアクセスすることを含む。入力データは、各配列決定サイクルのための画像テンソルを有する。各画像テンソルは、１つ又はそれ以上の画像チャネルのためのデータを有し、これには、画像チャネルごとに、ベースコールされているターゲット分析物、いくつかの隣接する分析物、及び周囲背景を覆うピクセルのためのピクセル強度データ、並びにターゲット分析物の中心からピクセルの中心までの距離のためのピクセル距離データが含まれる。入力データは、画像テンソル間にわたってのピクセル間のクロスサイクルのレジストレーション誤差と、画像テンソル内でのピクセル間のクロス画像チャネルのレジストレーション誤差と、を有する。方法は、各入力テンソルを、空間的な畳み込み層のシーケンスを有する空間的な畳み込みネットワークによって別個に処理して、各配列決定サイクルのための空間畳み込み表現を生成することを含み、これは、ピクセル強度及び距離を配列決定サイクル内でのみ組み合わせ、配列決定サイクル間では組み合わせない、第１の空間的な畳み込み層から始めることと、先行する空間的な畳み込み層の出力を一連の配列決定サイクル内の各配列決定サイクル内でのみ組み合わせ、配列決定サイクル間では組み合わせない、継続的な空間的な畳み込み層に進むことと、を含む。方法は、継続的な配列決定サイクルのための空間畳み込み表現を、時間的な畳み込み層のシーケンスを有する時間的な畳み込みネットワークによってグループ単位で処理して、これらの一連のための時間的畳み込み表現を生成することを含み、これは、空間畳み込み表現を一連の配列決定サイクル内の配列決定サイクルの間で組み合わせる第１の時間的な畳み込み層から始めることと、先行する時間的な畳み込み層の継続的な出力を組み合わせる継続的な時間的な畳み込み層に進むことと、を含む。方法は、時間的畳み込み表現を出力層によって処理して、出力を生成することを含む。方法は、現在の配列決定サイクルにおけるターゲット分析物を出力に基づいてベースコールすることを含む。

一実施態様では、グループ単位で処理することは、重複するスライディングウィンドウ内の継続的な中間畳み込み表現にわたって畳み込みを行うことを更に含む。一実施態様では、継続的な時間的な畳み込み層は、重複するスライディングウィンドウ内の継続的な出力を組み合わせる。一実施態様では、ピクセル距離データは、各画像テンソル内へのピクセル単位の符号化である。一実施態様では、シーケンス内の各画像テンソルは、複数の分析物及びそれらの周囲背景を覆うピクセルのためのピクセル強度データと、ピクセルと分析物のそれぞれとの間の中心間距離に基づいて選択される分析物のうちの最も近い分析物からの各ピクセルの中心間距離を識別するピクセル距離データと、を有する。一実施態様では、方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。一実施態様では、シーケンス内の各画像テンソルは、分析物強度を表現する分析物ピクセル及び背景強度を表現する背景ピクセルを使用して複数の分析物及びそれらの周囲背景の強度発光を表現し、各分析物ピクセルを分析物のうちの１つのみに分類することに基づいて選択される分析物のうちの割り当てられた分析物からの各分析物ピクセルの中心間距離を識別する分析物距離データと共に符号化される。一実施態様では、方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。一実施態様では、方法は、第１の畳み込みサブネットワークへの入力として、ターゲット分析物及び／又は隣接する分析物の位置座標を提供することを含む。一実施態様では、方法は、第２の畳み込みサブネットワークへの入力として、ターゲット分析物及び／又は隣接する分析物の位置座標を提供することを含む。一実施態様では、方法は、出力層への入力として、ターゲット分析物及び／又は隣接する分析物の位置座標を提供することを含む。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
リフレーム

配列決定実行中に合成された分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、配列決定実行の一連の配列決定サイクルのために生成されたサイクルごとの画像パッチセットのシーケンスにアクセスすることを含む。シーケンス内の各サイクルごとの画像パッチセットは、１つ又はそれ以上の画像チャネルのそれぞれ１つのための画像パッチを有する。各画像パッチは、ベースコールされているターゲット分析物、いくつかの隣接する分析物、及び周囲背景を覆うピクセルのためのピクセル強度データを有する。方法は、各画像パッチのピクセルをリフレームして、ターゲット分析物の中心を中心ピクセルの中心に配置することを含む。方法は、リフレームされた画像パッチを畳み込みニューラルネットワークによって畳み込んで、リフレームされた画像パッチの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、出力を生成することを含む。方法は、現在の配列決定サイクルにおけるターゲット分析物を出力に基づいてベースコールすることを含む。

一実施態様では、リフレームすることは、リフレームすることを補正するための各画像パッチのピクセルの強度補間を更に含む。一実施態様では、強度補間は、最近傍強度抽出、ガウシアンベースの強度抽出、２ｘ２サブピクセル領域の平均に基づく強度抽出、２ｘ２サブピクセル領域の最大輝度に基づく強度抽出、３ｘ３サブピクセル領域の平均に基づく強度抽出、バイリニア強度抽出、バイキュービック強度抽出、及び／又は重み付け面積カバー率に基づく強度抽出のうちの少なくとも１つを更に含む。一実施態様では、リフレームする前に、ターゲット分析物の中心は、各画像パッチの中心ピクセル内で中心ピクセルの中心から外れた位置にある。一実施態様では、リフレームすることは、各画像パッチの非中心ピクセルが、ターゲット分析物のそれぞれの中心から等距離であることを必要とすることを更に含む。一実施態様では、シーケンス内の各画像パッチは、複数の分析物及びそれらの周囲背景を表現するピクセルのためのピクセル強度データと、ピクセルと分析物のそれぞれとの間の中心間距離に基づいて選択される分析物のうちの最も近い分析物からの各ピクセルの中心間距離を識別するピクセル距離データと、を有する。一実施態様では、方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。一実施態様では、シーケンス内の各画像パッチは、分析物強度を表現する分析物ピクセル及び背景強度を表現する背景ピクセルを使用して複数の分析物及びそれらの周囲背景の強度発光を表現し、各分析物ピクセルを分析物のうちの１つのみに分類することに基づいて選択される分析物のうちの割り当てられた分析物からの各分析物ピクセルの中心間距離を識別する分析物距離データと共に符号化される。一実施態様では、方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。一実施態様では、方法は、第１の畳み込みサブネットワークへの入力として、ターゲット分析物及び／又は隣接する分析物の位置座標を提供することを含む。一実施態様では、方法は、第２の畳み込みサブネットワークへの入力として、ターゲット分析物及び／又は隣接する分析物の位置座標を提供することを含む。一実施態様では、方法は、出力層への入力として、ターゲット分析物及び／又は隣接する分析物の位置座標を提供することを含む。

フローセル上の分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、フローセル上の分析物を合成する配列決定実行の複数の配列決定サイクルにわたって生成された画像セットのシーケンスにアクセスすることを含む。画像セットのシーケンス内の各画像は、フローセルの非重複領域を覆い、複数の配列決定サイクルのうちのそれぞれ１つにおける対応する画像チャネル内に捕捉された非重複領域上の分析物のサブセット及びそれらの周囲背景の強度発光を表現する。方法は、複数の配列決定サイクルのうちの特定の１つにおける分析物のサブセットのうちの特定の１つに組み込まれたヌクレオチド塩基（Ａ、Ｃ、Ｔ、又はＧ）を、画像セットのシーケンスから、複数の配列決定サイクルのうちの特定の１つにおいて生成された現在の画像セット、複数の配列決定サイクルのうちの特定の１つに先行する複数のシーケンスサイクルのうちの１つ又はそれ以上においてそれぞれ生成された１つ又はそれ以上の先行する画像セット、及び複数の配列決定サイクルのうちの特定の１つの後に続く複数の配列決定サイクルのうちの１つ又はそれ以上においてそれぞれ生成された１つ又はそれ以上の後続の画像セットを選択することによって決定することを含む。方法は、選択された画像セットのそれぞれの中の画像から画像パッチを抽出することを含む。画像パッチは、分析物のサブセットのうちの特定の１つを中心とし、分析物のサブセットからの追加の隣接する分析物を含む。方法は、画像パッチを畳み込みニューラルネットワークの１つ又はそれ以上の層によって畳み込んで、画像パッチの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、ヌクレオチド塩基がＡ、Ｃ、Ｔ、及びＧであることの尤度を生成することを含む。方法は、これらの尤度に基づいてヌクレオチド塩基をＡ、Ｃ、Ｔ、又はＧとして分類することを含む。

一実施態様では、方法は、複数の配列決定サイクルのそれぞれについて選択すること、抽出すること、畳み込むこと、処理すること、及び分類することを反復することによって複数の配列決定サイクルにわたって分析物のサブセットのうちの特定の１つのためのベースコールの配列を生成することを含む。一実施態様では、方法は、サブセット内の複数の分析物のそれぞれのために複数の配列決定サイクルのそれぞれについて選択すること、抽出すること、畳み込むこと、処理すること、及び分類することを反復することによって複数の配列決定サイクルにわたってサブセット内の複数の分析物のためのベースコールの配列を生成することを含む。一実施態様では、フローセルの非重複領域はタイルである。一実施態様では、対応する画像チャネルは、複数のフィルタ波長帯域のうちの１つである。一実施態様では、対応する画像チャネルは、複数の画像イベントのうちの１つである。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
複数のサイクルにおける複数のクラスターの同時ベースコール

フローセル上の分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、画像セットのシーケンスから入力画像データを取得することを含む。画像セットのシーケンスは、フローセル上の分析物を合成する配列決定実行の複数の配列決定サイクルにわたって生成される。画像セットのシーケンス内の各画像は、フローセルの非重複領域を覆い、複数の配列決定サイクルのうちのそれぞれ１つにおける対応する画像チャネル内に捕捉された非重複領域上の分析物のサブセット及びそれらの周囲背景の強度発光を表現する。方法は、入力画像データをニューラルネットワークの１つ又はそれ以上の層によって処理して、入力画像データの代替表現を生成することを含む。方法は、代替表現を出力層によって処理して、複数の配列決定サイクルのそれぞれのそれぞれにおけるサブセット内の分析物のうちの少なくともいくつかに組み込まれたヌクレオチド塩基（Ａ、Ｃ、Ｔ、又はＧ）を識別する出力を生成し、それによって、複数の配列決定サイクルにわたってサブセット内の分析物のうちの少なくともいくつかのためのベースコールの配列を生成することを含む。

一実施態様では、出力層はソフトマックス層であり、出力は、複数の配列決定サイクルのそれぞれにおいてサブセット内の分析物のうちの少なくともいくつかのそれぞれに組み込まれたヌクレオチド塩基がＡ、Ｃ、Ｔ、及びＧであることの指数関数的に正規化されたスコア分布である。一実施態様では、入力画像データは、画像セットのシーケンス内の画像を含む。一実施態様では、入力画像データは、画像セットのシーケンス内の画像のそれぞれからの少なくとも１つの画像パッチを含む。一実施態様では、ニューラルネットワークは、畳み込みニューラルネットワークである。別の実施態様では、ニューラルネットワークは、残差ニューラルネットワークである。更に別の実施態様では、ニューラルネットワークは、反復ニューラルネットワークである。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
反復畳み込みベースのベースコール

ベースコールするためのニューラルネットワークベースのシステムを開示する。システムは、反復モジュール及び畳み込みモジュールを有するハイブリッドニューラルネットワークを含む。反復モジュールは、畳み込みモジュールからの入力を使用する。畳み込みモジュールは、配列決定実行の一連の配列決定サイクルのための画像データを１つ又はそれ以上の畳み込み層によって処理し、画像データの１つ又はそれ以上の畳み込み表現を生成する。画像データは、１つ又はそれ以上の分析物及びそれらの周囲背景の強度発光を表現する。反復モジュールは、畳み込み表現及び前の隠れ状態表現を畳み込むことに基づいて現在の隠れ状態表現を生成する。出力モジュールは、現在の隠れ状態表現に基づいて、分析物のうちの少なくとも１つのための、かつ配列決定サイクルのうちの少なくとも１つのためのベースコールを生成する。

ベースコールするニューラルネットワーク実装方法を開示する。方法は、サイクルごとの入力データのシーケンス内の各サイクルごとの入力データを畳み込みニューラルネットワークの畳み込み層のカスケードによって別個に処理することを含む。サイクルごとの入力データのシーケンスは、配列決定実行の一連の配列決定サイクルのために生成され、各サイクルごとの入力データは、それぞれの配列決定サイクルにおいて捕捉された１つ又はそれ以上の分析物及びそれらの周囲背景の強度発光を表現する画像チャネルを含む。方法は、各配列決定サイクルについて、別個に処理することに基づいて、畳み込み層のそれぞれにおいて畳み込み表現を生成し、それによって畳み込み表現のシーケンスを生成することと、そのサイクルごとの入力データをその対応する畳み込み表現のシーケンスと混合し、混合表現を生成することと、その混合表現を平坦化し、平坦化された混合表現を生成することと、を含む。方法は、継続的な配列決定サイクルの平坦化された混合表現をスタックとして配列することを含む。方法は、スタック内の平坦化された混合表現のサブセットにわたってスライディングウィンドウに基づいて畳み込みを行い（各スライディングウィンドウはそれぞれの配列決定サイクルに対応する）、（ｉ）スタック上の現在のスライディングウィンドウ内の平坦化された混合表現のサブセット及び（ｉｉ）前の隠れ状態表現に基づいて、各配列決定サイクルのための各時間ステップにおける現在の隠れ状態表現を継続的に生成する反復ニューラルネットワークによって、スタックを順方向及び逆方向に処理することを含む。方法は、スタックを順方向及び逆方向に処理することの結果に基づいて、配列決定サイクルのそれぞれにおける分析物のそれぞれをベースコールすることを含む。反復ニューラルネットワークは、ＬＳＴＭ及びＧＲＵなど、ゲート付き反復ニューラルネットワークとすることができる。

方法は、所与の配列決定サイクルの順方向及び逆方向の現在の隠れ状態表現を時間ステップに基づいて組み合わせ、組み合わせられた隠れ状態表現を生成すること、組み合わせられた隠れ状態表現を１つ又はそれ以上の全結合ネットワークによって処理し、高密度表現を生成すること、高密度表現をソフトマックス層によって処理して、所与の配列決定サイクルにおける分析物のそれぞれに組み込まれた塩基がＡ、Ｃ、Ｔ、及びＧであることの尤度を生成すること、並びにこれらの尤度に基づいて塩基をＡ、Ｃ、Ｔ、又はＧとして分類することによって、所与の配列決定サイクルにおける分析物のそれぞれをベースコールすることを含む。一実施態様では、組み合わせることは連結を含む。別の実施態様では、組み合わせることは総和を含む。更に別の実施態様では、組み合わせることは平均化を含む。

一実施態様では、各サイクルごとの入力データは、画像チャネルを補足し、対応する画像チャネル内のピクセルと１つ又はそれ以上の分析物中心との間の中心間距離を含む、距離チャネルを含む。一実施態様では、各サイクルごとの入力データは、画像チャネルを補足し、画像チャネル内の１つ又はそれ以上のピクセルの平均強度に基づいたスケーリング値を含む、スケーリングチャネルを含む。一実施態様では、混合することは、畳み込み表現及びサイクルごとの入力データを連結することを更に含む。一実施態様では、混合することは、畳み込み表現及びサイクルごとの入力データの総和をとることを更に含む。一実施態様では、平坦化された混合表現は二次元アレイである。一実施態様では、平坦化された混合表現のサブセットは、三次元体積である。一実施態様では、反復ニューラルネットワークは、三次元畳み込みを三次元体積に適用する。一実施態様では、三次元畳み込みは、ＳＡＭＥパディングを使用する。一実施態様では、畳み込み層は、ＳＡＭＥパディングを使用する。一実施態様では、反復ニューラルネットワークは、入力ゲート、活性化ゲート、忘却ゲート、及び出力ゲートを含む長・短期記憶（ＬＳＴＭ）ネットワークである。そのような実施態様では、方法は、（ｉ）スタック上の現在のスライディングウィンドウ内の平坦化された混合表現のサブセット及び（ｉｉ）前の隠れ状態表現を、入力ゲート、活性化ゲート、忘却ゲート、及び出力ゲートによって処理することと、各配列決定サイクルのための各時間ステップにおける現在の隠れ状態表現を生成することと、を含む。入力ゲート、活性化ゲート、忘却ゲート、及び出力ゲートは、（ｉ）スタック上の現在のスライディングウィンドウ内の平坦化された混合表現のサブセット及び（ｉｉ）前の隠れ状態表現に畳み込みを適用する。

一実施態様では、ベースコールするニューラルネットワーク実装方法は、配列決定実行の一連の配列決定サイクルのための画像データを畳み込みモジュールの１つ又はそれ以上の畳み込み層によって畳み込むことと、画像データの１つ又はそれ以上の畳み込み表現を生成することとを含む。画像データは、１つ又はそれ以上の分析物及びそれらの周囲背景の強度発光を表現する。方法は、畳み込み表現及び前の隠れ状態表現を反復モジュールによって畳み込むことと、現在の隠れ状態表現を生成することとを含む。方法は、現在の隠れ状態表現を出力モジュールによって処理することと、分析物のうちの少なくとも１つのための、かつ配列決定サイクルのうちの少なくとも１つのためのベースコールを生成することとを含む。

他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
品質スコアの推論

ニューラルネットワークベースのベースコーラーによってコールされた塩基に品質スコアを割り当てるコンピュータ実装方法を開示する。方法は、訓練中に訓練データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成される予測されたベースコールの分類スコアを量子化することを含む。方法は、量子化された分類スコアのセットを選択することを含む。方法は、セット内の各量子化された分類スコアについて、その予測されたベースコールを対応するグラウンドトゥルースベースコールと比較することによって、ベースコール誤り率を決定することを含む。方法は、量子化された分類スコアとそれらのベースコール誤り率との間の適合を決定することを含む。すなわち、各量子化された分類スコアについて、その量子化された分類スコアが割り当てられている訓練データ内の訓練実施例のセットが決定される。決定された訓練実施例のセット内の各訓練実施例について、訓練実施例のための予測されたベースコールが、訓練実施例のためのグラウンドトゥルースベースコールと比較され、誤り率が、決定された訓練実施例のセットにわたる比較から決定されて、特定の量子化された分類スコアのための誤り率を提供する。方法は、適合に基づいて、品質スコアを量子化された分類スコアに相関させることを含む。

一実施態様では、量子化された分類スコアのセットは、訓練中に訓練データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成される予測されたベースコールの分類スコアのサブセットを含み、分類スコアは実数である。一実施態様では、量子化された分類スコアのセットは、訓練中に訓練データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成される予測されたベースコールの全ての分類スコアを含み、分類スコアは実数である。一実施態様では、分類スコアは、合計すると１になり、かつニューラルネットワークベースのベースコーラーのソフトマックス出力層によって生成される、指数関数的に正規化されたソフトマックススコアである。一実施態様では、量子化された分類スコアのセットは、

として定義され、ソフトマックススコアに適用される選択式に基づいて選択される。一実施態様では、量子化された分類スコアのセットは、

として定義され、ソフトマックススコアに適用される選択式に基づいて選択される。一実施態様では、方法は、相関に基づいて、推論中にニューラルネットワークベースのベースコーラーによってコールされた塩基に品質スコアを割り当てることを含む。一実施態様では、方法は、推論中にニューラルネットワークベースのベースコーラーによってコールされた塩基に品質スコア対応スキームを適用することに基づいて品質スコアを割り当てることを含む。そのような実施態様では、スキームは、推論中に、推論データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成された、分類スコアの範囲を、セット内の対応する量子化された分類スコアにマッピングする。一実施態様では、方法は、推論中に、品質スコアが現在のベースコールサイクルのための設定閾値を下回っている分析物をベースコールすることを中止することを含む。一実施態様では、方法は、推論中に、平均品質スコアが継続的なベースコールサイクルの後に設定閾値を下回っている分析物をベースコールすることを中止することを含む。一実施態様では、予測されたベースコールを対応するグラウンドトゥルースベースコールと比較するために使用されるサンプルサイズは、各量子化された分類スコアに固有である。一実施態様では、予測されたベースコールを対応するグラウンドトゥルースベースコールと比較するために使用されるサンプルサイズは、各量子化された分類スコアに固有である。一実施態様では、適合は、回帰モデルを使用して決定される。一実施態様では、方法は、各量子化された分類スコアについて、その予測されたベースコールを対応するグラウンドトゥルースベースコールと比較することによってベースコール精度率を決定することと、量子化された分類スコアとそれらのベースコール精度率との間の適合を決定することとを含む。一実施態様では、対応するグラウンドトゥルースベースコールは、複数の配列決定器具、配列決定ケミストリー、及び配列決定プロトコル上で配列決定された十分に特徴付けられたヒト及び非ヒトサンプルから導出される。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
品質スコアの予測

並列に動作し、メモリに連結されている多数のプロセッサ上で実行されるニューラルネットワークベースの品質スコアラーを開示する。システムは、多数のプロセッサ上で実行される畳み込みニューラルネットワークを含む。畳み込みニューラルネットワークは、配列決定画像からのデータを含む訓練実施例上で訓練され、畳み込みニューラルネットワークのベースコール品質予測をベースコール品質グラウンドトゥルースと漸進的に一致させる逆伝播ベースの勾配更新技術を使用してベースコール品質グラウンドトゥルースでラベル付けされる。システムは、多数のプロセッサのうちの少なくとも１つの上で実行され、１つ又はそれ以上の配列決定サイクルにおいて捕捉された配列決定画像からのデータを、１つ又はそれ以上の分析物のためにコールされた１つ又はそれ以上の塩基の品質状態を判定するための畳み込みニューラルネットワークに供給する、畳み込みニューラルネットワークの入力モジュールを含む。システムは、多数のプロセッサのうちの少なくとも１つの上で実行され、畳み込みニューラルネットワークによる分析を１つ又はそれ以上の分析物のためにコールされた１つ又はそれ以上の塩基の品質状態を識別する出力に変換する、畳み込みニューラルネットワークの出力モジュールを含む。

一実施態様では、出力モジュールは、高品質、中品質、及び低品質である品質状態の尤度を生成するソフトマックス分類層を更に含む。そのような実施態様では、これらの尤度に基づいて、品質状態は、高品質、中質、又は低品質として分類される。一実施態様では、ソフトマックス分類層は、複数の品質スコアが割り当てられている品質状態について尤度を生成する。そのような実施態様では、これらの尤度に基づいて、品質状態は、複数の品質スコアのうちの１つから品質スコアが割り当てられる。一実施態様では、品質スコアは、ベースコール誤り確率に対数的に基づいており、複数の品質スコアは、Ｑ６、Ｑ１０、Ｑ４３、Ｑ２０、Ｑ２２、Ｑ２７、Ｑ３０、Ｑ３３、Ｑ３７、Ｑ４０、及びＱ５０を含む。一実施態様では、出力モジュールは、品質状態を識別する連続的な値を生成する回帰層を更に含む。一実施態様では、システムは、配列決定画像からのデータをコールされた塩基のための品質予測子値で補足し、品質予測子値を配列決定画像からのデータと共に畳み込みニューラルネットワークに供給する、補足的な入力モジュールを含む。一実施態様では、品質予測子値としては、オンライン重複、純度、フェージング、開始５、６量体スコア、モチーフ蓄積、エンジネス、近似的なホモポリマー、強度減衰、最後から２番目のチャステティ、背景との信号重複（ＳＯＷＢ）、及び／又はシフトされた純度Ｇ調整が挙げられる。一実施態様では、品質予測子値としては、ピーク高さ、ピーク幅、ピーク位置、相対ピーク位置、ピーク高さ比、ピーク間隔比、及び／又はピーク対応が挙げられる。

品質スコアリングするニューラルネットワーク実装方法も開示する。方法は、１つ又はそれ以上の配列決定サイクルにおいて捕捉された配列決定画像からのデータを、１つ又はそれ以上の分析物のためにコールされた１つ又はそれ以上の塩基の品質状態を判定するための畳み込みニューラルネットワークに供給することを含む。畳み込みニューラルネットワークは、配列決定画像からのデータを含む訓練実施例上で訓練され、ベースコール品質グラウンドトゥルースでラベル付けされる。訓練することは、畳み込みニューラルネットワークのベースコール品質予測をベースコール品質グラウンドトゥルースと漸進的に一致させる逆伝播ベースの勾配更新技術を使用することを含む。方法は、畳み込みニューラルネットワークによる分析を、１つ又はそれ以上の分析物のためにコールされた１つ又はそれ以上の塩基の品質状態を識別する出力に変換することを含む。

一実施態様では、コンピュータ実装方法は、１つ又はそれ以上の分析物のための入力データをニューラルネットワークによって処理し、入力データの代替表現を生成することと、代替表現を出力層によって処理して出力を生成することであって、出力は、分析物のうちの特定の１つに組み込まれた塩基がＡ、Ｃ、Ｔ、及びＧであることの尤度を識別する、ことと、出力に基づいて、分析物のうちの１つ又はそれ以上に対して塩基をコールすることと、出力によって識別された尤度に基づいて、コールされた塩基の品質を判定することと、を含む。

他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。

ニューラルネットワークベースの品質スコアラーを開示し、このニューラルネットワークベースの品質スコアラーは、並列に動作し、かつメモリに連結されている、多数のプロセッサ上で実行される。システムは、多数のプロセッサ上で実行され、配列決定画像からのデータを含む訓練実施例上で訓練され、ニューラルネットワークのベースコール品質予測をベースコール品質グラウンドトゥルースと漸進的に一致させる逆伝播ベースの勾配更新技術を使用してベースコール品質グラウンドトゥルースでラベル付けされる、ニューラルネットワークを含む。システムは、多数のプロセッサのうちの少なくとも１つの上で実行され、１つ又はそれ以上の配列決定サイクルにおいて捕捉された配列決定画像からのデータを、１つ又はそれ以上の分析物のためにコールされた１つ又はそれ以上の塩基の品質状態を判定するためのニューラルネットワークに供給する、ニューラルネットワークの入力モジュールを含む。システムは、多数のプロセッサのうちの少なくとも１つの上で実行され、ニューラルネットワークによる分析を１つ又はそれ以上の分析物のためにコールされた１つ又はそれ以上の塩基の品質状態を識別する出力に変換する、ニューラルネットワークの出力モジュールを含む。

他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
項目

本開示はまた、以下の項目も含む。
項目セット１
１．コンピュータ実装方法であって、
入力データをニューラルネットワークによって処理し、入力データの代替表現を生成することであって、入力データは、配列決定実行の１つ又はそれ以上の配列決定サイクルのそれぞれのためのサイクルごとのデータを含み、サイクルごとのデータは、それぞれの配列決定サイクルにおける１つ又はそれ以上の分析物を示している、ことと、
代替表現を出力層によって処理し、出力を生成することと、
出力に基づいて、配列決定サイクルのうちの１つ又はそれ以上における分析物のうちの１つ又はそれ以上をベースコールすることと、を含む、コンピュータ実装方法。
２．サイクルごとのデータが、それぞれの配列決定サイクルにおける周囲背景を示している、項目１に記載のニューラルネットワーク実装方法。
３．入力データが画像データであり、サイクルごとのデータが、それぞれの配列決定サイクルにおいて捕捉された１つ又はそれ以上の分析物及び周囲背景を示している強度発光を含む、項目１～２のいずれか一項に記載のニューラルネットワーク実装方法。
４．サイクルごとのデータのピクセルと、分析物のうちの１つ又はそれ以上を示している強度発光を表現するそれらのピクセルとの間の距離を識別する補足的な距離情報をサイクルごとのデータに添付することを更に含む、項目３に記載のコンピュータ実装方法。
５．サイクルごとのデータのピクセルにスケーリング値を割り当てる補足的なスケーリング情報をサイクルごとのデータに添付することを更に含む、項目３に記載のコンピュータ実装方法。
６．サイクルごとのデータが、それぞれの配列決定サイクルにおいて検出された電圧変化を示している、項目１に記載のニューラルネットワーク実装方法。
７．サイクルごとのデータが、それぞれの配列決定サイクルにおいて測定された電流信号を示している、項目１に記載のニューラルネットワーク実装方法。
８．複数の配列決定サイクルを含む配列決定実行中に合成された分析物をベースコールするニューラルネットワーク実装方法であって、この方法は、
入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することであって、
入力データが、配列決定実行の現在の配列決定サイクルにおいて生成された現在の画像セットの、現在の配列決定サイクルに先行する配列決定実行の１つ又はそれ以上の配列決定サイクルにおいてそれぞれ生成された１つ又はそれ以上の先行する画像セットの、及び現在の配列決定サイクルの後に続く配列決定実行の１つ又はそれ以上の配列決定サイクルにおいてそれぞれ生成された１つ又はそれ以上の後続の画像セットのそれぞれで１つ又はそれ以上の画像から抽出された画像パッチを含み、
画像パッチのそれぞれが、ベースコールされているターゲット分析物の強度発光を表現し、
入力データが、画像パッチの中心ピクセルからの画像パッチのピクセルのそれぞれの距離を示す距離情報を更に含む、ことと、
畳み込み表現を出力層によって処理して、出力を生成することと、
現在の配列決定サイクルにおけるターゲット分析物を出力に基づいてベースコールすることと、を含む、ニューラルネットワーク実装方法。
９．
畳み込みニューラルネットワークへの入力としてそれぞれの分析物を表す画像領域の中心の位置座標を提供することを更に含み、
入力が、畳み込みニューラルネットワークの第１の層に提供され、
入力が、畳み込みニューラルネットワークの１つ又はそれ以上の中間層に提供され、
入力が、畳み込みニューラルネットワークの最終層に提供される、項目８に記載のニューラルネットワーク実装方法。
１０．
畳み込みニューラルネットワークへの入力として、画像パッチのピクセルに対応するスケーリング値を有する強度スケーリングチャネルを提供することを更に含み、
スケーリング値が、特定のターゲット分析物をそれぞれ含む画像パッチの中心ピクセルの平均強度に基づいている、項目８～９のいずれか一項に記載のニューラルネットワーク実装方法。
１１．強度スケーリングチャネルが、画像パッチの全てのピクセルについてピクセル単位で同じスケーリング値を含む、項目８～１０のいずれか一項に記載のニューラルネットワーク実装方法。
１２．各画像パッチが、それぞれのピクセルと複数の分析物のうちの最も近い分析物との間の距離を示すピクセル距離データを更に含み、複数の分析物のうちの最も近い分析物は、ピクセルと分析物のそれぞれとの間の中心間距離に基づいて選択される、項目８に記載のニューラルネットワーク実装方法。
１３．各画像パッチが、分析物のうちの１つのみに対して各分析物ピクセルを分類することに基づいて選択された複数の分析物のうちの割り当てられた分析物からの各分析物ピクセルの距離を識別する分析物距離データを更に含む、項目８に記載のニューラルネットワーク実装方法。
１４．入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することが、
畳み込みニューラルネットワークの第１の畳み込みサブネットワークによって各サイクルごとの画像パッチセットを別個に処理して、各配列決定サイクルのための中間畳み込み表現を生成することであって、強度及び距離情報を組み合わせ、かつ結果として得られる畳み込み表現を配列決定サイクル内でのみ組み合わせ、かつ配列決定サイクル間では組み合わせない畳み込みを適用することを含む、ことと、
畳み込みニューラルネットワークの第２の畳み込みサブネットワークによって一連内の継続的な配列決定サイクルのための中間畳み込み表現をグループ単位で処理して、一連のための最終畳み込み表現を生成することであって、中間畳み込み表現を組み合わせ、かつ結果として得られる畳み込み表現を配列決定サイクルの間で組み合わせる畳み込みを適用することを含む、ことと、を含み、
出力層によって畳み込み表現を処理して出力を生成することが、出力層によって最終畳み込み表現を処理することを含む、項目８～１３のいずれか一項に記載のニューラルネットワーク実装方法。
１５．ターゲット分析物の中心を中心ピクセルの中心に配置するように各画像パッチのピクセルをリフレームして、リフレームされた画像パッチを生成することを更に含み、
入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することが、リフレームされた画像パッチを畳み込みニューラルネットワークによって畳み込んで、畳み込み表現を生成することを含む、項目８～１４のいずれか一項に記載のニューラルネットワーク実装方法。
１６．リフレームすることが、リフレームすることを補正するための各画像パッチのピクセルの強度補間を更に含む、項目１５に記載のニューラルネットワーク実装方法。
１７．ベースコールするニューラルネットワーク実装方法であって、この方法は、
サイクルごとの入力データのシーケンス内の各サイクルごとの入力データを畳み込みニューラルネットワークの畳み込み層のカスケードによって別個に処理することであって、
サイクルごとの入力データのシーケンスが、配列決定実行の一連の配列決定サイクルのために生成され、
各サイクルごとの入力データが、それぞれの配列決定サイクルにおいて捕捉された１つ又はそれ以上の分析物及びそれらの周囲背景の強度発光を表現する画像チャネルを含む、ことと、
各配列決定サイクルに対して、
別個に処理することに基づいて、畳み込み層のそれぞれにおいて畳み込み表現を生成し、それによって畳み込み表現のシーケンスを生成することと、
そのサイクルごとの入力データをその対応する畳み込み表現のシーケンスと混合し、混合表現を生成することと、
その混合表現を平坦化し、平坦化された混合表現を生成することと、を行うことと、
継続的な配列決定サイクルの平坦化された混合表現をスタックとして配列することと、
スタックを反復ニューラルネットワークによって順方向及び逆方向に処理することであって、この反復ニューラルネットワークが、
スライディングウィンドウに基づいたスタック内の平坦化された混合表現のサブセットにわたって畳み込みを行うことであって、各スライディングウィンドウがそれぞれの配列決定サイクルに対応する、ことと、
（ｉ）スタック上の現在のスライディングウィンドウ内の平坦化された混合表現のサブセット及び（ｉｉ）前の隠れ状態表現に基づいて、各配列決定サイクルのための各時間ステップにおける現在の隠れ状態表現を継続的に生成することと、を行う、ことと、
スタックを順方向及び逆方向に処理することの結果に基づいて、配列決定サイクルのそれぞれにおける分析物のそれぞれをベースコールすることと、を含む、ニューラルネットワーク実装方法。
１８．
所与の配列決定サイクルにおける分析物のそれぞれを、
所与の配列決定サイクルの順方向及び逆方向の現在の隠れ状態表現を時間ステップに基づいて組み合わせ、組み合わせられた隠れ状態表現を生成することであって、組み合わせることが、連結又は総和又は平均化を含む、ことと、
組み合わせられた隠れ状態表現を１つ又はそれ以上の全結合ネットワークによって処理し、高密度表現を生成することと、
高密度表現をソフトマックス層によって処理して、所与の配列決定サイクルにおける分析物のそれぞれに組み込まれた塩基がＡ、Ｃ、Ｔ、及びＧであることの尤度を生成することと、
尤度に基づいて塩基をＡ、Ｃ、Ｔ、又はＧとして分類することと、によってベースコールすることを更に含む、項目１７に記載のニューラルネットワーク実装方法。
１９．ベースコールするためのニューラルネットワークベースのシステムであって、システムは、
反復モジュール及び畳み込みモジュールを有するハイブリッドニューラルネットワークであって、反復モジュールが、畳み込みモジュールからの入力を使用する、ハイブリッドニューラルネットワークと、
配列決定実行の一連の配列決定サイクルのための画像データを１つ又はそれ以上の畳み込み層によって処理し、画像データの１つ又はそれ以上の畳み込み表現を生成する畳み込みモジュールであって、画像データが、１つ又はそれ以上の分析物及びそれらの周囲背景の強度発光を表現する、畳み込みモジュールと、
畳み込み表現及び前の隠れ状態表現を畳み込むことに基づいて現在の隠れ状態表現を生成する反復モジュールと、
現在の隠れ状態表現に基づいて、分析物のうちの少なくとも１つのための、かつ配列決定サイクルのうちの少なくとも１つのためのベースコールを生成する出力モジュールと、を備える、ニューラルネットワークベースのシステム。
２０．クラスターをベースコールするコンピュータ実装方法であって、
入力データをニューラルネットワークによって処理し、入力データの代替表現を生成することであって、
入力データが、（ｉ）配列決定実行の１つ又はそれ以上の配列決定サイクルのそれぞれのためのサイクルごとのデータと、（ｉｉ）補足的な距離情報と、を含み、
サイクルごとのデータが、配列決定サイクルのうちのそれぞれ１つにおいて捕捉された１つ又はそれ以上のクラスター及びその周囲背景を示している強度発光を表現するピクセルを含み、
サイクルごとのデータが、サイクルごとのデータのピクセル間の距離を識別する補足的な距離情報を伴い、
ニューラルネットワークによるサイクルごとのデータのピクセルの処理中に、補足的な距離情報が、サイクルごとのデータのピクセルのうちのどれがクラスターの中心を含んでいるか、及びサイクルごとのデータのピクセルのうちのどれがクラスターの中心からより遠く離れているかをニューラルネットワークに伝える加法的バイアスを供給する、ことと、
代替表現を出力層によって処理し、出力を生成することと、
出力に基づいて、配列決定サイクルのうちの１つ又はそれ以上におけるクラスターのうちの１つ又はそれ以上をベースコールすることと、を含む、コンピュータ実装方法。
２１．加法的バイアスが、ベースコールすることの精度を改善する、項目２０に記載のコンピュータ実装方法。
２２．ニューラルネットワークが、周辺クラスターピクセル、背景ピクセル、及びそれらから導出される代替表現よりも、中央クラスターピクセル、それらの隣接ピクセル、及びそれらから導出される代替表現に着目することによって配列決定信号をその適切なソースクラスターに割り当てるために、補足的な距離情報を使用する、項目２１に記載のコンピュータ実装方法。
２３．クラスターをベースコールするコンピュータ実装方法であって、
入力データをニューラルネットワークによって処理し、入力データの代替表現を生成することであって、入力データが、
（ｉ）配列決定実行の１つ又はそれ以上の配列決定サイクルのそれぞれについてのサイクルごとのデータであって、配列決定サイクルのうちのそれぞれ１つにおける１つ又はそれ以上のクラスターを示している強度発光を表現するピクセルを含む、サイクルごとのデータと、
（ｉｉ）サイクルごとのデータのピクセル間の距離を識別する補足的な距離情報と、を含み、
ニューラルネットワークによるサイクルごとのデータのピクセルの処理中に、補足的な距離情報が、サイクルごとのデータに付随し、サイクルごとのデータのピクセルのうちのどれがクラスターの中心を含んでいるか、及びサイクルごとのデータのピクセルのうちのどれがクラスターの中心からより遠く離れているかをニューラルネットワークに伝える、ことと、
代替表現を出力層によって処理し、出力を生成することと、
出力に基づいて、配列決定サイクルのうちの１つ又はそれ以上におけるクラスターのうちの１つ又はそれ以上をベースコールすることと、を含む、コンピュータ実装方法。
２４．補足的な距離情報が、ベースコールすることの精度を改善する、項目１に記載のコンピュータ実装方法。
２５．ニューラルネットワークが、周辺クラスターピクセル、背景ピクセル、及びそれらから導出される代替表現よりも、中央クラスターピクセル、それらの隣接ピクセル、及びそれらから導出される代替表現に着目することによって配列決定信号をその適切なソースクラスターに割り当てるために、補足的な距離情報を使用する、請求項２４に記載のコンピュータ実装方法。
項目セット２
１．コンピュータ実装方法であって、
１つ又はそれ以上の分析物のための入力データをニューラルネットワークベースのベースコーラーによって処理し、入力データの代替表現を生成することと、
代替表現を出力層によって処理して出力を生成することであって、出力は、分析物のうちの特定の１つに組み込まれた塩基がＡ、Ｃ、Ｔ、及びＧであることの尤度を識別する、ことと、
出力に基づいて、分析物のうちの１つ又はそれ以上に対して塩基をコールすることと、
出力によって識別された尤度に基づいて、コールされた塩基の品質スコアを判定することと、を含む、コンピュータ実装方法。
２．尤度に基づいて、コールされた塩基の品質スコアを判定することが、
訓練中に訓練データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成されるベースコールの分類スコアを量子化することと、
量子化された分類スコアのセットを選択することと、
セット内の各量子化された分類スコアについて、その予測されたベースコールを対応するグラウンドトゥルースベースコールと比較することによって、ベースコール誤り率を決定することと、
量子化された分類スコアとそれらのベースコール誤り率との間の適合を決定することと、
適合に基づいて、品質スコアを量子化された分類スコアに相関させることと、を含む、項目１に記載のコンピュータ実装方法。
３．量子化された分類スコアのセットが、訓練中に訓練データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成される予測されたベースコールの分類スコアのサブセットを含み、
分類スコアが実数である、項目１～２のいずれか一項に記載のコンピュータ実装方法。
４．量子化された分類スコアのセットが、訓練中に訓練データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成される予測されたベースコールの全ての分類スコアを含み、
分類スコアが実数である、項目１～３のいずれか一項に記載のコンピュータ実装方法。
５．分類スコアが、合計すると１になり、かつニューラルネットワークベースのベースコーラーのソフトマックス出力層によって生成される、指数関数的に正規化されたソフトマックススコアである、項目１～４のいずれか一項に記載のコンピュータ実装方法。
６．量子化された分類スコアのセットが、

として定義され、ソフトマックススコアに適用される選択式に基づいて選択される、項目１～５のいずれか一項に記載のコンピュータ実装方法。
７．量子化された分類スコアのセットが、

として定義され、ソフトマックススコアに適用される選択式に基づいて選択される、項目１～６のいずれか一項に記載のコンピュータ実装方法。
８．
相関に基づいて、推論中にニューラルネットワークベースのベースコーラーによってコールされた塩基に品質スコアを割り当てることを更に含む、項目１～７のいずれか一項に記載のコンピュータ実装方法。
９．
推論中にニューラルネットワークベースのベースコーラーによってコールされた塩基に品質スコア対応スキームを適用することに基づいて品質スコアを割り当てることを更に含み、
スキームが、推論中に推論データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成された、分類スコアの範囲を、セット内の対応する量子化された分類スコアにマッピングする、項目８に記載のコンピュータ実装方法。
１０．
推論中に、品質スコアが現在のベースコールサイクルのための設定閾値を下回っている分析物をベースコールすることを中止することを更に含む、項目８～９のいずれか一項に記載のコンピュータ実装方法。
１１．
推論中に、平均品質スコアが継続的なベースコールサイクルの後に設定閾値を下回っている分析物をベースコールすることを中止することを更に含む、項目８～１０のいずれか一項に記載のコンピュータ実装方法。
１２．予測されたベースコールを対応するグラウンドトゥルースベースコールと比較するために使用されるサンプルサイズが、各量子化された分類スコアに固有である、項目８～１１のいずれか一項に記載のコンピュータ実装方法。
１３．適合が、回帰モデルを使用して決定される、項目８～１２のいずれか一項に記載のコンピュータ実装方法。
１４．
各量子化された分類スコアについて、その予測されたベースコールを対応するグラウンドトゥルースベースコールと比較することによって、ベースコール精度率を決定することと、
量子化された分類スコアとそれらのベースコール精度率との間の適合を決定することと、を更に含む、項目８～１３のいずれか一項に記載のコンピュータ実装方法。
１５．対応するグラウンドトゥルースベースコールが、複数の配列決定器具、配列決定ケミストリー、及び配列決定プロトコル上で配列決定された十分に特徴付けられたヒト及び非ヒトサンプルから導出される、項目８～１４のいずれか一項に記載のコンピュータ実装方法。
１６．ニューラルネットワークベースの品質スコアラーであって、
並列に動作し、かつメモリに連結されている多数のプロセッサと、
多数のプロセッサ上で実行され、配列決定画像からのデータを含む訓練実施例上で訓練され、ニューラルネットワークのベースコール品質予測を、既知の正しいベースコールを識別するベースコール品質グラウンドトゥルースと漸進的に一致させる逆伝播ベースの勾配更新技術を使用してベースコール品質グラウンドトゥルースでラベル付けされる、ニューラルネットワークと、
多数のプロセッサのうちの少なくとも１つの上で実行され、１つ又はそれ以上の配列決定サイクルにおいて捕捉された配列決定画像からのデータを、１つ又はそれ以上の分析物のためにコールされた１つ又はそれ以上の塩基の品質を判定するためのニューラルネットワークに供給する、ニューラルネットワークの入力モジュールと、
多数のプロセッサのうちの少なくとも１つの上で実行され、ニューラルネットワークによる分析を１つ又はそれ以上の分析物のためにコールされた１つ又はそれ以上の塩基の品質を識別する出力に変換する、ニューラルネットワークの出力モジュールと、を含む、ニューラルネットワークベースの品質スコアラー。
１７．ニューラルネットワークが畳み込みニューラルネットワークである、項目１６に記載のニューラルネットワークベースの品質スコアラー。
１８．出力モジュールが、高品質、中品質、及び低品質である品質の尤度を生成するソフトマックス分類層を更に含み、
尤度に基づいて、品質を高品質、中品質、又は低品質として分類することを更に含む、項目１６に記載のニューラルネットワークベースの品質スコアラー。
１９．ソフトマックス分類層が、複数の品質スコアを割り当てられている品質について尤度を生成し、
尤度に基づいて、品質に、複数の品質スコアのうちの１つから品質スコアを割り当てることを更に含む、項目１６に記載のニューラルネットワークベースの品質スコアラー。
２０．品質スコアが、ベースコール誤り確率に対数的に基づいており、
複数の品質スコアが、Ｑ６、Ｑ１０、Ｑ１５、Ｑ２０、Ｑ２２、Ｑ２７、Ｑ３０、Ｑ３３、Ｑ３７、Ｑ４０、及びＱ５０を含む、項目１６～１９のいずれか一項に記載のニューラルネットワークベースの品質スコアラー。
２１．出力モジュールが、品質を識別する連続的な値を生成する回帰層を更に含む、項目１６～２０のいずれか一項に記載のニューラルネットワークベースの品質スコアラー。
２２．
補足的な入力モジュールであって、
配列決定画像からのデータを、コールされた塩基のための品質予測子値で補足し、
品質予測子値を配列決定画像からのデータと共に畳み込みニューラルネットワークに供給する、補足的な入力モジュールを更に含む、項目１６～２１のいずれか一項に記載のニューラルネットワークベースの品質スコアラー。
２３．品質予測子値が、オンライン重複、純度、フェージング、開始５、６量体スコア、モチーフ蓄積、エンジネス、近似的なホモポリマー、強度減衰、最後から２番目のチャステティ、背景との信号重複（ＳＯＷＢ）、及び／又はシフトされた純度Ｇ調整を含む、項目２２に記載のニューラルネットワークベースの品質スコアラー。
２４．品質予測子値が、ピーク高さ、ピーク幅、ピーク位置、相対ピーク位置、ピーク高さ比、ピーク間隔比、及び／又はピーク対応を含む、項目２２に記載のニューラルネットワークベースの品質スコアラー。

Claims

クラスターをベースコールするコンピュータ実装方法であって、
入力データをニューラルネットワークによって処理し、前記入力データの代替表現を生成することであって、前記入力データが、
（ｉ）配列決定実行の１つ又はそれ以上の配列決定サイクルのそれぞれについてのサイクルごとのデータであって、前記配列決定サイクルのうちのそれぞれ１つにおける前記１つ又はそれ以上のクラスターを示している強度発光を表現するピクセルを含む、サイクルごとのデータと、
（ｉｉ）前記サイクルごとのデータの前記ピクセル間の距離を識別する補足的な距離情報と、を含み、
前記ニューラルネットワークによる前記サイクルごとのデータの前記ピクセルの前記処理中に、前記補足的な距離情報が、前記サイクルごとのデータに付随し、前記サイクルごとのデータの前記ピクセルのうちのどれが前記クラスターの中心を含んでいるか、及び前記サイクルごとのデータの前記ピクセルのうちのどれが前記クラスターの前記中心からより遠く離れているかを前記ニューラルネットワークに伝える、ことと、
前記代替表現を出力層によって処理し、出力を生成することと、
前記出力に基づいて、前記配列決定サイクルのうちの１つ又はそれ以上における前記クラスターのうちの１つ又はそれ以上をベースコールすることと、
を含む、コンピュータ実装方法。
前記サイクルごとのデータが、前記配列決定サイクルのうちの前記それぞれ１つにおける周囲背景を示している、請求項１に記載のコンピュータ実装方法。
前記補足的な距離情報が、前記ベースコールすることの精度を改善する、請求項１又は２に記載のコンピュータ実装方法。
前記ニューラルネットワークが、周辺クラスターピクセル、背景ピクセル、及びそれらから導出される代替表現よりも、中央クラスターピクセル、それらの隣接ピクセル、及びそれらから導出される代替表現に着目することによって配列決定信号をその適切なソースクラスターに割り当てるために、前記補足的な距離情報を使用する、請求項３に記載のコンピュータ実装方法。
前記サイクルごとのデータの前記ピクセルにスケーリング値を割り当てる補足的なスケーリング情報を前記サイクルごとのデータに添付することを更に含む、請求項１に記載のコンピュータ実装方法。
前記サイクルごとのデータが、前記それぞれの配列決定サイクルにおいて検出された電圧変化を示している、請求項１に記載のコンピュータ実装方法。
前記サイクルごとのデータが、前記それぞれの配列決定サイクルにおいて測定された電流信号を示している、請求項１に記載のコンピュータ実装方法。
複数の配列決定サイクルを含む配列決定実行中に合成されたクラスターをベースコールするニューラルネットワーク実装方法であって、前記方法は、
入力データを畳み込みニューラルネットワークによって畳み込んで、前記入力データの畳み込み表現を生成することであって、
前記入力データが、前記配列決定実行の現在の配列決定サイクルにおいて生成された現在の画像セットの、前記現在の配列決定サイクルに先行する前記配列決定実行の１つ又はそれ以上の配列決定サイクルにおいてそれぞれ生成された１つ又はそれ以上の先行する画像セットの、及び前記現在の配列決定サイクルの後に続く前記配列決定実行の１つ又はそれ以上の配列決定サイクルにおいてそれぞれ生成された１つ又はそれ以上の後続の画像セットのそれぞれで１つ又はそれ以上の画像から抽出された画像パッチを含み、
前記画像パッチのそれぞれが、ベースコールされているターゲットクラスターの強度発光を表現し、
前記入力データが、前記画像パッチの中心ピクセルからの前記画像パッチのピクセルのそれぞれの距離を示す距離情報を更に含む、ことと、
前記畳み込み表現を出力層によって処理して、出力を生成することと、
前記現在の配列決定サイクルにおける前記ターゲットクラスターを前記出力に基づいてベースコールすることと、
を含む、ニューラルネットワーク実装方法。
前記畳み込みニューラルネットワークへの入力として、それぞれのクラスターを表す画像領域の中心の位置座標を提供することを更に含み、
前記入力が、前記畳み込みニューラルネットワークの第１の層に提供され、
前記入力が、前記畳み込みニューラルネットワークの１つ又はそれ以上の中間層に提供され、
前記入力が、前記畳み込みニューラルネットワークの最終層に提供される、請求項８に記載のニューラルネットワーク実装方法。
前記畳み込みニューラルネットワークへの入力として、前記画像パッチのピクセルに対応するスケーリング値を有する強度スケーリングチャネルを提供することを更に含み、
前記スケーリング値が、特定のターゲットクラスターをそれぞれ含む前記画像パッチの中心ピクセルの平均強度に基づいている、請求項８～９のいずれか一項に記載のニューラルネットワーク実装方法。
前記強度スケーリングチャネルが、前記画像パッチの全ての前記ピクセルについてピクセル単位で同じスケーリング値を含む、請求項８～１０のいずれか一項に記載のニューラルネットワーク実装方法。
各画像パッチが、それぞれのピクセルと前記複数のクラスターのうちの最も近いクラスターとの間の距離を示すピクセル距離データを更に含み、前記複数のクラスターのうちの前記最も近いクラスターは、前記ピクセルと前記クラスターのそれぞれとの間の中心間距離に基づいて選択される、請求項８に記載のニューラルネットワーク実装方法。
各画像パッチが、前記クラスターのうちの１つのみに対して各クラスターピクセルを分類することに基づいて選択された前記複数のクラスターのうちの割り当てられたクラスターからの各クラスターピクセルの距離を識別するクラスター距離データを更に含む、請求項８に記載のニューラルネットワーク実装方法。
前記入力データを前記畳み込みニューラルネットワークによって畳み込んで、前記入力データの前記畳み込み表現を生成することが、
前記畳み込みニューラルネットワークの第１の畳み込みサブネットワークによって各サイクルごとの画像パッチセットを別個に処理して、各配列決定サイクルのための中間畳み込み表現を生成することであって、前記強度及び距離情報を組み合わせ、かつ結果として得られる畳み込み表現を配列決定サイクル内でのみ組み合わせ、かつ配列決定サイクル間では組み合わせない畳み込みを適用することを含む、ことと、
前記畳み込みニューラルネットワークの第２の畳み込みサブネットワークによって一連内の継続的な配列決定サイクルのための中間畳み込み表現をグループ単位で処理して、前記一連のための最終畳み込み表現を生成することであって、前記中間畳み込み表現を組み合わせ、かつ結果として得られる畳み込み表現を前記配列決定サイクルの間で組み合わせる畳み込みを適用することを含む、ことと、
を含み、
前記出力層によって前記畳み込み表現を処理して前記出力を生成することが、前記出力層によって前記最終畳み込み表現を処理することを含む、請求項８～１３のいずれか一項に記載のニューラルネットワーク実装方法。
前記ターゲットクラスターの中心を中心ピクセルの中心に配置するように各画像パッチの前記ピクセルをリフレームして、リフレームされた画像パッチを生成することを更に含み、
前記入力データを前記畳み込みニューラルネットワークによって畳み込んで、前記入力データの前記畳み込み表現を生成することが、前記リフレームされた画像パッチを前記畳み込みニューラルネットワークによって畳み込んで、前記畳み込み表現を生成することを含む、請求項８～１４のいずれか一項に記載のニューラルネットワーク実装方法。
前記リフレームすることが、前記リフレームすることを補正するための各画像パッチの前記ピクセルの強度補間を更に含む、請求項１５に記載のニューラルネットワーク実装方法。
ベースコールするニューラルネットワーク実装方法であって、前記方法は、
サイクルごとの入力データのシーケンス内の各サイクルごとの入力データを前記畳み込みニューラルネットワークの畳み込み層のカスケードによって別個に処理することであって、
サイクルごとの入力データの前記シーケンスが、配列決定実行の一連の配列決定サイクルのために生成され、
各サイクルごとの入力データが、それぞれの配列決定サイクルにおいて捕捉された１つ又はそれ以上のクラスター及びそれらの周囲背景の強度発光を表現する画像チャネルを含む、ことと、
各配列決定サイクルに対して、
前記別個に処理することに基づいて、前記畳み込み層のそれぞれにおいて畳み込み表現を生成し、それによって畳み込み表現のシーケンスを生成することと、
そのサイクルごとの入力データをその対応する畳み込み表現のシーケンスと混合し、混合表現を生成することと、
その混合表現を平坦化し、平坦化された混合表現を生成することと、を行うことと、
継続的な配列決定サイクルの平坦化された混合表現をスタックとして配列することと、
前記スタックを反復ニューラルネットワークによって順方向及び逆方向に処理することであって、前記反復ニューラルネットワークが、
スライディングウィンドウに基づいた前記スタック内の前記平坦化された混合表現のサブセットにわたって畳み込みを行うことであって、各スライディングウィンドウがそれぞれの配列決定サイクルに対応する、ことと、
（ｉ）前記スタック上の現在のスライディングウィンドウ内の前記平坦化された混合表現の前記サブセット及び（ｉｉ）前の隠れ状態表現に基づいて、各配列決定サイクルのための各時間ステップにおける現在の隠れ状態表現を継続的に生成することと、を行う、ことと、
前記スタックを順方向及び逆方向に処理することの結果に基づいて、前記配列決定サイクルのそれぞれにおける前記クラスターのそれぞれをベースコールすることと、を含む、ニューラルネットワーク実装方法。
所与の配列決定サイクルにおける前記クラスターのそれぞれを、
前記所与の配列決定サイクルの順方向及び逆方向の現在の隠れ状態表現を時間ステップに基づいて組み合わせ、組み合わせられた隠れ状態表現を生成することであって、前記組み合わせることが、連結又は総和又は平均化を含む、ことと、
前記組み合わせられた隠れ状態表現を１つ又はそれ以上の全結合ネットワークによって処理し、高密度表現を生成することと、
前記高密度表現をソフトマックス層によって処理して、前記所与の配列決定サイクルにおける前記クラスターのそれぞれに組み込まれた塩基がＡ、Ｃ、Ｔ、及びＧであることの尤度を生成することと、
前記尤度に基づいて前記塩基をＡ、Ｃ、Ｔ、又はＧとして分類することと、
によってベースコールすることを更に含む、請求項１７に記載のニューラルネットワーク実装方法。
ベースコールするためのニューラルネットワークベースのシステムであって、前記システムは、
反復モジュール及び畳み込みモジュールを有するハイブリッドニューラルネットワークであって、前記反復モジュールが、前記畳み込みモジュールからの入力を使用する、ハイブリッドニューラルネットワークと、
配列決定実行の一連の配列決定サイクルのための画像データを１つ又はそれ以上の畳み込み層によって処理し、前記画像データの１つ又はそれ以上の畳み込み表現を生成する前記畳み込みモジュールであって、前記画像データが、１つ又はそれ以上のクラスター及びそれらの周囲背景の強度発光を表現する、前記畳み込みモジュールと、
前記畳み込み表現及び前の隠れ状態表現を畳み込むことに基づいて現在の隠れ状態表現を生成する前記反復モジュールと、
前記現在の隠れ状態表現に基づいて、前記クラスターのうちの少なくとも１つのための、かつ前記配列決定サイクルのうちの少なくとも１つのためのベースコールを生成する出力モジュールと、を備える、ニューラルネットワークベースのシステム。