JP2024527306A - オリゴ配列を使用して訓練された自己学習ベースコーラ - Google Patents

オリゴ配列を使用して訓練された自己学習ベースコーラ Download PDF

Info

Publication number
JP2024527306A
JP2024527306A JP2023579783A JP2023579783A JP2024527306A JP 2024527306 A JP2024527306 A JP 2024527306A JP 2023579783 A JP2023579783 A JP 2023579783A JP 2023579783 A JP2023579783 A JP 2023579783A JP 2024527306 A JP2024527306 A JP 2024527306A
Authority
JP
Japan
Prior art keywords
base
sequence
training
neural network
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023579783A
Other languages
English (en)
Inventor
アミラリ・キア
アニンディタ・ダッタ
Original Assignee
イルミナ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/830,287 external-priority patent/US20220415445A1/en
Priority claimed from US17/830,316 external-priority patent/US20230026084A1/en
Application filed by イルミナ インコーポレイテッド filed Critical イルミナ インコーポレイテッド
Publication of JP2024527306A publication Critical patent/JP2024527306A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Public Health (AREA)
  • Analytical Chemistry (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)

Abstract

ベースコーラを漸進的に訓練する方法が開示される。方法は、単一オリゴ塩基配列を含む検体でベースコーラを反復的に最初に訓練し、最初に訓練されたベースコーラを使用して標識された訓練データを生成することを含む。動作(i)において、ベースコーラは、マルチオリゴ塩基配列を含む検体で更に訓練され、標識された訓練データは、更に訓練されたベースコーラを使用して生成される。動作(i)は、ベースコーラを更に訓練するために反復的に繰り返される。実施例では、少なくとも1回の反復中に、ベースコーラ内にロードされたニューラルネットワーク構成の複雑度が増大する。実施例では、反復中に生成された標識された訓練データは、直後の反復中に前記ベースコーラを訓練するために使用される。

Description

優先権出願
本出願は、2022年6月1日に出願された「Self-Learned Base Caller,Trained Using Oligo Sequences」と題する米国非仮特許出願第17/830,287号(代理人整理番号ILLM1038-3/IP-2050-US)の優先権を主張し、これは、2021年6月29日に出願された「Self-Learned Base Caller,Trained Using Oligo Sequences」と題する米国仮特許出願第63/216,419号(代理人整理番号ILLM1038-1/IP-2050-PRV)及び2021年6月29日に出願された「Self-Learned Base Caller,Trained Using Organism Sequences」と題する米国仮特許出願第63/216,404号(代理人整理番号ILLM1038-2/IP-2094-PRV)の利益を主張する。優先権出願は、全ての目的のために参照により本明細書に組み込まれる。
本出願は、2022年6月1日に出願された「Self-Learned Base Caller,Trained Using Organism Sequences」と題する米国非仮特許出願第17/830,316号(代理人整理番号ILLM1038-5/IP-2094-US)の優先権を主張し、これは、2021年6月29日に出願された「Self-Learned Base Caller,Trained Using Organism Sequences」と題する米国仮特許出願第63/216,404号(代理人整理番号ILLM1038-2/IP-2094-PRV)及び2021年6月29日に出願された「Self-Learned Base Caller,Trained Using Oligo Sequences」と題する米国仮特許出願第63/216,419号(代理人整理番号ILLM1038-1/IP-2050-PRV)の利益を主張する。優先権出願は、全ての目的のために参照により本明細書に組み込まれる。
開示される技術は、人工知能型コンピュータ及びデジタルデータ処理システム、並びに知能(すなわち、知識ベースのシステム、推論システム、及び知識取得システム)を模倣するための対応するデータ処理方法及び製品に関し、不確実性を伴う推論のためのシステム(例えば、ファジー論理システム)、適応システム、機械学習システム、及び人工ニューラルネットワークを含む。具体的には、開示される技術は、データを分析するための深層畳み込みニューラルネットワークなどの深層ニューラルネットワークを使用することに関する。
組み込み
以下は、本明細書に完全に記載されているかのように参照により組み込まれる。
同時に出願された「SELF-LEARNED BASE CALLER,TRAINED USING ORGANISM SEQUENCES」と題するPCT特許出願(代理人整理番号ILLM ILLM1038-6/IP-2094-PCT)、
2020年2月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED BASE CALLING OF INDEX SEQUENCES」と題する米国特許仮出願第62/979,384号(代理人整理番号ILLM1015-1/IP-1857-PRV)、
2020年2月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED MANY-TO-MANY BASE CALLING」と題する米国特許仮出願第62/979,414号(代理人整理番号ILLM1016-1/IP-1858-PRV)、
2020年3月20日に出願された「TRAINING DATA GENERATION FOR ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国特許非仮出願第16/825,987号(代理人整理番号ILLM1008-16/IP-1693-US)、
2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED GENERATION OF SEQUENCING METADATA」と題する米国非仮特許出願第16/825,991号(代理人整理番号ILLM1008-17/IP-1741-US)、
2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する米国非仮特許出願第16/826,126号(代理人整理番号ILLM1008-18/IP-1744-US)、
2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING」と題する米国非仮特許出願第16/826,134号(代理人整理番号ILLM1008-19/IP-1747-US)、及び
2020年3月21日に出願された「ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国特許出願公開第16/826,168号(代理人整理番号ILLM 1008-20/IP-1752-PRV-US)。
このセクションで考察される主題は、単にこのセクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、このセクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。このセクションの主題は、単に、異なるアプローチを表し、それ自体はまた、特許請求される技術の実装形態に対応し得る。
計算能力の急速な改善により、近年、多くのコンピュータビジョンタスクにおいて、深層畳み込みニューラルネットワーク(Convolution Neural Network、CNN)が、著しく改善された精度で、大成功を収めることが可能となった。推論段階の間、多くのアプリケーションは、厳密な電力消費要件を伴う、1つの画像の低遅延の処理を必要とし、これにより、グラフィックス処理ユニット(Graphics Processing Unit、GPU)及び他の汎用プラットフォームの効率が低下し、そのことは、特定のアクセレレーションハードウェア、例えば、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)にとっては、深層学習アルゴリズムの推論に特に効果的となるようにデジタル回路をカスタマイズすることによって、好機をもたらすこととなる。しかしながら、携帯型及び埋め込み式システムにCNNを配備することは、大きいデータ量、集中的な計算、様々なアルゴリズム構造、及び頻繁なメモリアクセスのために依然として困難である。
畳み込みが、CNNにおけるほとんどの演算を提供するので、畳み込みアクセレレーションスキームが、ハードウェアCNNアクセラレータの効率及び性能に大きく影響することになる。畳み込みは、カーネル及び特徴マップに沿ってスライドする4つのレベルのループを伴う、積和(multiply and accumulate、MAC)演算を含む。第1のループレベルは、1つのカーネルウィンドウ内のピクセルのMACを計算する。第2のループレベルは、様々な異なる入力特徴マップにわたるMACの積の和を累積する。第1及び第2のループレベルを完了した後、バイアスを追加することにより、出力特徴マップでの最終的な出力要素が得られる。第3のループレベルは、入力特徴マップ内で、カーネルウィンドウをスライドさせる。第4のループレベルは、様々な異なる出力特徴マップを発生させる。
FPGAは、特に、推論タスクを加速化するために、より多くの関心を集め、より広く普及しており、それは、FPGAが、(1)再構成可能性が高く、(2)CNNの急速な進化にキャッチアップするために必要な開発時間の速さという点で、特定用途向け集積回路(application specific integrated circuit、ASIC)と比較して優れており、(3)良好な性能を有し、(4)GPUと比較して、エネルギー効率が優れている、ということに起因する。FPGAの高い性能及び高い効率性は、特定の計算のためにカスタマイズされた回路を合成して、カスタマイズされたメモリシステムで数十億回の演算を直接処理することによって実現することができる。例えば、現代のFPGAにおける数百から数千のデジタル信号処理(digital signal processing、DSP)ブロックは、コア畳み込み演算、例えば、高度の並列処理を伴う積和演算をサポートする。外部オンチップメモリとオンチッププロセッシングエンジン(processing engine、PE)と間の専用データバッファは、フィールドプログラマブルゲートアレイ(FPGA)チップ上に、数十メガバイトのオンチップブロックランダムアクセスメモリ(block random access memory、BRAM)を構成することにより、優先データフローを実現するように設計することができる。
高性能を達成するためにリソース利用を最大化しながら、データ通信を最小限に抑えるために、CNNアクセレレーションの効率的なデータフロー及びハードウェアアーキテクチャが望まれている。アクセレレーションハードウェア上の様々なCNNアルゴリズムの推論プロセスを加速化し、高い性能、高い効率、及び高い柔軟性を実現するための方法論及びフレームワークを設計するための好機が生じることとなる。
図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺通りではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明では、開示される技術の様々な実施態様が、以下の図面を参照して説明される。
様々な実施形態で使用することができるバイオセンサの断面図を示す。 そのタイル内にクラスタを含むフローセルの一実装形態を示す。 8つのレーンを有する例示的なフローセルを示し、1つのタイル及びそのクラスタ及びそれらの周囲の背景のズームインも示す。 ベースコールセンサ出力など、配列決定システムからのセンサデータの分析のためのシステムの簡略ブロック図である。 ホストプロセッサによって実行されるランタイムプログラムの機能を含む、ベースコール動作の態様を示す簡略図である。 図4の構成可能なプロセッサなど、構成可能なプロセッサの構成の簡略図である。 本明細書に記載のように構成された構成可能又は再構成可能なアレイを使用して実行することができるニューラルネットワークアーキテクチャの図である。 図7のもののようなニューラルネットワークアーキテクチャによって使用されるセンサデータのタイルの組織の簡略図である。 図7のもののようなニューラルネットワークアーキテクチャによって使用されるセンサデータのタイルのパッチの簡略図である。 フィールドプログラマブルゲートアレイ(FPGA)などの構成可能又は再構成可能なアレイ上の図7のもののようなニューラルネットワークの構成の一部を示す。 本明細書に記載のように構成された構成可能又は再構成可能なアレイを使用して実行することができる別の代替のニューラルネットワークアーキテクチャの図である。 異なる配列決定サイクルでデータの処理を分離するために使用されるニューラルネットワークベースのベースコーラの専用アーキテクチャの一実装形態を示す。 各々が畳み込みを含み得る、分離された層の一実装形態を示す。 各々が畳み込みを含み得る、組み合わせ層の一実装形態を示す。 各々が畳み込みを含み得る、組み合わせ層の別の実装形態を示す。 既知の合成オリゴ配列を使用して、ニューラルネットワーク構成を含むベースコーラを訓練するために、単一オリゴ訓練段階で動作するベースコーリングシステムを例解する。 予測された塩基配列と対応するグラウンドトゥルース塩基配列との間の比較動作を示す。 既知の合成オリゴ配列を使用して、ニューラルネットワーク構成を含むベースコーラを訓練するために、単一オリゴ訓練段階で動作する図14Aのベースコーリングシステムの更なる詳細を例解する。 2つの既知の合成配列を使用して標識された訓練データを生成するために、2オリゴ訓練段階の訓練データ生成フェーズにおいて動作する図14Aのベースコーリングシステムを例解する。 図15Aに関して考察された2オリゴ配列の2つの対応する例示的選択を例解する。 図15Aに関して考察された2オリゴ配列の2つの対応する例示的選択を例解する。 (i)予測されたベースコール配列を第1のオリゴ若しくは第2のオリゴのいずれかにマッピングするか、又は(ii)予測されたベースコール配列を2つのオリゴのいずれかにマッピングする際に不確定性を宣言するかのいずれかのための例示的なマッピング操作を例解する。 図15Dのマッピングから生成された標識された訓練データを例解し、訓練データは、図16Aに例解された別のニューラルネットワーク構成によって使用される。 2つの既知の合成オリゴ配列を使用して、別のニューラルネットワーク構成(図14Aのニューラルネットワーク構成とは異なり、図14Aのニューラルネットワーク構成に対してより複雑である)を備えるベースコーラを訓練するために、2オリゴ訓練段階の訓練データ消費及び訓練フェーズにおいて動作する図14Aのベースコーリングシステムを例解する。 2オリゴ訓練段階の訓練データ生成フェーズの第2の反復において動作する図14Aのベースコーリングシステムを例解する。 図16Bに例解されたマッピングから生成された標識された訓練データを例解し、訓練データは更なる訓練のために使用される。 2つの既知の合成オリゴ配列を使用して、図16Aのニューラルネットワーク構成を備えるベースコーラを訓練するために、「2オリゴ訓練段階」の「訓練データ消費及び訓練フェーズ」の第2の反復において動作する図14Aのベースコーリングシステムを例解する。 単一オリゴ及び2オリゴ配列を使用して、ベースコーリングのためのニューラルネットワーク構成を反復的に訓練するための例示的方法を描写する、フローチャートを例解する。 図17Aの方法1700の終わりにおいて第PのNN構成によって生成された例示的な標識された訓練データを例解する。 3オリゴニューラルネットワーク構成を備えるベースコーラを訓練するために、「3オリゴ訓練段階」の「訓練データ消費及び訓練フェーズ」の第1の反復において動作する図14Aのベースコーリングシステムを例解する。 図18Aの3オリゴニューラルネットワーク構成を備えるベースコーラを訓練するために、「3オリゴ訓練段階」の「訓練データ生成フェーズ」で動作する図14Aのベースコーリングシステムを例解する。 (i)予測されたベースコール配列を図18Bの3つのオリゴのいずれかにマッピングするか、又は(ii)予測されたベースコール配列のマッピングが不確定であると宣言するかのいずれかのマッピング動作を例解する。 図18Cのマッピングから生成された標識された訓練データを示し、訓練データは、別のニューラルネットワーク構成を訓練するために使用される。 3オリゴグラウンドトゥルース配列を使用して、ベースコーリングのためのニューラルネットワーク構成を反復的に訓練するための例示的方法を描写するフローチャートを例解する。 複数オリゴグラウンドトゥルース配列を使用してベースコーリングのためのニューラルネットワーク構成を反復的に訓練するための例示的な方法を描写するフローチャートを例解する。 図14Aのベースコーラを訓練するために使用される生物配列を例解する。 図20Aの第1の生物配列の様々な部分配列を使用して、第1の生物レベルのニューラルネットワーク構成を備えるベースコーラを訓練するために、第1の生物訓練段階の訓練データ生成フェーズにおいて動作する図14Aのベースコーリングシステムを例解する。 ベースコーリング動作の配列決定実行であるサイクル数の関数として信号強度が減少したフェーディングの実施例を例解する。 配列決定進行のサイクルとしての減少する信号対ノイズ比を概念的に示す。 部分配列のL1個の塩基の第1のL2個の塩基のベースコーリングを例解し、部分配列の第1のL2個の塩基は、部分配列を図20Aの生物配列にマッピングするために使用される。 図20Eのマッピングから生成された標識された訓練データを例解し、標識された訓練データは、グラウンドトゥルースとして図20Aの生物配列のセクションを含む。 第1の生物レベルニューラルネットワーク構成を備えるベースコーラを訓練するために、「生物レベル訓練段階」の「訓練データ消費及び訓練フェーズ」において動作する図14Aのベースコーリングシステムを例解する。 図20Aの単純生物配列を使用して、ベースコーリングのためのニューラルネットワーク構成を反復的に訓練するための例示的方法を描写する、フローチャートを例解する。 図14Aのベースコーラについての対応するNN構成の訓練のための複雑な生物配列の使用を例解する。 ベースコーリングのためのニューラルネットワーク構成を反復的に訓練するための例示的方法を描写するフローチャートを例解する。 本開示で考察されるベースコーラ訓練プロセスの有効性を例解する様々なチャートを例解する。 本開示で考察されるベースコーラ訓練プロセスの有効性を例解する様々なチャートを例解する。 本開示で考察されるベースコーラ訓練プロセスの有効性を例解する様々なチャートを例解する。 本開示で考察されるベースコーラ訓練プロセスの有効性を例解する様々なチャートを例解する。 一実装形態によるベースコールシステムのブロック図である。 図24のシステムで使用することができるシステムコントローラのブロック図である。 開示される技術を実装するために使用することができるコンピュータシステムの簡略ブロック図である。
本明細書で使用される場合、「ポリヌクレオチド」又は「核酸」という用語は、デオキシリボ核酸(deoxyribonucleic acid、DNA)を指し、しかしながら、適切な場合には、当業者は、本明細書のシステム及びデバイスをリボ核酸(ribonucleic acid、RNA)とともに利用することもできることを認識するであろう。これらの用語は、同等物として、ヌクレオチド類似体から作製されるDNA又はRNAのいずれかの類似体を含むと理解されるべきである。本明細書で使用されるこれらの用語はまた、例えば逆転写酵素の作用によって、相補的であるcDNA、又はRNA鋳型から生成されるコピーDNAも包含する。
本明細書のシステム及びデバイスによって配列決定される一本鎖ポリヌクレオチド分子は、DNA又はRNAとして一本鎖形態で起源を有するか、又は二本鎖DNA(double-stranded DNA、dsDNA)形態(例えば、ゲノムDNA断片、PCR及び増幅産物及び同様のもの)で起源を有することができる。したがって、一本鎖ポリヌクレオチドは、ポリヌクレオチド二重鎖のセンス鎖又はアンチセンス鎖であり得る。標準的な技法を使用した本開示の方法での使用に好適な一本鎖ポリヌクレオチド分子の調製方法は、当該技術分野で既知である。一次ポリヌクレオチド分子の正確な配列は、一般に、本開示に重要ではなく、既知又は不明であり得る。一本鎖ポリヌクレオチド分子は、イントロン及びエクソン配列(コード配列)の両方、並びにプロモータ及びエンハンサ配列などの非コード調節配列を含む、ゲノムDNA分子(例えば、ヒトゲノムDNA)を表すことができる。
ある実施形態において、本開示の使用を通して配列決定される核酸は、基質(例えば、フローセル内の基質、又はフローセルなどの基質上の1つ以上のビーズなど)上に固定化される。本明細書で使用される「固定化された」という用語は、明示的又は文脈によって別途示されない限り、直接的又は間接的な、共有付着又は非共有付着を包含することを意図する。ある実施形態では、共有結合が好ましい場合があるが、概して必要とされるのは、例えば、核酸配列決定を必要とする用途において、支持体を使用することが意図される条件下で、分子(例えば、核酸)が、支持体に固定化されたままである又は結合したままであるということである。
本明細書で使用するような「固体支持体」(又はある用法では「基質」)という用語は、例えばガラス表面、プラスチック表面、ラテックス、デキストラン、ポリスチレン表面、ポリプロピレン表面、ポリアクリルアミドゲル、金表面、シリコンウェハなど、核酸を付着させることができる任意の不活性基質又はマトリックスを指す。多くの実施形態において、固体支持体はガラス表面(例えば、フローセルチャネルの平面)である。ある実施形態では、固体支持体は、例えば、ポリヌクレオチドなどの分子への共有結合を可能にする反応性基を含む中間材料の層又はコーティングの用途によって「官能化」されている不活性基質又はマトリックスから構成され得る。非限定的な例として、そのような支持体は、ガラスなどの不活性基質上に支持されたポリアクリルアミドヒドロゲルを含むことができる。そのような実施形態では、分子(ポリヌクレオチド)は、中間材料(例えば、ヒドロゲル)に直接共有結合することができるが、中間材料は、それ自体が基質又はマトリックス(例えば、ガラス基質)に非共有結合することができる。固体支持体への共有結合は、この種類の配置を包含するように適宜解釈されるべきである。
上記のように、本開示は、核酸を配列決定するための新規のシステム及びデバイスを含む。当業者に明らかであるように、特定の核酸配列への本明細書における言及は、文脈に依存して、このような核酸配列を含む核酸分子もまた言及し得る。標的断片の配列決定は、塩基の時系列順の読み取りが確立されることを意味する。読み取られる塩基は、連続している必要はないが、これが好ましいが、配列決定の間に全断片上の全ての塩基が配列決定される必要もない。配列決定は、ヌクレオチド又はオリゴヌクレオチドが遊離3’ヒドロキシル基に連続的に付加され、その結果、5’から3’の方向にポリヌクレオチド鎖が合成される、任意の好適な配列決定技法を使用して実施することができる。付加されたヌクレオチドの性質は、好ましくは、各ヌクレオチド付加後に決定される。全ての連続塩基が配列決定されるわけではない、ライゲーションによる配列決定を使用する配列決定技法、及び表面の鎖に塩基を付加するのではなく、塩基を除去する超並列シグネチャ配列決定(massively parallel signature sequencing、MPSS)などの技法も、本開示のシステム及びデバイスとともに使用するのに適している。
ある実施形態では、本開示は、合成による配列決定(sequencing-by-synthesis、SBS)を開示する。SBSでは、4つの蛍光標識された修飾ヌクレオチドを使用して、基質(例えば、フローセル)の表面上に存在する増幅されたDNAの高密度クラスタ(おそらく数百万のクラスタ)を配列決定する。本明細書のシステム及びデバイスとともに利用することができる、SBS手順及び方法に関する様々な付加的側面は、例えば、国際公開第04018497号、国際公開第04018493号及び米国特許第7,057,026号(ヌクレオチド)、国際公開第05024010号及び国際公開第06120433号(ポリメラーゼ)、国際公開第05065814号(表面付着技法)、並びに国際公開第9844151号、国際公開第06064199号及び国際公開第07010251号に開示されており、その各々の内容は、参照することによってその全体として本明細書に組み込まれる。
本明細書のシステム/デバイスの特定の使用では、配列決定のための核酸試料を含有するフローセルは、適切なフローセルホルダ内に置かれる。配列決定のための試料は、単一分子、クラスタの形態の増幅された単一分子、又は核酸の分子を含むビーズの形態を取ることができる。核酸は、未知の標的配列に隣接するオリゴヌクレオチドプライマを含むように調製される。第1のSBS配列決定サイクルを開始するために、1つ以上の異なる標識されたヌクレオチド、及びDNAポリメラーゼなどが、流体フローサブシステム(その様々な実施形態が本明細書に記載されている)によってフローセル内に/フローセルを通って流される。単一ヌクレオチドが一度に追加され得るか、又は配列決定手順で使用されるヌクレオチドが可逆終端性質を有するように特別に設計され得、したがって、配列決定反応の各サイクルが、4つ全ての標識されたヌクレオチド(A、C、T、G)の存在下で同時に生じることを許容する。4個のヌクレオチドが一緒に混合される場合、ポリメラーゼは、正しい塩基を選択して組み込むことができ、各配列は、単一の塩基によって伸長される。システムを使用するそのような方法では、4つの選択肢の間の自然な競合が、反応混合物中に1つのヌクレオチドしか存在しない場合(そのため、配列のほとんどが正しいヌクレオチドに曝露されない)よりも高い精度をもたらす。特定の塩基が次々に繰り返される配列(例えば、ホモポリマー)は、任意の他の配列と同様に、高い精度で対処される。
流体フローサブシステムはまた、ブロックされた3’末端(適切な場合)及びフルオロフォアを各組み込まれた塩基から除去するために、適切な試薬を流す。基質は、4つのブロックされたヌクレオチドの第2のラウンド、又は任意選択的に、異なる個々のヌクレオチドを用いた第2のラウンドのいずれかに曝露される可能性がある。次いで、このようなサイクルが繰り返され、各クラスタの配列が複数の化学サイクルにわたって読み取られる。本開示のコンピュータ態様は、任意選択的に、各単一分子、クラスタ又はビーズから収集された配列データを整列させて、より長いポリマーなどの配列を決定することができる。あるいは、画像処理及び整列は、別個のコンピュータ上で実行することができる。
システムの加熱/冷却構成要素は、フローセルチャネル及び試薬貯蔵エリア/容器(及び任意選択的にカメラ、光学系、及び/又は他の構成要素)内の反応条件を調節する一方で、流体フロー構成要素は、取り込まれなかった試薬が洗い流される間に、基質表面が取り込みに適した試薬(例えば、取り込まれるべき適切な蛍光標識ヌクレオチド)に曝露されることを許容する。フローセルが置かれる任意選択の可動ステージにより、基質をレーザー(又は他の光)で励起するためにフローセルを適正配向にすることが許容され、任意選択的に対物レンズに対してフローセルを移動させ、基質の異なるエリアを読み取ることが許容される。加えて、システムの他の構成要素もまた、任意選択的に移動可能/調整可能である(例えば、カメラ、対物レンズ、ヒータ/クーラなど)。レーザー励起の間、基質上の核酸から放出された蛍光の画像/場所は、カメラ構成要素によって捕捉され、それによって、コンピュータ構成要素において、各単一分子、クラスタ又はビーズについての第1の塩基の同一性を記録する。
本明細書に記載される実施形態は、学術分析又は商業的分析のための様々な生物学的又は化学的プロセス及びシステムにおいて使用されてもよい。より具体的には、本明細書に記載される実施形態は、所望の反応を示すイベント、特性、品質、又は特性を検出することが望ましい様々なプロセス及びシステムにおいて使用されてもよい。例えば、本明細書に記載される実施形態としては、カートリッジ、バイオセンサ、及びそれらの構成要素、並びにカートリッジ及びバイオセンサとともに動作するバイオアッセイシステムが挙げられる。特定の実施形態では、カートリッジ及びバイオセンサは、実質的に単一の構造で一緒に結合されたフローセル及び1つ以上のセンサ、ピクセル、光検出器、又はフォトダイオードを含む。
特定の実施形態の以下の詳細な説明は、添付の図面と併せて読むと、より良く理解され得る。図が様々な実施形態の機能ブロックの図を示す限りにおいて、機能ブロックは、必ずしもハードウェア回路間の分割を示すものではない。したがって、例えば、機能ブロック(例えば、プロセッサ又はメモリ)のうちの1つ以上は、1つのハードウェア(例えば、汎用信号プロセッサ又はランダムアクセスメモリ、ハードディスクなど)で実装されてもよい。同様に、プログラムは、スタンドアロンプログラムであってもよく、オペレーティングシステム内のサブルーチンとして組み込まれてもよく、インストールされたソフトウェアパッケージ内の機能であってもよい、など。様々な実施形態は、図面に示された配置及び手段に限定されないことを理解されたい。
本明細書で使用する際、単数形で記載され、かつ単語「a」又は「an」に続く要素又は工程は、かかる除外が明示的に記載されていない限り、複数のこれらの要素又は工程を除外しないものとして理解されるべきである。更に、「一実施形態」への言及は、列挙された特徴をまた組み込む追加の実施形態の存在を除外するものとして解釈されることを意図するものではない。更に、反対に明示的に述べられていない限り、特定の特性を有する要素又は複数の要素を「備える」又は「有する」又は「含む」実施形態は、それらがその特性を有するかどうかにかかわらず、追加の要素を含み得る。
本明細書で使用するとき、「所望の反応」は、対象となる検体の化学的、電気的、物理的、又は光学的特性(又は品質)のうちの少なくとも1つの変化を含む。特定の実施形態では、所望の反応は、正の結合事象である(例えば、蛍光標識された生体分子の対象となる検体への組み込み)。より一般的には、所望の反応は、化学変換、化学変化、又は化学的相互作用であってもよい。所望の反応はまた、電気特性の変化であってもよい。例えば、所望の反応は、溶液内のイオン濃度の変化であってもよい。例示的な反応としては、還元、酸化、付加、脱離、再配列、エステル化、アミド化、エーテル化、環化、又は置換などの化学反応、第1の化学物質が第2の化学物質に結合する結合相互作用、2つ以上の化学物質が互いに分離する解離反応、蛍光、発光、生物発光、化学発光、並びに核酸複製、核酸増幅、核酸ハイブリダイゼーション、核酸ライゲーション、リン酸化、酵素触媒、受容体結合、又はリガンド結合などの生体反応、が挙げられるが、これらに限定されない。所望の反応はまた、例えば、周囲の溶液又は環境のpHの変化として検出可能である、プロトンの添加又は除去であってもよい。追加の所望の反応は、膜(例えば、天然又は合成二層膜)を横切るイオンの流れの検出であることができ、例えば、イオンが膜を通って流れるとき、電流が乱れ、この乱れが検出され得る。
特定の実施形態では、所望の反応は、検体への蛍光標識分子の組み込みを含む。検体は、オリゴヌクレオチドであってもよく、蛍光標識分子は、ヌクレオチドであってもよい。所望の反応は、励起光が標識ヌクレオチドを有するオリゴヌクレオチドに方向付けられ、かつ蛍光団が検出可能な蛍光信号を発するときに、検出され得る。代替の実施形態では、検出された蛍光は、化学発光又は生物発光の結果である。所望の反応はまた、例えば、ドナーフルオロフォアをアクセプタ蛍光団に近接させることによって蛍光団(又はForster)共鳴エネルギー移動(Fluorescence Resonance Energy Transfer、FRET)を増加させることができ、ドナーとアクセプタ蛍光団とを離すことによってFRETを減少させ、消光剤をフルオロフォアから離すことによって蛍光を増加させるか、又は消光剤及び蛍光団を共局在させることによって蛍光団を減少させることができる。
本明細書で使用するとき、「反応成分」又は「反応物質」は、所望の反応を得るために使用され得る任意の物質を含む。例えば、反応成分としては、試薬、酵素、サンプル、他の生体分子、及び緩衝液が挙げられる。反応成分は、典型的には、溶液中の反応部位に送達され、及び/又は反応部位で固定される。反応成分は、対象となる検体などの別の物質と直接又は間接的に相互作用し得る。
本明細書で使用するとき、用語「反応部位」は、所望の反応が生じ得る局所的領域である。反応部位は、物質がその上に固定され得る基材の支持表面を含んでもよい。例えば、反応部位は、その上に核酸のコロニーを有するフローセルのチャネル内に実質的に平面状の表面を含んでもよい。常にではないが、典型的には、コロニー中の核酸は、同じ配列を有し、例えば、一本鎖又は二本鎖テンプレートのクローンコピーである。しかしながら、いくつかの実施形態では、反応部位は、例えば、一本鎖又は二本鎖形態で、単一の核酸分子のみを含有してもよい。更に、複数の反応部位は、支持表面に沿って不均一に分布してもよく、又は所定の様式で(例えば、マイクロアレイなどのマトリックス内で並列に)配置されてもよい。反応部位はまた、所望の反応を区画化するように構成された空間領域又は容積を少なくとも部分的に画定する反応チャンバ(又はウェル)を含むことができる。
本出願は、用語「反応チャンバ」及び「ウェル」を互換的に使用する。本明細書で使用するとき、用語「反応チャンバ」又は「ウェル」は、フローチャネルと流体連通している空間領域を含む。反応チャンバは、周囲環境又は他の空間領域から少なくとも部分的に分離されてもよい。例えば、複数の反応チャンバは、共有された壁によって互いに分離されてもよい。より具体的な例として、反応チャンバは、ウェルの内面によって画定された空洞を含み、空洞がフローチャネルと流体連通しているように開口部又はアパーチャを有してもよい。そのような反応チャンバを含むバイオセンサは、2011年10月20日に出願された国際出願PCT/US2011/057111号により詳細に記載されており、その全体は参照により本明細書に組み込まれる。
いくつかの実施形態では、反応チャンバは、固体がその中に完全に又は部分的に挿入され得るように、固体(半固体を含む)に対してサイズ及び形状を定められる。例えば、反応チャンバは、ただ1つの捕捉ビーズを収容するようにサイズ及び形状を定められる。捕捉ビーズは、クローン的に増幅されたDNA又はその上の他の物質を有してもよい。あるいは、反応チャンバは、おおよその数のビーズ又は固体基材を受容するようにサイズ及び形状を定められる。別の例として、反応チャンバはまた、反応チャンバに流入し得る拡散又はフィルタ流体を制御するように構成された多孔質ゲル又は物質で充填されてもよい。
いくつかの実施形態では、センサ(例えば、光検出器、フォトダイオード)は、バイオセンサのサンプル表面の対応するピクセル領域に関連付けられている。したがって、ピクセル領域は、1つのセンサ(又はピクセル)のバイオセンサのサンプル表面上の領域を表す幾何学的構築物である。ピクセル領域に関連付けられたセンサは、関連するピクセル領域の上にある反応部位又は反応チャンバで所望の反応が生じたとき、関連するピクセル領域から収集された発光を検出する。平坦な表面の実施形態では、ピクセル領域は重なり合うことができる。いくつかの場合には、複数のセンサは、単一の反応部位又は単一の反応チャンバに関連付けられ得る。他の場合には、単一のセンサは、反応部位のグループ又は反応チャンバのグループに関連付けられ得る。
本明細書で使用するとき、「バイオセンサ」は、複数の反応部位及び/又は反応チャンバ(若しくはウェル)を有する構造を含む。バイオセンサは、ソリッドステート撮像デバイス(例えば、CCD又はCMOSイメージャ)及び、任意選択的に、それに取り付けられたフローセルを含んでもよい。フローセルは、反応部位及び/又は反応チャンバと流体連通している少なくとも1つのフローチャネルを含み得る。1つの特定の例として、バイオセンサは、バイオアッセイシステムに流体的かつ電気的に結合するように構成される。バイオアッセイシステムは、所定のプロトコル(例えば、合成による配列決定)に従って反応部位及び/又は反応チャンバに反応物質を送達し、複数の撮像イベントを実行してもよい。例えば、バイオアッセイシステムは、反応部位及び/又は反応チャンバに沿って流れるように溶液を方向付けることができる。溶液のうちの少なくとも1つは、同じ又は異なる蛍光標識を有する4タイプのヌクレオチドを含んでもよい。ヌクレオチドは、反応部位及び/又は反応チャンバに位置する対応するオリゴヌクレオチドに結合し得る。次いで、バイオアッセイシステムは、励起光源(例えば、発光ダイオード又はLEDなどのソリッドステート光源)を使用して反応部位及び/又は反応チャンバを照明することができる。励起光は、波長の範囲を含む所定の波長又は複数の波長を有してもよい。励起された蛍光標識は、センサによって捕捉され得る発光信号を提供する。
代替の実施形態では、バイオセンサは、他の識別可能な特性を検出するように構成された電極又は他のタイプのセンサを含み得る。例えば、センサは、イオン濃度の変化を検出するように構成され得る。別の例では、センサは、膜を横切るイオン電流の流れを検出するように構成され得る。
本明細書で使用するとき、「クラスタ」は、類似又は同一の分子又はヌクレオチド配列又はDNA鎖のコロニーである。例えば、クラスタは、増幅オリゴヌクレオチド、又は同じ又は類似の配列を有するポリヌクレオチド又はポリペプチドの任意の他の群であり得る。他の実施形態では、クラスタは、サンプル表面上の物理的領域を占有する任意の要素又は要素群であり得る。実施形態では、クラスタは、ベースコールサイクル中に反応部位及び/又は反応チャンバに固定化される。
本明細書で使用するとき、用語「固定化された」は、生体分子又は生物学的物質若しくは化学物質に関して使用されるとき、生体分子又は生物学的物質若しくは化学物質を分子レベルで表面に実質的に付着させることを含む。例えば、生体分子又は生物学的物質若しくは化学物質は、非共有結合(例えば、静電力、ファンデルワールス、及び疎水性界面の脱水)を含む吸着技術、並びに官能基又はリンカーが生体分子の表面への付着を促進する共有結合技術を含む吸着技術を用いて、基材物質の表面に固定化されてもよい。生体分子又は生物学的物質若しくは化学物質を基材物質の表面に固定化することは、基材表面の特性、生体分子又は生物学的物質若しくは化学物質を担持する液体媒体、並びに生体分子又は生物学的物質若しくは化学物質自体の特性に基づいてもよい。場合によっては、基材表面は、生体分子(又は生物学的物質又は化学物質)を表面に固定化するのを容易にするために、基材表面を官能化(例えば、化学的又は物理的に修飾)してもよい。基材表面は、表面に結合した官能基を有するように最初に修飾されてもよい。次いで、官能基は、生体分子又は生物学的物質若しくは化学物質に結合して、それらをその上に固定化し得る。物質は、例えば、参照により本明細書に組み込まれる米国特許出願公開第2011/0059865(A1)号に記載されているように、ゲルを介して表面に固定化され得る。
いくつかの実施形態では、核酸は表面に付着され、ブリッジ増幅を使用して増幅することができる。有用なブリッジ増幅法は、例えば、米国特許第5,641,658号、国際公開第2007/010251号、米国特許第6,090,592号、米国特許出願公開第2002/0055100(A1)号、米国特許第7,115,400号、米国特許出願公開第2004/0096853(A1)号、米国特許出願公開第2004/0002090(A1)号、米国特許出願公開第2007/0128624(A1)号、及び米国特許出願公開第2008/0009420(A1)号に記載されており、これらの各々は、その全体が本明細書に組み込まれる。表面上の核酸を増幅するための別の有用な方法は、例えば、以下で更に詳細に説明する方法を使用する、ローリングサークル増幅(Rolling Circle Amplification、RCA)である。いくつかの実施形態では、核酸は、表面に付着され、1つ以上のプライマー対を使用して増幅され得る。例えば、プライマーのうちの1つは溶液中であってもよく、他のプライマーは、表面上に固定化され得る(例えば、5’-付着)。例として、核酸分子は、表面上のプライマーのうちの1つにハイブリダイズし、続いて固定化プライマーを伸長させて、核酸の第1のコピーを生成することができる。溶液中のプライマーは、次いで、核酸の第1のコピーをテンプレートとして使用して伸長させることができる核酸の第1のコピーにハイブリダイズする。任意選択的に、核酸の第1のコピーが生成された後、元の核酸分子は、表面上の第2の固定化プライマーにハイブリダイズすることができ、同時に、又は溶液中のプライマーが伸長された後に伸長され得る。任意の実施形態では、固定化プライマー及び溶液中のプライマーを使用する伸長の反復ラウンド(例えば、増幅)は、核酸の複数のコピーを提供する。
特定の実施形態では、本明細書に記載されるシステム及び方法によって実行されるアッセイプロトコルは、天然ヌクレオチド、及び天然ヌクレオチドと相互作用するように構成された酵素の使用を含む。天然ヌクレオチドとしては、例えば、リボヌクレオチド(RNA)又はデオキシリボヌクレオチド(DNA)が挙げられる。天然ヌクレオチドは、一リン酸、二リン酸、又は三リン酸形態であってよく、アデニン(A)、チミン(T)、ウラシル(U)、グアニン(G)、又はシトシン(C)から選択される塩基を有することができる。しかしながら、上記ヌクレオチドの非天然ヌクレオチド、修飾ヌクレオチド、又は類似体を使用することができることが理解されるであろう。有用な非天然ヌクレオチドのいくつかの例は、合成方法による可逆的ターミネーターベースの配列決定に関して以下に記載されている。
反応チャンバを含む実施形態では、物品又は固体物質(半固体物質を含む)が、反応チャンバ内に配置され得る。配置される場合、物品又は固体は、干渉嵌合、接着、又は閉じ込めを介して反応チャンバ内に物理的に保持又は固定化され得る。反応チャンバ内に配置され得る例示的な物品又は固体としては、ポリマービーズ、ペレット、アガロースゲル、粉末、量子ドット、又は反応チャンバ内で圧縮及び/又は保持され得る他の固体が挙げられる。特定の実施形態では、DNAボールなどの核酸超構造は、例えば、反応チャンバの内面に取り付けることによって、又は反応チャンバ内に液体中に滞留することによって、反応チャンバ内に又は反応チャンバに配置することができる。DNAボール又は他の核酸超構造を事前成形し、次いで、反応チャンバ内に又は反応チャンバに配置することができる。あるいは、DNAボールは、反応チャンバにおいてその場で合成することができる。DNAボールは、ローリングサークル増幅によって合成して、特定の核酸配列のコンカテマーを生成することができ、コンカテマーは、比較的コンパクトなボールを形成する条件で処理することができる。DNAボール及びそれらの合成のための方法は、例えば、米国特許出願公開第2008/0242560(A1)号又は同第2008/0234136(A1)号に記載されており、それらの各々は、その全体が本明細書に組み込まれる。反応チャンバ内に保持又は配置された物質は、固体、液体、又は気体状態であり得る。
本明細書で使用するとき、「ベースコール」は、核酸配列中のヌクレオチド塩基を識別する。ベースコールは、特定のサイクルにおいてあらゆるクラスタのベースコール(A、C、G、T)を判定するプロセスを指す。一例として、ベースコールは、米国特許出願公開第2013/0079232号の組み込まれた資料に記載されている4チャネル、2チャネル又は1チャネル方法及びシステムを利用して実行することができる。特定の実施形態では、ベースコールサイクルは、「サンプリングイベント」と呼ばれる。1色素及び2チャネル配列決定プロトコルでは、サンプリングイベントは、各段階でピクセル信号が発生するように、時系列で2つの照明段階を含む。第1の照明段階は、ATピクセル信号においてヌクレオチド塩基A及びTを示す所与のクラスタからの照明を誘導し、第2の照明段階は、CTピクセル信号においてヌクレオチド塩基C及びTを示す所与のクラスタからの照明を誘導する。
開示された技術、例えば、開示されたベースコーラは、中央処理ユニット(Central Processing Unit、CPU)、グラフィックス処理ユニット(Graphics Processing Unit、GPU)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)、粗粒度再構成可能アーキテクチャ(Coarse-Grained Reconfigurable Architecture、CGRAs)、特定用途向け集積回路(Application-Specific Integrated Circuit、ASIC)、特定用途向け命令セットプロセッサ(Application Specific Instruction-set Processor、ASIP)、及びデジタル信号プロセッサ(Digital Signal Processor、DSP)のようなプロセッサ上に実装することができる。
バイオセンサ
図1は、様々な実施形態で使用することができるバイオセンサ100の断面図を示す。バイオセンサ100は、ベースコールサイクル中に2つ以上のクラスタ(例えば、ピクセル領域当たり2つのクラスタ)をそれぞれ保持することができるピクセル領域106’、108’、110’、112’、及び114’を有する。示されるように、バイオセンサ100は、サンプリングデバイス104上に取り付けられたフローセル102を含み得る。図示の実施形態では、フローセル102は、サンプリングデバイス104に直接固定される。しかしながら、代替の実施形態では、フローセル102は、サンプリングデバイス104に取り外し可能に結合され得る。サンプリングデバイス104は、官能化され得る(例えば、所望の反応を起こすのに好適な様式で化学的又は物理的に修飾され得る)サンプル表面134を有する。例えば、サンプル表面134は、官能化されてもよく、ベースコールサイクル中に2つ以上のクラスタをそれぞれ保持することができる(例えば、それに固定化された対応するクラスタ対106A、106B、クラスタ対108A、108B、クラスタ対110A、110B、クラスタ対112A、112B、及びクラスタ対114A、114Bをそれぞれ有する)複数のピクセル領域106’、108’、110’、112’、及び114’を含み得る。各ピクセル領域は、対応するセンサ(又はピクセル若しくはフォトダイオード)106、108、110、112、及び114に関連付けられ、したがって、ピクセル領域によって受信された光は、対応するセンサによって捕捉される。ピクセル領域106’はまた、クラスタ対を保持する反応表面134上の対応する反応部位106”に関連付けられ得、したがって、反応部位106”から発光された光は、ピクセル領域106’によって受信され、対応するセンサ106によって捕捉される。この感知構造の結果として、ベースコールサイクル中に特定のセンサのピクセル領域に2つ以上のクラスタが存在する(例えば、対応するクラスタ対をそれぞれ有する)場合、そのベースコールサイクルにおけるピクセル信号は、2つ以上のクラスタの全てに基づく情報を搬送する。結果として、本明細書に記載の信号処理は、特定のベースコールサイクルの所与のサンプリングイベントにおいてピクセル信号より多くのクラスタが存在する、各クラスタを区別するために使用される。
図示の実施形態では、フローセル102は、側壁138、125、及び側壁138、125によって支持されるフローカバー136を含む。側壁138、125は、サンプル表面134に結合され、フローカバー136と側壁138、125との間に延在する。いくつかの実施形態では、側壁138、125は、フローカバー136をサンプリングデバイス104に接合する硬化性接着剤層から形成される。
側壁138、125は、フローカバー136とサンプリングデバイス104との間にフローチャネル144が存在するようにサイズ及び形状を定められる。フローカバー136は、バイオセンサ100の外部からフローチャネル144に伝搬する励起光101に対して透明な材料を含み得る。一例では、励起光101は、非直交角度でフローカバー136に近づく。
また図示のように、フローカバー136は、他のポート(図示せず)に流体的に係合するように構成された入口ポート及び出口ポート142、146を含み得る。例えば、これらの他のポートは、カートリッジ又はワークステーションからのものであり得る。フローチャネル144は、サンプル表面134に沿って流体を方向付けるようにサイズ及び形状を定められる。フローチャネル144の高さH及び他の寸法は、サンプル表面134に沿って流体の実質的に均一な流れを維持するように構成され得る。フローチャネル144の寸法はまた、気泡形成を制御するように構成され得る。
例として、フローカバー136(又はフローセル102)は、ガラス又はプラスチックなどの透明材料を含み得る。フローカバー136は、平面状の外面と、フローチャネル144を画定する平面状の内面とを有する、実質的に長方形のブロックを構成し得る。ブロックは、側壁138、125上に取り付けられ得る。あるいは、フローセル102をエッチングして、フローカバー136及び側壁138、125を画定することができる。例えば、凹部が、透明材料にエッチングされ得る。エッチングされた材料がサンプリングデバイス104に取り付けられると、凹部はフローチャネル144になり得る。
サンプリングデバイス104は、例えば、複数のスタック基材層120~126を備える集積回路と同様であり得る。基材層120~126は、ベース基材120、ソリッドステートイメージャ122(例えば、CMOS画像センサ)、フィルタ又は光管理層124、並びにパッシベーション層126を含み得る。上記は単なる例示であり、他の実施形態はより少ない又は追加の層を含み得ることに留意されたい。更に、基材層120~126の各々は、複数の副層を含み得る。サンプリングデバイス104は、CMOS画像センサ及びCCDなどの集積回路を製造する際に使用されるものと同様のプロセスを使用して製造され得る。例えば、基材層120~126又はそれらの一部は、サンプリングデバイス104を形成するために成長、堆積、エッチングなどを行うことができる。
パッシベーション層126は、フローチャネル144の流体環境からフィルタ層124を遮蔽するように構成されている。場合によっては、パッシベーション層126はまた、生体分子又は他の対象となる検体がその上に固定化されることを可能にする固体表面(すなわち、サンプル表面134)を提供するように構成されている。例えば、反応部位の各々は、サンプル表面134に固定化された生体分子のクラスタを含み得る。したがって、パッシベーション層126は、反応部位がそれに固定化されることを可能にする材料から形成され得る。パッシベーション層126はまた、所望の蛍光に対して少なくとも透明である材料を含み得る。例として、パッシベーション層126は、窒化ケイ素(Si)及び/又はシリカ(SiO)を含み得る。しかしながら、他の好適な材料を使用することができる。図示の実施形態では、パッシベーション層126は、実質的に平面状であり得る。しかしながら、代替の実施形態では、パッシベーション層126は、ピット、ウェル、溝などの凹部を含み得る。図示の実施形態では、パッシベーション層126は、約150~200nm、より具体的には約170nmの厚さを有する。
フィルタ層124は、光の透過に影響を及ぼす様々な特徴を含み得る。いくつかの実施形態では、フィルタ層124は、複数の機能を実行することができる。例えば、フィルタ層124は、(a)励起光源からの光信号など、不要な光信号をフィルタリングするか、(b)反応部位からの発光信号を、反応部位からの発光信号を検出するように構成された対応するセンサ106、108、110、112、及び114に向かって方向付けるか、又は(c)隣接する反応部位からの不要な発光信号の検出を遮断若しくは防止するように構成され得る。したがって、フィルタ層124は光管理層とも呼ばれ得る。図示の実施形態では、フィルタ層124は、約1~5μm、より具体的には約2~4μmの厚さを有する。代替の実施形態では、フィルタ層124は、マイクロレンズ又は他の光学構成要素のアレイを含み得る。マイクロレンズの各々は、関連する反応部位からの発光信号をセンサに方向付けるように構成され得る。
いくつかの実施形態では、ソリッドステートイメージャ122及びベース基材120は、以前に構成されたソリッドステート撮像デバイス(例えば、CMOSチップ)として一緒に提供され得る。例えば、ベース基材120は、シリコンのウェハであってもよく、ソリッドステートイメージャ122は、その上に取り付けられてもよい。ソリッドステートイメージャ122は、半導体材料(例えば、シリコン)の層、並びにセンサ106、108、110、112、及び114を含む。図示の実施形態では、センサは、光を検出するように構成されたフォトダイオードである。他の実施形態では、センサは、光検出器を備える。ソリッドステートイメージャ122は、CMOSベースの製造プロセスを介して単一のチップとして製造され得る。
ソリッドステートイメージャ122は、フローチャネル144内からの又はフローチャネル144に沿った所望の反応を示すアクティビティを検出するように構成されたセンサ106、108、110、112、及び114の高密度アレイを含み得る。いくつかの実施形態では、各センサは、約1~2平方マイクロメートル(μm)であるピクセル領域(又は検出領域)を有する。アレイは、500,000個のセンサ、500万個のセンサ、1000万個のセンサ、又は更に1億2000万個のセンサを含むことができる。センサ106、108、110、112、及び114は、所望の反応を示す所定の光の波長を検出するように構成することができる。
いくつかの実施形態では、サンプリングデバイス104は、参照によりその全体が本明細書に組み込まれる米国特許第7,595,882号に記載されているマイクロ回路配置などのマイクロ回路配置を含む。より具体的には、サンプリングデバイス104は、センサ106、108、110、112、及び114の平面アレイを有する集積回路を備え得る。サンプリングデバイス104内に形成された回路は、信号増幅、デジタル化、記憶、及び処理のうちの少なくとも1つのために構成され得る。回路は、検出された蛍光を収集及び分析し、検出データを信号プロセッサに通信するためのピクセル信号(又は検出信号)を発生させることができる。回路はまた、サンプリングデバイス104において追加のアナログ及び/又はデジタル信号処理を実行し得る。サンプリングデバイス104は、信号ルーティングを実行する(例えば、ピクセル信号を信号プロセッサに送信する)導電ビア130を含み得る。ピクセル信号はまた、サンプリングデバイス104の電気接点132を通って送信され得る。
サンプリングデバイス104は、本明細書に完全に記載されているかのように参照により組み込まれる、2020年5月14日に出願された「Systems and Devices for Characterization and Performance Analysis of Pixel-Based Sequencing」と題する米国非仮特許出願第16/874,599号(代理人整理番号ILLM1011-4/IP-1750-US)に関して更に詳細に論じられている。サンプリングデバイス104は、上述されたような上記の構成又は使用に限定されない。代替の実施形態では、サンプリングデバイス104は、他の形態をとってもよい。例えば、サンプリングデバイス104は、フローセルに結合されているか、又は反応部位をその中に有するフローセルとインターフェース接続するように移動される、CCDカメラなどのCCDデバイスを備え得る。
図2は、そのタイル内にクラスタを含むフローセル200の一実装形態を示す。フローセル200は、図1のフローセル102に対応し、例えば、フローカバー136なしである。更に、フローセル200の描写は、本質的に記号的であり、フローセル200は、その中に様々な他の構成要素を示すことなく、その中に様々なレーン及びタイルを記号的に示している。図2は、フローセル200の上面図を示している。
一実施形態では、フローセル200は、レーン202a、202b、...、202P、すなわち、P個のレーンなど、複数のレーンに分けられるか又は分割される。図2の例では、フローセル200は、8つのレーンを含むように、すなわち、この例ではP=8であるように示されているが、フローセル内のレーンの数は、実装形態固有である。
一実施形態では、個々のレーン202は、「タイル」212と呼ばれる非重複領域に更に分割される。例えば、図2は、例示的なレーンのセクション208の拡大図を示している。セクション208は、複数のタイル212を含むように示されている。
実施例では、各レーン202は、1つ以上のタイル列を含む。例えば、図2では、各レーン202は、拡大セクション208内に示されているように、2つの対応するタイル列212を含む。各レーン内の各タイル列内のタイルの数は、実装形態固有であり、一例では、各レーン内の各タイル列に50個のタイル、60個のタイル、100個のタイル、又は別の適切な数のタイルが存在し得る。
各タイルは、対応する複数のクラスタを含む。配列決定手順中、タイル上のクラスタ及びそれらの周囲の背景が撮像される。例えば、図2は、例示的なタイル内の例示的なクラスタ216を示している。
図3は、8つのレーンを有する例示的なIllumina GA-IIx(商標)フローセルを示し、1つのタイル及びそのクラスタ及びそれらの周囲の背景のズームインも示す。例えば、Illumina Genome Analyzer IIのレーン当たり100タイル、及びIllumina HiSeq2000内のレーン当たり68個のタイルが存在する。タイル212は数十万~数百万個のクラスタを保持する。図3では、明るい斑点として示されているクラスタを有するタイルから発生した画像は、308に示されており(例えば、308は、タイルの拡大画像図であり)、例示的なクラスタ304は標識されている。クラスタ304は、テンプレート分子の約千個の同一のコピーを含むが、クラスタはサイズ及び形状が異なる。クラスタは、配列決定実行前に、入力ライブラリのブリッジ増幅によって、テンプレート分子から成長させる。増幅及びクラスタ成長の目的は、撮像デバイスが単一の蛍光団を確実に感知できないため、放出された信号の強度を増大させることである。しかしながら、クラスタ304内のDNAフラグメントの物理的距離は小さいため、撮像デバイスは、フラグメントのクラスタを単一のスポット304として知覚する。
クラスタ及びタイルは、2020年3月20日に出願された「TRAINING DATA GENERATION FOR ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国非仮特許出願第16/825,987号(代理人整理番号ILLM1008-16/IP-1693-US)に関して更に詳細に論じられている。
図4は、ベースコールセンサ出力など、配列決定システムからのセンサデータの分析のためのシステムの簡略ブロック図である(例えば、図1を参照)。図4の例では、システムは、配列決定マシン400及び構成可能なプロセッサ450を含む。構成可能なプロセッサ450は、中央処理ユニット(central processing unit、CPU)402などのホストプロセッサによって実行されるランタイムプログラムと協調して、ニューラルネットワークベースのベースコーラを実行することができる。配列決定マシン400は、(例えば、図1~図3に関して論じられた)ベースコールセンサ及びフローセル401を備える。フローセルは、図1~図3に関して論じられたように、遺伝物質のクラスタが、クラスタ内の反応を引き起こして遺伝物質中の塩基を識別するために使用される検体フローの配列に曝露される1つ以上のタイルを含むことができる。センサは、タイルデータを提供するために、フローセルの各タイルにおける配列の各サイクルの反応を感知する。この技術の実施例は、以下により詳細に記載される。遺伝的配列決定はデータ集約的操作であり、このデータ集約的動作は、ベースコールセンサデータを、ベースコール動作中に感知された各遺伝物質群のベースコールの配列に変換する。
この実施例のシステムは、ベースコール動作を調整するランタイムプログラムを実行するCPU402と、タイルデータのアレイの配列、ベースコール動作によって生成されたベースコール読み取り、及びベースコール動作で使用される他の情報を記憶するメモリ403と、を含む。また、この図では、システムは、構成ファイル(又は複数のファイル)、例えば、FPGAビットファイル、及び構成可能なプロセッサ450を構成及び再構成し、かつニューラルネットワークを実行するために使用されるニューラルネットワークのモデルパラメータを記憶するメモリ404を含む。配列決定マシン400は、構成可能なプロセッサを構成するためのプログラムを含むことができ、いくつかの実施形態では、ニューラルネットワークを実行する再構成可能なプロセッサを含むことができる。
配列決定マシン400は、バス405によって、構成可能なプロセッサ450に結合される。バス405は、PCI-SIG規格(PCI Special Interest Group)によって現在維持及び開発されているPCIe規格(Peripheral Component Interconnect Express)と互換性のあるバス技術などの高スループット技術を使用して実装することができる。また、この実施例では、メモリ460は、バス461によって、構成可能なプロセッサ450に結合される。メモリ460は、構成可能なプロセッサ450を有する回路基板上に配置されたオンボードメモリであってもよい。メモリ460は、ベースコール動作で使用される作業データの構成可能なプロセッサ450による高速アクセスに使用される。バス461はまた、PCIe規格と互換性のあるバス技術などの高スループット技術を使用して実装することもできる。
フィールドプログラマブルゲートアレイ(FPGA)、粗粒化された再構成可能アレイ(Coarse Grained Reconfigurable Array、CGRA)、及び他の構成可能かつ再構成可能なデバイスを含む、構成可能なプロセッサは、コンピュータプログラムを実行する汎用プロセッサを使用して達成され得るよりも、より効率的に又はより高速に様々な機能を実装するように構成することができる。構成可能なプロセッサの構成は、時にはビットストリーム又はビットファイルと呼ばれる構成ファイルを生成するために機能的な説明を編集することと、構成ファイルをプロセッサ上の構成可能要素に配布することと、を含む。
構成ファイルは、データフローパターンを設定するように回路を構成することにより、分散メモリ及び他のオンチップメモリリソースの使用、ルックアップテーブルコンテンツ、構成可能な論理ブロックの動作、及び構成可能な論理ブロックの動作、及び構成可能なアレイの構成可能な相互接続及び他の要素のような構成可能な実行ユニットを含む。構成ファイルがフィールド内で変更され得る場合、ロードされた構成ファイルを変更することによって構成ファイルを変更することができる場合に再構成可能である。例えば、構成ファイルは、揮発性SRAM要素内に、不揮発性読み書きメモリ素子内に記憶されてもよく、構成可能又は再構成可能なプロセッサ上の構成可能要素のアレイ間に分散されたものであってもよい。様々な市販の構成可能なプロセッサは、本明細書に記載されるようなベースコール動作において使用するのに好適である。例としては、Xilinx Alveo(商標)U200、Xilinx Alveo(商標)U250、Xilinx Alveo(商標)U280、Intel/Altera Stratix(商標)GX2800、Intel/Altera Stratix(商標)GX2800、及びIntel Stratix(商標)GX10Mなどの市販の製品が挙げられる。いくつかの実施例では、ホストCPUは、構成可能なプロセッサと同じ集積回路上に実装することができる。
本明細書に記載の実施形態は、構成可能なプロセッサ450を使用して、マルチサイクルニューラルネットワークを実装する。構成可能なプロセッサの構成ファイルは、高レベルの記述言語(high-level description language、HDL)又はレジスタ転送レベル(register transfer level、RTL)言語仕様を使用して実行される論理機能を指定することによって実装することができる。本明細書は、選択された構成可能なプロセッサが構成ファイルを発生させるように設計されたリソースを使用してコンパイルすることができる。構成可能なプロセッサではない場合がある特定用途向け集積回路の設計を発生させる目的で、同じ又は類似の仕様をコンパイルすることができる。
したがって、本明細書に記載される全ての実施形態における構成可能なプロセッサの代替例は、本明細書に記載されるニューラルネットワークベースのベースコール動作を実行するように構成された、特定用途向けASIC又は専用集積回路又は集積回路のセット、あるいはシステムオンチップSOCデバイスを含む、構成されたプロセッサを含む。
一般に、ニューラルネットワークの動作を実行するように構成された、本明細書に記載の構成可能なプロセッサ及び構成されたプロセッサは、本明細書ではニューラルネットワークプロセッサと呼ばれる。
構成可能なプロセッサ450は、この実施例では、CPU402によって実行されるプログラムを使用してロードされた構成ファイルによって、又は構成可能なプロセッサ454上の構成可能な要素のアレイを構成してベースコール機能を実行する他のソースによって構成されている。この実施例では、構成は、バス405及び461に結合され、ベースコール動作で使用される要素間でデータ及び制御パラメータを分配する機能を実行するデータフロー論理451を含む。
また、構成可能なプロセッサ450は、マルチサイクルニューラルネットワークを実行するためにベースコール実行論理452を用いて構成されている。論理452は、複数のマルチサイクル実行クラスタ(例えば、453)を含み、これは、この実施例では、マルチサイクルクラスタ1からマルチサイクルクラスタXを含む。マルチサイクルクラスタの数は、動作の所望のスループットを伴うトレードオフ、及び構成可能なプロセッサ上の利用可能なリソースに従って選択することができる。
マルチサイクルクラスタは、構成可能なプロセッサ上の構成可能な相互接続及びメモリリソースを使用して実装されるデータフロー経路454によってデータフロー論理451に結合される。また、マルチサイクルクラスタは、例えば構成可能なプロセッサ上の構成可能な相互接続及びメモリリソースを使用して実装された制御経路455によってデータフロー論理451に結合されている。それは、利用可能なクラスタ、ニューラルネットワークの動作の実行のための入力ユニットを利用可能なクラスタに提供する準備ができていること、ニューラルネットワークの訓練されたパラメータを提供する準備ができていること、ベースコール分類データの出力パッチを提供する準備ができていること、及びニューラルネットワークの実行に使用される他の制御データを示す、制御信号を提供する。
構成可能なプロセッサは、訓練されたパラメータを使用してマルチサイクルニューラルネットワークの動作を実行して、ベースコール動作の感知サイクルに関する分類データを生成するように構成されている。ニューラルネットワークの動作を実行して、ベースコール動作の被験者感知サイクルの分類データを生成する。ニューラルネットワークの動作は、N個の感知サイクルのそれぞれの感知サイクルからのタイルデータのアレイの数Nを含む配列に対して動作し、N個の感知サイクルは、本明細書に記載される実施例では、時系列における動作ごとに1つの塩基位置に対する異なるベースコール動作のセンサデータを提供する。任意選択的に、N個の感知サイクルのうちのいくつかは、実行されている特定のニューラルネットワークモデルに従って必要に応じて、配列から外れることができる。数Nは、1を超える任意の数であり得る。本明細書に記載されるいくつかの実施例では、N個の感知サイクルの感知サイクルは、時系列で、被験者感知サイクルに先行する少なくとも1つの感知サイクル、及び被験者サイクルに後続する少なくとも1つの感知サイクルについての感知サイクルのセットを表す。本明細書では、数Nが5以上の整数である実施例が記載される。
データフロー論理451は、N個のアレイの空間的に位置合わせされたパッチのタイルデータを含む所与の動作のための入力ユニットを使用して、ニューラルネットワークの動作のために、メモリ460から、構成可能なプロセッサに、タイルデータ、及びモデルの少なくともいくつかの訓練されたパラメータを移動させるように構成されている。入力ユニットは、1回のDMA動作におけるダイレクトメモリアクセス動作によって、又は、配備されたニューラルネットワークの実行と協調して、利用可能なタイムスロットの間に移動するより小さいユニット内で移動させることができる。
本明細書に記載される感知サイクルのタイルデータは、1つ以上の特徴を有するセンサデータのアレイを含むことができる。例えば、センサデータは、DNA、RNA、又は他の遺伝物質の遺伝的配列における塩基位置で4塩基のうちの1つを識別するために分析される2つの画像を含むことができる。タイルデータはまた、画像及びセンサに関するメタデータを含むことができる。例えば、ベースコール動作の実施形態では、タイルデータは、タイル上の遺伝物質群の中心からのセンサデータのアレイ内の各ピクセルの距離を示す中心情報からの距離などの、クラスタとの画像の位置合わせに関する情報を含むことができる。
以下に記載されるようなマルチサイクルニューラルネットワークの実行中に、タイルデータはまた、中間データと呼ばれる、マルチサイクルニューラルネットワークの実行中に生成されたデータを含むことができ、これは、マルチサイクルニューラルネットワークの実行中に再計算されるのではなく再利用され得る。例えば、マルチサイクルニューラルネットワークの実行中に、データフロー論理は、タイルデータのアレイの所与のパッチのセンサデータの代わりに、中間データをメモリ460に書き込むことができる。このような実施形態は、以下により詳細に記載される。
図示されているように、ベースコール動作の感知サイクルからタイルのセンサデータを含むタイルデータを記憶するランタイムプログラムによってアクセス可能なメモリ(例えば、460)を含む、ベースコールセンサ出力の分析のためのシステムが説明される。また、システムは、メモリへのアクセスを有する構成可能なプロセッサ450などのニューラルネットワークプロセッサを含む。ニューラルネットワークプロセッサは、訓練されたパラメータを使用してニューラルネットワークの動作を実行して、感知サイクルのための分類データを生成するように構成される。本明細書に記載されるように、ニューラルネットワークの動作は、被験者サイクルを含むN個の感知サイクルのそれぞれの感知サイクルからタイルデータのN個のアレイの配列で動作して、被験者サイクルの分類データを生成する。データフロー論理451は、N個の感知サイクルのそれぞれの感知サイクルからのN個のアレイの空間的に位置合わせされたパッチのデータを含む入力ユニットを使用して、ニューラルネットワークの実行のために、メモリからニューラルネットワークプロセッサにタイルデータ及び訓練されたパラメータを移動させるために提供される。
また、ニューラルネットワークプロセッサがメモリへのアクセスを有し、複数の実行クラスタを含み、複数の実行クラスタ内の実行論理クラスタがニューラルネットワークを実行するように構成されているシステムも説明される。データフロー論理は、メモリへのアクセス、及び複数の実行クラスタ内のクラスタを実行して、複数の実行クラスタ内の利用可能な実行クラスタにタイルデータの入力ユニットを提供し、入力ユニットは、それぞれの感知サイクルからタイルデータのアレイの空間的に位置合わせされたパッチの数Nを含む、入力ユニットと、被験者感知サイクルを含み、N個の空間的に位置合わせされたパッチをニューラルネットワークに適用して、被験者感知サイクルの空間的に位置合わせされたパッチの分類データの出力パッチを生成させるように、実行クラスタに、ニューラルネットワークにN個の空間的に位置合わせされたパッチを適用させることと、を含み、Nは1より大きい。
図5は、ホストプロセッサによって実行されるランタイムプログラムの機能を含む、ベースコール動作の態様を示す簡略図である。この図では、(図1及び図2に示されたものなどの)フローセルからの画像センサの出力は、ライン500上で画像処理スレッド501に提供され、画像処理スレッド501は、個々のタイルのセンサデータのアレイの再サンプリング、位置合わせ及び配置などの画像に対するプロセスを実行することができ、フローセル内の各タイルのタイルクラスタマスクを計算するプロセスによって使用することができ、フローセルの対応するタイル上の遺伝物質のクラスタに対応するセンサデータのアレイ内のピクセルを識別するプロセスによって使用することができる。クラスタマスクを計算するために、1つの例示的なアルゴリズムは、ソフトマックス出力から導出されたメトリックを使用して初期配列決定サイクルで信頼できないクラスタを検出するプロセスに基づいており、次いで、それらのウェル/クラスタからのデータは廃棄され、それらのクラスタの出力データは生成されない。例えば、プロセスは、最初のN1個の(例えば、25個の)ベースコール中に信頼性が高いクラスタを識別し、他のクラスタを拒否することができる。拒否されたクラスタは、基準によるとポリクローナル又は非常に弱い強度又は不明瞭であり得る。この手順は、ホストCPUで実行することができる。代替の実装形態では、潜在的にこの情報を使用して、CPUに戻されるべき対象となる必要なクラスタを識別し、それにより、中間データに必要なストレージを制限し得る。
画像処理スレッド501の出力は、ライン502上でCPU内のディスパッチ論理510に提供され、ディスパッチ論理510は、ベースコール動作の状態に従って、タイルデータのアレイを、高速バス503上でデータキャッシュ504に、又は高速バス505上で、図4の構成可能なプロセッサなどのマルチクラスタニューラルネットワークプロセッサハードウェア520にルーティングする。ハードウェア520は、ニューラルネットワークによって出力された分類データをディスパッチ論理510に返し、ディスパッチ論理510は、情報をデータキャッシュ504に、又はライン511上でスレッド502に渡し、それは、分類データを使用してベースコール及び品質スコア計算を実行し、ベースコール読み取りのための標準フォーマットでデータを配置することができる。ベースコール及び品質スコア計算を実行するスレッド502の出力は、ライン512上でスレッド503に提供され、それは、ベースコール読み取りを集約し、データ圧縮などの他の動作を実行し、結果として得られたベースコール出力を顧客による利用のために指定された宛先に書き込む。
いくつかの実施形態では、ホストは、ニューラルネットワークをサポートするハードウェア520の出力の最終処理を実行する、スレッド(図示せず)を含むことができる。例えば、ハードウェア520は、マルチクラスタニューラルネットワークの最終層から分類データの出力を提供することができる。ホストプロセッサは、ベースコール及び品質スコアスレッド502によって使用されるデータを設定するために、分類データを超えて、ソフトマックス関数などの出力起動機能を実行することができる。また、ホストプロセッサは、ハードウェア520に入力する前に、タイルデータの再サンプリング、バッチ正規化又は他の調整などの入力動作(図示せず)を実行することができる。
図6は、図4の構成可能なプロセッサなど、構成可能なプロセッサの構成の簡略図である。図6では、構成可能なプロセッサは、複数の高速PCIeインターフェースを有するFPGAを備える。FPGAは、図1を参照しながら記載されたデータフロー論理を含むラッパー600を用いて構成されている。ラッパー600は、CPU通信リンク609を介してCPU内のランタイムプログラムとのインターフェース及び調整を管理し、DRAM通信リンク610を介してオンボードDRAM602(例えば、メモリ460)との通信を管理する。ラッパー600内のデータフロー論理は、数Nのサイクルのために、オンボードDRAM602上のタイルデータのアレイをクラスタ601まで横断することによって取得されたパッチデータを提供し、クラスタ601からプロセスデータ615を取得して、オンボードDRAM602に配信する。ラッパー600はまた、タイルデータの入力アレイと、分類データの出力パッチの両方について、オンボードDRAM602とホストメモリとの間のデータの転送を管理する。ラッパーは、ライン613上でパッチデータを、割り当てられたクラスタ601に転送する。ラッパーは、クラスタ601に、ライン612上で、オンボードDRAM602から取得された重みやバイアスなどの訓練されたパラメータを提供する。ラッパーは、クラスタ601に、ライン611上で、CPU通信リンク609を介してホスト上のランタイムプログラムから提供されるか又はそれに応答して発生した構成及び制御データを提供する。クラスタはまた、タイルデータのアレイの横断を管理して空間的に位置合わせされたパッチデータを提供し、かつクラスタ601のリソースを使用してパッチデータ上でマルチサイクルニューラルネットワークを実行するために、ホストからの制御信号と協働して使用される状態信号を、ライン616上でラッパー600に提供することができる。
上述のように、タイルデータの複数のパッチのうちの対応するパッチ上で実行するように構成されたラッパー600によって管理される単一の構成可能なプロセッサ上に複数のクラスタが存在し得る。各クラスタは、本明細書に記載される複数の感知サイクルのタイルデータを使用して、被験者感知サイクルにおけるベースコールの分類データを提供するように構成することができる。
システムの例では、フィルタ重み及びバイアスのようなカーネルデータを含むモデルデータをホストCPUから構成可能なプロセッサに送信することができ、その結果、モデルは、サイクル数の関数として更新され得る。ベースコール動作は、代表的な例では、数百の感知サイクルの順序で含むことができる。ベースコール動作は、いくつかの実施形態では、ペア端部読み取りを含むことができる。例えば、モデル訓練されたパラメータは、20サイクルごと(又は他の数のサイクル)ごとに、又は特定のシステム及びニューラルネットワークモデルに実装される更新パターンに従って更新されてもよい。タイル上の遺伝的クラスタ内の所与のストリングのための配列が、ストリングの第1の端部から下方に(又は上方に)延在する第1の部分と、ストリングの第2の端部から上方に(又は下方に)に延在する第2の部分とを含む、ペア端部読み取りを含むいくつかの実施形態では、訓練されたパラメータは、第1の部分から第2の部分への遷移で更新され得る。
いくつかの実施例では、タイルのための感知データの複数サイクルの画像データは、CPUからラッパー600に送信することができる。ラッパー600は、任意選択的に、感知データの一部の前処理及び変換を行い、その情報をオンボードDRAM602に書き込むことができる。各感知サイクルの入力タイルデータは、タイル当たり感知サイクル当たり4000×3000ピクセル以上を含むセンサデータのアレイを含むことができ、2つの特徴はタイルの2つの画像の色を表し、1ピクセル当たり1つ又は2つのバイトを含むセンサデータのアレイを含むことができる。数Nが、マルチサイクルニューラルネットワークの各動作において使用される3回の感知サイクルである実施形態では、マルチサイクルニューラルネットワークの各動作のためのタイルデータのアレイは、タイル当たり数百メガバイトの数で消費することができる。システムのいくつかの実施形態では、タイルデータはまた、タイルごとに1回記憶されたDFCデータのアレイ、又はセンサデータ及びタイルに関する他のタイプのメタデータも含む。
動作中、マルチサイクルクラスタが利用可能である場合、ラッパーは、パッチをクラスタに割り当てる。ラッパーは、タイルの横断面にタイルデータの次のパッチをフェッチし、適切な制御及び構成情報とともに割り当てられたクラスタに送信する。クラスタは、構成可能なプロセッサ上の十分なメモリを用いて構成されて、パッチを含むデータのパッチを、定位置に処理されているいくつかのシステム内で複数サイクルから保持するのに十分なメモリを有するように構成することができ、様々な実施形態では、ピンポンバッファ技術又はラスタ走査技術を使用して処理される。
割り当てられたクラスタが、現在のパッチのニューラルネットワークのその動作を完了し、出力パッチを生成すると、それはラッパーに信号を送る。ラッパーは、割り当てられたクラスタから出力パッチを読み出すか、あるいは割り当てられたクラスタは、データをラッパーにプッシュする。次いで、ラッパーは、DRAM602内の処理されたタイルのための出力パッチを組み立てることになる。タイル全体の処理が完了し、データの出力パッチがDRAMに転送されると、ラッパーは、処理された出力アレイを、特定のフォーマットでホスト/CPUに返送する。いくつかの実施形態では、オンボードDRAM602は、ラッパー600内のメモリ管理論理によって管理される。ランタイムプログラムは、リアルタイム分析を提供するために連続フローで動作する全てのサイクルについての全てのタイルデータのアレイの分析を完了するために、配列決定動作を制御することができる。
図7は、本明細書に記載のシステムを使用して実行することができるマルチサイクルニューラルネットワークモデルの図である。図7に示される例は、5サイクル入力、1サイクル出力ニューラルネットワークと呼ばれ得る。マルチサイクルニューラルネットワークモデルへの入力は、所与のタイルの5つの感知サイクルのタイルデータアレイからの、5つの空間的に位置合わせされたパッチ(例えば、700)を含む。空間的に位置合わせされたパッチは、セット内の他のパッチと同じ位置合わせされた行及び列の寸法(x、y)を有し、その結果、情報は、配列サイクルにおけるタイル上の遺伝物質の同じクラスタに関連する。この例では、被験者パッチは、サイクルKのタイルデータのアレイからのパッチである。5つの空間的に位置合わせされたパッチのセットは、2サイクルだけ被験者パッチに先行するサイクルK-2からのパッチと、1サイクルだけ被験者パッチに先行するサイクルK-1からのパッチと、1サイクルだけ被験者サイクルからパッチに後続するサイクルK+1からのパッチと、2サイクルだけ被験者サイクルからパッチに後続するサイクルK+2からのパッチと、を含む。
モデルは、入力パッチの各々に対して、ニューラルネットワークの層の分離されたスタック701を含む。したがって、スタック701は、サイクルK+2からのパッチのタイルデータを入力として受信し、それらが入力データ又は中間データを共有しないようにスタック702、703、704、及び705から分離される。いくつかの実施形態では、スタック710~705の全ては、同一のモデル、及び同一の訓練されたパラメータを有することができる。他の実施形態では、モデル及び訓練されたパラメータは、異なるスタックにおいて異なり得る。スタック702は、サイクルK+1からのパッチのタイルデータを入力として受信する。スタック703は、サイクルKからのパッチのタイルデータを入力として受信する。スタック704は、サイクルK-1からのパッチのタイルデータを入力として受信する。スタック705は、サイクルK-2からのパッチのタイルデータを入力として受信する。分離されたスタックの層は各々、層の入力データにわたって複数のフィルタを含むカーネルの畳み込み動作を実行する。上記の例のように、パッチ700は、3つの特徴を含み得る。層710の出力は、10~20個の特徴など、より多くの特徴を含み得る。同様に、層711~716の各々の出力は、特定の実装形態に好適な任意の数の特徴を含むことができる。フィルタのパラメータは、重み及びバイアスなど、ニューラルネットワークの訓練されたパラメータである。スタック701~705の各々からの出力特徴セット(中間データ)は、複数のサイクルからの中間データが組み合わされる時間的組み合わせ層の逆階層720への入力として提供される。例示される例では、逆階層720は、分離されたスタックのうちの3つから中間データをそれぞれ受信する、3つの組み合わせ層721、722、723を含む第1の層と、3つの時間層721、722、723から中間データを受信する、1つの組み合わせ層730を含む最終層と、を含む。
最終組み合わせ層730の出力は、サイクルKからタイルの対応するパッチに位置するクラスタの分類データの出力パッチである。出力パッチは、サイクルKのタイルの出力アレイ分類データに組み立てることができる。いくつかの実施形態では、出力パッチは、入力パッチとは異なるサイズ及び寸法を有し得る。いくつかの実施形態では、出力パッチは、クラスタデータを選択するためにホストによってフィルタリングされ得るピクセルごとのデータを含み得る。
次いで、出力分類データを、特定の実装形態に応じて、ホストによって、又は構成可能なプロセッサ上で任意選択的に実行されるソフトマックス関数740(又は他の出力起動機能)に適用することができる。ソフトマックスとは異なる出力関数を使用することができる(例えば、最大出力に従ってベースコール出力パラメータを作製し、次いで、コンテキスト/ネットワーク出力を使用して学習された非線形マッピングを使用して、ベース品質を与える)。
最後に、ソフトマックス関数740の出力は、サイクルKのベースコール確率(750)として提供され、その後の処理で使用されるホストメモリに記憶され得る。他のシステムは、出力確率計算のために別の関数、例えば、別の非線形モデルを使用することができる。
ニューラルネットワークは、複数の実行クラスタを有する構成可能なプロセッサを使用して実装して、1つの感知サイクルの時間間隔の持続時間内に、又は時間間隔の持続時間の近くで1つのタイルサイクルの評価を完了し、リアルタイムで出力データを効果的に出力することができる。データフロー論理は、タイルデータ及び訓練されたパラメータの入力ユニットを実行クラスタに分配するように、かつメモリでのアグリゲーションのために出力パッチを分配するように構成することができる。
図7のものと同様の5サイクル入力、1サイクル出力ニューラルネットワークのデータの入力ユニットは、2チャネルセンサデータを使用したベースコール動作について図8A及び図8Bを参照しながら説明される。例えば、遺伝的配列における所与の塩基について、ベースコール動作は、検体の2つの流れ及び2つの反応を実行することができ、これは、画像などの信号の2つのチャネルを発生させ、これは、遺伝物質の各クラスタについて遺伝的配列の現在の位置に4つの塩基のうちのどの1つが位置するかを識別するように処理され得る。他のシステムでは、感知データの異なる数のチャネルが利用され得る。例えば、ベースコールは、1チャネル方法及びシステムを利用して実行することができる。米国特許出願公開第2013/0079232号の組み込まれた資料は、1チャネル、2チャネル、又は4チャネルなど、様々な数のチャネルを使用してベースコールを論じている。
図8Aは、5サイクル入力、1サイクル出力ニューラルネットワークを実行する目的で使用される、所与のタイル、タイルMのための5サイクルのタイルデータのアレイを示す。この実施例における5サイクル入力タイルデータは、データフロー論理によってアクセスされ得るシステム内のオンボードDRAM又は他のメモリに書き込まれ、サイクルK-2のために、チャネル1のアレイ801及びチャネル2のアレイ811を含み、サイクルK-1のために、チャネル1のアレイ802及びチャネル2のアレイ812を含み、サイクルKのために、チャネル1のアレイ803及びチャネル2のアレイ813を含み、サイクルK+1のために、チャネル1のアレイ804及びチャネル2のアレイ814を含み、サイクルK+2のために、チャネル1のアレイ805及びチャネル2のアレイ815を含むことができる。また、タイルのメタデータのアレイ820は、メモリに1回書き込むことができ、この場合、各サイクルとともにニューラルネットワークへの入力として使用するために含まれるDFCファイルが含まれる。
図8Aは2チャネルベースコール動作を論じているが、2つのチャネルを使用することは単なる例であり、ベースコールは、任意の他の適切な数のチャネルを使用して実行することができる。例えば、米国特許出願公開第2013/0079232号の組み込まれた資料は、1チャネル、2チャネル、又は4チャネル、又は別の適切な数のチャネルなど、様々な数のチャネルを使用してベースコールを論じている。
データフロー論理は、入力パッチ上でニューラルネットワークの実行を実行するように構成された各実行クラスタについてタイルデータのアレイの空間的に位置合わせされたパッチを含むタイルデータの、図8Bを参照して理解され得る入力ユニットを構成する。割り当てられた実行クラスタの入力ユニットは、5つの入力サイクルのためのタイルデータのアレイ801~805、811、815、820の各々からの空間的に位置合わせされたパッチ(例えば、851、852、861、862、870)を読み取り、それらを、データ経路(概略的には850)を介して、割り当てられた実行クラスタが使用するために構成された構成可能なプロセッサ上のメモリに送達することによって、データフロー論理によって構成される。割り当てられた実行クラスタは、5サイクル入力/1サイクル出力ニューラルネットワークの実行を実行し、被験者サイクルKのタイルの同じパッチについて分類データの被験者サイクルKの出力パッチを送達する。
図9は、図7のもの(例えば、701及び720)のようなシステムで使用可能なニューラルネットワークのスタックの簡略化された表現である。この例では、ニューラルネットワークのいくつかの機能(例えば、900、902)は、ホスト上で実行され、ニューラルネットワークの他の部分(例えば、901)は、構成可能なプロセッサ上で実行される。
一例では、第1の機能は、CPU上に形成されたバッチ正規化(層910)であり得る。しかしながら、別の例では、機能としてのバッチ正規化は、1つ以上の層に融合されてもよく、別個のバッチ正規化層は存在しなくてもよい。
いくつかの空間的な分離された畳み込み層は、構成可能なプロセッサについて上記で論じられたように、ニューラルネットワークの畳み込み層の第1のセットとして実行される。この例では、畳み込み層の第1のセットは、空間的に2D畳み込みを適用する。
図9に示されるように、各スタック内の空間的に分離されたニューラルネットワーク層の数L/2に対して(Lは図7を参照しながら説明された)、第1の空間畳み込み921が実行され、続いて第2の空間畳み込み922が実行され、続いて第3の空間畳み込み923が実行され、以下同様である。923Aに示されるように、空間層の数は、任意の実際的な数であり得、これは、コンテキストにおいて、異なる実施形態では、数個~20超の範囲であり得る。
SP_CONV_0の場合、カーネル重みは、この層に3つの入力チャネルがあるため、例えば(1、6、6、3、L)構造で記憶される。この実施例では、この構造の「6」は、変換されたWinogradドメインに係数を記憶することによるものである(カーネルサイズは空間ドメインでは3×3であるが、変換ドメインでは拡張する)。
他のSP_CONV層の場合、カーネル重みは、これらの層の各々についてK(=L)個の入力及び出力があるため、この実施例では(1、6、6L)構造で記憶される。
空間層のスタックの出力は、FPGA上で実行される畳み込み層924、925を含めて、時間層に提供される。層924及び925は、サイクルにわたって1D畳み込みを適用する畳み込み層であり得る。924Aに示されるように、時間層の数は、任意の実際的な数であり得、これは、コンテキストにおいて、異なる実施形態では、数個~20超の範囲であり得る。
第1の時間層、TEMP_CONV_0層824は、図7に示すように、サイクルチャネルの数を5から3に減少させる。第2の時間層、層925は、図7に示すようにサイクルチャネルの数を3から1に減少させ、特徴マップの数を、各ベースコールの信頼性を表すピクセルごとの4つの出力に減少させる。
時間層の出力は、出力パッチに蓄積され、ホストCPUに送達されて、例えば、ソフトマックス関数930、又は他の関数を適用して、ベースコール確率を正規化する。
図10は、ベースコール動作のために実行することができる10入力、6出力ニューラルネットワークを示す代替の実装形態を示す。この例では、サイクル0~9の空間的に位置合わせされた入力パッチのタイルデータは、サイクル9のスタック1001など、空間層の分離されたスタックに適用される。分離されたスタックの出力は、時間スタック1020の逆階層配置に適用され、出力1035(2)~1035(7)は、被験者サイクル2~7のベースコール分類データを提供する。
図11は、異なる配列決定サイクルでデータの処理を分離するために使用されるニューラルネットワークベースのベースコーラの専用アーキテクチャ(例えば、図7)の一実装形態を示す。上記の専用アーキテクチャを使用する動機をまず説明する。
ニューラルネットワークベースのベースコーラは、現在の配列決定サイクル、1つ以上の先行する配列決定サイクル、及び1つ以上の連続する配列決定サイクルでデータを処理する。追加の配列決定サイクルのデータは、配列固有のコンテキストを提供する。ニューラルネットワークベースのベースコーラは、訓練中に配列固有のコンテキストを学習し、それらをベースコールする。更に、事前及び事後配列決定サイクルのデータは、プレフェージング及びフェージング信号の二次の寄与を現在の配列決定サイクルに提供する。
異なる配列決定サイクルで、かつ異なる画像チャネル内に捕捉される画像は、位置合わせ不良であり、互いに残留位置合わせ誤差を有する。この位置合わせ不良を考慮するために、専用アーキテクチャは、配列決定サイクル間では情報を混合せず、同一の配列決定サイクル内でのみ情報を混合する、空間畳み込み層を含む。
空間畳み込み層は、畳み込みの「専用の非共有」配列を介して複数の配列決定サイクルの各々に対して独立してデータを処理することによって分離を操作する、いわゆる「分離された畳み込み」を使用する。分離された畳み込みは、任意の他の配列決定サイクルのデータ及び得られた特徴マップ上で畳み込むことなく、所与の配列決定サイクル、すなわち、サイクル内のみのデータ及び得られた特徴マップ上で畳み込む。
例えば、入力データが、(i)ベースコールされる現在の(時間t)配列決定サイクルに対する現在のデータと、(ii)以前の(時間t-1)配列決定サイクルに対する以前のデータと、(iii)次の(時間t+1)配列決定サイクルに対する次のデータと、を含むと考える。次いで、専用アーキテクチャは、3つの別個のデータ処理パイプライン(又は畳み込みパイプライン)、すなわち、現在のデータ処理パイプライン、以前のデータ処理パイプライン、及び次のデータ処理パイプラインを開始する。現在のデータ処理パイプラインは、現在の(時間t)配列決定サイクルに対する現在のデータを入力として受信し、複数の空間畳み込み層を介して独立してそれを処理して、最終空間畳み込み層の出力としていわゆる「現在の空間畳み込み表現」を生成する。以前のデータ処理パイプラインは、以前の(時間t-1)配列決定サイクルに対する以前のデータを入力として受信し、複数の空間畳み込み層を介して独立してそれを処理して、最終空間畳み込み層の出力としていわゆる「以前の空間畳み込み表現」を生成する。次のデータ処理パイプラインは、次の(時間t+1)配列決定サイクルに対する次のデータを入力として受信し、複数の空間畳み込み層を介して独立してそれを処理して、最終空間畳み込み層の出力としていわゆる「次の空間畳み込み表現」を生成する。
いくつかの実装形態では、現在のパイプライン、1つ以上の以前のパイプライン、及び1つ以上の次の処理パイプラインは、並列に実行される。
いくつかの実装形態では、空間畳み込み層は、専用アーキテクチャ内の空間畳み込みネットワーク(又はサブネットワーク)の一部である。
ニューラルネットワークベースのベースコーラは、配列決定サイクル間、すなわち、サイクル間で情報を混合する時間畳み込み層を更に含む。時間畳み込み層は、空間畳み込みネットワークからそれらの入力を受信し、それぞれのデータ処理パイプラインに対して最終空間畳み込み層によって生成される空間畳み込み表現で動作する。
時間畳み込み層のサイクル間動作性自由度は、空間畳み込みネットワークへの入力として供給される画像データ内に存在する位置合わせ不良特性が、空間畳み込み層の配列によって実行される、分離された畳み込みのスタック又はカスケードによって空間畳み込み表現からパージされるという事実から生じる。
時間畳み込み層は、スライディングウィンドウベースでの後続の入力で入力チャネル上でグループごとに畳み込む、いわゆる「組み合わせ畳み込み」を使用する。一実装形態では、後続の入力は、以前の空間畳み込み層又は以前の時間畳み込み層によって生成される後続の出力である。
いくつかの実装形態では、時間畳み込み層は、専用アーキテクチャ内の時間畳み込みネットワーク(又はサブネットワーク)の一部である。時間畳み込みネットワークは、空間畳み込みネットワークからその入力を受信する。一実装形態では、時間畳み込みネットワークの第1の時間畳み込み層は、配列決定サイクル間の空間畳み込み表現をグループごとに組み合わせる。別の実装形態では、時間畳み込みネットワークの後続の時間畳み込み層は、以前の時間畳み込み層の連続する出力を組み合わせる。
最終時間畳み込み層の出力は、出力を生成する出力層に供給される。出力は、1つ以上の配列決定サイクルで1つ以上のクラスタをベースコールするために使用される。
前方伝搬の間、専用アーキテクチャは、2つの段階で複数の入力からの情報を処理する。第1の段階では、分離された畳み込みは、入力間の情報の混合を防止するために使用される。第2の段階では、組み合わせ畳み込みは、入力間の情報を混合するために使用される。第2の段階からの結果は、複数の入力に対して単一の推論を行うために使用される。
これは、バッチモード技術とは異なり、畳み込み層は、バッチ内の複数の入力を同時に処理し、バッチ内の各入力に対して対応する推測を行う。対照的に、専用アーキテクチャは、複数の入力を単一の推論にマッピングする。単一の推論は、4つの塩基(A、C、T、及びG)の各々に対する分類スコアなどの2つ以上の予測を含み得る。
一実装形態では、入力は、各入力が異なる時間ステップで発生し、かつ複数の入力チャネルを有するように、時間的順序付けを有する。例えば、複数の入力は、以下の3つの入力、すなわち、時間ステップ(t)で現在の配列決定サイクルによって発生する現在の入力と、時間ステップ(t-1)で以前の配列決定サイクルによって発生する以前の入力と、時間ステップ(t+1)で次の配列決定サイクルによって発生する次の入力と、を含み得る。別の実装形態では、各入力は、1つ以上の以前の畳み込み層によって現在の、以前の、及び次の入力からそれぞれ導出され、k個の特徴マップを含む。
一実施態様では、各入力は、以下の5つの入力チャネル、すなわち、赤色画像チャネル(赤色)と、赤色距離チャネル(黄色)と、緑色画像チャネル(緑色)と、緑色距離チャネル(紫色)と、スケーリングチャネル(青色)と、を含み得る。別の実装形態では、各入力は、以前の畳み込み層によって生成されるk個の特徴マップを含み得、各特徴マップは、入力チャネルとして処理される。更に別の例では、各入力は、単に1つのチャネル、2つのチャネル、又は別の異なる数のチャネルを有することができる。米国特許出願公開第2013/0079232号の組み込まれた資料は、1チャネル、2チャネル、又は4チャネルなど、様々な数のチャネルを使用してベースコールを論じている。
図12は、各々が畳み込みを含み得る、分離された層の一実装形態を示す。分離された畳み込みは、畳み込みフィルタを各入力に並行して適用することによって、複数の入力を一度に処理する。分離された畳み込みでは、畳み込みフィルタは、同じ入力内で入力チャネルを組み合わせ、異なる入力内で入力チャネルを組み合わせない。一実装形態では、同じ畳み込みフィルタは、各入力に並行して適用される。別の実装形態では、異なる畳み込みフィルタは、各入力に並行して適用される。いくつかの実装形態では、各空間畳み込み層は、k個の畳み込みフィルタのバンクを含み、その各々は、各入力に並行して適用される。
図13Aは、各々が畳み込みを含み得る、組み合わせ層の一実装形態を示す。図13Bは、各々が畳み込みを含み得る、組み合わせ層の別の実装形態を示す。組み合わせ畳み込みは、異なる入力の対応する入力チャネルをグループ化し、畳み込みフィルタを各グループに適用することによって、異なる入力間で情報を混合する。対応する入力チャネルのグループ化及び畳み込みフィルタの適用は、スライディングウィンドウベースで生じる。このコンテキストでは、ウィンドウは、例えば、2つの連続する配列決定サイクルに対する出力を表す、2つ以上の連続する入力チャネルに及ぶ。ウィンドウがスライドウィンドウであるため、最も多くの入力チャネルは、2つ以上のウィンドウで使用される。
いくつかの実装形態では、異なる入力は、先行する空間又は時間畳み込み層によって生成される出力配列から生じる。出力配列では、異なる入力は、連続する出力として配置され、したがって、連続する入力として次の時間畳み込み層によって観察される。次いで、次の時間畳み込み層では、組み合わせ畳み込みは、連続する入力内の対応する入力チャネルのグループに畳み込みフィルタを適用する。
一実装形態では、連続する入力は、現在の入力が時間ステップ(t)で現在の配列決定サイクルによって発生し、以前の入力が時間ステップ(t-1)で以前の配列決定サイクルによって発生し、次の入力が時間ステップ(t+1)で次の配列決定サイクルによって発生するように、時間的順序付けを有する。別の実装形態では、各連続する入力は、1つ以上の以前の畳み込み層によって現在の、以前の、及び次の入力からそれぞれ導出され、k個の特徴マップを含む。
一実施態様では、各入力は、以下の5つの入力チャネル、すなわち、赤色画像チャネル(赤色)と、赤色距離チャネル(黄色)と、緑色画像チャネル(緑色)と、緑色距離チャネル(紫色)と、スケーリングチャネル(青色)と、を含み得る。別の実装形態では、各入力は、以前の畳み込み層によって生成されるk個の特徴マップを含み得、各特徴マップは、入力チャネルとして処理される。
畳み込みフィルタの深さBは、対応する入力チャネルがスライディングウィンドウベースで畳み込みフィルタによってグループごとに畳み込まれる、連続する入力の数に依存する。言い換えると、深さBは、各スライディングウィンドウ及びグループサイズ内の連続する入力の数と等しい。
図13Aでは、各スライディングウィンドウ内で2つの継続的な入力からの対応する入力チャネルが組み合わされており、したがって、B=2である。図13Bでは、3つの連続する入力からの対応する入力チャネルは、各スライディングウィンドウ内で組み合わされ、したがってB=3である。
一実装形態では、スライディングウィンドウは、同じ畳み込みフィルタを共有する。別の実装形態では、異なる畳み込みフィルタが、各スライディングウィンドウに対して使用される。いくつかの実装形態では、各時間畳み込み層は、k個の畳み込みフィルタのバンクを含み、その各々は、スライディングウィンドウベースの連続する入力に適用される。
図4~図10の更なる詳細及びその変形形態は、本明細書に完全に記載されているかのように参照により組み込まれる、2021年2月15日に出願された「HARDWARE EXECUTION AND ACCELERATION OF ARTIFICIAL INTELLIGENCE-BASED BASE CALLER」と題する同時係属中の米国非仮特許出願第17/176,147号(代理人整理番号ILLM1020-2/IP-1866-US)に見出すことができる。
スクラッチからのベースコーラの訓練
ベースコーリングシステムは、塩基配列を含む未知の検体のベースコールを予測するように訓練される。例えば、ベースコーリングシステムは、未知の検体の塩基に対するベースコールを予測するニューラルネットワークを含むベースコーラを有する。
ベースコーリングシステムのニューラルネットワークを訓練することは困難である。これは、ベースコーリングシステムを訓練するために使用される標識された訓練データがない場合に特に当てはまる。いくつかの実施例では、リアルタイム分析(Real Time Analysis,RTA)システムを使用して、標識された訓練データを生成することができ、これは、ベースコーリングシステムを訓練するために使用され得る。RTAシステムの実施例は、2019年5月28日に発行された「Data processing system and methods」という名称の米国特許第US10304189(B2)号で論じられており、この特許は、参照により本明細書に完全に記載されているかのように組み込まれる。しかしながら、システムがRTAを欠いているか、又はRTAの機能性を完全に利用することができない場合、ベースコーリングシステムのニューラルネットワークを訓練するための最初に標識された訓練データを生成することは困難であろう。
本開示は、最初の標識された訓練データを生成し、標識された訓練データを使用してそれ自体を訓練し、少なくとも部分的に訓練されたベースコーラを使用して更なる標識された訓練データを生成し、更なる標識された標識された訓練データを使用してそれ自体を訓練し、更なる一層標識された訓練データを生成し、ベースコーラを十分に訓練するためにこのプロセスを反復的に繰り返す自己学習ベースコーラについて論じる。この反復訓練及び標識された訓練データ生成プロセスは、単一オリゴ段階、複数オリゴ段階(2オリゴ段階、3オリゴ段階など)、それに続く単一生物段階、複合生物段階、更なる複合生物段階などの異なる段階を含む。したがって、標識された訓練データの訓練及び生成のために使用される検体の複雑度及び/又は長さは、本明細書において更に詳細に順に論じられるように、ベースコーラの基礎をなすニューラルネットワーク構成の複雑度とともに、反復とともに漸進的かつ単調に増加する。ベースコーラは漸進的に自己訓練されるので、そのようなシステムは、標識された訓練データを生成するためのRTAの使用を不要にする。したがって、本明細書で説明するベースコーリングシステムはRTAを含み得るが、本明細書で論ずる反復訓練プロセスをRTAに加えて、又はRTAの代わりに使用して、ベースコーラを訓練することができる。
図14Aは、既知の合成配列1406を使用して、ニューラルネットワーク(neural network、NN)構成1415を含むベースコーラ1414を訓練するために、単一オリゴ訓練段階で動作するベースコーリングシステム1400を示す。
図14Aの実施例では、ベースコーリングシステム1400は、図4の配列決定マシン400などの配列決定マシン1404を備える。実施形態では、配列決定マシン1404は、図1のバイオセンサ100のフローセル102と同様のフローセル1405を備えるバイオセンサ(図14Aには例解せず)を含む。
図2、図3、及び図6に関して論じたように、フローセル1405は、複数のクラスタ1407a、...、1407Gを備える。具体的には、実施例では、フローセル1405は、タイルの複数のレーンを備え、各タイルは、図2に関して論じたように、対応する複数のクラスタを含む。図14Aでは、フローセル1405は、いくつかのそのような例示的なクラスタ1407a、...、1407Gを含むように例解されている。ベースコーリング処理では、特定サイクルにおけるクラスタごとのベースコール(A,C,G,T)が予測される。
典型的なフローセル1405は、数千又は数百万ものクラスタなどの複数のクラスタ1407を含むことができる。単に実施例として、本開示の範囲を限定することなく、また本開示の原理のいくつかを説明するために、フローセル1405内に10,000(又は10k)個のクラスタ1407があると仮定するが(すなわち、G=10,000)、実用的なフローセルは、はるかに多数のそのようなクラスタを有する可能性が高い。
実施例では、既知の合成配列1406は、単一オリゴ訓練段階中のベースコーリング動作のための検体として使用される。実施例では、既知の合成配列1406は、合成的に生成されたオリゴマーを含む。オリゴヌクレオチドは、オリゴマー又は単にオリゴと呼ばれる短いDNA又はRNA分子であり、遺伝子検査、研究、及び法医学において広範な用途を有する。固相化学合成によって実験室で一般的に作製されるこれらの少量の核酸は、任意のユーザ指定配列を有する一本鎖分子として製造することができ、したがって、人工遺伝子合成、ポリメラーゼ連鎖反応(polymerase chain reaction、PCR)、DNA配列決定、分子クローニングに、及び分子プローブとして極めて重要である。オリゴヌクレオチドの長さは、通常、「量体」によって示される。例えば、6ヌクレオチド(nt)のオリゴヌクレオチドは六量体であるが、25ntのオリゴヌクレオチドは通常「25量体」と呼ばれる。実施例では、既知の合成配列1406を含むオリゴマー又はオリゴのサイズは、8、10、12、又はそれ以上などの任意の適切な数の塩基を有することができ、実装固有である。単なる実施例として、図14Aは、8塩基を含む既知の合成配列1406のオリゴを例解する。
図14Aで言及されるオリゴは、オリゴ#1(又はオリゴ番号1)として標識される。図14Aではただ1つの固有のオリゴが使用されているので、同じオリゴ#1が個々のクラスタ1407に投入(populate)されている。したがって、10k個のクラスタ1407には全て、同じオリゴ配列が投入されている。すなわち、同じオリゴのコピーが全てのクラスタ1407に投入されている。
配列決定マシン1404は、複数のクラスタ1407a、...、1407Gのうちの対応するクラスタに対して配列信号1412a、...、1412Gを生成する。例えば、クラスタ1407aについて、配列決定マシン1404は、一連の配列決定サイクルについてクラスタ1407aに投入された塩基配列を示す対応する配列信号1412aを生成する。同様に、クラスタ1407bについて、配列決定マシン1404は、一連の配列決定サイクルについてクラスタ1407bに投入された塩基配列を示す対応する配列信号1412bを生成し、以下同様である。ベースコーラ1414は、配列信号1412を受信し、対応する塩基をコールする(例えば、予測する)ことを目的とする。実施例では、NN構成1415(及び本明細書で後述する様々な他のNN構成)を含むベースコーラ1414は、メモリ404、403、及び/又は406に記憶することができ、配列決定マシン400にローカルであるホストCPU(図4のCPU402など)及び/又は構成可能プロセッサ(図4の構成可能プロセッサ450など)上で実行することができる。別の実施例では、ベースコーラ1414は、配列決定マシン400から遠隔に記憶され(例えば、クラウドに記憶され)、遠隔プロセッサによって実行される(例えば、クラウドで実行される)ことができる。例えば、ベースコーラ1414のリモートバージョンでは、ベースコーラ1414は、配列信号1412を(例えば、インターネットなどのネットワークを介して)受信し、ベースコーリング動作を実行し、ベースコーリング結果を(例えば、インターネットなどのネットワークを介して)配列決定マシン400に送信する。
実施例では、配列信号1412は、本明細書で前述したように、センサ(例えば、光検出器、フォトダイオード)によって捕捉された画像を含む。したがって、本明細書で論じた実施例及び実施形態の少なくともいくつかは、画像を含む配列信号を処理するベースコーラ(ベースコーラ1414など)を反復的に訓練することに関する。しかしながら、本開示の原理は、任意の特定のタイプの配列信号を受信する任意の特定のタイプのベースコーラを訓練することに限定されない。例えば、本開示において本明細書で論じた反復訓練は、訓練されるベースコーラのタイプ、又は使用される配列信号のタイプとは無関係である。例えば、本開示において本明細書で論じられる反復訓練は、画像を含まない配列信号に基づいて塩基を呼び出すように構成されたベースコーラなど、任意の他の適切なタイプのベースコーラを訓練するために使用することができる。例えば、配列信号は、電気信号(例えば、電圧信号、電流信号)、pHレベル、及び/又は同様のものを含むことができ、本明細書で論じられる反復訓練方法は、任意のそのようなタイプの配列信号を受信するベースコーラの訓練に適用することができる。
ニューラルネットワーク構成1415は、本明細書で更に詳細に論じるように、(例えば、図16Aのニューラルネットワーク構成1615など、本明細書で後述するいくつかの他のニューラルネットワーク構成と比較して)比較的少ない数の層及び比較的少ない数のパラメータを使用する畳み込みニューラルネットワーク(その実施例は、図7、図9、図10、図11、図12に例解される)である。
ニューラルネットワーク構成1415を含む最初に訓練されていないベースコーラ1414は、対応する配列信号1412a、...、1412Gにそれぞれ基づいて、複数のクラスタ1407a、...、1407Gのうちの対応するクラスタに対するベースコール配列1418a、...、1418Gを予測する。例えば、クラスタ1407aについて、ベースコーラ1414は、対応する配列信号1412aに基づいて、一連の配列決定サイクルについてのクラスタ1407aについてのベースコールを含む対応するベースコール配列1418aを予測する。同様に、クラスタ1407bについて、ベースコーラ1414は、対応する配列信号1412bに基づいて、一連の配列決定サイクルについてのクラスタ1407bについてのベースコールを含む対応するベースコール配列1418bを予測するなどする。したがって、Gベースコール配列1418a、...、1418Gは、ベースコーラ1414によって予測される。
オリゴ#1は、概してGA1、...、GA8と標識された8個の塩基を有すると仮定する。単に実施例として、本開示の範囲を限定することなく、オリゴ#の8個の塩基がA、C、T、T、G、C、A、Cであると仮定する。最初は、ベースコーラ1414は訓練されておらず、したがって、ベースコールにおいて誤差が生じる可能性が高い。例えば、予測されたベースコール配列1418a(概して、Sa1、...、Sa8と標識される)は、図14Aに例解されるように、C、A、T、C、G、C、A、Gである。したがって、オリゴ#1のグラウンドトゥルース塩基配列1406(すなわち、A、C、T、T、G、C、A、C)と予測された塩基配列1418a(すなわち、C、A、T、C、G、C、A、G)とを比較すると、塩基番号1、2、4、及び8についてのベースコールにおいて誤差が存在する。したがって、図14Aでは、オリゴ#1のグラウンドトゥルース塩基配列1406と予測された塩基配列1418aとが動作1413aにおいて比較され、これらの2つの塩基配列間の誤差が、ベースコーラ1414のニューラルネットワーク構成1415の逆方向パスで使用されて、ニューラルネットワーク構成1415の勾配及び重みを更新するために使用されるなど、ニューラルネットワーク構成1415を訓練する(図14Aで勾配更新1417として記号的に標識される)。
図14A1は、予測された塩基配列1418aとオリゴ#1のグラウンドトゥルース塩基配列1406との間の比較動作を更に詳細に例解する。例えば、図14A及び図14A1を参照すると、予測された塩基配列1418aは、C,A,T,C,G,C,A,Gであり、オリゴ#1のグラウンドトゥルース塩基配列1406は、A,C,T,T,G,C,A,Cである。したがって、オリゴ#1のグラウンドトゥルース塩基配列1406(すなわち、A、C、T、T、G、C、A、C)と予測された塩基配列1418a(すなわち、C、A、T、C、G、C、A、G)とを比較すると、塩基番号1、2、4、及び8についてのベースコールにおいて誤差が存在する。例えば、図14A1では、塩基番号1のベースコールの誤差は、「CはAであるべき」、すなわち、ベースコールCはベースコールAであるべき、によって与えられる。同様に、塩基番号2のベースコールの誤差は、「AはCであるべき」、すなわち、ベースコールAはベースコールBであるべき、などによって与えられる。塩基番号3、5、6、及び7についてのベースコールについて誤差はない(図14A1で「Match(no error)」として例解される)。したがって、図14A1では、比較の間、予測されたベースコール配列1418aの各ベースコールは、対応するグラウンドトゥルース配列(例えば、オリゴ#1の塩基配列1406)の対応するベースコールと比較され、図14A1に例解されるように、対応する比較結果を生成する。
再び図14Aを参照すると、ベースコーリングシステム1400は、マッピングロジック1416も含み、その機能は、本明細書において後述する。実施例では、マッピングロジック1416は、メモリ404、403、及び/又は406に記憶することができ、マッピングロジック1416は、配列決定マシン400にローカルであるホストCPU(図4のCPU402など)及び/又は構成可能プロセッサ(図4の構成可能プロセッサ450など)上で実行することができる。別の実施例では、マッピングロジック1416は、配列決定マシン400から遠隔に記憶(例えば、クラウドに記憶)することができ、遠隔プロセッサによって実行(例えば、クラウドで実行)することができる。例えば、マッピングロジック1416のリモートバージョンでは、マッピングロジックは、配列決定マシン400からマッピングされるべきデータを(例えば、インターネットなどのネットワークを介して)受信し、マッピング動作を行い、マッピング結果を(例えば、インターネットなどのネットワークを介して)配列決定マシン400に送信する。マッピング動作については、本明細書において後で更に詳細に論ずる。
図14A並びに本開示の様々な他の図、実施例、及び実施形態は、ベースコール配列を予測するベースコーラに言及する。ベースコール配列のそのような予測の様々な実施例は、本明細書中で論じられている。ベースコール予測の更なる実施例は、2021年7月1日に出願された「IMPROVED ARTIFICIAL INTELLIGENCE-BASED BASE CALLING OF INDEX SEQUENCES」と題する同時係属中の米国仮特許出願第63/217,644号(代理人整理番号ILLM1046-1/IP-2135-PRV)に見出すことができ、これは、参照により、本明細書に完全に記載されているかのように組み込まれる。
図14Bは、既知の合成配列1406を使用して、ニューラルネットワーク構成1415を備えるベースコーラ1414を訓練するために、単一オリゴ訓練段階で動作する図14Aのベースコーリングシステム1400の更なる詳細を例解する。例えば、図14Bは、ベースコーラ1414を訓練するために予測されたベースコール配列1418a、...、1418Gを使用することを例解する。例えば、予測されたベースコール配列1418a、...、1418Gの個々のものは、オリゴ#1のグラウンドトゥルース塩基配列1406と比較され(比較動作1413a、...、1413Gを参照)、その結果得られた誤差は、ニューラルネットワーク構成1415の逆伝搬セクションによる勾配更新及びその結果としてのパラメータ(重み及びバイアスなど)の更新(図14Aにおいて勾配更新1417として記号的に標識される)のために使用される。
したがって、ニューラルネットワーク構成1415は、ニューラルネットワーク構成1415によって予測されたベースコール配列1418を使用して、かつオリゴ#1のグラウンドトゥルース塩基配列1406を使用して訓練されている。図14A及び図14Bに関して論じられた訓練は単一オリゴを使用するので、この訓練段階は「単一オリゴ訓練段階」とも呼ばれ、図14A及び図14Bはそれに応じて標識されている。
実施例では、図14A及び図14Bのプロセスを反復的に繰り返すことができる。例えば、図14Aの第1の反復において、NN構成1415は少なくとも部分的に訓練される。少なくとも部分的に訓練されたNN構成1415は、(例えば、図14Aに関して論じられるように)配列信号1412から予測されたベースコール配列を再生成するために、第2の反復の間、再び使用され、その結果得られた予測されたベースコール配列は、誤差信号を生成するためにグラウンドトゥルース1406(すなわち、オリゴ#1)と再び比較され、この誤差信号は、NN構成1415を更に訓練するために使用される。このプロセスは、NN構成1415が十分に訓練されるまで、反復的に複数回繰り返され得る。実施例では、このプロセスは、特定の回数にわたって反復的に繰り返され得る。別の実施例では、このプロセスは、いくつかの誤差が飽和するまで反復的に繰り返され得る(例えば、連続する反復における誤差が著しく減少しない)。
図15Aは、2つの既知の合成配列1501A及び1501Bを使用して標識された訓練データを生成するために、2オリゴ訓練段階の訓練データ生成フェーズで動作する図14Aのベースコーリングシステム1400を例解する。
図15Aのベースコーリングシステム1400は、図14Aのベースコーリングシステムと同じであり、両図において、ベースコーリングシステム1400は、ニューラルネットワーク構成1415を使用する。更に、2つの異なる一意的なオリゴ配列1501A及び1501Bが、フローセル1405の様々なクラスタにロードされる。単なる実施例として、かつ本開示の範囲を限定することなく、10,000個のクラスタ1407のうち、約5,200個のクラスタにはオリゴ配列1501Aが投入され、残りの4,800個のクラスタにはオリゴ配列1501Bが投入されると仮定する(ただし、別の実施例では、2つのオリゴは10,000個のクラスタの間で実質的に等しく分割されることができる)。
配列決定マシン1404は、複数のクラスタ1407a、...、1407Gのうちの対応するクラスタに対して配列信号1512a、...、1512Gを生成する。例えば、クラスタ1407aについて、配列決定マシン1404は、一連の配列決定サイクルについてクラスタ1407aの塩基を示す対応する配列信号1512aを生成する。同様に、クラスタ1407bについて、配列決定マシン1404は、一連の配列決定サイクルについてのクラスタ1407bについての塩基を示す対応する配列信号1512bを生成するなどする。
少なくとも部分的に訓練されたニューラルネットワーク構成1415(例えば、図14A及び図14Bの動作を反復的に繰り返すことによって訓練される)を備えるベースコーラ1414は、それぞれ対応する配列信号1512a、...、1512Gに基づいて、複数のクラスタ1407a、...、1407Gの対応するものに対するベースコール配列1518a、...、1518Gを予測する。例えば、クラスタ1407aについて、ベースコーラ1414は、対応する配列信号1512aに基づいて、一連の配列決定サイクルについてのクラスタ1407aについてのベースコールを含む対応するベースコール配列1518aを予測する。同様に、クラスタ1407bについて、ベースコーラ1414は、対応する配列信号1512bに基づいて、一連の配列決定サイクルについてのクラスタ1407bについてのベースコールを含む対応するベースコール配列1518bを予測するなどする。したがって、Gベースコール配列1518a、...、1518Gは、ベースコーラ1414によって予測される。図15Aのニューラルネットワーク構成1415は、図14A及び図14Bに関して論じられた単一オリゴ訓練段階の反復中に、より早く訓練されたことに留意されたい。したがって、予測されたベースコール配列1518a、...、1518Gは、ある程度正確であるが、(ベースコーラ1414が完全に訓練されていないため)あまり高精度ではない。
実施形態では、オリゴ配列1501A及び1501Bは、2つのオリゴの塩基間に十分な編集距離を有するように選択される。図15B及び図15Cは、図15Aのオリゴ配列1501A及び1501Bの2つの対応する例示的選択を例解する。例えば、図15Bでは、オリゴ1501Aは、塩基A、C、T、T、G、C、A、Cを有するように選択され、一方、オリゴ1501Bは、塩基C、C、T、A、G、C、A、Cを有するように選択される。したがって、2つのオリゴ1510A及び1510Bでの第1の塩基及び第4の塩基は異なり、2つのオリゴ1510Aと1510Bとの間に2の編集距離をもたらす。
対照的に、図15Bにおいて、オリゴ1501Aは、塩基A、C、T、T、G、C、A、Cを有するように選択され、一方、オリゴ1501Bは、塩基C、A、T、G、A、T、A、Gを有するように選択される。したがって、図15Bの実施例では、2つのオリゴ1510A及び1510Bでの第1、第2、第4、第5、第6、及び第8の塩基は異なり、2つのオリゴ1510Aと1510Bとの間に6の編集距離をもたらす。
実施例では、2つのオリゴ1501A及び1501Bは、2つのオリゴが少なくとも閾値編集距離によって分離されるように選択される。単なる実施例として、閾値編集距離は、4塩基、5塩基、6塩基、7塩基、又は更には8塩基である可能性がある。したがって、2つのオリゴ1501A及び1501Bは、2つのオリゴが互いに十分に異なるように選択される。
再び図15Aを参照すると、ベースコーラ1414は、どのオリゴ配列がどのクラスタに投入されているかについては知らない。したがって、ベースコーラ1414は、既知のオリゴ配列1501A、1501Bと様々なクラスタとの間のマッピングを知らない。実施例では、マッピングロジック1416は、予測されたベースコール配列1518を受け取り、各予測されたベースコール配列1518をオリゴ1501A若しくはオリゴ1501Bのいずれかにマッピングするか、又は予測されたベースコール配列を2つのオリゴのいずれかにマッピングする際に不確定性を宣言する。図15Dは、(i)予測されたベースコール配列をオリゴ1501A又はオリゴ1501Bのいずれかにマッピングするか、又は(ii)予測されたベースコール配列を2つのオリゴのいずれかにマッピングする際に不確定性を宣言するための例示的マッピング動作を例解する。
実施例では、2つのオリゴ間の編集距離が大きいほど、個々の予測を2つのオリゴのいずれかにマッピングすることが容易になる(又はより正確になる)。例えば、図15Bを参照すると、2つのオリゴ1501Aと1501Bとの間の編集距離がわずか2であるので、2つのオリゴはほぼ類似しており、ベースコール予測を2つのオリゴのいずれかにマッピングすることは比較的困難であり得る。しかしながら、図15Cにおける2つのオリゴ1501Aと1501Bとの間の編集距離は6であるので、2つのオリゴは非常に非類似であり、予測を2つのオリゴのいずれかにマッピングすることは比較的容易であり得る。したがって、編集距離が2である図15Bは、「訓練にはあまり適していない」と標識され、編集距離が6である図15Cは、「訓練により適している」と標識される。したがって、実施例では、図15Cに従う(図15Bに従わない)オリゴ1501A及び1501Bが生成され、本明細書で更に詳細に順に論じられるように、訓練のために使用される。
再び図15Dを参照すると、例示的な予測されたベースコール配列1518a、1518b、及び1518Gが例解されている。2つのオリゴ1501A及び1501Bの例示的な塩基も例解されている(2つのオリゴの例示的な塩基は、図15Cに例解されている塩基に対応する)。
ニューラルネットワーク構成1415はある程度訓練されているが、完全には訓練されていないため、ニューラルネットワーク構成1415はベースコール予測を行うことができ得るが、そのようなベースコール予測は誤差を生じやすい。
予測されたベースコール配列1518aは、C、A、G、G、C、T、A、Cを含む。これをオリゴ1501Aのベースコール配列A、C、T、T、G、C、A、Cと比較し、またオリゴ1501Bのベースコール配列C、A、T、G、A、T、A、Gと比較する。予測されたベースコール配列1518aは、オリゴ1501Aの対応する第7及び第8の塩基と一致する第7及び第8の塩基を有し、オリゴ1501Bの対応する塩基と一致する第1、第2、第4、第6及び第7の塩基を有する。したがって、図15Dに例解されるように、予測されるベースコール配列1518aは、オリゴ1501Aと2塩基の類似性を有し、予測されるベースコール配列1518aは、オリゴ1501Bと5塩基の類似性を有する。
実際に予測されたベースコール配列1518aがオリゴ1501Bに対するものである場合(例えば、予測されたベースコール配列1518aがオリゴ1501Bと5塩基の類似性を有するように)、これは、ニューラルネットワーク構成1415が、8塩基配列の5塩基を正しく予測することができた(すなわち、オリゴ1501Bの対応する塩基と一致する第1、第2、第4、第6、及び第7塩基を正しく予測することができた)ことを意味する。しかしながら、ニューラルネットワーク構成1415は完全に訓練されていないため、ニューラルネットワーク構成1415は、残りの3つのベース(すなわち、第3、第5、及び第8のベース)を予測する際に誤差を生じた。
マッピングロジック1416は、適切なロジックを使用して、予測されたベースコール配列を対応するオリゴにマッピングすることができる。例えば、予測されたベースコール配列が、オリゴ1501AとのSA数の類似性、及びオリゴ1501BとのSB数の類似性を有すると仮定する。実施例では、マッピングロジック1416は、SA>STであり、かつSB<STである場合、予測されたベースコール配列をオリゴ1501Aにマッピングし、ここでSTは閾値数である。すなわち、マッピングロジック1416は、オリゴ1501Aとの類似性レベルが閾値より高い場合、かつオリゴ1501Bとの類似性レベルが閾値より低い場合、予測されたベースコール配列をオリゴ1501Aにマッピングする。
同様に、別の実施例では、マッピングロジック1416は、SB>STかつSA<STの場合、予測されたベースコール配列をオリゴ1501Bにマッピングする。
更に別の実施例では、マッピングロジック1416は、SA及びSBの両方が閾値ST未満である場合、又はSA及びSBの両方が閾値STより大きい場合、予測されたベースコール配列が不確定であると宣言する。
上記の議論は、方程式の形で次のように書くことができる。
予測されたベースコール配列について、
SA>STかつSB<STであれば、オリゴ1501Aにマッピングする。(式1)
SB>STかつSA<STであれば、オリゴ1501Bにマッピングする。(式2)
SA、SBが両方とも<STである場合、不確定なマッピングを宣言する。又は(式3)
SA、SBが両方とも>STである場合、不確定なマッピングを宣言する。(式4)
閾値STは、オリゴ内の塩基の数(図に例解される例示的な使用事例では8である)、所望の精度に依存し、かつ/又は実装固有である。単に実施例として、閾値STは、図15Dに例解される例示的な使用事例において4であると仮定される。4という閾値STは単なる実施例であり、閾値STの選択は実装固有である可能性があることに留意されたい。単なる実施例として、訓練の最初の反復中に、閾値STは、比較的低い値(例えば、4)を有することができる。閾値STは、訓練の後の反復中に比較的高い値(例えば、6又は7)を有することができる(訓練反復は、本明細書において後で説明されている)。したがって、後の訓練反復中にNN構成がより良く訓練されるとき、閾値STを徐々に増加させることができる。しかしながら、別の例では、閾値STは、訓練の全ての反復を通して同じ値を有することができる。図15Dの実施例では閾値STは4として選択されているが、他の例示的な実装形態では、閾値STは、例えば、5、6、又は7である可能性がある。実施例では、閾値STは、パーセンテージとして表すこともできる。例えば、閾値STが4であり、総塩基数が8である場合、閾値STは、(4/8)×100、すなわち、50%と表すことができる。閾値STは、ユーザが選択可能なパラメータとすることができ、実施例では50%~95%の間になるように選択することができる。
ここで再び図15Dを参照すると、上記のように、予測されたベースコール配列1518aは、オリゴ1501Aと2塩基の類似性を有し、そして予測されたベースコール配列1518aは、オリゴ1501Bと5塩基の類似性を有する。したがって、SA=2、SB=5である。式2に従って、4の閾値STを仮定すると、予測されたベースコール配列1518aは、オリゴ1501Bにマッピングされる。
ここで予測されたベースコール配列1518bを参照すると、予測されたベースコール配列1518bは、オリゴ1501Aと2塩基の類似性を有し、予測されたベースコール配列1518bは、オリゴ1501Bと3塩基の類似性を有する。したがって、SA=2、SB=3である。式3に従って、4の閾値STを仮定すると、予測されたベースコール配列1518bは、オリゴ配列のいずれかへのマッピングについて不確定であると宣言される。
ここで予測されたベースコール配列1518Gを参照すると、予測されたベースコール配列1518Gは、オリゴ1501Aと6塩基の類似性を有し、予測されたベースコール配列1518Gは、オリゴ1501Bと3塩基の類似性を有する。したがって、SA=6、SB=3である。式2に従って、4の閾値STを仮定すると、予測されるベースコール配列1518Gは、オリゴ1501Aにマッピングされる。
図15Eは、図15Dのマッピングから生成された標識された訓練データ1550を例解し、標識された訓練データ1550は、別のニューラルネットワーク構成1615によって使用される(例えば、図16Aに例解、ここで、他のニューラルネットワーク構成1615は、図14A、図14B、図15Aのニューラルネットワーク構成1415とは異なり、より複雑である)。
図15Eに例解されるように、予測されたベースコール配列1518及び対応する配列信号のいくつかは、オリゴ1501Aの塩基配列(すなわち、グラウンドトゥルース1506a)にマッピングされ、いくつかの他の予測されたベースコール配列1518及び対応する配列信号は、オリゴ1501Bの塩基配列(すなわち、グラウンドトゥルース1506b)にマッピングされ、予測されたベースコール配列1518及び対応する配列信号の残りのマッピングは不確定である。
例えば、予測されたベースコール配列1518c、1518d、1518G及び対応する配列信号1512c、1512d、1512Gは、オリゴ1501Aの塩基配列(すなわち、グラウンドトゥルース1506a)にマッピングされ、予測されたベースコール配列1518a、1518f及び対応する配列信号1512a、1512fは、オリゴ1501Bの塩基配列(すなわち、グラウンドトゥルース1506b)にマッピングされ、予測されたベースコール配列1518b、1518e、1518g及び対応する配列信号1512b、1512e、1512gの残りのマッピングは不確定である。
単に実施例として、訓練データ1550の2,600ベースコール配列がオリゴ1501Aにマッピングされ、訓練データ1550の3,000ベースコール配列がオリゴ1501Bにマッピングされると仮定する。図15Eに例解されるように、残りの4,400ベースコール配列は不確定であり、2つのオリゴのいずれにもマッピングされない。
図15A、図15D、及び図15Eは、ラベリング訓練データ1550が2つのオリゴからの配列を使用し、ニューラルネットワーク構成1415を使用して生成されるので、「2オリゴ訓練段階」の「訓練データ生成フェーズ」と呼ばれることに留意されたい。
図16Aは、2つの既知の合成配列1501A及び1501Bを使用して、(図14Aのニューラルネットワーク構成1415とは異なり、より複雑である)別のニューラルネットワーク構成1615を備えるベースコーラ1414を訓練するために、「2オリゴ訓練段階」の「訓練データ消費及び訓練フェーズ」で動作する図14Aのベースコーリングシステム1400を例解する。
図16Aのベースコーリングシステム1400は、図14Aのベースコーリングシステムと同じである。しかしながら、(ニューラルネットワーク構成1415がベースコーラ1414において使用された)図14Aとは異なり、図16Aのベースコーラ1414は、異なるニューラルネットワーク構成1615を使用する。図16Aのニューラルネットワーク構成1615は、図14Aのニューラルネットワーク構成1415とは異なる。例えば、ニューラルネットワーク構成1615は、ニューラルネットワーク構成1415よりも多い数の層及びパラメータ(重み及びバイアスなど)を使用する畳み込みニューラルネットワーク(その実施例が図7、図9、図10、図11、図12に例解されている)である。別の実施例では、ニューラルネットワーク構成1615は、ニューラルネットワーク構成1415よりも多い数の畳み込みフィルタを使用する畳み込みニューラルネットワークである。2つのニューラルネットワーク構成1415及び1615の構成、トポロジ、並びに層及び/又はフィルタの数は、いくつかの例では異なり得る。
図16Aに例解される「2オリゴ訓練段階」の「訓練データ消費及び訓練フェーズ」では、ニューラルネットワーク構成1615を備えるベースコーラ1414は、図15Aの「訓練データ生成フェーズ」中に以前に生成された配列信号1512を受信する。すなわち、ニューラルネットワーク構成1615を備えるベースコーラ1414は、以前に生成された配列信号1512を再使用する。したがって、以前に生成された配列信号1512は、図16Aに例解される「2オリゴ訓練段階」の「訓練データ消費及び訓練フェーズ」で再使用されるので、配列決定マシン1404及びその中の構成要素は役割を果たさず、したがって、点線を使用して例解される。同様に、マッピングロジック1416も(図16Aではマッピングが実行されていないので)何の役割も果たさず、したがって、マッピングロジック1416も点線を使用して例解されている。
したがって、図16Aでは、ニューラルネットワーク構成1615を備えるベースコーラ1414は、以前に生成された配列信号1512を受信し、配列信号1512からベースコール配列1618を予測する。予測されたベースコール配列1618は、予測されたベースコール配列1618a、1618b、...、1618Gを含む。例えば、配列信号1512aは、ベースコール配列1618aを予測するために使用され、配列信号1512bは、ベースコール配列1618bを予測するために使用され、配列信号1512Gは、ベースコール配列1618Gを予測するために使用されるなどである。
ニューラルネットワーク構成1615はまだ訓練されておらず、したがって、予測されたベースコール配列1618a、1618b、...、1618Gは多くの誤差を有し得る。図15Eのマッピングされた訓練データ1550は、ここで、ニューラルネットワーク構成1615を訓練するために使用される。例えば、訓練データ1550から、ベースコーラ1414は、
(i)配列信号1512c、1512d、1512Gは、オリゴ1501Aの塩基配列に対するものであり(すなわち、グラウンドトゥルース1506a)、
(ii)配列信号1512a、1512fは、オリゴ1501Bの塩基配列に対するものであり(すなわち、グラウンドトゥルース1506b)、及び
(iii)配列信号1512b、1512e、1512gのマッピングは、不確定であるということを知る。
したがって、配列信号1512及び予測されたベースコール配列1518は、(i)オリゴ1501Aの塩基配列(すなわち、グラウンドトゥルース1506a)にマッピングすることができる配列信号1512c、1512d、1512G(及び対応する予測されたベースコール配列1518c、1518d、1518G)を含む第1のカテゴリ、(i)オリゴ1501Bの塩基配列(すなわち、グラウンドトゥルース1506b)にマッピングすることができる配列信号1512a、1512f(及び対応する予測されたベースコール配列1518a、1518f)を含む第2のカテゴリ、(iii)オリゴ1501A又は1501Bの塩基配列のいずれにもマッピングすることができない配列信号1512b、1512e、1512g(及び対応する予測されたベースコール配列1518b、1518e、1518g)を含む第3のカテゴリという3つのカテゴリに選別される。
したがって、上記の(iii)に基づいて、(例えば、配列信号1512b、1512e、1512gに対応する)予測されたベースコール配列1618b、1618e、及び1618gは、ニューラルネットワーク構成1615を訓練するために使用されない。したがって、予測されたベースコール配列1618b、1618e、及び1618gは、訓練反復中に廃棄され、勾配更新のために使用されない(予測されたベースコール配列1618b、1618e、及び1618gと勾配更新ボックス1617との間の「X」又は「交差記号」を使用して図16Aに記号的に例解される)。
上記の(i)に基づいて、ベースコーラ1414は、(例えば、配列信号1512c、1512d、1512Gに対応する)予測されたベースコール配列1618c、1618d、1618Gがオリゴ1501Aについてのものである可能性が高いことを知る。すなわち、オリゴ1501Aの塩基配列は、これらの予測されたベースコール配列1618c、1618d、1618Gについてのグラウンドトゥルースである可能性が高いが、訓練されていないニューラルネットワーク構成1615は、これらの予測されたベースコール配列の少なくともいくつかの塩基を誤って予測した場合がある。したがって、ニューラルネットワーク構成は、比較関数1613を使用して、予測されたベースコール配列1618c、1618d、及び1618Gの各々を(オリゴ1501Aの塩基配列である)グラウンドトゥルース1506aと比較し、勾配更新1617及びニューラルネットワーク構成1615の結果として生じる訓練について、生成された誤差を使用する。
同様に、上記の(ii)に基づいて、ベースコーラは、(例えば、それぞれ配列信号1512a及び1512fに対応する)予測されたベースコール配列1618a及び1618fがオリゴ1501Bについてのものである可能性が高いことを知る。すなわち、オリゴ1501Bの塩基配列は、これらの予測されたベースコール配列1618a及び1618fについてのグラウンドトゥルースである可能性が高いが、訓練されていないニューラルネットワーク構成1615は、これらの予測されたベースコール配列の少なくともいくつかの塩基を誤って予測した場合がある。したがって、ニューラルネットワーク構成は、比較関数1613を使用して、予測されたベースコール配列1618a及び1618fの各々をグラウンドトゥルース1506b(オリゴ1501Bの塩基配列である)と比較し、勾配更新1617及びニューラルネットワーク構成1615の結果として生じる訓練のために、生成された誤差を使用する。
図16Aの訓練データ消費及び訓練フェーズの終わりにおいて、NN構成1615は少なくとも部分的に訓練される。
図16Bは、2オリゴ訓練段階の訓練データ生成フェーズの第2の反復において動作する図14Aのベースコーリングシステム1400を例解する。例えば、図16Aでは、ニューラルネットワーク構成1615は、訓練データ1550を使用して訓練されていた。図16Bにおいて、いくらか又は少なくとも部分的に訓練されたニューラルネットワーク構成1615は、更なる訓練データを生成するために使用される。例えば、少なくとも部分的に訓練されたニューラルネットワーク構成1615は、以前に生成された配列信号1512を使用して、ベースコール配列1628を予測する。図16Bの予測されたベースコール配列1628は、図16Aの予測されたベースコール配列1618よりも相対的に正確である可能性が高く、なぜなら、図16Aの予測されたベースコール配列1618は、訓練されていないニューラルネットワーク構成1615を使用して生成されたのに対して、図16Bの予測されたベースコール配列1628は、少なくとも部分的にニューラルネットワーク構成1615を使用して生成されるからである。
更に、マッピングロジック1416は、予測されたベースコール配列1628の個々のものをオリゴ1501A若しくはオリゴ1501Bのいずれかにマッピングするか、又は(例えば、図15Dに関する考察と同様に)予測されたベースコール配列1628のマッピングが不確定であることを宣言する。
図16Cは、図16Bのマッピングから生成された標識された訓練データ1650を例解し、訓練データ1650は、更なる訓練のために使用される。
図16Cに例解されるように、予測されたベースコール配列1628及び対応する配列信号1512のいくつかは、オリゴ1501Aの塩基配列(すなわち、グラウンドトゥルース1506a)にマッピングされ、いくつかの他の予測されたベースコール配列1628及び対応する配列信号1512は、オリゴ1501Bの塩基配列(すなわち、グラウンドトゥルース1506b)にマッピングされ、残りの予測されたベースコール配列1628及び対応する配列信号1512のマッピングは不確定である。
例えば、予測されたベースコール配列1628は、(i)予測されたベースコール配列1628c、1628d、及び1628G並びに対応する配列信号1512c、1512d、及び1512Gはオリゴ1501Aの塩基配列、(すなわち、グラウンドトゥルース1506a)にマッピングされ、(ii)予測されたベースコール配列1628a、1628b、及び1628f並びに対応する配列信号1512a、1512b、及び1512fは、オリゴ1501Bの塩基配列(すなわち、グラウンドトゥルース1506b)にマッピングされ、(iii)残りの予測されたベースコール配列1628e及び1628g並びに対応する配列信号1512e及び1512gのマッピングは不確定であるという、3つのカテゴリに選別される。
単に実施例として、訓練データ1650の3,300ベースコール配列がオリゴ1501Aにマッピングされ、訓練データ1650の3,200ベースコール配列がオリゴ1501Bにマッピングされると仮定する。図16Cに例解するように、残りの3,500ベースコール配列は不確定であり、2つのオリゴのいずれにもマッピングされない。
図15E及び図16Cの訓練データ間でベースコールのマッピングされていない(又は不確定である)配列の数を比較すると、この数が図15Eでは4,400であり、図16Cでは3,500であることが観察される。これは、(訓練データ1650のマッピングを生成するために使用された)図16Bの少なくとも部分的に訓練されたニューラルネットワーク構成1615は、(訓練データ1550のマッピングを生成するために使用された)図15Aの少なくとも部分的に訓練されたニューラルネットワーク構成1415よりも比較的正確であり、かつ/又はより訓練され得るためである。したがって、ベースコールが相対的により正確になり(例えば、誤差が少なくなり)、したがって、相対的に正しくマッピングされるようになるにつれて、ベースコールの不確定な配列の数は徐々に減少する。
図16Dは、2つの既知の合成配列1501A及び1501Bを使用して、図16Aのニューラルネットワーク構成1615を備えるベースコーラ1414を訓練するために、「2オリゴ訓練段階」の「訓練データ消費及び訓練フェーズ」の第2の反復で動作する図14Aのベースコーリングシステム1400を例解する。
図16A及び図16Dは、少なくとも部分的に類似している。例えば、図16A及び図16Dは、それぞれ、図15Eの訓練データ1550及び図16Cの訓練データ1650を使用して、ニューラルネットワーク構成1615を訓練するために使用される。図16Aの最初の段階において、ニューラルネットワーク構成1615は全く訓練されておらず、一方、図16Dの最初の段階において、ニューラルネットワーク構成1615は、少なくとも部分的に訓練されるということに留意されたい。
図16Dでは、少なくとも部分的に訓練されたニューラルネットワーク構成1615を含むベースコーラ1414は、図15Aの「訓練データ生成フェーズ」中に以前に生成された配列信号1512を受信し、配列信号1512からベースコール配列1638を予測する。予測されたベースコール配列1638は、予測されたベースコール配列1638a、1638b、...、1638Gを含む。例えば、配列信号1512aは、ベースコール配列1638aを予測するために使用され、配列信号1512bは、ベースコール配列1638bを予測するために使用され、配列信号1512Gは、ベースコール配列1638Gを予測するために使用されるなどである。
ニューラルネットワーク構成1615は完全には訓練されておらず、したがって、予測されたベースコール配列1638a、1638b、...、1638Gはいくつかの誤差を含むが、図16Dの予測されたベースコール配列1638内の誤差は、図16Aの予測されたベースコール配列1618及び図16Bの予測されたベースコール配列1628における誤差よりも少ない可能性が高い。図16Cのマッピングされた訓練データ1650は、ここで、ニューラルネットワーク構成1615を更に訓練するために使用される。例えば、訓練データ1650から、ベースコーラ1414は、
(i)配列信号1512c、1512d、1512Gは、オリゴ1501Aの塩基配列に対するものであり(すなわち、グラウンドトゥルース1506a)、
(ii)配列信号1512a、1512b、1512fは、オリゴ1501Bの塩基配列に対するものであり(すなわち、グラウンドトゥルース1506b)、及び
(iii)配列信号1512e、1512gのマッピングは、不確定であるということを知る。
したがって、上記の(iii)に基づいて、(例えば、それぞれ配列信号1512e及び1512gに対応する)図16Dの予測されたベースコール配列1638e及び1638gは、ニューラルネットワーク構成1615を訓練するためには使用されない。したがって、これらの予測されたベースコール配列1638e及び1638gは、訓練データから廃棄され、勾配更新のために使用されない(予測されたベースコール配列1618e、1618gと勾配更新ボックス1617との間の「X」又は「交差記号」を使用して図16Dに記号的に例解される)。
上記の(i)に基づいて、ベースコーラ1414は、(例えば、配列信号1512c、1512d、及び1512Gにそれぞれ対応する)予測されたベースコール配列1638c、1638d、及び1638Gがオリゴ1501Aについてのものである可能性が高いことを知る。すなわち、オリゴ1501Aの塩基配列は、これらの予測されたベースコール配列1638c、1638d、1638Gについてのグラウンドトゥルースである可能性が高いが、部分的にはニューラルネットワーク構成1615は、これらの予測されたベースコール配列の少なくともいくつかの塩基を誤って予測した場合がある。したがって、ニューラルネットワーク構成は、比較関数1613を使用して、予測されたベースコール配列1638c、1638d、1638Gの各々を(オリゴ1501Aの塩基配列である)グラウンドトゥルース1506aと比較し、勾配更新1617及びニューラルネットワーク構成1615の結果として生じる訓練について、生成された誤差を使用する。例えば、比較中に、予測されたベースコール配列1638cの各ベースコールは、対応するグラウンドトゥルース配列の対応するベースコールと比較されて、図14A1に関して論じたように、例えば、対応する比較結果を生成する。
同様に、上記の(ii)に基づいて、ベースコーラは、(例えば、それぞれ配列信号1512a、1512b、及び1512fに対応する)予測されたベースコール配列1638a、1638b、及び1638fがオリゴ1501Bについてのものである可能性が高いことを知る。すなわち、オリゴ1501Aの塩基配列は、これらの予測されたベースコール配列1638a、1638b、及び1638fについてのグラウンドトゥルースである可能性が高いが、部分的にはニューラルネットワーク構成1615は、これらの予測されたベースコール配列の少なくともいくつかの塩基を誤って予測した場合がある。したがって、ニューラルネットワーク構成は、比較関数1613を使用して、予測されたベースコール配列1638a、1638b、及び1638fの各々をグラウンドトゥルース1506b(オリゴ1501Bの塩基配列である)と比較し、勾配更新1617及びニューラルネットワーク構成1615の結果として生じる訓練のために、生成された誤差を使用する。
図17Aは、単一オリゴ及び2オリゴ配列を使用して、ベースコーリングのためのニューラルネットワーク構成を反復的に訓練するための例示的方法1700を描写する、フローチャートを例解する。方法1700は、本質的に漸進的かつ単調に複雑であるNN構成を漸進的に訓練する。NN構成の複雑度を増加させることは、NN構成の層の数を増加させること、NN構成のフィルタの数を増加させること、NN構成におけるトポロジの複雑度を増加させること、及び/又は同様のものを含むことができる。例えば、方法1700は、(図14A及び他の図に関して本明細書で先に論じたNN構成1415である)第1のNN構成、(図16A及び他の図に関して本明細書で先に論じたNN構成1615である)第2のNN構成、(図14A~図16Dに関して具体的に論じていない)第PのNN構成などを参照する。実施例では、図17Aのボックス1710内に記号的に例解されているように、第PのNN構成の複雑度は、第(P-1)のNN構成の複雑度よりも高く、これは、第(P-2)のNN構成の複雑度よりも高く、以下同様であり、第2のNN構成の複雑度は、第1のNN構成の複雑度よりも高い。したがって、NN構成の複雑度は、単調に増加する(つまり、後の段階のNN構成は、少なくとも前の段階のNN構成と同等以上の複雑度を有する)。
方法1700では、動作1704aは、第1のNN構成を反復的に訓練し、第2のNN構成について標識された訓練データを生成するためのものであり、動作1704b1~1704bkは、第2のNN構成を訓練し、第3のNN構成について標識された訓練データを生成するためのものであり、動作1704cは、第3のNN構成を訓練し、第4のNN構成について標識された訓練データを生成するためのものであることに留意されたい。このプロセスが続き、動作1704Pは、第PのNN構成を訓練し、後続のNN構成のための標識された訓練データを生成するためのものである。したがって、一般的に言えば、方法1700では、動作1704iは、第iのNN構成を訓練し、第(i+1)のNN構成について標識された訓練データを生成するためのものであり、ここでi=1、...、Pである。
方法1700は、1704aにおいて、(i)単一のオリゴ配列を用いて第1のNN構成を反復的に訓練することと、(ii)訓練された第1のNN構成を使用して第1の2オリゴ標識訓練データを生成することとを含む。論じたように、第1のNN構成は、図14AのNN構成1415であり、単一オリゴ配列は、図14A、図14Bに関して論じたオリゴ#1を含む。単一オリゴ配列を用いた第1のNN構成の反復訓練は、図14A、図14Bに関して論じられる。訓練された第1のNN構成を使用する第1の2オリゴ標識訓練データの生成は、図15A、図15D、図15Eに関して論じられ、ここで、第1の2オリゴ標識訓練データは、図15Eの訓練データ1550である。
次いで、方法1700は、1704aから1704bに進む。例解されるように、動作1704bは、(例えば、動作1704aから生成された第1の2オリゴ標識訓練データを使用して)第2のNN構成を訓練し、訓練された第2のNN構成を使用して、第3のNN構成を訓練するための更なる2オリゴ標識訓練データを生成するためのものである。動作1704bは、ブロック1704b1~1704bkにおける部分動作を含む。
ブロック1704b1において、(i)第2のNN構成は、1704aにおいて生成された第1の2オリゴ標識訓練データを使用して訓練され、(ii)第2の2オリゴ標識訓練データは、少なくとも部分的に訓練された第2のNN構成を使用して生成される。論じたように、第2のNN構成は、図16AのNN構成1615である。第1の2オリゴ標識訓練データを使用した第2のNN構成の訓練も、図16Aに例解されている。少なくとも部分的に訓練された第2のNN構成を使用する(例えば、図16Cの訓練データ1650である)第2の2オリゴ標識訓練データの生成は、図16B及び図16Cに関して論じられる。
次いで、方法1700は、1704b1から1704b2に進む。ブロック1704b2において、(i)第2の2オリゴ標識訓練データを使用して第2のNN構成が更に訓練され、(ii)更に訓練された第2のNN構成を使用して第3の2オリゴ標識訓練データが生成される。第2の2オリゴ標識訓練データを使用した第2のNN構成の訓練を図16Dに例解する。更に訓練された第2のNN構成を使用する第3の2オリゴ標識訓練データの生成は例解されていないが、図16B及び図16Cに関する考察と同様である。
ブロック1704b1は、第2のNN構成を訓練する第1の反復であり、ブロック1704b2は、第2のNN構成を訓練する第2の反復であり、以下同様であり、最後にブロック1704bkは、第2のNN構成を訓練する第kの反復であることに留意されたい。論じられるように、ブロック1704b1の動作は、図16A、図16B、図16Cに関して詳細に論じられる。後続のブロック1704b2、...、1704bkの動作は、ブロック1704b1についての考察と同様であり得る。
反復1704b1、...、1704bkの全てにおいて同じ第2のNN構成が使用されることに留意されたい。したがって、これらのk回の反復は、第2のNN構成の複雑度を増加させることなく、同じ第2のNN構成を反復的に訓練することを目的とする。
第2のNN構成の訓練は、ブロック1704b1、1704b2、...、1704bkの反復ごとに進行する。第2のニューラルネットワークが反復1704b1、...、1704bkの各ステップにおいて徐々に訓練されるにつれて、第2のニューラルネットワークは、ベースコール配列を予測する際の誤差が漸進的に相対的に少なくなる。例えば、ブロック1704aに示され、図15Eにも例解されるように、訓練された第1のNN構成を使用して生成された第1の2オリゴ標識訓練データ(すなわち、訓練データ1550)は、44%(すなわち、10,000のうちの4,400)の不確定なマッピングを有する。ブロック1704b1に示され、図16Cにも例解されるように、部分的に訓練された第2のNN構成を使用して生成された第2の2オリゴ標識訓練データ(すなわち、訓練データ1650)は、35%(すなわち、10,000のうちの3,500)の不確定なマッピングを有する。ブロック1704b2に示され、単に実施例として示されるように、更に訓練された第2のNN構成を使用して生成された第3の2オリゴ標識訓練データは、32%(すなわち、10,000のうちの3,200)の不確定なマッピングを有し得る。不確定なマッピングの割合は、例えば、ブロック1704bkにおいて約20%に達するまで、反復ごとに徐々に減少し得る。
第2のNN構成を訓練するための反復回数「k」は、1つ以上の収束条件を満たすことに基づき得る。収束条件が満たされると、第2のNN構成を訓練するための反復は終了することができる。収束条件は、実装固有であり、第2のNN構成を訓練するために受ける反復の回数を指示する。実施例では、収束条件を満たすことは、更なる反復が第2のNN構成の更なる訓練に著しく役立たない場合があり、したがって、第2のNN構成のための訓練反復を終了することができることを示す。本明細書では、収束条件及びそれを満たすことのいくつかの実施例について論じる。例えば、第2のNN構成は、不確定なマッピングの割合が閾値割合未満になるまで、反復的に訓練され得る。ここで、収束条件は、不確定なマッピングの割合が閾値割合未満になると満たされる。例えば、第2のNN構成の場合、この閾値は、単なる実施例として、約20%とすることができる。したがって、反復kにおいて、閾値が満たされると、収束条件が満たされ、第2のNN構成の訓練が終了する。したがって、方法は1704cに進み、ブロック1704bkにおいて生成された第Kの2オリゴ標識訓練データを使用して、第2のNN構成よりも複雑な第3のNN構成を訓練する。
別の実施例では、第2のNN構成の反復は、不確定なマッピングの割合がある程度飽和するまで(すなわち、連続した反復で大幅に減少しないまで)続けられ、収束条件を満たす。すなわち、この実施例では、閾値を下回る飽和は、反復訓練の十分な収束を示し(例えば、収束条件の満足を示す)、更なる反復ではモデルを著しく改善することができないため、現在のモデルの反復を終了することができる。例えば、反復(k-2)において(例えば、ブロック1704b(k-2)において)、不確定なマッピングの割合が21%であり、反復(k-1)において(例えば、ブロック1704b(k-2)において)、不確定なマッピングの割合が20.4%であり、反復kにおいて(例えば、ブロック1704bkにおいて)、不確定なマッピングの割合が20%であると仮定する。したがって、最後の2回の反復では、不確定なマッピング割合の減少は比較的低く(例えば、それぞれ0.6%及び0.4%)、訓練がほぼ飽和しており、更なる訓練が第2のNN構成を大幅に改善することができないことを示唆している。ここで、飽和度は、2つの連続した反復中の不確定なマッピングの割合の間の差として測定される。すなわち、2つの連続する反復がほぼ同じ不確定なマッピングの割合を有する場合、更なる反復は、この割合の更なる低減に役立たない場合があり、したがって、訓練反復を終了することができる。したがって、この段階において、第2のNN構成についての反復が終了し、方法1700は、第3のNN構成について1704cに進む。
更に別の実施例では、反復回数「k」が事前に指定され、k回の反復を完了することが収束条件を満たし、その結果、現在のNN構成に対する訓練を終了することができ、次のNN構成を開始することができる。
したがって、第2のNN構成に対する反復の終わりにおいて(すなわち、ブロック1704kの終わりにおいて)、方法1700はブロック1704cに進み、そこで第3のNN構成が反復的に訓練される。第3のNN構成の訓練はまた、動作1704b1、...、1704bkに関して論じられたものと同様の反復を含み、したがって、更に詳細には論じることはない。
より複雑なNN構成を漸進的に訓練するこのプロセスは、方法1700の1704Pにおいて、第PのNN構成が訓練され、次のNN構成を訓練するための2オリゴ訓練データが生成されるまで継続する。
実施例では、本明細書で論じるように、ブロック1704b1、...、1704bk、1704c、...、1704Pの全ての反復に対して同じ2オリゴ配列が使用され得ることに留意されたい。しかしながら、いくつかの他の実施例では、本明細書では論じられていないが、異なる2オリゴ配列が図17の方法1700の異なる反復に使用され得る。
論じられるように、モデルがより複雑であるほど、モデルは、ベースコールを予測するためにより良く訓練され得る。例えば、第2のNN構成の訓練の終わりにおいて、第2のNN構成によって生成された最終的な標識訓練データは、20%の不確定なマッピングを有する。不確定なマッピングの割合は、第3のNN構成の訓練の終わりにおいて更に減少する。例えば、第3のNN構成の第1の訓練反復中、不確定なマッピングの割合は36%であり(例えば、第3のNN構成は第1の反復中にほとんど訓練されていないため)、この割合は第3のNN構成のその後の訓練反復とともに徐々に減少する。図17Aに例解するように、例えば、第3のNN構成の訓練の終わりにおいて、第3のNN構成によって生成された最終的な標識訓練データが17%の不確定なマッピングを有すると仮定する。この不確定なマッピングの割合は、図17Aの反復の進行とともに更に減少し、例えば、第PのNN構成の訓練の終わりにおいて、第PのNN構成によって生成された最終的な標識訓練データは、12%の不確定マッピングを有する。訓練は、例えば、第PのNN構成に対して(本明細書で前述した)収束条件が満たされたときに、訓練が、12%の不確定なマッピングで終わることに留意されたい。したがって、P個のNN構成が方法1700において訓練される。数「P」は、3、4、5、又はそれ以上とすることができ、実装固有であり、対応する1つ以上の収束条件を満たすことに基づくこともできる。例えば、第(P-1)のNN構成が12.05%の不確定マッピングをもたらし、第PのNN構成が12%の不確定なマッピングをもたらす場合、2つのNN構成間には0.05%の不確定マッピングのわずかな改善がある。これは、2オリゴ配列による新しいNN構成の訓練が飽和していることを示す。ここで、飽和とは、2つの連続するNN構成間の不確定なマッピングの割合の差を指す。飽和が閾値(例えば0.1%)以下である場合、2オリゴ配列訓練の訓練は終了される。別の実施例では、NN構成の数「P」は、例えば、3、4、又はそれ以上の数であるように、ユーザが事前に指定することができる。以下に論じるように、2オリゴ配列を使用したP個のNN構成による訓練が完了したら、更に複雑な検体(3オリゴ配列など)を訓練に使用し得る。
図17Bは、図17Aの方法1700の終わりにおいてP番目のNN構成によって生成された例示的な最終的な標識された訓練データを例解する。論じたように、第PのNN構成の訓練の終わりにおいて、第PのNN構成によって生成された最終的な標識された訓練データは、12%(又は10,000のうち1,200)の不確定なマッピングを有する。予測されたベースコール配列は、(i)オリゴ1501Aにマッピングされる予測されたベースコール配列を含む第1のカテゴリ、(ii)オリゴ1501Bにマッピングされる予測されたベースコール配列を含む第2のカテゴリ、及び(iii)オリゴ1501A又は1501Bのいずれにもマッピングされない予測されたベースコール配列を含む第3のカテゴリである、3つのカテゴリに選別される。図17Bの訓練データ1750は、図15E及び図16Cの訓練データに関する考察に基づいて明らかになるであろう。
図18Aは、3オリゴニューラルネットワーク構成1815を備えるベースコーラ1414を訓練するために、「3オリゴ訓練段階」の「訓練データ消費及び訓練フェーズ」の第1の反復で動作する図14Aのベースコーリングシステム1400を例解する。ニューラルネットワーク構成1815を「3オリゴ」ニューラルネットワーク構成1815として標識する理由は、本明細書において後で明らかになるであろう。図18Aは、図16Dと少なくとも部分的に類似している。しかしながら、図15Dとは異なり、方法1700の終わりにおいて(例えば、2オリゴベースの訓練を使用した第PのNN構成によって)生成された標識された訓練データ1750(図17B参照)が、図18Aの訓練中に使用される。
例えば、図18Aにおいて、3オリゴニューラルネットワーク構成1815を含むベースコーラ1414は、ベースコール配列1838a、1838b、...、1838Gを予測する。図17Bのマッピングされた訓練データ1750は、ここで、図16Dに関して論じられる訓練と同様に、3オリゴニューラルネットワーク構成1815を更に訓練するために使用される。
図18Bは、図18Aの3オリゴニューラルネットワーク構成1815を備えるベースコーラ1414を訓練するために、「3オリゴ訓練段階」の「訓練データ生成フェーズ」で動作する図14Aのベースコーリングシステム1400を例解する。
図18Bでは、3つの異なるオリゴ配列1801A、1801B、及び1801Cが、フローセル1405の様々なクラスタにロードされる。単なる実施例として、本開示の範囲を限定することなく、10,000個のクラスタ1407のうち、約3,200個のクラスタがオリゴ配列1801Aを含み、約3,300個のクラスタがオリゴ配列1801Bを含み、残りの3,500個のクラスタがオリゴ配列1501Cを含むと仮定する(ただし、別の実施例では、3つのオリゴは10,000個のクラスタの間で実質的に等しく分割することができる)。
配列決定マシン1404は、複数のクラスタ1407a、...、1407Gのうちの対応するクラスタに対して配列信号1812a、...、1812Gを生成する。例えば、クラスタ1407aについて、配列決定マシン1404は、一連の配列決定サイクルについてクラスタ1407aの塩基を示す対応する配列信号1812aを生成する。同様に、クラスタ1407bについて、配列決定マシン1404は、一連の配列決定サイクルについてのクラスタ1407bについての塩基を示す対応する配列信号1812bを生成するなどする。
ニューラルネットワーク構成1815を含むベースコーラ1414は、例えば、図15Aに関して論じるように、対応する配列信号1812a、...、1812Gにそれぞれ基づいて、複数のクラスタ1407a、...、1407Gのうちの対応するクラスタに対するベースコール配列1818a、...、1818Gを予測する。
実施形態では、オリゴ配列1801A、1801B、及び1801Cは、図15B及び図15Cに関する考察に基づいて明らかになるように、例えば、3つのオリゴの塩基間に十分な編集距離を有するように選択される。例えば、3つのオリゴ配列1801A、1801B、及び1801Cのうちのいずれかは、少なくとも閾値編集距離だけ、3つのオリゴ配列1801A、1801B、及び1801Cのうちの別のものから分離される。単なる実施例として、閾値編集距離は、4塩基、5塩基、6塩基、7塩基、又は更には8塩基である可能性がある。したがって、3つのオリゴは、3つのオリゴが互いに十分に異なるように選択される。
再び図18Bを参照すると、実施例では、ベースコーラ1414は、どのオリゴ配列がどのクラスタに投入されているかについては知らない。したがって、ベースコーラ1414は、既知のオリゴ配列1801A、1801B、及び1801Cと様々なクラスタとの間のマッピングを知らない。マッピングロジック1416は、予測されたベースコール配列1818を受け取り、各予測されたベースコール配列1818をオリゴ1801A、1801B、若しくは1801Cのうちの1つにマッピングするか、又は予測されたベースコール配列を3つのオリゴのいずれかにマッピングする際に不確定性を宣言する。図18Cは、(i)予測されたベースコール配列を3つのオリゴ1801A、1801B、1801Cのいずれかにマッピングするか、又は(ii)予測されたベースコール配列の3つのオリゴのいずれかへのマッピングが不確定であると宣言するためのマッピング動作を例解する。
図18Cに例解されるように、予測されたベースコール配列1818aは、オリゴ1801Aと2塩基の類似性を有し、オリゴ1801Bと5塩基の類似性を有し、オリゴ1801Cと1塩基の類似性を有する。(例えば、式1~4に関して論じられる)閾値類似性STが4であると仮定すると、予測されたベースコール配列1818aは、オリゴ1801Bにマッピングされる。
同様に、図18Cの実施例では、予測されたベースコール配列1818bは、オリゴ1801Cにマッピングされ、予測されたベースコール配列1818aのマッピングは、図18Bのマッピングロジック1416によって不確定であると宣言される。
図18Dは、図18Cのマッピングから生成された標識された訓練データ1850を例解し、訓練データ1850は、別のニューラルネットワーク構成を訓練するために使用される。図18Dに例解されるように、予測されたベースコール配列1818及び対応する配列信号のいくつかは、オリゴ1801Aの塩基配列(すなわち、グラウンドトゥルース1806a)にマッピングされ、予測されたベースコール配列1818及び対応する配列信号のいくつかは、オリゴ1801Bの塩基配列(すなわち、グラウンドトゥルース1806b)にマッピングされ、予測されたベースコール配列1818及び対応する配列信号のいくつかは、オリゴ1801Cの塩基配列(すなわち、グラウンドトゥルース1506c)にマッピングされ、予測されたベースコール配列1818及び対応する配列信号の残りのマッピングは不確定である。図18Dの訓練データ1850は、前述の図15Eの訓練データ1550に関する考察に基づいて明らかになるであろう。
図18Eは、3オリゴグラウンドトゥルース配列を使用して、ベースコーリングのためのニューラルネットワーク構成を反復的に訓練するための例示的方法1880を描写するフローチャートを例解する。方法1800は、本質的に漸進的かつ単調に複雑である3オリゴNN構成を漸進的に訓練する。NN構成の複雑度を増加させることは、図17Aに関しても論じたように、NN構成の層の数を増加させること、NN構成のフィルタの数を増加させること、NN構成におけるトポロジの複雑度を増加させること、及び/又は同様のものを含むことができる。例えば、方法1880は、第1の3オリゴNN構成(図18Aに関して本明細書で先に論じた3オリゴNN構成1815である)、第2の3オリゴNN構成、第QのNN構成などを参照する。実施例では、図18Eのボックス1890内に記号的に例解されているように、第Qの3オリゴNN構成の複雑度は、第(Q-1)の3オリゴNN構成の複雑度よりも高く、これは、第(Q-2)の3オリゴNN構成の複雑度よりも高く、以下同様であり、第2の3オリゴNN構成の複雑度は、第1の3オリゴNN構成の複雑度よりも高い。
図18Eの方法1880では、動作1704Pは、図17Aの方法1700の最後のブロックからのものであり、動作1888a1~1888amは、第1の3オリゴNN構成を反復的に訓練し、第2の3オリゴNN構成のための標識された訓練データを生成するためのものであり、動作1888bは、第2の3オリゴNN構成を反復的に訓練し、第3の3オリゴNN構成のための標識された訓練データを生成するためのものであり、以下同様であることに留意されたい。このプロセスは継続し、動作1888Qは、第Qの3オリゴNN構成を訓練し、後続のNN構成を訓練するための標識された訓練データを生成するためのものである。したがって、一般的に言えば、方法1880では、動作1888iは、第iの3オリゴNN構成を訓練し、第(i+1)の3オリゴNN構成のための標識された訓練データを生成するためのものであり、ここでi=1、...、Qである。
方法1880は、1704Pにおいて、2オリゴグラウンドトゥルースデータを使用して第PのNN構成を訓練するために動作1704b1、...、1704bkを繰り返すことと、図17Aの方法1700の最後のブロックである次のNN構成を訓練するための2オリゴ標識された訓練データを生成することと、を含む。
次いで、方法1880は、1704Pから1888a1に進む。例解されるように、動作1888aは、前のブロック(例えば、ブロック1704P)から生成された標識された訓練データ(例えば、図17Bの訓練データ1750)を使用して第1の3オリゴNN構成(例えば、3オリゴニューラルネットワーク構成1815)を訓練し、訓練された第1の3オリゴNN構成を使用して、第2の3オリゴNN構成の後続の訓練のための更なる3オリゴ標識された訓練データを生成するためのものである。動作1888aは、ブロック1888a1~1888amにおける部分動作を含む。
ブロック1888a1において、(i)第1の3オリゴNN構成(例えば、図18Aの3オリゴNN構成1815)は、1704Pにおいて生成された標識された訓練データを使用して訓練され、(ii)3オリゴ標識された訓練データは、少なくとも部分的に訓練された第1の3オリゴNN構成(図18Dの訓練データ1850など)を使用して生成される。
次いで、方法1880は、1888a1から1888a2に進む。ブロック1888a2において、(i)第1の3オリゴNN構成は、前の段階において生成された(例えば、ブロック1888a1において生成された)3オリゴ標識された訓練データを使用して更に訓練され、(ii)新たな3オリゴ標識された訓練データが、更に訓練された第1の3オリゴNN構成を使用して生成される。
ブロック1888a2(及びブロック1888a2)に関して論じられた動作は、1888a3、...、1888amにおいて反復的に繰り返される。ブロック1888a1、...、1888amは全て、第1の3オリゴNN構成を訓練するためのものであることに留意されたい。反復回数「m」は、実装固有であり得、特定のNNモデルを訓練するための反復回数を選択するために使用される例示的な基準は、図17Aの方法1700に関して論じられている(例えば、この方法における反復回数「k」の選択)。
第1の3オリゴNN構成が1888amにおいて十分に又は満足のいくように訓練された後、方法1888はブロック1888bに進み、第2の3オリゴNN構成が反復的に訓練される。第2の3オリゴNN構成の訓練はまた、動作1888a1、...、1888amに関して論じられたものと同様の反復を含み、したがって、更に詳細には論じることはない。
より複雑なNN構成を漸進的に訓練するこのプロセスは、方法1888の1888Qにおいて、第Qの3オリゴNN構成が訓練され、対応する3オリゴ訓練データが次のNN構成を訓練するために生成されるまで継続する。
図19は、複数オリゴグラウンドトゥルース配列を使用してベースコーリングのためのニューラルネットワーク構成を反復的に訓練するための例示的な方法1900を描写するフローチャートを例解する。図19は、本質的に、図14A~図18Eに関する考察を要約する。例えば、図19は、単一オリゴ段階、2オリゴ段階、3オリゴ段階などの異なるオリゴ段階を使用する反復訓練及び標識された訓練データ生成プロセスを例解する。したがって、標識された訓練データの訓練及び生成のために使用される検体の複雑度及び/又は長さは、ベースコーラの基礎となるニューラルネットワーク構成の複雑度とともに、反復とともに漸進的かつ単調に増加する。
方法1900は、1904aにおいて、例えば、図14A及び図14B並びに図17Aの方法1700のブロック1704aに関して論じたように、1オリゴNN構成を反復的に訓練し、標識された訓練データを生成すること、を含む。
方法1900は、1904bにおいて、例えば、図17Aの方法1700のブロック1704b1~1704Pに関して論じたように、2オリゴ配列を使用して1つ以上の2オリゴNN構成を反復的に訓練することと、標識された2オリゴ訓練データを生成することと、を更に含む。
方法1900は、1904cにおいて、例えば、図18Eの方法1880のブロック1888a1~1888Qに関して論じたように、3オリゴ配列を使用して1つ以上の3オリゴNN構成を反復的に訓練することと、標識された3オリゴ訓練データを生成することと、を更に含む。
このプロセスは継続し、より多数のオリゴ配列が漸進的に使用され得る。最後に、1904Nにおいて、1つ以上のNオリゴNN構成が、Nオリゴ配列を使用して訓練され、対応するNオリゴ標識された訓練データが生成され、ここで、Nは、2以上の適切な正の整数であり得る。1904Nにおける動作は、1904b及び1904cにおける動作に関する考察に基づいて明らかになるであろう。
図14A~図19は、合成的に配列決定された単純なオリゴ配列を用いたNNモデルの訓練に関連付けられている。例えば、これらの図において使用されるオリゴ配列は、生物のDNAにおいて見出される配列と比較して、より少ない数の塩基を有する可能性が高い。実施形態では、図14A~図19に関して論じられたオリゴベースの訓練を使用して、漸進的に複雑なNNモデルを訓練し、漸進的に豊富な標識された訓練データセットを生成する。例えば、図19は、NオリゴNN構成を使用してNオリゴ標識された訓練データセットを出力し、ここで、Nオリゴ標識された訓練データセットは、「N未満」の数のオリゴに関連付けられた標識された訓練データセットよりもはるかに豊富な、多様な、かつより大きな標識された訓練データセットを有し得る。
しかしながら、実際には、配列決定マシン1404とベースコーラ1414は、単純なオリゴ配列よりもはるかに複雑な配列をベースコールすることになる。例えば、実際には、配列決定マシン1404及びベースコーラ1414は、単純なオリゴ配列よりもはるかに複雑な生物配列をベースコールすることになる。したがって、ベースコーラ1414は、オリゴ配列よりも複雑な生物DNA及びRNAにおいて見出される塩基配列に関して訓練されなければならない。
図20Aは、図14Aのベースコーラ1414を訓練するために使用される生物配列2000を例解する。生物の配列は、phix(ファイXとも呼ばれる)などの、塩基数が比較的少ない生物の配列であることができる。phixバクテリオファージは、一本鎖DNA(single-stranded DNA、ssDNA)ウイルスである。phix174バクテリオファージは大腸菌に感染するssDNAウイルスで、1977年に配列決定された最初のDNAベースのゲノムである。phix(ΦX174など)ウイルス粒子も、インビトロで組み立てに成功している。実施形態では、オリゴ配列を用いてベースコーラ1414を訓練した後(図14A~図19に関して論じたように)、ベースコーラ1414は、phix DNAなどの単純生物DNAを用いて更に訓練することができるが、これは本開示の範囲を限定しない。例えば、phixの代わりに、より複雑な生物、例えば細菌(大腸菌又はE-coli菌など)を使用することができる。したがって、生物配列2000は、phix、又は別の比較的単純な生物DNAであることができる。生物配列2000は、事前に配列決定されている、すなわち、生物配列2000の塩基配列は、先験的に既知である(例えば、配列決定マシン及び図14Aに例解されるものとは異なる既に訓練されたベースコーラによって配列決定されている)。
図20Aに例解されるように、生物配列2000を図14Aの配列決定マシン1404にロードする場合、生物配列2000は、複数の部分配列2004a、2004b、...、2004Nに分割又は区分される。各部分配列は、対応する1つ以上のクラスタにロードされる。したがって、各クラスタ1407には、対応する部分配列2004及びその合成コピーが投入される。例えば、クラスタに投入できる部分配列の最大サイズなど、任意の適切な基準を使用して生物配列2000を区分することができる。例えば、フローセルの個々のクラスタに、最大約150個の塩基を有する部分配列が投入できる場合、部分配列2004の個々のものが最大150個の塩基を有するように、それに応じて区分することができる。実施例では、個々の部分配列2004は、実質的に等しい数の塩基を有することができ、一方、別の実施例では、個々の部分配列2004は異なる数の塩基を有することができる。部分配列2004bは、本開示の教示を論ずるための実施例として使用され、L1個の塩基を有すると仮定される。単なる実施例として、数L1は、100~200であることができるが、任意の他の適切な値を有することができ、実装固有である。
図20Bは、図20Aの第1の生物配列2000の部分配列2004a、...、2004Sを使用して、第1の生物レベルのニューラルネットワーク構成2015を備えるベースコーラ1414を訓練するために、第1の生物訓練段階の訓練データ生成フェーズで動作する図14Aのベースコーリングシステム1400を例解する。
図20Bには例解されていないが、第1の生物レベルNN構成2015は、図19の方法1904からのNオリゴ標識された訓練データを使用して最初に訓練されることに留意されたい。したがって、第1の生物レベルNN構成2015は、少なくとも部分的に事前訓練される。図20Bのベースコーリングシステム1400は、図14Aのベースコーリングシステムと同じであるが、2つの図では、ベースコーリングシステム1400は、異なるニューラルネットワーク構成及び異なる検体を使用する。
上述したように、部分配列2004a、...、2004Sは、対応するクラスタ1407にロードされる。例えば、部分配列2004aは、クラスタ1407aにロードされ、部分配列2004bは、クラスタ1407bにロードされるなどする。各クラスタ1407は、同じ部分配列2004の複数の配列決定されたコピーを含むことに留意されたい。例えば、クラスタにロードされた部分配列は、クラスタが同じ部分配列の複数のコピーを有するように合成的に複製され、これは、クラスタについての対応する配列信号2012を生成するのに役立つ。
ベースコーラ1414は、どのクラスタにどの部分配列が投入されているかを知らないことに留意されたい。例えば、部分配列2004a及びその合成コピーが特定のクラスタにロードされる場合、ベースコーラ1414は、部分配列2004a投入されたクラスタを知らない。本明細書で後述するように、マッピングロジック1416は、訓練プロセスを容易にするために、個々の部分配列2004を対応するクラスタ1407にマッピングすることを目的とする。
配列決定マシン1404は、複数のクラスタ1407a、...、1407Gのうちの対応するクラスタに対して配列信号2012a、...、2012Gを生成する。例えば、クラスタ1407aについて、配列決定マシン1404は、一連の配列決定サイクルについてクラスタ1407aの塩基を示す対応する配列信号2012aを生成する。同様に、クラスタ1407bについて、配列決定マシン1404は、一連の配列決定サイクルについてのクラスタ1407bについての塩基を示す対応する配列信号2012bを生成するなどする。
実施例では、個々の部分配列2004は、対応するクラスタ1407にロードされるが、ベースコーラ1414は、どの部分配列がどのクラスタにロードされるかを知らない。したがって、ベースコーラ1414は、部分配列2004とクラスタ1407との間のマッピングを知らない。各クラスタ1407が対応する配列信号2012を生成するので、ベースコーラ1414は、部分配列2004と配列信号2012との間のマッピングを知らない。
ニューラルネットワーク構成2015を含むベースコーラ1414は、対応する配列信号2012a、...、2012Gにそれぞれ基づいて、複数のクラスタ1407a、...、1407Gのうちの対応するクラスタに対するベースコール配列2018a、...、2018Gを予測する。例えば、クラスタ1407aについて、ベースコーラ1414は、対応する配列信号2012aに基づいて、一連の配列決定サイクルについてのクラスタ1407aについてのベースコールを含む対応するベースコール配列2018aを予測する。同様に、クラスタ1407bについて、ベースコーラ1414は、対応する配列信号2012bに基づいて、一連の配列決定サイクルについてのクラスタ1407bについてのベースコールを含む対応するベースコール配列2018bを予測するなどする。
ニューラルネットワーク構成2015は、部分的にのみ訓練され、完全には訓練されないことに留意されたい。したがって、ニューラルネットワーク構成2015が個々の部分配列の塩基の一部又は大部分を正確に予測できない場合がある。
更に、部分配列でのベースコールが進行するにつれて、例えば、フェージング(phasing)又はプレフェージング(pre-phasing)のフェーディング(fading)及び/又はノイズに起因して、塩基をコールすることがますます困難になる。図20Cは、ベースコーリング動作の配列決定実行であるサイクル数の関数として信号強度が減少したフェーディングの実施例を例解する。フェーディングは、サイクル数の関数としてのクラスタの蛍光信号強度の指数関数的減衰である。配列決定実行が進行するにつれて、検体ストランドは、過度に洗浄され、反応種を作成するレーザー発光に曝露され、過酷な環境条件に置かれる。これらの全ては、各検体においてフラグメントが徐々に失われる結果を招き、その蛍光信号強度を低下させる。フェーディングは、減光又は信号減衰とも呼ばれる。図20Cは、フェーディング2000Cの一実施例を例解する。図20Cでは、ACマイクロサテライトを有する検体フラグメントの強度値は、指数関数的減衰を示す。
図20Dは、配列決定進行のサイクルとしての減少する信号対ノイズ比を概念的に示す。例えば、配列決定が進行すると、信号強度が低下し、ノイズが増加し、その結果、信号対ノイズ比が実質的に減少するため、正確なベースコールがますます困難になる。物理的には、後の合成ステップは、センサに対して、より前の合成ステップとは異なる位置にタグを取り付けることが観察された。センサが、合成されている配列の下方にあるとき、信号減衰は、より前のステップよりも後の配列決定ステップでセンサから更に離れたストランドにタグを取り付けることから生じる。これは、配列決定サイクルの進行とともに信号減衰を引き起こす。いくつかの設計では、センサが、クラスタを保持する基材の上方にある場合、信号は、減衰する代わりに、配列決定が進行するにつれて増加し得る。
調査されたフローセル設計では、信号が減衰している間、ノイズが増大する。物理的に、フェージング及びプレフェージングは、配列決定が進行するにつれてノイズを増加させる。フェージングは、タグが配列に沿って進行することができない配列決定のステップを指す。プレフェージングは、配列決定サイクル中に、タグが、1つの位置ではなく2つの位置だけ前方にジャンプする配列決定ステップを指す。フェージング及びプレフェージングは両方とも、比較的頻繁ではなく、500~1000サイクル中に1回程度である。フェージングは、プレフェージングよりわずかに頻繁である。フェージング及びプレフェージングは、強度データを生成するクラスタ内の個々のストランドに影響を及ぼすので、クラスタからの強度ノイズ分布は、配列決定が進行するにつれて、二項展開、三項展開、四項展開などで累積する。
フェーディング、信号減衰、及び信号対ノイズ比の減少、並びに図20C及び図20Dの更なる詳細は、2020年5月14日に出願された「Systems and Devices for Characterization and Performance Analysis of Pixel-Based Sequencing」と題する米国非仮特許出願第16/874,599号(代理人整理番号ILLM1011-4/IP-1750-US)に見出すことができ、本明細書に完全に記載されているかのように参照により組み込まれる。
したがって、ベースコーリングの間、ベースコーリングの信頼性又は予測可能性は、配列決定サイクルが進行するにつれて減少する。例えば、図20Aの部分配列2004bなどの特定の部分配列を参照すると、概して、部分配列2004bの塩基1~10のコーリングは、塩基10~20のコーリング又は塩基50~60のコーリングよりも信頼性が高い場合がある。言い換えれば、部分配列2004bのL1個の塩基の最初の数個の塩基は、部分配列2004bのL1個の塩基の残りの塩基よりも比較的正確に予測される可能性が高い。
図20Eは、部分配列のL1個の塩基のうちの第1のL2個の塩基のベースコーリングを例解し、部分配列2004bの第1のL2個の塩基は、部分配列2004bを配列2000にマッピングするために使用される。
例えば、図20A、図20B、及び図20Eを参照すると、配列決定マシン1404は、部分配列2004bに対応する配列信号2012bを生成する(すなわち、部分配列2004bがクラスタ1407bに投入されていると仮定する)。しかし、ベースコーラ1414は、配列信号2012bに対応する部分配列が配列2000のどこに適合するかを知らない。すなわち、ベースコーラ1414は、特に部分配列2004bがクラスタ1407bにロードされていることを知らない。
図20Eに例解されるように、部分的に訓練されたNN構成2015(例えば、図19の方法1904からのNオリゴ標識された訓練データを使用して訓練される)は、配列信号2012bを受信し、配列信号2012bによって示されるL1個の塩基を予測する。L1個の塩基の予測は、第1のL2個の塩基の予測を含み、部分配列2004bの第1のL2個の塩基の予測は、部分配列2004bを配列2000にマッピングするために使用される。
実施例では、数L2は10である。数L2は、L2がL1よりも相対的に小さい限り、8、10、12、13、又は同様のものなどの任意の適切な数であり得る。例えば、L2は、L1の10%未満、L1の25%未満、又は同様のものである。
例えば、NN構成2015によって予測される部分配列2004bの第1のL2個の塩基は、図20Eに例解するように、A、C、C、T、G、A、G、C、G、Aである。リマイニング(L1-L2)塩基の予測は、図20EでB1、...、B1として一般的に例解される。
ここで、NN構成2015が第1のL2個の塩基を正しく予測した可能性もあれば、これらのL2個の塩基予測に1つ以上の誤差がある可能性もある。マッピングロジック1416は、第1のL2個の塩基の予測を、生物配列2000中の対応する連続するL2個の塩基にマッピングしようとする。別の言い方をすれば、マッピングロジック1416は、生物配列2000内の部分配列2004bを同定できるように、第1のL2個の塩基の予測を生物配列2000内の連続するL2個の塩基に一致させようとする。
図20Eに例解されるように、マッピングロジック1416は、部分配列2004bについて予測された第1のL2個の塩基と、生物配列2000中の連続するL2個の塩基との間の「実質的」かつ「一意的」な一致を見出すことができる。「実質的な」一致は、一致が100%でない場合があり、一致に1つ以上の誤差が存在し得ることを意味することに留意されたい。例えば、NN構成2015によって予測された部分配列2004bの第1のL2個の塩基は、A、C、C、T、G、A、G、C、G、Aであるが、生物配列2000の対応する実質的に一致する連続するL2個の塩基は、A、G、C、T、G、A、G、C、G、Aである。したがって、これら2つのL2個の塩基配列の第2の塩基は一致しないが、残りの塩基は一致する。そのような不一致の数が閾値パーセンテージ未満である限り、マッピングロジック1416は、2つのL2個の塩基断片数が一致していると宣言する。不一致の閾値パーセンテージは、数L2の10%、又は20%、又は同様のパーセンテージであり得る。したがって、実施例では、L2は10であり、マッチングロジック1416は、最大2つの不一致(又は20%の不一致)を許容することができる。したがって、マッピングロジック1416は、部分配列2004bについて予測された第1のL2個の塩基、又はそのわずかな変動(例えば、変動がマッチング中の誤差許容度を意味する)を、生物配列2000の連続するL2個の塩基にマッピングすることを目的とする。閾値パーセンテージの値は、実装固有であることができ、ユーザ構成可能であることができる。単に実施例として、訓練の最初の反復中に、閾値パーセンテージは比較的高く(20%など)、閾値パーセンテージは、訓練の後の反復中に比較的低い値(10%など)を有することができる。したがって、訓練反復の初期段階において、ベースコーリング予測における誤差の可能性が比較的高いため、閾値パーセンテージは比較的高くなることができる。NNの構成がより良く訓練されると、より良いベースコーリング予測を行う可能性が高くなるため、閾のパーセンテージを徐々に下げることができる。しかしながら、別の実施例では、閾値パーセンテージは、訓練の全ての反復を通して同じであることができる。
また、実施例では、2つのL2個の塩基間のマッチングは、適正マッピングのために一意でなければならず、一意でないマッチングは、マッチングとマッピングが不確定であると宣言されることをもたらし得る。したがって、部分配列2004b(又はそのわずかな変異)について予測される第1のL2個の塩基は、マッチング及びマッピングが有効であるために、生物配列2000において1回のみ生じることができる。通常、より単純な生物の実用的な塩基配列では、連続するL2個の塩基(又はその小さな変異)は、生物配列2000の中で一度しか出現しない可能性が高い。
例えば、図20Eの実施例を参照すると、生物配列2000の1つのセクションでは連続する塩基A、G、C、T、G、A、G、C、G、Aの出現があり、生物配列2000の別のセクションで連続する塩基A、C、A、T、G、A、G、C、G、Aの別の出現がある場合、生物配列2000の両方のセクションは、NN構成2015によって予測された部分配列2004bの第1のL2個の塩基(A、C、C、T、G、A、G、C、G、A)に一致する可能性がある。したがって、この実施例では、マッチングは一意ではなく、マッピングロジック1416は、生物配列2000の2つのセクションのうちのどちらが部分配列2004b上のL2個の塩基にマッピングされるかを知らない。そのようなシナリオでは、マッピングロジック1416は、信頼できるマッチングがないことを宣言する(すなわち、不確定なマッピングを宣言する)。
図20Eの実施例を参照すると、例解されるように、NN構成2015によって予測される部分配列2004bの第1のL2個の塩基は、生物配列2000の対応する連続するL2個の塩基と「実質的に」かつ「一意に」一致する。また、生物配列2000のセクション2000B(L1個の塩基を有する)を仮定すると、部分配列2004bの第1のL2予測は、生物配列2000のセクションBの第1のL2個の塩基と「実質的に」かつ「一意的に」一致する。したがって、部分配列2004bは実際には生物配列2000のセクション2000Bである可能性が最も高い。別の言い方をすれば、生物配列2000のセクション2000Bを図20Aで区分して、部分配列2004bを形成した可能性が最も高い。
したがって、生物配列2000のセクション2000Bは、部分配列2004bに対応する配列信号2012bに対するグラウンドトゥルースとして機能する。図20Fは、図20Eのマッピングから生成された標識された訓練データ2050を例解し、標識された訓練データ2050は、グラウンドトゥルースとして図20Aの生物配列2000のセクションを含む。
図20Fの標識された訓練データ2050で、単なる実施例として、部分配列2004a、2004dは、不確定なマッピングのために、生物配列2000のいずれのセクションにもマッピングされない。例えば、図20Eに関して論じられたように、マッピングロジック1416が最終的なマッピングを宣言するためには、部分配列の第1のL2個の塩基と生物配列2000の対応するセクションとの間に実質的かつ一意的なマッチングが存在しなければならない。NN構成2015は、部分配列2004a、2004dの各々の第1のL2個の塩基で比較的多数の誤差を生じ得、その結果として、これらの部分配列は、生物配列2000の任意の対応するセクションにマッピングされる可能性はない。
図20Fの標識された訓練データ2050では、部分配列2004b(したがって、配列信号2012b)は、図20Eに関して論じたように、生物配列2000のセクション2000Bにマッピングされる。同様に、部分配列2004cは生物配列2000のセクション2000Cにマッピングされ、部分配列2004Sは生物配列2000のセクション2000Sにマッピングされる。例えば、部分配列2004cは、部分配列2004cの第1のL2個の塩基予測がセクション2000Cの第1のL2個の塩基と「実質的に」かつ「一意的に」一致するように、生物配列2000のセクション2000C(例えば、部分配列2004cと同じ塩基数を有する)にマッピングされる。
図20Gは、第1の生物レベルニューラルネットワーク構成2015を備えるベースコーラ1414を訓練するために、「生物レベル訓練段階」の「訓練データ消費及び訓練フェーズ」で動作する図14Aのベースコーリングシステム1400を例解する。例えば、図20Fの標識された訓練データ2050は、図20Gの訓練で使用される。
例えば、ベースコーラ1414によって予測された部分配列2004bのL1個の塩基は、生物配列2000のセクション2000Bと比較される。ベースコーラ1414によって予測された部分配列2004bのL1個の塩基は、図20Fのマッピングを生成するために生物配列2000と比較された第1のL2個の塩基を有することに留意されたい。残りの(L1-L2)塩基は、多くの誤差を含む可能性が高いので、図20Fのマッピングを生成する間、残りの(L1-L2)塩基を比較しなかった。これは、図20C及び図20Dに関して論じられたように、部分配列で後に生じる塩基が、フェーディング、フェージング及び/又は事前フェージングに起因して、誤って予測される可能性がより高いためである。図20Gでは、ベースコーラ1414によって予測された部分配列2004bのL1個全ての塩基が、生物配列2000のセクション2000B上の対応するL1個の塩基と比較される。
したがって、図20Fのマッピングは、部分配列2004bが図20Gで比較される生物配列2000の一部分(すなわち、セクション2000B)を特定する。マッピングが完了し、標識された訓練データ2050が生成されると、標識された訓練データ2050は、図20Gにおいて、誤差信号の比較及び生成のために使用され、誤差信号は、NN構成2015の逆方向パスにおける勾配更新2017及び結果として生じるNN構成2015の訓練のために使用される。
部分配列のいくつか(部分配列2004a及び2004dなど、図20Fを参照)は、生物配列2000の対応するセクションに最終的にマッチせず、したがって、これらの部分配列に対応するベースコール予測は、図20Gの訓練において使用されないことに留意されたい。
図21は、図20Aの単純生物配列2000を使用して、ベースコーリングのためのニューラルネットワーク構成を反復的に訓練するための例示的方法2100を描写する、フローチャートを例解する。方法2100は、本質的に単調に複雑であるNN構成を漸進的に訓練する。本明細書で前述したように、NN構成の複雑度を増加させることは、NN構成の層の数を増加させること、NN構成のフィルタの数を増加させること、NN構成におけるトポロジの複雑度を増加させること、及び/又は同様のものを含むことができる。例えば、方法2100は、第1の生物レベルのNN構成(図20B、図20G及び他の図に関して本明細書で先に論じたNN構成2015である)、第2の生物レベルのNN構成、第Rの生物レベルのNN構成などを参照する。実施例では、第Rの生物レベルNN構成の複雑度は、第(R-1)の生物レベルNN構成の複雑度よりも高く、これは第(R-2)の生物レベルNN構成の複雑度よりも高いなどであり、第2の生物レベルNN構成の複雑度は、第1の生物レベルNN構成の複雑度よりも高い。
方法2100では、(ブロック2104a1、...、2104amを含む)動作2104aは、第1の生物レベルNN構成を訓練し、第2の生物レベルNN構成のための標識された訓練データを生成するためのものであり、動作2104bは、第2の生物レベルNN構成を訓練し、第3の生物レベルNN構成のための標識された訓練データを生成するためのものであるなどすることに留意されたい。このプロセスが続き、最終的に動作2104Rは、R番目の生物レベルNN構成を訓練し、次の段階のNN構成のために標識された訓練データを生成するためのものである。したがって、一般的に言えば、方法2100では、動作2104iは、第iの生物レベルNN構成を訓練し、第(i+1)の生物レベルNN構成のための標識された訓練データを生成するためのものであり、i=1、...、Rである。
方法2100は、2104a1において、(i)図19の方法1900の1904NからのNオリゴ標識された訓練データを使用して、第1の生物レベルNN構成(例えば、図20Bの生物レベルNN構成2015であるが、このNN構成の訓練は図20Bに例解されていない)を訓練することと、(ii)少なくとも部分的に訓練された第1の生物レベルNN構成2015を使用して、標識された訓練データを生成することと、を含む。標識された訓練データは、図20Fに例解されており、その生成は図20E及び図20Fに関して論じられている。
次いで、方法2100は、2104a1から2014a2に進み、その間に、第1の生物レベルNN構成2015を訓練する第2の反復が行われる。例えば、2104a2において、(i)第1の生物レベルNN構成2015は、例えば、図20Gに関して論じたように、前の段階からの標識された訓練データを使用して更に訓練され、(ii)少なくとも部分的に訓練された第1の生物レベルNN構成2015を使用して、更なる標識された訓練データが生成される(例えば、図20E及び図20Fに関する考察と同様)。
訓練と生成の動作は反復的に繰り返され、最終的に2104amにおいて、第1の生物レベルNN構成2015の訓練が完了する。ブロック2014a1は、第1の生物レベルNN構成2015を訓練する第1の反復であり、ブロック2104a2は、第1の生物レベルNN構成2015を訓練する第2の反復であるなどし、最終的にブロック2104amは、第1の生物レベルNN構成2015を訓練する第mの反復であることに留意されたい。反復回数は、図17Aの方法1700に関して本明細書で以前に論じられたものなどの1つ以上の要因に基づくことができる(例えば、反復回数「k」を選択するための基準が論じられた場合)。第1の生物レベルNN構成2015の複雑度は、2104a1、...、2104amの反復中に変化しない。
第1の生物レベルのNN構成2015に対する反復の終わりにおいて(すなわち、ブロック2104amの終わりにおいて)、方法2100はブロック2104bに進み、ここで、第2の生物レベルのNN構成が反復的に訓練される。第2の生物レベルのNN構成の訓練及び関連付けられた訓練標識されたデータの生成も、動作2104a1、...、2104amに関して論じたものと同様の反復を含むことになり、したがって、更に詳細には論ずることはない。
訓練標識されたデータの生成に関連付けられたより複雑なNN構成を漸進的に訓練するこのプロセスは、方法2100の2104Rにおいて、第Rの生物レベルのNN構成が訓練され、対応する標識された訓練データが次のNN構成を訓練するために生成されるまで継続する。
図22は、図14Aのベースコーラ1414についての対応するNN構成の訓練のための複雑な生物配列の使用を例解する。例えば、図20A~図21に関して論じたように、部分配列当たり約L1個の塩基を含む比較的単純な生物配列2000を使用して、R個の単純生物レベルNN構成を反復的に訓練し、対応する標識された訓練データを生成する。例えば、図21の方法2100は、このような反復学習と、単純な生物配列2000を使用した標識された学習データの生成を例解する。論じられるように、単純生物配列2000は、Phix、又は比較的単純な(又は比較的小さい)遺伝子配列を有する別の生物であり得る。
図22には、比較的複雑な生物配列2200aの使用も例解されている。生物配列2200aは、例えば、複合生物配列2200aでの塩基の数が生物配列2000での塩基の数よりも多いので、生物配列2000よりも複雑である。単なる実施例として、生物配列2000は約100万個の塩基を有することができ、複合生物配列2200aは400万個の塩基を有することができる。別の実施例では、複合生物配列2200aから区分された各部分配列は、生物配列2000から区分された各部分配列の塩基数よりも多い塩基数を有する。更に別の実施例では、複合生物配列2200aから区分される部分配列の数は、生物配列2000から区分される部分配列の数よりも多い。例えば、複合生物配列2200a及び生物配列2000を区分する場合、複合生物配列2200aから区分される部分配列の数は、生物配列2000から区分される部分配列の数よりも多くなるが、これは、(i)複合生物配列2200aが生物配列2000よりも多い塩基数を有し、(ii)各部分配列が多くても閾値塩基数を有し得るからである。実施例では、複合生物配列2200aは、E-coliなどの細菌由来の遺伝物質、又は生物配列2000よりも複雑な他の適切な生物配列を含む。
図22に例解するように、複合生物配列2200aは、Ra個の複合生物レベルNN構成を反復的に訓練し、標識された訓練データを生成するために使用される。訓練及び標識された訓練データの生成は、図21の方法2100に関して論じたものと同様である(違いは、方法2100が特に生物配列2000に向けられているのに対して、ここでは複合生物配列2200aが使用されていることである)。
この反復プロセスは継続し、最後に、相対的に更に複雑な生物配列2200Tが使用される。更なる複雑な生物配列2200Tは、生物配列2000及び2200aよりも複雑である。例えば、更なる複雑な生物配列2200Tでの塩基数は、生物配列2000及び2200aの各々での塩基数よりも多い。別の実施例では、更に複雑な生物配列2200Tから区分された各部分配列は、生物配列2000又は2200aから区分された各部分配列の塩基数よりも多い塩基数を有する。更に別の実施例では、更に複雑な生物配列2200Tから区分される部分配列の数は、生物配列2000又は2200aから区分される部分配列の数よりも多い。実施例では、更なる複雑な生物配列2200Tは、ヒト又は他の哺乳動物由来の遺伝物質などの複雑種由来の遺伝物質を含む。
図22に例解するように、生物配列2200Tは、RT個の更に複雑な生物レベルNN構成を反復的に訓練し、標識された訓練データを生成するために使用される。訓練及び標識された訓練データの生成は、図21の方法2100に関して論じたものと同様である(違いは、方法2100が特に生物配列2000に向けられているのに対して、ここでは生物配列2000Tが使用されていることである)。
図23Aは、ベースコールのためにニューラルネットワーク構成を反復的に訓練するための例示的な方法2300を描写するフローチャートを例解する。方法2300は、図14A~図22に関して本明細書で論じられる実施形態及び実施例のうちの少なくともいくつかを要約する。方法2300は、本明細書で論じられるように、本質的に単調に複雑であるNN構成を漸進的に訓練する。方法2300はまた、検体として複雑な遺伝子配列を単調に使用する。方法2300は、本明細書で論じられる様々な図のベースコーラ1414を訓練するために使用される。
方法2300は、図17Aの方法1700のブロック1704に関して論じたように、2304で始まり、ここではNN構成1415(例えば、図14Aを参照)を含むベースコーラ1414が単一オリゴグラウンドトゥルースデータを使用して反復的に訓練される。図14Aの少なくとも部分的に訓練されたNN構成1415は、図17Aの方法1700のブロック1704に関しても論じたように、標識された訓練データを生成するために使用される。
次に、方法2300は、2304から2308に進み、ここでは1つ以上のNN構成が、2オリゴ配列を使用して反復的に訓練され、対応する標識された訓練データが、例えば、図17Aの方法1700に関して論じられたように、生成される。
次に、方法2300は、2308から2312に進み、ここでは1つ以上のNN構成が、3オリゴ配列を使用して反復的に訓練され、対応する標識された訓練データが、例えば、図19の方法1900に関して論じられたように、生成される。
2316において、例えば、図19の方法1900に関して論じられたように、1つ以上のNN構成がNオリゴ配列を使用して反復的に訓練され、対応する標識された訓練データが生成されるまで、漸増する数のオリゴを使用してNN構成を訓練するこのプロセスは継続する。
次いで、方法2300は2320に移行し、ここで、訓練及び標識された訓練データの生成は生物を伴う。2320において、図20Aの単純生物配列2000などの単純生物配列が使用される。1つ以上のNN構成は、単純生物配列を使用して訓練され(例えば、図21の方法2100を参照)、標識された訓練データが生成される。
方法2300が2320から進むにつれて、例えば、図22に関して論じたように、ますます複雑な生物配列が使用される。最後に、2328において、複雑な生物配列(例えば、図22の更なる複雑な生物配列2200T)を使用して、1つ以上のNN構成が反復的に訓練され、対応する標識された訓練データが生成される。
したがって、方法2300は、ベースコーラ1414が「十分に訓練される」まで継続される。「十分に訓練される」は、ベースコーラ1414が、ここで、標的誤差率未満の誤差率でベースコールを行うことができることを暗示し得る。論じられるように、訓練プロセスは、十分な訓練及びベースコーリングの標的誤差率が達成されるまで、反復的に継続されることができる(例えば、図23Eの「誤差率」チャートを参照されたい)。方法2300の終わりにおいて、方法2300の最後のNN構成を含むベースコーラ1414は、ここで十分に訓練される。したがって、方法2300の最後のNN構成を含む訓練されたベースコーラ1414は、ここで、推論のために使用することができ、例えば、未知の遺伝子配列を配列決定するために使用することができる。
図23B~図23Eは、本開示で論じられたベースコーラ訓練プロセスの有効性を例解する様々なチャートを例解する。図23Bを参照すると、(i)本明細書で論じられるニューラルネットワークベースの訓練データ生成技法を使用して訓練されたNN構成1615などの第1の2オリゴNN構成、及び(ii)従来の2オリゴ訓練グデータ生成技法を使用して訓練されたNN構成によって生成された訓練データのマッピングパーセンテージを描写するチャート2360が例解されている。チャート2360内の白色バーは、本明細書で論じられるニューラルネットワークベースのモデルを使用して生成される、訓練データを使用して訓練される第1の2オリゴNN構成からのマッピングデータを例解する。したがって、チャート2360内の白いバーは、本明細書で論じられる様々な技法を使用して生成されたマッピングデータを例解する。チャート2360内の灰色のバーは、リアルタイム解析(Real Time Analysis,RTA)モデルなどの従来の非ニューラルネットワークベースのモデルによって生成された訓練データによって訓練されるNN構成に関連付けられたデータを例解する。RTAモデルの実施例は、2019年5月28日に発行された「Data processing system and methods」という名称の米国特許第US10304189(B2)号で論じられており、これは、参照により本明細書に完全に記載されているかのように組み込まれる。したがって、チャート2360内の灰色のバーは、従来の技法を使用して生成されたマッピングデータを例解する。実施例では、チャート2360の白色バーは、図17Aの方法1700の動作1704b1において生成することができる。チャート2360は、オリゴ1にマッピングされたベースコール予測のパーセンテージ、オリゴ2にマッピングされたベースコール予測のパーセンテージ、及びオリゴ1又は2のいずれにも最終的にマッピングすることができないベースコール予測のパーセンテージを例解する(すなわち、不確定なパーセンテージ)。見られるように、本明細書で論じられた技法を使用して生成された訓練データの不確定なパーセンテージは、従来の技法を使用して生成された訓練データの不確定なパーセンテージよりもわずかに高い。したがって、最初に(例えば、訓練反復の開始時)に、従来の技法は、本明細書で論じられた訓練データ生成技法よりもわずかに性能が優れている。
次に図23Cを参照すると、(i)本明細書で論じられたニューラルネットワークベースの訓練データ生成技法を使用して訓練される第1の2オリゴNN構成(NN構成1615など)(白色のバー)、(ii)本明細書で論じられたニューラルネットワークベースの訓練データ生成技法を使用して訓練される第2の2オリゴNN構成(点線のバー)、及び(iii)RTAベースの従来の訓練データ生成技法などの従来の2オリゴ訓練データ生成技法を使用して訓練されるNN構成(灰色のバー)を使用して生成される訓練データでのマッピングパーセンテージを描写するチャート2365が例解されている。実施例では、第1の2オリゴNN構成(白色のバー)及び第2の2オリゴNN構成(点線のバー)は、それぞれ、図17Aの方法1700の動作1704b及び1704cに対応する。チャート2365は、オリゴ1にマッピングされたベースコール予測のパーセンテージ、オリゴ2にマッピングされたベースコール予測のパーセンテージ、及びオリゴ1又は2のいずれにも最終的にマッピングすることができないベースコール予測のパーセンテージを例解する(すなわち、不確定なパーセンテージ)。見られるように、第1の2オリゴNN構成を使用して生成された訓練データについての不確定なパーセンテージは、(i)第2の2オリゴNN構成を使用して生成された訓練データ及び(ii)従来の技法を使用して生成された訓練データの各々よりも高い。更に、第2の2オリゴNN構成を使用して生成された訓練データについての不確定なパーセンテージは、従来技法を使用して生成された訓練データとほぼ同等する。したがって、反復及びより複雑なNN構成では、NNベースの構成を使用して生成された訓練データは、従来の技法を使用して生成された訓練データとほぼ同等である。
次に図23Dを参照すると、(i)本明細書で論じられるニューラルネットワークベースの訓練データ生成技法を使用して訓練された第1の4オリゴNN構成(白色のバー)、及び(ii)従来の4オリゴ訓練データ生成技法、例えば、RTAベースの技法を使用して訓練されたNN構成(灰色のバー)によって生成された訓練データのマッピングパーセンテージを描写するチャート2370が例解されている。見られるように、本明細書で論じられる技法を使用して生成された訓練データの不確定なパーセンテージは、従来の技法を使用して生成された訓練データの不確定なパーセンテージと同等である。したがって、訓練が4オリゴ配列に移行した場合、従来の技法と本明細書で論じられた訓練データ生成技法は、同等の結果を生成する。
ここで図23Eを参照すると、(i)本明細書で論じられた複雑な生物配列を使用して、例えば図23Aの方法2300の動作2328に関して訓練されたNN構成(実線)、及び(ii)従来の複雑な生物訓練データ生成技法、例えばRTAベースの技法を使用して訓練されたNN構成(破線)によって生成されたデータの誤差率を描写するチャート2375が例解されている。見られるように、本明細書で論じられた技法を使用して生成されたデータの誤差率は、従来の技法を使用して生成されたデータと同等である。したがって、従来の技法及び本明細書で論じられた訓練データ生成技法は、同等の結果を生成する。論じたように、本明細書で論じた訓練データ生成技法は、例えば、従来の技法が訓練データ生成のために利用可能でないか、又は準備ができていないとき、従来の技法の代わりに使用され得る。
図24は、一実装形態による、ベースコールシステム2400のブロック図である。ベースコールシステム2400は、生物学的物質又は化学物質のうちの少なくとも1つに関連する任意の情報又はデータを得るように動作することができる。いくつかの実装形態では、ベースコールシステム2400は、ベンチトップデバイス又はデスクトップコンピュータと同様であり得るワークステーションである。例えば、所望の反応を実施するためのシステム及び構成要素の大部分(又は全て)は、共通のハウジング2416内にあってもよい。
特定の実装形態では、ベースコールシステム2400は、de novo sequencing、全ゲノム又は標的ゲノム領域の再配列、及びメタゲノミクスを含むがこれらに限定されない、様々な用途のために構成された核酸配列決定システム(又はシーケンサ)である。シーケンサはまた、DNA又はRNA分析に使用されてもよい。いくつかの実装形態では、ベースコールシステム2400はまた、バイオセンサ内に反応部位を発生させるように構成されてもよい。例えば、ベースコールシステム2400は、サンプルを受容し、サンプル由来のクローン的に増幅された核酸の表面付着クラスタを発生させるように構成され得る。各クラスタは、バイオセンサ内の反応部位を構成するか、又はその一部であってもよい。
例示的なベースコールシステム2400は、バイオセンサ2402と相互作用して、バイオセンサ2402内で所望の反応を行うように構成されたシステム受け部又はインターフェース2412を含んでもよい。図24に関して以下の説明では、バイオセンサ2402はシステム受け部2412内に装填される。しかしながら、バイオセンサ2402を含むカートリッジは、システム受け部2412に挿入されてもよく、一部の状態では、カートリッジは一時的又は永久的に除去され得ることが理解される。上述のように、カートリッジは、とりわけ、流体制御及び流体貯蔵構成要素を含んでもよい。
特定の実装形態では、ベースコールシステム2400は、バイオセンサ2402内で多数の平行反応を行うように構成されている。バイオセンサ2402は、所望の反応が生じ得る1つ以上の反応部位を含む。反応部位は、例えば、バイオセンサの固体表面に固定化されてもよく、又はバイオセンサの対応する反応チャンバ内に位置するビーズ(又は他の可動基材)に固定化されてもよい。反応部位は、例えば、クローン的に増幅された核酸のクラスタを含むことができる。バイオセンサ2402は、ソリッドステート撮像デバイス(例えば、CCD又はCMOSイメージャ)及びそれに取り付けられたフローセルを含んでもよい。フローセルは、ベースコールシステム2400から溶液を受容し、溶液を反応部位に向かって方向付ける1つ以上のフローチャネルを含んでもよい。任意選択的に、バイオセンサ2402は、熱エネルギーをフローチャネルの内外に伝達するための熱要素と係合するように構成することができる。
ベースコールシステム2400は、相互に相互作用して、生物学的又は化学的分析のための所定の方法又はアッセイプロトコルを実行する、様々な構成要素、アセンブリ、及びシステム(又はサブシステム)を含んでもよい。例えば、ベースコールシステム2400は、ベースコールシステム2400の様々な構成要素、アセンブリ、及びサブシステムと通信してもよく、またバイオセンサ2402も含む、システムコントローラ2404を含む。例えば、システム受け部2412に加えて、ベースコールシステム2400はまた、ベースコールシステム2400及びバイオセンサ2402の流体ネットワーク全体にわたる流体の流れを制御するための流体制御システム2406と、バイオアッセイシステムによって使用され得る全ての流体(例えば、流体、ガス又は液体)を保持するように構成された流体貯蔵システム2408と、流体ネットワーク、流体貯蔵システム2408、及び/又はバイオセンサ2402内の流体の温度を調整し得る温度制御システム2410、並びにバイオセンサ2402を照明するように構成された照明システム2409と、を含み得る。上述のように、バイオセンサ2402を有するカートリッジがシステム受け部2412内に装填される場合、カートリッジはまた、流体制御及び流体貯蔵構成要素を含んでもよい。
また、ベースコールシステム2400は、ユーザと対話するユーザインターフェース2414を含んでもよい。例えば、ユーザインターフェース2414は、ユーザから情報を表示又は要求するディスプレイ2413と、ユーザ入力を受け取るためのユーザ入力デバイス2415とを含むことができる。いくつかの実装形態では、ディスプレイ2413及びユーザ入力デバイス2415は、同じデバイスである。例えば、ユーザインターフェース2414は、個々のタッチの存在を検出し、またディスプレイ上のタッチの位置を識別するように構成されたタッチ感知ディスプレイを含んでもよい。しかしながら、マウス、タッチパッド、キーボード、キーパッド、ハンドヘルドスキャナ、音声認識システム、動き認識システムなどの他のユーザ入力デバイス2415が使用されてもよい。以下でより詳細に説明するように、ベースコールシステム2400は、所望の反応を実行するために、バイオセンサ2402(例えば、カートリッジの形態)を含む様々な構成要素と通信してもよい。ベースコールシステム2400はまた、バイオセンサから得られたデータを分析して、ユーザに所望の情報を提供するように構成されてもよい。
システムコントローラ2404は、マイクロコントローラ、低減命令セットコンピュータ(Reduced Instruction Set Computer、RISC)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、論理回路、及び本明細書に記載される機能を実行することができる任意の他の回路又はプロセッサを使用するシステムを含む、任意のプロセッサベース又はマイクロプロセッサベースのシステムを含み得る。上記の実施例は、例示的なものに過ぎず、したがって、システムコントローラという用語の定義及び/又は意味を制限することを意図するものではない。例示的な実装形態では、システムコントローラ2404は、検出データを取得し分析する少なくとも1つのために、1つ以上の記憶要素、メモリ、又はモジュール内に記憶された命令のセットを実行する。検出データは、ピクセル信号の複数の配列を含むことができ、それにより、数百万個のセンサ(又はピクセル)のそれぞれからのピクセル信号の配列を、多くのベースコールサイクルにわたって検出することができる。記憶要素は、ベースコールシステム2400内の情報源又は物理メモリ要素の形態であってもよい。
命令セットは、本明細書に記載される様々な実装形態の方法及びプロセスなどの特定の動作を実行するようにベースコールシステム2400又はバイオセンサ2402に指示する様々なコマンドを含んでもよい。命令のセットは、有形の非一時的コンピュータ可読媒体又は媒体の一部を形成し得るソフトウェアプログラムの形態であってもよい。本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、及び不揮発性RAM(non-volatile RAM、NVRAM)メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは、例示的なものに過ぎず、したがって、コンピュータプログラムの記憶に使用可能なメモリのタイプに限定されない。
ソフトウェアは、システムソフトウェア又はアプリケーションソフトウェアなどの様々な形態であってもよい。更に、ソフトウェアは、別個のプログラムの集合、又はより大きいプログラム内のプログラムモジュール若しくはプログラムモジュールの一部分の形態であってもよい。ソフトウェアはまた、オブジェクト指向プログラミングの形態のモジュール式プログラミングを含んでもよい。検出データを取得した後、検出データは、ユーザ入力に応じて処理されたベースコールシステム2400によって自動的に処理されてもよく、又は別の処理マシン(例えば、通信リンクを介したリモート要求)によって行われる要求に応じて処理されてもよい。図示の別の実装形態では、システムコントローラ2404は、(図25に示される)分析モジュール2538を含む。他の別の実装形態では、システムコントローラ2404は分析モジュール2538を含まず、代わりに分析モジュール2538へのアクセスを有する(例えば、分析モジュール2538は、クラウド上で別個にホスティングされ得る)。
システムコントローラ2404は、通信リンクを介して、バイオセンサ2402及びベースコールシステム2400の他の構成要素に接続されてもよい。システムコントローラ2404はまた、オフサイトシステム又はサーバに通信可能に接続されてもよい。通信リンクは、配線、コード、又は無線であってもよい。システムコントローラ2404は、ユーザインターフェース2414及びユーザ入力デバイス2415からユーザ入力又はコマンドを受信してもよい。
流体制御システム2406は、流体ネットワークを含み、流体ネットワークを通る1つ以上の流体の流れを方向付けるように構成されている。流体ネットワークは、バイオセンサ2402及び流体貯蔵システム2408と流体連通していてもよい。例えば、流体貯蔵システム2408から流体を選択し、制御された方法でバイオセンサ2402に方向付けてもよく、又は流体は、バイオセンサ2402から引き出され、例えば、流体貯蔵システム2408内の廃棄物リザーバに方向付けられてもよい。図示されていないが、流体制御システム2406は、流体ネットワーク内の流体の流量又は圧力を検出する流量センサを含んでもよい。センサは、システムコントローラ2404と通信してもよい。
温度制御システム2410は、流体ネットワーク、流体貯蔵システム2408及び/又はバイオセンサ2402の異なる領域における流体の温度を調節するように構成されている。例えば、温度制御システム2410は、バイオセンサ2402と相互作用し、バイオセンサ2402内の反応部位に沿って流れる流体の温度を制御する熱循環器を含んでもよい。温度制御システム2410はまた、ベースコールシステム2400又はバイオセンサ2402の中実要素又は構成要素の温度を調節してもよい。図示されていないが、温度制御システム2410は、流体又は他の構成要素の温度を検出するためのセンサを含んでもよい。センサは、システムコントローラ2404と通信してもよい。
流体貯蔵システム2408は、バイオセンサ2402と流体連通しており、所望の反応を行うために使用される様々な反応成分又は反応物質を貯蔵してもよい。流体貯蔵システム2408はまた、流体ネットワーク及びバイオセンサ2402を洗浄又はクリーニングし、反応物質を希釈するための流体を貯蔵してもよい。例えば、流体貯蔵システム2408は、サンプル、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液などを保存するための様々なリザーバを含んでもよい。更に、流体貯蔵システム2408はまた、バイオセンサ2402から廃棄物を受容するための廃棄物リザーバを含んでもよい。カートリッジを含む実装形態では、カートリッジは、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの1つ以上を含み得る。したがって、これらのシステムに関する本明細書に記載される構成要素のうちの1つ以上は、カートリッジハウジング内に収容され得る。例えば、カートリッジは、サンプル、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液、廃棄物などを保存するための様々なリザーバを有し得る。したがって、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの1つ以上は、カートリッジ又は他のバイオセンサを介してバイオアッセイシステムと取り外し可能に係合され得る。
照明システム2409は、バイオセンサを照明するための光源(例えば、1つ以上のLED)及び複数の光学構成要素を含んでもよい。光源の例としては、レーザー、アークランプ、LED、又はレーザーダイオードが挙げられる。光学構成要素は、例えば、反射器、偏光板、ビームスプリッタ、コリメータ、レンズ、フィルタ、ウェッジ、プリズム、鏡、検出器などであってもよい。照明システムを使用する実装形態では、照明システム2409は、励起光を反応部位に方向付けるように構成されてもよい。一例として、蛍光団は、緑色の光の波長によって励起されてもよく、そのため、励起光の波長は約532nmであり得る。一実装形態では、照明システム2409は、バイオセンサ2402の表面の表面法線に平行な照明を生成するように構成されている。別の実装形態では、照明システム2409は、バイオセンサ2402の表面の表面法線に対してオフアングルである照明を生成するように構成されている。更に別の実装形態では、照明システム2409は、いくつかの平行照明及びある程度のオフアングル照明を含む複数の角度を有する照明を生成するように構成されている。
システム受け部又はインターフェース2412は、機械的、電気的、及び流体的な方法のうちの少なくとも1つにおいてバイオセンサ2402と係合するように構成される。システム受け部2412は、バイオセンサ2402を所望の配向に保持して、バイオセンサ2402を通る流体の流れを容易にすることができる。システム受け部2412はまた、バイオセンサ2402と係合するように構成された電気接点を含んでもよく、それにより、ベースコールシステム2400は、バイオセンサ2402と通信してもよく、及び/又はバイオセンサ2402に電力を供給することができる。更に、システム受け部2412は、バイオセンサ2402と係合するように構成された流体ポート(例えば、ノズル)を含んでもよい。いくつかの実装形態では、バイオセンサ2402は、電気的に、また流体方式で、システム受け部2412に取り外し可能に連結される。
加えて、ベースコールシステム2400は、他のシステム若しくはネットワークと遠隔で、又は他のバイオアッセイシステム2400と通信してもよい。バイオアッセイシステム2400によって得られた検出データは、リモートデータベースに記憶されてもよい。
図25は、図24のシステムで使用することができるシステムコントローラ2404のブロック図である。一実装形態では、システムコントローラ2404は、互いに通信することができる1つ以上のプロセッサ又はモジュールを含む。プロセッサ又はモジュールのそれぞれは、特定のプロセスを実行するためのアルゴリズム(例えば、有形及び/又は非一時的コンピュータ可読記憶媒体上に記憶された命令)又はサブアルゴリズムを含んでもよい。システムコントローラ2404は、モジュールの集合として概念的に例示されるが、専用ハードウェアボード、DSP、プロセッサなどの任意の組み合わせを利用して実装されてもよい。あるいは、システムコントローラ2404は、単一のプロセッサ又は複数のプロセッサを備えた既製のPCを使用して実装されてもよく、機能動作はプロセッサ間に分散される。更なるオプションとして、以下に記載されるモジュールは、特定のモジュール式機能が専用ハードウェアを利用して実行されるハイブリッド構成を利用して実装されてもよく、残りのモジュール式機能は、既製のPCなどを利用して実行される。モジュールはまた、処理ユニット内のソフトウェアモジュールとして実装されてもよい。
動作中、通信ポート2520は、バイオセンサ2402(図24)及び/又はサブシステム2406、2408、2410(図24)から情報(例えば、データ)に情報(例えば、コマンド)を送信してもよい。実装形態では、通信ポート2520は、ピクセル信号の複数の配列を出力することができる。通信ポート2520は、ユーザインターフェース2414からユーザ入力を受信し(図24)、ユーザインターフェース2414にデータ又は情報を送信してもよい。バイオセンサ2402又はサブシステム2406、2408、2410からのデータは、バイオアッセイセッション中に、システムコントローラ2404によってリアルタイムで処理されてもよい。追加的に又は代替的に、データは、バイオアッセイセッション中にシステムメモリ内に一時的に記憶され、リアルタイム又はオフライン操作より遅く処理されてもよい。
図25に示すように、システムコントローラ2404は、主制御モジュール2530と通信する複数のモジュール2531~2539を含んでもよい。主制御モジュール2530は、ユーザインターフェース2414と通信してもよい(図24)。モジュール2531~2539は、主制御モジュール2530と直接通信するものとして示されているが、モジュール2531~2539はまた、互いに、ユーザインターフェース2414と、及びバイオセンサ2402と直接通信してもよい。また、モジュール2531~2539は、他のモジュールを介して主制御モジュール2530と通信してもよい。
複数のモジュール2531~2539は、サブシステム2406、2408、2410及び2409とそれぞれ通信するシステムモジュール2531~2533、2539を含む。流体制御モジュール2531は、流体ネットワークを通る1つ以上の流体の流れを制御するために、流体制御システム2406と通信して、流体ネットワークの弁及び流量センサを制御してもよい。流体貯蔵モジュール2532は、流体が低い場合、又は廃棄物リザーバが満タン容量又はほぼ満タン容量にあるときにユーザに通知することができる。流体貯蔵モジュール2532はまた、流体が所望の温度で貯蔵され得るように、温度制御モジュール2533と通信してもよい。照明モジュール2539は、所望の反応(例えば、結合事象)が生じた後など、プロトコル中に指定された時間で反応部位を照明するために、照明システム2409と通信してもよい。いくつかの実装形態では、照明モジュール2539は、照明システム2409と通信して、指定された角度で反応部位を照明することができる。
複数のモジュール2531~2539はまた、バイオセンサ2402と通信するデバイスモジュール2534と、バイオセンサ2402に関連する識別情報を判定する識別モジュール2535とを含んでもよい。デバイスモジュール2534は、例えば、システム受け部2412と通信して、バイオセンサがベースコールシステム2400との電気的及び流体的接続を確立したことを確認することができる。識別モジュール2535は、バイオセンサ2402を識別する信号を受信してもよい。識別モジュール2535は、バイオセンサ2402の識別情報を使用して、他の情報をユーザに提供してもよい。例えば、識別モジュール2535は、ロット番号、製造日、又はバイオセンサ2402で動作することが推奨されるプロトコルを判定し、その後表示してもよい。
複数のモジュール2531~2539はまた、バイオセンサ2402から信号データ(例えば、画像データ)を受信及び分析する分析モジュール2538(信号処理モジュール又は信号プロセッサとも呼ばれる)も含む。分析モジュール2538は、検出データを記憶するためのメモリ(例えば、RAM又はフラッシュ)を含む。検出データは、ピクセル信号の複数の配列を含むことができ、それにより、数百万個のセンサ(又はピクセル)のそれぞれからのピクセル信号の配列を、多くのベースコールサイクルにわたって検出することができる。信号データは、その後の分析のために記憶されてもよく、又はユーザインターフェース2414に送信されて、所望の情報をユーザに表示することができる。いくつかの実装形態では、信号データは、分析モジュール2538が信号データを受信する前に、ソリッドステートイメージャ(例えば、CMOS画像センサ)によって処理され得る。
分析モジュール2538は、複数の配列決定サイクルのそれぞれにおいて、光検出器から画像データを取得するように構成されている。画像データは、光検出器によって検出された発光信号から導出され、ニューラルネットワーク(例えば、ニューラルネットワークベースのテンプレート発生器2548、ニューラルネットワークベースのベースコーラ2558(例えば、図7、図9、及び図10を参照)、並びに/あるいはニューラルネットワークベースの品質スコアラー2568)を通して複数の配列決定サイクルの各々について画像データを処理し、複数の配列決定サイクルの各々において検体のうちの少なくとも一部のためのベースコールを生成する。
プロトコルモジュール2536及び2537は、主制御モジュール2530と通信して、所定のアッセイプロトコルを実施する際にサブシステム2406、2408及び2410の動作を制御する。プロトコルモジュール2536及び2537は、所定のプロトコルに従って特定の動作を実行するようにベースコールシステム2400に指示するための命令セットを含み得る。図示のように、プロトコルモジュールは、配列決定ごとの合成プロセスを実行するための様々なコマンドを発行するように構成された、合成による配列決定(sequencing-by-synthesis、SBS)モジュール2536であってもよい。SBSにおいて、核酸テンプレートに沿った核酸プライマーの伸長を監視して、テンプレート中のヌクレオチド配列を判定する。下にある化学プロセスは、重合(例えば、ポリメラーゼ酵素により触媒される)又はライゲーション(例えば、リガーゼ酵素により触媒される)であり得る。特定のポリマー系SBSの実装形態では、プライマーに付加されるヌクレオチドの順序及びタイプの検出を使用してテンプレートの配列を判定することができるように、蛍光標識ヌクレオチドをテンプレート依存様式でプライマー(それによってプライマーを伸長させる)に添加する。例えば、第1のSBSサイクルを開始するために、1つ以上の標識されたヌクレオチド、DNAポリメラーゼなどを、核酸テンプレートのアレイを収容するフローセル内に/それを介して送達することができる。核酸テンプレートは、対応する反応部位に位置してもよい。プライマー伸長が、組み込まれる標識ヌクレオチドを、撮像イベントを通して検出することができる、これらの反応部位が検出され得る。撮像イベントの間、照明システム2409は、反応部位に励起光を提供することができる。任意選択的に、ヌクレオチドは、ヌクレオチドがプライマーに付加されると、更なるプライマー伸長を終結する可逆的終結特性を更に含むことができる。例えば、脱ブロック作用因子が送達されてその部分を除去するまで、その後の伸長が起こらないように、可逆的ターミネーター部分を有するヌクレオチド類似体をプライマーに付加することができる。したがって、可逆終端を使用する別の実装形態では、フローセル(検出が生じる前又は後)にデブロッキング試薬を送達するために、コマンドを与えることができる。1つ以上のコマンドは、様々な送達ステップ間の洗浄をもたらすために与えられ得る。次いで、サイクルをn回繰り返してプライマーをnヌクレオチドだけ伸長させ、それによって長さnの配列を検出することができる。例示的な配列決定技術は、例えば、Bentleyら、Nature 456:53-59(2008)、国際公開第04/018497号、米国特許第7,057,026号、国際公開第91/06678号、同第07/123744号、米国特許第7,329,492号、米国特許第7,211,414号、米国特許第7,315,019号、及び米国特許第7,405,281号に記載されており、これらの各々は、参照により本明細書に組み込まれる。
SBSサイクルのヌクレオチド送達ステップでは、単一のタイプのヌクレオチドのいずれかを一度に送達することができ、又は複数の異なるヌクレオチドタイプ(例えば、A、C、T、及びGを一緒に)を送達することができる。一度に単一のタイプのヌクレオチドのみが存在するヌクレオチド送達構成では、異なるヌクレオチドは、個別化された送達に固有の時間的分離に基づいて区別することができるため、異なるヌクレオチドは別個の標識を有する必要はない。したがって、配列決定方法又は装置は、単一の色検出を使用することができる。例えば、励起源は、単一の波長又は単一の波長範囲の励起のみを提供する必要がある。ある時点で、送達がフローセル内に存在する複数の異なるヌクレオチドをもたらすヌクレオチド送達構成では、異なるヌクレオチドタイプを組み込む部位は、混合物中のそれぞれのヌクレオチドタイプに付着された異なる蛍光標識に基づいて区別することができる。例えば、4つの異なる蛍光団のうちの1つをそれぞれ有する4つの異なるヌクレオチドを使用することができる。一実装形態では、4つの異なる蛍光団は、スペクトルの4つの異なる領域における励起を使用して区別することができる。例えば、4つの異なる励起放射線源を使用することができる。あるいは、4つ未満の異なる励起源を使用することができるが、単一源からの励起放射線の光学的濾過を使用して、フローセルにおいて異なる励起放射線の範囲を生成することができる。
いくつかの実装形態では、4つ未満の異なる色を、4つの異なるヌクレオチドを有する混合物中で検出することができる。例えば、ヌクレオチドの対は、同じ波長で検出することができるが、対のうちの1つのメンバーに対する強度の差に基づいて、又は、対の他のメンバーについて検出された信号と比較して明らかな信号を出現又は消失させる、対の1つのメンバーへの変化(例えば、化学修飾、光化学修飾、又は物理的改質を行うことを介して)に基づいて区別され得る。4個未満の色の検出を使用して4個の異なるヌクレオチドを区別するための例示的な装置及び方法が、例えば、米国特許出願第61/538,294号及び同第61/619,878号に記載されており、それらの全体が参照により本明細書に組み込まれる。2012年9月21日に出願された米国特許出願第13/624,200号は、その全体が参照により組み込まれる。
複数のプロトコルモジュールはまた、バイオセンサ2402内の製品を増幅するための流体制御システム2406及び温度制御システム2410にコマンドを発行するように構成されたサンプル調製(又は発生)モジュール2537を含んでもよい。例えば、バイオセンサ2402は、ベースコールシステム2400に係合されてもよい。増幅モジュール2537は、バイオセンサ2402内の反応チャンバに必要な増幅成分を送達するために、流体制御システム2406に命令を発行することができる。他の実装形態では、反応部位は、テンプレートDNA及び/又はプライマーなどの増幅のためのいくつかの成分を既に含有していてもよい。増幅成分を反応チャンバに送達した後、増幅モジュール2537は、既知の増幅プロトコルに従って異なる温度段階を通して温度制御システム2410にサイクルするように指示し得る。いくつかの実装形態では、増幅及び/又はヌクレオチドの取り込みは、等温的に実行される。
SBSモジュール2536は、クローン性アンプリコンのクラスタがフローセルのチャネル内の局所領域上に形成されるブリッジPCRを実行するコマンドを発行することができる。ブリッジPCRを介してアンプリコンを発生させた後、アンプリコンを「線形化」して、一本鎖テンプレートDNAを作製してもよく、sstDNA及び配列決定プライマーは、関心領域に隣接する普遍配列にハイブリダイズされてもよい。例えば、合成方法による可逆的ターミネーター系配列決定を、上記のように又は以下のように使用することができる。
各ベースコール又は配列決定サイクルは、例えば、修飾DNAポリメラーゼ及び4タイプのヌクレオチドの混合物を使用することによって達成することができる単一の塩基によってsstDNAを延長することができる。異なるタイプのヌクレオチドは、固有の蛍光標識を有することができ、各ヌクレオチドは、各サイクルにおいて単一塩基の組み込みのみが生じることを可能にする可逆的ターミネーターを更に有し得る。単一の塩基をsstDNAに添加した後、励起光が反応部位に入射し、蛍光発光を検出することができる。検出後、蛍光標識及びターミネーターは、sstDNAから化学的に切断され得る。別の同様の基本コーリング又は配列決定サイクルは、以下の通りであってもよい。そのような配列決定プロトコルでは、SBSモジュール2536は、バイオセンサ2402を通る試薬及び酵素溶液の流れを方向付けるように流体制御システム2406に指示することができる。本明細書に記載される装置及び方法とともに利用することができる例示的な可逆性ターミネーターベースのSBS方法は、米国特許出願公開第2007/0166705(A1)号、米国特許出願公開第2006/0188901(A1)号、米国特許第7,057,026号、米国特許出願公開第2006/0240439(A1)号、米国特許出願公開第2006/02814714709(A1)号、国際公開第05/065814号、国際公開第06/064199号に記載されており、これらの各々は、その全体が参照により本明細書に組み込まれる。可逆性ターミネーターベースのSBSの例示的な試薬が、米国特許第7,541,444号、米国特許第7,057,026号、米国特許第7,427,673号、米国特許第7,566,537号、及び米国特許第7,592,435号に記載されており、これらの各々は、その全体が参照により本明細書に組み込まれる。
いくつかの実装形態では、増幅及びSBSモジュールは、単一のアッセイプロトコルで動作してもよく、例えば、テンプレート核酸は増幅され、続いて同じカートリッジ内で配列される。
ベースコールシステム2400はまた、ユーザがアッセイプロトコルを再構成することを可能にし得る。例えば、ベースコールシステム2400は、判定されたプロトコルを修正するために、ユーザインターフェース2414を通じてユーザにオプションを提供することができる。例えば、バイオセンサ2402が増幅のために使用されると判定された場合、ベースコールシステム2400は、アニーリングサイクルの温度を要求し得る。更に、ベースコールシステム2400は、選択されたアッセイプロトコルに対して一般的に許容されないユーザ入力をユーザが提供した場合に、ユーザに警告を発行し得る。
実装形態では、バイオセンサ2402は、センサ(又はピクセル)のミリオンを含み、それらのそれぞれは、連続するベースコールサイクルにわたって複数のピクセル信号の配列を発生させる。分析モジュール2538は、センサのアレイ上のセンサの行方向及び/又は列方向の位置に従って、ピクセル信号の複数の配列を検出し、それらを対応するセンサ(又はピクセル)に属させる。
センサのアレイ内の各センサは、フローセルのタイルのセンサデータを生成することができ、ここで、遺伝物質のクラスタがベースコール動作中に配置されるフローセル上の領域内のタイル。センサデータは、ピクセルのアレイ内の画像データを含むことができる。所与のサイクルについて、センサデータは、2つ以上の画像を含むことができ、タイルデータとしてピクセルごとに複数の特徴を生成する。
図26は、開示される技術を実装するために使用することができるコンピュータ2600システムの簡略ブロック図である。コンピュータシステム2600は、バスサブシステム2655を介していくつかの周辺デバイスと通信する少なくとも1つの中央処理ユニット(CPU)2672を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイル記憶サブシステム2636を含む記憶サブシステム2610、ユーザインターフェース入力デバイス2638、ユーザインターフェース出力デバイス2676、並びにネットワークインターフェースサブシステム2674を含むことができる。入力デバイス及び出力デバイスは、コンピュータシステム2600とのユーザ対話を許容する。ネットワークインターフェースサブシステム2674は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。
ユーザインターフェース入力デバイス2638は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含むことができる。一般に、用語「入力デバイス」の使用は、コンピュータシステム2600内に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
ユーザインターフェース出力デバイス2676は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、LEDディスプレイ、陰極線管(cathode ray tube、CRT)、液晶ディスプレイ(liquid crystal display、LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、オーディオ出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステム2600からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方式を含むことを意図している。
記憶サブシステム2610は、本明細書に記載されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、概して、深層学習プロセッサ2678によって実行される。
一実装形態では、ニューラルネットワークは、深層学習プロセッサ2678を使用して実装され、構成可能で再構成可能なプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、並びに/あるいは粗粒化された再構成可能アーキテクチャ(CGRA)及びグラフィック処理ユニット(GPU)他の構成されたデバイスであり得る。深層学習プロセッサ2678は、Google Cloud Platform(商標)、Xilinx(商標)及びCirrascale(商標)などの深層学習クラウドプラットフォームによってホスティングすることができる。深層学習プロセッサ14978の例には、GoogleのTensor Processing Unit(TPU)(商標)、GX4 Rackmount Series(商標)、GX149 Rackmount Series(商標)のようなラックマウントソリューション、NVIDIA DGX-1(商標)、MicrosoftのStratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、Snapdragon processors(商標)を有するQualcommのZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、富士通のDPI(商標)、ARMのDynamicIQ(商標)、IBMのTrueNorth(商標)などが含まれる。
記憶サブシステム2610で使用されるメモリサブシステム2622は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(random access memory、RAM)2634と、固定命令が記憶された読み取り専用メモリ(read only memory、ROM)2632とを含むいくつかのメモリを含むことができる。ファイル記憶サブシステム2636は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連付けられた取り外し可能な媒体、CD-ROMドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。ある実施態様の機能を実施するモジュールは、記憶サブシステム2610内のファイル記憶サブシステム2636によって、又はプロセッサによってアクセス可能な他のマシン内に記憶することができる。
バスサブシステム2655は、コンピュータシステム2600の様々な構成要素及びサブシステムを、意図されるように互いに通信させるための機構を提供する。バスサブシステム2655は、単一のバスとして概略的に示されているが、バスサブシステムの代替の実施態様は、複数のバスを使用することができる。
コンピュータシステム2600自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩くネットワーク化されたコンピュータの緩く分散したセット、又は任意の他のデータ処理システム若しくはユーザデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークは絶え間なく変化する性質のものであるため、図26に示されるコンピュータシステム2600の説明は、本発明の好ましい実装形態を例示する目的のための特定の例としてのみ意図される。コンピュータシステム2600の多くの他の構成は、図26に示されるコンピュータシステムより多くの又は少ない構成要素を有することができる。
本発明者らは、以下の項目を開示する。

節セット#1(オリゴ配列を使用して訓練された自己学習ベースコーラ)。
1.ベースコーラを漸進的に訓練するコンピュータ実装方法であって、
単一オリゴ塩基配列を含む検体でベースコーラを反復的に最初に訓練し、最初に訓練されたベースコーラを使用して標識された訓練データを生成することと、
(i)マルチオリゴ塩基配列を含む検体を用いてベースコーラを更に訓練し、更に訓練されたベースコーラを使用して標識された訓練データを生成することと、
少なくとも1回の反復中に、ベースコーラ内にロードされたニューラルネットワーク構成の複雑度を増加させながら、ステップ(i)を繰り返すことによってベースコーラを更に訓練することと、を含み、反復中に生成された標識された訓練データが、直後の反復中にベースコーラを訓練するために使用される、コンピュータ実装方法。
1a.マルチオリゴ塩基配列を含む検体を用いてベースコーラを更に訓練する少なくとも1回の反復中に、検体内で、マルチオリゴ塩基配列の一意的なオリゴ塩基配列の数を増加させることを更に含む、
節1の方法。
2.単一オリゴ塩基配列を含む検体を用いてベースコーラを反復的に最初に訓練することが、
ベースコーラの最初の訓練の第1の反復中に、
既知の単一オリゴ塩基配列を、フローセルの複数のクラスタに投入することと、
複数のクラスタに対応する複数の配列信号を生成することであって、複数の配列信号の各配列信号が、複数のクラスタのうちの対応するクラスタにロードされた塩基配列を表す、生成することと、
複数の配列信号の各配列信号に基づいて、既知の単一オリゴ塩基配列に対する対応するベースコールを予測し、それによって複数の予測されたベースコールを生成することと、
複数の配列信号の各配列信号について、(i)対応する予測されたベースコールと(ii)既知の単一オリゴ塩基配列の塩基との比較に基づいて、対応する誤差信号を生成し、それによって、複数の配列信号に対応する複数の誤差信号を生成することと、
複数の誤差信号に基づいて、第1の反復中にベースコーラを最初に訓練することと、を含む、節1の方法。
2a.第1の反復中にベースコーラを最初に訓練することが、
ベースコーラにロードされたニューラルネットワーク構成の逆伝搬経路を使用して、複数の誤差信号に基づいて、ニューラルネットワーク構成の重み及び/又はバイアスを更新すること、を含む、節2の方法。
3.単一オリゴ塩基配列を含む検体を用いてベースコーラを反復的に最初に訓練することが、
最初の訓練の第1の反復の後に行われるベースコーラの最初の訓練の第2の反復中に、
最初の訓練の第1の反復中に部分的に訓練されたベースコーラを使用して、複数の配列信号の各配列信号に基づいて、既知の単一オリゴ塩基配列に対する対応する更なるベースコールを予測し、それによって、複数の更なる予測されたベースコールを生成することと、
複数の配列信号の各配列信号について、(i)対応する更なる予測されたベースコールと(ii)既知の単一オリゴ塩基配列の塩基との比較に基づいて、対応する更なる誤差信号を生成し、それによって、複数の配列信号に対応する複数の更なる誤差信号を生成することと、
複数の更なる誤差信号に基づいて、第2の反復中にベースコーラを更に最初に訓練することと、を更に含む、節2の方法。
4.単一オリゴ塩基配列を含む検体を用いてベースコーラを反復的に最初に訓練することが、
収束条件が満たされるまで、複数のインスタンスについて、単一オリゴ塩基配列を含む検体を用いてベースコーラの最初の訓練の第2の反復を繰り返すこと、を含む、節3の方法。
5.収束条件が、ベースコーラの最初の訓練の第2の反復の2つの連続する反復の間に、複数の更なる誤差信号の減少が閾値未満である場合に満たされる、節4の方法。
6.収束条件が、ベースコーラの最初の訓練の第2の反復が、少なくとも閾値数のインスタンスについて繰り返される場合に、満たされる、節4の方法。
7.ベースコーラの最初の訓練の第1の反復中に生成された複数のクラスタに対応する複数の配列信号が、ベースコーラの最初の訓練の第2の反復のために再使用される、
節3の方法。
8.(i)対応する予測されたベースコールと(ii)既知の単一オリゴ配列の塩基とを比較することが、
第1の予測されたベースコールについて、(i)第1の予測されたベースコールの第1の塩基を、既知の単一オリゴ配列の第1の塩基と比較し、(ii)第1の予測されたベースコールの第2の塩基を、既知の単一オリゴ配列の第2の塩基と比較して、対応する第1の誤差信号を生成すること、を含む、節2の方法。
9.ベースコーラを反復的に更に訓練することが、
2つの既知の一意的なオリゴ塩基配列を含む検体を用いて、N1回の反復の間ベースコーラを更に訓練することと、
3つの既知の一意的なオリゴ塩基配列を含む検体を用いて、N2回の反復のためにベースコーラを更に訓練することと、を含み、
N1回の反復が、N2回の反復の前に行われる、節1の方法。
10.単一オリゴ塩基配列を含む検体を用いてベースコーラを反復的に最初に訓練するために、第1のニューラルネットワーク構成がベースコーラ内にロードされ、ベースコーラを反復的に更に訓練することが、
2つの既知の一意的なオリゴ塩基配列を含む検体を用いて、N1回の反復のためにベースコーラを更に訓練することを含み、それによって、
(i)N1回の反復の第1のサブセットのために、第2のニューラルネットワーク構成がベースコーラ内にロードされ、
(ii)N1回の反復の第1のサブセットの後に生じるN1回の反復の第2のサブセットのために、第3のニューラルネットワーク構成がベースコーラ内にロードされ、第1、第2、及び第3のニューラルネットワーク構成が互いに異なる、節1の方法。
11.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも複雑であり、第3のニューラルネットワーク構成が、第2のニューラルネットワーク構成よりも複雑である、節10の方法。
12.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも多い数の層を有する、節10の方法。
13.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも大きい数の重みを有する、節10の方法。
14.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも多い数のパラメータを有する、節10の方法。
15.第3のニューラルネットワーク構成が、第2のニューラルネットワーク構成よりも多い数の層を有する、節10の方法。
16.第3のニューラルネットワーク構成が、第2のニューラルネットワーク構成よりも大きい数の重みを有する、節10の方法。
17.第3のニューラルネットワーク構成が、第2のニューラルネットワーク構成よりも多い数のパラメータを有する、節10の方法。
18.2つの既知の一意的なオリゴ塩基配列を含む検体を用いてN1回の反復の間ベースコーラを更に訓練することが、N1回の反復のうちの1回の反復の間、
(i)フローセルの第1の複数のクラスタに、2つの既知の一意的なオリゴ塩基配列のうちの第1の既知のオリゴ塩基配列を、かつ(ii)フローセルの第2の複数のクラスタに、2つの既知のユニークなオリゴ塩基配列のうちの第2の既知のオリゴ塩基配列を投入することと、
第1及び第2の複数のクラスタの各クラスタについて、複数の予測されたベースコールが生成されるように、対応するベースコールを予測することと、
(i)複数の予測されたベースコールのうちの第1の予測されたベースコールを第1の既知のオリゴ塩基配列に、かつ(ii)複数の予測されたベースコールのうちの第2の予測されたベースコールを第2の既知のオリゴ塩基配列にマッピングする一方で、複数の予測されたベースコールのうちの第3の予測されたベースコールを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、
(i)第1の予測されたベースコールを第1の既知のオリゴ塩基配列と比較することに基づいて、第1の誤差信号、及び(ii)第2の予測されたベースコールを第2の既知のオリゴ塩基配列と比較することに基づいて、第2の誤差信号を生成することと、
第1及び第2の誤差信号に基づいて、ベースコーラを更に訓練することと、を含む、節10の方法。
19.第1の予測されたベースコールを2つの既知の一意的なオリゴ塩基配列の第1の既知のオリゴ塩基配列にマッピングすることが、
第1の予測されたベースコールの各塩基を、第1及び第2の既知のオリゴ塩基配列の対応する塩基と比較することと、
第1の予測されたベースコールが、第1の既知のオリゴ塩基配列と少なくとも閾値数の塩基の類似性を有し、第2の既知のオリゴ塩基配列と閾値数未満の塩基の類似性を有すると判定することと、
第1の予測されたベースコールが、第1の既知のオリゴ塩基配列と少なくとも閾値数の塩基の類似性を有すると判定することに基づいて、第1の予測されたベースコールを第1の既知のオリゴ塩基配列にマッピングすることと、を含む、節18の方法。
20.第3の予測されたベースコールを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることが、
第1の予測されたベースコールの各塩基を、第1及び第2の既知のオリゴ塩基配列の対応する塩基と比較することと、
第1の予測されたベースコールが、第1及び第2の既知のオリゴ塩基配列の各々と閾値数未満の塩基の類似性を有すると判定することと、
第1の予測されたベースコールが、第1及び第2の既知のオリゴ塩基配列の各々と閾値数未満の塩基の類似性を有すると判定することに基づいて、第3の予測されたベースコールを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、を含む、節18の方法。
21.第3の予測されたベースコールを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることが、
第1の予測されたベースコールの各塩基を、第1及び第2の既知のオリゴ塩基配列の対応する塩基と比較することと、
第1の予測されたベースコールが、第1及び第2の既知のオリゴ塩基配列の各々と閾値数を超える塩基の類似性を有すると判定することと、
第1の予測されたベースコールが、第1及び第2の既知のオリゴ塩基配列の各々と閾値数を超える塩基の類似性を有すると判定することに基づいて、第3の予測されたベースコールを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、を含む、節18の方法。
22.N1回の反復のうちの1回の反復に対して更に訓練されたベースコーラを使用して標識された訓練データを生成することが、
N1回の反復のうちの1回の反復中にベースコーラを更に訓練した後に、第1及び第2の複数のクラスタの各クラスタについて、別の複数の予測されたベースコールが生成されるように、対応するベースコールを再予測することと、
(i)他の複数の予測されたベースコールの第1のサブセットを第1の既知のオリゴ塩基配列に、かつ(ii)他の複数の予測されたベースコールの第2のサブセットを第2の既知のオリゴ塩基配列に再マッピングする一方で、他の複数の予測されたベースコールの第3のサブセットを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、
標識された訓練データが、(i)記他の複数の予測されたベースコールの第1のサブセットであって、第1の既知のオリゴ塩基配列が他の複数の予測されたベースコールの第1のサブセットに対するグラウンドトゥルースデータを形成する、第1のサブセット、及び(ii)他の複数の予測されたベースコールの第2のサブセットであって、第2の既知のオリゴ塩基配列が他の複数の予測されたベースコールの第2のサブセットに対するグラウンドトゥルースデータを形成する、第2のサブセットを含むように、再マッピングに基づいて標識された訓練データを生成することと、を含む、節18の方法。
23.N1回の反復のうちの1回の反復中に生成された標識された訓練データが、N1回の反復のうちの直後の反復中にベースコーラを訓練するために使用される、
節22の方法。
24.ベースコーラのニューラルネットワーク構成が、N1回の反復のうちの1回の反復中と、N1回の反復のうちの直後の反復中とで同じである、
節23の方法。
25.N1回の反復のうちの直後の反復中のベースコーラのニューラルネットワーク構成が、N1回の反復のうちの1回の反復中のベースコーラのニューラルネットワーク構成とは異なり、より複雑である、
節23の方法。
26.ベースコーラを反復的に更に訓練することが、
反復的な更なる訓練の間の反復の進行とともに、マルチオリゴ塩基配列を含む検体中の一意的なオリゴ塩基配列の数を単調に増加させること、を含む、節1の方法。
27.ベースコーラを使用して、オリゴの既知の配列を有するように配列決定された未知の検体についてのベースコール配列を予測することと、
未知の検体の各々を、既知の配列に一致するグラウンドトゥルース配列で標識することと、
標識された未知の検体を使用して、ベースコーラを訓練することと、を含む、
コンピュータ実装方法。
28.収束が満足するまで、使用すること、標識すること、及び訓練することを繰り返すことを更に含む、節27のコンピュータ実装方法。
29.ベースコーラを使用して、2つ以上のオリゴの2つ以上の既知の配列を有するように配列決定された未知の検体の集団についてのベースコール配列を予測することと、
選別された未知の検体のベースコール配列の既知の配列への分類に基づいて、未知の検体の集団から未知の検体を選別することと、
分類に基づいて、選別された未知の検体のそれぞれのサブセットを、既知の配列にそれぞれ一致するそれぞれのグラウンドトゥルース配列で標識することと、
選別された未知の検体の標識されたそれぞれのサブセットを使用して、ベースコーラを訓練することと、を含む、
コンピュータ実装方法。
30.収束が満足するまで、使用すること、選別すること、標識すること、及び訓練することを繰り返すことを更に含む、節29のコンピュータ実装方法。
31.ベースコーラを漸進的に訓練するためにコンピュータプログラム命令が記憶された非一時的コンピュータ可読記憶媒体であって、命令が、プロセッサ上で実行されると、
単一オリゴ塩基配列を含む検体でベースコーラを反復的に最初に訓練し、最初に訓練されたベースコーラを使用して標識された訓練データを生成することと、
(i)マルチオリゴ塩基配列を含む検体を用いてベースコーラを更に訓練し、更に訓練されたベースコーラを使用して標識された訓練データを生成することと、
少なくとも1回の反復中に、ベースコーラ内にロードされたニューラルネットワーク構成の複雑度を増加させながら、ステップ(i)を繰り返すことによってベースコーラを更に訓練することと、を含み、反復中に生成された標識された訓練データが、直後の反復中にベースコーラを訓練するために使用される、非一時的コンピュータ可読記憶媒体。
31a.命令が、
マルチオリゴ塩基配列を含む検体を用いてベースコーラを更に訓練する少なくとも1回の反復中に、検体内で、マルチオリゴ塩基配列の一意的なオリゴ塩基配列の数を増加させることを更に含む、節31のコンピュータ可読記憶媒体。
32.単一オリゴ塩基配列を含む検体を用いてベースコーラを反復的に最初に訓練することが、
ベースコーラの最初の訓練の第1の反復中に、
既知の単一オリゴ塩基配列を、フローセルの複数のクラスタに投入することと、
複数のクラスタに対応する複数の配列信号を生成することであって、複数の配列信号の各配列信号が、複数のクラスタのうちの対応するクラスタにロードされた塩基配列を表す、生成することと、
複数の配列信号の各配列信号に基づいて、既知の単一オリゴ塩基配列に対する対応するベースコールを予測し、それによって複数の予測されたベースコールを生成することと、
複数の配列信号の各配列信号について、(i)対応する予測されたベースコールと(ii)既知の単一オリゴ塩基配列の塩基との比較に基づいて、対応する誤差信号を生成し、それによって、複数の配列信号に対応する複数の誤差信号を生成することと、
複数の誤差信号に基づいて、第1の反復中にベースコーラを最初に訓練することと、を含む、節31のコンピュータ可読記憶媒体方法。
32a.第1の反復中にベースコーラを最初に訓練することが、
ベースコーラにロードされたニューラルネットワーク構成の逆伝搬経路を使用して、複数の誤差信号に基づいて、ニューラルネットワーク構成の重み及び/又はバイアスを更新すること、を含む、節32のコンピュータ可読記憶媒体。
33.単一オリゴ塩基配列を含む検体を用いてベースコーラを反復的に最初に訓練することが、
最初の訓練の第1の反復の後に行われるベースコーラの最初の訓練の第2の反復中に、
最初の訓練の第1の反復中に部分的に訓練されたベースコーラを使用して、複数の配列信号の各配列信号に基づいて、既知の単一オリゴ塩基配列に対する対応する更なるベースコールを予測し、それによって、複数の更なる予測されたベースコールを生成することと、
複数の配列信号の各配列信号について、(i)対応する更なる予測されたベースコールと(ii)既知の単一オリゴ塩基配列の塩基との比較に基づいて、対応する更なる誤差信号を生成し、それによって、複数の配列信号に対応する複数の更なる誤差信号を生成することと、
複数の更なる誤差信号に基づいて、第2の反復中にベースコーラを更に最初に訓練することと、を更に含む、節32のコンピュータ可読記憶媒体。
34.単一オリゴ塩基配列を含む検体を用いてベースコーラを反復的に最初に訓練することが、
収束条件が満たされるまで、複数のインスタンスについて、単一オリゴ塩基配列を含む検体を用いてベースコーラの最初の訓練の第2の反復を繰り返すこと、を含む、節33のコンピュータ可読記憶媒体。
35.収束条件が、ベースコーラの最初の訓練の第2の反復の2つの連続する反復の間に、複数の更なる誤差信号の減少が閾値未満である場合に満たされる、節34のコンピュータ可読記憶媒体。
36.収束条件が、ベースコーラの最初の訓練の第2の反復が、少なくとも閾値数のインスタンスについて繰り返される場合に、満たされる、節34のコンピュータ可読記憶媒体。
37.ベースコーラの最初の訓練の第1の反復中に生成された複数のクラスタに対応する複数の配列信号が、ベースコーラの最初の訓練の第2の反復のために再使用される、
節33のコンピュータ可読記憶媒体。
38.(i)対応する予測されたベースコールと(ii)既知の単一オリゴ配列の塩基とを比較することが、
第1の予測されたベースコールについて、(i)第1の予測されたベースコールの第1の塩基を、既知の単一オリゴ配列の第1の塩基と比較し、(ii)第1の予測されたベースコールの第2の塩基を、既知の単一オリゴ配列の第2の塩基と比較して、対応する第1の誤差信号を生成すること、を含む、節32のコンピュータ可読記憶媒体。
39.ベースコーラを反復的に更に訓練することが、
2つの既知の一意的なオリゴ塩基配列を含む検体を用いて、N1回の反復の間ベースコーラを更に訓練することと、
3つの既知の一意的なオリゴ塩基配列を含む検体を用いて、N2回の反復のためにベースコーラを更に訓練することと、を含み、
N1回の反復が、N2回の反復の前に行われる、節31のコンピュータ可読記憶媒体。
40.単一オリゴ塩基配列を含む検体を用いてベースコーラを反復的に最初に訓練する間に、第1のニューラルネットワーク構成がベースコーラ内にロードされ、ベースコーラを反復的に更に訓練することが、
2つの既知の一意的なオリゴ塩基配列を含む検体を用いて、N1回の反復のためにベースコーラを更に訓練することを含み、それによって、
(i)N1回の反復の第1のサブセットについて、第2のニューラルネットワーク構成がベースコーラ内にロードされ、
(ii)N1回の反復の第1のサブセットの後に生じるN1回の反復の第2のサブセットについて、第3のニューラルネットワーク構成がベースコーラ内にロードされ、第1、第2、及び第3のニューラルネットワーク構成が互いに異なる、31のコンピュータ可読記憶媒体。
41.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも複雑であり、第3のニューラルネットワーク構成が、第2のニューラルネットワーク構成よりも複雑である、節40のコンピュータ可読記憶媒体。
42.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも多い数の層を有する、節40のコンピュータ可読記憶媒体。
43.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも大きい数の重みを有する、節40のコンピュータ可読記憶媒体。
44.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも多い数のパラメータを有する、節40のコンピュータ可読記憶媒体。
45.第3のニューラルネットワーク構成が、第2のニューラルネットワーク構成よりも多い数の層を有する、節40のコンピュータ可読記憶媒体。
46.第3のニューラルネットワーク構成が、第2のニューラルネットワーク構成よりも大きい数の重みを有する、節40のコンピュータ可読記憶媒体。
47.第3のニューラルネットワーク構成が、第2のニューラルネットワーク構成よりも多い数のパラメータを有する、節40のコンピュータ可読記憶媒体。
48.2つの既知の一意的なオリゴ塩基配列を含む検体を用いてN1回の反復の間ベースコーラを更に訓練することが、N1回の反復のうちの1回の反復の間、
(i)フローセルの第1の複数のクラスタに、2つの既知の一意的なオリゴ塩基配列のうちの第1の既知のオリゴ塩基配列を、かつ(ii)フローセルの第2の複数のクラスタに、2つの既知のユニークなオリゴ塩基配列のうちの第2の既知のオリゴ塩基配列を投入することと、
第1及び第2の複数のクラスタの各クラスタについて、複数の予測されたベースコールが生成されるように、対応するベースコールを予測することと、
(i)複数の予測されたベースコールのうちの第1の予測されたベースコールを第1の既知のオリゴ塩基配列に、かつ(ii)複数の予測されたベースコールのうちの第2の予測されたベースコールを第2の既知のオリゴ塩基配列にマッピングする一方で、複数の予測されたベースコールのうちの第3の予測されたベースコールを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、
(i)第1の予測されたベースコールを第1の既知のオリゴ塩基配列と比較することに基づいて、第1の誤差信号、及び(ii)第2の予測されたベースコールを第2の既知のオリゴ塩基配列と比較することに基づいて、第2の誤差信号を生成することと、
第1及び第2の誤差信号に基づいて、ベースコーラを更に訓練することと、を含む、節40のコンピュータ可読記憶媒体。
49.第1の予測されたベースコールを2つの既知の一意的なオリゴ塩基配列の第1の既知のオリゴ塩基配列にマッピングすることが、
第1の予測されたベースコールの各塩基を、第1及び第2の既知のオリゴ塩基配列の対応する塩基と比較することと、
第1の予測されたベースコールが、第1の既知のオリゴ塩基配列と少なくとも閾値数の塩基の類似性を有し、第2の既知のオリゴ塩基配列と閾値数未満の塩基の類似性を有すると判定することと、
第1の予測されたベースコールが、第1の既知のオリゴ塩基配列と少なくとも閾値数の塩基の類似性を有すると判定することに基づいて、第1の予測されたベースコールを第1の既知のオリゴ塩基配列にマッピングすることと、を含む、節38のコンピュータ可読記憶媒体。
50.第3の予測されたベースコールを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることが、
第1の予測されたベースコールの各塩基を、第1及び第2の既知のオリゴ塩基配列の対応する塩基と比較することと、
第1の予測されたベースコールが、第1及び第2の既知のオリゴ塩基配列の各々と閾値数未満の塩基の類似性を有すると判定することと、
第1の予測されたベースコールが、第1及び第2の既知のオリゴ塩基配列の各々と閾値数未満の塩基の類似性を有すると判定することに基づいて、第3の予測されたベースコールを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、を含む、節48のコンピュータ可読記憶媒体。
51.第3の予測されたベースコールを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることが、
第1の予測されたベースコールの各塩基を、第1及び第2の既知のオリゴ塩基配列の対応する塩基と比較することと、
第1の予測されたベースコールが、第1及び第2の既知のオリゴ塩基配列の各々と閾値数を超える塩基の類似性を有すると判定することと、
第1の予測されたベースコールが、第1及び第2の既知のオリゴ塩基配列の各々と閾値数を超える塩基の類似性を有すると判定することに基づいて、第3の予測されたベースコールを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、を含む、節48のコンピュータ可読記憶媒体。
52.N1回の反復のうちの1回の反復の間更に訓練されたベースコーラを使用して標識された訓練データを生成することが、
N1回の反復のうちの1回の反復中にベースコーラを更に訓練した後に、第1及び第2の複数のクラスタの各クラスタについて、別の複数の予測されたベースコールが生成されるように、対応するベースコールを再予測することと、
(i)他の複数の予測されたベースコールの第1のサブセットを第1の既知のオリゴ塩基配列に、かつ(ii)他の複数の予測されたベースコールの第2のサブセットを第2の既知のオリゴ塩基配列に再マッピングする一方で、他の複数の予測されたベースコールの第3のサブセットを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、
標識された訓練データが、(i)記他の複数の予測されたベースコールの第1のサブセットであって、第1の既知のオリゴ塩基配列が他の複数の予測されたベースコールの第1のサブセットに対するグラウンドトゥルースデータを形成する、第1のサブセット、及び(ii)他の複数の予測されたベースコールの第2のサブセットであって、第2の既知のオリゴ塩基配列が他の複数の予測されたベースコールの第2のサブセットに対するグラウンドトゥルースデータを形成する、第2のサブセットを含むように、再マッピングに基づいて標識された訓練データを生成することと、を含む、節48のコンピュータ可読記憶媒体。
53.N1回の反復のうちの1回の反復中に生成された標識された訓練データが、N1回の反復のうちの直後の反復中にベースコーラを訓練するために使用される、
節52のコンピュータ可読記憶媒体。
54.ベースコーラのニューラルネットワーク構成が、N1回の反復のうちの1回の反復中と、N1回の反復のうちの直後の反復中とで同じである、
節53のコンピュータ可読記憶媒体。
55.N1回の反復のうちの直後の反復中のベースコーラのニューラルネットワーク構成が、N1回の反復のうちの1回の反復中のベースコーラのニューラルネットワーク構成とは異なり、より複雑である、
節53のコンピュータ可読記憶媒体。
56.ベースコーラを反復的に更に訓練することが、
反復的な更なる訓練の間の反復の進行とともに、マルチオリゴ塩基配列を含む検体中の一意的なオリゴ塩基配列の数を単調に増加させること、を含む、節31のコンピュータ可読記憶媒体。
節セット#2(生物配列を使用して訓練された自己学習ベースコーラ)
A1.ベースコーラを漸進的に訓練するコンピュータ実装方法であって、
ベースコーラを最初に訓練し、最初に訓練されたベースコーラを使用して標識された訓練データを生成することと、
(i)生物塩基配列を含む検体を用いてベースコーラを更に訓練し、更に訓練されたベースコーラを使用して標識された訓練データを生成することと、
ステップ(i)をN回の反復の間繰り返すことによって、ベースコーラを反復的に更に訓練することであって、
第1の複数の塩基部分配列に選別された第1の生物塩基配列を含む検体を用いて、N回の反復のうちN1回の反復の間、ベースコーラを更に訓練すること、及び
第2の複数の塩基部分配列に選別された第2の生物塩基配列を含む検体を用いて、N回の反復のうちN2回の反復の間、ベースコーラを更に訓練することを含む、反復的に更に訓練することと、を含み、
ベースコーラにロードされるニューラルネットワーク構成の複雑度が、N回の反復とともに単調に増加し、
N回の反復のうちの反復中に生成された標識
された訓練データが、N回の反復のうちの直後の反復中にベースコーラを訓練するために使用される、コンピュータ実装方法。
A1a.ベースコーラを最初に訓練することが、
1つ以上のオリゴ塩基配列を含む検体を用いてベースコーラを最初に訓練し、最初に訓練されたベースコーラを使用して標識された訓練データを生成することを含む、節A1の方法。
A2.N1回の反復が、N2回の反復の前に行われ、第2の生物塩基配列が、第1の生物塩基配列よりも多い数の塩基を有する、節A1の方法。
A3.N1回の反復の間ベースコーラを更に訓練することが、N1回の反復のうちの1回の反復中に、
(i)フローセルの複数のクラスタのうちの第1のクラスタに、第1の生物の第1の複数の塩基部分配列のうちの第1の塩基部分配列を、(ii)フローセルの複数のクラスタのうちの第2のクラスタに、第1の生物の第1の複数の塩基部分配列のうちの第2の塩基部分配列を、かつ(iii)フローセルの複数のクラスタのうちの第3のクラスタに、第1の生物の第1の複数の塩基部分配列のうちの第3の塩基部分配列を投入することと、
(i)第1のクラスタに投入された塩基部分配列を示す第1のクラスタからの第1の配列信号、(ii)第2のクラスタに投入された塩基部分配列を示す第2のクラスタからの第2の配列信号、及び(iii)第3のクラスタに投入された塩基部分配列を示す第3のクラスタからの第3の配列信号を受信することと、
(i)第1の配列信号に基づいて、第1の予測された塩基部分配列を、(ii)第2の配列信号に基づいて、第2の予測された塩基部分配列を、かつ(iii)第3の配列信号に基づいて、第3の予測された塩基部分配列を生成することと、
(i)第1の予測された塩基部分配列を、第1の生物塩基配列の第1のセクションと、かつ(ii)第2の予測された塩基部分配列を、第1の生物塩基配列の第2のセクションとマッピングする一方で、第3の予測された塩基部分配列を、第1の生物塩基配列のいずれのセクションともマッピングしないことと、
(i)第1の生物塩基配列の第1のセクションにマッピングされた第1の予測された塩基部分配列であって、第1の生物塩基配列の第1のセクションが、第1の予測された塩基部分配列のグラウンドトゥルースである、第1の予測された塩基部分配列、及び(ii)第1の生物塩基配列の第2のセクションにマッピングされた第2の予測された塩基部分配列であって、第1の生物塩基配列の第2のセクションが、第2の予測された塩基部分配列のグラウンドトゥルースである、第2の予測された塩基部分配列を含む、標識された訓練データを生成することと、を含む、節A1の方法。
A3a.N1回の反復の間ベースコーラを更に訓練することが、N1回の反復のうちの1回の反復中に、
第1、第2、及び第3の予測された塩基部分配列を生成する前に、ベースコーラを最初に訓練する間に生成された標識された訓練データを使用して、ベースコーラを訓練することを含む、節A3の方法。
A4.第1の予測された塩基部分配列が、L1個の塩基を有し、
第1の予測された塩基部分配列のL1個の塩基のうちの1つ以上の塩基が、ベースコーラによるベースコーリング予測における誤差に起因して、第1の生物塩基配列の第1のセクションの対応する塩基と一致しない、
節A3の方法。
A5.第1の予測された塩基部分配列がL1個の塩基を有し、第1の予測された塩基部分配列のL1個の塩基が、最初のL2個の塩基と、それに続く後続のL3個の塩基とを含み、第1の予測された塩基部分配列を第1の生物塩基配列の第1のセクションとマッピングすることが、
第1の予測された塩基配列の最初のL2個の塩基を、第1の生物塩基配列の連続するL2個の塩基と実質的かつ一意的に一致させることと、
第1の生物塩基配列の第1のセクションを、第1のセクションが、(i)連続するL2個の塩基を最初の塩基として含み、かつ(ii)L1個の塩基を含むように同定することと、
第1の予測された塩基部分配列を、第1の生物塩基配列の同定された第1のセクションとマッピングすることと、を含む、節A3の方法。
A6.方法が、
第1の予測された塩基配列の最初のL2個の塩基を実質的かつ一意的に一致させる一方で、第1の予測された塩基配列の後続のL3個の塩基を第1の生物塩基配列のいずれかの塩基と一致させることをめざすことを控えることを更に含む、A5の方法。
A7.第1の予測された塩基配列の最初のL2個の塩基が、第1の生物塩基配列の連続するL2個の塩基と実質的に一致し、それによって、第1の予測された塩基配列の最初のL2個の塩基の少なくとも閾値数の塩基が、第1の生物塩基配列の連続するL2個の塩基と一致する、A5の方法。
A8.第1の予測された塩基配列の最初のL2個の塩基が、第1の生物塩基配列の連続するL2個の塩基と一意的に一致し、それによって、第1の予測された塩基配列の最初のL2個の塩基が、第1の生物塩基配列の連続するL2個の塩基のみと実質的に一致し、第1の生物塩基配列の他の連続するL2個の塩基とは一致しない、A5の方法。
A9.第3の予測された塩基部分配列がL1個の塩基を有し、第3の予測された塩基部分配列と、第1の複数の塩基部分配列の塩基部分配列のいずれかとのマッピングしないことが、
(i)第3の予測された塩基配列のL1個の塩基のうちの最初のL2個の塩基を、第1の生物塩基配列の連続するL2個の塩基と実質的かつ一意的に一致させないことを含む、節A3の方法。
A10.N1回の反復のうちの1回の反復が、N1回の反復のうちの第1の反復であり、N1回の反復のうちの第2の反復の間ベースコーラを更に訓練することが、
N1回の反復のうちの第1の反復中に生成された標識された訓練データを使用して、ベースコーラを訓練することと、
N1回の反復のうちの第1の反復中に生成された標識された訓練データで訓練されたベースコーラを使用して、(i)第1の配列信号に基づく、更なる第1の予測された塩基部分配列、(ii)第2の配列信号に基づく、更なる第2の予測された塩基部分配列、及び(iii)第3の配列信号に基づく、更なる第3の予測された塩基部分配列を生成することと、
(i)更なる第1の予測された塩基部分配列を、第1の生物塩基配列の第1のセクションと、(ii)更なる第2の予測された塩基部分配列を、第1の生物塩基配列の第2のセクションと、かつ(iii)更なる第3の予測された塩基部分配列を、第1の生物塩基配列の第3のセクションとマッピングすることと、
(i)第1の生物塩基配列の第1のセクションにマッピングされた更なる第1の予測された塩基部分配列であって、第1の生物塩基配列の第1のセクションが、更なる第1の予測された塩基部分配列のグラウンドトゥルースである、更なる第1の予測された塩基部分配列、(ii)第1の生物塩基配列の第2のセクションにマッピングされた更なる第2の予測された塩基部分配列であって、第1の生物塩基配列の更なる第2のセクションが、更なる第2の予測された塩基部分配列のグラウンドトゥルースである、更なる第2の予測された塩基部分配列、及び(iii)第1の生物塩基配列の第3のセクションにマッピングされた更なる第3の予測された塩基部分配列であって、第1の生物塩基配列の更なる第3のセクションが、更なる第3の予測された塩基部分配列のグラウンドトゥルースである、第3の予測された塩基部分配列を含む、更なる標識された訓練データを生成することと、を含む、節A3の方法。
A11.(i)N1回の反復のうちの第1の反復中に生成された第1の予測された塩基部分配列と、(ii)第1の生物塩基配列の第1のセクションとの間の第1の誤差を生成することと、
(i)N1回の反復のうちの第2の反復中に生成された更なる第1の予測された塩基部分配列と、(ii)第1の生物塩基配列の第1のセクションとの間の第2の誤差を生成することと、
ベースコーラが、第1の反復と比較して第2の反復中により良く訓練されるので、第2の誤差が第1の誤差未満である、
節A10の方法。
A12.第1の反復中に生成された第1、第2、及び第3の配列信号が、更なる第1の予測された塩基部分配列、更なる第2の予測された塩基部分配列、及び更なる第3の予測された塩基部分配列をそれぞれ生成するために、第2の反復において再使用される、
節A10の方法。
A13.N1回の反復のうちの第1の反復とN1回の反復のうちの第2の反復の間、ベースコーラのニューラルネットワーク構成が同じである、
節A10の方法。
A13a.収束条件が満たされるまで、ベースコーラのニューラルネットワーク構成が、複数回の反復の間、再使用される、
節A13の方法。
A14.N1回の反復のうちの第1の反復中のベースコーラのニューラルネットワーク構成が、N1回の反復のうちの第2の反復中のベースコーラのニューラルネットワーク構成とは異なり、より複雑である、
節A10の方法。
A15.第1の生物塩基配列を含む検体を用いて、N回の反復のうちのN1回の反復の間ベースコーラを更に訓練することが、
N1回の反復の第1のサブセットについて、ベースコーラにロードされた第1のニューラルネットワーク構成を用いてベースコーラを更に訓練することと、
N1回の反復の第2のサブセットについて、ベースコーラにロードされた第2のニューラルネットワーク構成を用いてベースコーラを更に訓練することであって、第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成とは異なる、更に訓練することと、を含む、節A1の方法。
A16.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも多い数の層を有する、節A15の方法。
A17.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも大きい数の重みを有する、節A15の方法。
A18.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも多い数のパラメータを有する、節A15の方法。
A19.ベースコーラを反復的に更に訓練することが、
第1の生物塩基配列を含む検体を用いたN1回の反復のうちの1回以上の反復については、ベースコーラに第1のニューラルネットワーク構成をロードすることと、
第2の生物塩基配列を含む検体を用いたN2回の反復のうちの1回以上の反復については、ベースコーラに第2のニューラルネットワーク構成をロードすることであって、第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成とは異なる、ロードすることと、を含む、節A1の方法。
A20.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも多い数の層を有する、節A19の方法。
A21.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも大きい数の重みを有する、節A19の方法。
A22.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも多い数のパラメータを有する、節A19の方法。
A23.第1の生物塩基配列を含む検体を用いて、N回の反復のうちのN1回の反復の間ベースコーラを更に訓練することが、
N1回の反復の後に収束条件が満たされるまで、第1の生物塩基配列を用いて更なる訓練を繰り返すことを含む、節A1の方法。
A24.収束条件が、N1回の反復のうちの2つの連続する反復の間に、生成された誤差信号の減少が閾値未満であるときに満たされる、節A23の方法。
A25.収束条件が、N1回の反復の完了後に満たされる、節A23の方法。
B1.ベースコーラを漸進的に訓練するためにコンピュータプログラム命令が記憶された非一時的コンピュータ可読記憶媒体であって、命令が、プロセッサ上で実行されると、
ベースコーラを最初に訓練し、最初に訓練されたベースコーラを使用して標識された訓練データを生成することと、
(i)生物塩基配列を含む検体を用いてベースコーラを更に訓練し、更に訓練されたベースコーラを使用して標識された訓練データを生成することと、
ステップ(i)をN回の反復の間繰り返すことによって、ベースコーラを反復的に更に訓練することであって、
第1の複数の塩基部分配列に選別された第1の生物塩基配列を含む検体を用いて、N回の反復のうちN1回の反復の間、ベースコーラを更に訓練すること、及び
第2の複数の塩基部分配列に選別された第2の生物塩基配列を含む検体を用いて、N回の反復のうちN2回の反復の間、ベースコーラを更に訓練することを含む、反復的に更に訓練することと、を含み、
ベースコーラにロードされるニューラルネットワーク構成の複雑度が、N回の反復とともに単調に増加し、
N回の反復のうちの反復中に生成された標識された訓練データが、N回の反復のうちの直後の反復中にベースコーラを訓練するために使用される、非一時的コンピュータ可読記憶媒体。
B1a.ベースコーラを反復的に更に訓練することが、
1つ以上のオリゴ塩基配列を含む検体を用いてベースコーラを最初に訓練し、最初に訓練されたベースコーラを使用して標識された訓練データを生成することを含む、節B1のコンピュータ可読記憶媒体。
B2.N1回の反復が、N2回の反復の前に行われ、第2の生物塩基配列が、第1の生物塩基配列よりも多い数の塩基を有する、節B1のコンピュータ可読記憶媒体。
B3.N1回の反復の間ベースコーラを更に訓練することが、N1回の反復のうちの1回の反復中に、
(i)フローセルの複数のクラスタのうちの第1のクラスタに、第1の生物の第1の複数の塩基部分配列のうちの第1の塩基部分配列を、(ii)フローセルの複数のクラスタのうちの第2のクラスタに、第1の生物の第1の複数の塩基部分配列のうちの第2の塩基部分配列を、かつ(iii)フローセルの複数のクラスタのうちの第3のクラスタに、第1の生物の第1の複数の塩基部分配列のうちの第3の塩基部分配列を投入することと、
(i)第1のクラスタに投入された塩基部分配列を示す第1のクラスタからの第1の配列信号、(ii)第2のクラスタに投入された塩基部分配列を示す第2のクラスタからの第2の配列信号、及び(iii)第3のクラスタに投入された塩基部分配列を示す第3のクラスタからの第3の配列信号を受信することと、
(i)第1の配列信号に基づいて、第1の予測された塩基部分配列を、(ii)第2の配列信号に基づいて、第2の予測された塩基部分配列を、かつ(iii)第3の配列信号に基づいて、第3の予測された塩基部分配列を生成することと、
(i)第1の予測された塩基部分配列を、第1の生物塩基配列の第1のセクションと、かつ(ii)第2の予測された塩基部分配列を、第1の生物塩基配列の第2のセクションとマッピングする一方で、第3の予測された塩基部分配列を、第1の生物塩基配列のいずれのセクションともマッピングしないことと、
(i)第1の生物塩基配列の第1のセクションにマッピングされた第1の予測された塩基部分配列であって、第1の生物塩基配列の第1のセクションが、第1の予測された塩基部分配列のグラウンドトゥルースである、第1の予測された塩基部分配列、及び(ii)第1の生物塩基配列の第2のセクションにマッピングされた第2の予測された塩基部分配列であって、第1の生物塩基配列の第2のセクションが、第2の予測された塩基部分配列のグラウンドトゥルースである、第2の予測された塩基部分配列を含む、標識された訓練データを生成することと、を含む、節B1のコンピュータ可読記憶媒体。
B3a.N1回の反復の間ベースコーラを更に訓練することが、N1回の反復のうちの1回の反復中に、
第1、第2、及び第3の予測された塩基部分配列を生成する前に、ベースコーラを最初に訓練する間に生成された標識された訓練データを使用して、ベースコーラを訓練することを含む、節B3のコンピュータ可読記憶媒体。
B4.第1の予測された塩基部分配列が、L1個の塩基を有し、
第1の予測された塩基部分配列のL1個の塩基のうちの1つ以上の塩基が、ベースコーラによるベースコーリング予測における誤差に起因して、第1の生物塩基配列の第1のセクションの対応する塩基と一致しない、
節B3のコンピュータ可読記憶媒体。
B5.第1の予測された塩基部分配列がL1個の塩基を有し、第1の予測された塩基部分配列のL1個の塩基が、最初のL2個の塩基と、それに続く後続のL3個の塩基とを含み、第1の予測された塩基部分配列を第1の生物塩基配列の第1のセクションとマッピングすることが、
第1の予測された塩基配列の最初のL2個の塩基を、第1の生物塩基配列の連続するL2個の塩基と実質的かつ一意的に一致させることと、
第1の生物塩基配列の第1のセクションを、第1のセクションが、(i)連続するL2個の塩基を最初の塩基として含み、かつ(ii)L1個の塩基を含むように同定することと、
第1の予測された塩基部分配列を、第1の生物塩基配列の同定された第1のセクションとマッピングすることと、を含む、節B3のコンピュータ可読記憶媒体。
B6.第1の予測された塩基配列の最初のL2個の塩基を実質的かつ一意的に一致させる一方で、第1の予測された塩基配列の後続のL3個の塩基を第1の生物塩基配列のいずれかの塩基と一致させることをめざすことを控えることを更に含む、
B5のコンピュータ可読記憶媒体。
B7.第1の予測された塩基配列の最初のL2個の塩基が、第1の生物塩基配列の連続するL2個の塩基と実質的に一致し、それによって、第1の予測された塩基配列の最初のL2個の塩基の少なくとも閾値数の塩基が、第1の生物塩基配列の連続するL2個の塩基と一致する、B5のコンピュータ可読記憶媒体。
B8.第1の予測された塩基配列の最初のL2個の塩基が、第1の生物塩基配列の連続するL2個の塩基と一意的に一致し、それによって、第1の予測された塩基配列の最初のL2個の塩基が、第1の生物塩基配列の連続するL2個の塩基のみと実質的に一致し、第1の生物塩基配列の他の連続するL2個の塩基とは一致しない、B5のコンピュータ可読記憶媒体。
B9.第3の予測された塩基部分配列がL1個の塩基を有し、第3の予測された塩基部分配列と、第1の複数の塩基部分配列の塩基部分配列のいずれかとのマッピングしないことが、
(i)第3の予測された塩基配列のL1個の塩基のうちの最初のL2個の塩基を、第1の生物塩基配列の連続するL2個の塩基と実質的かつ一意的に一致させないことを含む、節B3のコンピュータ可読記憶媒体。
B10.N1回の反復のうちの1回の反復が、N1回の反復のうちの第1の反復であり、N1回の反復のうちの第2の反復の間ベースコーラを更に訓練することが、
N1回の反復のうちの第1の反復中に生成された標識された訓練データを使用して、ベースコーラを訓練することと、
N1回の反復のうちの第1の反復中に生成された標識された訓練データで訓練されたベースコーラを使用して、(i)第1の配列信号に基づく、更なる第1の予測された塩基部分配列、(ii)第2の配列信号に基づく、更なる第2の予測された塩基部分配列、及び(iii)第3の配列信号に基づく、更なる第3の予測された塩基部分配列を生成することと、
(i)更なる第1の予測された塩基部分配列を、第1の生物塩基配列の第1のセクションと、(ii)更なる第2の予測された塩基部分配列を、第1の生物塩基配列の第2のセクションと、かつ(iii)更なる第3の予測された塩基部分配列を、第1の生物塩基配列の第3のセクションとマッピングすることと、
(i)第1の生物塩基配列の第1のセクションにマッピングされた更なる第1の予測された塩基部分配列であって、第1の生物塩基配列の第1のセクションが、更なる第1の予測された塩基部分配列のグラウンドトゥルースである、更なる第1の予測された塩基部分配列、(ii)第1の生物塩基配列の第2のセクションにマッピングされた更なる第2の予測された塩基部分配列であって、第1の生物塩基配列の更なる第2のセクションが、更なる第2の予測された塩基部分配列のグラウンドトゥルースである、更なる第2の予測された塩基部分配列、及び(iii)第1の生物塩基配列の第3のセクションにマッピングされた更なる第3の予測された塩基部分配列であって、第1の生物塩基配列の更なる第3のセクションが、更なる第3の予測された塩基部分配列のグラウンドトゥルースである、第3の予測された塩基部分配列を含む、更なる標識された訓練データを生成することと、を含む、節B3のコンピュータ可読記憶媒体。
B11.(i)N1回の反復のうちの第1の反復中に生成された第1の予測された塩基部分配列と、(ii)第1の生物塩基配列の第1のセクションとの間の第1の誤差を生成することと、
(i)N1回の反復のうちの第2の反復中に生成された更なる第1の予測された塩基部分配列と、(ii)第1の生物塩基配列の第1のセクションとの間の第2の誤差を生成することと、を更に含み、
ベースコーラが、第1の反復と比較して第2の反復中により良く訓練されるので、第2の誤差が第1の誤差未満である、
節B10のコンピュータ可読記憶媒体。
B12.第1の反復中に生成された第1、第2、及び第3の配列信号が、更なる第1の予測された塩基部分配列、更なる第2の予測された塩基部分配列、及び更なる第3の予測された塩基部分配列をそれぞれ生成するために、第2の反復において再使用される、
節B10のコンピュータ可読記憶媒体。
B13.N1回の反復のうちの第1の反復とN1回の反復のうちの第2の反復の間、ベースコーラのニューラルネットワーク構成が同じである、
節B10のコンピュータ可読記憶媒体。
B13a.収束条件が満たされるまで、ベースコーラのニューラルネットワーク構成が、複数回の反復の間、再使用される、
節B13のコンピュータ可読記憶媒体。
B14.N1回の反復のうちの第1の反復中のベースコーラのニューラルネットワーク構成が、N1回の反復のうちの第2の反復中のベースコーラのニューラルネットワーク構成とは異なり、より複雑である、
節B10のコンピュータ可読記憶媒体。
B15.第1の生物塩基配列を含む検体を用いて、N回の反復のうちのN1回の反復の間ベースコーラを更に訓練することが、
N1回の反復の第1のサブセットについては、ベースコーラにロードされた第1のニューラルネットワーク構成を用いてベースコーラを更に訓練することと、
N1回の反復の第2のサブセットについては、ベースコーラにロードされた第2のニューラルネットワーク構成を用いてベースコーラを更に訓練することであって、第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成とは異なる、更に訓練することと、を含む、節B1のコンピュータ可読記憶媒体。
B16.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも多い数の層を有する、節B15のコンピュータ可読記憶媒体。
B17.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも大きい数の重みを有する、節B15のコンピュータ可読記憶媒体。
B18.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも多い数のパラメータを有する、節B15のコンピュータ可読記憶媒体。
B19.ベースコーラを反復的に更に訓練することが、
第1の生物塩基配列を含む検体を用いたN1回の反復のうちの1回以上の反復については、ベースコーラに第1のニューラルネットワーク構成をロードすることと、
第2の生物塩基配列を含む検体を用いたN2回の反復のうちの1回以上の反復については、ベースコーラに第2のニューラルネットワーク構成をロードすることであって、第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成とは異なる、ロードすることと、を含む、節B1のコンピュータ可読記憶媒体。
B20.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも多い数の層を有する、節B19のコンピュータ可読記憶媒体。
B21.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも大きい数の重みを有する、節B19のコンピュータ可読記憶媒体。
B22.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも多い数のパラメータを有する、節B19のコンピュータ可読記憶媒体。
B23.第1の生物塩基配列を含む検体を用いて、N回の反復のうちのN1回の反復の間ベースコーラを更に訓練することが、
N1回の反復の後に収束条件が満たされるまで、第1の生物塩基配列を用いて更なる訓練を繰り返すことを含む、節B1のコンピュータ可読記憶媒体。
B24.収束条件が、N1回の反復のうちの2つの連続する反復の間に、生成された誤差信号の減少が閾値未満であるときに満たされる、節B23のコンピュータ可読記憶媒体。
B25.収束条件が、N1回の反復の完了後に満たされる、節B23のコンピュータ可読記憶媒体。
1.ベースコーラを漸進的に訓練するコンピュータ実装方法であって、
(i)ベースコーラを使用して、オリゴの既知の配列を有するように配列決定された単一オリゴ未知検体の集団(すなわち、未知の標的配列)についての単一オリゴベースコール配列を予測し、(ii)単一オリゴ未知検体の集団内の各単一オリゴ未知検体を、既知の配列と一致する単一オリゴグラウンドトゥルース配列で標識し、(iii)単一オリゴ未知検体の標識された集団を使用して、ベースコーラを訓練する単一オリゴ訓練段階から始めることと、
(i)ベースコーラを使用して、2つ以上のオリゴの2つ以上の既知の配列を有するように配列決定されたマルチオリゴ未知検体の集団についてマルチオリゴベースコール配列を予測し、(ii)選別されたマルチオリゴ未知検体のマルチオリゴベースコール配列の既知の配列への分類に基づいて、マルチオリゴ未知検体の集団からマルチオリゴ未知検体を選別し、(iii)分類に基づいて、選別されたマルチオリゴ未知検体のそれぞれのサブセットを、既知の配列にそれぞれ一致するそれぞれのマルチオリゴグラウンドトゥルース配列で標識し、(iv)選別されたマルチオリゴ未知検体の標識されたそれぞれのサブセットを使用して、ベースコーラを更に訓練する、1つ以上のマルチオリゴ訓練段階を継続することと、
(i)ベースコーラを使用して、生物の参照配列の1つ以上の既知の部分配列を有するように配列決定された生物特有未知検体の集団について生物特有ベースコール配列を予測し、(ii)選別された生物特有未知検体の生物特有ベースコール配列の、既知の部分配列を含有する参照配列のセクションへのマッピングに基づいて、生物特有未知検体の集団から生物特有未知検体を選別し、(iii)マッピングに基づいて、選別された生物特有未知検体のそれぞれのサブセットを、既知の部分配列にそれぞれ一致するそれぞれの生物特有グラウンドトゥルース配列で標識し、(iv)選別された生物特有未知検体の標識されたそれぞれのサブセットを使用して、ベースコーラを更に訓練する、1つ以上の生物特有訓練段階を継続することと、を含む、コンピュータ実装方法。
2.収束条件が満たされるまで、マルチオリゴ訓練段階に進む前に、単一オリゴ訓練段階の複数の反復を実行することを更に含む、節1のコンピュータ実装方法。
3.収束条件が満たされるまで、生物特有訓練段階に進む前に、マルチオリゴ訓練段階の各々の複数の反復を実行することを更に含む、節1のコンピュータ実装方法。
4.対象マルチオリゴ訓練段階の各反復において、選別されたマルチオリゴ未知検体が、置換を用いてマルチオリゴ未知検体の集団から選別され、したがって、選別されたマルチオリゴ未知検体の標識されたそれぞれのサブセットのそれぞれのサイズが、対象マルチオリゴ訓練段階の連続する反復間で増加する、節3のコンピュータ実装方法。
5.収束条件が満たされるまで、生物特有訓練段階の各々の複数の反復を実行することを更に含む、節1のコンピュータ実装方法。
6.対象生物特有訓練段階の各反復において、選別された生物特有未知検体が、置換を用いて生物特有未知検体の集団から選別され、したがって、選別された生物特有未知検体の標識されたそれぞれのサブセットのそれぞれのサイズが、対象生物特有訓練段階の連続する反復間で増加する、節5のコンピュータ実装方法。
7.分類が、マルチオリゴベースコール配列と既知の配列との間の重複に基づく、節1のコンピュータ実装方法。
8.重複が、編集距離及び最小類似性閾値に基づいて判定される、節7のコンピュータ実装方法。
9.マッピングが、生物特有ベースコール配列の開始部分が参照配列のセクションの開始部分と一致するかどうかに基づく、節1のコンピュータ実装方法。
10.収束条件が、ベースコーラの標的精度である、節2のコンピュータ実装方法。
11.収束条件が、ベースコーラの標的精度である、節3のコンピュータ実装方法。
12.収束条件が、ベースコーラの標的精度である、節5のコンピュータ実装方法。
13.収束条件が、選別されたマルチオリゴ未知検体の標識されたそれぞれのサブセットの標的累積サイズである、節3のコンピュータ実装方法。
14.収束条件が、選別された生物特有未知検体の標識されたそれぞれのサブセットの標的累積サイズである、節5のコンピュータ実装方法。
15.単一オリゴ訓練段階の連続する反復の間にベースコーラの構成を変更することを更に含む、節2のコンピュータ実装方法。
16.対象マルチオリゴ訓練段階の連続する反復の間にベースコーラの構成を変更することを更に含む、節3のコンピュータ実装方法。
17.対象生物特有訓練段階の連続する反復の間にベースコーラの構成を変更することを更に含む、節5のコンピュータ実装方法。
18.単一オリゴ訓練段階の連続する反復の間に、ベースコーラの構成を固定されたままにすることを更に含む、節2のコンピュータ実装方法。
19.対象マルチオリゴ訓練段階の連続する反復の間、ベースコーラの構成を固定されたままにすることを更に含む、節3のコンピュータ実装方法。
20.対象生物特有訓練段階の連続する反復の間にベースコーラの構成を固定されたままにすることを更に含む、節5のコンピュータ実装方法。
21.単一オリゴ訓練段階からマルチオリゴ訓練段階に進行するときに、ベースコーラの構成を変更することを更に含む、節1のコンピュータ実装方法。
22.マルチオリゴ訓練段階から生物特有訓練段階に進行するときに、ベースコーラの構成を変更することを更に含む、節1のコンピュータ実装方法。
23.単一オリゴ訓練段階からマルチオリゴ訓練段階に進むときに、ベースコーラの構成を固定したままにすることを更に含む、節1のコンピュータ実装方法。
24.マルチオリゴ訓練段階から生物特有訓練段階に進行するときに、ベースコーラの構成を固定したままにすることを更に含む、節1のコンピュータ実装方法。
25.ベースコーラが、ニューラルネットワークである、節1のコンピュータ実装方法。
26.構成が、ニューラルネットワークのパラメータの数によって画定される、節25のコンピュータ実装方法。
27.構成が、ニューラルネットワークの層の数によって画定される、節25のコンピュータ実装方法。
28.構成が、フォワードパスインスタンス(例えば、隣接する画像の漸進的に大きくなるスライディングウィンドウ)内でニューラルネットワークによって処理される入力の数によって画定される、節25のコンピュータ実装方法。
29.ニューラルネットワークが、畳み込みニューラルネットワークである、節25のコンピュータ実装方法。
30.構成が、畳み込みニューラルネットワーク内の畳み込みフィルタの数によって画定される、節29のコンピュータ実装方法。
31.構成が、畳み込みニューラルネットワークの層の数によって画定される、節29のコンピュータ実装方法。
31A.ベースコーラの第1の構成を使用して、オリゴ訓練段階の少なくとも1つの反復を実装することと、
ベースコーラの第2の構成を使用して、マルチオリゴ訓練段階の少なくとも1つの反復を実装することと、を更に含み、
ベースコーラの第1の構成が、ベースコーラの第2の構成の第2のニューラルネットワークよりも少ない数のパラメータを有する第1のニューラルネットワークを備える、
節1のコンピュータ実装方法。
31B.ベースコーラの第3の構成を使用して、生物特有訓練段階の少なくとも1回の反復を実施することと、
ベースコーラの第2の構成が、ベースコーラの第3の構成の第3のニューラルネットワークよりも少ない数のパラメータを有する第2のニューラルネットワークを備える、
節31Aのコンピュータ実装方法。
32.対象マルチオリゴ訓練段階の各反復において、マルチオリゴベースコール配列の少なくともいくつかが、既知の配列に分類されない、節4のコンピュータ実装方法。
33.未分類マルチオリゴベースコール配列の数が、対象マルチオリゴ訓練段階の連続する反復の間に減少する、節32のコンピュータ実装方法。
34.対象生物特有訓練段階の各反復において、生物特有ベースコール配列の少なくともいくつかが、既知の部分配列に分類されない、節6のコンピュータ実装方法。
35.未分類の生物特有ベースコール配列の数が、対象生物特有訓練段階の連続する反復の間に減少する、節34のコンピュータ実装方法。
36.対象マルチオリゴ訓練段階の各反復において、マルチオリゴベースコール配列の少なくともいくつかが、既知の配列に分類されない、節4のコンピュータ実装方法。
37.未分類マルチオリゴベースコール配列の数が、対象マルチオリゴ訓練段階の連続する反復の間に減少する、節36のコンピュータ実装方法。
38.対象生物特有訓練段階の各反復において、生物特有ベースコール配列の少なくともいくつかが、既知の部分配列に分類されない、節6のコンピュータ実装方法。
39.未分類の生物特有ベースコール配列の数が、対象生物特有訓練段階の連続する反復の間に減少する、節38のコンピュータ実装方法。
40.ベースコーラの精度が、単一オリゴ訓練段階、マルチオリゴ訓練段階、及び生物特有訓練段階からの訓練の進行とともに増加する、節1のコンピュータ実装方法。
41.オリゴの既知の配列が1~100塩基を有し、2つ以上のオリゴの既知の配列の各々が1~100塩基を有し、参照配列の既知の部分配列の各々が1~1000塩基を有する、節1のコンピュータ実装方法。
42.ベースコーラを訓練するために使用される標識された訓練実施例の塩基多様性が、単一オリゴ訓練段階、マルチオリゴ訓練段階、及び生物特有訓練段階からの訓練の進行とともに増加する、節41のコンピュータ実装方法。
43.単一オリゴ訓練段階が、単一オリゴベースコール配列と単一オリゴグラウンドトゥルース配列との間の不一致に基づいて、ベースコーラの重みを更新することによってベースコーラを訓練する、節1のコンピュータ実装方法。
44.マルチオリゴ訓練段階が、分類されたマルチオリゴベースコール配列とそれぞれのマルチオリゴグラウンドトゥルース配列との間の不一致に基づいて、ベースコーラの重みを更新することによってベースコーラを訓練する、節1のコンピュータ実装方法。
45.生物特有訓練段階が、マッピングされた生物特有ベースコール配列とそれぞれの生物特有グラウンドトゥルース配列との間の不一致に基づいて、ベースコーラの重みを更新することによってベースコーラを訓練する、節1のコンピュータ実装方法。
46.生物特有訓練段階が、参照配列の低マッピング閾値セクション及び/又は既知のバリアントセクションにマッピングする生物特有ベースコール予測を分類しない、節1のコンピュータ実装方法。
47.推論段階において未知の検体をベースコールするために、単一オリゴ訓練段階によって生成された訓練されたベースコーラを使用することを更に含む、節1のコンピュータ実装方法。
48.推論段階において未知の検体をベースコールするために、マルチオリゴ訓練段階のいずれかによって生成された更なる訓練されたベースコーラを使用することを更に含む、節47のコンピュータ実装方法。
49.推論段階において未知の検体をベースコールするために、生物特有訓練段階のいずれかによって生成された更に訓練されたベースコーラを使用することを更に含む、節48のコンピュータ実装方法。
50.マルチオリゴ訓練段階が、2オリゴ訓練段階、3オリゴ訓練段階、4オリゴ訓練段階、及び後続のマルチオリゴ訓練段階を含む、節1のコンピュータ実装方法。
51.2オリゴ訓練段階が、(i)ベースコーラを使用して、2つのオリゴの2つの既知の配列を有するように配列決定された2オリゴ未知検体の集団の2オリゴベースコール配列を予測し、(ii)2つの既知の配列に対する選別された2オリゴ未知検体の2オリゴベースコール配列の分類に基づいて、2オリゴ未知検体の集団から2オリゴ未知検体を選別し、(iii)2つの既知の配列にそれぞれ一致するそれぞれの2オリゴグラウンドトゥルース配列で選別された2オリゴ未知検体のそれぞれのサブセットを標識し、(iv)選別された2オリゴ未知検体の標識されたそれぞれのサブセットを使用して、ベースコーラを更に訓練する、節50のコンピュータ実装方法。
52.3オリゴ訓練段階が、(i)ベースコーラを使用して、3つのオリゴの3つの既知配列を有するように配列決定された3オリゴ未知検体の集団の3オリゴベースコール配列を予測し、(ii)3つの既知の配列に対する選別された3オリゴ未知検体の3オリゴベースコール配列の分類に基づいて、3オリゴ未知検体の集団から3オリゴ未知検体を選別し、(iii)3つの既知配列にそれぞれ一致するそれぞれの3オリゴグラウンドトゥルース配列で選別された3オリゴ未知検体のそれぞれのサブセットを標識し、(iv)選別された3オリゴ未知検体の標識されたそれぞれのサブセットを使用して、ベースコーラを更に訓練する、節50のコンピュータ実装方法。
53.4オリゴ訓練段階が、(i)ベースコーラを使用して、4つのオリゴの4つの既知の配列を有するように配列決定された4オリゴ未知検体の集団の4オリゴベースコール配列を予測し、(ii)4つの既知の配列に対する選別された4オリゴ未知検体の4オリゴベースコール配列の分類に基づいて、4オリゴ未知検体の集団から4オリゴ未知検体を選別し、(iii)4つの既知の配列にそれぞれ一致するそれぞれの4オリゴグラウンドトゥルース配列で選別された4オリゴ未知検体のそれぞれのサブセットを標識し、(iv)選別された4オリゴ未知検体の標識されたそれぞれのサブセットを使用して、ベースコーラを更に訓練する、節50のコンピュータ実装方法。
54.生物が、細菌である(例えば、PhiX、大腸菌)、節1のコンピュータ実装方法。
55.生物が、霊長類(例えば、ヒト)である、節1のコンピュータ実装方法。
56.単一オリゴ未知検体が、単一オリゴベースコール配列を予測するためにベースコーラによって処理される単一オリゴ信号配列によって特徴付けられ、単一オリゴグラウンドトゥルース配列が、ベースコーラを訓練するために単一オリゴ信号配列に割り当てられる、節1のコンピュータ実装方法。
57.マルチオリゴ未知検体が、マルチオリゴベースコール配列を予測するためにベースコーラによって処理されるマルチオリゴ信号配列によって特徴付けられ、マルチオリゴグラウンドトゥルース配列が、ベースコーラを訓練するためにマルチオリゴ信号配列に割り当てられる、節56のコンピュータ実装方法。
58.生物特有未知検体が、生物特有ベースコール配列を予測するためにベースコーラによって処理される生物特有信号配列によって特徴付けられ、生物特有グラウンドトゥルース配列が、ベースコーラを訓練するために生物特有信号配列に割り当てられる、節57のコンピュータ実装方法。
59.単一オリゴ信号配列、マルチオリゴ信号配列、及び生物特有信号配列が、画像配列である、節58のコンピュータ実装方法。
60.単一オリゴ信号配列、マルチオリゴ信号配列、及び生物特有信号配列が、電圧リード配列である、節58のコンピュータ実装方法。
61.単一オリゴ信号配列、マルチオリゴ信号配列、及び生物特有信号配列が、電流リード配列である、節58のコンピュータ実装方法。
62.単一オリゴ未知検体、マルチオリゴ未知検体、及び生物特有未知検体が、単一分子である、節1のコンピュータ実装方法。
63.単一オリゴ未知検体、マルチオリゴ未知検体、及び生物特有未知検体が、増幅された単一分子(すなわち、クラスタ)である、節1のコンピュータ実装方法。
64.単一オリゴ未知検体、マルチオリゴ未知検体、及び生物特有未知検体が、分子を含むビーズである、節1のコンピュータ実装方法。
65.ベースコーラを使用して、生物の参照配列の1つ以上の既知の部分配列を有するように配列決定された未知の検体の集団のベースコール配列を予測することと、
選別された未知の検体のベースコール配列の、既知の部分配列を含有する参照配列のセクションへのマッピングに基づいて、未知の検体の集団から未知の検体を選別することと、
マッピングに基づいて、選別された未知の検体のそれぞれのサブセットを、既知の部分配列にそれぞれ一致するそれぞれのグラウンドトゥルース配列で標識することと、
選別された未知の検体の標識されたそれぞれのサブセットを使用して、ベースコーラを訓練することと、を含む、
コンピュータ実装方法。
66.収束が満足するまで、使用すること、選別すること、標識すること、及び訓練することを繰り返すことを更に含む、節65のコンピュータ実装方法。
67.未知の塩基配列の漸進的により複雑な訓練例に対して、ベースコーラの漸進的により複雑な構成を訓練することであって、訓練例の処理に応答して、ベースコーラによって生成されたベースコール配列を、未知の塩基配列が配列決定された後の既知の塩基組成にマッピングすることに基づいて、訓練例に対して増加する量のグラウンドトゥルースラベルを反復的に生成することを含む、訓練することを含む、
コンピュータ実装方法。
68.ベースコーラのより複雑な構成が、ベースコーラのパラメータの数を漸進的に増加させることによって画定される、節67のコンピュータ実装方法。
69.ベースコーラが、ニューラルネットワークである、節68のコンピュータ実装方法。
70.ニューラルネットワークのより複雑な構成が、ニューラルネットワークの層の数を漸進的に増加させることによって画定される、節69のコンピュータ実装方法。
71.ニューラルネットワークのより複雑な構成が、フォワードパスインスタンスにおいてニューラルネットワークによって処理される入力の数を漸進的に増加させることによって画定される、節68のコンピュータ実装方法。
72.ニューラルネットワークが、畳み込みニューラルネットワークである、節69のコンピュータ実装方法。
73.畳み込みニューラルネットワークのより複雑な構成が、畳み込みニューラルネットワークの畳み込みフィルタの数を漸進的に増加させることによって画定される、節72のコンピュータ実装方法。
74.畳み込みニューラルネットワークのより複雑な構成が、畳み込みニューラルネットワークの畳み込み層の数を漸進的に増加させることによって画定される、節72のコンピュータ実装方法。
75.未知の塩基配列のより複雑な訓練例が、未知の塩基配列の長さを漸進的に増加させることによって画定される、節67のコンピュータ実装方法。
76.未知の塩基配列のより複雑な訓練例が、未知の塩基配列の塩基多様性を漸進的に増加させることによって画定される、節67のコンピュータ実装方法。
77.未知の塩基配列のより複雑な訓練例が、未知の塩基配列が配列決定されるサンプルの数を漸進的に増加させることによって画定される、節67のコンピュータ実装方法。
78.未知の塩基配列のより複雑な訓練例が、オリゴ試料から細菌試料、霊長類試料へと進めることで画定される、節67のコンピュータ実装方法。
C1.ベースコーラを漸進的に訓練するコンピュータ実装方法であって、
単一オリゴ塩基配列を含む検体でベースコーラを反復的に最初に訓練し、最初に訓練されたベースコーラを使用して標識された訓練データを生成することと、
(i)特定の長さの検体及び/又は特定の数の塩基配列若しくは塩基部分配列をその中に含む検体を用いてベースコーラを更に訓練し、更に訓練されたベースコーラを使用して標識された訓練データを生成することと、
(i)各反復で、(a)検体内の塩基配列又は塩基部分配列の長さ及び/又は数を単調に増加させ、かつ(b)ベースコーラ内にロードされるニューラルネットワーク構成の複雑度を単調に増加させる一方で、ステップ(i)を繰り返すことによってベースコーラを更に訓練することと、を含み、反復中に生成された標識された訓練データを使用して、直後の反復中にベースコーラを訓練する、コンピュータ実装方法。
C2.単一オリゴ塩基配列を含む検体を用いてベースコーラを反復的に最初に訓練することが、
ベースコーラの最初の訓練の反復中に、
既知の単一オリゴ塩基配列を、フローセルの複数のクラスタ内にロードすることと、
複数のクラスタの各クラスタについて、既知の単一オリゴ塩基配列に対応するベースコールを予測することと
複数のクラスタの各クラスタについて、対応する予測されたベースコールを既知の単一オリゴ配列の塩基と比較することに基づいて、対応する誤差信号を生成し、それによって、複数のクラスタに対応する複数の誤差信号を生成することと、
複数の誤差信号に基づいて、ベースコーラを最初に訓練することと、含む、節C1の方法。
C3.ベースコーラを反復的に更に訓練することが、
2つの既知の一意的なオリゴ塩基配列を含む検体を用いて、N1回の反復の間ベースコーラを更に訓練することと、
第1の複数の塩基部分配列に選別された第1の生物塩基配列を含む検体を用いて、N2回の反復の間、ベースコーラを更に訓練することと、
第2の複数の塩基部分配列に選別された第2の生物塩基配列を含む検体を用いて、N3回の反復の間、ベースコーラを更に訓練することと、を含み、
N1回の反復が、N2回の反復の前に行われ、N2回の反復が、N3回の反復の前に行われ、
第2の生物塩基配列が、第1の生物塩基配列よりも塩基数が多い、節C1の方法。
C4.ベースコーラを反復的に更に訓練することが、
3つの既知の一意的なオリゴ塩基配列を含む検体を用いて、N4回の反復のためにベースコーラを更に訓練することと、を含み、
N4回の反復が、N1回の反復を行うこととN2回の反復を行うこととの間に行われる、節C3の方法。
C5.2つの既知の一意的なオリゴ塩基配列を含む検体を用いて、N1回の反復の間ベースコーラを更に訓練することが、
ベースコーラ内にロードされた第1のニューラルネットワーク構成を用いて、N1回の反復の第1のサブセットの間ベースコーラを更に訓練することと、
ベースコーラ内にロードされた第2のニューラルネットワーク構成を用いてN1回の反復の第2のサブセットの間ベースコーラを更に訓練することであって、第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも複雑であり、N1回の反復の第2のサブセットが、N1回の反復の第1のサブセットが発生した後に発生する、更に訓練することと、を含む、節C3の方法。
C6.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも多い数の層を有する、節C5の方法。
C7.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも大きい数の重みを有する、節C5の方法。
C8.第2のニューラルネットワーク構成が、第1のニューラルネットワーク構成よりも多い数のパラメータを有する、節C5の方法。
C9.2つの既知の一意的なオリゴ塩基配列を含む検体を用いてN1回の反復の間ベースコーラを更に訓練することが、N1回の反復のうちの1回の反復の間、
(i)フローセルの第1の複数のクラスタに、2つの既知の一意的なオリゴ塩基配列のうちの第1の既知のオリゴ塩基配列を、かつ(ii)フローセルの第2の複数のクラスタに、2つの既知のユニークなオリゴ塩基配列のうちの第2の既知のオリゴ塩基配列を投入することと、
第1及び第2の複数のクラスタの各クラスタについて、複数の予測されたベースコールが生成されるように、対応するベースコールを予測することと、
(i)複数の予測されたベースコールのうちの第1の予測されたベースコールを第1の既知のオリゴ塩基配列に、かつ(ii)複数の予測されたベースコールのうちの第2の予測されたベースコールを第2の既知のオリゴ塩基配列にマッピングする一方で、複数の予測されたベースコールのうちの第3の予測されたベースコールを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、
(i)第1の予測されたベースコールを第1の既知のオリゴ塩基配列と比較することに基づいて、第1の誤差信号、及び(ii)第2の予測されたベースコールを第2の既知のオリゴ塩基配列と比較することに基づいて、第2の誤差信号を生成することと、
第1及び第2の誤差信号に基づいて、ベースコーラを更に訓練することと、を含む、節C3の方法。
C10.第1の予測されたベースコールを2つの既知の一意的なオリゴ塩基配列の第1の既知のオリゴ塩基配列にマッピングすることが、
第1の予測されたベースコールの各塩基を、第1及び第2の既知のオリゴ塩基配列の対応する塩基と比較することと、
第1の予測されたベースコールが、第1の既知のオリゴ塩基配列と少なくとも閾値数の塩基の類似性を有し、第2の既知のオリゴ塩基配列と閾値数未満の塩基の類似性を有すると判定することと、
第1の予測されたベースコールが、第1の既知のオリゴ塩基配列と少なくとも閾値数の塩基の類似性を有すると判定することに基づいて、第1の予測されたベースコールを第1の既知のオリゴ塩基配列にマッピングすることと、を含む、節C9の方法。
C11.第3の予測されたベースコールを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることが、
第1の予測されたベースコールの各塩基を、第1及び第2の既知のオリゴ塩基配列の対応する塩基と比較することと、
第1の予測されたベースコールが、第1及び第2の既知のオリゴ塩基配列の各々と閾値数未満の塩基の類似性を有すると判定することと、
第1の予測されたベースコールが、第1及び第2の既知のオリゴ塩基配列の各々と閾値数未満の塩基の類似性を有すると判定することに基づいて、第3の予測されたベースコールを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、を含む、節C9の方法。
C12.第3の予測されたベースコールを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることが、
第1の予測されたベースコールの各塩基を、第1及び第2の既知のオリゴ塩基配列の対応する塩基と比較することと、
第1の予測されたベースコールが、第1及び第2の既知のオリゴ塩基配列の各々と閾値数を超える塩基の類似性を有すると判定することと、
第1の予測されたベースコールが、第1及び第2の既知のオリゴ塩基配列の各々と閾値数を超える塩基の類似性を有すると判定することに基づいて、第3の予測されたベースコールを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、を含む、節C9の方法。
C13.N1回の反復のうちの1回の反復の間に更なる訓練されたベースコーラを使用して標識された訓練データを生成することが、
N1回の反復のうちの1回の反復中にベースコーラを更に訓練した後に、第1及び第2の複数のクラスタの各クラスタについて、別の複数の予測されたベースコールが生成されるように、対応するベースコールを再予測することと、
(i)他の複数の予測されたベースコールの第1のサブセットを第1の既知のオリゴ塩基配列に、かつ(ii)他の複数の予測されたベースコールの第2のサブセットを第2の既知のオリゴ塩基配列に再マッピングする一方で、他の複数の予測されたベースコールの第3のサブセットを第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、
標識された訓練データが、(i)記他の複数の予測されたベースコールの第1のサブセットであって、第1の既知のオリゴ塩基配列が他の複数の予測されたベースコールの第1のサブセットに対するグラウンドトゥルースデータを形成する、第1のサブセット、及び(ii)他の複数の予測されたベースコールの第2のサブセットであって、第2の既知のオリゴ塩基配列が他の複数の予測されたベースコールの第2のサブセットに対するグラウンドトゥルースデータを形成する、第2のサブセットを含むように、再マッピングに基づいて標識された訓練データを生成することと、を含む、節C9の方法。
C14.N1回の反復のうちの1回の反復中に生成された標識された訓練データが、N1回の反復のうちの直後の反復中にベースコーラを訓練するために使用される、
節C13の方法。
C15.ベースコーラのニューラルネットワーク構成が、N1回の反復のうちの1回の反復中と、N1回の反復のうちの直後の反復中とで同じである、
節C14の方法。
C16.N1回の反復のうちの直後の反復中のベースコーラのニューラルネットワーク構成が、N1回の反復のうちの1回の反復中のベースコーラのニューラルネットワーク構成とは異なり、より複雑である、
節C14の方法。
C17.N2回の反復の間ベースコーラを更に訓練することが、
(i)フローセルの複数のクラスタのうちの第1のクラスタに、第1の生物の第1の複数の塩基部分配列のうちの第1の塩基部分配列を、(ii)フローセルの複数のクラスタのうちの第2のクラスタに、第1の生物の第1の複数の塩基部分配列のうちの第2の塩基部分配列を、かつ(iii)フローセルの複数のクラスタのうちの第3のクラスタに、第1の生物の第1の複数の塩基部分配列のうちの第3の塩基部分配列を投入することと、
(i)第1のクラスタに投入された塩基部分配列を示す第1のクラスタからの第1の配列信号、(ii)第2のクラスタに投入された塩基部分配列を示す第2のクラスタからの第2の配列信号、及び(iii)第3のクラスタに投入された塩基部分配列を示す第3のクラスタからの第3の配列信号を受信することと、
(i)第1の配列信号に基づいて、第1の予測された塩基部分配列を、(ii)第2の配列信号に基づいて、第2の予測された塩基部分配列を、かつ(iii)第3の配列信号に基づいて、第3の予測された塩基部分配列を生成することと、
(i)第1の予測された塩基部分配列を、第1の生物塩基配列の第1のセクションと、かつ(ii)第2の予測された塩基部分配列を、第1の生物塩基配列の第2のセクションとマッピングする一方で、第3の予測された塩基部分配列を、第1の生物塩基配列のいずれのセクションともマッピングしないことと、
(i)第1の生物塩基配列の第1のセクションにマッピングされた第1の予測された塩基部分配列であって、第1の生物塩基配列の第1のセクションが、第1の予測された塩基部分配列のグラウンドトゥルースである、第1の予測された塩基部分配列、及び(ii)第1の生物塩基配列の第2のセクションにマッピングされた第2の予測された塩基部分配列であって、第1の生物塩基配列の第2のセクションが、第2の予測された塩基部分配列のグラウンドトゥルースである、第2の予測された塩基部分配列を含む、標識された訓練データを生成することと、を含む、節C3の方法。
C18.第1の予測された塩基部分配列が、L1個の塩基を有し、
第1の予測された塩基部分配列のL1個の塩基のうちの1つ以上の塩基が、ベースコーラによるベースコーリング予測における誤差に起因して、第1の生物塩基配列の第1のセクションの対応する塩基と一致しない、
節C17の方法。
C19.第1の予測された塩基部分配列がL1個の塩基を有し、第1の予測された塩基部分配列のL1個の塩基が、最初のL2個の塩基と、それに続く後続のL3個の塩基とを含み、第1の予測された塩基部分配列を第1の生物塩基配列の第1のセクションとマッピングすることが、
第1の予測された塩基配列の最初のL2個の塩基を、第1の生物塩基配列の連続するL2個の塩基と実質的かつ一意的に一致させることと、
第1の生物塩基配列の第1のセクションを、第1のセクションが、(i)連続するL2個の塩基を最初の塩基として含み、かつ(ii)L1個の塩基を含むように同定することと、
第1の予測された塩基部分配列を、第1の生物塩基配列の第1のセクションとマッピングすることと、を含む、節C18の方法。
C20.第1の予測された塩基配列の最初のL2個の塩基を実質的かつ一意的に一致させる一方で、第1の予測された塩基配列の後続のL3個の塩基を第1の生物塩基配列のいずれかの塩基と一致させることをめざすことを控えることを更に含む、C19の方法。
C21.第1の予測された塩基配列の最初のL2個の塩基が、第1の生物塩基配列の連続するL2個の塩基と実質的に一致し、それによって、第1の予測された塩基配列の最初のL2個の塩基の少なくとも閾値数の塩基が、第1の生物塩基配列の連続するL2個の塩基と一致する、
C19の方法。
C22.第1の予測された塩基配列の最初のL2個の塩基が、第1の生物塩基配列の連続するL2個の塩基と一意的に一致し、それによって、第1の予測された塩基配列の最初のL2個の塩基が、第1の生物塩基配列の連続するL2個の塩基のみと実質的に一致し、第1の生物塩基配列の他の連続するL2個の塩基とは一致しない、C19の方法。
C23.第3の予測された塩基部分配列がL1個の塩基を有し、第3の予測された塩基部分配列と、第1の複数の塩基部分配列の塩基部分配列のいずれかとのマッピングしないことが、
(i)第3の予測された塩基配列のL1個の塩基のうちの最初のL2個の塩基を、第1の生物塩基配列の連続するL2個の塩基と実質的かつ一意的に一致させないことを含む、節C17の方法。
我々は以下のように特許請求する。
100 バイオセンサ
101 励起光
102 フローセル
104 サンプリングデバイス
106 センサ
106’ ピクセル領域
108 センサ
108’ ピクセル領域
110 センサ
110’ ピクセル領域
112 センサ
112’ ピクセル領域
114 クラスタ対
120 基材層
121 基材層
122 基材層
123 基材層
124 基材層
125 基材層
126 基材層
130 導電ビア
132 電気接点
134 サンプル表面
136 フローカバー
138 側壁
142 出口ポート
144 フローチャネル
146 出口ポート
200 フローセル
202 レーン
208 セクション
212 タイル
216 クラスタ
304 クラスタ
400 配列決定マシン
401 フローセル
402 CPU
403 メモリ
404 メモリ
405 バス
450 プロセッサ
451 データフロー論理
452 ベースコール実行論理
454 データフロー経路
455 制御経路
460 メモリ
461 バス
500 ライン
501 画像処理スレッド
502 ライン
503 高速バス
504 データキャッシュ
505 高速バス
510 ディスパッチ論理
511 ライン
512 ライン
520 マルチクラスタニューラルネットワークプロセッサハードウェア
601 クラスタ
602 DRAM
609 CPU通信リンク
610 DRAM通信リンク
615 プロセスデータ
700 パッチ
701 スタック
702 スタック
703 スタック
704 スタック
705 スタック
710 層
711 層
712 層
713 層
714 層
715 層
716 層
720 逆階層
721 時間層
722 時間層
723 時間層
740 ソフトマックス関数
750 ベースコール確率
1400 ベースコーリングシステム
1404 配列決定マシン
1405 フローセル
1406 グラウンドトゥルース
1407 クラスタ
1412 配列信号
1413 比較動作
1413 動作
1414 ベースコーラ
1415 ニューラルネットワーク(neural network、NN)構成
1416 マッピングロジック
1417 勾配更新
1418 ベースコール配列
1501 オリゴ
1506 グラウンドトゥルース
1510 オリゴ
1512 配列信号
1518 ベースコール配列
1550 訓練データ
1613 比較関数
1615 ニューラルネットワーク構成
1617 勾配更新
1618 ベースコール配列
1628 ベースコール配列
1638 ベースコール配列
2000 生物配列
2004 部分配列
2012 配列信号
2015 第1の生物レベルニューラルネットワーク構成
2018 ベースコール配列
2400 ベースコールシステム
2402 バイオセンサ
2404 システムコントローラ
2406 流体制御システム
2408 流体貯蔵システム
2409 照明システム
2410 温度制御システム
2412 インターフェース
2413 ディスプレイ
2414 ユーザインターフェース
2415 ユーザ入力デバイス
2416 ハウジング
2520 通信ポート
2530 主制御モジュール
2531 流体制御モジュール
2532 流体貯蔵モジュール
2533 温度制御モジュール
2534 デバイスモジュール
2535 識別モジュール
2536 配列決定(sequencing-by-synthesis、SBS)モジュール
2537 増幅モジュール
2538 分析モジュール
2539 照明モジュール
2548 テンプレート発生器
2558 ベースコーラ
2600 コンピュータシステム
2610 記憶サブシステム
2622 メモリサブシステム
2632 専用メモリ(read only memory、ROM)
2634 メインランダムアクセスメモリ(random access memory、RAM)
2636 ファイル記憶サブシステム
2638 ユーザインターフェース入力デバイス
2655 バスサブシステム
2672 中央処理ユニット(CPU)
2674 ネットワークインターフェースサブシステム
2676 ユーザインターフェース出力デバイス
2678 深層学習プロセッサ

Claims (33)

  1. ベースコーラを漸進的に訓練するコンピュータ実装方法であって、
    単一オリゴ塩基配列を含む検体でベースコーラを反復的に最初に訓練し、前記最初に訓練されたベースコーラを使用して標識された訓練データを生成することと、
    (i)マルチオリゴ塩基配列を含む検体を用いて前記ベースコーラを更に訓練し、前記更に訓練されたベースコーラを使用して標識された訓練データを生成することと、
    少なくとも1回の反復中に、前記ベースコーラ内にロードされたニューラルネットワーク構成の複雑度を増加させながら、ステップ(i)を繰り返すことによって前記ベースコーラを更に訓練することと、を含み、反復中に生成された標識された訓練データが、直後の反復中に前記ベースコーラを訓練するために使用される、コンピュータ実装方法。
  2. マルチオリゴ塩基配列を含む検体を用いて前記ベースコーラを更に訓練する少なくとも1回の反復中に、前記検体内で、前記マルチオリゴ塩基配列の一意的なオリゴ塩基配列の数を増加させることを更に含む、請求項1に記載の方法。
  3. 前記単一オリゴ塩基配列を含む前記検体を用いて前記ベースコーラを反復的に最初に訓練することが、
    前記ベースコーラの前記最初の訓練の第1の反復中に、
    既知の単一オリゴ塩基配列を、フローセルの複数のクラスタに投入することと、
    前記複数のクラスタに対応する複数の配列信号を生成することであって、前記複数の配列信号の各配列信号が、前記複数のクラスタのうちの対応するクラスタにロードされた塩基配列を表す、生成することと、
    前記複数の配列信号の各配列信号に基づいて、前記既知の単一オリゴ塩基配列に対する対応するベースコールを予測し、それによって複数の予測されたベースコールを生成することと、
    前記複数の配列信号の各配列信号について、(i)対応する予測されたベースコールと(ii)前記既知の単一オリゴ塩基配列の前記塩基との比較に基づいて、対応する誤差信号を生成し、それによって、前記複数の配列信号に対応する複数の誤差信号を生成することと、
    前記複数の誤差信号に基づいて、前記第1の反復中に前記ベースコーラを最初に訓練することと、を含む、請求項1又は2に記載の方法。
  4. 前記第1の反復中に前記ベースコーラを最初に訓練することが、
    前記ベースコーラにロードされたニューラルネットワーク構成の逆伝搬経路を使用して、前記複数の誤差信号に基づいて、前記ニューラルネットワーク構成の重み及び/又はバイアスを更新すること、を含む、請求項3に記載の方法。
  5. 前記単一オリゴ塩基配列を含む前記検体を用いて前記ベースコーラを反復的に最初に訓練することが、
    前記最初の訓練の前記第1の反復の後に行われる前記ベースコーラの前記最初の訓練の第2の反復中に、
    前記最初の訓練の前記第1の反復中に部分的に訓練された前記ベースコーラを使用して、前記複数の配列信号の各配列信号に基づいて、前記既知の単一オリゴ塩基配列に対する対応する更なるベースコールを予測し、それによって、複数の更なる予測されたベースコールを生成することと、
    前記複数の配列信号の各配列信号について、(i)対応する更なる予測されたベースコールと(ii)前記既知の単一オリゴ塩基配列の前記塩基との比較に基づいて、対応する更なる誤差信号を生成し、それによって、前記複数の配列信号に対応する複数の更なる誤差信号を生成することと、
    前記複数の更なる誤差信号に基づいて、前記第2の反復中に前記ベースコーラを更に最初に訓練することと、を更に含む、請求項1~4のいずれか一項に記載の方法。
  6. 前記単一オリゴ塩基配列を含む前記検体を用いて前記ベースコーラを反復的に最初に訓練することが、
    収束条件が満たされるまで、複数のインスタンスについて、前記単一オリゴ塩基配列を含む検体を用いて前記ベースコーラの前記最初の訓練の前記第2の反復を繰り返すこと、を含む、請求項5に記載の方法。
  7. 前記収束条件が、前記ベースコーラの前記最初の訓練の前記第2の反復の2つの連続する反復の間に、前記複数の更なる誤差信号の減少が閾値未満である場合に満たされる、請求項6に記載の方法。
  8. 前記収束条件が、前記ベースコーラの前記最初の訓練の前記第2の反復が、少なくとも閾値数のインスタンスについて繰り返される場合に、満たされる、請求項6又は7に記載の方法。
  9. 前記ベースコーラの前記最初の訓練の前記第1の反復中に生成された、前記複数のクラスタに対応する前記複数の配列信号が、前記ベースコーラの前記最初の訓練の前記第2の反復のために再使用される、請求項3~8のいずれか一項に記載の方法。
  10. (i)前記対応する予測されたベースコールと、(ii)前記既知の単一オリゴ配列の前記塩基と、を比較することが、
    第1の予測されたベースコールについて、(i)前記第1の予測されたベースコールの第1の塩基を、前記既知の単一オリゴ配列の第1の塩基と比較し、(ii)前記第1の予測されたベースコールの第2の塩基を、前記既知の単一オリゴ配列の第2の塩基と比較して、対応する第1の誤差信号を生成すること、を含む、請求項3~9のいずれか一項に記載の方法。
  11. 前記ベースコーラを反復的に更に訓練することが、
    2つの既知の一意的なオリゴ塩基配列を含む検体を用いて、N1回の反復の間前記ベースコーラを更に訓練することと、
    3つの既知の一意的なオリゴ塩基配列を含む検体を用いて、N2回の反復の間前記ベースコーラを更に訓練することと、を含み、
    前記N1回の反復が、前記N2回の反復の前に行われる、請求項1~10のいずれか一項に記載の方法。
  12. 前記単一オリゴ塩基配列を含む前記検体を用いて前記ベースコーラを反復的に最初に訓練する間に、第1のニューラルネットワーク構成が前記ベースコーラ内にロードされ、前記ベースコーラを反復的に更に訓練することが、
    2つの既知の一意的なオリゴ塩基配列を含む検体を用いて、N1回の反復の間前記ベースコーラを更に訓練することを含み、それによって、
    (i)前記N1回の反復の第1のサブセットの間、第2のニューラルネットワーク構成が前記ベースコーラ内にロードされ、
    (ii)前記N1回の反復の前記第1のサブセットの後に生じる前記N1回の反復の第2のサブセットの間、第3のニューラルネットワーク構成がベースコーラ内にロードされ、前記第1、第2、及び第3のニューラルネットワーク構成が互いに異なる、請求項1~11のいずれか一項に記載の方法。
  13. 前記第2のニューラルネットワーク構成が、前記第1のニューラルネットワーク構成よりも複雑であり、前記第3のニューラルネットワーク構成が、前記第2のニューラルネットワーク構成よりも複雑である、請求項12に記載の方法。
  14. 前記第2のニューラルネットワーク構成が、前記第1のニューラルネットワーク構成よりも多い数の層を有する、請求項12又は13に記載の方法。
  15. 前記第2のニューラルネットワーク構成が、前記第1のニューラルネットワーク構成よりも大きい数の重みを有する、請求項12~14のいずれか一項に記載の方法。
  16. 前記第2のニューラルネットワーク構成が、前記第1のニューラルネットワーク構成よりも多い数のパラメータを有する、請求項12~15のいずれか一項に記載の方法。
  17. 前記第3のニューラルネットワーク構成が、前記第2のニューラルネットワーク構成よりも多い数の層を有する、請求項12~16のいずれか一項に記載の方法。
  18. 前記第3のニューラルネットワーク構成が、前記第2のニューラルネットワーク構成よりも大きい数の重みを有する、請求項12~17のいずれか一項に記載の方法。
  19. 前記第3のニューラルネットワーク構成が、前記第2のニューラルネットワーク構成よりも多い数のパラメータを有する、請求項12~18のいずれか一項に記載の方法。
  20. 2つの既知の一意的なオリゴ塩基配列を含む前記検体を用いて前記N1回の反復の間前記ベースコーラを更に訓練することが、前記N1回の反復のうちの1回の反復の間、
    (i)フローセルの第1の複数のクラスタに、前記2つの既知の一意的なオリゴ塩基配列のうちの第1の既知のオリゴ塩基配列を、かつ(ii)前記フローセルの第2の複数のクラスタに、前記2つの既知の一意的なオリゴ塩基配列のうちの第2の既知のオリゴ塩基配列を投入することと、
    前記第1及び第2の複数のクラスタの各クラスタについて、複数の予測されたベースコールが生成されるように、対応するベースコールを予測することと、
    (i)前記複数の予測されたベースコールのうちの第1の予測されたベースコールを前記第1の既知のオリゴ塩基配列に、かつ(ii)前記複数の予測されたベースコールのうちの第2の予測されたベースコールを前記第2の既知のオリゴ塩基配列にマッピングする一方で、前記複数の予測されたベースコールのうちの第3の予測されたベースコールを前記第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、
    (i)前記第1の予測されたベースコールを前記第1の既知のオリゴ塩基配列と比較することに基づいて、第1の誤差信号、及び(ii)前記第2の予測されたベースコールを前記第2の既知のオリゴ塩基配列と比較することに基づいて、第2の誤差信号を生成することと、
    前記第1及び第2の誤差信号に基づいて、前記ベースコーラを更に訓練することと、を含む、請求項11~19のいずれか一項に記載の方法。
  21. 前記第1の予測されたベースコールを前記2つの既知の一意的なオリゴ塩基配列の前記第1の既知のオリゴ塩基配列にマッピングすることが、
    前記第1の予測されたベースコールの各塩基を、前記第1及び第2の既知のオリゴ塩基配列の対応する塩基と比較することと、
    前記第1の予測されたベースコールが、前記第1の既知のオリゴ塩基配列と少なくとも閾値数の塩基の類似性を有し、前記第2の既知のオリゴ塩基配列と前記閾値数未満の塩基の類似性を有すると判定することと、
    前記第1の予測されたベースコールが、前記第1の既知のオリゴ塩基配列と前記少なくとも閾値数の塩基の類似性を有すると判定することに基づいて、前記第1の予測されたベースコールを前記第1の既知のオリゴ塩基配列にマッピングすることと、を含む、請求項20に記載の方法。
  22. 前記第3の予測されたベースコールを前記第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることが、
    前記第1の予測されたベースコールの各塩基を、前記第1及び第2の既知のオリゴ塩基配列の対応する塩基と比較することと、
    前記第1の予測されたベースコールが、前記第1及び第2の既知のオリゴ塩基配列の各々と閾値数未満の塩基の類似性を有すると判定することと、
    前記第1の予測されたベースコールが、前記第1及び第2の既知のオリゴ塩基配列の各々と前記閾値数未満の塩基の類似性を有すると判定することに基づいて、前記第3の予測されたベースコールを前記第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、を含む、請求項20又は21に記載の方法。
  23. 前記第3の予測されたベースコールを前記第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることが、
    前記第1の予測されたベースコールの各塩基を、前記第1及び第2の既知のオリゴ塩基配列の対応する塩基と比較することと、
    前記第1の予測されたベースコールが、前記第1及び第2の既知のオリゴ塩基配列の各々と閾値数を超える塩基の類似性を有すると判定することと、
    前記第1の予測されたベースコールが、前記第1及び第2の既知のオリゴ塩基配列の各々と前記閾値数を超える塩基の類似性を有すると判定することに基づいて、前記第3の予測されたベースコールを前記第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、を含む、請求項20~22のいずれか一項に記載の方法。
  24. 前記N1回の反復のうちの前記1回の反復の間前記更に訓練されたベースコーラを使用して、標識された訓練データを生成することが、
    前記N1回の反復のうちの前記1回の反復中に前記ベースコーラを更に訓練した後に、前記第1及び第2の複数のクラスタの各クラスタについて、別の複数の予測されたベースコールが生成されるように、対応するベースコールを再予測することと、
    (i)前記他の複数の予測されたベースコールの第1のサブセットを前記第1の既知のオリゴ塩基配列に、かつ(ii)前記他の複数の予測されたベースコールの第2のサブセットを前記第2の既知のオリゴ塩基配列に再マッピングする一方で、前記他の複数の予測されたベースコールの第3のサブセットを前記第1又は第2の既知のオリゴ塩基配列のいずれかにマッピングすることを控えることと、
    前記標識された訓練データが、(i)前記他の複数の予測されたベースコールの前記第1のサブセットであって、前記第1の既知のオリゴ塩基配列が前記他の複数の予測されたベースコールの前記第1のサブセットに対するグラウンドトゥルースデータを形成する、前記第1のサブセット、及び(ii)前記他の複数の予測されたベースコールの前記第2のサブセットであって、前記第2の既知のオリゴ塩基配列が前記他の複数の予測されたベースコールの前記第2のサブセットに対する前記グラウンドトゥルースデータを形成する、前記第2のサブセットを含むように、前記再マッピングに基づいて標識された訓練データを生成することと、を含む、請求項20~23のいずれか一項に記載の方法。
  25. 前記N1回の反復のうちの前記1回の反復中に生成された前記標識された訓練データが、前記N1回の反復のうちの直後の反復中に前記ベースコーラを訓練するために使用される、請求項24に記載の方法。
  26. 前記ベースコーラの前記ニューラルネットワーク構成が、前記N1回の反復のうちの前記1回の反復中と、前記N1回の反復のうちの前記直後の反復中とで同じである、請求項25に記載の方法。
  27. 前記N1回の反復のうちの前記直後の反復中の前記ベースコーラのニューラルネットワーク構成が、前記N1回の反復のうちの前記1回の反復中の前記ベースコーラのニューラルネットワーク構成とは異なり、より複雑である、請求項25又は26に記載の方法。
  28. 前記ベースコーラを反復的に更に訓練することが、
    前記反復的な更なる訓練の間の前記反復の進行とともに、前記マルチオリゴ塩基配列を含む前記検体中の一意的なオリゴ塩基配列の数を単調に増加させること、を含む、請求項1~27のいずれか一項に記載の方法。
  29. ベースコーラを使用して、オリゴの既知の配列を有するように配列決定された未知の検体についてのベースコール配列を予測することと、
    前記未知の検体の各々を、前記既知の配列に一致するグラウンドトゥルース配列で標識することと、
    前記標識された未知の検体を使用して、前記ベースコーラを訓練することと、を含む、コンピュータ実装方法。
  30. 収束が満足するまで、前記使用すること、前記標識すること、及び前記訓練することを繰り返すことを更に含む、請求項29に記載のコンピュータ実装方法。
  31. ベースコーラを使用して、2つ以上のオリゴの2つ以上の既知の配列を有するように配列決定された未知の検体の集団についてのベースコール配列を予測することと、
    選別された未知の検体のベースコール配列の前記既知の配列への分類に基づいて、前記未知の検体の集団から未知の検体を選別することと、
    前記分類に基づいて、前記選別された未知の検体のそれぞれのサブセットを、前記既知の配列にそれぞれ一致するそれぞれのグラウンドトゥルース配列で標識することと、
    前記選別された未知の検体の前記標識されたそれぞれのサブセットを使用して、前記ベースコーラを訓練することと、を含む、コンピュータ実装方法。
  32. 収束が満足するまで、前記使用すること、前記選別すること、前記標識すること、及び前記訓練することを繰り返すことを更に含む、請求項31に記載のコンピュータ実装方法。
  33. ベースコーラを漸進的に訓練するためにコンピュータプログラム命令が記憶された非一時的コンピュータ可読記憶媒体であって、前記命令が、プロセッサ上で実行されると、
    単一オリゴ塩基配列を含む検体でベースコーラを反復的に最初に訓練し、前記最初に訓練されたベースコーラを使用して標識された訓練データを生成することと、
    (i)マルチオリゴ塩基配列を含む検体を用いて前記ベースコーラを更に訓練し、前記更に訓練されたベースコーラを使用して標識された訓練データを生成することと、
    少なくとも1回の反復中に、前記ベースコーラ内にロードされたニューラルネットワーク構成の複雑度を増加させながら、ステップ(i)を繰り返すことによって前記ベースコーラを更に訓練することと、を含み、反復中に生成された標識された訓練データが、直後の反復中に前記ベースコーラを訓練するために使用される、非一時的コンピュータ可読記憶媒体。
JP2023579783A 2021-06-29 2022-06-29 オリゴ配列を使用して訓練された自己学習ベースコーラ Pending JP2024527306A (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US202163216404P 2021-06-29 2021-06-29
US202163216419P 2021-06-29 2021-06-29
US63/216,419 2021-06-29
US63/216,404 2021-06-29
US17/830,287 2022-06-01
US17/830,287 US20220415445A1 (en) 2021-06-29 2022-06-01 Self-learned base caller, trained using oligo sequences
US17/830,316 2022-06-01
US17/830,316 US20230026084A1 (en) 2021-06-29 2022-06-01 Self-learned base caller, trained using organism sequences
PCT/US2022/035564 WO2023278608A1 (en) 2021-06-29 2022-06-29 Self-learned base caller, trained using oligo sequences

Publications (1)

Publication Number Publication Date
JP2024527306A true JP2024527306A (ja) 2024-07-24

Family

ID=82748504

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2023579784A Pending JP2024528510A (ja) 2021-06-29 2022-06-29 生物配列を使用して訓練された自己学習ベースコーラ
JP2023579783A Pending JP2024527306A (ja) 2021-06-29 2022-06-29 オリゴ配列を使用して訓練された自己学習ベースコーラ

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2023579784A Pending JP2024528510A (ja) 2021-06-29 2022-06-29 生物配列を使用して訓練された自己学習ベースコーラ

Country Status (6)

Country Link
EP (2) EP4364155A1 (ja)
JP (2) JP2024528510A (ja)
KR (2) KR20240027599A (ja)
AU (2) AU2022300970A1 (ja)
CA (2) CA3224387A1 (ja)
WO (2) WO2023278608A1 (ja)

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
US5641658A (en) 1994-08-03 1997-06-24 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid with two primers bound to a single solid support
US6090592A (en) 1994-08-03 2000-07-18 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid on supports
EP3034626A1 (en) 1997-04-01 2016-06-22 Illumina Cambridge Limited Method of nucleic acid sequencing
WO1998044152A1 (en) 1997-04-01 1998-10-08 Glaxo Group Limited Method of nucleic acid sequencing
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
AU2001282881B2 (en) 2000-07-07 2007-06-14 Visigen Biotechnologies, Inc. Real-time sequence determination
WO2002044425A2 (en) 2000-12-01 2002-06-06 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
AR031640A1 (es) 2000-12-08 2003-09-24 Applied Research Systems Amplificacion isotermica de acidos nucleicos en un soporte solido
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US20040002090A1 (en) 2002-03-05 2004-01-01 Pascal Mayer Methods for detecting genome-wide sequence variations associated with a phenotype
SI3363809T1 (sl) 2002-08-23 2020-08-31 Illumina Cambridge Limited Modificirani nukleotidi za polinukleotidno sekvenciranje
PT3147292T (pt) 2002-08-23 2018-11-22 Illumina Cambridge Ltd Nucleótidos identificados
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP2789383B1 (en) 2004-01-07 2023-05-03 Illumina Cambridge Limited Molecular arrays
EP3415641B1 (en) 2004-09-17 2023-11-01 Pacific Biosciences Of California, Inc. Method for analysis of molecules
EP1828412B2 (en) 2004-12-13 2019-01-09 Illumina Cambridge Limited Improved method of nucleotide detection
JP4990886B2 (ja) 2005-05-10 2012-08-01 ソレックサ リミテッド 改良ポリメラーゼ
US8045998B2 (en) 2005-06-08 2011-10-25 Cisco Technology, Inc. Method and system for communicating using position information
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
GB0517097D0 (en) 2005-08-19 2005-09-28 Solexa Ltd Modified nucleosides and nucleotides and uses thereof
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
GB0522310D0 (en) 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
EP2021503A1 (en) 2006-03-17 2009-02-11 Solexa Ltd. Isothermal methods for creating clonal single molecule arrays
EP4105644A3 (en) 2006-03-31 2022-12-28 Illumina, Inc. Systems and devices for sequence by synthesis analysis
US20080242560A1 (en) 2006-11-21 2008-10-02 Gunderson Kevin L Methods for generating amplified nucleic acid arrays
US7595882B1 (en) 2008-04-14 2009-09-29 Geneal Electric Company Hollow-core waveguide-based raman systems and methods
US8965076B2 (en) 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
PT3623481T (pt) 2011-09-23 2021-10-15 Illumina Inc Composições para sequenciação de ácidos nucleicos
EP3084002A4 (en) * 2013-12-16 2017-08-23 Complete Genomics, Inc. Basecaller for dna sequencing using machine learning

Also Published As

Publication number Publication date
JP2024528510A (ja) 2024-07-30
WO2023278609A1 (en) 2023-01-05
WO2023278608A1 (en) 2023-01-05
AU2022300970A1 (en) 2024-01-18
KR20240027608A (ko) 2024-03-04
CA3224387A1 (en) 2023-01-05
AU2022302056A1 (en) 2024-01-18
EP4364150A1 (en) 2024-05-08
CA3224382A1 (en) 2023-01-05
KR20240027599A (ko) 2024-03-04
EP4364155A1 (en) 2024-05-08

Similar Documents

Publication Publication Date Title
EP4107737B1 (en) Knowledge distillation and gradient pruning-based compression of artificial intelligence-based base caller
US20220301657A1 (en) Tile location and/or cycle based weight set selection for base calling
US20230343414A1 (en) Sequence-to-sequence base calling
JP2023515108A (ja) 人工知能ベースの多対多ベースコール
JP2024532049A (ja) ベースコールシステムの品質スコア較正
US20230041989A1 (en) Base calling using multiple base caller models
JP2024527306A (ja) オリゴ配列を使用して訓練された自己学習ベースコーラ
US20220415445A1 (en) Self-learned base caller, trained using oligo sequences
US20230026084A1 (en) Self-learned base caller, trained using organism sequences
US20230029970A1 (en) Quality score calibration of basecalling systems
CN117546249A (zh) 使用寡核苷酸序列训练的自学碱基检出器
JP2024510539A (ja) ベースコールのためのタイル位置及び/又はサイクルベースの重みセット選択
JP2024529843A (ja) 複数のベースコーラモデルを使用するベースコール
WO2022197752A1 (en) Tile location and/or cycle based weight set selection for base calling
CN117529780A (zh) 碱基检出系统的质量分数校准
JP2024532004A (ja) ベースコールのための補間及び適合による強度抽出
CN117546248A (zh) 使用多个碱基检出器模型的碱基检出

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240129