JP2023539544A - 人工知能予測ベースコールに基づいたクラスターの検出及びフィルタリング - Google Patents

人工知能予測ベースコールに基づいたクラスターの検出及びフィルタリング Download PDF

Info

Publication number
JP2023539544A
JP2023539544A JP2022581614A JP2022581614A JP2023539544A JP 2023539544 A JP2023539544 A JP 2023539544A JP 2022581614 A JP2022581614 A JP 2022581614A JP 2022581614 A JP2022581614 A JP 2022581614A JP 2023539544 A JP2023539544 A JP 2023539544A
Authority
JP
Japan
Prior art keywords
cluster
sequencing
clusters
cycle
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022581614A
Other languages
English (en)
Inventor
ドルナ・カシフハギギ
ギャヴィン・デレク・パーナビー
Original Assignee
イルミナ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イルミナ インコーポレイテッド filed Critical イルミナ インコーポレイテッド
Publication of JP2023539544A publication Critical patent/JP2023539544A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7867Architectures of general purpose stored program computers comprising a single central processing unit with reconfigurable architecture
    • G06F15/7871Reconfiguration support, e.g. configuration loading, configuration switching, or hardware OS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Signal Processing (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Image Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

Figure 2023539544000001
開示された技術は、信頼できないクラスターを識別して、ベースコールの精度及び効率を改善することに関する。開示された技術は、複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第1のサブセットに対するサイクルごとのクラスターデータにアクセスすることと、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するサイクルごとの確率四分位数を生成することを含む、配列決定サイクルの第1のサブセット内のそれぞれの配列決定サイクルにおいて複数のクラスターの中のそれぞれのクラスターをベースコールすることと、を含む。開示された技術は、それぞれのクラスターごと、サイクルごとの確率四分位数が識別する確率に基づいて、それぞれのクラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することと、複数のクラスターの中の、フィルタ値の配列が閾値「M」を下回る少なくとも「N」個のフィルタ値を含むクラスターを信頼できないクラスターとして識別することと、配列決定動作の配列決定サイクルの残りにおける信頼できないクラスターのベースコールをバイパスすることと、を含む。

Description

優先権出願
本出願は、2020年8月28日に出願された「DETECTING AND FILTERING CLUSTERS BASED ON ARTIFICIAL INTELLIGENCE-PREDICTED BASE CALLS」と題する米国特許仮出願第63/072,032号(代理人整理番号ILLM1018-1/IP-1860-PRV)の利益を主張する、2021年8月25日に出願された「DETECTING AND FILTERING CLUSTERS BASED ON ARTIFICIAL INTELLIGENCE-PREDICTED BASE CALLS」と題する米国特許第17/411,980号(代理人整理番号ILLM1018-2/IP-1860-US)の優先権を主張する。該優先権出願は、参照により本明細書に組み込まれる。
組み込み
以下は、本明細書に完全に記載されているかのように、全ての目的のために参照により組み込まれる。
2019年3月21日に出願された「Training Data Generation for Artificial Intelligence-Based Sequencing」と題する米国特許仮出願第62/821,602号(代理人整理番号ILLM1008-1/IP-1693-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Generation of Sequencing Metadata」と題する米国特許仮出願第62/821,618号(代理人整理番号ILLM1008-3/IP-1741-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Base Calling」と題する米国特許仮出願第62/821,681号(代理人整理番号ILLM1008-4/IP-1744-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Quality Scoring」と題する米国特許仮出願第62/821,724号(代理人整理番号ILLM1008-7/IP-1747-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Sequencing」と題する米国特許仮出願第62/821,766号(代理人整理番号ILLM1008-9/IP-1752-PRV)、
2019年6月14日に出願された「Training Data Generation for Artificial Intelligence-Based Sequencing」と題する蘭国特許出願第2023310号(代理人整理番号ILLM1008-11/IP-1693-NL)、
2019年6月14日に出願された「Artificial Intelligence-Based Generation of Sequencing Metadata」と題する蘭国特許出願第2023311号(代理人整理番号ILLM1008-12/IP-1741-NL)、
2019年6月14日に出願された「Artificial Intelligence-Based Base Calling」と題する蘭国特許出願第2023312号(代理人整理番号ILLM1008-13/IP-1744-NL)、
2019年6月14日に出願された「Artificial Intelligence-Based Quality Scoring」と題する蘭国特許出願第2023314号(代理人整理番号ILLM1008-14/IP-1747-NL)、
2019年6月14日に出願された「Artificial Intelligence-Based Sequencing」と題する蘭国特許出願第2023316号(代理人整理番号ILLM1008-15/IP-1752-NL)、
2019年5月16日に出願された「Systems and Devices for Characterization and Performance Analysis of Pixel-Based Sequencing」と題する米国特許仮出願第62/849,091号(代理人整理番号ILLM1011-1/IP-1750-PRV)、
2019年5月16日に出願された「Base Calling Using Convolutions」と題する米国特許仮出願第62/849,132号(代理人整理番号ILLM1011-2/IP-1750-PR2)、
2019年5月16日に出願された「Base Calling Using Compact Convolutions」と題する米国特許仮出願第62/849,133号(代理人整理番号ILLM1011-3/IP-1750-PR3)、
2020年2月20日に出願された「Artificial Intelligence-Based Base Calling of Index Sequences」と題する米国特許仮出願第62/979,384号(代理人整理番号ILLM1015-1/IP-1857-PRV)、
2020年2月20日に出願された「Artificial Intelligence-Based Many-To-Many Base Calling」と題する米国特許仮出願第62/979,414号(代理人整理番号ILLM1016-1/IP-1858-PRV)、
2020年2月20日に出願された「Knowledge Distillation-Based Compression of Artificial Intelligence-Based Base Caller」と題する米国特許仮出願第62/979,385号(代理人整理番号ILLM1017-1/IP-1859-PRV)、
2020年2月20日に出願された「Multi-Cycle Cluster Based Real Time Analysis System」と題する米国特許仮出願第62/979,412号(代理人整理番号ILLM1020-1/IP-1866-PRV)、
2020年2月20日に出願された「Data Compression for Artificial Intelligence-Based Base Calling」と題する米国特許仮出願第62/979,411号(代理人整理番号ILLM1029-1/IP-1964-PRV)、及び
2020年2月20日に出願された「Squeezing Layer for Artificial Intelligence-Based Base Calling」と題する米国特許仮出願第62/979,399号(代理人整理番号ILLM1030-1/IP-1982-PRV)。
開示される技術は、人工知能型コンピュータ及びデジタルデータ処理システム、並びに知能(すなわち、知識ベースのシステム、推論システム、及び知識取得システム)を模倣するための対応するデータ処理方法及び製品に関し、不確実性を伴う推論のためのシステム(例えば、ファジーロジックシステム)、適応システム、機械学習システム、及び人工ニューラルネットワークを含む。具体的には、開示される技術は、データを分析するための深層畳み込みニューラルネットワークなどの深層ニューラルネットワークを使用することに関する。
このセクションで考察される主題は、単にこのセクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、このセクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。このセクションの主題は、単に、異なるアプローチを表し、それ自体はまた、特許請求される技術の実施態様に対応し得る。
ベースコールは、リードの位置ごとに塩基及び関連する品質値を割り当てる。配列決定された塩基の品質は、チャスティティフィルタと呼ばれる手順を伴うIlluminaシーケンサによって評価される。チャスティティは、最高強度値を最高強度値と2番目に高い強度値との合計で割ったものとして決定され得る。品質評価は、ベースコールの第1のサブセット内の2番目に悪いチャスティティが閾値未満であるリードを識別することと、それらのリードを不良品質データとしてマーキングすることと、を含み得る。ベースコールの第1のサブセットは、任意の好適な数のベースコールであり得る。例えば、サブセットは、最初の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、又は最初の25ベースコールを超えてもよい。これは、リードフィルタリングと呼ばれる場合があり、そのため、このカットオフを満たすクラスターは、「フィルタを通過」したものと称される。
いくつかの実施態様では、それぞれのクラスターからの信号の純度は、最初の25サイクルにわたって検査され、チャスティティ値として計算される。最大1サイクルはチャスティティ閾値(例えば、0.6)を下回ってもよく、そうでなければ、リードはチャスティティフィルタを通過しない。
Illuminaは、ベースコールのエラー確率の評価を記憶するために使用されるPhredスコアを計算する。Phredスコアは、強度プロファイル(シフトされた純度:最も明るいチャンネルが占めるシグナルの量は?)及び信号対ノイズ比(背景と重なる信号:コロニーからの信号は、フローセルの周辺領域から十分に線引きされているか?)に基づいて計算される。Illuminaは、最も強い塩基信号のチャスティティ、所与のベースコールの信号が近くの塩基の信号よりはるかに強いかどうか、配列決定の過程でコロニーを表すスポットが疑わしいほど曖昧であるかどうか(強度減衰)、並びに先行サイクル及び後続サイクルにおける信号がきれいに見えるかどうかを定量化しようとする。
人工知能予測ベースコールに基づいて、信頼できないクラスターを検出し、フィルタリングする機会が生まれる。結果としてベースコールの精度及び品質が改善され得る。
図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺どおりではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明において、開示された技術の様々な実施態様は、以下の図面を参照して説明される。
開示された技術の様々な態様を示すブロック図である。 例示的なソフトマックス関数を示す。 開示された技術によって生成される例示的なクラスターごと、サイクルごとの確率四分位数を示す。 フィルタ値を使用して信頼できないクラスターを識別する例を示す。 ベースコールdの精度及び効率を改善するために信頼できないクラスターを識別する方法の一実施態様を示すフロー図である。 配列決定システムの一実施態様を示す。配列決定システムは、構成可能なプロセッサを含む。 配列決定システムの一実施態様を示す。配列決定システムは、構成可能なプロセッサを含む。 ベースコールセンサー出力などの、配列決定システムからのセンサーデータの分析のためのシステムの簡略ブロック図である。 ホストプロセッサが、構成可能プロセッサ上で動作するニューラルネットワークによって予測されるベースコールに基づいて信頼できないクラスターをフィルタリングすることを可能にし、更に、構成可能プロセッサが、信頼できないクラスターを識別するデータを使用して信頼できる残りの中間表現を生成することを可能にする、開示されたデータフローロジックの一実施態様を示す。 ホストプロセッサが、構成可能プロセッサ上で動作するニューラルネットワークによって予測されるベースコールに基づいて信頼できないクラスターをフィルタリングすることを可能にし、更に、ホストプロセッサが、信頼できないクラスターを識別するデータを使用して信頼できるクラスターのみをベースコールすることを可能にする、開示されたデータフローロジックの別の実施態様を示す。 ホストプロセッサが、構成可能プロセッサ上で動作するニューラルネットワークによって予測されるベースコールに基づいて信頼できないクラスターをフィルタリングすることを可能にし、更に信頼できないクラスターを識別するデータを使用して、信頼できる残りのクラスターごとのデータを生成する、開示されたデータフローロジックの更に別の実施態様を示す。 本明細書で「DeepRTA」と称される開示された技術と、Real-Time Analysis(RTA)ソフトウェアと呼ばれるIlluminaの従来のベースコーラーとの対比による空のウェル及び非空ウェルの検出の比較分析の結果を示す。 本明細書で「DeepRTA」と称される開示された技術と、Real-Time Analysis(RTA)ソフトウェアと呼ばれるIlluminaの従来のベースコーラーとの対比による空のウェル及び非空ウェルの検出の比較分析の結果を示す。 本明細書で「DeepRTA」と称される開示された技術と、Real-Time Analysis(RTA)ソフトウェアと呼ばれるIlluminaの従来のベースコーラーとの対比による空のウェル及び非空ウェルの検出の比較分析の結果を示す。 本明細書で「DeepRTA」と称される開示された技術と、Real-Time Analysis(RTA)ソフトウェアと呼ばれるIlluminaの従来のベースコーラーとの対比による空のウェル及び非空ウェルの検出の比較分析の結果を示す。 本明細書で「DeepRTA」と称される開示された技術と、Real-Time Analysis(RTA)ソフトウェアと呼ばれるIlluminaの従来のベースコーラーとの対比による空のウェル及び非空ウェルの検出の比較分析の結果を示す。 開示された技術を実装するために使用され得るコンピュータシステムである。
以下の考察は、開示される技術を当業者が作製及び使用することを可能にするために提示され、特定の用途及びその要件に関連して提供される。開示される実施態様に対する様々な修正は、当業者には容易に明らかとなり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、他の実施態様及び用途に適用され得る。したがって、開示される技術は、示される実施態様に限定されることを意図するものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。
本開示は、信頼できないクラスターの検出及びフィルタリングに特に有用な人工知能ベースの画像分析の方法及びシステムを提供する。図1は、例示的なデータ分析及びフィルタリングシステム、並びにその構成要素の一部を示す。システムは、画像生成システム132、サイクルごとのクラスターデータ112、データプロバイダ102、ニューラルネットワークベースのベースコーラー104、確率四分位数106、検出及びフィルタリングロジック146、並びに信頼できないクラスター124を識別するデータを含む。システムは、1つ以上のプログラムされたコンピュータによって形成され得、本明細書に記載される方法の1つ以上の工程を行うために実行されるコードを有するプログラミングが、1つ以上の機械可読媒体上に記憶されている。例えば、図示された実施態様では、システムは、サイクルごとのクラスターデータ112をデジタル画像データ、例えば、一緒にアレイ又は他のオブジェクトの画像を形成する個々の画素又はピクセルを表す画像データとして出力するように構成された画像生成システム132を含む。
(ニューラルネットワークベースのベースコール)
ベースコールは、配列のヌクレオチド組成を決定するプロセスである。ベースコールは、IlluminaのiSeq、HiSeqX、HiSeq3000、HiSeq4000、HiSeq2500、NovaSeq6000、NextSeq550、NextSeq1000、NextSeq2000、NextSeqDx、MiSeq、及びMiSeqDxなどの配列決定機器によって行われる、配列決定反応中に生成された画像データ、すなわち配列決定画像の分析を伴う。以下の説明は、一実施態様に従って、配列決定画像がどのように生成され、それらが何を描写するのかを概説する。
ベースコールは、配列決定機器の生信号、すなわち、配列決定画像から抽出された強度データをヌクレオチド配列にデコードする。一実施態様では、Illuminaプラットフォームは、ベースコールのための環状可逆終端(Cyclic Reversible Termination、CRT)化学を採用する。このプロセスは、新たに添加された各ヌクレオチドの放出信号を追跡しながら、蛍光標識されたヌクレオチドを有するテンプレート鎖に相補的な新生鎖を伸長させることに依存する。蛍光標識されたヌクレオチドは、ヌクレオチド型のフルオロフォア信号をアンカーする3’除去可能ブロックを有する。
配列決定は、反復サイクルで行われ、各々は3つの工程、つまり、(a)蛍光標識されたヌクレオチドを添加することによる出現鎖の伸長と、(b)配列決定機器の光学システムの1以上のレーザを使用してフルオロフォアを励起させ、光学システムの異なるフィルタを通した撮像によって配列決定画像を生成することと、(c)次の配列決定サイクルに備えてフルオロフォアを切断し、3’ブロックを除去することと、の3つの工程を各々含む反復サイクルで行われる。取り込み及び撮像サイクルは、指定された数の配列決定サイクルまで繰り返され、リード長を定義する。このアプローチを使用して、各サイクルはテンプレート鎖に沿って新しい位置を照合する。
Illuminaシーケンサの膨大な能力は、数百万又は更には数十億ものクラスター(例えば、クラスター)のCRT反応を同時に実行及び検知する能力に起因する。クラスターは、テンプレート鎖の約1000個の同一のコピーを含むが、クラスターのサイズ及び形状は様々である。クラスターは、配列決定ラン前に、入力ライブラリのブリッジ増幅又は排除増幅によって、テンプレートストランドから成長させる。増幅及びクラスター伸長の目的は、撮像デバイスが一本鎖のフルオロフォア信号を確実に感知することができないため、放出される信号の強度を増加させることである。しかしながら、クラスター内の鎖の物理的距離は小さいため、撮像デバイスは鎖のクラスターを単一のスポットとして知覚する。
配列決定は、フローセル、つまり入力鎖を保持する小さいガラススライドの中で行われる。フローセルは、顕微鏡撮像、励起レーザ、及び蛍光フィルタを含む光学システムに接続される。フローセルは、レーンと呼ばれる複数のチャンバを含む。レーンは互いに物理的に分離されており、試料の交差汚染なしに区別可能な異なるタグ付き配列決定ライブラリを含むことができる。配列決定機器の撮像デバイス(例えば、電荷結合素子(Charge-Coupled Device、CCD)又は相補的金属酸化物半導体(Complementary Metal-Oxide-Semiconductor、CMOS)センサーなどの固体撮像素子)は、タイルと呼ばれる一連の非重複領域において、レーンに沿った複数の場所でスナップショットを取る。例えば、IlluminaのGenome Analyzer IIにはレーン当たり100個のタイル、IlluminaのHiSeq2000にはレーン当たり68個のタイルが存在する。タイルは数十万~数百万個のクラスターを保持する。
配列決定の出力は、それぞれクラスターの強度放射及びそれらの周囲背景を示す配列決定画像である。配列決定画像は、配列決定中に配列にヌクレオチドを組み込む結果として生成される強度放射を示す。強度放射は、関連するクラスター及びそれらの周囲の背景に由来するものである。
説明は、以下のように構成される。まず、一実施態様に従って、ニューラルネットワークベースのベースコーラー104への入力を説明する。次いで、ニューラルネットワークベースのベースコーラー104の構造及び形態の例を示す。最後に、一実施態様による、ニューラルネットワークベースのベースコーラー104の出力を説明する。
ニューラルネットワークベースのベースコーラー104に関する更なる詳細は、参照により本明細書に組み込まれる、2019年3月21日出願の「ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国特許仮出願第62/821,766号(代理人整理番号ILLM1008-9/IP-1752-PRV)に見出すことができる。
一実施形態では、画像パッチは、配列決定画像から抽出される。データプロバイダ102は、ベースコールのための「入力画像データ」として、抽出された画像パッチをニューラルネットワークベースのベースコーラー104に提供する。画像パッチは、寸法w×hを有し、w(幅)及びh(高さ)は、1から10,000の範囲の任意の数(例えば、3×3、5×5、7×7、10×10、15×15、25×25)である。いくつかの実施態様では、wとhとは同じである。他の実施態様では、wとhとは異なる。
配列決定は、対応するm個の撮像チャネルについて配列決定サイクルごとにm個の画像を生成する。一実施態様では、各画像チャネルは、複数のフィルタ波長帯域のうちの1つに対応する。別の実施態様では、各画像チャネルは、配列決定サイクルにおける複数の撮像事象のうちの1つに対応する。更に別の実施態様では、各画像チャネルは、特定のレーザによる照射と特定の光学フィルタを通した撮像との組み合わせに対応する。
特定の配列決定サイクルのための入力画像データを準備するために、m個の画像の各々から画像パッチが抽出される。4-、2-、及び1-チャネル化学などの異なる実施態様では、mは、4又は2である。他の実施態様では、mは、1、3、又は4よりも大きい。入力画像データは、いくつかの実施態様では、光学ピクセルドメイン内にあり、他の実施態様では、アップサンプリングされたサブピクセルドメイン内にある。
例えば、配列決定が2つの異なる画像チャネル、つまり赤色チャネル及び緑色チャネルを使用すると考える。次いで、各配列決定サイクルにおいて、信号決定は、赤色画像及び緑色画像を生成する。このようにして、一連のk回の配列決定サイクルについて、k対の赤色画像及び緑色画像を有する配列が出力として生成される。
入力画像データは、配列決定ランの一連のk回の配列決定サイクルについて生成されたサイクルごとの画像パッチの配列を含む。サイクルごとの画像パッチは、1つ以上の画像チャネル(例えば、赤色チャネル及び緑色チャネル)の関連するクラスター及びそれらの周囲の背景についての強度データを含む。一実施態様では、単一のターゲットクラスター(例えば、クラスター)がベースコールされる場合、サイクルごとの画像パッチは、標的関連クラスターの強度データを含む中心ピクセルを中心とし、サイクルごとの画像パッチの中心以外のピクセルは、標的関連クラスターに隣接する関連クラスターの強度データを含む。複数の配列決定サイクルのためのサイクルごとの画像パッチは、サイクルごとのクラスターデータ112として記憶される。
入力画像データは、複数の配列決定サイクル(例えば、現在の配列決定サイクル、1つ以上の先行する配列決定サイクル、及び1つ以上の連続する配列決定サイクル)のデータを含む。一実施態様では、入力画像データは、ベースコールされる現在の(時点t)配列決定サイクルのデータが、(i)左隣接/コンテキスト/以前の/先行する/前の(時点t-1)配列決定サイクルのデータ、及び(ii)右隣接/コンテキスト/次の/連続する/後続の(時点t+1)配列決定サイクルのデータを伴うように、3回の配列決定サイクルのデータを含む。別の実施態様では、入力画像データは、5回の配列決定サイクルのデータを含み、ベースコールされる現在の(時間t)配列決定サイクルのデータは、(i)第1の左隣接/コンテキスト/以前の/先行する/前の(時間t-1)配列決定サイクルのデータと、(ii)第2の左隣接/コンテキスト/以前の/先行する/前の(時間t-2)配列決定サイクルのデータと、(iii)第1の右隣接/コンテキスト/次の/連続する/後続の(時間t+1)配列決定サイクルのデータと、(iv)第2の右隣接/コンテキスト/次の/連続する/後続の(時間t+2)配列決定サイクルのデータと、を伴う。更に別の実施態様では、入力画像データは、7回の配列決定サイクルのデータを含み、ベースコールされる現在の(時間t)配列決定サイクルのデータは、(i)第1の左隣接/コンテキスト/以前の/先行する/前の(時間t-1)配列決定サイクルのデータと、(ii)第2の左隣接/コンテキスト/以前の/先行する/前の(時間t-2)配列決定サイクルのデータと、(iii)第3の左隣接/コンテキスト/以前の/先行する/前の(時間t-3)配列決定サイクルのデータと、(iv)第1の右隣接/コンテキスト/次の/連続する/後続の(時間t+1)配列決定サイクルのデータと、(v)第2の右隣接/コンテキスト/次の/連続する/後続の(時間t+2)配列決定サイクルのデータと、(vi)第3の右隣接/コンテキスト/次の/連続する/後続の(時間t+3)配列決定サイクルのデータと、を伴う。他の実施態様では、入力画像データは、単一の配列決定サイクルのデータを含む。更に他の実施態様では、入力画像データは、58、75、92、130、168、175、209、225、230、275、318、325、330、525、又は625配列決定サイクルのデータを含む。
一実施態様では、現在の(時間t)配列決定サイクルからの配列決定画像は、第1及び第2の先行する(時間t-1、時間t-2)配列決定サイクルからの配列決定画像と、第1及び第2の後続の(時間t+1、時間t+2)配列決定サイクルからの配列決定画像と、を伴う。一実施態様によれば、ニューラルネットワークベースのベースコーラー104は、その畳み込み層を介して配列決定画像を処理し、代替表現を生成する。次いで、その代替表現は、出力層(例えば、ソフトマックス層)によって使用され、現在の(時間t)配列決定サイクル、又は配列決定サイクルのそれぞれ(すなわち、現在の(時間t)配列決定サイクル、第1及び第2の先行する(時間t-1、時間t-2)配列決定サイクル、及び第1及び第2の後続の(時間t+1、時間t+2)配列決定サイクル)のいずれかに対するベースコールを生成する。得られたベースコールは、配列決定リードを形成する。
別の実施態様では、現在の(時間t)配列決定サイクルからの配列決定画像は、先行する(時間t-1)配列決定サイクルからの配列決定画像、及び後続する(時間t+1)配列決定サイクルからの配列決定画像を伴う。一実施態様によれば、ニューラルネットワークベースのベースコーラー104は、その畳み込み層を介して配列決定画像を処理し、代替表現を生成する。次いで、その代替表現は、出力層(例えば、ソフトマックス層)によって使用され、現在の(時間t)配列決定サイクル、又は配列決定サイクルのそれぞれ、すなわち、現在の(時間t)配列決定サイクル、先行する(時間t-1)配列決定サイクル、及び後続する(時間t+1)配列決定サイクルのいずれかに対するベースコールを生成する。得られたベースコールは、配列決定リードを形成する。
一実施態様では、ニューラルネットワークベースのベースコーラー104は、特定の配列決定サイクルに対する単一のターゲットクラスターのためのベースコールを出力する。別の実施態様では、ニューラルネットワークベースのベースコーラー104は、特定の配列決定サイクルで複数のターゲットクラスター内の各ターゲットクラスターのためのベースコールを出力する。更に別の実施態様では、ニューラルネットワークベースのベースコーラー104は、複数の配列決定サイクル内の各配列決定サイクルで複数のターゲットクラスター内の各ターゲットクラスターのためのベースコールを出力することによって、各ターゲットクラスターのためのベースコール配列を生成する。
一実施態様では、ニューラルネットワークベースのベースコーラー104は、多層パーセプトロン(Multilayer Perceptron、MLP)である。別の実施態様では、ニューラルネットワークベースのベースコーラー104は、フィードフォワードニューラルネットワークである。更に別の実施態様では、ニューラルネットワークベースのベースコーラー104は、完全に接続されたニューラルネットワークである。更なる実施態様では、ニューラルネットワークベースのベースコーラー104は、完全畳み込みニューラルネットワークである。更に別の実施態様では、ニューラルネットワークベースのベースコーラー104は、セマンティックセグメンテーションニューラルネットワークである。なお別の更なる実施態様では、ニューラルネットワークベースのベースコーラー104は、敵対的生成ネットワーク(generative adversarial network、GAN)である。
一実施態様では、ニューラルネットワークベースのベースコーラー104は、複数の畳み込み層を有する畳み込みニューラルネットワーク(CNN)である。別の実施態様では、ニューラルネットワークベースのベースコーラー104は、長い短期メモリネットワーク(LSTM)、双方向LSTM(Bi-LSTM)、又はゲートされた反復単位(GRU)などの反復ニューラルネットワーク(RNN)である。更に別の実施態様では、ニューラルネットワークベースのベースコーラー104は、CNN及びRNNの両方を含む。
更に他の実施態様では、ニューラルネットワークベースのベースコーラー104は、1D畳み込み、2D畳み込み、3D畳み込み、4D畳み込み、5D畳み込み、拡張又は膨張畳み込み、転置畳み込み、深さ単位分離可能畳み込み、点単位畳み込み、1×1畳み込み、グループ畳み込み、平坦化(flattened)畳み込み、空間及びクロスチャネル(spatial and cross-channel)畳み込み、シャッフルグループ化(shuffled grouped)畳み込み、空間的分離可能畳み込み、並びに逆畳み込みを使用することができる。ニューラルネットワークベースのベースコーラー104は、ロジスティック回帰/対数損失、多クラスクロスエントロピー/ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、L1損失、L2損失、平滑L1損失、及びHuber損失などの1つ又はそれ以上の損失関数を使用することができる。それは、TFRecord、圧縮符号化(例えば、PNG)、シャーディング、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期/非同期確率的勾配降下法(stochastic gradient descent、SGD)のような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット(LSTM又はGRUなど)、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能(例えば、非線形変換関数は、整流線形ユニット(ReLU)、漏れやすいReLU,指数関数的ライナーユニット(ELU)、シグモイド及び双曲線正接(tanh))、バッチ正規化層、規則化層、ドロップアウト、プール層(例えば、最大又は平均プール)、グローバル平均プール層、及び注意機構のような非線形変換機能を含み得る。
ニューラルネットワークベースのベースコーラー104は、逆伝播ベースの勾配更新技術を使用して学習する。ニューラルネットワークベースのベースコーラー104が学習するために使用され得る例示的な勾配降下技術としては、確率的勾配降下、バッチ勾配降下、及びミニバッチ勾配降下が挙げられる。ニューラルネットワークベースのベースコーラー104が学習するために使用され得る勾配降下最適化アルゴリズムのいくつかの例としては、Momentum、Nestorv加速勾配、Adagrad、Adadelta、RMSprop、Adam、AdaMax、Nadam、及びAMSGradが挙げられる。
ニューラルネットワークベースのベースコーラー104は、異なる配列決定サイクルに対するデータの処理を分離するために、専用のアーキテクチャを使用する。上記の専用のアーキテクチャを使用する動機をまず説明する。上述のように、ニューラルネットワークベースのベースコーラー104は、現在の配列決定サイクル、1つ以上の先行する配列決定サイクル、及び1つ以上の後続の配列決定サイクルに対する強度コンテキスト化パッチを処理する。追加の配列決定サイクルに対するデータは、配列ごとに固有のコンテキストを提供する。ニューラルネットワークベースのベースコーラー104は、学習中に配列固有のコンテキストを学習し、それらをベースコールする。更に、事前及び事後配列決定サイクルに対するデータは、プレフェージング及びフェージング信号の2次の寄与を現在の配列決定サイクルに提供する。
しかしながら、異なる配列決定サイクルで、かつ異なる画像チャネル内に捕捉される画像は、位置合わせ不良であり、互いに残留位置合わせ誤差を有する。この位置合わせ不良を考慮するために、専用アーキテクチャは、配列決定サイクルどうしの間では情報を混合せず、同一の配列決定サイクル内でのみ情報を混合する、空間畳み込み層を含む。
空間畳み込み層は、畳み込みの「専用の非共有」配列を介して複数の配列決定サイクルの各々に対して独立してデータを処理することによって分離を操作する、いわゆる「分離された畳み込み」を使用する。分離された畳み込みは、任意の他の配列決定サイクルのデータ及び得られた特徴マップ上で畳み込むことなく、所与の配列決定サイクル、すなわち、サイクル内のみのデータ及び得られた特徴マップ上で畳み込む。
例えば、入力データが、(i)ベースコールされる現在の(時間t)配列決定サイクルに対する現在の強度コンテキスト化パッチと、(ii)以前の(時間t-1)配列決定サイクルに対する以前の強度コンテキスト化パッチと、(iii)次の(時間t+1)配列決定サイクルに対する次の強度コンテキスト化パッチと、を含むとする。次いで、専用アーキテクチャは、3つの別個の畳み込みパイプライン、すなわち、現在の畳み込みパイプライン、以前の畳み込みパイプライン、及び次の畳み込みパイプラインを開始する。現在のデータ処理パイプラインは、現在の(時間t)配列決定サイクルに対する現在の強度コンテキスト化パッチを入力として受信し、複数の空間畳み込み層784を介して独立してそれを処理して、最終空間畳み込み層の出力としていわゆる「現在の空間畳み込み表現」を生成する。以前の畳み込みパイプラインは、以前の(時間t-1)配列決定サイクルに対する以前の強度コンテキスト化パッチを入力として受信し、複数の空間畳み込み層を介して独立してそれを処理して、最終空間畳み込み層の出力としていわゆる「以前の空間畳み込み表現」を生成する。次の畳み込みパイプラインは、次の(時間t+1)配列決定サイクルに対する次の強度コンテキスト化パッチを入力として受信し、複数の空間畳み込み層を介して独立してそれを処理して、最終空間畳み込み層の出力としていわゆる「次の空間畳み込み表現」を生成する。
いくつかの実施態様では、現在、以前、及び次の畳み込みパイプラインは、並行して実行される。いくつかの実施態様では、空間畳み込み層は、専用構造内の空間畳み込みネットワーク(又はサブネットワーク)の一部である。
ニューラルネットワークベースのベースコーラー104は、配列決定サイクル間、すなわち、サイクル間で情報を混合する時間的畳み込み層を更に含む。時間的畳み込み層は、空間畳み込みネットワークからそれらの入力を受信し、それぞれのデータ処理パイプラインに対して最終空間畳み込み層によって生成される空間畳み込み表現で動作する。
時間的畳み込み層のサイクル間動作性自由度は、空間畳み込みネットワークへの入力として供給される画像データ内に存在する位置合わせ不良特性が、空間畳み込み層の配列によって実行される、分離された畳み込みのスタック又はカスケードによって空間畳み込み表現からパージされるという事実から生じる。
時間的畳み込み層は、スライドウィンドウベースでの後続の入力で入力チャネル上でグループごとに畳み込む、いわゆる「組み合わせ畳み込み」を使用する。一実施態様では、後続の入力は、以前の空間畳み込み層又は以前の時間的畳み込み層によって生成される後続の出力である。
いくつかの実施態様では、時間的畳み込み層は、専用構造内の時間的畳み込みネットワーク(又はサブネットワーク)の一部である。時間的畳み込みネットワークは、空間畳み込みネットワークからその入力を受信する。一実施態様では、時間的畳み込みネットワークの第1の時間的畳み込み層は、配列決定サイクル間の空間畳み込み表現をグループごとに組み合わせる。別の実施態様では、時間的畳み込みネットワークの後続の時間的畳み込み層は、以前の時間的畳み込み層の連続する出力を組み合わせる。最終時間的畳み込み層の出力は、出力を生成する出力層に供給される。出力は、1つ以上の配列決定サイクルで1つ以上のクラスターをベースコールするために使用される。
一実施態様では、信頼できないクラスターのベースコールをバイパスすることは、信頼できないクラスターを、ニューラルネットワークベースのベースコーラー104の空間畳み込み層を介してのみ処理し、信頼できないクラスターを、ニューラルネットワークベースのベースコーラー104の時間的畳み込み層を介して処理しないことを指す。
本出願の文脈では、信頼できないクラスターはまた、いずれのクラスターも示さないピクセルによって識別され、そのようなピクセルは、時間的畳み込み層による処理から破棄される。いくつかの実施態様では、これは、生物学的試料が堆積されるウェルが空であるときに生じる。
信頼できないクラスターの検出及びフィルタリング
開示された技術は、信頼できないクラスターを検出し、フィルタリングする。以下の考察は、信頼できないクラスターを説明する。
信頼できないクラスターは、所望の信号を、バックグラウンド信号と比較して有意ではない量しか発しない、低品質クラスターである。信頼できないクラスターの信号対雑音比は、実質的に低く、例えば、1未満である。いくつかの実施態様では、信頼できないクラスターは、所望の信号を全く生成しない場合がある。他の実施態様では、信頼できないクラスターは、バックグラウンドと比較して非常に少ない量の信号しか生成しない場合があり得る。一実施態様では、信号は、光信号であり、例えば、蛍光、発光、散乱、又は吸収信号を含むことを意図する。信号レベルとは、所望又は所定の特性を有する検出されたエネルギー又は符号化された情報の量を意味する。例えば、光信号は、強度、波長、エネルギー、周波数、電力、輝度などのうちの1つ以上によって定量化することができる。他の信号は、電圧、電流、電界強度、磁場強度、周波数、電力、温度などの特性に従って定量化することができる。信頼できないクラスターにおける信号の不在は、ゼロの信号レベル、又はノイズとは有意に区別されない信号レベルであると理解される。
信頼できないクラスターの不十分な品質の信号には、多くの潜在的な理由がある。信頼できないクラスター中の約1000個の分子のうちの相当大きな割合が、特定の位置で異なる塩基を含むように、コロニー増幅におけるポリメラーゼ連鎖反応(polymerase chain reaction、PCR)エラーが存在する場合、2つの塩基に対する信号を観察し得るが、これは、不十分な品質のしるしとして解釈され、フェーズエラーと称される。フェーズエラーは、信頼できないクラスター内の個々の分子が、(例えば、フェージングと呼ばれる、3’ターミネーターの不完全な除去を原因として)いくつかのサイクルでヌクレオチドを組み込まず、他の分子よりも遅れてしまう場合、又は(例えば、プリフェージングと呼ばれる、効果的な3’ブロックなしでヌクレオチドの組み込みを原因として)個々の分子が単一のサイクルで2つ以上のヌクレオチドを組み込んでいる場合に生じる。これにより、配列コピーの読み出しにおける、同期の喪失がもたらされる。信頼できないクラスターにおける、フェージング及びプレフェージングによって影響を受ける配列の割合は、サイクル数の増加と共に増加し、読み取りの品質が高いサイクル数で低下する傾向がある主な理由である。
信頼できないクラスターはまた、フェーディングの結果として生じる。フェーディングは、サイクル数の関数としての信頼できないクラスターの信号強度における指数関数的減衰である。配列決定動作が進行するにつれて、信頼できないクラスターのストランドが過度に洗浄され、反応種を作成するレーザ放出に曝露され、過酷な環境条件に置かれる。これらの全ては、信頼できないクラスターにおいて断片が徐々に失われる結果を招き、それらの信号強度を低下させる。
信頼できないクラスターはまた、発育の十分ではないコロニー、すなわち、パターン形成されたフローセル上に空又は部分的にしか充填されないウェルを生成してしまう、信頼できないクラスターの小さなクラスターサイズにも起因する。すなわち、いくつかの実施態様では、信頼できないクラスターは、パターン化されたフローセル上の、空のウェル、多クローン性ウェル、及び曖昧なウェルを示す。信頼できないクラスターはまた、非排他的な増幅によって引き起こされる、重なり合うコロニーから生じる。信頼できないクラスターはまた、例えば、フローセルの縁部に位置することに起因する、照明不足又は不均一な照明から生じる。信頼できないクラスターはまた、放出された信号を不明確化するフローセル上の不純物から生じる。信頼できないクラスターはまた、複数のクラスターが同一のウェルに堆積される場合に生じる、多クローン性クラスターも含む。
ここでは、ベースコールの精度及び効率を改善するために、検出及びフィルタリングロジック146によって信頼できないクラスターがどのように検出及びフィルタリングされるかについて論じる。データプロバイダ102は、サイクルごとのクラスターデータ112をニューラルネットワークベースのベースコーラー104に提供する。サイクルごとのクラスターデータ112は、複数のクラスターに対するものであり、配列決定動作の配列決定サイクルの第1のサブセットに対するものである。例えば、配列決定動作が150配列決定サイクルを有すると考える。次いで、配列決定サイクルの第1のサブセットは、150配列決定サイクルのうちの任意のサブセット、例えば、150サイクル配列決定動作のうちの最初の5、10、15、25、35、40、50、又は100の配列決定サイクルを含むことができる。また、各配列決定サイクルは、複数のクラスター内のクラスターの強度放射を描写する配列決定画像を作り出す。このように、複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第1のサブセットに対するサイクルごとのクラスターデータ112は、150サイクル配列決定動作の最初の5、10、15、25、35、40、50、又は100の配列決定サイクルに対する配列決定画像のみを含み、150サイクル配列決定動作の残りの配列決定サイクルに対する配列画像を含まない。
ニューラルネットワークベースのベースコーラー104は、配列決定サイクルの第1のサブセット内のそれぞれの配列決定サイクルにおいて複数のクラスターの中のそれぞれのクラスターをベースコールする。そうするために、ニューラルネットワークベースのベースコーラー104は、サイクルごとのクラスターデータ112を処理し、サイクルごとのクラスターデータ112の中間表現を生成する。次いで、ニューラルネットワークベースのベースコーラー104は、出力層を通して中間表現を処理し、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するクラスターごと、サイクルごとの確率四分位数を生成する。出力層の例としては、ソフトマックス関数、ログ-ソフトマックス関数、アンサンブル出力平均関数、多重レイヤパーセプトロン不確実関数、ベイズガウス分布関数、及びクラスター強度関数が挙げられる。クラスターごと、サイクルごとの確率四分位数は、確率四分位数106として記憶される。
以下の考察は、一例としてソフトマックス関数を使用して、クラスターごと、サイクルごとの確率四分位数に焦点を当てている。最初に、ソフトマックス関数、次いでクラスターごと、サイクルごとの確率四分位数を説明する。
ソフトマックス関数は、マルチクラス分類のための好ましい関数である。ソフトマックス関数は、全ての可能な標的クラスにわたって各標的クラスの確率を計算する。ソフトマックス関数の出力範囲はゼロと1との間であり、全ての確率の合計は1に等しい。ソフトマックス関数は、所与の入力値の指数及び全ての入力値の指数値の合計を計算する。入力値の指数と指数値の合計との比は、本明細書で「指数正規化」と称されるソフトマックス関数の出力である。
形式的には、いわゆるソフトマックス分類子を学習することは、クラスではなくむしろ各クラスの確率の信頼性予測を返すため、真の分類子よりもむしろクラス確率への回帰である。ソフトマックス関数は、ある種類の値を取り、合計で1になる確率にそれらを変換する。ソフトマックス関数は、任意の実数値のn-次元ベクトルを0~1の範囲内の実数値のn-次元ベクトルに押し込む。したがって、ソフトマックス関数を使用することは、出力が有効で、指数関数的に正規化された確率質量関数(非負及び合計1になる)であることを保証する。
直感的に、ソフトマックス関数は、最大関数の「ソフト」バージョンである。「ソフト」という用語は、ソフトマックス関数が連続的であり微分可能であるという事実に由来する。1つの最大要素を選択する代わりに、最大入力要素が比例してより大きな値を取得し、他方が値の割合が少なくなるように、ベクトルを全体の部分に分解する。確率分布を出力する特性は、分類タスクにおける確率的解釈に適したソフトマックス関数をもたらす。
ソフトマックス層への入力のベクトルとして、zを考慮するとしよう。ソフトマックス層ユニットは、ソフトマックス層内のノードの数であり、したがって、zベクトルの長さは、ソフトマックス層内のユニットの数である(10個の出力ユニットを有する場合、10個のz要素がある)。
n-次元ベクトルZ=[Z,Z,...Z]の場合、ソフトマックス関数は、指数正規化(exp)を使用して、その和が1になる、範囲[0,1]の範囲内の正規化された値を有する別のn-次元ベクトルp(Z)を生成する。
図2Aは、例示的なソフトマックス関数を示す。ソフトマックス関数は、
として3つのクラスに適用される。3つの出力は常に、合計1になることに留意されたい。したがって、それらは、離散確率質量関数を定義する。
特定のクラスターごと、サイクルごとの確率四分位数は、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基である、A、C、T、及びGの確率を識別する。ニューラルネットワークベースのベースコーラー104の出力層がソフトマックス関数を使用する場合、クラスターごと、サイクルごとの確率四分位数での確率は、合計すると1になる、指数的に正規化された分類スコアである。図2Bは、クラスター1(202、茶色で示される)に対する、及び配列決定サイクル1~S(212)に対するソフトマックス関数によってそれぞれ生成された、例示的なクラスターごと、サイクルごとの確率四分位数222を示す。言い換えれば、配列決定サイクルの第1のサブセットは、S個の配列決定サイクルを含む。
検出及びフィルタリングロジック146は、クラスターごと、サイクルごとの確率四分位数からフィルタ値を生成することに基づいて、信頼できないクラスターを識別する。本出願では、クラスターごと、サイクルごとの確率四分位数は、ベースコール分類スコア又は正規化ベースコール分類スコア又は初期ベースコール分類スコア又は正規化された初期ベースコール分類スコア又は初期ベースコールとも呼ばれる。
フィルタ計算機116は、それぞれのクラスターごと、サイクルごとの確率四分位数が識別する確率に基づいて、それぞれのクラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することによって、それぞれのクラスターのフィルタ値の配列232を生成する。フィルタ値の配列232は、フィルタ値126として記憶される。
クラスターごと、サイクルごとの確率四分位数に対するフィルタ値は、確率のうちの1つ以上を含む算術演算に基づいて決定される。一実施態様では、フィルタ計算機116によって使用される算術演算は減算である。例えば、図2Bに示す実施態様では、クラスターごと、サイクルごとの確率四分位数に対するフィルタ値は、確率のうちの最も高い確率(マゼンタ色で示される)から確率のうちの2番目に高い確率(青色に示される)を差し引くことによって決定される。
別の実施態様では、フィルタ計算機116によって使用される算術演算は除算である。例えば、クラスターごと、サイクルごとの確率四分位数に対するフィルタ値は、確率のうちの最も高い確率(マゼンタ色に示されている)の確率のうちの2番目に高い確率(青色で示される)に対する比として決定される。なお別の実施態様では、フィルタ計算機116によって使用される算術演算は、加算である。なお更なる実施態様では、フィルタ計算機116によって使用される算術演算は、乗算である。
一実施態様では、フィルタ計算機116は、フィルタリング関数を使用してフィルタ値126を生成する。一例では、フィルタリング関数は、最も明るいベース強度を、最も明るいベース強度と2番目に明るいベース強度との合計で割った比として、チャスティティを定義するチャスティフィルタである。別の例では、フィルタリング関数は、最大対数確率関数、最小二乗誤差関数、平均信号対雑音比(signal-to-noise ratio、SNR)、及び最小絶対誤差関数のうちの少なくとも1つである。
信頼できないクラスター識別子136は、フィルタ値126を使用して、複数のクラスター内のいくつかのクラスターを、信頼できないクラスター124として識別する。信頼できないクラスター124を識別するデータは、コンピュータ可読形式又は媒体にあり得る。信頼できないクラスターは、器具ID、機器上のラン番号、フローセルID、レーン番号、タイル番号、クラスターのX座標、クラスターのY座標、及び固有の分子識別子(unique molecular identifier、UMI)によって識別することができる。信頼できないクラスター識別子136は、複数のクラスターのうち、フィルタ値の配列が、閾値「M」を下回る「N」個のフィルタ値を含むクラスターを信頼できないクラスター124として識別する。一実施態様では、「N」は1~5の範囲である。別の実施態様では、「M」は0.5~0.99の範囲である。
図3は、フィルタ値126を使用して信頼できないクラスター124を識別する例を示す。図3では、閾値「M」は0.5であり、フィルタ値の数「N」は2である。図3は、3つのクラスター1、2、及び3に対する3つのフィルタ値の配列302、312、及び322をそれぞれ示す。クラスター1の第1の配列302では、M未満の2つのフィルタ値(紫色で示される)が存在する、すなわちN=2であり、したがって、クラスター1は、信頼できないクラスターとして識別される。クラスター2の第2の配列312では、M未満の3つのフィルタ値(ピンク色で示される)が存在する、すなわちN=3であり、したがって、クラスター2は、信頼できないクラスターとして識別される。クラスター3の第3の配列322では、M未満の1つのフィルタ値(緑色で示される)のみが存在する、すなわちN=1であり、したがって、クラスター3は、信頼できるクラスターとして識別される。
ここでは、データプロバイダ102によって実装されるバイパスロジック142について論じる。バイパスロジック142は、配列決定動作の配列決定サイクルの残りにおける信頼できないクラスター(例えば、クラスター1及び2)のベースコールをバイパスすることによって、配列決定サイクルの残りにおいて、複数のクラスターのうち、信頼できないクラスターとして識別されないクラスターのみをベースコールする。例えば、配列決定動作の配列決定サイクルの第1のサブセットが25の配列決定サイクルを含み、配列決定動作が合計で100配列決定サイクルを有するものとする。次いで、最初の25配列決定サイクルの後、クラスター1、2、及び3のそれぞれは、上記のフィルタリング関数に基づいた25個のフィルタ値のそれぞれの配列を有する。
次いで、配列決定サイクルの残りは、100サイクル配列決定動作の最後の75サイクルを含む。次いで、最初の25配列決定サイクルの後、及び26回目の配列決定サイクルの前に、信頼できないクラスター識別子136は、25個のフィルタ値のそれぞれの配列に基づいて、クラスター1、2、及び3のうちのどれが信頼できないクラスターであるかを決定する。次いで、残りの配列決定サイクル、すなわち、100サイクル配列決定動作の最後の75サイクルで、バイパスロジック142は、信頼できないクラスター識別子136によって信頼できないクラスターとして識別されるクラスター(例えば、クラスター1及び2)をベースコールせず(すなわち、ベースコールを停止する)、信頼できないクラスター識別子136によって信頼できないクラスターとして識別されないクラスター(例えば、クラスター3)のみを継続してベースコールする。言い換えれば、信頼できないクラスターは、配列決定動作のサイクル1~25についてのみベースコールされ、配列決定動作のサイクル26~100についてはベースコールされないが、信頼できるクラスターは、配列決定動作の全てのサイクル1~100についてベースコールされる。
クラスター及びベースコールに関して使用するとき、フィルタリングという用語は、クラスターをデータポイントとして破棄又は無視することを指す。したがって、強度又は品質の不十分な任意のクラスターがフィルタリングされ得、出力データセットには含まれない。いくつかの実施態様では、低品質クラスターのフィルタリングは、配列決定動作中に1つ以上の別個のポイントで行われる。いくつかの実施態様では、フィルタリングはテンプレート生成中に行われる。代替的に、又は追加的に、いくつかの実施態様では、フィルタリングは、事前定義されたサイクルの後に行われる。特定の実施態様では、フィルタリングは、サイクル1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29で若しくはその後に、又はサイクル30以降に行われる。いくつかの実施態様では、フィルタリングはサイクル25で行われ、その結果、最初の25サイクルに対して決定されたフィルタ値の配列に基づいて信頼できないクラスターがフィルタリングされる。
図4は、ベースコールの精度及び効率を改善するために信頼できないクラスターを識別する方法の一実施態様を示すフロー図である。本明細書に記載の方法の様々なプロセス及び工程は、コンピュータを使用して行われ得る。コンピュータは、検出デバイスの一部であるか、コンピュータによって処理されるデータを取得するために使用される検出デバイスとネットワーク化されているか、又は検出デバイスから分離しているプロセッサを含み得る。いくつかの実施態様では、情報(例えば、画像データ)は、本明細書に開示されるシステムの構成要素間で直接又はコンピュータネットワークを介して送信され得る。ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)は、システムを含むコンピュータ及びコンピューティングデバイスが接続されている、インターネットへのアクセスを含む企業コンピューティングネットワークであり得る。一実施態様では、LANは、伝送制御プロトコル/インターネットプロトコル(TCP/IP)業界標準に準拠する。場合によっては、情報(例えば、画像データ)は、入力デバイス(例えば、ディスクドライブ、コンパクトディスクプレーヤ、USBポートなど)を介して本明細書に開示されるシステムに入力される。場合によっては、情報は、例えば、ディスク又はフラッシュドライブなどの記憶デバイスから情報をロードすることによって受信される。
本明細書に記載されるアルゴリズム又は他のプロセスを実行するために使用されるプロセッサは、マイクロプロセッサを含み得る。マイクロプロセッサは、Intel Corporation製のPentium(商標)プロセッサなどの任意の従来の汎用シングルチップ又はマルチチップマイクロプロセッサであり得る。特に有用なコンピュータは、128GBのRAM、及び2TBのソリッドステートディスクドライブを有する、Intel Ivybridge dual-12コアプロセッサ、LSI RAIDコントローラを利用し得る。更に、プロセッサは、デジタル信号プロセッサ又はグラフィックスプロセッサなどの任意の従来の専用プロセッサを含み得る。プロセッサは、典型的には、従来のアドレスライン、従来のデータライン、及び1つ以上の従来の制御ラインを有する。
本明細書に開示される実施態様は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの任意の組み合わせを生成するための標準的なプログラミング技術又は工学技術を使用して、方法、装置、システム、又は物品として実装されてもよい。本明細書で使用するとき、用語「製造物品」は、光学記憶デバイスなどのハードウェア又はコンピュータ可読媒体、並びに揮発性又は不揮発性メモリデバイス内に実装されるコード又は論理を指す。そのようなハードウェアとしては、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、複合プログラマブル論理デバイス(Complex Programmable Logic Device、CPLD)、プログラマブルロジックアレイ(Programmable Logic Array、PLA)、マイクロプロセッサ、又は他の同様の処理装置が挙げられ得るが、これらに限定されない。特定の実施態様では、本明細書に記載される情報又はアルゴリズムは、非一過性記憶媒体中に存在する。
特定の実施態様では、本明細書に記載されるコンピュータ実装の方法は、物体の複数の画像が取得されている間に、リアルタイムで行われ得る。このようなリアルタイム分析は、核酸配列が流体及び検出工程の繰り返しサイクルに供される核酸配列決定用途に特に有用である。配列決定データの分析は、多くの場合、本明細書に記載される方法をリアルタイム又は背景で実行するのに有益であり得る一方で、他のデータ収集又は分析アルゴリズムがプロセス中である間に、本明細書に記載される方法を実行することが有益であり得る。本方法で使用することができるリアルタイム分析法の例は、Illumina,Inc(San Diego,Calif)から市販されており、及び/又は、参照により本明細書に組み込まれる米国特許出願公開第2012/0020537(A1)号に記載されているMiSeq及びHiSeq配列決定機器に使用されるものである。
アクション402で、方法は、複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第1のサブセットに対するサイクルごとのクラスターデータにアクセスすることを含む。
アクション412では、方法は、配列決定サイクルの第1のサブセット内のそれぞれの配列決定サイクルにおいて複数のクラスターの中のそれぞれのクラスターをベースコールすることを含む。
アクション422では、方法は、サイクルごとのクラスターデータを処理し、サイクルごとのクラスターデータの中間表現を生成することと、を含む。
アクション432では、方法は、出力層を介して中間表現を処理し、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するクラスターごと、サイクルごとの確率四分位数を生成することを含む。特定のクラスターごと、サイクルごとの確率四分位数は、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基である、A、C、T、及びGの確率を識別する。
アクション442では、方法は、クラスターごと、サイクルごとの確率四分位数が識別する確率に基づいて、クラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することによって、それぞれのクラスターのフィルタ値の配列を生成することを含む。
アクション452では、方法は、複数のクラスターのうち、フィルタ値の配列が、閾値「M」を下回る少なくとも「N」個のフィルタ値を含むクラスターを信頼できないクラスターとして識別することを含む。
アクション462では、方法は、配列決定動作の配列決定サイクルの残りにおける信頼できないクラスターのベースコールをバイパスすることによって、配列決定サイクルの残りにおいて、複数のクラスターのうち、信頼できないクラスターとして識別されないクラスターのみをベースコールすることを含む。
配列決定システム
図5A及び図5Bは、配列決定システム500Aの一実施態様を示す。配列決定システム500Aは、構成可能プロセッサ546を含む。構成可能プロセッサ546は、本明細書に開示されるベースコール技術を実施する。配列決定システムは、「シーケンサ」とも称される。
配列決定システム500Aは、生物学的物質又は化学物質のうちの少なくとも1つに関連する任意の情報又はデータを得るように動作し得る。いくつかの実施態様では、配列決定システム500Aは、ベンチトップデバイス又はデスクトップコンピュータと同様であり得るワークステーションである。例えば、所望の反応を実施するためのシステム及び構成要素の大部分(又は全て)は、共通のハウジング502内にあってもよい。
特定の実施態様では、配列決定システム500Aは、de novo sequencing、全ゲノム又は標的ゲノム領域の再配列、及びメタゲノミクスを含むがこれらに限定されない、様々な用途のために構成された核酸配列決定システムである。シーケンサはまた、DNA又はRNA分析に使用されてもよい。いくつかの実施態様では、配列決定システム500Aはまた、バイオセンサー内に反応部位を生成するように構成されてもよい。例えば、配列決定システム500Aは、サンプルを受容し、サンプル由来のクローン的に増幅された核酸の表面結合クラスターを生成するように構成され得る。各クラスターは、バイオセンサー内の反応部位を構成するか、又はその一部であってもよい。
例示的な配列決定システム500Aは、バイオセンサー512と相互作用して、バイオセンサー512内で所望の反応を行うように構成されたシステム受け部又はインターフェース510を含んでもよい。図5Aに関して以下の説明では、バイオセンサー512はシステム受け部510内に装填される。しかしながら、バイオセンサー512を含むカートリッジは、システム受け部510に挿入されてもよく、一部の状態では、カートリッジは一時的又は永久的に除去され得ることが理解される。上述のように、カートリッジは、とりわけ、流体制御及び流体貯蔵構成要素を含んでもよい。
特定の実施態様では、配列決定システム500Aは、バイオセンサー512内で多数の平行反応を行うように構成されている。バイオセンサー512は、所望の反応が生じ得る1つ以上の反応部位を含む。反応部位は、例えば、バイオセンサーの固体表面に固定化されてもよく、又はバイオセンサーの対応する反応チャンバ内に位置するビーズ(又は他の可動基材)に固定化されてもよい。反応部位は、例えば、クローン的に増幅された核酸のクラスターを含むことができる。バイオセンサー512は、固体撮像デバイス(例えば、CCD又はCMOSイメージャ)及びそれに取り付けられたフローセルを含んでもよい。フローセルは、配列決定システム500Aから溶液を受容し、溶液を反応部位に向けて方向付ける1つ以上の流路を含んでもよい。任意選択的に、バイオセンサー512は、熱エネルギーを流路の内外に伝達するための熱要素と係合するように構成され得る。
配列決定システム500Aは、相互に相互作用して、生物学的又は化学的分析のための所定の方法又はアッセイプロトコルを実行する、様々な構成要素、アセンブリ、及びシステム(又はサブシステム)を含んでもよい。例えば、配列決定システム500Aは、配列決定システム500Aの様々な構成要素、アセンブリ、及びサブシステムと通信し得るシステムコントローラ506と、更にバイオセンサー512と、を含む。例えば、システム受け部510に加えて、配列決定システム500Aはまた、配列決定システム500A及びバイオセンサー512の流体ネットワーク全体にわたる流体の流れを制御するための流体制御システム508と、バイオアッセイシステムによって使用され得る全ての流体(例えば、ガス又は液体)を保持するように構成された流体貯蔵システム514と、流体ネットワーク、流体貯蔵システム514、及び/又はバイオセンサー512内の流体の温度を調整し得る温度制御システム504と、バイオセンサー512を照明するように構成された照明システム516と、を含み得る。上述のように、バイオセンサー512を有するカートリッジがシステム受け部510内に装填される場合、カートリッジはまた、流体制御及び流体貯蔵構成要素を含んでもよい。
また、配列決定システム500Aは、ユーザーと対話するユーザーインターフェース518を含んでもよい。例えば、ユーザーインターフェース518は、ユーザーから情報を表示又は要求するディスプレイ520と、ユーザー入力を受け取るためのユーザー入力デバイス522と、を含んでもよい。いくつかの実施態様では、ディスプレイ520及びユーザー入力デバイス522は、同じデバイスである。例えば、ユーザーインターフェース518は、個々のタッチの存在を検出し、またディスプレイ上のタッチの場所を識別するように構成されたタッチ検知ディスプレイを含んでもよい。しかしながら、マウス、タッチパッド、キーボード、キーパッド、ハンドヘルドスキャナー、音声認識システム、動き認識システムなどの他のユーザー入力デバイス522が使用されてもよい。以下でより詳細に説明するように、配列決定システム500Aは、所望の反応を実施するために、バイオセンサー512(例えば、カートリッジの形態)を含む様々な構成要素と通信してもよい。配列決定システム500Aはまた、バイオセンサーから得られたデータを分析して、ユーザーに所望の情報を提供するように構成されてもよい。
システムコントローラ506は、マイクロコントローラ、低減命令セットコンピュータ(Reduced Instruction Set Computer、RISC)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)、粗粒化再構成可能構造(Coarse-Grained Reconfigurable Architecture、CGRA)、ロジック回路、及び本明細書に記載される機能を実行することができる任意の他の回路又はプロセッサを含んでもよい。上記の実施例は、例示的なものに過ぎず、したがって、システムコントローラという用語の定義及び/又は意味を制限することを意図するものではない。例示的実施態様では、システムコントローラ506は、検出データの取得及び分析のうちの少なくとも1つのために、1つ以上の記憶要素、メモリ、又はモジュール内に記憶された命令のセットを実行する。検出データは、ピクセル信号の複数の配列を含むことができ、それにより、数百万個のセンサー(又はピクセル)のそれぞれからのピクセル信号の配列を、多くのベースコールサイクルにわたって検出することができる。記憶要素は、配列決定システム500A内の情報源又は物理メモリ要素の形態であってもよい。
命令セットは、本明細書に記載される様々な実施態様の方法及びプロセスなどの特定の動作を実行するように配列決定システム500A又はバイオセンサー512に指示する様々なコマンドを含んでもよい。命令のセットは、有形の非一時的コンピュータ可読媒体又は媒体の一部を形成し得るソフトウェアプログラムの形態であってもよい。本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、及び不揮発性RAM(NVRAM)メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは、例示的なものに過ぎず、したがって、コンピュータプログラムの記憶に使用可能なメモリの種類に限定されない。
ソフトウェアは、システムソフトウェア又はアプリケーションソフトウェアなどの様々な形態であってもよい。更に、ソフトウェアは、別個のプログラムの集合、又はより大きいプログラム内のプログラムモジュール若しくはプログラムモジュールの一部分の形態であってもよい。ソフトウェアはまた、オブジェクト指向プログラミングの形態のモジュール式プログラミングを含んでもよい。検出データを取得した後、検出データは、ユーザー入力に応じて処理された配列決定システム500Aによって自動的に処理されてもよく、又は別の処理マシン(例えば、通信リンクを介したリモート要求)によって行われる要求に応じて処理されてもよい。図示の実施態様では、システムコントローラ506は分析モジュール544を含む。他の実施態様では、システムコントローラ506は分析モジュール544を含まず、代わりに分析モジュール544へのアクセスを有する(例えば、分析モジュール544は、クラウド上で別個にホスティングされ得る)。
システムコントローラ506は、通信リンクを介して、バイオセンサー512及び配列決定システム500Aの他の構成要素に接続されてもよい。システムコントローラ506はまた、オフサイトシステム又はサーバに通信可能に接続されてもよい。通信リンクは、配線、コード、又は無線であってもよい。システムコントローラ506は、ユーザーインターフェース518及びユーザー入力デバイス522からユーザー入力又はコマンドを受信してもよい。
流体制御システム508は、流体ネットワークを含み、流体ネットワークを通る1つ以上の流体の流れを調節するように構成されている。流体ネットワークは、バイオセンサー512及び流体貯蔵システム514と流体連通していてもよい。例えば、選択された流体が流体貯蔵システム514から引き出され、制御された方法でバイオセンサー512に方向付けられてもよく、又は流体は、バイオセンサー512から引き出され、例えば、流体貯蔵システム514内の廃棄物リザーバに方向付けられてもよい。図示されていないが、流体制御システム508は、流体ネットワーク内の流体の流量又は圧力を検出する流量センサーを含んでもよい。センサーは、システムコントローラ506と通信してもよい。
温度制御システム504は、流体ネットワーク、流体貯蔵システム514及び/又はバイオセンサー512の異なる領域における流体の温度を調節するように構成されている。例えば、温度制御システム504は、バイオセンサー512と相互作用し、バイオセンサー512内の反応部位に沿って流れる流体の温度を制御する熱循環器を含んでもよい。温度制御システム504はまた、配列決定システム500A又はバイオセンサー512の中実要素又は構成要素の温度を調節してもよい。図示されていないが、温度制御システム504は、流体又は他の構成要素の温度を検出するためのセンサーを含んでもよい。センサーは、システムコントローラ506と通信してもよい。
流体貯蔵システム514は、バイオセンサー512と流体連通しており、所望の反応を行うために使用される様々な反応成分又は反応物質を貯蔵してもよい。流体貯蔵システム514はまた、流体ネットワーク及びバイオセンサー512を洗浄又はクリーニングし、反応物質を希釈するための流体を貯蔵してもよい。例えば、流体貯蔵システム514は、試料、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液などを保存するための様々なリザーバを含んでもよい。更に、流体貯蔵システム514はまた、バイオセンサー512から廃棄物を受容するための廃棄物リザーバを含んでもよい。カートリッジを含む実施態様形態では、カートリッジは、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの1つ以上を含み得る。したがって、これらのシステムに関する本明細書に記載される構成要素のうちの1つ以上は、カートリッジハウジング内に収容され得る。例えば、カートリッジは、サンプル、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液、廃棄物などを保存するための様々なリザーバを有し得る。したがって、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの1つ以上は、カートリッジ又は他のバイオセンサーを介してバイオアッセイシステムと取り外し可能に係合され得る。
照明システム516は、バイオセンサーを照明するための光源(例えば、1つ以上の発光ダイオード(Light-Emitting Diode、LED))及び複数の光学構成要素を含んでもよい。光源の例としては、レーザ、アークランプ、LED、又はレーザダイオードが挙げられ得る。光学部品は、例えば、反射器、偏光板、ビームスプリッタ、コリメータ、レンズ、フィルタ、ウェッジ、プリズム、鏡、検出器などであってもよい。照明システムを使用する実施態様では、照明システム516は、励起光を反応部位に方向付けるように構成されてもよい。一例として、蛍光団は、緑色の光の波長によって励起されてもよく、そのため、励起光の波長は約532nmであり得る。一実施態様では、照明システム516は、バイオセンサー512の表面の表面法線に平行な照明を生成するように構成されている。別の実施態様では、照明システム516は、バイオセンサー512の表面の表面法線に対してオフアングルである照明を生成するように構成されている。更に別の実施態様では、照明システム516は、いくつかの平行照明及びある程度のオフアングル照明を含む複数の角度を有する照明を生成するように構成されている。
システム受け部又はインターフェース510は、機械的、電気的、及び流体的な方法のうちの少なくとも1つにおいてバイオセンサー512と係合するように構成されている。システム受け部510は、バイオセンサー512を所望の配向に保持して、バイオセンサー512を通る流体の流れを容易にし得る。システム受け部510はまた、バイオセンサー512と係合するように構成された電気接点を含んでもよく、それにより、配列決定システム500Aは、バイオセンサー512と通信することができ、及び/又はバイオセンサー512に電力を供給することができる。更に、システム受け部510は、バイオセンサー512と係合するように構成された流体ポート(例えば、ノズル)を含んでもよい。いくつかの実施態様では、バイオセンサー512は、機械的、電気的、更に流体的な方法で、システム受け部510に取り外し可能に連結される。
加えて、配列決定システム500Aは、他のシステム若しくはネットワークと遠隔で、又は他のバイオアッセイシステム500Aと通信してもよい。バイオアッセイシステム(複数可)500Aによって得られた検出データは、リモートデータベースに記憶されてもよい。
図5Bは、図5Aのシステムで使用され得るシステムコントローラ506のブロック図である。一実施態様では、システムコントローラ506は、互いに通信し得る1つ以上のプロセッサ又はモジュールを含む。プロセッサ又はモジュールのそれぞれは、特定のプロセスを実行するためのアルゴリズム(例えば、有形及び/又は非一時的コンピュータ可読記憶媒体上に記憶された命令)又はサブアルゴリズムを含んでもよい。システムコントローラ506は、モジュールの集合として概念的に例示されるが、専用ハードウェアボード、DSP、プロセッサなどの任意の組み合わせを利用して実装されてもよい。あるいは、システムコントローラ506は、単一のプロセッサ又は複数のプロセッサを備えた既製のPCを利用して実装されてもよく、機能動作はプロセッサ間に分散される。更なる選択肢として、以下に記載されるモジュールは、特定のモジュール式機能が専用ハードウェアを利用して実施されるハイブリッド構成を利用して実装されてもよく、残りのモジュール式機能は、既製のPCなどを利用して実施される。モジュールはまた、処理ユニット内のソフトウェアモジュールとして実装されてもよい。
動作中、通信ポート550は、バイオセンサー512(図5A)及び/又はサブシステム508、514、504(図5A)に情報(例えば、コマンド)を送信するか、バイオセンサー512(図5A)及び/又はサブシステム508、514、504(図5A)から情報(例えば、データ)を受信し得る。実施態様では、通信ポート550は、ピクセル信号の複数の配列を出力し得る。通信リンク534は、ユーザーインターフェース518からユーザー入力を受信し(図5A)、ユーザーインターフェース518にデータ又は情報を送信し得る。バイオセンサー512又はサブシステム508、514、504からのデータは、バイオアッセイセッション中に、システムコントローラ506によってリアルタイムで処理されてもよい。追加的に又は代替的に、データは、バイオアッセイセッション中にシステムメモリ内に一時的に記憶され、リアルタイム又はオフライン操作よりも遅く処理されてもよい。
図5Bに示すように、システムコントローラ506は、中央処理装置(CPU)552と共に主制御モジュール524と通信する複数のモジュール526~548を含んでもよい。主制御モジュール524は、ユーザーインターフェース518と通信してもよい(図5A)。モジュール526~548は、主制御モジュール524と直接通信するものとして示されているが、モジュール526~548はまた、互いに、ユーザーインターフェース518と、及びバイオセンサー512と直接通信してもよい。また、モジュール526~548は、他のモジュールを介して主制御モジュール524と通信してもよい。
複数のモジュール526~548は、サブシステム508、514、504及び516とそれぞれ通信するシステムモジュール528~532、526を含む。流体制御モジュール528は、流体ネットワークを通る1つ以上の流体の流れを制御するために、流体制御システム508と通信して、流体ネットワークの弁及び流量センサーを制御してもよい。流体貯蔵モジュール530は、流体が少ないとき、又は廃棄物リザーバが満タン容量又はほぼ満タン容量にあるときにユーザーに通知してもよい。流体貯蔵モジュール530はまた、流体が所望の温度で貯蔵され得るように、温度制御モジュール532と通信してもよい。照明モジュール526は、所望の反応(例えば、結合事象)が生じた後など、プロトコル中に指定された時間で反応部位を照明するために、照明システム516と通信してもよい。いくつかの実施態様では、照明モジュール526は、照明システム516と通信して、指定された角度で反応部位を照明してもよい。
複数のモジュール526~548はまた、バイオセンサー512と通信するデバイスモジュール536と、バイオセンサー512に関連する識別情報を決定する識別モジュール538と、を含んでもよい。デバイスモジュール536は、例えば、システム受け部510と通信して、バイオセンサーが配列決定システム500Aとの電気的及び流体的接続を確立したことを確認してもよい。識別モジュール538は、バイオセンサー512を識別する信号を受信してもよい。識別モジュール538は、バイオセンサー512の識別情報を使用して、他の情報をユーザーに提供してもよい。例えば、識別モジュール538は、ロット番号、製造日、又はバイオセンサー512で動作することが推奨されるプロトコルを決定し、その後表示してもよい。
複数のモジュール526~548はまた、バイオセンサー512から信号データ(例えば、画像データ)を受信及び分析する分析モジュール544(信号処理モジュール又は信号プロセッサとも呼ばれる)も含む。分析モジュール544は、検出/画像データを記憶するためのメモリ(例えば、RAM又はフラッシュ)を含む。検出データは、ピクセル信号の複数の配列を含むことができ、それにより、数百万個のセンサー(又はピクセル)のそれぞれからのピクセル信号の配列を、多くのベースコールサイクルにわたって検出することができる。信号データは、その後の分析のために記憶されてもよく、又は所望の情報をユーザーに表示するためにユーザーインターフェース518に送信されてもよい。いくつかの実施態様では、信号データは、分析モジュール544が信号データを受信する前に、固体撮像素子(例えば、CMOS画像センサー)によって処理され得る。
分析モジュール544は、複数の配列決定サイクルのそれぞれにおいて、光検出器から画像データを取得するように構成されている。画像データは、光検出器によって検出される発光信号から導出され、ニューラルネットワークベースのベースコーラー104を介して、複数の配列決定サイクルのそれぞれに対して画像データを処理し、複数の配列決定サイクルのそれぞれで分析物のうちの少なくともいくつかに対するベースコールを生成する。光検出器は、1つ以上のオーバーヘッドカメラ(例えば、バイオセンサー512上のクラスターの画像を上から撮影するIlluminaのGAIIxのCCDカメラ)の一部であってもよく、又はバイオセンサー512自体の一部(例えば、バイオセンサー512上のクラスターの下にあり、底部からのクラスターの画像を取るIlluminaのiSeqのCMOS画像センサー)であってもよい。
光検出器の出力は、それぞれクラスターの強度放射及びそれらの周囲背景を示す配列決定画像である。配列決定画像は、配列決定中に配列にヌクレオチドを組み込む結果として生成される強度放射を示す。強度放射は、関連する検体及びそれらの周囲の背景からのものである。配列決定画像は、メモリ548に記憶される。
プロトコルモジュール540及び542は、メイン制御モジュール524と通信して、所定のアッセイプロトコルを実施する際にサブシステム508、514及び504の動作を制御する。プロトコルモジュール540及び542は、所定のプロトコルに従って特定の動作を実行するように配列決定システム500Aに指示するための命令セットを含み得る。図示のように、プロトコルモジュールは、配列決定ごとの合成プロセスを実行するための様々なコマンドを発行するように構成された、合成による配列決定(Sequencing-By-Synthesis、SBS)モジュール540であってもよい。SBSにおいて、核酸テンプレートに沿った核酸プライマーの伸長を監視して、テンプレート中のヌクレオチド配列を決定する。下にある化学プロセスは、(例えば、ポリメラーゼ酵素により触媒される)又はライゲーション(例えば、リガーゼ酵素により触媒される)であり得る。特定のポリマー系SBSの実施態様では、プライマーに付加されるヌクレオチドの順序及び種類の検出を使用してテンプレートの配列を決定することができるように、蛍光標識ヌクレオチドをテンプレート依存様式でプライマー(それによってプライマーを伸長させる)に添加する。例えば、第1のSBSサイクルを開始するために、1つ以上の標識されたヌクレオチド、DNAポリメラーゼなどを、核酸テンプレートのアレイを収容するフローセル内に/それを介して送達することができる。核酸テンプレートは、対応する反応部位に位置してもよい。プライマー伸長が、組み込まれる標識ヌクレオチドを、撮像事象を通して検出することができる、これらの反応部位が検出され得る。撮像イベントの間、照明システム516は、反応部位に励起光を提供することができる。任意選択的に、ヌクレオチドは、ヌクレオチドがプライマーに付加されると、更なるプライマー伸長を終結する可逆的終結特性を更に含むことができる。例えば、可逆的ターミネーター部分を有するヌクレオチド類似体をプライマーに付加して、デブロッキング作用因子が送達されてその部分を除去するまで、その後の伸長が起こらないようにすることができる。したがって、可逆終端を使用する別の実施態様では、フローセル(検出前又は検出後)にデブロッキング試薬を送達するために、コマンドを与えることができる。1つ以上のコマンドは、様々な送達工程間の洗浄(複数可)をもたらすために与えられ得る。次いで、サイクルをn回繰り返してプライマーをnヌクレオチドだけ伸長させることによって、長さnの配列を検出することができる。例示的な配列決定技術は、例えば、Bentleyら、Nature456:53-59(2005)、国際公開第04/015497号、米国特許第7,057,026号、国際公開第91/06675号、同第07/123744号、米国特許第7,329,492号、同第7,211,414号、同第7,315,019号、同第7,405,251号、及び同第2005/014705052号に記載されており、これらのそれぞれは、参照により本明細書に組み込まれる。
SBSサイクルのヌクレオチド送達工程では、単一の種類のヌクレオチドのいずれかを一度に送達することができ、又は複数の異なるヌクレオチドタイプ(例えば、A、C、T、及びG)を送達することができる。一度に単一の種類のヌクレオチドのみが存在するヌクレオチド送達構成では、異なるヌクレオチドは、個別化された送達に固有の時間的分離に基づいて区別することができるため、異なるヌクレオチドは別個の標識を有する必要はない。したがって、配列決定方法又は装置は、単一の色検出を使用することができる。例えば、励起源は、単一の波長又は単一の波長範囲の励起のみを提供する必要がある。ある時点で、送達がフローセル内に存在する複数の異なるヌクレオチドをもたらすヌクレオチド送達構成では、異なるヌクレオチドタイプを組み込む部位は、混合物中のそれぞれのヌクレオチドタイプに結合された異なる蛍光標識に基づいて区別することができる。例えば、4つの異なる蛍光団のうちの1つをそれぞれ有する4つの異なるヌクレオチドを使用することができる。一実施態様では、4つの異なるフルオロフォアは、スペクトルの4つの異なる領域における励起を使用して区別することができる。例えば、4つの異なる励起放射線源を使用することができる。あるいは、4つ未満の異なる励起源を使用することができるが、単一源からの励起放射線の光学的濾過を使用して、フローセルにおいて異なる励起放射線の範囲を生成することができる。
いくつかの実施態様では、4つ未満の異なる色を、4つの異なるヌクレオチドを有する混合物中で検出することができる。例えば、ヌクレオチドの対は、同じ波長で検出することができるが、対のうちの1つのメンバーに対する強度の差に基づいて、又は、対の他の部材について検出された信号と比較して明らかなシグナルを出現又は消失させる、対の1つのメンバーへの変化(例えば、化学修飾、光化学修飾、又は物理的改質を行うことを介して)に基づいて区別され得る。4個未満の色の検出を使用して4個の異なるヌクレオチドを区別するための例示的な装置及び方法が、例えば、米国特許出願第61/535294号及び同第61/619,575号に記載されており、それらの全体が参照により本明細書に組み込まれる。2012年9月21日に出願された米国特許出願第13/624,200号は、その全体が参照により組み込まれる。
複数のプロトコルモジュールはまた、バイオセンサー512内の製品を増幅するための流体制御システム508及び温度制御システム504にコマンドを発行するように構成された試料調製(又は生成)モジュール542を含んでもよい。例えば、バイオセンサー512は、配列決定システム500Aに係合されてもよい。増幅モジュール542は、バイオセンサー512内の反応チャンバに必要な増幅成分を送達するように、流体制御システム508に命令を発行することができる。他の実施態様では、反応部位は、テンプレートDNA及び/又はプライマーなどの増幅のためのいくつかの成分を既に含有していてもよい。増幅成分を反応チャンバに送達した後、増幅モジュール542は、既知の増幅プロトコルに従って異なる温度段階を通して温度制御システム504にサイクルするように指示し得る。いくつかの実施態様では、増幅及び/又はヌクレオチドの取り込みは、等温的に実施される。
SBSモジュール540は、クローン性アンプリコンのクラスターがフローセルのチャネル内の局所領域上に形成されるブリッジPCRを実行するコマンドを発行することができる。ブリッジPCRを介してアンプリコンを生成した後、アンプリコンを「線形化」して、一本鎖テンプレートDNAを作製してもよく、sstDNA及び配列決定プライマーは、関心領域に隣接する普遍配列にハイブリダイズされてもよい。例えば、合成方法による可逆的ターミネーター系配列決定を、上記のように又は以下のように使用することができる。
各ベースコール又は配列決定サイクルは、例えば、修飾DNAポリメラーゼ及び4種類のヌクレオチドの混合物を使用することによって達成することができる単一の塩基によってsstDNAを延長することができる。異なる種類のヌクレオチドは、固有の蛍光標識を有することができ、各ヌクレオチドは、各サイクルにおいて単一塩基の組み込みのみが生じることを可能にする可逆的ターミネーターを更に有し得る。単一の塩基をsstDNAに添加した後、励起光が反応部位に入射し、蛍光発光を検出することができる。検出後、蛍光標識及びターミネーターは、sstDNAから化学的に切断され得る。別の同様の基本コーリング又は配列決定サイクルは、以下の通りであってもよい。そのような配列決定プロトコルでは、SBSモジュール540は、バイオセンサー512を通る試薬及び酵素溶液の流れを方向付けるように流体制御システム508に指示することができる。本明細書に記載される装置及び方法と共に利用することができる例示的な可逆性ターミネーターベースのSBS方法は、米国特許出願公開第2007/0166705(A1)号、同第2006/01563901(A1)号、米国特許第7,057,026号、米国特許出願公開第2006/0240439(A1)号、同第2006/02514714709(A1)号、国際公開第05/065514号、米国特許出願公開第2005/014700900(A1)号、国際公開第06/05B199号及び国際公開第07/01470251号(それぞれ参照によりその全体が本明細書に組み込まれる)に記載されている。可逆性ターミネーターベースのSBSの例示的な試薬が、米国特許第7,541,444号、同第7,057,026号、同第7,414,14716号、同第7,427,673号、同第7,566,537号、同第7,592,435号、及び国際公開第07/14535365号に記載されており、これらのそれぞれは、参照により本明細書に組み込まれる。
いくつかの実施態様では、増幅及びSBSモジュールは、単一のアッセイプロトコルで動作してもよく、例えば、テンプレート核酸は増幅され、続いて同じカートリッジ内で配列される。
配列決定システム500Aはまた、ユーザーがアッセイプロトコルを再構成することを可能にし得る。例えば、配列決定システム500Aは、決定されたプロトコルを修正するために、ユーザーインターフェース518を通じてユーザーにオプションを提供し得る。例えば、バイオセンサー512が増幅のために使用されると判定された場合、配列決定システム500Aは、アニーリングサイクルの温度を要求し得る。更に、配列決定システム500Aは、選択されたアッセイプロトコルに対して一般的に許容されないユーザー入力をユーザーが提供した場合に、ユーザーに警告を発行し得る。
実施態様では、バイオセンサー512は、センサー(又はピクセル)のミリオンを含み、それらのそれぞれは、連続するベースコールサイクルにわたって複数のピクセル信号の配列を生成する。分析モジュール544は、センサーのアレイ上のセンサーの行方向及び/又は列方向の場所に従って、ピクセル信号の複数の配列を検出し、それらを対応するセンサー(又はピクセル)に属させる。
構成可能プロセッサ
図5Cは、ベースコールセンサー出力などの配列決定システム500Aからのセンサーデータの分析のためのシステムの簡略ブロック図である。図5Cの例では、システムは、構成可能プロセッサ546を含む。構成可能プロセッサ546は、中央処理ユニット(central processing unit、CPU)552(すなわち、ホストプロセッサ)によって実行されるランタイムプログラムと協調して、ベースコーラー(例えば、ニューラルネットワークベースのベースコーラー104)を実行し得る。配列決定システム500Aは、バイオセンサー512及びフローセルを含む。フローセルは、遺伝物質のクラスターが、遺伝物質中の塩基を識別するためにクラスター内の反応を引き起こすために使用される一連の検体フローに曝露される1つ以上のタイルを含み得る。センサーは、タイルデータを提供するために、フローセルの各タイルにおける配列の各サイクルの反応を感知する。遺伝的配列決定はデータ集約的操作であり、このデータ集約的動作は、ベースコールセンサーデータを、ベースコール動作中に感知された各遺伝物質群のベースコールの配列に変換する。
本実施例のシステムは、ベースコール動作を調整するための実行時プログラムを実行するCPU552と、タイルデータのアレイの配列、ベースコール動作によって生成されたベースコールリード、及びベースコール動作で使用される他の情報を記憶するためのメモリ548Bと、を含む。また、この図では、システムは、構成ファイル(単数又は複数)、例えば、FPGAビットファイル、並びに構成可能プロセッサ546を構成及び再構成し、ニューラルネットワークを実行するために使用されるニューラルネットワークのモデルパラメータを記憶しするメモリ548Aを含む。配列決定システム500Aは、構成可能プロセッサを構成するためのプログラムを含み得、いくつかの実施態様では、ニューラルネットワークを実行する再構成可能プロセッサを含み得る。
配列決定システム500Aは、バス589によって構成可能プロセッサ546に結合される。バス589は、高スループット技術、例えば、一実施例では、PCI-SIG規格(PCI Special Interest Group)によって現在維持及び開発されているPCIe規格(Peripheral Component Interconnect Express)と互換性のあるバス技術を使用して実装され得る。また、この実施例では、メモリ548Aは、バス593によって構成可能プロセッサ546に結合される。メモリ548Aは、構成可能プロセッサ546を有する回路基板上に配設されたオンボードメモリであってもよい。メモリ548Aは、ベースコール動作で使用される作業データの構成可能プロセッサ546による高速アクセスに使用される。バス593はまた、PCIe規格と互換性のあるバス技術などの高スループット技術を使用して実装され得る。
フィールドプログラマブルゲートアレイFPGA、粗いグレー構成可能な再構成可能アレイCGRAs、並びに他の構成可能かつ再構成可能なデバイスを含む構成可能なプロセッサは、コンピュータプログラムを実行する汎用プロセッサを使用して達成され得るよりも、より効率的に又はより高速に様々な機能を実装するように構成することができる。構成可能なプロセッサの構成は、時にはビットストリーム又はビットファイルと称される構成ファイルを生成するために機能的な説明を編集することと、構成ファイルをプロセッサ上の構成可能要素に配布することと、を含む。構成ファイルは、データフローパターンを設定するように回路を構成することにより、分散メモリ及び他のオンチップメモリリソースの使用、ルックアップテーブルコンテンツ、構成可能な論理ブロックの動作、及び構成可能な論理ブロックの動作、及び構成可能なアレイの構成可能な相互接続及び他の要素のような構成可能な実行ユニットとを含む。構成ファイルがフィールド内で変更され得る場合、ロードされた構成ファイルを変更することによって構成ファイルを変更することができる場合に再構成可能である。例えば、構成ファイルは、揮発性SRAM要素内に、不揮発性読み書きメモリ素子内に記憶されてもよく、構成可能又は再構成可能なプロセッサ上の構成可能要素のアレイ間に分散されたものであってもよい。様々な市販の構成可能なプロセッサは、本明細書に記載されるようなベースコール動作において使用するのに好適である。例としては、Googleのテンソル処理ユニット(TPU)(商標)、GX4 Rackmount Series(商標)、GX9 Rackmount Series(商標)、NVIDIA DGX-1(商標)、Microsoft’Stratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、QualcommのZeroth Platform(商標)(Snapdragon processors(商標)、NVIDIA Volta(商標)、NVIDIAのドライブPX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、Intel’s NirvanaTM、Movidius VPU(商標)、Fujitsu DPI(商標)、アームDynamicIQ(商標)、IBM TrueNorth(商標)、Lambda GPU Server with Testa V100s(商標)、Xilinx Alveo(商標)U200、Xilinx Alveo(商標)U250、Xilinx Alveo(商標)U280、Intel/Altera Stratix(商標)GX2800、Intel/Altera Stratix(商標)GX2800、及びIntel Stratix(商標)GX10M、が含まれる。いくつかの実施例では、ホストCPUは、構成可能プロセッサと同じ集積回路上に実装することができる。
本明細書に記載の実施態様は、構成可能プロセッサ546を使用して、ニューラルネットワークベースのベースコーラー104を実装する。構成可能プロセッサ546の構成ファイルは、高レベルの記述言語HDL又はレジスタ転送レベルRTL言語仕様を使用して実行されるロジック機能を指定することによって実装され得る。本明細書は、選択された構成可能プロセッサが構成ファイルを生成するように設計されたリソースを使用してコンパイルすることができる。構成可能なプロセッサではない場合がある特定用途向け集積回路の設計を生成する目的で、同じ又は類似の仕様をコンパイルすることができる。
したがって、本明細書に記載される全ての実施態様における構成可能プロセッサ構成可能プロセッサ546の代替例は、本明細書に記載されるようなニューラルネットワークベースのベースコール動作を実行するように構成された、特定用途向けASIC若しくは専用集積回路若しくは集積回路のセットを含む構成されたプロセッサ、又はシステムオンチップSOCデバイス、又はシステムオンチップSOCデバイス、又はグラフィック処理ユニット(GPU)プロセッサ若しくは粗粒度再構成可能アーキテクチャ(Coarse-Grained Reconfigurable Architecture、CGRA)プロセッサを含む。
一般に、ニューラルネットワークの動作を実行するように構成された、本明細書に記載の構成可能なプロセッサ及び構成されたプロセッサは、本明細書ではニューラルネットワークプロセッサと称される。
構成可能プロセッサ546は、この実施例では、構成可能プロセッサ上で構成可能要素591のアレイ(例えば、構成ロジックブロック(Configuration Logic Block、CLB)、例えばルックアップテーブル(Look Up Table、LUT)、フリップフロップ、演算処理ユニット(PMU)、及び計算メモリユニット(Compute Memory Unit、CMU)、構成可能なI/Oブロック、プログラマブル相互接続)を構成する、CPU552によって実行されるプログラムを使用してロードされる構成ファイル又は他のソースによって、ベースコール関数を実行するように構成されている。この実施例では、構成は、バス589及び593に結合され、ベースコール動作で使用される要素間でデータ及び制御パラメータを分散するための関数を実行するデータフローロジック597を含む。
また、構成可能プロセッサ546は、データフローロジック597を用いて構成されて、ニューラルネットワークベースのベースコーラー104を実行する。ロジック597は、マルチサイクル実行クラスター(例えば、579)を含み、この実施例では、実行クラスターXを介した実行クラスター1を含む。マルチサイクル実行クラスターの数は、動作の所望のスループットを伴うトレードオフ、及び構成可能プロセッサ546上の利用可能なリソースに従って選択され得る。
マルチサイクル実行クラスターは、構成可能プロセッサ546上の構成可能な相互接続及びメモリリソースを使用して実装されるデータ流路599によってデータフローロジック597に結合される。また、マルチサイクル実行クラスターは、構成可能な相互接続及びメモリリソースを使用して、例えば構成可能プロセッサ546上に実装される制御経路595によってデータフローロジック597に結合され、利用可能な実行クラスターを示す制御信号、ニューラルネットワークベースのベースコーラー104の動作の実行のための入力ユニットを利用可能な実行クラスターに提供するための準備、ニューラルネットワークベースのベースコーラー104の学習されたパラメータを提供するための準備、ベースコール分類データの出力パッチを提供するための準備、並びにニューラルネットワークベースのベースコーラー104の実行に使用される他の制御データを提供する。
構成可能プロセッサ546は、学習されたパラメータを使用してニューラルネットワークベースのベースコーラー104の動作を実行して、ベースコール動作の検知サイクルに関する分類データを生成するように構成されている。ニューラルネットワークベースのベースコーラー104の動作を実行して、ベースコール動作の被験者検知サイクルの分類データを生成する。ニューラルネットワークベースのベースコーラー104の動作は、N個の検知サイクルのそれぞれの検知サイクルからのタイルデータのアレイの数Nを含む配列で動作し、N回の検知サイクルは、本明細書に記載される例での時間配列における動作ごとの1つの塩基位置に対する異なるベースコール動作のためのセンサーデータを提供する。任意選択的に、N個の感知サイクルのうちのいくつかは、実行される特定のニューラルネットワークモデルに従って必要に応じて、配列から出ることができる。数Nは、1を超える任意の数であり得る。本明細書に記載されるいくつかの実施例では、N個の検知サイクルの検知サイクルは、被験者の検知サイクルに先行する少なくとも1つの検知サイクル、及び被験者サイクルの後の少なくとも1回の検知サイクルについての検知サイクルのセットを表す。本明細書では、数Nが5以上の整数である、実施例が記載される。
データフローロジック597は、N個のアレイの空間的に位置合わせされたパッチのタイルデータを含む所与の動作のための入力ユニットを使用して、ニューラルネットワークベースのベースコーラー104の動作のために、メモリ548Aから構成可能プロセッサ546に、タイルデータ及びモデルパラメータの少なくともいくつかの学習されたパラメータを移動させるように構成されている。入力ユニットは、1回のDMA動作におけるダイレクトメモリアクセス動作によって、又は、配備されたニューラルネットワークの実行と協調して、利用可能なタイムスロットの間に移動するより小さいユニット内で移動させることができる。
本明細書に記載される感知サイクルのタイルデータは、1つ以上の特徴を有するセンサーデータのアレイを含むことができる。例えば、センサーデータは、DNA、RNA、又は他の遺伝物質の遺伝的配列における塩基位置で4塩基のうちの1つを識別するために分析される2つの画像を含むことができる。タイルデータはまた、画像及びセンサーに関するメタデータを含むことができる。例えば、ベースコール動作の実施態様では、タイルデータは、タイル上の遺伝物質群の中心からのセンサーデータのアレイ内の各ピクセルの距離を示す中心情報からの距離などの、クラスターとの画像の位置合わせに関する情報を含むことができる。
以下に記載されるように、ニューラルネットワークベースのベースコーラー104の実行中に、タイルデータはまた、ニューラルネットワークベースのベースコーラー104の実行中に生成されるデータも含み得る。このデータは、ニューラルネットワークベースのベースコーラー104の動作中に再計算されるのではなく再使用することができる中間データと称される。例えば、ニューラルネットワークベースのベースコーラー104の実行中に、データフローロジック597は、タイルデータのアレイの所与のパッチのセンサーデータの代わりに、中間データをメモリ548Aに書き込むことができる。このような実施態様は、以下により詳細に記載される。
図示されているように、ベースコール動作の検知サイクルからタイルのセンサーデータを含むタイルデータを記憶する実行時プログラムによってアクセス可能なメモリ(例えば、548A)を含む、ベースコールセンサー出力の分析のためのシステムが説明される。また、システムは、メモリへのアクセスを有する構成可能プロセッサ546などのニューラルネットワークプロセッサを含む。ニューラルネットワークプロセッサは、訓練されたパラメータを使用してニューラルネットワークの動作を実行して、感知サイクルのための分類データを生成するように構成される。本明細書に記載されるように、ニューラルネットワークの動作は、被験者サイクルを含むN個の感知サイクルのそれぞれの感知サイクルからタイルデータのN個のアレイの配列で動作して、被験者サイクルの分類データを生成する。データフローロジック908は、N個の感知サイクルのそれぞれの検知サイクルからのN個のアレイの空間的に位置合わせされたパッチのデータを含む入力ユニットを使用して、ニューラルネットワークの実行のために、メモリからニューラルネットワークプロセッサにタイルデータ及び訓練されたパラメータを移動させるために提供される。
また、ニューラルネットワークプロセッサがメモリへのアクセスを有し、複数の実行クラスターを含み、ニューラルネットワークを実行するように構成された複数の実行クラスター内の実行クラスターを含むシステムも説明される。データフローロジック597は、複数の実行クラスター内の利用可能な実行クラスターにタイルデータの入力ユニットを提供することであって、入力ユニットは、被験者検知サイクルを含むそれぞれの検知サイクルからタイルデータのアレイのN個の空間的に位置合わせされたパッチを含む、ことと、実行クラスターに、N個の空間的に位置合わせされたパッチをニューラルネットワークに適用して、被験者検知サイクルの空間的に位置合わせされたパッチに対する分類データの出力パッチを生成させることであって、Nは1より大きい、ことと、を行うために、メモリへのアクセス及び複数の実行クラスターの中の実行クラスターへのアクセスを有する。
データフローロジック
図6は、ホストプロセッサが、構成可能プロセッサ上で動作するニューラルネットワークによって予測されるベースコールに基づいて信頼できないクラスターをフィルタリングすることを可能にし、更に、構成可能プロセッサが、信頼できないクラスターを識別するデータを使用して信頼できる残りの中間表現を生成することを可能にする、開示されたデータフローロジックの一実施態様を示す。
アクション1では、データフローロジック597は、メモリ548Bから初期クラスターデータを要求する。初期クラスターデータは、上述のように、配列決定動作の初期配列決定サイクル、すなわち、配列決定動作の配列決定サイクルの第1のサブセットにおけるクラスターの強度放射を示す配列決定画像を含む。例えば、初期クラスターデータは、配列決定動作の最初の25配列決定サイクル(初期配列決定サイクル)の配列決定画像を含み得る。
クラスターは、高い空間密度(例えば、低マイクロメートル又はサブマイクロメートルの解像度)でフローセル上に配置されるため、初期クラスターデータの配列決定画像は、信頼できるクラスター及び信頼できないクラスターの両方を含み得る複数のクラスターからの強度放射を示すことに留意されたい。すなわち、特定の信頼できないクラスターが特定の信頼できるクラスターに隣接している場合、初期クラスターデータの配列決定画像は複数のクラスターから放出された光又は信号を捕捉する光学解像度で捕捉されるため、初期クラスターデータの対応する配列決定画像は、信頼できないクラスター及び信頼できるクラスターの両方からの強度放射を示す。
アクション2では、メモリ548Bは、初期クラスターデータをデータフローロジック597に送信する。
アクション3では、データフローロジック597は、初期クラスターデータを構成可能プロセッサ546に提供する。
アクション4では、構成可能プロセッサ546上で動作するニューラルネットワークベースのベースコーラー104は、初期クラスターデータから初期中間表現(例えば、特徴マップ)を生成し(例えば、その空間及び時間的畳み込み層を介して初期クラスターデータを処理することによる)、初期中間表現に基づいて、複数のクラスターに対する、及び初期配列決定サイクルに対する初期ベースコール分類スコアを生成する。一実施態様では、初期ベースコール分類スコアは正規化されず、例えば、ソフトマックス関数による指数正規化に供されない。
アクション5では、構成可能プロセッサ546は、正規化されない初期ベースコール分類スコアをデータフローロジック597に送信する。
アクション6では、データフローロジック597は、正規化されない初期ベースコール分類スコアをホストプロセッサ552に提供する。
アクション7では、ホストプロセッサ552は、正規化されない初期ベースコール分類スコアを正規化し(例えば、ソフトマックス関数を適用することによる)、正規化された初期ベースコール分類スコア、すなわち初期ベースコールを生成する。
アクション8では、ホストプロセッサ552上で動作する検出及びフィルタリングロジック146は、正規化された初期ベースコール分類スコア/初期ベースコールを使用して、「信頼できないクラスターの検出及びフィルタリング」という表題のセクションで上述したように、フィルタ値の生成に基づいて、複数のクラスターの中の信頼できないクラスターを識別する。
アクション9では、ホストプロセッサ552は、信頼できないクラスターを識別するデータをデータフローロジック597に送信する。信頼できないクラスターは、器具ID、機器上のラン番号、フローセルID、レーン番号、タイル番号、クラスターのX座標、クラスターのY座標、及び固有の分子識別子(UMI)によって識別することができる。
アクション10では、データフローロジック597は、メモリ548Bからの残りのクラスターデータを要求する。残りのクラスターデータは、上述のように、配列決定動作の残りの配列決定サイクル、すなわち配列決定動作の配列決定サイクルの第1のサブセットを含まない配列決定動作の配列決定サイクルにおけるクラスターの強度放射を示す配列決定画像を含む。例えば、残りのクラスターデータは、100サイクル配列決定動作の26~100回目の配列決定サイクル(最後の75配列決定サイクル)の配列画像を含み得る。
クラスターは、高い空間密度(例えば、低マイクロメートル又はサブマイクロメートルの解像度)でフローセル上に配置されるため、残りのクラスターデータの配列決定画像は、信頼できるクラスター及び信頼できないクラスターの両方を含み得る複数のクラスターからの強度放射を示すことに留意されたい。すなわち、特定の信頼できないクラスターが特定の信頼できるクラスターに隣接している場合、残りのクラスターデータの配列決定画像は複数のクラスターから放出された光又は信号を捕捉する光学解像度で捕捉されるため、残りのクラスターデータの対応する配列決定画像は、信頼できないクラスター及び信頼できるクラスターの両方からの強度放射を示す。
アクション11では、メモリ548Bは、残りのクラスターデータをデータフローロジック597に送信する。
アクション12では、データフローロジック597は、信頼できないクラスターを識別するデータを構成可能プロセッサ546に送信する。信頼できないクラスターは、器具ID、機器上のラン番号、フローセルID、レーン番号、タイル番号、クラスターのX座標、クラスターのY座標、及び固有の分子識別子(UMI)によって識別することができる。
アクション13では、データフローロジック597は、残りのクラスターデータを構成可能プロセッサ546に送信する。
アクション14では、構成可能プロセッサ546上で動作するニューラルネットワークベースのベースコーラー104は、残りのクラスターデータから残りの中間表現(例えば、特徴マップ)を生成する(例えば、その空間畳み込み層を介して残りのクラスターデータを処理することによる)。構成可能プロセッサ546は、信頼できないクラスターを識別するデータを使用して、残りの中間表現から、残りのクラスターデータの部分から生じる信頼できないクラスターを表す部分を除去することによって、信頼できる残りの中間表現を生成する。一実施態様では、信頼できないクラスターを識別するデータは、初期クラスターデータ及び残りのクラスターデータにおける信頼できないクラスターの強度放射を示すピクセルを識別する。いくつかの実施態様では、構成可能プロセッサ546は、ニューラルネットワークベースのベースコーラー104によって残りのクラスターデータから生成されたピクセル化された特徴マップから、残りの配列決定サイクルに対して捕捉された信頼できないクラスターの強度放射を示す、残りのクラスターデータのピクセルから生じる特徴マップピクセルを破棄することによって、信頼できる残りの中間表現を生成するように更に構成されている。
アクション15では、構成可能プロセッサ546は、信頼できる残りの中間表現をニューラルネットワークベースのベースコーラー104に提供し、ニューラルネットワークベースのベースコーラー104に、複数のクラスターの中の、信頼できないクラスターではないクラスターに対する、及び残りの配列決定サイクルに対する残りのベースコール分類スコアのみを生成させることによって、信頼できないクラスターに対する残りのベースコール分類スコアの生成をバイパスするように更に構成されている。一実施態様では、残りのベースコール分類スコアは正規化されず、例えば、ソフトマックス関数による指数正規化に供されない。
アクション16では、構成可能プロセッサ546は、正規化されない残りのベースコール分類スコアをデータフローロジック597に送信する。
アクション17では、データフローロジック597は、正規化されない残りのベースコール分類スコアをホストプロセッサ552に提供する。
アクション18では、ホストプロセッサ552は、正規化されない残りのベースコール分類スコアを正規化し(例えば、ソフトマックス関数を適用することによる)、正規化された残りのベースコール分類スコア、すなわち残りのベースコールを生成する。
図7は、ホストプロセッサが、構成可能プロセッサ上で動作するニューラルネットワークによって予測されるベースコールに基づいて信頼できないクラスターをフィルタリングすることを可能にし、更に、ホストプロセッサが、信頼できないクラスターを識別するデータを使用して信頼できるクラスターのみをベースコールすることを可能にする、開示されたデータフローロジックの別の実施態様を示す。
アクション1では、データフローロジック597は、メモリ548Bから初期クラスターデータを要求する。初期クラスターデータは、上述のように、配列決定動作の初期配列決定サイクル、すなわち、配列決定動作の配列決定サイクルの第1のサブセットにおけるクラスターの強度放射を示す配列決定画像を含む。例えば、初期クラスターデータは、配列決定動作の最初の25配列決定サイクル(初期配列決定サイクル)の配列決定画像を含み得る。
クラスターは、高い空間密度(例えば、低マイクロメートル又はサブマイクロメートルの解像度)でフローセル上に配置されるため、初期クラスターデータの配列決定画像は、信頼できるクラスター及び信頼できないクラスターの両方を含み得る複数のクラスターからの強度放射を示すことに留意されたい。すなわち、特定の信頼できないクラスターが特定の信頼できるクラスターに隣接している場合、初期クラスターデータの配列決定画像は複数のクラスターから放出された光又は信号を捕捉する光学解像度で捕捉されるため、初期クラスターデータの対応する配列決定画像は、信頼できないクラスター及び信頼できるクラスターの両方からの強度放射を示す。
アクション2では、メモリ548Bは、初期クラスターデータをデータフローロジック597に送信する。
アクション3では、データフローロジック597は、初期クラスターデータを構成可能プロセッサ546に提供する。
アクション4では、構成可能プロセッサ546上で動作するニューラルネットワークベースのベースコーラー104は、初期クラスターデータから初期中間表現(例えば、特徴マップ)を生成し(例えば、その空間及び時間的畳み込み層を介して初期クラスターデータを処理することによる)、初期中間表現に基づいて、複数のクラスターに対する、及び初期配列決定サイクルに対する初期ベースコール分類スコアを生成する。一実施態様では、初期ベースコール分類スコアは正規化されず、例えば、ソフトマックス関数による指数正規化に供されない。
アクション5では、構成可能プロセッサ546は、正規化されない初期ベースコール分類スコアをデータフローロジック597に送信する。
アクション6では、データフローロジック597は、正規化されない初期ベースコール分類スコアをホストプロセッサ552に提供する。
アクション7では、ホストプロセッサ552は、正規化されない初期ベースコール分類スコアを正規化し(例えば、ソフトマックス関数を適用することによる)、正規化された初期ベースコール分類スコア、すなわち初期ベースコールを生成する。
アクション8では、ホストプロセッサ552上で動作する検出及びフィルタリングロジック146は、正規化された初期ベースコール分類スコア/初期ベースコールを使用して、「信頼できないクラスターの検出及びフィルタリング」という表題のセクションで上述したように、フィルタ値の生成に基づいて、複数のクラスターの中の信頼できないクラスターを識別する。
アクション9では、ホストプロセッサ552は、信頼できないクラスターを識別するデータをデータフローロジック597に送信する。
アクション10では、データフローロジック597は、メモリ548Bからの残りのクラスターデータを要求する。残りのクラスターデータは、上述のように、配列決定動作の残りの配列決定サイクル、すなわち配列決定動作の配列決定サイクルの第1のサブセットを含まない配列決定動作の配列決定サイクルにおけるクラスターの強度放射を示す配列決定画像を含む。例えば、残りのクラスターデータは、100サイクル配列決定動作の26~100回目の配列決定サイクル(最後の75配列決定サイクル)の配列画像を含み得る。
クラスターは、高い空間密度(例えば、低マイクロメートル又はサブマイクロメートルの解像度)でフローセル上に配置されるため、残りのクラスターデータの配列決定画像は、信頼できるクラスター及び信頼できないクラスターの両方を含み得る複数のクラスターからの強度放射を示すことに留意されたい。すなわち、特定の信頼できないクラスターが特定の信頼できるクラスターに隣接している場合、残りのクラスターデータの配列決定画像は複数のクラスターから放出された光又は信号を捕捉する光学解像度で捕捉されるため、残りのクラスターデータの対応する配列決定画像は、信頼できないクラスター及び信頼できるクラスターの両方からの強度放射を示す。
アクション11では、メモリ548Bは、残りのクラスターデータをデータフローロジック597に送信する。
アクション12では、データフローロジック597は、残りのクラスターデータを構成可能プロセッサ546に送信する。
アクション13では、構成可能プロセッサ546上で動作するニューラルネットワークベースのベースコーラー104は、残りのクラスターデータから残りの中間表現(例えば、特徴マップ)を生成する(例えば、その空間及び時間的畳み込み層を介して残りのクラスターデータを処理することによる)。ニューラルネットワークベースのベースコーラー104は、残りの中間表現に基づいて、複数のクラスターに対する、及び残りの配列決定サイクルに対する残りのベースコール分類スコアを更に生成する。一実施態様では、残りのベースコール分類スコアは正規化されず、例えば、ソフトマックス関数による指数正規化に供されない。
アクション14では、構成可能プロセッサ546は、正規化されない残りのベースコール分類スコアをデータフローロジック597に送信する。
アクション15では、データフローロジック597は、信頼できないクラスターを識別するデータをホストプロセッサ552に送信する。
アクション16では、データフローロジック597は、正規化されない残りのベースコール分類スコアをホストプロセッサ552に提供する。
アクション17では、ホストプロセッサ552は、正規化されない残りのベースコール分類スコアを正規化し(例えば、ソフトマックス関数を適用することによる)、信頼できないクラスターを識別するデータを使用して、複数のクラスターの中の、信頼できないクラスターではないクラスターのみをベースコールすることによって正規化された残りのベースコール分類スコア、すなわち、残りのベースコールを生成することによって、残りの配列決定サイクルにおける信頼できないクラスターのベースコールをバイパスする。一実施態様では、信頼できないクラスターを識別するデータは、信頼できないクラスターの位置座標を識別する。
図8は、ホストプロセッサが、構成可能プロセッサ上で動作するニューラルネットワークによって予測されるベースコールに基づいて信頼できないクラスターをフィルタリングすることを可能にし、更に信頼できないクラスターを識別するデータを使用して、信頼できる残りのクラスターごとのデータを生成する、開示されたデータフローロジックの更に別の実施態様を示す。
アクション1では、データフローロジック597は、メモリ548Bから初期のクラスターごとのデータを要求する。クラスターごとのデータは、配列決定画像から抽出され、ベースコールされるターゲットクラスターを中心とする画像パッチを指す。画像パッチの中心ピクセルは、ターゲットクラスターの中心を含む。画像パッチは、ターゲットクラスターに加えて、ターゲットクラスターに隣接する追加のクラスターからの信号も示す。初期のクラスターごとのデータは、上述のように、ターゲットクラスターを中心とする画像パッチを含み、配列決定動作の初期配列決定サイクル、すなわち、配列決定動作の配列決定サイクルの第1のサブセットにおけるターゲットクラスターの強度放射を示す。例えば、初期のクラスターごとのデータは、配列決定動作の最初の25配列決定サイクル(初期配列決定サイクル)の画像パッチを含み得る。
アクション2では、メモリ548Bは、初期のクラスターごとのデータをデータフローロジック597に送信する。
アクション3では、データフローロジック597は、初期のクラスターごとのデータを構成可能プロセッサ546に提供する。
アクション4では、構成可能プロセッサ546上で動作するニューラルネットワークベースのベースコーラー104は、初期のクラスターごとのデータから初期の中間表現(例えば、特徴マップ)を生成し(例えば、その空間及び時間的畳み込み層を介して初期のクラスターごとのデータを処理することによる)、初期中間表現に基づいて、複数のクラスターに対する、及び初期配列決定サイクルに対する初期ベースコール分類スコアを生成する。一実施態様では、初期ベースコール分類スコアは正規化されず、例えば、ソフトマックス関数による指数正規化に供されない。
アクション5では、構成可能プロセッサ546は、正規化されない初期ベースコール分類スコアをデータフローロジック597に送信する。
アクション6では、データフローロジック597は、正規化されない初期ベースコール分類スコアをホストプロセッサ552に提供する。
アクション7では、ホストプロセッサ552は、正規化されない初期ベースコール分類スコアを正規化し(例えば、ソフトマックス関数を適用することによる)、正規化された初期ベースコール分類スコア、すなわち初期ベースコールを生成する。
アクション8では、ホストプロセッサ552上で動作する検出及びフィルタリングロジック146は、正規化された初期ベースコール分類スコア/初期ベースコールを使用して、「信頼できないクラスターの検出及びフィルタリング」という表題のセクションで上述したように、フィルタ値の生成に基づいて、複数のクラスターの中の信頼できないクラスターを識別する。
アクション9では、ホストプロセッサ552は、信頼できないクラスターを識別するデータをデータフローロジック597に送信する。信頼できないクラスターは、器具ID、機器上のラン番号、フローセルID、レーン番号、タイル番号、クラスターのX座標、クラスターのY座標、及び固有の分子識別子(UMI)によって識別することができる。
アクション10では、データフローロジック597は、メモリ548Bからの残りのクラスターごとのデータを要求する。残りのクラスターごとのデータは、上述のように、ターゲットクラスターを中心とする画像パッチを含み、配列決定動作の残りの配列決定サイクル、すなわち配列決定動作の配列決定サイクルの第1のサブセットを含まない配列決定動作の配列決定サイクルにおけるターゲットクラスターの強度放射を示す。例えば、残りのクラスターごとのデータは、100サイクル配列決定動作の26~100回目の配列決定サイクル(最後の75配列決定サイクル)の画像パッチを含み得る。
アクション11では、メモリ548Bは、残りのクラスターごとのデータをデータフローロジック597に送信する。
アクション12では、データフローロジック597は、信頼できないクラスターを識別するデータを使用して、残りのクラスターごとのデータから、信頼できないクラスターを表すクラスターごとのデータを除去することによって、信頼できる残りのクラスターごとのデータを生成する。
アクション13では、データフローロジック597は、信頼できる残りのクラスターごとのデータを構成可能プロセッサ546に提供する。
アクション14では、構成可能プロセッサ546上で動作するニューラルネットワークベースのベースコーラー104は、複数のクラスターの中の、信頼できないクラスターではないクラスターに対する、及び残りの配列決定サイクルに対する残りのベースコール分類スコアのみを生成させることによって、信頼できないクラスターに対する残りのベースコール分類スコアの生成をバイパスするように更に構成されている。一実施態様では、残りのベースコール分類スコアは正規化されず、例えば、ソフトマックス関数による指数正規化に供されない。
アクション15では、構成可能プロセッサ546は、正規化されない残りのベースコール分類スコアをデータフローロジック597に送信する。
アクション16では、データフローロジック597は、正規化されない残りのベースコール分類スコアをホストプロセッサ552に提供する。
アクション17では、ホストプロセッサ552は、正規化されない残りのベースコール分類スコアを正規化し(例えば、ソフトマックス関数を適用することによる)、正規化された残りのベースコール分類スコア、すなわち残りのベースを生成する。
技術的改善
図9、図10、図11、図12、及び図13は、本明細書に開示され、「DeepRTA」と称されるデータフローロジックと、Real-Time Analysis(RTA)ソフトウェアと呼ばれるIlluminaの従来のベースコーラーとの対比による空のウェル及び非空ウェルの検出の比較分析の結果を示す。
図9では、3つのプロット全てにおいて、x軸は、最初の25サイクルにわたる最小スコア差であり、スコア差は、最も高い尤度から2番目に高い尤度を差し引いた結果である。y軸は、1つのタイル内のクラスターの数である。第1のプロットは、RTAチャスティティフィルタを通過したクラスターでの結果である。中間プロットは空のウェル(RTAによると、これらのナノウェルにクラスターがない)についてのものである。第3のプロットは、RTAチャスティティフィルタに失敗したクラスターでの結果である。RTAチャスティティフィルタを使用して信頼できないものとして検出されたクラスターの多数は、最初の25サイクルにおける低スコア差の少なくとも1つのインスタンスを有する。
図10では、1つのタイルの位置合わせメトリックが示されている。最後の列は、RTAチャスティティフィルタ及びRTAベースコールに基づいて信頼できるクラスターを使用する位置合わせメトリックを示す。最後から2つ目は、RTAチャスティティフィルタ及びDeepRTAベースコールに基づいて信頼できるクラスターを使用する位置合わせメトリックを示す。最初の2列は、開示されたデータフローロジックに基づいてDeepRTAベースコール及び信頼できるクラスターを使用する位置合わせメトリックであり、閾値は0.8(第1の列)、又は0.9(第2の列)であり、最初の25サイクルのうちの2つは、信頼できないと見なされる閾値を満たしていない必要がある。
図11では、図10と同様に、0.97閾値が追加されている。開示されたデータフローロジック及び閾値0.97を使用すると、同様の(又はより良い)位置合わせメトリックを維持しながら、RTAチャスティティフィルタを使用することと比較してより多くのクラスターが信頼できるものとして検出される。
図12は、配列決定動作の18個のタイルからのデータに基づく位置合わせメトリックを示す。第1の列は、閾値0.97を使用したDeepRTAベースコール及び信頼できるクラスターであり(最高尤度から2番目に高い尤度を差し引く)、最初の25サイクルのうちの2つは、信頼できないと見なされる閾値を下回る必要がある。最後の列は、RTAチャスティティフィルタを使用したDeepRTAベースコール及び信頼できるクラスターである。開示されたデータフローロジックを使用すると、同様の位置合わせメトリックを維持しながら、RTAチャスティティフィルタを使用することと比較してより多くのクラスターが信頼できるものとして検出される。
図13は、RTAチャスティティフィルタと、異なる閾値を使用した開示されたデータフローロジックとの比較を示す。開示されたデータフローロジックによって検出された信頼できないクラスターの大きな割合も、RTAチャスティティフィルタによって信頼できないものとして検出された。
コンピュータシステム
図14は、本明細書に開示されたベースコール技術を実施するために配列決定システム500Aによって使用され得るコンピュータシステム1400である。コンピュータシステム1400は、バスサブシステム1455を介して多数の周辺デバイスと通信する少なくとも1つの中央処理装置(CPU)1472を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイル記憶サブシステム1436を含む記憶サブシステム858、ユーザーインターフェース入力デバイス1438、ユーザーインターフェース出力デバイス1476、並びにネットワークインターフェースサブシステム1474を含むことができる。入力デバイス及び出力デバイスは、コンピュータシステム1400とのユーザー対話を可能にする。ネットワークインターフェースサブシステム1474は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。
一実施態様では、システムコントローラ506は、記憶サブシステム1410及びユーザーインターフェース入力デバイス1438に通信可能にリンクされている。
ユーザーインターフェース入力デバイス1438は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含んでもよい。一般に、用語「入力デバイス」の使用は、コンピュータシステム1400に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
ユーザーインターフェース出力デバイス1476は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、LEDディスプレイ、陰極線管(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、音声出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステム1400からユーザー又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方式を含むことを意図している。
記憶サブシステム858は、本明細書に記載されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、概して、深層学習プロセッサ1478によって実行される。
深層学習プロセッサ1478は、グラフィック処理ユニット(GPU)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、及び/又は粗粒化再構成可能構造(CGRA)であり得る。深層学習プロセッサ1478は、Google Cloud Platform(商標)、Xilinx(商標)及びCirrascale(商標)などの深層学習クラウドプラットフォームによってホスティングされ得る。深層学習プロセッサ1478の例は、GoogleのTensor Processing Unit(TPU)(商標)、GX4 Rackmount Series(商標)、GX14 Rackmount Series(商標)のようなラックマウントソリューション、NVIDIA DGX-1(商標)、Microsoft’Stratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、Snapdragon processors(商標)を有するQualcommのZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、Fujitsu DPI(商標)、ARMのDynamicIQ(商標)、IBM TrueNorth(商標)、Testa V100s(商標)を有するLambda GPU Server、及び他のものを含む。
記憶サブシステム858で使用されるメモリサブシステム1422としては、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(random access memory、RAM)1432と、固定命令が記憶された読み取り専用メモリ(read only memory、ROM)1434と、を含む多数のメモリが挙げられ得る。ファイル記憶サブシステム1436は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、これには、ハードディスクドライブ、関連する取り外し可能な媒体を伴うフロッピーディスクドライブ、CD-ROMドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジが挙げられ得る。特定の実施態様の機能を実装するモジュールは、ファイル記憶サブシステム1436によって記憶サブシステム858内に、又はプロセッサによってアクセス可能な他のマシン内に記憶され得る。
バスサブシステム1455は、コンピュータシステム1400の様々な構成要素及びサブシステムを、意図されるように互いに通信させるための機構を提供する。バスサブシステム1455は、単一のバスとして概略的に示されているが、バスサブシステムの代替実施態様は、複数のバスを使用することができる。
コンピュータシステム1400自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩くネットワーク化されたコンピュータの広く分散されたセット、又は任意の他のデータ処理システム若しくはユーザーデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークは絶え間なく変化する性質のものであるため、図14に示されるコンピュータシステム1400の説明は、本発明の好ましい実施態様を例示する目的のための特定の実施例としてのみ意図される。コンピュータシステム1400の多くの他の構成は、図14に示されるコンピュータシステムよりも多くの又は少ない構成要素を有することができる。
特定の実施態様
人工知能予測ベースコールに基づいたクラスターのフィルタリングの様々な実施態様を説明する。実施態様の1つ以上の特徴は、基本の実施態様と組み合わせることができ、システム、方法、又は物品として実施することができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の1つ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらのオプションのユーザーを定期的に通知する。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施態様の各々に参照することにより本明細書に組み込まれる。
一実施態様では、開示された技術は、ニューラルネットワークベースのベースコールの精度及び効率を改善するために、信頼できないクラスターを識別するコンピュータ実装方法を提案する。開示された技術は、複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第1のサブセットに対するサイクルごとのクラスターデータにアクセスする。
開示された技術は、ニューラルネットワークベースのベースコーラーを使用して、配列決定サイクルの第1のサブセット内のそれぞれの配列決定サイクルにおいて複数のクラスターの中のそれぞれのクラスターをベースコールする。これは、ニューラルネットワークベースのベースコーラーを介してサイクルごとのクラスターデータを処理し、サイクルごとのクラスターデータの中間表現を生成することを含む。これは、出力層を介して中間表現を処理し、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するクラスターごと、サイクルごとの確率四分位数を生成することを更に含む。特定のクラスターごと、サイクルごとの確率四分位数は、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基である、A、C、T、及びGの確率を識別する。
開示された技術は、それぞれのクラスターごと、サイクルごとの確率四分位数が識別する確率に基づいて、それぞれのクラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することによって、それぞれのクラスターのフィルタ値の配列を生成する。
開示された技術は、複数のクラスターの中の、フィルタ値の配列が閾値「M」を下回る「N」個のフィルタ値を含むクラスターを信頼できないクラスターとして識別する。
開示された技術は、配列決定動作の配列決定サイクルの残りにおける信頼できないクラスターのベースコールをバイパスすることによって、ニューラルネットワークベースのベースコーラーを使用して、配列決定サイクルの残りにおいて、複数のクラスターの中の、信頼できないクラスターとして識別されないクラスターのみをベースコールする。
項目
1.ベースコールの精度及び効率を改善するために信頼できないクラスターを識別するコンピュータ実装方法であって、方法は、
複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第1のサブセットに対するサイクルごとのクラスターデータにアクセスすることと、
配列決定サイクルの第1のサブセット内のそれぞれの配列決定サイクルにおいて複数のクラスターの中のそれぞれのクラスターをベースコールすることであって、
サイクルごとのクラスターデータを処理し、サイクルごとのクラスターデータの中間表現を生成することと、
出力層を介して中間表現を処理し、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するクラスターごと、サイクルごとの確率四分位数を生成することと、を含み、特定のクラスターごと、サイクルごとの確率四分位数は、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基であるA、C、T、及びGの確率を識別する、ことと、
それぞれのクラスターごと、サイクルごとの確率四分位数が識別する確率に基づいて、それぞれのクラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することによって、それぞれのクラスターのフィルタ値の配列を生成することと、
複数のクラスターの中の、フィルタ値の配列が閾値「M」を下回る少なくとも「N」個のフィルタ値を含むクラスターを信頼できないクラスターとして識別することと、
配列決定動作の配列決定サイクルの残りにおける信頼できないクラスターのベースコールをバイパスすることによって、配列決定サイクルの残りにおいて、複数のクラスターの中の、信頼できないクラスターとして識別されないクラスターのみをベースコールすることと、を含む、コンピュータ実装方法。
2.クラスターごと、サイクルごとの確率四分位数に対するフィルタ値は、確率のうちの1つ以上を含む算術演算に基づいて決定される、項目1に記載のコンピュータ実装方法。
3.算術演算は減算である、項目1~2に記載のコンピュータ実装方法。
4.クラスターごと、サイクルごとの確率四分位数に対するフィルタ値は、確率のうちの最高確率から確率のうちの2番目に高い確率を差し引くことによって決定される、項目1~3に記載のコンピュータ実装方法。
5.算術演算は除算である、項目1~4に記載のコンピュータ実装方法。
6.クラスターごと、サイクルごとの確率四分位数に対するフィルタ値は、確率のうちの最高確率と確率のうちの2番目に高い確率との比として決定される、項目1~5に記載のコンピュータ実装方法。
7.算術演算は加算である、項目1~6に記載のコンピュータ実装方法。
8.算術演算は乗算である、項目1~7に記載のコンピュータ実装方法。
9.「N」は1~5の範囲である、項目1~8に記載のコンピュータ実装方法。
10.「M」は0.5~0.99の範囲である、項目1~9に記載のコンピュータ実装方法。
11.第1のサブセットは、配列決定動作の1~25回の配列決定サイクルを含む、項目1~10に記載のコンピュータ実装方法。
12.第1のサブセットは、配列決定動作の1~50回の配列決定サイクルを含む、項目1~11に記載のコンピュータ実装方法。
13.出力層はソフトマックス層であり、クラスターごと、サイクルごとの確率四分位数での確率は、合計すると1になる、指数関数的に正規化された分類スコアである、項目1~12に記載のコンピュータ実装方法。
14.信頼できないクラスターは、パターン化されたフローセル上の、空のウェル、多クローン性ウェル、及び曖昧なウェルを示す、項目1~13に記載のコンピュータ実装方法。
15.フィルタ値は、フィルタリング関数によって生成される、項目1~14に記載のコンピュータ実装方法。
16.フィルタリング関数は、最も明るいベース強度を、最も明るいベース強度と2番目に明るいベース強度との合計で割った比としてチャスティティを定義するチャスティフィルタである、項目1~15に記載のコンピュータ実装方法。
17.フィルタリング関数は、最大対数確率関数、最小二乗誤差関数、平均信号対雑音比(SNR)、及び最小絶対誤差関数のうちの少なくとも1つである、項目1~16に記載のコンピュータ実装方法。
18.
サイクルごとのクラスターデータの強度データに基づいて、それぞれのクラスターに対する配列決定サイクルの第1のサブセット内の配列決定サイクルの平均SNRを決定することであって、強度データは、複数のクラスターの中のクラスターの強度放射及び周囲の背景の強度放射を示す、ことと、
複数のクラスターの中の、平均SNRが閾値を下回るクラスターを信頼できないクラスターとして識別することと、を更に含む、項目1~17に記載のコンピュータ実装方法。
19.
配列決定サイクルの第1のサブセット内の配列決定サイクルに対して生成されたクラスターごと、サイクルごとの確率四分位数での最大確率スコアに基づいて、それぞれのクラスターの平均確率スコアを決定することと、
複数のクラスターの中の、平均確率スコアが閾値を下回るクラスターを信頼できないクラスターとして識別することと、を更に含む、項目1~18に記載のコンピュータ実装方法。
20.ニューラルネットワークベースのベースコールの精度及び効率を改善するためのシステムであって、システムは、
メモリであって、複数のクラスターについて、配列決定動作の初期配列決定サイクルに対する初期クラスターデータと、配列決定動作の残りの配列決定サイクルに対する残りのクラスターデータと、を記憶する、メモリと、
ホストプロセッサであって、メモリへのアクセスを有し、検出及びフィルタリングロジックを実行して信頼できないクラスターを識別するように構成された、ホストプロセッサと、
構成可能プロセッサであって、メモリへのアクセスを有し、ニューラルネットワークを実行してベースコール分類スコアを生成するように構成された、構成可能プロセッサと、
データフローロジックであって、メモリ、ホストプロセッサ、及び構成可能プロセッサへのアクセスを有し、
初期クラスターデータをニューラルネットワークに提供し、ニューラルネットワークに、初期クラスターデータから初期中間表現を生成することに基づいて、複数のクラスターに対する、及び初期配列決定サイクルに対する初期ベースコール分類スコアを生成させることと、
初期ベースコール分類スコアを検出及びフィルタリングロジックに提供し、検出及びフィルタリングロジックに、初期ベースコール分類スコアからフィルタ値を生成することに基づいて、複数のクラスターの中の信頼できないクラスターを識別させることと、
残りのクラスターデータをニューラルネットワークに提供し、ニューラルネットワークに、残りのクラスターデータから残りの中間表現を生成させることと、
信頼できないクラスターを識別するデータを構成可能プロセッサに提供し、構成可能プロセッサに、残りの中間表現から、残りのクラスターデータの部分から生じる信頼できないクラスターを表す部分を除去することによって、信頼できる残りの中間表現を生成させることと、を行うように構成された、データフローロジックと、を備える、システム。
21.構成可能プロセッサは、信頼できる残りの中間表現をニューラルネットワークに提供し、ニューラルネットワークに、複数のクラスターの中の、信頼できないクラスターではないクラスターに対する、及び残りの配列決定サイクルに対する残りのベースコール分類スコアのみを生成させることによって、信頼できないクラスターに対する残りのベースコール分類スコアの生成をバイパスするように更に構成されている、項目20に記載のシステム。
22.初期及び残りのベースコール分類スコアは正規化されない、項目20~21に記載のシステム。
23.データフローロジックは、正規化されない初期及び残りのベースコール分類スコアをホストプロセッサに提供し、ホストプロセッサに、出力関数を適用させ、合計すると1になる、指数関数的に正規化された初期及び残りのベースコール分類スコアを生成させ、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基であるA、C、T、及びGの確率を示させるように更に構成されており、
出力関数は、ソフトマックス関数、log-softmax関数、アンサンブル出力平均関数、多層パーセプトロン不確実関数、ベイズガウス分布関数、及びクラスター強度関数のうちの少なくとも1つである、項目20~22に記載のシステム。
24.ホストプロセッサは、確率のうちの1つ以上を含む算術演算に基づいて、指数関数的に正規化された初期ベースコール分類スコアからフィルタ値を生成するように更に構成されている、項目20~23に記載のシステム。
25.算術演算は減算である、項目20~24に記載のシステム。
26.フィルタ値は、確率のうちの最高確率から確率のうちの2番目に高い確率を差し引くことによって生成される、項目20~25に記載のシステム。
27.算術演算は除算である、項目20~26に記載のシステム。
28.フィルタ値は、確率のうちの最高確率と確率のうちの2番目に高い確率との比として生成される、項目20~27に記載のシステム。
29.算術演算は加算である、項目20~28に記載のシステム。
30.算術演算は乗算である、項目20~29に記載のシステム。
31.ホストプロセッサは、初期クラスターデータ内の強度データからそれぞれのクラスターに対して決定された平均信号対雑音比(SNR)に基づいてフィルタ値を生成するように更に構成されており、強度データは、複数のクラスターの中のクラスターの強度放射及び周囲の背景の強度放射を示す、項目項目20~30に記載のシステム。
32.ホストプロセッサは、初期ベースコール分類スコアの中の最大分類スコアからそれぞれのクラスターに対して決定された平均確率スコアに基づいてフィルタ値を生成するように更に構成されている、項目20~31に記載のシステム。
33.信頼できないクラスターを識別するデータは、信頼できないクラスターの位置座標を識別する、項目20~32に記載のシステム。
34.ホストプロセッサは、複数のクラスターの中の、閾値「M」を下回る初期配列決定サイクルの「N」個のフィルタ値を有するクラスターを信頼できないクラスターとして識別するように更に構成されている、項目20~33に記載のシステム。
35.「N」は1~5の範囲である、項目20~34に記載のシステム。
36.「M」は0.5~0.99の範囲である、項目20~35に記載のシステム。
37.ホストプロセッサは、指数関数的に正規化された残りのベースコール分類スコアのうちの最高スコアに基づいて、残りの配列決定サイクルにおいて複数のクラスターの中の、信頼できないクラスターではないクラスターのみをベースコールすることによって、残りの配列決定サイクルにおける信頼できないクラスターのベースコールをバイパスするように更に構成されている、項目20~36に記載のシステム。
38.初期クラスターデータ及び残りのクラスターデータはピクセル化されたデータであり、
中間表現はピクセル化された特徴マップであり、
部分はピクセルである、項目20~37に記載のシステム。
39.信頼できないクラスターを識別するデータは、初期クラスターデータ及び残りのクラスターデータにおける信頼できないクラスターの強度放射を示すピクセルを識別する、項目20~38に記載のシステム。
40.信頼できないクラスターを識別するデータは、いずれの強度放出も示さないピクセルを識別する、項目20~39に記載のシステム。
41.構成可能プロセッサは、ニューラルネットワークの空間畳み込み層によって、残りのクラスターデータから生成されたピクセル化された特徴マップから、残りの配列決定サイクルに対して捕捉された信頼できないクラスターの強度放射を示す、残りのクラスターデータのピクセルから生じる特徴マップピクセルを破棄することによって、信頼できる残りの中間表現を生成するように更に構成されている、項目20~40に記載のシステム。
42.残りの中間表現は、信頼できる残りの中間表現の4~9倍の合計ピクセル数を有する、項目20~41に記載のシステム。
43.破棄することは、ニューラルネットワークに、より少ないピクセルで動作させることでより少ない計算動作を実行することによって、残りのベースコール分類スコアを生成させる、項目20~42に記載のシステム。
44.破棄することは、クラスター強度状態情報を含む、構成可能プロセッサとの間でやり取りされるデータの量、及びデータ記憶の量を低減させる、項目20~43に記載のシステム。
45.信頼できないクラスターは、パターン化されたフローセル上の、空のウェル、多クローン性ウェル、及び曖昧なウェルを示す、項目20~44に記載のシステム。
46.ニューラルネットワークベースのベースコールの精度及び効率を改善するためのシステムであって、システムは、
メモリであって、複数のクラスターについて、配列決定動作の初期配列決定サイクルに対する初期クラスターデータと、配列決定動作の残りの配列決定サイクルに対する残りのクラスターデータと、を記憶する、メモリと、
ホストプロセッサであって、メモリへのアクセスを有し、検出及びフィルタリングロジックを実行して信頼できないクラスターを識別するように構成された、ホストプロセッサと、
構成可能プロセッサであって、メモリへのアクセスを有し、ニューラルネットワークを実行してベースコール分類スコアを生成するように構成された、構成可能プロセッサと、
データフローロジックであって、メモリ、ホストプロセッサ、及び構成可能プロセッサへのアクセスを有し、
初期クラスターデータをニューラルネットワークに提供し、ニューラルネットワークに、初期クラスターデータから初期中間表現を生成することに基づいて、複数のクラスターに対する、及び初期配列決定サイクルに対する初期ベースコール分類スコアを生成させることと、
初期ベースコール分類スコアを検出及びフィルタリングロジックに提供し、検出及びフィルタリングロジックに、初期ベースコール分類スコアからフィルタ値を生成することに基づいて、複数のクラスターの中の信頼できないクラスターを識別させることと、
残りのクラスターデータをニューラルネットワークに提供し、ニューラルネットワークに、残りのクラスターデータから残りの中間表現を生成することに基づいて、複数のクラスターに対する、及び残りの配列決定サイクルに対する残りのベースコール分類スコアを生成させることと、
残りのベースコール分類スコアをホストプロセッサに提供し、ホストプロセッサに、信頼できないクラスターを識別するデータを使用して、複数のクラスターの中の、信頼できないクラスターではないクラスターのみをベースコールさせることによって、残りの配列決定サイクルにおける信頼できないクラスターのベースコールをバイパスすることと、を行うように構成された、データフローロジックと、を備える、システム。
47.ニューラルネットワークベースのベースコールの精度及び効率を改善するためのシステムであって、システムは、
メモリであって、複数のクラスターについて、配列決定動作の初期配列決定サイクルに対する初期のクラスターごとのデータと、配列決定動作の残りの配列決定サイクルに対する残りのクラスターごとのデータと、を記憶する、メモリと、
ホストプロセッサであって、メモリへのアクセスを有し、検出及びフィルタリングロジックを実行して信頼できないクラスターを識別するように構成された、ホストプロセッサと、
構成可能プロセッサであって、メモリへのアクセスを有し、ニューラルネットワークを実行してベースコール分類スコアを生成するように構成された、構成可能プロセッサと、
データフローロジックであって、メモリ、ホストプロセッサ、及び構成可能プロセッサへのアクセスを有し、
初期のクラスターごとのデータをニューラルネットワークに提供し、ニューラルネットワークに、初期のクラスターごとのデータから初期中間表現を生成することに基づいて、複数のクラスターに対する、及び初期配列決定サイクルに対する初期ベースコール分類スコアを生成させることと、
初期ベースコール分類スコアを検出及びフィルタリングロジックに提供し、検出及びフィルタリングロジックに、初期ベースコール分類スコアからフィルタ値を生成することに基づいて、複数のクラスターの中の信頼できないクラスターを識別させることと、
信頼できないクラスターを識別するデータを使用して、残りのクラスターごとのデータから、信頼できないクラスターを表すクラスターごとのデータを除去することによって、信頼できる残りのクラスターごとのデータを生成することと、
信頼できる残りのクラスターごとのデータをニューラルネットワークに提供し、ニューラルネットワークに、複数のクラスターの中の、信頼できないクラスターではないクラスターに対する、及び残りの配列決定サイクルに対する残りのベースコール分類スコアのみを生成させることによって、信頼できないクラスターに対する残りのベースコール分類スコアの生成をバイパスすることと、を行うように構成された、データフローロジックと、を備える、システム。
48.信頼できないクラスターを識別して、ベースコールの精度及び効率を改善するためのコンピュータプログラム命令が記憶された非一時的コンピュータ可読記憶媒体であって、該命令は、プロセッサ上で実行されると、
複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第1のサブセットに対するサイクルごとのクラスターデータにアクセスすることと、
配列決定サイクルの第1のサブセット内のそれぞれの配列決定サイクルにおいて複数のクラスターの中のそれぞれのクラスターをベースコールすることであって、
サイクルごとのクラスターデータを処理し、サイクルごとのクラスターデータの中間表現を生成することと、
出力層を介して中間表現を処理し、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するクラスターごと、サイクルごとの確率四分位数を生成することと、を含み、特定のクラスターごと、サイクルごとの確率四分位数は、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基であるA、C、T、及びGの確率を識別する、ことと、
それぞれのクラスターごと、サイクルごとの確率四分位数が識別する確率に基づいて、それぞれのクラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することによって、それぞれのクラスターのフィルタ値の配列を生成することと、
複数のクラスターの中の、フィルタ値の配列が閾値「M」を下回る少なくとも「N」個のフィルタ値を含むクラスターを信頼できないクラスターとして識別することと、
配列決定動作の配列決定サイクルの残りにおける信頼できないクラスターのベースコールをバイパスすることによって、配列決定サイクルの残りにおいて、複数のクラスターの中の、信頼できないクラスターとして識別されないクラスターのみをベースコールすることと、を含む方法を実施する、非一時的コンピュータ可動記憶媒体。
49.メモリに結合された1つ以上のプロセッサを含むシステムであって、メモリは、ベースコールを実施するためのコンピュータ命令がロードされ、命令は、プロセッサ上で実行されると、
複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第1のサブセットに対するサイクルごとのクラスターデータにアクセスすることと、
配列決定サイクルの第1のサブセット内のそれぞれの配列決定サイクルにおいて複数のクラスターの中のそれぞれのクラスターをベースコールすることであって、
サイクルごとのクラスターデータを処理し、サイクルごとのクラスターデータの中間表現を生成することと、
出力層を介して中間表現を処理し、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するクラスターごと、サイクルごとの確率四分位数を生成することと、を含み、特定のクラスターごと、サイクルごとの確率四分位数は、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基であるA、C、T、及びGの確率を識別する、ことと、
それぞれのクラスターごと、サイクルごとの確率四分位数が識別する確率に基づいて、それぞれのクラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することによって、それぞれのクラスターのフィルタ値の配列を生成することと、
複数のクラスターの中の、フィルタ値の配列が閾値「M」を下回る少なくとも「N」個のフィルタ値を含むクラスターを信頼できないクラスターとして識別することと、
配列決定動作の配列決定サイクルの残りにおける信頼できないクラスターのベースコールをバイパスすることによって、配列決定サイクルの残りにおいて、複数のクラスターの中の、信頼できないクラスターとして識別されないクラスターのみをベースコールすることと、を含むアクションを実施する、システム。
本発明は、上述の好ましい実施形態及び実施例を参照して開示されているが、これらの実施例は、限定的な意味でではなく例示的な意味で意図されていることが理解されるべきである。当業者であれば、変更及び組み合わせが容易に生じ、その変更及び組み合わせは、本発明の趣旨及び以下の特許請求の範囲の範囲内にあると考えられる。
102 データプロバイダ
104 ニューラルネットワークベースのベースコーラー
106 確率四分位数
112 サイクルごとのクラスターデータ
116 フィルタ計算機
124 信頼できないクラスター
126 フィルタ値
132 画像生成システム
136 信頼できないクラスター識別子
142 バイパスロジック
146 検出及びフィルタリングロジック
500 配列決定システム
502 共通のハウジング
504 温度制御システム
506 システムコントローラ
508 流体制御システム
510 システム受け部
512 バイオセンサー
514 流体貯蔵システム
516 照明システム
518 ユーザーインターフェース
520 ディスプレイ
522 ユーザー入力デバイス
524 主制御モジュール
526 照明モジュール
528 流体制御モジュール
530 流体貯蔵モジュール
532 温度制御モジュール
534 通信リンク
536 デバイスモジュール
538 識別モジュール
542 増幅モジュール
544 分析モジュール
546 構成可能プロセッサ
548 メモリ
550 通信ポート
552 ホストプロセッサ
589 バス
593 バス
595 制御経路
597 データフローロジック
599 データ流路
1400 コンピュータシステム
1410 記憶サブシステム
1422 使用されるメモリサブシステム
1432 RAM
1434ROM
1436 ファイル記憶サブシステム
1438 ユーザーインターフェース入力デバイス
1455 バスサブシステム
1472 中央処理装置(CPU)
1474 ネットワークインターフェースサブシステム
1476 ユーザーインターフェース出力デバイス
1478 深層学習プロセッサ

Claims (20)

  1. 信頼できないクラスターを識別して、ベースコールの精度及び効率を改善するコンピュータ実装方法であって、前記方法は、
    複数のクラスターに対する、及び配列決定動作の配列決定サイクルの第1のサブセットに対するサイクルごとのクラスターデータにアクセスすることと、
    前記配列決定サイクルの第1のサブセット内のそれぞれの配列決定サイクルにおいて前記複数のクラスターの中のそれぞれのクラスターをベースコールすることであって、
    前記サイクルごとのクラスターデータを処理し、前記サイクルごとのクラスターデータの中間表現を生成することと、
    出力層を介して前記中間表現を処理し、それぞれのクラスターに対する、及びそれぞれの配列決定サイクルに対するクラスターごと、サイクルごとの確率四分位数を生成することと、を含み、特定のクラスターごと、サイクルごとの確率四分位数は、特定の配列決定サイクルにおいて特定のクラスターに組み込まれた塩基であるA、C、T、及びGの確率を識別する、ことと、
    それぞれのクラスターごと、サイクルごとの確率四分位数が識別する前記確率に基づいて、前記それぞれのクラスターごと、サイクルごとの確率四分位数に対するフィルタ値を決定することによって、それぞれのクラスターのフィルタ値の配列を生成することと、
    前記複数のクラスターの中の、フィルタ値の配列が閾値「M」を下回る少なくとも「N」個のフィルタ値を含むクラスターを信頼できないクラスターとして識別することと、
    前記配列決定動作の配列決定サイクルの残りにおける前記信頼できないクラスターのベースコールをバイパスすることによって、前記配列決定サイクルの残りにおいて、前記複数のクラスターの中の、前記信頼できないクラスターとして識別されないクラスターのみをベースコールすることと、を含む、コンピュータ実装方法。
  2. クラスターごと、サイクルごとの確率四分位数に対する前記フィルタ値は、前記確率のうちの1つ以上を含む算術演算に基づいて決定される、請求項1に記載のコンピュータ実装方法。
  3. 前記算術演算は減算である、請求項1~2のいずれか一項に記載のコンピュータ実装方法。
  4. 前記クラスターごと、サイクルごとの確率四分位数に対する前記フィルタ値は、前記確率のうちの最高確率から前記確率のうちの2番目に高い確率を差し引くことによって決定される、請求項1~3のいずれか一項に記載のコンピュータ実装方法。
  5. 前記算術演算は除算である、請求項1~4のいずれか一項に記載のコンピュータ実装方法。
  6. 前記クラスターごと、サイクルごとの確率四分位数に対する前記フィルタ値は、前記確率のうちの前記最高確率と前記確率のうちの前記2番目に高い確率との比として決定される、請求項1~5のいずれか一項に記載のコンピュータ実装方法。
  7. 前記算術演算は加算である、請求項1~6のいずれか一項に記載のコンピュータ実装方法。
  8. 前記算術演算は乗算である、請求項1~7のいずれか一項に記載のコンピュータ実装方法。
  9. 前記「N」は1~5の範囲である、請求項1~8のいずれか一項に記載のコンピュータ実装方法。
  10. 前記「M」は0.5~0.99の範囲である、請求項1~9のいずれか一項に記載のコンピュータ実装方法。
  11. 前記第1のサブセットは、前記配列決定動作の1~25回の配列決定サイクルを含む、請求項1~10のいずれか一項に記載のコンピュータ実装方法。
  12. 前記第1のサブセットは、前記配列決定動作の1~50回の配列決定サイクルを含む、請求項1~11のいずれか一項に記載のコンピュータ実装方法。
  13. 前記出力層はソフトマックス層であり、前記クラスターごと、サイクルごとの確率四分位数での前記確率は、合計すると1になる、指数関数的に正規化された分類スコアである、請求項1~12のいずれか一項に記載のコンピュータ実装方法。
  14. 前記信頼できないクラスターは、パターン化されたフローセル上の、空のウェル、多クローン性ウェル、及び曖昧なウェルを示す、請求項1~13のいずれか一項に記載のコンピュータ実装方法。
  15. 前記フィルタ値は、フィルタリング関数によって生成される、請求項1~14のいずれか一項に記載のコンピュータ実装方法。
  16. 前記フィルタリング関数は、最も明るいベース強度を、前記最も明るいベース強度と2番目に明るいベース強度との合計で割った比としてチャスティティを定義するチャスティフィルタである、請求項1~15のいずれか一項に記載のコンピュータ実装方法。
  17. 前記フィルタリング関数は、最大対数確率関数、最小二乗誤差関数、平均信号対雑音比(SNR)、及び最小絶対誤差関数のうちの少なくとも1つである、請求項1~16のいずれか一項に記載のコンピュータ実装方法。
  18. 前記サイクルごとのクラスターデータの強度データに基づいて、それぞれのクラスターに対する前記配列決定サイクルの第1のサブセット内の配列決定サイクルの平均SNRを決定することであって、前記強度データは、前記複数のクラスター内のクラスターの強度放射及び周囲の背景の強度放射を示す、ことと、
    前記複数のクラスターの中の、平均SNRが閾値を下回るクラスターを前記信頼できないクラスターとして識別することと、を更に含む、請求項1~17のいずれか一項に記載のコンピュータ実装方法。
  19. 前記配列決定サイクルの第1のサブセット内の前記配列決定サイクルに対して生成されたクラスターごと、サイクルごとの確率四分位数での最大確率スコアに基づいて、それぞれのクラスターの平均確率スコアを決定することと、
    前記複数のクラスターの中の、平均確率スコアが閾値を下回るクラスターを前記信頼できないクラスターとして識別することと、を更に含む、請求項1~18のいずれか一項に記載のコンピュータ実装方法。
  20. ニューラルネットワークベースのベースコールの精度及び効率を改善するためのシステムであって、前記システムは、
    メモリであって、複数のクラスターについて、配列決定動作の初期配列決定サイクルに対する初期クラスターデータと、前記配列決定動作の残りの配列決定サイクルに対する残りのクラスターデータと、を記憶する、メモリと、
    ホストプロセッサであって、前記メモリへのアクセスを有し、検出及びフィルタリングロジックを実行して信頼できないクラスターを識別するように構成された、ホストプロセッサと、
    構成可能プロセッサであって、前記メモリへのアクセスを有し、ニューラルネットワークを実行してベースコール分類スコアを生成するように構成された、構成可能プロセッサと、
    データフローロジックであって、前記メモリ、前記ホストプロセッサ、及び前記構成可能プロセッサへのアクセスを有し、
    前記初期クラスターデータを前記ニューラルネットワークに提供し、前記ニューラルネットワークに、前記初期クラスターデータから初期中間表現を生成することに基づいて、前記複数のクラスターに対する、及び前記初期配列決定サイクルに対する初期ベースコール分類スコアを生成させることと、
    前記初期ベースコール分類スコアを前記検出及びフィルタリングロジックに提供し、前記検出及びフィルタリングロジックに、前記初期ベースコール分類スコアからフィルタ値を生成することに基づいて、前記複数のクラスターの中の信頼できないクラスターを識別させることと、
    前記残りのクラスターデータを前記ニューラルネットワークに提供し、前記ニューラルネットワークに、前記残りのクラスターデータから残りの中間表現を生成させることと、
    前記信頼できないクラスターを識別するデータを前記構成可能プロセッサに提供し、前記構成可能プロセッサに、前記残りの中間表現から、前記残りのクラスターデータの部分から生じる前記信頼できないクラスターを表す部分を除去することによって、信頼できる残りの中間表現を生成させることと、を行うように構成された、データフローロジックと、を備える、システム。
JP2022581614A 2020-08-28 2021-08-26 人工知能予測ベースコールに基づいたクラスターの検出及びフィルタリング Pending JP2023539544A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063072032P 2020-08-28 2020-08-28
US63/072,032 2020-08-28
US17/411,980 US20220067489A1 (en) 2020-08-28 2021-08-25 Detecting and Filtering Clusters Based on Artificial Intelligence-Predicted Base Calls
US17/411,980 2021-08-25
PCT/US2021/047763 WO2022047038A1 (en) 2020-08-28 2021-08-26 Detecting and filtering clusters based on artificial intelligence-predicted base calls

Publications (1)

Publication Number Publication Date
JP2023539544A true JP2023539544A (ja) 2023-09-15

Family

ID=77914452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022581614A Pending JP2023539544A (ja) 2020-08-28 2021-08-26 人工知能予測ベースコールに基づいたクラスターの検出及びフィルタリング

Country Status (9)

Country Link
US (1) US20220067489A1 (ja)
EP (1) EP4205123A1 (ja)
JP (1) JP2023539544A (ja)
KR (1) KR20230058319A (ja)
CN (1) CN115769301A (ja)
AU (1) AU2021332341A1 (ja)
CA (1) CA3184598A1 (ja)
IL (1) IL299034A (ja)
WO (1) WO2022047038A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024007190A1 (en) * 2022-07-06 2024-01-11 GeneSense Technology Inc. Methods and systems for enhancing nucleic acid sequencing quality in high-throughput sequencing processes with machine learning
CN117523559B (zh) * 2024-01-08 2024-03-29 深圳赛陆医疗科技有限公司 碱基识别方法及装置、基因测序仪及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03147799A (ja) 1989-11-02 1991-06-24 Hoechst Japan Ltd 新規なオリゴヌクレオチドプローブ
US6332154B2 (en) 1998-09-11 2001-12-18 Genesys Telecommunications Laboratories, Inc. Method and apparatus for providing media-independent self-help modules within a multimedia communication-center customer interface
US6826718B1 (en) 1999-07-15 2004-11-30 Sbc Holdings Properties, L.P. Method and apparatus for tracking call processing failure data in a radiotelephone system
GB0004523D0 (en) 2000-02-26 2000-04-19 Ultraframe Uk Ltd Fascias
CN100462433C (zh) 2000-07-07 2009-02-18 维西根生物技术公司 实时序列测定
WO2002044425A2 (en) 2000-12-01 2002-06-06 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US7405251B2 (en) 2002-05-16 2008-07-29 Dow Corning Corporation Flame retardant compositions
WO2004015497A1 (ja) 2002-08-07 2004-02-19 Mitsubishi Chemical Corporation 青紫色レーザー感光性レジスト材層を有する画像形成材及びそのレジスト画像形成方法
WO2004018497A2 (en) 2002-08-23 2004-03-04 Solexa Limited Modified nucleotides for polynucleotide sequencing
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
WO2005065514A1 (fr) 2004-01-12 2005-07-21 Djibril Soumah Lunette de wc
CN101914620B (zh) 2004-09-17 2014-02-12 加利福尼亚太平洋生命科学公司 核酸测序的方法
US20060111346A1 (en) 2004-11-23 2006-05-25 Fazix Corporation. Methods of modulating high-density lipoprotein cholesterol levels and pharmaceutical formulations for the same
US20060251471A1 (en) 2005-05-06 2006-11-09 Wei-Gen Chen Manual adjustment device for headlamps
GB0517097D0 (en) 2005-08-19 2005-09-28 Solexa Ltd Modified nucleosides and nucleotides and uses thereof
EP2018622B1 (en) 2006-03-31 2018-04-25 Illumina, Inc. Systems for sequence by synthesis analysis
JPWO2007145365A1 (ja) 2006-06-14 2009-11-12 学校法人自治医科大学 癌治療薬及びそのスクリーニング法
US7414716B2 (en) 2006-10-23 2008-08-19 Emhart Glass S.A. Machine for inspecting glass containers
US8965076B2 (en) 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
SI3077943T1 (sl) * 2013-12-03 2020-10-30 Illumina, Inc. Postopki in sistemi za analiziranje slikovnih podatkov
NL2023312B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based base calling
NL2023316B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based sequencing
NL2023310B1 (en) 2019-03-21 2020-09-28 Illumina Inc Training data generation for artificial intelligence-based sequencing
NL2023314B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based quality scoring
NL2023311B9 (en) 2019-03-21 2021-03-12 Illumina Inc Artificial intelligence-based generation of sequencing metadata

Also Published As

Publication number Publication date
WO2022047038A1 (en) 2022-03-03
EP4205123A1 (en) 2023-07-05
CA3184598A1 (en) 2022-03-03
KR20230058319A (ko) 2023-05-03
AU2021332341A1 (en) 2023-02-02
US20220067489A1 (en) 2022-03-03
CN115769301A (zh) 2023-03-07
IL299034A (en) 2023-02-01

Similar Documents

Publication Publication Date Title
JP2023515500A (ja) 人工知能ベースのベースコーラーのための分割アーキテクチャ
JP2023539544A (ja) 人工知能予測ベースコールに基づいたクラスターの検出及びフィルタリング
US20210265015A1 (en) Hardware Execution and Acceleration of Artificial Intelligence-Based Base Caller
US11749380B2 (en) Artificial intelligence-based many-to-many base calling
US20220319639A1 (en) Artificial intelligence-based base caller with contextual awareness
CA3183578A1 (en) Artificial intelligence-based base caller with contextual awareness
US20230005253A1 (en) Efficient artificial intelligence-based base calling of index sequences

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230327