JP2023525993A - 等化ベースの画像処理及び空間クロストーク減衰器 - Google Patents

等化ベースの画像処理及び空間クロストーク減衰器 Download PDF

Info

Publication number
JP2023525993A
JP2023525993A JP2022567386A JP2022567386A JP2023525993A JP 2023525993 A JP2023525993 A JP 2023525993A JP 2022567386 A JP2022567386 A JP 2022567386A JP 2022567386 A JP2022567386 A JP 2022567386A JP 2023525993 A JP2023525993 A JP 2023525993A
Authority
JP
Japan
Prior art keywords
pixel
image
pixels
equalizer
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022567386A
Other languages
English (en)
Other versions
JPWO2021226285A5 (ja
Inventor
エリック・ジョン・オジャード
ラミ・メヒオ
ギャヴィン・デレク・パーナビー
ニティン・ウドパ
ジョン・エス・ヴィエチェリ
Original Assignee
イルミナ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イルミナ インコーポレイテッド filed Critical イルミナ インコーポレイテッド
Publication of JP2023525993A publication Critical patent/JP2023525993A/ja
Publication of JPWO2021226285A5 publication Critical patent/JPWO2021226285A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19107Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30072Microarray; Biochip, DNA array; Well plate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/04Recognition of patterns in DNA microarrays
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Image Processing (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Stereophonic System (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Details Of Connecting Devices For Male And Female Coupling (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Image Analysis (AREA)

Abstract

開示される技術は、ベースコールのための配列決定画像からの空間クロストークを減衰させる。特に、開示される技術は、画像にアクセスし、この画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す。ピクセルは、ターゲットクラスターの中心を含む中心ピクセルを含む。ピクセル内の各ピクセルは、複数のサブピクセルに分割可能である。ターゲットクラスターの中心を含む中心ピクセルの複数のサブピクセルのうちの特定のサブピクセルに応じて、開示される技術は、サブピクセルルックアップテーブルのバンクから、特定のサブピクセルに対応するサブピクセルルックアップテーブルを選択する。選択されたサブピクセルルックアップテーブルは、信号対ノイズ比を最大化するように構成されているピクセル係数を含む。開示される技術は、ピクセル係数とピクセルとを要素ごとに乗算し、重み付き和を決定する。

Description

(優先権出願)
本PCT出願は、2021年5月5日に出願された「EQUALIZATION-BASED IMAGE PROCESSING AND SPATIAL CROSSTALK ATTENUATOR」と題する米国特許仮出願第63/020,449号(代理人整理番号ILLM1032-1/IP-1991-PRV)及び2020年5月4日に出願された「EQUALIZATION-BASED IMAGE PROCESSING AND SPATIAL CROSSTALK ATTENUATOR」と題する米国特許仮出願第17/308,035号(代理人整理番号ILLM1032-2/IP-1991-US)の利益を主張する。その優先権出願は、全ての目的のために参照により組み込まれる。
(発明の分野)
開示された技術は、画像の自動分析又はパターンの認識のための装置及び対応する方法に関する。本明細書には、(a)認識前にその視覚的品質を向上させることと、(b)センサ又は記憶されたプロトタイプに対して画像を位置決めして位置合わせすること、又は無関係なデータを廃棄することによって画像データの量を減少させることと、(c)画像の有意な特性を測定することと、を目的として画像を変換するシステムが含まれる。具体的には、開示された技術は、等化ベースの画像処理技術を使用してセンサピクセルから空間的クロストークを除去することに関する。
(関連出願の相互参照)
組み込み
以下は、本明細書に完全に記載されているかのように、全ての目的のために参照により組み込まれる。
2018年3月26日に出願された「DETECTION APPARATUS HAVING A MICROFLUOROMETER,A FLUIDIC SYSTEM,AND A FLOW CELL LATCH CLAMP MODULE」と題する米国特許非仮出願第15/936,365号、
2019年9月11日に出願された「FLOW CELLS AND METHODS RELATED TO SAME」と題する米国特許非仮出願第16/567,224号、
2019年6月12日に出願された「DEVICE FOR LUMINESCENT IMAGING」と題する米国特許非仮出願第16/439,635号、
2017年5月12日に出願された「INTEGRATED OPTOELECTRONIC READ HEAD AND FLUIDIC CARTRIDGE USEFUL FOR NUCLEIC ACID SEQUENCING」と題する米国特許非仮出願第15/594,413号、
2019年3月12日に出願された「ILLUMINATION FOR FLUORESCENCE IMAGING USING OBJECTIVE LENS」と題する米国特許非仮出願第16/351,193号、
2009年12月15日に出願された「DYNAMIC AUTOFOCUS METHOD AND SYSTEM FOR ASSAY IMAGER」と題する米国特許非仮出願第12/638,770号、
2013年3月1日に出願された「KINETIC EXCLUSION AMPLIFICATION OF NUCLEIC ACID LIBRARIES」と題する米国特許非仮出願第13/783,043号、
2011年1月13日に出願された「DATA PROCESSING SYSTEM AND METHODS」と題する米国特許非仮出願第13/006,206号、
2014年10月31日に出願された「IMAGE ANALYSIS USEFUL FOR PATTERNED OBJECTS」と題する米国特許非仮出願第14/530,299号、
2014年12月3日に出願された「METHODS AND SYSTEMS FOR ANALYZING IMAGE DATA」と題する米国特許非仮出願第15/153,953号、
2013年9月6日に出願された「CENTROID MARKERS FOR IMAGE ANALYSIS OF HIGH DENSITY CLUSTERS IN COMPLEX POLYNUCLEOTIDE SEQUENCING」と題する米国特許非仮出願第14/020,570号、
2014年10月31日に出願された「IMAGE ANALYSIS USEFUL FOR PATTERNED OBJECTS」と題する米国特許非仮出願第14/530,299号、
2009年9月23日に出願された「METHOD AND SYSTEM FOR DETERMINING THE ACCURACY OF DNA BASE IDENTIFICATIONS」と題する米国特許非仮出願第12/565,341号、
2007年3月30日に出願された「SYSTEMS AND DEVICES FOR SEQUENCE BY SYNTHESIS ANALYSIS」と題する米国特許非仮出願第12/295,337号、
2008年1月28日に出願された「IMAGE DATA EFFICIENT GENETIC SEQUENCING METHOD AND SYSTEM」と題する米国特許非仮出願第12/020,739号、
2013年3月15日に出願された「BIOSENSORS FOR BIOLOGICAL OR CHEMICAL ANALYSIS AND SYSTEMS AND METHODS FOR SAME」と題する米国特許非仮出願第13/833,619号(代理人整理番号IP-0626-US)、
2016年6月7日に出願された「BIOSENSORS FOR BIOLOGICAL OR CHEMICAL ANALYSIS AND METHODS OF MANUFACTURING THE SAME」と題する米国特許非仮出願第15/175,489号(代理人整理番号IP-0689-US)、
2013年4月26日に出願された「MICRODEVICES AND BIOSENSOR CARTRIDGES FOR BIOLOGICAL OR CHEMICAL ANALYSIS AND SYSTEMS AND METHODS FOR THE SAME」と題する米国非特許非仮出願第13/882,088号(代理人整理番号IP-0462-US)、
2012年9月21日に出願された「METHODS AND COMPOSITIONS FOR NUCLEIC ACID SEQUENCING」と題する米国特許非仮出願第13/624,200号(代理人整理番号IP-0538-US)、
2019年3月21日に出願された「Training Data Generation for Artificial Intelligence-Based Sequencing」と題する米国特許仮出願第62/821,602号(代理人整理番号ILLM1008-1/IP-1693-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Generation of Sequencing Metadata」と題する米国特許仮出願第62/821,618号(代理人整理番号ILLM1008-3/IP-1741-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Base Calling」と題する米国特許仮出願第62/821,681号(代理人整理番号ILLM1008-4/IP-1744-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Quality Scoring」と題する米国特許仮出願第62/821,724号(代理人整理番号ILLM1008-7/IP-1747-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Sequencing」と題する米国特許仮出願第62/821,766号(代理人整理番号ILLM1008-9/IP-1752-PRV)、
2019年6月14日に出願された「Training Data Generation for Artificial Intelligence-Based Sequencing」と題する蘭国特許出願第2023310号(代理人整理番号ILLM1008-11/IP-1693-NL)、
2019年6月14日に出願された「Artificial Intelligence-Based Generation of Sequencing Metadata」と題する蘭国特許出願第2023311号(代理人整理番号ILLM1008-12/IP-1741-NL)、
2019年6月14日に出願された「Artificial Intelligence-Based Base Calling」と題する蘭国特許出願第2023312号(代理人整理番号ILLM1008-13/IP-1744-NL)、
2019年6月14日に出願された「Artificial Intelligence-Based Quality Scoring」と題する蘭国特許出願第2023314号(代理人整理番号ILLM1008-14/IP-1747-NL)、及び
2019年6月14日に出願された「Artificial Intelligence-Based Sequencing」と題する蘭国特許出願第2023316号(代理人整理番号ILLM1008-15/IP-1752-NL)。
2020年3月20日に出願された「Training Data Generation for Artificial Intelligence-Based Sequencing」と題する米国特許非仮出願第16/825,987号(代理人整理番号ILLM1008-16/IP-1693-US)、
2020年3月20日に出願された「Training Data Generation for Artificial Intelligence-Based Sequencing」と題する米国特許非仮出願第16/825,991号(代理人整理番号ILLM1008-17/IP-1741-US)、
2020年3月20日に出願された「Artificial Intelligence-Based Base Calling」と題する米国特許非仮出願第16/826,126号(代理人整理番号ILLM1008-18/IP-1744-US)、
2020年3月20日に出願された「Artificial Intelligence-Based Quality Scoring」と題する米国特許非仮出願第16/826,134号(代理人整理番号ILLM1008-19/IP-1747-US)、
2020年3月21日に出願された「Artificial Intelligence-Based Sequencing」と題する米国特許非仮出願第16/826,168号(代理人整理番号ILLM1008-20/IP-1752-PRV)、
2019年5月16日に出願された「Systems and Devices for Characterization and Performance Analysis of Pixel-Based Sequencing」と題する米国特許仮出願第62/849,091号(代理人整理番号ILLM1011-1/IP-1750-PRV)、
2019年5月16日に出願された「Base Calling Using Convolutions」と題する米国特許仮出願第62/849,132号(代理人整理番号ILLM1011-2/IP-1750-PR2)、
2019年5月16日に出願された「Base Calling Using Compact Convolutions」と題する米国特許仮出願第62/849,133号(代理人整理番号ILLM1011-3/IP-1750-PR3)、
2020年2月20日に出願された「Artificial Intelligence-Based Base Calling of Index Sequences」と題する米国特許仮出願第62/979,384号(代理人整理番号ILLM1015-1/IP-1857-PRV)、
2020年2月20日に出願された「Artificial Intelligence-Based Many-To-Many Base Calling」と題する米国特許仮出願第62/979,414号(代理人整理番号ILLM1016-1/IP-1858-PRV)、
2020年2月20日に出願された「Knowledge Distillation-Based Compression of Artificial Intelligence-Based Base Caller」と題する米国特許仮出願第62/979,385号(代理人整理番号ILLM1017-1/IP-1859-PRV)、
2020年2月20日に出願された「Multi-Cycle Cluster Based Real Time Analysis System」と題する米国特許仮出願第62/979,412号(代理人整理番号ILLM1020-1/IP-1866-PRV)、
2020年2月20日に出願された「Data Compression for Artificial Intelligence-Based Base Calling」と題する米国特許仮出願第62/979,411号(代理人整理番号ILLM1029-1/IP-1964-PRV)、及び
2020年2月20日に出願された「Squeezing Layer for Artificial Intelligence-Based Base Calling」と題する米国特許仮出願第62/979,399号(代理人整理番号ILLM1030-1/IP-1982-PRV)。
このセクションで考察される主題は、単にこのセクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、このセクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。このセクションの主題は、単に、異なるアプローチを表し、それ自体はまた、特許請求される技術の実施態様に対応し得る。
生物学的又は化学的研究における様々なプロトコルは、局所支持体表面上又は所定の反応チャンバ内で多数の制御された反応を実施することを含む。次いで、所望の反応を観察又は検出することができ、その後の分析は、反応に関与する化学物質の特性を同定又は明らかにするのに役立ち得る。例えば、いくつかの多重アッセイにおいて、識別可能な標識(例えば、蛍光標識)を有する未知の検体は、制御された条件下で何千もの既知のプローブに曝露され得る。各既知のプローブは、マイクロプレートの対応するウェル内に堆積させることができる。既知のプローブとウェル内の未知の検体との間で起こる任意の化学反応を観察することは、検体の特性を同定又は明らかにするのを補助することができる。そのようなプロトコルの他の例としては、合成による配列決定又は環状アレイ配列決定などの、既知のDNA配列決定プロセスが挙げられる。環状アレイ配列決定において、DNA特徴部(例えば、テンプレート核酸)の高密度アレイは、酵素的操作の反復サイクルを通して配列決定される。各サイクルの後、画像を捕捉し、続いて、他の画像を用いて分析して、DNA特徴の配列を判定することができる。
より具体的な例として、1つの既知のDNA配列決定システムは、パイロ配列決定プロセスを使用し、数百万のウェルを有する融合光ファイバフェースプレートを有するチップを含む。目的のゲノムからクローン的に増幅されたsstDNAを有する単一捕捉ビーズを各ウェルに沈着させる。捕獲ビーズがウェル中に堆積された後、特異的ヌクレオチドを含む溶液をフェースプレートに沿って流すことによって、ヌクレオチドがウェルに連続的に添加される。ウェル内の環境は、特定のウェルを通って流れるヌクレオチドが対応する捕獲ビーズ上のDNA鎖を相補する場合、ヌクレオチドがDNA鎖に付加されるようなものである。DNA鎖のコロニーはクラスターと呼ばれる。クラスターへのヌクレオチドの取り込みは、最終的に化学発光シグナルを生成するプロセスを開始する。システムは、フェースプレートに直接隣接して配置され、ウェル中のDNAクラスターからの光信号を検出するように構成されたCCDカメラを含む。パイロ配列決定プロセス全体を通して得られた画像のその後の分析により、目的のゲノムの配列を決定することができる。
しかしながら、上記パイロ配列決定システムは、他のシステムに加えて、特定の制限を有し得る。例えば、光ファイバのフェースプレートは酸エッチングされ、何百万もの小さいウェルを形成する。ウェルは、互いにほぼ間隔を置いて配置され得るが、他の隣接するウェルに関してウェルの正確な位置を知ることは困難である。CCDカメラがフェースプレートに直接隣接して位置決めされる場合、ウェルはCCDカメラのピクセルに沿って均等に分布されず、したがって、ウェルはピクセルと既知の様式では整列されない。空間クロストークは、隣接するウェル間のウェル間クロストークであり、対象のウェルからの真の光信号と他の不要な光信号とを後続の分析において区別することを困難にする。また、蛍光発光は実質的に等方性である。検体の密度が増加するにつれて、隣接する検体からの望ましくない発光(例えば、クロストーク)を管理又は説明することはますます困難になる。結果として、配列決定サイクルの間に記録されたデータは注意深く分析する必要がある。
ベースコール精度は、高処理能力DNA配列決定及びリードマッピング及びゲノムアセンブリなどの下流分析にとって極めて重要である。隣接クラスター間の空間クロストークは、配列決定誤差の大部分を説明する。したがって、クラスター強度データにおける空間クロストークを補正することにより、DNA配列決定誤差を減少させ、ベースコール精度を改善する機会が生じる。
本発明の一態様は、ベースコールのコンピュータ実装方法を提供する。コンピュータ実装方法は、画像にアクセスすることであって、前記画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す、アクセスすることと、信号対ノイズ比を最大化するように構成されているピクセル係数を含むルックアップテーブルを選択することと、前記ピクセル係数を前記画像中の前記ピクセルの強度値を用いて畳み込み、出力を生成することと、前記ターゲットクラスターを前記出力に基づいてベースコールすることと、を含む。
特許又は出願ファイルは、カラーで創作された少なくとも1つの図面を含む。カラー図面(単数又は複数)を有するこの特許又は特許出願公開のコピーは、必要な料金の要求及び支払いの際に、庁によって提供される。カラー図面はまた、補足コンテンツタブを介してPAIR(patent application information retrieval:特許出願情報検索)で利用可能であり得る。
図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺どおりではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明において、開示された技術の様々な実施態様は、以下の図面を参照して説明される。
等化器を訓練することによってルックアップテーブル(lookup table、LUT)/等化器フィルタを生成する一実施態様を示す。 センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサピクセルを使用してクラスターをベースコールするために、図1のLUT/等化器フィルタを使用する一実施態様を示す。 フローセル上の少なくとも5つのクラスター/ウェルの中心/点源を含む配列決定画像の一例を可視化する。 図2の配列決定画像からピクセルパッチ(黄)を抽出する一例を可視化したものであり、ターゲットクラスター1(青)の中心がピクセルパッチの中心ピクセルに含まれるようになっている。 クラスターからピクセルへの信号の一例を可視化する。 クラスターからピクセルへの信号オーバラップの一例を可視化する。 クラスター信号パターンの一例を可視化する。 図3のピクセルパッチからの空間クロストークを減衰させるために使用されるサブピクセルLUTグリッドの一例を可視化する。 ピクセル内のクラスター/ウェル中心のサブピクセル位置に基づく図1BのLUTバンクからのLUT/等化器フィルタの選択を示す。 ターゲットクラスター1(青)の中心がピクセルの中心と実質的に同心でない一実施態様を示す。 選択されたLUTのセットの間で補間し、それぞれのLUT重みを生成する一実施態様を示す。 LUT12、7、8、及び13の計算された重みを使用して重みカーネルを生成する重みカーネル生成器を示す。 重みカーネルの補間ピクセル係数をピクセルパッチ内のピクセルの強度値で要素ごとに乗算し、乗算の中間積を合計して出力を生成する要素ごと乗算器を示す。 LUT12、7、8、13の係数の例を示す。 LUT12、7、8、13の係数の例を示す。 LUT12、7、8、13の係数の例を示す。 LUT12、7、8、13の係数の例を示す。 LUT12、7、8、13の係数の例を示す。 LUT12、7、8、13の係数の例を示す。 重みカーネルの例を示す。 LUT12、7、8、及び13の計算された重みから重みカーネルを生成するために重みカーネル生成器によって使用される重みカーネル生成論理の一例を示す。 LUT12、7、8、及び13の計算された重みから重みカーネルを生成するために重みカーネル生成器によって使用される重みカーネル生成論理の一例を示す。 重みカーネルの補間ピクセル係数がどのように信号対ノイズ比を最大化し、クラスター2、3、4、及び5からのクロストークによって破壊された信号からターゲットクラスター1の基礎となる信号を復元するかを示す。 重みカーネルの補間ピクセル係数がどのように信号対ノイズ比を最大化し、クラスター2、3、4、及び5からのクロストークによって破壊された信号からターゲットクラスター1の基礎となる信号を復元するかを示す。 訓練中の誤差計算のためのグラウンドトゥルース値として使用される塩基ごとの強度ターゲットを中心に含む塩基ごとのガウスフィットの一実施態様を示す。 開示された技術を実施するために使用することができるコンピュータシステムである。 等化器を訓練するために使用することができる適合等化技術の一実施態様を示す。 開示された技術の様々な性能測定基準を示す。 開示された技術の様々な性能測定基準を示す。 開示された技術の様々な性能測定基準を示す。 開示された技術の様々な性能測定基準を示す。 開示された技術の様々な性能測定基準を示す。
以下の説明は、典型的には、特定の構造的実施態様及び方法を参照して行われる。本技術を具体的に開示された実施態様及び方法に限定する意図はないが、本技術は他の特徴、要素、方法及び実施態様を用いて実施することができることを理解されたい。好ましい実施態様は、特許請求の範囲によって定義される範囲を限定するためではなく、本技術を説明するために記載される。当業者は、以下の説明に対する様々な等価な変形を認識するであろう。
ルックアップテーブルの生成
図1は、等化器104を訓練することによってルックアップテーブル(LUT)(又はLUTバンク)106を生成する一実施態様を示している。等化器104は、ここでは等化器ベースのベースコーラー104とも称される。システム100Aは、最小二乗推定を使用して等化器104を訓練する訓練器114を含む。等化器と最小二乗推定に関する追加の詳細は、本出願に含まれる付録に記載されている。
配列決定画像102は、IlluminaのiSeq、HiSeqX、HiSeq3000、HiSeq4000、HiSeq2500、NovaSeq6000、NextSeq550、NextSeq1000、NextSeq2000、NextSeqDx、MiSeq、及びMiSeqDxなどの配列決定機器によって実行される配列決定ラン中に生成される。一実施態様では、Illuminaシーケンサは、ベースコールのために環状可逆終端(cyclic reversible termination、CRT)化学を使用する。このプロセスは、新たに添加された各ヌクレオチドの放出信号を追跡しながら、蛍光標識されたヌクレオチドを有するテンプレート鎖に相補的な新生鎖を伸長させることに依存する。蛍光標識されたヌクレオチドは、ヌクレオチド型のフルオロフォア信号をアンカーする3‘除去可能ブロックを有する。
配列決定は、反復サイクルで行われ、各々は3つの工程、つまり、(a)蛍光標識されたヌクレオチドを添加することによる出現鎖の伸長と、(b)配列決定機器の光学システムの1以上のレーザを使用してフルオロフォアを励起させ、光学システムの異なるフィルタを通した撮像によって配列決定画像を生成することと、(c)次の配列決定サイクルに備えてフルオロフォアを切断し、3’ブロックを除去することと、の3つの工程を各々含む反復サイクルで行われる。取り込み及び撮像サイクルは、指定された数の配列決定サイクルまで繰り返され、リード長を定義する。このアプローチを使用して、各サイクルはテンプレート鎖に沿って新しい位置を照合する。
Illuminaシーケンサの膨大な能力は、数百万又は更には数十億もの検体(例えば、クラスター)のCRT反応を同時に実施及び感知する能力に起因する。クラスターは、テンプレート鎖の約1000個の同一のコピーを含むが、クラスターのサイズ及び形状は様々である。クラスターは、配列決定ラン前に、入力ライブラリのブリッジ増幅又は排除増幅によって、テンプレートストランドから成長させる。増幅及びクラスター伸長の目的は、撮像デバイスが一本鎖のフルオロフォア信号を確実に感知することができないため、放出される信号の強度を増加させることである。しかしながら、クラスター内の鎖の物理的距離は小さいため、撮像デバイスは鎖のクラスターを単一のスポットとして知覚する。
配列決定は、フローセル、つまり入力鎖を保持する小さいガラススライドの中で行われる。フローセルは、顕微鏡撮像、励起レーザ、及び蛍光フィルタを含む光学システムに接続される。フローセルは、レーンと呼ばれる複数のチャンバを含む。レーンは互いに物理的に分離されており、試料の交差汚染なしに区別可能な異なるタグ付き配列決定ライブラリを含むことができる。いくつかの実施態様では、フローセルは、パターン化された表面を含む。「パターン化された表面」は、固体支持体の露出層内又はその上における、異なる領域の配置を指す。例えば、1つ以上の領域は、1つ以上の増幅プライマーが存在する特徴であり得る。この特徴は、増幅プライマーが存在しない間質領域によって分離され得る。いくつかの実施態様では、パターンは、行及び列にある特徴のx-yフォーマットであり得る。いくつかの実施態様では、パターンは、特徴及び/又は間質領域の反復配列であり得る。いくつかの実施態様では、パターンは、特徴及び/又は間質領域のランダム配列であり得る。本明細書に記載される方法及び組成物において使用することができる例示的なパターン付き表面は、米国特許第8,778,849号、米国特許第9,079,148号、米国特許第8,778,848号、及び米国特許出願公開第第2014/0243224号、に記載されており、その各々は参照により本明細書に組み込まれる。
いくつかの実施態様において、フローセルは、表面におけるウェル又は窪みのアレイを含む。これは、フォトリソグラフィ、スタンピング技術、成形技術、及びマイクロエッチング技術を含むがこれらに限定されない様々な技術を使用して、当該技術分野において一般的に知られているように製造することができる。当該技術分野において理解されるように、使用される技術は、アレイ基板の組成及び形状に依存する。
パターン付き表面内の特徴は、ガラス、シリコン、プラスチック、又はポリ(N-(5-アジドアセトアミルペンチル)アクリルアミド-co-アクリルアミド)(PAZAM、例えば、各々、参照によりその全体が本明細書に組み込まれる米国特許出願公開第2013/184796号、国際公開第2016/066586号及び同第2015-002813号を参照されたい)などのパターン化された共有結合ゲルを有する他の好適な固体支持体上のウェル(例えば、マイクロウェル又はナノウェル)配列におけるウェルであってもよい。このプロセスは、配列決定のために使用されるゲルパッドを作成し、これは、多数のサイクルで配列決定動作にわたって安定であり得る。ポリマーをウェルに共有結合することは、様々な用途の間に、構造化基材の寿命全体にわたってゲルを構造化特徴部に維持するのに有用である。しかしながら、多くの実施態様では、ゲルは、ウェルに共有結合される必要はない。例えば、いくつかの条件では、構造化基質のどの部分にも共有結合されていないシランフリーのアクリルアミド(SFA、例えば、米国特許第8,563,477号を参照、その全体が参照により本明細書に組み込まれる)をゲル材料として使用することができる。
特定の別の実施態様では、構造化基材は、ウェル(例えば、マイクロウェル又はナノセル)を用いて固体支持材料をパターニングし、パターン化された支持体をゲル材料(例えば、PAZAM、SFA、又はその化学修飾された変異体)でコーティングすることによって作製することができ、SFA(アジド-SFA)のアジド化バージョンなど、及びゲルコーティングされた支持体を、例えば化学研磨又は機械研磨によって研磨し、それによって、ウェル内にゲルを保持するが、ウェル間の構造化基材の表面上の間隙領域から実質的に全てのゲルを除去又は不活性化する。ゲル材料にプライマー核酸を付着させることができる。次いで、標的核酸(例えば、フラグメント化されたヒトゲノム)の溶液を、個々の標的核酸がゲル材料に付着したプライマーとの相互作用を介して個々のウェルに播種するように、研磨された基質と接触させることができる。ゲル材料が存在しないか不活性であるため、ターゲット核酸は間質領域を占有しない。標的核酸の増幅は、介在領域内のゲルの不在又は非活性が、増殖する核酸コロニーの外向きの移動を防止するため、ウェルに限定されるであろう。このプロセスは、製造可能であり、スケーラブルであり、従来のマイクロ又はナノ製造方法を利用する。
配列決定機器の撮像デバイス(例えば、電荷結合素子(Charge-Coupled Device、CCD)又は相補的金属酸化物半導体(Complementary Metal-Oxide-Semiconductor、CMOS)センサなどの固体撮像素子)は、タイルと呼ばれる一連の非重複領域において、レーンに沿った複数の場所でスナップショットを取る。例えば、レーン当たり64個又は96個のタイルが存在し得る。タイルは数十万~数百万個のクラスターを保持する。
配列決定ランの出力は配列決定画像であり、各々がクラスター及びその周囲の背景の強度放射を示す。配列決定画像は、配列決定中に配列にヌクレオチドを組み込む結果として生成される強度放射を示す。強度放射は、関連する検体/クラスター及びそれらの周囲の背景から生じる。
配列決定画像102は、複数の配列決定機器、配列決定ラン、サイクル、フローセル、タイル、ウェル、及びクラスターから供給される。一実施態様では、配列決定画像は、撮像チャネルベースで等化器104によって処理される。配列決定ランは、m個の撮像チャネルに対応する配列決定サイクル当たりm個の画像を生成する。一実施態様では、各撮像チャネルは複数のフィルタ波長帯域のうちの1つに対応する。別の実施態様では、各撮像チャネルは、配列決定サイクルにおける複数の撮像イベントの1つに対応する。更に別の実施態様では、各撮像チャネルは、特定のレーザによる照射と特定の光学フィルタを通した撮像との組み合わせに対応する。4-チャネル化学、2-チャネル化学及び1-チャネル化学のような異なる実施態様においては、mは4又は2である。他の実施態様では、mは1、3、又は4より大きい。
別の実施態様では、入力データは、分子伸長中の水素イオンの放出によって誘発されるpH変化に基づく。pH変化は検出され、組み込まれた塩基の数に比例する電圧変化に変換される(例えば、Ion Torrentの場合)。更に別の実施態様では、入力データは、生体センサを使用して、分析物がナノ細孔を通過するとき、又はその開口部付近を通過する際に電流の破壊を測定するためにバイオセンサを使用するナノ細孔検知から構築される。例えば、Oxford Nanopore Technologies(ONT)配列決定は、以下の概念に基づく:ナノ細孔を介して膜を介してDNA(又はRNA)の単一鎖を通過させ、膜にわたって電位差を印加する。細孔内に存在するヌクレオチドは、細孔の電気抵抗に影響を及ぼし、そのため、経時的な電流測定は、細孔を通過するDNA塩基の配列を示すことができる。この電流信号(プロットされたときにその外観に起因する「押しつぶし」)は、ONTシーケンサによって収集された生データである。これらの測定値は、4kHz周波数(例えば)で取られた16ビットの整数データ取得(Data Acquisition、DAC)値として記憶される。1秒当たり~450塩基対のDNA鎖速度を用いて、これは、平均して、塩基当たり約9つの生観察を与える。次いで、この信号を処理して、個々の読み取りに対応する開孔信号の破断を識別する。これらの生信号の伸長は、ベースコールされ、DAC値をDNA塩基の配列に変換するプロセスである。いくつかの実施態様では、入力データは、正規化又はスケーリングされたDAC値を含む。非画像ベースのシーケンスデータに関する追加情報は、2020年5月16日に出願された「Base Calling Using Convolutions」と題する米国特許仮出願第62/849,132号(代理人整理番号ILLM1011-2/IP-1750-PR2)、2019年5月16日に出願された「Base Calling Using Compact Convolutions」と題する米国特許仮出願第62/849,133号(代理人整理番号ILLM1011-3/IP-1750-PR3)、及び2019年3月21日に出願された「Artificial Intelligence-Based Sequencing」と題する米国特許非仮出願第16/826,168号(代理人整理番号ILLM1008-20/IP-1752-PRV)に見出すことができる。
訓練
等化器104は、サブピクセル解像度を有する複数のLUT(等化器フィルタ)106を有するLUTバンクを生成する。一実施態様では、LUTバンクのために等化器104によって生成されるLUT106の数は、配列決定画像102のセンサピクセルが分割されるか又は分割され得るサブピクセルの数に依存する。例えば、配列決定画像102のセンサピクセルが各々n×n個のサブピクセル(例えば、5×5個のサブピクセル)に分割可能である場合、等化器104はnのLUT106(例えば、25個のLUT)を生成する。
訓練の一実施態様では、配列決定画像からのデータは、ウェルサブピクセル位置によってビン化される。例えば、5×5LUTの場合、ウェルの1/25番目の中心はビン(1,1)にあり(例えば、センサピクセルの左上隅)、ウェルの1/25番目はビン(1,2)にあり、以下同様である。各ウェル-センター-ビンについての等化器係数は、各ビン内にあるウェルからのデータのサブセットについて最小二乗推定を用いて決定される。等化器104への入力は、それらのビンに対する配列決定画像の生の感覚ピクセルである。得られた推定等化器係数はビンごとに異なる。
各LUTは、訓練から学習された複数の係数を有する。一実施態様では、LUT内の係数の数は、クラスターをベースコールするために使用されるセンサピクセルの数に対応する。例えば、クラスターをベースコールするために使用されるセンサピクセル(画像又はピクセルパッチ)の局所グリッドがサイズp×p(例えば、9×9ピクセルパッチ)の場合、各LUTはpの係数(例えば、81の係数)を有する。
訓練は、信号対ノイズ比を最大化するように、ベースコールされるターゲットクラスターからの強度放射及び1以上の隣接クラスターからの強度放射を表すピクセルの強度値を混合/結合するように構成されている等化器係数を生成する。信号対ノイズ比において最大化された信号は、ターゲットクラスターからの強度放射であり、信号対ノイズ比において最小化されたノイズは、隣接するクラスターからの強度放射、すなわち、空間クロストークにいくつかのランダムノイズを(例えば、背景強度放射を説明するために)加えたものである。等化器係数は重みとして使用され、混合/結合は、等化器係数とピクセルの強度値との間で要素ごとの乗算を実行して、ピクセルの強度値の重み付き和を計算することを含む。
訓練中に、等化器104は、一実施態様によると、最小二乗推定によって信号対ノイズ比を最大化することを学習する。最小二乗推定を使用して、等化器104は、対象ウェル周辺のピクセル強度と所望の出力とから共有等化器係数を推定するように訓練される。最小二乗推定は、二乗誤差を最小にし、ノイズ増幅の効果を考慮した係数を出力するので、この目的に適している。
所望の出力は、強度チャネルがオンである場合にはウェル位置(点源)におけるインパルスであり、強度チャネルがオフである場合には背景レベルである。いくつかの実施態様では、グラウンドトゥルースベースコール112が、所望の出力を生成するために使用される。いくつかの実施態様において、グラウンドトゥルースベースコール112は、ウェル当たりのDCオフセット、増幅係数、ポリクローナル性の程度、及び最小二乗推定に含まれるゲインオフセットパラメータを説明するように修正される。一実施態様では、訓練中に、DCオフセット、すなわち固定オフセットが最小二乗推定値の一部として計算される。推論の間、DCオフセットはバイアスとして各等化器計算に加算される。
一実施態様では、所望の出力は、等化器を使用しないIlluminaのリアルタイム分析(Real-time Analysis、RTA)ベースコーラーを使用して推定される。RTAに関する詳細は、米国特許出願第13/006,206号に見出すことができ、これは、本明細書に完全に記載されているかのように参照により組み込まれる。RTAベースコーラーは、グラウンドトゥルースベースコール112を発信するために使用される。これは、RTAのベースコール誤差率が低いためである。ベースコール誤差は、多くの訓練例で平均化される。別の実施態様では、グラウンドトゥルースベースコール112は、整列されたゲノムデータを使用して供給されるが、整列されたゲノムデータは、ノイズを平均化するための複数の配列決定プラットフォーム及び配列決定ランから得られた知識を組み込んだ参照ゲノム及び真実情報を使用することができるので、より良い品質を有する。
グラウンドトゥルースベースコール112は、それぞれ、塩基A、C、G、及びTの強度プロファイルを確実に表すベース固有の強度値である。RTAのようなベースコーラーは、配列決定画像102を処理し、ベースコールごとに色ごとの強度値/出力を生成することによってクラスターをベースコールする。色ごとの強度値は、塩基ごとの強度値とみなすことができる。これは、化学のタイプ(例えば、2色化学又は4色化学)に応じて、色が塩基A、C、G、及びTの各々にマップされるためである。最も近い強度プロファイルが一致する塩基が呼び出される。
図16は、訓練中の誤差計算のためのグラウンドトゥルース値として使用される塩基ごとのターゲットを中心に含む塩基ごとのガウスフィットの一実施態様を示している。訓練データ(例えば、数十、数百、数千、又は数百万のベースコール)内の多数のベースコールに対してベースコーラーによって生成された塩基ごとの強度出力は、塩基ごとの強度分布を生成するために使用される。図16は、それぞれ、塩基A、C、G、Tの塩基ごとの強度出力の確率分布である4つのガウス雲のチャートを示している。4つのガウス雲の中心における強度値は、それぞれ、塩基A、C、G、及びTに対するグラウンドトゥルースベースコール112が与えられたグラウンドトゥルース強度ターゲットとして使用され、ここでは強度ターゲットと称される。
訓練中に、等化器104に供給される入力画像データは、グラウンドトゥルースベースコールとして塩基「A」で注釈されることを考慮されたい。次に、等化器104のターゲット/所望出力は、図16の緑色雲の中心における強度値、すなわち、塩基Aに対する強度ターゲットである。同様に、ベース「C」のグラウンドトゥルースベースコールに対して、等化器104の所望出力は、図16の青色雲の中心における強度値、すなわち、ベースCに対する強度ターゲットである。したがって、等化器104の訓練中のターゲット又は所望の出力は、訓練データにおいて平均化された後の各塩基A、C、G及びTに対する平均強度である。一実施態様では、訓練器114は最小二乗推定を使用して等化器104の係数を適合させ、等化器出力誤差をこれらの強度ターゲットに最小化する。
一実施態様では、訓練中に、等化器104は、所与のルックテーブル(LUT)内の係数を、所与のベースでラベル付けされた配列決定画像のピクセルに適用する。これは、係数をピクセルの強度値を用いて要素ごとに乗算し、強度値の重み付き和を生成することを含み、係数は重みとして機能し/作用し/使用される。重み付き和は、等化器104の予測出力となる。次に、コスト/誤差関数(例えば、二乗誤差の和(sum of squared errors、SSE))に基づいて、重み付き和と所与のベース(例えば、対応する強度ガウスフィットの中心から所与のベースで観測された平均強度として)に対して決定された強度ターゲットとの間の誤差(例えば、最小二乗誤差、最小平均二乗誤差)が計算される。SSEのようなコスト関数は、適合的アプローチを用いて等化器係数を推定するために用いられる微分可能な関数であり、係数に関する誤差の導関数を評価することができ、これらの導関数を用いて、誤差を最小化する値で係数を更新する。このプロセスは、更新された係数が誤差を減少させなくなるまで繰り返される。他の実施態様では、等化器104を訓練するためにバッチ最小二乗法が使用される。
他の実施態様では、図16に示す塩基ごとの強度分布/ガウス雲は、ウェルごとに生成され、DCオフセット、増幅係数、及び/又は位相パラメータを追加することによってノイズを補正することができる。このようにして、特定のウェルのウェル位置に応じて、対応する塩基ごとのガウス雲を使用して、その特定のウェルに対するターゲット強度値を生成することができる。
一実施態様では、バイアス項が、等化器104の出力を生成するドット積に加算される。訓練中、バイアスパラメータは、等化器係数、すなわち、最小二乗又は最小平均二乗(least mean squares、LMS)を学習するために使用される同様のアプローチを使用して推定することができる。いくつかの実施態様では、バイアスパラメータの値は、1に等しい一定値であり、すなわち、入力ピクセル強度と共に変化しない値である。等化器係数セットごとに1つのバイアスが存在する。バイアスは訓練中に学習され、その後、推論中に使用するために固定される。学習バイアスは、各LUTの学習係数と共に、推論中の全ての等化器計算において使用されるDCオフセットを表す。このバイアスは、異なるクラスターサイズ、異なる背景強度、変化する刺激応答、変化する焦点、変化するセンサ感度、及び変化するレンズ収差によって引き起こされるランダムノイズを説明する。
更に他の決定指向の実施態様では、等化器104の出力は、訓練目的に対して正しいと推定される。
訓練の別の実施態様では、等化器104は、ビンに対して単一のLUT(等化器フィルタ)のみを生成し、次いで、複数のビンごと補間フィルタ108を使用して、残りのビンに対して残りの等化器フィルタを生成する。この実施態様では、全ての訓練例に対する全てのウェルの周りのセンサピクセルは、十分に整列された空間に再サンプリング/補間される(すなわちウェルはそれぞれのピクセルパッチ/局所グリッドの中心に置かれる)。次いで、全ての例について再サンプリングされたピクセルは、全てのウェルにわたって一貫して整列される。
しかしながら、ベースコールのための実際のオンラインシステムにおいて等化器104によって生成された単一等化器フィルタを適用するために、配列決定画像の生のセンサピクセルを前処理して、よく整列された空間に戻す必要がある。すなわち、各ウェルの周りの生のピクセルに対して補間を実行し、補間パラメータは所与のウェルのサブピクセル位置に依存して変化する必要がある。この補間プロセスを回避するために、所与のウェルサブピクセル位置に対する全体的な応答を事前に計算する。良好に整列されたピクセル空間に生のピクセル強度を補間することにより、良好に整列された等化器入力値を計算する。補間応答と等化器応答を一緒に畳み込み、計算を削減した。補間フィルタはサブピクセルウェル位置によって変化するので、これにより、サブピクセルウェル位置ごとに異なる等化器係数セット/等化器フィルタが与られ、それによって残りのビンについて残りのLUTが生成される。したがって、訓練のこの実施態様において、単一等化器フィルタの係数のみが訓練中に訓練されるが、事前計算プロセスは、単一等化器フィルタと共にビン固有補間フィルタ108を適用することによってLUTベースの等化器のバンクを生成する。ここで、LUTインデックスはサブピクセルウェル位置である。
訓練器114は、等化器104を訓練し、複数の訓練器を訓練し、LUT106の訓練係数を生成することができる。訓練技術の例として、最小二乗推定、最小二乗法、最小平均二乗、及び再帰的最小二乗が挙げられる。最小二乗法では、残差の二乗和が最小になるように、関数のパラメータがデータセットに最も適合するように調整される。最小二乗推定アルゴリズムの詳細については、「最小二乗法」、https://en.wikipedia.org/w/index.php?title=Least_squares&oldid=951737821(最終訪問先は2020年4月28日)を参照されたい。これは参照により本明細書に完全に記載されているかのごとく組み込まれる。最小二乗法(ordinary least squares)は、線形回帰モデルにおける推定のための最小二乗法(least squares method)の一種である。最小二乗法アルゴリズムの詳細については、「Ordinary least squares」、https://en.wikipedia.org/w/index.php?title=Ordinary_least_squares&oldid=951770366(最終訪問先は2020年4月28日)を参照されたい。これは参照により本明細書に完全に記載されているかのごとく組み込まれる。他の実施態様では、他の推定アルゴリズム及び適合等化アルゴリズムを使用して等化器104を訓練することができる。
等化器104はオフラインモードで訓練することができる。オフラインモードにおいて、一実施態様によれば、LUT106の訓練された係数は、以下のバッチ最小二乗等化論理を使用して生成される。
Figure 2023525993000002
上式において、LUT係数はベータハットであり、ピクセル強度はXであり、ターゲットはyである。DC項もピクセル強度及び係数(例えば、全ての場合に1に固定される追加強度項)に追加される。次に、一例として、Xがサイズ82(=9×9入力強度+一定DC項)×バッチ内の訓練例数の行列であり、Yが各訓練例に対するターゲット出力であると考える。すなわち各値は訓練例トゥル-スに依存するON/OFF雲の強度中心である。ベータハットは、二乗された残差の和を最小化する係数のセットであり、サイズも82(=9×9係数+1DC項)である。
等化器104はまた、シーケンサが動作しており、配列決定ランが周期的に進行している間に、LUT106の係数を適合させて、タイルごと又はサブタイルごとに、温度(例えば、光学歪み)、焦点、化学、機械固有の変動などの変化を追跡するように、オンラインモードで訓練することができる。オンラインモードでは、LUT106の訓練された係数は、適合等化を使用して生成される。オンラインモードでは、確率的勾配降下法の一形態である最小平均二乗法を訓練アルゴリズムとして使用する。最小平均二乗アルゴリズムの詳細については、「最小二乗平均フィルタ」、https://en.wikipedia.org/w/index.php?title=Least_mean_squares_filter&oldid=941899198(最終訪問先は2020年4月28日)を参照されたい。これは参照により本明細書に完全に記載されているかのごとく組み込まれる。
最小平均二乗法では、各係数に対する二乗誤差の勾配を用いて、二乗誤差の期待値であるコスト関数を最小化する方向に係数を移動させる。これは非常に低い計算コストを有し、係数当たりの乗算及び累算演算のみが実行される。係数を除いて、長期保存は必要ない。最小平均二乗法は、大量のデータを処理するのに適している(例えば、何十億ものクラスターからのデータを並列処理する)。最小平均二乗法の拡張には、正規化最小平均二乗法及び周波数領域最小平均二乗法が含まれ、これらもここで使用することができる。いくつかの実施態様では、最小平均二乗法は、本発明者らの決定が正しいと仮定する決定指向の方法、すなわち、本発明者らの誤差率が非常に低く、小さいμ値が不正確なベースコールによる妨害された更新をフィルタリングする方法で適用することができる。
図18は、等化器104を訓練するために使用することができる適合等化技術の一実施態様を示している。ここで、等化論理はy=x.h+dであり、式中、xは入力ピクセル強度、hは等化器係数、dはDCオフセットである。一実施態様では、x及びhはそれぞれ、長さ81を有する行及び列ベクトルである。このベクトルモデルは,入力ピクセルと係数を表す9×9行列の内積に相当する。コストは二乗誤差の期待値である。勾配の更新により、誤差二乗の期待値を減少させる方向に各係数が移動する。これにより、次の更新が行われる。
Figure 2023525993000003
上式において、hは等化器係数(例えば、9×9等化器係数)のベクトルであり、xは等化器入力強度(例えば、ピクセルパッチ内の9×9ピクセル)のベクトルであり、eはxの81個の値を用いて実行された等化器計算の誤差であり、すなわち、等化器出力ごとにただ1つの誤差項である。
この更新を適用すると、9×9等化器係数の新しい推定値が生成される。この推定値は、平均二乗誤差(mean squared error、MSE)を低減する方向に(平均して)等化器係数を移動する。等化器係数ごとに1回ずつ、81回の更新が行われる。いくつかの実施態様では、Muは、適合レート/収束速度を変更するために使用される小さい定数である。DC項の更新は、同様の方式で計算することができる。ゲイン項の更新も同様の方式で計算することができる。
係数セットは、例えば、タイル、タイルの領域、又はフローセル表面の間で共有することができる。これは、入力データが変更されたときに係数セットを保存及び復元することによって行われる。
いくつかの実施態様では、線形補間が係数セットに適用されるので、更新は、以下の様式でわずかに異なって適用される。
h(q,n+1)=h(q,n)+lambda_q.mu.x(n).e(n)
上式において、h(q,n)はサイクルnにおける重みqであり、lambda_qは係数の特定のセットに対する線形補間重みであり、二次元における線形補間による等化器出力当たり4回の更新を含むことができる。
再帰最小二乗法は、最小二乗法を再帰アルゴリズムに拡張したものである。再帰最小二乗アルゴリズムの詳細については、「再帰最小二乗フィルタ」、https://en.wikipedia.org/w/index.php?title=Recursive_least_squares_filter&oldid=916406502(最終訪問先は2020年4月28日)を参照されたい。これは参照により本明細書に完全に記載されているかのごとく組み込まれる。
マルチドメイン実施態様では、LUT106及びそれらの訓練された係数は、複数のドメインに沿って生成することができる。ドメインの例として、シーケンサ又は配列決定機器/マシン(例えば、IlluminaのNextSeq、MiSeq、HiSeq及びそれらのそれぞれのモデル)、配列決定プロトコル及び化学(例えば、ブライド増幅、排除増幅)、配列決定ラン(例えば、順方向及び逆方向)、配列決定照明(例えば、構造化、非構造化、角度付き)、配列決定装置(例えば、オーバヘッドCCDカメラ、下にあるCMOSセンサ、1つのレーザ、複数のレーザ)、撮像技術(1チャネル、2チャネル、4チャネル)、フローセル(例えば、パターン化されたもの、パターン化されていないもの、CMOSチップに埋め込まれたもの、下にあるCCDカメラ)、及びフローセル上の空間分解能(例えば、フローセル内の異なる領域又は象限(例えば、フローセル上の異なるタイル(例えば、レーザ又はカメラ又は流体システムに近いタイル上にあるエッジウェルの場合))及びタイル内の異なる領域(例えば、タイル上の異なるレーン(例えば、レーザ又はカメラ又は流体システムに近いレーン上にあるエッジウェルの場合))が挙げられる。当業者は、配列決定と典型的に関連する他の選択可能なドメイン及びパラメータ(例えば、画像処理アルゴリズム、画像位置合わせアルゴリズム、グラウンドトゥルース注釈スキーム(例えば、強度値のような連続ラベル、ワンホット符号化のようなハードラベル、ソフトマックススコアのようなソフトラベル)、温度、焦点、レンズ、配列決定試薬、配列決定バッファ)が同様に含まれることを理解する。
それぞれのドメインを使用して生成された配列決定画像を使用して、それぞれのドメインに対して別個の異なる訓練セットを作成することができる。離散訓練セットを使用して等化器104を訓練し、対応する領域に対して訓練された係数を有するLUTを生成することができる。複数のドメインにおけるそれぞれのドメインに対して特別に訓練されて生成された訓練係数は、現在又は進行中の配列決定操作においてどのドメイン又はドメインの組み合わせが使用されているかに応じて、オンラインモード中に記憶され、アクセスされ得る。例えば、配列決定操作のために、フローセルのエッジウェルにより好適な第1の係数セットを、同じフローセルのセンターウェルにより好適な第2の係数セットと共に使用することができる。
一実施態様では、構成ファイルは、ドメインの異なる組み合わせを指定することができ、オンラインモード中に分析して、構成ファイルによって識別されるドメインに特有の異なるセットの係数を選択することができる。
複数訓練の実施態様において、等化器104は、訓練だけでなく事前訓練も受ける。すなわち、LUT106及びそれらの係数は、最初に、第1の訓練技術を使用して訓練前段階で訓練され、次に、第2の訓練技術を使用して更なる訓練段階で再訓練又は更に訓練される。第1及び第2の訓練技術は、上記の訓練技術のいずれかであり得る。こぶしと第2の訓練技術は同じであっても、異なっていてもよい。例えば、事前訓練段階は、バッチ最小二乗法訓練技術を使用するオフラインモードであってもよく、訓練段階は、反復確率最小平均二乗技術を使用するオンラインモードであってもよい。
いくつかの実施態様では、マルチドメイン及びマルチ訓練の実装態様は、ドメイン固有の係数が事前訓練され、次いでドメイン固有の様式で更に訓練されるように組み合わせることができる。すなわち、更なる訓練(例えば、オンラインモード)は、その特定のドメインを表し、訓練前段階で使用されたデータに類似するデータのみを使用して、その特定のドメインの係数を再訓練する。他の知識伝達の実施態様では、事前訓練及び訓練は、ドメイン全体からの訓練データを使用することができ、例えば、係数セットは、パターン化されたフローセルからの画像を使用して事前訓練中に生成されるが、パターン化されていないフローセルからの画像を使用して後続の訓練段階中に再訓練される。
空間クロストーク減衰器
図2は、センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサピクセルを使用してコールクラスターをベースコールにするために、図1の訓練されたLUT/等化器フィルタ106を使用する一実施態様を示している。訓練された等化器ベースコーラー104は、ベースコールが行われる推論段階中に動作する。いくつかの実施態様では、図2に示すアクションは、ベースコール段階の前の前処理段階で実行され、ベースコールのためにベースコーラーによって使用されるクロストーク補正された画像データを生成する。
一実施態様では、等化器係数は、撮像チャネルベース及びターゲットクラスターベースで配列決定画像116から抽出されたピクセルパッチ120(画像パッチ又はセンサピクセルの局所グリッド)に適用される。撮像チャネルベースに関して、いくつかの実施態様では、各配列決定画像は、複数の撮像チャネルの画像データを有する。2つの異なる撮像チャネル、すなわち赤色チャネル及び緑色チャネルを使用するIlluminaシーケンサの光学システムを考える。次いで、各配列決定サイクルにおいて、光学システムは、赤色チャネル強度を有する赤色画像及び緑色チャネル強度を有する緑色画像を生成し、これらは一緒になって(典型的な色画像のRGBチャネルのように)単一の配列決定画像を形成する。
訓練中、係数は、予測/推定出力と所望/実際出力との間の誤差を最小化することによって信号対ノイズ比(signal-to-noise ratio、SNR)を最大化するように訓練/構成される。誤差の一例は、平均二乗誤差(MSE)又は平均二乗偏差(mean squared deviation、MSD)である。信号対ノイズ比において最大化された信号は、ベースコールされたターゲットクラスター(例えば、画像パッチの中心にあるクラスター)からの強度放射であり、信号対ノイズ比において最小化されたノイズは、1以上の隣接クラスター、すなわち、空間クロストーク、加えて他のノイズ源(例えば、背景強度放射を説明するための)からの強度放射である。訓練された係数は、ピクセルの強度値の重み付き和を計算するために、画像パッチのピクセルに要素ごとに乗算される。次に、重み付き和を使用して、ターゲットクラスターをベースコールする。
一実施態様では、パッチ抽出器118は、単一の配列決定画像から、赤色チャネルからの赤色ピクセルパッチ、及び緑色チャネルについての緑色ピクセルパッチを抽出する。他の実施態様では、赤色ピクセルパッチは、対象配列決定サイクルの赤色配列決定画像から抽出され、緑色ピクセルパッチは、対象配列決定サイクルの緑色配列決定画像から抽出される。LUT106の係数は、赤色ピクセルパッチのための赤色重み付き和及び緑色ピクセルパッチのための緑色重み付き和を生成するために使用される。次に、赤色重み付き和と緑色重み付き和を両方とも使用して、ターゲットクラスターをベースコールする。ピクセルパッチ120は、寸法w×hを有し、式中、w(幅)及びh(高さ)は、1及び10,000(例えば、3×3、5×5、7×7、9×9、15×15、25×25)の範囲の任意の数である。いくつかの実施態様では、w及びhは同じである。他の実施態様では、w及びhは異なる。当業者は、1つ、2つ、3つ、4つ、又はそれ超のチャネル又は画像のデータを、ターゲットクラスターについての配列決定サイクル当たり生成することができ、1つ、2つ、3つ、4つ、又はそれ超のパッチがそれぞれ抽出されて、ターゲットクラスターをベースコールするための1つ、2つ、3つ、4つ以上の重み和がそれぞれ生成されることを理解するであろう。
配列決定画像116からピクセルパッチ120を抽出するターゲットクラスターベースに関して、ピクセル抽出部118は、配列決定画像116上のクラスター/ウェルの中心の位置に基づいて、抽出された各ピクセルパッチの中心ピクセルがターゲットクラスター/ウェルの中心を含むようにピクセルパッチ120を抽出する。いくつかの実施態様では、パッチ抽出器118は、クラスター/ウェル中心を配列決定画像上に位置決めし、クラスター/ウェル中心(すなわち、中心ピクセル)を含む配列決定画像のピクセルを識別し、中心ピクセルの周囲の連続的に隣接するピクセル近傍のピクセルパッチを抽出する。
図2は、フローセル上の少なくとも5つのクラスター/ウェルの中心/点源を含む配列決定画像200の一例を可視化している。配列決定画像200のピクセルは、ターゲットクラスター1(青)からの強度放射と、追加の隣接クラスター2(紫)、クラスター3(オレンジ)、クラスター4(茶)、及びクラスター5(緑)からの強度放射を示している。
図3は、配列決定画像200からピクセルパッチ300(黄)を抽出する一例を可視化したものであり、ターゲットクラスター1(青)の中心がピクセルパッチ300の中心ピクセル206に含まれるようになっている。図3はまた、隣接するクラスター2(紫)、クラスター3(オレンジ)、クラスター4(茶)、及びクラスター5(緑)の中心をそれぞれ含む他のピクセル202、204、214、及び216を示している。
図4は、クラスター対ピクセル信号400の一例を可視化している。一実施態様では、センサピクセル(黄)はピクセル平面内にある。空間クロストークは、試料平面(例えば、フローセル)に周期的に分布したクラスター412によって引き起こされる。一実施態様において、ターゲットクラスター及び追加の隣接クラスターは、フローセル上に菱形で周期的に分布され、フローセルのウェル上に固定化される。別の実施態様では、ターゲットクラスター及び追加の隣接クラスターは、六角形のフローセル上に周期的に分布され、フローセルのウェル上に固定化される。クラスターからの信号コーン402は、少なくとも1つのレンズ(例えば、オーバヘッド又は隣接するCCDカメラの1以上のレンズ)を介して、センサピクセル(例えば、ピクセルパッチ300)のローカルグリッドに光学的に結合される。
クラスターは、菱形及び六角形の他に、正方形、菱状形、三角形などの他の規則的な形状に配置することができる。更に他の実施態様では、クラスターは、ランダムで非周期的な配置で試料平面上に配置される。当業者は、クラスターが、特定の配列決定の実施態様によって必要とされるように、任意の配置で試料平面上に配置され得ることを理解する。
図5は、クラスター対ピクセル信号オーバラップ500の一例を可視化している。信号コーン402は、重なり合ってセンサピクセルに衝突し、空間クロストーク502を生成する。
図6は、クラスター信号パターン600の一例を可視化している。一実施態様では、クラスター信号パターン600は、減衰パターン602に従う。この場合、クラスター信号は、クラスター中心で最も強く、クラスター中心から遠ざかって伝播するにつれて減衰する。
図6はまた、ターゲットクラスター1からの強度放射と、隣接するクラスター2、クラスター3、クラスター4、及びクラスター5からの強度放射との重み付き和を計算することによって信号対ノイズ比を最大化するように訓練/構成された等化器係数604の一例を示している。等化器係数604は重みとして機能する。重み付き和は、等化器係数604を含む第1の行列と、ピクセル強度値を含む第2の行列とを要素ごとに乗算することによって計算され、各ピクセル強度値は、クラスター1、2、3、4、及び5のうちの1以上からの放射と、ピクセルセンサによって測定されたシステム内の他のノイズ源との和である。
図7は、ピクセルパッチ300からの空間クロストークを減衰させるために使用されるサブピクセルLUTグリッド700の一例を可視化している。ピクセルパッチ300内の各ピクセルは、複数のサブピクセルに分割可能である。図7において、ターゲットクラスター1(青)の中心を含むピクセル206は、訓練されたLUT106の数と同数のサブピクセルに分割される。すなわち、ピクセル206は、訓練中に等化器104がLUT106を生成したビンの数と同じ数のサブピクセルに分割される。結果として、ピクセル206の各サブピクセルは、決定指向フィードバック及び最小二乗推定を使用して等化器104によって生成されたLUTバンク内のそれぞれのLUTに対応する。
図7に示す例では、ピクセル206(中心ピクセル)は、5×5のサブピクセルLUTグリッド700に分割され、訓練の結果として適合フィルタ104によって生成された25個のLUT(等化器フィルタ)にそれぞれ対応する25個のサブピクセルを生成する。25個のLUTの各々は、信号対ノイズ比を最大化するように、ターゲットクラスター1からの強度放射と、隣接するクラスター2、クラスター3、クラスター4、及びクラスター5からの強度放射示すピクセルパッチ300内のピクセルの強度値を混合/結合するように構成されている係数を含む。信号対ノイズ比において最大化された信号は、ターゲットクラスターからの強度放射であり、信号対ノイズ比において最小化されたノイズは、隣接するクラスター2、クラスター3、クラスター4、及びクラスター5からの強度放射、すなわち、空間クロストークにいくつかのランダムノイズを(例えば、背景強度放射を説明するために)加えたものである。LUT係数は重みとして使用され、混合/結合には、LUT係数とピクセルパッチ300内のピクセルの強度値との間で要素ごとの乗算を実行して、ピクセルの強度値の重み付き和を計算することが含まれる。
25個のLUTの各々における係数の数は、ピクセルパッチ300におけるピクセルの数と同じであり、すなわち、ピクセルパッチ300における9×9のピクセルについての各LUTにおける9×9の係数グリッドである。これは、係数がピクセルパッチ300内のピクセルを用いて要素ごとに乗算されるためである。
一実施態様では、ピクセル-サブピクセル変換器(図1Bには図示せず)は、予め設定されたピクセル除数パラメータ(例えば、5×5のサブピクセルLUTグリッド700を生成するために1サブピクセル当たり1/5ピクセル)に基づいてピクセル206をサブピクセルLUTグリッド700に分割する。例えば、ピクセルは、以下の境界、すなわち-0.5、-0.3、-0.1、0.1、0.3、0.5を有する5つのサブピクセルビンに分割され得る。
図7において、ターゲットクラスター1(青)の中心は、変換ピクセル702の中心と実質的に同心であることに留意されたい。これは、(i)テンプレート画像に対して配列決定画像200を位置合わせし、アフィン変換及び非線形変換パラメータを決定することと、(ii)パラメータを使用してターゲットクラスター1(青)の位置座標を配列決定画像702の画像座標に変換することと、(iii)ターゲットクラスター1(青)の変換された位置座標を使用して補間を適用してその中心を変換されたピクセル200の中心と実質的に同心にすることと、によって、配列決定画像200、したがってピクセルパッチ300が再サンプリングされ、ターゲットクラスター1(青)の中心が変換されたピクセル702の中心と実質的に同心になるからである。試料平面におけるウェルの位置は既知であり、特定のウェルに対する等化器入力が生ピクセル空間内のどこにあるかを計算するために使用することができる。次に、補間を使用して、生の画像からそれらの位置における強度を復元することができる。
図8は、ピクセル内のクラスター/ウェル中心のサブピクセル位置に基づくLUTバンク106からのLUT/等化器フィルタの選択を示している。ターゲットクラスターの中心(青)は、サブピクセルLUTグリッド700の特定のサブピクセル12にあり、ピクセル206の特定のサブピクセル12はLUTバンク106内のLUT12に対応するので、LUTセレクタ122は、ピクセルパッチ300のピクセルに適用するためにLUTバンク106からLUT12とその係数を選択する。次に、要素ごと乗算器134は、ピクセルパッチ300内のピクセルの強度値に対して、LUT12の係数を要素ごとに乗算し、乗算の積を合計して出力(例えば、重み付き和136)を生成する。この出力は、ターゲットクラスター1をベースコールするために使用される(例えば、この出力をベースコーラー138への入力として供給する)。
等化器104は、図7及び図8に関して上で考察されたように、ターゲットクラスターがピクセルの中心と実質的に同心である場合に、以下の等化論理を実施する。
Figure 2023525993000004
上記式において、ウェル中心座標(m,n)は、ウェルが実質的にピクセルと整列されることを保証するために整数である。p(i,j)は、位置i、jにおけるピクセル強度である。w(i,j)は、位置i、jにおけるピクセルに対する等化器重みである。i、jは、p(m,n)、例えば、-4<=i<=4、-4<=j<=4を中心とするウェルを囲むピクセル範囲にわたって作用する総和限界であり、出力は入力ピクセルの加重平均である。
図9は、図8に関して考察されたような再サンプリングが実行されないために、ターゲットクラスター1の中心(青)がピクセル206の中心と実質的に同心でない一実施態様を示している。そのような実施態様では、補間係数を有する補間LUTを生成するために、選択されたLUT124のセットの間で補間が行われる。補間係数を有する補間LUTは、本明細書では重みカーネル132とも称される。
まず、図8のように、ターゲットクラスター1(青)の中心が含まれる特定のサブピクセルに対応する第1のLUT、すなわち、LUT12が選択される。次に、LUTセレクタ122は、サブピクセルルックテーブルのバンク106から、特定のサブピクセルに最も連続して隣接するサブピクセルに対応する追加のサブピクセルルックアップテーブルを選択する。図9において、特定のサブピクセル12に接する最も近接して隣接するサブピクセルは、サブピクセル7、8、及び13であり、したがって、LUT7、8、及び13は、それぞれLUTバンク106から選択される。
図10は、選択されたLUTのセットの間で補間し、それぞれのLUT重みを生成する一実施態様を示している。補間器126は、選択されたLUT12、7、8、及び13の係数を使用し、LUT12、7、8、及び13の各々について重み128を生成する補間論理(例えば、線形、双線形、又は双三次補間)で構成される。
図13A、図13B、図13C、図13D、図13E、図13Fは、LUT12、7、8、13の係数の例を示している。これらの図はまた、LUT12、7、8及び13についての重み128を計算するために補間器126によって使用される補間論理の実施例1312、1322及び1332を示している。これらの図はまた、LUT12、7、8、及び13について計算された重み128の例を示している。これらの図はExcelシートのスナップショットである。これらの図の青い矢印と色分けは、補間論理を示すためにExcelのTrack Precedence機能によって生成されている。
図11は、LUT12、7、8、及び13について計算された重み128を使用して重みカーネル132を生成する重みカーネル生成器130を示している。図14Aは、重みカーネル132の例を示している。図14B及び図14Cは、LUT12、7、8、及び13について計算された重み128から重みカーネル132を生成するために重みカーネル生成器130によって使用される重みカーネル生成論理の一例1402を示している。重みカーネル132は、信号対ノイズ比を最大化するように、ターゲットクラスター1からの強度放射及び隣接するクラスター2、クラスター3、クラスター4、及びクラスター5からの強度放射を表すピクセルパッチ300内のピクセルの強度値を混合/結合するように構成されている補間ピクセル係数1412を含む。信号対ノイズ比において最大化された信号は、ターゲットクラスターからの強度放射であり、信号対ノイズ比において最小化されたノイズは、隣接するクラスター2、クラスター3、クラスター4、及びクラスター5からの強度放射、すなわち、空間クロストークにいくつかのランダムノイズを(例えば、背景強度放射を説明するために)加えたものである。補間ピクセル係数1412は重みとして使用され、混合/結合は、LUT係数とピクセルパッチ300内のピクセルの強度値との間で要素ごとの乗算を実行して、ピクセルの強度値の重み付き和を計算することを含む。
図12は、重みカーネル132の補間ピクセル係数1412をピクセルパッチ300内のピクセルの強度値で要素ごとに乗算し、乗算の中間積1202を合計して重み付き和136を生成する要素ごと乗算器134を示している。各ウェルに対して、光学システムは、点広がり関数(光学システムの応答)を有する点源(ウェルにおけるクラスター強度)上で動作する。いくつかの実施態様では、異なるクラスターサイズ、異なる背景強度、変化する刺激応答、変化する焦点、変化するセンサ感度、及び変化するレンズ収差によって引き起こされるノイズを説明するために、バイアスが動作に加えられる。捕捉された画像は、全てのウェルからの応答の重ね合わせである。選択されたLUTは、各ウェルの周りのシステム応答を等化して、そのウェルから点源の強度を推定する。すなわち、それは、センサピクセルの局所グリッドを生成した点源の強度を推定するために、センサピクセルの局所近傍/グリッドにわたってPSF強度を処理する。この等化器演算は、等化器係数を有するローカルグリッド内のセンサピクセル上のドット積である。
等化器104は、図9、図10、図11及び図12に関して上で考察されたように、ターゲットクラスターが中心ピクセルの中心と実質的に同心でない場合に、以下の等化論理を実施する。ウェルがピクセルの中心にない場合、等化器104の出力は、配列決定画像のピクセルの実際のピクセル強度から導出される仮想ピクセル強度p’(i,j)の関数として計算される。
Figure 2023525993000005
上記式において、ウェル中心座標(m,n)は小数部を有することができる。各「仮想」等化器入力p’(i,j)は、ピクセル近傍に補間フィルタを適用することによって生成される。一実施態様では、ウィンドウ付きsincローパスフィルタh(x,y)が補間のために使用される。他の実施態様では、双線形補間フィルタのような他のフィルタを使用することができる。
位置(i,j)における仮想ピクセルは、補間フィルタを使用して以下のように計算される。
Figure 2023525993000006
式(1)及び(2)を組み合わせることにより、等化器104は、以下のように生のピクセル強度のみを使用する。
Figure 2023525993000007
上式において、hは、サブピクセルオフセットfrac(m)、frac(n)が与えられて固定される。u、vは、等化器入力を生成するための補間に使用されるピクセルの範囲を指定し、i、jは、等化器104への入力として使用される仮想ピクセルの範囲を指定する。
指定されたサブピクセルオフセットでは、変化するのは入力ピクセルだけであり、フィルタ又は重みは変化しない。したがって、各ビン化されたサブピクセルオフセットの中心に対して、補間された等化器係数の固定セットを計算する。出力は以下のようになる。
Figure 2023525993000008
上記の式において、hfm,fnは、ビン化された分数サブピクセルオフセットfm、fnを有するウェルに対するLUT等化器係数を表し、式中、(fm,fn)はLUT指数である。
図15A及び図15Bは、重みカーネルの補間ピクセル係数1412がどのように信号対ノイズ比を最大化し、クラスター2、3、4、及び5からのクロストークによって破壊された信号からターゲットクラスター1の基礎となる信号を復元するかを示している。
重み付き和136は、ベースコール140を生成するためにベースコール138への入力として供給される。ベースコーラー138は、非ニューラルネットワークベースのベースコーラー又はニューラルネットワークベースのベースコーラーとすることができ、両方の例は、米国特許出願第62/821,766号及び同第16/826,168号のような参照により本明細書に組み込まれる出願に記載されている。
更に他の実施態様では、補間の必要性は、各々が多数のサブピクセルビン(例えば、LUTごとに50、75、100、150、200、300などのサブピクセルビン)を有する大きいLUTを有することによって排除される。
図19Aは、NovaSeqシーケンサからの画像を使用してベースコール誤差率を表すグラフを示している。誤差率はx軸のサイクルで示される。y軸の0.004は、ベースコール誤差率0.4%を表す。ここでの誤差率は、読み取りをPhi-X参照にマッピングし、整列させた後に計算される。Phi-X参照は、高信頼のグラウンドトゥルースセットである。青線はレガシーのベースコーラーである。赤線は、本明細書に開示された改善された等化器ベースのベースコーラー104である。全体の誤差率は、制限された余分な計算を犠牲にして57%減少する。後のサイクルにおけるベース誤差率は、システムにおける余分なノイズ(例えば、プリフェージング/フェージング、クラスター減光)に起因して、より高くなっている。後のサイクルで性能が向上しており、これは、より長い読み取りをサポートすることができることを示しているため、価値があるものである。サイクル間性能変動も著しく低減されている。
図19B-1及び図19B-2は、NovaSeqシーケンサ及びVegaシーケンサからのシーケンスデータに対する開示された等化器ベースのベースコーラー104の性能結果の別の例を示している。NovaSeqシーケンサに対して、開示された等化器ベースのベースコーラー104は、ベースコール誤差率を50%超減少させる。Vegaシーケンサに対して、開示された等化器ベースのベースコーラー104は、ベースコール誤差率を35%超減少させる。
図19Cは、NextSeq2000シーケンサからのシーケンスデータに対する開示された等化器ベースのベースコーラー104の性能結果の別の例を示している。NextSeq2000シーケンサに対して、開示された等化器ベースのベースコーラー104は、スループットを含まない平均で10%だけベースコール誤差率を減少させる。
図19Dは、開示された等化器ベースのベースコーラー104によって必要とされる計算リソースの一実施態様を示している。図示のように、開示された等化器ベースのベースコーラー104は、2~7スレッドの範囲の少数のCPUスレッドを使用して実行することができる。したがって、開示された等化器ベースのベースコーラー104は、計算上効率的なベースコーラーであり、これはベース誤差率を大幅に低減し、したがって、いかなる追加の計算又はGPU、FPGA、ASICなどの特殊なプロセッサを必要とすることなく、ほとんどの既存のシーケンサに統合することができる。
本出願において、用語「クラスター」、「ウェル」、「試料」及び「蛍光試料」は、ウェルが対応するクラスター/試料/蛍光試料を含有するので、交換可能に使用される。本明細書中で定義されるように、「試料」及びその誘導体は、最も広い意味で使用され、標的を含むことが疑われる任意の試料、培養物などを含む。いくつかの実施態様において、試料は、DNA、RNA、PNA、LNA、キメラ又はハイブリッド形態の核酸を含む。試料は、1以上の核酸を含有する任意の生物学的試料、臨床試料、外科試料、農業試料、大気試料又は水試料を含むことができる。この用語はまた、任意の単離された核酸試料、例えば、ゲノムDNA、新鮮凍結又はホルマリン固定パラフィン包埋核酸試料を含む。試料は、単一個体、遺伝的に関連するメンバーからの核酸試料のコレクション、遺伝的に関連しないメンバーからの核酸試料、腫瘍試料及び正常組織試料のような単一個体からの核酸試料(適合)、又は母体被験体から得られた母体及び胎児DNAのような遺伝物質の2つの異なる形態を含む単一供給源からの試料、又は植物又は動物DNAを含む試料中の汚染細菌DNAの存在に由来し得ることも想定される。いくつかの実施態様において、核酸物質の供給源は、例えば新生児スクリーニングに典型的に使用されるような新生児から得られた核酸を含むことができる。
核酸試料は、ゲノムDNA(genomic DNA、gDNA)などの高分子量物質を含むことができる。試料は、FFPE又は保管されたDNA試料から得られた核酸分子などの低分子量物質を含むことができる。別の実施態様では、低分子量物質は、酵素的又は機械的にフラグメント化されたDNAを含む。試料は、無細胞循環DNAを含むことができる。いくつかの実施態様において、試料は、生検、腫瘍、擦過物、スワブ、血液、粘液、尿、血漿、精液、毛髪、レーザ捕捉顕微解剖、外科的切除、及び他の臨床的又は実験室で得られた試料から得られた核酸分子を含み得る。いくつかの実施態様において、試料は、疫学的、農業的、法医学又は病原性試料であり得る。いくつかの実施態様において、試料は、ヒト又は哺乳動物源などの動物から得られた核酸分子を含むことができる。別の実施態様では、試料は、植物、細菌、ウイルス又は真菌などの非哺乳類源から得られた核酸分子を含むことができる。いくつかの実施態様において、核酸分子の供給源は、保存又は絶滅した試料又は種であり得る。
更に、本明細書中に開示される方法及び組成物は、法医学試料からの分解及び/又はフラグメント化されたゲノムDNAなどの低品質核酸分子を有する核酸試料を増幅するのに有用であり得る。一実施態様では、法医学試料は、犯罪現場から得られた核酸、行方不明者DNAデータベースから得られた核酸、法医学調査と関連した研究所から得られた核酸を含むことができ、又は法執行機関、1以上の軍隊若しくはそのような要員によって得られた法医学試料を含むことができる。核酸試料は、例えば、口腔スワブ、紙、布、又は唾液、血液、若しくは他の体液で含浸され得る他の基質に由来する、精製された試料又は溶解物を含む粗DNAであり得る。それ自体、いくつかの実施態様において、核酸試料は、ゲノムDNAのようなDNAの少量又はフラグメント化された部分を含み得る。いくつかの実施態様において、標的配列は、限定されるものではないが、血液、痰、血漿、精液、尿及び血清を含む1つ以上の体液に存在し得る。いくつかの実施態様において、標的配列は、毛髪、皮膚、組織試料、剖検又は犠牲者の遺体から得ることができる。いくつかの実施態様において、1つ以上の標的配列を含む核酸は、死亡した動物又はヒトから得ることができる。いくつかの実施態様において、標的配列は、微生物、植物細胞又は昆虫学的のような非ヒトから得られた核酸を含むことができる。いくつかの実施態様において、標的配列又は増幅された標的配列は、ヒト同定を対象とする。いくつかの実施態様において、本開示は、一般に、法医学試料の特徴を同定するための方法に関する。いくつかの実施態様において、本開示は、一般に、本明細書に開示された1つ以上の標的特異的プライマー、又は本明細書に概説されたプライマー設計基準を用いて設計された1以上の標的特異的プライマーを使用するヒト同定方法に関する。一実施態様において、少なくとも1つの標的配列を含む法医学試料又はヒト同定試料は、本明細書に開示された標的特異的プライマーのいずれか1つ以上を用いて、又は本明細書に概説されたプライマー基準を用いて増幅することができる。
本明細書中で使用される場合、用語「隣接する」は、2つの反応部位に関して使用される場合、2つの反応部位の間に他の反応部位が存在しないことを意味する。用語「隣接する」は、隣接する検出経路及び隣接する光検出器に関して使用される場合、同様の意味を有し得る(例えば、隣接する光検出器はその間に他の光検出器を有さない)。場合によっては、反応部位は他の反応部位に隣接していなくてもよいが、依然として他の反応部位の直近に存在していてもよい。第1の反応部位からの蛍光発光シグナルが第2の反応部位と関連する光検出器によって検出される場合、第1の反応部位は第2の反応部位の直近にあってもよい。より具体的には、第1の反応部位は、第2の反応部位と関連する光検出器が、例えば、第1の反応部位からのクロストークを検出する場合、第2の反応部位のすぐ近くにあってもよい。隣接する反応部位は、互いに隣接するように連続していてもよく、又は隣接部位は、間に介在スペースを有する非連続であってもよい。
技術的な改善及び用語
特許、特許出願、記事、書籍、論文、及びウェブページが挙げられるがこれらに限定されない、本出願において引用された全ての文献及び類似材料は、そうした文献及び類似材料の形式に関わりなく、それらの全体が参照により明示的に組み込まれる。組み込まれた文献及び類似の材料のうちの1つ以上が、以下に限定するわけではないが、定義された用語、用語使用、記載された技術などで、本出願とは異なる、又は矛盾する場合には、本出願が優越する。用語に関する更なる情報は、2019年3月21日に出願された「Artificial Intelligence-Based Sequencing」と題する米国特許非仮出願第16/826,168号(代理人整理番号ILLM1008-20/IP-1752-PRV)及び2020年3月21日に出願された「Artificial Intelligence-Based Sequencing」と題する米国特許仮出願第62/821,766号(代理人整理番号ILLM1008-9/IP-1752-PRV)に見出すことができる。
開示される技術は、核酸テンプレート又はその相補体、例えば、DNA若しくはRNAポリヌクレオチド又は他の核酸試料などの核酸試料から得ることができる核酸配列情報の品質及び量を改善するためにニューラルネットワークを使用する。したがって、開示される技術の特定の実施は、以前に利用可能な方法と比較して、より高いスループットのポリヌクレオチド配列決定、例えば、より高いDNA又はRNA配列データの収集速度、配列データ収集におけるより高い効率、及び/又はそのような配列データを得る低コストを提供する。
開示される技術は、ニューラルネットワークを使用して、固相核酸クラスターの中心を識別し、そのようなクラスターの配列決定中に生成される光信号を解析して、隣接する、隣接する、又は重複するクラスター間で曖昧さなく区別して、単一の離散したソースクラスターに配列決定シグナルを割り当てる。したがって、これら及び関連する実施態様は、高密度クラスターアレイの領域からの、配列データなどの有意義な情報の回収を可能にし、有用な情報は、重複する又は非常に近接して離間配置された隣接クラスターの影響を混乱させることに起因して、そのような領域から以前に得られなかった場合がある。重複するシグナルの効果(例えば、核酸配列決定において使用されるような)の効果を含む。
以下により詳細に記載されるように、特定の実施態様では、本明細書で提供されるように、1つ又は複数の核酸クラスターに固定化された固体支持体を含む組成物が提供される。各クラスターは、同じ配列の複数の固定化された核酸を含み、本明細書で提供されるような検出可能な中心標識を有する識別可能な中心を有し、識別可能な中心は、クラスター内の周囲領域において固定化された核酸と区別可能である。また、識別可能な中心を有するこのようなクラスターを作製及び使用するための方法も本明細書に記載される。
本開示の実施態様は、多数の状況での使用が見出され、その利点は、クラスター内の実質的に中心の位置の位置を識別、決定、アノテーション、記録、ないしは別の方法で割り当てる能力から得られる、多くの状況において使用が見出されるであろう。ハイスループット核酸配列決定、光学的又は他のシグナルを個別のソースクラスターに割り当てるための画像解析アルゴリズムの開発、及び固定化された核酸クラスターの中心の認識が望ましい及び有益である他の用途が望ましい。
特定の実施態様では、本発明は、核酸配列決定(例えば、「配列決定」)などのハイスループット核酸分析に関連する方法を企図する。例示的なハイスループット核酸解析としては、非限定的に、デノボ配列決定、再配列決定、全ゲノム配列決定、遺伝子発現解析、遺伝子発現モニタリング、エピジェネティクス分析、ゲノムメチル化分析、対立遺伝子特異的プライマー伸長(Allele Specific Primer Extension、APSE)、遺伝的多様性プロファイリング、全ゲノム多型発見及び解析、単一ヌクレオチド多型解析、ハイブリダイゼーション系配列決定法などが挙げられる。当業者は、様々な異なる核酸が、本発明の方法及び組成物を使用して分析され得ることを理解するであろう。
本発明の実施は核酸配列決定に関連して記載されているが、それらは、異なる時点で取得された画像データ、空間位置、又は他の時間的若しくは物理的観点で取得された画像データが分析される任意の分野において適用可能である。例えば、本明細書に記載される方法及びシステムは、マイクロアレイ、生物学的検体、細胞、生物などからの画像データが取得され、異なる時点又は視点で取得され、分析される、分子生物学及び細胞生物学の分野において有用である。画像は、蛍光顕微鏡法、光学顕微鏡法、共焦点顕微鏡法、光学画像化法、磁気共鳴画像化法、トモグラフィ走査などが挙げられるが、これらに限定されない、当該技術分野において既知の任意の数の技術を使用して得ることができる。別の例として、本明細書に記載される方法及びシステムは、監視、空中、又は衛星撮像技術などによって取得された画像データが、異なる時点又は視点で取得され、分析される場合に適用することができる。本方法及びシステムは、視野内で取得された画像を分析するのに特に有用であり、この視野内で、観察される検体は、視野内の互いに対して同じ場所に留まる。しかしながら、検体は、別個の画像で異なる特性を有してもよく、例えば、検体は、視野の別々の画像において異なるように見える場合がある。例えば、検体は、異なる画像で検出された所与の検体の色とは異なるように見える場合があり、異なる画像内の所与の検体のために検出された信号の強度の変化、又は更には、1つの画像中の所与の検体の信号の外観、及び別の画像内の検体の信号の消失を示し得る。
本明細書で使用するとき、用語「検体」は、相対位置に従って他の点又は領域と区別することができるパターンの点又は領域を意味することを意図する。個々の検体は、特定のタイプの1つ以上の分子を含むことができる。例えば、検体は、特定の配列を有する単一の標的核酸分子を含むことができ、又は検体は、同じ配列(及び/又はその相補的配列)を有するいくつかの核酸分子を含むことができる。パターンの異なる検体である異なる分子は、パターン内の検体の場所に従って互いに分化させることができる。例示的な検体としては、基材中のウェル、基材中又は基材上のビーズ(又は他の粒子)、基材からの突出部、基材上の隆起部、基材上のゲル材料のパッド、又は基材内のチャネルが挙げられる。
検出、特徴付け、又は識別される様々な標的検体のいずれも、本明細書に記載される装置、システム、又は方法で使用することができる。例示的な検体としては、限定するものではないが、核酸(例えば、DNA、RNA又はそれらの類似体)、タンパク質、多糖類、細胞、抗体、エピトープ、受容体、リガンド、酵素(例えば、キナーゼ、ホスファターゼ又はポリメラーゼ)、小分子薬物候補、細胞、ウイルス、生物などが挙げられるが、これらに限定されない。
用語「検体」、「核酸」、「核酸分子」、及び「ポリヌクレオチド」という用語は、本明細書において互換的に使用される。様々な実施態様では、核酸は、特定のタイプの核酸分析のために、本明細書で提供されるようなテンプレート(例えば、核酸テンプレート、又は核酸テンプレートに相補的な核酸相補体)として使用されてもよく、核酸増幅、核酸発現解析、及び/又は核酸配列決定、又はこれらの好適な組み合わせが挙げられるが、これらに限定されない。特定の実施における核酸としては、例えば、3‘-5‘ホスホジエステル中のデオキシリボヌクレオチドの直鎖ポリマー、又はデオキシリボ核酸(DeoxyriboNucleic Acid、DNA)、例えば、一本鎖及び二本鎖DNA、ゲノムDNA、コピーDNA若しくは相補的DNA(complementary DNA、cDNA)、組換えDNA、又は任意の形態の合成DNA若しくは修飾DNAが挙げられる。他の実施態様では、核酸としては、例えば、3‘-5‘ホスホジエステル中のリボヌクレオチドの直鎖ポリマー、又はリボ核酸(RiboNucleic Acid、RNA)などの他の結合、例えば、一本鎖及び二本鎖RNA、メッセンジャー(mRNA)、コピーRNA又は相補的RNA(complementary RNA、cRNA)、代替的に、スプライシングされたmRNA、リボソームRNA、小核RNA(small nucleolar RNA、snoRNA)、マイクロRNA(microRNA、miRNA)、低干渉RNA(small interfering RNA、sRNA)、ピウイRNA(piwi RNA、piRNA)、又は任意の形態の合成若しくは修飾RNA。本発明の組成物及び方法において使用される核酸は、長さが変化してもよく、無傷又は完全長の分子若しくはフラグメント、又はより大きい核酸分子のより小さい部分であってもよい。特定の実施態様では、核酸は、本明細書の他の箇所に記載されるように、1つ以上の検出可能な標識を有してもよい。
用語「検体」、「クラスター」、「核酸クラスター」、「核酸コロニー」、及び「DNAクラスター」は互換的に使用され、固体支持体に結合された核酸テンプレート及び/又はその相補体の複数のコピーを指す。典型的には、特定の好ましい実施態様では、核酸クラスターは、それらの5‘末端を介して固体支持体に結合されたテンプレート核酸及び/又はその相補体の複数のコピーを含む。核酸クラスターを構成する核酸鎖のコピーは、一本鎖又は二本鎖形態であってもよい。クラスター内に存在する核酸テンプレートのコピーは、例えば、標識部分の存在に起因して、互いに異なる対応する位置にヌクレオチドを有することができる。対応する位置はまた、異なる化学構造を有するが、ウラシル及びチミンの場合など、類似のWatson-Crick塩基対形成特性を有するアナログ構造を含むことができる。
核酸のコロニーはまた、「核酸クラスター」と称されることもある。核酸コロニーは、本明細書の他の箇所で更に詳細に記載されるように、クラスター増幅又はブリッジ増幅技術によって任意に作成することができる。標的配列の複数の反復は、ローリングサークル増幅手順を使用して作成された混乱剤などの単一の核酸分子中に存在し得る。
本発明の核酸クラスターは、使用される条件に応じて、異なる形状、サイズ、及び密度を有することができる。例えば、クラスターは、実質的に円形、多面、ドーナツ形、又はリング形状の形状を有することができる。核酸クラスターの直径は、約0.2μm~約6μm、約0.3μm~約4μm、約0.4μm~約3μm、約0.5μm~約2μm、約0.75μm~約1.5μm、又は任意の介在直径であるように設計することができる。特定の実施態様において、核酸クラスターの直径は、約0.5μm、約1μm、約1.5μm、約2μm、約2.5μm、約3μm、約4μm、約5μm、又は約6μmである。核酸クラスターの直径は、クラスターの産生において実施される増幅サイクルの数、核酸テンプレートの長さ、又はクラスターが形成される表面に付着したプライマーの密度を含むが、これらに限定されない多数のパラメータによって影響され得る。核酸クラスターの密度は、典型的には、0.1/mm、1/mm、10/mm100/mm1,000/mm10,000/mm~100,000/mmの範囲であるように設計することができる。本発明は、一部では、より高密度の核酸クラスター、例えば、100,000/mm~1,000,000/mm、及び1,000,000/mm~10,000,000/mmを更に企図する。
本明細書で使用するとき、「検体」は、検体又は視野内の対象領域である。マイクロアレイデバイス又は他の分子分析デバイスに関連して使用される場合、検体は、類似又は同一の分子によって占有される領域を指す。例えば、検体は、増幅オリゴヌクレオチド、又は同じ又は類似の配列を有するポリヌクレオチド又はポリペプチドの任意の他の群であり得る。他の実施態様では、検体は、試料上の物理的領域を占有する任意の要素又は要素群であり得る。例えば、検体は、ランドのパセル、水の本体などであってもよい。検体が撮像されると、各検体は、一部の領域を有する。したがって、多くの実施態様では、検体は、単に1つのピクセルではない。
検体間の距離は、任意の数の方式で説明することができる。いくつかの実施態様では、検体間の距離は、1つの検体の中心から別の検体の中心まで説明することができる。他の実施態様では、距離は、1つの検体の縁部から別の検体の縁部まで、又は各検体の最も外側の識別可能な点間に記載することができる。検体の縁部は、チップ上の理論的若しくは実際の物理的境界、又は検体の境界内のいくつかの点として説明することができる。他の実施態様では、距離は、試料上の固定点、又は試料の画像に関して説明することができる。
一般に、分析方法に関して、いくつかの実施態様が本明細書に記載される。自動又は半自動化方式で方法を実行するためのシステムも提供されることが理解されるであろう。したがって、本開示は、ニューラルネットワークベースのテンプレート生成及びベースコールシステムを提供し、システムは、プロセッサと、記憶デバイスと、画像分析のためのプログラムと、を含み、プログラムは、本明細書に記載の方法のうちの1つ以上を実行するための命令を含む。したがって、本明細書に記載される方法は、例えば、本明細書に記載されるか又は当該技術分野において既知の構成要素を有するコンピュータ上で実行することができる。
本明細書に記載される方法及びシステムは、様々な物体のうちのいずれかを分析するのに有用である。特に有用な物体は、固体担体又は付着した検体を有する固相表面である。本明細書に記載される方法及びシステムは、xy平面における検体の繰り返しパターンを有する物体と共に使用される場合、利点を提供する。一例は、細胞、ウイルス、核酸、タンパク質、抗体、炭水化物、小分子(薬物候補など)、生物学的活性分子、又は他の対象検体の集合を有するマイクロアレイである。
核酸及びポリペプチドなどの生物学的分子を有する検体を有するアレイの用途の数が増えてきた。このようなマイクロアレイは、典型的には、デオキシリボ核酸(DNA)又はリボ核酸(RNA)プローブが挙げられる。これらは、ヒト及び他の生物に存在するヌクレオチド配列に特異的である。特定の用途では、例えば、個々のDNA又はRNAプローブをアレイの個々の検体に取り付けることができる。既知のヒト又は生物からのものなどの試験試料は、標的核酸(例えば、遺伝子フラグメント、mRNA、又はアンプリコン)が配列中のそれぞれの検体で相補的プローブにハイブリダイズするように、アレイに曝露することができる。プローブは、標的特異的プロセス(例えば、標的核酸上に存在する標識に起因して、又は検体においてハイブリダイズした形態で存在するプローブ又は標的の酵素標識に起因して)標識することができる。次いで、検体の上の特定の光の周波数を走査して、どの標的核酸が試料中に存在するかを識別することによって検査することができる。
生物学的マイクロアレイは、遺伝子配列決定及び類似の用途に使用され得る。一般に、遺伝子配列決定は、DNA又はRNAのフラグメントなどの標的核酸の長さのヌクレオチドの順序を決定することを含む。比較的短い配列は、典型的には、各検体において配列決定され、得られた配列情報は、様々な生物情報科学法において使用されて、フラグメントが由来する多くの広範な長さの遺伝物質の配列を確実に決定するために、様々な生物情報科学法において使用されてもよい。特徴的フラグメントの自動化されたコンピュータベースのアルゴリズムが開発されており、ゲノムマッピング、遺伝子の識別、及びそれらの機能などにおいて、より最近使用されてきた。マイクロアレイは、多数の変異体が存在するため、ゲノム含有量を特徴付けるのに特に有用であり、このことは、個々のプローブ及び標的に対して多くの実験を実施する代替物であるため、ゲノム含有量を特徴付けるのに特に有用である。マイクロアレイは、実用的な様式でこのような調査を実施するための理想的なフォーマットである。
当該技術分野において既知の様々な検体アレイ(「マイクロアレイ」とも称される)のいずれも、本明細書に記載される方法又はシステムにおいて使用することができる。典型的なアレイは、各々が個々のプローブ又はプローブの集団を有する検体を含む。後者の場合、各検体におけるプローブの集団は、典型的には、単一種のプローブを有する均質である。例えば、核酸配列の場合、各検体は、各々、共通の配列を有する複数の核酸分子を有することができる。しかしながら、いくつかの実施態様では、アレイの各検体における集団は、不均質であり得る。同様に、タンパク質配列は、単一のタンパク質又はタンパク質の集団を有する検体を有することができ、典型的には、同じアミノ酸配列を有するが、必ずしもそうではない。プローブは、例えば、プローブを表面に共有結合することによって、又はプローブと表面との非共有相互作用を介して、アレイの表面に取り付けることができる。いくつかの実施態様では、核酸分子などのプローブは、ゲル層を介して表面に付着させることができ、例えば、米国特許出願第13/784,368号及び米国特許出願公開第2011/0059865(A1)号に記載されており、これらの各々は参照により本明細書に組み込まれる。
例示的なアレイとしては、限定するものではないが、Illumina,Inc(San Diego,Calif.)から入手可能なBeadChipアレイ又は他のもの、例えば、プローブが、表面上に存在するビーズ(例えば、表面上のウェル内のビーズ)に取り付けられる、以下、米国特許第6,266,459号、米国特許第6,355,431号米国特許第6,770,441号米国特許第6,859,570号若しくは米国特許第7,622,294号、又は国際公開第00/63437号に、記載されたものなどの他のものが挙げられ、これらの各々は、参照により本明細書に組み込まれる。使用することができる市販のマイクロアレイの更なる例としては、例えば、VLSIPS(商標)(Very Large Scale Immobilized Polymer Synthesis)技術と称されることがある技術に従って合成されたAffymetrix(登録商標)GeneChip(登録商標)マイクロアレイ又は他のマイクロアレイが挙げられる。スポッティングされたマイクロアレイはまた、本開示のいくつかの実施態様による方法又はシステムにおいて使用することができる。例示的なスポッティングされたマイクロアレイは、Amersham Biosciencesから入手可能なCodeLink(商標)Arrayである。有用な別のマイクロアレイは、Agilent Technologiesから入手可能なSurePrint(商標)Technologyなどのインクジェット印刷法を使用して製造されるものである。
他の有用な配列としては、核酸配列決定用途で使用されるものが挙げられる。例えば、ゲノムフラグメント(多くの場合、クラスターと称される)のアンプリコンを有するアレイは、Bentley et al.,Nature 456:53-59(2008)、国際公開第04/018497号、国際公開第91/06678号、国際公開第07/123744号、米国特許第7,329,492号、米国特許第7,211,414号、米国特許第7,315,019号、米国特許7,405,281号若しくは米国特許7,057,026号、又は米国特許出願公開第2008/0108082(A1)号に記載されており、これらの各々は参照により本明細書に組み込まれる。核酸配列決定に有用な別のタイプの配列は、エマルションPCR技術から生成される粒子の配列である。実施例は、Dressman et al.,Proc.Natl.Acad.Sci.USA 100:8817-8822(2003)、国際公開第05/010145号、米国特許出願公開第2005/0130173号又は米国特許出願公開第2005/0064460号に記載されており、これらの各々は、その全体が参照により本明細書に組み込まれる。
核酸配列に使用される配列は、多くの場合、核酸検体のランダムな空間パターンを有する。例えば、Illumina Incから入手可能なHiSeq又はMiSeq配列決定プラットフォーム(San Diego,Calif.)は、核酸配列がランダム播種、続いてブリッジ増幅によって形成されるフローセルを利用する。しかしながら、パターン化された配列は、核酸配列又は他の分析用途にも使用することができる。パターン化されたアレイの例、それらの製造方法及びその使用方法は、米国特許出願第13/787,396号、米国特許第13/783,043号、米国特許第13/784,368号、米国特許出願公開第2013/0116153(A1)号、及び米国特許出願公開第2012/0316086(A1)号に記載されており、これらの各々は参照により本明細書に組み込まれる。このようなパターン化された配列の検体を使用して、単一の核酸テンプレート分子を捕捉して、例えば、ブリッジ増幅を介して、均質なコロニーの後続の形成を行うことができる。このようなパターン化された配列は、核酸配列決定用途に特に有用である。
アレイ(又は本明細書の方法又はシステムで使用される他の物体)上の検体のサイズは、特定の用途に適するように選択することができる。例えば、いくつかの実施態様では、アレイの検体は、単一の核酸分子のみを収容するサイズを有することができる。このサイズ範囲の複数の検体を有する表面は、単一分子分解能で検出するための分子の配列を構築するのに有用である。このサイズ範囲の検体もまた、核酸分子のコロニーをそれぞれ含む検体を有するアレイでの使用にも有用である。したがって、アレイの検体は各々、約1mm以下、約500μm以下、約100μm以下、約10μm以下、約1μm以下、約500nm以下、又は約100nm以下、約10nm以下、約5nm以下、又は約1nm以下の面積を有することができる。代替的に又は追加的に、アレイの検体は、約1mm以上、約500μm以上、約100μm以上、約10μm以上、約1μm以上、約500nm以上、約100nm以上、約10nm以上、約5nm以上、又は約1nm以上である。実際に、検体は、上記に例示したものから選択される上限と下限との間の範囲内の大きさを有することができる。表面の検体のいくつかのサイズ範囲が核酸及び核酸のスケールに関して例示されてきたが、これらのサイズ範囲の検体は、核酸を含まない用途に使用され得ることが理解されるであろう。検体のサイズは、核酸用途に使用されるスケールに必ずしも限定される必要はないことが更に理解されるであろう。
検体のアレイなどの複数の検体を有する物体を含む実施例では、検体は、互いの間の空間で分離されている、別個のものとすることができる。本発明において有用なアレイは、最大で100μm、50μm、10μm、5μm、1μm、0.5μm以下の縁部から縁部までの距離によって分離される検体を有することができる。代替的に又は追加的に、アレイは、少なくとも0.5μm、1μm、5μm、10μm、50μm、100μm以上の縁部から縁部までの距離によって分離される検体を有することができる。これらの範囲は、検体の平均縁部間隔及び縁部間隔、並びに最小又は最大間隔に適用することができる。
いくつかの実施態様では、アレイの検体は、別個である必要はなく、代わりに、隣接する検体は互いに当接することができる。検体が別個であるか否かに関わらず、検体及び/又は検体のピッチの大きさは、アレイが所望の密度を有することができるように変化し得る。例えば、規則的なパターンにおける平均検体ピッチは、最大で100μm、50μm、10μm、5μm、1μm、0.5μm以下であり得る。代替的に又は追加的に、規則的なパターンにおける平均検体ピッチは、少なくとも0.5μm、1μm、5μm、10μm、50μm、100μm以上であり得る。これらの範囲は、規則的なパターンの最大ピッチ又は最小ピッチにも適用することができる。例えば、規則的なパターンの最大検体ピッチは、100μm以下、50μm以下、10μm以下、5μm以下、1μm以下、0.5μm以下とすることができ、かつ/又は規則的なパターンにおける最小検体ピッチは、少なくとも0.5μm、1μm、5μm、10μm、50μm、100μm以上であり得る。
アレイ内の検体の密度は、単位面積当たりに存在する検体の数に関しても理解され得る。例えば、アレイに関する検体の平均密度は、少なくとも約1×10検体/mm、1×10検体/mm、1×10検体/mm、1×10検/mm、1×10検体/mm、1×10検体/mm、又は1×10検体/mm以上であり得る。代替的に又は追加的に、アレイに関する検体の平均密度は、最大で約1×10検体/mm、1×10検体/mm、1×10検体/mm、1×10検体/mm、1×10検体/mm、1×10検体/mm、又は1×10検体/mm以下であり得る。
上記の範囲は、例えば、検体のアレイの全て又は一部を含む規則的なパターンの全て又は一部に適用することができる。
パターン内の検体は、様々な形状のいずれかを有することができる。例えば、アレイの表面上などの二次元平面で観察される場合、検体は、丸みを帯びた、円形、楕円形、矩形、正方形、対称、非対称、三角形、多角形などに見える場合がある。検体は、例えば六角形又は直線パターンを含む規則的な繰り返しパターンで配置することができる。パターンは、所望のレベルのパッキングを達成するように選択され得る。例えば、円形検体は、六角形の配置で最適に充填される。当然のことながら、他のパッキング構成もまた、円形検体のために使用することができ、逆もまた同様である。
パターンは、パターンの最小幾何学的単位を形成するサブセット内に存在する検体の数に関して特徴付けることができる。サブセットは、例えば、少なくとも約2、3、4、5、6、10個以上の検体を含み得る。検体のサイズ及び密度に応じて、幾何学的単位は、1mm、500μm、100μm、50μm、10μm、1μm、500nm、100nm、50nm、10nm以下の面積を占めることができる。代替的に又は追加的に、幾何学的単位は、10nm、50nm、100nm、500nm、1μm、10μm、50μm、100μm、500μm、1mm以上の面積を占めることができる。形状、サイズ、ピッチなどの幾何学的単位における検体の特性は、アレイ又はパターンの検体に関して、より一般的に本明細書に記載されるものから選択することができる。
検体の規則的なパターンを有するアレイは、検体の相対的な場所に対して順序付けられるが、各検体の1つ以上の他の特性に対してランダムであってもよい。例えば、核酸配列の場合、核酸検体は、それらの相対的な位置に関して規則的であるが、任意の特定の検体に存在する核酸種に関する配列の知識に関してランダムであってもよい。より具体的な例として、テンプレート核酸を有する検体の反復パターンを播種し、各検体でテンプレートを増幅して、検体においてテンプレートのコピーを形成することによって形成される核酸配列(例えば、クラスター増幅又はブリッジ増幅を介して、核酸検体の規則的なパターンを有するが、配列にわたる核酸の配列の分布に関してランダムであろう。したがって、アレイ上の核酸材料の存在の検出は、検体の繰り返しパターンをもたらすことができるのに対し、配列特異的検出は、アレイにわたる信号の非反復分布をもたらすことができる。
本明細書におけるパターン、順序、ランダム性などの説明は、アレイ上の検体などの物体上の検体にも関するだけでなく、画像中の検体にも関連することが理解されるであろう。したがって、パターン、順序、ランダム性などは、限定するものではないが、グラフィカルユーザインターフェース又は他の出力デバイスなどのコンピュータ可読媒体又はコンピュータ構成要素を含むがこれらに限定されない、画像データを記憶、操作、又は通信するために使用される様々なフォーマットのうちのいずれかに存在することができる。
本明細書で使用するとき、用語「画像」は、物体の全て又は一部の表現を意味することを意図する。表現は、光学的に検出された再現であり得る。例えば、蛍光、発光、散乱、又は吸収信号から画像を得ることができる。画像内に存在する物体の部分は、物体の表面又は他のxy面であり得る。典型的には、画像は二次元表現であるが、場合によっては、画像内の情報は、3つ以上の次元から導出することができる。画像は、光学的に検出された信号を含む必要はない。非光信号を代わりに存在させることができる。画像は、本明細書の他の箇所に記載されるもののうちの1つ以上などの、コンピュータ可読フォーマット又は媒体に提供することができる。
本明細書で使用するとき、「画像」は、試料又は他の物体の少なくとも一部分の再現又は表現を指す。いくつかの実施態様では、再現は、例えばカメラ又は他の光学検出器によって生成される光再現である。再現は、非光学的再現、例えば、ナノ細孔検体のアレイから得られる電気信号の表現、又はイオン感応性CMOS検出器から得られた電気信号の表現であり得る。特定の実施態様では、非光学的再現性は、本明細書に記載される方法又は装置から除外され得る。画像は、例えば、100μm、50μm、10μm、5μm、1μm、又は0.5μm未満離れたものを含む、様々な間隔のいずれかで存在する検体の検体を区別することができる解像度を有することができる。
本明細書で使用するとき、「取得」、「取得」、及び同様の用語は、画像ファイルを取得するプロセスの任意の部分を指す。いくつかの実施態様では、データ取得は、標本の画像を生成することと、標本内の信号を探すことと、信号の画像を探すか又は生成するように検出デバイスに指示することと、画像ファイルの更なる分析又は変換のための命令、及び画像ファイルの任意の数の変換又は操作のための命令を与えることと、を含むことができる。
本明細書で使用するとき、用語「テンプレート」は、信号又は検体間の場所又は関係の表現を指す。したがって、いくつかの実施態様では、テンプレートは、検体中の検体に対応する信号の表現を有する物理的グリッドである。いくつかの実施態様では、テンプレートは、チャート、テーブル、テキストファイル、又は検体に対応する場所を示す他のコンピュータファイルであり得る。本明細書に提示される実施態様では、異なる基準点で捕捉された試料の画像のセットにわたって検体の場所を追跡するためにテンプレートが生成される。例えば、テンプレートは、x、y座標のセット、又は別の検体に対する1つの検体の方向及び/若しくは距離を記述する値のセットであり得る。
本明細書で使用するとき、用語「標本」は、画像が取り込まれる物体又は物体の領域を指すことができる。例えば、画像が土壌の表面から撮影される実施例では、ランドのパセルは、標本であり得る。生体分子の分析がフローセル内で行われる他の実施態様では、フローセルは、任意の数のサブディビジョンに分割されてもよく、これらの各々は検体であってもよい。例えば、フローセルは、様々な流路又はレーンに分割されてもよく、各レーンは、画像化される2、3、4、5、6、7、8、9、10、20、30、40、50、60 70、80、90、100、110、120、140、160、180、200、400、600、800、1000個以上の別個の領域に更に分割され得る。フローセルの一例は8つのレーンを有し、各レーンは120個の標本又はタイルに分割されている。別の実施態様では、試料は、複数のタイル、又は更にはフローセル全体で作製されてもよい。したがって、各検体の画像は、撮像されるより大きい表面の領域を表すことができる。
本明細書に記載される範囲及び連続数リストへの言及は、列挙された数だけではなく、列挙された数字間の全ての実数を含むことが理解されるであろう。
本明細書で使用するとき、「参照点」は、画像間の任意の時間的又は物理的区別を指す。好ましい別の実施態様では、基準点は時間点である。より好ましい実施態様では、参照点は、配列決定反応中の時点又はサイクルである。しかしながら、用語「基準点」は、画像を区別又は分離することができる、角度、回転、時間、又は他の態様などの画像を区別又は分離する他の態様を含むことができる。
本明細書で使用するとき、「画像のサブセット」は、セット内の画像のグループを指す。例えば、サブセットは、画像のセットから選択される1、2、3、4、6、8、10、12、14、16、18、20、30、40、50、60又は任意の数の画像を含んでもよい。特定の別の実施態様では、サブセットは、1、2、3、4、6、8、10、12、14、16、18、20、30、40、50、60以下、又は画像のセットから選択される任意の数の画像を含んでもよい。好ましい別の実施態様では、画像は、各サイクルに相関する4つの画像を有する1つ以上の配列決定サイクルから得られる。したがって、例えば、サブセットは、4サイクルにわたって取得された16画像のグループであり得る。
塩基は、ヌクレオチド塩基又はヌクレオチド、(アデニン)、C(シトシン)、T(チミン)、又はG(グアニン)を指す。本出願は、「塩基」及び「ヌクレオチド」を互換的に使用する。
用語「染色体」は、DNA及びタンパク質成分(特にヒストン)を含むクロマチンストランドに由来する、生きている細胞の本発明の有効性を有する遺伝子キャリアを指す。従来の国際的に認識されている個々のヒトゲノム染色体番号付けシステムが本明細書で使用される。
「部位」という用語は、参照ゲノム上の固有の位置(例えば、染色体ID、染色体位置及び配向)を指す。いくつかの実施態様では、部位は、残基、配列タグ、又は配列上のセグメントの位置であってもよい。用語「遺伝子座」は、参照染色体上の核酸配列又は多型の特定の位置を指すために使用されてもよい。
本明細書における用語「試料」は、典型的には、配列決定及び/又はフェーズドされる核酸を含有する生物液、細胞、組織、器官、又は生物に由来する試料、又は配列決定及び/又はフェーズドされる核酸配列を少なくとも1つ含有する核酸の混合物に由来する試料を指す。このような試料としては、痰/口腔流体、羊水、血液、血液画分、細針生検試料(例えば、外科生検、針生検など)、尿、腹膜流体、胸膜流体、組織外植片、臓器培養物、及びこれらの任意の他の組織若しくは細胞調製物、又はこれらの画分若しくは誘導体が挙げられるが、これらに限定されない。試料は、多くの場合、ヒト被験者(例えば、患者)から採取されるが、試料は、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含むがこれらに限定されない、染色体を有する任意の生物から採取することができる。試料は、生物学的源から得られるように、又は試料の特性を修正する前処理後に、直接使用することができる。例えば、このような前処理は、血漿を血液から調製すること、粘性流体を希釈することなどを含んでもよい。前処理の方法には、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸フラグメント化、干渉成分の不活性化、試薬の添加、溶解などを含んでもよいが、これらに限定されない。
用語「配列」は、互いに結合されたヌクレオチドの鎖を含むか、又はそれを表す。ヌクレオチドは、DNA又はRNAに基づくことができる。1つの配列は、複数のサブ配列を含んでもよいことを理解されたい。例えば、単一の配列(例えば、PCRアンプリコン)は、350ヌクレオチドを有してもよい。試料読み取りは、これらの350ヌクレオチド内に複数のサブ配列を含んでもよい。例えば、試料読み取りは、例えば、20~50ヌクレオチドを有する第1及び第2のフランキングサブ配列を含んでもよい。第1及び第2の隣接するサブ配列は、対応するサブ配列(例えば、40~100ヌクレオチド)を有する反復セグメントの両側に位置してもよい。隣接するサブ配列の各々は、プライマーサブ配列(例えば、10~30ヌクレオチド)を含んでもよい(又はその一部分を含み得る)。読み取りを容易にするために、用語「サブ配列」は「配列」と称されるが、2つの配列は、共通のストランド上で互いに別個である必要はないことが理解される。本明細書に記載の様々な配列を区別するために、配列は、異なる標識(例えば、標的配列、プライマー配列、隣接配列、参照配列など)を与えられてもよい。「対立遺伝子」などの他の用語は、同様の物体を区別するために異なるラベルを与えられてもよい。アプリケーションは、「読み取り」及び「配列読み取り」を互換的に使用する。
用語「ペアエンド配列決定(paired end sequencing)」は、標的フラグメントの両端を配列する配列決定方法を指す。ペアエンド配列決定は、ゲノム再構成及び反復セグメントの検出、並びに遺伝子融合及び新規転写物の検出を容易にし得る。ペアエンド配列決定の方法は、国際公開第07010252号、国際出願第GB2007/003798号、及び米国特許出願公開第2009/0088327号に記載されており、これらは各々参照により本明細書に組み込まれる。一実施例では、一連の動作は、以下のように実行され得る。(a)核酸のクラスターを生成し、(b)核酸を線形化し、(c)上記のように、第1の配列決定プライマーをハイブリダイズし、伸長、走査及びデブロッキングのサイクルを繰り返し実行し、(d)相補的なコピーを合成することによって、フローセル表面上の標的核酸を「反転」させ、(e)再合成された鎖を線形化し、(f)上記のように、第2の配列決定プライマーをハイブリダイズし、伸長、走査及びデブロッキングのサイクルを繰り返し実行する。反転操作は、ブリッジ増幅の単一サイクルについて上述した試薬を送達することができる。
用語「参照ゲノム」又は「参照配列」は、対象からの識別された配列を参照するために使用され得る任意の生物の部分的又は完全ないずれかの特定の既知のゲノム配列を指す。例えば、ヒト被験者に使用される参照ゲノム、並びに多くのその他の生物が、National Center for Biotechnology Information at ncbi.nlm.nih.govで見出される。「ゲノム」とは、核酸配列で発現される、生物又はウイルスの完全な遺伝子情報を意味する。ゲノムは、DNAの遺伝子及び非コード配列の両方を含む。参照配列は、それに位置合わせされたリードよりも大きくてもよい。例えば、それは、少なくとも約100倍大きい、又は少なくとも約1000倍大きい、又は少なくとも約10,000倍大きい、又は少なくとも約105倍大きい、又は少なくとも約106倍大きい、又は少なくとも約107倍大きい場合がある。一実施例では、参照ゲノム配列は、完全長ヒトゲノムのものである。別の例では、参照ゲノム配列は、染色体13などの特定のヒト染色体に限定される。いくつかの実施態様では、参照染色体は、ヒトゲノムバージョンhg19からの染色体配列である。このような配列は、染色体参照配列と称される場合があるが、用語参照ゲノムは、そのような配列を網羅することを意図している。参照配列の他の例としては、その他の種のゲノム、並びに任意の種の染色体、部分染色体領域(ストランドなど)等が挙げられる。様々な実施態様では、参照ゲノムは、複数の個体に由来するコンセンサス配列又は他の組み合わせである。しかしながら、特定の用途では、参照配列は、特定の個体から採取されてもよい。他の実施態様では、「ゲノム」はまた、ゲノム配列の特定の記憶形式及び表現を使用するいわゆる「グラフゲノム」も被覆する。一実施態様では、グラフゲノムは、線形ファイルにデータを記憶する。別の実施態様では、グラフゲノムは、代替的な配列決定(例えば、小さい差異を有する染色体の異なるコピー)がグラフ内の異なる経路として記憶されている表現を指す。グラフゲノムの実装に関する追加情報は、https://www.biorxiv.org/content/biorxiv/early/2018/03/20/194530.full.pdf.にて参照することができ、その内容は、その全体が参照により本明細書に組み込まれる。
用語「読み取り」は、ヌクレオチド試料又は参照のフラグメントを記述する配列データの集合を指す。用語「読み取り」は、試料読み取り及び/又は参照読み取りを指し得る。典型的には、必ずしもそうではないが、読み取りは、試料又は参照における連続的な塩基対の短い配列を表す。読み取りは、試料又は参照フラグメントのベース対配列(ATCG)によって記号的に表されてもよい。読み取りが参照配列と一致するか、又は他の基準を満たすかを判定するために、メモリデバイスに記憶され、適切に処理されてもよい。読み取りは、配列決定装置から直接、又は試料に関する記憶された配列情報から間接的に得られてもよい。場合によっては、例えば、染色体又はゲノム領域又は遺伝子に位置合わせされ、特異的に割り当てられ得る、より大きい配列又は領域を識別するために使用することができる十分な長さ(例えば、少なくとも約25bp)のDNA配列である。
次世代配列決定法としては、例えば、合成技術(Illumina)、ピロ配列決定(454)、イオン半導体技術(Ion Torrent sequencing)、一分子リアルタイム配列決定(Pacific Biosciences)及びライゲーションによる配列決定(SOLiD配列決定)が挙げられる。配列決定法に応じて、各読み取りの長さは、約30bp~10,000bpを超えて変化し得る。例えば、SOLiDシーケンサを用いたDNA配列決定法は、約50bpの核酸リードを生成する。別の例では、Ion Torrent Sequencingは、最大400bpの核酸リードを生成し、454のピロ配列は、約700bpの核酸リードを生成する。更に別の例では、単分子リアルタイム配列決定法は、10,000bp~15,000bpのリードを生成し得る。したがって、特定の実施態様では、核酸配列のリードは、30~100bp、50~200bp、又は50~400bpの長さを有する。
用語「試料読み取り」、「試料配列」又は「試料フラグメント」は、試料から対象とするゲノム配列に関する配列データを指す。例えば、試料読み取りは、順方向及び逆方向プライマー配列を有するPCRアンプリコンからの配列データを含む。配列データは、任意の選択配列方法論から得ることができる。試料の読み取りは、例えば、配列単位合成(sequencing-by-synthesis、SBS)反応、配列決定・ライゲーション反応、又は反復要素の長さ及び/若しくは同一性を決定することが望ましい任意の他の好適な配列決定方法論であり得る。試料読み取りは、複数の試料読み取りに由来するコンセンサス(例えば、平均又は加重)配列であり得る。特定の実施態様では、参照配列を提供することは、PCRアンプリコンのプライマー配列に基づいて目的の遺伝子座を識別することを含む。
用語「生フラグメント」は、試料読み取り又は試料フラグメント内の対象とする指定位置又は二次位置に少なくとも部分的に重なり合う、対象とするゲノム配列の一部の配列データを指す。生フラグメントの非限定的な例としては、二重ステッチされたフラグメント、単純なステッチされたフラグメント、及び単純な非ステッチのフラグメントが挙げられる。用語「生」は、生フラグメントが試料読み取りにおける配列データとのいくつかの関係を有する配列データを含むことを示すために使用され、生フラグメントが、試料読み取りにおける潜在的変異体に対応し、かつそれを認証又は確認する支持変異体を示すかどうかに関わらず、使用される。用語「生フラグメント」は、フラグメントが、試料読み取りにおける変異型コールを検証する支持変異体を必ずしも含むことを示すものではない。例えば、試料読み取りが、第1の変異体を呈するために、変異型コールアプリケーションによって判定されるとき、この変異型コールアプリケーションは、1つ以上の生フラグメントが、試料読み取りにおける変異体を考慮して、そうでなければ発生することが予想され得る、対応するタイプの「支持」変異体を欠くと判定することができる。
用語「マッピング」、「整列された」、「整列している」、又は「整列する」という用語は、読み取り又はタグを参照配列と比較し、それによって、参照配列が読み取り配列を含むかどうかを判定するプロセスを指す。参照配列が読み取られた場合、読み取りは参照配列にマップされてもよく、又は特定の別の実施態様では、参照配列内の特定の位置にマッピングされてもよい。いくつかの場合において、整列は、リードが特定の参照配列のメンバーであるか否か(すなわち、リードが参照配列中に存在するか又は存在していないか)を単に伝える。例えば、ヒト染色体13についての参照配列に対するリードの位置合わせは、染色体13の参照配列中にリードが存在するかどうかを伝える。本情報を提供するツールは、セットメンバーシップテスタ(set membership tester)と呼ばれる場合がある。場合によっては、位置合わせは、読み取り又はタグマップがある参照配列内の位置を更に示す。例えば、参照配列がヒトゲノム配列全体である場合、整列は、染色体13上にリードが存在することを示してもよく、更に、リードが染色体13の特定の鎖及び/又は部位にあることを更に示してもよい。
用語「インデル」は、生物のDNA中の塩基の挿入及び/又は欠失を指す。マイクロインデルは、1~50ヌクレオチドの正味変化をもたらすインデルを表す。インデルの長さが3の倍数でない限り、ゲノムの領域をコードする際に、フレームシフト変異が生じる。インデルは、点突然変異と対比することができる。インデル挿入物は、配列からヌクレオチドを欠失させるが、点変異は、DNA中の全体的な数を変えることなくヌクレオチドのうちの1つを置き換える置換の形態である。インデルはまた、隣接するヌクレオチドにおける置換として定義され得るTandem Base変異(Tandem Base Mutation、TBM)と対比することもできる(主に2つの隣接するヌクレオチドで置換されるが、隣接する3つのヌクレオチドでの置換が観察された。
用語「変異体」は、核酸参照とは異なる核酸配列を指す。典型的な核酸配列変異体としては、限定するものではないが、単一のヌクレオチド多型(Single Nucleotide Polymorphism、SNP)、短い欠失及び挿入多型(Indel)、コピー数変動(Copy Number Variation、CNV)、マイクロ衛星マーカー、又は短いタンデム反復及び構造変異が挙げられる。体細胞変異体コールは、DNA試料中に低頻度で存在する変異体を識別するための努力である。体細胞変異体のコーリングは、癌治療の文脈において対象となる。癌は、DNAにおける変異の蓄積によって引き起こされる。腫瘍由来のDNA試料は、一般的に不均質であり、いくつかの正常細胞、癌進行の早期段階(より少ない突然変異を伴う)、及び一部の後期細胞(より多くの変異を有する)を含む。この不均一性のため、腫瘍を配列決定するとき(例えば、FFPE試料から)、体細胞変異は、多くの場合、低頻度で現れる。例えば、SNVは、所与の塩基を被覆するリードの10%のみに見られ得る。変異体分類子によって体細胞又は生殖細胞系として分類される変異体は、本明細書では「試験中の変異体」とも称される。
用語「ノイズ」は、配列決定プロセス及び/又は変異型コールアプリケーションにおける1つ以上の誤差から生じる、誤りのある変異型コールを指す。
用語「変異体頻度」は、集団内の特定の遺伝子座における対立遺伝子(遺伝子の変異体)の相対頻度を表し、分画又は割合として表される。例えば、分画又は割合は、その対立遺伝子を保有する集団中の全ての染色体の割合であってもよい。一例として、試料変異体頻度は、個体から対象となるゲノム配列について得られたリード及び/又は試料の数に対応する「集団」にわたって、対象とするゲノム配列に沿った特定の遺伝子座/位置における対立遺伝子/変異体の相対頻度を表す。別の例として、ベースライン変異体頻度は、1つ以上のベースラインゲノム配列に沿った特定の遺伝子座/位置における対立遺伝子/変異体の相対頻度を表し、ここで、1つ以上のベースラインゲノム配列について得られた、1つ以上のベースラインゲノム配列に沿った特定の遺伝子座/位置における対立遺伝子/変異体の相対頻度を表す。
用語「変異型対立遺伝子頻度(Variant Allele Frequency、VAF)」は、変異体を標的位置での全体的な被覆率で割った、配列決定されたリードの割合を指す。VAFは、変異体を保有する配列決定されたリードの割合の尺度である。
用語「位置」、「指定位置」、及び「遺伝子座」は、ヌクレオチド配列内の1つ以上のヌクレオチドの位置又は座標を指す。用語「位置」、「指定位置」、及び「遺伝子座」はまた、ヌクレオチドの配列における1つ以上の塩基対の位置又は座標を指す。
用語「ハプロタイプ」は、互いに遺伝する染色体上の隣接する部位における対立遺伝子の組み合わせを指す。ハプロタイプは、存在する場合、座の所与のセットの間に生じた組換えイベントの数に応じて、1つの遺伝子座、いくつかの座、又は染色体全体であってもよい。
本明細書における「閾値」という用語は、試料、核酸、又はその一部(例えば、読み取り)を特徴付けるためのカットオフとして使用される数値又は数値を指す。閾値は、経験的分析に基づいて変化してもよい。閾値は、そのような値を生じさせる源が特定の様式で分類されるべきかどうかを判定するために、測定値又は計算値と比較することができる。閾値は、経験的又は分析的に識別することができる。閾値の選択は、ユーザが分類を行う必要があることを望む信頼度に依存する。閾値は、特定の目的(例えば、感度及び選択性のバランスのために)選択されてもよい。本明細書で使用するとき、用語「閾値」は、分析の過程が変化し得る点、及び/又はアクションがトリガされ得る点を示す。閾値は、所定の数である必要はない。その代わりに、閾値は、例えば、複数の因子に基づく関数であってもよい。閾値は、状況に適応し得る。更に、閾値は、上限、下限、又は限界間の範囲を示し得る。
いくつかの実施態様では、配列決定データに基づく指標又はスコアは、閾値と比較され得る。本明細書で使用するとき、用語「メトリック」又は「スコア」は、配列決定データから決定された値又は結果を含んでもよく、又は配列決定データから決定された値又は結果に基づく関数を含んでもよい。閾値と同様に、指標又はスコアは、状況に適応し得る。例えば、指標又はスコアは、正規化された値であってもよい。スコア又はメトリックの例として、1つ以上の実施態様は、データを分析する際にカウントスコアを使用することができる。計数スコアは、試料読み取りの数に基づいてもよい。試料読み取りは、試料読み取りが少なくとも1つの共通の特性又は品質を有するように、1つ以上のフィルタリング段階を経ていてもよい。例えば、計数スコアを決定するために使用される試料読み取りの各々は、参照配列と整列されていてもよく、又は潜在的な対立遺伝子として割り当てられてもよい。共通の特性を有する試料読み取りの数をカウントして、リードカウントを決定することができる。カウントスコアは、読み取りカウントに基づいてもよい。いくつかの実施態様では、計数スコアは、リードカウントと等しい値であってもよい。他の実施例では、計数スコアは、リードカウント及び他の情報に基づいてもよい。例えば、計数スコアは、遺伝子座の特定の対立遺伝子のリードカウント、及び遺伝子座の合計リード数に基づいてもよい。いくつかの実施態様では、計数スコアは、遺伝子座のリードカウント及び以前に得られたデータに基づいてもよい。いくつかの実施態様では、計数スコアは、所定の値間の正規化スコアであってもよい。計数スコアはまた、試料の他の遺伝子座からのリードカウントの関数、又は対象となる試料と同時に動作された他の試料からのリードカウントの関数であってもよい。例えば、計数スコアは、特定の対立遺伝子の読み取りカウント及び試料中の他の遺伝子座の読み取りカウント、及び/又は他の試料からのリードカウントの関数であってもよい。一例として、他の遺伝子座からのリードカウント及び/又は他の試料からのリードカウントを使用して、特定の対立遺伝子についての計数スコアを正規化してもよい。
用語「被覆率」又は「フラグメント被覆率」は、配列の同じフラグメントに対する多数の試料読み取りの計数又は他の尺度を指す。リードカウントは、対応するフラグメントをカバーするリードの数のカウントを表し得る。代替的に、被覆率は、履歴知識、試料の知識、遺伝子座の知識などに基づく指定された因子を、リードカウントに掛けることによって決定されてもよい。
用語「読み取り深さ」(従来、「×」が続く数)は、標的位置における重複アラインメントを伴う配列決定されたリードの数を指す。これは、多くの場合、間隔のセット(エキソン、遺伝子、又はパネルなど)のカットオフを超える平均又は百分率として表現される。例えば、臨床報告は、パネル平均被覆率が、標的化されたベースカバー>100×の98%を有する1,105×であると言うことができる。
用語「ベースコール品質スコア」又は「Qスコア」は、単一の配列決定された塩基が正しい確率に反比例する0-50からの範囲のPHREDスケールされた確率を指す。例えば、20のQを有するTベースコールは、99.99%の確率で正しいと考えられる。Q<20での任意のベースコールは、低品質であるとみなされるべきであり、変異体を支持する配列決定されたリードのかなりの割合が低い場合に識別される任意の変異体は、潜在的に偽陽性であるとみなされるべきである。
用語「変異体リード」又は「変異体リード番号」は、変異体の存在を支持する配列決定されたリードの数を指す。
「撚れ性(strandedness)」(又はDNA撚れ性)に関して、DNA中の遺伝的メッセージは、文字A、G、C、及びTの文字、例えば、5’-AGGACA-3’として表すことができる。多くの場合、配列は、本明細書に示される方向、すなわち、5‘端を左に、3‘端を右に書き込む。DNAは、(特定のウイルスのように)一本鎖分子として生じる場合があるが、通常、二本鎖単位としてDNAを見つける。これは、2つの抗平行ストランドを有する二重螺旋構造を有する。この場合、「逆平行」という語は、2つのストランドが平行に動作するが、反対の極性を有することを意味する。二本鎖DNAは、塩基とペアリングによって一緒に保持され、ペアリングは、アデニン(A)対がチミン(T)及びシトシン(C)対とグアニン(G)との対となるように、常に保持される。このペアリングは相補性と称され、1本のDNA鎖は、他方の相補体であると言われる。したがって、二本鎖DNAは、5’-AGGACA-3’及び3’-TCCTGT-5’と同様に、2つのストリングとして表され得る。2つのストランドは、反対の極性を有することに留意されたい。したがって、2つのDNA鎖のストランド性は、基準ストランド及びその補体、順方向及び逆方向ストランド、トップ及びボトムストランド、センス及びアンチセンスストランド、又はワトソン及びクリックストランドと称され得る。
リードアライメント(リードマッピングとも呼ばれる)は、ゲノム中の配列が由来する場合に、参照するプロセスである。アライメントが行われると、所与の読み取りの「マッピング品質」又は「マッピング品質スコア(mapping quality score、MAPQ)」は、ゲノム上のその位置が正しい確率を定量化する。マッピング品質は、位相スケールで符号化され、Pはアライメントが正しくない確率である。確率はP=10(-MAQ/10)のように計算され、式中MAPQはマッピング品質である。例えば、-4の電力に対する40=10のマッピング品質は、読み取りが不正確に位置合わせされた0.01%の機会が存在することを意味する。したがって、マッピング品質は、読み取りの基本品質、参照ゲノムの複雑性、及びペアエンド情報などのいくつかの位置合わせ因子と関連付けられる。最初に、読み取りの基本品質が低い場合、観察された配列が誤っている可能性があり、したがってそのアライメントが誤っていることを意味する。第2に、マッピング能力はゲノムの複雑さを指す。反復領域は、これらの領域に含まれるマップ及びリードをマッピングすることがより困難であり、通常、マッピング品質が低くなる。この文脈では、MAPQは、リードが一意的に整列されておらず、それらの実際の原点を決定することができないという事実を反映する。第3に、パリッドエンド配列決定データの場合、コンコダント対は、より良好に整列される可能性が高い。マッピング品質が高いほど、アライメントがより良好である。良好なマッピング品質と整合された読み取りは、通常、読み出し配列が良好であり、高いマッピング可能領域内ではわずかな不一致と位置合わせされたことを意味する。MAPQ値は、アライメント結果の品質管理として使用することができる。20よりも高いMAPQと位置合わせされたリードの割合は、通常、下流分析のためである。
本明細書で使用するとき、「信号」は、例えば画像内の発光、好ましくは発光などの検出可能なイベントを指す。したがって、好ましい別の実施態様では、信号は、画像内に捕捉された任意の検出可能な発光(すなわち、「スポット」)を表すことができる。したがって、本明細書で使用するとき、「信号」は、検体の検体からの実際の放出の両方を指すことができ、実際の検体と相関しない擬似発光を指すことができる。したがって、信号はノイズから生じ得、試験片の実際の検体を代表しないように後に廃棄することができる。
本明細書で使用するとき、用語「クランプ」は、一群の信号を指す。特定の実施態様では、信号は、異なる検体に由来する。好ましい別の実施態様では、信号クランプは、一緒にクラスター化する信号群である。より好ましい実施態様では、信号クランプは、1つの増幅オリゴヌクレオチドによって覆われた物理的領域を表す。各信号クランプは、理想的には、いくつかの信号(テンプレートサイクル当たり1つ、恐らくはクロストークによってより多く)として観察されるべきである。したがって、2つ(以上)の信号が同じ信号のクランプからテンプレートに含まれる、重複する信号が検出される。
本明細書で使用するとき、「最小」、「最大」、「最小化」、「最大化」、及びその文法的変異形などの用語は、絶対最大値又は最小値ではない値を含むことができる。いくつかの実施態様では、値は、最大値及び最小値付近を含む。他の実施例では、値は、局所的最大値及び/又は局所最小値を含むことができる。いくつかの実施態様では、値は、絶対最大値又は最小値のみを含む。
本明細書で使用するとき、「クロストーク」は、別個の画像においても検出される1つの画像内の信号の検出を指す。好ましい別の実施態様では、クロストークは、放射された信号が2つの別個の検出チャネルで検出されるときに発生し得る。例えば、放射された信号が1つの色で発生する場合、その信号の放射スペクトルは、別の色で別の放射された信号と重なってもよい。好ましい実施態様では、ヌクレオチド塩基A、C、G、及びTの存在を示すために使用される蛍光分子は、別個のチャネルで検出される。しかし、A及びCの発光スペクトルは重複するため、色チャネルを使用した検出中に、C色信号の一部が検出され得る。したがって、A信号とC信号との間のクロストークにより、1つのカラー画像からの信号が他のカラー画像に現れることを可能にする。いくつかの実施態様では、G及びTクロストークがある。いくつかの実施態様では、チャネル間のクロストークの量は非対称である。チャネル間のクロストークの量は、とりわけ、適切な放射スペクトルを有する信号分子の選択、並びに検出チャネルのサイズ及び波長範囲の選択によって制御され得ることが理解されるであろう。
本明細書で使用するとき、「位置合わせする(register)」、「位置合わせすること(registering)」、「位置合わせ(registration)」、及び同様の用語は、画像又はデータセット内の信号を、別の時点又は視点からの画像又はデータセット内の信号と相関させるための任意のプロセスを指す。例えば、位置合わせを使用して、画像のセットからの信号を整列させてテンプレートを形成することができる。別の例では、位置合わせを使用して、他の画像からの信号をテンプレートに位置合わせすることができる。1つの信号は、別の信号に直接又は間接的に位置合わせされてもよい。例えば、画像「S」からの信号は、画像「G」に直接位置合わせされてもよい。別の例として、画像「N」からの信号は、画像「G」に直接位置合わせされてもよく、代替的に、画像「N」からの信号は、以前に画像「G」に位置合わせされた画像「S」に位置合わせされてもよい。したがって、画像「N」からの信号は、画像「G」に間接的に位置合わせされる。
本明細書で使用するとき、用語「基準」は、物体内又は物体上の区別可能な基準点を意味することを意図する。基準点は、例えば、マーク、第2の物体、形状、縁部、領域、不規則性、チャネル、ピット、ポストなどであり得る。基準点は、物体の画像内に、又は物体を検出することに由来する別のデータセット内に存在することができる。基準点は、物体の平面内のx及び/又はy座標によって指定することができる。代替的に又は追加的に、基準点は、例えば、物体と検出器との相対位置によって定義される、xy平面に直交するz座標によって指定することができる。基準点に対する1つ以上の座標は、物体の1つ以上の他の検体、又は物体に由来する画像又は他のデータセットに対して指定することができる。
本明細書で使用するとき、用語「光信号」は、例えば、蛍光、発光、散乱、又は吸収信号を含むことを意図する。光信号は、紫外線(Ultraviolet、UV)範囲(約200~390nm)、可視(Visible、VIS)範囲(約391~770nm)、赤外線(Infrared、IR)範囲(約0.771~25マイクロメートル)、又は電磁スペクトルの他の範囲で検出することができる。これらの範囲のうちの1つ以上の全て又は一部を除外する方式で、光信号を検出することができる。
本明細書で使用するとき、用語「信号レベル」は、所望又は所定の特性を有する検出されたエネルギー又は符号化された情報の量又は量を意味することを意図する。例えば、光信号は、強度、波長、エネルギー、周波数、電力、輝度などのうちの1つ以上によって定量化することができる。他の信号は、電圧、電流、電界強度、磁場強度、周波数、電力、温度などの特性に従って定量化することができる。信号の不在は、ゼロの信号レベル、又はノイズとは有意に区別されない信号レベルであると理解される。
本明細書で使用するとき、用語「シミュレートする」は、物又はアクションの特性を予測する物又はアクションの表現又はモデルを作成することを意味することを意図する。表現又はモデルは、多くの場合、物又はアクションと区別可能であり得る。例えば、表現又はモデルは、色、被加工、サイズ、又は形状の全て又は一部から検出される信号の強度などの1つ以上の特性に対するものと区別することができる。特定の実施態様では、表現又はモデルは、物又はアクションと比較して、理想化、誇張、ミュート、又は不完全であり得る。したがって、いくつかの実施態様では、モデルの表現は、例えば、上記の特性のうちの少なくとも1つに関して表すものであることを表すものであることができる。表現又はモデルは、本明細書の他の箇所に記載されるもののうちの1つ以上などのコンピュータ可読フォーマット又は媒体に提供され得る。
本明細書で使用するとき、用語「特定の信号」は、背景エネルギー又は情報などの他のエネルギー又は情報にわたって選択的に観察される、検出されたエネルギー又は符号化情報を意味することを意図する。例えば、特定の信号は、特定の強度、波長、又は色で検出された光信号;特定の周波数、電力、又は電界強度で検出された電気信号;又は分光法及び分析検出に関連する当該技術分野で既知の他の信号であり得る。
本明細書で使用するとき、用語「スワス(swath)」は、物体の矩形部分を意味することを意図する。スワスは、ストリップの最長寸法に平行な方向に、物体と検出器との間の相対移動によって走査される細長いストリップであり得る。一般に、矩形部分又はストリップの幅は、その全長に沿って一定である。物体の複数のスワスは、互いに平行であってもよい。物体の複数のスワスは、互いに重なり合い、互いに隣接するか、又は間質領域によって互いに分離され得る。
本明細書で使用するとき、用語「分散」は、予想される差、及び観察される差、又は2つ以上の観測結果間の差を意味することを意図する。例えば、分散は、期待値と測定値との間の不一致であり得る。標準偏差、標準偏差の二乗、変動係数などの統計関数を使用して、分散を表すことができる。
本明細書で使用するとき、用語「xy座標」は、xy平面内の位置、サイズ、形状、及び/又は向きを指定する情報を意味することを意図する。情報は、例えば、デカルト座標系における数値座標であり得る。座標は、x軸及びy軸の一方又は両方に対して提供することができ、又はxy平面内の別の場所に対して提供することができる。例えば、物体の検体の座標は、対象物の基準又は他の検体の位置に対する検体の場所を指定することができる。
本明細書で使用するとき、用語「xy平面」は、直線軸x及びyによって画定される二次元領域を意味することを意図する。検出器及び検出器によって観察される物体を参照して使用される場合、領域は検出器と検出されている物体との間の観測方向に直交するように更に指定することができる。
本明細書で使用するとき、用語「z座標」は、xy平面に直交する軸に沿った点、線、又は領域の位置を指定する情報を意味することを意図する。特定の実施態様では、z軸は、検出器によって観察される物体の領域に直交する。例えば、光学系の焦点の方向は、z軸に沿って指定されてもよい。
いくつかの実施態様では、獲得された信号データは、アフィン変換を用いて変換される。いくつかのそのような実施態様では、テンプレートの生成は、色チャネル間のアフィン変換が動作間に一貫しているという事実を使用する。この一貫性のため、標本中の検体の座標を決定する際に、デフォルトオフセットのセットを使用することができる。例えば、デフォルトオフセットファイルは、Aチャネルなどの1つのチャネルに対する異なるチャネルに対する相対変換(シフト、スケール、スキュー)を含むことができる。しかしながら、他の実施態様では、動作中及び/又は動作間の色チャネルドリフト間のオフセットは、オフセット駆動型テンプレート生成を困難にする。このような実施例では、本明細書で提供される方法及びシステムは、オフセットしたテンプレート生成を利用することができ、これについては以下で更に説明する。
上記の実施態様のいくつかの態様では、システムはフローセルを含み得る。いくつかの態様では、フローセルは、レーン、又は他の構成のタイルを含み、タイルの少なくとも一部は、1つ以上の検体群を含む。いくつかの態様では、検体は、核酸などの複数の分子を含む。特定の態様では、フローセルは、標識されたヌクレオチド塩基を核酸の配列に送達し、それによって、核酸を含む検体に対応するシグナルを生成するように、検体内の核酸にハイブリダイズするプライマーを伸長させるように構成される。好ましい実施態様では、検体内の核酸は、互いに同一又は実質的に同一である。
本明細書に記載される画像解析システムのいくつかにおいて、画像のセット内の各画像は、色信号を含み、異なる色は、異なるヌクレオチド塩基に対応する。いくつかの態様では、画像のセットの各画像は、少なくとも4つの異なる色から選択される単一の色を有する信号を含む。いくつかの態様では、画像のセット内の各画像は、4つの異なる色から選択される単一の色を有する信号を含む。本明細書に記載されるシステムのいくつかにおいて、核酸は、4つの異なる画像を生成するように、4つの異なる標識ヌクレオチド塩基を分子の配列に提供することにより、核酸を配列決定することができ、各画像は単一の色を有するシグナルを含み、信号色が、4つの異なる画像の各々に対して異なることにより、核酸内の特定の位置に存在する4つの可能なヌクレオチドに対応する4つのカラー画像のサイクルを生成する。特定の態様では、システムは、追加の標識ヌクレオチド塩基を分子の配列に送達するように構成されているフローセルを含み、それによって複数のカラー画像のサイクルを生成する。
好ましい実施態様形態では、本明細書で提供される方法は、プロセッサがアクティブにデータを収集しているか、又はプロセッサが低活動状態にあるかどうかを判定することを含み得る。多数の高品質画像を収集及び記憶することは、典型的には、大量の記憶容量を必要とする。更に、収集され記憶されると、画像データの分析はリソース集約的になり得、追加の画像データの収集及び記憶などの他の機能の処理能力を妨げる可能性がある。したがって、本明細書で使用するとき、用語「低活動状態」は、所与の時間におけるプロセッサの処理能力を指す。いくつかの実施態様では、低活動状態は、プロセッサがデータを収集及び/又は記憶していないときに生じる。いくつかの実施態様では、一部のデータ収集及び/又は記憶が行われる場合には、低いアクティビティ状態が生じるが、他の機能に干渉することなく画像解析が同時に生じ得るように、追加の処理能力が残る。
本明細書で使用するとき、「競合を識別する」とは、複数のプロセスがリソースに対して競合する状況を識別することを指す。いくつかのそのような実施態様では、1つのプロセスは、別のプロセスに対して優先度を与えられる。いくつかの実施態様では、競合は、時間、処理能力、記憶能力、又は優先度が与えられる任意の他のリソースの割り当てに対する優先度を与える必要性に関連し得る。したがって、いくつかの実施態様では、処理時間又は容量が、データセットを分析し、データセットを取得及び/又は記憶するかのいずれかなどの2つのプロセス間に分散される場合、2つのプロセス間の不一致が存在し、プロセスのうちの1つに優先度を与えることによって解決することができる。
本明細書では、画像解析を実行するためのシステムも提供される。システムは、プロセッサと、記憶容量と、画像解析用のプログラムと、を含むことができ、プログラムは、記憶のための第1のデータセット及び分析のための第2のデータセットを処理するための命令を含み、処理は、記憶装置上の第1のデータセットを取得及び/又は記憶することと、プロセッサが第1のデータセットを取得していないときに第2のデータセットを解析することと、を含む。特定の態様では、プログラムは、第1のデータセットを収集及び/又は記憶することと、第2のデータセットを解析することとの間の競合の少なくとも1つのインスタンスを識別するための命令を含み、第1のデータセットを収集及び/又は記憶することが優先度を与えられるように、画像データを取得及び/又は記憶することが優先される。特定の態様では、第1のデータセットは、光学撮像デバイスから収集された画像ファイルを含む。特定の態様では、システムは、光学撮像デバイスを更に備える。いくつかの態様では、光学撮像デバイスは、光源と検出デバイスとを備える。
本明細書で使用するとき、用語「プログラム」は、タスク又はプロセスを実行するための命令又はコマンドを指す。用語「プログラム」は、用語「モジュール」と互換的に使用され得る。特定の実施態様では、プログラムは、同じコマンドセットの下で実行される様々な命令のコンパイルであり得る。他の実施態様では、プログラムは、別個のバッチ又はファイルを参照することができる。
以下に記載されるのは、本明細書に記載される画像解析を実行するための方法及びシステムを利用する驚くべき効果の一部である。いくつかの配列決定の実現例では、配列決定システムの有用性の重要な尺度は、その全体的な効率である。例えば、1日当たりに生成されるマッピング可能なデータの量、並びに機器の設置及び動作の総コストは、経済的な配列決定ソリューションの重要な態様である。マッピング可能なデータを生成し、システムの効率を高めるための時間を短縮するために、リアルタイムのベースコールを機器コンピュータ上で有効にすることができ、配列決定ケミストリ及び画像化と並行して動作することができる。これにより、配列決定ケミストリ仕上げの前に、データ処理及び分析が完了することを可能にする。更に、中間データに必要な記憶を低減し、ネットワークを横切って移動する必要があるデータの量を制限することができる。
配列出力が増加している間、本明細書で提供されるシステムからネットワークに転送された動作ごとのデータ、及び二次分析処理ハードウェアは、実質的に減少している。機器コンピュータ(取得コンピュータ)上でデータを変換することにより、ネットワークロードが劇的に低減される。これらのオン機器、オフネットワークデータ低減技術を伴わずに、DNA配列決定機器のフレットの画像出力は、ほとんどのネットワークをクリップルするであろう。
ハイスループットDNA配列決定機器の広範な採用は、使用の容易さ、用途の範囲に対する支持、及び実質的に任意のラボ環境に対する適合性によって、部分的に駆動されてきた。本明細書に提示される高度に効率的なアルゴリズムは、配列決定機器を制御することができる単純なワークステーションに、有意な分析機能を加えることを可能にする。計算ハードウェアの必要条件のこの低減は、配列決定出力レベルが増加し続けるにつれて、更に重要となる、いくつかの実用的な利点を有する。例えば、単純なタワー、熱生成、実験室設置面積、及び電力消費を最小限に抑えるために、画像解析及びベースコールを行うことによって、最小に保たれる。対照的に、他の商業的な配列決定技術は、1次分析のために、最大5回の処理電力で、そのコンピューティングインフラストラクチャを最近ランプアップして、熱出力及び電力消費の増加を開始する。したがって、いくつかの実施態様では、本明細書で提供される方法及びシステムの計算効率は、サーバハードウェアを最小限に抑えながら、それらの配列決定スループットを増加させることを可能にする。
したがって、いくつかの実施態様では、本明細書に提示される方法及び/又はシステムは、状態マシンとして機能し、各試料の個々の状態の追跡を保ち、試料が次の状態に進む準備ができていることを検出すると、適切な処理を行い、試料をその状態に前進させる。状態マシンがファイルシステムを監視して、好ましい実施態様に従って試料が次の状態に進む準備ができているかを判定する方法のより詳細な例が、以下の実施例1に記載されている。
好ましい実施態様では、本明細書で提供される方法及びシステムは、マルチスレッドであり、構成可能な数のスレッドと協働することができる。したがって、例えば、核酸配列決定の文脈において、本明細書で提供される方法及びシステムは、リアルタイム分析のためのライブ配列決定動作中に背景において作用することができ、又はオフライン分析のために既存の画像データセットを使用して動作することができる。特定の好ましい実施態様では、方法及びシステムは、各スレッドを、それが関与する検体のそれ自体のサブセットを与えることによって、マルチスレッドを取り扱う。これにより、スレッド保持の可能性が最小限に抑えられる。
本開示の方法は、検出装置を使用して物体の標的画像を取得する工程を含むことができ、この画像は、物体上の検体の繰り返しパターンを含む。表面の高解像度撮像が可能な検出装置が特に有用である。特定の実施態様では、検出装置は、本明細書に記載される密度、ピッチ、及び/又は検体サイズにおける検体を区別するのに十分な分解能を有するであろう。表面から画像又は画像データを得ることができる検出装置が特に有用である。例示的な検出器は、物体と検出器とを静的関係に維持しつつ、面積画像を取得するように構成されたものである。走査装置も使用することができる。例えば、連続領域画像を取得する装置(例えば、「工程及びショット」検出器と呼ばれる)を使用することができる。また、物体の表面上の点又は線を連続的に走査して、表面の画像を構築するためにデータを蓄積するデバイスも有用である。点走査検出器は、表面のx-y平面内のラスタ運動を介して物体の表面上の点(すなわち、小さい検出領域)を走査するように構成することができる。線走査検出器は、物体の表面のy次元に沿った線を走査するように構成することができ、この線の最長寸法は、x次元に沿って生じる。検出デバイス、物体、又はその両方を移動させて、走査検出を達成することができることが理解されるであろう。例えば核酸配列決定用途において特に有用な検出装置は、米国特許出願公開第2012/0270305(A1)号、第2013/0023422(A1)号及び同第2013/0260372(A1)号、並びに米国特許第5,528,050号、米国特許第5,719,391号、米国特許第8,158,926号、及び米国特許第8,241,573号に記載されており、これらの各々は、参照により本明細書に組み込まれる。
本明細書に開示される実施態様は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの任意の組み合わせを生成するためのプログラミング技術又は工学技術を使用して、製造方法、装置、システム、又は物品として実装されてもよい。本明細書で使用するとき、用語「製造物品」は、光学記憶デバイスなどのハードウェア又はコンピュータ可読媒体、並びに揮発性又は不揮発性メモリデバイス内に実装されるコード又は論理を指す。そのようなハードウェアとしては、フィールドプログラマブルゲートアレイ(field programmable gate array、FPGA)、粗粒度再構成可能構造(coarse grained reconfigurable architecture、CGRA)、特定用途向け集積回路(application-specific integrated circuit、ASIC)、複合プログラマブル論理デバイス(Complex Programmable Logic Device、CPLD)、プログラマブルロジックアレイ(Programmable Logic Array、PLA)、マイクロプロセッサ、又は他の同様の処理装置が挙げられるが、これらに限定されない。特定の実施態様では、本明細書に記載される情報又はアルゴリズムは、非一過性記憶媒体中に存在する。
特定の実施態様形態では、本明細書に記載されるコンピュータ実装の方法は、物体の複数の画像が取得されている間、リアルタイムで発生することができる。このようなリアルタイム分析は、核酸配列が流体及び検出工程の繰り返しサイクルに供される核酸配列決定用途に特に有用である。配列決定データの分析は、多くの場合、本明細書に記載される方法をリアルタイム又は背景で実行するのに有益であり得る一方で、他のデータ収集又は分析アルゴリズムがプロセス中である間に、本明細書に記載される方法を実行することが有益であり得る。本方法で使用することができるリアルタイム分析法の例は、Illumina,Inc(San Diego,Calif)から市販されており、及び/又は、参照により本明細書に組み込まれる米国特許出願公開第2012/0020537(A1)号に記載されているMiSeq及びHiSeq配列決定機器に使用されるものである。
1つ以上のプログラムされたコンピュータによって形成され、本明細書に記載される方法の1つ以上の工程を実行するために実行されるコードを有するプログラミングが、1つ以上の機械可読媒体上に記憶されている、例示的データ分析システム。一実施態様では、例えば、システムは、標的物体からデータを取得するように構成されている1つ以上の検出システム(例えば、光学撮像システム)へのシステムのネットワーキングを可能にするように設計されたインターフェースを含む。インターフェースは、適切な場合には、データを受信及び条件することができる。特定の実施態様では、検出システムは、例えば、アレイ又は他の物体の画像を一緒に形成する個々の画像要素又はピクセルを表す画像データを出力する。プロセッサは、処理コードによって定義された1つ以上のルーチンに従って、受信した検出データを処理する。処理コードは、様々なタイプのメモリ回路に記憶されてもよい。
現時点で企図される実施態様によれば、検出データ上で実行される処理コードは、検出データを分析して、データ内で可視又は符号化された個々の検体の場所、及び検体が検出されない場所(すなわち、検体が存在しないか、又は、既存の検体から有意な信号が検出されない場所)及びメタデータを判定するように設計されたデータ分析ルーチンを含む。特定の実施態様では、アレイ内の検体位置は、典型的には、撮像された検体に付着した蛍光染料の存在に起因して、非検体位置よりも明るく見える。検体は、例えば、検体におけるプローブの標的が検出されているアレイ内に存在しない場合、検体は、それらの周囲領域よりも明るく見える必要はないことが理解されるであろう。個々の検体が現れる色は、使用される染料、並びに撮像目的のために撮像システムによって使用される光の波長の関数であり得る。標的が結合されていない、又は特定のラベルを有さない検体は、マイクロアレイ内の予想される場所などの他の特性に従って識別することができる。
データ分析ルーチンがデータ中に個々の検体を配置すると、値割り当てが実行され得る。一般に、値割り当ては、対応する場所における検出器構成要素(例えば、ピクセル)によって表されるデータの特性に基づいて、各検体にデジタル値を割り当てる。すなわち、例えば、画像化データが処理されるとき、値割り当てルーチンは、特定の場所で特定の色又は波長の光が特定の場所で検出されたことを認識するように設計されてもよい。典型的なDNA画像化用途では、例えば、4つの共通ヌクレオチドは、4つの別個の区別可能な色によって表される。次いで、各色は、そのヌクレオチドに対応する値を割り当てられてもよい。
本明細書で使用するとき、用語「モジュール」、「システム」、又は「システムコントローラ」は、1つ以上の機能を実行するように動作するハードウェア及び/又はソフトウェアシステム及び回路を含み得る。例えば、モジュール、システム、又はシステムコントローラは、コンピュータメモリなどの有形及び非一時的コンピュータ可読記憶媒体上に記憶された命令に基づいて動作を実行する、コンピュータプロセッサ、コントローラ、又は他のログベースのデバイスを含んでもよい。代替的に、モジュール、システム、又はシステムコントローラは、有線論理及び回路に基づいて動作を実行する、有線デバイスを含んでもよい。添付の図面に示されるモジュール、システム、又はシステムコントローラは、ソフトウェア又は結線命令に基づいて動作するハードウェア及び回路、ハードウェアを動作させるように命令するソフトウェア、又はそれらの組み合わせを表し得る。モジュール、システム、又はシステムコントローラは、1つ又はコンピュータマイクロプロセッサなどの1つ以上のプロセッサを含む、及び/又はそれと接続されるハードウェア回路又は回路を含むか、又は表すことができる。
本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、及び不揮発性RAM(NVRAM)メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは単なる例であり、コンピュータプログラムの記憶に使用可能なメモリのタイプに限定されるものではない。
分子生物学分野では、使用中の核酸配列決定のためのプロセスの1つは、配列番号合成である。この技術は、非常に平行な配列決定プロジェクトに適用することができる。例えば、自動プラットフォームを使用することにより、数百万の配列決定反応を同時に行うことが可能である。したがって、本発明の実施態様の1つは、核酸配列決定中に生成された画像データを収集、記憶、及び分析するための機器及び方法に関する。
収集及び記憶することができるデータ量の莫大なゲインは、合理化された画像解析方法を更により有益にする。例えば、本明細書に記載される画像解析方法は、設計者及びエンドユーザの両方が、既存のコンピュータハードウェアの効率的な使用を行うことを可能にする。したがって、本明細書では、迅速に増加するデータ出力の面における処理データの計算量を低減する方法及びシステムが本明細書に提示される。例えば、DNA配列決定の分野では、収率は最近の過程で15倍に拡大され、DNA配列決定デバイスの単一の動作において何百ギガーゼに達する可能性がある。計算インフラストラクチャの要件が比例的に増加した場合、大規模なゲノム規模の実験は、ほとんどの研究者に到達していない。したがって、より多くの生配列データの生成は、二次分析及びデータ記憶の必要性を増加させ、データ輸送及び記憶の最適化を非常に有益にする。本明細書に提示される方法及びシステムのいくつかの実施態様は、使用可能な配列データを生成するために必要な時間、ハードウェア、ネットワーキング、及び実験室インフラストラクチャ要件を低減することができる。
本開示は、方法を実行するための様々な方法及びシステムを説明する。方法のいくつかの例は、一連の工程として記載される。しかしながら、実施態様は、本明細書に記載される特定の工程及び/又は工程の順序に限定されないことを理解されたい。工程は省略されてもよく、工程は修正されてもよく、及び/又は他の工程が追加されてもよい。更に、本明細書に記載される工程を組み合わせることができ、工程は同時に実行されてもよく、工程は同時に実行されてもよく、工程は複数のサブ工程に分割されてもよく、工程は、異なる順序で実行されてもよく、又は工程(又は一連の工程)は、反復的に再実行されてもよい。加えて、本明細書には異なる方法が記載されているが、他の実施態様では、異なる方法(又は異なる方法の工程)を組み合わせてもよいことを理解されたい。
いくつかの実施態様では、タスク又は動作を実行するように「構成された」処理ユニット、プロセッサ、モジュール、又はコンピューティングシステムは、タスク又は動作を実行するように特に構造化されていると理解され得る(例えば、タスク又は動作を実行するように調整又は意図された、及び/又はタスク若しくは動作を実行するように調整若しくは意図された1つ以上のプログラム又は命令を有すること、及び/又はタスク若しくは動作を実行するように調整又は意図された処理回路の配置を有する)。明確さ及び疑義の回避のために、汎用コンピュータ(適切にプログラムされた場合にタスク又は動作を実行するように構成された」となり得る)汎用コンピュータは、タスク又は動作を実行するために具体的にプログラム又は構造的に変更されない限り、タスク又は動作を実行するように「構成されている」ように構成されていない)。
更に、本明細書に記載される方法の操作は、操作が、商業的に妥当な時間期間内に、当業者には、平均的なヒト又は当業者によって実施されることができないように、十分に複雑であり得る。例えば、本方法は、そのような人が商業的に妥当な時間内で方法を完了することができないように、比較的複雑な計算に依存し得る。
本出願全体を通して、様々な刊行物、特許、又は特許出願が参照されている。これらの出版物の全体の開示は、本発明が属する技術分野の状態をより完全に説明するために、本出願において参照により本明細書に組み込まれる。
用語「含む(comprising)」は、本明細書では、列挙された要素のみならず、任意の追加の要素を更に包含する、オープンエンドであることが意図される。
本明細書で使用するとき、用語「各々」は、項目の集合を参照して使用されるとき、集合内の個々の項目を識別することを意図しているが、必ずしも集合内の全ての項目を指すものではない。明示的な開示又は文脈がそうでないことを明確に指示する場合、例外が生じ得る。
上記の実施例を参照して本発明を説明してきたが、本発明から逸脱することなく様々な修正を行うことができることを理解されたい。
本出願のモジュールは、ハードウェア又はソフトウェアで実装することができ、図に示されるように、正確に同じブロックで分割される必要はない。いくつかは、異なるプロセッサ若しくはコンピュータ上に実装されてもよく、又は多数の異なるプロセッサ若しくはコンピュータの中で広がることもできる。加えて、モジュールの一部は、達成される機能に影響を及ぼすことなく、図に示されるものとは並行して、又は異なる順序で操作され得ることが理解されるであろう。また、本明細書で使用するとき、用語「モジュール」は、モジュールを構成するために本明細書で考慮することができる、「サブモジュール」を含むことができる。モジュールとして指定された図のブロックはまた、方法におけるフローチャート工程と考えることができる。
本明細書で使用するとき、情報項目の「識別」は、その情報の項目の直接仕様を必ずしも必要としない。情報は、単に、一方向の1つ以上の層を通じた実際の情報を単に参照することによって、又は情報の実際の項目を決定するのに十分である異なる情報の1つ以上のアイテムを識別することによって、フィールド内で「識別され得る」ことができる。加えて、用語「指定する」は、本明細書では、「識別する」と同じであることを意味する。
本明細書で使用するとき、所与の信号、イベント又は値は、「前デセサー信号、イベント又は前デセサー信号の値、所与の信号、イベント、又は値によって影響されるイベント又は値に依存する。介在処理要素、工程又は期間が存在する場合、所与の信号、イベント、又は値は、「前デセサー信号、イベント又は値」に依存して「存在する」ことができる。介在処理要素又は工程が2つ以上の信号、イベント、又は値を組み合わせる場合、処理要素又は工程の信号出力は、信号、イベント、又は値入力の各々「に依存している」とみなされる。所与の信号、イベント又は値が前デセサー信号、イベント又は値と同じである場合、これは単に、所与の信号、イベント、又は値が「前デセサー信号、イベント又は値」に依存して「依存して」又は「依存して」又は「ベースデセサー信号、イベント又は値」に基づいて、「依存して」又は「依存する」とみなされる。別の信号、イベント又は値に対する所与の信号、イベント、又は値の「応答性」は、同様に定義される。
本明細書で使用するとき、「並行して」又は「並行して」は、正確な同時性を必要としない。個人の1人の評価が、個人の別の評価が完了する前に開始する場合に十分である。
コンピュータシステム
図17は、開示された技術を実施するために使用することができるコンピュータシステム1700である。コンピュータシステム1700は、バスサブシステム1755を介して多数の周辺デバイスと通信する少なくとも1つの中央処理装置(central processing unit、CPU)1772を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイル記憶サブシステム1736を含む記憶サブシステム1710、ユーザインターフェース入力デバイス1738、ユーザインターフェース出力デバイス1776、並びにネットワークインターフェースサブシステム1774を含むことができる。入力デバイス及び出力デバイスは、コンピュータシステム1700とのユーザ対話を可能にする。ネットワークインターフェースサブシステム1774は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。
一実施態様では、等化器ベースコーラー104は、記憶サブシステム1710及びユーザインターフェース入力デバイス1738に通信可能にリンクされる。
ユーザインターフェース入力デバイス1738は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含んでもよい。一般に、用語「入力デバイス」の使用は、コンピュータシステム1700に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
ユーザインターフェース出力デバイス1776は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、LEDディスプレイ、陰極線管(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、音声出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステム1700からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方式を含むことを意図している。
記憶サブシステム1710は、本明細書に記載されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、一般にプロセッサ1778によって実行される。
プロセッサ1778は、グラフィック処理ユニット(graphics processing unit、GPU)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、及び/又は粗粒化再構成可能構造(CGRA)であり得る。プロセッサ1778は、Google Cloud Platform(商標)、Xilinx(商標)及びCirrascale(商標)などの深層学習クラウドプラットフォームによってホスティングすることができる。プロセッサ1778の例は、GoogleのTensor Processing Unit(TPU)(商標)、GX4 Rackmount Series(商標)、GX17 Rackmount Series(商標)のようなラックマウントソリューション、NVIDIA DGX-1(商標)、Microsoft’ Stratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、Snapdragon processors(商標)を有するQualcommのZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、Fujitsu DPI(商標)、ARMのDynamicIQ(商標)、IBM TrueNorth(商標)、Testa V100s(商標)を有するLambda GPU Server、及び他のものを含む。
記憶サブシステム1710で使用されるメモリサブシステム1722は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(random access memory、RAM)1732と、固定命令が記憶された読み取り専用メモリ(read only memory、ROM)1734とを含む多数のメモリを含むことができる。ファイル記憶サブシステム1736は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体、CD-ROMドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。特定の実施態様の機能を実装するモジュールは、記憶サブシステム1710内のファイル記憶サブシステム1736によって、又はプロセッサによってアクセス可能な他のマシン内に記憶され得る。
バスサブシステム1755は、コンピュータシステム1700の様々な構成要素及びサブシステムを、意図されるように互いに通信させるための機構を提供する。バスサブシステム1755は、単一のバスとして概略的に示されているが、バスサブシステムの代替実施態様は、複数のバスを使用することができる。
コンピュータシステム1700自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩くネットワーク化されたコンピュータの緩く分散したセット、又は任意の他のデータ処理システム若しくはユーザデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークの変化の性質により、図17に示されるコンピュータシステム1700の説明は、本発明の好ましい実施態様を例示する目的のための特定の例としてのみ意図される。コンピュータシステム1700の多くの他の構成は、図17に示されるコンピュータシステムよりも多くの又は少ない構成要素を有することができる。
特定の実施態様
開示された技術は、等化ベースの画像処理技術を使用してセンサピクセルからの空間クロストークを減衰させる。開示された技術は、システム、方法、又は製品として実施することができる。実施態様の1つ以上の特徴を、塩基実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の1つ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらのオプションのユーザを定期的に通知する。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施態様の各々に参照することにより本明細書に組み込まれる。
一実施態様では、開示された技術は、センサピクセルからの空間クロストークを減衰させるコンピュータ実装方法を提案する。
開示された技術は、試料平面内に周期的に分布した蛍光試料によって引き起こされるピクセル平面内のセンサピクセル上の空間クロストークを解決する。蛍光試料からの信号コーンは、少なくとも1つのレンズを介してセンサピクセルの局所グリッドに光学的に結合される。信号コーンは重なり合ってセンサピクセルに衝突し、それによって空間的クロストークを生成する。
開示された技術は、少なくとも1つのサブピクセルルックアップテーブルにおいて、レンズを通して投影された特徴的な信号コーンの特徴的な広がりと、センサピクセルの局所グリッド内のセンサピクセルによって検出された蛍光に対する特徴的な信号コーンの結果的な寄与とを捕捉する。センサピクセルのローカルグリッドは、特性信号コーンの中心と実質的に同心である。
開示された技術は、サブピクセル解像度で特徴的広がりを表現するサブピクセルルックアップテーブルのセットの間を補間して、標的蛍光試料中心に基づいて補間ルックアップテーブルを生成する。
開示された技術は、ターゲット局所グリッド内のセンサピクセルと補間ルックアップテーブルを畳み込むことによって、信号コーンの中心をセンサピクセルのターゲット局所グリッドの実質的に中心に投影する標的蛍光試料から信号を分離する。
開示された技術は、標的蛍光試料からの蛍光の強度として、単離されたシグナルの畳み込まれた寄与の和を使用する。
次いで開示された技術は、蛍光強度を用いて第1の標的蛍光試料をベースコールする。蛍光強度は、複数の撮像チャネルにおける各撮像チャネルについて、第1の標的蛍光試料について決定される。4つの撮像チャネルを使用して、配列決定サイクル当たり4つの画像を生成する4チャネル化学を考える。次いで、第1の標的蛍光試料について、上記のように開示された技術を用いて、4つの蛍光強度が決定される。次いで、4つの蛍光強度は、第1の標的蛍光試料をベースコールするために、ベースコーラーによって処理される。同様に、2チャネル化学では、2つの強度の蛍光を使用して、第1の標的蛍光試料をベースコールする。
開示されるこのセクション及び技術の他のセクションに記載される方法は、開示される追加の方法に関連して説明される以下の特徴及び/又は特徴のうちの1つ以上を含むことができる。簡潔性の目的で、本出願に開示される特徴の組み合わせは、個別に列挙されず、特徴の各ベースセットで繰り返されない。読者は、この方法で識別された特徴が、本出願の他のセクションにおける実施態様として識別された基本特徴のセットと容易に組み合わせることができる方法を理解するであろう。
いくつかの実施態様において、周期的に分布された蛍光試料は、菱形に配列される。他の実施態様では、周期的に分布された蛍光試料は、六角形形状に配列される。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行して上記の方法のいずれかを実行するように動作可能な1つ以上のプロセッサとを含むシステムを含むことができる。
別の実施態様では、開示された技術は、ベースコールのコンピュータ実装方法を提案する。
開示された技術は、そのピクセルがターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す画像にアクセスする。ピクセルは、ターゲットクラスターの中心を含む中心ピクセルを含む。ピクセル内の各ピクセルは、複数のサブピクセルに分割可能である。
特定のサブピクセルに応じて、ターゲットクラスターの中心を含む中心ピクセルの複数のサブピクセルにおいて、開示された技術は、サブピクセルルックアップテーブルのバンクから、特定のサブピクセルに対応するサブピクセルルックアップテーブルを選択する。選択されたサブピクセルルックアップテーブルは、ターゲットクラスターからの強度放射を受け入れ、隣接するクラスターからの強度放射を除外するように構成されているピクセル係数を含む。
開示された技術は、画像中のピクセルの強度値に対して、ピクセル係数を要素ごとに乗算し、乗算の積を合計して出力を生成する。
開示された技術は、ターゲットクラスターをベースコールするために出力を使用する。
他の実施態様のためのこの特定の実施態様セクションで考察される特徴の各々は、この実施態様に等しく適用される。上記のように、全ての方法はここでは繰り返されず、参照により繰り返されるべきである。
いくつかの実施態様では、開示された技術は、更に、(i)サブピクセルルックテーブルのバンクから、特定のサブピクセルに最も近接して隣接するサブピクセルに対応する追加のサブピクセルルックアップテーブルを選択することと、(ii)選択されたサブピクセルルックアップテーブル及び選択された追加のサブピクセルルックアップテーブルのピクセル係数の間を補間することと、ターゲットクラスターからの強度放射を受け入れ、隣接するクラスターからの強度放射を拒否するように構成されている補間ピクセル係数を生成することと、(iii)画像内のピクセルの強度値に対して、補間ピクセル係数を要素ごとに乗算し、乗算の積を合計して出力を生成することと、(iv)出力を使用してターゲットクラスターをベースコールすることと、を含む。
いくつかの実施態様において、ターゲットクラスター及び追加の隣接クラスターは、フローセル上に菱形で周期的に分布され、フローセルのウェル上に固定化される。他の実施態様では、ターゲットクラスター及び追加の隣接クラスターは、六角形のフローセル上に周期的に分布され、フローセルのウェル上に固定化される。
いくつかの実施態様では、補間は、線形補間、双一次補間、及び双三次補間のうちの少なくとも1つに基づく。
いくつかの実施態様では、サブピクセルルックアップテーブルのバンク内のサブピクセルルックアップテーブルのピクセル係数は、決定指向等化を使用して等化器を訓練する結果として学習される。一実施態様では、決定指向等化は、損失関数として最小二乗推定を使用する。一実施態様では、最小二乗推定は、グラウンドトゥルースベースコールを使用して二乗誤差を最小化する。一実施態様では、グラウンドトゥルースベースコールは、DCオフセット、増幅係数、及びポリクローナル性の程度を説明するように修正される。
いくつかの実施態様では、サブピクセルルックアップテーブルのバンク内のサブピクセルルックアップテーブルのピクセル係数は、(i)決定指向等化を用いて等化器を訓練した結果としてピクセル係数が学習された単一のサブピクセルルックアップテーブルと、(ii)予め計算された補間フィルタのセットとの組み合わせから導出される。補間フィルタのセットにおける各補間フィルタは、複数のサブピクセルにおける各サブピクセルにそれぞれ対応する。
開示された技術は、更に、(i)テンプレート画像に対して画像を位置合わせし、アフィン変換パラメータ及び非線形変換パラメータを決定することと、(ii)パラメータを使用してターゲットクラスター及び追加の隣接クラスターの位置座標を画像の画像座標に変換し、変換されたピクセルを有する変換画像を生成することと、(iii)ターゲットクラスター及び追加の隣接クラスターの変換された位置座標を使用して補間を適用して、それぞれのクラスター中心を、クラスター中心を含むそれぞれの変換されたピクセルの中心と実質的に同心にすることと、によって、ターゲットクラスターの中心を中心ピクセルの中心と実質的に同心にすることを含む。
開示された技術は更に、特定の配列決定サイクルにおいてそれぞれの撮像チャネルを使用して捕捉された複数の画像中の各画像に対する出力を生成することと、各画像に対してそれぞれ生成された出力を使用してターゲットクラスターをベースコールすることと、を含む。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行して上記の方法のいずれかを実行するように動作可能な1つ以上のプロセッサとを含むシステムを含むことができる。
本発明者らは、以下の項目を開示する。
1. ベースコールのコンピュータ実装方法であって、方法は、
画像にアクセスすることであって、画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示し、ピクセルは、ターゲットクラスターの中心を含む中心ピクセルを含み、ピクセル内の各ピクセルは、複数のサブピクセルに分割可能である、アクセスすることと、
特定のサブピクセルに応じて、ターゲットクラスターの中心を含む中心ピクセルの複数のサブピクセルにおいて、サブピクセルルックアップテーブルのバンクから、特定のサブピクセルに対応するサブピクセルルックアップテーブルを選択することであって、選択されたサブピクセルルックアップテーブルは、信号対ノイズ比を最大化するように構成されているピクセル係数を含む、選択することと、
画像中のピクセルの強度値に対して、ピクセル係数を要素ごとに乗算し、乗算の積を合計して出力を生成することであって、ピクセル係数は、重みとして機能し、出力は、強度値の重み付き和である、生成することと、
出力を使用して、ターゲットクラスターをベースコールすることと、を含む、方法。
2. 信号対ノイズ比において最大化された信号は、ターゲットクラスターからの強度放射であり、信号対ノイズ比において最小化されたノイズは、隣接クラスターからの強度放射である、項目1に記載のコンピュータ実装方法。
3. 要素ごとの乗算は、所与の等化器係数セットに対してバイアスを加える、項目1に記載のコンピュータ実装方法。
4. バイアスは、背景ノイズ強度を平均化するDCオフセットである、項目3に記載のコンピュータ実装方法。
5.
サブピクセルルックテーブルのバンクから、特定のサブピクセルに最も近接して隣接するサブピクセルに対応する追加のサブピクセルルックアップテーブルを選択することと、
選択されたサブピクセルルックアップテーブル及び選択された追加のサブピクセルルックアップテーブルのピクセル係数間を補間し、信号対ノイズ比を最大化するように構成されている補間ピクセル係数を生成することと、
補間画像中のピクセルの強度値に対して、ピクセル係数を要素ごとに乗算し、乗算の積を合計して出力を生成することであって、補間ピクセル係数は、重みとして機能し、出力は、強度値の重み付き和である、生成することと、
出力を使用して、ターゲットクラスターをベースコールすることと、を更に含む、項目1に記載のコンピュータ実装方法。
6. ターゲットクラスター及び追加の隣接クラスターは、フローセル上に菱形で周期的に分布され、フローセルのウェル上に固定化される、項目1に記載のコンピュータ実装方法。
7. ターゲットクラスター及び追加の隣接クラスターは、六角形のフローセル上に周期的に分布され、フローセルのウェル上に固定化される、項目6に記載のコンピュータ実装方法。
8. 補間は、線形補間、双一次補間、及び双三次補間のうちの少なくとも1つに基づいている、項目1に記載のコンピュータ実装方法。
9. サブピクセルルックアップテーブルのバンク内のサブピクセルルックアップテーブルのピクセル係数は、最小二乗推定、最小二乗法、最小平均二乗、及び再帰最小二乗のうちの少なくとも1つを使用して等化器を訓練する結果として学習される、項目1に記載のコンピュータ実装方法。他の実施態様では、他の推定アルゴリズム及び適合アルゴリズムを使用して等化器を訓練することができる。
10. 等化器をオフラインモードで訓練することを更に含み、オフラインモードでは、サブピクセルルックアップテーブルのピクセル係数は、以前に実行された配列決定ランからの訓練データのバッチで訓練された後に固定される、項目9に記載のコンピュータ実装方法。
11. オンラインモードで等化器を訓練することを更に含み、オンラインモードでは、進行中の配列決定ランからの訓練データが利用可能になるにつれて、サブピクセルルックアップテーブルのピクセル係数が反復的に更新される、項目10に記載のコンピュータ実装方法。
12. 訓練データ内の画像の以前のベースコール中に生成された4つの塩基A、C、G、及びTの各々の塩基ごとの強度分布にアクセスすることと、塩基ごとの強度分布のそれぞれの中心を、塩基ごとのグラウンドトゥルースターゲット強度として選択することと、塩基ごとのグラウンドトゥルースターゲット強度を使用して等化器を訓練することと、を更に含む、項目11に記載のコンピュータ実装方法。
13. オフラインモードで等化器を事前訓練することと、オンラインモードで等化器を再訓練することと、を更に含む、項目12に記載のコンピュータ実装方法。
14. 単一の等化器係数セットと予め計算された補間フィルタセットとを共に適用することにより、サブピクセルルックアップテーブルのバンク内にルックアップテーブルを生成することを更に含み、ピクセル強度を補間して等化器に対する入力を生成することを含む、項目9に記載のコンピュータ実装方法。これは、等化器入力を生成するために補間されたピクセル強度値を使用することにより、訓練された等化器係数と比較してピクセルに関して実質的に異なるアライメントを有するクラスターに対するピクセル重みを計算することを含む。補間及び等化器フィルタ応答は、単一の共有LUTを用いた効率的な実施態様のために一緒に畳み込むことができる。他の実施態様では、補間フィルタ計算は、サブピクセルにビン化することなく直接行うことができる。
15.
テンプレート画像に対して画像を位置合わせし、アフィン変換パラメータ及び非線形変換パラメータを決定することと、
パラメータを使用して、ターゲットクラスター及び追加の隣接クラスターの位置座標を画像の画像座標に変換し、変換されたピクセルを有する変換画像を生成することと、
ターゲットクラスター及び追加の隣接クラスターの変換された位置座標を使用して補間を適用し、それぞれのクラスター中心を、クラスター中心を含むそれぞれの変換されたピクセルの中心と実質的に同心にすることと、によって、ターゲットクラスターの中心を中心ピクセルの中心と同心にすることを更に含む、項目1に記載のコンピュータ実装方法。
16. 特定の配列決定サイクルにおいてそれぞれの撮像チャネル及び/又は色チャネルを使用して捕捉された複数の画像中の各画像に対する出力を生成することと、各画像に対してそれぞれ生成された出力を使用してターゲットクラスターをベースコールすることと、を更に含む、項目4に記載のコンピュータ実装方法。
17. 試料平面内に配置された蛍光試料から、同様に試料平面内の周囲の蛍光源によって破壊された信号から基礎となる信号を復元するコンピュータ実装方法であって、方法は、
少なくとも1つのサブピクセルルックアップテーブルにおいて、周囲の蛍光源からの破壊を考慮したサンプリングに基づいたセンサピクセルアレイによる画像面における照明の特徴的な集合を取り込み、次いで、蛍光試料の中心座標がセンサアレイの中心ピクセルにわたって分布された位置にあり、その位置が中心ピクセルの座標の中心に対して分布された場合に、センサピクセルアレイによる照明の特徴的な集合のためのルックアップテーブルのセットを生成することと、
センサピクセルアレイの中心ピクセルの任意の場所に蛍光試料の中心座標を有する画像を受信することであって、画像は、周囲の蛍光源によって破壊されている、受信することと、中心ピクセル内の蛍光試料の中心座標を受信することと、
ルックアップテーブルのセット内のルックアップテーブル間の補間に基づいて、蛍光試料の受信中心座標に対してカスタマイズされたセンサピクセルアレイによる照明の特徴的な集合の補間テーブルを計算することと、
補間ルックアップテーブルをターゲット局所グリッド内のセンサピクセルを用いて要素ごとに乗算することによって、信号コーンの中心をセンサピクセルのターゲット局所グリッドの実質的に中心に投影する標的蛍光試料からの信号を復元することと、
要素ごとの乗算の積の和を標的蛍光試料からの蛍光強度として用いること、
蛍光強度を用いて第1の標的蛍光試料をベースコールすることと、を含む、方法。
1. ベースコールのコンピュータ実装方法であって、方法は、
画像にアクセスすることであって、画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す、アクセスすることと、
信号対ノイズ比を最大化するように構成されているピクセル係数を含むルックアップテーブルを選択することと、
ピクセル係数を画像中のピクセルの強度値を用いて畳み込み、出力を生成することと、
ターゲットクラスターを出力に基づいてベースコールすることと、を含む、方法。
2. 信号対ノイズ比において最大化された信号は、ターゲットクラスターからの強度放射であり、信号対ノイズ比において最小化されたノイズは、隣接クラスターからの強度放射に追加のノイズ源を加えたものである、請求項1に記載のコンピュータ実装方法。
3. ピクセルは、ターゲットクラスターの中心を含む中心ピクセルを含み、ピクセル内の各ピクセルは、複数のサブピクセルに分割可能である、請求項1に記載のコンピュータ実装方法。
4. ルックアップテーブルは、サブピクセルルックアップテーブルである、請求項3に記載のコンピュータ実装方法。
5.
特定のサブピクセルに応じて、ターゲットクラスターの中心を含む中心ピクセルの複数のサブピクセルにおいて、サブピクセルルックアップテーブルのバンクから、特定のサブピクセルに対応するサブピクセルルックアップテーブルを選択することであって、選択されたサブピクセルルックアップテーブルは、ピクセル係数を含む、選択することと、
画像中のピクセルの強度値に対して、ピクセル係数を要素ごとに乗算し、乗算の積合計して出力を生成することであって、ピクセル係数は、重みとして機能し、出力は、強度値の重み付き和である、生成することと、
出力を使用して、ターゲットクラスターをベースコールすることであって、複数の撮像チャネルにおける各撮像チャネルの出力を生成することと、各撮像チャネルの出力を使用してターゲットクラスターをベースコールすることと、を含む、ベースコールすることと、を更に含む、請求項4に記載のコンピュータ実装方法。
6. 要素ごとの乗算は、所与の等化器係数セットのバイアスを加算し、バイアスは、背景ノイズ強度を平均化するDCオフセットである、請求項5に記載のコンピュータ実装方法。
7.
サブピクセルルックテーブルのバンクから、特定のサブピクセルに連続して隣接するサブピクセルに対応する追加のサブピクセルルックアップテーブルを選択することと、
選択されたサブピクセルルックアップテーブル及び選択された追加のサブピクセルルックアップテーブルのピクセル係数に基づいて、信号対ノイズ比を最大化するように構成されている補間ピクセル係数を生成することと、
補間ピクセル係数を画像内のピクセルの強度値を用いて畳み込み、出力を生成することと、
ターゲットクラスターを出力に基づいてベースコールすることと、を更に含む、請求項5に記載のコンピュータ実装方法。
8.
画像中のピクセルの強度値に対して、ピクセル係数を要素ごとに乗算し、乗算の積を合計して出力を生成することであって、補間ピクセル係数は、重みとして機能し、出力は、強度値の重み付き和である、生成することと、を更に含む、請求項7に記載のコンピュータ実装方法。
9. 最小二乗推定、最小二乗法、最小平均二乗、及び再帰最小二乗のうちの少なくとも1つを使用して等化器を訓練して、ピクセル係数を生成することを更に含む、請求項1に記載のコンピュータ実装方法。
10. 等化器をオフラインモードで訓練することを更に含み、オフラインモードでは、サブピクセルルックアップテーブルのピクセル係数は、以前に実行された配列決定ランからの訓練データのバッチで訓練された後に固定される、請求項9に記載のコンピュータ実装方法。
11. 等化器をオンラインモードで訓練することを更に含み、オンラインモードでは、サブピクセルルックアップテーブルのピクセル係数は、進行中の配列決定ラン中に反復的に更新される、請求項10に記載のコンピュータ実装方法。
12. 訓練データ内の画像の以前のベースコール中に生成された4つの塩基A、C、G、及びTの各々の塩基ごとの強度分布にアクセスすることと、塩基ごとの強度分布のそれぞれの中心を、対応する色チャネルの塩基ごとのグラウンドトゥルースターゲット強度として選択することと、塩基ごとのグラウンドトゥルースターゲット強度を使用して等化器を訓練することと、を更に含む、請求項11に記載のコンピュータ実装方法。
13. オフラインモードで等化器を事前訓練することと、オンラインモードで等化器を再訓練することと、を更に含む、請求項12に記載のコンピュータ実装方法。
14. 単一の等化器係数セットと予め計算された補間フィルタセットとを共に適用することにより、サブピクセルルックアップテーブルのバンク内にルックアップテーブルを生成することを更に含み、ピクセル強度を補間して等化器に対する入力を生成することを含む、請求項9に記載のコンピュータ実装方法。
15.
テンプレート画像に対して画像を位置合わせし、アフィン変換パラメータ及び非線形変換パラメータを決定することと、
パラメータを使用して、ターゲットクラスター及び追加の隣接クラスターの位置座標を画像の画像座標に変換し、変換されたピクセルを有する変換画像を生成することと、
ターゲットクラスター及び追加の隣接クラスターの変換された位置座標を使用して補間を適用し、それぞれのクラスター中心を、クラスター中心を含むそれぞれの変換されたピクセルの中心と同心にすることと、によって、ターゲットクラスターの中心を中心ピクセルの中心と同心にすることを更に含む、請求項1に記載のコンピュータ実装方法。
16. ベースコールを実施するためのコンピュータプログラム命令を記憶している非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサ上で実行されると、
画像にアクセスすることであって、画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す、アクセスすることと、
信号対ノイズ比を最大化するように構成されているピクセル係数を含むルックアップテーブルを選択することと、
ピクセル係数を画像中のピクセルの強度値を用いて畳み込み、出力を生成することと、
ターゲットクラスターを出力に基づいてベースコールすることと、を含む命令を実装する、非一時的コンピュータ可読記憶媒体。
17. 信号対ノイズ比において最大化された信号は、ターゲットクラスターからの強度放射であり、信号対ノイズ比において最小化されたノイズは、隣接クラスターからの強度放射に追加のノイズ源を加えたものである、請求項16に記載の非一時的コンピュータ可読記憶媒体。
18. 最小二乗推定、最小二乗法、最小平均二乗、及び再帰最小二乗のうちの少なくとも1つを使用して等化器を訓練して、ピクセル係数を生成することを更に含む方法を実施する、請求項16に記載の非一時的コンピュータ可読記憶媒体。
19. メモリに結合された1以上のプロセッサを含むシステムであって、メモリは、ベースコールを実施するためのコンピュータ命令がロードされ、命令は、プロセッサ上で実行されると、
画像にアクセスすることであって、画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す、アクセスすることと、
信号対ノイズ比を最大化するように構成されているピクセル係数を含むルックアップテーブルを選択することと、
ピクセル係数を画像中のピクセルの強度値を用いて畳み込み、出力を生成することと、
ターゲットクラスターを出力に基づいてベースコールすることと、を含むアクションを実装する、システム。
20. 最小二乗推定、最小二乗法、最小平均二乗、及び再帰最小二乗のうちの少なくとも1つを使用して等化器を訓練して、ピクセル係数を生成することを含むアクションを更に実装する、請求項19に記載のシステム。
本発明は、上述の好ましい実施態様及び実施例を参照して開示されているが、これらの実施例は、限定的な意味でではなく例示的な意味で意図されていることが理解されるべきである。当業者であれば、変更及び組み合わせが容易に生じ、その変更及び組み合わせは、本発明の趣旨及び以下の特許請求の範囲の範囲内にあると考えられる。
100A システム
102 配列決定画像
104 等化器ベースコーラー
106 LUT/LUTバンク
108 補間フィルタ
112 グラウンドトゥルースベースコール
114 訓練器

Claims (20)

  1. ベースコールのコンピュータ実装方法であって、前記方法は、
    画像にアクセスすることであって、前記画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す、アクセスすることと、
    信号対ノイズ比を最大化するように構成されているピクセル係数を含むルックアップテーブルを選択することと、
    前記ピクセル係数を前記画像中の前記ピクセルの強度値を用いて畳み込み、出力を生成することと、
    前記ターゲットクラスターを前記出力に基づいてベースコールすることと、を含む、コンピュータ実装方法。
  2. 前記信号対ノイズ比において最大化された信号は、前記ターゲットクラスターからの前記強度放射であり、前記信号対ノイズ比において最小化されたノイズは、前記隣接クラスターからの前記強度放射に追加のノイズ源を加えたものである、請求項1に記載のコンピュータ実装方法。
  3. 前記ピクセルは、前記ターゲットクラスターの中心を含む中心ピクセルを含み、前記ピクセル内の各ピクセルは、複数のサブピクセルに分割可能である、請求項1に記載のコンピュータ実装方法。
  4. 前記ルックアップテーブルは、サブピクセルルックアップテーブルである、請求項3に記載のコンピュータ実装方法。
  5. 前記ターゲットクラスターの前記中心を含む前記中心ピクセルの複数のサブピクセルのうちの特定のサブピクセルに応じて、サブピクセルルックアップテーブルのバンクから、前記特定のサブピクセルに対応する前記サブピクセルルックアップテーブルを選択することであって、選択された前記サブピクセルルックアップテーブルは、前記ピクセル係数を含む、選択することと、
    前記画像中の前記ピクセルの前記強度値に対して、前記ピクセル係数を要素ごとに乗算し、前記乗算の積を合計して前記出力を生成することであって、前記ピクセル係数は、重みとして機能し、前記出力は、前記強度値の重み付き和である、生成することと、
    前記出力を使用して、前記ターゲットクラスターをベースコールすることであって、複数の撮像チャネルにおける各撮像チャネルの前記出力を生成することと、各撮像チャネルの前記出力を使用して前記ターゲットクラスターをベースコールすることと、を含む、ベースコールすることと、を更に含む、請求項4に記載のコンピュータ実装方法。
  6. 前記要素ごとの乗算は、所与の等化器係数セットのバイアスを加算し、前記バイアスは、背景ノイズ強度を平均化するDCオフセットである、請求項5に記載のコンピュータ実装方法。
  7. サブピクセルルックテーブルの前記バンクから、前記特定のサブピクセルに連続して隣接するサブピクセルに対応する追加のサブピクセルルックアップテーブルを選択することと、
    選択された前記サブピクセルルックアップテーブル及び選択された前記追加のサブピクセルルックアップテーブルのピクセル係数に基づいて、前記信号対ノイズ比を最大化するように構成されている補間ピクセル係数を生成することと、
    前記補間ピクセル係数を前記画像内の前記ピクセルの前記強度値を用いて畳み込み、出力を生成することと、
    前記ターゲットクラスターを前記出力に基づいてベースコールすることと、を更に含む、請求項5に記載のコンピュータ実装方法。
  8. 前記画像中の前記ピクセルの前記強度値に対して、前記補間ピクセル係数を要素ごとに乗算し、前記乗算の積を合計して前記出力を生成することであって、前記補間ピクセル係数は、重みとして機能し、前記出力は、前記強度値の重み付き和である、生成すること、を更に含む、請求項7に記載のコンピュータ実装方法。
  9. 最小二乗推定、最小二乗法、最小平均二乗、及び再帰最小二乗のうちの少なくとも1つを使用して等化器を訓練して、前記ピクセル係数を生成することを更に含む、請求項1に記載のコンピュータ実装方法。
  10. 前記等化器をオフラインモードで訓練することを更に含み、前記オフラインモードでは、サブピクセルルックアップテーブルの前記ピクセル係数は、以前に実行された配列決定ランからの訓練データのバッチで訓練された後に固定される、請求項9に記載のコンピュータ実装方法。
  11. 前記等化器をオンラインモードで訓練することを更に含み、前記オンラインモードでは、サブピクセルルックアップテーブルの前記ピクセル係数は、進行中の配列決定ラン中に反復的に更新される、請求項10に記載のコンピュータ実装方法。
  12. 前記訓練データ内の画像の以前のベースコール中に生成された4つの塩基A、C、G、及びTの各々の塩基ごとの強度分布にアクセスすることと、前記塩基ごとの強度分布のそれぞれの中心を、対応する色チャネルの塩基ごとのグラウンドトゥルースターゲット強度として選択することと、前記塩基ごとのグラウンドトゥルースターゲット強度を使用して前記等化器を訓練することと、を更に含む、請求項11に記載のコンピュータ実装方法。
  13. 前記オフラインモードで前記等化器を事前訓練することと、前記オンラインモードで前記等化器を再訓練することと、を更に含む、請求項12に記載のコンピュータ実装方法。
  14. 単一の等化器係数セットと予め計算された補間フィルタセットとを共に適用することにより、サブピクセルルックアップテーブルの前記バンク内に前記ルックアップテーブルを生成することを更に含み、ピクセル強度を補間して前記等化器に対する入力を生成することを含む、請求項9に記載のコンピュータ実装方法。
  15. テンプレート画像に対して前記画像を位置合わせし、アフィン変換パラメータ及び非線形変換パラメータを決定することと、
    前記パラメータを使用して、前記ターゲットクラスター及び前記追加の隣接クラスターの位置座標を前記画像の画像座標に変換し、変換されたピクセルを有する変換画像を生成することと、
    前記ターゲットクラスター及び前記追加の隣接クラスターの変換された前記位置座標を使用して補間を適用し、それぞれのクラスター中心を、前記クラスター中心を含むそれぞれの変換されたピクセルの中心と同心にすることと、によって、前記ターゲットクラスターの前記中心を前記中心ピクセルの中心と同心にすることを更に含む、請求項1に記載のコンピュータ実装方法。
  16. ベースコールを実施するためのコンピュータプログラム命令を記憶している非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサ上で実行されると、
    画像にアクセスすることであって、前記画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す、アクセスすることと、
    信号対ノイズ比を最大化するように構成されているピクセル係数を含むルックアップテーブルを選択することと、
    前記ピクセル係数を前記画像中の前記ピクセルの強度値を用いて畳み込み、出力を生成することと、
    前記ターゲットクラスターを前記出力に基づいてベースコールすることと、を含む命令を実装する、非一時的コンピュータ可読記憶媒体。
  17. 前記信号対ノイズ比において最大化された信号は、前記ターゲットクラスターからの前記強度放射であり、前記信号対ノイズ比において最小化されたノイズは、前記隣接クラスターからの前記強度放射に追加のノイズ源を加えたものである、請求項16に記載の非一時的コンピュータ可読記憶媒体。
  18. 最小二乗推定、最小二乗法、最小平均二乗、及び再帰最小二乗のうちの少なくとも1つを使用して等化器を訓練して、前記ピクセル係数を生成することを更に含む方法を実装する、請求項16に記載の非一時的コンピュータ可読記憶媒体。
  19. メモリに結合された1つ以上のプロセッサを含むシステムであって、前記メモリは、ベースコールを実施するためのコンピュータ命令がロードされ、前記命令は、前記プロセッサ上で実行されると、
    画像にアクセスすることであって、前記画像のピクセルは、ターゲットクラスターからの強度放射及び追加の隣接クラスターからの強度放射を示す、アクセスすることと、
    信号対ノイズ比を最大化するように構成されているピクセル係数を含むルックアップテーブルを選択することと、
    前記ピクセル係数を前記画像中の前記ピクセルの強度値を用いて畳み込み、出力を生成することと、
    前記ターゲットクラスターを前記出力に基づいてベースコールすることと、を含むアクションを実装する、システム。
  20. 最小二乗推定、最小二乗法、最小平均二乗、及び再帰最小二乗のうちの少なくとも1つを使用して等化器を訓練して、前記ピクセル係数を生成することを含むアクションを更に実装する、請求項19に記載のシステム。
JP2022567386A 2020-05-05 2021-05-05 等化ベースの画像処理及び空間クロストーク減衰器 Pending JP2023525993A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063020449P 2020-05-05 2020-05-05
US63/020,449 2020-05-05
US17/308,035 2021-05-04
US17/308,035 US11188778B1 (en) 2020-05-05 2021-05-04 Equalization-based image processing and spatial crosstalk attenuator
PCT/US2021/030965 WO2021226285A1 (en) 2020-05-05 2021-05-05 Equalization-based image processing and spatial crosstalk attenuator

Publications (2)

Publication Number Publication Date
JP2023525993A true JP2023525993A (ja) 2023-06-20
JPWO2021226285A5 JPWO2021226285A5 (ja) 2024-05-28

Family

ID=78412803

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022567386A Pending JP2023525993A (ja) 2020-05-05 2021-05-05 等化ベースの画像処理及び空間クロストーク減衰器

Country Status (11)

Country Link
US (3) US11188778B1 (ja)
EP (1) EP4147196A1 (ja)
JP (1) JP2023525993A (ja)
KR (1) KR20230006464A (ja)
CN (1) CN115461778A (ja)
AU (1) AU2021268952A1 (ja)
BR (1) BR112022022361A2 (ja)
CA (1) CA3174053A1 (ja)
IL (1) IL297889A (ja)
MX (1) MX2022013820A (ja)
WO (1) WO2021226285A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11521382B2 (en) * 2020-02-09 2022-12-06 Stout Industrial Technology, Inc. Machine vision plant tracking system for precision agriculture
US11188778B1 (en) * 2020-05-05 2021-11-30 Illumina, Inc. Equalization-based image processing and spatial crosstalk attenuator
US11532313B2 (en) * 2020-08-27 2022-12-20 Google Llc Selectively storing, with multiple user accounts and/or to a shared assistant device: speech recognition biasing, NLU biasing, and/or other data
US11361194B2 (en) 2020-10-27 2022-06-14 Illumina, Inc. Systems and methods for per-cluster intensity correction and base calling
US11455487B1 (en) 2021-10-26 2022-09-27 Illumina Software, Inc. Intensity extraction and crosstalk attenuation using interpolation and adaptation for base calling
WO2023164660A1 (en) 2022-02-25 2023-08-31 Illumina, Inc. Calibration sequences for nucelotide sequencing
US20230407386A1 (en) * 2022-06-09 2023-12-21 Illumina, Inc. Dependence of base calling on flow cell tilt
CN116204770B (zh) * 2022-12-12 2023-10-13 中国公路工程咨询集团有限公司 一种用于桥梁健康监测数据异常检测的训练方法及装置

Family Cites Families (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2073908A (en) 1930-12-29 1937-03-16 Floyd L Kallam Method of and apparatus for controlling rectification
EP0450060A1 (en) 1989-10-26 1991-10-09 Sri International Dna sequencing
US5641658A (en) 1994-08-03 1997-06-24 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid with two primers bound to a single solid support
US6090592A (en) 1994-08-03 2000-07-18 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid on supports
AU3963595A (en) 1994-12-08 1996-06-26 Molecular Dynamics, Inc. Fluorescence imaging system employing a macro scanning objective
US5528050A (en) 1995-07-24 1996-06-18 Molecular Dynamics, Inc. Compact scan head with multiple scanning modalities
US7622294B2 (en) 1997-03-14 2009-11-24 Trustees Of Tufts College Methods for detecting target analytes and enzymatic reactions
US6327410B1 (en) 1997-03-14 2001-12-04 The Trustees Of Tufts College Target analyte sensors utilizing Microspheres
US6023540A (en) 1997-03-14 2000-02-08 Trustees Of Tufts College Fiber optic sensor with encoded microspheres
ATE269908T1 (de) 1997-04-01 2004-07-15 Manteia S A Methode zur sequenzierung von nukleinsäuren
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US20020150909A1 (en) 1999-02-09 2002-10-17 Stuelpnagel John R. Automated information processing in randomly ordered arrays
US6355431B1 (en) 1999-04-20 2002-03-12 Illumina, Inc. Detection of nucleic acid amplification reactions using bead arrays
EP1923471B1 (en) 1999-04-20 2012-12-19 Illumina, Inc. Detection of nucleic acid reactions on bead arrays
US6770441B2 (en) 2000-02-10 2004-08-03 Illumina, Inc. Array compositions and methods of making same
US6865301B1 (en) * 2000-02-28 2005-03-08 Adobe Systems Incorporated Reducing aliasing artifacts when shaping a digital image
CA2309002A1 (en) * 2000-05-23 2001-11-23 Jonathan Martin Shekter Digital film grain reduction
AU2001282881B2 (en) 2000-07-07 2007-06-14 Visigen Biotechnologies, Inc. Real-time sequence determination
US6778692B1 (en) * 2000-08-11 2004-08-17 General Electric Company Image processing method and apparatus including image improving circuit
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
AR031640A1 (es) 2000-12-08 2003-09-24 Applied Research Systems Amplificacion isotermica de acidos nucleicos en un soporte solido
US6598013B1 (en) * 2001-07-31 2003-07-22 University Of Maine Method for reducing cross-talk within DNA data
GB0127564D0 (en) 2001-11-16 2002-01-09 Medical Res Council Emulsion compositions
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US20040002090A1 (en) 2002-03-05 2004-01-01 Pascal Mayer Methods for detecting genome-wide sequence variations associated with a phenotype
ES2694651T3 (es) 2002-08-23 2018-12-26 Illumina Cambridge Limited Nucleótidos etiquetados
EP2607369B1 (en) 2002-08-23 2015-09-23 Illumina Cambridge Limited Modified nucleotides for polynucleotide sequencing
AU2004254552B2 (en) 2003-01-29 2008-04-24 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
EP1641809B2 (en) 2003-07-05 2018-10-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP3175914A1 (en) 2004-01-07 2017-06-07 Illumina Cambridge Limited Improvements in or relating to molecular arrays
US7664326B2 (en) * 2004-07-09 2010-02-16 Aloka Co., Ltd Method and apparatus of image processing to detect and enhance edges
WO2006015251A2 (en) * 2004-07-29 2006-02-09 The Research Foundation Of State University Of New York System and method for cross-talk cancellation in a multilane fluorescence detector
US7315019B2 (en) 2004-09-17 2008-01-01 Pacific Biosciences Of California, Inc. Arrays of optical confinements and uses thereof
US8623628B2 (en) 2005-05-10 2014-01-07 Illumina, Inc. Polymerases
EP3492602A1 (en) 2005-06-15 2019-06-05 Complete Genomics, Inc. Single molecule arrays for genetic and chemical analysis
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
GB0514910D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Method for sequencing a polynucleotide template
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
GB0522310D0 (en) 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
US7329860B2 (en) 2005-11-23 2008-02-12 Illumina, Inc. Confocal imaging methods and apparatus
US9445025B2 (en) * 2006-01-27 2016-09-13 Affymetrix, Inc. System, method, and product for imaging probe arrays with small feature sizes
US20080009420A1 (en) 2006-03-17 2008-01-10 Schroth Gary P Isothermal methods for creating clonal single molecule arrays
EP3722409A1 (en) 2006-03-31 2020-10-14 Illumina, Inc. Systems and devices for sequence by synthesis analysis
US7754429B2 (en) 2006-10-06 2010-07-13 Illumina Cambridge Limited Method for pair-wise sequencing a plurity of target polynucleotides
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US20080242560A1 (en) 2006-11-21 2008-10-02 Gunderson Kevin L Methods for generating amplified nucleic acid arrays
US8703422B2 (en) * 2007-06-06 2014-04-22 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
WO2008154317A1 (en) * 2007-06-06 2008-12-18 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
CA2691907C (en) * 2007-06-29 2013-08-06 F. Hoffmann-La Roche Ag Systems and methods for determining cross-talk coefficients in pcr and other data sets
US9233253B2 (en) 2012-01-16 2016-01-12 Greatbatch Ltd. EMI filtered co-connected hermetic feedthrough, feedthrough capacitor and leadwire assembly for an active implantable medical device
US7595882B1 (en) 2008-04-14 2009-09-29 Geneal Electric Company Hollow-core waveguide-based raman systems and methods
US8039817B2 (en) 2008-05-05 2011-10-18 Illumina, Inc. Compensator for multiple surface imaging
EP2291533B2 (en) 2008-07-02 2020-09-30 Illumina Cambridge Limited Using populations of beads for the fabrication of arrays on surfaces
US8407012B2 (en) * 2008-07-03 2013-03-26 Cold Spring Harbor Laboratory Methods and systems of DNA sequencing
US20100034444A1 (en) * 2008-08-07 2010-02-11 Helicos Biosciences Corporation Image analysis
US8965076B2 (en) 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
US20120015825A1 (en) * 2010-07-06 2012-01-19 Pacific Biosciences Of California, Inc. Analytical systems and methods with software mask
WO2012058096A1 (en) 2010-10-27 2012-05-03 Illumina, Inc. Microdevices and biosensor cartridges for biological or chemical analysis and systems and methods for the same
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
EP2718465B1 (en) 2011-06-09 2022-04-13 Illumina, Inc. Method of making an analyte array
CA2859660C (en) 2011-09-23 2021-02-09 Illumina, Inc. Methods and compositions for nucleic acid sequencing
WO2013056241A2 (en) * 2011-10-14 2013-04-18 Pacific Biosciences Of California, Inc. Real-time redox sequencing
US8778849B2 (en) 2011-10-28 2014-07-15 Illumina, Inc. Microarray fabrication system and method
BR112014024789B1 (pt) 2012-04-03 2021-05-25 Illumina, Inc aparelho de detecção e método para formação de imagem de um substrato
US8906320B1 (en) * 2012-04-16 2014-12-09 Illumina, Inc. Biosensors for biological or chemical analysis and systems and methods for same
US9012022B2 (en) 2012-06-08 2015-04-21 Illumina, Inc. Polymer coatings
US8895249B2 (en) 2012-06-15 2014-11-25 Illumina, Inc. Kinetic exclusion amplification of nucleic acid libraries
JP6377078B2 (ja) * 2013-01-31 2018-08-22 コデクシス, インコーポレイテッド 相互作用する構成要素を有する生体分子を同定するための方法、システム、およびソフトウェア
US9512422B2 (en) 2013-02-26 2016-12-06 Illumina, Inc. Gel patterned surfaces
EP3575414B1 (en) * 2013-05-06 2023-09-06 Pacific Biosciences of California, Inc. Real-time electronic sequencing
PL3017065T3 (pl) 2013-07-01 2019-03-29 Illumina, Inc. Funkcjonalizacja powierzchni i szczepienie polimeru bez użycia katalizatora
US10540783B2 (en) 2013-11-01 2020-01-21 Illumina, Inc. Image analysis useful for patterned objects
WO2015084985A2 (en) 2013-12-03 2015-06-11 Illumina, Inc. Methods and systems for analyzing image data
EP3084002A4 (en) * 2013-12-16 2017-08-23 Complete Genomics, Inc. Basecaller for dna sequencing using machine learning
ES2772127T3 (es) 2014-10-31 2020-07-07 Illumina Cambridge Ltd Polímeros y recubrimientos de copolímeros de ADN
JP2019505884A (ja) * 2015-12-10 2019-02-28 キアゲン ゲーエムベーハー デジタル画像内の少なくとも1つのオブジェクトの全体的明るさを判定するための方法
US10038862B2 (en) * 2016-05-02 2018-07-31 Qualcomm Incorporated Methods and apparatus for automated noise and texture optimization of digital image sensors
US10467749B2 (en) * 2016-10-10 2019-11-05 Genemind Biosciences Company Limited Method and system for processing an image comprising spots in nucleic acid sequencing
CN110383386B (zh) * 2017-01-06 2023-06-13 伊鲁米那股份有限公司 移相校正
NL2018852B1 (en) * 2017-05-05 2018-11-14 Illumina Inc Optical distortion correction for imaged samples
CN112203648A (zh) 2018-03-30 2021-01-08 朱诺诊断学公司 用于产前检查的基于深度学习的方法、设备和系统
US20190392287A1 (en) 2018-06-22 2019-12-26 Samsung Electronics Co., Ltd. Neural processor
KR20200091623A (ko) 2019-01-23 2020-07-31 삼성전자주식회사 위노그라드 변환에 기반한 뉴럴 네트워크의 컨볼루션 연산을 수행하는 방법 및 장치
WO2020175862A1 (ko) 2019-02-25 2020-09-03 주식회사 딥엑스 인공신경망의 비트 양자화 방법 및 시스템
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
NL2023316B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based sequencing
NL2023312B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based base calling
NL2023310B1 (en) 2019-03-21 2020-09-28 Illumina Inc Training data generation for artificial intelligence-based sequencing
US11347965B2 (en) 2019-03-21 2022-05-31 Illumina, Inc. Training data generation for artificial intelligence-based sequencing
NL2023311B9 (en) 2019-03-21 2021-03-12 Illumina Inc Artificial intelligence-based generation of sequencing metadata
NL2023314B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based quality scoring
US20200350037A1 (en) * 2019-05-01 2020-11-05 New York University System, method and computer accessible-medium for multiplexing base calling and/or alignment
US11593649B2 (en) * 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
US11423306B2 (en) * 2019-05-16 2022-08-23 Illumina, Inc. Systems and devices for characterization and performance analysis of pixel-based sequencing
IL279427B1 (en) 2019-05-21 2024-03-01 Illumina Inc Surface active sensors
US11269835B2 (en) 2019-07-11 2022-03-08 International Business Machines Corporation Customization and recommendation of tree-structured templates
EP4049232A1 (en) * 2019-10-21 2022-08-31 Illumina, Inc. Increased calculation efficiency for structured illumination microscopy
US11514573B2 (en) 2019-11-27 2022-11-29 Shanghai United Imaging Intelligence Co., Ltd. Estimating object thickness with neural networks
US11188778B1 (en) * 2020-05-05 2021-11-30 Illumina, Inc. Equalization-based image processing and spatial crosstalk attenuator

Also Published As

Publication number Publication date
CA3174053A1 (en) 2021-11-11
CN115461778A (zh) 2022-12-09
US11694309B2 (en) 2023-07-04
BR112022022361A2 (pt) 2022-12-13
AU2021268952A1 (en) 2022-12-01
IL297889A (en) 2023-01-01
EP4147196A1 (en) 2023-03-15
US11188778B1 (en) 2021-11-30
WO2021226285A1 (en) 2021-11-11
US20220067418A1 (en) 2022-03-03
KR20230006464A (ko) 2023-01-10
US20210350163A1 (en) 2021-11-11
US20230385991A1 (en) 2023-11-30
MX2022013820A (es) 2022-11-30

Similar Documents

Publication Publication Date Title
EP3942072B1 (en) Training data generation for artificial intelligence-based sequencing
US11188778B1 (en) Equalization-based image processing and spatial crosstalk attenuator
US11347965B2 (en) Training data generation for artificial intelligence-based sequencing
WO2020205296A1 (en) Artificial intelligence-based generation of sequencing metadata
NL2023310B1 (en) Training data generation for artificial intelligence-based sequencing
NL2023311B1 (en) Artificial intelligence-based generation of sequencing metadata
US11989265B2 (en) Intensity extraction from oligonucleotide clusters for base calling
US20230343414A1 (en) Sequence-to-sequence base calling
US20230407386A1 (en) Dependence of base calling on flow cell tilt
WO2023003757A1 (en) Intensity extraction with interpolation and adaptation for base calling
US20230087698A1 (en) Compressed state-based base calling
US20230298339A1 (en) State-based base calling
WO2023049215A1 (en) Compressed state-based base calling

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240517