JP2020525890A - ディープニューラルネットワークを使用したシーケンシング結果のクオリティの予測 - Google Patents

ディープニューラルネットワークを使用したシーケンシング結果のクオリティの予測 Download PDF

Info

Publication number
JP2020525890A
JP2020525890A JP2019567671A JP2019567671A JP2020525890A JP 2020525890 A JP2020525890 A JP 2020525890A JP 2019567671 A JP2019567671 A JP 2019567671A JP 2019567671 A JP2019567671 A JP 2019567671A JP 2020525890 A JP2020525890 A JP 2020525890A
Authority
JP
Japan
Prior art keywords
cycle
base calling
prediction
quality
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019567671A
Other languages
English (en)
Other versions
JP6978519B2 (ja
Inventor
アニンディタ・ダッタ
アミラリ・キア
Original Assignee
イルミナ インコーポレイテッド
イルミナ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イルミナ インコーポレイテッド, イルミナ インコーポレイテッド filed Critical イルミナ インコーポレイテッド
Publication of JP2020525890A publication Critical patent/JP2020525890A/ja
Application granted granted Critical
Publication of JP6978519B2 publication Critical patent/JP6978519B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)

Abstract

開示された技術は、拡張光学ベースコーリング処理中にベースコーリングのクオリティを予測する。ベースコーリング処理は、前予測ベースコーリング処理サイクルと、前予測サイクルの少なくとも2倍の後予測ベースコーリング処理サイクルとを含む。前予測ベースコーリング処理サイクルからの複数の時系列が、訓練された畳み込みニューラルネットワークに入力として与えられる。畳み込みニューラルネットワークは、前予測ベースコーリング処理サイクルから、後予測ベースコーリング処理サイクルの後に予想される有望な総合ベースコーリングクオリティを決定する。ベースコーリング処理が一連のペアリードを含むとき、第1のリードの総合ベースコーリングクオリティ時系列もまた、追加入力として畳み込みニューラルネットワークに与えられて、有望な総合ベースコーリングクオリティが第2のリードの後予測サイクルの後に決定される。

Description

優先出願
本PCT出願は、2018年1月5日出願の「PREDICTING QUALITY OF SEQUENCING RESULTS USING DEEP NEURAL NETWORKS」という名称の米国特許非仮出願第15/863,790号(整理番号ILLM1002-2/IP-1646-US)の優先権または利益を主張する。この優先権出願は、あらゆる目的の参照により本明細書に組み込まれる。
開示される技術は、機械学習システムおよび人工ニューラルネットワークを含む、人工知能型コンピュータ、デジタルデータ処理システム、対応するデータ処理方法、および知能のエミュレーションのための製品に関する。詳細には、開示される技術は、順序データを分析するためにディープラーニングおよびディープ畳み込みニューラルネットワークを使用することに関する。
この背景技術の項で論じられる主題は、背景技術の項におけるその言及の結果として従来技術に過ぎないと見なされてはならない。同様に、背景技術の項で言及された、または背景技術の項の主題と関連する課題が従来技術において以前より認識されていたと見なされてはならない。背景技術の項の主題は、特許請求された技術の実施態様にそれ自体も対応し得る異なる手法を表すに過ぎない。
生物学または化学の研究における様々なプロトコルは、多数の制御された反応サイクルを実施することを含む。合成時解読法(SBS)などの一部のDNAシーケンシングプロトコルでは、反応部位のアレイからの発光を検出する。SBSでは、複数の蛍光標識されたヌクレオチドを使用して、基板の表面にある増幅されたDNAの多数のクラスタ(すなわちクローン集団)の核酸をシーケンシングする。その表面は、たとえば、フローセルのチャネルを画定することができる。異なるクラスタの核酸の配列は、蛍光標識されたヌクレオチドがクラスタに付加されてから光源によって励起されて発光する、数百回のサイクルをランすることによって決定される。
SBSは、拡散の配列を決定するための効果的な技法であるが、SBSランは完了するのに3日以上を要し得る。ランの中には、クオリティの問題によって失敗するものもある。少ない回数のサイクルの後でシーケンシングランの最終クオリティを確実に予測することは、シーケンシング機器のユーザが不具合ランを半日後に、またはそれまでに停止できるようにすることによって、そのユーザの利益になるはずである。シーケンシング機器のオペレータは、シーケンシングランの最終クオリティを前もって予測することができない。
幸いにも、トラブルシューティングを実施するために収集されたサブシステム動作データの大量のセットが利用可能である。このサブシステムデータを組み合わせて使用して、シーケンシングリードまたはランの終わりに、またはリード中の合間に総合ベースコーリングクオリティを予測することができる。ランの初期に報告されたサブシステム動作メトリクスを用いると、訓練されたディープニューラルネットワークにより、有望な総合ベースコーリングクオリティを予測することができる。
添付の図面は例示を目的とし、本開示の1つまたは複数の実施態様の実現可能な構成および処理動作の例を提示する役割を果たすに過ぎない。これらの図面は、本開示の趣旨および範囲から逸脱することなく当業者によって加えられ得る形状および細部のいかなる変更も決して限定しない。主題のより完全な理解は、発明を実施するための形態および特許請求の範囲を参照することによって、以下の図と併せて考察されたときに得られよう。図では、同じ参照番号が各図にわたって同様の要素を指す。
クオリティ予測畳み込みニューラルネットワークを含む機械学習システムがシーケンシングシステムによって生成されたシーケンシングデータの総合ベースコーリングクオリティを予測する、システムのアーキテクチャレベルの概略図である。 サブシステム動作と、図1のシーケンシングクオリティデータベースにサイクルごとに記憶される総合ベースコーリングクオリティデータとを示す図である。 図1のクオリティ予測畳み込みニューラルネットワークの別々の層による、1つのチャネルを有する入力の処理を示す図である。 図1のクオリティ予測畳み込みニューラルネットワークの別々の層による、4つのチャネルを有する入力の処理を示す図である。 図1のシーケンシングクオリティデータベースに記憶された、サブシステム動作データおよび総合ベースコーリングクオリティデータの例を示す図である。 例示的なシーケンシングランの2つのリードに関する総合ベースコーリングクオリティを示すグラフである。 別々のターゲットサイクルにおける予測総合ベースコーリングクオリティを示す、2つの例示的なシーケンシングランの2つのリードに関する総合ベースコーリングクオリティデータを示す図である。 ターゲットサイクルに関する予測および真実の総合ベースコーリングクオリティデータと、中間ターゲットサイクルの検証データと試験データの比較とに関する例示的なデータを示すグラフである。 訓練および生成においての、図1のクオリティ予測畳み込みニューラルネットワークのアーキテクチャレベルの例の概略図である。 図1の機械学習システムを実現するために使用できるコンピュータシステムの簡略化ブロック図である。
以下の詳細な説明は、図を参照して行う。例示的な実施態様について、特許請求の範囲で定義されている開示された技術を、その範囲を限定するためではなく例示するために説明する。当業者には、以下の説明に基づいて多様な同等の変形形態が認められよう。
序論
ベースコールのクオリティは、DNAまたはRNA分子のヌクレオチドをシーケンシングすることにおける成功の尺度である。合成時解読法(SBS)はシーケンシングの1つの技法であり、相補的ヌクレオチドを1度に1つずつ、シーケンシングされるべきDNAからのヌクレオチド配列断片に付加することを含む。SBSを用いる光学プラットフォームは、分子と呼ばれることがあるヌクレオチド配列断片の数十億のクラスタを、各レーンにタイルがある複数のレーンに配置された単一のスライドまたはフローセル上でシーケンシングすることができる。分子クラスタは、分子のクローンを提示する。分子をクローニングすることにより、SBS中に生成される信号を増幅する。
分子のヌクレオチドをシーケンシングすることが数百サイクル続行される。サイクルが始まる前に、クローンのクラスタがSBS処理のために用意される。1つのサイクル中に、化学的な画像取り込みおよび画像処理の操作がある。化学的な操作は、色素でタグ付けされた1個の相補的ヌクレオチドが、各サイクルで各クラスタの各分子に付加されるように設計されている。分子がそのクラスタの他の分子のSBSより遅れる、または先に進むと、その分子はフェージングまたはプリフェージングと呼ばれる相外れになる。画像取り込み操作には、カメラをレーンのタイルの上に位置合わせすること、タイルを照射すること、および1つから4つの画像を取り込むことが含まれる。画像処理によってベースコーリングが得られ、これは、サイクル中にクラスタの分子に付加された相補的ヌクレオチドを特定することを意味する。色素の化学的性質、照射、カメラ設計、および取り込まれる画像の数は、シーケンシングプラットフォームによって異なる。シーケンシング機器は、化学的性質、カメラ位置付けまたは位置決め、画像取り込みまたは取得、および総合ベースコーリングクオリティに関するサブシステム動作測定結果を与えることができる。
350個のヌクレオチドからなる分子をSBSによってシーケンシングするには、1つのランで300回以上の処理サイクルを要し得る。ランは、同じ配列断片の3'末端および5'末端から進む2つのリードに分けられる。サイクルの回数が分子の長さよりも少ない場合、3'末端および5'末端からのリードの後に、シーケンシングされていない領域が分子の中間に残ることになる。
ヒトゲノムは約30億個の塩基対を含むので、ヒトゲノムをシーケンシングするには多くのDNA断片分子を並行してシーケンシングする必要がある。これらの塩基対は、細胞ごとに再生される23対のヒト染色体として構成されている。300回のサイクルと、部分配列を1つの全ゲノムに組み合わせるための後続の処理とは、完了するのに3日以上を要し得る。ランの中には、クオリティの問題によって失敗するものもある。少ない回数のサイクルの後でシーケンシングランの最終クオリティを確実に予測することは、シーケンシング機器のユーザが不具合ランを半日後またはそれまでに停止できるようにすることによって、そのユーザの利益になるはずである。
シーケンシング機器のオペレータは、シーケンシングランの最終クオリティを前もって予測することができない。幸いにも、トラブルシューティングを実施するために収集されたサブシステム動作データの大量のセットが利用可能である。このサブシステムデータを組み合わせて使用して、シーケンシング読み取りまたはランの終わりに、またはリード中の合間に総合ベースコーリングクオリティを予測することができる。ランの初期に報告されたサブシステム動作メトリクスを用いると、訓練されたディープニューラルネットワークにより、有望な総合ベースコーリングクオリティを予測することができる。
ランに分子の両末端からの2つのリードが含まれる場合には、同様のさらに早期の予測を第2のリードに対して行うことができる。第2のリードは第1のリードの後に続くので、第1のリードの後期のデータは、第2のリードの前期からのデータと合わせることができる。これにより、第2のリードに必要なサイクルの回数を劇的に減らすことができる。たとえば、サブシステム動作データが第1のリード中に25サイクルに対し使用される場合、第2のリードにおける5サイクルのデータを第1のリードからの20サイクルのデータと合わせるだけで十分であり得る。第1および第2のリードのクオリティについて、別個の予測を行うことができる。
環境
拡張光学ベースコーリング処理中の、ベースコーリングクオリティの早期予測のためのシステムについて説明する。DNA分子には4種類のヌクレオチド、すなわち、アデニン(A)、シトシン(C)、グアニン(G)、およびチミン(T)がある。ベースコーリングとは、シーケンシングランの1つのサイクルでDNA分子のクラスタごとにヌクレオチド塩基(A、C、G、T)を決定する処理のことを言う。このシステムについて、一実施態様によるシステムのアーキテクチャレベルの概略図を示す図1を参照して説明する。図1はアーキテクチャ図であるので、いくつかの細部が、説明の明確さを改善するために意図的に省略されている。図1についての議論は、以下のように系統立てられている。最初に、図の要素について説明し、その後にこれらの相互接続について説明する。次に、システムの要素の使用についてさらに詳細に説明する。
図1はシステム100を含む。システム100は、シーケンシングシステム111、シーケンシングクオリティデータベース115、訓練モードの機械学習システム151、生成モードの機械学習システム159、ならびにサブシステム動作およびベースコールクオリティを監視するオペレータ165を含む。開示された技術は、シーケンシング機器またはシーケンシングプラットフォームとも呼ばれる、多様なシーケンシングシステム111に適用される。シーケンシングシステム111のいくつかの例としては、IlluminaのHiSeqX(商標)、HiSeq3000(商標)、HiSeq4000(商標)、NovaSeq 6000(商標)、およびMiSeqDx(商標)が含まれる。これらのシーケンシングシステムは、ベースコーリングの合成時解読(SBS)技法に適用されるように構成される。
SBSでは、各サイクルにおいて各クラスタの各分子に付けられた、色素でタグ付けされた相補的ヌクレオチドを照射するためのレーザが使用される。カメラでタイルの画像を取り込み、次に、この画像が処理されて、クラスタの分子に付けられたヌクレオチド(A、C、G、T)が特定される。一部のシーケンシングシステムでは4つのチャネルを使用して、分子に付けられた4種類のヌクレオチド(A、C、G、T)をサイクルごとに特定する。このようなシステムでは4つの画像が生成され、各画像が、単一の別個の色を画像ごとに有する信号を含む。4つの色は、特定の位置に存在する可能性のある4個のヌクレオチドに対応する。別のタイプのシーケンシングシステムでは、2つのチャネルが使用されて4種類のヌクレオチド(A、C、G、T)が特定される。このようなシステムでは、サイクルごとに2つの画像が撮影される。第1のヌクレオチドの種類が第1のチャネルで検出され、第2のヌクレオチドの種類が第2のチャネルで検出され、第3のヌクレオチドの種類が第1と第2のチャネルの両方で検出され、色素でタグ付けされた標識がない第4のヌクレオチドの種類は、どちらのチャネルでも検出されないか、または最小限で検出される。
シーケンシングクオリティデータベース115は、サブシステム動作および総合ベースコーリングクオリティデータをサイクルごとに記憶する。1つの実施態様では、シーケンシングクオリティデータベース115は、化学処理サブシステム動作データ116、画像位置決めサブシステム動作データ117、画像取得サブシステム動作データ118、および総合ベースコーリングクオリティデータ119を記憶する。シーケンシングクオリティデータベース115は、これらのデータを特定のシーケンシングシステムのサイクルごとに記憶する。シーケンシングシステム111は、シーケンシングランで分子をシーケンシングする。上述のように、SBSを使用して350個のヌクレオチドからなる分子をシーケンシングするには、このシーケンシングランで300回以上の処理サイクルを要し得る。シーケンシングランが、シーケンシングされる同じ分子(断片または挿入断片とも呼ばれる)の3'末端および5'末端に向かう2つのリードに分けられることがある。これはまた、ペアエンドリードと呼ばれることもある。1つのタイプのシーケンシング装置では、分子の両端末からの2つのリードのそれぞれで150回のベースコーリングサイクルを要する。リードごとのサイクル回数は、おおよそ150回であり、シーケンシング装置モデルによって異なる。開示された技術では、各リードの全サイクルを前予測と後予測のサイクルに分ける。システム100の1つの実施態様では、リード1の最初の25サイクルが前予測サイクルであり、後に続く125サイクルが後予測サイクルである。リード2は、前予測サイクルがさらに少ない。1つの実施態様では、リード2の最初の5サイクルが前予測サイクルであり、後に続く145サイクルが後予測サイクルである。もっと少ない、またはもっと多い各リードでのサイクルをそれぞれ前予測および後予測として使用できることを理解されたい。
機械学習システム151は、訓練データ161、検証データ162、および試験データ163を含むデータベースを備える。これら3つのデータセットは、サブシステム動作に関するシーケンシングクオリティデータベース115からのデータと、シーケンシングシステム111の前のシーケンシングランからの総合ベースコーリングクオリティとを含む。データはサイクルごとに編成されて、前予測ベースコーリング処理サイクルのサブシステム動作と、シーケンシングランのすべてのサイクルについての総合ベースコーリングクオリティとを示す。これらのデータセットは、クオリティ予測畳み込みニューラルネットワーク171の動作を訓練および試験するために使用される。各クオリティ予測畳み込みニューラルネットワークは、1つまたは複数の畳み込みニューラルネットワーク(CNN)および完全接続(FC)ネットワークを備える。フォワードパスだけを行う生成モードの機械学習システム159とは異なり、機械学習システム151の訓練モードでは、フォワードパスおよびバックプロパゲーションが使用される。フォワードパスでは、機械学習システムは、目的後予測ベースコーリング処理サイクルにおいて予想される、有望な総合ベースコーリングクオリティを予測する。バックプロパゲーションでは、機械学習システムは、1つまたは複数の費用関数の勾配を計算し、その勾配をCNNまたはFCニューラルネットワークへ訓練中に伝える。
システム100の1つの実施態様では、機械学習システム151は、1つのクオリティ予測畳み込みニューラルネットワーク171を備える。このクオリティ予測畳み込みニューラルネットワーク171は、リードの後予測ベースコーリング処理サイクルの終わりにおいて予想される有望な総合ベースコーリングクオリティを予測する。システム100の1つの実施態様では、リードの後予測サイクルの回数は、前予測ベースコーリング処理サイクルの回数の少なくとも2倍である。システム100の別の実施態様では、クオリティ予測畳み込みニューラルネットワーク171は、後予測ベースコーリング処理サイクル中に少なくとも5回の中間サイクル数について、有望な総合ベースコーリングクオリティを予測する。クオリティ予測畳み込みニューラルネットワーク171は、5回の中間サイクルのそれぞれの中間の有望な総合ベースコーリングクオリティ決定を出力する。システム100の別の実施態様では、クオリティ予測畳み込みニューラルネットワーク171は、リードのそれぞれの後予測サイクルにおいて予想される有望な総合ベースコーリングクオリティを予測する。
システム100の別の実施態様では、機械学習システム151は、複数のクオリティ予測畳み込みニューラルネットワーク171を備える。各クオリティ予測畳み込みニューラルネットワークは別々に、サブシステムの動作時系列と、前予測ベースコーリング処理サイクルの総合ベースコーリングクオリティ時系列と、目的サイクルの後予測総合ベースコーリングクオリティ時系列とを含む、訓練データ161を使用して訓練される。システム100のこのような実施態様では、特定の訓練された畳み込みニューラルネットワークが、前予測ベースコーリング処理サイクルから、目的サイクルにおいて予想される有望な総合ベースコーリングクオリティを決定する。目的サイクルは、リードの最後のサイクル、または後予測サイクルの中間サイクルのいずれかとすることができる。図1で、例示的な機械学習システム151は、5または10サイクルのインクリメントで最後のサイクルまでの、たとえば、リードの100番目または150番目のベースコーリングサイクルまでの、目的サイクルのクオリティ予測畳み込みニューラルネットワークを備える。
訓練されたクオリティ予測畳み込みニューラルネットワーク179は生成モードで配備され、図1で機械学習システム159の一部として示されている。機械学習システム159はさらに、生成データベース169を備える。生成データベース169は、サブシステムの動作データ116、117、118および総合ベースコーリングクオリティデータ119をシーケンシングシステムの前予測サイクルごとに含む。訓練されたクオリティ予測畳み込みニューラルネットワーク179は、前予測サイクルの少なくとも2倍の後予測ベースコーリング処理サイクルの後に予想される有望な総合ベースコーリングクオリティを前予測ベースコーリング処理サイクルから決定する。上で論じたように、システム100の1つの実施態様では、単一の訓練されたクオリティ予測畳み込みニューラルネットワーク179を使用して、シーケンシングデータのリードの後予測サイクルにおける複数の目的サイクルの予想総合ベースコーリングクオリティを予測することができる。システム100の別の実施態様では、目的サイクルごとに別個の訓練されたクオリティ予測畳み込みニューラルネットワークが、図1に示されるように使用される。訓練151および生成159における機械学習システムは、グラフィックプロセッサユニット(GPU)などの様々なハードウェアプロセッサで動作することができる。ニューラルネットワークに基づくモデルは、畳み込みおよびマトリックスに基づく動作などの計算集約的方法を含む。GPUは、これらの種類の計算に十分に適している。最近、専用のハードウェアが、ニューラルネットワークモデルを効率的に訓練するために開発されている。
シーケンシングクオリティデータ
図2は、専用シーケンシングシステム200のシーケンシングランのサイクルごとにシーケンシングクオリティデータベース115に記憶される、シーケンシングクオリティメトリクス213を示す。図2は、いくつかの例示的なサブシステム動作メトリクスを高い抽象化の程度で列挙している。これらのメトリクスには、化学処理サブシステム動作データ116、画像位置決めサブシステム動作データ117、および画像取得サブシステム動作データ118が含まれる。サイクルごとの総合ベースコーリングクオリティデータ119もまた、機械学習システムへの入力として与えられる。図2には、シーケンシングランのリードの「n」回のシーケンシングサイクルについてのサブシステム動作データ116、117、および118が説明の目的で示されている。リードのサイクルの総数が「3n」と示されている。シーケンシングランのリードにおいて、最初の「n」回のシーケンシングサイクルは、前予測サイクルであり、後に続く「2n」回のサイクルは後予測サイクルである。
サイクルごとのシーケンシングクオリティデータ219は、低い抽象化の程度でサブシステム動作メトリクスを示す。化学処理サブシステム動作データ116は、シーケンシングランの最初の「n」回のサイクルについてのフェージング測定結果Cn1およびプリフェージング測定結果Cn2として示された2つのメトリクスを含む。合成時解読技法の各サイクル中に、化学処理により相補的ヌクレオチドを基板の数百万の位置の目的ヌクレオチド鎖(または分子)に付ける。用語の「フェージング」は、分子のクラスタの1つの分子が、シーケンシング処理中に、同じクラスタの他の分子より少なくとも1つの塩基だけ遅れている状態を表す。これは、不完全な化学反応の故に生じる。分子は、クラスタの他のものと相外れで配列する。より具体的には、これらの分子は、クラスタの他の分子に1サイクルだけ遅れる。この影響は累積的であり、一旦ある分子が遅れると、その分子はクラスタの分子の他のものに追いつくことができない。次のサイクルではより多くの分子が遅れる可能性がある。
用語の「プリフェージング」は、1つの分子が、同じ分子クラスタの他の分子より少なくとも1つの塩基だけ進んでいる状態を指す。プリフェージングの1つの理由は、終結していないヌクレオチドを取り込み、続いて同じシーケンシングサイクルにおいて第2のヌクレオチドを取り込むことである。シーケンシングクオリティデータ219は、リードの前予測サイクルのフェージング測定結果およびプリフェージング測定結果を含む。システム100の一実施態様では、シーケンシングランには2つのリードがあり、シーケンシングランの「n」の値は、リード1では「25」であり、リード2では「5」である。異なる回数のサイクルがリード1およびリード2の前予測サイクルとして使用され得ることを理解されたい。
諸実施態様では、シーケンシングシステム111は、ランダムおよびパターン化と呼ばれる2つのタイプのクラスタ配置をフローセルのタイルに設ける。シーケンシングシステム111は、シーケンシングサイクル中にフローセルのタイルごとにクラスタの画像を取り込むためにカメラを使用する。仮想画像(テンプレートとも呼ばれる)を所与のシーケンシング画像に位置合わせするプロセスは、位置決めと呼ばれる。フローセル上のクラスタ位置のランダム配置に対する画像位置決めのために、シーケンシングランの最初のいくつかのサイクル(たとえば5サイクル)にテンプレートが生成され、これによりフローセル上のクラスタの位置(x位置およびy位置)を特定する。画像位置決めサブシステム動作データは、シーケンシングランのリードの前予測サイクルとも呼ばれる最初の「n」回のサイクルの画像内のクラスタ位置の、「x」オフセット調整Rn1および「y」オフセット調整Rn2を含む。
あるいは、シーケンシングシステム111によって使用される第2のクラスタ形成技法は、パターン化フローセルに基づく。パターン化フローセルには、より高いクラスタ密度および明白なクラスタ特定を可能にするナノウェルのアレイがある。クラスタのパターン化位置があるフローセルでは、テンプレート生成プロセスが、タイルのサイズに対応する部分のx、y位置にクラスタの六方充填格子が配置されるステップに置き換えられる。仮想画像(またはテンプレート)は、実際のリング基準を含むシーケンシング画像の一部分と相互に関連するリング基準の仮想画像に置き換えられる。このようなシーケンシングシステムの画像位置決めサブシステム動作データは、クラスタ位置がランダム配置のシーケンシングシステムについて上に提示されたものと同じである。
SBS技法の各サイクル中に、4種類の相補的ヌクレオチド(A、C、G、T)が同時に、フローセル上のレーンに配置されたタイル上の分子のクラスタに送達される。各ヌクレオチドには、スペクトル的に別個の標識が付けられている。各サイクルにおいて各クラスタの各分子に付けられた、色素でタグ付けされた相補的ヌクレオチドを照射するためにレーザが使用される。カメラでタイルの画像を取り込み、次に、この画像が処理されて、クラスタの分子に付けられたヌクレオチド(A、C、G、T)が特定される。一部のシーケンシングシステムでは4つのチャネルを使用して、分子に付けられた4種類のヌクレオチド(A、C、G、T)をサイクルごとに特定する。このようなシステムでは4つの画像が生成され、各画像が、単一の別個の色を画像ごとに有する信号を含む。4つの色は、特定の位置に存在する可能性のある4個のヌクレオチドに対応する。次に、4つの異なる標識のうちの1つに選択的である検出チャネルをそれぞれ使用して、4つの画像が得られる。次に、特定された標識を使用して、塩基がクラスタごとに呼び出される。このような実施態様では、サイクル「n」の「x」オフセット調整Rn1および「y」オフセット調整Rn2の4つの値(チャネルごとに1つ)が、入力として機械学習システムに与えられる。
別のタイプのシーケンシングシステムでは、分子に付けられた4種類の相補的ヌクレオチド(A、C、G、T)を特定するために、2つのチャネルが使用される。このようなシステムでは、サイクルごとに2つの画像が撮影される。第1のヌクレオチドの種類が第1のチャネルで検出され、第2のヌクレオチドの種類が第2のチャネルで検出され、第3のヌクレオチドの種類が第1と第2のチャネルの両方で検出され、色素でタグ付けされた標識がない第4のヌクレオチドは、どちらのチャネルでも検出されないか、または最小限で検出される。上述のように、シーケンシングクオリティデータ219は、シーケンシングランのリードの前予測サイクルとも呼ばれる、最初の「n」回のサイクルの画像位置決めサブシステム動作データを含む。
画像取得サブシステム動作データには、シーケンシングランの最初の「n」回のサイクルのフォーカススコアAn1、最小コントラスト測定結果An2、最大コントラスト測定結果An3、および強度測定結果An4が含まれる。フォーカススコアは、半値全幅(FWHM)での分子のクラスタの平均最大幅と定義され、画素中のクラスタのおおよそのサイズを表す。最小コントラスト値および最大コントラスト値は、生画像の選択された列のチャネルごとに、それぞれ10番目および99.5番目の百分位数である。選択される列は、フローセルの特定のタイルまたはレーンとすることができる。所与のシーケンシング画像のテンプレートでクラスタごとの強度値を決定するプロセスは、強度抽出と呼ばれる。強度を抽出するために、クラスタのバックグラウンドが、クラスタを含む画像の一部分を使用して計算される。バックグラウンドの信号がクラスタの信号から減算されて、強度が決定される。データの90番目の百分位数からの抽出強度が、シーケンシングクオリティデータ219に記憶される。シーケンシングランのリードの最初の「n」回の前予測サイクルに関する画像取得サブシステム動作データが、シーケンシングクオリティデータベース219に記憶される。1つの実施態様では、画像取得サブシステム動作データ値のそれぞれが、上で論じた4つのチャネルに対応する4つの値を含む。
総合ベースコーリングクオリティデータ119は、シーケンシングランのリードにおいての全「3n」回のサイクルの入力Q30として与えられる。クオリティスコアリングはDNAシーケンシングに広く使用される技法であり、ベースコールの正確さの信頼度を判定するために使用され、それによってPhredクオリティスコアが付与される。たとえば、前訓練機器専用モデルが、Illumina Inc.のシーケンシングシステム(シーケンシング機器とも呼ばれる)の各サイクルにおけるベースコールのクオリティを得るために使用される。Q30(%Q>30とも書かれる)を超える塩基の百分率は、30以上のクオリティスコアを有するベースコールの百分率を意味する。30のクオリティスコアとは、ベースコールのスリーナイン精度を表し、すなわち99.9%のベースコール精度を示す。同様に、20のクオリティスコアは、ベースコールの99%精度を意味する。40のクオリティスコアはベースコールの99.99%精度を意味する。シーケンシングランの間に、%Q>30メトリックを、サイクルごとに各タイルについて、またはサイクルごとにレーンのすべてのタイルにわたる平均として、またはサイクルごとに全タイルの平均として、およびシーケンシングラン全体の「包括的な」平均としてもなど、様々なレベルで見ることができる。
ランのクオリティは、%Q>30値によって判断することができ、より高い%Q>30値が、下流のデータ分析のために確実に使用できる塩基の数が多いことを示す。Illumina Inc.の各シーケンシングシステムには、予想%Q>30規格値がある。たとえば、HiSeqX(商標)システムでは、平均で塩基の75%以上が、リード長さが150個のヌクレオチド(塩基とも呼ばれる)のシーケンシングペアエンドリードに関してQ30を上回ると予想される。システム100の1つの実施態様では、訓練中、各後予測シーケンシングサイクル(Q30n+1からQ303n)の総合ベースコーリングクオリティは10サイクルの平均である。たとえば、後予測サイクル50の総合ベースコーリングクオリティ値は、サイクル45〜54の総合ベースコーリングクオリティ値の平均である。
予測サイクル(「n」)のサブシステム動作データ116、117、および118、ならびにリードの全サイクル(「3n」)の総合ベースコーリングデータ119は、シーケンシングクオリティデータベース219に記憶される。システム100の1つの実施態様では、追加のシーケンシングクオリティメトリクスが機械学習システムへの入力として使用される。このようなメトリクスの例としては、フローセルの温度センサおよびレーザパワーセンサによって報告されるデータが含まれる。シーケンシングシステム111のセンサから報告されたデータは、シーケンシングランの間のシステム動作を監視するために使用される。時には、センサから報告されるデータはまた、シーケンシングランの前後のデータを含むこともある。機械学習システムへの入力として使用できるメトリクスの別の例としては、サイクルエラー率を含むサイクルごとのエラーメトリクス、ならびに完全なリードおよび1つから4つのエラーがあるリードの回数が含まれる。追加のメトリクスは、シーケンシングランの総合ベースコーリングクオリティを予測するための機械学習システムへの入力として含まれてもよいことを理解されたい。
クオリティ予測畳み込みニューラルネットワーク
図3は、図1のクオリティ予測畳み込みニューラルネットワーク(CNN)300の層を示す。図3は、2つの畳み込み層がある実施態様である。このネットワークは、1つから5つの畳み込み層を有することができる。別の実施態様では、このネットワークは5つよりも多い畳み込み層を有することができる。畳み込みの出力を分析する1つの方法は、完全接続(FC)ネットワークによるものである。したがって、畳み込み層の出力は、クオリティ予測CNNの最後の層においてFCネットワークに与えられる。完全接続層は、2〜5層を有する多層パーセプトロンとして実現することができる。FCネットワークからの1つの出力を使用して、リードの後予測サイクルの特定の目的サイクルにおいて予想される有望な総合ベースコーリングクオリティを予測することができる。システムのこのような実施態様では、別個の機械学習システムが、各目的サイクルにおいて予想される有望な総合ベースコーリングクオリティを予測するために訓練される。機械学習システムの代替実施態様では、FCネットワークからの複数の出力を使用して、複数の後予測目的サイクルにおいて予想される総合ベースコーリングクオリティを予測することができる。
図3には、クオリティ予測CNNの各層における入力の次元が括弧内に示されている。上で論じたように、クオリティ予測CNNへのいくつかの入力は1つのチャネルを有し、他は4つを有し得る。図3に示された例示的なクオリティ予測CNNは、1つのチャネルを有する入力に使用される。入力時系列の次元は、1つの次元を有する1つの値から成る各入力値を有する25個の入力があることを示す(311)。この入力は、25個の実数を含む1次元ベクトルと考えることができる。25個の値は、特定のサブシステム動作に対応する。たとえば、化学処理サブシステム動作時系列または総合ベースコーリングクオリティ時系列である。上で論じたように、これらの入力の両方がサイクルごとに1つのチャネルを有する。各入力が、個別の畳み込みを通過する。入力は次に、ブロック321のバッチ正規化層に通される。
畳み込みニューラルネットワーク(CNN)の各層の分布は訓練の間に変化し、1つの層から別の層まで一様ではない。これにより、最適化アルゴリズムの収束速度が低減する。バッチ正規化(IoffeおよびSzegedy、2015年)は、この問題を克服する技法である。バッチ正規化層の入力をxで、その出力をzで示すと、バッチ正規化により次式の変換がxに適用される。
バッチ正規化が、μおよびσを用いて平均分散正規化を入力xに適用し、γおよびβを用いてxを線形に変倍しシフトする。正規化パラメータμおよびσは、指数移動平均と呼ばれる方法を使用して、現在の層について訓練セットに対し計算される。言い換えると、正規化パラメータは訓練可能なパラメータではない。対照的に、γおよびβは訓練可能なパラメータである。訓練の間に上記で計算されたμおよびσの値は、生成の間フォワードパスに用いられる。
バッチ正規化層321からの出力は、入力として畳み込み層331に与えられる。バッチ正規化では入力の次元を変えない。図3に示された畳み込み層の例では、幅5および高さ1の64個のフィルタが、2つのゼロが両側にパディングされている入力に対して畳み込まれる。ゼロパディングが、畳み込み中に境界を処理するために用いられる。HxW入力をパッド=2でゼロパディングするということは、サイズ(H+2pad)×(W+2pad)のゼロマトリックスを生成し、このマトリックスの中にその入力を、それがゼロマトリックスの中心に正確に入るようにコピーすることと考えることができる。畳み込みフィルタのサイズが(2pad+1)×(2pad+1)である場合、ゼロパディングされた入力による畳み込みの結果は、入力のサイズと正確に等しいH×Wになる。パディングは通常、畳み込み演算の入力および出力のサイズを一定に保持するために行われる。
第1の畳み込み層331の出力は25個の値を含み、それぞれの値が64個のチャネルおよび1つの幅を有する。畳み込みの出力はまた、特徴マップとも呼ばれる。この出力は、最大プール層343への入力として与えられる。プーリング層の目標は、特徴マップの次元を低減することである。この理由のために、プーリング層は「ダウンサンプリング」とも呼ばれる。ダウンサンプリングが行われる係数は、「刻み幅」または「ダウンサンプリング係数」と呼ばれる。プーリング刻み幅は「s」で示される。「最大プール」と呼ばれるプーリングの1つのタイプでは、最大値は刻み幅ごとに選択される。たとえば、s=2による最大プーリングが12次元ベクトルx=[1, 10, 8, 2, 3, 6, 7, 0, 5, 4, 9, 2]に適用されると考える。刻み幅s=2によりベクトルxを最大プーリングすることは、インデックス0から始めてどの2つの値からも最大値を選択し、その結果、ベクトル[10, 8, 6, 7, 5, 9]が得られることを意味する。したがって、刻み幅s=2によりベクトルxを最大プーリングすると、結果として6次元ベクトルが得られる。最大プール層343では、s=2の刻み幅を用いて、第1の畳み込みの出力341の次元を25個の値から12個の値に低減する。出力341の25番目の位置の値は廃棄される。
最大プール層343の出力は、次の畳み込み層351に入力として与えられる前にバッチ正規化層347に通される。畳み込み層では、サイズが5×1の64個のカーネルによりそれぞれ64次元に対して畳み込み、サイズが64×12の出力特徴マップを生成する。和演算が64次元にわたって実行されて、サイズが1×12の特徴マップが生成される。したがって、この畳み込み層は128個のカーネルを有し、上記の演算が128回実行されて、次元が128×12の出力特徴マップが生成される。上で論じたように、第2の畳み込み層もまた、2つのゼロパディングを両側に有する入力に対して動作する。第2の畳み込み層の出力がブロック361に示されている。刻み幅がs=2の最大プール層363では、畳み込みの出力が から、値ごとに128チャネルを有する6つの値に低減され、この出力は、ブロック365において第3のバッチ正規化層に通される。バッチ正規化層365からの出力は、2つの完全接続(FC)ネットワークが次に続く加算層に与えられる。詳細には、図4に提示されたこれらの層ということになる。
ドロップアウトは、ニューラルネットワークを過学習から保護するための簡単ではあるが効果的な技法である。ドロップアウトは、訓練の各繰り返しにおいてニューロンの一部分をネットワークからランダムにドロップすることによって機能する。これは、選択されたニューロンの出力および勾配がゼロに設定され、それにより、これらの出力および勾配が前方パスおよび後方パスに何ら影響を及ぼさないことを意味する。例示的な、図3に示されたクオリティ予測畳み込みニューラルネットワークでは、ドロップアウトがそれぞれ第2のバッチ正規化層347および第3のバッチ正規化層365の前に、0.3の確率を用いて実行される。
図4は、図3に提示されたネットワークと類似しているが4チャネルを有する入力用に設計されている、例示的なクオリティ予測畳み込みニューラルネットワーク(CNN)400のアーキテクチャを示す。上で論じたように、画像位置決めサブシステム動作時系列および画像取得サブシステム動作時系列は、4チャネルを有するデータから成る。これらのチャネルは、4種類のヌクレオチド(A、C、G、T)に対応することができる。クオリティ予測CNNの1つの実施態様では、入力がクオリティ予測CNNによって処理される前に、入力ごとの4つのチャネルが一緒にされる。ネットワークの別の実施態様では、クオリティ予測CNNは4つのチャネルを有する各入力を取り入れ、その入力に対応する4つのチャネルを有する各出力を生成する。クオリティ予測CNNからの出力値ごとの4つのチャネルが加えられて、1つのチャネルを有する値が得られる。どちらの実施態様でも、入力値ごとの4つのチャネルの値を足し合わせる和演算を用いることができる。図4に示された例示的なネットワークでは、畳み込みフィルタは、4つのチャネルを有する入力に対して畳み込まれる。
入力411は、シーケンシングランにおいてのリードの25回の前予測サイクルに対応する25個の値を含む。25個の入力値のそれぞれはサイズが1であり、4つのチャネルを有する。ブロック421において、バッチ正規化が入力に対して実行される。2つのゼロパディングによりパディングされる畳み込みが、ブロック431において実行される。サイズが5×1の4つのカーネルにより4つのチャネルに対して畳み込み、サイズが4×25の特徴マップを生成する。和演算は4次元にわたって実行されて、サイズが1×25の特徴マップが生成される。上記の演算は、64個のカーネルがあるので64回実行されて、ブロック443に示されるように、次元が64×25の出力が生成される。刻み幅がs=2の最大プールがブロック445において実行されて、サイズが12の64個の特徴マップが得られる。最大プール層の出力が、ブロック449において第2のバッチ正規化に通される。
ブロック451において第2の畳み込みが、サイズが5の128個のフィルタを用いて実行される。第2の畳み込みにより、両側に2つのゼロパディングを有する入力に対してフィルタを畳み込む。第2の畳み込みの出力は、ブロック461に示されるように、サイズが12の128個の特徴マップを含む。ブロック463において、刻み幅がS=2の最大プールにより次元を、サイズが6の128個の特徴マップに低減させる。第3のバッチ正規化はブロック465において実行される。すべての入力(465および365)の畳み込みからの出力は、加算層467で加算される。加算層467への入力は、9つの入力特徴に対応する9つの特徴マップである。各特徴マップの次元は128の6倍(6×128)である。加算層467は、9つの特徴を合計して次元を768入力(6×128)に低減する。次に、加算層467の出力は、平坦化の後に第1の完全接続(FC)ネットワーク471に通される。FC471は64個の出力を生成し、これらは第2のFCネットワーク481に入力として与えられて1つの出力491を生成する。出力491は、目的サイクルの有望な総合ベースコーリングクオリティをオペレータ165のために予測する。
サブシステム動作データの例
図5は、化学処理サブシステム動作116、画像位置決めサブシステム動作117、画像取得サブシステム動作118および総合ベースコーリングクオリティ119の例示的なデータ500を示す。データは、サブシステムごとの動作測定結果に従って構成される。たとえば、化学処理サブシステム動作データ116はフェージングおよびプリフェージングの測定結果を含む。同様に、画像位置決めサブシステム動作データ117は、平行移動xおよび平行移動yの測定結果を含む。画像取得サブシステム動作データ118は、強度、最大コントラスト、最小コントラストおよびフォーカススコアの測定結果を含む。総合ベースコーリングクオリティデータ119は、Q30クオリティ測定結果を超えるベースコールの百分率を示す。システムの1つの実施態様では、Illumina Inc.のHiSeqX、HiSeq3000およびHiSeq4000シーケンシング装置による23000回のシーケンシングランの上述のデータが、クオリティ予測畳み込みニューラルネットワーク171を訓練するために使用される。
ベースコーリングクオリティ予測結果の分析
図6は、シーケンシングシステムにおける例示的なシーケンシングランの平均総合ベースコーリングクオリティ結果(Q30)を示すグラフ600を含む。シーケンシングランは、ペアエンドリード、すなわちリード1およびリード2を含む。各リードは、150回のシーケンシングサイクルに対応する150回のベースコールを含み、このサイクルでは1個の相補的ヌクレオチドがフローセル上のタイルに配置されたクラスタの分子に付けられる。2つのリードが、インデックスリードによって分けられる。一部のシーケンシングランでは、複数の供給源DNA試料の分子が一緒にシーケンシングされる。インデックスリードは、特有の供給源DNA試料に属するシーケンシングデータを特定するために用いられる。
1つの実施態様では、リード1の最初の25サイクルおよびリード2の最初の5サイクルが、前予測ベースコーリング処理サイクルとして用いられる。前予測サイクルからの、サブシステム動作データ116、117および118ならびに総合ベースコーリングクオリティデータ119が、入力としてクオリティ予測畳み込みニューラルネットワーク(CNN)に与えられる。別の実施態様では、リード1の最後の20サイクルの総合ベースコーリングクオリティスコアもまた、リード2のクオリティ予測CNNに入力として与えられる。グラフ600は、例示的なシーケンシングランの平均Q30スコアが、分子がシーケンシングされるにつれて低下することを示す。シーケンシングサイクルにおいて実行される化学処理が確率論的処理であるので、各サイクルにおける化学的処理ステップのエラーが累積する。より多くのシーケンシングサイクルが実行されるにつれて、前のサイクルのエラーが合計されて、グラフ600のリード1とリード2の曲線によって示された落ち込みが生じる。
図7は、総合ベースコーリングクオリティ予測結果700を、グラフ711および751に示された2つの例示的なペアエンドシーケンシングランの信頼区間と共に示す。両方のシーケンシングランの実際の平均Q30値は、リード1およびリード2のプロットとして示されている。訓練されたクオリティ予測畳み込みニューラルネットワーク(CNN)179は、リード1の最終サイクルであるサイクル150の有望な総合ベースコーリングクオリティを出力する。クオリティ予測CNNはまた、中間サイクルのベースコーリングクオリティを、サイクル30、40、50、60からリードの最後までのように10回のシーケンシングサイクルの間隔で、サイクル30から開始してサイクル150まで連続して予測する。その予測値がボックス内に、各予測の信頼区間と共に示されている。
諸実施態様では、3つの訓練されたクオリティ予測畳み込みニューラルネットワーク(CNN)179の集合体が生成(「推測」とも呼ばれる)の間に使用されて、目的サイクルの有望な総合ベースコーリングクオリティが予測される。3つのモデルのそれぞれが100回ランされて同数の予測値が、1つの実施態様に応じて生成される。次に、3つのクオリティ予測CNNによって生成された合計300個の予測値の平均が、最終予測結果として用いられる。予測値の標準偏差が信頼区間として用いられる。総合ベースコーリングクオリティ値が訓練データに近いリードは、不確実性が低くなるか信頼区間が狭くなり得る。訓練例から遠く離れた予測結果は、不確実性が高くなり得る。
訓練の間、サイクルごとの総合ベースコーリングクオリティデータ119は、1つの実施態様によれば、10回のシーケンシングサイクルの平均によって最適に近似することができる。たとえば、サイクル50の総合ベースコーリングクオリティデータは、サイクル45から54の総合ベースコーリングクオリティデータの平均である。このような実施態様では、生成の間、クオリティ予測CNNは各目的サイクルの(10サイクルにわたる)平均総合ベースコーリングクオリティを予測する。この理由は、特定の1つの目的サイクルについてクオリティ予測CNNの動作を確認することが、単一のサイクルの変動の故に困難なことがあるからである。たとえば、1つの特定のサイクル、たとえばサイクル50は悪いが、前後のサイクルはそれほど悪くない。したがって、10サイクルの平均を用いて特定の目的サイクルの総合ベースコーリングクオリティを予測することができる。
グラフ711は、クオリティ予測CNN 179が、後期の目的サイクルと比べて、リード1の前期の目的サイクルの予測平均Q30スコアを予測することに関してより確信的である実施態様を示す。このシーケンシングランのリード2は、平均Q30スコアが低い。CNN 179によって予測された有望な総合ベースコーリングクオリティスコアは実際のリード2の結果よりも高いが、リード2の最初の5サイクルの後の予測結果は、オペレータ165に、リード2の有望な総合ベースコーリングクオリティが低いことを知らせている。
グラフ751は、クオリティ予測CNN 179が目的サイクルのクオリティスコアを高い確信および精度で予測した実施態様を示す。
グラフ711および751を使用すると、オペレータ165は、リード1およびリード2のライフサイクルの早期にクオリティ予測CNN 179の結果を見直した後で、シーケンシングランを継続するか終了するかを決定することができる。1つの実施態様では、予測スコアは、リード1のサイクル25の終わりおよびリード2のサイクル5の終わりに、信頼値と共にオペレータ165に提示される。
図8は、サイクル100のQ30スコア(%>Q30)を超えるベースコールの百分率の真値および予測値の比較800をグラフ811で提示する。データ点の大部分が破線821に沿っていることが明らかであり、これは予測値が真値に近いことを意味する。グラフ811の上部左隅に、Q30スコアを超えるベースコールの百分率の真値と比べて高い予測値を示すデータ点がいくつかある。上述のように、ベースコーリングは確率論的処理であり、各サイクルがいくつかの化学処理ステップを含む。クオリティ予測CNN 179の予測結果は、グラフの上部左隅のいくつかのサイクルでは真値に近くはない。しかし、クオリティ予測CNNは複数の目的サイクルのQ30スコアを予測するので、オペレータ165は、すべての目的サイクルの予測値を使用してシーケンシングランに関して決定することができる。
グラフ861および865は、例示的なシーケンシングランのリード1およびリード2それぞれのクオリティ予測畳み込みニューラルネットワークの動作を示す。最初の25サイクルについてのサブシステムの動作メトリクスおよび総合ベースコーリングクオリティは、リード1の目的サイクル50、70、100、120および150においての有望な総合ベースコーリングクオリティを予測するために使用される。同様に、リード2の最初の5サイクルの入力は、リード2の同じ目的サイクルにおいての有望な総合ベースコーリングクオリティを予測するために使用される。
R2と示される決定係数は、独立変数から予測される従属変数の変化の比率である。決定係数は、予測データが真のデータ点にどれだけよく近似しているかという統計的尺度である。「1」のR2は、回帰データが真のデータに完全に一致することを示す。グラフ861および865は、有望な総合ベースコーリングクオリティに対するモデル予測が検証および試験での真の値にどれだけ近いかを示す。
クオリティ予測畳み込みニューラルネットワークの訓練および推測
図9は、1つの実施態様による、クオリティ予測畳み込みニューラルネットワーク(CNN)の訓練および生成配備900の概略図911および961を提示する。訓練中、訓練データベース161からのサブシステムの動作データおよび総合ベースコーリングクオリティスコアは、クオリティ予測CNN 171に入力として与えられる。各クオリティ予測CNNは、1つのチャネルを有する入力のための図3に示された複数の層、および4つのチャネルを有する入力のための図4に示された複数の層を含む。1つの実施態様では、別のクオリティ予測CNNが特定の入力(すなわち、サブシステム動作時系列および総合ベースコーリングクオリティ時系列)に対して訓練される。別の実施態様では、単一のクオリティ予測CNNがすべての入力に対して訓練される。1つの実施態様では、クオリティ予測CNNの出力は、シーケンシングランのリードにおける目的サイクルの有望な総合ベースコーリングクオリティである。この出力は、目的サイクルのグランドトゥルースベースコーリングクオリティと比較される。1つの実施態様では、グランドトゥルースは、上で論じたリードの10サイクルの平均ベースコーリングクオリティである。出力とグランドトゥルースの間で計算された予測エラーは、クオリティ予測CNNの重みを、重みにより出力がグランドトゥルースに近くなるように更新するために用いられる。
訓練されたクオリティ予測CNNは生成環境に配備され、ここで、シーケンシング機器111のシーケンシングランにおけるリードの前予測サイクルの生成データを受け取る。生成(または推測)の間、クオリティ予測CNNは、後予測ベースコーリング処理サイクルの目的サイクルの有望な総合ベースコーリングクオリティスコアを生成する。次に、オペレータ165は、リードの有望な総合ベースコーリングクオリティスコアと下流データ分析のためのベースコールの必要なクオリティとを比較することができる。後予測サイクルのベースコーリングクオリティスコアの有望なクオリティがベースコールの必要なクオリティよりも低い場合、システムはオペレータ165に警告し、オペレータはシーケンシングランを中止することができる。
コンピュータシステム
図10は、コンピュータシステム1000の簡略化ブロック図を示し、このシステムを使用して、拡張光学ベースコーリング処理の間にベースコーリングクオリティを早期に予測するための、図1の機械学習システム151を実現することができる。同様のコンピュータシステム1000により、生成または推測のための機械学習システム159を実現することができる。コンピュータシステム1000は、バスサブシステム1055を介していくつかの周辺デバイスと通信する、少なくとも1つの中央処理ユニット(CPU)1072を含む。これらの周辺デバイスは、たとえばメモリデバイスおよびファイル記憶サブシステム1036を含む記憶サブシステム1010、ユーザインターフェース入力デバイス1038、ユーザインターフェース出力デバイス1076、ならびにネットワークインターフェースサブシステム1074を含むことができる。入力デバイスおよび出力デバイスにより、コンピュータシステム1000とのユーザ対話が可能になる。ネットワークインターフェースサブシステム1074が、他のコンピュータシステムの対応するインターフェースデバイスとのインターフェースを含む、外部ネットワークとのインターフェースを提供する。
1つの実施態様では、図1の機械学習システム151は、記憶サブシステム1010およびユーザインターフェース入力デバイス1038に通信可能に連結される。
ユーザインターフェース入力デバイス1038は、キーボード、マウス、トラックボール、タッチパッド、またはグラフィックタブレットなどのポインティングデバイス、スキャナ、表示装置に組み込まれたタッチスクリーン、音声認識システムおよびマイクロフォンなどの音声入力デバイス、ならびに他の種類の入力デバイスを含むことができる。一般に、用語「入力デバイス」の使用は、コンピュータシステム1000に情報を入力するためのすべての可能な種類のデバイスおよび方法を含むことが意図されている。
ユーザインターフェース出力デバイス1076は、表示装置サブシステム、プリンタ、ファックス機、または音声出力デバイスなどの非視覚表示装置を含むことができる。表示装置サブシステムは、LED表示装置、陰極線管(CRT)、液晶表示装置(LCD)などのフラットパネルデバイス、投射デバイス、または可視画像を生成する何か他の機構を含むことができる。表示装置サブシステムはまた、音声出力デバイスなどの非視覚表示装置を提供することもできる。一般に、用語「出力デバイス」の使用は、コンピュータシステム1000からユーザへ、または別の装置もしくはコンピュータシステムへ情報を出力するための、可能なタイプすべてのデバイスおよび方法を含むことが意図されている。
記憶サブシステム1010は、本明細書に記載のモジュールおよび方法の一部または全部の機能を提供するプログラミングおよびデータ構造体を記憶する。これらのソフトウェアモジュールは一般に、ディープラーニングプロセッサ1078によって実行される。
ディープラーニングプロセッサ1078は、グラフィック処理ユニット(GPU)またはフィールドプログラマブルゲートアレイ(FPGA)とすることができる。ディープラーニングプロセッサ1078は、Google Cloud Platform(商標)、Xilinx(商標)、およびCirrascale(商標)などのディープラーニングクラウドプラットフォームによってホストすることができる。ディープラーニングプロセッサ1078の例としては、GoogleのTensor Processing Unit (TPU)(商標)、GX4 Rackmount Series(商標)のようなラックマウントソリューション、GX8 Rackmount Series(商標)、NVIDIA DGX-1(商標)、MicrosoftのStratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit (IPU)(商標)、Snapdragon processors(商標)を有するQualcommのZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、Fujitsu DPI(商標)、ARMのDynamicIQ(商標)、IBM TrueNorth(商標)、および他のものが含まれる。
記憶サブシステム1010に使用されるメモリサブシステム1022は、プログラム実行中に命令およびデータを記憶するための主ランダムアクセスメモリ(RAM)1032と、固定命令が記憶される読み出し専用メモリ(ROM)1034とを含む、いくつかのメモリを含むことができる。ファイル記憶サブシステム1036は、プログラムファイルおよびデータファイルのための持続性記憶装置を提供することができ、ハードディスクドライブ、取り外し可能媒体が付随するフロッピーディスクドライブ、CD-ROMドライブ、光学ドライブ、または取り外し可能媒体カートリッジを含むことができる。特定の実施態様の機能を実施するモジュールは、記憶サブシステム1010のファイル記憶サブシステム1036によって、またはプロセッサがアクセス可能な他の装置において記憶することができる。
バスサブシステム1055は、コンピュータシステム1000の様々な構成要素およびサブシステムに互いに目的通りに通信させるための機構を提供する。バスサブシステム1055が単一のバスとして概略的に示されているが、バスサブシステムの代替実施態様では複数のバスを使用することができる。
コンピュータシステム1000自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビジョン、メインフレーム、サーバファーム、疎ネットワークコンピュータの広域分散セット、または他の任意のデータ処理システムもしくはユーザデバイスを含む、様々なタイプとすることができる。コンピュータおよびネットワークの性質が絶えず変化するので、図10に示されたコンピュータシステム1000についての説明は、本発明の好ましい実施形態を例示することが目的の単なる具体的な例として意図されている。図10に示されたコンピュータシステムよりも構成要素が多いことも少ないこともある、コンピュータシステム1000の他の多くの構成が実現可能である。
特定の実施態様
開示された技術は、拡張光学ベースコーリング処理中にベースコーリングクオリティを早期に予測することに関する。
開示された技術は、システム、方法、または製造物品として実践することができる。一実施態様の1つまたは複数の特徴は、ベース実施態様と組み合わせることができる。互いに排他的ではない諸実施態様は、組み合わせ可能であると教示される。一実施態様の1つまたは複数の特徴は、別の実施態様と組み合わせることができる。本開示では、これらの選択肢をユーザに定期的に思い出させる。これらの選択肢を繰り返す記述が一部の実施態様から省かれることは、前出の項において教示された組み合わせが限定されていると解釈されるべきではなく、これらの記述は本明細書では、後続の諸実施態様のそれぞれに言及することで先に組み込まれている。
開示された技術の第1のシステム実施態様は、メモリに結合された1つまたは複数のプロセッサを含む。メモリには、拡張光学ベースコーリング処理中にベースコーリングクオリティの早期予測を行うためのコンピュータ命令がロードされる。ベースコーリング処理は、前予測ベースコーリング処理サイクルと、前予測サイクルの少なくとも2倍の後予測ベースコーリング処理サイクルとを含む。各ベースコーリング処理サイクルは、(a)付加的な相補的ヌクレオチドを基板の数百万の位置の目的ヌクレオチド鎖に付けるための化学処理、(b)基板の画像タイル上でのカメラ位置付けおよび画像位置決め、および(c)画像タイル上での画像取得、を含む。コンピュータ命令は、プロセッサにおいて実行されたときに、前予測ベースコーリング処理サイクルからの複数の時系列を、訓練された畳み込みニューラルネットワークに入力する。複数の時系列は、化学処理サブシステム動作時系列、画像位置決めサブシステム動作時系列、画像取得サブシステム動作時系列、および総合ベースコーリングクオリティ時系列を含む。
システムは、前予測ベースコーリング処理サイクルの複数の時系列と、後予測総合ベースコーリングクオリティ時系列とを含むベースコーリングクオリティ経験を用いて、畳み込みニューラルネットワークを訓練する。訓練された畳み込みニューラルネットワークは、前予測ベースコーリング処理サイクルから、前予測サイクルの少なくとも2倍の後予測ベースコーリング処理サイクルの後に予想される有望な総合ベースコーリングクオリティを決定する。最後に、システムは、オペレータが評価するための総合ベースコーリングクオリティを出力する。
このシステム実施態様および開示される他のシステムは、以下の特徴のうちの1つまたは複数を任意選択で含む。システムはまた、コンピュータによって実施される開示された方法と関連して説明される特徴を含むこともできる。簡潔にするために、システム特徴の代替組み合わせを個々には列挙しない。システム、方法、および製造物品に当てはまる特徴をベース特徴の法的分類セットごとに繰り返して言わない。読者は、この項で特定される特徴をどのようにして別の法的分類のベース特徴と容易に組み合わせることができるかを理解されよう。
システムは、化学処理サブシステム動作時系列における化学処理動作をフェージングエラーおよびプリフェージングエラーの推定値によって示すことを含む。システムは、画像位置決めサブシステム動作時系列における画像位置決め動作を、画像取り込み後のxおよびy画像オフセット調整の報告によって示すことを含む。システムはさらに、画像取得サブシステム動作時系列における画像取得動作を、フォーカスおよびコントラストの報告によって示すことを含む。このような実施態様では、システムは、クラスタ画像の個々のクラスタの半値全幅の狭さによってフォーカスを示すことを含む。システムの別のこのような実施態様では、コントラストは、画像の列のチャネルごとに10番目の百分位数として計算された最小コントラストを含む。システムの別のこのような実施態様では、コントラストは、画像の列のチャネルごとに99.5番目の百分位数として計算された最大コントラストを含む。
システムの1つの実施態様では、画像取得動作はさらに、クラスタ強度の画像取得サブシステム動作時系列報告を含む。このような実施態様では、システムは、画像化クラスタの強度の90番目の百分位数のクラスタ強度を報告する。システムの1つの実施態様では、ベースコーリング処理は、前予測サイクルの2〜25倍の後予測ベースコーリング処理サイクルを含む。システムの1つの実施態様では、ベースコーリング処理は20〜50回の前予測ベースコーリング処理サイクルを含む。システムの1つの実施態様では、ベースコーリング処理は100〜500回の後予測ベースコーリング処理サイクルを含む。
1つの実施態様では、システムは、前予測ベースコーリング処理サイクルから、少なくとも5回の中間サイクル数についての有望な総合ベースコーリングクオリティを後予測ベースコーリング処理サイクルの間に決定する。この決定に続いて、システムは、中間の有望な総合ベースコーリングクオリティ決定を出力する。システムの1つの実施態様では、総合ベースコーリングクオリティがPhredクオリティスコアとして計算される。システムの別の実施態様では、総合ベースコーリングクオリティがSangerクオリティスコアとして計算される。
開示された技術の第2のシステム実施態様は、メモリに結合された1つまたは複数のプロセッサを含む。メモリには、一連のペアリードを含む拡張光学ベースコーリング処理の間にベースコーリングクオリティの早期予測を行うためのコンピュータ命令がロードされ、それぞれのリードは、前予測ベースコーリング処理サイクルと、前予測サイクルの少なくとも2倍の後予測ベースコーリング処理サイクルとを含む。各ベースコーリング処理サイクルは、(a)付加的な相補的ヌクレオチドを基板の数百万の位置の目的ヌクレオチド鎖に付けるための化学処理、(b)基板の画像タイル上でのカメラ位置付けおよび画像位置決め、および(c)画像タイル上での画像取得、を含む。システムは、第2のリードの前予測ベースコーリング処理サイクルからの複数の時系列を、訓練された畳み込みニューラルネットワークに与えることを含む。複数の時系列は、化学処理サブシステム動作時系列、画像位置決めサブシステム動作時系列、画像取得サブシステム動作時系列、および総合ベースコーリングクオリティ時系列を含む。システムはまた、第1のリードの総合ベースコーリングクオリティ時系列を、訓練された畳み込みニューラルネットワークに与えることも含む。
システムは、第2のリードの前予測ベースコーリング処理サイクルの複数の時系列と、第2のリードの後予測総合ベースコーリングクオリティ時系列と、第1のリードの総合ベースコーリングクオリティ時系列とを含むベースコーリングクオリティ経験を用いて畳み込みニューラルネットワークを訓練することを含む。訓練された畳み込みニューラルネットワークは、第2のリードの前予測ベースコーリング処理サイクルと、第1のリードの総合ベースコーリングクオリティ時系列とを用いて、前予測サイクルの少なくとも2倍の後予測ベースコーリング処理サイクルの後に予想される第2のリードの有望な総合ベースコーリングクオリティを決定する。最後に、システムは、オペレータが評価するための第2のリードの有望な総合ベースコーリングクオリティを出力する。システムのこのような実施態様では、第1のリードは、第2のリードに先行し、シーケンシングされた分子を順方向にベースコールすることを含む。第2のリードは、シーケンシングされた分子を逆方向にベースコールすることを含む。
この特定の実施態様の項で第1のシステム実施態様について論じた特徴のそれぞれは、第2のシステム実施態様に同様に当てはまる。上に示したように、すべてのシステム特徴が本明細書で繰り返されるわけではなく、参照により繰り返されると考えられるべきである。
別の実施態様は、上述のシステムの機能を実行するプロセッサによって実行可能な命令を記憶する、非一時的コンピュータ読み出し可能記憶媒体を含むことができる。さらに別の実施態様は、上述のシステムの機能を実行する、コンピュータによって実施される方法を含むことができる。
開示された技術の、コンピュータによって実施される第1の方法の実施態様は、拡張光学ベースコーリング処理中にベースコーリングクオリティを早期予測することを含む。ベースコーリング処理サイクルは、前予測ベースコーリング処理サイクルと、前予測サイクルの少なくとも2倍の後予測ベースコーリング処理サイクルとを含む。各ベースコーリング処理サイクルは、(a)付加的な相補的ヌクレオチドを基板の数百万の位置の目的ヌクレオチド鎖に付けるための化学処理、(b)基板の画像タイル上でのカメラ位置付けおよび画像位置決め、および(c)画像タイル上での画像取得、を含む。この方法は、前予測ベースコーリング処理サイクルからの複数の時系列を、訓練された畳み込みニューラルネットワークに与えることを含む。複数の時系列は、化学処理サブシステム動作時系列、画像位置決めサブシステム動作時系列、画像取得サブシステム動作時系列、および総合ベースコーリングクオリティ時系列を含む。
コンピュータによって実施される方法はさらに、前予測ベースコーリング処理サイクルの複数の時系列と、後予測総合ベースコーリングクオリティ時系列とを含むベースコーリングクオリティ経験を用いて、畳み込みニューラルネットワークを訓練することを含む。訓練された畳み込みニューラルネットワークは、前予測サイクルの少なくとも2倍の後予測ベースコーリング処理サイクルの後に予想される有望な総合ベースコーリングクオリティを、前予測ベースコーリング処理サイクルから決定する。最後に、この方法は、オペレータが評価するための有望な総合ベースコーリングクオリティを出力する。
この特定の実施態様の項で第1のシステム実施態様について論じた特徴のそれぞれは、コンピュータによって実施されるこの方法の実施態様に同様に当てはまる。上に示したように、すべてのシステム特徴が本明細書で繰り返されるわけではなく、参照により繰り返されると考えられるべきである。
別の実施態様は、コンピュータによって実施される上述の第1の方法を実行するプロセッサによって実行可能な命令を記憶する、非一時的コンピュータ読み出し可能記憶媒体を含むことができる。さらに別の実施態様は、メモリと、コンピュータによって実施される上述の第1の方法を実行するための、メモリに記憶された命令を実行するように動作可能な1つまたは複数のプロセッサとを含む、システムを含むことができる。
開示された技術のコンピュータ可読媒体(CRM)実施態様は、コンピュータプログラム命令が記録された非一時的コンピュータ可読記憶媒体を含み、プロセッサにおいて実行されるときに、コンピュータによって実施される上述の方法を実施する。
この特定の実施態様の項で第1のシステム実施態様について論じた特徴のそれぞれは、CRM実施態様に同様に当てはまる。上に示したように、すべてのシステム特徴が本明細書で繰り返されるわけではなく、参照により繰り返されると考えられるべきである。
開示された技術の、コンピュータによって実施される第2の方法の実施態様は、一連のペアリードを含む拡張光学ベースコーリング処理中にベースコーリングクオリティを早期予測することを含む。それぞれのリードは、前予測ベースコーリング処理サイクルと、前予測サイクルの少なくとも2倍の後予測ベースコーリング処理サイクルとを含む。各ベースコーリング処理サイクルは、(a)付加的な相補的ヌクレオチドを基板の数百万の位置の目的ヌクレオチド鎖に付けるための化学処理、(b)基板の画像タイル上でのカメラ位置付けおよび画像位置決め、および(c)画像タイル上での画像取得、を含む。この方法は、第2のリードの前予測ベースコーリング処理サイクルからの複数の時系列を、訓練された畳み込みニューラルネットワークに与えることを含む。複数の時系列は、化学処理サブシステム動作時系列、画像位置決めサブシステム動作時系列、画像取得サブシステム動作時系列、および総合ベースコーリングクオリティ時系列を含む。この方法はまた、第1のリードの総合ベースコーリングクオリティ時系列を、訓練された畳み込みニューラルネットワークに与えることも含む。
コンピュータによって実施される方法は、第2のリードの前予測ベースコーリング処理サイクルの複数の時系列と、第2のリードの後予測総合ベースコーリングクオリティ時系列と、第1のリードの総合ベースコーリングクオリティ時系列とを含むベースコーリングクオリティ経験を用いて、畳み込みニューラルネットワークを訓練することを含む。訓練された畳み込みニューラルネットワークは、第2のリードの前予測ベースコーリング処理サイクルと、第1のリードの総合ベースコーリングクオリティ時系列とを用いて、前予測サイクルの少なくとも2倍の後予測ベースコーリング処理サイクルの後に予想される、第2のリードの有望な総合ベースコーリングクオリティを決定する。最後に、この方法は、オペレータが評価するための第2のリードの有望な総合ベースコーリングクオリティを出力する。コンピュータによって実施される第2の方法の実施態様では、第1のリードは、第2のリードに先行し、シーケンシングされた分子を順方向にベースコールすることを含む。第2のリードは、シーケンシングされた分子を逆方向にベースコールすることを含む。
この特定の実施態様の項で第1のシステム実施態様について論じた特徴のそれぞれは、この方法の実施態様に同様に当てはまる。上に示したように、すべてのシステム特徴が本明細書で繰り返されるわけではなく、参照により繰り返されると考えられるべきである。
別の実施態様は、コンピュータによって実施される上述の方法を実行するプロセッサによって実行可能な命令を記憶する、非一時的コンピュータ読み出し可能記憶媒体を含むことができる。さらに別の実施態様は、メモリと、コンピュータによって実施される上述の方法を実行するための、メモリに記憶された命令を実行するように動作可能な1つまたは複数のプロセッサとを含む、システムを含むことができる。
開示された技術のコンピュータ可読媒体(CRM)実施態様は、コンピュータプログラム命令が記録された、非一時的コンピュータ可読記憶媒体を含み、プロセッサにおいて実行されるときに、コンピュータによって実施される上述の第2の方法を実施する。
この特定の実施態様の項で第1のシステム実施態様について論じた特徴のそれぞれは、CRM実施態様に同様に当てはまる。上に示したように、すべてのシステム特徴が本明細書で繰り返されるわけではなく、参照により繰り返されると考えられるべきである。
上記の説明は、開示された技術に関する製造および使用を可能にするために提示されている。開示された実施態様に対する様々な修正が明らかであり、本明細書に定義された一般的な原理が、開示された技術の趣旨および範囲から逸脱することなく、他の実施態様および応用例に適用され得る。したがって、開示された技術は、示された実施態様に限定されるものではなく、本明細書に開示された原理および特徴と整合する最も広い範囲に一致するものである。開示された技術の範囲は、添付の特許請求の範囲によって定義される。
100 システム
111 シーケンシングシステム、シーケンシング機器
115 シーケンシングクオリティデータベース
116 化学処理サブシステム動作データ
117 画像位置決めサブシステム動作データ
118 画像取得サブシステム動作データ
119 総合ベースコーリングクオリティデータ
151 訓練モードの機械学習システム
159 生成モードの機械学習システム
161 訓練データ
162 検証データ
163 試験データ
165 オペレータ
169 生成データベース
171 クオリティ予測畳み込みニューラルネットワーク
200 専用シーケンシングシステム
213 シーケンシングクオリティメトリクス
219 シーケンシングクオリティデータ
311 1つの次元を有する1つの値から成る各入力値を有する25個の入力
321 バッチ正規化層
331 畳み込み層
341 第1の畳み込みの出力
343 最大プール層
347 バッチ正規化層
351 畳み込み層
361 第2の畳み込み層の出力
363 最大プール層
365 バッチ正規化層
400 クオリティ予測畳み込みニューラルネットワーク(CNN)
411 入力
421 バッチ正規化
431 パディングされた畳み込み
443 出力
445 最大プール
449 バッチ正規化
451 パディングされた畳み込み
461 出力
463 最大プール
465 バッチ正規化
467 加算層
471 第1の完全接続(FC)ネットワーク
481 第2の完全接続(FC)ネットワーク
491 出力
811 グラフ
821 破線
861 グラフ
865 グラフ
900 訓練および生成配備
911 概略図
961 概略図

Claims (15)

  1. 拡張光学ベースコーリング処理中に少なくとも1つの目的サイクルにおけるベースコーリングクオリティを早期予測する、コンピュータによって実施される方法であって、前記拡張光学ベースコーリング処理が、予測点の前の前予測ベースコーリング処理サイクルと、前記予測点の後ろであり前記目的サイクルを経由する、前予測サイクルの少なくとも2倍ある後予測ベースコーリング処理サイクルとを含み、各ベースコーリング処理サイクルが、(a)付加的な相補的ヌクレオチドを基板の数百万の位置の目的ヌクレオチド鎖に付けるための化学処理、(b)前記基板の画像タイル上でのカメラ位置付けおよび画像位置決め、ならびに(c)前記画像タイル上での画像取得を含み、前記方法が、
    訓練された畳み込みニューラルネットワークを呼び出すステップを含み、前記訓練された畳み込みニューラルネットワークが、前記前予測ベースコーリング処理サイクルと1つまたは複数の後予測目的サイクルとの複数の訓練時系列を含む、訓練ラベルのグランドトゥルースとして使用されるベースコーリングクオリティデータを使用して訓練されたものであり、前記複数の時系列が、
    フェージングエラーおよびプリフェージングエラーなどの、化学処理サブシステム動作、
    画像取り込み後のxおよびy画像オフセット調整などの、画像位置決めサブシステム動作、
    フォーカスおよびコントラストの報告などの、画像取得サブシステム動作系列、および
    Phredスコアなどの、サイクルごとのベースコーリングクオリティ推定値
    についての時系列データを含み、
    前記方法がさらに、前記前予測ベースコーリング処理サイクルからの複数の生成時系列を前記訓練された畳み込みニューラルネットワークに入力するステップを含み、
    前記訓練された畳み込みニューラルネットワークが、前記前予測ベースコーリング処理サイクルからサイクルnの後の前記予測点において、前予測サイクルの少なくとも2倍ある後予測ベースコーリング処理サイクルの後に、前記目的サイクルにおいて予想されるベースコーリングクオリティを決定し、
    前記方法がさらに、サイクル3n以降の前記目的サイクルにおいて予想される少なくとも前記ベースコーリングクオリティを、オペレータが評価するために出力するステップを含む、コンピュータによって実施される方法。
  2. 化学処理動作が、フェージングエラーおよびプリフェージングエラーの推定値によって前記化学処理サブシステム動作時系列に示される、請求項1に記載のコンピュータによって実施される方法。
  3. 前記画像位置決め動作が、画像取り込み後のxおよびy画像オフセット調整の報告によって前記画像位置決めサブシステム動作時系列に示される、請求項1または2に記載のコンピュータによって実施される方法。
  4. 前記画像取得動作が、フォーカスおよびコントラストの報告によって前記画像取得サブシステム動作時系列に示される、請求項1から3のいずれか一項に記載のコンピュータによって実施される方法。
  5. 前記フォーカスが、クラスタ画像の個々のクラスタの半値全幅の狭さによって示される、請求項4に記載のコンピュータによって実施される方法。
  6. 前記コントラストが、前記画像の列のチャネルごとに10番目の百分位数として計算された最小コントラストを含む、請求項4に記載のコンピュータによって実施される方法。
  7. 前記コントラストが、前記画像の列のチャネルごとに99.5番目の百分位数として計算された最大コントラストを含む、請求項4に記載のコンピュータによって実施される方法。
  8. 前記画像取得動作がさらに、クラスタ強度の画像取得サブシステム動作時系列報告を含む、請求項4に記載のコンピュータによって実施される方法。
  9. 前記クラスタ強度が、画像クラスタの強度の90番目の百分位数で報告される、請求項8に記載のコンピュータによって実施される方法。
  10. 前記ベースコーリング処理が、前予測サイクルの3〜25倍の後予測ベースコーリング処理サイクルを含む、請求項1から9のいずれか一項に記載のコンピュータによって実施される方法。
  11. 前記ベースコーリング処理が、前予測サイクルの2〜50倍の後予測ベースコーリング処理サイクルを含む、請求項1から9のいずれか一項に記載のコンピュータによって実施される方法。
  12. 前記ベースコーリング処理が、20〜50回の前予測ベースコーリング処理サイクルを含む、請求項1から9のいずれか一項に記載のコンピュータによって実施される方法。
  13. 前記ベースコーリング処理が、100〜500回の後予測ベースコーリング処理サイクルを含む、請求項1から9のいずれか一項に記載のコンピュータによって実施される方法。
  14. 前記前予測ベースコーリング処理サイクルから、少なくとも5回の中間サイクル数についての有望な総合ベースコーリングクオリティを前記後予測ベースコーリング処理サイクルの間に決定するステップと、前記中間の有望な総合ベースコーリングクオリティ決定を出力するステップとをさらに含む、請求項1に記載のコンピュータによって実施される方法。
  15. メモリに結合された1つまたは複数のプロセッサを含むシステムであって、前記メモリに、拡張光学ベースコーリング処理中に少なくとも1つの目的サイクルにおけるベースコーリングクオリティの早期予測を行うためのコンピュータ命令がロードされており、前記拡張光学ベースコーリング処理が、予測点の前の前予測ベースコーリング処理サイクルと、前記予測点の後ろであり前記目的サイクルを経由する、前予測サイクルの少なくとも2倍ある後予測ベースコーリング処理サイクルとを含み、各ベースコーリング処理サイクルが、(a)付加的な相補的ヌクレオチドを基板の数百万の位置の目的ヌクレオチド鎖に付けるための化学処理、(b)前記基板の画像タイル上でのカメラ位置付けおよび画像位置決め、ならびに(c)前記画像タイル上での画像取得を含み、前記システムが、
    訓練された畳み込みニューラルネットワークを呼び出す動作を実施し、前記訓練された畳み込みニューラルネットワークが、前記前予測ベースコーリング処理サイクルと1つまたは複数の後予測目的サイクルとの複数の訓練時系列を前記予測点の前後に含む、訓練ラベルのグランドトゥルースとして使用されるベースコーリングクオリティデータを使用して訓練されたものであり、前記複数の時系列が、
    フェージングエラーおよびプリフェージングエラーなどの、化学処理サブシステム動作、
    画像取り込み後のxおよびy画像オフセット調整などの、画像位置決めサブシステム動作、
    フォーカスおよびコントラストの報告などの、画像取得サブシステム動作系列、および
    Phredスコアなどの、サイクルごとのベースコーリングクオリティ推定値
    についての時系列データを含み、
    前記システムがさらに、前記前予測ベースコーリング処理サイクルからの複数の生成時系列を前記訓練された畳み込みニューラルネットワークに入力する動作を実施し、
    前記訓練された畳み込みニューラルネットワークが、前記前予測ベースコーリング処理サイクルからサイクルnの後の前記予測点において、前予測サイクルの少なくとも2倍ある後予測ベースコーリング処理サイクルの後に、前記目的サイクルにおいて予想されるベースコーリングクオリティを決定し、
    前記システムがさらに、サイクル3n以降の前記目的サイクルにおいて予想される少なくとも前記ベースコーリングクオリティを、オペレータが評価するために出力する動作を実施する、システム。
JP2019567671A 2018-01-05 2019-01-04 ディープニューラルネットワークを使用したシーケンシング結果のクオリティの予測 Active JP6978519B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/863,790 2018-01-05
US15/863,790 US11288576B2 (en) 2018-01-05 2018-01-05 Predicting quality of sequencing results using deep neural networks
PCT/US2019/012398 WO2019136284A1 (en) 2018-01-05 2019-01-04 Predicting quality of sequencing results using deep neural networks

Publications (2)

Publication Number Publication Date
JP2020525890A true JP2020525890A (ja) 2020-08-27
JP6978519B2 JP6978519B2 (ja) 2021-12-08

Family

ID=65433728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019567671A Active JP6978519B2 (ja) 2018-01-05 2019-01-04 ディープニューラルネットワークを使用したシーケンシング結果のクオリティの予測

Country Status (11)

Country Link
US (1) US11288576B2 (ja)
EP (1) EP3619711B1 (ja)
JP (1) JP6978519B2 (ja)
KR (1) KR102216898B1 (ja)
CN (1) CN110785814B (ja)
AU (1) AU2019205311B2 (ja)
CA (1) CA3065927A1 (ja)
IL (1) IL271103B (ja)
NZ (1) NZ759639A (ja)
SG (1) SG11201911754TA (ja)
WO (1) WO2019136284A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11861491B2 (en) 2017-10-16 2024-01-02 Illumina, Inc. Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs)
CN113627458A (zh) 2017-10-16 2021-11-09 因美纳有限公司 基于循环神经网络的变体致病性分类器
US11334790B1 (en) * 2018-03-02 2022-05-17 Supplypike, Llc System and method for recurrent neural networks for forecasting of consumer goods' sales and inventory
NL2023312B1 (en) * 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based base calling
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
NL2023310B1 (en) * 2019-03-21 2020-09-28 Illumina Inc Training data generation for artificial intelligence-based sequencing
NL2023311B9 (en) * 2019-03-21 2021-03-12 Illumina Inc Artificial intelligence-based generation of sequencing metadata
NL2023316B1 (en) * 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based sequencing
NL2023314B1 (en) * 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based quality scoring
US11783917B2 (en) 2019-03-21 2023-10-10 Illumina, Inc. Artificial intelligence-based base calling
WO2020191387A1 (en) * 2019-03-21 2020-09-24 Illumina, Inc. Artificial intelligence-based base calling
US11593649B2 (en) * 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
US11562203B2 (en) 2019-12-30 2023-01-24 Servicenow Canada Inc. Method of and server for training a machine learning algorithm for estimating uncertainty of a sequence of models
WO2021137100A1 (en) * 2019-12-30 2021-07-08 Element Ai Inc. Method of and server for training a machine learning algorithm for estimating uncertainty of a sequence of models
IL295560A (en) 2020-02-20 2022-10-01 Illumina Inc An artificial intelligence-based many-to-many base reader
US20230178180A1 (en) * 2020-05-12 2023-06-08 Hitachi High-Tech Corporation Nucleic acid analyzer, nucleic acid analysis method, and machine learning method
US11195080B1 (en) * 2021-03-29 2021-12-07 SambaNova Systems, Inc. Lossless tiling in convolution networks—tiling configuration
WO2022212179A1 (en) * 2021-04-01 2022-10-06 Illumina, Inc. Systems and methods for identifying subcomponent failure in sequencing instruments
US20220336054A1 (en) 2021-04-15 2022-10-20 Illumina, Inc. Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures
WO2023097685A1 (zh) * 2021-12-03 2023-06-08 深圳华大生命科学研究院 核酸样本的碱基识别方法及装置
WO2024007190A1 (en) * 2022-07-06 2024-01-11 GeneSense Technology Inc. Methods and systems for enhancing nucleic acid sequencing quality in high-throughput sequencing processes with machine learning
CN115602245B (zh) * 2022-09-09 2023-10-03 郑州思昆生物工程有限公司 一种荧光图筛选的方法、装置、设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004501415A (ja) * 2000-02-07 2004-01-15 フィジオム・サイエンスィズ・インコーポレーテッド 遺伝子、生化学、生物物理、及び解剖学的な情報のシステム及び方法:insilico細胞
US20110256631A1 (en) * 2007-06-06 2011-10-20 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
US20150169824A1 (en) * 2013-12-16 2015-06-18 Complete Genomics, Inc. Basecaller for dna sequencing using machine learning

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3811086A1 (de) 1987-04-03 1988-10-20 Hitachi Ltd Pid-reglersystem
US5365455A (en) 1991-09-20 1994-11-15 Vanderbilt University Method and apparatus for automatic nucleic acid sequence determination
EP0658004A3 (en) 1993-12-07 1996-05-01 Meidensha Electric Mfg Co Ltd Crystal oscillator digitally compensated in temperature.
US6951998B2 (en) 2000-04-14 2005-10-04 Omron Corporation Controller, temperature regulator and heat treatment apparatus
EP1423816A2 (en) * 2000-08-14 2004-06-02 Incyte Genomics, Inc. Basecalling system and protocol
US7669777B2 (en) 2001-05-07 2010-03-02 Automated Logic Corporation Slope predictive control and digital PID control for a variable temperature control system
US7773127B2 (en) 2006-10-13 2010-08-10 Apple Inc. System and method for RAW image processing
WO2009078939A1 (en) * 2007-12-17 2009-06-25 Brown University Methods for identifying nucleotide ligands
CN100562825C (zh) 2008-08-22 2009-11-25 唐山学院 机械设备故障在线诊断装置及方法
US8392126B2 (en) 2008-10-03 2013-03-05 Illumina, Inc. Method and system for determining the accuracy of DNA base identifications
US20100157086A1 (en) 2008-12-15 2010-06-24 Illumina, Inc Dynamic autofocus method and system for assay imager
US8965076B2 (en) * 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
JP5604945B2 (ja) 2010-04-06 2014-10-15 新日鐵住金株式会社 品質予測装置、品質予測方法、コンピュータプログラム、およびコンピュータ読み取り可能な記録媒体
JP5488140B2 (ja) 2010-04-06 2014-05-14 新日鐵住金株式会社 品質予測装置、品質予測方法、コンピュータプログラム、およびコンピュータ読み取り可能な記録媒体
SG184539A1 (en) 2010-04-09 2012-11-29 Life Technologies Corp Improved thermal uniformity for thermal cycler instrumentation using dynamic control
US10241075B2 (en) * 2010-12-30 2019-03-26 Life Technologies Corporation Methods, systems, and computer readable media for nucleic acid sequencing
US20130090860A1 (en) * 2010-12-30 2013-04-11 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
CA2849023C (en) * 2011-09-15 2022-07-19 David A. Shafer Probe:antiprobe compositions for high specificity dna or rna detection
JP6193252B2 (ja) 2011-12-01 2017-09-06 ジナプシス インコーポレイテッド 高効率電子配列決定及び検出のためのシステム並びに方法
US9444880B2 (en) 2012-04-11 2016-09-13 Illumina, Inc. Cloud computing environment for biological data
JP2013248860A (ja) 2012-06-04 2013-12-12 Canon Inc インクジェット記録装置
WO2014075296A1 (zh) 2012-11-16 2014-05-22 深圳华大基因科技服务有限公司 核酸测序方法、系统及质控方法、系统
US9805407B2 (en) 2013-01-25 2017-10-31 Illumina, Inc. Methods and systems for using a cloud computing environment to configure and sell a biological sample preparation cartridge and share related data
US20140301447A1 (en) * 2013-04-08 2014-10-09 Research In Motion Limited Methods for reconstructing an encoded video at a bit-depth lower than at which it was encoded
US20140316716A1 (en) * 2013-04-19 2014-10-23 Life Technologies Corporation Methods, Systems, and Computer Readable Media for Improving Base Calling Accuracy
US10540783B2 (en) 2013-11-01 2020-01-21 Illumina, Inc. Image analysis useful for patterned objects
CN105874460B (zh) * 2013-11-01 2018-10-02 精赛恩公司 识别靶序列的至少一个碱基的方法、可读介质及设备
RS60736B1 (sr) 2013-12-03 2020-09-30 Illumina Inc Postupci i sistemi za analizu podataka sa slika
WO2015190249A1 (ja) 2014-06-13 2015-12-17 株式会社 日立ハイテクノロジーズ 核酸分析装置、および核酸分析装置の装置診断方法
WO2016011563A1 (en) * 2014-07-25 2016-01-28 Ontario Institute For Cancer Research System and method for process control of gene sequencing
WO2016065299A2 (en) 2014-10-24 2016-04-28 Eshoo Mark W Ultrasonics for microfluidic sample preparation
CN104566863A (zh) 2014-12-30 2015-04-29 海信科龙电器股份有限公司 一种检测冷媒泄漏的方法及空调
US20160358099A1 (en) * 2015-06-04 2016-12-08 The Boeing Company Advanced analytical infrastructure for machine learning
CN105420096B (zh) 2015-12-02 2017-06-23 北京中科紫鑫科技有限责任公司 一种基于反应温度调整的dna图像采集测序系统
WO2017207822A1 (en) 2016-06-03 2017-12-07 Lonza Limited Single use bioreactor
WO2018129314A1 (en) 2017-01-06 2018-07-12 Illumina, Inc. Phasing correction
EP3592865A1 (en) 2017-03-07 2020-01-15 Illumina, Inc. Single light source, two-optical channel sequencing
CN107220980B (zh) * 2017-05-25 2019-12-03 重庆师范大学 一种基于全卷积网络的mri图像脑肿瘤自动分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004501415A (ja) * 2000-02-07 2004-01-15 フィジオム・サイエンスィズ・インコーポレーテッド 遺伝子、生化学、生物物理、及び解剖学的な情報のシステム及び方法:insilico細胞
US20110256631A1 (en) * 2007-06-06 2011-10-20 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
US20150169824A1 (en) * 2013-12-16 2015-06-18 Complete Genomics, Inc. Basecaller for dna sequencing using machine learning

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SEQUENCING QUALITY CONTROL[ONLINE], JPN6021040139, 6 July 2017 (2017-07-06), ISSN: 0004617008 *

Also Published As

Publication number Publication date
EP3619711A1 (en) 2020-03-11
IL271103B (en) 2021-01-31
CN110785814A (zh) 2020-02-11
IL271103A (en) 2020-01-30
JP6978519B2 (ja) 2021-12-08
KR102216898B1 (ko) 2021-02-17
CA3065927A1 (en) 2019-07-11
AU2019205311A1 (en) 2019-12-19
WO2019136284A1 (en) 2019-07-11
AU2019205311B2 (en) 2021-08-26
CN110785814B (zh) 2024-07-12
EP3619711B1 (en) 2021-07-07
SG11201911754TA (en) 2020-01-30
KR20200013684A (ko) 2020-02-07
NZ759639A (en) 2022-05-27
US11288576B2 (en) 2022-03-29
US20190213473A1 (en) 2019-07-11

Similar Documents

Publication Publication Date Title
JP6978519B2 (ja) ディープニューラルネットワークを使用したシーケンシング結果のクオリティの予測
KR102416048B1 (ko) 변이체 분류를 위한 심층 컨볼루션 신경망
AU2021269351B2 (en) Deep learning-based techniques for pre-training deep convolutional neural networks
US10068053B2 (en) Basecaller for DNA sequencing using machine learning
US20210265015A1 (en) Hardware Execution and Acceleration of Artificial Intelligence-Based Base Caller
US11749380B2 (en) Artificial intelligence-based many-to-many base calling
CA3064223A1 (en) Deep learning-based techniques for pre-training deep convolutional neural networks
JP2023535285A (ja) 変異体病原性スコアリング及び分類、並びにそれらの使用
US20230316054A1 (en) Machine learning modeling of probe intensity
US20230005253A1 (en) Efficient artificial intelligence-based base calling of index sequences

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211111

R150 Certificate of patent or registration of utility model

Ref document number: 6978519

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150