JP2020525890A - ディープニューラルネットワークを使用したシーケンシング結果のクオリティの予測 - Google Patents
ディープニューラルネットワークを使用したシーケンシング結果のクオリティの予測 Download PDFInfo
- Publication number
- JP2020525890A JP2020525890A JP2019567671A JP2019567671A JP2020525890A JP 2020525890 A JP2020525890 A JP 2020525890A JP 2019567671 A JP2019567671 A JP 2019567671A JP 2019567671 A JP2019567671 A JP 2019567671A JP 2020525890 A JP2020525890 A JP 2020525890A
- Authority
- JP
- Japan
- Prior art keywords
- cycle
- base calling
- prediction
- quality
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012163 sequencing technique Methods 0.000 title description 133
- 238000013528 artificial neural network Methods 0.000 title description 7
- 238000000034 method Methods 0.000 claims abstract description 99
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 97
- 238000012545 processing Methods 0.000 claims abstract description 60
- 230000008569 process Effects 0.000 claims abstract description 44
- 230000003287 optical effect Effects 0.000 claims abstract description 14
- 239000002773 nucleotide Substances 0.000 claims description 49
- 125000003729 nucleotide group Chemical group 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 30
- 238000012993 chemical processing Methods 0.000 claims description 18
- 238000005562 fading Methods 0.000 claims description 16
- 239000000758 substrate Substances 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 13
- 230000006399 behavior Effects 0.000 claims description 12
- 230000000295 complement effect Effects 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 8
- 108020004635 Complementary DNA Proteins 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 description 28
- 238000010606 normalization Methods 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 15
- 210000004027 cell Anatomy 0.000 description 14
- 238000003860 storage Methods 0.000 description 14
- 238000005259 measurement Methods 0.000 description 13
- 108020004414 DNA Proteins 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000011176 pooling Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000003542 behavioural effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013442 quality metrics Methods 0.000 description 3
- 238000001712 DNA sequencing Methods 0.000 description 2
- 241000233855 Orchidaceae Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001311 chemical methods and process Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000002620 method output Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000005309 stochastic process Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000013024 troubleshooting Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 240000001436 Antirrhinum majus Species 0.000 description 1
- 229930091051 Arenine Natural products 0.000 description 1
- 241000995070 Nirvana Species 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000003917 human chromosome Anatomy 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2537/00—Reactions characterised by the reaction format or use of a specific feature
- C12Q2537/10—Reactions characterised by the reaction format or use of a specific feature the purpose or use of
- C12Q2537/165—Mathematical modelling, e.g. logarithm, ratio
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Organic Chemistry (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Analytical Chemistry (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
Abstract
Description
本PCT出願は、2018年1月5日出願の「PREDICTING QUALITY OF SEQUENCING RESULTS USING DEEP NEURAL NETWORKS」という名称の米国特許非仮出願第15/863,790号(整理番号ILLM1002-2/IP-1646-US)の優先権または利益を主張する。この優先権出願は、あらゆる目的の参照により本明細書に組み込まれる。
ベースコールのクオリティは、DNAまたはRNA分子のヌクレオチドをシーケンシングすることにおける成功の尺度である。合成時解読法(SBS)はシーケンシングの1つの技法であり、相補的ヌクレオチドを1度に1つずつ、シーケンシングされるべきDNAからのヌクレオチド配列断片に付加することを含む。SBSを用いる光学プラットフォームは、分子と呼ばれることがあるヌクレオチド配列断片の数十億のクラスタを、各レーンにタイルがある複数のレーンに配置された単一のスライドまたはフローセル上でシーケンシングすることができる。分子クラスタは、分子のクローンを提示する。分子をクローニングすることにより、SBS中に生成される信号を増幅する。
拡張光学ベースコーリング処理中の、ベースコーリングクオリティの早期予測のためのシステムについて説明する。DNA分子には4種類のヌクレオチド、すなわち、アデニン(A)、シトシン(C)、グアニン(G)、およびチミン(T)がある。ベースコーリングとは、シーケンシングランの1つのサイクルでDNA分子のクラスタごとにヌクレオチド塩基(A、C、G、T)を決定する処理のことを言う。このシステムについて、一実施態様によるシステムのアーキテクチャレベルの概略図を示す図1を参照して説明する。図1はアーキテクチャ図であるので、いくつかの細部が、説明の明確さを改善するために意図的に省略されている。図1についての議論は、以下のように系統立てられている。最初に、図の要素について説明し、その後にこれらの相互接続について説明する。次に、システムの要素の使用についてさらに詳細に説明する。
図2は、専用シーケンシングシステム200のシーケンシングランのサイクルごとにシーケンシングクオリティデータベース115に記憶される、シーケンシングクオリティメトリクス213を示す。図2は、いくつかの例示的なサブシステム動作メトリクスを高い抽象化の程度で列挙している。これらのメトリクスには、化学処理サブシステム動作データ116、画像位置決めサブシステム動作データ117、および画像取得サブシステム動作データ118が含まれる。サイクルごとの総合ベースコーリングクオリティデータ119もまた、機械学習システムへの入力として与えられる。図2には、シーケンシングランのリードの「n」回のシーケンシングサイクルについてのサブシステム動作データ116、117、および118が説明の目的で示されている。リードのサイクルの総数が「3n」と示されている。シーケンシングランのリードにおいて、最初の「n」回のシーケンシングサイクルは、前予測サイクルであり、後に続く「2n」回のサイクルは後予測サイクルである。
図3は、図1のクオリティ予測畳み込みニューラルネットワーク(CNN)300の層を示す。図3は、2つの畳み込み層がある実施態様である。このネットワークは、1つから5つの畳み込み層を有することができる。別の実施態様では、このネットワークは5つよりも多い畳み込み層を有することができる。畳み込みの出力を分析する1つの方法は、完全接続(FC)ネットワークによるものである。したがって、畳み込み層の出力は、クオリティ予測CNNの最後の層においてFCネットワークに与えられる。完全接続層は、2〜5層を有する多層パーセプトロンとして実現することができる。FCネットワークからの1つの出力を使用して、リードの後予測サイクルの特定の目的サイクルにおいて予想される有望な総合ベースコーリングクオリティを予測することができる。システムのこのような実施態様では、別個の機械学習システムが、各目的サイクルにおいて予想される有望な総合ベースコーリングクオリティを予測するために訓練される。機械学習システムの代替実施態様では、FCネットワークからの複数の出力を使用して、複数の後予測目的サイクルにおいて予想される総合ベースコーリングクオリティを予測することができる。
図5は、化学処理サブシステム動作116、画像位置決めサブシステム動作117、画像取得サブシステム動作118および総合ベースコーリングクオリティ119の例示的なデータ500を示す。データは、サブシステムごとの動作測定結果に従って構成される。たとえば、化学処理サブシステム動作データ116はフェージングおよびプリフェージングの測定結果を含む。同様に、画像位置決めサブシステム動作データ117は、平行移動xおよび平行移動yの測定結果を含む。画像取得サブシステム動作データ118は、強度、最大コントラスト、最小コントラストおよびフォーカススコアの測定結果を含む。総合ベースコーリングクオリティデータ119は、Q30クオリティ測定結果を超えるベースコールの百分率を示す。システムの1つの実施態様では、Illumina Inc.のHiSeqX、HiSeq3000およびHiSeq4000シーケンシング装置による23000回のシーケンシングランの上述のデータが、クオリティ予測畳み込みニューラルネットワーク171を訓練するために使用される。
図6は、シーケンシングシステムにおける例示的なシーケンシングランの平均総合ベースコーリングクオリティ結果(Q30)を示すグラフ600を含む。シーケンシングランは、ペアエンドリード、すなわちリード1およびリード2を含む。各リードは、150回のシーケンシングサイクルに対応する150回のベースコールを含み、このサイクルでは1個の相補的ヌクレオチドがフローセル上のタイルに配置されたクラスタの分子に付けられる。2つのリードが、インデックスリードによって分けられる。一部のシーケンシングランでは、複数の供給源DNA試料の分子が一緒にシーケンシングされる。インデックスリードは、特有の供給源DNA試料に属するシーケンシングデータを特定するために用いられる。
図9は、1つの実施態様による、クオリティ予測畳み込みニューラルネットワーク(CNN)の訓練および生成配備900の概略図911および961を提示する。訓練中、訓練データベース161からのサブシステムの動作データおよび総合ベースコーリングクオリティスコアは、クオリティ予測CNN 171に入力として与えられる。各クオリティ予測CNNは、1つのチャネルを有する入力のための図3に示された複数の層、および4つのチャネルを有する入力のための図4に示された複数の層を含む。1つの実施態様では、別のクオリティ予測CNNが特定の入力(すなわち、サブシステム動作時系列および総合ベースコーリングクオリティ時系列)に対して訓練される。別の実施態様では、単一のクオリティ予測CNNがすべての入力に対して訓練される。1つの実施態様では、クオリティ予測CNNの出力は、シーケンシングランのリードにおける目的サイクルの有望な総合ベースコーリングクオリティである。この出力は、目的サイクルのグランドトゥルースベースコーリングクオリティと比較される。1つの実施態様では、グランドトゥルースは、上で論じたリードの10サイクルの平均ベースコーリングクオリティである。出力とグランドトゥルースの間で計算された予測エラーは、クオリティ予測CNNの重みを、重みにより出力がグランドトゥルースに近くなるように更新するために用いられる。
図10は、コンピュータシステム1000の簡略化ブロック図を示し、このシステムを使用して、拡張光学ベースコーリング処理の間にベースコーリングクオリティを早期に予測するための、図1の機械学習システム151を実現することができる。同様のコンピュータシステム1000により、生成または推測のための機械学習システム159を実現することができる。コンピュータシステム1000は、バスサブシステム1055を介していくつかの周辺デバイスと通信する、少なくとも1つの中央処理ユニット(CPU)1072を含む。これらの周辺デバイスは、たとえばメモリデバイスおよびファイル記憶サブシステム1036を含む記憶サブシステム1010、ユーザインターフェース入力デバイス1038、ユーザインターフェース出力デバイス1076、ならびにネットワークインターフェースサブシステム1074を含むことができる。入力デバイスおよび出力デバイスにより、コンピュータシステム1000とのユーザ対話が可能になる。ネットワークインターフェースサブシステム1074が、他のコンピュータシステムの対応するインターフェースデバイスとのインターフェースを含む、外部ネットワークとのインターフェースを提供する。
開示された技術は、拡張光学ベースコーリング処理中にベースコーリングクオリティを早期に予測することに関する。
111 シーケンシングシステム、シーケンシング機器
115 シーケンシングクオリティデータベース
116 化学処理サブシステム動作データ
117 画像位置決めサブシステム動作データ
118 画像取得サブシステム動作データ
119 総合ベースコーリングクオリティデータ
151 訓練モードの機械学習システム
159 生成モードの機械学習システム
161 訓練データ
162 検証データ
163 試験データ
165 オペレータ
169 生成データベース
171 クオリティ予測畳み込みニューラルネットワーク
200 専用シーケンシングシステム
213 シーケンシングクオリティメトリクス
219 シーケンシングクオリティデータ
311 1つの次元を有する1つの値から成る各入力値を有する25個の入力
321 バッチ正規化層
331 畳み込み層
341 第1の畳み込みの出力
343 最大プール層
347 バッチ正規化層
351 畳み込み層
361 第2の畳み込み層の出力
363 最大プール層
365 バッチ正規化層
400 クオリティ予測畳み込みニューラルネットワーク(CNN)
411 入力
421 バッチ正規化
431 パディングされた畳み込み
443 出力
445 最大プール
449 バッチ正規化
451 パディングされた畳み込み
461 出力
463 最大プール
465 バッチ正規化
467 加算層
471 第1の完全接続(FC)ネットワーク
481 第2の完全接続(FC)ネットワーク
491 出力
811 グラフ
821 破線
861 グラフ
865 グラフ
900 訓練および生成配備
911 概略図
961 概略図
Claims (15)
- 拡張光学ベースコーリング処理中に少なくとも1つの目的サイクルにおけるベースコーリングクオリティを早期予測する、コンピュータによって実施される方法であって、前記拡張光学ベースコーリング処理が、予測点の前の前予測ベースコーリング処理サイクルと、前記予測点の後ろであり前記目的サイクルを経由する、前予測サイクルの少なくとも2倍ある後予測ベースコーリング処理サイクルとを含み、各ベースコーリング処理サイクルが、(a)付加的な相補的ヌクレオチドを基板の数百万の位置の目的ヌクレオチド鎖に付けるための化学処理、(b)前記基板の画像タイル上でのカメラ位置付けおよび画像位置決め、ならびに(c)前記画像タイル上での画像取得を含み、前記方法が、
訓練された畳み込みニューラルネットワークを呼び出すステップを含み、前記訓練された畳み込みニューラルネットワークが、前記前予測ベースコーリング処理サイクルと1つまたは複数の後予測目的サイクルとの複数の訓練時系列を含む、訓練ラベルのグランドトゥルースとして使用されるベースコーリングクオリティデータを使用して訓練されたものであり、前記複数の時系列が、
フェージングエラーおよびプリフェージングエラーなどの、化学処理サブシステム動作、
画像取り込み後のxおよびy画像オフセット調整などの、画像位置決めサブシステム動作、
フォーカスおよびコントラストの報告などの、画像取得サブシステム動作系列、および
Phredスコアなどの、サイクルごとのベースコーリングクオリティ推定値
についての時系列データを含み、
前記方法がさらに、前記前予測ベースコーリング処理サイクルからの複数の生成時系列を前記訓練された畳み込みニューラルネットワークに入力するステップを含み、
前記訓練された畳み込みニューラルネットワークが、前記前予測ベースコーリング処理サイクルからサイクルnの後の前記予測点において、前予測サイクルの少なくとも2倍ある後予測ベースコーリング処理サイクルの後に、前記目的サイクルにおいて予想されるベースコーリングクオリティを決定し、
前記方法がさらに、サイクル3n以降の前記目的サイクルにおいて予想される少なくとも前記ベースコーリングクオリティを、オペレータが評価するために出力するステップを含む、コンピュータによって実施される方法。 - 化学処理動作が、フェージングエラーおよびプリフェージングエラーの推定値によって前記化学処理サブシステム動作時系列に示される、請求項1に記載のコンピュータによって実施される方法。
- 前記画像位置決め動作が、画像取り込み後のxおよびy画像オフセット調整の報告によって前記画像位置決めサブシステム動作時系列に示される、請求項1または2に記載のコンピュータによって実施される方法。
- 前記画像取得動作が、フォーカスおよびコントラストの報告によって前記画像取得サブシステム動作時系列に示される、請求項1から3のいずれか一項に記載のコンピュータによって実施される方法。
- 前記フォーカスが、クラスタ画像の個々のクラスタの半値全幅の狭さによって示される、請求項4に記載のコンピュータによって実施される方法。
- 前記コントラストが、前記画像の列のチャネルごとに10番目の百分位数として計算された最小コントラストを含む、請求項4に記載のコンピュータによって実施される方法。
- 前記コントラストが、前記画像の列のチャネルごとに99.5番目の百分位数として計算された最大コントラストを含む、請求項4に記載のコンピュータによって実施される方法。
- 前記画像取得動作がさらに、クラスタ強度の画像取得サブシステム動作時系列報告を含む、請求項4に記載のコンピュータによって実施される方法。
- 前記クラスタ強度が、画像クラスタの強度の90番目の百分位数で報告される、請求項8に記載のコンピュータによって実施される方法。
- 前記ベースコーリング処理が、前予測サイクルの3〜25倍の後予測ベースコーリング処理サイクルを含む、請求項1から9のいずれか一項に記載のコンピュータによって実施される方法。
- 前記ベースコーリング処理が、前予測サイクルの2〜50倍の後予測ベースコーリング処理サイクルを含む、請求項1から9のいずれか一項に記載のコンピュータによって実施される方法。
- 前記ベースコーリング処理が、20〜50回の前予測ベースコーリング処理サイクルを含む、請求項1から9のいずれか一項に記載のコンピュータによって実施される方法。
- 前記ベースコーリング処理が、100〜500回の後予測ベースコーリング処理サイクルを含む、請求項1から9のいずれか一項に記載のコンピュータによって実施される方法。
- 前記前予測ベースコーリング処理サイクルから、少なくとも5回の中間サイクル数についての有望な総合ベースコーリングクオリティを前記後予測ベースコーリング処理サイクルの間に決定するステップと、前記中間の有望な総合ベースコーリングクオリティ決定を出力するステップとをさらに含む、請求項1に記載のコンピュータによって実施される方法。
- メモリに結合された1つまたは複数のプロセッサを含むシステムであって、前記メモリに、拡張光学ベースコーリング処理中に少なくとも1つの目的サイクルにおけるベースコーリングクオリティの早期予測を行うためのコンピュータ命令がロードされており、前記拡張光学ベースコーリング処理が、予測点の前の前予測ベースコーリング処理サイクルと、前記予測点の後ろであり前記目的サイクルを経由する、前予測サイクルの少なくとも2倍ある後予測ベースコーリング処理サイクルとを含み、各ベースコーリング処理サイクルが、(a)付加的な相補的ヌクレオチドを基板の数百万の位置の目的ヌクレオチド鎖に付けるための化学処理、(b)前記基板の画像タイル上でのカメラ位置付けおよび画像位置決め、ならびに(c)前記画像タイル上での画像取得を含み、前記システムが、
訓練された畳み込みニューラルネットワークを呼び出す動作を実施し、前記訓練された畳み込みニューラルネットワークが、前記前予測ベースコーリング処理サイクルと1つまたは複数の後予測目的サイクルとの複数の訓練時系列を前記予測点の前後に含む、訓練ラベルのグランドトゥルースとして使用されるベースコーリングクオリティデータを使用して訓練されたものであり、前記複数の時系列が、
フェージングエラーおよびプリフェージングエラーなどの、化学処理サブシステム動作、
画像取り込み後のxおよびy画像オフセット調整などの、画像位置決めサブシステム動作、
フォーカスおよびコントラストの報告などの、画像取得サブシステム動作系列、および
Phredスコアなどの、サイクルごとのベースコーリングクオリティ推定値
についての時系列データを含み、
前記システムがさらに、前記前予測ベースコーリング処理サイクルからの複数の生成時系列を前記訓練された畳み込みニューラルネットワークに入力する動作を実施し、
前記訓練された畳み込みニューラルネットワークが、前記前予測ベースコーリング処理サイクルからサイクルnの後の前記予測点において、前予測サイクルの少なくとも2倍ある後予測ベースコーリング処理サイクルの後に、前記目的サイクルにおいて予想されるベースコーリングクオリティを決定し、
前記システムがさらに、サイクル3n以降の前記目的サイクルにおいて予想される少なくとも前記ベースコーリングクオリティを、オペレータが評価するために出力する動作を実施する、システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/863,790 | 2018-01-05 | ||
US15/863,790 US11288576B2 (en) | 2018-01-05 | 2018-01-05 | Predicting quality of sequencing results using deep neural networks |
PCT/US2019/012398 WO2019136284A1 (en) | 2018-01-05 | 2019-01-04 | Predicting quality of sequencing results using deep neural networks |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020525890A true JP2020525890A (ja) | 2020-08-27 |
JP6978519B2 JP6978519B2 (ja) | 2021-12-08 |
Family
ID=65433728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019567671A Active JP6978519B2 (ja) | 2018-01-05 | 2019-01-04 | ディープニューラルネットワークを使用したシーケンシング結果のクオリティの予測 |
Country Status (11)
Country | Link |
---|---|
US (1) | US11288576B2 (ja) |
EP (1) | EP3619711B1 (ja) |
JP (1) | JP6978519B2 (ja) |
KR (1) | KR102216898B1 (ja) |
CN (1) | CN110785814B (ja) |
AU (1) | AU2019205311B2 (ja) |
CA (1) | CA3065927A1 (ja) |
IL (1) | IL271103B (ja) |
NZ (1) | NZ759639A (ja) |
SG (1) | SG11201911754TA (ja) |
WO (1) | WO2019136284A1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11861491B2 (en) | 2017-10-16 | 2024-01-02 | Illumina, Inc. | Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs) |
CN113627458A (zh) | 2017-10-16 | 2021-11-09 | 因美纳有限公司 | 基于循环神经网络的变体致病性分类器 |
US11334790B1 (en) * | 2018-03-02 | 2022-05-17 | Supplypike, Llc | System and method for recurrent neural networks for forecasting of consumer goods' sales and inventory |
NL2023312B1 (en) * | 2019-03-21 | 2020-09-28 | Illumina Inc | Artificial intelligence-based base calling |
US11210554B2 (en) | 2019-03-21 | 2021-12-28 | Illumina, Inc. | Artificial intelligence-based generation of sequencing metadata |
NL2023310B1 (en) * | 2019-03-21 | 2020-09-28 | Illumina Inc | Training data generation for artificial intelligence-based sequencing |
NL2023311B9 (en) * | 2019-03-21 | 2021-03-12 | Illumina Inc | Artificial intelligence-based generation of sequencing metadata |
NL2023316B1 (en) * | 2019-03-21 | 2020-09-28 | Illumina Inc | Artificial intelligence-based sequencing |
NL2023314B1 (en) * | 2019-03-21 | 2020-09-28 | Illumina Inc | Artificial intelligence-based quality scoring |
US11783917B2 (en) | 2019-03-21 | 2023-10-10 | Illumina, Inc. | Artificial intelligence-based base calling |
WO2020191387A1 (en) * | 2019-03-21 | 2020-09-24 | Illumina, Inc. | Artificial intelligence-based base calling |
US11593649B2 (en) * | 2019-05-16 | 2023-02-28 | Illumina, Inc. | Base calling using convolutions |
US11562203B2 (en) | 2019-12-30 | 2023-01-24 | Servicenow Canada Inc. | Method of and server for training a machine learning algorithm for estimating uncertainty of a sequence of models |
WO2021137100A1 (en) * | 2019-12-30 | 2021-07-08 | Element Ai Inc. | Method of and server for training a machine learning algorithm for estimating uncertainty of a sequence of models |
IL295560A (en) | 2020-02-20 | 2022-10-01 | Illumina Inc | An artificial intelligence-based many-to-many base reader |
US20230178180A1 (en) * | 2020-05-12 | 2023-06-08 | Hitachi High-Tech Corporation | Nucleic acid analyzer, nucleic acid analysis method, and machine learning method |
US11195080B1 (en) * | 2021-03-29 | 2021-12-07 | SambaNova Systems, Inc. | Lossless tiling in convolution networks—tiling configuration |
WO2022212179A1 (en) * | 2021-04-01 | 2022-10-06 | Illumina, Inc. | Systems and methods for identifying subcomponent failure in sequencing instruments |
US20220336054A1 (en) | 2021-04-15 | 2022-10-20 | Illumina, Inc. | Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures |
WO2023097685A1 (zh) * | 2021-12-03 | 2023-06-08 | 深圳华大生命科学研究院 | 核酸样本的碱基识别方法及装置 |
WO2024007190A1 (en) * | 2022-07-06 | 2024-01-11 | GeneSense Technology Inc. | Methods and systems for enhancing nucleic acid sequencing quality in high-throughput sequencing processes with machine learning |
CN115602245B (zh) * | 2022-09-09 | 2023-10-03 | 郑州思昆生物工程有限公司 | 一种荧光图筛选的方法、装置、设备以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004501415A (ja) * | 2000-02-07 | 2004-01-15 | フィジオム・サイエンスィズ・インコーポレーテッド | 遺伝子、生化学、生物物理、及び解剖学的な情報のシステム及び方法:insilico細胞 |
US20110256631A1 (en) * | 2007-06-06 | 2011-10-20 | Pacific Biosciences Of California, Inc. | Methods and processes for calling bases in sequence by incorporation methods |
US20150169824A1 (en) * | 2013-12-16 | 2015-06-18 | Complete Genomics, Inc. | Basecaller for dna sequencing using machine learning |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3811086A1 (de) | 1987-04-03 | 1988-10-20 | Hitachi Ltd | Pid-reglersystem |
US5365455A (en) | 1991-09-20 | 1994-11-15 | Vanderbilt University | Method and apparatus for automatic nucleic acid sequence determination |
EP0658004A3 (en) | 1993-12-07 | 1996-05-01 | Meidensha Electric Mfg Co Ltd | Crystal oscillator digitally compensated in temperature. |
US6951998B2 (en) | 2000-04-14 | 2005-10-04 | Omron Corporation | Controller, temperature regulator and heat treatment apparatus |
EP1423816A2 (en) * | 2000-08-14 | 2004-06-02 | Incyte Genomics, Inc. | Basecalling system and protocol |
US7669777B2 (en) | 2001-05-07 | 2010-03-02 | Automated Logic Corporation | Slope predictive control and digital PID control for a variable temperature control system |
US7773127B2 (en) | 2006-10-13 | 2010-08-10 | Apple Inc. | System and method for RAW image processing |
WO2009078939A1 (en) * | 2007-12-17 | 2009-06-25 | Brown University | Methods for identifying nucleotide ligands |
CN100562825C (zh) | 2008-08-22 | 2009-11-25 | 唐山学院 | 机械设备故障在线诊断装置及方法 |
US8392126B2 (en) | 2008-10-03 | 2013-03-05 | Illumina, Inc. | Method and system for determining the accuracy of DNA base identifications |
US20100157086A1 (en) | 2008-12-15 | 2010-06-24 | Illumina, Inc | Dynamic autofocus method and system for assay imager |
US8965076B2 (en) * | 2010-01-13 | 2015-02-24 | Illumina, Inc. | Data processing system and methods |
JP5604945B2 (ja) | 2010-04-06 | 2014-10-15 | 新日鐵住金株式会社 | 品質予測装置、品質予測方法、コンピュータプログラム、およびコンピュータ読み取り可能な記録媒体 |
JP5488140B2 (ja) | 2010-04-06 | 2014-05-14 | 新日鐵住金株式会社 | 品質予測装置、品質予測方法、コンピュータプログラム、およびコンピュータ読み取り可能な記録媒体 |
SG184539A1 (en) | 2010-04-09 | 2012-11-29 | Life Technologies Corp | Improved thermal uniformity for thermal cycler instrumentation using dynamic control |
US10241075B2 (en) * | 2010-12-30 | 2019-03-26 | Life Technologies Corporation | Methods, systems, and computer readable media for nucleic acid sequencing |
US20130090860A1 (en) * | 2010-12-30 | 2013-04-11 | Life Technologies Corporation | Methods, systems, and computer readable media for making base calls in nucleic acid sequencing |
CA2849023C (en) * | 2011-09-15 | 2022-07-19 | David A. Shafer | Probe:antiprobe compositions for high specificity dna or rna detection |
JP6193252B2 (ja) | 2011-12-01 | 2017-09-06 | ジナプシス インコーポレイテッド | 高効率電子配列決定及び検出のためのシステム並びに方法 |
US9444880B2 (en) | 2012-04-11 | 2016-09-13 | Illumina, Inc. | Cloud computing environment for biological data |
JP2013248860A (ja) | 2012-06-04 | 2013-12-12 | Canon Inc | インクジェット記録装置 |
WO2014075296A1 (zh) | 2012-11-16 | 2014-05-22 | 深圳华大基因科技服务有限公司 | 核酸测序方法、系统及质控方法、系统 |
US9805407B2 (en) | 2013-01-25 | 2017-10-31 | Illumina, Inc. | Methods and systems for using a cloud computing environment to configure and sell a biological sample preparation cartridge and share related data |
US20140301447A1 (en) * | 2013-04-08 | 2014-10-09 | Research In Motion Limited | Methods for reconstructing an encoded video at a bit-depth lower than at which it was encoded |
US20140316716A1 (en) * | 2013-04-19 | 2014-10-23 | Life Technologies Corporation | Methods, Systems, and Computer Readable Media for Improving Base Calling Accuracy |
US10540783B2 (en) | 2013-11-01 | 2020-01-21 | Illumina, Inc. | Image analysis useful for patterned objects |
CN105874460B (zh) * | 2013-11-01 | 2018-10-02 | 精赛恩公司 | 识别靶序列的至少一个碱基的方法、可读介质及设备 |
RS60736B1 (sr) | 2013-12-03 | 2020-09-30 | Illumina Inc | Postupci i sistemi za analizu podataka sa slika |
WO2015190249A1 (ja) | 2014-06-13 | 2015-12-17 | 株式会社 日立ハイテクノロジーズ | 核酸分析装置、および核酸分析装置の装置診断方法 |
WO2016011563A1 (en) * | 2014-07-25 | 2016-01-28 | Ontario Institute For Cancer Research | System and method for process control of gene sequencing |
WO2016065299A2 (en) | 2014-10-24 | 2016-04-28 | Eshoo Mark W | Ultrasonics for microfluidic sample preparation |
CN104566863A (zh) | 2014-12-30 | 2015-04-29 | 海信科龙电器股份有限公司 | 一种检测冷媒泄漏的方法及空调 |
US20160358099A1 (en) * | 2015-06-04 | 2016-12-08 | The Boeing Company | Advanced analytical infrastructure for machine learning |
CN105420096B (zh) | 2015-12-02 | 2017-06-23 | 北京中科紫鑫科技有限责任公司 | 一种基于反应温度调整的dna图像采集测序系统 |
WO2017207822A1 (en) | 2016-06-03 | 2017-12-07 | Lonza Limited | Single use bioreactor |
WO2018129314A1 (en) | 2017-01-06 | 2018-07-12 | Illumina, Inc. | Phasing correction |
EP3592865A1 (en) | 2017-03-07 | 2020-01-15 | Illumina, Inc. | Single light source, two-optical channel sequencing |
CN107220980B (zh) * | 2017-05-25 | 2019-12-03 | 重庆师范大学 | 一种基于全卷积网络的mri图像脑肿瘤自动分割方法 |
-
2018
- 2018-01-05 US US15/863,790 patent/US11288576B2/en active Active
-
2019
- 2019-01-04 WO PCT/US2019/012398 patent/WO2019136284A1/en active Search and Examination
- 2019-01-04 CN CN201980003115.7A patent/CN110785814B/zh active Active
- 2019-01-04 NZ NZ759639A patent/NZ759639A/en unknown
- 2019-01-04 SG SG11201911754TA patent/SG11201911754TA/en unknown
- 2019-01-04 KR KR1020197036281A patent/KR102216898B1/ko active IP Right Grant
- 2019-01-04 EP EP19705419.0A patent/EP3619711B1/en active Active
- 2019-01-04 CA CA3065927A patent/CA3065927A1/en active Pending
- 2019-01-04 AU AU2019205311A patent/AU2019205311B2/en active Active
- 2019-01-04 JP JP2019567671A patent/JP6978519B2/ja active Active
- 2019-12-02 IL IL271103A patent/IL271103B/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004501415A (ja) * | 2000-02-07 | 2004-01-15 | フィジオム・サイエンスィズ・インコーポレーテッド | 遺伝子、生化学、生物物理、及び解剖学的な情報のシステム及び方法:insilico細胞 |
US20110256631A1 (en) * | 2007-06-06 | 2011-10-20 | Pacific Biosciences Of California, Inc. | Methods and processes for calling bases in sequence by incorporation methods |
US20150169824A1 (en) * | 2013-12-16 | 2015-06-18 | Complete Genomics, Inc. | Basecaller for dna sequencing using machine learning |
Non-Patent Citations (1)
Title |
---|
SEQUENCING QUALITY CONTROL[ONLINE], JPN6021040139, 6 July 2017 (2017-07-06), ISSN: 0004617008 * |
Also Published As
Publication number | Publication date |
---|---|
EP3619711A1 (en) | 2020-03-11 |
IL271103B (en) | 2021-01-31 |
CN110785814A (zh) | 2020-02-11 |
IL271103A (en) | 2020-01-30 |
JP6978519B2 (ja) | 2021-12-08 |
KR102216898B1 (ko) | 2021-02-17 |
CA3065927A1 (en) | 2019-07-11 |
AU2019205311A1 (en) | 2019-12-19 |
WO2019136284A1 (en) | 2019-07-11 |
AU2019205311B2 (en) | 2021-08-26 |
CN110785814B (zh) | 2024-07-12 |
EP3619711B1 (en) | 2021-07-07 |
SG11201911754TA (en) | 2020-01-30 |
KR20200013684A (ko) | 2020-02-07 |
NZ759639A (en) | 2022-05-27 |
US11288576B2 (en) | 2022-03-29 |
US20190213473A1 (en) | 2019-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6978519B2 (ja) | ディープニューラルネットワークを使用したシーケンシング結果のクオリティの予測 | |
KR102416048B1 (ko) | 변이체 분류를 위한 심층 컨볼루션 신경망 | |
AU2021269351B2 (en) | Deep learning-based techniques for pre-training deep convolutional neural networks | |
US10068053B2 (en) | Basecaller for DNA sequencing using machine learning | |
US20210265015A1 (en) | Hardware Execution and Acceleration of Artificial Intelligence-Based Base Caller | |
US11749380B2 (en) | Artificial intelligence-based many-to-many base calling | |
CA3064223A1 (en) | Deep learning-based techniques for pre-training deep convolutional neural networks | |
JP2023535285A (ja) | 変異体病原性スコアリング及び分類、並びにそれらの使用 | |
US20230316054A1 (en) | Machine learning modeling of probe intensity | |
US20230005253A1 (en) | Efficient artificial intelligence-based base calling of index sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6978519 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |