JP2021534492A - 生殖細胞系列および体細胞変異の呼び出しのためにニューラルネットワークを使用するシステムおよび方法 - Google Patents

生殖細胞系列および体細胞変異の呼び出しのためにニューラルネットワークを使用するシステムおよび方法 Download PDF

Info

Publication number
JP2021534492A
JP2021534492A JP2021507667A JP2021507667A JP2021534492A JP 2021534492 A JP2021534492 A JP 2021534492A JP 2021507667 A JP2021507667 A JP 2021507667A JP 2021507667 A JP2021507667 A JP 2021507667A JP 2021534492 A JP2021534492 A JP 2021534492A
Authority
JP
Japan
Prior art keywords
tumor
mutation
sequence
data
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021507667A
Other languages
English (en)
Inventor
ラム,ヒューゴ・ワイ・ケイ
モヒユディン,マーグフーブ
サーラエイアン,ムハンマド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Original Assignee
F Hoffmann La Roche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US201862718338P priority Critical
Priority to US62/718,338 priority
Priority to US201962855541P priority
Priority to US62/855,541 priority
Application filed by F Hoffmann La Roche AG filed Critical F Hoffmann La Roche AG
Priority to PCT/EP2019/071580 priority patent/WO2020035446A1/en
Publication of JP2021534492A publication Critical patent/JP2021534492A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Computing arrangements based on biological models using neural network models
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Abstract

本開示は、畳み込みニューラルネットワークなどのニューラルネットワークを利用して、シーケンサによって生成されたゲノム配列データを分析し、配列データ内の生殖細胞系列および/または体細胞変異を特定および記述する正確な予測データを生成するシステムおよび方法を提供する。

Description

関連出願の相互参照
本特許出願は、2018年8月13日出願の米国仮特許出願第62/718,338号および2019年5月31日出願の米国仮特許出願第62/855,541号の利益を主張するものであり、これらはそれぞれ、参照によりその全体が本明細書に組み込まれる。
参照による組み込み
本明細書で述べられる全ての刊行物および特許出願は、それぞれの個々の刊行物または特許出願が参照によって組み込まれることが具体的かつ個別に示されるかのように同程度に参照によってそれらの全体が本明細書に組み込まれる。
本発明の実施形態は、一般に、変異呼び出しのためのシステムおよび方法、より具体的には、変異呼び出しのための機械学習アルゴリズムの使用に関する。
シーケンシングデータを使用して遺伝子変異を特定することは、癌を含む複数の疾患の診断、予後、および治療に影響を与えるバイオインフォマティクスの重要なタスクである。特に、シーケンシングデータの生成に使用されるシーケンシング技術が高いエラー率を有する場合(単一分子シーケンシング技術に共通)、または変異が低頻度で(これは特に癌の変異の場合にあてはまる)または複雑なゲノム領域で発生する場合、タスクは重要である。シーケンシングサンプルでの癌変異の頻度が低いのは、サンプルの汚染(腫瘍サンプルは、正常細胞からのDNAを含む場合があるため)または腫瘍の不均一性が原因である可能性がある。
従来のアプローチでは、特定の技術と検出する変異タイプに限定することで、問題の範囲を絞り込んでいる。したがって、変異が小さいか大きいかによってさらに階層化される、生殖細胞変異と癌変異を特定するための異なるツールとフレームワークのセットが存在する。さらに、低エラーシーケンシング技術(例えば、ショートリードシーケンシング)に使用されるアプローチは、高エラーシーケンシング技術(例えば、単一分子シーケンシング)に使用されるアプローチとは異なる。相違は、主にデータシグネチャと、エラーを真の変異と区別するために使用される統計モデルとに現れる。明示的なデータシグネチャと統計モデルとの使用は、複数の技術に対する従来のアプローチの一般化を制限する。さらにまた、従来のアプローチでさえも、サンプルの特定の特性をキャプチャするためのパラメータ調整を必要とし、これは、使用する技術、シーケンシングプロトコル、シーケンシングサンプル、サンプル純度などを含む多数の要因に依存する可能性がある。
深層学習は、適切なトレーニングデータが利用可能である限り、複数のデータ層を使用して、データシグネチャと統計モデルを暗黙的にキャプチャする機械学習技術である。これは、変異検出問題の一般化可能性の観点から、深層学習を潜在的に魅力的な解決策にする。生殖細胞変異を分類するためのいくつかの深層学習解決策が知られている。
Poplin,R.ら(「Creating a Universal SNP and Small Indel Variant Caller With Deep Neural Networks」、bioRxiv,092890(2016))は、候補変変異位置が最初にゲノムスキャンによって特定され、次に、候補変異のゲノムタイプを予測する畳み込みニューラルネットワーク(CNN)への入力としてそれぞれの特定された候補の周りに位置合わせされた読み取りのパイルアップ画像が提供される方法を提案している。そのようなアプローチは、複雑なニューラルネットワークアーキテクチャと大量のメモリを必要とするため、あまり実用的ではない。
Luo,R.ら(「Clairvoyante:a Multi−task Convolutional Deep Neural Network For Variant Calling In Single Molecule Sequencing」、bioRxiv,310458(2018))は、データ要約アプローチを使用し、これは、ゲノムをスキャンして候補変異部位を特定し、各候補位置の複数の入力行列である変異のタイプごとに1つの行列を準備する。Chin、J.(「Simple Convolutional Neural Network for Genomic Variant Calling with TensorFlow」、https://towardsdatascience.com/simple−convolution−neural−network−for−genomic−variant−calling−with−tensorflow−c085dbc2026f、2017年7月16日公開)には、同様の技術が記載されている。これらのアプローチはまた、ウィンドウ全体に挿入された全ての配列を明確に表すことができないため、最適ではない。例えば、Clairvoyanteシステムは、ウィンドウ内の他の位置での実際の/誤った挿入を無視して、変異位置での挿入のみをキャプチャする挿入イベント用の個別の入力行列を使用する。ウィンドウ全体の挿入配列の正確な位置に関する全体像の情報は、実際の挿入変異を背景ノイズから区別する上で重要になる可能性がある。
Torracinta,R.ら(「Adaptive somatic mutations calls with deep learning and semi−simulated data」、bioRxiv,79087(2016))は、手動で抽出された特徴のセットに6層の完全に接続されたニューラルネットワークを適用することを記載している。しかしながら、完全に接続された層のみを有するシステムは、候補変異のローカルゲノムコンテキストで見られるパターンを使用して生の配列データから直接特徴表現を学習する畳み込みニューラルネットワークによって提供されるパワーを活用することができない。さらに、完全に接続されたネットワークは、より複雑であるため、このアプローチは、CNNの使用によって可能にされる場合よりも低い一般化およびスケーラビリティが可能になる。
本発明は、一般に、変異呼び出しのためのシステムおよび方法、より具体的には、変異呼び出しのための機械学習アルゴリズムの使用に関する。
いくつかの実施形態では、生殖系列変異の呼び出しの方法が提供される。この方法は、参照配列、複数の配列読み取り、および配列読み取り内の候補変異の位置を取得することと、1つ以上の配列読み取りに1つ以上のスペースを挿入することにより、拡張配列読み取りを取得することと、参照配列に1つ以上のスペースを挿入することにより、拡張参照配列を取得することと、候補変異の周りの拡張配列読み取りのセグメントをサンプル行列に変換することと、候補変異の周りの拡張参照配列のセグメントを参照行列に変換することと、トレーニング済みニューラルネットワークにサンプル行列および参照行列を提供することと、トレーニング済みニューラルネットワークの出力において、複数の配列読み取り内の変異に関連する予測データを取得することと、を含むことができる。
いくつかの実施形態では、この方法は、さらに、複数の配列読み取り内の1つ以上の挿入塩基を検出することを含み、配列読み取りの拡張および参照配列は、以下を含む:配列読み取りのいずれかにおいて検出された各挿入塩基について、挿入塩基の位置において参照サンプルにスペースを挿入すること。
いくつかの実施形態では、この方法は、さらに、配列読み取りのいずれかにおいて検出された各挿入塩基について、挿入塩基の位置において挿入が検出されなかった全ての配列読み取りにおける挿入塩基の位置にスペースを挿入することを含む。
いくつかの実施形態では、サンプル行列は、4つのタイプのヌクレオチド塩基を表す少なくとも4つのラインを含み、各ラインは、拡張配列読み取りのセグメント内の異なる位置におけるそれぞれのヌクレオチド塩基タイプの塩基の数を表し、少なくとも1つのラインは、拡張配列読み取りのセグメント内の異なる位置に挿入されたスペースの数を表す。
いくつかの実施形態では、参照行列は、サンプル行列と同じ次元を有し、参照行列は、拡張参照配列内の異なるヌクレオチド塩基およびスペースの位置の完全な表現を提供する。
いくつかの実施形態では、トレーニング済みニューラルネットワークは、トレーニング済み畳み込みニューラルネットワークを含む。
いくつかの実施形態では、この方法は、さらに、トレーニング済みニューラルネットワークに、以下のうちの少なくとも1つを提供することを含む:拡張配列読み取りのセグメント内の候補変異の位置を表す変異位置行列、拡張配列読み取りのセグメントのカバレッジまたは深さを表すカバレッジ行列、拡張配列読み取りの位置合わせ特徴を表す位置合わせ特徴行列、1つ以上の変異に関する公に知られている情報を表す知識ベース行列。
いくつかの実施形態では、変異に関連する予測データは、以下のうちの少なくとも1つを含む:変異の予測タイプ、変異の予測位置、変異の予測長、変異の予測ゲノムタイプ。
いくつかの実施形態では、変異に関連する予測データは、変異の予測タイプを含み、ニューラルネットワークは、変異の予測タイプについて複数の値のうちの1つを生成するように構成され、複数の値は、以下を含む:変異が偽陽性である確率を示す第1の値、変異が単一ヌクレオチド多型変異である確率を示す第2の値、変異が削除変異である確率を示す第3の値、および変異が挿入変異である確率を示す第4の値。
いくつかの実施形態では、体細胞変異呼び出しのための方法が提供される。この方法は、複数の正常配列読み取りおよび複数の腫瘍配列読み取りを取得することと、正常配列読み取りのセグメントおよび腫瘍配列読み取りのセグメントを、それぞれ正常サンプル行列および腫瘍サンプル行列に変換することと、正常サンプル行列および腫瘍サンプル行列をトレーニング済み畳み込みニューラルネットワークに供給することと、トレーニング済み畳み込みニューラルネットワークの出力において、複数の腫瘍配列読み取り内の体細胞変異の予測タイプを取得することと、を含むことができる。
いくつかの実施形態では、複数の腫瘍配列読み取りは、患者の腫瘍サンプルの遺伝情報を表し、複数の正常配列読み取りは、患者の正常サンプルの遺伝情報を表す。
いくつかの実施形態では、正常配列読み取りのセグメントを正常サンプル行列に変換することは、1つ以上の正常配列読み取りに1つ以上のスペースを挿入することによって正常配列読み取りのセグメントを拡張することを含み、腫瘍配列読み取りのセグメントを腫瘍サンプル行列に変換することは、1つ以上の腫瘍配列読み取りに1つ以上のスペースを挿入することによって腫瘍配列読み取りのセグメントを拡張することを含む。
いくつかの実施形態では、腫瘍サンプル行列は、各ヌクレオチド塩基型について少なくとも1つのラインを含み、各ラインは、腫瘍配列読み取りのセグメント内の各位置でのそれぞれのヌクレオチド塩基型の出現数を表し、少なくとも1つのラインは、腫瘍配列読み取りのセグメント内の各位置に挿入されたスペースの数を表す。
いくつかの実施形態では、この方法は、さらに、トレーニング済み畳み込みニューラルネットワークに、複数の腫瘍配列読み取りおよび/または複数の正常配列読み取りを分析した1つ以上の他の変異呼び出し元から取得された1つ以上の特徴を表す1つ以上の行列を提供することを含む。
いくつかの実施形態では、この方法は、さらに、参照配列を取得することと、参照配列を参照行列に変換することと、正常サンプル行列および腫瘍サンプル行列とともに、参照行列をトレーニング済み畳み込み行列に供給することと、を含む。
いくつかの実施形態では、非一時的コンピュータ可読媒体は、コンピューティングシステムの1つ以上のプロセッサによって実行されると、コンピューティングシステムに、複数の正常配列読み取りおよび複数の腫瘍配列読み取りを取得することと、正常配列読み取りのセグメントおよび腫瘍配列読み取りのセグメントを、それぞれ正常サンプル行列および腫瘍サンプル行列に変換することと、正常サンプル行列および腫瘍サンプル行列をトレーニング済み畳み込みニューラルネットワークに供給することと、トレーニング済み畳み込みニューラルネットワークの出力において、複数の正常配列読み取り内の体細胞変異の予測タイプを取得することと、を含む動作を実行させる命令を含む。
いくつかの実施形態では、コンピューティングシステムは、1つ以上のプロセッサを含み、命令を記憶する1つ以上の非一時的コンピュータ可読メモリに結合され、命令は、コンピューティングシステムによって実行されると、コンピューティングシステムに、複数の腫瘍配列読み取りを取得することと、1つ以上の腫瘍配列読み取りに1つ以上のスペースを挿入することによって拡張腫瘍配列読み取りを取得することと、腫瘍配列読み取りのセグメントを腫瘍サンプル行列に変換することと、正常サンプル行列および腫瘍サンプル行列をトレーニング済みニューラルネットワークに供給することと、トレーニング済みニューラルネットワークの出力において、複数の腫瘍配列読み取り内の体細胞変異の予測タイプを取得することと、を含む動作を実行させる。
いくつかの実施形態では、変異呼び出しのための方法が提供される。この方法は、参照配列および複数の配列読み取りを取得することと、取得された複数の配列読み取りおよび参照配列が既に位置合わせされた構成で取得されない限り、必要に応じて、複数の配列読み取りと参照配列との第1の位置合わせを実行することと、位置合わせされた配列読み取りおよび参照配列から候補変異位置を特定することと、複数の配列読み取りと参照配列との第2の位置合わせを達成するために、候補変異位置の周りの配列読み取りおよび/または参照配列を拡張することと、拡張参照配列から候補変異位置の参照行列を生成し、複数の拡張配列読み取りから候補変異位置のサンプル行列を生成することと、参照行列およびサンプル行列をニューラルネットワークに入力することと、ニューラルネットワークを使用して、変異タイプが候補変異位置に存在するかどうかを判定することと、を含むことができる。
いくつかの実施形態では、配列読み取りおよび/または参照配列を拡張するステップは、配列読み取りにおける挿入および/または欠失を構成するために、配列読み取りおよび/または参照配列に1つ以上のスペースを導入することを含む。
いくつかの実施形態では、この方法は、さらに、トレーニングデータセットから複数のトレーニング行列を生成することであって、トレーニング行列が、サンプル行列および参照行列に対応する構造を有し、トレーニングデータセットが、複数の変異を含む配列データを含み、変異が、単一ヌクレオチド変異、挿入、および欠失を含む、生成することと、複数のトレーニング行列を使用してニューラルネットワークをトレーニングすることと、を含む。
いくつかの実施形態では、トレーニングデータセットは、複数のサブセットを含み、各サブセットは、0%から100%の範囲の腫瘍純度レベルを含み、サブセットの少なくとも2つは、それぞれ異なる腫瘍純度レベルを有する。
いくつかの実施形態では、サブセットのうちの少なくとも3つは、それぞれ異なる腫瘍純度レベルを有する。
いくつかの実施形態では、複数のサブセットは、腫瘍純度レベルが約30%未満の第1のサブセット、腫瘍純度レベルが約30%から70%の第2のサブセット、および第3の腫瘍純度レベルが少なくとも約70%の第3のサブセットを含む。
いくつかの実施形態では、複数のサブセットは、腫瘍純度レベルが約40%未満の第1のサブセット、腫瘍純度レベルが約40%から60%の第2のサブセット、および腫瘍純度レベルが少なくとも約60%の第3のサブセットを含む。
いくつかの実施形態では、複数のサブセットは、腫瘍純度レベルが約10%未満のサブセットを含む。
いくつかの実施形態では、複数のサブセットは、腫瘍純度レベルが約5%未満のサブセットを含む。
いくつかの実施形態では、トレーニングデータセットは、合成データを含む。
いくつかの実施形態では、合成データは、人工的に生成された変異を含み、人工的に生成された変異は、単一ヌクレオチド変異、挿入、および欠失を含む。
いくつかの実施形態では、トレーニングデータセットは、実際のデータを含み、実際のデータは、実際の変異を含み、実際の変異は、単一ヌクレオチド変異、挿入、および欠失を含む。
いくつかの実施形態では、トレーニングデータセットは、複数のサブセットを含み、各サブセットは、0%から100%の範囲の変異対立遺伝子頻度を含み、サブセットのうちの少なくとも2つは、それぞれ、異なる変異対立遺伝子頻度レベルを有する。
いくつかの実施形態では、サブセットのうちの少なくとも3つは、それぞれ、異なる変異対立遺伝子頻度レベルを有する。
いくつかの実施形態では、サブセットの少なくとも1つは、少なくとも2.5%の変異対立遺伝子頻度を有する。
いくつかの実施形態では、サブセットの少なくとも1つは、少なくとも5%の変異対立遺伝子頻度を有する。
いくつかの実施形態では、サブセットの少なくとも1つは、少なくとも10%の変異対立遺伝子頻度を有する。
いくつかの実施形態では、この方法は、さらに、少なくとも1つの変異呼び出しアルゴリズムからの少なくとも1つの予測をニューラルネットワークに入力することを含む。
いくつかの実施形態では、少なくとも1つの予測は、少なくとも3つの別個の変異呼び出しアルゴリズムからの少なくとも3つの予測を含む。
いくつかの実施形態では、少なくとも1つの予測は、少なくとも5つの別個の変異呼び出しアルゴリズムからの少なくとも5つの予測を含む。
いくつかの実施形態では、トレーニングデータセットは、合成データと実際のデータとの混合を含む。
いくつかの実施形態では、トレーニングデータセットは、少なくとも5%の合成データを含む。
いくつかの実施形態では、トレーニングデータセットは、少なくとも10%の合成データを含む。
いくつかの実施形態では、トレーニングデータセットは、全ゲノムシーケンシングデータを含む。
いくつかの実施形態では、トレーニングデータセットは、全エクソームシーケンシングデータを含む。
いくつかの実施形態では、トレーニングデータセットは、標的化シーケンシングデータを含む。
いくつかの実施形態では、トレーニングデータセットは、ホルマリン固定パラフィン包埋サンプルから取得されたデータを含む。
いくつかの実施形態では、トレーニングデータセットは、全ゲノムシーケンシングデータ、全エクソームシーケンシングデータ、標的化シーケンシングデータ、およびホルマリン固定パラフィン包埋サンプルから取得されたデータのうちの少なくとも2つを含む。
いくつかの実施形態では、トレーニングデータセットは、全ゲノムシーケンシングデータ、全エクソームシーケンシングデータ、標的化シーケンシングデータ、およびホルマリン固定パラフィン包埋サンプルから取得されたデータのうちの少なくとも3つを含む。
いくつかの実施形態では、トレーニングデータセットは、全ゲノムシーケンシングデータ、全エクソームシーケンシングデータ、標的化シーケンシングデータ、およびホルマリン固定パラフィン包埋サンプルから取得されたデータを含む。
いくつかの実施形態では、変異呼び出しのための方法が提供される。この方法は、参照配列、複数の腫瘍配列読み取り、および複数の正常配列読み取りを取得することと、取得された複数の腫瘍配列読み取りおよび複数の正常配列読み取りおよび参照配列が既に位置合わせされた構成で取得されない限り、必要に応じて、複数の腫瘍配列読み取りおよび複数の正常配列読み取りと参照配列との第1の位置合わせを実行することと、位置合わせされた腫瘍配列読み取り、正常配列読み取り、および参照配列から候補変異位置を特定することと、複数の腫瘍配列読み取りおよび/または複数の正常配列読み取りと参照配列との第2の位置合わせを達成するために、腫瘍配列読み取りおよび/または正常配列読み取り、および/または候補変異位置の周りの参照配列を拡張することと、拡張参照配列から候補変異位置の参照行列を生成し、複数の拡張腫瘍配列読み取りから候補変異位置の腫瘍行列を生成し、複数の拡張正常配列読み取りから候補変異位置の正常行列を生成することと、参照行列、腫瘍行列、および正常行列をニューラルネットワークに入力することと、ニューラルネットワークを使用して、変異タイプが候補変異位置に存在するかどうかを判定することと、を含むことができる。
いくつかの実施形態では、この方法は、さらに、トレーニングデータセットから複数のトレーニング行列を生成することであって、トレーニング行列が、腫瘍行列、正常行列、および参照行列に対応する構造を有し、トレーニングデータセットが、腫瘍配列データおよび正常配列データを含む、生成することと、複数のトレーニング行列を使用してニューラルネットワークをトレーニングすることと、を含む。
いくつかの実施形態では、腫瘍配列データおよび正常配列データの双方は、複数の突然変異を含み、突然変異は、単一ヌクレオチド変異、挿入、および欠失を含む。
いくつかの実施形態では、正常配列データは、最大5%の腫瘍配列データを含む。
いくつかの実施形態では、正常配列データは、最大10%の腫瘍配列データを含む。
いくつかの実施形態では、腫瘍配列データは、約10%から100%の腫瘍純度レベルを含む。
いくつかの実施形態では、トレーニングデータセットは、複数の腫瘍配列データサブセットを含み、各腫瘍配列データサブセットは、10%から100%の範囲の腫瘍純度レベルを含み、腫瘍配列データサブセットのうちの少なくとも2つは、それぞれ異なる腫瘍純度レベルを有する。
いくつかの実施形態では、腫瘍配列データサブセットのうちの少なくとも3つは、それぞれ異なる腫瘍純度レベルを有する。
いくつかの実施形態では、複数の腫瘍配列データサブセットは、腫瘍純度レベルが約30%未満の第1の腫瘍配列データサブセット、腫瘍純度レベルが約30%から70%の第2の腫瘍配列データサブセット、および腫瘍純度レベルが少なくとも約70%の第3の腫瘍配列データサブセットを含む。
いくつかの実施形態では、複数の腫瘍配列データサブセットは、腫瘍純度レベルが約40%未満の第1の腫瘍配列データサブセット、腫瘍純度レベルが約40%から60%の第2の腫瘍配列データサブセット、および腫瘍純度レベルが少なくとも約60%の第3の腫瘍配列データサブセットを含む。
いくつかの実施形態では、トレーニングデータセットは、合成データを含む。
いくつかの実施形態では、合成データは、人工的に生成された変異を含み、人工的に生成された変異は、単一ヌクレオチド変異、挿入、および欠失を含む。
いくつかの実施形態では、トレーニングデータセットは、実際のデータを含み、実際のデータは、実際の変異を含み、実際の変異は、単一ヌクレオチド変異、挿入、および欠失を含む。
いくつかの実施形態では、トレーニングデータセットは、全ゲノムシーケンシングデータを含む。
いくつかの実施形態では、トレーニングデータセットは、全エクソームシーケンシングデータを含む。
いくつかの実施形態では、トレーニングデータセットは、標的化シーケンシングデータを含む。
いくつかの実施形態では、トレーニングデータセットは、ホルマリン固定パラフィン包埋サンプルから取得されたデータを含む。
いくつかの実施形態では、システムが提供される。システムは、請求項18〜64のいずれかに記載のステップを実行するように構成されたプロセッサを含むことができる。
本発明の新規の特徴は、以下の特許請求の範囲に具体的に記載されている。本発明の特徴および利点のより良い理解は、本発明の原理が利用される例示的な実施形態を説明する以下の詳細な説明、およびその添付の図面を参照することによって得られるであろう:
いくつかの実施形態にかかる、シーケンシング装置およびコンピューティングシステムを備える例示的なシステムを示している。 いくつかの実施形態にかかる、生殖系列変異呼び出しの例示的な方法を示している。 いくつかの実施形態にかかる、生殖系列変異呼び出しの例示的な方法を示している。 いくつかの実施形態にかかる、図2の例示的な方法の拡張ステップを示している。 いくつかの実施形態にかかる、ニューラルネットワークに提供され、ニューラルネットワークから取得されることができる例示的なデータを示している。 いくつかの実施形態にかかる、ニューラルネットワークの例示的なアーキテクチャを示している。 いくつかの実施形態にかかる、体細胞変異呼び出しのための例示的な方法を示している。 いくつかの実施形態にかかる、図6の例示的な方法の一部として実行されることができる拡張ステップを示している。 いくつかの実施形態にかかる、ニューラルネットワークに提供され、ニューラルネットワークから取得されることができるデータの別の例を示している。 いくつかの実施形態にかかる、ニューラルネットワークの例示的なアーキテクチャを示している。 所与の候補体細胞SNVについての入力行列の生成を示している。 入力行列およびネットワークアーキテクチャを示している。 所与の候補体細胞欠失についての入力行列の生成を示している。 所与の候補体細胞挿入についての入力行列の生成を示している。 プラチナ2サンプル混合データセットに対する異なる検出方法の性能を示している。 プラチナ2サンプル混合データセットに対する異なる検出方法の性能を示している。 プラチナ2サンプル混合データセットに対する異なる検出方法の性能を示している。 Dreamステージ3データセットに対する異なる検出方法の性能を示している。 Dreamステージ3データセットに対する異なる検出方法の性能を示している。 Dreamステージ3データセットに対する異なる検出方法の性能を示している。 Dreamステージ4データセットに対する異なる検出方法の性能を示している。 Dreamステージ4データセットに対する異なる検出方法の性能を示している。 Dreamステージ4データセットに対する異なる検出方法の性能を示している。 PacBioデータセットに対する2つの異なる検出方法の性能を示している。 PacBioデータセットに対する2つの異なる検出方法の性能を示している。 PacBioデータセットに対する2つの異なる検出方法の性能を示している。 全エクソームサンプル混合データセットに対する異なる検出方法の性能における配列カバレッジの影響を示している。 全エクソームサンプル混合データセットに対する異なる検出方法の性能における配列カバレッジの影響を示している。 プラチナ腫瘍スパイクデータセットに対する異なる検出方法の性能を示している。 プラチナ腫瘍スパイクデータセットに対する異なる検出方法の性能を示している。 プラチナ腫瘍スパイクデータセットに対する異なる検出方法の性能を示している。 プラチナ腫瘍スパイクデータセットに対する異なる検出方法の性能を示している。 全エクソームデータセットに対する異なる体細胞変異検出方法の性能を示している。 標的化パネルデータセットに対する体細胞変異検出法の性能を示している。 全エクソームデータセットに対する異なる体細胞変異検出方法の性能を示している。 標的化パネルデータセットに対する体細胞変異検出法の性能を示している。 全ゲノムおよび全エクソームに対するトレーニング済みモデルを使用してエクソーム混合データセットに対してテストする性能分析を示している。 全ゲノムおよび全エクソームに対するトレーニング済みモデルを使用して標的化パネル混合データセットに対してテストする性能分析を示している。 Dreamステージ3、Dreamステージ4、プラチナ2サンプル混合、プラチナ腫瘍スパイク、PacBio、およびエクソームデータセットにおけるグラウンドトゥルースINDELのサイズ分布を示している。 様々なデータセットについて予測された体細胞変異の位置およびタイプに基づく、INDELに対する様々な検出方法の性能分析を示している。 様々なデータセットについて予測された体細胞変異の位置およびタイプに基づく、INDELに対する様々な検出方法の性能分析を示している。 Dreamチャレンジステージ3データセットのクロスサンプルトレーニングの性能分析を示している。 実際のデータセットCOLO−829に対する様々な体細胞変異検出方法の性能を示している。 実際のデータセットCLL1に対する様々な体細胞変異検出方法の性能を示している。 実際のデータセットTCGA−AZ−6601に対する様々な体細胞変異検出方法の性能を示している。 マイクロソフトAzureの実験に使用された261のTCGA癌サンプルのリストである。 テストされた異なるネットワークアーキテクチャを示している。 テストされた異なるネットワークアーキテクチャを示している。 テストされた異なるネットワークアーキテクチャを示している。 テストされた異なるネットワークアーキテクチャを示している。 テストされた異なるネットワークアーキテクチャを示している。 テストされた異なるネットワークアーキテクチャを示している。 テストされた異なるネットワークアーキテクチャを示している。 テストされた異なるネットワークアーキテクチャを示している。 テストされた異なるネットワークアーキテクチャを示している。 テストされた異なるネットワークアーキテクチャを示している。 テストされた異なるネットワークアーキテクチャを示している。 テストされた異なるネットワークアーキテクチャを示している。 テストされた異なるネットワークアーキテクチャを示している。 図24a〜図24mに示される異なるネットワークアーキテクチャの性能分析を示している。 異なる体細胞変異検出アルゴリズムの実行時間比較を示している。 異なる体細胞変異検出アルゴリズムの実行時間比較を示している。 SEQC−IIコンソーシアムによって4つの信頼レベル(高、中、低、および未分類)に分類されたHCC1395の呼び出しのスーパーセットにおけるグラウンドトゥルースSNVおよびINDEL体細胞変異のVAF分布を示している。 SEQC−IIデータセットにおける123回の複製に対するNeuSomaticの全体的な性能を示している。 SEQC−IIデータセットにおける123回の複製に対するNeuSomaticの全体的な性能を示している。 SEQC−IIデータセットにおける123回の複製に対するNeuSomaticの全体的な性能を示している。 SEQC−IIデータセットにおける123回の複製に対するNeuSomaticの全体的な性能を示している。 SEQC−IIデータセットにおける123回の複製に対するNeuSomaticの全体的な性能を示している。 21個のWGS複製データセットに対する様々なモデルの性能比較を示している。図29aは、F1−スコア(%)を示し、図29bは、異なる体細胞変異呼び出し元間の適合率−再現率の比較を示している。ここでは、SEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルがNeuSomaticおよびNeuSomatic−Sに使用された。図29cは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図29dは、WGSデータセットに対する異なる体細胞変異検出方法およびNeuSomaticネットワークトレーニング済みモデルのF1−スコア(%)性能を示している。 21個のWGS複製データセットに対する様々なモデルの性能比較を示している。図29aは、F1−スコア(%)を示し、図29bは、異なる体細胞変異呼び出し元間の適合率−再現率の比較を示している。ここでは、SEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルがNeuSomaticおよびNeuSomatic−Sに使用された。図29cは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図29dは、WGSデータセットに対する異なる体細胞変異検出方法およびNeuSomaticネットワークトレーニング済みモデルのF1−スコア(%)性能を示している。 21個のWGS複製データセットに対する様々なモデルの性能比較を示している。図29aは、F1−スコア(%)を示し、図29bは、異なる体細胞変異呼び出し元間の適合率−再現率の比較を示している。ここでは、SEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルがNeuSomaticおよびNeuSomatic−Sに使用された。図29cは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図29dは、WGSデータセットに対する異なる体細胞変異検出方法およびNeuSomaticネットワークトレーニング済みモデルのF1−スコア(%)性能を示している。 21個のWGS複製データセットに対する様々なモデルの性能比較を示している。図29aは、F1−スコア(%)を示し、図29bは、異なる体細胞変異呼び出し元間の適合率−再現率の比較を示している。ここでは、SEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルがNeuSomaticおよびNeuSomatic−Sに使用された。図29cは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図29dは、WGSデータセットに対する異なる体細胞変異検出方法およびNeuSomaticネットワークトレーニング済みモデルのF1−スコア(%)性能を示している。 腫瘍純度データセットの性能比較を示している。図30aは、異なるカバレッジ(10×−300×)および腫瘍純度(5%−100%)にわたる異なる体細胞変異呼び出し元のSNVおよびINDEL F1−スコア(%)の比較を示している。図30bは、一致した正常値が5%の腫瘍で汚染された場合の一致した正常値:F1−スコア(%)の変化における腫瘍汚染に対するロバスト性を示しており、80倍のカバレッジの純粋な正常値および5〜100%の腫瘍純度におけるF1−スコア(%)が示されている。図30aおよび図30bでは、NeuSomaticおよびNeuSomatic−SにSEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルが使用された。図30cは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図30dは、異なるINDELサイズの性能分析を示している。負のINDELサイズは、欠失を反映している。 腫瘍純度データセットの性能比較を示している。図30aは、異なるカバレッジ(10×−300×)および腫瘍純度(5%−100%)にわたる異なる体細胞変異呼び出し元のSNVおよびINDEL F1−スコア(%)の比較を示している。図30bは、一致した正常値が5%の腫瘍で汚染された場合の一致した正常値:F1−スコア(%)の変化における腫瘍汚染に対するロバスト性を示しており、80倍のカバレッジの純粋な正常値および5〜100%の腫瘍純度におけるF1−スコア(%)が示されている。図30aおよび図30bでは、NeuSomaticおよびNeuSomatic−SにSEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルが使用された。図30cは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図30dは、異なるINDELサイズの性能分析を示している。負のINDELサイズは、欠失を反映している。 腫瘍純度データセットの性能比較を示している。図30aは、異なるカバレッジ(10×−300×)および腫瘍純度(5%−100%)にわたる異なる体細胞変異呼び出し元のSNVおよびINDEL F1−スコア(%)の比較を示している。図30bは、一致した正常値が5%の腫瘍で汚染された場合の一致した正常値:F1−スコア(%)の変化における腫瘍汚染に対するロバスト性を示しており、80倍のカバレッジの純粋な正常値および5〜100%の腫瘍純度におけるF1−スコア(%)が示されている。図30aおよび図30bでは、NeuSomaticおよびNeuSomatic−SにSEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルが使用された。図30cは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図30dは、異なるINDELサイズの性能分析を示している。負のINDELサイズは、欠失を反映している。 腫瘍純度データセットの性能比較を示している。図30aは、異なるカバレッジ(10×−300×)および腫瘍純度(5%−100%)にわたる異なる体細胞変異呼び出し元のSNVおよびINDEL F1−スコア(%)の比較を示している。図30bは、一致した正常値が5%の腫瘍で汚染された場合の一致した正常値:F1−スコア(%)の変化における腫瘍汚染に対するロバスト性を示しており、80倍のカバレッジの純粋な正常値および5〜100%の腫瘍純度におけるF1−スコア(%)が示されている。図30aおよび図30bでは、NeuSomaticおよびNeuSomatic−SにSEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルが使用された。図30cは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図30dは、異なるINDELサイズの性能分析を示している。負のINDELサイズは、欠失を反映している。 腫瘍純度データセットの適合率−再現率分析を示している。図30eは、SNVを示し、図30fは、異なるカバレッジ(10×−300×)および腫瘍純度(5%−100%)にわたる異なる体細胞変異呼び出し元についてINDELの精度が比較されていることを示している。 腫瘍純度データセットの適合率−再現率分析を示している。図30eは、SNVを示し、図30fは、異なるカバレッジ(10×−300×)および腫瘍純度(5%−100%)にわたる異なる体細胞変異呼び出し元についてINDELの精度が比較されていることを示している。 腫瘍正常滴定データセットに対する様々なNeuSomatic−Sトレーニング済みモデルの適合率−再現率の比較を示している。 腫瘍正常滴定データセットに対する異なる体細胞変異検出方法およびNeuSomaticネットワークトレーニングモデルのF1−スコア(%)性能を示している。 ライブラリ準備、WES、およびAmpliSeqデータセットの性能比較を示している。図31aは、異なるライブラリキットおよびDNA量にわたる異なる体細胞変異呼び出し元のSNVおよびINDEL F1−スコア(%)の比較を示している。図31bは、異なるライブラリキットおよびDNA量に対する様々なNeuSomaticトレーニング済みモデルの適合率−再現率の比較を示している。図31cおよび図31eは、異なる体細胞変異呼び出し元のSNV F1−スコア(%)の比較を示している。図31dおよび図31fは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図31a、図31c、および図31eについて、SEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルがNeuSomaticおよびNeuSomatic−Sに使用された。 ライブラリ準備、WES、およびAmpliSeqデータセットの性能比較を示している。図31aは、異なるライブラリキットおよびDNA量にわたる異なる体細胞変異呼び出し元のSNVおよびINDEL F1−スコア(%)の比較を示している。図31bは、異なるライブラリキットおよびDNA量に対する様々なNeuSomaticトレーニング済みモデルの適合率−再現率の比較を示している。図31cおよび図31eは、異なる体細胞変異呼び出し元のSNV F1−スコア(%)の比較を示している。図31dおよび図31fは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図31a、図31c、および図31eについて、SEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルがNeuSomaticおよびNeuSomatic−Sに使用された。 ライブラリ準備、WES、およびAmpliSeqデータセットの性能比較を示している。図31aは、異なるライブラリキットおよびDNA量にわたる異なる体細胞変異呼び出し元のSNVおよびINDEL F1−スコア(%)の比較を示している。図31bは、異なるライブラリキットおよびDNA量に対する様々なNeuSomaticトレーニング済みモデルの適合率−再現率の比較を示している。図31cおよび図31eは、異なる体細胞変異呼び出し元のSNV F1−スコア(%)の比較を示している。図31dおよび図31fは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図31a、図31c、および図31eについて、SEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルがNeuSomaticおよびNeuSomatic−Sに使用された。 ライブラリ準備、WES、およびAmpliSeqデータセットの性能比較を示している。図31aは、異なるライブラリキットおよびDNA量にわたる異なる体細胞変異呼び出し元のSNVおよびINDEL F1−スコア(%)の比較を示している。図31bは、異なるライブラリキットおよびDNA量に対する様々なNeuSomaticトレーニング済みモデルの適合率−再現率の比較を示している。図31cおよび図31eは、異なる体細胞変異呼び出し元のSNV F1−スコア(%)の比較を示している。図31dおよび図31fは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図31a、図31c、および図31eについて、SEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルがNeuSomaticおよびNeuSomatic−Sに使用された。 ライブラリ準備、WES、およびAmpliSeqデータセットの性能比較を示している。図31aは、異なるライブラリキットおよびDNA量にわたる異なる体細胞変異呼び出し元のSNVおよびINDEL F1−スコア(%)の比較を示している。図31bは、異なるライブラリキットおよびDNA量に対する様々なNeuSomaticトレーニング済みモデルの適合率−再現率の比較を示している。図31cおよび図31eは、異なる体細胞変異呼び出し元のSNV F1−スコア(%)の比較を示している。図31dおよび図31fは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図31a、図31c、および図31eについて、SEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルがNeuSomaticおよびNeuSomatic−Sに使用された。 ライブラリ準備、WES、およびAmpliSeqデータセットの性能比較を示している。図31aは、異なるライブラリキットおよびDNA量にわたる異なる体細胞変異呼び出し元のSNVおよびINDEL F1−スコア(%)の比較を示している。図31bは、異なるライブラリキットおよびDNA量に対する様々なNeuSomaticトレーニング済みモデルの適合率−再現率の比較を示している。図31cおよび図31eは、異なる体細胞変異呼び出し元のSNV F1−スコア(%)の比較を示している。図31dおよび図31fは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図31a、図31c、および図31eについて、SEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルがNeuSomaticおよびNeuSomatic−Sに使用された。 ライブラリ準備データセットにおける様々なNeuSomatic−Sトレーニング済みモデルの適合率−再現率の比較を示している。 ライブラリ準備データセットにおける異なる体細胞変異検出方法およびNeuSomaticネットワークトレーニングモデルのF1−スコア(%)性能を示している。 WESデータセットにおける異なる体細胞変異検出方法およびNeuSomaticネットワークトレーニングモデルのF1−スコア(%)性能を示している。 AmpliSeqデータセットにおける異なる体細胞変異検出方法およびNeuSomaticネットワークトレーニングモデルのF1−スコア(%)性能を示している。 FFPEデータセットの性能比較を示している。図32aおよび図32bは、16個のFFPE WGS複製における性能を示している。図32cおよび図32dは、14個のFFPE WES複製における性能を示している。図32aおよび図32cは、FFPEおよび新鮮な正常サンプルにわたる異なる体細胞変異呼び出し元のF1−スコア(%)の比較を示している。図32bおよび図32dは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図32bは、FFPEおよび新鮮な正常を使用した異なる体細胞変異呼び出し元についての16個のFFPE WGS複製の適合率−再現率プロットを示している。図32aおよび図32cについて、SEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルがNeuSomaticおよびNeuSomatic−Sに使用された。 FFPEデータセットの性能比較を示している。図32aおよび図32bは、16個のFFPE WGS複製における性能を示している。図32cおよび図32dは、14個のFFPE WES複製における性能を示している。図32aおよび図32cは、FFPEおよび新鮮な正常サンプルにわたる異なる体細胞変異呼び出し元のF1−スコア(%)の比較を示している。図32bおよび図32dは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図32bは、FFPEおよび新鮮な正常を使用した異なる体細胞変異呼び出し元についての16個のFFPE WGS複製の適合率−再現率プロットを示している。図32aおよび図32cについて、SEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルがNeuSomaticおよびNeuSomatic−Sに使用された。 FFPEデータセットの性能比較を示している。図32aおよび図32bは、16個のFFPE WGS複製における性能を示している。図32cおよび図32dは、14個のFFPE WES複製における性能を示している。図32aおよび図32cは、FFPEおよび新鮮な正常サンプルにわたる異なる体細胞変異呼び出し元のF1−スコア(%)の比較を示している。図32bおよび図32dは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図32bは、FFPEおよび新鮮な正常を使用した異なる体細胞変異呼び出し元についての16個のFFPE WGS複製の適合率−再現率プロットを示している。図32aおよび図32cについて、SEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルがNeuSomaticおよびNeuSomatic−Sに使用された。 FFPEデータセットの性能比較を示している。図32aおよび図32bは、16個のFFPE WGS複製における性能を示している。図32cおよび図32dは、14個のFFPE WES複製における性能を示している。図32aおよび図32cは、FFPEおよび新鮮な正常サンプルにわたる異なる体細胞変異呼び出し元のF1−スコア(%)の比較を示している。図32bおよび図32dは、様々なNeuSomaticトレーニング済みモデルのF1−スコア(%)の比較を示している。図32bは、FFPEおよび新鮮な正常を使用した異なる体細胞変異呼び出し元についての16個のFFPE WGS複製の適合率−再現率プロットを示している。図32aおよび図32cについて、SEQC−WGS−GT50−スパイクWGS10トレーニング済みモデルがNeuSomaticおよびNeuSomatic−Sに使用された。 FFPE WGSデータセットにおける異なる体細胞変異検出方法およびNeuSomaticネットワークトレーニングモデルのF1−スコア(%)性能を示している。 FFPE WESデータセットにおける様々な体細胞変異検出方法およびNeuSomaticネットワークトレーニングモデルのF1−スコア(%)性能を示している。 (図33a)NeuSomaticおよび(図33b)NeuSomatic−Sを使用した異なるデータセットからの9個の複製についての標的サンプルに対するトレーニングの影響を分析するチャートである。各サンプルについて、以下の2つのサンプル固有のモデルが使用された:一方は、標的サンプルに対してのみトレーニングされ、他方は、SEQC−WGSスパイクモデルからのトレーニングデータの10%が追加されている。 (図33a)NeuSomaticおよび(図33b)NeuSomatic−Sを使用した異なるデータセットからの9個の複製についての標的サンプルに対するトレーニングの影響を分析するチャートである。各サンプルについて、以下の2つのサンプル固有のモデルが使用された:一方は、標的サンプルに対してのみトレーニングされ、他方は、SEQC−WGSスパイクモデルからのトレーニングデータの10%が追加されている。 SEQC−WGS−スパイクモデルおよび2つのサンプル固有のNeuSomaticネットワークトレーニング済みモデルのF1−スコア(%)性能を示している。 異なるINDELサイズ、異なるVAF分布、および困難な領域での性能分析を示している。図34aおよび図34bは、異なる呼び出し元および異なるトレーニングアプローチを使用した、SEQC−IIデータセットにわたる異なるINDELサイズの性能分析を示している。負のINDELサイズは、欠失を反映している。 異なるINDELサイズ、異なるVAF分布、および困難な領域での性能分析を示している。図34aおよび図34bは、異なる呼び出し元および異なるトレーニングアプローチを使用した、SEQC−IIデータセットにわたる異なるINDELサイズの性能分析を示している。負のINDELサイズは、欠失を反映している。 異なる呼び出し元を使用した、SEQCデータセットにわたる異なるVAF範囲を有する変異の性能分析を示している。 異なるサイズのタンデムリピート(TR)やセグメント重複を含む困難な領域における異なる体細胞呼び出し元の性能分析を示している。 異なる呼び出し元を使用した、SEQCデータセットにわたる異なるVAF範囲を有する変異の性能分析を示している。 (図36a)NeuSomaticおよび(図36b)NeuSomatic−Sの異なるトレーニングアプローチを使用した、SEQCデータセットにわたる異なるVAF範囲を有する変異の性能分析を示している。 (図36a)NeuSomaticおよび(図36b)NeuSomatic−Sの異なるトレーニングアプローチを使用した、SEQCデータセットにわたる異なるVAF範囲を有する変異の性能分析を示している。 異なる(図37a)呼び出し元および(図37b)NeuSomaticおよび(図37c)NeuSomatic−Sの(図37bおよび図37c)トレーニングアプローチを使用した、腫瘍/正常滴定データセットにおける異なるVAF範囲を有する変異の性能分析を示している。 異なる(図37a)呼び出し元および(図37b)NeuSomaticおよび(図37c)NeuSomatic−Sの(図37bおよび図37c)トレーニングアプローチを使用した、腫瘍/正常滴定データセットにおける異なるVAF範囲を有する変異の性能分析を示している。 異なる(図37a)呼び出し元および(図37b)NeuSomaticおよび(図37c)NeuSomatic−Sの(図37bおよび図37c)トレーニングアプローチを使用した、腫瘍/正常滴定データセットにおける異なるVAF範囲を有する変異の性能分析を示している。 異なるサイズのタンデムリピート(TR)および異なる呼び出し元を使用したセグメント重複を含む、全ゲノム対困難なゲノム領域における性能比較を示している。 (図39a)NeuSomaticおよび(図39b)NeuSomatic−Sの異なるサイズのタンデムリピート(TR)およびセグメント重複を含む異なる領域における異なるトレーニングアプローチの性能分析を示している。 (図39a)NeuSomaticおよび(図39b)NeuSomatic−Sの異なるサイズのタンデムリピート(TR)およびセグメント重複を含む異なる領域における異なるトレーニングアプローチの性能分析を示している。 (図40b)NeuSomaticおよび(図40c)NeuSomatic−Sの異なるトレーニングアプローチを使用した、異なるサイズのタンデムリピート(TR)およびセグメント重複を含む全ゲノム対困難なゲノム領域における性能比較を示している。 (図40b)NeuSomaticおよび(図40c)NeuSomatic−Sの異なるトレーニングアプローチを使用した、異なるサイズのタンデムリピート(TR)およびセグメント重複を含む全ゲノム対困難なゲノム領域における性能比較を示している。 異なる(図41a)呼び出し元および(図41b)NeuSomaticおよび(図41c)NeuSomatic−Sの(図41bおよび図41c)トレーニングアプローチを使用した、異なるサイズのタンデムリピート(TR)および腫瘍/正常滴定データセットにおけるセグメント重複を含む困難な領域における性能分析を示している。 異なる(図41a)呼び出し元および(図41b)NeuSomaticおよび(図41c)NeuSomatic−Sの(図41bおよび図41c)トレーニングアプローチを使用した、異なるサイズのタンデムリピート(TR)および腫瘍/正常滴定データセットにおけるセグメント重複を含む困難な領域における性能分析を示している。 異なる(図41a)呼び出し元および(図41b)NeuSomaticおよび(図41c)NeuSomatic−Sの(図41bおよび図41c)トレーニングアプローチを使用した、異なるサイズのタンデムリピート(TR)および腫瘍/正常滴定データセットにおけるセグメント重複を含む困難な領域における性能分析を示している。 WGSデータセットにおけるプライベートFN呼び出しのVAF分布のバイオリン−プロットの比較を示している。
本開示は、とりわけ、参照配列、複数の配列読み取り、および配列読み取り内の候補変異の位置を取得することと、1つ以上の配列読み取りに1つ以上のスペースを挿入することにより、拡張配列読み取りを取得することと、参照配列に1つ以上のスペースを挿入することにより、拡張参照配列を取得することと、候補変異の周りの拡張配列読み取りのセグメントをサンプル行列に変換することと、候補変異の周りの拡張参照配列のセグメントを参照行列に変換することと、トレーニング済みニューラルネットワークにサンプル行列および参照行列を提供することと、トレーニング済みニューラルネットワークの出力において、複数の配列読み取り内の変異に関連する予測データを取得することと、を含むことができる、生殖系列変異を呼び出す方法を記載している。開示されたシステムおよび方法は、生データから直接重要な変異信号をキャプチャすることを可能にし、異なるシーケンシング技術、サンプル純度、および全ゲノム対標的濃縮などのシーケンシング戦略に対して一貫して高精度を達成することを可能にする。
図1は、コンピューティングシステム102に通信可能に結合されたシーケンシング装置110を含む例示的なシステム100を示している。シーケンシング装置110は、直接(例えば、1つ以上の通信ケーブルを介して)、または、インターネットまたはワイドエリア、ローカルエリア、有線、および/または無線ネットワークの他の任意の組み合わせとすることができるネットワーク130を介してコンピューティングシステム102に結合されることができる。いくつかの実施形態では、コンピューティングシステム102は、シーケンシング装置110に含まれるか、またはそれと統合されることができる。いくつかの実施形態では、シーケンシング装置110は、遺伝物質を含むサンプルをシーケンシングし、結果として得られるシーケンシングデータを生成することができる。シーケンシングデータは、コンピューティングシステム102に(例えば、ネットワーク130を介して)送信されるか、または記憶装置に記憶され、後の段階でコンピューティングシステム102に(例えば、ネットワーク130を介して)転送されることができる。いくつかの実施形態では、コンピューティングシステム102は、ディスプレイ108、およびユーザまたはオペレータ(例えば、技術者または遺伝学者)からコマンドを受信するための1つ以上の入力装置(図示せず)を含んでも含まなくてもよい。いくつかの実施形態では、コンピューティングシステム102および/またはシーケンシング装置110は、ネットワーク130を介してリモートでユーザまたは他の装置によってアクセスされることができる。したがって、いくつかの実施形態では、本明細書に記載される様々な方法は、コンピューティングシステム102上でリモートで実行されることができる。
コンピューティングシステム102は、装置の一部または全てが相互接続されることができる、パーソナルコンピュータ、ラップトップ、ネットワークサーバ(例えば、ローカルサーバまたはパブリック/プライベート/ハイブリッドクラウドに含まれるサーバ)、モバイル装置などの任意のタイプの1つのコンピューティング装置またはいくつかのコンピューティング装置の組み合わせを含むことができる。コンピューティングシステム102は、1つ以上のプロセッサ(図示せず)を含むことができ、各プロセッサは、1つ以上のコアを有することができる。いくつかの実施形態では、コンピューティングシステム102は、1つ以上の汎用プロセッサ(例えば、CPU)、グラフィックプロセッサ(GPU)などの専用プロセッサ、デジタル信号プロセッサ、またはこれらおよび他のタイプのプロセッサの任意の組み合わせを含むことができる。いくつかの実施形態では、コンピューティングシステム内のいくつかまたは全てのプロセッサは、特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)などのカスタマイズされたまたはカスタマイズ可能な回路を使用して実装されることができる。コンピューティングシステム102はまた、いくつかの実施形態では、コンピューティングシステム102に統合された、またはそうでなければ通信可能に結合された1つ以上のメモリまたはストレージ装置(図示せず)に記憶された非一時的コンピュータ可読命令を検索および実行することができる。メモリ/ストレージ装置は、様々なタイプの半導体メモリチップ(DRAM、SRAM、SDRAM、フラッシュメモリ、プログラム可能な読み取り専用メモリ)などを含む、非一時的コンピュータ可読記憶媒体の任意の組み合わせを含むことができる。磁気ディスクおよび/または光ディスクも使用可能である。メモリ/ストレージ装置は、読み取り可能および/または書き込み可能であり得るリムーバブル記憶媒体を含むことができ、そのような媒体の例は、コンパクトディスク(CD)、読み取り専用デジタル多用途ディスク(DVD−ROM、2層DVD−ROMなど)、読み取り専用および記録可能なBlu−ray(登録商標)ディスク、超高密度光ディスク、フラッシュメモリカード(SDカード、ミニSDカード、マイクロSDカードなど)などを含む。いくつかの実施形態では、データおよび他の情報(例えば、配列データ)は、1つ以上の遠隔場所、例えば、クラウドストレージに記憶され、システム100の他のコンポーネントと同期されることができる。
生殖細胞変異呼び出し
図2aは、いくつかの実施形態にかかる、生殖系列変異呼び出しの例示的な方法200を示している。方法200は、例えば、ソフトウェア(すなわち、例えば、コンピューティングシステム102の1つ以上のプロセッサによってアクセスおよび実行可能である1つ以上の非一時的媒体に記憶された命令のセット)の形態で、またはファームウェア、ハードウェア、またはそれらの任意の組み合わせの形態で実装されることができる。
方法200は、参照配列を取得することができるステップ210において開始することができる。参照配列は、例えば、全米バイオテクノロジー情報センター(NCBI)によって構築されたヌクレオチド塩基配列のオープンアクセスの注釈付きおよびキュレートされたコレクションである参照配列(RefSeq)などの1つ以上のプライベートまたはパブリックリポジトリ、または異なる生物の完全なゲノムのセットを記憶するNCBI Genomes FTPサイトから取得されることができる。いくつかの実施形態では、参照配列の特定のコピーは、ローカルに(例えば、コンピューティングシステム102のメモリに)記憶されることができるが、他の実施形態では、参照配列は、例えば、ネットワーク130を介してリモートサーバから取得されることができることを理解されたい。さらにまた、いくつかの実施形態では、参照配列全体を取得することができ、他の実施形態では、参照配列の1つ以上のセクション−例えば、特定のアッセイである/特定のアッセイに関連するセクションのみを取得することができる。したがって、本明細書で使用される「参照配列」は、一般に、参照配列の1つ以上のセクションを指し、これは、参照配列全体を含んでも含まなくてもよい。
ステップ220において、シーケンシング装置110によってシーケンシングされた遺伝子サンプル(例えば、患者のDNAまたはRNA材料を含むサンプル)に対応する複数の配列読み取りを取得することができる。上記のように、配列読み取りは、シーケンシング装置110から直接、またはコンピューティングシステム102に通信可能に結合された1つ以上のローカルもしくはリモートの揮発性もしくは不揮発性メモリ、ストレージ装置、またはデータベースから取得されることができる。取得された配列読み取りは、既に前処理されている(例えば、事前位置合わせされている)可能性があるか、または「生」である可能性があり、その場合、方法200は、前処理(例えば、事前位置合わせ)ステップ(図示せず)も含むことができる。また、いくつかの実施形態では、(シーケンシング装置110によって生成されるような)配列読み取り全体を取得することができるが、他の実施形態では、配列読み取りのセクションのみを取得することができる。したがって、本明細書で使用される「配列読み取りの取得」は、一般に、1つ以上の(例えば、隣接する)配列読み取りの1つ以上のセクションを取得することを指す。
ステップ230において、読み取られた配列内の複数の候補変異位置を取得することができる。いくつかの実施形態では、これは、複数の取得された配列読み取りをスキャンし、それらを取得された参照配列と比較し、あるタイプの変異(例えば、挿入または欠失変異(INDEL)、単一ヌクレオチド変異(SNV)、または構造変異(SV))を含むように見える配列読み取り内の1つ以上の位置のセットを判定することを含む。候補変異位置の検索は、例えば、参照内の全ての位置をチェックし、配列読み取りの少なくとも1つが参照と異なる位置を判定することを含むことができる。候補位置を判定する際に、例えば、特定の位置が候補変異位置と見なされるために参照とは異なる必要がある読み取りの数またはパーセンテージに対するフィルタであるいくつかのフィルタを使用することもできる。他の実施形態では、配列読み取りは、(例えば、別個のソフトウェアおよび/またはハードウェアモジュールによって)既にスキャンおよび分析されることができ、その場合、複数の候補位置は、コンピューティングシステム102に結合されたメモリまたはデータベースから取得されることができる。ステップ240において、方法は、複数の特定された候補変異位置から次の候補変異位置に進むことができる。
ステップ250において、現在の候補変異位置の周りの配列読み取りおよび参照配列は、正確なマルチプル位置合わせ(MSA)を達成するために拡張される。このステップは、複数の例示的な配列読み取り311、例示的な参照配列310、および例示的な候補変異位置350を示す図3と併せてよりよく説明することができる。図3に示されるように、参照配列310および配列読み取り311を拡張することは、参照配列310内および/または1つ以上の配列読み取り311内に1つ以上のギャップまたはスペース(例えば、スペース325)を挿入することを含むことができ、それにより、拡張参照配列320および拡張参照配列320に正確に位置合わせされた複数の拡張配列読み取り321を生成する。
具体的には、図3に示されるように、いくつかの実施形態では、拡張は、以下を含むことができる:特定の配列で挿入塩基を判定または検出すること、参照サンプルの挿入塩基の位置にスペースを挿入すること、同じ位置(いくつかの場合、挿入が検出された特定の配列読み取り以外の全ての配列読み取りに対応する)で挿入が検出されなかった全ての配列読み取りの同じ位置にスペースを挿入すること、および、読み取られた各配列において検出された挿入塩基ごとにプロセスを繰り返すこと。2塩基以上の潜在的な挿入が検出された場所では、それぞれ2つ以上のスペースを挿入できることが理解される。最後に正確なマルチプル位置合わせ(MSA)を達成することができるように、配列読み取りおよび参照配列にスペースを挿入するために他の適切な技術を使用することができること、すなわち、拡張配列読み取り内の全ての塩基(または少なくとも欠失または挿入が発生しなかった場所)は、相互におよび拡張参照配列に正確に位置合わせされることが理解される。
いくつかの実施形態では、拡張はまた、読み取られた特定の配列において欠失した塩基を検出し、潜在的な欠失変異の位置において読み取られたその配列にスペースを挿入することを含むことができる。欠失塩基が検出された場合、参照配列を拡張する必要がないことを理解されたい。
「スペースの挿入」は、配列読み取りおよび参照配列が記憶されるメモリの実際の変更を含んでも含まなくてもよく、代わりに、同じ最終結果を達成する他の動作(例えば、方法200の他のステップ)の固有のまたは暗黙の部分としてもよいことがさらに理解される。例えば、配列読み取りおよび参照配列の元の場所を変更する代わりに、配列読み取りおよび参照配列を、新たなコピーにスペースを全ての正しい位置に記憶させるような方法で、元の場所から別のメモリ位置に選択的にコピーすることができる。本明細書で使用される「スペースを記憶する」は、4つのタイプのヌクレオチド塩基(A、C、T、およびG)に対応する4つの値以外の任意のランダムまたは事前定義された値(例えば、0)を記憶することを意味することができる。別の例として、スペースは、いずれのステップでも物理的に挿入されない場合があるが、以下で説明するように、配列が読み取られて参照配列がカウント行列に変換されるときにアルゴリズム的に考慮されることができる。
いくつかの実施形態では、候補変異位置の周りの配列読み取りおよび参照配列を拡張することは、候補変異位置を含む可変または事前定義された長さの一部のみを拡張することを意味することができる。しかしながら、他の実施形態では、利用可能な配列読み取りおよび参照配列の全長を一度に拡張することができ、その場合、ステップ250は、一度だけ(例えば、ステップ240の前さらにはステップ230の前)実行されることができ、全ての候補変異位置に対して繰り返されることはできない。
ステップ260において、拡張配列読み取りのセグメント(すなわち、ウィンドウ)をサンプル行列に変換(または「要約」)することができる。セグメントは、固定長にすることができ、候補変異位置を中央に配置する場合と配置しない場合がある。例えば、図3に示される例では、拡張セグメントは、16列(位置)の長さであり、候補変異位置350の左側に7列および右側に8列を含み、候補変異位置350を実質的に拡張セグメントの中央に配置する。
いくつかの実施形態では、サンプル行列は、変換されるセグメントと同じ数の列を有するカウント行列とすることができる。行列は、ヌクレオチド塩基のタイプ(A、C、G、およびT)ごとに1つの行を含むことができ、各行は、拡張配列読み取り内の各位置(列)にそれぞれのヌクレオチド塩基が出現した回数を表す。図3の例を参照すると、サンプル行列331の行「A」は、値「6000000306520000」を含み、これは、ベース「A」が、拡張読み取りのセグメント内の最初の位置に6回、8番目の位置に3回、10番目の位置に6回、11番目の位置に5回、12番目の位置に2回、セグメント内の他の位置に0回(表示されなかった)出現したことを示す。
いくつかの実施形態では、サンプル行列はまた、拡張配列読み取り内の各位置にスペース(図3では「−」として表される)が現れた回数を表す行を含むことができる。例えば、図3では、サンプル行列331の最初の行(「−」としてマークされる)は、値「0000014000140000」を含み、これは、拡張配列読み取りが、それぞれセグメント内の位置6、7、11、および12に1つ、4つ、1つ、および4つのスペースを含むことを示す。図3の例では、スペース行「−」が行列の最初の行として示されているが、他の実施形態では、スペース行は、行列内の他の場所(例えば、最後)に配置されることができることを理解されたい。行/列表記は、任意であり、他の実施形態では表記を逆にすることができ、これは、サンプル行列が5つの列(A、C、T、G、−)およびセグメントの長さに対応する行数を有することができることを意味することも理解されたい。したがって、行列は、一般に、少なくとも5つの「ライン」(行または列)、各ヌクレオチドタイプのカウントを表す1つのライン、および拡張配列読み取り内のスペースカウントを表す少なくとも1つのラインを有すると記述されることができる。
ステップ270において、配列読み取りのセグメントに対応する拡張参照配列のセグメントは、同様に、サンプル行列と同じ次元を有する参照行列に変換されることができる。例えば、図3では、拡張参照320は、参照行列330に変換される。サンプル行列331と同様に、参照行列330は、拡張参照配列内の各位置での各タイプのヌクレオチドの出現数を示す4つの行と、拡張参照配列内の各位置でのスペースの数を示すスペース行とを有することができる。しかしながら、他の実施形態では、参照マトリックス330は、図3に示されるものとは異なる参照配列の異なる塩基の異なる要約/表現を有することができることが理解される。
図3に示される実施形態では、参照行列320はまた、サンプル行列331と同じ範囲の値を有するように正規化される。図3に示されるように、正規化は、各カウントに、配列読み取りの総数(この例では、6)などの正規化係数を掛けることを含むことができる。他の実施形態では、参照行列を正規化する代わりに、正規化をサンプル行列、または双方の行列に対して実行できることが理解される。さらに他の実施形態では、行列は、正規化する必要が全くない場合がある。ステップ270は、ステップ260に続く必要はなく、いくつかの実施形態では、ステップ260の前に、または並行して実行できることも理解されたい。
ステップ280において、参照行列およびサンプル行列をトレーニング済み深層ニューラルネットワークへの入力として提供することができ、ステップ290において、トレーニング済み深層ニューラルネットワークの出力を取得することができ、出力は、以下により詳細に説明するように、サンプル行列によって表される配列読み取りに含まれる変異に関連する様々な予測を含むことができる。
また、反対に明確に示されない限り、方法200のステップの数および順序は、図2aに示されるようなステップの数および順序に必ずしも限定されないことが当業者によって理解されるべきである。したがって、異なる実施形態では、方法200のいくつかのステップは、並べ替えられるか、または並行して実行されることができ、一部のステップは、任意にすることも省略してもよく、本開示の精神および範囲から逸脱することなく、いくつかの追加のステップを追加することができる。
例えば、図2bは、ステップ210’において、参照配列および複数の対応する配列読み取りが取得される別の実施形態を示している。参照配列および複数の対応する配列読み取りは、任意の順序で(すなわち、順次または同時に)取得されることができる。次に、ステップ220’において、参照配列および複数の対応する配列読み取りが位置合わせされる。いくつかの実施形態では、参照配列および複数の対応する配列読み取りは、位置合わせされたフォーマットで取得されることができ、これは、第1の位置合わせステップを実行する必要性を排除することができる。ステップ230’において、候補変異位置が、位置合わせされた配列読み取りおよび参照配列から特定される。ステップ240’において、配列読み取りおよび/または参照配列は、上記と同じ方法で(すなわち、挿入および/または欠失を構成するためにギャップを挿入することによって)、複数の配列読み取りと参照配列との第2の位置合わせを達成するために、候補変異位置の周りに拡張される。
いくつかの実施形態では、候補変異位置のいずれかにおける約2から5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、または100個の塩基のウィンドウは、拡張および位置合わせされることができる。いくつかの実施形態では、候補変異位置のいずれかの側における少なくとも約5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、または100の塩基のウィンドウは、拡張および位置合わせされることができる。いくつかの実施形態では、候補変異位置の両側における約5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、または100の塩基が拡張および位置合わせされることができる。
次に、ステップ250’において、拡張参照配列からの候補変異位置の参照行列と、複数の拡張配列読み取りからの候補変異位置のサンプル行列が生成される。上記のように、行列は、各配列位置での各塩基またはギャップ(すなわち、A、C、G、T、またはギャップ)の頻度を含む。ステップ260’において、参照行列およびサンプル行列は、トレーニング済みニューラルネットワークに入力される。
ステップ270’において、ニューラルネットワークは、変異タイプが候補変異位置に存在するかどうかを判定する。例えば、ニューラルネットワークは、参照行列およびサンプル行列を処理し、変異タイプ、サイズ、および位置を判定する1つ以上の分類器および回帰器(すなわち、変異タイプの分類器、長さ分類器、および位置回帰器)によって処理される出力を生成する複数の畳み込み層を含むことができる。いくつかの実施形態では、ニューラルネットワークは、最大約5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、または100層を含むことができる。いくつかの実施形態では、畳み込み層は、ブロックに構造化されることができる。いくつかの実施形態では、ブロックの数は、層の数の約半分である。
参照配列および対応する配列読み取りが複数の変異候補位置を含む場合、ステップ230’から260’を各変異候補位置に対して繰り返すことができる。さらに、追加の参照配列および追加の対応する配列読み取りを取得することにより、ステップ210’から260’を繰り返すことができる。
図2aおよび図2bに示される例は、生殖細胞変異の呼び出しのセクションで説明されているが、これらの例は、体細胞変異の呼び出しに適合させることができる。逆に、体細胞変異の呼び出しのセクションで説明されている実施形態は、生殖細胞変異の呼び出しにも適合させることができる。例えば、図2bに記載されている複数の配列読み取りは、正常配列読み取りおよび腫瘍配列読み取りの2つのグループに細分類されることができる。正常配列読み取りは、被検体からの正常組織のサンプルから取得されることができる一方で、腫瘍配列読み取りは、被検体からの腫瘍組織のサンプルから取得されることができる。単一のサンプル行列を生成する代わりに、正常行列および腫瘍行列が参照行列とともに生成される。方法の残りの部分も同様に進行する。
図4は、参照行列330およびサンプル行列331が(以下に説明する他の任意の入力とともに)トレーニング済み深層ニューラルネットワーク350に供給され、サンプル行列331によって表される配列読み取りに関連する1つ以上の予測を出力する例示的な実施形態を示している。
いくつかの実施形態では、ネットワーク350は、畳み込みニューラルネットワーク(CNN)とすることができ、その例示的な例が図5に示されている。図5に示されるように、ネットワーク350は、最終的に第1の完全に接続された層520Aに供給され、その出力が様々な予測を出力する4つの別個の完全に接続された層520A〜520Cに供給される複数の直列接続された畳み込み層(510A〜510I)を含むことができる。図5の例では、異なる畳み込み層510は、異なるフィルタサイズ(例えば、1×3、3×3、または5×5)を有することができ、修正線形ユニット(ReLU)、プーリング層、バッチ正規化(BN)層など、追加の処理層(明示的に示されていない)を介して相互接続されることができる。さらにまた、図5に示されるように、いくつかの実施形態では、特定の層への入力は、ネットワークのより深い層において信号を維持するのを助けるために、アイデンティティショートカット接続515を介して後続の層の出力に接続されることができる。
いくつかの実施形態では、ネットワーク350は、拡張配列読み取りのセグメント内の候補変異に関連する1つ以上の予測を出力することができる。図5の例に示されているように、そのような予測の1つは、完全に接続された層520Bの出力において取得されることができ、候補変異位置が変異に対応するかどうか、もしそうであれば、その変異のタイプを示すことができる。より具体的には、いくつかの実施形態では、予測は、以下の4つの可能なタイプの変異に関連する少なくとも4つの確率値を含むことができる:NONE(変異なし、すなわち偽陽性の呼び出し);SNP/SNV(一塩基多型/変異);INS(挿入変異);およびDEL(欠失変異)。これらの確率値に基づいて、どのタイプの変異が最も可能性が高いか、および特定の予測の信頼レベルを判定することができる。
いくつかの実施形態では、ニューラルネットワーク350はまた、サンプル行列331によって表される拡張配列読み取りのセグメント内の変異の予測位置を出力することもできる(例えば、完全に接続された層520Cの出力において)。他の実施形態では、この出力は省略されることができ、上記のように配列読み取りのセグメントが所与の候補変異に対して選択される方法に基づいて、変異の位置が既知である(例えば、セグメントの中心において)と仮定することができる。
いくつかの実施形態では、ニューラルネットワーク350はまた、変異の予測長を出力することができる(例えば、完全に接続された層520Dの出力において)。例えば、予測される変異が1塩基長の場合、「1」の長さを出力することができ(例えば、SNP変異または1塩基のDELまたはINS変異)、予測される変異が2塩基長のDELまたはINS変異である場合、長さ「2」を出力することができる、などである。いくつかの実施形態では、出力が、変異が2塩基長以上であることを示している場合、後処理ステップは、挿入または欠失されている正確な配列を解決することができる。
いくつかの実施形態では、ニューラルネットワーク350はまた、例えば、1)ホモ接合参照(非変異)、2)ヘテロ接合変異(母方または父方のコピーの1つのみが変異を有する場合)、3)ホモ接合変異(双方のコピーが同じ変異を有する場合)、または4)その他(各コピーが異なる変異を有する場合)である変異を有する確率を表す、変異に関連する予測されたゲノムタイプを出力することができる(例えば、完全に接続された層520Eの出力において)。他の実施形態では、これらの出力のいくつかを省略することができ、および/または追加の出力を追加することができることが理解される。
ここで、ネットワークの入力を参照すると、上記の参照行列330およびサンプル行列331に加えて、いくつかの実施形態では、予測の精度をさらに改善するため、および/またはネットワークの出力において取得することができる情報の量を拡大するために、他の入力を提供することができる。図4の例に示されているように、追加の入力は、例えば、変異位置行列340、カバレッジ行列343、および1つ以上の位置合わせ特徴行列344を含むことができる。
いくつかの実施形態では、全ての入力行列は、1つの大きな3次元行列としてネットワーク350に提供されることができる。行列の次元は、例えば5×s×kとすることができ、5は行/列の数(−、A、C、T、G)に対応し、sはセグメントの長さに対応し(例えば、16)、kは、上記の異なる2次元(例えば、5×s)行列の数に対応する。いくつかの実施形態では、kは、30まで、またはそれ以上とすることができる。
変異位置行列340は、参照行列およびサンプル行列内の候補変異位置の2次元表現を含むことができる。例えば、行列は、5つの行(−、A、C、T、G)を有することができ、各列は、セグメント内の位置を表すことができる。例えば、変異位置行列340は、候補変異位置に対応する列の全ての行に1つの値(例えば、1)を含むことができ、他の全ての列の全ての行に別の値(例えば、0)を含むことができる。
カバレッジ行列343は、配列読み取りの特定のセグメントのカバレッジまたは深さを表すことができる。例えば、いくつかの実施形態では、カバレッジ行列343は、その全ての要素に同じ値を含むことができ、その値は、セグメント内の異なる読み取りのカバレッジ/深さ(例えば、平均カバレッジ/深さ)を表す。他の実施形態では、カバレッジ行列343は、異なる列での異なる値を含むことができ、各値は、各列でのそれぞれのカバレッジ/深さを表す。位置合わせ特徴行列344は、配列読み取りの品質およびそれらの位置合わせに関連する様々なメトリックを表すことができる。そのようなメトリックは、例えば、基本品質、マッピング品質、ストランドバイアス、クリッピング情報などを含むことができる。これらの位置合わせ特徴は、例えば、配列塩基および/またはそれらのマッピングの品質についてネットワークに通知することにより、配列読み取りにより多くのコンテキストを提供することにより、予測精度を向上させるのに役立つことができる。ネットワーク350への追加の入力(簡潔にするために図示されていない)は、既知の変異に関連する様々なデータを含むことができる。そのようなデータは、例えば、dbSNP、COSMIC、ExACなどのパブリックおよび/またはプライベート知識ベースから取得されることができる。
図5は、ネットワーク350の1つの例示的な構成のみを示し、本開示の範囲および精神から逸脱することなく、他の適切な構成/アーキテクチャを有するニューラルネットワークを使用して、拡張配列読み取り(サンプル行列によって表される)を分析し、変異のタイプおよびその他の特性を予測することができることを示すことが理解される。そのような代替構成は、より少ない層、追加の層、異なるパラメータを有する層、追加の入力または出力、より少ない入力または出力などを含むことができる)。さらに、いくつかの実施形態では、ネットワーク350は、畳み込みニューラルネットワーク(CNN)ではなくてもよく、代わりに、本開示の範囲および精神から逸脱することなく、別のタイプの深層ニューラルネットワーク(DNN)、すなわち、入力層と出力層との間に複数の層を有する別のタイプの人工ニューラルネットワーク(ANN)とすることができる。
体細胞変異呼び出し
いくつかの実施形態では、ニューラルネットワーク350はまた、体細胞変異呼び出しを実行するようにトレーニングされることができる。図6は、トレーニング済みニューラルネットワーク350を使用する体細胞変異呼び出しのための例示的な方法600を示している。
ステップ610において、方法600は、例えば、方法200のステップ210に関連して上記に記載されたものと同様の方法で、参照配列を取得することを含む。ステップ620において、方法600は、複数の腫瘍配列読み取りおよび複数の対応する正常(非腫瘍)配列読み取りを取得することを含む。例えば、いくつかの実施形態では、腫瘍配列読み取りは、患者の腫瘍(癌性)組織のシーケンシング結果を含むことができ、正常配列読み取りは、同じ患者から採取された正常(非癌性)組織のシーケンシング結果を含むことができる。他の実施形態では、正常配列読み取りは、異なる患者から採取された正常組織のシーケンシング結果を含むことができる。双方のタイプの配列読み取りは、例えば、方法200のステップ220に関連して上記で説明されたのと同様の方法で取得されることができる。
ステップ630において、複数の候補体細胞変異位置は、−メモリまたはパブリック/プライベートデータベース、ホワイトリスト候補位置のセットから事前に判定された変異位置を取得することによって、または例えば、方法200のステップ230に関連して上述した方法での腫瘍配列読み取りと参照配列との間の比較を実行することによって−取得されることができる。
ステップ640において、方法は、複数の候補体細胞変異位置のうちの1つに進む。ステップ660において、候補体細胞変異位置の周りの正常配列読み取りのセグメントが、正常サンプル行列に変換される。同様に、ステップ665において、候補体細胞変異位置の周りの腫瘍配列読み取りのセグメント(長さおよび位置が正常配列読み取りのセグメントに実質的に対応する)が腫瘍サンプル行列に変換される。ステップ670において、候補体細胞変異位置の周りの参照配列のセグメント(長さおよび位置が正常配列読み取りのセグメントに実質的に対応する)が参照行列に変換される。
いくつかの実施形態では、上記の3つのセグメントがそれらのそれぞれの参照行列に変換される前に、それらのそれぞれは、方法200のステップ250に関連して上記の拡張技術を使用して拡張されることができる。他の実施形態では、行列に変換する前に、セグメントに対して異なるタイプの拡張技術を実行することができ、例えば、長さL>kのホモポリマーが長さkに折り畳まれる場合、k−mer折り畳みアプローチを使用することができ、kは1以上の任意の数である。さらに他の実施形態では、拡張ステップは、完全に省略されることができ、元の未処理の配列読み取りおよび参照配列は、それらのそれぞれの行列に直接変換されることができる。
図7に示される例では、方法200のステップ250において実行されるものと同様の拡張が実行される。この例では、参照配列310、腫瘍配列読み取り311−A、および正常配列読み取り311−Bのセグメントが最初に拡張されて、拡張参照配列320、拡張腫瘍配列読み取り321−A、および拡張正常配列読み取り321−Bを生成し、次に、それぞれ、参照行列330、腫瘍サンプル行列331−A、および正常サンプル行列331−Bにそれぞれ変換される。
ここで方法600に戻ると、ステップ680において、3つの行列がトレーニング済みニューラルネットワークに供給され(入力として提供され)、ステップ690において、トレーニング済みニューラルネットワークの出力が取得され、出力は、腫瘍配列読み取りに含まれる体細胞変異タイプの少なくとも予測(確率的推定)(例えば、候補体細胞変異位置またはその周辺)を含む。
図8は、体細胞変異呼び出しに使用されているトレーニング済みニューラルネットワーク350の例示的な図を示している。この例では、ネットワーク350は、その入力参照行列330、腫瘍サンプル行列331−A、および正常サンプル行列331−Bを受信する。
図8は、ネットワーク350に入力される3つのタイプの行列全てを示しており、いくつかの実施形態では、参照行列330および/または正常サンプル行列331−Bは、省略されることができ、ネットワーク350に提供されることができず、ネットワーク350は、依然として体細胞変異呼び出しを実行することができる。正常サンプル行列が省略される実施形態では、正常配列読み取りの取得は、方法600のステップ620から省略されることができ、正常配列読み取りを行列に変換するステップ660は、完全に省略されることができる。
いくつかの実施形態では、予測の精度をさらに改善するため、および/またはネットワークの出力において取得されることができる情報の量を拡大するために、ネットワークはまた、候補体細胞変異の位置を表す体細胞変異位置行列340、腫瘍配列読み取りおよび正常配列読み取りセグメントのそれぞれのカバレッジを表す腫瘍カバレッジ行列343−Aおよび正常カバレッジ行列343−B、および1つ以上の位置合わせ特徴行列344などの追加の行列を入力として受信することができ、行列は、図4に関連して上記で説明したのと同様の方法で配列読み取りの様々な特徴を表す。さらに、図8には示されていないが、簡潔にするために、いくつかの実施形態では、既知の変異に関連するデータは、dbSNP、COSMIC、ExACなどのパブリックおよび/またはプライベート知識ベースから取得され、ネットワーク350への入力として提供されることができる。
いくつかの実施形態では、体細胞変異呼び出しの精度をさらに改善するために、ニューラルネットワーク350にはまた、その入力において1つ以上の他の呼び出し元特徴行列345が提供されることができる。これらの行列は、配列読み取りの同じセグメントを既に処理した1つ以上の他の(例えば、サードパーティの)変異呼び出しアプリケーションまたはアルゴリズムから取得した1つ以上の特徴を表す(例えば、要約する)ことができる。そのような特徴は、他のアプリケーション/アルゴリズムによって予測された変異タイプ、長さ、位置、品質スコア、マッピングスコア、変異有意性スコア、および他の位置合わせ特徴を含む。図4に関連して上述したように、いくつかの実施形態では、ネットワーク350に供給される全ての入力行列は、「結合」され、1つの大きな3次元行列として提供されることができる。
図9は、上記の様々な入力を受信し、その入力として体細胞サンプル行列331−Aによって表される体細胞配列読み取りのセグメント内に含まれる体細胞変異の少なくとも変異タイプ、位置、および長さを示す予測を出力する例示的なトレーニング済みニューラルネットワーク350を示している。いくつかの実施形態では、ネットワーク350はまた、変異のゲノムタイプを出力する完全に接続された層520E(図5に示される)を含むことができるが、ゲノムタイプを呼び出す体細胞変異の場合、重要ではなく、したがってネットワークから省略されることができる。
図9および図5の例に基づいて、いくつかの実施形態では、同じまたは実質的に同じアーキテクチャを有するネットワーク350を使用して、ネットワークがトレーニングされたデータのタイプに応じて(以下に説明するように)およびそれに提供される入力のタイプに応じて、生殖細胞系列および体細胞変異の双方を予測することができることが理解される。しかしながら、いくつかの実施形態では、ネットワーク350のアーキテクチャは、生殖細胞系列または体細胞変異呼び出しのいずれかのために修正および最適化されることができる。
ニューラルネットワークトレーニング
ニューラルネットワーク350が正確な生殖細胞系列または体細胞変異の呼び出しを実行し始める前に、最初に生殖細胞系列または体細胞のトレーニングデータ(すなわち、トレーニング配列)についてそれぞれトレーニングする必要があることが当業者によって理解される。トレーニングは、例えば、多数のトレーニング配列に対して方法200または600の全てのステップを実行することだけでなく、「バックプロパゲーション」と呼ばれるプロセスを実行するたびに、トレーニング可能なフィルタやその他のトレーニング可能なパラメータを調整することによって、ネットワークが出力エラーを徐々に最小化することができるように、ネットワークに「グラウンドトゥルース」データ(例えば、実際の既知の変異タイプとそれらの位置、長さ、ゲノムタイプなど)を提供することを含むことができる。
いくつかの実施形態では、ネットワーク350は、NA12878ゲノムなどの十分に特徴付けられたグラウンドトゥルース変異を有するゲノム上でトレーニングされることができる。いくつかの実施形態では、実際のゲノムの代わりに、または実際のゲノムに加えて、様々なシミュレーションベースの戦略を使用して、ネットワークをトレーニングすることができる。例えば、生殖細胞系列変異呼び出しのためにネットワークをトレーニングするために、Mu,J.C.ら(「VarSim:a high−fidelity simulation and validation framework for high−throughput genome sequencing with cancer applications」、Bioinformatics 31,1469−1471(2015))に記載されている方法を使用して、特定の変異のセットを含む合成サンプルをシミュレートすることができる。別の例として、体細胞変異呼び出しのためにネットワークをトレーニングするために、例えば、Eving,A.ら(「Combining tumor genome simulation with crowdsourcing to benchmark somatic single−nucleotide−variant detection」、Nature methods(2015))に記載された方法を使用して、ランダム変異がスパイクされた正常サンプルを供給することができる。代替的に、または追加的に、異なる比率の2つの異なる正常な生殖細胞系列サンプルを混合して、合成腫瘍/正常トレーニングサンプルを生成することができる。別の例として、異なる位置にある2つの生殖細胞系列サンプル間で読み取りを切り替えることにより、望ましい対立遺伝子頻度分布を有する仮想腫瘍/正常トレーニングサンプルを生成することができる。
実施例1
序文
体細胞変異は、癌の発生、進行、および治療における重要な兆候である。体細胞変異の正確な検出は、腫瘍−正常交差汚染、腫瘍の不均一性、シーケンシングアーティファクト、およびカバレッジのために困難である。一般に、前述の問題によって導入された偽陽性呼び出しを効果的にフィルタリングし、低対立遺伝子頻度(AF)で発生したり、低複雑度領域で発生したりする可能性のある、キャッチしにくい真陽性呼び出しを正確に維持することは、正確な体細胞変異検出アルゴリズムにとって重要である。
これまで、MuTect2、MuSE、VarDict、VarScan2、Strelka2、SomaticSniperなど、体細胞変異検出の問題に対処するための様々なツールが開発されてきた。これらのツールは、異なる統計的およびアルゴリズム的アプローチを採用しており、これは、それらが設計された特定の癌またはサンプルタイプでうまく機能する。しかしながら、一般化においてより広い範囲のサンプルタイプとシーケンシング技術に限定されているため、そのようなシナリオ7、8、9では最適ではない精度を示す可能性がある。以前の研究であるSomaticSeq10では、アンサンブルアプローチを使用して、アルゴリズム的に直交する方法を統合することで感度を最大化した。また、機械学習を使用してほぼ100の特徴を統合し、精度を高く維持した。これにより、個々の全ての方法で精度が向上した。それにもかかわらず、SomaticSeqで使用される機械学習バックボーンは、変異の場所について抽出された特徴のセットに依存している。その結果、体細胞変異のゲノムコンテキストで生の情報を完全にキャプチャして、真の体細胞変異をバックグラウンドエラーからさらに区別することができず、低複雑度領域や低腫瘍純度などの困難な状況での性能が制限される。
ここでは、深層畳み込みニューラルネットワーク(CNN)を活用することにより、腫瘍配列データの統計モデリングの一般化可能性と複雑さの制限に対処する。CNNは、最近、生殖細胞変異呼び出し11、12、13、および皮膚がんの分類14を含む様々なドメインの分類問題で大きな性能を示している。それでも、体細胞変異検出の困難な問題にCNNを適用することは検討されていない。以前の深層学習ベースの試み15は、手動で抽出された特徴のセットに6層の完全に接続されたニューラルネットワークを適用することのみであった。このアプローチには、ローカル領域で見られるパターンを使用して生データから直接特徴表現を学習するCNNアーキテクチャによって提供される能力を欠いている。さらに、完全に接続されたネットワークは複雑であるため、CNNに見られるような一般化可能性とスケーラビリティが低くなる。
体細胞変異を正確に特定するために、配列位置合わせや他の方法から導出された信号を効果的に活用することができる、体細胞変異検出のための最初のCNNベースのアプローチであるNeuSomaticを導入する。生殖細胞変異に焦点を当てた他の深層学習ベースの方法とは異なり、NeuSomaticは、腫瘍サンプルの複雑さのために、精度の点で満たされていないより大きなニーズに対応している。生データから直接重要な変異信号を効果的にキャプチャし、異なるシーケンシング技術、サンプル純度、および全ゲノム対標的濃縮などのシーケンシング戦略で一貫して高精度を実現することができる。
結果
NeuSomaticの概要
NeuSomaticのネットワークへの入力は、腫瘍サンプルと一致した正常サンプルの配列位置合わせをスキャンすることによって特定された体細胞変異の候補である(図10a〜図10d)。他の方法によって報告された体細胞変異も、この候補リストに含めることができる。各候補軌跡について、それぞれサイズ5×32のk個のチャネルから構成される3次元特徴行列M(サイズk×5×32)を構築し、その軌跡を中心とする領域から信号をキャプチャする。行列Mの各チャネルは、4つのヌクレオチド塩基とギャップのある塩基(「−」)を表す5つの行と、候補位置の周囲の位置合わせ列を表す32の列とを有する。
図10aは、所与の候補体細胞SNVについての入力行列準備のちょっとした例を示している。候補体細胞変異の周りの7塩基のウィンドウ内の配列位置合わせ情報が抽出される。次に、読み取りへの挿入を説明するためにギャップを追加することにより、参照配列が拡張される。次に、拡張された位置合わせは、参照行列、腫瘍カウント行列、および正常カウント行列に要約される。カウント行列は、位置合わせの各列のA/C/G/Tおよびギャップ(「−」)文字の数を記録し、参照行列は、各列の参照塩基を記録する。次に、カウント行列は、各列の塩基頻度を反映するようにカバレッジによって正規化される。腫瘍および正常のカバレッジを記録するために、別々のチャネルが予約されている。
図10bは、入力3次元行列および提案されたNeuSomaticネットワークアーキテクチャを示している。入力行列は、参照チャネル、腫瘍および正常頻度チャネル、カバレッジおよび位置チャネルから構成され、その後に位置合わせ特徴を要約するいくつかのチャネルが続く。アンサンブルモードで使用する場合、NeuSomaticはまた、他の個々の方法特徴用の追加チャネルも含む。NeuSomaticネットワークアーキテクチャは、ショートカットアイデンティティ接続を備えた4つのブロックで構造化された9つの畳み込み層から構成されている。最終層で2つのsoftmax分類器と1つの回帰器とを使用して、変異のタイプ、サイズ、および位置を予測する。
図10cは、所与の候補体細胞欠失のための入力行列準備のちょっとした例を示している。候補体細胞変異の周りの7塩基のウィンドウ内の配列位置合わせ情報が抽出される。次に、読み取りへの挿入を説明するためにギャップを追加することにより、参照配列が拡張される。次に、拡張された位置合わせは、参照行列、腫瘍カウント行列、および正常カウント行列に要約される。カウント行列は、位置合わせの各列のA/C/G/Tおよびギャップ(「−」)文字の数を記録するとともに、参照行列は、各列の参照ベースを記録する。次に、カウント行列は、各列の塩基頻度を反映するようにカバレッジによって正規化される。腫瘍と正常な範囲を記録するために、別々のチャネルが予約されている。
図10dは、所与の候補体細胞挿入のための入力行列準備のちょっとした例を示している。候補体細胞変異の周りの7塩基のウィンドウ内の配列位置合わせ情報が抽出される。次に、読み取りへの挿入を説明するためにギャップを追加することにより、参照配列が拡張される。次に、拡張された位置合わせは、参照行列、腫瘍カウント行列、および正常カウント行列に要約される。カウント行列は、位置合わせの各列のA/C/G/Tおよびギャップ(「−」)文字の数を記録するとともに、参照行列は、各列の参照ベースを記録する。次に、カウント行列は、各列の塩基頻度を反映するようにカバレッジによって正規化される。腫瘍と正常な範囲を記録するために、別々のチャネルが予約されている。
最初の3つのチャネルは、それぞれ、候補軌跡周辺の参照塩基と、その領域内の異なる塩基の頻度を要約する参照、腫瘍頻度、および正常頻度チャネルである。挿入をキャプチャするために、読み取り位置合わせ(図10a、図10c、および図10d)の挿入に対応するギャップで候補遺伝子座の周りの参照配列を拡張する。したがって、腫瘍および正常頻度行列の各列は、それぞれ腫瘍および正常サンプルの対応するマルチプル位置合わせ(MSA)列のA/C/G/T/ギャップ塩基の頻度を表す。残りのチャネルは、カバレッジ、塩基品質、マッピング品質、ストランドバイアス、様々な塩基をサポートする読み取りのクリッピング情報など、他の機能を要約する。NeuSomaticがアンサンブルモードで使用される場合、個々の体細胞変異検出方法によって報告される特徴のために追加のチャネルも使用する。この簡潔でありながら包括的な構造化表現により、NeuSomaticは、腫瘍、正常、および参照で必要な情報を使用して、AFの低い体細胞変異、ならびにシーケンシングエラーを生殖細胞変異から区別することができる。この設計はまた、CNNにおいて畳み込みフィルタを使用して、行列のサブブロック内のコンテキストパターンをキャプチャすることを可能にする。
ゲノミクスの問題で使用される他のCNNアプローチと比較するために、DeepVariant11は、生殖細胞系列変異呼び出しの入力として読み取りパイルアップを使用する。対照的に、ネットワークへの入力として、各列の基本頻度要約を使用する。これは、CNN構造を単純化し、大幅に効率的な実装が可能になる。例えば、DeepVariantは、30倍の全ゲノムサンプルの生殖細胞変異を呼び出すために約1000CPUコア時間を要する16が、スタンドアロンバージョンのNeuSomaticは、1つではなく2つの(腫瘍−正常)サンプルを処理し、生殖細胞系列の50または100%AFよりも低い体細胞AFで候補を探しているにもかかわらず、約156CPUコア時間で30倍の腫瘍正常ペアサンプルから体細胞変異を検出することができる。別の生殖細胞変異呼び出し方法であるClairvoyante12は、3つのチャネルを使用して、ウィンドウの中央での対立遺伝子数、欠失、および挿入の塩基数を要約する。対照的に、前述の参照拡張アプローチを使用して、これら全てのイベントを単一の塩基頻度行列に要約し、これは、ウィンドウ全体の全ての挿入および欠失(INDEL)イベントを明確に表すことができる。
NeuSomaticは、特徴行列Mが与えられた場合の候補体細胞変異のタイプと長さを予測する新たなCNN構造を採用している(図10b)。提案されたCNNは、ResNet17によって触発されたショートカットアイデンティティ接続を備えた4つのブロックで構造化された9つの畳み込み層から構成されているが、提案された入力構造に適応するために異なる構成を有する。最終層で2つのsoftmax分類器と1つの回帰器とを使用する。第1の分類器は、候補が非体細胞呼び出し、SNV、挿入、または欠失のいずれであるかを特定する。第2の分類器は、4つのクラス(0は非体細胞、または1、2、または2よりも大きい長さを示す)で体細胞変異の長さを予測し、回帰器は、体細胞変異の位置を予測する。これらの分類器の出力を使用して、体細胞変異のセットを特定する。INDELの長さが2よりも大きいと予測される場合、その位置にオーバーラップする読み取りに対して単純な後処理ステップを実行して、読み取り位置合わせCIGAR文字列からINDEL配列を解決する。これは、イルミナシーケンサによって生成されたデータに対して良好に機能することが示されている。エラー率の高い配列データの場合、INDEL配列を解決するために、より複雑なローカル再調整後処理が実行される。
NeuSomaticは、スタンドアロンモードおよびアンサンブルモードで使用されることができるため、NeuSomatic−Sを使用してスタンドアロンモードを示し、NeuSomaticを予約してアンサンブルモードを示す。NeuSomaticおよびNeuSomatic−Sを、MuTect2、MuSE、SomaticSniper、Strelka2、VarDict、VarScan2などの最先端の体細胞変異検出法、およびアンサンブルアプローチであるSomaticSeq10と比較した。複数の合成データセットと実際のデータセットとを使用して、性能を比較対照した。以下に、データセット内の体細胞変異のAFを考慮して、体細胞変異検出の難易度の高い順に合成データセットを報告する。
プラチナサンプル混合データセットの比較
第1の合成データセットでは、以前の研究5、10と同様に、2つの通常のPlatinum Genomes18サンプル、NA12877およびNA12878を、70:30、50:50、および25:75の腫瘍純度比で混合して3つの腫瘍汚染プロファイルを作成し、5:95の比率で、汚染された正常サンプルを作成した。また、100%純粋正常および50%純粋腫瘍を使用したテストも含めた。評価の真セットとしてNA12877の参照呼び出しであったNA12878の生殖細胞変異を使用した。NeuSomatic−SとNeuSomaticは、双方とも、他の全ての方法を大幅に上回った(図11a、図11b、図11c)。NeuSomaticの性能の向上は、他のアプローチよりも低く、より困難な腫瘍純度(25:75混合)で増加した。要約すると、NeuSomaticは、SNVおよびINDEL全体でそれぞれ最大99.6および97.2%のF1−スコアを生成し、このデータセットの最低サンプル純度で最良の方法よりも最大7.2%向上した。腫瘍純度が50%のサンプルの場合、正常純度を100から95%に下げると、NeuSomaticの性能に僅かな影響(<0.3%)が発生したが、SomaticSeqの精度は、約3%低下した。
図11aおよび図11bは、プラチナ2サンプル混合データセットの性能分析のためのチャートである。このデータセットでは、4つの腫瘍および正常純度のシナリオ(50%T:100%N、70%T:95%N、50%T:95%N、および25%T:95%N)が使用されている。図11aは、適合率−再現率分析のためのグラフである:信頼度または品質スコアは、適合率−再現率曲線を導出するために使用される。各アルゴリズムによって達成された最高のF1−スコアが曲線に印刷され、黒丸でマークされている。図11bは、異なるINDELサイズに対するINDEL精度(F1−スコア)の性能分析のためのグラフである。図11cは、プラチナ2サンプル混合データセットでの様々な体細胞変異検出方法の性能を示す表である。各方法について、最高のF1を達成する適合率−再現率曲線の品質スコア閾値の適合率、再現率、およびF1−スコアを報告する。(RC:再現率、PR:適合率、F1:F1−スコア)。
ICGC−TCGA DREAMチャレンジデータセットの比較
第2の合成データセットには、異なるAFを有するペアの正常サンプルの正常なゲノムに変異をコンピュータでスパイクすることによって構築された(方法を参照)ICGC−TCGA DREAMチャレンジステージ3およびステージ4データセット19を使用した。腫瘍と正常サンプルを混合して、5つの腫瘍/正常純度のシナリオを作成した。NeuSomatic−Sは、ステージ3とステージ4の双方のデータセットで他の全てのスタンドアロン方法を平均してSNVで8%以上、INDELで22%上回った(図12a、図12b、図12c、図13a、図13b、図13c)。この性能の向上は、腫瘍の純度が低下するにつれて増加した。さらに、25:75混合のSNVや25:75および50:50混合のINDELなど、より困難なシナリオでは、NeuSomatic−SがSomaticSeqを上回っていたにもかかわらず、NeuSomatic(アンサンブルモード)がSomaticSeqとNeuSomatic−Sの双方を明らかに上回っていることを観察した。要約すると、NeuSomaticは、SNVとINDELに対してそれぞれ最大96.2および93.5%のF1−スコアをもたらし、最低のサンプル純度で最良の方法よりも最大34.6%向上した。腫瘍純度が50%のサンプルの場合、正常純度を100から95%に下げると、NeuSomaticの性能に僅かな影響があった(平均で約1.2%)が、SomaticSeqとStrelka2では、F1−スコアが>3%低下した。
図12aおよび図12bは、DREAMステージ3データセットの性能分析のためのグラフである。このデータセットでは、5つの腫瘍および正常純度のシナリオ(100%T:100%N、50%T:100%N、70%T:95%N、50%T:95%N、および25%T:95% N)が使用される。図12aは、適合率−再現率分析のグラフである:適合率または品質スコアを使用して、適合率−再現率曲線を導出する。各アルゴリズムによって達成された最高のF1−スコアが曲線に印刷され、黒丸でマークされている。図12bは、異なるINDELサイズのINDEL適合率(F1−スコア)の性能分析のグラフである。図12cは、Dreamチャレンジステージ3データセットでの異なる体細胞変異検出方法の性能を示す表である。各方法について、最高のF1を達成する適合率−再現率曲線の品質スコア閾値の適合率、再現率、およびF1−スコアを報告する。(RC:再現率、PR:適合率、F1:F1−スコア)。
図13aおよび図13bは、DREAMステージ4データセットの性能分析のためのグラフである。このデータセットでは、5つの腫瘍および正常純度のシナリオ(100%T:100%N、50%T:100%N、70%T:95%N、50%T:95%N、および25%T:95% N)が使用される。図13aは、適合率−再現率分析のグラフである:適合率または品質スコアを使用して、適合率−再現率曲線を導出する。各アルゴリズムによって達成された最高のF1−スコアが曲線に印刷され、黒丸でマークされている。図13bは、異なるINDELサイズのINDEL適合率(F1−スコア)の性能分析のグラフである。図13cは、Dreamチャレンジステージ4データセットでの異なる体細胞変異検出方法の性能を示す表である。各方法について、最高のF1を達成する適合率−再現率曲線の品質スコア閾値の適合率、再現率、およびF1スコアを報告する。(RC:再現率、PR:適合率、F1:F1−スコア)。
プラチナ腫瘍スパイクデータセットの比較
第3の合成データセットについては、以前の研究1、10と同様に、平均[0.05、0.1、0.2、0.3]の二項分布からサンプリングされた頻度のスパイクを使用して、NA12878の変異位置でNA12878からNA12877に読み取りをスパイクすることによって腫瘍サンプルを構築し、NA12877読み取りの独立したセットを純粋正常として使用した。固定比率でサンプルを混合して固定AFで体細胞変異を生じさせる以前の戦略とは異なり、この混合アプローチでは、0.025から0.3の範囲の様々なAFでサンプルを生成したことに留意されたい。NeuSomaticは、SNVとINDELに対してそれぞれ80.9および66.7%のF1−スコアをもたらし、最良の方法よりも最大4%向上した(図16a〜図16d)。低AF体細胞変異の場合、性能の改善は、さらに高かった(AF=0.025で11%の改善、AF=0.05で8%の改善)(図16b)。図16aは、適合率または品質スコアを使用して適合率−再現率曲線を導出する適合率−再現率分析を示している。各アルゴリズムによって達成された最高のF1−スコアが曲線に印刷され、黒丸でマークされている。図16bは、異なるAFの性能分析を示している。図16cは、異なるINDELサイズのINDEL適合率(F1−スコア)の性能分析を示している。図16dは、各方法について、最高のF1を達成する適合率−再現率曲線の品質スコア閾値の適合率、再現率、およびF1−スコアを示している。(RC:再現率、PR:適合率、F1:F1−スコア)。
全エクソームパネルおよび標的化パネルの比較
異なる標的濃縮でのNeuSomaticの性能を評価するために、Ashkenazi Jewish trio20からの全エクソームおよび標的化パネルデータセットを使用した(図17a〜図17d)。全エクソームデータセットでNeuSomaticおよびSomaticSeqをトレーニングし、トレーニングしたモデルを全エクソームとパネルの双方に適用した。全エクソームの場合、NeuSomaticは、SNVとINDELでそれぞれ最大99.3および88.6%のF1−スコアを達成した。標的化パネルでは、NeuSomaticとNeuSomatic−Sは、SNVのF1−スコアが>99.2%であり、他の方法を一貫して上回っていた。
図17aは、エクソームサンプル混合に対する様々な方法の性能分析を示している。このデータセットでは、4つの腫瘍および正常純度のシナリオ(50%T:100%N、70%T:95%N、50%T:95%N、および25%T:95%N)が使用されている。信頼度または品質スコアは、適合率−再現率曲線を導出するために使用される。各アルゴリズムによって達成された最高のF1−スコアが曲線に印刷され、黒丸でマークされている。ここでは、NeuSomatic、NeuSomatic−S、およびSomaticSeqのエクソームデータに関するトレーニングが行われる。
図17bは、標的パネルサンプル混合に対する様々な方法の性能分析を示している。このデータセットでは、4つの腫瘍および正常純度のシナリオ(50%T:100%N、70%T:95%N、50%T:95%N、および25%T:95%N)が使用されている。信頼度または品質スコアは、適合率−再現率曲線を導出するために使用される。各アルゴリズムによって達成された最高のF1−スコアが曲線に印刷され、黒丸でマークされている。ここでは、NeuSomatic、NeuSomatic−S、およびSomaticSeqのエクソームデータに関するトレーニングが行われる。
図17cは、全エクソームサンプルミックスデータセットでの様々な体細胞変異検出方法の性能を示している。各方法について、最高のF1を達成する適合率−再現率曲線の品質スコア閾値の適合率、再現率、およびF1−スコアを報告する。(RC:再現率、PR:適合率、F1:F1−スコア)。
図17dは、標的化パネルデータセットに対する異なる体細胞変異検出方法の性能を示している。各方法について、最高のF1を達成する適合率−再現率曲線の品質スコア閾値の適合率、再現率、およびF1−スコアを報告する。(RC:再現率、PR:適合率、F1:F1−スコア)。
全ゲノムプラチナ混合データでトレーニングされたモデルを双方の標的濃縮セットに適用すると、同様の性能が得られ、NeuSomaticのロバスト性が確認された(図18aおよび図18b)。他のデータセットと同様に、腫瘍純度が50%のサンプルの場合、全エクソームデータセットで正常純度を100から95%に下げると、NeuSomaticのF1−スコアが最小限に低下する可能性がある(平均で約0.3%)が、SomaticSeqおよびStrelka2は、F1−スコアで>5%の減少であった。
図18aは、全ゲノム(プラチナデータ、ゲノム混合)および全エクソーム(HG003−HG004エクソーム混合)でトレーニングされたモデルを使用してエクソーム混合データセットでテストする性能分析を示している。信頼度または品質スコアは、適合率−再現率曲線を導出するために使用される。各アルゴリズムによって達成された最高のF1−スコアは凡例に示され、曲線上に黒丸でマークされている。
図18bは、全ゲノム(プラチナデータ、ゲノム混合)および全ゲノム(HG003−HG004エクソーム混合)でトレーニングされたモデルを使用して、標的パネル混合データセットでテストする性能分析を示している。信頼度または品質スコアは、適合率−再現率曲線を導出するために使用される。各アルゴリズムによって達成された最高のF1−スコアは凡例に示され、曲線上に黒丸でマークされている。
PacBioデータセットの比較
さらに、エラー率の高い読み取り、特にロングリード配列プラットフォームからの読み取りに対するNeuSomaticの性能を評価した。生のPacBio読み取りに基づいて20、30、および50%のAF体細胞変異によってシミュレートされた腫瘍正常ペアサンプルを使用した(図14a、図14b、および図14c)。NeuSomaticは、F1−スコアがそれぞれ最大98.1および86.2%の体細胞SNVおよびINDELを特定し、これは、SNVで最大34.4%、INDELで最大53.2%、VarDictを上回った。この分析により、PacBioの長い生の読み取りのように配列読み取りのエラー率が高い場合であっても、体細胞変異を検出するNeuSomaticの能力が確認される。
異なるINDELサイズの比較
NeuSomaticが様々なデータセットの様々なINDELサイズで他の方法を一貫して上回っていたことは注目に値する(図11b、図12b、図13b、図14b、図16c、および図19)。大きな(>50塩基)INDELの場合、体細胞INDELを使用した短い読み取りのほとんどはソフトクリップされるため、INDEL情報は、パイルアップカウント行列で失われる。そのような場合、VarDictやMuTect2などの一部の方法は予測にローカルアセンブリを使用したため、NeuSomaticは、他の方法の予測から恩恵を受けた。
図14aおよび図14bは、PacBioデータセットにおける異なる体細胞変異検出法の性能分析のためのグラフである。このデータセットでは、3つの腫瘍および正常純度のシナリオ(70%T:95%N、50%T:95%N、および25%T:95%N)が使用されている。図14aは、適合率−再現率分析のためのグラフである:信頼度または品質スコアは、適合率−再現率曲線を導出するために使用される。各アルゴリズムによって達成された最高のF1−スコアが曲線に印刷され、黒丸でマークされている。図14bは、異なるINDELサイズのINDEL適合率(F1−スコア)の性能分析のグラフである。図14cは、各方法について、最高のF1を達成する適合率−再現率曲線の品質スコア閾値の適合率、再現率、およびF1−スコアを示している。(RC:再現率、PR:適合率、F1:F1−スコア)。図19は、Dreamステージ3、Dreamステージ4、プラチナ2サンプル混合、プラチナ腫瘍スパイク、PacBio、およびエクソームデータセットにおけるグラウンドトゥルースINDELのサイズ分布を示している。負のサイズは欠失に対応する。
INDELタイプと位置精度
説明した全てのデータセットについて、体細胞INDELの位置を正しく予測する(正確なINDEL配列を無視する)というよりも緩和された基準を使用して、様々な体細胞変異検出方法によるINDEL呼び出しの性能も評価した。繰り返すが、他のスキームに対するNeuSomaticの同様の優位性を観察し、これは、主な改善が、後処理INDEL解決ステップではなく提案されたCNN構造によってもたらされることを示している(図20aおよび図20b)。
図20aは、3つの腫瘍純度シナリオ(50%、30%および20%)および95%正常純度でのPacBioデータセットの予測された体細胞変異の位置とタイプとに基づくINDELの性能分析を示している(正確に予測されたINDEL配列の精度を無視する)。信頼度または品質スコアは、適合率−再現率曲線を導出するために使用される。各アルゴリズムによって達成された最高のF1−スコアが曲線に印刷され、黒丸でマークされている。
図20bは、Dreamステージ3、Dreamステージ4、プラチナ2サンプル混合、全エクソーム、およびプラチナ腫瘍スパイクデータセットの予測された体細胞変異の位置とタイプとに基づくINDELの性能分析を示している(正確な予測INDEL配列の精度を無視する)。最初の4つのデータセットでは、3つの腫瘍純度シナリオ(70%、50%、および25%)が使用されるが、正常サンプルは、95%純度を有する。信頼度または品質スコアは、適合率−再現率曲線を導出するために使用される。各アルゴリズムによって達成された最高のF1−スコアが曲線に印刷され、黒丸でマークされている。
読み取りカバレッジ分析
配列カバレッジが異なる技術に与える影響を評価するために、全エクソームデータセットをダウンサンプリングして、20倍から100倍の範囲の配列カバレッジを有するサンプルを取得した(図15aおよび図15b)。NeuSomaticは、異なるカバレッジで他の技術を一貫して上回った。カバレッジの低いサンプルで問題がより困難になるにつれて、改善は増加した。さらに、カバレッジを100倍から50倍に減らすと、NeuSomaticへの影響はごく僅かであった(SNVでは約1.5%、INDELSでは約5%)が、SomaticSeqのF1−スコアは、SNVとINDELの双方で約20%低下し、Strelka2のF1−スコアは、SNVで約13%、INDELで約15%低下した。この分析により、カバレッジの摂動に対するNeuSomaticのロバスト性と、より低いカバレッジで見られる可能性のある困難なシナリオでの利点の双方が明らかになった。
図15aは、全エクソームサンプル混合データセットに対する配列カバレッジの影響の性能分析のためのグラフである。この例では、腫瘍は、50%純度を有し、正常は、95%純度を有する。Y軸は、20倍から100倍の範囲のサンプル位置合わせカバレッジに対して各アルゴリズムによって達成された最高のF1−スコアを示している。
図15bは、全エクソームサンプル混合データセットに対する配列カバレッジの影響の性能分析のためのグラフである。この例では、腫瘍は、50%純度を有し、正常は、95%純度を有する。腫瘍および正常の位置合わせの範囲は、20倍から100倍の範囲である。信頼度または品質スコアは、適合率−再現率曲線を導出するために使用される。各アルゴリズムによって達成された最高のF1−スコアは凡例に示され、曲線上に黒丸でマークされている。
トレーニングのロバスト性
DREAMチャレンジステージ3データセットの異なる純度でトレーニングとテストを行うことにより、特定の純度に対するNeuSomaticのトレーニングのロバスト性を評価した。図21は、非常に異なる腫瘍純度でトレーニングおよびテストを行った場合であっても、性能が僅かに低下することを示している。また、複数の腫瘍純度から集計されたデータを使用したトレーニングは、標的腫瘍純度に関するトレーニングと同じくらい優れていることも観察された(図21)。これは、複数の腫瘍純度を組み込んだトレーニングセットが、腫瘍純度の変動に対してロバストなモデルを取得するのに十分であることを示唆している。
図21は、DREAMチャレンジステージ3データセットのクロスサンプルトレーニングの性能分析を示している。異なる純度でトレーニングされたNeuSomaticモデル、および全ての異なる純度からの集合入力でトレーニングされたモデルを使用して、70%、50%、および25%の腫瘍純度で各サンプルをテストした。信頼度または品質スコアは、適合率−再現率曲線を導出するために使用される。各アルゴリズムによって達成された最高のF1−スコアは凡例に印刷され、曲線上に黒丸でマークされている。
実際のデータとの比較
生殖細胞変異22のGenome−in−a−Bottleゴールドセットのように、体細胞変異21の高品質で包括的なグラウンドトゥルースデータセットがない場合、合成データ以外ではF1精度を計算することができない。幸いなことに、実際のデータに対するNeuSomaticの精度性能を推定するために使用できる、検証済み体細胞変異を有する既存のデータセットが存在する(実際のデータでF1−スコアを推定する方法の詳細については、方法を参照)。以下の2つのデータセットを使用した:CLL123、961個の検証済み体細胞SNVを含む慢性リンパ性白血病患者の全ゲノムデータ、およびCOLO−82924、25、454個の検証済み体細胞SNVを含む不死の転移性悪性黒色腫細胞株由来の全ゲノムデータセット。これら2つの実際のWGSサンプルでNeuSomaticを評価するために、DREAMチャレンジステージ3でトレーニングされたモデルを使用した。図22aおよび図22bに示されるように、NeuSomaticは、COLO−829悪性黒色腫サンプルおよびCLL1慢性リンパ性白血病サンプルについて、それぞれ99.7および93.2%という最高の外挿F1−スコアを達成した。また、結腸直腸腺癌(TCGA−AZ−6601)のTCGA26、27全エクソームシーケンシング(WES)サンプルに対してNeuSomaticを評価し、99.6%を超える最高の外挿F1−スコアを達成した(図22c)。
図22aは、実際のデータセットCOLO−829に対する様々な体細胞変異検出方法の性能を示している。図22bは、実際のデータセットCLL1に対する異なる体細胞変異検出方法の性能を示している。図22cは、実際のデータセットTCGA−AZ−6601に対する異なる体細胞変異検出方法の性能を示している。
クラウド上でNeuSomaticのスケーラビリティと費用対効果を実証するために、アンサンブルモードとスタンドアロンモードの双方を使用して、マイクロソフトAzureクラウドプラットフォーム上でTCGAから261個の全エクソーム配列癌サンプル(図23)も処理した。これらのサンプルは、結腸直腸腺癌、卵巣漿液性腺癌、子宮頸部扁平上皮癌、および子宮頸部腺癌を含む複数の癌タイプにわたって採取された。クラウドプラットフォームを使用すると、コンピューティングインスタンスをオンデマンドで自動的に起動することができたが、各サンプルの処理には、アンサンブルモードおよびスタンドアロンモードでそれぞれ平均2.42時間および0.72時間かかった。Azureのプリエンプティブルコンピューティングインスタンスを使用すると(標準のH16インスタンスタイプは、それぞれ16コアで使用された)、アンサンブルモードおよびススタンドアロンモードのサンプルあたりの処理コストは、それぞれ0.77米ドルおよび0.23米ドルと低くなった。また、これらのサンプルで検証された44,270のSNPと比較することにより、これらのサンプルのNeuSomaticの精度を評価した。これは、アンサンブルモードおよびスタンドアロンモードでそれぞれ98.9および97.2%の再現率を提供した。したがって、NeuSomaticは、異なるシーケンシング技術やシーケンシング戦略で使用できるだけでなく、ローカルHPCクラスタやエラスティッククラウドコンピューティングインフラストラクチャなどの様々なコンピューティングプラットフォームで実行されることもできる。
図23は、マイクロソフトAzureの実験に使用された261のTCGA癌サンプルのリストである。サンプルは、結腸直腸腺癌(COAD)、卵巣漿液性腺癌(OV)、子宮頸部扁平上皮癌および子宮頸部腺癌(CESC)の3種類の癌にわたって採取される。
考察
NeuSomaticは、体細胞変異を検出するための最初の深層学習ベースのフレームワークであり、高性能で普遍的である。同じCNNアーキテクチャを使用しながら、合成から実数までの複数のデータセット、全ゲノムから標的までの複数のシーケンシング戦略、およびショートリードから高エラーロングリードまでの複数のシーケンシング技術にわたって、腫瘍の純度を変化させるための最高の精度を実現する。具体的には、腫瘍の純度が低く、対立遺伝子の頻度が低い場合、NeuSomaticは、他の最先端の体細胞変異検出法を大幅に上回り、困難な問題に対処する能力を示している。NeuSomaticは、畳み込みニューラルネットワークの効率的な実装を利用して、体細胞変異検出の問題を迅速かつ正確に解決する。それは、腫瘍/正常位置合わせ情報の新たな要約を、ゲノムコンテキストで主要な信号を効果的にキャプチャすることができる入力行列のセットとして使用する。これらの行列で提案されたCNNアーキテクチャをトレーニングすると、生データから直接特徴表現を学習することができる。観察されたトレーニングデータから学習した深い特徴は、シーケンシングエラー、相互汚染、またはカバレッジバイアスによって導入されたアーティファクトから真の呼び出しを区別することができる重要な変異シグネチャを正確に特定することができる。NeuSomaticは、体細胞変異の検出に非常に広く適用することができるアプローチを提供することにより、最先端技術を大幅に進歩させると考えている。
方法
ICGC−TCGA DREAMチャレンジデータ
ステージ3データは、合成的であるが現実的な腫瘍正常ペアを作成するために、7,903のSNVと7,604のINDELとの変異を、50、33、20%の3つの異なるAFを有する同じ正常サンプルの健康なゲノムにコンピュータでスパイクして構築された正常サンプルおよび腫瘍サンプルから構成される。ステージ4データも同様の構成であるが、30および15%のAFの2つのサブクローンに16,268のSNVと14,194のINDELを有する。次に、95%の正常読み取りと5%の腫瘍読み取りを混合することにより、不純な正常を構築した。また、腫瘍と正常をそれぞれ100:0、70:30、50:50、25:75の比率で混合することにより、4つの腫瘍混合を構築した。したがって、これら4つの腫瘍混合比にわたる体細胞変異のAFは、ステージ3データセットでは5から50%、ステージ4データセットでは3.75から30%の範囲である。
プラチナ合成腫瘍データ
200×プラチナゲノムサンプルNA12878およびNA12877、ならびにそれらの真生殖細胞変異(v2017−1.0)18をダウンロードして、仮想腫瘍および正常ペア(ENAアクセッション番号PRJEB3246)を構築した。正常については、NA12877を50倍にダウンサンプリングした。腫瘍については、NA12877をそれぞれ15倍、25倍、および37.5倍で個別にダウンサンプリングし、それぞれをダウンサンプリングしたNA12878と35倍、25倍、および12.5倍で混合することにより、腫瘍純度が70、50、および25%の3つの50倍インシリコ混合サンプルを作成した。NA12878のヘテロ接合型およびホモ接合型の変異を使用し、これらは、NA12877の参照呼び出しであり、NA12877変異から少なくとも5塩基離れており、トレーニングおよび評価ステップの真セットとして互いに300塩基離れている(1,103,285SNVおよび174,754INDEL)。したがって、NA12878の生殖細胞変異の接合性に応じて、これら3つの腫瘍混合比にわたる体細胞変異のAFは、12.5から70%の範囲になる。
また、NA12877の参照呼び出しであるNA12878のヘテロ接合およびホモ接合変異の場所でダウンサンプリングされた(50倍のカバレッジまで)NA12878からダウンサンプリングされた(50倍のカバレッジまで)NA12877データに読み取りをランダムにスパイクすることにより、別の50倍の仮想腫瘍サンプルを生成した。各変異について、平均[0.05、0.1、0.2、0.3]を使用して二項分布からスパイクされた読み取りの頻度をランダムに割り当てた。したがって、変異の接合性に応じて、平均体細胞変異AFは、2.5から30%の範囲である。真セットのあいまいさを避けるために、関連するペアエンドリードが他の変異と重複しない変異(316,050SNVおよび46,978INDEL)のみを使用した。これは、NA12878からの読み取りで汚染された腫瘍を生成した。また、NA12877の別の独立したダウンサンプリング(50倍)データを純粋正常として使用した。
どちらの実験でも、FastQファイルと真生殖細胞系列変異とがダウンロードされ、BWA−MEM(v0.7.15)28、続いてPicard MarkDuplicates(v2.10.10)(https://broadinstitute.github.io/picard)、およびGATK IndelRealignerおよび塩基品質スコアの再調整(v3.7)29と位置合わせされた。
実際の腫瘍と正常のペアデータ
CLL1慢性リンパ性白血病データセット23(アクセッション:https://www.ebi.ac.uk/ega/datasets/EGAD00001000023)とCOLO−829不死転移性悪性黒色腫細胞株データセット24、25(アクセッション:https://www.ebi.ac.uk/ega/studies/EGAS00000000052)とを使用して、検証済み体細胞変異の公開リストによる実際の腫瘍と正常のペアデータに対するアプローチを評価した。
COLO−829データセットは、80倍の全ゲノム配列腫瘍サンプルとそれに対応する60倍の正常血液COLO−829BLサンプルから構成され、454個の検証済み体細胞SNVを有する。CLL1は、それぞれ53倍および42倍のカバレッジで、961個の公開された体細胞SNVを有する、全ゲノム配列腫瘍サンプルおよび一致する正常を有する。
TCGA−AZ−660126、27データセットは、結腸腺癌腫瘍サンプルと、TCGAからの対応する正常組織との全エクソーム配列である。腫瘍サンプルおよび正常サンプルは、それぞれ145倍および165倍の深さでシーケンシングされた。このサンプルのグラウンドトゥルース体細胞変異として、TCGA30およびCOSMIC31データベースで952個の検証済みSNVを使用した。
実際のデータについては、少なくとも2つのスタンドアロンの方法で呼び出された、またはCOSMICデータベースの同じ癌タイプの少なくとも2つのサンプルで検証済みの体細胞変異として報告された、予測された体細胞変異のパーセンテージとして外挿適合率を計算する。次に、再現率の調和平均とこの外挿適合率とに基づいて、外挿されたF1−スコアを計算する。
全エクソームおよび標的化パネルデータ
様々な標的濃縮実験でNeuSomaticを評価するために、Ashkenazi Jewish trio20の全エクソームデータセットを使用した。HG003およびHG004(ftp://ftp−trace.ncbi.nlm.nih.gov/giab/ftp/)の深層配列(200倍カバレッジ)全エクソーム位置合わせファイルを、信頼性の高い生殖系列変異(Genome−in−a−Bottleリリースv3.3.2)とともにダウンロードした。次に、HG004のランダムな70倍、50倍、および25倍のダウンサンプルとHG003の30倍、50倍、および75倍のダウンサンプルとの混合を使用して、それぞれ70、50、および25%の純粋腫瘍サンプルを構築した。また、95倍HG003と5倍HG004とのダウンサンプリングされた位置合わせを混合することにより、95%純粋正常を構築した。分析には、Agilent SureSelect Human All Exon V5 BEDファイルを使用した。グラウンドトゥルースの体細胞変異は、プラチナ合成腫瘍データ(11,720 SNV、878 INDEL)と同様に特定された。HG004の生殖細胞変異の接合性に応じて、これら3つの腫瘍混合比にわたる体細胞変異のAFは、12.5から70%の範囲である。
標的パネルでの性能を検証するために、上記の位置合わせと真データをイルミナのTruSight継承疾患パネルBEDファイル(216 SNV、5 INDEL)に制限した。標的パネル領域の真のINDELの数が限られているため、SNVの性能のみを評価した。
PacBioデータ
長期にわたる分析のために、HG002サンプル(ftp://ftp−trace.ncbi.nlm.nih.gov/giab/ftp/)20用の信頼性の高い生殖細胞系列変異(Genome−in−a−Bottleリリースv3.3.2)をダウンロードした。CHM1データセット32(SRAアクセッションSRX533609)を使用して、ロングリードエラープロファイルを作成した。次に、VarSimシミュレーションフレームワーク33をLongISLNDインシリコロングリードシーケンサシミュレータ34と組み合わせて使用して、100倍の純粋正常サンプルをシミュレートした。ランダム体細胞変異のセットを使用して、同じエラープロファイルで100倍の純粋腫瘍サンプルもシミュレートした。NGMLR(v0.2.6)35を使用して配列を位置合わせした。次に、純粋な正常位置合わせの47.5倍のダウンサンプルと純粋な腫瘍位置合わせの2.5倍のダウンサンプルとを混合して、純度95%の50倍の正常ペアを形成し、それぞれ40倍、35倍、25倍の独立した正常のダウンサンプルを混合し、純粋な腫瘍の10倍、15倍、および25倍のダウンサンプルを使用して、20、30、および50%の純度の50倍の腫瘍混合を構築した。トレーニングセットを第1染色体の120メガベース領域(39,818の真の体細胞SNVと38,804の真の体細胞INDEL)に制限し、テストセットを第22染色体全体(12,201の真の体細胞SNVと12,185の真の体細胞INDEL)に制限した。3つの腫瘍混合比にわたる体細胞変異のAFは、20から50%の範囲である。
候補変異の準備
第1のステップとして、腫瘍読み取り位置合わせをスキャンして、変異の証拠がある候補位置を見つける。これらの位置の多くは、ゲノム領域の複雑さ、または配列アーティファクトのために行われた生殖細胞変異または誤った呼び出しのいずれかを有する。候補となる場所のセットにリベラルなフィルタのセットを適用して、そのような場所の数が適切であることを確認する。一般に、SNVの場合、最小要件として、AF≧0.03またはSNVをサポートする2つ以上の読み取り、および19よりも大きい(実際のWESデータセットの場合は14よりも大きい)Phredスケーリングされた塩基品質スコアが必要であった。1塩基のINDELの場合、AF≧0.02または複数の読み取りサポートが必要であった。1塩基よりも大きいINDELの場合、AF≧0.03が必要である。アンサンブルアプローチでは、他の体細胞変異検出方法で検出された体細胞変異も入力候補として含めた。PacBioデータセットでは、SNVおよび1塩基よりも大きいINDELには、AF≧0.1を使用し、1塩基INDELには、AF≧0.15を使用した。
DREAMチャレンジデータセットでは、dbSNP36に存在する変異を入力候補から除外した。公正な比較のために、他の全ての体細胞変異検出ツールに対するdbSNP呼び出しもフィルタリングした。
入力変異行列
各候補位置について、サイズ5×32のkチャネルを有する3次元行列Mを準備する(図10a、図10c、および図10d)。各チャネルの5行は、4つのDNA塩基A、C、G、T、およびギャップ文字(「−」)に対応する。行列の32列のそれぞれは、位置合わせの1列を表す。
候補となる場所ごとに、腫瘍および正常読み取り位置合わせを抽出する。図10aに示されるように、次に、MSAとして、参照に対する腫瘍および正常サンプルの読み取り位置合わせを検討する。この目的のために、読み取りに挿入がある場合、参照配列にギャップを追加することによって参照配列を拡張する。このプロセスでは、入力BAMファイルの元の読み取り位置合わせをさらに再調整する必要はなく、挿入が発生した場所に追加の列を割り当てることによって、位置合わせをMSA形式に再構築するだけであることに留意する必要がある。特定の位置の後の複数の読み取りに複数の異なる挿入がある場合、それらを左揃えの配列と見なし、同じ列のセットに配置する(例えば、図10aのちょっとした例の第9の列のAおよびC塩基の挿入を参照)。この読み取り表現を使用して、各列のA/C/G/T/−文字の頻度を見つけ、腫瘍サンプルと正常サンプルの個別の行列を記録する(行列MのチャネルC2およびC3)。チャネルC1では、各列に参照塩基(またはギャップ)を記録する。チャネルCi(4≦i≦k)は、カバレッジ、塩基品質、マッピング品質、ストランド、クリッピング情報、編集距離、位置合わせスコア、ペアエンド情報など、腫瘍および正常サンプルの他の位置合わせ信号を記録する。例えば、塩基品質チャネルの場合、サンプルごとにサイズ5×32の行列を有し、各列に特定の塩基(特定の行)を有する読み取りの平均塩基品質を記録する。別の例として、編集距離チャネルの場合、サンプルごとにサイズ5×32の行列を有し、これは、各列に特定の塩基(特定の行)を有する読み取りの平均編集距離を記録する。行列Mの1つのチャネルは、候補が配置されている列を指定するために使用される。現在の実装では、スタンドアロンのNeuSomatic−Sアプローチで合計26のチャネルを使用した。
NeuSomaticのアンサンブル拡張のために、使用された6つの個別の方法のそれぞれによって報告された特徴をキャプチャするための追加のチャネルも含めた。この実装では、93個の追加チャネルを使用して、他の方法から抽出された特徴を表し、SomaticSeqによって位置合わせが報告された。したがって、NeuSomaticのアンサンブルモードは、候補行列ごとに119個の入力チャネルを有した。
候補の場所ごとに、候補の周囲の7つの塩基のウィンドウに配置情報を報告する。挿入による拡張された配置を考慮に入れるために、32列を予約する。挿入が大きいまれなケースでは、32列では位置合わせを表すのに十分でない場合がある。そのような場合、候補の近くに少なくとも3つの塩基を記録することができるように、挿入を切り捨てる。
CNNアーキテクチャ
提案されたCNN(図10b)は、以下のように構造化された9つの畳み込み層からなる。入力行列は、64個の出力チャネル、1×3カーネルサイズ、およびReluアクティベーションを備えた第1の畳み込み層に供給され、その後にバッチ正規化および最大プーリング層が続く。次に、この層の出力は、ResNet構造と同様のショートカットアイデンティティ接続を有する4つのブロックのセットに供給される。これらのブロックは、3×3カーネルの畳み込み層とそれに続くバッチ正規化および5×5カーネルの畳み込み層から構成される。これらのショートカットブロック間で、バッチ正規化層と最大プーリング層を使用する。最終ブロックの出力は、サイズ240の完全に接続された層に供給される。結果の特徴ベクトルは、2つのsoftmax分類器および1つの回帰器に供給される。第1の分類器は、非体細胞、SNV、挿入、および欠失の4つのクラスから変異タイプを予測する4方向分類器である。第2の分類器は、0、1、2、および≧3の4つのカテゴリから予測される変異長を予測する。非体細胞呼び出しは、ゼロサイズの変異として注釈が付けられ、SNVおよび1塩基のINDELは、サイズ1として注釈が付けられ、2塩基および≧3サイズのINDELは、それぞれ2および≧3サイズの変異として注釈が付けられる。回帰器は、行列内の変異の列を予測して、予測が正しい位置を標的とし、滑らかなL1損失関数を使用して最適化されるようにする。
CNNは、900K未満のパラメータを有するため、大きなバッチサイズを使用することで非常に効率的な実装が可能になる。全ゲノムトレーニングプロセスは、8台のTesla K80 Nvidia GPUを搭載したマシンで約8時間かかった。
CNNトレーニング
DREAMチャレンジ、プラチナ、および標的濃縮データセットの場合、ゲノム領域をランダムに50%のトレーニングセットと50%のテストセットとに分割する。PacBioデータセットについては、第1染色体の120メガベース領域でNeuSomaticをトレーニングし、第22染色体の全てでテストした。
データセットごとに、全ての異なる腫瘍/正常純度シナリオから生成されたトレーニング入力行列を組み合わせ、ネットワークのトレーニングに組み合わせたセットを使用した。次に、この統一されたトレーニング済みモデルを適用して、個々の腫瘍/正常純度設定でテストした。
DREAMチャレンジデータセットは、ステージ3で15,507の体細胞変異を有し、ステージ4で30,462の体細胞変異を有する。より良いネットワークトレーニングのために、BAMSurgeon19を使用して、ステージ3および4の腫瘍サンプルに元のDREAMデータと同様のAF分布を有する約95K以上のSNVおよび約95K以上のINDELをスパイクした。
学習率0.01、運動量0.9のSGDオプティマイザによってバッチサイズ1000を使用してネットワークをトレーニングし、400エポックごとに学習率に0.1を掛けた。
一般に、入力候補の場所は、真の体細胞変異よりもはるかに多くの非体細胞(参照または生殖細胞系列)呼び出しを有するため、各エポックでは、トレーニングセット内の全ての真の体細胞変異と、真の体細胞変異の数2倍のランダムに選択された非体細胞候補とを使用する。加重softmax分類損失関数を使用して、各カテゴリの候補数のバランスを取った。DREAMチャレンジデータの場合、トレーニングセットに合成変異を追加したため、非体細胞カテゴリの重みを増やして、テストセットの精度を高めた。
合成標的濃縮データセットを評価するために、トレーニングセットとして全エクソームおよび全ゲノムデータを使用した。
実際のWGSサンプルCLL1およびCOLO−829でテストするために、SomaticSeqおよびNeuSomaticのDREAMチャレンジステージ3でトレーニングされたモデルを使用した。実際のWESサンプルTCGA−AZ−6601については、別のTCGA WESデータセットであるTCGA−AZ−431530のデータを使用してトレーニングセットを準備した。このデータセットからの腫瘍および正常位置合わせを混合し、混合を2つの等しい位置合わせに分割した。次に、1つの位置合わせを純粋な正常として使用し、BAMSurgeonを使用して約91KのランダムSNVと約9KのランダムINDELとを他の位置合わせにスパイクして、トレーニング用の合成腫瘍サンプルを生成した。この合成腫瘍正常WESデータセットでトレーニングされたモデルを使用して、実際のWESデータセットであるTCGA−AZ−6601でNeuSomaticおよびSomaticSeqをテストした。261の実際のTCGAサンプルでの実験では、同様のアプローチを使用して、12のTCGAサンプルを使用してトレーニングセットを準備した。この合成データセットでトレーニングされたモデルは、261個のTCGAサンプルでテストするために使用された。
ハイパーパラメータチューニング
ハイパーパラメータの調整では、DREAMチャレンジステージ3の実験でゲノムの10%を使用し、他の全ての実験で派生パラメータを使用した。
さらに、4から16個のResNetブロックを備えたアクティブ化前のResNetアーキテクチャ(ResNet−18およびResNet−34アーキテクチャを含む)などの異なるネットワークアーキテクチャ(図24a〜図24e)、および提案された残りのNeuSomaticアーキテクチャ(図24f〜図24m)のいくつかの変異を調査した。これらのネットワークを評価するために、DREAMステージ3データセットのトレーニングデータを2つに分割し、一方を使用して異なるアーキテクチャをトレーニングし、他方を使用してスタンドアロンモードでそれらを評価した。図25は、精度、ネットワークパラメータの数、メモリ使用量、および速度の観点からこれらのアーキテクチャを比較している。一般に、これらのネットワークは、全て、従来の体細胞変異検出アプローチと比較して、比較的高い精度を得ることができる。この観察により、候補のゲノムコンテキストで主要な信号をキャプチャし、体細胞変異検出問題での畳み込みネットワークの効率的な実装を容易にする、提案されたデータ要約アプローチの重要性が明らかになった。2つの3×3畳み込みフィルタを備えたデフォルトのReSNetアーキテクチャ(図24a〜図24e)は、提案された残差ブロックを備えたアーキテクチャ(図24f〜図24m)と比較して平均精度が低くなっている。さらに、ストライド畳み込みを備えたネットワーク(図24a〜図24g)は、より多くのネットワークパラメータと実行時要件を有する。要約すると、各ネットワークアーキテクチャは、比較された態様のいくつかで利点を示しているが、他のネットワークは、それらの使用例と時間/計算上の制約を考慮してユーザによって容易に適応することができる一方で、提案されたNeuSomaticネットワークアーキテクチャ(図10b;図24k)をデフォルトのネットワークアーキテクチャとして選択した。
図24a〜図24mは、テストされた異なるネットワークアーキテクチャを示している。図24a〜図24eは、デフォルトの3×3畳み込み層を使用したアクティブ化前の残余ブロックの数が異なるResNetアーキテクチャを示している。ここでは、ストライド畳み込みがチャネル拡張で使用される。図24fおよび図24gは、3×3と5×5の畳み込み層といくつかの拡張された畳み込みを有する複数のカスタマイズされた残余ブロックを示している。ここでは、ストライド畳み込みがチャネル拡張で使用される。図24hは、3×3および5×5の畳み込み層といくつかの拡張された畳み込みを有する4つのカスタマイズされた残余ブロックを示している。ここでは、ストライド畳み込みは、使用されていない。図24i〜図24mは、異なる残余ブロックと完全に接続されたサイズを有するNeuSomatic残余アーキテクチャを示している。
図25は、図24a〜図24mに示される異なるネットワークアーキテクチャの性能分析を示している。ここでは、全てのネットワークが1000のバッチサイズで600エポックのトレーニング後に評価される。
他の体細胞変異検出アルゴリズム
分析において、Strelka2(v2.8.4)、Mutect2(v4.0.0.0)、SomaticSniper(v1.0.5.0)、MuSE(v1.0rc)、VarDict(v1.5.1)、VarScan2(v2.3.7)、およびSomaticSeq(v2.7.0)体細胞変異検出アルゴリズムをそれらのデフォルト設定で使用した。
PacBioデータに対してNeuSomaticの代替アプローチとしてVarDictを使用した。高エラー率のロングリードで体細胞変異を検出できるようにするために、「−m 10000 −Q 1 −q 5 −X 1 −c 1 −S 2 −E 3 −g 4 −k 0」パラメータ設定でVarDictを使用した。また、NeuSomaticと同様に、SNVにはAF≧0.1、INDELにはAF≧0.15を使用した。
SomaticSeqをトレーニングするために、NeuSomaticで使用されたものと同じ50%のトレーニング/テスト領域分割も実行した。さらに、NeuSomaticの場合と同様に、各データセットについて、全ての異なる腫瘍/正常純度シナリオからのトレーニングデータを組み合わせて、SomaticSeq SNVおよびINDEL分類器をトレーニングした。次に、これらの統一された分類器を使用して、個々の腫瘍/正常純度設定を予測した。
適合率−再現率分析では、各ツールによって割り当てられた信頼度または品質スコアに基づいて体細胞変異がソートされた。MuSEの場合、ソート基準として層の割り当てを使用した。VarDict、VarScan2、MuTect2、Strelka2、およびSomaticSniperの場合、それぞれ、ソートにVCFファイルで報告されたSSF、SSC、TLOD、SomaticEVS、およびSSCの値を使用した。SomaticSeqおよびNeuSomaticについては、QUALフィールドで体細胞変異の品質スコアを使用した。NeuSomaticは、CNNによる予測の確率に基づいて、予測された体細胞変異の品質スコアを報告する。
実際のサンプルの性能を分析するために、様々な方法からのPASS体細胞呼び出しを使用した(VarDictの場合、StrongSomaticステータスによる呼び出しに制限した)。NeuSomaticの場合、WGSの品質スコアの閾値として0.97を使用し、WESの閾値として0.6を使用した。
計算の複雑さ
全ゲノムデータの場合、30倍の腫瘍と正常位置合わせをスキャンして候補を見つけ、特徴を抽出し、入力行列を準備するのに、デュアル14コアIntel Xeon CPU E5−2680 v4 2.40GHzマシンで約3.9時間かかることができる。全ゲノムトレーニングプロセスは、8台のTesla K80 Nvidia GPUを搭載したマシンで約8時間かかる可能性がある(サイズ580,000のエポックあたり約90秒)。候補体細胞変異のカットオフAFに応じて、30倍の全ゲノムデータで候補変異のネットワーク予測を計算するには、8台のTesla K80 NvidiaGPUにより、約35分(0.05,3.9M候補のAFカットオフ)から約100分(0.03,11.5M候補のAFカットオフ)かかることができる。125倍の全エクソームデータの場合、ネットワーク予測のスキャン、準備、および計算全体に約30分かかる可能性がある。NeuSomaticアンサンブルとスタンドアロンアプローチ(CPUのみのモード)を使用して、125倍の全エクソームデータセットと30倍の全ゲノムデータセットに対する体細胞変異を予測するためのエンドツーエンドの実行時間が、図26aおよび図26bの他の体細胞変異検出技術と比較された。
図26aは、異なる体細胞変異検出アルゴリズムの実行時比較を示している。125倍の全エクソーム配列データセットで体細胞変異を予測するためのCPUコア時間が示されている。図26bは、異なる体細胞変異検出アルゴリズムの実行時比較を示している。CPUコア時間は、30倍の全ゲノムシーケンシングデータセットで体細胞変異を予測するために示されている。
コードの可用性
NeuSomaticは、PythonおよびC++で書かれている。その深層学習フレームワークは、PyTorch 0.3.1を使用して実装され、トレーニング.テスト用のGPUアプリケーションを有効にする。ソースコードは、https://github.com/bioinform/NeuSomaticにおいて、Creative Commons Attribution−NonCommercial−ShareAlike 4.0国際ライセンスの下で入手可能である。このホワイトペーパーの結果は、NeuSomatic v0.1.3に基づいていた。
報告の概要
実験設計の詳細については、この記事にリンクされているネイチャーリサーチレポート概要において入手可能である。
データの可用性
この研究の配列データは、様々なソース、すなわち、European Nucleotide Archive(アクセッション:PRJEB3246;https://www.ebi.ac.uk/ena)、Sequence Read Archive(アクセッション:SRX1026041;https://www.ncbi.nlm.nih.gov/sra)、国際がんゲノムコンソーシアム(プロジェクト:ICGC−TCGA DREAM変異呼び出しチャレンジ、制御されたアクセス:https://icgc.org/)、Cancer Genome Atlas(アクセッション:TCGA−AZ−6601,TCGA−AZ−4315;制御されたアクセス:https://gdc.cancer.gov/)、European Genome−phenome Archive(アクセッション:EGAS00000000052、EGAD00001000023;制御されたアクセス:https://www.ebi.ac.uk/ega/)、およびGenome−in−a−Bottle(アクセッション:HG002、HG003、HG004;ftp://ftp−trace.ncbi.nlm.nih.gov/giab/ftp/)から収集された。合成データは、https://github.com/bioinform/NeuSomatic/blob/paper/etc/data_scripts.zipのスクリプトを使用して、上記のデータセットから生成された。他の全ての関連データは、要求に応じて入手可能である。
参考文献
1.Cibulskis,K.ら、Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples.Nat.Biotechnol.31,213(2013)。
2.Fan,Y.ら、MuSE:accounting for tumor heterogeneity using a sample−specific error model improves sensitivity and specificity in mutation calling from sequencing data.Genome Biol.17,178(2016)。
3.Lai,Z.ら、VarDict:a novel and versatile variant caller for next−generation sequencing in cancer research.Nucleic Acids Res.44,e108−e108(2016)。
4.Koboldt,D.C.ら、VarScan 2:somatic mutation and copy number alteration discovery in cancer by exome sequencing.Genome Res.22,568−576(2012)。
5.Kim,S.ら、Strelka2:fast and accurate calling of germline and somatic variants.Nat.Methods 15,591−594(2018)。
6.Larson,D.E.ら、SomaticSniper:identification of somatic point mutations in whole genome sequencing data.Bioinformatics 28,311−317(2011)。
7.Wang,Q.ら、Detecting somatic point mutations in cancer genome sequencing data:a comparison of mutation callers.Genome Med.5,91(2013)。
8.Alioto,T.S.ら、A comprehensive assessment of somatic mutation detection in cancer using whole−genome sequencing.Nat.Commun.6,10001(2015)。
9.Roberts,N.D.ら、A comparative analysis of algorithms for somatic SNV detection in cancer.Bioinformatics 29,2223−2230(2013)。
10.Fang,L.T.ら、An ensemble approach to accurately detect somatic mutations using SomaticSeq.Genome Biol.16,197(2015)。
11.Poplin,R.ら、A universal SNP and small−indel variant caller using deep neural networks.Nat.Biotechnol.36,983(2018)。
12.Luo,R.,Sedlazeck,F.J.,Lam,T.−W.&Schatz,M.Clairvoyante:a multi−task convolutional deep neural network for variant calling in single molecule sequencing.https://www.biorxiv.org/content/early/2018/04/28/310458(2018)。
13.Simple convolutional neural network for genomic variant calling with tensorflow.https://towardsdatascience.com/simple−convolution−neural−network−for−genomic−variant−calling−with−tensorflow−c085dbc2026f(2017)。
14.Esteva,A.ら、Dermatologist−level classification of skin cancer with deep neural networks.Nature 542,115−118(2017)。
15.Torracinta,R.ら、Adaptive somatic mutations calls with deep learning and semi−simulated data.https://www.biorxiv.org/content/early/2016/10/04/079087(2016)。
16.Running DeepVariant.https://cloud.google.com/genomics/docs/tutorials/deepvariant(2018)。
17.He,K.,Zhang,X.,Ren,S.&Sun,J.Deep residual learning for image recognition.Proc.IEEE conf.comput.vis.pattern recognit.770−778(2016)http://openaccess.thecvf.com/content_cvpr_2016/html/He_Deep_Residual_Learning_CVPR_2016_paper.html.
18.Eberle,M.A.ら、A reference data set of 5.4 million phased human variants validated by genetic inheritance from sequencing a three−generation 17−member pedigree.Genome Res.27,157−164(2017)。
19.Ewing,A.D.ら、Combining tumor genome simulation with crowdsourcing to benchmark somatic single−nucleotide−variant detection.Nat.Methods 12,623(2015)。
20.Zook,J.M.ら、Extensive sequencing of seven human genomes to characterize benchmark reference materials.Sci.Data 3,160025(2016)。
21.Xu,C.A review of somatic single nucleotide variant calling algorithms for next−generation sequencing data.Comput.Struct.Biotechnol.J.16,15−24(2018)。
22.Zook,J.M.ら、Integrating human sequence data sets provides a resource of benchmark SNP and indel genotype calls.Nat.Biotechnol.32,246(2014)。
23.Puente,X.S.ら、Whole−genome sequencing identifies recurrent mutations in chronic lymphocytic leukaemia.Nature 475,101(2011)。
24.Morse,H.G.&Moore,G.E.Cytogenetic homogeneity in eight independent sites in a case of malignant melanoma.Cancer Genet.Cytogenet.69,108−112(1993)。
25.Pleasance,E.D.ら、A comprehensive catalogue of somatic mutations from a human cancer genome.Nature 463,191(2010)。
26.Network,C.G.A.ら、Comprehensive molecular characterization of human colon and rectal cancer.Nature 487,330(2012)。
27.Grasso,C.S.ら、Genetic mechanisms of immune evasion in colorectal cancer.Cancer Discov.8,730−749(2018)。
28.Li,H.Aligning sequence reads,clone sequences and assembly contigs with BWA−MEM.https://arxiv.org/abs/1303.3997(2013)。
29.Van der Auwera,G.A.ら、From FastQ data to high−confidence variant calls:the genome analysis toolkit best practices pipeline.Curr.Protoc.Bioinforma.43,10−11(2013)。
30.Grossman,R.L.ら、Toward a shared vision for cancer genomic data.N.Engl.J.Med.375,1109−1112(2016)。
31.Forbes,S.A.ら、COSMIC:somatic cancer genetics at high−resolution.Nucleic Acids Res.45,D777−D783(2016)。
32.Chaisson,M.J.ら、Resolving the complexity of the human genome using single−molecule sequencing.Nature 517,608(2015)。
33.Mu,J.C.ら、VarSim:a high−fidelity simulation and validation framework for high−throughput genome sequencing with cancer applications.Bioinformatics 31,1469−1471(2014)。
34.Lau,B.ら、LongISLND:in silico sequencing of lengthy and noisy datatypes.Bioinformatics 32,3829−3832(2016)。
35.Sedlazeck,F.J.ら、Accurate detection of complex structural variations using single−molecule sequencing.Nat.Methods 15,461−468(2018)。
36.Sherry,S.T.ら、dbSNP:the NCBI database of genetic variation.Nucleic Acids Res.29,308−311(2001)。
実施例2
体細胞変異の正確な検出は困難であるが、癌の形成、進行、および治療を理解するために重要である。最近、最初の深層畳み込みニューラルネットワークベースの体細胞変異検出アプローチであるNeuSomaticを提案し、インシリコデータで性能上の利点を実証した。この研究では、SEQC−IIコンソーシアムからの最初の包括的で十分に特徴付けられた体細胞参照サンプルを使用して、癌変異検出で深層学習フレームワークを利用するためのベストプラクティスを調査した。コンソーシアムによってこれらの参照サンプルに対して確立された信頼性の高い体細胞変異を使用して、実際のシナリオを表すサンプルから派生した複数のデータセットでロバストなモデルを構築するための戦略を特定した。提案された戦略は、WGS、WES、新鮮なFFPE DNA入力のAmpliSeq標的配列、様々な腫瘍/正常純度、および様々なカバレッジ(10倍から2000倍の範囲)などの複数のシーケンシング技術にわたって高いロバスト性を実現した。NeuSomaticは、一般的な従来の検出アプローチを大幅に上回り、カバレッジが低い、変異頻度が低い、DNA損傷、ゲノム領域が困難などの困難な状況でも優れていた。
序文
体細胞変異は、重要な癌の原動力である。正確な体細胞変異の検出により、癌患者の正確な診断、予後、および治療が可能になる.次世代シーケンシング技術から体細胞変異を特定するために、いくつかのツールが開発されている2−11。一般に、従来の手法では、腫瘍および正常のペアの配列データで抽出された一連の手作りの配列特徴を使用する様々な統計/アルゴリズムモデリングアプローチを通じて、背景ノイズ、生殖細胞変異、および/または相互汚染から体細胞変異を特定する2−10。これらの手動で設計されたアプローチは、それらが開発された特定の癌の種類、サンプルの種類、またはシーケンシング戦略を超えて簡単に一般化することはできない。
最近、NeuSomaticと呼ばれる深層学習ベースの体細胞変異検出アプローチが提案され、これは、畳み込みニューラルネットワーク(CNN)を使用して、生データから直接特徴表現を学習する11。NeuSomaticは、腫瘍/正常位置合わせ情報の新たな要約を入力行列のセットとして使用し、これを採用して、真の体細胞変異をアーティファクトから効果的に区別する方法を学習するモデルを効率的にトレーニングすることができる。NeuSomaticによってトレーニングされたネットワークモデルは、手動の介入なしに、リード位置合わせとゲノムコンテキストから直接重要な変異信号をキャプチャすることができる。したがって、NeuSomaticは、適切なデータのトレーニングを通じて、様々なシーケンシング技術、癌の種類、腫瘍および正常純度、変異対立遺伝子の頻度など、様々な問題ステートメントに簡単に適用できるフレームワークを提供する。さらに、スタンドアロンの体細胞変異検出法として、または既存の方法のアンサンブルを使用して実装し、最高の精度を実現することができる。NeuSomaticは、インシリコデータセットで従来の手法を大幅に上回っていることが示されている。既知の「グラウンドトゥルース」体細胞変異を伴う完全に特徴付けられたベンチマークサンプルがないため、実際のサンプルの性能評価は、検証済みの少数の体細胞変異の部分感度分析に制限されていた。したがって、インシリコデータにNeuSomaticのCNNベースのフレームワークを実装することで得られる利点にもかかわらず、実際の癌サンプルでのNeuSomaticの精度と再現性はこれまで包括的に評価されていなかった。
最近、FDA主導の配列品質管理フェーズII(SEQC−II)コンソーシアムの体細胞変異ワーキンググループが、参照一致腫瘍正常サンプルを開発した:ヒトトリプルネガティブ乳癌細胞株(HCC1395)および一致Bリンパ球由来正常細胞株(HCC1395BL)12、13。SEQC−IIコンソーシアムは、直交シーケンシング技術、複数のシーケンシング複製、および複数のバイオインフォマティクス分析パイプラインを使用して、HCC1395の体細胞単一ヌクレオチド変異(SNV)および挿入/欠失(INDEL)の明確な「ゴールドセット」を開発した。
最初の包括的でよく特徴付けられたペアの腫瘍正常参照癌サンプルとして、このデータセットは、複数のサイトおよび技術で準備された付随するシーケンシングデータとともに、2つの重要な目的を達成するための独自のリソースを提供する。まず、コンソーシアムがこれらの参照サンプル用に開発した信頼性の高い体細胞変異コールセットを使用して、従来のスキームと比較して、実際の癌サンプルにおける深層学習ベースの体細胞変異検出の詳細な分析を実行した。第2に、SEQC−IIデータを使用して様々なモデル構築戦略を検討し、NeuSomaticでCNNをトレーニングし、実際のシナリオを表すサンプルから派生した複数のデータセットで効果的なトレーニングアプローチを特定した。全ゲノムシーケンシング(WGS)、全エクソームシーケンシング(WES)、および10倍−2000倍の範囲の収束を伴うAmpliSeq標的化シーケンシングデータセットで提案された戦略を評価した。WGSおよびWESデータは、様々な入力量の3つのライブラリ準備プロトコルを使用して、ホルマリン固定パラフィン包埋(FFPE)および新鮮なDNAから、および複数のプラットフォーム/配列サイトから導出された。腫瘍および正常な滴定を使用して、5%〜100%の腫瘍純度、5%の汚染された一致正常、および10倍〜300倍WGSカバレッジについて様々なアプローチを評価した。NeuSomaticで深層学習フレームワークをトレーニングおよび実装するために提案された戦略は、前述の全ての実際のシナリオで高いロバスト性を実現し、従来のペアの腫瘍および正常の体細胞変異検出アプローチを大幅に上回った。
SEQC−II参照癌サンプルに関する分析では、NeuSomaticに実装された深層学習スキームが、従来の手法では簡単に解決できない体細胞変異検出の主な課題を克服するのに役立つことが示されている。したがって、我々の研究から導出された深層学習モデルおよび戦略は、強力な癌変異検出のための実用的なベストプラクティスの推奨事項を研究コミュニティに提供することができる。
結果
参照サンプルおよびデータセット
体細胞変異検出問題のフルスペクトル分析には、SEQC−IIコンソーシアムの体細胞変異ワーキンググループによって開発された、最初の包括的な全ゲノム特性を備えた参照腫瘍正常ペア乳癌細胞株(HCC1395およびHCC1395BL)を使用した12、13。SEQC−IIコンソーシアムによって4つの信頼水準(高、中、低、および未分類)に分類されたHCC1395の呼び出しのスーパーセットにおけるグラウンドトゥルースSNVおよびINDEL体細胞変異のVAF分布を示している図27に示されるように、我々は、コンソーシアムによって導出された信頼性の高い体細胞変異(39,536SNVおよび2,020 INDEL)を、我々のグラウンドトゥルースセットとして利用した。高信頼性および中信頼性の呼び出しは、体細胞変異の「真のセット」としてグループ化される。予測の一貫性と再現性を幅広く評価するために、FFPEで、実際のWGS、WES、AmpliSeq標的シーケンシングおよび6つの中心で複数のプラットフォームを使用して配列された新鮮なDNA(方法を参照)など、様々なカバレッジ、腫瘍純度、ライブラリ準備を含む現実的な癌検出アプリケーションを表す様々なデータセットからの合計123の複製を使用した。
図27は、SEQC−IIコンソーシアムによって4つの信頼レベル(高、中、低、および未分類)に分類されたHCC1395の呼び出しのスーパーセットにおけるグラウンドトゥルースSNVおよびINDEL体細胞変異のVAF分布を示している。高信頼性および中信頼性の呼び出しは、体細胞変異の「真のセット」としてグループ化される。
分析の概要
様々なトレーニング済みネットワークモデルを使用して、NeuSomaticの深層学習ベースの体細胞変異検出アプローチを評価し、MuTect2、MuSE、SomaticSniper、Strelka2、VarDict、TNscope、Lancetなどの広く使用されている7つの従来の体細胞変異呼び出しアルゴリズムと比較した。NeuSomaticをスタンドアロンモード(NeuSomatic−Sとして表示)とアンサンブルモードとの双方で評価し、アンサンブルモードでは、MuTect2、SomaticSniper、VarDict、MuSE、Strelka2によって報告された予測も、生データに加えて入力チャネルとして含まれている。
図28a〜図28eは、SEQC−IIデータセットの123回の複製に対するNeuSomaticの全体的な性能を示している。図28aは、DREAMチャレンジステージ3データセットでトレーニングされたNeuSomaticモデルが、SEQC−IIデータに適用されたときに他の手法よりも優れていることを示している。図28bは、SEQC−II参照サンプルを使用して様々なNeuSomaticモデルをトレーニングすると、平均F1−スコアがさらに4〜5%向上したことを示している。図28cは、SEQC−IIデータでトレーニングされたモデルを使用して、NeuSomaticが、WGS、WES、FFPE、AmpliSeq、および様々なライブラリ準備データセットの様々な純度/カバレッジの複製の多様なセットにわたって、他の手法よりも一貫した優位性を実現することを示している。この副図では、各複製について、異なるアプローチで最良のF1−スコアが計算された。ヒートマップは、体細胞変異検出アプローチのいずれかのF1−スコアと最良のF1−スコアとの絶対差を示している。各パネルには、123回の繰り返しにわたる各アプローチの平均F1−スコアが示されている。図28dは、SNVおよびINDELの6つのデータセットにおける123個の複製にわたる様々な手法の性能を比較している。各複製について、様々なアプローチで最良のF1−スコアが計算された。ヒートマップは、最良のF1−スコアに対する体細胞変異検出アプローチのいずれかのF1−スコア間の絶対差を示している。123回の繰り返しにわたる各アプローチの平均F1−スコアが示されている。
分析では、いくつかの異なるトレーニングモデルを使用した。まず、DREAMチャレンジステージ3データセット13からのインシリコスパイクインを使用してトレーニングされた、最近公開された既に利用可能なモデル11を使用した。サンプルタイプ、シーケンシングプラットフォーム、カバレッジ、スパイクイン変異頻度、およびDREAM3モデルのトレーニングに使用されるサンプルの不均一性の間の大きな不一致にもかかわらず、このモデルは、SNVとINDELの双方の異なるサンプル間で平均された平均F1−スコアで約4%だけ様々な特性の実際の癌データセット全体で他の従来の手法を上回った(図28a)。この優位性は、前述のバリエーションに対するNeuSomaticのロバスト性をサポートするが、NeuSomaticで使用される深層学習フレームワークは、特にINDELを予測し、AmpliSeqのようなPCRが豊富なデータセットのより高いカバレッジを実現するために、実際の癌サンプルからシーケンシング特徴と変異シグネチャを学習することで、さらに優れた性能を発揮できることも示唆している。
実際の癌サンプルを使用してネットワークモデルを構築するための最も効果的な戦略を特定するために、SEQC−II参照サンプルを使用してNeuSomaticのさらに10のトレーニングアプローチを評価した(図28e)。
第1のモデル(SEQC−WGS−スパイク)は、インシリコ腫瘍−正常複製のWGSペアのセットでトレーニングされ、インシリコ腫瘍は、異なる正常な複製に変異をスパイクすることによって設計された。第2のモデル(SEQC−WGS−GT−50)は、ゲノムの50%にある実際のWGS腫瘍−正常の複製ペアのセットでHCC1395のグラウンドトゥルース体細胞変異を使用してトレーニングされた。第3のモデル(SEQC−WGS−GT50−スパイクWGS10)は、第1のモデルのトレーニングデータの10%を第2のモデルのトレーニングデータに追加して、多数のスパイクイン変異と現実的な体細胞変異の双方を利用することによって作成された。これらの3つのモデルは、全てのデータセットでテストされた。FFPEやWESなどの特定のデータセットについては、インシリコ腫瘍および正常の複製の合成ペアのセットを使用して、6つの追加の特殊モデルも準備した。全てのモデルについて、ゲノムの50%ホールドアウト領域(SEQC−WGS−GT−50モデルには使用されていない)での性能を評価した。また、SEQC−WGS−GT−50モデルと同様であるが、ゲノム全体で全てのグラウンドトゥルース変異を使用してモデル(SEQC−WGS−GT−ALL)をトレーニングした。SEQC−WGS−GT−ALLは、全ての真の変異が確認されたWGSデータセットに直接適用できるのではなく、HCC1395以外の他のデータセットまたはサンプルの性能分析に役立つ。
SEQC−IIサンプルでトレーニングされたモデルを使用して、平均F1−スコアが約4〜5%向上することにより、平均DREAM3モデルの性能が向上した(図28b)。提案されたモデル構築戦略は、様々なサンプルタイプと配列戦略にわたって一貫して最良であり、SNVとINDELとの平均F1−スコアに関して従来のアプローチをそれぞれ5.7%および7.8%以上上回った。同様に、全てのサンプルにわたって、他の従来の手法の中央値F1−スコアと比較して5.6%を超える改善が観察された(図28cおよび図28d)。
WGSデータセット
HiSeqX10、HiSeq4000、およびNovaSeq S6000プラットフォームを使用して6つの配列中心に配列された21個のWGS複製に対して前述の体細胞呼び出し技術およびネットワークモデルの性能を評価した(図29a〜図29d)。
NeuSomatic SEQC−WGS−GT50−スパイクWGS10モデルは、他のスキームよりも一貫して優れた性能を示したが、複製間で僅かな相違があり、ロバスト性と再現性とが実証されている(図29a)。NeuSomaticは、SNVおよびINDELの平均F1−スコアが94.6%および87.9%であり、他の従来の体細胞変異検出スキームの平均F1−スコアよりもSNVおよびINDELでそれぞれ5.6%および10.2%以上優れている。適合率−再現率分析により、他の手法と比較したNeuSomaticの高精度が、この優位性を促進したことが明らかになった(図29b)。異なるモデルトレーニング戦略を比較すると、NeuSomatic−S INDEL呼び出しは、グラウンドトゥルース体細胞変異を使用したトレーニングからより多くの利益を得ることが明らかになったが、一般に、DREAM3モデルと比較してSEQC−II参照サンプルを使用すると最大11%の大幅な改善が見られた(図29c)。
腫瘍純度および汚染された正常
腫瘍の純度と一致する正常なサンプルの腫瘍細胞の汚染は、変異の検出精度に大きく影響するため、WGSサンプルの腫瘍−正常滴定によって、様々な配列深度とサンプル純度におけるモデルのロバスト性を調査した。我々は、最初に、5%〜100%の純度の腫瘍サンプルを純粋な正常サンプルと組み合わせて10倍〜300倍のカバレッジ範囲で研究した(図30a〜図30h)。一般に、NeuSomaticは、腫瘍の純度とカバレッジの変動にもかかわらず、他のスキームよりも優れていることを維持した。これは、そのロバスト性を反映している(図30a、図30e、および図30f)。それは、カバレッジが低いなどのより困難な場合には、従来のスキームに比べて最大の利点があった(例えば、カバレッジが10倍で純度が100%のサンプルのF1−スコアの利点は約20%である)。
さらに、80倍のカバレッジで10%〜100%の範囲の腫瘍サンプル純度について、正常サンプルの5%腫瘍汚染に対するロバスト性を分析した(図30b)。NeuSomaticは、F1−スコアの絶対変化の中央値が5%未満で、腫瘍の正常な相互汚染に対して高いロバスト性をもたらした。純粋な正常でF1−スコアが高い他の手法の中でも、Strelka2は、腫瘍汚染に対して高いロバスト性を示した(F1−スコアの中央値の変化は8.4%)。MuTect2、MuSE、Lancet、およびTNscopeは、純粋な正常シナリオではF1−スコアが高いにもかかわらず、汚染された正常シナリオを使用した場合、F1−スコアが最大約50%大幅に低下した。
グラウンドトゥルース変異でトレーニングされたモデルは、主に精度が高いため、一般にDREAM3モデルよりも高い利点が得られた(図30cおよび図30g)。インシリコ腫瘍でトレーニングされたSEQC−WGS−スパイクモデルも、グラウンドトゥルースでトレーニングされたモデルと比較して精度が低くなった。一般に、INDEL、低純度、低カバレッジのサンプルは、SEQC−IIデータのトレーニングから最も恩恵を受けた。
様々なカバレッジと純度設定とにわたる様々なINDELサイズのF1−スコアを分析すると、挿入と欠失との双方のサイズ変動に対するNeuSomaticのロバスト性が明らかになった(図30d)。
ライブラリの準備およびDNA入力
ライブラリ準備が予測のロバスト性に与える影響を測定するために、モデルを使用して、TruSeq−NanoおよびNextera Flexプロトコルと3つのDNA入力量:1ng、10ng、および100ngを使用して準備した6つの複製をテストした(図31a〜図31fおよび図31h)。NeuSomaticは、様々なライブラリ準備アプローチで他の手法を一貫して上回った。1ngのTruSeq−Nanoライブラリの場合、冗長な読み取りを欠失した後の有効なカバレッジが制限されているため(約7倍)、全ての方法の性能が低下した。平均して、NeuSomaticは、従来の体細胞変異検出技術と比較して、SNVに対して8.4%のF1−スコアの改善をもたらした。INDELの場合、LancetのアセンブリベースのINDEL呼び出し元は、NeuSomatic SEQC−WGS−GT50−スパイクWGS10モデルを約4%上回った(図31a)。対照的に、NeuSomaticのSEQC−WGS−GT50モデルは、INDELのLancetと同様の性能を達成した(図31bおよび図31g)。SEQC−IIスパイクインまたはグラウンドトゥルースデータのトレーニングにより、DREAM3モデルと比較してSNVのF1−スコアが全体で約8.4%向上した。この利点は、1ngの入力を有するTruSeq−Nanoライブラリを含むより困難なケースでより顕著であった。また、NeuSomatic−Sがこれらのモデルからより多くの恩恵を受けていることも観察した。
キャプチャ(WES)および標的化(AmpliSeq)パネル
6つのシーケンシングサイトで配列された16個のWES複製、およびAmpliSeqデータセットの3つの複製(図31c〜図31f、図31i、および図31j)でモデルをテストした。SEQC−II WGSサンプルでトレーニングされたモデルは、カバレッジとプラットフォームバイアスが異なるが、NeuSomaticは、カバレッジが2000倍のWESデータセットとAmpliSeqデータセットとの双方で良好に機能した。WESの場合、NeuSomaticは、95.4%の平均SNV F1−スコアを達成し、代替スキームの平均F1−スコアを2.6%以上改善した。WESデータセットでは、WESおよびWGSデータでトレーニングされたモデルは、約95%のF1−スコアで同様に実行された。AmpliSeqデータセットでは、NeuSomatic SEQC−WG−GT50およびSEQC−WES−スパイクモデルが90%を超える平均F1−スコアを達成した。これは、Strelka2とともに他のモデル/スキームと比較して最高であった。
FFPE処理の効果
FFPE処理サンプルに対するNeuSomaticの予測のロバスト性を測定するために、1時間、2時間、6時間、および24時間の4つの異なるホルムアルデヒド固定時間で準備された8つのWGSおよび7つのWES FFPE複製を使用した。FFPEと新鮮な正常一致サンプルとの双方を使用して各FFPE複製を評価した。NeuSomaticは、FFPEアーティファクトが存在するにもかかわらず、他の手法よりも一貫して優れた性能を維持し、固定時間と使用された一致する正常サンプルに対してほとんど不変であった(図32a、図32e、および図32f)。WGS FFPEデータでは、NeuSomaticは、SNVおよびINDELでそれぞれ86.1%および76.9%の平均F1−スコアを生成し、代替手法の平均F1−スコアよりも4%および6%以上改善した。同様に、FFPE WESデータの場合、NeuSomaticは、78.9%の平均F1−スコアを生成し、従来のスキームの平均F1−スコアよりも4%以上優れている(図32c)。
一般に、トレーニングにSEQC−IIサンプルを活用した場合、DREAM3モデルよりも大幅なブーストが観察された(図32bおよび図32d)。FFPEサンプルでトレーニングされたモデルは、NeuSomaticを使用したINDEL予測についてのみ、新鮮なサンプルでトレーニングされたモデルを改善するように見えたが、SNVの場合、新鮮なサンプルでトレーニングされたモデルが優れていた。
サンプル固有のモデル
SEQC−IIでトレーニングされたユニバーサルモデルは、他の従来の体細胞変異検出スキームよりも一貫して優れて実行することが示されているが、ここでは、異なるSEQC−IIデータセット全体で9つの複製ペアを使用して、サンプル固有のトレーニングされたモデルが追加の精度向上をもたらすかどうかを調査した。各サンプルについて、そのサンプル用に準備されたインシリコ腫瘍−正常複製を使用して、NeuSomaticモデルおよびNeuSomatic−Sモデルをトレーニングした。また、SEQC−WGS−スパイクモデルに使用されるトレーニング候補の10%と、各サンプルから導出されたトレーニングデータを組み合わせて、個別のモデルをトレーニングした。これらの2つのサンプル固有のモデルをユニバーサルSEQC−WGS−スパイクモデルと比較した(図33a〜図33c)。平均して、サンプル固有のモデルは、NeuSomaticのSEQC−WGS−スパイクモデルに比べて約0.5%SNVおよび約5%のINDEL F1−スコアを生み出した。ライブラリ準備サンプルおよびFFPEサンプルは、サンプル固有のトレーニングから最も恩恵を受けた。例えば、1ngのDNA量でNextera Flexプロトコルを使用して準備したライブラリ準備サンプルでは、SNVおよびINDELについてそれぞれ1.6%および19.4%の絶対F1−スコアの改善が見られた。同様に、一致した新鮮な正常値を有する24時間のFFPE WGSサンプルは、SNVおよびINDELについてそれぞれF1−スコアの改善において1.8および14.8パーセントポイントを獲得した。NeuSomatic−Sの場合、サンプル固有のトレーニングの恩恵を受けるのはINDELのみのようであった。
INDELの性能
さらに、複数のデータセットにわたって異なるサイズのINDELを検出するための精度を評価した(図34aおよび図34b)。NeuSomaticは、INDEL検出にローカルアセンブリを明示的に使用しなかったが、それでも、広範囲のINDELサイズ、カバレッジ、および腫瘍純度にわたって、Lancetなどのアセンブリベースの手法を含む他のアプローチを一貫して上回った(図34aおよび図30d)。全体として、2塩基対(bps)を超える挿入および欠失の場合、NeuSomaticは、それぞれ、従来の最良の代替手法であるLancetよりもF1−スコアで24.4%および6.5%の優位性をもたらした。異なるNeuSomaticトレーニングアプローチ間でINDELの精度を比較すると、DREAM3モデルは、主に挿入検出精度が低いという問題があったが、SEQC−IIトレーニングモデルは、異なるサイズの挿入および欠失の双方を確実に特定した(図34b)。
異なる変異対立遺伝子頻度(VAF)の性能分析
体細胞変異VAF全体の様々なアプローチの精度を分析した(図34cおよび図35〜図37c)。異なるデータセットにおいて、NeuSomaticは、20%未満のVAFの他のスキームよりも優れていることを観察している(図34cおよび図35)。また、NeuSomaticは、VAFの変動に対して高いロバスト性を有し、5%という低いVAFの一貫した予測があることも観察した。SEQC−IIトレーニング済みモデルは、5%〜20%のVAFを含む変異について、DREAM3モデルよりも明らかに優れた性能を示した(図36aおよび図36b)。同様のロバスト性が、全てのカバレッジおよび腫瘍純度設定で観察された(図37a〜図37c)。
困難なゲノム領域での性能
ゲノムコンテキストの複雑さに対するロバスト性を説明するために、様々な長さのタンデムリピート(TR)やセグメントの重複を含む困難なゲノム領域での異なる体細胞呼び出しスキームの性能を評価した(図34dおよび図38〜図41c)。他の多くのスキームは、困難なゲノム領域での性能の大幅な低下を示したが(図38)、NeuSomaticは、非常にロバストなままであり、全ゲノム解析と比較して他のスキームよりもさらに大幅な改善をもたらした(図34dおよび図38)。平均して、これらの困難なゲノム領域について、NeuSomaticは、SNVとINDELの双方について、従来の最良の体細胞呼び出し元よりも15%以上高いF1−スコアを生成した。SEQC−IIサンプルを使用してNeuSomaticをトレーニングすると、これらの困難なゲノム領域の精度が大幅に向上し、最大の利点は、グラウンドトゥルース変異でトレーニングされたモデルを使用したタンデムリピート領域であった(図39a〜図40b)。困難なゲノム領域における同様の性能が、様々な範囲および腫瘍純度にわたって観察された(図41a〜図41c)。
考察
FFPEと6つの中心に複数のプラットフォームによって配列された新鮮なDNAとにおいて、様々なカバレッジ、サンプル純度、ライブラリの準備を行った実際のWGS、WES、AmpliSeqサンプルで見られる様々な実験設定で体細胞変異を検出する際の、NeuSomaticの深層学習フレームワークのロバスト性を調査した。実験により、生データから真の体細胞変異シグネチャをキャプチャして、真の呼び出しと配列アーティファクトとを区別するNeuSomaticの可能性が確認された。スパイクイン変異と、SEQC−II研究によって取得されたグラウンドトゥルース体細胞変異のセットとの双方を使用して、SEQC−II参照サンプルでトレーニングされたNeuSomaticモデルは、最高の精度を達成するために性能を向上させた。この分析は、様々なシナリオでの有用性のモデル構築のベストプラクティス戦略を浮き彫りにした。ベースラインのDREAM3ネットワークモデルと比較して、SEQC−II参照サンプルから派生した提案モデルは、SNVとINDELの双方の誤検出を減らし、挿入呼び出しの精度を向上させ、正しい変異信号を学習することで困難なゲノム領域の体細胞検出を強化することが示された。
NeuSomaticは、一致正常では腫瘍汚染に対してロバストなままであったが、MuTect2、Lancet、MuSE、TNscopeなどの多くの体細胞呼び出しアプローチは、正常読み取りに対応する真の体細胞変異を拒否したため、大きな影響を受けた。したがって、それらの再現率は、大幅に低下した。WGSでトレーニングされたNeuSomaticモデルは、標的化シーケンシングデータでも同様に良好に機能した。一方、TNscopeは、機械学習(ランダムフォレスト)モデルを採用しているが、Lancetは、ローカライズされた色付きのde Bruijnグラフアプローチを使用して変異を検出している。どちらのツールも、ゲノム全体の体細胞変異検出用に設計されているため、標的化シーケンシングには適していない(通常、ゲノムの1MB未満をカバーする)。
変異タイプ、INDEL長さ、VAF、ゲノム領域など、様々な仕様にわたる予測精度を分析すると、NeuSomaticは、カバレッジが低い、VAFが20%未満、タンデムリピートなどの困難なゲノム領域、2bpを超えるINDELS長、DNA損傷のあるFFPE、または汚染された一致正常などの困難な状況で、他のスキームに比べて最大の改善をもたらしたことが明らかになった。シーケンシングまたはサンプル固有のアーティファクトを真の体細胞変異と混同した結果、従来のスキームでは、複雑度の低いゲノム領域でよく見られる多くの偽陽性があった(したがって、精度が低い)(図34dおよび図38)。しかしながら、複数のプラットフォームと複数の中心からのWGSサンプルでトレーニングすることにより、NeuSomaticは、エラーが発生しやすいゲノムコンテキストを学習し、呼び出しが困難な低複雑度のゲノムコンテキストを含む様々な条件で一貫して精度を向上させた。同様に、異なるアプローチによる誤った呼び出しの分析により、NeuSomaticによって正しく予測されたStrelka2などの従来のスキームによるプライベートな偽陰性呼び出しのほとんどが低いVAFを有することが明らかになった(図42)。これにより、低VAF変異の検出における他のスキームの劣りが明らかになった。一方、NeuSomaticは、生データから正しいシグネチャを学習することにより、困難な低VAF呼び出しをアーティファクトからより正確に区別した。
図42は、WGSデータセットにおけるプライベートFN呼び出しのVAF分布のバイオリン−プロットの比較を示している。各副図では、従来の体細胞変異検出スキームの1つをNeuSomaticと比較した。X−対−Y副図の場合、21個のWGS複製のうち少なくとも11個でアルゴリズムX(XのFN)によって見逃されたグラウンドトゥルースSNVのセットであるXFNを特定した。同様に、21個のWGS複製のうち少なくとも11個でアルゴリズムY(YのFN)によって見逃されたグラウンドトゥルースSNVのセットであるYFNを特定した。そして、この図は、XおよびYに対するプライベートFN呼び出しのVAF分布を示している。換言すれば、バイオリン−プロットは、セットXFN/YFN内の呼び出しのVAF分布を青で示し、セットYFN/XFN内の呼び出しのVAF分布を赤で示している。Strelka2のような従来のスキームのほとんどでは、NeuSomaticによって正しく予測されたプライベートFNのVAFが低く、低VAF変異の検出におけるそのようなアプローチの劣りが明らかになった。各X−対−Y副図では、XとYのプライベートFNの数が上部に報告されている。
方法
SEQC−II腫瘍−正常シーケンシングデータとグラウンドトゥルース
分析では、SEQC−II参照一致サンプル、ヒトトリプルネガティブ乳癌細胞株(HCC1395)、および一致Bリンパ球由来正常細胞株(HCC1395BL)を使用した。詳細なサンプル情報は、SEQC−II参照サンプルの原稿12、13に記載されている。SEQC−II体細胞変異ワーキンググループは、これらのサンプルの体細胞変異のゴールドスタンダードの真セットを確立した13(図27)。真セットは、異なる配列中心からの複数の腫瘍正常配列複製、および直交変異検出バイオインフォマティクスパイプラインを使用して定義された。信頼スコアを変異呼び出しに割り当て、プラットフォーム、中心、パイプライン固有のバイアスを最小限に抑えるために、SomaticSeq10機械学習フレームワークを実装して、合成変異をHCC1395BL位置合わせファイルにスパイクすることによって生成された、各複製ペアの別のHCC1395BLと一致するインシリコ腫瘍−正常複製ペアにおいて分類器のセットをトレーニングした。これらの分類器を使用して、変異呼び出しは、クロス位置合わせおよびクロスシーケンシング中心の再現性に基づいて、4つの信頼レベル(HighConf、MedConf、LowConf、および未分類)に分類された。HighConfおよびMedConfの呼び出しは、合計39,536のSNVと2,020のINDELを含む体細胞変異(v1.0)の「真セット」としてグループ化された。HCC1395の体細胞変異の真セットは、NCBIのftpサイト(ftp://ftp−trace.ncbi.nlm.nih.gov/seqc/ftp/Somatic_Mutation_WG/)においてコミュニティで入手可能である。
この研究で使用された全てのシーケンシングデータは、NCBIのSRAデータベース(SRP162370)を通じて公開されている。全てのサンプルについて、FastQファイルは、最初にTrimmomatic15を使用してトリミングされ、次にBWA−MEM(v0.7.15)16、続いてPicard MarkDuplicates(https://broadinstitute.github.io/picard)を使用して位置合わせされた。
トレーニングデータセットおよびモデル
異なるトレーニングデータセットを使用して、合成スパイクイン変異で準備されたインシリコ腫瘍複製と、既知の高信頼性の体細胞変異セットを備えた実際の腫瘍複製との双方を使用して、効果的なNeuSomatic CNNモデルを導出した(図28e):
DREAM3モデル
ベースラインのWGSモデルとして、ICGC−TCGA DREAMチャレンジステージ3データ14のトレーニングによって最近開発されたDREAM3モデルを採用した11。ステージ3データセットは、合成であるが現実的な腫瘍正常ペアを形成するために、7,903個のSNVと7,604個のINDELの変異を、50%、33%、20%の3つの異なるAFを有する同じ正常サンプルの正常ゲノムに計算的にスパイクして構築された正常サンプルおよび腫瘍サンプルから構成されている。ネットワークトレーニングを改善するために、元のDREAMデータと同様のAF分布を有するBAMSurgeon17を使用して、追加の約95K SNVと約95K INDELとを腫瘍サンプル11にスパイクインした。このモデルは、100T:100N、50T:100N、70T:95N、50T:95N、および25T:95N11の5つの異なる腫瘍−正常純度設定からのトレーニングデータ(ゲノムの50%)を組み合わせることによってトレーニングされた。NeuSomaticおよびNeuSomatic−Sは、これら5つの複製ペアで特定された約29.2Mの候補変異についてトレーニングされ、これは、体細胞SNV/INDELラベルが付いた約450Kの候補と、非体細胞としてラベル付けされた約28.7Mの候補とを含む。
TCGAモデル
ベースラインのWESモデルとして、12個のTCGAサンプルのセットでトレーニングすることによって最近開発された11TCGAモデル18を使用した。これらの各サンプルの腫瘍および正常位置合わせを混合し、2つの等しい位置合わせに分割した。一方の位置合わせは正常複製として扱われ、他方の位置合わせは腫瘍の複製を構築するために変異をスパイクするために使用された。各サンプルについて、約88KのSNVと約44KのINDELとをスパイクして、トレーニング用の合成腫瘍サンプルを生成した。NeuSomaticおよびNeuSomatic−Sは、これらの12個の複製ペアで特定された約5.9Mの候補変異についてトレーニングされ、これは、体細胞SNV/INDELラベルが付いた約1.5Mの候補と、非体細胞としてラベル付けされた約4.4Mの候補とを含む。
SEQC−WGS−スパイクモデル
このモデルの構築に使用されるトレーニングデータを準備するために、BAMSurgeonを使用して、HCC1395BL複製の1つにインシリコ変異をスパイクし、それを別個のHCC1395BL複製と正常一致としてペアリングすることによって合成腫瘍を構築した。このアプローチを使用して、10個のインシリコ腫瘍−正常ペアを準備した。10個の複製ペアのうち8個は、平均カバレッジが40倍から95倍の4つの異なるサイトで配列されたWGS複製から選択された。他の2つの複製ペアは、イルミナからの複数のNovaSeq配列複製をマージして、インシリコで約220倍の腫瘍サンプルカバレッジと約170倍の正常な一致サンプルカバレッジを取得することによって作成された。各インシリコ腫瘍では、約92KのSNVと約22KのINDELとが急増した。スパイクイン変異のAFは、ベータ分布からランダムに選択された(形状パラメータα=2およびβ=5)。10個の複製ペアのそれぞれについて、95%の正常の読み取りと5%の腫瘍の読み取りとを混合することにより、不純な正常を構築した。したがって、合計20個のインシリコ腫瘍−正常ペアを使用して、SEQC−WGS−スパイクモデルをトレーニングした。次に、これらの20の複製ペアで特定された約272Mの候補変異について、NeuSomaticとNeuSomatic−Sをトレーニングし、これは、体細胞SNV/INDELラベルが付いた約2Mの候補と、非体細胞としてラベル付けされた約270Mの候補とを含む。
SEQC−WGS−GT−50モデル
このモデルは、グラウンドトゥルース体細胞変異として設定されたSEQC−II 高信頼トゥルースを伴う実際のWGS腫瘍正常複製を使用して構築された。このモデルをトレーニングするためのベースサンプルとして、8つのWGS腫瘍正常複製を使用した。最初の7つのWGS複製ペアは、HiSeqおよびNovaSeqプラットフォーム上の6つの異なる配列中心からのものであり、平均カバレッジは、40倍から95倍であり、最後のペアは、イルミナからの9つのNovaSeq配列複製を組み合わせて、約390倍のカバレッジで複製ペアを取得することによって構築された。これらの8つの複製ペアのそれぞれについて、他の2つの純度バリエーションを作成し、一方は、95%の正常読み取りと5%の腫瘍読み取りを混合した95%の正常純度であり、他方は、10%の腫瘍と90%の正常読み取りを混合した10%の腫瘍純度である。したがって、複製ペアのそれぞれについて、100%純粋な腫瘍と正常とのバージョン、100%純粋な腫瘍が95%の純粋な正常と一致するバージョン、および10%の純粋な腫瘍が100%純粋な正常と一致するバージョンを有した。したがって、合計で24個の腫瘍−正常複製を使用して、SEQC−WGS−GT−50モデルをトレーニングした。偏りのない評価を行うために、このモデルのトレーニングにはゲノムの50%のみを使用し、残りの50%は評価用に保持した。トレーニング領域と評価領域を準備するために、ゲノムをサイズが約92Kbpsの小さな領域に分割し、破壊された領域の半分をトレーニング用に、残りの半分を評価用にランダムに選択する。SEQC−II呼び出しのスーパーセットに低信頼ラベルが付いた呼び出し、および30%以上のVAFを有するSEQC−II呼び出しのスーパーセットに未分類ラベルが付いた呼び出しなど、トレーニング領域から、各グレーゾーン変異の周囲の5塩基のパディング領域を除外した。そして、これらの24の複製ペアで特定された約137Mの候補変異について、NeuSomaticとNeuSomatic−Sをトレーニングし、これは、体細胞SNV/INDELラベル付きの約416Kの候補と、非体細胞としてラベル付けされた約136.5Mの候補とを含む。
SEQC−WGS−GT−ALLモデル
このモデルは、SEQC−WGS−GT−50モデルと同様に作成されたが、ゲノム全体にわたって全ての高信頼グラウンドトゥルース体細胞変異を使用している。したがって、トレーニング目的で使用されたWGSサンプルの評価には使用することができず、また、全てがトレーニングに使用されていることを考えると、真セットの変異に偏っている可能性がある。このモデルは、他のデータセットまたは非SEQC−IIサンプルの性能分析になおも役立つ。このモデルをNeuSomaticおよびNeuSomatic−Sについて、SEQC−WGS−GT−50モデルに使用される24個の複製ペアで特定された約272Mの候補変異についてトレーニングし、これは、体細胞SNV/INDELラベル付きの約839Kの候補と、非体細胞ラベル付きの約271Mの候補とを含む。
SEQC−WGS−GT50−スパイクWGS10モデル
このモデルのトレーニングデータは、SEQC−WGS−スパイクモデルに使用されるトレーニング候補の10%と、SEQC−WGS−GT−50の全ての候補とを組み合わせて作成された。この組み合わせは、多数のスパイクイン変異と、実際の腫瘍正常データに見られる実際の体細胞変異の特徴の双方を利用している。NeuSomaticとNeuSomatic−Sを、体細胞SNV/INDELラベル付きの約574K候補と、非体細胞としてラベル付けされた約163.5M候補とを含む、164M候補変異の組み合わせセットでトレーニングした。
SEQC−WES−スパイクモデル
SEQC−WGS−スパイクモデルと同様に、BAMSurgeonを使用して7つのインシリコ腫瘍正常WES複製を構築し、このモデルをトレーニングした。複製ペアは、平均カバレッジが60倍から550倍の4つの異なるサイトで配列されたWESデータセットから選択された。各インシリコ腫瘍では、約97KのSNVと約19KのINDELとが急増した。スパイクイン変異のAFは、ベータ分布からランダムに選択された(形状パラメータα=2およびβ=5)。次に、これらの7つの複製ペアで特定された約3.7Mの候補変異について、NeuSomaticとNeuSomatic−Sをトレーニングし、これは、体細胞SNV/INDELラベル付けされた約755Kの候補と、非体細胞としてラベル付けされた約3Mの候補とを含む。
SEQC−FFPE−スパイクモデル
SEQC−WGS−スパイクモデルと同様に、BAMSurgeonを使用して、このモデルをトレーニングするために8つのインシリコ腫瘍正常WGS FFPE複製を構築した。複製ペアは、4つの異なる準備時間で2つの異なるサイトで配列されたFFPEデータセットから選択された。各インシリコ腫瘍では、約92KのSNVと約22KのINDELとが急増した。スパイクイン変異のAFは、ベータ分布からランダムに選択された(形状パラメータα=2およびβ=5)。また、各インシリコ腫瘍を新鮮なWGS複製と照合して、FFPE腫瘍対新鮮な正常のシナリオをトレーニングに含めた。したがって、合計で16個のインシリコ腫瘍−正常ペアを使用して、SEQC−FFPE−スパイクモデルをトレーニングした。NeuSomaticとNeuSomatic−Sを、これら7つの複製ペアで特定された約191Mの候補変異についてトレーニングし、これは、体細胞SNV/INDELラベル付けされた約1.7Mの候補と、非体細胞としてラベル付けされた約190Mの候補とを含む。
SEQC−FFPE−WES−スパイクモデル
他のスパイクインモデルと同様に、BAMSurgeonを使用して、このモデルをトレーニングするために7つのインシリコ腫瘍正常WES FFPE複製を構築した。複製ペアは、2つの異なるサイトで配列されたWES FFPEデータセットから選択され、4つの異なる時間間隔で準備された。このデータセットのFFPE準備時間と配列サイトが同じである2つの正常複製がないため、各複製ペアの腫瘍および正常位置合わせを混合し、混合を2つの等しい位置合わせに分割した。次に、一方の位置合わせを他方の正常複製およびスパイクイン変異として扱い、腫瘍複製を構築する。各インシリコ腫瘍では、約90KのSNVと約19KのINDELとが急増した。スパイクイン変異のAFは、ベータ分布からランダムに選択された(形状パラメータα=2およびβ=5)。また、各インシリコ腫瘍を新鮮なWES複製と照合して、FFPE腫瘍対新鮮な正常のシナリオをトレーニングに含めた。したがって、合計で14個のインシリコ腫瘍−正常ペアを使用して、SEQC−FFPE−WESスパイクモデルをトレーニングした。NeuSomaticとNeuSomatic−Sを、これらの7つの複製ペアで特定された約9.6Mの候補変異についてトレーニングした。これには、体細胞SNV/INDELラベル付けされた約1.4Mの候補と、非体細胞としてラベル付けされた約8.2Mの候補とを含む。
SEQC−WES−スパイクWGS10、SEQC−FFPE−スパイクWGS10、SEQC−FFPE−WES−スパイクWGS10モデル
これらのモデルのトレーニングデータは、SEQC−WGS−スパイクモデルに使用されるトレーニング候補の10%と、それぞれSEQC−WES−スパイク、SEQC−FFPE−スパイク、およびSEQC−FFPE−WES−スパイクの全ての候補を組み合わせて作成された。この組み合わせは、多数のスパイクインWGS変異と、WESおよびFFPEサンプルのサンプルバイアスの双方を利用する。
サンプル固有のモデル
上記の汎用モデルに加えて、複数のデータ型にわたる9つのサンプルのセットについて、サンプル固有のモデルを導出した。選択されたサンプルは、NovaSeq機器で配列したWGSサンプル、WESサンプル、1ngのDNA量を含むNextera Flexライブラリ準備キットで準備したサンプル、腫瘍純度50%の30倍WGSサンプル、腫瘍純度10%の100倍WGSサンプルを含み、2つのWGSおよび2つのWES FFPEサンプルをそれぞれホルマリンで24時間処理し、新鮮な/FFPE正常サンプルと一致させた。各サンプルについて、ランダムスパイクを使用してインシリコ腫瘍を準備した。10%腫瘍サンプルの場合、スパイクイン変異のAFは、ベータ分布からランダムに選択された(形状パラメータα=2およびβ=18)。他のサンプルでは、ベータ分布(形状パラメータα=2およびβ=5)を使用してAFを選択した。次に、各サンプルについて、インシリコ腫瘍正常複製を使用してNeuSomaticモデルおよびNeuSomatic−Sモデルをトレーニングした。さらに、各サンプルについて、SEQC−WGS−スパイクモデルに使用されるトレーニング候補の10%と、そのサンプルから導出されたトレーニングデータとを組み合わせて、個別のモデルをトレーニングした。
体細胞変異検出アルゴリズム
NeuSomaticに加えて、7つの体細胞変異呼び出し元MuTect2(4.beta.6)、SomaticSniper(1.0.5.0)、Lancet(1.0.7)、Strelka2(2.8.4)、TNscope(201711.03)、MuSE(v1.0rc)、およびVarDict(v1.5.1)を使用し、デフォルトのパラメータまたはユーザズマニュアルで推奨されているパラメータを使用してそれぞれを実行した。SomaticSniperには、「−q 1−Q 15−s1e−05」を使用した。TNscope(201711.03)の場合、Seven BridgesのCGCに実装されているバージョンを以下のコマンドで使用した「sentieon driver−i $tumor_bam−i $normal_bam−r $ref ――algo TNscope ――tumor_sample $tumor_sample_name ――normal_sample $normal_sample_name−d $dbsnp $output_vcf」。Lancetには、「−cov−thr 10――cov−ratio 0.005――max−indel−len 50−e 0.005」を使用した。結果のVCFファイルで「PASS」としてフラグが立てられた信頼性の高い出力が、比較分析に適用された。VarDictの場合、「体細胞」ステータスの呼び出しにも制限した。比較に使用された各呼び出し元からの結果は、ユーザがこの呼び出し元によって検出された「実際の」変異と見なす全ての変異候補であった。
アンサンブルモードとスタンドアロンモードの双方でNeuSomatic(0.1.4)を使用した。アンサンブルモードでは、NeuSomaticの「位置合わせスキャン」ステップで特定された候補変異に加えて、5つの個別の呼び出し元(MuTect2、SomaticSniper、Strelka2、MuSE、およびVarDict)からの呼び出しも組み込み、それぞれの候補変異の追加の入力チャネルとしてそれらの発生を表した。NeuSomaticおよびNeuSomatic−Sの場合、前処理ステップ中に「――scan_maf 0.01――min_mapq 10 ――snp_min_af 0.03 ――snp_min_bq 15 ――snp_min_ao 3 ――ins_min_af 0.02 ――del_min_af 0.02 ――num_threads 28 ――scan_window_size 500 ――max_dp 100000」を使用した。トレーニングには、「−coverage_thr 300――batch_size 8000」を使用した。
困難なゲノム領域
Genome−in−a−Bottleコンソーシアム19によって派生した一連の困難なゲノム領域を使用した。これらの領域は、50bp未満と50bpを超えるリピートの2つの異なるカテゴリのタンデムリピートと、セグメント重複領域とを含んでいた。ゲノムコンテキストの複雑さに対するロバスト性を説明するために、これらの領域で様々な手法を評価した。
偽陰性呼び出しの分析
異なる手法の性能の違いをよりよく理解するために、WGSデータセット上の他のスキームに対するNeuSomaticの偽陰性SNVのVAF分布間のペアワイズ比較のセットを実行した(図42)。各X−対−Y分析では、21個のWGS複製のうち少なくとも11個でアルゴリズムX(Xの偽陰性)によって見逃されたグラウンドトゥルースSNVのセットであるXFNを特定した。同様に、21個のWGS複製のうち少なくとも11個でアルゴリズムY(Yの偽陰性)によって見逃されたグラウンドトゥルースSNVのセットであるYFNを特定した。次に、XFN/YFNとして定義されるXのプライベート偽陰性と、YFN/XFNとして定義されるYのプライベート偽陰性とを計算した。次に、これらの各セットの体細胞変異について、変異のVAFの分布を計算した。
評価プロセス
公正な比較のために、SEQC−WGS−GT−50モデルのトレーニングに使用されなかった50%ホールドアウトゲノム領域で全てのモデルと体細胞変異アルゴリズムとを評価した。この約1.4GBの領域には、HCC1395のSEQC−II真セットからの約21KのSNVと約1.3KのINDELとを含み、SEQC−WGS−GT−ALLモデルを除くNeuSomaticモデルのトレーニングには使用されなかった。
HCC1395のSEQC−IIコンソーシアムによってHighConfおよびMedConfとラベル付けされた呼び出しは、ここで使用される体細胞変異の「真のセット」としてグループ化された。この真セットを使用して、全てのパイプラインのHCC1395の全ての複製にわたる真陽性および偽陰性を計算した。SEQC−IIコンソーシアムが推奨するように、検証率が低いため、LowConf呼び出しもブラックリストに登録した。コンソーシアムによって提供されたこの真セットは、VAF検出限界が5%、深度検出限界が50倍であったため、より高いカバレッジデータまたはより低いVAFでの通話では、実際の体細胞の状態を確認することができない。したがって、真セットに含まれていないパイプラインによって報告されたプライベート呼び出しについては、評価のためにあいまいであると見なされた呼び出しを除外した。要約すると、Cの平均カバレッジとPの腫瘍純度を有していた手持ちの腫瘍複製について、パイプラインがサポートリードの数を有するこの複製のプライベートな体細胞変異を報告した場合(これは真セットにはなかった)、100%の純度と50倍のカバレッジでのサポートリードの予測数が≧3の場合にのみ、この呼び出しを偽陽性としてラベル付けした。換言すれば、d≧3CP/50の場合、この呼び出しは偽陽性であり、それ以外の場合は、この呼び出しを評価から除外する。
WESおよびAmpliSeqデータの場合、評価領域の真のインデルの数が非常に限られているため、SNV評価のみを報告した。
参考文献
1.Xu,C.A review of somatic single nucleotide variant calling algorithms for next−generation sequencing data.Comput.Struct.Biotechnol.J.16,15−24(2018)。
2.Cibulskis,K.ら、Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples.Nat.Biotechnol.31,213(2013)。
3.Fan,Y.ら、MuSE:accounting for tumor heterogeneity using a sample−specific error model improves sensitivity and specificity in mutation calling from sequencing data.Genome Biol.17,178(2016)。
4.Larson,D.E.ら、SomaticSniper:identification of somatic point mutations in whole genome sequencing data.Bioinformatics 28,311−317(2011)。
5.Kim,S.ら、Strelka2:fast and accurate calling of germline and somatic variants.Nat.Methods 15,591−594(2018)。
6.Lai,Z.ら、VarDict:a novel and versatile variant caller for next−generation sequencing in cancer research.Nucleic Acids Res.44,e108−e108(2016)。
7.Freed,D.,Pan,R.&Aldana,R.TNscope:Accurate Detection of Somatic Mutations with Haplotype−based Variant Candidate Detection and Machine Learning Filtering.bioRxiv 250647
8.Narzisi,G.ら、Lancet:genome−wide somatic variant calling using localized colored DeBruijn graphs.Communications biology 1,20(2018)。
9.Koboldt,D.C.ら、VarScan 2:somatic mutation and copy number alteration discovery in cancer by exome sequencing.Genome Res.22,568−576(2012)。
10.Fang,L.T.ら、An ensemble approach to accurately detect somatic mutations using SomaticSeq.Genome Biol.16,197(2015)。
11.Sahraeian,S.M.E.,Liu,R.,Lau,B.,Podesta,K.,Mohiyuddin,M.,&Lam,H.Y.Deep convolutional neural networks for accurate somatic mutation detection.Nature communications.10,1041(2019)。
12.The Somatic Mutation Working Group of SEQC−II Consortium.Achieving reproducibility and accuracy in cancer mutation detection with whole−genome and whole−exome sequencing.https://doi.org/10.1101/626440(2019)。
13.Fang,L.T.ら、Establishing reference samples for detection of somatic mutations and germline variants with NGS technologies,https://doi.org/10.1101/625624(2019)。
14.Ewing,A.D.ら、Combining tumor genome simulation with crowdsourcing to benchmark somatic single−nucleotide−variant detection.Nat.Methods 12,623(2015)。
15.Bolger,A.M.,Lohse,M.&Usadel,B.Trimmomatic:a flexible trimmer for Illumina sequence data.Bioinformatics 30,2114−2120(2014)。
16.Li,H.Aligning sequence reads,clone sequences and assembly contigs with BWA−MEM.https://arxiv.org/abs/1303.3997(2013)。
17.Ewing,A.D.ら、Combining tumor genome simulation with crowdsourcing to benchmark somatic single−nucleotide−variant detection.Nat.Methods 12,623(2015)。
18.Grossman,R.L.ら、Toward a shared vision for cancer genomic data.N.Engl.J.Med.375,1109−1112(2016)。
19.Krusche,Peter,Len Trigg,Paul C.Boutros,Christopher E.Mason,M.Francisco,Benjamin L.Moore,Mar Gonzalez−Portaら、「Best practices for benchmarking germline small−variant calls in human genomes」、Nature biotechnology 1(2019)。
本開示は、いくつかの例示的な実施形態を参照して説明されてきたが、本開示の原理の精神および範囲内に含まれるであろう多くの他の変更および実施形態が当業者によって考案されることができることを理解されたい。より具体的には、合理的な変形および変更は、本開示の精神から逸脱することなく、前述の開示、図面、および添付の特許請求の範囲内の主題の組み合わせ構成の構成部品および/または配置において可能である。構成部品および/または配置の変形および変更に加えて、代替の使用法も当業者にとって明らかであろう。
本明細書中で言及されるおよび/または出願データシートにおいてリスト化される全ての米国特許、米国特許出願公開、米国特許出願、外国特許、外国特許出願、および非特許刊行物は、参照によりそれらの全体が本明細書に組み込まれる。実施形態の態様は、必要に応じて、様々な特許、出願、および刊行物の概念を使用してさらに別の実施形態を提供するように修正することができる。
特徴または要素が本明細書で別の特徴または要素「上」にあると言及される場合、それは、他の特徴または要素上に直接存在することができ、または介在する特徴および/または要素も存在してもよい。対照的に、特徴または要素が別の特徴または要素に「直接」あると呼ばれる場合、介在する特徴または要素は存在しない。特徴または要素が別の特徴または要素に「接続されている」、「取り付けられている」または「結合されている」と呼ばれる場合、それは他の特徴または要素に直接接続、取り付け、または結合されることができ、または介在する特徴または要素が存在することができることも理解されよう。対照的に、特徴または要素が別の特徴または要素に「直接接続されている」、「直接接続されている」、または「直接結合されている」と呼ばれる場合、介在する特徴または要素は存在しない。一実施形態に関して説明または示されているが、そのように説明または示されている特徴および要素は、他の実施形態に適用することができる。別の特徴に「隣接して」配置された構造または特徴への言及は、隣接する特徴と重複するか、またはその下にある部分を有することができることも当業者には理解されるであろう。
本明細書で使用される用語は、特定の実施形態を説明するためのものに過ぎず、限定することを意図するものではないことを理解するべきである。例えば、本明細書で使用される場合、単数形「a」、「an」および「the」は、文脈が明らかに他のことを示さない限り、複数形も含むことを意図している。本明細書で使用される場合、「備える(comprises)」および/または「備える(comprising)」という用語は、記載された特徴、ステップ、動作、要素、および/またはコンポーネントの存在を指定するが、1つ以上の他の特徴、ステップ、動作、要素、コンポーネント、および/またはそれらのグループの存在または追加を排除するものではないことがさらに理解される。本明細書で使用される場合、「および/または」という用語は、関連するリストされた項目の1つ以上のありとあらゆる組み合わせを含み、「/」と省略されることができる。
「下(under)」、「下(below)」、「下(lower)」、「上(over)」、「上(upper)」などのような空間的に相対的な用語は、説明を容易にするために、ある要素または特徴と別の要素または図に示されている特徴との関係を説明するために本明細書で使用されることができる。空間的に相対的な用語は、図に示されている方向に加えて、使用中または動作中の装置の異なる方向を包含することを意図していることが理解されよう。例えば、図の装置が裏返されている場合、他の要素または特徴の「下」または「下方」として記述されている要素は、他の要素または特徴の「上」または「上方」になる。したがって、「下」という例示的な用語は、上と下の双方の方向を包含することができる。装置は、他の方法で方向付けられ(例えば、90度回転または他の方向に)、本明細書で使用される空間的に相対的な記述子がそれに応じて解釈されることができる。同様に、「上向き」、「下向き」、「垂直」、「水平」などの用語は、特に明記しない限り、説明の目的でのみ本明細書で使用される。
「第1」および「第2」という用語は、本明細書では様々な特徴/要素(ステップを含む)を説明するために使用されることができるが、文脈が別段の指示をしない限り、これらの特徴/要素はこれらの用語によって制限されるべきではない。これらの用語は、ある特徴/要素を別の特徴/要素から区別するために使用される場合がある。したがって、以下で論じる第1の特徴/要素は、第2の特徴/要素と呼ぶことができ、同様に、以下で論じる第2の特徴/要素は、本発明の教示から逸脱することなく、第1の特徴/要素と呼ぶことができる。
本明細書および以下の特許請求の範囲を通じて、文脈上別段の定めがない限り、「備える(comprise)」という単語、および「備える(comprises)」および「備える(comprising)」などの変異は、方法および物品(例えば、組成物ならびに装置および方法を含む装置)において共同で使用されることができることを意味する。例えば、「備える(comprising)」という用語は、述べられた要素またはステップの包含を意味するが、他の要素またはステップの除外を意味しないと理解されるであろう。
実施例で使用されるものを含め、本明細書で本明細書および特許請求の範囲で使用される場合、特に明示的に指定されない限り、全ての番号は、その用語が明示的に表示されない場合でも、「約」または「およそ」という単語で始まるかのように読むことができる。「約」または「およそ」という句は、大きさおよび/または位置を説明するときに使用されて、説明される値および/または位置が値および/または位置の合理的な予想範囲内にあることを示すことができる。例えば、数値は、記載された値(または値の範囲)の+/−0.1%、記載された値(または値の範囲)の+/−1%、記載された値(または値の範囲)の+/−2%の値、記載された値(または値の範囲)の+/−5%、記載された値(または値の範囲)の+/−10%などを有することができる。本明細書で与えられる数値はまた、文脈が別段の指示をしない限り、その値についてまたはほぼその値を含むと理解されるべきである。例えば、値「10」が開示されている場合、「約10」も開示されている。本明細書に記載されている任意の数値範囲は、そこに含まれる全てのサブ範囲を含むことを意図している。また、当業者が適切に理解するように、値が「以下」であると開示される場合、「値以上」および値間の可能な範囲も開示されることも理解される。例えば、値「X」が開示される場合、「X以下」ならびに「X以上」(例えば、Xは数値である)も開示される。また、本特許出願全体で、データは様々な形式で提供され、このデータは、終了点と開始点、およびデータポイントの任意の組み合わせの範囲を表すことも理解される。例えば、特定のデータポイント「10」および特定のデータポイント「15」が開示される場合、10および15よりも大きい、それ以上、それよりも小さい、それ以下、およびそれに等しいことが、10から15の間とともに開示されていると見なされることが理解される。2つの特定のユニット間の各ユニットもまた開示されていることも理解される。例えば、10と15が開示されている場合、11、12、13、および14も開示される。
様々な例示的な実施形態が上に記載されているが、特許請求の範囲に記載されているように、本発明の範囲から逸脱することなく、様々な実施形態にいくつかの変更を加えることができる。例えば、記載された様々な方法ステップが実行される順序は、代替の実施形態ではしばしば変更されることができ、他の代替の実施形態では、1つ以上の方法ステップが完全にスキップされることができる。様々な装置およびシステムの実施形態の任意の特徴は、いくつかの実施形態に含まれることができ、他の実施形態には含まれることができない。したがって、前述の説明は、主に例示的な目的で提供されており、特許請求の範囲に記載されているように、本発明の範囲を限定するものと解釈されるべきではない。
本明細書に含まれる例および図は、限定ではなく例示として、主題が実施されることができる特定の実施形態を示している。前述のように、他の実施形態を利用してそこから導き出すことができ、その結果、本開示の範囲から逸脱することなく、構造的および論理的な置換および変更を行うことができる。本発明の主題のそのような実施形態は、複数のものが実際に開示されている場合、単に便宜のために、そして本特許出願の範囲を任意の単一の発明または発明の概念に自発的に限定することを意図することなく、本明細書において個別にまたは集合的に「発明」という用語によって言及されることができる。したがって、特定の実施形態が本明細書で例示および説明されてきたが、同じ目的を達成するために計算された任意の構成を、示された特定の実施形態の代わりに使用することができる。本開示は、様々な実施形態のありとあらゆる適応または変形をカバーすることを意図している。上記の実施形態、および本明細書に具体的に記載されていない他の実施形態の組み合わせは、上記の説明を検討すると、当業者にとって明らかであろう。

Claims (65)

  1. 生殖細胞変異を呼び出す方法であって、
    参照配列、複数の配列読み取り、および配列読み取り内の候補変異の位置を取得することと、
    1つ以上の配列読み取りに1つ以上のスペースを挿入することによって拡張配列読み取りを取得することと、
    前記参照配列に1つ以上のスペースを挿入することによって拡張参照配列を取得することと、
    前記候補変異の周りの前記拡張配列読み取りのセグメントをサンプル行列に変換することと、
    前記候補変異の周りの前記拡張参照配列のセグメントを参照行列に変換することと、
    トレーニング済みニューラルネットワークに前記サンプル行列および前記参照行列を提供することと、
    前記トレーニング済みニューラルネットワークの出力において、前記複数の配列読み取り内の変異に関連する予測データを取得することと、を含む、方法。
  2. さらに、前記複数の配列読み取り内に挿入された1つ以上の塩基を検出することを含み、前記配列読み取りおよび前記参照配列を拡張することが、
    前記配列読み取りのいずれかにおいて検出された挿入塩基ごとに、前記挿入塩基の位置において前記参照サンプルにスペースを挿入することを含む、請求項1に記載の方法。
  3. さらに、
    前記配列読み取りのいずれかにおいて検出された挿入塩基ごとに、前記挿入塩基の位置において挿入が検出されなかった全ての配列読み取りにおける前記挿入塩基位置にスペースを挿入することを含む、請求項2に記載の方法。
  4. 前記サンプル行列が、
    4つのタイプのヌクレオチド塩基を表す少なくとも4つのラインであって、各ラインが、前記拡張配列読み取りのセグメント内の異なる位置におけるそれぞれのヌクレオチド塩基タイプの塩基数を表す、ラインと、
    前記拡張配列読み取りのセグメント内の異なる位置に挿入されたスペースの数を表す少なくとも1つのラインと、を備える、請求項1に記載の方法。
  5. 前記参照行列が、前記サンプル行列と同じ次元を有し、前記参照行列が、前記拡張参照配列内の異なるヌクレオチド塩基およびスペースの前記位置の完全な表現を提供する、請求項4に記載の方法。
  6. 前記トレーニング済みニューラルネットワークがトレーニング済み畳み込みニューラルネットワークを含む、請求項1に記載の方法。
  7. さらに、前記トレーニング済みニューラルネットワークに、
    前記拡張配列読み取りのセグメント内の前記候補変異の位置を表す変異位置行列、
    前記拡張配列読み取りのセグメントのカバレッジまたは深さを表すカバレッジ行列、
    前記拡張配列読み取りの位置合わせ特徴を表す位置合わせ特徴行列、
    1つ以上の変異に関する公に知られている情報を表す知識ベース行列、のうちの少なくとも1つを提供することを含む、請求項1に記載の方法。
  8. 前記変異に関連する前記予測データが、
    前記変異の予測タイプ、
    前記変異の予測位置、
    前記変異の予測長、および
    前記変異の予測ゲノムタイプ、のうちの少なくとも1つを含む、請求項1に記載の方法。
  9. 前記変異に関連する前記予測データが前記変異の予測タイプを含み、前記ニューラルネットワークが、前記変異の予測タイプの複数の値のうちの1つを生成するように構成され、前記複数の値が、
    前記変異が偽陽性である確率を示す第1の値、
    前記変異が単一ヌクレオチド多型変異である確率を示す第2の値、
    前記変異が欠失変異である確率を示す第3の値、および
    前記変異が挿入変異である確率を示す第4の値、を含む、請求項1に記載の方法。
  10. 体細胞変異を呼び出す方法であって、
    複数の正常配列読み取りおよび複数の腫瘍配列読み取りを取得することと、
    前記正常配列読み取りのセグメントおよび前記腫瘍配列読み取りのセグメントを、それぞれ正常サンプル行列および腫瘍サンプル行列に変換することと、
    前記正常サンプル行列および前記腫瘍サンプル行列をトレーニング済み畳み込みニューラルネットワークに供給することと、
    前記トレーニング済み畳み込みニューラルネットワークの出力において、前記複数の腫瘍配列読み取り内の体細胞変異の予測タイプを取得することと、を含む、方法。
  11. 前記複数の腫瘍配列読み取りが、患者の腫瘍サンプルのゲノム情報を表し、前記複数の正常配列読み取りが、前記患者の正常サンプルのゲノム情報を表す、請求項10に記載の方法。

  12. 前記正常配列読み取りのセグメントを前記正常サンプル行列に変換することが、1つ以上の正常配列読み取りに1つ以上のスペースを挿入することによって前記正常配列読み取りのセグメントを拡張することを含み、
    前記腫瘍配列読み取りのセグメントを前記腫瘍サンプル行列に変換することが、1つ以上の腫瘍配列読み取りに1つ以上のスペースを挿入することによって前記腫瘍配列読み取りのセグメントを拡張することを含む、請求項10に記載の方法。
  13. 前記腫瘍サンプル行列が、
    各ヌクレオチド塩基タイプについて少なくとも1つのラインであって、各ラインが、前記腫瘍配列読み取りのセグメント内の各位置における前記それぞれのヌクレオチド塩基タイプの出現数を表す、ラインと、
    前記腫瘍配列読み取りのセグメント内の各位置に挿入されたスペースの数を表す少なくとも1つのラインと、を備える、請求項10に記載の方法。
  14. さらに、前記複数の腫瘍配列読み取りおよび/または前記複数の正常配列読み取りを分析した1つ以上の他の変異呼び出し元から取得された1つ以上の特徴を表す1つ以上の行列を前記トレーニング済み畳み込みニューラルネットワークに提供することを含む、請求項10に記載の方法。
  15. さらに、
    参照配列を取得することと、
    前記参照配列を参照行列に変換することと、
    前記正常サンプル行列および前記腫瘍サンプル行列とともに、前記参照行列を前記トレーニング済み畳み込み行列に供給することと、を含む、請求項10に記載の方法。
  16. コンピューティングシステムの1つ以上のプロセッサによって実行されると、前記コンピューティングシステムに、
    複数の正常配列読み取りおよび複数の腫瘍配列読み取りを取得することと、
    前記正常配列読み取りのセグメントおよび前記腫瘍配列読み取りのセグメントを、それぞれ正常サンプル行列および腫瘍サンプル行列に変換することと、
    前記正常サンプル行列および前記腫瘍サンプル行列をトレーニング済み畳み込みニューラルネットワークに供給することと、
    前記トレーニング済み畳み込みニューラルネットワークの出力において、前記複数の正常配列読み取り内の体細胞変異の予測タイプを取得することと、を含む動作を実行させる命令を備える、非一時的コンピュータ可読媒体。
  17. 1つ以上のプロセッサを備え、命令を記憶する1つ以上の非一時的コンピュータ可読メモリに結合されたコンピューティングシステムであって、前記命令は、前記コンピューティングシステムによって実行されると、前記コンピューティングシステムに、
    複数の腫瘍配列読み取りを取得することと、
    1つ以上の腫瘍配列読み取りに1つ以上のスペースを挿入することによって拡張腫瘍配列読み取りを取得することと、
    前記腫瘍配列読み取りのセグメントを腫瘍サンプル行列に変換することと、
    前記正常サンプル行列および前記腫瘍サンプル行列をトレーニング済みニューラルネットワークに供給することと、
    前記トレーニング済みニューラルネットワークの出力において、前記複数の腫瘍配列読み取り内の体細胞変異の予測タイプを取得することと、を含む動作を実行させる、コンピューティングシステム。
  18. 変異呼び出し方法であって、
    参照配列および複数の配列読み取りを取得することと、
    前記取得された複数の配列読み取りおよび参照配列が既に位置合わせされた構成で取得されない限り、必要に応じて、前記複数の配列読み取りと前記参照配列との第1の位置合わせを実行することと、
    前記位置合わせされた配列読み取りおよび参照配列から候補変異位置を特定することと、
    前記複数の配列読み取りと前記参照配列との第2の位置合わせを達成するために、前記候補変異位置の周りの前記配列読み取りおよび/または前記参照配列を拡張することと、
    前記拡張参照配列から前記候補変異位置の参照行列を生成し、前記複数の拡張配列読み取りから前記候補変異位置のサンプル行列を生成することと、
    前記参照行列および前記サンプル行列をニューラルネットワークに入力することと、
    前記候補変異位置において変異タイプが存在するかどうかを前記ニューラルネットワークによって判定することと、を含む、方法。
  19. 前記配列読み取りおよび/または前記参照配列を拡張するステップが、前記配列読み取りにおける挿入および/または欠失を構成するために前記配列読み取りおよび/または前記参照配列に1つ以上のスペースを導入することを含む、請求項18に記載の方法。
  20. さらに、
    トレーニングデータセットから複数のトレーニング行列を生成することであって、前記トレーニング行列が、前記サンプル行列および前記参照行列に対応する構造を有し、前記トレーニングデータセットが、複数の変異を含む配列データを含み、前記変異が、単一ヌクレオチド変異、挿入、および欠失を含む、生成することと、
    前記複数のトレーニング行列を使用して前記ニューラルネットワークをトレーニングすることと、を含む、請求項18に記載の方法。
  21. 前記トレーニングデータセットが複数のサブセットを含み、各サブセットが0%から100%の範囲の腫瘍純度レベルを含み、前記サブセットのうちの少なくとも2つがそれぞれ異なる腫瘍純度レベルを有する、請求項20に記載の方法。
  22. 前記サブセットのうちの少なくとも3つがそれぞれ異なる腫瘍純度レベルを有する、請求項20に記載の方法。
  23. 前記複数のサブセットが、腫瘍純度レベルが約30%未満の第1のサブセット、腫瘍純度レベルが約30%から70%の第2のサブセット、および第3の腫瘍純度レベルが少なくとも約70%の第3のサブセットを含む、請求項21に記載の方法。
  24. 前記複数のサブセットが、腫瘍純度レベルが約40%未満の第1のサブセット、腫瘍純度レベルが約40%から60%の第2のサブセット、および腫瘍純度レベルが少なくとも約60%の第3のサブセットを含む、請求項21に記載の方法。
  25. 前記複数のサブセットが、腫瘍純度レベルが約10%未満のサブセットを含む、請求項21〜24のいずれか一項に記載の方法。
  26. 前記複数のサブセットが、腫瘍純度レベルが約5%未満のサブセットを含む、請求項21〜24のいずれか一項に記載の方法。
  27. 前記トレーニングデータセットが合成データを含む、請求項20に記載の方法。
  28. 前記合成データが、人工的に生成された変異を含み、前記人工的に生成された変異が、単一ヌクレオチド変異、挿入、および欠失を含む、請求項27に記載の方法。
  29. 前記トレーニングデータセットが実際のデータを含み、前記実際のデータが実際の変異を含み、前記実際の変異が、単一ヌクレオチド変異、挿入、および欠失を含む、請求項20に記載の方法。
  30. 前記トレーニングデータセットが複数のサブセットを含み、各サブセットが0%から100%の範囲の変異対立遺伝子頻度を含み、前記サブセットのうちの少なくとも2つがそれぞれ異なる変異対立遺伝子頻度レベルを有する、請求項20に記載の方法。
  31. 前記サブセットのうちの少なくとも3つがそれぞれ異なる変異対立遺伝子頻度レベルを有する、請求項30に記載の方法。
  32. 前記サブセットのうちの少なくとも1つが少なくとも2.5%の変異対立遺伝子頻度を有する、請求項30に記載の方法。
  33. 前記サブセットのうちの少なくとも1つが少なくとも5%の変異対立遺伝子頻度を有する、請求項30に記載の方法。
  34. 前記サブセットのうちの少なくとも1つが少なくとも10%の変異対立遺伝子頻度を有する、請求項30に記載の方法。
  35. さらに、少なくとも1つの変異呼び出しアルゴリズムからの少なくとも1つの予測を前記ニューラルネットワークに入力することを含む、請求項18に記載の方法。
  36. 前記少なくとも1つの予測が、少なくとも3つの別個の変異呼び出しアルゴリズムからの少なくとも3つの予測を含む、請求項35に記載の方法。
  37. 前記少なくとも1つの予測が、少なくとも5つの別個の変異呼び出しアルゴリズムからの少なくとも5つの予測を含む、請求項35に記載の方法。
  38. 前記トレーニングデータセットが、合成データと実際のデータとの混合を含む、請求項20に記載の方法。
  39. 前記トレーニングデータセットが少なくとも5%の合成データを含む、請求項38に記載の方法。
  40. 前記トレーニングデータセットが少なくとも10%の合成データを含む、請求項38に記載の方法。
  41. 前記トレーニングデータセットが全ゲノムシーケンシングデータを含む、請求項20に記載の方法。
  42. 前記トレーニングデータセットが全エクソームシーケンシングデータを含む、請求項20に記載の方法。
  43. 前記トレーニングデータセットが標的化シーケンシングデータを含む、請求項20に記載の方法。
  44. 前記トレーニングデータセットが、ホルマリン固定パラフィン包埋サンプルから取得されたデータを含む、請求項20に記載の方法。
  45. 前記トレーニングデータセットが、全ゲノムシーケンシングデータ、全エクソームシーケンシングデータ、標的化シーケンシングデータ、およびホルマリン固定パラフィン包埋サンプルから取得されたデータのうちの少なくとも2つを含む、請求項20に記載の方法。
  46. 前記トレーニングデータセットが、全ゲノムシーケンシングデータ、全エクソームシーケンシングデータ、標的化シーケンシングデータ、およびホルマリン固定パラフィン包埋サンプルから取得されたデータのうちの少なくとも3つを含む、請求項20に記載の方法。
  47. 前記トレーニングデータセットが、全ゲノムシーケンシングデータ、全エクソームシーケンシングデータ、標的化シーケンシングデータ、およびホルマリン固定パラフィン包埋サンプルから取得されたデータを含む、請求項20に記載の方法。
  48. 変異呼び出し方法であって、
    参照配列、複数の腫瘍配列読み取り、および複数の正常配列読み取りを取得することと、
    前記取得された複数の腫瘍配列読み取りおよび前記複数の正常配列読み取りおよび前記参照配列が既に位置合わせされた構成で取得されない限り、必要に応じて、前記複数の腫瘍配列読み取りおよび前記複数の正常配列読み取りと前記参照配列との第1の位置合わせを実行することと、
    前記位置合わせされた腫瘍配列読み取り、正常配列読み取り、および参照配列から候補変異位置を特定することと、
    前記複数の腫瘍配列読み取りおよび前記複数の正常配列読み取りと前記参照配列との第2の位置合わせを達成するために、前記腫瘍配列読み取りおよび/または前記正常配列読み取り、および/または前記候補変異位置の周りの前記参照配列を拡張することと、
    前記拡張参照配列から前記候補変異位置の参照行列を生成し、前記複数の拡張腫瘍配列読み取りから前記候補変異位置の腫瘍行列を生成し、前記複数の拡張正常配列読み取りから前記候補変異位置の正常行列を生成することと、
    前記参照行列、前記腫瘍行列、および前記正常行列をニューラルネットワークに入力することと、
    前記候補変異位置において変異タイプが存在するかどうかを前記ニューラルネットワークによって判定することと、を含む、方法。
  49. さらに、
    トレーニングデータセットから複数のトレーニング行列を生成することであって、前記トレーニング行列が、腫瘍行列、正常行列、および参照行列に対応する構造を有し、前記トレーニングデータセットが、腫瘍配列データおよび正常配列データを含む、生成することと、
    前記複数のトレーニング行列を使用して前記ニューラルネットワークをトレーニングすることと、を含む、請求項48に記載の方法。
  50. 前記腫瘍配列データおよび前記正常配列データの双方が複数の変異を含み、前記変異が、単一ヌクレオチド変異、挿入、および欠失を含む、請求項49に記載の方法。
  51. 前記正常配列データが最大5%の腫瘍配列データを含む、請求項49に記載の方法。
  52. 前記正常配列データが最大10%の腫瘍配列データを含む、請求項49に記載の方法。
  53. 前記腫瘍配列データが、約10%から100%の腫瘍純度レベルを含む、請求項49に記載の方法。
  54. 前記トレーニングデータセットが複数の腫瘍配列データサブセットを含み、各腫瘍配列データサブセットが、10%から100%の範囲の腫瘍純度レベルを含み、前記腫瘍配列データサブセットのうちの少なくとも2つが、それぞれ異なる腫瘍純度レベルを有する、請求項49に記載の方法。
  55. 前記腫瘍配列データサブセットのうちの少なくとも3つがそれぞれ異なる腫瘍純度レベルを有する、請求項54に記載の方法。
  56. 前記複数の腫瘍配列データサブセットが、腫瘍純度レベルが約30%未満の第1の腫瘍配列データサブセット、腫瘍純度レベルが約30%から70%の第2の腫瘍配列データサブセット、および腫瘍純度レベルが少なくとも約70%の第3の腫瘍配列データサブセットを含む、請求項54に記載の方法。
  57. 前記複数の腫瘍配列データサブセットが、腫瘍純度レベルが約40%未満の第1の腫瘍配列データサブセット、腫瘍純度レベルが約40%から60%の第2の腫瘍配列データサブセット、および腫瘍純度レベルが少なくとも約60%の第3の腫瘍配列データサブセットを含む、請求項54に記載の方法。
  58. 前記トレーニングデータセットが合成データを含む、請求項49に記載の方法。
  59. 前記合成データが人工的に生成された変異を含み、前記人工的に生成された変異が、単一ヌクレオチド変異、挿入、および欠失を含む、請求項49に記載の方法。
  60. 前記トレーニングデータセットが実際のデータを含み、前記実際のデータが実際の変異を含み、前記実際の変異が、単一ヌクレオチド変異、挿入、および欠失を含む、請求項49に記載の方法。
  61. 前記トレーニングデータセットが全ゲノムシーケンシングデータを含む、請求項49に記載の方法。
  62. 前記トレーニングデータセットが全エクソームシーケンシングデータを含む、請求項49に記載の方法。
  63. 前記トレーニングデータセットが標的化シーケンシングデータを含む、請求項49に記載の方法。
  64. 前記トレーニングデータセットが、ホルマリン固定パラフィン包埋サンプルから取得されたデータを含む、請求項49に記載の方法。
  65. システムであって、
    請求項18〜64のいずれか一項に記載のステップを実行するように構成されたプロセッサを備える、システム。
JP2021507667A 2018-08-13 2019-08-12 生殖細胞系列および体細胞変異の呼び出しのためにニューラルネットワークを使用するシステムおよび方法 Pending JP2021534492A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US201862718338P true 2018-08-13 2018-08-13
US62/718,338 2018-08-13
US201962855541P true 2019-05-31 2019-05-31
US62/855,541 2019-05-31
PCT/EP2019/071580 WO2020035446A1 (en) 2018-08-13 2019-08-12 Systems and methods for using neural networks for germline and somatic variant calling

Publications (1)

Publication Number Publication Date
JP2021534492A true JP2021534492A (ja) 2021-12-09

Family

ID=67659862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021507667A Pending JP2021534492A (ja) 2018-08-13 2019-08-12 生殖細胞系列および体細胞変異の呼び出しのためにニューラルネットワークを使用するシステムおよび方法

Country Status (5)

Country Link
US (1) US20210257050A1 (ja)
EP (1) EP3837690A1 (ja)
JP (1) JP2021534492A (ja)
CN (1) CN113168886A (ja)
WO (1) WO2020035446A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021202424A1 (en) * 2020-03-30 2021-10-07 Grail, Inc. Cancer classification with synthetic spiked-in training samples
US20220084631A1 (en) * 2020-09-17 2022-03-17 Korea Advanced Institute Of Science And Technology Method and apparatus for machine learning based identification of structural variants in cancer genomes
CN113111803B (zh) * 2021-04-20 2022-03-22 复旦大学 一种小样本字符与手绘草图识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216616A (ja) * 2002-01-18 2003-07-31 National Cancer Center-Japan 基準配列抽出フィルターを利用した塩基挿入欠失部位を持つ塩基配列波形データ選別法
JP2015035212A (ja) * 2013-07-29 2015-02-19 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. ターゲットシークエンシングパネルから変異を見つける方法
JP2017510865A (ja) * 2013-12-27 2017-04-13 コリア インスティテュート オブ サイエンス アンド テクノロジー インフォメーション 変異遺伝体シーケンス予測方法、装置及び変異遺伝体シーケンス予測プログラムを格納する格納媒体
US20180144261A1 (en) * 2016-11-18 2018-05-24 NantOmics, LLC. Methods and systems for predicting dna accessibility in the pan-cancer genome

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216616A (ja) * 2002-01-18 2003-07-31 National Cancer Center-Japan 基準配列抽出フィルターを利用した塩基挿入欠失部位を持つ塩基配列波形データ選別法
JP2015035212A (ja) * 2013-07-29 2015-02-19 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. ターゲットシークエンシングパネルから変異を見つける方法
JP2017510865A (ja) * 2013-12-27 2017-04-13 コリア インスティテュート オブ サイエンス アンド テクノロジー インフォメーション 変異遺伝体シーケンス予測方法、装置及び変異遺伝体シーケンス予測プログラムを格納する格納媒体
US20180144261A1 (en) * 2016-11-18 2018-05-24 NantOmics, LLC. Methods and systems for predicting dna accessibility in the pan-cancer genome

Also Published As

Publication number Publication date
CN113168886A (zh) 2021-07-23
WO2020035446A1 (en) 2020-02-20
US20210257050A1 (en) 2021-08-19
EP3837690A1 (en) 2021-06-23
WO2020035446A9 (en) 2020-04-09

Similar Documents

Publication Publication Date Title
Roumpeka et al. A review of bioinformatics tools for bio-prospecting from metagenomic sequence data
Sahraeian et al. Deep convolutional neural networks for accurate somatic mutation detection
Werner Next generation sequencing in functional genomics
Christoforides et al. Identification of somatic mutations in cancer through Bayesian-based analysis of sequenced genome pairs
Mallory et al. Methods for copy number aberration detection from single-cell DNA-sequencing data
JP2021534492A (ja) 生殖細胞系列および体細胞変異の呼び出しのためにニューラルネットワークを使用するシステムおよび方法
Li et al. An NGS workflow blueprint for DNA sequencing data and its application in individualized molecular oncology
Wang et al. Copy number signature analysis tool and its application in prostate cancer reveals distinct mutational processes and clinical outcomes
Salari et al. Inference of tumor phylogenies with improved somatic mutation discovery
US20180166170A1 (en) Generalized computational framework and system for integrative prediction of biomarkers
Parrish et al. Assembly of non-unique insertion content using next-generation sequencing
Niehus et al. PopDel identifies medium-size deletions simultaneously in tens of thousands of genomes
Sun et al. RED: a Java-MySQL software for identifying and visualizing RNA editing sites using rule-based and statistical filters
Tanner et al. Benchmarking pipelines for subclonal deconvolution of bulk tumour sequencing data
Thutkawkorapin et al. pyCancerSig: subclassifying human cancer with comprehensive single nucleotide, structural and microsatellite mutational signature deconstruction from whole genome sequencing
Niehus et al. PopDel identifies medium-size deletions jointly in tens of thousands of genomes
Valdes et al. Methods to detect transcribed pseudogenes: RNA-Seq discovery allows learning through features
Sahraeian et al. Robust cancer mutation detection with deep learning models derived from tumor-normal sequencing data
Jiang et al. MetaCRS: unsupervised clustering of contigs with the recursive strategy of reducing metagenomic dataset’s complexity
Liu et al. Comprehensive statistical inference of the clonal structure of cancer from multiple biopsies
Haas Bioinformatic Tool Developments with Applications to RNA-Seq Data Analysis and Clinical Cancer Research
Huang Novel computational methods for transcript reconstruction and quantification using rna-seq data
Karaoğlanoğlu Characterization of Largestructural Variation Usinglinked-Reads
Foox et al. Multi-Platform Assessment of DNA Sequencing Performance using Human and Bacterial Reference Genomes in the ABRF Next-Generation Sequencing Study
Sommer et al. Predicting protein structure classes from function predictions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220613