JP2023029827A - バリアントコールのためのニューラルネットワーク - Google Patents
バリアントコールのためのニューラルネットワーク Download PDFInfo
- Publication number
- JP2023029827A JP2023029827A JP2022131827A JP2022131827A JP2023029827A JP 2023029827 A JP2023029827 A JP 2023029827A JP 2022131827 A JP2022131827 A JP 2022131827A JP 2022131827 A JP2022131827 A JP 2022131827A JP 2023029827 A JP2023029827 A JP 2023029827A
- Authority
- JP
- Japan
- Prior art keywords
- variant
- reads
- neural network
- variants
- read
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
【課題】参照ゲノムを基準としたバリアントコールを改良する方法及びプログラムを提供する。【解決手段】参照ゲノムを基準としたバリアントコールのためにニューラルネットワークを機械学習させるためのコンピュータ実装方法であって、ニューラルネットワークは、参照ゲノムのゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の1つ以上のセットを入力として受け取り、当該ゲノム位置でのバリアントの存在に関する情報を出力し、データ片の各セットに対し、データ片のセットを入力として受け取り処理するそれぞれの関数を適用する。それぞれの関数は対称性を有する。【選択図】図1
Description
本発明は、コンピュータプログラム及びシステムの分野、より具体的には、参照ゲノムを基準としたバリアントコールに関する。
ここ数十年におけるNew Genomic Sequencing(NGS)プラットフォームがもたらした技術的進歩により、ゲノム配列決定が普及してきている。ゲノムが利用可能になるとともに、当該ゲノムを利用する医療用途が開発されている。例えば、近年では、一人ひとりに合わせた個別化医療が注目を集めている。直接的な用途としては、例えば、遺伝性疾患の診断及び治療のための癌のプロファイリングが挙げられる。
ゲノム配列決定は、プレシジョン・メディシンや伝染病学からのニーズの高まりに対応するため、ハードウェアとソフトウェアの両方の面で急速に進化し続けている分野である。一般に、配列決定は、一個体に存在するゲノムバリアントを同定するために使用されることが多い。バリアントは、標準的な参照ゲノム(Genome Reference Consortium)との比較に基づいて同定(つまり「コール」)される。バリアントにはさまざまな種類があり、参照ゲノムの一塩基が置換される点突然変異のバリアントは「SNP」(一塩基多型)、参照と比較して塩基が除去されるバリアントは「欠失」、塩基が追加される(参照ゲノムに1つ以上の塩基が追加される)バリアントは「挿入」と呼ばれる。また、多数の塩基にまたがるバリアントは「構造バリアント」と呼ばれる。
バリアントコールのプロセスには、どの対立遺伝子が二倍体胚ゲノムに存在するかを同定するため、各ゲノム位置を調べることが含まれてよく、(i)対立遺伝子が両方とも同一の場合はホモ接合、又は(ii)対立遺伝子が異なる場合はヘテロ接合である。各対立遺伝子は、参照ゲノムと一致するか、又は、一致せずバリアントである可能性がある。腫瘍の場合、ゲノム位置が参照ゲノム又は同位置に存在する生殖細胞系列の対立遺伝子のいずれとも一致しない場合、バリアントがコールされる。
リード生成のためには、天然DNAを断片化し、そのまま配列決定するか、又は、事前増幅ステップ後に配列決定する。リード長は、100bp(例:Illuminaクノロジーを使用)から10kbp(例:Nanoporeテクノロジーを使用)までさまざまである。これらのテクノロジーに共通する特徴として、冗長に配列決定を行い、実験誤差を相殺し、細胞集団における遺伝的不均一性を考慮することが挙げられる。位置ごとのリード平均数は、配列決定の「深度」と呼ばれる。
人口規模でのゲノミクス発展のためには正確かつ高性能なアルゴリズムが不可欠であるため、バリアントコールは活発に研究されている分野である。性能は改良を重ねており、近い将来も改良し続ける可能性がある。特に最近では、バイオインフォマティクス分野の研究者が機械学習方法を利用しようとしている。特に、Googleが開発したDeepvariantがそうである。しかし、留意すべき点の1つに、正常なDNAでも非常に困難な問題であるのに、腫瘍DNAではさらに複雑になるということがある。実際に、腫瘍細胞は非常に急速に変異するため、同一DNAを共有せず、不均一な集団である。
こういった背景の中で、参照ゲノムを基準としたバリアントコールを行うための改良されたソリューションが依然として必要とされている。
したがって、参照ゲノムを基準としたバリアントコールのためにニューラルネットワークを機械学習させるためのコンピュータ実装方法が提供される。当該ニューラルネットワークは、当該参照ゲノムのゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の1つ以上のセットを入力として受け取るよう構成される。当該ニューラルネットワークは、当該ゲノム位置でのバリアントの存在に関する情報を出力するよう構成される。当該ニューラルネットワークは、データ片の各セットに対し、データ片のセットを入力として受け取り処理するように構成されるそれぞれの関数を含む。当該それぞれの関数は対称性を有する。
上記の機械学習のための方法(本機械学習方法)は、以下のうちの1つ以上を含んでもよい:
-各データ片は、各リードの塩基ディスクリプタの各配列を含んでよい、
-上記それぞれの関数は、塩基ディスクリプタの各配列を処理するための1つ以上の畳み込み層を含んでよい、
-各畳み込み層は、1つ以上の1次元畳み込みフィルタを適用してよい、
-上記塩基ディスクリプタは、挿入サイズ及び/又は欠失サイズを表す1つ以上のディスクリプタ、例えば挿入サイズディスクリプタ及び欠失サイズディスクリプタを含んでよい、
-上記それぞれの関数は、それぞれ、上記の1つ以上の畳み込み層の出力を順序に関係なく特徴のセットに畳む削減層を含んでよい、
-削減層はさらに、各リードに関するリードディスクリプタを入力として受け取ってよい、
-上記リードディスクリプタは、ハプロタイプ支持ディスクリプタを含んでよい、
-削減層は、平均及び/又は標準偏差など、1つ以上の順序無関係の演算子を含んでよい、
-ニューラルネットワークは、各削減層の出力を処理し、分類を実行するように構成される1つ以上の全結合層を含んでよい、
-ニューラルネットワークはさらに、パイルディスクリプタを入力として受け取ってよい、
-パイルディスクリプタは、深度を表すディスクリプタ及び/又はベイジアンバリアント推定を表すディスクリプタを含んでよい、及び/又は
-上記したリードの1つ以上のセットは、生殖細胞系列バリアントに関する第1のリードのセット及び体細胞バリアントに関する第2のリードのセットを含んでよく、ここで、ニューラルネットワークは、
・当該第1のリードのセットのための第1の関数及び当該第2のリードのセットのための第2の関数、及び
・当該第1の関数及び第2の関数の出力を集約するための層、を含んでよい。
-各データ片は、各リードの塩基ディスクリプタの各配列を含んでよい、
-上記それぞれの関数は、塩基ディスクリプタの各配列を処理するための1つ以上の畳み込み層を含んでよい、
-各畳み込み層は、1つ以上の1次元畳み込みフィルタを適用してよい、
-上記塩基ディスクリプタは、挿入サイズ及び/又は欠失サイズを表す1つ以上のディスクリプタ、例えば挿入サイズディスクリプタ及び欠失サイズディスクリプタを含んでよい、
-上記それぞれの関数は、それぞれ、上記の1つ以上の畳み込み層の出力を順序に関係なく特徴のセットに畳む削減層を含んでよい、
-削減層はさらに、各リードに関するリードディスクリプタを入力として受け取ってよい、
-上記リードディスクリプタは、ハプロタイプ支持ディスクリプタを含んでよい、
-削減層は、平均及び/又は標準偏差など、1つ以上の順序無関係の演算子を含んでよい、
-ニューラルネットワークは、各削減層の出力を処理し、分類を実行するように構成される1つ以上の全結合層を含んでよい、
-ニューラルネットワークはさらに、パイルディスクリプタを入力として受け取ってよい、
-パイルディスクリプタは、深度を表すディスクリプタ及び/又はベイジアンバリアント推定を表すディスクリプタを含んでよい、及び/又は
-上記したリードの1つ以上のセットは、生殖細胞系列バリアントに関する第1のリードのセット及び体細胞バリアントに関する第2のリードのセットを含んでよく、ここで、ニューラルネットワークは、
・当該第1のリードのセットのための第1の関数及び当該第2のリードのセットのための第2の関数、及び
・当該第1の関数及び第2の関数の出力を集約するための層、を含んでよい。
参照ゲノムを基準としたバリアントコールのための第1のコンピュータ実装方法がさらに提供される。第1のバリアントコール法は、参照ゲノムのゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の1つ以上のセットを入力として提供することを含む。第1のバリアントコール方法は、上記の機械学習方法に従って機械学習したニューラルネットワークを当該入力に適用して、当該ゲノム位置でのバリアントの存在に関する情報を出力することを含む。ニューラルネットワークの適用には、データ片の各セットに対し、データ片のセットを入力として受け取り処理するように構成される当該ニューラルネットワークのそれぞれの対称関数を適用することが含まれる。
上記第1のバリアントコール方法を含む、参照ゲノムを基準としたバリアントコールのための第2のコンピュータ実装方法がさらに提供される。第2のバリアントコール方法は、参照ゲノムに対してアラインされたリードの1つ以上のセットを提供することを含む。第2のバリアントコール方法は、当該リードの1つ以上のセットを参照ゲノムと比較することによって、参照ゲノム内の関心領域のセットを決定することを含む。第2のバリアントコール方法は、特定の関心領域ごとに、以下のステップを含む。第1のステップは、上記した特定領域の提供されたリードの1つ以上のセットに基づいてハプロタイプ再構築を実行し、2つ以上のハプロタイプを同定することである。第2のステップは、当該2つ以上のハプロタイプに基づいて、当該特定領域のリードの1つ以上のセットを再アラインすることである。第3のステップは、再アラインされたリードの1つ以上のセットと当該2つ以上のハプロタイプに基づいて、特定領域の潜在的なバリアントを推測することである。第4のステップは、粗粒度フィルタリングを実行して、潜在的なバリアントから候補バリアントを検出することである。検出された各候補バリアントは、それぞれのゲノム位置に対応する。第2のバリアントコール方法は、第5のステップとして、検出された候補ごとに次のサブステップを含む。第1のサブステップは、検出された候補に対応するゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の1つ以上のセットを同定することである。第2のサブステップは、前述のデータ片の1つ以上のセットに対し、第1のバリアントコール方法の提供すること及び適用することを実行することである。
第2のバリアントコール方法は、以下のうちの1つ以上を含んでよい:
-上記ハプロタイプ再構築の実行には、以下が含まれてよい:
・有向非巡回グラフで所定の数の最長経路を列挙することにより、潜在的なハプロタイプのセットを推測すること、及び、任意で、
・当該潜在的なハプロタイプのセットからハプロタイプのサブセットを選択することであり、ここで、ハプロタイプのサブセットは、セットのうち、支持リード数が最も多い潜在的なハプロタイプであり、ハプロタイプのサブセットは、ハプロタイプ再構築によって同定される2つ以上のハプロタイプに対応する、
-上記リードの1つ以上のセットは、生殖細胞系列バリアントに関する第1のリードのセットを含んでよく、ここで、上記特定領域の潜在的なバリアントを推測することは、生殖細胞系列バリアントについて、バリアントが参照よりも可能性が高い確率を評価することを含んでよい、
-上記リードの1つ以上のセットは、体細胞バリアントに関する第2のリードのセットを含んでよく、ここで、上記特定領域の潜在的なバリアントを推測することは、体細胞バリアントについて、
・生殖細胞系列バリアントの存在及び/又は体細胞バリアントの存在、及び
・体細胞バリアントの頻度、を考慮してよい。
-上記ハプロタイプ再構築の実行には、以下が含まれてよい:
・有向非巡回グラフで所定の数の最長経路を列挙することにより、潜在的なハプロタイプのセットを推測すること、及び、任意で、
・当該潜在的なハプロタイプのセットからハプロタイプのサブセットを選択することであり、ここで、ハプロタイプのサブセットは、セットのうち、支持リード数が最も多い潜在的なハプロタイプであり、ハプロタイプのサブセットは、ハプロタイプ再構築によって同定される2つ以上のハプロタイプに対応する、
-上記リードの1つ以上のセットは、生殖細胞系列バリアントに関する第1のリードのセットを含んでよく、ここで、上記特定領域の潜在的なバリアントを推測することは、生殖細胞系列バリアントについて、バリアントが参照よりも可能性が高い確率を評価することを含んでよい、
-上記リードの1つ以上のセットは、体細胞バリアントに関する第2のリードのセットを含んでよく、ここで、上記特定領域の潜在的なバリアントを推測することは、体細胞バリアントについて、
・生殖細胞系列バリアントの存在及び/又は体細胞バリアントの存在、及び
・体細胞バリアントの頻度、を考慮してよい。
本機械学習方法に従って機械学習したニューラルネットワークを含むデータ構造(すなわち、ニューラルネットワークを表すデータ)がさらに提供される。
本機械学習方法を実行するための命令を含むコンピュータプログラムがさらに提供される。
第1のバリアントコール方法及び/又は第2のバリアントコール方法を実行するための命令を含むコンピュータプログラム及び/又はその使用方法がさらに提供される。
上記データ構造及び/又は上記コンピュータプログラムのいずれか若しくは両方をその上に記録したデータ記憶媒体を含むデバイスがさらに提供される。
当該デバイスは非一過性のコンピュータ可読媒体を形成又は非一過性のコンピュータ可読媒体として機能してもよく、例えば、SaaS(サービスとしてのソフトウェア)又は他のサーバー、あるいはクラウドベースのプラットフォームなどが挙げられる。あるいは、当該デバイスは、データ記憶媒体と結合したプロセッサを備えてもよい。したがって、当該デバイスは、全体的又は部分的にコンピュータシステムを形成してもよい(例えば、デバイスはシステム全体のサブシステムである)。当該システムは、プロセッサと結合したグラフィカルユーザーインターフェースをさらに備えてもよい。
参照ゲノムを基準としたバリアントコールのためにニューラルネットワークを機械学習させるためのコンピュータ実装方法を提案する。当該ニューラルネットワークは、参照ゲノムのゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の1つ以上のセットを入力として受け取るよう構成される。当該ニューラルネットワークは、当該ゲノム位置でのバリアントの存在に関する情報を出力するよう構成される。当該ニューラルネットワークは、データ片の各セットに対し、データ片のセットを入力として受け取り処理するように構成されるそれぞれの関数を含む。当該それぞれの関数は対称性を有する。
図1のフローチャートを参照すると、参照ゲノムを基準としたバリアントコールのための第1のコンピュータ実装方法がさらに提供される。第1のバリアントコール法は、参照ゲノムのゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の1つ以上のセットを入力として提供することS700を含む。第1のバリアントコール方法は、上記の機械学習方法に従って機械学習したニューラルネットワークに当該入力に適用することS800を含む。
当該ニューラルネットワークは、上記したデータ片の1つ以上のセットを入力として受け取り、ゲノム位置でのバリアントの存在に関する情報を出力するように構成される。当該ニューラルネットワークは、データ片の各セットに対し、データ片のセットを入力として受け取り処理するように構成されるそれぞれの関数を含む。各セットのそれぞれの関数は対称性を有する。上記したニューラルネットワークの適用には、データ片の各セットに対し、データ片のセットを入力として受け取り処理するように構成される当該ニューラルネットワークのそれぞれの対称関数を適用することが含まれる。
図2のフローチャートを参照すると、参照ゲノムを基準としたバリアントコールのための第2のコンピュータ実装方法がさらに提供され、当該第2のコンピュータ実装方法には、図1の方法が組み込まれる。第2のバリアントコール方法は、参照ゲノムに対してアラインされたリードの1つ以上のセットを提供することS000を含む。第2のバリアントコール方法は、当該リードの1つ以上のセットを参照ゲノムと比較することによって、参照ゲノム内の関心領域のセットを決定することS100を含む。当該セットの特定の関心領域ごとに、第2のバリアントコール方法は、以下のステップを含む。第1のステップは、上記した特定領域の提供されたリードの1つ以上のセットに基づいてハプロタイプ再構築を実行し、2つ以上のハプロタイプを同定することS200である。第2のステップは、当該2つ以上のハプロタイプに基づいて、当該特定領域のリードの1つ以上のセットを再アラインすることS300である。第3のステップは、再アラインされたリードの1つ以上のセットと当該2つ以上のハプロタイプに基づいて、当該特定領域の潜在的なバリアントを推測することS400である。第4のステップは、粗粒度フィルタリングを実行して、当該潜在的なバリアントから候補バリアントを検出することS500である。検出された各候補バリアントは、それぞれのゲノム位置に対応する。第2のバリアントコール方法は、第5のステップとして、検出された候補ごとに次のサブステップを含む。第1のサブステップは、検出された候補に対応するゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の1つ以上のセットを同定することS600である。第2のサブステップは、当該データ片の1つ以上のセットに対して、第1のバリアントコール方法の提供することS700及び適用することS800を実行することである。
上記した領域のセットを決定することS100は、参照ゲノムの位置を調べ、所定の位置ごとに、当該所定の位置にアラインされたリードにおける不一致率を計算することを含むプロセスを実行することを含んでよい。このステップにおいて、当該プロセスは、所定の閾値よりも高い比率を有する位置を記録する(すなわち、マークする)ことを含んでよい。同時に、当該プロセスはそのような位置を関心領域(不一致率が閾値よりも数倍高い位置)に集約してよい。当該プロセスによって閾値よりも高い比率である位置が算出され次第、当該プロセスはその領域を関心領域として記録してよい。上記決定することS100は、所定の限界(例えば、塩基1000個の限界)内で、ある塩基から隣の塩基へと領域を拡大することを含んでよい。
このような方法により、参照ゲノムを基準としたバリアントコールの改良されたソリューションが構成される。
特に、本機械学習方法は、速度、精度、及び/又は利用可能なデータ活用など、機械学習の技術を利用する。さらに、本機械学習方法は、効率的及び/又は正確な機械学習を可能にする。実際に、それぞれの関数は対称的であり、よって、配列決定の出力においてリードの順序は意味を持たないため、ニューラルネットワーク学習を重要な情報に集中させることができる。
「対称」とは、対称関数の数学的定義を指す。つまり、「対称」関数は、変数のいかなる順列に対しても値が不変である複数の変数の関数(どんなσ順列でも、f(x1,…,xn )=f(σ(x1,…,xn)))である。したがって、入力された1つ以上のセットのそれぞれにおけるリード指定データ片の順序は、ニューラルネットワークの結果、すなわちニューラルネットワークが出力するバリアントの存在に関する情報に影響を与えない。つまり、本ニューラルネットワークは、入力された各セット内のリード指定データ片の順序に対して不変な構造である。
ニューラルネットワークが入力としてデータ片の複数のセット及び複数の関数を受け取るよう構成される場合、当該関数は同じであってもよく、つまり、同じパラメータ値及び/又は重みを共有してよい。あるいは、当該関数は別の関数であってもよい/異なっていてもよい。
本機械学習方法は、参照ゲノムに関するトレーニングサンプルのデータセットを提供すること、及び、提供されたトレーニングサンプルのデータセットに基づいてニューラルネットワークをトレーニングすることを含んでよい。各トレーニングサンプルは、参照ゲノムの所定のゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の1つ以上のセット、及び、当該ニューラルネットワークに対応する出力、すなわち、当該所定のゲノム位置におけるバリアントの存在に関する出力情報を含んでよい。このような出力(つまり、正解)は、従来の決定論的手法によるデータセットの構築で取得してよい。機械学習の分野でそれ自体公知であるように、ニューラルネットワークによる入力の処理には、入力への演算の適用が含まれ、ここで、演算は重み値を含むデータによって定義される。したがって、ニューラルネットワークの学習/トレーニングには、そのような学習用に構成されたデータセットに基づいて重みの値を決定することが含まれ、このようなデータセットは、学習データセット又はトレーニングデータセットと呼ばれることもある。データセットは、トレーニングサンプルを含んでよい。各トレーニングサンプルは、それぞれ、あるゲノム位置に対してアラインされた各リードのデータ片の1つ以上のセット、及び当該ゲノム位置でのバリアントの存在に関するそれぞれの情報を含んでよい。当該それぞれの情報は、1回以上の予備調査の結果であってよく、学習の正解と見なされ得る。トレーニングサンプルは、学習後にニューラルネットワークが使用される多様な状況を表している。データセットは、1000、10000、100000、又は1000000を超える数のトレーニングサンプルを含んでいてもよい。本開示の文脈において、「ニューラルネットワークを学習させる」とは、データセットがニューラルネットワークの学習/トレーニングデータセットであり、重みの値(「パラメータ」)がそれに基づいていることを意味する。
ニューラルネットワークは、ディープニューラルネットワーク(DNN)から構成されてもよく、及び/又は複数のサブネットワークを含んでもよい。本機械学習方法は、当該複数のサブネットワークを結合して又は別々にトレーニングすることを含んでよい。「結合して」とは、当該複数のサブネットワークの重みがすべて同じ単一の最適化における変数であることを意味する。データ片のセットが複数のセットの場合、各関数はそれぞれのサブネットワークを形成し、本機械学習方法は、データ片の複数のセットに関連する当該関数又はサブネットワークを結合して又は別々にトレーニングすることを含んでよい。
次に、ニューラルネットワークの入力について説明する。
リードは、それぞれのDNA断片の塩基配列(又は、塩基対の配列も同等)である。本明細書におけるリードは、Illuminaテクノロジー、Ion Torrentテクノロジー又はNanoporeテクノロジーなどのDNA配列決定の任意の技術に基づいた1つ以上の細胞のDNA配列決定によって得られてよい。配列決定は、1つ以上の細胞のDNA(すなわち、天然DNA)を複数のDNA断片に断片化し、当該複数のDNA断片に基づいて、任意でDNA増幅ステップの後に、リードを生成することを含んでよい。本明細書において、いかなるDNA配列決定のための1つ以上の細胞は、個体からサンプリングされてよい。したがって、バリアントコール方法はそれぞれ、ある個体の1つ以上の細胞をサンプリングし、上記のように当該細胞のDNA配列決定を行ってリードを生成し、次いでニューラルネットワークに入力するデータ片を生成する最初のステップを含んでもよい。サンプリングは、個体からサンプルを採取するための任意の方法及び/又は任意のサンプリング器具を使用して実行してよい。
参照ゲノムは、任意の(単一の)種、特にヒト種の参照ゲノムであってよい。本明細書における任意のリードは、当該種の個体のリードであってよい。つまり、リードのソースとなる細胞は、前記個体の細胞であってよい。参照ゲノムは、当該種の理想個体の有機体における遺伝子セットの一例を表すデジタル核酸配列データベースから構成されてよい。
各リードは、ゲノム位置に対してアラインされ、つまり、リードを指定するデータ片には、当該リードが参照ゲノムのどの部分に対応するか又はマッピングされるかを示す指標が含まれる。
各データ片は、参照ゲノムのゲノム位置に対してアラインされた各リードのコンピュータ仕様を形成する。つまり、各データ片は、例えばリードを形成する塩基配列といった、各リードを記述する情報又は各リードに関連する情報、及び、任意でリード又はリード内の塩基に関連する追加情報を含む。例えば、当該情報は、それぞれのリードの塩基配列のエンコードされたものを含んでよい。
次に、ニューラルネットワークの出力について説明する。
出力された情報は、バリアントが存在するかどうか(つまり当該ゲノム位置に存在するかどうか)、及び任意でバリアントの種類(つまり、所定のバリアントの種類のセットの中のバリアントの種類)を示す指標を含んでよい。追加的又は代替的に、出力された情報は、バリアントが存在する確率を含んでよい。ニューラルネットワークは、各セットのすべてのデータ片を考慮して、バリアントが存在する確率を計算してよい。あるいは、ニューラルネットワークは、バリアントが存在する有意な確率のみを出力してもよい。例えば、ニューラルネットワークは、ゲノム位置においてバリアントが存在する確率を計算し、その確率が閾値よりも高い場合にのみ、計算した確率を出力してよい。出力される情報は、ゲノム位置に関する情報、バリアントの種類に関する情報、バリアントがホモ接合体であるかヘテロ接合体であるかに関する情報など、他の情報を含んでもよい。
上記した所定のバリアントの種類のセットは、1つ以上の種類の一塩基型のバリアント(すなわち、SNP)、1つ以上の種類の欠失(すなわち、参照と比較して1つ以上の塩基が除去されるバリアント)、及び、1つ以上の種類の挿入(すなわち、参照と比較して塩基を1つ以上多く含むバリアント)を含んでよい。欠失及び挿入の場合、除去又は増加した塩基の数には最大数を設けてよい。つまり、ニューラルネットワークは、それぞれ追加又は除去された塩基の数が当該最大数以下である場合、バリアントがそれぞれ挿入又は欠失であると出力してよい。情報は、例えば、バリアントが存在する又はバリアントが存在する可能性が高いと同定される位置ごとに1行又は1列でのテキスト形式や表形式など、任意の形式で出力してよい。
ニューラルネットワークは、個体(例えば、ヒト種)の生殖細胞系列リード(つまり、健康な細胞由来のリード)を指定する全データ片に適用されるようトレーニング及び設計してよい。この場合、出力は、当該個体の健康な細胞にバリアントが存在するかどうかを示してよい。あるいは、ニューラルネットワークは、癌疾患を患う個体の体細胞リード(すなわち、癌細胞由来のリード)を指定するデータ片に、任意で同個体の生殖細胞系列リードを指定するデータ片にも一緒に適用されるようトレーニング及び設計してもよい。この場合、出力は、当該個体の体細胞にバリアントが存在するかどうかを示してよい。後者のケースでは、特定の癌疾患に固有のバリアントをコールすることが可能である。
バリアントコール方法の適用について説明する。
生殖細胞系列の場合、疾患の予後、診断、又は治療(例えば、遺伝病の診断)に適用されてよい。例えば、当該適用には、個体のコールされたバリアントを分析すること、疾患を診断すること、及び/又は、診断された疾患を治療するために適応した治療(例えば、投薬量)を決定すること、及び/又は、予後を実行すること、及び/又は、適応行動を決定することが含まれてよい。次いで、バリアントコール方法の対象である個体(例えば、ヒト)は、そのような治療及び/又は行動に従うことができる。
体細胞の場合、対象個体が患う癌疾患の評価又は予後及び治療(例えば、癌の詳細を決定する、又は癌診断を確認する)に適用されてよい。当該適用には、健康な細胞に対してコールされたバリアントを、当該体細胞に対してコールされたバリアントと比較することによって、体細胞における変異を同定することが含まれてよい。当該適用にはさらに、個体のコールされたバリアント及び同定された変異に基づいて、当該癌に特異的な治療を提供することが含まれてよい。代替的又は追加的に、当該適用には、同定された変異に基づいて癌の進行を予測することが含まれてよい。
上記したバリアントコール方法はいずれも、ニューラルネットワークの出力及び/又は上記適用結果を表示することを含んでよい。
本方法はコンピュータに実装される。つまり、方法のステップ(又は実質的にすべてのステップ)が、少なくとも1台のコンピュータ又は任意のシステムによって実行されることを意味する。したがって、本方法のステップは、可能性としては完全自動で、又は半自動で、コンピュータによって実行される。例では、本方法の少なくともいくつかのステップは、ユーザーとコンピュータのインタラクションを介して始動されてもよい。必要なユーザーとコンピュータのインタラクションのレベルは、予測される自動化のレベルに依存し、ユーザーの希望を実施する必要性とのバランスが取られてもよい。例では、このレベルはユーザー定義及び/又は事前に定義されてもよい。
各データ片は、各リードの塩基ディスクリプタのそれぞれの配列を含んでよい。つまり、各データ片は、参照ゲノムの各位置にそれぞれ対応する座標を有する塩基ディスクリプタのベクトルを含んでよく、各ベクトルは、アラインされたゲノム位置に対応する1つの座標を有する。塩基ディスクリプタは塩基の種類(例えば、A、T、C又はG)を含んでよく、塩基ディスクリプタのそれぞれの配列はリードの塩基配列を含んでよい。したがって、各データ片の長さは、リードの塩基配列のサイズに対応してよい(すなわち、各リードのサイズに応じて可変)。あるいは、各データ片の長さは均一(例えば、一定)であり、データ片はすべてゲノム位置を中心としてよい。この場合、各データ片は、追加の開始配列又は終了配列を少なくとも1つさらに含んでよく、当該開始配列又は終了配列は、リードに対応する塩基ディスクリプタの配列の先頭又は末尾に配置され、各リードのそれぞれの配列を参照ゲノムにアラインするためにサイズが変化する。追加の開始配列又は終了配列はそれぞれ、ヌル値を持つ、1つ以上の塩基ディスクリプタの配列から構成されてよい。つまり、ベクトルは、各ベクトルの先頭及び/又は末尾にヌル値を追加することによって正規化され、全ベクトルが同じ長さを持ち、ゲノム位置にアラインされる同座標を持つ。このような正規化により、例えば畳み込み層による塩基ディスクリプタ配列の各セットの一般的な処理が容易になる。
それぞれの関数は、塩基ディスクリプタのそれぞれの配列をそれぞれ処理するための1つ以上の畳み込み層を含んでよく、つまり、それぞれの関数は、塩基ディスクリプタのそれぞれの配列に1つ以上の畳み込みを適用する。ニューラルネットワークが入力として複数のセットを受け取り、したがって複数の対称関数を含むように構成される場合、当該1つ以上の畳み込み層は異なる関数に対して同じであってよく、つまり、共有重みを含んでよい。あるいは、1つ以上の畳み込み層は、異なる関数に対して別個の畳み込み層であってもよい。各畳み込み層は、1つ以上の1次元畳み込みフィルタを適用してよい。各1次元畳み込みフィルタは、各データ片を表すベクトルl x 1を入力として受け取り、処理してよく、ここで、lは各データ片の長さである。1次元畳み込みフィルタを適用すると、リードの順序を考慮せずに、各リードを独立して考慮することが可能になる。したがって、学習の効率及び/又は精度が向上する。実際に、本ニューラルネットワークの学習は、(学習するものが存在しない入力リード間の順序から何かを学習しようとはしないことで)重要な情報に焦点を当てている。
それぞれの関数は、それぞれ、上記の1つ以上の畳み込み層の出力を順序に関係なく特徴のセットに畳む削減層を含んでよい。例えば、削減層は、平均及び/又は標準偏差など、順序無関係の演算子を1つ以上含んでよい。複数のセット、したがって複数の対称関数の場合、削減層は異なる関数に対して同じであってよく、つまり、同じパラメータ値(例えば、同じ順序無関係の演算子)を含んでよい。あるいは、削減層は、異なる関数に対して別個の層であってもよい。
図3から図11を参照しながら、以下のセクション1から3において、本機械学習方法並びに第1及び第2のバリアントコール方法の特定の実装について説明する。
セクション1:バリアントコールプロセス
図3は、本バリアントコール方法の特定の実装が実施されるバリアントコールプロセスの一例を示す。当該バリアントコールプロセスは、1個体(例えば、患者などのヒト種)の天然DNA30の配列決定S30を含む。天然DNA30を断片化し、そのまま配列決定S30するか、又は、事前増幅ステップ後に配列決定S30してリード32を生成してよい。天然DNAの配列決定は、Illuminaテクノロジー又はNanoporeテクノロジーなどのDNA配列決定の任意の技術を用いて行ってよい。リード長は、DNA配列決定の技術によって異なってよい。リード長は、Illuminaテクノロジーでの100 bp(塩基対(base pair)の略)から、Nanoporeテクノロジーでの10 kbp(1 kbp = 1000 bp)までさまざまであり得る。本方法が実装し得る配列決定技術の一般的な特徴の1つは、冗長に配列決定を行い、実験誤差を相殺し、細胞集団における遺伝的不均一性を考慮することである。位置ごとのリード平均数は、配列決定の深度と呼ばれる。
図3は、本バリアントコール方法の特定の実装が実施されるバリアントコールプロセスの一例を示す。当該バリアントコールプロセスは、1個体(例えば、患者などのヒト種)の天然DNA30の配列決定S30を含む。天然DNA30を断片化し、そのまま配列決定S30するか、又は、事前増幅ステップ後に配列決定S30してリード32を生成してよい。天然DNAの配列決定は、Illuminaテクノロジー又はNanoporeテクノロジーなどのDNA配列決定の任意の技術を用いて行ってよい。リード長は、DNA配列決定の技術によって異なってよい。リード長は、Illuminaテクノロジーでの100 bp(塩基対(base pair)の略)から、Nanoporeテクノロジーでの10 kbp(1 kbp = 1000 bp)までさまざまであり得る。本方法が実装し得る配列決定技術の一般的な特徴の1つは、冗長に配列決定を行い、実験誤差を相殺し、細胞集団における遺伝的不均一性を考慮することである。位置ごとのリード平均数は、配列決定の深度と呼ばれる。
配列決定S30後、バリアントコールプロセスは、参照ゲノム36上へのリード32のアラインメント(アラインすること)S31を含む。アラインメントS31は、例えばBurrows-Wheeler Alignerなどの既知のマッピングアルゴリズムに基づいた、参照ゲノムに対するリードのマッピングから構成されてよい。アラインメントS31は、塩基配列の類似性に基づいた、参照ゲノムへの各リードの位置決めを含んでよい。アラインメントS31により、各リードの塩基配列と参照ゲノムの対応する各塩基配列との間の類似性を識別することが可能になる。上記した冗長性のため、参照ゲノムの各ゲノム位置には複数のリードがアラインされ、所定のゲノム位置にアラインされた当該複数のリードはゲノム位置に対してリードの積み重ね(パイル)を形成する。参照ゲノムに対してアラインされたリードは、リードの第1のセットを形成してよい。
バリアントコールプロセスでは、配列決定S30及びアラインメントS31のステップを、異なるサンプルのDNAに対して、連続して又は並行して繰り返してよい。例えば、配列決定ステップS30及びアラインメントステップS31は、生殖細胞系列バリアントに関する第1のサンプル及び体細胞バリアントに関する第2のサンプルに対して実行されてよい。この場合、プロセスは、ゲノム位置に対してアラインされたリードの複数の(例えば2つの)セットを形成する。形成された1つ以上のリードのセットは、第2のバリアントコール方法で入力として提供される。
第2のバリアントコール方法の出力はバリアントのリスト38であり、これは、検出された各候補バリアントに関して、提供されたリードの1つ以上のセットにニューラルネットワークを適用する際にニューラルネットワークが出力する情報のコンピレーションから得られる。当該コンピレーションは、検出された候補バリアントごとに出力された情報から選択される、各バリアントの確率に基づいたバリアントのリスト38を含んでよい。当該リストのバリアントごとに、当該出力は、当該バリアントを記述する情報(例えば、バリアントのゲノム位置に関する情報、バリアントの種類に関する情報、及びバリアントがホモ接合体かヘテロ接合体かに関する情報)を含む。
セクション2:バリアント候補の検出
2.1 ハプロタイプ再構築と局所的再アラインメント
ハプロタイプの再構築及び局所的再アラインメントのステップにより、バリアントの認識が向上する。実際に、ハプロタイプの再構築により、同じ領域にマップされるすべてのリードの情報を組み合わせることができ、さらに、再構築されたハプロタイプはリードの再アラインメントに使用され、これにより参照ゲノムへのリードのアラインメントが改良する。
2.1 ハプロタイプ再構築と局所的再アラインメント
ハプロタイプの再構築及び局所的再アラインメントのステップにより、バリアントの認識が向上する。実際に、ハプロタイプの再構築により、同じ領域にマップされるすべてのリードの情報を組み合わせることができ、さらに、再構築されたハプロタイプはリードの再アラインメントに使用され、これにより参照ゲノムへのリードのアラインメントが改良する。
計算リソースを削減するために、本バリアントコール方法は、不一致が多数あるリードを含む領域に制限する(つまり、本方法は、ハプロタイプ再構築を関心領域のセットに制限する)。実際に、参照ゲノムとの相違点が多い領域は、バリアントが発見され得る領域である。本バリアントコール法は、これらの関心領域でハプロタイプを再構築し(つまり、局所的な染色体のセグメント化を実行し)、これにより、リードを正しく再アラインすることが可能になる。
関心領域のセットを決定することは、リードと参照ゲノムとの間の不一致率が所定の閾値を超える位置を決定すること、及び、決定された位置を関心領域のセットに集約することを含んでよい。例えば、所定の閾値を超える不一致率を有する位置の決定は、参照ゲノム(又は参照ゲノムの一部)の位置を連続的に調べ、所定の位置ごとに当該位置にアラインされたリードの相違の比率(つまり、誤差率)を計算することを含んでよい。本方法は、ゲノム位置を調べながら、計算された比率が閾値を超えている場合、所定の位置を記録してよい。本方法は、連続して、又は同時に、記録された位置を関心領域に集約してよい。上記集約は、記録された位置の隣接位置、例えば、当該位置周囲の両側において所定の塩基数によって定義される近傍内の位置(例えば、両側に100bp)にマッピングされるリードを選択することを含んでよい。
図4を参照して、ハプロタイプ再構築の一例を説明する。この例のハプロタイプ再構築は、非巡回De-Bruijnグラフ40に基づく。この例のハプロタイプ再構築は、各リードを初期k-merサイズを有するk-merに分割し、当該k-merに基づいて初期De-Bruijnグラフを算出することを含む。De-Bruijnグラフでは、ノード42はk-merであり、エッジ44は連続する2つのk-mer間の遷移を示す。初期k-merサイズは、最小限の特異性を確保するために20~30bpの間で変動してよい。実際に、k-merが小さいほど特異性が低くなる(したがって、異なる場所にある2つのk-merが衝突する可能性が高くなる)一方で、k-merのサイズが小さいと実験誤差を含む可能性が低くなる。したがって、20~30bpの初期k-merサイズは、この2点の傾向を考慮した妥協点である。次いで、ハプロタイプ再構築は、得られたDe-Bruijnグラフが非巡回になるまでk-merサイズを増加させることを含む。k-merサイズの増加は漸進的な増加であってよく、新しいDe-Bruijnグラフはそれぞれの新しいk-merサイズで算出されてよい。
次に、算出された非巡回De-BruijnグラフでN個の最長パス(例えば、N=100)を列挙することにより、潜在的なハプロタイプが推測される。ハプロタイプは、バリアントを含む塩基配列である(ハプロタイプは統計的に同定される)。ハプロタイプは、特定の患者の参照に対応する。次に、本方法は、潜在的なハプロタイプのセットからハプロタイプのサブセットを選択する。サブセットのハプロタイプは、支持リード数が最も多い潜在的なハプロタイプである。ハプロタイプのサブセットは、ハプロタイプ再構築によって最終的に同定される2つ以上のハプロタイプに対応する。ハプロタイプのサブセットを選択するために、本方法は、推定された潜在的なハプロタイプのうち関連するハプロタイプをフィルタリングすることにより、ハプロタイプを列挙する。関連するハプロタイプのフィルタリングは、異なるハプロタイプに対してリードを再アラインし、リードに支持されるハプロタイプを残すことを含んでよい。リードは、他のハプロタイプよりもあるハプロタイプに対して一致性がより高い場合、当該ハプロタイプを「支持」する。関連するハプロタイプは、支持リード数が最も多いハプロタイプであってよい。本方法は、2つのハプロタイプを列挙してよい。実際に、例えばヒトの場合、DNAは二倍体であり得る。あるいは、本方法は、2つを超えるハプロタイプを列挙してもよい。実際に、配列決定は同領域に複数のバリアントを提供する可能性があり、当該バリアントが離れすぎている場合、リード及びk-merのサイズが限られているため、当該バリアントを再編成するのが難しく、情報の損失を引き起こし得る。したがって、2つ以上のハプロタイプを列挙することにより、本バリアントコール方法はバリアントの認識を改良する。
2つ以上のハプロタイプを列挙した後、リードを、当該リードが支持するハプロタイプに再アラインし、ハプロタイプを参照にアラインしてよい。本方法は、単純なアラインメント構成によって、例えばSmith-Waterman-Gotohアルゴリズムなど既知のアルゴリズムに基づいて、参照に対してリードを再アラインする。
2.2 バリアントのベイズ評価(フィルタリング)
本方法は、各ゲノム位置について、ハプロタイプ再構築中に構築された2つ以上のハプロタイプのリストから潜在的なバリアントを推測してよい。次いで、本方法は、粗粒度フィルタリングを実行して、潜在的なバリアントから候補バリアントを検出してよい。塩基の品質やリード支持情報を用いて、本バリアントコール方法は、粗粒度フィルタリングを実行するベイジアンフレームワークを実装してよい。本バリアントコール方法は、1つ以上のセットそれぞれに関連するデータを独立して処理してよい。例えば、当該方法は、グローバルベイジアン算出に基づいて体細胞データに関連するセットを処理してよい(以下セクションで詳細を説明)。本バリアントコール法は、生殖細胞系列バリアント及び細胞間の不均一性を考慮して、体細胞データに関連するセットを処理してよい。リードの1つ以上のセットは、生殖細胞系列バリアントに関する第1のリードのセット及び体細胞バリアントに関する第2のリードのセットを含む。各セットの粗粒度フィルタリングの実行については、以下のセクションで説明する。
本方法は、各ゲノム位置について、ハプロタイプ再構築中に構築された2つ以上のハプロタイプのリストから潜在的なバリアントを推測してよい。次いで、本方法は、粗粒度フィルタリングを実行して、潜在的なバリアントから候補バリアントを検出してよい。塩基の品質やリード支持情報を用いて、本バリアントコール方法は、粗粒度フィルタリングを実行するベイジアンフレームワークを実装してよい。本バリアントコール方法は、1つ以上のセットそれぞれに関連するデータを独立して処理してよい。例えば、当該方法は、グローバルベイジアン算出に基づいて体細胞データに関連するセットを処理してよい(以下セクションで詳細を説明)。本バリアントコール法は、生殖細胞系列バリアント及び細胞間の不均一性を考慮して、体細胞データに関連するセットを処理してよい。リードの1つ以上のセットは、生殖細胞系列バリアントに関する第1のリードのセット及び体細胞バリアントに関する第2のリードのセットを含む。各セットの粗粒度フィルタリングの実行については、以下のセクションで説明する。
2.2.1 生殖細胞系列
本バリアントコール方法は、所定のゲノム位置について、任意のバリアントが参照よりも可能性が高い確率を評価する。バリアントが参照よりも可能性が高い確率は、次の式に基づいて表してよく、
式中、variはバリアントiが対象となる位置にあるという仮説を指す。P(vari)は、バリアントのホモ接合特性を考慮したvariの事前確率である。P(pile|vari)は、所定の位置にバリアントがあることがわかった上で、この特定のリードセットが当該所定の位置にマッピングされる確率である。P(pile|vari)は、ハプロタイプを支持するリード情報と塩基の品質を用いて計算される。P(ref|pile)は誤差の確率である。本方法は、バリアントがホモ接合性(染色体ペアの両方に同じバリアントが存在する)かヘテロ接合性(ペアのうち単一の染色体にバリアントが存在する)かを考慮してよい。本方法は、各場合の確率を計算してよい。例えば、ホモ接合バリアントの場合は、次の式に基づいて表現してよく:
式中、Svariはバリアントiを支持するリードのセットであり、ejは対象となる位置でのリードjの塩基の品質から計算される誤差確率である。本方法は、配列決定技術によって提供される指標に基づいて誤差確率ejを計算してよい。インデル誤差は置換に比べてはるかに低い率で発生するため、本方法ではインデル誤差を無視してもよい。
本バリアントコール方法は、所定のゲノム位置について、任意のバリアントが参照よりも可能性が高い確率を評価する。バリアントが参照よりも可能性が高い確率は、次の式に基づいて表してよく、
2.2.2 体細胞
体細胞の場合、本バリアントコール法は一連の仮説を考慮してよい。本方法は、各候補バリアントの各ゲノム位置で分析を実行する。本方法では、同じゲノム位置にある生殖細胞系列バリアントと体細胞バリアントを考慮する。上記した一連の仮説は、生殖細胞系列バリアントも体細胞バリアントも存在しないという第1の仮説を含む。上記した一連の仮説は、生殖細胞系列バリアントは存在するが体細胞バリアントは存在しないという第2の仮説を含む。上記した一連の仮説は、生殖細胞系列バリアントは存在しないが体細胞バリアントは存在するという第3の仮説を含む。上記した一連の仮説は、生殖細胞系列バリアントも体細胞バリアントも存在するという第4の仮説を含む。
体細胞の場合、本バリアントコール法は一連の仮説を考慮してよい。本方法は、各候補バリアントの各ゲノム位置で分析を実行する。本方法では、同じゲノム位置にある生殖細胞系列バリアントと体細胞バリアントを考慮する。上記した一連の仮説は、生殖細胞系列バリアントも体細胞バリアントも存在しないという第1の仮説を含む。上記した一連の仮説は、生殖細胞系列バリアントは存在するが体細胞バリアントは存在しないという第2の仮説を含む。上記した一連の仮説は、生殖細胞系列バリアントは存在しないが体細胞バリアントは存在するという第3の仮説を含む。上記した一連の仮説は、生殖細胞系列バリアントも体細胞バリアントも存在するという第4の仮説を含む。
さらに、本方法は、体細胞バリアントが特定の細胞にのみ存在する可能性があることを考慮に入れてよい。細胞における体細胞バリアントの存在頻度は不明であり、本方法が考慮し得る追加の仮説である。例えば、体細胞バリアント頻度fを有する第3の仮説は、次の式に基づいて表してよく、
である。
2.3 性能評価
本方法は、候補バリアントを検出するために粗粒度フィルタリングを実行してよい。粗粒度フィルタリングにより、本方法によって保持される候補が多すぎる場合でも、除外される真のバリアントはほとんどない。「再現率」は、本方法が見落としたバリアント数を示すメトリックである。本方法は、データセット、例えばGIAB(Genome In A Bootleの頭字語)によって提供されるデータセットから真のバリアントを取得してよい。再現率は、次の式、再現率=TP/(TP+FN)で表すことができ、ここでTPは真陽性を表し、FNは偽陰性を表す。再現率の値「0」は、本方法が真のバリアントを選択していないことを意味し、再現率の値「1」は、本方法が真のバリアントを一切見逃していないことを意味してよい。選択されたバリアント候補の数が少なく、一方で再現率の値が高い場合、フィルタリングの改良につながる。
本方法は、候補バリアントを検出するために粗粒度フィルタリングを実行してよい。粗粒度フィルタリングにより、本方法によって保持される候補が多すぎる場合でも、除外される真のバリアントはほとんどない。「再現率」は、本方法が見落としたバリアント数を示すメトリックである。本方法は、データセット、例えばGIAB(Genome In A Bootleの頭字語)によって提供されるデータセットから真のバリアントを取得してよい。再現率は、次の式、再現率=TP/(TP+FN)で表すことができ、ここでTPは真陽性を表し、FNは偽陰性を表す。再現率の値「0」は、本方法が真のバリアントを選択していないことを意味し、再現率の値「1」は、本方法が真のバリアントを一切見逃していないことを意味してよい。選択されたバリアント候補の数が少なく、一方で再現率の値が高い場合、フィルタリングの改良につながる。
図5は、HG001及び22番染色体に関して、再現率の関数として表される生殖細胞系列候補バリアント数の一例を示す。本方法は、選択閾値を例えば[-100 ; 100]で変化させることによってグラフを算出する。本方法は、再現率の変化に基づいて選択閾値を選択することを含んでよい。破線50は、この例で本方法によって選択された閾値に対応する。この例で選択した閾値に関して、再現率は0.997で、候補数は44256である。
図6は、COLO-829及び22番染色体に関して、再現率の関数として表される体細胞候補バリアント数の一例を示す。生殖細胞系列の場合と同様に、グラフは選択閾値を変化させることによって取得され、本方法は選択閾値を選択してよい(閾値は間隔[-100 ; 100]で変化してもよい)。単純モデル61は、生殖細胞系列及び体細胞のパイルに独立して適用される生殖細胞系列ベイジアンモデルであり、体細胞混合モデル62は、両方のパイルを組み合わせたベイジアンモデルである。破線63は、本方法によって選択された閾値に対応する(再現率は0.934、候補数は56767である)。
2.4 データ片の生成
候補バリアントが同定されると、本バリアントコール方法は、検出された候補バリアントごとに、当該検出された候補バリアントに対応するゲノム位置にアラインされた各リードをそれぞれ指定するデータ片の1つ以上のセットを同定する。各データ片は、例えば3を超える複数の独立したチャネルを持つ2D構造で構成される。各データ片は、次のセクションで説明するように、1D構造と一連のスカラーを含んでもよい。各データ片は、ゲノム位置に対してアラインされたそれぞれのリードを指定する、つまり、各データ片は、所定のゲノム位置にマップするリードの積み重ね(パイル)のうちの1つのリードを指定する。リードのパイルは、パイルアップ画像で示してよい。
候補バリアントが同定されると、本バリアントコール方法は、検出された候補バリアントごとに、当該検出された候補バリアントに対応するゲノム位置にアラインされた各リードをそれぞれ指定するデータ片の1つ以上のセットを同定する。各データ片は、例えば3を超える複数の独立したチャネルを持つ2D構造で構成される。各データ片は、次のセクションで説明するように、1D構造と一連のスカラーを含んでもよい。各データ片は、ゲノム位置に対してアラインされたそれぞれのリードを指定する、つまり、各データ片は、所定のゲノム位置にマップするリードの積み重ね(パイル)のうちの1つのリードを指定する。リードのパイルは、パイルアップ画像で示してよい。
パイルアップ画像の一例を図7に示す。パイルアップ画像は、所定のゲノム位置と交差するリード(つまり、所定のゲノム位置にマップされるリード)の2D表現である。パイルのそれぞれの行は、ゲノム位置73にアラインされたそれぞれのリードを表す。各リードは、参照ゲノムにアラインされる。各リードは、参照にアラインされる際にゲノム位置73を含む、それぞれの塩基配列を有する。リードは、それぞれの配列においてゲノム位置への出現順にパイルに配置してよい。
図7は、2つの異なるパイルアップ画像を示す。画像Aは、生殖細胞系列バリアントに対して取得されたリードセットのパイルアップ画像であり、画像Bは、生殖細胞系列バリアントに対して取得されたリードセットと体細胞バリアントに対して取得されたリードセットの2つのリードセットのパイルアップ画像である。パイルアップ画像は、リードディスクリプタ73と塩基ディスクリプタ74の2種類の情報を表す。リードディスクリプタ73は、最初の左側の列に表される。リードディスクリプタには、体細胞リードディスクリプタ75、参照を支持するリードディスクリプタ76、及びバリアントハプロタイプを支持するリードディスクリプタ77が含まれる。各リードは、各リードディスクリプタ75、76、及び77のそれぞれの値を有し、データ片にエンコードされる。例えば、体細胞リードディスクリプタ75の場合、各データ片は、リードが生殖細胞系列バリアントに対するものなのか体細胞バリアントに対するものなのかに応じて、真又は偽の値を含む。
パイルアップ画像は、塩基ディスクリプタ74も表す。塩基ディスクリプタ74は、図7のリード表現上に表される。塩基ディスクリプタ74は、各リードのデータ片にエンコードされる。各リードについて、塩基ディスクリプタ74は、リードのそれぞれの塩基配列と参照ゲノムとの間の不一致を表す。塩基ディスクリプタ74は、例えば、塩基A、T、G及びCのそれぞれについて1つのディスクリプタなど、潜在的な不一致ごとに特定の塩基ディスクリプタを含んでもよい。
パイルディスクリプタ、リードディスクリプタ、及び塩基ディスクリプタの例について説明する。本方法は、これらのディスクリプタのすべて又は一部を実装してよく、任意で他のディスクリプタを実装してもよい。本方法は、例えば異なるチャネルで、各リードを指定するデータ片内にディスクリプタをエンコードしてよい。各ディスクリプタは、ディスクリプタの複雑さに応じて、1つ以上の独立したチャネルでエンコードしてよい。
パイルディスクリプタ(又はリードディスクリプタ若しくは塩基ディスクリプタ)はそれぞれ、パイル(又はリード若しくは塩基)のある側面を表し、当該側面を定量化する値から構成される。ニューラルネットワークがデータ片の単一のセットのみを入力として受け取るように構成される場合、当該セットはリードの単一のパイルに対応し、パイルディスクリプタは当該パイルを指定してよい。ニューラルネットワークがデータ片の複数のセットを入力として受け取るように構成される場合、1つ以上の当該セットは一緒にリードの同パイルに対応してよく、パイルディスクリプタは当該パイルを指定してよい。あるいは、各セットは、それぞれ異なるリードのパイルに対応するか、又はそのように見なされてよく、ニューラルネットワークは、そのようなパイルをそれぞれ指定するパイルディスクリプタを入力として受け取ってよい。パイルディスクリプタは、1つ以上の全結合層に入力されてよく、例えば、各削減層の出力と集約(例えば、連結)されてよい。
パイルディスクリプタは、パイルの深度を表す(すなわち、パイルに積み重ねられるリード数)を表す深度ディスクリプタを含んでよい。パイルディスクリプタは、対象となるパイルに関して、当該パイル内のリード数から構成されてよい。本方法は、深度ディスクリプタを1つのチャネルにエンコードしてよい。パイルディスクリプタは、ベイジアンバリアント推定のディスクリプタ(事前フィルタリングからのデータ)を含んでよく、例えば、4つのチャネル(例えば、考慮される仮説に応じてp00、p01、p11、及びp12)にエンコードされてよい。
リードディスクリプタは、体細胞データについてのみ存在し得る体細胞ディスクリプタを含んでよい。リードディスクリプタは、リードが支持するハプロタイプを記述するハプロタイプ支持のディスクリプタを含んでもよい(例えば、リードが参照を支持する場合はH0、リードが第1のハプロタイプを支持する場合はH1、リードが第2のハプロタイプを支持する場合はH2)。ハプロタイプ支持のディスクリプタ(ハプロタイプ支持ディスクリプタとも呼ばれる)は、3つのチャネル(参照ゲノム用に1つ、最も支持される2つのハプロタイプのそれぞれに1つ)にエンコードされてよい。任意で、リードディスクリプタは、マッピング品質ディスクリプタを含んでよい。マッピング品質は、初期アラインメントを実行するアライナーによって提供されるデータから構成される。マッピング品質は、各リードに対して、当該リードのアラインメントに関する信頼レベルを測定する。例えば、リードがゲノムの少なくとも2つの領域で完全にアラインされる場合、マッピングの品質はゼロである(つまり、例えばゼロ「0」の値)。任意で、リードディスクリプタは、配列決定された鎖及び配列決定が実行される方向を表す鎖性ディスクリプタを含んでもよい。当該鎖性は、配列決定の機械によって提供されるデータから構成されてよい。任意で、リードディスクリプタは、メイトの鎖性ディスクリプタを含んでよい。実際に、配列決定技技術によっては、リードはペアで提供されてよい。この場合、メイトとはペアのもう一方の端に対応し、通常は数千塩基離れてマップされる。
リードディスクリプタは、1次元(1D)構造(リードごとに1つの値)を有する。塩基ディスクリプタは、2次元(2D)構造(各リードの各塩基に1つの値)を有する。塩基ディスクリプタは、塩基の種類(すなわち、A、T、C又はG)を定義する塩基種類ディスクリプタを含む。塩基ディスクリプタは、4つのチャネル(各種類の塩基に対して1つ)でエンコードされて良い。塩基ディスクリプタは、塩基識別の品質を記述する塩基品質ディスクリプタを含んでよい。塩基ディスクリプタは、参照ゲノム中の対応塩基である参照塩基ディスクリプタを含んでよい。塩基ディスクリプタは、塩基と参照ゲノム中の対応塩基との間の相違を記述する不一致ディスクリプタ(例えば、ブール値に基づく)を含んでよい。塩基ディスクリプタは、挿入サイズのディスクリプタ、代替的又は追加的に欠失サイズのディスクリプタを含んでよく、これらディスクリプタは、参照上への各リードのアラインメント(挿入及び欠失を含むアラインメント)を比較することによって本方法によって算出されてよい。
各データ片の長さは一定であってよく、データ片はすべてゲノム位置を中心としてよい。各データ片は、リードに対応する塩基ディスクリプタの配列と、リードに対応する塩基ディスクリプタの配列の先頭と末尾にそれぞれ配置される追加の開始配列78と追加の終了配列79を含む(図では空白として示される)。追加の開始配列と終了配列のサイズは、各リードのそれぞれの配列を参照ゲノムにアラインさせるために変化する。追加の開始配列又は終了配列は、ヌル値を持つ、1つ以上の塩基ディスクリプタの配列から構成される。長さは、2つのリードのサイズに対応し(一定長のリードの場合、そうでない場合は最長リードの約2倍)、例えば300個の塩基である。本方法では、データを切断し、長さを短くして(300塩基未満)使用してもよい。一定長は、畳み込みなどによる処理を容易にする。
セクション3:バリアントフィルタリング
3.1 ディープラーニングモデル
本方法は、数百万個のパラメータを持ち、ゲノムデータに特化していない畳み込みニューラルネットワーク(CNN)を使用するこれまでの画像分類モデルに基づく多くの機械学習アプローチとは異なり、ゲノムデータの特異性を考慮するニューラルネットワークアーキテクチャを実装してよい。これにより、モデルのサイズを削減したり、精度を高めたりすることができる。
3.1 ディープラーニングモデル
本方法は、数百万個のパラメータを持ち、ゲノムデータに特化していない畳み込みニューラルネットワーク(CNN)を使用するこれまでの画像分類モデルに基づく多くの機械学習アプローチとは異なり、ゲノムデータの特異性を考慮するニューラルネットワークアーキテクチャを実装してよい。これにより、モデルのサイズを削減したり、精度を高めたりすることができる。
リードは1D構造であり、積み重ね(パイル)での表現は任意である。実際に、y座標(つまり、パイルアップ画像のパイルの方向)は有益な情報をもたらさない。本方法では、ニューラルネットワークの構造は、順序に無関係な演算子(例えば、合計、平均、最小、最大など)を含む。そのため、本方法のニューラルネットワークは、標準的な2DのCNNに基づく従来技術の方法と比較して、バリアントコールの改良されたソリューションをもたらす。本ニューラルネットワークは、計算コストを削減し、高性能を発揮する最適化されたアーキテクチャを有する。
図8は、生殖細胞系列バリアントコールのための本ニューラルネットワークのアーキテクチャの一例を示す。生殖細胞系列の場合、ニューラルネットワークは、リード指定データ片のセット80-81及びパイルディスクリプタ86を入力として受け取り、処理するように構成される対称関数90から構成される。各データ片85は、ゲノム位置に対してアラインされたそれぞれのリードを指定し、当該リードの塩基ディスクリプタの配列を含む(各塩基ディスクリプタは1つ以上のチャネルでエンコードされる)。各データ片85は、2D構造(すなわち、塩基配列に対して1つの方向と、当該配列の各塩基に関連する対応塩基ディスクリプタに対して1つの方向)を含む。リードを重ね合わせてパイルを形成し、それによって、データ片のセットに3D構造80(リードに対して1つの方向、各リードの塩基配列に対して1つの方向、及び塩基ディスクリプタに対して1つの方向)が提供される。ニューラルネットワークは、ゲノム位置でのバリアントの存在に関する情報82を出力するように構成される。
生殖細胞系列の場合の関数90は、塩基ディスクリプタのそれぞれの配列を処理するための複数の畳み込み層83、84を含む。各畳み込み層は、1つ以上の1次元畳み込みフィルタを適用する。関数90は、所定数のチャネル、例えば5つのチャネルに塩基ディスクリプタを再エンコードするための第1の1 x 1畳み込み層83を含む。第1の畳み込み層83は、一様かつ非線形の方法で塩基レベルで情報を変換する。第1の畳み込み83は、入力データの正規化を可能にする。次に、関数90は、各リードのデータ片をlから1位置に削減するための第2のlx1畳み込み層84を含み、ここでlは各データ部分のサイズである。第2の畳み込み84は、所定数のチャネル、例えば10個のチャネルを出力する。関数90は、各リードに関するリードディスクリプタ81と第2の畳み込みの出力との連結を含む。関数90は、リードディスクリプタと第2の畳み込みの出力を連結したものを第1の削減層に入力する。削減層は、リードディスクリプタと連結された第2の畳み込み層の出力を、順序に関係なく、平均や標準偏差などの順序無関係の演算子に基づいて特徴のセットに畳む。削減層は、n個のリードを特徴のセット(例えば、20個の特徴)の1つのパックに畳む。関数90は、パイルディスクリプタ86を特徴のセットのパックに集約する。当該セットはリードの単一パイルに対応し、パイルディスクリプタはそのパイルを指定する。次に、関数90は、削減層の出力を処理し、分類を実行するように構成される全結合層87を含む。
ニューラルネットワークには、5240個のトレーニング可能なパラメータが含まれてよい。本機械学習方法は、学習率(例:1e-3)、反復回数(例:100)、内部バリデーション(例:10 %)、最適化アルゴリズム(例:ADAM)、活性化関数(例:Mish)、及びコスト関数(例:重み付き交差エントロピー)を含む、一連のハイパーパラメータに基づいてニューラルネットワークを機械学習させてよい。
図9は、体細胞バリアントコールのためのニューラルネットワーク100のアーキテクチャの一例を示す。ニューラルネットワーク100は、リードのセットを2つ、すなわち、生殖細胞系列バリアントに関する第1のセット101(すなわち、個体、例えば癌疾患を患うヒト患者の健康な細胞由来のリード)及び体細胞バリアントに関する第2のセット101’(すなわち、同個体のがん細胞由来のリード)を入力として受け取る。ニューラルネットワーク100は、第1のセットを処理するための第1の対称関数と、第2のセットを処理するための第2の対称関数とを含む。第1の関数はサブアーキテクチャ102、103、104、及び105から構成され、第2の関数はサブアーキテクチャ102、103、104、及び105’から構成される。第1の関数と第2の関数は同じ、つまり、同じパラメータ値と共有重みを含む。第1及び第2の関数はそれぞれ、塩基ディスクリプタの各配列を処理するための2つの畳み込み層102、103を含む。畳み込み層(第1の1x1畳み込み層102及び第2のlx1畳み込み層103)は、第1の関数及び第2の関数について同じである(すなわち、第1及び第2の関数の共有重みを含む)。ニューラルネットワーク100は、リードディスクリプタを第2の畳み込み層の出力と連結する。
連結後、ニューラルネットワーク100は、それぞれのリードディスクリプタと連結された第2の畳み込み層の出力を分割104し、第1のセットに対応する出力と第2のセットに対応する出力に分離することを含む。分割後、第1及び第2の関数はそれぞれ、各セットに対応する出力を独立に(例えば、連続又は並行して)処理するためのそれぞれの削減層105、105’を含む。それぞれの削減層105、105’はそれぞれ、第2の畳み込み層の出力を、順序に関係なく、順序無関係の演算子に基づいて、特徴のそれぞれのセットに畳む。特徴のセットは、第1の関数と第2の関数の出力である。削減層105、105’は同じ、すなわち同じ順序無関係の演算子を含んでもよい。
次いで、ニューラルネットワーク100は、第1の関数及び第2の関数の出力、すなわち第1のセットに対応する特徴のセット及び第2のセットに対応する特徴のセットを集約する層を備える。例えば、集約層は、特徴の2つのセットを連結し、それによって特徴の単一のセット106を形成してよい。集約層は、任意で、パイルディスクリプタを各削減層の出力と集約してよい(例えば、パイルディスクリプタを特徴の単一のセット106と連結する)。当該2つのセットは一緒にリードの同パイルに対応してよく、パイルディスクリプタは当該パイルを指定する。
集約層の後に、ニューラルネットワーク100は、分類を実行するように構成される1つ以上の全結合層107を含む。複数の全結合層107が、集約層の出力(すなわち、各削減層の出力と、任意でパイルディスクリプタを連結したもの)を入力として受け取る。生殖細胞系列の場合に関して説明した全結合層との違いは、入力のサイズであり得、体細胞のケースではサイズが2倍になり得る。本機械学習方法は、例えば9735個のトレーニング可能なパラメータに基づいて、体細胞バリアントに対してニューラルネットワークを機械学習させることができる。
3.2 性能
3.2.1 メトリック
ニューラルネットワークの性能を、複数のメトリックに基づいて説明する。メトリックは、陽性クラスの予測の良好度を測定する。実際に、99.9%の位置は変異していないため(ゲノム内の99.9%の位置にバリアントは含まれない)、陰性クラスが大部分を占める。こういった背景では、他のメトリックは、常に陰性クラスを予測するモデルで0.999をもたらすため、有益な情報をもたらさない。
3.2.1 メトリック
ニューラルネットワークの性能を、複数のメトリックに基づいて説明する。メトリックは、陽性クラスの予測の良好度を測定する。実際に、99.9%の位置は変異していないため(ゲノム内の99.9%の位置にバリアントは含まれない)、陰性クラスが大部分を占める。こういった背景では、他のメトリックは、常に陰性クラスを予測するモデルで0.999をもたらすため、有益な情報をもたらさない。
以下では、TPは真陽性、FPは偽陽性、FN偽陰性を指す。第1のメトリックは精度で、TP/(TP+FP)として定式化される。精度は、バリアントコールのためのニューラルネットワークが、偽陽性ではない陽性をどれほど良好に予測するかを測定する。第2のメトリックは再現率で、TP/(TP+FN)として定式化される。再現率は、バリアントコールのためのニューラルネットワークが真のバリアントをどれほど良好に見逃さないかを測定する。第3のメトリックはF1スコアで、2*精度*再現率/(精度+再現率)として定式化される。F1スコアは、精度と再現率の幾何平均である。第4のメトリックは、誤差数である。ゲノム規模では、F1スコアが1.0に非常に近い可能性があるため、異なるモデル性能を区別することは困難である。そのような状況では、予測ミスの数(つまり、誤差数)を用いて、性能を適切に区別できる。
3.2.2 データセットと結果
以下において、ニューラルネットワークは、公開されている正解データセットに基づいてトレーニングされる。本ニューラルネットワークの結果を、従来技術のバリアントコーラーのリストと比較する。従来のバリアントコーラーのリストは、Gatk4、Deepvariant 0.9、及びCNN分類器EfficientNetを含む。
以下において、ニューラルネットワークは、公開されている正解データセットに基づいてトレーニングされる。本ニューラルネットワークの結果を、従来技術のバリアントコーラーのリストと比較する。従来のバリアントコーラーのリストは、Gatk4、Deepvariant 0.9、及びCNN分類器EfficientNetを含む。
生殖細胞系列の場合の結果について説明する。生殖細胞系列の場合、本ニューラルネットワークと従来技術の各バリアントコーラーを、個体ゲノムHG001のトレーニングセットに基づいてトレーニングする。個体ゲノムHG001は、Genome In A Bottleコンソーシアム(GIABコンソーシアム)によって複数の技術でクロスバリデーション検証されたある個体のゲノムである。本ニューラルネットワーク及び従来技術の各バリアントコーラーの性能は、個体ゲノムHG002のバリデーションセットに基づいて算出する。性能は、上記したメトリックに基づいて評価される。
図10は、生殖細胞系列の場合の精度、再現率、及びF1スコアメトリックの結果の一例を示す。本ニューラルネットワークと従来技術の各バリアントコーラーのF1スコアは、互いに非常に近い値である。
図11は、生殖細胞系列の場合の誤差数メトリックの結果の一例を示す。本ニューラルネットワークの性能はDeepvariant 0.9に近いが、本ニューラルネットワークが約4000個のパラメータしか有さない一方で、Deepvariant 0.9は2400万個のパラメータで機能する。さらに、Deepvariant 0.9は3億個の例でトレーニングされたが、本ニューラルネットワークは100万個の例でトレーニングされている。実際に、Deepvariant 0.9の場合、100万個の例で構成される同じデータセットでトレーニングすると、性能が低下する。さらに、Deepvariant 0.9は体細胞の場合を取り扱わない。
以下で体細胞の場合の結果について説明する。体細胞の場合、結果は公開されている体細胞参照基準に基づいて算出される。結果には、同じドナー由来の血液細胞株でのCOLO829癌細胞株の結果が含まれる。コンセンサスは、4つの独立したIlluminaプラットフォーム上で複数のバリアントコーラーを使用して全ゲノム配列決定を行って得られる。トレーニングセットは70000個の例で構成される。
この結果には、2つの独立Illuminaプラットフォームで得られ、従来技術のMutect2、Strelka2、及びLancetバリアントコーラーによって処理されたHCC1143がん細胞株の体細胞バリアントコンセンサスからの結果も含まれる。
図12は、本ニューラルネットワークと従来技術のバリアントコーラーであるStrelka2及びLancetとの間の体細胞に関する比較結果の一例を示す。体細胞配列決定は特に困難であり、バリアントの正解コンセンサスがないために難しくなる。これは、学習ベース手法ではさらに問題になる。いずれにせよ、結果は、コンセンサスを確立を試みる研究の正解体細胞データセットの近似に基づく。結果は、本ニューラルネットワークが従来技術のバリアントコーラー2つ、Lancet及びStrelka2と比較して有利であることを示している。
図13は、システムの一例を示しており、ここで、システムは、クライアントコンピュータシステムであり、例えば、ユーザーのワークステーションである
この例のクライアントコンピュータは、内部通信BUS1000に接続された中央処理装置(CPU)1010と、同じくBUSに接続されたランダムアクセスメモリ(RAM)1070とを備える。クライアントコンピュータはさらに、BUSに接続されたビデオランダムアクセスメモリ1100と関連するグラフィックプロセッシングユニット(GPU)1110を備えている。ビデオRAM1100は、当技術分野ではフレームバッファとしても知られている。大容量記憶装置コントローラ1020は、ハードドライブ1030などの大容量記憶装置へのアクセスを管理する。コンピュータプログラムの命令及びデータを有形に具体化するのに適した大容量記憶装置にはあらゆる形態の不揮発性メモリが含まれ、例として、EPROM、EEPROM、及びフラッシュメモリデバイスなどの半導体メモリデバイス;内蔵ハードディスクやリムーバブルディスクなどの磁気ディスク;光磁気ディスク;及びCD-ROMディスク1040が挙げられる。前述したものはいずれも、特別に設計されたASIC(特定用途向け集積回路)によって補完されるか、又はその中に組み込まれてもよい。ネットワークアダプタ1050は、ネットワーク1060へのアクセスを管理する。クライアントコンピュータはまた、カーソル制御デバイス、キーボードなどのようなハプティックデバイス1090を含んでもよい。カーソル制御デバイスは、ユーザーがディスプレイ1080上の任意の所望の位置にカーソルを選択的に配置できるよう、クライアントコンピュータで使用される。さらに、カーソル制御デバイスにより、ユーザーはさまざまなコマンドを選択し、制御信号を入力することが可能となる。カーソル制御デバイスは、システムに制御信号を入力するための複数の信号生成装置を含む。通常、カーソル制御デバイスはマウスであってもよく、マウスのボタンは信号を生成するために使用される。代替的又は追加的に、クライアントコンピュータシステムは、感圧パッド、及び/又は感圧スクリーンを含んでもよい。
コンピュータプログラムは、コンピュータによって実行可能な命令を含んでもよく、命令は、上記のシステムに本方法を実行させるための手段を含む。プログラムは、システムのメモリを含む任意のデータ記憶媒体に記録可能であってよい。プログラムは、例えば、デジタル電子回路、又はコンピュータハードウェア、ファームウェア、ソフトウェア、又はそれらの組み合わせに実装されてもよい。プログラムは、例えば、プログラム可能なプロセッサによる実行のために機械可読記憶装置に有形に具体化された製品などの装置として実装されてもよい。本方法のステップは、入力データについて動作し出力を生成して本方法の機能を実行するように命令のプログラムを実行する、プログラム可能なプロセッサによって実行されてもよい。したがって、プロセッサは、データ記憶システム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスからデータ及び命令を受信し、これらにデータ及び命令を送信するように、プログラム可能であるか又は結合されてもよい。アプリケーションプログラムは、必要に応じて、高レベルの手続き型プログラミング言語又はオブジェクト指向プログラミング言語、あるいは、アセンブリ言語又は機械語で実施されてもよい。いずれの場合も、言語はコンパイル型又はインタプリタ型言語であってもよい。プログラムは、フルインストールプログラム又は更新プログラムであってもよい。いずれにせよ、システム上でのプログラムの適用は、本方法を実行するための命令をもたらす。
Claims (15)
- 参照ゲノムを基準としたバリアントコールのためにニューラルネットワークを機械学習させるコンピュータ実装方法であって、前記ニューラルネットワークは、前記参照ゲノムのゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の1つ以上のセットを入力として受け取り、前記ゲノム位置におけるバリアントの存在に関する情報を出力するよう構成され、前記データ片の各セットに対し、前記データ片の各セットを入力として受け取り、処理するように構成されるそれぞれの関数を含み、前記それぞれの関数が対称性を有する、前記方法。
- 各データ片が前記各リードの塩基ディスクリプタのそれぞれの配列を含み、前記それぞれの関数が、それぞれ、前記塩基ディスクリプタのそれぞれの配列をそれぞれ処理するための1つ以上の畳み込み層を含み、前記畳み込み層はそれぞれ1つ以上の1次元畳み込みフィルタを適用する、請求項1に記載の機械学習方法。
- 前記塩基ディスクリプタが、挿入サイズ及び/又は欠失サイズを表す1つ以上のディスクリプタ、例えば挿入サイズディスクリプタ及び欠失サイズディスクリプタを含む、請求項2に記載の機械学習方法。
- 前記それぞれの関数は、それぞれ、前記1つ以上の畳み込み層の出力を、順序に関係なく、特徴のセットに畳むための削減層を含む、請求項2又は3に記載の機械学習方法。
- 前記削減層はさらに前記各リードに関するリードディスクリプタを入力として受け取り、任意で前記リードディスクリプタが、ハプロタイプ支持ディスクリプタを含む、請求項4に記載の機械学習方法。
- 前記削減層は、平均及び/又は標準偏差などの1つ以上の順序無関係の演算子を含む、請求項5に記載の機械学習方法。
- 前記ニューラルネットワークが、前記削減層それぞれの出力を処理し、分類を実行するように構成される1つ以上の全結合層を含む、請求項5又は6に記載の機械学習方法。
- 前記ニューラルネットワークがさらに、パイルディスクリプタを入力として受け取り、任意で、前記パイルディスクリプタは、深度を表すディスクリプタ及び/又はベイジアンバリアント推定を表すディスクリプタを含む、請求項7に記載の機械学習方法。
- 前記リードの1つ以上のセットが、生殖細胞系列バリアントに関する第1のリードのセット及び体細胞バリアントに関する第2のリードのセットを含み、前記ニューラルネットワークは、
-前記第1のリードのセットのための第1の関数及び前記第2のリードのセットのための第2の関数、及び
-前記第1の関数及び前記第2の関数の出力を集約するための層を含む、請求項1から8のいずれか一項に記載の機械学習方法。 - 参照ゲノムを基準としたバリアントコールのためのコンピュータ実装方法であって、前記方法が、
-前記参照ゲノムのゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の1つ以上のセットを入力として提供すること(S700)、
-前記入力に、請求項1から9のいずれか一項に従って機械学習したニューラルネットワークを適用し、前記ゲノム位置でのバリアントの存在に関する情報を出力すること(S800)であって、前記ニューラルネットワークの適用は、データ片の各セットに対し、前記データ片の各セットを入力として受け取り処理するように構成される前記ニューラルネットワークのそれぞれの対称関数を適用することを含む、前記方法。 - 参照ゲノムを基準としたバリアントコールのためのコンピュータ実施方法であって、前記方法が、
-前記参照ゲノムに対してアラインされたリードの1つ以上のセットを提供すること、
-前記リードの1つ以上のセットを前記参照ゲノムと比較することによって、前記参照ゲノム内の関心領域のセットを決定すること、
-前記関心領域の特定領域ごとに、
--前記特定領域の提供されたリードの1つ以上のセットに基づいてハプロタイプ再構築を実行し、2つ以上のハプロタイプを同定すること、
--前記2つ以上のハプロタイプに基づいて、前記特定領域のリードの1つ以上のセットを再アラインすること、
--再アラインされたリードの1つ以上のセットと前記2つ以上のハプロタイプに基づいて、前記特定領域の潜在的なバリアントを推測すること、
--粗粒度フィルタリングを実行して、前記潜在的なバリアントから、各々がそれぞれのゲノム位置に対応する候補バリアントを検出すること、
--検出された前記候補バリアントごとに、
---前記検出された候補バリアントに対応するゲノム位置に対してアラインされる各リードをそれぞれ指定するデータ片の1つ以上のセットを同定すること、
---前記データ片の1つ以上のセットに対して、請求項10に記載のコンピュータ実装方法の提供すること(S700)及び適用すること(S800)を実行すること、とを含む、前記方法。 - 前記ハプロタイプ再構築を実行することが、
-有向非巡回グラフで所定の数の最長経路を列挙することにより、潜在的なハプロタイプのセットを推測すること、及び、任意で、
-前記潜在的なハプロタイプのセットからハプロタイプのサブセットを選択することであり、ここで、前記ハプロタイプのサブセットは、前記セットのうち、支持リード数が最も多い潜在的なハプロタイプであり、前記ハプロタイプのサブセットは、前記ハプロタイプ再構築によって同定される2つ以上のハプロタイプに対応する、請求項11に記載のコンピュータ実装方法。 - 前記リードの1つ以上のセットが、生殖細胞系列バリアントに関する第1のリードのセットを含み、前記特定領域の潜在的なバリアントを推測することが、生殖細胞系列バリアントについて、バリアントが参照よりも可能性が高い確率を評価することを含み、任意で、前記リードの1つ以上のセットは、体細胞バリアントに関する第2のリードのセットを含み、前記特定領域の潜在的なバリアントを推測することは、体細胞バリアントについて、
-生殖細胞系列バリアントの存在及び/又は体細胞バリアントの存在、及び
-体細胞バリアントの頻度を考慮すること、である、前記請求項11又は12に記載のコンピュータ実装方法。 - 請求項1から9のいずれか一項に従って機械学習したニューラルネットワークを含むデータ構造、請求項1から9のいずれか一項に記載の機械学習方法を実行するための命令を含むコンピュータプログラム、及び/又は、請求項10から13のいずれか一項に記載の方法でバリアントコールを実行するための命令を含むコンピュータプログラム。
- 請求項14に記載のデータ構造を記録したデータ記憶媒体を含むデバイス。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21306133.6A EP4138003A1 (en) | 2021-08-20 | 2021-08-20 | Neural network for variant calling |
EP21306133 | 2021-08-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023029827A true JP2023029827A (ja) | 2023-03-07 |
Family
ID=77666445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022131827A Pending JP2023029827A (ja) | 2021-08-20 | 2022-08-22 | バリアントコールのためのニューラルネットワーク |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230053405A1 (ja) |
EP (1) | EP4138003A1 (ja) |
JP (1) | JP2023029827A (ja) |
CN (1) | CN115713107A (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019204360A1 (en) * | 2018-04-16 | 2019-10-24 | Grail, Inc. | Systems and methods for determining tumor fraction in cell-free nucleic acid |
EP3837690A1 (en) * | 2018-08-13 | 2021-06-23 | F. Hoffmann-La Roche AG | Systems and methods for using neural networks for germline and somatic variant calling |
US20210098078A1 (en) * | 2019-08-01 | 2021-04-01 | Tempus Labs, Inc. | Methods and systems for detecting microsatellite instability of a cancer in a liquid biopsy assay |
US20210065847A1 (en) * | 2019-08-30 | 2021-03-04 | Grail, Inc. | Systems and methods for determining consensus base calls in nucleic acid sequencing |
-
2021
- 2021-08-20 EP EP21306133.6A patent/EP4138003A1/en active Pending
-
2022
- 2022-08-19 CN CN202210997629.2A patent/CN115713107A/zh active Pending
- 2022-08-19 US US17/891,750 patent/US20230053405A1/en active Pending
- 2022-08-22 JP JP2022131827A patent/JP2023029827A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4138003A1 (en) | 2023-02-22 |
CN115713107A (zh) | 2023-02-24 |
US20230053405A1 (en) | 2023-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200185055A1 (en) | Methods and Systems for Nucleic Acid Variant Detection and Analysis | |
US11961589B2 (en) | Models for targeted sequencing | |
US20210257050A1 (en) | Systems and methods for using neural networks for germline and somatic variant calling | |
CN110870020A (zh) | 利用卷积神经网络(cnns)进行异常剪接检测 | |
JP2020501240A (ja) | 汎がんゲノムにおけるdnaアクセシビリティを予測するための方法及びシステム | |
US20220130488A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
US20200239965A1 (en) | Source of origin deconvolution based on methylation fragments in cell-free dna samples | |
US20230222311A1 (en) | Generating machine learning models using genetic data | |
WO2020181111A1 (en) | Genetic mutation detection using deep learning | |
JP7041614B6 (ja) | 生体データにおけるパターン認識のマルチレベルアーキテクチャ | |
Gézsi et al. | VariantMetaCaller: automated fusion of variant calling pipelines for quantitative, precision-based filtering | |
CN113056563A (zh) | 识别血液中基因异常的方法及系统 | |
Pattnaik et al. | Customisation of the exome data analysis pipeline using a combinatorial approach | |
KR20230004566A (ko) | 머신 러닝 모델을 사용한 로컬 조상 추론 | |
EP3739590A1 (en) | Sequence variation detection using deep learning | |
JP2018504669A (ja) | 非コード−コード遺伝子共発現ネットワークを生成する方法及びシステム | |
Kao et al. | naiveBayesCall: An efficient model-based base-calling algorithm for high-throughput sequencing | |
JP2023029827A (ja) | バリアントコールのためのニューラルネットワーク | |
US20230326542A1 (en) | Genomic sequence dataset generation | |
US20200105374A1 (en) | Mixture model for targeted sequencing | |
WO2021030193A1 (en) | System and method for classifying genomic data | |
Jaksik et al. | Accuracy of somatic variant detection workflows for whole genome sequencing experiments | |
Zararsiz | Development and application of novel machine learning approaches for RNA-seq data classification | |
Claussen | Modeling the Simultaneous Effects of Copy Number Variation and Methylation on Gene Expression Using Next Generation Sequencing Data | |
Kacar | Dissecting Tumor Clonality in Liver Cancer: A Phylogeny Analysis Using Computational and Statistical Tools |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221220 |