JP7200294B2

JP7200294B2 - 位置頻度行列のオーバーフィッティングを避けるように訓練したバリアント病原性分類法

Info

Publication number: JP7200294B2
Application number: JP2021084634A
Authority: JP
Inventors: ホン・ガオ; カイ－ハウ・ファー; サムスクルーティ・レディ・パディゲパティ
Original assignee: イルミナインコーポレイテッド
Priority date: 2018-10-15
Filing date: 2021-05-19
Publication date: 2023-01-06
Anticipated expiration: 2039-05-09
Also published as: SG11201911777QA; IL282689A; CN113705585A; JP2021152907A; CN111328419B; JP6888123B2; WO2020081122A1; NZ759665A; KR20200044731A; AU2021269351B2; IL271091B; JP2021501923A; AU2019272062A1; IL271091A; CN111328419A; JP2023052011A; SG10202108013QA; KR102165734B1; AU2021269351A1; AU2019272062B2

Description

優先出願
本出願は、2019年5月8日に出願した米国一部継続特許出願第16/407,149号、名称「DEEP LEARNING-BASED TECHNIQUES FOR PRE-TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」(代理人整理番号第ILLM 1010-1/IP-1734-US)への優先権を主張し、これはすべて2018年10月15日に出願した次の3つのPCT出願および3つの米国非仮出願、すなわち、(1)2018年10月15日に出願したPCT特許出願第PCT/US2018/055840号、名称「DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」(代理人整理番号第ILLM 1000-8/IP-1611-PCT)、(2)2018年10月15日に出願したPCT特許出願第PCT/US2018/055878号、名称「DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION」(代理人整理番号第ILLM 1000-9/IP-1612-PCT)、(3)2018年10月15日に出願したPCT特許出願第PCT/US2018/055881号、名称「SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS」(代理人整理番号第ILLM 1000-10/IP-1613-PCT)、(4)2018年10月15日に出願した米国非仮特許出願第16/160,903号、名称「DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」(代理人整理番号第ILLM 1000-5/IP-1611-US)、(5)2018年10月15日に出願した米国非仮特許出願第16/160,986号、名称「DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION」(代理人整理番号第ILLM 1000-6/IP-1612-US)、および(6)2018年10月15日に出願した米国非仮特許出願第16/160,968号、名称「SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS」(代理人整理番号第ILLM 1000-7/IP-1613-US)の一部継続であり、その優先権を主張する。3つのPCT出願および3つの米国非仮出願はすべて、以下に列挙する次の4つの米国仮出願への優先権および/または利益を主張する。

2017年10月16日に出願した米国仮特許出願第62/573,144号、名称「TRAINING A DEEP PATHOGENICITY CLASSIFIER USING LARGE-SCALE BENIGN TRAINING DATA」(代理人整理番号第ILLM 1000-1/IP-1611-PRV)。

2017年10月16日に出願した米国仮特許出願第62/573,149号、名称「PATHOGENICITY CLASSIFIER BASED ON DEEP CONVOLUTIONAL NEURAL NETWORKS (CNNS)」(代理人整理番号第ILLM 1000-2/IP-1612-PRV)。

2017年10月16日に出願した米国仮特許出願第62/573,153号、名称「DEEP SEMI-SUPERVISED LEARNING THAT GENERATES LARGE-SCALE PATHOGENIC TRAINING DATA」(代理人整理番号第ILLM 1000-3/IP-1613-PRV)。

2017年11月7日に出願した米国仮特許出願第62/582,898号、名称「PATHOGENICITY CLASSIFICATION OF GENOMIC DATA USING DEEP CONVOLUTIONAL NEURAL NETWORKS (CNNs)」(代理人整理番号第ILLM 1000-4/IP-1618-PRV)。

引用
以下の文献は、あたかも全体が本明細書に記載されているかのように、すべての目的に関して参照により引用される。

Hong Gao、Kai-How Farh、Laksshman Sundaram、およびJeremy Francis McRaeによる、2017年10月16日に出願した米国仮特許出願第62/573,144号、名称「TRAINING A DEEP PATHOGENICITY CLASSIFIER USING LARGE-SCALE BENIGN TRAINING DATA」(代理人整理番号第ILLM 1000-1/IP-1611-PRV)。

Laksshman Sundaram、Kai-How Farh、Hong Gao、Samskruthi Reddy Padigepati、およびJeremy Francis McRaeによる、2017年10月16日に出願した米国仮特許出願第62/573,149号、名称「PATHOGENICITY CLASSIFIER BASED ON DEEP CONVOLUTIONAL NEURAL NETWORKS (CNNS)」(代理人整理番号第ILLM 1000-2/IP-1612-PRV)。

Hong Gao、Kai-How Farh、Laksshman Sundaram、およびJeremy Francis McRaeによる、2017年10月16日に出願した米国仮特許出願第62/573,153号、名称「DEEP SEMI-SUPERVISED LEARNING THAT GENERATES LARGE-SCALE PATHOGENIC TRAINING DATA」(代理人整理番号第ILLM 1000-3/IP-1613-PRV)。

Hong Gao、Kai-How Farh、Laksshman Sundaramによる、2017年11月7日に出願した米国仮特許出願第62/582,898号、名称「PATHOGENICITY CLASSIFICATION OF GENOMIC DATA USING DEEP CONVOLUTIONAL NEURAL NETWORKS (CNNs)」(代理人整理番号第ILLM 1000-4/IP-1618-PRV)。

2018年10月15日に出願された、Hong Gao、Kai-How Farh、Laksshman Sundaram、およびJeremy Francis McRaeによる、「DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」という表題の国際特許出願第PCT/US18/55840号(代理人整理番号ILLM 1000-8/ IP-1611-PCT)。

Laksshman Sundaram、Kai-How Farh、Hong Gao、Samskruthi Reddy Padigepati、およびJeremy Francis McRaeによる、2018年10月15日に出願したPCT特許出願第PCT/US2018/55878号、名称「DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION」(代理人整理番号第ILLM 1000-9/IP-1612-PCT)。

2018年10月15日に出願された、Laksshman Sundaram、Kai-How Farh、Hong Gao、およびJeremy Francis McRaeによる、「SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS」という表題の国際特許出願第PCT/US2018/55881号(代理人整理番号第ILLM 1000-10/IP-1613-PCT)。

2018年10月15日に出願された、Hong Gao、Kai-How Farh、Laksshman Sundaram、およびJeremy Francis McRaeによる、「DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」という表題の米国非仮特許出願第16/160,903号(代理人整理番号ILLM 1000-5/IP-1611-US)。

2018年10月15日に出願された、Laksshman Sundaram、Kai-How Farh、Hong Gao、およびJeremy Francis McRaeによる、「DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION」という表題の米国非仮特許出願第16/160,986号(代理人整理番号ILLM 1000-6/IP-1612-US)。

2018年10月15日に出願された、Laksshman Sundaram、Kai-How Farh、Hong Gao、およびJeremy Francis McRaeによる、「SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS」という表題の米国非仮特許出願第16/160,968号(代理人整理番号ILLM 1000-7/IP-1613-US)。

文書1 - A.V.D.Oord、S.Dieleman、H.Zen、K.Simonyan、O.Vinyals、A.Graves、N.Kalchbrenner、A.Senior、およびK.Kavukcuoglu、「WAVENET: A GENERATIVE MODEL FOR RAW AUDIO」、arXiv:1609.03499、2016

文書2 - S.O.Arik、M.Chrzanowski、A.Coates、G.Diamos、A.Gibiansky、Y.Kang、X.Li、J.Miller、A.Ng、J.Raiman、S.Sengupta、およびM.Shoeybi、「DEEP VOICE: REAL-TIME NEURAL TEXT-TO-SPEECH」、arXiv:1702.07825、2017

文書3 - F.YuおよびV.Koltun、「MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS」、arXiv:1511.07122、2016

文書4 - K.He、X.Zhang、S.Ren、およびJ.Sun、「DEEP RESIDUAL LEARNING FOR IMAGE RECOGNITION」、arXiv:1512.03385、2015

文書5 - R.K.Srivastava、K.Greff、およびJ.Schmidhuber、「HIGHWAY NETWORKS」、arXiv:1505.00387、2015

文書6 - G.Huang、Z.Liu、L.van der Maaten、およびK.Q.Weinberger、「DENSELY CONNECTED CONVOLUTIONAL NETWORKS」、arXiv:1608.06993、2017

文書7 - C.Szegedy、W.Liu、Y.Jia、P.Sermanet、S.Reed、D.Anguelov、D.Erhan、V.Vanhoucke、およびA.Rabinovich、「GOING DEEPER WITH CONVOLUTIONS」、arXiv:1409.4842、2014

文書8 - S.Ioffe、およびC.Szegedy、「BATCH NORMALIZATION: ACCELERATING DEEP NETWORK TRAINING BY REDUCING INTERNAL COVARIATE SHIFT」、arXiv:1502.03167、2015

文書9 - J.M.Wolterink、T.Leiner、M.A.Viergever、およびI.Isgum、「DILATED CONVOLUTIONAL NEURAL NETWORKS FOR CARDIOVASCULAR MR SEGMENTATION IN CONGENITAL HEART DISEASE」、arXiv:1704.03669、2017

文書10 - L.C.Piqueras、「AUTOREGRESSIVE MODEL BASED ON A DEEP CONVOLUTIONAL NEURAL NETWORK FOR AUDIO GENERATION」、Tampere University of Technology、2016

文書11 - J.Wu、「Introduction to Convolutional Neural Networks」、Nanjing University、2017

文書12 - I.J.Goodfellow、D.Warde-Farley、M.Mirza、A.Courville、およびY.Bengio、「CONVOLUTIONAL NETWORKS」、Deep Learning、MIT Press、2016

文書13 - J.Gu、Z.Wang、J.Kuen、L.Ma、A.Shahroudy、B.Shuai、T.Liu、X.Wang、およびG.Wang、「RECENT ADVANCES IN CONVOLUTIONAL NEURAL NETWORKS」、arXiv:1512.07108、2017

文書1は、入力シーケンスを受け入れて入力シーケンス中のエントリをスコアリングする出力シーケンスを生成するために、同じ畳み込みウィンドウサイズを有する畳み込みフィルタ、バッチ正規化層、正規化線形ユニット(ReLUと省略される)層、次元変換層、指数関数的に増大する膨張畳み込み率(atrous convolution rate)を伴う膨張畳み込み層、スキップ接続、およびソフトマックス分類層を伴う、残差ブロックのグループを使用する深層畳み込みニューラルネットワークアーキテクチャを説明する。開示される技術は、文書1において説明されるニューラルネットワークコンポーネントおよびパラメータを使用する。一実装形態では、開示される技術は、文書1において説明されるニューラルネットワークコンポーネントのパラメータを修正する。たとえば、文書1とは異なり、開示される技術における膨張畳み込み率は、より低い残差ブロックグループからより高い残差ブロックグループへと非指数関数的に高まる。別の例では、文書1とは異なり、開示される技術における畳み込みウィンドウサイズは、残差ブロックのグループ間で変動する。

文書2は、文書1において説明される深層畳み込みニューラルネットワークアーキテクチャの詳細を説明する。

文書3は、開示される技術によって使用される膨張畳み込みを説明する。本明細書では、膨張畳み込みは「拡張畳み込み(dilated convolution)」とも呼ばれる。膨張/拡張畳み込みは、少数の訓練可能なパラメータで大きな受容野を可能にする。膨張/拡張畳み込みは、膨張畳み込み率または拡張係数とも呼ばれるあるステップを用いて入力値をスキップすることによって、カーネルがその長さより長いエリアにわたって適用されるような畳み込みである。膨張/拡張畳み込みは、畳み込み演算が実行されるときに、より長い間隔の隣り合う入力エントリ(たとえば、ヌクレオチド、アミノ酸)が考慮されるように、畳み込みフィルタ/カーネルの要素間に離隔を加える。これにより、入力における長距離のコンテクスト依存性の組み込みが可能になる。膨張畳み込みは、隣接するヌクレオチドが処理されるにつれて、部分的な畳み込み計算結果を再使用のために保存する。

文書4は、開示される技術によって使用される残差ブロックおよび残差接続を説明する。

文書5は、開示される技術によって使用されるスキップ接続を説明する。本明細書では、スキップ接続は「ハイウェイネットワーク」とも呼ばれる。

文書6は、開示される技術によって使用される密接続(densely connected)畳み込みネットワークアーキテクチャを説明する。

文書7は、開示される技術によって使用される次元変換畳み込み層およびモジュールベースの処理パイプラインを説明する。次元変換畳み込みの一例は1×1の畳み込みである。

文書8は、開示される技術によって使用されるバッチ正規化層を説明する。

文書9も、開示される技術によって使用される膨張/拡張畳み込みを説明する。

文書10は、畳み込みニューラルネットワーク、深層畳み込みニューラルネットワーク、および膨張/拡張畳み込みを伴う深層畳み込みニューラルネットワークを含む、開示される技術によって使用され得る深層ニューラルネットワークの様々なアーキテクチャを説明する。

文書11は、サブサンプリング層(たとえば、プーリング)および全結合層を伴う畳み込みニューラルネットワークを訓練するためのアルゴリズムを含む、開示される技術によって使用され得る畳み込みニューラルネットワークの詳細を説明する。

文書12は、開示される技術によって使用され得る様々な畳み込み演算の詳細を説明する。

文書13は、開示される技術によって使用され得る畳み込みニューラルネットワークの様々なアーキテクチャを説明する。

開示される技術の分野
開示される技術は、人工知能タイプコンピュータならびにデジタルデータ処理システムならびに知性のエミュレーションのための対応するデータ処理方法および製品(すなわち、知識ベースシステム、推論システム、知識取得システム)に関し、不確実性を伴う推論のためのシステム(たとえば、ファジー論理システム)、適応システム、機械学習システム、および人工ニューラルネットワークを含む。具体的には、開示される技術は、深層畳み込みニューラルネットワークを訓練するために深層学習ベースの技法を使用することに関する。特に、開示されている技術は、過剰適合を回避するために深層畳み込みニューラルネットワークを事前訓練することに関する。

このセクションにおいて論じられる主題は、このセクションにおける言及の結果として、単なる従来技術であると見なされるべきではない。同様に、このセクションにおいて言及される問題、または背景として提供される主題と関連付けられる問題は、従来技術においてこれまで認識されていたと見なされるべきではない。このセクションの主題は異なる手法を表すにすぎず、それらの異なる手法自体も、特許請求される技術の実装形態に対応し得る。

機械学習
機械学習では、出力変数を予測するために入力変数が使用される。入力変数はしばしば特徴量と呼ばれ、X=(X₁,X₂,...,X_k)と表記され、i∈1,...,kである各X_iが特徴量である。出力変数はしばしば応答または依存変数と呼ばれ、変数Y_iにより表記される。Yと対応するXとの関係は、次の一般的な形式で書くことができる。
Y=f(x)+∈

上式において、fは特徴量(X₁,X₂,...,X_k)の関数であり、∈はランダムな誤差の項である。この誤差の項は、Xとは無関係であり、平均値が0である。

実際には、特徴量Xは、Yがなくても、またはXとYとの厳密な関係を知らなくても入手可能である。誤差の項は平均値が0であるので、目標はfを推定することである。

上式において、

は∈の推定値であり、これはしばしばブラックボックスと見なされ、

の入力と出力の関係のみが知られていることを意味するが、なぜこれで機能するのかという疑問は答えられていないままである。

関数

は学習を使用して発見される。教師あり学習および教師なし学習は、このタスクのための機械学習において使用される2つの方式である。教師あり学習では、ラベリングされたデータが訓練のために使用される。入力および対応する出力(=ラベル)を示すことによって、関数

は、出力を近似するように最適化される。教師なし学習では、目標はラベリングされていないデータから隠された構造を見つけることである。このアルゴリズムは、入力データについての正確さの尺度を持たず、これにより教師あり学習と区別される。

ニューラルネットワーク
ニューラルネットワークは、互いとの間でメッセージを交換する相互接続された人工ニューロン(たとえば、a₁、a₂、a₃)のシステムである。示されるニューラルネットワークは3つの入力を有し、2つのニューロンが隠れ層にあり、2つのニューロンが出力層にある。隠れ層は活性化関数f(・)を有し、出力層は活性化関数g(・)を有する。これらの接続は、適切に訓練されたネットワークが認識すべき画像を与えられると正しく応答するように、訓練プロセスの間に調整された数値的な重み(たとえば、w₁₁、w₂₁、w₁₂、w₃₁、w₂₂、w₃₂、v₁₁、v₂₂)を有する。入力層は生の入力を処理し、隠れ層は入力層と隠れ層との間の接続の重みに基づいて入力層から出力を処理する。出力層は、隠れ層から出力を取り込み、隠れ層と出力層との間の接続の重みに基づいてそれを処理する。ネットワークは、特徴検出ニューロンの複数の層を含む。各層は、前の層からの入力の異なる組合せに対応する多数のニューロンを有する。これらの層は、第1の層が入力画像データにおける基本的なパターンのセットを検出し、第2の層がパターンのパターンを検出し、第3の層がそれらのパターンのパターンを検出するように、構築される。

ニューラルネットワークモデルは、使用前に訓練サンプルを使用して訓練され、プロダクションサンプルに対する出力を予測するために使用される。訓練されたモデルの予測の品質は、訓練中に入力として与えられない訓練サンプルのテストセットを使用することによって評価される。モデルがテストサンプルに対する出力を正しく予測した場合、これは高い信頼度で推論に使用できる。しかしながら、モデルがテストサンプルに対する出力を正しく予測しない場合、我々は、モデルが訓練データ上で過剰適合されており、まだ見ていないテストデータ上で一般化されていないと言うことができる。

遺伝学における深層学習の応用の概観は、以下の出版物において見出され得る。
・ T.Ching他、Opportunities And Obstacles For Deep Learning In Biology And Medicine、www.biorxiv.org:142760、2017
・ Angermueller C、Parnamaa T、Parts L、Stegle O、Deep Learning For Computational Biology. Mol Syst Biol. 2016;12:878
・ Park Y、Kellis M、2015 Deep Learning For Regulatory Genomics. Nat. Biotechnol. 33、825-826、(doi:10.1038/nbt.3313)
・ Min S、Lee B、およびYoon S、Deep Learning In Bioinformatics. Brief. Bioinform. bbw068 (2016)
・ Leung MK、Delong A、Alipanahi B他、Machine Learning In Genomic Medicine: A Review of Computational Problems and Data Sets、2016
・ Libbrecht MW、Noble WS、Machine Learning Applications In Genetics and Genomics. Nature Reviews Genetics 2015;16(6):321-32

米国仮特許出願第62/573,144号米国仮特許出願第62/573,149号米国仮特許出願第62/573,153号米国仮特許出願第62/582,898号国際特許出願第PCT/US18/55840号 PCT特許出願第PCT/US2018/55878号国際特許出願第PCT/US2018/55881号(代理人整理番号第ILLM 1000-10/IP-1613-PCT) 米国特許出願第16/160,903号(代理人整理番号第ILLM 1000-5/IP-1611-US) 米国特許出願第16/160,986号(代理人整理番号第ILLM 1000-6/IP-1612-US) 米国特許出願第16/160,968号(代理人整理番号第ILLM 1000-7/IP-1613-US) 国際特許出願公開第WO07010252号国際特許出願第PCTGB2007/003798号米国特許出願公開第2009/0088327号米国特許出願公開第2016/0085910号米国特許出願公開第2013/0296175号国際特許出願公開第WO 04/018497号米国特許第7057026号国際特許出願公開第WO 91/06678号国際特許出願公開第WO 07/123744号米国特許第7329492号米国特許第7211414号米国特許第7315019号米国特許第7405281号米国特許出願公開第2008/0108082号米国特許第5641658号米国特許出願公開第2002/0055100号米国特許第7115400号米国特許出願公開第2004/0096853号米国特許出願公開第2004/0002090号米国特許出願公開第2007/0128624号米国特許出願公開第2008/0009420号米国特許出願公開第2007/0099208A1号米国特許出願公開第2007/0166705A1号米国特許出願公開第2008/0280773A1号米国特許出願第13/018255号

A.V.D.Oord、S.Dieleman、H.Zen、K.Simonyan、O.Vinyals、A.Graves、N.Kalchbrenner、A.Senior、およびK.Kavukcuoglu、「WAVENET: A GENERATIVE MODEL FOR RAW AUDIO」、arXiv:1609.03499、2016 S.O.Arik、M.Chrzanowski、A.Coates、G.Diamos、A.Gibiansky、Y.Kang、X.Li、J.Miller、A.Ng、J.Raiman、S.Sengupta、およびM.Shoeybi、「DEEP VOICE: REAL-TIME NEURAL TEXT-TO-SPEECH」、arXiv:1702.07825、2017 F.YuおよびV.Koltun、「MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS」、arXiv:1511.07122、2016 K.He、X.Zhang、S.Ren、およびJ.Sun、「DEEP RESIDUAL LEARNING FOR IMAGE RECOGNITION」、arXiv:1512.03385、2015 R.K.Srivastava、K.Greff、およびJ.Schmidhuber、「HIGHWAY NETWORKS」、arXiv:1505.00387、2015 G.Huang、Z.Liu、L.van der Maaten、およびK.Q.Weinberger、「DENSELY CONNECTED CONVOLUTIONAL NETWORKS」、arXiv:1608.06993、2017 C.Szegedy、W.Liu、Y.Jia、P.Sermanet、S.Reed、D.Anguelov、D.Erhan、V.Vanhoucke、およびA.Rabinovich、「GOING DEEPER WITH CONVOLUTIONS」、arXiv:1409.4842、2014 S.Ioffe、およびC.Szegedy、「BATCH NORMALIZATION: ACCELERATING DEEP NETWORK TRAINING BY REDUCING INTERNAL COVARIATE SHIFT」、arXiv:1502.03167、2015 J.M.Wolterink、T.Leiner、M.A.Viergever、およびI.Isgum、「DILATED CONVOLUTIONAL NEURAL NETWORKS FOR CARDIOVASCULAR MR SEGMENTATION IN CONGENITAL HEART DISEASE」、arXiv:1704.03669、2017 L.C.Piqueras、「AUTOREGRESSIVE MODEL BASED ON A DEEP CONVOLUTIONAL NEURAL NETWORK FOR AUDIO GENERATION」、Tampere University of Technology、2016 J.Wu、「Introduction to Convolutional Neural Networks」、Nanjing University、2017 I.J.Goodfellow、D.Warde-Farley、M.Mirza、A.Courville、およびY.Bengio、「CONVOLUTIONAL NETWORKS」、Deep Learning、MIT Press、2016 J.Gu、Z.Wang、J.Kuen、L.Ma、A.Shahroudy、B.Shuai、T.Liu、X.Wang、およびG.Wang、「RECENT ADVANCES IN CONVOLUTIONAL NEURAL NETWORKS」、arXiv:1512.07108、2017 T.Ching他、Opportunities And Obstacles For Deep Learning In Biology And Medicine、www.biorxiv.org:142760、2017 Angermueller C、Parnamaa T、Parts L、Stegle O、Deep Learning For Computational Biology. Mol Syst Biol. 2016;12:878 Park Y、Kellis M、2015 Deep Learning For Regulatory Genomics. Nat. Biotechnol. 33、825-826、(doi:10.1038/nbt.3313) Min S、Lee B、およびYoon S、Deep Learning In Bioinformatics. Brief. Bioinform. bbw068 (2016) Leung MK、Delong A、Alipanahi B他、Machine Learning In Genomic Medicine: A Review of Computational Problems and Data Sets、2016 Libbrecht MW、Noble WS、Machine Learning Applications In Genetics and Genomics. Nature Reviews Genetics 2015;16(6):321-32 K.He、X.Zhang、S.Ren、およびJ.Sun、「DEEP RESIDUAL LEARNING FOR IMAGE RECOGNITION」、arXiv:1512.03385、2015 Bentley他、Nature 456:53-59(2008) Lizardi他、Nat.Genet.19:225-232(1998) Dunn, TamsenおよびBerry, GwennおよびEmig-Agius, DorotheaおよびJiang, YuおよびIyer, AnitaおよびUdar, NitinおよびStromberg, Michael、2017、Pisces: An Accurate and Versatile Single Sample Somatic and Germline Variant Caller、595-595、10.1145/3107411.3108203

図面において、同様の参照文字は一般に様々な図全体で同様の部分を指す。また、図面は必ずしも縮尺通りではなく、代わりに、開示される技術の原理を示す際に一般に強調が行われる。以下の説明では、開示される技術の様々な実装形態が、以下の図面を参照して説明される。

補足訓練例がバリアント病原性予測モデルの訓練中に過剰適合を低減するために使用されるシステムのアーキテクチャレベルの概略図である。本明細書において「PrimateAI」と称される、病原性予測のための深層残差ネットワークの例示的なアーキテクチャを示す図である。病原性分類のための深層学習ネットワークアーキテクチャである、PrimateAIを示す概略図である。畳み込みニューラルネットワークの機能の一実装形態を示す図である。開示された技術の一実装形態による畳み込みニューラルネットワークの訓練のブロック図である。例示的なミスセンスバリアントおよび対応する補足良性訓練例を提示する図である。補足データセットを使用して病原性予測モデルの開示されている事前訓練を示す図である。事前訓練エポックの後の事前訓練された病原性予測モデルの訓練を示す図である。ラベリングされていないバリアントを評価するための訓練された病原性予測モデルの適用を示す図である。病原性ミスセンスバリアントおよび対応する補足良性訓練例とともに例示的なアミノ酸配列に対する位置特定的頻度行列開始点を提示する図である。良性ミスセンスバリアントおよび対応する補足良性訓練例とともに例示的なアミノ酸配列に対する位置特定的頻度行列開始点を提示する図である。霊長類、哺乳類、および脊椎動物のアミノ酸配列に対する位置特定的頻度行列の構成を示す図である。ヒト基準アミノ酸配列およびヒト代替アミノ酸配列の例示的なワンホット符号化を提示する図である。バリアント病原性予測モデルへの入力の例を提示する図である。開示される技術を実装するために使用され得るコンピュータシステムの簡略化されたブロック図である。

以下の議論は、あらゆる当業者が開示される技術を作成して使用することを可能にするために提示され、特定の適用例およびその要件の文脈で与えられる。開示される実装形態への様々な修正が当業者に容易に明らかとなり、本明細書で定義される一般的な原理は、開示される技術の趣旨および範囲から逸脱することなく他の実装形態および適用例に適用され得る。したがって、開示される技術は、示される実装形態に限定されることは意図されず、本明細書で開示される原理および特徴と矛盾しない最も広い範囲を認められるべきである。

［導入］
本出願のセクションは、開示されている改善の背景を提供するために参照により引用された出願から抜粋した繰り返しである。従来の出願では、以下で説明されているように、ヒト以外の霊長類のミスセンスバリアントデータを使用して訓練される深層学習システムを開示した。背景を提供する前に、我々は、開示されている改善を紹介する。

発明者らは、経験的に、訓練のいくつかのパターンは、ときには、深層学習システムが位置特定的頻度行列入力を過度に強調することを引き起こすことを観察している。位置特定的頻度行列への過剰適合は、システムが、R->Wなどの典型的には悪影響を有するアミノ酸ミスセンスからR->kなどの典型的には良性であるアミノ酸ミスセンスを区別する能力を減退させる可能性がある。訓練セットを特に選択されている訓練例で補足することで、過剰適合を低減させるか、または弱め、訓練結果を改善することができる。

良性とラベリングされた補足訓練例は、ミスセンス訓練例と同じ位置特定的頻度行列(「PFM」)を含み、これはラベリングされていない(および病原性があると推測される)か、病原性とラベリングされるか、または良性とラベリングされ得る。これらの補足良性訓練例の直観的影響は、位置特定的頻度行列以外のものに基づき逆伝播訓練で良性と病原性とを強制的に区別することである。

補足良性訓練例は、訓練セット内の病原性またはラベリングされていない例と対比するように構成される。補足良性訓練例は、また、良性ミスセンス例を補強することも可能である。対比するために、病原性ミスセンスは、精選された病原性ミスセンスであり得るか、または訓練セット内の組合せ的に生成された例であってよい。選択された良性バリアントは同義バリアントであってよく、これは2つの異なるコドン、すなわち、同じアミノ酸に対してコードする2つの異なるトリヌクレオチド配列から、同じアミノ酸を表現する。同義良性バリアントが使用されるときに、これはランダムには構成されず、その代わりに、シーケンシングされた集団内で観察された同義バリアントから選択される。同義バリアントは、ヒトバリアントである可能性が高いが、他の霊長類、哺乳類、または脊椎動物に比べてヒトの方が、利用可能な配列データが多いからである。補足良性訓練例は、基準アミノ酸配列および代替アミノ酸配列の両方において同じアミノ酸配列を有する。代替的に、選択された良性バリアントは、単純に、対比する訓練例と同じ位置にあり得る。これは、同義良性バリアントの使用と同じくらい、過剰適合を弱める効果を潜在的に有し得る。

補足良性訓練例の使用は、初期訓練エポックの後に中断され得るか、または訓練全体を通して続行され得るが、これらの例が性質を正確に反映しているとおりである。

［畳み込みニューラルネットワーク］
畳み込みニューラルネットワークは特別なタイプのニューラルネットワークである。密結合層と畳み込み層との間の基本的な違いは、密層が入力特徴空間におけるグローバルパターンを学習するのに対して、畳み込み層がローカルパターンを学習するということである。画像の場合、入力の小さい2Dウィンドウにおいてパターンが見出される。この重要な特徴は、(1)畳み込みニューラルネットワークの学習するパターンが移動不変である、および(2)畳み込みニューラルネットワークがパターンの空間的階層を学習できるという、2つの興味深い特性を畳み込みニューラルネットワークに与える。

第1の特性に関して、写真の右下の角のあるパターンを学習した後、畳み込み層はそれをどこでも、たとえば左上の角において認識することができる。密結合ネットワークは、パターンが新しい位置において現れた場合、改めてパターンを学習しなければならない。これにより、畳み込みニューラルネットワークはデータ効率が高くなり、それは、一般化能力を有する表現を学習するのにより少数の訓練サンプルしか必要としないからである。

第2の特性に関して、第1の畳み込み層は端などの小さいローカルパターンを学習することができ、第2の畳み込み層は第1の層の特徴から作られるより大きいパターンを学習し、以下同様である。これにより、畳み込みニューラルネットワークは、ますます複雑になり抽象的になる視覚的な概念を効率的に学習することが可能になる。

畳み込みニューラルネットワークは、多くの異なる層において配置される人工ニューロンの層を、それらの層を互いに依存関係にする活性化関数を用いて相互接続することによって、高度に非線形なマッピングを学習する。畳み込みニューラルネットワークは、1つまたは複数のサブサンプリング層および非線形層とともに散在する、1つまたは複数の畳み込み層を含み、サブサンプリング層および非線形層の後には、通常は1つまたは複数の全結合層がある。畳み込みニューラルネットワークの各要素は、以前の層における特徴のセットから入力を受け取る。畳み込みニューラルネットワークは同時に学習し、それは同じ特徴マップの中のニューロンが同一の重みを有するからである。これらの局所の共有される重みがネットワークの複雑さを下げるので、多次元入力データがネットワークに入るとき、畳み込みニューラルネットワークは、特徴の抽出および回帰または分類のプロセスにおいて、データ再構築の複雑さを避ける。

畳み込みは、2つの空間軸(高さおよび幅)ならびに深さ軸(チャネル軸とも呼ばれる)を伴う、特徴マップと呼ばれる3Dテンソルにわたって行われる。RGB画像では、深さ軸の次元は3であり、それは画像が3つの色チャネル、すなわち赤、緑、および青を有するからである。白黒の写真では、深さは1(グレーのレベル)である。畳み込み演算は、入力特徴マップからパッチを抽出し、これらのパッチのすべてに同じ変換を適用し、出力特徴マップを生成する。この出力特徴マップはそれでも3Dテンソルであり、幅および高さを有する。その深さは任意であってよく、それは出力深さが層のパラメータであり、その深さ軸における異なるチャネルはRGB入力におけるような特定の色をもはや表さず、むしろフィルタを表すからである。フィルタは入力データの特定の態様を符号化し、高いレベルで、単一のフィルタが、たとえば「入力における顔の存在」という概念を符号化することができる。

たとえば、第1の畳み込み層は、サイズ(28,28,1)の特徴マップを取り込み、サイズ(26,26,32)の特徴マップを出力する。すなわち、第1の畳み込み層は、その入力にわたる32個のフィルタを計算する。これらの32個の出力チャネルの各々が26×26の値の格子を含み、この格子は入力にわたるフィルタの応答マップであり、入力の中の異なる位置におけるそのフィルタパターンの応答を示す。これが、特徴マップという用語が意味することである。すなわち、深さ軸におけるそれぞれの次元が特徴(またはフィルタ)であり、2Dテンソル出力[:,:,n]が入力にわたるこのフィルタの応答の2D空間マップである。

畳み込みは、(1)通常は1×1、3×3、または5×5である入力から抽出されたパッチのサイズ、および(2)出力特徴マップの深さという、2つの重要なパラメータによって定義され、フィルタの数は畳み込みによって計算される。しばしば、これらは32という深さで開始し、64という深さまで続き、128または256という深さで終わる。

畳み込みは、3D入力特徴マップにわたってサイズ3×3または5×5のこれらのウィンドウをスライドし、それぞれの位置において止まり、周囲の特徴の3Dパッチ(形状(window_height、window_width、input_depth))を抽出することによって機能する。各々のそのような3Dパッチは次いで、形状の1Dベクトル(output_depth)への(畳み込みカーネルと呼ばれる、同じ学習された重み行列を伴うテンソル積を介して)変換される。これらのベクトルのすべてが次いで、形状の3D出力マップ(高さ、幅、output_depth)へと空間的に再び組み立てられる。出力特徴マップの中のそれぞれの空間的位置が入力特徴マップの中の同じ位置に対応する(たとえば、出力の右下の角は入力の右下の角についての情報を含む)。たとえば、3×3のウィンドウでは、ベクトル出力[i,j,:]は3Dパッチ入力[i-1:i+1,j-1:J+1,:]から来る。完全なプロセスは図4において詳述される(400とラベリングされている)。

畳み込みニューラルネットワークは、訓練の間に多数の勾配更新反復を介して学習される入力値と畳み込みフィルタ(重みの行列)との間で畳み込み演算を実行する、畳み込み層を備える。(m,n)をフィルタサイズとし、Wは重みの行列とすると、畳み込み層は、ドット積w・x+bを計算することによって、入力Xを用いてWの畳み込みを実行し、xはXのインスタンスであり、bはバイアスである。畳み込みフィルタが入力にわたってスライドするステップサイズはストライドと呼ばれ、フィルタ面積(m×n)は受容野と呼ばれる。同じ畳み込みフィルタが入力の異なる場所にわたって適用され、このことは学習される重みの数を減らす。このことは、すなわち、重要なパターンが入力において存在する場合、位置不変学習も可能にし、畳み込みフィルタは、重要なパターンがシーケンスの中でどこにあるかにかかわらず、重要なパターンを学習する。

［畳み込みニューラルネットワークの訓練］
さらなる背景として、図5は、開示される技術の一実装形態による畳み込みニューラルネットワークを訓練することのブロック図500を示す。畳み込みニューラルネットワークは、入力データが特定の出力推定につながるように、調整または訓練される。畳み込みニューラルネットワークは、出力推定とグラウンドトゥルースの比較に基づいて、出力推定がグラウンドトゥルースに漸近的に一致または接近するまで、逆伝播を使用して調整される。

畳み込みニューラルネットワークは、グラウンドトゥルースと実際の出力との間の差に基づいてニューロン間の重みを調整することよって訓練される。これは次のように数学的に表される。

ただし、δ=(グラウンドトゥルース)-(実際の出力)

一実装形態では、訓練規則は次のように定義される。
w_nm←w_nm+α(t_m-φ_m)α_n

上式において、矢印は値の更新を示し、t_mはニューロンmの目標値であり、φ_mはニューロンmの計算された現在の出力であり、α_nは入力nであり、αは学習率である。

訓練における中間ステップは、畳み込み層を使用して入力データから特徴ベクトルを生成することを含む。出力において開始して、各層における重みに関する勾配が計算される。これは、バックワードパス、または後ろに行くと呼ばれる。ネットワークにおける重みは、負の勾配および以前の重みの組合せを使用して更新される。

一実装形態では、畳み込みニューラルネットワークは、勾配降下法によって誤差の逆伝播を実行する確率的勾配更新アルゴリズム(ADAMなど)を使用する。シグモイド関数ベースの逆伝播アルゴリズムの一例は以下のように記述される。

上のシグモイド関数において、hはニューロンによって計算される加重和である。シグモイド関数は以下の導関数を有する。

このアルゴリズムは、ネットワークの中のすべてのニューロンの活性化を計算し、フォワードパスに対する出力を生み出すことを含む。隠れ層の中のニューロンmの活性化は次のように記述される。

これは、次のように記述される活性化を得るためにすべての隠れ層に対して行われる。

そして、誤差および訂正重みが層ごとに計算される。出力における誤差は次のように計算される。
δ_ok=(t_k-φ_k)φ_k(1-φ_k)

隠れ層における誤差は次のように計算される。

出力層の重みは次のように更新される。
v_mk←v_mk+αδ_okφ_m

隠れ層の重みは学習率αを使用して次のように更新される。
v_nm←w_nm+αδ_hma_n

一実装形態では、畳み込みニューラルネットワークは、すべての層にわたって誤差を計算するために勾配降下最適化を使用する。そのような最適化において、入力特徴ベクトルxおよび予測される出力

に対して、目標がyであるときに

を予測することのコストのためのlとして損失関数が定義され、すなわち

である。予測される出力

は、関数fを使用して入力特徴ベクトルxから変換される。関数fは、畳み込みニューラルネットワークの重みによってパラメータ化され、すなわち

である。損失関数は

、またはQ(z,w)=l(f_w(x),y)と記述され、ここでzは入力データと出力データのペア(x,y)である。勾配降下最適化は、以下に従って重みを更新することによって実行される。

w_t+1=w_t+v_t+1

上式において、αは学習率である。また、損失はn個のデータペアのセットにわたる平均として計算される。この計算は、線形収束の際に学習率αが十分小さくなると終了する。他の実装形態では、計算効率をもたらすために、ネステロフの加速勾配法および適応勾配法に供給される選択されたデータペアだけを使用して、勾配が計算される。

一実装形態では、畳み込みニューラルネットワークは、コスト関数を計算するために確率的勾配降下法(SGD)を使用する。SGDは、損失関数における重みに関する勾配を、以下で記述されるように、1つのランダム化されたデータペアz_tだけから計算することによって近似する。
v_t+1=μv-α∇wQ(z_t,w_t)
w_t+1=w_t+v_t+1

上式において、αは学習率であり、μはモメンタムであり、tは更新前の現在の重み状態である。SGDの収束速度は、学習率αが十分に速く低減するときと、十分に遅く低減するときの両方において、約O(1/t)である。他の実装形態では、畳み込みニューラルネットワークは、ユークリッド損失およびソフトマックス損失などの異なる損失関数を使用する。さらなる実装形態では、Adam確率的最適化器が畳み込みニューラルネットワークによって使用される。

畳み込み層、サブサンプリング層、および非線形層の追加の開示および説明は、畳み込みの例および逆伝播による訓練の説明とともに参照により引用された出願に記載されている。また参照により引用された資料の対象となるのは、基本的なCNN技術におけるアーキテクチャ上のバリエーションである。

前に説明されている反復平衡サンプリング上のバリエーションの1つは、20サイクルの代わりに1または2サイクルでエリート訓練セット全体を選択することである。1もしくは2訓練サイクルだけ、または3から5訓練サイクルがエリート訓練セットを組み立てるのに十分であり得る、知られている良性訓練例と確実に分類され予測された病原性バリアントとの間の、半教師あり訓練によって学習された十分な区別があり得る。1サイクルもしくは2サイクルだけ、または3から5サイクルの範囲を記述するための開示されている方法およびデバイスの修正は、本明細書に開示されており、前に開示されている反復を1もしくは2または3から5サイクルに変換することによって容易に達成され得る。

［ゲノミクスにおける深層学習］
遺伝的変異は、多くの疾患の説明を助け得る。ヒトはそれぞれが固有の遺伝コードを持ち、個人のグループ内には多くの遺伝的バリアントがある。有害な遺伝的バリアントの大半は、自然選択によってゲノムから枯渇している。どの遺伝的変異が病原性または有害である可能性が高いかを特定することが重要である。このことは、研究者が、病原性である可能性が高い遺伝的バリアントに注目し、多くの疾患の診断および治療を加速させることを助けるであろう。

バリアントの性質および機能的な影響(たとえば、病原性)をモデル化することは重要であるが、ゲノミクスの分野においては難しい仕事である。機能的ゲノムシーケンシング技術の急速な進化にもかかわらず、バリアントの機能的な結果の解釈には、細胞タイプに固有の転写制御システムの複雑さが原因で、大きな困難が立ちはだかっている。

過去数十年にわたる生化学技術の進化は、これまでよりもはるかに低いコストでゲノムデータを高速に生成する、次世代シーケンシング(NGS)プラットフォームをもたらした。そのような圧倒的に大量のシーケンシングされたDNAは、アノテーションが困難なままである。教師あり機械学習アルゴリズムは通常、大量のラベリングされたデータが利用可能であるときには性能を発揮する。バイオインフォマティクスおよび多くの他のデータリッチな訓練法では、インスタンスをラベリングするプロセスが高価である。しかしながら、ラベリングされていないインスタンスは、安価であり容易に利用可能である。ラベリングされたデータの量が比較的少なく、ラベリングされていないデータの量がかなり多いシナリオでは、半教師あり学習が、手動のラベリングに対する費用対効果の高い代替手法となる。

バリアントの病原性を正確に予測する深層学習ベースの病原性分類器を構築するために、半教師ありアルゴリズムを使用する機会が生じる。人間の診断バイアスがない病原性バリアントのデータベースを得ることができる。

病原性分類器に関して、深層ニューラルネットワークは、高水準の特徴を連続的にモデル化するために複数の非線形の複雑な変換層を使用する、あるタイプの人工ニューラルネットワークである。深層ニューラルネットワークは、観測される出力と予測される出力との差を搬送する逆伝播を介してフィードバックを提供し、パラメータを調整する。深層ニューラルネットワークは、大きな訓練データセット、並列および分散コンピューティングの能力、および洗練された訓練アルゴリズムが利用可能になることとともに進化してきた。深層ニューラルネットワークは、コンピュータビジョン、音声認識、および自然言語処理などの、多数の領域において大きな進化を促進してきた。

畳み込みニューラルネットワーク(CNN)および再帰型ニューラルネットワーク(RNN)は、深層ニューラルネットワークの構成要素である。畳み込みニューラルネットワークは、畳み込み層、非線形層、およびプーリング層を備えるアーキテクチャにより、画像認識において特に成功してきた。再帰型ニューラルネットワークは、パーセプトロン、長短期メモリユニット、およびゲート付き回帰型ユニットのようなビルディングブロックの間で、巡回接続を用いて入力データの連続的情報を利用するように設計される。加えて、深層空間時間ニューラルネットワーク、多次元再帰型ニューラルネットワーク、および畳み込みオートエンコーダなどの、多くの他の新興の深層ニューラルネットワークが、限られた文脈に対して提案されている。

深層ニューラルネットワークを訓練する目的は、各層における重みパラメータの最適化であり、このことは、最も適した階層的表現をデータから学習できるように、より単純な特徴を複雑な特徴へと徐々に合成する。最適化プロセスの単一のサイクルは次のように編成される。まず、ある訓練データセットのもとで、フォワードパスが各層の中の出力を順番に計算し、ネットワークを通じて関数信号を前に伝播させる。最後の出力層において、目的損失関数が、推論された出力と所与のラベルとの間の誤差を測定する。訓練誤差を最小にするために、バックワードパスは、連鎖律を逆伝播誤差信号に使用し、ニューラルネットワーク全体のすべての重みに関する勾配を計算する。最後に、重みパラメータは、確率的勾配降下に基づく最適化アルゴリズムを使用して更新される。一方、バッチ勾配降下は、各々の完全なデータセットに対するパラメータ更新を実行し、確率的勾配降下は、データ例の各々の小さいセットに対する更新を実行することによって確率的近似を提供する。いくつかの最適化アルゴリズムは、確率的勾配低下に由来する。たとえば、AdagradおよびAdam訓練アルゴリズムは、確率的勾配降下を実行しながら、それぞれ、各パラメータのための更新頻度および勾配のモーメントに基づいて学習率を適応的に修正する。

深層ニューラルネットワークの訓練における別のコア要素は正則化であり、これは、過剰適応を避けることで良好な一般化性能を達成することを意図した戦略を指す。たとえば、重み減衰は、重みパラメータがより小さい絶対値へと収束するように、目的損失関数にペナルティ項を追加する。ドロップアウトは、訓練の間にニューラルネットワークから隠れユニットをランダムに除去し、可能性のあるサブネットワークのアンサンブルであると見なされ得る。ドロップアウトの能力を高めるために、新しい活性化関数であるmaxoutと、rnnDropと呼ばれる再帰型ニューラルネットワークのためのドロップアウトの変形が提案されている。さらに、バッチ正規化は、ミニバッチ内の各活性化のためのスカラー特徴量の正規化と、各平均および分散をパラメータとして学習することとを通じた、新しい正則化方法を提供する。

シーケンシングされたデータが多次元かつ高次元であるとすると、深層ニューラルネットワークは、その広い適用可能性および高い予測能力により、バイオインフォマティクスの研究に対して高い将来性がある。畳み込みニューラルネットワークは、モチーフの発見、病原性バリアントの特定、および遺伝子発現の推論などの、ゲノミクスにおける配列に基づく問題を解決するために適合されてきた。畳み込みニューラルネットワークは、DNAを研究するのに特に有用である重み共有戦略を使用し、それは、この戦略が、重大な生物学的機能を有することが推定されるDNAにおける短い反復的なローカルパターンである配列モチーフを捉えることができるからである。畳み込みニューラルネットワークの特徴は、畳み込みフィルタの使用である。精巧に設計され人間により作られた特徴に基づく従来の分類手法とは異なり、畳み込みフィルタは、生の入力データを知識の有用な表現へとマッピングする処理と類似した、特徴の適応学習を実行する。この意味で、畳み込みフィルタは一連のモチーフスキャナとして機能し、それは、そのようなフィルタのセットが、入力の中の関連するパターンを認識し、訓練手順の間にそれらを更新することが可能であるからである。再帰型ニューラルネットワークは、タンパク質またはDNA配列などの、可変の長さの連続的データにおける長距離の依存関係を捉えることができる。

したがって、バリアントの病原性を予測するための強力な計算モデルには、基礎科学研究と橋渡し研究の両方に対して莫大な利益があり得る。

一般的な多型は、多世代の自然選択によりその健康性が試されてきた自然の実験結果を表している。ヒトのミスセンス置換と同義置換についてアレル頻度分布を比較すると、ヒト以外の霊長類の種における高いアレル頻度でのミスセンスバリアントの存在は、そのバリアントがヒトの集団においても自然選択を受けていることを高い信頼度で予測することを発見した。対照的に、より遠縁の種における一般的なバリアントは、進化的な距離が長くなるにつれて、負の選択を受ける。

配列だけを使用して臨床的なde novoミスセンス変異を正確に分類する、半教師あり深層学習ネットワークを訓練するために、ヒト以外の6種の霊長類の種からの一般的な変異を利用する。500を超える既知の種により、霊長類の系統は、有意性が知られていない大半のヒトバリアントの影響を系統的にモデル化するのに、十分な一般的な変異を含んでいる。

ヒト基準ゲノムには、7000万個のタンパク質を変化させる可能性のあるミスセンス置換が隠れており、それらの大半は、ヒトの健康への影響が特性把握されていない稀な変異である。これらの有意性が知られていないバリアントは、臨床上の応用においてゲノム解釈の課題となっており、集団全体にわたるスクリーニングおよび個別化医療のためのシーケンシングの長期的な採用の障害である。

多様なヒトの集団にわたる一般的な変異の目録を作ることが、臨床的に良性の変異を特定するのに有効な戦略であるが、現代のヒトから入手可能な一般的な変異は、我々の種の遠い過去におけるボトルネック事象により限られている。ヒトとチンパンジーは99%の配列相同性を共有しており、これは、チンパンジーバリアントに対して働く自然選択が、ヒトにおいて同一状態であるバリアントの影響をモデル化することの可能性を示唆している。ヒトの集団における自然な多型に対する平均合祖時間は、種の分岐時間の一部であるので、自然に発生するチンパンジー変異は大部分が、平衡選択により維持されるハプロタイプの稀な事例を除き、ヒト変異と重複しない変異空間に及ぶ。

60706人のヒトからの集約されたエクソンデータが最近利用可能になったことで、ミスセンス変異と同義変異に対するアレル頻度スペクトラムを比較することによって、この仮説を検定することが可能になった。ExACにおけるシングルトンバリアントは、トリヌクレオチドコンテクストを使用して変異率を調整した後のde novo変異により予測される、予想される2.2:1のミスセンス:同義比とよく一致するが、より高いアレル頻度では、観察されるミスセンスバリアントの数は、自然選択による有害なバリアントの除去により減少する。アレル頻度スペクトラムにわたるミスセンス:同義比のパターンは、集団における頻度が0.1%未満であるミスセンスバリアントの大部分が軽度に有害である、すなわち、集団からの即刻の除去を保証するほど病原性が高くなく、高いアレル頻度で存在することが許容されるほど中立的でもないということを示しており、これはより限られた集団データに対する以前の観察と一致している。これらの発見は、0.1%～1%より高いアレル頻度を伴うバリアントを、平衡選択および創始者効果により引き起こされるよく記録されている少数の例外を除いて、浸透性の遺伝性疾患に対しては良性である可能性が高いものとして除去するという、診療室において広く行われている経験的な実践を支持するものである。

この分析を、一般的なチンパンジーバリアント(チンパンジー集団のシーケンシングにおいて1回よりも多く観察される)と同一状態であるヒトバリアントのサブセットについて繰り返すと、ミスセンス:同義比は、アレル頻度スペクトラムにわたって概ね一定であることを発見した。チンパンジーの集団におけるこれらのバリアントの高いアレル頻度は、これらのバリアントがチンパンジーの自然選択のふるいにすでにかけられてきたことを示し、ヒトの集団における健康へのそれらのバリアントの中立的な影響は、ミスセンスバリアントに対する選択圧力が2つの種において高度に合致していることの注目すべき証拠を与えている。チンパンジーにおいて観察されるより低いミスセンス:同義比は、軽度に有害なバリアントの効率的な除去を可能にする先祖のチンパンジーの集団におけるより大きい実効集団サイズと一貫している。

対照的に、稀なチンパンジーバリアント(チンパンジー集団のシーケンシングにおいて1回しか観察されない)は、より高いアレル頻度において、ミスセンス:同義比のあまり大きくない低下を示す。ヒト変異データからの同一サイズのコホートをシミュレートすると、このサイズのコホートにおいて一度観察されるバリアントの64%しか、集団全体において0.1%より高いアレル頻度を有せず、それと比べて、コホートにおいて複数回見られるバリアントについては99.8%が集団全体において0.1%より高いアレル頻度を有することが推定され、これは、稀なチンパンジーバリアントのすべてが選択のふるいにかけられたとは限らないことを示している。全体として、確認されたチンパンジーミスセンスバリアントの16%が、集団全体において0.1%未満のアレル頻度を有し、より高いアレル頻度では負の選択を受けることが推定される。

次に、他のヒト以外の霊長類の種(ボノボ、ゴリラ、オランウータン、アカゲザル、およびマーモセット)において観察される変異と同一状態であるヒトバリアントを特徴付ける。チンパンジーと同様に、少数の稀なバリアント(約5～15%)の包含によるものであると推測される高いアレル頻度におけるミスセンス変異のわずかな枯渇を除き、ミスセンス:同義比がアレル頻度スペクトラムにわたって概ね等しいことを認めた。これらの結果は、ミスセンスバリアントに対する選択圧が、ヒトの祖先の系統から約3500万年前に分岐したと推定される新世界ザルまでは少なくとも、霊長類の系統内で概ね合致していることを示唆する。

他の霊長類におけるバリアントと同一状態であるヒトミスセンスバリアントは、ClinVarにおける良性の結果に対して強くエンリッチメントされる。未知のまたは矛盾するアノテーションを伴うバリアントを除いた後で、霊長類オーソログを伴うヒトバリアントは、ClinVarにおいて良性または良性の可能性が高いものとしてアノテートされる確率が約95%であり、それと比較して、ミスセンス変異全般では45%であることが観察される。ヒト以外の霊長類から病原性であるものとして分類されるClinVarバリアントの小さな割合は、健康なヒトの同様のサイズのコホートからの稀なバリアントを確認することにより観察されるであろう病原性のClinVarバリアントの割合と同程度である。大きなアレル頻度データベースの出現の前に分類を受けた、病原性であるまたは病原性である可能性が高いものとしてアノテートされたこれらのバリアントのかなりの割合が、今日では異なるように評価される可能性がある。

ヒトの遺伝学の分野は、ヒト変異の臨床上の影響を推論するためにモデル生物に長い間依存してきたが、大半の遺伝的に扱いやすい動物モデルまでの進化的距離が長いことで、これらの発見がヒトに対してどの程度一般化可能であるかについての懸念が生まれている。ヒトおよびより遠縁の種におけるミスセンスバリアントに対する自然選択の合致を調査するために、4種の追加の哺乳類の種(ネズミ、ブタ、ヤギ、ウシ)と2種のより遠縁の脊椎動物(ニワトリ、ゼブラフィッシュ)からの概ね一般的な変異を含めるように、霊長類の系統を超えて分析を拡張した。以前の霊長類の分析とは対照的に、進化的距離が遠い場合には特に、稀なアレル頻度と比較して一般的なアレル頻度ではミスセンス変異が顕著に枯渇していることが観察され、これは、より遠縁の種における一般的なミスセンス変異のかなりの割合が、ヒトの集団においては負の選択を受けるであろうことを示している。それでも、より遠縁の脊椎動物におけるミスセンスバリアントの観察は、良性の結果の確率を高め、それは、自然選択により枯渇した一般的なミスセンスバリアントの割合は、基準であるヒトミスセンスバリアントに対して約50%よりはるかに低い枯渇率であるからである。これらの結果と一致して、ネズミ、イヌ、ブタ、およびウシにおいて観察されたヒトミスセンスバリアントは、ClinVarにおいて良性または良性の可能性が高いものとしてアノテートされる確率が約85%であり、それと比較して、霊長類の変異に対しては95%、ClinVarデータベース全体に対しては45%であることを発見した。

様々な進化的距離にある近縁の種のペアの存在も、ヒトの集団における固定されたミスセンス置換の機能的な結果を評価するための機会を与える。哺乳類の系図上で近縁の種のペア(枝長<0.1)内で、固定されたミスセンス変異が、稀なアレル頻度と比較して一般的なアレル頻度で枯渇することが観察され、これは、複数の種にわたる固定された置換のかなりの割合が、霊長類の系統内であってもヒトにおいては非中立的であることを示している。ミスセンスの枯渇の程度の比較は、複数の種にわたる固定された置換が、同一種内の多型よりはるかに中立的ではないことを示している。興味深いことに、近縁の哺乳類間での複数の種にわたる変異は、同一種内の一般的な多型と比較して、ClinVarにおいてはさほどより病原性ではなく(良性または良性の可能性が高いものとしてアノテートされる確率が83%)、これらの変化がタンパク質の機能を無効にするのではなく、むしろ、種固有の適応的な利益を授けるタンパク質機能の調整を招いていることを示唆する。

有意性が知られてない多数の潜在的なバリアントがあること、および臨床上の応用には正確なバリアント分類が決定的に重要であることにより、機械学習を用いた問題の解決が多く試みられてきたが、これらの努力は、一般的なヒトバリアントの量が不十分であること、および精選されたデータベースにおけるアノテーションの品質が疑わしいことにより大きく制約されてきた。6種のヒト以外の霊長類からの変異は、一般的なヒト変異と重複せず大部分が良性の結果をもたらす300000個を超える固有のミスセンスバリアントに寄与し、機械学習手法に使用できる訓練データセットのサイズを大きく拡大した。

人間により加工された多数の特徴およびメタ分類器を利用するこれまでのモデルと異なり、対象のバリアントの側にあるアミノ酸配列および他の種におけるオーソロガスな配列アラインメントのみを入力として取り込む、単純な深層学習残差ネットワークを適用する。タンパク質構造についての情報をネットワークに提供するために、配列だけから二次構造および溶媒接触性を学習するように2つの別々のネットワークを訓練し、これらをサブネットワークとしてより大きな深層学習ネットワークに組み込み、タンパク質構造に対する影響を予測する。配列を開始点として使用することで、不完全に確認されている可能性がある、または矛盾して適用されている可能性がある、タンパク質構造および機能ドメインのアノテーションにおける存在し得るバイアスが回避される。

良性である可能性が高い霊長類バリアントと、変異率およびシーケンシングカバレッジについて一致するランダムな未知のバリアントとを分離するように、ネットワークのアンサンブルを最初に訓練することによって、訓練セットが良性のラベルを持つバリアントしか含まないという問題を克服するために、半教師あり学習を使用する。このネットワークのアンサンブルは、未知のバリアントの完全なセットをスコアリングするために、および、より病原性であるという予測される結果を持つ未知のバリアントに向かってバイアスをかけることによって分類器の次の反復をシードするように未知のバリアントの選択に影響を与えるために使用され、モデルが準最適な結果へと尚早に収束するのを防ぐために各反復において緩やかなステップをとる。

一般的な霊長類の変異はまた、メタ分類器の増殖により客観的に評価することが難しくなっている既存の方法を評価するための、以前に使用された訓練データとは完全に無関係であるクリーンな評価データセットを提供する。10000個の提供された霊長類の一般的なバリアントを使用して、4つの他の人気のある分類アルゴリズム(Sift、Polyphen2、CADD、M-CAP)とともに、我々のモデルの性能を評価した。すべてのヒトミスセンスバリアントの概ね50%は、一般的なアレル頻度では自然選択によって除去されるので、変異率によって、10000個の提供された霊長類の一般的なバリアントと一致したランダムに選ばれたミスセンスバリアントのセットに対して、各分類器について50パーセンタイルのスコアを計算し、その閾値を使用して、提出された霊長類の一般的なバリアントを評価した。我々の深層学習モデルの正確さは、ヒトの一般的なバリアントだけで訓練された深層学習ネットワークを使用しても、またはヒトの一般的なバリアントと霊長類のバリアントの両方を使用しても、この独立の評価データセットについて、他の分類器よりはるかに良好であった。

最近のトリオシーケンシング研究は、神経発達障害を持つ患者と患者の健康な兄弟における数千個のde novo変異の目録を作っており、症例群vs対照群におけるde novoミスセンス変異を分離する際の様々な分類アルゴリズムの強さの評価を可能にしている。4つの分類アルゴリズムの各々について、症例群vs対照群における各de novoミスセンスバリアントをスコアリングし、2つの分布の間の差のウィルコクソンの順位和検定からのp値を報告し、この臨床シナリオでは、霊長類バリアントについて訓練された深層学習方法(p約10^-33)が他の分類器(p約10^-13から10^-19)はるかに良好な性能であったことを示した。このコホートについて以前に報告された予想を超える、de novoミスセンスバリアントの約1.3-foldエンリッチメントから、およびミスセンスバリアントの約20%が機能喪失の影響を生むという以前の推定から、完璧な分類器はp約10^-40というp値で2つのクラスを分離することが予想される。

深度学習分類器の正確さは訓練データセットのサイズと符合し、6種の霊長類の各々からの変異データは独立に、分類器の正確さを上げることに寄与する。ヒト以外の霊長類の種が多数かつ多様にあることは、タンパク質を変化させるバリアントに対する選択圧力が霊長類の系統内で概ね合致していることを示す証拠とともに、臨床上のゲノム解釈を現在制約している、有意性が知られていない数百万個のヒトバリアントを分類するための効果的な戦略として、系統的な霊長類集団のシーケンシングを示唆する。504種の知られているヒト以外の霊長類の種のうち、約60%が狩猟および生息地喪失により絶滅に瀕しており、これらの固有の代わりのいない種と我々自身の両方に利益をもたらすであろう、緊急を要する世界的な保全の努力に対する動機となっている。

ゲノムデータ全体はエクソンデータほど集約された形では利用可能ではないが、深いイントロン領域における自然選択の影響を検出するための能力を制限することで、エクソン領域から遠く離れた隠れたスプライシング変異の観察されるカウントと予想されるカウントを計算することも可能になった。全体として、エクソンイントロン境界から50ntを超える距離にある隠れたスプライシング変異において、60%の欠失を認めた。信号の減衰は、エクソンと比較してゲノムデータ全体ではサンプルサイズがより小さいことと、深いイントロンバリアントの影響を予測することがより難しいこととの組合せによるものである可能性が高い。

［用語］
限定はされないが、特許、特許出願、論説、書籍、論文、およびウェブページを含む、本出願において引用されるすべての文献および同様の資料は、そのような文献および同様の資料のフォーマットとは無関係に、全体が参照によって明確に引用される。限定はされないが、定義される用語、用語の使用法、説明される技法などを含めて、引用される文献および同様の資料のうちの1つまたは複数が、本出願とは異なる場合、または本出願と矛盾する場合、本出願が優先する。

本明細書では、以下の用語は示される意味を有する。

塩基は、ヌクレオチド塩基またはヌクレオチド、すなわちA(アデニン)、C(シトシン)、T(チミン)、またはG(グアニン)を指す。

本出願は、「タンパク質」および「翻訳配列」という用語を交換可能に使用する。

本出願は、「コドン」および「塩基トリプレット」という用語を交換可能に使用する。

本出願は、「アミノ酸」および「翻訳単位」という用語を交換可能に使用する。

本出願は、「バリアント病原性分類器」、「バリアント分類のための畳み込みニューラルネットワークベースの分類器」、および「バリアント分類のための深層畳み込みニューラルネットワークベースの分類器」という語句を交換可能に使用する。

「染色体」という用語は、生きている細胞の遺伝情報を持っている遺伝子の担体を指し、これはDNAおよびタンパク質の構成要素(特にヒストン)を備えるクロマチン鎖に由来する。従来の国際的に認識されている個々のヒトゲノム染色体ナンバリングシステムが本明細書で利用される。

「サイト」という用語は、基準ゲノム上の一意な場所(たとえば、染色体ID、染色体の場所および向き)を指す。いくつかの実装形態では、サイトは、残基、配列タグ、または配列上のセグメントの場所であり得る。「座」という用語は、基準染色体上での核酸配列または多型の具体的な位置を指すために使用され得る。

本明細書の「サンプル」という用語は、典型的には、シーケンシングおよび/もしくはフェージングされるべき少なくとも1つの核酸配列を含有する核酸もしくは核酸の混合物を含有する、体液、細胞、組織、器官、または生物体に由来する、サンプルを指す。そのようなサンプルは、限定はされないが、唾液/口腔液、羊水、血液、血液の断片、細針生検サンプル(たとえば、直視下生検、細針生検など)、尿、腹膜液、胸膜液、組織外植、器官培養、および任意の他の組織もしくは細胞の標本、またはそれらの一部もしくはそれらの派生物、またはそれらから分離されたものを含む。サンプルはしばしば、ヒト対象(たとえば、患者)から取られるが、サンプルは、限定はされないが、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含む、染色体を有する任意の生物体から取ることができる。サンプルは、生物学的な供給源から得られるものとして直接使用されることがあり、または、サンプルの特性を修正するための前処理の後に使用されることがある。たとえば、そのような前処理は、血液から血漿を調製すること、粘液を希釈することなどを含み得る。前処理の方法はまた、限定はされないが、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸断片化、干渉する要素の不活性化、試薬の追加、溶解などを伴い得る。

「配列」という用語は、互いに結合されたヌクレオチドの鎖を含み、または表す。ヌクレオチドはDNAまたはRNAに基づき得る。1つの配列は複数の部分配列を含み得ることを理解されたい。たとえば、(たとえばPCRアンプリコン)の単一配列は350個のヌクレオチドを有し得る。サンプルリードは、これらの350個のヌクレオチド内の複数の部分配列を含み得る。たとえば、サンプルリードは、たとえば20～50個のヌクレオチドを有する、第1および第2のフランキング部分配列を含み得る。第1および第2のフランキング部分配列は、対応する部分配列(たとえば、40～100個のヌクレオチド)を有する反復的なセグメントの両側に位置し得る。フランキング部分配列の各々は、プライマー部分配列(たとえば、10～30個のヌクレオチド)を含み得る(またはその一部を含み得る)。読むのを簡単にするために、「部分配列」という用語は「配列」と呼ばれるが、2つの配列は必ずしも共通の鎖上で互いに別々であるとは限らないことを理解されたい。本明細書で説明される様々な配列を区別するために、配列は異なるラベル(たとえば、標的配列、プライマー配列、フランキング配列、基準配列など)を与えられ得る。「アレル」などの他の用語は、同様の物を区別するために異なるラベルを与えられ得る。

「ペアエンドシーケンシング(paired-end sequencing)」という用語は、標的フラグメントの両端をシーケンシングするシーケンシング方法を指す。ペアエンドシーケンシングは、ゲノム再配置および反復セグメント、ならびに遺伝子融合および新規転写物の検出を容易にし得る。ペアエンドシーケンシングの方法論は、各々が本明細書において参照によって引用される、国際特許出願公開第WO07010252号、国際特許出願第PCTGB2007/003798号、および米国特許出願公開第2009/0088327号において説明されている。一例では、一連の操作は次のように実行され得る。(a)核酸のクラスタを生成する。(b)核酸を直線化する。(c)第1のシーケンシングプライマーをハイブリダイゼーションし、上で記載されたような延長、走査、およびデブロッキングの繰り返されるサイクルを実行する。(d)相補的なコピーを合成することによってフローセル表面上の標的核酸を「逆にする」。(e)再合成された鎖を直線化する。(f)第2のシーケンシングプライマーをハイブリダイゼーションし、上で記載されたような延長、走査、およびデブロッキングの繰り返されるサイクルを実行する。この逆転操作は、ブリッジ増幅の単一サイクルについて上に記載されたように試薬を導入するために実行され得る。

「基準ゲノム」または「基準配列」という用語は、対象からの特定された配列の基準にするために使用され得る任意の生物体の任意の特定の既知のゲノム配列を、それが部分的なものであるか完全なものであるかにかかわらず指す。たとえば、ヒト対象ならびに多くの他の生物体のために使用される基準ゲノムは、ncbi.nlm.nih.govの米国国立生物工学情報センターにおいて見つかる。「ゲノム」は、核酸配列で表現される、生物体またはウイルスの完全な遺伝情報を指す。ゲノムは、遺伝子とDNAのノンコーディング配列の両方を含む。基準配列は、それとアラインメントされるリードより大きいことがある。たとえば、それは少なくとも約100倍大きいことがあり、または少なくとも約1000倍大きいことがあり、または少なくとも約10000倍大きいことがあり、または少なくとも約105倍大きいことがあり、または少なくとも約106倍大きいことがあり、または少なくとも約107倍大きいことがある。一例では、基準ゲノム配列は、完全な長さのヒトゲノムの基準ゲノム配列である。別の例では、基準ゲノム配列は、13番染色体などの特定のヒト染色体に限定される。いくつかの実装形態では、基準染色体は、ヒトゲノムバージョンhg19からの染色体配列である。そのような配列は染色体基準配列と呼ばれ得るが、基準ゲノムという用語がそのような配列を包含することが意図される。基準配列の他の例には、他の種のゲノム、ならびに任意の種の染色体、部分染色体領域(鎖など)などがある。様々な実装形態において、基準ゲノムは、複数の個体に由来するコンセンサス配列または他の組合せである。しかしながら、いくつかの適用例では、基準配列は特定の個体から取られることがある。

「リード」という用語は、ヌクレオチドサンプルまたは基準のフラグメントを記述する配列データの集合体を指す。「リード」という用語は、サンプルリードおよび/または基準リードを指し得る。通常、必須ではないが、リードは、サンプルまたは基準における連続的な塩基対の短い配列を表す。リードは、サンプルまたは基準フラグメントの塩基対配列によって文字で(ATCGで)表され得る。リードは、メモリデバイスに記憶され、リードが基準配列と一致するかどうか、または他の基準を満たすかどうかを決定するために適宜処理され得る。リードは、シーケンシング装置から直接、またはサンプルに関する記憶された配列情報から間接的に得られ得る。いくつかの場合、リードは、たとえば染色体またはゲノム領域または遺伝子にアラインメントされ具体的に割り当てられ得る、より大きい配列または領域を特定するために使用され得る、十分な長さの(たとえば、少なくとも約25bp)DNA配列である。

次世代シーケンシング方法には、たとえば、合成技術によるシーケンシング(Illumina)、パイロシーケンシング(454)、イオン半導体技術(Ion Torrentシーケンシング)、単一分子リアルタイムシーケンシング(Pacific Biosciences)、およびライゲーションによるシーケンシング(SOLiDシーケンシング)がある。シーケンシング方法に応じて、各リードの長さは、約30bpから10000bp以上にまで変動し得る。たとえば、SOLiDシーケンサを使用するIlluminaシーケンシング方法は、約50bpの核酸リードを生成する。別の例では、Ion Torrentシーケンシングは最高で400bpの核酸リードを生成し、454パイロシーケンシングは約700bpの核酸リードを生成し得る。さらに別の例では、単一分子リアルタイムシーケンシング方法は、10000bpから15000bpのリードを生成し得る。したがって、いくつかの実装形態では、核酸配列リードは、30～100bp、50～200bp、または50～400bpの長さを有する。

「サンプルリード」、「サンプル配列」、または「サンプルフラグメント」という用語は、サンプルからの対象のゲノム配列の配列データを指す。たとえば、サンプルリードは、フォワードプライマー配列およびリバースプライマー配列を有するPCRアンプリコンからの配列データを備える。配列データは、任意の配列選択方法から得られ得る。サンプルリードは、たとえば、sequencing-by-synthesis(SBS)反応、sequencing-by-ligation反応、または、そのために反復要素の長さおよび/または正体を決定することが望まれる任意の他の適切なシーケンシング方法からのものであり得る。サンプルリードは、複数のサンプルリードに由来するコンセンサス(たとえば、平均または加重)配列であり得る。いくつかの実装形態では、基準配列を提供することは、PCRアンプリコンのプライマー配列に基づいて対象座を特定することを備える。

「生フラグメント」という用語は、サンプルリードまたはサンプルフラグメント内で指定場所または二次的な対象場所と少なくとも部分的に重複する、対象のゲノム配列の部分に対する配列データを指す。生フラグメントの非限定的な例には、duplex stitchedフラグメント、simplex stitchedフラグメント、duplex un-stitchedフラグメント、およびsimplex un-stitchedフラグメントがある。「生」という用語は、生フラグメントがサンプルリードの中の潜在的なバリアントに対応しそれが本物であることを証明または確認する、支持バリアントを呈するかどうかにかかわらず、サンプルリードの中の配列データに対する何らかの関連を有する配列データを含むことを示すために使用される。「生フラグメント」という用語は、フラグメントが、サンプルリードの中のバリアントコールを妥当性確認する支持バリアントを必ず含むことを示さない。たとえば、サンプルリードが第1のバリアントを呈することが、バリアントコールアプリケーションによって決定されるとき、バリアントコールアプリケーションは、1つまたは複数の生フラグメントが、サンプルリードの中にそのバリアントがあるとすれば存在することが予想され得る対応するタイプの「支持」バリアントを欠いていることを決定し得る。

「マッピング」、「アラインメントされる」、「アラインメント」、または「アラインメントしている」という用語は、リードまたはタグを基準配列と比較し、それにより、基準配列がリード配列を含むかどうかを決定するプロセスを指す。基準配列がリードを含む場合、リードは、基準配列にマッピングされることがあり、またはいくつかの実装形態では、基準配列の中の特定の位置にマッピングされることがある。いくつかの場合、アラインメントは単に、リードが特定の基準配列のメンバーであるかどうか(すなわち、リードが基準配列の中に存在するかしないか)を伝える。たとえば、ヒト13番染色体の基準配列に対するリードのアラインメントは、リードが13番染色体の基準配列の中に存在するかどうかを伝える。この情報を提供するツールは、セットメンバーシップテスターと呼ばれ得る。いくつかの場合、アラインメントは追加で、リードまたはタグがマッピングする基準配列の中の位置を示す。たとえば、基準配列がヒトゲノム配列全体である場合、アラインメントは、リードが13番染色体上に存在することを示すことがあり、さらに、リードが13番染色体の特定の鎖および/またはサイトにあることを示すことがある。

「インデル」という用語は、生物体のDNAにおける塩基の挿入および/または欠失を指す。マイクロインデルは、1～50個のヌクレオチドの正味の変化をもたらすインデルを表す。ゲノムのコーディング領域において、インデルの長さが3の倍数ではない限り、インデルはフレームシフト変異を生み出す。インデルは点変異と対比され得る。インデルは配列からヌクレオチドを挿入または削除するが、点変異はDNAの全体の数を変えることなくヌクレオチドのうちの1つを置き換えるある形式の置換である。インデルは、タンデム塩基変異(TBM)とも対比することができ、TBMは隣接するヌクレオチドにおける置換として定義され得る(主に2つの隣接するヌクレオチドにおける置換、しかし3つの隣接するヌクレオチドにおける置換が観察されている)。

「バリアント」という用語は、核酸基準と異なる核酸配列を指す。典型的な核酸配列バリアントには、限定はされないが、一塩基多型(SNP)、短い欠失および挿入の多型(インデル)、コピー数変異(CNV)、マイクロサテライトマーカー、またはショートタンデムリピートおよび構造変異がある。体細胞バリアントコーリング(somatic variant calling)は、DNAサンプルにおいて低頻度に存在するバリアントを特定するための試みである。体細胞バリアントコーリングは、癌治療の文脈において関心の対象である。癌はDNAの変異の蓄積により引き起こされる。腫瘍からのDNAサンプルは一般に異質であり、いくつかの正常細胞、癌進行の早期段階にあるいくつかの細胞(少数の変異を伴う)、およびいくつかの後期段階の細胞(多数の変異を伴う)を含む。この異質さにより、(たとえば、FFPEサンプルから)腫瘍をシーケンシングするとき、体細胞突然変異がしばしば低頻度で現れる。たとえば、ある所与の塩基を含むリードの10%だけにおいて、SNVが見られることがある。バリアント分類器によって体細胞性または生殖細胞性であると分類されるべきバリアントは、「検定対象バリアント(variant under test)」とも本明細書では呼ばれる。

「ノイズ」という用語は、シーケンシングプロセスおよび/またはバリアントコールアプリケーションにおける1つまたは複数のエラーに起因する誤ったバリアントコールを指す。

「バリアント頻度」という用語は、割合または百分率で表される、ある集団の中の特定の座におけるアレル(遺伝子のバリアント)の相対的な頻度を表す。たとえば、この割合または百分率は、そのアレルを持つ集団の中のすべての染色体の割合であり得る。例として、サンプルバリアント頻度は、ある個人からの対象のゲノム配列について取得されたリードおよび/またはサンプルの数に対応する「集団」にわたる、対象のゲノム配列に沿った特定の座/場所におけるアレル/バリアントの相対的な頻度を表す。別の例として、基準バリアント頻度は、1つまたは複数の基準ゲノム配列に沿った特定の座/場所におけるアレル/バリアントの相対的な頻度を表し、リードおよび/またはサンプルの数に対応する「集団」は、正常な個人の集団からの1つまたは複数の基準ゲノム配列について取得される。

「バリアントアレル頻度(VAF)」という用語は、標的場所における、バリアントと一致することが観察されたシーケンシングされたリードをカバレッジ全体で割った百分率を指す。VAFはバリアントを持つシーケンシングされたリードの比率の尺度である。

「場所」、「指定場所」、および「座」という用語は、ヌクレオチドの配列内の1つまたは複数のヌクレオチドの位置または座標を指す。「場所」、「指定場所」、および「座」という用語は、ヌクレオチドの配列の中の1つまたは複数の塩基対の位置または座標も指す。

「ハプロタイプ」という用語は、一緒に受け継がれる染色体上の隣接するサイトにおけるアレルの組合せを指す。ハプロタイプは、所与の座のセット間で組み換え事象が発生した場合にはその数に依存して、1つの座、いくつかの座、または染色体全体であり得る。

本明細書の「閾値」という用語は、サンプル、核酸、またはその一部(たとえば、リード)を特徴付けるためにカットオフとして使用される、数値または数字ではない値を指す。閾値は経験的な分析に基づいて変動し得る。閾値は、そのような値の示唆をもたらす源がある特定の方式で分類されるべきであるかどうかを決定するために、測定された値または計算された値と比較され得る。閾値は経験的または分析的に特定され得る。閾値の選択は、ユーザが分類を行うために有することを望む信頼性のレベルに依存する。閾値は特定の目的で(たとえば、感度と選択度のバランスをとるように)選ばれ得る。本明細書では、「閾値」という用語は、分析のコースが変更され得る点、および/または活動が惹起され得る点を示す。閾値は所定の数である必要はない。代わりに、閾値は、たとえば、複数の要因に基づく関数であり得る。閾値は状況に適応するものであり得る。その上、閾値は、上限、下限、または制限値間の範囲を示し得る。

いくつかの実装形態では、シーケンシングデータに基づく尺度またはスコアが閾値と比較され得る。本明細書では、「尺度」または「スコア」という用語は、シーケンシングデータから決定された値もしくは結果を含むことがあり、または、シーケンシングデータから決定された値もしくは結果に基づく関数を含むことがある。閾値と同様に、尺度またはスコアは状況に適応するものであり得る。たとえば、尺度またはスコアは正規化された値であり得る。スコアまたは尺度の例として、1つまたは複数の実装形態は、データを分析するときにカウントスコアを使用し得る。カウントスコアはサンプルリードの数に基づき得る。サンプルリードは1つまたは複数のフィルタリング段階を経ていることがあるので、サンプルリードは少なくとも1つの一般的な特性または品質を有する。たとえば、カウントスコアを決定するために使用されるサンプルリードの各々は、基準配列とアラインメントされていることがあり、または潜在的なアレルとして割り当てられることがある。一般的な特性を有するサンプルリードの数はリードカウントを決定するためにカウントされ得る。カウントスコアはリードカウントに基づき得る。いくつかの実装形態では、カウントスコアはリードカウントに等しい値であり得る。他の実装形態では、カウントスコアはリードカウントおよび他の情報に基づき得る。たとえば、カウントスコアは、遺伝子座の特定のアレルに対するリードカウントおよび遺伝子座に対するリードの総数に基づき得る。いくつかの実装形態では、カウントスコアは、遺伝子座に対するリードカウントおよび以前に得られたデータに基づき得る。いくつかの実装形態では、カウントスコアは複数の所定の値の間の正規化されたスコアであり得る。カウントスコアはまた、サンプルの他の座からのリードカウントの関数、または対象サンプルと同時に実行された他のサンプルからのリードカウントの関数であり得る。たとえば、カウントスコアは、特定のアレルのリードカウントおよびサンプルの中の他の座のリードカウントおよび/または他のサンプルからのリードカウントの関数であり得る。一例として、他の座からのリードカウントおよび/または他のサンプルからのリードカウントが、特定のアレルに対するカウントスコアを正規化するために使用され得る。

「カバレッジ」または「フラグメントカバレッジ」という用語は、配列の同じフラグメントに対するサンプルリードの数のカウントまたは他の尺度を指す。リードカウントは対応するフラグメントをカバーするリードの数のカウントを表し得る。あるいは、カバレッジは、履歴の知識、サンプルの知識、座の知識などに基づく指定された係数を、リードカウントと乗じることによって決定され得る。

「リード深さ」(慣習的に「×」が後に続く数)という用語は、標的場所における重複するアラインメントを伴うシーケンシングされたリードの数を指す。これはしばしば、平均として、または間隔(エクソン、遺伝子、またはパネルなど)のセットにわたってカットオフを超える百分率として表される。たとえば、パネル平均カバレッジが1.105×であり、カバーされる標的塩基の98%が>100×であるということを、臨床報告が述べることがある。

「塩基コール品質スコア」または「Qスコア」という用語は、単一のシーケンシングされた塩基が正しい確率に反比例する、0～20の範囲のPHREDスケーリングされた確率を指す。たとえば、Qが20であるT塩基コールは、0.01という信頼性P値を伴い正しい可能性が高いと見なされる。Q<20であるあらゆる塩基コールは低品質であると見なされるべきであり、バリアントを支持するシーケンシングされたリードのかなりの部分が低品質であるようなあらゆる特定されたバリアントは、偽陽性の可能性があると見なされるべきである。

「バリアントリード」または「バリアントリード数」という用語は、バリアントの存在を支持するシーケンシングされたリードの数を指す。

［シーケンシングプロセス］
本明細書に記載される実装形態は、配列の変異を特定するために核酸配列を分析することに適用可能であり得る。実装形態は、遺伝子の場所/座の潜在的なバリアント/アレルを分析し、遺伝子座の遺伝子型を決定するために、言い換えると、座に対する遺伝子型コールを提供するために使用され得る。例として、核酸配列は、米国特許出願公開第2016/0085910号および米国特許出願公開第2013/0296175号において説明される方法およびシステムに従って分析されることがあり、これらの出願公開の完全な主題の全体が、本明細書において参照によって明確に引用される。

一実装形態では、シーケンシングプロセスは、DNAなどの核酸を含む、または含むことが疑われるサンプルを受け取ることを含む。サンプルは、動物(たとえばヒト)、植物、バクテリア、または菌類などの、既知のまたは未知の源からのものであり得る。サンプルは源から直接採取され得る。たとえば、血液または唾液が個体から直接採取され得る。代わりに、サンプルは源から直接採取されないことがある。次いで、1つまたは複数のプロセッサは、シーケンシングのためのサンプルを調製するようにシステムに指示する。この調製は、外来の物質を除去することおよび/または何らかの物質(たとえば、DNA)を隔離することを含み得る。生体サンプルは、特定のアッセイのための特徴を含むように調製され得る。たとえば、生体サンプルは、sequencing-by-synthesis(SBS)のために調製され得る。いくつかの実装形態では、調製することは、ゲノムのいくつかの領域の増幅を含み得る。たとえば、調製することは、STRおよび/またはSNRを含むことが知られている所定の遺伝子座を増幅することを含み得る。遺伝子座は、所定のプライマー配列を使用して増幅され得る。

次に、1つまたは複数のプロセッサは、サンプルをシーケンシングするようにシステムに指示する。シーケンシングは、様々な既知のシーケンシングプロトコルを通じて実行され得る。特定の実装形態では、シーケンシングはSBSを含む。SBSでは、複数の蛍光ラベリングされたヌクレオチドが、光学基板の表面(たとえば、フローセルの中のチャネルを少なくとも部分的に画定する表面)上に存在する増幅されたDNAの複数のクラスタ(場合によっては数百万個のクラスタ)をシーケンシングするために使用される。フローセルはシーケンシングのための核酸サンプルを含むことがあり、ここでフローセルは適切なフローセルホルダ内に配置される。

核酸は、未知の標的配列に隣接する既知のプライマー配列を備えるように調製され得る。最初のSBSシーケンシングサイクルを開始するために、1つまたは複数の異なるようにラベリングされたヌクレオチド、およびDNAポリメラーゼなどが、流体サブシステムによってフローセルの中へと/フローセルを通って流され得る。単一のタイプのヌクレオチドが一度に追加されるか、または、シーケンシング手順において使用されるヌクレオチドが反転可能な末端の性質を持つように特別に設計されるかのいずれかであってよく、これにより、シーケンシング反応の各サイクルが、いくつかのタイプのラベリングされたヌクレオチド(たとえば、A、C、T、G)の存在下で同時に発生することが可能になる。ヌクレオチドは、蛍光色素などの検出可能なラベル部分を含み得る。4つのヌクレオチドが一緒に混合される場合、ポリメラーゼは組み込むべき正しい塩基を選択することが可能であり、各配列は一塩基だけ延長される。組み込まれないヌクレオチドは、洗浄液をフローセルに流すことによって洗い落とされ得る。1つまたは複数のレーザーが、核酸を励起して蛍光を誘導し得る。核酸から放出される蛍光は組み込まれた塩基の蛍光色素に基づき、異なる蛍光色素は異なる波長の放出光を放出し得る。デブロッキング試薬が、延長され検出されたDNA鎖から反転可能な末端グループを除去するためにフローセルに追加され得る。次いでデブロッキング試薬が、洗浄液をフローセルに流すことによって洗い落とされ得る。そうすると、フローセルは、上に記載されたようなラベリングされたヌクレオチドの導入で開始するシーケンシングのさらなるサイクルの準備ができる。流体および検出の操作は、シーケンシングの実行を完了するために何回か繰り返され得る。例示的なシーケンシング方法は、たとえば、Bentley他、Nature 456:53-59(2008)、国際特許出願公開第WO 04/018497号、米国特許第7057026号、国際特許出願公開第WO 91/06678号、国際特許出願公開第WO 07/123744号、米国特許第7329492号、米国特許第7211414号、米国特許第7315019号、米国特許第7405281号、および米国特許出願公開第2008/0108082号において説明されており、これらの各々が参照によって本明細書において引用される。

いくつかの実装形態では、核酸は表面に付着され、シーケンシングの前または間に増幅され得る。たとえば、増幅は、表面上に核酸クラスタを形成するためにブリッジ増幅を使用して行われ得る。有用なブリッジ増幅方法は、たとえば、米国特許第5641658号、米国特許出願公開第2002/0055100号、米国特許第7115400号、米国特許出願公開第2004/0096853号、米国特許出願公開第2004/0002090号、米国特許出願公開第2007/0128624号、および米国特許出願公開第2008/0009420号において説明されており、これらの各々の全体が参照によって本明細書において引用される。表面上で核酸を増幅するための別の有用な方法は、たとえば、Lizardi他、Nat. Genet. 19:225-232(1998)、および米国特許出願公開第2007/0099208A1号において説明されるようなローリングサークル増幅(RCA)であり、これらの各々が参照によって本明細書において引用される。

1つの例示的なSBSプロトコルは、たとえば、国際特許出願公開第WO 04/018497号、米国特許出願公開第2007/0166705A1号、および米国特許第7057026号において説明されるような、除去可能な3'ブロックを有する修正されたヌクレオチドを利用し、これらの各々が参照によって本明細書において引用される。たとえば、SBS試薬の反復されるサイクルが、たとえばブリッジ増幅プロトコルの結果として、標的核酸が付着されたフローセルに導入され得る。核酸クラスタは、直線化溶液を使用して単鎖の形態へと変換され得る。直線化溶液は、たとえば、各クラスタの1本の鎖を開裂することが可能な制限エンドヌクレアーゼを含み得る。とりわけ化学開裂(たとえば、過ヨード酸塩を用いたジオール結合の開裂)、熱またはアルカリへの曝露によるエンドヌクレアーゼ(たとえば、米国マサチューセッツ州イプスウィッチのNEBにより供給されるような「USER」、部品番号M5505S)を用いた開裂による無塩基サイトの開裂、そうされなければデオキシリボヌクレオチドからなる増幅産物へと組み込まれるリボヌクレオチドの開裂、光化学開裂またはペプチドリンカーの開裂を含む、開裂の他の方法が、制限酵素またはニッキング酵素に対する代替として使用され得る。直線化操作の後で、シーケンシングプライマーは、シーケンシングされるべき標的核酸へのシーケンシングプライマーのハイブリダイゼーションのための条件下で、フローセルに導入され得る。

次いで、フローセルが、単一のヌクレオチドの追加によって各標的核酸にハイブリダイゼーションされるプライマーを延長するための条件下で、除去可能な3'ブロックおよび蛍光ラベルを伴う修正されたヌクレオチドを有するSBS延長試薬と接触させられ得る。単一のヌクレオチドだけが各プライマーに追加され、それは、修正されたヌクレオチドが、シーケンシングされているテンプレートの領域と相補的な成長中のポリヌクレオチド鎖へと組み込まれると、さらなる配列延長を指示するために利用可能な自由な3'-OH基がないので、ポリメラーゼがさらなるヌクレオチドを追加できないからである。SBS延長試薬は、除去され、放射線による励起のもとでサンプルを保護する構成要素を含む走査試薬により置き換えられ得る。走査試薬の例示的な構成要素は、米国特許出願公開第2008/0280773A1号および米国特許出願第13/018255号において説明され、これらの各々が参照によって本明細書に引用される。次いで、延長された核酸が、走査試薬の存在下で蛍光により検出され得る。蛍光が検出されると、3'ブロックが、使用されるブロッキンググループに適切なデブロック試薬を使用して除去され得る。それぞれのブロッキンググループに対して有用な例示的なデブロック試薬は、国際特許出願公開第WO004018497号、米国特許出願公開第2007/0166705A1号、および米国特許第7057026号において説明されており、これらの各々が参照によって本明細書において引用される。デブロック試薬は、3'OH基を有する延長されたプライマーにハイブリダイゼーションされる標的核酸を残して洗浄されてよく、このプライマーはこれで、さらなるヌクレオチドの追加が可能になる。したがって、延長試薬、走査試薬、およびデブロック試薬を追加するサイクルは、操作のうちの1つまたは複数の間の任意選択の洗浄とともに、所望の配列が得られるまで繰り返され得る。上記のサイクルは、修正されたヌクレオチドの各々に異なるラベルが付けられているとき、特定の塩基に対応することが知られている、サイクルごとに単一の延長試薬導入操作を使用して行われ得る。異なるラベルが、各組み込み操作の間に追加されるヌクレオチドの区別を容易にする。代わりに、各サイクルは、延長試薬導入の別個の操作と、それに続く走査試薬導入と検出の別
個の操作とを含むことがあり、この場合、ヌクレオチドのうちの2つ以上が同じラベルを有することが可能であり、それらを導入の既知の順序に基づいて区別することができる。

シーケンシング操作は特定のSBSプロトコルに関して上で論じられたが、シーケンシングのための他のプロトコルおよび様々な他の分子分析法のいずれもが、必要に応じて行われ得ることが理解されるであろう。

次いで、システムの1つまたは複数のプロセッサは、後続の分析のためのシーケンシングデータを受け取る。シーケンシングデータは、.BAMファイルなどの様々な方式でフォーマットされ得る。シーケンシングデータは、たとえばいくつかのサンプルリードを含み得る。シーケンシングデータは、ヌクレオチドの対応するサンプル配列を有する複数のサンプルリードを含み得る。1つだけのサンプルリードが論じられるが、シーケンシングデータは、たとえば、数百個、数千個、数十万個、または数百万個のサンプルリードを含み得ることを理解されたい。異なるサンプルリードは異なる数のヌクレオチドを有し得る。たとえば、サンプルリードは、10個のヌクレオチドから約500個以上のヌクレオチドにまでわたり得る。サンプルリードは源のゲノム全体にわたり得る。一例として、サンプルリードは、疑わしいSTRまたは疑わしいSNPを有する遺伝子座などの、所定の遺伝子座の方を向いている。

各サンプルリードは、サンプル配列、サンプルフラグメント、または標的配列と呼ばれ得る、ヌクレオチドの配列を含み得る。サンプル配列は、たとえば、プライマー配列、フランキング配列、および標的配列を含み得る。サンプル配列内のヌクレオチドの数は、30個、40個、50個、60個、70個、80個、90個、100個以上を含み得る。いくつかの実装形態では、サンプルリード(またはサンプル配列)のうちの1つまたは複数は、少なくとも150個のヌクレオチド、200個のヌクレオチド、300個のヌクレオチド、400個のヌクレオチド、500個のヌクレオチド、またはそれより多くを含む。いくつかの実装形態では、サンプルリードは、1000個を超えるヌクレオチド、2000個を超えるヌクレオチド、またはそれより多くを含み得る。サンプルリード(またはサンプル配列)は、一端または両端にプライマー配列を含み得る。

次に、1つまたは複数のプロセッサは、シーケンシングデータを分析して、潜在的なバリアントコールおよびサンプルバリアントコールのサンプルバリアント頻度を取得する。この操作は、バリアントコールアプリケーションまたはバリアントコーラとも呼ばれ得る。したがって、バリアントコーラはバリアントを特定または検出し、バリアント分類器は検出されたバリアントを体細胞性または生殖細胞性であるものとして分類する。代替的なバリアントコーラが本明細書の実装形態に従って利用されることがあり、ここで、異なるバリアントコーラは、実行されているシーケンシング操作のタイプ、対象のサンプルの特徴などに基づき使用され得る。バリアントコールアプリケーションの1つの非限定的な例は、https://github.com/Illumina/Piscesにおいてホストされ、論説Dunn, TamsenおよびBerry, GwennおよびEmig-Agius, DorotheaおよびJiang, YuおよびIyer, AnitaおよびUdar, NitinおよびStromberg, Michael、(2017)、Pisces: An Accurate and Versatile Single Sample Somatic and Germline Variant Caller、595-595、10.1145/3107411.3108203において説明される、Illumina Inc.(カリフォルニア州サンディエゴ)によるPisces(商標)アプリケーションであり、上記の論説の完全な主題の全体が、参照によって本明細書において引用される。

［良性訓練セットの生成］
数百万個のヒトゲノムおよびエクソンがシーケンシングされているが、それらの臨床上の応用は、疾患を引き起こす変異を良性の遺伝的変異から区別することの難しさにより限られたままである。ここで我々は、他の霊長類の種における一般的なミスセンスバリアントが、ヒトにおいて大部分が臨床的に良性であることを実証し、病原性の変異が除去のプロセスによって系統的に特定されることを可能にする。6種のヒト以外の霊長類の種の集団シーケンシングからの数十万個の一般的なバリアントを使用して、88%の正確さで稀な疾患の患者における病原性の変異を特定し、ゲノムワイド有意性(genome-wide significance)で知的障害における14個の新たな遺伝子候補の発見を可能にする、深層ニューラルネットワークを訓練した。追加の霊長類の種からの一般的な変異の目録を作ることで、数百万個の有意性が不確かなバリアントに対する解釈が改善し、ヒトゲノムシーケンシングの臨床上の利用がさらに進む。

診断シーケンシングの臨床上の使用可能性は、ヒトの集団における稀な遺伝子バリアントを解釈しそれらの疾患リスクに対する影響を推測することが難しいことにより、限られている。臨床的に有意な遺伝子バリアントは、それらの健康に対する有害な影響により、集団において極めて稀である傾向があり、大半については、ヒトの健康に対する影響が決定されていない。臨床的な有意性が不確かであるこれらのバリアントが多数あること、およびそれらが稀であることは、個人化された医療および集団全体の健康スクリーニングに対するシーケンシングの採用に対する手強い障壁となっている。

大半の浸透性のメンデル性の疾患は集団において非常に有病率が低いので、集団における高頻度でのバリアントの観察は、良性の結果を支持する強い証拠である。多様なヒトの集団にわたって一般的な変異を評価することは、良性のバリアントの目録を作るための有効な戦略であるが、現生人類における一般的な変異の総数は、祖先の多様性の大部分が失われた我々の種の最近の歴史におけるボトルネック事象により、限られている。現生人類の集団の研究は、過去15000～65000年以内の10000人未満の個人という有効個体数(N_e)からの顕著な膨張を示しており、一般的な多型のプールが小さいことは、このサイズの集団における変異の容量が限られていることに由来する。基準ゲノムの中の7000万個の潜在的なタンパク質を変化させるミスセンス置換のうち、全体で0.1%を超える集団アレル頻度を持つものは、概ね1000個のうちの1個しか存在しない。

現生人類の集団以外では、チンパンジーが次に近い現存する種を構成し、99.4%のアミノ酸配列相同性を共有する。ヒトとチンパンジーにおけるタンパク質コーディング配列の近い相同性は、チンパンジーのタンパク質コーディングバリアントに対して作用する純化選択が、同一状態であるヒトの変異の健康に対する結果もモデル化し得ることを示唆する。

中立的な多型がヒトの祖先の系統(約4N_e世代)において持続する平均時間は、種の分岐時間(約600万年前)の一部であるので、自然に発生するチンパンジーの変異は、平衡選択により維持されるハプロタイプの稀な事例を除き、偶然を除いて大部分が重複しない変異空間に及ぶ。同一状態である多型が2つの種において同様に健康に影響する場合、チンパンジーの集団における高いアレル頻度でのバリアントの存在は、ヒトにおける良性の結果を示すはずであり、その良性の結果が純化選択によって確立されている既知のバリアントの目録を拡大する。実質的な追加の詳細は、参照により引用された出願に記載されている。

［深層学習ネットワークのアーキテクチャ］
参照により引用された出願により開示される一実装形態において、病原性予測ネットワークは、対象のバリアントを中心とする長さ51のアミノ酸配列と、二次構造および溶媒接触性ネットワーク(図2および図3)の出力とを、中心の場所において置換されるミスセンスバリアントとともに入力として取り込む。11種の霊長類のための1つの場所頻度行列と、霊長類を除く50種の哺乳類のための1つの場所頻度行列と、霊長類と哺乳類を除く38種の脊椎動物のための1つの場所頻度行列とを含む、3つの長さ51の場所頻度行列が、99種の脊椎動物の複数の配列アラインメントから生成される。

二次構造深層学習ネットワークは、各アミノ酸の場所における3状態の二次構造、すなわちαヘリックス(H)、βシート(B)、およびコイル(C)を予測する。溶媒接触性ネットワークは、各アミノ酸の場所における3状態の溶媒接触性、すなわち、埋もれている(buried)(B)、中間(intermediate)(I)、および露出している(exposed)(E)を予測する。両方のネットワークが、入力としてフランキングアミノ酸配列のみを取り込むことができ、Protein DataBankにおける既知の冗長ではない結晶構造からのラベルを使用して訓練することができる。事前訓練された3状態二次構造ネットワークおよび3状態溶媒接触性ネットワークへの入力のために、やはり長さが51であり深さが20である、すべての99種の脊椎動物に対する複数の配列アラインメントから生成された単一の長さ場所頻度行列を使用することができる。Protein DataBankからの既知の結晶構造についてネットワークを事前訓練した後で、二次構造および溶媒モデルに対する最終的な2つの層を除去することができ、ネットワークの出力は病原性モデルの入力に直接接続できる。3状態2次構造予測モデルについて達成される例示的な検定の正確さは79.86%であった。結晶構造を有していた約4000個のヒトタンパク質に対するDSSPとアノテートされた構造ラベルを使用するときと、予測される構造ラベルのみを使用するときとでニューラルネットワークの予測を比較すると、大きな差はなかった。

病原性予測のための我々の深層学習ネットワーク(PrimateAI)と、二次構造および溶媒接触性を予測するための深層学習ネットワークの両方が、残基ブロックのアーキテクチャを採用した。PrimateAIの詳細なアーキテクチャは、図3において説明されている。

図2は、本明細書で「PrimateAI」と呼ばれる、病原性予測のための深層残差ネットワークの例示的なアーキテクチャ200を示す。図2において、1Dは1次元畳み込み層を指す。予測される病原性は、0(良性)から1(病原性)までの目盛り上にある。ネットワークは、ヒトアミノ酸(AA)基準およびバリアントを中心とする代替配列(51個のAA)、99種の脊椎動物の種から計算された位置特定的重み行列(PWM)保存プロファイル、ならびに二次構造および溶媒接触性予測深層学習ネットワークの出力を入力として取り込み、この深層学習ネットワークは、3状態のタンパク質二次構造(ヘリックス-H、βシート-B、およびコイル-C)と、3状態の溶媒接触性(埋もれている-B、中間-I、および露出している-E)とを予測する。

図3は、病原性分類のための深層学習ネットワークアーキテクチャであるPrimateAIの概略図300を示す。モデルへの入力は、基準配列と置換されるバリアントを伴う配列との両方に対するフランキング配列の51個のアミノ酸(AA)と、霊長類、哺乳類、および脊椎動物のアラインメントからの3つの長さ51AAの位置特定的重み行列により表される保存率と、事前訓練された二次構造ネットワークおよび溶媒接触性ネットワークの出力(やはり長さは51AAである)とを含む。

［事前訓練による改善］
本開示では、過剰適合を低減するか、または弱め、訓練結果を改善するために病原性予測モデルを事前訓練することを紹介する。システムは、一実装形態によるシステムのアーキテクチャレベルの概略図100を示す図1を参照しつつ説明される。図1は、アーキテクチャ図であるので、説明のわかりやすさを高めるために詳細の一部は意図的に省かれている。図1の説明は、次のように編成されている。最初に、図の要素が説明され、続いてその相互接続が説明される。次いで、システム内の要素の使用についてより詳しく説明されている。

この段落では、図1に例示されているシステムのラベリングされた部分に名前を付けている。システムは、4つの訓練データセット、すなわち、病原性ミスセンス訓練例121、補足良性訓練例131、良性ミスセンス訓練例161、および補足良性訓練例181を備える。システムは、トレーナー114、テスター116、位置特定的頻度行列(PFM)計算器184、入力エンコーダ186、バリアント病原性予測モデル157、およびネットワーク155をさらに備える。補足良性訓練例131は、病原性ミスセンス訓練例121に対応し、したがって、破線によるボックス内に一緒に置かれる。同様に、補足良性訓練例181は、良性ミスセンス訓練例161に対応し、したがって、両方のデータセットが同じボックス内に示される。

システムは、対象のバリアントの側にあるアミノ酸配列と他の種におけるオーソロガスな配列アラインメントを入力として取る例示的なバリアント病原性予測モデル157としてPrimateAIにより記述される。病原性予測に対するPrimateAIモデルの詳細なアーキテクチャは、図3を参照して上で提示されている。アミノ酸配列の入力は、対象のバリアントを含む。「バリアント」という用語は、アミノ酸基準配列と異なるアミノ酸配列を指す。染色体のタンパク質コード領域内で特定の位置にあるトリヌクレオチド塩基配列(コドンとも称される)は、アミノ酸を表現する。61個のトリヌクレオチド配列組合せによって形成され得るアミノ酸は20種類ある。複数のコドンまたはトリヌクレオチド配列組合せは結果として同じアミノ酸を形成することができる。たとえば、コドン「AAA」および「AAG」は、リシンというアミノ酸(記号「K」でも示される)を表している。

アミノ酸配列バリアントは、単一ヌクレオチド多型(SNP)によって引き起こされ得る。SNPは、遺伝子内の特定の座に生じる単一ヌクレオチド内の変異であり、集団内で何らかの感知できる程度まで観察される(たとえば、>1%)。開示されている技術は、エクソンと呼ばれる遺伝子のタンパク質コード領域内に出現するSNPに集中している。SNPには、同義SNPとミスセンスSNPの2種類がある。同義SNPは、アミノ酸に対する第1のコドンを同じアミノ酸に対する第2のコドンに変えるタンパク質コードSNPの一種である。その一方でミスセンスSNPは、第1のアミノ酸に対する第1のコドンから第2のアミノ酸に対する第2のコドンへの変化を含む。

図6は、ミスセンスバリアントおよび対応する構成された同義バリアントに対する「タンパク質配列ペア」の一例600を提示している。「タンパク質配列ペア」または単純に「配列ペア」という語句は、基準タンパク質配列および代替タンパク質配列を指す。基準タンパク質配列は、基準コドンまたはトリヌクレオチド塩基によって表現される基準アミノ酸を含む。代替タンパク質配列は結果として、代替タンパク質配列が、基準タンパク質配列の基準アミノ酸を表現する基準コドン内に出現するバリアントにより生じるように代替コドンまたはトリヌクレオチド塩基によって表現される代替アミノ酸を含む。

図6において、我々は、ミスセンスバリアントに対応する補足良性同義カウンターパート訓練例(上では補足良性訓練例と称されている)の構成を提示している。ミスセンスバリアントは、病原性ミスセンス訓練例または良性ミスセンス訓練例であってよい。染色体1において位置5、6、および7(すなわち、5:7)にコドン「TTT」を有する基準アミノ酸配列を持つミスセンスバリアントに対するタンパク質配列ペアを考える。次に、SNPが同じ染色体において位置6に出現し、その結果代替配列が同じ位置、すなわち5:7にコドン「TCT」をもたらすと考える。基準配列内のコドン「TTT」は結果としてフェニルアラニン(F)というアミノ酸をもたらすが、代替アミノ酸配列内のコドン「TCT」は結果としてセリン(S)というアミノ酸をもたらす。図を簡単にするため、図6は、標的位置にある配列ペア内のアミノ酸および対応するコドンのみを示している。配列ペア内のフランキングアミノ酸およびそれぞれのコドンは図示されていない。訓練データセットにおいて、ミスセンスバリアントは病原性とラベリングされている(「1」とラベリングされている)。訓練中のモデルの過剰適合を低減するために、開示されている技術は、対応するミスセンスバリアントにカウンターパート補足良性訓練例を構成する。構成された補足良性訓練例に対する配列ペアの中の基準配列は、図6の左部分に示されているミスセンスバリアント内の基準配列と同じである。図6の右部分は、ミスセンスバリアントに対する基準配列の場合のように染色体1内の位置5:7における同じ基準配列コドン「TTT」との同義カウンターパートである補足良性訓練例を示している。同義カウンターパートに対して構成された代替配列は、位置番号7のところにSNPを有し、その結果コドン「TTC」がもたらされる。このコドンは結果として、同じ染色体内の同じ位置における基準配列にあるのと同じアミノ酸であるフェニルアラニン(F)を代替配列内にもたらす。同じ位置の同じ染色体内の2つの異なるコドンは、同じアミノ酸を表現し、したがって、同義カウンターパートは良性としてラベリングされる(または「0」とラベリングされる)。基準配列および代替配列内の同じ位置にある2つの異なるコドンは、標的位置で同じアミノ酸を表現する。良性カウンターパートはランダムには構成されず、その
代わりに、シーケンシングされた集団内で観察された同義バリアントから選択される。開示されている技術は、補足良性訓練例を構成して病原性ミスセンス訓練例と対比し、訓練中のバリアント病原性予測モデルの過剰適合を低減する。

補足良性訓練例は、同義である必要はない。開示されている技術は、同一のトリヌクレオチドコドンによって構成された、基準配列内にあるのと同じアミノ酸を代替配列内に有する補足良性訓練例も構成することができる。関連付けられている位置特定的頻度行列(PFM)は、アミノ酸が同義または同一コドンによって表現されるかどうかに関係なく、同一のアミノ酸配列に対して同じである。したがって、そのような補足訓練例は、訓練中のバリアント病原性予測モデルの過剰適合を低減する効果を有し、これは図6に提示されている同義カウンターパート訓練例における効果と同じである。

我々は、次に、図1に提示されているシステムの他の要素について説明する。トレーナー114は、図1に提示されている4つの訓練データセットを使用して、バリアント病原性予測モデルを訓練する。一実装形態において、バリアント病原性予測モデルは、畳み込みニューラルネットワーク(CNN)として実装される。CNNの訓練は、図5を参照しつつ上で説明されている。訓練中に、CNNは、入力データが特定の出力推定値になるように調整または訓練される。訓練は、出力推定値がグラウンドトゥルースに徐々に一致するかまたは近づくまで、出力推定値とグラウンドトゥルースの比較に基づき逆伝播を使用してCNNを調整することを含む。訓練に続き、テスター116は、テストデータセットを使用して、バリアント病原性予測モデルのベンチマークをとる。入力エンコーダ186は、基準および代替アミノ酸配列などのカテゴリ入力データを、バリアント病原性予測モデルへの入力として提供され得る形態に変換する。これは、図13の例示的基準および代替配列を使用してさらに説明される。

PFM計算器184は、位置特定的スコアリング行列(PSSM)または位置特定的重み行列(PWM)とも称される位置特定的頻度行列(PFM)を計算する。PFMは、図10および図11に示されているように各アミノ酸位置(横軸上)のすべてのアミノ酸(縦軸上)の頻度を指示する。開示されている技術は、3つのPFM、すなわち、霊長類、哺乳類、および脊椎動物について各々1つずつ計算する。3つのPFMの各々に対するアミノ酸配列の長さは、上流および下流の側に少なくとも25個のアミノ酸がある標的アミノ酸とともに51であるものとしてよい。PFMは、アミノ酸に対して20行、アミノ酸配列内のアミノ酸の位置に対して51列を有する。PFM計算器は、11種の霊長類に対するアミノ酸配列を有する第1のPFM、48種の哺乳類に対するアミノ酸配列を有する第2のPFM、および40種の脊椎動物に対するアミノ酸配列を有する第3のPFMを計算する。PFM内の細胞は、配列内の特定の位置のアミノ酸の出現のカウントである。3つのPFMに対するアミノ酸配列はアラインメントされる。これは、基準アミノ酸配列または代替アミノ酸配列内の各アミノ酸位置に対する霊長類、哺乳類、および脊椎動物のPFMの位置毎の計算の結果がアミノ酸位置が基準アミノ酸配列または代替アミノ酸配列内に出現するのと同じ順序で位置毎にまたは順序位置に基づき記憶されることを意味する。

開示されている技術は、初期訓練エポック、たとえば、2もしくは3もしくは5もしくは8もしくは10エポックまたは3から5、3から8、もしくは2から10エポックにおいて補足良性訓練例131および181を使用する。図7、図8、および図9は、事前訓練エポック中、訓練エポック中、および推論中の病原性予測モデルを例示している。図7は、約400,000の良性補足訓練例131が深層学習モデルから予測された約400,000の病原性バリアント121と組み合わされている事前訓練エポック1から5の説明図700を提示している。約100,000、200,000、または300,000などのより少ない良性補足訓練例が、病原性バリアントと組み合わせることができる。一実装形態において、病原性バリアントデータセットは、上で説明されているように約6800万個の合成バリアントからのランダムサンプルを使用して20サイクルで生成される。別の実装形態において、病原性バリアントデータセットは、約6800万個の合成バリアントから1サイクルで生成されてもよい。病原性バリアント121および補足良性訓練例131は、最初の5エポックでネットワークのアンサンブルへの入力として与えられる。同様に、約400,000の補足良性訓練例181は、事前訓練エポック中にアンサンブル訓練に対して約400,000の良性バリアント161と組み合わされる。約100,000、200,000、または300,000などのより少ない良性訓練例が、良性バリアントと組み合わせることができる。

補足良性データセット131および181は、図8の例800に示されているような訓練エポック6からnの残りに対する入力としては与えられない。ネットワークのアンサンブルの訓練は、病原性バリアントデータセットおよび良性バリアントデータセットで複数のエポックにわたって継続する。訓練は、所定の数の訓練エポックの後に、または終了条件に達したときに終了する。訓練されたネットワークは、図9の例900に示されているように合成バリアント810を評価するために推論時に使用される。訓練されたネットワークは、バリアントを病原性または良性として予測する。

次に、我々は、図10に例示されている、病原性ミスセンスバリアント訓練例1002(番号1000によって参照されている)のカウンターパートとして構成される例示的な補足良性訓練例1012に対するPFMを説明する。PFMは、訓練例に対して生成されるか、または参照される。訓練例に対するPFMは、基準配列の位置にのみ依存し、したがって、訓練例1002および1012は両方とも同じPFMを有する。たとえば、図10では、2つの訓練例が示されている。第1の訓練例1002は、病原性/ラベリングされていないバリアントである。第2の訓練例1012は、訓練例1002に対応するカウンターパート補足良性訓練例である。訓練例1002は、基準配列1002Rおよび代替配列1002Aを有する。第1のPFMは、基準配列1002Rの位置にのみ基づき訓練例1002についてアクセスされるか、または生成される。訓練例1012は、基準配列10012Rおよび代替配列1012Aを有する。例1002に対する第1のPFMは、例1012に再利用できる。PFMは、種の間の配列の保存の指示として、霊長類、哺乳類、および脊椎動物の99種など、複数の種からのアミノ酸配列を使用して計算される。ヒトは、PFMの計算において表される種に入っても入らなくてもよい。このPFMにおける細胞は、配列内の、種の間のアミノ酸の出現のカウントを含む。PFM1022は、PFMに対する開始点であり、これは訓練例における単一の配列のワンホット符号化を例示している。PFMが完全であるときに、99種の例について、種の間で完全に保存されている位置は、「1」の代わりに「99」の値を有する。部分的保存の結果として、この例では、足して99になる値を有する1つの列内の2つまたはそれ以上の行が得られる。基準および代替配列は、両方とも、同じPFMを有するが、それは、PFMが配列の中心位置にあるアミノ酸ではなく、全体的な配列位置に依存するからである。

次に、我々は、図10の例示的な基準配列内の位置を使用してPFM1012の決定を説明する。図10に示されているような病原性/ラベリングされていない訓練例1002および補足良性訓練例1012の両方に対する例示的な基準および代替アミノ酸配列は、51個のアミノ酸を有する。基準アミノ酸配列1002Rは、配列内の位置26(標的位置とも称される)に「R」によって表されるアルギニンというアミノ酸を有する。ヌクレオチドレベルでは、6個のトリヌクレオチド塩基またはコドン(CGT、CGC、CGA、CGG、AGA、およびAAG)のうちの1つはアミノ酸「R」を表現する。我々は、図を簡単にするためにこの例ではそれらのコドンを示さず、むしろPFMの計算に集中している。基準配列にアラインメントされ、位置26にアミノ酸「R」を有する99種のうちの1つからのアミノ酸配列(図示せず)を考察する。この結果、行「R」と列「26」との交差点のところで細胞内のPFM1022内の「1」の値が得られる。類似の値は、PFMのすべての列について決定される。2つのPFM(すなわち、病原性ミスセンスバリアント1002に対する基準配列1002RのPFMおよび補足良性訓練例1012に対する基準配列1012RのPFM)は同じであるが、例示を目的として、1つのPFM1022のみ示されている。これら2つのPFMは、関連するアミノ酸に対する病原性の対抗する例を表す。一方は病原性または「1」とラベリングされるが、他方は良性に対して「0」とラベリングされる。したがって、開示されている技術は、訓練中にこれらの例をモデルに提供することによって過剰適合を低減する。

我々は、訓練データセット内の良性ミスセンスバリアント161に対応する補足良性訓練例181の第2のセットを構成している。図11は、2つのPFMが例示的な良性ミスセンスバリアント1102および対応する補足良性訓練例1122について計算される例1100を提示している。例を見るとわかるように、基準配列1102Rおよび1112Rは、良性ミスセンスバリアント1102および補足良性訓練例1112の両方に対して同じである。それらのそれぞれの代替配列1102Aおよび1112Aも、図11に示されている。2つのPFMは、図10に提示されている例について上で説明されているように2つの基準配列に対して生成されるか、または参照される。PFMは両方とも同じであり、図11には例示を目的として1つのPFM1122だけが示されている。これらのPFMは両方とも、良性(「0」)とラベリングされたアミノ酸配列を表す。

開示されている技術は、3つのPFM、すなわち、11種の霊長類の配列、48種の哺乳類の配列、および40種の脊椎動物の配列について各々1つずつ計算する。図12は、3つのPFM1218、1228、および1238を示しており、各々20行および51列を有する。一実装形態において、霊長類の配列はヒトの基準配列を含まない。別の実装形態において、霊長類の配列はヒトの基準配列を含む。3つのPFMにおける細胞の値は、所与の位置(列ラベル)のところでPFMに対するすべての配列内に存在しているアミノ酸(行ラベル)の出現をカウントすることによって計算される。たとえば、3つの霊長類の配列が位置26にアミノ酸「K」を有する場合、行ラベル「K」および列ラベル「26」を持つ細胞の値は「3」という値を有する。

ワンホット符号化は、カテゴリ変数が深層学習モデルへの入力を提供され得る形態に変換されるプロセスである。カテゴリ変数は、データセット内のエントリに対する英数字値を表す。たとえば、基準および代替アミノ酸配列は各々51個のアミノ酸の文字を配列に配置構成したものである。配列内の位置「1」にあるアミノ酸の文字「T」は、配列内の第1の位置にあるアミノ酸であるトレオニンを表す。アミノ酸配列は、ワンホット符号化された表現において行ラベル「T」および列ラベル「1」を持つ細胞内に「1」の値を割り当てることによって符号化される。アミノ酸配列に対するワンホット符号化された表現は、特定の位置(列ラベル)に出現するアミノ酸(行ラベル)を表す細胞を除く細胞内で0を有する。図13は、補足良性訓練例に対する基準および代替配列がワンホット符号化されたものとして表される例1300を示している。基準および代替アミノ酸配列は、バリアント病原性予測モデルへのワンホット符号化された形態を入力として与えられる。図14は、バリアント病原性予測モデルへの入力を示す説明図1400を含む。入力は、ワンホット符号化された形態のヒト基準アミノ酸配列および代替アミノ酸配列、ならびに霊長類に対するPFM1218、哺乳類に対するPFM1228、および脊椎動物に対するPFM1238を含む。上で説明されているように、霊長類に対するPFMは、ヒト以外の霊長類またはヒトおよびヒト以外の霊長類のみを含むことができる。

訓練セットを補足するこのアプローチのバリエーションは、参照によって引用される出願において説明されているアーキテクチャおよび、他のデータタイプと組み合わせて、特にアミノ酸またはヌクレオチドの配列と組み合わせて、PFMを使用する他の任意のアーキテクチャの両方に適用される。

［結果］
ニューラルネットワークベースのモデル(たとえば、上に提示されているPrimateAI)の性能は、上に提示されている事前訓練エポックを使用することによって改善される。次の表には、例示的なテスト結果が提示されている。表の中の結果は、6つの見出しを付けてまとめられている。我々は、結果を提示する前に見出しについて簡単に説明する。「複製」列は、20回の複製試行に対する結果を提示している。各試行は、異なる乱数シードを使用する8個のモデルのアンサンブルであってよい。「精度」は、良性と分類されている10,000個の保留された霊長類良性バリアントの割合である。「Pvalue_DDD」は、影響を受けていない兄弟姉妹から発達障害を患っている影響を受けている子供のde novo変異がどれだけうまく分離されるかを評価するためのウィルコクソン順位検定の結果を提示している。「pvalue_605genes」は、この場合に我々が605個の疾病関係遺伝子内のde novo変異を使用したことを除くpvalue_DDDと類似の検定の結果を提示している。「Corr_RK_RW」は、RからKへのアミノ酸の変化とRからWへのアミノ酸の変化との間のprimateAIスコアの相関を提示している。Corr_RK_RWの小さい方の値は、よりよい性能を示す。「Pvalue_Corr」は、前の列内の相関のp値、すなわち、Corr_RK_RWを提示している。

これらの結果は、カットオフとして未知のバリアントの中央値スコアを使用する良性バリアントの予測の中央値精度が20回の複製試行で91.44%であることを示している。ウィルコクソン順位和検定の対数p値は、対照のde novoミスセンスバリアントからDDD患者のde novoミスセンスバリアントを分離することについて29.39である。同様に、順位和検定の対数p値は、605個の疾病遺伝子のみの中でde novoミスセンスバリアントを比較して16.18である。この測定基準は前に報告された結果より改善されている。R->KとR->Wとの間の相関は著しく低減され、ウィルコクソン順位和検定のp値=3.11e-70によって測定される。

［具体的な実装形態］
我々は、アミノ酸の配列および随伴する位置特定的頻度行列(PFM)を処理するニューラルネットワーク実装モデルを事前訓練するためのシステム、方法、および製造物品を説明する。実装形態の1つまたは複数の特徴は基本の実装形態と合成され得る。相互に排他的ではない実装形態は、合成可能であると教示される。実装形態の1つまたは複数の特徴は他の実装形態と合成され得る。本開示は定期的にこれらの選択肢をユーザに思い起こさせる。これらの選択肢を繰り返し述べる記載がいくつかの実装形態において省略されていることは、先行するセクションにおいて教示された合成を限定するものと解釈されるべきではなく、これらの記載は以後の実装形態の各々へと前方に参照によって組み込まれる。

開示されている技術のシステム実装形態は、メモリに結合されている1つまたは複数のプロセッサを含む。メモリは、アミノ酸の配列および随伴する位置特定的頻度行列(PFM)を処理するニューラルネットワーク実装モデルの過剰適合を低減するためのコンピュータ命令をロードされる。システムは、開始位置から標的アミノ酸位置を通り終了位置へ進む配置を含む良性とラベリングされた補足訓練例配列ペアを生成するためのロジックを備える。補足配列ペアは、ミスセンス訓練例配列ペアの開始位置および終了位置と一致する。これは、アミノ酸の基準および代替配列内に同一のアミノ酸を有する。システムは、各補足配列ペアとともに、一致する開始位置および終了位置におけるミスセンス訓練例配列ペアのPFMと同一の補足訓練PFMを入力するためのロジックを備える。システムは、良性訓練例配列ペアおよび補足訓練例PFM、ならびに一致する開始位置および終了位置におけるミスセンス訓練例配列ペアおよびミスセンス訓練例配列ペアのPFMを使用してニューラルネットワーク実装モデルを訓練するためのロジックを備える。訓練PFMの訓練の影響は、訓練中に弱められる。

このシステム実装形態および開示される他のシステムは任意選択で、以下の特徴のうちの1つまたは複数を含む。システムはまた、開示される方法に関連して説明される特徴を含み得る。簡潔にするために、システム特徴の代替的な組合せは個別に列挙されない。システム、方法、および製造物品に適用可能な特徴は、基本の特徴の各statutory classセットに対して繰り返されない。読者は、このセクションにおいて特定される特徴が他のstatutory classにおける基本の特徴とどのように容易に合成され得るかを理解するであろう。

システムは、各補足配列ペアが、良性ミスセンス訓練例配列ペアの開始位置および終了位置と一致するように補足配列ペアを構成するためのロジックを備えることができる。

システムは、各補足配列ペアが、病原性ミスセンス訓練例配列ペアの開始位置および終了位置と一致するように補足配列ペアを構成するためのロジックを備えることができる。

システムは、所定の数の訓練エポックの後に補足訓練例配列ペアおよび補足訓練PFMを使用するのを中止するようにニューラルネットワーク実装モデルの訓練を修正するためのロジックを備える。

システムは、3訓練エポックの後に補足訓練例配列ペアおよび補足訓練PFMを使用するのを中止するようにニューラルネットワーク実装モデルの訓練を修正するためのロジックを備える。

システムは、5訓練エポックの後に補足訓練例配列ペアおよび補足訓練PFMを使用するのを中止するようにニューラルネットワーク実装モデルの訓練を修正するためのロジックを備える。

補足訓練例配列ペアと病原性訓練例配列ペアとの比は、1:1から1:8の間であるものとしてよい。システムは、たとえば1:1から1:12、1:1から1:16、および1:1から1:24の間の範囲に対して異なる値を使用することができる。

補足訓練例配列ペアと良性訓練例配列ペアとの比は、1:2から1:8の間であるものとしてよい。システムは、たとえば1:1から1:12、1:1から1:16、および1:1から1:24の間の範囲に対して異なる値を使用することができる。

システムは、補足PFM、ヒト以外の霊長類および霊長類以外の哺乳類に対するデータからのアミノ酸位置を作成するためのロジックを備える。

他の実装形態は、上で説明されているシステムの機能を実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含み得る。さらに別の実装形態は、上で説明されているシステムの機能を実行する方法を含み得る。

開示されている技術の方法実装形態は、開始位置から標的アミノ酸位置を通り終了位置へ進む配置を含む良性とラベリングされた補足訓練例配列ペアを生成することを含む。各補足配列ペアは、ミスセンス訓練例配列ペアの開始位置および終了位置と一致する。これは、アミノ酸の基準および代替配列内に同一のアミノ酸を有する。方法は、各補足配列ペアとともに、一致する開始位置および終了位置におけるミスセンス訓練例配列ペアのPFMと同一の補足訓練PFMを入力することを含む。方法は、良性訓練例配列ペアおよび補足訓練例PFM、ならびにミスセンス訓練例配列ペア、ならびに一致する開始位置および終了位置におけるミスセンスのPFMを使用してニューラルネットワーク実装モデルを訓練することを含む。訓練PFMの訓練の影響は、訓練中に弱められる。

この方法実装形態および開示されている他の方法は、任意選択で、次の特徴のうちの1つまたは複数を含む。方法は、開示されているシステムに関連して説明されている特徴も含むことができる。このセクションにおいて特定される特徴が他のstatutory classの中の基本の特徴とどのように容易に組み合わされ得るかを、読者は理解するであろう。

他の実装形態は、アミノ酸の配列および随伴する位置特定的頻度行列(PFM)を処理するニューラルネットワーク実装モデルの過剰適合を低減するために1つまたは複数のプロセッサによって実行可能であるコンピュータプログラム命令をまとめて記憶する1つまたは複数の非一時的コンピュータ可読記憶媒体のセットを含み得る。コンピュータプログラム命令は1つまたは複数のプロセッサ上で実行されたときに、開始位置から標的アミノ酸位置を通り終了位置へ進む配置を含む良性とラベリングされた補足訓練例配列ペアを生成することを含む方法を実行する。各補足配列ペアは、ミスセンス訓練例配列ペアの開始位置および終了位置と一致する。これは、アミノ酸の基準および代替配列内に同一のアミノ酸を有する。方法は、各補足配列ペアとともに、一致する開始位置および終了位置におけるミスセンス訓練例配列ペアのPFMと同一の補足訓練PFMを入力することを含む。方法は、良性訓練例配列ペアおよび補足訓練例PFM、ならびにミスセンス訓練例配列ペア、ならびに一致する開始位置および終了位置におけるミスセンス訓練のPFMを使用してニューラルネットワーク実装モデルを訓練することを含む。訓練PFMの訓練の影響は、訓練中に弱められる。

開示されている技術のコンピュータ可読媒体(CRM)実装形態は、1つまたは複数のプロセッサ上で実行されたときに上で説明されている方法を実行するコンピュータプログラム命令が焼かれた1つまたは複数の非一時的コンピュータ可読記憶媒体を含む。このCRM実装形態は、次の特徴のうちの1つまたは複数を含む。CRM実装形態は、上で開示されているシステムおよび方法に関連して説明されている特徴も含むことができる。

先行する説明は、開示される技術の作成および使用を可能にするために提示される。開示される実装形態に対する様々な修正が明らかであり、本明細書で定義される一般原理は、開示される技術の趣旨および範囲から逸脱することなく、他の実装形態および適用例に適用され得る。したがって、開示される技術は、示される実装形態に限定されることは意図されず、本明細書で開示される原理および特徴と一致する最も広い範囲を認められるべきである。開示される技術の範囲は添付の特許請求の範囲によって定義される。

［コンピュータシステム］
図15は、開示される技術を実装するために使用され得るコンピュータシステムの簡略化されたブロック図1500である。コンピュータシステムは通常、バスサブシステムを介していくつかの周辺デバイスと通信する少なくとも1つのプロセッサを含む。これらの周辺デバイスは、たとえば、メモリデバイスおよびファイルストレージサブシステム、ユーザインターフェース入力デバイス、ユーザインターフェース出力デバイス、ならびにネットワークインターフェースサブシステムを含む、ストレージサブシステムを含み得る。入力デバイスおよび出力デバイスはコンピュータシステムとのユーザの対話を可能にする。ネットワークインターフェースサブシステムは、他のコンピュータシステムにおける対応するインターフェースデバイスへのインターフェースを含む、外部ネットワークへのインターフェースを提供する。

一実装形態において、バリアント病原性分類器157、PFM計算器184、および入力エンコーダ186などのニューラルネットワークは、ストレージサブシステムおよびユーザインターフェース入力デバイスに通信可能に結合される。

ユーザインターフェース入力デバイスは、キーボードと、マウス、トラックボール、タッチパッド、またはグラフィクスタブレットなどのポインティングデバイスと、ディスプレイに組み込まれたタッチスクリーンと、音声認識システムおよびマイクロフォンなどのオーディオ入力デバイスと、他のタイプの入力デバイスとを含み得る。一般に、「入力デバイス」という用語の使用は、コンピュータシステムへ情報を入力するためのすべての可能なタイプのデバイスおよび方式を含むことが意図される。

ユーザインターフェース出力デバイスは、ディスプレイサブシステム、プリンタ、faxマシン、またはオーディオ出力デバイスなどの非視覚的ディスプレイを含み得る。ディスプレイサブシステムは、陰極線管(CRT)、液晶ディスプレイ(LCD)などのフラットパネルデバイス、プロジェクションデバイス、または可視の画像を創造するための何らかの他の機構を含み得る。ディスプレイサブシステムはまた、オーディオ出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、「出力デバイス」という用語の使用は、コンピュータシステムから情報をユーザまたは別の機械もしくはコンピュータシステムに出力するためのすべての可能なタイプのデバイスおよび方式を含むことが意図される。

ストレージサブシステムは、本明細書で説明されるモジュールおよび方法の一部またはすべての機能を提供する、プログラミングおよびデータ構築物を記憶する。これらのソフトウェアモジュールは一般に、プロセッサだけによって、または他のプロセッサと組み合わせて実行される。

ストレージサブシステムにおいて使用されるメモリは、プログラム実行の間の命令およびデータの記憶のためのメインランダムアクセスメモリ(RAM)と、固定された命令が記憶される読取り専用メモリ(ROM)とを含む、いくつかのメモリを含み得る。ファイルストレージサブシステムは、プログラムおよびデータファイルのための永続的なストレージを提供することができ、ハードディスクドライブ、関連する取り外し可能なメディアを伴うフロッピー（登録商標）ディスクドライブ、CD-ROMドライブ、光学ドライブ、または取り外し可能なメディアカートリッジを含み得る。いくつかの実装形態の機能を実装するモジュールは、ストレージサブシステムの中の、または他のプロセッサによってアクセス可能な他の機械の中の、ファイルストレージサブシステムによって記憶され得る。

バスサブシステムは、コンピュータシステムの様々な構成要素およびサブシステムに意図されるように互いに通信させるための機構を提供する。バスサブシステムは単一のバスとして概略的に示されているが、バスサブシステムの代替的な実装形態は複数のバスを使用することができる。

コンピュータシステム自体が、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビジョン、メインフレーム、サーバファーム、緩やかにネットワーク化されたコンピュータの広く分布するセット、または、任意の他のデータ処理システムもしくはユーザデバイスを含む、様々なタイプであってよい。コンピュータおよびネットワークの変わり続ける性質により、図15に示されるコンピュータシステムの記述は、開示される技術を例示することを目的とする特定の例としてのみ意図されている。図15に示されるコンピュータシステムより多数または少数の構成要素を有する、コンピュータシステムの多くの他の構成が可能である。

深層学習プロセッサは、GPUまたはFPGAであってよく、Google Cloud Platform、Xilinx、およびCirrascaleなどの深層学習クラウドプラットフォームによってホストされてよい。深層学習プロセッサの例には、GoogleのTensor Processing Unit(TPU)、GX4 Rackmount Series、GX8 Rackmount Seriesのようなラックマウントソリューション、NVIDIA DGX-1、MicrosoftのStratix V FPGA、GraphcoreのIntelligent Processor Unit(IPU)、Snapdragonプロセッサを用いたQualcommのZerothプラットフォーム、NVIDIAのVolta、NVIDIAのDRIVE PX、NVIDIAのJETSON TX1/TX2 MODULE、IntelのNirvana、Movidius VPU、Fujitsu DPI、ARMのDynamicIQ、IBM TrueNorthなどがある。

114 トレーナー
116 テスター
121 病原性ミスセンス訓練例
131 補足良性訓練例
155 ネットワーク
157 バリアント病原性予測モデル
161 良性ミスセンス訓練例
181 補足良性訓練例
184 位置特定的頻度行列(PFM)計算器
186 入力エンコーダ
600 例
700 説明図
800 例
1002 病原性ミスセンスバリアント訓練例
1002A 代替配列
1002R 基準配列
1012 補足良性訓練例
1012A 代替配列
10012R 基準配列
1022 PFM
1100 例
1102 良性ミスセンスバリアント
1102Rおよび1112R 基準配列
1112 補足良性訓練例
1102Aおよび1112A 代替配列
1122 対応する補足良性訓練例
1218、1228、および1238 PFM
1300 例
1400 説明図

Claims

システムであって、
入力を病原性分類にマッピングし、前記入力は、位置頻度行列、位置特定的スコアリング行列、または位置重み行列である、位置頻度行列で補足された補足良性訓練例配列ペアを含み、
各補足良性訓練例配列ペアは、アミノ酸の基準および代替配列において同一のアミノ酸を有し、
前記病原性分類における前記位置頻度行列の影響を減衰する
ように構成された病原性分類器を具備するシステム。
前記補足良性訓練例配列ペアは、開始位置から標的アミノ酸位置を通り終了位置にある、請求項１に記載のシステム。
各補足良性訓練例配列ペアは、ミスセンス訓練例配列ペアの前記開始位置および前記終了位置と一致する、請求項２に記載のシステム。
各補足良性訓練例配列ペアが、アミノ酸の基準および代替配列内に同一のアミノ酸を有する、請求項３に記載のシステム。
各補足良性訓練例配列ペアは、前記一致する開始位置および終了位置において前記ミスセンス訓練例配列ペアの前記位置頻度行列と同一である補足訓練位置頻度行列を有する、請求項４に記載のシステム。
前記補足良性訓練例配列ペア、補足訓練位置頻度行列、ミスセンス訓練例配列ペア、および一致する開始位置および終了位置における前記ミスセンス訓練例配列ペアの前記位置頻度行列で、前記病原性分類器を訓練するようにさらに構成されている、請求項５に記載のシステム。
補足訓練例配列ペアは、病原性とラベリングされたミスセンス訓練例配列ペアの前記開始位置および前記終了位置と一致する、請求項６に記載のシステム。
補足訓練例配列ペアは、良性とラベリングされたミスセンス訓練例配列ペアの前記開始位置および前記終了位置と一致する、請求項６に記載のシステム。
所定の数の訓練エポックの後に、補足訓練例配列ペアおよび前記補足訓練位置頻度行列の使用を中止するように、前記病原性分類器の前記訓練を修正するようにさらに構成されている、請求項６に記載のシステム。
5つの訓練エポックの後に、前記補足訓練例配列ペアおよび前記補足訓練位置頻度行列の使用を中止するように、前記病原性分類器の前記訓練を修正するようにさらに構成されている、請求項９に記載のシステム。
前記補足訓練例配列ペアと病原性訓練例配列ペアとの比が、1:1から1:8の間であることをさらに含む、請求項７に記載のシステム。
前記補足訓練例配列ペアと良性訓練例配列ペアとの比が、1:1から1:8の間であることをさらに含む、請求項８に記載のシステム。
前記補足訓練位置頻度行列を作成する際に、ヒト以外の霊長類および霊長類以外の哺乳類のデータからアミノ酸位置を使用するようにさらに構成されている、請求項６に記載のシステム。
コンピュータ実施方法であって、
入力を病原性分類にマッピングするステップであって、前記入力は、位置頻度行列、位置特定的スコアリング行列、または位置重み行列である、位置頻度行列で補足された補足良性訓練例配列ペアを含み、各補足良性訓練例配列ペアは、アミノ酸の基準および代替配列において同一のアミノ酸を有する、ステップと、
補足良性訓練例を用いた事前訓練に基づいて、前記病原性分類における前記位置頻度行列の影響を減衰するステップと、
を具備することを特徴とするコンピュータ実施方法。
コンピュータプログラム命令が記録された非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサ上で実行されると、
入力を病原性分類にマッピングするステップであって、前記入力は、位置頻度行列、位置特定的スコアリング行列、または位置重み行列である、位置頻度行列で補足された補足良性訓練例配列ペアを含み、各補足良性訓練例配列ペアは、アミノ酸の基準および代替配列において同一のアミノ酸を有する、ステップと、
補足良性訓練例を用いた事前訓練に基づいて、前記病原性分類における前記位置頻度行列の影響を減衰するステップと、
を具備する方法を実施することを特徴とする、非一時的コンピュータ可読記憶媒体。