JP6888123B2 - 深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術 - Google Patents
深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術 Download PDFInfo
- Publication number
- JP6888123B2 JP6888123B2 JP2019567603A JP2019567603A JP6888123B2 JP 6888123 B2 JP6888123 B2 JP 6888123B2 JP 2019567603 A JP2019567603 A JP 2019567603A JP 2019567603 A JP2019567603 A JP 2019567603A JP 6888123 B2 JP6888123 B2 JP 6888123B2
- Authority
- JP
- Japan
- Prior art keywords
- training
- example sequence
- sequence pair
- missense
- pfm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Description
本出願は、2019年5月8日に出願した米国一部継続特許出願第16/407,149号、名称「DEEP LEARNING-BASED TECHNIQUES FOR PRE-TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」(代理人整理番号第ILLM 1010-1/IP-1734-US)への優先権を主張し、これはすべて2018年10月15日に出願した次の3つのPCT出願および3つの米国非仮出願、すなわち、(1)2018年10月15日に出願したPCT特許出願第PCT/US2018/055840号、名称「DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」(代理人整理番号第ILLM 1000-8/IP-1611-PCT)、(2)2018年10月15日に出願したPCT特許出願第PCT/US2018/055878号、名称「DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION」(代理人整理番号第ILLM 1000-9/IP-1612-PCT)、(3)2018年10月15日に出願したPCT特許出願第PCT/US2018/055881号、名称「SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS」(代理人整理番号第ILLM 1000-10/IP-1613-PCT)、(4)2018年10月15日に出願した米国非仮特許出願第16/160,903号、名称「DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」(代理人整理番号第ILLM 1000-5/IP-1611-US)、(5)2018年10月15日に出願した米国非仮特許出願第16/160,986号、名称「DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION」(代理人整理番号第ILLM 1000-6/IP-1612-US)、および(6)2018年10月15日に出願した米国非仮特許出願第16/160,968号、名称「SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS」(代理人整理番号第ILLM 1000-7/IP-1613-US)の一部継続であり、その優先権を主張する。3つのPCT出願および3つの米国非仮出願はすべて、以下に列挙する次の4つの米国仮出願への優先権および/または利益を主張する。
以下の文献は、あたかも全体が本明細書に記載されているかのように、すべての目的に関して参照により引用される。
開示される技術は、人工知能タイプコンピュータならびにデジタルデータ処理システムならびに知性のエミュレーションのための対応するデータ処理方法および製品(すなわち、知識ベースシステム、推論システム、知識取得システム)に関し、不確実性を伴う推論のためのシステム(たとえば、ファジー論理システム)、適応システム、機械学習システム、および人工ニューラルネットワークを含む。具体的には、開示される技術は、深層畳み込みニューラルネットワークを訓練するために深層学習ベースの技法を使用することに関する。特に、開示されている技術は、過剰適合を回避するために深層畳み込みニューラルネットワークを事前訓練することに関する。
機械学習では、出力変数を予測するために入力変数が使用される。入力変数はしばしば特徴量と呼ばれ、X=(X1,X2,...,Xk)と表記され、i∈1,...,kである各Xiが特徴量である。出力変数はしばしば応答または依存変数と呼ばれ、変数Yiにより表記される。Yと対応するXとの関係は、次の一般的な形式で書くことができる。
Y=f(x)+∈
ニューラルネットワークは、互いとの間でメッセージを交換する相互接続された人工ニューロン(たとえば、a1、a2、a3)のシステムである。示されるニューラルネットワークは3つの入力を有し、2つのニューロンが隠れ層にあり、2つのニューロンが出力層にある。隠れ層は活性化関数f(・)を有し、出力層は活性化関数g(・)を有する。これらの接続は、適切に訓練されたネットワークが認識すべき画像を与えられると正しく応答するように、訓練プロセスの間に調整された数値的な重み(たとえば、w11、w21、w12、w31、w22、w32、v11、v22)を有する。入力層は生の入力を処理し、隠れ層は入力層と隠れ層との間の接続の重みに基づいて入力層から出力を処理する。出力層は、隠れ層から出力を取り込み、隠れ層と出力層との間の接続の重みに基づいてそれを処理する。ネットワークは、特徴検出ニューロンの複数の層を含む。各層は、前の層からの入力の異なる組合せに対応する多数のニューロンを有する。これらの層は、第1の層が入力画像データにおける基本的なパターンのセットを検出し、第2の層がパターンのパターンを検出し、第3の層がそれらのパターンのパターンを検出するように、構築される。
・ T.Ching他、Opportunities And Obstacles For Deep Learning In Biology And Medicine、www.biorxiv.org:142760、2017
・ Angermueller C、Parnamaa T、Parts L、Stegle O、Deep Learning For Computational Biology. Mol Syst Biol. 2016;12:878
・ Park Y、Kellis M、2015 Deep Learning For Regulatory Genomics. Nat. Biotechnol. 33、825-826、(doi:10.1038/nbt.3313)
・ Min S、Lee B、およびYoon S、Deep Learning In Bioinformatics. Brief. Bioinform. bbw068 (2016)
・ Leung MK、Delong A、Alipanahi B他、Machine Learning In Genomic Medicine: A Review of Computational Problems and Data Sets、2016
・ Libbrecht MW、Noble WS、Machine Learning Applications In Genetics and Genomics. Nature Reviews Genetics 2015;16(6):321-32
本出願のセクションは、開示されている改善の背景を提供するために参照により引用された出願から抜粋した繰り返しである。従来の出願では、以下で説明されているように、ヒト以外の霊長類のミスセンスバリアントデータを使用して訓練される深層学習システムを開示した。背景を提供する前に、我々は、開示されている改善を紹介する。
畳み込みニューラルネットワークは特別なタイプのニューラルネットワークである。密結合層と畳み込み層との間の基本的な違いは、密層が入力特徴空間におけるグローバルパターンを学習するのに対して、畳み込み層がローカルパターンを学習するということである。画像の場合、入力の小さい2Dウィンドウにおいてパターンが見出される。この重要な特徴は、(1)畳み込みニューラルネットワークの学習するパターンが移動不変である、および(2)畳み込みニューラルネットワークがパターンの空間的階層を学習できるという、2つの興味深い特性を畳み込みニューラルネットワークに与える。
さらなる背景として、図5は、開示される技術の一実装形態による畳み込みニューラルネットワークを訓練することのブロック図500を示す。畳み込みニューラルネットワークは、入力データが特定の出力推定につながるように、調整または訓練される。畳み込みニューラルネットワークは、出力推定とグラウンドトゥルースの比較に基づいて、出力推定がグラウンドトゥルースに漸近的に一致または接近するまで、逆伝播を使用して調整される。
wnm←wnm+α(tm-φm)αn
δok=(tk-φk)φk(1-φk)
vmk←vmk+αδokφm
vnm←wnm+αδhman
vt+1=μv-α∇wQ(zt,wt)
wt+1=wt+vt+1
遺伝的変異は、多くの疾患の説明を助け得る。ヒトはそれぞれが固有の遺伝コードを持ち、個人のグループ内には多くの遺伝的バリアントがある。有害な遺伝的バリアントの大半は、自然選択によってゲノムから枯渇している。どの遺伝的変異が病原性または有害である可能性が高いかを特定することが重要である。このことは、研究者が、病原性である可能性が高い遺伝的バリアントに注目し、多くの疾患の診断および治療を加速させることを助けるであろう。
限定はされないが、特許、特許出願、論説、書籍、論文、およびウェブページを含む、本出願において引用されるすべての文献および同様の資料は、そのような文献および同様の資料のフォーマットとは無関係に、全体が参照によって明確に引用される。限定はされないが、定義される用語、用語の使用法、説明される技法などを含めて、引用される文献および同様の資料のうちの1つまたは複数が、本出願とは異なる場合、または本出願と矛盾する場合、本出願が優先する。
本明細書に記載される実装形態は、配列の変異を特定するために核酸配列を分析することに適用可能であり得る。実装形態は、遺伝子の場所/座の潜在的なバリアント/アレルを分析し、遺伝子座の遺伝子型を決定するために、言い換えると、座に対する遺伝子型コールを提供するために使用され得る。例として、核酸配列は、米国特許出願公開第2016/0085910号および米国特許出願公開第2013/0296175号において説明される方法およびシステムに従って分析されることがあり、これらの出願公開の完全な主題の全体が、本明細書において参照によって明確に引用される。
個の操作とを含むことがあり、この場合、ヌクレオチドのうちの2つ以上が同じラベルを有することが可能であり、それらを導入の既知の順序に基づいて区別することができる。
数百万個のヒトゲノムおよびエクソンがシーケンシングされているが、それらの臨床上の応用は、疾患を引き起こす変異を良性の遺伝的変異から区別することの難しさにより限られたままである。ここで我々は、他の霊長類の種における一般的なミスセンスバリアントが、ヒトにおいて大部分が臨床的に良性であることを実証し、病原性の変異が除去のプロセスによって系統的に特定されることを可能にする。6種のヒト以外の霊長類の種の集団シーケンシングからの数十万個の一般的なバリアントを使用して、88%の正確さで稀な疾患の患者における病原性の変異を特定し、ゲノムワイド有意性(genome-wide significance)で知的障害における14個の新たな遺伝子候補の発見を可能にする、深層ニューラルネットワークを訓練した。追加の霊長類の種からの一般的な変異の目録を作ることで、数百万個の有意性が不確かなバリアントに対する解釈が改善し、ヒトゲノムシーケンシングの臨床上の利用がさらに進む。
参照により引用された出願により開示される一実装形態において、病原性予測ネットワークは、対象のバリアントを中心とする長さ51のアミノ酸配列と、二次構造および溶媒接触性ネットワーク(図2および図3)の出力とを、中心の場所において置換されるミスセンスバリアントとともに入力として取り込む。11種の霊長類のための1つの場所頻度行列と、霊長類を除く50種の哺乳類のための1つの場所頻度行列と、霊長類と哺乳類を除く38種の脊椎動物のための1つの場所頻度行列とを含む、3つの長さ51の場所頻度行列が、99種の脊椎動物の複数の配列アラインメントから生成される。
本開示では、過剰適合を低減するか、または弱め、訓練結果を改善するために病原性予測モデルを事前訓練することを紹介する。システムは、一実装形態によるシステムのアーキテクチャレベルの概略図100を示す図1を参照しつつ説明される。図1は、アーキテクチャ図であるので、説明のわかりやすさを高めるために詳細の一部は意図的に省かれている。図1の説明は、次のように編成されている。最初に、図の要素が説明され、続いてその相互接続が説明される。次いで、システム内の要素の使用についてより詳しく説明されている。
代わりに、シーケンシングされた集団内で観察された同義バリアントから選択される。開示されている技術は、補足良性訓練例を構成して病原性ミスセンス訓練例と対比し、訓練中のバリアント病原性予測モデルの過剰適合を低減する。
ニューラルネットワークベースのモデル(たとえば、上に提示されているPrimateAI)の性能は、上に提示されている事前訓練エポックを使用することによって改善される。次の表には、例示的なテスト結果が提示されている。表の中の結果は、6つの見出しを付けてまとめられている。我々は、結果を提示する前に見出しについて簡単に説明する。「複製」列は、20回の複製試行に対する結果を提示している。各試行は、異なる乱数シードを使用する8個のモデルのアンサンブルであってよい。「精度」は、良性と分類されている10,000個の保留された霊長類良性バリアントの割合である。「Pvalue_DDD」は、影響を受けていない兄弟姉妹から発達障害を患っている影響を受けている子供のde novo変異がどれだけうまく分離されるかを評価するためのウィルコクソン順位検定の結果を提示している。「pvalue_605genes」は、この場合に我々が605個の疾病関係遺伝子内のde novo変異を使用したことを除くpvalue_DDDと類似の検定の結果を提示している。「Corr_RK_RW」は、RからKへのアミノ酸の変化とRからWへのアミノ酸の変化との間のprimateAIスコアの相関を提示している。Corr_RK_RWの小さい方の値は、よりよい性能を示す。「Pvalue_Corr」は、前の列内の相関のp値、すなわち、Corr_RK_RWを提示している。
我々は、アミノ酸の配列および随伴する位置特定的頻度行列(PFM)を処理するニューラルネットワーク実装モデルを事前訓練するためのシステム、方法、および製造物品を説明する。実装形態の1つまたは複数の特徴は基本の実装形態と合成され得る。相互に排他的ではない実装形態は、合成可能であると教示される。実装形態の1つまたは複数の特徴は他の実装形態と合成され得る。本開示は定期的にこれらの選択肢をユーザに思い起こさせる。これらの選択肢を繰り返し述べる記載がいくつかの実装形態において省略されていることは、先行するセクションにおいて教示された合成を限定するものと解釈されるべきではなく、これらの記載は以後の実装形態の各々へと前方に参照によって組み込まれる。
図15は、開示される技術を実装するために使用され得るコンピュータシステムの簡略化されたブロック図1500である。コンピュータシステムは通常、バスサブシステムを介していくつかの周辺デバイスと通信する少なくとも1つのプロセッサを含む。これらの周辺デバイスは、たとえば、メモリデバイスおよびファイルストレージサブシステム、ユーザインターフェース入力デバイス、ユーザインターフェース出力デバイス、ならびにネットワークインターフェースサブシステムを含む、ストレージサブシステムを含み得る。入力デバイスおよび出力デバイスはコンピュータシステムとのユーザの対話を可能にする。ネットワークインターフェースサブシステムは、他のコンピュータシステムにおける対応するインターフェースデバイスへのインターフェースを含む、外部ネットワークへのインターフェースを提供する。
116 テスター
121 病原性ミスセンス訓練例
131 補足良性訓練例
155 ネットワーク
157 バリアント病原性予測モデル
161 良性ミスセンス訓練例
181 補足良性訓練例
184 位置特定的頻度行列(PFM)計算器
186 入力エンコーダ
600 例
700 説明図
800 例
1002 病原性ミスセンスバリアント訓練例
1002A 代替配列
1002R 基準配列
1012 補足良性訓練例
1012A 代替配列
10012R 基準配列
1022 PFM
1100 例
1102 良性ミスセンスバリアント
1102Rおよび1112R 基準配列
1112 補足良性訓練例
1102Aおよび1112A 代替配列
1122 対応する補足良性訓練例
1218、1228、および1238 PFM
1300 例
1400 説明図
Claims (24)
- アミノ酸の配列および随伴する位置特定的頻度行列(PFM)を処理するニューラルネットワーク実装モデルの過剰適合を低減するための方法であって、
開始位置から標的アミノ酸位置を通り終了位置へ進む配置を含む良性とラベリングされた補足良性訓練例配列ペアを生成するステップであって、各補足良性訓練例配列ペアは、
ミスセンス訓練例配列ペアの前記開始位置および前記終了位置と一致し、
アミノ酸の基準および代替配列内に同一のアミノ酸を有する、ステップと、
各補足訓練例配列ペアとともに、前記一致する開始位置および終了位置における前記ミスセンス訓練例配列ペアの前記PFMと同一の補足訓練PFMを入力するステップと、
前記補足良性訓練例配列ペア、前記補足訓練PFM、前記ミスセンス訓練例配列ペア、ならびに前記一致する開始位置および終了位置における前記ミスセンス訓練例配列ペアの前記PFMを使用して前記ニューラルネットワーク実装モデルを訓練するステップであって、
これにより前記補足訓練PFMの訓練の影響が前記訓練中に弱められる、ステップと
を含む方法。 - 前記補足訓練例配列ペアは、病原性ミスセンス訓練例配列ペアの前記開始位置および前記終了位置と一致する請求項1に記載の方法。
- 前記補足訓練例配列ペアは、良性ミスセンス訓練例配列ペアの前記開始位置および前記終了位置と一致する請求項1に記載の方法。
- 所定の数の訓練エポックの後に前記補足訓練例配列ペアおよび前記補足訓練PFMを使用するのを中止するように前記ニューラルネットワーク実装モデルの前記訓練を修正するステップをさらに含む請求項1に記載の方法。
- 5訓練エポックの後に前記補足訓練例配列ペアおよび前記補足訓練PFMを使用するのを中止するように前記ニューラルネットワーク実装モデルの前記訓練を修正するステップをさらに含む請求項1に記載の方法。
- 前記補足訓練例配列ペアと前記病原性ミスセンス訓練例配列ペアとの比が、1:1から1:8の間であることをさらに含む請求項2に記載の方法。
- 前記補足訓練例配列ペアと前記良性ミスセンス訓練例配列ペアとの比が、1:1から1:8の間であることをさらに含む請求項3に記載の方法。
- 前記補足訓練PFMを作成する際に、ヒト以外の霊長類および霊長類以外の哺乳類に対するデータからのアミノ酸位置を使用するステップをさらに含む請求項1に記載の方法。
- メモリに結合されている1つまたは複数のプロセッサを備えるシステムであって、前記メモリはアミノ酸の配列および随伴する位置特定的頻度行列(PFM)を処理するニューラルネットワーク実装モデルの過剰適合を低減するためのコンピュータ命令をロードされ、前記命令は前記プロセッサ上で実行されたときに、
開始位置から標的アミノ酸位置を通り終了位置へ進む配置を含む良性とラベリングされた補足良性訓練例配列ペアを生成するステップであって、各補足良性訓練例配列ペアは、
ミスセンス訓練例配列ペアの前記開始位置および前記終了位置と一致し、
アミノ酸の基準および代替配列内に同一のアミノ酸を有する、ステップと、
各補足訓練例配列ペアとともに、前記一致する開始位置および終了位置における前記ミスセンス訓練例配列ペアの前記PFMと同一の補足訓練PFMを入力するステップと、
前記補足良性訓練例配列ペア、前記補足訓練PFM、前記ミスセンス訓練例配列ペア、ならびに前記一致する開始位置および終了位置における前記ミスセンス訓練例配列ペアの前記PFMを使用して前記ニューラルネットワーク実装モデルを訓練するステップであって、
これにより前記補足訓練PFMの訓練の影響が前記訓練中に弱められるか、または無効にされる、ステップと
を含む活動を実行するシステム。 - 前記補足訓練例配列ペアは、病原性ミスセンス訓練例配列ペアの前記開始位置および前記終了位置と一致する請求項9に記載のシステム。
- 前記補足訓練例配列ペアは、良性ミスセンス訓練例配列ペアの前記開始位置および前記終了位置と一致する請求項9に記載のシステム。
- 所定の数の訓練エポックの後に前記補足訓練例配列ペアおよび前記補足訓練PFMを使用するのを中止するように前記ニューラルネットワーク実装モデルの前記訓練を修正するステップを含む活動をさらに実装する請求項9に記載のシステム。
- 5訓練エポックの後に前記補足訓練例配列ペアおよび前記補足訓練PFMを使用するのを中止するように前記ニューラルネットワーク実装モデルの前記訓練を修正するステップを含む活動をさらに実装する請求項9に記載のシステム。
- 前記補足訓練例配列ペアと前記病原性ミスセンス訓練例配列ペアとの比が、1:1から1:8の間であることを含む活動をさらに実装する請求項10に記載のシステム。
- 前記補足訓練例配列ペアと前記良性ミスセンス訓練例配列ペアとの比が、1:1から1:8の間であることを含む活動をさらに実装する請求項11に記載のシステム。
- 前記補足訓練PFMを作成する際に、ヒト以外の霊長類および霊長類以外の哺乳類に対するデータからのアミノ酸位置を使用するステップを含む活動をさらに実装する請求項9に記載のシステム。
- アミノ酸の配列および随伴する位置特定的頻度行列(PFM)を処理するニューラルネットワーク実装モデルの過剰適合を低減するためのコンピュータプログラム命令が焼かれた非一時的コンピュータ可読記憶媒体であって、前記命令はプロセッサ上で実行されたときに、
開始位置から標的アミノ酸位置を通り終了位置へ進む配置を含む良性とラベリングされた補足良性訓練例配列ペアを生成するステップであって、各補足良性訓練例配列ペアは、
ミスセンス訓練例配列ペアの前記開始位置および前記終了位置と一致し、
アミノ酸の基準および代替配列内に同一のアミノ酸を有する、ステップと、
各補足訓練例配列ペアとともに、前記一致する開始位置および終了位置における前記ミスセンス訓練例配列ペアの前記PFMと同一の補足訓練PFMを入力するステップと、
前記補足良性訓練例配列ペア、前記補足訓練PFM、ミスセンス訓練例配列ペア、ならびに前記一致する開始位置および終了位置における前記ミスセンス訓練例配列ペアの前記PFMを使用して前記ニューラルネットワーク実装モデルを訓練するステップであって、
これにより前記補足訓練PFMの訓練の影響が前記訓練中に弱められる、ステップと
を含む方法を実行する非一時的コンピュータ可読記憶媒体。 - 前記補足訓練例配列ペアは、病原性ミスセンス訓練例配列ペアの前記開始位置および前記終了位置と一致する請求項17に記載の非一時的コンピュータ可読記憶媒体。
- 前記補足訓練例配列ペアは、良性ミスセンス訓練例配列ペアの前記開始位置および前記終了位置と一致する請求項17に記載の非一時的コンピュータ可読記憶媒体。
- 所定の数の訓練エポックの後に前記補足訓練例配列ペアおよび前記補足訓練PFMを使用するのを中止するように前記ニューラルネットワーク実装モデルの前記訓練を修正するステップをさらに含む前記方法を実装する請求項17に記載の非一時的コンピュータ可読記憶媒体。
- 5訓練エポックの後に前記補足訓練例配列ペアおよび前記補足訓練PFMを使用するのを中止するように前記ニューラルネットワーク実装モデルの前記訓練を修正するステップをさらに含む前記方法を実装する請求項17に記載の非一時的コンピュータ可読記憶媒体。
- 前記補足訓練例配列ペアと前記病原性ミスセンス訓練例配列ペアとの比が、1:1から1:8の間であることをさらに含む方法を実装する請求項18に記載の非一時的コンピュータ可読記憶媒体。
- 前記補足訓練例配列ペアと前記良性ミスセンス訓練例配列ペアとの比が、1:1から1:8の間であることをさらに含む方法を実装する請求項19に記載の非一時的コンピュータ可読記憶媒体。
- 前記補足訓練PFMを作成する際に、ヒト以外の霊長類および霊長類以外の哺乳類に対するデータからのアミノ酸位置を使用するステップを含む前記方法を実装する請求項17に記載の非一時的コンピュータ可読記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021084634A JP7200294B2 (ja) | 2018-10-15 | 2021-05-19 | 位置頻度行列のオーバーフィッティングを避けるように訓練したバリアント病原性分類法 |
JP2022204685A JP2023052011A (ja) | 2018-10-15 | 2022-12-21 | 深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術 |
Applications Claiming Priority (15)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2018/055881 WO2019079182A1 (en) | 2017-10-16 | 2018-10-15 | SEMI-SUPERVISED APPRENTICESHIP FOR THE LEARNING OF A SET OF NEURONAL NETWORKS WITH DEEP CONVOLUTION |
US16/160,986 | 2018-10-15 | ||
US16/160,986 US11315016B2 (en) | 2017-10-16 | 2018-10-15 | Deep convolutional neural networks for variant classification |
US16/160,968 US11798650B2 (en) | 2017-10-16 | 2018-10-15 | Semi-supervised learning for training an ensemble of deep convolutional neural networks |
USPCT/US2018/055878 | 2018-10-15 | ||
USPCT/US2018/055881 | 2018-10-15 | ||
US16/160,968 | 2018-10-15 | ||
PCT/US2018/055840 WO2019079166A1 (en) | 2017-10-16 | 2018-10-15 | TECHNIQUES BASED ON DEEP LEARNING LEARNING OF NEURONAL NETWORKS WITH DEEP CONVOLUTION |
PCT/US2018/055878 WO2019079180A1 (en) | 2017-10-16 | 2018-10-15 | NEURONAL NETWORKS WITH DEEP CONVOLUTION OF VARIANT CLASSIFICATION |
US16/160,903 | 2018-10-15 | ||
USPCT/US2018/055840 | 2018-10-15 | ||
US16/160,903 US10423861B2 (en) | 2017-10-16 | 2018-10-15 | Deep learning-based techniques for training deep convolutional neural networks |
US16/407,149 US10540591B2 (en) | 2017-10-16 | 2019-05-08 | Deep learning-based techniques for pre-training deep convolutional neural networks |
US16/407,149 | 2019-05-08 | ||
PCT/US2019/031621 WO2020081122A1 (en) | 2018-10-15 | 2019-05-09 | Deep learning-based techniques for pre-training deep convolutional neural networks |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021084634A Division JP7200294B2 (ja) | 2018-10-15 | 2021-05-19 | 位置頻度行列のオーバーフィッティングを避けるように訓練したバリアント病原性分類法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021501923A JP2021501923A (ja) | 2021-01-21 |
JP6888123B2 true JP6888123B2 (ja) | 2021-06-16 |
Family
ID=70283180
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019567603A Active JP6888123B2 (ja) | 2018-10-15 | 2019-05-09 | 深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術 |
JP2021084634A Active JP7200294B2 (ja) | 2018-10-15 | 2021-05-19 | 位置頻度行列のオーバーフィッティングを避けるように訓練したバリアント病原性分類法 |
JP2022204685A Pending JP2023052011A (ja) | 2018-10-15 | 2022-12-21 | 深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021084634A Active JP7200294B2 (ja) | 2018-10-15 | 2021-05-19 | 位置頻度行列のオーバーフィッティングを避けるように訓練したバリアント病原性分類法 |
JP2022204685A Pending JP2023052011A (ja) | 2018-10-15 | 2022-12-21 | 深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術 |
Country Status (8)
Country | Link |
---|---|
JP (3) | JP6888123B2 (ja) |
KR (1) | KR102165734B1 (ja) |
CN (2) | CN113705585A (ja) |
AU (2) | AU2019272062B2 (ja) |
IL (2) | IL271091B (ja) |
NZ (1) | NZ759665A (ja) |
SG (2) | SG11201911777QA (ja) |
WO (1) | WO2020081122A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543761B (zh) * | 2018-11-27 | 2020-07-07 | 成都工业学院 | 植物适生地的分类方法及装置 |
KR102418073B1 (ko) * | 2020-06-08 | 2022-07-06 | 고려대학교 산학협력단 | 인공지능 기반 비디오 투시 연하검사 자동화 분석 장치 및 방법 |
CN111830408B (zh) * | 2020-06-23 | 2023-04-18 | 朗斯顿科技(北京)有限公司 | 一种基于边缘计算和深度学习的电机故障诊断系统及方法 |
CN112003735B (zh) * | 2020-07-28 | 2021-11-09 | 四川大学 | 一种感知风险的深度学习驱动的极限传输容量调整方法 |
CN112183088B (zh) * | 2020-09-28 | 2023-11-21 | 云知声智能科技股份有限公司 | 词语层级确定的方法、模型构建方法、装置及设备 |
KR102279056B1 (ko) * | 2021-01-19 | 2021-07-19 | 주식회사 쓰리빌리언 | 지식전이를 이용한 유전자변이의 병원성 예측 시스템 |
CN113299345B (zh) * | 2021-06-30 | 2024-05-07 | 中国人民解放军军事科学院军事医学研究院 | 病毒基因分类的方法、装置及电子设备 |
CN113539354B (zh) * | 2021-07-19 | 2023-10-27 | 浙江理工大学 | 一种高效预测革兰氏阴性菌ⅲ型和ⅳ型效应蛋白的方法 |
CN113822342B (zh) * | 2021-09-02 | 2023-05-30 | 湖北工业大学 | 一种安全图卷积网络的文献分类方法及系统 |
CN113836892B (zh) * | 2021-09-08 | 2023-08-08 | 灵犀量子(北京)医疗科技有限公司 | 样本量数据提取方法、装置、电子设备及存储介质 |
CN113963746B (zh) * | 2021-09-29 | 2023-09-19 | 西安交通大学 | 一种基于深度学习的基因组结构变异检测系统及方法 |
US20240087683A1 (en) * | 2022-09-14 | 2024-03-14 | Microsoft Technology Licensing, Llc | Classification using a machine learning model trained with triplet loss |
CN115662520B (zh) * | 2022-10-27 | 2023-04-14 | 黑龙江金域医学检验实验室有限公司 | Bcr/abl1融合基因的检测方法及相关设备 |
CN116153396A (zh) * | 2023-04-21 | 2023-05-23 | 鲁东大学 | 一种基于迁移学习的非编码变异预测方法 |
CN117688785B (zh) * | 2024-02-02 | 2024-04-16 | 东北大学 | 一种基于种植思想的全张量重力梯度数据反演方法 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0450060A1 (en) | 1989-10-26 | 1991-10-09 | Sri International | Dna sequencing |
US5641658A (en) | 1994-08-03 | 1997-06-24 | Mosaic Technologies, Inc. | Method for performing amplification of nucleic acid with two primers bound to a single solid support |
ATE269908T1 (de) | 1997-04-01 | 2004-07-15 | Manteia S A | Methode zur sequenzierung von nukleinsäuren |
AR021833A1 (es) | 1998-09-30 | 2002-08-07 | Applied Research Systems | Metodos de amplificacion y secuenciacion de acido nucleico |
GB0006153D0 (en) * | 2000-03-14 | 2000-05-03 | Inpharmatica Ltd | Database |
WO2002004680A2 (en) | 2000-07-07 | 2002-01-17 | Visigen Biotechnologies, Inc. | Real-time sequence determination |
US7211414B2 (en) | 2000-12-01 | 2007-05-01 | Visigen Biotechnologies, Inc. | Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity |
AR031640A1 (es) | 2000-12-08 | 2003-09-24 | Applied Research Systems | Amplificacion isotermica de acidos nucleicos en un soporte solido |
US7057026B2 (en) | 2001-12-04 | 2006-06-06 | Solexa Limited | Labelled nucleotides |
US20040002090A1 (en) | 2002-03-05 | 2004-01-01 | Pascal Mayer | Methods for detecting genome-wide sequence variations associated with a phenotype |
EP3795577A1 (en) | 2002-08-23 | 2021-03-24 | Illumina Cambridge Limited | Modified nucleotides |
JP2008513782A (ja) | 2004-09-17 | 2008-05-01 | パシフィック バイオサイエンシーズ オブ カリフォルニア, インコーポレイテッド | 分子解析のための装置及び方法 |
GB0427236D0 (en) | 2004-12-13 | 2005-01-12 | Solexa Ltd | Improved method of nucleotide detection |
DK1907571T3 (en) | 2005-06-15 | 2017-08-21 | Complete Genomics Inc | NUCLEIC ACID ANALYSIS USING INCIDENTAL MIXTURES OF NON-OVERLAPPING FRAGMENTS |
GB0514910D0 (en) | 2005-07-20 | 2005-08-24 | Solexa Ltd | Method for sequencing a polynucleotide template |
US7405281B2 (en) | 2005-09-29 | 2008-07-29 | Pacific Biosciences Of California, Inc. | Fluorescent nucleotide analogs and uses therefor |
GB0522310D0 (en) | 2005-11-01 | 2005-12-07 | Solexa Ltd | Methods of preparing libraries of template polynucleotides |
EP2021503A1 (en) | 2006-03-17 | 2009-02-11 | Solexa Ltd. | Isothermal methods for creating clonal single molecule arrays |
EP3373174A1 (en) | 2006-03-31 | 2018-09-12 | Illumina, Inc. | Systems and devices for sequence by synthesis analysis |
US7754429B2 (en) | 2006-10-06 | 2010-07-13 | Illumina Cambridge Limited | Method for pair-wise sequencing a plurity of target polynucleotides |
AU2007309504B2 (en) | 2006-10-23 | 2012-09-13 | Pacific Biosciences Of California, Inc. | Polymerase enzymes and reagents for enhanced nucleic acid sequencing |
KR20110052627A (ko) * | 2008-07-16 | 2011-05-18 | 다나-파버 캔서 인스티튜트 인크. | 전립선암과 관련된 시그너처 및 pc결정인자 및 그의 사용 방법 |
RU2011117576A (ru) * | 2008-10-02 | 2012-11-10 | Конинклейке Филипс Электроникс Н.В. (Nl) | Способ определения показателя достоверности для отличительных черт, полученных из клинических данных, и применение показателя достоверности для предпочтения одной отличительной черты над другой |
JP5773406B2 (ja) | 2010-07-28 | 2015-09-02 | 学校法人明治大学 | Gpiアンカー型タンパク質の判定装置、判定方法及び判定プログラム |
EP2663656B1 (en) | 2011-01-13 | 2016-08-24 | Decode Genetics EHF | Genetic variants as markers for use in urinary bladder cancer risk assessment |
ES2875892T3 (es) * | 2013-09-20 | 2021-11-11 | Spraying Systems Co | Boquilla de pulverización para craqueo catalítico fluidizado |
US20160085910A1 (en) | 2014-09-18 | 2016-03-24 | Illumina, Inc. | Methods and systems for analyzing nucleic acid sequencing data |
KR20180008572A (ko) * | 2015-05-15 | 2018-01-24 | 파이어니어 하이 부렛드 인터내쇼날 인코포레이팃드 | Cas 엔도뉴클레아제 시스템, pam 서열 및 가이드 rna 요소의 신속한 특성화 |
EP3311299A4 (en) * | 2015-06-22 | 2019-02-20 | Myriad Women's Health, Inc. | METHODS OF PREDICTING PATHOGENICITY OF GENETIC SEQUENCE VARIANTS |
CN107622182B (zh) * | 2017-08-04 | 2020-10-09 | 中南大学 | 蛋白质局部结构特征的预测方法及系统 |
CN108197427B (zh) * | 2018-01-02 | 2020-09-04 | 山东师范大学 | 基于深度卷积神经网络的蛋白质亚细胞定位方法和装置 |
CN108595909A (zh) * | 2018-03-29 | 2018-09-28 | 山东师范大学 | 基于集成分类器的ta蛋白靶向预测方法 |
-
2019
- 2019-05-09 KR KR1020197038080A patent/KR102165734B1/ko active IP Right Grant
- 2019-05-09 JP JP2019567603A patent/JP6888123B2/ja active Active
- 2019-05-09 CN CN202111113164.1A patent/CN113705585A/zh active Pending
- 2019-05-09 SG SG11201911777QA patent/SG11201911777QA/en unknown
- 2019-05-09 SG SG10202108013QA patent/SG10202108013QA/en unknown
- 2019-05-09 AU AU2019272062A patent/AU2019272062B2/en active Active
- 2019-05-09 WO PCT/US2019/031621 patent/WO2020081122A1/en active Search and Examination
- 2019-05-09 CN CN201980003263.9A patent/CN111328419B/zh active Active
- 2019-05-09 NZ NZ759665A patent/NZ759665A/en unknown
- 2019-12-02 IL IL271091A patent/IL271091B/en active IP Right Grant
-
2021
- 2021-04-27 IL IL282689A patent/IL282689A/en unknown
- 2021-05-19 JP JP2021084634A patent/JP7200294B2/ja active Active
- 2021-11-17 AU AU2021269351A patent/AU2021269351B2/en active Active
-
2022
- 2022-12-21 JP JP2022204685A patent/JP2023052011A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
SG11201911777QA (en) | 2020-05-28 |
IL282689A (en) | 2021-06-30 |
CN113705585A (zh) | 2021-11-26 |
JP2021152907A (ja) | 2021-09-30 |
CN111328419B (zh) | 2021-10-19 |
JP7200294B2 (ja) | 2023-01-06 |
WO2020081122A1 (en) | 2020-04-23 |
NZ759665A (en) | 2022-07-01 |
KR20200044731A (ko) | 2020-04-29 |
AU2021269351B2 (en) | 2023-12-14 |
IL271091B (en) | 2021-05-31 |
JP2021501923A (ja) | 2021-01-21 |
AU2019272062A1 (en) | 2020-04-30 |
IL271091A (en) | 2020-04-30 |
CN111328419A (zh) | 2020-06-23 |
JP2023052011A (ja) | 2023-04-11 |
SG10202108013QA (en) | 2021-09-29 |
KR102165734B1 (ko) | 2020-10-14 |
AU2021269351A1 (en) | 2021-12-09 |
AU2019272062B2 (en) | 2021-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6888123B2 (ja) | 深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術 | |
EP3659143B1 (en) | Deep learning-based techniques for pre-training deep convolutional neural networks | |
US10540591B2 (en) | Deep learning-based techniques for pre-training deep convolutional neural networks | |
JP6785995B2 (ja) | 配列特定的エラー(sse)を引き起こす配列パターンを特定するための深層学習ベースのフレームワーク | |
CA3064223A1 (en) | Deep learning-based techniques for pre-training deep convolutional neural networks | |
NZ788839A (en) | Deep learning-based techniques for pre-training deep convolutional neural networks | |
NZ788045A (en) | Deep convolutional neural networks for variant classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191225 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20191225 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210405 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210419 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210519 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6888123 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |