JP2019512758A - マルチモーダル生成機械学習のためのシステムおよび方法 - Google Patents

マルチモーダル生成機械学習のためのシステムおよび方法 Download PDF

Info

Publication number
JP2019512758A
JP2019512758A JP2018536524A JP2018536524A JP2019512758A JP 2019512758 A JP2019512758 A JP 2019512758A JP 2018536524 A JP2018536524 A JP 2018536524A JP 2018536524 A JP2018536524 A JP 2018536524A JP 2019512758 A JP2019512758 A JP 2019512758A
Authority
JP
Japan
Prior art keywords
compound
data
level
generation model
genetic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018536524A
Other languages
English (en)
Inventor
健太 大野
健太 大野
ジャスティン クレイトン
ジャスティン クレイトン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Preferred Networks Inc
Original Assignee
Preferred Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Preferred Networks Inc filed Critical Preferred Networks Inc
Publication of JP2019512758A publication Critical patent/JP2019512758A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/08Computing arrangements based on specific mathematical models using chaos models or non-linear system models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Nonlinear Science (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

様々な実施形態において、本明細書に記載されるシステムおよび方法は、マルチモーダル生成モデルに関するものである。生成モデルは、化合物と、該化合物に関連する様々なデータモダリティの生物学情報、化学情報、遺伝情報、視覚情報、または臨床情報のうちの1または複数とを含む訓練セットを使用し、機械学習手法を使用して訓練されうる。深層学習アーキテクチャが使用されうる。様々な実施形態において、生成モデルは、異なるカテゴリーの複数の所望の特性を満足させる化合物を生成するのに使用される。

Description

本発明は、マルチモーダル生成機械学習に関する。
所望の特性を有するリード化合物の探索は、典型的にはハイ・スループット・スクリーニングまたはバーチャルスクリーニングを含む。これらの方法は、低速で、高くつき、効果的ではない。
ハイ・スループット・スクリーニングでは、化合物ライブラリからの化合物を試験する。しかし、化合物ライブラリは膨大であり、候補のほとんどはヒット化合物として選択されるのに適さない。この複雑なアプローチに伴う費用を最小限に抑えるために、いくつかのスクリーニング方法はバーチャルスクリーニングとして知られるインシリコ法を利用する。しかしながら、利用可能なバーチャルスクリーニング法は、膨大な計算能力を必要とし、アルゴリズム的に不十分で時間がかかる。
さらに、現在のhit−to−lead探索は、主に、化合物候補の膨大なリストからの網羅的スクリーニングを含む。このアプローチは、所望の特性を有する化合物が既存の化合物のリスト内で見出されるという期待に依拠したものである。さらに、たとえ現在のスクリーニング法でリード化合物をうまく見つけることができたとしても、それはこれらのリード化合物を薬物として使用できることを意味するものではない。候補化合物が臨床試験の後期に失敗することはまれではない。失敗の主な理由の1つは、動物またはヒトによる実験まで明らかにならない毒性または副作用である。最後に、これらの探索モデルは低速で高くつく。
加えて、創薬では往々にして、被験者の集団について個々の分集団の遺伝的構成を考慮せずに行われる。遺伝的構成が考慮される場合でさえ、スクリーニングおよび/または試験には関連する遺伝マーカーまたは生物学的マーカーが必要とされうる。例えば、ハーセプチンの個別化された投与は、HER2の検査が関係していることと、HER2検査の結果とを必要とする。これらの制限により、創薬のような個別化された医療は、因子の単純な組み合わせの単純なスクリーニングに限定され、様々な因子の未知の相互作用や非線形の相互作用を考慮することができない。
既存の方法は非効率的であり、制限があるため、標的タンパク質への結合や特定の遺伝的構成の患者に有効であるといった所望の特性を有する候補化合物を直接生成する薬物設計法が必要であり、候補化合物が標的以外および/または他の標的とどのように相互作用するか、毒性または副作用がないかを予測する必要がある。さらに候補化合物が指定された結果を誘導すると予期される遺伝情報を生成する必要もある。さらに個別化された処方方法も必要である。最後に、複数のモダリティのデータで訓練することができる、基礎をなす高次元マルチモーダルデータの分布を考慮に入れた予測モデルが必要である。
第1の態様において、本明細書に記載される本発明のシステムおよび方法は、マルチモーダル生成モデルを含むコンピュータシステムに関するものである。マルチモーダル生成モデルは、各々が複数の層のユニットを有するn個のネットワークモジュールを含む第1レベルと、m層のユニットを含む第2レベルとを含みうる。生成モデルは、少なくともl個の異なるデータモダリティを含む訓練データを生成モデルに入力することによって訓練され、少なくとも1つのデータモダリティが化合物フィンガープリントを含む。いくつかの実施形態では、n個のネットワークモジュールのうちの少なくとも1つは、無向非巡回グラフなどの無向グラフを含む。いくつかの実施形態では、無向グラフは、制限ボルツマンマシン(RBM)または深層ボルツマンマシン(DBM)を含む。いくつかの実施形態では、少なくとも1つのデータモダリティは、遺伝情報を含む。いくつかの実施形態では、少なくとも1つのデータモダリティは、試験結果または画像を含む。いくつかの実施形態では、第2レベルの第1層は、n個のネットワークモジュールの各々の第1レベル間層から入力を受け取るように構成される。いくつかの実施形態では、n個のネットワークモジュールの各々の第2レベル間層は、第2レベルの第2層から入力を受け取るように構成される。いくつかの実施形態では、第2レベルの第1層と第2レベルの第2層とは同じである。いくつかの実施形態では、ネットワークモジュールの第1レベル間層とネットワークモジュールの第2レベル間層とは同じである。いくつかの実施形態では、nは、少なくとも2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、または100である。いくつかの実施形態では、mは、少なくとも1、2、3、4または5である。いくつかの実施形態では、lは、少なくとも2、3、4、5、6、7、8、9または10である。いくつかの実施形態では、訓練データは、遺伝情報、全ゲノム配列、部分ゲノム配列、バイオマーカー、一塩基多型(SNP)、メチル化パターン、構造情報、転座、欠失、置換、逆位、挿入、ウイルス配列挿入、点突然変異、一塩基挿入、一塩基欠失、一塩基置換、microRNA配列、microRNA変異、microRNA発現レベル、化合物表現、フィンガープリント、バイオアッセイ結果、遺伝子発現レベル、mRNA発現レベル、タンパク質発現レベル、小分子生成レベル、グリコシル化、細胞表面タンパク質発現、細胞表面ペプチド発現、遺伝情報の変化、X線画像、MR画像、超音波画像、CT画像、写真、顕微鏡写真、病歴、患者人口統計、患者自己申告問診表、臨床メモ、毒性、交差反応性、薬物動態学、薬力学、生物学的利用能、溶解性、疾患進行、腫瘍サイズ、経時的なバイオマーカーの変化、および個人健康管理データからなる群より選択されるデータタイプを含む。いくつかの実施形態では、生成モデルは、遺伝情報および試験結果の入力時に化合物フィンガープリントの値を生成するように構成される。いくつかの実施形態では、生成モデルは、化合物フィンガープリントおよび試験結果の入力時に遺伝情報を生成するように構成される。いくつかの実施形態では、生成モデルは、化合物フィンガープリントおよび遺伝情報の入力時に試験結果を生成するように構成される。いくつかの実施形態では、生成モデルは、複数のデータモダリティの値を生成するように、例えば、化合物フィンガープリントおよび遺伝情報の指定された要素の入力時に、化合物フィンガープリントの欠損要素および遺伝情報の欠損要素の値、ならびに、試験結果、画像、疾患進行を測定する順次データなどの他のデータモダリティの値を生成するように構成される。
第2の態様において、本明細書に記載される本発明のシステムおよび方法は、少なくとも1つのデータモダリティが化合物フィンガープリントを含む、少なくともl個の異なるデータモダリティを含む訓練データを生成モデルに入力するステップを含む、生成モデルを訓練するための方法に関するものである。生成モデルは、各々が複数の層のユニットを有するn個のネットワークモジュールを含む第1レベルを含みうる。いくつかの実施形態では、生成モデルはまた、m層のユニットを含む第2レベルも含む。
第3の態様において、本明細書に記載される本発明のシステムおよび方法は、個別化された薬物処方予測を生成する方法に関するものである。本方法は、生成モデルに遺伝情報の値および化合物のフィンガープリント値を入力するステップと、試験結果を生成するステップとを含みうる。生成モデルは、各々が複数の層のユニットを有するn個のネットワークモジュールを含む第1レベルと、m層のユニットを含む第2レベルとを含みうる。生成モデルは、少なくとも1つのデータモダリティが化合物フィンガープリントを含み、少なくとも1つのデータモダリティが試験結果を含み、少なくとも1つのデータモダリティが遺伝情報を含む、少なくともl個の異なるデータモダリティを含む訓練データを生成モデルに入力することによって訓練され、入力値の遺伝情報を有する患者が化合物の投与時に生成された試験結果を有する尤度は、閾値尤度以上である。いくつかの実施形態では、本方法は、患者に、化合物を含む処方を作成するステップをさらに含む。いくつかの実施形態では、閾値尤度は、少なくとも99%、98%、97%、96%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%または0.1%である。
第3の態様において、本明細書に記載される本発明のシステムおよび方法は、個別化された創薬の方法に関するものである。本方法は、生成モデルに試験結果値および遺伝情報の値を入力するステップと、化合物のフィンガープリント値を生成するステップとを含みうる。生成モデルは、各々が複数の層のユニットを有するn個のネットワークモジュールを含む第1レベルと、m層のユニットを含む第2レベルとを含みうる。生成モデルは、少なくとも1つのデータモダリティが化合物フィンガープリントを含み、少なくとも1つのデータモダリティが試験結果を含み、少なくとも1つのデータモダリティが遺伝情報を含む、少なくともl個の異なるデータモダリティを含む訓練データを生成モデルに入力することによって訓練され、入力値の遺伝情報を有する患者が化合物の投与時に試験結果を有する尤度は、閾値尤度以上である。いくつかの実施形態では、閾値尤度は、少なくとも99%、98%、97%、96%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%または0.1%である。
第4の態様において、本明細書に記載される本発明のシステムおよび方法は、薬物の患者集団を同定する方法に関するものである。本方法は、生成モデルに試験結果値および化合物のフィンガープリント値を入力するステップと、遺伝情報を生成するステップとを含みうる。生成モデルは、各々が複数の層のユニットを有するn個のネットワークモジュールを含む第1レベルと、m層のユニットを含む第2レベルとを含みうる。いくつかの実施形態では、生成モデルは、少なくとも1つのデータモダリティが化合物フィンガープリントを含み、少なくとも1つのデータモダリティが試験結果を含み、少なくとも1つのデータモダリティが遺伝情報を含む、少なくともl個の異なるデータモダリティを含む訓練データを生成モデルに入力することによって訓練され、生成値の遺伝情報を有する患者が化合物の投与時に入力された試験結果を有する尤度は、閾値尤度以上である。いくつかの実施形態では、閾値尤度は、少なくとも99%、98%、97%、96%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%または0.1%である。いくつかの実施形態では、本方法は、複数のヒト被験者を含む臨床試験を行うステップをさらに含み、臨床試験の管理者は、複数のヒト被験者の少なくとも閾値割合について遺伝情報の生成値を満足させる遺伝情報を有する。いくつかの実施形態では、閾値割合は、少なくとも少なくとも99%、98%、97%、96%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%または0.1%である。
第4の態様において、本明細書に記載される本発明のシステムおよび方法は、化合物の臨床試験を行う方法に関するものである。本方法は、複数のヒト被験者に化合物を投与するステップを含みうる。いくつかの実施形態では、臨床試験の管理者は、複数のヒト被験者の少なくとも閾値割合について遺伝情報の生成値を満足させる遺伝情報を有し、遺伝情報の生成値は、請求項23に記載の方法に従って生成される。いくつかの実施形態では、閾値割合は、少なくとも少なくとも99%、98%、97%、96%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%または0.1%である。
本発明の上記その他の態様および特徴は、以下の本発明の具体的な実施形態の説明を添付の図と併せて考察すれば、当業者には明らかになるであろう。
2つのレベルを有し、第1レベルが、異なるデータモダリティを受け入れるように各々構成された2つのネットワークモジュールを含む生成モデルを含む本発明の例示的な実施形態を示す図である。 2つのレベルを有し、第1レベルが、異なるデータモダリティを受け入れるように各々構成された4つのネットワークモジュールを含む生成モデルを含む本発明の別の例示的な実施形態を示す図である。 3つのレベルを有し、第0レベルの2つのネットワークモジュールの共有表現と第1レベルのネットワークモジュールの出力とが、第2レベルの第2の共有表現において組み合わされる生成モデルを含む本発明の別の例示的な実施形態を示す図である。 本明細書に記載される動作のうちの1または複数を実行しうる例示的なコンピュータシステムのブロック図である。 2つの異なるデータモダリティの要素の値を生成するように構成された2つのレベルを有する生成モデルを含む本発明の例示的な実施形態を示す図である。 変分リカレント・ニューラル・ネットワーク(VRNN)を含むマルチモーダル生成モデルを含む本発明の例示的な実施形態を示す図である。 例示的なVRNNの構成要素のデータフローを示す図である。
様々な実施形態において、本発明のシステムおよび方法は、精密医療および/または個別化医療のための生成モデルに関するものである。生成モデルは、全ゲノム配列や部分ゲノム配列などの遺伝情報、バイオマーカー、一塩基多型(SNP)、メチル化パターン、転座、置換、逆位、ウイルス配列挿入などの挿入、挿入、欠失、置換などの点突然変異、またはそれらの表現、microRNA配列、microRNA変異および/またはmicroRNA発現レベルといった構造情報;化合物表現、例えばフィンガープリント;例えば、健康組織および/または疾患組織における遺伝子、mRNA、タンパク質などの発現レベルや、小分子発現/生成レベル、グリコシル化、細胞表面タンパク質および/またはペプチド発現、または遺伝情報の変化などのバイオアッセイ結果;非侵襲的(例えば、X線、MR、超音波、CTなど)または侵襲的(例えば、写真や顕微鏡写真などの生検画像)処置によって得られるような画像、病歴および人口統計、患者自己申告問診表、および/またはテキスト形式のノートを含む臨床メモ;毒性;交差反応性;薬物動態学;薬力学;生物学的利用能;溶解性;疾患進行;腫瘍サイズ;経時的なバイオマーカーの変化;個人健康管理データ;ならびに当技術分野で公知の任意の他の適切なデータモダリティまたはデータタイプを含む複数のデータモダリティといった複数のデータモダリティを組み込み、かつ/またはそれらのデータモダリティによって訓練されうる。そのようなシステムを使用して、1または複数の所望のデータモダリティまたはデータタイプの出力を生成することができる。そのようなシステムおよび方法は、1または複数の所望のデータタイプの出力を生成するために入力値として1または複数のデータモダリティの値をとりうる。
様々な実施形態において、本明細書に記載されるシステムおよび方法を使用して、様々なデータモダリティ間の非線形関係を捉え、利用することができる。そのような非線形関係は、関連するデータモダリティの表現における様々な抽象度に関しうる。
いくつかの実施形態では、本発明の方法およびシステムは、既知のバイオマーカーを必要とせずに、本明細書でさらに詳述する様々な目的に使用することができる。本明細書に記載されるシステムおよび方法は、訓練データおよび/または入力データにおける様々なサイズの入力および/または欠損値を処理することを可能にするマスキングモジュールを含むが、これに限定されないモジュールおよび機能を含みうる。本明細書に記載されるシステムおよび方法は、制限ボルツマンマシン(RBM)、深層ボルツマンマシン(DBM)、変分オートエンコーダ(VAE)、リカレント・ニューラル・ネットワーク(RNN)、変分リカレント・ニューラル・ネットワーク(VRNN)といった、1または複数のデータモダリティの専用ネットワークモジュールを含みうる。
様々な実施形態において、本明細書に記載される方法およびシステムは、マルチモーダルDBMやマルチモーダル深層信念ネット(DBN)などのマルチモーダル生成モデルを含む。マルチモーダルDBMなどのマルチモーダル生成モデルは、有向ユニモーダル経路や無向ユニモーダル経路などのユニモーダル経路の構成を含みうる。各経路は、完全に教師なし、または半教師ありの方式で別々に事前訓練されうる。あるいは、すべての経路およびモジュールのネットワーク全体が一緒に訓練されてもよい。任意の数の層を各々有する任意の数の経路が使用されうる。いくつかの実施形態では、可視層および隠れ層の伝達関数は、経路内および/または経路間で異なる。いくつかの実施形態では、各経路の終わりの隠れ層の伝達関数は、同じタイプ、例えば二値である。個々のデータモダリティの統計的特性の違いは、モダリティ間の隠れユニットの層によって橋渡しされうる。本明細書に記載される生成モデルは、ある経路における低レベルの隠れユニットの状態が、高レベルの層を通る他の経路における隠れユニットの状態に影響を及ぼすように構成することができる。
生成モデルは、約1レベル、2レベル、3レベル、4レベル、5レベル、6レベル、7レベル、8レベル、9レベル、またはそれ以上のレベルを含みうる。いくつかの実施形態では、生成モデルは、約10レベル、9レベル、8レベル、7レベル、6レベル、5レベル、4レベル、もしくは3レベル、またはそれ未満のレベルを含む。各レベルは、RBMやDBMなどの1または複数のネットワークモジュールを含みうる。例えば、第1レベル、第2レベル、第3のレベル、または別のレベルなどのレベルは、約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、80、90、100、またはそれ以上のネットワークモジュールを含みうる。いくつかの実施形態では、レベルは、約200、150、125、100、90、80、70、65、60、55、50、45、40、35、30、25、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、もしくは3、またはそれ未満のネットワークモジュールを含みうる。各ネットワークモジュールは、特定のデータモダリティまたはデータタイプのデータの表現を生成するのに使用されうる。データモダリティまたはデータタイプは、全ゲノム配列や部分ゲノム配列などの遺伝情報、バイオマーカー、一塩基多型(SNP)、メチル化パターン、転座、置換、逆位、ウイルス配列挿入などの挿入、挿入、欠失、置換などの点突然変異、またはそれらの表現、microRNA配列、microRNA変異および/またはmicroRNA発現レベルといった構造情報;化合物表現、例えばフィンガープリント;例えば、健康組織および/または疾患組織における遺伝子、mRNA、タンパク質などの発現レベルや、小分子発現/生成レベル、グリコシル化、細胞表面タンパク質および/またはペプチド発現、または遺伝情報の変化などのバイオアッセイ結果;非侵襲的(例えば、X線、MR、超音波、CTなど)または侵襲的(例えば、写真や顕微鏡写真などの生検画像)処置によって得られるような画像、病歴および人口統計、患者自己申告問診表、および/またはテキスト形式のメモを含む臨床メモ;毒性;交差反応性;薬物動態学;薬力学;生物学的利用能;溶解性;疾患進行;腫瘍サイズ;経時的なバイオマーカーの変化;個人健康管理データ;ならびに当技術分野で公知の任意の他の適切なデータモダリティまたはデータタイプであってよい。第2以降のレベルは、第1レベルからの表現を組み込んだ共有表現に使用されうる。共有表現に使用されるレベルは、複数の隠れ層および/または生成モデルのような別のタイプのモデル、例えば、変分オートエンコーダを含みうる。
様々な実施形態において、本方法および本方法のシステムは、複数のモダリティを含むデータ空間に及ぶ同時確率密度モデルを学習するように訓練されうる。生成モデルは、データモダリティの条件付き分布を生成するのに使用されうる。生成モデルは、他のラベル要素の値を含む入力に応答して、そのような条件付き分布からサンプリングしてラベル要素値を生成するのに使用されうる。いくつかの実施形態では、例えばシーディングのために、生成モデルは、生成されたラベル要素の値を含む、ラベル要素の値を含む入力に応答して、そのような条件付き分布からサンプリングしてラベル要素値を生成しうる。
様々な実施形態において本明細書で記載される生成値は、成功の閾値条件を満たしうる。いくつかの実施形態では、閾値条件は、所望のラベルまたはラベル要素値を満たす尤度として表現される。
様々な実施形態において、本明細書に記載される方法およびシステムは、生成モデルの訓練、化合物および/または関連付けられるラベル値の表現の生成、またはその両方に使用されうる。訓練フェーズに続いて生成フェーズが行われうる。いくつかの実施形態では、第1の当事者が訓練フェーズを行い、第2の当事者が生成フェーズを行う。訓練フェーズを行う当事者は、訓練によって決定されるシステムのパラメータを、第1の当事者が所有する別個のコンピュータシステムに、もしくは第2の当事者に、かつ/または第2の当事者が所有するコンピュータシステムに、直接、または例えば仲介当事者を使用して提供することによって訓練された生成モデルの複製を可能にしうる。したがって、訓練されたコンピュータシステムとは、本明細書に記載される場合、第2のコンピュータシステムが第1のシステムの出力分布を再現できるように、第2のコンピュータシステムに、本明細書に記載される訓練方法を使用して第1のコンピュータシステムを訓練することによって取得されたパラメータを提供することによって構成された第2のコンピュータシステムを指しうる。そのようなパラメータは、有形または無形の形態で第2のコンピュータシステムに転送されうる。
生成モデルの第1レベルのネットワークモジュールなどのネットワークモジュールは、様々な実施形態において、そのモジュールがそのための表現を生成するように設定されている特定のデータモダリティまたはデータタイプに従って構成される。任意のレベルの任意の層のユニットが、異なる伝達関数で構成されうる。例えば、二進値をとる可視ユニットおよび隠れユニットは、二値伝達関数またはロジスティック伝達関数を使用しうる。実数値の可視ユニットは、ガウス伝達関数を使用しうる。画像は、実数値の可視ユニットが適する実数値データで表されうる。ガウシアン・ベルヌーイRBMまたはガウシアン・ベルヌーイDBMは、実数値可視ユニットおよび二値隠れユニットに使用されうる。序数値のデータは、累積RBMまたは累積DBMを使用して符号化されうる。入力が混合型のものである場合、混合変量RBMまたは混合変量DBMが使用されうる。テキストは、Replicated Softmax(複製ソフトマックス)のみによって、または追加のネットワークモジュールと組み合わせて符号化されうる。遺伝子配列は、リカレント・ニューラル・ネットワーク(RNN)によって、例えば変分オートエンコーダ(VAE)のRNNによって符号化されうる。
様々な実施形態において、生成モデルは、個々のモダリティまたはデータタイプの表現が、その他のデータモダリティまたはデータタイプのうちの1または複数からの表現の影響を受けるように構築され、訓練される。個々のモダリティまたはデータタイプの表現は、複数のネットワークモジュールからの表現を組み込んだ共有表現によっても影響されうる。
いくつかの実施形態では、ネットワークは、特定の投薬法または薬物、例えば、フィンガープリントの一部または全部の要素の値の同定情報と、推奨される用量、例えば、連続変数の形の推奨される用量の両方を生成する。
図1に、2つのレベルを有する生成モデルを含む本発明の例示的な実施形態を示す。第1レベルは、特定のデータモダリティまたはデータタイプに専用に構成された2つ以上のネットワークモジュールを含みうる。例えば、第1のネットワークモジュールは、フィンガープリント固有のRBMまたはDBMを含みうる。第2のモジュールは、化合物のin vitroまたはin vivoの試験結果、例えば、遺伝子発現データに固有のRBMまたはDBMを含みうる。第1レベルのネットワークモジュールは、1または複数の層のユニットを含む第2レベルでリンクされうる。第2レベルの層は、隠れユニットを含みうる。いくつかの実施形態では、第2レベルは単一の隠れ層を含む。第2レベルの層は、第1レベルのモジュールからの出力を共有表現に組み込みうる。同時確率分布は、いくつかのモダリティまたはタイプのデータからの寄与を反映しうる。
化合物フィンガープリントおよび関連付けられるラベルデータ、例えば、化合物と関連付けられるバイオアッセイ結果を有するラベルデータの生成モデルを含むシステムおよび方法が、参照によりその全体が本明細書に組み込まれる、米国特許出願第62/262,337号の多数の実施形態に記載されている。図1に示す例示的な実施形態は、化合物フィンガープリントを化合物と関連付けられる結果にリンクする生成モデル、すなわち、化合物フィンガープリントのアッセイ結果を生成するための生成モデルおよび/または所望の結果から化合物フィンガープリントを生成するために生成モデルも可能にする。
図2に、2つのレベルを有する生成モデルを含む本発明の別の例示的な実施形態を示す。第1レベルは、特定のデータモダリティまたはデータタイプに専用に構成された2つ以上のネットワークモジュールを含みうる。例えば、第1のネットワークモジュールは、フィンガープリント固有のRBMまたはDBMを含みうる。第2のモジュールは、遺伝情報に特有のRBMまたはDBMを含みうる。第3のモジュールは、化合物のin vitroまたはin vivoの試験結果、例えば、遺伝子発現データに固有のRBMまたはDBMを含みうる。第4のモジュールは、画像データに固有のRBMまたはDBMを含みうる。画像データは、X線、超音波、磁気共鳴(MR)、コンピュータ断層撮影(CT)、生検の写真もしくは顕微鏡写真、または当技術分野で公知の任意の他の適切な画像など、1または複数の画像タイプを含みうる。第1レベルのネットワークモジュールは、1または複数の層のユニットを含む第2レベルでリンクされうる。第2レベルの層は、隠れユニットを含みうる。いくつかの実施形態では、第2レベルは単一の隠れ層を含む。いくつかの実施形態では、第2レベルは、変分オートエンコーダなどの生成モデルを含みうる。第2レベルの層は、第1レベルのモジュールからの出力を共有表現に組み込みうる。同時確率分布は、いくつかのモダリティまたはタイプのデータからの寄与を反映しうる。
いくつかの実施形態では、本明細書でさらに詳細に説明されている本発明のシステムおよび方法は、第1レベルの個々のモジュール、例えば個々のRBMまたはDBMが、第2レベルの1または複数の隠れ層と同時に訓練されると定める。理論に制約されるものではないが、同時訓練は、共有表現が個々のネットワークモジュールの訓練された重みに影響を及ぼすことを可能にしうる。さらに、理論に制約されるものではないが、共有表現は、したがって、RBMまたはDBMなどの、各ネットワークモジュール内の個々のデータモダリティまたはデータタイプの符号化に影響を及ぼしうる。いくつかの実施形態では、第1レベルの1または複数のネットワークモジュールが単一変数を符号化する。
様々な実施形態において、本発明のシステムおよび方法は、第1レベルからの複数のネットワークモジュールが第2レベルに結合されることを可能にする。第1レベルの個々のネットワークモジュールは、同一のアーキテクチャまたは類似したアーキテクチャを有しうる。いくつかの実施形態では、第1層内の個々のネットワークモジュールのアーキテクチャは、互いに異なる。個々のネットワークモジュールは、異なるタイプのデータモダリティまたはデータタイプの符号化の違いに対応するように構成されうる。いくつかの実施形態では、類似したデータモダリティを有する異なるデータタイプを符号化するのに別々のネットワークモジュールが専用に割り当てられうる。例えば、臨床メモと患者自己申告調査など、2つのデータタイプのテキストモダリティが、2つの別々のネットワークモジュールを使用して符号化されうる(図3)。
図6に、VRNNを含むマルチモーダル生成モデルを含む本発明の例示的な実施形態を示す。VRNNのエンコーダは、時間ステップごとに時系列の潜在表現zを生成するのに使用されうる。時間tにおける符号化は、時系列の時間情報を考慮に入れることができる。RNNは、新しいデータ点からのステップごとのその隠れ状態および前の時間ステップにおけるVAEからの潜在表現を更新しうる。
図7に、例示的なVRNNの構成要素のデータフローを示す。図中、xt、、hは時刻tにおける時系列のデータ点、tにおける時系列の潜在表現、およびRNNの隠れ状態である。
いくつかの実施形態では、ネットワークモジュールは、追加レベルのモデルアーキテクチャ内で構成されうる。そのような追加レベルは、本明細書の別の箇所にさらに詳細に記載されている第1レベル、第2レベル、または別のレベルのアーキテクチャに表現を入力しうる。例えば、データが「第0」レベルで符号化され、結果として得られる表現は、第1レベル、例えば、第1レベル内の特定のネットワークモジュールに、または直接第2レベルに入力されうる。追加レベルのアーキテクチャにおけるネットワークモジュールの訓練は、他のレベルのネットワークモジュールと同時に行われる場合もそうでない場合もある。
様々な実施形態において、本明細書に記載されるシステムおよび方法は、深層生成モデル、DBM、DBN、確率的オートエンコーダ、リカレント・ニューラル・ネットワーク、変分オートエンコーダ、リカレント変分ネットワーク、変分リカレント・ニューラル・ネットワーク(VRNN)、無向グラフィカルモデルもしくは有向グラフィカルモデル、信念ネットワーク、またはそれらの変形を含むがこれに限定されない深層ネットワークアーキテクチャを利用する。
<データ>
様々な実施形態において、本明細書に記載されるシステムおよび方法は、マルチモーダル設定で動作するように構成され、データは複数のモードを含む。各モダリティは、異なる種類の表現および相関構造を有しうる。例えば、テキストは、通常、離散的で疎な単語カウントベクトルとして表されうる。画像は、画素強度または実数値で、密でありうる特徴抽出器の出力を使用して表されうる。様々なデータモードは、非常に異なる統計的特性を有しうる。化合物は、フィンガープリントを使用して表されうる。本明細書に記載されるシステムおよび方法は、様々な実施形態において、モダリティにわたる関係、すなわちモダリティ間関係、および/または同じモダリティ内の特徴間の関係、すなわちモダリティ内関係を発見するように構成される。本明細書に記載されるシステムおよび方法は、異なるモダリティにわたる特徴間の高度に非線形な関係を発見するのに使用されうる。そのような特徴は、高レベルまたは低レベルの特徴を含みうる。本明細書に記載されるシステムおよび方法は、ノイズの多いデータおよび特定のデータモダリティまたはデータタイプの欠損値を含むデータを処理するように実現されうる。
いくつかの実施形態では、データは、経時的なバイオマーカーの変化、経時的な腫瘍サイズ、経時的な疾患進行、経時的な個人健康管理データなどの順次データを含む。
本明細書の別の箇所にさらに詳細に記載されている本発明のシステムおよび方法は、様々な実施形態において、約または少なくとも約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、またはそれ以上のデータモダリティを符号化するように構成されうる。そのようなデータモダリティには、フィンガープリントなどの化合物表現、遺伝情報、試験結果、画像データ、または本明細書でさらに詳細に説明されるか、それ以外の当技術分野で公知の任意の他の適切なデータなどが含まれうる。
<データソース>
訓練データは、PubChem(http://pubchem.ncbi.nlm.nih.gov/)などのデータベースからの化合物および関連付けられたラベルの情報から集められうる。データはまた、薬物スクリーニングライブラリ、コンビナトリアル合成ライブラリなどから取得されうる。アッセイに関連する試験結果ラベル要素は、細胞アッセイおよび生化学的アッセイを含むことができ、場合によっては、複数の関連アッセイ、例えば酵素の異なるファミリーのアッセイを含みうる。様々な実施形態において、1または複数のラベル要素に関する情報は、化合物データベース、バイオアッセイデータベース、毒性データベース、臨床記録、交差反応性記録、または当技術分野で公知の任意の他の適切なデータベースなどのリソースから取得されうる。
遺伝情報は、患者から直接、またはゲノムおよび表現型変異データベース、がんゲノムアトラス(TCGA)データベース、ゲノム変異データベース、変異体疾患関連付けデータベース、臨床ゲノムデータベース、疾患特異的変異データベース、遺伝子座特異的変異データベース、体細胞がん変異データベース、ミトコンドリア変異データベース、国民的民族的変異データベース、非ヒト変異データベース、染色体再配置および融合データベース、変異オントロジー、個人ゲノムデータベース、エクソン・イントロンデータベース、保存または超保存コーディングおよび非コーディング配列データベース、エピゲノムデータベース、例えば、DNAメチル化、ヒストン修飾、ヌクレオソームポジショニング、ゲノム構造などのデータベース、または当技術分野で公知の任意の他の適切なデータベースなどのデータベースから取得されうる。
いくつかの実施形態では、遺伝情報は、幹細胞、例えば、人工多能性幹細胞(iPS細胞またはiPSC)やその集団などの組織または細胞から取得される。遺伝情報は、1または複数の化合物の投与への反応、臨床情報、自己申告情報、画像データ、または本明細書に記載されるか、それ以外に当技術分野で公知の任意の他の適切なデータを含むがこれに限定されない、他のタイプのデータにリンクされうる。
microRNA情報は、化合物を試験している被験者から、幹細胞などの組織または細胞から、単独で、または、deepBase(biocenter.sysu.edu.cn/deepBase/)、miRBase(www.mirbase.org/)、microRNA.org(www.microrna.org/microrna/getExprForm.do)、miRGen(carolina.imis.athena−innovation.gr/index.php?r=mirgenv3)、miRNAMap(mirnamap.mbc.nctu.edu.tw/)、PMRD(bioinformatics.cau.edu.cn/PMRD/)、TargetScan(www.targetscan.org/)、StarBase(starbase.sysu.edu.cn/)、StarScan(mirlab.sysu.edu.cn/starscan/)、Cupid(cupidtool.sourceforge.net/)、TargetScan(www.targetscan.org/)、TarBase(diana.imis.athena−innovation.gr/DianaTools/index.php?r=tarbase/index)、Diana−micro T(diana.imis.athena−innovation.gr/DianaTools/index.php?r=microtv4/index)、miRecords (c1.accurascience.com/miRecords/)、Pic Tar(pictar.mdc−berlin.de/)、PITA(genie.weizmann.ac.il/pubs/mir07/mir07_data.html)、RepTar(reptar.ekmd.huji.ac.il/)、RNA22(cm.jefferson.edu/rna22/)、miRTarBase(mirtarbase.mbc.nctu.edu.tw/)、miRwalk(www.umm.uni−heidelberg.de/apps/zmf/mirwalk/)、MBSTAR (www.isical.ac.in/〜bioinfo_miu/MBStar30.htm)といったmicroRNAおよび/もしくはmicroRNA標的データベースからの情報と組み合わせて取得されうる。
<生成>
様々な実施形態において、本明細書に記載されるシステムおよび方法は、生成モデルをコア構成要素として利用する。1または複数の視覚変数または隠れ変数が与えられた場合、本発明の方法およびシステムによる生成モデルを使用して、観測可能なデータ値をランダムに生成することができる。視覚変数または隠れ変数は、本明細書の別の箇所にさらに詳細に記載されている、変化するデータモダリティまたはデータタイプのものであってよい。生成モデルは、データを直接モデル化する(すなわち、確率密度関数から引き出された化合物観察をモデル化する)ために、かつ/または条件付き確率密度関数を形成するための中間ステップとして使用することができる。本明細書の別の箇所にさらに詳細に記載されている生成モデルは、典型的には、化合物表現、例えば、フィンガープリント、および化合物と関連付けられた他のデータの同時確率分布を指定する。
本明細書に記載されるシステムおよび方法は、様々な実施形態において、マルチモーダル入力または複数のデータタイプの空間にわたる同時確率密度モデルを学習するように構成されうる。データタイプの例については、本明細書の別の箇所にさらに詳細に記載されており、化合物フィンガープリント、遺伝情報、試験結果、テキストベースのデータ、画像などを含みうるがこれらに限定されない。欠損値を有するモダリティは、例えば、訓練された生成モデルを使用して、入力値を与えられた場合の欠損モダリティの条件付き分布からサンプリングすることなどによって、生成的に補充されうる。入力値は、別のモダリティおよび/または欠損値のモダリティと同じモダリティの要素のものであってよい。例えば、生成モデルは、化合物フィンガープリントおよび遺伝情報P(v,v;θ)の同時分布を学習するように訓練されてもよく、vは化合物フィンガープリントを表し、vは遺伝情報を表し、θは同時分布のパラメータを表す。生成モデルは、P(v|v;θ)および/またはP(v|v;θ)からサンプルを抜き出すのに使用されうる。よって、いずれかのデータモダリティの欠損値が、本明細書に記載されるシステムおよび方法を使用して生成されうる。
いくつかの実施形態では、生成的方法は、生成モデルを訓練するのに使用されるモダリティの数よりも少ないデータモダリティの入力値を使用する。
様々な実施形態において、本明細書に記載される生成モデルは、RBMまたはDBMを含む。いくつかの実施形態では、RBMおよびDBMは、教師あり、または教師なしでデータを再構築することを学習する。生成モデルは、可視層と1または複数の隠れ層との間で1または複数の順方向パスおよび逆方向パスを行いうる。再構築フェーズでは、隠れ層の活性化は、逆方向パスにおける下方の層の入力になる。
一例として、化合物のセットが、F=(f,f,…,f)として表され、fは化合物のフィンガープリント表現を含み、Kはセット中の化合物の数であるとする。これらの化合物は、M個の試験結果ラベルのセットR=(r,r,…,r)と関連付けられており、式中、rは、例えば、健康組織および/もしくは疾患組織における遺伝子発現レベル、μRNA情報、化合物活性、毒性、溶解性、合成の容易さ、またはバイオアッセイ結果もしくは予測研究における他の結果といった、ラベル要素の値を含みうる結果ラベルであり、N個の遺伝情報ラベルのセットG=(g,g,…,g)であり、Q個の画像ラベルのセットM=(m,m,…,m)であり、S個のテキストラベルのセットT=(t,t,…,t)であり、本明細書の別の箇所にさらに詳細に記載されているか、それ以外に当技術分野で公知の化合物と関連付けられる適切なタイプのU個の他のラベルのセットO=(o,o,…,o)である。いくつかの実施形態では、各タイプのラベルは、個々のネットワークモジュールに入力される。場合によっては、個々のタイプのラベルは、事前処理され、かつ/またはサブラベルに分解されうる。例えば、イメージングラベルは、写真、顕微鏡写真、MRスキャンのサブラベルを含んでいてもよく、ゲノムデータは、部分ゲノム配列、SNPマップなどをふくんでいてもよい。サブラベルは、事前処理され、かつ/または異なるネットワークモジュールに入力されうる。
生成モデルは、これらの化合物および関連付けられるデータが、ある未知の分布D、すなわちD〜(f,r,g,m,t,o)から生成されるという仮定で構成されうる。生成モデルを訓練することは、モデルが訓練データセット内のデータ例から同時確率分布P(f,r,g,m,t,o)をモデル化するようにモデルの内部パラメータを調整する訓練方法を利用しうる。様々なデータタイプのラベルの全部または一部が、本明細書に記載されるシステムおよび方法に入力されうる。いくつかの実施形態では、生成モデルは、生成手順で使用されるよりも多くのタイプのデータラベルで訓練されうる。分布Dおよび同時確率分布は、入力ラベルのタイプを考慮して定義されうる。
生成モデルが訓練された後、生成モデルは、r、g、m、t、および/またはoの値を条件とするfの値、すなわち、f〜p(f|r,g,m,t,o)を生成するのに使用されうる。例えば、フィンガープリントの訓練セットおよび様々なタイプのラベルで訓練された生成モデルは、指定されたラベル値の要件を満たす高い尤度を有する化合物の表現を生成しうる。このようにして、本発明のシステムおよび方法は、様々な実施形態において、個別化された創薬に使用されうる。例えば、患者の遺伝情報ラベルG’および所望の結果ラベルR’が与えられた場合、本明細書に記載されるシステムおよび方法を使用して化合物のフィンガープリントが生成されうる。そのような化合物は、当該患者のR’を満足させる尤度を有する候補薬物として使用することができ、そのような尤度は、閾値尤度より大または閾値尤度以上である。いくつかの実施形態では、本発明のシステムおよび方法は、複数のフィンガープリント、例えば、約または少なくとも約2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、250、300、400、500、またはそれ以上の、化合物のフィンガープリントを生成するのに使用され、それらの化合物のうちの少なくとも1、2、3、4、5、6、7、8、9、10、またはそれ以上が、R’を満足させる閾値尤度を上回る尤度を有する。様々な実施形態において、閾値尤度は、例えば、99%、98%、97%、96%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%、または0.1%として設定されうる。
いくつかの実施形態では、訓練された生成モデルを使用して、1または複数の他のラベルl、すなわち、r、g、m、t、oおよび/またはその要素の値を条件とした、r、g、m、t、oおよび/またはその要素の値など、特定のタイプのラベルlまたはその要素の値、すなわち、l〜p(l|f,ln+1)が生成されうる。例えば、フィンガープリントの訓練セットおよび様々なタイプのラベルで訓練された生成モデルは、真である尤度が高い試験結果の表現を生成しうる。このようにして、本発明のシステムおよび方法は、様々な実施形態において、個別化された薬物処方に使用されうる。例えば、化合物のフィンガープリントF’および患者の遺伝情報ラベルG’が与えられた場合、本明細書に記載されるシステムおよび方法を使用して試験結果ラベルR’の値が生成されうる。あるいは、特定の結果および/または特定の薬物と相関させうる、全ゲノム配列や部分ゲノム配列またはバイオマーカーを含むがこれらに限定されない遺伝情報G’が、本明細書に記載される方法およびシステムを使用して同定されうる。例えば、化合物のフィンガープリントF’および結果ラベルR’などのラベルの値が与えられた場合、本明細書に記載されるシステムおよび方法を使用して患者の遺伝情報ラベルG’が生成されうる。本発明のシステムおよび方法は、様々な実施形態において、指定された化合物が有効であるその尤度が最も高い遺伝的特性のセットG’のセットを同定するのに使用することができる。いくつかの実施形態では、本発明のシステムおよび方法は、所望の適応症と副作用の両方についての処方、臨床試験、別の用途などのための患者集団を同定するのに使用される。化合物および指定された結果と相関する尤度が最も高い遺伝情報の構成要素が、本明細書に記載されるシステムおよび方法を使用して同定されうる。患者は、処方に先立ち、所与の化合物および指定された結果について、本方法およびシステムによって選択された遺伝情報基準を満たすかどうか試験されうる。いくつかの実施形態では、本発明のシステムおよび方法は、遺伝情報、画像データなどの患者特異的データを入力することによって、患者に対する薬物の効能を予測するのに使用される。連続値を含む生成されたラベルがランク付けされうる。
様々な実施形態において、生成値は、入力値、例えば化合物フィンガープリント、結果および/または遺伝情報の入力値と関連付けられた尤度を有し、このような尤度は閾値尤度より大または閾値尤度以上である。いくつかの実施形態では、本発明のシステムおよび方法を使用して、約または少なくとも約2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、250、300、400、500、またはそれ以上の値または値の範囲など、生成されたラベルの複数の値または値の範囲を生成することができ、個々の値のうちの値の範囲のうちの1または複数が、入力が与えられた場合に真である尤度を割り当てられる。割り当てられた尤度は、さらに処理された出力を調整する閾値尤度と比較されうる。ラベル値の生成は繰り返されうる。例えば、n反復の生成プロセスが行われ、nは、約または少なくとも約2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、250、300、400、500、またはそれ以上としうる。場合によっては、nは、約500、400、300、250、200、175、150、125、100、90、80、70、60、50、45、40、35、30、25、20、15、14、13、12、11、10、9、8、7、6、5、4または3未満である。生成されたラベルの特定の値の尤度は、複数の生成プロセスからの複数の出力によって決定されうる。様々な実施形態において、閾値尤度は、例えば、99%、98%、97%、96%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%、または0.1%として設定されうる。
RBM、DBM、マルチモーダルDBMなどの訓練された生成モデルは、モデル化された同時確率分布からサンプリングしてラベルの値または値の範囲を生成することによって、観測可能なデータ値を生成またはシミュレートするのに使用されうる。
一実施形態では、生成モデルまたはその中の個々のモジュールの重みは、最適化法によって訓練中に調整される。
様々な実施形態において、本明細書に記載される生成モデルは、可視変数の欠損値を処理するように構成される。欠損値は、例えば、ギブスサンプリングによって、または、RBMやDBMなどの別々のネットワークモジュールを使用して、訓練ケースごとに異なる数の可視ユニットで処理されうる。ギブスサンプリング法では、ラベルlまたはラベル要素の可能な値ごとの自由エネルギーを計算し、次いで、Fを可視ベクトルの自由エネルギーとする、exp(−F(l,v))に比例する確率の値を選択しうる。自由エネルギーFは、
Figure 2019512758
別の有用な式、例えば
Figure 2019512758
または、期待エネルギーからエントロピーを差し引いたもの
Figure 2019512758
によって表すことができ、式中、
Figure 2019512758
は、隠れユニットjへの総入力であり、p=σ(x)は、vが与えられた場合のh=1の確率である。
いくつかの実施形態では、欠損値を転嫁しようと試みる代わりに、本明細書に記載されるシステムおよび方法は、あたかも対応するラベル要素が存在しないかのように振る舞うように構成されうる。訓練ケースごとに異なる数の可視ユニットを有するRBMまたはDBMが使用されうる。異なるRBMまたはDBMは、共有重みを有する異なるモデルのファミリーを形成しうる。隠れバイアスは、RBMまたはDBM内の可視ユニットの数によって評価されうる。
いくつかの実施形態では、欠損値を処理するための方法は、訓練データが欠損値を有するフィンガープリントおよび/またはラベルを含む生成モデルの訓練中に使用される。
様々な実施形態において、本明細書に記載される生成モデルは、マルチモーダルデータで、例えば、フィンガープリントデータ(F)、遺伝情報(G)、および試験結果(R)を含むデータなどで訓練される。そのような訓練された生成モデルは、フィンガープリント、ラベル、および/またはその要素を生成するのに使用されうる。フィンガープリントデータはベクトルv、例えばv=(f,f,f,f,f)で表されうる。遺伝情報はベクトルv、例えばv=(g,g,g,g,g,g)で表されうる。試験結果はベクトルv、例えばv=(r,r,r)で表されうる。様々な実施形態において、本明細書に記載されるシステムおよび方法は、1または複数のモダリティおよび/またはその要素が欠損している用途で使用される。同様に、本明細書に記載されるシステムおよび方法は、特定のラベル要素値が指定され、生成されるラベル要素が指定されたラベル要素値によって設定される条件を満たす高い尤度を有するように他のラベル要素値が生成される用途で使用されうる。様々な実施形態において、他のフィンガープリントおよび/またはラベル要素が与えられた場合に、フィンガープリントおよび/またはラベル要素を生成するのに本明細書に記載される生成モデルが使用されうる。例えば、f、f、f、g、g、g、g、g、g、r、r、およびrが与えられた場合に、fおよびfを生成するのに生成モデルが使用されうる。例えば、1または複数のモダリティおよび/またはその要素の入力値をクランプし、隠れモダリティをサンプリングすることによって、データモダリティまたはその要素の欠損値を生成するのにマルチモーダルDBMが使用されうる。いくつかの実施形態では、f、f、f、g、g、g、g、g、g、r、r、およびrが与えられた場合に、例えば、fおよびfを生成するために、1または複数のデータモダリティおよび/またはその要素の欠損値を生成するのにギブスサンプリングが使用される。f、f、f、g、g、g、g、g、g、r、r、rなどの入力値は、モデルに入力され、固定されうる。隠れユニットはランダムに初期化されうる。隣接する層の状態が与えられた場合に、例えば、各隠れ層を更新することによって、分布P(F|G,R)から標本を抜き出すために、交互のギブスサンプリングが使用されうる。この分布からのfおよびfのサンプリング値は、fおよびfの真の分布の近似分布を定義しうる。この近似分布は、fおよびfの値をサンプリングするのに使用されうる。そのような近似分布からのサンプリングは、1または複数のギブスステップの後に、例えば、約2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500、またはそれ以上のギブスステップの後に、1回または複数回繰り返されうる。いくつかの実施形態では、本明細書に記載される生成モデルは、約500、400、300、200、100、90、80、70、60、50、40、30、25、20、15、10、9、8、7、6、5、4、3、または2未満のギブスステップの後に、1回または複数回近似分布からサンプリングするのに使用されうる。近似分布からのサンプリングは、約または少なくとも約2回、3回、4回、5回、6回、7回、8回、9回、10回、15回、20回、25回、30回、40回、50回、60回、70回、80回、90回、100回、200回、300回、400回、500回またはそれ以上繰り返されうる。いくつかの実施形態では、本明細書に記載される生成モデルは、約500回、400回、300回、200回、100回、90回、80回、70回、60回、50回、40回、30回、25回、20回、15回、10回、9回、8回、7回、6回、5回、4回、または3回未満そのような近似分布からサンプリングするのに使用されうる。
いくつかの実施形態では、f、f、f、g、g、g、g、g、g、r、r、およびrを与えられた場合に、fおよびfを生成するのに収束生成法が使用されうる。モデルには(j,j,f,f,f)(g,g,g,g,g,g)、(r,r,r)が入力されてよく、jおよびjはランダム値である。共有表現hが推論されうる。共有表現hに基づいて、F^、G^、R^についてvF^、vG^、およびvR^の値が生成されうる。F^から値fおよび値fが生成され、F^、G^、R^の他のすべての値は、所望の値(f,f,f)、(g,g,g,g,g,g)、および(r,r,r)で置換される。プロセスは、新しいF^、G^、R^を生成し、fおよびfの新しい値を保持し、F^、G^、R^の他のすべての値を置換するように繰り返されうる。いくつかの実施形態では、プロセスは、選択された回数の反復が実行されるまで繰り返される。例えば、プロセスは、約または少なくとも約2回、3回、4回、5回、6回、7回、8回、9回、10回、15回、20回、25回、30回、40回、50回、60回、70回、80回、90回、100回、200回、300回、400回、500回またはそれ以上繰り返されうる。いくつかの実施形態では、プロセスは、約500回、400回、300回、200回、100回、90回、80回、70回、60回、50回、40回、30回、25回、20回、15回、10回、9回、8回、7回、6回、5回、4回、または3回未満繰り返される。
本明細書に記載されるシステムおよび方法は、最も頻繁に出現するfおよびfの値、またはfおよびfの生成値に基づく別の適切な統計値を出力しうる。統計値のタイプは、fおよびfがサンプリングされる分布に従って選択されうる。
いくつかの実施形態では、プロセスは、fがf に収束し、fがf に収束するまで繰り返される。本明細書に記載されるシステムおよび方法は、生成の結果としてf およびf の値を出力しうる。
図5に、2つの異なるデータモダリティの要素の値を生成するように構成された2つのレベルを有する生成モデルを含む本発明の例示的な実施形態を示す。一例として、化合物のセットが、F=(f,f,f)として表される。これらの化合物は、試験結果ラベルのセットR=(r,r)、および遺伝情報ラベルのセットG=(g,g)と関連付けられる。訓練された生成モデルを使用して、fおよびgの値が与えられた場合に、f、f、およびgの値が生成される。より一般的には、フィンガープリントの訓練セットおよび様々なタイプのラベルで訓練された生成モデルが、複数のデータタイプ/データモダリティの要素の値を生成しうる。
いくつかの実施形態では、ギブスサンプリングを使用して、例えば、f、g、r、およびrの値が与えられた場合に、値f、f、およびgの値を生成するために、異なるデータモダリティおよび/またはその要素に属する複数の要素の欠損値が生成される。f、f、およびgは、標準正規分布から値を抜き出すなどの初期設定方法で初期設定されうる。生成プロセスは、以下のように反復的に進行しうる。fの初期値をサンプリングするために、f、g、r、rの所与の値と、f、f、およびgの初期値とがマルチモーダルDBMの可視層に入力されうる。この入力から、マルチモーダルDBMはfの値を生成しうる。次のステップでは、fのこの値と、fおよびgの初期値と、f、g、r、およびrの所与の値とがマルチモーダルDBMの可視層に入力されうる。この入力から、fの値が生成されうる。次に、(第1のステップからの)fの生成値と、(第2のステップからの)fと、f、g、r、およびrの所与の値とがマルチモーダルDBMの可視層に入力されうる。この入力から、gの値が生成されうる。このプロセスは、f、g、r、およびrの値を固定したまま、反復ごとにf、f、およびgの値を変化させて、反復して繰り返されうる。反復の都度、その反復で生成された変数の値は前の値と置き換わり、次の反復で使用されうる。f、f、およびgの値は、3つすべての値で収束に達するまで繰り返し生成されうる。
<アーキテクチャおよび訓練>
いくつかの実施形態では、本明細書に記載されるシステムおよび方法の生成モデルは、1または複数の無向グラフィカルモデルを含みうる。そのような無向グラフィカルモデルは、例えばRBMまたはDBMに、二値確率的可視ユニットおよび二値確率的隠れユニットを含みうる。RBMは、以下のエネルギー関数を定義しうる。E:{0,1}×{0,1}→R
Figure 2019512758
式中、θ={a,b,W}はモデルパラメータであり、Wijは可視ユニットiと隠れユニットjとの間の対称相互作用項を表し、bおよびaはバイアス項である。可視ユニットおよび隠れユニットの同時分布は、次式によって定義されうる。
Figure 2019512758
式中、Z(θ)は正規化定数である。観測セットが与えられると、モデルパラメータに関する対数尤度の微分を得ることができる。理論に制約されるものではないが、そのような微分は、データ依存の期待項とモデルの期待項との差に関連しうる。
いくつかの実施形態では、そのような無向グラフィカルモデルは、例えばガウシアン・ベルヌーイRBMに、可視実数値ユニットおよび二値確率的隠れユニットを含みうる。ガウシアン・ベルヌーイRBMの状態のエネルギーは、次式として定義されうる。
Figure 2019512758
式中、θ={a,b,W,σ}はモデルパラメータである。モデルが可視ベクトルvに割り当てる密度は、次式によって与えられうる。
Figure 2019512758
いくつかの実施形態では、無向グラフィカルモデルは、可視実数値ユニットおよび隠れ実数値ユニットを含みうる。どちらのユニットのセットも、ガウシアン伝達を含みうる。エネルギー関数は、次式によって与えられうる。
Figure 2019512758
式中、θ={a,b,W,σ}はモデルパラメータである。
いくつかの実施形態では、そのような無向グラフィカルモデルは、二項またはReLU可視ユニットおよび/または隠れユニットを含みうる。
本明細書に記載されるシステムおよび方法の生成モデルは、Replicated Softmax Model(RSM)(複製ソフトマックスモデル)も含みうる。様々な実施形態において、RSMは、文書における単語カウントベクトルなど、疎なカウントデータをモデル化するのに使用される。RSMは、単語kが語彙サイズKを有する文書に出現する回数をその可視ユニットに受け入れるように構成されうる。RSMの隠れユニットは二値確率的であってよい。隠れユニットは、隠れたトピックの特徴を表しうる。理論に制約されるものではないが、RSMは、M回サンプリングされるサポート{1,…,K}を有する単一の可視多項ユニットを有するRBMモデルとみなすことができ、Mは文書内の単語の数である。M×Kの観測される二値行列Vは、多項可視ユニットiが第kの値を取る(文書内の第iの単語が第kの辞書語であることを意味する)場合に限り、vik=1と共に使用されうる。状態{V,h}のエネルギーは、次式として定義することができる。
Figure 2019512758
式中、{a,b,W}はモデルパラメータであり、Wijkは可視ユニットiと隠れた特徴jとの間の対称相互作用項を表し、bikは、値kを取るユニットIのバイアスであり、aは、隠れた特徴jのバイアスである。モデルが可視二値行列Vに割り当てる確率は、次式である。
Figure 2019512758
文書ごとに、文書内の単語と同数のソフトマックスユニットを有する別個のRBMが作成されうる。
様々な実施形態において、これらのアーキテクチャの各々を訓練するのに最尤学習が使用される。いくつかの実施形態では、学習は、異なる目的関数の勾配への近似に従って行われる。
いくつかの実施形態では、本明細書に記載されるシステムおよび方法の生成モデルは、DBMなどの対称的に結合された確率的二値ユニットの1または複数のネットワークを含みうる。DBMは、可視ユニットの集合v∈{0,1}と、隠れユニット層の配列h(1)∈{0,1}F1、h(2)∈{0,1}F2、…、h(L)∈{0,1}FLとを含みうる。DBMは、隣接する層内の隠れユニット間と、可視ユニットと第1の隠れ層内の隠れユニットとの間の接続のみを含みうる。3つの隠れ層1を有する(すなわち、L=3)DBMを考える。共有合構成{v,h}のエネルギーは、次式として定義される。
Figure 2019512758
式中、h={h(1);h(2);h(3)}は、隠れユニットのセットであり、θ={W(1);W(2);W(3);b;b(1);b(2);b(3)}は、モデルパラメータのセットであり、可視から隠れおよび隠れから隠れの対称相互作用項、ならびにバイアス項を表す。モデルが可視ベクトルvに割り当てる確率は、ボルツマン分布によって与えられる。
Figure 2019512758
深層ボルツマンマシン(DBM)は、層ごとの事前訓練手順を使用して訓練されうる。DBMは、ラベルのないデータで訓練されうる。DBMは、ラベル付きデータを使用して特定のタスクについて微調整されうる。DBMは、通常のボトムアップパスに加えてトップダウンフィードバックも組み込む近似推論手順を利用して、欠損入力またはノイズの多い入力に関する不確実性を組み込むのに使用されうる。DBMのすべての層のパラメータが、例えば、尤度目的の変分下限の近似勾配に従って、一緒に最適化されうる。
本明細書に記載されるシステムおよび方法の生成モデルは、リカレント・ニューラル・ネットワーク(RNN)を含みうる。様々な実施形態において、RNNは、可変長入力および/または可変長出力をモデル化するのに使用される。RNNは、すべての以前の出力が与えられた場合、配列内の次の出力を予測するように訓練されうる。訓練されたRNNが、配列の同時確率分布をモデル化するのに使用されうる。RNNは、内部隠れ状態の進化およびその状態から出力へのマッピングを決定する遷移関数を含みうる。いくつかの実施形態では、本明細書に記載される生成モデルは、決定論的内部遷移構造を有するRNNを含む。様々な実施形態において、本明細書に記載される生成モデルは、潜在変数を有するRNNを含む。そのようなRNNは、データの可変性モデル化するのに使用されうる。
いくつかの実施形態では、本明細書に記載されるシステムおよび方法の生成モデルは、変分リカレント・ニューラル・ネットワーク(VRNN)を含む。VRNNは、後続の時間ステップにわたる潜在変数間の依存関係をモデル化するのに使用されうる。VRNNは、共有データ表現で使用されるネットワークの第2レベルに次いで入力することができる単一モダリティの時系列の表現を生成するのに使用されうる。
VRNNは、1つ、より多くの、またはすべての時間ステップで、変分オートエンコーダ(VAE)を含みうる。VAEは、RNNの隠れ状態変数ht−1を条件としうる。様々な実施形態において、そのようなVAEは、順次データの時間的構造を考慮に入れるように構成されうる。
いくつかの実施形態では、VRNNの潜在変数上の事前分布は、以下の分布に従う。
Figure 2019512758
式中、μ0,tおよびσ0,tは、条件付き事前分布のパラメータを表す。生成分布は、以下のようにzおよびht−1を条件としうる。
Figure 2019512758
式中、μx,tおよびσx,tは生成分布のパラメータを表す。φ およびφ は、それぞれxおよびzから特徴を抽出しうる。φ prior、φ dec、φ 、および/またはφ は、高度に柔軟な関数、例えばニューラルネットワークとしうる。RNNは、次のような漸化式を使用してその隠れ状態を更新しうる。
Figure 2019512758
式中、fは遷移関数である。RNNは、遷移関数に従ってその隠れ状態を更新しうる。分布p(z|x<t,z<t)およびP(x|z≦t,x<t)は、上記の式を用いて定義されうる。生成モデルのパラメータ化は、次式につながりうる。
Figure 2019512758
推論のために、VAEは、下限の使用を可能にする事後分布の変分近似q(z|x)を使用しうる。
Figure 2019512758
式中、KL(Q||P)は、2つの分布QとPとの間のカルバック・ライブラー・ダイバージェンスである。VRNNにおいて、近似事後分布q(z|x)は、例えば、平均μおよび分散σを有するガウス分布によって各々が確率的に記述されうるニューラルネットワークなどの高度に非線形の関数としてパラメータ化されうる。
理論に制約されるものではないが、近似事後分布の符号化および生成のための復号化は、RNN隠れ状態ht−1を介して紐付けされうる。このht−1の条件付けによって、以下の因子分解が得られる。
Figure 2019512758
目的関数は、時間ステップごとに変分下限を含みうる。
Figure 2019512758
生成および推論モデルは、例えば、そのパラメータに関して変分下限を最大化することによって、一緒に学習されうる。
いくつかの実施形態では、本明細書に記載されるシステムおよび方法の生成モデルは、1または複数のマルチモーダルDBMを含みうる。様々なモダリティには、遺伝情報、テキスト結果、画像、テキスト、フィンガープリント、または本明細書に記載されるか、それ以外に当技術分野で公知の任意の他の適切なモダリティが含まれうる。
マルチモーダルDBMでは、2つ以上のモデルが、DBMを含むレベルの上の第2レベルの層などの追加の層によって結合されうる。結果として得られるグラフィカルモデルの同時分布は、確率の積を含みうる。例えば、追加の第3の隠れ層hで結合される2つの隠れ層を各DBMが有する、遺伝情報モダリティを有するDBMと、試験結果モダリティを有するDBMを含むマルチモーダルDBMの同時分布は、次式として記述されうる。
Figure 2019512758
同様に、マルチモーダルDBMは、4つの異なるモダリティをモデル化するようにも構成されうる。例えば、マルチモーダルDBMは、フィンガープリントのDBM、遺伝情報のDBM、試験結果のDBM、および画像モダリティのDBMを有するように構成されうる。追加の第3の隠れ層hで結合される2つの隠れ層を各DBMが有するこれらの4つのDBMを含むマルチモーダルDBMの同時分布は、次式として記述されうる。
Figure 2019512758
同時分布は、j個の隠れ層を各々有するi個のモダリティ固有のDBMと、モダリティ固有のDBMを結合するk個の追加隠れ層とを有するマルチモーダルDBMに一般化されうる。そのようなマルチモーダルDBMは、本明細書に記載されるか、それ以外に当技術分野で公知の任意の適切な伝達関数を利用しうる。
本明細書に記載される方法およびシステムは、決定論的生成方法または確率的生成方法を使用しうる。例えば、ギブスサンプリングは、確率的方法として実施されうる。実施に際しては、結果のばらつきを最小限に抑えるために様々な措置が講じられうる。本明細書の別の箇所にさらに詳細に記載されている収束方法は、準決定論的方法として実施されうる。収束方法は、例えば、閾値レベルを上回る一貫性を有する結果を生成するために、何回かの反復にわたって実行されうる。
各DBMの個々の層における伝達関数は、DBMが構成されるモデルのタイプおよびデータモダリティに従って選択されうる。いくつかの実施形態では、実数値のユニットをモデル化するためにガウス分布が使用される。いくつかの実施形態では、連続入力を受け入れる隠れ層に使用するためにReLUユニットが使用されうる。テキストでは、DBMは、単語カウントの分布をモデル化するのにReplicated Softmaxを使用しうる。変換のための分布は、モデルの重み/パラメータに関する確率分布の勾配を計算しやすくするように選択されうる。
様々な実施形態において、生成モデルまたはそのモジュールは、本明細書に記載されるか、それ以外に当技術分野で公知の適切な訓練方法を使用して訓練される。訓練方法は生成型学習を含むことができ、生成型学習では、元の入力の確率分布に関する推定を行うために元の入力の再構築が使用されうる。
本明細書に記載される生成モデルの訓練中に、深層ネットワークの各ノード層は、各ノード層がそのサンプルを抜き出す入力を繰り返し再構築しようとすることによって特徴を学習しうる。訓練は、ネットワークの再構築と入力データ自体の確率分布との間の差を最小限に抑えようとしうる。再構築と入力値との間の差は、生成モデルの重みに対して、しばしば反復して逆伝播されうる。反復学習プロセスは、再構築と入力値との差が最小に達するまで継続されうる。RBMまたはDBMを使用して、ノード活性化または重み付き入力が与えられた場合の出力の確率に関する予測が行われうる。逆方向パスでは、RBMまたはDBMを使用して、重みが順方向パスで使用されたものと同じである重み付き活性化が与えられた場合の入力の確率が推定されうる。2つの確率推定値は、入力と隠れユニット活性化の同時確率分布を推定するのに使用されうる。
様々な実施形態において、本明細書に記載されるマルチモーダルDBMまたはそのサブモジュールは、近似学習法を使用して、例えば、変分的手法を使用して訓練される。データ依存の期待値を推定するのに平均場推論(Mean−field inference)が使用されうる。モデルの期待される統計値を近似するのにマルコフ連鎖モンテカルロ法(MCMC)ベースの確率的近似手順が使用されうる。理論に制約されるものではないが、真値(ground truth)の推定確率分布の事前分布との距離、または隠れユニットの近似分布と事後分布との距離を最小化するために、訓練方法は、しばしば反復プロセスにおいてカルバック・ライブラー・ダイバージェンス(KLダイバージェンス)を最適化、例えば最小化しうる。モデルパラメータの対数尤度の変分下限は、KLダイバージェンスを最小化することによって最大化されうる。分布P1(x)とP2(x)との間のKLダイバージェンスは、D(P1(x)||P2(x))で表すことができ、次式によって与えられる。
Figure 2019512758
KLダイバージェンスは、例えば、変分ベイズEMアルゴリズムを使用して、事前分布と再構築分布との差、または事後分布とそのモデル化近似との差を低減させることによって最小化されうる。マルチモーダルDBMまたはそのサブモジュールは、各層を循環し、各個別の層内の平均場パラメータを更新しうる。
いくつかの実施形態では、変分下限は、真の事後分布の固定パラメータθの近似分布の変分パラメータμに関して訓練例ごとに最大化される。得られた平均場固定点方程式は、例えば各層を循環し、単一層内の平均場パラメータを更新することによって解くことができる。
変分パラメータμが与えられると、真の事後分布のモデルパラメータθは、変分境界を最大化するように更新されうる。いくつかの実施形態では、訓練は、マルコフ連鎖モンテカルロ法(MCMC)ベースの確率的近似を含む。いくつかの実施形態では、例えば、モデルの以前の状態が与えられた場合に、新しい状態をサンプリングするのにギブスサンプリングが使用されうる。その場合、例えば、勾配ステップを作成することによって、新しい状態の新しいパラメータθが取得されうる。持続的CDまたはCD−k、例えばCD−1法などのコントラスティブダイバージェンス(CD)が、訓練中に適用されうる。コントラスティブダイバージェンスを含む訓練方法の間に、マルコフ連鎖が訓練例で初期設定されうる。場合によっては、CD法はマルコフ連鎖が収束するのを待たない。サンプルは、kステップのギブスサンプリング(CD−k)の後に初めて取得することができ、kは1、2、3、4、5、6、7、8、9またはそれ以上でありうる。訓練方法は、永続状態を有する単一のマルコフ連鎖に依拠した持続的CDを使用しうる。すなわち、マルコフ連鎖は、観測される例ごとに最下位されない。持続的マルコフ連鎖のセットの平均値が、本明細書に記載される生成モデルによって使用され、かつ/または出力されうる。マルチモーダルDBMからの構築、訓練および生成のためのさらに別の適切な方法が、参照によりその全体が本明細書に組み込まれる、Srivastava and Salakhutdinov(Multimodal Learning with Deep Boltzmann Machones;J of Machine Learning Research 15(2014)2949−80)に記載されている。
様々な実施形態において、VRNNモジュールは、モデルの残りの部分とは別個に訓練される。訓練データは、同じタイプの時系列のセット、例えば、様々な患者から取得された経時的な腫瘍サイズの測定値のセットを含みうる。
いくつかの実施形態では、貪欲法による層ごとの教師なし事前訓練が行われる。訓練方法は、深層構造を層ごとに訓練することにより、生成モデルの複数の層を訓練するステップを含みうる。深層モジュール内の第1のRBMが訓練されると、そのデータは構造の1つ下の層に渡されうる。第1の隠れ層は第2の隠れ層の可視層の役割を果たすことができ、第1の隠れ層活性化は、第2の隠れ層の入力として使用され、第2の隠れ層の各ノードの重みで乗算される。新しい隠れ層ごとに、重みは、その層が前の層からの入力を近似できるまで調整されうる。
いくつかの実施形態では、マルチモーダルDBMなどのマルチモーダル生成モデルを使用して、複数のデータモダリティを組み合わせることにより、マルチモーダルデータの共有表現が生成される。1または複数のモダリティおよび/またはその要素の入力値を条件とする共有表現を推論するために、入力モダリティがクランプされうる。入力値が与えられると、複数のモダリティからの表現を組み合わせた隠れ層などの隠れ層の条件付き分布からサンプリングするためにギブスサンプリングが行われうる。いくつかの実施形態では、入力値が与えられると、変分推論を使用して、複数のモダリティからの表現を組み合わせた隠れ層などの隠れ層の近似条件付き事後分布が近似される。近似事後分布の変分パラメータμは、入力の共有表現を構成するのに使用されうる。共有表現は、マルチモーダルクエリまたはユニモーダルクエリの情報検索に使用されうる。
様々な実施形態において、訓練方法は、モデルの複雑さを調整する機構を含む。訓練方法は、本明細書に記載される生成モデルの過剰適合を防ぐのを助ける正則化法を用いることができる。正則化制約は、様々なやり方で課されうる。いくつかの実施形態では、正則化は、大きな重みにペナルティを割り当てることによって達成される。過剰適合は、重み減衰、重み共有、早期停止、モデル平均化、ニューラルネットのベイズ適合、ドロップアウト、および/または生成型事前訓練によって削減されうる。
本明細書に記載される訓練アルゴリズムは、本明細書の別の箇所にさらに詳細に記載されているコンピュータシステムおよび方法内で用いられる生成モデルの特定の構成に適合さされうる。本明細書に記載されるか、それ以外に当技術分野で公知の様々な適切な訓練アルゴリズムを、本明細書の別の箇所にさらに詳細に記載されている本発明の生成モデルの訓練に選択することができる。適切なアルゴリズムは、生成モデルのアーキテクチャおよび/または実行に生成モデルが求められるタスクに依存しうる。
いくつかの実施形態では、生成モデルは、変分推論のみを使用して、または確率的勾配法と組み合わせて変分下限を最適化するように訓練される。いくつかの実施形態では、例えば訓練データが欠損値を有する場合、半教師あり学習法が使用される。
様々な実施形態において、本明細書に記載されるシステムおよび方法は、予測モジュール、ランク付けモジュール、比較モジュール、またはそれらの組み合わせを含みうる。
本明細書に記載されるシステムおよび方法に追加のシステムモジュールを導入することができる。例えば、比較モジュールは、2つのフィンガープリント、2つの試験結果セット、健康と不健康の試料、細胞、組織、もしくは生物の遺伝子プロファイル、または比較に適した本明細書に記載されている任意の他の対の情報を比較するのに使用されうる。ランク付けモジュールは、ドラッグライクネススコアによるフィンガープリントのセットのメンバのランク付け、化合物の所望の効果について奏効するプロファイルである尤度による遺伝子プロファイルのメンバのランク付け、またはランク付けに適した本明細書に記載されている生成値の任意のセットのランク付けに使用されうる。ドラッグライクネススコアを割り当てることにより化合物フィンガープリントの分類に分類器が使用されうる。スコアが与えられたフィンガープリントの順序付けに順序付けモジュールが使用されうる。1または複数のデータモダリティの欠損値の予測に予測器が使用されうる。疎な値または欠損値を有するデータセットの処理にマスキングモジュールが使用されうる。そのようなモジュールについては、本明細書の別の箇所、および、参照によりその全体が本明細書に組み込まれる、米国特許出願第62/262,337号明細書にさらに詳細に記載されている。
<予測器>
本明細書に記載される本発明のシステムおよび方法は、フィンガープリントデータなどの化合物の表現を利用することができる。データセットの一部と関連付けられたラベル情報が欠落している場合がある。例えば、いくつかの化合物については、生成モデルの訓練に直接使用できるアッセイデータが利用可能である。1または複数の他の化合物については、ラベル情報が利用できない。特定の実施形態において、本発明のシステムおよび方法は、化合物にラベル値を部分的または完全に割り当て、それをそのフィンガープリントデータと関連付けるための予測モジュールを含む。半教師あり学習の例示的な実施形態において、生成モデルを訓練するのに使用される訓練データセットは、実験的に同定されたラベル情報を有する化合物と、予測モジュールによって予測されたラベルを有する化合物の両方を含む。
予測器は、機械学習分類モデルを含みうる。いくつかの実施形態では、予測器は、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16またはそれ以上の層を有する深層グラフィカルモデルである。いくつかの実施形態では、予測器はランダムフォレスト分類器である。いくつかの実施形態では、予測器は、化合物表現およびそれらと関連付けられたラベルを含む訓練データセットで訓練される。いくつかの実施形態では、予測器は、生成モデルを訓練するのに使用された訓練データセットとは異なる化合物表現のセットおよびそれらと関連付けられたラベルで事前に訓練される。
最初に1または複数のラベル要素についてラベル付けされていなかったフィンガープリントは、予測器によって1または複数のラベル要素のラベル要素値と関連付けられうる。一実施形態では、訓練データセットのサブセットは、関連付けられたラベルのないフィンガープリントを含みうる。例えば、調製が困難であり、かつ/または試験が困難でありうる化合物には、完全にまたは部分的にラベル付けされていない場合がある。この場合、様々な半教師あり学習方法が使用されうる。一実施形態では、ラベル付きフィンガープリントのセットは、予測モジュールを訓練するのに使用される。一実施形態では、予測器は、教師あり学習で訓練された分類アルゴリズムを実装する。予測器が十分に訓練された後、予測ラベルを生成するために、ラベルなしフィンガープリントが予測器に入力されうる。フィンガープリントおよびその予測ラベルは次いで、生成モデルを訓練するのに使用されうる訓練データセットに追加されうる。
いくつかの実施形態では、本明細書の、<生成>の項および他の箇所にさらに詳細に記載されている欠損値を処理するための1または複数の方法が、予測モジュールの基礎を形成する。
予測器ラベル付き化合物は、第1の生成モデルまたは第2の生成モデルを訓練するのに使用されうる。予測器は、ラベル情報がないフィンガープリントにラベル要素値を割り当てるのに使用されうる。予測器の使用により、本明細書の別の箇所にさらに詳細に記載されている生成モデルは、予測ラベルを部分的に含む訓練データセットで訓練されうる。本明細書の別の箇所にさらに詳細に記載されている生成モデルは、訓練されると、フィンガープリントなどの化合物の生成表現を作成するのに使用されうる。化合物の生成表現は、所望のラベルによって課される様々な条件に基づいて生成されうる。
<方法>
いくつかの実施形態では、本明細書に記載される生成モデルは、訓練フェーズの間にモデルに提示されなかった新しい化合物の表現を生成するのに使用される。いくつかの実施形態では、生成モデルは、訓練データセットに含まれていなかった化合物表現を生成するのに使用される。このようにして、化合物データベースに含まれていなかった、または以前は考えられてさえいなかった可能性のある新規の化合物が生成されうる。実際の化合物を含む訓練セットで訓練されたモデルは、いくつかの有利な特性を有しうる。理論に制約されるものではないが、実際の化合物例または機能性化学物質として働く可能性がより高い薬物を用いた訓練は、例えば、残留物変異を使用して手描きでまたは計算により生成された化合物よりも高い確率で類似した特性を有しうる化合物または化合物表現を生成するモデルを教示しうる。
いくつかの実施形態では、本明細書に記載される生成モデルは、入力フィンガープリントと関連付けられたラベル値を生成するのに使用される。生成されるラベル値は、訓練フェーズ中にモデルに提示されていなかった可能性がある。いくつかの実施形態では、生成モデルは、訓練データセットに含まれていなかったラベル値を生成するのに使用される。このようにして、訓練データになかった可能性のある新規な遺伝的特性の組み合わせなどの新規なラベル値が生成されうる。
生成表現と関連付けられた化合物は、化合物データベースに加えられ、計算スクリーニング法で使用され、かつ/またはアッセイにおいて合成され、試験されうる。生成されたラベル値は、薬物情報を患者集団にリンクするデータベースに格納されうる。データベースは、個別化された薬物開発、個別化された薬物処方、または正確な患者集団を標的とした臨床試験のために調べられ、使用されうる。
本明細書に記載される生成モデルは、指定されたシード化合物に類似することが意図される化合物を生成するのに使用されうる。様々な実施形態において、シード化合物は、化合物表現におけるある特定の数の要素の値を指定、すなわち固定するのに使用されうる。本明細書に記載される生成モデルは、完全な化合物表現が、他のデータモダリティにおける指定された値によって設定された条件を満たす高い尤度を有するように、未指定の要素の値を生成しうる。様々な実施形態において、本明細書に記載されるシステムおよび方法は、シード化合物を出発点として使用して、化合物の表現、例えばフィンガープリントを生成するのに利用される。生成モデルにシード化合物およびそれと関連付けられたラベルを入力することによって、シードに類似した化合物が生成されうる。生成モデルは、シード化合物の表現を出発点として使用して、同時確率分布からサンプリングして、化合物フィンガープリントの1または複数の値を生成しうる。生成値は、シード化合物とある類似性を有し、かつ/または入力ラベルによって定義される要件を満たす高い尤度を有することが予期される化合物のフィンガープリントを含みうる。
シード化合物は、そのある特定の実験結果が知られており、生成される化合物の構造的特性がシード化合物の構造的特性を持つことになると予期されうる公知の化合物でありうる。例えば、シード化合物は、別の目的で再利用され、または適応外用途について試験されている既存の薬物であってもよく、生成される候補化合物が、低毒性や高溶解性などのシード化合物の有益な活性のうちのいくつかを保持するが、所望のラベルの必要に応じて、異なる標的との結合など、他のアッセイでは異なる活性を呈することが望ましい。シード化合物はまた、所望のラベル結果のサブセットを有するよう物理的に試験されているが、毒性の減少、溶解性の改善、および/または合成の容易さの改善など、ある特定の他のラベル結果の改善が求められている化合物であってもよい。したがって、シード化合物と構造的類似性を有するが、特定のアッセイでの所望の活性など、異なるラベル結果を呈することが意図された化合物を生成するのに比較生成が使用されうる。
いくつかの実施形態では、生成モデルは、指定されたシード遺伝情報入力に類似することが意図された遺伝情報値を生成するのに使用される。生成モデルにシード化合物およびそれと関連付けられたラベルを入力することによって、シードに類似した化合物が生成されうる。生成モデルは、シード化合物の表現を出発点として使用して、同時確率分布からサンプリングして、遺伝情報ラベルの1または複数の値を生成しうる。生成値は、シード値とある類似性を有し、かつ/または他のタイプの入力ラベルによって定義される要件を満たす高い尤度を有することが予期される遺伝情報を含みうる。
いくつかの実施形態では、訓練フェーズは、フィンガープリントデータおよび関連付けられたラベル値を使用して、生成モデルおよび予測器を同時に訓練することを含む。
本発明の重要な利点は、より少ない副作用を有しうる薬物を発見できることである。本明細書に記載される生成モデルは、訓練データセットに、そのある特定の結果が、単独で、またはそのような物質に関連した遺伝情報と組み合わさって、試料、細胞、組織、またはヒトや動物などの生物において副作用をおよび/または中毒反応を引き起こす原因であることが知られている特定のアッセイについての化合物活性を含めることによって訓練されうる。したがって、生成モデルは、化合物表現と有益な効果および望ましくない効果との間の関係を教示されうる。様々な実施形態において、そのような関係は、試料、細胞、組織、または生物の遺伝情報に関連して教示される。生成フェーズにおいて、生成モデルに入力される所望の試験結果ラベルが、有益な効果および/または望ましくない副作用と関連付けられるアッセイにおける所望の化合物活性を指定しうる。生成モデルはその場合、有益な効果と毒性/副作用要件の両方を同時に満たす化合物の表現を生成することができる。いくつかの実施形態では、生成モデルは、遺伝情報背景を与えられた場合の有益な効果および毒性/副作用要件などのさらなる入力を同時に満足させる化合物の表現を生成する。
本明細書に記載される方法およびシステムは、入力として提供される複数の所望の結果を同時に満足させることによって、創薬プロセスのより初期の段階におけるより効率的な探索を可能にし、それによっておそらくは、被験薬の許容できない副作用や効能レベルに起因して失敗する臨床試験の回数が減る。これは、創薬プロセスの期間と費用両方の低減につながりうる。
いくつかの実施形態では、本明細書に記載される方法およびシステムは、既に存在する化合物の新しい標的を見出すのに使用される。例えば、本明細書に記載される生成ネットワークは、所望の試験結果ラベルに基づいて、別の効果を有することが知られている化合物の生成表現を生成しうる。したがって、複数の試験結果ラベル要素で訓練された生成モデルは、第2の効果を事実上同定する異なる効果についての所望の試験結果ラベルの入力による生成フェーズの使用に応答して、第1の効果を有することが知られている化合物の表現を生成しうる。いくつかの実施形態では、そのような第2の効果が、特定の遺伝情報ラベルについて同定されうる。いくつかの実施形態では、生成モデルは、遺伝情報ラベルを生成するのにも使用され、それによって、生成された遺伝情報と整合する遺伝子プロファイルを有する特定の分集団についての化合物の第2の効果が見出される。よって、生成モデルは、既存の化合物の第2のラベルを、場合によっては、そのような第2の効果の標的患者集団を同定するのに使用されうる。いくつかの実施形態では、生成モデルは、化合物の第1の効果を含む訓練データセットで事前に訓練される。いくつかの実施形態では、生成モデルは、化合物の第1の効果についての遺伝情報を含む訓練データセットで事前に訓練される。そのように決定された化合物は、特に価値がある。というのは、臨床的に試験された化合物を別の目的で再利用すれば、臨床研究中のリスクがより低くなる可能性があり、さらに、効率的かつ安価に効能および安全性が証明されうるからである。
いくつかの実施形態では、本明細書の生成モデルは、非二値的にラベル要素タイプの値を学習するように訓練されうる。本明細書の生成モデルは、特定のラベル要素に関するより高レベルまたはより低レベルの化合物の効果を認識するように訓練されうる。したがって、生成モデルは、所与の化合物の有効性のレベルおよび/または毒性もしくは副作用のレベルを学習するように訓練されうる。
本明細書に記載される方法およびシステムは、モデルに提示されなかった化合物および/または以前は存在しなかった化合物を含む化合物の表現の生成に際して特に強力である。よって、本明細書に記載されるシステムおよび方法は、化合物ライブラリを拡張するのに使用されうる。さらに、本発明の様々な実施形態はまた、生成モデルの出力を仮想スクリーニングプロセスまたは実験スクリーニングプロセスのための入力データセットとして使用させることによって、従来の薬物スクリーニングプロセスを円滑化する。
本明細書に記載される方法およびシステムはまた、遺伝情報要素の要素相互および/または化合物の試験結果との相互作用についての推論を引き出すこともできる。そのような相互作用は以前には知られていない可能性もある。よって、本明細書に記載されるシステムおよび方法は、バイオマーカーライブラリを拡張し、新薬および/または遺伝子治療標的を同定するのに使用されうる。
様々な実施形態において、生成表現は、訓練データセット内の化合物と類似性を有する化合物に関するものである。類似性は、様々な側面を含みうる。例えば、生成された化合物は、訓練データセット内の化合物との高度の類似性を有しうるが、それが類似している訓練データセット中の化合物よりも化学的合成可能であり、かつ/または化学的に安定である尤度がはるかに高い可能性がある。さらに、生成された化合物は、訓練データセット内の化合物と類似しうるが、訓練データセット内の既存の化合物よりも所望の効果を有し、かつ/または望ましくない影響がない尤度がはるかに高い可能性がある。
様々な実施形態において、本明細書に記載される方法およびシステムは、合成の容易さ、溶解性、および他の実際的な考慮事項を考慮に入れて、化合物またはその表現を生成する。いくつかの実施形態では、生成モデルは、溶解性または合成機構を含みうるラベル要素を使用して訓練される。いくつかの実施形態では、生成モデルは、合成情報または溶解度を含む訓練データを使用して訓練される。これらの因子に関連した所望のラベルが、生成フェーズにおいて、生成された化合物表現が所望の溶解性または合成要件に従った挙動を有する化合物に関連するものである尤度を高めるのに使用されうる。
様々な創薬用途において、複数の候補フィンガープリントが生成されうる。次いで生成されたフィンガープリントのセットを使用して、ハイ・スループット・スクリーニングで使用できる実際の化合物を合成することができる。化合物合成およびHTSの前に、生成されたフィンガープリントが、所望のアッセイ結果および/または構造特性を有するかどうかについて評価されうる。生成されたフィンガープリントは、その予測された結果およびそのシード化合物との類似性に基づいて評価されうる。生成されたフィンガープリントが所望の特性を有する場合、それらのフィンガープリントはそのドラッグライクネスに基づいてランク付けされうる。
様々な実施形態において、本明細書に記載されるシステムおよび方法は、2つ以上のデータセット、例えば生成値を含むデータを比較および/またはクラスタ化するように構成された1または複数のモジュールを含む。比較およびクラスタリングのためのシステムおよび方法については、参照によりその全体が本明細書に組み込まれる、米国特許出願第62/262,337号明細書にさらに記載されている。そのようなシステムおよび方法は、例えば、特定のアッセイの結果に影響を及ぼしうる化合物特性または疾患、免疫、および/または薬物での治療などの治療への応答性と相関しうる遺伝情報の構成要素を同定しうる。
いくつかの実施形態では、本明細書に記載される方法およびシステムは、遺伝子編集戦略を特定するのに使用されうる。そのような遺伝子編集戦略は、新しいバイオマーカーおよび/または疾患と関連付けられる遺伝子および/またはその突然変異の同定に基づくものとしうる。いくつかの実施形態では、遺伝子編集戦略は、化合物の組み合わせの使用をさらに含みうる。化合物は、承認された薬物を含むがこれに限定されない、以前から公知の化合物であってよい。いくつかの実施形態では、化合物は、本明細書に記載されるシステムおよび方法によって生成される。
様々な実施形態において、本明細書に記載される生成モデル、例えばマルチモーダルDBMは、複数の薬物を入力として受け入れるように構成される。例えば、マルチモーダルDBMは、各々がネットワークの第1レベルにおいて化合物の表現を受け入れるように構成された2つの単一モダリティDBMで構成されうる。本明細書に記載される方法およびシステムは、そのようなネットワークアーキテクチャを使用して、その他の入力データモダリティの指定された値によって設定された条件を一緒に満足させる薬物の組み合わせを生成するのに使用されうる。
<フィンガープリント>
化合物は、表現、例えば、本明細書に記載される生成モデルの文脈で使用できるフィンガープリントなどを作成するために前処理されうる。場合によっては、化合物の化学式は、その縮退なしの表現から復元されうる。別の場合には、1つの表現が複数の単一化学式にマップされうる。さらに別の場合には、その表現から推論できる同定可能な化学式が存在しないこともある。表現空間において最近傍探索が行われうる。同定された近傍は、生成モデルによって生成された表現に近似する化学式につながりうる。
様々な実施形態において、本明細書に記載される方法およびシステムは、フィンガープリントを利用して、生成モデルの入力および/または出力における化合物を表す。
様々なタイプの分子記述子が、化合物をフィンガープリントとして表すために組み合わせて使用されうる。いくつかの実施形態では、分子記述子を含む化合物表現が、様々な機械学習モデルへの入力として使用される。いくつかの実施形態では、化合物の表現は、少なくともまたは少なくとも約50、100、150、250、500、1000、2000、3000、4000、5000またはそれ以上の分子記述子を含む。いくつかの実施形態では、化合物の表現は、10000、7500、5000、4000、3000、2000、1000、500、250、150、200、または50未満の分子記述子を含む。
分子記述子は、すべてのアッセイおよび/または閾値の結合におけるすべての化合物にわたって正規化されうる。
化合物フィンガープリントとは通常、(例えば、結合表の形で)化合物の化学構造の情報を含む分子記述子の値列を指す。よってフィンガープリントは、化合物の元の化学におけるある構造的特徴または物理的特性の有無を識別する略記表現でありうる。
様々な実施形態において、フィンガープリントは、ハッシュベースのフィンガープリントまたは辞書ベースのフィンガープリントを含む。辞書ベースのフィンガープリントは辞書に依拠する。辞書とは通常、フィンガープリント列内の各ビットが「オン」であるかそれとも「オフ」であるかを判定するのに使用される構造フラグメントのセットを指す。フィンガープリントの各ビットは、そのビットがフィンガープリントにおいて設定されるために主構造に存在しなければならない1または複数のフラグメントを表しうる。
いくつかのフィンガープリント用途では、「ハッシュコーディング」法を使用しうる。したがって、分子中に存在するフラグメントは、ビット位置のフィンガープリントを採取するために「ハッシュコード化」されうる。ハッシュベースのフィンガープリントは、分子中に存在するすべてのフラグメントがフィンガープリントに符号化されることを可能にしうる。
化合物の表現をフィンガープリントとして生成することは、様々なベンダからの市販のソフトウェアスイートを使用して達成されうる。(例えば、www.talete.mi.it/products/dragon_molecular_descriptor_list.pdf、www.talete.mi.it/products/dproperties_molecular_descriptors.htm、www.moleculardescriptors.eu/softwares/softwares.htm、www.dalkescientific.com/writings/diary/archive/2008/06/26/fingerprint_background.html、またはvega.marionegri.it/wordpress/resources/chemical−descriptorsを参照されたい)
<コンピュータシステム>
本発明は、本明細書の動作を実行するための装置にも関するものである。この装置は、必要な目的のために専用に構成されてもよく、コンピュータに格納されたコンピュータプログラムによって選択的に活動化され、または再構成される汎用コンピュータを含んでいてもよい。そのようなコンピュータプログラムは、フロッピーディスク、光ディスク、CD−ROM、光磁気ディスクを含む任意のタイプのディスク、読取り専用メモリ(ROM)、ランダム・アクセス・メモリ(RAM)、EPROM、EEPROM、磁気コードもしくは光カード、または電子命令を格納するのに適し、コンピュータ・システム・バスに各々結合された任意のタイプの媒体を含むがこれに限定されないコンピュータ可読記憶媒体に格納されうる。
本明細書に提示された説明は、特定のコンピュータや他の装置に本来的に関連したものではない。汎用システムに加えて、本発明の様々な実施形態を実施するためにより特化された装置が構築されてもよい。加えて本発明は、特定のプログラミング言語に関連して記載されたものでもない。本明細書に記載された本発明の教示を実施するために様々なプログラミング言語が使用されうることが理解されよう。機械可読媒体は、機械(例えば、コンピュータ)が読み取ることのできる形態で情報を格納または送信するための任意の機構を含む。例えば、機械可読媒体は、読取り専用メモリ(「ROM」)、ランダム・アクセス・メモリ(「RAM」)、磁気ディスク記憶媒体、光記憶媒体、フラッシュ・メモリ・デバイス、電気、光、音響その他の形態の伝搬信号(例えば、搬送波、赤外線信号、ディジタル信号など)などを含む。
図4は、本明細書に記載される動作のうちの1または複数を実行しうる例示的なコンピュータシステムのブロック図である。図4を参照すると、コンピュータシステムは、例示的なクライアントまたはサーバ・コンピュータ・システムを含みうる。コンピュータシステムは、情報を通信するための通信機構またはバスと、情報を処理するためのバスと結合されたプロセッサとを含みうる。プロセッサは、マイクロプロセッサ、例えば、Pentium、PowerPC、Alphaなどのマイクロプロセッサを含みうるが、これに限定されない。システムは、情報およびプロセッサによって実行される命令を格納するためのバスに結合されたランダム・アクセス・メモリ(RAM)または他の動的記憶装置(メインメモリと呼ばれる)さらに含む。メインメモリはまた、プロセッサによる命令の実行中に一時変数または他の中間情報を格納するのにも使用されうる。様々な実施形態において、本明細書に記載される方法およびシステムは、プロセッサとして1または複数のグラフィックス処理装置(GPU)を利用する。GPUは並列に使用されうる。様々な実施形態において、本発明の方法およびシステムは、複数のGPUなど、複数のプロセッサを有する分散コンピューティングアーキテクチャを利用する。
コンピュータシステムはまた、静的情報およびプロセッサのための命令を格納するためのバスに結合された読取り専用メモリ(ROM)および/または他の静的記憶装置と、磁気ディスクや光ディスクおよびそれに対応するディスクドライブなどのデータ記憶装置とを含みうる。データ記憶装置は、情報および命令を格納するためにバスに結合される。いくつかの実施形態では、データ記憶装置は、リモートの場所に、例えばクラウドサーバに位置しうる。コンピュータシステムは、コンピュータユーザに情報を表示するためのバスに結合されたブラウン管(CRT)や液晶ディスプレイ(CD)などの表示装置にさらに結合されうる。英数字その他のキーを含む英数字入力装置も、情報およびコマンド選択をプロセッサに伝えるためにバスに結合されうる。さらに別のユーザ入力装置が、方向情報およびコマンド選択をプロセッサに伝え、ディスプレイ上のカーソル移動を制御するための、バスに結合された、マウス、トラックボール、トラックパッド、スタイラス、カーソル方向キーなどのカーソルコントローラである。バスに結合されうる別の装置がハードコピー装置であり、紙、フィルム、同様のタイプの媒体などの媒体上の命令、データ、または他の情報を印刷するのに使用されうる。さらに、スピーカおよび/またはマイクロホンなどの音声記録再生装置が、コンピュータシステムとのオーディオインターフェースのために任意選択でバスに結合されてもよい。バスに結合されうる別の装置が、電話またはハンドヘルド・パーム・デバイスへの通信のための有線/無線通信機能である。
システムおよび関連ハードウェアの構成要素のいずれかまたはすべてが本発明で使用されうることに留意されたい。しかしながら、コンピュータシステムの他の構成は、それらの装置のうちの一部または全部を含みうることが理解できよう。

Claims (28)

  1. マルチモーダル生成モデルを含むコンピュータシステムであって、前記マルチモーダル生成モデルは、
    (a)各々が複数の層のユニットを有するn個のネットワークモジュールを含む第1レベルと、
    (b)m層のユニットを含む第2レベルと
    を含み、前記生成モデルは、少なくともl個の異なるデータモダリティを含む訓練データを前記生成モデルに入力することによって訓練され、少なくとも1つのデータモダリティが化合物フィンガープリントを含む、コンピュータシステム。
  2. 前記n個のネットワークモジュールのうちの少なくとも1つが無向グラフを含む、請求項1に記載のコンピュータシステム。
  3. 前記無向グラフは、制限ボルツマンマシン(RBM)または深層ボルツマンマシン(DBM)を含む、請求項2に記載のコンピュータシステム。
  4. 少なくとも1つのデータモダリティが遺伝情報を含む、請求項1に記載のコンピュータシステム。
  5. 少なくとも1つのデータモダリティが試験結果または画像を含む、請求項1に記載のコンピュータシステム。
  6. 前記第2レベルの第1層が、前記n個のネットワークモジュールの各々の第1レベル間層から入力を受け取るように構成される、請求項1に記載のコンピュータシステム。
  7. 前記n個のネットワークモジュールの各々の第2レベル間層が、前記第2レベルの第2層から入力を受け取るように構成される、請求項6に記載のコンピュータシステム。
  8. 前記第2レベルの前記第1層と前記第2レベルの前記第2層とが同じである、請求項7に記載のコンピュータシステム。
  9. ネットワークモジュールの前記第1レベル間層とネットワークモジュールの前記第2レベル間層とが同じである、請求項7に記載のコンピュータシステム。
  10. nは、少なくとも2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、または100である、請求項1に記載のコンピュータシステム。
  11. mは、少なくとも1、2、3、4、または5である、請求項1に記載のコンピュータシステム。
  12. lは、少なくとも2、3、4、5、6、7、8、9、または10である、請求項1に記載のコンピュータシステム。
  13. 前記訓練データは、遺伝情報、全ゲノム配列、部分ゲノム配列、バイオマーカー、一塩基多型(SNP)、メチル化パターン、構造情報、転座、欠失、置換、逆位、挿入、ウイルス配列挿入、点突然変異、一塩基挿入、一塩基欠失、一塩基置換、microRNA配列、microRNA変異、microRNA発現レベル、化合物表現、フィンガープリント、バイオアッセイ結果、遺伝子発現レベル、mRNA発現レベル、タンパク質発現レベル、小分子生成レベル、グリコシル化、細胞表面タンパク質発現、細胞表面ペプチド発現、遺伝情報の変化、X線画像、MR画像、超音波画像、CT画像、写真、顕微鏡写真、病歴、患者人口統計、患者自己申告問診表、臨床メモ、毒性、交差反応性、薬物動態学、薬力学、生物学的利用能、および溶解性からなる群より選択されるデータタイプを含む、請求項1に記載のコンピュータシステム。
  14. 前記生成モデルは、遺伝情報および試験結果の入力時に化合物フィンガープリントの値を生成するように構成される、請求項1に記載のコンピュータシステム。
  15. 前記生成モデルは、化合物フィンガープリントおよび試験結果の入力時に遺伝情報を生成するように構成される、請求項1に記載のコンピュータシステム。
  16. 前記生成モデルは、化合物フィンガープリントおよび遺伝情報の入力時に試験結果を生成するように構成される、請求項1に記載のコンピュータシステム。
  17. 生成モデルを訓練するための方法であって、
    (a)少なくとも1つのデータモダリティが化合物フィンガープリントを含む、少なくともl個の異なるデータモダリティを含む訓練データを前記生成モデルに入力するステップ
    を含み、前記生成モデルは、
    (i)各々が複数の層のユニットを有するn個のネットワークモジュールを含む第1レベルと、
    (ii)m層のユニットを含む第2レベルと
    を含む、方法。
  18. 個別化された薬物処方予測を生成する方法であって、前記方法は、
    (a)生成モデルに遺伝情報の値および化合物のフィンガープリント値を入力するステップと、
    (b)試験結果を生成するステップと
    を含み、前記生成モデルは、
    (i)各々が複数の層のユニットを有するn個のネットワークモジュールを含む第1レベルと、
    (ii)m層のユニットを含む第2レベルと
    を含み、前記生成モデルは、少なくとも1つのデータモダリティが化合物フィンガープリントを含み、少なくとも1つのデータモダリティが試験結果を含み、少なくとも1つのデータモダリティが遺伝情報を含む、少なくともl個の異なるデータモダリティを含む訓練データを前記生成モデルに入力することによって訓練され、前記入力値の遺伝情報を有する患者が前記化合物の投与時に前記生成された試験結果を有する尤度は、閾値尤度以上である、方法。
  19. 前記患者に、前記化合物を含む処方を作成するステップをさらに含む、請求項18に記載の方法。
  20. 前記閾値尤度は、少なくとも99%、98%、97%、96%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%または0.1%である、請求項18に記載の方法。
  21. 個別化された創薬の方法であって、前記方法は、
    (a)生成モデルに試験結果値および遺伝情報の値を入力するステップと、
    (b)化合物のフィンガープリント値を生成するステップと
    を含み、前記生成モデルは、
    (i)各々が複数の層のユニットを有するn個のネットワークモジュールを含む第1レベルと、
    (ii)m層のユニットを含む第2レベルと
    を含み、前記生成モデルは、少なくとも1つのデータモダリティが化合物フィンガープリントを含み、少なくとも1つのデータモダリティが試験結果を含み、少なくとも1つのデータモダリティが遺伝情報を含む、少なくともl個の異なるデータモダリティを含む訓練データを前記生成モデルに入力することによって訓練され、前記入力値の遺伝情報を有する患者が前記化合物の投与時に前記試験結果を有する尤度は、閾値尤度以上である、方法。
  22. 前記閾値尤度は、少なくとも99%、98%、97%、96%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%または0.1%である、請求項21に記載の方法。
  23. 薬物の患者集団を同定する方法であって、前記方法は、
    (a)生成モデルに試験結果値および化合物のフィンガープリント値を入力するステップと、
    (b)遺伝情報を生成するステップと
    を含み、前記生成モデルは、
    (i)各々が複数の層のユニットを有するn個のネットワークモジュールを含む第1レベルと、
    (ii)m層のユニットを含む第2レベルと
    を含み、前記生成モデルは、少なくとも1つのデータモダリティが化合物フィンガープリントを含み、少なくとも1つのデータモダリティが試験結果を含み、少なくとも1つのデータモダリティが遺伝情報を含む、少なくともl個の異なるデータモダリティを含む訓練データを前記生成モデルに入力することによって訓練され、前記生成値の遺伝情報を有する患者が前記化合物の投与時に前記入力された試験結果を有する尤度は、閾値尤度以上である、方法。
  24. 前記閾値尤度は、少なくとも99%、98%、97%、96%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%または0.1%である、請求項23に記載の方法。
  25. 複数のヒト被験者を含む臨床試験を行うステップであって、前記臨床試験の管理者が、前記複数のヒト被験者の少なくとも閾値割合について遺伝情報の前記生成値を満足させる遺伝情報を有する、臨床試験を行う前記ステップ
    をさらに含む、請求項23に記載の方法。
  26. 前記閾値割合は、少なくとも少なくとも99%、98%、97%、96%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%または0.1%である、請求項25に記載の方法。
  27. 化合物の臨床試験を行う方法であって、前記方法は、
    (a)複数のヒト被験者に前記化合物を投与するステップ
    を含み、前記臨床試験の管理者が、前記複数のヒト被験者の少なくとも閾値割合について遺伝情報の生成値を満足させる遺伝情報を有し、遺伝情報の前記生成値は、請求項23に記載の方法に従って生成される、方法。
  28. 前記閾値割合は、少なくとも少なくとも99%、98%、97%、96%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%または0.1%である、請求項27に記載の方法。
JP2018536524A 2016-01-15 2017-01-13 マルチモーダル生成機械学習のためのシステムおよび方法 Pending JP2019512758A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662279563P 2016-01-15 2016-01-15
US62/279,563 2016-01-15
PCT/JP2017/001034 WO2017122785A1 (en) 2016-01-15 2017-01-13 Systems and methods for multimodal generative machine learning

Publications (1)

Publication Number Publication Date
JP2019512758A true JP2019512758A (ja) 2019-05-16

Family

ID=59311266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018536524A Pending JP2019512758A (ja) 2016-01-15 2017-01-13 マルチモーダル生成機械学習のためのシステムおよび方法

Country Status (3)

Country Link
US (1) US20190018933A1 (ja)
JP (1) JP2019512758A (ja)
WO (1) WO2017122785A1 (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373055B1 (en) * 2016-05-20 2019-08-06 Deepmind Technologies Limited Training variational autoencoders to generate disentangled latent factors
GB201615051D0 (en) 2016-09-05 2016-10-19 Kheiron Medical Tech Ltd Multi-modal medical image procesing
KR102593690B1 (ko) 2016-09-26 2023-10-26 디-웨이브 시스템즈, 인코포레이티드 샘플링 서버로부터 샘플링하기 위한 시스템들, 방법들 및 장치
US11531852B2 (en) * 2016-11-28 2022-12-20 D-Wave Systems Inc. Machine learning systems and methods for training with noisy labels
WO2018142378A1 (en) * 2017-02-06 2018-08-09 Deepmind Technologies Limited Memory augmented generative temporal models
US10923214B2 (en) * 2017-09-07 2021-02-16 Accutar Biotechnology Inc. Neural network for predicting drug property
US11270188B2 (en) 2017-09-28 2022-03-08 D5Ai Llc Joint optimization of ensembles in deep learning
US10769791B2 (en) * 2017-10-13 2020-09-08 Beijing Keya Medical Technology Co., Ltd. Systems and methods for cross-modality image segmentation
US20190130064A1 (en) * 2017-10-27 2019-05-02 Dassault Systemes Americas Corp. Biological sequence fingerprints
CN109833061B (zh) 2017-11-24 2020-08-04 无锡祥生医疗科技股份有限公司 基于深度学习的优化超声成像系统参数的方法
US11586915B2 (en) 2017-12-14 2023-02-21 D-Wave Systems Inc. Systems and methods for collaborative filtering with variational autoencoders
IT201800004045A1 (it) * 2018-03-28 2019-09-28 Promeditec S R L Metodo e sistema per modellizzazione e simulazione computazionale applicata a ricerca e sviluppo di farmaci
US11721413B2 (en) * 2018-04-24 2023-08-08 Samsung Electronics Co., Ltd. Method and system for performing molecular design using machine learning algorithms
KR20210010505A (ko) * 2018-05-14 2021-01-27 퀀텀-에스아이 인코포레이티드 상이한 데이터 모달리티들에 대한 통계적 모델들을 단일화하기 위한 시스템들 및 방법들
EP3576050A1 (en) * 2018-05-29 2019-12-04 Koninklijke Philips N.V. Deep anomaly detection
KR20210018333A (ko) * 2018-05-30 2021-02-17 퀀텀-에스아이 인코포레이티드 트레이닝된 통계 모델을 사용하는 멀티 모달 예측을 위한 방법 및 장치
US11967436B2 (en) 2018-05-30 2024-04-23 Quantum-Si Incorporated Methods and apparatus for making biological predictions using a trained multi-modal statistical model
US11971963B2 (en) 2018-05-30 2024-04-30 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
US11386346B2 (en) 2018-07-10 2022-07-12 D-Wave Systems Inc. Systems and methods for quantum bayesian networks
US10818080B2 (en) * 2018-07-25 2020-10-27 Disney Enterprises, Inc. Piecewise-polynomial coupling layers for warp-predicting neural networks
US11915127B2 (en) 2018-08-03 2024-02-27 Edifecs, Inc. Prediction of healthcare outcomes and recommendation of interventions using deep learning
CN109325131B (zh) * 2018-09-27 2021-03-02 大连理工大学 一种基于生物医学知识图谱推理的药物识别方法
US11461644B2 (en) 2018-11-15 2022-10-04 D-Wave Systems Inc. Systems and methods for semantic segmentation
US11468293B2 (en) 2018-12-14 2022-10-11 D-Wave Systems Inc. Simulating and post-processing using a generative adversarial network
US11995854B2 (en) * 2018-12-19 2024-05-28 Nvidia Corporation Mesh reconstruction using data-driven priors
US11900264B2 (en) 2019-02-08 2024-02-13 D-Wave Systems Inc. Systems and methods for hybrid quantum-classical computing
US11625612B2 (en) 2019-02-12 2023-04-11 D-Wave Systems Inc. Systems and methods for domain adaptation
US11557380B2 (en) 2019-02-18 2023-01-17 Merative Us L.P. Recurrent neural network to decode trial criteria
GB201904887D0 (en) 2019-04-05 2019-05-22 Lifebit Biotech Ltd Lifebit al
US20200372369A1 (en) * 2019-05-22 2020-11-26 Royal Bank Of Canada System and method for machine learning architecture for partially-observed multimodal data
US10515715B1 (en) 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
US20210027157A1 (en) * 2019-07-24 2021-01-28 Nec Laboratories America, Inc. Unsupervised concept discovery and cross-modal retrieval in time series and text comments based on canonical correlation analysis
US11494695B2 (en) 2019-09-27 2022-11-08 Google Llc Training neural networks to generate structured embeddings
US12008478B2 (en) 2019-10-18 2024-06-11 Unlearn.AI, Inc. Systems and methods for training generative models using summary statistics and other constraints
CN113053470A (zh) * 2019-12-26 2021-06-29 财团法人工业技术研究院 药物筛选系统与药物筛选方法
US11664094B2 (en) * 2019-12-26 2023-05-30 Industrial Technology Research Institute Drug-screening system and drug-screening method
US11049590B1 (en) 2020-02-12 2021-06-29 Peptilogics, Inc. Artificial intelligence engine architecture for generating candidate drugs
US20210303762A1 (en) * 2020-03-31 2021-09-30 International Business Machines Corporation Expert-in-the-loop ai for materials discovery
US11615317B2 (en) * 2020-04-10 2023-03-28 Samsung Electronics Co., Ltd. Method and apparatus for learning stochastic inference models between multiple random variables with unpaired data
US11174289B1 (en) 2020-05-21 2021-11-16 International Business Machines Corporation Artificial intelligence designed antimicrobial peptides
US20220165359A1 (en) * 2020-11-23 2022-05-26 Peptilogics, Inc. Generating anti-infective design spaces for selecting drug candidates
US20220180744A1 (en) * 2020-12-09 2022-06-09 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for task control based on bayesian meta-reinforcement learning
CN112784902B (zh) * 2021-01-25 2023-06-30 四川大学 一种模态有缺失数据的图像分类方法
US20220319635A1 (en) * 2021-04-05 2022-10-06 Nec Laboratories America, Inc. Generating minority-class examples for training data
CN113139664B (zh) * 2021-04-30 2023-10-10 中国科学院计算技术研究所 一种跨模态的迁移学习方法
US20220384058A1 (en) * 2021-05-25 2022-12-01 Peptilogics, Inc. Methods and apparatuses for using artificial intelligence trained to generate candidate drug compounds based on dialects
CN113705730B (zh) * 2021-09-24 2023-04-14 江苏城乡建设职业学院 基于卷积注意力和标签采样的手写方程式图像识别方法
WO2023225526A1 (en) * 2022-05-16 2023-11-23 Atomwise Inc. Systems and method for query-based random access into virtual chemical combinatorial synthesis libraries
US20240169187A1 (en) * 2022-11-16 2024-05-23 Unlearn.AI, Inc. Systems and Methods for Supplementing Data With Generative Models
US11868900B1 (en) 2023-02-22 2024-01-09 Unlearn.AI, Inc. Systems and methods for training predictive models that ignore missing features

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2513105A (en) * 2013-03-15 2014-10-22 Deepmind Technologies Ltd Signal processing systems

Also Published As

Publication number Publication date
WO2017122785A1 (en) 2017-07-20
US20190018933A1 (en) 2019-01-17

Similar Documents

Publication Publication Date Title
JP2019512758A (ja) マルチモーダル生成機械学習のためのシステムおよび方法
Karim et al. Deep learning-based clustering approaches for bioinformatics
Ching et al. Opportunities and obstacles for deep learning in biology and medicine
Tang et al. Recent advances of deep learning in bioinformatics and computational biology
JP7305656B2 (ja) 確率分布をモデル化するためのシステムおよび方法
JP7490576B2 (ja) 訓練された統計モデルを使用するマルチモーダル予測のための方法および装置
Rafique et al. Machine learning in the prediction of cancer therapy
Thirunavukarasu et al. Towards computational solutions for precision medicine based big data healthcare system using deep learning models: A review
Batch et al. Developing a cancer digital twin: supervised metastases detection from consecutive structured radiology reports
Fu et al. Probabilistic and dynamic molecule-disease interaction modeling for drug discovery
Shukla Feature selection inspired by human intelligence for improving classification accuracy of cancer types
Treppner et al. Interpretable generative deep learning: an illustration with single cell gene expression data
Chin et al. eDRAM: effective early disease risk assessment with matrix factorization on a large-scale medical database: a case study on rheumatoid arthritis
Bhardwaj et al. Computational biology in the lens of CNN
Shen et al. A brief review on deep learning applications in genomic studies
Kumar et al. Machine learning in bioinformatics
Houssein et al. Soft computing techniques for biomedical data analysis: open issues and challenges
Mandal et al. A study of bio-inspired computing in bioinformatics: a state-of-the-art literature survey
Yao et al. Multiple graph kernel fusion prediction of drug prescription
Shukla et al. Application of deep learning in biological big data analysis
Gong et al. Analyze COVID-19 CT images based on evolutionary algorithm with dynamic searching space
Muthalaly Using deep learning to predict the mortality of leukemia patients
Ullah et al. Crow-ENN: An Optimized Elman Neural Network with Crow Search Algorithm for Leukemia DNA Sequence Classification
KR20230074178A (ko) 게놈 서열 데이터세트 생성
Cao et al. Learning functional embedding of genes governed by pair-wised labels