JP2019512758A

JP2019512758A - マルチモーダル生成機械学習のためのシステムおよび方法

Info

Publication number: JP2019512758A
Application number: JP2018536524A
Authority: JP
Inventors: 健太大野; ジャスティンクレイトン
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2016-01-15
Filing date: 2017-01-13
Publication date: 2019-05-16
Also published as: WO2017122785A1; US20190018933A1

Abstract

様々な実施形態において、本明細書に記載されるシステムおよび方法は、マルチモーダル生成モデルに関するものである。生成モデルは、化合物と、該化合物に関連する様々なデータモダリティの生物学情報、化学情報、遺伝情報、視覚情報、または臨床情報のうちの１または複数とを含む訓練セットを使用し、機械学習手法を使用して訓練されうる。深層学習アーキテクチャが使用されうる。様々な実施形態において、生成モデルは、異なるカテゴリーの複数の所望の特性を満足させる化合物を生成するのに使用される。

Description

本発明は、マルチモーダル生成機械学習に関する。

所望の特性を有するリード化合物の探索は、典型的にはハイ・スループット・スクリーニングまたはバーチャルスクリーニングを含む。これらの方法は、低速で、高くつき、効果的ではない。

ハイ・スループット・スクリーニングでは、化合物ライブラリからの化合物を試験する。しかし、化合物ライブラリは膨大であり、候補のほとんどはヒット化合物として選択されるのに適さない。この複雑なアプローチに伴う費用を最小限に抑えるために、いくつかのスクリーニング方法はバーチャルスクリーニングとして知られるインシリコ法を利用する。しかしながら、利用可能なバーチャルスクリーニング法は、膨大な計算能力を必要とし、アルゴリズム的に不十分で時間がかかる。

さらに、現在のｈｉｔ−ｔｏ−ｌｅａｄ探索は、主に、化合物候補の膨大なリストからの網羅的スクリーニングを含む。このアプローチは、所望の特性を有する化合物が既存の化合物のリスト内で見出されるという期待に依拠したものである。さらに、たとえ現在のスクリーニング法でリード化合物をうまく見つけることができたとしても、それはこれらのリード化合物を薬物として使用できることを意味するものではない。候補化合物が臨床試験の後期に失敗することはまれではない。失敗の主な理由の１つは、動物またはヒトによる実験まで明らかにならない毒性または副作用である。最後に、これらの探索モデルは低速で高くつく。

加えて、創薬では往々にして、被験者の集団について個々の分集団の遺伝的構成を考慮せずに行われる。遺伝的構成が考慮される場合でさえ、スクリーニングおよび／または試験には関連する遺伝マーカーまたは生物学的マーカーが必要とされうる。例えば、ハーセプチンの個別化された投与は、ＨＥＲ２の検査が関係していることと、ＨＥＲ２検査の結果とを必要とする。これらの制限により、創薬のような個別化された医療は、因子の単純な組み合わせの単純なスクリーニングに限定され、様々な因子の未知の相互作用や非線形の相互作用を考慮することができない。

既存の方法は非効率的であり、制限があるため、標的タンパク質への結合や特定の遺伝的構成の患者に有効であるといった所望の特性を有する候補化合物を直接生成する薬物設計法が必要であり、候補化合物が標的以外および／または他の標的とどのように相互作用するか、毒性または副作用がないかを予測する必要がある。さらに候補化合物が指定された結果を誘導すると予期される遺伝情報を生成する必要もある。さらに個別化された処方方法も必要である。最後に、複数のモダリティのデータで訓練することができる、基礎をなす高次元マルチモーダルデータの分布を考慮に入れた予測モデルが必要である。

第１の態様において、本明細書に記載される本発明のシステムおよび方法は、マルチモーダル生成モデルを含むコンピュータシステムに関するものである。マルチモーダル生成モデルは、各々が複数の層のユニットを有するｎ個のネットワークモジュールを含む第１レベルと、ｍ層のユニットを含む第２レベルとを含みうる。生成モデルは、少なくともｌ個の異なるデータモダリティを含む訓練データを生成モデルに入力することによって訓練され、少なくとも１つのデータモダリティが化合物フィンガープリントを含む。いくつかの実施形態では、ｎ個のネットワークモジュールのうちの少なくとも１つは、無向非巡回グラフなどの無向グラフを含む。いくつかの実施形態では、無向グラフは、制限ボルツマンマシン（ＲＢＭ）または深層ボルツマンマシン（ＤＢＭ）を含む。いくつかの実施形態では、少なくとも１つのデータモダリティは、遺伝情報を含む。いくつかの実施形態では、少なくとも１つのデータモダリティは、試験結果または画像を含む。いくつかの実施形態では、第２レベルの第１層は、ｎ個のネットワークモジュールの各々の第１レベル間層から入力を受け取るように構成される。いくつかの実施形態では、ｎ個のネットワークモジュールの各々の第２レベル間層は、第２レベルの第２層から入力を受け取るように構成される。いくつかの実施形態では、第２レベルの第１層と第２レベルの第２層とは同じである。いくつかの実施形態では、ネットワークモジュールの第１レベル間層とネットワークモジュールの第２レベル間層とは同じである。いくつかの実施形態では、ｎは、少なくとも２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、または１００である。いくつかの実施形態では、ｍは、少なくとも１、２、３、４または５である。いくつかの実施形態では、ｌは、少なくとも２、３、４、５、６、７、８、９または１０である。いくつかの実施形態では、訓練データは、遺伝情報、全ゲノム配列、部分ゲノム配列、バイオマーカー、一塩基多型（ＳＮＰ）、メチル化パターン、構造情報、転座、欠失、置換、逆位、挿入、ウイルス配列挿入、点突然変異、一塩基挿入、一塩基欠失、一塩基置換、ｍｉｃｒｏＲＮＡ配列、ｍｉｃｒｏＲＮＡ変異、ｍｉｃｒｏＲＮＡ発現レベル、化合物表現、フィンガープリント、バイオアッセイ結果、遺伝子発現レベル、ｍＲＮＡ発現レベル、タンパク質発現レベル、小分子生成レベル、グリコシル化、細胞表面タンパク質発現、細胞表面ペプチド発現、遺伝情報の変化、Ｘ線画像、ＭＲ画像、超音波画像、ＣＴ画像、写真、顕微鏡写真、病歴、患者人口統計、患者自己申告問診表、臨床メモ、毒性、交差反応性、薬物動態学、薬力学、生物学的利用能、溶解性、疾患進行、腫瘍サイズ、経時的なバイオマーカーの変化、および個人健康管理データからなる群より選択されるデータタイプを含む。いくつかの実施形態では、生成モデルは、遺伝情報および試験結果の入力時に化合物フィンガープリントの値を生成するように構成される。いくつかの実施形態では、生成モデルは、化合物フィンガープリントおよび試験結果の入力時に遺伝情報を生成するように構成される。いくつかの実施形態では、生成モデルは、化合物フィンガープリントおよび遺伝情報の入力時に試験結果を生成するように構成される。いくつかの実施形態では、生成モデルは、複数のデータモダリティの値を生成するように、例えば、化合物フィンガープリントおよび遺伝情報の指定された要素の入力時に、化合物フィンガープリントの欠損要素および遺伝情報の欠損要素の値、ならびに、試験結果、画像、疾患進行を測定する順次データなどの他のデータモダリティの値を生成するように構成される。

第２の態様において、本明細書に記載される本発明のシステムおよび方法は、少なくとも１つのデータモダリティが化合物フィンガープリントを含む、少なくともｌ個の異なるデータモダリティを含む訓練データを生成モデルに入力するステップを含む、生成モデルを訓練するための方法に関するものである。生成モデルは、各々が複数の層のユニットを有するｎ個のネットワークモジュールを含む第１レベルを含みうる。いくつかの実施形態では、生成モデルはまた、ｍ層のユニットを含む第２レベルも含む。

第３の態様において、本明細書に記載される本発明のシステムおよび方法は、個別化された薬物処方予測を生成する方法に関するものである。本方法は、生成モデルに遺伝情報の値および化合物のフィンガープリント値を入力するステップと、試験結果を生成するステップとを含みうる。生成モデルは、各々が複数の層のユニットを有するｎ個のネットワークモジュールを含む第１レベルと、ｍ層のユニットを含む第２レベルとを含みうる。生成モデルは、少なくとも１つのデータモダリティが化合物フィンガープリントを含み、少なくとも１つのデータモダリティが試験結果を含み、少なくとも１つのデータモダリティが遺伝情報を含む、少なくともｌ個の異なるデータモダリティを含む訓練データを生成モデルに入力することによって訓練され、入力値の遺伝情報を有する患者が化合物の投与時に生成された試験結果を有する尤度は、閾値尤度以上である。いくつかの実施形態では、本方法は、患者に、化合物を含む処方を作成するステップをさらに含む。いくつかの実施形態では、閾値尤度は、少なくとも９９％、９８％、９７％、９６％、９５％、９０％、８０％、７０％、６０％、５０％、４５％、４０％、３５％、３０％、２５％、２０％、１５％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％または０．１％である。

第３の態様において、本明細書に記載される本発明のシステムおよび方法は、個別化された創薬の方法に関するものである。本方法は、生成モデルに試験結果値および遺伝情報の値を入力するステップと、化合物のフィンガープリント値を生成するステップとを含みうる。生成モデルは、各々が複数の層のユニットを有するｎ個のネットワークモジュールを含む第１レベルと、ｍ層のユニットを含む第２レベルとを含みうる。生成モデルは、少なくとも１つのデータモダリティが化合物フィンガープリントを含み、少なくとも１つのデータモダリティが試験結果を含み、少なくとも１つのデータモダリティが遺伝情報を含む、少なくともｌ個の異なるデータモダリティを含む訓練データを生成モデルに入力することによって訓練され、入力値の遺伝情報を有する患者が化合物の投与時に試験結果を有する尤度は、閾値尤度以上である。いくつかの実施形態では、閾値尤度は、少なくとも９９％、９８％、９７％、９６％、９５％、９０％、８０％、７０％、６０％、５０％、４５％、４０％、３５％、３０％、２５％、２０％、１５％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％または０．１％である。

第４の態様において、本明細書に記載される本発明のシステムおよび方法は、薬物の患者集団を同定する方法に関するものである。本方法は、生成モデルに試験結果値および化合物のフィンガープリント値を入力するステップと、遺伝情報を生成するステップとを含みうる。生成モデルは、各々が複数の層のユニットを有するｎ個のネットワークモジュールを含む第１レベルと、ｍ層のユニットを含む第２レベルとを含みうる。いくつかの実施形態では、生成モデルは、少なくとも１つのデータモダリティが化合物フィンガープリントを含み、少なくとも１つのデータモダリティが試験結果を含み、少なくとも１つのデータモダリティが遺伝情報を含む、少なくともｌ個の異なるデータモダリティを含む訓練データを生成モデルに入力することによって訓練され、生成値の遺伝情報を有する患者が化合物の投与時に入力された試験結果を有する尤度は、閾値尤度以上である。いくつかの実施形態では、閾値尤度は、少なくとも９９％、９８％、９７％、９６％、９５％、９０％、８０％、７０％、６０％、５０％、４５％、４０％、３５％、３０％、２５％、２０％、１５％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％または０．１％である。いくつかの実施形態では、本方法は、複数のヒト被験者を含む臨床試験を行うステップをさらに含み、臨床試験の管理者は、複数のヒト被験者の少なくとも閾値割合について遺伝情報の生成値を満足させる遺伝情報を有する。いくつかの実施形態では、閾値割合は、少なくとも少なくとも９９％、９８％、９７％、９６％、９５％、９０％、８０％、７０％、６０％、５０％、４５％、４０％、３５％、３０％、２５％、２０％、１５％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％または０．１％である。

第４の態様において、本明細書に記載される本発明のシステムおよび方法は、化合物の臨床試験を行う方法に関するものである。本方法は、複数のヒト被験者に化合物を投与するステップを含みうる。いくつかの実施形態では、臨床試験の管理者は、複数のヒト被験者の少なくとも閾値割合について遺伝情報の生成値を満足させる遺伝情報を有し、遺伝情報の生成値は、請求項２３に記載の方法に従って生成される。いくつかの実施形態では、閾値割合は、少なくとも少なくとも９９％、９８％、９７％、９６％、９５％、９０％、８０％、７０％、６０％、５０％、４５％、４０％、３５％、３０％、２５％、２０％、１５％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％または０．１％である。

本発明の上記その他の態様および特徴は、以下の本発明の具体的な実施形態の説明を添付の図と併せて考察すれば、当業者には明らかになるであろう。

２つのレベルを有し、第１レベルが、異なるデータモダリティを受け入れるように各々構成された２つのネットワークモジュールを含む生成モデルを含む本発明の例示的な実施形態を示す図である。２つのレベルを有し、第１レベルが、異なるデータモダリティを受け入れるように各々構成された４つのネットワークモジュールを含む生成モデルを含む本発明の別の例示的な実施形態を示す図である。３つのレベルを有し、第０レベルの２つのネットワークモジュールの共有表現と第１レベルのネットワークモジュールの出力とが、第２レベルの第２の共有表現において組み合わされる生成モデルを含む本発明の別の例示的な実施形態を示す図である。本明細書に記載される動作のうちの１または複数を実行しうる例示的なコンピュータシステムのブロック図である。２つの異なるデータモダリティの要素の値を生成するように構成された２つのレベルを有する生成モデルを含む本発明の例示的な実施形態を示す図である。変分リカレント・ニューラル・ネットワーク（ＶＲＮＮ）を含むマルチモーダル生成モデルを含む本発明の例示的な実施形態を示す図である。例示的なＶＲＮＮの構成要素のデータフローを示す図である。

様々な実施形態において、本発明のシステムおよび方法は、精密医療および／または個別化医療のための生成モデルに関するものである。生成モデルは、全ゲノム配列や部分ゲノム配列などの遺伝情報、バイオマーカー、一塩基多型（ＳＮＰ）、メチル化パターン、転座、置換、逆位、ウイルス配列挿入などの挿入、挿入、欠失、置換などの点突然変異、またはそれらの表現、ｍｉｃｒｏＲＮＡ配列、ｍｉｃｒｏＲＮＡ変異および／またはｍｉｃｒｏＲＮＡ発現レベルといった構造情報；化合物表現、例えばフィンガープリント；例えば、健康組織および／または疾患組織における遺伝子、ｍＲＮＡ、タンパク質などの発現レベルや、小分子発現／生成レベル、グリコシル化、細胞表面タンパク質および／またはペプチド発現、または遺伝情報の変化などのバイオアッセイ結果；非侵襲的（例えば、Ｘ線、ＭＲ、超音波、ＣＴなど）または侵襲的（例えば、写真や顕微鏡写真などの生検画像）処置によって得られるような画像、病歴および人口統計、患者自己申告問診表、および／またはテキスト形式のノートを含む臨床メモ；毒性；交差反応性；薬物動態学；薬力学；生物学的利用能；溶解性；疾患進行；腫瘍サイズ；経時的なバイオマーカーの変化；個人健康管理データ；ならびに当技術分野で公知の任意の他の適切なデータモダリティまたはデータタイプを含む複数のデータモダリティといった複数のデータモダリティを組み込み、かつ／またはそれらのデータモダリティによって訓練されうる。そのようなシステムを使用して、１または複数の所望のデータモダリティまたはデータタイプの出力を生成することができる。そのようなシステムおよび方法は、１または複数の所望のデータタイプの出力を生成するために入力値として１または複数のデータモダリティの値をとりうる。

様々な実施形態において、本明細書に記載されるシステムおよび方法を使用して、様々なデータモダリティ間の非線形関係を捉え、利用することができる。そのような非線形関係は、関連するデータモダリティの表現における様々な抽象度に関しうる。

いくつかの実施形態では、本発明の方法およびシステムは、既知のバイオマーカーを必要とせずに、本明細書でさらに詳述する様々な目的に使用することができる。本明細書に記載されるシステムおよび方法は、訓練データおよび／または入力データにおける様々なサイズの入力および／または欠損値を処理することを可能にするマスキングモジュールを含むが、これに限定されないモジュールおよび機能を含みうる。本明細書に記載されるシステムおよび方法は、制限ボルツマンマシン（ＲＢＭ）、深層ボルツマンマシン（ＤＢＭ）、変分オートエンコーダ（ＶＡＥ）、リカレント・ニューラル・ネットワーク（ＲＮＮ）、変分リカレント・ニューラル・ネットワーク（ＶＲＮＮ）といった、１または複数のデータモダリティの専用ネットワークモジュールを含みうる。

様々な実施形態において、本明細書に記載される方法およびシステムは、マルチモーダルＤＢＭやマルチモーダル深層信念ネット（ＤＢＮ）などのマルチモーダル生成モデルを含む。マルチモーダルＤＢＭなどのマルチモーダル生成モデルは、有向ユニモーダル経路や無向ユニモーダル経路などのユニモーダル経路の構成を含みうる。各経路は、完全に教師なし、または半教師ありの方式で別々に事前訓練されうる。あるいは、すべての経路およびモジュールのネットワーク全体が一緒に訓練されてもよい。任意の数の層を各々有する任意の数の経路が使用されうる。いくつかの実施形態では、可視層および隠れ層の伝達関数は、経路内および／または経路間で異なる。いくつかの実施形態では、各経路の終わりの隠れ層の伝達関数は、同じタイプ、例えば二値である。個々のデータモダリティの統計的特性の違いは、モダリティ間の隠れユニットの層によって橋渡しされうる。本明細書に記載される生成モデルは、ある経路における低レベルの隠れユニットの状態が、高レベルの層を通る他の経路における隠れユニットの状態に影響を及ぼすように構成することができる。

生成モデルは、約１レベル、２レベル、３レベル、４レベル、５レベル、６レベル、７レベル、８レベル、９レベル、またはそれ以上のレベルを含みうる。いくつかの実施形態では、生成モデルは、約１０レベル、９レベル、８レベル、７レベル、６レベル、５レベル、４レベル、もしくは３レベル、またはそれ未満のレベルを含む。各レベルは、ＲＢＭやＤＢＭなどの１または複数のネットワークモジュールを含みうる。例えば、第１レベル、第２レベル、第３のレベル、または別のレベルなどのレベルは、約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、８０、９０、１００、またはそれ以上のネットワークモジュールを含みうる。いくつかの実施形態では、レベルは、約２００、１５０、１２５、１００、９０、８０、７０、６５、６０、５５、５０、４５、４０、３５、３０、２５、２０、１９、１８、１７、１６、１５、１４、１３、１２、１１、１０、９、８、７、６、５、４、もしくは３、またはそれ未満のネットワークモジュールを含みうる。各ネットワークモジュールは、特定のデータモダリティまたはデータタイプのデータの表現を生成するのに使用されうる。データモダリティまたはデータタイプは、全ゲノム配列や部分ゲノム配列などの遺伝情報、バイオマーカー、一塩基多型（ＳＮＰ）、メチル化パターン、転座、置換、逆位、ウイルス配列挿入などの挿入、挿入、欠失、置換などの点突然変異、またはそれらの表現、ｍｉｃｒｏＲＮＡ配列、ｍｉｃｒｏＲＮＡ変異および／またはｍｉｃｒｏＲＮＡ発現レベルといった構造情報；化合物表現、例えばフィンガープリント；例えば、健康組織および／または疾患組織における遺伝子、ｍＲＮＡ、タンパク質などの発現レベルや、小分子発現／生成レベル、グリコシル化、細胞表面タンパク質および／またはペプチド発現、または遺伝情報の変化などのバイオアッセイ結果；非侵襲的（例えば、Ｘ線、ＭＲ、超音波、ＣＴなど）または侵襲的（例えば、写真や顕微鏡写真などの生検画像）処置によって得られるような画像、病歴および人口統計、患者自己申告問診表、および／またはテキスト形式のメモを含む臨床メモ；毒性；交差反応性；薬物動態学；薬力学；生物学的利用能；溶解性；疾患進行；腫瘍サイズ；経時的なバイオマーカーの変化；個人健康管理データ；ならびに当技術分野で公知の任意の他の適切なデータモダリティまたはデータタイプであってよい。第２以降のレベルは、第１レベルからの表現を組み込んだ共有表現に使用されうる。共有表現に使用されるレベルは、複数の隠れ層および／または生成モデルのような別のタイプのモデル、例えば、変分オートエンコーダを含みうる。

様々な実施形態において、本方法および本方法のシステムは、複数のモダリティを含むデータ空間に及ぶ同時確率密度モデルを学習するように訓練されうる。生成モデルは、データモダリティの条件付き分布を生成するのに使用されうる。生成モデルは、他のラベル要素の値を含む入力に応答して、そのような条件付き分布からサンプリングしてラベル要素値を生成するのに使用されうる。いくつかの実施形態では、例えばシーディングのために、生成モデルは、生成されたラベル要素の値を含む、ラベル要素の値を含む入力に応答して、そのような条件付き分布からサンプリングしてラベル要素値を生成しうる。

様々な実施形態において本明細書で記載される生成値は、成功の閾値条件を満たしうる。いくつかの実施形態では、閾値条件は、所望のラベルまたはラベル要素値を満たす尤度として表現される。

様々な実施形態において、本明細書に記載される方法およびシステムは、生成モデルの訓練、化合物および／または関連付けられるラベル値の表現の生成、またはその両方に使用されうる。訓練フェーズに続いて生成フェーズが行われうる。いくつかの実施形態では、第１の当事者が訓練フェーズを行い、第２の当事者が生成フェーズを行う。訓練フェーズを行う当事者は、訓練によって決定されるシステムのパラメータを、第１の当事者が所有する別個のコンピュータシステムに、もしくは第２の当事者に、かつ／または第２の当事者が所有するコンピュータシステムに、直接、または例えば仲介当事者を使用して提供することによって訓練された生成モデルの複製を可能にしうる。したがって、訓練されたコンピュータシステムとは、本明細書に記載される場合、第２のコンピュータシステムが第１のシステムの出力分布を再現できるように、第２のコンピュータシステムに、本明細書に記載される訓練方法を使用して第１のコンピュータシステムを訓練することによって取得されたパラメータを提供することによって構成された第２のコンピュータシステムを指しうる。そのようなパラメータは、有形または無形の形態で第２のコンピュータシステムに転送されうる。

生成モデルの第１レベルのネットワークモジュールなどのネットワークモジュールは、様々な実施形態において、そのモジュールがそのための表現を生成するように設定されている特定のデータモダリティまたはデータタイプに従って構成される。任意のレベルの任意の層のユニットが、異なる伝達関数で構成されうる。例えば、二進値をとる可視ユニットおよび隠れユニットは、二値伝達関数またはロジスティック伝達関数を使用しうる。実数値の可視ユニットは、ガウス伝達関数を使用しうる。画像は、実数値の可視ユニットが適する実数値データで表されうる。ガウシアン・ベルヌーイＲＢＭまたはガウシアン・ベルヌーイＤＢＭは、実数値可視ユニットおよび二値隠れユニットに使用されうる。序数値のデータは、累積ＲＢＭまたは累積ＤＢＭを使用して符号化されうる。入力が混合型のものである場合、混合変量ＲＢＭまたは混合変量ＤＢＭが使用されうる。テキストは、ＲｅｐｌｉｃａｔｅｄＳｏｆｔｍａｘ（複製ソフトマックス）のみによって、または追加のネットワークモジュールと組み合わせて符号化されうる。遺伝子配列は、リカレント・ニューラル・ネットワーク（ＲＮＮ）によって、例えば変分オートエンコーダ（ＶＡＥ）のＲＮＮによって符号化されうる。

様々な実施形態において、生成モデルは、個々のモダリティまたはデータタイプの表現が、その他のデータモダリティまたはデータタイプのうちの１または複数からの表現の影響を受けるように構築され、訓練される。個々のモダリティまたはデータタイプの表現は、複数のネットワークモジュールからの表現を組み込んだ共有表現によっても影響されうる。

いくつかの実施形態では、ネットワークは、特定の投薬法または薬物、例えば、フィンガープリントの一部または全部の要素の値の同定情報と、推奨される用量、例えば、連続変数の形の推奨される用量の両方を生成する。

図１に、２つのレベルを有する生成モデルを含む本発明の例示的な実施形態を示す。第１レベルは、特定のデータモダリティまたはデータタイプに専用に構成された２つ以上のネットワークモジュールを含みうる。例えば、第１のネットワークモジュールは、フィンガープリント固有のＲＢＭまたはＤＢＭを含みうる。第２のモジュールは、化合物のｉｎｖｉｔｒｏまたはｉｎｖｉｖｏの試験結果、例えば、遺伝子発現データに固有のＲＢＭまたはＤＢＭを含みうる。第１レベルのネットワークモジュールは、１または複数の層のユニットを含む第２レベルでリンクされうる。第２レベルの層は、隠れユニットを含みうる。いくつかの実施形態では、第２レベルは単一の隠れ層を含む。第２レベルの層は、第１レベルのモジュールからの出力を共有表現に組み込みうる。同時確率分布は、いくつかのモダリティまたはタイプのデータからの寄与を反映しうる。

化合物フィンガープリントおよび関連付けられるラベルデータ、例えば、化合物と関連付けられるバイオアッセイ結果を有するラベルデータの生成モデルを含むシステムおよび方法が、参照によりその全体が本明細書に組み込まれる、米国特許出願第６２／２６２，３３７号の多数の実施形態に記載されている。図１に示す例示的な実施形態は、化合物フィンガープリントを化合物と関連付けられる結果にリンクする生成モデル、すなわち、化合物フィンガープリントのアッセイ結果を生成するための生成モデルおよび／または所望の結果から化合物フィンガープリントを生成するために生成モデルも可能にする。

図２に、２つのレベルを有する生成モデルを含む本発明の別の例示的な実施形態を示す。第１レベルは、特定のデータモダリティまたはデータタイプに専用に構成された２つ以上のネットワークモジュールを含みうる。例えば、第１のネットワークモジュールは、フィンガープリント固有のＲＢＭまたはＤＢＭを含みうる。第２のモジュールは、遺伝情報に特有のＲＢＭまたはＤＢＭを含みうる。第３のモジュールは、化合物のｉｎｖｉｔｒｏまたはｉｎｖｉｖｏの試験結果、例えば、遺伝子発現データに固有のＲＢＭまたはＤＢＭを含みうる。第４のモジュールは、画像データに固有のＲＢＭまたはＤＢＭを含みうる。画像データは、Ｘ線、超音波、磁気共鳴（ＭＲ）、コンピュータ断層撮影（ＣＴ）、生検の写真もしくは顕微鏡写真、または当技術分野で公知の任意の他の適切な画像など、１または複数の画像タイプを含みうる。第１レベルのネットワークモジュールは、１または複数の層のユニットを含む第２レベルでリンクされうる。第２レベルの層は、隠れユニットを含みうる。いくつかの実施形態では、第２レベルは単一の隠れ層を含む。いくつかの実施形態では、第２レベルは、変分オートエンコーダなどの生成モデルを含みうる。第２レベルの層は、第１レベルのモジュールからの出力を共有表現に組み込みうる。同時確率分布は、いくつかのモダリティまたはタイプのデータからの寄与を反映しうる。

いくつかの実施形態では、本明細書でさらに詳細に説明されている本発明のシステムおよび方法は、第１レベルの個々のモジュール、例えば個々のＲＢＭまたはＤＢＭが、第２レベルの１または複数の隠れ層と同時に訓練されると定める。理論に制約されるものではないが、同時訓練は、共有表現が個々のネットワークモジュールの訓練された重みに影響を及ぼすことを可能にしうる。さらに、理論に制約されるものではないが、共有表現は、したがって、ＲＢＭまたはＤＢＭなどの、各ネットワークモジュール内の個々のデータモダリティまたはデータタイプの符号化に影響を及ぼしうる。いくつかの実施形態では、第１レベルの１または複数のネットワークモジュールが単一変数を符号化する。

様々な実施形態において、本発明のシステムおよび方法は、第１レベルからの複数のネットワークモジュールが第２レベルに結合されることを可能にする。第１レベルの個々のネットワークモジュールは、同一のアーキテクチャまたは類似したアーキテクチャを有しうる。いくつかの実施形態では、第１層内の個々のネットワークモジュールのアーキテクチャは、互いに異なる。個々のネットワークモジュールは、異なるタイプのデータモダリティまたはデータタイプの符号化の違いに対応するように構成されうる。いくつかの実施形態では、類似したデータモダリティを有する異なるデータタイプを符号化するのに別々のネットワークモジュールが専用に割り当てられうる。例えば、臨床メモと患者自己申告調査など、２つのデータタイプのテキストモダリティが、２つの別々のネットワークモジュールを使用して符号化されうる（図３）。

図６に、ＶＲＮＮを含むマルチモーダル生成モデルを含む本発明の例示的な実施形態を示す。ＶＲＮＮのエンコーダは、時間ステップごとに時系列の潜在表現ｚを生成するのに使用されうる。時間ｔにおける符号化は、時系列の時間情報を考慮に入れることができる。ＲＮＮは、新しいデータ点からのステップごとのその隠れ状態および前の時間ステップにおけるＶＡＥからの潜在表現を更新しうる。

図７に、例示的なＶＲＮＮの構成要素のデータフローを示す。図中、ｘ_ｔ、ｚ_ｔ、ｈ_ｔは時刻ｔにおける時系列のデータ点、ｔにおける時系列の潜在表現、およびＲＮＮの隠れ状態である。

いくつかの実施形態では、ネットワークモジュールは、追加レベルのモデルアーキテクチャ内で構成されうる。そのような追加レベルは、本明細書の別の箇所にさらに詳細に記載されている第１レベル、第２レベル、または別のレベルのアーキテクチャに表現を入力しうる。例えば、データが「第０」レベルで符号化され、結果として得られる表現は、第１レベル、例えば、第１レベル内の特定のネットワークモジュールに、または直接第２レベルに入力されうる。追加レベルのアーキテクチャにおけるネットワークモジュールの訓練は、他のレベルのネットワークモジュールと同時に行われる場合もそうでない場合もある。

様々な実施形態において、本明細書に記載されるシステムおよび方法は、深層生成モデル、ＤＢＭ、ＤＢＮ、確率的オートエンコーダ、リカレント・ニューラル・ネットワーク、変分オートエンコーダ、リカレント変分ネットワーク、変分リカレント・ニューラル・ネットワーク（ＶＲＮＮ）、無向グラフィカルモデルもしくは有向グラフィカルモデル、信念ネットワーク、またはそれらの変形を含むがこれに限定されない深層ネットワークアーキテクチャを利用する。

＜データ＞
様々な実施形態において、本明細書に記載されるシステムおよび方法は、マルチモーダル設定で動作するように構成され、データは複数のモードを含む。各モダリティは、異なる種類の表現および相関構造を有しうる。例えば、テキストは、通常、離散的で疎な単語カウントベクトルとして表されうる。画像は、画素強度または実数値で、密でありうる特徴抽出器の出力を使用して表されうる。様々なデータモードは、非常に異なる統計的特性を有しうる。化合物は、フィンガープリントを使用して表されうる。本明細書に記載されるシステムおよび方法は、様々な実施形態において、モダリティにわたる関係、すなわちモダリティ間関係、および／または同じモダリティ内の特徴間の関係、すなわちモダリティ内関係を発見するように構成される。本明細書に記載されるシステムおよび方法は、異なるモダリティにわたる特徴間の高度に非線形な関係を発見するのに使用されうる。そのような特徴は、高レベルまたは低レベルの特徴を含みうる。本明細書に記載されるシステムおよび方法は、ノイズの多いデータおよび特定のデータモダリティまたはデータタイプの欠損値を含むデータを処理するように実現されうる。

いくつかの実施形態では、データは、経時的なバイオマーカーの変化、経時的な腫瘍サイズ、経時的な疾患進行、経時的な個人健康管理データなどの順次データを含む。

本明細書の別の箇所にさらに詳細に記載されている本発明のシステムおよび方法は、様々な実施形態において、約または少なくとも約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、またはそれ以上のデータモダリティを符号化するように構成されうる。そのようなデータモダリティには、フィンガープリントなどの化合物表現、遺伝情報、試験結果、画像データ、または本明細書でさらに詳細に説明されるか、それ以外の当技術分野で公知の任意の他の適切なデータなどが含まれうる。

＜データソース＞
訓練データは、ＰｕｂＣｈｅｍ（ｈｔｔｐ：／／ｐｕｂｃｈｅｍ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／）などのデータベースからの化合物および関連付けられたラベルの情報から集められうる。データはまた、薬物スクリーニングライブラリ、コンビナトリアル合成ライブラリなどから取得されうる。アッセイに関連する試験結果ラベル要素は、細胞アッセイおよび生化学的アッセイを含むことができ、場合によっては、複数の関連アッセイ、例えば酵素の異なるファミリーのアッセイを含みうる。様々な実施形態において、１または複数のラベル要素に関する情報は、化合物データベース、バイオアッセイデータベース、毒性データベース、臨床記録、交差反応性記録、または当技術分野で公知の任意の他の適切なデータベースなどのリソースから取得されうる。

遺伝情報は、患者から直接、またはゲノムおよび表現型変異データベース、がんゲノムアトラス（ＴＣＧＡ）データベース、ゲノム変異データベース、変異体疾患関連付けデータベース、臨床ゲノムデータベース、疾患特異的変異データベース、遺伝子座特異的変異データベース、体細胞がん変異データベース、ミトコンドリア変異データベース、国民的民族的変異データベース、非ヒト変異データベース、染色体再配置および融合データベース、変異オントロジー、個人ゲノムデータベース、エクソン・イントロンデータベース、保存または超保存コーディングおよび非コーディング配列データベース、エピゲノムデータベース、例えば、ＤＮＡメチル化、ヒストン修飾、ヌクレオソームポジショニング、ゲノム構造などのデータベース、または当技術分野で公知の任意の他の適切なデータベースなどのデータベースから取得されうる。

いくつかの実施形態では、遺伝情報は、幹細胞、例えば、人工多能性幹細胞（ｉＰＳ細胞またはｉＰＳＣ）やその集団などの組織または細胞から取得される。遺伝情報は、１または複数の化合物の投与への反応、臨床情報、自己申告情報、画像データ、または本明細書に記載されるか、それ以外に当技術分野で公知の任意の他の適切なデータを含むがこれに限定されない、他のタイプのデータにリンクされうる。

ｍｉｃｒｏＲＮＡ情報は、化合物を試験している被験者から、幹細胞などの組織または細胞から、単独で、または、ｄｅｅｐＢａｓｅ（ｂｉｏｃｅｎｔｅｒ．ｓｙｓｕ．ｅｄｕ．ｃｎ／ｄｅｅｐＢａｓｅ／）、ｍｉＲＢａｓｅ（ｗｗｗ．ｍｉｒｂａｓｅ．ｏｒｇ／）、ｍｉｃｒｏＲＮＡ．ｏｒｇ（ｗｗｗ．ｍｉｃｒｏｒｎａ．ｏｒｇ／ｍｉｃｒｏｒｎａ／ｇｅｔＥｘｐｒＦｏｒｍ．ｄｏ）、ｍｉＲＧｅｎ（ｃａｒｏｌｉｎａ．ｉｍｉｓ．ａｔｈｅｎａ−ｉｎｎｏｖａｔｉｏｎ．ｇｒ／ｉｎｄｅｘ．ｐｈｐ？ｒ＝ｍｉｒｇｅｎｖ３）、ｍｉＲＮＡＭａｐ（ｍｉｒｎａｍａｐ．ｍｂｃ．ｎｃｔｕ．ｅｄｕ．ｔｗ／）、ＰＭＲＤ（ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．ｃａｕ．ｅｄｕ．ｃｎ／ＰＭＲＤ／）、ＴａｒｇｅｔＳｃａｎ（ｗｗｗ．ｔａｒｇｅｔｓｃａｎ．ｏｒｇ／）、ＳｔａｒＢａｓｅ（ｓｔａｒｂａｓｅ．ｓｙｓｕ．ｅｄｕ．ｃｎ／）、ＳｔａｒＳｃａｎ（ｍｉｒｌａｂ．ｓｙｓｕ．ｅｄｕ．ｃｎ／ｓｔａｒｓｃａｎ／）、Ｃｕｐｉｄ（ｃｕｐｉｄｔｏｏｌ．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／）、ＴａｒｇｅｔＳｃａｎ（ｗｗｗ．ｔａｒｇｅｔｓｃａｎ．ｏｒｇ／）、ＴａｒＢａｓｅ（ｄｉａｎａ．ｉｍｉｓ．ａｔｈｅｎａ−ｉｎｎｏｖａｔｉｏｎ．ｇｒ／ＤｉａｎａＴｏｏｌｓ／ｉｎｄｅｘ．ｐｈｐ？ｒ＝ｔａｒｂａｓｅ／ｉｎｄｅｘ）、Ｄｉａｎａ−ｍｉｃｒｏＴ（ｄｉａｎａ．ｉｍｉｓ．ａｔｈｅｎａ−ｉｎｎｏｖａｔｉｏｎ．ｇｒ／ＤｉａｎａＴｏｏｌｓ／ｉｎｄｅｘ．ｐｈｐ？ｒ＝ｍｉｃｒｏｔｖ４／ｉｎｄｅｘ）、ｍｉＲｅｃｏｒｄｓ（ｃ１．ａｃｃｕｒａｓｃｉｅｎｃｅ．ｃｏｍ／ｍｉＲｅｃｏｒｄｓ／）、ＰｉｃＴａｒ（ｐｉｃｔａｒ．ｍｄｃ−ｂｅｒｌｉｎ．ｄｅ／）、ＰＩＴＡ（ｇｅｎｉｅ．ｗｅｉｚｍａｎｎ．ａｃ．ｉｌ／ｐｕｂｓ／ｍｉｒ０７／ｍｉｒ０７＿ｄａｔａ．ｈｔｍｌ）、ＲｅｐＴａｒ（ｒｅｐｔａｒ．ｅｋｍｄ．ｈｕｊｉ．ａｃ．ｉｌ／）、ＲＮＡ２２（ｃｍ．ｊｅｆｆｅｒｓｏｎ．ｅｄｕ／ｒｎａ２２／）、ｍｉＲＴａｒＢａｓｅ（ｍｉｒｔａｒｂａｓｅ．ｍｂｃ．ｎｃｔｕ．ｅｄｕ．ｔｗ／）、ｍｉＲｗａｌｋ（ｗｗｗ．ｕｍｍ．ｕｎｉ−ｈｅｉｄｅｌｂｅｒｇ．ｄｅ／ａｐｐｓ／ｚｍｆ／ｍｉｒｗａｌｋ／）、ＭＢＳＴＡＲ（ｗｗｗ．ｉｓｉｃａｌ．ａｃ．ｉｎ／〜ｂｉｏｉｎｆｏ＿ｍｉｕ／ＭＢＳｔａｒ３０．ｈｔｍ）といったｍｉｃｒｏＲＮＡおよび／もしくはｍｉｃｒｏＲＮＡ標的データベースからの情報と組み合わせて取得されうる。

＜生成＞
様々な実施形態において、本明細書に記載されるシステムおよび方法は、生成モデルをコア構成要素として利用する。１または複数の視覚変数または隠れ変数が与えられた場合、本発明の方法およびシステムによる生成モデルを使用して、観測可能なデータ値をランダムに生成することができる。視覚変数または隠れ変数は、本明細書の別の箇所にさらに詳細に記載されている、変化するデータモダリティまたはデータタイプのものであってよい。生成モデルは、データを直接モデル化する（すなわち、確率密度関数から引き出された化合物観察をモデル化する）ために、かつ／または条件付き確率密度関数を形成するための中間ステップとして使用することができる。本明細書の別の箇所にさらに詳細に記載されている生成モデルは、典型的には、化合物表現、例えば、フィンガープリント、および化合物と関連付けられた他のデータの同時確率分布を指定する。

本明細書に記載されるシステムおよび方法は、様々な実施形態において、マルチモーダル入力または複数のデータタイプの空間にわたる同時確率密度モデルを学習するように構成されうる。データタイプの例については、本明細書の別の箇所にさらに詳細に記載されており、化合物フィンガープリント、遺伝情報、試験結果、テキストベースのデータ、画像などを含みうるがこれらに限定されない。欠損値を有するモダリティは、例えば、訓練された生成モデルを使用して、入力値を与えられた場合の欠損モダリティの条件付き分布からサンプリングすることなどによって、生成的に補充されうる。入力値は、別のモダリティおよび／または欠損値のモダリティと同じモダリティの要素のものであってよい。例えば、生成モデルは、化合物フィンガープリントおよび遺伝情報Ｐ（ｖ^Ｆ，ｖ^Ｇ；θ）の同時分布を学習するように訓練されてもよく、ｖ^Ｆは化合物フィンガープリントを表し、ｖ^Ｇは遺伝情報を表し、θは同時分布のパラメータを表す。生成モデルは、Ｐ（ｖ^Ｆ｜ｖ^Ｇ；θ）および／またはＰ（ｖ^Ｆ｜ｖ^Ｇ；θ）からサンプルを抜き出すのに使用されうる。よって、いずれかのデータモダリティの欠損値が、本明細書に記載されるシステムおよび方法を使用して生成されうる。

いくつかの実施形態では、生成的方法は、生成モデルを訓練するのに使用されるモダリティの数よりも少ないデータモダリティの入力値を使用する。

様々な実施形態において、本明細書に記載される生成モデルは、ＲＢＭまたはＤＢＭを含む。いくつかの実施形態では、ＲＢＭおよびＤＢＭは、教師あり、または教師なしでデータを再構築することを学習する。生成モデルは、可視層と１または複数の隠れ層との間で１または複数の順方向パスおよび逆方向パスを行いうる。再構築フェーズでは、隠れ層の活性化は、逆方向パスにおける下方の層の入力になる。

一例として、化合物のセットが、Ｆ＝（ｆ_１，ｆ_２，…，ｆ_Ｋ）として表され、ｆ_ｉは化合物のフィンガープリント表現を含み、Ｋはセット中の化合物の数であるとする。これらの化合物は、Ｍ個の試験結果ラベルのセットＲ＝（ｒ_１，ｒ_２，…，ｒ_Ｍ）と関連付けられており、式中、ｒ_ｉは、例えば、健康組織および／もしくは疾患組織における遺伝子発現レベル、μＲＮＡ情報、化合物活性、毒性、溶解性、合成の容易さ、またはバイオアッセイ結果もしくは予測研究における他の結果といった、ラベル要素の値を含みうる結果ラベルであり、Ｎ個の遺伝情報ラベルのセットＧ＝（ｇ_１，ｇ_２，…，ｇ_Ｎ）であり、Ｑ個の画像ラベルのセットＭ＝（ｍ_１，ｍ_２，…，ｍ_Ｑ）であり、Ｓ個のテキストラベルのセットＴ＝（ｔ_１，ｔ_２，…，ｔ_Ｓ）であり、本明細書の別の箇所にさらに詳細に記載されているか、それ以外に当技術分野で公知の化合物と関連付けられる適切なタイプのＵ個の他のラベルのセットＯ＝（ｏ_１，ｏ_２，…，ｏ_Ｕ）である。いくつかの実施形態では、各タイプのラベルは、個々のネットワークモジュールに入力される。場合によっては、個々のタイプのラベルは、事前処理され、かつ／またはサブラベルに分解されうる。例えば、イメージングラベルは、写真、顕微鏡写真、ＭＲスキャンのサブラベルを含んでいてもよく、ゲノムデータは、部分ゲノム配列、ＳＮＰマップなどをふくんでいてもよい。サブラベルは、事前処理され、かつ／または異なるネットワークモジュールに入力されうる。

生成モデルは、これらの化合物および関連付けられるデータが、ある未知の分布Ｄ、すなわちＤ〜（ｆ_ｎ，ｒ_ｎ，ｇ_ｎ，ｍ_ｎ，ｔ_ｎ，ｏ_ｎ）から生成されるという仮定で構成されうる。生成モデルを訓練することは、モデルが訓練データセット内のデータ例から同時確率分布Ｐ（ｆ，ｒ，ｇ，ｍ，ｔ，ｏ）をモデル化するようにモデルの内部パラメータを調整する訓練方法を利用しうる。様々なデータタイプのラベルの全部または一部が、本明細書に記載されるシステムおよび方法に入力されうる。いくつかの実施形態では、生成モデルは、生成手順で使用されるよりも多くのタイプのデータラベルで訓練されうる。分布Ｄおよび同時確率分布は、入力ラベルのタイプを考慮して定義されうる。

生成モデルが訓練された後、生成モデルは、ｒ、ｇ、ｍ、ｔ、および／またはｏの値を条件とするｆの値、すなわち、ｆ〜ｐ（ｆ｜ｒ，ｇ，ｍ，ｔ，ｏ）を生成するのに使用されうる。例えば、フィンガープリントの訓練セットおよび様々なタイプのラベルで訓練された生成モデルは、指定されたラベル値の要件を満たす高い尤度を有する化合物の表現を生成しうる。このようにして、本発明のシステムおよび方法は、様々な実施形態において、個別化された創薬に使用されうる。例えば、患者の遺伝情報ラベルＧ’および所望の結果ラベルＲ’が与えられた場合、本明細書に記載されるシステムおよび方法を使用して化合物のフィンガープリントが生成されうる。そのような化合物は、当該患者のＲ’を満足させる尤度を有する候補薬物として使用することができ、そのような尤度は、閾値尤度より大または閾値尤度以上である。いくつかの実施形態では、本発明のシステムおよび方法は、複数のフィンガープリント、例えば、約または少なくとも約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、１２５、１５０、１７５、２００、２５０、３００、４００、５００、またはそれ以上の、化合物のフィンガープリントを生成するのに使用され、それらの化合物のうちの少なくとも１、２、３、４、５、６、７、８、９、１０、またはそれ以上が、Ｒ’を満足させる閾値尤度を上回る尤度を有する。様々な実施形態において、閾値尤度は、例えば、９９％、９８％、９７％、９６％、９５％、９０％、８０％、７０％、６０％、５０％、４５％、４０％、３５％、３０％、２５％、２０％、１５％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％、または０．１％として設定されうる。

いくつかの実施形態では、訓練された生成モデルを使用して、１または複数の他のラベルｌ、すなわち、ｒ、ｇ、ｍ、ｔ、ｏおよび／またはその要素の値を条件とした、ｒ、ｇ、ｍ、ｔ、ｏおよび／またはその要素の値など、特定のタイプのラベルｌまたはその要素の値、すなわち、ｌ_ｎ〜ｐ（ｌ｜ｆ，ｌ_ｎ＋１）が生成されうる。例えば、フィンガープリントの訓練セットおよび様々なタイプのラベルで訓練された生成モデルは、真である尤度が高い試験結果の表現を生成しうる。このようにして、本発明のシステムおよび方法は、様々な実施形態において、個別化された薬物処方に使用されうる。例えば、化合物のフィンガープリントＦ’および患者の遺伝情報ラベルＧ’が与えられた場合、本明細書に記載されるシステムおよび方法を使用して試験結果ラベルＲ’の値が生成されうる。あるいは、特定の結果および／または特定の薬物と相関させうる、全ゲノム配列や部分ゲノム配列またはバイオマーカーを含むがこれらに限定されない遺伝情報Ｇ’が、本明細書に記載される方法およびシステムを使用して同定されうる。例えば、化合物のフィンガープリントＦ’および結果ラベルＲ’などのラベルの値が与えられた場合、本明細書に記載されるシステムおよび方法を使用して患者の遺伝情報ラベルＧ’が生成されうる。本発明のシステムおよび方法は、様々な実施形態において、指定された化合物が有効であるその尤度が最も高い遺伝的特性のセットＧ’のセットを同定するのに使用することができる。いくつかの実施形態では、本発明のシステムおよび方法は、所望の適応症と副作用の両方についての処方、臨床試験、別の用途などのための患者集団を同定するのに使用される。化合物および指定された結果と相関する尤度が最も高い遺伝情報の構成要素が、本明細書に記載されるシステムおよび方法を使用して同定されうる。患者は、処方に先立ち、所与の化合物および指定された結果について、本方法およびシステムによって選択された遺伝情報基準を満たすかどうか試験されうる。いくつかの実施形態では、本発明のシステムおよび方法は、遺伝情報、画像データなどの患者特異的データを入力することによって、患者に対する薬物の効能を予測するのに使用される。連続値を含む生成されたラベルがランク付けされうる。

様々な実施形態において、生成値は、入力値、例えば化合物フィンガープリント、結果および／または遺伝情報の入力値と関連付けられた尤度を有し、このような尤度は閾値尤度より大または閾値尤度以上である。いくつかの実施形態では、本発明のシステムおよび方法を使用して、約または少なくとも約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、１２５、１５０、１７５、２００、２５０、３００、４００、５００、またはそれ以上の値または値の範囲など、生成されたラベルの複数の値または値の範囲を生成することができ、個々の値のうちの値の範囲のうちの１または複数が、入力が与えられた場合に真である尤度を割り当てられる。割り当てられた尤度は、さらに処理された出力を調整する閾値尤度と比較されうる。ラベル値の生成は繰り返されうる。例えば、ｎ反復の生成プロセスが行われ、ｎは、約または少なくとも約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、１２５、１５０、１７５、２００、２５０、３００、４００、５００、またはそれ以上としうる。場合によっては、ｎは、約５００、４００、３００、２５０、２００、１７５、１５０、１２５、１００、９０、８０、７０、６０、５０、４５、４０、３５、３０、２５、２０、１５、１４、１３、１２、１１、１０、９、８、７、６、５、４または３未満である。生成されたラベルの特定の値の尤度は、複数の生成プロセスからの複数の出力によって決定されうる。様々な実施形態において、閾値尤度は、例えば、９９％、９８％、９７％、９６％、９５％、９０％、８０％、７０％、６０％、５０％、４５％、４０％、３５％、３０％、２５％、２０％、１５％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％、または０．１％として設定されうる。

ＲＢＭ、ＤＢＭ、マルチモーダルＤＢＭなどの訓練された生成モデルは、モデル化された同時確率分布からサンプリングしてラベルの値または値の範囲を生成することによって、観測可能なデータ値を生成またはシミュレートするのに使用されうる。

一実施形態では、生成モデルまたはその中の個々のモジュールの重みは、最適化法によって訓練中に調整される。

様々な実施形態において、本明細書に記載される生成モデルは、可視変数の欠損値を処理するように構成される。欠損値は、例えば、ギブスサンプリングによって、または、ＲＢＭやＤＢＭなどの別々のネットワークモジュールを使用して、訓練ケースごとに異なる数の可視ユニットで処理されうる。ギブスサンプリング法では、ラベルｌまたはラベル要素の可能な値ごとの自由エネルギーを計算し、次いで、Ｆを可視ベクトルの自由エネルギーとする、ｅｘｐ（−Ｆ（ｌ，ｖ））に比例する確率の値を選択しうる。自由エネルギーＦは、

別の有用な式、例えば

または、期待エネルギーからエントロピーを差し引いたもの

によって表すことができ、式中、

は、隠れユニットｊへの総入力であり、ｐ_ｊ＝σ（ｘ_ｊ）は、ｖが与えられた場合のｈ_ｊ＝１の確率である。

いくつかの実施形態では、欠損値を転嫁しようと試みる代わりに、本明細書に記載されるシステムおよび方法は、あたかも対応するラベル要素が存在しないかのように振る舞うように構成されうる。訓練ケースごとに異なる数の可視ユニットを有するＲＢＭまたはＤＢＭが使用されうる。異なるＲＢＭまたはＤＢＭは、共有重みを有する異なるモデルのファミリーを形成しうる。隠れバイアスは、ＲＢＭまたはＤＢＭ内の可視ユニットの数によって評価されうる。

いくつかの実施形態では、欠損値を処理するための方法は、訓練データが欠損値を有するフィンガープリントおよび／またはラベルを含む生成モデルの訓練中に使用される。

様々な実施形態において、本明細書に記載される生成モデルは、マルチモーダルデータで、例えば、フィンガープリントデータ（Ｆ）、遺伝情報（Ｇ）、および試験結果（Ｒ）を含むデータなどで訓練される。そのような訓練された生成モデルは、フィンガープリント、ラベル、および／またはその要素を生成するのに使用されうる。フィンガープリントデータはベクトルｖ^Ｆ、例えばｖ^Ｆ＝（ｆ_１，ｆ_２，ｆ_３，ｆ_４，ｆ_５）で表されうる。遺伝情報はベクトルｖ^Ｇ、例えばｖ^Ｇ＝（ｇ_１，ｇ_２，ｇ_３，ｇ_４，ｇ_５，ｇ_６）で表されうる。試験結果はベクトルｖ^Ｒ、例えばｖ^Ｒ＝（ｒ_１，ｒ_２，ｒ_３）で表されうる。様々な実施形態において、本明細書に記載されるシステムおよび方法は、１または複数のモダリティおよび／またはその要素が欠損している用途で使用される。同様に、本明細書に記載されるシステムおよび方法は、特定のラベル要素値が指定され、生成されるラベル要素が指定されたラベル要素値によって設定される条件を満たす高い尤度を有するように他のラベル要素値が生成される用途で使用されうる。様々な実施形態において、他のフィンガープリントおよび／またはラベル要素が与えられた場合に、フィンガープリントおよび／またはラベル要素を生成するのに本明細書に記載される生成モデルが使用されうる。例えば、ｆ_３、ｆ_４、ｆ_５、ｇ_１、ｇ_２、ｇ_３、ｇ_４、ｇ_５、ｇ_６、ｒ_１、ｒ_２、およびｒ_３が与えられた場合に、ｆ_１およびｆ_２を生成するのに生成モデルが使用されうる。例えば、１または複数のモダリティおよび／またはその要素の入力値をクランプし、隠れモダリティをサンプリングすることによって、データモダリティまたはその要素の欠損値を生成するのにマルチモーダルＤＢＭが使用されうる。いくつかの実施形態では、ｆ_３、ｆ_４、ｆ_５、ｇ_１、ｇ_２、ｇ_３、ｇ_４、ｇ_５、ｇ_６、ｒ_１、ｒ_２、およびｒ_３が与えられた場合に、例えば、ｆ_１およびｆ_２を生成するために、１または複数のデータモダリティおよび／またはその要素の欠損値を生成するのにギブスサンプリングが使用される。ｆ_３、ｆ_４、ｆ_５、ｇ_１、ｇ_２、ｇ_３、ｇ_４、ｇ_５、ｇ_６、ｒ_１、ｒ_２、ｒ_３などの入力値は、モデルに入力され、固定されうる。隠れユニットはランダムに初期化されうる。隣接する層の状態が与えられた場合に、例えば、各隠れ層を更新することによって、分布Ｐ（Ｆ｜Ｇ，Ｒ）から標本を抜き出すために、交互のギブスサンプリングが使用されうる。この分布からのｆ_１およびｆ_２のサンプリング値は、ｆ_１およびｆ_２の真の分布の近似分布を定義しうる。この近似分布は、ｆ_１およびｆ_２の値をサンプリングするのに使用されうる。そのような近似分布からのサンプリングは、１または複数のギブスステップの後に、例えば、約２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、４０、５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、またはそれ以上のギブスステップの後に、１回または複数回繰り返されうる。いくつかの実施形態では、本明細書に記載される生成モデルは、約５００、４００、３００、２００、１００、９０、８０、７０、６０、５０、４０、３０、２５、２０、１５、１０、９、８、７、６、５、４、３、または２未満のギブスステップの後に、１回または複数回近似分布からサンプリングするのに使用されうる。近似分布からのサンプリングは、約または少なくとも約２回、３回、４回、５回、６回、７回、８回、９回、１０回、１５回、２０回、２５回、３０回、４０回、５０回、６０回、７０回、８０回、９０回、１００回、２００回、３００回、４００回、５００回またはそれ以上繰り返されうる。いくつかの実施形態では、本明細書に記載される生成モデルは、約５００回、４００回、３００回、２００回、１００回、９０回、８０回、７０回、６０回、５０回、４０回、３０回、２５回、２０回、１５回、１０回、９回、８回、７回、６回、５回、４回、または３回未満そのような近似分布からサンプリングするのに使用されうる。

いくつかの実施形態では、ｆ_３、ｆ_４、ｆ_５、ｇ_１、ｇ_２、ｇ_３、ｇ_４、ｇ_５、ｇ_６、ｒ_１、ｒ_２、およびｒ_３を与えられた場合に、ｆ_１およびｆ_２を生成するのに収束生成法が使用されうる。モデルには（ｊ_１，ｊ_２，ｆ_３，ｆ_４，ｆ_５）（ｇ_１，ｇ_２，ｇ_３，ｇ_４，ｇ_５，ｇ_６）、（ｒ_１，ｒ_２，ｒ_３）が入力されてよく、ｊ_１およびｊ_２はランダム値である。共有表現ｈが推論されうる。共有表現ｈに基づいて、Ｆ＾、Ｇ＾、Ｒ＾についてｖ^Ｆ＾、ｖ^Ｇ＾、およびｖ^Ｒ＾の値が生成されうる。Ｆ＾から値ｆ_１および値ｆ_２が生成され、Ｆ＾、Ｇ＾、Ｒ＾の他のすべての値は、所望の値（ｆ_３，ｆ_４，ｆ_５）、（ｇ_１，ｇ_２，ｇ_３，ｇ_４，ｇ_５，ｇ_６）、および（ｒ_１，ｒ_２，ｒ_３）で置換される。プロセスは、新しいＦ＾、Ｇ＾、Ｒ＾を生成し、ｆ_１およびｆ_２の新しい値を保持し、Ｆ＾、Ｇ＾、Ｒ＾の他のすべての値を置換するように繰り返されうる。いくつかの実施形態では、プロセスは、選択された回数の反復が実行されるまで繰り返される。例えば、プロセスは、約または少なくとも約２回、３回、４回、５回、６回、７回、８回、９回、１０回、１５回、２０回、２５回、３０回、４０回、５０回、６０回、７０回、８０回、９０回、１００回、２００回、３００回、４００回、５００回またはそれ以上繰り返されうる。いくつかの実施形態では、プロセスは、約５００回、４００回、３００回、２００回、１００回、９０回、８０回、７０回、６０回、５０回、４０回、３０回、２５回、２０回、１５回、１０回、９回、８回、７回、６回、５回、４回、または３回未満繰り返される。

本明細書に記載されるシステムおよび方法は、最も頻繁に出現するｆ_１およびｆ_２の値、またはｆ_１およびｆ_２の生成値に基づく別の適切な統計値を出力しうる。統計値のタイプは、ｆ_１およびｆ_２がサンプリングされる分布に従って選択されうる。

いくつかの実施形態では、プロセスは、ｆ_１がｆ_１ ^＊に収束し、ｆ_２がｆ_２ ^＊に収束するまで繰り返される。本明細書に記載されるシステムおよび方法は、生成の結果としてｆ_１ ^＊およびｆ_２ ^＊の値を出力しうる。

図５に、２つの異なるデータモダリティの要素の値を生成するように構成された２つのレベルを有する生成モデルを含む本発明の例示的な実施形態を示す。一例として、化合物のセットが、Ｆ＝（ｆ_１，ｆ_２，ｆ_３）として表される。これらの化合物は、試験結果ラベルのセットＲ＝（ｒ_１，ｒ_２）、および遺伝情報ラベルのセットＧ＝（ｇ_１，ｇ_２）と関連付けられる。訓練された生成モデルを使用して、ｆ_３およびｇ_２の値が与えられた場合に、ｆ_１、ｆ_２、およびｇ_１の値が生成される。より一般的には、フィンガープリントの訓練セットおよび様々なタイプのラベルで訓練された生成モデルが、複数のデータタイプ／データモダリティの要素の値を生成しうる。

いくつかの実施形態では、ギブスサンプリングを使用して、例えば、ｆ_３、ｇ_２、ｒ_１、およびｒ_２の値が与えられた場合に、値ｆ_１、ｆ_２、およびｇ_１の値を生成するために、異なるデータモダリティおよび／またはその要素に属する複数の要素の欠損値が生成される。ｆ_１、ｆ_２、およびｇ_１は、標準正規分布から値を抜き出すなどの初期設定方法で初期設定されうる。生成プロセスは、以下のように反復的に進行しうる。ｆ_１の初期値をサンプリングするために、ｆ_３、ｇ_２、ｒ_１、ｒ_２の所与の値と、ｆ_１、ｆ_２、およびｇ_１の初期値とがマルチモーダルＤＢＭの可視層に入力されうる。この入力から、マルチモーダルＤＢＭはｆ_１の値を生成しうる。次のステップでは、ｆ_１のこの値と、ｆ_２およびｇ_１の初期値と、ｆ_３、ｇ_２、ｒ_１、およびｒ_２の所与の値とがマルチモーダルＤＢＭの可視層に入力されうる。この入力から、ｆ_２の値が生成されうる。次に、（第１のステップからの）ｆ_１の生成値と、（第２のステップからの）ｆ_２と、ｆ_３、ｇ_２、ｒ_１、およびｒ_２の所与の値とがマルチモーダルＤＢＭの可視層に入力されうる。この入力から、ｇ_１の値が生成されうる。このプロセスは、ｆ_３、ｇ_２、ｒ_１、およびｒ_２の値を固定したまま、反復ごとにｆ_１、ｆ_２、およびｇ_１の値を変化させて、反復して繰り返されうる。反復の都度、その反復で生成された変数の値は前の値と置き換わり、次の反復で使用されうる。ｆ_１、ｆ_２、およびｇ_１の値は、３つすべての値で収束に達するまで繰り返し生成されうる。

＜アーキテクチャおよび訓練＞
いくつかの実施形態では、本明細書に記載されるシステムおよび方法の生成モデルは、１または複数の無向グラフィカルモデルを含みうる。そのような無向グラフィカルモデルは、例えばＲＢＭまたはＤＢＭに、二値確率的可視ユニットおよび二値確率的隠れユニットを含みうる。ＲＢＭは、以下のエネルギー関数を定義しうる。Ｅ：｛０，１｝^Ｄ×｛０，１｝^Ｆ→Ｒ

式中、θ＝｛ａ，ｂ，Ｗ｝はモデルパラメータであり、Ｗ_ｉｊは可視ユニットｉと隠れユニットｊとの間の対称相互作用項を表し、ｂ_ｉおよびａ_ｊはバイアス項である。可視ユニットおよび隠れユニットの同時分布は、次式によって定義されうる。

式中、Ｚ（θ）は正規化定数である。観測セットが与えられると、モデルパラメータに関する対数尤度の微分を得ることができる。理論に制約されるものではないが、そのような微分は、データ依存の期待項とモデルの期待項との差に関連しうる。

いくつかの実施形態では、そのような無向グラフィカルモデルは、例えばガウシアン・ベルヌーイＲＢＭに、可視実数値ユニットおよび二値確率的隠れユニットを含みうる。ガウシアン・ベルヌーイＲＢＭの状態のエネルギーは、次式として定義されうる。

式中、θ＝｛ａ，ｂ，Ｗ，σ｝はモデルパラメータである。モデルが可視ベクトルｖに割り当てる密度は、次式によって与えられうる。

いくつかの実施形態では、無向グラフィカルモデルは、可視実数値ユニットおよび隠れ実数値ユニットを含みうる。どちらのユニットのセットも、ガウシアン伝達を含みうる。エネルギー関数は、次式によって与えられうる。

式中、θ＝｛ａ，ｂ，Ｗ，σ｝はモデルパラメータである。

いくつかの実施形態では、そのような無向グラフィカルモデルは、二項またはＲｅＬＵ可視ユニットおよび／または隠れユニットを含みうる。

本明細書に記載されるシステムおよび方法の生成モデルは、ＲｅｐｌｉｃａｔｅｄＳｏｆｔｍａｘＭｏｄｅｌ（ＲＳＭ）（複製ソフトマックスモデル）も含みうる。様々な実施形態において、ＲＳＭは、文書における単語カウントベクトルなど、疎なカウントデータをモデル化するのに使用される。ＲＳＭは、単語ｋが語彙サイズＫを有する文書に出現する回数をその可視ユニットに受け入れるように構成されうる。ＲＳＭの隠れユニットは二値確率的であってよい。隠れユニットは、隠れたトピックの特徴を表しうる。理論に制約されるものではないが、ＲＳＭは、Ｍ回サンプリングされるサポート｛１，…，Ｋ｝を有する単一の可視多項ユニットを有するＲＢＭモデルとみなすことができ、Ｍは文書内の単語の数である。Ｍ×Ｋの観測される二値行列Ｖは、多項可視ユニットｉが第ｋの値を取る（文書内の第ｉの単語が第ｋの辞書語であることを意味する）場合に限り、ｖ_ｉｋ＝１と共に使用されうる。状態｛Ｖ，ｈ｝のエネルギーは、次式として定義することができる。

式中、｛ａ，ｂ，Ｗ｝はモデルパラメータであり、Ｗ_ｉｊｋは可視ユニットｉと隠れた特徴ｊとの間の対称相互作用項を表し、ｂ_ｉｋは、値ｋを取るユニットＩのバイアスであり、ａ_ｊは、隠れた特徴ｊのバイアスである。モデルが可視二値行列Ｖに割り当てる確率は、次式である。

文書ごとに、文書内の単語と同数のソフトマックスユニットを有する別個のＲＢＭが作成されうる。

様々な実施形態において、これらのアーキテクチャの各々を訓練するのに最尤学習が使用される。いくつかの実施形態では、学習は、異なる目的関数の勾配への近似に従って行われる。

いくつかの実施形態では、本明細書に記載されるシステムおよび方法の生成モデルは、ＤＢＭなどの対称的に結合された確率的二値ユニットの１または複数のネットワークを含みうる。ＤＢＭは、可視ユニットの集合ｖ∈｛０，１｝^Ｄと、隠れユニット層の配列ｈ^（１）∈｛０，１｝^Ｆ１、ｈ^（２）∈｛０，１｝^Ｆ２、…、ｈ^（Ｌ）∈｛０，１｝^ＦＬとを含みうる。ＤＢＭは、隣接する層内の隠れユニット間と、可視ユニットと第１の隠れ層内の隠れユニットとの間の接続のみを含みうる。３つの隠れ層１を有する（すなわち、Ｌ＝３）ＤＢＭを考える。共有合構成｛ｖ，ｈ｝のエネルギーは、次式として定義される。

式中、ｈ＝｛ｈ^（１）；ｈ^（２）；ｈ^（３）｝は、隠れユニットのセットであり、θ＝｛Ｗ^（１）；Ｗ^（２）；Ｗ^（３）；ｂ；ｂ^（１）；ｂ^（２）；ｂ^（３）｝は、モデルパラメータのセットであり、可視から隠れおよび隠れから隠れの対称相互作用項、ならびにバイアス項を表す。モデルが可視ベクトルｖに割り当てる確率は、ボルツマン分布によって与えられる。

深層ボルツマンマシン（ＤＢＭ）は、層ごとの事前訓練手順を使用して訓練されうる。ＤＢＭは、ラベルのないデータで訓練されうる。ＤＢＭは、ラベル付きデータを使用して特定のタスクについて微調整されうる。ＤＢＭは、通常のボトムアップパスに加えてトップダウンフィードバックも組み込む近似推論手順を利用して、欠損入力またはノイズの多い入力に関する不確実性を組み込むのに使用されうる。ＤＢＭのすべての層のパラメータが、例えば、尤度目的の変分下限の近似勾配に従って、一緒に最適化されうる。

本明細書に記載されるシステムおよび方法の生成モデルは、リカレント・ニューラル・ネットワーク（ＲＮＮ）を含みうる。様々な実施形態において、ＲＮＮは、可変長入力および／または可変長出力をモデル化するのに使用される。ＲＮＮは、すべての以前の出力が与えられた場合、配列内の次の出力を予測するように訓練されうる。訓練されたＲＮＮが、配列の同時確率分布をモデル化するのに使用されうる。ＲＮＮは、内部隠れ状態の進化およびその状態から出力へのマッピングを決定する遷移関数を含みうる。いくつかの実施形態では、本明細書に記載される生成モデルは、決定論的内部遷移構造を有するＲＮＮを含む。様々な実施形態において、本明細書に記載される生成モデルは、潜在変数を有するＲＮＮを含む。そのようなＲＮＮは、データの可変性モデル化するのに使用されうる。

いくつかの実施形態では、本明細書に記載されるシステムおよび方法の生成モデルは、変分リカレント・ニューラル・ネットワーク（ＶＲＮＮ）を含む。ＶＲＮＮは、後続の時間ステップにわたる潜在変数間の依存関係をモデル化するのに使用されうる。ＶＲＮＮは、共有データ表現で使用されるネットワークの第２レベルに次いで入力することができる単一モダリティの時系列の表現を生成するのに使用されうる。

ＶＲＮＮは、１つ、より多くの、またはすべての時間ステップで、変分オートエンコーダ（ＶＡＥ）を含みうる。ＶＡＥは、ＲＮＮの隠れ状態変数ｈ_ｔ−１を条件としうる。様々な実施形態において、そのようなＶＡＥは、順次データの時間的構造を考慮に入れるように構成されうる。

いくつかの実施形態では、ＶＲＮＮの潜在変数上の事前分布は、以下の分布に従う。

式中、μ_０，ｔおよびσ_０，ｔは、条件付き事前分布のパラメータを表す。生成分布は、以下のようにｚ_ｔおよびｈ_ｔ−１を条件としうる。

式中、μ_ｘ，ｔおよびσ_ｘ，ｔは生成分布のパラメータを表す。φ_Ｔ ^ｘおよびφ_Ｔ ^ｚは、それぞれｘ_ｔおよびｚ_ｔから特徴を抽出しうる。φ_Ｔ ^{ｐｒｉｏｒ}、φ_Ｔ ^ｄｅｃ、φ_Ｔ ^ｘ、および／またはφ_Ｔ ^ｚは、高度に柔軟な関数、例えばニューラルネットワークとしうる。ＲＮＮは、次のような漸化式を使用してその隠れ状態を更新しうる。

式中、ｆは遷移関数である。ＲＮＮは、遷移関数に従ってその隠れ状態を更新しうる。分布ｐ（ｚ_ｔ｜ｘ_＜ｔ，ｚ_＜ｔ）およびＰ（ｘ_ｔ｜ｚ_≦ｔ，ｘ_＜ｔ）は、上記の式を用いて定義されうる。生成モデルのパラメータ化は、次式につながりうる。

推論のために、ＶＡＥは、下限の使用を可能にする事後分布の変分近似ｑ（ｚ｜ｘ）を使用しうる。

式中、ＫＬ（Ｑ｜｜Ｐ）は、２つの分布ＱとＰとの間のカルバック・ライブラー・ダイバージェンスである。ＶＲＮＮにおいて、近似事後分布ｑ（ｚ｜ｘ）は、例えば、平均μおよび分散σ^２を有するガウス分布によって各々が確率的に記述されうるニューラルネットワークなどの高度に非線形の関数としてパラメータ化されうる。

理論に制約されるものではないが、近似事後分布の符号化および生成のための復号化は、ＲＮＮ隠れ状態ｈ_ｔ−１を介して紐付けされうる。このｈ_ｔ−１の条件付けによって、以下の因子分解が得られる。

目的関数は、時間ステップごとに変分下限を含みうる。

生成および推論モデルは、例えば、そのパラメータに関して変分下限を最大化することによって、一緒に学習されうる。

いくつかの実施形態では、本明細書に記載されるシステムおよび方法の生成モデルは、１または複数のマルチモーダルＤＢＭを含みうる。様々なモダリティには、遺伝情報、テキスト結果、画像、テキスト、フィンガープリント、または本明細書に記載されるか、それ以外に当技術分野で公知の任意の他の適切なモダリティが含まれうる。

マルチモーダルＤＢＭでは、２つ以上のモデルが、ＤＢＭを含むレベルの上の第２レベルの層などの追加の層によって結合されうる。結果として得られるグラフィカルモデルの同時分布は、確率の積を含みうる。例えば、追加の第３の隠れ層ｈ^３で結合される２つの隠れ層を各ＤＢＭが有する、遺伝情報モダリティを有するＤＢＭと、試験結果モダリティを有するＤＢＭを含むマルチモーダルＤＢＭの同時分布は、次式として記述されうる。

同様に、マルチモーダルＤＢＭは、４つの異なるモダリティをモデル化するようにも構成されうる。例えば、マルチモーダルＤＢＭは、フィンガープリントのＤＢＭ、遺伝情報のＤＢＭ、試験結果のＤＢＭ、および画像モダリティのＤＢＭを有するように構成されうる。追加の第３の隠れ層ｈ^３で結合される２つの隠れ層を各ＤＢＭが有するこれらの４つのＤＢＭを含むマルチモーダルＤＢＭの同時分布は、次式として記述されうる。

同時分布は、ｊ_ｉ個の隠れ層を各々有するｉ個のモダリティ固有のＤＢＭと、モダリティ固有のＤＢＭを結合するｋ個の追加隠れ層とを有するマルチモーダルＤＢＭに一般化されうる。そのようなマルチモーダルＤＢＭは、本明細書に記載されるか、それ以外に当技術分野で公知の任意の適切な伝達関数を利用しうる。

本明細書に記載される方法およびシステムは、決定論的生成方法または確率的生成方法を使用しうる。例えば、ギブスサンプリングは、確率的方法として実施されうる。実施に際しては、結果のばらつきを最小限に抑えるために様々な措置が講じられうる。本明細書の別の箇所にさらに詳細に記載されている収束方法は、準決定論的方法として実施されうる。収束方法は、例えば、閾値レベルを上回る一貫性を有する結果を生成するために、何回かの反復にわたって実行されうる。

各ＤＢＭの個々の層における伝達関数は、ＤＢＭが構成されるモデルのタイプおよびデータモダリティに従って選択されうる。いくつかの実施形態では、実数値のユニットをモデル化するためにガウス分布が使用される。いくつかの実施形態では、連続入力を受け入れる隠れ層に使用するためにＲｅＬＵユニットが使用されうる。テキストでは、ＤＢＭは、単語カウントの分布をモデル化するのにＲｅｐｌｉｃａｔｅｄＳｏｆｔｍａｘを使用しうる。変換のための分布は、モデルの重み／パラメータに関する確率分布の勾配を計算しやすくするように選択されうる。

様々な実施形態において、生成モデルまたはそのモジュールは、本明細書に記載されるか、それ以外に当技術分野で公知の適切な訓練方法を使用して訓練される。訓練方法は生成型学習を含むことができ、生成型学習では、元の入力の確率分布に関する推定を行うために元の入力の再構築が使用されうる。

本明細書に記載される生成モデルの訓練中に、深層ネットワークの各ノード層は、各ノード層がそのサンプルを抜き出す入力を繰り返し再構築しようとすることによって特徴を学習しうる。訓練は、ネットワークの再構築と入力データ自体の確率分布との間の差を最小限に抑えようとしうる。再構築と入力値との間の差は、生成モデルの重みに対して、しばしば反復して逆伝播されうる。反復学習プロセスは、再構築と入力値との差が最小に達するまで継続されうる。ＲＢＭまたはＤＢＭを使用して、ノード活性化または重み付き入力が与えられた場合の出力の確率に関する予測が行われうる。逆方向パスでは、ＲＢＭまたはＤＢＭを使用して、重みが順方向パスで使用されたものと同じである重み付き活性化が与えられた場合の入力の確率が推定されうる。２つの確率推定値は、入力と隠れユニット活性化の同時確率分布を推定するのに使用されうる。

様々な実施形態において、本明細書に記載されるマルチモーダルＤＢＭまたはそのサブモジュールは、近似学習法を使用して、例えば、変分的手法を使用して訓練される。データ依存の期待値を推定するのに平均場推論（Ｍｅａｎ−ｆｉｅｌｄｉｎｆｅｒｅｎｃｅ）が使用されうる。モデルの期待される統計値を近似するのにマルコフ連鎖モンテカルロ法（ＭＣＭＣ）ベースの確率的近似手順が使用されうる。理論に制約されるものではないが、真値（ｇｒｏｕｎｄｔｒｕｔｈ）の推定確率分布の事前分布との距離、または隠れユニットの近似分布と事後分布との距離を最小化するために、訓練方法は、しばしば反復プロセスにおいてカルバック・ライブラー・ダイバージェンス（ＫＬダイバージェンス）を最適化、例えば最小化しうる。モデルパラメータの対数尤度の変分下限は、ＫＬダイバージェンスを最小化することによって最大化されうる。分布Ｐ１（ｘ）とＰ２（ｘ）との間のＫＬダイバージェンスは、Ｄ（Ｐ１（ｘ）｜｜Ｐ２（ｘ））で表すことができ、次式によって与えられる。

ＫＬダイバージェンスは、例えば、変分ベイズＥＭアルゴリズムを使用して、事前分布と再構築分布との差、または事後分布とそのモデル化近似との差を低減させることによって最小化されうる。マルチモーダルＤＢＭまたはそのサブモジュールは、各層を循環し、各個別の層内の平均場パラメータを更新しうる。

いくつかの実施形態では、変分下限は、真の事後分布の固定パラメータθの近似分布の変分パラメータμに関して訓練例ごとに最大化される。得られた平均場固定点方程式は、例えば各層を循環し、単一層内の平均場パラメータを更新することによって解くことができる。

変分パラメータμが与えられると、真の事後分布のモデルパラメータθは、変分境界を最大化するように更新されうる。いくつかの実施形態では、訓練は、マルコフ連鎖モンテカルロ法（ＭＣＭＣ）ベースの確率的近似を含む。いくつかの実施形態では、例えば、モデルの以前の状態が与えられた場合に、新しい状態をサンプリングするのにギブスサンプリングが使用されうる。その場合、例えば、勾配ステップを作成することによって、新しい状態の新しいパラメータθが取得されうる。持続的ＣＤまたはＣＤ−ｋ、例えばＣＤ−１法などのコントラスティブダイバージェンス（ＣＤ）が、訓練中に適用されうる。コントラスティブダイバージェンスを含む訓練方法の間に、マルコフ連鎖が訓練例で初期設定されうる。場合によっては、ＣＤ法はマルコフ連鎖が収束するのを待たない。サンプルは、ｋステップのギブスサンプリング（ＣＤ−ｋ）の後に初めて取得することができ、ｋは１、２、３、４、５、６、７、８、９またはそれ以上でありうる。訓練方法は、永続状態を有する単一のマルコフ連鎖に依拠した持続的ＣＤを使用しうる。すなわち、マルコフ連鎖は、観測される例ごとに最下位されない。持続的マルコフ連鎖のセットの平均値が、本明細書に記載される生成モデルによって使用され、かつ／または出力されうる。マルチモーダルＤＢＭからの構築、訓練および生成のためのさらに別の適切な方法が、参照によりその全体が本明細書に組み込まれる、ＳｒｉｖａｓｔａｖａａｎｄＳａｌａｋｈｕｔｄｉｎｏｖ（ＭｕｌｔｉｍｏｄａｌＬｅａｒｎｉｎｇｗｉｔｈＤｅｅｐＢｏｌｔｚｍａｎｎＭａｃｈｏｎｅｓ；ＪｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ１５（２０１４）２９４９−８０）に記載されている。

様々な実施形態において、ＶＲＮＮモジュールは、モデルの残りの部分とは別個に訓練される。訓練データは、同じタイプの時系列のセット、例えば、様々な患者から取得された経時的な腫瘍サイズの測定値のセットを含みうる。

いくつかの実施形態では、貪欲法による層ごとの教師なし事前訓練が行われる。訓練方法は、深層構造を層ごとに訓練することにより、生成モデルの複数の層を訓練するステップを含みうる。深層モジュール内の第１のＲＢＭが訓練されると、そのデータは構造の１つ下の層に渡されうる。第１の隠れ層は第２の隠れ層の可視層の役割を果たすことができ、第１の隠れ層活性化は、第２の隠れ層の入力として使用され、第２の隠れ層の各ノードの重みで乗算される。新しい隠れ層ごとに、重みは、その層が前の層からの入力を近似できるまで調整されうる。

いくつかの実施形態では、マルチモーダルＤＢＭなどのマルチモーダル生成モデルを使用して、複数のデータモダリティを組み合わせることにより、マルチモーダルデータの共有表現が生成される。１または複数のモダリティおよび／またはその要素の入力値を条件とする共有表現を推論するために、入力モダリティがクランプされうる。入力値が与えられると、複数のモダリティからの表現を組み合わせた隠れ層などの隠れ層の条件付き分布からサンプリングするためにギブスサンプリングが行われうる。いくつかの実施形態では、入力値が与えられると、変分推論を使用して、複数のモダリティからの表現を組み合わせた隠れ層などの隠れ層の近似条件付き事後分布が近似される。近似事後分布の変分パラメータμは、入力の共有表現を構成するのに使用されうる。共有表現は、マルチモーダルクエリまたはユニモーダルクエリの情報検索に使用されうる。

様々な実施形態において、訓練方法は、モデルの複雑さを調整する機構を含む。訓練方法は、本明細書に記載される生成モデルの過剰適合を防ぐのを助ける正則化法を用いることができる。正則化制約は、様々なやり方で課されうる。いくつかの実施形態では、正則化は、大きな重みにペナルティを割り当てることによって達成される。過剰適合は、重み減衰、重み共有、早期停止、モデル平均化、ニューラルネットのベイズ適合、ドロップアウト、および／または生成型事前訓練によって削減されうる。

本明細書に記載される訓練アルゴリズムは、本明細書の別の箇所にさらに詳細に記載されているコンピュータシステムおよび方法内で用いられる生成モデルの特定の構成に適合さされうる。本明細書に記載されるか、それ以外に当技術分野で公知の様々な適切な訓練アルゴリズムを、本明細書の別の箇所にさらに詳細に記載されている本発明の生成モデルの訓練に選択することができる。適切なアルゴリズムは、生成モデルのアーキテクチャおよび／または実行に生成モデルが求められるタスクに依存しうる。

いくつかの実施形態では、生成モデルは、変分推論のみを使用して、または確率的勾配法と組み合わせて変分下限を最適化するように訓練される。いくつかの実施形態では、例えば訓練データが欠損値を有する場合、半教師あり学習法が使用される。

様々な実施形態において、本明細書に記載されるシステムおよび方法は、予測モジュール、ランク付けモジュール、比較モジュール、またはそれらの組み合わせを含みうる。

本明細書に記載されるシステムおよび方法に追加のシステムモジュールを導入することができる。例えば、比較モジュールは、２つのフィンガープリント、２つの試験結果セット、健康と不健康の試料、細胞、組織、もしくは生物の遺伝子プロファイル、または比較に適した本明細書に記載されている任意の他の対の情報を比較するのに使用されうる。ランク付けモジュールは、ドラッグライクネススコアによるフィンガープリントのセットのメンバのランク付け、化合物の所望の効果について奏効するプロファイルである尤度による遺伝子プロファイルのメンバのランク付け、またはランク付けに適した本明細書に記載されている生成値の任意のセットのランク付けに使用されうる。ドラッグライクネススコアを割り当てることにより化合物フィンガープリントの分類に分類器が使用されうる。スコアが与えられたフィンガープリントの順序付けに順序付けモジュールが使用されうる。１または複数のデータモダリティの欠損値の予測に予測器が使用されうる。疎な値または欠損値を有するデータセットの処理にマスキングモジュールが使用されうる。そのようなモジュールについては、本明細書の別の箇所、および、参照によりその全体が本明細書に組み込まれる、米国特許出願第６２／２６２，３３７号明細書にさらに詳細に記載されている。

＜予測器＞
本明細書に記載される本発明のシステムおよび方法は、フィンガープリントデータなどの化合物の表現を利用することができる。データセットの一部と関連付けられたラベル情報が欠落している場合がある。例えば、いくつかの化合物については、生成モデルの訓練に直接使用できるアッセイデータが利用可能である。１または複数の他の化合物については、ラベル情報が利用できない。特定の実施形態において、本発明のシステムおよび方法は、化合物にラベル値を部分的または完全に割り当て、それをそのフィンガープリントデータと関連付けるための予測モジュールを含む。半教師あり学習の例示的な実施形態において、生成モデルを訓練するのに使用される訓練データセットは、実験的に同定されたラベル情報を有する化合物と、予測モジュールによって予測されたラベルを有する化合物の両方を含む。

予測器は、機械学習分類モデルを含みうる。いくつかの実施形態では、予測器は、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６またはそれ以上の層を有する深層グラフィカルモデルである。いくつかの実施形態では、予測器はランダムフォレスト分類器である。いくつかの実施形態では、予測器は、化合物表現およびそれらと関連付けられたラベルを含む訓練データセットで訓練される。いくつかの実施形態では、予測器は、生成モデルを訓練するのに使用された訓練データセットとは異なる化合物表現のセットおよびそれらと関連付けられたラベルで事前に訓練される。

最初に１または複数のラベル要素についてラベル付けされていなかったフィンガープリントは、予測器によって１または複数のラベル要素のラベル要素値と関連付けられうる。一実施形態では、訓練データセットのサブセットは、関連付けられたラベルのないフィンガープリントを含みうる。例えば、調製が困難であり、かつ／または試験が困難でありうる化合物には、完全にまたは部分的にラベル付けされていない場合がある。この場合、様々な半教師あり学習方法が使用されうる。一実施形態では、ラベル付きフィンガープリントのセットは、予測モジュールを訓練するのに使用される。一実施形態では、予測器は、教師あり学習で訓練された分類アルゴリズムを実装する。予測器が十分に訓練された後、予測ラベルを生成するために、ラベルなしフィンガープリントが予測器に入力されうる。フィンガープリントおよびその予測ラベルは次いで、生成モデルを訓練するのに使用されうる訓練データセットに追加されうる。

いくつかの実施形態では、本明細書の、＜生成＞の項および他の箇所にさらに詳細に記載されている欠損値を処理するための１または複数の方法が、予測モジュールの基礎を形成する。

予測器ラベル付き化合物は、第１の生成モデルまたは第２の生成モデルを訓練するのに使用されうる。予測器は、ラベル情報がないフィンガープリントにラベル要素値を割り当てるのに使用されうる。予測器の使用により、本明細書の別の箇所にさらに詳細に記載されている生成モデルは、予測ラベルを部分的に含む訓練データセットで訓練されうる。本明細書の別の箇所にさらに詳細に記載されている生成モデルは、訓練されると、フィンガープリントなどの化合物の生成表現を作成するのに使用されうる。化合物の生成表現は、所望のラベルによって課される様々な条件に基づいて生成されうる。

＜方法＞
いくつかの実施形態では、本明細書に記載される生成モデルは、訓練フェーズの間にモデルに提示されなかった新しい化合物の表現を生成するのに使用される。いくつかの実施形態では、生成モデルは、訓練データセットに含まれていなかった化合物表現を生成するのに使用される。このようにして、化合物データベースに含まれていなかった、または以前は考えられてさえいなかった可能性のある新規の化合物が生成されうる。実際の化合物を含む訓練セットで訓練されたモデルは、いくつかの有利な特性を有しうる。理論に制約されるものではないが、実際の化合物例または機能性化学物質として働く可能性がより高い薬物を用いた訓練は、例えば、残留物変異を使用して手描きでまたは計算により生成された化合物よりも高い確率で類似した特性を有しうる化合物または化合物表現を生成するモデルを教示しうる。

いくつかの実施形態では、本明細書に記載される生成モデルは、入力フィンガープリントと関連付けられたラベル値を生成するのに使用される。生成されるラベル値は、訓練フェーズ中にモデルに提示されていなかった可能性がある。いくつかの実施形態では、生成モデルは、訓練データセットに含まれていなかったラベル値を生成するのに使用される。このようにして、訓練データになかった可能性のある新規な遺伝的特性の組み合わせなどの新規なラベル値が生成されうる。

生成表現と関連付けられた化合物は、化合物データベースに加えられ、計算スクリーニング法で使用され、かつ／またはアッセイにおいて合成され、試験されうる。生成されたラベル値は、薬物情報を患者集団にリンクするデータベースに格納されうる。データベースは、個別化された薬物開発、個別化された薬物処方、または正確な患者集団を標的とした臨床試験のために調べられ、使用されうる。

本明細書に記載される生成モデルは、指定されたシード化合物に類似することが意図される化合物を生成するのに使用されうる。様々な実施形態において、シード化合物は、化合物表現におけるある特定の数の要素の値を指定、すなわち固定するのに使用されうる。本明細書に記載される生成モデルは、完全な化合物表現が、他のデータモダリティにおける指定された値によって設定された条件を満たす高い尤度を有するように、未指定の要素の値を生成しうる。様々な実施形態において、本明細書に記載されるシステムおよび方法は、シード化合物を出発点として使用して、化合物の表現、例えばフィンガープリントを生成するのに利用される。生成モデルにシード化合物およびそれと関連付けられたラベルを入力することによって、シードに類似した化合物が生成されうる。生成モデルは、シード化合物の表現を出発点として使用して、同時確率分布からサンプリングして、化合物フィンガープリントの１または複数の値を生成しうる。生成値は、シード化合物とある類似性を有し、かつ／または入力ラベルによって定義される要件を満たす高い尤度を有することが予期される化合物のフィンガープリントを含みうる。

シード化合物は、そのある特定の実験結果が知られており、生成される化合物の構造的特性がシード化合物の構造的特性を持つことになると予期されうる公知の化合物でありうる。例えば、シード化合物は、別の目的で再利用され、または適応外用途について試験されている既存の薬物であってもよく、生成される候補化合物が、低毒性や高溶解性などのシード化合物の有益な活性のうちのいくつかを保持するが、所望のラベルの必要に応じて、異なる標的との結合など、他のアッセイでは異なる活性を呈することが望ましい。シード化合物はまた、所望のラベル結果のサブセットを有するよう物理的に試験されているが、毒性の減少、溶解性の改善、および／または合成の容易さの改善など、ある特定の他のラベル結果の改善が求められている化合物であってもよい。したがって、シード化合物と構造的類似性を有するが、特定のアッセイでの所望の活性など、異なるラベル結果を呈することが意図された化合物を生成するのに比較生成が使用されうる。

いくつかの実施形態では、生成モデルは、指定されたシード遺伝情報入力に類似することが意図された遺伝情報値を生成するのに使用される。生成モデルにシード化合物およびそれと関連付けられたラベルを入力することによって、シードに類似した化合物が生成されうる。生成モデルは、シード化合物の表現を出発点として使用して、同時確率分布からサンプリングして、遺伝情報ラベルの１または複数の値を生成しうる。生成値は、シード値とある類似性を有し、かつ／または他のタイプの入力ラベルによって定義される要件を満たす高い尤度を有することが予期される遺伝情報を含みうる。

いくつかの実施形態では、訓練フェーズは、フィンガープリントデータおよび関連付けられたラベル値を使用して、生成モデルおよび予測器を同時に訓練することを含む。

本発明の重要な利点は、より少ない副作用を有しうる薬物を発見できることである。本明細書に記載される生成モデルは、訓練データセットに、そのある特定の結果が、単独で、またはそのような物質に関連した遺伝情報と組み合わさって、試料、細胞、組織、またはヒトや動物などの生物において副作用をおよび／または中毒反応を引き起こす原因であることが知られている特定のアッセイについての化合物活性を含めることによって訓練されうる。したがって、生成モデルは、化合物表現と有益な効果および望ましくない効果との間の関係を教示されうる。様々な実施形態において、そのような関係は、試料、細胞、組織、または生物の遺伝情報に関連して教示される。生成フェーズにおいて、生成モデルに入力される所望の試験結果ラベルが、有益な効果および／または望ましくない副作用と関連付けられるアッセイにおける所望の化合物活性を指定しうる。生成モデルはその場合、有益な効果と毒性／副作用要件の両方を同時に満たす化合物の表現を生成することができる。いくつかの実施形態では、生成モデルは、遺伝情報背景を与えられた場合の有益な効果および毒性／副作用要件などのさらなる入力を同時に満足させる化合物の表現を生成する。

本明細書に記載される方法およびシステムは、入力として提供される複数の所望の結果を同時に満足させることによって、創薬プロセスのより初期の段階におけるより効率的な探索を可能にし、それによっておそらくは、被験薬の許容できない副作用や効能レベルに起因して失敗する臨床試験の回数が減る。これは、創薬プロセスの期間と費用両方の低減につながりうる。

いくつかの実施形態では、本明細書に記載される方法およびシステムは、既に存在する化合物の新しい標的を見出すのに使用される。例えば、本明細書に記載される生成ネットワークは、所望の試験結果ラベルに基づいて、別の効果を有することが知られている化合物の生成表現を生成しうる。したがって、複数の試験結果ラベル要素で訓練された生成モデルは、第２の効果を事実上同定する異なる効果についての所望の試験結果ラベルの入力による生成フェーズの使用に応答して、第１の効果を有することが知られている化合物の表現を生成しうる。いくつかの実施形態では、そのような第２の効果が、特定の遺伝情報ラベルについて同定されうる。いくつかの実施形態では、生成モデルは、遺伝情報ラベルを生成するのにも使用され、それによって、生成された遺伝情報と整合する遺伝子プロファイルを有する特定の分集団についての化合物の第２の効果が見出される。よって、生成モデルは、既存の化合物の第２のラベルを、場合によっては、そのような第２の効果の標的患者集団を同定するのに使用されうる。いくつかの実施形態では、生成モデルは、化合物の第１の効果を含む訓練データセットで事前に訓練される。いくつかの実施形態では、生成モデルは、化合物の第１の効果についての遺伝情報を含む訓練データセットで事前に訓練される。そのように決定された化合物は、特に価値がある。というのは、臨床的に試験された化合物を別の目的で再利用すれば、臨床研究中のリスクがより低くなる可能性があり、さらに、効率的かつ安価に効能および安全性が証明されうるからである。

いくつかの実施形態では、本明細書の生成モデルは、非二値的にラベル要素タイプの値を学習するように訓練されうる。本明細書の生成モデルは、特定のラベル要素に関するより高レベルまたはより低レベルの化合物の効果を認識するように訓練されうる。したがって、生成モデルは、所与の化合物の有効性のレベルおよび／または毒性もしくは副作用のレベルを学習するように訓練されうる。

本明細書に記載される方法およびシステムは、モデルに提示されなかった化合物および／または以前は存在しなかった化合物を含む化合物の表現の生成に際して特に強力である。よって、本明細書に記載されるシステムおよび方法は、化合物ライブラリを拡張するのに使用されうる。さらに、本発明の様々な実施形態はまた、生成モデルの出力を仮想スクリーニングプロセスまたは実験スクリーニングプロセスのための入力データセットとして使用させることによって、従来の薬物スクリーニングプロセスを円滑化する。

本明細書に記載される方法およびシステムはまた、遺伝情報要素の要素相互および／または化合物の試験結果との相互作用についての推論を引き出すこともできる。そのような相互作用は以前には知られていない可能性もある。よって、本明細書に記載されるシステムおよび方法は、バイオマーカーライブラリを拡張し、新薬および／または遺伝子治療標的を同定するのに使用されうる。

様々な実施形態において、生成表現は、訓練データセット内の化合物と類似性を有する化合物に関するものである。類似性は、様々な側面を含みうる。例えば、生成された化合物は、訓練データセット内の化合物との高度の類似性を有しうるが、それが類似している訓練データセット中の化合物よりも化学的合成可能であり、かつ／または化学的に安定である尤度がはるかに高い可能性がある。さらに、生成された化合物は、訓練データセット内の化合物と類似しうるが、訓練データセット内の既存の化合物よりも所望の効果を有し、かつ／または望ましくない影響がない尤度がはるかに高い可能性がある。

様々な実施形態において、本明細書に記載される方法およびシステムは、合成の容易さ、溶解性、および他の実際的な考慮事項を考慮に入れて、化合物またはその表現を生成する。いくつかの実施形態では、生成モデルは、溶解性または合成機構を含みうるラベル要素を使用して訓練される。いくつかの実施形態では、生成モデルは、合成情報または溶解度を含む訓練データを使用して訓練される。これらの因子に関連した所望のラベルが、生成フェーズにおいて、生成された化合物表現が所望の溶解性または合成要件に従った挙動を有する化合物に関連するものである尤度を高めるのに使用されうる。

様々な創薬用途において、複数の候補フィンガープリントが生成されうる。次いで生成されたフィンガープリントのセットを使用して、ハイ・スループット・スクリーニングで使用できる実際の化合物を合成することができる。化合物合成およびＨＴＳの前に、生成されたフィンガープリントが、所望のアッセイ結果および／または構造特性を有するかどうかについて評価されうる。生成されたフィンガープリントは、その予測された結果およびそのシード化合物との類似性に基づいて評価されうる。生成されたフィンガープリントが所望の特性を有する場合、それらのフィンガープリントはそのドラッグライクネスに基づいてランク付けされうる。

様々な実施形態において、本明細書に記載されるシステムおよび方法は、２つ以上のデータセット、例えば生成値を含むデータを比較および／またはクラスタ化するように構成された１または複数のモジュールを含む。比較およびクラスタリングのためのシステムおよび方法については、参照によりその全体が本明細書に組み込まれる、米国特許出願第６２／２６２，３３７号明細書にさらに記載されている。そのようなシステムおよび方法は、例えば、特定のアッセイの結果に影響を及ぼしうる化合物特性または疾患、免疫、および／または薬物での治療などの治療への応答性と相関しうる遺伝情報の構成要素を同定しうる。

いくつかの実施形態では、本明細書に記載される方法およびシステムは、遺伝子編集戦略を特定するのに使用されうる。そのような遺伝子編集戦略は、新しいバイオマーカーおよび／または疾患と関連付けられる遺伝子および／またはその突然変異の同定に基づくものとしうる。いくつかの実施形態では、遺伝子編集戦略は、化合物の組み合わせの使用をさらに含みうる。化合物は、承認された薬物を含むがこれに限定されない、以前から公知の化合物であってよい。いくつかの実施形態では、化合物は、本明細書に記載されるシステムおよび方法によって生成される。

様々な実施形態において、本明細書に記載される生成モデル、例えばマルチモーダルＤＢＭは、複数の薬物を入力として受け入れるように構成される。例えば、マルチモーダルＤＢＭは、各々がネットワークの第１レベルにおいて化合物の表現を受け入れるように構成された２つの単一モダリティＤＢＭで構成されうる。本明細書に記載される方法およびシステムは、そのようなネットワークアーキテクチャを使用して、その他の入力データモダリティの指定された値によって設定された条件を一緒に満足させる薬物の組み合わせを生成するのに使用されうる。

＜フィンガープリント＞
化合物は、表現、例えば、本明細書に記載される生成モデルの文脈で使用できるフィンガープリントなどを作成するために前処理されうる。場合によっては、化合物の化学式は、その縮退なしの表現から復元されうる。別の場合には、１つの表現が複数の単一化学式にマップされうる。さらに別の場合には、その表現から推論できる同定可能な化学式が存在しないこともある。表現空間において最近傍探索が行われうる。同定された近傍は、生成モデルによって生成された表現に近似する化学式につながりうる。

様々な実施形態において、本明細書に記載される方法およびシステムは、フィンガープリントを利用して、生成モデルの入力および／または出力における化合物を表す。

様々なタイプの分子記述子が、化合物をフィンガープリントとして表すために組み合わせて使用されうる。いくつかの実施形態では、分子記述子を含む化合物表現が、様々な機械学習モデルへの入力として使用される。いくつかの実施形態では、化合物の表現は、少なくともまたは少なくとも約５０、１００、１５０、２５０、５００、１０００、２０００、３０００、４０００、５０００またはそれ以上の分子記述子を含む。いくつかの実施形態では、化合物の表現は、１００００、７５００、５０００、４０００、３０００、２０００、１０００、５００、２５０、１５０、２００、または５０未満の分子記述子を含む。

分子記述子は、すべてのアッセイおよび／または閾値の結合におけるすべての化合物にわたって正規化されうる。

化合物フィンガープリントとは通常、（例えば、結合表の形で）化合物の化学構造の情報を含む分子記述子の値列を指す。よってフィンガープリントは、化合物の元の化学におけるある構造的特徴または物理的特性の有無を識別する略記表現でありうる。

様々な実施形態において、フィンガープリントは、ハッシュベースのフィンガープリントまたは辞書ベースのフィンガープリントを含む。辞書ベースのフィンガープリントは辞書に依拠する。辞書とは通常、フィンガープリント列内の各ビットが「オン」であるかそれとも「オフ」であるかを判定するのに使用される構造フラグメントのセットを指す。フィンガープリントの各ビットは、そのビットがフィンガープリントにおいて設定されるために主構造に存在しなければならない１または複数のフラグメントを表しうる。

いくつかのフィンガープリント用途では、「ハッシュコーディング」法を使用しうる。したがって、分子中に存在するフラグメントは、ビット位置のフィンガープリントを採取するために「ハッシュコード化」されうる。ハッシュベースのフィンガープリントは、分子中に存在するすべてのフラグメントがフィンガープリントに符号化されることを可能にしうる。

化合物の表現をフィンガープリントとして生成することは、様々なベンダからの市販のソフトウェアスイートを使用して達成されうる。（例えば、ｗｗｗ．ｔａｌｅｔｅ．ｍｉ．ｉｔ／ｐｒｏｄｕｃｔｓ／ｄｒａｇｏｎ＿ｍｏｌｅｃｕｌａｒ＿ｄｅｓｃｒｉｐｔｏｒ＿ｌｉｓｔ．ｐｄｆ、ｗｗｗ．ｔａｌｅｔｅ．ｍｉ．ｉｔ／ｐｒｏｄｕｃｔｓ／ｄｐｒｏｐｅｒｔｉｅｓ＿ｍｏｌｅｃｕｌａｒ＿ｄｅｓｃｒｉｐｔｏｒｓ．ｈｔｍ、ｗｗｗ．ｍｏｌｅｃｕｌａｒｄｅｓｃｒｉｐｔｏｒｓ．ｅｕ／ｓｏｆｔｗａｒｅｓ／ｓｏｆｔｗａｒｅｓ．ｈｔｍ、ｗｗｗ．ｄａｌｋｅｓｃｉｅｎｔｉｆｉｃ．ｃｏｍ／ｗｒｉｔｉｎｇｓ／ｄｉａｒｙ／ａｒｃｈｉｖｅ／２００８／０６／２６／ｆｉｎｇｅｒｐｒｉｎｔ＿ｂａｃｋｇｒｏｕｎｄ．ｈｔｍｌ、またはｖｅｇａ．ｍａｒｉｏｎｅｇｒｉ．ｉｔ／ｗｏｒｄｐｒｅｓｓ／ｒｅｓｏｕｒｃｅｓ／ｃｈｅｍｉｃａｌ−ｄｅｓｃｒｉｐｔｏｒｓを参照されたい）

＜コンピュータシステム＞
本発明は、本明細書の動作を実行するための装置にも関するものである。この装置は、必要な目的のために専用に構成されてもよく、コンピュータに格納されたコンピュータプログラムによって選択的に活動化され、または再構成される汎用コンピュータを含んでいてもよい。そのようなコンピュータプログラムは、フロッピーディスク、光ディスク、ＣＤ−ＲＯＭ、光磁気ディスクを含む任意のタイプのディスク、読取り専用メモリ（ＲＯＭ）、ランダム・アクセス・メモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気コードもしくは光カード、または電子命令を格納するのに適し、コンピュータ・システム・バスに各々結合された任意のタイプの媒体を含むがこれに限定されないコンピュータ可読記憶媒体に格納されうる。

本明細書に提示された説明は、特定のコンピュータや他の装置に本来的に関連したものではない。汎用システムに加えて、本発明の様々な実施形態を実施するためにより特化された装置が構築されてもよい。加えて本発明は、特定のプログラミング言語に関連して記載されたものでもない。本明細書に記載された本発明の教示を実施するために様々なプログラミング言語が使用されうることが理解されよう。機械可読媒体は、機械（例えば、コンピュータ）が読み取ることのできる形態で情報を格納または送信するための任意の機構を含む。例えば、機械可読媒体は、読取り専用メモリ（「ＲＯＭ」）、ランダム・アクセス・メモリ（「ＲＡＭ」）、磁気ディスク記憶媒体、光記憶媒体、フラッシュ・メモリ・デバイス、電気、光、音響その他の形態の伝搬信号（例えば、搬送波、赤外線信号、ディジタル信号など）などを含む。

図４は、本明細書に記載される動作のうちの１または複数を実行しうる例示的なコンピュータシステムのブロック図である。図４を参照すると、コンピュータシステムは、例示的なクライアントまたはサーバ・コンピュータ・システムを含みうる。コンピュータシステムは、情報を通信するための通信機構またはバスと、情報を処理するためのバスと結合されたプロセッサとを含みうる。プロセッサは、マイクロプロセッサ、例えば、Ｐｅｎｔｉｕｍ、ＰｏｗｅｒＰＣ、Ａｌｐｈａなどのマイクロプロセッサを含みうるが、これに限定されない。システムは、情報およびプロセッサによって実行される命令を格納するためのバスに結合されたランダム・アクセス・メモリ（ＲＡＭ）または他の動的記憶装置（メインメモリと呼ばれる）さらに含む。メインメモリはまた、プロセッサによる命令の実行中に一時変数または他の中間情報を格納するのにも使用されうる。様々な実施形態において、本明細書に記載される方法およびシステムは、プロセッサとして１または複数のグラフィックス処理装置（ＧＰＵ）を利用する。ＧＰＵは並列に使用されうる。様々な実施形態において、本発明の方法およびシステムは、複数のＧＰＵなど、複数のプロセッサを有する分散コンピューティングアーキテクチャを利用する。

コンピュータシステムはまた、静的情報およびプロセッサのための命令を格納するためのバスに結合された読取り専用メモリ（ＲＯＭ）および／または他の静的記憶装置と、磁気ディスクや光ディスクおよびそれに対応するディスクドライブなどのデータ記憶装置とを含みうる。データ記憶装置は、情報および命令を格納するためにバスに結合される。いくつかの実施形態では、データ記憶装置は、リモートの場所に、例えばクラウドサーバに位置しうる。コンピュータシステムは、コンピュータユーザに情報を表示するためのバスに結合されたブラウン管（ＣＲＴ）や液晶ディスプレイ（ＣＤ）などの表示装置にさらに結合されうる。英数字その他のキーを含む英数字入力装置も、情報およびコマンド選択をプロセッサに伝えるためにバスに結合されうる。さらに別のユーザ入力装置が、方向情報およびコマンド選択をプロセッサに伝え、ディスプレイ上のカーソル移動を制御するための、バスに結合された、マウス、トラックボール、トラックパッド、スタイラス、カーソル方向キーなどのカーソルコントローラである。バスに結合されうる別の装置がハードコピー装置であり、紙、フィルム、同様のタイプの媒体などの媒体上の命令、データ、または他の情報を印刷するのに使用されうる。さらに、スピーカおよび／またはマイクロホンなどの音声記録再生装置が、コンピュータシステムとのオーディオインターフェースのために任意選択でバスに結合されてもよい。バスに結合されうる別の装置が、電話またはハンドヘルド・パーム・デバイスへの通信のための有線／無線通信機能である。

システムおよび関連ハードウェアの構成要素のいずれかまたはすべてが本発明で使用されうることに留意されたい。しかしながら、コンピュータシステムの他の構成は、それらの装置のうちの一部または全部を含みうることが理解できよう。

Claims

マルチモーダル生成モデルを含むコンピュータシステムであって、前記マルチモーダル生成モデルは、
（ａ）各々が複数の層のユニットを有するｎ個のネットワークモジュールを含む第１レベルと、
（ｂ）ｍ層のユニットを含む第２レベルと
を含み、前記生成モデルは、少なくともｌ個の異なるデータモダリティを含む訓練データを前記生成モデルに入力することによって訓練され、少なくとも１つのデータモダリティが化合物フィンガープリントを含む、コンピュータシステム。
前記ｎ個のネットワークモジュールのうちの少なくとも１つが無向グラフを含む、請求項１に記載のコンピュータシステム。
前記無向グラフは、制限ボルツマンマシン（ＲＢＭ）または深層ボルツマンマシン（ＤＢＭ）を含む、請求項２に記載のコンピュータシステム。
少なくとも１つのデータモダリティが遺伝情報を含む、請求項１に記載のコンピュータシステム。
少なくとも１つのデータモダリティが試験結果または画像を含む、請求項１に記載のコンピュータシステム。
前記第２レベルの第１層が、前記ｎ個のネットワークモジュールの各々の第１レベル間層から入力を受け取るように構成される、請求項１に記載のコンピュータシステム。
前記ｎ個のネットワークモジュールの各々の第２レベル間層が、前記第２レベルの第２層から入力を受け取るように構成される、請求項６に記載のコンピュータシステム。
前記第２レベルの前記第１層と前記第２レベルの前記第２層とが同じである、請求項７に記載のコンピュータシステム。
ネットワークモジュールの前記第１レベル間層とネットワークモジュールの前記第２レベル間層とが同じである、請求項７に記載のコンピュータシステム。
ｎは、少なくとも２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、または１００である、請求項１に記載のコンピュータシステム。
ｍは、少なくとも１、２、３、４、または５である、請求項１に記載のコンピュータシステム。
ｌは、少なくとも２、３、４、５、６、７、８、９、または１０である、請求項１に記載のコンピュータシステム。
前記訓練データは、遺伝情報、全ゲノム配列、部分ゲノム配列、バイオマーカー、一塩基多型（ＳＮＰ）、メチル化パターン、構造情報、転座、欠失、置換、逆位、挿入、ウイルス配列挿入、点突然変異、一塩基挿入、一塩基欠失、一塩基置換、ｍｉｃｒｏＲＮＡ配列、ｍｉｃｒｏＲＮＡ変異、ｍｉｃｒｏＲＮＡ発現レベル、化合物表現、フィンガープリント、バイオアッセイ結果、遺伝子発現レベル、ｍＲＮＡ発現レベル、タンパク質発現レベル、小分子生成レベル、グリコシル化、細胞表面タンパク質発現、細胞表面ペプチド発現、遺伝情報の変化、Ｘ線画像、ＭＲ画像、超音波画像、ＣＴ画像、写真、顕微鏡写真、病歴、患者人口統計、患者自己申告問診表、臨床メモ、毒性、交差反応性、薬物動態学、薬力学、生物学的利用能、および溶解性からなる群より選択されるデータタイプを含む、請求項１に記載のコンピュータシステム。
前記生成モデルは、遺伝情報および試験結果の入力時に化合物フィンガープリントの値を生成するように構成される、請求項１に記載のコンピュータシステム。
前記生成モデルは、化合物フィンガープリントおよび試験結果の入力時に遺伝情報を生成するように構成される、請求項１に記載のコンピュータシステム。
前記生成モデルは、化合物フィンガープリントおよび遺伝情報の入力時に試験結果を生成するように構成される、請求項１に記載のコンピュータシステム。
生成モデルを訓練するための方法であって、
（ａ）少なくとも１つのデータモダリティが化合物フィンガープリントを含む、少なくともｌ個の異なるデータモダリティを含む訓練データを前記生成モデルに入力するステップ
を含み、前記生成モデルは、
（ｉ）各々が複数の層のユニットを有するｎ個のネットワークモジュールを含む第１レベルと、
（ｉｉ）ｍ層のユニットを含む第２レベルと
を含む、方法。
個別化された薬物処方予測を生成する方法であって、前記方法は、
（ａ）生成モデルに遺伝情報の値および化合物のフィンガープリント値を入力するステップと、
（ｂ）試験結果を生成するステップと
を含み、前記生成モデルは、
（ｉ）各々が複数の層のユニットを有するｎ個のネットワークモジュールを含む第１レベルと、
（ｉｉ）ｍ層のユニットを含む第２レベルと
を含み、前記生成モデルは、少なくとも１つのデータモダリティが化合物フィンガープリントを含み、少なくとも１つのデータモダリティが試験結果を含み、少なくとも１つのデータモダリティが遺伝情報を含む、少なくともｌ個の異なるデータモダリティを含む訓練データを前記生成モデルに入力することによって訓練され、前記入力値の遺伝情報を有する患者が前記化合物の投与時に前記生成された試験結果を有する尤度は、閾値尤度以上である、方法。
前記患者に、前記化合物を含む処方を作成するステップをさらに含む、請求項１８に記載の方法。
前記閾値尤度は、少なくとも９９％、９８％、９７％、９６％、９５％、９０％、８０％、７０％、６０％、５０％、４５％、４０％、３５％、３０％、２５％、２０％、１５％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％または０．１％である、請求項１８に記載の方法。
個別化された創薬の方法であって、前記方法は、
（ａ）生成モデルに試験結果値および遺伝情報の値を入力するステップと、
（ｂ）化合物のフィンガープリント値を生成するステップと
を含み、前記生成モデルは、
（ｉ）各々が複数の層のユニットを有するｎ個のネットワークモジュールを含む第１レベルと、
（ｉｉ）ｍ層のユニットを含む第２レベルと
を含み、前記生成モデルは、少なくとも１つのデータモダリティが化合物フィンガープリントを含み、少なくとも１つのデータモダリティが試験結果を含み、少なくとも１つのデータモダリティが遺伝情報を含む、少なくともｌ個の異なるデータモダリティを含む訓練データを前記生成モデルに入力することによって訓練され、前記入力値の遺伝情報を有する患者が前記化合物の投与時に前記試験結果を有する尤度は、閾値尤度以上である、方法。
前記閾値尤度は、少なくとも９９％、９８％、９７％、９６％、９５％、９０％、８０％、７０％、６０％、５０％、４５％、４０％、３５％、３０％、２５％、２０％、１５％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％または０．１％である、請求項２１に記載の方法。
薬物の患者集団を同定する方法であって、前記方法は、
（ａ）生成モデルに試験結果値および化合物のフィンガープリント値を入力するステップと、
（ｂ）遺伝情報を生成するステップと
を含み、前記生成モデルは、
（ｉ）各々が複数の層のユニットを有するｎ個のネットワークモジュールを含む第１レベルと、
（ｉｉ）ｍ層のユニットを含む第２レベルと
を含み、前記生成モデルは、少なくとも１つのデータモダリティが化合物フィンガープリントを含み、少なくとも１つのデータモダリティが試験結果を含み、少なくとも１つのデータモダリティが遺伝情報を含む、少なくともｌ個の異なるデータモダリティを含む訓練データを前記生成モデルに入力することによって訓練され、前記生成値の遺伝情報を有する患者が前記化合物の投与時に前記入力された試験結果を有する尤度は、閾値尤度以上である、方法。
前記閾値尤度は、少なくとも９９％、９８％、９７％、９６％、９５％、９０％、８０％、７０％、６０％、５０％、４５％、４０％、３５％、３０％、２５％、２０％、１５％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％または０．１％である、請求項２３に記載の方法。
複数のヒト被験者を含む臨床試験を行うステップであって、前記臨床試験の管理者が、前記複数のヒト被験者の少なくとも閾値割合について遺伝情報の前記生成値を満足させる遺伝情報を有する、臨床試験を行う前記ステップ
をさらに含む、請求項２３に記載の方法。
前記閾値割合は、少なくとも少なくとも９９％、９８％、９７％、９６％、９５％、９０％、８０％、７０％、６０％、５０％、４５％、４０％、３５％、３０％、２５％、２０％、１５％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％または０．１％である、請求項２５に記載の方法。
化合物の臨床試験を行う方法であって、前記方法は、
（ａ）複数のヒト被験者に前記化合物を投与するステップ
を含み、前記臨床試験の管理者が、前記複数のヒト被験者の少なくとも閾値割合について遺伝情報の生成値を満足させる遺伝情報を有し、遺伝情報の前記生成値は、請求項２３に記載の方法に従って生成される、方法。
前記閾値割合は、少なくとも少なくとも９９％、９８％、９７％、９６％、９５％、９０％、８０％、７０％、６０％、５０％、４５％、４０％、３５％、３０％、２５％、２０％、１５％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％または０．１％である、請求項２７に記載の方法。