JP7247258B2

JP7247258B2 - コンピュータシステム、方法及びプログラム

Info

Publication number: JP7247258B2
Application number: JP2021065411A
Authority: JP
Inventors: 健太大野; ジャスティンクレイトン; 信行大田
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2015-12-02
Filing date: 2021-04-07
Publication date: 2023-03-28
Anticipated expiration: 2036-12-02
Also published as: JP2023082017A; JP6866375B2; US11900225B2; WO2017094899A1; JP2019502988A; JP2021121927A; US20170161635A1; US10776712B2; US20240144092A1; US20200387831A1

Description

本発明は、薬物設計のための生成機械学習システムに関する。

所望の特性を有するリード化合物の探索は、通常、高スループットまたは仮想スクリーニングを含む。これらの方法は、遅く、コストがかかり、効果的でない。

高スループットスクリーニングでは、化合物ライブラリからの化合物が検査される。しかしながら、化合物ライブラリは膨大であり、候補のほとんどはヒット化合物として選択される資格がない。この複雑な手法に関連するコストを最小化するために、いくつかのスクリーニング方法は、仮想スクリーニングとして知られるインシリコ法を利用する。しかしながら、利用可能な仮想スクリーニング方法は、膨大な計算能力を必要とし、アルゴリズム的に不十分で時間がかかる可能性がある。

さらに、現在のヒットツーリード探索は、主に、化合物候補の膨大なリストからの網羅的スクリーニングを含む。この手法は、一組の所望の特性を有する化合物が化合物の既存のリスト内に見出されるという予想および希望に依存する。さらに、現在のスクリーニング法がリード化合物をうまく発見したときでも、これらのリード化合物が薬物として使用され得ることを意味しない。候補化合物が臨床試験の後期に不合格になることはまれではない。不合格の主な理由の１つは、動物またはヒトによる実験まで明らかにならない毒性または副作用である。最後に、これらの探索モデルは低速で高価である。

既存の方法の非効率および限界のために、ターゲットタンパク質への結合などの所望の特性の集合を有する候補化合物を直接生成する薬物設計方法が必要とされている。さらに別に、毒性または副作用がない候補化合物を生成する必要性がある。最終的に、候補化合物がどのようにオフターゲットおよび／または他のターゲットと相互作用するかを予測する必要性がある。

第１の態様では、本明細書に記載される方法およびシステムは、化合物表現の生成のためのコンピュータシステムに関する。システムは、確率的自動エンコーダを含む場合がある。確率的自動エンコーダは、化合物指紋を潜在変数として符号化するように構成された確率的エンコーダ、潜在的表現を復号し、指紋要素の値にわたって確率変数を生成するように構成された確率的デコーダ、および／または潜在変数もしくは確率変数からサンプリングするように構成された１つもしくは複数のサンプリングモジュールを含む場合がある。システムは、化合物指紋および化合物指紋に関連付けられた訓練ラベルを供給し、化合物指紋の再構成物を生成することによって訓練される場合があり、システムの訓練は再構成誤差によって制約される。再構成誤差は、符号化された化合物表現が確率的デコーダによって生成された確率変数から引き出されるという否定的な可能性を含む場合がある。システムは、再構成誤差を最適化する、たとえば最小化するように訓練される場合がある。いくつかの実施形態では、訓練は、再構成誤差および正則化誤差を含む損失関数によって制約される。確率的自動エンコーダは、符号化分布を近似することを学習するように訓練される場合がある。正則化誤差は、符号化分布の複雑さに関連するペナルティを含む場合がある。訓練は、損失関数を最小化することを含む場合がある。いくつかの実施形態では、訓練ラベルは、所定の値を有する１つまたは複数のラベル要素を含む。いくつかの実施形態では、システムは、１つまたは複数のラベル要素を含むターゲットラベルを受け取り、１つまたは複数のラベル要素の各々についての規定値を満たす化合物指紋を生成するように構成される。いくつかの実施形態では、訓練ラベルはターゲットラベルを含まない。いくつかの実施形態では、各化合物指紋は一意的に化合物を同定する。いくつかの実施形
態では、訓練は、確率的エンコーダと確率的デコーダとの間の情報フロー全体をさらに制約する。いくつかの実施形態では、確率的エンコーダは、平均のベクトルおよび標準偏差のベクトルのペアを含む出力を提供するように構成される。いくつかの実施形態では、サンプリングモジュールは、エンコーダの出力を受け取り、エンコーダの出力に基づいて潜在変数を定義し、１つまたは複数の潜在的表現を生成するように構成され、潜在変数は確率分布によってモデル化される。いくつかの実施形態では、確率分布は、正規分布、ラプラス分布、楕円分布、スチューデントｔ分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、Ｆ分布、およびそれらの変形形態からなるグループから選択される。いくつかの実施形態では、確率的エンコーダは推論モデルを含む。いくつかの実施形態では、推論モデルは多層パーセプトロンを含む。いくつかの実施形態では、確率的自動エンコーダは生成モデルを含む。いくつかの実施形態では、生成モデルは多層パーセプトロンを含む。いくつかの実施形態では、システムは、化合物指紋について選択されたラベル要素の値を予測するように構成された予測子をさらに含む。いくつかの実施形態では、ラベルは、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、および溶解性からなるグループから選択される１つまたは複数のラベル要素を含む。

別の態様では、本明細書に記載されるシステムおよび方法は、化合物表現の生成のための訓練方法に関する。訓練方法は、生成モデルを訓練することを含む場合がある。訓練モデルの訓練は、生成モデルに化合物指紋および関連付けられた訓練ラベルを入力すること、ならびに化合物指紋の再構成物を生成することを含む場合がある。生成モデルは、化合物指紋を潜在変数として符号化するように構成された確率的エンコーダ、潜在的表現を指紋要素の値にわたる確率変数として復号するように構成された確率的デコーダ、および／または潜在変数からサンプリングして潜在的表現を生成するか、もしくは確率変数からサンプリングして指紋の再構成物を生成するように構成されたサンプリングモジュールを含む確率的自動エンコーダを含む場合がある。訓練ラベルは、経験値または予測値を有する１つまたは複数のラベル要素を含む場合がある。システムの訓練は、再構成誤差によって制約される場合がある。再構成誤差は、符号化された化合物表現が確率的デコーダによって出力された確率変数から引き出されるという否定的な可能性を含む場合がある。訓練は、再構成誤差を最小化することを含む場合がある。いくつかの実施形態では、訓練は、再構成誤差および正則化誤差を含む損失関数によって制約される。訓練は、損失関数を最小化することを含む場合がある。

さらに別の態様では、本明細書に記載される方法およびシステムは、薬物予測のためのコンピュータシステムに関する。システムは、生成モデルを含む機械学習モデルを含む場合がある。生成モデルは、化合物指紋データ、および１つまたは複数のラベル要素を含む関連付けられた訓練ラベルを含む訓練データセットで訓練される場合がある。いくつかの実施形態では、生成モデルは、少なくとも２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、またはそれ以上の層のユニットを有するニューラルネットワークを含む。いくつかの実施形態では、ラベル要素は、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、および溶解性からなるグループから選択される１つまたは複数の要素を含む。いくつかの実施形態では、生成モデルは確率的自動エンコーダを含む。いくつかの実施形態では、生成モデルは、確率的エンコーダ、確率的デコーダ、およびサンプリングモジュールを有する変分自動エンコーダを含む。いくつかの実施形態では、確率的エンコーダは、平均のベクトルおよび標準偏差のベクトルのペアを含む出力を提供するように構成される。いくつかの実施形態では、サンプリングモジュールは、確率的エンコーダの出力を受け取り、エンコーダの出力に基づいて潜在変数を定義し、１つまたは複数の潜在的表現を生成するように構成され、潜在変数は確率分布によってモデル化される。いくつかの実施形態では、確率的デコーダは、潜在的表現を復号し、指紋要素の値にわたって確率変数を生成するように構成される。いくつかの実施形態では、確率分布は、正規分布、ラプラス分布、楕円分布、スチューデントｔ分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、Ｆ分布、およびそれらの変形形態からなるグループから選択される。いくつかの実施形態では、確率的エンコーダおよび確率的デコーダは同時に訓練される。いくつかの実施形態では、コンピュータシステムはＧＮＵを含む。いくつかの実施形態では、生成モデルは予測子をさらに含む。いくつかの実施形態では、予測子は、指紋関連訓練ラベルの少なくともサブセットについて１つまたは複数のラベル要素の値を予測するように構成される。いくつかの実施形態では、機械学習ネットワークは、訓練データセットにないシステム生成化合物指紋を含む出力を提供するように構成される。

さらなる態様では、本明細書に記載される方法およびシステムは、薬物予測のための方法に関する。方法は、化合物指紋および経験的または予測されたラベル要素値を有する１つまたは複数のラベル要素を含む関連付けられた訓練ラベルを含む訓練データセットで生成モデルを訓練することを含む場合がある。いくつかの実施形態では、ラベルは、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、および溶解性からなるグループから選択される１つまたは複数の要素を含む。いくつかの実施形態では、生成モデルは確率的自動エンコーダを含む。いくつかの実施形態では、生成モデルは、確率的エンコーダおよび確率的デコーダおよびサンプリングモジュールを含む変分自動エンコーダを含む。いくつかの実施形態では、方法は、訓練データセット内の化合物指紋ごとに平均のベクトルおよび標準偏差のベクトルのペアを含む出力をエンコーダから提供することをさらに含む。いくつかの実施形態では、確率的エンコーダおよび確率的デコーダは同時に訓練される。いくつかの実施形態では、訓練は、確率的エンコーダを、潜在変数を定義する平均のベクトルおよび標準偏差のベクトルとして化合物指紋を符号化するように訓練することと、潜在変数から潜在的表現を引き出すことと、確率的デコーダを、化合物指紋の確率的再構成物として潜在的表現を復号するように訓練することとを含む。いくつかの実施形態では、潜在変数は、正規Ｆ分布、ラプラス分布、楕円分布、スチューデントｔ分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、Ｆ分布、およびそれらの変形形態からなるグループから選択される確率分布によってモデル化される。いくつかの実施形態では、訓練は、逆伝搬を使用して変分自動エンコーダについての変分下限を最適化することを含む。いくつかの実施形態では、生成モデルは、ＧＮＵを有するコンピュータシステム内に存在する。いくつかの実施形態では、生成モデルは予測子モジュールを含む。いくつかの実施形態では、方法は、訓練データセット内の１つまたは複数の化合物指紋に関連付けられたラベル要素についての１つまたは複数の値を予測することをさらに含む。いくつかの実施形態では、方法は、訓練セット内に表されていない化合物についての同定情報を含む出力を生成モデルから生成することをさらに含む。

またさらなる態様では、本明細書に記載される方法およびシステムは、化合物表現の生成のためのコンピュータシステムに関する。システムは、確率的自動エンコーダを含む場合がある。システムは、化合物指紋および１つまたは複数のラベル要素を含む関連付けられた訓練ラベルを含む訓練データセットを入力し、化合物指紋の再構成物を生成することによって訓練される場合がある。システムの訓練は、再構成誤差および／または正則化誤差によって制約される場合がある。生成された再構成物は、再構成分布からサンプリングされる場合がある。再構成誤差は、入力化合物指紋が再構成分布から引き出されるという否定的な可能性を含む場合がある。システムの訓練は、符号化分布を近似することを確率的自動エンコーダに学習させることを含む場合がある。正則化誤差は、符号化分布の複雑さに関連するペナルティを含む場合がある。いくつかの実施形態では、システムは、１つまたは複数のラベル要素について選択された値を満たす化合物指紋を生成するように構成される。いくつかの実施形態では、訓練ラベルは、１つまたは複数のラベル要素について選択された値を含まない。いくつかの実施形態では、各化合物指紋は一意的に化合物を同定する。いくつかの実施形態では、確率的自動エンコーダは、少なくとも２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、またはそれ以上の層を含む。いくつかの実施形態では、コンピュータシステムは、訓練データセット内の１つまたは複数の化合物指紋に関連付けられた１つまたは複数のラベル要素についての値を予測するように構成された予測子をさらに含む場合がある。いくつかの実施形態では、ラベル要素は、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、および溶解性からなるグループから選択される１つまたは複数の要素を含む。

さらに別の態様では、本明細書に記載される方法およびシステムは、化合物表現の生成のための方法に関する。方法は、機械学習モデルを訓練することを含む場合がある。訓練は、機械学習モデルに化合物指紋および１つまたは複数のラベル要素を含む関連付けられたラベルを入力すること、ならびに化合物指紋の再構成物を生成することを含む場合がある。機械学習モデルは、確率的自動エンコーダまたは変分自動エンコーダを含む場合がある。いくつかの実施形態では、訓練は、再構成誤差および正則化誤差によって制約される。生成された再構成物は、再構成分布からサンプリングされる場合がある。いくつかの実施形態では、再構成誤差は、入力化合物指紋が再構成分布から引き出されるという否定的な可能性を含む。訓練は、符号化分布を近似することを確率的自動エンコーダに学習させることを含む場合がある。正則化誤差は、符号化分布の複雑さに関連するペナルティを含む場合がある。

さらなる態様では、本明細書に記載される方法およびシステムは、薬物予測のためのコンピュータシステムに関する。システムは、生成モデルを含む機械学習モデルを含む場合がある。機械学習モデルは、化学指紋データおよび第１のラベル要素を有するラベルの関連集合を含む第１の訓練データセット、ならびに化学指紋データおよび第２のラベル要素を有するラベルの関連集合を含む第２の訓練データセットで訓練される場合がある。いくつかの実施形態では、第１および第２の訓練データセットの化学指紋データは、生成ネットワークの少なくとも２つの層のユニットに入力される。いくつかの実施形態では、第１のラベル要素を有するラベルおよび第２のラベル要素を有するラベルは、訓練中に生成ネットワークの異なる部分に導入される。いくつかの実施形態では、第１のラベル要素は、第１のバイオアッセイにおける化学指紋に関連付けられた化合物の活性を表す。いくつかの実施形態では、第２のラベル要素は、第２のバイオアッセイにおける化学指紋に関連付けられた化合物の活性を表す。いくつかの実施形態では、システムは、第１のタイプを有する第１のラベル要素についての規定値に関する要件、および第２のラベル要素についての規定値に関する要件を満たす可能性が高い化合物の表現を生成するように構成される。いくつかの実施形態では、高い可能性は、１、２、３、４、５、６、７、８、９、１０、１２、１５、２０、２５、３０、４０、５０、６０、７０、８０、９０、９５、９８、９９％、またはそれ以上よりも大きい。いくつかの実施形態では、第１のラベル要素についての規定値に関する要件は、ノイズと比較して少なくとも１、２、３、４、５、６、７、８、９、１０、１２、１５、２０、３０、５０、１００、５００、１０００、またはそれ以上の標準偏差である第１のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第１のラベル要素についての規定値に関する要件は、等モル濃度の既知の化合物の活性よりも少なくとも１０、２０、３０、４０、５０、１００、２００、５００、１０００％大きい第１のバイオアッセイについての肯定的な結果を有する
ことを含む。いくつかの実施形態では、第１のラベル要素についての規定値に関する要件は、等モル濃度の既知の化合物の活性よりも少なくとも１００％大きい第１のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第１のラベル要素についての規定値に関する要件は、等モル濃度の既知の化合物の活性よりも少なくとも２倍、３倍、４倍、５倍、６倍、７倍、８倍、９倍、１０倍、１５倍、２５倍、５０倍、１００倍、２００倍、３００倍、４００倍、５００倍、１０００倍、１００００倍、または１０００００倍大きい第１のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第２のラベル要素についての規定値に関する要件は、ノイズと比較して少なくとも１、２、３、４、５、６、７、８、９、１０、１２、１５、２０、３０、５０、１００、５００、１０００、またはそれ以上の標準偏差である第２のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第２のラベル要素についての規定値に関する要件は、等モル濃度の既知の化合物の活性よりも少なくとも１０、２０、３０、４０、５０、１００、２００、５００、または１０００％大きい第２のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第２のラベル要素の規定値に関する要件は、等モル濃度の既知の化合物の活性よりも少なくとも２倍、３倍、４倍、５倍、６倍、７倍、８倍、９倍、１０倍、１５倍、２５倍、５０倍、１００倍、２００倍、３００倍、４００倍、５００倍、１０００倍、１００００倍、または１０００００倍大きい第２のバイオアッセイについての肯定的な結果を有することを含む。

＜参照による組み込み＞
個々の刊行物、特許、または特許出願が、参照により組み込まれるように具体的かつ個別に示された場合のように、本明細書内で言及されるすべての刊行物、特許、および特許出願は、参照により本明細書に組み込まれる。

本発明の新規の特徴は、添付の特許請求の範囲において詳細に記載される。本発明の特徴および利点のより良い理解は、本発明の原理が利用される例示的な実施形態を記載する以下の詳細な説明および添付の図面を参照することによって得られる。

自動エンコーダの説明図である。予測子がない多成分生成モデルの例示的なアーキテクチャを示す図である。そのようなアーキテクチャを有する生成モデルは、教師付き学習によって訓練される場合がある。予測子がある多成分生成モデルの例示的なアーキテクチャを示す図である。そのようなアーキテクチャを有する生成モデルは、半教師付き学習によって訓練される場合がある。所望のラベルｙ~によって設定された要件を満たす化合物の生成された表現の初期作成のための実例を示す図である。ラベル付きシード化合物に基づいて生成された化合物表現を作成するための例示的な説明を提供する図である。化合物表現ｘ~は、実際のラベルｙＤおよび所望のラベルｙ~を使用することによって生成される場合がある。ラベル付きでないシード化合物を作成するための例示的な説明を提供する図である。化合物表現ｘ~は、予測子モジュールによって生成される予測ラベルｙ、および所望のラベルｙ~を使用することによって生成される場合がある。本発明の様々な実施形態による、エンコーダについての実例を描写する図である。本発明の様々な実施形態による、デコーダについての実例を描写する図である。本発明の様々な実施形態による、変分自動エンコーダの訓練方法の実例を描写する図である。本発明の様々な実施形態による、単一ステップの評価およびランク付け手順の実例を描写する図である。本発明の様々な実施形態による、生成された指紋およびそれらの予測結果の評価方法の実例を描写する図である。ランク付けモジュール用の訓練方法の例示的な説明を描写する図である。本発明の様々な実施形態による、潜在的表現生成器（ＬＲＧ）、分類子、および順序付けモジュールを含むランク付けモジュールの例示的な説明を描写する図である。初期生成プロセスおよび比較生成プロセスの逐次使用の例示的な説明を描写する図である。ラベルまたはラベル要素値の変化に影響を及ぼす可能性がある化合物特性の同定のための例示的な方法およびシステムを描写する図である。所望のラベルまたはラベル要素値に関連する可能性がある特定の化合物における変態の同定のためのシステムおよび方法を描写する図である。ｋ－メドイドクラスタリングを使用する比較モジュールの例示的な説明を描写する図である。ｋ－平均クラスタリングを使用する比較モジュールの例示的な説明を描写する図である。本明細書に記載される１つまたは複数の動作を実施することができる例示的なコンピュータシステムのブロック図である。指紋およびラベルが機械学習モデルの同じ層に入力される、機械学習モデルにおける指紋およびラベルのための入力層の代替構成の例示的な説明を描写する図である。指紋およびラベルが機械学習モデルの異なる層に入力される、機械学習モデルにおける指紋およびラベルのための入力層の代替構成の例示的な説明を描写する図である。

本発明は、様々な実施形態において、機械学習および／または人工知能法の使用による化合物候補表現の直接生成を可能にする方法およびシステムに関する。様々な実施形態では、本明細書に記載される方法およびシステムは、生成モデル、深層生成モデル、有向グラフィカルモデル、深層有向グラフィカルモデル、有向潜在グラフィカルモデル、潜在変数生成モデル、非線形ガウス確率ネットワーク、シグモイド確率ネットワーク、深層自己回帰ネットワーク、ニューラル自己回帰分布推定器、一般化雑音除去自動エンコーダ、深層潜在ガウスモデル、および／またはそれらの組合せを利用することに関する。いくつかの実施形態では、生成モデルは、変分自動エンコーダなどの確率的自動エンコーダを利用する。変分自動エンコーダなどの生成モデルの構成要素は、確率的エンコーダおよび確率的デコーダを実装する多層パーセプトロンを含む場合がある。エンコーダおよびデコーダは、たとえば逆伝搬を使用することによって同時に訓練される場合がある。

本明細書に記載されるシステムおよび方法は、生成モデルを訓練するために使用される訓練データセットに含まれなかった新規化合物を生成するために使用される場合がある。さらに、様々な実施形態における本発明の方法およびシステムは、所望の一組の特性を有する１つまたは複数の化合物を同定する可能性を高める。様々な実施形態では、本発明の方法およびシステムは、化合物の効果および副作用の同時予測、または一般に薬物再配置と呼ばれる既存の薬物の新たな使用法の発見を含む。様々な実施形態では、「化合物」または「化合物を生成すること」に対する言及は、化合物およびその生成に関する情報を一意的に識別することに関するが、必ずしも化合物の物理的な作成に関するとは限らない。そのような情報を一意的に識別することは、化学式もしくは化学構造、参照コード、または本明細書に記載されるか、もしくは当技術分野で知られている任意の他の適切な識別子
を含む場合がある。

例示的な実施形態では、化合物についての所望の一組の特性は、活性、溶解性、毒性、および合成の容易性のうちの１つまたは複数を含む。本明細書に記載される方法およびシステムは、オフターゲット効果の予測、または薬物候補が選択されたターゲット以外のターゲットとどのように相互作用するかの予測を容易にすることができる。

機械学習手法はコンピュータ化された画像認識では成功しているが、コンピュータ化された創薬の分野でこれまでに提供されてきた改善は、比較するとささやかである。本明細書に記載されるシステムおよび方法は、新規の方法で、化合物およびそれらの活性、効果、副作用、および特性に関する予測を改善する生成モデルを含む解決策を提供する。本明細書に記載される生成モデルは、所望の仕様に従って化合物を生成することにより、独特の手法を提供する。

様々な実施形態では、本明細書に記載される方法およびシステムは、化学式、化学構造、電子密度、または他の化学特性などの化学情報を表す一組の分子記述子によって通常特徴付けられる化合物情報が提供される。化合物情報は、各化合物の指紋表現を含む場合がある。さらに、本明細書に記載される方法およびシステムは、受容体または酵素などの特定のターゲットに関する化合物の活性を描写するものなどの生物学的データ、たとえば、バイオアッセイ結果を含む追加情報を含むラベルが提供される場合がある。本明細書に記載される方法およびシステムは、分子記述子の値のベクトルおよびラベル要素値のベクトルのペアを含む訓練セットで訓練される場合がある。化合物情報およびラベルの組合せは、通常、たとえば、バイオアッセイデータ、溶解性、交差反応性、ならびに、疎水性などの他の化学的特徴、ｙなどの相転移境界を含む、化合物の生物学的および化学的特性に関するデータ、または化合物の構造もしくは機能を特徴付けるために使用され得る任意の他の情報を含む。訓練の際に、本明細書に記載されるシステムおよび方法は、１つまたは複数の化学指紋などの１つまたは複数の化合物を同定する化学情報を出力することができる。いくつかの実施形態では、本明細書に記載される方法およびシステムは、所望の化学的および／または生物学的な特性を有すると予想される１つまたは複数の化合物についての同定化学情報を出力することができる。たとえば、同定された化合物は、１つまたは複数の指定されたバイオアッセイ結果、毒性、交差反応性などについての所望の範囲内の検査結果を有すると予想される場合がある。本明細書に記載される方法およびシステムは、場合によっては、所望の特性を有することの予想レベルに従ってランク付けされた化合物のリストを出力することができる。同定された化合物は、ヒットリード研究においてリード化合物または初期化合物として使用される場合がある。

本明細書に記載される方法およびシステムは、一定の大きさの化合物を利用することができる。たとえば、生成モデル、たとえば深層生成モデルは、様々な実施形態において、１００，０００、５０，０００、４０，０００、３０，０００、２０，０００、１５，０００、１０，０００、９，０００、８，０００、７，０００、６，０００、５，０００、４，０００、３，０００、２，５００、２，０００、１，５００、１，２５０、１０００、９００、８００、７５０、６００、５００、４００、３００ダルトン未満の分子量を有する化合物の表現で訓練される場合があり、かつ／またはそれらを生成することができる。

以下の詳細な説明のいくつかの部分は、コンピュータメモリ内のデータビットに対する演算のアルゴリズムおよび記号表現の観点から提示される。これらの説明および表現は、データ処理技術の当業者により、当業者の仕事の内容を他の当業者に最も効果的に伝えるために使用される手段である。

これらの用語および同様の用語はすべて、適切な物理量に関連付けられるべきであり、これらの量に適用される便利なラベルに過ぎない。以下の説明から明らかなように特に明記されない限り、説明の全体を通して「処理する」または「計算する」または「算出する」または「決定する」または「表示する」などの用語を利用する説明は、コンピュータシステムのレジスタおよびメモリ内の物理（電子）量として表されるデータを、コンピュータシステムのメモリもしくはレジスタ、または他のそのような情報ストレージデバイス、伝送デバイス、もしくは表示デバイス内の物理量として同様に表される他のデータに、操作および変換するコンピュータシステムまたは同様の電子計算デバイスのアクションおよびプロセスを指す。

本発明のシステムおよび方法は、多層パーセプトロン内に実装された生成モデル、確率的自動エンコーダ、または変分自動エンコーダなどの１つまたは複数の機械学習構造および部分構造を含む場合があり、本明細書に記載された、または当技術分野で知られている任意の適切な学習アルゴリズム、たとえば、限定はしないが、損失関数を最小化する確率的勾配降下を伴う逆伝播、または変分下限を最適化する確率的勾配上昇を伴う逆伝播を利用することができる。モデルが訓練されると、それは、たとえば、予測モジュール（または予測子）を使用して、予測のためにコンピュータまたはコンピュータネットワークに提示されるデータの新しいインスタンスを評価するために使用することができる。予測モジュールは、訓練フェーズ中に使用された機械学習構造の一部または全部を含む場合がある。いくつかの実施形態では、モデルによって生成された確率変数からサンプリングすることにより、新しい化合物指紋が生成される場合がある。

いくつかの実施形態では、本明細書に記載される方法およびシステムは、次いで生成モデルとして使用することができる確率的自動エンコーダまたは変分自動エンコーダを訓練する。一実施形態では、確率的自動エンコーダまたは変分自動エンコーダは、少なくとも１、２、３、４、５、６、７、８、９、１０、１１、１２、またはそれ以上の隠れ層を含む多層パーセプトロンとして具現化される。場合によっては、確率的自動エンコーダまたは変分自動エンコーダは、確率的エンコーダおよび確率的デコーダを含む多層パーセプトロンを含む場合がある。他の実施形態では、本明細書の他の箇所でさらに詳細に記載されるように、生成モデルを形成するように訓練することができる、様々な統計モデルのうちのいずれかが実装される場合がある。教師付きまたは半教師付きの訓練アルゴリズムは、指定されたアーキテクチャで機械学習システムを訓練するために使用される場合がある。

第１の態様では、本明細書に記載される方法およびシステムは、化合物の表現の生成のためのコンピュータシステムに関する。システムは、確率的自動エンコーダまたは変分自動エンコーダを含む場合がある。確率的自動エンコーダまたは変分自動エンコーダは、潜在的表現がサンプリングされ得る潜在的な確率変数に指紋データを変換するための確率的エンコーダと、サンプルが引き出され得る確率変数に潜在的表現を変換し、それにより化合物表示の再構成物を生成するための確率的デコーダと、潜在的な確率変数から潜在的表現をサンプリングすることができるサンプリングモジュールおよび／または確率変数から化合物指紋をサンプリングすることができるサンプリングモジュールとを含む場合がある。システムは、化合物の表現およびそれらの関連ラベルを入力し、化合物表示の再構成物を生成することによって訓練される場合があり、化合物指紋および再構成物の分布は、再構成誤差および正則化誤差を含む損失関数の値によって異なる。再構成誤差は、入力化合物表現が確率的デコーダによって生成された確率変数から引き出されるという否定的な可能性を含む場合がある。確率的自動エンコーダは、符号化分布を近似することを学習するように訓練される場合がある。正則化誤差は、符号化分布の複雑さに関連するペナルティを含む場合がある。システムは、損失関数を最適化する、たとえば、最小化するように訓練される場合がある。いくつかの実施形態では、システムは、化合物に関連付けられた訓練ラベルをさらに入力することによって訓練される。いくつかの実施形態では、システム
は、選択された一組の所望のラベル要素値を満たす可能性が高い化合物指紋を生成するように構成される。いくつかの実施形態では、一組の所望のラベル要素値は、訓練データセット内のラベル内に現れない。いくつかの実施形態では、各化合物指紋は一意的に化合物を同定する。いくつかの実施形態では、エンコーダは、平均のベクトルおよび標準偏差のベクトルのペアを含む出力を提供するように構成される。システムは、エンコーダの出力に基づいて潜在的な確率変数を定義することができる。潜在的な確率変数は、確率分布、たとえば、正規分布、ラプラス分布、楕円分布、スチューデントｔ分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、もしくはＦ分布、またはそれらの変形形態によってモデル化される場合がある。エンコーダおよび／またはデコーダは、多層パーセプトロンまたは再帰型ニューラルネットワークなどの他のタイプのニューラルネットワークの１つまたは複数の層を含む場合がある。システムは、化合物指紋に関連付けられたラベル要素値を予測するための予測子をさらに含む場合がある。いくつかの実施形態では、ラベル要素は、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、および溶解性からなるグループから選択される１つまたは複数の要素を含む。

別の態様では、本明細書に記載されるシステムおよび方法は、化合物表現の生成のための方法に関する。方法は、生成モデルを訓練することを含む場合がある。訓練は、（１）化合物の表現およびそれらの関連ラベルを入力すること、ならびに（２）化合物指紋の再構成物を生成することを含む場合がある。生成モデルは、ａ）潜在的表現がサンプリングされ得る潜在変数として指紋およびラベルデータを符号化するための確率的エンコーダと、ｂ）指紋データの再構成物がサンプリングされ得る確率変数に潜在的表現を変換するための確率的デコーダと、ｃ）潜在変数をサンプリングして潜在的表現を生成する、または確率変数をサンプリングして指紋再構成物を生成するサンプリングモジュールとを含む、確率的自動エンコーダまたは変分自動エンコーダを含む場合がある。システムは、再構成誤差および正則化誤差を含む損失関数を最適化する、たとえば最小化するように訓練される場合がある。再構成誤差は、符号化された化合物表現が確率的デコーダによって出力された確率変数から引き出されるという否定的な可能性を含む場合がある。訓練は、変分自動エンコーダまたは確率的自動エンコーダに符号化分布を近似することを学習させることを含む場合がある。正則化誤差は、符号化分布の複雑さに関連するペナルティを含む場合がある。

さらに別の態様では、本明細書に記載される方法およびシステムは、薬物予測のためのコンピュータシステムに関する。「薬物予測」は、本発明の様々な実施形態に関連して、化合物が特定の化学的および物理的な特性を有することについての分析を指すことが理解される。合成、インビボ検査およびインビトロ検査、ならびに化合物を用いた臨床試験などのその後の活動は、本発明の特定の実施形態において、続くと理解されるが、そのようなその後の活動は「薬物予測」という用語では暗示されない。システムは、生成モデルを含む機械学習モデルを含む場合がある。生成モデルは、指紋データなどの化合物表現を含む訓練データセットで訓練される場合がある。いくつかの実施形態では、機械学習モデルは、少なくとも２、３、４、５、６、７、８、９、１０、またはそれ以上の層のユニットを含む。いくつかの実施形態では、訓練データセットは、訓練データセット内の化合物の少なくともサブセットに関連付けられたラベルをさらに含む。ラベルは、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、溶解性、または当技術分野で知られている任意の他の適切なラベル要素などの、化合物の活性および特性のうちの１つまたは複数などのラベル要素を有する場合がある。生成モデルは、確率的自動エンコーダを含む場合がある。いくつかの実施形態では、確率的自動エンコーダは、少なくとも３、４、５、６、７、８、９、１０、１１、１２、１３、１４、またはそれ以上
の層のユニットを有する多層パーセプトロンを含む。いくつかの実施形態では、生成モデルは、確率的エンコーダ、確率的デコーダ、およびサンプリングモジュールを含む確率的自動エンコーダまたは変分自動エンコーダを含む。確率的エンコーダは、平均のベクトルおよび標準偏差のベクトルのペアを含む出力を提供するように構成される場合がある。システムは、エンコーダの出力に基づいて潜在的な確率変数を定義することができる。潜在的な確率変数は、確率分布、たとえば、正規分布、ラプラス分布、楕円分布、スチューデントｔ分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、Ｆ分布、またはそれらの変形形態によってモデル化される場合がある。コンピュータシステムはＧＮＵを含む場合がある。生成モデルは予測子をさらに含む場合がある。予測子は、訓練データセット内の化合物指紋の少なくともサブセットについてのラベル要素値を予測するように構成される場合がある。いくつかの実施形態では、生成モデルは、モデルによって生成された化合物表現を含む出力を提供するように構成される。表現は、化合物を一意的に同定するのに十分であり得る。生成された化合物は、訓練データセットに含まれなかった化合物であってもよく、場合によっては、これまで合成されていないか、または考えられてさえいない化合物であってもよい。

さらなる態様では、本明細書に記載される方法およびシステムは、薬物予測のための方法に関する。方法は、化合物表現および訓練データセット内の化合物の少なくともサブセットについての化合物の活性または特性を表す関連付けられたラベル要素値を含む訓練データセットで機械学習モデルを訓練することを含む場合がある。機械学習モデルは生成モデルを含む場合がある。いくつかの実施形態では、ラベルは、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、または溶解性などの要素を有する。生成モデルは、確率的自動エンコーダまたは変分自動エンコーダなどの確率的自動エンコーダを含む場合がある。確率的自動エンコーダまたは変分自動エンコーダは、確率的エンコーダ、確率的デコーダ、およびサンプリングモジュールを含む場合がある。方法は、平均のベクトルおよび標準偏差のベクトルのペアを含む出力をエンコーダから提供することをさらに含む場合がある。平均のベクトルおよび標準偏差のベクトルのペアは、潜在変数を定義するために使用される場合がある。いくつかの実施形態では、方法は、サンプリングモジュールに潜在変数からの潜在的表現を引き出させることをさらに含む場合がある。潜在変数は、正規分布、ラプラス分布、楕円分布、スチューデントｔ分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、Ｆ分布、またはそれらの変形形態などの確率分布によってモデル化される場合がある。いくつかの実施形態では、機械学習モデルは、ＧＰＵを有するコンピュータシステム内に存在する。いくつかの実施形態では、機械学習モデルは予測子モジュールを含む。方法は、予測子モジュールを使用して訓練データのサブセットについてのラベル要素値を予測することをさらに含む場合がある。いくつかの実施形態では、方法は、化合物を同定するのに十分な一組の分子記述子を含む出力を機械学習モデルから生成することをさらに含む。化合物は訓練セットにない場合がある。

またさらなる態様では、本明細書に記載される方法およびシステムは、化合物表現の生成のためのコンピュータシステムに関する。システムは、確率的自動エンコーダまたは変分自動エンコーダを含む場合があり、システムは、化合物表現を入力し、化合物表現の再構成物を生成することによって訓練され、システムの訓練は、再構成誤差および／または正則化誤差によって制約される。生成された再構成物は、再構成分布からサンプリングされる場合があり、再構成誤差は、入力化合物指紋が再構成分布から引き出されるという否定的な可能性を含む場合がある。正則化誤差は、符号化分布の複雑さに関連するペナルティを含む場合がある。化合物に関連付けられたラベル要素値は、化合物表現と同じポイントで、または別のポイントでシステムに入力される場合があり、たとえば、ラベルは自動エンコーダのデコーダに入力される場合がある。いくつかの実施形態では、システムは化合物表現を生成するように構成され、化合物は、一組の所望のラベル要素値によって定義される１つまたは複数の要件を満たす可能性が高い。いくつかの実施形態では、一組の所望のラベル要素値は、訓練データセットの一部ではなかった場合がある。いくつかの実施形態では、各化合物指紋は一意的に化合物を同定する。いくつかの実施形態では、訓練は、生成ネットワークの層を通る情報フロー全体をさらに制約する。いくつかの実施形態では、確率的自動エンコーダまたは変分自動エンコーダは、少なくとも２、３、４、５、６、７、８、９、１０、またはそれ以上の層を有する多層パーセプトロンを含む。いくつかの実施形態では、システムは、ラベルを化合物表現に関連付けるための予測子をさらに含む。いくつかの実施形態では、ラベルは、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、および溶解性などの１つまたは複数のラベル要素を含む。

さらに別の態様では、本明細書に記載される方法およびシステムは、化合物表現の生成のための方法に関する。方法は、機械学習モデルを訓練することを含む場合がある。訓練は、（１）指紋などの化合物表現を機械学習モデルに入力すること、および（２）化合物表現、たとえば指紋の再構成物を生成することを含む場合がある。機械学習モデルは、確率的自動エンコーダまたは変分自動エンコーダを含む場合がある。システムは、再構成誤差および正則化誤差を含む損失関数を最適化する、たとえば最小化するように訓練される場合がある。生成された再構成物は、再構成分布からサンプリングされる場合がある。再構成誤差は、入力化合物指紋が再構成分布から引き出されるという否定的な可能性を含む場合がある。訓練は、確率的自動エンコーダまたは変分自動エンコーダに符号化分布を近似することを学習させることを含む場合がある。正則化誤差は、符号化分布の複雑さに関連するペナルティを含む場合がある。

さらなる態様では、本明細書に記載される方法およびシステムは、薬物予測のためのコンピュータシステムに関する。システムは、生成モデルを含む機械学習モデルを含む場合がある。機械学習モデルは、指紋などの化合物表現および第１のラベル要素についての値を有するラベルの関連集合を含む第１の訓練データセット、ならびに指紋などの化合物表現および第２のラベル要素についての値を有するラベルの関連集合を含む第２の訓練データセットで訓練される場合がある。いくつかの実施形態では、第１のラベル要素を有するラベルおよび第２のラベル要素を有するラベルは、それぞれ、訓練中に生成モデルの異なる部分に、たとえば、エンコーダおよびデコーダに導入される。いくつかの実施形態では、第１のラベル要素を有するラベルは、第１のバイオアッセイにおける化合物の活性を表す。いくつかの実施形態では、第２のラベル要素を有するラベルは、第２のバイオアッセイにおける化合物の活性を表す。いくつかの実施形態では、システムは、第１のラベル要素値を有するラベルに関する要件、および第２のラベル要素値を有するラベルに関する要件を満たす可能性が高い化合物の表現を生成するように構成される。いくつかの実施形態では、高い可能性は、１、２、３、４、５、６、７、８、９、１０、１２、１５、２０、２５、３０、４０、５０、６０、７０、８０、９０、９５、９８、９９％、またはそれ以上よりも大きい。いくつかの実施形態では、第１のラベル要素に関する要件は、ノイズと比較して少なくとも１、２、３、４、５、６、７、８、９、１０、１２、１５、２０、３０、５０、１００、５００、１０００、またはそれ以上の標準偏差である第１のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第１のラベル要素に関する要件は、等モル濃度の既知の化合物の活性と比較して、少なくとも１０、２０、３０、４０、５０、１００、２００、５００、１０００％、またはそれ以上である第１のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第２のラベル要素に関する要件は、ノイズと比較して少なくとも１、２、３、４、５、６、７、８、９、１０、１２、１５、２０、３０、５０、１００、５００、１０００、またはそれ以上の標準偏差である第２のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第２のラベル要素に関する要件は、等モル濃度の既知の化合物の活性よりも、少なくとも１０、２０、３０、４０、５０、１００、２００、５００、１０００％大きい第２のバイオアッセイについての肯定的な結果を有することを含む。

＜生成モデル＞
様々な実施形態では、本明細書に記載されるシステムおよび方法は、生成モデルをコアコンポーネントとして利用する。

本発明の方法およびシステムによる生成モデルは、１つまたは複数の隠れパラメータの値を与えられた観察可能データ値をランダムに生成するために使用することができる。生成モデルは、直接データをモデル化する（すなわち、確率密度関数から引き出された化合物観察値をモデル化する）ために、または条件付き確率密度関数を形成するまでの中間ステップとして使用することができる。生成モデルの例には、限定はしないが、確率的自動エンコーダ、変分自動エンコーダ、ガウス混合モデル、隠れマルコフモデル、および制限付きボルツマンマシンが含まれる。本明細書の他の箇所でさらに詳細に記載される生成モデルは、通常、化合物表現、すなわち指紋、および化合物に関連付けられたラベルにわたる同時確率分布を指定する。

一例として、化合物の集合はｘ＝（ｘ１，ｘ２，・・・，ｘＮ）として表される場合があり、ここで、ｘｉは化合物の指紋表現を含む場合があり、Ｎは集合内の化合物の数である。これらの化合物はＮ個のラベルの集合Ｌ＝（ｌ１，ｌ２，・・・，ｌＮ）に関連付けられる場合があり、ここで、ｌｉは、たとえば、化合物の活性、毒性、溶解性、合成の容易性、または、バイアッセイ結果もしくは予測的研究における他の結果などのラベル要素の値を含む場合があるラベルである。生成モデルは、これらの化合物およびそれらの関連ラベルが未知の分布Ｄから生成される、すなわちＤ～（ｘｎ，ｌｎ）であるという仮定のもとに構築される場合がある。生成モデルを訓練することは、訓練データセット内のデータ例を与えられた同時確率分布ｐ（ｘ，ｌ）をモデル化するように、モデルの内部パラメータを調整する訓練方法を利用することができる。生成モデルが訓練された後、それはｌの値に条件付けられたｘの値、すなわちｘ～ｐ（ｘ｜ｌ）を生成するために使用される場合がある。たとえば、指紋およびラベルの訓練セットで訓練された生成モデルは、指定されたラベル値の要件を満たす可能性が高い化合物の表現を生成することができる。

（「自動エンコーダ」と総称される）自動エンコーダおよびそれらの変形形態は、本明細書に記載される方法およびシステムにおいて、構成要素として使用することができる。確率的自動エンコーダおよび変分自動エンコーダなどの自動エンコーダは、生成モデルの例を提供する。様々な実施形態では、自動エンコーダは、制限付きボルツマンマシンなどの無向グラフィカルモデルとは異なる、有向グラフィカルモデルを実装するために使用される場合がある。

様々な実施形態では、本明細書に記載される自動エンコーダは、２つの直列化された構成要素、すなわち、エンコーダおよびデコーダを含む。エンコーダは、潜在的表現がサンプリングされ得る潜在変数として入力データポイントを符号化することができる。デコーダは、潜在的表現を復号して、元の入力の再構成物がサンプリングされ得る確率変数を生成することができる。確率変数は、確率分布、たとえば、正規分布、ラプラス分布、楕円分布、スチューデントｔ分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、もしくはＦ分布、またはそれらの変形形態によってモデル化される場合がある。通常、入力データおよび出力再構成物の次元数は同じであり得る。

様々な実施形態では、本明細書に記載される自動エンコーダは、たとえば、損失関数を最小化することによってそれらの入力を再現するように訓練される。損失関数によって表される再構成誤差および／または正則化誤差を最適化する、たとえば最小化するために、いくつかの訓練アルゴリズムを使用することができる。適切な訓練アルゴリズムの例は、本明細書の他の箇所でさらに詳細に記載され、そうでなければ当技術分野で知られており、制限なしで、確率勾配降下を伴う逆伝播を含む。さらに、ドロップアウト、スパースアーキテクチャ、および雑音除去などの、当技術分野で知られているいくつかの方法は、自動エンコーダが訓練データセットに過剰適合すること、および恒等関数を単に学習することを抑制するために使用される場合がある。本明細書で使用される「最小化する」という用語は、項の絶対値を最小化することを含む場合がある。

訓練された確率的自動エンコーダまたは変分自動エンコーダなどの訓練された自動エンコーダは、モデル化された同時確率分布からサンプリングして潜在的表現を生成すること、およびこの潜在的表現を復号して入力データポイントを再構成することにより、観察可能データ値を生成またはシミュレートするために使用される場合がある。

一実施形態では、自動エンコーダの重みは、最適化方法によって訓練中に調整される。一実施形態では、勾配降下とともに逆伝播を使用して損失関数を最適化する、たとえば最小化することによって重みが調整される。一実施形態では、自動エンコーダの個々の層が事前訓練される場合があり、自動エンコーダ全体の重みが一緒に微調整される。

様々な実施形態では、本明細書に記載されるシステムおよび方法は、限定はしないが、深層生成モデル、確率的自動エンコーダ、変分自動エンコーダ、有向グラフィカルモデル、確率ネットワーク、またはそれらの変形形態を含む、深層ネットワークアーキテクチャを利用することができる。

様々な実施形態では、本明細書に記載される生成モデルは、複数の構成要素を有する確率的自動エンコーダを含む。たとえば、生成モデルは、エンコーダ、デコーダ、サンプリングモジュール、およびオプションの予測子のうちの１つまたは複数を有する場合がある（図２Ａ～図２Ｂ）。エンコーダは、化合物の表現、たとえば指紋を、異なる形態の出力、たとえば潜在変数として符号化するために使用される場合がある。訓練中、エンコーダは、潜在変数Ｚへの入力ｘの非線形マッピングを指定する符号化モデルを学習しなければならない。たとえば、潜在変数ＺがＺ＝μｚ（ｘ）＋σｚ（ｘ）εｚとしてパラメータ化されていて、εｚ＝Ｎ（０，１）である場合、エンコーダは、平均のベクトルおよび標準偏差のベクトルのペアを出力することができる。サンプリングモジュールは、潜在変数Ｚからサンプルを引き出して潜在的表現ｚを生成することができる。訓練中、デコーダは、潜在変数Ｚをｘ上の分布にマッピングする復号モデルを学習することができる、すなわち、デコーダは、サンプリングモジュールがサンプルを引き出して化合物指紋ｘ~を生成することができる確率変数Ｘ~に、潜在的表現およびラベルを変換するために使用される場合がある。潜在変数または確率変数は、パラメータが、それぞれエンコーダまたはデコーダによって出力される正規分布などの、適切な確率分布関数によってモデル化される場合がある。サンプリングモジュールは、正規分布、ラプラス分布、楕円分布、スチューデントｔ分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、Ｆ分布、もしくはそれらの変形形態などの任意の適切な確率分布、または他に当技術分野において知られている適切な確率分布関数からサンプリングすることができる。システムは、通常、入力化合物ｘＤがデコーダによって生成された確率変数によって定義された分布から引き出されたという否定的な可能性を表す再構成誤差、および／または、通常、モデルの複雑さに課されたペナルティを表す正規化誤差を最小化するために訓練される場合がある。理論に縛られることなく、符号化モデルが解決困難であり得る真の事後分布ｐ（Ｚ｜ｘ）を近似しなければならないので、直接学習手法を使用する代わりに、推論モデルが使用される場合がある。変分自動エンコーダは、真の符号化分布ｐ（Ｚ｜ｘ）を近似することを学習する推論モデルｑφ（Ｚ｜ｘ）を使用することができる。

ＶＡＥを訓練するために、データの尤度に対して変分下限が定義される場合がある：
ｌｏｇｐθ（ｘ）＝Ｌ（θ，φ，ｘ）
ここで、φは符号化パラメータを表記し、θは復号パラメータを表記する。この定義から、
Ｌ（θ，φ，ｘ）＝－ＤＫＬ（ｑφ（Ｚ｜ｘ）｜｜ｐθ（Ｚ））＋Ｅｑ＿φ（Ｚ｜ｘ）（ｌｏｇｐθ（ｘ｜Ｚ））
という結果になる。

先行潜在変数Ｚからの近似符号化モデルのカルバック－ライブラー（ＫＬ）発散である最初の右辺（ＲＨＳ）項は、正規化項として働くことができる。２番目のＲＨＳ項は、通常、再構成項と呼ばれる。訓練プロセスは、符号化パラメータφと復号パラメータθの両方に対してＬ（θ，φ，ｘ）を最適化することができる。推論モデル（エンコーダ）ｑφ（Ｚ｜ｘ）は、ニューラルネットワークとしてパラメータ化される場合がある：
ｑφ（Ｚ｜ｘ）＝ｑ（Ｚ；ｇ（ｘ，φ））
ここで、ｇ（ｘ）は、入力ｘを潜在変数Ｚにマッピングする関数であり、Ｚ＝μＺ（ｘ）＋σＺ（ｘ）εＺとしてパラメータ化され、ここで、εＺ＝Ｎ（０，１）である（図５Ａ）。

生成モデル（デコーダ）は、ニューラルネットワークとして同様にパラメータ化される場合がある：
ｐθ（ｘ｜Ｚ）＝ｐ（ｘ；ｆ（Ｚ，θ））
ここで、ｆ（Ｚ）は潜在変数Ｚをｘにわたる分布にマッピングする関数である（図５Ｂ）。デコーダの出力Ｘは、
Ｘ＝μｘ（Ｚ）＋σｘ（Ｚ）εｘ
としてパラメータ化される場合があり、ここで、εｘ＝Ｎ（０，１）である。

推論モデルおよび生成モデルは、勾配上昇を伴う逆伝播を使用して変分下限を最適化することによって同時に訓練される場合がある（図６）。変分下限の最適化は、再構成誤差と正則化誤差の両方を含む損失関数を最小化するように働くことができる。場合によっては、損失関数は、再構成誤差と正則化誤差の和であるか、またはそれを含む。

図２Ａおよび図２Ｂは、ラベル情報が２つ以上のレベルでモデルに提供される生成モデルの使用を例示する。さらに、本発明の様々な実施形態による機械学習モデルは、機械学習モデルの同じ層（図１７Ａ）または異なる層（図１７Ｂ）で化合物表現およびラベルを受け入れるように構成される場合がある。たとえば、化合物表現は、エンコーダの１つまたは複数の層を通して渡される場合があり、各化合物表現に関連付けられたラベルは、エンコーダの後の層で入力される場合がある。

本明細書に記載される本発明のシステムおよび方法は、指紋採取データなどの化合物の表現を利用することができる。データセットの一部に関連付けられたラベル情報が欠落している場合がある。たとえば、いくつかの化合物の場合、生成モデルの訓練において直接使用することができるアッセイデータが利用可能であり得る。他の場合には、ラベル情報が１つまたは複数の化合物に利用できない場合がある。特定の実施形態では、本発明のシステムおよび方法は、化合物にラベルデータを部分的または完全に割り当て、それをその
指紋データと関連付けるための予測子モジュールを含む。半教師付き学習の例示的な実施形態では、生成モデルを訓練するために使用される訓練データセットは、実験的に同定されたラベル情報を有する化合物と、予測子モジュールによって予測されるラベルを有する化合物の両方を含む。（図２Ｂ）。

予測子は、機械学習分類モデルを含む場合がある。いくつかの実施形態では、予測子は、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、またはそれ以上の層を有する深層ニューラルネットワークである。いくつかの実施形態では、予測子はランダムフォレスト分類子である。いくつかの実施形態では、予測子は、化合物表現およびそれらの関連ラベルを含む訓練データセットで訓練される。いくつかの実施形態では、予測子は、生成モデルを訓練するために使用された訓練データセットとは異なる化合物表現およびそれらの関連ラベルの集合で以前に訓練されている場合がある。

最初に１つまたは複数のラベル要素についてラベル付けされていなかった指紋は、予測子による１つまたは複数のラベル要素についてのラベル要素値に関連付けられる場合がある。一実施形態では、訓練データセットのサブセットは、関連付けられたラベルをもたない指紋を含む場合がある。たとえば、調製することが困難であり、かつ／または検査することが困難であり得る化合物は、完全にまたは部分的にラベル付けされていない場合がある。この場合、様々な半教師付き学習方法が使用される場合がある。一実施形態では、ラベル付き指紋の集合は、予測モジュールを訓練するために使用される。一実施形態では、予測子は、教師付き学習で訓練された分類アルゴリズムを実装する。予測子が十分に訓練された後、予測ラベルを生成するために、ラベル付けされていない指紋が予測子に入力される場合がある。指紋およびその予測ラベルは、次いで、生成モデルを訓練するために使用され得る訓練データセットに追加される。

予測子ラベル付き化合物は、第１の生成モデルまたは第２の生成モデルを訓練するために使用される場合がある。予測子は、ラベル情報を欠く指紋特徴ベクトルｘＤにラベル要素値ｙを割り当てるために使用される場合がある。予測子の使用により、本明細書の生成モデルは、予測ラベルを部分的に含む訓練データセットで訓練される場合がある。本明細書の他の箇所でさらに詳細に記載される生成モデルは、訓練されると、指紋などの化合物の生成された表現を作成するために使用される場合がある。化合物の生成された表現は、所望のラベルによって課される様々な条件に基づいて作成される場合がある。

いくつかの実施形態では、生成モデルは、訓練フェーズ中にモデルに提示されなかった新しい化合物の表現を生成するために使用される。いくつかの実施形態では、生成モデルは、訓練データセットに含まれなかった化合物表現を生成するために使用される。このようにして、化合物データベースに含まれない場合があるか、またはこれまで考えられていなかった場合がある新規の化合物が生成される場合がある。実際の化合物を含む訓練セットで訓練されたモデルは、いくつかの有利な特性を有する場合がある。理論に縛られることなく、実際の化合物の例、または機能性化学物質として働く可能性がより高い薬物による訓練は、たとえば、剰余変動を使用して手描きまたはコンピュータで生成された化合物よりも高い確率で同様の特性を所有する場合がある、化合物または化合物表現を生成するようにモデルに教えることができる。

生成された表現に関連付けられた化合物は、化合物データベースに追加され、コンピュータによるスクリーニング法において使用され、かつ／またはアッセイにおいて合成および検査される場合がある。

いくつかの実施形態では、生成モデルは、指定されたシード化合物に類似することを目指す化合物を生成するために使用される。シードに類似する化合物は、シード化合物およびその関連ラベルをエンコーダに入力することによって生成される場合がある。次いで、シード化合物の潜在的表示および所望のラベルがデコーダに入力される。シード化合物の表現を開始点として使用して、デコーダはサンプルが引き出され得る確率変数を生成する。サンプルは、シード化合物といくらかの類似性を有し、かつ／または所望のラベルによって定義される要件を満たす可能性が高いことが予想される化合物の指紋を含む場合がある。

いくつかの実施形態では、生成モデルは、所望のラベル、すなわち所望のラベル要素値の集合を指定することにより、化合物表現を生成するために使用される。モデル化された同時確率分布に基づいて、生成モデルは、表現された化合物が指定されたラベル要素値の要件を満たす可能性が高い、１つまたは複数の化合物表現を生成することができる。様々な実施形態では、本明細書に記載される方法およびシステムは、生成モデルの訓練、化合物の表現の生成、またはその両方に使用される場合がある。生成フェーズは訓練フェーズに続く場合がある。いくつかの実施形態では、第１の関係者が訓練フェーズを実施し、第２の関係者が生成フェーズを実施する。訓練フェーズを実施する関係者は、訓練によって決定されたシステムのパラメータを、第１の関係者の所有下にある別個のコンピュータシステム、または、第２の関係者および／もしくは第２の関係者の所有下にあるコンピュータシステムに提供することにより、訓練された生成モデルの複製を可能にすることができる。したがって、本明細書に記載されるような訓練されたコンピュータシステムは、第２のコンピュータシステムが第１のシステムの出力分布を再現することができるように、本明細書に記載される訓練方法を使用して第１のコンピュータシステムを訓練することによって取得されたパラメータをそれに提供することによって構成された第２のコンピュータシステムを指す場合がある。そのようなパラメータは、有形または無形の形態で第２のコンピュータシステムに転送される場合がある。

訓練フェーズは、生成モデルおよび予測子を同時に訓練するためにラベル付き指紋データを使用することを含む場合がある。

生成フェーズでは、本明細書に記載されるコンピュータシステムの一部、たとえば確率的デコーダが、化合物の生成された表現、たとえば指紋を作成するために使用される場合がある。本明細書に記載されるシステムおよび方法は、生成された表現に関連付けられた、選択されたラベルに対する所望の結果、たとえばバイオアッセイ結果の確率を最大化する方法で、これらの表現を生成することができる。いくつかの実施形態では、生成された表現は、最初に、すなわち、標準正規分布などの既知の分布から潜在的表現を引き出すことによって生成される。いくつかの実施形態では、生成フェーズにおいて比較手法が使用される。たとえば、シード化合物およびその関連ラベルは、潜在的表現がサンプリングされ得る潜在変数を出力するエンコーダに入力される場合がある。次に、潜在的表現および所望のラベルは、デコーダに一緒に入力される場合がある。本明細書に記載される訓練アルゴリズムは、本明細書の他の箇所でさらに詳細に記載されるコンピュータシステムおよび方法内で利用される生成モデルの特定の構成に適合される場合がある。クロスバリデーション、ドロップアウト、または雑音除去などの当技術分野で知られている方法が、訓練プロセスの一部として使用される場合があることを理解されたい。

いくつかの実施形態では、予測子は、ランダムフォレスト、勾配ブーストされた決定木アンサンブル、またはロジスティック回帰などの分類子を使用することができる。

さらに詳細に本明細書の他の箇所に記載される本発明の生成モデルの訓練のために、様々な適切な訓練アルゴリズムを選択することができる。適切なアルゴリズムは、生成モデルのアーキテクチャおよび／または生成モデルが実施することが望まれるタスクに依存する場合がある。たとえば、変分自動エンコーダは、変分推論と確率的勾配上昇の組合せで
変分下限を最適化するように訓練される場合がある。

正規化制約は、様々な方法によって課される場合がある。いくつかの実施形態では、ドロップアウト、雑音除去、またはスパース自動エンコーダなどの当技術分野で知られている方法が使用される場合がある。

＜生成手順＞
様々な実施形態では、本明細書に記載される方法およびシステムは、化合物の表現を生成するために使用される。これらの生成された表現は、モデルを訓練するために使用された訓練データセットの一部ではなかった可能性がある。いくつかの実施形態では、生成された表現に関連付けられた化合物は、それを作成した生成モデルに対して新規であり得る。

生成された表現および／または関連する化合物は、生成された表現および／または関連する化合物を決して提示されなかった生成モデルから作成される場合がある。いくつかの実施形態では、生成モデルは、訓練フェーズ中に生成された表現および／または関連する化合物を提示されなかった。

場合によっては、本明細書に記載される方法およびシステムは、訓練データセットで訓練された生成モデルを作成する際に、化合物の生成された表現を出力するために使用される場合がある。したがって、化合物の化学構造およびそれらの特性などの訓練データセット内の情報は、生成フェーズおよび生成された表現に化合物を知らせることができる。

様々な実施形態では、本明細書に記載される生成モデルは、活性を表示し、所望のラベルで指定された特性を所有する可能性が高い化合物の表現を生成する。たとえば、所望のラベルは、特定の受容体または酵素に対する活性などの、特定のバイオアッセイ検査上の指定された活性を含む場合がある。化合物は、式、構造、電気密度、もしくは他の化学特性などのいくつかの分子記述子、または当技術分野で知られている任意の他の適切な分子記述子によって特徴付けることができる。物理的特性ならびに化合物の線画に関連する記述子が使用される場合がある。たとえば、比較分子場フィールド分析（ＣｏＭＦＡ）から生じるリガンドの電場が使用される場合もある。分子記述子には、限定はしないが、モル屈折率、オクチノール／水分配係数、ｐＫａ、炭素、酸素、もしくはハロゲン原子などの特定の元素の原子数、原子ペア記述子、回転可能結合、芳香族結合、二重結合、もしくは三重結合などの特定のタイプの結合数、親水性および／もしくは疎水性、環の数、各原子上の正の部分電荷の合計、極性、疎水性、親水性、および／もしくは水に接近可能な表面積、生成熱、トポロジー接続指数、トポロジー形状指数、電子トポロジー状態指数、構造フラグメントカウント、表面積、充填密度、ファンデルワールス体積、屈折率、キラリティ、毒性、ウィーナー指数、ランディック分枝指数、および／もしくはカイ指数などのトポロジー指数、３次元表現に基づく記述子などが含まれる場合がある。この情報は、各化合物の指紋として表される場合がある。本明細書に記載される方法およびシステムは、所望のラベル、たとえば特定のバイオアッセイで所望の結果を指定するラベルに関して特定の特性を有することが予想される、指紋などの化合物表現を生成するために、ラベルおよび化合物表現で生成モデルを訓練する。いくつかの実施形態では、生成された表現は、後で、ヒットリード手順においてリード化合物または初期化合物として使用される。

＜候補の生成（初期ケース）＞
初期ケースでは、候補化合物の生成は、所望のラベルｙ~によってのみ制約される。したがって、候補化合物の物理的構造に制限がない場合、初期生成が使用される場合がある。生成された化合物は所望のラベルｙ~によってのみ制限されるので、初期生成は、化合物データベースにまだ存在しない可能性がある新規化合物を生成する可能性がより高い場
合がある。そのような結果は、探索的創薬研究において有用であり得る。

様々な実施形態では、初期生成方法は、サンプリングモジュールおよびデコーダのみを利用して使用される。サンプリングモジュールは、生成モデルを訓練するために使用された確率分布とは異なる場合がある、指定された確率分布からサンプルを引き出すことができる。図３は、サンプリングモジュールが標準正規分布からサンプリングする初期生成の実例を示す。これにより、既知の化合物との類似性をもたない場合がある潜在的表現ｚが生成される。潜在的表現ｚおよび所望のラベルｙ~は、両方ともデコーダに入力される場合がある。これらの入力から、デコーダは、所望のラベルｙ~の要件を満たす可能性が高い分子記述子（たとえば、指紋）の分布にわたって確率変数Ｘ~を生成することができる。次いで、サンプリングモジュールは、この確率変数からサンプリングして、生成された候補化合物用の指紋であり得るｘ~を生成する。

＜候補の生成（比較ケース）＞
様々な実施形態では、本明細書に記載されるシステムおよび方法は、シード化合物を開始点として使用して、化合物の表現、たとえば指紋を生成するために利用される。シード化合物は、特定の実験結果が知られている既知の化合物であってもよく、生成された化合物の構造特性がシード化合物の構造特性とのいくらかの類似性を示すことが予想される場合がある。たとえば、シード化合物は、オフラベル使用のために再利用または検査されている既存の薬物であってもよく、生成された候補化合物が、低い毒性および高い溶解性などのシード化合物の有益な活性のうちのいくつかを保持するが、所望のラベルによって要求されるように、異なるターゲットとの結合などの、他のアッセイでは異なる活性を示すことが望ましい場合がある。シード化合物はまた、所望のラベル結果のサブセットを所有するように物理的に検査された化合物であってもよいが、毒性の低下、溶解性の改善、および／または合成の容易さの改善などの、特定の他のラベル結果における改善が望まれる。したがって、比較生成は、シード化合物と構造的類似性を所有するが、特定のアッセイにおいて所望の活性などの異なるラベル結果を示すことを目指す化合物を生成するために使用される場合がある。

様々な実施形態では、シード化合物の指紋などの表現およびその関連ラベルが、訓練された確率的自動エンコーダまたは変分自動エンコーダなどの生成モデルに入力される。たとえば、シード化合物の指紋およびその関連ラベルがエンコーダに入力されると、エンコーダは潜在変数Ｚを出力することができる。潜在変数Ｚから、サンプリングモジュールは、シード化合物の潜在的表現およびそのラベル情報を作成するためにサンプルを引き出すことができる。この潜在的表現および所望のラベルｙ~は、可能な指紋値の空間にわたって定義された確率変数を生成するためにそれらを復号することができるデコーダに入力される場合がある。サンプリングモジュールは、確率変数からサンプリングして化合物表現を生成することができる。

生成モデルまたはその個々の構成要素は、所望のラベルｙ~、ならびにシード化合物に基づいて生成された潜在的表現を受け入れるように構成される場合がある。シード化合物に関連付けられた元のラベルｙＤ、および所望のラベルｙ~は、様々な程度で異なる場合がある。場合によっては、ｙＤおよびｙ~は、毒性に関してなどの、１つまたは複数の指定された側面に関してのみ異なる場合があるが、他の側面に関しては異ならない場合がある。たとえば、ｙＤおよびｙ~は、第１のバイオアッセイおよび第２のバイオアッセイに関して同じであり得るが、第３のバイオアッセイに関して異なる場合がある。いくつかの実施形態では、シード化合物は、実験的に決定された関連ラベルをもたない場合がある。この場合、シード化合物のラベルｙＤは、予測モジュールによって予測される場合がある。

図４Ａおよび図４Ｂは、シード化合物および関連ラベルに基づいて生成された化合物表現を作成するための例示的な説明を提供する。この実施形態では、シード化合物の所望のラベルｙ~と潜在的表現ｚの両方がデコーダに入力される。この実施形態によれば、デコーダは、平均のベクトルおよび標準偏差のベクトルのペアを出力する。これらのベクトルは、シード化合物ｘ^Ｄに類似するが、所望のラベルｙ~、または場合によっては、所望のラベルｙ~の近似バリアントに関連付けられた化合物が引き出される可能性がある分布をモデル化する確率変数Ｘ~を定義することができる。サンプルは、たとえば指紋の形態で化合物表現ｘ~を生成するために、確率変数Ｘ~から引き出される場合がある。様々な実施形態では、生成ネットワークは、生成された化合物ｘ~が、所望のラベルｙ~において指定された活性および特性の集合を有する可能性が高いように訓練される。

いくつかの実施形態では、生成された表現に対応する化合物は化学的に調製される。調製された化合物は、生成フェーズで使用されたラベル内に明記されているような所望の特性または活性を有することについて検査される場合がある。調製された化合物は、さらなる特性または活性についてさらに検査される場合がある。いくつかの実施形態では、調製された化合物は、臨床使用、たとえば多段階動物および／またはヒト使用試験において検査される場合がある。

＜ラベルのソース＞
訓練データは、ＰｕｂＣｈｅｍ（ｈｔｔｐ：／／ｐｕｂｃｈｅｍ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／）などのデータベースからの化合物および関連ラベルの情報から集められる場合がある。データは、薬物スクリーニングライブラリ、組合せ合成ライブラリなどから取得される場合もある。アッセイに関連するラベル要素は、細胞アッセイおよび生化学アッセイを含む場合があり、場合によっては、複数の関連するアッセイ、たとえば、酵素の異なるファミリのアッセイを含む場合がある。様々な実施形態では、１つまたは複数のラベル要素に関する情報は、化合物データベース、バイオアッセイデータベース、毒性データベース、臨床記録、交差反応性記録、または当技術分野で知られている任意の他の適切なデータベースなどのリソースから取得される場合もある。

＜指紋採取＞
化合物は、本明細書に記載される生成モデルとの関連で使用することができる表現、たとえば、指紋を作成するために前処理される場合がある。場合によっては、化合物の化学式は、縮退なしにその表現から復元される場合がある。他の場合には、１つの表現は２つ以上の化学式にマッピングすることができる。さらに他の場合には、その表現から推論され得る同定可能な化学式は存在しない可能性がある。最も近い隣接物探索は、表現空間において行われる場合がある。同定された隣接物は、生成モデルによって生成された表現を近似することができる化学式につながる可能性がある。

様々な実施形態では、本明細書に記載される方法およびシステムは、生成モデルの入力および／または出力における化合物を表すために指紋を利用する。

様々なタイプの分子記述子は、化合物を指紋として表すために組合せて使用される場合がある。いくつかの実施形態では、分子記述子を含む化合物表現は、様々な機械学習モデルへの入力として使用される。いくつかの実施形態では、化合物の表現は、少なくとも、または少なくとも約５０、１００、１５０、２５０、５００、１０００、２０００、３０００、４０００、５０００、またはそれ以上の分子記述子を含む。いくつかの実施形態では、化合物の表現は、１００００、７５００、５０００、４０００、３０００、２０００、１０００、５００、２５０、１５０、２００、または５０未満の分子記述子を含む。

分子記述子は、すべてのアッセイおよび／またはしきい値の結合において、すべての化
合物にわたって正規化される場合がある。

化合物指紋は、通常、（たとえば、接続表の形態で）化合物の化学構造の情報を含む分子記述子の値の列を指す。したがって、指紋は、化合物の元の化学的性質におけるいくつかの構造的特徴または物理的特性の存在または不在を識別する簡略表現であり得る。

様々な実施形態では、指紋採取は、ハッシュベースまたは辞書ベースの指紋を含む。辞書ベースの指紋は辞書に依存する。辞書は、通常、指紋列内の各ビットが「オン」であるか「オフ」であるかを判定するために使用される一組の構造フラグメントを指す。指紋の各ビットは、そのビットが指紋内で設定されるために主構造内に存在しなければならない１つまたは複数のフラグメントを表すことができる。

いくつかの指紋採取アプリケーションは、「ハッシュコーディング」手法を使用することができる。したがって、分子中に存在するフラグメントは、指紋ビット位置に対して「ハッシュコーディング」される場合がある。ハッシュベースの指紋採取は、分子中に存在するフラグメントのすべてを指紋内で符号化することを可能にすることができる。しかしながら、ハッシュベースの指紋採取は、いくつかの異なるフラグメントが同じビットを設定する原因となり、その結果、あいまいさにつながる可能性がある。

指紋として化合物の表現を生成することは、様々なベンダーから公開されているソフトウェアスイートを使用することによって実現される場合がある。（たとえば、ｗｗｗ．ｔａｌｅｔｅ．ｍｉ．ｉｔ／ｐｒｏｄｕｃｔｓ／ｄｒａｇｏｎ＿ｍｏｌｅｃｕｌａｒ＿ｄｅｓｃｒｉｐｔｏｒ＿ｌｉｓｔ．ｐｄｆ、ｗｗｗ．ｔａｌｅｔｅ．ｍｉ．ｉｔ／ｐｒｏｄｕｃｔｓ／ｄｐｒｏｐｅｒｔｉｅｓ＿ｍｏｌｅｃｕｌａｒ＿ｄｅｓｃｒｉｐｔｏｒｓ．ｈｔｍ、ｗｗｗ．ｍｏｌｅｃｕｌａｒｄｅｓｃｒｉｐｔｏｒｓ．ｅｕ／ｓｏｆｔｗａｒｅｓ／ｓｏｆｔｗａｒｅｓ．ｈｔｍ、ｗｗｗ．ｄａｌｋｅｓｃｉｅｎｔｉｆｉｃ．ｃｏｍ／ｗｒｉｔｉｎｇｓ／ｄｉａｒｙ／ａｒｃｈｉｖｅ／２００８／０６／２６／ｆｉｎｇｅｒｐｒｉｎｔ＿ｂａｃｋｇｒｏｕｎｄ．ｈｔｍｌ、またはｖｅｇａ．ｍａｒｉｏｎｅｇｒｉ．ｉｔ／ｗｏｒｄｐｒｅｓｓ／ｒｅｓｏｕｒｃｅｓ／ｃｈｅｍｉｃａｌ－ｄｅｓｃｒｉｐｔｏｒｓを参照されたい）。

＜方法＞
本発明の重要な利点は、より少ない副作用しかもたない可能性がある薬物を発見する能力である。本明細書に記載される生成モデルは、特定の結果がヒトまたは動物における副作用および／または毒性反応を引き起こす原因となることが知られている特定のアッセイについての化合物活性を訓練データセットに含めることによって訓練される場合がある。したがって、生成モデルは、化合物表現と有益な効果および望まれない効果との間の関係を教えられる場合がある。生成フェーズでは、デコーダに入力される所望のラベルｙ~は、有益な効果および／または望まれない副作用に関連付けられたアッセイで所望の化合物活性を特定することができる。次いで、生成モデルは、有益な効果と毒性／副作用の両方の要件を同時に満たす化合物の表現を生成することができる。

有益な効果および望まれない副作用について所望の結果を同時に満たすことにより、本明細書に記載される方法およびシステムは、創薬プロセスの初期段階においてより効率的な探索を可能にし、それにより、検査薬物の受け入れられない副作用に起因して失敗する臨床試験の数が削減される可能性がある。これにより、創薬プロセスの期間と費用の両方が低減することにつながる可能性がある。

いくつかの実施形態では、本明細書に記載される方法およびシステムは、既に存在する化合物用の新しいターゲットを見出すために使用される。たとえば、本明細書に記載され
る生成ネットワークは、所望のラベルに基づいて化合物用の生成された表現を作成することができ、化合物は別の効果を有することが知られている。したがって、複数のラベル要素で訓練された生成モデルは、異なる効果のための所望のラベルを入力することによって生成フェーズの使用に応答して、第１の効果を有することが知られている化合物用の表現を生成し、第２の効果を効果的に同定することができる。したがって、生成モデルは、既存の化合物用の第２のラベルを同定するために使用される場合がある。臨床試験された化合物を再利用することは、臨床研究中のリスクを低くする可能性があり、さらに、効果的かつ安価に有効性および安全性が実証される可能性があるため、そのように決定された化合物は特に価値がある。

いくつかの実施形態では、本明細書の生成モデルは、非バイナリ方式でラベル要素のタイプについての値を学習するように訓練される場合がある。本明細書の生成モデルは、特定のラベル要素に対する化合物の効果のより高いまたはより低いレベルを認識するように訓練される場合がある。したがって、生成モデルは、所与の化合物についての有効性のレベルおよび／または毒性もしくは副作用のレベルを学習するように訓練される場合がある。

本明細書に記載される方法およびシステムは、モデルに提示されなかった化合物および／またはこれまで存在しなかった化合物を含む、化合物の表現を生成する際に特に強力であるが、それにより、化合物ライブラリが拡大される。さらに、本発明の様々な実施形態はまた、生成モデルの出力が仮想または実験のスクリーニングプロセスのための入力データセットとして使用されることを可能にすることにより、従来の薬物スクリーニングプロセスを容易にする。

様々な実施形態では、生成された表現は、訓練データセット内の化合物との類似性を有する化合物に関する。類似性は様々な側面を含む場合がある。たとえば、生成された化合物は、訓練データセット内の化合物との高度の類似性を有する場合があるが、それが類似する訓練データセット内の化合物よりも化学合成可能および／または化学的に安定である可能性が非常に高い場合がある。さらに、生成された化合物は、訓練データセット内の化合物と類似する場合があるが、それは、訓練データセット内の既存の化合物よりもはるかに高い、所望の効果があり、かつ／または望ましくない効果がない可能性を有する場合がある。

様々な実施形態では、本明細書に記載される方法およびシステムは、化合物またはそれらの表現を、それらの合成の容易性、溶解性、および他の実際的な考慮事項を考慮に入れて、生成する。いくつかの実施形態では、生成モデルは、溶解性または合成機構を含む場合があるラベル要素を使用して訓練される。いくつかの実施形態では、生成モデルは、合成情報または溶解性レベルを含む訓練データを使用して訓練される。これらの因子に関連する所望のラベルは、生成された化合物表現が所望の溶解性または合成の要件に従って挙動する化合物に関連する可能性を高めるために、生成フェーズにおいて使用される場合がある。様々な創薬アプリケーションでは、複数の候補指紋が生成される場合がある。次いで、生成された指紋の集合は、高スループットスクリーニングにおいて使用され得る実際の化合物を合成するために使用することができる。化合物合成およびＨＴＳより前に、生成された指紋が所望のアッセイ結果および／または構造特性を有するかどうかを評価することが有用である。生成された指紋は、（比較生成において）それらの予測結果およびシード化合物とのそれらの類似性に基づいて評価される場合がある。生成された指紋が所望の特性を有する場合、それらは、それらの薬物らしさに基づいてランク付けされる場合がある。

さらなるシステムモジュールをこれらの手順に導入することができる。比較モジュールは、２つの指紋またはアッセイ結果の２つの集合を比較するために使用される場合がある。ランク付けモジュールは、薬物らしさスコアによって指紋の集合のメンバをランク付けするために使用される場合がある。分類子は、薬物らしさスコアを割り当てることにより、化合物指紋を分類するために使用される場合がある。また、順序付けモジュールは、採点された指紋の集合を順序付けするために使用される場合がある。

様々な実施形態では、本発明の方法およびシステムは、生成された化合物の予測結果を評価し、かつ／または生成された化合物をランク付けするために使用される場合がある。様々な実施形態では、生成された指紋の予測されたアッセイ結果は、所望のアッセイ結果と比較される。所望のアッセイ結果と一致する予測結果を有する指紋は、さらなる考慮事項について、たとえば薬物らしさスコアによってランク付けされる場合がある

図７は、本発明の様々な実施形態による、単一ステップの評価およびランク付け手順の実例を描写する。生成された表現ｘ~は、本明細書に記載される様々な方法に従って、たとえば、初期生成または比較生成によって作成される場合がある。生成された表現ｘ~、たとえば、指紋の形態の表現または関連する化合物は、訓練された予測子モジュールに入力される場合がある。（予測子モジュールは、たとえば、ラベル付きでないデータ用の半教師付き学習プロセス中に訓練されている場合がある）。予測子モジュールは、生成された表現ｘ~についてのアッセイ結果の予測された集合ｙ＾を出力することができる。

予測されたアッセイ結果ｙ＾および所望のアッセイ結果ｙ~は、比較モジュールに入力される場合がある（図７）。比較モジュールは、予測結果と所望の結果を比較するように構成される場合がある。予測結果が所望の結果と同じであると比較モジュールが判定した場合、ｘ~はランク付けされていない候補の集合Ｕに追加される場合があり、そうでない場合、ｘ~は拒絶される場合がある。ランク付けされていない集合は、本明細書の他の箇所でさらに詳細に記載されるように、ランク付けモジュールによってランク付けされる場合がある。

様々な実施形態では、本発明の方法およびシステムは、生成された表現、たとえば比較生成を介して生成された指紋を評価するために使用される場合がある。

比較生成では、シードと類似する新規の指紋を生成するために、シード化合物が使用される場合がある。比較生成プロセスに続いて、生成された指紋がシードと十分に類似するかどうかを判定するために、評価ステップが使用される場合がある。この実施形態では、比較モジュールは、２つの指紋、通常、生成された表現およびシード化合物の指紋の対応するパラメータを比較するために使用される場合がある。同一パラメータのしきい値またはしきい値類似性が達成された場合、２つの指紋は十分に類似しているとマークされる可能性がある。

図８は、本発明の様々な実施形態による、生成された指紋およびそれらの予測結果の評価方法の実例を描写する。したがって、生成された表現ｘ~および関連するシード化合物表現ｘＤは、比較モジュールに入力される。比較モジュールは、最初に類似性についてｘ~とｘ^Ｄを比較するように構成される場合がある。ｘ~がｘ^Ｄと十分に類似していると比較モジュールが判定した場合、ｘ~が保持される場合がある。そうでない場合、ｘ~は拒絶される場合がある。

様々な実施形態では、保持された生成された表現ｘ~は、本明細書の他の箇所でさらに詳細に記載されるように、予測子モジュールに入力される場合がある。予測子モジュールは、予測ラベルｙ＾を出力するために使用される場合がある。比較モジュールは、予測ラベルｙ＾を所望のラベルｙ~と比較するために使用される場合がある。（所望のラベルｙ~は、シード化合物表現ｘ^Ｄとの比較生成中に生成された表現を作成するために使用された可能性がある）。生成された表現ｘ~に対して、比較モジュールがｙ＾とｙ~との間の十分な類似性を見出した場合、ｘ~はランク付けされていない候補集合Ｕに追加される場合がある。ランク付けされていない集合Ｕは、ランク付けモジュールによってランク付けされる場合がある。ランク付けモジュールは、生成された表現を含む、ランク付けされた集合Ｒを出力することができる。

本明細書に記載されるシステムおよび方法は、本発明の様々な実施形態において、ランク付けモジュールを利用する。ランク付けモジュールは、各指紋に薬物らしさスコアを割り当て、それらの薬物らしさスコアに従って指紋の集合をランク付けすることを含む、いくつかの機能を有するように構成される場合がある。

化合物の薬物らしさを評価する一般的な既存の方法は、リピンスキのルールオブファイブへの化合物の準拠を確認することである。分配係数の対数（ｌｏｇＰ）およびモル屈折率などのさらなる因子が使用される場合もある。しかしながら、化合物のｌｏｇＰおよび分子量が特定の範囲内にあるかどうかなどの簡単なフィルタリング方法は、合格値または不合格値を割り当てる分類分析のみを可能にすることができる。さらに、場合によっては、標準的な薬剤らしさ特性は、化合物を正確に評価するのに十分な識別力を提供しない場合がある。（たとえば、非常に成功した薬物リピトールおよびシングレアは両方とも、２つ以上のリピンスキの規則に合格しておらず、簡単なフィルタリングプロセスでは拒絶されたであろう。）

いくつかの実施形態では、化合物の望ましいランク付けは、本明細書に記載されるランク付けモジュールによって実現される場合がある。本発明の様々な実施形態によるランク付けモジュールは、標準的な薬物らしさ特性をフィルタリングすることに依存するのではなく、指紋などの化合物表現をそれらの潜在的表現に基づいて評価する。理論に縛られることなく、化合物の指紋の潜在的表現は、標準的な薬物らしさ特性が提供できるよりも正確な化合物の挙動の説明を提供することができる、特徴の高水準抽象化および非線形結合を表す。

図９は、ランク付けモジュールのための訓練方法の例示的な説明を描写する。様々な実施形態では、自動エンコーダは、化合物表現の大きな集合で訓練される。潜在的表現生成器（ＬＲＧ）は、エンコーダと同様の位置に自動エンコーダの最初の部分を形成することができる。ＬＲＧは、化合物の潜在的表現（ＬＲ）を生成するために使用することができる。潜在的表現は分類子に入力される場合がある。分類子は教師付き学習で訓練される場合がある。分類子の訓練データセットは、ラベル付き薬物および非薬物の化合物を含む場合がある。分類子は、化合物の薬物らしさを表す連続スコアを出力するように訓練される場合がある。

図１０は、本発明の様々な実施形態による、ＬＲＧ、分類子、および順序付けモジュールを含むランク付けモジュールの例示的な説明を描写する。化合物表現のランク付けされていない集合のメンバは、潜在的表現生成器（ＬＲＧ）に入力される場合があり、潜在的表現は分類子に入力される場合がある。分類子は、潜在的表現ごとに薬物らしさスコアを提供するように構成される場合がある。化合物表現および／または関連化合物は、たとえば、最高の薬物らしさスコアから最低の薬物らしさスコアまで順序付けされる場合がある。ランク付けモジュールは、化合物表現、たとえば指紋、および／または化合物のランク付けされた集合を出力として提供するために使用される場合がある。

本発明の様々な実施形態では、本明細書に記載されるシステムおよび方法は、初期生成および比較生成を介する新規の化合物空間の探索に関する。様々な実施形態によれば、初期生成および比較生成は、順番に利用される場合がある。本明細書に記載されるシステムおよび方法は、したがって、アッセイ結果の特定の集合を満たす新規化合物、または表現、たとえば指紋を生成するために使用される場合がある。化合物表現のまわりの表現空間内の同様の化合物は、本明細書に記載されるシステムおよび方法を使用して探索される場合がある。たとえば、初期化合物表現は、所望のラベルを用いて、初期生成または比較生成のプロセスを使用して生成される場合があり、１つまたは複数の生成された表現が出力される場合がある。次いで、生成された表現のまわりの化合物空間は、これらの初期表現のまわりで探索される場合がある。様々な実施形態によれば、初期生成および比較生成は、順番に使用される場合がある。

図１１は、初期生成および比較生成を順番に使用することの例示的な説明を描写する。そのような組合せは、所望のラベルに関連付けられた初期化合物のまわりの化合物空間を探索するために使用される場合がある。したがって、所望のアッセイ結果ｙ~に基づいて、指紋ｘ~は初期生成を使用して生成される場合がある。これまで知られていなかった化合物は、比較モジュールの使用により、フィルタを適用することによって優先順位を付けられる場合がある。比較モジュールは、ｘ~を既知の化合物のデータベースと比較することができる。ｘ~が既知の化合物のデータベース内に既に存在すると比較モジュールが判断した場合、ｘ~は拒絶用フラグを立てられる場合がある。ｘ~がこれまで知られていなかった化合物であると比較モジュールが判断した場合、ｘ~は予測子に入力される場合がある。予測子は、ｘ~について予測されたアッセイ結果ｙ＾を生成することができる。

表現ｘ~およびその予測されたアッセイ結果ｙ＾を比較生成のためのシードとして使用することにより、新しい表現ｘ＋が生成される場合がある。予測子は、ｘ＋の予測されたアッセイ結果ｙ＋を生成するために使用される場合がある。比較モジュールは、ｙ＋が所望のアッセイ結果ｙ~と同じまたは類似するかどうかを判定するために使用される場合がある。同一性または十分な類似性が見出されると、ｘ＋は保持のためにマークされる場合がある。保持された表現は、ランク付けされていない候補の集合Ｕに追加される場合がある。任意の所望の数の指紋ｘ＋は、比較生成の繰り返し適用により、ｘ~およびｙ＾の初期シードから生成される場合がある。

候補表現のランク付けされていない集合Ｕは、ランク付けモジュールに入力される場合がある。ランク付けモジュールは、化合物表現および／または関連化合物のランク付けされた集合Ｒを出力することができる。

様々な実施形態では、本明細書に記載されるシステムおよび方法は、特定のアッセイの結果に影響を与え得る化合物特性を同定するために使用される場合がある。理論に縛られることなく、少数の特定の構造特性は、特定のアッセイで化合物の性能を変化させる変態であり得る。様々な実施形態では、本明細書に記載されるシステムおよび方法は、特定のアッセイでの化合物の性能に関連付けられた候補変態を同定するプロセスを提供する。同定された候補変態は、一致分子ペア分析（ＭＭＰＡ）用の開始点として使用される場合がある。

例示的な実施形態では、２つの生成プロセス、たとえば２つの初期生成プロセスが、異なるシードラベルを利用して実行される。一方では、所望のラベルｙ~が陽性シードとして使用される。他方では、反対のラベルｙ*が陰性シードとして使用される。たとえば、ｙ~が単一のバイナリアッセイ結果である場合、陰性シードｙ*は、そのアッセイについての反対の結果であり得る。理論に縛られることなく、単一のアッセイ結果を使用することは、結果として生じる生成された指紋に不必要に大きなばらつきをもたらす可能性がある。ばらつきを低減するために、陽性シードｙ~としてラベル要素のベクトルが使用される場合がある。たとえば、ｙ~がラベル要素値のベクトルで構成される場合、たとえば対象
のアッセイ結果で、ｙ*は１ラベル要素値だけｙ~と異なる場合がある。

したがって、様々な実施形態では、化合物表現の２つの集合ＡおよびＢが、２つの生成プロセスから生成される場合がある。集合Ａは、陽性シードｙ~から生成された化合物を含む場合がある。集合Ｂは、陰性シードｙ*から生成された化合物を含む場合がある。化合物表現の２つの集合は、比較モジュールに入力される場合がある。比較モジュールは、対象のラベルまたはラベル要素における差異の原因となる可能性が最も高い化合物表現パラメータを識別するように構成される場合がある。比較モジュールは、本明細書の他の箇所でさらに詳細に記載される。

いくつかの実施形態では、各々が異なるラベルを使用する２つ以上の初期生成プロセスは、２つの生成プロセスを有する実施形態について上述された方式と同様の方式で、化合物の複数の集合を生成するために使用される場合がある。これらの集合は、異なるラベル値に関連付けられ得る化合物表現において、重要な変態を同定するために分析される場合がある。

様々な実施形態では、本明細書に記載されるシステムおよび方法は、特定の化合物についての所望のラベル要素値に関連する変態、すなわち、特定のラベル要素値の原因となり得る特定の化合物における変態を探索するために使用される場合がある。いくつかの実施形態では、方法は、同じシード化合物表現であるが異なるターゲットラベルまたはラベル要素値を用いて、２つの比較生成プロセスを実行することによって実施される。２つの比較生成プロセスは並行して実行される場合があり、化合物表現の２つの集合が生成される場合がある。比較モジュールは、肯定的な結果で生成された表現と否定的な結果で生成された表現との間の特定の構造的差異を同定するために使用される場合がある（図１３）。

生成された表現は、最初に、シード化合物とのそれらの類似性によって評価される場合がある。それらが十分に類似している場合、予測子モジュールは、表現ごとに予測されたラベルまたはラベル要素値を決定するために使用される場合がある。予測されたラベルまたはラベル要素値は、ターゲットのラベルまたはラベル要素値と比較される場合がある（図１３）。

比較生成プロセスは繰り返し実行される場合がある。結果として生じる候補生成表現は、所望の基数を有する２つの集合ＡおよびＢにグループ化される場合がある。Ａのメンバは、比較モジュールによってＢのメンバと比較される場合がある。比較モジュールは、２つの集合間の均一な構造変態および異なる構造変態を同定することができる。比較モジュールは、後の実施例および本明細書の他の箇所でさらに詳細に説明される。これらの構造変態は、ＭＭＰＡを介するさらなる分析のための開始点として使用することができる。

いくつかの実施形態では、プロセスごとに異なるラベルを使用して表現を生成するために、３つ以上の比較生成プロセスが使用される。２つの生成プロセスを有する実施形態について上述されたように、化合物の複数の集合が生成される場合がある。これらの集合は、異なるラベル値に関連付けられ得る化合物表現において、重要な変態を同定するために分析される場合がある。

様々な実施形態では、本明細書に記載されるシステムおよび方法は、比較モジュールを利用する。比較モジュールは、単一または複数の機能を有するように構成される場合がある。たとえば、比較モジュールは、（１）ラベルの２つのベクトルまたは２つの化合物表現が同様または同一であるかどうかを判定すること、および（２）指定されたラベルまたはラベル要素値における変化の原因となる可能性が最も高いパラメータを識別するために化合物表現の２つの集合を比較することなどの、２つの機能を１つのモジュールに統合することができる。他の実施形態では、比較モジュールは、単一の機能または３つ以上の機能を有する場合がある。

いくつかの実施形態では、比較モジュールは、類似性または同一性についての２つのオブジェクトの比較を実施するように構成される。比較は、類似性または同一性についての簡単な一対比較を含む場合があり、そこでは、アッセイ結果の２つのベクトルまたは２つの指紋などの２つのオブジェクトの対応する要素が比較される。ユーザ指定のしきい値などのしきい値は、２つのオブジェクトが比較に合格するか失敗するかを判定するために使用される場合がある。いくつかの実施形態では、本明細書に記載されるシステムおよび方法は、たとえば、オブジェクトの訓練セットの実行可能なグループ化をもたらすしきい値を決定することにより、しきい値を設定するために使用される場合がある。

いくつかの実施形態では、比較モジュールは、潜在的表現生成器（ＬＲＧ）によって出力された潜在的表現に関する比較を実施するように構成される。ＬＲＧは、指紋などの化合物表現を潜在的表現として符号化するために使用される場合がある。結果として生じる潜在的表現の分布が比較される場合があり、類似性または同一性の判定が行われる場合がある。

いくつかの実施形態では、比較モジュールは、重要な化合物変態の同定のためにオブジェクトの集合を比較するように構成される。たとえば、指紋の２つの集合を比較するとき、重要な化合物変態を同定するために、いくつかの方法が使用される場合がある。

いくつかの実施形態では、比較モジュールは、線形モデルを使用して重要なパラメータを識別する。理論に縛られることなく、パラメータ間の相互作用が、特定のアッセイ結果、毒性、副作用、または、本明細書においてさらに詳細に記載される他のラベル要素、もしくは当技術分野で知られている任意の他の適切なラベル要素における差異などの、ラベルまたはラベル要素値における差異の原因となる可能性に対処する、相互作用項をモデルに追加することができる。

いくつかの実施形態では、比較モジュールは、集団における不平等の尺度としてジニ係数を利用するように構成される。ジニ係数は、オブジェクトのすべての可能なペア間の差の平均を平均サイズで割って計算することにより、オブジェクトの１つ、いくつか、またはすべてのパラメータについて計算される場合がある。理論に縛られることなく、パラメータ用の大きなジニ係数は、集合Ａのメンバと集合Ｂのメンバとの間のそのパラメータにおいて高度の不等を示す傾向がある。様々な実施形態では、最大のジニ係数を有する所望の数のパラメータは、ラベルまたはラベル要素値、たとえばアッセイ結果における変化に関連する可能性が最も高いパラメータとして選択される場合がある選択により、上位１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、またはそれ以上のパラメータが選択され得る。いくつかの実施形態では、選択は、しきい値レベルを超えるジニ係数を有するパラメータ、またはラベルもしくはラベル要素値の変化に関連付けられた上記しきい値の確度を有するパラメータを選択する。

いくつかの実施形態では、ジニ係数計算と並行して分類ツリーが使用される場合がある。最大のジニ係数を有するパラメータは、分類ツリーのルートとなるように選択される場合がある。分類ツリーの残りは、たとえばトップダウン誘導によって学習される場合がある。所望の数の重要なパラメータは、適切なレベルでツリーの挙動を観察することによって識別される場合がある。

指紋の２つの集合の基数が低い場合、ジニ係数は直接計算される場合がある。理論に縛
られることなく、集合Ａおよび集合Ｂの基数が大きくなるにつれて、ジニ係数の直接計算は、組合せ爆発に起因して困難または非現実的になる可能性がある。本明細書に記載されるシステムおよび方法は、たとえばクラスタリング方法を適用することにより、ＡとＢとの間の必要な一対比較の数を減らす方法を利用するように構成される場合がある。したがって、パラメータのジニ係数は、ＡのメンバおよびＢのメンバのクラスタリングから生じるクラスタの重心間の一対比較によって計算される場合がある。

理論に縛られることなく、化合物表現は多数のパラメータを、たとえば数千またはそれ以上の単位で有するので、ＡおよびＢのメンバを直接クラスタリングすることは、次元数のために実現不可能になる可能性がある。数千の次元を有する空間内の集合Ａおよび集合Ｂの表現は、非常に疎であり得る。化合物表現空間において統計的に有意なクラスタリングを実現するために、多数のデータポイントが必要とされる場合がある。本発明のシステムおよび方法は、様々な実施形態では、代替のクラスタリング方法を利用することにより、これらの問題に対処することができる。いくつかの実施形態では、本発明の方法およびシステムは、ＡおよびＢのメンバの潜在的表現を含むベクトルをクラスタリングするために使用される。これらの潜在的表現は、より低い次元であり得る。潜在的表現はＡおよびＢのメンバのパラメータの非線形結合を取り込むことができるので、潜在的表現をクラスタリングすることはさらに有利であり得る。この能力は、場合によっては、化合物の挙動またはその特定の特徴、たとえば特定の化学残留物を説明する優れた能力を、潜在的表現に提供することができる。

様々な実施形態では、本発明のシステムおよび方法は、関連する潜在的表現のクラスタリングを実施することにより、化合物表現をクラスタリングするために使用される。たとえば、本発明のシステムおよび方法は、潜在的表現空間において、ｋ－メドイドクラスタリングを使用してジニ係数を計算するために使用される場合がある

図１４は、ｋ－メドイドクラスタリングを使用する比較モジュールの例示的な説明を描写する。したがって、潜在的表現は、集合Ａおよび集合Ｂのメンバのために生成される場合がある。たとえば、潜在的表現生成器（ＬＲＧ）は、集合ＡおよびＢのメンバを潜在的表現として符号化して、それぞれ、潜在的表現集合ＡＬおよびＢＬを形成するために使用される場合がある。潜在的表現集合のメンバには、ｋ－メドイドクラスタリングなどのクラスタリング方法が適用される場合がある。クラスタリングに続いて、潜在的表現の重心集合ＡＣおよびＢＣを形成するために、クラスタリングされた集合の重心が抽出される場合がある。理論に縛られることなく、ｋ－メドイドクラスタリングなどのいくつかのクラスタリング方法における重心は、元のデータセットの実際のメンバなので、そのようなクラスタリング方法の適用において、集合ＡＣおよびＢＣは、元の集合ＡおよびＢのメンバの潜在的表現を含むことが予想される。ＡＣおよびＢＣのメンバに対応する化合物表現は、指紋の２つの集合ＡＦおよびＢＦを形成するために検索することができる。ＡＦおよびＢＦの基数は、元の集合ＡおよびＢの基数よりも大幅に低くなる可能性がある。集合ＡＦおよびＢＦのメンバは、アッセイ結果などのラベルまたはラベル要素値における変化の原因となり得る化合物変態を識別するために使用される場合がある。

場合によっては、本発明のシステムおよび方法は、潜在的表現空間においてｋ－平均クラスタリングを使用してジニ係数を計算するために使用される場合がある。図１５は、ｋ－平均クラスタリングを使用する比較モジュールの例示的な説明を描写する。したがって、集合ＡおよびＢのメンバは、ｋ－メドイド法の場合にあり得るように、潜在的表現として符号化される場合がある。たとえば、潜在的表現生成器（ＬＲＧ）は、集合ＡおよびＢのメンバを潜在的表現として符号化して、それぞれ、潜在的表現集合ＡＬおよびＢＬを形成するために使用される場合がある。ｋ－平均クラスタリングは、潜在的表現集合のメンバに適用される場合がある。ｋ－平均クラスタリングから生じる重心は、潜在的表現の重
心集合ＡＣおよびＢＣを形成するために抽出される場合がある。理論に縛られることなく、重心集合ＡＣおよびＢＣのメンバは、多くの場合、元の集合ＡおよびＢのいくつかのメンバに対応する符号化された潜在的表現ではない可能性がある。しかしながら、重心集合のメンバは、化合物表現空間において対応するメンバを生成するために復号される場合がある。たとえば、潜在的表現デコーダモジュール（ＬＲＤ）は、重心に対応する化合物表現、たとえば指紋を生成するために使用される場合があり、これらは、それぞれ、集合ＡＦおよびＢＦ内でグループ化される場合がある。

図９は、例示的な実施形態において、化合物表現の大きな集合での自動エンコーダの訓練を描写する。潜在的表現デコーダ（ＬＲＤ）は、自動エンコーダの２番目の部分を、デコーダと同様の位置に形成することができる。すなわち、自動エンコーダの訓練中に、デコーダは、潜在的表現から元の化合物表現を再生成することを学習することができる。

ＡＦおよびＢＦ内の生成された表現は、元の集合ＡおよびＢと比較すると、相対的に基数が低い可能性がある。ＡＦおよびＢＦ内の生成された表現のメンバは、重要な化合物変態を同定するために使用される場合がある。

様々な実施形態では、本明細書に記載されるシステムおよび方法は、異なる組成または長さの入力、たとえば、異なるラベル要素および／または異なる数のラベル要素を有するラベルを扱う。たとえば、訓練中に、訓練セット内の異なる化合物は、異なる長さのラベルを有する場合がある。よく知られている薬物は、新しい化合物よりも多くのアッセイ結果を有する可能性がある。加えて、生成フェーズ中に、所望のラベルｙ~は、モデルを訓練するために使用されるラベルｙ^Ｄよりも短い可能性がある。

様々な実施形態では、確率的マスクを利用するマスキングモジュールなどのマスキングモジュールは、長さおよび／または組成に関して様々なオブジェクト、たとえば、様々なラベルを均一にするために使用される場合がある。場合によっては、ドロップアウトと同様の方法を使用して、確率的自動エンコーダまたは変分自動エンコーダが欠損値に対して堅牢になることができる。

様々な実施形態では、確率的マスクは、訓練より前に訓練ラベルｙ^Ｄのマスクバージョンを生成するために使用される場合がある。たとえば、マスキングモジュールは、様々なラベルを、生成モデルにそれらを入力するより前に、処理するように構成される場合がある。２つのラベルが異なる数のラベル要素値を有する場合、マスキングモジュールは、欠損値であるラベル要素のすべてに０の値を追加するために使用される場合がある。さらに、確率的マスクは、訓練中にラベル要素の値をランダムにゼロにするために使用される場合がある。このように生成モデルを訓練することにより、モデルは、最初にラベル要素の数が異なる可能性がある訓練ラベルおよび所望のラベルを処理することができる可能性がある。

マスキングモジュールの例示的な実施形態は、バイナリ結果を有するアッセイ結果で動作する。アッセイ結果は、非活性の場合は－１、活性の場合は１のラベル要素値として符号化することができる。マスキングモジュールは、訓練データセット内の各ラベル要素値に確率的マスクを加えることができる。マスクに関して、ラベルはｙ^Ｄ＝（ｍ１ｙ１，ｍ２ｙ２，・・・）と書くことができ、ここで、ｙｉはマスクされていないラベル要素であり、ｍｉはｙｉのためのマスクであり、ｍｉは０または１の値を取る。訓練の場合、ｍｉの値はランダムに設定されてもよく、または、それらは対応するラベル要素値が存在しない経験的確率に従って設定されてもよい。

ｍｉｙｉ＝０の場合、逆伝搬内の順方向パスに対して、０の値が次の層のアクティブ化に寄与しない可能性があるため、修正は必要でない場合がある。逆方向パス中に入力値が欠落しているノードにエラーを伝播させることを回避するために、欠損値を有する入力ノードは、逆方向パス中にフラグを立てて切断される場合がある。この訓練方法は、生成モデルが訓練中および生成プロセス中に異なる長さのラベルを処理できるようにすることができる。

＜コンピュータシステム＞
本発明はまた、本明細書の動作を実施するための装置に関する。この装置は、必要な目的のために特別に構築される場合があり、または、コンピュータに記憶されたコンピュータプログラムによって選択的に起動または再構成された汎用コンピュータを含む場合がある。そのようなコンピュータプログラムは、限定はしないが、フロッピーディスク、光ディスク、ＣＤ－ＲＯＭ、および光磁気ディスクを含む任意のタイプのディスク、読取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気カードもしくは光カード、または電子命令を記憶するのに適した、各々がコンピュータシステムバスに結合される任意のタイプの媒体などの、コンピュータ可読記憶媒体に記憶される場合がある。

本明細書に提示された説明は、任意の特定のコンピュータまたは他の装置に本質的に関連していない。本発明の様々な実施形態を実践するために、汎用システムに加えて、より特殊化された装置が構築される場合がある。加えて、本発明は、任意の特定のプログラミング言語を参照して記載されていない。本明細書に記載されたように本発明の教示を実施するために、様々なプログラミング言語が使用され得ることが諒解されよう。機械可読媒体は、機械（たとえば、コンピュータ）によって読取り可能な形態で情報を記憶または送信するための任意の機構を含む。たとえば、機械可読媒体には、読取り専用メモリ（「ＲＯＭ」）、ランダムアクセスメモリ（「ＲＡＭ」）、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイス、電気的、光学的、音響的、または他の形態の伝搬信号（たとえば、搬送波、赤外線信号、デジタル信号など）などが含まれる。

図１６は、本明細書に記載される１つまたは複数の動作を実施することができる例示的なコンピュータシステムのブロック図である。図１６を参照すると、コンピュータシステムは、例示的なクライアントまたはサーバのコンピュータシステムを含むことができる。コンピュータシステムは、情報を通信するための通信機構またはバスと、情報を処理するためにバスと結合されたプロセッサとを含む場合がある。プロセッサは、マイクロプロセッサを含むことができるが、たとえば、Ｐｅｎｔｉｕｍ、ＰｏｗｅｒＰＣ、Ａｌｐｈａなどのマイクロプロセッサに限定されない。システムは、プロセッサによって実行されるべき情報および命令を記憶するためにバスに結合された、ランダムアクセスメモリ（ＲＡＭ）、または（メインメモリと呼ばれる）他のダイナミックストレージデバイスをさらに含む。メインメモリはまた、プロセッサによる命令の実行中に、一時変数または他の中間情報を記憶するために使用される場合がある。様々な実施形態では、本明細書に記載される方法およびシステムは、プロセッサとして１つまたは複数のグラフィカル処理装置（ＧＰＵ）を利用する。ＧＰＵは並行して使用される場合がある。様々な実施形態では、本発明の方法およびシステムは、複数のＧＰＵなどの複数のプロセッサを有する分散コンピューティングアーキテクチャを利用する。

コンピュータシステムはまた、プロセッサ用の静的情報および命令を記憶するためにバスに結合された読取り専用メモリ（ＲＯＭ）および／または他のスタティックストレージデバイスと、磁気ディスクまたは光ディスクおよびその対応するディスクドライブなどのデータストレージデバイスとを含む場合がある。データストレージデバイスは、情報および命令を記憶するためにバスに結合される。いくつかの実施形態では、データストレージデバイスは、離れた場所、たとえばクラウドサーバ内に配置される場合がある。コンピュータシステムはさらに、コンピュータユーザに情報を表示するためにバスに結合された、陰極線管（ＣＲＴ）または液晶ディスプレイ（ＣＤ）などのディスプレイデバイスに結合される場合がある。英数字および他のキーを含む英数字入力デバイスも、プロセッサに情報およびコマンド選択を通信するためにバスに結合される場合がある。さらなるユーザ入力デバイスは、プロセッサに方向情報およびコマンド選択を通信するために、かつディスプレイ上のカーソル移動を制御するためにバスに結合された、マウス、トラックボール、トラックパッド、スタイラス、またはカーソル方向キーなどのカーソルコントローラである。バスに結合される場合がある別のデバイスは、紙、フィルム、または同様のタイプの媒体などの媒体上に命令、データ、または他の情報を印刷するために使用され得るハードコピーデバイスである。その上、スピーカおよび／またはマイクロホンなどの音声記録再生デバイスは、場合によっては、コンピュータシステムとオーディオインターフェースするためにバスに結合される場合がある。バスに結合される場合がある別のデバイスは、電話またはハンドヘルドパームデバイスへの通信のための有線／ワイヤレス通信能力である。

システムおよび関連ハードウェアの構成要素のうちのいずれかまたはすべてが本発明において使用される場合があることに留意されたい。しかしながら、コンピュータシステムの他の構成は、デバイスのいくつかまたはすべてを含む場合があることが諒解されよう。

＜訓練中のエンコーダ向けの入力データ＞
一例では、データは、分子記述子の特徴ベクトルを含む指紋などの化合物表現（ｘ^Ｄ）、および表現された化合物に関連付けられたラベル（ｙ^Ｄ）を含むペアとしてエンコーダに提供される。エンコーダに入力されるペアは、IE = (xi^Ｄ, yi^Ｄ) として記述される場合があり、xi^Ｄは次元数dim_xi^Ｄを有する実数値ベクトルであり、yi^Ｄは対応するxi^Ｄについてのラベルデータを表記する。xi^Ｄの次元数dim_xi^Ｄは、訓練データセット全体にわたって固定される場合がある。ｙ^Ｄの要素は、場合によっては任意の次元を有するスカラーまたはベクトルであり得る。ｙ^Ｄ内のラベル要素値は、連続またはバイナリであり得る。

この例における説明によれば、次元１０を有するｘ^Ｄ、および単一のラベル要素値を含むｙ^Ｄの場合、入力データの例は以下のようであり得る：
ｘ^Ｄ＝（１．２，－０．３，１．５，４．３，－２．９，１．３，－１．５，２．３，１０．２，１．１）、
ｙ^Ｄ＝３、
エンコーダへの入力は
ＩＥ＝（（１．２，－０．３，１．５，４．３，－２．９，１．３，－１．５，２．３，１０．２，１．１），３）
である。

＜訓練中のエンコーダの出力＞
エンコーダ用の例示的な出力構造が記載される。エンコーダに入力される所与のIE = (xi^Ｄ, yi^Ｄ) に対して、エンコーダは、平均の実数値ベクトルμＥ，ｉ、および標準偏差の実数値ベクトルσＥ，ｉのペアを出力し、ＯＥ＝（μＥ，ｉ，σＥ，ｉ）＝（（μＥ，ｉ，１，・・・，μＥ，ｉ，ｄ），（σＥ，ｉ，１，・・・，σＥ，ｉ，ｄ））として表される。ベクトルμＥおよびσＥの次元はこの例では同じである。しかしながら、ベクトルμＥおよびσＥの次元は、dim_xi^Ｄ、または、dim_xi^Ｄ + dim_yi^Ｄとは異なる場合がある。ＯＥは、決定論的な方法でエンコーダによって提供される。所与のＩＥおよびエンコーダのパラメータの集合に対して、単一のＯＥペアが提供される。４の次元数の場合、エンコーダの例示的な出力は、μＥ＝（１．２，－０．０２，１０．５，０．２）およびσＥ＝（０．４，１．０，０．３，０．３）によって示される。

＜訓練プロセス中の潜在変数Ｚの作成＞
この例では、エンコーダによって出力される平均および標準偏差は、潜在変数Ｚ＝（Ｎ（μＥ，ｉ，１，σＥ，ｉ，１），・・・，Ｎ（μＥ，ｉ，ｄ，σＥ，ｉ，ｄ））を定義し、μＥ，ｉおよびσＥ，ｉはエンコーダによって出力されたベクトルであり、Ｎは正規分布を表記する。たとえば、エンコーダの出力がμＥ＝（１．２，－０．０２，１０．５，０．２）およびσＥ＝（０．４，１．０，０．３，０．３）を含む場合、サンプリングモジュールは、潜在的な確率変数をＺ＝（Ｎ（１．２，０．４），Ｎ（－０．０２，１．０），Ｎ（１０．５，０．３），Ｎ（０．２，０．３））として定義することができる。

＜訓練プロセス中のサンプリングモジュールによる潜在的表現の作成＞
例示的なサンプリングモジュールは、潜在変数Ｚおよび確率変数Ｘ~によって定義されるものなどの、一確率分布からの一サンプル、または確率分布の集合からの複数のサンプルを引き出す。この例では、サンプリングモジュールは、潜在変数Ｚと同じ次元を有する潜在的表現ｚを生成するために、潜在変数Ｚからサンプルを引き出すことができる。この例では、潜在変数Ｚから単一の潜在的表現ｚが引き出される。Ｚ＝（Ｎ（１．２，０．４），Ｎ（－０．０２，１．０），Ｎ（１０．５，０．３），Ｎ（０．２，０．３）に対して、例示的な潜在的表現ベクトルｚは、ｚ＝（０．９，－０．１，１０．１，０．１）である。必要に応じて、サンプリングモジュールは、単一の潜在変数Ｚから複数の潜在的表現ｚを引き出すことができる。

＜訓練中のデコーダへの入力（ＩＤ）＞
この例では、デコーダは、順序付きペア（ｚ、ｙ^Ｄ）を含む入力ＩＤを受け取り、ｚは潜在的な確率変数Ｚからサンプリングされた潜在的表現であり、ｙ^Ｄはラベルである。この例では、ラベルｙ^Ｄは、入力特徴ベクトルｘ^Ｄに関連付けられたラベルと同じである。したがって、ラベルｙ^Ｄは訓練プロセス内で２回入力され、１回はエンコーダに、１回はデコーダに入力される。たとえば、ＩＤは、ペア（（０．９，－０．１，１０．１，０．１），３）を含む場合がある。

エンコーダとデコーダの両方の入力層は、指紋とその関連ラベルの両方を受け取ることができるように構成される。比較生成中、この構成は、２つの異なる入力ラベルの使用を容易にする：元のラベルｙ^Ｄはエンコーダに入力され、所望のラベルｙ~はデコーダに入力される。

＜訓練中のデコーダの出力＞
この例では、デコーダは、平均の実数値ベクトルμ_Ｄ，ｉおよび標準偏差の実数値ベクトルσ_Ｄ，ｉのペアを出力として生成する：ＯＤ＝（μ_Ｄ，ｉ，σ_Ｄ，ｉ）＝（（μ_Ｄ，ｉ，１・・・，μ_{Ｄ，ｉ，ｄ}），（σ_{Ｄ，ｉ，１}，・・・，σ_{Ｄ，ｉ，ｄ}））。この例では、ベクトルμ_Ｄおよびσ_Ｄの次元は、エンコーダに入力される特徴ベクトルｘ^Ｄの次元と同じである。たとえば、dim_xi^D ＝１０の場合、デコーダは、元の入力ｘ^Ｄ＝（１．２，－０．３，１．５，４．３，－２．９，１．３，－１．５，２．３，１０．２，１．１）に対して、μ_Ｄ＝（１．１，－０．２，１．１，３．９，－３．５，０．１，－２．０，１．９，９．３，１．０）およびσ_Ｄ＝（０．１，０．３，０．２，０．５，１．０，０．５，１．０，０．２，０．１，１．０）を出力することができる。

デコーダの出力から、潜在変数Ｘ~は、Ｘ~＝（Ｎ（μ_{Ｄ，ｉ，１}，σ_{Ｄ，ｉ，１}），・・・，Ｎ（μ _{Ｄ，ｉ，ｄ}，σ_{Ｄ，ｉ，ｄ}））であるように定義することができ、μ _Ｄ，ｉおよびσ_Ｄ，ｉはデコーダによって出力されたベクトルである。たとえば、μ _Ｄ＝（１．１，－０．２，１．１，３．９，－３．５，０．１，－２．０，１．９，９．３，１．０）およびσ_Ｄ＝（０．１，０．３，０．２，０．５，１．０，０．５，１．０，０．２，０．１，１．０）である場合、Ｘ~＝（Ｎ（１．１，０．１），Ｎ（－０．２，０．３），・・・，Ｎ（１．０，１．０））である。次いで、サンプリングモジュールは、Ｘ~からサンプルｘを引き出すことができ、ｘは化合物の生成された表現である。

＜初期生成手順における標準正規分布からの潜在的表現ｚのサンプリング＞
この例は初期生成プロセスに関する。この例では、潜在的表現ｚは、サンプリングモジュールによって標準正規分布Ｎ（０，１）から引き出される。単一の所望のラベルｙ~が使用される。モデルによって生成されるべき化合物表現ごとに、別個の潜在的表現ｚがＮ（０，１）から引き出される。たとえば、ユーザが２つの化合物表現を生成することを望む場合、２つの別個の潜在的表現_ｚ１および_ｚ２がＮ（０，１）から引き出される。ｚの次元数が４である場合、サンプリングモジュールは、一例では、サンプル_ｚ１＝（０．２，－０．１，０．５，０．１）および_ｚ２＝（０．３，０．１，０，－０．３）を引き出すことができる。

＜初期生成プロセスにおけるデコーダへの入力＞
この例では、サンプリングモジュールによってＮから以前にサンプリングされた潜在的表現ｚ、ならびに所望のラベルｙ~がデコーダに入力される。ラベルｙ~は、生成された指紋によって表される化合物の所望の特性および活性に従って、ユーザによって指定される場合がある。所望のラベルｙ~は、モデルを訓練するために使用されたラベル要素のサブセット、すなわちラベルｙ^Ｄに含まれるラベル要素についての所望の値を含まなければならない。ｙ~がｙ^Ｄよりも少ないラベル要素を有する場合、マスキングモジュールは、デコーダにｙ~が入力されるより前に、ｙ~の欠損ラベル要素に０の値を与えることができる。所望のラベルｙ~は、ｙ^Ｄ内の対応するラベル要素の値とは異なるラベル要素の１つまたは複数の値を含む場合がある。単一の所望のラベルｙ~を用いて複数のｘ~を生成するために、Ｎから複数のサンプルｚを引き出すことが可能である。ｚおよび異なる所望のラベルｙ~から構成されるいくつかのペアをデコーダに入力し、２つ以上の確率変数Ｘ~を生成することにより、単一の潜在的表現ｚから２つ以上の化合物表現を生成することも可能である。

＜初期生成手順におけるデコーダの出力＞
この例では、デコーダは、平均の実数値ベクトルμ _Ｄ~および標準偏差の実数値ベクトルσ_Ｄ~のペア（μ _Ｄ~、σ_Ｄ~）を出力する。この例では、ベクトルμ _Ｄ~およびσ_Ｄ~の次元は、モデルの学習に使用された指紋である特徴ベクトルｘ^Ｄの次元と同じである。たとえば、ｘ^Ｄの次元が１０である場合、デコーダは、一例では、μ _Ｄ~＝（１．１，－０．２，１．１，３．９，－３．５，０．１，－２．０，１．９，９．３，１．０）およびσ_Ｄ~＝（０．１，０．３，０．２，０．５，１．０，０．５，１．０，０．２，０．１，１．０）を出力する。

＜初期生成手順における確率変数Ｘ~の構築＞
デコーダの出力から、確率変得Ｘ~は、Ｘ~＝（Ｎ（μ _{Ｄ、ｉ、１}，σ_{Ｄ、ｉ、１}），・・・，Ｎ（μ _{Ｄ、ｉ、ｄ}，σ_{Ｄ，ｉ，ｄ}））であるように定義することができ、μ_Ｄ，ｉおよびσ_Ｄ，ｉはデコーダによって出力されたベクトルである。たとえば、μ_Ｄ＝（１．１，－０．２，１．１，３．９，－３．５，０．１，－２．０，１．９，９．３，１．０）およびσ_Ｄ＝（０．１，０．３，０．２，０．５，１．０，０．５，１．０，０．２，０．１，１．０）である場合、Ｘ~＝（Ｎ（１．１，０．１），Ｎ（－０．２，０．３），・・・，Ｎ（１．０，１．０））である。

＜初期生成プロセスにおいて確率変数Ｘ~からサンプリングして表現ｘ~を生成する＞
化合物表現ｘ~を生成するために、サンプリングモジュールは、確率変数Ｘ~からサンプルを引き出す。その次元がモデルを訓練するために使用された指紋特徴ベクトルの次元と同じであるようにＸ~を定義すると、表現ｘ~の次元が指紋特徴ベクトルの次元と同じになることが可能になり得る。必要に応じて、確率変数Ｘ~から複数の化合物表現がサンプリングされる場合がある。たとえば、確率変数Ｘ~＝（Ｎ（１．１，０．１），Ｎ（－０．２，０．３），・・・，Ｎ（１．０，１．０））である場合、Ｘ~から４つのサンプルを引き出すことができ、一例では、４つの表現_ｘ１~＝（１．０，－０．１，・・・，３．０）、_ｘ２~＝（１．２，－０．５，・・・，１．８）、_ｘ３~＝（１．０，－０．１，・・・，０．５）、および_ｘ４~＝（０．９，０．３，・・・，１．１）がもたらされる。

＜比較生成手順におけるエンコーダの入力および出力＞
この例では、エンコーダへの入力およびエンコーダからの出力は、エンコーダおよびデコーダの訓練中に実施例１および２において使用されたものと同じタイプである。たとえば：
ｘ^Ｄ＝（１．２，－０．３，１．５，４．３，－２．９，１．３，－１．５，２．３，１０．２，１．１）、
ｙ^Ｄ＝３、
μ_Ｅ＝（１．２，－０．０２，１０．５，０．２）、および
σ_Ｅ＝（０．４，１．０，０．３，０．３）
である。

しかしながら、実施例１および２では、エンコーダへの入力およびエンコーダからの出力は、生成モデルを訓練するために使用されているが、この例では、それらは、新規の化合物表現を生成するプロセスにおいて使用される。

＜比較生成手順における潜在変数Ｚの構築および潜在敵表現ｚのサンプリング＞
この例では、上記の実施例３および４において使用されたように、潜在的表現ｚを作成するために、潜在変数Ｚを定義し、Ｚからサンプリングするために同じ手順が使用される。

たとえば：
μ_Ｅ＝（１．２，－０．０２，１０．５，０．２）、
σ_Ｅ＝（０．４，１．０，０．３，０．３）、
Ｚ＝（Ｎ（１．２，０．４），Ｎ（－０．０２，１．０），Ｎ（１０．５，０．３），Ｎ（０．２，０．３））、および
ｚ＝（０．９，－０．１，１０．１，０．１）
である。

しかしながら、実施例３および４では、潜在変数Ｚおよび潜在的表現ｚは、生成モデルを訓練するために使用されたが、この例では、それらは、化合物表現を生成するプロセスにおいて使用される。必要に応じて、潜在変数Ｚから複数の潜在的表現ｚが引き出される場合がある。

＜比較生成手順におけるデコーダの入力および出力＞
この例では、デコーダへの入力とデコーダの出力の両方を構築するために、実施例８および９において使用されたものと同じ手順が使用される。たとえば：
ＩＤ＝（ｚ，ｙ~）、
ＯＤ＝（μ^Ｄ~，σ^Ｄ~）、
μＤ~＝（１．１，－０．２，１．１，３．９，－３．５，０．１，－２．０，１．９，９．３，１．０）、および
σ_Ｄ~＝（０．１，０．３，０．２，０．５，１．０，０．５，１．０，０．２，０．１，１．０）
である。

実施例９、１０、および１１と同様に、デコーダの出力は化合物表現を生成するために使用される。しかしながら、実施例８では、潜在的表現ｚは標準正規分布から引き出されているが、この例では、それは潜在変数Ｚから引き出され、潜在変数Ｚは、シード化合物ｘ^Ｄおよびその関連ラベルｙＤに対する潜在変数である。サンプリングモジュールは、潜在変数Ｚからサンプルを引き出して潜在的表現ｚを生成する。１つまたは複数の潜在的表現ｚは、デコーダからの複数の出力を生成するために、潜在変数Ｚから引き出され、様々な組合せで１つまたは複数の所望のラベルｙ~とペアにされる場合がある。

＜比較生成手順における確率変数Ｘ~の構築および化合物表現ｘ~のサンプリング＞
この例では、確率変数Ｘ~を定義し、Ｘ~からサンプリングすることによって化合物表現ｘ~を生成するために、実施例１０および１１において使用されたものと同じ手順が使用される。たとえば：
Ｘ~＝（Ｎ（１．１，０．１），Ｎ（－０．２，０．３），・・・，Ｎ（１．０，１．０））、
ｘ１~＝（１．０，－０．１，・・・，３．０）、
ｘ２~＝（１．２，－０．５，・・・，１．８）、
ｘ３~＝（１．０，－０．１，・・・，０．５）、および
ｘ４~＝（０．９，０．３，・・・，１．１）
である。

実施例１１に記載された初期生成プロセスでは、確率変数Ｘ~は本質的にランダムな潜在的表現および所望のラベルｙ~のみから作成される。したがって、生成された化合物表現ｘ~によって同定される化合物は、所望のラベルｙ~の要件に適合する活性および特性を有することのみが予想される。しかしながら、本実施例１５では、確率変数Ｘ~、したがって化合物表現ｘ~は、指定されたシード化合物ｘ^Ｄとその関連ラベルｙ^Ｄの両方から作成される。したがって、本実施例の比較生成手順では、生成された化合物表示ｘ~は、シード化合物ｘ^Ｄのいくつかの顕著な側面を保持することと、所望のラベルｙ~の要件に適合する活性および特性を有することの両方を予想することができる。

＜生成された化合物の予測結果の評価およびそれに続くランク付け＞
この例では、生成された指紋の予測されたアッセイ結果が、所望のアッセイ結果と比較される。次いで、所望のアッセイ結果と一致する予測結果を有する指紋が、薬物らしさスコアによってランク付けされる。

たとえば初期生成または比較生成を介して指紋ｘ~の生成後、ｘ~は訓練された予測子モジュールに入力される。（予測子モジュールは、たとえば、ラベル付きでないデータ用の半教師付き学習プロセス中に訓練されている場合がある）。予測子モジュールは、生成された指紋ｘ~についてのアッセイ結果の予測された集合ｙ＾を出力する。

予測されたアッセイ結果ｙ＾および所望のアッセイ結果ｙ~が比較モジュールに入力される（図７）。予測結果が所望の結果と同じである場合、ｘ~はランク付けされていない候補の集合Ｕに追加され、そうでない場合、ｘ~は拒絶される。次いで、ランク付けされていない集合は、たとえば、実施例１８に記載されるように、ランク付けモジュールによってランク付けされる。

＜比較生成を介して生成された指紋の評価＞
この例では、比較生成プロセスを使用して生成された指紋は、シード化合物との類似性、および所望のラベルと類似するラベルを有することについて評価される。上記で例示された比較生成手順では、シードに類似する新規の指紋を生成するためにシード化合物が使用される。指紋が生成されると、生成された指紋がシードと十分に類似しているかどうかを判定するために、さらなる評価ステップが使用される。比較モジュールは、２つの指紋の対応するパラメータを比較するために使用される。同一パラメータのしきい値またはしきい値類似性が達成された場合、２つの指紋は十分に類似しているとマークされる。

指紋ｘ~の生成後、シード化合物であるｘ~とｘ^Ｄの両方が比較モジュールに入力される。ｘ~がｘ^Ｄと十分に類似している場合、ｘ~は保持され、そうでない場合、ｘ~は拒絶される。保持される場合、ｘ~は予測子モジュールに入力され、予測ラベルｙ＾は予測モジュールによって提供される。比較モジュールは、予測ラベルｙ＾を所望のラベルｙ~と比較するために使用される。予測ラベルｙ＾が所望のラベルｙ~と十分に類似しているかまたは同じである場合、ｘ~がランク付けされていない候補集合Ｕに追加される。次いで、ランク付けされた集合Ｒを出力するために、指紋のランク付けされていない集合がランク付けモジュールによってランク付けされる。

＜ランク付けモジュールの訓練およびランク付けモジュールアプリケーション＞
この例では、ランク付けモジュールは、生成された表現ｘ~をランク付けするように訓練される。生成された表現は、ランク付けモジュールに入るより前に、比較モジュールなどの他のモジュールによってフィルタリングされている場合がある。この例では、ランク付けモジュールは２つの機能を有する：（１）各指紋に薬物らしさスコアを割り当てること、および（２）それらの薬物らしさスコアに従って指紋の集合をランク付けすること。

ランク付けモジュールは、指紋の潜在的表現に基づいて指紋を評価するように構成される。

最初に、自動エンコーダは、化合物指紋の大きな集合で訓練される。訓練の後、化合物の潜在的表現を生成するために、自動エンコーダの最初の半分であるＬＲＧが使用される（図９）。潜在的表現は分類子に入力され、分類子は教師付き学習で訓練される。訓練データセットは、すべてがクラスラベルＤｒｕｇを有する約２，５００のＦＤＡ認可薬物と、すべてがラベルＮｏｔＤｒｕｇを有する他の非薬物化合物の大きな集合とを含む。分類子は、化合物の薬物らしさを表す連続スコアを出力する。ランク付けモジュールを適用するために、生成された化合物指紋のランク付けされていない集合のメンバが潜在的表現生成器（ＬＲＧ）に入力され、次いで、生成された潜在的表現が分類子に入力される。各化合物は、分類子から薬物らしさスコアを受け取る。次いで、化合物は、最高スコアから最低スコアまで順序付けされる。最終的な出力は、候補化合物指紋のランク付けされた集
合である。

＜新規の化合物空間を探索するための初期生成および比較生成の逐次適用＞
アッセイ結果の特定の集合の場合、それらの結果を満たす新規化合物を生成し、次いで、最初の化合物のまわりの空間において同様の化合物を探索することが望ましい場合がある。この適用の場合、初期生成および比較生成が順番に使用される場合がある。

所望のアッセイ結果ｙ~に基づいて、初期生成を使用して指紋ｘ~が生成される（図１１）。これまで知られていなかった化合物を同定するために、比較モジュールは、ｘ~を既知の化合物のデータベースと比較する。ｘ~が既にデータベース内に存在する場合、ｘ~は拒絶される。ｘ~がこれまで知られていなかった化合物である場合、ｘ~は予測されたアッセイ結果ｙ＾を生成するために予測子に入力される。

次いで、指紋ｘ~およびその予測されたアッセイ結果ｙ＾が、比較生成のためのシードとして使用される。新しい指紋ｘ＋が、その予測されたアッセイ結果ｙ＋とともに、生成される。次いで、比較モジュールは、ｙ＋が所望のアッセイ結果ｙ~と同じであるかどうかを判定する。そうである場合、ｘ＋は保持され、ランク付けされていない候補の集合に追加される。任意の所望の数の指紋ｘ＋は、比較生成の繰り返し適用により、ｘ~およびｙ＾の初期シードから生成される場合がある。

所望の数の候補が生成され、ランク付けされていない候補指紋の集合Ｕとして収集された後、ランク付けされていない集合はランク付けモジュールに入力され、ランク付けモジュールはランク付けされた集合Ｒを出力する。

＜ＱＳＡＲ分析－パートＩ：特定のアッセイの結果に影響を与える可能性がある化合物特性の同定＞
この方法は、特定のアッセイ結果の原因となり得る化合物特性を同定するために使用される。この方法は、候補変態、すなわち特定のアッセイで化合物の性能を変化させる特定の構造特性を同定する方法を提供する。これらは、次いで、一致分子ペア分析（ＭＭＰＡ）のための開始点として使用される場合がある。

この例では、２つの初期生成プロセスが並行して実行される。一方では、所望のアッセイ結果ｙ~が陽性シードとして使用される。他方では、反対のアッセイ結果ｙ*が陰性シードとして使用される。ｙ~が単一のバイナリアッセイ結果である場合、陰性シードｙ*はそのアッセイの反対の結果である。結果として生じる生成された指紋におけるばらつきを低減するために、アッセイ結果のベクトルが陽性シードｙ~として使用される場合がある。この場合、対象のアッセイの１つのみの結果だけ、ｙ*はｙ~と異なる。

化合物指紋の２つの集合ＡおよびＢが生成される。Ａは陽性シードｙ~から生成された化合物を含み、Ｂは陰性シードｙ*から生成された化合物を含む。集合ごとに所望の数のメンバを生成した後、２つの集合は比較モジュールに入力される。比較モジュールは、対象のアッセイ結果における差異の原因となる可能性が最も高い指紋パラメータを識別する。例示的な比較モジュールは、後の例および本明細書の他の箇所でさらに詳細に記載される。

＜ＱＳＡＲ分析－パートＩＩ：特定の化合物についての所望の結果に関する変態の探索＞
この例では、特定のアッセイ結果の原因となり得る特定の化合物における変態を探索するための方法が記載される。この方法では、指紋の２つの集合を生成するために、２つの比較生成プロセスが並行して繰り返し実行される（図１３）。これらのプロセスは同じシード化合物を使用するが、各々ターゲットアッセイ結果の異なる集合、たとえば、ｙ~およびｙ*が単一のアッセイ結果だけ異なる、陽性ターゲットｙ~および陰性ターゲットｙ*を使用する。比較モジュールは、陽性ターゲットで生成された指紋と陰性ターゲットで生成された指紋との間の特定の構造的差異を識別するために使用される。

生成された指紋は、最初にシード化合物とのそれらの類似性によって評価される。それらがシード化合物と十分に類似することを比較モジュールが見出した場合、生成された指紋ごとに予測されたアッセイ結果を提供するために予測子が使用される。予測されたアッセイ結果は、それぞれ、対応するターゲットアッセイ結果ｙ~およびｙ*との類似性または同一性についてチェックされる。

比較生成プロセスは、所望の基数を有する候補指紋の２つの集合ＡおよびＢを生成するために必要に応じた回数実行され、Ａは陽性ターゲットｙ~で作成された生成された生成指紋を含み、Ｂは陰性ターゲットｙ*で作成された生成された指紋を含む。Ａのメンバは、比較モジュールを使用してＢのメンバと比較される。比較モジュールは、２つの集合内の均一な構造変態および異なる構造変態を同定するように構成される。次いで、これらの構造変態は、ＭＭＰＡを介するさらなる分析のための開始点として使用することができる。

＜比較モジュール＞
この例は、（１）２つのオブジェクト、たとえばアッセイ結果の２つのベクトルまたは２つの指紋が同様または同一であるかどうかを判定すること、および（２）指紋の２つの集合を比較することによって特定のアッセイ結果における変化の原因となる可能性が最も高い指紋パラメータを識別することの２つの機能を有する比較モジュールを記載する。

Ａ．類似性に関する２つのオブジェクトの比較
類似性に関する簡単な一対比較では、２つのオブジェクトの対応する要素、たとえば、アッセイ結果の２つのベクトルまたは２つの指紋のいずれかが比較される。２つのオブジェクトが比較に合格するか失敗するかを判定するために、ユーザ指定のしきい値が設定される。

２つの指紋を比較するための第２の方法は、潜在的表現生成器（ＬＲＧ）を使用して、潜在的表現として指紋を符号化する。次いで、潜在的表現の対応する分布が比較され、類似性の判定が行われる。

Ｂ．重要な化合物変態の同定のためのオブジェクトの集合の比較
指紋の２つの集合を比較するとき、化合物の重要な変態を同定するために、いくつかの方法が使用される。１つの簡単な方法は、線形モデルを使用して重要なパラメータを識別することである。たとえば、パラメータ間の相互作用がアッセイ結果における変化の原因となった可能性に対処するために、相互作用項をモデルに加えることができる。

第２の方法はジニ係数の使用を含む。ジニ係数は、指紋のすべての可能なペア間の差の平均を平均サイズで割って計算することにより、パラメータごとに計算される。最大のジニ係数を有するパラメータが、アッセイ結果における変化に関連する可能性が最も高いパラメータとして選択される。

この方法の拡張では、分類ツリーが使用される。最大のジニ係数を有するパラメータは、分類ツリーのルートとなるように選択される。分類ツリーの残りは、トップダウン誘導によって学習される。次いで、適切なレベルでツリーの挙動を観察することにより、所望の数の重要なパラメータが識別される。

指紋の２つの集合の基数が低い場合、ジニ係数は直接計算される場合がある。場合によっては、ＡとＢとの間の必要な一対比較の数を減らすためにクラスタリング方法が適用される。次いで、ＡおよびＢの重心間の一対比較によってパラメータのジニ係数が計算される。

＜ｋ－メドイドクラスタリングを使用するジニ係数の計算＞
この例では、比較モジュールは、集合ＡおよびＢの潜在的表現のクラスタを利用するように構成される。最初に、集合ＡおよびＢのメンバを潜在的表現として符号化して、それぞれ、集合ＡＬおよびＢＬを形成するために、潜在的表現生成器（ＬＲＧ）が使用される（図１４）。次いで、Ｋ－メドイドクラスタリングが、集合Ａ_ＬおよびＢ_Ｌのメンバに適用される。クラスタリングに続いて、潜在的表現の重心集合Ａ_ＣおよびＢ_Ｃを形成するために、クラスタリングされた集合の重心が抽出される。指紋の２つの集合Ａ_ＦおよびＢ_Ｆを形成するために、Ａ_ＣおよびＢ_Ｃのメンバに対応する指紋が検索される。次いで、Ａ_ＦおよびＢ_Ｆのメンバは、アッセイ結果または別のラベル要素値における変化の原因となり得る化合物変態を同定するために使用される。

＜ｋ－平均クラスタリングを使用するジニ係数の計算＞
この例では、実施例２３に記載された方法におけるｋ－メドイドクラスタリングの代わりにｋ－平均クラスタリングが使用される。ｋ－メドイド法におけるように、集合ＡおよびＢのメンバが潜在的表現として符号化される。潜在的表現の集合にｋ－平均クラスタリングが適用される。ｋ－平均クラスタリングの結果である重心は、潜在的表現デコーダモジュール（ＬＲＤ）を使用して指紋として復号され、それぞれの集合Ａ_ＦおよびＢ_Ｆに保存される。集合Ａ_ＦおよびＢ_Ｆは、ラベルまたはラベル要素値の変化に関連付けられた重要な化合物変態を同定するために使用される。

本発明の好ましい実施形態が本明細書に示され記載されたが、そのような実施形態が単なる例として提供されたことが当業者には明らかであろう。当業者は、本発明から逸脱することなく、多数の変形、変更、および置換を思いつくであろう。本明細書に記載された本発明の実施形態に対する様々な代替物が、本発明を実践する際に採用され得ることを理解されたい。以下の特許請求の範囲は本発明の範囲を定義し、これらの特許請求の範囲内の方法および構造ならびにそれらの均等物は、それらによってカバーされるものとする。

Claims

１つまたは複数のメモリと、
１つまたは複数のプロセッサと、を備え、
前記１つまたは複数のプロセッサは、
潜在的表現をニューラルネットワークに入力することで、化合物に関する情報を生成し、
前記ニューラルネットワークは、訓練用の化合物に関する情報と、前記訓練用の化合物の潜在的表現を前記ニューラルネットワークに入力することで生成された前記訓練用の化合物に関する情報の再構成物との誤差に基づいて訓練されたものであり、
前記ニューラルネットワークは、デコーダであって、
前記訓練用の化合物の潜在的表現は、前記訓練用の化合物に関する情報をエンコーダに入力することで生成される、
コンピュータシステム。
前記１つまたは複数のプロセッサは、
前記化合物に関する情報を、所定の特性に関して評価する、
請求項１に記載のコンピュータシステム。
前記所定の特性は、活性、溶解性、毒性、合成の容易性、バイオアッセイデータ、交差反応性、疎水性を含む他の化学的特徴、前記化合物の生物学および化学の特性の複合データ、前記化合物の構造または機能を特徴付けるために用いられうる任意の他の情報、アッセイ結果、のうちの１つまたは複数である、請求項２に記載のコンピュータシステム。
前記１つまたは複数のプロセッサは、
前記化合物に関する情報として、化合物に関する第１の情報を生成し、前記化合物に関する第１の情報に基づいて、化合物に関する第２の情報を生成する、
請求項１から３のいずれか１項に記載のコンピュータシステム。
前記化合物に関する第２の情報の生成は、前記化合物に関する第１の情報の評価に基づく、請求項４に記載のコンピュータシステム。
前記化合物に関する第２の情報の生成は、前記化合物に関する第１の情報のまわりの化合物空間を用いて行われる、請求項４または５に記載のコンピュータシステム。
前記化合物は薬品である、請求項１から６のいずれか１項に記載のコンピュータシステム。
前記評価は、少なくとも、所望のアッセイ結果、構造特性、生成された前記化合物に関する情報に対応する化合物とは別の化合物との類似性、又は、薬物らしさのいずれか１つに関する評価である、
請求項２に記載のコンピュータシステム。
前記訓練用の化合物の潜在的表現は、前記エンコーダから出力された潜在変数を用いたサンプリングによって生成される、
請求項１に記載のコンピュータシステム。
前記潜在変数は、正規分布、ラプラス分布、楕円分布、スチューデントｔ分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、又は、Ｆ分布のいずれか１つを用いて表現される、
請求項９に記載のコンピュータシステム。
前記潜在的表現は、生成された前記化合物に関する情報に対応する化合物とは別の化合物に基づいて生成されたものである、
請求項１から１０のいずれか１項に記載のコンピュータシステム。
前記１つまたは複数のプロセッサは、
前記別の化合物に関する情報を第２のニューラルネットワークに入力した際の出力に基づいて、前記潜在的表現を生成する、
請求項１１に記載のコンピュータシステム。
前記１つまたは複数のプロセッサは、
前記別の化合物の潜在変数を用いたサンプリングにより前記潜在的表現を生成する、
請求項１１または請求項１２に記載のコンピュータシステム。
前記１つまたは複数のプロセッサは、
前記潜在的表現とラベル情報を前記ニューラルネットワークに入力することで、前記化合物に関する情報を生成する、
請求項１から１３のいずれか１項に記載のコンピュータシステム。
前記１つまたは複数のプロセッサは、
生成された前記化合物に関する情報に対応する化合物とは別の化合物に関する情報から前記ラベル情報を生成する、
請求項１４に記載のコンピュータシステム。
前記１つまたは複数のプロセッサは、
第３のニューラルネットワークを用いて、前記別の化合物に関する情報から前記ラベル情報を生成する、
請求項１５に記載のコンピュータシステム。
前記潜在的表現は、生成された前記化合物に関する情報に対応する化合物とは別の化合物に基づいて生成されたものであって、
前記ニューラルネットワークに入力される前記ラベル情報は、前記別の化合物のラベル情報とは異なる情報を含む、
請求項１４から１６のいずれか１項に記載のコンピュータシステム。
前記潜在的表現はランダムな要素を含む、
請求項１４に記載のコンピュータシステム。
前記ラベル情報は、少なくとも、生物学的データ、バイオアッセイデータ、溶解性、交差反応性、疎水性、相転移境界毒性、薬物動態、薬力学、バイオアベイラビリティ、又は、活性のいずれか１つに関する情報を含む、
請求項１４から１８のいずれか１項に記載のコンピュータシステム。
前記ラベル情報は、少なくとも、化合物データベース、バイオアッセイデータベース、毒性データベース、臨床記録、又は、交差反応性記録のいずれか１つに基づく情報である、
請求項１４から１９のいずれか１項に記載のコンピュータシステム。
前記化合物に関する情報は、少なくとも、分子記述子、又は、指紋表現のいずれか１つを含む、
請求項１から２０のいずれか１項に記載のコンピュータシステム。
前記化合物に関する情報は、前記化合物の構造情報を含む、
請求項１から２１のいずれか１項に記載のコンピュータシステム。
１つまたは複数のプロセッサが実行する、化合物に関する情報を生成する方法であって、
潜在的表現をニューラルネットワークに入力することで、前記化合物に関する情報を生成するステップを含み、
前記ニューラルネットワークは、訓練用の化合物に関する情報と、前記訓練用の化合物の潜在的表現を前記ニューラルネットワークに入力することで生成された前記訓練用の化合物に関する情報の再構成物との誤差に基づいて訓練されたものであり、
前記ニューラルネットワークは、デコーダであって、
前記訓練用の化合物の潜在的表現は、前記訓練用の化合物に関する情報をエンコーダに入力することで生成される、
方法。
１つまたは複数のプロセッサに、
潜在的表現をニューラルネットワークに入力することで、化合物に関する情報を生成する処理を実行させ、
前記ニューラルネットワークは、訓練用の化合物に関する情報と、前記訓練用の化合物の潜在的表現を前記ニューラルネットワークに入力することで生成された前記訓練用の化合物に関する情報の再構成物との誤差に基づいて訓練されたものであり、
前記ニューラルネットワークは、デコーダであって、
前記訓練用の化合物の潜在的表現は、前記訓練用の化合物に関する情報をエンコーダに入力することで生成される、
プログラム。