JP2023512307A

JP2023512307A - 所望の特性を有する化学化合物を生成するように学習するためのシステムおよび方法

Info

Publication number: JP2023512307A
Application number: JP2022547078A
Authority: JP
Inventors: ボリスサタロフ，; ヴィジャヤサイクリシュナゴッティパティ，; ヤシャスウィパタク，; カラムトマ，
Original assignee: ９９アンドビヨンドインコーポレイテッド
Priority date: 2020-01-30
Filing date: 2021-01-29
Publication date: 2023-03-24
Also published as: CN115428090A; IL295199A; US20230050627A1; WO2021151208A1; KR20220158225A; CA3169830A1; EP4097729A1

Abstract

限定するものではないが、遺伝的アルゴリズム、専門家反復アルゴリズム、計画法、強化学習および機械学習アルゴリズムを含むいくつかのアルゴリズムによって使用され得る反応ベースの機構を定式化することによって、所望の特定の特性を有する化学化合物のライブラリを生成するためのシステムおよび方法。このシステムおよび方法はまた、反応物Ｒ１、Ｒ２からこれらの最適化された生成物Ｓ’が合成され得るプロセスステップを提供し得、さらに合成的に利用可能な化学空間の迅速かつ効率的な探索を可能とする。【選択図】図１

Description

関連出願の相互参照
本出願は、２０２０年１月３０日に出願された、「ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＦＯＲＬＥＡＲＮＩＮＧＴＯＧＥＮＥＲＡＴＥＣＨＥＭＩＣＡＬＣＯＭＰＯＵＮＤＳＷＩＴＨＤＥＳＩＲＥＤＰＲＯＰＥＲＴＩＥＳ」と題された米国仮特許出願第６２／９６７，８９８号の優先権を主張するものであり、その内容全体がここで参照により組み込まれるものとする。

本出願は、２０２０年９月９日に出願された、「ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＦＯＲＬＥＡＲＮＩＮＧＴＯＧＥＮＥＲＡＴＥＣＨＥＭＩＣＡＬＣＯＭＰＯＵＮＤＳＷＩＴＨＤＥＳＩＲＥＤＰＲＯＰＥＲＴＩＥＳ」と題された米国仮特許出願第６３／０７６，１５１号の優先権を主張するものであり、その内容全体がここで参照により組み込まれるものとする。

本発明は、化学の分野に関し、新規な医薬品、材料、化粧品、農薬または他の化学化合物を生成するためのアルゴリズム的なまたは機械学習による化学反応予測に関する。

機械学習ベースのデノボ薬品設計を実行するための戦略は、構造生成スキームおよび反応ベースのスキームの２つの群に分類することができる。

構造生成スキームは、化学化合物を合成するために使用され得る化学反応の明示的な意向なしで、化学化合物を生成するようにトレーニングされる機械学習モデルである。構造生成スキームは、エンコーダ／デコーダベースの生成システムだけでなく、強化学習システムを利用し得る。しかしながら、これらの構造生成スキームはしばしば、製造することが不可能であるまたは現実的ではない分子につながり得る。これを補うために、通常、スキームのスコアリング関数モジュールへのデータ駆動型推定の導入を通して、合成アクセス性／実現可能性スコアが考慮される。また、最終的な化学化合物が生成された後に、逆合成解析が典型的に実行される。

構造生成スキームは、２つの大きな欠点を有する。第一に、生成モデルは頻繁に識別器モデルにおけるデータ駆動型アーチファクトを利用する傾向があり、このことは、生成を誤った方向に導き、生成される構造の実世界での合成の利用可能性を損ねる可能性がある。第二に、合成の利用可能性／実現可能性スコアを予測するいずれのデータ駆動型モデルも、モデルをトレーニングするために使用されたトレーニングセットに応じて、限られた適用可能性しか有さないこととなる。これらの欠点は、より長い計算時間、およびほとんど実用性のない結果をより多く生成することに導く。

これらの欠点は、新規な化学化合物の生成のための反応ベースのモデルの使用を通して克服され得る。既知の反応および市販のまたは合成的に利用可能な反応物に化学空間のアルゴリズムの探索を基づかせることにより、スコアリング関数モジュールの有効性が増大する可能性があり、生成スキームの全体的な生産性および効率が向上し得る。

しかしながら、既存の反応ベースのモデルは課題を呈する。ＤＩＮＧＯＳまたはＰａｔｈＦｉｎｄｅｒのような例は、２つの大きな点で制限される。第１に、いずれのシステムも、適用可能とするためには、対象の生物学的標的についての既知のテンプレートのリード化学化合物を必要とする。第２に、これらのシステムは、エンドツーエンドの方式でトレーニングされない。例えば、ＰａｔｈＦｉｎｄｅｒの場合には、まず反応を使用して化学化合物が生成され、その次にようやく、接続されていないスコアリング関数モジュールを使用して、いくつかの生成物が選択される。ＤＩＮＧＯＳの場合には、考えられる２番目の反応物を予測する部分のみが実際にトレーニングされ、このトレーニングは、反応データを使用して教師あり方式でのみ実行される。

本明細書に説明される方法およびプロセスは、これらの制限を克服し、利用可能な反応物のセットを使用することにより、合成的に利用可能な化学空間のエンドツーエンドの反応ベースの探索を可能にする。１つ以上のテンプレート化合物は、もはや必要とされない。

化学化合物のライブラリを生成するためのシステムおよび方法が、本明細書に説明される。このシステムおよび方法は、限定するものではないが、強化学習もしくは専門家反復アルゴリズム、遺伝的アルゴリズムおよび／または計画法を含む機械学習によってガイドされる反応ベースのスキームを利用し、所望の特性、特徴および／または挙動を呈する化学物質候補を生成する目的のため、スコアリング関数モジュールを備える。このプロセスを通して、このシステムおよび方法はまた、これらの化学物質候補が合成および／または製造され得る対応する方法を生成および表示する。したがって、合成的に利用可能な化学空間の大部分を比較的短い時間フレームで効率的に探索することが可能になる。

本発明の実施形態の利点は、その例示的な実施形態の以下の詳細な説明から明らかになり、この説明は、同様の数字が同様の要素を示す添付図面と併せて考慮されるべきものである。

強化学習のワークフローの例示的な実施形態である。強化学習のワークフローのアクターモジュールの例示的な実施形態である。強化学習のワークフローのクリティックモジュールの例示的な実施形態である。強化学習のワークフローの環境の例示的な実施形態である。二重のアクターおよびクリティックのワークフローを有する強化学習のワークフローの例示的な実施形態である。多重のアクターおよびクリティックのワークフローを有する強化学習のワークフローの例示的な実施形態である。多重のアクターおよびクリティックを有する強化学習のワークフローの例示的な実施形態である。微分可能なｋ近傍モジュールを利用する強化学習のワークフローの例示的な実施形態である。初期反応物を選ぶことを学習する強化学習のワークフローの例示的な実施形態である。遺伝的アルゴリズムのワークフローの例示的な実施形態である。

本発明の態様は、本発明の特定の実施形態を対象とする以下の説明および関連する図面に開示されている。代替の実施形態は、本発明の趣旨または範囲から逸脱することなく案出され得る。さらに、本発明の例示的な実施形態の周知の要素は、本発明の関連する詳細を不明瞭にしないように、詳細には説明されないかまたは省略される。さらに、本説明の理解を容易にするため、本明細書で使用されるいくつかの用語の考察が以下に続く。

本明細書で使用される「例示的」という語は、「例、実例または例解として機能する」ことを意味する。本明細書に説明される実施形態は、限定的なものではなく、むしろ単に例示的なものである。説明される実施形態は、必ずしも他の実施形態に対して好ましいまたは有利であると解釈されるべきものではないことは、理解されるべきである。さらに、「本発明の実施形態」、「実施形態」、または「本発明」という用語は、本発明のすべての実施形態が、考察される特徴、利点または動作の様式を含むことを必要とするものではない。

さらに、多くの実施形態は、例えば、計算装置の要素によって実行される動作のシーケンスという観点から説明される。本明細書に説明される様々な動作は、特定の回路（例えば、特定用途向け集積回路（ＡＳＩＣ））により、１つ以上の古典的もしくは量子プロセッサにより実行されるプログラム命令により、または両者の組み合わせにより、実行することができることは、認識されよう。さらに、本明細書に説明されるこれらの動作のシーケンスは、実行時に本明細書に説明される機能を関連するプロセッサに実行させる対応するコンピュータ命令のセットを格納した任意の形態のコンピュータ読み取り可能な記憶媒体内で完全に具現化されると考えられ得る。したがって、本発明の様々な態様は、多数の異なる形態で具現化され得るが、そのすべてが、請求される主題の範囲内にあることが企図されている。加えて、本明細書に説明される実施形態の各々について、任意のかかる実施形態の対応する形態は、例えば、説明された動作を実行する「ように構成された論理回路」として、本明細書に説明され得る。

強化学習は、アルゴリズムが環境をマッピングし、全体の報酬メトリックを最大化するために決定を行うことを目指す、機械学習のパラダイムである。強化学習を実装する１つの方法は、マルコフ決定プロセス（ＭＤＰ）を通したものである。マルコフ決定プロセスは、内在する強化学習のタスクを記述するための数学的枠組である。この数学的枠組は、時間ステップごとの、状態Ｓ、行動Ａ、遷移関数Ｐ、報酬Ｍおよび任意選択的に割引係数ガンマによって特徴付けられる。遷移関数Ｐは、任意の時間ステップｔにおける状態Ｓでの行動Ａが、時間ステップｔ＋１において状態Ｓ’に導く確率を表す。マルコフ決定プロセスの枠組の目標は、各時間ステップにおいて報酬Ｍのある関数を最大化するエージェントについての方策を見つけることである。報酬Ｍは任意選択的に、割引係数γによりスケーリングされ得る。

マルコフ決定プロセスは好ましくは、エンドツーエンドの強化学習のワークフローとして構造化される。このエンドツーエンドの構造は、強化学習のワークフローが、特定のタスクに関連する行動を学習するのみならず、他の機能から独立して開発することが困難であり得る高次機能までを含むプロセス全体を学習することを可能とする。このことは、より洗練されたエージェントがトレーニングされることを可能とし、より幅広い多くの反応および必要な場合、対応する条件が考慮されることを可能とする。

強化学習アルゴリズムは、モデルベース型、モデルなし型、オンポリシー型およびオフポリシー型のような多くの異なるタイプに分類され得る。これらのアルゴリズムはまた、価値ベース法または方策勾配法のような更新規則に基づいて分類され得る。方策勾配法は、離散的な行動空間または連続的な行動空間を扱い得る。離散的な行動空間アルゴリズムの例は、ＲＥＩＮＦＯＲＣＥ、アクター－クリティック、アドバンテージアクター－クリティック、信頼領域方策最適化、ＡＣＫＴＲおよび近接方策最適化を含む。

しかしながら、化学化合物生成の場合には、離散的な行動空間は非常に大きいので、連続的な行動空間に適応または対応するアルゴリズムが好ましい。連続的な行動空間で動作するアルゴリズムの例は、決定方策勾配、深層決定方策勾配（ＤＤＰＧ）、分散分布深層決定方策勾配（Ｄ４ＰＧ）、双生遅延深層決定策勾配（ＴＤ３）およびソフトアクタークリティック（ＳＡＣ）を含む。

大きな離散的な行動空間を管理するための本発明による別の方法は、連続的な空間における行動を予測し、次いでｋ近傍（ｋＮＮ）アルゴリズムを使用して連続的な空間の行動を１つ以上の有効な離散的な行動にマッピングすることを伴う。これを達成するために、所与の入力に「近い」近傍が入力から「遠い」近傍よりも寄与する、距離メトリックが導入される。この「近さ」のメトリックを評価するために、任意の距離または発散のメトリックが使用され得る。ｋ近傍に類似する特性を有するアルゴリズムもまた、使用され得る。

ここで図１を見ると、少なくとも１つのアクターモジュール１１０および少なくとも１つのクリティックモジュール１２０を有するエージェント１０１を特徴とする、ＭＤＰワークフロー１００の例示的な実施形態が示されている。エージェント１０１は、ｋＮＮアルゴリズム１５０によって離散的な空間にマッピングされた反応予測器１３０によって記述され、スコアリング関数１４０に従ってスコアリングされる、環境１０２と相互作用する。環境１０２はまた任意選択的に、以上に説明されたようなクリティックモジュール１２０を複製するコピークリティックモジュール１２０ｂを含み得る。

時間ステップｔごとに、反応物Ｒ２（ｔ）は、既存の分子または反応物Ｒ１（ｔ）と反応して、生成物Ｒ１（ｔ＋１）を生成する。Ｒ１（ｔ）も状態Ｓ（ｔ）により表され得、Ｒ２（ｔ）も行動Ａ（ｔ）により表され得、生成物Ｒ１（ｔ＋１）は後続する時間ステップについての状態Ｓ’（ｔ＋１）として表され得る。

初期の時間ステップにおいて、初期の分子Ｒ１（ｔ＝０）は、利用可能なすべての反応物のリストからサンプリングされる。このサンプリングは、ランダム的なもの、統計的に駆動されるもの、スコアリング関数モジュールに基づいて選択されるもの、または本明細書に説明されるものと同様のエンドツーエンド方式でトレーニングされたニューラルネットワークモジュールに従って選択されるものであってもよい。潜在的な行動空間は非常に大きいので、行動空間のサイズを低減させ得る中間行動Ａ１（ｔ）を導入することが好ましい。中間行動Ａ１（ｔ）は、行動空間のためのフィルタとして機能する反応の形態を採り得る。この反応は好ましくは、メトリックとして反応物Ｒ１（ｔ）およびＲ２（ｔ）の一方または両方の活性部位に基づいて、行動空間をフィルタリングする。この反応は好ましくは、行動Ａ（ｔ）および／または反応物Ｒ２（ｔ）をフィルタリングする。また、反応物および反応のいずれかについて、さらなるフィルタリングを実行することが好ましい場合がある。

反応物は、様々な形式でエンコードされ得る。反応物Ｒが分子構造のドメイン固有のベクトル表現でエンコードされる場合、関連するネットワークを直接通過させられ得る。しかしながら、反応物Ｒがグラフ形式でエンコードされる場合、反応物のコンパクトな表現を得るために、学習可能なまたは事前にトレーニングされたグラフの畳み込みまたは他のタイプの層を通過させられ得る。反応物Ｒが他の異なる、しかし同様に互換性のない形式でエンコードされる場合、反応物は適切な学習可能の層を通過させられ、適切で互換性がありコンパクトな表現に変換される。このコンパクトな表現は、所望のドメイン固有のベクトル表現と同じであってもよく、またはその機能的等価物であってもよい。

ここで図２を見ると、強化学習のワークフローのアクターモジュール１１０の例示的な実施形態が示されている。アクターモジュール１１０を構成するネットワークにおいては、２つの学習可能なネットワークＦおよびＰＩが使用され得るが、任意の数の任意のタイプのニューラルネットワーク層および任意の活性化ユニットが使用され得る。学習可能なパラメータを有する任意の学習可能なモジュールが使用され得る。

任意選択的に、Ｆネットワークの出力が、テンプレートマスク２１０によって要素ごとに乗算され得る。このテンプレートマスク２１０は、２値ベクトルまたはテンソルであり、所与の反応物に対して１の値は、有効なテンプレートを表し、０の値は、無効なテンプレートを表す。この乗算の出力は次いで、ガンベル－ソフトマックス層２２０を通過させられて、最良の反応Ｔを表すワンホットのベクトル／テンソルＴ_ｉｊを得ることができる。反応物Ｒ１（ｔ）は、この反応Ｔとともに、次いでＰＩネットワークへの入力として使用され、プロト行動を計算する。したがって、このプロト行動は、典型的にはすべての行動Ａの埋め込みによって定義される空間である連続的な空間において、反応物Ｒ２を有し得る。

ここで図３を見ると、強化学習のワークフローの例示的なクリティックモジュール１２０が描かれている。強化学習枠組の文脈において、クリティックモジュール１２０は、アクターモジュールの出力を評価する。クリティックモジュール１２０への入力は典型的には、状態Ｓ（ｔ）、反応物Ｒ１（ｔ）および／または反応Ｔ（ｔ）、ならびに行動Ａ（ｔ）である。行動Ａ（ｔ）は、プロト行動および／または反応物Ｒ２（ｔ）として、クリティックモジュールに入力され得る。クリティックモジュール１２０の目標は、行動の「良さ」Ｑ（Ｓ，Ａ）を算出または評価することである。２つ以上のアクターおよび／またはクリティックモジュール１１０、１２０を利用するワークフローも可能であり得る。

任意選択的に、クリティックモジュール１２０はまた、ｋ近傍モジュール１５０の出力により提示される選択肢の中から１つ以上の最良の反応物Ｒを選ぶために使用され得る。これらの選択肢は、Ｒ１（ｔ）を考慮して、または考慮せずに、反応によって決定付けられる有効な反応物のすべてから引き出され得る。

ここで図４を見ると、強化学習のワークフローにおいて使用される環境１０２の例示的な詳細なワークフローが説明されている。環境１０２は、プロト行動、最良の反応Ｔおよび／または現在の行動Ａを取り込む。環境１０２は次いで、次の状態Ｓ（ｔ＋１）、次の状態Ｓ（ｔ＋１）に対応する報酬、エピソードの終了、および／または該当する場合、次の状態Ｓ（ｔ＋１）の各々の確率を予測する。環境１０２はまた、ｋ近傍モジュール１５０、反応予測器１３０、スコアリング関数モジュール１４０、最大および／もしくは最大点集合演算子３１０、ならびに／またはエージェントのクリティックモジュール１２０ｂのコピーを含む。

このプロセスの間、環境１０２は、すべての反応物Ｒ２（ｔ）の最良の反応Ｔに適合するプロト行動のｋ近傍を得るために、ｋ近傍モジュール１５０への入力として、プロト行動、最良の反応Ｔおよび／またはすべての反応物の残りのベクトル／テンソル表現を渡す。これらのｋ個の有効な反応物Ｒ２_Ｋ（ｔ）は次いで、反応物Ｒ１（ｔ）および最良の反応Ｔとともに反応予測器１３０モジュールを通過させられて、対応するｋ個の生成物Ｓ_Ｋ（ｔ＋１）を得て、これらは次いでスコアリング関数モジュール１４０によって評価されて、対応するｋ個の報酬を得る。次いで、最大値および／または最大点集合演算子３１０によって決定されるような最大報酬に対応する生成物が選択される。

任意選択的に、環境１０２に提供されるクリティックモジュール１２０は、すべてのｋ個の有効な反応物Ｒ２（ｔ）の良さＱ（Ｓ，Ａ）の値を評価し、反応物Ｒ１（ｔ）または最良の反応Ｔとして、所与の状態Ｓに対する最良の良さの値Ｑ（Ｓ，Ａ）に対応する反応物Ｒ２（ｔ）、および提供されたｋ個の有効な反応物Ｒ２（ｔ）から選択される行動Ａ（ｔ）または反応物Ｒ２（ｔ）を選ぶために使用され得る。この最良の反応物Ｒ２（ｔ）は次いで、反応物Ｒ１（ｔ）および最良の反応Ｔとともに、反応予測モジュール１３０を通過させられて、生成物および／または各生成物の対応する確率を得る。得られた生成物は、次いで、スコアリング関数モジュール１４０への入力として使用され、該モジュールが、次いで、報酬を計算する。

任意選択的に、ＰＩネットワーク出力は、微分可能なｋ近傍モジュール１５０を通過され得る。クリティックネットワーク１２０は次いで、ｋ個の選ばれた反応物から最良の２番目の反応物Ｒ２（ｔ）を選択するために使用され得る。環境は、そのスコアリング関数モジュール１４０を使用して、最良の２番目の反応物に関連する報酬を算出し得る。

環境１０２のスコアリング関数モジュール１４０は、規則ベースおよび／または物理ベースの方法に従って機能し得る。スコアリング関数１４０はまた、機械学習ベースの方法を利用し得る。スコアリング関数モジュールの目標は、反応に関与する化合物の物理的、化学的、機能的、電気的、量子力学的、構造的、生物物理学的、および／または生化学的特性を予測および／または決定することである。生化学的特性は、例えば、細胞、組織または生物全体に関連する受容体、酵素などのような、単一または複数の生物学的標的に対する活量を記述し得る。

反応予測モジュール１３０は、提供された反応物および反応、ならびに必要な場合、対応する条件に基づいて、化学反応の結果を予測するために利用され得る。予測モデル１３０はまた、２番目の反応物が不要であり、単一の反応物、反応および必要な場合、対応する条件のみが必要な反応のタイプを表す、Ｎ成分変換を活用し得る。予測モジュールは、ＳＭＡＲＴＳまたは他の形式および表現を使用して反応に対応するように構造化され得る。

環境１０２の反応予測モジュール１３０はまた、前述の方法を利用して、エピソードを構成し得る単一または多ステップの仮想合成経路の終了を決定するために提供される。

「エピソード」とは、最終のまたは中間の生成物の合成を構成するプロセスとして定義される。エピソードは、少なくとも１つのステップから構成され、ステップは、プロセスのそのステップを実行することに関連する情報が含まれる。ステップは例えば、使用される反応物、反応を促進するために必要となり得る任意の環境因子、および／または達成するために必要な任意の触媒もしくは他の非反応性成分を含み得る。このようにして、エピソードは、最終のまたは中間の生成物が合成され得る一種の手法または手段をユーザに提供することを意味している。

環境１０２の報酬および／またはスコアリング関数モジュール１４０は、所望のおよび／または特定の特性に対する、予測されるおよび／もしくは実験的な、物理的、化学的、機能的、電気的、量子力学的、構造的、生物物理学的、ならびに／または生化学的特性に従って、反応物および／または生成物をスコアリングする。

これらの化学的特性は、反応物および／または生成物とともに、機械読み取り可能な形式で格納され得る。この機械読み取り可能な形式は、様々な段階において、人間が読める形式と機械学習のワークフローに好ましい形式との間で変換され得る。

スコアリング関数モジュール１４０は、入力として化学化合物を取え得、次いで、該化合物の１つ以上の特性、挙動、および／または特徴に関連する対応する値を出力する。スコアリング関数モジュール１４０は、限定するものではないが、機械学習モデルおよび／またはモデルの組み合わせ、分子または量子力学シミュレーション、および／または実験値を利用することができる。スコアリング関数モジュール１４０は、重み付け係数を利用することによって、これらの特性のうちの１つ以上をこれらの方法のうちの１つ以上と組み合わせ得る。

図５を参照すると、強化学習のワークフローの一部としての二重のアクター－クリティックワークフロー５００を説明する例示的なワークフローが示されている。強化学習のワークフローは、単一のアクター－クリティックワークフローの代わりに、二重のアクターおよび／またはクリティックワークフロー５００を含み得る。このようにして、ミニアクター５１０およびミニクリティック５２０は、それらのアクター－クリティック対応物１１０、１２０を伴う。２つ以上のミニアクター５１０モジュールおよび／またはミニクリティック５２０モジュールを含むワークフローも可能であり得る。アクター－クリティックモジュール１１０、１２０に加えて１つ以上のミニアクターモジュール５１０のみを含むワークフロー、またはアクター－クリティックモジュール１１０、１２０に加えて１つ以上のミニクリティックモジュール５２０のみを含むワークフローが、可能であり得る。

ミニアクターモジュール５１０は、入力として所与の少なくとも１つの反応物に対して反応が選ばれる確率を示すベクトル／テンソルを出力し得る。ミニクリティックモジュールは、必要な場合、ミニアクターモジュールの出力を評価し得る。

二重のアクター－クリティックワークフロー５００の別の実施形態である多重のアクター－クリティックワークフロー６００が、図６に例解される。二重のアクター－クリティックワークフロー５００と同様に、多重のアクター－クリティックワークフロー６００は、必要に応じて任意の数のアクター１１０、クリティック１２０、ミニアクター５１０、またはミニクリティックモジュール５２０を利用し得る。

ピラミッド型のアクター－クリティックワークフローとして同義的に説明される二重のアクター－クリティックワークフロー５００の別の実施形態は、以下のように定式化され得、図７に描かれている。決定論的な遷移関数の仮定の下で、次の状態の価値関数Ｖ（ｓ’）は、現在の状態Ｓおよび行動Ａの対のＱ（Ｓ，Ａ）値と正確に等しい。この仮定は、「クリティック」が、クリティックの内部にある２つのモジュール、すなわち生成物予測器および価値関数予測器によって定義される、２ステップのプロセスに分解されることを可能とする。価値関数予測器は、例えば、生成物の次の状態ｓ’の価値関数Ｖ（ｓ’）を予測する。生成物予測器は、２つの異なるネットワーク、すなわち単分子反応を処理するためのＵネットと、二分子反応を処理するためのＢネットとを有する。

Ｕネットは、Ｒ（１）および反応Ｔ、またはその任意の表現を入力として取り、以下に従って、仮想的な生成物の表現を計算する。

Ｂネットは、Ｒ（１）、Ｒ（２）および反応Ｔまたはその任意の表現を入力として取り、以下に従って仮想的な生成物の表現を計算する。

次いで、２つの仮想的な生成物が組み合わせられて、反応が単分子か二分子かに応じて、適切なＲ_ｍａｓｋを使用して、化学反応の仮想最終生成物Ｐを、以下に従って計算する。Ｐ＝Ｐ_ｕ＊（１－Ｒ_ｍａｓｋ）＋Ｐ_ｂ＊Ｒ_ｍａｓｋ

これらの仮説生成物予測モジュールから得られるこの最終的な仮説的な生成物は、学習可能な値関数モジュールＶを通過させられ、Ｑ（Ｓ，Ａ）を得る。

ピラミッド型のアクター－クリティックワークフローの別の実施形態は、以下のように定式化され得、図８に描かれている。θ_ＬがＰＩネットワークのパラメータを示す、Ｌ個の層を有する方策ネットワーク、および

が方策ネットワークＰＩ内の層０～１を示すＰＩネットワーク内の様々なサブネットワークを検討する。これらの層は、かかるＬ個の考えられるミニ方策ネットワークのうちの１つを構成する。次いで、現在の状態および方策モデルＰＩの層ｌの出力を取り込む別のニューラルネットワークＣ_ｌを検討する。これは、

ネットワークの出力とみなされ得る。ニューラルネットワークＣ_ｌは、仮想的な次の状態を予測する。Ｃ_ｌの出力は次の状態の空間である必要はなく、任意の表現空間であってもよい。

１つのかかる仮説的次の状態予測モジュール（ＨｙＮｅＳＰ）は、ミニ方策モジュール

の各々に割り当てることができる。

の出力であり得る実際の行動Ａなしでは真の次の状態を予測することができないため、これらの状態は、単に仮説的なものである。

ここで、決定論的な遷移関数を持つ環境、すなわち、所与の現在の状態Ｓおよび行動Ａに対して１つの次の状態ｓ’だけが取り得る環境を検討する。かかる場合においては、現在の状態Ｓおよび行動ＡのＱ（Ｓ，Ａ）関数は、次の状態Ｓ’の価値関数と等しく、すなわち、以下となる。Ｑ（Ｓ，Ａ）＝Ｖ（Ｓ’）

遷移関数が非決定論的である場合、すなわち以下の場合であっても、ここでのアルゴリズムが依然として使用され得る。Ｑ（Ｓ，Ａ）≠Ｖ（Ｓ’）

ＨｙＮｅＳＰの１つを使用して仮想的な次の状態ｈ’が得られると、Ｑ（Ｓ，Ａ）を計算することは仮想的な次の状態の価値関数を計算することと等価となる。したがって、仮想的な次の状態ｈ’を入力として取り、その価値関数を予測する、新たなネットワークＶが導入され得る。

ｍ個の異なるＨｙＮｅＳＰから選ばれる仮想的な生成物は、固定されたまたは学習可能な確率テンソルからサンプリングしてワンホットのテンソルに変換し、ＨｙＮｅＳＰマスクＭ_ｈに導くことによって決定される。

トレーニングのための別の方法は、クロスエントロピー法、またはより広くはモデル予測制御を利用することを伴う。アクターの出力にノイズが加えられる場合があり、報酬に基づいて、最適なノイズ分布が決定および／または計算され得る。このノイズ分布は、任意の確率分布を使用して最初にモデル化され得る。このプロセスは、事前にトレーニングされたアクターネットワークに対して、および／またはトレーニングフェーズの間に、使用され得る。任意選択的に、ノイズはネットワークのパラメータに直接追加され得る。

アクターネットワークをトレーニングするための別の方法は、専門家エージェント、準専門家デモンストレーションおよび／またはモンテカルロ木探索（ＭＣＴＳ）シミュレーションを介して、教師あり学習を利用し得る。連続的な行動空間においてＭＣＴＳを扱うための新規なトレーニング戦略が、導入され得る。方策の損失またはアクターの損失は、出力方策分布と目標方策分布との間の相違を最小化することを目的とする。

図９を参照すると、初期反応物を選ぶことを学習する強化学習のワークフローが描かれている。本発明の１つの潜在的な実施形態は、既存の強化学習の枠組に新たな目的関数を導入することを含む。既存の手法は、有限または無限のエピソード設定における時間ステップの数を変化させながら、割引されたもしくは割引されていない全体の報酬、または割引されたもしくは割引されていない報酬の関数を最適化することに主に焦点を当てているが、本発明は代わりに、エピソード全体で達成される最大の報酬を最適化し得る。本発明は、新たな目的を最適化するために、Ｑ関数および任意の強化学習設定において使用される他の関数／変数に対する新規なベルマン方程式を利用し得る。

Ｑ関数は、以下のように定義され得る。

また、対応して、ベルマン方程式は次のような形態を採り得る。

エピソードの戻り値は、

のように定義され得る。これは任意選択的に、割引係数ガンマによりスケーリングすることができ、戻り値は、

として定義され得る。

初期状態が固定されるか、与えられるか、またはランダムにサンプリングされる既存の方法とは対照的に、本発明は、初期状態を選ぶことを学習し得る。ランダムにノイズがサンプリングされ、反応物の任意の好ましい表現の空間内に出力がある生成器ネットワークＧを通過させられ得る。生成器ネットワークＧの出力は次いで、ｋ近傍アルゴリズムを使用して、有効な初期反応物にマッピングされ得る。達成される報酬を損なうことなく生成される分子の多様性を促進するために、生成器ネットワークＧを単一の点または単一の領域に崩壊させることを回避する技術が採用され得る。この目的のために使用され得る技術の例は、限定するものではないが、正則化、生成器ネットワークの出力のクラスタ間距離を最大化することによるソフトｋ平均クラスタリング、多様性に報酬を与えるように環境からの報酬を修正すること、または複数の生成器を使用することを含む。任意選択的に、生成器ネットワークＧの出力を評価し、生成器ネットワークＧのパラメータをアクター－クリティック方式で更新するために、追加的なクリティックネットワークが使用され得る。代替的に、ｋ近傍の代わりに、ｋ近傍の任意の微分可能バージョンのような、異なる方策勾配アルゴリズムが使用され得る。

順方向合成枠組をトレーニングするための別の方法は、図１０に描かれているように、強化学習エージェントに対する代替として遺伝的アルゴリズムエージェントを利用することができる。遺伝的アルゴリズムにおいては、個体が所有する遺伝子または特徴のセットは、染色体１０１０と呼ばれる。母集団内の各個体の染色体は、強化学習ベースの実装と同様に、反応物の空間におけるプロト行動のシーケンスとして表現することができる。染色体の第１の部分は、反応物の特徴の空間における多次元プロト行動で始まり、これは、初期反応物Ｒ１の選択を担う。任意選択的に、このステップは、スキップされ得、初期反応物Ｒ１を選ぶために任意の他の方法が使用され得る。染色体の後続部分は、順方向合成の各ステップにおいて状態分子が反応する２番目の反応物の選択を担うプロト行動のシーケンスである。

各個々の染色体は、次いで、環境により評価される。環境は、染色体を受け取り、エンコードされたプロト行動にｋ近傍アルゴリズムを適用して、定義された特徴空間においてプロト行動に最も近い有効な初期反応物およびそれに続く２番目の反応物を選択する。次いで、環境は、多ステップの順方向合成を行い、各ステップにおける化学化合物を生成し、各分子の報酬値を計算する。多ステップの順方向合成プロセスの間に達成された最適化された報酬値は、各個体の染色体にエンコードされ、その適応度値として返される。

初期母集団の生成においては、個々の染色体は、ランダムに初期化される。初期母集団が評価されると、初期母集団は、交叉１０２０を受ける。交叉の間、特徴は、２つの個々の染色体間でランダムに交換され、子孫のセットを生成する。交叉後、単一個体の染色体における特徴量のランダムな変更である突然変異１０３０が続く。突然変異に続いて、最良の個体が、スコアリング関数モジュール１０４０を通して決定された報酬に従って選択され、新しい母集団または世代を形成するために使用される。交叉および突然変異のイベントは、事前定義された確率で特定の個体に対してトリガされる。

任意選択的に、１つ以上のニューラルネットワークが、遺伝的アルゴリズムによって生成されたサンプルまたはプロト行動に対してトレーニングされ得る。さらに、これらのニューラルネットワークからのサンプルは、さらなる交叉および突然変異の操作を実行し得るように、初期染色体として使用され得る。これらの２つのプロセスは、互いを改善するために、同時に、順次に、同期的におよび／または非同期的に実行され得る。

任意選択的に、１つ以上のニューラルネットワーク、アクターおよび／またはクリティックネットワークは、遺伝的アルゴリズムによって生成されるような、反応物の組、プロト行動、生成物および報酬のような、サンプルからサンプリングすることによって強化学習の枠組内でトレーニングされ得る。これらのニューラルネットワークからのサンプルは、初期染色体として使用され得、さらに交叉および突然変異の操作がこれらの染色体に対して実行され得る。これら２つのプロセスは、互いを改善するために、同時に、順次に、同期的におよび／または非同期的に実行され得る。

任意選択的に、１つ以上のニューラルネットワーク、アクター、および／またはクリティックネットワークは、以上に説明された遺伝的アルゴリズムまたは計画法のいずれかを模倣、模造または複製するために、強化学習の枠組内でトレーニングされ得る。

以上の説明および添付の図は、本発明の原理、好ましい実施形態および動作の様式を例解する。しかしながら、本発明は、以上に考察された特定の実施形態に限定されるものとして解釈されるべきではない。以上に考察された実施形態の追加的な変形は、当業者によって理解されるであろう（例えば、本発明の特定の構成に関連する特徴は、代わりに、所望により、本発明の任意の他の構成に関連付けられ得る）。

それゆえ、以上に説明された実施形態は、制限的なものではなく、例解的なものとみなされるべきである。したがって、それらの実施形態に対する変形が、以下の請求項によって定義される本発明の範囲から逸脱することなく、当業者によってなされ得ることは、理解されるべきである。

Claims

分子の自動化された設計のためのシステムであって、
化学反応予測モジュールおよびスコアリング関数モジュールを備える、人工知能環境を特徴とし、
前記人工知能環境は、少なくとも１つの反応物を伴う少なくとも１つの反応に基づいて、可能な反応生成物のセットを予測し、前記人工知能環境は、所望のメトリックに基づいて、前記可能な反応生成物のセットをスコアリングする、システム。
近似モジュールをさらに備え、
前記近似モジュールは、互換性のあるメトリック空間における距離に基づいて、すべての利用可能な反応物のセットから、反応物の最も近いセットを特定する、請求項１に記載のシステム。
コンピュータ実装されたエージェントをさらに備え、
前記コンピュータ実装されたエージェントは、強化学習プロセスに従って動作し、少なくとも１つのアクターモジュールを備え、
前記コンピュータ実装されたエージェントは、反応物の空間における反応および／または行動をシミュレートする目的のため、前記少なくとも１つの反応物を伴う少なくとも反応を、前記人工知能環境に提供することにより、前記強化学習プロセスを通して、前記人工知能環境とインタフェース接続する、請求項１に記載のシステム。
前記コンピュータ実装されたエージェントは、前記少なくとも１つのアクターモジュールの出力を評価するために使用される少なくとも１つのクリティックモジュールをさらに備える、請求項３に記載のシステム。
前記近似モジュールは、微分可能であり、コンピュータ実装されたエージェントの一部であり、それにより、前記近似モジュールは、前記近似モジュールを通して勾配を伝播させることにより、アクターネットワークおよびクリティックネットワークの少なくとも一方を、前記クリティックネットワークの出力に基づいて更新し得る、請求項２に記載のシステム。
初期反応物はランダムにサンプリングされるか、統計的なメトリックを使用することによりサンプリングされるか、またはクリティックモジュールにより出力が評価されるネットワークを使用することにより、サンプリングされる、請求項３に記載のシステム。
前記少なくとも１つの反応物を伴う少なくとも１つの反応は、遺伝的アルゴリズムにより生成されるプロト行動を通して選択される、請求項１に記載のシステム。
前記少なくとも１つの反応物を伴う少なくとも１つの反応は、遺伝的アルゴリズムの出力を模倣するようにトレーニングされた強化学習モデルにより選択される、請求項１に記載のシステム。
少なくとも１つのアクターモジュールおよび／または少なくとも１つのクリティックモジュールは、前記遺伝的アルゴリズムの出力に基づいてトレーニングされる、請求項７に記載のシステム。
計画法または計画法を模倣するようにトレーニングされた強化学習モジュールが、時間ステップごとに少なくとも１つの行動を計算するために利用される、請求項１に記載のシステム。
前記人工知能環境はさらに、前記可能な反応生成物のセットを予測する際に、少なくとも１つの反応条件を使用する、請求項１に記載のシステム。
前記可能な反応生成物のセットは、後続する反応の前記少なくとも１つの反応物として機能する、請求項１に記載のシステム。
前記少なくとも１つの反応物は、すべての利用可能な反応物のセットの特徴により定義される空間においてテンソルを含む、請求項１に記載のシステム。
クリティックモジュールが、反応物を選ぶ目的のため、前記少なくとも１つのアクターモジュールの出力を評価する、請求項３に記載のシステム。
前記化学反応予測モジュールは、規則ベースのアルゴリズム、物理ベースのアルゴリズム、量子力学的アルゴリズム、機械学習アルゴリズムおよびハイブリッド量子機械学習アルゴリズムのうちの少なくとも１つに基づいて、少なくとも１つの可能な反応生成物を予測する、請求項１に記載のシステム。
前記化学反応予測モジュールは、Ｎ成分変換に基づいて、前記少なくとも１つの可能な反応生成物のセットを予測する、請求項１に記載のシステム。
前記スコアリング関数モジュールは、前記可能な生成物のセットの少なくとも１つの予測されるまたは実験的な特性に従って報酬を決定する、請求項１に記載のシステム。
前記人工知能環境は、規則ベースのアルゴリズム、量子力学的アルゴリズム、物理ベースのアルゴリズム、機械学習アルゴリズムおよびハイブリッド量子機械学習アルゴリズムのうちの少なくとも１つに基づいて、逆合成予測モジュールを使用して合成プロセスを評価する、請求項１に記載のシステム。
前記少なくとも１つの予測される特性は、規則ベースのアルゴリズム、量子力学的アルゴリズム、物理ベースのアルゴリズム、機械学習アルゴリズムおよびハイブリッド量子機械学習アルゴリズムのうちの少なくとも１つにより決定される、請求項１７に記載のシステム。
分子の自動化された設計のための方法であって、
コンピュータ実装されたエージェントを使用して、少なくとも１つの反応物を伴う少なくとも１つの反応を生成することと、
前記コンピュータ実装されたエージェントにより、前記少なくとも１つの反応物を伴う少なくとも１つの反応を、人工知能環境に提供することと、
前記人工知能環境において、前記少なくとも１つの反応物を伴う少なくとも１つの反応をシミュレートして、少なくとも１つの可能な反応生成物のセットを生成することと、
所望の特性に従って、前記少なくとも１つの可能な反応生成物のセットをスコアリングすることと、
前記少なくとも１つの可能な反応生成物のセットから選択された最適反応生成物のセットを生成し、新たな反応物のセットとして機能するように前記最適反応生成物のセットを前記コンピュータ実装されたエージェントに渡すことと、
を特徴とし、前記最適反応生成物のセットが所望の最終生成物を含む場合に、前記方法が終了する、方法。