JP2023512307A - 所望の特性を有する化学化合物を生成するように学習するためのシステムおよび方法 - Google Patents
所望の特性を有する化学化合物を生成するように学習するためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2023512307A JP2023512307A JP2022547078A JP2022547078A JP2023512307A JP 2023512307 A JP2023512307 A JP 2023512307A JP 2022547078 A JP2022547078 A JP 2022547078A JP 2022547078 A JP2022547078 A JP 2022547078A JP 2023512307 A JP2023512307 A JP 2023512307A
- Authority
- JP
- Japan
- Prior art keywords
- module
- reaction
- reactant
- algorithm
- reactants
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 150000001875 compounds Chemical class 0.000 title abstract description 17
- 239000000376 reactant Substances 0.000 claims abstract description 70
- 238000006243 chemical reaction Methods 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 44
- 230000002787 reinforcement Effects 0.000 claims description 33
- 230000009471 action Effects 0.000 claims description 28
- 239000000047 product Substances 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 17
- 239000003795 chemical substances by application Substances 0.000 claims description 16
- 238000010801 machine learning Methods 0.000 claims description 14
- 230000002068 genetic effect Effects 0.000 claims description 10
- 230000006399 behavior Effects 0.000 claims description 7
- 238000004519 manufacturing process Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 2
- 239000007795 chemical reaction product Substances 0.000 claims 12
- 238000013473 artificial intelligence Methods 0.000 claims 9
- 230000003278 mimic effect Effects 0.000 claims 2
- 230000001902 propagating effect Effects 0.000 claims 1
- 239000000126 substance Substances 0.000 abstract description 8
- 210000000349 chromosome Anatomy 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 230000009977 dual effect Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000035772 mutation Effects 0.000 description 5
- 238000002910 structure generation Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 239000012467 final product Substances 0.000 description 2
- 239000013067 intermediate product Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 239000000575 pesticide Substances 0.000 description 1
- 230000003334 potential effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000005610 quantum mechanics Effects 0.000 description 1
- 238000010916 retrosynthetic analysis Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Analytical Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medicinal Chemistry (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Hardware Design (AREA)
Abstract
限定するものではないが、遺伝的アルゴリズム、専門家反復アルゴリズム、計画法、強化学習および機械学習アルゴリズムを含むいくつかのアルゴリズムによって使用され得る反応ベースの機構を定式化することによって、所望の特定の特性を有する化学化合物のライブラリを生成するためのシステムおよび方法。このシステムおよび方法はまた、反応物R1、R2からこれらの最適化された生成物S’が合成され得るプロセスステップを提供し得、さらに合成的に利用可能な化学空間の迅速かつ効率的な探索を可能とする。【選択図】図1
Description
関連出願の相互参照
本出願は、2020年1月30日に出願された、「SYSTEM AND METHOD FOR LEARNING TO GENERATE CHEMICAL COMPOUNDS WITH DESIRED PROPERTIES」と題された米国仮特許出願第62/967,898号の優先権を主張するものであり、その内容全体がここで参照により組み込まれるものとする。
本出願は、2020年1月30日に出願された、「SYSTEM AND METHOD FOR LEARNING TO GENERATE CHEMICAL COMPOUNDS WITH DESIRED PROPERTIES」と題された米国仮特許出願第62/967,898号の優先権を主張するものであり、その内容全体がここで参照により組み込まれるものとする。
本出願は、2020年9月9日に出願された、「SYSTEM AND METHOD FOR LEARNING TO GENERATE CHEMICAL COMPOUNDS WITH DESIRED PROPERTIES」と題された米国仮特許出願第63/076,151号の優先権を主張するものであり、その内容全体がここで参照により組み込まれるものとする。
本発明は、化学の分野に関し、新規な医薬品、材料、化粧品、農薬または他の化学化合物を生成するためのアルゴリズム的なまたは機械学習による化学反応予測に関する。
機械学習ベースのデノボ薬品設計を実行するための戦略は、構造生成スキームおよび反応ベースのスキームの2つの群に分類することができる。
構造生成スキームは、化学化合物を合成するために使用され得る化学反応の明示的な意向なしで、化学化合物を生成するようにトレーニングされる機械学習モデルである。構造生成スキームは、エンコーダ/デコーダベースの生成システムだけでなく、強化学習システムを利用し得る。しかしながら、これらの構造生成スキームはしばしば、製造することが不可能であるまたは現実的ではない分子につながり得る。これを補うために、通常、スキームのスコアリング関数モジュールへのデータ駆動型推定の導入を通して、合成アクセス性/実現可能性スコアが考慮される。また、最終的な化学化合物が生成された後に、逆合成解析が典型的に実行される。
構造生成スキームは、2つの大きな欠点を有する。第一に、生成モデルは頻繁に識別器モデルにおけるデータ駆動型アーチファクトを利用する傾向があり、このことは、生成を誤った方向に導き、生成される構造の実世界での合成の利用可能性を損ねる可能性がある。第二に、合成の利用可能性/実現可能性スコアを予測するいずれのデータ駆動型モデルも、モデルをトレーニングするために使用されたトレーニングセットに応じて、限られた適用可能性しか有さないこととなる。これらの欠点は、より長い計算時間、およびほとんど実用性のない結果をより多く生成することに導く。
これらの欠点は、新規な化学化合物の生成のための反応ベースのモデルの使用を通して克服され得る。既知の反応および市販のまたは合成的に利用可能な反応物に化学空間のアルゴリズムの探索を基づかせることにより、スコアリング関数モジュールの有効性が増大する可能性があり、生成スキームの全体的な生産性および効率が向上し得る。
しかしながら、既存の反応ベースのモデルは課題を呈する。DINGOSまたはPathFinderのような例は、2つの大きな点で制限される。第1に、いずれのシステムも、適用可能とするためには、対象の生物学的標的についての既知のテンプレートのリード化学化合物を必要とする。第2に、これらのシステムは、エンドツーエンドの方式でトレーニングされない。例えば、PathFinderの場合には、まず反応を使用して化学化合物が生成され、その次にようやく、接続されていないスコアリング関数モジュールを使用して、いくつかの生成物が選択される。DINGOSの場合には、考えられる2番目の反応物を予測する部分のみが実際にトレーニングされ、このトレーニングは、反応データを使用して教師あり方式でのみ実行される。
本明細書に説明される方法およびプロセスは、これらの制限を克服し、利用可能な反応物のセットを使用することにより、合成的に利用可能な化学空間のエンドツーエンドの反応ベースの探索を可能にする。1つ以上のテンプレート化合物は、もはや必要とされない。
化学化合物のライブラリを生成するためのシステムおよび方法が、本明細書に説明される。このシステムおよび方法は、限定するものではないが、強化学習もしくは専門家反復アルゴリズム、遺伝的アルゴリズムおよび/または計画法を含む機械学習によってガイドされる反応ベースのスキームを利用し、所望の特性、特徴および/または挙動を呈する化学物質候補を生成する目的のため、スコアリング関数モジュールを備える。このプロセスを通して、このシステムおよび方法はまた、これらの化学物質候補が合成および/または製造され得る対応する方法を生成および表示する。したがって、合成的に利用可能な化学空間の大部分を比較的短い時間フレームで効率的に探索することが可能になる。
本発明の実施形態の利点は、その例示的な実施形態の以下の詳細な説明から明らかになり、この説明は、同様の数字が同様の要素を示す添付図面と併せて考慮されるべきものである。
本発明の態様は、本発明の特定の実施形態を対象とする以下の説明および関連する図面に開示されている。代替の実施形態は、本発明の趣旨または範囲から逸脱することなく案出され得る。さらに、本発明の例示的な実施形態の周知の要素は、本発明の関連する詳細を不明瞭にしないように、詳細には説明されないかまたは省略される。さらに、本説明の理解を容易にするため、本明細書で使用されるいくつかの用語の考察が以下に続く。
本明細書で使用される「例示的」という語は、「例、実例または例解として機能する」ことを意味する。本明細書に説明される実施形態は、限定的なものではなく、むしろ単に例示的なものである。説明される実施形態は、必ずしも他の実施形態に対して好ましいまたは有利であると解釈されるべきものではないことは、理解されるべきである。さらに、「本発明の実施形態」、「実施形態」、または「本発明」という用語は、本発明のすべての実施形態が、考察される特徴、利点または動作の様式を含むことを必要とするものではない。
さらに、多くの実施形態は、例えば、計算装置の要素によって実行される動作のシーケンスという観点から説明される。本明細書に説明される様々な動作は、特定の回路(例えば、特定用途向け集積回路(ASIC))により、1つ以上の古典的もしくは量子プロセッサにより実行されるプログラム命令により、または両者の組み合わせにより、実行することができることは、認識されよう。さらに、本明細書に説明されるこれらの動作のシーケンスは、実行時に本明細書に説明される機能を関連するプロセッサに実行させる対応するコンピュータ命令のセットを格納した任意の形態のコンピュータ読み取り可能な記憶媒体内で完全に具現化されると考えられ得る。したがって、本発明の様々な態様は、多数の異なる形態で具現化され得るが、そのすべてが、請求される主題の範囲内にあることが企図されている。加えて、本明細書に説明される実施形態の各々について、任意のかかる実施形態の対応する形態は、例えば、説明された動作を実行する「ように構成された論理回路」として、本明細書に説明され得る。
強化学習は、アルゴリズムが環境をマッピングし、全体の報酬メトリックを最大化するために決定を行うことを目指す、機械学習のパラダイムである。強化学習を実装する1つの方法は、マルコフ決定プロセス(MDP)を通したものである。マルコフ決定プロセスは、内在する強化学習のタスクを記述するための数学的枠組である。この数学的枠組は、時間ステップごとの、状態S、行動A、遷移関数P、報酬Mおよび任意選択的に割引係数ガンマによって特徴付けられる。遷移関数Pは、任意の時間ステップtにおける状態Sでの行動Aが、時間ステップt+1において状態S’に導く確率を表す。マルコフ決定プロセスの枠組の目標は、各時間ステップにおいて報酬Mのある関数を最大化するエージェントについての方策を見つけることである。報酬Mは任意選択的に、割引係数γによりスケーリングされ得る。
マルコフ決定プロセスは好ましくは、エンドツーエンドの強化学習のワークフローとして構造化される。このエンドツーエンドの構造は、強化学習のワークフローが、特定のタスクに関連する行動を学習するのみならず、他の機能から独立して開発することが困難であり得る高次機能までを含むプロセス全体を学習することを可能とする。このことは、より洗練されたエージェントがトレーニングされることを可能とし、より幅広い多くの反応および必要な場合、対応する条件が考慮されることを可能とする。
強化学習アルゴリズムは、モデルベース型、モデルなし型、オンポリシー型およびオフポリシー型のような多くの異なるタイプに分類され得る。これらのアルゴリズムはまた、価値ベース法または方策勾配法のような更新規則に基づいて分類され得る。方策勾配法は、離散的な行動空間または連続的な行動空間を扱い得る。離散的な行動空間アルゴリズムの例は、REINFORCE、アクター-クリティック、アドバンテージアクター-クリティック、信頼領域方策最適化、ACKTRおよび近接方策最適化を含む。
しかしながら、化学化合物生成の場合には、離散的な行動空間は非常に大きいので、連続的な行動空間に適応または対応するアルゴリズムが好ましい。連続的な行動空間で動作するアルゴリズムの例は、決定方策勾配、深層決定方策勾配(DDPG)、分散分布深層決定方策勾配(D4PG)、双生遅延深層決定策勾配(TD3)およびソフトアクタークリティック(SAC)を含む。
大きな離散的な行動空間を管理するための本発明による別の方法は、連続的な空間における行動を予測し、次いでk近傍(kNN)アルゴリズムを使用して連続的な空間の行動を1つ以上の有効な離散的な行動にマッピングすることを伴う。これを達成するために、所与の入力に「近い」近傍が入力から「遠い」近傍よりも寄与する、距離メトリックが導入される。この「近さ」のメトリックを評価するために、任意の距離または発散のメトリックが使用され得る。k近傍に類似する特性を有するアルゴリズムもまた、使用され得る。
ここで図1を見ると、少なくとも1つのアクターモジュール110および少なくとも1つのクリティックモジュール120を有するエージェント101を特徴とする、MDPワークフロー100の例示的な実施形態が示されている。エージェント101は、kNNアルゴリズム150によって離散的な空間にマッピングされた反応予測器130によって記述され、スコアリング関数140に従ってスコアリングされる、環境102と相互作用する。環境102はまた任意選択的に、以上に説明されたようなクリティックモジュール120を複製するコピークリティックモジュール120bを含み得る。
時間ステップtごとに、反応物R2(t)は、既存の分子または反応物R1(t)と反応して、生成物R1(t+1)を生成する。R1(t)も状態S(t)により表され得、R2(t)も行動A(t)により表され得、生成物R1(t+1)は後続する時間ステップについての状態S’(t+1)として表され得る。
初期の時間ステップにおいて、初期の分子R1(t=0)は、利用可能なすべての反応物のリストからサンプリングされる。このサンプリングは、ランダム的なもの、統計的に駆動されるもの、スコアリング関数モジュールに基づいて選択されるもの、または本明細書に説明されるものと同様のエンドツーエンド方式でトレーニングされたニューラルネットワークモジュールに従って選択されるものであってもよい。潜在的な行動空間は非常に大きいので、行動空間のサイズを低減させ得る中間行動A1(t)を導入することが好ましい。中間行動A1(t)は、行動空間のためのフィルタとして機能する反応の形態を採り得る。この反応は好ましくは、メトリックとして反応物R1(t)およびR2(t)の一方または両方の活性部位に基づいて、行動空間をフィルタリングする。この反応は好ましくは、行動A(t)および/または反応物R2(t)をフィルタリングする。また、反応物および反応のいずれかについて、さらなるフィルタリングを実行することが好ましい場合がある。
反応物は、様々な形式でエンコードされ得る。反応物Rが分子構造のドメイン固有のベクトル表現でエンコードされる場合、関連するネットワークを直接通過させられ得る。しかしながら、反応物Rがグラフ形式でエンコードされる場合、反応物のコンパクトな表現を得るために、学習可能なまたは事前にトレーニングされたグラフの畳み込みまたは他のタイプの層を通過させられ得る。反応物Rが他の異なる、しかし同様に互換性のない形式でエンコードされる場合、反応物は適切な学習可能の層を通過させられ、適切で互換性がありコンパクトな表現に変換される。このコンパクトな表現は、所望のドメイン固有のベクトル表現と同じであってもよく、またはその機能的等価物であってもよい。
ここで図2を見ると、強化学習のワークフローのアクターモジュール110の例示的な実施形態が示されている。アクターモジュール110を構成するネットワークにおいては、2つの学習可能なネットワークFおよびPIが使用され得るが、任意の数の任意のタイプのニューラルネットワーク層および任意の活性化ユニットが使用され得る。学習可能なパラメータを有する任意の学習可能なモジュールが使用され得る。
任意選択的に、Fネットワークの出力が、テンプレートマスク210によって要素ごとに乗算され得る。このテンプレートマスク210は、2値ベクトルまたはテンソルであり、所与の反応物に対して1の値は、有効なテンプレートを表し、0の値は、無効なテンプレートを表す。この乗算の出力は次いで、ガンベル-ソフトマックス層220を通過させられて、最良の反応Tを表すワンホットのベクトル/テンソルTijを得ることができる。反応物R1(t)は、この反応Tとともに、次いでPIネットワークへの入力として使用され、プロト行動を計算する。したがって、このプロト行動は、典型的にはすべての行動Aの埋め込みによって定義される空間である連続的な空間において、反応物R2を有し得る。
ここで図3を見ると、強化学習のワークフローの例示的なクリティックモジュール120が描かれている。強化学習枠組の文脈において、クリティックモジュール120は、アクターモジュールの出力を評価する。クリティックモジュール120への入力は典型的には、状態S(t)、反応物R1(t)および/または反応T(t)、ならびに行動A(t)である。行動A(t)は、プロト行動および/または反応物R2(t)として、クリティックモジュールに入力され得る。クリティックモジュール120の目標は、行動の「良さ」Q(S,A)を算出または評価することである。2つ以上のアクターおよび/またはクリティックモジュール110、120を利用するワークフローも可能であり得る。
任意選択的に、クリティックモジュール120はまた、k近傍モジュール150の出力により提示される選択肢の中から1つ以上の最良の反応物Rを選ぶために使用され得る。これらの選択肢は、R1(t)を考慮して、または考慮せずに、反応によって決定付けられる有効な反応物のすべてから引き出され得る。
ここで図4を見ると、強化学習のワークフローにおいて使用される環境102の例示的な詳細なワークフローが説明されている。環境102は、プロト行動、最良の反応Tおよび/または現在の行動Aを取り込む。環境102は次いで、次の状態S(t+1)、次の状態S(t+1)に対応する報酬、エピソードの終了、および/または該当する場合、次の状態S(t+1)の各々の確率を予測する。環境102はまた、k近傍モジュール150、反応予測器130、スコアリング関数モジュール140、最大および/もしくは最大点集合演算子310、ならびに/またはエージェントのクリティックモジュール120bのコピーを含む。
このプロセスの間、環境102は、すべての反応物R2(t)の最良の反応Tに適合するプロト行動のk近傍を得るために、k近傍モジュール150への入力として、プロト行動、最良の反応Tおよび/またはすべての反応物の残りのベクトル/テンソル表現を渡す。これらのk個の有効な反応物R2K(t)は次いで、反応物R1(t)および最良の反応Tとともに反応予測器130モジュールを通過させられて、対応するk個の生成物SK(t+1)を得て、これらは次いでスコアリング関数モジュール140によって評価されて、対応するk個の報酬を得る。次いで、最大値および/または最大点集合演算子310によって決定されるような最大報酬に対応する生成物が選択される。
任意選択的に、環境102に提供されるクリティックモジュール120は、すべてのk個の有効な反応物R2(t)の良さQ(S,A)の値を評価し、反応物R1(t)または最良の反応Tとして、所与の状態Sに対する最良の良さの値Q(S,A)に対応する反応物R2(t)、および提供されたk個の有効な反応物R2(t)から選択される行動A(t)または反応物R2(t)を選ぶために使用され得る。この最良の反応物R2(t)は次いで、反応物R1(t)および最良の反応Tとともに、反応予測モジュール130を通過させられて、生成物および/または各生成物の対応する確率を得る。得られた生成物は、次いで、スコアリング関数モジュール140への入力として使用され、該モジュールが、次いで、報酬を計算する。
任意選択的に、PIネットワーク出力は、微分可能なk近傍モジュール150を通過され得る。クリティックネットワーク120は次いで、k個の選ばれた反応物から最良の2番目の反応物R2(t)を選択するために使用され得る。環境は、そのスコアリング関数モジュール140を使用して、最良の2番目の反応物に関連する報酬を算出し得る。
環境102のスコアリング関数モジュール140は、規則ベースおよび/または物理ベースの方法に従って機能し得る。スコアリング関数140はまた、機械学習ベースの方法を利用し得る。スコアリング関数モジュールの目標は、反応に関与する化合物の物理的、化学的、機能的、電気的、量子力学的、構造的、生物物理学的、および/または生化学的特性を予測および/または決定することである。生化学的特性は、例えば、細胞、組織または生物全体に関連する受容体、酵素などのような、単一または複数の生物学的標的に対する活量を記述し得る。
反応予測モジュール130は、提供された反応物および反応、ならびに必要な場合、対応する条件に基づいて、化学反応の結果を予測するために利用され得る。予測モデル130はまた、2番目の反応物が不要であり、単一の反応物、反応および必要な場合、対応する条件のみが必要な反応のタイプを表す、N成分変換を活用し得る。予測モジュールは、SMARTSまたは他の形式および表現を使用して反応に対応するように構造化され得る。
環境102の反応予測モジュール130はまた、前述の方法を利用して、エピソードを構成し得る単一または多ステップの仮想合成経路の終了を決定するために提供される。
「エピソード」とは、最終のまたは中間の生成物の合成を構成するプロセスとして定義される。エピソードは、少なくとも1つのステップから構成され、ステップは、プロセスのそのステップを実行することに関連する情報が含まれる。ステップは例えば、使用される反応物、反応を促進するために必要となり得る任意の環境因子、および/または達成するために必要な任意の触媒もしくは他の非反応性成分を含み得る。このようにして、エピソードは、最終のまたは中間の生成物が合成され得る一種の手法または手段をユーザに提供することを意味している。
環境102の報酬および/またはスコアリング関数モジュール140は、所望のおよび/または特定の特性に対する、予測されるおよび/もしくは実験的な、物理的、化学的、機能的、電気的、量子力学的、構造的、生物物理学的、ならびに/または生化学的特性に従って、反応物および/または生成物をスコアリングする。
これらの化学的特性は、反応物および/または生成物とともに、機械読み取り可能な形式で格納され得る。この機械読み取り可能な形式は、様々な段階において、人間が読める形式と機械学習のワークフローに好ましい形式との間で変換され得る。
スコアリング関数モジュール140は、入力として化学化合物を取え得、次いで、該化合物の1つ以上の特性、挙動、および/または特徴に関連する対応する値を出力する。スコアリング関数モジュール140は、限定するものではないが、機械学習モデルおよび/またはモデルの組み合わせ、分子または量子力学シミュレーション、および/または実験値を利用することができる。スコアリング関数モジュール140は、重み付け係数を利用することによって、これらの特性のうちの1つ以上をこれらの方法のうちの1つ以上と組み合わせ得る。
図5を参照すると、強化学習のワークフローの一部としての二重のアクター-クリティックワークフロー500を説明する例示的なワークフローが示されている。強化学習のワークフローは、単一のアクター-クリティックワークフローの代わりに、二重のアクターおよび/またはクリティックワークフロー500を含み得る。このようにして、ミニアクター510およびミニクリティック520は、それらのアクター-クリティック対応物110、120を伴う。2つ以上のミニアクター510モジュールおよび/またはミニクリティック520モジュールを含むワークフローも可能であり得る。アクター-クリティックモジュール110、120に加えて1つ以上のミニアクターモジュール510のみを含むワークフロー、またはアクター-クリティックモジュール110、120に加えて1つ以上のミニクリティックモジュール520のみを含むワークフローが、可能であり得る。
ミニアクターモジュール510は、入力として所与の少なくとも1つの反応物に対して反応が選ばれる確率を示すベクトル/テンソルを出力し得る。ミニクリティックモジュールは、必要な場合、ミニアクターモジュールの出力を評価し得る。
二重のアクター-クリティックワークフロー500の別の実施形態である多重のアクター-クリティックワークフロー600が、図6に例解される。二重のアクター-クリティックワークフロー500と同様に、多重のアクター-クリティックワークフロー600は、必要に応じて任意の数のアクター110、クリティック120、ミニアクター510、またはミニクリティックモジュール520を利用し得る。
ピラミッド型のアクター-クリティックワークフローとして同義的に説明される二重のアクター-クリティックワークフロー500の別の実施形態は、以下のように定式化され得、図7に描かれている。決定論的な遷移関数の仮定の下で、次の状態の価値関数V(s’)は、現在の状態Sおよび行動Aの対のQ(S,A)値と正確に等しい。この仮定は、「クリティック」が、クリティックの内部にある2つのモジュール、すなわち生成物予測器および価値関数予測器によって定義される、2ステップのプロセスに分解されることを可能とする。価値関数予測器は、例えば、生成物の次の状態s’の価値関数V(s’)を予測する。生成物予測器は、2つの異なるネットワーク、すなわち単分子反応を処理するためのUネットと、二分子反応を処理するためのBネットとを有する。
次いで、2つの仮想的な生成物が組み合わせられて、反応が単分子か二分子かに応じて、適切なRmaskを使用して、化学反応の仮想最終生成物Pを、以下に従って計算する。P=Pu*(1-Rmask)+Pb*Rmask
これらの仮説生成物予測モジュールから得られるこの最終的な仮説的な生成物は、学習可能な値関数モジュールVを通過させられ、Q(S,A)を得る。
ピラミッド型のアクター-クリティックワークフローの別の実施形態は、以下のように定式化され得、図8に描かれている。θLがPIネットワークのパラメータを示す、L個の層を有する方策ネットワーク、および
が方策ネットワークPI内の層0~1を示すPIネットワーク内の様々なサブネットワークを検討する。これらの層は、かかるL個の考えられるミニ方策ネットワークのうちの1つを構成する。次いで、現在の状態および方策モデルPIの層lの出力を取り込む別のニューラルネットワークClを検討する。これは、
ネットワークの出力とみなされ得る。ニューラルネットワークClは、仮想的な次の状態を予測する。Clの出力は次の状態の空間である必要はなく、任意の表現空間であってもよい。
1つのかかる仮説的次の状態予測モジュール(HyNeSP)は、ミニ方策モジュール
の各々に割り当てることができる。
の出力であり得る実際の行動Aなしでは真の次の状態を予測することができないため、これらの状態は、単に仮説的なものである。
ここで、決定論的な遷移関数を持つ環境、すなわち、所与の現在の状態Sおよび行動Aに対して1つの次の状態s’だけが取り得る環境を検討する。かかる場合においては、現在の状態Sおよび行動AのQ(S,A)関数は、次の状態S’の価値関数と等しく、すなわち、以下となる。Q(S,A)=V(S’)
遷移関数が非決定論的である場合、すなわち以下の場合であっても、ここでのアルゴリズムが依然として使用され得る。Q(S,A)≠V(S’)
HyNeSPの1つを使用して仮想的な次の状態h’が得られると、Q(S,A)を計算することは仮想的な次の状態の価値関数を計算することと等価となる。したがって、仮想的な次の状態h’を入力として取り、その価値関数を予測する、新たなネットワークVが導入され得る。
m個の異なるHyNeSPから選ばれる仮想的な生成物は、固定されたまたは学習可能な確率テンソルからサンプリングしてワンホットのテンソルに変換し、HyNeSPマスクMhに導くことによって決定される。
トレーニングのための別の方法は、クロスエントロピー法、またはより広くはモデル予測制御を利用することを伴う。アクターの出力にノイズが加えられる場合があり、報酬に基づいて、最適なノイズ分布が決定および/または計算され得る。このノイズ分布は、任意の確率分布を使用して最初にモデル化され得る。このプロセスは、事前にトレーニングされたアクターネットワークに対して、および/またはトレーニングフェーズの間に、使用され得る。任意選択的に、ノイズはネットワークのパラメータに直接追加され得る。
アクターネットワークをトレーニングするための別の方法は、専門家エージェント、準専門家デモンストレーションおよび/またはモンテカルロ木探索(MCTS)シミュレーションを介して、教師あり学習を利用し得る。連続的な行動空間においてMCTSを扱うための新規なトレーニング戦略が、導入され得る。方策の損失またはアクターの損失は、出力方策分布と目標方策分布との間の相違を最小化することを目的とする。
図9を参照すると、初期反応物を選ぶことを学習する強化学習のワークフローが描かれている。本発明の1つの潜在的な実施形態は、既存の強化学習の枠組に新たな目的関数を導入することを含む。既存の手法は、有限または無限のエピソード設定における時間ステップの数を変化させながら、割引されたもしくは割引されていない全体の報酬、または割引されたもしくは割引されていない報酬の関数を最適化することに主に焦点を当てているが、本発明は代わりに、エピソード全体で達成される最大の報酬を最適化し得る。本発明は、新たな目的を最適化するために、Q関数および任意の強化学習設定において使用される他の関数/変数に対する新規なベルマン方程式を利用し得る。
初期状態が固定されるか、与えられるか、またはランダムにサンプリングされる既存の方法とは対照的に、本発明は、初期状態を選ぶことを学習し得る。ランダムにノイズがサンプリングされ、反応物の任意の好ましい表現の空間内に出力がある生成器ネットワークGを通過させられ得る。生成器ネットワークGの出力は次いで、k近傍アルゴリズムを使用して、有効な初期反応物にマッピングされ得る。達成される報酬を損なうことなく生成される分子の多様性を促進するために、生成器ネットワークGを単一の点または単一の領域に崩壊させることを回避する技術が採用され得る。この目的のために使用され得る技術の例は、限定するものではないが、正則化、生成器ネットワークの出力のクラスタ間距離を最大化することによるソフトk平均クラスタリング、多様性に報酬を与えるように環境からの報酬を修正すること、または複数の生成器を使用することを含む。任意選択的に、生成器ネットワークGの出力を評価し、生成器ネットワークGのパラメータをアクター-クリティック方式で更新するために、追加的なクリティックネットワークが使用され得る。代替的に、k近傍の代わりに、k近傍の任意の微分可能バージョンのような、異なる方策勾配アルゴリズムが使用され得る。
順方向合成枠組をトレーニングするための別の方法は、図10に描かれているように、強化学習エージェントに対する代替として遺伝的アルゴリズムエージェントを利用することができる。遺伝的アルゴリズムにおいては、個体が所有する遺伝子または特徴のセットは、染色体1010と呼ばれる。母集団内の各個体の染色体は、強化学習ベースの実装と同様に、反応物の空間におけるプロト行動のシーケンスとして表現することができる。染色体の第1の部分は、反応物の特徴の空間における多次元プロト行動で始まり、これは、初期反応物R1の選択を担う。任意選択的に、このステップは、スキップされ得、初期反応物R1を選ぶために任意の他の方法が使用され得る。染色体の後続部分は、順方向合成の各ステップにおいて状態分子が反応する2番目の反応物の選択を担うプロト行動のシーケンスである。
各個々の染色体は、次いで、環境により評価される。環境は、染色体を受け取り、エンコードされたプロト行動にk近傍アルゴリズムを適用して、定義された特徴空間においてプロト行動に最も近い有効な初期反応物およびそれに続く2番目の反応物を選択する。次いで、環境は、多ステップの順方向合成を行い、各ステップにおける化学化合物を生成し、各分子の報酬値を計算する。多ステップの順方向合成プロセスの間に達成された最適化された報酬値は、各個体の染色体にエンコードされ、その適応度値として返される。
初期母集団の生成においては、個々の染色体は、ランダムに初期化される。初期母集団が評価されると、初期母集団は、交叉1020を受ける。交叉の間、特徴は、2つの個々の染色体間でランダムに交換され、子孫のセットを生成する。交叉後、単一個体の染色体における特徴量のランダムな変更である突然変異1030が続く。突然変異に続いて、最良の個体が、スコアリング関数モジュール1040を通して決定された報酬に従って選択され、新しい母集団または世代を形成するために使用される。交叉および突然変異のイベントは、事前定義された確率で特定の個体に対してトリガされる。
任意選択的に、1つ以上のニューラルネットワークが、遺伝的アルゴリズムによって生成されたサンプルまたはプロト行動に対してトレーニングされ得る。さらに、これらのニューラルネットワークからのサンプルは、さらなる交叉および突然変異の操作を実行し得るように、初期染色体として使用され得る。これらの2つのプロセスは、互いを改善するために、同時に、順次に、同期的におよび/または非同期的に実行され得る。
任意選択的に、1つ以上のニューラルネットワーク、アクターおよび/またはクリティックネットワークは、遺伝的アルゴリズムによって生成されるような、反応物の組、プロト行動、生成物および報酬のような、サンプルからサンプリングすることによって強化学習の枠組内でトレーニングされ得る。これらのニューラルネットワークからのサンプルは、初期染色体として使用され得、さらに交叉および突然変異の操作がこれらの染色体に対して実行され得る。これら2つのプロセスは、互いを改善するために、同時に、順次に、同期的におよび/または非同期的に実行され得る。
任意選択的に、1つ以上のニューラルネットワーク、アクター、および/またはクリティックネットワークは、以上に説明された遺伝的アルゴリズムまたは計画法のいずれかを模倣、模造または複製するために、強化学習の枠組内でトレーニングされ得る。
以上の説明および添付の図は、本発明の原理、好ましい実施形態および動作の様式を例解する。しかしながら、本発明は、以上に考察された特定の実施形態に限定されるものとして解釈されるべきではない。以上に考察された実施形態の追加的な変形は、当業者によって理解されるであろう(例えば、本発明の特定の構成に関連する特徴は、代わりに、所望により、本発明の任意の他の構成に関連付けられ得る)。
それゆえ、以上に説明された実施形態は、制限的なものではなく、例解的なものとみなされるべきである。したがって、それらの実施形態に対する変形が、以下の請求項によって定義される本発明の範囲から逸脱することなく、当業者によってなされ得ることは、理解されるべきである。
Claims (20)
- 分子の自動化された設計のためのシステムであって、
化学反応予測モジュールおよびスコアリング関数モジュールを備える、人工知能環境を特徴とし、
前記人工知能環境は、少なくとも1つの反応物を伴う少なくとも1つの反応に基づいて、可能な反応生成物のセットを予測し、前記人工知能環境は、所望のメトリックに基づいて、前記可能な反応生成物のセットをスコアリングする、システム。 - 近似モジュールをさらに備え、
前記近似モジュールは、互換性のあるメトリック空間における距離に基づいて、すべての利用可能な反応物のセットから、反応物の最も近いセットを特定する、請求項1に記載のシステム。 - コンピュータ実装されたエージェントをさらに備え、
前記コンピュータ実装されたエージェントは、強化学習プロセスに従って動作し、少なくとも1つのアクターモジュールを備え、
前記コンピュータ実装されたエージェントは、反応物の空間における反応および/または行動をシミュレートする目的のため、前記少なくとも1つの反応物を伴う少なくとも反応を、前記人工知能環境に提供することにより、前記強化学習プロセスを通して、前記人工知能環境とインタフェース接続する、請求項1に記載のシステム。 - 前記コンピュータ実装されたエージェントは、前記少なくとも1つのアクターモジュールの出力を評価するために使用される少なくとも1つのクリティックモジュールをさらに備える、請求項3に記載のシステム。
- 前記近似モジュールは、微分可能であり、コンピュータ実装されたエージェントの一部であり、それにより、前記近似モジュールは、前記近似モジュールを通して勾配を伝播させることにより、アクターネットワークおよびクリティックネットワークの少なくとも一方を、前記クリティックネットワークの出力に基づいて更新し得る、請求項2に記載のシステム。
- 初期反応物はランダムにサンプリングされるか、統計的なメトリックを使用することによりサンプリングされるか、またはクリティックモジュールにより出力が評価されるネットワークを使用することにより、サンプリングされる、請求項3に記載のシステム。
- 前記少なくとも1つの反応物を伴う少なくとも1つの反応は、遺伝的アルゴリズムにより生成されるプロト行動を通して選択される、請求項1に記載のシステム。
- 前記少なくとも1つの反応物を伴う少なくとも1つの反応は、遺伝的アルゴリズムの出力を模倣するようにトレーニングされた強化学習モデルにより選択される、請求項1に記載のシステム。
- 少なくとも1つのアクターモジュールおよび/または少なくとも1つのクリティックモジュールは、前記遺伝的アルゴリズムの出力に基づいてトレーニングされる、請求項7に記載のシステム。
- 計画法または計画法を模倣するようにトレーニングされた強化学習モジュールが、時間ステップごとに少なくとも1つの行動を計算するために利用される、請求項1に記載のシステム。
- 前記人工知能環境はさらに、前記可能な反応生成物のセットを予測する際に、少なくとも1つの反応条件を使用する、請求項1に記載のシステム。
- 前記可能な反応生成物のセットは、後続する反応の前記少なくとも1つの反応物として機能する、請求項1に記載のシステム。
- 前記少なくとも1つの反応物は、すべての利用可能な反応物のセットの特徴により定義される空間においてテンソルを含む、請求項1に記載のシステム。
- クリティックモジュールが、反応物を選ぶ目的のため、前記少なくとも1つのアクターモジュールの出力を評価する、請求項3に記載のシステム。
- 前記化学反応予測モジュールは、規則ベースのアルゴリズム、物理ベースのアルゴリズム、量子力学的アルゴリズム、機械学習アルゴリズムおよびハイブリッド量子機械学習アルゴリズムのうちの少なくとも1つに基づいて、少なくとも1つの可能な反応生成物を予測する、請求項1に記載のシステム。
- 前記化学反応予測モジュールは、N成分変換に基づいて、前記少なくとも1つの可能な反応生成物のセットを予測する、請求項1に記載のシステム。
- 前記スコアリング関数モジュールは、前記可能な生成物のセットの少なくとも1つの予測されるまたは実験的な特性に従って報酬を決定する、請求項1に記載のシステム。
- 前記人工知能環境は、規則ベースのアルゴリズム、量子力学的アルゴリズム、物理ベースのアルゴリズム、機械学習アルゴリズムおよびハイブリッド量子機械学習アルゴリズムのうちの少なくとも1つに基づいて、逆合成予測モジュールを使用して合成プロセスを評価する、請求項1に記載のシステム。
- 前記少なくとも1つの予測される特性は、規則ベースのアルゴリズム、量子力学的アルゴリズム、物理ベースのアルゴリズム、機械学習アルゴリズムおよびハイブリッド量子機械学習アルゴリズムのうちの少なくとも1つにより決定される、請求項17に記載のシステム。
- 分子の自動化された設計のための方法であって、
コンピュータ実装されたエージェントを使用して、少なくとも1つの反応物を伴う少なくとも1つの反応を生成することと、
前記コンピュータ実装されたエージェントにより、前記少なくとも1つの反応物を伴う少なくとも1つの反応を、人工知能環境に提供することと、
前記人工知能環境において、前記少なくとも1つの反応物を伴う少なくとも1つの反応をシミュレートして、少なくとも1つの可能な反応生成物のセットを生成することと、
所望の特性に従って、前記少なくとも1つの可能な反応生成物のセットをスコアリングすることと、
前記少なくとも1つの可能な反応生成物のセットから選択された最適反応生成物のセットを生成し、新たな反応物のセットとして機能するように前記最適反応生成物のセットを前記コンピュータ実装されたエージェントに渡すことと、
を特徴とし、前記最適反応生成物のセットが所望の最終生成物を含む場合に、前記方法が終了する、方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062967898P | 2020-01-30 | 2020-01-30 | |
US62/967,898 | 2020-01-30 | ||
US202063076151P | 2020-09-09 | 2020-09-09 | |
US63/076,151 | 2020-09-09 | ||
PCT/CA2021/050103 WO2021151208A1 (en) | 2020-01-30 | 2021-01-29 | System and method for learning to generate chemical compounds with desired properties |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023512307A true JP2023512307A (ja) | 2023-03-24 |
Family
ID=77078582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022547078A Pending JP2023512307A (ja) | 2020-01-30 | 2021-01-29 | 所望の特性を有する化学化合物を生成するように学習するためのシステムおよび方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20230050627A1 (ja) |
EP (1) | EP4097729A1 (ja) |
JP (1) | JP2023512307A (ja) |
KR (1) | KR20220158225A (ja) |
CN (1) | CN115428090A (ja) |
CA (1) | CA3169830A1 (ja) |
IL (1) | IL295199A (ja) |
WO (1) | WO2021151208A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753543B (zh) * | 2020-06-24 | 2024-03-12 | 北京百度网讯科技有限公司 | 药物推荐方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200168302A1 (en) * | 2017-07-20 | 2020-05-28 | The University Of North Carolina At Chapel Hill | Methods, systems and non-transitory computer readable media for automated design of molecules with desired properties using artificial intelligence |
GB201805300D0 (en) * | 2018-03-29 | 2018-05-16 | Benevolentai Tech Limited | Reinforcement Learning |
-
2021
- 2021-01-29 IL IL295199A patent/IL295199A/en unknown
- 2021-01-29 EP EP21746980.8A patent/EP4097729A1/en active Pending
- 2021-01-29 JP JP2022547078A patent/JP2023512307A/ja active Pending
- 2021-01-29 CN CN202180025823.8A patent/CN115428090A/zh active Pending
- 2021-01-29 WO PCT/CA2021/050103 patent/WO2021151208A1/en active Search and Examination
- 2021-01-29 US US17/796,826 patent/US20230050627A1/en active Pending
- 2021-01-29 CA CA3169830A patent/CA3169830A1/en active Pending
- 2021-01-29 KR KR1020227030038A patent/KR20220158225A/ko active Search and Examination
Also Published As
Publication number | Publication date |
---|---|
CN115428090A (zh) | 2022-12-02 |
IL295199A (en) | 2022-10-01 |
US20230050627A1 (en) | 2023-02-16 |
WO2021151208A1 (en) | 2021-08-05 |
KR20220158225A (ko) | 2022-11-30 |
CA3169830A1 (en) | 2021-08-05 |
EP4097729A1 (en) | 2022-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu et al. | Multiobjective evolutionary design of deep convolutional neural networks for image classification | |
Angermueller et al. | Model-based reinforcement learning for biological sequence design | |
Oreshkin et al. | Meta-learning framework with applications to zero-shot time-series forecasting | |
Baymurzina et al. | A review of neural architecture search | |
Xu et al. | Modeling of gene regulatory networks with hybrid differential evolution and particle swarm optimization | |
Wu et al. | An Improved Teaching‐Learning‐Based Optimization Algorithm with Reinforcement Learning Strategy for Solving Optimization Problems | |
Yeh et al. | Artificial bee colony algorithm-neural networks for S-system models of biochemical networks approximation | |
CN114093430A (zh) | 通过使用神经网络合成目标产物的方法和装置 | |
Osama et al. | Machine learning techniques in plant biology | |
Pinosky et al. | Hybrid control for combining model-based and model-free reinforcement learning | |
Altınçay | Ensembling evidential k-nearest neighbor classifiers through multi-modal perturbation | |
Yaman et al. | Meta-control of social learning strategies | |
JP2023512307A (ja) | 所望の特性を有する化学化合物を生成するように学習するためのシステムおよび方法 | |
Zhan et al. | Neural networks for geospatial data | |
Khaldi et al. | Surrogate-assisted evolutionary optimisation: a novel blueprint and a state of the art survey | |
US20220083884A1 (en) | Estimating latent reward functions from experiences | |
Liu et al. | Model gene network by semi-fixed Bayesian network | |
Öztürk | Initializing hyper-parameter tuning with a metaheuristic-ensemble method: a case study using time-series weather data | |
Peng | A Brief Summary of Interactions Between Meta-Learning and Self-Supervised Learning | |
Czibula et al. | Solving the protein folding problem using a distributed q-learning approach | |
US9183503B2 (en) | Sparse higher-order Markov random field | |
Panou et al. | DeepFoldit--A Deep Reinforcement Learning Neural Network Folding Proteins | |
Zhu et al. | Automated Machine Learning and Meta-Learning for Multimedia | |
van de Wolfshaar | Deep Reinforcement Learnig of Video Games | |
Papič et al. | Conditional generative positive and unlabeled learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240126 |