JP2021060992A

JP2021060992A - マシンラーニングシステム及び方法

Info

Publication number: JP2021060992A
Application number: JP2020167087A
Authority: JP
Inventors: ヘグデガネッシュ; Hegde Ganesh; エス．シンカハルソノ; S Simka Harsono
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-10-02
Filing date: 2020-10-01
Publication date: 2021-04-15
Also published as: KR20210040248A; CN112599208A; US11537898B2; US20210103822A1; EP3800586A1; TW202117577A

Abstract

【課題】マシンラーニングを用いる物質設計方法に関し、構造（Ｓ）−特性（Ｐ）の関係の基本共同分布ｐ（Ｓ，Ｐ）の学習によって、追加的な処理段階なしにサンプル（Ｓ，Ｐ）を直接生成する。【解決手段】敵対的生成ネットワークは、ランダムベクトルを生成する潜在空間ベクトル生成器、前記ランダムベクトルを入力として、シミュレーションされた構造及び特性全てを含むタプルを生成する生成器ネットワーク及び実際の構造及び実際の特性を含むデータベースから訓練され、シミュレーションされた構造及びシミュレーションされた特性を実際の構造及び実際の特性と区別し、損失関数を生成器ネットワークに伝送する判別器ネットワークを含む。潜在空間ベクトル生成器、生成器ネットワーク及び判別器ネットワークが同時に構造−特性ｐ（Ｓ，Ｐ）の基本共同確率分布を学習する。【選択図】図２

Description

本発明は、一般的にマシンラーニング（又は機械学習）を用いる物質設計のためのシステム及び方法に関する。

新規の及び／又は進歩した特性を有する物質に対する需要を満たす物質の発見に、マシンラーニングが利用されている。

図１を参照すると、物質の発見及び設計のプロセスが示されている。関心のある物質特性（Ｐ）は、オペレーション１０１で先に選択され得る。例えば、これは目標物質に係る特定物質の接着力、抵抗力、熱伝導性、融点、エレクトロマイグレーション（ｅｌｅｃｔｒｏｍｉｇｒａｔｉｏｎ）抵抗、酸化抵抗、破壊電圧又は特定用途に対する関連する物質特性の組合せであり得る。

候補物質（Ｍ）のリストは、まず特性Ｐの関連値を有する公知の物質との類似性に基づいた事前知識及び／又は化学的直観に基づいて、オペレーション１０２で収集される。候補リストのそれぞれの物質Ｍについて、結晶構造、配向等のような様々な適合する潜在的な物質の構造（Ｓ）がオペレーション１０３で生成され、特性Ｐは、異なる長さ及び時間スケールで、それぞれの潜在的構造についてオペレーション１０４で計算されることが可能である。例えば、（１）特性Ｐが人−関連時間スケール（ｈｕｍａｎ−ｒｅｌｅｖａｎｔｔｉｍｅｓｃａｌｅ）及び大きなスケールで計算されるときは、連続レベルシミュレーションを活用することができ、（２）特性Ｐが原子レベル（ｌｅｖｅｌｏｆａｔｏｍｓ）及びフェムト秒時間スケール（ｆｅｍｔｏｓｅｃｏｎｄｔｉｍｅｓｃａｌｅ）で計算されるときは、原子的シミュレーションを活用することができる。

オペレーション１０５では決定がなされる。物質Ｍが目標の物理的特性を満足する場合、オペレーション１０６で追加実験及び検証のための有利な候補と見なされることが可能である。多様なトレードオフを有する特性Ｐに関して、二つ以上の有利な候補があり得るため、プロセスがここで中断されないこともある。物質Ｍが目標特性Ｐを満足しなければ、候補セットの全ての物質がシミュレーションされるまで検索が継続される。

この説明の目的のために、図１にプロセスが示されている。図１は物質設計及び発見の「フォワード（ｆｏｒｗａｒｄ）」モード、例として、フォワード設計と称され得る。候補物質のリストは、特性Ｐに適合した物質についての事前知識に基づくか、あるいはＰの適切な値を有するものとして既知の他の物質と目標物質との類似性に基づいた化学的直観に基づいて選択されることができる。構造Ｓを特性Ｐにマッピングする公知の物質／アルゴリズムはフォワード設計に用いられ、このような選択プロセスは依然として特定用途に適合し得るが、（１）分野専門家の直観の外に置かれているか（２）与えられた特性を有する公知の物質と異なる多数の目標物質については盲目的であるかもしれない。

追加的に、フォワード設計は、構造Ｓの特性Ｐをシミュレーションするのに必要な時間で制限され得る。可能な物質世界での時間制約により、小さな部分しかシミュレーションすることができない場合がある。

このような観点から、マシンラーニングを用いる物質発見のプロセスを改善する必要がある。

背景技術の情報は、本明細書に記述された本発明の概念についての理解を深めるためのものであるだけで、従来技術の存在又は関連性を認めるものと解釈されてはならない。

本発明の一つ以上の実施形態は、物質設計のためのマシンラーニングシステムに関するもので、ここで構造（Ｓ）−特性（Ｐ）の関係の基本共同（又は同時）分布ｐ（Ｓ，Ｐ）が学習され活用されて、追加的な処理段階（オペレーション）なしで生成技術を使用して単一段階（オペレーション）でサンプル（Ｓ，Ｐ）を直ちに生成する。

本発明の一つ以上の実施形態は、マシンラーニングを用いる物質設計方法に関するもので、ここで構造（Ｓ）−特性（Ｐ）の関係の基本共同分布ｐ（Ｓ，Ｐ）が学習され活用されて、追加的な処理段階なしで生成技術を使用して単一段階でサンプル（Ｓ，Ｐ）を直接生成する。

本発明の実施形態によれば、特性Ｐに対する目標を満足させるか超過する構造のサブ空間（例えば、全ての可能性ある構造を代表する全ての空間を意味する）は、条件付き生成（例：ｐ（Ｐ））を活用するか、多数のサンプル（Ｓ，Ｐ）を無作為に生成して目標特性基準を満足するサンプルをフィルタリング（例：選択）して識別する。

本発明の技術的課題は、以上で言及した技術的課題に制限されず、言及されていないまた他の技術的課題は、以下の記載から通常の技術者に明確に理解され得るものである。

本発明の実施形態によれば、目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステムは、敵対的生成ネットワーク（ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ：ＧＡＮ）を含み、前記ＧＡＮは、ランダムベクトルを生成するように構成された潜在空間ベクトル生成器（ｌａｔｅｎｔｓｐａｃｅｖｅｃｔｏｒｇｅｎｅｒａｔｏｒ）、前記ランダムベクトルを入力として受信し、シミュレーションされた構造及びシミュレーションされた特性全てを含むタプル（ｔｕｐｌｅ）を生成するように構成された生成器ネットワーク（ｇｅｎｅｒａｔｏｒｎｅｔｗｏｒｋ）、及び実際の構造及び実際の特性を含むデータベースから訓練され、前記シミュレーションされた構造及び前記シミュレーションされた特性を前記実際の構造及び前記実際の特性と区別し、損失関数を前記生成器ネットワークに伝送するように構成された判別器ネットワーク（ｄｉｓｃｒｉｍｉｎａｔｏｒｎｅｔｗｏｒｋ）を含み、前記潜在空間ベクトル生成器、前記生成器ネットワーク及び前記判別器ネットワークが同時に構造−特性ｐ（Ｓ，Ｐ）の基本共同（又は同時）確率分布（ｕｎｄｅｒｌｙｉｎｇｊｏｉｎｔｐｒｏｂａｂｉｌｉｔｙｄｉｓｔｒｉｂｕｔｉｏｎ）を学習するために配置される。

一実施形態において、前記目標特性（Ｐ）は一つ以上の物理量を含み、前記構造（Ｓ）は、構造ベクトルの要素が特定位置の原子種を示すエンコーディングされたベクトル化表示から選択された表示、構造ベクトルの連続タプルが固定原子種のデカルト座標の変数（ｘ，ｙ，ｚ）を示す浮動小数点ベクトル化表示、及び種及び／又は座標タプルを連続的に含む混合表示を含む。

一実施形態において、目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステムは、単一生成器ネットワークを含む。

一実施形態において、前記生成器ネットワークは、前記シミュレーションされた構造を生成する第１生成器ネットワーク、及び前記シミュレーションされた特性を生成する第２生成器ネットワークを含み、前記第１生成器ネットワーク及び前記第２生成器ネットワーク全ては、同一の前記潜在空間ベクトル生成器から前記ランダムベクトルを受信するように構成される。

一実施形態において、前記生成器ネットワークは、前記シミュレーションされた構造を生成する第１生成器ネットワーク及び複数の第２生成器ネットワークを含み、前記複数の第２生成器ネットワークは、複数のシミュレーションされた特性のうちの一つをそれぞれ生成し、前記第１生成器ネットワーク及び前記複数の第２生成器ネットワーク全ては、前記同一の潜在空間ベクトル生成器から前記ランダムベクトルを受信するように構成される。

一実施形態において、前記判別器ネットワークは、浮動小数点又は離散カウント値を出力するように構成される。

一実施形態において、目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステムは、ＧＰＵｓ（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ）及び／又はＦＰＧＡｓ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）を含むコンピューティング装置を含む。

本発明の一つ以上の実施形態によれば、マシンラーニングを用いて目標特性（Ｐ）に係る構造（Ｓ）を生成する方法は、実際の構造と実際の目標特性を含むデータベースで判別器ネットワークを訓練し、生成器ネットワークを介してシミュレーションされた構造及びシミュレーションされた特性を生成し、前記判別器ネットワークが前記シミュレーションされた構造と前記実際の構造の間の差を前記データベースと区別できないように前記生成器ネットワークを訓練し、構造−特性ｐ（Ｓ，Ｐ）の基本共同確率分布を同時に学習し、前記基本共同確率分布を活用して前記目標特性に係る前記構造を生成することを含む。

一実施形態において、前記目標特性に係る前記構造を生成することは、潜在空間分割ｐ（Ｐ）を用いて前記目標特性（Ｐ）に係る前記構造（Ｓ）を生成することを含む。

一実施形態において、前記目標特性に係る前記構造を生成することは、多数のサンプル（Ｓ，Ｐ）を無作為に生成すること、及び前記目標特性（Ｐ）を満足する前記サンプルをフィルタリングすることを含む。

一実施形態において、前記目標特性（Ｐ）は物理量を含み、前記構造（Ｓ）は、構造ベクトルの要素が特定位置の原子種を示すエンコーディングされたベクトル化表示から選択された表示を含み、構造ベクトルの連続タプルが固定原子種のデカルト座標の変数（ｘ，ｙ，ｚ）を示す浮動小数点ベクトル化表示を含み、種及び／又は座標タプルを連続的に含む混合表示を含む。

一実施形態において、マシンラーニングを用いて目標特性（Ｐ）に係る構造（Ｓ）を生成する方法は、潜在空間ベクトル生成器を介してランダムベクトルを生成することをさらに含み、前記生成器ネットワークを介して前記シミュレーションされた構造及び前記シミュレーションされた特性を生成することは、前記ランダムベクトルを入力として使用し、前記生成器ネットワークを訓練することは、前記判別器ネットワークから前記生成器ネットワークに損失関数を伝送することを含む。

一実施形態において、前記生成器ネットワークは、前記シミュレーションされた構造を生成する第１生成器ネットワーク、及び前記シミュレーションされた特性を生成する第２生成器ネットワークを含み、前記第１生成器ネットワーク及び前記第２生成器ネットワーク全ては、前記同一の潜在ベクトル空間生成器から前記ランダムベクトルを受信するように構成される。

本発明の一つ以上の実施形態によれば、目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステムは変分オートエンコーダ（ｖａｒｉａｔｉｏｎａｌａｕｔｏｅｎｃｏｄｅｒ：ＶＡＥ）を含み、前記ＶＡＥは、エンコーダネットワーク（ｅｎｃｏｄｅｒｎｅｔｗｏｒｋ）、潜在空間、デコーダネットワーク（ｄｅｃｏｄｅｒｎｅｔｗｏｒｋ）を含み、前記エンコーダネットワークは、入力として実際の構造及び実際の特性を含むデータベースを受信し、前記入力を圧縮してエンコーディングされたベクトルを生成し、前記潜在空間で前記エンコーディングされたベクトル分布の平均及び標準偏差を生成し、前記デコーダネットワークは、前記実際の構造及び前記実際の特性を含む前記データベースから学習され、前記エンコーディングされたベクトルを圧縮解除して前記シミュレーションされた構造及び前記シミュレーションされた特性を生成し、前記シミュレーションされた構造及び前記シミュレーションされた特性そして前記実際の構造及び前記実際の特性間の差を区別し、損失関数を前記エンコーダネットワークに伝送し、前記エンコーダネットワーク、前記潜在空間及び前記デコーダネットワークは、同時に構造−特性ｐ（Ｓ，Ｐ）の基本共同確率分布を学習する。

一実施形態において、前記目標特性（Ｐ）は一つ以上の物理量を含み、前記構造（Ｓ）は、構造ベクトルの要素が特定位置の原子種を示すエンコーディングされたベクトル化表示から選択された表示を含み、構造ベクトルの連続タプルが固定原子種のデカルト座標の変数（ｘ，ｙ，ｚ）を示す浮動小数点ベクトル化表示を含み、種及び／又は座標タプルを連続的に含む混合表示を含む。

一実施形態において、前記システムは、ＧＰＵｓ及び／又はＦＰＧＡｓを含むコンピューティング装置を含む。

本発明の一つ以上の実施形態によれば、マシンラーニングを用いて目標特性（Ｐ）に係る構造（Ｓ）を生成する方法は、実際の構造及び実際の特性を含むデータベースを入力としてエンコーダネットワークに入力し前記入力を圧縮してエンコーディングされたベクトル、平均及び潜在空間での前記エンコーディングされたベクトルの分布の標準偏差を生成し、前記実際の構造と前記実際の特性を含む前記データベースでデコーダネットワークを訓練し、前記エンコーディングされたベクトルを圧縮解除して前記デコーダネットワークによりシミュレーションされた構造及び特性を生成し、前記エンコーダネットワークに損失関数を伝送し、構造−特性ｐ（Ｓ，Ｐ）の基本共同確率分布を同時に学習することを含む。

一実施形態において、マシンラーニングを用いて目標特性（Ｐ）に係る構造（Ｓ）を生成する方法は、前記目標特性（Ｐ）に係る前記構造（Ｓ）を生成するために、潜在空間分割ｐ（Ｐ）を用いて前記目標特性に係る前記構造を生成することをさらに含む。

一実施形態において、マシンラーニングを用いて目標特性（Ｐ）に係る構造（Ｓ）を生成する方法は、多数のサンプル（Ｓ，Ｐ）を無作為に生成して前記目標特性に係る前記構造を生成すること、及び前記目標特性（Ｐ）を満足する前記サンプルをフィルタリングすることをさらに含む。

一実施形態において、前記目標特性（Ｐ）は物理量を含み、前記構造（Ｓ）は、構造ベクトルの要素が特定位置の原子種を示すエンコーディングされたベクトル化表示から選択された表示、構造ベクトルの連続タプルが固定原子種のデカルト座標の変数（ｘ，ｙ，ｚ）を示す浮動小数点ベクトル化表示、及び種及び／又は座標タプルを連続的に含む混合表示を含む。

その他実施形態の具体的な内容は、発明の説明及び図面に含まれている。

フォワード設計プロセスの例示である。本発明の一実施形態によるＧＡＮのためのシステム及び訓練プロセスの概略図である。本発明の一実施形態によるサンプル生成プロセスの概略図である。本発明の一実施形態によるＧＡＮのためのシステム及び訓練プロセスの概略図である。結晶構造予測のための逆設計アプローチの概略図である。メタサーフェス（ｍｅｔａｓｕｒｆａｃｅ）に対する逆設計アプローチの概略図である。本発明の一実施形態によるＶＡＥアーキテクチャを用いるシステム及び訓練プロセスの概略図である。

本発明の実施形態の他の特徴及び長所は、添付する図面と共に考慮されるとき、次の発明の説明を参照してより明確になる。図面において、類似の特徴及び構成要素を参照するために、図面全体にわたって類似の参照符号が使用される。数値が必ずしも蓄積とおりに描かれるものではない。

以下で、添付する図面と共に例示的な実施形態がより詳細に後述される。明細書全体にわたって、同一参照符号は同一構成要素を指す。しかし本発明は、以下で開示される実施形態に限定されるものではなく、互いに異なる多様な形態で具現されるものであり、単に本実施形態は本発明の開示が完全なようにし、本発明が属する技術分野における通常の知識を有する者（以下、「通常の技術者」）に発明の範疇を完全に知らせるために提供されるものであり、本発明は請求項の範疇により定義されるだけである。そのため、本発明の様相及び特徴の完全な理解のために、通常の技術者に必須ではない工程、構成要素及び技術は説明されないものである。別途の言及がなければ、添付した図面及び説明全般にわたって、同一参照符号は同一構成要素を指すため、それらについての説明は繰り返されない。

本明細書において使用された用語は、実施形態を説明するためのものであり、本発明を制限しようとするものではない。本明細書において、単数形は、文面で特別に言及しない限り複数形も含む。明細書で使用される「含む（ｃｏｍｐｒｉｓｅｓ）」及び／又は「含む（ｃｏｍｐｒｉｓｉｎｇ）」は、言及された構成要素の他に一つ以上の他の構成要素の存在又は追加を排除しない。

本発明の実施形態を説明する際、「〜であり得る（ｍａｙ）」の使用は、「本発明の一つ以上の実施形態」を指そうとするものである。本明細書において、「使用する（ｕｓｅ）」、「使用する（ｕｓｉｎｇ）」、「使用された（ｕｓｅｄ）」は、それぞれ「活用する（ｕｔｉｌｉｚｅ）」、「活用する（ｕｔｉｌｉｚｉｎｇ）」、「活用された（ｕｔｉｌｉｚｅｄ）」と同じ意味のものと考慮され得る。また、「例示的な（ｅｘｅｍｐｌａｒｙ）」は、例又は説明を指そうとするものである。

他の定義がなければ、本明細書において使用される全ての用語（技術及び科学的用語を含む）は、本発明が属する技術分野における通常の知識を有する者に共通して理解され得る意味で使用され得るものである。また、一般的に使用される辞書に定義されている用語は、明らかに特別に定義されていない限り、理想的に又は過度に解釈されない。

本明細書に技術された本発明の実施形態による電子又は電気装置及び／又は他の関連装置又は構成要素は、任意の適切なハードウェア、ファームウェア（例えば、応用−特定集積回路）、ソフトウェア、又はソフトウェア、ファームウェア及びハードウェアの組合せを用いて具現されることができる。これら装置の多様な構成要素は、一つ以上のプロセッサ上で、一つ以上のコンピューティング装置で実行され、コンピュータープログラム命令を実行し、本明細書に記述された多様な機能を行うために他のシステム構成要素と相互作用するプロセス又はスレッドであり得る。コンピュータープログラム命令は、例えば、揮発性メモリ（ＲＡＭ）のような標準メモリ装置を用いるコンピューティング装置で具現されることができるメモリに保存される。コンピュータープログラム命令はまた、例えば、ＣＤ−ＲＯＭ、フラッシュドライブ等のような他の非一時的なコンピュータ読み取り可能媒体に保存されることができる。また、本発明の例示的な実施形態の範囲によれば、通常の技術者は、多様なコンピューティング装置の機能が単一コンピューティング装置に結合されるか統合されることができたり、特定コンピューティング装置の機能が一つ以上の他のコンピューティング装置にわたって分散され得ることを認識しなくてはならない。

以下の説明で、用語「構造（ｓｔｒｕｃｔｕｒｅ）」は、原子構造、物質で規則的か不規則的なパターンである原子の配列及び／又は物質、及び化合物で原子種の空間組成を指すことができる。

以下の説明で、用語「特性（ｐｒｏｐｅｒｔｙ）」は、構造に定義された原子配列に基づいて計算される沸点、融点、比熱容量、密度、抵抗力、熱伝導度、電子伝送、エレクトロマイグレーション抵抗、電子レベル密度、フォノンレベル密度、電子−フォノン散乱の平均自由行程等のような物理的特性及び／又は電子構造の特性を指すことができる。

以下の説明で、用語「同時に（ｓｉｍｕｌｔａｎｅｏｕｓｌｙ）」は、生成プロセスの段階又はオペレーションと関連して同時に（ｃｏｎｃｕｒｒｅｎｔｌｙ）、同期化された（ｓｙｎｃｈｒｏｎｏｕｓ）及び／又は偶然の（ｃｏｉｎｃｉｄｅｎｔａｌ）と相互交換可能に使用される。

本明細書全体にわたって、用語「共同確率分布（ｊｏｉｎｔｐｒｏｂａｂｉｌｉｔｙｄｉｓｔｒｉｂｕｔｉｏｎｐ（Ｓ，Ｐ））は、構造及び特性の関係を示す確率分布を示し、ここで構造Ｓ及び目標特性Ｐは、２つの別個の事件として同時に発見され得る。「構造（Ｓ）−特性（Ｐ）関係の共同分布ｐ（Ｓ，Ｐ）は、同時に学習される」という表現は、関係ｐ（Ｓ，Ｐ）を直接、同時に学習するシステム又は方法を指す。すなわち、「構造（Ｓ）−特性（Ｐ）関係の共同分布ｐ（Ｓ，Ｐ）が同時に学習されるとき」個別確率ｐ（Ｓ）、個別確率ｐ（Ｐ）、条件付き確率ｐ（Ｓ｜Ｐ）、条件付き確率ｐ（Ｐ｜Ｓ）又は他のマシンラーニング分布から共同分布ｐ（Ｓ，Ｐ）は得られない。

また、「サンプル（Ｓ，Ｐ）」という表現は、構造Ｓと特性Ｐを有するサンプルをいう。

本発明の実施形態によれば、マシンラーニングを用いた物質設計及び方法及びシステムが提供され、ここで構造（Ｓ）−特性（Ｐ）関係の基本共同確率分布ｐ（Ｓ，Ｐ）は同時に学習され（すなわち、明示的に同時に学習される）、追加処理段階（オペレーション）なしで生成技法を使用して単一段階（オペレーション）でサンプル（Ｓ，Ｐ）を直接生成するのに用いられる。特性Ｐの目標を満足するか超過した構造のサブ空間は、分布の条件付き生成（例：ｐ（Ｐ））を用いて識別されるか、あるいは無作為に多数のサンプル（Ｓ，Ｐ）を生成し目標特性基準を満足するサンプルをフィルタリング（例：選択）して識別される。

関連実施形態において、フォワード設計に対する代案的アプローチは、物質逆設計であり得る。ここでは、直観及び事前知識を活用して応用に適合した候補物質セットを見つける代わりに、目標特性Ｐは多数の逆設計アプローチを用いて構造Ｓにマッピングされ得る。例えば、逆設計アプローチは、図５の概略図に示すように結晶構造予測に用いられることができる。

統計的推論ベースのアプローチ５１０は、大型データベースから構造−特性関係を学習し、この学習を用いて特定の特性、例えば特定の結晶構造の類型を有し得る物質の特定組成の確率を予測する。ここで出力は結晶（物質）組成であり、入力は結晶構造である。二元系及び三元系物質の大きいグループにおいて、構成対基底状態結晶構造のマッピングはマシンラーニングモデルで抽出される。その次に、モデルを使用して分からない構造を有する組成の結晶類型を予測する。

遺伝子アルゴリズムベースのアプローチ５３０において、粒子群最適化（ｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎ：ＰＳＯ）、遺伝子アルゴリズム等のような進化した及び／又は他のグローバル最適化技術は、エラー関数に対するグローバル最適解（ｇｌｏｂａｌｏｐｔｉｍｕｍ）を見つけるのに活用される。

ここで、特性α又は多数の特性に対する和は、候補構造σの空間で計算される。グローバル最小値、すなわち所望する特性と計算された特性の差を最適化する構造は、ヒューリスティック（ｈｅｕｒｉｓｔｉｃ）最適化技法を使用して得ることができる。

他のアプローチは生成モデルベースのアプローチ５５０であり得る。フォワード設計の問題点は、関心のある確率分布は与えられた特性の、構造で条件付けられた条件付き確率であるｐ（特性｜構造）である。入力を知っているとき、出力分布を見つける問題のカテゴリーを判別的問題という。逆のアプローチでは条件がｐ（構造｜特性）に入れ替わる。このような問題は、生成的な問題である。生成アプローチは、図６に示すように、目標光学スペクトルと一致する幾何学的構造を識別するためのＧＡＮの使用が含まれ得る。

図６を参照すると、メタサーフェス（ｍｅｔａｓｕｒｆａｃｅ）設計は、施行錯誤アプローチでシミュレーションと逆設計全てを活用してメタサーフェスから光学スペクトルを生成するための構造−変換関係を構築することによりニューラルネットワーク媒介逆設計に転換されることができ、その反対であり得る。二つの過程どちらも深層ニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｅｗｏｒｋ：ＤＮＮ）で代替されることができる。人工知能（ＡＩ）ベースの光学設計のためのネットワークの構造は、図６に示すように、３つのネットワーク、生成器（ｇｅｎｅｒａｔｏｒ）６１０、シミュレータ（ｓｉｍｕｌａｔｏｒ）６３０、クリティック又は評価器（ｃｒｉｔｉｃ）６５０を含み得る。生成器は、スペクトルＴ及びノイズＺを受容し可能なパターンを生成することができる。シミュレータは、出力で与えられたパターンに対する透過スペクトルＴに近似する事前に訓練された学習済みネットワークであってもよく、クリティックは、幾何データと生成器のパターンの間の分布距離を評価することができる。生成器を訓練する間、生成されたパターンは、シミュレータとクリティックから得たフィードバックにより変わり得る。訓練プロセス中に有効なパターンが文書化され得、候補構造として資格が付与され得るが、与えられた特性に係る構造を識別するためには追加段階（オペレーション）が必要である。

図５及び図６を参照すると、与えられたプロセスで構造の条件付き確率分布ｐ（構造｜特性）又は特性の確率分布ｐ（特性｜構造）のうち一つのみ得ることができる。これらのアプローチのうち、いずれも生成技術を用いて構造（Ｓ）−特性（Ｐ）関係の基本共同分布ｐ（Ｓ，Ｐ）を同時にそして追加的な処理段階なしで、新しい構造を生成したり予測したりすることはできない。実際に、このような方法で、目標特性（Ｐ）に係る与えられた構造（Ｓ）が識別される前に、多くの段階が必要である。

これと対照的に、本発明の実施形態によるアプローチは、所望の／目標の特性についての分布を偏向させるために追加的な学習フレームワークを要求せず、生成フレームワークで全体的に逆設計を行うことができる。例えば、本明細書において強化学習が必要でないこともあり得る（すなわち、含まれないことがあり得る）。

一部の例示的な実施形態によれば、任意の物質の構造及び特性の共同確率分布は、中間段階（オペレーション）及び以後のプロセスを含む代わりに単一段階（オペレーション）で得ることができる。追加的に、一部の例示的な実施形態によれば、（Ｓ，Ｐ）すなわち構造及び特性は、中間又は以後のプロセス段階（オペレーション）なしで単一段階（オペレーション）で生成されることができる。

本発明の一つ以上の実施形態によれば、構造と特性を同時に生成する方法は、構造−特性ｐ（Ｓ，Ｐ）の共同確率分布の基本統計特性を同時に学習することを含み、ここで構造生成と特性生成の間に追加段階（オペレーション）又は計算処理は必要ない。本発明の実施形態によれば、共同分布ｐ（Ｓ，Ｐ）は、ｐ（Ｓ）、ｐ（Ｓ｜Ｐ）、ｐ（Ｐ）及び／又はｐ（Ｐ｜Ｓ）の分布を学習して順次的に学習されてはいない。

本発明の実施形態によれば、基本共同確率分布ｐ（Ｓ，Ｐ）は、ＧＡＮｓ（ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ）、これの任意の適合した変形であるＤＣＧＡＮ（ｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌＧＡＮ）、ＷＧＡＮ（ＷａｓｓｅｒｓｔｅｉｎＧＡＮ）、及びＦＧＡＮ（ＦｉｓｈｅｒＧＡＮ）等、ＶＡＥ、アテンションネットワーク（Ａｔｔｎｅｔｉｏｎｎｅｔｗｏｒｋ）のような変形及び／又は、ＶＡＥ−ＧＡＮのようなそれの組合せから選択された生成フレームワークにより学習されることが可能であるが、これに制限されるものではない。

図２は本発明の一実施形態によるＧＡＮのためのシステム及び訓練プロセスの概略図である。システムは、潜在空間ベクトル生成器（Ｖ）２１０、生成器ネットワーク（Ｇ）２３０、判別器ネットワーク（Ｄ）２５０を含む。

マシンラーニングにおいて、１エポックは全ての訓練データを網羅した一つの反復である。訓練データは多様な大きさの配列に分割される。全ての訓練エポックの初期段階は、判別器に実際の構造と実際の特性の対を活用して「真（ｔｒｕｅ）」の例がどんなものであるかを教える。各訓練エポックの後続段階は、生成器ネットワーク（Ｇ）を訓練させて実際の対と区別できないシミュレーションされた構造とシミュレーションされた特性を生成するのに使用される。構造−特性の対を共に（同時に）学習して訓練することにより、システムはｐ（Ｓ，Ｐ）の共同分布を同時に学習することができる。

訓練プロセス（ステージ）において、判別器ネットワーク（Ｄ）は、実際の構造（Ｒ_ｒｅａｌ）と実際の特性（Ｔ_ｒｅａｌ）間のマッピング関数を学習するために、実際の構造（Ｒ_ｒｅａｌ）と実際の特性（Ｔ_ｒｅａｌ）を同時に使用して訓練される。例えば、目標特性を有する実際の物質は、判別器ネットワーク（Ｄ）を訓練させるのに使用される。実際の構造（Ｒ_ｒｅａｌ）と実際の特性（Ｔ_ｒｅａｌ）を全て使用して判別器ネットワーク（Ｄ）を訓練することにより、構造−特性の関係を同時に学習することができる。例えば、構造を別に学習する前又は後に順次的に学習してはいない。

マシンラーニングにおいて潜在空間は、物質の構造及び特性等のような外部から観察された事件（又はイベント）の意味ある内部表現をエンコーディングする特徴値（すなわち、ベクトル）を含む抽象的な多次元空間を指す。潜在空間は、定量的空間表現／モデリングによってこのような事件（構造及び特性）についての理解（又は表現）をコンピュータに提供することを目標とする。事件の各属性は、潜在空間において一つ以上のベクトルで表現され、事件は潜在空間で複数の次元で表現され得る。

本発明の一実施形態によるＧＡＮを用いることにおいて、潜在空間ベクトル生成器（Ｖ）は、所望する次元の純粋な乱数（ｒａｎｄｏｍｎｕｍｂｅｒ）を生成する。例えば、潜在空間ベクトル生成器（Ｖ）は、任意の適切な次元の純粋ランダムベクトルを出力することができる。例えば、１０次元において、全ての乱数は平均及び単位分散が０であるガウス分布（Ｇａｕｓｓｉａｎｄｉｓｔｒｉｂｕｔｉｏｎ）、すなわち、標準正規分布で導出される。このフレームワークにおいて、乱数生成器を使用する裏面の概念は、このようなランダムベクトルについての意味が「帰納的な（ａｐｏｓｔｅｒｉｏｎ）」と指定されるということである。訓練プロセスにおいて、ある形態の順序が生成されるベクトルのサブ空間が所望するサブ空間、例えば目標特性がある構造を有するサブ空間に一致するように、潜在空間ベクトル生成器により定義されたベクトル空間は制約されている。本発明の一実施形態において、訓練プロセスの成功的な完了は、所望する特性を有する物質と構造−特性の対の分布に対応するサブ空間を見つける。

潜在空間ベクトル生成器（Ｖ）は、特性空間と構造空間にマッピングされるランダムベクトルを生成し、生成器ネットワーク（Ｇ）は、潜在空間ベクトル生成器（Ｖ）から提供されたランダムベクトルを基にシミュレーションされた特性Ｔ_ｓｉｍとシミュレーションされた構造Ｒ_ｓｉｍを含んだ（Ｔ_ｓｉｍ，Ｒ_ｓｉｍ）タプルのシミュレーションサンプルを生成する。本明細書全体において、「Ｔ」及び「Ｐ」は、特性を指すために相互交換的に用いられ、「Ｒ」及び「Ｓ」は物質構造を指すために相互交換的に用いられる。

これらの構造−特性の対は、訓練された判別器ネットワーク（Ｄ）に供給される。判別器ネットワーク（Ｄ）が、訓練された実際の構造−特性の対とシミュレーションされた構造−特性の対の差を区別できる場合、すなわち、生成されたサンプル（Ｔ_ｓｉｍ，Ｒ_ｓｉｍ）が偽と認識されれば、その差は生成器ネットワーク（Ｇ）に伝えられる損失関数を構成するのに用いられ、生成器ネットワーク（Ｇ）がより実際のものに近いサンプルを生成するようにパラメーターは修正される。差が大きいほど損失関数が大きくなり、訓練の目標は判別器ネットワーク（Ｄ）のエラー率を高めることである。すなわち、生成器ネットワーク（Ｇ）により生成されたサンプルを実際の構造−特性の対と区別できないように判別器ネットワークを「だます（ｆｏｏｌ）」ことである。

損失関数は、学習される数量に該当する任意の適切な類型であり得る。例えば、連続変数を学習する場合、損失関数は自乗平均誤差のような量であり得る。範疇型又はクラス型（例：定性的な）変数を学習する場合、損失が交差エントロピー、カルバック・ライブラー・ダイバージェンス（Ｋｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒｄｉｖｅｒｇｅｎｃｅ）又は類似の尺度であり得る。一実施形態において、負の二項損失関数は、出力データが分離した場合、生成器ネットワーク（Ｇ）を訓練させるために用いられることができる。しかし、本発明はこれに限定されるものではなく、他の適切な損失関数が用いられることができる。

本発明の一実施形態によれば、構造及び／又は特性は、順序データ又はカウントデータを含むか含み得る。判別器ネットワーク（Ｄ）は、２進（真／偽、０／１）値の代わりに浮動小数点（例：連続浮動小数点）又は離散カウント値を出力することができる。損失関数は、判別器ネットワーク（Ｄ）の出力に基づいて計算されることができる。例えば、カウントデータに対する損失関数は、負の二項損失又はポアソン損失を用いて定義されることができる。

訓練プロセスの後半部で、一実施形態において、判別器ネットワーク（Ｄ）は、例えば生成されたサンプルを偽（シミュレーション）又はそうではないものと正しく分類する確率が５０％以上であり得る。生成器ネットワーク（Ｇ）と判別器ネットワーク（Ｄ）が、それぞれ相手方を凌駕しようと試みる敵の役割をするので、全体的なプロセスは敵対的サンプル生成という。生成器ネットワーク（Ｇ）は実際のサンプルを生成しようと試みる反面、判別器ネットワーク（Ｄ）は偽サンプルを発見しようと試み、二つのネットワークは訓練が完了するまで、すなわち生成器ネットワーク（Ｇ）が基本（Ｔ、Ｒ）分布に相当に類似する標本を生成するまで敵対プロセスが維持される。

ＧＡＮが、シミュレーションされた構造−特性の対が実際の構造−特性の対と統計的に区別され得ないほど訓練されるとき、訓練は完了する。この段階において、ｐ（Ｓ，Ｐ）の結合分布が学習され、対応するサブ空間をサンプリングすることにより目標特性を満足させる新しい物質を得ることができる。

訓練プロセスが完了すると、目標特性Ｐを満足させる（Ｔ、Ｒ）標本を、図３のように、生成器ネットワーク（Ｇ）を介して潜在空間をサンプリングして生成することができる。図３を参照すると、潜在空間ベクトル生成器（Ｖ）２１０は生成器ネットワーク（Ｇ）２３０に対するランダムベクトルを生成し、生成器ネットワーク（Ｇ）２３０はランダムベクトルを（Ｓ，Ｐ）、すなわち、目標特性（Ｐ）を有する構造（Ｓ）に変換する。特性Ｐに係る目標を満足させるか超過する構造のサブ空間は、潜在空間分割（ｐ（Ｐ））を使用して識別されることができるか、あるいは多数の候補構造−特性の対（Ｓ，Ｐ）の同時生成によって所望する特性（Ｐ）を有する候補を選択するようにフィルタリングすることができる。

一部の例示的な実施形態によれば、システム及び方法は、連続的な特性の他にクラス型、順序型、整数型及び／又はカウント型の特性に適用されることができる。例えば、特性Ｐが物質の弾道電子放出である場合、一実施形態による特性を示す出力は、整数／カウントデータであり得る。特性が状態密度である場合、特性を示す出力は連続的なデータであり得る。特性が物質が属するクラスである場合、特性を示す出力はクラス型データであり得る。

本発明の一実施形態によれば、目標特性は、抵抗力、状態密度等のような二つ以上の好ましい物理量の任意の組合せであり得るが、構造は、構造ベクトルの連続タプルが固定原子種のデカルト座標に変数（ｘ，ｙ，ｚ）を示す浮動小数点ベクトル化表示であり得る。一部の例示的な実施形態によるシステム及び方法は、１Ｄ、２Ｄ、３Ｄ、分子等のような任意の好ましい物質を設計するのに適用されることができる。

本発明の一実施形態によれば、構造及び特性に係る生成フレームワークは、単一生成ネットワーク（Ｇ）を使用して構造及び特性を全て生成する。構造と特性全ては、互いに連結されたベクトルを判別器ネットワーク（Ｄ）に供給されるベクトルであり得る。

本発明の他の実施形態によれば、単一生成器ネットワークは、構造生成のために使用される反面、別個の生成ネットワークは複数の目標特性の中でそれぞれの異なる特性のために使用される。例えば、第１生成器ネットワークは構造生成に用いられ、第２生成器ネットワークは第１特性生成に用いられ、第３生成器ネットワークは第２特性生成に用いられる。その次に構造、第１特性及び第２特性が共に連結される。

図４は本発明の一実施形態によるＧＡＮのためのシステム及び訓練プロセスの概略図である。図４を参照すると、潜在空間ベクトル生成器（Ｖ）４１０は、それぞれ判別器ネットワーク（Ｄ）４５０に連結され、供給される構造（Ｒ）及び特性（Ｔ）ベクトルを個別的に生成する２つの生成器ネットワーク（Ｇ）４３１及び生成器ネットワーク（Ｇ）４３３に供給する。判別器ネットワーク（Ｄ）の損失は、訓練過程で二つの生成器ネットワーク（Ｇ）に供給される。

損失関数は、平均二乗誤差（ＭＳＥ）、交差エントロピー又は任意の他の適切な損失関数であり得る。

ＭＳＥにおいて、誤差は、ＧＡＮにより生成されたデータの分布と実際のデータの分布の間の差の自乗の全体データセットに対する平均を取ることにより計算される。

交差エントロピー損失関数において、次の数学公式が用いられることができる。

交差エントロピー損失関数において、ｙ_ｉは実際の値を表し、ｙ^＾はシミュレーションされた値を示す。実際のラベル（ｌａｂｅｌ）が１（ｙ_ｉ＝１）の場合、関数の第２項が消える反面、実際のラベルが０（ｙ_ｉ＝０）の場合、第１項が消える。

ＧＮＮは図２ないし図４に図示されているが、本発明はこれに限定されない。本発明の一実施形態によれば、基本共同確率分布ｐ（Ｓ，Ｐ）は、ＶＡＥを用いて学習されてもよい。一実施形態において、ＶＡＥは、エンコーダネットワーク、潜在空間、デコーダネットワーク及び損失関数を含む。エンコーダネットワークは、データｘの圧縮された表現ｚを出力するニューラルネットワークである。デコーダネットワークは、圧縮表現（ｚ）が与えられるとデータ（ｘ）を再構成することを学習するニューラルネットワークである。訓練によって損失関数が減少して最小化され、ＶＡＥはデータの確率分布を学習する。

より詳細には、エンコーダネットワークは、コンボリューショナルレイヤー又は畳み込み層（ｃｏｎｖｏｌｕｔｉｏｎａｌｌａｙｅｒ）で構成され、これは入力を圧縮しエンコーディングという入力の密集した表現を出力する。エンコーダネットワークがデータを圧縮するプロセス（潜在空間ともいうエンコーディングされた空間）を、データ圧縮又は次元削減という。この過程で、入力は潜在空間に対する確率分布を有するベクトルにエンコーディングされる。潜在空間のポイントは、該当分布でサンプリングされる。デコーダネットワークは、コンボリューショナルレイヤーの反対であるデコンボリューショナルレイヤー（ｄｅｃｏｎｖｏｌｕｔｉｏｎａｌｌａｙｅｒ）を使用し、サンプリングされたポイントを圧縮解除する。

訓練プロセスの間、実際の構造及び実際の特性の対、すなわち初期データはエンコーダネットワークに供給される。すなわち、実際の構造と実際の特性が全てエンコーダネットワークに供給される。エンコーダネットワークは、入力を潜在空間に対するベクトル分布に変換し、確率分布の平均及び標準偏差を学習する。次にデコーダネットワークは、エンコーダの出力を受けて再構成されたバージョンの入力を出力する。入力の再構成されたバージョンと実際の入力の間の差は損失最適化関数として逆伝播され、反復最適化プロセスでエンコーダ及びデコーダのニューラルネットワーク加重値又はウェイトが調整され、訓練プロセスの終わりでデコーダネットワークは初期データの受容可能な近似値であるか、これと区別されることができない。

損失関数は「再構成項（ｒｅｃｏｎｓｔｒｕｃｔｉｏｎｔｅｒｍ）」（最終階層にある）及び「正則化項（ｒｅｇｕｌａｒｉｚａｔｉｏｎ）」で構成され、再構成項はエンコーディング−デコーディング方式を最大限行うようにする傾向があり、正則化項はそのようなエンコーダが返す分布を標準正規分布に近づけて潜在空間の構成を正規化しようとする傾向がある。訓練プロセスによって損失関数は最小化される。

訓練が完了した後、すなわちデコーダネットワークの出力が初期データと区別できない場合、ＶＡＥアーキテクチャは新しい構造−特性の対を得るのに活用されることができる。訓練プロセスによって潜在空間は構造−特性の対のエンコーディングされた表現となり、適切なデコーダを通過すれば所望する出力を生成する。目標特性に係る新しい構造を得るために、学習された共同確率分布、平均及び標準偏差は、目標特性を提供するのに適した構造を有する新しい構造−特性の対を生成するためにデコーダによりデコーディングされる潜在空間の入力を提供するのに用いられる。フィルタは物質構造を追加で選択するために使用することができる。この過程でデコーダは、ＧＡＮの生成器ネットワークと似たように作用しエンコーダは活用されない。

図７はＶＡＥアーキテクチャの概略図である。図７を参照すると、訓練プロセスの間、入力はエンコーダネットワーク７１０により潜在空間７３０（エンコーディングされたベクトル）で潜在分布に変換される。潜在分布からのエンコーディングされたベクトルは、デコーダネットワーク７５０によりサンプリングされデコーディングプロセスを介してデコーディングされた出力に変換される。生成プロセスの間、潜在空間からのポイント７３０が新しく生成された構造−特性の対を生成するためにデコーダネットワーク７５０により選択されデコーディングされる。

本発明の一実施形態によれば、生成プロセスは不確実性推定を含む可能性があり、これはモデルが予測に対してどれくらい確実であるかを測定する。予測の不確実性は能動（ａｃｔｉｖｅ）学習、ベイジアン（Ｂａｙｅｓｉａｎ）学習等のような利用可能な適切な技術を使用して推定することができる。

一実施形態において、関心がある特性は電子伝送（Ｔ）であり得、構造（Ｒ）は単位セルの特定位置で原子種を示すクラス型値で表示され得る。このような構成は二元系、三元系又は四元系合金のような合金についての共同構造−伝送分布を学習するのに適する。ＴとＲは互いに連結されたベクトルであり得る。この実施形態において、ＴとＲは離散的である。例えば、Ｔは整数値を使用できる反面、Ｒはクラス値を使用することができる。

一部の例示的な実施形態によれば、この方法は様々な特性に係る構造の共同確率分布に適用されることができる（例えば、構造←→第１特性、第２特性）
例えば、第１特性は電子伝送であり得、第２特性は電子レベルの密度であり得る。一部の例示的な実施形態によれば，この方法は特定の特性に条件付きで作ることができる。例えば，この方法はｐ（Ｓ，Ｐ１｜Ｐ２）、すなわちＰ２が与えられた条件での（Ｓ，Ｐ１）の確率分布等を見つけるために用いられることができる。

また、本発明の実施形態による方法から得た構造は、分子構造に特に限定されず、原子構造、物質の規則的又は不規則的なパターンとして原子配列をさらに含み得、物質（例：化合物）又は物質のサンプルにある原子種の空間組成を含み得る。

システムはＧＰＵｓ、ＦＰＧＡｓ、又は他の適切なハードウェアを有する装置のような任意の適したコンピューティング装置を用いて具現されることができる。

以上添付した図面を参照して本発明の実施形態を説明したが、本発明は前記実施形態に限定されるものではなく、互いに異なる多様な形態で製造され得、本発明が属する技術分野における通常の知識を有する者は本発明の技術的思想や必須の特徴を変更せず他の具体的な形態で実施できることを理解することができる。したがって、以上で記述した実施形態は、全ての面で例示的なものであり、限定的なものではないと理解しなければならない。

Claims

ＧＡＮを含む目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステムにおいて、
前記ＧＡＮは、ランダムベクトルを生成するように構成された潜在空間ベクトル生成器、前記ランダムベクトルを入力として受信し、シミュレーションされた構造及びシミュレーションされた特性全てを含むタプルを生成するように構成された生成器ネットワーク、及び実際の構造及び実際の特性を含むデータベースから訓練され、前記シミュレーションされた構造及び前記シミュレーションされた特性を前記実際の構造及び前記実際の特性と区別し、損失関数を前記生成器ネットワークに伝送するように構成された判別器ネットワークを含み、
前記潜在空間ベクトル生成器、前記生成器ネットワーク及び前記判別器ネットワークは構造−特性ｐ（Ｓ，Ｐ）の基本共同確率分布を同時に学習するために配置される、目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステム。
前記目標特性（Ｐ）は一つ以上の物理量を含み、
前記構造（Ｓ）は、構造ベクトルの要素が特定位置の原子種を示すエンコーディングされたベクトル化表示から選択された表示、構造ベクトルの連続タプルが固定原子種のデカルト座標の変数（ｘ，ｙ，ｚ）を示す浮動小数点ベクトル化表示、及び種及び／又は座標タプルを連続的に含む混合表示を含む、請求項１に記載の目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステム。
前記システムは単一生成器ネットワークを含む、請求項１又は２に記載の目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステム。
前記生成器ネットワークは、前記シミュレーションされた構造を生成する第１生成器ネットワーク、及び前記シミュレーションされた特性を生成する第２生成器ネットワークを含み、
前記第１生成器ネットワーク及び前記第２生成器ネットワーク全ては、同一の前記潜在空間ベクトル生成器から前記ランダムベクトルを受信するように構成される、請求項１〜３のうちの何れか１項に記載の目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステム。
前記生成器ネットワークは、前記シミュレーションされた構造を生成する第１生成器ネットワーク及び複数の第２生成器ネットワークを含み、
前記複数の第２生成器ネットワークは、複数のシミュレーションされた特性のうちの一つをそれぞれ生成し、
前記第１生成器ネットワーク及び前記複数の第２生成器ネットワーク全ては、同一の前記潜在空間ベクトル生成器から前記ランダムベクトルを受信するように構成される、請求項１〜３のうちの何れか１項に記載の目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステム。
前記判別器ネットワークは、浮動小数点又は離散カウント値を出力するように構成される、請求項１〜５のうちの何れか１項に記載の目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステム。
前記システムは、ＧＰＵｓ及び／又はＦＰＧＡｓを含むコンピューティング装置を含む、請求項６に記載の目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステム。
実際の構造と実際の目標特性を含むデータベースで判別器ネットワークを訓練し、
生成器ネットワークを介してシミュレーションされた構造及びシミュレーションされた特性を生成し、
前記判別器ネットワークが前記シミュレーションされた構造と前記実際の構造の間の差を前記データベースで区別できないように前記生成器ネットワークを訓練することにより、構造−特性ｐ（Ｓ，Ｐ）の基本共同確率分布を同時に学習し、
前記基本共同確率分布を活用して前記目標特性に係る前記構造を生成することを含む、マシンラーニングを用いて目標特性（Ｐ）に係る構造（Ｓ）を生成する方法。
前記目標特性に係る前記構造を生成することは、潜在空間分割ｐ（Ｐ）を用いて前記目標特性（Ｐ）に係る前記構造（Ｓ）を生成することを含む、請求項８に記載のマシンラーニングを用いて目標特性（Ｐ）に係る構造（Ｓ）を生成する方法。
前記目標特性に係る前記構造を生成することは、
多数のサンプル（Ｓ，Ｐ）を無作為に生成し、
前記目標特性（Ｐ）を満足する前記サンプルをフィルタリングすることを含む、請求項８又は９に記載のマシンラーニングを用いて目標特性（Ｐ）に係る構造（Ｓ）を生成する方法。
前記目標特性（Ｐ）は物理量を含み、前記構造（Ｓ）は、構造ベクトルの要素が特定位置の原子種を示すエンコーディングされたベクトル化表示から選択された表示を含み、
構造ベクトルの連続タプルが固定原子種のデカルト座標の変数（ｘ，ｙ，ｚ）を示す浮動小数点ベクトル化表示を含み、
種及び／又は座標タプルを連続的に含む混合表示を含む、請求項８〜１０のうちの何れか１項に記載のマシンラーニングを用いて目標特性（Ｐ）に係る構造（Ｓ）を生成する方法。
潜在空間ベクトル生成器を介してランダムベクトルを生成することをさらに含み、
前記生成器ネットワークを介して前記シミュレーションされた構造及び前記シミュレーションされた特性を生成することは、前記ランダムベクトルを入力として使用し、
前記生成器ネットワークを訓練することは、前記判別器ネットワークから前記生成器ネットワークに損失関数を伝送することを含む、請求項８〜１１のうちの何れか１項に記載のマシンラーニングを用いて目標特性（Ｐ）に係る構造（Ｓ）を生成する方法。
前記生成器ネットワークは、前記シミュレーションされた構造を生成する第１生成器ネットワーク、及び前記シミュレーションされた特性を生成する第２生成器ネットワークを含み、
前記第１生成器ネットワーク及び前記第２生成器ネットワーク全ては、同一の前記潜在ベクトル空間生成器から前記ランダムベクトルを受信するように構成される、請求項１２に記載のマシンラーニングを用いて目標特性（Ｐ）に係る構造（Ｓ）を生成する方法。
ＶＡＥを含む目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステムにおいて、
前記ＶＡＥは、エンコーダネットワーク（ｅｎｃｏｄｅｒｎｅｔｗｏｒｋ）、潜在空間、デコーダネットワーク（ｄｅｃｏｄｅｒｎｅｔｗｏｒｋ）を含み、
前記エンコーダネットワークは、入力として実際の構造及び実際の特性を含むデータベースを受信し、前記入力を圧縮してエンコーディングされたベクトルを生成し、前記潜在空間で前記エンコーディングされたベクトル分布の平均及び標準偏差を生成し、
前記デコーダネットワークは、前記実際の構造及び前記実際の特性を含む前記データベースを利用して学習され、
前記エンコーディングされたベクトルを圧縮解除してシミュレーションされた構造及びシミュレーションされた特性を生成し、
前記シミュレーションされた構造及び前記シミュレーションされた特性と前記実際の構造及び前記実際との間の特性間の差を区別し、
損失関数を前記エンコーダネットワークに伝送し、
前記エンコーダネットワーク、前記潜在空間及び前記デコーダネットワークは、構造−特性ｐ（Ｓ，Ｐ）の基本共同確率分布を同時に学習する、目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステム。
前記目標特性（Ｐ）は一つ以上の物理量を含み、前記構造（Ｓ）は、構造ベクトルの要素が特定位置の原子種を示すエンコーディングされたベクトル化表示から選択された表示を含み、
構造ベクトルの連続タプルが固定原子種のデカルト座標の変数（ｘ，ｙ，ｚ）を示す浮動小数点ベクトル化表示を含み、
種及び／又は座標タプルを連続的に含む混合表示を含む、請求項１４に記載の目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステム。
前記システムは、ＧＰＵｓ及び／又はＦＰＧＡｓを含むコンピューティング装置を含む、請求項１４又は１５に記載の目標特性（Ｐ）に係る構造（Ｓ）を生成するマシンラーニングシステム。
実際の構造及び実際の特性を含むデータベースを入力としてエンコーダネットワークに入力し前記入力を圧縮してエンコーディングされたベクトル、平均及び潜在空間での前記エンコーディングされたベクトルの分布の標準偏差を生成し、
前記実際の構造と前記実際の特性を含む前記データベースでデコーダネットワークを訓練し、
前記エンコーディングされたベクトルを圧縮解除して前記デコーダネットワークによりシミュレーションされた構造及びシミュレーションされた特性を生成し、
前記エンコーダネットワークに損失関数を伝送し、
構造−特性ｐ（Ｓ，Ｐ）の基本共同確率分布を同時に学習することを含む、マシンラーニングを用いて目標特性（Ｐ）に係る構造（Ｓ）を生成する方法。
前記目標特性（Ｐ）に係る前記構造（Ｓ）を生成するために、潜在空間分割ｐ（Ｐ）を用いて前記目標特性に係る前記構造を生成することをさらに含む、請求項１７に記載のマシンラーニングを用いて目標特性（Ｐ）に係る構造（Ｓ）を生成する方法。
多数のサンプル（Ｓ，Ｐ）を無作為に生成して前記目標特性に係る前記構造を生成すること、及び前記目標特性（Ｐ）を満足する前記サンプルをフィルタリングすることをさらに含む、請求項１７又は１８に記載のマシンラーニングを用いて目標特性（Ｐ）に係る構造（Ｓ）を生成する方法。
前記目標特性（Ｐ）は物理量を含み、
前記構造（Ｓ）は、構造ベクトルの要素が特定位置の原子種を示すエンコーディングされたベクトル化表示から選択された表示、構造ベクトルの連続タプルが固定原子種のデカルト座標の変数（ｘ，ｙ，ｚ）を示す浮動小数点ベクトル化表示、及び種及び／又は座標タプルを連続的に含む混合表示を含む、請求項１７〜１９のうちの何れか１項に記載のマシンラーニングを用いて目標特性（Ｐ）に係る構造（Ｓ）を生成する方法。