JP7372012B2 - 所望の特性を有する材料を見つけるための機械学習フレームワーク - Google Patents

所望の特性を有する材料を見つけるための機械学習フレームワーク Download PDF

Info

Publication number
JP7372012B2
JP7372012B2 JP2021532184A JP2021532184A JP7372012B2 JP 7372012 B2 JP7372012 B2 JP 7372012B2 JP 2021532184 A JP2021532184 A JP 2021532184A JP 2021532184 A JP2021532184 A JP 2021532184A JP 7372012 B2 JP7372012 B2 JP 7372012B2
Authority
JP
Japan
Prior art keywords
base material
existing
computer
model
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021532184A
Other languages
English (en)
Other versions
JP2022516697A (ja
Inventor
孝行 勝木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2022516697A publication Critical patent/JP2022516697A/ja
Application granted granted Critical
Publication of JP7372012B2 publication Critical patent/JP7372012B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、一般に、新材料を発見することに関し、より具体的には、所望の特性を有する新材料を見つけるための機械学習フレームワークに関する。
データ・マイニングの実施は、大規模データが利用になったことで、経験科学から理論計算科学へ、そして今やデータ・サイエンスへと、科学的発見におけるパラダイム変化をもたらしてきた。具体的には、高度な機械学習技術を適用して、計算機支援による先端材料の発見、開発、製造及び展開をより高速に低コストで行うことを想定した材料発見(material discovery)を支援することに、関心が高まっている。実世界の用途では、人々が見るもの(例えば、結晶の構造、化合物の組成)を人々が求めるもの(例えば、合金の一定の強度を求めること)にリンクすることによって、特定の用途に必要な特性を持つ新材料を客観的に作り出すのを助ける方法の開発が奨励されている。
実施形態によると、化学データベースから新材料の候補を発見するための方法が提供される。方法は、化学式から特徴ベクトルを抽出することと、化学データベースを用いるスパース・カーネル・モデルにより特徴ベクトルから特性値を予測するための予測モデルを学習することと、学習ステップにおいて学習された予測モデルによる予測された特性値に基づいて、降順でソートされた既存材料のリストから既存材料を選択することと、選択された既存材料に対する絶対的な反応の大きさの降順にソートされた基礎材料(basis material)のリストから基礎材料を選択することと、選択された基礎材料を考慮して、選択された既存材料の変異型として、新材料の候補を生成することとを含む。
別の実施形態によると、化学データベースから新材料の候補を発見するためのシステムが提供される。システムは、メモリと、化学式から特徴ベクトルを抽出し、化学データベースを用いるスパース・カーネル・モデルにより特徴ベクトルから特性値を予測するための予測モデルを学習し、学習ステップにおいて学習された予測モデルによる予測された特性値に基づいて、降順でソートされた既存材料のリストから既存材料を選択し、選択された既存材料への絶対的な反応の大きさの降順にソートされた基礎材料のリストから基礎材料を選択し、選択された基礎材料を考慮して、選択された既存材料の変異型として新材料の候補を生成するように構成された、メモリと通信する1つ又は複数のプロセッサとを含む。
更に別の実施形態によると、化学データベースから新材料の候補を発見するための、コンピュータ可読プログラムを含む非一時的コンピュータ可読ストレージ媒体が提示される。非一時的コンピュータ可読ストレージ媒体は、化学式から特徴ベクトルを抽出するステップと、化学データベースを用いるスパース・カーネル・モデルにより特徴ベクトルから特性値を予測するための予測モデルを学習するステップと、学習ステップにおいて学習された予測モデルによる予測された特性値に基づいて降順でソートされた既存材料のリストから既存材料を選択するステップと、選択された既存材料への絶対的な反応の大きさの降順にソートされた基礎材料のリストから基礎材料を選択するステップと、選択された基礎材料を考慮して、選択された既存材料の変異型として新材料の候補を生成するステップとを実行する。
例示的な実施形態は、異なる主題に関連して説明されることに留意されたい。特に、幾つかの実施形態は、方法タイプの請求項(method type claim)を参照して説明されているが、他の実施形態は、装置タイプの請求項(apparatus type claim)を参照して説明される。しかしながら、当業者であれば、上記及び以下の説明から、特に断りのない限り、1つのタイプの主題に属する特徴の任意の組み合わせに加えて、異なる主題に関する特徴間、特に、方法タイプの請求項の特徴と装置タイプの請求項の特徴との間の任意の組み合わせも、本明細書内に開示されるものと見なされることを推測するであろう。
これら及び他の特徴、並びに利点は、添付の図面に関連して読まれるべきその例示的実施形態の以下の詳細な説明から明らかとなるであろう。
本発明は、以下の図面を参照して、好ましい実施形態の以下の説明に詳細を提供するであろう。
材料の候補を発見するための例示的な決定論的生成方法である。 本発明の実施形態による、訓練データのサンプリングを示す例示的グラフである。 本発明の実施形態による、本発明を従来技術と比較する例示的グラフである。 本発明の実施形態による、スパース・カーネル・モデルを用いることによって材料の候補を発見するための例示的な決定論的生成方法のブロック/フロー図である。 本発明の実施形態による、材料の候補を発見するための決定論的生成方法を実施するための例示的な式のブロック/フロー図である。 本発明の実施形態による、例示的な処理システムである。 本発明の実施形態による、例示的なクラウド・コンピューティング環境のブロック/フロー図である。 本発明の実施形態による、例示的な抽象化モデル層の概略図である。
図面全体を通して、同じ又は類似の参照番号は、同じ又は類似の要素を表す。
本発明による実施形態は、スパース・カーネル・モデルを用いることによって新材料の候補を生成するための、ランダム性のない決定論的方法を用いる方法及びデバイスを提供し、ここで、方法は、より高い目標特性値を有する既存材料と、スパース・カーネル・モデルにおけるこれらの既存材料に対する反応の大きさが大きな基礎材料との間の変異型(variant)として、候補を生成する。
材料発見に関する問題は、所望の目標特性を持つ材料の特定の組成、配合及び加工のステップを決定することに関連する。合金の構造的関係、記述子の評価などを特徴付ける、分光分類及び構造同定のような材料科学の用途においては、ニューラル・ネットワークがツールとして用いられている。しかしながら、ニューラル・ネットワーク及び深層学習は、材料発見の用途ではあまり用いられていない。本発明の例示的実施形態は、深層学習技術を利用して、所望の特性を持つ新材料を発見する。
機械学習技術は、時系列データを検出して分析するために、統計学的手法と比べてより効果的である。これは、機械学習が2つの重要な特徴、つまり、特徴エンジニアリング(feature engineering)及び予測を有するためである。特徴エンジニアリングの態様を用いて、時系列データの傾向と季節性問題に対処する。モデルを時系列データに当てはめる問題も、これにより解決することができる。
より高いレベルの予測のために、深層学習を用いて、時系列の特徴抽出を非線形自己回帰モデル(non-linear autoregressive model)と組み合わせる。深層学習を用いて、いずれの人的努力も複雑な統計学的手法も用いることなく、特徴から有用な情報を自動的に抽出する。
機械学習の2つの最も有効な技術、つまり教師あり学習(supervised learning)及び教師なし学習(unsupervised learning)がある。教師あり学習は、データ点を訓練するために行われ、それらのデータ点を異なるカテゴリのデータ点に分類することができる。しかし、教師あり学習の場合、データ点をラベル付けする必要がある。しかしながら、別の手法は、データ点がラベル付けされない教師なし学習である。教師なし学習を適用して、系列における次のデータ点の予測を行うことができるようにシステムを訓練することができる。これを実施するために、信頼区間又は予測誤差が作成される。従って、データ点に対して、どのデータ点が信頼区間内又は信頼区間外に存在するかをチェックするテストを実施することができる。最も一般的な教師あり学習アルゴリズムは、教師ありニューラル・ネットワーク、サポート・ベクトル機械学習、k近傍法、ベイジアン・ネットワーク及び決定木である。最も一般的な教師なしアルゴリズムは、自己組織化マップ(self-organizing map、SOM)、K平均法、C平均法、期待値最大化メタ・アルゴリズム(expectation-maximization meta-algorithm、EM)、適応共鳴理論(adaptive resonance theory、ART)及び1クラス・サポート・ベクトル・マシン(one-class support vector machine)である。
本発明は、所与の例示的アーキテクチャに関して説明されるが、本発明の範囲内で、他のアーキテクチャ、構造、基板材料及びプロセス特徴及びステップ/ブロックが変化し得ることを理解されたい。分かりやすくするために、全ての図において、特定の特徴が示されていないことがあることに留意すべきである。これは、いずれかの特定の実施形態、又は図示、又は特許請求の範囲の制限と解釈されることを意図するものではない。
図1は、材料の候補を発見するための例示的な決定論的生成方法である。
例えば、所望の特性(例えば、高ガラス転移温度、低粘度など)を持つ有機ポリマー(例えば、エポキシ樹脂)などの新材料を発見することは、化学業界にとって重要なタスクである。(化学反応、調理、芳香などのための)加工及びレシピの生成、物理的構造の最適化、広告などのような種々の領域において、多くの同様の問題及び必要性(逆解析)が存在する。
図1のフローチャート100に示されるように、問題は、化学データベースから高い特性値を有する材料を発見する又は見つけることである。入力102は、既存材料(例えば、Simplified Molecular-input Line-entry System(SMILES化学ファイル・フォーマット)を用いて記述することができる化学式)と化学式の対応する特性とのペアを含む。出力118は、所望の特性を有する新材料の化学式を含み、所望の特性は、例えば高い値とすることができる。しかしながら、特定の特性値を有する材料を探索するなど、所望の特性を他の設定に一般化することができる。
従来の方法では、以下のステップをバッチ方式又はシーケンシャル方式で行うことができる。第1のステップにおいて、化学式102から抽出された何らかの特徴ベクトル104から、化学的特性についての予測モデル106を構築する。特徴ベクトル104は、化学式の特徴を記述するベクトルである。第2のステップにおいて、予測モデル106に基づいて、特徴ベクトル104を最適化(逆解析)する。第3のステップにおいて、ベクトルを化学式に変換する。1つの例において、特性値108は、訓練データベース110から選択することができる。選択された特性値は、例えば特性値112とすることができる。特性値112は、予測モデル114にフィードバックすることができ、そこから、新しい特徴ベクトル116を新材料118に変換する必要がある。新しい特徴ベクトル116から新材料118への変換は非常に困難となる可能性がある。
その結果、これらの方法は、実験のために必要な計算コストがより少ないか、又は良好な応答又は結果を学習するために十分な訓練データを必要とする。さらに、補間が無意味になることがあり、特徴ベクトルを化学式に変更するのは困難な可能性がある。従って、ある仮定、つまり、従来の方法では、特性(又は特性値)から化学式を予測する問題を直接解決することができないという仮定と、従来の方法では、訓練データベース110に格納された訓練データが不十分であるために、特性(又は特性値)についての予測モデルの入力に3D構造を直接利用することができないという仮定とを行うことができる。
図2は、本発明の実施形態による、訓練データのサンプリングを示す例示的グラフであり、図3は、本発明の実施形態による、本方法と従来の方法を比較する例示的グラフである。
図1のグラフ100を用いる代わりに、例示的実施形態は、材料の特徴ベクトルから特性値についての予測モデルを利用し、(図1のように、特徴ベクトルを新材料に変換する必要なしに)予測モデルの補間領域内の新材料候補の化学式を直接探索する。従って、本発明の例示的実施形態は、材料から特性又は特性値を予測する予測モデルについてのスパース・カーネル・モデルを利用する。スパース・カーネル・モデルを利用することによって、本方法は、良好な特性を有する訓練データと予測モデルにおいて最も反応した基礎材料との間で材料を探索して発見する。
訓練データ内の材料は、2つのソース、すなわち経験的実験及び計算シミュレーションによってもたらされる場合がある。実験データとは、実験的観察の試行錯誤の繰り返しを指し、その例は、材料サンプルから直接撮影された顕微鏡画像である。こうしたデータはサイズが非常に限られていることが多く、データ品質に影響を与える非定常分散のノイズを含むことがある。他方、シミュレーション・データは、より豊富で入手しやすく、安定しており、人為的な操作エラーが生じる傾向が低い。
用語「カーネル・モデル」に関して、カーネル・モデルは、カーネル関数から導出することができる。カーネル関数は、元の空間におけるベクトルを入力として受け取り、特徴空間におけるベクトルのドット積を返す。カーネル法は、パターン解析のためのアルゴリズムのクラスである。パターン解析の一般的なタスクは、データセットにおける一般的な関係のタイプ(例えば、クラスタ、ランク付け、主成分、相関、分類)を見つけて学習することである。その最も簡単な形式において、カーネル・トリックは、データのクラス間を明確に分割する境界を有する別の次元にデータを変換することを意味する。これらのタスクを解決する多くのアルゴリズムの場合、生の表現のデータは、ユーザ指定の特徴マップを介して、特徴ベクトル表現に明示的に変換される必要がある。対照的に、カーネル法は、ユーザ指定のカーネル、すなわち、生の表現におけるデータ点のペアに対する類似関数しか必要としない。従って、カーネル関数は、元の空間でデータを操作することによって、より高い次元の空間に投影されたかのようにデータを操作する方法を提供する。
用語「基礎材料」に関して、複合材料又は化合物材料は、著しく異なる物理的又は化学的特性を持つ2つ又はそれより多い構成材料(又は基礎材料)でできた材料であり、結合されると、個々の成分とは異なる特徴を持つ材料を生成する。個々の成分は、完成した構造体の中で、分離され独立したままである。新材料は、従来の材料と比べて、例えばより強い、より軽い、又はより安価であるなどの理由で、好ましい場合がある。従って、基礎材料は、複合材料の構成材料と考えることができる。
第1のステップにおいて、本方法は、化学式から抽出される特徴ベクトルを利用して、化学データベースを用いるスパース・カーネル・モデルにより特徴ベクトルから特性を予測するためのモデルを学習する。
特徴ベクトルは任意のものである(例えば、部分構造カウント、構造上の特徴など)。特徴ベクトルは、特徴ベクトルを材料に変換する容易さを考慮する必要がない。
さらに、特徴ベクトルに対して次元削減方法を用いることもでき、これはアルゴリズムに影響を与えない。
例示的方法は、サポート・ベクトル・マシン(SVM)、関連ベクトル・マシン(RVM)及びスパース・カーネル・モデルのための他の方法を用いることができるが、こうした例示的方法は、予測の事後及び信頼を用いることができ、候補の生成においてベイズ最適化手順をさらに用いることができるので、ベイズ・モデル(RVMなど)がより適している。
SVMは、分類タスクに用いることができる教師あり機械学習技術である。その基本形態において、SVMは、データのインスタンスを空間に表現し、SVMは、クラスを分離する最大限の広いギャップ(超平面)によって、異なるクラスを分離しようとする。他方、RVMは、この分離空間を定めるために確率的手法を用いる。一例において、RVMは、ベイズ推定を用いて解を求める。従って、RVMは、著しく少ない数の基底関数を用いる。
さらに、例示的方法は、特徴空間におけるデータ点の座標を知る必要なしに、特徴空間におけるデータ点の間の距離に基づいて、カーネルを利用する。
第2のステップにおいて、第1のステップにおいて学習された予測モデルによる予測された特性値に基づいて、既存材料が降順で選択される。別の言い方をすれば、材料リストが作成され、予測モデルによって予測された特性値に基づいてソートされる。降順は、最も近い所望の特性値を示す材料をリストの上位とし、関連する所望の特性値を示す材料をリストの下位とすることができる。降順は、絶対的に最も近い、やや近い、最も近くないなどとして整理することができる。
幾つかのモデル(RVMなど)では、訓練データについての予測は学習ステップで必要とされるので、この予測のための付加的な計算はなく、ソートだけである。
例示的方法は、付加的な予測計算を用いるこのステップについて、特性ラベルを有しない既存材料を利用することができる。特性ラベルがないため、この方法は、教師なし学習技術に適している。
第3のステップにおいて、基礎材料は、第2のステップにおいて選択された材料に対する基礎材料の絶対的な反応の大きさ(選択された材料と基礎材料との間の距離×基礎材料の係数)の降順で選択される。言い方を変えれば、材料リストが作成され、選択された既存材料に対する絶対的な反応の大きさに基づいてソートされる。
スパース・モデリングから、限られた数の基礎材料が選択された状態にされる。
第4のステップにおいて、例示的方法は、次のように、第2のステップにおいて選択された既存材料と第3のステップにおいて選択された基礎材料との変異型として、新材料の候補を生成する。
第3のステップにおける反応が正である場合、例示的方法では、他方の材料に含まれない一方の材料の部分構造を他方の材料に加えること又は材料の間で共通ではない部分構造を取り去ることのいずれか又はその組み合わせとして、材料の間で部分構造を「交換」する。
第3のステップにおける反応が負である場合、例示的方法では、材料間で共通の部分構造を取り去る。
所定の数の候補材料が得られるまで、ステップ2乃至ステップ4が繰り返される。所定の数は、ユーザが決定することもソフトウェアによって予め定めることもできる。
例示的方法は既存のデータの間の変異型として候補を生成するので、例示的方法は、主に予測モデルの補間として候補を生成することができる。訓練データの数及び変形に応じて、探索がより広くなる。
本発明の例示的実施形態は、化学式が構造を離散的に変化させることはできるが連続的に変化させることができないという性質を捉えている。
スパース・カーネル・モデルにおいて、モデルは、スパース学習を通じて非ゼロ重み(non-zero weight)を有する基底以外の情報を持っていない。一般に、非ゼロ重みを有する基底は、殆どの場合、互いに似ておらず、材料に大きく反応した基底は、殆どの場合、カーネルの定義(距離)のために互いに似ている。
従って、良好な特性を有する材料を交換するだけでは、例示的方法よりも効率的ではない。さらに、例示的方法は、連続して適用することができ、予測モデルの微分可能性を仮定する必要はない。
図2及び図3に関して、例示的方法は、グラフ200に示されるように関数から訓練データをサンプリングし、予測モデルを学習し、予測モデルに基づいて関数の高い値を探索した。
例示的方法を、例えば、粒子群最適化(particle swarm optimization)(パターン2)及び遺伝的アルゴリズム(パターン3)により、従来の方法と比較した。
例示的方法は、図3のグラフ310及び320に示されるように、異なる数の訓練データにおける各実験設定について、発見された目標値と10分割交差検証(ten-fold cross-validation)の平均誤差とをさらに示す。
例示的方法(パターン1)の性能は、特に少数の訓練データ又は不十分な数の訓練データが利用可能な設定において、他の方法(パターン2及びパターン3)のものより良好であった。
従って、例示的方法は、そのアルゴリズムにおいてランダム性を持たないので、他の方法と比べて効果的である。実際の化学データの実験において、スパース・カーネル・モデル(例えば、RVM)が他の方法(例えば、線形モデル、ランダム・フォレストなど)よりも良好な予測性能を有すると判断された。例示的方法は、訓練データベースにおいて見つかったものよりも良好な性能を持つ新しい候補を発見した。さらに、一例では、発見された候補の1/3が新材料と重複すると判断された。
図4は、本発明の実施形態による、スパース・カーネル・モデルを利用することによって、材料の候補を発見するための例示的な決定論的生成方法のブロック/フロー図である。
ブロック410において、化学特性についての予測モデルが、化学式から抽出された特徴ベクトルから構成される。
ブロック412において、既存材料が、予測モデルから得られた予測された特性値に基づいて降順で選択される。
ブロック414において、(訓練データ内の材料から選択された)基礎材料が、選択された既存材料に対する絶対的な反応の大きさの降順で選択される。
ブロック416において、新材料の候補が、選択された既存材料及び選択された基礎材料の変異型として生成される。候補の数が十分な場合には、処理は終了し、ブロック418に進む。
ブロック418において、候補リストが、例えば、評価及び分析されるコンピューティング・デバイスのユーザ・インターフェースに出力される。
図5は、本発明の実施形態による、材料の候補を発見するための決定論的生成方法を実施するための例示的な式のブロック/フロー図である。
例示的方法は、おおよそ以下の最適化問題510:
Figure 0007372012000001

における既存材料からの1ステップの上昇(one-step ascent)として見ることができる。
ここで、zは化学式であり、x(z)は特徴ベクトル(任意)であり、Φ(x(z))は基底関数(距離に基づく、例えば放射基底関数)である。
勾配520は:
Figure 0007372012000002

として与えられる。
結論として、例えば、硬度、融点、イオン伝導率、ガラス転移温度、分子の原子化エネルギー、及び格子定数などの材料の特性を、巨視的又は微視的レベルのいずれかで説明することができる。材料特性を研究する2つの一般的な方法、すなわち計算シミュレーション及び実験的測定がある。これらの方法は、複雑な演算及び実験の設定を要する。従って、材料の特性とその関連因子との間の複雑な論理関係を完全に捉える計算シミュレーションを構築することは極めて困難であり、これらの関係の一部が未知の場合さえある。さらに、化合物の特性を測定するために実行される実験は、通常、材料選択の後半に行われる。その結果、結果が満足のいくものではない場合、膨大な時間とその時点までに投資された実験リソースが無駄になったことが判明することもある。さらに、多くの場合、膨大な計算又は実験の努力にもかかわらず、材料の特性を研究することは困難であるか又はほぼ不可能である。従って、低い計算コストで材料の特性を正確に予測できるインテリジェントで高性能の予測モデルを開発する必要性がある。機械学習は、データからパターンを学習できるアルゴリズムの構成及び研究に関係する。材料特性の予測のために機械学習方法を用いる基本的なアイデアは、既存の経験的なデータから知識を抽出することによって、材料の特性とその関連因子との間の関係(殆どの場合、非線形)を解析しマッピングすることである。しかしながら、経験的なデータは不十分なものである可能性がある。その結果、本発明の例示的実施形態は、スパース・カーネル・モデルを用いることによって、新材料の候補を生成するためのランダム性のない決定論的方法を実施するための機械学習フレームワークを利用するものであり、本方法は、より高い目標特性値を有する既存材料と、スパース・カーネル・モデルにおける既存材料に対して反応の大きさが大きい基礎材料との間の変異型として、候補を生成する。
図6は、本発明の実施形態による、例示的処理システムである。
ここで図6を参照すると、この図は、本発明の実施形態によるコンピューティング・システム600のハードウェア構成を示す。見られるように、このハードウェア構成は、少なくとも1つのプロセッサ又は中央処理ユニット(CPU)611を有する。CPU611は、システム・バス612を介して、ランダム・アクセス・メモリ(RAM)614、読み出し専用メモリ(ROM)616、入力/出力(I/O)アダプタ618(ディスク・ユニット621及びテープ・ドライブ640などの周辺機器をバス612に接続するための)、ユーザ・インターフェース・アダプタ622(キーボード624、マウス626、スピーカ628、マイクロフォン632もしくは他のユーザ・インターフェース・デバイス又はそれらの組み合わせをバス612に接続するための)、システム600をデータ処理ネットワークに接続するための通信アダプタ634、インターネット、イントラネット、ローカル・エリア・ネットワーク(LAN)など、及びバス612をディスプレイ・デバイス638もしくはプリンタ639(例えば、ディジタル・プリンタなど)又はその両方に接続するためのディスプレイ・アダプタ636に相互接続される。
図7は、本発明の実施形態による、例示的クラウド・コンピューティング環境のブロック/フロー図である。
本発明は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書に記載される教示の実装は、クラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在既知の又は後で開発される他のいずれかのタイプのコンピューティング環境と共に実装することができる。
クラウド・コンピューティングは、最小限の管理労力又はサービス・プロバイダとの対話で迅速にプロビジョニングされ、かつ解放されることが可能である構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、及びサービス)の共有プールへの、便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特徴、少なくとも3つのサービス・モデル、及び少なくとも4つのデプロイメント・モデルを含むことができる。
特徴は、以下の通りである。
オンデマンド・セルフサービス:クラウド・コンシューマは、必要に応じて、サーバ時間及びネットワーク・ストレージ等のコンピューティング機能を、人間がサービスのプロバイダと対話する必要なく自動的に、一方的にプロビジョニングすることができる。
広範なネットワーク・アクセス:機能は、ネットワーク上で利用可能であり、異種のシン又はシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップ、及びPDA)による使用を促進する標準的な機構を通じてアクセスされる。
リソース・プール化:プロバイダのコンピューティング・リソースは、マルチテナント・モデルを用いて複数のコンシューマにサービスを提供するためにプールされ、異なる物理及び仮想リソースが要求に応じて動的に割り当て及び再割り当てされる。コンシューマは、一般に、提供されるリソースの正確な位置についての制御又は知識を持たないという点で、位置とは独立しているといえるが、より抽象化レベルの高い位置(例えば、国、州、又はデータセンタ)を特定できる場合がある。
迅速な弾力性:機能は、迅速かつ弾力的に、場合によっては自動的に、プロビジョニングしてすばやくスケールアウトし、迅速に解放して素早くスケールインすることができる。コンシューマにとって、プロビジョニングに利用可能な能力は、多くの場合、無制限であるように見え、いつでもどんな量でも購入できる。
サービスの測定:クラウド・システムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、及びアクティブなユーザ・アカウント)に適した何らかの抽象化レベルでの計量機能を用いることによって、リソースの使用を自動的に制御及び最適化する。リソース使用を監視し、制御し、報告して、利用されるサービスのプロバイダとコンシューマの両方に対して透明性をもたらすことができる。
サービス・モデルは、以下の通りである。
Software as a Service(SaaS):コンシューマに提供される機能は、クラウド・インフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。これらのアプリケーションは、ウェブ・ブラウザ(例えば、ウェブベースの電子メール)などのシン・クライアント・インターフェースを通じて、種々のクライアント・デバイスからアクセス可能である。コンシューマは、限定されたユーザ固有のアプリケーション構成設定を想定される例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、又は個々のアプリケーション能力をも含めて、基礎をなすクラウド・インフラストラクチャを管理又は制御しない。
Platform as a Service(PaaS):コンシューマに提供される機能は、プロバイダによってサポートされるプログラミング言語及びツールを用いて作成された、コンシューマが作成又は取得したアプリケーションを、クラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、又はストレージを含む基礎をなすクラウド・インフラストラクチャを管理又は制御しないが、デプロイされたアプリケーション、及び場合によってはアプリケーションをホストする環境構成を制御する。
Infrastructure as a Service(IaaS):コンシューマに提供される機能は、コンシューマが、オペレーティング・システム及びアプリケーションを含み得る任意のソフトウェアをデプロイして実行させることができる、処理、ストレージ、ネットワーク、及び他の基本的なコンピューティング・リソースをプロビジョニングすることである。コンシューマは、基礎をなすクラウド・インフラストラクチャを管理又は制御しないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションに対する制御、及び場合によってはネットワークコンポーネント(例えば、ホストのファイアウォール)選択に対する限定された制御を有する。
デプロイメント・モデルは以下の通りである。
プライベート・クラウド:クラウド・インフラストラクチャは、ある組織のためだけに運営される。それは、組織又は第三者によって管理することができ、オンプレミス又はオフプレミスに存在することができる。
コミュニティクラウド:クラウド・インフラストラクチャは、幾つかの組織によって共有され、共通の関心事項(例えば、ミッション、セキュリティ要件、ポリシー、及びコンプライアンス上の考慮事項)を有する特定のコミュニティをサポートする。これは、それらの組織又は第三者によって管理することができ、オンプレミス又はオフプレミスに存在することができる。
パブリック・クラウド:クラウド・インフラストラクチャは、一般公衆又は大規模な業界グループによって利用可能であり、クラウド・サービスを販売する組織によって所有される。
ハイブリッドクラウド:クラウド・インフラストラクチャは、固有のエンティティのままであるが、データ及びアプリケーションのポータビリティを可能にする標準化技術又は専用技術(例えば、クラウド間の負荷平衡のためのクラウドバースティング)によって互いに結び付けられた、2つ以上のクラウド(プライベート、コミュニティ、又はパブリック)の混成物である。
クラウド・コンピューティング環境は、サービス指向であり、ステートレス性、低結合性、モジュール性、及びセマンティック相互運用性に焦点を置く。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。
ここで図7を参照すると、例示的なクラウド・コンピューティング環境750が示される。図示のように、クラウド・コンピューティング環境750は、例えば、携帯情報端末(PDA)もしくはセルラ電話754A、デスクトップ・コンピュータ754B、ラップトップ・コンピュータ754Cもしくは自動車コンピュータ・システム754N又はその組み合わせなどの、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信することができる、1つ又は複数のクラウド・コンピューティング・ノード710を含む。ノード710は、互いに通信することができる。ノード710は、上述されるプライベート・クラウド、コミュニティクラウド、パブリック・クラウド、又はハイブリッドクラウド、又はその組み合わせなどの、1つ又は複数のネットワークにおいて物理的に又は仮想的にグループ化することができる(図示せず)。このことは、クラウド・コンピューティング環境750が、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを保持する必要のないInfrastructure as a Service、Platform as a ServiceもしくはSoftware as a Service又はその組み合わせを提供することを可能にする。図7に示されるコンピューティング・デバイス754A~754Nのタイプは、単に例示的であることが意図され、コンピューティング・ノード710及びクラウド・コンピューティング環境750は、任意のタイプのネットワークもしくはネットワークアドレス指定可能な接続又はその両方を介して任意のタイプのコンピュータ化されたデバイスと通信することが可能である(例えば、ウェブ・ブラウザを用いて)ことが理解される。
図8は、本発明の実施形態による、例示的抽象化モデル層の概略図である。図8に示されるコンポーネント、層及び機能は単に例示であることを意図し、本発明の実施形態はそれらに限定されないことを予め理解されたい。図示されるように、以下の層及び対応する機能が提供される。
ハードウェア及びソフトウェア層860は、ハードウェア・コンポーネント及びソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例として、メインフレーム861、RISC(Reduced Instruction Set Computer(縮小命令セットコンピュータ))アーキテクチャ・ベースのサーバ862、サーバ863、ブレード・サーバ864、ストレージ・デバイス865、並びにネットワーク及びネットワーキングコンポーネント866が含まれる。幾つかの実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア867と、データベース・ソフトウェア868とを含む。
仮想化層870は、抽象化層を提供し、この層により、仮想エンティティの以下の例、すなわち、仮想サーバ871、仮想ストレージ872、仮想プライベート・ネットワークを含む仮想ネットワーク873、仮想アプリケーション及びオペレーティング・システム874、並びに仮想クライアント875を提供することができる。
一例において、管理層880は、以下で説明される機能を提供することができる。リソース・プロビジョニング881が、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソース及び他のリソースの動的な調達を提供する。計量及び価格決定882は、クラウド・コンピューティング環境内でリソースが利用されたときの費用追跡と、これらのリソースの消費に対する課金又は請求とを提供する。一例において、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、クラウド・コンシューマ及びタスクについての識別検証、並びにデータ及び他のリソースに対する保護を提供する。ユーザ・ポータル883は、コンシューマ及びシステム管理者に対して、クラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理884は、必要なサービス・レベルが満たされるように、クラウド・コンピューティング・リソースの割当て及び管理を提供する。サービス・レベル・アグリーメント(Service Level Agreement、SLA)の計画及び履行885は、SLAに従って将来的な必要性が予測されるクラウド・コンピューティング・リソースの事前配置及び調達を提供する。
ワークロード層890は、クラウド・コンピューティング環境を利用することができる機能の例を提供する。この層から提供することができるワークロード及び機能の例として、マッピング及びナビゲーション891、ソフトウェア開発及びライフサイクル管理892、仮想教室教育配信893、データ分析処理894、トランザクション処理895、及び新材料の候補生成器896が挙げられる。
本明細書で用いられる場合、用語「データ」、「コンテンツ」「情報」及び類似の用語は、種々の例示的実施形態に従って、獲得、伝送、受信、表示、もしくは格納又はそれらの組み合わせを行うことができるデータを指すために交換可能に用いることができる。従って、いずれかのそうした用語の使用は、本開示の趣旨及び範囲を制限するように理解すべきではない。さらに、コンピューティング・デバイスが、別のコンピューティング・デバイスからデータを受け取るように本明細書で記載される場合、データは、別のコンピューティング・デバイスから直接受け取ることも、又は、例えば、1つ又は複数のサーバ、中継器、ルータ、ネットワーク・アクセス・ポイント、基地局などの1つ又はそれより多い中間コンピューティング・デバイスを介して間接的に受け取ることも可能である。
ユーザとの相互作用を与えるために、本明細書に説明される主題の実施形態は、情報をユーザに表示するための、例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタなどのディスプレイ・デバイス、並びにキーボード及びユーザが入力をコンピュータに与えることができる、例えばマウス又はトラックボールなどのポインティング・デバイスを有するコンピュータ上で実施することができる。他の種類のデバイスを用いて、ユーザとの相互作用を与えることもでき、例えば、ユーザに与えられるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックなどのいずれかの形の感覚フィードバックとすることができ、ユーザからの入力は、音響入力、音声入力、又は触覚入力を含む任意の形で受け取ることができる。
本発明は、システム、方法もしくはコンピュータ・プログラム製品又はその組み合わせとして具体化することができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの、すなわち:ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、パンチカードもしくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、及び/又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び/又はエッジ・サーバを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体内に格納する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び、「C」プログラミング言語若しくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述されるソース・コード又はオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)若しくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービスプロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路を個別化することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図もしくはブロック図又はその両方を参照して説明される。フローチャート図もしくはブロック図又はその両方の各ブロック、並びにフローチャート図もしくはブロック図又はその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えて機械を製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャートもしくはブロック図又は両方の1つ又は複数のブロック内で指定された機能/動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置もしくは他のデバイス又はその組み合わせを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャートもしくはブロック図又は両方の1つ又は複数のブロックにおいて指定された機能/動作の態様を実施する命令を含む製品を含むようにすることもできる。
コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生産し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャートもしくはブロック図又は両方の1つ又は複数のブロックにおいて指定された機能/動作を実行するためのプロセスを提供するようにすることもできる。
図面内のフローチャート及びブロック図は、本発明の様々な実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図もしくはフローチャート図又は両方の各ブロック、及びブロック図もしくはフローチャート図又は両方におけるブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
本明細書において、本原理の「一実施形態」又は「ある実施形態」並びにその変形への言及は、実施形態に関連して説明される特定の特徴、構造、又は特性が、本原理の少なくとも1つの実施形態に含まれることを意味する。従って、本明細書全体を通して様々な箇所に現れる「一実施形態において」又は「ある実施形態において」、並びにいずれかの他の変形という句の出現は、必ずしも全てが同じ実施形態を指しているとは限らない。
例えば、「A/B」、「AまたはB又はその両方」及び「A及びBのうちの少なくとも1つ」という場合における、次の「/」、「もしくは~又はその両方」、及び「~のうちの少なくとも1つの」のいずれかの使用は、最初に記載される選択肢(A)のみの選択、又は2番目に記載されている選択肢(B)のみの選択、又は両方の選択肢(A及びB)の選択を包含することが意図されることを理解されたい。更に別の例として、「A、BもしくはC又はそれらの組み合わせ」及び「A、B及びCのうちの少なくとも1つ」という場合、そのような表現は、最初に列挙される選択肢(A)のみの選択、又は2番目に列挙される選択肢(B)のみの選択、又は3番目に列挙される選択肢(C)のみの選択、或いは最初と2番目に列挙される選択肢(A及びB)のみの選択、又は最初と3番目に列挙される選択肢(A及びC)のみの選択、又は2番目と3番目に列挙される選択肢(B及びC)のみの選択、或いは3つの選択肢全て(A及びB及びC)の選択を包含することが意図されている。これは、本技術及び関連技術の当業者には容易に明らかであるように、列挙され項目の数だけ拡張することができる。
化学データベース(限定ではなく、例示であることが意図される)から新材料の候補を発見するためのシステム及び方法の好ましい実施形態を説明したが、上記の教示に鑑みて、当業者により、修正及び変更を作成できることに留意されたい。従って、説明される特定の実施形態において、添付の特許請求の範囲により概説されるような本発明の範囲内にある変更を成し得ることを理解されたい。このように、詳細かつ特許法により求められるところにより本発明の態様を説明したが、特許請求され、保護されることが望まれるものは、添付の特許請求の範囲に記載されている。

Claims (16)

  1. コンピュータの情報処理により化学データベースから新材料の候補を発見する方法であって、
    化学式から特徴ベクトルを抽出することと、
    前記化学データベースを用いるスパース・カーネル・モデルにより前記特徴ベクトルから特性値を予測するための予測モデルを学習することと、
    習された前記予測モデルによる前記予測された特性値に基づいて、降順でソートされた既存材料のリストから既存材料を選択することと、
    前記選択された既存材料に対する絶対的な反応の大きさの降順にソートされた基礎材料のリストから、基礎材料を選択することと、
    前記選択された基礎材料を考慮して、前記選択された既存材料の変異型として前記新材料の候補を生成することと
    を含む、方法。
  2. 前記生成するステップは、
    正の反応に応答して、前記選択された既存材料と前記選択された基礎材料との間で部分構造を交換すること
    をさらに含む、請求項1に記載の方法。
  3. 前記生成するステップは、
    負の反応に応答して、前記選択された既存材料から、前記選択された既存材料と前記選択された基礎材料との間で共通の部分構造を取り去ること
    をさらに含む、請求項1に記載の方法。
  4. 前記基礎材料は、前記予測モデルを学習するために用いられる訓練データベースに格納される、請求項1から請求項3までのいずれか1項に記載の方法。
  5. 前記反応の大きさは、前記選択された既存材料と前記基礎材料の間の距離に前記予測モデルの係数を乗じたものである、請求項1から請求項4までのいずれか1項に記載の方法。
  6. 前記新材料の候補は、前記予測モデルの補間領域において発見される、請求項1から請求項5までのいずれか1項に記載の方法。
  7. 前記特徴ベクトルは任意のものであり、前記スパース・カーネル・モデルは関連ベクトル・マシン(RVM)である、請求項1から請求項6までのいずれか1項に記載の方法。
  8. 請求項1から請求項7までのいずれか1項に記載の方法をコンピュータに実行させるコンピュータ・プログラムが格納されたコンピュータ可読ストレージ媒体。
  9. 請求項1から請求項7までのいずれか1項に記載の方法をコンピュータに実行させるコンピュータ・プログラム。
  10. 化学データベースから新材料の候補を発見するためのシステムであって、
    メモリと、
    化学式から特徴ベクトルを抽出し、
    前記化学データベースを用いるスパース・カーネル・モデルにより前記特徴ベクトルから特性値を予測するための予測モデルを学習し、
    習された前記予測モデルによる前記予測された特性値に基づいて、降順でソートされた既存材料のリストから既存材料を選択し、
    前記選択された既存材料に対する絶対的な反応の大きさの降順にソートされた基礎材料のリストから、基礎材料を選択し、
    前記選択された基礎材料を考慮して、前記選択された既存材料の変異型として前記新材料の候補を生成する
    ように構成された、前記メモリと通信する1つ又は複数のプロセッサと
    を含む、システム。
  11. 前記新材料の候補の生成は、
    正の反応に応答して、前記選択された既存材料と前記選択された基礎材料との間で部分構造を交換すること
    を含む、請求項10に記載のシステム。
  12. 前記新材料の候補の生成は、
    負の反応に応答して、前記選択された既存材料から、前記選択された既存材料と前記選択された基礎材料との間で共通の部分構造を取り去ること
    をさらに含む、請求項10に記載のシステム。
  13. 前記基礎材料は、前記予測モデルを学習するために用いられる訓練データベースに格納される、請求項10から請求項12までのいずれか1項に記載のシステム。
  14. 前記反応の大きさは、前記選択された既存材料と前記基礎材料の間の距離に前記予測モデルの係数を乗じたものである、請求項10から請求項13までのいずれか1項に記載のシステム。
  15. 前記新材料の候補は、前記予測モデルの補間領域において発見される、請求項10から請求項14までのいずれか1項に記載のシステム。
  16. 前記特徴ベクトルは任意のものであり、前記スパース・カーネル・モデルは関連ベクトル・マシン(RVM)である、請求項10から請求項15までのいずれか1項に記載のシステム。
JP2021532184A 2019-01-15 2019-12-16 所望の特性を有する材料を見つけるための機械学習フレームワーク Active JP7372012B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/247,954 2019-01-15
US16/247,954 US11901045B2 (en) 2019-01-15 2019-01-15 Machine learning framework for finding materials with desired properties
PCT/IB2019/060838 WO2020148588A1 (en) 2019-01-15 2019-12-16 Machine learning framework for finding materials with desired properties

Publications (2)

Publication Number Publication Date
JP2022516697A JP2022516697A (ja) 2022-03-02
JP7372012B2 true JP7372012B2 (ja) 2023-10-31

Family

ID=71517719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021532184A Active JP7372012B2 (ja) 2019-01-15 2019-12-16 所望の特性を有する材料を見つけるための機械学習フレームワーク

Country Status (6)

Country Link
US (1) US11901045B2 (ja)
JP (1) JP7372012B2 (ja)
CN (1) CN113260986B (ja)
DE (1) DE112019005373T5 (ja)
GB (1) GB2593848B (ja)
WO (1) WO2020148588A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12190236B2 (en) * 2020-04-24 2025-01-07 Deepmind Technologies Limited Predicting properties of materials from physical material structures
CN111899816B (zh) * 2020-07-17 2022-12-02 北京航空航天大学 基于人工智能数据分析的热电材料性能预测
AU2022254655A1 (en) * 2021-04-05 2023-10-05 Mattiq, Inc. Ai-accelerated characterization of materials
CN113505527B (zh) * 2021-06-24 2022-10-04 中国科学院计算机网络信息中心 一种基于数据驱动的材料性质预测方法及系统
JP7088399B1 (ja) * 2021-12-17 2022-06-21 Dic株式会社 ノボラック型フェノール樹脂の探索方法、情報処理装置、及びプログラム
CN114864013B (zh) * 2022-04-12 2025-09-19 脸萌有限公司 向量生成方法及装置、数据处理方法及装置、存储介质
JP7416131B2 (ja) * 2022-06-15 2024-01-17 Dic株式会社 熱硬化性エポキシ樹脂組成物の探索方法、情報処理装置、及びプログラム
CN115271274B (zh) * 2022-09-30 2022-12-27 华中科技大学 电力系统短期日负荷预测方法及相关设备
EP4609299A1 (en) * 2022-10-26 2025-09-03 Ticona LLC Interactive chemical material interface
CN116312890B (zh) * 2023-03-23 2026-01-02 西安邮电大学 粒子群优化算法辅助机器学习筛选高硬度高熵合金的方法
CN117252114B (zh) * 2023-11-17 2024-02-13 湖南华菱线缆股份有限公司 一种基于遗传算法的电缆耐扭转实验方法
US12368503B2 (en) 2023-12-27 2025-07-22 Quantum Generative Materials Llc Intent-based satellite transmit management based on preexisting historical location and machine learning
CN119314585B (zh) * 2024-12-18 2025-06-06 临沂大学 一种基于分层预测神经网络的玻璃硬度预测方法
CN120985474B (zh) * 2025-10-20 2025-12-30 中国科学院长春光学精密机械与物理研究所 光学元件抛光磨料的选择方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007018444A (ja) 2005-07-11 2007-01-25 Yamato Hiroshi 新規材料の構成物質情報探索方法、及び新規材料の構成物質情報探索システム
JP2007106708A (ja) 2005-10-14 2007-04-26 Univ Of Tokushima 構造反応特性相関解析装置および構造反応特性相関解析プログラム
JP2007511470A (ja) 2003-10-14 2007-05-10 バーセオン リード分子交差反応の予測・最適化システム
US20130173503A1 (en) 2010-08-25 2013-07-04 Matthew Segall Compound selection in drug discovery
JP2016052305A (ja) 2008-12-17 2016-04-14 ザ スクリプス リサーチ インスティテュート 幹細胞の作製と維持
JP2017091526A (ja) 2015-11-04 2017-05-25 三星電子株式会社Samsung Electronics Co.,Ltd. 新規物質探索方法および装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080168014A1 (en) * 2006-12-27 2008-07-10 Bhagat Phiroz M Catalyst discovery through pattern recognition-based modeling and data analysis
EP1992939A1 (en) 2007-05-16 2008-11-19 National University of Ireland, Galway A kernel-based method and apparatus for classifying materials or chemicals and for quantifying the properties of materials or chemicals in mixtures using spectroscopic data.
US9605034B2 (en) * 2015-08-28 2017-03-28 The United States Of America As Represented By The Secretary Of The Army Method and use for surface display of proteins and peptide derivatives in a bacterial thermophile
KR102523472B1 (ko) * 2016-08-01 2023-04-18 삼성전자주식회사 신규 물질의 구조 생성 방법 및 장치
JP7353874B2 (ja) * 2019-09-03 2023-10-02 株式会社日立製作所 材料特性予測装置および材料特性予測方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007511470A (ja) 2003-10-14 2007-05-10 バーセオン リード分子交差反応の予測・最適化システム
JP2007018444A (ja) 2005-07-11 2007-01-25 Yamato Hiroshi 新規材料の構成物質情報探索方法、及び新規材料の構成物質情報探索システム
JP2007106708A (ja) 2005-10-14 2007-04-26 Univ Of Tokushima 構造反応特性相関解析装置および構造反応特性相関解析プログラム
JP2016052305A (ja) 2008-12-17 2016-04-14 ザ スクリプス リサーチ インスティテュート 幹細胞の作製と維持
US20130173503A1 (en) 2010-08-25 2013-07-04 Matthew Segall Compound selection in drug discovery
JP2017091526A (ja) 2015-11-04 2017-05-25 三星電子株式会社Samsung Electronics Co.,Ltd. 新規物質探索方法および装置

Also Published As

Publication number Publication date
CN113260986B (zh) 2025-05-09
GB2593848A (en) 2021-10-06
DE112019005373T5 (de) 2021-07-15
CN113260986A (zh) 2021-08-13
JP2022516697A (ja) 2022-03-02
US11901045B2 (en) 2024-02-13
GB2593848B (en) 2022-04-13
WO2020148588A1 (en) 2020-07-23
GB202110471D0 (en) 2021-09-01
US20200227143A1 (en) 2020-07-16

Similar Documents

Publication Publication Date Title
JP7372012B2 (ja) 所望の特性を有する材料を見つけるための機械学習フレームワーク
JP7517776B2 (ja) 転移学習を用いた低リソース・エンティティ解決
JP7002638B2 (ja) ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習
WO2022111156A1 (en) Automated orchestration of containers by assessing microservices
JP7398474B2 (ja) ディープ・フォレスト・モデルの開発および訓練
JP7751936B2 (ja) 多変量時系列モデリングおよび予測のためのコンピューティングデバイス、コンピュータ実装方法、およびコンピュータ可読記憶媒体(改良された多変量時系列モデリングおよび予測のための複数時系列にわたる確率的非線形関係および外部要因)
WO2021224720A1 (en) Determining multivariate time series data dependencies
US20180053096A1 (en) Linkage Prediction Through Similarity Analysis
US20220122000A1 (en) Ensemble machine learning model
JP7578369B2 (ja) 共有可能な位置を変更する方法、システム、プログラム
US11829799B2 (en) Distributed resource-aware training of machine learning pipelines
US11514318B2 (en) Multi-source transfer learning from pre-trained networks
US20230021563A1 (en) Federated data standardization using data privacy techniques
JP2025515542A (ja) クライアント非依存型機械学習モデルを用いた自制を伴う説明可能な分類
CN114492808B (zh) 用于工业过程中的批量贝叶斯优化的早期实验停止
CN111489794A (zh) 用于创建预测模型的方法
JP7744720B2 (ja) 機械学習を用いたシフトレフトトポロジ構築および情報拡張
US11556558B2 (en) Insight expansion in smart data retention systems
US20220156594A1 (en) Feature enhancement via unsupervised learning of external knowledge embedding
US20230010615A1 (en) Combined classical/quantum predictor evaluation
US20230024397A1 (en) Classification of mouse dynamics data using uniform resource locator category mapping
US20230011645A1 (en) Identifying related messages in a natural language interaction in multiple iterations
WO2023066073A1 (en) Distributed computing for dynamic generation of optimal and interpretable prescriptive policies with interdependent constraints
JP2023038931A (ja) コンピュータ実装方法、コンピュータプログラム、及びシステム(ゼロ抑制決定図を使用したより高速の適合q反復)
EP4583004A1 (en) Integration of learned differentiable loss functions in deep learning models

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210716

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220512

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220526

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231003

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20231003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231017

R150 Certificate of patent or registration of utility model

Ref document number: 7372012

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150