JP7372012B2

JP7372012B2 - 所望の特性を有する材料を見つけるための機械学習フレームワーク

Info

Publication number: JP7372012B2
Application number: JP2021532184A
Authority: JP
Inventors: 孝行勝木
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-01-15
Filing date: 2019-12-16
Publication date: 2023-10-31
Anticipated expiration: 2039-12-16
Also published as: CN113260986B; GB2593848A; DE112019005373T5; CN113260986A; JP2022516697A; US11901045B2; GB2593848B; WO2020148588A1; GB202110471D0; US20200227143A1

Description

本発明は、一般に、新材料を発見することに関し、より具体的には、所望の特性を有する新材料を見つけるための機械学習フレームワークに関する。

データ・マイニングの実施は、大規模データが利用になったことで、経験科学から理論計算科学へ、そして今やデータ・サイエンスへと、科学的発見におけるパラダイム変化をもたらしてきた。具体的には、高度な機械学習技術を適用して、計算機支援による先端材料の発見、開発、製造及び展開をより高速に低コストで行うことを想定した材料発見（material discovery）を支援することに、関心が高まっている。実世界の用途では、人々が見るもの（例えば、結晶の構造、化合物の組成）を人々が求めるもの（例えば、合金の一定の強度を求めること）にリンクすることによって、特定の用途に必要な特性を持つ新材料を客観的に作り出すのを助ける方法の開発が奨励されている。

実施形態によると、化学データベースから新材料の候補を発見するための方法が提供される。方法は、化学式から特徴ベクトルを抽出することと、化学データベースを用いるスパース・カーネル・モデルにより特徴ベクトルから特性値を予測するための予測モデルを学習することと、学習ステップにおいて学習された予測モデルによる予測された特性値に基づいて、降順でソートされた既存材料のリストから既存材料を選択することと、選択された既存材料に対する絶対的な反応の大きさの降順にソートされた基礎材料（basis material）のリストから基礎材料を選択することと、選択された基礎材料を考慮して、選択された既存材料の変異型として、新材料の候補を生成することとを含む。

別の実施形態によると、化学データベースから新材料の候補を発見するためのシステムが提供される。システムは、メモリと、化学式から特徴ベクトルを抽出し、化学データベースを用いるスパース・カーネル・モデルにより特徴ベクトルから特性値を予測するための予測モデルを学習し、学習ステップにおいて学習された予測モデルによる予測された特性値に基づいて、降順でソートされた既存材料のリストから既存材料を選択し、選択された既存材料への絶対的な反応の大きさの降順にソートされた基礎材料のリストから基礎材料を選択し、選択された基礎材料を考慮して、選択された既存材料の変異型として新材料の候補を生成するように構成された、メモリと通信する１つ又は複数のプロセッサとを含む。

更に別の実施形態によると、化学データベースから新材料の候補を発見するための、コンピュータ可読プログラムを含む非一時的コンピュータ可読ストレージ媒体が提示される。非一時的コンピュータ可読ストレージ媒体は、化学式から特徴ベクトルを抽出するステップと、化学データベースを用いるスパース・カーネル・モデルにより特徴ベクトルから特性値を予測するための予測モデルを学習するステップと、学習ステップにおいて学習された予測モデルによる予測された特性値に基づいて降順でソートされた既存材料のリストから既存材料を選択するステップと、選択された既存材料への絶対的な反応の大きさの降順にソートされた基礎材料のリストから基礎材料を選択するステップと、選択された基礎材料を考慮して、選択された既存材料の変異型として新材料の候補を生成するステップとを実行する。

例示的な実施形態は、異なる主題に関連して説明されることに留意されたい。特に、幾つかの実施形態は、方法タイプの請求項（method type claim）を参照して説明されているが、他の実施形態は、装置タイプの請求項（apparatus type claim）を参照して説明される。しかしながら、当業者であれば、上記及び以下の説明から、特に断りのない限り、１つのタイプの主題に属する特徴の任意の組み合わせに加えて、異なる主題に関する特徴間、特に、方法タイプの請求項の特徴と装置タイプの請求項の特徴との間の任意の組み合わせも、本明細書内に開示されるものと見なされることを推測するであろう。

これら及び他の特徴、並びに利点は、添付の図面に関連して読まれるべきその例示的実施形態の以下の詳細な説明から明らかとなるであろう。

本発明は、以下の図面を参照して、好ましい実施形態の以下の説明に詳細を提供するであろう。

材料の候補を発見するための例示的な決定論的生成方法である。本発明の実施形態による、訓練データのサンプリングを示す例示的グラフである。本発明の実施形態による、本発明を従来技術と比較する例示的グラフである。本発明の実施形態による、スパース・カーネル・モデルを用いることによって材料の候補を発見するための例示的な決定論的生成方法のブロック／フロー図である。本発明の実施形態による、材料の候補を発見するための決定論的生成方法を実施するための例示的な式のブロック／フロー図である。本発明の実施形態による、例示的な処理システムである。本発明の実施形態による、例示的なクラウド・コンピューティング環境のブロック／フロー図である。本発明の実施形態による、例示的な抽象化モデル層の概略図である。

図面全体を通して、同じ又は類似の参照番号は、同じ又は類似の要素を表す。

本発明による実施形態は、スパース・カーネル・モデルを用いることによって新材料の候補を生成するための、ランダム性のない決定論的方法を用いる方法及びデバイスを提供し、ここで、方法は、より高い目標特性値を有する既存材料と、スパース・カーネル・モデルにおけるこれらの既存材料に対する反応の大きさが大きな基礎材料との間の変異型（variant）として、候補を生成する。

材料発見に関する問題は、所望の目標特性を持つ材料の特定の組成、配合及び加工のステップを決定することに関連する。合金の構造的関係、記述子の評価などを特徴付ける、分光分類及び構造同定のような材料科学の用途においては、ニューラル・ネットワークがツールとして用いられている。しかしながら、ニューラル・ネットワーク及び深層学習は、材料発見の用途ではあまり用いられていない。本発明の例示的実施形態は、深層学習技術を利用して、所望の特性を持つ新材料を発見する。

機械学習技術は、時系列データを検出して分析するために、統計学的手法と比べてより効果的である。これは、機械学習が２つの重要な特徴、つまり、特徴エンジニアリング（feature engineering）及び予測を有するためである。特徴エンジニアリングの態様を用いて、時系列データの傾向と季節性問題に対処する。モデルを時系列データに当てはめる問題も、これにより解決することができる。

より高いレベルの予測のために、深層学習を用いて、時系列の特徴抽出を非線形自己回帰モデル（non-linear autoregressive model）と組み合わせる。深層学習を用いて、いずれの人的努力も複雑な統計学的手法も用いることなく、特徴から有用な情報を自動的に抽出する。

機械学習の２つの最も有効な技術、つまり教師あり学習（supervised learning）及び教師なし学習（unsupervised learning）がある。教師あり学習は、データ点を訓練するために行われ、それらのデータ点を異なるカテゴリのデータ点に分類することができる。しかし、教師あり学習の場合、データ点をラベル付けする必要がある。しかしながら、別の手法は、データ点がラベル付けされない教師なし学習である。教師なし学習を適用して、系列における次のデータ点の予測を行うことができるようにシステムを訓練することができる。これを実施するために、信頼区間又は予測誤差が作成される。従って、データ点に対して、どのデータ点が信頼区間内又は信頼区間外に存在するかをチェックするテストを実施することができる。最も一般的な教師あり学習アルゴリズムは、教師ありニューラル・ネットワーク、サポート・ベクトル機械学習、ｋ近傍法、ベイジアン・ネットワーク及び決定木である。最も一般的な教師なしアルゴリズムは、自己組織化マップ（self-organizing map、ＳＯＭ）、Ｋ平均法、Ｃ平均法、期待値最大化メタ・アルゴリズム（expectation-maximization meta-algorithm、ＥＭ）、適応共鳴理論（adaptive resonance theory、ＡＲＴ）及び１クラス・サポート・ベクトル・マシン（one-class support vector machine）である。

本発明は、所与の例示的アーキテクチャに関して説明されるが、本発明の範囲内で、他のアーキテクチャ、構造、基板材料及びプロセス特徴及びステップ／ブロックが変化し得ることを理解されたい。分かりやすくするために、全ての図において、特定の特徴が示されていないことがあることに留意すべきである。これは、いずれかの特定の実施形態、又は図示、又は特許請求の範囲の制限と解釈されることを意図するものではない。

図１は、材料の候補を発見するための例示的な決定論的生成方法である。

例えば、所望の特性（例えば、高ガラス転移温度、低粘度など）を持つ有機ポリマー（例えば、エポキシ樹脂）などの新材料を発見することは、化学業界にとって重要なタスクである。（化学反応、調理、芳香などのための）加工及びレシピの生成、物理的構造の最適化、広告などのような種々の領域において、多くの同様の問題及び必要性（逆解析）が存在する。

図１のフローチャート１００に示されるように、問題は、化学データベースから高い特性値を有する材料を発見する又は見つけることである。入力１０２は、既存材料（例えば、Simplified Molecular-input Line-entry System（ＳＭＩＬＥＳ化学ファイル・フォーマット）を用いて記述することができる化学式）と化学式の対応する特性とのペアを含む。出力１１８は、所望の特性を有する新材料の化学式を含み、所望の特性は、例えば高い値とすることができる。しかしながら、特定の特性値を有する材料を探索するなど、所望の特性を他の設定に一般化することができる。

従来の方法では、以下のステップをバッチ方式又はシーケンシャル方式で行うことができる。第１のステップにおいて、化学式１０２から抽出された何らかの特徴ベクトル１０４から、化学的特性についての予測モデル１０６を構築する。特徴ベクトル１０４は、化学式の特徴を記述するベクトルである。第２のステップにおいて、予測モデル１０６に基づいて、特徴ベクトル１０４を最適化（逆解析）する。第３のステップにおいて、ベクトルを化学式に変換する。１つの例において、特性値１０８は、訓練データベース１１０から選択することができる。選択された特性値は、例えば特性値１１２とすることができる。特性値１１２は、予測モデル１１４にフィードバックすることができ、そこから、新しい特徴ベクトル１１６を新材料１１８に変換する必要がある。新しい特徴ベクトル１１６から新材料１１８への変換は非常に困難となる可能性がある。

その結果、これらの方法は、実験のために必要な計算コストがより少ないか、又は良好な応答又は結果を学習するために十分な訓練データを必要とする。さらに、補間が無意味になることがあり、特徴ベクトルを化学式に変更するのは困難な可能性がある。従って、ある仮定、つまり、従来の方法では、特性（又は特性値）から化学式を予測する問題を直接解決することができないという仮定と、従来の方法では、訓練データベース１１０に格納された訓練データが不十分であるために、特性（又は特性値）についての予測モデルの入力に３Ｄ構造を直接利用することができないという仮定とを行うことができる。

図２は、本発明の実施形態による、訓練データのサンプリングを示す例示的グラフであり、図３は、本発明の実施形態による、本方法と従来の方法を比較する例示的グラフである。

図１のグラフ１００を用いる代わりに、例示的実施形態は、材料の特徴ベクトルから特性値についての予測モデルを利用し、（図１のように、特徴ベクトルを新材料に変換する必要なしに）予測モデルの補間領域内の新材料候補の化学式を直接探索する。従って、本発明の例示的実施形態は、材料から特性又は特性値を予測する予測モデルについてのスパース・カーネル・モデルを利用する。スパース・カーネル・モデルを利用することによって、本方法は、良好な特性を有する訓練データと予測モデルにおいて最も反応した基礎材料との間で材料を探索して発見する。

訓練データ内の材料は、２つのソース、すなわち経験的実験及び計算シミュレーションによってもたらされる場合がある。実験データとは、実験的観察の試行錯誤の繰り返しを指し、その例は、材料サンプルから直接撮影された顕微鏡画像である。こうしたデータはサイズが非常に限られていることが多く、データ品質に影響を与える非定常分散のノイズを含むことがある。他方、シミュレーション・データは、より豊富で入手しやすく、安定しており、人為的な操作エラーが生じる傾向が低い。

用語「カーネル・モデル」に関して、カーネル・モデルは、カーネル関数から導出することができる。カーネル関数は、元の空間におけるベクトルを入力として受け取り、特徴空間におけるベクトルのドット積を返す。カーネル法は、パターン解析のためのアルゴリズムのクラスである。パターン解析の一般的なタスクは、データセットにおける一般的な関係のタイプ（例えば、クラスタ、ランク付け、主成分、相関、分類）を見つけて学習することである。その最も簡単な形式において、カーネル・トリックは、データのクラス間を明確に分割する境界を有する別の次元にデータを変換することを意味する。これらのタスクを解決する多くのアルゴリズムの場合、生の表現のデータは、ユーザ指定の特徴マップを介して、特徴ベクトル表現に明示的に変換される必要がある。対照的に、カーネル法は、ユーザ指定のカーネル、すなわち、生の表現におけるデータ点のペアに対する類似関数しか必要としない。従って、カーネル関数は、元の空間でデータを操作することによって、より高い次元の空間に投影されたかのようにデータを操作する方法を提供する。

用語「基礎材料」に関して、複合材料又は化合物材料は、著しく異なる物理的又は化学的特性を持つ２つ又はそれより多い構成材料（又は基礎材料）でできた材料であり、結合されると、個々の成分とは異なる特徴を持つ材料を生成する。個々の成分は、完成した構造体の中で、分離され独立したままである。新材料は、従来の材料と比べて、例えばより強い、より軽い、又はより安価であるなどの理由で、好ましい場合がある。従って、基礎材料は、複合材料の構成材料と考えることができる。

第１のステップにおいて、本方法は、化学式から抽出される特徴ベクトルを利用して、化学データベースを用いるスパース・カーネル・モデルにより特徴ベクトルから特性を予測するためのモデルを学習する。

特徴ベクトルは任意のものである（例えば、部分構造カウント、構造上の特徴など）。特徴ベクトルは、特徴ベクトルを材料に変換する容易さを考慮する必要がない。

さらに、特徴ベクトルに対して次元削減方法を用いることもでき、これはアルゴリズムに影響を与えない。

例示的方法は、サポート・ベクトル・マシン（ＳＶＭ）、関連ベクトル・マシン（ＲＶＭ）及びスパース・カーネル・モデルのための他の方法を用いることができるが、こうした例示的方法は、予測の事後及び信頼を用いることができ、候補の生成においてベイズ最適化手順をさらに用いることができるので、ベイズ・モデル（ＲＶＭなど）がより適している。

ＳＶＭは、分類タスクに用いることができる教師あり機械学習技術である。その基本形態において、ＳＶＭは、データのインスタンスを空間に表現し、ＳＶＭは、クラスを分離する最大限の広いギャップ（超平面）によって、異なるクラスを分離しようとする。他方、ＲＶＭは、この分離空間を定めるために確率的手法を用いる。一例において、ＲＶＭは、ベイズ推定を用いて解を求める。従って、ＲＶＭは、著しく少ない数の基底関数を用いる。

さらに、例示的方法は、特徴空間におけるデータ点の座標を知る必要なしに、特徴空間におけるデータ点の間の距離に基づいて、カーネルを利用する。

第２のステップにおいて、第１のステップにおいて学習された予測モデルによる予測された特性値に基づいて、既存材料が降順で選択される。別の言い方をすれば、材料リストが作成され、予測モデルによって予測された特性値に基づいてソートされる。降順は、最も近い所望の特性値を示す材料をリストの上位とし、関連する所望の特性値を示す材料をリストの下位とすることができる。降順は、絶対的に最も近い、やや近い、最も近くないなどとして整理することができる。

幾つかのモデル（ＲＶＭなど）では、訓練データについての予測は学習ステップで必要とされるので、この予測のための付加的な計算はなく、ソートだけである。

例示的方法は、付加的な予測計算を用いるこのステップについて、特性ラベルを有しない既存材料を利用することができる。特性ラベルがないため、この方法は、教師なし学習技術に適している。

第３のステップにおいて、基礎材料は、第２のステップにおいて選択された材料に対する基礎材料の絶対的な反応の大きさ（選択された材料と基礎材料との間の距離×基礎材料の係数）の降順で選択される。言い方を変えれば、材料リストが作成され、選択された既存材料に対する絶対的な反応の大きさに基づいてソートされる。

スパース・モデリングから、限られた数の基礎材料が選択された状態にされる。

第４のステップにおいて、例示的方法は、次のように、第２のステップにおいて選択された既存材料と第３のステップにおいて選択された基礎材料との変異型として、新材料の候補を生成する。

第３のステップにおける反応が正である場合、例示的方法では、他方の材料に含まれない一方の材料の部分構造を他方の材料に加えること又は材料の間で共通ではない部分構造を取り去ることのいずれか又はその組み合わせとして、材料の間で部分構造を「交換」する。

第３のステップにおける反応が負である場合、例示的方法では、材料間で共通の部分構造を取り去る。

所定の数の候補材料が得られるまで、ステップ２乃至ステップ４が繰り返される。所定の数は、ユーザが決定することもソフトウェアによって予め定めることもできる。

例示的方法は既存のデータの間の変異型として候補を生成するので、例示的方法は、主に予測モデルの補間として候補を生成することができる。訓練データの数及び変形に応じて、探索がより広くなる。

本発明の例示的実施形態は、化学式が構造を離散的に変化させることはできるが連続的に変化させることができないという性質を捉えている。

スパース・カーネル・モデルにおいて、モデルは、スパース学習を通じて非ゼロ重み（non-zero weight)を有する基底以外の情報を持っていない。一般に、非ゼロ重みを有する基底は、殆どの場合、互いに似ておらず、材料に大きく反応した基底は、殆どの場合、カーネルの定義（距離）のために互いに似ている。

従って、良好な特性を有する材料を交換するだけでは、例示的方法よりも効率的ではない。さらに、例示的方法は、連続して適用することができ、予測モデルの微分可能性を仮定する必要はない。

図２及び図３に関して、例示的方法は、グラフ２００に示されるように関数から訓練データをサンプリングし、予測モデルを学習し、予測モデルに基づいて関数の高い値を探索した。

例示的方法を、例えば、粒子群最適化（particle swarm optimization）（パターン２）及び遺伝的アルゴリズム（パターン３）により、従来の方法と比較した。

例示的方法は、図３のグラフ３１０及び３２０に示されるように、異なる数の訓練データにおける各実験設定について、発見された目標値と１０分割交差検証（ten-fold cross-validation）の平均誤差とをさらに示す。

例示的方法（パターン１）の性能は、特に少数の訓練データ又は不十分な数の訓練データが利用可能な設定において、他の方法（パターン２及びパターン３）のものより良好であった。

従って、例示的方法は、そのアルゴリズムにおいてランダム性を持たないので、他の方法と比べて効果的である。実際の化学データの実験において、スパース・カーネル・モデル（例えば、ＲＶＭ）が他の方法（例えば、線形モデル、ランダム・フォレストなど）よりも良好な予測性能を有すると判断された。例示的方法は、訓練データベースにおいて見つかったものよりも良好な性能を持つ新しい候補を発見した。さらに、一例では、発見された候補の１／３が新材料と重複すると判断された。

図４は、本発明の実施形態による、スパース・カーネル・モデルを利用することによって、材料の候補を発見するための例示的な決定論的生成方法のブロック／フロー図である。

ブロック４１０において、化学特性についての予測モデルが、化学式から抽出された特徴ベクトルから構成される。

ブロック４１２において、既存材料が、予測モデルから得られた予測された特性値に基づいて降順で選択される。

ブロック４１４において、（訓練データ内の材料から選択された）基礎材料が、選択された既存材料に対する絶対的な反応の大きさの降順で選択される。

ブロック４１６において、新材料の候補が、選択された既存材料及び選択された基礎材料の変異型として生成される。候補の数が十分な場合には、処理は終了し、ブロック４１８に進む。

ブロック４１８において、候補リストが、例えば、評価及び分析されるコンピューティング・デバイスのユーザ・インターフェースに出力される。

図５は、本発明の実施形態による、材料の候補を発見するための決定論的生成方法を実施するための例示的な式のブロック／フロー図である。

例示的方法は、おおよそ以下の最適化問題５１０：

における既存材料からの１ステップの上昇（one-step ascent）として見ることができる。

ここで、ｚは化学式であり、ｘ（ｚ）は特徴ベクトル（任意）であり、Φ（ｘ（ｚ））は基底関数（距離に基づく、例えば放射基底関数）である。

勾配５２０は：

として与えられる。

結論として、例えば、硬度、融点、イオン伝導率、ガラス転移温度、分子の原子化エネルギー、及び格子定数などの材料の特性を、巨視的又は微視的レベルのいずれかで説明することができる。材料特性を研究する２つの一般的な方法、すなわち計算シミュレーション及び実験的測定がある。これらの方法は、複雑な演算及び実験の設定を要する。従って、材料の特性とその関連因子との間の複雑な論理関係を完全に捉える計算シミュレーションを構築することは極めて困難であり、これらの関係の一部が未知の場合さえある。さらに、化合物の特性を測定するために実行される実験は、通常、材料選択の後半に行われる。その結果、結果が満足のいくものではない場合、膨大な時間とその時点までに投資された実験リソースが無駄になったことが判明することもある。さらに、多くの場合、膨大な計算又は実験の努力にもかかわらず、材料の特性を研究することは困難であるか又はほぼ不可能である。従って、低い計算コストで材料の特性を正確に予測できるインテリジェントで高性能の予測モデルを開発する必要性がある。機械学習は、データからパターンを学習できるアルゴリズムの構成及び研究に関係する。材料特性の予測のために機械学習方法を用いる基本的なアイデアは、既存の経験的なデータから知識を抽出することによって、材料の特性とその関連因子との間の関係（殆どの場合、非線形）を解析しマッピングすることである。しかしながら、経験的なデータは不十分なものである可能性がある。その結果、本発明の例示的実施形態は、スパース・カーネル・モデルを用いることによって、新材料の候補を生成するためのランダム性のない決定論的方法を実施するための機械学習フレームワークを利用するものであり、本方法は、より高い目標特性値を有する既存材料と、スパース・カーネル・モデルにおける既存材料に対して反応の大きさが大きい基礎材料との間の変異型として、候補を生成する。

図６は、本発明の実施形態による、例示的処理システムである。

ここで図６を参照すると、この図は、本発明の実施形態によるコンピューティング・システム６００のハードウェア構成を示す。見られるように、このハードウェア構成は、少なくとも１つのプロセッサ又は中央処理ユニット（ＣＰＵ）６１１を有する。ＣＰＵ６１１は、システム・バス６１２を介して、ランダム・アクセス・メモリ（ＲＡＭ）６１４、読み出し専用メモリ（ＲＯＭ）６１６、入力／出力（Ｉ／Ｏ）アダプタ６１８（ディスク・ユニット６２１及びテープ・ドライブ６４０などの周辺機器をバス６１２に接続するための）、ユーザ・インターフェース・アダプタ６２２（キーボード６２４、マウス６２６、スピーカ６２８、マイクロフォン６３２もしくは他のユーザ・インターフェース・デバイス又はそれらの組み合わせをバス６１２に接続するための）、システム６００をデータ処理ネットワークに接続するための通信アダプタ６３４、インターネット、イントラネット、ローカル・エリア・ネットワーク（ＬＡＮ）など、及びバス６１２をディスプレイ・デバイス６３８もしくはプリンタ６３９（例えば、ディジタル・プリンタなど）又はその両方に接続するためのディスプレイ・アダプタ６３６に相互接続される。

図７は、本発明の実施形態による、例示的クラウド・コンピューティング環境のブロック／フロー図である。

本発明は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書に記載される教示の実装は、クラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在既知の又は後で開発される他のいずれかのタイプのコンピューティング環境と共に実装することができる。

クラウド・コンピューティングは、最小限の管理労力又はサービス・プロバイダとの対話で迅速にプロビジョニングされ、かつ解放されることが可能である構成可能なコンピューティング・リソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、及びサービス）の共有プールへの、便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも５つの特徴、少なくとも３つのサービス・モデル、及び少なくとも４つのデプロイメント・モデルを含むことができる。

特徴は、以下の通りである。

オンデマンド・セルフサービス：クラウド・コンシューマは、必要に応じて、サーバ時間及びネットワーク・ストレージ等のコンピューティング機能を、人間がサービスのプロバイダと対話する必要なく自動的に、一方的にプロビジョニングすることができる。

広範なネットワーク・アクセス：機能は、ネットワーク上で利用可能であり、異種のシン又はシック・クライアント・プラットフォーム（例えば、携帯電話、ラップトップ、及びＰＤＡ）による使用を促進する標準的な機構を通じてアクセスされる。

リソース・プール化：プロバイダのコンピューティング・リソースは、マルチテナント・モデルを用いて複数のコンシューマにサービスを提供するためにプールされ、異なる物理及び仮想リソースが要求に応じて動的に割り当て及び再割り当てされる。コンシューマは、一般に、提供されるリソースの正確な位置についての制御又は知識を持たないという点で、位置とは独立しているといえるが、より抽象化レベルの高い位置（例えば、国、州、又はデータセンタ）を特定できる場合がある。

迅速な弾力性：機能は、迅速かつ弾力的に、場合によっては自動的に、プロビジョニングしてすばやくスケールアウトし、迅速に解放して素早くスケールインすることができる。コンシューマにとって、プロビジョニングに利用可能な能力は、多くの場合、無制限であるように見え、いつでもどんな量でも購入できる。

サービスの測定：クラウド・システムは、サービスのタイプ（例えば、ストレージ、処理、帯域幅、及びアクティブなユーザ・アカウント）に適した何らかの抽象化レベルでの計量機能を用いることによって、リソースの使用を自動的に制御及び最適化する。リソース使用を監視し、制御し、報告して、利用されるサービスのプロバイダとコンシューマの両方に対して透明性をもたらすことができる。

サービス・モデルは、以下の通りである。

ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ（ＳａａＳ）：コンシューマに提供される機能は、クラウド・インフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。これらのアプリケーションは、ウェブ・ブラウザ（例えば、ウェブベースの電子メール）などのシン・クライアント・インターフェースを通じて、種々のクライアント・デバイスからアクセス可能である。コンシューマは、限定されたユーザ固有のアプリケーション構成設定を想定される例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、又は個々のアプリケーション能力をも含めて、基礎をなすクラウド・インフラストラクチャを管理又は制御しない。

ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅ（ＰａａＳ）：コンシューマに提供される機能は、プロバイダによってサポートされるプログラミング言語及びツールを用いて作成された、コンシューマが作成又は取得したアプリケーションを、クラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、又はストレージを含む基礎をなすクラウド・インフラストラクチャを管理又は制御しないが、デプロイされたアプリケーション、及び場合によってはアプリケーションをホストする環境構成を制御する。

ＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ（ＩａａＳ）：コンシューマに提供される機能は、コンシューマが、オペレーティング・システム及びアプリケーションを含み得る任意のソフトウェアをデプロイして実行させることができる、処理、ストレージ、ネットワーク、及び他の基本的なコンピューティング・リソースをプロビジョニングすることである。コンシューマは、基礎をなすクラウド・インフラストラクチャを管理又は制御しないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションに対する制御、及び場合によってはネットワークコンポーネント（例えば、ホストのファイアウォール）選択に対する限定された制御を有する。

デプロイメント・モデルは以下の通りである。

プライベート・クラウド：クラウド・インフラストラクチャは、ある組織のためだけに運営される。それは、組織又は第三者によって管理することができ、オンプレミス又はオフプレミスに存在することができる。

コミュニティクラウド：クラウド・インフラストラクチャは、幾つかの組織によって共有され、共通の関心事項（例えば、ミッション、セキュリティ要件、ポリシー、及びコンプライアンス上の考慮事項）を有する特定のコミュニティをサポートする。これは、それらの組織又は第三者によって管理することができ、オンプレミス又はオフプレミスに存在することができる。

パブリック・クラウド：クラウド・インフラストラクチャは、一般公衆又は大規模な業界グループによって利用可能であり、クラウド・サービスを販売する組織によって所有される。

ハイブリッドクラウド：クラウド・インフラストラクチャは、固有のエンティティのままであるが、データ及びアプリケーションのポータビリティを可能にする標準化技術又は専用技術（例えば、クラウド間の負荷平衡のためのクラウドバースティング）によって互いに結び付けられた、２つ以上のクラウド（プライベート、コミュニティ、又はパブリック）の混成物である。

クラウド・コンピューティング環境は、サービス指向であり、ステートレス性、低結合性、モジュール性、及びセマンティック相互運用性に焦点を置く。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。

ここで図７を参照すると、例示的なクラウド・コンピューティング環境７５０が示される。図示のように、クラウド・コンピューティング環境７５０は、例えば、携帯情報端末（ＰＤＡ）もしくはセルラ電話７５４Ａ、デスクトップ・コンピュータ７５４Ｂ、ラップトップ・コンピュータ７５４Ｃもしくは自動車コンピュータ・システム７５４Ｎ又はその組み合わせなどの、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信することができる、１つ又は複数のクラウド・コンピューティング・ノード７１０を含む。ノード７１０は、互いに通信することができる。ノード７１０は、上述されるプライベート・クラウド、コミュニティクラウド、パブリック・クラウド、又はハイブリッドクラウド、又はその組み合わせなどの、１つ又は複数のネットワークにおいて物理的に又は仮想的にグループ化することができる（図示せず）。このことは、クラウド・コンピューティング環境７５０が、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを保持する必要のないＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ、ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅもしくはＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ又はその組み合わせを提供することを可能にする。図７に示されるコンピューティング・デバイス７５４Ａ～７５４Ｎのタイプは、単に例示的であることが意図され、コンピューティング・ノード７１０及びクラウド・コンピューティング環境７５０は、任意のタイプのネットワークもしくはネットワークアドレス指定可能な接続又はその両方を介して任意のタイプのコンピュータ化されたデバイスと通信することが可能である（例えば、ウェブ・ブラウザを用いて）ことが理解される。

図８は、本発明の実施形態による、例示的抽象化モデル層の概略図である。図８に示されるコンポーネント、層及び機能は単に例示であることを意図し、本発明の実施形態はそれらに限定されないことを予め理解されたい。図示されるように、以下の層及び対応する機能が提供される。

ハードウェア及びソフトウェア層８６０は、ハードウェア・コンポーネント及びソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例として、メインフレーム８６１、ＲＩＳＣ（Reduced Instruction Set Computer（縮小命令セットコンピュータ））アーキテクチャ・ベースのサーバ８６２、サーバ８６３、ブレード・サーバ８６４、ストレージ・デバイス８６５、並びにネットワーク及びネットワーキングコンポーネント８６６が含まれる。幾つかの実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア８６７と、データベース・ソフトウェア８６８とを含む。

仮想化層８７０は、抽象化層を提供し、この層により、仮想エンティティの以下の例、すなわち、仮想サーバ８７１、仮想ストレージ８７２、仮想プライベート・ネットワークを含む仮想ネットワーク８７３、仮想アプリケーション及びオペレーティング・システム８７４、並びに仮想クライアント８７５を提供することができる。

一例において、管理層８８０は、以下で説明される機能を提供することができる。リソース・プロビジョニング８８１が、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソース及び他のリソースの動的な調達を提供する。計量及び価格決定８８２は、クラウド・コンピューティング環境内でリソースが利用されたときの費用追跡と、これらのリソースの消費に対する課金又は請求とを提供する。一例において、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、クラウド・コンシューマ及びタスクについての識別検証、並びにデータ及び他のリソースに対する保護を提供する。ユーザ・ポータル８８３は、コンシューマ及びシステム管理者に対して、クラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理８８４は、必要なサービス・レベルが満たされるように、クラウド・コンピューティング・リソースの割当て及び管理を提供する。サービス・レベル・アグリーメント（Service Level Agreement、ＳＬＡ）の計画及び履行８８５は、ＳＬＡに従って将来的な必要性が予測されるクラウド・コンピューティング・リソースの事前配置及び調達を提供する。

ワークロード層８９０は、クラウド・コンピューティング環境を利用することができる機能の例を提供する。この層から提供することができるワークロード及び機能の例として、マッピング及びナビゲーション８９１、ソフトウェア開発及びライフサイクル管理８９２、仮想教室教育配信８９３、データ分析処理８９４、トランザクション処理８９５、及び新材料の候補生成器８９６が挙げられる。

本明細書で用いられる場合、用語「データ」、「コンテンツ」「情報」及び類似の用語は、種々の例示的実施形態に従って、獲得、伝送、受信、表示、もしくは格納又はそれらの組み合わせを行うことができるデータを指すために交換可能に用いることができる。従って、いずれかのそうした用語の使用は、本開示の趣旨及び範囲を制限するように理解すべきではない。さらに、コンピューティング・デバイスが、別のコンピューティング・デバイスからデータを受け取るように本明細書で記載される場合、データは、別のコンピューティング・デバイスから直接受け取ることも、又は、例えば、１つ又は複数のサーバ、中継器、ルータ、ネットワーク・アクセス・ポイント、基地局などの１つ又はそれより多い中間コンピューティング・デバイスを介して間接的に受け取ることも可能である。

ユーザとの相互作用を与えるために、本明細書に説明される主題の実施形態は、情報をユーザに表示するための、例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタなどのディスプレイ・デバイス、並びにキーボード及びユーザが入力をコンピュータに与えることができる、例えばマウス又はトラックボールなどのポインティング・デバイスを有するコンピュータ上で実施することができる。他の種類のデバイスを用いて、ユーザとの相互作用を与えることもでき、例えば、ユーザに与えられるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックなどのいずれかの形の感覚フィードバックとすることができ、ユーザからの入力は、音響入力、音声入力、又は触覚入力を含む任意の形で受け取ることができる。

本発明は、システム、方法もしくはコンピュータ・プログラム製品又はその組み合わせとして具体化することができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体（単数又は複数）を含むことができる。

コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの、すなわち：ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピー・ディスク、パンチカードもしくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバ・ケーブルを通る光パルス）、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング／処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、及び／又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び／又はエッジ・サーバを含むことができる。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング／処理デバイス内のコンピュータ可読ストレージ媒体内に格納する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、及び、「Ｃ」プログラミング言語若しくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む１つ又は複数のプログラミング言語の任意の組み合わせで記述されるソース・コード又はオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）若しくは広域ネットワーク（ＷＡＮ）を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある（例えば、インターネットサービスプロバイダを用いたインターネットを通じて）。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、又はプログラム可能論理アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路を個別化することができる。

本発明の態様は、本発明の実施形態による方法、装置（システム）及びコンピュータ・プログラム製品のフローチャート図もしくはブロック図又はその両方を参照して説明される。フローチャート図もしくはブロック図又はその両方の各ブロック、並びにフローチャート図もしくはブロック図又はその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。

これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えて機械を製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャートもしくはブロック図又は両方の１つ又は複数のブロック内で指定された機能／動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置もしくは他のデバイス又はその組み合わせを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャートもしくはブロック図又は両方の１つ又は複数のブロックにおいて指定された機能／動作の態様を実施する命令を含む製品を含むようにすることもできる。

コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生産し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャートもしくはブロック図又は両方の１つ又は複数のブロックにおいて指定された機能／動作を実行するためのプロセスを提供するようにすることもできる。

図面内のフローチャート及びブロック図は、本発明の様々な実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための１つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される２つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図もしくはフローチャート図又は両方の各ブロック、及びブロック図もしくはフローチャート図又は両方におけるブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。

本明細書において、本原理の「一実施形態」又は「ある実施形態」並びにその変形への言及は、実施形態に関連して説明される特定の特徴、構造、又は特性が、本原理の少なくとも１つの実施形態に含まれることを意味する。従って、本明細書全体を通して様々な箇所に現れる「一実施形態において」又は「ある実施形態において」、並びにいずれかの他の変形という句の出現は、必ずしも全てが同じ実施形態を指しているとは限らない。

例えば、「Ａ／Ｂ」、「ＡまたはＢ又はその両方」及び「Ａ及びＢのうちの少なくとも１つ」という場合における、次の「／」、「もしくは～又はその両方」、及び「～のうちの少なくとも１つの」のいずれかの使用は、最初に記載される選択肢（Ａ）のみの選択、又は２番目に記載されている選択肢（Ｂ）のみの選択、又は両方の選択肢（Ａ及びＢ）の選択を包含することが意図されることを理解されたい。更に別の例として、「Ａ、ＢもしくはＣ又はそれらの組み合わせ」及び「Ａ、Ｂ及びＣのうちの少なくとも１つ」という場合、そのような表現は、最初に列挙される選択肢（Ａ）のみの選択、又は２番目に列挙される選択肢（Ｂ）のみの選択、又は３番目に列挙される選択肢（Ｃ）のみの選択、或いは最初と２番目に列挙される選択肢（Ａ及びＢ）のみの選択、又は最初と３番目に列挙される選択肢（Ａ及びＣ）のみの選択、又は２番目と３番目に列挙される選択肢（Ｂ及びＣ）のみの選択、或いは３つの選択肢全て（Ａ及びＢ及びＣ）の選択を包含することが意図されている。これは、本技術及び関連技術の当業者には容易に明らかであるように、列挙され項目の数だけ拡張することができる。

化学データベース（限定ではなく、例示であることが意図される）から新材料の候補を発見するためのシステム及び方法の好ましい実施形態を説明したが、上記の教示に鑑みて、当業者により、修正及び変更を作成できることに留意されたい。従って、説明される特定の実施形態において、添付の特許請求の範囲により概説されるような本発明の範囲内にある変更を成し得ることを理解されたい。このように、詳細かつ特許法により求められるところにより本発明の態様を説明したが、特許請求され、保護されることが望まれるものは、添付の特許請求の範囲に記載されている。

Claims

コンピュータの情報処理により化学データベースから新材料の候補を発見する方法であって、
化学式から特徴ベクトルを抽出することと、
前記化学データベースを用いるスパース・カーネル・モデルにより前記特徴ベクトルから特性値を予測するための予測モデルを学習することと、
学習された前記予測モデルによる前記予測された特性値に基づいて、降順でソートされた既存材料のリストから既存材料を選択することと、
前記選択された既存材料に対する絶対的な反応の大きさの降順にソートされた基礎材料のリストから、基礎材料を選択することと、
前記選択された基礎材料を考慮して、前記選択された既存材料の変異型として前記新材料の候補を生成することと
を含む、方法。
前記生成するステップは、
正の反応に応答して、前記選択された既存材料と前記選択された基礎材料との間で部分構造を交換すること
をさらに含む、請求項１に記載の方法。
前記生成するステップは、
負の反応に応答して、前記選択された既存材料から、前記選択された既存材料と前記選択された基礎材料との間で共通の部分構造を取り去ること
をさらに含む、請求項１に記載の方法。
前記基礎材料は、前記予測モデルを学習するために用いられる訓練データベースに格納される、請求項１から請求項３までのいずれか１項に記載の方法。
前記反応の大きさは、前記選択された既存材料と前記基礎材料の間の距離に前記予測モデルの係数を乗じたものである、請求項１から請求項４までのいずれか１項に記載の方法。
前記新材料の候補は、前記予測モデルの補間領域において発見される、請求項１から請求項５までのいずれか１項に記載の方法。
前記特徴ベクトルは任意のものであり、前記スパース・カーネル・モデルは関連ベクトル・マシン（ＲＶＭ）である、請求項１から請求項６までのいずれか１項に記載の方法。
請求項１から請求項７までのいずれか１項に記載の方法をコンピュータに実行させるコンピュータ・プログラムが格納されたコンピュータ可読ストレージ媒体。
請求項１から請求項７までのいずれか１項に記載の方法をコンピュータに実行させるコンピュータ・プログラム。
化学データベースから新材料の候補を発見するためのシステムであって、
メモリと、
化学式から特徴ベクトルを抽出し、
前記化学データベースを用いるスパース・カーネル・モデルにより前記特徴ベクトルから特性値を予測するための予測モデルを学習し、
学習された前記予測モデルによる前記予測された特性値に基づいて、降順でソートされた既存材料のリストから既存材料を選択し、
前記選択された既存材料に対する絶対的な反応の大きさの降順にソートされた基礎材料のリストから、基礎材料を選択し、
前記選択された基礎材料を考慮して、前記選択された既存材料の変異型として前記新材料の候補を生成する
ように構成された、前記メモリと通信する１つ又は複数のプロセッサと
を含む、システム。
前記新材料の候補の生成は、
正の反応に応答して、前記選択された既存材料と前記選択された基礎材料との間で部分構造を交換すること
を含む、請求項１０に記載のシステム。
前記新材料の候補の生成は、
負の反応に応答して、前記選択された既存材料から、前記選択された既存材料と前記選択された基礎材料との間で共通の部分構造を取り去ること
をさらに含む、請求項１０に記載のシステム。
前記基礎材料は、前記予測モデルを学習するために用いられる訓練データベースに格納される、請求項１０から請求項１２までのいずれか１項に記載のシステム。
前記反応の大きさは、前記選択された既存材料と前記基礎材料の間の距離に前記予測モデルの係数を乗じたものである、請求項１０から請求項１３までのいずれか１項に記載のシステム。
前記新材料の候補は、前記予測モデルの補間領域において発見される、請求項１０から請求項１４までのいずれか１項に記載のシステム。
前記特徴ベクトルは任意のものであり、前記スパース・カーネル・モデルは関連ベクトル・マシン（ＲＶＭ）である、請求項１０から請求項１５までのいずれか１項に記載のシステム。