JP2021039534A

JP2021039534A - 材料特性予測装置および材料特性予測方法

Info

Publication number: JP2021039534A
Application number: JP2019160261A
Authority: JP
Inventors: 拓也金澤; Takuya Kanazawa; 彰規淺原; Akinori Asahara; 貴之林; Takayuki Hayashi; 秀和森田; Hidekazu Morita
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2021-03-11
Anticipated expiration: 2039-09-03
Also published as: CN114175171A; EP4027295A4; JP7353874B2; WO2021044846A1; US20220359047A1; EP4027295A1

Abstract

【課題】専門家の知見を反映した効果的な化合物特徴量を効率的に生成し、それによって未知の化合物の有する物性を精度よく予測する。【解決手段】案件データベースを複数格納した案件別材料データベースを用いて、材料特性の予測を行うための装置である。案件データベースは、材料の構造に関する構造情報および材料の特性に関する材料特性を関連付けて記録したレコードを複数含む。この装置は、少なくとも一つの案件データベースの指定を受け付ける、化合物空間指定部と、化合物空間指定部の受付けた案件データベースに対応する構造情報を多変量に変換するオートエンコーダを生成するオートエンコーダ学習部と、オートエンコーダ学習部の生成したオートエンコーダが変換した多変量を用いて材料特性を予測する材料特性予測部と、を持つことを特徴とする。【選択図】図１

Description

本発明は、材料の物性予測のための機械学習システムに関する。

従前は、化合物の物性を知るためには、合成実験により実際に生成し、直接実験によって測定することが必要であった。しかし現代では、数多くの化合物物性データが蓄積されてくるにつれ、そのデータを機械学習アルゴリズムで処理することによって未知の化合物に対する物性を予測するという試みも行われるようになってきている。

未知の化合物の組み合わせは膨大であるから、このように実験を経ずして望ましい性質を持つ物質群を選別することができれば、材料開発の効率を大幅に向上させることが可能になると期待される。これを実現するためには機械学習による予測の信頼性が高いことが必要である。しかし、現状では化合物の構造を機械学習に適した扱いやすい特徴量（記述子）に変換する方法が十分でないため、高い信頼性を持った化合物物性予測システムが未だ実現していない。

例えば非特許文献１では、公知の変分オートエンコーダを用いて化合物の構造情報を多変量ベクトルに変換し物性予測に用いる方法が開示されている。

また特許文献１では、有機化合物の分子構造を複数種類のフィンガープリント法によって表記して物性予測に用いる方法が開示されている。特許文献２では、化合物の情報を潜在変数として公知のオートエンコーダによって符号化する薬物設計用機械学習システムが開示されている。

国際公開ＷＯ２０１９／０４８９６５Ａ１特表２０１９−５０２９８８号公報

R. Gomez-Bombarelli, J. N. Wei, D. Duvenaud, J. M. Hernandez-Lobato, B. Sanchez-Lengeling, D. Sheberla, J. Aguilera-Iparraguirre, T. D. Hirzel, R. P. Adams, A. Aspuru-Guzik, "Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules", ACS Cent. Sci. 2018, 4, 268-276.

ある特定の物性を有する物質を機械学習法によって探索したい状況では、その物性を有効に表現しコンピュータに的確に理解させるために必要十分な特徴量（記述子）を化合物の構造式から生成することが求められる。

しかしながら、従前の方法、例えばＲＤＫｉｔのようなフリーソフトウェアにより構造式から特徴量を生成する場合には、汎用で一般的な特徴量の集合が生成されるため、所望の分析目的にとっては冗長である。化合物の冗長な特徴量から、所望の物性の予測にとって重要なものだけを選別するためには、十分な分量の教師データ（化合物と教師ラベル（所望の物性値）のペア）を準備して予測モデルをその上で訓練し、その予測モデルが有用と判定した特徴量を抽出することが望ましい。しかし、これは教師データが十分に手に入らない状況においては実行困難である。

また、公知のオートエンコーダのように構造式を連続多変量ベクトルに変換できる機械学習手段を用いる際は、そのモデル（ニューラルネットワーク等）の学習にＣｈＥＭＢＬのような化合物の大規模オープンデータベースを利用することが普通であり、そのようなデータセットには特定の物性を有する物質以外にも数多くの物質が含まれているため、そこから生成された連続多変量ベクトルは所望の分析目的にとって必ずしも最適なものにならない。

本発明は、上記のような課題に鑑みて成されたものであり、専門家の知見を反映した効果的な化合物特徴量（説明変数）を効率的に生成することができるようにし、それによって未知の化合物の有する物性を精度よく予測することを目的とする。

本発明の好ましい一側面は、案件データベースを複数格納した案件別材料データベースを用いて、材料特性の予測を行うための装置である。案件データベースは、材料の構造に関する構造情報および材料の特性に関する材料特性を関連付けて記録したレコードを複数含む。この装置は、少なくとも一つの案件データベースの指定を受け付ける、化合物空間指定部と、化合物空間指定部の受付けた案件データベースに対応する構造情報を多変量に変換するオートエンコーダを生成するオートエンコーダ学習部と、オートエンコーダ学習部の生成したオートエンコーダが変換した多変量を用いて材料特性を予測する材料特性予測部と、を持つことを特徴とする。

本発明の好ましい他の一側面は、材料の構造に関する構造情報を記録したレコードを複数含む第１のデータベースを準備する第１のステップ、第１のステップで準備した第１のデータベースから、構造情報を抽出する第２のステップ、第２のステップで抽出した構造情報を用いて、構造情報を多変量に変換するオートエンコーダを訓練する第３のステップ、材料の構造に関する構造情報および材料の特性に関する材料特性を関連付けて記録したレコードを複数含む第２のデータベースを準備する第４のステップ、第４のステップで準備した第２のデータベースから、構造情報を抽出する第５のステップ、オートエンコーダを用いて、第５のステップで抽出された構造情報を多変量に変換する第６のステップ、第６のステップで変換された多変量に基づいて説明変数を得、第２のデータベースから抽出した材料特性に基づいて目的変数を得る第７のステップ、説明変数と目的変数を用いて、説明変数から目的変数を推定する予測モデルを生成する第８のステップ、を実行する材料特性予測方法である。

本発明によれば、専門家の知見を反映した効果的な化合物特徴量を効率的に生成することができ、それによって未知の化合物の有する物性を精度よく予測することが可能になる。

実施例における材料特性予測装置の機能構成を示すブロック図である。実施例における材料特性予測装置の処理のフローチャートである。実施例における実験データ受付部の表示画面の一例のイメージ図である。実施例における案件別材料データベースのデータ構造の一例の表図である。実施例における化合物空間指定部の表示画面の一例のイメージ図である。実施例における案件別材料データベースからオートエンコーダ学習部への出力のデータ構造の一例の表図である。実施例におけるオートエンコーダの構成を説明する概念図である。実施例における材料特性予測受付部の表示画面の一例のイメージ図である。実施例における材料特性予測受付部への入力のデータ構造の一例の表図である。実施例における材料特性予測部の処理のフローチャートである。実施例における表示部の表示画面の一例のイメージ図である。実施例の利用イメージを説明する概念図である

以下、本発明の実施例について、図面を参照しながら詳細に説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。

同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。

本明細書等における「第１」、「第２」、「第３」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。

図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。

本明細書で引用した刊行物、特許および特許出願は、そのまま本明細書の説明の一部を構成する。

本明細書において単数形で表される構成要素は、特段文脈で明らかに示されない限り、複数形を含むものとする。

以下で説明される実施例の一態様は、材料特性の予測を行うための装置であって、案件別に材料の構造式と実験条件と材料特性とを関連付けて記録する案件別材料データベースと、利用者から単数もしくは複数の案件の指定を受け付ける化合物空間指定部と、化合物空間指定部の受付けた案件に対応する構造式の集合に対し、構造式を多変量に変換した後、多変量から構造式を復元できるような性質を備えたモデルであるオートエンコーダを生成する機能を持ったオートエンコーダ学習部と、オートエンコーダ学習部の生成したオートエンコーダを用いて説明変数を生成し材料特性を予測する材料特性予測部を有する。

本実施例によれば、十分な量の化合物教師データが無い状況においても専門家の知見を取り入れた効果的な特徴量を生成し、それを以て精度の高い物性予測を行うことを可能にする分析システムを提供することができる。

図１は、本実施例における材料特性予測装置の機能構成の一例を示す機能構成ブロック図である。図１において、材料特性予測装置１０１は、利用者１０２から材料実験データを受け取る実験データ受付部１０６、材料実験データを案件別に蓄積するための案件別材料データベース１０７、利用者１０２から化合物空間の指定を受け取る化合物空間指定部１０３、オートエンコーダの作成と学習を実行するオートエンコーダ学習部１０４、オートエンコーダ１０８、利用者１０２から予測対象の材料リストを受け取る材料特性予測受付部１０５、材料特性の予測を行う材料特性予測部１０９、予測結果を利用者１０２に表示する表示部１１０を具えている。

なお、材料特性予測装置１０１は、ハードウェアとしては、一般的な情報処理装置である、プロセッサとメモリと記憶装置と通信部（インターフェース）を有する装置によって実現される。すなわち、実験データ受付部１０６、化合物空間指定部１０３、材料特性予測受付部１０５は通信部によってデータ入力を受け付け、案件別材料データベース１０７は記憶装置にデータを保存する。また、オートエンコーダ学習部１０４、オートエンコーダ１０８、材料特性予測部１０９は、プロセッサにより、メモリに格納されたプログラムを実行するソフトウェア処理で実行される。また、表示部１１０は、一般的に用いられる操作部と表示部を兼用しており、例えばディスプレイ、キーボード、マウス等からなり、また、タッチパネルを有したディスプレイでもよい。

図２は、本実施例における材料特性予測装置１０１の処理のフローチャートである。図２において、ステップＳ２０１では実験データ受付部１０６が利用者１０２から材料実験データを受け取る。

図３に実験データ受付部１０６の入力受付画面の例を示す。典型的な例では、材料実験データはすでに電子ファイルとして記憶媒体などに格納されている。図３に示すように、利用者は、材料実験データのファイル名をマウスやキーボード等を用いて指定してアップロードし、ＯＫボタンを押すことによって確定する。またキャンセルボタンにより、入力を訂正できる。

図２に戻って、ステップＳ２０２では案件別材料データベース１０７が実験データ受付部１０６から材料実験データを取得し、案件ごとに保存する。

図４は、案件別材料データベース１０７の保存するデータの形式を示す。図４に示すように、このデータは案件番号４０１、通し番号４０２、化合物の構造式４０３、実験条件４０４および４０５、材料特性値４０６および４０７を含む。化合物の構造式はＳＭＩＬＥＳ（Simplified molecular-input line-entry system）形式を用いることによって簡便に表記することができるが、必ずしもこれに限られるものではなく、例えば分子の構造をグラフ形式のデータで扱ってもよい。また実験条件はデータに含まれていなくとも構わず、材料特性値は複数でも単一でもよいものとする。

図４に示すように、案件別材料データベース１０７は案件データ（案件データベース）ごとに分割して保存されている。本実施例では、一つの案件データでは、実験条件４０４および４０５、材料特性値４０６および４０７が同じ定義あるいは種類のデータで統一された複数のレコードを含むものとする。この例では、一つのレコードは、一つの材料構造に対応している。

各案件データは、対象とする材料、材料特性の定義、材料の作成主体、材料の作成目的、材料の作成時期、材料の作成設備などの少なくとも一つが異なるデータであって、例えば異なるテーマに関連して行った実験結果のデータである。よって、材料の構造や製造・実験条件や材料特性は、その定義や種類が案件毎に異なるものが含まれる場合がある。データの作成主体、作成目的、作成時期、作成設備、テーマ等の付随的な情報は、例えばテキスト情報として案件データに関連付けて記憶しておき、利用者が参照したり検索したりできるようにしてもよい。この場合、化合物空間指定部１０３が、案件データをキーワード等で検索を行うためのＧＵＩ（Graphical User Interface）を備える。利用者は検索機能を用いて、使用する案件データを抽出することができる。

図２に戻って、ステップＳ２０３では化合物空間指定部１０３が化合物空間の指定を利用者１０２の入力から取得する。

図５は、化合物空間指定部１０３の入力受付画面の例を示す。図５に示すように、利用者は、案件別材料データベース１０７から、利用する化合物案件データの選択を行うことができる。

図２に戻って、ステップＳ２０４では、オートエンコーダ学習部１０４が化合物空間指定部１０３から化合物空間の指定を取得し、それに該当する材料実験データを案件別材料データベース１０７から読み出し、その材料実験データを用いてオートエンコーダ１０８の学習を行う。

図６は、オートエンコーダ学習部１０４が案件別材料データベース１０７から受け取るデータの構造である。このデータは案件番号６０１、化合物を指定する通し番号６０２、化合物の構造式６０３を含む。

図７は、オートエンコーダ１０８の構成および学習方法の説明である。オートエンコーダはニューラルネットワークを用いた公知の次元削減器である。オートエンコーダ内部において、エンコーダと呼ばれるニューラルネットワークが高次元の入力情報を低次元化し、それを受け取ったデコーダと呼ばれる別のニューラルネットワークがそれを復元して最初の高次元入力に近い出力をする。この入出力の誤差を最小化するようにこれらのニューラルネットワークは訓練される。

構造式がＳＭＩＬＥＳのような文字情報として入力され出力される場合には、リカレント（再帰型）ニューラルネットワークがエンコーダおよびデコーダとして適している。本実施例では、オートエンコーダはオートエンコーダ学習部１０４が案件別材料データベース１０７から読み出した化合物の構造式情報を低次元数値ベクトルに変換するべく訓練される。なお本実施例ではオートエンコーダを用いたが、代わりに公知の変分オートエンコーダを用いても構わない。また、図７に示したオートエンコーダの構成は一例であって、ニューラルネットワークの内部構造（層の数やユニットの数）は図７で示したものに限定されない。

図２に戻って、ステップＳ２０５では材料特性予測受付部１０５が利用者１０２から材料特性予測対象の材料リストを取得する。

図８は、材料特性予測受付部１０５の入力受付画面の例である。利用者はマウスおよびキーボード操作によって材料リストをアップロードすることが可能であり、ＯＫボタンを押すことによって入力を確定し、キャンセルボタンを押すことで入力を訂正できる。

図９は、材料特性予測受付部１０５が受け取る材料リストのデータ構造である。図９に示すように、このデータは番号９０１と化合物の構造式情報９０２を含む。

図２に戻って、ステップＳ２０６では材料特性予測部１０９が材料特性予測を行い、予測結果を表示部１１０に出力する。

図１０はステップＳ２０６で材料特性予測部１０９が行う処理のフローチャートである。図１０において、まずステップＳ１００１で、材料特性予測部１０９が材料特性予測受付部１０５から、前記図９に示した構造の予測対象材料リストを受け取る。

ステップＳ１００２では、材料特性予測部１０９が案件別材料データベース１０７から材料実験データを取得する。この材料実験データの構造は前記図４に示されている。

ステップＳ１００３では、材料特性予測部１０９が学習済みのオートエンコーダ１０８に材料実験データの構造式情報を入力することで化合物の特徴量（記述子）を生成する。そして、材料特性予測部１０９がこの特徴量と材料実験データの材料特性値（目的変数）とを機械学習モデルにインプットして予測モデルの訓練を行う。

この機械学習には、例えば線形回帰や決定木、サポートベクトルマシン、ニューラルネットワーク、ランダムフォレスト、ガウス過程回帰、勾配ブースティング、ロジスティック回帰、ｋ最近傍アルゴリズム、等の任意の機械学習アルゴリズムを用いることができる。

ステップＳ１００４では、材料特性予測部１０９がまず予測対象材料リスト内の構造式をオートエンコーダ１０８に入力して特徴量（記述子）を生成し、次にこれを前ステップＳ１００３で訓練した予測モデルに入力して、予測対象材料に対する材料特性値の予測を行う。ステップＳ１００５では、材料特性予測部１０９が予測モデルの出力した材料特性予測値を表示部１１０に出力する。

図２に戻って、ステップＳ２０７では表示部１１０が材料特性予測結果を利用者１０２に表示する。

図１１は、表示部１１０の結果表示画面の例を示す。ここには予測対象の化合物とその材料特性予測値とのリストが表示され、利用者は保存ボタンによって結果を保存することができ、終了ボタンによって終了することができる。

図１２は、本実施例の利用イメージを説明する概念図である。本実施例の一つの特徴は、オートエンコーダ１０８の学習にあたって、任意の材料データベースではなく利用者が選択した化合物空間に該当する材料データベースを用いる点である。

仮に、利用者の目的が材料物性Ａの高い材料を探索することであるとする。このとき理想的には、材料物性Ａが高い材料集合を記述するのに最も有用な一群の特徴量があると考えられ、それらを用いて機械学習を行うことが予測精度を上げるためには最も望ましい。

さて、過去に別の案件で収集した材料データベースＸがあり、その時の利用の目的は材料物性Ｂが高い材料の探索であったとする。ここで、もし、専門家知識により、材料物性ＡとＢには相関があることが知られていたならば、材料データベースＸは材料物性Ａが高い材料集合と重なりがある可能性が高いことになる。よって、材料データベースＸを用いてオートエンコーダを学習し、材料特徴量を抽出することによって、材料物性Ａの高い材料を探索しやすくなると考えられる。

そこで本実施例での具体的な利用例を説明すると、図１２(a)に示すように、案件別材料データベース１０７から、案件データの一つである材料データベースＸ１２０１を抽出し、その構造式１２０２で、特徴量１２０３を得るためのオートエンコーダ１０８を学習する。

案件別材料データベース１０７では、案件データ毎に、テキスト形式の説明文やタグを付しておき、利用者が案件データの目的やテーマ、材料の主成分あるいは格納されている材料特性等を表示および検索できるようにしてもよい。また、当該案件データの過去の利用履歴として利用目的、利用者、その他の情報を格納して表示および検索できるようにしてもよい。オートエンコーダ１０８は、例えばＲＮＮ（リカレントニューラルネットワーク）やＤＮＮ（ディープニューラルネットワーク）を用いる。

図１２(a)では、材料物性Ａについての検討を進めようとしている利用者が、案件別材料データベース１０７から、過去に材料物性Ｂについて検討したデータである材料データベースＸ１２０１を抽出した例を示している。専門的な知識を持つ利用者は、材料物性ＡとＢには関係があることを知っており、上述の検索機能を用いて材料データベースＸ１２０１を抽出する。材料データベースＸ１２０１は、例えば構造式と材料物性Ｂのデータを含んでいる。オートエンコーダ１０８の学習には、そのうちの構造式１２０２を用いる。

このようにして、構造式から適切な特徴量を得るオートエンコーダ１０８を準備したら、材料物性Ａを推定するための予測モデルを学習する。図１２(b)に示すように、教師データ１２０４として、構造式と測定済みの材料物性Ａを含むデータを準備する。教師データ１２０４は、案件別材料データベース１０７から選択してもよいし、案件別材料データベース１０７以外から新しいデータを取得してもよい。

教師データ１２０４から構造式１２０５を取得してオートエンコーダ１０８に入力し、特徴量１２０６を得る。そして、特徴量１２０６と材料物性Ａのデータ１２０７の組を教師データとして用いて、予測モデル１２０８を学習する。材料物性Ａのデータは、適当な特徴量に変換してもよい。予測モデル１２０８は例えばＲＮＮやＤＮＮを用い、学習は公知の教師あり学習を用いてよい。

なお、教師データ１２０４が構造式と材料物性Ａのデータ以外のデータ（例えば材料の製造条件）を含んでいる場合、それを教師データに加えてもよい。このようにして、材料物性Ａを推定する予測モデル１２０８が学習できた。予測モデル１２０８は、材料特性予測部１０９に実装される。

その後、図１２(c)に示すように、利用者は、材料物性Ａを推定したい材料の構造式１２０９を準備する。構造式１２０９は、材料特性予測受付部１０５から入力される。構造式をオートエンコーダ１０８に入力して特徴量１２１０を得る。特徴量１２１０を予測モデル１２０８に入力して、推定された材料物性Ａ１２１１が得られる。

このように、制約のない一般的なオープンデータ等を用いるのではなく、現在の材料分析の目的に関連のある過去の案件で収集された材料データベースを活用することによって特徴量を生成することにより、精度の良い推定が可能になる。

本実施例では、オートエンコーダ１０８の学習および材料特性予測部１０９での予測モデルの学習の両方に同一の案件別材料データベース１０７を用いたが、これは別々のデータベースを用いることを妨げるものではない。すなわち、材料データベースＡと材料データベースＢを用意し、オートエンコーダ１０８の学習には材料データベースＡを用い、予測モデルの学習には材料データベースＢを用いるという形態であっても構わない。この場合、材料データベースＢには化合物ごとの材料特性値のデータが必要であるが、材料データベースＡにはそれが必要ない。また、さらに別の形態として、オートエンコーダ１０８の学習には材料データベースＡおよびＢの両方を用い、予測モデルの学習には材料データベースＢのみを用いるという形態であっても構わない。

実施例中で生成したオートエンコーダ１０８や予測モデルは、内容を説明するテキストデータを付して、記憶装置に記憶しておいてもよい。このように過去のモデルをライブラリ化しておくことにより、必要に応じた再利用が可能になる。

以上のように、分析目的と関連のある材料データを集めた案件別材料データベースから化合物空間を利用者が選択し、オートエンコーダの学習を行うことによって、より分析目的に合致した効果的な材料特徴量が生成され、それによって材料特性の高精度な予測が容易になる。

以上の実施例について説明したが、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を具えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

１０１：材料特性予測装置、１０３：化合物空間指定部、１０４：オートエンコーダ学習部、１０５：材料特性予測受付部、１０６：実験データ受付部、１０７：案件別材料データベース、１０８：オートエンコーダ、１０９：材料特性予測部

Claims

案件データベースを複数格納した案件別材料データベースを用いて、材料特性の予測を行うための装置であって、
前記案件データベースは、材料の構造に関する構造情報および材料の特性に関する材料特性を関連付けて記録したレコードを複数含み、
少なくとも一つの案件データベースの指定を受け付ける、化合物空間指定部と、
前記化合物空間指定部の受付けた案件データベースに対応する構造情報を多変量に変換するオートエンコーダを生成するオートエンコーダ学習部と、
前記オートエンコーダ学習部の生成したオートエンコーダが変換した多変量を用いて材料特性を予測する材料特性予測部と、
を持つことを特徴とする材料特性予測装置。
前記オートエンコーダは、
前記構造情報を多変量に変換した後、前記多変量から前記構造情報を復元できるような性質を備えたモデルである、
請求項１記載の材料特性予測装置。
前記材料特性予測部は、
材料の構造に関する構造情報および材料の特性に関する材料特性を関連付けて記録したレコードを複数含む教師データを入力とし、
前記教師データに対応する構造情報を前記オートエンコーダに入力して多変量に変換して説明変数とし、
前記教師データに対応する材料特性を目的変数とし、前記説明変数と前記目的変数を用いて予測モデルを訓練する、
請求項１記載の材料特性予測装置。
特性を予測すべき材料の構造に関する構造情報を受け付ける材料特性予測受付部を備え、
前記材料特性予測部は、
前記特性を予測すべき材料の構造に関する構造情報を前記オートエンコーダに入力して多変量に変換して説明変数とし、
前記説明変数を前記予測モデルに入力して目的変数である特性を予測する、
請求項３記載の材料特性予測装置。
前記化合物空間指定部は、
前記案件データベースをキーワードで検索する機能を備える、
請求項１記載の材料特性予測装置。
材料の構造に関する構造情報を記録したレコードを複数含む第１のデータベースを準備する第１のステップ、
前記第１のステップで準備した第１のデータベースから、構造情報を抽出する第２のステップ、
前記第２のステップで抽出した構造情報を用いて、構造情報を多変量に変換するオートエンコーダを訓練する第３のステップ、
材料の構造に関する構造情報および材料の特性に関する材料特性を関連付けて記録したレコードを複数含む第２のデータベースを準備する第４のステップ、
前記第４のステップで準備した第２のデータベースから、構造情報を抽出する第５のステップ、
前記オートエンコーダを用いて、前記第５のステップで抽出された構造情報を多変量に変換する第６のステップ、
前記第６のステップで変換された多変量に基づいて説明変数を得、前記第２のデータベースから抽出した材料特性に基づいて目的変数を得る第７のステップ、
前記説明変数と前記目的変数を用いて、説明変数から目的変数を推定する予測モデルを生成する第８のステップ、
を実行する材料特性予測方法。
前記第１のステップでは、
案件データベースを複数格納した案件別材料データベースを用い、該案件別材料データベースから少なくとも一つの案件データベースを選択して前記第１のデータベースとする、
請求項６記載の材料特性予測方法。
前記案件別材料データベースでは、テキスト情報を前記案件データベースに関連付けて記憶しておき、
前記第１のステップでは、
利用者が前記テキスト情報を検索して少なくとも一つの案件データベースを選択する、
請求項７記載の材料特性予測方法。
前記第１のステップでは、
案件データベースを複数格納した案件別材料データベースを用い、前記案件データベースは、材料の構造に関する構造情報および材料の特性に関する材料特性を関連付けて記録したレコードを複数含み、
前記第１のステップでは、
前記案件別材料データベースから少なくとも一つの案件データベースを選択して前記第１のデータベースとし、
前記第４のステップでは、
前記案件別材料データベースから少なくとも一つの案件データベースを選択して前記第２のデータベースとする、
請求項６記載の材料特性予測方法。
前記第１のデータベースのレコードに含まれる材料特性と、
前記第２のデータベースのレコードに含まれる材料特性とは、
異なる定義の材料特性である、
請求項９記載の材料特性予測方法。
前記オートエンコーダに、
前記構造情報を多変量に変換した後、前記多変量から前記構造情報を復元できるような性質を備えたモデルを用いる、
請求項６記載の材料特性予測方法。
特性を予測すべき材料の構造に関する構造情報を準備する第９のステップ、
前記オートエンコーダを用いて、前記第９のステップで準備した構造情報を多変量に変換する第１０のステップ、
前記第１０のステップで変換された多変量に基づいて説明変数を得る第１１のステップ、
前記第１１のステップで得られた説明変数を前記予測モデルに適用して、目的変数である材料特性を推定する第１２のステップ、
を実行する請求項６記載の材料特性予測方法。
前記オートエンコーダおよび前記予測モデルの少なくとも一つを記憶装置に記憶しておき、再利用を行う、
請求項６記載の材料特性予測方法。
前記第１のデータベースおよび前記第２のデータベースは、ともに材料の構造に関する構造情報および材料の特性に関する材料特性を関連付けて記録したレコードを複数含むが、材料特性に関しては、異なる定義もしくは種類のデータを記録している、
請求項６記載の材料特性予測方法。