JP7353874B2 - 材料特性予測装置および材料特性予測方法 - Google Patents
材料特性予測装置および材料特性予測方法 Download PDFInfo
- Publication number
- JP7353874B2 JP7353874B2 JP2019160261A JP2019160261A JP7353874B2 JP 7353874 B2 JP7353874 B2 JP 7353874B2 JP 2019160261 A JP2019160261 A JP 2019160261A JP 2019160261 A JP2019160261 A JP 2019160261A JP 7353874 B2 JP7353874 B2 JP 7353874B2
- Authority
- JP
- Japan
- Prior art keywords
- database
- structural information
- autoencoder
- properties
- property prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000463 material Substances 0.000 title claims description 211
- 238000000034 method Methods 0.000 title claims description 20
- 150000001875 compounds Chemical class 0.000 claims description 46
- 238000012549 training Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 description 18
- 230000000704 physical effect Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 239000000126 substance Substances 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000003825 pressing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000013077 target material Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 150000002894 organic compounds Chemical class 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Business, Economics & Management (AREA)
- Biophysics (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Manufacturing & Machinery (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、材料の物性予測のための機械学習システムに関する。
従前は、化合物の物性を知るためには、合成実験により実際に生成し、直接実験によって測定することが必要であった。しかし現代では、数多くの化合物物性データが蓄積されてくるにつれ、そのデータを機械学習アルゴリズムで処理することによって未知の化合物に対する物性を予測するという試みも行われるようになってきている。
未知の化合物の組み合わせは膨大であるから、このように実験を経ずして望ましい性質を持つ物質群を選別することができれば、材料開発の効率を大幅に向上させることが可能になると期待される。これを実現するためには機械学習による予測の信頼性が高いことが必要である。しかし、現状では化合物の構造を機械学習に適した扱いやすい特徴量(記述子)に変換する方法が十分でないため、高い信頼性を持った化合物物性予測システムが未だ実現していない。
例えば非特許文献1では、公知の変分オートエンコーダを用いて化合物の構造情報を多変量ベクトルに変換し物性予測に用いる方法が開示されている。
また特許文献1では、有機化合物の分子構造を複数種類のフィンガープリント法によって表記して物性予測に用いる方法が開示されている。特許文献2では、化合物の情報を潜在変数として公知のオートエンコーダによって符号化する薬物設計用機械学習システムが開示されている。
R. Gomez-Bombarelli, J. N. Wei, D. Duvenaud, J. M. Hernandez-Lobato, B. Sanchez-Lengeling, D. Sheberla, J. Aguilera-Iparraguirre, T. D. Hirzel, R. P. Adams, A. Aspuru-Guzik, "Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules", ACS Cent. Sci. 2018, 4, 268-276.
ある特定の物性を有する物質を機械学習法によって探索したい状況では、その物性を有効に表現しコンピュータに的確に理解させるために必要十分な特徴量(記述子)を化合物の構造式から生成することが求められる。
しかしながら、従前の方法、例えばRDKitのようなフリーソフトウェアにより構造式から特徴量を生成する場合には、汎用で一般的な特徴量の集合が生成されるため、所望の分析目的にとっては冗長である。化合物の冗長な特徴量から、所望の物性の予測にとって重要なものだけを選別するためには、十分な分量の教師データ(化合物と教師ラベル(所望の物性値)のペア)を準備して予測モデルをその上で訓練し、その予測モデルが有用と判定した特徴量を抽出することが望ましい。しかし、これは教師データが十分に手に入らない状況においては実行困難である。
また、公知のオートエンコーダのように構造式を連続多変量ベクトルに変換できる機械学習手段を用いる際は、そのモデル(ニューラルネットワーク等)の学習にChEMBLのような化合物の大規模オープンデータベースを利用することが普通であり、そのようなデータセットには特定の物性を有する物質以外にも数多くの物質が含まれているため、そこから生成された連続多変量ベクトルは所望の分析目的にとって必ずしも最適なものにならない。
本発明は、上記のような課題に鑑みて成されたものであり、専門家の知見を反映した効果的な化合物特徴量(説明変数)を効率的に生成することができるようにし、それによって未知の化合物の有する物性を精度よく予測することを目的とする。
本発明の好ましい一側面は、案件データベースを複数格納した案件別材料データベースを用いて、材料特性の予測を行うための装置である。案件データベースは、材料の構造に関する構造情報および材料の特性に関する材料特性を関連付けて記録したレコードを複数含む。この装置は、少なくとも一つの案件データベースの指定を受け付ける、化合物空間指定部と、化合物空間指定部の受付けた案件データベースに対応する構造情報を多変量に変換するオートエンコーダを生成するオートエンコーダ学習部と、オートエンコーダ学習部の生成したオートエンコーダが変換した多変量を用いて材料特性を予測する材料特性予測部と、を持つことを特徴とする。
本発明の好ましい他の一側面は、材料の構造に関する構造情報を記録したレコードを複数含む第1のデータベースを準備する第1のステップ、第1のステップで準備した第1のデータベースから、構造情報を抽出する第2のステップ、第2のステップで抽出した構造情報を用いて、構造情報を多変量に変換するオートエンコーダを訓練する第3のステップ、材料の構造に関する構造情報および材料の特性に関する材料特性を関連付けて記録したレコードを複数含む第2のデータベースを準備する第4のステップ、第4のステップで準備した第2のデータベースから、構造情報を抽出する第5のステップ、オートエンコーダを用いて、第5のステップで抽出された構造情報を多変量に変換する第6のステップ、第6のステップで変換された多変量に基づいて説明変数を得、第2のデータベースから抽出した材料特性に基づいて目的変数を得る第7のステップ、説明変数と目的変数を用いて、説明変数から目的変数を推定する予測モデルを生成する第8のステップ、を実行する材料特性予測方法である。
本発明によれば、専門家の知見を反映した効果的な化合物特徴量を効率的に生成することができ、それによって未知の化合物の有する物性を精度よく予測することが可能になる。
以下、本発明の実施例について、図面を参照しながら詳細に説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。
同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。
本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。
図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。
本明細書で引用した刊行物、特許および特許出願は、そのまま本明細書の説明の一部を構成する。
本明細書において単数形で表される構成要素は、特段文脈で明らかに示されない限り、複数形を含むものとする。
以下で説明される実施例の一態様は、材料特性の予測を行うための装置であって、案件別に材料の構造式と実験条件と材料特性とを関連付けて記録する案件別材料データベースと、利用者から単数もしくは複数の案件の指定を受け付ける化合物空間指定部と、化合物空間指定部の受付けた案件に対応する構造式の集合に対し、構造式を多変量に変換した後、多変量から構造式を復元できるような性質を備えたモデルであるオートエンコーダを生成する機能を持ったオートエンコーダ学習部と、オートエンコーダ学習部の生成したオートエンコーダを用いて説明変数を生成し材料特性を予測する材料特性予測部を有する。
本実施例によれば、十分な量の化合物教師データが無い状況においても専門家の知見を取り入れた効果的な特徴量を生成し、それを以て精度の高い物性予測を行うことを可能にする分析システムを提供することができる。
図1は、本実施例における材料特性予測装置の機能構成の一例を示す機能構成ブロック図である。図1において、材料特性予測装置101は、利用者102から材料実験データを受け取る実験データ受付部106、材料実験データを案件別に蓄積するための案件別材料データベース107、利用者102から化合物空間の指定を受け取る化合物空間指定部103、オートエンコーダの作成と学習を実行するオートエンコーダ学習部104、オートエンコーダ108、利用者102から予測対象の材料リストを受け取る材料特性予測受付部105、材料特性の予測を行う材料特性予測部109、予測結果を利用者102に表示する表示部110を具えている。
なお、材料特性予測装置101は、ハードウェアとしては、一般的な情報処理装置である、プロセッサとメモリと記憶装置と通信部(インターフェース)を有する装置によって実現される。すなわち、実験データ受付部106、化合物空間指定部103、材料特性予測受付部105は通信部によってデータ入力を受け付け、案件別材料データベース107は記憶装置にデータを保存する。また、オートエンコーダ学習部104、オートエンコーダ108、材料特性予測部109は、プロセッサにより、メモリに格納されたプログラムを実行するソフトウェア処理で実行される。また、表示部110は、一般的に用いられる操作部と表示部を兼用しており、例えばディスプレイ、キーボード、マウス等からなり、また、タッチパネルを有したディスプレイでもよい。
図2は、本実施例における材料特性予測装置101の処理のフローチャートである。図2において、ステップS201では実験データ受付部106が利用者102から材料実験データを受け取る。
図3に実験データ受付部106の入力受付画面の例を示す。典型的な例では、材料実験データはすでに電子ファイルとして記憶媒体などに格納されている。図3に示すように、利用者は、材料実験データのファイル名をマウスやキーボード等を用いて指定してアップロードし、OKボタンを押すことによって確定する。またキャンセルボタンにより、入力を訂正できる。
図2に戻って、ステップS202では案件別材料データベース107が実験データ受付部106から材料実験データを取得し、案件ごとに保存する。
図4は、案件別材料データベース107の保存するデータの形式を示す。図4に示すように、このデータは案件番号401、通し番号402、化合物の構造式403、実験条件404および405、材料特性値406および407を含む。化合物の構造式はSMILES(Simplified molecular-input line-entry system)形式を用いることによって簡便に表記することができるが、必ずしもこれに限られるものではなく、例えば分子の構造をグラフ形式のデータで扱ってもよい。また実験条件はデータに含まれていなくとも構わず、材料特性値は複数でも単一でもよいものとする。
図4に示すように、案件別材料データベース107は案件データ(案件データベース)ごとに分割して保存されている。本実施例では、一つの案件データでは、実験条件404および405、材料特性値406および407が同じ定義あるいは種類のデータで統一された複数のレコードを含むものとする。この例では、一つのレコードは、一つの材料構造に対応している。
各案件データは、対象とする材料、材料特性の定義、材料の作成主体、材料の作成目的、材料の作成時期、材料の作成設備などの少なくとも一つが異なるデータであって、例えば異なるテーマに関連して行った実験結果のデータである。よって、材料の構造や製造・実験条件や材料特性は、その定義や種類が案件毎に異なるものが含まれる場合がある。データの作成主体、作成目的、作成時期、作成設備、テーマ等の付随的な情報は、例えばテキスト情報として案件データに関連付けて記憶しておき、利用者が参照したり検索したりできるようにしてもよい。この場合、化合物空間指定部103が、案件データをキーワード等で検索を行うためのGUI(Graphical User Interface)を備える。利用者は検索機能を用いて、使用する案件データを抽出することができる。
図2に戻って、ステップS203では化合物空間指定部103が化合物空間の指定を利用者102の入力から取得する。
図5は、化合物空間指定部103の入力受付画面の例を示す。図5に示すように、利用者は、案件別材料データベース107から、利用する化合物案件データの選択を行うことができる。
図2に戻って、ステップS204では、オートエンコーダ学習部104が化合物空間指定部103から化合物空間の指定を取得し、それに該当する材料実験データを案件別材料データベース107から読み出し、その材料実験データを用いてオートエンコーダ108の学習を行う。
図6は、オートエンコーダ学習部104が案件別材料データベース107から受け取るデータの構造である。このデータは案件番号601、化合物を指定する通し番号602、化合物の構造式603を含む。
図7は、オートエンコーダ108の構成および学習方法の説明である。オートエンコーダはニューラルネットワークを用いた公知の次元削減器である。オートエンコーダ内部において、エンコーダと呼ばれるニューラルネットワークが高次元の入力情報を低次元化し、それを受け取ったデコーダと呼ばれる別のニューラルネットワークがそれを復元して最初の高次元入力に近い出力をする。この入出力の誤差を最小化するようにこれらのニューラルネットワークは訓練される。
構造式がSMILESのような文字情報として入力され出力される場合には、リカレント(再帰型)ニューラルネットワークがエンコーダおよびデコーダとして適している。本実施例では、オートエンコーダはオートエンコーダ学習部104が案件別材料データベース107から読み出した化合物の構造式情報を低次元数値ベクトルに変換するべく訓練される。なお本実施例ではオートエンコーダを用いたが、代わりに公知の変分オートエンコーダを用いても構わない。また、図7に示したオートエンコーダの構成は一例であって、ニューラルネットワークの内部構造(層の数やユニットの数)は図7で示したものに限定されない。
図2に戻って、ステップS205では材料特性予測受付部105が利用者102から材料特性予測対象の材料リストを取得する。
図8は、材料特性予測受付部105の入力受付画面の例である。利用者はマウスおよびキーボード操作によって材料リストをアップロードすることが可能であり、OKボタンを押すことによって入力を確定し、キャンセルボタンを押すことで入力を訂正できる。
図9は、材料特性予測受付部105が受け取る材料リストのデータ構造である。図9に示すように、このデータは番号901と化合物の構造式情報902を含む。
図2に戻って、ステップS206では材料特性予測部109が材料特性予測を行い、予測結果を表示部110に出力する。
図10はステップS206で材料特性予測部109が行う処理のフローチャートである。図10において、まずステップS1001で、材料特性予測部109が材料特性予測受付部105から、前記図9に示した構造の予測対象材料リストを受け取る。
ステップS1002では、材料特性予測部109が案件別材料データベース107から材料実験データを取得する。この材料実験データの構造は前記図4に示されている。
ステップS1003では、材料特性予測部109が学習済みのオートエンコーダ108に材料実験データの構造式情報を入力することで化合物の特徴量(記述子)を生成する。そして、材料特性予測部109がこの特徴量と材料実験データの材料特性値(目的変数)とを機械学習モデルにインプットして予測モデルの訓練を行う。
この機械学習には、例えば線形回帰や決定木、サポートベクトルマシン、ニューラルネットワーク、ランダムフォレスト、ガウス過程回帰、勾配ブースティング、ロジスティック回帰、k最近傍アルゴリズム、等の任意の機械学習アルゴリズムを用いることができる。
ステップS1004では、材料特性予測部109がまず予測対象材料リスト内の構造式をオートエンコーダ108に入力して特徴量(記述子)を生成し、次にこれを前ステップS1003で訓練した予測モデルに入力して、予測対象材料に対する材料特性値の予測を行う。ステップS1005では、材料特性予測部109が予測モデルの出力した材料特性予測値を表示部110に出力する。
図2に戻って、ステップS207では表示部110が材料特性予測結果を利用者102に表示する。
図11は、表示部110の結果表示画面の例を示す。ここには予測対象の化合物とその材料特性予測値とのリストが表示され、利用者は保存ボタンによって結果を保存することができ、終了ボタンによって終了することができる。
図12は、本実施例の利用イメージを説明する概念図である。本実施例の一つの特徴は、オートエンコーダ108の学習にあたって、任意の材料データベースではなく利用者が選択した化合物空間に該当する材料データベースを用いる点である。
仮に、利用者の目的が材料物性Aの高い材料を探索することであるとする。このとき理想的には、材料物性Aが高い材料集合を記述するのに最も有用な一群の特徴量があると考えられ、それらを用いて機械学習を行うことが予測精度を上げるためには最も望ましい。
さて、過去に別の案件で収集した材料データベースXがあり、その時の利用の目的は材料物性Bが高い材料の探索であったとする。ここで、もし、専門家知識により、材料物性AとBには相関があることが知られていたならば、材料データベースXは材料物性Aが高い材料集合と重なりがある可能性が高いことになる。よって、材料データベースXを用いてオートエンコーダを学習し、材料特徴量を抽出することによって、材料物性Aの高い材料を探索しやすくなると考えられる。
そこで本実施例での具体的な利用例を説明すると、図12(a)に示すように、案件別材料データベース107から、案件データの一つである材料データベースX1201を抽出し、その構造式1202で、特徴量1203を得るためのオートエンコーダ108を学習する。
案件別材料データベース107では、案件データ毎に、テキスト形式の説明文やタグを付しておき、利用者が案件データの目的やテーマ、材料の主成分あるいは格納されている材料特性等を表示および検索できるようにしてもよい。また、当該案件データの過去の利用履歴として利用目的、利用者、その他の情報を格納して表示および検索できるようにしてもよい。オートエンコーダ108は、例えばRNN(リカレントニューラルネットワーク)やDNN(ディープニューラルネットワーク)を用いる。
図12(a)では、材料物性Aについての検討を進めようとしている利用者が、案件別材料データベース107から、過去に材料物性Bについて検討したデータである材料データベースX1201を抽出した例を示している。専門的な知識を持つ利用者は、材料物性AとBには関係があることを知っており、上述の検索機能を用いて材料データベースX1201を抽出する。材料データベースX1201は、例えば構造式と材料物性Bのデータを含んでいる。オートエンコーダ108の学習には、そのうちの構造式1202を用いる。
このようにして、構造式から適切な特徴量を得るオートエンコーダ108を準備したら、材料物性Aを推定するための予測モデルを学習する。図12(b)に示すように、教師データ1204として、構造式と測定済みの材料物性Aを含むデータを準備する。教師データ1204は、案件別材料データベース107から選択してもよいし、案件別材料データベース107以外から新しいデータを取得してもよい。
教師データ1204から構造式1205を取得してオートエンコーダ108に入力し、特徴量1206を得る。そして、特徴量1206と材料物性Aのデータ1207の組を教師データとして用いて、予測モデル1208を学習する。材料物性Aのデータは、適当な特徴量に変換してもよい。予測モデル1208は例えばRNNやDNNを用い、学習は公知の教師あり学習を用いてよい。
なお、教師データ1204が構造式と材料物性Aのデータ以外のデータ(例えば材料の製造条件)を含んでいる場合、それを教師データに加えてもよい。このようにして、材料物性Aを推定する予測モデル1208が学習できた。予測モデル1208は、材料特性予測部109に実装される。
その後、図12(c)に示すように、利用者は、材料物性Aを推定したい材料の構造式1209を準備する。構造式1209は、材料特性予測受付部105から入力される。構造式をオートエンコーダ108に入力して特徴量1210を得る。特徴量1210を予測モデル1208に入力して、推定された材料物性A1211が得られる。
このように、制約のない一般的なオープンデータ等を用いるのではなく、現在の材料分析の目的に関連のある過去の案件で収集された材料データベースを活用することによって特徴量を生成することにより、精度の良い推定が可能になる。
本実施例では、オートエンコーダ108の学習および材料特性予測部109での予測モデルの学習の両方に同一の案件別材料データベース107を用いたが、これは別々のデータベースを用いることを妨げるものではない。すなわち、材料データベースAと材料データベースBを用意し、オートエンコーダ108の学習には材料データベースAを用い、予測モデルの学習には材料データベースBを用いるという形態であっても構わない。この場合、材料データベースBには化合物ごとの材料特性値のデータが必要であるが、材料データベースAにはそれが必要ない。また、さらに別の形態として、オートエンコーダ108の学習には材料データベースAおよびBの両方を用い、予測モデルの学習には材料データベースBのみを用いるという形態であっても構わない。
実施例中で生成したオートエンコーダ108や予測モデルは、内容を説明するテキストデータを付して、記憶装置に記憶しておいてもよい。このように過去のモデルをライブラリ化しておくことにより、必要に応じた再利用が可能になる。
以上のように、分析目的と関連のある材料データを集めた案件別材料データベースから化合物空間を利用者が選択し、オートエンコーダの学習を行うことによって、より分析目的に合致した効果的な材料特徴量が生成され、それによって材料特性の高精度な予測が容易になる。
以上の実施例について説明したが、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を具えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
101:材料特性予測装置、103:化合物空間指定部、104:オートエンコーダ学習部、105:材料特性予測受付部、106:実験データ受付部、107:案件別材料データベース、108:オートエンコーダ、109:材料特性予測部
Claims (14)
- 案件データベースを複数格納した案件別材料データベースを用いて、材料特性の予測を行うための装置であって、
前記案件データベースは、材料の構造に関する構造情報および材料の特性に関する材料特性を関連付けて記録したレコードを複数含み、
少なくとも一つの案件データベースの指定を受け付ける、化合物空間指定部と、
前記化合物空間指定部の受付けた案件データベースに対応する構造情報を多変量に変換するオートエンコーダを生成するオートエンコーダ学習部と、
前記オートエンコーダ学習部の生成したオートエンコーダが変換した多変量を用いて材料特性を予測する材料特性予測部と、
を持つことを特徴とする材料特性予測装置。 - 前記オートエンコーダは、
前記構造情報を多変量に変換した後、前記多変量から前記構造情報を復元できるような性質を備えたモデルである、
請求項1記載の材料特性予測装置。 - 前記材料特性予測部は、
材料の構造に関する構造情報および材料の特性に関する材料特性を関連付けて記録したレコードを複数含む教師データを入力とし、
前記教師データに対応する構造情報を前記オートエンコーダに入力して多変量に変換して説明変数とし、
前記教師データに対応する材料特性を目的変数とし、前記説明変数と前記目的変数を用いて予測モデルを訓練する、
請求項1記載の材料特性予測装置。 - 特性を予測すべき材料の構造に関する構造情報を受け付ける材料特性予測受付部を備え、
前記材料特性予測部は、
前記特性を予測すべき材料の構造に関する構造情報を前記オートエンコーダに入力して多変量に変換して説明変数とし、
前記説明変数を前記予測モデルに入力して目的変数である特性を予測する、
請求項3記載の材料特性予測装置。 - 前記化合物空間指定部は、
前記案件データベースをキーワードで検索する機能を備える、
請求項1記載の材料特性予測装置。 - 材料の構造に関する構造情報を記録したレコードを複数含む第1のデータベースを準備する第1のステップ、
前記第1のステップで準備した第1のデータベースから、構造情報を抽出する第2のステップ、
前記第2のステップで抽出した構造情報を用いて、構造情報を多変量に変換するオートエンコーダを訓練する第3のステップ、
材料の構造に関する構造情報および材料の特性に関する材料特性を関連付けて記録したレコードを複数含む第2のデータベースを準備する第4のステップ、
前記第4のステップで準備した第2のデータベースから、構造情報を抽出する第5のステップ、
前記オートエンコーダを用いて、前記第5のステップで抽出された構造情報を多変量に変換する第6のステップ、
前記第6のステップで変換された多変量に基づいて説明変数を得、前記第2のデータベースから抽出した材料特性に基づいて目的変数を得る第7のステップ、
前記説明変数と前記目的変数を用いて、説明変数から目的変数を推定する予測モデルを生成する第8のステップ、
を実行する材料特性予測方法。 - 前記第1のステップでは、
案件データベースを複数格納した案件別材料データベースを用い、該案件別材料データベースから少なくとも一つの案件データベースを選択して前記第1のデータベースとする、
請求項6記載の材料特性予測方法。 - 前記案件別材料データベースでは、テキスト情報を前記案件データベースに関連付けて記憶しておき、
前記第1のステップでは、
利用者が前記テキスト情報を検索して少なくとも一つの案件データベースを選択する、
請求項7記載の材料特性予測方法。 - 前記第1のステップでは、
案件データベースを複数格納した案件別材料データベースを用い、前記案件データベースは、材料の構造に関する構造情報および材料の特性に関する材料特性を関連付けて記録したレコードを複数含み、
前記第1のステップでは、
前記案件別材料データベースから少なくとも一つの案件データベースを選択して前記第1のデータベースとし、
前記第4のステップでは、
前記案件別材料データベースから少なくとも一つの案件データベースを選択して前記第2のデータベースとする、
請求項6記載の材料特性予測方法。 - 前記第1のデータベースのレコードに含まれる材料特性と、
前記第2のデータベースのレコードに含まれる材料特性とは、
異なる定義の材料特性である、
請求項9記載の材料特性予測方法。 - 前記オートエンコーダに、
前記構造情報を多変量に変換した後、前記多変量から前記構造情報を復元できるような性質を備えたモデルを用いる、
請求項6記載の材料特性予測方法。 - 特性を予測すべき材料の構造に関する構造情報を準備する第9のステップ、
前記オートエンコーダを用いて、前記第9のステップで準備した構造情報を多変量に変換する第10のステップ、
前記第10のステップで変換された多変量に基づいて説明変数を得る第11のステップ、
前記第11のステップで得られた説明変数を前記予測モデルに適用して、目的変数である材料特性を推定する第12のステップ、
を実行する請求項6記載の材料特性予測方法。 - 前記オートエンコーダおよび前記予測モデルの少なくとも一つを記憶装置に記憶しておき、再利用を行う、
請求項6記載の材料特性予測方法。 - 前記第1のデータベースおよび前記第2のデータベースは、ともに材料の構造に関する構造情報および材料の特性に関する材料特性を関連付けて記録したレコードを複数含むが、材料特性に関しては、異なる定義もしくは種類のデータを記録している、
請求項6記載の材料特性予測方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019160261A JP7353874B2 (ja) | 2019-09-03 | 2019-09-03 | 材料特性予測装置および材料特性予測方法 |
CN202080054445.1A CN114175171A (zh) | 2019-09-03 | 2020-08-19 | 材料特性预测装置以及材料特性预测方法 |
US17/621,413 US20220359047A1 (en) | 2019-09-03 | 2020-08-19 | Material property prediction device and material property prediction method |
PCT/JP2020/031263 WO2021044846A1 (ja) | 2019-09-03 | 2020-08-19 | 材料特性予測装置および材料特性予測方法 |
EP20859943.1A EP4027295A4 (en) | 2019-09-03 | 2020-08-19 | MATERIAL PROPERTIES PREDICTION DEVICE AND MATERIAL PROPERTIES PREDICTION METHOD |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019160261A JP7353874B2 (ja) | 2019-09-03 | 2019-09-03 | 材料特性予測装置および材料特性予測方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021039534A JP2021039534A (ja) | 2021-03-11 |
JP7353874B2 true JP7353874B2 (ja) | 2023-10-02 |
Family
ID=74848626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019160261A Active JP7353874B2 (ja) | 2019-09-03 | 2019-09-03 | 材料特性予測装置および材料特性予測方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220359047A1 (ja) |
EP (1) | EP4027295A4 (ja) |
JP (1) | JP7353874B2 (ja) |
CN (1) | CN114175171A (ja) |
WO (1) | WO2021044846A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11901045B2 (en) * | 2019-01-15 | 2024-02-13 | International Business Machines Corporation | Machine learning framework for finding materials with desired properties |
US20220309198A1 (en) * | 2019-09-05 | 2022-09-29 | Tokyo Institute Of Technology | Sample Preparation Evaluation System, Sample Preparation Evaluation Method and Computer Readable Medium |
US20220189578A1 (en) * | 2020-12-14 | 2022-06-16 | International Business Machines Corporation | Interpretable molecular generative models |
US20230281443A1 (en) * | 2022-03-01 | 2023-09-07 | Insilico Medicine Ip Limited | Structure-based deep generative model for binding site descriptors extraction and de novo molecular generation |
JP7352758B1 (ja) * | 2023-03-08 | 2023-09-28 | 住友化学株式会社 | 組成提案システム |
JP7495549B1 (ja) | 2023-03-31 | 2024-06-04 | 住友化学株式会社 | 物質の探索支援方法、物質の探索支援装置、コンピュータプログラム及び物質の製造方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009025045A1 (ja) | 2007-08-22 | 2009-02-26 | Fujitsu Limited | 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101339180B (zh) * | 2008-08-14 | 2012-05-23 | 南京工业大学 | 基于支持向量机的有机化合物燃爆特性预测方法 |
JP2010277328A (ja) * | 2009-05-28 | 2010-12-09 | Medibic:Kk | 配合設計用シミュレーションデータベース装置、配合設計用システム、方法およびプログラム |
KR102457974B1 (ko) * | 2015-11-04 | 2022-10-21 | 삼성전자주식회사 | 신규 물질 탐색 방법 및 장치 |
US10776712B2 (en) | 2015-12-02 | 2020-09-15 | Preferred Networks, Inc. | Generative machine learning systems for drug design |
WO2019048965A1 (ja) | 2017-09-06 | 2019-03-14 | 株式会社半導体エネルギー研究所 | 物性予測方法および物性予測システム |
CN111819441B (zh) * | 2018-03-09 | 2022-08-09 | 昭和电工株式会社 | 聚合物的物理性质预测装置、存储介质、及聚合物的物理性质预测方法 |
CN110070542A (zh) * | 2019-04-30 | 2019-07-30 | 王智华 | 直觉物理的机器学习方法、装置及计算机可读存储介质 |
-
2019
- 2019-09-03 JP JP2019160261A patent/JP7353874B2/ja active Active
-
2020
- 2020-08-19 WO PCT/JP2020/031263 patent/WO2021044846A1/ja unknown
- 2020-08-19 CN CN202080054445.1A patent/CN114175171A/zh active Pending
- 2020-08-19 EP EP20859943.1A patent/EP4027295A4/en active Pending
- 2020-08-19 US US17/621,413 patent/US20220359047A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009025045A1 (ja) | 2007-08-22 | 2009-02-26 | Fujitsu Limited | 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム |
Non-Patent Citations (1)
Title |
---|
BENJAMIN, Sanchez-Lengeling, et al.,Inverse molecular design using machine learning: Generative models for matter engineering,Science [online],Vol.361, No.6400,日本,2018年07月27日,1-6ページ,[検索日:2023年8月23日], <URL:https://www.science.org/doi/10.1126/science.aat2663> |
Also Published As
Publication number | Publication date |
---|---|
JP2021039534A (ja) | 2021-03-11 |
CN114175171A (zh) | 2022-03-11 |
EP4027295A1 (en) | 2022-07-13 |
EP4027295A4 (en) | 2023-09-20 |
US20220359047A1 (en) | 2022-11-10 |
WO2021044846A1 (ja) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7353874B2 (ja) | 材料特性予測装置および材料特性予測方法 | |
Jin et al. | Predicting organic reaction outcomes with weisfeiler-lehman network | |
US11087861B2 (en) | Creation of new chemical compounds having desired properties using accumulated chemical data to construct a new chemical structure for synthesis | |
CN109753863A (zh) | 信号分析系统和特征提取并对其解译的方法 | |
CN108132961B (zh) | 一种基于引用预测的参考文献推荐方法 | |
Galhotra et al. | Automated feature enhancement for predictive modeling using external knowledge | |
Colaco et al. | A review on feature selection algorithms | |
Kaur et al. | An empirical study of software entropy based bug prediction using machine learning | |
KR20170038647A (ko) | 다수 미디어 소스로부터의 콘텐츠의 조직화 및 시각화 | |
US10790045B1 (en) | System and method for screening homopolymers, copolymers or blends for fabrication | |
KR20240001238A (ko) | 산업별 머신 러닝 애플리케이션들 | |
JP7267883B2 (ja) | 材料特性予測システムおよび材料特性予測方法 | |
Nural et al. | Using meta-learning for model type selection in predictive big data analytics | |
EP3997530A1 (en) | Automation engineering learning framework for cognitive engineering | |
Sabbatini et al. | Symbolic knowledge extraction from opaque ML predictors in PSyKE: Platform design & experiments | |
Lagrari et al. | An efficient model of text categorization based on feature selection and random forests: Case for Business documents | |
Wang et al. | ConvPred: A deep learning‐based framework for predictions of potential organic reactions | |
Dai et al. | Meta-graph based attention-aware recommendation over heterogeneous information networks | |
Igamberdiev et al. | A Feature-based Categorization of Multi-Level Modeling Approaches and Tools. | |
Agyemang et al. | Deep inverse reinforcement learning for structural evolution of small molecules | |
Song et al. | Marrying dialogue systems with data visualization: Interactive data visualization generation from natural language conversations | |
JP5555238B2 (ja) | ベイジアンネットワーク構造学習のための情報処理装置及びプログラム | |
CN115762667A (zh) | 化学反应类型的识别方法、装置、计算机设备 | |
Phan et al. | Enhancing clinical name entity recognition based on hybrid deep learning scheme | |
Malberg et al. | FELIX: Automatic and interpretable feature engineering using llms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220627 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230829 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230920 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7353874 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |