JP7207128B2

JP7207128B2 - 予測システム、予測方法、および予測プログラム

Info

Publication number: JP7207128B2
Application number: JP2019080140A
Authority: JP
Inventors: 俊宏井口
Original assignee: TDK Corp
Current assignee: TDK Corp
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2023-01-18
Anticipated expiration: 2039-04-19
Also published as: JP2020177508A

Description

本開示の一側面は予測システム、予測方法、および予測プログラムに関する。

従来から、所望の特性を有する無機化合物をコンピュータシステムによって探索する試みが為されている。例えば、特許文献１には、遺伝的アルゴリズムを使用して、無機材料の結晶構造の生成、結晶構造の突然変異操作、結晶構造の交叉操作、結晶構造の構造緩和計算、目的関数の予測値の計算、目的関数の予測値に基づく結晶構造の選択と淘汰、第一原理計算による結晶構造の目的関数値の観測、前記目的関数値の観測結果に基づく回帰モデルの更新、および材料創成処理の終了判定の各処理を制御する遺伝的アルゴリズム制御部を備える材料創成装置が記載されている。

特開２０１８－１０４２８号公報

世の中に存在するかまたは存在し得る無機化合物の数は非常に膨大である。無機化合物の特性を精度良く予測できれば、その膨大な候補の中から所望の無機化合物を特定することが可能になる。そのため、無機化合物の特性を精度良く予測することが望まれている。

本開示の一側面に係る予測システムは、少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、無機化合物の組成を示す組成データを取得し、組成データで示される組成を周期表と関連付けることで、該組成に対応する行列を示す入力データを生成し、入力データを機械学習モデルに入力することで、無機化合物の特性の予測値を出力する。

このような側面においては、無機化合物の組成そのものだけではなく周期表も考慮されて無機化合物の特性が予測されるので、無機化合物の特性を精度良く予測することが可能になる。

本開示の一側面によれば、無機化合物の特性を精度良く予測することができる。

実施形態に係る予測システムの利用の一例を示す図である。実施形態に係る予測システムの機能構成の一例を示す図である。実施形態に係る予測システムで用いられるコンピュータのハードウェア構成の一例を示す図である。学習済みモデルの生成の一例を示すフローチャートである。入力データの生成の一例を示す図である。学習済みモデルを用いた特性値の予測の一例を示すフローチャートである。最適な組成の予測のための学習済みモデルの利用の一例を示すフローチャートである。最適な組成の予測の一例を示すフローチャートである。

以下、添付図面を参照しながら本開示での実施形態を詳細に説明する。なお、図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。

［システムの概要］
実施形態に係る予測システム１０は無機化合物の特性を予測するコンピュータシステムである。無機化合物の特性とは、無機化合物が持つ特有の性質のことをいう。無機化合物の特性の例として比誘電率が挙げられる。しかし、予測システム１０によって予測される特性はこれに限定されず、予測システム１０は無機化合物の任意の特性を予測することができる。本開示では、無機化合物の特性を示す値を「特性値」といい、予測システム１０によって予測される特性値を「予測特性値」という。

予測システム１０は特性値を予測するために機械学習を利用する。機械学習とは、与えられた情報に基づいて反復的に学習することで法則またはルールを自律的に見つけ出す手法である。機械学習の具体的な手法は限定されない。例えば、予測システム１０は、ニューラルネットワークを含んで構成される計算モデルである機械学習モデルを用いた機械学習を実行してもよい。ニューラルネットワークとは、人間の脳神経系の仕組みを模した情報処理のモデルのことをいう。より具体的な例として、予測システム１０は、畳み込み層およびプーリング層を含んで構成される畳み込みニューラルネットワークを用いた機械学習を実行してもよい。畳み込みニューラルネットワークは、多層構造のニューラルネットワークを用いる深層学習の一種である。例えば、予測システム１０は、畳み込みニューラルネットワークの代表例であるＬｅＮｅｔ－５およびＡｌｅｘＮｅｔのいずれかを用いてもよいし、これらとは異なる種類の畳み込みニューラルネットワークを用いてもよい。ＬｅＮｅｔ－５およびＡｌｅｘＮｅｔは一般には画像の分類に用いられるので、無機化合物の特性を予測するためにそのニューラルネットワークの構造を変形してもよい。例えば、畳み込みおよびプーリングでのカーネルサイズを小さくし（例えば、カーネルサイズを２×２に設定する）、フィルタ数を少なくし、出力層をｓｏｆｔｍａｘ関数から一つのノードに変更して回帰を出力するように、その構造を変形してもよい。

予測システム１０は、学習を繰り返すことで機械学習モデルを訓練させ、この機械学習モデルを学習済みモデルとして取得することができる。これは学習フェーズに相当する。学習済みモデルは、無機化合物の特性を予測するために最適であると予測される機械学習モデルであり、“現実に最適である機械学習モデル”とは限らないことに留意されたい。予測システム１０は、学習済みモデルを用いて入力データを処理することで、無機化合物の特性を示す予測値、すなわち予測特性値を出力することもできる。これは予測フェーズまたは運用フェーズに相当する。予測システム１０は、その予測特性値に基づいて、最適であると予測される無機化合物の組成（これを「最適な組成」ともいう。）を出力してもよい。無機化合物の組成とは、無機化合物を構成する元素の組合せのことをいい、組成式で表すことができる。本開示では、無機化合物の組成を単に「組成」ともいう。予測システム１０により予測される組成は、“現実に最適である無機化合物の組成”とは限らないことに留意されたい。予測された組成が実際に最適であるか否かは、実際に無機化合物を作製して特性値を測定することで判断することができる。

学習済みモデルはコンピュータシステム間で移植可能である。したがって、或るコンピュータシステムで生成された学習済みモデルを、別のコンピュータシステムで用いることができる。もちろん、一つのコンピュータシステムが学習済みモデルの生成および利用の双方を実行してもよい。すなわち、予測システム１０は、学習フェーズおよび予測フェーズの双方を実行してもよいし、学習フェーズおよび予測フェーズのいずれか一方を実行しなくてもよい。

学習フェーズでは、予測システム１０は個々の無機化合物についての組成および特性値を示す化合物データを利用する。予測システム１０はその化合物データに基づいて入力データを生成し、その入力データを用いた機械学習を実行することで学習済みモデルを生成する。予測フェーズでは、予測システム１０はその学習済みモデルに、特性値を予測したい組成を示す入力データを与えることで該組成の予測特性値を得る。予測システム１０は複数の組成から得られる複数の予測特性値に基づいて最適な無機化合物の組成を予測してもよい。最適な無機化合物の組成を予測する場合には、予測システム１０は機械学習に加えて最適化アルゴリズムを利用する。最適化アルゴリズムの例として遺伝的アルゴリズム（ＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍｓ，ＧＡ）、差分進化（ＤｉｆｆｅｒｅｎｔｉａｌＥｖｏｌｕｔｉｏｎ，ＤＥ）、粒子群最適化（ＰａｒｔｉｃｌｅＳｗａｒｍＯｐｔｉｍｉｚａｔｉｏｎ，ＰＳＯ）、および分布推定アルゴリズム（ＥｓｔｉｍａｔｉｏｎｏｆＤｉｓｔｒｉｂｕｔｉｏｎＡｌｇｏｒｉｔｈｍ，ＥＤＡ）が挙げられる。しかし、予測システム１０によって利用される最適化アルゴリズムはこれらに限定されない。

上述したように、予測された組成が実際に最適であるか否かは実験を通して検証することができる。その検証結果は、無機化合物の組成および特性値を示す新たな化合物データとして用いることができる。その検証結果を示す化合物データは、機械学習モデルの予測精度を上げるために用いることができる。このように、予測システム１０を用いることで、（１）化合物データに基づく学習済みモデルの生成、（２）その学習済みモデルと最適化アルゴズムとを用いた組成の予測、（３）その予測結果に基づく実験、および（４）化合物データへの実験結果の反映とから成る循環的な処理が可能になる。図１は、そのような予測システム１０の循環的な利用の一例を示す図である。ユーザは、予測システム１０を用いてこのようなサイクルを繰り返しながら所望の無機化合物を効率的に探索することができる。

［システムの構成］
図２は実施形態に係る予測システム１０の機能構成の一例を示す図である。一例では、予測システム１０は機能要素として学習部１１、予測部１２、入力データ生成部１３、および登録部１４を備える。学習部１１は、組成から特性値を予測するための学習済みモデル３０を生成する機能要素である。学習部１１は、化合物データをデータベース２０から取得し、その化合物データに基づいて入力データを生成し、その入力データを用いて機械学習を実行する。予測部１２はその学習済みモデル３０を用いた予測を実行する機能要素である。予測部１２は、学習済みモデル３０を用いて組成から予測特性値を算出してもよいし、最適化アルゴリズムをさらに用いて最適な組成を予測してもよい。入力データ生成部１３は機械学習モデルまたは学習済みモデル３０に入力されるデータ、すなわち、入力データを生成する機能要素である。登録部１４は化合物データをデータベース２０に格納する機能要素である。例えば、登録部１４は、最適な組成を示す情報に基づいて作製された無機化合物と、該無機化合物の特性の測定値とを示す化合物データをデータベース２０に格納する。登録部１４はユーザによって入力された化合物データを受け付けて格納してもよいし、他のコンピュータシステムから化合物データを受信して格納してもよい。

予測システム１０は、化合物データを記憶するデータベース２０にアクセスすることができる。データベース２０は機械学習モデルを学習させるために用いられ得る。データベース２０は任意の方針で用意されてよい。例えば、データベース２０は予測システム１０の一構成要素であってもよいし、予測システム１０とは別のコンピュータシステム内に構築されてもよい。予測システム１０とデータベース２０とは通信ネットワークを介して接続されてもよい。あるいは、一つのコンピュータ内に予測システム１０およびデータベース２０の双方が構築されてもよい。

データベース２０に記憶される化合物データの個々のデータレコードは、無機化合物の組成と特性値との組合せを示す。化合物データの準備方法は限定されない。例えば、化合物データは人手による入力作業によってデータベース２０に蓄積されてもよい。あるいは、化合物データは予測システム１０または他のコンピュータシステムによって自動的に収集されてデータベース２０に蓄積されてもよい。

図３は実施形態に係る予測システム１０を構成するコンピュータ１００の一般的なハードウェア構成の一例を示す図である。例えば、コンピュータ１００はプロセッサ１０１、主記憶部１０２、補助記憶部１０３、通信制御部１０４、入力装置１０５、および出力装置１０６を備える。プロセッサ１０１はオペレーティングシステムおよびアプリケーション・プログラムを実行する。主記憶部１０２は例えばＲＯＭおよびＲＡＭで構成される。補助記憶部１０３は例えばハードディスクまたはフラッシュメモリで構成され、一般に主記憶部１０２よりも大量のデータを記憶する。通信制御部１０４は例えばネットワークカードまたは無線通信モジュールで構成される。入力装置１０５は例えばキーボード、マウス、タッチパネルなどで構成される。出力装置１０６は例えばモニタおよびスピーカで構成される。

予測システム１０の各機能要素は、補助記憶部１０３に予め記憶される予測プログラム１１０により実現される。具体的には、各機能要素は、プロセッサ１０１または主記憶部１０２の上に予測プログラム１１０を読み込ませてその予測プログラム１１０を実行させることで実現される。プロセッサ１０１はその予測プログラム１１０に従って、通信制御部１０４、入力装置１０５、または出力装置１０６を動作させ、主記憶部１０２または補助記憶部１０３におけるデータの読み出しおよび書き込みを行う。処理に必要なデータまたはデータベースは主記憶部１０２または補助記憶部１０３内に格納される。

予測プログラム１１０は、例えば、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリなどの有形の記録媒体に固定的に記録された上で提供されてもよい。あるいは、予測プログラム１１０は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。

予測システム１０は１台のコンピュータ１００で構成されてもよいし、複数台のコンピュータ１００で構成されてもよい。複数台のコンピュータ１００を用いる場合には、これらのコンピュータ１００がインターネットやイントラネットなどの通信ネットワークを介して接続されることで、論理的に一つの予測システム１０が構築される。

［システムの動作］
図４を参照しながら、学習済みモデル３０の生成について説明する。図４は学習済みモデル３０の生成の一例を処理フローＳ１として示すフローチャートである。処理フローＳ１は学習フェーズに相当し、且つ本開示に係る予測方法の一例である。

ステップＳ１１では、学習部１１が化合物データの最初のデータレコードをデータベース２０から取得する。このデータレコードは、無機化合物の組成を示す組成データの一例である。

ステップＳ１２では、入力データ生成部１３がそのデータレコードで示される組成を周期表と関連付けることで入力データを生成する。周期表は、周期律に基づいて元素を配列した表である。入力データ生成部１３は、その周期表に対応する行列を生成し、無機化合物の構成に対応する数値を各成分に設定する。そして、入力データ生成部１３はこのように各成分が設定された行列を示す入力データを生成する。本開示では、行列の成分を「行列成分」ともいう。

図５は、入力データの生成の一例を示す図である。本実施形態では、入力データ生成部１３は周期表に対応する行列として７×３２行列を生成する。より具体的には、入力データ生成部１３は、第１周期から第７周期を行で示し、１族から１８族までを列で示し、ランタノイドおよびアクチノイドを２族と３族との間に挿入することで、７×３２行列を生成する。ルテチウム（Ｌｕ）およびローレンシウム（Ｌｒ）は３族と同じ列に配置される。この７×３２行列の各成分は周期表上の元素に対応する。ここで、７×３２行列は一例であり、周期表に対応する行列の構成（すなわち、行数および列数）は任意の方針で定められてよいことに留意されたい。

続いて、入力データ生成部１３は、無機化合物の組成に対応する数値を設定する。より具体的には、入力データ生成部１３は、組成を構成する元素に対応する行列成分に、該元素の比率に対応する数値を設定する。一例では、この比率は、組成における元素の個数の比率（本開示ではこれを「個数比」という。）でもよい。入力データ生成部１３は、組成から所与の元素を除き、該組成の残りの元素に基づいて比率を算出してもよい。例えば、入力データ生成部１３は、組成を構成する元素のうち酸素以外のものについて比率を求めてもよい。

図５は、チタン酸バリウム（ＢａＴｉＯ_３）に対応する行列を示す。図５の例では、入力データ生成部１３は、チタン酸バリウムの組成式から非金属元素である酸素（Ｏ）を除いた構成“ＢａＴｉ”について元素の個数比を算出する。バリウム（Ｂａ）およびチタン（Ｔｉ）の個数比は１：１である。したがって、入力データ生成部１３は、バリウムおよびチタンのそれぞれに対応する行列成分に５０（これは５０％を意味する。）を設定し、周期表上の残りの元素に対応する行列成分に０を設定する。入力データ生成部１３は、周期表上の元素に対応しない行列成分（周期表上では元素が存在しない部分に対応する行列成分）には負数を設定してもよい。例えば、入力データ生成部１３は、周期表の元素に対応しない行列成分のそれぞれに－１を設定してもよい。あるいは、入力データ生成部１３は、７×３２個の行列成分の総和を０またはほぼ０にするための負数を設定してもよい。図５の例では、元素に対応しない行列成分の個数は１０６であるので、入力データ生成部１３はその行列成分に－０．９４（≒－１００／１０６）を設定する。生成される７×３２行列は無機化合物の組成と周期表との関連を表現する。あるいは、入力データ生成部１３は、周期表の元素に対応しない行列成分のそれぞれに０を設定してもよい。

図５の例では行列成分に百分率が設定されるが、個数比などの比率は小数で設定されてもよい。チタン酸バリウム（ＢａＴｉＯ_３）から酸素（Ｏ）を除いた構成“ＢａＴｉ”の個数比を小数で表す場合には、入力データ生成部１３は、バリウムおよびチタンのそれぞれに対応する行列成分に０．５を設定し、元素に対応しない行列成分に－０．００９４を設定してもよい。

ステップＳ１３では、学習部１１が生成された入力データを用いて機械学習を実行する。学習部１１は７×３２行列を示す入力データを機械学習モデルに入力し、その機械学習モデルから出力される予測特性値を得る。そして、学習部１１はその予測特性値と、データレコードで示される特性値（すなわち、正解）との誤差に基づいて、バックプロパゲーション（誤差逆伝播法）などの手法を用いて機械学習モデル内のパラメータを更新する。機械学習モデル内の更新されるパラメータの例としてニューラルネットワークの重みが挙げられる。しかし、更新されるパラメータはこれに限定されない。

一例では、入力データから（連続的な）数値を予測する回帰問題を解くことができる機械学習モデルを用いることができる。上述したように、機械学習の具体的な手法は限定されず、機械学習モデルの種類も限定されない。本実施形態では、入力データは７×３２行列を示し、したがって、２次元状に数値が配列された構造を有する。このような入力データの構造は、２次元状にピクセルが配列された画像データに似たものであるといえる。したがって、画像解析においてよく用いられる畳み込みニューラルネットワークを機械学習モデルとして用いることで、入力データを精度良く処理することが期待できる。

ステップＳ１４では、学習部１１が学習を終了させるか否かを判定する。学習部１１は、機械学習の終了条件が満たされた場合には学習を終了させ、該終了条件が満たされない場合には機械学習を継続する。終了条件は任意に設定されてよい。例えば、終了条件は誤差に基づいて設定されてもよいし、処理するデータレコードの個数、すなわち学習の回数に基づいて設定されてもよい。あるいは、予測システム１０はデータベース２０内のデータレコードの一部を検証用データとして用いて機械学習モデルの性能を評価し、その評価が所与の基準を満たす場合に機械学習を終了してもよい。

学習を続ける場合には（ステップＳ１４においてＮＯ）、ステップＳ１５において学習部１１が化合物データの次のデータレコードをデータベース２０から取得し、そのデータレコードについてステップＳ１２以降の処理を実行する。学習を終了させる場合には（ステップＳ１４においてＹＥＳ）、ステップＳ１６において学習部１１が学習済みモデル３０を取得する。このように、学習フェーズでは、予測システム１０は化合物データの複数のデータレコードを順次用いて機械学習を実行することで学習済みモデル３０を生成する。

図６を参照しながら、学習済みモデル３０を用いた特性値の予測について説明する。図６は学習済みモデル３０による特性値の予測の一例を処理フローＳ２として示すフローチャートである。処理フローＳ２は予測フェーズに相当し、且つ本開示に係る予測方法の一例である。

ステップＳ２１では、予測部１２は無機化合物の組成を示すデータ（組成データ）を取得する。組成データの取得方法は限定されない。例えば、予測部１２は所与のデータベースにアクセスして組成データを読み込んでもよいし、ユーザによって入力された組成データを取得してもよいし、予測システム１０内での演算によって生成された組成データを用いてもよい。

ステップＳ２２では、入力データ生成部１３がその組成データで示される組成を周期表と関連付けることで入力データを生成する。この処理はステップＳ１２と同じである。本実施形態では、その入力データは７×３２行列を示す。

ステップＳ２３では、予測部１２がその入力データを学習済みモデル３０に入力し、学習済みモデル３０によって得られる予測特性値を出力する。予測特性値の出力方法は限定されない。例えば、予測部１２は予測特性値を、モニタ上に表示してもよいし、所定のデータベースに格納してもよいし、他のコンピュータシステムに送信してもよい。あるいは、予測システム１０はその予測特性値を用いてさらなる処理を実行してもよい。

図７および図８を参照しながら、最適な組成の予測について説明する。図７は、その予測のための学習済みモデル３０の利用の一例を処理フローＳ３として示すフローチャートである。図８は最適な組成の予測の一例を処理フローＳ４として示すフローチャートである。処理フローＳ３，Ｓ４のいずれも、予測フェーズを含み、且つ本開示に係る予測方法の一例である。

処理フローＳ３について説明する。ステップＳ３１では、予測部１２が所与の変換式に媒介変数ｔ_ｉ（ただし、ｉ＝１～ｎ－１）を代入して、組成を示すｎ個の元素の比率Ｘ_１～Ｘ_ｎを算出する。一例では、この比率Ｘ_１～Ｘ_ｎは元素の個数比でもよい。ｎ個の元素の比率Ｘ_１～Ｘ_ｎは無機化合物の組成を示す。組成を構成する元素の候補数である値ｎは何ら限定されず、２以上であればいくつでもよい。例えば、値ｎは注目する元素の個数であり得る。ｎ個の元素の比率Ｘ_１～Ｘ_ｎの和は１（すなわち１００％）であり、且つ個々の比率Ｘ_ｉ（ただし、ｉ＝１～ｎ）は０以上１以下である。これらの制約を満たす変換式を決めるために、ｎ次元ユークリッド空間において原点を中心とする半径１のｎ次元球面を考える。ｘ_ｉが直交座標であれば、そのｎ次元球面の座標（ｘ_１，…，ｘ_ｎ）はｎ－１個の偏角座標θ_１～θ_ｎ－１を用いて以下の式（１－１），（１－２），（１－３）で計算できる。

Σｘ_ｉ ^２＝１であり、且つ、０≦ｘ_ｉ ^２≦１である。Ｘ_ｉ＝ｘ_ｉ ^２とすることで、ΣＸ_ｉ＝１、且つ、０≦Ｘ_ｉ≦１という上記の制約が得られる。θ_ｉ＝πｔ_ｉ／２とすることで、以下の変換式（２－１），（２－２），（２－３）が得られる。ただし、０≦ｔ_ｉ≦１である。

変換式（２－１），（２－２），（２－３）は無機化合物の組成を自動的に生成するための式であるといえる。変換式（２－１），（２－２），（２－３）も、ｎ次元ユークリッド空間において原点を中心とする半径１のｎ次元球面上の座標を示す。予測部１２は変換式（２－１），（２－２），（２－３）に媒介変数ｔ_ｉ（ただし、ｉ＝１～ｎ－１）を代入してｎ個の元素の比率Ｘ_１～Ｘ_ｎを算出する。本開示では、一つの組成を生成するために用いられるｎ－１個の媒介変数ｔ_ｉの組合せを「媒介変数セット」ともいう。比率Ｘ_１～Ｘ_ｎを示すデータは組成データの一例である。

変換式は上記の例に限定されない。例えば、予測部１２は、媒介変数ｔ_ｉ（ただし、ｉ＝１～ｎ）をＸ_ｉ＝ｔ_ｉ／Σｔ_ｉという変換式に代入することによって、ｎ個の元素の比率Ｘ_１～Ｘ_ｎを算出してもよい。

ステップＳ３２では、入力データ生成部１３が算出された比率Ｘ_１～Ｘ_ｎで示される組成を周期表と関連付けることで入力データを生成する。この処理はステップＳ１２と同じである。本実施形態では、その入力データは７×３２行列を示す。比率Ｘ_１～Ｘ_ｎで示される組成は、最適な組成の候補であるということができ、本開示では「候補組成」ともいう。

ステップＳ３３では、予測部１２がその入力データを学習済みモデル３０に入力し、学習済みモデル３０によって得られる予測特性値を出力する。この予測特性値は最適な組成を予測するために用いられる。

処理フローＳ４について説明する。ステップＳ４１では、予測部１２が複数の媒介変数セットのそれぞれをランダムに設定する。すなわち、予測部１２はそれぞれの媒介変数セットにおいて、ｎ－１個の媒介変数ｔ_ｉをランダムに設定する。

ステップＳ４２では、予測部１２が、設定された複数の媒介変数セットのそれぞれから予測特性値を算出する。ステップＳ４２では個々の媒介変数セットについて処理フローＳ３が実行され、これにより、それぞれの媒介変数セットについて予測特性値が得られる。入力データ生成部１３は変換式（２－１），（２－２），（２－３）によって得られる組成を周期表と関連付けることで、７×３２行列を示す入力データを生成する。

ステップＳ４１，Ｓ４２によって、媒介変数セットと予測特性値との複数の組合せが得られる。一つの媒介変数セットを一つの個体として考えた場合には、複数の媒介変数セットは個体群として見ることができる。予測部１２は最適化アルゴリズムを用いて複数の媒介変数セットを更新（変化）させる処理を繰り返すことで、最適な組成を予測する。言い換えると、予測部１２は個体群を複数の世代にわたって進化させることで、個体を解に近づける。ステップＳ４１，Ｓ４２は、その繰返し処理のための初期設定であるともいえるし、１世代目の処理であるともいえる。

ステップＳ４３では、予測部１２が最適化アルゴリズムを用いて複数の媒介変数セットのそれぞれを更新する。上述したように、例えば予測部１２は遺伝的アルゴリズム、差分進化、粒子群最適化、および分布推定アルゴリズムのいずれかを用いて複数の媒介変数セットのそれぞれを更新してもよい。本実施形態では、一例として粒子群最適化について説明する。

粒子群最適化とは、鳥または魚の群れにおいて各個体が情報交換を行いながら動き回る様子をモデル化した最適化アルゴリズムのことをいう。粒子群最適化では、解は、解空間における個体（これを「粒子」という。）の位置によって表現される。個々の粒子は位置および速度を有する。粒子はその解空間内を移動しながら良い解を探索する。粒子は、過去に発見した良い解を記憶するとともに、他の粒子（例えば近傍の粒子）と良い解に関する情報を交換（共有）する。粒子はこれらの情報に基づいて、より良い位置に近づくように位置および速度を更新する。このような一連の操作の繰り返しによって解空間が探索されて、これにより最良解（より詳しくいうと、最良であると推定される解）が得られる。初期設定（１世代目の処理）では粒子の位置および速度はランダムに設定される。

繰返し処理で実現される探索（２世代目以降の処理）では、その位置および速度が以下の式（３），（４）によって更新される。世代を変数ｔで表し、個々の粒子を変数ｉで識別し、世代ｔにおける粒子ｉの位置および速度をそれぞれｘ_ｉ ^ｔ、ｖ_ｉ ^ｔと表す。

ここで、ｗ，ｃ_１，ｃ_２は重みであり、ｒ_１，ｒ_２は区間［０，１］の一様乱数である。ｐｂｅｓｔ_ｉ ^ｔは世代ｔまでの時点における粒子ｉの最良解を表し、ｇｂｅｓｔ^ｔは世代ｔまでの時点における全粒子の中での最適解を示す。ここで、最良解とは、最も高い評価値に対応する位置ベクトルである。ｇｂｅｓｔ^ｔは、粒子ｉの近傍の領域内での最良解であるｌｂｅｓｔ^ｔに置き換えられてもよい。

個々の粒子ｉについて、新たに得られた解ｘ_ｉ ^ｔ＋１の評価値がｐｂｅｓｔ_ｉ ^ｔの評価値よりも高い場合にはｐｂｅｓｔ_ｉ ^ｔがその新たな解によって更新される。同様に、ｇｂｅｓｔ^ｔ（またはｌｂｅｓｔ^ｔ）よりも評価値が高い解ｘ_ｉ ^ｔ＋１が見つかった場合には、ｇｂｅｓｔ^ｔ（またはｌｂｅｓｔ^ｔ）がその新たな解によって更新される。

ステップＳ４３では、予測部１２は粒子群最適化などの最適化アルゴリズムを応用して、複数の媒介変数セットのそれぞれを更新する。この更新によって、それぞれの媒介変数セットにおいてｔ_ｉ（ｉ＝１～ｎ－１）の少なくとも一部が変更される。予測特性値は評価値として用いられ得る。粒子群最適化が用いられる場合には、媒介変数セットの更新は、一般に提供されている粒子群最適化のパッケージまたは関数（例えば、Ｒ言語で動作するｐｓｏパッケージのｐｓｏｐｔｉｍ関数）を利用することで実現されてもよい。

ステップＳ４４では、予測部１２が、更新された複数の媒介変数セットのそれぞれから予測特性値を算出する。ステップＳ４４では個々の媒介変数セットについて処理フローＳ３が実行され、これにより、それぞれの媒介変数セットについて予測特性値が得られる。入力データ生成部１３は変換式（２－１），（２－２），（２－３）によって得られる組成を周期表と関連付けることで、７×３２行列を示す入力データを生成する。

ステップＳ４５で示されるように、ステップＳ４３，Ｓ４４で示される探索（２世代目以降の処理）は繰り返し実行され得る。探索の終了条件は任意に設定されてよく、例えば繰り返し回数によって規定されてもよい。探索を続ける場合には（ステップＳ４５においてＮＯ）、ステップＳ４３およびＳ４４の処理が再び実行される。探索に関して、媒介変数セットの個数（すなわち、個体または粒子の個数）、および繰り返し回数は限定されず、任意に設定されてよい。例えば、媒介変数セットの個数および繰り返し回数はいずれも、１０のオーダーでもよいし１００のオーダーでもよい。

探索を終了する場合には（ステップＳ４５においてＹＥＳ）、処理はステップＳ４６に進む。ステップＳ４６では、予測部１２が、最適な予測特性値に対応する媒介変数セット（言い換えると、最も評価値が高い媒介変数セット）を特定する。

ステップＳ４７では、予測部１２が、特定された媒介変数セットを所与の変換式に代入してｎ個の元素の比率Ｘ_１～Ｘ_ｎを算出する。これはステップＳ３１と同じ処理である。具体的には、予測部１２は変換式（２－１），（２－２），（２－３）を用いてその比率Ｘ_１～Ｘ_ｎを算出する。

ステップＳ４８では、予測部１２が、算出された比率で示される組成を出力する。組成の情報の出力方法は限定されない。例えば、予測部１２は組成の情報を、モニタ上に表示してもよいし、所定のデータベースに格納してもよいし、他のコンピュータシステムに送信してもよい。組成の表現方法も任意であり、例えば、組成は組成式で表現されてもよいし、元素および比率の１以上のペアで表現されてもよい。いずれにしても、ユーザはその組成の情報に基づいて無機化合物を作製して特性値を測定することで予測結果を検証することができる。この検証を通じて、好適なまたは新しい材料の発見も期待できる。

［効果］
以上説明したように、本開示の一側面に係る予測システムは、少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、無機化合物の組成を示す組成データを取得し、組成データで示される組成を周期表と関連付けることで、該組成に対応する行列を示す入力データを生成し、入力データを機械学習モデルに入力することで、無機化合物の特性の予測値を出力する。

本開示の一側面に係る予測方法は、少なくとも一つのプロセッサを備える予測システムにより実行される。この予測方法は、無機化合物の組成を示す組成データを取得するステップと、組成データで示される組成を周期表と関連付けることで、該組成に対応する行列を示す入力データを生成するステップと、入力データを機械学習モデルに入力することで、無機化合物の特性の予測値を出力するステップとを含む。

本開示の一側面に係る予測プログラムは、無機化合物の組成を示す組成データを取得するステップと、組成データで示される組成を周期表と関連付けることで、該組成に対応する行列を示す入力データを生成するステップと、入力データを機械学習モデルに入力することで、無機化合物の特性の予測値を出力するステップとをコンピュータに実行させる。

このような側面においては、無機化合物の組成そのものだけではなく周期表も考慮されて無機化合物の特性が予測されるので、無機化合物の特性を精度良く予測することが可能になる。周期表は個々の元素を物理的または化学的性質に配列した表である。その配列を機械学習モデルの入力データに反映させることで、無機化合物の特性を予測する際にその物理的または化学的性質が考慮されるので、無機化合物の特性の予測精度の向上が期待できる。

他の側面に係る予測システムでは、少なくとも一つのプロセッサが、組成を構成する元素に対応する行列成分に、該元素の比率に対応する数値を設定し、周期表上の残りの元素に対応する行列成分に０を設定し、周期表上の元素に対応しない行列成分に負数もしくは０を設定することで、入力データを生成してもよい。組成を構成する元素に関する情報をこのように周期表と関連付けることで、無機化合物の特性を精度良く予測することが可能になる。

他の側面に係る予測システムでは、少なくとも一つのプロセッサが、複数の媒介変数の組合せである媒介変数セットを所与の変換式に代入することで、組成を示す複数の元素の比率を算出し、算出された複数の元素の比率で示される組成を周期表と関連付けることで、入力データを生成してもよい。この一連の処理により、任意の無機化合物の組成について特性を予測することができる。

他の側面に係る予測システムでは、変換式が、ｎ次元ユークリッド空間において原点を中心とする半径１のｎ次元球面上の座標を示す式であってもよい。この式を用いることで、ゼロによる割り算を確実に回避しつつ、任意の無機化合物の組成について特性を予測することができる。

他の側面に係る予測システムでは、少なくとも一つのプロセッサが、複数の媒介変数セットのそれぞれについて予測値を出力するサブステップと、最適化アルゴリズムを用いて、複数の予測値に基づいて複数の媒介変数セットのそれぞれを更新するサブステップとの繰り返しを含む探索を実行するステップと、探索に基づいて、最適な予測値に対応する媒介変数セットを特定するステップと、特定された媒介変数セットを変換式に代入することで最適な組成を予測するステップと、最適な組成を示す情報を出力するステップとを実行してもよい。予測値を出力するサブステップでは、複数の媒介変数セットのそれぞれについて、変換式に該媒介変数セットを代入することで、候補組成を示す複数の元素の比率を算出し、候補組成を周期表と関連付けることで入力データを生成し、入力データを機械学習モデルに入力することで予測値を出力してもよい。最適化アルゴリズムと機械学習とを組み合わせたこのような探索によって、最適な特性を持つと期待できる無機化合物の組成を効率的に予測することが可能になる。

他の側面に係る予測システムでは、少なくとも一つのプロセッサが、最適な組成を示す情報に基づいて作製された無機化合物と、該無機化合物の特性の測定値とを示す化合物データを、機械学習モデルを学習させるために用いられるデータベースに格納してもよい。最適であると予想される無機化合物の特性を実際に検証して、その検証結果を示す化合物データをデータベースに登録することで、その化合物データを教師データとして機械学習のために用いることが可能になる。したがって、化合物データを用いた機械学習、組成の予測、実験、化合物データの登録というサイクルを繰り返しながら所望の無機化合物を効率的に探索することが可能になる。

他の側面に係る予測システムでは、特性が比誘電率であってもよい。この場合には、無機化合物の比誘電率を精度良く予測することが可能になり、ひいては好適な誘電体材料を得ることが期待できる。

［変形例］
以上、本開示での実施形態に基づいて詳細に説明した。しかし、本開示は上記実施形態に限定されるものではない。本開示は、その要旨を逸脱しない範囲で様々な変形が可能である。

予測システムの機能構成は上記実施形態に限定されない。上述したように、予測システムは学習フェーズおよび予測フェーズのいずれか一方を実行しなくてもよいので、学習部１１および予測部１２のうちのいずれか一方に相当する機能要素を備えなくてもよい。したがって、予測システムは処理フローＳ１，Ｓ２のいずれか一方を実行しなくてもよい。処理フローＳ３，Ｓ４はいずれも予測システムの必須の処理ではなく、したがって省略可能である。予測システム１０は登録部１４を備えなくてもよい。

本開示において、「少なくとも一つのプロセッサが、第１の処理を実行し、第２の処理を実行し、…第ｎの処理を実行する。」との表現、またはこれに対応する表現は、第１の処理から第ｎの処理までのｎ個の処理の実行主体（すなわちプロセッサ）が途中で変わる場合を含む概念を示す。すなわち、この表現は、ｎ個の処理のすべてが同じプロセッサで実行される場合と、ｎ個の処理においてプロセッサが任意の方針で変わる場合との双方を含む概念を示す。

少なくとも一つのプロセッサにより実行される方法の処理手順は上記実施形態での例に限定されない。例えば、上述したステップの一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の２以上のステップが組み合わされてもよいし、ステップの一部が修正または削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。

予測システム内で二つの数値の大小関係を比較する際には、「以上」および「よりも大きい」という二つの基準のどちらを用いてもよく、「以下」および「未満」という二つの基準のうちのどちらを用いてもよい。このような基準の選択は、二つの数値の大小関係を比較する処理についての技術的意義を変更するものではない。

１０…予測システム、１１…学習部、１２…予測部、１３…入力データ生成部、１４…登録部、２０…データベース、３０…学習済みモデル（機械学習モデル）、１１０…予測プログラム。

Claims

少なくとも一つのプロセッサを備え、
前記少なくとも一つのプロセッサが、
無機化合物の組成を示す組成データを取得し、
前記組成データで示される前記組成を周期表と関連付けることで、該組成に対応する行列を示す入力データを生成し、
前記入力データを機械学習モデルに入力することで、前記無機化合物の特性の予測値を出力する、
予測システム。
前記少なくとも一つのプロセッサが、前記組成を構成する元素に対応する行列成分に、該元素の比率に対応する数値を設定し、前記周期表上の残りの元素に対応する行列成分に０を設定し、前記周期表上の元素に対応しない行列成分に負数もしくは０を設定することで、前記入力データを生成する、
請求項１に記載の予測システム。
前記少なくとも一つのプロセッサが、
複数の媒介変数の組合せである媒介変数セットを所与の変換式に代入することで、前記組成を示す複数の元素の比率を算出し、
前記算出された複数の元素の比率で示される前記組成を前記周期表と関連付けることで、前記入力データを生成する、
請求項１または２に記載の予測システム。
前記変換式が、ｎ次元ユークリッド空間において原点を中心とする半径１のｎ次元球面上の座標を示す式である、
請求項３に記載の予測システム。
前記少なくとも一つのプロセッサが、
複数の前記媒介変数セットのそれぞれについて前記予測値を出力するサブステップと、最適化アルゴリズムを用いて、複数の前記予測値に基づいて前記複数の媒介変数セットのそれぞれを更新するサブステップとの繰り返しを含む探索を実行するステップと、
前記探索に基づいて、最適な前記予測値に対応する前記媒介変数セットを特定するステップと、
前記特定された媒介変数セットを前記変換式に代入することで最適な組成を予測するステップと、
前記最適な組成を示す情報を出力するステップと
を実行し、
前記予測値を出力するサブステップでは、複数の前記媒介変数セットのそれぞれについて、
前記変換式に該媒介変数セットを代入することで、候補組成を示す複数の元素の比率を算出し、
前記候補組成を前記周期表と関連付けることで前記入力データを生成し、
前記入力データを前記機械学習モデルに入力することで前記予測値を出力する、
請求項３または４に記載の予測システム。
前記少なくとも一つのプロセッサが、前記最適な組成を示す情報に基づいて作製された無機化合物と、該無機化合物の前記特性の測定値とを示す化合物データを、前記機械学習モデルを学習させるために用いられるデータベースに格納する、
請求項５に記載の予測システム。
前記特性が比誘電率である、
請求項１～６のいずれか一項に記載の予測システム。
少なくとも一つのプロセッサを備える予測システムにより実行される予測方法であって、
無機化合物の組成を示す組成データを取得するステップと、
前記組成データで示される前記組成を周期表と関連付けることで、該組成に対応する行列を示す入力データを生成するステップと、
前記入力データを機械学習モデルに入力することで、前記無機化合物の特性の予測値を出力するステップと
を含む予測方法。
無機化合物の組成を示す組成データを取得するステップと、
前記組成データで示される前記組成を周期表と関連付けることで、該組成に対応する行列を示す入力データを生成するステップと、
前記入力データを機械学習モデルに入力することで、前記無機化合物の特性の予測値を出力するステップと
をコンピュータに実行させる予測プログラム。