JP7358924B2 - 化学物質探索方法、化学物質探索装置、及び化学物質探索プログラム - Google Patents

化学物質探索方法、化学物質探索装置、及び化学物質探索プログラム Download PDF

Info

Publication number
JP7358924B2
JP7358924B2 JP2019204005A JP2019204005A JP7358924B2 JP 7358924 B2 JP7358924 B2 JP 7358924B2 JP 2019204005 A JP2019204005 A JP 2019204005A JP 2019204005 A JP2019204005 A JP 2019204005A JP 7358924 B2 JP7358924 B2 JP 7358924B2
Authority
JP
Japan
Prior art keywords
chemical substance
data
conversion rule
crystal material
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019204005A
Other languages
English (en)
Other versions
JP2021077159A (ja
Inventor
一成 田中
真理 大淵
知周 栗田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019204005A priority Critical patent/JP7358924B2/ja
Publication of JP2021077159A publication Critical patent/JP2021077159A/ja
Application granted granted Critical
Publication of JP7358924B2 publication Critical patent/JP7358924B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、化学物質探索技術に関する。
従来、ある用途に適した新しい化学物質の探索、又は化学物質の新しい用途の探索では、実験による試行錯誤による探索の部分が多く、探索には多くの時間及び費用を要していた。
新しい化学物質が見つかるにつれ、新しい化学物質の特性データを持つデータベースが構築されるようになった。当該データベースでは、データベースに格納された特性データに対応した化学物質を検索できる。そのことに加え、当該データベースでは、データベースに格納された特性データが持つ構造データを利用し、データベースに格納された特性データで表される化学物質のうち、所定の化学物質と構造が類似する他の化学物質を、データベース内で探索することができる。
例えば、無機化合物に関するデータベースとして、無機化合物の名称、分子式、三次元原子座標値、結晶学データなどを格納した無機結晶構造データベース(Inorganic Crystal Structure Database:ICSD)がある。
しかし、ICSDを用いて無機化合物を探索しても、探索結果として得られる無機化合物の新しい用途を見出すことはできない。また、当然に、ある用途に適した無機化合物であって、データベースに格納されてない新しい無機化合物を見出すこともできない。
他方、コンピュータの計算によって、化学物質の物性を予測することで、化学物質の探索を加速するための技術が開発されてきている。しかし、コンピュータの計算によって、化学物質の物性を予測する場合、計算の処理量が多く、原子数の大きい分子については、計算処理が難しい。
特開2017-91526号公報
本件は、ある用途に適した新しい化学物質、及び既存の化学物質の新しい用途の少なくともいずれかを効率的に探索することが可能な化学物質探索方法、化学物質探索装置、及び化学物質探索プログラムを提供することを目的とする。
1つの実施態様では、化学物質探索方法は、
コンピュータが、
ある物性の情報を有する化学物質データと前記ある物性の情報を有さない化学物質データとを有する化学物質データベース内の2つの化学物質の間の構造の類似度を用いて、化学物質の構造を変換する変換ルールを作成する工程と、
前記変換ルールを作成する際に用いられた化学物質に類似する化学物質に前記変換ルールを適用し、前記化学物質の構造を変換して、変換後の化学物質を求める工程と、
を行い、
前記変換ルールが、前記ある物性の情報を有する第1の化学物質データ、前記第1の化学物質データの化学物質よりも物性が優れる化学物質に関する第2の化学物質データ、並びに、前記第1の化学物質データ及び前記第2の化学物質データと化学物質の構造の前記類似度により関連づけられた前記ある物性の情報を有さない1以上の第3の化学物質データの間の前記類似度を用いた関連づけに基づいて作成される。
一つの側面では、ある用途に適した新しい化学物質、及び既存の化学物質の新しい用途の少なくともいずれかを効率的に探索することが可能な化学物質探索方法を提供できる。
図1は、酢酸及び酢酸メチルをグラフ化する様子の一例を示す図である。 図2は、分子A及びBにおける同じ元素どうしを組み合わせてコンフリクトグラフのノードを作成する場合の組み合わせの一例を示す図である。 図3は、コンフリクトグラフにおけるエッジ作成のルールの一例を示す図である。 図4は、分子Aと分子Bにおけるコンフリクトグラフの一例を示す図である。 図5は、グラフにおける最大独立集合の一例を示す図である。 図6は、分子Aと分子Bとにおける最大の共通部分構造を、コンフリクトグラフの最大独立集合を求める(最大独立集合問題を解く)ことにより求める場合における流れの一例を示す図である。 図7は、ノードの数が6個のグラフにおける最大独立集合を探索する手法の一例を説明するための説明図である。 図8は、ノードの数が6個のグラフにおける最大独立集合を探索する手法の一例を説明するための説明図である。 図9は、コンフリクトグラフにおける最大独立集合の一例を示す図である。 図10は、結晶材料の結晶構造の一例の模式図である。 図11は、単位格子のグラフの一例である。 図12は、結晶材料の結晶構造の他の例の模式図である。 図13は、本件の技術のグラフ化により作成した、図10の結晶構造の単位格子のグラフである。 図14は、本件の技術のグラフ化により作成した、図12の結晶構造の単位格子のグラフである。 図15は、本件の技術のグラフ化を説明するための図である。 図16は、本件の技術のグラフ化の一例のフローチャートである。 図17は、図13のグラフに対してラベルを付したグラフである。 図18は、結晶材料の結晶構造の他の例の模式図である。 図19は、本件の技術のグラフ化により作成した図18の結晶構造の単位格子のグラフである。 図20は、本件の技術のグラフ化により作成した図10の結晶構造の単位格子のグラフである。 図21は、本件の化学物質探索装置の一例のブロック図である。 図22は、本件の化学物質探索方法の一例のフローチャートである。 図23は、本件の化学物質探索装置の構成例を表す図である。 図24は、本件の化学物質探索装置の他の構成例を表す図である。 図25は、本件の化学物質探索装置の他の構成例を表す図である。 図26は、従来技術において変換ルールを作成する際の問題点を説明するための図である。 図27は、変換ルールを作成する方法の一例を説明するための図である。 図28は、変換ルールを作成する方法の一例を説明するための図である。 図29は、変換ルールを作成する方法の一例を説明するための図である。 図30は、リチウム系無機化合物の結晶材料データを用いて変換ルールを作成する一例を説明するための図である。 図31は、変換ルールを適用する一例を説明するための図である。 図32は、化学物質データベースに、類似度を用いた関連づけ、変換ルール等の情報が付加された態様の一例を説明するための図である。 図33は、本件の化学物質探索方法の他の一例のフローチャートである。
本件の化学物質探索方法は、コンピュータを用いて化学物質を探索する方法である。
本件の化学物質探索方法は、コンピュータが、変換ルール作成工程と、探求工程とを行う。
変換ルール作成工程では、化学物質データベース内の2つの化学物質の間の構造の類似度を用いて、化学物質の構造を変換する変換ルールを作成する。
化学物質データベースは、化学物質データを含み、更に必要に応じて、その他のデータを含む。
化学物質データベースは、ある物性の情報を有する化学物質データと、当該ある物性の情報を有さない化学物質データとを有する。
化学物質データベースに格納される化学物質としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、無機化合物、有機化合物、塩、ポリマー、タンパク質、DNA、錯体などが挙げられる。
化学物質データベースは、1又は2以上の既存の化学物質データベースの情報を取り込んで構成してもよい。
既存の化学物質データベースとしては、特に制限はなく、目的に応じて適宜選択することができ、例えば、無機結晶構造データベース(Inorganic Crystal Structure Database:ICSD)、ケンブリッジ結晶構造データベース(CSD-System)、金属結晶構造データベース(CRYSTMET)、質量スペクトルデータベース(NIST17)、質量スペクトルデータベース(Wiley Registry)、CAS REGISTRYなどが挙げられる。
化学物質データベースにおけるデータ構造としては、特に制限はなく、目的に応じて適宜選択することができ、化学物質データベースは、グラフデータベースであってもよいし、リレーショナルデータベースであってもよい。
化学物質データベースは、例えば、知識の検索を可能とし、知識を組織化した、いわゆる知識ベース(knowledge base)である。
化学物質データは、化学物質を特定するための情報を含む。
化学物質を特定するための情報としては、例えば、名称、分子量、組成式、分子式、構造式、示性式、電子式、アミノ酸配列、立体構造、結晶構造(結晶系、空間群、点群)などが挙げられる。
化学物質データベース内の化学物質データは、ある物性の情報を有する場合と、当該物性の情報を有さない場合とがある。
即ち、化学物質データベースは、ある物性の情報を有する化学物質データと、当該物性の情報を有さない化学物質データとを有する。
物性としては、例えば、沸点、融点、電気伝導性、イオン導電性、容量、比誘電率、熱伝導率、比熱などが挙げられる。
変換ルール作成工程では、化学物質データベース内の2つの化学物質の間の構造の類似度を用いて、化学物質の構造を変換する変換ルールを作成する。
2つの化学物質の間の構造の類似度を算出する方法としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、化合物どうしにおける構造の類似度を評価する、以下の方法(1)及び(2)などが挙げられる。
(1)フィンガープリント法
(2)化合物間において共通する部分構造の探索を、コンフリクトグラフの最大独立集合問題をイジングモデルの式で表してアニーリングマシン等で解くことにより行う手法(例えば、以下の非特許文献X参照)
非特許文献X:Maritza Hernandez, Arman Zaribafiyan, Maliheh Aramon, Mohammad Naghibi “A Novel Graph-based Approach for Determining Molecular Similarity”. arXiv:1601.06693(https://arxiv.org/pdf/1601.06693.pdf)
なお、類似度の計算に関するコサイン類似度、相関係数、相関関数、編集距離(レーベンシュタイン距離ともいう)などにより類似度を算出してもよい。
類似度は、一般的に、スコア(点数)により表現される。例えば、スコアが大きいほど、2つの化学物質の構造の類似性が高いと判断される。
ここで、類似度(類似度のスコア)の算出手法の一例として、コンフリクトグラフの最大独立集合問題を解くことにより、比較する化合物どうしにおいて共通する部分構造を探索して類似度を算出する手法について説明する。
コンフリクトグラフの最大独立集合問題を解くことにより、化合物どうしの構造の類似度を算出する際には、化合物をグラフ化して扱う。ここで、化合物をグラフ化するとは、例えば、化合物における原子の種類(元素)の情報と各原子の結合状態の情報とを用いて、化合物の構造を表すことを意味する。
化合物の構造は、例えば、MOL形式や、SDF(Structure Data File)形式の表現を用いて表すことができる。通常、SDF形式とは、MOL形式で表現された複数の化合物の構造情報を、一つのファイルにまとめたものを意味する。また、SDF形式のファイルにおいては、MOL形式の構造情報の他に、化合物ごとの付加情報(例えば、カタログ番号、CAS番号、分子量など)を扱うことが可能である。これらの化合物の構造は、例えば、「原子1(の名称)、原子2(の名称)、原子1の元素の情報、原子2の元素の情報、原子1と原子2の結合次数」を1つの行とするCSV(Comma-Separated Value)形式としてグラフ化できる。
以下では、コンフリクトグラフの作成方法について、酢酸(CHCOOH)と酢酸メチル(CHCOOCH)とにおけるコンフリクトグラフを作成する場合を例として説明する。
まず、酢酸(以下では、「分子A」と称することがある)と酢酸メチル(以下では、「分子B」と称することがある)をグラフ化すると、図1のようになる。図1においては、酢酸を形成する原子をA1、A2、A3、及びA5で示し、酢酸メチルを形成する原子をB1からB5で示している。また、図1では、A1、A2、B1、B2、及びB4は炭素を示し、A3、A5、B3、及びB5は酸素を示すとともに、単結合を細い実線で、二重結合を太い実線で示している。なお、図1に示す例においては、水素以外の原子を選択してグラフ化しているが、化合物をグラフ化する際には、水素も含めて全ての原子を選択してグラフ化してもよい。
次に、グラフ化した分子A及びBにおける頂点(原子)どうしを組み合わせて、コンフリクトグラフの頂点(ノード)を作成する。このとき、例えば、図2に示すように、分子A及びBにおける同じ元素どうしを組み合わせてコンフリクトグラフのノードとすることが好ましい。図2に示す例においては、炭素を表すA1、A2、B1、B2、及びB4どうしの組み合わせ、並びに、酸素を表すA3、A5、B3、及びB5どうしの組み合わせをコンフリクトグラフのノードとする。このように、同じ元素どうしの組み合わせをノードとすることにより、最大独立集合に含まれ得るノードでコンフリクトグラフを作成することができるため、ノードの数を抑制でき、最大独立集合問題を解くために必要とされる計算機のビットの数を少なくできる。
図2の例では、分子Aの炭素と分子Bの炭素との組み合わせにより6個、分子Aの酸素と分子Bの酸素との組み合わせにより4個のノードを作成するため、グラフ化した分子A及びBから作成されるコンフリクトグラフにおけるノードの数は10個となる。
続いて、コンフリクトグラフにおけるエッジ(枝、辺)を作成する。このとき、2つのノードを比較して、ノードどうしが異なる状況(例えば、原子番号、結合の有無、結合次数など)にある原子で構成される場合は、その2つのノードの間にエッジを作成する。一方、2つのノードを比較して、ノードどうしが同じ状況にある原子で構成される場合は、その2つのノードの間にはエッジを作成しない。
ここで、図3を参照して、コンフリクトグラフにおけるエッジ作成のルールについて説明する。
まず、図3に示す例において、ノード〔A1B1〕とノード〔A2B2〕との間にエッジを作成するか否かについて説明する。図3におけるグラフ化した分子Aの構造からわかるように、ノード〔A1B1〕に含まれる分子Aの炭素A1と、ノード〔A2B2〕に含まれる分子Aの炭素A2は、互いに結合(単結合)している。同様に、ノード〔A1B1〕に含まれる分子Bの炭素B1と、ノード〔A2B2〕に含まれる分子Bの炭素B2は、互いに結合(単結合)している。すなわち、炭素A1と炭素A2の結合の状況と、炭素B1と炭素B2の結合の状況は互いに同一になっている。
このように、図3の例においては、分子Aにおける炭素A1と炭素A2の状況と、分子Bにおける炭素B1と炭素B2の状況が互いに同一となっており、ノード〔A1B1〕とノード〔A2B2〕は、互いに同一の状況の原子で構成されるノードどうしとなる。このため、図3に示す例では、ノード〔A1B1〕とノード〔A2B2〕との間には、エッジを作成しない。
次に、図3に示す例において、ノード〔A1B4〕とノード〔A2B2〕との間にエッジを作成するか否かについて説明する。図3におけるグラフ化した分子Aの構造からわかるように、ノード〔A1B4〕に含まれる分子Aの炭素A1と、ノード〔A2B2〕に含まれる分子Aの炭素A2は、互いに結合(単結合)している。一方、グラフ化した分子Bの構造からわかるように、ノード〔A1B4〕に含まれる分子Bの炭素B4と、ノード〔A2B2〕に含まれる分子Bの炭素B2は、間に酸素B3を挟んでおり、直接は結合していない。すなわち、炭素A1と炭素A2の結合の状況と、炭素B4と炭素B2の結合の状況は互いに異なっている。
つまり、図3の例においては、分子Aにおける炭素A1と炭素A2の状況と、分子Bにおける炭素B4と炭素B2の状況が互いに異なっており、ノード〔A1B4〕とノード〔A2B2〕は、互いに異なる状況の原子で構成されるノードどうしとなる。このため、図3に示す例では、ノード〔A1B4〕とノード〔A2B2〕との間に、エッジを作成する。
このように、コンフリクトグラフは、ノードどうしが異なる状況にある原子で構成される場合は、そのノードの間にエッジを作成し、同じ状況にある原子で構成される場合は、そのノードの間にはエッジを作成しないというルールに基づいて作成することができる。
図4は、分子Aと分子Bにおけるコンフリクトグラフの一例を示す図である。図4に示すように、例えば、ノード〔A2B2〕とノード〔A5B5〕においては、分子Aにおける炭素A2と酸素A5の結合の状況と、分子Bにおける炭素B2と炭素B5の結合の状況は互いに同一になっている。このため、ノード〔A2B2〕とノード〔A5B5〕は、互いに同一の状況にある原子で構成されるノードとなるため、ノード〔A2B2〕とノード〔A5B5〕との間には、エッジを作成していない。
ここで、コンフリクトグラフのエッジは、例えば、構造の類似度を算出する2つの化合物の化学構造データに基づいて作成することができる。例えば、SDF形式のファイルを用いて化合物の化学構造データを入力する場合、SDF形式のファイルに含まれる情報に基づいて、コンピュータ等の計算機を用いて計算を行うことで、コンフリクトグラフのエッジを作成(特定)することができる。
次に、前述の非特許文献Xに記載されているような従来技術の一例における、作成したコンフリクトグラフの最大独立集合問題を解く方法について説明する。
コンフリクトグラフにおける最大独立集合(Maximum Independent Set;MIS)とは、コンフリクトグラフを構成するノードの集合のうち、ノード間にエッジが存在しないノードが最も多く含まれる集合を意味する。言い換えると、コンフリクトグラフにおける最大独立集合とは、互いのノードの間にエッジが存在しないノードで形成される集合のうち、最大の大きさ(ノード数)を有する集合を意味する。
図5は、グラフにおける最大独立集合の一例を示す図である。図5では、集合に含まれるノードには「1」の符号を、集合に含まれないノードには「0」の符号を付し、ノード間にエッジが存在する箇所は実線で当該ノードどうしを結び、エッジが存在しない箇所は点線で当該ノードどうしを結んでいる。なお、ここでは、図5に示すように、説明の簡略化のため、ノードの数が6個のグラフを例として説明する。
図5に示す例においては、ノード間にエッジが存在しないノードで構成される集合のうち、ノードの数が最大となる集合は3つあり、これらの集合のノード数は3である。すなわち、図5に示す例では、グラフにおける最大独立集合は、一点鎖線で囲んだ3つの集合となる。
ここで、上述したように、コンフリクトグラフは、ノードどうしが異なる状況にある原子で構成される場合は、そのノードの間にエッジを作成し、同じ状況にある原子で構成される場合は、そのノードの間にはエッジを作成しないというルールに基づいて作成される。このため、コンフリクトグラフにおいて、ノード間にエッジが存在しないノードで構成される集合のうち、ノードの数が最大となる集合である最大独立集合を求めることは、2つの分子間において共通する部分構造のうち、最大のものを求めることと同義となる。言い換えると、コンフリクトグラフにおける最大独立集合を求めることにより、2つの分子における最も大きな共通の部分構造を特定することができる。
つまり、2つの分子をグラフ化して、グラフ化した分子の構造に基づいてコンフリクトグラフを作成し、コンフリクトグラフにおける最大独立集合を求めることにより、当該2つの分子における最大の共通部分構造を求めることができる。
図6には、分子A(酢酸)と分子B(酢酸メチル)とにおける最大の共通部分構造を、コンフリクトグラフの最大独立集合を求める(最大独立集合問題を解く)ことにより求める場合における流れの一例を示す。図6に示すように、分子Aと分子Bをそれぞれグラフ化し、同じ元素どうしを組み合わせてノードとし、ノードを構成する原子の状況に応じてエッジを形成してコンフリクトグラフを作成する。そして、作成したコンフリクトグラフにおける最大独立集合を求めることにより、分子Aと分子Bにおける最大の共通部分構造を求めることができる。
ここで、コンフリクトグラフの最大独立集合を求める(探索する)ための具体的な方法の一例について説明する。
コンフリクトグラフの最大独立集合の探索は、例えば、最小化することが最大独立集合の探索をすることを意味するハミルトニアンを用いることにより行うことができる。より具体的には、例えば、下記の式(1)に示すハミルトニアン(H)を用いることにより行うことができる。
Figure 0007358924000001
ここで、上記式(1)において、nは、コンフリクトグラフにおけるノードの数であり、biは、i番目のノードに対するバイアスを表す数値である。
さらに、wijは、i番目のノードとj番目のノードとの間にエッジが存在するときは、0ではない正の数であり、i番目のノードとj番目のノードとの間にエッジが存在しないときは、0である。
また、xは、i番目のノードが0又は1であることを表すバイナリ変数であり、xは、j番目のノードが0又は1であることを表すバイナリ変数である。
なお、α及びβは、正の数である。
上記式(1)で表されるハミルトニアンと最大独立集合の探索との関係について、更に詳細に説明する。上記式(1)は、Quadratic Unconstrained Binary Optimization(QUBO)形式のイジングモデル式を表すハミルトニアンである。
上記式(1)において、xiは、1である場合、i番目のノードが最大独立集合の候補となる集合に含まれることを意味し、0である場合、i番目のノードが最大独立集合の候補となる集合に含まれないことを意味する。同様に、上記式(1)において、xは、1である場合、j番目のノードが最大独立集合の候補となる集合に含まれることを意味し、0である場合、j番目のノードが最大独立集合の候補となる集合に含まれないことを意味する。
このため、上記式(1)について、状態を1とした(ビットを1にした)ノード間にはエッジが存在しないという制約の下で、できるだけ多くのノードの状態が1となる組み合わせを探索することにより、最大独立集合を探索することができる。
ここで、上記式(1)における各項について説明する。
上記式(1)における右辺の一項目(係数が-αの項)は、xiが1となるiが多いほど(最大独立集合の候補となる集合に含まれるノードの数が多いほど)、値が小さくなる項である。なお、上記式(1)における右辺の一項目において値が小さくなるとは、大きな負の数になることを意味する。つまり、上記式(1)においては、右辺の一項目の作用により、多くのノードのビットが1となると、ハミルトニアン(H)の値が小さくなる。
上記式(1)における右辺の二項目(係数がβの項)は、ビットが1になっているノード間にエッジが存在する場合(wijが0ではない正の数である場合)に、値が大きくなるペナルティーの項である。言い換えると、上記式(1)における右辺の二項目は、ビットが1になっているノード間においてエッジが存在する箇所がない場合には0となり、それ以外の場合には正の数となる。つまり、上記式(1)においては、右辺の二項目の作用により、ビットが1になっているノード間にエッジが存在すると、ハミルトニアン(H)の値が大きくなる。
上記式(1)は、上述したように、多くのノードのビットが1となると値が小さくなるとともに、ビットが1になっているノード間にエッジが存在すると値が大きくなるため、上記式(1)を最小化することが最大独立集合の探索をすることを意味するといえる。
ここで、上記式(1)で表されるハミルトニアンと最大独立集合の探索との関係について、図面を参照しながら例を用いて説明する。
ノードの数が6個のグラフにおいて、図7に示す例のように各ノードにビットを設定する場合を考える。図7の例では、図5と同様に、ノード間にエッジが存在する箇所は実線で当該ノードどうしを結び、エッジが存在しない箇所は点線で当該ノードどうしを結んでいる。
図7の例について、上記式(1)におけるbiを1とし、i番目のノードとj番目のノードとの間にエッジが存在するときのwijを1とすると、上記式(1)は次のようになる。
Figure 0007358924000002
このように、図7の例では、ビットが1になっているノード間においてエッジが存在する箇所がない場合(独立集合として矛盾がない場合)には右辺の二項目は0となり、一項目の値が、そのままハミルトニアンの値となる。
次に、図8に示す例のように各ノードにビットを設定する場合を考える。図7の例と同様に、上記式(1)におけるbiを1とし、i番目のノードとj番目のノードとの間にエッジが存在するときのwijを1とすると、上記式(1)は次のようになる。
Figure 0007358924000003
このように、図8の例では、ビットが1になっているノード間においてエッジが存在する箇所があるため、右辺の二項目は0とはならず、ハミルトニアンの値は、右辺の2つの項の和となる。ここで、図7及び8に示した例では、例えば、α>5βとすると、-3α<-4α+5βとなるため、図8の例におけるハミルトニアンの値よりも、図7の例におけるハミルトニアンの値の方が小さくなっている。図7の例は、最大独立集合として矛盾のないノードの集合であり、上記式(1)のハミルトニアンの値が小さくなるノードの組み合わせを探索することにより、最大独立集合を探索できることがわかる。
次に、前述の非特許文献Xに記載されているような従来技術の一例における、探索した最大独立集合に基づいて、分子どうしの構造の類似度を算出する方法について説明する。
分子どうしの構造の類似度は、例えば、下記の式(2)を用いて算出することができる。
Figure 0007358924000004
ここで、上記式(2)において、S(G,G)は、グラフ化した第一の分子(例えば、分子A)とグラフ化した第二の分子(例えば、分子B)との類似度を表し、0~1で表され、1に近づく程、類似度が高いことを意味する
また、Vは、グラフ化した第一の分子におけるノード原子の総数を表し、V は、グラフ化した第一の分子におけるノード原子の内、コンフリクトグラフの最大独立集合に含まれるノード原子の数を表す。なお、ノード原子とは、グラフ化した分子における頂点の原子を意味する。
さらに、Vは、グラフ化した第二の分子におけるノード原子の総数を表し、V は、グラフ化した第二の分子におけるノード原子の内、コンフリクトグラフの最大独立集合に含まれるノード原子の数を表す。
δは、0~1の数である。
また、上記式(2)において、max{A,B}は、AとBのうち、値が大きい方を選択することを意味し、min{A,B}は、AとBのうち、値が小さい方を選択することを意味する。
ここで、図1等と同様に、酢酸(分子A)と酢酸メチル(分子B)を例として、類似度の算出方法について説明する。
図9に示したコンフリクトグラフにおいて、最大独立集合は、ノード〔A1B1〕、ノード〔A2B2〕、ノード〔A3B3〕、及びノード〔A5B5〕の4つのノードで構成される。つまり、図9の例においては、|V|は4となり、|V |は4となり、|V|は5となり、|V |は4となる。また、この例において、δを0.5として、第一の分子と第二の分子の平均を取る(均等に扱う)こととすると、上記式(2)は次のようになる。
Figure 0007358924000005
このように、図9の例においては、上記式(2)に基づいて、分子どうしの構造の類似度は0.9と算出される。
次に、結晶材料の類似度を求める際の結晶材料のグラフ化の態様の一例を、模式図を用いて説明する。
図10は、結晶材料の結晶構造の模式図である。
結晶構造は、単位格子の無限の繰り返しにより構成される。そのため、通常、結晶構造をグラフで表そうとしても、無理であるか、ある程度の大きさに限定したとしても、非常に多くのノード及びエッジが必要になる。
他方、単位格子をグラフで表しても、そのグラフでは、1つの結晶構造のみを表すことができず、複数の結晶構造を含むことになる場合がある。その一例を説明する。
図10において、結晶材料の結晶構造100Xは、原子A及び原子Bを含む単位格子100を繰り返し単位として有する。なお、図10において、上下左右の点線は、単位格子100が繰り返されていることを意味する。
もしも、図10の結晶構造100Xの単位格子100をグラフで表すと、通常、図11のようになる。
図11は、単位格子100のグラフの一例である。図11のグラフは、原子Aのデータであるノード101Aと、原子Bのデータであるノード101Bと、原子Aと原子Bとの化学結合のデータであるエッジ102とを有する。
ここで、単位格子100を繰り返し単位として有する結晶構造は、図10の結晶構造100Xの他に、図12の結晶構造100Yなどもある。なお、図12において、上下左右の点線は、単位格子100が繰り返されていることを意味する。
そして、図10の結晶構造100Xの単位格子100を図11のグラフで表した方法と同じ方法で図12の結晶構造100Yの単位格子をグラフで表すと、図11となる。
そうすると、図11のグラフでは、1つの結晶構造のみを表したことにはならない。
他方、結晶材料の好適なグラフは、原子のデータであるノードと、2つの原子の化学結合のデータであるエッジとを有する。
グラフは、結晶材料の1つの単位格子内の原子のデータであるノード(以下、「格子内ノード」と称することがある)を有する。
グラフは、単位格子内の2つの原子の化学結合のデータであるエッジ(以下、「格子内エッジ」と称することがある)を有する。
グラフは、単位格子内の原子と化学結合を有する原子であって単位格子に隣接する単位格子(以下、「隣接単位格子」と称することがある)内の原子のデータであるノード(以下、「拡張ノード」と称することがある)を有する。
グラフは、格子内ノードに当たる原子と拡張ノードに当たる原子との間の化学結合のデータであるエッジ(以下、「拡張エッジ」と称することがある)を有する。
結晶材料の好適なグラフでは、図10の結晶構造に対応するグラフは、図13のようなグラフとなる。図13は、図10の結晶構造の単位格子100に関するグラフである。
図13のグラフは、単位格子100内の原子Aのデータである格子内ノード111Aと、単位格子100内の原子Bのデータである格子内ノード111Bと、単位格子内の原子Aと原子Bとの結合関係のデータである格子内エッジ112とを有する。図13のグラフは、更に、以下の拡張ノード及び拡張エッジを有する。
・単位格子100内の原子と化学結合を有する隣接単位格子内の原子Aのデータである拡張ノード121A(3つ)
・単位格子100内の原子と化学結合を有する隣接単位格子内の原子Bのデータである拡張ノード121B(3つ)
・格子内ノード111Aと拡張ノード121Aとの間のエッジである拡張エッジ122AA(2つ)
・格子内ノード111Aと拡張ノード121Bとの間のエッジである拡張エッジ122AB(1つ)
・格子内ノード111Bと拡張ノード121Bとの間のエッジである拡張エッジ122BB(2つ)
・格子内ノード111Bと拡張ノード121Aとの間のエッジである拡張エッジ122BA(1つ)
他方、本件の技術におけるグラフでは、図12の結晶構造に対応するグラフは、図14のようなグラフとなる。図14は、図12の結晶構造の単位格子100に関するグラフである。
図14のグラフは、単位格子100内の原子Aのデータである格子内ノード111Aと、単位格子100内の原子Bのデータである格子内ノード111Bと、単位格子内の原子Aと原子Bとの結合関係のデータである格子内エッジ112とを有する。図14のグラフは、更に、以下の拡張ノードを有する。
・単位格子100内の原子と化学結合を有する隣接単位格子内の原子Aのデータである拡張ノード121A(3つ)
・単位格子100内の原子と化学結合を有する隣接単位格子内の原子Bのデータである拡張ノード121B(3つ)
ここまでは、図13のグラフと同じである。図14のグラフは、更に、以下の拡張エッジを有する。
・格子内ノード111Aと拡張ノード121Bとの間のエッジである拡張エッジ122AB(3つ)
・格子内ノード111Bと拡張ノード121Aとの間のエッジである拡張エッジ122BA(3つ)
ここで、拡張エッジの種類、及び種類毎の数が図13のグラフとは異なる。
以上をまとめると、単位格子を図11のようにグラフ化すると、1つの結晶構造のみを表したことにはならない。
一方で、図15に示すように、結晶材料の好適なグラフ化の技術では、単位格子が同じであるが、結晶構造が異なる2以上の結晶構造を、異なったグラフで表すことができる。
結晶構造が異なる2以上の結晶構造を異なったグラフで表すことができれば、結晶材料の類似性の分析において、解析精度を高くすることができる。
グラフは、原子のデータであるノードと、2つの原子の化学結合のデータであるエッジとを有する。グラフとは、ノード(頂点)群とノード間の連結関係を表すエッジ(枝)群で構成される抽象データ型である。グラフは、G=(V,E)で表され、Vはノードの集合であり、Eはエッジの集合である。Vは有限の集合であり、EはVから選んだ2つの元からなる集合の集合である。
グラフは、結晶材料の1つの単位格子内の原子のデータである格子内ノードを有する。
グラフは、単位格子内の2つの原子の化学結合のデータである格子内エッジを有する。
グラフは、単位格子内の原子と化学結合を有する原子であって単位格子に隣接する隣接単位格子内の原子のデータである拡張ノードを有する。
グラフは、格子内ノードに当たる原子と拡張ノードに当たる原子との間の化学結合のデータである拡張エッジを有する。
格子内ノード及び拡張ノードは、例えば、原子の種類、原子の価数、原子の電荷などのデータを有する。
格子内エッジ及び拡張エッジは、例えば、結合の種類、結合の角度、結合の距離、結合次数などのデータを有する。結合の角度、及び結合の距離は、例えば、原子又は化学結合の座標データとして有されている。
グラフは、格子内ノード、及び拡張ノード以外のノードを有していてもよい。
グラフにおいては、1つの結晶材料における全ノードの数が、1つの結晶材料における格子内ノードの数の27倍以下であることが好ましい。ある単位格子は、通常、その周囲に、26の隣接する単位格子を有する。そのことから、ある単位格子に隣接する全ての単位格子内の原子の全てが、ある単位格子内の原子と結合している場合でも、グラフにおける全ノードの数は、格子内ノードの27倍である。そのため、本件の技術のグラフを作成する場合、グラフのノードの数としては、1つの結晶材料における全ノードの数が、1つの結晶材料における格子内ノードの数の27倍以下であれば、本件の技術のグラフを作成するのに十分である。
なお、グラフのエッジの数は、ノードの数に応じて、適宜選択される。
格子内エッジ、及び拡張エッジは、格子内ノード間、並びに格子内ノード及び拡張ノード間のボロノイ分割により作成されることがより好ましい。
ボロノイ分割とは、隣り合うノード間を結ぶ直線に垂直二等分線を引き、各ノードの最近隣領域を分割する手法である。
ここで、ボロノイ図及びボロノイ分割について簡単に説明する。
ボロノイ図(Voronoi diagram)は、ある距離空間上の任意の位置に配置された複数個の点(母点)に対して、同一距離空間上の他の点がどの母点に近いかによって領域分けされた図のことである。また、その領域分けをボロノイ分割という。母点の位置のみによって分割パターンが決定される。
結晶材料の単位格子を、化学結合を含めて模式的に表す場合、結晶材料の単位格子の化学結合は、通常、一意に定まるものではない。しかし、ボロノイ分割によりエッジ(格子内エッジ、拡張エッジ)を作成することで、エッジ(格子内エッジ、拡張エッジ)を一意に定めることができる。その結果、複数の結晶材料について、一意にエッジを定めることができるため、結晶材料の解析の精度を高めることができる。
結晶材料としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、有機化合物、無機化合物、タンパク質、ポリマーなどが挙げられる。
ここで、本件の技術のグラフ化の一例を、フローチャートを用いて説明する。
図16は、本件の技術のグラフ化の一例のフローチャートである。ここでは、図10に示す結晶構造の単位格子のグラフ化について説明する。
まず、単位格子の情報を取得する(S11)。単位格子の情報としては、周期性、単位格子内の原子の種類と位置などが挙げられる。単位格子100内の原子の数(n)は2である。
次に、直交座標(x,y,z)のx,y,z方向のそれぞれについて、-1~1までの周期の原子配置を作成する(S12)。ここで、ある単位格子の座標を(0,0,0)とすると、その単位格子の原子配置、及びその単位格子の周囲にある単位格子(0,0,1)~(1,1,1)(26個)の原子配置を作成する。ここで、これら全ての単位格子の原子の総数は、3×3×3×n=27n=54となる。
次に、(x,y,z)=(0,0,0)の単位格子内の原子について、ボロノイ分割により単位格子内および隣接単位格子内の原子27n個との結合関係を決定する(S13)。ここで、通常、結晶材料中の原子は周囲のあらゆる原子と結合できるわけではなく、原子の種類、価数、電荷などにより、結合できる原子の組み合わせは制限される。上記結合関係の決定は、そのような結合できる原子の組み合わせを考慮して行われる。
次に、隣接単位格子内の26n個の原子の内、(x,y,z)=(0,0,0)の単位格子内の原子と結合している原子(α個)に拡張したラベルを作成する(S14)。図17に、図13のグラフに対してラベルを付したグラフを示した。図17のグラフでは、単位格子100内の原子A及び原子BがそれぞれA0及びB0で表されている。そして、拡張したラベルは、単位格子100外の原子A、及び原子Bに付されている。そのラベルを、図17においては、それぞれA1、A2、A3、B1、B2、及びB3とした。
A0及びB0を格子内ノードとし、拡張したラベルA1、A2、A3、B1、B2、及びB3を付したノードを拡張ノードとする。更に、格子内ノード間のエッジ、及び格子内ノードと拡張ノードとの間のエッジを選択することで、図17のグラフとなる。
また、結晶材料の好適なグラフ化によると、単位格子の大きさの違いに影響されず結晶構造を対比し、解析することもできる。例えば、図18に示す結晶構造100Zの単位格子200に対して、図19に示すようなグラフを作成した場合を考える。一方、図10に示す結晶構造100Xの単位格子100に対するグラフは、図20のとおりである。なお、図20のグラフは、図13のグラフと同じである。ここで、図19のグラフは、部分的に図20のグラフを有する。そのことから、この場合、図20のグラフに対応する単位格子100を持つ結晶構造100Xと、図20のグラフに対応する単位格子100の2倍の大きさを持つ図19のグラフに対応する単位格子200を持つ結晶構造100Zとを類似性の高い結晶構造として解析することが可能となる。即ち、単位格子の大きさが異なっている場合、それでもって類似性が低いと評価されるのではなく、単位格子の大きさの違いに影響されず、結晶構造を対比し、解析することもできる。
変換ルールは、第1の化学物質データ、第2の化学物質データ、並びに、1以上の第3の化学物質データの間の類似度を用いた関連づけに基づいて作成される。
第1の化学物質データは、ある物性の情報を有する。
第2の化学物質データは、第1の化学物質データの化学物質よりも物性が優れる化学物質に関する第2の化学物質データである。そのため、第2の化学物質データは、ある物性の情報を有する。
1以上の第3の化学物質データは、第1の化学物質データ及び第2の化学物質データと化学物質の構造の類似度により関連づけられたデータである。
変換ルールを作成する際の、1以上の第3の化学物質データは、1つ又は2つの第3の化学物質データであることが好ましい。第3の化学物質データが1つ又は2つであると、第1の化学物質データの化学物質と第2の化学物質データの化学物質との間の類似度の鎖が短い。その結果、第1の化学物質データの化学物質と第2の化学物質データの化学物質との類似性が高くなり、変換ルールの有効性が高くなる。ここでの有効性とは、変換ルールが適用された化学物質の変換後の化学物質の物性が、変換前の化学物質の物性よりも優れる可能性を意味する。
変換ルールは、物性がより優れる化学物質を探索するためのルールである。
類似度の関連づけは、例えば、2つの化学物質の間の構造の類似度が閾値を超えている場合に設定される。ここでの閾値は、特に制限はなく、目的に応じて適宜選択することができる。類似度の関連づけを多くしたいときは閾値を小さくすればよいし、類似度の関連づけを少なくしたいときは閾値を大きくすればよい。
変換ルールにおける化学物質の構造の変換における変換前の変換部分は、変換ルールを作成する工程において一方の化学物質の構造に対する他方の化学物質の構造の類似度を求める際の一方の化学物質から選択され、変換ルールにおける化学物質の構造の変換における変換後の変換部分は、他方の化学物質に基づく。
変換ルールは、例えば、化学物質中のある元素を他の元素に置き換えるルールである。そして、化学物質中のある元素とは、変換ルールを作成する際に類似度で関連づけられた2つの化学物質のうちの第1の化学物質データ側の化学物質に含まれる元素であり、他の元素とは、変換ルールを作成する際に類似度で関連付けられた2つの化学物質のうちの第2の化学物質データ側の化学物質に含まれる元素又は当該元素に基づく元素である。
変換ルールは、例えば、変換ルールが適用される化学物質が有する、類似度により関連付けられた2つの化学物質データにおける一方の化学物質中のある元素を、他方の化学物質中のある元素に置き換えるルールである。
変換ルールは、例えば、変換ルールが適用される化学物質が有する、類似度により関連付けられた2つの化学物質データにおける一方の化学物質中のある元素を、その元素と類似する他の元素に置き換えるルールであってもよい。
ここでの類似とは、例えば、元素の性質が類似することを指す。
ある元素がアルカリ金属である場合、類似する他の元素としては、例えば、他のアルカリ金属が挙げられる。
ある元素がアルカリ土類金属である場合、類似する他の元素としては、例えば、他のアルカリ土類金属が挙げられる。
ある元素が遷移金属である場合、類似する他の元素としては、例えば、他の遷移金属が挙げられる。
また、変換ルールは、例えば、変換ルールが適用される化学物質が有する、類似度により関連付けられた2つの化学物質データにおける一方の化学物質中のある原子群(置換基)を、他方の化学物質中のある原子群(置換基)に置き換えるルールであってもよい。
変換ルールが、化学物質中のある原子群(置換基)を他の原子群(置換基)に置き換えるルールである場合、ある原子群(置換基)と他の原子群(置換基)とは、類似していることが好ましい。ここでの類似とは、例えば、分子構造が類似していること、極性が類似していることなどが挙げられる。
探求工程では、変換ルールを作成する際に用いられた化学物質に類似する化学物質に変換ルールを適用し、化学物質の構造を変換して、変換後の化学物質を求める。
変換ルールが適用される化学物質は、変換ルールを作成する際に用いられた化学物質に類似する化学物質である。
変換ルールを作成する際に用いられた化学物質に類似する化学物質は、例えば、類似度に基づいて決められる。例えば、変換ルールが適用される化学物質と、変換ルールを作成する際に用いられた化学物質との類似度は、閾値を超えている。ここでの閾値としては、特に制限はなく、目的に応じて適宜選択することができる。変換ルールが適用される化学物質を多くしたいときは閾値を小さくすればよいし、変換ルールが適用される化学物質を少なくしたいときは閾値を大きくすればよい。
探求工程において、変換ルールを作成する際に用いられた化学物質は、例えば、変換ルール作成工程において2つの化学物質の間の構造の類似度を求める際の、一方の化学物質に対する他方の化学物質の類似度を求める際の一方の化学物質である。
変換ルールを作成する際に用いられた化学物質に類似する化学物質は、例えば、化学物質データベースに収録されている。
開示の化学物質探索方法では、化学物質の物性の向上と、化学物質の類似性とが加味されて作成された変換ルールを、化学物質の構造の変換に適用して、変換後の化学物質を得ている。そのため、変換後の化学物質は、構造変換前の化学物質よりも、物性が向上した化学物質である可能性が高いことが期待できる。
また、開示の化学物質探索方法で得られた変換後の化学物質が、化学物質データベースに収録されていない場合には、ある用途に適した新しい化学物質を見出した可能性が高い。
他方、開示の化学物質探索方法で得られた変換後の化学物質が、化学物質データベースに収録されている場合には、既存の化学物質の新しい用途を見出した可能性が高い。
開示の化学物質探索プログラムは、コンピュータに、開示の化学物質探索方法を実行させるプログラムである。
化学物質探索プログラムにおいて、化学物質探索方法の実行における態様は、開示の化学物質探索方法における態様と同じである。
プログラムは、使用するコンピュータシステムの構成及びオペレーティングシステムの種類・バージョンなどに応じて、公知の各種のプログラム言語を用いて作成することができる。
プログラムは、内蔵ハードディスク、外付けハードディスクなどの記録媒体に記録しておいてもよいし、CD-ROM(Compact Disc Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、MOディスク(Magneto-Optical disk)、USBメモリ〔USB(Universal Serial Bus) flash drive〕などの記録媒体に記録しておいてもよい。プログラムをCD-ROM、DVD-ROM、MOディスク、USBメモリなどの記録媒体に記録する場合には、必要に応じて随時、コンピュータシステムが有する記録媒体読取装置を通じて、これを直接、又はハードディスクにインストールして使用することができる。また、コンピュータシステムから情報通信ネットワークを通じてアクセス可能な外部記憶領域(他のコンピュータ等)にプログラムを記録しておき、必要に応じて随時、外部記憶領域から情報通信ネットワークを通じてこれを直接、又はハードディスクにインストールして使用することもできる。
プログラムは、複数の記録媒体に、任意の処理毎に分割されて記録されていてもよい。
開示の記録媒体は、開示の化学物質探索プログラムを記録してなる。
開示の記録媒体は、コンピュータが読み取り可能である。
開示の記録媒体は、一過性であってもよいし、非一過性であってもよい。
開示の記録媒体は、例えば、開示の化学物質探索方法をコンピュータに実行させるプログラムを記録した記録媒体である。
記録媒体としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、内蔵ハードディスク、外付けハードディスク、CD-ROM、DVD-ROM、MOディスク、USBメモリなどが挙げられる。
記録媒体は、プログラムが任意の処理毎に分割されて記録された複数の記録媒体であってもよい。
開示の化学物質探索装置は、変換ルール作成ユニットと探求ユニットとを少なくとも備え、更に必要に応じて、その他のユニットを備える。
変換ルール作成ユニットは、ある物性の情報を有する化学物質データとある物性の情報を有さない化学物質データとを有する化学物質データベース内の2つの化学物質の間の構造の類似度を用いて、化学物質の構造を変換する変換ルールを作成する。即ち、変換ルール作成ユニットは、変換ルール作成工程を実行する。
探求ユニットは、変換ルールを作成する際に用いられた化学物質に類似する化学物質データベース内の化学物質に変換ルールを適用し、化学物質の構造を変換して、変換後の化学物質を求める。即ち、探求ユニットは、開示の化学物質探索方法における探求工程を実行する。
変換ルールは、ある物性の情報を有する第1の化学物質データ、第1の化学物質データの化学物質よりも物性が優れる化学物質に関する第2の化学物質データ、並びに、第1の化学物質データ及び第2の化学物質データと化学物質の構造の類似度により関連づけられたある物性の情報を有さない1以上の第3の化学物質データの間の類似度を用いた関連づけに基づいて作成される。
変換ルール作成ユニットの態様は、開示の化学物質探索方法における変換ルール作成工程の態様と同じである。
探求ユニットの態様は、開示の化学物質探索方法における探求工程の態様と同じである。
開示の化学物質探索装置は、例えば、メモリと、プロセッサとを有し、更に必要に応じて、その他のユニットを有する。
メモリは、例えば、化学物質データベースを記憶する。
メモリは、例えば、変換ルールを記憶する。
メモリは、例えば、変換後の化学物質を記憶する。
プロセッサは、メモリに結合されている。
プロセッサは、変換ルール作成工程を実行するように構成されている。
プロセッサは、探求工程を実行するように構成されている。
プロセッサは、例えば、CPU、GPU又はその組み合わせである。
図21に、開示の化学物質探索装置の一例のブロック図を示す。
図21の化学物質探索装置1は、変換ルール作成ユニット2と、探求ユニット3とを有する。
図22に、化学物質探索方法の一例のフローチャートを示す。
まず、変換ルール作成工程S1を行う。変換ルール作成工程では、ある物性の情報を有する化学物質データと当該物性の情報を有さない化学物質データとを有する化学物質データベース内の2つの化学物質の間の構造の類似度を用いて、化学物質の構造を変換する変換ルールを作成する。変換ルール作成工程は、変換ルール作成ユニット2により実行される。
この際、変換ルールは、第1の化学物質データ、第2の化学物質データ、並びに、1以上の第3の化学物質データの間の類似度を用いた関連づけに基づいて作成される。
第1の化学物質データは、ある物性の情報を有する。
第2の化学物質データは、第1の化学物質データの化学物質よりも物性が優れる化学物質に関する第2の化学物質データである。そのため、第2の化学物質データは、ある物性の情報を有する。
1以上の第3の化学物質データは、第1の化学物質データ及び2の化学物質データと化学物質の構造の類似度により直接的又は間接的に関連づけられたデータである。
次に、探求工程S2を行う。探求工程では、変換ルールを作成する際に用いられた化学物質に類似する化学物質に変換ルールを適用し、化学物質の構造を変換して、変換後の化学物質を求める。探求工程は、探求ユニット3により実行される。
変換ルールを適用する対象の化学物質は、変換ルールを作成する際に用いられた化学物質に類似する化学物質であり、かつ化学物質データベース内の化学物質である。
変換ルールを作成する際に用いられた化学物質に類似する化学物質は、類似度に基づいて決められる。
図23に、開示の化学物質探索装置の構成例を示す。
化学物質探索装置10は、例えば、制御部11、メモリ12、記憶部13、表示部14、入力部15、出力部16、I/Oインターフェース部17等がシステムバス18を介して接続されて構成される。
制御部11は、演算(四則演算、比較演算等)、ハードウエア及びソフトウエアの動作制御などを行う。
メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)などのメモリである。RAMは、ROM及び記憶部13から読み出されたOS(Operating System)及びアプリケーションプログラムなどを記憶し、制御部11の主メモリ及びワークエリアとして機能する。
記憶部13は、各種プログラム及びデータを記憶する装置であり、例えば、ハードディスクである。記憶部13には、制御部11が実行するプログラム、プログラム実行に必要なデータ、OSなどが格納される。
プログラムは、記憶部13に格納され、メモリ12のRAM(主メモリ)にロードされ、制御部11により実行される。
表示部14は、表示装置であり、例えば、CRTモニタ、液晶パネル等のディスプレイ装置である。
入力部15は、各種データの入力装置であり、例えば、キーボード、ポインティングデバイス(例えば、マウス等)などである。
出力部16は、各種データの出力装置であり、例えば、プリンタである。
I/Oインターフェース部17は、各種の外部装置を接続するためのインターフェースである。例えば、CD-ROM、DVD-ROM、MOディスク、USBメモリなどのデータの入出力を可能にする。
図24に、開示の化学物質探索装置の他の構成例を示す。
図24の構成例は、クラウド型の構成例であり、制御部11が、記憶部13等とは独立している。この構成例では、ネットワークインターフェース部19、20を介して、記憶部13等を格納するコンピュータ30と、制御部11を格納するコンピュータ40とが接続される。
ネットワークインターフェース部19、20は、インターネットを利用して、通信を行うハードウェアである。
図25に、開示の化学物質探索装置の他の構成例を示す。
図25の構成例は、クラウド型の構成例であり、記憶部13が、制御部11等とは独立している。この構成例では、ネットワークインターフェース部19、20を介して、制御部11等を格納するコンピュータ30と、記憶部13を格納するコンピュータ40とが接続される。
以下、更なる具体例により開示の技術の実施形態を説明する。
以下では、無機化合物の結晶材料について開示の技術を適用した場合の一例を挙げる。
無機化合物の結晶材料では、金属元素を他の金属元素に置き換えると、所望の物性が変化し、場合によっては、当該物性が向上する場合がある。
しかし、通常、化学物質データベースでは、収録されている化学物質についての化学物質データの全てが、所望の物性の情報を有しているわけではない。
その場合、当該化学物質データベースを用い、所望の物性が向上するように、金属元素を他の金属元素に置き換えるルールを作成しようとしても、そのルールを見つけることができないか、見つかってもルールの数が少ない場合が多い。
例えば、図26に示すように、化学物質データベースの一例の結晶材料データベースに化学物質データ(結晶材料データ)としての以下の結晶材料データが収録されている場合を考える。
・結晶材料データ1001〔LiCr(P)、ICSD:240965〕
・結晶材料データ1011〔LiNaZn(P)、ICSD:154429〕
ここで、結晶材料データ1011の結晶材料〔LiNaZn(P)〕の構造は、結晶材料データ1001の結晶材料〔LiCr(P)〕の構造に類似する。
また、結晶材料データ1001は、物性情報として容量の情報を有する。他方、結晶材料データ1011は、物性情報として容量の情報を有しない。
この場合に、結晶材料〔LiCr(P)〕の構造と、結晶材料〔LiNaZn(P)〕の構造との類似性に着目しても、結晶材料〔LiNaZn(P)〕の容量の情報がないため、容量を高めるような変換ルールを得ることはできない。
そこで、開示の技術では、例えば、以下のようにして変換ルールを作成する。
例えば、図27に示すように、化学物質データベースの一例の結晶材料データベースに化学物質データ(結晶材料データ)としての以下の結晶材料データが収録されている場合を考える。
・結晶材料データ1001〔LiCr(P)、ICSD:240965〕
・結晶材料データ1011〔LiNaZn(P)、ICSD:154429〕
・結晶材料データ1021〔LiFe(P)、ICSD:95751〕
ここで、結晶材料データ1011の結晶材料〔LiNaZn(P)〕の構造は、結晶材料データ1001の結晶材料〔LiCr(P)〕の構造に類似する。
結晶材料データ1021の結晶材料〔LiFe(P)〕の構造は、結晶材料データ1011の結晶材料〔LiNaZn(P)〕の構造に類似する。
また、結晶材料データ1001及び結晶材料データ1021は、物性情報として容量の情報を有する。他方、結晶材料データ1011は、物性情報として容量の情報を有しない。結晶材料データ1021の結晶材料の容量(110mAh/g)は、結晶材料データ1001の結晶材料の容量(105mAh/g)よりも高い。
この場合、物性情報として容量の情報を有しない結晶材料データ1011があった場合でも、結晶材料データ1011の結晶材料〔LiNaZn(P)〕の構造と、容量の情報を有する結晶材料データ1001の結晶材料〔LiCr(P)〕の構造とが類似し、かつ結晶材料データ1011の結晶材料〔LiNaZn(P)〕の構造と、容量の情報を有する結晶材料データ1021〔LiFe(P)、ICSD:95751〕の結晶材料の構造とが類似しているときには、それらの類似関係から、容量がより高い結晶材料を探索するための変換ルールとして、以下の変換ルールを作成できる。
・変換ルール1:CrをNaまたはZnに変換する。
・変換ルール2:Na及びZnの少なくともいずれかをFeに変換する。
ここで、類似しているかどうかは、類似度を求めて判断する。判断は、例えば、その類似度が所定の閾値を超えているかどうかを確認することで行う。所定の閾値としては、特に制限はなく、目的に応じて適宜選択することができる。
化学物質の種類を、結晶材料に限定しない場合、図27は、図28のように表すことができる。即ち、図28に示すように、物性値Xを有する化学物質X1の化学物質データ1101と、物性値Xよりも優れる物性値(X+α)を有する化学物質X3の化学物質データ1121との間に、物性情報を有しない化学物質データベース1111がある場合、化学物質の類似性に着目して、変換ルールx1及びx2を作成することができる。
また、開示の技術では、図29に示すように、物性値Yを有する化学物質Y1の化学物質データ1201と、物性値Yよりも優れる物性値(Y+β)を有する化学物質Y4の化学物質データ1231との間に、物性情報を有しない2以上の化学物質データベース(1211、1221)がある場合でも、図28と同様にして、化学物質の類似性に着目して、変換ルールy1~y3を作成することができる。
即ち、開示の技術では、変換ルールは、物性の情報を有する第1の化学物質データ、第1の化学物質データの化学物質よりも物性が優れる化学物質に関する第2の化学物質データ、並びに、物性の情報を有さない1以上の第3の化学物質データの間の類似度を用いた関連づけに基づいて作成される。
1以上の第3の化学物質データは、第1の化学物質データ及び第2の化学物質データと化学物質の構造の類似度により直接的又は間接的に関連づけられている。
ここで、図28における化学物質データ1101は、第1の化学物質データに該当する。化学物質データ1121は、第2の化学物質データに該当する。化学物質データ1111は、第3の化学物質データに該当する。
図28において、化学物質データ1111の化学物質の構造は、化学物質データ1101の化学物質の構造と類似する。即ち、化学物質データ1111は、化学物質データ1101と直接的に関連づけられている。
化学物質データ1121の化学物質の構造は、化学物質データ1111の化学物質の構造と類似する。即ち、化学物質データ1111は、化学物質データ1121と直接的に関連づけられている。
また、図29における化学物質データ1201は、第1の化学物質データに該当する。化学物質データ1231は、第2の化学物質データに該当する。化学物質データ1211及び1221は、第3の化学物質データに該当する。
図29において、化学物質データ1211の化学物質の構造は、化学物質データ1201の化学物質の構造と類似する。即ち、化学物質データ1211は、化学物質データ1201と直接的に関連づけられている。
化学物質データ1231の化学物質の構造は、化学物質データ1221の化学物質の構造と類似する。即ち、化学物質データ1221は、化学物質データ1231と直接的に関連づけられている。
化学物質データ1211は、化学物質データ1231と直接的に関連づけられていない。しかし、化学物質データ1211は、化学物質データ1221を介して、化学物質データ1231と間接的に関連づけられている。
化学物質データ1221は、化学物質データ1201と直接的に関連づけられていない。しかし、化学物質データ1221は、化学物質データ1211を介して、化学物質データ1201と間接的に関連づけられている。
次に、変換ルールを作成する際の構造の類似度及び物性の考慮方法の一例を説明する。
図30を用いて、リチウム系無機化合物の結晶材料データを用いて変換ルールを作成する一例を示す。5桁又は6桁の番号は、ICSDのID番号である。
図30において、物性情報である容量データを有する結晶材料データは、結晶材料データ1001、1021、1024、及び1026の4つである。
結晶材料データ1001の結晶材料の容量(105mAh/g)よりも、結晶材料データ1021の結晶材料の容量(110mA/g)の方が優れる。
結晶材料データ1001の結晶材料の容量(105mAh/g)よりも、結晶材料データ1024の結晶材料の容量(120mA/g)の方が優れる。
結晶材料データ1001の結晶材料の容量(105mAh/g)よりも、結晶材料データ1026の結晶材料の容量(90mA/g)の方が劣る。
図30において、2つの結晶材料データ間の実線の矢印は、矢印の根元の結晶材料データの結晶材料の構造と、矢印の先端の結晶材料データの結晶材料の構造とが類似していることを意味する。2つの結晶材料データ間の破線の矢印は、矢印の根元の結晶材料データの結晶材料の構造と、矢印の先端の結晶材料データの結晶材料の構造とが類似していないことを意味する。
即ち、結晶材料データ1011の結晶材料の構造は、結晶材料データ1001の結晶材料の構造と類似している。
結晶材料データ1012の結晶材料の構造は、結晶材料データ1001の結晶材料の構造と類似している。
結晶材料データ1013の結晶材料の構造は、結晶材料データ1001の結晶材料の構造と類似している。
結晶材料データ1014の結晶材料の構造は、結晶材料データ1001の結晶材料の構造と類似していない。
結晶材料データ1021の結晶材料の構造は、結晶材料データ1011の結晶材料の構造と類似している。
結晶材料データ1022の結晶材料の構造は、結晶材料データ1011の結晶材料の構造と類似している。
結晶材料データ1023の結晶材料の構造は、結晶材料データ1011の結晶材料の構造と類似していない。
結晶材料データ1024の結晶材料の構造は、結晶材料データ1012の結晶材料の構造と類似している。
結晶材料データ1025の結晶材料の構造は、結晶材料データ1012の結晶材料の構造と類似していない。
結晶材料データ1026の結晶材料の構造は、結晶材料データ1013の結晶材料の構造と類似している。
結晶材料データ1027の結晶材料の構造は、結晶材料データ1014の結晶材料の構造と類似している。
結晶材料データ1028の結晶材料の構造は、結晶材料データ1014の結晶材料の構造と類似していない。
このような関係の中、作成される各変換ルールは、以下の(1)及び(2)を満たす。
(1)各変換ルールは、結晶材料データ1001と、結晶材料データ1001の結晶材料の容量よりも優れる容量を有する結晶材料の結晶材料データ(1021、1024)との間の2以上の関連づけの各関連づけに基づいて作成される。
(2)各変換ルールは、結晶材料データ1001と、結晶材料データ1001の結晶材料の容量よりも優れる容量を有する結晶材料の結晶材料データ(1021、1024)との間の2以上の関連づけの全てにおいて類似度が高い場合に、当該各関連づけに基づいて作成される。
その結果、図30においては、変換ルール1~3が作成される。ここでの変換ルールは、結晶材料の金属元素を他の金属元素に変換するルールである。
作成された変換ルール1~3の内容は以下の通りである。
・変換ルール1:CrをNaまたはZnに変換する。
・変換ルール2:Na及びZnの少なくともいずれかをFeに変換する。
・変換ルール3:CrをFeに変換する。
なお、結晶材料データ1012と結晶材料データ1024との間の関係は、上記(1)及び(2)を満たすが、両方の結晶材料が同じ組成式であるため、変換ルールは作成されない。
また、例えば、CrとFeとがともに遷移金属である関係から、変換ルール3は、Crを、他の遷移金属に変換するルールとしてもよい。
次に、図30を用いて説明した方法により作成した変換ルール1~3のうち変換ルール1を適用する一例を、図31を用いて説明する。
結晶材料データベース内に収録されている結晶材料データに関し、結晶材料データ1011の結晶材料の構造と類似している構造を有する結晶材料の結晶材料データを探索する。ここで、類似しているかどうかは類似度を用いて判断する。判断は、例えば、その類似度が所定の閾値を超えているかどうかを確認することで行う。所定の閾値としては、特に制限はなく、目的に応じて適宜選択することができる。
その結果、結晶材料データ1051、1052、及び1053を見つけることができる。
そして、それら結晶材料データの各結晶材料に対して、変換ルール1を適用して、変換後の結晶材料を得る。
ここで、結晶材料データ1051の結晶材料〔LiK(ZnP)、ICSD:95960〕に対しては、変換ルール1として、ZnをFeに変換するルールを適用し、LiK(FeP)が得られる。
結晶材料データ1052の結晶材料〔LiNa、ICSD:424375〕に対しては、変換ルール1として、NaをFeに変換するルールを適用し、LiFeが得られる。
結晶材料データ1053の結晶材料〔Li2.2Zn0.8(P)、ICSD:169799〕に対しては、変換ルール1として、ZnをFeに変換するルールを適用し、Li2.2Fe0.8(P)が得られる。
このようにして得られた化学物質(結晶材料)は、化学物質(結晶材料)の物性の向上と、化学物質(結晶材料)の類似性とが加味されて作成された変換ルールを適用して作成されている。そのため、得られた化学物質(結晶材料)は、物性が向上した化学物質(結晶材料)である可能性が高いことが期待できる。
次に、化学物質データベースに、類似度を用いた関連づけ、変換ルール等の情報が付加された態様の一例を説明する。
図32に示す結晶材料データベースは、ノードとしての結晶材料データ1001、1011、及び1021を有する。
結晶材料データ1001〔LiCr(P)、ICSD:240965〕、結晶材料データ1011〔LiNaZn(P)、ICSD:154429〕、及び結晶材料データ1021〔LiFe(P)、ICSD:95751〕のノードは、含まれる元素、物性値などの情報を持つ。
また、結晶材料データベースは、結晶材料間の関係を表すノード1501、及び1502を有する。
また、ノード1501、及び1502は、2つの結晶材料の間の構造の類似度に基づいて作成される。
ノード1501は、結晶材料データ1001の結晶材料〔LiCr(P)、ICSD:240965〕と、結晶材料データ1011の結晶材料〔LiNaZn(P)、ICSD:154429〕との間の構造の類似度に基づいて作成される。
ノード1502は、結晶材料データ1011の結晶材料〔LiNaZn(P)、ICSD:154429〕と、結晶材料データ1021の結晶材料〔LiFe(P)、ICSD:95751〕との間の構造の類似度に基づいて作成される。
ノード1501は、データとして、類似度(0.32)、類似度を求める際のタイプ(t)、及び変換ルール(Crを、Na及びZnの少なくともいずれかに変換するルール)を有する。
ノード1502は、データとして、類似度(0.32)、類似度を求める際のタイプ(t)、及び変換ルール(Na及びZnの少なくともいずれかをFeに変換するルール)を有する。
なお、タイプtは、類似度を求める際に、化学的に近い元素グループを同一の元素と見なすことを意味する。
また、類似度は、求め方により方向性がある場合がある。例えば、結晶材料データ1001の結晶材料〔LiCr(P)、ICSD:240965〕に対して、結晶材料データ1011の結晶材料〔LiNaZn(P)、ICSD:154429〕の類似度を求めた際の類似度と、結晶材料データ1011の結晶材料〔LiNaZn(P)、ICSD:154429〕に対して、結晶材料データ1001の結晶材料〔LiCr(P)、ICSD:240965〕の類似度を求めた際の類似度とは異なる場合がある。そこで、ノード1501は、結晶材料データ1001の結晶材料〔LiCr(P)、ICSD:240965〕に対して、結晶材料データ1011の結晶材料〔LiNaZn(P)、ICSD:154429〕の類似度を求めたことを示す情報(図中の「Before」、「After」)を有する。
図33に、化学物質探索方法の一例のフローチャートを示す。
まず、化学物質の情報を取得する(S21)。化学物質の情報は、例えば、既知の化学物質データベースから取得する。
次に、取得した化学物質の情報に合わせてナレッジグラフのサブグラフを取得する(S22)。サブグラフには化学物質の諸情報が入っている。
次に、物性の情報がある化学物質のノードを起点として、類似度の高い化学物質のノードのペアを取得する(S23)。
次に、ペアの両方の化学物質に物性の情報があるかどうかを確認する(S24)。
起点となる化学物質とペアとなる化学物質に物性の情報がない場合には、物性値を保留にして類似度の高い化学物質のノードをさらにたどる(S25)。そして、再度、ペアの両方の化学物質に物性の情報があるかどうかを確認する(S24)。
一方、起点となる化学物質とペアとなる化学物質に物性の情報がある場合には、起点となる化学物質とペアとなる化学物質の物性が向上しているかを確認する(S26)。
起点となる化学物質とペアとなる化学物質の物性が向上していない場合には、次のノードを起点とする(S27)。そして、再度、ペアの両方の化学物質に物性の情報があるかどうかを確認する(S24)。
起点となる化学物質とペアとなる化学物質の物性が向上している場合には、ノード間の関係を表す各ノードから変換ルールを抽出する(S28)。この際、変換ルールを、起点になっているノードのURI(Uniform Resource Identifier)と一緒に記録する。
次に、全てのノードについて処理したかどうかを確認する(S29)。
全てのノードについて処理していない場合、次のノードを起点とする(S27)。そして、再度、ペアの両方の化学物質に物性の情報があるかどうかを確認する(S24)。
全てのノードについて処理している場合には、起点になっているノードと類似度の高いノードについて、変換ルールを適用して、新しい化学物質の候補を得る(S30)。
以上により、化学物質の探索が行われる。
なお、更に、得られた化学物質の候補について、データベースに問い合わせをして、既知の化学物質かどうかを確認してもよい。
以下、実施例を用いて、開示の技術の一態様を説明する。なお、開示の技術はこの実施例に限定されない。
以下に実施例1について説明する。
構造中にPを含む80種類の結晶材料を用いた。なお、80種類の結晶材料のうち、9種類の結晶材料は容量の情報を有する。
これらの結晶材料について、図32のようなデータ構造を有する結晶材料データベースを構築した。
類似度は以下の方法で算出した。結晶構造を図16のフローチャートに従ってグラフ化した。得られたグラフを用いてコンフリクトグラフの最大独立集合問題をイジングモデルの式で表してアニーリングマシンで解くことにより、類似度を算出した。
変換ルールを作成する際には、類似度の閾値を0.5とした。即ち、類似度が0.5以上の結晶材料間のみに図32に示すような結晶材料間の関係を表すノードを設けた。
また、変換ルールは、容量が80mAh/g上昇する結晶材料間の関連づけに基づいて作成した。
その結果、64種類の変換ルールが作成された。
64種類の変換ルールを、構築した結晶材料データベース内の結晶材料に適用した。この際、変換ルールを作成する際の結晶材料と類似度が0.95以上の結晶材料に変換ルールを適用した。
その結果、容量が優れる結晶材料として、60種類の結晶材料の候補を得ることができた。
それらの中で、容量を実際に測定した結果を以下に示す。
変換ルールは、CoをFeに変換するルールである。
変換前の結晶材料はLi5.88Co5.06(Pであり、容量は30mAh/gである。
変換後の結晶材料はLi5.88Fe5.06(Pであり、容量は105mAh/gである。
以下に比較例1について説明する。
他方、80種類の結晶材料に対して、類似度を考慮せずに、網羅的に変換ルールを作成した場合、1421種類の変換ルールが作成される。なお、ここで、作成された1421種類の変換ルールでは、重複する変換ルールを1つと数えている。
その場合、単純計算で、得られる結晶材料の候補は、80×1421=113,680種類となる。この数は、実施例1で得られた結晶材料の候補の1900倍である。
比較例1では、実施例1のように容量が上昇する結晶材料間の関連づけに基づいて変換ルールを作成したわけではない。そのため、これらの結晶材料の候補の中で容量が優れている確率は、実施例1で得られた結晶材料の候補の中で容量が優れている確率よりも低いと考えられる。
即ち、実施例1では、容量が優れている結晶材料の候補を、比較例1よりも高い確率で、かつ比較例1よりも絞り込んで得ることができた。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
コンピュータが、
ある物性の情報を有する化学物質データと前記ある物性の情報を有さない化学物質データとを有する化学物質データベース内の2つの化学物質の間の構造の類似度を用いて、化学物質の構造を変換する変換ルールを作成する工程と、
前記変換ルールを作成する際に用いられた化学物質に類似する化学物質に前記変換ルールを適用し、前記化学物質の構造を変換して、変換後の化学物質を求める工程と、
を行い、
前記変換ルールが、前記ある物性の情報を有する第1の化学物質データ、前記第1の化学物質データの化学物質よりも物性が優れる化学物質に関する第2の化学物質データ、並びに、前記第1の化学物質データ及び前記第2の化学物質データと化学物質の構造の前記類似度により関連づけられた前記ある物性の情報を有さない1以上の第3の化学物質データの間の前記類似度を用いた関連づけに基づいて作成される、
ことを特徴とする化学物質探索方法。
(付記2)
前記変換ルールにおける前記化学物質の構造の変換における変換前の変換部分は、前記変換ルールを作成する工程において一方の化学物質の構造に対する他方の化学物質の構造の前記類似度を求める際の前記一方の化学物質から選択され、前記変換ルールにおける前記化学物質の構造の変換における変換後の変換部分は、前記他方の化学物質に基づく付記1に記載の化学物質探索方法。
(付記3)
前記変換後の化学物質を求める工程において、前記変換ルールを作成する際に用いられた前記化学物質は、前記変換ルールを作成する工程において一方の化学物質に対する他方の化学物質の類似度を求める際の前記一方の化学物質である付記1又は2に記載の化学物質探索方法。
(付記4)
前記1以上の第3の化学物質データが、1つ又は2つの第3の化学物質データである付記1から3のいずれかに記載の化学物質探索方法。
(付記5)
前記化学物質が、結晶材料である付記1から4のいずれかに記載の化学物質探索方法。
(付記6)
ある物性の情報を有する化学物質データと前記ある物性の情報を有さない化学物質データとを有する化学物質データベース内の2つの化学物質の間の構造の類似度を用いて、化学物質の構造を変換する変換ルールを作成するユニットと、
前記変換ルールを作成する際に用いられた化学物質に類似する化学物質に前記変換ルールを適用し、前記化学物質の構造を変換して、変換後の化学物質を求めるユニットと、
を備え、
前記変換ルールが、前記ある物性の情報を有する第1の化学物質データ、前記第1の化学物質データの化学物質よりも物性が優れる化学物質に関する第2の化学物質データ、並びに、前記第1の化学物質データ及び前記第2の化学物質データと化学物質の構造の前記類似度により関連づけられた前記ある物性の情報を有さない1以上の第3の化学物質データの間の前記類似度を用いた関連づけに基づいて作成される、
ことを特徴とする化学物質探索装置。
(付記7)
前記変換ルールにおける前記化学物質の構造の変換における変換前の変換部分は、前記変換ルールの作成において一方の化学物質の構造に対する他方の化学物質の構造の前記類似度を求める際の前記一方の化学物質から選択され、前記変換ルールにおける前記化学物質の構造の変換における変換後の変換部分は、前記他方の化学物質に基づく付記6に記載の化学物質探索装置。
(付記8)
前記変換後の化学物質を求める際の前記変換ルールを作成する際に用いられた前記化学物質は、前記変換ルールを作成する際の一方の化学物質に対する他方の化学物質の類似度を求める際の前記一方の化学物質である付記6又は7に記載の化学物質探索装置。
(付記9)
前記1以上の第3の化学物質データが、1つ又は2つの第3の化学物質データである付記6から8のいずれかに記載の化学物質探索装置。
(付記10)
前記化学物質が、結晶材料である付記6から9のいずれかに記載の化学物質探索装置。
(付記11)
コンピュータに、
ある物性の情報を有する化学物質データと前記ある物性の情報を有さない化学物質データとを有する化学物質データベース内の2つの化学物質の間の構造の類似度を用いて、化学物質の構造を変換する変換ルールを作成する工程と、
前記変換ルールを作成する際に用いられた化学物質に類似する化学物質に前記変換ルールを適用し、前記化学物質の構造を変換して、変換後の化学物質を求める工程と、
を行わせ、
前記変換ルールが、前記ある物性の情報を有する第1の化学物質データ、前記第1の化学物質データの化学物質よりも物性が優れる化学物質に関する第2の化学物質データ、並びに、前記第1の化学物質データ及び前記第2の化学物質データと化学物質の構造の前記類似度により関連づけられた前記ある物性の情報を有さない1以上の第3の化学物質データの間の前記類似度を用いた関連づけに基づいて作成される、
ことを特徴とする化学物質探索プログラム。
(付記12)
前記変換ルールにおける前記化学物質の構造の変換における変換前の変換部分は、前記変換ルールを作成する工程において一方の化学物質の構造に対する他方の化学物質の構造の前記類似度を求める際の前記一方の化学物質から選択され、前記変換ルールにおける前記化学物質の構造の変換における変換後の変換部分は、前記他方の化学物質に基づく付記11に記載の化学物質探索プログラム。
(付記13)
前記変換後の化学物質を求める工程において、前記変換ルールを作成する際に用いられた前記化学物質は、前記変換ルールを作成する工程において一方の化学物質に対する他方の化学物質の類似度を求める際の前記一方の化学物質である付記11又は12に記載の化学物質探索プログラム。
(付記14)
前記1以上の第3の化学物質データが、1つ又は2つの第3の化学物質データである付記11から13のいずれかに記載の化学物質探索プログラム。
(付記15)
前記化学物質が、結晶材料である付記11から14のいずれかに記載の化学物質探索プログラム。
10 化学物質探索装置
11 制御部
12 メモリ
13 記憶部
14 表示部
15 入力部
16 出力部
17 I/Oインターフェース部
18 システムバス
19 ネットワークインターフェース部
20 ネットワークインターフェース部
30 コンピュータ
40 コンピュータ

Claims (7)

  1. コンピュータが、
    ある物性の情報を有する化学物質データと前記ある物性の情報を有さない化学物質データとを有する化学物質データベース内の2つの化学物質の間の構造の類似度を用いて、化学物質の構造を変換する変換ルールを作成する工程と、
    前記変換ルールを作成する際に用いられた化学物質に類似する類似化学物質に前記変換ルールを適用し、前記類似化学物質の構造を変換して、変換後の類似化学物質を求める工程と、
    を行い、
    前記変換ルールが、前記ある物性の情報を有する第1の化学物質データ、前記第1の化学物質データの化学物質よりも物性が優れる化学物質に関する第2の化学物質データ、並びに、前記第1の化学物質データ及び前記第2の化学物質データと化学物質の構造の前記類似度により関連づけられた前記ある物性の情報を有さない1以上の第3の化学物質データの間の前記類似度を用いた関連づけに基づいて作成される、
    ことを特徴とする化学物質探索方法。
  2. 前記変換ルールにおける前記類似化学物質の構造の変換における変換前の変換部分は、前記変換ルールを作成する工程において一方の化学物質の構造に対する他方の化学物質の構造の前記類似度を求める際の前記一方の化学物質から選択され、前記変換ルールにおける前記類似化学物質の構造の変換における変換後の変換部分は、前記他方の化学物質に基づく請求項1に記載の化学物質探索方法。
  3. 前記変換後の類似化学物質を求める工程において、前記変換ルールを作成する際に用いられた前記化学物質は、前記変換ルールを作成する工程において一方の化学物質に対する他方の化学物質の前記類似度を求める際の前記一方の化学物質である請求項1又は2に記載の化学物質探索方法。
  4. 前記1以上の第3の化学物質データが、1つ又は2つの第3の化学物質データである請求項1から3のいずれかに記載の化学物質探索方法。
  5. 前記化学物質が、結晶材料である請求項1から4のいずれかに記載の化学物質探索方法。
  6. ある物性の情報を有する化学物質データと前記ある物性の情報を有さない化学物質データとを有する化学物質データベース内の2つの化学物質の間の構造の類似度を用いて、化学物質の構造を変換する変換ルールを作成するユニットと、
    前記変換ルールを作成する際に用いられた化学物質に類似する類似化学物質に前記変換ルールを適用し、前記類似化学物質の構造を変換して、変換後の類似化学物質を求めるユニットと、
    を備え、
    前記変換ルールが、前記ある物性の情報を有する第1の化学物質データ、前記第1の化学物質データの化学物質よりも物性が優れる化学物質に関する第2の化学物質データ、並びに、前記第1の化学物質データ及び前記第2の化学物質データと化学物質の構造の前記類似度により関連づけられた前記ある物性の情報を有さない1以上の第3の化学物質データの間の前記類似度を用いた関連づけに基づいて作成される、
    ことを特徴とする化学物質探索装置。
  7. コンピュータに、
    ある物性の情報を有する化学物質データと前記ある物性の情報を有さない化学物質データとを有する化学物質データベース内の2つの化学物質の間の構造の類似度を用いて、化学物質の構造を変換する変換ルールを作成する工程と、
    前記変換ルールを作成する際に用いられた化学物質に類似する類似化学物質に前記変換ルールを適用し、前記類似化学物質の構造を変換して、変換後の類似化学物質を求める工程と、
    を行わせ、
    前記変換ルールが、前記ある物性の情報を有する第1の化学物質データ、前記第1の化学物質データの化学物質よりも物性が優れる化学物質に関する第2の化学物質データ、並びに、前記第1の化学物質データ及び前記第2の化学物質データと化学物質の構造の前記類似度により関連づけられた前記ある物性の情報を有さない1以上の第3の化学物質データの間の前記類似度を用いた関連づけに基づいて作成される、
    ことを特徴とする化学物質探索プログラム。
JP2019204005A 2019-11-11 2019-11-11 化学物質探索方法、化学物質探索装置、及び化学物質探索プログラム Active JP7358924B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019204005A JP7358924B2 (ja) 2019-11-11 2019-11-11 化学物質探索方法、化学物質探索装置、及び化学物質探索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019204005A JP7358924B2 (ja) 2019-11-11 2019-11-11 化学物質探索方法、化学物質探索装置、及び化学物質探索プログラム

Publications (2)

Publication Number Publication Date
JP2021077159A JP2021077159A (ja) 2021-05-20
JP7358924B2 true JP7358924B2 (ja) 2023-10-11

Family

ID=75898028

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019204005A Active JP7358924B2 (ja) 2019-11-11 2019-11-11 化学物質探索方法、化学物質探索装置、及び化学物質探索プログラム

Country Status (1)

Country Link
JP (1) JP7358924B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004118594A (ja) 2002-09-26 2004-04-15 Ishihara Sangyo Kaisha Ltd 化学構造式処理による有用知識獲得方法ならびにシステム
WO2005052819A1 (ja) 2003-11-28 2005-06-09 Fujitsu Limited 材料名設定支援装置、材料名設定支援プログラムおよび材料名設定支援方法
JP2013191068A (ja) 2012-03-14 2013-09-26 Fujitsu Ltd 生成方法、生成プログラム、および生成装置
JP2015109084A (ja) 2013-12-03 2015-06-11 三星電子株式会社Samsung Electronics Co.,Ltd. 新規物質探索システム及びその探索方法
US20160162632A1 (en) 2014-12-04 2016-06-09 Samsung Electronics Co., Ltd. Method of screening reactions or biological pathways induced by compound

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004118594A (ja) 2002-09-26 2004-04-15 Ishihara Sangyo Kaisha Ltd 化学構造式処理による有用知識獲得方法ならびにシステム
WO2005052819A1 (ja) 2003-11-28 2005-06-09 Fujitsu Limited 材料名設定支援装置、材料名設定支援プログラムおよび材料名設定支援方法
JP2013191068A (ja) 2012-03-14 2013-09-26 Fujitsu Ltd 生成方法、生成プログラム、および生成装置
JP2015109084A (ja) 2013-12-03 2015-06-11 三星電子株式会社Samsung Electronics Co.,Ltd. 新規物質探索システム及びその探索方法
US20160162632A1 (en) 2014-12-04 2016-06-09 Samsung Electronics Co., Ltd. Method of screening reactions or biological pathways induced by compound

Also Published As

Publication number Publication date
JP2021077159A (ja) 2021-05-20

Similar Documents

Publication Publication Date Title
Tsubaki et al. Compound–protein interaction prediction with end-to-end learning of neural networks for graphs and sequences
JP7392668B2 (ja) データ処理方法および電子機器
Zandkarimi et al. A generic framework for trace clustering in process mining
WO2020203922A1 (ja) 結晶形予測装置、結晶形予測方法、ニューラルネットワークモデルの製造方法、及びプログラム
JP2019207685A (ja) 観測変数間の因果関係を推定するための方法、装置、およびシステム
CN111027703B (zh) 一种量子线路查询的方法、装置、存储介质及电子装置
Pan et al. Clustering of designers based on building information modeling event logs
Cazals et al. Conformational ensembles and sampled energy landscapes: Analysis and comparison
Demeyer et al. The index-based subgraph matching algorithm (ISMA): fast subgraph enumeration in large networks using optimized search trees
Elmsallati et al. Index-based network aligner of protein-protein interaction networks
Hajlaoui et al. QoS based framework for configurable IaaS cloud services discovery
Anand et al. Association rule mining using treap
Warnau et al. COSMO-RS predictions of logP in the SAMPL7 blind challenge
Zhang Multiple-scale cost sensitive decision tree learning
Sreenivasula Reddy et al. Intuitionistic fuzzy rough sets and fruit fly algorithm for association rule mining
JP6662637B2 (ja) 情報処理システム、情報処理方法およびプログラムを記憶する記録媒体
Bober et al. Rewiring networks for graph neural network training using discrete geometry
Guégain et al. Configuration optimization with limited functional impact
Sosnina et al. Improvement of multi-task learning by data enrichment: application for drug discovery
JP7358924B2 (ja) 化学物質探索方法、化学物質探索装置、及び化学物質探索プログラム
Moschopoulos et al. GIBA: a clustering tool for detecting protein complexes
Lin et al. Parallel construction of explicit boundaries using support vector machines
Kaushal et al. Network-based disease gene prioritization based on Protein–Protein Interaction Networks
JP7404705B2 (ja) 結晶材料解析装置、結晶材料解析方法、及び結晶材料解析プログラム
Kumar et al. Community-enhanced Link Prediction in Dynamic Networks

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20220601

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230911

R150 Certificate of patent or registration of utility model

Ref document number: 7358924

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150