JP7158683B2 - 機械学習を用いた結晶構造解析方法 - Google Patents
機械学習を用いた結晶構造解析方法 Download PDFInfo
- Publication number
- JP7158683B2 JP7158683B2 JP2019030157A JP2019030157A JP7158683B2 JP 7158683 B2 JP7158683 B2 JP 7158683B2 JP 2019030157 A JP2019030157 A JP 2019030157A JP 2019030157 A JP2019030157 A JP 2019030157A JP 7158683 B2 JP7158683 B2 JP 7158683B2
- Authority
- JP
- Japan
- Prior art keywords
- peak position
- learning
- position extraction
- crystal structure
- extraction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Analysing Materials By The Use Of Radiation (AREA)
Description
前者の方法では、近年、数値計算による結晶構造予測技術の発展により、与えられた分子が取り得る結晶構造を網羅的に算出することができるようになってきた。しかし、与えられた分子が取り得る多くの結晶多形の候補の中から現実を反映した結晶構造を選び出すことは容易ではない。
単結晶X線構造解析は、単結晶にX線を照射して得られる回折パターンに基づく結晶構造解析方法であり、回折パターンをフーリエ変換することによって電子雲の空間的位置を直接特定し、結晶構造を決定している。
しかし、単結晶X線構造解析を行うためには、新規材料の単結晶を作製する必要があり、特に有機化合物の単結晶の作製には多くの時間を要するうえ、そもそも単結晶の作製が困難な場合もあった。
これに対し、粉末X線構造解析は、粉末状の多結晶にX線を照射して得られる回折パターンに基づく結晶構造解析方法である。回折パターンには、結晶構造に応じて生じるピークが現れており、X線構造解析では、はじめにこのピークの位置を特定し、ピーク位置に基づいて、指数付けやそれに続く格子定数決定、空間群決定が行われる。粉末X線構造解析は、材料の単結晶を作製する必要がないため、比較的容易に結晶構造の情報が得られる利点を有する。
その結果、ピーク位置に基づく指数付けやそれに続く格子定数決定、空間群決定の正確性が損なわれ、格子定数や空間群の候補が多数現れてしまい、結晶構造の特定が困難となることが多かった。
このように、有機化合物の結晶構造を特定することは、単結晶化の必要がない粉末X線結晶構造解析によっても非常に困難であり、結晶構造解析の成功率は極めて低かった。このため、有機化合物の未知の結晶構造の解析成功例は、世界中で年間わずか数十例に過ぎなかった。
本発明に係る機械学習によるピーク位置抽出モデル生成方法は、粉末状の結晶に放射線を照射して得られる実測回折パターンからピーク位置を抽出するためのピーク位置抽出モデルを機械学習により生成する方法であって、既知の結晶構造から学習用回折パターンを生成する学習データ生成工程と、前記学習用回折パターンを学習データとして用いる機械学習により前記ピーク位置抽出モデルを生成する学習工程と、を有することを特徴としている。
例えば、対称性が低いため複数のピークが重なって現れることが多く、電子数の少ない元素で主に構成されているためピーク強度が全体的に低い傾向がある有機化合物の結晶の回折パターンにおいても、ピーク位置の正確な抽出を図ることができるピーク位置抽出モデルを生成することができる。
これにより、回折角度ごとのピーク存在確率として、機械学習によりピーク位置抽出モデルを生成することができる。
このように、既知の結晶構造から算出された一つの既知の結晶構造から、半値幅の互いに異なる複数の学習用回折パターンを学習データとして生成することにより、既知の結晶構造データの有効活用を図ることができる。そのうえ、様々な半値幅を有する実測回折パターンにより近い様々な学習データを容易に増やすことができるため、機械学習によるピーク位置抽出モデルの精度向上を容易に図ることができる。
このように、既知の結晶構造から算出された一つの既知の結晶構造から、バックグランド強度の互いに異なる複数の学習用回折パターンを学習データとして生成することにより、既知の結晶構造データの有効活用を図ることができる。そのうえ、様々なバックグランド強度を有する実測回折パターンにより近い様々な学習データを容易に増やすことができるため、機械学習によるピーク位置抽出モデルの精度向上を容易に図ることができる。
特に、複数の半値幅と複数のバックグランド強度とを掛け合わせることにより、1つの既知の結晶構造から学習データ数を飛躍的に増加させることができ、機械学習によるピーク位置抽出モデルの精度向上を一層図ることができる。
金属原子は電子数が多いため、金属原子を含む結晶の回折パターンには極端に大きなピークが出現することがある。一方、純粋な有機化合物の結晶の回折パターンには、そのような大きなピークは出現しない。このため、金属原子を含む結晶構造を排除することによって、ピーク位置抽出モデルが、有機化合物の結晶の回折パターンに通常は含まれない回折パターンを学習してしまうことを防止することができる。
2種類以上の分子を含む結晶構造を排除することによって、ピーク位置抽出モデルが、1種類の分子からなる有機化合物の結晶の回折パターンに通常は含まれない回折パターンを学習してしまうことを防止することができる。
これにより、カーボンナノチューブのような構造体である可能性のあるものを排除することができ、その結果、ピーク位置抽出モデルが、純粋な有機化合物の結晶の回折パターンに通常は含まれない回折パターンを学習してしまうことを防止することができる。
このように、医薬品に特有な部分構造を有する分子の既知の結晶構造に基づいた学習用回折パターンにより選択的に機械学習を行うことにより、医薬品を対象としたピーク位置抽出モデルの抽出精度の効率的な向上を図ることができる。
本発明のピーク位置抽出方法は、結晶に放射線を照射して得られる実測回折パターンからピーク位置を抽出するピーク位置抽出方法であって、請求項1~9のいずれかに記載の機械学習によるピーク位置抽出モデル生成方法によって生成されたピーク位置抽出モデルを用いて、前記実測回折パターンからピーク位置を抽出する。
特に、対称性が低いため複数のピークが重なって現れることが多く、電子数の少ない元素で主に構成されているためピーク強度が全体的に低い傾向がある有機化合物の結晶の回折パターンにおいて、ピーク位置の正確な抽出を図ることができる。
本発明の結晶構造解析方法は、結晶構造を解析する方法であって、結晶に放射線を照射して得られる実測回折パターンからピーク位置を抽出するピーク位置抽出工程と、前記ピーク位置抽出工程で抽出されたピーク位置に基づいて、前記結晶の構造解析を行う工程と、を有し、前記ピーク位置抽出工程において、請求項10記載のピーク位置抽出方法を用いてピーク位置を抽出することを特徴としている。
特に、回折パターンにおけるピーク位置の正確な抽出が従来困難であった有機化合物の結晶構造解析、より好ましくは、粉末X線構造解析をはじめとする粉末状の結晶の回折パターンに基づく結晶構造解析において、構造解析の成功率の飛躍的な向上を図ることができる。
(システム)
先ず、図1を参照して、機械学習によるピーク位置抽出モデルの生成方法、ピーク位置抽出方法、及び結晶構造解析方法を実行するシステムを説明する。
図1に示すシステムは、X線回折装置1と、演算装置2とを備えている。
X線回折装置1は、キャピラリーに入れた試料に、X線源からX線を照射し、所定範囲の回折角(2θ)での回折X線の強度を測定し、実測回折パターンを出力する。
演算装置2は、結晶解析装置として、X線回折装置1から入力された実測回折パターンに基づき、結晶構造解析を行う。
なお、演算装置2は、1つ又は複数のコンピュータで構成され、ピーク位置抽出モデル21が記憶部に記憶されている。記憶部は、内部メモリ又はハードディスクのような記憶媒体で構成されてもよいし、USBメモリで構成されていてもよい。
ピークの抜き出し(S1)のステップにおいて、演算装置2は、機械学習により生成されたピーク位置抽出モデルを用いてピーク位置を抽出する。
以下、図3のフローチャートを参照して、ピーク位置抽出モデルの生成方法を説明する。
図3に示すように、ピーク位置抽出モデルの生成方法は、既知の結晶構造から学習用回折パターンを生成する学習データ生成工程(学習用回折パターン生成(S01))と、学習用回折パターンを学習データとして用いる機械学習により前記ピーク位置抽出モデルを生成する学習工程(ピーク位置抽出モデル生成(S02))とを有する。
学習データ生成工程においては、既知の結晶構造から学習用回折パターンを算出する。
既知の結晶構造は、例えば、ケンブリッジ結晶データセンター(The Cambridge Crystallographic Data Centre: CCDC)が製作したケンブリッジ結晶構造データベース(The Cambridge Structural Database: CSD-System)から取得することができる。
そこで、本実施形態では、有機物半導体を結晶構造解析の対象とするピーク位置抽出モデルを生成する場合に、既知の結晶構造として、以下の化学式(1)~(13)で示す部分構造の少なくとも一つを含む分子の結晶構造を用いる。
また、既知の結晶構造は、1種類の分子から成るものを選択することが好ましい。これにより、ピーク位置抽出モデルが、1種類の分子からなる有機化合物の結晶の回折パターンに通常は含まれない回折パターンを学習してしまうことを防止することができる。
また、既知の結晶構造は、単位格子の体積が5000Å3以下であり、かつ、1分子あたりの炭素原子数が100以下であるものを選択することが好ましい。これにより、構造体である可能性のあるものを排除して、ピーク位置抽出モデルが、純粋な有機化合物の結晶の回折パターンに通常は含まれない回折パターンを学習してしまうことを防止することができる。
具体的には、一つの既知の結晶構造から、回折パターンにおける各ピークの半値幅を複数通りに設定した複数の学習用回折パターンを生成する。例えば、ピークの半値幅を0.04°,0.06°,0.08°,0.10°の4通りに設定することにより、1つの既知の結晶構造のデータから4つの学習用回折パターンを生成することができる。より具体的には、既知の結晶構造として2082個の上記部分構造を有する分子のデータを選択的に使用する場合、その4倍の8328個の学習用回折パターンを生成することができる。これにより、選択した既知の結晶構造のデータを有効活用できるうえ、様々な半値幅を有する実際の回折パターンにより近い多様な学習データを容易に生成することができる。
特に、複数通りの半値幅の上記の8328個のデータのベースラインをそれぞれ5通りに設定することにより、当初の2082個の既知の結晶構造から、その20(=4×5)倍の学習データが生成される。このように、複数通りの半値幅と複数通りのべースラインとを組み合わせれば、実際の回折パターンにより近い学習データを効率的に大量に生成することができる。その結果、ピーク位置抽出モデルの精度向上を図ることができる。
なお、学習データの生成にあたっては、半値幅及びバックグランドの一方のみを複数通り設定してもよい。
なお、本実施形態では、バックグランドの回折パターンとして、試料を入れていない場合のX線回折装置1のキャピラリーのみの実測回折パターンを使用している。
機械学習によるピーク位置抽出モデルを生成するにあたり、図5に模式的に示す、入力層3、中間層4及び出力層5からなる3層の順伝播型ニューラルネットワークを用いる。
なお、ニューラルネットワークの中間層は一層に限定されず複数層であってもよい。また、機械学習においては、順伝播型のニューラルネットワークに限定されず、任意の機械学習の手法を用いることができる。
なお、所定の刻み幅は、特に限定されず、等間隔であってもよいし、等間隔でなくてもよい。
かかる機械学習を重ねるほど、機械学習によりピーク位置抽出モデルが更新され、ピーク位置抽出モデルによるピーク位置抽出精度が向上する。
次に、上記のピーク位置抽出モデルを使用したピーク位置抽出方法を説明する。
図2に示した結晶構造解析フローにおけるピーク抜き出しステップ(S1)として、実X線回折装置1から出力された粉末X線回折パターンからピーク位置抽出モデルを用いてピーク位置を抽出する。
図7(a)に示すように、従来の方法では、回折角(2θ)が12°~15°の範囲内に、A~Eの5つのピークが検出されている。
一方、図7(b)に示すように、ピーク位置抽出モデルを用いた場合には、同一範囲内に、より多くのピークが検出されている。具体的には、図7(a)において1つのピークとされたピークAに、2つのピークA1及びA2が検出されている。また、図7(a)において1つのピークとされたピークCに、2つのピークC1及びC2が検出されている。特に、ピークC2は、図示できないほど回折強度が小さいにも拘わらず検出することができている。
なお、図7(b)に示す回折パターンにおける各ピーク位置A1、A2、B、C1、C2、D、Eを示す縦線の高さは、ピーク位置にフォークト関数などのピーク形状を表す関数を重ねて、実測値にフィッティングして決定されている。
特に、図7(b)に示したように、対称性が低いため複数のピークが重なって現れることが多く、電子数の少ない元素で主に構成されているためピーク強度が全体的に低い傾向がある、有機物半導体を含む有機化合物の結晶の回折パターンにおいても、正確なピーク位置を抽出することができる。
次に、ピーク位置抽出モデルを使用したピーク位置抽出方法を使用した粉末X線構造解析方法を説明する。
上述したピーク位置抽出ステップ(ピーク抜き出しステップ(S1))に続いて、抽出されたピーク位置に基づいて、図2に示すフローチャートに従って結晶の構造解析を行って結晶構造を決定する。図2のフローチャートに示す指数付け(S2)、格子定数決定(S3)、空間群決定(S4)、初期構造決定(S5)及び構造精密化(S6)の各ステップは、従来の粉末X線構造解析と同様である。
なお、ピーク位置に基づく結晶構造解析にあたっては、図2のフローチャートの示したステップ通りでなくともよい。
格子パラメータ群:Pmna
a:54.44Å
b:6.100Å
c:7.8956Å
α:90.0°
β:90.0°
γ:90.0°
また、上述した実施形態では、有機化合物を対象とした例を説明したが、本発明の対象は、有機化合物に限定されず、例えば、無機化合物を対象とすることもできる。
2 演算層値
21 ピーク位置抽出モデル
3 入力層
4 中間層
5 出力層
Claims (11)
- 粉末状の結晶に放射線を照射して得られる実測回折パターンからピーク位置を抽出するためのピーク位置抽出モデルを機械学習により生成する方法であって、
既知の結晶構造から学習用回折パターンを生成する学習データ生成工程と、
前記学習用回折パターンを学習データとして用いる機械学習により前記ピーク位置抽出モデルを生成する学習工程と、
を有することを特徴とする、機械学習によるピーク位置抽出モデル生成方法。 - 前記学習工程において、
ニューラルネットワークの各入力ユニットを、所定の刻み幅での各回折角度における前記学習用回折パターンの回折強度にそれぞれ対応させ、
前記ニューラルネットワークの各出力ユニットを、所定の刻み幅での各回折角度におけるピークの存在確率にそれぞれ対応させ、
前記ニューラルネットワークにより機械学習を行う
ことを特徴とする、請求項1記載の機械学習によるピーク位置抽出モデル生成方法。 - 前記学習データ生成工程において、一つの前記既知の結晶構造から、ピークの半値幅を複数通りに設定した複数の前記学習用回折パターンを生成する
ことを特徴とする、請求項1又は2記載の機械学習によるピーク位置抽出モデル生成方法。 - 前記学習データ生成工程において、一つの前記既知の結晶構造から、バックグランドの強度を複数通りに設定した複数の前記学習用回折パターンを生成する
ことを特徴とする、請求項1~3のいずれかに記載の機械学習によるピーク位置抽出モデル生成方法。 - 前記既知の結晶構造は、金属原子を含まない
ことを特徴とする、請求項5記載の機械学習によるピーク位置抽出モデル生成方法。 - 前記既知の結晶構造は、1種類の分子から成る
ことを特徴とする、請求項5又は6記載の機械学習によるピーク位置抽出モデル生成方法。 - 前記既知の結晶構造は、単位格子の体積が5000Å3以下であり、かつ、1分子あたりの炭素原子数が100以下である
ことを特徴とする、請求項5~7のいずれかに記載の機械学習によるピーク位置抽出モデル生成方法。 - 前記粉末状の結晶は、医薬品の結晶であり、
前記学習データ生成工程において、前記既知の結晶構造は、カルボキシ基及びアミノ基の少なくとも一つを含む分子の結晶構造である
ことを特徴とする、請求項1~4のいずれかに記載の機械学習によるピーク位置抽出モデル生成方法。 - 粉末状の結晶に放射線を照射して得られる実測回折パターンからピーク位置を抽出するピーク位置抽出方法であって、
請求項1~9のいずれかに記載の機械学習によるピーク位置抽出モデル生成方法によって生成された前記ピーク位置抽出モデルを用いて、前記実測回折パターンからピーク位置を抽出する
ことを特徴とする、ピーク位置抽出方法。 - 粉末状の結晶の構造解析法であって、
結晶に放射線を照射して得られる実測回折パターンからピーク位置を抽出するピーク位置抽出工程と、
前記ピーク位置抽出工程で抽出されたピーク位置に基づいて、前記結晶の構造解析を行う工程と、を有し、
前記ピーク位置抽出工程において、請求項10記載のピーク位置抽出方法を用いてピーク位置を抽出する
ことを特徴とする結晶構造解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019030157A JP7158683B2 (ja) | 2019-02-22 | 2019-02-22 | 機械学習を用いた結晶構造解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019030157A JP7158683B2 (ja) | 2019-02-22 | 2019-02-22 | 機械学習を用いた結晶構造解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020134382A JP2020134382A (ja) | 2020-08-31 |
JP7158683B2 true JP7158683B2 (ja) | 2022-10-24 |
Family
ID=72278388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019030157A Active JP7158683B2 (ja) | 2019-02-22 | 2019-02-22 | 機械学習を用いた結晶構造解析方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7158683B2 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180120244A1 (en) | 2015-04-16 | 2018-05-03 | King Abdullah University Of Science And Technology | X-ray diffraction imaging of material microstructures |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3130139B2 (ja) * | 1992-09-17 | 2001-01-31 | 株式会社日立製作所 | クロマトグラム解析方法及びクロマトグラフ装置 |
JP6489529B2 (ja) * | 2016-08-31 | 2019-03-27 | 株式会社日産アーク | 構造複合体の状態推定方法及びシステム |
-
2019
- 2019-02-22 JP JP2019030157A patent/JP7158683B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180120244A1 (en) | 2015-04-16 | 2018-05-03 | King Abdullah University Of Science And Technology | X-ray diffraction imaging of material microstructures |
Non-Patent Citations (1)
Title |
---|
AGATONOVIC-KUSTRIN, S. et al.,Ranitidine hydrochloride X-ray assay using a neural network,Journal of Pharmaceutical and Biomedical Analysis,2000年,Vol.22, No.6,p.985-992 |
Also Published As
Publication number | Publication date |
---|---|
JP2020134382A (ja) | 2020-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Dislocation density distribution at slip band-grain boundary intersections | |
Dusek et al. | Electrical impedance tomography methods and algorithms processed with a GPU | |
Miller et al. | Understanding micromechanical material behavior using synchrotron X-rays and in situ loading | |
JP2020166706A (ja) | 結晶形予測装置、結晶形予測方法、ニューラルネットワークの製造方法、及びプログラム | |
Barabash et al. | Strain and dislocation gradients from diffraction: spatially-resolved local structure and defects | |
Tucker et al. | Comparison of grain size distributions in a Ni-based superalloy in three and two dimensions using the Saltykov method | |
Ginsburg et al. | D+: software for high-resolution hierarchical modeling of solution X-ray scattering from complex structures | |
AU2012336262B2 (en) | Method of generating and combining multiple horizons to determine a seismic horizon and its uncertainty | |
CN113850801B (zh) | 晶型预测方法、装置及电子设备 | |
Haley et al. | Influence of field evaporation on radial distribution functions in atom probe tomography | |
JP4950523B2 (ja) | 収差を補正する装置及び方法 | |
JP7547799B2 (ja) | 構造探索方法、構造探索装置、構造探索用プログラム、及び相互作用ポテンシャル特定方法 | |
Aller et al. | Application of in situ diffraction in high-throughput structure determination platforms | |
Wei et al. | 3D nanostructural characterisation of grain boundaries in atom probe data utilising machine learning methods | |
JP7158683B2 (ja) | 機械学習を用いた結晶構造解析方法 | |
Seitz et al. | Simulation of cryo-EM ensembles from atomic models of molecules exhibiting continuous conformations | |
Bücker et al. | Serial Electron Diffraction Data Processing With diffractem and CrystFEL | |
Purnell et al. | Rapid synthesis of cryo-et data for training deep learning models | |
Masciocchi et al. | P-RISCON: A real-space scavenger for crystal structure determination from powder diffraction data | |
US20110130968A1 (en) | Method for computing ligand - host binding free energies | |
CN114171131A (zh) | 有机分子环异构的处理方法及识别方法、获得有机分子样本构象的方法及装置 | |
Nachiappan et al. | 3D Structural Determination of Macromolecules Using X-ray Crystallography Methods | |
CN111968709A (zh) | 结构模型确定方法、装置、计算机设备及可存储介质 | |
Karthikeyan et al. | Chemoinformatics approach for the design and screening of focused virtual libraries | |
Minor et al. | The young person’s guide to the PDB |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20190312 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220927 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221003 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7158683 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |