JP7483913B2

JP7483913B2 - 特徴量算出方法、スクリーニング方法、及び化合物創出方法

Info

Publication number: JP7483913B2
Application number: JP2022553977A
Authority: JP
Inventors: 享佑津村; 博史山下; 淳中林
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2020-09-30
Filing date: 2021-09-28
Publication date: 2024-05-15
Anticipated expiration: 2041-09-28
Also published as: CN116157680A; JPWO2022071268A1; WO2022071268A1; EP4224480A1; US20230238084A1; EP4224480A4

Description

本発明は創薬支援技術に関し、特に特徴量の算出、医薬候補化合物のスクリーニング、及び医薬候補化合物の立体構造の創出に関する。

従来、コンピュータを用いた創薬研究では、既存の化合物を数万から十万程度集めたライブラリを用意し化合物の構造式を与えて１つの標的タンパク質に対する結合力を調べることで、医薬候補化合物（以下、「ヒット」という）を探索してきた。例えば、下記特許文献１では、化合物の構造式を与えて結合力を予測している。また特許文献２においても、構造式の発生と結合力の予測とを繰り返して、望ましい結合力を有する化合物を少しずつ探索する（試行錯誤する）ことが記載されている。

また、特許文献３には「化合物指紋（フィンガープリント）」と呼ばれる記述子を用いて探索を行うことが記載されている。「記述子」とは化合物の構造式から得られる情報であり、「化合物指紋」は様々な官能基の有無などの情報を示す。このような記述子は「化合物の記述子が類似ならば、化合物の骨格が類似する」のが特徴である。

また、所望の物性値を有する化合物の構造の探索は従来、主として「順問題」（問題の原因としての分子構造を与えて、結果である物性値を求める）を解くことにより行われてきたが、近年のインフォマティクスの発展に伴い「逆問題」（物性値を与えて、その物性値を有する分子構造を求めること）の解法についての研究が急速に進められている。逆問題を解くことによる構造の探索については、例えば非特許文献１が知られている。

米国特許第９３７３０５９号公報特許第５９４６０４５号公報特許第４５６４０９７号公報

"Bayesian molecular design with a chemical language model"、Hisaki Ikebata他、［２０２０年７月１７日検索］、インターネット（https://www.ncbi.nlm.nih.gov/pubmed/28281211）

最近はニーズの高い標的タンパク質が複雑で高難度になり、単なるライブラリのスクリーニングではヒットを見つけづらい。他方、化合物の理論上の数は分子量が５００以下の低分子に限っても（１０の６０乗）個はあり、分子量が１，０００前後の中分子まで拡大するとその数はさらに増え、有史以来合成された化合物が（１０の９乗）個程度であることを考えると、まだまだヒット発見の可能性がある。しかしながら、このような天文学的な数の化合物すべてに対して結合力を調べることは、実験はもちろん、シミュレーションでもほとんど不可能である。一部の化合物に対して結合力を調べる場合でも、上述した特許文献１，２のような試行錯誤の繰り返しでは効率が低い。また、特許文献３に記載されたFingerprintのような従来の記述子（特徴量）の場合、同じ薬効を示す化合物であっても特徴量が類似しているとは限らず、特徴量が対象構造体の化学的性質を的確に示していなかったため、特徴量を用いた探索の効率が低かった。

また、上述した非特許文献１に記載のｉｑｓｐｒ（Inverse Quantitative Structure-Property Relationship）では、構造更新のアルゴリズム（ベイズ推定に基づく粒子フィルタ）に起因して、探索効率がすぐに低下してしまうという問題があった。具体的には、ベイズ推定に基づく構造更新では物性値は目標値に近づくが探索用構造の多様性が減少し、探索がローカルミニマムに陥って、試行を繰り返してもローカルミニマム状態を中々脱出することができない（最終的な構造に到達できない）。

このように、従来の技術では特徴量が対象構造体の化学的性質を的確に示しておらず、このため特徴量を用いたスクリーニングや立体構造創出の効率が低かった。

本発明はこのような事情に鑑みてなされたもので、対象構造体の化学的性質を的確に示す特徴量を算出できる特徴量算出方法を提供することを目的とする。また、本発明は特徴量を用いて医薬候補化合物のスクリーニングを効率よく行うことができるスクリーニング方法を提供することを目的とする。また、本発明は特徴量を用いて医薬候補化合物の立体構造を効率よく創出することができる化合物創出方法を提供することを目的とする。

上述した目的を達成するため、本発明の第１の態様に係る特徴量算出方法は、化学的性質を有する複数の単位構造体から構成される対象構造体を指定する対象構造体指定工程と、対象構造体について複数の単位構造体による立体構造を取得する立体構造取得工程と、対象構造体に対する１種類以上のプローブの断面積を示す特徴量を算出するプローブ特徴量算出工程と、を有し、プローブは、実数電荷を持ちファンデルワールス力を発生させる複数の点が離間して配置された構造体である。

対象構造体の化学的性質は対象構造体とその周辺における１種類以上のプローブとの相互作用の結果として表されるので、対象構造体どうしで断面積を示す特徴量が類似であることはそれら対象構造体の化学的性質が類似していることを示す。すなわち、第１の態様により算出される特徴量が類似な対象構造体は類似の化学的性質を示す。したがって、第１の態様により対象構造体の化学的性質を的確に示す特徴量を算出することができる。なお、第１の態様及び以下の各態様において、「断面積」には散乱断面積（微分散乱断面積）、反応断面積、吸収断面積が含まれる。

第２の態様に係る特徴量算出方法は第１の態様において、プローブ特徴量算出工程では、特徴量として断面積、または最近接距離及び散乱角を算出する。第２の態様は、第１の態様における「断面積を示す特徴量」を具体的に規定したものである。

第３の態様に係る特徴量算出方法は第1または第２の態様において、プローブ特徴量算出工程では、プローブの種類、数、組合せ、衝突径数、及び入射エネルギーに依存する特徴量を特徴量として算出する。

第４の態様に係る特徴量算出方法は第1から第３の態様のいずれか１つにおいて、立体構造取得工程では、指定された対象構造体の立体構造を発生させることにより取得を行う。

第５の態様に係る特徴量算出方法は第１から第４の態様のいずれか１つにおいて、対象構造体指定工程では対象構造体として化合物を指定し、立体構造取得工程では複数の単位構造体としての複数の原子による化合物の立体構造を取得し、プローブ特徴量算出工程では、立体構造取得工程で取得した化合物について、アミノ酸をプローブとして第１の特徴量を算出する。第５の態様は、第１の態様における「プローブ」、「対象構造体」、「複数の単位構造体」をそれぞれアミノ酸、化合物、複数の原子としたものである。なお、集積度合いを定量化するアミノ酸は１種類に限らず、２種類以上のアミノ酸が結合したペプチドでもよい。

第６の態様に係る特徴量算出方法は第５の態様において、第１の特徴量を化合物の回転について不変量化して第１の不変量化特徴量を算出する不変量化工程をさらに有する。第６の態様では第１の特徴量を化合物の回転について不変量化するので、特徴量を扱いやすくまたデータ容量を小さくすることができる。第１の特徴量の不変量化は、ポテンシャルの角度平均により行うことができる。

第７の態様に係る特徴量算出方法は第６の態様において、プローブ特徴量算出工程では２種類の異なるアミノ酸について第１の特徴量を算出し、不変量化工程では２種類の異なるアミノ酸についての第１の特徴量を用いて第１の不変量化特徴量を算出する。第７の態様によれば、第１の不変量化特徴量の算出において２種類の異なるアミノ酸についての第１の特徴量を用いることによりアミノ酸の相互作用の情報を維持しつつ不変量化を行うことができるので、特徴量（第１の不変量化特徴量）に基づく化合物の比較（薬効判定）を正確に行うことができる。

第８の態様に係る特徴量算出方法は第１から第４の態様のいずれか１つにおいて、対象構造体指定工程では、標的タンパク質の活性部位であるポケットに結合するポケット構造体を対象構造体として指定し、立体構造取得工程では複数の仮想的球体によるポケット構造体の立体構造を取得し、プローブ特徴量算出工程では、立体構造取得工程で取得したポケット構造体について、アミノ酸をプローブとして第２の特徴量を算出する。第８の態様は、第１の態様における「プローブ」、「対象構造体」、「単位構造体」をそれぞれアミノ酸、ポケット構造体、複数の仮想的球体としたものである。標的タンパク質の「活性部位」とはポケット構造体が結合することにより標的タンパク質の活性が促進または抑制される部位を意味し、「仮想的球体」はファンデルワールス半径、電荷等の化学的性質を有すると考えることができる。

上述した第５の態様では与えられた化合物に対するアミノ酸の集積度合いを算出するのに対し、第８の態様では、与えられた標的タンパク質のポケットに結合するポケット構造体に対するアミノ酸の断面積を示す特徴量（第２の特徴量）を算出する。第８の態様に係る特徴量が類似なポケット構造体は類似の化学的性質を示すので、第８の態様によりポケット構造体の化学的性質を的確に示す特徴量を算出することができる。なお、ポケット構造体は標的タンパク質のポケットと結合する化合物に対応する。また第８の態様において、標的タンパク質の立体構造の実測結果、ポケットの位置情報等に基づくシミュレーションを第２の特徴量の算出に用いることができる。なお、標的タンパク質の立体構造は、アミノ酸の各残基が識別できる分解能の立体構造であれば、測定技術（Ｘ線結晶構造、ＮＭＲ構造（NMR：Nuclear Magnetic Resonance）、クライオＴＥＭ構造（TEM：Transmission Electron Microscopy）、など）は限定しない。

第９の態様に係る特徴量算出方法は第８の態様において、第２の特徴量をポケット構造体の回転について不変量化して第２の不変量化特徴量を算出する不変量化工程をさらに有する。第９の態様によれば、第６の態様と同様に、特徴量を扱いやすくまたデータ容量を小さくすることができる。第２の特徴量の不変量化は、第６の態様と同様にポテンシャルの角度平均により行うことができる。

第１０の態様に係る特徴量算出方法は第９の態様において、プローブ特徴量算出工程では２種類の異なるアミノ酸について第２の特徴量を算出し、不変量化工程では２種類の異なるアミノ酸についての第２の特徴量を用いて第２の不変量化特徴量を算出する。第１０の態様によれば、第２の不変量化特徴量の算出において２種類の異なるアミノ酸についての第２の特徴量を用いることによりアミノ酸の相互作用の情報を維持しつつ不変量化を行うことができるので、特徴量（第２の不変量化特徴量）に基づく化合物の比較（薬効判定）を正確に行うことができる。

第１１の態様に係る特徴量算出方法は第１から第４の態様のいずれか１つにおいて、対象構造体指定工程では対象構造体として化合物を指定し、立体構造取得工程では複数の原子による化合物の立体構造を発生させ、プローブ特徴量算出工程では、立体構造取得工程で取得した化合物の立体構造について、１種類以上の核酸塩基、１種類以上の脂質分子、１種類以上の単糖分子、水、１種類以上のイオンのうち１つ以上をプローブとして第３の特徴量を算出する。第１１の態様は、第１の態様における「プローブ」、「対象構造体」、「複数の単位構造体」をそれぞれ１種類以上の核酸塩基等（任意の種類、数、組合せでよい）、化合物、複数の原子としたものである。なお、イオンは単原子イオンでもよいし、複数原子から構成されるイオンでもよい。

第１２の態様に係る特徴量算出方法は第１１の態様において、第３の特徴量を化合物の回転について不変量化して第３の不変量化特徴量を算出する不変量化工程をさらに有する。第１２の態様によれば、第６，第９の態様と同様に、特徴量を扱いやすくまたデータ容量を小さくすることができる。第３の特徴量の不変量化は、第６，第９の態様と同様にポテンシャルの角度平均により行うことができる。

上述した目的を達成するため、本発明の第１３の態様に係るスクリーニング方法は複数の化合物から、標的タンパク質に結合する第１の標的化合物及び／または標的タンパク質に結合しない第２の標的化合物を抽出するスクリーニング方法であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、化合物の立体構造について第５の態様に係る特徴量算出方法を用いて算出した第１の特徴量と、を関連付けて記憶する記憶工程と、標的タンパク質との結合が確認されている化合物であるリガンドについて第１の特徴量を算出するスクリーニング特徴量算出工程と、複数の化合物についての第１の特徴量とリガンドについての第１の特徴量との類似度を算出する類似度算出工程と、複数の化合物から類似度に基づいて第１の標的化合物及び／または第２の標的化合物を抽出する化合物抽出工程と、を有する。第５の態様について上述したように、リガンドと対象化合物とで第１の特徴量が類似ならば、両者の薬効が類似している。したがって第１３の態様によれば、第１の特徴量に基づいてリガンドと薬効が類似した標的化合物（第１の標的化合物及び／または第２の標的化合物）を抽出し、医薬候補化合物のスクリーニングを効率よく行うことができる。

上述した目的を達成するため、本発明の第１４の態様に係るスクリーニング方法は複数の化合物から、標的タンパク質に結合する第１の標的化合物及び／または標的タンパク質に結合しない第２の標的化合物を抽出するスクリーニング方法であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、化合物の立体構造について第６の態様に係る特徴量算出方法を用いて算出した第１の不変量化特徴量と、を関連付けて記憶する記憶工程と、標的タンパク質との結合が確認されている化合物であるリガンドについて、第１の不変量化特徴量を算出するスクリーニング特徴量算出工程と、複数の化合物についての第１の不変量化特徴量とリガンドについての第１の不変量化特徴量との類似度を算出する類似度算出工程と、複数の化合物から類似度に基づいて第１の標的化合物及び／または第２の標的化合物を抽出する化合物抽出工程と、を有する。第１４の態様はリガンドについての特徴量を算出する点で第１３の態様と共通しているが、第１４の態様では第１の不変量化特徴量の類似度に基づいてリガンドと薬効が類似した標的化合物（第１の標的化合物及び／または第２の標的化合物）を抽出し、医薬候補化合物のスクリーニングを効率よく行うことができる。

上述した目的を達成するため、本発明の第１５の態様に係るスクリーニング方法は複数の化合物から、標的タンパク質に結合する第１の標的化合物及び／または標的タンパク質に結合しない第２の標的化合物を抽出するスクリーニング方法であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、第５の態様に係る特徴量算出方法を用いて算出した第１の特徴量と、を関連付けて記憶する記憶工程と、標的タンパク質のポケット構造体について、第８の態様に係る特徴量算出方法を用いて第２の特徴量を算出するスクリーニング特徴量算出工程と、複数の化合物についての第１の特徴量とポケット構造体についての第２の特徴量との類似度を算出する類似度算出工程と、複数の化合物から類似度に基づいて第１の標的化合物及び／または第２の標的化合物を抽出する化合物抽出工程と、を有する。

第８の態様について上述したように、ポケット構造体と対象化合物とで第２の特徴量が類似ならば、両者の化学的性質が類似している。したがって第１５の態様によれば、ポケット構造体と化学的性質が類似した標的化合物（第１の標的化合物及び／または第２の標的化合物）を抽出し、医薬候補化合物のスクリーニングを効率よく行うことができる。なおポケット構造体は標的タンパク質と結合する化合物に対応するので、ポケット構造体についての特徴量（第２の特徴量）と化合物についての特徴量（第１の特徴量）とは比較対照が可能であり類似度を算出しうる。

上述した目的を達成するため、本発明の第１６の態様に係るスクリーニング方法は複数の化合物から、標的タンパク質に結合する第１の標的化合物及び／または標的タンパク質に結合しない第２の標的化合物を抽出するスクリーニング方法であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、第６の態様に係る特徴量算出方法を用いて算出した第１の不変量化特徴量と、を関連付けて記憶する記憶工程と、標的タンパク質のポケット構造体について、第９の態様に係る特徴量算出方法を用いて第２の不変量化特徴量を算出するスクリーニング特徴量算出工程と、複数の化合物についての第１の不変量化特徴量とポケット構造体についての第２の不変量化特徴量との類似度を算出する類似度算出工程と、複数の化合物から類似度に基づいて第１の標的化合物及び／または第２の標的化合物を抽出する化合物抽出工程と、を有する。第１６の態様では、第１，第２の不変量化特徴量を用いてポケット構造体と化学的性質が類似した標的化合物（第１の標的化合物及び／または第２の標的化合物）を抽出し、医薬候補化合物のスクリーニングを効率よく行うことができる。なお第１５の態様について上述したのと同様に、ポケット構造体についての特徴量（第２の不変量化特徴量）と化合物についての特徴量（第１の不変量化特徴量）とは比較対照が可能であり類似度を算出しうる。

上述した目的を達成するため、本発明の第１７の態様に係るスクリーニング方法は複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物を抽出するスクリーニング方法であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、化合物の立体構造について第１１の態様に係る特徴量算出方法を用いて算出した第３の特徴量と、を関連付けて記憶する記憶工程と、タンパク質以外の標的生体高分子に結合することが確認されている化合物である結合化合物について第３の特徴量を算出する特徴量算出工程と、複数の化合物についての第３の特徴量と結合化合物についての第３の特徴量との類似度を算出する類似度算出工程と、複数の化合物から類似度に基づいて標的化合物を抽出する化合物抽出工程と、を有する。第１１の態様について上述したように、本発明はタンパク質以外の標的生体高分子であるＤＮＡ等を扱うことができ、標的生体高分子に結合する結合化合物と対象化合物とで第３の特徴量が類似ならば、両者の薬効が類似している。したがって第１７の態様によれば、第３の特徴量に基づいて結合化合物と薬効が類似した標的化合物を抽出し、医薬候補化合物のスクリーニングを効率よく行うことができる。

なお、第１３～第１７の態様において、化合物抽出工程では類似度がしきい値以上である化合物を抽出することができる。しきい値はスクリーニングの目的、精度等の条件に基づいて設定することができ、ユーザが指定した値に基づいて設定してもよい。また、第１３～第１７の態様において、化合物抽出工程では類似度が高い順に化合物を抽出することができる。このような抽出により、医薬候補化合物のスクリーニングを効率よく行うことができる。

上述した目的を達成するため、本発明の第１８の態様に係る化合物創出方法は複数の化合物から標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、第５の態様に係る特徴量算出方法を用いて算出した第１の特徴量と、を関連付けて記憶する記憶工程と、標的タンパク質との結合が確認されている化合物であるリガンドについて、第１の特徴量を算出する創出特徴量算出工程と、複数の化合物の立体構造を教師データとし、第１の特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、生成器を用いて、リガンドの第１の特徴量から標的化合物の立体構造を生成する化合物立体構造生成工程と、を有する。

上述した第１３から第１７の態様に係るスクリーニング方法では、構造式が既に決定されている（書き下されている）複数の化合物の中から、リガンドあるいは標的タンパク質に適合する化合物を見出している。このため、化合物の特徴量を算出した上で、別途算出したリガンドあるいは標的タンパク質のポケット構造体の特徴量との類似度に基づいて化合物を抽出する方策、つまり検索の方策を採る。したがって化合物の構造式と特徴量との対応関係を記録しておけば、類似度が高い（あるいはしきい値以上の）構造式を見出すことができる。これに対し第１８の態様では、検索をせずに、リガンドの特徴量（第１の特徴量）に特徴量が類似した（したがって薬効が類似した）化合物の構造式を生成する。

特徴量が与えられた場合の構造式の生成は、機械学習により構築した生成器を用いて行うことができる。具体的には、第１８の態様では、化合物の立体構造を教師データとし、第１の特徴量を説明変数とした機械学習（学習手法は特に限定されない）により生成器を構築し、この生成器を用いて、リガンドの第１の特徴量から標的化合物の立体構造を生成する。第１８の態様では検索を行わないので、「スクリーニングによる検索の結果、解なし」となる場合でも化合物の立体構造を生成することができ、したがって医薬候補化合物の立体構造を効率よく創出することができる。

なお、第１８の態様において生成される立体構造は教師データとして与える化合物の特徴に影響される。したがって、教師データとして与える化合物の特徴を選択することで、特徴が異なる立体構造を有する化合物を生成できる。例えば、合成が容易な化合物を教師データとして与えることで、合成が容易な立体構造を有する化合物を生成することができる。

上述した目的を達成するため、本発明の第１９の態様に係る化合物創出方法は複数の化合物から標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、第６の態様に係る特徴量算出方法を用いて算出した第１の不変量化特徴量と、を関連付けて記憶する記憶工程と、標的タンパク質との結合が確認されている化合物であるリガンドについて第１の不変量化特徴量を算出する創出特徴量算出工程と、複数の化合物の立体構造を教師データとし、第１の不変量化特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、生成器を用いて、リガンドの第１の不変量化特徴量から標的化合物の立体構造を生成する化合物立体構造生成工程と、を有する。第１９の態様では、第１８の態様と同様に、検索をせずにリガンドの特徴量（第１の不変量化特徴量）に特徴量が類似した（したがって薬効が類似した）化合物の構造式を生成するので、医薬候補化合物の立体構造を効率よく創出することができる。なお第１８の態様と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成できる。

上述した目的を達成するため、本発明の第２０の態様に係る化合物創出方法は複数の化合物から標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、第５の態様に係る特徴量算出方法を用いて算出した第１の特徴量と、を関連付けて記憶する記憶工程と、標的タンパク質のポケット構造体について、第８の態様に係る特徴量算出方法を用いて第２の特徴量を算出する創出特徴量算出工程と、複数の化合物の立体構造を教師データとし、第１の特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、生成器を用いて、ポケット構造体の第２の特徴量から標的化合物の立体構造を生成する化合物立体構造生成工程と、を有する。第２０の態様によれば、第１８，第１９の態様と同様に、検索をせずに、ポケット構造体の特徴量（第２の特徴量）に特徴量が類似した（したがって薬効が類似した）化合物の構造式を生成するので、医薬候補化合物の立体構造を効率よく創出することができる。なお第１８，第１９の態様と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成できる。

上述した目的を達成するため、本発明の第２１の態様に係る化合物創出方法は複数の化合物から標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、第６の態様に係る特徴量算出方法を用いて算出した第１の不変量化特徴量と、を関連付けて記憶する記憶工程と、標的タンパク質のポケット構造体について、第９の態様に係る特徴量算出方法を用いて第２の不変量化特徴量を算出する創出特徴量算出工程と、複数の化合物の立体構造を教師データとし、第１の不変量化特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、生成器を用いて、ポケット構造体の第２の不変量化特徴量から標的化合物の立体構造を生成する化合物立体構造生成工程と、を有する。第２１の態様によれば、第１８から第２０の態様と同様に、検索をせずに、ポケット構造体の特徴量（第２の不変量化特徴量）に特徴量が類似した（したがって薬効が類似した）化合物の構造式を生成するので、医薬候補化合物の立体構造を効率よく創出することができる。なお第１８から第２０の態様と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。

上述した目的を達成するため、本発明の第２２の態様に係る化合物創出方法は複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物の立体構造を創出する化合物創出方法であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、第１１の態様に係る特徴量算出方法を用いて算出した第３の特徴量と、を関連付けて記憶する記憶工程と、タンパク質以外の標的生体高分子との結合が確認されている化合物である結合化合物について、第３の特徴量を算出する創出特徴量算出工程と、複数の化合物の立体構造を教師データとし、第３の特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、生成器を用いて、結合化合物の第３の特徴量から標的化合物の立体構造を生成する化合物立体構造生成工程と、を有する。第２２の態様によれば、第１８から第２１の態様と同様に、検索をせずに、結合化合物の特徴量（第３の特徴量）に特徴量が類似した（したがって薬効が類似した）化合物の構造式を生成するので、医薬候補化合物の立体構造を効率よく創出することができる。なお第１８から第２１の態様と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。

上述した目的を達成するため、本発明の第２３の態様に係る化合物創出方法は標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、一つまたは複数の化合物の化学構造と、化学構造についての、第５の態様に係る特徴量算出方法を用いて算出した第１の特徴量と、第１の特徴量の目標値としての、標的化合物との結合が確認されている化合物であるリガンドについての第１の特徴量と、を入力する入力工程と、化学構造を変化させて候補構造を得る候補構造取得工程と、候補構造について、第５の態様に係る特徴量算出方法を用いて第１の特徴量を算出する創出特徴量算出工程と、候補構造を採用または棄却する候補構造採用工程であって、候補構造を採用するか否かを化学構造の変化により候補構造の第１の特徴量が目標値に近づいているか否かに基づいて判断する第１の採用処理を行い、第１の採用処理により候補構造が採用されなかった場合は、候補構造を採用するか否かを化学構造の変化により化学構造及び候補構造により構成される構造群の構造多様性が増加しているか否かに基づいて判断する第２の採用処理を行い、第１の採用処理及び第２の採用処理により候補構造が採用されなかった場合は化学構造の変化を棄却して変化をさせる前の化学構造に戻す棄却処理を行う候補構造採用工程と、終了条件を満たすまで、入力工程、候補構造取得工程、創出特徴量算出工程、及び候補構造採用工程における処理を繰り返させる制御工程と、を有する。

第２３の態様に係る化合物創出方法では、構造の多様性に基づいてローカルミニマムからの脱出を促進し、所望の物性値（第１の特徴量の目標値）を有する化合物の構造を効率的に探索することができる。また、第２３の態様では第１８の態様と同様に検索を行わないので、「スクリーニングによる検索の結果、解なし」となる場合でも化合物（リガンドの特徴量（第１の特徴量）に特徴量が類似した、したがって薬効が類似した化合物）の立体構造を生成することができ、したがって医薬候補化合物の立体構造を効率よく創出することができる。

上述した目的を達成するため、本発明の第２４の態様に係る化合物創出方法は標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、一つまたは複数の化合物の化学構造と、化学構造についての、第６の態様に係る特徴量算出方法を用いて算出した第１の不変量化特徴量と、第１の不変量化特徴量の目標値としての、標的化合物との結合が確認されている化合物であるリガンドについての第１の不変量化特徴量と、を入力する入力工程と、化学構造を変化させて候補構造を得る候補構造取得工程と、候補構造について、第６の態様に係る特徴量算出方法を用いて第１の不変量化特徴量を算出する創出特徴量算出工程と、候補構造を採用または棄却する候補構造採用工程であって、候補構造を採用するか否かを化学構造の変化により候補構造の第１の不変量化特徴量が目標値に近づいているか否かに基づいて判断する第１の採用処理を行い、第１の採用処理により候補構造が採用されなかった場合は、候補構造を採用するか否かを化学構造の変化により化学構造及び候補構造により構成される構造群の構造多様性が増加しているか否かに基づいて判断する第２の採用処理を行い、第１の採用処理及び第２の採用処理により候補構造が採用されなかった場合は化学構造の変化を棄却して変化をさせる前の化学構造に戻す棄却処理を行う候補構造採用工程と、終了条件を満たすまで、入力工程、候補構造取得工程、創出特徴量算出工程、及び候補構造採用工程における処理を繰り返させる制御工程と、を有する。第２４の態様においても、第２３の態様と同様に所望の物性値（第１の不変量化特徴量の目標値）を有する化合物の構造を効率的に探索することができ、また、医薬候補化合物の立体構造を効率よく創出することができる。

上述した目的を達成するため、本発明の第２５の態様に係る化合物創出方法は標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、一つまたは複数の化合物の化学構造と、化学構造についての、第８の態様に係る特徴量算出方法を用いて算出した第２の特徴量と、第２の特徴量の目標値としての、標的タンパク質の活性部位であるポケットとの結合が確認されているポケット構造体についての第２の特徴量と、を入力する入力工程と、化学構造を変化させて候補構造を得る候補構造取得工程と、候補構造について、第８の態様に係る特徴量算出方法を用いて第２の特徴量を算出する創出特徴量算出工程と、候補構造を採用または棄却する候補構造採用工程であって、候補構造を採用するか否かを化学構造の変化により候補構造の第２の特徴量が目標値に近づいているか否かに基づいて判断する第１の採用処理を行い、第１の採用処理により候補構造が採用されなかった場合は、候補構造を採用するか否かを化学構造の変化により化学構造及び候補構造により構成される構造群の構造多様性が増加しているか否かに基づいて判断する第２の採用処理を行い、第１の採用処理及び第２の採用処理により候補構造が採用されなかった場合は化学構造の変化を棄却して変化をさせる前の化学構造に戻す棄却処理を行う候補構造採用工程と、終了条件を満たすまで、入力工程、候補構造取得工程、創出特徴量算出工程、及び候補構造採用工程における処理を繰り返させる制御工程と、を有する。第２５の態様においても、第２３，第２４の態様と同様に所望の物性値（第２の特徴量の目標値）を有する化合物の構造を効率的に探索することができ、また、医薬候補化合物の立体構造を効率よく創出することができる。

上述した目的を達成するため、本発明の第２６の態様に係る化合物創出方法は標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、一つまたは複数の化合物の化学構造と、化学構造についての、第９の態様に係る特徴量算出方法を用いて算出した第２の不変量化特徴量と、第２の不変量化特徴量の目標値としての、標的タンパク質の活性部位であるポケットとの結合が確認されているポケット構造体についての第２の不変量化特徴量と、を入力する入力工程と、化学構造を変化させて候補構造を得る候補構造取得工程と、候補構造について、第９の態様に係る特徴量算出方法を用いて第２の不変量化特徴量を算出する創出特徴量算出工程と、候補構造を採用または棄却する候補構造採用工程であって、候補構造を採用するか否かを化学構造の変化により候補構造の第２の不変量化特徴量が目標値に近づいているか否かに基づいて判断する第１の採用処理を行い、第１の採用処理により候補構造が採用されなかった場合は、候補構造を採用するか否かを化学構造の変化により化学構造及び候補構造により構成される構造群の構造多様性が増加しているか否かに基づいて判断する第２の採用処理を行い、第１の採用処理及び第２の採用処理により候補構造が採用されなかった場合は化学構造の変化を棄却して変化をさせる前の化学構造に戻す棄却処理を行う候補構造採用工程と、終了条件を満たすまで、入力工程、候補構造取得工程、創出特徴量算出工程、及び候補構造採用工程における処理を繰り返させる制御工程と、を有する。第２６の態様においても、第２３～第２５の態様と同様に所望の物性値（第２の不変量化特徴量の目標値）を有する化合物の構造を効率的に探索することができ、また、医薬候補化合物の立体構造を効率よく創出することができる。

上述した目的を達成するため、本発明の第２７の態様に係る化合物創出方法はタンパク質以外の標的生体高分子に結合する標的化合物の立体構造を創出する化合物創出方法であって、一つまたは複数の化合物の化学構造と、化学構造についての、第１１の態様に係る特徴量算出方法を用いて算出した第３の特徴量と、第３の特徴量の目標値としての、タンパク質以外の標的生体高分子に結合することが確認されている化合物である結合化合物についての第３の特徴量と、を入力する入力工程と、化学構造を変化させて候補構造を得る候補構造取得工程と、候補構造について、第１１の態様に係る特徴量算出方法を用いて第３の特徴量を算出する創出特徴量算出工程と、候補構造を採用または棄却する候補構造採用工程であって、候補構造を採用するか否かを化学構造の変化により候補構造の第３の特徴量が目標値に近づいているか否かに基づいて判断する第１の採用処理を行い、第１の採用処理により候補構造が採用されなかった場合は、候補構造を採用するか否かを化学構造の変化により化学構造及び候補構造により構成される構造群の構造多様性が増加しているか否かに基づいて判断する第２の採用処理を行い、第１の採用処理及び第２の採用処理により候補構造が採用されなかった場合は化学構造の変化を棄却して変化をさせる前の化学構造に戻す棄却処理を行う候補構造採用工程と、終了条件を満たすまで、入力工程、候補構造取得工程、創出特徴量算出工程、及び候補構造採用工程における処理を繰り返させる制御工程と、を有する。第２７の態様においても、第２３～第２６の態様と同様に所望の物性値（第３の特徴量の目標値）を有する化合物の構造を効率的に探索することができ、また、医薬候補化合物の立体構造を効率よく創出することができる。

なお、第２３から第２７の態様において、「化学構造」は初期状態における構造（初期構造）に加えて、初期構造が処理の繰り返しにより変化した構造を含む。

以上説明したように、本発明の特徴量算出方法によれば、対象構造体の化学的性質を的確に示す特徴量を算出することができる。また、本発明のスクリーニング方法によれば、医薬候補化合物のスクリーニングを効率よく行うことができる。また、本発明の化合物創出方法によれば、医薬候補化合物の立体構造を効率よく創出することができる。

図１は、第１の実施形態に係るスクリーニング装置の構成を示すブロック図である。図２は、処理部の構成を示すブロック図である。図３は、記憶部に記憶される情報を示す図である。図４は、化合物の構造情報と特徴量とを関連付けて記憶する様子を示す図である。図５は、微分散乱断面積を求める様子を示す図である。図６は、化合物についてのＡＡＳ記述子の算出手順を示すフローチャートである。図７は、構造式の３次元化の例を示す図である。図８は、微分散乱断面積の例を示す図である。図９は、微分散乱断面積の例を示す他の図である。図１０は、ポケット構造体についてのＡＡＳ記述子の算出手順を示すフローチャートである。図１１は、標的タンパク質とポケット構造体との関係を示す概念図である。図１２は、各種の不変量化ＡＡＳ記述子についてのヒットの見つけやすさの例を示す図である。図１３は、標的タンパク質に結合する化合物、及び標的タンパク質に結合しない化合物についてのヒットの見つけやすさを示す図である。図１４は、リガンドのＡＡＳ記述子に基づく化合物の抽出の手順を示すフローチャートである。図１５はリガンド入力のスクリーニング結果の例を示す表である。図１６は、ポケット構造体についてのＡＡＳ記述子を用いたスクリーニングの手順を示すフローチャートである。図１７は、標的タンパク質入力のスクリーニング結果の例を示す表である。図１８は、第２の実施形態に係る化合物創出装置の構成を示すブロック図である。図１９は、処理部の構成を示す図である。図２０は、記憶部に記憶される情報を示す図である。図２１は、リガンド入力の場合の立体構造生成手順を示すフローチャートである。図２２は、機械学習を用いた生成器構築の様子を示す概念図である。図２３は、生成器を用いた立体構造の生成例を示す図である。図２４は、標的タンパク質が入力の場合の立体構造生成手順を示すフローチャートである。構造の多様性に基づく化合物の立体構造創出を行う場合の化合物創出装置の構成を示す図である。図２６は、構造多様性に基づく立体構造生成処理の手順を示すフローチャートである。図２７は、第３の実施形態に係る医薬候補化合物探索装置の構成を示すブロック図である。図２８は、処理部の構成を示す図である。図２９は、記憶部に記憶される情報を示す図である。

以下、添付図面を参照しつつ、本発明の特徴量算出方法、スクリーニング方法、及び化合物創出方法の実施形態について、詳細に説明する。

＜第１の実施形態＞
図１は第１の実施形態に係るスクリーニング装置１０（特徴量算出装置、スクリーニング装置）の構成を示すブロック図である。スクリーニング装置１０は化合物（対象構造体）及び／またはポケット構造体（対象構造体）についての特徴量の算出、及び標的化合物の抽出（スクリーニング）を行う装置であり、コンピュータを用いて実現することができる。図１に示すように、スクリーニング装置１０は処理部１００（プロセッサ）、記憶部２００、表示部３００、及び操作部４００を備え、互いに接続されて必要な情報が送受信される。これらの構成要素については各種の設置形態を採用することができ、各構成要素が１箇所（１筐体内、１室内等）に設置されていてもよいし、離れた場所に設置されネットワークを介して接続されていてもよい。また、スクリーニング装置１０はインターネット等のネットワークＮＷを介して外部サーバ５００、及びＰＤＢ（Protein Data Bank）等の外部データベース５１０に接続し、必要に応じて化合物の構造式、タンパク質の結晶構造等の情報を取得することができる。

＜処理部の構成＞
図２は処理部１００（プロセッサ）の構成を示すブロック図である。処理部１００は情報入力部１１０、特徴量算出部１２０、類似度算出部１３０、化合物抽出部１４０、表示制御部１５０、ＣＰＵ１６０（ＣＰＵ：Central Processing Unit）、ＲＯＭ１７０（ＲＯＭ：Read Only Memory）、及びＲＡＭ１８０（ＲＡＭ：Random Access Memory）を備える。

情報入力部１１０は、不図示の光磁気ディスク、半導体メモリ等の記録媒体及び／またはネットワークＮＷを介して化合物の構造式、標的タンパク質のＸ結晶構造及びポケット位置等の情報を入力する。特徴量算出部１２０（対象構造体指定部、立体構造発生部、特徴量算出部）は、本発明に係る特徴量（第１の特徴量、第１の不変量化特徴量、第２の特徴量、第２の不変量化特徴量、第３の特徴量、第３の不変量化特徴量）を算出する。類似度算出部１３０（類似度算出部）は、算出した特徴量どうしの類似度を算出する。化合物抽出部１４０（化合物抽出部）は、複数の化合物から類似度に基づいて標的化合物を抽出する。表示制御部１５０は、入力した情報及び処理結果のモニタ３１０への表示を制御する。処理部１００のこれらの機能を用いた特徴量算出及び標的化合物のスクリーニングの処理については、詳細を後述する。なお、これらの機能による処理はＣＰＵ１６０の制御の下で行われる。

上述した処理部１００の各部の機能は、各種のプロセッサ（processor）を用いて実現できる。各種のプロセッサには、例えばソフトウェア（プログラム）を実行して各種の機能を実現する汎用的なプロセッサであるＣＰＵが含まれる。また、上述した各種のプロセッサには、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）も含まれる。さらに、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路なども上述した各種のプロセッサに含まれる。

各部の機能は１つのプロセッサにより実現されてもよいし、複数のプロセッサを組み合わせて実現されてもよい。また、複数の機能を１つのプロセッサで実現してもよい。複数の機能を１つのプロセッサで構成する例としては、第１に、クライアント、サーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組合せで１つのプロセッサを構成し、このプロセッサが複数の機能として実現する形態がある。第２に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、システム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の機能は、ハードウェア的な構造として、上述した各種のプロセッサを１つ以上用いて構成される。さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。

上述したプロセッサあるいは電気回路がソフトウェア（プログラム）を実行する際は、実行するソフトウェアのプロセッサ（コンピュータ）読み取り可能なコードをＲＯＭ１７０（図２を参照）等の非一時的記録媒体に記憶しておき、プロセッサがそのソフトウェアを参照する。非一時的記録媒体に記憶しておくソフトウェアは、本発明に係る特徴量算出方法、スクリーニング方法、及び化合物創出方法を実行するためのプログラム（特徴量算出プログラム、スクリーニングプログラム、及び化合物創出プログラム）を含む。ＲＯＭ１７０ではなく各種光磁気記録装置、半導体メモリ等の非一時的記録媒体にコードを記録してもよい。ソフトウェアを用いた処理の際には例えばＲＡＭ１８０が一時的記憶領域として用いられ、また例えば不図示のＥＥＰＲＯＭ（Electronically Erasable and Programmable Read Only Memory）に記憶されたデータを参照することもできる。

＜記憶部の構成＞
記憶部２００はＤＶＤ（Digital Versatile Disk）、ハードディスク（Hard Disk）、各種半導体メモリ等の非一時的記録媒体及びその制御部により構成され、図３に示す画像及び情報が記憶される。構造情報２１０は化合物の構造式、標的タンパク質の立体構造及びポケット位置を含む。立体構造情報２２０は、化合物及び／またはポケット構造体の立体構造の情報であり、構造情報２１０から発生させたものでもよいし、既に立体化された情報を入力したものでもよい。ＡＡＳ記述子２３０（第１の特徴量、第２の特徴量、第３の特徴量）は、化合物やポケット構造体等の対象構造体に対する１種類以上のプローブの断面積を示す特徴量であり、後述する特徴量算出方法により算出される。不変量化ＡＡＳ記述子２４０（第１の不変量化特徴量、第２の不変量化特徴量、第３の不変量化特徴量）は、ＡＡＳ記述子２３０を化合物またはポケット構造体の回転について不変量化した特徴量である。類似度情報２５０は特徴量どうしの類似度を示す情報であり、化合物抽出結果２６０は類似度に基づいて抽出した標的化合物を示す情報である。

図４は、Ｎ個（Ｎは２以上の整数）の化合物について、構造情報２１０、立体構造情報２２０、ＡＡＳ記述子２３０、及び不変量化ＡＡＳ記述子２４０が関連付けられて記憶部２００に記憶される様子を示す図である。図４において、例えば構造式を構造情報２１０とし、立体化した構造式（後述）を立体構造情報２２０とすることができる。また図４では、各化合物に対し、２０種類のアミノ酸のそれぞれについて、ＡＡＳ記述子２３０（“Ｖ_a(r)”のように記載；ａはアミノ酸の種類を表す添字）と、そのＡＡＳ記述子２３０に対応する不変量化ＡＡＳ記述子２４０（“Ｖ_a(r)”のように記載；ａはアミノ酸の種類を表す添字、r=|r|；rはベクトルrの絶対値）を関連付けて記憶している。なお、ＡＡＳ記述子２３０及び不変量化ＡＡＳ記述子２４０は、後述するように最近接距離、散乱角、微分散乱断面積等の形式で表現することができるが、図４では便宜上それらの表現をまとめて“Ｖ_a(r)”及び“Ｖ_a(r)”と記載している。また、ＡＡＳ記述子２３０及び不変量化ＡＡＳ記述子２４０は、２０種類のアミノ酸すべてについてではなく、スクリーニングに用いる記述子の数に応じて一部のアミノ酸について記憶してもよい。

記憶部２００において、図４に示すような情報のセット（ライブラリ）を複数記憶してもよい。なお、図４では化合物についての情報の記憶の様子を示したが、標的タンパク質についても同様の構成で情報を記憶することができる。また、このような構造情報及び立体構造情報を用いたＡＡＳ記述子及び／または不変量化ＡＡＳ記述子の算出方法は後述する。

＜表示部及び操作部の構成＞
表示部３００はモニタ３１０（表示装置）を備えており、入力した画像、記憶部２００に記憶された画像及び情報、処理部１００による処理の結果等を表示することができる。操作部４００は入力デバイス及び／またはポインティングデバイスとしてのキーボード４１０及びマウス４２０を含んでおり、ユーザはこれらのデバイス及びモニタ３１０の画面を介して、本発明に係る特徴量算出方法の実行及び標的化合物の抽出に必要な操作を行うことができる（後述）。ユーザが実行できる操作には、例えば処理モード、算出する記述子の種類、スクリーニングに用いる記述子、類似度に対するしきい値の指定等が含まれる。

＜スクリーニング装置における処理＞
上述した構成のスクリーニング装置１０では、操作部４００を介したユーザの指示に応じて、特徴量（記述子）の算出及び／または標的化合物の抽出を行うことができる。以下、各処理の詳細を説明する。

＜特徴量の算出＞
スクリーニング装置１０は、操作部４００を介したユーザの指示に応じて、ＡＡＳ記述子及び／または不変量化ＡＡＳ記述子を算出することができる。

＜化合物に対するＡＡＳ記述子の算出＞
ＡＡＳ記述子は、化合物（対象構造体）に対しアミノ酸（アラニン、バリン等２０種類）等のプローブを衝突させ、散乱させた場合の微分散乱断面積（断面積、散乱断面積）である。この微分散乱断面積は、スクリーニング装置１０でシミュレーション（本発明の特徴量算出方法の実行）を行うことにより算出することができる。シミュレーションでは、図５に示すように、座標系の原点に配置された化合物９００に対し、アミノ酸等のプローブ９０２（プローブ）を衝突、散乱させる状況を想定する。

シミュレーションで得られるデータ（スカラー量）、すなわち以下の式（１）で得られるデータが目的の記述子であり、上述のようにこの記述子を「アミノ酸散乱記述子（ＡＡＳ記述子）」と呼ぶ。なお、散乱状態なので、アミノ酸等のプローブの全エネルギー（相互作用エネルギー＋運動エネルギー）は正である。

[数１] ｄσ／ｄΩ(E ,b ,a) （１）
ここで、Ｅはプローブの入射エネルギーを特定するための引数であり、ｂはプローブの衝突径数を特定するための引数であり、ａはプローブの種類を特定するための引数である。なお、図５では１つのアミノ酸が化合物と散乱する場合について説明したが、上述のシミュレーションでは、２つ以上のアミノ酸を連結させたペプチドがプローブでもよい。この場合、式（１）における“ａ”は、ペプチドの種類を特定するための引数を意味する。

取り扱いを便利にするため、上述のｄσ／ｄΩ(E ,b ,a)を化合物の回転の操作に対し不変になるように構成することが可能であり、そのように処理された記述子を「不変量化アミノ酸散乱記述子（不変量化ＡＡＳ記述子）」と呼ぶ。例えば、化合物をあらゆる角度で平均し、その平均化した化合物に対しｄσ／ｄΩ(E ,b ,a)を計算することで得た量は、回転の操作に対し不変な量であり、「不変量化アミノ酸散乱記述子（不変量化ＡＡＳ記述子）」の一つの表現である。ＡＡＳ記述子の不変量化については後述する。

なお、ＡＡＳ記述子及び不変量化ＡＡＳ記述子に関し、アミノ酸はプローブの一例であり、後述するように他の物質がプローブでもよい。ただし、プローブは、実数電荷を持ちファンデルワールス力を発生させる複数の点が離間して配置された構造体であるものとする。本発明では、このようにプローブの範囲をアミノ酸以外の物質まで拡張した場合の特徴量も「ＡＡＳ記述子」あるいは「不変量化ＡＡＳ記述子」と呼ぶ。

図６は、化合物（対象構造体）についてのＡＡＳ記述子の算出手順を示すフローチャートである。ステップＳ１００では、情報入力部１１０（プロセッサ）は、操作部４００等を介したユーザの指示に応じて化合物の構造式を入力する。これにより、入力した化学式で表される化合物が対象構造体として指定される（対象構造体指定工程）。

特徴量算出部１２０（プロセッサ）は、入力した構造式を３次元化して、複数の原子（化学的性質を有する複数の単位構造体）による化合物の立体構造を発生させる（ステップＳ１０２：立体構造取得工程）。構造式の３次元化は種々の手法が知られており、ステップＳ１０２で用いる手法は特に限定されない。図７は構造式の３次元化の例を示す図であり、同図の（ａ）部分は入力した構造式、（ｂ）部分は３次元化した構造式を示す。なお、ステップＳ１００，Ｓ１０２のように構造式を入力してそれを３次元化するのに代えて、既に３次元化された立体構造を取得（入力）してもよい（立体構造取得工程）。特徴量算出部１２０は、３次元化した構造式の重心をr(x ,y ,z)=0（座標系の原点）に置く（ステップＳ１０２：立体構造取得工程）。

特徴量算出部１２０は、アミノ酸“ａ”（ａはアミノ酸の種類を表す数字；１から２０）の各原子“μ”が感じる相互作用エネルギーＶ_aμ(r)を算出する（ステップＳ１０４；プローブ特徴量算出工程）。なお、Ｖ_aμ(r)において“r”はベクトルである。Ｖ_aμ(r)の算出方法としては分子動力学法（MD：Molecular Dynamics）を採用することができるが、これに限定されない。Ｖ_aμ(r)を算出するアミノ酸はあらかじめ決められた種類でもよいし、ユーザの指示に応じて決定してもよい（１種類以上であればよく、複数種類でもよい）。

特徴量算出部１２０は、Ｖ_aμ(r)から、アミノ酸の重心が感じる相互作用エネルギーＶ_a(r)を算出し（ステップＳ１０６：プローブ特徴量算出工程）、Ｖ_a(r)に対しr=0（(x,y,z)=(0,0,0)）を中心に角度平均をとってＶ_a(r)を算出する（ステップＳ１０８：プローブ特徴量算出工程）。r=|r|（rはベクトルrの絶対値）、すなわちＶ_a(r)におけるrはＶ_aμ(r)におけるベクトルrの絶対値である。

さらに、特徴量算出部１２０は、ステップＳ１０６で算出したＶ_a(r)から、最近接距離ｒ_min,ａと散乱角θ_ａを、上述した入射エネルギーＥ及び衝突径数ｂの関数として算出する（ステップＳ１１０：プローブ特徴量算出工程）。後述するように、この最近接距離ｒ_min,ａと散乱角θ_ａはＡＡＳ記述子の一つの表現である。特徴量算出部１２０は、最近接距離ｒ_min,ａと散乱角θ_ａから、微分散乱断面積ｄσ／ｄΩ(E ,b ,a)を入射エネルギーＥ及び衝突径数ｂの関数として算出する（ステップＳ１１２：プローブ特徴量算出工程）。この微分散乱断面積ｄσ／ｄΩ(E ,b ,a)も、ＡＡＳ記述子の一つの表現である。

図８は、図７に示した化合物についての微分散乱断面積を示す図である。図８の（ａ）部分はアラニン（アミノ酸）についての微分散乱断面積（ＡＡＳ記述子、第１の特徴量）のグラフであり、同図の（ｂ）部分はフェニルアラニン（アミノ酸）についての微分散乱断面積（第１の特徴量）のグラフである。また、図９は、図７に示した化合物についての特徴量（プローブはアラニン）を別の形式で表したグラフである。具体的には、図９の（ａ）部分は最近接距離ｒ_min,ａ（第１の特徴量）を示すグラフであり、同図の（ｂ）部分は散乱角θ_ａを示すグラフである。

＜ポケット構造体に対するＡＡＳ記述子の算出＞
スクリーニング装置１０では、標的タンパク質に結合するポケット構造体を対象構造体として指定し、このポケット構造体に対する特徴量（ＡＡＳ記述子；第２の特徴量）を算出することもできる。ポケット構造体は標的タンパク質の活性部位であるポケットに結合する対象構造体であり、「活性部位」とはポケット構造体が結合することにより標的タンパク質の活性が促進または抑制される部位を意味する。図１０はポケット構造体に対するＡＡＳ記述子の算出手順を示すフローチャートであり、図１１は標的タンパク質とポケット構造体との関係を示す概念図である。

図１０のフローチャートでは、情報入力部１１０が標的タンパク質の立体構造の実測及びポケットの位置情報を入力する（ステップＳ２００：対象構造体指定工程）。図１１の（ａ）部分は、標的タンパク質ＴＰにおけるポケットＰＯを示す。ステップＳ２００の処理によりポケット構造体が対象構造体として指定される。

特徴量算出部１２０は、標的タンパク質のポケットに複数の仮想的球体（化学的性質を有する複数の単位構造体）を詰める（ステップＳ２０２：対象構造体指定工程、立体構造取得工程）。「仮想的球体」はファンデルワールス半径、電荷等の化学的性質を有すると考えることができ、「仮想的球体を詰める」のはシミュレーション（例えば分子動力学法）により行うことができる。ステップＳ２０２により、詰められた仮想的球体の集まり（立体構造）をポケット構造体（対象構造体）の立体構造として得ることができる（ステップＳ２０４：立体構造発生工程）。図１１の（ｂ）部分に、標的タンパク質ＴＰに対するポケット構造体ＰＳの例を示す。

特徴量算出部１２０は、取得した立体構造を用いて、ポケット構造体に対する１種類以上のアミノ酸の断面積（第２の特徴量；ＡＡＳ記述子の一態様）を算出する（ステップＳ２０６：プローブ特徴量算出工程）。実際に、ポケット構造体によりアミノ酸がどのように散乱されるかを算出することが可能である。なお、第２の特徴量を算出するアミノ酸は１種類以上であればよい（複数種類でもよい）。また、第２の特徴量の算出は、あらかじめ決められた種類のアミノ酸について行ってもよいし、ユーザの操作に応じて設定したアミノ酸について行ってもよい。特徴量算出部１２０は、算出したＡＡＳ記述子を、ＡＡＳ記述子２３０として化合物の構造情報（構造情報２１０）、立体構造情報（立体構造情報２２０）と関連付けて記憶部２００に記憶する（図３，４参照；記憶工程）。後述する不変量化ＡＡＳ記述子が算出されている場合は、特徴量算出部１２０はＡＡＳ記述子と不変量化ＡＡＳ記述子との関連付けを行う。

＜核酸塩基等をプローブとするＡＡＳ記述子の算出＞
本発明では、医薬のターゲットとしてタンパク質以外の生体高分子（化合物）であるＤＮＡ（Deoxyribonucleic Acid）、ＲＮＡ（Ribonucleic Acid）、細胞膜、多糖を扱うことができる。これらのターゲット化合物についての特徴量（第３の特徴量；ＡＡＳ記述子の一態様）を算出する場合、プローブはアミノ酸ではなく別の物質（各ターゲットのビルディングブロック）にする。具体的には、ターゲットがＤＮＡ、ＲＮＡ、細胞膜、多糖の場合、プローブはそれぞれ１種類以上の核酸塩基、１種類以上の核酸塩基、１種類以上の脂質分子、１種類以上の単糖分子とする。また、これらをプローブとして特徴量を算出する際に、水、１種類以上のイオンを考慮してもよい。化合物の薬効（ＤＮＡ等のターゲットへの結合力）は局所的には化合物と核酸塩基等（プローブ）との相互作用の結果として表されるので、化合物間で核酸塩基等の断面積を示す特徴量が類似であれば、それら化合物はターゲットとの結合力が類似していることを示す。すなわち、第３の特徴量が類似な化合物は類似の薬効を示す。したがって、第３の特徴量により化合物の化学的性質を的確に判断することができる。なお、第３の特徴量は第１，第２の特徴量の場合と同様に算出することができる（図５，６及びそれらの説明等を参照）。

＜ＡＡＳ記述子の不変量化＞
上述したＡＡＳ記述子はアミノ酸等の断面積を示しているが、化合物が同じでも回転が起きると値が変化する。そこで第１の実施形態に係るスクリーニング装置１０では、特徴量算出部１２０（プロセッサ）は、ＡＡＳ記述子に加え、またはこれに代えて「ＡＡＳ記述子を化合物の回転に対して不変量化した不変量化ＡＡＳ記述子」（第１の不変量化特徴量、第２の不変量化特徴量、第３の不変量化特徴量）を算出することができる。なお、化合物の場合もポケット構造体の場合も、同じ手順で不変量化を行うことができる。化合物についてのＡＡＳ記述子（第１の特徴量、第３の特徴量）を用いた場合は化合物についての不変量化ＡＡＳ記述子（第１の不変量化特徴量、第３の不変量化特徴量）が得られ、ポケット構造体についてのＡＡＳ記述子（第２の特徴量）を用いた場合はポケット構造体についての不変量化ＡＡＳ記述子（第２の不変量化特徴量）が得られる。

上述した相互作用エネルギーＶ_a(r)（ステップＳ１０６を参照）から算出した最近接距離ｒ_min,ａ及び散乱角θ_ａ、また微分散乱断面積ｄσ／ｄΩ(E ,b ,a)は不変量化する前のＡＡＳ記述子の例である。特徴量算出部１２０は、Ｖ_a(r)を角度平均して得たＶ_a(r)（r=|r|、rはベクトルrの絶対値；ステップＳ１０８を参照）を用いることにより、不変量化ＡＡＳ記述子（最近接距離ｒ_min,ａ及び散乱角θ_ａ、また微分散乱断面積ｄσ／ｄΩ(E ,b ,a)；第１～第３の不変量化）を算出することができる。なお、ＡＡＳ記述子は最初から並進に関しては不変量であり、不変量化の対象は回転のみとなる。

特徴量算出部１２０は、算出した不変量化ＡＡＳ記述子を、不変量化ＡＡＳ記述子２４０として化合物の構造情報（構造情報２１０）、立体構造情報（立体構造情報２２０）、及び元のＡＡＳ記述子２３０と関連付けて記憶部２００に記憶する（図３，４参照；記憶工程）。なお、２種類の異なるアミノ酸についてのＡＡＳ記述子を用いて不変量化ＡＡＳ記述子を算出する場合、ＡＡＳ記述子と不変量化ＡＡＳ記述子との関連付けも複数ありうる。

上述した不変量化ＡＡＳ記述子によれば、記述子が類似の化合物は類似した薬効（例えば、標的タンパク質への結合）を示すので、対象構造体（化合物、ポケット構造体、生体高分子）の化学的性質を的確に示す。また、ＡＡＳ記述子を不変量化した不変量化ＡＡＳ記述子によれば、例えば２種類の異なるアミノ酸についてのＡＡＳ記述子を用いて不変量化を行うことで、記述子に基づく化合物の比較（薬効判定）を正確に行いつつ、特徴量を扱いやすくデータ容量を削減することができる。さらに、不変量化ＡＡＳ記述子によればヒットを容易に見つけることができる。

＜不変量化ＡＡＳ記述子によるヒットの見つけやすさ＞
以下の手順１～５により、不変量化ＡＡＳ記述子によるヒットの見つけやすさを評価した。
（手順１）あるターゲット（標的タンパク質等）に対して、ヒット化合物Ｘ個とヒットでない化合物Ｙ個とを混ぜる。
（手順２）（Ｘ＋Ｙ）個の化合物すべてについて、不変量化ＡＡＳ記述子を計算する。
（手順３）記述子ごとの類似度を算出する。
（手順４）（Ｘ＋Ｙ）個の化合物を、不変量化ＡＡＳ記述子の類似度に基づいてチーム分けする。
（手順５）ヒットが集まったチームが機械的に発生するかどうかチェックする。

タンパク質ＡＢＬ１（キナーゼ）に対して作成したチームについて、チームごとのヒットの見つけやすさ（＝期待値；ヒット数×ヒット含有率）の例（ランダムにチーム分けした場合との比較結果）を図１２に示す。なお、図１２の（ａ）部分では、（１）不変量化ＡＡＳ記述子（プローブはアミノ酸；第１の不変量化特徴量）、（２）不変量化複数イオン（プローブは、共に単原子イオンであるＮａ^＋とＣｌ^－；第３の不変量化特徴量）、（３）不変量化ＡＡＳ記述子及びイオン（プローブはアミノ酸及びＮａ^＋とＣｌ^－；第４の不変量化特徴量）、（４）不変量化ダイポール（プローブはダイポール；第５の不変量化特徴量）、（５）不変量化ＡＡＳ記述子とダイポール（プローブはアミノ酸及びダイポール；第６の不変量化特徴量）、（６）不変量化複数イオンとダイポール（プローブはＮａ^＋とＣｌ^－、及びダイポール；第７の不変量化特徴量）、（７）不変量化ＡＡＳ記述子と複数イオンとダイポール（プローブはアミノ酸、Ｎａ^＋とＣｌ^－、及びダイポール；第８の不変量化特徴量）についてのヒット数の期待値を示している。また、図１２の（ｂ）部分では、（１）不変量化ＡＡＳ記述子（プローブはアミノ酸；第１の不変量化特徴量、同図の（ａ）部分の（１）と同じ）、（８）不変量化単原子イオン（プローブはＮａ^＋；第３の不変量化特徴量）、（９）不変量化ＡＡＳ記述子と単原子イオン（プローブはアミノ酸とＮａ^＋；第４の不変量化特徴量）、（１０）不変量化単原子イオンとダイポール（プローブはＮａ^＋とダイポール；第７の不変量化特徴量）、（１１）不変量化ＡＡＳ記述子と単原子イオンとダイポール（プローブはアミノ酸とＮａ^＋とダイポール；第８の不変量化特徴量）についてのヒット数の期待値を示している。

図１２の結果より、不変量化ＡＡＳ記述子を用いた場合、ランダムなチーム分けよりも多くのヒットを含むチームが発生することが分かる。なお、図１２においてチーム番号はチーム分け方法（ランダム、不変量化ＡＡＳ記述子）によって異なるので、チーム分けの優劣は、同一のチーム番号での期待値を比較するのではなく「期待値の高い（より多くのヒットを含む）チームが含まれるかどうか」により判断している。

＜標的タンパク質に結合する化合物／結合しない化合物の不変量化ＡＡＳ記述子＞
本発明で用いられる特徴量（ＡＡＳ記述子、不変量化ＡＡＳ記述子、アミノ酸散乱記述子）によれば、例えば図１２について説明したように、標的タンパク質に結合する標的化合物の抽出や創出を行うことができるが、これ以外にも、例えば標的タンパク質に結合しない標的化合物の抽出や創出を行うことができる。図１３の（ａ）部分は、不変量化ＡＡＳ記述子に基づいて算出した、標的タンパク質（図１２の例と同じタンパク質ＡＢＬ１）に結合する化合物（第１の標的化合物）のヒット数の期待値（ランダムにチーム分けした場合との比較）の例（プローブはアミノ酸である）であり、同図の（ｂ）部分は同じく不変量化ＡＡＳ記述子に基づいて算出した、標的タンパク質に結合しない化合物（第２の標的化合物）のヒット数の期待値の例である。図１３から分かるように、本発明に係る特徴量を用いることにより、標的タンパク質に結合する化合物（第１の標的化合物）だけでなく、標的タンパク質に結合しない化合物（第２の標的化合物）についても、ヒットを容易に見つけることができる。ここで、結合力は例えばＩＣ５０（half maximal (50%) inhibitory concentration；５０％阻害濃度）で測定することができ、この場合「結合する／しない」のしきい値には１００～１０００μＭ程度の値を用いることができるが、課題（どのような特性を評価するか）に応じて異なる指標や異なる値を用いてもよい。

なお、「特定のタンパク質と結合しない」ということは「毒性がない（毒性が低い）化合物の記述に有効」ということを意味するので、ＡＡＳ記述子や不変量化ＡＡＳ記述子の類似度を利用して、毒性のない（毒性が低い）化合物を探索あるいは創出することができる。

＜特徴量算出方法の効果＞
以上説明したように、第１の実施形態に係るスクリーニング装置１０（特徴量算出装置、スクリーニング装置）では、本発明に係る特徴量算出方法及びこれを実行するプログラム（特徴量算出プログラム）を用いて、対象構造体の化学的性質を的確に示す特徴量（ＡＡＳ記述子、不変量化ＡＡＳ記述子）を算出することができる。

＜標的化合物の抽出（スクリーニング）＞
上述したＡＡＳ記述子、不変量化ＡＡＳ記述子を用いた、複数の化合物からの標的化合物（医薬候補化合物）の抽出について説明する。標的化合物の抽出はリガンドの記述子（ＡＡＳ記述子、不変量化ＡＡＳ記述子）に基づいて行うモード（第１のモード）と標的タンパク質のポケット構造体の記述子（ＡＡＳ記述子、不変量化ＡＡＳ記述子）に基づいて行うモード（第２のモード）と、結合化合物（タンパク質以外の標的生体高分子に結合することが確認されている化合物）の記述子（ＡＡＳ記述子、不変量化ＡＡＳ記述子）に基づいて行うモード（第３のモード）と、がある。いずれのモードにより抽出を行うかは、操作部４００を介したユーザの操作に応じて選択することができる。

＜リガンド入力のスクリーニング＞
図１４は、リガンドのＡＡＳ記述子を用いたスクリーニング（第１のモード）の手順を示すフローチャートである。処理が開始すると、特徴量算出部１２０はリガンドのＡＡＳ記述子を算出する（ステップＳ３００：スクリーニング特徴量算出工程）。なおリガンドは標的タンパク質との結合が確認されている化合物なので、ステップＳ３００におけるＡＡＳ記述子の算出は図６のフローチャートに示す手順により行うことができる。

図４について上述したように、スクリーニング装置１０では、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、この立体構造に対応するＡＡＳ記述子（第１の特徴量）とが関連付けて記憶部２００に記憶されている。類似度算出部１３０は、化合物についてのＡＡＳ記述子と、ステップＳ４００で算出したリガンドのＡＡＳ記述子との類似度を算出する（ステップＳ３０２：類似度算出工程）。類似度を算出したら、化合物抽出部１４０は類似度に基づいて標的化合物を抽出する（ステップＳ３０４：化合物抽出工程）。上述のようにＡＡＳ記述子が類似であれば類似の薬効（標的タンパク質への結合）を示すので、ＡＡＳ記述子の類似度を用いることにより、リガンドと類似の薬効を有する化合物（すなわち、医薬候補である標的化合物）を抽出することができる。なお類似度に基づく標的化合物の抽出（ステップＳ３４０４）は、具体的には「類似度がしきい値以上の化合物を抽出する」、「類似度が高い順に化合物を抽出する」等により行うことができる。

図１４ではＡＡＳ記述子を用いたスクリーニングの手順について説明しているが、不変量化ＡＡＳ記述子を用いたスクリーニングも同様の手順で行うことができる。具体的には、特徴量算出部１２０が図６の手順及び上述した式（２），（３）によりリガンドの不変量化ＡＡＳ記述子（第１の不変量化特徴量）を算出し、類似度算出部１３０が、記憶部２００に記憶されている化合物の不変量化ＡＡＳ記述子との類似度を算出する。類似度を算出したら、化合物抽出部１４０が類似度に基づいて標的化合物を抽出する。類似度に基づく標的化合物抽出の具体的態様は、ＡＡＳ記述子と同様に行うことができる。

図１５はリガンド入力のスクリーニング結果の例を示す表である。図１５の（ａ）部分はＡＡＳ記述子を用い「類似度がしきい値以上の化合物を抽出する」とした場合の結果を示し、（ｂ）部分は不変量化ＡＡＳ記述子を用い「類似度が高い順に化合物を抽出する」とした場合の結果を示す。なお、図１５の（ａ）部分ではアミノ酸１についてのＡＡＳ記述子（図４についての説明と同様に、各種の表現をまとめて“Ｖ_a(r)”のように記載）に基づいて化合物を抽出しているが、他のアミノ酸（アミノ酸２～２０）についてのＡＡＳ記述子（例えば、Ｖ₂(r)）に基づいて化合物を抽出してもよい。また、異なるアミノ酸についての複数のＡＡＳ記述子（例えば、Ｖ₁(r)とＶ₂(r)）の類似度（Ｖ₁(r)どうしの類似度とＶ₂(r)どうしの類似度）をそれぞれ算出し、これに基づいて化合物を抽出してもよい。化合物の抽出に用いるＡＡＳ記述子は１種類でよいが、複数種類のＡＡＳ記述子を用いることにより、類似度に基づく化合物の抽出を正確に行うことができる。なお、複数種類のＡＡＳ記述子を用いる場合、それら記述子の間でのアミノ酸の組み合わせは特に限定されない（例えば、Ｖ₁(r)とＶ₂(r)でもよいし、Ｖ₃(r)とＶ₄(r)でもよい）。

同様に、図１５の（ｂ）部分ではアミノ酸１，２についての不変量化ＡＡＳ記述子（Ｖ₁(r)、Ｖ₂(r)）に基づいて化合物を抽出しているが、不変量化ＡＡＳ記述子の算出を行うアミノ酸は他の組合せ（例えば、アミノ酸３，４によるＶ₃(r)、Ｖ₄(r)）であってもよい。また、アミノ酸の組合せが異なる複数の不変量化ＡＡＳ記述子（例えば、Ｖ₁(r)及びＶ₂(r)とＶ₃(r)及びＶ₄(r)）に基づいて化合物の抽出を行ってもよい（例えば、Ｖ₁(r)、Ｖ₂(r)の類似度とＶ₃(r)、Ｖ₄(r)の類似度を用いる）。化合物の抽出に用いる不変量化ＡＡＳ記述子は１種類でよいが、複数種類の不変量化ＡＡＳ記述子を用いることにより、類似度に基づく化合物の抽出を正確に行うことができる。なお、複数種類の不変量化ＡＡＳ記述子を用いる場合、それら記述子の間でのアミノ酸の組み合わせは特に限定されない（例えば、Ｖ₁(r)及びＶ₂(r)とＶ₃(r)及びＶ₄(r)でもよいし、Ｖ₁(r)及びＶ₂(r)とＶ₁(r)及びＶ₃(r)でもよい）。いずれのアミノ酸について記述子及び類似度を算出するかは、操作部４００を介したユーザの指示に応じて処理部１００（特徴量算出部１２０、類似度算出部１３０、化合物抽出部１４０）が決定してもよいし、ユーザの指示によらず処理部１００が決定してもよい。

なお、図１５の（ａ）部分では類似度のしきい値を８０％とし（ｂ）部分では抽出個数を１００個としているが、これらの値は例示であり、スクリーニングの精度等の条件に応じてしきい値及び抽出個数を設定することができる。設定は、操作部４００を介したユーザの入力に応じて行うことができる。また、図１５と逆にＡＡＳ記述子を用いた場合に「類似度が高い順に化合物を抽出する」とし、不変量化ＡＡＳ記述子を用いた場合に「類似度がしきい値以上の化合物を抽出する」としてもよい。化合物抽出部１４０は、図１５に示すような抽出結果を、化合物抽出結果２６０として記憶部２００に記憶させる（図３参照）。

＜標的タンパク質入力のスクリーニング＞
図１６は標的タンパク質のポケット構造体についてのＡＡＳ記述子を用いたスクリーニング（第２のモード）の手順を示すフローチャートである。処理が開始すると、特徴量算出部１２０は標的タンパク質のポケット構造体についてのＡＡＳ記述子を算出する（ステップＳ４００：スクリーニング特徴量算出工程）。ステップＳ４００におけるＡＡＳ記述子の算出は図１１のフローチャートに示す手順により行うことができる。類似度算出部１３０は、化合物についてのＡＡＳ記述子と、ステップＳ４００で算出したポケット構造体についてのＡＡＳ記述子との類似度を算出する（ステップＳ４０２：類似度算出工程）。類似度を算出したら、化合物抽出部１４０は類似度に基づいて標的化合物を抽出する（ステップＳ４０４：化合物抽出工程）。上述したリガンド入力の場合と同様に、類似度に基づく標的化合物の抽出（ステップＳ４０４）は、具体的には「類似度がしきい値以上の化合物を抽出する」、「類似度が高い順に化合物を抽出する」等により行うことができる。

不変量化ＡＡＳ記述子を用いる場合も、図１６のフローチャートと同様の手順で標的化合物を抽出することができる。

図１７は標的タンパク質入力のスクリーニング結果の例を示す表である。図１７の（ａ）部分はＡＡＳ記述子を用い「類似度がしきい値以上の化合物を抽出する」とした場合の結果を示し、（ｂ）部分は不変量化ＡＡＳ記述子を用い「類似度が高い順に化合物を抽出する」とした場合の結果を示す。類似度のしきい値及び抽出個数は、スクリーニングの精度等の条件に応じて設定することができる。設定は、操作部４００を介したユーザの入力に応じて行うことができる。また、図１７と逆にＡＡＳ記述子を用いた場合に「類似度が高い順に化合物を抽出する」とし、不変量化ＡＡＳ記述子を用いた場合に「類似度がしきい値以上の化合物を抽出する」としてもよい。

標的タンパク質入力のスクリーニングの場合も、リガンド入力のスクリーニングの場合（図１４，１５及びその説明を参照）と同様にアミノ酸の種類を変えてもよいし、異なるアミノ酸についての複数の記述子（ＡＡＳ記述子、不変量化ＡＡＳ記述子）を用いてもよい。化合物の抽出に用いる記述子は１種類でよいが、複数種類の記述子を用いることにより、類似度に基づく化合物の抽出を正確に行うことができる。なお、複数種類の記述子を用いる場合、それら記述子の間でのアミノ酸の組み合わせは特に限定されない。いずれのアミノ酸について記述子及び類似度を算出するかは、操作部４００を介したユーザの指示に応じて処理部１００（特徴量算出部１２０、類似度算出部１３０、化合物抽出部１４０）が決定してもよいし、ユーザの指示によらず処理部１００が決定してもよい。

化合物抽出部１４０は、図１７に示すような抽出結果を、化合物抽出結果２６０として記憶部２００に記憶させる（図３参照）。

＜タンパク質以外の標的生体高分子が入力のスクリーニング＞
第１の実施形態に係るスクリーニング装置１０では、タンパク質以外の標的生体高分子に結合する標的化合物を抽出することもできる。この場合、上述した図１４，１６のフローチャートと同様の手順で、第３の特徴量を用いてスクリーニングを行う（第３のモード）。

＜スクリーニング装置の効果＞
以上説明したように、第１の実施形態に係るスクリーニング装置１０では、本発明に係る特徴量算出方法（特徴量算出方法をコンピュータに実行させるプログラム）により算出した特徴量（ＡＡＳ記述子、不変量化ＡＡＳ記述子）を用いて、本発明に係るスクリーニング方法（及びそのスクリーニング方法をコンピュータに実行させるプログラム）により医薬候補化合物のスクリーニングを効率よく行うことができる。

＜第２の実施形態＞
本発明の第２の実施形態に係る化合物創出装置について説明する。図１８は化合物創出装置２０（特徴量算出装置、化合物創出装置）の構成を示すブロック図である。なお、第１の実施形態と同様の要素には同一の参照符号を付し、詳細な説明を省略する。

化合物創出装置２０は処理部１０１を含む。処理部１０１は図１９のように構成され、情報入力部１１０、特徴量算出部１２０（創出特徴量算出部）、生成器構築部１３２（生成器構築部）、化合物立体構造生成部１４２（化合物立体構造生成部）、表示制御部１５０を含む。情報入力部１１０、特徴量算出部１２０、表示制御部１５０の機能は上述したスクリーニング装置１０における情報入力部１１０、特徴量算出部１２０、表示制御部１５０とそれぞれ同様である。これら各部の機能は、スクリーニング装置１０について上述したのと同様に、各種のプロセッサ（processor）を用いて実現することができる。

図２０は記憶部２０１に記憶される情報を示す図である。記憶部２０１には、スクリーニング装置１０における化合物抽出結果２６０に代えて立体構造生成結果２７０が記憶される。記憶部２０１に記憶される情報は、図４について上述したのと同様に、互いに関連付けて記憶される。

＜標的化合物の立体構造生成＞
上述したＡＡＳ記述子、不変量化ＡＡＳ記述子を用いた、標的化合物（医薬候補化合物）の立体構造生成について説明する。化合物創出装置２０による標的化合物の立体構造生成では、検索を行わないので「スクリーニングによる検索の結果、解なし」となる場合でも化合物の立体構造を生成することができ、したがって医薬候補化合物の立体構造を効率よく創出することができる。立体構造の生成は、リガンドの記述子（ＡＡＳ記述子、不変量化ＡＡＳ記述子）に基づいて行うモード（第１のモード）と、標的タンパク質のポケット構造体の記述子（ＡＡＳ記述子、不変量化ＡＡＳ記述子）に基づいて行うモード（第２のモード）と、結合化合物の記述子（ＡＡＳ記述子、不変量化ＡＡＳ記述子）に基づいて行うモード（第３のモード）と、がある。いずれのモードにより立体構造の生成を行うかは、操作部４００を介したユーザの操作に応じて選択することができる。

＜リガンドが入力の立体構造生成＞
図２１はリガンド入力の場合の立体構造生成手順を示すフローチャートである。処理が開始すると、特徴量算出部１２０はリガンドの記述子（ＡＡＳ記述子）を算出する（ステップＳ５００：対象構造体指定工程、立体構造発生工程、創出特徴量算出工程）。ステップＳ５００の処理は、第１の実施形態と同様に本発明に係る特徴量算出方法（及びその特徴量算出方法をコンピュータに実行させるプログラム）を用いて行うことができる（図６～９及びそれらの図についての説明を参照）。

ステップＳ５０２では、生成器構築部１３２は機械学習により生成器を構築する（生成器構築工程）。以下、図２２を参照してステップＳ５０２の処理を説明する。
（Ｓｔｅｐ１）図２２の（ａ）部分に示すように、特徴量算出部１２０は、複数の化合物についてアミノ酸をプローブとしたＡＡＳ記述子（第１の特徴量）を算出し、化合物９１０の構造式を立体化した構造式９１２とＡＡＳ記述子９１４とのペアを作る。
（Ｓｔｅｐ２）図２２の（ｂ）部分に示すように、生成器構築部１３２が、化合物の立体構造（構造式９１２）を教師データとしＡＡＳ記述子９１４を説明変数とした深層学習等の機械学習により生成器９１６を構築する。機械学習の手法は特定の手法に限定されず、例えば単純な全結合のニューラルネットでもよいし、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）や敵対的生成ネットワーク（ＧＡＮ：Generative Adversarial Network）でもよい。ただし、立体構造の生成精度は用いる学習手法に依存するので、立体構造の生成条件、要求精度等の条件に応じて学習手法を選択することが好ましい。

上述したＳｔｅｐ１，２の処理が終わると図２１のフローチャートに戻る。化合物立体構造生成部１４２は、構築した生成器を用いて、リガンドのＡＡＳ記述子から標的化合物（ヒット）の立体構造（立体化された構造式）を生成する（ステップＳ５０４：化合物立体構造生成工程）。これにより、リガンドと類似の薬効（標的タンパク質との結合）を有する化合物、すなわち医薬候補化合物の立体構造を得ることができる。なお、同一のＡＡＳ記述子を与える立体構造は複数存在しうる。化合物立体構造生成部１４２は、生成した立体構造を、立体構造生成結果２７０としてＡＡＳ記述子（ＡＡＳ記述子２３０）と関連付けて記憶部２０１に記憶させる。操作部４００を介したユーザの指示に応じて、表示制御部１５０が、生成した立体構造をモニタ３１０に表示してもよい。

なお、上述した手順において、生成器の構築に用いるＡＡＳ記述子を算出するアミノ酸は１種類でもよいし複数種類でもよい。ただし、複数種類のアミノ酸についてＡＡＳ記述子を算出し学習（生成器の構築）に供することにより、生成される立体構造の精度を向上させることができる。なお、アミノ酸の種類が異なる複数のＡＡＳ記述子を用いる場合、それら記述子の間でのアミノ酸の組み合わせは特に限定されない。いずれのアミノ酸についてＡＡＳ記述子を算出し学習に供するかは、操作部４００を介したユーザの指示に応じて処理部１００（特徴量算出部１２０、類似度算出部１３０、化合物抽出部１４０）が決定してもよいし、ユーザの指示によらず処理部１００が決定してもよい。

＜立体構造の生成例＞
図２３は、機械学習により構築した生成器を用いて生成した立体構造の例について説明する。図２３の（ａ）部分は立体構造の正解データであり、同図の（ｂ）部分は生成器を用いて生成した立体構造の例である。なお、図２３で創出の対象とした化合物は、図７，２２における化合物９１０である。

＜教師データの特徴と生成される立体構造との関係＞
上述した手順により生成される立体構造は、教師データとして与える化合物の特徴に影響される。したがって、教師データとして与える化合物の特徴を選択することで、特徴が異なる立体構造を有する化合物を生成できる。例えば、合成が容易な立体構造を有する化合物のＡＡＳ記述子を教師データとして与えることで、リガンドと類似の薬効を有し、かつ合成が容易な立体構造を有する化合物を生成することができる。どのような化合物についてのＡＡＳ記述子を教師データとして与えるかは、生成したい化合物の特徴に合わせて選択することができる。

＜不変量化ＡＡＳ記述子を用いた立体構造の生成＞
図２２～２３ではＡＡＳ記述子（第１の特徴量）を用いた立体構造の生成について説明した。これに対し不変量化ＡＡＳ記述子（第１の不変量化特徴量）を用いた場合も、ＡＡＳ記述子を用いる場合と同様に、不変量化ＡＡＳ記述子を教師データとし立体構造（立体化した構造式）を説明変数とした機械学習（深層学習）により標的化合物の立体構造を生成することができる。

＜標的タンパク質が入力の立体構造生成＞
化合物創出装置２０では、上述したリガンド入力による立体構造生成に加えて、標的タンパク質を入力として標的化合物の立体構造を生成することができる。この場合も、リガンド入力の場合と同様に、ＡＡＳ記述子（第２の特徴量）を用いた立体構造生成、及び不変量化ＡＡＳ記述子（第２の不変量化特徴量）を用いた立体構造生成を行うことができる。

図２４は、標的タンパク質が入力の場合（ＡＡＳ記述子を用いるものとしている）の立体構造生成手順を示すフローチャートである。処理が開始すると、特徴量算出部１２０は標的タンパク質のポケット構造体のＡＡＳ記述子（第２の特徴量）を算出する（ステップＳ６００：対象構造体指定工程、立体構造発生工程、創出特徴量算出工程）。ステップＳ６００の処理は、第１の実施形態と同様に本発明に係る特徴量算出方法を用いて行うことができる（図９及びそれらの図についての説明を参照）。

ステップＳ６０２では、生成器構築部１３２は、リガンド入力の場合と同様に機械学習（深層学習）により生成器を構築する（生成器構築工程）。生成器の構築は、上述したＳｔｅｐ１，２と同様にして行うことができる。具体的には、特徴量算出部１２０は、ポケット構造体についてアミノ酸をプローブとしてＡＡＳ記述子（第2の特徴量）を算出し、ポケット構造体の立体構造とＡＡＳ記述子のペアを作る。生成器構築部１３２は、ＡＡＳ記述子を説明変数とし、ポケット構造体の立体構造を教師データとして、生成器を構築する。化合物立体構造生成部１４２は、構築した生成器を用いて、ポケット構造体のＡＡＳ記述子から標的化合物（ヒット）の立体構造（立体化された構造式）を生成する（ステップＳ６０４：化合物立体構造生成工程）。これにより、ポケット構造体と類似の薬効（標的タンパク質との結合）を有する化合物、すなわち医薬候補化合物の立体構造を得ることができる。なお、同一のＡＡＳ記述子を与える立体構造は複数存在しうる。化合物立体構造生成部１４２は、生成した立体構造を、立体構造生成結果２７０としてＡＡＳ記述子（ＡＡＳ記述子２３０）と関連付けて記憶部２０１に記憶させる（図２０参照）。操作部４００を介したユーザの指示に応じて、表示制御部１５０が、生成した立体構造をモニタ３１０に表示してもよい。

なお、第２の不変量化特徴量（不変量化ＡＡＳ記述子）を用いる場合も、同様に立体構造を生成することができる。

＜タンパク質以外の標的生体高分子が入力の場合の立体構造の生成＞
化合物創出装置２０では、上述した態様に加え、タンパク質以外の標的生体高分子を入力として標的化合物の立体構造を生成することができる。この場合も、上述した態様と同様に、ＡＡＳ記述子（第３の特徴量）を用いた立体構造生成と不変量化ＡＡＳ記述子（第３の不変量化特徴量）を用いた立体構造生成とを行うことができる。

＜構造の多様性に基づく化合物の創出＞
上述した態様では、機械学習により構成した生成器を用いて医薬候補化合物の立体構造を生成しているが、以下に説明するように、構造の多様性に基づいて化合物の立体構造を生成することもできる。

＜化合物創出方法の付加的構成＞
以下で説明する化合物創出方法は、上述した本発明の第２３～第２７の態様に対応したものであるが、第２３～第２７の態様（以下、「基本的構成」という）に対し、以下の構成（以下、「付加的構成」という）を適宜追加している。

（付加的構成：その１）
基本的構成において、候補構造採用工程では、第１の採用処理として、候補構造の物性値と物性値の目標値との差分の絶対値が化学構造の物性値と物性値の目標値との差分の絶対値以下である場合は候補構造を採用する処理を行い、候補構造の物性値と物性値の目標値との差分の絶対値が化学構造の物性値と物性値の目標値との差分の絶対値より大きい場合は、候補構造の物性値と物性値の目標値との差分に基づいて第１の関数により第１の採用確率を算出し、候補構造を第１の採用確率で採用する処理を行う。

（付加的構成：その２）
付加的構成その１において、第１の関数は候補構造の物性値と物性値の目標値との差分の絶対値と、化学構造の物性値と物性値の目標値との差分の絶対値と、の差分に対する単調減少関数である。

（付加的構成：その３）
基本的構成、付加的構成その１～その２のいずれか１つにおいて、候補構造採用工程では、第２の採用処理として、構造群の構造多様性の増減量を算出し、増減量に基づいて第２の関数により第２の採用確率を算出し、候補構造を第２の採用確率で採用する処理を行う。

（付加的構成：その４）
付加的構成その３において、第２の関数は構造多様性の増減量に対する単調増加関数である。

（付加的構成：その５）
基本的構成、付加的構成その１～その４のいずれか１つにおいて、候補構造取得工程では、化学構造に原子または原子団を追加または削除して対象構造を生成し、対象構造を候補構造とする。

（付加的構成：その６）
基本的構成、付加的構成その１～その５のいずれか１つにおいて、制御工程では、化学構造を変化させた回数が指定した回数に達した場合、及び／または候補構造の物性値が目標値に到達した場合に終了条件を満たしたと判定して入力工程、候補構造取得工程、物性値算出工程、及び候補構造採用工程の処理を終了させる。

＜化合物創出装置の構成＞
図２５は、構造の多様性に基づく化合物の立体構造創出を行う場合の化合物創出装置の構成を示す図である。この態様では、化合物創出装置２０は、図１８，１９に示す処理部１０１に代えて、処理部１０３（プロセッサ）を有する。処理部１０３は、入力部１０５と、候補構造取得部１０７と、物性値算出部１０９と、候補構造採用部１１１と、制御部１１３と、表示制御部１１５と、ＣＰＵ１２１と、ＲＯＭ１２３と、ＲＡＭ１２５とを有する。その他の構成は、図１８と同様である。なお、処理部１０１の構成に加えて処理部１０３の構成を備える処理部を用いることにより、生成器による化合物創出と構造の多様性に基づく化合物の創出とを実行できるようにしてもよい。

＜化合物創出方法の手順＞
図２６は構造の多様性に基づく化合物創出方法の手順を示すフローチャートである。

＜データの入力＞
入力部１０５は、一つまたは複数の化合物の化学構造（初期構造）と、化学構造（初期構造）における一つまたは複数の物性値と、物性値の目標値と、を入力する（ステップＳ１０１０：入力工程）。これらのデータは記憶部２０１に記憶されていたものを用いてもよいし、ネットワークＮＷを介して外部サーバ５００及び外部データベース５１０から取得してもよい。どのようなデータを入力するかを、操作部４００を介したユーザの指示入力に応じて決定してもよい。初期構造は１つでもよいし複数でもよい。また、物性値も１つでもよいし複数でもよい。

＜物性値及び目標値＞
構造の多様性に基づく化合物の創出において、ＡＡＳ記述子（第１～第３の特徴量）や不変量化ＡＡＳ記述子（第１～第３の不変量化特徴量）の値を「物性値」とすることができ、これら物性値は、本発明の特徴量算出方法により算出することができる。また、リガンド、ポケット構造体、結合化合物等についてのＡＡＳ記述子や不変量化ＡＡＳ記述子の値を物性値の「目標値」とすることができる。具体的な例については、後述する。

＜候補構造の取得＞
候補構造取得部１０７は、化学構造をランダムに変化させて候補構造を得る（ステップＳ１０２０：候補構造取得工程）。この際、化学構造を変化させられる方法であれば何を用いてもよい。例えば、化学構造に原子または原子団を追加または削除して対象構造を生成し、対象構造を候補構造とする方法を用いることができる。この方法は、具体的には（Ａ）合成適性を評価する基準の化合物データベース、及び化合物構造（化学構造）を準備する工程と、（Ｂ）化合物構造への原子または原子団の追加、または化合物構造からの原子の削除のいずれかを選択する工程と、（Ｃ）化合物構造への原子の追加を選択した場合、化合物構造に含まれる原子の中から選択された原子に新規原子を結合させ、または化合物構造への原子の削除を選択した場合、化合物構造に含まれる原子の中から選択された原子を削除し、改変された化合物構造を得る工程と、（Ｄ）改変された化合物構造の合成適性を、化合物データベースの情報に基づいて判断する工程と、（Ｅ）改変された化合物構造が合成適性を有する場合は改変を確率的に許容し、改変された化合物構造が合成適性を有さない場合は改変を確率的に棄却する工程と、（Ｆ）工程（Ｅ）を経た化合物構造が終了条件を満たすまで、工程（Ｂ）～（Ｅ）を繰り返す工程と、を備える化合物構造の生成方法である。なお、発生させた候補構造を表示制御部１１５によりモニタ３１０（表示装置）に表示させてもよい。また、後述するステップＳ１０９０からステップＳ１０２０に戻ってきたときに、前回発生させた構造の中で物性値が目標値に近かった構造を、合成適性を評価するための化合物データベースに一つまたは複数追加し、ステップＳ１０２０において目標値に近い物性値を持つ構造を少しずつ発生させやすくすることもできる。

＜物性値の評価＞
物性値算出部１０９は、候補構造（ステップＳ１０２０で変化させた構造）の物性値を算出する（ステップＳ１０３０：物性値算出工程、創出特徴量算出工程）。物性値の算出には、初期構造の物性値を見積もったときと同じ方法を用いることが好ましい。

＜第１の採用処理＞
候補構造採用部１１１は、物性値が目標値に近づいているか否かを判断する（ステップＳ１０４０：候補構造採用工程）。具体的には、構造変化前の物性値をｆ0、構造変化後の物性値をｆ1、物性値の目標値をＦとしたときに、｜Ｆ－ｆ１｜≦｜Ｆ－ｆ０｜が成り立つ場合（候補構造の物性値と物性値の目標値との差分（第１の差分）の絶対値が化学構造の物性値と物性値の目標値との差分（第２の差分）の絶対値以下である場合）は、物性値が目標値に近づいている（遠ざかっていない）のでステップＳ１０７０へ進んで構造変化を採用する（第１の採用処理）。一方、｜Ｆ－ｆ１｜＞｜Ｆ－ｆ０｜である場合（候補構造の物性値と物性値の目標値との差分（第１の差分）の絶対値が化学構造の物性値と物性値の目標値との差分（第２の差分）の絶対値より大きい場合）はステップＳ１０５０へ進む。

ステップＳ１０５０（候補構造採用工程）では、候補構造採用部１１１は候補構造の物性値と物性値の目標値との差分に基づいて第１の関数により第１の採用確率を算出する（第１の採用処理）。具体的には、候補構造採用部１１１はｄ＝｜Ｆ－ｆ１｜－｜Ｆ－ｆ０｜の単調減少関数Ｐ１（ｄ）を与え、確率ｐ１＝Ｐ１（ｄ）を見積もる。単調減少関数Ｐ１（ｄ）は本発明における「第１の関数」（候補構造の物性値と物性値の目標値との差分の絶対値と、化学構造の物性値と物性値の目標値との差分の絶対値と、の差分に対する単調減少関数）に相当し、確率ｐ１は本発明における「第１の採用確率」に相当する。

単調減少関数Ｐ１（ｄ）としては種々の関数を用いることができるが、例えば以下の式（２）で表される関数を用いることができる。σはハイパーパラメータであり、σの値を変えることで単調減少の度合いを調節することができる。操作部４００を介したユーザの指示入力によりパラメータの値を変更してもよい。

ｎ目的（ステップＳ１０１０で入力された物性値がｎ個）の場合は、各目的を表す指標をｉとして、例えば以下の式（３）及び式（４）で表される関数を用いることができる。

式（３）及び式（４）で表される関数は「１つでも目標に近づく物性値があればその構造変化を採用する」という基準であるが、他にも様々な関数を用いることができる。また、もっと単純にはｎ目的の物性値をｎ次元のベクトルｆｆ及びＦＦとして考え、Ｅｕｃｌｉｄ距離｜ＦＦ－ｆｆ｜からｄ＝｜ＦＦ－ｆｆ１｜－｜ＦＦ－ｆｆ０｜を見積もって単目的の問題として解くという方法も考えられる（ｆｆ，ｆｆ０，ｆｆ１，ＦＦはベクトルであるものとする）。この方針を取る場合には、既存のデータから各物性値の平均と分散を計算しておき、標準化を実施してから距離を計算することが望ましい。

確率ｐ１が求められたら、候補構造採用部１１１は適当に発生させた乱数を用いて、確率ｐ１でステップＳ１０７０に進んで構造変化を採用し、確率（１－ｐ１）でステップＳ１０５５に進む。すなわち、候補構造採用部１１１は候補構造を第１の採用確率で採用する（第１の採用処理）。このように確率的処理を行う（物性値が目標値から遠ざかっている場合でも、確率ｐ１で構造変化を採用する）のは、ローカルミニマムへの落ち込みを防ぐためである。ローカルミニマムとは「構造をどのように変化させても物性値が目標値から遠ざかる状態」であり、ローカルミニマムを脱出してグローバルミニマムに達するには必ず物性値が目標値から遠ざかる構造変化を経る必要がある。上述した確率的処理により、このようなパスを確保することができる。

＜第２の採用処理＞
ステップＳ１０５０において第１の採用処理の結果候補構造が採用されなかった場合（確率（１－ｐ１））、候補構造採用部１１１は、候補構造を採用するか否かを「化学構造の変化により、化学構造及び候補構造により構成される構造群の構造多様性が増加しているか否か」に基づいて判断する第２の採用処理を行う（ステップＳ１０５５，Ｓ１０６０，Ｓ１０７０）。第２の採用処理について以下説明する。なお、構造を表す指標をjとして、構造群をＳ={sj}と表す。構造群Ｓの構造多様性を与える関数をＶ（Ｓ）と表記する。Ｖ（Ｓ）は構造多様性が大きいほど大きな値を取るものとする。

＜初期構造を複数個与えた場合＞
初期構造をＮ（＞１）個与えた場合に、Ｎ個の化学構造のうちのｋ番目の化学構造の構造変化の採用または棄却を考えているとする。ｍ回目の試行において、構造変化前（ｍ－１回目）の構造群Ｓm-1={s(m-1)j}と変化後（ｍ回目）の構造群Ｓm＝｛smj｝から、ｋ番目の化学構造の構造変化後の構造群Ｓｋ＝｛s(m-1)0, s(m-1)1, ..., smk, ..., s(m-1)N｝を定義し、ｄｖ＝Ｖ（Ｓｋ）－Ｖ（Ｓm-1）を見積もる。すなわち、ｄｖは構造変化による構造多様性の増減量を示す。ｄｖ≧０の場合(ｋ番目の構造変化によって多様性が向上する場合；ステップＳ１０５５でＹｅｓ)には、ｄｖ（構造多様性の増減量）に対する単調増加関数Ｐ２（ｄｖ）を与え、確率ｐ２＝Ｐ２（ｄｖ）を算出する（ステップＳ１０６０：第２の採用処理）。そして、適当に発生させた乱数を用いて確率ｐ２でステップＳ１０７０（構造変化を採用する；第２の採用処理）に進み、確率（１－ｐ２）でステップＳ１０８０（構造変化を棄却し、元の構造に戻す；棄却処理）に進む。単調増加関数Ｐ２（ｄｖ）は本発明における「第２の関数」に相当し、確率ｐ２は本発明における「第２の採用確率」に相当する。

構造多様性が増加する場合に上述した確率的処理（単調増加関数Ｐ２（ｄｖ）により算出した確率ｐ２で候補構造を算出する）を行うのは、「構造多様性が増加する場合に必ず構造変化を採用する」とした場合、物性値が目標値から遠ざかるにも関わらず構造変化が採用される頻度が高くなりすぎてしまい、結果として物性値の目標値への収束が遅くなる場合があるためである。上述した確率的処理を行うことにより、物性値の収束を早め化合物の構造を効率的に探索することができる。

なお、ステップＳ１０６０で算出したｄｖ＜０の場合(多様性が減少する場合；ステップＳ１０５５でＮｏ)にはステップＳ１０８０（構造変化を棄却し、元の構造に戻す；棄却処理）に進む。

＜初期構造を１個与えた場合＞
なお初期構造が１個の場合には、試行を表す指標をｔとして、過去ｍ回の試行で得た構造群Ｓprev＝｛st-1, st-2, ..., st-m｝と、採用または棄却を考えている構造stを加えた構造群Ｓcurr＝｛st, st-1, ..., st-(m-1)｝とを考え、ｄｖ＝Ｖ（Ｓcurr）－Ｖ（Ｓprev）を算出し、初期構造が複数個の場合と同様に単調増加関数Ｐ２（ｄｖ）により確率ｐ２を算出（ステップＳ１０６０：第２の採用処理）すればよい。

＜構造群の構造多様性を与える関数＞
上述した「構造群の構造多様性を与える関数」としては、たとえばTanimoto係数（化合物の類似度を表す指標の１つ）に基づく以下のような定義が考えられる(他にも様々な定義が可能である)。具体的には、構造sをビット列（０または１の数列）のfingerprint（化合物の一定の規則にしたがって固定長のベクトルに変換したものであり、様々な生成方法が知られている）で表したものをＦsとすると、Tanimoto係数の定義は以下の式（５）で表される。

ここで|Ｆs|はＦs中で１のビット数、|Ｆs∩Ｆs’|はＦsとＦs’で共通して１のビット数である。Ｔs,s’は、ＦsとＦs’が完全に一致している場合は１、全く一致していない場合は０となる。したがって、Ｔs,s’は構造sと構造s’の類似度を表す指標である。求めたいのは非類似度であるから、構造sと構造s’の非類似度ｖs,s’を以下の式（６）で定義する。

この非類似度ｖs,s’を用いて、構造群Ｓの非類似度（すなわち、構造群の構造多様性）を以下の式（７）で定義することができる。

Ｖ（Ｓ）は０から１までの値をとり、値が大きいほど構造群の構造多様性が高いことを示す。

また、構造多様性の増減量ｄｖに対する単調増加関数Ｐ２（ｄｖ）としては、たとえば以下の式（８）で表される関数を用いることができる。σｖとＣｖはハイパーパラメータであり、値を変えることで単調増加の度合いを調節することができる。操作部４００を介したユーザの指示入力によりこれらパラメータの値を変更してもよい。

関数形より明らかに、Ｐ２はｄｖ→∞の極限でＣｖとなる。したがって、Ｃｖは「十分に多様性が向上する構造変化の際に、その構造変化が採用される確率」を意味している。

＜処理の繰り返し＞
上述した第１の採用処理、第２の採用処理、及び棄却処理を、与えられた初期構造のそれぞれについて行い、全ての化学構造について上述の処理が終了すると１回の試行が終了する。

上述した第１の採用処理、第２の採用処理、及び棄却処理の結果として候補構造が採用または棄却されたら、制御部１１３は終了条件を満たすか否か判断する（ステップＳ１０９０：制御工程）。例えば、化学構造を変化させた回数（試行回数）が指定した回数に達した場合、及び／または候補構造の物性値が目標値に到達した場合に「終了条件を満たした」と判定することができる。複数の化学構造及び／または物性値を計算していた場合、「１つでも目標値に到達した化学構造及び／または物性値があれば計算を終了する」としてもよいし、「全ての構造及び／または物性値が目標に到達するまで試行を繰り返す」としてもよい。制御部１１３は、終了条件を満たすまで（ステップＳ１０９０でＮｏの間）ステップＳ１０２０からステップＳ１０８０までの処理（入力工程、候補構造取得工程、物性値算出工程、候補構造採用工程）を繰り返し、終了条件を満たしたら（ステップＳ１０９０でＹｅｓ）化合物創出方法の処理を終了する（ステップＳ１１００）。

＜構造多様性に基づく立体構造創出の効果＞
以上説明したように、構造多様性に基づいて立体構造を創出する化合物創出方法によれば、ローカルミニマムからの脱出を促進し、また物性値の収束を早めることができるので、所望の物性値を持つ化合物の構造を効率的に探索することができる。

＜具体的な物性値、特徴量等＞
上述した態様の、構造多様性に基づく立体構造創出（化合物創出）における具体的な物性値や特徴量について説明する。

標的タンパク質に結合する標的化合物の立体構造を創出する場合（第２３の態様）は、第５の態様に係る特徴量算出方法を用いて算出した特徴量（第１の特徴量、ＡＡＳ記述子）が「物性値」であり、リガンドについての第１の特徴量が「物性値の目標値」である。

標的タンパク質に結合する標的化合物の立体構造を創出する場合（第２４の態様）は、第６の態様に係る特徴量算出方法を用いて算出した特徴量（第１の不変量化特徴量、不変量化ＡＡＳ記述子）が「物性値」であり、リガンドについての第１の不変量化特徴量が「物性値の目標値」である。

標的タンパク質に結合する標的化合物の立体構造を創出する場合（第２５の態様）は、第８の態様に係る特徴量算出方法を用いて算出した特徴量（第２の特徴量、ＡＡＳ記述子）が「物性値」であり、標的タンパク質の活性部位であるポケットとの結合が確認されているポケット構造体についての第２の特徴量が「物性値の目標値」である。

標的タンパク質に結合する標的化合物の立体構造を創出する場合（第２６の態様）は、第９の態様に係る特徴量算出方法を用いて算出した特徴量（第２の不変量化特徴量、不変量化ＡＡＳ記述子）が「物性値」であり、標的タンパク質の活性部位であるポケットとの結合が確認されているポケット構造体についての第２の不変量化特徴量が「物性値の目標値」である。

タンパク質以外の標的生体高分子に結合する標的化合物の立体構造を創出する場合（第２７の態様）は、第１１の態様に係る特徴量算出方法を用いて算出した特徴量（第３の特徴量、ＡＡＳ記述子）が「物性値」であり、タンパク質以外の標的生体高分子に結合することが確認されている化合物である結合化合物についての第３の特徴量が「物性値の目標値」である。

＜化合物創出装置の効果＞
以上説明したように、第２の実施形態に係る化合物創出装置２０では、本発明に係る特徴量算出方法により算出した特徴量（ＡＡＳ記述子、不変量化ＡＡＳ記述子）を用いて、本発明に係る化合物創出方法（及びその方法をコンピュータに実行させる化合物創出プログラム）により医薬候補化合物の立体構造を効率よく創出することができる。

＜第３の実施形態＞
上述した第１の実施形態は特徴量の算出及びこれに基づくスクリーニングを行う態様であり、第２の実施形態は特徴量の算出及びこれに基づく標的化合物の立体構造創出を行う態様であるが、特徴量の算出に加えてスクリーニングと標的化合物の立体構造創出の両方を行ってもよい。そのため第３の実施形態に係る医薬候補化合物探索装置３０（特徴量算出装置、スクリーニング装置、化合物創出装置；図２７参照）では、図１に示すスクリーニング装置１０の処理部１００、図１８に示す化合物創出装置２０の処理部１０１、あるいは図２５に示す処理部１０３に代えて、図２７に示す処理部１０２を有する。図２８に示すように、処理部１０２は通信制御部１１０Ａ（通信制御部）、特徴量算出部１２０（特徴量算出部）、類似度算出部１３０（類似度算出部）、生成器構築部１３２（生成器構築部）、化合物抽出部１４０（化合物抽出部）、化合物立体構造生成部１４２（化合物立体構造生成部）、表示制御部１５０（表示制御部）、ＣＰＵ１６０、ＲＯＭ１７０、及びＲＡＭ１８０を有し、特徴量の算出、スクリーニング、及び化合物の立体構造創出を行うことができる。また、医薬候補化合物探索装置３０は、これらの処理に必要な情報や処理の結果等を記憶部２０２に記憶する。具体的には、図２９に示すように、記憶部２００及び記憶部２０１に記憶される情報（図３，２０参照）が合わせて記憶部２０２に記憶される。

その他の要素は図１に示すスクリーニング装置１０、図１８に示す化合物創出装置２０と同様であるので同一の参照符号を付し詳細な説明を省略する。なお、構造多様性に基づく化合物の創出を行う場合は、処理部１０２は処理部１０３（図２５参照）に対応する各部を有し、構造多様性に基づく化合物の創出に対応した情報（物性値、目標値、創出した立体構造等）が記憶部２０２に記憶される。

上述した構成により、第３の実施形態に係る医薬候補化合物探索装置３０においても、スクリーニング装置１０、化合物創出装置２０と同様に、対象構造体の化学的性質を的確に示す特徴量を算出し、医薬候補化合物のスクリーニングを効率よく行い、医薬候補化合物の立体構造を効率よく創出することができる。

以上で本発明の実施形態に関して説明してきたが、本発明は上述した態様に限定されず、以下に例示するように種々の変形が可能である。

＜扱える医薬のターゲット＞
本発明では、医薬のターゲットとしてタンパク質以外に、ＤＮＡ（Deoxyribonucleic Acid）、ＲＮＡ（Ribonucleic Acid）、細胞膜、多糖を扱うことができる。ただし、タンパク質の場合のプローブ（アミノ酸）を別のものに変更する必要がある。具体的には、ＤＮＡの場合はアミノ酸を核酸塩基へ変更し、ＲＮＡの場合はアミノ酸を核酸塩基へ変更し、細胞膜の場合はアミノ酸を脂質分子へ変更し、多糖の場合はアミノ酸を単糖分子へ変更する。以下では、この変更で、本発明でＤＮＡ、ＲＮＡ、細胞膜、多糖も扱える理由を説明する。

タンパク質、ＤＮＡ、ＲＮＡ、細胞膜、多糖は纏めて生体高分子と呼ばれ、固有のビルディングブロックから成り立っている。具体的には、タンパク質のビルディングブロックはアミノ酸、ＤＮＡのビルディングブロックは核酸塩基、ＲＮＡのビルディングブロックは同様に核酸塩基、細胞膜のビルディングブロックは脂質分子、多糖のビルディングブロックは単糖分子である。ＤＮＡ、ＲＮＡ、細胞膜、多糖にも、タンパク質と同様に、活性部位であるポケットがあるため、本発明は、医薬のターゲットがＤＮＡ、ＲＮＡ、細胞膜、多糖の場合にも、タンパク質の場合に示した実施形態において、アミノ酸をターゲットのビルディングブロックへ変更することで、対応できる。なお、化合物あるいはポケット構造体の周辺におけるアミノ酸、核酸塩基、脂質分子、単糖分子の集積度合いの定量時に、水を考慮することもできる。

＜扱える活性＞
本発明では、「化合物による標的生体分子単独での活性」という通常の活性以外にも、「化合物による、標的生体分子に加えてその他の生体分子からなる複合体である細胞の活性」についても扱うことができる。

１０スクリーニング装置
２０化合物創出装置
３０医薬候補化合物探索装置
１００処理部
１０１処理部
１０２処理部
１０３処理部
１０５入力部
１０７候補構造取得部
１０９物性値算出部
１１０情報入力部
１１０Ａ通信制御部
１１１候補構造採用部
１１３制御部
１１５表示制御部
１２０特徴量算出部
１２１ＣＰＵ
１２３ＲＯＭ
１２５ＲＡＭ
１３０類似度算出部
１３２生成器構築部
１４０化合物抽出部
１４２化合物立体構造生成部
１５０表示制御部
１６０ＣＰＵ
１７０ＲＯＭ
１８０ＲＡＭ
２００記憶部
２０１記憶部
２０２記憶部
２１０構造情報
２２０立体構造情報
２３０ＡＡＳ記述子
２４０不変量化ＡＡＳ記述子
２５０類似度情報
２６０化合物抽出結果
２７０立体構造生成結果
３００表示部
３１０モニタ
４００操作部
４１０キーボード
４２０マウス
５００外部サーバ
５１０外部データベース
９００化合物
９０２プローブ
９１０化合物
９１２構造式
９１４ＡＡＳ記述子
９１６生成器
ＮＷネットワーク
ＰＯポケット
ＰＳポケット構造体
Ｓ１００～Ｓ１１２特徴量算出方法の各ステップ
Ｓ２００～Ｓ２０６特徴量算出方法のステップ
Ｓ３００～Ｓ３０４化合物抽出方法の各ステップ
Ｓ４００～Ｓ４０４化合物抽出方法の各ステップ
Ｓ５００～Ｓ５０４化合物創出方法の各ステップ
Ｓ６００～Ｓ６０４化合物創出方法の各ステップ
Ｓ１０１０～Ｓ１１００化合物創出方法の各ステップ
ＴＰ標的タンパク質
ｂ衝突径数
ｒmin 最近接距離
θ _ａ散乱角

Claims

プロセッサを備える特徴量算出装置により実行される特徴量算出方法であって、
前記プロセッサは、
化学的性質を有する複数の単位構造体から構成される対象構造体を指定する対象構造体指定工程と、
前記対象構造体について前記複数の単位構造体による立体構造を取得する立体構造取得工程と、
前記対象構造体に対する１種類以上のプローブの断面積を示す特徴量を算出するプローブ特徴量算出工程と、
を実行し、
前記プローブは、実数電荷を持ちファンデルワールス力を発生させる複数の点が離間して配置された構造体である特徴量算出方法。
前記プロセッサは、
前記プローブ特徴量算出工程では、前記特徴量として断面積、または最近接距離及び散乱角を算出する請求項１に記載の特徴量算出方法。
前記プロセッサは、
前記プローブ特徴量算出工程では、前記プローブの種類、数、組合せ、衝突径数、及び入射エネルギーに依存する特徴量を前記特徴量として算出する請求項１または２に記載の特徴量算出方法。
前記プロセッサは、
前記立体構造取得工程では、指定された対象構造体の立体構造を発生させることにより前記取得を行う請求項１から３のいずれか１項に記載の特徴量算出方法。
前記プロセッサは、
前記対象構造体指定工程では前記対象構造体として化合物を指定し、
前記立体構造取得工程では前記複数の単位構造体としての複数の原子による前記化合物の立体構造を取得し、
前記プローブ特徴量算出工程では、前記立体構造取得工程で取得した前記化合物について、アミノ酸を前記プローブとして第１の特徴量を算出する請求項１から４のいずれか１項に記載の特徴量算出方法。
前記プロセッサが前記第１の特徴量を前記化合物の回転について不変量化して第１の不変量化特徴量を算出する不変量化工程をさらに有する請求項５に記載の特徴量算出方法。
前記プロセッサは、
前記プローブ特徴量算出工程では２種類の異なるアミノ酸について前記第１の特徴量を算出し、
前記不変量化工程では前記２種類の異なるアミノ酸についての前記第１の特徴量を用いて前記第１の不変量化特徴量を算出する請求項６に記載の特徴量算出方法。
前記プロセッサは、
前記対象構造体指定工程では、標的タンパク質の活性部位であるポケットに結合するポケット構造体を前記対象構造体として指定し、
前記立体構造取得工程では複数の仮想的球体による前記ポケット構造体の立体構造を取得し、
前記プローブ特徴量算出工程では、前記立体構造取得工程で取得した前記ポケット構造体について、アミノ酸を前記プローブとして第２の特徴量を算出する請求項１から４のいずれか１項に記載の特徴量算出方法。
前記プロセッサが前記第２の特徴量を前記ポケット構造体の回転について不変量化して第２の不変量化特徴量を算出する不変量化工程をさらに有する請求項８に記載の特徴量算出方法。
前記プロセッサは、
前記プローブ特徴量算出工程では２種類の異なるアミノ酸について前記第２の特徴量を算出し、
前記不変量化工程では前記２種類の異なるアミノ酸についての前記第２の特徴量を用いて前記第２の不変量化特徴量を算出する請求項９に記載の特徴量算出方法。
前記プロセッサは、
前記対象構造体指定工程では前記対象構造体として化合物を指定し、
前記立体構造取得工程では複数の原子による前記化合物の立体構造を発生させ、
前記プローブ特徴量算出工程では、前記立体構造取得工程で取得した前記化合物の前記立体構造について、１種類以上の核酸塩基、１種類以上の脂質分子、１種類以上の単糖分子、水、１種類以上のイオンのうち１つ以上を前記プローブとして第３の特徴量を算出する請求項１から４のいずれか１項に記載の特徴量算出方法。
前記プロセッサが前記第３の特徴量を前記化合物の回転について不変量化して第３の不変量化特徴量を算出する不変量化工程をさらに有する請求項１１に記載の特徴量算出方法。
プロセッサを備えるスクリーニング装置により実行され、複数の化合物から、標的タンパク質に結合する第１の標的化合物及び／または前記標的タンパク質に結合しない第２の標的化合物を抽出するスクリーニング方法であって、
前記プロセッサが、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記化合物の前記立体構造について請求項５に記載の特徴量算出方法を用いて算出した前記第１の特徴量と、を関連付けて記憶する記憶工程と、
前記標的タンパク質との結合が確認されている化合物であるリガンドについて前記第１の特徴量を算出するスクリーニング特徴量算出工程と、
前記複数の化合物についての前記第１の特徴量と前記リガンドについての前記第１の特徴量との類似度を算出する類似度算出工程と、
前記複数の化合物から前記類似度に基づいて前記第１の標的化合物及び／または前記第２の標的化合物を抽出する化合物抽出工程と、
を実行するスクリーニング方法。
プロセッサを備えるスクリーニング装置により実行され、複数の化合物から、標的タンパク質に結合する第１の標的化合物及び／または前記標的タンパク質に結合しない第２の標的化合物を抽出するスクリーニング方法であって、
前記プロセッサが、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記化合物の前記立体構造について請求項６に記載の特徴量算出方法を用いて算出した前記第１の不変量化特徴量と、を関連付けて記憶する記憶工程と、
前記標的タンパク質との結合が確認されている化合物であるリガンドについて、前記第１の不変量化特徴量を算出するスクリーニング特徴量算出工程と、
前記複数の化合物についての前記第１の不変量化特徴量と前記リガンドについての前記第１の不変量化特徴量との類似度を算出する類似度算出工程と、
前記複数の化合物から前記類似度に基づいて前記第１の標的化合物及び／または前記第２の標的化合物を抽出する化合物抽出工程と、
を実行するスクリーニング方法。
プロセッサを備えるスクリーニング装置により実行され、複数の化合物から、標的タンパク質に結合する第１の標的化合物及び／または前記標的タンパク質に結合しない第２の標的化合物を抽出するスクリーニング方法であって、
前記プロセッサが、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項５に記載の特徴量算出方法を用いて算出した前記第１の特徴量と、を関連付けて記憶する記憶工程と、
請求項８に記載の特徴量算出方法を用いて、前記標的タンパク質の前記ポケット構造体について前記第２の特徴量を算出するスクリーニング特徴量算出工程と、
前記複数の化合物についての前記第１の特徴量と前記ポケット構造体についての前記第２の特徴量との類似度を算出する類似度算出工程と、
前記複数の化合物から前記類似度に基づいて前記第１の標的化合物及び／または前記第２の標的化合物を抽出する化合物抽出工程と、
を実行するスクリーニング方法。
プロセッサを備えるスクリーニング装置により実行され、複数の化合物から、標的タンパク質に結合する第１の標的化合物及び／または前記標的タンパク質に結合しない第２の標的化合物を抽出するスクリーニング方法であって、
前記プロセッサが、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項６に記載の特徴量算出方法を用いて算出した前記第１の不変量化特徴量と、を関連付けて記憶する記憶工程と、
請求項９に記載の特徴量算出方法を用いて、前記標的タンパク質の前記ポケット構造体について前記第２の不変量化特徴量を算出するスクリーニング特徴量算出工程と、
前記複数の化合物についての前記第１の不変量化特徴量と前記ポケット構造体についての前記第２の不変量化特徴量との類似度を算出する類似度算出工程と、
前記複数の化合物から前記類似度に基づいて前記第１の標的化合物及び／または前記第２の標的化合物を抽出する化合物抽出工程と、
を実行するスクリーニング方法。
プロセッサを備えるスクリーニング装置により実行され、複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物を抽出するスクリーニング方法であって、
前記プロセッサが、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記化合物の前記立体構造について請求項１１に記載の特徴量算出方法を用いて算出した前記第３の特徴量と、を関連付けて記憶する記憶工程と、
前記タンパク質以外の前記標的生体高分子に結合することが確認されている化合物である結合化合物について前記第３の特徴量を算出する特徴量算出工程と、
前記複数の化合物についての前記第３の特徴量と前記結合化合物についての前記第３の特徴量との類似度を算出する類似度算出工程と、
前記複数の化合物から前記類似度に基づいて前記標的化合物を抽出する化合物抽出工程と、
を実行するスクリーニング方法。
プロセッサを備える化合物創出装置により実行され、複数の化合物から標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項５に記載の特徴量算出方法を用いて算出した前記第１の特徴量と、を関連付けて記憶する記憶工程と、
前記標的タンパク質との結合が確認されている化合物であるリガンドについて、前記第１の特徴量を算出する創出特徴量算出工程と、
前記複数の化合物の前記立体構造を教師データとし、前記第１の特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、
前記生成器を用いて、前記リガンドの前記第１の特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成工程と、
を実行する化合物創出方法。
プロセッサを備える化合物創出装置により実行され、複数の化合物から標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項６に記載の特徴量算出方法を用いて算出した前記第１の不変量化特徴量と、を関連付けて記憶する記憶工程と、
前記標的タンパク質との結合が確認されている化合物であるリガンドについて前記第１の不変量化特徴量を算出する創出特徴量算出工程と、
前記複数の化合物の前記立体構造を教師データとし、前記第１の不変量化特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、
前記生成器を用いて、前記リガンドの前記第１の不変量化特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成工程と、
を実行する化合物創出方法。
プロセッサを備える化合物創出装置により実行され、複数の化合物から標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項５に記載の特徴量算出方法を用いて算出した前記第１の特徴量と、を関連付けて記憶する記憶工程と、
請求項８に記載の特徴量算出方法を用いて、前記標的タンパク質の前記ポケット構造体について前記第２の特徴量を算出する創出特徴量算出工程と、
前記複数の化合物の立体構造を教師データとし、前記第１の特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、
前記生成器を用いて、前記ポケット構造体の前記第２の特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成工程と、
を実行する化合物創出方法。
プロセッサを備える化合物創出装置により実行され、複数の化合物から標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項６に記載の特徴量算出方法を用いて算出した前記第１の不変量化特徴量と、を関連付けて記憶する記憶工程と、
請求項９に記載の特徴量算出方法を用いて、前記標的タンパク質の前記ポケット構造体について前記第２の不変量化特徴量を算出する創出特徴量算出工程と、
前記複数の化合物の立体構造を教師データとし、前記第１の不変量化特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、
前記生成器を用いて、前記ポケット構造体の前記第２の不変量化特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成工程と、
を実行する化合物創出方法。
プロセッサを備える化合物創出装置により実行され、複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項１１に記載の特徴量算出方法を用いて算出した前記第３の特徴量と、を関連付けて記憶する記憶工程と、
前記タンパク質以外の前記標的生体高分子との結合が確認されている化合物である結合化合物について、前記第３の特徴量を算出する創出特徴量算出工程と、
前記複数の化合物の前記立体構造を教師データとし、前記第３の特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、
前記生成器を用いて、前記結合化合物の前記第３の特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成工程と、
を実行する化合物創出方法。
プロセッサを備える化合物創出装置により実行され、標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
一つまたは複数の化合物の化学構造と、前記化学構造についての、請求項５に記載の特徴量算出方法を用いて算出した前記第１の特徴量と、前記第１の特徴量の目標値としての、前記標的化合物との結合が確認されている化合物であるリガンドについての前記第１の特徴量と、を入力する入力工程と、
前記化学構造を変化させて候補構造を得る候補構造取得工程と、
前記候補構造について、請求項５に記載の特徴量算出方法を用いて前記第１の特徴量を算出する創出特徴量算出工程と、
前記候補構造を採用または棄却する候補構造採用工程であって、前記候補構造を採用するか否かを前記化学構造の前記変化により前記候補構造の前記第１の特徴量が前記目標値に近づいているか否かに基づいて判断する第１の採用処理を行い、第１の採用処理により前記候補構造が採用されなかった場合は、前記候補構造を採用するか否かを前記化学構造の前記変化により前記化学構造及び前記候補構造により構成される構造群の構造多様性が増加しているか否かに基づいて判断する第２の採用処理を行い、第１の採用処理及び第２の採用処理により前記候補構造が採用されなかった場合は前記化学構造の前記変化を棄却して前記変化をさせる前の前記化学構造に戻す棄却処理を行う候補構造採用工程と、
終了条件を満たすまで、前記入力工程、前記候補構造取得工程、前記創出特徴量算出工程、及び前記候補構造採用工程における処理を繰り返させる制御工程と、
を実行する化合物創出方法。
プロセッサを備える化合物創出装置により実行され、標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
一つまたは複数の化合物の化学構造と、前記化学構造についての、請求項６に記載の特徴量算出方法を用いて算出した前記第１の不変量化特徴量と、前記第１の不変量化特徴量の目標値としての、前記標的化合物との結合が確認されている化合物であるリガンドについての前記第１の不変量化特徴量と、を入力する入力工程と、
前記化学構造を変化させて候補構造を得る候補構造取得工程と、
前記候補構造について、請求項６に記載の特徴量算出方法を用いて前記第１の不変量化特徴量を算出する創出特徴量算出工程と、
前記候補構造を採用または棄却する候補構造採用工程であって、前記候補構造を採用するか否かを前記化学構造の前記変化により前記候補構造の前記第１の不変量化特徴量が前記目標値に近づいているか否かに基づいて判断する第１の採用処理を行い、第１の採用処理により前記候補構造が採用されなかった場合は、前記候補構造を採用するか否かを前記化学構造の前記変化により前記化学構造及び前記候補構造により構成される構造群の構造多様性が増加しているか否かに基づいて判断する第２の採用処理を行い、第１の採用処理及び第２の採用処理により前記候補構造が採用されなかった場合は前記化学構造の前記変化を棄却して前記変化をさせる前の前記化学構造に戻す棄却処理を行う候補構造採用工程と、
終了条件を満たすまで、前記入力工程、前記候補構造取得工程、前記創出特徴量算出工程、及び前記候補構造採用工程における処理を繰り返させる制御工程と、
を実行する化合物創出方法。
プロセッサを備える化合物創出装置により実行され、標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
一つまたは複数の化合物の化学構造と、前記化学構造についての、請求項８に記載の特徴量算出方法を用いて算出した前記第２の特徴量と、前記第２の特徴量の目標値としての、前記標的タンパク質の活性部位であるポケットとの結合が確認されているポケット構造体についての前記第２の特徴量と、を入力する入力工程と、
前記化学構造を変化させて候補構造を得る候補構造取得工程と、
前記候補構造について、請求項８に記載の特徴量算出方法を用いて前記第２の特徴量を算出する創出特徴量算出工程と、
前記候補構造を採用または棄却する候補構造採用工程であって、前記候補構造を採用するか否かを前記化学構造の前記変化により前記候補構造の前記第２の特徴量が前記目標値に近づいているか否かに基づいて判断する第１の採用処理を行い、第１の採用処理により前記候補構造が採用されなかった場合は、前記候補構造を採用するか否かを前記化学構造の前記変化により前記化学構造及び前記候補構造により構成される構造群の構造多様性が増加しているか否かに基づいて判断する第２の採用処理を行い、第１の採用処理及び第２の採用処理により前記候補構造が採用されなかった場合は前記化学構造の前記変化を棄却して前記変化をさせる前の前記化学構造に戻す棄却処理を行う候補構造採用工程と、
終了条件を満たすまで、前記入力工程、前記候補構造取得工程、前記創出特徴量算出工程、及び前記候補構造採用工程における処理を繰り返させる制御工程と、
を実行する化合物創出方法。
プロセッサを備える化合物創出装置により実行され、標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
一つまたは複数の化合物の化学構造と、前記化学構造についての、請求項９に記載の特徴量算出方法を用いて算出した前記第２の不変量化特徴量と、前記第２の不変量化特徴量の目標値としての、前記標的タンパク質の活性部位であるポケットとの結合が確認されているポケット構造体についての前記第２の不変量化特徴量と、を入力する入力工程と、
前記化学構造を変化させて候補構造を得る候補構造取得工程と、
前記候補構造について、請求項９に記載の特徴量算出方法を用いて前記第２の不変量化特徴量を算出する創出特徴量算出工程と、
前記候補構造を採用または棄却する候補構造採用工程であって、前記候補構造を採用するか否かを前記化学構造の前記変化により前記候補構造の前記第２の不変量化特徴量が前記目標値に近づいているか否かに基づいて判断する第１の採用処理を行い、第１の採用処理により前記候補構造が採用されなかった場合は、前記候補構造を採用するか否かを前記化学構造の前記変化により前記化学構造及び前記候補構造により構成される構造群の構造多様性が増加しているか否かに基づいて判断する第２の採用処理を行い、第１の採用処理及び第２の採用処理により前記候補構造が採用されなかった場合は前記化学構造の前記変化を棄却して前記変化をさせる前の前記化学構造に戻す棄却処理を行う候補構造採用工程と、
終了条件を満たすまで、前記入力工程、前記候補構造取得工程、前記創出特徴量算出工程、及び前記候補構造採用工程における処理を繰り返させる制御工程と、
を実行する化合物創出方法。
プロセッサを備える化合物創出装置により実行され、タンパク質以外の標的生体高分子に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
一つまたは複数の化合物の化学構造と、前記化学構造についての、請求項１１に記載の特徴量算出方法を用いて算出した前記第３の特徴量と、前記第３の特徴量の目標値としての、前記タンパク質以外の前記標的生体高分子に結合することが確認されている化合物である結合化合物についての前記第３の特徴量と、を入力する入力工程と、
前記化学構造を変化させて候補構造を得る候補構造取得工程と、
前記候補構造について、請求項１１に記載の特徴量算出方法を用いて前記第３の特徴量を算出する創出特徴量算出工程と、
前記候補構造を採用または棄却する候補構造採用工程であって、前記候補構造を採用するか否かを前記化学構造の前記変化により前記候補構造の前記第３の特徴量が前記目標値に近づいているか否かに基づいて判断する第１の採用処理を行い、第１の採用処理により前記候補構造が採用されなかった場合は、前記候補構造を採用するか否かを前記化学構造の前記変化により前記化学構造及び前記候補構造により構成される構造群の構造多様性が増加しているか否かに基づいて判断する第２の採用処理を行い、第１の採用処理及び第２の採用処理により前記候補構造が採用されなかった場合は前記化学構造の前記変化を棄却して前記変化をさせる前の前記化学構造に戻す棄却処理を行う候補構造採用工程と、
終了条件を満たすまで、前記入力工程、前記候補構造取得工程、前記創出特徴量算出工程、及び前記候補構造採用工程における処理を繰り返させる制御工程と、
を実行する化合物創出方法。