JP7191969B2

JP7191969B2 - 化合物の合成適性の評価方法、化合物の合成適性の評価プログラム及び化合物の合成適性の評価装置

Info

Publication number: JP7191969B2
Application number: JP2020546217A
Authority: JP
Inventors: 淳中林; 大介寺田
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2018-09-14
Filing date: 2019-09-13
Publication date: 2022-12-19
Anticipated expiration: 2039-09-13
Also published as: IL281379A; EP3852113A1; WO2020054839A1; EP3852113A4; CN112689877A; US20210193272A1; JPWO2020054839A1

Description

本発明は、化合物の合成適性の評価方法、化合物の合成適性の評価プログラム及び化合物の合成適性の評価装置に係り、特に、計算機上で生成又は改変した化合物の合成適性の評価方法、化合物の合成適性の評価プログラム及び化合物の合成適性の評価装置に関する。

所望の物性値を有する化合物の構造の探索は従来、主として、分子構造を与えて、結果である物性値を求めることにより行われてきたが、近年のインフォマティクスの発展に伴い物性値を与えて、その物性値を有する分子構造を求める研究が急速に進められている。物性値から分子構造を探索する方法については、例えば非特許文献１が知られている。非特許文献１では、物性値の目標値を与え、（１）複数の初期構造（化学構造）を生成し、（２）各構造をランダムに変化させ、（３）各構造の物性値を見積もり、（４）物性値と目標値の距離を基準に構造の変化を採用または棄却して、目標値に近い物性値を有する構造を求めることが記載されている。この過程で、（２）から（４）の処理が繰り返される。このように、物性値から分子構造を探索するには（１）から（４）を行う技術が必要とされている。

上述した（１）から（４）を行うに際しては、（４）で求めた化学構造が合成困難な化合物ばかりでは、意味がないため、化合物の合成適性を評価できる技術が求められる。このような評価手法として、ＳＡｓｃｏｒｅ（Synthetic Accessibility score)を算出する技術が知られている（非特許文献２を参照）。ＳＡｓｃｏｒｅは１から１０までの実数値をとり、値が小さいほど合成が容易であるとみなされる。

非特許文献1 : “Bayesian molecular design with a chemical language”、Hisaki Ikebata他、［２０１８年７月２３日検索］、インターネット（https://www.ncbi.nlm.nih.gov/pubmed/28281211）
非特許文献2 : “Estimation of synthetic Accessibilityscoreof drug-like molecules based on molecular complexity and fragment contributions”、Peter Ertl and AnsgarSchuffenhauer, Journal of Cheminformatics2009, 1;8 ［２０１８年７月２３日検索］、インターネット（https://jcheminf.springeropen.com/articles/10.1186/1758-2946-1-8）

非特許文献２で記載されているＳＡｓｃｏｒｅは、化合物中の原子配列を抽出し、ＥＣＦＣ＿４＃フラグメントに基づく定義でフラグメント化を行い、データベース中における各フラグメントの出現頻度の対数をそのフラグメントの寄与として、各フラグメントの寄与の和を計算することでスコアとしている。しかしながら、非特許文献２においては、比較的大きなフラグメント、あるいは複雑な分岐構造を有するフラグメントを考慮しているため、抽出されたフラグメントの半数は、データベース中に１回しか出現しないフラグメントとなっていた。データベースに１回しか出現しないということは、特定の分子に固有のフラグメントであることを意味しており、この結果は、ＥＣＦＣ＿４＃フラグメントに基づくと、そのような分子固有のフラグメントが発生しやすいことを示唆している。

抽出したフラグメントが大きいほど、あるいは複雑な分岐構造を有しているほど、データベース中の出現頻度は少なくなる。いいかえれば、フラグメントに含まれる結合の本数が多いほど、データベース中の出現頻度は少なくなる。しかしながら、そのような分子配列でも必ずしも合成困難ではない場合があり、スコアと合成適性とが適正に評価されない場合があった。

このように、従来の化合物データベースを用いた合成適性の評価では、化合物の合成適性を十分に評価できていなかった。

本発明は、このような事情に鑑みてなされたものであり、化合物の構造を効率的に探索するため、計算機上で生成及び／又は改変された化合物の合成適性を評価する化合物の合成適性の評価方法、化合物の合成適性の評価プログラム及び化合物の合成適性の評価装置を提供することを目的とする。

本発明の目的を達成するために、本発明に係る化合物の合成適性の評価方法は、合成適性の評価基準となる複数の基準化合物が収納された化合物データベースを選択する工程と、合成適性の評価対象である化合物の構造を決定する工程と、化合物データベースに収納されている基準化合物の構造から基準原子配列を抽出し、基準原子配列の基準出現頻度を求める工程と、化合物の構造から原子配列を抽出し、原子配列の出現頻度を求める工程と、化合物の原子配列に含まれる結合本数、及び、原子配列に対応する基準原子配列の出現頻度に基づいて合成適性を評価する工程と、を有する。

本発明の目的を達成するために、本発明に係る化合物の合成適性の評価プログラムは、上記記載の化合物の合成適性の評価方法をコンピュータに実行させる。

本発明の目的を達成させるために、本発明に係る化合物の合成適性の評価装置は、合成適性の評価基準となる複数の基準化合物が収納された化合物データベースを選択するデータベース選択部と、合成適性の評価対象である化合物の構造を取得する構造取得部と、化合物データベースに収納されている基準化合物の構造から基準原子配列を抽出し、基準原子配列の基準出現頻度を求める第１の抽出部と、化合物の構造から原子配列を抽出し、原子配列の出現頻度を求める第２の抽出部と、化合物の原子配列に含まれる結合本数、及び、原子配列に対応する基準原子配列の出現頻度に基づいて、原子配列に含まれる結合本数及び出現頻度が大きくなるほど数値が小さくなる関数を用いて、原子配列が基準化合物中に出現する頻度を、部分スコアとして計算を行い、部分スコアを合計し、合計スコアを計算する計算部と、合計スコアに基づいて、合成適性を評価する評価部と、を有する。

本発明の化合物の合成適性の評価方法によれば、評価対象である化合物から抽出した原子配列の、化合物データベースの出現頻度を求め、原子配列に含まれる結合本数及び出現頻度に基づいて合成適性の評価をしている。原子配列に含まれる結合本数を考慮して合成適性の評価を行うことで、結合本数が多くなることで出現頻度が小さくなり、合成適性が低いと評価された化合物の合成適性を適正に評価することができる。

化合物の合成適性の評価装置の構成を示すブロック図である。処理部の構成を示す図である。記憶部に記憶される情報を示す図である。化合物の合成適性の評価方法を示すフローチャートである。本実施形態において合成適性を評価する化合物の構造式である。抽出した基準原子配列と基準出現頻度の数を示す表図の部分抜粋である。評価する化合物の抽出した原子配列と出現頻度を示す表図である。化合物と合成適性スコアとの関係を示す図である。化合物とＳＡスコアとの関係を示す図である。ＣｈｅｍｉｓｔＳｃｏｒｅと合成適性スコアとの関係を示す図である。

以下、添付図面に従って、本発明に係る化合物の合成適性の評価方法、化合物の合成適性の評価プログラム、及び、化合物の合成適性の評価装置について説明する。

≪化合物の合成適性の評価装置≫
図１は、化合物の合成適性の評価装置（以下、単に「合成適性評価装置」ともいう）１０の構成を示すブロック図である。合成適性評価装置１０は、化合物の合成適性を評価する装置であり、コンピュータを用いて実現することができる。図１に示すように、合成適性評価装置１０は、処理部１００、記憶部２００、表示部３００、及び操作部４００を備え、互いに接続されて必要な情報が送受信される。これらの構成要素については、各種の設置形態を採用することができ、各構成要素が１箇所（１筐体内、１室内等）に設置されていてもよいし、離れた場所に設置されネットワークを介して接続されていてもよい。また、合成適性評価装置１０はインターネット等のネットワークＮＷを介して外部サーバ５００、及び外部データベース５１０に接続し、必要に応じて、合成適性を評価する化合物の構造式及び／又は化合物データベースに収納された複数の基準化合物の構造式等の情報を取得することができる。

＜処理部の構成＞
図２は処理部１００の構成を示す図である。処理部１００は、データベース選択部１０５、構造取得部１１０、第１の抽出部１１５、第２の抽出部１２０、計算部１２５、評価部１３０、出力部１３５、表示制御部１４０、ＣＰＵ１４５（ＣＰＵ：Central Processing Unit）、ＲＯＭ１５０（ＲＯＭ：Read Only Memory）、及びＲＡＭ１５５（ＲＡＭ：Random Access Memory）を備える。

データベース選択部１０５は、複数の基準化合物が収納されている複数の化合物データベースの中から、合成適性を評価するための目的に合った化合物が収納されている化合物データベースを選択する。化合物データベースは、不図示のＤＶＤドライブ、半導体メモリ用端子等の記録媒体インターフェース及び／又はネットワークを介して、取得した複数の化合物データベースから選択することができる。選択する化合物データベースは、構造多様性の高い化合物データベースが好ましいが、特別な目的がある場合は、目的に合わせた構造の偏りを有する化合物データベースを選択することもできる。例えば、合成適性の評価対象である化合物が、色素らしい化合物かどうかを判断したい場合は、色素である化合物を多く含む化合物データベースを選択する。または、合成適性の評価対象である化合物が、医薬品らしい化合物かどうかを判断したい場合は、医薬品である化合物を多く含む化合物データベースを選択する。

構造取得部１１０は、不図示のＤＶＤドライブ、半導体メモリ用端子等の記録媒体インターフェース及び／又はネットワークを介して化合物の構造式等の情報を取得する。化合物の構造式等の情報は、コンピュータ上で生成及び／又は改変した化合物を用いることができる。また、化合物の構造式は、操作部４００のキーボード４１０及びマウス４２０を用いて入力してもよい。

第１の抽出部１１５は、化合物データベースに収納されている基準化合物の構造から基準原子配列を抽出し、基準原子配列の基準出現頻度を求める。

第２の抽出部１２０は、合成適性を評価する化合物の構造から原子配列を抽出し、合成適性を評価する化合物から、原子配列の出現頻度を求める。

計算部１２５は、合成適性の評価対象である化合物の原子配列に含まれる結合本数、及び、化合物データベースに収納された化合物の基準原子配列の基準出現頻度に基づいて、原子配列が基準化合物中に出現する頻度を部分スコアとして計算する。また、計算部１２５は、部分スコアを合計し、合計スコアを計算する。

評価部１３０は、計算部１２５で算出した合計スコアに基づいて、合成適性を評価する。部分スコアは、原子配列に含まれる結合本数、及び、化合物データベース中の出現頻度が大きくなるほど数値が小さくなる関数を用いているので、部分スコアが小さい、すなわち、合計スコアが小さいほど、合成適性が高いと評価することができる。また、データベース選択部で選択した化合物データベースにおいて、目的に合わせた構造の偏りを有する化合物データベースを選択した場合、化合物と化合物データベース中の基準化合物との類似性を評価することもできる。化合物データベースとして、例えば、色素である化合物を多く含む化合物データベースを選択し、計算した合計スコアが小さい場合は、色素である化合物を多く含む化合物中に、原子配列の出現頻度が多いと認定することができ、類似性が高いと評価することができる。これにより、評価対象である化合物が色素としての性質を有している可能性が高いと評価することができる。

出力部１３５は、構造取得部１１０で取得した合成適性の評価対象である化合物の構造を出力する。また、第１の抽出部１１５で抽出した基準原子配列及び基準原子配列の出現頻度、及び、第２の抽出部１２０で抽出した化合物の原子配列及び原子配列の出現頻度を出力する。さらに、計算部１２５で計算した部分スコア、及び、合計スコアを出力する。

表示制御部１４０は、取得した情報及び処理結果のモニタ３１０への表示を制御する。処理部１００のこれらの機能を用いた化合物の合成適性の評価方法については、詳細を後述する。なお、これらの機能による処理はＣＰＵ１４５の制御下で行われる。

上述した処理部１００の各部の機能は、各種のプロセッサ（processor）を用いて実現できる。各種のプロセッサには、例えばソフトウェア（プログラム）を実行して各種の機能を実現する汎用的なプロセッサであるＣＰＵが含まれる。また、上述した各種のプロセッサには、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）も含まれる。さらに、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路なども上述した各種のプロセッサに含まれる。

各部の機能は１つのプロセッサにより実現されてもよいし、複数のプロセッサを組み合わせて実現されてもよい。また、複数の機能を１つのプロセッサで実現してもよい。複数の機能を１つのプロセッサで構成する例としては、第１に、クライアント、サーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組合せで１つのプロセッサを構成し、このプロセッサが複数の機能として実現する形態がある。第２に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、システム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の機能は、ハードウェア的な構造として、上述した各種のプロセッサを１つ以上用いて構成される。さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。

上述したプロセッサあるいは電気回路がソフトウェア（プログラム）を実行する際は、実行するソフトウェアのプロセッサ（コンピュータ）読み取り可能なコードをＲＯＭ１５０（図２を参照）等の非一時的記録媒体に記憶しておき、プロセッサがそのソフトウェアを参照する。非一時的記録媒体に記憶しておくソフトウェアは、本発明に係る化合物の合成適性の評価方法を実行するためのプログラムを含む。ＲＯＭ１５０ではなく各種光磁気記録装置、半導体メモリ等の非一時的記録媒体にコードを記録してもよい。ソフトウェアを用いた処理の際には例えばＲＡＭ１５５が一時的記憶領域として用いられ、また例えば不図示のＥＥＰＲＯＭ（Electronically Erasable and Programmable Read Only Memory）に記憶されたデータを参照することもできる。

＜記憶部の構成＞
記憶部２００はＤＶＤ（Digital Versatile Disk）、ハードディスク（Hard Disk）、各種半導体メモリ等の非一時的記録媒体及びその制御部により構成され、図３に示す画像及び情報が記憶される。構造情報２０５は合成適性の評価対象である化合物の構造を含む。基準化合物情報２１０は、化合物データベース中に収納された複数の基準化合物の構造式を含む。原子配列情報２１５は、合成適性の評価対象である化合物から抽出した原子配列を含む。出現頻度情報２２０は、合成適性の評価対象である化合物から、抽出した原子配列の化合物中の出現頻度を含む。基準原子配列情報２２５は、化合物データベース中に含まれる複数の基準化合物から抽出した基準原子配列を含む。基準出現頻度情報２３０は、化合物データベース中に含まれる複数の基準化合物の、抽出した原子配列の基準出現頻度を含む。関数情報２３５は、部分スコアを計算する関数、及び、合計スコアを計算する関数を含む。

＜表示部及び操作部の構成＞
表示部３００はモニタ３１０（表示装置）を備えており、入力した画像及び情報、記憶部２００に記憶された画像及び情報、処理部１００による処理の結果等を表示することができる。操作部４００は入力デバイス及び／又はポインティングデバイスとしてのキーボード４１０及びマウス４２０を含んでおり、ユーザーはこれらのデバイス及びモニタ３１０の画面を介して、本実施形態に係る化合物の合成適性の評価方法の実行に必要な操作を行うことができる。ユーザーが実行できる操作には、合成適性を評価する化合物の構造の入力、化合物データベースの選択、抽出する原子配列の指定等が含まれる。

＜化合物の合成適性の評価装置における処理＞
上述した化合物の合成適性の評価装置１０では、操作部４００を介したユーザーの指示に応じて化合物の合成適性の評価を行うことができる。

≪化合物の合成適性の評価方法≫
図４は、化合物の合成適性の評価方法を示すフローチャートである。合成適性の評価方法は、合成適性の評価基準となる複数の基準化合物が収納された化合物データベースを選択する工程（ステップＳ１０）と、合成適性を評価する化合物の構造を決定する工程（ステップＳ１２）と、化合物データベースに収納されている基準化合物から基準原子配列を抽出し、基準原子配列の基準出現頻度を求める工程（ステップＳ１４）と、化合物の構造から原子配列を抽出し、原子配列の出現頻度を求める工程（ステップＳ１６）と、化合物の原子配列が、化合物データベース中の基準化合物中に出現する頻度を、部分スコアとして計算する工程（ステップＳ１８）と、部分スコアを合計した合計スコアから、合成適性を評価する工程（ステップＳ２０）と、を有する。

以下、各工程について説明する。

＜化合物データベースを選択する工程（ステップＳ１０）＞
化合物データベースを選択する工程は、複数ある化合物データベースの中から、合成適性の評価基準となる化合物データベースを選択する工程である。選択する化合物データベースとしては、基本的には、構造多様性の高い化合物データベースが望ましい。構造多様性の高い化合物データベースを選択することで、様々な化合物を基準にして、合成適性を評価することができる。また、評価する化合物に特別な目的がある場合、目的に合わせた構造に偏りを有する化合物を有する化合物データベースを用いてもよい。例えば、化合物が色素らしい化合物であるか判断したい場合には、公知の色素化合物を多く含む化合物データベースを選択することもできる。また、化合物が医薬品化合物であるか判断したい場合は、公知の医薬品化合物を多く含む化合物データベースを選択することもできる。このように、特別な目的に合わせた構造の偏りを有する化合物データベースを用いることで、この化合物データベース中の色素化合物又は医薬品化合物に、高い出現頻度で出現する原子配列か否かを評価することができる。出現頻度が高い場合は、評価する化合物は、選択した化合物データベース中の基準化合物の構造、又は、原子配列に近い構造を有すると考えられ、目的の化合物と同じ特性を有すると考えられる。

化合物データベースの選択は、ユーザーの操作に応じて選択してもよく、ユーザーの希望する条件に応じて、コンピュータが選択する構成としてもよい。化合物データベースの例としては、ＰｕｂＣｈｅｍ（パブケム）を用いることができる。基準化合物は、化合物データベースの全ての化合物を評価に用いてもよく、一部を抽出、例えば、１００万化合物を抽出して評価に用いてもよい。化合物データベースから基準化合物を抽出する方法は、任意に抽出してもよく、目的に合わせたデータベースを選択するように、目的に合わせた化合物を抽出してもよい。なお、本実施形態においては、化合物データベースとしてＰｕｂＣｈｅｍを用い、基準化合物は、ＰｕｂＣｈｅｍ内の化合物の全てを用いて行った。

＜化合物の構造を決定する工程（ステップＳ１２）＞
化合物の構造を決定する工程は、合成適性の評価対象である化合物の構造を決定する工程である。化合物は、操作部４００を介したユーザーの操作に応じて、化合物の構造を入力し、化合物の構造を決定してもよい。また、コンピュータ上で、所望の物性が得られるように構造を改変した化合物の構造を用い、この改変後の化合物を、合成適性の評価対象である化合物と決定することもできる。化合物の構造は、ネットワークＮＷを介して外部サーバ５００及び外部データベース５１０から取得し、決定してもよい。なお、本実施形態においては、合成適性の評価対象である化合物として、図５に示す化合物の構造を与える。

＜基準原子配列を抽出し基準出現頻度を求める工程（ステップＳ１４）＞
基準原子配列を抽出し基準出現頻度を求める工程は、ステップＳ１０で選択した化合物データベース中の基準化合物から、基準原子配列を抽出し、この基準原子配列の基準化合物中の出現頻度である基準出現頻度を求める工程である。

基準原子配列は、基準化合物中から抽出した原子配列である。原子配列は結合の本数ごとに抽出する。抽出した基準原子配列は、後述する部分スコアを計算する工程（ステップＳ１８）で用いられるため、少なくとも、評価する化合物から抽出する原子配列と同様の方法で原子配列に対応する基準原子配列を抽出する。例えば、注目した原子からの結合本数、原子配列の構造、原子の電子状態等の条件を同じにして抽出する。これらの条件は、評価対象である化合物から抽出する原子配列と条件が同じであれば、特に限定されないが、例えば、原子配列の構造としては、直鎖状、分岐状、環状又はこれらの組み合わせの原子配列を抽出することができる。また、原子の電子状態が異なる場合は、異なる原子配列として抽出することが好ましい。例えば、炭素と炭素の結合においては、ＳＰ１混成軌道、ＳＰ２混成軌道及びＳＰ３混成軌道はそれぞれ、異なる原子配列として抽出することが好ましい。さらに、端部が水素である結合は、水素との結合を特に考慮する必要がない場合は、結合の数に水素との結合を含まないように抽出することが好ましい。端部が水素である結合を含めると出現頻度が大きくなるため、部分スコア及び合計スコアを正確に評価することができなくなる。

次に、抽出した基準原子配列の基準化合物中の基準出現頻度を求める。基準出現頻度は、ステップＳ１０で選択した化合物データベース中の基準化合物のすべて、又は、化合物データベースから抽出した基準化合物について求める。

図６は、抽出した基準原子配列と基準出現頻度の数を示す表図の部分抜粋である。本実施形態においては、結合本数が５本までの原子配列で、直鎖状の原子配列を抽出した。

図６の表図中で示す原子名は、ＴｒｉｐｏｓＭｏｌ２フォーマットで示す原子である。例えば、ｓｐ^１混成軌道の炭素は「Ｃ．１」、ｓｐ^２混成軌動の炭素は「Ｃ．２」、ｓｐ^３混成起動の炭素は「Ｃ．３」、芳香族環を構成する炭素は「Ｃ．ａｒ」で表す。また、原子間の「－」は単結合、「＝」は二重結合、「＃」は三重結合、「：」はａｒｏｍａｔｉｃ（芳香族）であることを意味する。他に、図６の中で示す原子名で、「Ｉ」はヨウ素、「Ｓ．３」はｓｐ^３混成起動の硫黄、「Ｎ．ｐｌ３」は、平面三角形構造の窒素、「Ｏ．ｃｏ２」は、カルボン酸基およびリン酸基中の酸素を表す。なお、図６に示す表は、例として、結合が１個（結合本数１本）及び結合が５個（結合本数５本）であり、出現頻度が最も高い原子配列、２番目に高い原子配列、及び、出現頻度の最も低い原子配列を示しているが、実際には、多くの原子配列があり、結合１個の原子配列は、約１００万個存在する。なお、基準原子配列は、注目した原子からの結合の本数、及び、構造により抽出されるため、基準化合物中のベンゼン環１個に対して、「Ｃ．ａｒ：Ｃ．ａｒ」の出現頻度は「６」であり、「Ｃ．ａｒ：Ｃ．ａｒ：Ｃ．ａｒ：Ｃ．ａｒ：Ｃ．ａｒ：Ｃ．ａｒ」の出現頻度は「６」となる。

＜原子配列を抽出し出現頻度を求める工程（ステップＳ１６）＞
原子配列を抽出し出現頻度を求める工程は、ステップＳ１２で入力した化合物の構造から原子配列を抽出し、出現頻度を求める工程である。

原子配列の抽出は、ステップＳ１６で基準原子配列を抽出する方法と同様の方法により行うことができる。また、抽出した原子配列に対して、ステップＳ１２で入力した化合物中の出現頻度を求める。

図７は、ステップＳ１２で入力した化合物に対して、抽出した原子配列と、その原子配列の化合物中の出現頻度を示す表図である。原子配列を抽出し出現頻度を求める工程においても、ステップＳ１４と同様に、原子配列は、原子の結合の数が１個から５個、直鎖状の構造、末端が水素の結合は含まない条件で抽出し、出現頻度を求めた。なお、表中の「－（ｅｄｇｅ）」は、その原子が、構造式の末端であることを表している。

＜部分スコアを計算する工程（ステップＳ１８）＞
部分スコアを計算する工程は、合成適性の評価対象である化合物の原子配列が、化合物データベース中の基準化合物中に出現する頻度を部分スコアとして計算する工程である。

部分スコアを計算する式（関数）としては、単調減少又は単調増加の関数を用いて行うことができる。関数は、例えば、反比例の関数、指数関数などを用いることができる。単調減少関数として、原子配列に含まれる結合の本数（ｎ）、及び／又は、化合物データベース中の基準化合物における原子配列の出現頻度（ｆ）が大きくなるほど、値が小さくなる関数を用いることができる。原子配列に含まれる結合の本数が多くなると、基準化合物中の基準出現頻度は少なくなる。しかしながら、結合の本数が多くなった原子配列の中には、単純な構造で、合成は容易であるが、結合の本数が多くなるため、基準出現頻度が少なくなる原子配列がある。例えば、基準化合物がプロパン（ＣＨ_３ＣＨ_２ＣＨ_３）である場合、原子配列がＣ．３－Ｃ．３の出現頻度は「２」であるが、Ｃ．３－Ｃ．３－Ｃ．３の出現頻度は「１」である。このように、合成が容易である化合物であっても、基準出現頻度からスコアを算出した場合、合成適性に差が生じることになる。本実施形態においては、原子配列に含まれる結合の本数も変数として考慮した関数を用い、結合の本数が多くなるほど、部分スコアの数値を小さくしている。これにより、結合の本数が少なく基準出現頻度の高い原子配列に対して、大きな（結合の本数が多い）原子配列（分子固有の配列になりやすい複雑な原子配列）の影響を小さくすることができる。したがって、単に出現頻度から求めるスコアと比較し、適切に合成適性を評価することができる。

また、出現頻度ｆ＝０である場合、すなわち、化合物から抽出した原子配列が、基準化合物中に出現しない場合に、特異点を持たない関数とすることが好ましい。出現頻度ｆ＝０である原子配列は、従来の化合物の原子配列として存在しにくい原子配列であると考えられる。したがって、このような原子配列を有する化合物は合成適性が低いと評価されるはずであるが、ｆ＝０に特異点を有する場合、スコアの計算ができなくなってしまうため、合成適性の評価において、このような原子配列からの寄与を無視することになる。その結果、合成適性があることを示すスコアになってしまう場合があり、適切に評価できない場合がある。出現頻度ｆ＝０に特異点を持たない関数とすることで、合成適性を適切に評価することができる。

部分スコアの計算に用いる関数としては、例えば、次の式（１）、及び、式（２）で示す関数を用いることができる。

なお、式中、ｓｕｂｓｔｒは評価される化合物中に含まれる原子配列であり、ｓは部分スコアである。ｎは原子配列に含まれる結合の本数であり、ｆは化合物データベース中の基準出現頻度である。ｄ、ｄ_ｎ及びｄ_ｆはパラメーターであり、ｄ、ｄ_ｎ及びｄ_ｆの数値を変更することで、ｓ（ｓｕｂｓｔｒ）の数値を変更することができる。ｄの値を大きくすると部分スコアを大きくすることができ、ｄ_ｎ及びｄ_ｆの値を大きくすると部分スコアを小さくすることができる。また、σ_ｎ及びσ_ｆはパラメーターであり、σ_ｎ及びσ_ｆの数値を変更することで、ｓ（ｓｕｂｓｔｒ）の数値を変更することができ、σ_ｎ及びσ_ｆの値を大きくすると部分スコアを大きくすることができる。なお、上記式（１）及び式（２）は単調減少関数であるが、単調増加関数を用いる場合は、求めたスコアの解釈を逆転させる、すなわち、求めたスコアが大きいほど、合成適性が高いと判断することができる。

次に部分スコアを算出する例を示す。例として、結合１個の原子配列Ｃ．ａｒ：Ｃ．ａｒ（芳香族環中の炭素－炭素結合）の部分スコアについて計算する。部分スコアを求める式としては、上記の式（１）を用いて行った。また、パラメーターｄは、「１」を用いて行った。

まず、化合物データベース（ＰｕｂＣｈｅｍ）の基準化合物中における原子配列Ｃ．ａｒ：Ｃ．ａｒ：の部分スコアを算出する。原子配列Ｃ．ａｒ：Ｃ．ａｒ：の化合物データベース（ＰｕｂＣｈｅｍ）の基準化合物中の出現頻度は７９９０８２０３４であるから、ｓ（Ｃ．ａｒ：Ｃ．ａｒ）は１／（１×（７９９０８２０３４＋１））＝１．２５×１０^－９となる。

次に、化合物データベース（ＰｕｂＣｈｅｍ）の基準化合物中における原子配列Ｃ．ａｒ：Ｃ．ａｒ：の部分スコアに基づいて、合成適性を評価する化合物におけるＣ．ａｒ：Ｃ．ａｒの部分スコアを算出する。合成適性を評価する化合物においてＣ．ａｒ：Ｃ．ａｒの出現頻度は、「６」であるから、合成適性を評価する化合物におけるＣ．ａｒ：Ｃ．ａｒの部分スコアは、１．２５×１０^－９×６＝７．５×１０^－９である。

また、原子配列Ｂｒ－Ｏ．３－Ｃ．ａｒ：Ｃ．ａｒ：Ｃ．ａｒ：Ｃ．ａｒの化合物データベースの基準化合物中の出現頻度は６７０であるから、ｓ（Ｂｒ－Ｏ．３－Ｃ．ａｒ：Ｃ．ａｒ：Ｃ．ａｒ：Ｃ．ａｒ）は、１／（５×（６７０＋１））＝２．９８×１０^－４となる。合成適性の評価対象である化合物においてＢｒ－Ｏ．３－Ｃ．ａｒ：Ｃ．ａｒ：Ｃ．ａｒ：Ｃ．ａｒの出現頻度は、「２」であるから部分スコアは、２．９８×１０^－４×２＝５．９６×１０^－４である。

このように、部分スコアは、原子配列の結合の本数と、化合物データベース中の基準化合物の出現頻度と、の兼ね合いで決定することができる。

ステップＳ１８においては、図７の表で示した原子配列の全てに対して、部分スコアの計算を行う。図７においては、結合の数を５個、直鎖状の原子配列としているが、抽出する原子配列の種類によっては、その原子配列の部分スコアの計算も行う。

＜合成適性を評価する工程（ステップＳ２０）＞
合成適性を評価する工程は、部分スコアを合計した合計スコアから合成適性を評価する工程である。

ステップＳ１８で計算した、それぞれの原子配列の部分スコアを合計し、合計スコアを求める。合計スコアは、部分スコアを合計することで求めることができる。図５で示す化合物に対し、図７で示す原子配列でそれぞれの部分スコアを計算し、合計スコアを計算すると、７．１７×１０^－３となる。

図８は、化合物と合成適性スコアを横軸に記載した図である。なお、ステップＳ１８で求めた合計スコアが、本実施形態において合成適性スコアとなる。合成適性スコアが小さいほど、合成が容易であると評価することができ、合成適性スコアが大きいほど、合成が困難であると判断することができる。図８に示す化合物Ａ～Ｅのうち、化合物Ｄが、本実施形態の一例として、合計スコアを求めた化合物である。化合物Ａは、合成可能、すなわち常温常圧の大気中において安定であり、単離可能であることが公知な化合物である。化合物Ｂは、単離可能ではあるが、常温常圧の大気中において不安定であり、合成適性を持たないことが公知な化合物である。化合物Ｃ～Ｅは、常温常圧の大気中において単離が不可能であることから、やはり合成適性を持たないことが公知な化合物である。図８で示すように、合計スコア（合成適性スコア）が低い方が、合成可能であり、安定であることが確認できる。したがって、合計スコア（合成適性スコア）を計算することで、実際に合成を行うことなく、化合物の合成適性を評価することができる。なお、合計スコア（合成適性スコア）は、部分スコアを算出する際に、パラメーターを用いているように、あるスコア以上で、合成適性（合成が容易、又は、困難）を評価するのではなく、他の化合物との対比により評価を行う。

なお、本実施形態においては、原子配列毎に部分スコアを算出して数値化し、部分スコアを合計し合計スコアにより合成適性を評価しているが、これに限定されない。数値化せずに、原子配列毎に部分的な部分評価を行い、部分評価を合計した合計評価により評価を行ってもよい。

図９は、ＳＡスコアと化合物との関係を示す図である。ＳＡスコアにおいては、６以上で合成が困難であるという評価である。しかしながら、図９に示すように、不安定な化合物Ｂ、及び、合成不可な化合物である化合物Ｃ～Ｅは、ＳＡスコアが２～３の範囲であるため、合成適性があると判断されている。

また、図１０は、ＣｈｅｍｉｓｔＳｃｏｒｅと本実施形態で求めた合計スコアの関係を示す図である。ＣｈｅｍｉｓｔＳｃｏｒｅは、非特許文献２に記載されているスコアであり、化学者が化合物の合成のし易さをランク付けしたものである。ＣｈｅｍｉｓｔＳｃｏｒｅが６以上である化合物は合成困難であると判断できる。図１０に示すように、本実施形態で得られた合計スコア（合成適性スコア）とＣｈｅｍｉｓｔＳｃｏｒｅとを比較すると、ＣｈｅｍｉｓｔＳｃｏｒｅで合成困難と判定されたスコア以上で、本実施形態の合計スコアも合成困難と判断することができ、合成適性の評価基準として、適性評価できると考えられる。

＜化合物の合成適性の評価方法及び化合物の合成適性の評価プログラムの効果＞
以上説明したように、化合物の合成適性の評価装置１０では、本実施形態に係る化合物の合成適性の評価方法及び化合物の合成適性の評価プログラムを用いて、化合物の合成適性、特に、計算機上で生成又は改変した化合物の合成適性の評価を適切に行うことができる。

１０化合物の合成適性の評価装置
１００処理部
１０５データベース選択部
１１０構造取得部
１１５第１の抽出部
１２０第２の抽出部
１２５計算部
１３０評価部
１３５出力部
１４０表示制御部
１４５ＣＰＵ
１５０ＲＯＭ
１５５ＲＡＭ
２００記憶部
２０５構造情報
２１０基準化合物情報
２１５原子配列情報
２２０出現頻度情報
２２５基準原子配列情報
２３０基準出現頻度情報
２３５関数情報
３００表示部
３１０モニタ
４００操作部
４１０キーボード
４２０マウス
５００外部サーバ
５１０外部データベース
ＮＷネットワーク

Claims

合成適性の評価基準となる複数の基準化合物が収納された化合物データベースを選択する工程と、
合成適性の評価対象である化合物の構造を決定する工程と、
前記化合物データベースに収納されている前記基準化合物の構造から基準原子配列を抽出し、前記基準原子配列の基準出現頻度を求める工程と、
前記化合物の構造から原子配列を抽出し、前記原子配列の出現頻度を求める工程と、
前記化合物の前記原子配列に含まれる結合本数、及び、前記原子配列に対応する前記基準原子配列の前記出現頻度に基づいて合成適性を評価する工程と、を有する化合物の合成適性の評価方法。
前記合成適性を評価する工程は、前記原子配列毎に部分的な部分評価を行い、前記部分評価を合計した合計評価により行う請求項１に記載の化合物の合成適性の評価方法。
前記合成適性を評価する工程は、前記原子配列毎に部分スコアを算出して数値化し、前記部分スコアを合計し合計スコアにより評価を行う請求項１又は２に記載の化合物の合成適性の評価方法。
前記部分スコアの計算は、前記原子配列の前記化合物データベース中での出現頻度が０の場合に特異点を有さない関数を用いる請求項３に記載の化合物の合成適性の評価方法。
前記合計スコアから、前記化合物と、前記化合物データベースに収納される前記基準化合物の特徴との類似性を評価する工程を有する請求項３又は４に記載の化合物の合成適性の評価方法。
前記合成適性を評価する工程は、単調減少又は単調増加の関数を用いて評価を行う請求項１から５のいずれか１項に記載の化合物の合成適性の評価方法。
抽出される前記基準原子配列及び前記原子配列は、直鎖状、分岐状、環状又はこれらの組み合わせの原子配列である請求項１から６のいずれか１項に記載の化合物の合成適性の評価方法。
前記基準原子配列及び前記原子配列は、原子の電子状態が異なる場合、異なる原子配列として抽出される請求項１から７のいずれか１項に記載の化合物の合成適性の評価方法。
前記化合物の構造から前記原子配列を抽出する際に、結合の端部が水素である原子配列を抽出しない請求項１から８のいずれか１項に記載の化合物の合成適性の評価方法。
請求項１から９のいずれか１項に記載の化合物の合成適性の評価方法をコンピュータに実行させる化合物の合成適性の評価プログラム。
非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項１０に記載のプログラムをコンピュータに実行させる記録媒体。
合成適性の評価基準となる複数の基準化合物が収納された化合物データベースを選択するデータベース選択部と、
合成適性の評価対象である化合物の構造を取得する構造取得部と、
前記化合物データベースに収納されている前記基準化合物の構造から基準原子配列を抽出し、前記基準原子配列の基準出現頻度を求める第１の抽出部と、
前記化合物の構造から原子配列を抽出し、前記原子配列の出現頻度を求める第２の抽出部と、
前記化合物の前記原子配列に含まれる結合本数、及び、前記原子配列に対応する前記基準原子配列の前記出現頻度に基づいて、前記原子配列に含まれる結合本数及び前記出現頻度が大きくなるほど数値が小さくなる関数を用いて、前記原子配列が前記基準化合物中に出現する頻度を、部分スコアとして計算を行い、前記部分スコアを合計し、合計スコアを計算する計算部と、
前記合計スコアに基づいて、合成適性を評価する評価部と、を有する化合物の合成適性の評価装置。