JP7191969B2 - 化合物の合成適性の評価方法、化合物の合成適性の評価プログラム及び化合物の合成適性の評価装置 - Google Patents

化合物の合成適性の評価方法、化合物の合成適性の評価プログラム及び化合物の合成適性の評価装置 Download PDF

Info

Publication number
JP7191969B2
JP7191969B2 JP2020546217A JP2020546217A JP7191969B2 JP 7191969 B2 JP7191969 B2 JP 7191969B2 JP 2020546217 A JP2020546217 A JP 2020546217A JP 2020546217 A JP2020546217 A JP 2020546217A JP 7191969 B2 JP7191969 B2 JP 7191969B2
Authority
JP
Japan
Prior art keywords
compound
synthesis
atomic
atomic arrangement
evaluating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020546217A
Other languages
English (en)
Other versions
JPWO2020054839A1 (ja
Inventor
淳 中林
大介 寺田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of JPWO2020054839A1 publication Critical patent/JPWO2020054839A1/ja
Application granted granted Critical
Publication of JP7191969B2 publication Critical patent/JP7191969B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

本発明は、化合物の合成適性の評価方法、化合物の合成適性の評価プログラム及び化合物の合成適性の評価装置に係り、特に、計算機上で生成又は改変した化合物の合成適性の評価方法、化合物の合成適性の評価プログラム及び化合物の合成適性の評価装置に関する。
所望の物性値を有する化合物の構造の探索は従来、主として、分子構造を与えて、結果である物性値を求めることにより行われてきたが、近年のインフォマティクスの発展に伴い物性値を与えて、その物性値を有する分子構造を求める研究が急速に進められている。物性値から分子構造を探索する方法については、例えば非特許文献1が知られている。非特許文献1では、物性値の目標を与え、(1)複数の初期構造(化学構造)を生成し、(2)各構造をランダムに変化させ、(3)各構造の物性値を見積もり、(4)物性値と目標値の距離を基準に構造の変化を採用または棄却して、目標に近い物性値を有する構造を求めることが記載されている。この過程で、(2)から(4)の処理が繰り返される。このように、物性値から分子構造を探索するには(1)から(4)を行う技術が必要とされている。
上述した(1)から(4)を行うに際しては、(4)で求めた化学構造が合成困難な化合物ばかりでは、意味がないため、化合物の合成適性を評価できる技術が求められる。このような評価手法として、SAscore(Synthetic Accessibility score)を算出する技術が知られている(非特許文献2を参照)。SAscoreは1から10までの実数値をとり、値が小さいほど合成が容易であるとみなされる。
非特許文献1 : “Bayesian molecular design with a chemical language”、Hisaki Ikebata他、[2018年7月23日検索]、インターネット(https://www.ncbi.nlm.nih.gov/pubmed/28281211)
非特許文献2 : “Estimation of synthetic Accessibilityscoreof drug-like molecules based on molecular complexity and fragment contributions”、Peter Ertl and AnsgarSchuffenhauer, Journal of Cheminformatics2009, 1;8 [2018年7月23日検索]、インターネット(https://jcheminf.springeropen.com/articles/10.1186/1758-2946-1-8)
非特許文献2で記載されているSAscoreは、化合物中の原子配列を抽出し、ECFC_4#フラグメントに基づく定義でフラグメント化を行い、データベース中における各フラグメントの出現頻度の対数をそのフラグメントの寄与として、各フラグメントの寄与の和を計算することでスコアとしている。しかしながら、非特許文献2においては、比較的大きなフラグメント、あるいは複雑な分岐構造を有するフラグメントを考慮しているため、抽出されたフラグメントの半数は、データベース中に1回しか出現しないフラグメントとなっていた。データベースに1回しか出現しないということは、特定の分子に固有のフラグメントであることを意味しており、この結果は、ECFC_4#フラグメントに基づくと、そのような分子固有のフラグメントが発生しやすいことを示唆している。
抽出したフラグメントが大きいほど、あるいは複雑な分岐構造を有しているほど、データベース中の出現頻度は少なくなる。いいかえれば、フラグメントに含まれる結合の本数が多いほど、データベース中の出現頻度は少なくなる。しかしながら、そのような分子配列でも必ずしも合成困難ではない場合があり、スコアと合成適性とが適に評価されない場合があった。
このように、従来の化合物データベースを用いた合成適性の評価では、化合物の合成適性を十分に評価できていなかった。
本発明は、このような事情に鑑みてなされたものであり、化合物の構造を効率的に探索するため、計算機上で生成及び/又は改変された化合物の合成適性を評価する化合物の合成適性の評価方法、化合物の合成適性の評価プログラム及び化合物の合成適性の評価装置を提供することを目的とする。
本発明の目的を達成するために、本発明に係る化合物の合成適性の評価方法は、合成適性の評価基準となる複数の基準化合物が収納された化合物データベースを選択する工程と、合成適性の評価対象である化合物の構造を決定する工程と、化合物データベースに収納されている基準化合物の構造から基準原子配列を抽出し、基準原子配列の基準出現頻度を求める工程と、化合物の構造から原子配列を抽出し、原子配列の出現頻度を求める工程と、化合物の原子配列に含まれる結合本数、及び、原子配列に対応する基準原子配列の出現頻度に基づいて合成適性を評価する工程と、を有する。
本発明の目的を達成するために、本発明に係る化合物の合成適性の評価プログラムは、上記記載の化合物の合成適性の評価方法をコンピュータに実行させる。
本発明の目的を達成させるために、本発明に係る化合物の合成適性の評価装置は、合成適性の評価基準となる複数の基準化合物が収納された化合物データベースを選択するデータベース選択部と、合成適性の評価対象である化合物の構造を取得する構造取得部と、化合物データベースに収納されている基準化合物の構造から基準原子配列を抽出し、基準原子配列の基準出現頻度を求める第1の抽出部と、化合物の構造から原子配列を抽出し、原子配列の出現頻度を求める第2の抽出部と、化合物の原子配列に含まれる結合本数、及び、原子配列に対応する基準原子配列の出現頻度に基づいて、原子配列に含まれる結合本数及び出現頻度が大きくなるほど数値が小さくなる関数を用いて、原子配列が基準化合物中に出現する頻度を、部分スコアとして計算を行い、部分スコアを合計し、合計スコアを計算する計算部と、合計スコアに基づいて、合成適性を評価する評価部と、を有する。
本発明の化合物の合成適性の評価方法によれば、評価対象である化合物から抽出した原子配列の、化合物データベースの出現頻度を求め、原子配列に含まれる結合本数及び出現頻度に基づいて合成適性の評価をしている。原子配列に含まれる結合本数を考慮して合成適性の評価を行うことで、結合本数が多くなることで出現頻度が小さくなり、合成適性が低いと評価された化合物の合成適性を適に評価することができる。
化合物の合成適性の評価装置の構成を示すブロック図である。 処理部の構成を示す図である。 記憶部に記憶される情報を示す図である。 化合物の合成適性の評価方法を示すフローチャートである。 本実施形態において合成適性を評価する化合物の構造式である。 抽出した基準原子配列と基準出現頻度の数を示す表図の部分抜粋である。 評価する化合物の抽出した原子配列と出現頻度を示す表図である。 化合物と合成適性スコアとの関係を示す図である。 化合物とSAスコアとの関係を示す図である。 ChemistScoreと合成適性スコアとの関係を示す図である。
以下、添付図面に従って、本発明に係る化合物の合成適性の評価方法、化合物の合成適性の評価プログラム、及び、化合物の合成適性の評価装置について説明する。
≪化合物の合成適性の評価装置≫
図1は、化合物の合成適性の評価装置(以下、単に「合成適性評価装置」ともいう)10の構成を示すブロック図である。合成適性評価装置10は、化合物の合成適性を評価する装置であり、コンピュータを用いて実現することができる。図1に示すように、合成適性評価装置10は、処理部100、記憶部200、表示部300、及び操作部400を備え、互いに接続されて必要な情報が送受信される。これらの構成要素については、各種の設置形態を採用することができ、各構成要素が1箇所(1筐体内、1室内等)に設置されていてもよいし、離れた場所に設置されネットワークを介して接続されていてもよい。また、合成適性評価装置10はインターネット等のネットワークNWを介して外部サーバ500、及び外部データベース510に接続し、必要に応じて、合成適性を評価する化合物の構造式及び/又は化合物データベースに収納された複数の基準化合物の構造式等の情報を取得することができる。
<処理部の構成>
図2は処理部100の構成を示す図である。処理部100は、データベース選択部105、構造取得部110、第1の抽出部115、第2の抽出部120、計算部125、評価部130、出力部135、表示制御部140、CPU145(CPU:Central Processing Unit)、ROM150(ROM:Read Only Memory)、及びRAM155(RAM:Random Access Memory)を備える。
データベース選択部105は、複数の基準化合物が収納されている複数の化合物データベースの中から、合成適性を評価するための目的に合った化合物が収納されている化合物データベースを選択する。化合物データベースは、不図示のDVDドライブ、半導体メモリ用端子等の記録媒体インターフェース及び/又はネットワークを介して、取得した複数の化合物データベースから選択することができる。選択する化合物データベースは、構造多様性の高い化合物データベースが好ましいが、特別な目的がある場合は、目的に合わせた構造の偏りを有する化合物データベースを選択することもできる。例えば、合成適性の評価対象である化合物が、色素らしい化合物かどうかを判断したい場合は、色素である化合物を多く含む化合物データベースを選択する。または、合成適性の評価対象である化合物が、医薬品らしい化合物かどうかを判断したい場合は、医薬品である化合物を多く含む化合物データベースを選択する。
構造取得部110は、不図示のDVDドライブ、半導体メモリ用端子等の記録媒体インターフェース及び/又はネットワークを介して化合物の構造式等の情報を取得する。化合物の構造式等の情報は、コンピュータ上で生成及び/又は改変した化合物を用いることができる。また、化合物の構造式は、操作部400のキーボード410及びマウス420を用いて入力してもよい。
第1の抽出部115は、化合物データベースに収納されている基準化合物の構造から基準原子配列を抽出し、基準原子配列の基準出現頻度を求める。
第2の抽出部120は、合成適性を評価する化合物の構造から原子配列を抽出し、合成適性を評価する化合物から、原子配列の出現頻度を求める。
計算部125は、合成適性の評価対象である化合物の原子配列に含まれる結合本数、及び、化合物データベースに収納された化合物の基準原子配列の基準出現頻度に基づいて、原子配列が基準化合物中に出現する頻度を部分スコアとして計算する。また、計算部125は、部分スコアを合計し、合計スコアを計算する。
評価部130は、計算部125で算出した合計スコアに基づいて、合成適性を評価する。部分スコアは、原子配列に含まれる結合本数、及び、化合物データベース中の出現頻度が大きくなるほど数値が小さくなる関数を用いているので、部分スコアが小さい、すなわち、合計スコアが小さいほど、合成適性が高いと評価することができる。また、データベース選択部で選択した化合物データベースにおいて、目的に合わせた構造の偏りを有する化合物データベースを選択した場合、化合物と化合物データベース中の基準化合物との類似性を評価することもできる。化合物データベースとして、例えば、色素である化合物を多く含む化合物データベースを選択し、計算した合計スコアが小さい場合は、色素である化合物を多く含む化合物中に、原子配列の出現頻度が多いと認定することができ、類似性が高いと評価することができる。これにより、評価対象である化合物が色素としての性質を有している可能性が高いと評価することができる。
出力部135は、構造取得部110で取得した合成適性の評価対象でる化合物の構造を出力する。また、第1の抽出部115で抽出した基準原子配列及び基準原子配列の出現頻度、及び、第2の抽出部120で抽出した化合物の原子配列及び原子配列の出現頻度を出力する。さらに、計算部125で計算した部分スコア、及び、合計スコアを出力する。
表示制御部140は、取得した情報及び処理結果のモニタ310への表示を制御する。処理部100のこれらの機能を用いた化合物の合成適性の評価方法については、詳細を後述する。なお、これらの機能よる処理はCPU145の制御下で行われる。
上述した処理部100の各部の機能は、各種のプロセッサ(processor)を用いて実現できる。各種のプロセッサには、例えばソフトウェア(プログラム)を実行して各種の機能を実現する汎用的なプロセッサであるCPUが含まれる。また、上述した各種のプロセッサには、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)も含まれる。さらに、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路なども上述した各種のプロセッサに含まれる。
各部の機能は1つのプロセッサにより実現されてもよいし、複数のプロセッサを組み合わせて実現されてもよい。また、複数の機能を1つのプロセッサで実現してもよい。複数の機能を1つのプロセッサで構成する例としては、第1に、クライアント、サーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の機能として実現する形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、システム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の機能は、ハードウェア的な構造として、上述した各種のプロセッサを1つ以上用いて構成される。さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。
上述したプロセッサあるいは電気回路がソフトウェア(プログラム)を実行する際は、実行するソフトウェアのプロセッサ(コンピュータ)読み取り可能なコードをROM150(図2を参照)等の非一時的記録媒体に記憶しておき、プロセッサがそのソフトウェアを参照する。非一時的記録媒体に記憶しておくソフトウェアは、本発明に係る化合物の合成適性の評価方法を実行するためのプログラムを含む。ROM150ではなく各種光磁気記録装置、半導体メモリ等の非一時的記録媒体にコードを記録してもよい。ソフトウェアを用いた処理の際には例えばRAM155が一時的記憶領域として用いられ、また例えば不図示のEEPROM(Electronically Erasable and Programmable Read Only Memory)に記憶されたデータを参照することもできる。
<記憶部の構成>
記憶部200はDVD(Digital Versatile Disk)、ハードディスク(Hard Disk)、各種半導体メモリ等の非一時的記録媒体及びその制御部により構成され、図3に示す画像及び情報が記憶される。構造情報205は合成適性の評価対象である化合物の構造を含む。基準化合物情報210は、化合物データベース中に収納された複数の基準化合物の構造式を含む。原子配列情報215は、合成適性の評価対象である化合物から抽出した原子配列を含む。出現頻度情報220は、合成適性の評価対象である化合物から、抽出した原子配列の化合物中の出現頻度を含む。基準原子配列情報225は、化合物データベース中に含まれる複数の基準化合物から抽出した基準原子配列を含む。基準出現頻度情報230は、化合物データベース中に含まれる複数の基準化合物の、抽出した原子配列の基準出現頻度を含む。関数情報235は、部分スコアを計算する関数、及び、合計スコアを計算する関数を含む。
<表示部及び操作部の構成>
表示部300はモニタ310(表示装置)を備えており、入力した画像及び情報、記憶部200に記憶された画像及び情報、処理部100による処理の結果等を表示することができる。操作部400は入力デバイス及び/又はポインティングデバイスとしてのキーボード410及びマウス420を含んでおり、ユーザーはこれらのデバイス及びモニタ310の画面を介して、本実施形態に係る化合物の合成適性の評価方法の実行に必要な操作を行うことができる。ユーザーが実行できる操作には、合成適性を評価する化合物の構造の入力、化合物データベースの選択、抽出する原子配列の指定等が含まれる。
<化合物の合成適性の評価装置における処理>
上述した化合物の合成適性の評価装置10では、操作部400を介したユーザーの指示に応じて化合物の合成適性の評価を行うことができる。
≪化合物の合成適性の評価方法≫
図4は、化合物の合成適性の評価方法を示すフローチャートである。合成適性の評価方法は、合成適性の評価基準となる複数の基準化合物が収納された化合物データベースを選択する工程(ステップS10)と、合成適性を評価する化合物の構造を決定する工程(ステップS12)と、化合物データベースに収納されている基準化合物から基準原子配列を抽出し、基準原子配列の基準出現頻度を求める工程(ステップS14)と、化合物の構造から原子配列を抽出し、原子配列の出現頻度を求める工程(ステップS16)と、化合物の原子配列が、化合物データベース中の基準化合物中に出現する頻度を、部分スコアとして計算する工程(ステップS18)と、部分スコアを合計した合計スコアから、合成適性を評価する工程(ステップS20)と、を有する。
以下、各工程について説明する。
<化合物データベースを選択する工程(ステップS10)>
化合物データベースを選択する工程は、複数ある化合物データベースの中から、合成適性の評価基準となる化合物データベースを選択する工程である。選択する化合物データベースとしては、基本的には、構造多様性の高い化合物データベースが望ましい。構造多様性の高い化合物データベースを選択することで、様々な化合物を基準にして、合成適性を評価することができる。また、評価する化合物に特別な目的がある場合、目的に合わせた構造に偏りを有する化合物を有する化合物データベースを用いてもよい。例えば、化合物が色素らしい化合物であるか判断したい場合には、公知の色素化合物を多く含む化合物データベースを選択することもできる。また、化合物が医薬品化合物であるか判断したい場合は、公知の医薬品化合物を多く含む化合物データベースを選択することもできる。このように、特別な目的に合わせた構造の偏りを有する化合物データベースを用いることで、この化合物データベース中の色素化合物又は医薬品化合物に、高い出現頻度で出現する原子配列か否かを評価することができる。出現頻度が高い場合は、評価する化合物は、選択した化合物データベース中の基準化合物の構造、又は、原子配列に近い構造を有すると考えられ、目的の化合物と同じ特性を有すると考えられる。
化合物データベースの選択は、ユーザーの操作に応じて選択してもよく、ユーザーの希望する条件に応じて、コンピュータが選択する構成としてもよい。化合物データベースの例としては、PubChem(パブケム)を用いることができる。基準化合物は、化合物データベースの全ての化合物を評価に用いてもよく、一部を抽出、例えば、100万化合物を抽出して評価に用いてもよい。化合物データベースから基準化合物を抽出する方法は、任意に抽出してもよく、目的に合わせたデータベースを選択するように、目的に合わせた化合物を抽出してもよい。なお、本実施形態においては、化合物データベースとしてPubChemを用い、基準化合物は、PubChem内の化合物の全てを用いて行った。
<化合物の構造を決定する工程(ステップS12)>
化合物の構造を決定する工程は、合成適性の評価対象である化合物の構造を決定する工程である。化合物は、操作部400を介したユーザーの操作に応じて、化合物の構造を入力し、化合物の構造を決定してもよい。また、コンピュータ上で、所望の物性が得られるように構造を改変した化合物の構造を用い、この改変後の化合物を、合成適性の評価対象である化合物と決定することもできる。化合物の構造は、ネットワークNWを介して外部サーバ500及び外部データベース510から取得し、決定してもよい。なお、本実施形態においては、合成適性の評価対象である化合物として、図5に示す化合物の構造を与える。
<基準原子配列を抽出し基準出現頻度を求める工程(ステップS14)>
基準原子配列を抽出し基準出現頻度を求める工程は、ステップS10で選択した化合物データベース中の基準化合物から、基準原子配列を抽出し、この基準原子配列の基準化合物中の出現頻度である基準出現頻度を求める工程である。
基準原子配列は、基準化合物中から抽出した原子配列である。原子配列は結合の本数ごとに抽出する。抽出した基準原子配列は、後述する部分スコアを計算する工程(ステップS18)で用いられるため、少なくとも、評価する化合物から抽出する原子配列と同様の方法で原子配列に対応する基準原子配列を抽出する。例えば、注目した原子からの結合本数、原子配列の構造、原子の電子状態等の条件を同じにして抽出する。これらの条件は、評価対象である化合物から抽出する原子配列と条件が同じであれば、特に限定されないが、例えば、原子配列の構造としては、直鎖状、分岐状、環状又はこれらの組み合わせの原子配列を抽出することができる。また、原子の電子状態が異なる場合は、異なる原子配列として抽出することが好ましい。例えば、炭素と炭素の結合においては、SP 1混成軌道、SP 2混成軌道及びSP 3混成軌道はそれぞれ、異なる原子配列として抽出することが好ましい。さらに、端部が水素である結合は、水素との結合を特に考慮する必要がない場合は、結合の数に水素との結合を含まないように抽出することが好ましい。端部が水素である結合を含めると出現頻度が大きくなるため、部分スコア及び合計スコアを正確に評価することができなくなる。
次に、抽出した基準原子配列の基準化合物中の基準出現頻度を求める。基準出現頻度は、ステップS10で選択した化合物データベース中の基準化合物のすべて、又は、化合物データベースから抽出した基準化合物について求める。
図6は、抽出した基準原子配列と基準出現頻度の数を示す表図の部分抜粋である。本実施形態においては、結合本数が5本までの原子配列で、直鎖状の原子配列を抽出した。
図6の表図中で示す原子名は、Tripos Mol2フォーマットで示す原子である。例えば、sp混成軌道の炭素は「C.1」、sp混成動の炭素は「C.2」、sp混成起動の炭素は「C.3」、芳香族を構成する炭素は「C.ar」で表す。また、原子間の「-」は単結合、「=」は二重結合、「#」は三重結合、「:」はaromatic(芳香族)であることを意味する。他に、図6の中で示す原子名で、「I」はヨウ素、「S.3」はsp混成起動の硫黄、「N.pl3」は、平面三角形構造の窒素、「O.co2」は、カルボン酸基およびリン酸基中の酸素を表す。なお、図6に示す表は、例として、結合が1個(結合本数1本)及び結合が5個(結合本数5本)であり、出現頻度が最も高い原子配列、2番目に高い原子配列、及び、出現頻度の最も低い原子配列を示しているが、実際には、多くの原子配列があり、結合1個の原子配列は、約100万個存在する。なお、基準原子配列は、注目した原子からの結合の本数、及び、構造により抽出されるため、基準化合物中のベンゼン環1個に対して、「C.ar:C.ar」の出現頻度は「6」であり、「C.ar:C.ar:C.ar:C.ar:C.ar:C.ar」の出現頻度は「6」となる。
<原子配列を抽出し出現頻度を求める工程(ステップS16)>
原子配列を抽出し出現頻度を求める工程は、ステップS12で入力した化合物の構造から原子配列を抽出し、出現頻度を求める工程である。
子配列の抽出は、ステップS16で基準原子配列を抽出する方法と同様の方法により行うことができる。また、抽出した原子配列に対して、ステップS12で入力した化合物中の出現頻度を求める。
図7は、ステップS12で入力した化合物に対して、抽出した原子配列と、その原子配列の化合物中の出現頻度を示す表図である。原子配列を抽出し出現頻度を求める工程においても、ステップS14と同様に、原子配列は、原子の結合の数が1個から5個、直鎖状の構造、末端が水素の結合は含まない条件で抽出し、出現頻度を求めた。なお、表中の「-(edge)」は、その原子が、構造式の末端であることを表している。
<部分スコアを計算する工程(ステップS18)>
部分スコアを計算する工程は、合成適性の評価対象である化合物の原子配列が、化合物データベース中の基準化合物中に出現する頻度を部分スコアとして計算する工程である。
部分スコアを計算する式(関数)としては、単調減少又は単調増加の関数を用いて行うことができる。関数は、例えば、反比例の関数、指数関数などを用いることができる。単調減少関数として、原子配列に含まれる結合の本数(n)、及び/又は、化合物データベース中の基準化合物における原子配列の出現頻度(f)が大きくなるほど、値が小さくなる関数を用いることができる。原子配列に含まれる結合の本数が多くなると、基準化合物中の基準出現頻度は少なくなる。しかしながら、結合の本数が多くなった原子配列の中には、単純な構造で、合成は容易であるが、結合の本数が多くなるため、基準出現頻度が少なくなる原子配列がある。例えば、基準化合物がプロパン(CHCHCH)である場合、原子配列がC.3-C.3の出現頻度は「2」であるが、C.3-C.3-C.3の出現頻度は「1」である。このように、合成が容易である化合物であっても、基準出現頻度からスコアを算出した場合、合成適性に差が生じることになる。本実施形態においては、原子配列に含まれる結合の本数も変数として考慮した関数を用い、結合の本数が多くなるほど、部分スコアの数値を小さくしている。これにより、結合の本数が少なく基準出現頻度の高い原子配列に対して、大きな(結合の本数が多い)原子配列(分子固有の配列になりやすい複雑な原子配列)の影響を小さくすることができる。したがって、単に出現頻度から求めるスコアと比較し、適切に合成適性を評価することができる。
また、出現頻度f=0である場合、すなわち、化合物から抽出した原子配列が、基準化合物中に出現しない場合に、特異点を持たない関数とすることが好ましい。出現頻度f=0である原子配列は、従来の化合物の原子配列として存在しにくい原子配列であると考えられる。したがって、このような原子配列を有する化合物は合成適性が低いと評価されるはずであるが、f=0に特異点を有する場合、スコアの計算ができなくなってしまうため、合成適性の評価において、このような原子配列からの寄与を無視することになる。その結果、合成適性があることを示すスコアになってしまう場合があり、適切に評価できない場合がある。出現頻度f=0に特異点を持たない関数とすることで、合成適性を適切に評価することができる。
部分スコアの計算に用いる関数としては、例えば、次の式(1)、及び、式(2)で示す関数を用いることができる。
Figure 0007191969000001
Figure 0007191969000002
なお、式中、substrは評価される化合物中に含まれる原子配列であり、sは部分スコアである。nは原子配列に含まれる結合の本数であり、fは化合物データベース中の基準出現頻度である。d、d及びdはパラメーターであり、d、d及びdの数値を変更することで、s(substr)の数値を変更することができる。dの値を大きくすると部分スコアを大きくすることができ、d及びdの値を大きくすると部分スコアを小さくすることができる。また、σ及びσはパラメーターであり、σ及びσの数値を変更することで、s(substr)の数値を変更することができ、σ及びσの値を大きくすると部分スコアを大きくすることができる。なお、上記式(1)及び式(2)は単調減少関数であるが、単調増加関数を用いる場合は、求めたスコアの解釈を逆転させる、すなわち、求めたスコアが大きいほど、合成適性が高いと判断することができる。
次に部分スコアを算出する例を示す。例として、結合1個の原子配列C.ar:C.ar(芳香族環中の炭素-炭素結合)の部分スコアについて計算する。部分スコアを求める式としては、上記の式(1)を用いて行った。また、パラメーターdは、「1」を用いて行った。
まず、化合物データベース(PubChem)の基準化合物中における原子配列C.ar:C.ar:の部分スコアを算出する。原子配列C.ar:C.ar:の化合物データベース(PubChem)の基準化合物中の出現頻度は799082034であるから、s(C.ar:C.ar)は1/(1×(799082034+1))=1.25×10-9となる。
次に、化合物データベース(PubChem)の基準化合物中における原子配列C.ar:C.ar:の部分スコアに基づいて、合成適性を評価する化合物におけるC.ar:C.arの部分スコアを算出する。合成適性を評価する化合物においてC.ar:C.arの出現頻度は、「6」であるから、合成適性を評価する化合物におけるC.ar:C.arの部分スコアは、1.25×10-9×6=7.5×10-9である。
また、原子配列Br-O.3-C.ar:C.ar:C.ar:C.arの化合物データベースの基準化合物中の出現頻度は670であるから、s(Br-O.3-C.ar:C.ar:C.ar:C.ar)は、1/(5×(670+1))=2.98×10-4となる。合成適性の評価対象である化合物においてBr-O.3-C.ar:C.ar:C.ar:C.arの出現頻度は、「2」であるから部分スコアは、2.98×10-4×2=5.96×10-4である。
このように、部分スコアは、原子配列の結合の本数と、化合物データベース中の基準化合物の出現頻度と、の兼ね合いで決定することができる。
ステップS18においては、図7の表で示した原子配列の全てに対して、部分スコアの計算を行う。図7においては、結合の数を5個、直鎖状の原子配列としているが、抽出する原子配列の種類によっては、その原子配列の部分スコアの計算も行う。
<合成適性を評価する工程(ステップS20)>
合成適性を評価する工程は、部分スコアを合計した合計スコアから合成適性を評価する工程である。
ステップS18で計算した、それぞれの原子配列の部分スコアを合計し、合計スコアを求める。合計スコアは、部分スコアを合計することで求めることができる。図5で示す化合物に対し、図7で示す原子配列でそれぞれの部分スコアを計算し、合計スコアを計算すると、7.17×10-3となる。
図8は、化合物と合成適性スコアを横軸に記載した図である。なお、ステップS18で求めた合計スコアが、本実施形態において合成適性スコアとなる。合成適性スコアが小さいほど、合成が容易であると評価することができ、合成適性スコアが大きいほど、合成が困難であると判断することができる。図8に示す化合物A~Eのうち、化合物Dが、本実施形態の一例として、合計スコアを求めた化合物である。化合物Aは、合成可能、すなわち常温常圧の大気中において安定であり、単離可能であることが公知な化合物である。化合物Bは、単離可能ではあるが、常温常圧の大気中において不安定であり、合成適性を持たないことが公知な化合物である。化合物C~Eは、常温常圧の大気中において単離が不可能であることから、やはり合成適性を持たないことが公知な化合物である。図8で示すように、合計スコア(合成適性スコア)が低い方が、合成可能であり、安定であることが確認できる。したがって、合計スコア(合成適性スコア)を計算することで、実際に合成を行うことなく、化合物の合成適性を評価することができる。なお、合計スコア(合成適性スコア)は、部分スコアを算出する際に、パラメーターを用いているように、あるスコア以上で、合成適性(合成が容易、又は、困難)を評価するのではなく、他の化合物との対比により評価を行う。
なお、本実施形態においては、原子配列毎に部分スコアを算出して数値化し、部分スコアを合計し合計スコアにより合成適性を評価しているが、これに限定されない。数値化せずに、原子配列毎に部分的な部分評価を行い、部分評価を合計した合計評価により評価を行ってもよい。
図9は、SAスコアと化合物との関係を示す図である。SAスコアにおいては、6以上で合成が困難であるという評価である。しかしながら、図9に示すように、不安定な化合物B、及び、合成不可な化合物である化合物C~Eは、SAスコアが2~3の範囲であるため、合成適性があると判断されている。
また、図10は、ChemistScoreと本実施形態で求めた合計スコアの関係を示す図である。ChemistScoreは、非特許文献2に記載されているスコアであり、化学者が化合物の合成のし易さをランク付けしたものである。ChemistScoreが6以上である化合物は合成困難であると判断できる。図10に示すように、本実施形態で得られた合計スコア(合成適性スコア)とChemistScoreとを比較すると、ChemistScoreで合成困難と判定されたスコア以上で、本実施形態の合計スコアも合成困難と判断することができ、合成適性の評価基準として、適性評価できると考えられる。
<化合物の合成適性の評価方法及び化合物の合成適性の評価プログラムの効果>
以上説明したように、化合物の合成適性の評価装置10では、本実施形態に係る化合物の合成適性の評価方法及び化合物の合成適性の評価プログラムを用いて、化合物の合成適性、特に、計算機上で生成又は改変した化合物の合成適性の評価を適切に行うことができる。
10 化合物の合成適性の評価装置
100 処理部
105 データベース選択部
110 構造取得部
115 第1の抽出部
120 第2の抽出部
125 計算部
130 評価部
135 出力部
140 表示制御部
145 CPU
150 ROM
155 RAM
200 記憶部
205 構造情報
210 基準化合物情報
215 原子配列情報
220 出現頻度情報
225 基準原子配列情報
230 基準出現頻度情報
235 関数情報
300 表示部
310 モニタ
400 操作部
410 キーボード
420 マウス
500 外部サーバ
510 外部データベース
NW ネットワーク

Claims (12)

  1. 合成適性の評価基準となる複数の基準化合物が収納された化合物データベースを選択する工程と、
    合成適性の評価対象である化合物の構造を決定する工程と、
    前記化合物データベースに収納されている前記基準化合物の構造から基準原子配列を抽出し、前記基準原子配列の基準出現頻度を求める工程と、
    前記化合物の構造から原子配列を抽出し、前記原子配列の出現頻度を求める工程と、
    前記化合物の前記原子配列に含まれる結合本数、及び、前記原子配列に対応する前記基準原子配列の前記出現頻度に基づいて合成適性を評価する工程と、を有する化合物の合成適性の評価方法。
  2. 前記合成適性を評価する工程は、前記原子配列毎に部分的な部分評価を行い、前記部分評価を合計した合計評価により行う請求項1に記載の化合物の合成適性の評価方法。
  3. 前記合成適性を評価する工程は、前記原子配列毎に部分スコアを算出して数値化し、前記部分スコアを合計し合計スコアにより評価を行う請求項1又は2に記載の化合物の合成適性の評価方法。
  4. 前記部分スコアの計算は、前記原子配列の前記化合物データベース中での出現頻度が0の場合に特異点を有さない関数を用いる請求項3に記載の化合物の合成適性の評価方法。
  5. 前記合計スコアから、前記化合物と、前記化合物データベースに収納される前記基準化合物の特徴との類似性を評価する工程を有する請求項3又は4に記載の化合物の合成適性の評価方法。
  6. 前記合成適性を評価する工程は、単調減少又は単調増加の関数を用いて評価を行う請求項1から5のいずれか1項に記載の化合物の合成適性の評価方法。
  7. 抽出される前記基準原子配列及び前記原子配列は、直鎖状、分岐状、環状又はこれらの組み合わせの原子配列である請求項1から6のいずれか1項に記載の化合物の合成適性の評価方法。
  8. 前記基準原子配列及び前記原子配列は、原子の電子状態が異なる場合、異なる原子配列として抽出される請求項1から7のいずれか1項に記載の化合物の合成適性の評価方法。
  9. 前記化合物の構造から前記原子配列を抽出する際に、結合の端部が水素である原子配列を抽出しない請求項1から8のいずれか1項に記載の化合物の合成適性の評価方法。
  10. 請求項1から9のいずれか1項に記載の化合物の合成適性の評価方法をコンピュータに実行させる化合物の合成適性の評価プログラム。
  11. 非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項10に記載のプログラムをコンピュータに実行させる記録媒体。
  12. 合成適性の評価基準となる複数の基準化合物が収納された化合物データベースを選択するデータベース選択部と、
    合成適性の評価対象である化合物の構造を取得する構造取得部と、
    前記化合物データベースに収納されている前記基準化合物の構造から基準原子配列を抽出し、前記基準原子配列の基準出現頻度を求める第1の抽出部と、
    前記化合物の構造から原子配列を抽出し、前記原子配列の出現頻度を求める第2の抽出部と、
    前記化合物の前記原子配列に含まれる結合本数、及び、前記原子配列に対応する前記基準原子配列の前記出現頻度に基づいて、前記原子配列に含まれる結合本数及び前記出現頻度が大きくなるほど数値が小さくなる関数を用いて、前記原子配列が前記基準化合物中に出現する頻度を、部分スコアとして計算を行い、前記部分スコアを合計し、合計スコアを計算する計算部と、
    前記合計スコアに基づいて、合成適性を評価する評価部と、を有する化合物の合成適性の評価装置。
JP2020546217A 2018-09-14 2019-09-13 化合物の合成適性の評価方法、化合物の合成適性の評価プログラム及び化合物の合成適性の評価装置 Active JP7191969B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018172576 2018-09-14
JP2018172576 2018-09-14
PCT/JP2019/036072 WO2020054839A1 (ja) 2018-09-14 2019-09-13 化合物の合成適性の評価方法、化合物の合成適性の評価プログラム及び化合物の合成適性の評価装置

Publications (2)

Publication Number Publication Date
JPWO2020054839A1 JPWO2020054839A1 (ja) 2021-08-30
JP7191969B2 true JP7191969B2 (ja) 2022-12-19

Family

ID=69777218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020546217A Active JP7191969B2 (ja) 2018-09-14 2019-09-13 化合物の合成適性の評価方法、化合物の合成適性の評価プログラム及び化合物の合成適性の評価装置

Country Status (5)

Country Link
EP (1) EP3852113A4 (ja)
JP (1) JP7191969B2 (ja)
CN (1) CN112689877A (ja)
IL (1) IL281379A (ja)
WO (1) WO2020054839A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7398334B2 (ja) * 2020-04-30 2023-12-14 株式会社日立製作所 ユーザに提案する材料を決定するシステム
CN113416215A (zh) * 2021-07-12 2021-09-21 成都大学 一种新型化合物d-dicy及其合成方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091526A (ja) 2015-11-04 2017-05-25 三星電子株式会社Samsung Electronics Co.,Ltd. 新規物質探索方法および装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091526A (ja) 2015-11-04 2017-05-25 三星電子株式会社Samsung Electronics Co.,Ltd. 新規物質探索方法および装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谷村 隆次,成熟期を迎えた de novo 医薬設計,日本化学会情報化学部会誌 第28巻(2010)第3号,日本,[オンライン],[検索日 2019.11.25],2010年,第57-61頁(特に第60頁),インターネット<URL:https://www.jstage.jst.go.jp/article/cicsj/28/3/28_3_57/_pdf/-char/ja>,<DOI:https://doi.org/10.11546/cicsj.28.57>

Also Published As

Publication number Publication date
IL281379A (en) 2021-04-29
EP3852113A1 (en) 2021-07-21
WO2020054839A1 (ja) 2020-03-19
EP3852113A4 (en) 2021-10-27
CN112689877A (zh) 2021-04-20
US20210193272A1 (en) 2021-06-24
JPWO2020054839A1 (ja) 2021-08-30

Similar Documents

Publication Publication Date Title
Li et al. POSREG: proteomic signature discovered by simultaneously optimizing its reproducibility and generalizability
Baumann et al. Reliable estimation of prediction errors for QSAR models under model uncertainty using double cross-validation
Cao et al. Protein single-model quality assessment by feature-based probability density functions
Smith et al. METLIN: a metabolite mass spectral database
Poli et al. Reliability analysis and optimization of the consensus docking approach for the development of virtual screening studies
Luo et al. An alternative approach to confidence interval estimation for the win ratio statistic
JP7191969B2 (ja) 化合物の合成適性の評価方法、化合物の合成適性の評価プログラム及び化合物の合成適性の評価装置
Kim et al. Comparative analysis of mass spectral similarity measures on peak alignment for comprehensive two‐dimensional gas chromatography mass spectrometry
Léonard et al. mulPBA: an efficient multiple protein structure alignment method based on a structural alphabet
Liang Prior sensitivity in Bayesian structural equation modeling for sparse factor loading structures
WO2016147290A1 (ja) 情報分析プログラム、情報分析方法および情報分析装置
Wang et al. MUFOLD‐WQA: A new selective consensus method for quality assessment in protein structure prediction
JP6586850B2 (ja) テーブル再構成装置と方法
Fang et al. MUFold-SSW: a new web server for predicting protein secondary structures, torsion angles and turns
Sarica et al. Introducing the rank-biased overlap as similarity measure for feature importance in explainable machine learning: a case study on Parkinson’s disease
Yang et al. Toward an objective and reproducible model choice via variable selection deviation
WO2016147289A1 (ja) 情報分析プログラム、情報分析方法および情報分析装置
JP7036378B2 (ja) 病理診断文入力支援プログラム、病理診断文入力支援方法および病理診断文入力支援システム
Yu et al. Regression calibration in semiparametric accelerated failure time models
US12040056B2 (en) Method for evaluating synthetic aptitude of compound, program for evaluating synthetic aptitude of compound, and device for evaluating synthetic aptitude of compound
Dramiński et al. The Monte Carlo feature selection and interdependency discovery is unbiased
CN114780368A (zh) 表数据同步工具评测方法与表述数据同步方法
JP7190498B2 (ja) 化合物構造の生成方法、化合物構造の生成プログラム、及び化合物構造の生成装置
JP2011085991A (ja) 文書検索方法、文書検索装置、文書検索プログラム
JP2017004493A (ja) データ分析方法、データ分析装置およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210427

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221207

R150 Certificate of patent or registration of utility model

Ref document number: 7191969

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150