JP7485229B2 - 化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法 - Google Patents

化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法 Download PDF

Info

Publication number
JP7485229B2
JP7485229B2 JP2023545632A JP2023545632A JP7485229B2 JP 7485229 B2 JP7485229 B2 JP 7485229B2 JP 2023545632 A JP2023545632 A JP 2023545632A JP 2023545632 A JP2023545632 A JP 2023545632A JP 7485229 B2 JP7485229 B2 JP 7485229B2
Authority
JP
Japan
Prior art keywords
prediction
molecule
safety
safety evaluation
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023545632A
Other languages
English (en)
Other versions
JPWO2023033027A1 (ja
Inventor
拓也 南
直樹 橋爪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Resonac Corp
Original Assignee
Hitachi Chemical Co Ltd
Showa Denko Materials Co Ltd
Resonac Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Chemical Co Ltd, Showa Denko Materials Co Ltd, Resonac Corp filed Critical Hitachi Chemical Co Ltd
Publication of JPWO2023033027A1 publication Critical patent/JPWO2023033027A1/ja
Application granted granted Critical
Publication of JP7485229B2 publication Critical patent/JP7485229B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、化合物の、安全性予測装置、安全性予測プログラム及び安全性予測方法に関する。
化学品や医薬品等において使用される化合物の種類は何千万種も存在し、化合物は様々な構造を有する。化合物は、生態、環境に有害な影響を与える可能性があるため、化合物の分解性、毒性等の種々の安全性を予測することは極めて重要である。そこで、化学工業、製薬等の様々な分野において、化合物の種々の安全性を予測する化合物の安全性予測装置の開発が検討されている。
化合物の安全性の予測率が低いと、人や環境に被害を与える可能性があるため、安全性予測装置を実用化するためには、化合物の安全性の予測に対して極めて高い信頼性を実現することが必須である。
化合物の安全性を予測する化合物の安全性予測装置として、例えば、化粧品素材に関する情報を用いて計算された記述子の中から化粧品素材の特定の評価に有効な記述子を学習して解析する手段と、解析された記述子を用いて、特定の評価に有効な評価モデルを検索し、化粧品素材の刺激性、感作性又は反復投与毒性の予測値を取得する手段とを有する安全性評価システムが提案されている(例えば、特許文献1参照)。
また、他の化合物の安全性予測装置として、例えば、催奇形性未知の一般化学物質分子と予めデータベース中に格納されている全ての催奇形性既知の医薬品分子の類似度を算出し、類似度の高い順に一般化学物質分子に関する医薬品安全性評価をスコア化して提供する化学構造の類似度を算出し、化合物の安全性を評価する方法が提案されている(例えば、特許文献2参照)。
日本国特許第5512077号公報 日本国特開2007-153767号公報
しかしながら、特許文献1の技術は、化粧品素材の刺激性、感作性又は反復投与毒性の予測に限られるので、従来と異なる新規な化合物等、化合物の種類によっては化合物の安全性を高い精度で予測できない可能性が高いという問題があった。
また、特許文献2の技術は、データベースに登録されている全ての医薬品分子に対して類似度を算出し、類似分子の安全性データを参照しなければならないため、化合物の安全性の評価に手間がかかり、使用者の利便性が低いという問題があった。
本発明の一態様は、使用者の利便性を高めながら、高精度に化合物の安全性評価を行うことができる化合物の安全性予測装置を提供することを目的とする。
本発明は、以下に示す構成を備える。
[1] 一つ以上の分子の構造式を入力する入力部と、
前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測部と、
前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索部と、
前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力部と、
を備える、化合物の安全性予測装置。
[2] 前記出力部は、前記予測の確信度が高い場合には、前記分子の安全性評価の予測結果及び前記予測の確信度に関するメッセージを出力し、
前記予測の確信度が低い場合には、前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データに関するメッセージを出力する[1]に記載の化合物の安全性予測装置。
[3] 前記類似分子の安全性評価データより前記分子の安全性評価の予測結果の妥当性を検証し、前記分子の安全性評価の予測結果と前記類似分子の安全性評価データとの合致度を判定する検証部を備える[1]に記載の化合物の安全性予測装置。
[4] 前記出力部は、前記予測の確信度が高い場合には、前記分子の安全性評価の予測結果及び前記予測の確信度に関するメッセージを出力し、
前記予測の確信度が低い場合には、前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データに関するメッセージを出力する[3]に記載の化合物の安全性予測装置。
[5] 前記予測の確信度が低い場合に、
前記出力部は、前記合致度が高い場合には、前記分子の安全性評価の予測結果が前記類似分子の安全性評価データと整合することを示すメッセージを出力し、
前記合致度が低い場合には、前記分子の安全性評価の予測結果が前記類似分子の安全性評価データと整合しないことを示すメッセージを出力する[4]に記載の化合物の安全性予測装置。
[6] 前記安全性予測部は、
前記分子の構造式に基づいて前記分子の特徴量を算出する特徴量算出部と、
前記特徴量に基づいて前記分子の安全性評価を予測すると共に前記予測の確信度を算出する予測部と、
を備える[1]~[5]の何れか一つに記載の化合物の安全性予測装置。
[7] 前記特徴量算出部は、前記分子の構造式に基づくフィンガープリント、又は前記分子の構造式に基づいて、量子化学計算により計算された物性値、定量的構造活性相関により推算された物性値及び前記分子の構造式と物性値との関係を学習した学習済みモデルによる予測値の何れか一つ以上を用いて前記分子の特徴量を算出する[6]に記載の化合物の安全性予測装置。
[8] 前記類似分子データ検索部は、
前記入力部で入力された前記分子の構造式と、過去に評価された評価済み分子の安全性評価結果が格納された安全性評価データベース中の複数の前記評価済み分子の構造式との類似度を計算する類似度評価部と、
前記類似度が高い前記評価済み分子の安全性評価結果を前記類似分子の安全性評価データとして取得するデータ検索部と、
を備える[1]~[7]の何れか一つに記載の化合物の安全性予測装置。
[9] 一つ以上の分子の構造式を入力する入力工程と、
前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測工程と、
前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索工程と、
前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力工程と、
をコンピュータに実行させる、化合物の安全性予測プログラム。
[10] 一つ以上の分子の構造式を入力する入力工程と、
前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測工程と、
前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索工程と、
前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力工程と、
を含む、化合物の安全性予測方法。
本発明に係る化合物の安全性予測装置、安全性予測プログラム及び安全性予測方法の一態様は、分子の安全性の予測の確信度を数値化することで、化合物の安全性を適切に評価でき、確信度が高い場合には、その予測結果をそのまま採用することで、化合物の安全性の評価を高精度に行いつつ、迅速かつ容易に行うことができる。これにより、本発明に係る化合物の安全性予測装置、安全性予測プログラム及び安全性予測方法の一態様は、使用者の利便性を高めながら、高精度に化合物の安全性評価を行うことができる。
本発明の第1の実施形態に係る化合物の安全性予測装置の概略構成を示すブロック図である。 構造式(SMILES)が記載された表の一例を示す図である。 予測の確信度が50%以上の場合に予測の確信度が高いとみなす場合の一例を示す説明図である。 分子の安全性評価の予測結果が記載された表の一例を示す図である。 類似分子の評価データの一例を示す図である。 類似分子の評価データの他の一例を示す図である。 統合ファイルの一例を示す図である。 学習データテーブルの一例を示す図である。 化合物の特徴量の一例を示す図である。 モデル学習部の構成を示す概略図である。 モデルの学習方法を説明するフローチャートである。 本発明の第1の実施形態に係る化合物の安全性予測方法を説明するフローチャートである。 図12の確認工程(ステップS22)を説明するフローチャートである。 図12の分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)を説明するフローチャートである。 図12の類似分子の安全性評価データ検索工程(ステップS24)を説明するフローチャートである。 図12の統合工程(ステップS25)を説明するフローチャートである。 本発明の第2の実施形態に係る化合物の安全性予測装置の概略構成を示すブロック図である。 本発明の第2の実施形態に係る化合物の安全性予測方法を説明するフローチャートである。 化合物の安全性予測装置のハードウェア構成を示すブロック図である。
以下、本発明の実施形態について、詳細に説明する。なお、説明の理解を容易にするため、各図面において同一の構成要素に対しては同一の符号を付して、重複する説明は省略する。また、本明細書において数値範囲を示す「~」は、別段の断わりがない限り、その前後に記載された数値を下限値及び上限値として含むことを意味する。
[第1の実施形態]
<化合物の安全性予測装置>
本発明の第1の実施形態に係る化合物の安全性予測装置について説明する。図1は、本実施形態に係る化合物の安全性予測装置の概略構成を示すブロック図である。図1に示すように、化合物の安全性予測装置(以下、単に「安全性予測装置」という)1Aは、入力部10、安全性予測部20、類似分子データ検索部30、統合部40、記憶部50、モデル学習部60、特性予測モデル70及び出力部80を備える。
安全性予測装置1Aは、安全性予測部20で得られる分子の安全性評価の予測結果及びその予測の確信度と、類似分子データ検索部30で得られる安全性評価データとを出力する。これにより、ユーザ(使用者)は、確信度が高い場合には、その予測結果をそのまま採用し、確信度が低い場合には、予測結果及び安全性評価データのどちらを採用するか検討できる。よって、安全性予測装置1Aは、確信度を数値化して出力することで、安全性予測部20で得られる分子の安全性評価の予測結果及び類似分子データ検索部30で得られる安全性評価データの少なくともどちらか一方に基づいて、使用者は、化合物の安全性を判断することができる。したがって、安全性予測装置1Aは、使用者の利便性を高めると共に、化合物の安全性評価の精度を向上させることができる。
なお、出力とは、後述するように、画面への表示、音声等を含む。
確信度が高い及び確信度が低いとは、後述する高確信度及び低確信度と同様であり、確信度が高い又は確信度が低いと判断する閾値は、安全性を評価する分子の種類に応じて適宜設定可能である。例えば、閾値を50%としたとき、確信度がその閾値以上であれば、確信度が高いとする。
安全性とは、化合物が人や環境に与える負荷の大きさを表わす指標であり、生分解性、生物濃縮性、変異原性、急性毒性、慢性毒性、阻害毒性、反復毒性等が挙げられる。
入力部10は、安全性を評価する評価対象である、一つ以上の分子の構造式を入力する。
構造式は、SMILES等を用いることができる。SMILESは、化合物の分子構造を文字列で表示したものである。構造式(SMILES)が記載された表の一例を図2に示す。図2に示すように、SMILESは、各化合物にID番号としてA1・・・を付け、各化合物のSMILESを表示する。各分子の構造式を含む表は、CSV、表計算ソフトウェアであるエクセル等の形式のデータから得てよい。入力部10は、図2に示すような各分子のSMILESが記載された表を入力してよい。
入力部10は、入力される分子の構造式に記載ミスがないか確認してもよい。使用者が構造式を入力する際、誤入力する可能性がある。入力部10は、構造式の誤入力を確認することで、入力された分子の構造式が記載ミスであると判断できる。
入力部10は、例えば、米国Anaconda社から配布されているソフトウェアであるAnaconda(登録商標)等のライブラリに含まれるRDKit等を使用して、入力された分子の構造式の分子Molオブジェクトへの変換の有無を確認することで、入力された分子の構造式の記載ミスを判断してよい。構造式がSMILESである場合、RDKitに含まれるMolFromSmilesを用いて、SMILESの文字列を読み込み、分子の構造式を読み込ませる。SMILESがMolオブジェクトに変換され、正常に分子Molオブジェクトが作成された場合には、入力された分子の構造式に記載ミスがないと判断できる。一方、SMILESがMolオブジェクトに変換されず、分子Molオブジェクトが作成されない場合には、入力された分子の構造式が間違いであると判断できる。
入力部10は、記載ミスを有しない構造式を含む表と、記載ミスを有する構造式を含む表を別々に作成し、後述する出力部80で出力させてよい。これにより、使用者が構造式の入力を失敗した場合でも、安全性予測装置1Aが異常終了することなく安全性評価を予測できる。
図1に示すように、安全性予測部20は、分子の安全性評価を予測すると共に、予測の確信度を算出する。安全性予測部20は、特徴量算出部21と、予測部22とを備える。
特徴量算出部21は、分子の構造式に基づいて特徴量を算出する。
特徴量は、記載ミスを有しない分子の構造式に基づいて求めることができる。特徴量は、RDkitに実装されているMorganフィンガープリント(Circularフィンガープリント)を用いて算出される、EXTENDED Connectivity Fingerprints(ECFP)相当のフィンガープリント、AtomPair等の別のフィンガープリント等の、分子の構造式に基づくフィンガープリントを用いることができる。特徴量は、分子の脂溶性を表すオクタノール/水分配係数(logP)等の物性でもよい。フィンガープリントは、部分構造の有無をそれぞれ1又は0で表現してもよいし、部分構造の数で表現してもよいし、部分構造の数を構成原子数で割った部分構造の比率で表現してもよい。
特徴量は、分子の構造式に基づいて、量子化学計算により計算された物性値、分子の構造式と物性値との定量的構造活性相関により求められた物性値及び分子の構造式と物性値との関係を学習した学習済みモデルによる予測値の何れか一つ以上を用いて算出してもよい。ここで、量子化学計算により計算された物性値としては、HOMO、LUMO、電荷、屈折率及び振動数等が挙げられる。構造活性相関とは、物質の化学構造上の特徴(又は物理化学定数)と生物学的な活性(例えば、分解性、蓄積性、各種毒性エンドポイント等)との相関関係を指す。
また、特徴量は、融点、粘度及び比表面積等の実験で測定可能な物性値でもよい。
予測部22は、特徴量算出部21で算出された特徴量に基づいて分子の安全性評価を予測すると共にその予測の確信度を計算する。
分子の安全性評価の指標として、例えば、生物化学的酸素要求量(BOD)等を用いることができる。BODが所定値(例えば、60%)以上の場合には、分子の安全性は良好であると評価できる。
予測の確信度は、特性予測モデル70を用いて計算できる。予測部22は、特徴量算出部21で算出された特徴量を説明変数として、特性予測モデル70に入力し、分類結果が「OK」である分類確率P(OK)を出力する。予測部22は、分類結果が「OK」である分類確率P(OK)に対して、以下の式(1)を用いて、予測の確信度(単位:%)を算出する。
予測の確信度(%)≡100×2×|0.5-P(OK)| ・・・(1)
(式(1)中、P(OK)は、分類結果が「OK」である分類確率である。)
予測の確信度は0%~100%の値をとり、予測の確信度が100%に近いほど予測結果の正答率は高くなる。そのため、予測の確信度から使用者は予測結果が信頼できるか否か容易に判断できる。
予測の確信度は、上記式(1)の通り、分類確率に対応しており、分類確率の大きさに応じて予測の確信度は変化する。図3に、予測の確信度が50%以上の場合に予測の確信度が高いとみなす場合の一例を示す。分類確率が0以上0.25以下の場合、予測の確信度は50%以上100%以下となり、「高確信度のNG」とみなす。分類確率が0.25より大きく0.50未満の場合、予測の確信度は0%より大きく50%未満となり、「低確信度のNG」とみなす。分類確率0.50以上0.75未満の場合、予測の確信度は0%以上50%未満となり、「低確信度のOK」とみなす。分類確率が0.75以上1.00以下の場合、予測の確信度は50%以上100%以下であり、「高確信度のOK」とみなす。このように、予測の確信度を定量化することで、使用者は、予測結果の信頼性を容易に判断できる。
高確信度と低確信度を判断する閾値は、安全性を評価する分子の種類に応じて適宜設定可能であり、例えば、50%が好ましい。
予測部22は、各分子の構造式と、予測結果と、予測の確信度とを含む分子の安全性評価の予測結果の表を作成できる。分子の安全性評価の予測結果が記載された表の一例を図4に示す。なお、図4では、分子の構造式にSMILESを用い、各化合物のID番号A1・・・と、各化合物のSMILESを用いる。分子の安全性評価の指標として、BODを用いる。BODが60%以上の場合には、分子の安全性評価は良好(OK)とし、BODが60%未満の場合には、分子の安全性は不良(NG)とした。
図4に示すように、分子の安全性評価の予測結果の表には、安全性予測部20で得られる、各分子とそのSMILES毎に、分子の安全性評価の予測結果と、その予測の確信度を含めることができる。SMILESに誤入力がある場合には、「SMILES load error」
を表示して、誤入力であり認識できないことを出力する。IDがA1~A3のように、安全性評価の予測の確信度が高い場合には、この予測は信用できるものと見なせる。一方、IDがA5のように、予測の確信度が低い場合には、この予測は信用が低いものと見なせる。予測の確信度が低い場合、使用者は、後述する類似分子データ検索部30で類似分子の検索を行った結果を参照して、安全性の評価対象の分子の安全性をより詳細に評価することができる。
特徴量算出部21は、図4に示すような、分子の安全性評価の予測結果とその予測の確信度を含む分子の安全性評価の予測結果の表を作成し、後述する出力部80で出力させてよい。これにより、使用者が分子の安全性評価に関する予測結果を簡易に把握することができる。
図1に示すように、類似分子データ検索部30は、評価対象である分子と類似する類似分子の安全性評価データを取得する。類似分子データ検索部30は、類似度評価部31と、データ検索部32とを備える。
類似度評価部31は、入力部10で入力された分子の構造式と、安全性評価データベース33に格納されている複数の評価済み分子の構造式との類似度を計算して評価する。なお、類似度評価部31は、分子の構造式にSMILESを用いてよい。
安全性評価データベース33は、過去に評価された評価済み分子の安全性評価データが格納されている。
類似度は、RDkitに実装されているBulk Tanimoto Similarityを用いて、タニモト係数を算出することで求めることができる。類似度は、ダイス(Dice)係数、コサイン(cos)類似度等でもよい。
類似度評価部31は、安全性評価データベース33に格納されている安全性評価データのうち、目的、使い易さ等に応じて適宜取得する類似分子の安全性評価データの数を変更でき、類似度が上位から所定の件数(例えば、上位20件)までのデータを類似分子の安全性評価データ(類似分子データ)として取得してよい。
類似分子の安全性評価データとしては、例えば、図5及び図6に示すように、これらの分子に関する情報として、分子の化学式、CAS登録番号、分子の名称、構造式(SMILES)、安全性評価(BOD)、化審法の判定結果、残留性変化物1~5及び類似度が挙げられる。
化審法判定とは、「化学物質の審査及び製造等の規制に関する法律」による判定をいう。
残留性変化物とは、化審法等における生分解性試験において、試験後に残留する変化物をいう。
図5に示すように、類似分子の安全性評価データを含む表には、一行目に評価対象の分子として、前述した図4中のIDがA3である分子の情報が表示され、二行目以降に過去データに記録されている類似分子の情報が表示される。一行目に表示される評価対象の分子を参照することで、評価対象の分子が難分解性であることが確認できる。そして、一行目に表示される評価対象の分子と、二行目以降に表示される類似分子とを比較することで、使用者は良分解性であるか難分解性であるかを確認できる。
図6に示すように、類似分子の安全性評価データを含む他の例の表には、一行目に評価対象の分子として、前述した図4中のIDがA5である分子の構造式が表示され、二行目以降に過去データに記録されている類似分子の情報が表示される。一行目に表示される評価対象の分子の情報と、二行目以降に表示される類似分子とを比較することで、一行目に表示される評価対象の分子の分解性が確認できなくても、使用者は、類似分子が良分解性であるか難分解性であるか確認できるため、評価対象の分子も良分解性であるか難分解性であるかを判定し易くなる。
類似度評価部31が、類似分子の安全性評価データを含む表に、評価対象である分子に関する情報と、類似分子に関する情報とをまとめて表示することで、評価対象の分子と類似分子を視覚的に比べることができるため、類似分子のうち、どの類似分子の安全性評価データを参照するか使用者によって判断され易くなる。
類似度評価部31は、図5及び図6に示すような、類似分子の安全性評価データを含む表を作成し、後述する出力部80で出力させてよい。これにより、使用者が類似分子に関する情報を把握することができる。
データ検索部32は、類似度が高い、類似分子の安全性評価データを取得する。
図1に示すように、統合部40は、安全性予測部20で得られる、評価対象の分子の安全性評価の予測結果と予測の確信度とを含む予測結果ファイルと、類似分子データ検索部30で得られる安全性評価データを含む評価データファイルとを統合する。これにより、統合部40は、図7に示すような、安全性予測部20で得られる予測結果ファイル(図4参照)と、類似分子データ検索部30で得られる評価データファイル(図5及び図6参照)とを統合した統合ファイルが作成される。図7では、例えば、予測シートに予測結果ファイルの内容が記載され、A1シート、A2シート、・・・に各IDの分子の類似分子の評価データファイルが記載されている。
統合部40は、統合ファイルを後述する出力部80で出力させてよい。これにより、使用者が統合ファイルに含まれる、評価対象の分子に関する情報と、類似分子の安全性評価に関する情報とをまとめて、容易に把握することができる。
記憶部50は、化合物の分子の構造式、安全性評価、化合物の特徴量、化合物の特性等が対応付けられた関連データを学習データとして記憶する。学習データテーブルの一例を図8に示す。図8に示すように、学習データは、化合物の分子の、CAS登録番号、SMILES、化合物の目的変数として安全性評価結果であるBOD、化合物の特性として化審法の判定結果、残留性変化物の種類等の対応関係を含む。なお、図8中の「-」は「該当無し」を示す。化合物の特徴量は、対応する化合物のSMILESからECFP等の手法により計算される。例えば、図9に示すように、化合物の特徴量は、ECFPにより計算された特徴量1及び2等として数値の行列形式により表される。
記憶部50は、関連データに、化合物の分子の構造式(例えば、SMILES等)、化合物の特徴量、化合物の特性等をそれぞれ入力して、関連データを更新してもよい。
モデル学習部60は、記憶部50に記憶されている関連データを学習データとして利用してモデルの学習を行う。
具体的には、モデル学習部60は、記憶部50に記憶された化合物の分子の構造式(例えば、SMILES等)及び化合物の特徴量を説明変数とし、化合物の予測したい特性を目的変数として用いる。これにより、モデル学習部60は、化合物の特徴量と、化合物の特性との対応関係を特定するモデルを学習し、学習済みモデル(特性予測モデル70)を生成する。モデル学習部60は、その対応関係が機械学習により学習データの対応関係に近づくように、モデルを学習させる。
モデルは、機械学習の中でも、教師あり学習のアルゴリズムを適用することが好ましい。教師あり学習として、例えば、線形回帰(Linear regression)、ロジスティック回帰
(Logistic regression)、ランダムフォレスト(Random Forest)、ブースティング(Boosting)、サポートベクターマシン(Support Vector Machine、SVM)、ニューラルネットワーク(Neural Network)等が挙げられる。ニューラルネットワークは、ニューラルネットワークを3層よりも多層にした深層学習(ディープラーニング)を用いることができる。ニューラルネットワークの種類としては、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)、回帰型(再帰型)ニューラルネットワーク(Recurrent Neural Network、RNN)及び一般回帰ニューラルネットワーク(General Regression Neural Network)等を用いることができる。また、モデルは、関数等の数
式で表してもよい。
モデルとしては、具体的には、米国Anaconda社から配布されているソフトウェアであるAnaconda(登録商標)等を用いて構築した機械学習モデルを用いることができる。
Anaconda(登録商標)には、scikit-learn等の機械学習で使用されるライブラリ群が含まれており、モデル学習部60は、これらのうちの何れか1つ以上を用いて、機械学習を行ってよい。
また、モデル学習部60は、新たに記憶部50に記憶された安全性評価データから、化合物の分子の構造式(例えば、SMILES等)及び化合物の特徴量を説明変数、化合物の特性を目的変数として用いることで、学習済みのモデルについて再学習を行ってもよい。
図10は、モデル学習部60の構成を示す概略図である。図10に示すように、モデル学習部60は、第1の取得部61、第2の取得部62、関数部63、判定部64、モデル65及び保存部66を有する。
第1の取得部61は、化合物の分子の構造式(例えば、SMILES等)を含み、これらが列挙された表と、化合物の特性を列挙した表を含む学習データを取得する。
学習データは、例えば、CSV、表計算ソフトウェアのエクセル等の形式のファイルで保存できる。
第2の取得部62は、第1の取得部61で取得した学習データから、1分子の分子構造を取得する。
1分子の分子構造としては、1分子のSMILESが好ましい。
関数部63は、第2の取得部62で取得した、1分子の分子構造に基づいて、特徴量を計算する。特徴の計算方法は、特徴量算出部21と同様に行うことができるため、詳細は省略する。
判定部64は、学習データが含む全ての分子の特徴量を計算したか否か判定する。
モデル65は、記憶部50に記憶された化合物の分子の構造式及び化合物の特徴量を説明変数、化合物の特性を目的変数として、モデル学習部60によって学習が行われる。
保存部66は、モデル学習部60がモデル65に学習を行わせることで生成した学習済みモデルを保存する。
図1に示すように、特性予測モデル70は、モデル学習部60がモデル65に学習を行わせることで生成した学習済みモデルである。
なお、予測の確信度の高低は、分類確率の所定値に応じて適宜設定可能であり、分類確率の所定値が0.50である場合、予測の確信度が高いとは、例えば、予測の確信度が50%以上である場合をいい、予測の確信度が低いとは、例えば、予測の確信度が50%未満である場合をいう。
出力部80は、統合部40で得られた、分子の安全性評価の予測結果と、予測の確信度と、類似分子の安全性評価データとを出力する。即ち、出力部80は、統合ファイルを出力する。
なお、出力は、モニタ等への表示、音声等を含み、使用者に報知できる方法であればよい。
また、出力部80は、入力部10で作成した、記載ミスを有しない構造式(例えば、SMILES)の表と、記載ミスを有する構造式の表とを出力してよい。また、出力部80は、安全性予測部20で作成した、分子の安全性評価の予測結果とその予測の確信度を含む分子の安全性評価の予測結果の表を出力してよいし、類似度評価部31で作成した、類似分子に関する情報を含む類似分子の安全性評価データを出力してよい。さらに、出力部80は、統合ファイルを参照して、分子の安全性評価の予測の確信度が低い場合には、類似分子の安全性評価データの出力を行ってよい。
出力部80は、分子の安全性評価の予測の確信度が高い(高確信度)場合には、分子の安全性評価の予測結果及び予測の確信度に関するメッセージを出力し、分子の安全性評価の予測の確信度が低い(低確信度)場合には、分子の安全性評価の予測結果、予測の確信度及び類似分子の安全性評価データに関するメッセージを出力してもよい。
メッセージの内容は、例えば、予測の確信度が高い場合には、「分子の安全性評価の予測結果が高く、予測の確信度が50%以上である。」等と、予測の確信度が低い場合には、「分子の安全性評価の予測結果が低く、予測の確信度が50%未満である。」等としてよい。
<化合物の安全性予測プログラム>
本実施形態に係る化合物の安全性予測プログラム(以下、単に「安全性予測プログラム」という)は、以下の構成のプログラムを用いることができる。
即ち、本実施形態に係る安全性予測プログラムは、
一つ以上の分子の構造式を入力する入力工程と、
前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測工程と、
前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索工程と、
前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力工程と、
を少なくともコンピュータに実行させるプログラムを用いることができる。
<化合物の安全性予測方法>
次に、本実施形態に係る安全性予測装置を適用した化合物の安全性予測方法(以下、単に「安全性予測方法」という)について説明する。本実施形態に係る安全性予測装置を適用した安全性予測方法は、図1に示すような構成を有する安全性予測装置1Aを用いて、化合物の安全性評価の予測を行う方法である。
ここで、安全性予測方法において使用される特性予測モデル70の学習方法について説明する。特性予測モデル70は、上述の通り、モデル学習部60で構築したモデル65が適用されるため、特性予測モデル70の学習方法は、モデル65の学習方法として説明する。
図11は、モデルの学習方法を説明するフローチャートである。図11に示すように、モデルの学習方法は、図10に示すような構成を有するモデル学習部60において、図1に示す安全性予測装置1Aの記憶部50に記憶された化合物の分子の構造式及び化合物の特徴量を含む説明変数と、化合物の特性を含む目的変数とが対応付けられた学習データを用いて、モデルの学習を行う方法である。
モデルの学習方法では、安全性予測装置1Aは、第1の取得部61により、学習データを取得する(学習データの取得工程:ステップS11)。
学習データは、化合物の分子の構造式(例えば、SMILES等)が列挙された表と、化合物の特性が列挙された表等を含む。
次に、安全性予測装置1Aは、第2の取得部62により、学習データから、1分子の構造式を取得する(1分子の構造式の取得工程:ステップS12)。
1分子の構造式としては、1分子のSMILESでもよい。
次に、安全性予測装置1Aは、関数部63により、第2の取得部62で取得した1分子の構造式を用いて、scikit-learn、RDKit等のAnaconda(登録商標)に含まれるライブラリ群を使用することにより特徴量を計算する(特徴量の計算工程:ステップS13)。
次に、安全性予測装置1Aは、判定部64により、学習データが含む全ての分子の特徴量を計算したか否か判定する(全ての分子の特徴量の判定工程:ステップS14)。
全ての分子の特徴量を計算していない場合(ステップS14:No)には、1分子の構造式の取得工程(ステップS12)に戻り、特徴量が計算されていない残りの分子の構造式を取得する。
全ての分子の特徴量が計算された場合(ステップS14:Yes)には、モデル学習部60により、全ての分子の特徴量を含む説明変数と、全ての分子の特性を含む目的変数とが対応付けられた学習データを用いて学習し、モデル65を構築する(学習工程:ステップS15)。
学習部15は、学習データに含まれる説明変数の入力に応じて、説明変数に紐付けられた目的変数と合致した出力となるように、モデルに学習させる。
次に、安全性予測装置1Aは、保存部66により、学習部15で構築されたモデルを保存する(保存工程:ステップS16)。
次に、本実施形態に係る安全性予測装置を適用した安全性予測方法を説明する。図12は、本実施形態に係る安全性予測方法を説明するフローチャートである。図12に示すように、安全性予測装置1Aは、入力部10により、安全性を評価する評価対象である、一つ以上の分子の構造式が入力される(入力工程:ステップS21)。
次に、安全性予測装置1Aは、安全性予測部20により、入力された構造式の記載ミスを確認する(確認工程:ステップS22)。
確認工程(ステップS22)の詳細は、後述する。なお、確認工程(ステップS22)は行わなくてもよい。
次に、安全性予測装置1Aは、安全性予測部20により、分子の安全性評価を予測すると共にその予測の確信度を算出し、分子の安全性評価の予測及びその予測の確信度を含む分子の安全性評価の予測結果の表を取得する(分子の安全性評価の予測及びその予測の確信度の算出工程:ステップS23)。
分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)の詳細は、後述する。
また、安全性予測装置1Aは、類似分子データ検索部30により、安全性の評価対象の分子の類似分子の安全性評価データを検索して取得する(類似分子の安全性評価データ検索工程:ステップS24)。
類似分子の安全性評価データ検索工程(ステップS24)の詳細は、後述する。
次に、安全性予測装置1Aは、統合部40により、分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)で得られた分子の安全性評価の予測結果及びその予測の確信度と、類似分子の安全性評価データ検索工程(ステップS24)で得られた類似分子の安全性評価データとを統合し、統合データを得る(統合工程:ステップS25)。
統合工程(ステップS25)の詳細は、後述する。
次に、安全性予測装置1Aは、出力部80により、統合部40により統合された統合データを出力する(出力工程:ステップS26)。
安全性予測装置1Aは、出力部80により、統合データのうち、予測の確信度が高い場合は、予測結果及びその予測の確信度を表示等により出力し、安全性予測の確信度が低い場合には、予測結果及びその予測の確信度の他に、類似分子の安全性評価データを表示等により出力してもよい。
なお、分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)は、類似分子の安全性評価データ検索工程(ステップS24)と同時に行ってもよいし、類似分子の安全性評価データ検索工程(ステップS24)の後に行ってもよい。
次に、図12の確認工程(ステップS22)を説明する。図13は、図12の確認工程(ステップS22)を説明するフローチャートである。図13に示すように、安全性予測装置1Aは、安全性予測部20により、安全性を評価する評価対象の分子の構造式を全て入力する(評価対象の全ての分子の構造式の入力工程:ステップS221)。
分子の構造式としては、例えば、図2に示すようなSMILESを取得してよい。
次に、安全性予測装置1Aは、安全性予測部20により、評価対象として入力した全ての分子のうちの一の分子の構造式を取得する(一の分子の構造式の取得工程:ステップS222)。
次に、安全性予測装置1Aは、安全性予測部20により、一の分子の構造式の記載ミスを確認する(記載ミスの確認工程:ステップS223)。
次に、安全性予測装置1Aは、安全性予測部20により、全ての分子に対して構造式の計算ミスを確認したか否か判定する(記載ミスの判定工程:ステップS224)。
全ての分子に対して計算ミスを確認していない場合(ステップS224:No)には、再度、確認していない分子の構造式を取得する(ステップS222)。
全ての分子に対して計算ミスを確認した場合(ステップS224:Yes)には、安全性予測装置1Aは、安全性予測部20により、記載ミスを有しない構造式の表をファイルに出力する(記載ミスを有しない構造式の表の出力工程:ステップS225)。
次に、安全性予測装置1Aは、安全性予測部20により、記載ミスを有する構造式の表をファイルに出力する(記載ミスを有する構造式の出力工程:ステップS226)。
次に、図12の分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)を説明する。図14は、図12の分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)を説明するフローチャートである。図14に示すように、安全性予測装置1Aは、安全性予測部20により、モデル学習部60で得られたモデルを特性予測モデル70として取得する(特性予測モデルの取得工程:ステップS231)。
次に、安全性予測装置1Aは、安全性予測部20により、記載ミスを有しない構造式の表を取得する(構造式の取得工程:ステップS232)。
次に、安全性予測装置1Aは、安全性予測部20により、記載ミスを有しない構造式の表に記載されている全て分子のうちの一の分子の構造式を取得する(一の分子の構造式の取得工程:ステップS233)。
次に、安全性予測装置1Aは、安全性予測部20により、一の分子の特徴量を生成する(一の分子の特徴量の生成工程:S234)。
次に、安全性予測装置1Aは、安全性予測部20により、一の分子の安全性評価の予測を行うと共にその予測の確信度を算出する(分子の安全性評価の予測及びその予測の確信度の算出工程:S235)。
次に、安全性予測装置1Aは、安全性予測部20により、全ての分子に対して安全性評価の予測及びその予測の確信度の算出を行ったか否か判定する(全ての分子の安全性評価の予測及びその予測の確信度の算出の判定工程:ステップS236)。
全ての分子に対して安全性評価の予測及びその予測の確信度の算出を行っていない場合(ステップS236:No)には、再度、確認していない分子の構造式を取得する(ステップS232)。
全ての分子に対して安全性評価の予測及びその予測の確信度の算出を行った場合(ステップS236:Yes)には、全ての分子の安全性評価の予測及びその予測の確信度を含む分子の安全性評価の予測結果の表をファイルに出力する(分子の安全性評価の予測結果の表の出力工程:ステップS237)。
次に、図12の類似分子の安全性評価データの取得工程(ステップS24)を説明する。図15は、図12の類似分子の安全性評価データの取得工程(ステップS24)を説明するフローチャートである。図15に示すように、安全性予測装置1Aは、類似分子データ検索部30により、安全性評価データベースから全ての分子の安全性評価データを取得する(全ての分子の安全性評価データの取得工程:ステップS241)。
次に、安全性予測装置1Aは、類似分子データ検索部30により、記載ミスを有しない構造式の表を取得する(構造式の表の取得工程:ステップS242)。
次に、安全性予測装置1Aは、類似分子データ検索部30により、記載ミスを有しない構造式の表に記載されている全ての分子のうちの一の分子の構造式を取得する(一の分子の構造式の取得工程:ステップS243)。
次に、安全性予測装置1Aは、類似分子データ検索部30により、取得した一の分子と安全性評価データベース中の全ての分子との類似度を計算する(類似度の計算工程:ステップS244)。
次に、安全性予測装置1Aは、類似分子データ検索部30により、類似度の計算工程(ステップS244)で計算して得られた全ての分子のうち、類似度の上位から所定の件数の安全性評価データを取得する(所定の件数の安全性評価データの取得工程:ステップS245)。
次に、安全性予測装置1Aは、類似分子データ検索部30により、記載ミスを有しない構造式の表に記載されている全ての分子に対して、類似分子を検索したか否か判定する(全ての分子の類似分子検索の判定工程:ステップS246)。
全ての分子に対して類似分子を検索していない場合(ステップS246:No)には、再度、確認していない分子の構造式を取得する(ステップS243)。
全ての分子に対して類似分子を検索した場合(ステップS246:Yes)には、全ての分子の、それぞれの類似分子の安全性評価データの表を出力する(ステップS247)。
次に、図12の統合工程(ステップS25)を説明する。図16は、図12の統合工程(ステップS25)を説明するフローチャートである。図16に示すように、安全性予測装置1Aは、統合部40により、分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)で求めた、全ての分子の安全性評価の予測及びその予測の確信度を含む分子の安全性評価の予測結果の表を安全性予測部20から取得する(分子の安全性評価の予測結果の表の取得工程:ステップS251)。
次に、安全性予測装置1Aは、統合部40により、類似分子の安全性評価データの取得工程(ステップS24)で得られた、全ての分子の、それぞれの類似分子の安全性評価データの表を類似分子データ検索部30から取得する(類似分子の安全性評価データの取得工程:ステップS252)。
次に、安全性予測装置1Aは、統合部40により、分子の安全性評価の予測結果の表と、全ての分子の類似分子の安全性評価データの表とを1つの表に統合して統合ファイルを作成する(表の統合工程:ステップS253)。
次に、安全性予測装置1Aは、出力部80により、図7に示すような統合ファイルを出力する(統合ファイルの出力工程:ステップS254)。
本実施形態に係る安全性予測装置1Aは、入力部10、安全性予測部20、類似分子データ検索部30及び出力部80を備える。安全性予測装置1Aは、安全性予測部20で、分子の安全性評価の予測とその予測の確信度とを算出し、類似分子データ検索部30で類似分子の安全性評価データを取得する。安全性予測装置1Aは、分子の安全性評価の予測の確信度を数値化して出力することで、使用者に化合物の安全性評価の予測結果を適切に提供できる。予測の確信度が高い場合には、使用者は、その予測結果をそのまま採用することで、化合物の安全性の評価を高精度に迅速かつ容易に行うことができる。予測の確信度が低い場合には、使用者は、予測結果及び安全性評価データのどちらを採用するか検討することで、化合物の安全性の評価を高精度に迅速かつ容易に行うことができる。よって、安全性予測装置1Aは、使用者の利便性を高めながら、高精度に化合物の安全性評価を行うことができる。
安全性予測装置1Aは、出力部80が、予測の確信度の高い場合には、分子の安全性評価の予測結果及び予測の確信度に関するメッセージを出力し、予測の確信度の低い場合には、分子の安全性評価の予測結果、予測の確信度及び安全性評価データに関するメッセージを出力できる。使用者は、出力されるメッセージの内容を確認することで、化合物の安全性の評価内容を的確に判断することができる。よって、安全性予測装置1Aは、使用者の利便性をより高めながら、高精度に化合物の安全性評価を適切に行うことができる。
安全性予測装置1Aは、安全性予測部20が特徴量算出部21及び予測部22を備えることができる。これにより、安全性予測装置1Aは、特徴量算出部21で分子の構造式に基づき特徴量を算出し、予測部22で算出した特徴量に基づいて分子の安全性を予測できる。そのため、安全性予測装置1Aは、化合物の安全性評価をより高精度に行うことができる。
安全性予測装置1Aは、特徴量算出部21で分子の構造式を特性予測モデル70に入力して、分子の特徴量を算出できる。安全性予測部20は、分子の構造式から分子の安全性評価の予測とその予測の確信度を精度良く簡易に予測できると共に、計算に要する負担及び時間を抑えることができる。よって、安全性予測装置1Aは、化合物の安全性評価の予測を高精度に簡便かつ低い計算コストで予測できる。
安全性予測装置1Aは、類似分子データ検索部30が類似度評価部31及びデータ検索部32を備えることができる。これにより、安全性予測装置1Aは、類似度評価部31で、入力された分子と安全性評価データベース33に記載の複数の分子との類似度を評価し、データ検索部32で、類似度の高い類似分子の安全性評価データを取得できる。よって、安全性予測装置1Aは、化合物の安全性評価をより高精度に行うことができる。
安全性予測装置1Aは、出力部80を備えることができる。これにより、安全性予測装置1Aは、使用者に対して、予測された化合物の安全性評価の予測結果に関する情報と、類似分子データに関する情報を視覚的に提示できるので、使用者が化合物に関する情報を容易に把握できる。
このように、安全性予測装置1Aは、化合物の安全性を簡便かつ低い計算コストで高精度に予測できるため、例えば、化学工業、製薬等において用いられる材料、薬品等に用いられる化合物の安全性を高精度に予測できるため、研究開発、製品の製造等を安全に行うのに好適に用いることができる。
また、安全性予測装置1Aは、生分解性、生物濃縮性、変異原性、魚類急性毒性、甲殻類遊泳阻害毒性、藻類成長阻害毒性、哺乳類反復毒性等の評価試験に有効に用いることができる。変異原性の評価試験としては、復帰突然変異試験(エームス(Ames)試験)、染色体異常試験等が挙げられる。魚類急性毒性の評価試験としては、「魚類による急性毒性試験- JIS K 0102.71-」によりLC50(Median lethal concentration:半数致死濃度)の測定等が挙げられる。甲殻類遊泳阻害毒性の評価試験としては、
半数遊泳阻害濃度(EC50)の測定等が挙げられる。藻類成長阻害毒性の評価試験としては、50%生長阻害濃度(EC50)の測定等が挙げられる。哺乳類反復毒性の評価試
験としては、最小毒性量(NOAEL)の測定等が挙げられる。
[第2の実施形態]
<安全性予測装置>
本発明の第2の実施形態に係る安全性予測装置について説明する。図17は、本実施形態に係る安全性予測装置の概略構成を示すブロック図である。図17に示すように、安全性予測装置1Bは、上述の第1の実施形態に係る安全性予測装置1Aの構成に加えて、さらに検証部110を備える。検証部110以外は、上述の第1の実施形態に係る安全性予測装置1Aと同様であるため、詳細は省略する。
検証部110は、分子の安全性評価の予測結果と安全性評価データとの合致度を判定することで、分子の安全性評価の予測結果の妥当性を判定する。
検証部110は、予測の確信度が低い場合には、分子の安全性評価の予測結果と類似分子の安全性評価データとの合致度を判定する。検証部110は、予測結果と、類似分子の安全性評価データの予測結果とが合致する場合には、予測の確信度は低いが予測結果は妥当である(低確信度のOK)と見なす。検証部110は、予測結果と、分子の安全性評価データの予測結果とが合致しない場合には、予測の確信度は低く、予測結果は妥当でない(低確信度のNG)と見なす。検証部110は、予測の確信度が低い場合のみ、類似分子の安全性評価データを参照することで、類似分子の安全性評価データの使用頻度を下げられるため、使用者の利便性の向上が図られる。
例えば、図4のIDがA5の場合、図4に示すように、安全性評価がOKであり、良分解性を示すとする。A5の予測の確信度は42%であり、50%未満である。この場合、安全性評価データから複数(例えば、20個)の類似分子の安全性評価データの多数決により分子の安全性評価の予測結果の妥当性を判定してよい。
複数(例えば、20個)の類似分子の安全性評価データのうち、所定数(例えば、11個)以上の類似分子の安全性評価データが合致しており、合致度が高い場合には、検証部110は、予測対象の分子は、安全性評価がOKであり、良分解性であると判断し、低確信度のOKと見なしてよい。この場合、予測対象の分子の安全性評価はOKであり、良分解性を示し、類似分子の安全性評価データを参照した場合も、予測対象の分子の安全性評価はOKであり、良分解性を示すことになり、安全性評価データより得られる分子の安全性評価の予測結果と、類似分子の安全性評価データとが整合する。そのため、検証部110は、分子の安全性評価の予測結果は妥当であると判定できる。
一方、複数(例えば、20個)の類似分子の安全性評価データのうち、所定数(例えば、11個)未満の類似分子の安全性評価データしか合致せず、合致度が低い場合には、検証部110は、予測対象の分子が難分解性であると判断し、低確信度のNGと見なせる。この場合、予測対象の分子の安全性評価はOKであり、良分解性を示すが、類似分子の安全性評価データを参照した場合には、予測対象の分子の安全性評価はNGであり、難分解性を示すため、分子の安全性評価の予測結果と、類似分子の安全性評価データとは整合しない。そのため、検証部110は、分子の安全性評価の予測結果は妥当でないと判定できる。
なお、分子の安全性評価の予測結果と、類似分子の安全性評価データとの合致度を判定する際、検証部110は、類似分子の安全性評価データの個数の多数決で判断する以外に、それぞれの類似分子の類似度の合計で判断してもよいし、それぞれの類似分子の類似度に重みを乗じた値の合計で判断してもよい。重みは、それぞれの類似分子ごとに同じ値でもよいし、異なる値でもよい。
本実施形態では、出力部80は、予測の確信度が低く、合致度が高い場合には、分子の安全性評価の予測結果が類似分子の安全性評価データと整合することを示すメッセージを出力し、予測の確信度及び合致度が低い場合には、分子の安全性評価の予測結果が類似分子の安全性評価データと整合しないことを示すメッセージを出力してよい。
メッセージの内容としては、例えば、予測の確信度が低く、合致度が高い場合には、「予測の確信度が50%未満であるが、分子の安全性評価の予測結果と類似分子の安全性評価データとの整合性は高い。」等としてよい。予測の確信度及び合致度が低い場合には、メッセージの内容は、「予測の確信度が50%未満であり、分子の安全性評価の予測結果と類似分子の安全性評価データとの整合性も低い。」等としてよい。
<安全性予測方法>
次に、本実施形態に係る安全性予測装置を適用した安全性予測方法について説明する。本実施形態に係る安全性予測装置を適用した安全性予測方法は、図17に示すような構成を有する安全性予測装置1Bを用いて、化合物の安全性の予測を行う方法である。
本実施形態に係る安全性予測装置1Bを適用した安全性予測方法を説明する。図18は、本実施形態に係る安全性予測方法を説明するフローチャートである。図18に示すように、安全性予測装置1Bは、入力部10により、安全性を評価する評価対象である、一つ以上の分子の構造式が入力される(入力工程:ステップS31)。
次に、安全性予測装置1Bは、安全性予測部20により、入力された構造式の記載ミスを確認する(確認工程:ステップS32)。
確認工程(ステップS32)は、図12に示す第1の実施形態に係る安全性予測方法の確認工程(ステップS22)と同様であるため、詳細は省略する。なお、確認工程(ステップS32)は行わなくてもよい。
次に、安全性予測装置1Bは、安全性予測部20により、分子の安全性評価を予測すると共にその予測の確信度を算出し、分子の安全性評価の予測及びその予測の確信度を含む分子の安全性評価の予測結果の表を取得する(分子の安全性評価の予測及びその予測の確信度の算出工程:ステップS33)。
分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS33)は、図12に示す第1の実施形態に係る安全性予測方法の分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)と同様であるため、詳細は省略する。
次に、安全性予測装置1Bは、類似分子データ検索部30により、安全性の評価対象の分子の類似分子の安全性評価データを検索して取得する(類似分子の安全性評価データ検索工程:ステップS34)。
類似分子の安全性評価データの検索工程(ステップS34)は、図12に示す第1の実施形態に係る安全性予測方法の類似分子の安全性評価データの検索工程(ステップS24)と同様であるため、詳細は省略する。
次に、安全性予測装置1Bは、検証部110により、分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS33)の後、予測の確信度が50%以上か否か判定する(予測の確信度の判定工程:ステップS35)。
予測の確信度の判定工程(ステップS35)において、予測の確信度が50%以上の場合(ステップS35:Yes)には、安全性予測装置1Bは、出力部80により、分子の安全性評価の予測結果を出力する(予測結果の出力工程:ステップS36)。
予測の確信度が50%未満の場合(ステップS35:No)には、安全性予測装置1Bは、検証部110により、類似分子の安全性評価データの検索工程(ステップS34)の後、分子の安全性評価の予測結果と、類似分子の安全性評価データとの合致度が高いか否か判定する(合致度の判定工程:ステップS37)。
分子の安全性評価の予測結果と類似分子の安全性評価データとの合致度が高い場合(ステップS37:Yes)には、安全性予測装置1Bは、検証部110により、予測の確信度は低いが分子の安全性評価の予測結果は妥当である(低確信度のOK)と見なし、出力部80により分子の安全性評価の予測結果の表を出力する(分子の安全性評価の予測結果の表の出力工程:ステップS36)。
分子の安全性評価の予測結果と類似分子の安全性評価データとの合致度が低い場合(ステップS37:No)には、安全性予測装置1Aは、検証部110により、予測の確信度は低く、分子の安全性評価の予測結果は妥当でない(低確信度のNG)と見なす。安全性予測装置1Aは、統合部40により、分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS33)で得られた分子の安全性評価の予測結果の表と、類似分子の評価データ検索工程(ステップS34)で得られた類似分子の安全性評価データとを統合し、統合データを得る(統合工程:ステップS38)。
統合工程(ステップS38)は、図12に示す第1の実施形態に係る安全性予測方法の統合工程(ステップS25)と同様であるため、詳細は省略する。
次に、安全性予測装置1Bは、出力部80により、統合部40によって統合された統合データ(図7参照)を出力する(出力工程:ステップS39)。
なお、本実施形態に係る安全性予測方法では、分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS33)は、類似分子の安全性評価データ検索工程(ステップS34)と同時に行ってもよいし、類似分子の安全性評価データ検索工程(ステップS34)の後に行ってもよい。
本実施形態に係る安全性予測装置1Bは、上記の第1の実施形態に係る安全性予測装置1Aの構成に加えて、さらに検証部110を備え、検証部110で、分子の安全性評価の予測結果の妥当性を検証し、分子の安全性評価の予測結果と、安全性評価データとの合致度を判定する。これにより、安全性予測装置1Bは、予測の確信度が低い場合でも、類似分子の安全性評価データを参照して、分子の安全性評価の予測結果と安全性評価データとの合致度を判定することで、安全性の評価の予測が難しい化合物に対しても、化合物の安全性評価をさらに高精度に行なうことができる。よって、安全性予測装置1Aは、使用者の利便性を更に高めながら、化合物の安全性評価を更に高精度に行なうことができる。
安全性予測装置1Bは、出力部80が、予測の確信度が高い場合には、分子の安全性評価の予測結果及び予測の確信度に関するメッセージを出力し、予測の確信度が低い場合には、分子の安全性評価の予測結果、予測の確信度及び安全性評価データに関するメッセージを出力できる。安全性予測装置1Aと同様、使用者は、出力されるメッセージの内容を確認することで、化合物の安全性の評価をより的確に判断することができる。よって、安全性予測装置1Bにおいても、使用者の利便性をより高めながら、高精度に化合物の安全性評価を適切に行うことができる。
安全性予測装置1Bは、出力部80が、予測の確信度が低く、合致度が高い場合には、分子の安全性評価の予測結果が安全性評価データと整合することを示すメッセージを出力でき、予測の確信度及び合致度が低い場合には、分子の安全性評価の予測結果が安全性評価データと整合しないことを示すメッセージを出力できる。これにより、安全性予測装置1Bは、使用者に対して、予測された化合物の安全性評価の予測結果と、その安全性評価データとの合致度との内容を提供できる。使用者は、出力されるメッセージの内容を確認することで、化合物の安全性の評価を更に的確に判断することができる。よって、安全性予測装置1Bは、使用者の利便性をより高めながら、化合物、特に安全性の評価の予測が難しい化合物の安全性評価をさらに適切に高精度に行なうことができる。
安全性予測装置1Bは、安全性予測装置1Aと同様、化合物の安全性を簡便かつ低い計算コストで高精度に予測できるため、例えば、化学工業、製薬等において用いられる材料、薬品等に用いられる化合物の安全性を高精度に予測できるため、研究開発、製品の製造等を安全に行うのに好適に用いることができる。
また、安全性予測装置1Bは、安全性予測装置1Aと同様、生分解性、生物濃縮性、変異原性、魚類急性毒性、甲殻類遊泳阻害毒性、藻類成長阻害毒性、哺乳類反復毒性等の評価試験に有効に用いることができる。
[安全性予測装置1A及び1Bのハードウェア構成]
次に、安全性予測装置1A及び1Bのハードウェア構成の一例について説明する。図19は、安全性予測装置1A及び1Bのハードウェア構成を示すブロック図である。図19に示すように、安全性予測装置1A及び1Bは、情報処理装置(コンピュータ)で構成され、物理的には、演算処理部であるCPU(Central Processing Unit:プロセッサ)101、主記憶装置であるRAM(Random Access Memory)102及びROM(Read Only Memory)103、入力デバイスである入力装置104、出力装置105、通信モジュール106並びにハードディスク等の補助記憶装置107等を含むコンピュータシステムとして構成することができる。これらは、バス108で相互に接続されている。なお、出力装置105及び補助記憶装置107は、外部に設けられていてもよい。
CPU101は、安全性予測装置1A及び1Bの全体の動作を制御し、各種の情報処理を行う。CPU101は、ROM103又は補助記憶装置107に格納された安全性予測プログラムを実行して、測定収録画面と解析画面の表示動作を制御する。
RAM102は、CPU101のワークエリアとして用いられ、主要な制御パラメータや情報を記憶する不揮発RAMを含んでもよい。
ROM103は、基本入出力プログラム等を記憶する。安全性予測プログラムはROM103に保存されてもよい。
入力装置104は、キーボード、マウス、操作ボタン、タッチパネル等である。
出力装置105は、モニタディスプレイ等である。出力装置105では、予測結果等が表示され、入力装置104や通信モジュール106を介した入出力操作に応じて画面が更新される。
通信モジュール106は、ネットワークカード等のデータ送受信デバイスであり、外部のデータ収録サーバ等からの情報を取り込み、他の電子機器に解析情報を出力する通信インタフェースとして機能する。
補助記憶装置107は、SSD(Solid State Drive)、及びHDD(Hard Disk Drive)等の記憶装置であり、例えば、安全性予測装置1A及び1Bの動作に必要な各種のデータ、ファイル等を格納する。
図1及び図17に示す安全性予測装置1A及び1Bの各機能は、CPU101、RAM102等の主記憶装置又は補助記憶装置107に所定のコンピュータソフトウェア(安全性予測プログラムを含む)を読み込ませ、RAM102、ROM103又は補助記憶装置107に格納された安全性予測プログラム等をCPU101により実行する。入力装置104、出力装置105及び通信モジュール106を動作させると共に、RAM102、ROM103及び補助記憶装置107等におけるデータの読み出し及び書き込みを行うことで、安全性予測装置1A及び1Bの各機能は、実現される。即ち、本実施形態に係る安全性予測プログラムをコンピュータ上で実行させることで、安全性予測装置1A及び1Bは、図1及び図17の各処理部として機能を実現することができる。
安全性予測プログラムは、例えばコンピュータが備える記憶装置内に格納される。なお、安全性予測プログラムは、その一部又は全部が、通信回線等の伝送媒体を介して伝送され、コンピュータが備える通信モジュール106等により受信されて記録(インストールを含む)される構成としてもよい。また、安全性予測プログラムは、その一部又は全部が、CD-ROM、DVD-ROM、フラッシュメモリ等の持ち運び可能な記憶媒体に格納された状態から、コンピュータ内に記録(インストールを含む)される構成としてもよい。
上記の情報処理装置で実行されるプログラムは、上述した安全性予測装置1A及び1Bの各処理部を含むモジュール構成となっており、プロセッサ101がこのプログラムを適宜読み出して実行することにより、上述した各処理部がRAM102等のメモリ上に生成されるようになっている。
安全性予測装置1A及び1Bは、複数台の情報処理装置を通信可能に接続したシステムとして構成し、上述した各処理部を複数台の情報処理装置に分散して実現する構成であってもよい。また、クラウドシステム上で動作する仮想マシンであってもよい。
以上の通り、実施形態を説明したが、上記実施形態は、例として提示したものであり、上記実施形態により本発明が限定されるものではない。上記実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の組み合わせ、省略、置き換え、変更等を行うことが可能である。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
本出願は、2021年9月6日に日本国特許庁に出願した特願2021-144755号に基づく優先権を主張するものであり、特願2021-144755号の全内容を本出願に援用する。
1A、1B 化合物の安全性予測装置
10 入力部
20 安全性予測部
21 特徴量算出部
22 予測部
30 類似分子データ検索部
31 類似度評価部
32 データ検索部
33 安全性評価データベース
40 統合部
50 記憶部
60 モデル学習部
70 特性予測モデル
80 出力部
110 検証部

Claims (10)

  1. 一つ以上の分子の構造式を入力する入力部と、
    前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測部と、
    前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索部と、
    前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力部と、
    を備える、化合物の安全性予測装置。
  2. 前記出力部は、前記予測の確信度が高い場合には、前記分子の安全性評価の予測結果及び前記予測の確信度に関するメッセージを出力し、
    前記予測の確信度が低い場合には、前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データに関するメッセージを出力する請求項1に記載の化合物の安全性予測装置。
  3. 前記類似分子の安全性評価データより前記分子の安全性評価の予測結果の妥当性を検証し、前記分子の安全性評価の予測結果と前記類似分子の安全性評価データとの合致度を判定する検証部を備える請求項1に記載の化合物の安全性予測装置。
  4. 前記出力部は、前記予測の確信度が高い場合には、前記分子の安全性評価の予測結果及び前記予測の確信度に関するメッセージを出力し、
    前記予測の確信度が低い場合には、前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データに関するメッセージを出力する請求項3に記載の化合物の安全性予測装置。
  5. 前記予測の確信度が低い場合に、
    前記出力部は、前記合致度が高い場合には、前記分子の安全性評価の予測結果が前記類似分子の安全性評価データと整合することを示すメッセージを出力し、
    前記合致度が低い場合には、前記分子の安全性評価の予測結果が前記類似分子の安全性評価データと整合しないことを示すメッセージを出力する請求項4に記載の化合物の安全性予測装置。
  6. 前記安全性予測部は、
    前記分子の構造式に基づいて前記分子の特徴量を算出する特徴量算出部と、
    前記特徴量に基づいて前記分子の安全性評価を予測すると共に前記予測の確信度を算出する予測部と、
    を備える請求項1~5の何れか一項に記載の化合物の安全性予測装置。
  7. 前記特徴量算出部は、前記分子の構造式に基づくフィンガープリント、又は前記分子の構造式に基づいて、量子化学計算により計算された物性値、定量的構造活性相関により推算された物性値及び前記分子の構造式と物性値との関係を学習した学習済みモデルによる予測値の何れか一つ以上を用いて前記分子の特徴量を算出する請求項6に記載の化合物の安全性予測装置。
  8. 前記類似分子データ検索部は、
    前記入力部で入力された前記分子の構造式と、過去に評価された評価済み分子の安全性評価結果が格納された安全性評価データベース中の複数の前記評価済み分子の構造式との類似度を計算する類似度評価部と、
    前記類似度が高い前記評価済み分子の安全性評価結果を前記類似分子の安全性評価データとして取得するデータ検索部と、
    を備える請求項1~7の何れか一項に記載の化合物の安全性予測装置。
  9. 一つ以上の分子の構造式を入力する入力工程と、
    前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測工程と、
    前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索工程と、
    前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力工程と、
    をコンピュータに実行させる、化合物の安全性予測プログラム。
  10. コンピュータが、
    一つ以上の分子の構造式を入力する入力工程と、
    前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測工程と、
    前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索工程と、
    前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力工程と、
    実行する、化合物の安全性予測方法。
JP2023545632A 2021-09-06 2022-08-31 化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法 Active JP7485229B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021144755 2021-09-06
JP2021144755 2021-09-06
PCT/JP2022/032725 WO2023033027A1 (ja) 2021-09-06 2022-08-31 化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法

Publications (2)

Publication Number Publication Date
JPWO2023033027A1 JPWO2023033027A1 (ja) 2023-03-09
JP7485229B2 true JP7485229B2 (ja) 2024-05-16

Family

ID=85411351

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023545632A Active JP7485229B2 (ja) 2021-09-06 2022-08-31 化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法

Country Status (4)

Country Link
EP (1) EP4401082A1 (ja)
JP (1) JP7485229B2 (ja)
CN (1) CN117882139A (ja)
WO (1) WO2023033027A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007153767A (ja) 2005-12-01 2007-06-21 Univ Of Tokushima 化学構造の類似度を算出し化合物の安全性を評価する方法及びこれを用いた医薬品安全性情報システム
WO2009025045A1 (ja) 2007-08-22 2009-02-26 Fujitsu Limited 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5512077B2 (ja) 2006-11-22 2014-06-04 株式会社 資生堂 安全性評価方法、安全性評価システム及び安全性評価プログラム
KR20200072585A (ko) * 2018-11-30 2020-06-23 이율희 인공지능에 기반한 대상 물질의 유해성과 위해성 예측 방법
JP2021064163A (ja) 2019-10-15 2021-04-22 明豊ファシリティワークス株式会社 マンアワーシステム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007153767A (ja) 2005-12-01 2007-06-21 Univ Of Tokushima 化学構造の類似度を算出し化合物の安全性を評価する方法及びこれを用いた医薬品安全性情報システム
WO2009025045A1 (ja) 2007-08-22 2009-02-26 Fujitsu Limited 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム

Also Published As

Publication number Publication date
WO2023033027A1 (ja) 2023-03-09
CN117882139A (zh) 2024-04-12
EP4401082A1 (en) 2024-07-17
JPWO2023033027A1 (ja) 2023-03-09

Similar Documents

Publication Publication Date Title
Bauer NONMEM tutorial part II: estimation methods and advanced examples
Rodríguez-Pérez et al. Interpretation of machine learning models using shapley values: application to compound potency and multi-target activity predictions
Sun et al. In silico prediction of compounds binding to human plasma proteins by QSAR models
Mathai et al. Validation strategies for target prediction methods
Lee et al. Utilizing random Forest QSAR models with optimized parameters for target identification and its application to target-fishing server
Sonego et al. ROC analysis: applications to the classification of biological sequences and 3D structures
US7702467B2 (en) Molecular property modeling using ranking
Baber et al. The use of consensus scoring in ligand-based virtual screening
Schürer et al. BioAssay ontology annotations facilitate cross-analysis of diverse high-throughput screening data sets
Teppa et al. Disentangling evolutionary signals: conservation, specificity determining positions and coevolution. Implication for catalytic residue prediction
Manganaro et al. Predicting persistence in the sediment compartment with a new automatic software based on the k-Nearest Neighbor (k-NN) algorithm
Sahlin et al. Applicability domain dependent predictive uncertainty in QSAR regressions
Siramshetty et al. Validating ADME QSAR models using marketed drugs
Parrot et al. Integrating synthetic accessibility with AI-based generative drug design
Toma et al. QSAR development for plasma protein binding: influence of the ionization state
Gogishvili et al. Nonadditivity in public and inhouse data: implications for drug design
Rakhimbekova et al. Cross-validation strategies in QSPR modelling of chemical reactions
Luque Ruiz et al. Robust QSAR prediction models for volume of distribution at steady state in humans using relative distance measurements
Lee et al. A comparative study of the performance for predicting biodegradability classification: the quantitative structure–activity relationship model vs the graph convolutional network
Raies et al. In silico toxicology: comprehensive benchmarking of multi‐label classification methods applied to chemical toxicity data
DiFranzo et al. Nearest neighbor gaussian process for quantitative structure–activity relationships
Konovalov et al. Statistical confidence for variable selection in QSAR models via Monte Carlo cross-validation
Bajorath Chemoinformatics for drug discovery
Dimova et al. Quantifying the fingerprint descriptor dependence of structure–activity relationship information on a large scale
JP7485229B2 (ja) 化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231023

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20231023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240415

R150 Certificate of patent or registration of utility model

Ref document number: 7485229

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150