JP7057003B1 - 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム - Google Patents

予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム Download PDF

Info

Publication number
JP7057003B1
JP7057003B1 JP2021031234A JP2021031234A JP7057003B1 JP 7057003 B1 JP7057003 B1 JP 7057003B1 JP 2021031234 A JP2021031234 A JP 2021031234A JP 2021031234 A JP2021031234 A JP 2021031234A JP 7057003 B1 JP7057003 B1 JP 7057003B1
Authority
JP
Japan
Prior art keywords
peptide
membrane
learning
region
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021031234A
Other languages
English (en)
Other versions
JP2022131959A (ja
Inventor
泰 秋山
雅史 大上
渓甫 柳澤
寧 吉川
昌岳 杉田
拓哉 藤江
聡 杉山
翔太朗 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Institute of Technology NUC
Original Assignee
Tokyo Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Institute of Technology NUC filed Critical Tokyo Institute of Technology NUC
Priority to JP2021031234A priority Critical patent/JP7057003B1/ja
Priority to CN202210043122.3A priority patent/CN115050424A/zh
Priority to EP22151777.4A priority patent/EP4102506A1/en
Priority to US17/577,507 priority patent/US20220277224A1/en
Application granted granted Critical
Publication of JP7057003B1 publication Critical patent/JP7057003B1/ja
Publication of JP2022131959A publication Critical patent/JP2022131959A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Physiology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)

Abstract

【課題】ペプチドの膜透過性を予測する。【解決手段】予測装置10は、膜透過性の予測対象の環状ペプチドから当該環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す予測用特徴ベクトルの各々を抽出する。予測装置10は、複数の予測用特徴ベクトルを、環状ペプチドの特徴を表す特徴ベクトルからペプチドの膜透過性の予測値を出力するための予め学習された学習済みモデルへ入力することにより、予測対象の環状ペプチドの膜透過性の予測値を生成する。【選択図】図1

Description

特許法第30条第2項適用 令和2年3月5日 https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=203873&item_no=1&page_id=13&block_id=8にて公開
特許法第30条第2項適用 令和2年3月12日 第61回BIO研究発表会にて公開
本開示は、予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラムに関する。
特許文献1には、生体高分子の構造解析において、次元集合に含まれるすべての指標次元それぞれを座標軸とする多次元空間において複数の構造のクラスタリングを行い、いずれのクラスタにも含まれないはずれ値となった構造を初期構造とする分子動力学シミュレーションを行うことが開示されている(例えば、請求項4)。
特許文献2には、タンパク質の立体構造を予測するタンパク質立体構造予測プログラムが開示されている。このタンパク質立体構造予測プログラムを実行するコンピュータは、タンパク質のアミノ酸配列を読み込み、2次構造情報を予測する。次に、このコンピュータは、2次構造情報に基づいてターンを形成するアミノ酸の個数を算出し、算出されたアミノ酸の個数と2次構造情報とによって、存在確率の高いターンのターン構造情報を取得してターンを予測再現し、タンパク質の立体構造を予測する。
また、特許文献3には、新生抗原のセットのそれぞれのペプチド配列を、機械学習させた提示モデルに入力することにより、患者についての新生抗原のセットについての数値的提示尤度のセットをそれぞれの患者について生成する方法が開示されている(例えば、請求項1)。
また、特許文献4には、コンピュータのプロセッサを使用してペプチドの数値ベクトルをディープラーニング提示モデルに入力して、新生抗原のセットについての提示尤度のセットを生成する方法が開示されている(例えば、請求項1)。
特開2017-37378号公報 国際公開第2003/054743号 特表2020-523010号公報 特表2020-519246号公報
ところで、近年、中分子医薬の一つとしてペプチド医薬が注目されている。しかし、ペプチドの体内動態については不明な点が多い。特に、ペプチドは細胞膜を透過する度合いである膜透過性が低い。このため、医薬として採用され得るペプチドがどの程度の膜透過性を有しているのか、といったことを精度良く予測することが求められている。
上記特許文献1~4に開示されている技術は、生体高分子の分子動力学シミュレーションを実行する技術、コンピュータによってタンパク質の立体構造を予測する技術、及び新生抗原に対して有効なペプチドを予測する技術であり、ペプチドの膜透過性を予測するものではない。このため、上記特許文献1~4の技術は、ペプチドの膜透過性を予測することはできない、という課題がある。
本開示は上記事実を考慮して、ペプチドの膜透過性を予測することを目的とする。
本開示の第1の態様の予測装置、予測方法、及び予測プログラムは、膜透過性の予測対象のペプチドから特徴を表す予測用特徴ベクトルを抽出し、抽出された前記予測用特徴ベクトルの長さが、所定長さとなるように調整し、長さが調整された前記予測用特徴ベクトルを、ペプチドの特徴を表す特徴ベクトルからペプチドの膜透過性の予測値を出力するための予め学習された学習済みモデルへ入力することにより、前記予測対象のペプチドの膜透過性の予測値を生成する。
本開示の第2の態様の学習済みモデルの生成装置、学習済みモデルの生成方法、及び学習済みモデルの生成プログラムは、複数の学習用のペプチドの各々から特徴を表す学習用特徴ベクトルを抽出し、抽出された、複数の学習用のペプチドの各々に対する学習用特徴ベクトルの各々の長さが、所定長さとなるように調整し、長さが調整された前記学習用特徴ベクトルと前記学習用のペプチドの膜透過性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、ペプチドの特徴を表す特徴ベクトルからペプチドの膜透過性の予測値を出力するための学習済みモデルを生成する。
本開示の第3の態様の予測装置、予測方法、及び予測プログラムは、膜透過性の予測対象の環状ペプチドから、前記環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す予測用特徴ベクトルの各々を抽出し、抽出された複数の予測用特徴ベクトルを、環状ペプチドの特徴を表す特徴ベクトルからペプチドの膜透過性の予測値を出力するための予め学習された学習済みモデルへ入力することにより、前記予測対象の環状ペプチドの膜透過性の予測値を生成する。
本開示の第4の態様の学習済みモデルの生成装置、学習済みモデルの生成方法、及び学習済みモデルの生成プログラムは、複数の学習用の環状ペプチドの各々から、前記学習用の環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す学習用特徴ベクトルを抽出し、複数の学習用の環状ペプチドの各々について、抽出された複数の学習用特徴ベクトルと前記学習用の環状ペプチドの膜透過性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済みモデルを生成する。
本開示の第5の態様の予測装置、予測方法、及び予測プログラムは、細胞膜を表す膜領域と、前記膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、前記膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過する際のペプチドの膜透過性の予測値を計算する予測装置、予測方法、及び予測プログラムであって、前記第1溶媒領域と前記膜領域と前記第2溶媒領域とを透過する際のペプチドのシミュレーション結果に基づいて、前記第1溶媒領域と前記膜領域と前記第2溶媒領域とを含む領域における前記ペプチドの位置を表し、かつ前記膜領域の膜表面に対する鉛直軸方向における前記ペプチドの位置を表す反応座標zの各々において、前記ペプチドの自由エネルギーG(z)を計算すると共に、反応座標zの各々において計算された前記ペプチドの自由エネルギーG(z)のうちの最小値Gminと、反応座標zにおける前記ペプチドの自由エネルギーG(z)との間の差分ΔG(z)を反応座標zの各々において計算し、反応座標zの各々における局所的な拡散係数D(z)を計算し、反応座標zの各々において、計算された前記差分ΔG(z)と計算された局所的な拡散係数D(z)とに基づいて、前記ペプチドの反応座標zにおける局所的な抵抗を表す値R(z)を計算し、反応座標zの各々において計算された前記局所的な抵抗を表す値R(z)に基づいて、前記ペプチドの膜透過性の予測値を計算する。
本開示の第6の態様の予測装置、予測方法、及び予測プログラムは、細胞膜を表す膜領域と、前記膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、前記膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過する際のペプチドの動態をシミュレーションする予測装置、予測方法、及び予測プログラムであって、前記第1溶媒領域から、前記第1溶媒領域と前記膜領域との境界よりも膜中心側に位置する脂質分子の接合点付近に至る区間での前記ペプチドの透過をシミュレーションする際の、前記第1溶媒領域中の物質の比誘電率に応じた前記ペプチドの初期配座を設定し、前記接合点付近から、前記膜領域の中心領域を表す膜中心部の領域を越えるまでの区間での前記ペプチドの透過をシミュレーションする際の、前記膜領域中の物質の比誘電率に応じた前記ペプチドの初期配座を設定し、設定された前記ペプチドの初期配座に応じて、前記ペプチドの動態をシミュレーションし、得られたシミュレーションの結果に基づいて、アンブレラサンプリング手法における各領域の一連の初期配座を設定し、設定された各領域の一連の初期配座に基づいて、アンブレラサンプリング手法に従って前記ペプチドの動態をシミュレーションし、アンブレラサンプリング手法に基づくシミュレーションの結果に基づいて、前記ペプチドの膜透過性を予測する。
本開示の第7の態様の予測装置、予測方法、及び予測プログラムは、細胞膜を表す膜領域と、前記膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、前記膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過する際のペプチドの動態をシミュレーションする予測装置、予測方法、及び予測プログラムであって、前記ペプチドの透過をアンブレラサンプリング手法によってシミュレーションする際に、前記膜領域の中心領域を表す膜中心部に近い領域ほど前記ペプチドの拘束位置の間隔が細かくなるように設定し、設定された前記拘束位置の間隔に応じて、アンブレラサンプリング手法によって前記ペプチドの動態をシミュレーションし、シミュレーションの結果に基づいて、前記ペプチドの膜透過性を予測する。
本開示の第8の態様の予測装置、予測方法、及び予測プログラムは、細胞膜を表す膜領域と、前記膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、前記膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過するペプチドの動態をシミュレーションすることにより、前記ペプチドの膜透過性を表す第1の膜透過性値を生成し、前記ペプチドから特徴を表す予測用特徴ベクトルを抽出し、前記予測用特徴ベクトルを、予め機械学習された学習済みモデルへ入力することにより、前記ペプチドの膜透過性を表す第2の膜透過性値を生成し、生成された前記第1の膜透過性値と、生成された前記第2の膜透過性値とを統合することにより、前記ペプチドの膜透過性の予測値を計算する。
本開示の第9の態様の学習済みモデルの生成装置、学習済みモデルの生成方法、及び学習済みモデルの生成プログラムは、細胞膜を表す膜領域と、前記膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、前記膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過するペプチドの動態をシミュレーションすることにより、前記ペプチドの膜透過性を表す膜透過性の予測値を生成し、得られたペプチドの膜透過性の予測値と、前記膜領域、前記第1溶媒領域、又は前記第2溶媒領域内の各箇所における前記ペプチドの立体配座から得られる3D記述子から生成される特徴ベクトルとの対を表すシミュレーション由来学習用データを生成し、生成された前記シミュレーション由来学習用データを含む学習用データに基づいて、機械学習アルゴリズムを実行することにより、前記特徴ベクトルから前記膜透過性の予測値を出力する学習済みモデルを生成する。
本開示の第10の態様の学習済みモデルの生成装置、学習済みモデルの生成方法、及び学習済みモデルの生成プログラムは、複数の学習用の環状ペプチドの各々から特徴を表す第1学習用特徴ベクトルを抽出し、抽出された前記第1学習用特徴ベクトルの各々に対して、前記第1学習用特徴ベクトルの要素を巡回シフトさせることにより複数の第2学習用特徴ベクトルを生成し、前記第1学習用特徴ベクトル及び複数の前記第2学習用特徴ベクトルと学習用の環状ペプチドの膜透過性の正解値との対を表す学習用データを生成し、生成された複数の学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済みモデルを生成する。
本開示の第11の態様の学習済みモデルの生成装置、学習済みモデルの生成方法、及び学習済みモデルの生成プログラムは、複数の学習用の環状ペプチドの各々から抽出された特徴を表す学習用特徴ベクトルと複数の学習用の環状ペプチドの膜透過性の正解値との対を表す学習用データに基づいて、前記学習用特徴ベクトルの両端の要素を隣接させる両端隣接層を有する畳み込みニューラルネットワークモデルを用いて機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルを生成する。
本開示の第12の態様の予測装置、予測方法、及び予測プログラムは、膜透過性の予測対象の環状ペプチドから特徴を表す予測用特徴ベクトルを抽出し、抽出された前記予測用特徴ベクトルを、環状ペプチドの特徴を表す特徴ベクトルの両端の要素を隣接させる両端隣接層を有する学習済み畳み込みニューラルネットワークモデルであって、かつ前記特徴ベクトルからペプチドの膜透過性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルへ入力することにより、前記予測対象のペプチドの膜透過性の予測値を生成する。
本開示によれば、ペプチドの膜透過性を予測することができる、という効果が得られる。
第1実施形態に係る予測装置を示すブロック図である。 データ記憶部12に格納されるデータの一例を示す図である。 環状ペプチドを説明するための図である。 環状ペプチドの構造を説明するための図である。 学習用データ記憶部16に格納される学習用データの一例を示す図である。 学習済みモデルを説明するための図である。 第1実施形態に係る予測装置を実現するコンピュータを示す図である。 第1実施形態に係る予測装置において実行される学習済みモデルの生成処理ルーチンの一例を示す図である。 第1実施形態に係る予測装置において実行される予測処理ルーチンの一例を示す図である。 第2実施形態に係る予測装置を示すブロック図である。 第2実施形態に係る予測装置において実行される学習済みモデルの生成処理ルーチンの一例を示す図である。 第2実施形態に係る予測装置において実行される予測処理ルーチンの一例を示す図である。 第3実施形態に係る予測装置を示すブロック図である。 第2学習用特徴ベクトルの生成を説明するための図である。 従来の畳み込みニューラルネットワークモデルの構成図である。 第4実施形態の畳み込みニューラルネットワークモデルの構成図である。 第5実施形態に係る予測装置を示すブロック図である。 ペプチドが細胞膜を透過する様子を説明するための図である。 第5実施形態の分子動力学シミュレーションにおける各部位を説明するための図である。 REUS法におけるペプチドの拘束位置を説明するための図である。 ペプチドの自由エネルギーG(z)のうちの最小値Gminを説明するための図である。 第5実施形態に係る予測装置において実行されるシミュレーション処理ルーチンの一例を示す図である。 第6実施形態に係る予測装置を示すブロック図である。 第7実施形態に係る予測装置を示すブロック図である。
以下、図面を参照して本発明の実施形態を詳細に説明する。
[第1実施形態]
図1は、第1実施形態に係る予測装置10の構成の一例を示すブロック図である。予測装置10は、機能的には、図1に示されるように、データ記憶部12と、学習用抽出部14と、学習用データ記憶部16と、学習部18と、学習済みモデル記憶部20と、抽出部22と、生成部24とを備えている。
本実施形態の予測装置10は、環状ペプチドの膜透過性を予測する。
データ記憶部12には、学習用の環状ペプチドを表す学習用のペプチド情報と、学習用の環状ペプチドの膜透過性の正解値とが対応付けられて格納されている。なお、ペプチド情報は、ペプチドの構造式、ペプチドのSMILES表記、ペプチドの一次構造、ペプチドの二次構造、ペプチドの三次構造、及びペプチドの四次構造のうちの少なくとも1つの情報が含まれている情報である。
学習用の環状ペプチドの膜透過性の正解値は、例えば、学習用の環状ペプチドに対して既知の実験を行うことにより得られるデータである。図2に、データ記憶部12に格納されるデータの一例を示す。図2に示されるように、学習用のペプチド情報と、当該学習用の環状ペプチドの膜透過性の正解値とが対応付けられてデータ記憶部12に格納される。
学習用抽出部14は、データ記憶部12に格納されている複数の学習用のペプチド情報の各々から、環状ペプチドの特徴を表す学習用特徴ベクトルを抽出する。なお、特徴ベクトルは、既知の手法によってペプチド情報から抽出される。
図3A及び図3Bに環状ペプチドの構造を説明するための図を示す。図3Aは環状ペプチドの一例を示す図である。図3Aに示されるように、環状ペプチドは複数の残基を備えており、それらの残基によって環が形成されている。また、図3Bは、環状ペプチドの構成を模式的に表した図である。図3Bに示されるような環状ペプチドから、環状ペプチド全体の特徴ベクトル及び残基毎の特徴ベクトルを抽出することで、環状ペプチドの特徴ベクトルを構成する際には、どの残基を環状配列の開始点とするのかによって特徴ベクトルの構成が異なるものとなる。
例えば、図3Bに示される残基1を環状配列の開始点として特徴ベクトルを構成する場合には、残基1から抽出される特徴量F1を開始点とする特徴ベクトル[F1,F2,・・・,F8]が構成される。一方、残基8を環状配列の開始点として特徴ベクトルを構成する場合には、残基8から抽出される特徴量F8を開始点とする特徴ベクトル[F8,F1,F2,・・・,F7]が抽出される。
このため、同一の環状ペプチドであっても、環状配列の開始点とする残基が異なる場合には特徴ベクトルが異なるものとなってしまう。この場合には、環状ペプチドの膜透過性を適切に予測することができない。
そこで、本実施形態では、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴ベクトルの各々を抽出し、それら複数の特徴ベクトルに基づいて膜透過性を予測する。
具体的には、学習用抽出部14は、複数の学習用の環状ペプチドのペプチド情報の各々から、学習用の環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す特徴ベクトルを抽出する。
例えば、学習用抽出部14は、図3Bに示される残基1を環状配列の開始点とした場合の特徴ベクトル1、残基2を環状配列の開始点とした場合の特徴ベクトル2、・・・、残基8を環状配列の開始点とした場合の特徴ベクトル8の各々を抽出する。
学習用抽出部14は、抽出された1つの特徴ベクトルを1つの学習用特徴ベクトルとして設定する。このため、1つの学習用の環状ペプチドから抽出された特徴ベクトルの集合は、学習用特徴ベクトルの集合に相当する。
そして、学習用抽出部14は、複数の学習用の環状ペプチドの各々について、学習用特徴ベクトルの集合と学習用のペプチドの膜透過性の正解値とを対応付けて、学習用データ記憶部16へ格納する。
学習用データ記憶部16には、複数の学習用データが格納される。1つの学習用データは、学習用特徴ベクトルと学習用のペプチドの膜透過性の正解値との対である。図4Aに、学習用データ記憶部16に格納される学習用データの一例を示す。図4Aに示されるように、学習用特徴ベクトルと、当該学習用のペプチドの膜透過性の正解値とが対応付けられて学習用データ記憶部16に格納される。この学習用データは、後述する学習済みモデルの生成に用いられる。なお、例えば、図4Aの例における、複数の学習用特徴ベクトルFv1,Fv2,・・・は、環状配列の開始点を異ならせることにより得られた学習用特徴ベクトルである。
学習部18は、学習用データ記憶部16に格納された複数の学習用データに基づいて、既知の教師あり機械学習アルゴリズムを実行することにより、特徴ベクトルからペプチドの膜透過性の予測値を出力するための学習済みモデルを生成する。そして、学習部18は、学習済みモデルを学習済みモデル記憶部20へ格納する。なお、学習済みモデル自体は既知のモデルであり、例えば、ニューラルネットワークモデル、サポートベクターマシン、又はロジスティック回帰モデル等である。なお、ニューラルネットワークモデルには、深層学習により得られるディープニューラルネットワークモデルも含まれる。
図4Bに、学習済みモデルを説明するための図を示す。図4Bに示されるように、膜透過性の予測対象の環状ペプチドから抽出された特徴ベクトルが学習済みモデルへ入力されると、予測対象の環状ペプチドの膜透過性の予測値が出力される。
なお、後述するように、膜透過性の予測対象の環状ペプチドからも、環状配列の開始点を異ならせることにより複数の特徴ベクトルが抽出される。それら複数の特徴ベクトルの各々を学習済みモデルへ入力することにより、複数の特徴ベクトルの各々に対応する膜透過性の予測値が得られる。
学習済みモデル記憶部20には、学習部18により生成された学習済みモデルが格納される。なお、学習済みモデルは、モデルの構造と学習済みのパラメータとが対応付けられたデータである。
抽出部22は、膜透過性の予測対象の環状ペプチドから特徴を表す特徴ベクトルを抽出する。具体的には、抽出部22は、膜透過性の予測対象の環状ペプチドのペプチド情報から、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す特徴ベクトル(以下、予測用特徴ベクトルと称する。)の各々を抽出する。
生成部24は、抽出部22により得られた複数の予測用特徴ベクトルを、学習済みモデル記憶部20に格納された学習済みモデルへ入力することにより、予測対象の環状ペプチドの膜透過性の予測値を生成する。
具体的には、生成部24は、抽出部22により得られた複数の予測用特徴ベクトルの各々を学習済みモデルへ入力することにより、予測対象のペプチドの膜透過性の予測値の各々を生成する。ここで、1つの予測値は1つの予測用特徴ベクトルに対応する。そして、生成部24は、複数の予測値の代表値を生成することにより、その代表値を予測対象のペプチドの膜透過性とする。例えば、生成部24は、複数の予測値の平均値を代表値として生成する。または、生成部24は、複数の予測値の最大値又は最小値を代表値として生成する。
なお、生成部24により生成された膜透過性の代表値又は複数の予測値は、表示部(図示省略)に表示される。
このように、第1実施形態の予測装置10は、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴ベクトルの各々を抽出し、それら複数の特徴ベクトルに基づいて膜透過性を予測する。これにより、環状ペプチドの回転対称性を考慮した複数の特徴ベクトルが得られ、それらの特徴ベクトルに基づき、環状ペプチドの膜透過性を適切に予測することができる。
予測装置10は、例えば、図5に示すようなコンピュータ50によって実現することができる。予測装置10を実現するコンピュータ50は、CPU51、一時記憶領域としてのメモリ52、及び不揮発性の記憶部53を備える。また、コンピュータは、入出力装置等(図示省略)が接続される入出力interface(I/F)54、及び記録媒体59に対するデータの読み込み及び書き込みを制御するread/write(R/W)部55を備える。また、コンピュータは、インターネット等のネットワークに接続されるネットワークI/F56を備える。CPU51、メモリ52、記憶部53、入出力I/F54、R/W部55、及びネットワークI/F56は、バス57を介して互いに接続される。
記憶部53は、Hard Disk Drive(HDD)、Solid State Drive(SSD)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部53には、コンピュータを機能させるためのプログラムが記憶されている。CPU51は、プログラムを記憶部53から読み出してメモリ52に展開し、プログラムが有するプロセスを順次実行する。
次に、第1実施形態の予測装置10の作用について説明する。
予測装置10は、学習済みモデルの生成処理の指示を表す指示信号を受け付けると、図6に示される学習済みモデルの生成処理ルーチンを実行する。
ステップS100において、学習用抽出部14は、複数の学習用の環状ペプチドのペプチド情報の各々から、学習用の環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す学習用特徴ベクトルを抽出する。
ステップS102において、学習用抽出部14は、上記ステップS100で抽出された学習用特徴ベクトルの集合と学習用の環状ペプチドの膜透過性の正解値とを対応付けて学習用データを生成し、学習用データ記憶部16へ一旦格納する。
ステップS104において、学習部18は、学習用データ記憶部16に格納された複数の学習用データに基づいて、既知の教師あり機械学習アルゴリズムを実行することにより、特徴ベクトルからペプチドの膜透過性の予測値を出力するための学習済みモデルを生成する。
ステップS106において、学習部18は、上記ステップS10で生成された学習済みモデルを学習済みモデル記憶部20へ格納する。
学習済みモデル記憶部20に学習済みモデルが格納され、膜透過性の予測対象のペプチド情報が予測装置10へ入力されると、予測装置10は図7に示される予測処理ルーチンを実行する。
ステップS200において、抽出部22は、膜透過性の予測対象のペプチド情報を受け付ける。
ステップS202において、抽出部22は、上記ステップS200で受け付けたペプチド情報から、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す予測用特徴ベクトルの各々を抽出する。
ステップS204において、生成部24は、上記ステップS20で抽出された複数の予測用特徴ベクトルの各々を、学習済みモデル記憶部20に格納された学習済みモデルへ入力することにより、予測対象のペプチドの膜透過性の予測値を複数生成する。
ステップS206において、生成部24は、上記ステップS204で生成された複数の予測値の各々から代表値を生成する。
ステップS208において、生成部24は、上記ステップS206で生成された膜透過性の予測値の代表値を結果として出力する。
以上詳細に説明したように、第1実施形態の予測装置は、複数の学習用の環状ペプチドの各々から、学習用の環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す学習用特徴ベクトルの集合を抽出する。そして、予測装置は、複数の学習用の環状ペプチドの各々について、抽出された複数の学習用特徴ベクトルと学習用の環状ペプチドの膜透過性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済みモデルを生成する。これにより、環状ペプチドの膜透過性を予測するための学習済みモデルを得ることができる。なお、この学習済みモデルは、複数の残基の各々を環状配列の開始点とした場合の学習用特徴ベクトルに基づき学習されているため、環状ペプチドの膜透過性の予測に適したモデルとなっている。
また、第1実施形態の予測装置は、膜透過性の予測対象の環状ペプチドから、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す特徴ベクトルの各々を抽出する。そして、予測装置は、複数の特徴ベクトルを学習済みモデルへ入力することにより、予測対象の環状ペプチドの膜透過性の予測値を生成する。これにより、環状ペプチドの膜透過性を予測することができる。具体的には、上述したように、学習済みモデルは、複数の残基の各々を環状配列の開始点とした場合の学習用特徴ベクトルに基づき学習されているため、環状ペプチドの膜透過性の予測に適したモデルとなっている。このため、環状ペプチドの構造を考慮して膜透過性の予測値を生成することができる。
[第2実施形態]
次に、第2実施形態について説明する。第2実施形態の予測装置は、複数の特徴ベクトルの長さを揃える点が第1実施形態と異なる。なお、第1実施形態では環状ペプチドを対象とする場合を例に説明したが、第2実施形態では環状ペプチドに限らず直鎖状のペプチドも対象とする。また、第2実施形態に係る予測装置の構成のうちの第1実施形態の予測装置と同様の部分は、同一符号を付して説明を省略する。
図8は、第2実施形態に係る予測装置210の構成の一例を示すブロック図である。予測装置210は、機能的には、図8に示されるように、データ記憶部12と、学習用抽出部14と、学習用データ記憶部16と、学習用調整部15と、学習部18と、学習済みモデル記憶部20と、抽出部22と、調整部23と、生成部24とを備えている。
学習用調整部15は、学習用抽出部14により抽出された複数の学習用のペプチドの各々に対する学習用特徴ベクトルの各々の長さが、所定長さとなるように調整する。
ペプチドは複数の残基を備えている。このため、残基の数が異なるペプチド間においては、特徴ベクトルの長さが異なるものとなる。具体的には、特徴ベクトルの要素の数が残基の数に応じたものとなるため、残基の数が異なるペプチド間においては、特徴ベクトルの長さが異なるということになる。なお、ニューラルネットワークモデル等の学習モデルに入力される特徴ベクトルは一定であることが好ましい。例えば、特徴ベクトルの要素の数が10である場合には、学習モデルの一例であるニューラルネットワークモデルの入力層のノードの数は10である必要があるといった対応が求められる。
このため、複数のペプチドの各々から抽出される特徴ベクトルの長さが異なる場合には、何らかの適切な措置を取らない限り、ニューラルネットワークモデル等の機械学習アルゴリズムを用いて学習済みモデルを構築することができず、またそのような学習済みモデルを用いてペプチドの膜透過性を予測することもできない。
そこで、第2実施形態の予測装置は、ペプチドから抽出される特徴ベクトルの長さを揃えることにより、それらの特徴ベクトルを用いて機械学習アルゴリズムによる学習を可能なようにする。さらに、学習によって得られた学習済みモデルを用いてペプチドの膜透過性を予測可能なようにする。
具体的には、例えば、学習用調整部15は、複数の学習用特徴ベクトルのうちの最大長さの学習用特徴ベクトルを特定し、他の複数の学習用特徴ベクトルの長さが最大長さとなるように調整する。または、例えば、学習用調整部15は、複数の学習用特徴ベクトルの各々の長さが所定長さとなるように調整する。なお、この場合の所定長さは、予めユーザによって設定される。
例えば、学習用調整部15は、既知のパディング法による変換によって学習用特徴ベクトルの長さを揃える。パディング法は、対象のうちの空いている箇所に対して代替となる値等を埋める方法である。このため、例えば、学習用調整部15は、学習用特徴ベクトルが[0.13,0.45,0.82]でありその長さが3であった場合、所定長さが5であるときにはパディング法により[0.00,0.13,0.45,0.82,0.00]とすることにより、長さ5の学習用特徴ベクトルを生成する。なお、学習用調整部15は、学習用特徴ベクトルの長さを調整する際に、長さ調整前の残基の個数等、長さ調整前の情報をその要素として追加するようにしてもよい。
または、例えば、学習用調整部15は、線形補間法による変換によって学習用特徴ベクトルの長さを揃える。具体的には、学習用調整部15は、学習用特徴ベクトルの要素である特徴量x’を、以下の式(1)に従って算出する。
Figure 0007057003000002

(1)
Figure 0007057003000003
学習用調整部15は、上記式(1)に従って、残基長kのペプチドから得られる長さkの学習用特徴ベクトルを、長さmの学習用特徴ベクトルへと変換する。なお、xは変換前の学習用特徴ベクトルxのi番目の要素に位置する特徴量であり、x’は変換後の学習用特徴ベクトルx’のj番目の要素に位置する特徴量である。これにより、複数の学習用特徴ベクトルの長さが揃えられることになる。
そして、学習用調整部15は、長さが揃えられた学習用特徴ベクトルと学習用のペプチドの膜透過性の正解値とを対応付けて、学習用データ記憶部16へ格納する。
学習用データ記憶部16には、複数の学習用データが格納される。
学習部18は、学習用データ記憶部16に格納された複数の学習用データに基づいて、既知の教師あり機械学習アルゴリズムを実行することにより、特徴ベクトルからペプチドの膜透過性の予測値を出力するための学習済みモデルを生成する。そして、学習部18は、学習済みモデルを学習済みモデル記憶部20へ格納する。
学習済みモデル記憶部20には、学習部18により生成された学習済みモデルが格納される。
抽出部22は、膜透過性の予測対象のペプチドから特徴を表す予測用特徴ベクトルを抽出する。
調整部23は、抽出部22により抽出された予測用特徴ベクトルの長さが、学習用データと同一の所定長さとなるように調整する。具体的には、調整部23は、上記の学習用調整部15と同様の手法によって予測用特徴ベクトルの長さを調整する。
生成部24は、調整部23により長さが調整された予測用特徴ベクトルを、学習済みモデル記憶部20に格納された学習済みモデルへ入力することにより、予測対象のペプチドの膜透過性の予測値を生成する。
なお、生成部24により生成された膜透過性の予測値は、表示部(図示省略)に表示される。
次に、第2実施形態の予測装置210の作用について説明する。
予測装置210は、学習済みモデルの生成処理の指示を表す指示信号を受け付けると、図9に示される学習済みモデルの生成処理ルーチンを実行する。
ステップS300において、学習用抽出部14は、データ記憶部12に格納されている複数の学習用のペプチド情報の各々から、学習用のペプチドの特徴を表す学習用特徴ベクトルを抽出する。
ステップS302において、学習用調整部15は、上記ステップS300で抽出された複数の学習用のペプチドの各々に対する学習用特徴ベクトルの各々の長さが、所定長さとなるように調整する。
ステップS304において、学習用調整部15は、上記ステップS302で長さが揃えられた学習用特徴ベクトルと学習用のペプチドの膜透過性の正解値とを対応付けて学習用データを生成し、学習用データ記憶部16へ一旦格納する。
ステップS306において、学習部18は、学習用データ記憶部16に格納された複数の学習用データに基づいて、既知の教師あり機械学習アルゴリズムを実行することにより、ペプチドの特徴を表す特徴ベクトルからペプチドの膜透過性の予測値を出力するための学習済みモデルを生成する。
ステップS308において、学習部18は、上記ステップS306で生成された学習済みモデルを学習済みモデル記憶部20へ格納する。
学習済みモデル記憶部20に学習済みモデルが格納され、膜透過性の予測対象のペプチド情報が予測装置210へ入力されると、予測装置210は図10に示される予測処理ルーチンを実行する。
ステップS400において、抽出部22は、膜透過性の予測対象のペプチド情報を受け付ける。
ステップS402において、抽出部22は、上記ステップS400で受け付けたペプチド情報から予測用特徴ベクトルを抽出する。
ステップS404において、調整部23は、上記ステップS402で抽出された予測用特徴ベクトルの長さが、所定長さとなるように調整する。
ステップS406において、生成部24は、上記ステップS404で長さが調整された予測用特徴ベクトルを、学習済みモデル記憶部20に格納された学習済みモデルへ入力することにより、予測対象のペプチドの膜透過性の予測値を生成する。
ステップS408において、生成部24は、上記ステップS406で生成された膜透過性の予測値を結果として出力する。
以上詳細に説明したように、第2実施形態の予測装置は、複数の学習用のペプチドの各々に対する学習用特徴ベクトルの各々の長さが、所定長さとなるように調整する。そして、予測装置は、長さが調整された学習用特徴ベクトルと学習用のペプチドの膜透過性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、ペプチドから抽出される特徴ベクトルからペプチドの膜透過性の予測値を出力するための学習済みモデルを生成する。これにより、複数の残基から構成されるペプチド間において、その残基の数が異なる場合であっても、ペプチドの膜透過性を予測するための学習済みモデルを得ることができる。
また、第2実施形態の予測装置は、膜透過性の予測対象のペプチドから抽出された特徴ベクトルの長さが所定長さとなるように調整し、長さが調整された特徴ベクトルを学習済みモデルへ入力することにより、予測対象のペプチドの膜透過性の予測値を生成する。これにより、複数の残基から構成されるペプチド間において、その残基の数が異なる場合であってもペプチドの膜透過性を予測することができる。
[第3実施形態]
次に、第3実施形態について説明する。第3実施形態の予測装置は、環状ペプチドの構造上の性質に注目したデータオーギュメンテーションによって学習用データを増加させ、増加させた学習用データに基づいて学習済みモデルを生成する点が第1及び第2実施形態と異なる。なお、第3実施形態に係る予測装置の構成のうちの第1又は第2実施形態の予測装置と同様の部分は、同一符号を付して説明を省略する。
第3実施形態の予測装置は、学習用特徴ベクトルを増加させる際に、第2実施形態と同様の長さ調整を行った後の学習用特徴ベクトルの要素を巡回シフトさせることにより、複数の学習用特徴ベクトルを生成する。これにより、環状ペプチドの構成上の特徴を考慮しつつ学習用データを増加させることができる。
図11は、第3実施形態に係る予測装置310の構成の一例を示すブロック図である。予測装置10は、機能的には、図11に示されるように、データ記憶部12と、学習用抽出部14と、学習用データ記憶部16と、学習用データ生成部315と、学習部18と、学習済みモデル記憶部20と、抽出部22と、生成部24とを備えている。
第3実施形態の学習用抽出部14は、複数の学習用の環状ペプチドのペプチド情報の各々から、学習用の環状ペプチドの特徴を表す第1学習用特徴ベクトルの集合を抽出する。
具体的には、まず、学習用データ生成部315は、第2実施形態と同様に、複数の第1学習用特徴ベクトルの長さを所定長さに揃える。次に、学習用データ生成部315は、学習用抽出部14により抽出された第1学習用特徴ベクトルの集合に含まれる第1学習用特徴ベクトルの各々に対して、第1学習用特徴ベクトルの要素を巡回シフトさせることにより、第2学習用特徴ベクトルの集合を生成する。
図12に第2学習用特徴ベクトルの生成を説明するための図を示す。図12における「1」等の番号は、特徴ベクトルにおける要素の位置を表す。図12に示される例では、例えば、ある環状ペプチドの1番目の残基から特徴量Bが抽出され、2番目の残基から特徴量Cが抽出され、3番目の残基から特徴量Dが抽出され、4番目の残基から特徴量Eが抽出される。そして、長さ4の特徴ベクトルを長さ6の特徴ベクトルとするために、番号1の箇所に特徴量Aが挿入され、番号6の箇所に特徴量Fが挿入される。このようにして、要素A,B,C,D,E,Fが第1学習用特徴ベクトルの要素となる。
次に、学習用データ生成部315は、図12に示されるように、第1学習用特徴ベクトルの要素A,B,C,D,E,Fを距離1だけ左に巡回シフトさせることにより、第2学習用特徴ベクトル[B,C,D,E,F,A]を生成する。また、同様に、第1学習用特徴ベクトルの要素A,B,C,D,E,Fを距離2だけ左に巡回シフトさせることにより、第2学習用特徴ベクトル[C,D,E,F,A,B]が生成される。この処理は、文字列又はビット列におけるローテーション処理と同様に、前後の順序は変えずに配列上の位置を一定距離だけずらして配置し、端点での回り込みを表現する処理である。このような処理により、1つの環状ペプチドから、第1学習用特徴ベクトル及び複数の第2学習用特徴ベクトルが得られ、これらは学習用データとして用いることが可能となる。
学習用データ生成部315は、第1学習用特徴ベクトルの集合及び第2学習用特徴ベクトルの集合と、学習用の環状ペプチドの膜透過性の正解値との対を表す学習用データを生成する。そして、学習用データ生成部315は、生成した複数の学習用データを学習用データ記憶部16へ格納する。
学習部18は、学習用データ記憶部16に格納された複数の学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済みモデルを生成する。
なお、第3実施形態の予測装置310の他の構成及び作用については、第1実施形態又は第2実施形態と同様であるため、説明を省略する。
以上説明したように、第3実施形態の予測装置は、複数の学習用の環状ペプチドの各々から特徴を表す第1学習用特徴ベクトルを抽出する。予測装置は、第1学習用特徴ベクトルの各々に対して、第1学習用特徴ベクトルの長さを所定長さに調整した後に、第1学習用特徴ベクトルの要素を巡回シフトさせることにより、第2学習用特徴ベクトルの集合を生成し、第1学習用特徴ベクトルの集合及び第2学習用特徴ベクトルの集合と学習用の環状ペプチドの膜透過性の正解値との対を表す学習用データを生成する。そして、予測装置は、生成された複数の学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済みモデルを生成する。これにより、環状ペプチドの構成上の特徴を考慮しつつ学習用データを増加させることができる。また、また環状ペプチドの構成を考慮して生成された多くの学習用データに基づいて学習済みモデルを得ることができる。
[第4実施形態]
次に、第4実施形態について説明する。第4実施形態の予測装置は、環状ペプチドの構造上の性質に対応するために特徴ベクトルの両端の要素を隣接させる層を有する畳み込みニューラルネットワークモデルを用いて、環状ペプチドの膜透過性の予測値を生成する点が第1~第3実施形態と異なる。なお、第4実施形態に係る予測装置の構成のうちの第1~第3実施形態の何れかの予測装置と同様の部分は、同一符号を付して説明を省略する。
環状ペプチドから抽出される特徴ベクトルは、環状ペプチドを構成する残基の環を表現する必要がある。この点、ベクトルは要素を単に一次元的に並べたものであり開始端と終端が生じてしまうため、環状ペプチドのうちの残基の環としての連続性が適切に表現されていないとも考えられる。
そこで、第4実施形態の予測装置は、特徴ベクトルの両端の要素を隣接させる両端隣接層を有する畳み込みニューラルネットワークモデルを用いて、環状ペプチドの膜透過性の予測値を生成する。これにより、環状ペプチドの残基の構成が畳み込みニューラルネットワークモデル内において表現される。
図13は、従来の畳み込みニューラルネットワークモデルの構成図である。図13に示されるように、従来の畳み込みニューラルネットワークモデルCNN1は、入力層Iと、畳み込み層Cvと、を備えている。なお、他の畳み込み層及びプーリング層等の図示は省略されている。図13に示されるように、入力層Iに特徴ベクトル[0,A,B,C,0]が入力された場合、畳み込み層Cvにおいて畳み込み処理が行われ、特徴ベクトルから[0,A,B]、[A,B,C]、[B,C,0]が抽出される。しかし、従来の畳み込みニューラルネットワークモデルCNN1では、入力された特徴ベクトルに対して単に畳み込み処理がなされるのみで、特徴ベクトルが抽出された環状ペプチドの構造は考慮されていない。
これに対し、第4実施形態の畳み込みニューラルネットワークモデルでは、環状ペプチドの構造上の特徴を考慮した層を備える。図14は、第4実施形態の畳み込みニューラルネットワークモデルの構成図である。図14に示されるように、第4実施形態の畳み込みニューラルネットワークモデルCNN2は、入力層Iと、畳み込み層Cvと、両端隣接層I’とを備えている。両端隣接層I’は、特徴ベクトルの両端の要素を左右に再度配置し隣接させる層である。具体的には、図14に示されるように、Aの左隣にCが隣接され、Cの右隣にAが隣接している。これにより、環状ペプチドの残基の環が表現される。
第4実施形態の学習部18は、複数の学習用データに基づいて、学習用特徴ベクトルの両端の要素を隣接させる両端隣接層を有する畳み込みニューラルネットワークモデルを学習させることにより、特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルを生成する。そして、学習部18は、学習済みの畳み込みニューラルネットワークモデルを学習済みモデル記憶部20に格納する。
第4実施形態の生成部24は、膜透過性の予測対象の環状ペプチドから抽出された特徴ベクトルを、学習済みモデル記憶部20に格納された学習済み畳み込みニューラルネットワークモデルへ入力することにより、予測対象のペプチドの膜透過性の予測値を生成する。
なお、第4実施形態の予測装置410の他の構成及び作用については、第1~第3実施形態の何れかの予測装置と同様であるため、説明を省略する。
以上説明したように、第4実施形態の予測装置は、複数の学習用データに基づいて、学習用特徴ベクトルの両端の要素を隣接させる両端隣接層を有する畳み込みニューラルネットワークモデルを学習させることにより、特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルを生成する。これにより、環状ペプチドの構成上の特徴を考慮した学習済みの畳み込みニューラルネットワークモデルを得ることができる。
また、予測装置は、膜透過性の予測対象の環状ペプチドから抽出された特徴ベクトルを、特徴ベクトルの両端の要素を隣接させる両端隣接層を有する学習済み畳み込みニューラルネットワークモデルへ入力することにより、予測対象のペプチドの膜透過性の予測値を生成する。これにより、環状ペプチドの構成上の特徴を考慮した膜透過性の予測値を得ることができる。
[第5実施形態]
次に、第5実施形態について説明する。第5実施形態の予測装置は、分子動力学シミュレーションによって、ペプチドの膜透過性の予測値を生成する点が第1~第4実施形態と異なる。なお、第5実施形態に係る予測装置の構成のうちの第1~第4実施形態の何れかの予測装置と同様の部分は、同一符号を付して説明を省略する。
図15は、第5実施形態に係る予測装置510の構成の一例を示すブロック図である。予測装置510は、機能的には、図15に示されるように、シミュレーション用データ記憶部31と、設定部32と、シミュレーション部33と、エネルギー計算部34と、拡散係数計算部35と、予測部36とを備えている。
図16に、ペプチドが細胞膜を透過する様子を説明するための図を示す。図16に示されるように、コンピュータ上で仮想的に設定されるペプチドPは、細胞膜を表す膜領域Cを透過する。この場合、ペプチドPは、膜領域Cの一方側と隣接する溶媒を表す第1溶媒領域Wから膜領域Cへ入り膜領域Cを透過する。そして、ペプチドPは、膜領域Cの他方側と隣接する溶媒を表す第2溶媒領域Wへと到達する。なお、ペプチドPが侵入する膜領域Cの膜表面の鉛直軸方向における、ペプチドPの位置を表す反応座標zが、図16に示されるように定義される。第5実施形態の予測装置は、膜領域Cと第1溶媒領域Wと第2溶媒領域Wとを透過する際のペプチドの動態を分子動力学シミュレーションによってシミュレーションする。
シミュレーション用データ記憶部31には、ペプチドの体内動態を分子動力学シミュレーションによってシミュレーションするための各種データが格納されている。後述するシミュレーション部33は、シミュレーション用データ記憶部31に格納されている各種データに基づいて、ペプチドの体内動態をシミュレーションする。なお、シミュレーション用データ記憶部31には、シミュレーションから得られたデータも格納される。また、後述するエネルギー計算部34はシミュレーションから得られたデータに基づいて、ペプチドの自由エネルギーを計算する。また、後述する拡散係数計算部35は、シミュレーションから得られたデータに基づいて、拡散係数を計算する。また、予測部36は、ペプチドの自由エネルギー及び拡散係数に基づいて、膜透過性の予測値を計算する。
図17に、第5実施形態の分子動力学シミュレーションにおける各部位を説明するための図を示す。図17に示されるように、第1溶媒領域W、膜領域C、及び第2溶媒領域Wが存在する。
膜領域Cの内部には第1溶媒領域Wと接する側に、尾部Taと頭部Heとその脂質分子の接合点Joが存在している。接合点Joは、第1溶媒領域Wと膜領域Cとの境界よりも膜中心側に位置している。
また、膜領域Cの内部には、第2溶媒領域Wと接する側に尾部Taと頭部Heとその接合点Joが存在している。また、膜領域Cの中心領域には膜中心部Zが存在している。
なお、第1溶媒領域Wと接する頭部Heから第2溶媒領域Wと接する頭部Heまでの領域を膜領域Cとする。
なお、図17からもわかるように、第1溶媒領域Wから膜領域Cの中心領域である膜中心部Zまでの区間と、膜中心部Zから第2溶媒領域Wまでの区間とは対称関係にある。そのため、第1溶媒領域Wから膜中心部Zを越えるまでの分子動力学シミュレーションを実行し、その結果を利用して膜中心部Zから第2溶媒領域Wまでのシミュレーション結果を得ることも可能である。これにより計算時間の短縮を図ることができる。
このため、以下では、第1溶媒領域Wから膜中心部Zを充分に越えるまでの区間の分子動力学シミュレーションを実行し、そのシミュレーション結果を利用して、膜中心部Zから第2溶媒領域Wまでのシミュレーション結果を得る場合について説明する。
設定部32は、第1溶媒領域Wから接合点Jo付近に至る区間でのペプチドPの透過をシミュレーションする際の設定情報として、ペプチドPの初期配座を第1溶媒領域W中の物質の比誘電率に応じた初期配座として設定する。
また、設定部32は、接合点Jo付近から膜中心部Zを充分に越えるまでの区間でのペプチドPの透過をシミュレーションする際の設定情報として、ペプチドPの初期配座を膜領域C中の物質の比誘電率に応じた初期配座として設定する。これにより、ペプチドの初期配座はペプチドが存在する周辺環境に応じたものに設定され、ペプチドの体内動態を模擬することができる。
シミュレーション部33は、ペプチドの体内動態の分子動力学シミュレーションを実行する。例えば、シミュレーション部33は、既知のシミュレーションソフトウェアである、AMBER([令和3年2月8日検索],インターネット<URL:https://ambermd.org/>)又はGROMACS([令和3年2月8日検索],インターネット<URL:http://www.gromacs.org/>)等を用いて、ペプチドの体内動態の分子動力学シミュレーションを実行する。
まず、シミュレーション部33は、設定部32により設定されたペプチドの初期配座に応じて、第1溶媒領域Wから接合点Jo付近に至るまでの区間をペプチドPが透過するシミュレーションと、接合点Jo付近から膜中心部Zの領域を充分に越えるまでの区間をペプチドPが透過するシミュレーションとを行い、そのシミュレーション結果をシミュレーション用データ記憶部31に格納する。
設定部32は、シミュレーション用データ記憶部31に格納されているシミュレーション結果から、後に実行するレプリカ交換アンブレラサンプリング手法(Replica Exchange Umbrella Sampling)によるシミュレーション(以下、単にREUSシミュレーションと称する。)の初期コンフォメーションを取得する。初期コンフォメーションは、REUSシミュレーションによってペプチドの動態をシミュレーションする際の、膜周辺の各領域におけるペプチドの一連の初期配座である。このため、設定部32は、ペプチドの動態のシミュレーション結果に基づいて、REUSシミュレーションにおける一連の初期配座を設定する。
なお、第5実施形態では、後述するように、既知のREUSシミュレーションによって、ペプチドの体内動態をシミュレーションする。この場合、第1溶媒領域W及び膜領域Cの各領域において、ペプチドのレプリカの拘束位置を予め設定する必要がある。
図18に、REUSシミュレーションにおけるペプチドの拘束位置を説明するための図を示す。図18に示されるように、第1溶媒領域W及び膜領域Cの各領域において、拘束エネルギーの基準点となる拘束位置(図中の「restraint a」「restraint b」「restraint c」)が設定される。
設定部32は、膜領域Cの中心領域である膜中心部Zに近い領域ほどペプチドのレプリカの拘束位置の間隔が細かく(又は狭く)なるように設定する。これにより、自由エネルギーの変化が大きいと予測されている膜の中心部におけるレプリカの交換を円滑に行うことが可能となる。その結果、膜内でのペプチドの配座等を効率よくサンプリングすることが可能となる。
REUSシミュレーションでは、レプリカの拘束位置を少しずつ異ならせて設定し、各拘束位置の間においてシミュレーション対象の構造等を相互に交換する。第5実施形態においても、レプリカの拘束位置を少しずつ異ならせた上で、各拘束位置の間においてペプチドの配座を相互に交換する。これにより、各拘束位置において新たな配座のペプチドの発見が期待される。
この点、膜領域Cの中心領域である膜中心部Z付近においては、反応座標zの違いによるペプチドの自由エネルギーの変化が激しい。すなわち、膜中心部Zは、ペプチドが細胞膜を透過する際のいわゆる難所であると考えられている。そこで、第5実施形態では、膜領域Cの中心領域である膜中心部Zに近いほど狭い間隔でレプリカの拘束位置を設定することにより、膜中心部Zの周辺おけるペプチドの配座に関するより多くの情報をシミュレーションに反映させる。
一方、現在のコンピュータにとって、ペプチドの細胞膜透過のシミュレーションは非常に計算コストの高いシミュレーションである。ペプチドのレプリカの個数が多いほど、そのシミュレーションの計算コストは高くなる。このため、第5実施形態のように、レプリカの拘束位置の間隔を単に一定にするのではなく、膜透過性の予測結果への寄与が大きい領域である膜中心部Zに近いほど狭い間隔で拘束位置を設定することにより、計算コストを抑えつつ、精度の良いシミュレーション結果を得ることができる。
そして、シミュレーション部33は、設定部32により設定されたレプリカの拘束位置及び細胞膜周辺の各領域におけるペプチドの一連の初期配座に基づいて、REUSシミュレーションを実行し、その結果をシミュレーション用データ記憶部31に格納する。
エネルギー計算部34は、シミュレーション用データ記憶部31に格納されたREUSシミュレーションの結果に基づいて、反応座標zの各々において、既知の計算式に従って、ペプチドの自由エネルギーG(z)を計算する。具体的には、エネルギー計算部34は、シミュレーション用データ記憶部31に格納されたREUSシミュレーションの結果のうちの膜及びペプチドの相対的な位置座標の情報に基づいて、ペプチドの自由エネルギーG(z)を計算する。
次に、エネルギー計算部34は、REUSシミュレーションを実行した際の反応座標zの各々において、反応座標zの各々において計算されたペプチドの自由エネルギーG(z)のうちの最小値Gminと、反応座標zにおけるペプチドの自由エネルギーG(z)との間の差分ΔG(z)を計算する。
図19に、ペプチドの自由エネルギーG(z)のうちの最小値Gminを説明するための図を示す。図19に示されるように、各反応座標zにおいて自由エネルギーG(z)が計算される。この場合、各反応座標zの自由エネルギーG(z)のうちの最小値Gminは、図19に示されるような値である。
次に、シミュレーション部33は、アンブレラサンプリング手法(Umbrella Sampling)によるシミュレーション(以下、単にUSシミュレーションと称する。)を実行し、そのシミュレーション結果をシミュレーション用データ記憶部31に格納する。具体的には、シミュレーション部33は、シミュレーション用データ記憶部31に格納されている、REUSシミュレーションの結果における最終構造(例えば、一連の初期配座)を用いてアンブレラサンプリングを行うことにより、USシミュレーションの結果を得る。なお、この際のアンブレラサンプリングにおいてはレプリカの交換は実施されない。USシミュレーションの結果には、反応座標zの各々における、ペプチドの重心の位置の分散を表す値var(z)と、各時刻tにおける重心の位置の自己相関を表す値Czz(t)とが含まれる。
なお、シミュレーション部33は、第1溶媒領域Wから膜中心部Zまでの区間のシミュレーションの結果を反転させたものを、膜中心部Zから第2溶媒領域Wまでの区間のシミュレーションの結果としてシミュレーション用データ記憶部31に格納する。
拡散係数計算部35は、シミュレーション用データ記憶部31に格納された、USシミュレーションの結果に基づいて、反応座標zの各々における局所的な拡散係数D(z)を計算する。具体的には、拡散係数計算部35は、反応座標zの各々における、ペプチドの重心の位置の分散を表す値var(z)と、各時刻tにおける重心の位置の自己相関を表す値Czz(t)とに基づいて、以下の式(2)に従って拡散係数D(z)を計算する。
Figure 0007057003000004

(2)
予測部36は、反応座標zの各々において、差分ΔG(z)と反応座標zにおける局所的な拡散係数D(z)とに基づいて、以下の式(3)に従って、ペプチドの反応座標zにおける局所的な抵抗を表す値R(z)を計算する。なお、以下の式におけるβは予め設定される係数である。
Figure 0007057003000005

(3)
そして、予測部36は、反応座標zの各々において計算された局所的な抵抗を表す値R(z)に基づいて、以下の式(4)に従って、ペプチドの膜透過性の予測値Peffを計算する。
Figure 0007057003000006

(4)
上記式におけるz,zは、シミュレーションにおける反応座標zの端部を表す座標である。なお、従来手法(例えば、Siewert-Jan Marrink and Herman J. C. Berendsen, "Simulation of water transport through a lipid membrane", J. Phys. Chem. 1994, 98, 15, 4155-4168を参照)が採用された場合には、zが第1溶媒領域Wとして設定され、zが第2溶媒領域Wとして設定される。
本実施形態の予測部36は、zを自由エネルギーG(z)のうちの最小値Gminに対応する位置の反応座標zとして設定する。そして、予測部36は、zを膜中心部Zとして設定した上で、上記式(4)の右辺を計算することにより膜透過率Pflipを計算する。また、予測部36は、zを第1溶媒領域Wとして設定した上で、上記式(4)の右辺を計算することにより膜透過率Poutを計算する。
そして、予測部36は、膜透過率Pflipと膜透過率Poutのうちの低い方の値を膜透過性の予測値Peffとして予測する。
なお、上記の各シミュレーションは、例えば、以下の参考文献に基づいて実行される。
参考文献1:Yuji Sugita, Akio Kitao, and Yuko Okamoto, "Multidimensional replica-exchange method for free-energy calculations", J. Chem. Phys. 2000, 113, 15, 6042-6051.
次に、第5実施形態の予測装置510の作用について説明する。
第5実施形態の予測装置510は、シミュレーション開始の指示を表す指示信号を受け付けると、図20に示されるシミュレーション処理ルーチンを実行する。
ステップS500において、設定部32は、第1溶媒領域Wから接合点Jo付近に至る区間でのペプチドPの透過をシミュレーションする際のペプチドPの初期配座を第1溶媒領域W中の物質の比誘電率に応じた初期配座として設定する。また、設定部32は、接合点Jo付近から膜中心部Zを充分に越えるまでの区間でのペプチドPの透過をシミュレーションする際のペプチドPの初期配座を膜領域C中の物質の比誘電率に応じた初期配座として設定する。
ステップS502において、シミュレーション部33は、上記ステップS500で設定されたペプチドの初期配座に応じて、第1溶媒領域Wから接合点Jo付近に至る区間までをペプチドPが透過するシミュレーションと、接合点Jo付近から膜中心部Zを充分に越えるまでの区間をペプチドPが透過するシミュレーションとを実行する。そして、シミュレーション部33は、シミュレーションの結果をシミュレーション用データ記憶部31に格納する。なお、シミュレーションの結果には、ペプチドの各領域における一連の初期配座が含まれる。
ステップS504において、設定部32は、上記ステップS502で得られた一連の初期配座を、後述するREUSシミュレーションにて用いる初期配座として設定する。
ステップS506において、設定部32は、REUSシミュレーションを実行する際のペプチドのレプリカの拘束位置の間隔について、膜中心部Zに近い領域ほどペプチドのレプリカの拘束位置の間隔が細かくなるように設定する。
ステップS508において、シミュレーション部33は、上記ステップS504で設定された一連の初期配座と、上記ステップS506で設定されたレプリカの拘束位置とに基づいて、REUSシミュレーションによってペプチドの体内動態のシミュレーションを実行する。そして、シミュレーション部33は、REUSシミュレーションの結果をシミュレーション用データ記憶部31に格納する。
ステップS510において、エネルギー計算部34は、シミュレーション用データ記憶部31に格納されたREUSシミュレーションの結果に基づいて、反応座標zの各々において、既知の計算式に従って、ペプチドの自由エネルギーG(z)を計算する。
ステップS512において、エネルギー計算部34は、シミュレーション用データ記憶部31に格納されたREUSシミュレーションの結果に基づいて、反応座標zの各々において計算されたペプチドの自由エネルギーG(z)のうちの最小値Gminと、反応座標zにおけるペプチドの自由エネルギーG(z)との間の差分ΔG(z)を反応座標zの各々において計算する。
ステップS514において、シミュレーション部33は、上記ステップS508で行われたシミュレーションの結果である一連の最終構造に基づいて、USシミュレーションを実行する。
次に、ステップS516において、拡散係数計算部35は、上記ステップS514で実行されたシミュレーション結果の反応座標zの各々において、USシミュレーションを実行した際のペプチドの重心の位置の分散を表す値var(z)と、各時刻tにおける重心の位置の自己相関を表す値Czz(t)とに基づいて、局所的な拡散係数D(z)を計算する。
ステップS518において、予測部36は、上記ステップS514で実行されたシミュレーション結果の反応座標zの各々において、差分ΔG(z)と反応座標zにおける局所的な拡散係数D(z)とに基づいて、ペプチドの反応座標zにおける局所的な抵抗を表す値R(z)を計算する。
ステップS520において、予測部36は、反応座標zの各々において計算された局所的な抵抗を表す値R(z)に基づいて、ペプチドの膜透過性の予測値を計算する。
ステップS522において、予測部36は、上記ステップS520で計算されたペプチドの膜透過性の予測値を結果として出力する。
以上説明したように、第5実施形態の予測装置は、細胞膜を表す膜領域と、膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過する際のペプチドの膜透過性の予測値を計算する。予測装置は、第1溶媒領域と膜領域と第2溶媒領域とを含む領域におけるペプチドの位置を表し、かつ膜領域の膜表面に対する鉛直軸方向におけるペプチドの位置を表す反応座標zの各々において、ペプチドの自由エネルギーG(z)を計算する。予測装置は、反応座標zの各々において計算されたペプチドの自由エネルギーG(z)のうちの最小値Gminと、反応座標zにおけるペプチドの自由エネルギーG(z)との間の差分ΔG(z)を反応座標zの各々において計算する。また、予測装置は、反応座標zの各々において、差分ΔG(z)と反応座標zにおける局所的な拡散係数D(z)とに基づいて、ペプチドの反応座標zにおける局所的な抵抗を表す値R(z)を計算する。そして、予測装置は、反応座標zの各々において計算された局所的な抵抗を表す値R(z)に基づいて、ペプチドの膜透過性の予測値を計算する。これにより、ペプチドの膜透過性を精度良く予測することができる。従来手法では、細胞膜の外におけるエネルギー基準値に基づいて、各反応座標zにおけるΔG(z)が計算されていた。これに対し、第5実施形態の予測装置は、細胞膜内におけるペプチドの自由エネルギーのうちの最小値Gminを用いて各反応座標zにおけるΔG(z)を計算することにより、細胞膜内のペプチドの動態を精度良くシミュレーションすることができ、ペプチドの膜透過性を精度良く予測することができる。
具体的には、上記図19からもわかるように、ペプチドは膜領域Cに侵入した後、自由エネルギーの最小値Gminに対応する状態となった後に、ペプチドが難所である膜中心部を越えて膜領域を透過するという動態であることが想定される。しかし、従来手法においては、膜領域C外の自由エネルギーの値を基準値としてペプチドの自由エネルギーの変化ΔG(z)が計算されており、ペプチドが安定状態から難所を透過する際の障壁の大きさと膜透過率とが適切に関係付けられていなかった。これに対し、第5実施形態の予測装置では、ペプチドの自由エネルギーG(z)のうちの最小値Gminを用いて自由エネルギーの変化ΔG(z)が計算することにより、ペプチドの膜透過性を精度良く予測することができる。
また、第5実施形態の予測装置は、第1溶媒領域から、第1溶媒領域と膜領域との境界よりも膜中心側に位置する脂質分子の接合点付近に至る区間でのペプチドの透過をシミュレーションする際の、第1溶媒領域中の物質の比誘電率に応じたペプチドの初期配座を設定する。また、予測装置は、接合点付近から、膜領域の中心領域を表す膜中心部の領域を充分に越えるまでの区間でのペプチドの透過をシミュレーションする際の、膜領域中の物質の比誘電率に応じたペプチドの初期配座を設定する。そして、予測装置は、設定されたペプチドの初期配座に応じて、ペプチドの動態をシミュレーションすることにより、ペプチドの膜透過性を予測する。これにより、ペプチドの初期配座を膜領域中の物質の比誘電率に応じた初期配座として設定することができる。その結果、細胞膜内のペプチドの動態を精度良くシミュレーションすることができ、ペプチドの膜透過性を精度良く予測することができる。
また、第5実施形態の予測装置は、ペプチドの透過をレプリカ交換アンブレラサンプリング手法によってシミュレーションする際に、膜領域の中心領域を表す膜中心部に近い領域ほどペプチドの拘束位置の間隔が細かくなるように設定する。そして、予測装置は、設定された拘束位置の間隔に応じて、レプリカ交換アンブレラサンプリング手法によってペプチドの動態をシミュレーションすることにより、ペプチドの膜透過性を予測する。ペプチドの膜透過率の予測結果への寄与が大きい領域である膜中心部に近いほど細かい間隔で拘束位置を設定することにより、計算コストを抑えつつ、精度の良いシミュレーション結果を得ることができ、ペプチドの膜透過性を精度良く予測することができる。
[第6実施形態]
次に、第6実施形態について説明する。第6実施形態の予測装置は、分子動力学シミュレーションによって得られたペプチドの膜透過性の予測値と、機械学習によって構築された学習済みモデルによって得られた膜透過性の予測値とを統合することにより、ペプチドの膜透過性の予測値を計算する点が第1~第5実施形態と異なる。なお、第6実施形態に係る予測装置の構成のうちの第1~第5実施形態の何れかの予測装置と同様の部分は、同一符号を付して説明を省略する。
図21は、第6実施形態に係る予測装置610の構成の一例を示すブロック図である。予測装置610は、機能的には、図21に示されるように、シミュレーション部40と、学習済みモデル記憶部42と、学習済みモデル予測部44と、計算部46とを備えている。
シミュレーション部40は、細胞膜を表す膜領域と、膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過するペプチドの動態をシミュレーションすることにより、ペプチドの膜透過性を表す第1の膜透過性値を生成する。例えば、シミュレーション部40は、第5実施形態の予測装置と同様の手法によってペプチドの膜透過性を表す第1の膜透過性値を生成する。
学習済みモデル記憶部42には、特徴ベクトルからペプチドの膜透過性の予測値を出力するための学習済みモデルが格納されている。例えば、学習済みモデル記憶部42には、上記第1~第4実施形態の何れか1つの予測装置によって生成された学習済みモデルが格納されている。
学習済みモデル予測部44は、膜透過性の予測対象のペプチドから特徴を表す予測用特徴ベクトルを抽出し、予測用特徴ベクトルを、学習済みモデル記憶部42に格納された学習済みモデルへ入力することにより、ペプチドの膜透過性を表す第2の膜透過性値を生成する。
計算部46は、シミュレーション部40によって生成された第1の膜透過性値と、学習済みモデル予測部44により生成された第2の膜透過性値とを統合することにより、ペプチドの膜透過性の予測値を計算する。例えば、計算部46は、第1の膜透過性値と第2の膜透過性値とを平均することにより、ペプチドの膜透過性の予測値を計算する。または、計算部46は、第1の膜透過性値と第2の膜透過性値とのうちの大きい値又は小さい値をペプチドの膜透過性の予測値として計算する。
計算部46は、ペプチドの膜透過性の予測値を結果として出力する。
以上説明したように、第6実施形態の予測装置は、ペプチドの動態をシミュレーションすることにより、ペプチドの膜透過性を表す第1の膜透過性値を生成する。また、予測装置は、ペプチドから特徴を表す予測用特徴ベクトルを抽出し、予測用特徴ベクトルを、予め構築された学習済みモデルへ入力することにより、ペプチドの膜透過性を表す第2の膜透過性値を生成する。そして、予測装置は、生成された第1の膜透過性値と、第2の膜透過性値とを統合することにより、ペプチドの膜透過性の予測値を計算する。これにより、分子動力学シミュレーションによって得られた予測値と学習済みモデルにより得られた予測値との両方が反映された予測値を得ることができる。
[第7実施形態]
次に、第7実施形態について説明する。第7実施形態の予測装置は、分子動力学シミュレーションによって得られたシミュレーション結果のデータに基づいて、機械学習アルゴリズムを用いて学習済みモデルを構築する点が第1~第6実施形態と異なる。なお、第7実施形態に係る予測装置の構成のうちの第1~第6実施形態の何れかの予測装置と同様の部分は、同一符号を付して説明を省略する。
図22は、第7実施形態に係る予測装置710の構成の一例を示すブロック図である。予測装置710は、機能的には、図22に示されるように、シミュレーション部40と、シミュレーション結果記憶部741と、学習用データ生成部715と、学習用データ記憶部716と、学習部718と、学習済みモデル記憶部720とを備えている。
シミュレーション部40は、第6実施形態と同様に、膜領域Cと第1溶媒領域Wと第2溶媒領域Wとを透過するペプチドの動態をシミュレーションする。そして、シミュレーション部40は、シミュレーションにより得られたシミュレーション結果をシミュレーション結果記憶部741へ格納する。なお、シミュレーション結果は、シミュレーション部40によって得られたペプチドの膜透過性の予測値、領域の各箇所の物理量、及び領域の各箇所におけるペプチドの立体配座等である。
シミュレーション結果記憶部741には、シミュレーション部40により得られたシミュレーション結果が格納されている。
学習用データ生成部715は、シミュレーション結果記憶部741に格納されているペプチドの膜透過性の予測値と、領域の各箇所におけるペプチドの立体配座から得られる3D記述子から生成される特徴ベクトルとの対を表すシミュレーション由来学習用データを生成する。なお、領域の各箇所とは、第1溶媒領域W、膜領域C、及び第2溶媒領域W内における、いくつかの代表的な反応座標zに対応する位置に相当する。
具体的には、学習用データ生成部715は、シミュレーション結果に含まれる領域の各箇所におけるペプチドの立体配座から各箇所における3D記述子を得て、それらの3D記述子から単一又は複数の特徴ベクトルを抽出する。そして、学習用データ生成部715は、抽出された特徴ベクトルセットとシミュレーション結果に含まれるペプチドの膜透過性の予測値との対をシミュレーション由来学習用データとして生成し、学習用データ記憶部716へ格納する。
学習用データ記憶部716には、複数のシミュレーション由来学習用データが格納される。
学習部718は、学習用データ記憶部716に格納されたシミュレーション由来学習用データを含む学習用データに基づいて、機械学習アルゴリズムを実行することにより、ペプチドの特徴を表し、かつペプチドの立体配座を表す特徴ベクトルから膜透過性の予測値を出力する学習済みモデルを生成する。そして、学習部718は、学習済みモデルを学習済みモデル記憶部720に格納する。なお、学習用データ記憶部716には、シミュレーション由来学習用データとは異なる学習用データが含まれていても良い。
また、ペプチドの膜透過性の予測値に代えて、シミュレーションが実行されているときの各箇所におけるペプチド及び周辺環境から計算される物理量と、3D記述子から抽出された特徴ベクトルとの組み合わせを学習用データとしてもよい。この場合には、特徴ベクトルからペプチドの物理量を予測するための学習済みモデルが生成される。
以上説明したように、第7実施形態の予測装置は、ペプチドの動態をシミュレーションすることにより、ペプチドの膜透過性を表す膜透過性の予測値を生成する。また、予測装置は、ペプチドの膜透過性の予測値又は各箇所におけるペプチド及び周辺環境から計算される物理量と、各箇所におけるペプチドの立体配座から得られる3D記述子から生成される特徴ベクトルとの対を表すシミュレーション由来学習用データを生成する。そして、予測装置は、シミュレーション由来学習用データを含む学習用データに基づいて、機械学習アルゴリズムを実行することにより、学習済みモデルを生成する。これにより、分子動力学シミュレーションによって得られたデータに基づいて、特徴ベクトルから膜透過性の予測値を出力するための学習済みモデルを得ることができる。
なお、本開示は、上述した実施形態に限定されるものではなく、この開示の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記第1実施形態では、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴ベクトルの各々を抽出し、それら複数の特徴ベクトルを学習済みモデルへ入力し、学習済みモデルから出力された膜透過性の予測値の代表値を得る場合を例に説明したがこれに限定されるものではない。例えば、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴ベクトルの各々から1つの特徴ベクトルを生成し、その1つの特徴ベクトルを学習済みモデルへ入力して、膜透過性の予測値を得るようにしてもよい。この場合には、例えば、複数の特徴ベクトルを重み付き平均することにより、1つの特徴ベクトルが生成される。または、例えば、複数の特徴ベクトルから所定の特徴ベクトルを選択し、選択された複数の特徴ベクトルを重み付き平均することにより、1つの特徴ベクトルが生成される。また、学習済みモデルを生成する際にも、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の学習特徴ベクトルの各々から1つの学習用特徴ベクトルを生成し、その学習用特徴ベクトルを用いて学習済みモデルを生成するようにしてもよい。
また、上記第5実施形態のシミュレーション部33は、設定部32により設定されたレプリカの拘束位置及び細胞膜周辺の各領域におけるペプチドの一連の初期配座に基づいて、REUSシミュレーションを実行する場合を例に説明したが、これに限定されるものではない。例えば、REUSシミュレーションに替えてUSシミュレーション又はMetadynamicsシミュレーション(Alessandro Laio and Michele Parrinello, "Escaping free-energy minima", Proc. Natl. Acad. Sci., 2002, 99, 12562-12566.)を実行するようにしてもよい。
なお、上記第5実施形態では、第1溶媒領域Wから膜中心部Zまでの区間のシミュレーションの結果を反転させて、膜中心部Zから第2溶媒領域Wまでの区間のシミュレーションの結果を得る場合を例に説明したが、これに限定されるものではない。膜中心部Zから第2溶媒領域Wまでのシミュレーションを実際に実行することにより、膜中心部Zから第2溶媒領域Wまでのシミュレーションの結果を得るようにしてもよい。
また、上記実施形態では、学習用データに基づき学習済みモデルが生成される場合を例に説明したがこれに限定されるものではない。例えば、他の学習済みモデルに基づく蒸留モデルとして本実施形態の学習済みモデルが生成されてもよい。
また、上記では本発明に係るプログラムが記憶部(図示省略)に予め記憶(インストール)されている態様を説明したが、本発明に係るプログラムは、CD-ROM、DVD-ROM及びマイクロSDカード等の記録媒体に記録されている形態で提供することも可能である。
なお、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、各処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
また、本実施形態の各処理を、汎用演算処理装置及び記憶装置等を備えたコンピュータ又はサーバ等により構成して、各処理がプログラムによって実行されるものとしてもよい。このプログラムは記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現してもよい。
10,210,310,510,610,710 予測装置
12 データ記憶部
14 学習用抽出部
15 学習用調整部
16,716 学習用データ記憶部
18,718 学習部
20,42,720 学習済みモデル記憶部
22 抽出部
23 調整部
24 生成部
31 シミュレーション用データ記憶部
32 設定部
33,40 シミュレーション部
34 エネルギー計算部
35 拡散係数計算部
36 予測部
44 学習済みモデル予測部
46 計算部
315,715 学習用データ生成部
741 シミュレーション結果記憶部

Claims (31)

  1. 膜透過性の予測対象の環状ペプチドから、前記環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す予測用特徴ベクトルの各々を抽出する抽出部と、
    前記抽出部により抽出された複数の予測用特徴ベクトルを、環状ペプチドの特徴を表す特徴ベクトルからペプチドの膜透過性の予測値を出力するための予め学習された学習済みモデルへ入力することにより、前記予測対象の環状ペプチドの膜透過性の予測値を生成する生成部と、
    を含む予測装置。
  2. 前記生成部は、複数の予測用特徴ベクトルの各々を、前記学習済みモデルへ入力し、前記学習済みモデルから出力された複数の特徴ベクトルの各々に対する前記予測対象の環状ペプチドの膜透過性の予測値の代表値を生成する、
    請求項に記載の予測装置。
  3. 前記抽出部により抽出された予測用特徴ベクトルの長さが、所定長さとなるように調整する調整部を更に含み、
    前記生成部は、前記調整部により長さが調整された複数の予測用特徴ベクトルを、前記学習済みモデルへ入力することにより、前記予測対象の環状ペプチドの膜透過性の予測値を生成する、
    請求項1又は請求項2に記載の予測装置。
  4. 前記調整部は、パディング法又は線形補間法による変換によって、前記予測用特徴ベクトルの長さを調整する、
    請求項3に記載の予測装置。
  5. 複数の学習用の環状ペプチドの各々から、前記学習用の環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す学習用特徴ベクトルを抽出する学習用抽出部と、
    複数の学習用の環状ペプチドの各々について、前記学習用抽出部により抽出された複数の学習用特徴ベクトルと前記学習用の環状ペプチドの膜透過性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済みモデルを生成する学習部と、
    を含む学習済みモデルの生成装置。
  6. 前記学習用抽出部により抽出された、複数の学習用の環状ペプチドの各々に対する学習用特徴ベクトルの各々の長さが、所定長さとなるように調整する学習用調整部を更に含み、
    前記学習部は、前記学習用調整部により長さが調整された前記学習用特徴ベクトルと前記学習用の環状ペプチドの膜透過性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、前記学習済みモデルを生成する、
    請求項5に記載の学習済みモデルの生成装置。
  7. エネルギー計算部、拡散係数計算部、及び予測部を含み、細胞膜を表す膜領域と、前記膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、前記膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過する際のペプチドの膜透過性の予測値を計算する予測装置であって、
    前記エネルギー計算部が、前記第1溶媒領域と前記膜領域と前記第2溶媒領域とを透過する際のペプチドのシミュレーション結果に基づいて、前記第1溶媒領域と前記膜領域と前記第2溶媒領域とを含む領域における前記ペプチドの位置を表し、かつ前記膜領域の膜表面に対する鉛直軸方向における前記ペプチドの位置を表す反応座標zの各々において、前記ペプチドの自由エネルギーG(z)を計算すると共に、反応座標zの各々において計算された前記ペプチドの自由エネルギーG(z)のうちの最小値Gminと、反応座標zにおける前記ペプチドの自由エネルギーG(z)との間の差分ΔG(z)を反応座標zの各々において計算し、
    前記拡散係数計算部が、反応座標zの各々における局所的な拡散係数D(z)を計算し、
    前記予測部が、反応座標zの各々において、前記エネルギー計算部によって計算された前記差分ΔG(z)と前記拡散係数計算部によって計算された局所的な拡散係数D(z)とに基づいて、前記ペプチドの反応座標zにおける局所的な抵抗を表す値R(z)を計算し、反応座標zの各々において計算された前記局所的な抵抗を表す値R(z)に基づいて、前記ペプチドの膜透過性の予測値を計算する、
    予測装置。
  8. 前記予測部は、反応座標zの各々において、アンブレラサンプリングを実行する際のペプチドの重心の位置の分散を表す値var(z)と、各時刻tにおける前記重心の位置の自己相関を表す値Czz(t)とに基づいて、前記局所的な拡散係数D(z)を計算する、
    請求項7に記載の予測装置。
  9. 設定部、シミュレーション部、及び予測部を含み、細胞膜を表す膜領域と、前記膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、前記膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過する際のペプチドの動態をシミュレーションする予測装置であって、
    前記設定部が、前記第1溶媒領域から、前記第1溶媒領域と前記膜領域との境界よりも膜中心側に位置する脂質分子の接合点付近に至る区間での前記ペプチドの透過をシミュレーションする際の、前記第1溶媒領域中の物質の比誘電率に応じた前記ペプチドの初期配座を設定し、
    前記接合点付近から、前記膜領域の中心領域を表す膜中心部の領域を越えるまでの区間での前記ペプチドの透過をシミュレーションする際の、前記膜領域中の物質の比誘電率に応じた前記ペプチドの初期配座を設定し、
    前記シミュレーション部が、前記設定部により設定された前記ペプチドの初期配座に応じて、前記ペプチドの動態をシミュレーションし、
    前記設定部が、前記シミュレーション部によって得られたシミュレーションの結果に基づいて、アンブレラサンプリング手法における各領域の一連の初期配座を設定し、
    前記シミュレーション部が、前記設定部によって設定された各領域の一連の初期配座に基づいて、アンブレラサンプリング手法に従って前記ペプチドの動態をシミュレーションし、
    前記予測部が、前記シミュレーション部によって得られた、アンブレラサンプリング手法に基づくシミュレーションの結果に基づいて、前記ペプチドの膜透過性を予測する、
    予測装置。
  10. 設定部、シミュレーション部、及び予測部を含み、細胞膜を表す膜領域と、前記膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、前記膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過する際のペプチドの動態をシミュレーションする予測装置であって、
    前記設定部が、前記ペプチドの透過をアンブレラサンプリング手法によってシミュレーションする際に、前記膜領域の中心領域を表す膜中心部に近い領域ほど前記ペプチドの拘束位置の間隔が細かくなるように設定し、
    前記シミュレーション部が、前記設定部により設定された前記拘束位置の間隔に応じて、アンブレラサンプリング手法によって前記ペプチドの動態をシミュレーションし、
    前記予測部が、前記シミュレーション部によって得られたシミュレーションの結果に基づいて、前記ペプチドの膜透過性を予測する、
    予測装置。
  11. 細胞膜を表す膜領域と、前記膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、前記膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過するペプチドの動態をシミュレーションすることにより、前記ペプチドの膜透過性を表す第1の膜透過性値を生成するシミュレーション部と、
    前記ペプチドから特徴を表す予測用特徴ベクトルを抽出し、前記予測用特徴ベクトルを、予め機械学習された学習済みモデルへ入力することにより、前記ペプチドの膜透過性を表す第2の膜透過性値を生成する学習済みモデル予測部と、
    前記シミュレーション部によって生成された前記第1の膜透過性値と、前記学習済みモデル予測部により生成された前記第2の膜透過性値とを統合することにより、前記ペプチドの膜透過性の予測値を計算する計算部と、
    を含む予測装置。
  12. 細胞膜を表す膜領域と、前記膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、前記膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過するペプチドの動態をシミュレーションすることにより、前記ペプチドの膜透過性を表す膜透過性の予測値を生成するシミュレーション部と、
    前記シミュレーション部によって得られたペプチドの膜透過性の予測値と、各箇所における前記ペプチドの立体配座から得られる3D記述子から生成される特徴ベクトルとの対を表すシミュレーション由来学習用データを生成する学習用データ生成部と、
    前記学習用データ生成部により生成された前記シミュレーション由来学習用データを含む学習用データに基づいて、機械学習アルゴリズムを実行することにより、前記特徴ベクトルから前記膜透過性の予測値を出力する学習済みモデルを生成する学習部と、
    を含む学習済みモデルの生成装置。
  13. 複数の学習用の環状ペプチドの各々から特徴を表す第1学習用特徴ベクトルを抽出する学習用抽出部と、
    前記学習用抽出部により抽出された前記第1学習用特徴ベクトルの各々に対して、前記第1学習用特徴ベクトルの要素を巡回シフトさせることにより複数の第2学習用特徴ベクトルを生成し、前記第1学習用特徴ベクトル及び複数の前記第2学習用特徴ベクトルと学習用の環状ペプチドの膜透過性の正解値との対を表す学習用データを生成する学習用データ生成部と、
    前記学習用データ生成部により生成された複数の学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済みモデルを生成する学習部と、
    を含む学習済みモデルの生成装置。
  14. 膜透過性の予測対象の環状ペプチドから特徴を表す予測用特徴ベクトルを抽出する抽出部と、
    前記抽出部により抽出された前記予測用特徴ベクトルを、請求項13に記載の学習済みモデルの生成装置によって生成された学習済みモデルへ入力することにより、前記予測対象の環状ペプチドの膜透過性の予測値を生成する生成部と、
    を含む予測装置。
  15. 複数の学習用の環状ペプチドの各々から抽出された特徴を表す学習用特徴ベクトルと複数の学習用の環状ペプチドの膜透過性の正解値との対を表す学習用データに基づいて、前記学習用特徴ベクトルの両端の要素を隣接させる両端隣接層を有する畳み込みニューラルネットワークモデルを用いて機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルを生成する学習部と、
    を含む学習済みモデルの生成装置。
  16. 膜透過性の予測対象の環状ペプチドから特徴を表す予測用特徴ベクトルを抽出する抽出部と、
    前記抽出部により抽出された前記予測用特徴ベクトルを、環状ペプチドの特徴を表す特徴ベクトルの両端の要素を隣接させる両端隣接層を有する学習済み畳み込みニューラルネットワークモデルであって、かつ前記特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルへ入力することにより、前記予測対象の環状ペプチドの膜透過性の予測値を生成する生成部と、
    を含む予測装置。
  17. 膜透過性の予測対象の環状ペプチドから、前記環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す予測用特徴ベクトルの各々を抽出し、
    抽出された複数の予測用特徴ベクトルを、環状ペプチドの特徴を表す特徴ベクトルからペプチドの膜透過性の予測値を出力するための予め学習された学習済みモデルへ入力することにより、前記予測対象の環状ペプチドの膜透過性の予測値を生成する、
    処理をコンピュータが実行する予測方法。
  18. 抽出された前記予測用特徴ベクトルの長さが、所定長さとなるように調整し、
    長さが調整された前記予測用特徴ベクトルを、前記学習済みモデルへ入力することにより、前記予測対象の環状ペプチドの膜透過性の予測値を生成する、
    請求項17に記載の予測方法。
  19. 複数の学習用の環状ペプチドの各々から、前記学習用の環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す学習用特徴ベクトルを抽出し、
    複数の学習用の環状ペプチドの各々について、抽出された複数の学習用特徴ベクトルと前記学習用の環状ペプチドの膜透過性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済みモデルを生成する、
    処理をコンピュータが実行する学習済みモデルの生成方法。
  20. 抽出された、複数の学習用の環状ペプチドの各々に対する学習用特徴ベクトルの各々の長さが、所定長さとなるように調整し、
    長さが調整された前記学習用特徴ベクトルと前記学習用の環状ペプチドの膜透過性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、前記学習済みモデルを生成する、
    請求項19に記載の学習済みモデルの生成方法。
  21. 細胞膜を表す膜領域と、前記膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、前記膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過する際のペプチドの膜透過性の予測値を計算する予測方法であって、
    前記第1溶媒領域と前記膜領域と前記第2溶媒領域とを透過する際のペプチドのシミュレーション結果に基づいて、前記第1溶媒領域と前記膜領域と前記第2溶媒領域とを含む領域における前記ペプチドの位置を表し、かつ前記膜領域の膜表面に対する鉛直軸方向における前記ペプチドの位置を表す反応座標zの各々において、前記ペプチドの自由エネルギーG(z)を計算すると共に、反応座標zの各々において計算された前記ペプチドの自由エネルギーG(z)のうちの最小値Gminと、反応座標zにおける前記ペプチドの自由エネルギーG(z)との間の差分ΔG(z)を反応座標zの各々において計算し、
    反応座標zの各々における局所的な拡散係数D(z)を計算し、
    反応座標zの各々において、計算された前記差分ΔG(z)と計算された局所的な拡散係数D(z)とに基づいて、前記ペプチドの反応座標zにおける局所的な抵抗を表す値R(z)を計算し、反応座標zの各々において計算された前記局所的な抵抗を表す値R(z)に基づいて、前記ペプチドの膜透過性の予測値を計算する、
    処理をコンピュータが実行する予測方法。
  22. 細胞膜を表す膜領域と、前記膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、前記膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過する際のペプチドの動態をシミュレーションする予測方法であって、
    前記第1溶媒領域から、前記第1溶媒領域と前記膜領域との境界よりも膜中心側に位置する脂質分子の接合点付近に至る区間での前記ペプチドの透過をシミュレーションする際の、前記第1溶媒領域中の物質の比誘電率に応じた前記ペプチドの初期配座を設定し、
    前記接合点付近から、前記膜領域の中心領域を表す膜中心部の領域を越えるまでの区間での前記ペプチドの透過をシミュレーションする際の、前記膜領域中の物質の比誘電率に応じた前記ペプチドの初期配座を設定し、
    設定された前記ペプチドの初期配座に応じて、前記ペプチドの動態をシミュレーションし、
    得られたシミュレーションの結果に基づいて、アンブレラサンプリング手法における各領域の一連の初期配座を設定し、
    設定された各領域の一連の初期配座に基づいて、アンブレラサンプリング手法に従って前記ペプチドの動態をシミュレーションし、
    アンブレラサンプリング手法に基づくシミュレーションの結果に基づいて、前記ペプチドの膜透過性を予測する、
    処理をコンピュータが実行する予測方法。
  23. 細胞膜を表す膜領域と、前記膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、前記膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過する際のペプチドの動態をシミュレーションする予測方法であって、
    前記ペプチドの透過をアンブレラサンプリング手法によってシミュレーションする際に、前記膜領域の中心領域を表す膜中心部に近い領域ほど前記ペプチドの拘束位置の間隔が細かくなるように設定し、
    設定された前記拘束位置の間隔に応じて、アンブレラサンプリング手法によって前記ペプチドの動態をシミュレーションし、
    シミュレーションの結果に基づいて、前記ペプチドの膜透過性を予測する、
    処理をコンピュータが実行する予測方法。
  24. 細胞膜を表す膜領域と、前記膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、前記膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過するペプチドの動態をシミュレーションすることにより、前記ペプチドの膜透過性を表す第1の膜透過性値を生成し、
    前記ペプチドから特徴を表す予測用特徴ベクトルを抽出し、前記予測用特徴ベクトルを、予め機械学習された学習済みモデルへ入力することにより、前記ペプチドの膜透過性を表す第2の膜透過性値を生成し、
    生成された前記第1の膜透過性値と、生成された前記第2の膜透過性値とを統合することにより、前記ペプチドの膜透過性の予測値を計算する、
    処理をコンピュータが実行する予測方法。
  25. 細胞膜を表す膜領域と、前記膜領域の一方側と隣接する溶媒を表す第1溶媒領域と、前記膜領域の他方側と隣接する溶媒を表す第2溶媒領域とを透過するペプチドの動態をシミュレーションすることにより、前記ペプチドの膜透過性を表す膜透過性の予測値を生成し、
    得られたペプチドの膜透過性の予測値と、各箇所における前記ペプチドの立体配座から得られる3D記述子から生成される特徴ベクトルとの対を表すシミュレーション由来学習用データを生成し、
    生成された前記シミュレーション由来学習用データを含む学習用データに基づいて、機械学習アルゴリズムを実行することにより、前記特徴ベクトルから前記膜透過性の予測値を出力する学習済みモデルを生成する、
    処理をコンピュータが実行する学習済みモデルの生成方法。
  26. 複数の学習用の環状ペプチドの各々から特徴を表す第1学習用特徴ベクトルを抽出し、
    抽出された前記第1学習用特徴ベクトルの各々に対して、前記第1学習用特徴ベクトルの要素を巡回シフトさせることにより複数の第2学習用特徴ベクトルを生成し、前記第1学習用特徴ベクトル及び複数の前記第2学習用特徴ベクトルと学習用の環状ペプチドの膜透過性の正解値との対を表す学習用データを生成し、
    生成された複数の学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済みモデルを生成する、
    処理をコンピュータが実行する学習済みモデルの生成方法。
  27. 膜透過性の予測対象の環状ペプチドから特徴を表す予測用特徴ベクトルを抽出する抽出部と、
    前記抽出部により抽出された前記予測用特徴ベクトルを、請求項26に記載の学習済みモデルの生成方法によって生成された学習済みモデルへ入力することにより、前記予測対象の環状ペプチドの膜透過性の予測値を生成する、
    処理をコンピュータが実行する予測方法。
  28. 複数の学習用の環状ペプチドの各々から抽出された特徴を表す学習用特徴ベクトルと複数の学習用の環状ペプチドの膜透過性の正解値との対を表す学習用データに基づいて、前記学習用特徴ベクトルの両端の要素を隣接させる両端隣接層を有する畳み込みニューラルネットワークモデルを用いて機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルを生成する、
    処理をコンピュータが実行する学習済みモデルの生成方法。
  29. 膜透過性の予測対象の環状ペプチドから特徴を表す予測用特徴ベクトルを抽出し、
    抽出された前記予測用特徴ベクトルを、環状ペプチドの特徴を表す特徴ベクトルの両端の要素を隣接させる両端隣接層を有する学習済み畳み込みニューラルネットワークモデルであって、かつ前記特徴ベクトルから環状ペプチドの膜透過性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルへ入力することにより、前記予測対象の環状ペプチドの膜透過性の予測値を生成する、
    処理をコンピュータが実行する予測方法。
  30. 請求項17、請求項18、請求項21、請求項22、請求項23、請求項24、請求項27、及び請求項29の何れか1項に記載の予測方法の処理をコンピュータに実行させるための予測プログラム。
  31. 請求項19、請求項20、請求項25、請求項26、及び請求項28の何れか1項に記載の学習済みモデルの生成方法の処理をコンピュータに実行させるための学習済みモデルの生成プログラム。
JP2021031234A 2021-02-26 2021-02-26 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム Active JP7057003B1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2021031234A JP7057003B1 (ja) 2021-02-26 2021-02-26 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム
CN202210043122.3A CN115050424A (zh) 2021-02-26 2022-01-14 预测装置、生成装置、预测方法、生成方法和记录介质
EP22151777.4A EP4102506A1 (en) 2021-02-26 2022-01-17 Prediction device, trained model generation device, prediction method, and trained model generation method
US17/577,507 US20220277224A1 (en) 2021-02-26 2022-01-18 Prediction device, trained model generation device, prediction method, and trained model generation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021031234A JP7057003B1 (ja) 2021-02-26 2021-02-26 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム

Publications (2)

Publication Number Publication Date
JP7057003B1 true JP7057003B1 (ja) 2022-04-19
JP2022131959A JP2022131959A (ja) 2022-09-07

Family

ID=79687180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021031234A Active JP7057003B1 (ja) 2021-02-26 2021-02-26 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム

Country Status (4)

Country Link
US (1) US20220277224A1 (ja)
EP (1) EP4102506A1 (ja)
JP (1) JP7057003B1 (ja)
CN (1) CN115050424A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024043251A1 (ja) * 2022-08-23 2024-02-29 富士フイルム株式会社 環状ペプチドの細胞膜透過性の予測方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225120A (ja) * 2009-03-25 2010-10-07 Nec Corp 事例検索システム、事例検索方法および事例検索プログラム
US20150015569A1 (en) * 2013-07-15 2015-01-15 Samsung Electronics Co., Ltd. Method and apparatus for processing depth image
CN111401534A (zh) * 2020-04-29 2020-07-10 北京晶派科技有限公司 一种蛋白质性能预测方法、装置和计算设备
JP2020166747A (ja) * 2019-03-29 2020-10-08 株式会社カネカ 細胞膜透過性天然ペプチドの探索方法
CN112151109A (zh) * 2020-09-09 2020-12-29 中国科学院大连化学物理研究所 用于评价生物分子交联质谱鉴定随机性的半监督学习方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002354462A1 (en) 2001-12-10 2003-07-09 Fujitsu Limited Apparatus for predicting stereostructure of protein and prediction method
JP6558754B2 (ja) 2015-08-07 2019-08-14 富士通株式会社 情報処理装置、指標次元抽出方法、および指標次元抽出プログラム
BR112019021782A2 (pt) 2017-04-19 2020-08-18 Gritstone Oncology, Inc. identificação, fabricação e uso de neoantígenos
US20200105377A1 (en) 2017-06-09 2020-04-02 Gritstone Oncology, Inc. Neoantigen identification, manufacture, and use
JP2021031234A (ja) 2019-08-26 2021-03-01 株式会社関電工 盤起立治具及び当該治具を用いた盤起立方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225120A (ja) * 2009-03-25 2010-10-07 Nec Corp 事例検索システム、事例検索方法および事例検索プログラム
US20150015569A1 (en) * 2013-07-15 2015-01-15 Samsung Electronics Co., Ltd. Method and apparatus for processing depth image
JP2020166747A (ja) * 2019-03-29 2020-10-08 株式会社カネカ 細胞膜透過性天然ペプチドの探索方法
CN111401534A (zh) * 2020-04-29 2020-07-10 北京晶派科技有限公司 一种蛋白质性能预测方法、装置和计算设备
CN112151109A (zh) * 2020-09-09 2020-12-29 中国科学院大连化学物理研究所 用于评价生物分子交联质谱鉴定随机性的半监督学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
松山 祐輔,薬剤活性予測の改良のための化合物フィンガープリントの比較解析,情報処理学会 研究報告 バイオ情報学(BIO) 2017-BIO-49 [online] ,日本,情報処理学会,2017年03月16日,p.1-7,ISSN:2188-8590
松山 祐輔: "薬剤活性予測の改良のための化合物フィンガープリントの比較解析", 情報処理学会 研究報告 バイオ情報学(BIO) 2017−BIO−49 [ONLINE], JPN6021045944, 16 March 2017 (2017-03-16), JP, pages 1 - 7, ISSN: 0004646516 *

Also Published As

Publication number Publication date
JP2022131959A (ja) 2022-09-07
EP4102506A1 (en) 2022-12-14
CN115050424A (zh) 2022-09-13
US20220277224A1 (en) 2022-09-01

Similar Documents

Publication Publication Date Title
Hashemifar et al. Predicting protein–protein interactions through sequence-based deep learning
Chiavazzo et al. Intrinsic map dynamics exploration for uncharted effective free-energy landscapes
Li et al. RNA3DCNN: Local and global quality assessments of RNA 3D structures using 3D deep convolutional neural networks
Higham et al. Fitting a geometric graph to a protein–protein interaction network
CN112289369B (zh) 一种基于深度学习的抗体库构建方法及装置
Gligorijević et al. Function-guided protein design by deep manifold sampling
Huang et al. Constructing multi-resolution Markov state models (MSMs) to elucidate RNA hairpin folding mechanisms
WO2012094655A2 (en) Deductive multiscale simulation using order parameters
Wang et al. Nonlinear machine learning in simulations of soft and biological materials
Cheng et al. Swfoldrate: predicting protein folding rates from amino acid sequence with sliding window method
Pan et al. Stitchable neural networks
JP7057003B1 (ja) 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム
CN114207729A (zh) 材料特性预测系统以及材料特性预测方法
Si et al. Improved protein contact prediction using dimensional hybrid residual networks and singularity enhanced loss function
EP4272216A1 (en) Protein structure prediction
Kalemati et al. CapsNet-MHC predicts peptide-MHC class I binding based on capsule neural networks
Li et al. ProSTAGE: predicting effects of mutations on protein stability by using protein embeddings and graph convolutional networks
EP3809415A1 (en) Word embedding method and apparatus, and word search method
JP7057004B1 (ja) 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム
CN117095753A (zh) 一种蛋白质稳定性预测方法及网络app
Knight et al. Coarse-graining away electronic structure: a rigorous route to accurate condensed phase interaction potentials
Valentin et al. Formulation of probabilistic models of protein structure in atomic detail using the reference ratio method
Shenker et al. Efficient traversal of beta-sheet protein folding pathways using ensemble models
WO2019198408A1 (ja) 学習装置、学習方法、及び学習プログラム
Orkoulas Spatial updating Monte Carlo algorithms in particle simulations

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20210305

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210810

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220331

R150 Certificate of patent or registration of utility model

Ref document number: 7057003

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350