JP7057004B1 - 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム - Google Patents

予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム Download PDF

Info

Publication number
JP7057004B1
JP7057004B1 JP2021035648A JP2021035648A JP7057004B1 JP 7057004 B1 JP7057004 B1 JP 7057004B1 JP 2021035648 A JP2021035648 A JP 2021035648A JP 2021035648 A JP2021035648 A JP 2021035648A JP 7057004 B1 JP7057004 B1 JP 7057004B1
Authority
JP
Japan
Prior art keywords
learning
peptide
predicted
feature vector
trained model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021035648A
Other languages
English (en)
Other versions
JP2022135688A (ja
Inventor
泰 秋山
雅史 大上
渓甫 柳澤
寧 吉川
佳男 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Institute of Technology NUC
Original Assignee
Tokyo Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Institute of Technology NUC filed Critical Tokyo Institute of Technology NUC
Priority to JP2021035648A priority Critical patent/JP7057004B1/ja
Priority to US17/577,527 priority patent/US20220284987A1/en
Priority to EP22159146.4A priority patent/EP4102507A1/en
Application granted granted Critical
Publication of JP7057004B1 publication Critical patent/JP7057004B1/ja
Publication of JP2022135688A publication Critical patent/JP2022135688A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K7/00Peptides having 5 to 20 amino acids in a fully defined sequence; Derivatives thereof
    • C07K7/04Linear peptides containing only normal peptide links
    • C07K7/08Linear peptides containing only normal peptide links having 12 to 20 amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Organic Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Genetics & Genomics (AREA)
  • Library & Information Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】ペプチドの体内持続性を予測する。【解決手段】予測装置10は、体内持続性の予測対象の環状ペプチドから当該環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す予測用特徴ベクトルの各々を抽出する。予測装置10は、複数の予測用特徴ベクトルを、環状ペプチドの特徴を表す特徴ベクトルからペプチドの体内持続性の予測値を出力するための予め学習された学習済みモデルへ入力することにより、予測対象の環状ペプチドの体内持続性の予測値を生成する。【選択図】図1

Description

特許法第30条第2項適用 令和2年3月5日 https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=203873&item_no=1&page_id=13&block_id=8にて公開
特許法第30条第2項適用 令和2年3月12日 第61回BIO研究発表会にて公開
本開示は、予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラムに関する。
特許文献1には、生体高分子の構造解析において、次元集合に含まれるすべての指標次元それぞれを座標軸とする多次元空間において複数の構造のクラスタリングを行い、いずれのクラスタにも含まれないはずれ値となった構造を初期構造とする分子動力学シミュレーションを行うことが開示されている(例えば、請求項4)。
特許文献2には、タンパク質の立体構造を予測するタンパク質立体構造予測プログラムが開示されている。このタンパク質立体構造予測プログラムを実行するコンピュータは、タンパク質のアミノ酸配列を読み込み、2次構造情報を予測する。次に、このコンピュータは、2次構造情報に基づいてターンを形成するアミノ酸の個数を算出し、算出されたアミノ酸の個数と2次構造情報とによって、存在確率の高いターンのターン構造情報を取得してターンを予測再現し、タンパク質の立体構造を予測する。
また、特許文献3には、新生抗原のセットのそれぞれのペプチド配列を、機械学習させた提示モデルに入力することにより、患者についての新生抗原のセットについての数値的提示尤度のセットをそれぞれの患者について生成する方法が開示されている(例えば、請求項1)。
また、特許文献4には、コンピュータのプロセッサを使用してペプチドの数値ベクトルをディープラーニング提示モデルに入力して、新生抗原のセットについての提示尤度のセットを生成する方法が開示されている(例えば、請求項1)。
特開2017-37378号公報 国際公開第2003/054743号 特表2020-523010号公報 特表2020-519246号公報
ところで、近年、中分子医薬の一つとしてペプチド医薬が注目されている。しかし、ペプチドの体内動態については不明な点が多い。特に、体内におけるペプチドの持続性(以下、単に「体内持続性」と称する)は、ペプチドが医薬品として採用される際の重要な要素である。このため、医薬として採用され得るペプチドがどの程度の体内持続性を有しているのか、といったことを精度良く予測することが求められている。
この体内持続性は、アルブミンをはじめとする血漿中のタンパク質とペプチドとの間の結合率を表す血漿タンパク結合(Plasma Protein Binding:PPB)率が支配的な要素である。従来の低分子創薬においては、血漿タンパク結合率が高くなり過ぎないように薬剤の脂溶性を抑えることが主な課題であった。一方、ペプチド創薬においてはペプチドの血漿タンパク結合率が低く、好ましい体内持続性を保てないケースも多くみられるなど、従来の低分子創薬における体内持続性予測とは異なる課題が生じている。
上記特許文献1~4に開示されている技術は、生体高分子の分子動力学シミュレーションを実行する技術、コンピュータによってタンパク質の立体構造を予測する技術、及び新生抗原に対して有効なペプチドを予測する技術であり、ペプチドの体内持続性を予測するものではない。このため、上記特許文献1~4の技術は、ペプチドの体内持続性を予測することはできない、という課題がある。
本開示は上記事実を考慮して、ペプチドの体内持続性を予測することを目的とする。
本開示の第1の態様の予測装置、予測方法、及び予測プログラムは、体内持続性の予測対象のペプチドから特徴を表す予測用特徴ベクトルを抽出し、抽出された前記予測用特徴ベクトルの長さが、所定長さとなるように調整し、長さが調整された前記予測用特徴ベクトルを、ペプチドの特徴を表す特徴ベクトルからペプチドの体内持続性の予測値を出力するための予め学習された学習済みモデルへ入力することにより、前記予測対象のペプチドの体内持続性の予測値を生成する。
本開示の第2の態様の学習済みモデルの生成装置、学習済みモデルの生成方法、及び学習済みモデルの生成プログラムは、複数の学習用のペプチドの各々から特徴を表す学習用特徴ベクトルを抽出し、抽出された、複数の学習用のペプチドの各々に対する学習用特徴ベクトルの各々の長さが、所定長さとなるように調整し、長さが調整された前記学習用特徴ベクトルと前記学習用のペプチドの体内持続性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、ペプチドの特徴を表す特徴ベクトルからペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する。
本開示の第3の態様の予測装置、予測方法、及び予測プログラムは、体内持続性の予測対象の環状ペプチドから、前記環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す予測用特徴ベクトルの各々を抽出し、抽出された複数の予測用特徴ベクトルを、環状ペプチドの特徴を表す特徴ベクトルからペプチドの体内持続性の予測値を出力するための予め学習された学習済みモデルへ入力することにより、前記予測対象の環状ペプチドの体内持続性の予測値を生成する。
本開示の第4の態様の学習済みモデルの生成装置、学習済みモデルの生成方法、及び学習済みモデルの生成プログラムは、複数の学習用の環状ペプチドの各々から、前記学習用の環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す学習用特徴ベクトルを抽出し、複数の学習用の環状ペプチドの各々について、抽出された複数の学習用特徴ベクトルと前記学習用の環状ペプチドの体内持続性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する。
本開示の第5の態様の学習済みモデルの生成装置、学習済みモデルの生成方法、及び学習済みモデルの生成プログラムは、複数の学習用の環状ペプチドの各々から特徴を表す第1学習用特徴ベクトルを抽出し、抽出された前記第1学習用特徴ベクトルの各々に対して、前記第1学習用特徴ベクトルの要素を巡回シフトさせることにより複数の第2学習用特徴ベクトルを生成し、前記第1学習用特徴ベクトル及び複数の前記第2学習用特徴ベクトルと学習用の環状ペプチドの体内持続性の正解値との対を表す学習用データを生成し、生成された複数の学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する
本開示の第6の態様の予測装置、予測方法、及び予測プログラムは、体内持続性の予測対象の環状ペプチドから特徴を表す予測用特徴ベクトルを抽出し、抽出された前記予測用特徴ベクトルを、第5の態様の学習済みモデルの生成装置、学習済みモデルの生成方法、及び学習済みモデルの生成プログラムによって生成された学習済みモデルへ入力することにより、前記予測対象のペプチドの体内持続性の予測値を生成する。
本開示の第7の態様の学習済みモデルの生成装置、学習済みモデルの生成方法、及び学習済みモデルの生成プログラムは、複数の学習用の環状ペプチドの各々から抽出された特徴を表す学習用特徴ベクトルと複数の学習用の環状ペプチドの体内持続性の正解値との対を表す学習用データに基づいて、前記学習用特徴ベクトルの両端の要素を隣接させる両端隣接層を有する畳み込みニューラルネットワークモデルを用いて機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルを生成する。
本開示の第8の態様の予測装置、予測方法、及び予測プログラムは、体内持続性の予測対象の環状ペプチドから特徴を表す予測用特徴ベクトルを抽出し、抽出された前記予測用特徴ベクトルを、環状ペプチドの特徴を表す特徴ベクトルの両端の要素を隣接させる両端隣接層を有する学習済み畳み込みニューラルネットワークモデルであって、かつ前記特徴ベクトルからペプチドの体内持続性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルへ入力することにより、前記予測対象のペプチドの体内持続性の予測値を生成する。
本開示の第9の態様の予測装置、予測方法、及び予測プログラムは、体内持続性の予測対象のペプチドが取りうる配座を複数生成し、所定の選定基準に基づいて、生成された複数の配座から、ドッキング計算を行う対象の配座を選定し、選定された配座に対応する予測対象のペプチドと血漿タンパク質との間においてドッキング計算を行うことにより、前記予測対象のペプチドの体内持続性の予測値を予測する。
本開示の第10の態様の予測装置、予測方法、及び予測プログラムは、体内持続性の予測対象のペプチドと血漿タンパク質との間のドッキング計算を行うことにより、前記ペプチドの体内持続性を表す第1の体内持続性の予測値を計算し、前記予測対象のペプチドから抽出される特徴ベクトルを、機械学習アルゴリズムにより予め生成された学習済みモデルへ入力することにより、前記ペプチドの体内持続性を表す第2の体内持続性の予測値を生成し、生成された前記第1の体内持続性の予測値と、生成された前記第2の体内持続性の予測値とを統合することにより、前記ペプチドの体内持続性の予測値を計算する。
本開示の第11の態様の予測装置、予測方法、及び予測プログラムは、体内持続性の予測対象のペプチドと血漿タンパク質との間のドッキング計算を行うことにより、前記ペプチドと前記血漿タンパク質との間のドッキングスコアを含むドッキングプロファイルを計算し、計算された前記ドッキングプロファイルを含む予測用特徴ベクトルを、機械学習アルゴリズムにより予め生成された学習済みモデルへ入力することにより、前記予測対象のペプチドの体内持続性の予測値を生成する。
本開示の第12の態様の学習済みモデルの生成装置、学習済みモデルの生成方法、及び学習済みモデルの生成プログラムは、複数の学習用のペプチドと血漿タンパク質との間のドッキング計算を行うことにより、前記学習用のペプチドのドッキングスコアを含むドッキングプロファイルである学習用のドッキングプロファイルを計算し、複数の前記学習用のペプチドの各々について、計算された学習用のドッキングプロファイルを含む学習用特徴ベクトルと前記学習用のペプチドの体内持続性の正解値との対を表す学習用データに基づいて、機械学習アルゴリズムを実行することにより、ペプチドのドッキング計算により得られるドッキングプロファイルを含む特徴ベクトルから、ペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する。
本開示の第13の態様の予測装置、予測方法、及び予測プログラムは、体内持続性の予測対象のペプチドから特徴量を抽出し、前記予測対象のペプチドが有する残基の種類を特定し、複数種類の残基の各々について前記残基のドッキング計算結果が記憶された記憶部から、特定された前記残基の種類に対応するドッキング計算結果を読み出し、読み出した前記予測対象の残基のドッキング計算結果と、抽出された特徴量とを含む予測用特徴ベクトルを、機械学習アルゴリズムにより予め生成された学習済みモデルへ入力することにより、前記ペプチドの体内持続性を予測する。
本開示によれば、ペプチドの体内持続性を予測することができる、という効果が得られる。
第1実施形態に係る予測装置を示すブロック図である。 データ記憶部12に格納されるデータの一例を示す図である。 環状ペプチドを説明するための図である。 環状ペプチドの構造を説明するための図である。 学習用データ記憶部16に格納される学習用データの一例を示す図である。 学習済みモデルを説明するための図である。 第1実施形態に係る予測装置を実現するコンピュータを示す図である。 第1実施形態に係る予測装置において実行される学習済みモデルの生成処理ルーチンの一例を示す図である。 第1実施形態に係る予測装置において実行される予測処理ルーチンの一例を示す図である。 第2実施形態に係る予測装置を示すブロック図である。 第2実施形態に係る予測装置において実行される学習済みモデルの生成処理ルーチンの一例を示す図である。 第2実施形態に係る予測装置において実行される予測処理ルーチンの一例を示す図である。 第3実施形態に係る予測装置を示すブロック図である。 第2学習用特徴ベクトルの生成を説明するための図である。 従来の畳み込みニューラルネットワークモデルの構成図である。 第4実施形態の畳み込みニューラルネットワークモデルの構成図である。 ペプチドと血漿タンパク質との結合の様子を表す図である。 ペプチドと血漿タンパク質との結合の様子を表す図である。 第5実施形態に係る予測装置を示すブロック図である。 第5実施形態に係る予測装置において実行される予測処理ルーチンの一例を示す図である。 第6実施形態に係る予測装置を示すブロック図である。 第7実施形態に係る予測装置を示すブロック図である。 第7実施形態に係る予測装置において実行される学習済みモデルの生成処理ルーチンの一例を示す図である。 第7実施形態に係る予測装置において実行される予測処理ルーチンの一例を示す図である。 第8実施形態に係る予測装置を示すブロック図である。 第8実施形態に係る予測装置において実行される予測処理ルーチンの一例を示す図である。
以下、図面を参照して本発明の実施形態を詳細に説明する。
[第1実施形態]
図1は、第1実施形態に係る予測装置10の構成の一例を示すブロック図である。予測装置10は、機能的には、図1に示されるように、データ記憶部12と、学習用抽出部14と、学習用データ記憶部16と、学習部18と、学習済みモデル記憶部20と、抽出部22と、生成部24とを備えている。
本実施形態の予測装置10は、環状ペプチドの体内持続性を予測する。
データ記憶部12には、学習用の環状ペプチドを表す学習用のペプチド情報と、学習用の環状ペプチドの体内持続性の正解値とが対応付けられて格納されている。なお、ペプチド情報は、ペプチドの構造式、ペプチドのSMILES表記、ペプチドの一次構造、ペプチドの二次構造、ペプチドの三次構造、及びペプチドの四次構造のうちの少なくとも1つの情報が含まれている情報である。
学習用の環状ペプチドの体内持続性の正解値は、例えば、学習用の環状ペプチドに対して既知の実験を行うことにより得られるデータである。図2に、データ記憶部12に格納されるデータの一例を示す。図2に示されるように、学習用のペプチド情報と、当該学習用の環状ペプチドの体内持続性の正解値とが対応付けられてデータ記憶部12に格納される。
学習用抽出部14は、データ記憶部12に格納されている複数の学習用のペプチド情報の各々から、環状ペプチドの特徴を表す学習用特徴ベクトルを抽出する。なお、特徴ベクトルは、既知の手法によってペプチド情報から抽出される。
図3A及び図3Bに環状ペプチドの構造を説明するための図を示す。図3Aは環状ペプチドの一例を示す図である。図3Aに示されるように、環状ペプチドは複数の残基を備えており、それらの残基によって環が形成されている。また、図3Bは、環状ペプチドの構成を模式的に表した図である。図3Bに示されるような環状ペプチドから、環状ペプチド全体の特徴ベクトル及び残基毎の特徴ベクトルを抽出することで、環状ペプチドの特徴ベクトルを構成する際には、どの残基を環状配列の開始点とするのかによって特徴ベクトルの構成が異なるものとなる。
例えば、図3Bに示される残基1を環状配列の開始点として特徴ベクトルを構成する場合には、残基1から抽出される特徴量F1を開始点とする特徴ベクトル[F1,F2,・・・,F8]が構成される。一方、残基8を環状配列の開始点として特徴ベクトルを構成する場合には、残基8から抽出される特徴量F8を開始点とする特徴ベクトル[F8,F1,F2,・・・,F7]が抽出される。
このため、同一の環状ペプチドであっても、環状配列の開始点とする残基が異なる場合には特徴ベクトルが異なるものとなってしまう。この場合には、環状ペプチドの体内持続性を適切に予測することができない。
そこで、本実施形態では、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴ベクトルの各々を抽出し、それら複数の特徴ベクトルに基づいて体内持続性を予測する。
具体的には、学習用抽出部14は、複数の学習用の環状ペプチドのペプチド情報の各々から、学習用の環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す特徴ベクトルを抽出する。
例えば、学習用抽出部14は、図3Bに示される残基1を環状配列の開始点とした場合の特徴ベクトル1、残基2を環状配列の開始点とした場合の特徴ベクトル2、・・・、残基8を環状配列の開始点とした場合の特徴ベクトル8の各々を抽出する。
学習用抽出部14は、抽出された1つの特徴ベクトルを1つの学習用特徴ベクトルとして設定する。このため、1つの学習用の環状ペプチドから抽出された特徴ベクトルの集合は、学習用特徴ベクトルの集合に相当する。
そして、学習用抽出部14は、複数の学習用の環状ペプチドの各々について、学習用特徴ベクトルの集合と学習用のペプチドの体内持続性の正解値とを対応付けて、学習用データ記憶部16へ格納する。
学習用データ記憶部16には、複数の学習用データが格納される。1つの学習用データは、学習用特徴ベクトルと学習用のペプチドの体内持続性の正解値との対である。図4Aに、学習用データ記憶部16に格納される学習用データの一例を示す。図4Aに示されるように、学習用特徴ベクトルと、当該学習用のペプチドの体内持続性の正解値とが対応付けられて学習用データ記憶部16に格納される。この学習用データは、後述する学習済みモデルの生成に用いられる。なお、例えば、図4Aの例における、複数の学習用特徴ベクトルFv1,Fv2,・・・は、環状配列の開始点を異ならせることにより得られた学習用特徴ベクトルである。
学習部18は、学習用データ記憶部16に格納された複数の学習用データに基づいて、既知の教師あり機械学習アルゴリズムを実行することにより、特徴ベクトルからペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する。そして、学習部18は、学習済みモデルを学習済みモデル記憶部20へ格納する。なお、学習済みモデル自体は既知のモデルであり、例えば、ニューラルネットワークモデル、サポートベクターマシン、又はロジスティック回帰モデル等である。なお、ニューラルネットワークモデルには、深層学習により得られるディープニューラルネットワークモデルも含まれる。
図4Bに、学習済みモデルを説明するための図を示す。図4Bに示されるように、体内持続性の予測対象の環状ペプチドから抽出された特徴ベクトルが学習済みモデルへ入力されると、予測対象の環状ペプチドの体内持続性の予測値が出力される。
なお、後述するように、体内持続性の予測対象の環状ペプチドからも、環状配列の開始点を異ならせることにより複数の特徴ベクトルが抽出される。それら複数の特徴ベクトルの各々を学習済みモデルへ入力することにより、複数の特徴ベクトルの各々に対応する体内持続性の予測値が得られる。
学習済みモデル記憶部20には、学習部18により生成された学習済みモデルが格納される。なお、学習済みモデルは、モデルの構造と学習済みのパラメータとが対応付けられたデータである。
抽出部22は、体内持続性の予測対象の環状ペプチドから特徴を表す特徴ベクトルを抽出する。具体的には、抽出部22は、体内持続性の予測対象の環状ペプチドのペプチド情報から、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す特徴ベクトル(以下、予測用特徴ベクトルと称する。)の各々を抽出する。
生成部24は、抽出部22により得られた複数の予測用特徴ベクトルを、学習済みモデル記憶部20に格納された学習済みモデルへ入力することにより、予測対象の環状ペプチドの体内持続性の予測値を生成する。
具体的には、生成部24は、抽出部22により得られた複数の予測用特徴ベクトルの各々を学習済みモデルへ入力することにより、予測対象のペプチドの体内持続性の予測値の各々を生成する。ここで、1つの予測値は1つの予測用特徴ベクトルに対応する。そして、生成部24は、複数の予測値の代表値を生成することにより、その代表値を予測対象のペプチドの体内持続性とする。例えば、生成部24は、複数の予測値の平均値を代表値として生成する。または、生成部24は、複数の予測値の最大値又は最小値を代表値として生成する。
なお、生成部24により生成された体内持続性の代表値又は複数の予測値は、表示部(図示省略)に表示される。
このように、第1実施形態の予測装置10は、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴ベクトルの各々を抽出し、それら複数の特徴ベクトルに基づいて体内持続性を予測する。これにより、環状ペプチドの回転対称性を考慮した複数の特徴ベクトルが得られ、それらの特徴ベクトルに基づき、環状ペプチドの体内持続性を適切に予測することができる。
予測装置10は、例えば、図5に示すようなコンピュータ50によって実現することができる。予測装置10を実現するコンピュータ50は、CPU51、一時記憶領域としてのメモリ52、及び不揮発性の記憶部53を備える。また、コンピュータは、入出力装置等(図示省略)が接続される入出力interface(I/F)54、及び記録媒体59に対するデータの読み込み及び書き込みを制御するread/write(R/W)部55を備える。また、コンピュータは、インターネット等のネットワークに接続されるネットワークI/F56を備える。CPU51、メモリ52、記憶部53、入出力I/F54、R/W部55、及びネットワークI/F56は、バス57を介して互いに接続される。
記憶部53は、Hard Disk Drive(HDD)、Solid State Drive(SSD)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部53には、コンピュータを機能させるためのプログラムが記憶されている。CPU51は、プログラムを記憶部53から読み出してメモリ52に展開し、プログラムが有するプロセスを順次実行する。
次に、第1実施形態の予測装置10の作用について説明する。
予測装置10は、学習済みモデルの生成処理の指示を表す指示信号を受け付けると、図6に示される学習済みモデルの生成処理ルーチンを実行する。
ステップS100において、学習用抽出部14は、複数の学習用の環状ペプチドのペプチド情報の各々から、学習用の環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す学習用特徴ベクトルを抽出する。
ステップS102において、学習用抽出部14は、上記ステップS100で抽出された学習用特徴ベクトルの集合と学習用の環状ペプチドの体内持続性の正解値とを対応付けて学習用データを生成し、学習用データ記憶部16へ一旦格納する。
ステップS104において、学習部18は、学習用データ記憶部16に格納された複数の学習用データに基づいて、既知の教師あり機械学習アルゴリズムを実行することにより、特徴ベクトルからペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する。
ステップS106において、学習部18は、上記ステップS104で生成された学習済みモデルを学習済みモデル記憶部20へ格納する。
学習済みモデル記憶部20に学習済みモデルが格納され、体内持続性の予測対象のペプチド情報が予測装置10へ入力されると、予測装置10は図7に示される予測処理ルーチンを実行する。
ステップS200において、抽出部22は、体内持続性の予測対象のペプチド情報を受け付ける。
ステップS202において、抽出部22は、上記ステップS200で受け付けたペプチド情報から、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す予測用特徴ベクトルの各々を抽出する。
ステップS204において、生成部24は、上記ステップS202で抽出された複数の予測用特徴ベクトルの各々を、学習済みモデル記憶部20に格納された学習済みモデルへ入力することにより、予測対象のペプチドの体内持続性の予測値を複数生成する。
ステップS206において、生成部24は、上記ステップS204で生成された複数の予測値の各々から代表値を生成する。
ステップS208において、生成部24は、上記ステップS206で生成された体内持続性の予測値の代表値を結果として出力する。
以上詳細に説明したように、第1実施形態の予測装置は、複数の学習用の環状ペプチドの各々から、学習用の環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す学習用特徴ベクトルの集合を抽出する。そして、予測装置は、複数の学習用の環状ペプチドの各々について、抽出された複数の学習用特徴ベクトルと学習用の環状ペプチドの体内持続性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する。これにより、環状ペプチドの体内持続性を予測するための学習済みモデルを得ることができる。なお、この学習済みモデルは、複数の残基の各々を環状配列の開始点とした場合の学習用特徴ベクトルに基づき学習されているため、環状ペプチドの体内持続性の予測に適したモデルとなっている。
また、第1実施形態の予測装置は、体内持続性の予測対象の環状ペプチドから、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す特徴ベクトルの各々を抽出する。そして、予測装置は、複数の特徴ベクトルを学習済みモデルへ入力することにより、予測対象の環状ペプチドの体内持続性の予測値を生成する。これにより、環状ペプチドの体内持続性を予測することができる。具体的には、上述したように、学習済みモデルは、複数の残基の各々を環状配列の開始点とした場合の学習用特徴ベクトルに基づき学習されているため、環状ペプチドの体内持続性の予測に適したモデルとなっている。このため、環状ペプチドの構造を考慮して体内持続性の予測値を生成することができる。
[第2実施形態]
次に、第2実施形態について説明する。第2実施形態の予測装置は、複数の特徴ベクトルの長さを揃える点が第1実施形態と異なる。なお、第1実施形態では環状ペプチドを対象とする場合を例に説明したが、第2実施形態では環状ペプチドに限らず直鎖状のペプチドも対象とする。また、第2実施形態に係る予測装置の構成のうちの第1実施形態の予測装置と同様の部分は、同一符号を付して説明を省略する。
図8は、第2実施形態に係る予測装置210の構成の一例を示すブロック図である。予測装置210は、機能的には、図8に示されるように、データ記憶部12と、学習用抽出部14と、学習用データ記憶部16と、学習用調整部15と、学習部18と、学習済みモデル記憶部20と、抽出部22と、調整部23と、生成部24とを備えている。
学習用調整部15は、学習用抽出部14により抽出された複数の学習用のペプチドの各々に対する学習用特徴ベクトルの各々の長さが、所定長さとなるように調整する。
ペプチドは複数の残基を備えている。このため、残基の数が異なるペプチド間においては、特徴ベクトルの長さが異なるものとなる。具体的には、特徴ベクトルの要素の数が残基の数に応じたものとなるため、残基の数が異なるペプチド間においては、特徴ベクトルの長さが異なるということになる。なお、ニューラルネットワークモデル等の学習モデルに入力される特徴ベクトルの長さは一定であることが好ましい。例えば、特徴ベクトルの要素の数が10である場合には、学習モデルの一例であるニューラルネットワークモデルの入力層のノードの数は10である必要があるといった対応が求められる。
このため、複数のペプチドの各々から抽出される特徴ベクトルの長さが異なる場合には、何らかの適切な処置を取らない限り、ニューラルネットワークモデル等の機械学習アルゴリズムを用いて学習済みモデルを構築することができず、またそのような学習済みモデルを用いてペプチドの体内持続性を予測することもできない。
そこで、第2実施形態の予測装置は、ペプチドから抽出される特徴ベクトルの長さを揃えることにより、それらの特徴ベクトルを用いて機械学習アルゴリズムによる学習を可能なようにする。さらに、学習によって得られた学習済みモデルを用いてペプチドの体内持続性を予測可能なようにする。
具体的には、例えば、学習用調整部15は、複数の学習用特徴ベクトルのうちの最大長さの学習用特徴ベクトルを特定し、他の複数の学習用特徴ベクトルの長さが最大長さとなるように調整する。または、例えば、学習用調整部15は、複数の学習用特徴ベクトルの各々の長さが所定長さとなるように調整する。なお、この場合の所定長さは、予めユーザによって設定される。
例えば、学習用調整部15は、既知のパディング法による変換によって学習用特徴ベクトルの長さを揃える。パディング法は、対象のうちの空いている箇所に対して代替となる値等を埋める方法である。このため、例えば、学習用調整部15は、学習用特徴ベクトルが[0.13,0.45,0.82]でありその長さが3であった場合、所定長さが5であるときにはパディング法により[0.00,0.13,0.45,0.82,0.00]とすることにより、長さ5の学習用特徴ベクトルを生成する。なお、学習用調整部15は、学習用特徴ベクトルの長さを調整する際に、長さ調整前の残基数等、長さ調整前の情報をその要素として追加するようにしてもよい。
または、例えば、学習用調整部15は、線形補間法による変換によって学習用特徴ベクトルの長さを揃える。具体的には、学習用調整部15は、学習用特徴ベクトルの要素である特徴量x’を、以下の式(1)に従って算出する。
Figure 0007057004000002

(1)
Figure 0007057004000003
学習用調整部15は、上記式(1)に従って、残基長kのペプチドから得られる長さkの学習用特徴ベクトルを、長さmの学習用特徴ベクトルへと変換する。なお、xは変換前の学習用特徴ベクトルxのi番目の要素に位置する特徴量であり、x’は変換後の学習用特徴ベクトルx’のj番目の要素に位置する特徴量である。これにより、複数の学習用特徴ベクトルの長さが揃えられることになる。
そして、学習用調整部15は、長さが揃えられた学習用特徴ベクトルと学習用のペプチドの体内持続性の正解値とを対応付けて、学習用データ記憶部16へ格納する。
学習用データ記憶部16には、複数の学習用データが格納される。
学習部18は、学習用データ記憶部16に格納された複数の学習用データに基づいて、既知の教師あり機械学習アルゴリズムを実行することにより、特徴ベクトルからペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する。そして、学習部18は、学習済みモデルを学習済みモデル記憶部20へ格納する。
学習済みモデル記憶部20には、学習部18により生成された学習済みモデルが格納される。
抽出部22は、体内持続性の予測対象のペプチドから特徴を表す予測用特徴ベクトルを抽出する。
調整部23は、抽出部22により抽出された予測用特徴ベクトルの長さが、学習用データと同一の所定長さとなるように調整する。具体的には、調整部23は、上記の学習用調整部15と同様の手法によって予測用特徴ベクトルの長さを調整する。
生成部24は、調整部23により長さが調整された予測用特徴ベクトルを、学習済みモデル記憶部20に格納された学習済みモデルへ入力することにより、予測対象のペプチドの体内持続性の予測値を生成する。
なお、生成部24により生成された体内持続性の予測値は、表示部(図示省略)に表示される。
次に、第2実施形態の予測装置210の作用について説明する。
予測装置210は、学習済みモデルの生成処理の指示を表す指示信号を受け付けると、図9に示される学習済みモデルの生成処理ルーチンを実行する。
ステップS300において、学習用抽出部14は、データ記憶部12に格納されている複数の学習用のペプチド情報の各々から、学習用のペプチドの特徴を表す学習用特徴ベクトルを抽出する。
ステップS302において、学習用調整部15は、上記ステップS300で抽出された複数の学習用のペプチドの各々に対する学習用特徴ベクトルの各々の長さが、所定長さとなるように調整する。
ステップS304において、学習用調整部15は、上記ステップS302で長さが揃えられた学習用特徴ベクトルと学習用のペプチドの体内持続性の正解値とを対応付けて学習用データを生成し、学習用データ記憶部16へ一旦格納する。
ステップS306において、学習部18は、学習用データ記憶部16に格納された複数の学習用データに基づいて、既知の教師あり機械学習アルゴリズムを実行することにより、ペプチドの特徴を表す特徴ベクトルからペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する。
ステップS308において、学習部18は、上記ステップS306で生成された学習済みモデルを学習済みモデル記憶部20へ格納する。
学習済みモデル記憶部20に学習済みモデルが格納され、体内持続性の予測対象のペプチド情報が予測装置210へ入力されると、予測装置210は図10に示される予測処理ルーチンを実行する。
ステップS400において、抽出部22は、体内持続性の予測対象のペプチド情報を受け付ける。
ステップS402において、抽出部22は、上記ステップS400で受け付けたペプチド情報から予測用特徴ベクトルを抽出する。
ステップS404において、調整部23は、上記ステップS402で抽出された予測用特徴ベクトルの長さが、所定長さとなるように調整する。
ステップS406において、生成部24は、上記ステップS404で長さが調整された予測用特徴ベクトルを、学習済みモデル記憶部20に格納された学習済みモデルへ入力することにより、予測対象のペプチドの体内持続性の予測値を生成する。
ステップS408において、生成部24は、上記ステップS406で生成された体内持続性の予測値を結果として出力する。
以上詳細に説明したように、第2実施形態の予測装置は、複数の学習用のペプチドの各々に対する学習用特徴ベクトルの各々の長さが、所定長さとなるように調整する。そして、予測装置は、長さが調整された学習用特徴ベクトルと学習用のペプチドの体内持続性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、ペプチドから抽出される特徴ベクトルからペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する。これにより、複数の残基から構成されるペプチド間において、その残基の数が異なる場合であっても、ペプチドの体内持続性を予測するための学習済みモデルを得ることができる。
また、第2実施形態の予測装置は、体内持続性の予測対象のペプチドから抽出された特徴ベクトルの長さが所定長さとなるように調整し、長さが調整された特徴ベクトルを学習済みモデルへ入力することにより、予測対象のペプチドの体内持続性の予測値を生成する。これにより、複数の残基から構成されるペプチド間において、その残基の数が異なる場合であってもペプチドの体内持続性を予測することができる。
[第3実施形態]
次に、第3実施形態について説明する。第3実施形態の予測装置は、環状ペプチドの構造上の性質に注目したデータオーギュメンテーションによって学習用データを増加させ、増加させた学習用データに基づいて学習済みモデルを生成する点が第1及び第2実施形態と異なる。なお、第3実施形態に係る予測装置の構成のうちの第1又は第2実施形態の予測装置と同様の部分は、同一符号を付して説明を省略する。
第3実施形態の予測装置は、学習用特徴ベクトルを増加させる際に、第2実施形態と同様の長さ調整を行った後の学習用特徴ベクトルの要素を巡回シフトさせることにより、複数の学習用特徴ベクトルを生成する。これにより、環状ペプチドの構成上の特徴を考慮しつつ学習用データを増加させることができる。
図11は、第3実施形態に係る予測装置310の構成の一例を示すブロック図である。予測装置10は、機能的には、図11に示されるように、データ記憶部12と、学習用抽出部14と、学習用データ記憶部16と、学習用データ生成部315と、学習部18と、学習済みモデル記憶部20と、抽出部22と、生成部24とを備えている。
第3実施形態の学習用抽出部14は、複数の学習用の環状ペプチドのペプチド情報の各々から、学習用の環状ペプチドの特徴を表す第1学習用特徴ベクトルの集合を抽出する。
具体的には、まず、学習用データ生成部315は、第2実施形態と同様に、複数の第1学習用特徴ベクトルの長さを所定長さに揃える。次に、学習用データ生成部315は、学習用抽出部14により抽出された第1学習用特徴ベクトルの集合に含まれる第1学習用特徴ベクトルの各々に対して、第1学習用特徴ベクトルの要素を巡回シフトさせることにより第2学習用特徴ベクトルの集合を生成する。
図12に第2学習用特徴ベクトルの生成を説明するための図を示す。図12における「1」等の番号は、特徴ベクトルにおける要素の位置を表す。図12に示される例では、例えば、ある環状ペプチドの1番目の残基から特徴量Bが抽出され、2番目の残基から特徴量Cが抽出され、3番目の残基から特徴量Dが抽出され、4番目の残基から特徴量Eが抽出される。そして、長さ4の特徴ベクトルを長さ6の特徴ベクトルとするために、番号1の箇所に特徴量Aが挿入され、番号6の箇所に特徴量Fが挿入される。このようにして、要素A,B,C,D,E,Fが第1学習用特徴ベクトルの要素となる。
次に、学習用データ生成部315は、図12に示されるように、第1学習用特徴ベクトルの要素A,B,C,D,E,Fを距離1だけ左に巡回シフトさせることにより、第2学習用特徴ベクトル[B,C,D,E,F,A]を生成する。また、同様に、第1学習用特徴ベクトルの要素A,B,C,D,E,Fを距離2だけ左に巡回シフトさせることにより、第2学習用特徴ベクトル[C,D,E,F,A,B]が生成される。この処理は、文字列又はビット列におけるローテーション処理と同様に、前後の順序は変えずに配列上の位置を一定距離だけずらして配置し、端点での回り込みを表現する処理である。このような処理により、1つの環状ペプチドから、第1学習用特徴ベクトル及び複数の第2学習用特徴ベクトルが得られ、これらは学習用データとして用いることが可能となる。
学習用データ生成部315は、第1学習用特徴ベクトルの集合及び第2学習用特徴ベクトルの集合と、学習用の環状ペプチドの体内持続性の正解値との対を表す学習用データを生成する。そして、学習用データ生成部315は、生成した複数の学習用データを学習用データ記憶部16へ格納する。
学習部18は、学習用データ記憶部16に格納された複数の学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する。
なお、第3実施形態の予測装置310の他の構成及び作用については、第1実施形態又は第2実施形態と同様であるため、説明を省略する。
以上説明したように、第3実施形態の予測装置は、複数の学習用の環状ペプチドの各々から特徴を表す第1学習用特徴ベクトルを抽出する。予測装置は、第1学習用特徴ベクトルの各々に対して、第1学習用特徴ベクトルの長さを所定長さに調整した後に、第1学習用特徴ベクトルの要素を巡回シフトさせることにより第2学習用特徴ベクトルの集合を生成し、第1学習用特徴ベクトルの集合及び第2学習用特徴ベクトルの集合と学習用の環状ペプチドの体内持続性の正解値との対を表す学習用データを生成する。そして、予測装置は、生成された複数の学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する。これにより、環状ペプチドの構成上の特徴を考慮しつつ学習用データを増加させることができる。また、環状ペプチドの構成を考慮して生成された多くの学習用データに基づいて学習済みモデルを得ることができる。
[第4実施形態]
次に、第4実施形態について説明する。第4実施形態の予測装置は、環状ペプチドの構造上の性質に対応するために特徴ベクトルの両端の要素を隣接させる層を有する畳み込みニューラルネットワークモデルを用いて、環状ペプチドの体内持続性の予測値を生成する点が第1~第3実施形態と異なる。なお、第4実施形態に係る予測装置の構成のうちの第1~第3実施形態の何れかの予測装置と同様の部分は、同一符号を付して説明を省略する。
環状ペプチドから抽出される特徴ベクトルは、環状ペプチドを構成する残基の環を表現する必要がある。この点、ベクトルは要素を単に一次元的に並べたものであり開始端と終端が生じてしまうため、環状ペプチドのうちの残基の環としての連続性が適切に表現されていないとも考えられる。
そこで、第4実施形態の予測装置は、特徴ベクトルの両端の要素を隣接させる両端隣接層を有する畳み込みニューラルネットワークモデルを用いて、環状ペプチドの体内持続性の予測値を生成する。これにより、環状ペプチドの残基の構成が畳み込みニューラルネットワークモデル内において表現される。
図13は、従来の畳み込みニューラルネットワークモデルの構成図である。図13に示されるように、従来の畳み込みニューラルネットワークモデルCNN1は、入力層Iと、畳み込み層Cvと、を備えている。なお、他の畳み込み層及びプーリング層等の図示は省略されている。図13に示されるように、入力層Iに特徴ベクトル[0,A,B,C,0]が入力された場合、畳み込み層Cvにおいて畳み込み処理が行われ、特徴ベクトルから[0,A,B]、[A,B,C]、[B,C,0]が抽出される。しかし、従来の畳み込みニューラルネットワークモデルCNN1では、入力された特徴ベクトルに対して単に畳み込み処理がなされるのみで、特徴ベクトルが抽出された環状ペプチドの構造は考慮されていない。
これに対し、第4実施形態の畳み込みニューラルネットワークモデルでは、環状ペプチドの構造上の特徴を考慮した層を備える。図14は、第4実施形態の畳み込みニューラルネットワークモデルの構成図である。図14に示されるように、第4実施形態の畳み込みニューラルネットワークモデルCNN2は、入力層Iと、畳み込み層Cvと、両端隣接層I’とを備えている。両端隣接層I’は、特徴ベクトルの両端の要素を左右に再度配置し隣接させる層である。具体的には、図14に示されるように、Aの左隣にCが隣接され、Cの右隣にAが隣接している。これにより、環状ペプチドの残基の環が表現される。
第4実施形態の学習部18は、複数の学習用データに基づいて、学習用特徴ベクトルの両端の要素を隣接させる両端隣接層を有する畳み込みニューラルネットワークモデルを学習させることにより、特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルを生成する。そして、学習部18は、学習済みの畳み込みニューラルネットワークモデルを学習済みモデル記憶部20に格納する。
第4実施形態の生成部24は、体内持続性の予測対象の環状ペプチドから抽出された特徴ベクトルを、学習済みモデル記憶部20に格納された学習済み畳み込みニューラルネットワークモデルへ入力することにより、予測対象のペプチドの体内持続性の予測値を生成する。
なお、第4実施形態の予測装置の他の構成及び作用については、第1~第3実施形態の何れかの予測装置と同様であるため、説明を省略する。
以上説明したように、第4実施形態の予測装置は、複数の学習用データに基づいて、学習用特徴ベクトルの両端の要素を隣接させる両端隣接層を有する畳み込みニューラルネットワークモデルを学習させることにより、特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルを生成する。これにより、環状ペプチドの構成上の特徴を考慮した学習済みの畳み込みニューラルネットワークモデルを得ることができる。
また、予測装置は、体内持続性の予測対象の環状ペプチドから抽出された特徴ベクトルを、特徴ベクトルの両端の要素を隣接させる両端隣接層を有する学習済み畳み込みニューラルネットワークモデルへ入力することにより、予測対象のペプチドの体内持続性の予測値を生成する。これにより、環状ペプチドの構成上の特徴を考慮した体内持続性の予測値を得ることができる。
[第5実施形態]
次に、第5実施形態について説明する。第5実施形態の予測装置は、ペプチドと血漿タンパク質とのドッキング計算を実行することにより、ペプチドの体内持続性の予測値を生成する点が第1~第4実施形態と異なる。なお、第5実施形態に係る予測装置の構成のうちの第1~第4実施形態の何れかの予測装置と同様の部分は、同一符号を付して説明を省略する。
図15は、血漿タンパク質の一例であるヒト血清アルブミンALと、ペプチドの一例であるダルババンシンDAとの結合を表す模式図である。なお、図15に関連する研究成果は、参考文献1に開示されている。
参考文献1:Sho Ito, Akinobu Senoo, Satoru Nagatoishi, Masahito Ohue, Masaki Yamamoto, Kouhei Tsumoto, and Naoki Wakui, "Structural Basis for the Binding Mechanism of Human Serum Albumin Complexed with Cyclic Peptide Dalbavancin", J. Med. Chem. 2020, 63, 22, 14045-14053, Publication Date:November 13, 2020
また、図16は、図15におけるヒト血清アルブミンALとダルババンシンDAとの結合部分の拡大図である。図16に示されるように、ダルババンシンDAの側鎖SCは、ヒト血清アルブミンALの疎水性ポケットHに挿さるような状態となっていることが分かる。また、ダルババンシンDAの環状部Rは、ヒト血清アルブミンALに覆いかぶさるような状態となっていることが分かる。
このように、ヒト血清アルブミンALとダルババンシンDAとの1つの結合形態は、図15及び図16のような結合形態であることから、ダルババンシンDAが取り得る配座の中に、側鎖SCの状態、側鎖SCの先端部Tの状態、及び側鎖SCの付根部分RTの状態等がヒト血清アルブミンALへの結合に適した配座が含まれていることが、体内持続性の因子であったと予想される。
そこで、第5実施形態の予測装置は、体内持続性の予測対象のペプチドが取りうる配座を複数生成し、それら複数の配座の各々について、ペプチドと血漿タンパク質との間において既知のドッキング計算を行う。
なお、本実施形態では、生成した複数の配座から血漿タンパク質との結合の可能性が高い配座を選択し、選択された配座についてのみドッキング計算を実行する。これにより、ペプチドが取り得る全ての配座についてドッキング計算を行うことなく、血漿タンパク質との結合の可能性が高い配座についてのみドッキング計算を行うことが可能となる。このため、ドッキング計算を効率的に実行することができ、結果として、体内持続性の予測対象のペプチドの体内持続性を効率的に得ることができる。
図17は、第5実施形態に係る予測装置510の構成の一例を示すブロック図である。予測装置510は、機能的には、図17に示されるように、ドッキング計算用データ記憶部30と、配座生成部32と、選定部33と、予測部34とを備えている。
ドッキング計算用データ記憶部30には、ドッキング計算を実行するための各種データが格納されている。後述する配座生成部32、選定部33、及び予測部34は、ドッキング計算用データ記憶部30に格納されている各種データに基づいて、ドッキング計算を実行すると共に、体内持続性を予測する。なお、ドッキング計算用データ記憶部30には、ドッキング計算によって得られたデータも格納される。
配座生成部32は、体内持続性の予測対象のペプチドが取りうる配座を複数生成する。具体的には、配座生成部32は、ドッキング計算用データ記憶部30に格納されている、体内持続性の予測対象のペプチドのペプチド情報を取得する。そして、配座生成部32は、ペプチド情報に含まれている各種情報(ペプチドの一次構造、ペプチドの二次構造、又はペプチドの三次構造)に基づいて、ペプチドが取りうる仮想的な配座を複数生成する。
選定部33は、所定の選定基準に基づいて、配座生成部32により生成された複数の配座から、ドッキング計算を行う対象の配座を選定する。
具体的には、まず、選定部33は、配座生成部32により生成された複数の配座から、血漿タンパク質と結合する可能性が高い配座を選定する。
上記図16に示されるように、ダルババンシンDAとヒト血清アルブミンALとの結合形態の1つとして、ダルババンシンDAの側鎖SCがヒト血清アルブミンALの疎水性ポケットHに挿さるような状態となる場合がある。このため、ペプチドの側鎖の長さは体内持続性の因子であるとも考えられる。また、ペプチドの側鎖の直線度合いも体内持続性の重要な因子であるとも考えられる。
また、上記図16に示される例では、ダルババンシンDAの環状部Rがヒト血清アルブミンALに覆いかぶさるような状態となっているため、ペプチドの側鎖の付根部分RTの構造も体内持続性の重要な因子であるとも考えられる。
また、上記図16に示されるように、ダルババンシンDAの側鎖SCの先端部分Tの3次元形状も、ヒト血清アルブミンALの疎水性ポケットHの最深部の形状に対応し得るため、ペプチドの側鎖の先端部分の3次元形状も、体内持続性の重要な因子であるとも考えられる。また、ヒト血清アルブミンALの疎水性ポケットHは荷電原子を好まないため、側鎖に含まれる荷電原子の有無等の物理的条件も重要であるとも考えられる。
そこで、例えば、選定部33は、配座生成部32により生成された複数の配座から、血漿タンパク質と結合する可能性が高い配座として、ペプチドの側鎖の長さが所定値以上であるペプチドの配座を選定する。
また、例えば、選定部33は、配座生成部32により生成された複数の配座から、血漿タンパク質と結合する可能性が高い配座として、ペプチドの側鎖の直線度合いが所定度合い以上であるペプチドの配座を選定する。なお、例えば、図16に示されるような、ペプチドの複数の原子Nの座標に基づき最小二乗法等によって得られた近似直線と、ペプチドの複数の原子Nの座標との間の差分の総和が小さいほど、ペプチドの側鎖の直線度合いが高いものとして、側鎖の直線度合いを計算するようにしてもよい。
また、例えば、選定部33は、配座生成部32により生成された複数の配座から、血漿タンパク質と結合する可能性が高い配座として、ペプチドの側鎖の付根部分RTの各原子が広がっているペプチドの配座を選定する。例えば、選定部33は、ペプチドの側鎖の付根部分RTの各原子Nの座標の分散が所定値以上であるペプチドの配座を選定する。
また、例えば、選定部33は、配座生成部32により生成された複数の配座から、血漿タンパク質と結合する可能性が高い配座として、ペプチドの側鎖の先端部Tの各原子が広がっているペプチドの配座を選定する。例えば、選定部33は、ペプチドの側鎖の先端部Tの各原子Nの座標の分散が所定値以上であるペプチドの配座を選定する。
また、例えば、選定部33は、配座生成部32により生成された複数の配座から、血漿タンパク質と結合する可能性が高い配座として、ペプチドの側鎖に含まれる荷電原子の有無等を表す物理的条件を満たす配座を選定する。例えば、図16の例においては、ペプチドの側鎖に荷電原子が含まれている場合には、血漿タンパク質と結合する可能性が低いと考えられるためである。
選定部33は、配座生成部32により生成された複数の配座から、上述のような選定基準を満たす配座を選定する。なお、選定部33は、上述のような選定基準を満たす配座から、更に配座を選定するようにしてもよい。
例えば、上述のような選定基準を満たす複数の配座が同じような配座である場合には、配座の多様性が低いため、それらを選定しドッキング計算を実行したとしても同じような結果となることが予想される。
そのため、例えば、選定部33は、上述のような選定基準を満たす複数の配座から、なるべく多様性のある配座を選定するために、上述のような選定基準を満たす各配座間の原子間距離の平均二乗偏差RMSD(Root Mean Square Deviation)値を計算する。なお、ペプチドの全原子を用いるのではなく、例えばペプチドの複数の原子を選択して、これらのみに基づいてRMSD値を計算しても良い。そして、選定部33は、RMSD値に基づいて既知の手法によるクラスタリングを行い、各クラスタから1つ以上の配座をさらに選定する。これにより、多様性のある配座が選定される。
予測部34は、選定部33により選定された配座に対応する予測対象のペプチドと血漿タンパク質との間においてドッキング計算を行うことにより、予測対象のペプチドの体内持続性を予測する。
具体的には、予測部34は、選定部33により選定された複数の配座の各々に対応する予測対象のペプチドの各々と血漿タンパク質との間においてドッキング計算を行う。そして、予測部34は、選定部33により選定された複数の配座の各々に対して得られたドッキング計算結果であるドッキングプロファイルに基づいて、予測対象のペプチドの体内持続性を予測する。なお、ドッキングプロファイルは、例えば、血漿タンパク質側の残基毎に得られるドッキングスコアを要素として持つベクトルである。なお、ドッキングプロファイルには、残基毎のドッキングスコアと、ペプチドの全体ドッキングスコアとが含まれていてもよい。残基毎のドッキングスコアは、例えば、血漿タンパク質の各残基とペプチドとの間の静電相互作用エネルギー計算値及び疎水性相互作用エネルギー計算値等である。また、ペプチドの全体ドッキングスコアは、例えば、残基毎のドッキングスコアから計算される値である。
なお、予測部34は、血漿タンパク質のうちの予め設定された領域とペプチドとの間においてドッキング計算を実行するようにしてもよい。例えば、上記図15に示されるように、血漿タンパク質であるヒト血清アルブミンALの疎水性ポケットHの位置は、既知であるため、疎水性ポケットHの周辺領域である予め設定された領域において、ドッキング計算を実行するようにしてもよい。また、この設定された領域は複数に分かれていてもよい。
次に、第5実施形態の予測装置510の作用について説明する。
第5実施形態の予測装置510は、予測処理開始の指示を表す指示信号を受け付けると、図18に示される予測処理ルーチンを実行する。
ステップS500において、配座生成部32は、ドッキング計算用データ記憶部30に格納されている、体内持続性の予測対象のペプチドのペプチド情報を取得する。
ステップS502において、配座生成部32は、上記ステップS500で取得されたペプチド情報に基づいて、体内持続性の予測対象のペプチドが取りうる配座を複数生成する。そして、配座生成部32は、複数の配座に関する情報をドッキング計算用データ記憶部30に一旦格納する。
ステップS504において、選定部33は、上述したような所定の選定基準に基づいて、上記ステップS502で生成された複数の配座から、ドッキング計算を行う対象の配座を選定する。そして、配座生成部32は、選定された配座に関する情報をドッキング計算用データ記憶部30に一旦格納する。
ステップS506において、予測部34は、上記ステップS504で選定された配座の各々について、当該配座に対応する予測対象のペプチドと血漿タンパク質との間においてドッキング計算を行う。そして、予測部34は、ドッキング計算結果であるドッキングプロファイルをドッキング計算用データ記憶部30に一旦格納する。
ステップS508において、予測部34は、上記ステップS506で得られたドッキングプロファイルに基づいて、予測対象の体内持続性を計算することにより、予測対象のペプチドの体内持続性を予測する。
ステップS510において、予測部34は、上記ステップS508で計算されたペプチドの体内持続性の予測値を結果として出力する。
以上説明したように、第5実施形態の予測装置は、体内持続性の予測対象のペプチドが取りうる配座を複数生成する。予測装置は、所定の選定基準に基づいて、生成された複数の配座から、ドッキング計算を行う対象の配座を選定する。そして、予測装置は、選定された配座に基づいて予測対象のペプチドと血漿タンパク質との間のドッキング計算を行うことにより、予測対象のペプチドの体内持続性を予測する。これにより、予測対象のペプチドの体内持続性を効率的に予測することができる。また、予測対象のペプチドの体内持続性を予測する際に、選定された配座に基づいてペプチドと血漿タンパク質との間のドッキング計算を行い、計算結果に基づいて体内持続性を計算することにより、ペプチドの体内持続性を精度良く予測することができる。特に、機械学習の手法では前例となる学習用データが不足しているために予測が困難であるような新規のペプチドについても、予測が可能となる点に特徴がある。
[第6実施形態]
次に、第6実施形態について説明する。第6実施形態の予測装置は、ドッキング計算によって得られたペプチドの体内持続性の予測値と、機械学習によって構築された学習済みモデルによって得られた体内持続性の予測値とを統合することにより、ペプチドの体内持続性の予測値を計算する点が第1~第5実施形態と異なる。なお、第6実施形態に係る予測装置の構成のうちの第1~第5実施形態の何れかの予測装置と同様の部分は、同一符号を付して説明を省略する。
図19は、第6実施形態に係る予測装置610の構成の一例を示すブロック図である。予測装置610は、機能的には、図19に示されるようにドッキング計算部40と、学習済みモデル記憶部42と、学習済みモデル予測部44と、計算部46とを備えている。
ドッキング計算部40は、体内持続性の予測対象のペプチドと血漿タンパク質との間のドッキング計算を実行することにより、ペプチドの体内持続性を表す第1の体内持続性の予測値を生成する。例えば、ドッキング計算部40は、第5実施形態の予測装置と同様の手法によってペプチドの体内持続性を表す第1の体内持続性の予測値を生成する。
学習済みモデル記憶部42には、ペプチドの特徴を表す特徴ベクトルからペプチドの体内持続性の予測値を出力するための学習済みモデルが格納されている。例えば、学習済みモデル記憶部42には、上記第1~第4実施形態の何れか1つの予測装置によって生成された学習済みモデルが格納されている。
学習済みモデル予測部44は、体内持続性の予測対象のペプチドから特徴を表す予測用特徴ベクトルを抽出し、予測用特徴ベクトルを、学習済みモデル記憶部42に格納された学習済みモデルへ入力することにより、ペプチドの体内持続性を表す第2の体内持続性の予測値を生成する。
計算部46は、ドッキング計算部40によって生成された第1の体内持続性の予測値と、学習済みモデル予測部44により生成された第2の体内持続性の予測値とを統合することにより、ペプチドの体内持続性の予測値を計算する。例えば、計算部46は、第1の体内持続性の予測値と第2の体内持続性の予測値とを平均することにより、ペプチドの体内持続性の予測値を計算する。または、計算部46は、第1の体内持続性の予測値と第2の体内持続性の予測値とのうちの大きい値又は小さい値をペプチドの体内持続性の予測値として計算する。
計算部46は、ペプチドの体内持続性の予測値を結果として出力する。
以上説明したように、第6実施形態の予測装置は、予測対象のペプチドと血漿タンパク質との間のドッキング計算を行うことにより、ペプチドの体内持続性を表す第1の体内持続性の予測値を生成する。また、予測装置は、ペプチドから特徴を表す予測用特徴ベクトルを抽出し、予測用特徴ベクトルを、予め構築された学習済みモデルへ入力することにより、ペプチドの体内持続性を表す第2の体内持続性の予測値を生成する。そして、予測装置は、生成された第1の体内持続性の予測値と、第2の体内持続性の予測値とを統合することにより、ペプチドの体内持続性の予測値を計算する。これにより、ドッキング計算によって得られた予測値と学習済みモデルにより得られた予測値との両方が反映された予測値を得ることができる。
[第7実施形態]
次に、第7実施形態について説明する。第7実施形態の予測装置は、ドッキング計算によって得られたドッキングプロファイルとペプチドから抽出される特徴量とに基づいて、機械学習アルゴリズムを用いて学習済みモデルを構築する点が第1~第6実施形態と異なる。なお、第7実施形態に係る予測装置の構成のうちの第1~第6実施形態の何れかの予測装置と同様の部分は、同一符号を付して説明を省略する。
図20は、第7実施形態に係る予測装置710の構成の一例を示すブロック図である。予測装置710は、機能的には、図20に示されるように、データ記憶部12と、学習用抽出部14と、学習用ドッキング計算部714と、学習用データ生成部715と、学習用データ記憶部716と、学習部718と、学習済みモデル記憶部720と、ドッキング計算部721と、抽出部722と、学習済みモデル予測部724と、を備えている。
学習用抽出部14は、複数の学習用のペプチドの各々について、第1~第6実施形態の何れか1つの予測装置と同様の手法によって、学習用のペプチドのペプチド情報から特徴量を抽出する。
学習用ドッキング計算部714は、データ記憶部12から複数の学習用のペプチドのペプチド情報を読み出す。そして、学習用ドッキング計算部714は、複数の学習用のペプチドの各々について、学習用のペプチド情報と血漿タンパク質との間のドッキング計算を行うことにより、学習用のペプチドのドッキングプロファイルである学習用ドッキングプロファイルを計算する。
学習用データ生成部715は、複数の学習用のペプチドの各々について、学習用抽出部14によって抽出された特徴量と、学習用ドッキング計算部714によって計算された学習用ドッキングプロファイルとを要素として持つ学習用特徴ベクトルを生成する。そして、学習用データ生成部715は、複数の学習用のペプチドの各々について、学習用特徴ベクトルと体内持続性の正解値との対を表す学習用データを生成する。そして、学習用データ生成部715は、生成した複数の学習用データを学習用データ記憶部716へ格納する。
学習用データ記憶部716には、学習用特徴ベクトルと体内持続性の正解値との対を表す学習用データが複数格納される。なお、学習用データ記憶部716に格納されている学習用特徴ベクトルは、学習用抽出部14によって学習用のペプチドから抽出された特徴量と、学習用ドッキング計算部714により計算された学習用ドッキングプロファイルとを要素として含む学習用特徴ベクトルである。
学習部718は、学習用データ記憶部716に格納された複数の学習用データに基づいて、機械学習アルゴリズムを実行することにより、学習済みモデルを生成する。この学習済みモデルは、ペプチドのドッキング計算により得られるドッキングプロファイルとペプチドから抽出される特徴量とを含む特徴ベクトルから、ペプチドの体内持続性の予測値を出力するためのモデルである。
学習済みモデル記憶部720には、学習部718により生成された学習済みモデルが格納される。
ドッキング計算部721は、体内持続性の予測対象のペプチドと血漿タンパク質との間のドッキング計算を行うことにより、予測対象のペプチドのドッキングプロファイルを計算する。なお、例えば、ドッキング計算部721は、既知のドッキング計算を行ってもよいし、上記第5実施形態と同様のドッキング計算を行ってもよい。
抽出部722は、体内持続性の予測対象のペプチドのペプチド情報から特徴量を抽出する。
学習済みモデル予測部724は、抽出部722によって抽出された特徴量及びドッキング計算部721によって計算されたドッキングプロファイルを要素として持つ予測用特徴ベクトルを生成する。そして、学習済みモデル予測部724は、予測用特徴ベクトルを学習済みモデル記憶部720に格納されている学習済みモデルへ入力することにより、予測対象のペプチドの体内持続性の予測値を生成する。
このように、学習済みモデルを生成する際の学習用データに、ドッキング計算によって得られるドッキングプロファイルも含めることにより、予測対象のペプチドの体内持続性をより精度良く予測することができる。
次に、第7実施形態の予測装置710の作用について説明する。
予測装置710は、学習済みモデルの生成処理の指示を表す指示信号を受け付けると、図21に示される学習済みモデルの生成処理ルーチンを実行する。
ステップS700において、学習用抽出部14は、データ記憶部12に格納されている複数の学習用のペプチド情報の各々から、学習用のペプチドの特徴量を抽出する。
ステップS702において、学習用ドッキング計算部714は、データ記憶部12に格納されている複数の学習用のペプチド情報の各々について、学習用のペプチド情報と血漿タンパク質との間のドッキング計算を行うことにより、学習用のペプチドの学習用ドッキングプロファイルを計算する。
ステップS704において、学習用データ生成部715は、複数の学習用のペプチドの各々について、上記ステップS700で抽出された特徴量と、上記ステップS702で計算された学習用のドッキングプロファイルとを要素として持つ学習用特徴ベクトルを生成する。
ステップS706において、学習用データ生成部715は、複数の学習用のペプチドの各々について、上記ステップS704で生成された学習用特徴ベクトルと体内持続性の正解値との対を表す学習用データを生成する。そして、学習用データ生成部715は、生成した複数の学習用データを学習用データ記憶部716へ格納する。
ステップS708において、学習部718は、学習用データ記憶部716に格納された複数の学習用データに基づいて、既知の教師あり機械学習アルゴリズムを実行することにより、ペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する。
ステップS710において、学習部718は、上記ステップS708で生成された学習済みモデルを学習済みモデル記憶部720へ格納する。
学習済みモデル記憶部720に学習済みモデルが格納され、体内持続性の予測対象のペプチド情報が予測装置710へ入力されると、予測装置710は図22に示される予測処理ルーチンを実行する。
ステップS720において、抽出部722は、体内持続性の予測対象のペプチド情報を受け付ける。
ステップS722において、抽出部722は、上記ステップS720で受け付けたペプチド情報から特徴量を抽出する。
ステップS724において、ドッキング計算部721は、上記ステップS720で受け付けたペプチド情報に対応するペプチドと血漿タンパク質との間のドッキング計算を行うことにより、予測対象のペプチドのドッキングプロファイルを計算する。
ステップS726において、学習済みモデル予測部724は、上記ステップS722で抽出された特徴量と、上記ステップS724で計算されたドッキングプロファイルとを要素として持つ予測用特徴ベクトルを生成する。
ステップS728において、学習済みモデル予測部724は、上記ステップS724で生成された予測用特徴ベクトルを、学習済みモデル記憶部720に格納された学習済みモデルへ入力することにより、予測対象のペプチドの体内持続性の予測値を生成する。
ステップS730において、学習済みモデル予測部724は、上記ステップS728で生成された体内持続性の予測値を結果として出力する。
以上詳細に説明したように、第7実施形態の予測装置は、複数の学習用のペプチドと血漿タンパク質との間のドッキング計算を行うことにより、学習用のペプチドのドッキングプロファイルである学習用ドッキングプロファイルを計算する。予測装置は、複数の学習用のペプチドの各々について、学習用のペプチドから抽出される特徴量及び学習用ドッキングプロファイルを含む学習用特徴ベクトルと学習用のペプチドの体内持続性の正解値との対を表す学習用データに基づいて、機械学習アルゴリズムを実行することにより、ペプチドのドッキング計算により得られるドッキングプロファイルとペプチドから抽出される特徴量とを含む特徴ベクトルから、ペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する。このように、学習済みモデルを生成する際の学習用データに、ドッキング計算によって得られるドッキングプロファイルも含めることにより、予測対象のペプチドの体内持続性をより精度良く予測するための学習済みモデルを得ることができる。
また、第7実施形態の予測装置は、体内持続性の予測対象のペプチドと血漿タンパク質との間のドッキング計算を行うことにより、ペプチドと前記血漿タンパク質との間のドッキングスコアを含むドッキングプロファイルを計算する。なお、ドッキングスコアは、残基毎のドッキングスコア及び全体ドッキングスコアの少なくとも一方である。そして、予測装置は、計算されたドッキングプロファイルを含む予測用特徴ベクトルを、機械学習アルゴリズムにより予め生成された学習済みモデルへ入力することにより、予測対象のペプチドの体内持続性の予測値を生成する。これにより、予測対象のペプチドの体内持続性をより精度良く予測することができる。具体的には、ドッキングプロファイルには体内持続性を予測する際に有用な情報が多く含まれているため、そのドッキングプロファイルを利用することにより、予測対象のペプチドの体内持続性をより精度良く予測することができる。より詳細には、ペプチドから抽出される特徴量には血漿タンパク質の立体構造情報が含まれない一方で、ドッキングプロファイルには血漿タンパク質の立体構造情報が含まれ、体内持続性を物理的な側面からも予測することができるようになる。このことから、ドッキングプロファイルを利用することにより、予測対象のペプチドの体内持続性をより精度良く予測することができる。
[第8実施形態]
次に、第8実施形態について説明する。第8実施形態の予測装置は、ペプチドの残基を血漿タンパク質とドッキング計算させたときの残基ドッキング計算のドッキングプロファイルを利用して、予測対象のペプチドの体内持続性を予測する点が第1~第7実施形態と異なる。なお、第8実施形態に係る予測装置の構成のうちの第1~第7実施形態の何れかの予測装置と同様の部分は、同一符号を付して説明を省略する。
上記第7実施形態の予測装置710は、ペプチド全体のドッキング計算結果であるドッキングプロファイルを利用して体内持続性を予測する。しかし、この場合には、予測対象のペプチド毎にドッキング計算を必ず実行する必要がある。例えば、残基[A,B,C,D,E,F]からなるペプチドと、残基[A’,B,C,D,E,F]からなるペプチドのように、単一の残基だけがわずかに異なったペプチド対についても、各々のペプチドについてペプチド全体のドッキング計算を必ず実行することになる。
この点、例えば、上述したように、ペプチドの残基は、血漿タンパク質の疎水性ポケットに結合しうるため、体内持続性を予測する際には、残基毎の残基ドッキング計算の結果が重要な因子となりうる。
そこで、第8実施形態では、複数種類のペプチドの残基の各々について血漿タンパク質との間の残基ドッキング計算を個別に実施しておく。そして、第8実施形態の予測装置は、予測対象のペプチドの体内持続性を予測する際には、予め計算されている残基ドッキング計算のドッキングプロファイルを利用して、ペプチドの体内持続性を予測する。以下、具体的に説明する。
図23は、第8実施形態に係る予測装置810の構成の一例を示すブロック図である。予測装置810は、機能的には、図23に示されるように、ドッキング計算結果記憶部819と、学習済みモデル記憶部820と、抽出部822と、残基特定部824と、学習済みモデル予測部826と、を備えている。
ドッキング計算結果記憶部819には、複数種類の残基の各々について当該残基の残基ドッキング計算結果である、残基のドッキングプロファイルが記憶されている。残基の種類は限定されているため、第8実施形態では、それら残基のドッキングプロファイルを予め計算しておき、ドッキング計算結果記憶部819に格納しておく。
学習済みモデル記憶部820には、ペプチドの残基のドッキングプロファイルとペプチドから抽出される特徴量とを含む特徴ベクトルから、ペプチドの体内持続性を予測するための学習済みモデルが格納されている。なお、この学習済みモデルは、学習用のペプチドの特徴ベクトルと学習用のペプチドの体内持続性の正解値との対を表す学習用データに基づく、機械学習アルゴリズムによって予め生成される。なお、この場合の学習用の特徴ベクトルは、学習用のペプチドの残基のドッキングプロファイルと、学習用のペプチドから抽出される特徴量とを要素として持つ。学習済みモデルを用いた体内持続性の予測については後述する。
抽出部822は、体内持続性の予測対象のペプチドのペプチド情報から特徴量を抽出する。なお、この特徴量は複数存在していてもよい。
残基特定部824は、体内持続性の予測対象のペプチドが有する残基の種類を特定する。この残基の種類は、ドッキング計算結果記憶部819に格納されているドッキングプロファイルを選択する際に利用される。
学習済みモデル予測部826は、残基特定部824により特定された残基の種類に対応するドッキングプロファイルを読み出し、読み出した予測対象の残基のドッキングプロファイルと、抽出部822により抽出された特徴量とを含む予測用特徴ベクトルを生成する。そして、学習済みモデル予測部826は、予測用特徴ベクトルを学習済みモデル記憶部820に格納されている学習済みモデルへ入力することにより、予測対象のペプチドの体内持続性の予測値を生成する。
このように、ペプチドが有する残基について予め残基ドッキング計算を実行しておき、それらのドッキングプロファイルを利用することにより、予測対象のペプチドの体内持続性をより効率的に予測することができる。また、残基は体内持続性の重要な因子であるとも考えられるため、そのドッキングプロファイルを利用することにより、予測対象のペプチドの体内持続性を精度良く予測することができる。
次に、第8実施形態の予測装置810の作用について説明する。学習済みモデル記憶部820に学習済みモデルが格納され、体内持続性の予測対象のペプチド情報が予測装置810へ入力されると、予測装置810は図24に示される予測処理ルーチンを実行する。
ステップS800において、抽出部822は、体内持続性の予測対象のペプチド情報を受け付ける。
ステップS802において、抽出部822は、上記ステップS800で受け付けたペプチド情報から特徴量を抽出する。
ステップS804において、残基特定部824は、上記ステップS800で受け付けたペプチド情報に対応するペプチドが有する残基の種類を特定する。
ステップS805において、学習済みモデル予測部826は、上記ステップS804で特定された残基の種類に対応するドッキングプロファイルを、ドッキング計算結果記憶部819から読み出す。
ステップS806において、学習済みモデル予測部826は、上記ステップS802で抽出された特徴量及び上記ステップS805で読み出された、ドッキングプロファイルを要素として持つ予測用特徴ベクトルを生成する。
ステップS808において、学習済みモデル予測部826は、上記ステップS806で生成された予測用特徴ベクトルを、学習済みモデル記憶部820に格納された学習済みモデルへ入力することにより、予測対象のペプチドの体内持続性の予測値を生成する。
ステップS810において、学習済みモデル予測部826は、上記ステップS808で生成された体内持続性の予測値を結果として出力する。
以上詳細に説明したように、第8実施形態の予測装置は、体内持続性の予測対象のペプチドから残基を抽出する。そして、予測装置は、複数種類の残基の各々についての、残基と血漿タンパク質との間の残基ドッキング計算結果を表すドッキングプロファイルが記憶された記憶部から、抽出された残基に対応するドッキングプロファイルを読み出す。そして、予測装置は、読み出した予測対象の残基のドッキングプロファイルを含む予測用特徴ベクトルを、機械学習アルゴリズムにより予め生成された学習済みモデルへ入力することにより、予測対象のペプチドの体内持続性を予測する。これにより、予測対象のペプチドの体内持続性をより効率的に予測することができる。また、残基の種類は体内持続性の重要な因子であるとも考えられるため、そのドッキングプロファイルを利用することにより、予測対象のペプチドの体内持続性を精度良く予測することができる。
なお、本開示は、上述した実施形態に限定されるものではなく、この開示の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記第1実施形態では、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴ベクトルの各々を抽出し、それら複数の特徴ベクトルを学習済みモデルへ入力し、学習済みモデルから出力された体内持続性の予測値の代表値を得る場合を例に説明したがこれに限定されるものではない。例えば、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴ベクトルの各々から1つの特徴ベクトルを生成し、その1つの特徴ベクトルを学習済みモデルへ入力して、体内持続性の予測値を得るようにしてもよい。この場合には、例えば、複数の特徴ベクトルを重み付き平均することにより、1つの特徴ベクトルが生成される。または、例えば、複数の特徴ベクトルから所定の特徴ベクトルを選択し、選択された複数の特徴ベクトルを重み付き平均することにより、1つの特徴ベクトルが生成される。また、学習済みモデルを生成する際にも、環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の学習特徴ベクトルの各々から1つの学習用特徴ベクトルを生成し、その学習用特徴ベクトルを用いて学習済みモデルを生成するようにしてもよい。
また、上記第7実施形態では、学習用特徴ベクトル及び予測用特徴ベクトルが、ペプチドから抽出される特徴量とドッキングプロファイルとを要素として持つベクトルである場合を例に説明したがこれに限定されるものではない。例えば、学習用特徴ベクトル及び予測用特徴ベクトルが、ドッキングプロファイルのみを要素として持つベクトルであってもよい。また、そのドッキングプロファイルには、血漿タンパク質側の残基毎に得られるドッキングスコアのみが含まれていてもよいし、残基毎のドッキングスコアの総和を表す全体ドッキングスコアが更に含まれていてもよい。
また、上記第7実施形態では、残基毎のドッキングプロファイルが予め計算されている場合を例に説明したがこれに限定されるものではない。例えば、各残基から主鎖構造を除いた側鎖部分のみでドッキング計算を予め実行し、側鎖毎のドッキングプロファイルがドッキング計算結果記憶部819に予め格納されていてもよい。
また、上記実施形態では、学習用データに基づき学習済みモデルが生成される場合を例に説明したがこれに限定されるものではない。例えば、他の学習済みモデルに基づく蒸留モデルとして本実施形態の学習済みモデルが生成されてもよい。
また、上記では本発明に係るプログラムが記憶部(図示省略)に予め記憶(インストール)されている態様を説明したが、本発明に係るプログラムは、CD-ROM、DVD-ROM及びマイクロSDカード等の記録媒体に記録されている形態で提供することも可能である。
なお、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、各処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
また、本実施形態の各処理を、汎用演算処理装置及び記憶装置等を備えたコンピュータ又はサーバ等により構成して、各処理がプログラムによって実行されるものとしてもよい。このプログラムは記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現してもよい。
10,210,310,510,610,710,810 予測装置
12 データ記憶部
14 学習用抽出部
15 学習用調整部
16,716 学習用データ記憶部
18,718 学習部
20,42,720,820 学習済みモデル記憶部
22,722,822 抽出部
23 調整部
24 生成部
30 ドッキング計算用データ記憶部
32 配座生成部
33 選定部
34 予測部
40,721 ドッキング計算部
44,724,826 学習済みモデル予測部
46 計算部
315,715 学習用データ生成部
714 学習用ドッキング計算部
819 ドッキング計算結果記憶部
824 残基特定部

Claims (33)

  1. 体内持続性の予測対象の環状ペプチドから、前記環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す予測用特徴ベクトルの各々を抽出する抽出部と、
    前記抽出部により抽出された複数の予測用特徴ベクトルを、環状ペプチドの特徴を表す特徴ベクトルからペプチドの体内持続性の予測値を出力するための予め学習された学習済みモデルへ入力することにより、前記予測対象の環状ペプチドの体内持続性の予測値を生成する生成部と、
    を含む予測装置。
  2. 前記生成部は、複数の予測用特徴ベクトルの各々を、前記学習済みモデルへ入力し、前記学習済みモデルから出力された複数の特徴ベクトルの各々に対する前記予測対象の環状ペプチドの体内持続性の予測値の代表値を生成する、
    請求項に記載の予測装置。
  3. 前記抽出部により抽出された予測用特徴ベクトルの長さが、所定長さとなるように調整する調整部を更に含み、
    前記生成部は、前記調整部により長さが調整された複数の予測用特徴ベクトルを、前記学習済みモデルへ入力することにより、前記予測対象の環状ペプチドの体内持続性の予測値を生成する、
    請求項1又は請求項2に記載の予測装置。
  4. 前記調整部は、パディング法又は線形補間法による変換によって、前記予測用特徴ベクトルの長さを調整する、
    請求項3に記載の予測装置。
  5. 複数の学習用の環状ペプチドの各々から、前記学習用の環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す学習用特徴ベクトルを抽出する学習用抽出部と、
    複数の学習用の環状ペプチドの各々について、前記学習用抽出部により抽出された複数の学習用特徴ベクトルと前記学習用の環状ペプチドの体内持続性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する学習部と、
    を含む学習済みモデルの生成装置。
  6. 前記学習用抽出部により抽出された、複数の学習用の環状ペプチドの各々に対する学習用特徴ベクトルの各々の長さが、所定長さとなるように調整する学習用調整部を更に含み、
    前記学習部は、前記学習用調整部により長さが調整された前記学習用特徴ベクトルと前記学習用の環状ペプチドの体内持続性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、前記学習済みモデルを生成する、
    請求項5に記載の学習済みモデルの生成装置。
  7. 複数の学習用の環状ペプチドの各々から特徴を表す第1学習用特徴ベクトルを抽出する学習用抽出部と、
    前記学習用抽出部により抽出された前記第1学習用特徴ベクトルの各々に対して、前記第1学習用特徴ベクトルの要素を巡回シフトさせることにより複数の第2学習用特徴ベクトルを生成し、前記第1学習用特徴ベクトル及び複数の前記第2学習用特徴ベクトルと学習用の環状ペプチドの体内持続性の正解値との対を表す学習用データを生成する学習用データ生成部と、
    前記学習用データ生成部により生成された複数の学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する学習部と、
    を含む学習済みモデルの生成装置。
  8. 体内持続性の予測対象の環状ペプチドから特徴を表す予測用特徴ベクトルを抽出する抽出部と、
    前記抽出部により抽出された前記予測用特徴ベクトルを、請求項7に記載の学習済みモデルの生成装置によって生成された学習済みモデルへ入力することにより、前記予測対象の環状ペプチドの体内持続性の予測値を生成する生成部と、
    を含む予測装置。
  9. 複数の学習用の環状ペプチドの各々から抽出された特徴を表す学習用特徴ベクトルと複数の学習用の環状ペプチドの体内持続性の正解値との対を表す学習用データに基づいて、前記学習用特徴ベクトルの両端の要素を隣接させる両端隣接層を有する畳み込みニューラルネットワークモデルを用いて機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルを生成する学習部、
    を含む学習済みモデルの生成装置。
  10. 体内持続性の予測対象の環状ペプチドから特徴を表す予測用特徴ベクトルを抽出する抽出部と、
    前記抽出部により抽出された前記予測用特徴ベクトルを、環状ペプチドの特徴を表す特徴ベクトルの両端の要素を隣接させる両端隣接層を有する学習済み畳み込みニューラルネットワークモデルであって、かつ前記特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルへ入力することにより、前記予測対象の環状ペプチドの体内持続性の予測値を生成する生成部と、
    を含む予測装置。
  11. 体内持続性の予測対象のペプチドが取りうる配座を複数生成する配座生成部と、
    所定の選定基準に基づいて、前記配座生成部により生成された複数の配座から、ドッキング計算を行う対象の配座を選定する選定部と、
    前記選定部により選定された配座に対応する予測対象のペプチドと血漿タンパク質との間においてドッキング計算を行うことにより、前記予測対象のペプチドの体内持続性を予測する予測部と、
    を含む予測装置。
  12. 前記選定部は、
    前記配座を取った場合の前記予測対象のペプチドの側鎖の長さ、
    前記配座を取った場合の前記予測対象のペプチドの側鎖の直線度合い、
    前記配座を取った場合の前記予測対象のペプチドの側鎖の付根部分の構造、
    前記配座を取った場合の前記予測対象のペプチドの側鎖の先端部付近の3次元形状、及び
    前記配座を取った場合の前記予測対象のペプチドの側鎖に含まれる荷電原子の有無の物理的条件の少なくとも1つに基づいて、複数の配座からドッキング計算を行う対象の配座を選定する、
    請求項11に記載の予測装置。
  13. 体内持続性の予測対象のペプチドと血漿タンパク質との間のドッキング計算を行うことにより、前記ペプチドの体内持続性を表す第1の体内持続性の予測値を計算するドッキング計算部と、
    前記予測対象のペプチドから抽出される特徴ベクトルを、機械学習アルゴリズムにより予め生成された学習済みモデルへ入力することにより、前記ペプチドの体内持続性を表す第2の体内持続性の予測値を生成する学習済みモデル予測部と、
    前記ドッキング計算部によって生成された前記第1の体内持続性の予測値と、前記学習済みモデル予測部により生成された前記第2の体内持続性の予測値とを統合することにより、前記ペプチドの体内持続性を計算する計算部と、
    を含む予測装置。
  14. 体内持続性の予測対象のペプチドと血漿タンパク質との間のドッキング計算を行うことにより、前記ペプチドと前記血漿タンパク質との間のドッキングスコアを含むドッキングプロファイルを計算するドッキング計算部と、
    前記ドッキング計算部により計算された前記ドッキングプロファイルを含む予測用特徴ベクトルを、機械学習アルゴリズムにより予め生成された学習済みモデルへ入力することにより、前記予測対象のペプチドの体内持続性の予測値を生成する学習済みモデル予測部と、
    を含む予測装置。
  15. 前記ドッキングプロファイルには、前記ペプチドと前記血漿タンパク質のポケット内の各残基との間のドッキングスコア及び前記ペプチドと前記血漿タンパク質との間の全体ドッキングスコアの少なくとも一方が含まれる、
    請求項14に記載の予測装置。
  16. 前記予測対象のペプチドから特徴を表す特徴量を抽出する抽出部を更に含み、
    前記学習済みモデル予測部は、前記ドッキングプロファイルと前記抽出部により抽出された前記特徴量とを含む前記予測用特徴ベクトルを、前記学習済みモデルへ入力することにより、前記予測対象のペプチドの体内持続性の予測値を生成する、
    請求項14又は請求項15に記載の予測装置。
  17. 複数の学習用のペプチドと血漿タンパク質との間のドッキング計算を行うことにより、前記学習用のペプチドのドッキングスコアを含むドッキングプロファイルである学習用のドッキングプロファイルを計算する学習用ドッキング計算部と、
    複数の前記学習用のペプチドの各々について、前記学習用ドッキング計算部により計算された学習用のドッキングプロファイルを含む学習用特徴ベクトルと前記学習用のペプチドの体内持続性の正解値との対を表す学習用データに基づいて、機械学習アルゴリズムを実行することにより、ペプチドのドッキング計算により得られるドッキングプロファイルを含む特徴ベクトルから、ペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する学習部と、
    を含む学習済みモデル生成装置。
  18. 体内持続性の予測対象のペプチドから残基を抽出する抽出部と、
    複数種類の残基の各々についての、前記残基と血漿タンパク質との間のドッキング計算結果を表すドッキングプロファイルが記憶された記憶部から、前記抽出部により抽出された前記残基に対応するドッキングプロファイルを読み出し、読み出した前記予測対象の残基のドッキングプロファイルを含む特徴ベクトルを、機械学習アルゴリズムにより予め生成された学習済みモデルへ入力することにより、前記予測対象のペプチドの体内持続性を予測する学習済みモデル予測部と、
    を含む予測装置。
  19. 体内持続性の予測対象の環状ペプチドから、前記環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す予測用特徴ベクトルの各々を抽出し、
    抽出された複数の予測用特徴ベクトルを、環状ペプチドの特徴を表す特徴ベクトルからペプチドの体内持続性の予測値を出力するための予め学習された学習済みモデルへ入力することにより、前記予測対象の環状ペプチドの体内持続性の予測値を生成する、
    処理をコンピュータが実行する予測方法。
  20. 抽出された前記予測用特徴ベクトルの長さが、所定長さとなるように調整し、
    長さが調整された前記予測用特徴ベクトルを、前記学習済みモデルへ入力することにより、前記予測対象の環状ペプチドの体内持続性の予測値を生成する、
    請求項19に記載の予測方法。
  21. 複数の学習用の環状ペプチドの各々から、前記学習用の環状ペプチドに含まれる複数の残基の各々を環状配列の開始点とした場合の特徴を表す学習用特徴ベクトルを抽出し、
    複数の学習用の環状ペプチドの各々について、抽出された複数の学習用特徴ベクトルと前記学習用の環状ペプチドの体内持続性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する、
    処理をコンピュータが実行する学習済みモデルの生成方法。
  22. 抽出された、複数の学習用の環状ペプチドの各々に対する学習用特徴ベクトルの各々の長さが、所定長さとなるように調整し、
    長さが調整された前記学習用特徴ベクトルと前記学習用の環状ペプチドの体内持続性の正解値との対である学習用データに基づいて、機械学習アルゴリズムを実行することにより、前記学習済みモデルを生成する、
    請求項21に記載の学習済みモデルの生成方法。
  23. 複数の学習用の環状ペプチドの各々から特徴を表す第1学習用特徴ベクトルを抽出し、
    抽出された前記第1学習用特徴ベクトルの各々に対して、前記第1学習用特徴ベクトルの要素を巡回シフトさせることにより複数の第2学習用特徴ベクトルを生成し、前記第1学習用特徴ベクトル及び複数の前記第2学習用特徴ベクトルと学習用の環状ペプチドの体内持続性の正解値との対を表す学習用データを生成し、
    生成された複数の学習用データに基づいて、機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する、
    処理をコンピュータが実行する学習済みモデルの生成方法。
  24. 体内持続性の予測対象の環状ペプチドから特徴を表す予測用特徴ベクトルを抽出し、
    抽出された前記予測用特徴ベクトルを、請求項23に記載の学習済みモデルの生成方法によって生成された学習済みモデルへ入力することにより、前記予測対象のペプチドの体内持続性の予測値を生成する、
    処理をコンピュータが実行する予測方法。
  25. 複数の学習用の環状ペプチドの各々から抽出された特徴を表す学習用特徴ベクトルと複数の学習用の環状ペプチドの体内持続性の正解値との対を表す学習用データに基づいて、前記学習用特徴ベクトルの両端の要素を隣接させる両端隣接層を有する畳み込みニューラルネットワークモデルを用いて機械学習アルゴリズムを実行することにより、環状ペプチドの特徴を表す特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルを生成する、
    処理をコンピュータが実行する学習済みモデルの生成方法。
  26. 体内持続性の予測対象の環状ペプチドから特徴を表す予測用特徴ベクトルを抽出し、
    抽出された前記予測用特徴ベクトルを、環状ペプチドの特徴を表す特徴ベクトルの両端の要素を隣接させる両端隣接層を有する学習済み畳み込みニューラルネットワークモデルであって、かつ前記特徴ベクトルから環状ペプチドの体内持続性の予測値を出力するための学習済み畳み込みニューラルネットワークモデルへ入力することにより、前記予測対象の環状ペプチドの体内持続性の予測値を生成する、
    処理をコンピュータが実行する予測方法。
  27. 体内持続性の予測対象のペプチドが取りうる配座を複数生成し、
    所定の選定基準に基づいて、生成された複数の配座から、ドッキング計算を行う対象の配座を選定し、
    選定された配座に対応する予測対象のペプチドと血漿タンパク質との間においてドッキング計算を行うことにより、前記予測対象のペプチドの体内持続性を予測する、
    処理をコンピュータが実行する予測方法。
  28. 体内持続性の予測対象のペプチドと血漿タンパク質との間のドッキング計算を行うことにより、前記ペプチドの体内持続性を表す第1の体内持続性の予測値を計算し、
    前記予測対象のペプチドから抽出される特徴ベクトルを、機械学習アルゴリズムにより予め生成された学習済みモデルへ入力することにより、前記ペプチドの体内持続性を表す第2の体内持続性の予測値を生成し、
    生成された前記第1の体内持続性の予測値と、生成された前記第2の体内持続性の予測値とを統合することにより、前記ペプチドの体内持続性を計算する、
    処理をコンピュータが実行する予測方法。
  29. 体内持続性の予測対象のペプチドと血漿タンパク質との間のドッキング計算を行うことにより、前記ペプチドと前記血漿タンパク質との間のドッキングスコアを含むドッキングプロファイルを計算し、
    計算された前記ドッキングプロファイルを含む予測用特徴ベクトルを、機械学習アルゴリズムにより予め生成された学習済みモデルへ入力することにより、前記予測対象のペプチドの体内持続性の予測値を生成する、
    処理をコンピュータが実行する予測方法。
  30. 複数の学習用のペプチドと血漿タンパク質との間のドッキング計算を行うことにより、前記学習用のペプチドのドッキングスコアを含むドッキングプロファイルである学習用のドッキングプロファイルを計算し、
    複数の前記学習用のペプチドの各々について、計算された学習用のドッキングプロファイルを含む学習用特徴ベクトルと前記学習用のペプチドの体内持続性の正解値との対を表す学習用データに基づいて、機械学習アルゴリズムを実行することにより、ペプチドのドッキング計算により得られるドッキングプロファイルを含む特徴ベクトルから、ペプチドの体内持続性の予測値を出力するための学習済みモデルを生成する、
    処理をコンピュータが実行する学習済みモデルの生成方法。
  31. 体内持続性の予測対象のペプチドから残基を抽出し、
    複数種類の残基の各々についての、前記残基と血漿タンパク質との間のドッキング計算結果を表すドッキングプロファイルが記憶された記憶部から、抽出された前記残基に対応するドッキングプロファイルを読み出し、読み出した前記予測対象の残基のドッキングプロファイルを含む特徴ベクトルを、機械学習アルゴリズムにより予め生成された学習済みモデルへ入力することにより、前記予測対象のペプチドの体内持続性を予測する、
    処理をコンピュータが実行する予測方法。
  32. 請求項19、請求項20、請求項24、請求項26、請求項27、請求項28、請求項29、及び請求項31の何れか1項に記載の予測方法の処理をコンピュータに実行させるための予測プログラム。
  33. 請求項21、請求項22、請求項23、請求項25、及び請求項30の何れか1項に記載の学習済みモデルの生成方法の処理をコンピュータに実行させるための学習済みモデルの生成プログラム。
JP2021035648A 2021-03-05 2021-03-05 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム Active JP7057004B1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021035648A JP7057004B1 (ja) 2021-03-05 2021-03-05 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム
US17/577,527 US20220284987A1 (en) 2021-03-05 2022-01-18 Prediction device, trained model generation device, prediction method, and trained model generation method
EP22159146.4A EP4102507A1 (en) 2021-03-05 2022-02-28 Prediction device, trained model generation device, prediction method, and trained model generation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021035648A JP7057004B1 (ja) 2021-03-05 2021-03-05 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム

Publications (2)

Publication Number Publication Date
JP7057004B1 true JP7057004B1 (ja) 2022-04-19
JP2022135688A JP2022135688A (ja) 2022-09-15

Family

ID=80595410

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021035648A Active JP7057004B1 (ja) 2021-03-05 2021-03-05 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム

Country Status (3)

Country Link
US (1) US20220284987A1 (ja)
EP (1) EP4102507A1 (ja)
JP (1) JP7057004B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11620441B1 (en) * 2022-02-28 2023-04-04 Clearbrief, Inc. System, method, and computer program product for inserting citations into a textual document

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225120A (ja) 2009-03-25 2010-10-07 Nec Corp 事例検索システム、事例検索方法および事例検索プログラム
US20120265513A1 (en) 2011-04-08 2012-10-18 Jianwen Fang Methods and systems for designing stable proteins
US20150015569A1 (en) 2013-07-15 2015-01-15 Samsung Electronics Co., Ltd. Method and apparatus for processing depth image
US20210027862A1 (en) 2018-03-30 2021-01-28 Board Of Trustees Of Michigan State University Systems and methods for drug design and discovery comprising applications of machine learning with differential geometric modeling
CN112420123A (zh) 2020-11-30 2021-02-26 上海商汤智能科技有限公司 自监督学习模型的训练方法和装置、设备以及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002354462A1 (en) 2001-12-10 2003-07-09 Fujitsu Limited Apparatus for predicting stereostructure of protein and prediction method
JP6558754B2 (ja) 2015-08-07 2019-08-14 富士通株式会社 情報処理装置、指標次元抽出方法、および指標次元抽出プログラム
US10258590B2 (en) 2015-10-14 2019-04-16 Alcresta Therapeutics, Inc. Enteral feeding device and related methods of use
BR112019021782A2 (pt) 2017-04-19 2020-08-18 Gritstone Oncology, Inc. identificação, fabricação e uso de neoantígenos
US11521712B2 (en) * 2017-05-19 2022-12-06 Accutar Biotechnology Inc. Computational method for classifying and predicting ligand docking conformations
US20200105377A1 (en) 2017-06-09 2020-04-02 Gritstone Oncology, Inc. Neoantigen identification, manufacture, and use
US12100485B2 (en) * 2018-03-05 2024-09-24 The Board Of Trustees Of The Leland Stanford Junior University Machine learning and molecular simulation based methods for enhancing binding and activity prediction
JP2020035134A (ja) * 2018-08-29 2020-03-05 株式会社豊田中央研究所 物性予測装置、物性予測モデル学習装置、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225120A (ja) 2009-03-25 2010-10-07 Nec Corp 事例検索システム、事例検索方法および事例検索プログラム
US20120265513A1 (en) 2011-04-08 2012-10-18 Jianwen Fang Methods and systems for designing stable proteins
US20150015569A1 (en) 2013-07-15 2015-01-15 Samsung Electronics Co., Ltd. Method and apparatus for processing depth image
US20210027862A1 (en) 2018-03-30 2021-01-28 Board Of Trustees Of Michigan State University Systems and methods for drug design and discovery comprising applications of machine learning with differential geometric modeling
CN112420123A (zh) 2020-11-30 2021-02-26 上海商汤智能科技有限公司 自监督学习模型的训练方法和装置、设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李 佳男,機械学習を用いた環状ペプチドの体内安定性予測手法の改良,情報処理学会 研究報告 バイオ情報学(BIO) 2019-BIO-58 [online] ,日本,情報処理学会,2019年06月10日,p.1-8,ISSN:2188-8590

Also Published As

Publication number Publication date
US20220284987A1 (en) 2022-09-08
EP4102507A1 (en) 2022-12-14
JP2022135688A (ja) 2022-09-15

Similar Documents

Publication Publication Date Title
He et al. A survey on deep learning in DNA/RNA motif mining
US20230281465A1 (en) Systems and Methods for Spatial Graph Convolutions with Applications to Drug Discovery and Molecular Simulation
Ezzat et al. Computational prediction of drug–target interactions using chemogenomic approaches: an empirical survey
Hashemifar et al. Predicting protein–protein interactions through sequence-based deep learning
Zhang et al. AutoDock CrankPep: combining folding and docking to predict protein–peptide complexes
Gao et al. Incorporation of solvent effect into multi-objective evolutionary algorithm for improved protein structure prediction
Li et al. RNA3DCNN: Local and global quality assessments of RNA 3D structures using 3D deep convolutional neural networks
Pan et al. Robust prediction of B-factor profile from sequence using two-stage SVR based on random forest feature selection
Xiong et al. A deep learning framework for improving long-range residue–residue contact prediction using a hierarchical strategy
JP7057004B1 (ja) 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム
CN116235191A (zh) 选择用于训练模型的训练数据集
Yu et al. Disulfide connectivity prediction based on modelled protein 3D structural information and random forest regression
Yao et al. Efficient algorithms to explore conformation spaces of flexible protein loops
Guo et al. TRScore: a 3D RepVGG-based scoring method for ranking protein docking models
Taylor et al. Molecular models for the core components of the flagellar type-III secretion complex
JP7057003B1 (ja) 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム
Abbas et al. Bioinformatics and management science: Some common tools and techniques
Zhou et al. Prediction of one-dimensional structural properties of proteins by integrated neural networks
Nugent De novo membrane protein structure prediction
Li et al. A machine-learning approach for predicting palmitoylation sites from integrated sequence-based features
Poluri et al. Prediction, analysis, visualization, and storage of protein–protein interactions using computational approaches
Schelhorn et al. An integrative approach for predicting interactions of protein regions
WO2019198408A1 (ja) 学習装置、学習方法、及び学習プログラム
Citarella et al. Gene Ontology Terms Visualization with Dynamic Distance-Graph and Similarity Measures (S).
VIART et al. PickPocket: Pocket binding prediction for specific ligands family using neural networks.

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20210315

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210810

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220331

R150 Certificate of patent or registration of utility model

Ref document number: 7057004

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350