JP2023108850A - 特徴量算出プログラム、特徴量算出方法、特徴量算出装置 - Google Patents

特徴量算出プログラム、特徴量算出方法、特徴量算出装置 Download PDF

Info

Publication number
JP2023108850A
JP2023108850A JP2022010118A JP2022010118A JP2023108850A JP 2023108850 A JP2023108850 A JP 2023108850A JP 2022010118 A JP2022010118 A JP 2022010118A JP 2022010118 A JP2022010118 A JP 2022010118A JP 2023108850 A JP2023108850 A JP 2023108850A
Authority
JP
Japan
Prior art keywords
type
feature amount
atomic
atomic groups
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022010118A
Other languages
English (en)
Inventor
千絵子 寺島
Chieko Terashima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2022010118A priority Critical patent/JP2023108850A/ja
Priority to EP22198688.8A priority patent/EP4220644A1/en
Priority to US17/937,571 priority patent/US20230238076A1/en
Priority to CN202211260719.XA priority patent/CN116504332A/zh
Publication of JP2023108850A publication Critical patent/JP2023108850A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

【課題】分子の構造を高い精度で特徴量に反映させることを目的としている。【解決手段】複数種別に分類される、複数の原子団が環状に配列された環状分子に関し、前記複数の原子団の各々の種別と、前記の複数の原子団の配列とを特定する構造特定情報を受信する処理と、前記複数種別のうちの任意の第1種別と任意の第2種別を特定する処理と、前記複数の原子団のうち、前記第1種別に分類される1又は複数の第1原子団と、前記第2種別に分類される1又は複数の第2原子団と、を前記構造特定情報に基づいて特定する処理と、前記構造特定情報に基づいて、前記第1原子団と前記第2原子団の前記配列における相互の距離が所定距離となる前記第1原子団と前記第2原子団の対の数を算出する処理とをコンピュータに実行させることを特徴とする特徴量算出プログラムである。【選択図】図2

Description

本発明は、特徴量算出プログラム、特徴量算出方法、特徴量算出装置に関する。
近年の創薬の分野では、候補となる分子の探索を行う手法として、機械学習が注目されており、分子の構造に基づき、機械学習で取り扱える特徴量を特定する術が考えられている。
その一例として、例えば、フィンガープリントを特徴量とする方法や、分子の配列を始めと終わりがある構造と捉えて特徴量を表現する方法等が知られている。
特表2012-509848号公報 特表2020-517290号公報
Tajimi et al. BMC Bioinformatics 2018, 19(Suppl 19):527) X. Yang et al. / Computational and Structural Biotechnology Journal 18 (2020) 153-161 Carhart et al., J. Chem. Inf., 1985.
上述した従来の技術では、分子の一部の構造が特定の配列である場合や、分子が環状の構造を含む場合等には、分子の構造を高い精度で特徴量に反映させるには不十分であった。
1つの側面では、本発明は、分子の構造を高い精度で特徴量に反映させることを目的としている。
一つの態様では、複数種別に分類される、複数の原子団が環状に配列された環状分子に関し、前記複数の原子団の各々の種別と、前記の複数の原子団の配列とを特定する構造特定情報を受信する処理と、前記複数種別のうちの任意の第1種別と任意の第2種別を特定する処理と、前記複数の原子団のうち、前記第1種別に分類される1又は複数の第1原子団と、前記第2種別に分類される1又は複数の第2原子団と、を前記構造特定情報に基づいて特定する処理と、前記構造特定情報に基づいて、前記第1原子団と前記第2原子団の前記配列における相互の距離が所定距離となる前記第1原子団と前記第2原子団の対の数を算出する処理とをコンピュータに実行させることを特徴とする特徴量算出プログラムである。
分子の構造の特徴を高精度に特徴量に反映させる。
特徴量算出装置の一例を示す図である。 第一の実施形態の特徴量について説明する図である。 特徴量算出装置のハードウェア構成の一例を示す図である。 第一の実施形態の特徴量算出部の機能を説明する図である。 構造特定情報について説明する図である。 第一の実施形態の特徴量算出装置の処理を説明するフローチャートである。 特徴量を用いた処理について説明する第一の図である。 特徴量を用いた処理について説明する第二の図である。 特徴量を用いた処理について説明する第三の図である。 第二の実施形態の特徴量について説明する図である。 第二の実施形態の特徴量算出部の機能を説明する図である。 第二の実施形態の特徴量算出装置の処理を説明するフローチャートである。
(第一の実施形態)
以下に、図面を参照して、実施形態について説明する。図1は、特徴量算出装置の一例を示す図である。
本実施形態の特徴量算出装置100には、特徴量算出プログラムがインストールされており、特徴量算出プログラムを実行することで、特徴量算出部110の機能を実現する。特徴量算出部110の詳細は後述する。
本実施形態の特徴量算出装置100は、例えば、情報処理装置200等と、ネットワーク等を介して接続される。
本実施形態の特徴量算出装置100は、情報処理装置200から、分子の構造を特定する構造特定情報が入力されると、特徴量算出部110により、構造特定情報を用いて分子の構造を示す特徴量を算出し、情報処理装置200に出力する。
構造特定情報10は、複数の原子団が環状に配列された分子の構造を特定する情報である。構造特定情報10の詳細は後述する。
特徴量算出装置100は、構造特定情報10が入力されると、構造特定情報10に含まれる複数の原子団のそれぞれについて、n個隣に配置されている特定種の原子団の数を示す情報を特徴量として取得し、情報処理装置200に出力する。
情報処理装置200は、学習部を有していてもよく、特徴量算出装置100から出力された特徴量を用いた機械学習を行ってもよい。具体的には、例えば、本実施形態の特徴量30は、創薬に必要な物質量の予測等に用いられてもよい。
本実施形態では、特徴量をこのように表現することで、分子の特徴量に、分子に特定の原子団が含まれること、複数の原子団が環状に配列していること、を反映させることができる。したがって、本実施形態によれば、高い精度で、分子の構造を特徴量に反映させることができる。
なお、本実施形態において、原子団とは、分子の中の部分構造を示す。具体的には、本実施形態の部分構造(原子団)は、アミノ酸である。また、本実施形態の分子とは、環状ペプチドを示す。言い換えれば、環状ペプチドは、複数のアミノ酸を環状に配列した分子である。
アミノ酸の種類としては、例えば、アスパラギン酸、ロイシン、リシン等がある。以下の説明では、アスパラギン酸を「asp」と表現し、ロイシンを「leu」と表現し、リシンを「lys」と表現する場合がある。
なお、図1の例では、構造特定情報10は、情報処理装置200から入力されるものとしたが、これに限定されない。構造特定情報10は、特徴量算出装置100に直接入力されてもよい。
また、図1の例では、特徴量30が情報処理装置200に出力されるものとしたが、これに限定されない。特徴量30は、情報処理装置200以外の装置に出力されてもよい。また、特徴量30の出力先は、例えば、特徴量30を用いた機械学習を行う学習装置であってもよい。
以下に、図2を参照して、本実施形態の特徴量について説明する。図2は、第一の実施形態の特徴量について説明する図である。図2(A)は、環状ペプチドの一例を示し、図2(B)は、特徴量30の一例を示す。
本実施形態では、環状ペプチド20に含まれる各原子団である各アミノ酸について、あるアミノ酸と、環状ペプチド20の配列において当該アミノ酸から数えてn番目に位置するアミノ酸とのペアを数える。そして、本実施形態では、nの値を行とし、ペアに含まれるアミノ酸の種類を示す情報を列とし、ペアの数を成分とした行列を、特徴量とする。
ここで、本明細書においては、nの値を、環状ペプチド20におけるアミノ酸同士の「距離」と呼ぶこととする。この場合、本実施形態の特徴量30は、環状ペプチド20におけるアミノ酸毎に、あるアミノ酸と他のアミノ酸との距離を示すnの値と、あるアミノ酸から距離nの位置に配置された他のアミノ酸の数とを含む情報と言える。この情報は、言い換えれば、環状ペプチド20に含まれるアミノ酸の配列における、各アミノ酸と他のアミノ酸との位置関係を示す情報とも言える。
また、特徴量30は、あるアミノ酸の種類と、あるアミノ酸からn番目に位置する他のアミノ酸の種類とを示す情報を含む。
つまり、本実施形態の特徴量30は、環状ペプチド20に含まれるアミノ酸の配列における、各アミノ酸と他のアミノ酸との位置関係を示す情報と、各アミノ酸の種類と他のアミノ酸の種類とを示す情報と言える。
なお、本実施形態の他のアミノ酸は、あるアミノ酸と同じ種類のアミノ酸であってもよいし、異なる種類のアミノ酸であってもよい。
図2(A)に示す環状ペプチド20は、ロイシン(leu)、アスパラギン酸(asp)、リシン(lys)を環状に配列した構造である。
このため、本実施形態では、ロイシンと、ロイシンからn番目に位置するロイシンとのペア(leu-leu)の数、ロイシンと、ロイシンからn番目に位置するアスパラギン酸とのペア(leu-asp)の数、ロイシンと、ロイシンからn番目に位置するリシンとのペア(leu-lys)の数と、をそれぞれ数える。
言い換えれば、本実施形態では、ロイシンから距離nの位置に配置された他のアミノ酸の数を数える。ここで、他のアミノ酸とは、ロイシン、アスパラギン酸、リシンを含む。
さらに、本実施形態では、アスパラギン酸と、アスパラギン酸からn番目に位置するアスパラギン酸とのペア(asp-asp)の数、リシンと、リシンからn番目に位置するリシンとのペア(lys-lys)の数と、リシンと、リシンからn番目に位置するアスパラギン酸とのペア(lys-asp)の数と、を数える。
言い換えれば、本実施形態では、アスパラギン酸から距離nの位置に配置された他のアミノ酸の数と、リシンから距離nの位置に配置された他のアミノ酸の数と、を数える。ここで、他のアミノ酸とは、ロイシン、アスパラギン酸、リシンを含む。
具体的には、図2に示す環状ペプチド20において、n=1である「leu-leu」のペアは、ペア21の1つのみである。言い換えれば、環状ペプチド20において、あるロイシンを基準とし、基準とされたロイシンから1番目の位置に配置されたロイシンの総数は1つである。
また、環状ペプチド20において、n=1である「leu-lys」のペアは、ペア22、23、24の3つである。言い換えれば、環状ペプチド20において、あるロイシンを基準とし、基準とされたロイシンから1番目の位置に配置されたリシンの総数は3つである。
同様に、環状ペプチド20において、n=2である「leu-leu」のペアは1つである。言い換えれば、環状ペプチド20において、あるロイシンを基準とし、基準とされたロイシンから2番目の位置に配置されたロイシンの総数は1つである。
また、環状ペプチド20において、n=3である「leu-leu」のペアは1つである。言い換えれば、環状ペプチド20において、あるロイシンを基準とし、基準とされたロイシンから3番目の位置に配置されたロイシンの総数は1つである。
このように、本実施形態では、環状ペプチド20に含まれる複数のアミノ酸において、取り得るアミノ酸の種類の組み合わせ(ペア)を特定する。そして、本実施形態では、特定したペアにおけるアミノ酸の種類と、ペアに含まれるアミノ酸同士の距離と、距離毎のペアの数とを対応付けた行列を特徴量30とする。
このため、本実施形態によれば、環状ペプチドに特化した特徴量を作成することができ、環状ペプチドの構造の特徴を高精度に特徴量に反映させることができる。このため、本実施形態によれば、この特徴量を利用した機械学習による創薬の加速に貢献できる。
以下に、図3を参照して、本実施形態の特徴量算出装置100のハードウェア構成について説明する。図3は、特徴量算出装置のハードウェア構成の一例を示す図である。
本実施形態の特徴量算出装置100は、それぞれバスB1で相互に接続されている入力装置11、出力装置12、ドライブ装置13、補助記憶装置14、メモリ装置15、演算処理装置16及びインターフェース装置17を含むコンピュータである。
入力装置11は、各種の情報の入力を行うための装置であり、例えばキーボードやポインティングデバイス等により実現される。出力装置12は、各種の情報の出力を行うためものであり、例えばディスプレイ等により実現される。インターフェース装置17は、LANカード等を含み、ネットワークに接続する為に用いられる。
特徴量算出装置100が有する特徴量算出部110を実現する特徴量算出プログラムは、特徴量算出装置100を制御する各種プログラムの少なくとも一部である。特徴量算出プログラムは、例えば、記録媒体18の配布やネットワークからのダウンロード等によって提供される。特徴量算出プログラムを記録した記録媒体18は、CD-ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
記録媒体18に記録された特徴量算出プログラムは、特徴量算出プログラムを記録した記録媒体18がドライブ装置13にセットされると、記録媒体18からドライブ装置13を介して補助記憶装置14にインストールされる。ネットワークからダウンロードされた特徴量算出プログラムは、インターフェース装置17を介して補助記憶装置14にインストールされる。
補助記憶装置14は、特徴量算出装置100にインストールされた特徴量算出プログラムを格納すると共に、特徴量算出装置100による各種の必要なファイル、データ等を格納する。メモリ装置15は、特徴量算出装置100の起動時に補助記憶装置14から特徴量算出プログラムを読み出して格納する。そして、演算処理装置16はメモリ装置15に格納された特徴量算出プログラムに従って、後述するような各種処理を実現している。
次に、図4を参照して、本実施形態の特徴量算出部110の機能について説明する。図4は、第一の実施形態の特徴量算出部の機能を説明する図である。
本実施形態の特徴量算出部110は、入力受付部111、ペア特定部112、ペア数カウント部113、特徴量取得部114、出力部115を有する。
入力受付部111は、特徴量算出装置100に対する各種の入力を受け付ける。具体的には、入力受付部111は、特徴量算出装置100に対して入力された構造特定情報10を受け付ける。
ペア特定部112は、構造特定情報10を参照して、アミノ酸同士が指定された距離にあるペアを特定する。
ペア数カウント部113は、環状ペプチドに含まれる、特定されたペアの数をカウントする。
特徴量取得部114は、特定されたペアと、ペアに含まれるアミノ酸同士の距離と、ペア数カウント部113によるカウント数とを行列で示した特徴量を取得する。
出力部115は、特徴量取得部114が取得した特徴量を情報処理装置200等の外部装置へ出力する。
次に、図5を参照して、本実施形態の構造特定情報10について説明する。図5は、構造特定情報について説明する図である。図5(A)は、環状ペプチドの一例を示しており、図5(B)は、環状ペプチドの構造を特定する構造特定情報の一例を示す。
本実施形態の構造特定情報10は、環状ペプチド20に含まれるアミノ酸の種類と、あるアミノ酸に対して隣接するアミノ酸の種類とを含む情報である。
具体的には、環状ペプチド20には、図5(A)に示すように、アスパラギン酸、ロイシン、リシンの3種類のアミノ酸が含まれる。また、環状ペプチド20は、6つのアミノ酸が含まれる。
構造特定情報10は、環状ペプチド20に含まれるアミノ酸の配列を示す行例であり、各列各行の成分は、各列各行が示すアミノ酸同士が隣接しているか否かを示す。
本実施形態では、構造特定情報10において、各列各行の成分が「0」である場合、各列各行が示すアミノ酸同士は隣接していない(距離n=2以上)ことを示し、各列各行の成分が「1」である場合、各列各行が示すアミノ酸同士は隣接している(距離n=1)ことを示す。
具体的には、例えば、図5(B)の構造特定情報10において、1列2行目の成分と、1列6行目の成分とは、「1」であり、環状ペプチド20において、アスパラギン酸は、ロイシンとリシンとに隣接していることがわかる。また、構造特定情報10において、2列2行目の成分と2列3行目の成分が「1」であり、環状ペプチド20において、アスパラギン酸の隣に配置されたロイシンは、リシンとも隣接することがわかる。
本実施形態の構造特定情報10は、例えば、情報処理装置200の利用者等によって予め作成されて、特徴量算出装置100に入力されてよい。
次に、図6を参照して、本実施形態の特徴量算出装置100の処理について説明する。図6は、第一の実施形態の特徴量算出装置の処理を説明するフローチャートである。
本実施形態の特徴量算出装置100の特徴量算出部110は、入力受付部111により、構造特定情報10の入力を受け付ける(ステップS601)。続いて、特徴量算出装置100は、ペア特定部112により、構造特定情報10からアミノ酸の配列の順番を読み込む(ステップS602)。
続いて、ペア特定部112は、構造特定情報10が示すアミノ酸の配列から、ペアに含まれるアミノ酸の1つとなる、ある種類のアミノ酸(第1原子団)を特定する(ステップS603)。
以下の説明では、ステップS603で特定されるアミノ酸の種類を「A」とし、ステップS603で特定された種類のアミノ酸を、アミノ酸Aと表現する場合がある。
続いて、ペア特定部112は、アミノ酸Aと、アミノ酸Aとペアとなるアミノ酸との距離を示すnの値を「1」とする(ステップS604)。
続いて、ペア特定部112は、構造特定情報10が示すアミノ酸の配列から、アミノ酸Aからn個隣に配置されたアミノ酸(第2原子団)を特定する(ステップS605)。
以下の説明では、ステップS605で特定されるアミノ酸の種類を「B」とし、ステップS605で特定された種類のアミノ酸をアミノ酸Bと表現する場合がある。
言い換えれば、ペア特定部112は、構造特定情報10が示すアミノ酸の配列において、「A」という種類のアミノ酸を基準とし、「A」という種類のアミノ酸からの距離nに配置された、「B」という種類のアミノ酸を特定する。
続いて、特徴量算出部110は、ペア数カウント部113により、アミノ酸Aのn個隣のアミノ酸Bの個数を数える(ステップS606)。
言い換えれば、ペア数カウント部113は、アミノ酸Aと、アミノ酸Aからn番目に位置するアミノ酸Bとを含むペア(対)の数を数える。
続いて、特徴量算出部110は、構造特定情報10が示すアミノ酸の配列において、nの値が最大の値となるまで、ステップS603からステップS606の処理を行ったか否かを判定する(ステップS607)。nの最大値とは、構造特定情報10が示す環状ペプチドに含まれるアミノ酸の数であってよい。
ステップS607において、nの値が最大となっていない場合、特徴量算出部110は、n=n+1とし(ステップS608)、ステップS605に戻る。
ステップS607において、nの値が最大となった場合、特徴量算出部110は、構造特定情報10に含まれる全ての種類のアミノ酸について、ステップS604からステップS608までの処理を行ったか否かを判定する(ステップS609)。
ステップS609において、全ての種類のアミノ酸について処理を行っていない場合、特徴量算出部110は、ステップS603で特定された種類とは異なる種類を種類「A」とし(ステップS610)、ステップS604に戻る。
ステップS609において、全ての種類のアミノ酸について処理を行った場合、特徴量算出部110は、特徴量取得部114により、ペア数カウント部113が取得した数を行列で表現した特徴量30を取得する(ステップS611)。
続いて、特徴量算出部110は、出力部115により、取得した特徴量30を情報処理装置200等の外部装置へ出力し(ステップS612)、処理を終了する。
このように、本実施形態の特徴量算出装置100は、複数種別に分類される、複数の原子団が環状に配列された環状分子である環状ペプチドに関し、複数の原子団(アミノ酸)の各々の種別と複数の原子団の配列とを特定する構造特定情報を受信する処理を実行する。また、特徴量算出装置100は、構造特定情報を受信すると、複数種別のうちの任意の第1種別(アミノ酸A)と任意の第2種別(アミノ酸B)を特定する処理と、複数の原子団のうち、第1種別に分類される1又は複数の第1原子団と、第2種別に分類される1又は複数の第2原子団と、を構造特定情報に基づいて特定する処理と、を実行する。さらに、特徴量算出装置100は、構造特定情報に基づいて、第1原子団と第2原子団の配列における相互の距離nが所定距離となる第1原子団と第2原子団の対の数を算出する処理を実行する。
本実施形態を適用して取得した特徴量に基づいて複数の環状ペプチドの相互類似度を算出したり、特徴量を機械学習等の処理に適用することができる。図7Aは、特徴量を用いた処理について説明する第一の図である。図7Bは、特徴量を用いた処理について説明する第二の図である。図7Cは、特徴量を用いた処理について説明する第三の図である。
図7A、図7B、図7Cのそれぞれは、環状ペプチド71、環状ペプチド72、環状ペプチド73について、本実施形態を適用して特徴量を取得した場合を示している。
図7Aに示す特徴量31は、2つのアミノ酸Aと、1つのアミノ酸Bを含む環状ペプチド71について、本実施形態を適用して取得した特徴量である。また、図7Bに示す特徴量32は、3つのアミノ酸Aと、1つのアミノ酸Bとを含む環状ペプチド72について、本実施形態を適用して取得した特徴量である。また、図7Cに示す特徴量33は、2つのアミノ酸Aと、3つのアミノ酸Bを含む環状ペプチド73について、本実施形態を適用して取得した特徴量である。
本実施形態では、特徴量算出装置100が算出した特徴量31、32、33に基づき、情報処理装置200が環状ペプチド71、72、73の類似度を算出した。具体的には、本実施形態では、コサイン類似度計算式を用いて環状ペプチド71、72、73の類似度を算出した。コサイン類似度計算式とは、行列を1行のベクトルとみなし、ベクトル間のなす角度から類似度を算出する方法である。
図7の例では、環状ペプチド71と環状ペプチド72との類似度は0.77であり、環状ペプチド71と環状ペプチド73との類似度は0.51であり、環状ペプチド72と環状ペプチド73との類似度は0.50となった。
このように、本実施形態を適用した特徴量を用いることで、環状ペプチドのサイズ等に関わらず、環状ペプチド同士の類似性を比較、検討することができる。また、情報処理装置200が、既知の環状ペプチドの属性値を含む教師データに基づいて機械学習を行い、特徴量算出装置100が算出した特徴量31、32、33に基づいて、環状ペプチド71、72、73の属性値を推定してもよい。また、情報処理装置200が、特徴量31、32、33と環状ペプチド71、72、73の属性値に関する情報に基づいて機械学習を行ってもよい。尚、情報処理装置200は、それぞれバスで相互に接続されている入力装置、出力装置、ドライブ装置、補助記憶装置、メモリ装置、演算処理装置及びインターフェース装置を含むコンピュータである。
(第二の実施形態)
以下に、図面を参照して、第二の実施形態について説明する。第二の実施形態では、アミノ酸同士の距離nを、環状分子における環の第1方向の距離とするか、又は、第1方向とは逆の第2方向の距離とするか、指定する点が、第一の実施形態と相違する。以下の第二の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。
図8は、第二の実施形態の特徴量について説明する図である。図8(A)、(B)では、アミノ酸の配列において、種類「A」のアミノ酸、種類「B」のアミノ酸、種類「C」のアミノ酸が、アミド結合(-NHCO-)によって結合された状態を示している。
この場合、アミノ酸同士は、アミド結合によって結合されるため、アミノ酸A、アミノ酸B、アミノ酸Cが図面上の右回り方向でこの順番に配列されている場合と、アミノ酸A、アミノ酸B、アミノ酸Cが図面上の左回り方向でこの順番に配列されている場合とで、構造が異なる。
図8(A)では、右回り方向(矢印Y1方向)にアミノ酸A、アミノ酸B、アミノ酸Cの順で配列した場合の例を示す。この場合、アミノ酸AのN末端がアミノ酸BのC末端と結合され、アミノ酸BのN末端とアミノ酸CのC末端とが結合される。
図8(B)は、左回り方向(矢印Y2方向)にアミノ酸A、アミノ酸B、アミノ酸Cの順で配列した場合を示す。この場合、アミノ酸AのC末端がアミノ酸BのN末端と結合され、アミノ酸BのC末端とアミノ酸CのN末端とが結合される。
したがって、図8(A)における、距離n=1のアミノ酸Aとアミノ酸Bのペアと、図8(B)における、距離n=1のアミノ酸Aとアミノ酸Bのペアとでは、構造が異なる。
本実施形態では、この点に着目し、アミノ酸同士のペアを決定する際に、アミノ酸同士
距離が、右回り方向に向かう距離であるか、又は、左回り方向に向かう距離であるかを指定する。具体的には、本実施形態では、構造特定情報10と共に、アミノ酸同士の距離が右回り方向の距離であるか、又は、左回り方向の距離であるかを指定する方向指定情報の入力を受け付ける。
そして、本実施形態では、構造特定情報10と方向指定情報とに基づき、環状ペプチドの特徴量を算出する。
また、本実施形態では、方向指定情報により、アミノ酸同士の距離の向きが特定されるため、ペアに含まれるアミノ酸同士が同じであっても、異なるペアとしてカウントされる。
図8(C)に示す環状ペプチド80では、アミノ酸A、アミノ酸B、アミノ酸Cと、他の2つのアミノ酸を含む。
この場合に、アミノ酸同士の距離を右回り方向の距離とした場合、アミノ酸Aとアミノ酸Cのペアは、アミノ酸Aから右回り方向に2個隣のアミノ酸Cのペアと、アミノ酸Cから右回り方向に3個隣のアミノ酸Cのペアとなる。
言い換えれば、環状ペプチド80において、右回り方向に向かう距離をアミノ酸同士の距離とした場合に、アミノ酸Aとアミノ酸Cを含むペアは、距離n=2のアミノ酸A-アミノ酸Cのペアと、距離n=3のアミノ酸C-アミノ酸Aのペアとなる。
このように、本実施形態では、ペアに含まれるアミノ酸の種類が同一であっても、距離を特定する際の方向が指定されているため、これらのペアが別々にカウントされる。このため、本実施形態では、アミノ酸の配列をより正確に表現することができる。
以下に、図9を参照して、本実施形態の特徴量算出部110Aの機能構成について説明する。図9は、第二の実施形態の特徴量算出部の機能を説明する図である。
本実施形態の特徴量算出部110Aは、入力受付部111、ペア特定部112A、ペア数カウント部113、特徴量取得部114、出力部115、方向特定部116を含む。
ペア特定部112Aは、あるアミノ酸から、方向特定部116により特定された方向に向かって距離nの位置にある他のアミノ酸を、あるアミノ酸とペアとなるアミノ酸に特定する。
方向特定部116は、情報処理装置200等から入力される方向指定情報に基づき、環状ペプチドにおけるアミノ酸同士の距離を数える際の方向を特定する。
以下に、図10を参照して、本実施形態の特徴量算出部110Aの処理について説明する。図10は、第二の実施形態の特徴量算出装置の処理を説明するフローチャートである。
本実施形態の特徴量算出部110Aは、入力受付部111により、構造特定情報10の入力を受け付ける(ステップS1001)。続いて、特徴量算出部110Aは、入力受付部111により、方向指定情報の入力を受け付ける(ステップS1002)。
図10のステップS1003からステップS1005までの処理は、図6のステップS602からステップS604までの処理と同様であるから、説明を省略する。
特徴量算出部110Aは、ステップS1005に続いて、ペア特定部112Aにより、ステップS1002で入力された方向指定情報を参照し、種類「A」のアミノ酸から指定された方向へ向かって距離nの位置に配置されたアミノ酸を特定し(ステップS1006)、ステップS1007へ進む。
図10のステップS1007からステップS1013までの処理は、図6のステップS606からステップS612までの処理と同様であるから、説明を省略する。
このように、本実施形態では、あるアミノ酸から距離nの位置に配置された他のアミノ酸を特定する際に、指定された方向へ向かって距離nの他のアミノ酸を特定する。このため、本実施形態によれば、アミノ酸の配列により形成された環状ペプチドの構造を、高い精度で特徴量に反映させることができる。
開示の技術では、以下に記載する付記のような形態が考えられる。
(付記1)
複数種別に分類される、複数の原子団が環状に配列された環状分子に関し、前記複数の原子団の各々の種別と、前記の複数の原子団の配列とを特定する構造特定情報を受信する処理と、
前記複数種別のうちの任意の第1種別と任意の第2種別を特定する処理と、
前記複数の原子団のうち、前記第1種別に分類される1又は複数の第1原子団と、前記第2種別に分類される1又は複数の第2原子団と、を前記構造特定情報に基づいて特定する処理と、
前記構造特定情報に基づいて、前記第1原子団と前記第2原子団の前記配列における相互の距離が所定距離となる前記第1原子団と前記第2原子団の対の数を算出する処理と
をコンピュータに実行させることを特徴とする特徴量算出プログラム。
(付記2)
前記環状分子の環に沿った第1方向と、前記第1方向とは逆向きに前記環に沿った第2方向の何れかを指定する方向指定情報を受信する処理と、
前記方向指定情報によって指定される方向に沿って前記距離を算出する処理と、
を更にコンピュータに実行させる付記1記載の特徴量算出プログラム。
(付記3)
前記複数の原子団の各々は、アミノ酸であり、前記環状分子は、環状ペプチドである、付記1又は2記載の特徴量算出プログラム。
(付記4)
コンピュータによる特徴量算出方法であって、前記コンピュータが、
複数種別に分類される、複数の原子団が環状に配列された環状分子に関し、前記複数の原子団の各々の種別と、前記の複数の原子団の配列とを特定する構造特定情報を受信する処理と、
前記複数種別のうちの任意の第1種別と任意の第2種別を特定する処理と、
前記複数の原子団のうち、前記第1種別に分類される1又は複数の第1原子団と、前記第2種別に分類される1又は複数の第2原子団と、を前記構造特定情報に基づいて特定する処理と、
前記構造特定情報に基づいて、前記第1原子団と前記第2原子団の前記配列における相互の距離が所定距離となる前記第1原子団と前記第2原子団の対の数を算出する処理と
を実行する特徴量算出方法。
(付記5)
複数種別に分類される、複数の原子団が環状に配列された環状分子に関し、前記複数の原子団の各々の種別と、前記の複数の原子団の配列とを特定する構造特定情報を受信する受信部と、
前記複数種別のうちの任意の第1種別と任意の第2種別を特定する第1処理部と、
前記複数の原子団のうち、前記第1種別に分類される1又は複数の第1原子団と、前記第2種別に分類される1又は複数の第2原子団と、を前記構造特定情報に基づいて特定する第2処理部と、
前記構造特定情報に基づいて、前記第1原子団と前記第2原子団の前記配列における相互の距離が所定距離となる前記第1原子団と前記第2原子団の対の数を算出する第3処理部と、
を有する特徴量算出装置。
本発明は、具体的に開示された実施形態に限定されるものではなく、特許請求の範囲から脱することなく、種々の変形や変更が可能である。
10 構造特定情報
20 環状ペプチド
100 特徴量算出装置
110、110A 特徴量算出部
111 入力受付部
112、112A ペア特定部
113 ペア数カウント部
114 特徴量取得部
115 出力部
116 方向特定部
200 情報処理装置

Claims (5)

  1. 複数種別に分類される、複数の原子団が環状に配列された環状分子に関し、前記複数の原子団の各々の種別と、前記の複数の原子団の配列とを特定する構造特定情報を受信する処理と、
    前記複数種別のうちの任意の第1種別と任意の第2種別を特定する処理と、
    前記複数の原子団のうち、前記第1種別に分類される1又は複数の第1原子団と、前記第2種別に分類される1又は複数の第2原子団と、を前記構造特定情報に基づいて特定する処理と、
    前記構造特定情報に基づいて、前記第1原子団と前記第2原子団の前記配列における相互の距離が所定距離となる前記第1原子団と前記第2原子団の対の数を算出する処理と
    をコンピュータに実行させることを特徴とする特徴量算出プログラム。
  2. 前記環状分子の環に沿った第1方向と、前記第1方向とは逆向きに前記環に沿った第2方向の何れかを指定する方向指定情報を受信する処理と、
    前記方向指定情報によって指定される方向に沿って前記距離を算出する処理と、
    を更にコンピュータに実行させる請求項1記載の特徴量算出プログラム。
  3. 前記複数の原子団の各々は、アミノ酸であり、前記環状分子は、環状ペプチドである、請求項1又は2記載の特徴量算出プログラム。
  4. コンピュータによる特徴量算出方法であって、前記コンピュータが、
    複数種別に分類される、複数の原子団が環状に配列された環状分子に関し、前記複数の原子団の各々の種別と、前記の複数の原子団の配列とを特定する構造特定情報を受信する処理と、
    前記複数種別のうちの任意の第1種別と任意の第2種別を特定する処理と、
    前記複数の原子団のうち、前記第1種別に分類される1又は複数の第1原子団と、前記第2種別に分類される1又は複数の第2原子団と、を前記構造特定情報に基づいて特定する処理と、
    前記構造特定情報に基づいて、前記第1原子団と前記第2原子団の前記配列における相互の距離が所定距離となる前記第1原子団と前記第2原子団の対の数を算出する処理と
    を実行する特徴量算出方法。
  5. 複数種別に分類される、複数の原子団が環状に配列された環状分子に関し、前記複数の原子団の各々の種別と、前記の複数の原子団の配列とを特定する構造特定情報を受信する受信部と、
    前記複数種別のうちの任意の第1種別と任意の第2種別を特定する第1処理部と、
    前記複数の原子団のうち、前記第1種別に分類される1又は複数の第1原子団と、前記第2種別に分類される1又は複数の第2原子団と、を前記構造特定情報に基づいて特定する第2処理部と、
    前記構造特定情報に基づいて、前記第1原子団と前記第2原子団の前記配列における相互の距離が所定距離となる前記第1原子団と前記第2原子団の対の数を算出する第3処理部と、
    を有する特徴量算出装置。
JP2022010118A 2022-01-26 2022-01-26 特徴量算出プログラム、特徴量算出方法、特徴量算出装置 Pending JP2023108850A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2022010118A JP2023108850A (ja) 2022-01-26 2022-01-26 特徴量算出プログラム、特徴量算出方法、特徴量算出装置
EP22198688.8A EP4220644A1 (en) 2022-01-26 2022-09-29 Feature amount calculation program, feature amount calculation method, and feature amount calculation device
US17/937,571 US20230238076A1 (en) 2022-01-26 2022-10-03 Computer-readable recording medium storing feature amount calculation program, feature amount calculation method, and feature amount calculation device
CN202211260719.XA CN116504332A (zh) 2022-01-26 2022-10-14 计算机可读记录介质、特征量计算方法和特征量计算装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022010118A JP2023108850A (ja) 2022-01-26 2022-01-26 特徴量算出プログラム、特徴量算出方法、特徴量算出装置

Publications (1)

Publication Number Publication Date
JP2023108850A true JP2023108850A (ja) 2023-08-07

Family

ID=83508783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022010118A Pending JP2023108850A (ja) 2022-01-26 2022-01-26 特徴量算出プログラム、特徴量算出方法、特徴量算出装置

Country Status (4)

Country Link
US (1) US20230238076A1 (ja)
EP (1) EP4220644A1 (ja)
JP (1) JP2023108850A (ja)
CN (1) CN116504332A (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012509848A (ja) 2008-11-24 2012-04-26 シドニー ウェスト エリア ヘルス サービス 環状ペプチドおよびその使用
EP3596106B1 (en) 2017-04-26 2021-08-11 Hunan Zonsen Peplib Biotech Co., Ltd Peptide library constructing method
CN108062551A (zh) * 2017-06-28 2018-05-22 浙江大学 一种基于邻接矩阵的图特征提取系统、图分类系统和方法
EP3821433B1 (en) * 2018-09-21 2024-06-05 DeepMind Technologies Limited Iterative protein structure prediction using gradients of quality scores
JPWO2021106706A1 (ja) * 2019-11-28 2021-06-03

Also Published As

Publication number Publication date
EP4220644A1 (en) 2023-08-02
CN116504332A (zh) 2023-07-28
US20230238076A1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
Daily Parasail: SIMD C library for global, semi-global, and local pairwise sequence alignments
Goldberg et al. LocTree2 predicts localization for all domains of life
Blom et al. Exact and complete short-read alignment to microbial genomes using Graphics Processing Unit programming
Li et al. Evaluating the effect of database inflation in proteogenomic search on sensitive and reliable peptide identification
US20200209236A1 (en) Methods for identifying candidate biomarkers
Ashkenazy et al. Multiple sequence alignment averaging improves phylogeny reconstruction
CN109872781A (zh) 基于Xgboost的药物靶点识别方法
Sulimov et al. Development of docking programs for Lomonosov supercomputer
JP2023108850A (ja) 特徴量算出プログラム、特徴量算出方法、特徴量算出装置
Ravindra et al. Rigid graph alignment
Santa Maria Jr et al. Perspective on the challenges and opportunities of accelerating drug discovery with artificial intelligence
US7945396B2 (en) Molecular force field assignment method, molecular force field assignment apparatus and molecular force field assignment program
Zeni et al. On the genome sequence alignment fpga acceleration via ksw2z
Chionh et al. Augmenting SSEs with structural properties for rapid protein structure comparison
Li et al. CycPeptMP: Enhancing Membrane Permeability Prediction of Cyclic Peptides with Multi-Level Molecular Features and Data Augmentation
モハマド,レザファイサル Effect of Features Generated from Adjacent and Overlapped Segments in Protein Sequence Classification
CN109273048B (zh) 一种蛋白质表面残基的快速确定方法
Li et al. On de novo Bridging Paired-end RNA-seq Data
Lladós et al. PPCAS: Implementation of a probabilistic pairwise model for consistency-based multiple alignment in apache spark
WO2024048460A1 (ja) 分子間相互作用解析装置、分子間相互作用解析方法及びプログラム
Mohd-Hilmi et al. Accelerating group fusion for ligand-based virtual screening on multi-core and many-core platforms
WO2024130589A1 (en) Fragment-based quantum mechanical calculation of protein properties
Pfab et al. DeepTracer: Automated protein complex structure prediction from CoV-related Cryo-EM density maps
Zhang et al. π-PrimeNovo: An Accurate and Efficient Non-Autoregressive Deep Learning Model for De Novo Peptide Sequencing
Li Computational Methods for Predicting Protein-protein Interactions and Binding Sites