JP2022062322A - 構造探索プログラム、構造探索装置、及び構造探索方法 - Google Patents

構造探索プログラム、構造探索装置、及び構造探索方法 Download PDF

Info

Publication number
JP2022062322A
JP2022062322A JP2020170246A JP2020170246A JP2022062322A JP 2022062322 A JP2022062322 A JP 2022062322A JP 2020170246 A JP2020170246 A JP 2020170246A JP 2020170246 A JP2020170246 A JP 2020170246A JP 2022062322 A JP2022062322 A JP 2022062322A
Authority
JP
Japan
Prior art keywords
groups
lattice
value
group
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2020170246A
Other languages
English (en)
Inventor
博之 佐藤
Hiroyuki Sato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020170246A priority Critical patent/JP2022062322A/ja
Priority to US17/383,620 priority patent/US20220115085A1/en
Priority to EP21188468.9A priority patent/EP3982370A1/en
Priority to CN202110929381.1A priority patent/CN114300037A/zh
Publication of JP2022062322A publication Critical patent/JP2022062322A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の基が連結した化合物の構造を効率的に探索することができる構造探索プログラムなどの提供。【解決手段】複数の基が連結した化合物の構造を探索する構造探索プログラムであって、 複数の格子点の集合である三次元格子空間の各格子点に前記複数の基を、前記三次元格子空間における、前記複数の格子点のうちの第1の格子点に配置される前記複数の基のうちの第1の基と、前記複数の格子点のうちの第2の格子点に配置される前記複数の基のうちの一の基であって前記第1の基と連結する第2の基との間の基間距離を、前記複数の格子点の相互間の距離のうちの最短距離を基準とした係数値で表現し、前記係数値が所定値となるようにする制約項を含む目的関数式に基づき、配置し、前記三次元格子空間に前記化合物の立体構造を作成する工程、をコンピュータに行わせる構造探索プログラム等である。【選択図】図9

Description

本件は、構造探索プログラム、構造探索装置、及び構造探索方法に関する。
近年、創薬などの場面においては、計算機(コンピュータ)を用いてサイズの比較的大きな分子の安定構造を求めることが必要となる場合がある。しかし、例えば、ペプチドやタンパク質などのサイズの比較的大きな分子は、全ての原子を露わに考慮する計算では、現実的な時間内に安定構造を探索することが困難になる場合がある。
そこで、分子の構造を粗く捉える(粗視化する)ことで、計算時間を短縮する技術が研究されている。分子構造の粗視化に関する技術としては、例えば、タンパク質におけるアミノ酸残基の一次元配列情報に基づき、タンパク質を直鎖(一続き)の単純立方格子構造に粗視化して、格子タンパク質(Lattice Protein)として扱う技術が研究されている。Lattice Proteinを利用した技術においては、量子アニーリングの技術を用いて、安定構造を高速に探索する技術が報告されている(例えば、非特許文献1参照)。
Lattice Proteinを利用した技術においては、例えば、安定構造を探索するタンパク質における、各アミノ酸残基の配置に関する複数の制約に基づく目的関数式を用いて、当該タンパク質の安定構造を探索する。
しかしながら、上記の複数の制約に基づく目的関数式においては、当該複数の制約を同時に満たすことが困難である場合があり、効率的にタンパク質の構造を探索することができないときがある。
R. Babbush et.al., Construction of Energy Functions for Lattice Heteropolymer Models: A Case Study in Constraint Satisfaction Programmisng and Adiabatic Quantum Optimization, Advances in Chemical Physics, 155, 201-244
一つの側面では、本件は、複数の基が連結した化合物の構造を効率的に探索することができる構造探索プログラム、構造探索装置、及び構造探索方法を提供することを目的とする。
上記の課題を解決するための手段の一つの実施態様は、以下の通りである。
すなわち、一つの実施態様では、構造探索プログラムは、複数の基が連結した化合物の構造を探索する構造探索プログラムであって、
複数の格子点の集合である三次元格子空間の各格子点に複数の基を、
三次元格子空間における、複数の格子点のうちの第1の格子点に配置される複数の基のうちの第1の基と、複数の格子点のうちの第2の格子点に配置される複数の基のうちの一の基であって第1の基と連結する第2の基との間の基間距離を、複数の格子点の相互間の距離のうちの最短距離を基準とした係数値で表現し、係数値が所定値となるようにする制約項を含む目的関数式に基づき、
配置し、三次元格子空間に化合物の立体構造を作成する工程、
をコンピュータに行わせる。
一つの側面では、本件は、複数の基が連結した化合物の構造を効率的に探索することができる構造探索プログラム、構造探索装置、及び構造探索方法を提供できる。
図1Aは、タンパク質の粗視化して安定構造を探索する際の一例を示す模式図である。 図1Bは、タンパク質の粗視化して安定構造を探索する際の一例を示す模式図である。 図1Cは、タンパク質の粗視化して安定構造を探索する際の一例を示す模式図である。 図2Aは、Diamond encording法の一例を説明するための模式図である。 図2Bは、Diamond encording法の一例を説明するための模式図である。 図2Cは、Diamond encording法の一例を説明するための模式図である。 図2Dは、Diamond encording法の一例を説明するための模式図である。 図2Eは、Diamond encording法の一例を説明するための模式図である。 図3は、Honeの一例を説明するための図である。 図4は、Holapの一例を説明するための図である。 図5は、従来技術におけるHconnの一例を説明するための図である。 図6は、Hpairの一例を説明するための図である。 図7は、Hconnの他の一例を説明するための図である。 図8は、式(E)で表される関数の関数値と変数の関係の一例を示す図である。 図9は、本件で開示する技術の一例における、最短距離を基準として表現された基間距離についての係数値が所定値となるようにする制約項の関数値と変数の関係の一例を示す図である。 図10は、格子空間における基間距離と最短距離との関係の一例を示す図である。 図11は、本件で開示する構造探索装置のハードウェア構成例を示す図である。 図12は、本件で開示する構造探索装置の他のハードウェア構成例を示す図である。 図13は、本件で開示する構造探索装置の機能構成例を示す図である。 図14は、本件で開示する技術の一例を用いてタンパク質の安定構造を探索する際のフローチャートの一例である。 図15は、半径rにある各格子をSとした場合の一例を表す図である。 図16Aは、アミノ酸残基の配置先の格子点の集合の一例を表す図である。 図16Bは、アミノ酸残基の配置先の格子点の集合の一例を表す図である。 図16Cは、アミノ酸残基の配置先の格子点の集合の一例を表す図である。 図16Dは、アミノ酸残基の配置先の格子点の集合の一例を表す図である。 図17は、S、S、Sを三次元で表した場合の一例を示す図である。 図18Aは、各ビットX~Xに空間の情報を割り振る様子の一例を示す図である。 図18Bは、各ビットX~Xに空間の情報を割り振る様子の一例を示す図である。 図18Cは、各ビットX~Xに空間の情報を割り振る様子の一例を示す図である。 図19は、Honeの一例を説明するための図である。 図20は、Holapの一例を説明するための図である。 図21Aは、Hpairの一例を説明するための図である。 図21Bは、Hpairの一例を説明するための図である。 図22は、焼き鈍し法に用いるアニーリングマシンの機能構成の一例を示す図である。 図23は、遷移制御部の動作フローの一例を示す図である。 図24Aは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータを、5~30までの5の整数倍の同じ値に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図24Bは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータを、5~30までの5の整数倍の同じ値に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図24Cは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータを、5~30までの5の整数倍の同じ値に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図24Dは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータを、5~30までの5の整数倍の同じ値に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図24Eは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータを、5~30までの5の整数倍の同じ値に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図24Fは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータを、5~30までの5の整数倍の同じ値に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図25Aは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータについて、λone及びλolapを30に固定し、λconnを5~30まで、5の整数倍に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図25Bは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータについて、λone及びλolapを30に固定し、λconnを5~30まで、5の整数倍に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図25Cは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータについて、λone及びλolapを30に固定し、λconnを5~30まで、5の整数倍に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例示す図である。 図25Dは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータについて、λone及びλolapを30に固定し、λconnを5~30まで、5の整数倍に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図25Eは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータについて、λone及びλolapを30に固定し、λconnを5~30まで、5の整数倍に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図25Fは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータについて、λone及びλolapを30に固定し、λconnを5~30まで、5の整数倍に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図26Aは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータについて、λone及びλolapを25に固定し、λconnを5~25まで、5の整数倍に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図26Bは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータについて、λone及びλolapを25に固定し、λconnを5~25まで、5の整数倍に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図26Cは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータについて、λone及びλolapを25に固定し、λconnを5~25まで、5の整数倍に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図26Dは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータについて、λone及びλolapを25に固定し、λconnを5~25まで、5の整数倍に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図26Eは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータについて、λone及びλolapを25に固定し、λconnを5~25まで、5の整数倍に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図27Aは、比較例2において、λone、λolap、及びλconnのそれぞれのパラメータを、5~30までの5の整数倍の同じ値に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図27Bは、比較例2において、λone、λolap、及びλconnのそれぞれのパラメータを、5~30までの5の整数倍の同じ値に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図27Cは、比較例2において、λone、λolap、及びλconnのそれぞれのパラメータを、5~30までの5の整数倍の同じ値に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図27Dは、比較例2において、λone、λolap、及びλconnのそれぞれのパラメータを、5~30までの5の整数倍の同じ値に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図27Eは、比較例2において、λone、λolap、及びλconnのそれぞれのパラメータを、5~30までの5の整数倍の同じ値に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図27Fは、比較例2において、λone、λolap、及びλconnのそれぞれのパラメータを、5~30までの5の整数倍の同じ値に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図28Aは、比較例2における、低エネルギー側の20種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図28Bは、比較例2において得られた「PLP-2」についての最安定構造を示す図である。 図29Aは、実施例1における、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。 図29Bは、実施例1における、「PLP-2」の立体構造の探索結果の一例を示す図である。 図29Cは、実施例1で探索した「PLP-2」の安定構造の探索結果(エネルギー値が「-432」の結果)と、当該環状ペプチドのNMRにより特定された構造とを重ね合わせて示す一例の図である。
(構造探索プログラム)
本件で開示する技術は、従来技術では、格子点の集合である三次元格子空間の各格子点に複数の基を配置して、複数の基が連結した化合物の構造を探索する際に、当該化合物の構造を効率的に探索することができないという、本発明者の知見に基づくものである。そこで、本件で開示する技術の詳細を説明する前に、従来技術の問題点等について、構造を探索する化合物がタンパク質である場合を例として説明する。
タンパク質(又はペプチド)の安定構造を探索する際には、上述したように、タンパク質を形成するアミノ酸残基を粗視化して、格子タンパク質(Lattice Protein)として扱う技術を用いることができる。ここでは、Lattice Proteinを用いた技術の一つとして、Diamond encording法によって、タンパク質の安定構造としての折り畳み構造を求める方法について説明する。
Lattice Proteinを用いたタンパク質(又はペプチド)の構造探索を行う際には、まず、タンパク質の粗視化を行う。ここで、タンパク質の粗視化は、例えば、図1Aに示すように、タンパク質を構成する原子2を、アミノ酸残基ごとの単位である粗視化粒子1A、1B、1Cに粗視化して粗視化モデルを作成することにより行う。
次に、作成した粗視化モデルを用いて安定な結合構造の探索を行う。図1Bにおいては、粗視化粒子1Cが矢印の終点に位置する結合構造が安定である場合の例を示す。ここで、安定な結合構造の探索は、後述するDiamond encording法によって行う。
そして、図1Cに示すように、Diamond encording法を用いて探索した安定な結合構造に基づいて、粗視化モデルを全原子のモデルに戻す。
ここで、Diamond encording法は、一般に、タンパク質を形成する鎖状のアミノ酸を粗視化した粒子(粗視化モデル)を、ダイアモンド格子の格子点に当てはめていく手法であり、三次元のタンパク質の構造を表現可能である。
以下では、説明の簡略化のため、Diamond encording法について、二次元の単純立方格子の場合を例として説明する。
図2Aは、5つのアミノ酸残基が結合した直鎖ペンタペプチドが直線構造を有する場合の構造の一例を示す図である。また、図2A~図2Eにおいて、丸の中の番号は、直鎖ペンタペプチドにおけるアミノ酸残基の番号を表す。
Diamond encording法において、まず、ダイアモンド格子の中心に、番号1のアミノ酸残基を配置すると、図2Aに示すように、番号2のアミノ酸残基の配置可能な場所は、中心に隣接する図2Bに示す場所(番号2が付された場所)に限定される。続いて、番号2のアミノ酸残基に結合する番号3のアミノ酸残基の配置可能な場所は、図2Cにおいて、図2Bで番号2が付された場所に隣接する場所(番号3が付された場所)に限定される。
そして、番号3のアミノ酸残基に結合する番号4のアミノ酸残基の配置可能な場所は、図2Dにおいて、図2Cで番号3が付された場所に隣接する場所(番号4が付された場所)に限定される。さらに、番号4のアミノ酸残基に結合する番号5のアミノ酸残基の配置可能な場所は、図2Eにおいて、図2Dで番号4が付された場所に隣接する場所(番号5が付された場所)に限定される。
こうして特定された配置可能な場所どうしを、アミノ酸残基の番号の順に繋いでいくことにより、粗視化したタンパク質の構造を表現することができる。
このように、Diamond encording法などを用いることにより、格子点の集合である三次元格子空間の各格子点に、粗視化したアミノ酸残基を配置することで、三次元格子空間にタンパク質(ペプチド)の立体構造を作成することができる。
ここで、三次元格子空間にタンパク質(ペプチド)の立体構造を作成して、タンパク質の構造を探索する際には、三次元格子空間における、粗視化したアミノ酸残基の配置の組み合わせを適切に選択することが求められる。粗視化したアミノ酸残基の配置の組み合わせを適切に選択するためには、例えば、アミノ酸残基の配置が所定の条件を満たすように、アミノ酸残基の配置を決定することが好ましい。
アミノ酸残基の配置についての条件としては、例えば、三次元格子空間にアミノ酸残基を配置して作成する立体構造を、タンパク質(ペプチド)として矛盾なく存在し得る構造、かつ、エネルギー的に安定な構造とすることができる条件とすることができる。このような条件としては、例えば、下記の3つの制約と、アミノ酸残基どうしの相互作用を含む条件とすることができる。
〔制約〕
・タンパク質(ペプチド)を形成するアミノ酸残基のそれぞれは一つしか存在しない
・タンパク質(ペプチド)を形成するアミノ酸残基のそれぞれは、互いに重ならない(アミノ酸残基は、一つの格子点においては重複して存在しない)
・タンパク質(ペプチド)を形成するアミノ酸残基はそれぞれ繋がっている(アミノ酸残基のうち、互いにペプチド結合するアミノ酸残基どうしは、三次元格子空間において隣接する格子点に存在する)
〔相互作用〕
・タンパク質(ペプチド)を形成するアミノ酸残基のうち、互いにペプチド結合しないアミノ酸残基どうしの相互作用
つまり、三次元格子空間にタンパク質の立体構造を作成して、タンパク質の安定構造を探索する際には、上記の3つの制約を満たすと共に、互いにペプチド結合しないアミノ酸残基どうしの相互作用が安定な(エネルギーが低い)構造を探索することが好ましい。
ここで、上記の3つの制約を満たすと共に、互いにペプチド結合しないアミノ酸残基どうしの相互作用が安定な構造を探索する際には、例えば、これらの3つの制約と相互作用をそれぞれ項(関数)として含む目的関数式を用いることができる。例えば、このような目的関数式の値が最も小さくなるアミノ酸残基の配置を探索することにより、タンパク質の安定構造を探索することができる。
このような目的関数式としては、例えば、制約条件としてHone、Holap、及びHconnを含み、相互作用を表す項としてHpairを設定すると、Diamond encording法における、全エネルギーを表す目的関数式は、次の数式のように表現できる。
Figure 2022062322000002
ここで、Honeは、1~n番目のアミノ酸残基のそれぞれは一つしか存在しないという制約を表す。
olapは、1~n番目のアミノ酸残基のそれぞれは、互いに重ならない(アミノ酸残基は、一つの格子点においては重複して存在しない)という制約を表す。
connは、1~n番目のアミノ酸残基はそれぞれ繋がっている(アミノ酸残基のうち、互いにペプチド結合するアミノ酸残基どうしは、三次元格子空間において隣接する格子点に存在する)という制約を表す。
pairは、アミノ酸残基同士の相互作用を表す。
次の式(A)は、上記の数式におけるHoneの従来技術の具体例を表す数式である。
Figure 2022062322000003
ここで、Cは、重み付けのための係数であり、正の整数である。qiは、「1」又は「0」を取る。qは、「1」又は「0」を取る。
上記のHoneについて、図3に示すように、例えば、番号2が付されたアミノ酸残基が格子空間に2つある場合、qiとqは両方とも「1」(アミノ酸残基が配置されることを意味する)となるため、上記の式(A)で表されるHoneは、正の値になる。このため、上記の式(A)で表されるHoneにおいては、同一のアミノ酸残基が2つ存在する場合、Honeは、正の値となり、全エネルギーを表す目的関数式の値を増大させる。
このため、上記の式(A)で表されるHoneの値が小さくなる(例えば、0となる)ようにアミノ酸残基の配置を探索することにより、1~n番目のアミノ酸残基のそれぞれは一つしか存在しないという制約を実現できる。
続いて、次の式(B)は、上記の全エネルギーを表す目的関数式におけるHolapの従来技術の具体例を表す数式である。
Figure 2022062322000004
ここで、Cは、重み付けのための係数であり、正の整数である。qiは、「1」又は「0」を取る。qは、「1」又は「0」を取る。
上記のHolapについて、図4に示すように、例えば、番号2が付されたアミノ酸残基(qi)と、番号4が付されたアミノ酸残基(q)とが、一つの格子点で重なる場合、qiとqは両方とも「1」となるため、上記の式(B)で表されるHolapは、正の値になる。このため、上記の式(B)で表されるHolapにおいては、異なるアミノ酸残基が互いに重なって配置される場合、Holapは、正の値となり、全エネルギーを表す目的関数式の値を増大させる。
このため、上記の式(B)で表されるHolapの値が小さくなる(例えば、0となる)ようにアミノ酸残基の配置を探索することにより、1~n番目のアミノ酸残基のそれぞれは、互いに重ならないという制約を実現できる。
続いて、次の式(C)は、上記の全エネルギーを表す目的関数式におけるHconnの従来技術の具体例を表す数式である。
Figure 2022062322000005
ここで、Cは、重み付けのための係数であり、正の整数である。qiは、「1」又は「0」を取る。qは、「1」又は「0」を取る。
上記のHconnについて、図5に示すように、まず、構造を探索するタンパク質において互いに連結する(隣接する)アミノ酸残基である、番号3が付されたアミノ酸残基(qi)と、番号4が付されたアミノ酸残基(q)との関係を考える。このとき、番号3が付されたアミノ酸残基(qi)と、番号4が付されたアミノ酸残基(q)とが、格子空間において隣接する位置に配置される場合、qiとqは両方とも「1」となるため、上記の式(C)で表されるHconnは、負の値になる。このため、上記の式(C)で表されるHconnにおいては、互いにペプチド結合するアミノ酸残基どうしが、格子空間において隣接する格子点に配置される場合、Hconnは、負の値となり、全エネルギーを表す目的関数式の値を減少させる。
このため、上記の式(C)で表されるHconnの値が小さくなる(例えば、大きな負の値となる)ようにアミノ酸残基の配置を探索することにより、1~n番目のアミノ酸残基はそれぞれ繋がっているという制約を実現できる。
続いて、次の式(D)は、上記の全エネルギーを表す目的関数式におけるHpairの従来技術の具体例を表す数式である。
Figure 2022062322000006
ここで、E14は、相互作用に関する係数であり、正の整数である。qiは、「1」又は「0」を取る。qは、「1」又は「0」を取る。相互作用に関する係数E14は、例えば、2つのアミノ酸残基の組み合わせごとに定義される。相互作用に関する係数E14は、例えば、miyazawa-jernigan(MJ) matrixなどを参照して決定することができる。
上記のHpairについて、図6に示すように、例えば、番号1が付されたアミノ酸残基(qi)と、番号4が付されたアミノ酸残基(q)とが、互いに隣接して配置された場合に、
これらのアミノ酸残基間における相互作用を、上記の式(D)で表すことができる。
このため、上記の式(D)で表されるHpairの値が小さくなる(より安定な相互作用となる)ようにアミノ酸残基の配置を探索することにより、アミノ酸残基同士の相互作用を考慮して、タンパク質のより安定な構造を探索することができる。
ここで、上述したように、上記の式(A)で表されるHoneと、上記の式(B)で表されるHolapとは、それぞれの制約が満たされない場合に、全エネルギーを表す目的関数式の値を増大(不安定化)させる。つまり、上述した従来技術においては、同じアミノ酸残基が複数存在すると不安定化するHone及び異なるアミノ酸残基が重なって配置されると不安定化するHolapとを用いて、タンパク質の安定構造を探索する。
また、上記の式(C)で表されるHconnは、制約が満たされる場合に、全エネルギーを表す目的関数式の値を減少(安定化)させる。つまり、上述した従来技術においては、個々の連結するアミノ酸残基間に成り立つ関係性(2つの格子点間の関係性)に基づき、連結するアミノ酸残基が隣接して配置されるときに安定化するHconnを用いて、タンパク質の安定構造を探索する。
ここで、上述した、上記の式(A)で表されるHoneと、上記の式(B)で表されるHolapと、上記の式(C)で表されるHconnとは、互いに独立した制約ではなく、特定の制約が満たされると、他の制約が満たされにくくなる場合がある。より具体的には、従来技術においては、安定化に寄与するHconnと、不安定化に寄与するHone及びHolapとが、バッティング(競合)してしまい、全ての制約を同時に満たすことが困難な場合があり、効率的に構造を探索することができないことがある。
また、タンパク質におけるアミノ酸残基はそれぞれ繋がっているという制約を表すHconnについては、他の例として、ある格子点と、当該格子点に隣接する全ての格子点との関係に基づいた制約を用いる技術がある。
ある格子点と、当該格子点に隣接する全ての格子点との関係に基づいた制約は、例えば、以下の(1)及び(2)で表される制約とすることができる
(1)ある格子点にアミノ酸残基がある場合、当該格子点に隣接する全ての格子点の中の一つの格子点のみにアミノ酸残基があるという制約
(2)ある格子点にアミノ酸残基がない場合、当該格子点に隣接する全ての格子点の中にアミノ酸残基がないか、又は当該格子点に隣接する全ての格子点の中の一つの格子点のみにアミノ酸残基があるという制約
この制約は、例えば、以下の式(E)で表すことができる。なお、式(E)は、二次元の場合のDiamond encording法を用いたときの例である。
Figure 2022062322000007
式中、Cは、重みづけのための係数であり、正の整数である。q、q、q、q、及びqは、それぞれ「1」又は「0」を取る。q、q、q、q、及びqの位置関係は、図7に示す位置関係である。
η(q)は、qに隣接し、連結するアミノ酸残基を表現するビットの集合である。
ここで、qが「1」の場合とは、ある格子点にアミノ酸残基がある場合を意味する。そして、qが「1」の場合、Qが「1」のときのみ、Hは「0」となる。図7に示す位置関係の場合、Qが「1」になるのは、q+q+q+q=1の場合である。言い換えると、図7に示す位置関係の場合、Qが「1」になるのは、q、q、q、及びqの一つのみが「1」となる場合である。
よって、Qが「1」になるのは、ある格子点に隣接する全ての格子点の中の一つの格子点のみにアミノ酸残基がある場合である。
また、qが「0」の場合とは、ある格子点にアミノ酸残基がない場合である。そして、qが「0」の場合、Qが「0」のとき又はQが「1」のときに、Hは「0」となる。図7に示す位置関係の場合、Qが「0」になるのは、q+q+q+q=0又は1の場合である。言い換えると、Qが「0」になるのは、q、q、q、及びqの全てが「0」の場合、又はq、q、q、及びqの一つのみが「1」となる場合である。よって、Qが「0」になるのは、ある格子点に隣接する全ての格子点の中にアミノ酸残基がない場合か、又はある格子点に隣接する全ての格子点の中の一つの格子点のみにアミノ酸残基がある場合である。
上記の式(E)は、n個のアミノ酸残基の連結に関する制約項であって、制約を満たさないときに、全エネルギーを表す目的関数式の値を増大させる制約を表す。このため、アミノ酸残基はそれぞれ繋がっているという制約(Hconn)として上記の式(E)を用いることにより、Honeと、Holapと、Hconnとを互いに独立の関係にすることができる。よって、Hconnとして上記の式(E)を用いることにより、Honeと、Holapと、Hconnとのバッティング(競合)をなくすことができるため、全ての制約が満たされやすくなり、タンパク質として矛盾なく存在し得る構造を探索しやすくなる。
しかしながら、上記の式(E)におけるH(Hconn)は、「1」又は「0」の値を取るq、q、q、q、及びqにより定まる二値の関数であり、関数形状がフラットな関数である。
図8は、式(E)で表される関数(制約項)の関数値と変数の関係の一例を示す図である。図8に示すように、上記の式(E)は、q、q、q、q、及びqが取り得るビット変数空間において、関数値が低くなる局所解が所々に存在する以外は、一定の値となる関数であり、関数形状がフラット(山や谷がない二値の関数値)である。このため、例えば、一つの局所解に達したとしても、他の局所解を探索して達するための指標(手がかり)がなく、構造の探索が非効率的となってしまい、安定な構造を探索することが難しい場合があった。
以上、化合物がタンパク質であり、格子点にアミノ酸残基を配置する場合を例として説明したように、従来技術では、目的関数式における複数の基の連結状態に関する制約が他の制約と独立しておらず、全ての制約を同時に満たすことが困難な場合があった。また、他の技術においては、目的関数式における複数の基の連結状態に関する制約を表す制約項の関数形状がフラットであり、構造の探索が非効率的となってしまう場合があった。
このように、これらの技術では、複数の基が連結した化合物の構造を効率的に探索することができなかった。
そこで、本発明者は、複数の基が連結した化合物の構造を効率的に探索することができるプログラム等について鋭意検討を重ね、以下の知見を得た。
すなわち、本発明者らは、下記の構造探索プログラム等により、複数の基が連結した化合物の構造を効率的に探索することができることを知見した。
本件で開示する技術の一例としての構造探索プログラムは、複数の基が連結した化合物の構造を探索する構造探索プログラムであって、
複数の格子点の集合である三次元格子空間の各格子点に複数の基を、
三次元格子空間における、複数の格子点のうちの第1の格子点に配置される複数の基のうちの第1の基と、複数の格子点のうちの第2の格子点に配置される複数の基のうちの一の基であって第1の基と連結する第2の基との間の基間距離を、複数の格子点の相互間の距離のうちの最短距離を基準とした係数値で表現し、係数値が所定値となるようにする制約項を含む目的関数式に基づき、
配置し、三次元格子空間に化合物の立体構造を作成する工程、
をコンピュータに行わせる。
ここで、本件で開示する技術の一例では、複数の基が連結した化合物の構造を探索する際に、複数の格子点の集合である三次元格子空間の各格子点に複数の基を配置して、三次元格子空間に化合物の立体構造を作成する。
本件で開示する技術の一例では、各格子点に複数の基を配置する際に、複数の基における、互いに連結する基どうしの間の距離(基間距離)を、複数の格子点の相互間の距離のうちの最短距離(格子点間の最短距離)を基準とした係数値で表現する。そして、本件で開示する技術の一例では、上記の係数値が所定値となるようにする制約項を含む目的関数式に基づいて、各格子点に複数の基を配置する。
ここで、係数値が所定値となるようにする制約項は、例えば、三次元格子空間における、複数の格子点のうちの第1の格子点に配置される複数の基のうちの第1の基と、複数の格子点のうちの第2の格子点に配置される複数の基のうちの一の基であって第1の基と連結する第2の基との間における、連結状態に関する制約項である。つまり、係数値が所定値となるようにする制約項は、例えば、構造を探索する化合物において、複数の基はそれぞれ繋がっているという制約(Hconn)を表す制約項とすることができる。
係数値が所定値となるようにする制約項においては、三次元格子空間に配置する第1の基(一の基)と第2の基(他の基)の配置については、特に制限はなく任意の格子点に配置した場合の基間距離を用いて、係数値を表現することができる。このため、係数値が所定値となるようにする制約項は、複数の基を配置する三次元格子空間における各格子点について、隣接する格子点の関係だけではなく、三次元格子空間に存在する全ての格子点(準備した全てのビット間)についての関係を考慮することができる。
このため、本件で開示する技術の一例では、目的関数式に含まれる化合物の構造についての制約(例えば、Hone、Holap、及びHconn)を互いに独立の関係にすることができる。したがって、本件で開示する技術の一例では、目的関数式に含まれる化合物の構造についての制約どうしのバッティング(競合)をなくすことができるため、全ての制約が満たされやすくなり、化合物として矛盾なく存在し得る構造を探索しやすくなる。
また、最短距離を基準として表現された基間距離についての係数値は、例えば、最短距離に対する基間距離の大きさに対応する係数値とすることができる。このため、最短距離を基準として表現された基間距離についての係数値は、例えば、基間距離が大きい(長い)場合に値が大きくなり、基間距離が小さい(短い)場合に値が小さくなるような係数値とすることができる。さらに、最短距離を基準として表現された基間距離についての係数値は、例えば、基間距離と最短距離が一致する場合(基間距離が最も短くなる場合)に最小値を取るような係数値とすることができる。
そして、係数値が所定値となるようにする制約項は、例えば、係数値が小さくなるように制約する制約項とすることができる。つまり、係数値が所定値となるようにする制約項は、互いに連結する基どうしの間の基間距離と格子点間の最短距離とが、近い値になるようにする制約項とすることができる。
このように、本件で開示する技術の一例では、係数値が所定値となるようにする制約項は、例えば、最短距離を基準として表現された基間距離についての係数値が小さくなる(基間距離と最短距離とが近い値になる)ようにする制約項とすることができる。より具体的には、係数値が所定値となるようにする制約項としては、例えば、基間距離と最短距離とが一致するように制約して、当該係数値が「0」に近づくようにする(所定値が「0」である)制約項とすることが好ましい。こうすることにより、化合物の安定構造を、より確実に作成(探索)することができる。
本件で開示する技術の一例では、上述したように、係数値が所定値となるようにする制約項を用いることにより、例えば、構造を探索する化合物において、複数の基はそれぞれ繋がっているという制約(Hconn)を表す制約を表すことができる。
上述したような係数値が所定値となるようにする制約項としては、特に制限はなく、目的に応じて適宜選択することができる。係数値が所定値となるようにする制約項としては、例えば、係数値を基間距離と最短距離との差を用いて表現した制約項、係数値を基間距離と最短距離との比を用いて表現した制約項、基間距離と最短距離との差の二乗を用いて表現した制約項などが挙げられる。
ここで、最短距離を基準として表現された基間距離についての係数値は、上述したように、最短距離に対する基間距離の大きさに対応する係数値として、基間距離に応じた多値の係数とすることができる。このため、最短距離を基準として表現された基間距離についての係数値を用いることで、制約項を傾斜のある(山と谷のある)関数形状とすることができる。
図9は、本件で開示する技術の一例における、最短距離を基準として表現された基間距離についての係数値が所定値となるようにする制約項の関数値と変数の関係の一例を示す図である。図9に示すように、本件で開示する技術の一例における、係数値が所定値となるようにする制約項は、格子点を表すビットが取り得るビット変数空間において、関数値は、傾斜のある(山と谷のある)関数形状とすることができる。このため、本件で開示する技術の一例では、一つの局所解(例えば、図9の左側の局所解)に達した場合に、その周囲の傾斜(傾き)を考慮して、他の局所解を探索することができ、化合物の構造を効率的に探索することができる。
このように、本件で開示する技術の一例では、上記の係数値が所定値となるようにする制約項を含む目的関数式に基づき、各格子点に複数の基を配置し、三次元格子空間に化合物の立体構造を作成する。このため、本件で開示する技術の一例では、傾斜のある関数形状を有する、独立した制約項を含む目的関数式を用いるため、複数の基が連結した化合物の構造を効率的に探索することができる。
以下では、本件で開示する構造探索プログラムの一例において、コンピュータに行わせる各工程ついて、詳細に説明する。
本件で開示する構造探索プログラムは、例えば、立体構造を作成する工程を少なくともコンピュータに行わせ、更に必要に応じてその他の工程をコンピュータに行わせる。
本件で開示する構造探索プログラムは、使用するコンピュータシステムの構成及びオペレーティングシステムの種類・バージョンなどに応じて、公知の各種のプログラム言語を用いて作成することができる。
本件で開示する構造探索プログラムは、内蔵ハードディスク、外付けハードディスクなどの記録媒体に記録しておいてもよいし、CD-ROM(Compact Disc Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、MOディスク(Magneto-Optical disk)、USBメモリ〔USB(Universal Serial Bus) flash drive〕などの記録媒体に記録しておいてもよい。
さらに、本件で開示する構造探索プログラムを、上記の記録媒体に記録する場合には、必要に応じて、コンピュータシステムが有する記録媒体読取装置を通じて、これを直接又はハードディスクにインストールして使用することができる。また、コンピュータシステムから情報通信ネットワークを通じてアクセス可能な外部記憶領域(他のコンピュータなど)に本件で開示する構造探索プログラムを記録しておいてもよい。この場合、外部記憶領域に記録された本件で開示する構造探索プログラムは、必要に応じて、外部記憶領域から情報通信ネットワークを通じてこれを直接、又はハードディスクにインストールして使用することができる。
なお、本件で開示する構造探索プログラムは、複数の記録媒体に、任意の処理毎に分割されて記録されていてもよい。
まず、本件で開示する構造探索プログラムは、複数の基が連結した化合物の構造を探索するプログラムである。
構造を探索する化合物としては、複数の基(化合物残基)が連結した化合物であれば特に制限はなく、目的に応じて適宜選択することができる。
複数の基としては、それぞれの基どうしが互いに結合可能なものであれば特に制限はなく、目的に応じて適宜選択することができ、例えば、アミノ酸残基、反応性を有するモノマー(単量体)などが挙げられる。例えば、複数の基をアミノ酸残基とする場合は、化合物はタンパク質又はペプチドとすることができ、複数の基を、反応性を有するモノマー(単量体)とする場合は、化合物はポリマー(重合体)とすることができる。これらの中でも、本件で開示する技術の一例では、化合物がタンパク質又はペプチドであり、複数の基がアミノ酸残基であることが好ましい。なお、本件で開示する技術の一例では、例えば、比較的多くの数のアミノ酸残基が連結した化合物をタンパク質と称し、比較的少ない数のアミノ酸残基が連結した化合物をペプチドと称することがある。
また、複数の基が連結した化合物としては、直鎖(一続き)のものに限られるものではなく、化合物中に分岐構造を有するものであってもよい。
アミノ酸残基の元となるアミノ酸としては、天然アミノ酸であってもよいし、非天然アミノ酸(修飾アミノ酸、人工アミノ酸)であってもよい。天然アミノ酸としては、例えば、アラニン、アルギニン、アスパラギン、アスパラギン酸、システイン、グルタミン、グルタミン酸、グリシン、ヒスチジン、イソロイシン、ロイシン、リシン、メチオニン、フェニルアラニン、プロリン、セリン、トレオニン、トリプトファン、チロシン、バリン、β-アラニン、β-フェニルアラニンなどが挙げられる。なお、ペプチド(タンパク質)におけるアミノ酸残基の数としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、10以上50以下程度であってもよいし、数百であってもよい。
また、修飾アミノ酸としては、例えば、上述したような天然アミノ酸の構造の一部を修飾(置換)したアミノ酸などが挙げられる。具体的には、修飾アミノ酸としては、例えば、天然アミノ酸の構造の一部をメチル化したアミノ酸などを用いることができる。
また、例えば、各格子点にアミノ酸残基を配置する場合、各アミノ酸残基をそれぞれ1つの粒子として扱ってもよいし、アミノ酸残基をペプチド(タンパク質)中における主鎖と側鎖に分けて別の粒子(主鎖粒子と側鎖粒子)として扱ってもよい。アミノ酸残基をペプチド(タンパク質)中における主鎖と側鎖に分けて、それぞれを別の粒子として扱う場合、側鎖を持たないアミノ酸(例えば、グリシンなど)については、主鎖粒子でもあり側鎖粒子でもある粒子とみなして扱うことが好ましい。
<立体構造を作成する工程(立体構造作成工程)>
立体構造を作成する工程(立体構造作成工程)では、複数の格子点の集合である三次元格子空間の各格子点に複数の基を配置し、三次元格子空間に化合物の立体構造を作成する。
三次元格子空間の種類としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、単純立方格子、体心立方格子、面心立方格子などが挙げられる。
また、立体構造を作成する工程では、例えば、三次元格子空間における、複数の格子点のうちの第1の格子点に配置される複数の基のうちの第1の基(一の基)と、複数の格子点のうちの第2の格子点に配置される複数の基のうちの一の基であって第1の基と連結する第2の基(他の基)との間の基間距離を求める。言い換えると、立体構造を作成する工程では、例えば、三次元格子空間に配置する複数の基における第1の基(一の基)を特定し、構造を探索する化合物において当該第1の基に連結する第2の基(他の基)との間の基間距離を求める。
基間距離を求める手法としては、特に制限はなく、目的に応じて適宜選択することができる。基間距離を求める手法としては、例えば、複数の基を配置する三次元格子空間における各格子点の位置の情報に基づき、第1の基が配置される第1の格子点と、第2の基が配置される第2の格子点との間の距離を求める手法などが挙げられる。
そして、立体構造を作成する工程では、格子点間の最短距離を基準とした係数値で表現し、係数値が所定値となるようにする制約項を含む目的関数式に基づき、各格子点に複数の基を配置する。
<<係数値が所定値となるようにする制約項>>
係数値が所定値となるようにする制約項は、上述したように、例えば、三次元格子空間に配置する複数の基における第1の基と、構造を探索する化合物において当該第1の基に連結する第2の基との間における、連結状態に関する制約項である。つまり、係数値が所定値となるようにする制約項は、例えば、構造を探索する化合物において、複数の基はそれぞれ繋がっているという制約(Hconn)を表す制約項とすることができる。
ここで、最短距離を基準として表現された基間距離についての係数値としては、最短距離に対する基間距離の関係を表すことができれば特に制限はなく、目的に応じて適宜選択することができる。
最短距離を基準として表現された基間距離についての係数値としては、上述したように、例えば、基間距離が大きい(長い)場合に値が大きくなり、基間距離が小さい(短い)場合に値が小さくなるような係数値とすることが好ましい。さらに、最短距離を基準として表現された基間距離についての係数値は、例えば、基間距離と最短距離が一致する場合に最小値を取るような係数値とすることが好ましい。
そして、係数値が所定値となるようにする制約項は、例えば、最短距離を基準として表現された基間距離についての係数値が小さくなる(基間距離と最短距離とが近い値になる)ようにする制約項とすることができる。より具体的には、係数値が所定値となるようにする制約項としては、例えば、基間距離と最短距離とが一致するように制約して、当該係数値が「0」に近づくようにする制約項とすることが好ましい。こうすることにより、化合物の安定構造を、より確実に作成(探索)することができる。
このような制約項としては、例えば、係数値を基間距離と最短距離との差を用いて表現した制約項、係数値を基間距離と最短距離との比を用いて表現した制約項、基間距離と最短距離との差の二乗を用いて表現した制約項などが挙げられる。
係数値を基間距離と最短距離との差を用いて表現した制約項としては、例えば、下記式(1)で表される制約項を用いることができる。
Figure 2022062322000008
ただし、式(1)において、
connは、係数値が所定値となるようにする制約項であり、
a(n)は、n番目の基におけるビット番号の集合であり、
a(n+1)は、n+1番目の基におけるビット番号の集合であり、
ijは、複数の格子点のうちのi番目の格子点に配置される基と、複数の格子点のうちのj番目の格子点に配置される基との間の基間距離であり、
は、最短距離であり、
abs(dij-d)は、dijとdとの差の絶対値で表される係数値であり、
は、i番目の格子点に配置される基の有無を表す0又は1のバイナリ変数であり、
は、j番目の格子点に配置される基の有無を表す0又は1のバイナリ変数である。
上記の式(1)について、図10を参照して説明する。
図10は、格子空間における基間距離と最短距離との関係の一例を示す図である。図10において、例えば、qで表される格子点を、複数の基における第1の基(一の基)を配置する第1の格子点(一の格子点)とし、qで表される格子点を、構造を探索する化合物において当該第1の基に連結する第2の基(他の基)の配置候補となる第2の格子点(他の格子点)とする。
このとき、図10に示すように、qで表される格子点に配置される第1の基と、qで表される格子点に配置される第2の基の間の基間距離はdijで表される。さらに、図10に示すように、格子点間の最短距離は、互いに隣接して位置する格子点間の距離であるdで表される。
上記の式(1)では、図10に示したような関係の基間距離dijと、格子点間の最短距離dとの差の絶対値を係数値として用いる。上記の式(1)においては、基間距離dijと最短距離dとの差が「0」となる(基間距離dijと最短距離dとが一致する)ときに、係数値も「0」となる。
このため、上記の式(1)で表される制約項においては、複数の基を配置した際の係数値がそれぞれ「0」となるときに、制約項の値も「0(最小値)」となる。したがって、上記の式(1)で表される制約項においては、制約項の値が「0」に近づくような配置の組合せを探索することにより、構造を探索する化合物において、複数の基はそれぞれ繋がっているという制約を表すことができる。
また、係数値を基間距離と最短距離との比を用いて表現した制約項としては、例えば、下記式(2)で表される制約項を用いることができる。
Figure 2022062322000009
ただし、式(2)において、
connは、係数値が所定値となるようにする制約項であり、
a(n)は、複数の基のうちのn番目の基におけるビット番号の集合であり、
a(n+1)は、複数の基のうちのn+1番目の基におけるビット番号の集合であり、
ijは、i番目の格子点に配置される基と、j番目の格子点に配置される基との間の基間距離であり、
は、最短距離であり、
abs{(dij/d)-1}は、dijとdとの比から1を引いた数の絶対値で表される係数値であり、
は、i番目の格子点に配置される基の有無を表す0又は1のバイナリ変数であり、
は、j番目の格子点に配置される基の有無を表す0又は1のバイナリ変数である。
上記の式(2)では、図10に示したような関係の基間距離dijと、格子点間の最短距離dとの比から1を引いた数の絶対値を係数値として用いる。上記の式(2)においては、基間距離dijと最短距離dとの差が「0」となる(基間距離dijと最短距離dとが一致する)ときに、係数値も「0」となる。
このため、上記の式(2)で表される制約項においては、複数の基を配置した際の係数値がそれぞれ「0」となるときに、制約項の値も「0(最小値)」となる。したがって、上記の式(2)で表される制約項においては、制約項の値が「0」に近づくような配置の組合せを探索することにより、構造を探索する化合物において、複数の基はそれぞれ繋がっているという制約を表すことができる。
なお、本件で開示する技術においては、制約項における係数値が「0」となる構造(例えば、最安定な構造)を探索することは必須ではなく、例えば、化合物して存在可能な構造であれば、多少不安定な構造の探索を行ってもよい。また、化合物における最安定構造を探索する場合においても、制約項における係数値が「0」となる構造を探索することは必須ではなく、他の制約項のパラメータとのバランスを考慮して、相対的に係数値が小さくなる構造を探索してもよい。
<<目的関数式>>
目的関数式とは、一般に、組合せ最適化問題における条件や制約に基づいた関数を意味し、当該目的関数式における変数(パラメータ)が、組合せ最適化問題における最適な組合せとなるときに、最小の値をとる関数である。なお、目的関数式(目的関数)は、エネルギー関数、コスト関数、ハミルトニアンなどと称される場合もある。
ここで、三次元格子空間の各格子点に、複数の基(化合物残基)を配置し、三次元格子空間に化合物の立体構造を作成することは、各格子点に配置する化合物残基の組合せを最適化する最適化問題と考えることができる。このため、例えば、目的関数式が最小の値となる変数の組合せを探索することにより、組合せ最適化問題の解を探索すること、即ち、三次元格子空間に化合物の安定な立体構造を探索することができる。
目的関数式としては、係数値が所定値となるようにする制約項を含み、化合物が安定な立体構造となるときに低い値となるものであれば特に制限はなく、目的に応じて適宜選択することができる。
目的関数式としては、例えば、下記の4つの項を少なくとも含むものが好ましい。
・複数の基のそれぞれは一つしか存在しないという制約を表す制約項
・複数の基のそれぞれは、互いに重ならないという制約を表す制約項
・複数の基はそれぞれ繋がっているという制約を表す制約項
・複数の基どうしの相互作用を表す項
ここで、上記4つの項のうち、複数の基どうしの相互作用を表す項以外の3つの項は、例えば、作成する化合物の立体構造を、化合物として矛盾なく存在し得る構造とするための制約項であると考えることができる。これらの3つの制約項は、例えば、各項が表す制約を満たすときに値が小さくなる(例えば、値がゼロとなる)項とすることができる。こうすることにより、本件で開示する技術の一例では、例えば、探索した化合物の立体構造が、化合物として矛盾なく存在し得る構造であるときに、目的関数式の値が小さくなるため、より適切な立体構造を探索することができる。
また、上記の複数の基どうしの相互作用を表す項は、作成する化合物の立体構造を、エネルギー的に安定な構造とするための相互作用を表す項と考えることができる。複数の基どうしの相互作用を表す項は、例えば、三次元格子空間の各格子点に配置した複数の基の間の距離に応じて、相互作用が安定な(エネルギーが低い)ときに、より小さな値となる項とすることができる。こうすることにより、本件で開示する技術の一例では、例えば、探索した化合物の立体構造が、よりエネルギー的に安定な構造であるときに、目的関数式の値が小さくなるため、より適切な立体構造を探索することができる。
つまり、本件で開示する技術の一例においては、上記の4つの項を含む目的関数式に基づき、化合物の立体構造を作成することにより、探索する立体構造を、化合物として矛盾なく存在し得る構造、かつ、エネルギー的に安定な構造とすることができる。
また、本件で開示する技術の一例において、目的関数式としては、例えば、下記の式(3)で表されるものを用いることが好ましい。本件で開示する技術の一例では、例えば、下記の式(3)を最小化(最適化)することにより、化合物の立体構造を作成することで、より安定な化合物の構造を探索することができる。
Figure 2022062322000010
ただし、式(3)において、
totalは、目的関数式であり、
oneは、複数の基のそれぞれは一つしか存在しないという制約を表す制約項であり、
λoneは、Honeの重み付けのためのパラメータであり、
olapは、複数の基のそれぞれは、互いに重ならないという制約を表す制約項であり、
λolapは、Holapの重み付けのためのパラメータであり、
connは、複数の基はそれぞれ繋がっているという制約を表し、式(1)又は式(2)で表される制約項であり、
Cは、複数の基はそれぞれ繋がっているという制約に関する定数項であり、
λconnは、Hconn及びCの重み付けのためのパラメータであり、
pairは、複数の基どうしの相互作用を表す項である。
上記の式(3)において、Hone、Holap、及びHconnは、例えば、作成する化合物の立体構造が、化合物として矛盾なく存在し得る構造とするための制約項であり、各項が表す制約を満たすときに値が小さくなる(例えば、値がゼロとなる)項とすることができる。
また、上記の式(3)において、Hpairは、例えば、作成する化合物の立体構造を、エネルギー的に安定な構造とするための相互作用を表す項であり、相互作用が安定な(エネルギーが低い)ときに、より小さな値となる項とすることができる。
なお、上記の式(3)におけるHone、Holap、Hconn、及びHpairについての、より具体的な表現等に関しては後述する。
上記の式(3)においては、例えば、λone、λolap、及びλconnのそれぞれパラメータを適宜調整することにより、化合物の最安定構造を探索することができる。また、上記の式(3)を用いて化合物の構造を探索する際には、例えば、λone、λolap、及びλconnのそれぞれパラメータを異なる値で設定した計算を、並列して同時に行ってもよい。
なお、λone、λolap、及びλconnのそれぞれパラメータは、例えば、正の整数とすることができる。
ここで、目的関数式を最小化する手法としては、特に制限はなく、目的に応じて適宜選択することができるが、例えば、下記式(4)で表されるイジングモデル式に変換した目的関数式に基づいて最小化する手法が好ましい。言い換えると。本件で開示する技術の一例では、立体構造を作成する工程が、下記式(4)で表されるイジングモデル式に変換した目的関数式に基づく最適化処理により行われることが好ましい。なお、下記式(4)で表されるイジングモデル式は、QUBO(Quadratic Unconstrained Binary Optimization)形式のイジングモデル式である。
Figure 2022062322000011
ただし、上記式(4)において、Eは、イジングモデル式に変換した目的関数式である。
ijは、i番目のビットとj番目のビットとの間の相互作用を表す数値である。
は、i番目のビットに対するバイアスを表す数値である。
は、i番目のビットが0又は1であることを表すバイナリ変数である。
は、j番目のビットが0又は1であることを表すバイナリ変数である。
ここで、上記式(4)におけるwijは、例えば、イジングモデル式に変換する前の目的関数式における各パラメータの数値などを、xとxの組み合わせ毎に抽出することにより求めることができ、通常は行列となる。
上記式(4)における右辺の一項目は、全てのビットから選択可能な2つのビットの全組み合わせについて、漏れと重複なく、2つの回路の状態(ステート)と重み値(ウエイト)との積を積算したものである。
また、上記式(4)における右辺の二項目は、全てのビットのそれぞれのバイアスの値と状態との積を積算したものである。
つまり、イジングモデル式に変換する前の目的関数式のパラメータを抽出して、wij及びbを求めることにより、目的関数式を、上記式(4)で表されるイジングモデル式に変換することができる。
上記のようなイジングモデル式に変換した目的関数式の最適化(最小化)は、例えば、アニーリングマシンなどを用いた焼き鈍し法(アニーリング)を行うことにより、短時間で実行することができる。つまり、本件で開示する技術の一例では、立体構造を作成する工程が、イジングモデル式について、焼き鈍し法を用いた基底状態探索を実行することにより、イジングモデル式の最小エネルギーを算出することにより行われることが好ましい。
目的関数式の最適化に用いるアニーリングマシンとしては、例えば、量子アニーリングマシン、半導体技術を用いた半導体アニーリングマシン、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)を用いてソフトウェアにより実行されるシミュレーテッド・アニーリング(Simulated Annealing)を行うマシンなどが挙げられる。また、アニーリングマシンとしては、例えば、デジタルアニーラ(登録商標)を用いてもよい。
なお、アニーリングマシンを用いた焼き鈍し法の詳細については後述する。
<その他の工程>
その他の工程としては、特に制限はなく、目的に応じて適宜選択することができる。
(構造探索方法)
本件で開示する構造探索方法は、複数の基が連結した化合物の安定構造を探索する構造探索方法であって、
複数の格子点の集合である三次元格子空間の各格子点に複数の基を、
三次元格子空間における、複数の格子点のうちの第1の格子点に配置される複数の基のうちの第1の基と、複数の格子点のうちの第2の格子点に配置される複数の基のうちの一の基であって第1の基と連結する第2の基との間の基間距離を、複数の格子点の相互間の距離のうちの最短距離を基準とした係数値で表現し、係数値が所定値となるようにする制約項を含む目的関数式に基づき、
配置し、三次元格子空間に化合物の立体構造を作成する工程、
を含む。
本件で開示する構造探索方法は、例えば、本件で開示する構造探索プログラムにおける、立体構造を作成する工程と同様に行うことができる。また、本件で開示する構造探索方法における好適な態様は、例えば、本件で開示する構造探索プログラムにおける、立体構造を作成する工程の好適な態様と同様にすることができる。
本件で開示する構造探索方法は、例えば、コンピュータを用いて、立体構造を作成する工程を行う方法とすることができる。
(構造探索装置)
本件で開示する構造探索装置は、複数の基が連結した化合物の安定構造を探索する構造探索装置であって、
複数の格子点の集合である三次元格子空間の各格子点に複数の基を、
三次元格子空間における、複数の格子点のうちの第1の格子点に配置される複数の基のうちの第1の基と、複数の格子点のうちの第2の格子点に配置される複数の基のうちの一の基であって第1の基と連結する第2の基との間の基間距離を、複数の格子点の相互間の距離のうちの最短距離を基準とした係数値で表現し、係数値が所定値となるようにする制約項を含む目的関数式に基づき、
配置し、三次元格子空間に化合物の立体構造を作成する部、
を有する。
本件で開示する構造探索装置は、立体構造を作成する部(立体構造作成部)を備え、更に必要に応じて、その他の部(ユニット)を備える。
構造探索装置は、例えば、メモリと、プロセッサとを有し、更に必要に応じて、その他のユニットを有する。プロセッサとしては、立体構造を作成する工程を実行できるように、メモリに結合されているものを好適に用いることができる。
プロセッサは、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)又はその組み合わせとすることができる。
このように、本件で開示する構造探索装置は、例えば、本件で開示する構造探索プログラムを実行する装置(コンピュータ)とすることができる。したがって、本件で開示する構造探索装置における好適な態様は、本件で開示する構造探索プログラムにおける好適な態様と同様にすることができる。
(コンピュータが読み取り可能な記録媒体)
本件で開示するコンピュータが読み取り可能な記録媒体は、本件で開示する構造探索プログラムを記録してなる。
本件で開示するコンピュータが読み取り可能な記録媒体としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、内蔵ハードディスク、外付けハードディスク、CD-ROM、DVD-ROM、MOディスク、USBメモリなどが挙げられる。
また、本件で開示するコンピュータが読み取り可能な記録媒体は、本件で開示する構造探索プログラムが任意の処理毎に分割されて記録された複数の記録媒体であってもよい。
以下では、装置の構成例やフローチャートなどを用いて、本件で開示する技術の一例を更に詳細に説明する。
図11に、本件で開示する構造探索装置のハードウェア構成例を示す。
構造探索装置100においては、例えば、制御部101、主記憶装置102、補助記憶装置103、I/Oインターフェイス104、通信インターフェイス105、入力装置106、出力装置107、表示装置108が、システムバス109を介して接続されている。
制御部101は、演算(四則演算、比較演算、焼き鈍し法の演算等)、ハードウェア及びソフトウェアの動作制御などを行う。制御部101としては、例えば、CPU(Central Processing Unit)であってもよいし、焼き鈍し法に用いるアニーリングマシンの一部であってもよく、これらの組み合わせでもよい。
制御部101は、例えば、主記憶装置102などに読み込まれたプログラム(例えば、本件で開示する構造探索プログラムなど)を実行することにより、種々の機能を実現する。
本件で開示する構造探索装置における立体構造作成部が行う処理は、例えば、制御部101により行うことができる。
主記憶装置102は、各種プログラムを記憶するとともに、各種プログラムを実行するために必要なデータ等を記憶する。主記憶装置102としては、例えば、ROM(Read Only Memory)及びRAM(Random Access Memory)の少なくともいずれかを有するものを用いることができる。
ROMは、例えば、BIOS(Basic Input/Output System)などの各種プログラムなどを記憶する。また、ROMとしては、特に制限はなく、目的に応じて適宜選択することができ、例えば、マスクROM、PROM(Programmable ROM)などが挙げられる。
RAMは、例えば、ROMや補助記憶装置103などに記憶された各種プログラムが、制御部101により実行される際に展開される作業範囲として機能する。RAMとしては、特に制限はなく、目的に応じて適宜選択することができ、例えば、DRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)などが挙げられる。
補助記憶装置103としては、各種情報を記憶できれば特に制限はなく、目的に応じて適宜選択することができ、例えば、ソリッドステートドライブ(SSD)、ハードディスクドライブ(HDD)などが挙げられる。また、補助記憶装置103は、CDドライブ、DVDドライブ、BD(Blu-ray(登録商標) Disc)ドライブなどの可搬記憶装置としてもよい。
また、本件で開示する構造探索プログラムは、例えば、補助記憶装置103に格納され、主記憶装置102のRAM(主メモリ)にロードされ、制御部101により実行される。
I/Oインターフェイス104は、各種の外部装置を接続するためのインターフェイスである。I/Oインターフェイス104は、例えば、CD-ROM(Compact Disc ROM)、DVD-ROM(Digital Versatile Disk ROM)、MOディスク(Magneto-Optical disk)、USBメモリ〔USB(Universal Serial Bus) flash drive〕などのデータの入出力を可能にする。
通信インターフェイス105としては、特に制限はなく、適宜公知のものを用いることができ、例えば、無線又は有線を用いた通信デバイスなどが挙げられる。
入力装置106としては、構造探索装置100に対する各種要求や情報の入力を受け付けることができれば特に制限はなく、適宜公知のものを用いることができ、例えば、キーボード、マウス、タッチパネル、マイクなどが挙げられる。また、入力装置106がタッチパネル(タッチディスプレイ)である場合は、入力装置106が表示装置108を兼ねることができる。
出力装置107としては、特に制限はなく、適宜公知のものを用いることができ、例えば、プリンタなどが挙げられる。
表示装置108としては、特に制限はなく、適宜公知のものを用いることができ、例えば、液晶ディスプレイ、有機ELディスプレイなどが挙げられる。
図12に、本件で開示する構造探索装置の他のハードウェア構成例を示す。
図12に示す例において、構造探索装置100は、目的関数式を定義する処理などを行うコンピュータ200と、イジングモデル式の最適化(基底状態探索)を行うアニーリングマシンに300とに分かれている。また、図12に示す例において、構造探索装置100におけるコンピュータ200とアニーリングマシン300は、ネットワーク400により接続されている。
図12に示す例では、例えば、コンピュータ200における制御部101aとしてはCPUなどを用いることができ、アニーリングマシン300における制御部101bとしては焼き鈍し法(アニーリング)に特化した装置を用いることができる。
図12に示す例においては、例えば、コンピュータ200により、目的関数式を定義するための各種の設定を行って目的関数式を定義し、定義した目的関数式をイジングモデル式に変換する。そして、イジングモデル式におけるウエイト(wij)及びバイアス(b)の値の情報を、コンピュータ200からアニーリングマシン300にネットワーク400を介して送信する。
次いで、アニーリングマシン300により、受信したウエイト(wij)及びバイアス(b)の値の情報に基づいてイジングモデル式の最適化(最小化)を行い、イジングモデル式の最小値と、当該最小値を与えるビットの状態(ステート)を求める。そして、求めたイジングモデル式の最小値と、当該最小値を与えるビットの状態(ステート)とを、アニーリングマシン300からコンピュータ200にネットワーク400を介して送信する。
続いて、コンピュータ200により、受信したイジングモデル式に最小値を与えるビットの状態(ステート)に基づいて、化合物の安定構造等を求める。
図13に、本件で開示する構造探索装置の機能構成例を示す。
図13に示すように、構造探索装置100は、通信機能部120と、入力機能部130と、出力機能部140と、表示機能部150と、記憶機能部160と、制御機能部170とを備える。
通信機能部120は、例えば、各種のデータを外部の装置と送受信する。通信機能部120は、例えば、外部の装置から、安定構造を探索する化合物の構造データ、イジングモデル式に変換した目的関数式におけるバイアス及びウエイトのデータ等を受信してもよい。
入力機能部130は、例えば、構造探索装置100に対する各種指示を受け付ける。また、入力機能部130は、例えば、安定構造を探索する化合物の構造データ、イジングモデル式に変換した目的関数式におけるバイアス及びウエイトのデータ等の入力を受け付けてもよい。
出力機能部140は、例えば、探索した化合物の安定構造のデータなどをプリントして出力する。
表示機能部150は、例えば、探索した化合物の安定構造のデータなどをディスプレイに表示する。
記憶機能部160は、例えば、各種プログラム、安定構造を探索する化合物の構造データ、探索した化合物の安定構造のデータなどを記憶する。
制御機能部170は、立体構造作成部171を有する。
立体構造作成部171は、例えば、複数の格子点の集合である三次元格子空間の各格子点に複数の基を配置し、三次元格子空間に化合物の立体構造を作成する。
具体的には、立体構造作成部171は、三次元格子空間における、複数の格子点のうちの第1の格子点に配置される複数の基のうちの第1の基と、複数の格子点のうちの第2の格子点に配置される複数の基のうちの一の基であって第1の基と連結する第2の基との間の基間距離を、複数の格子点の相互間の距離のうちの最短距離を基準とした係数値で表現する。そして、立体構造作成部171は、係数値が所定値となるようにする制約項を含む目的関数式に基づき、各格子点に複数の基を配置し、三次元格子空間に化合物の立体構造を作成する。
立体構造作成部171は、目的関数式作成部172と、最適化処理部173とを有する。
目的関数式作成部172は、例えば、化合物の立体構造の作成に用いる目的関数式を作成すると共に、作成した目的関数式をイジングモデル式に変換する。最適化処理部173は、例えば、イジングモデル式について、焼き鈍し法を用いた基底状態探索を実行することにより、イジングモデル式の最小エネルギーを算出する。
図14に、本件で開示する技術の一例を用いてタンパク質の安定構造を探索する際のフローチャートの例を示す。
まず、立体構造作成部171は、三次元格子空間を定義する(S101)。より具体的には、S101において、立体構造作成部171は、安定構造を探索するタンパク質におけるアミノ酸残基の数に基づいて、複数のアミノ酸残基が配置される格子点の集合である三次元格子空間を定義する。
ここで、三次元格子空間の定義の一例を説明する。なお、格子空間は三次元であるが、以下では、簡略化のため二次元の場合を例として示す。
まず、ダイアモンド格子空間において半径rにある格子の集合をShellとし、各格子点をSとする。すると、各格子点Sは、図15のように表すことができる。
各格子点Sは、図15のように定義すると、例えば、1個目から5個目のアミノ酸残基の配置先の格子点の集合V~Vは、図16A~図16Dに示すようになる。
ここで、図16Aにおいては、V=Sであり、V=Sである。同様に、図16BにおいてはV=Sであり。図16CにおいてはV=S、Sであり、図16DにおいてはV=S、Sである。
なお、S、S、Sを三次元で表すと図17のようになる。図17においては、A=Sであり、B=Sであり、C=Sである。
また、n個のアミノ酸残基を有するタンパク質におけるi番目のアミノ酸残基に必要な空間Vは、以下の式で表される。
Figure 2022062322000012
ここで、i={1,2,3,......n}である。
そして、奇数番目(i=奇数)のアミノ酸残基の場合は、J={1,3,.....i}であり、偶数番目(i=偶数)のアミノ酸残基の場合は、J={2,4,.....i}である。
続いて、図14に戻り、立体構造作成部171は、i番目のアミノ酸残基の配置先の格子点の集合をVとして定義する(S102)。S102において、i番目のアミノ酸残基の配置先の格子点の集合をVとして定義することにより、各アミノ酸残基が配置される空間が定義される。
次に、立体構造作成部171は、各格子点に、計算に用いるビットを割り当てる(S103)。言い換えると、S103では、立体構造作成部171は、各ビットX~Xに空間の情報を割り振る。
具体的には、図18Aから図18Cに示すように、各アミノ酸残基の配置される空間に対して、その格子点にアミノ酸残基が存在することを「1」で、無いことを「0」で表すビットを割り振る。なお、図18Aから図18Cにおいては、説明の都合上、各アミノ酸残基2~4に対して複数のXに割当てられているが、実際は、1つのアミノ酸残基に対して、1つのビットXが割り当てられる。
次に、図14に戻り、立体構造作成部171は、下記式(1)で表される制約項を含む、下記式(3)で表される目的関数式を定義する(S104)。
Figure 2022062322000013
ただし、式(1)において、
connは、係数値が所定値となるようにする制約項であり、
a(n)は、n番目の基におけるビット番号の集合であり、
a(n+1)は、n+1番目の基におけるビット番号の集合であり、
ijは、複数の格子点のうちのi番目の格子点に配置される基と、複数の格子点のうちのj番目の格子点に配置される基との間の基間距離であり、
は、最短距離であり、
abs(dij-d)は、dijとdとの差の絶対値で表される係数値であり、
は、i番目の格子点に配置される基の有無を表す0又は1のバイナリ変数であり、
は、j番目の格子点に配置される基の有無を表す0又は1のバイナリ変数である。
Figure 2022062322000014
ただし、式(3)において、
oneは、複数の基のそれぞれは一つしか存在しないという制約を表す制約項であり、
λoneは、Honeの重み付けのためのパラメータであり、
olapは、複数の基のそれぞれは、互いに重ならないという制約を表す制約項であり、
λolapは、Holapの重み付けのためのパラメータであり、
connは、複数の基はそれぞれ繋がっているという制約を表し、式(1)で表される制約項であり、
Cは、複数の基はそれぞれ繋がっているという制約に関する定数項であり、
λconnは、Hconn及びCの重み付けのためのパラメータであり、
pairは、複数の基どうしの相互作用を表す項である。
ここで、上記の式(3)における各項の一例について説明する。
なお、以下において説明する図19から図21Bにおいて、Xは、番号1のアミノ酸残基が配置可能な位置を表す。X~Xは、番号2のアミノ酸残基が配置可能な位置を表す。X~X13は、番号3のアミノ酸残基が配置可能な位置を表す。X14~X29は、番号4のアミノ酸残基が配置可能な位置を表す。
oneの一例を以下に示す。
Figure 2022062322000015
上記Honeにおいて、X、Xは、1又は0を取る。すなわち、Honeは、図19において、X、X、X、Xのうち、いずれか一つだけ1であるため、いずれか二つ以上1になっていた場合にエネルギーが上がる関数であり、一つだけ1であった場合は0になるというペナルティーの項である。
olapの一例を以下に示す。
Figure 2022062322000016
上記Holapにおいて、X、Xは、1又は0を取る。すなわち、Holapは、図20において、Xが1のとき、X14が1になった場合にペナルティーが発生する項である。
pairの一例を以下に示す。
Figure 2022062322000017
上記Hpairにおいて、X、Xは、1又は0を取る。すなわち、Hpairは、図21A及び図21Bにおいて、Xが1のとき、X15が1になった場合にXのアミノ酸残基とX15のアミノ酸残基との間に相互作用Pω(x1)ω(x15)が働きエネルギーが下がるという関数である。
続いて、図14に戻り、立体構造作成部171は、目的関数式を、式(4)のイジングモデル式に変換する(S105)。より具体的には、S105において、立体構造作成部171は、目的関数式におけるパラメータを抽出して、下記式(4)におけるb(バイアス)及びwij(ウエイト)を求めることにより、目的関数式を、下記式(4)で表されるイジングモデル式に変換する。
Figure 2022062322000018
ただし、上記式(4)において、Eは、イジングモデル式に変換した目的関数式である。
ijは、i番目のビットとj番目のビットとの間の相互作用を表す数値である。
は、i番目のビットに対するバイアスを表す数値である。
は、i番目のビットが0又は1であることを表すバイナリ変数である。
は、j番目のビットが0又は1であることを表すバイナリ変数である。
次に、立体構造作成部171は、アニーリングマシンを用いて、上記式(4)を最小化する(S106)。言い換えると、S106において、立体構造作成部171は、上記式(4)についての焼き鈍し法を用いた基底状態探索(最適化計算)を実行することにより、上記式(4)の最小値を算出することで、目的関数式に最小値を与えるビットの状態を特定する。
続いて、立体構造作成部171は、上記式(4)に最小値を与えるビットの状態(ステート)に基づいて、タンパク質の立体構造を作成し、当該タンパク質の安定構造を特定する(S107)。より具体的には、S107において、立体構造作成部171は、上記式(4)に最小値を与えるビットの状態(ステート)に基づいて、三次元格子空間にアミノ酸残基を配置して、タンパク質の立体構造を作成することにより、当該タンパク質の安定構造を特定する。
そして、立体構造作成部171は、タンパク質の安定構造を出力して、処理を終了させる(S108)。また、タンパク質の安定構造は、タンパク質の立体構造図として出力してもよいし、タンパク質を形成する各アミノ酸残基の座標情報として出力してもよい。
また、図14においては、本件で開示する技術の一例における処理の流れについて、特定の順序に従って説明したが、本件で開示する技術においては、技術的に可能な範囲で、適宜各ステップの順序を入れ替えることができる。また本件で開示する技術においては、技術的に可能な範囲で、複数のステップを一括して行ってもよい。
以下に、焼き鈍し法及びアニーリングマシンの一例について説明する。
焼き鈍し法は、乱数値や量子ビットの重ね合わせを用いて確率的に解を求める方法である。以下では最適化したい評価関数の値を最小化する問題を例に説明し、評価関数の値をエネルギーと呼ぶことにする。また、評価関数の値を最大化する場合は、評価関数の符号を変えればよい。
まず、各変数に離散値の1つを代入した初期状態からはじめ、現在の状態(変数の値の組み合わせ)から、それに近い状態(例えば、1つの変数だけ変化させた状態)を選び、その状態遷移を考える。その状態遷移に対するエネルギーの変化を計算し、その値に応じてその状態遷移を採択して状態を変化させるか、採択せずに元の状態を保つかを確率的に決める。エネルギーが下がる場合の採択確率をエネルギーが上がる場合より大きく選ぶと、平均的にはエネルギーが下がる方向に状態変化が起こり、時間の経過とともにより適切な状態へ状態遷移することが期待できる。このため、最終的には最適解又は最適値に近いエネルギーを与える近似解を得られる可能性がある。
もし、これを決定論的にエネルギーが下がる場合に採択とし、上がる場合に不採択とすれば、エネルギーの変化は時間に対して広義単調減少となるが、局所解に到達したらそれ以上変化が起こらなくなってしまう。上記のように離散最適化問題には非常に多数の局所解が存在するために、状態が、ほとんど確実にあまり最適値に近くない局所解に捕まってしまう。したがって、離散最適化問題を解く際には、その状態を採択するかどうかを確率的に決定することが重要である。
焼き鈍し法においては、状態遷移の採択(許容)確率を次のように決めれば、時刻(反復回数)無限大の極限で状態が最適解に到達することが証明されている。
以下では、焼き鈍し法を用いて最適解を求める方法について、順序を追って説明する。
(1)状態遷移に伴うエネルギー変化(エネルギー減少)値(-ΔE)に対して、その状態遷移の許容確率pを、次のいずれかの関数f( )により決める。
Figure 2022062322000019
Figure 2022062322000020
Figure 2022062322000021
ここで、Tは、温度値と呼ばれるパラメータであり、例えば、次のように変化させることができる。
(2)温度値Tを次式で表されるように反復回数tに対数的に減少させる。
Figure 2022062322000022
ここで、Tは、初期温度値であり問題に応じて、十分大きくとることが望ましい。
(1)の式で表される許容確率を用いた場合、十分な反復後に定常状態に達したとすると、各状態の占有確率は熱力学における熱平衡状態に対するボルツマン分布に従う。
そして、高い温度から徐々に下げていくとエネルギーの低い状態の占有確率が増加するため、十分温度が下がるとエネルギーの低い状態が得られると考えられる。この様子が、材料を焼き鈍したときの状態変化とよく似ているため、この方法は焼き鈍し法(または、疑似焼き鈍し法)と称される。なお、エネルギーが上がる状態遷移が確率的に起こることは、物理学における熱励起に相当する。
図22に焼き鈍し法を行うアニーリングマシンの機能構成の一例を示す。ただし、下記説明では、状態遷移の候補を複数発生させる場合についても述べるが、基本的な焼き鈍し法は、遷移候補を1つずつ発生させるものである。
アニーリングマシン300は、現在の状態S(複数の状態変数の値)を保持する状態保持部111を有する。また、アニーリングマシン300は、複数の状態変数の値のいずれかが変化することによる現在の状態Sからの状態遷移が起こった場合における、各状態遷移のエネルギー変化値{-ΔEi}を計算するエネルギー計算部112を有する。さらに、アニーリングマシン300は、温度値Tを制御する温度制御部113、状態変化を制御するための遷移制御部114を有する。なお、アニーリングマシン300は、上記の構造探索装置100の一部とすることができる。
遷移制御部114は、温度値Tとエネルギー変化値{-ΔEi}と乱数値とに基づいて、エネルギー変化値{-ΔEi}と熱励起エネルギーとの相対関係によって複数の状態遷移のいずれかを受け入れるか否かを確率的に決定する。
ここで、遷移制御部114は、状態遷移の候補を発生する候補発生部114a、各候補に対して、そのエネルギー変化値{-ΔEi}と温度値Tとから状態遷移を許可するかどうかを確率的に決定するための可否判定部114bを有する。さらに、遷移制御部114は、可となった候補から採用される候補を決定する遷移決定部114c、及び確率変数を発生させるための乱数発生部114dを有する。
アニーリングマシン300における、一回の反復における動作は次のようなものである。
まず、候補発生部114aは、状態保持部111に保持された現在の状態Sから次の状態への状態遷移の候補(候補番号{Ni})を1つまたは複数発生する。次に、エネルギー計算部112は、現在の状態Sと状態遷移の候補を用いて候補に挙げられた各状態遷移に対するエネルギー変化値{-ΔEi}を計算する。可否判定部114bは、温度制御部113で発生した温度値Tと乱数発生部114dで生成した確率変数(乱数値)を用い、各状態遷移のエネルギー変化値{-ΔEi}に応じて、上記(1)の式の許容確率でその状態遷移を許容する。
そして、可否判定部114bは、各状態遷移の可否{fi}を出力する。許容された状態遷移が複数ある場合には、遷移決定部114cは、乱数値を用いてランダムにそのうちの1つを選択する。そして、遷移決定部114cは、選択した状態遷移の遷移番号Nと、遷移可否fを出力する。許容された状態遷移が存在した場合、採択された状態遷移に応じて状態保持部111に記憶された状態変数の値が更新される。
初期状態から始めて、温度制御部113で温度値を下げながら上記反復を繰り返し、一定の反復回数に達する、又はエネルギーが一定の値を下回る等の終了判定条件が満たされたときに動作が終了する。アニーリングマシン300が出力する答えは、終了時の状態である。
図22に示されるアニーリングマシン300は、例えば、半導体集積回路を用いて実現され得る。例えば、遷移制御部114は、乱数発生部114dとして機能する乱数発生回路や、可否判定部114bの少なくとも一部として機能する比較回路や、後述のノイズテーブルなどを含んでもよい。
図22に示されている遷移制御部114に関し、(1)の式で表される許容確率で状態遷移を許容するメカニズムについて、更に詳細に説明する。
許容確率pで1を、(1-p)で0を出力する回路は、2つの入力A,Bを持ち、A>Bのとき1を出力し、A<Bのとき0を出力する比較器の入力Aに許容確率pを、入力Bに区間[0,1)の値をとる一様乱数を入力することで実現することができる。したがって、この比較器の入力Aに、エネルギー変化値と温度値Tにより(1)の式を用いて計算される許容確率pの値を入力すれば、上記の機能を実現することができる。
すなわち、fを(1)の式で用いる関数、uを区間[0,1)の値をとる一様乱数とするとき、f(ΔE/T)がuより大きいとき1を出力する回路により、上記の機能を実現できる。
また、次のような変形を行っても、上記の機能と同じ機能が実現できる。
2つの数に同じ単調増加関数を作用させても大小関係は変化しない。したがって、比較器の2つの入力に同じ単調増加関数を作用させても出力は変わらない。この単調増加関数として、fの逆関数f-1を採用すると、-ΔE/Tがf-1(u)より大きいとき1を出力する回路とすることができることがわかる。さらに、温度値Tが正であることから、-ΔEがTf-1(u)より大きいとき1を出力する回路でよいことがわかる。
図22中の遷移制御部114は、逆関数f-1(u)を実現するための変換テーブルであり、区間[0,1)を離散化した入力に対して次の関数の値を出力するノイズテーブルを含んでもよい。
Figure 2022062322000023
Figure 2022062322000024
図23は、遷移制御部114の動作フローの一例を示す図である。図23に示す動作フローは、1つの状態遷移を候補として選ぶステップ(S0001)、その状態遷移に対するエネルギー変化値と温度値と乱数値の積の比較で状態遷移の可否を決定するステップ(S0002)、状態遷移が可ならばその状態遷移を採用し、否ならば不採用とするステップ(S0003)を有する。
以下、本発明の具体的な実施例と、本発明に対する比較例について説明する。なお、本発明は、これらの実施例に限定されるものではない。
(比較例1)
まず、比較例1として、図12に示したような構造探索装置を用いて、図14に示したフローチャートで、S104において従来技術の目的関数式(後述の式(3)において、Hconnとして、図5を用いて説明した数式で表したもの)を適用して、Chignolinの安定構造を探索した。また、アニーリングマシンとしては、デジタルアニーラ(登録商標)を用いた。
なお、比較例1で利用したChignolinは、アミノ酸残基の一文字表記を用いると「YYDPETGTWY」で表されるChignolinのミュータントである。また、比較例1で利用したChignolin(PDB ID:2RVD)についての詳細は、「https://www.rcsb.org/structure/2RVD」にて確認することができる。比較例1では、三次元格子空間として、単純立方格子を用いて、Chignolinの1-beadモデル(一つのアミノ酸残基を1つの粒子に粗視化)として、構造を作成し安定構造の探索を行った。
比較例1では、以下に示すように、アミノ酸残基はそれぞれ繋がっているという制約項(Hconn)として、連結する個々のアミノ酸残基の間に成立する関係に基づいた、他の制約項(Hone及びHolap)と非独立な制約項を含む、次の式(3)の目的関数式を用いた。
Figure 2022062322000025
ただし、式(3)において、
totalは、目的関数式であり、
oneは、複数の基のそれぞれは一つしか存在しないという制約を表す制約項であり、
λoneは、Honeの重み付けのためのパラメータであり、
olapは、複数の基のそれぞれは、互いに重ならないという制約を表す制約項であり、
λolapは、Holapの重み付けのためのパラメータであり、
connは、複数の基はそれぞれ繋がっているという制約を表す制約項であり、
Cは、複数の基はそれぞれ繋がっているという制約に関する定数項であり、
λconnは、Hconn及びCの重み付けのためのパラメータであり、
pairは、複数の基どうしの相互作用を表す項である。
比較例1においては、Hconnとして、図5に示すように、番号3が付されたアミノ酸残基(qi)と、番号4が付されたアミノ酸残基(q)とが、隣接する位置に配置される場合に、qiとqは両方とも「1」となり、Hconnが負の値になる次の式の制約項を用いた。
Figure 2022062322000026
比較例1では、上記の式(3)の目的関数式において、λone、λolap(λoverlap)、及びλconn(λconnect)のそれぞれのパラメータが取り得るパターンを、各パラメータが5~30まで、5の整数倍の値を取るものとして、216個(6×6×6)のパターンについて構造を探索した。
図24A~図24Fは、比較例1において、λone、λolap(λoverlap)、及びλconn(λconnect)のそれぞれのパラメータを、5~30までの5の整数倍の同じ値に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。また、低エネルギー側とは、目的関数式の最小値が低い側のことを意味し、エネルギー値とは、目的関数式の最小値を意味し、1」となるビット番号には、アミノ酸残基が配置されることを意味する。なお、比較例1では、アニーリングのIteration数を300万として、20並列の条件で、構造の探索を行った。なお、図24A~図24Fの縦の列は、それぞれ異なる並列計算での結果を意味する。
また、比較例1で利用したChignolinについての、正しいエネルギー値(Chignolinが最安定構造となるときの目的関数式の値)は、総当たりで計算した結果、「-123」であった。
なお、比較例1で利用したChignolinについての正しいエネルギー値を求める処理としては、まず、ある格子点に存在するアミノ酸残基を表す粒子から、次のアミノ酸残基を表す粒子が配置される可能性のある格子点のすべてについて粒子の配置を特定する処理を、全てのアミノ酸残基の配置が終わるまで繰り返した。そして、このようにして得られた、すべての場合の粒子の配置について、相互に持つ相互作用エネルギーの総和を算出し、最も低いエネルギーを持つ粒子の配置を特定することにより、正しいエネルギー値(最安定構造となるときのエネルギー値)求めた。
図24A~図24Fに示すように、λone、λolap、及びλconnのそれぞれのパラメータを、5~30までの5の整数倍の同じ値に設定した場合には、「Energy」が「-123」となっているものはない。また、全ての解(Energy)が、「-123」より小さい値になっており、目的関数式の制約を満たさない解(構造)となった。
図25A~図25Fは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータについて、λone及びλolapを30に固定し、λconnを5~30まで、5の整数倍に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。
図25A~図25Fに示すようにλone及びλolapを30に固定し、λconnを5~30まで、5の整数倍に設定した場合には、「Energy」が「-123」となっているものはない。また、図25C~図25Fに示した例においては、解(Energy)が、「-123」より小さい値になっており、目的関数式の制約を満たさない解(構造)となった。
図26A~図26Eは、比較例1において、λone、λolap、及びλconnのそれぞれのパラメータについて、λone及びλolapを25に固定し、λconnを5~25まで、5の整数倍に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。
図26A~図26Eに示すように、λone及びλolapを25に固定し、λconnを10に設定した場合(図26B)には、「Energy」が「-123」となり、Chignolinについての最安定構造を探索することができた。また、図26C~図26Eに示した例においては、解(Energy)が、「-123」より小さい値になっており、目的関数式の制約を満たさない解(構造)となった。
また、λone、λolap、及びλconnのそれぞれのパラメータの216個のパターンのうち、図26Bに示した以外のパターンでは、もう1つのパターンのみ、「Energy」が「-123」となり、Chignolinについて最安定構造を探索することができた。
このように、比較例1では、λone、λolap、及びλconnのそれぞれのパラメータの216個のパターンのうち、Chignolinについて最安定構造を探索することができたのは、2パターンのみであった。
(比較例2)
比較例1において、Hconnとして、次の式で表される制約項(H)を用いた以外は、比較例1と同様にして、Chignolinの構造を作成し安定構造の探索を行った。つまり、比較例2では、Honeと、Holapと、Hconnとを互いに独立の関係として、構造の探索を行った。
Figure 2022062322000027
上記の式中、q、q、q、q、及びqは、それぞれ「1」又は「0」を取る。q、q、q、q、及びqの位置関係は、図7に示す位置関係である。
図27A~図27Fは、比較例2において、λone、λolap、及びλconnのそれぞれのパラメータを、5~30までの5の整数倍の同じ値に設定した場合の、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。
図27A~図27Fに示すように、比較例2おいては、全てのパターンかつ全ての並列計算において「Energy」が「-123」となり、Chignolinについての最安定構造を探索することができた。
さらに、比較例2として、比較例1において、構造を探索する対象を、環状ペプチドである「PLP-2」に変更し、アニーリングのIteration数を10回とし、100並列の条件として、構造を作成し安定構造の探索を行った。
また、比較例2で利用した「PLP-2」は、アミノ酸残基の一文字表記を用いると「DLFVPPID」で表される環状ペプチドである。また、比較例1で利用した「PLP-2」(PDB ID:6AXI)についての詳細は、「https://www.rcsb.org/structure/6AXI」にて確認することができる。比較例2では、三次元格子空間として、面心立方格子を用いて、「PLP-2」の2-beadモデル(一つのアミノ酸残基を主鎖と側鎖とで別の粒子に粗視化)として、構造を作成し安定構造の探索を行った。
なお、比較例2では、λone=24、λolap=24、λconn=15に、それぞれのパラメータを設定した。比較例2で利用した「PLP-2」についての、正しいエネルギー値(PLP-2が最安定構造となるときの目的関数式の値)は、「-436」である。
図28Aは、比較例2における、低エネルギー側の20種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。
図28Aに示すように、比較例2においては、100個の並列計算のうち、「Energy」が「-436」となり、「PLP-2」についての最安定構造を探索することができたのは、1つの計算のみであった。
また、図28Bには、比較例2において得られた「PLP-2」についての最安定構造を示す。
(実施例1)
「PLP-2」についての構造の探索を行った比較例2において、Hconnとして、係数値を基間距離と最短距離との差を用いて表現した、下記式(1)で表される制約項を用いた以外は、比較例2と同様にして、「PLP-2」の構造を作成し安定構造の探索を行った。
Figure 2022062322000028
ただし、式(1)において、
connは、係数値が所定値となるようにする制約項であり、
a(n)は、n番目の基におけるビット番号の集合であり、
a(n+1)は、n+1番目の基におけるビット番号の集合であり、
ijは、i番目の格子点に配置される基と、j番目の格子点に配置される基との間の基間距離であり、
は、最短距離であり、
abs(dij-d)は、dijとdとの差の絶対値で表される係数値であり、
は、i番目の格子点に配置される基の有無を表す0又は1のバイナリ変数であり、
は、j番目の格子点に配置される基の有無を表す0又は1のバイナリ変数である。
図29Aは、実施例1における、低エネルギー側の7種類について、エネルギー値と、「1」となるビット番号の一例を示す図である。
図29Aには、低エネルギー側の7種類について示したが、実施例1においては、100個の並列計算のうち、67個の計算において、「Energy」が「-436」となり、「PLP-2」についての最安定構造を探索することができた。
このように、実施例1においては、PLP-2」についての構造の探索を行った比較例2と比べて、非常に多くの並列計算において、最安定構造を探索することができ、「PLP-2」の構造を効率的に探索することができた。
また、図29Bは、実施例1における、「PLP-2」の立体構造の探索結果を示す図である。図29Bにおいて、「Energy」は目的関数式の値を意味し、「Freq」は、100並列計算の内の、そのエネルギー値となった並列計算数を意味する。また、図29Bにおいて、「RMSD(Root Mean Square Deviation)」は、実験的な手法(NMR)で得られたPDB ID:6AXIの構造と、各計算結果で得られた構造との「ズレ」の大きさを意味する。また、「RMSD」の行における、各構造について、左側の数値は、各アミノ酸残基のCα炭素原子の位置との間のRMSDを示し、右側の数値は、各アミノ酸残基の側鎖の位置との間のRMSDを示す。
図29Bに示すように、実施例1においては、100並列計算のうち、67の計算で得られた構造と、NMRで得られたPDB ID:6AXIの構造とのCα炭素原子についてのRMSDは、0.91となっている。さらに、図29Bに示すように、実施例1においては、100並列計算のうち、19の計算で得られた構造と、NMRで得られたPDB ID:6AXIの構造とのCα炭素原子についてのRMSDは、0.80となっている。
これの結果は、実施例1により探索された安定構造は、NMRにより特定された実験的な構造と、よい一致を示していることを意味する。
図29Cは、実施例1で探索した「PLP-2」の安定構造の探索結果(エネルギー値が「-432」の結果)と、当該環状ペプチドのNMRにより特定された構造とを重ね合わせて示す図である。図29Cにおいては、径の小さい濃い色の円が、実施例1により得られた安定構造における各アミノ酸残基の主鎖(Cα炭素原子)の位置を示し、径の大きい薄い色の円が、NMRにより特定された、PDB ID:6AXIにおける各アミノ酸残基のCα炭素原子の位置を示す。
図29Cに示すように、実施例1で得られた「PLP-2」の安定構造は、NMRにより特定された「PLP-2」の構造と、よい一致を示した。このことから、実施例1では、「PLP-2」の安定構造を精度よく探索できたことを確認できた。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
複数の基が連結した化合物の構造を探索する構造探索プログラムであって、
複数の格子点の集合である三次元格子空間の各格子点に前記複数の基を、
前記三次元格子空間における、前記複数の格子点のうちの第1の格子点に配置される前記複数の基のうちの第1の基と、前記複数の格子点のうちの第2の格子点に配置される前記複数の基のうちの一の基であって前記第1の基と連結する第2の基との間の基間距離を、前記複数の格子点の相互間の距離のうちの最短距離を基準とした係数値で表現し、前記係数値が所定値となるようにする制約項を含む目的関数式に基づき、
配置し、前記三次元格子空間に前記化合物の立体構造を作成する工程、
をコンピュータに行わせることを特徴とする構造探索プログラム。
(付記2)
前記制約項が、下記式(1)で表される、付記1に記載の構造探索プログラム。
Figure 2022062322000029
ただし、前記式(1)において、
前記Hconnは、前記係数値が所定値となるようにする制約項であり、
前記a(n)は、n番目の基におけるビット番号の集合であり、
前記a(n+1)は、n+1番目の基におけるビット番号の集合であり、
前記dijは、前記複数の格子点のうちのi番目の格子点に配置される基と、前記複数の格子点のうちのj番目の格子点に配置される基との間の前記基間距離であり、
前記dは、前記最短距離であり、
前記abs(dij-d)は、前記dijと前記dとの差の絶対値で表される前記係数値であり、
前記qは、前記i番目の格子点に配置される基の有無を表す0又は1のバイナリ変数であり、
前記qは、前記j番目の格子点に配置される基の有無を表す0又は1のバイナリ変数である。
(付記3)
前記制約項が、下記式(2)で表される、付記1に記載の構造探索プログラム。
Figure 2022062322000030
ただし、前記式(2)において、
前記Hconnは、前記係数値が所定値となるようにする制約項であり、
前記a(n)は、前記複数の基のうちのn番目の基におけるビット番号の集合であり、
前記a(n+1)は、前記複数の基のうちのn+1番目の基におけるビット番号の集合であり、
前記dijは、前記i番目の格子点に配置される基と、前記j番目の格子点に配置される基との間の前記基間距離であり、
前記dは、前記最短距離であり、
前記abs{(dij/d)-1}は、前記dijと前記dとの比から1を引いた数の絶対値で表される前記係数値であり、
前記qは、前記i番目の格子点に配置される基の有無を表す0又は1のバイナリ変数であり、
前記qは、前記j番目の格子点に配置される基の有無を表す0又は1のバイナリ変数である。
(付記4)
前記立体構造を作成する工程が、下記式(3)で表される前記目的関数式に基づく最適化処理により行われる、付記2又は3に記載の構造探索プログラム。
Figure 2022062322000031
ただし、前記式(3)において、
前記Htotalは、前記目的関数式であり、
前記Honeは、前記複数の基のそれぞれは一つしか存在しないという制約を表す制約項であり、
前記λoneは、前記Honeの重み付けのためのパラメータであり、
前記Holapは、前記複数の基のそれぞれは、互いに重ならないという制約を表す制約項であり、
前記λolapは、前記Holapの重み付けのためのパラメータであり、
前記Hconnは、前記複数の基はそれぞれ繋がっているという制約を表し、前記式(1)又は前記式(2)で表される制約項であり、
前記Cは、前記複数の基はそれぞれ繋がっているという制約に関する定数項であり、
前記λconnは、前記Hconn及び前記Cの重み付けのためのパラメータであり、
前記Hpairは、前記複数の基どうしの相互作用を表す項である。
(付記5)
前記立体構造を作成する工程が、下記式(4)で表されるイジングモデル式に変換した前記目的関数式に基づく最適化処理により行われる、付記1から4のいずれかに記載の構造探索プログラム。
Figure 2022062322000032
ただし、前記式(4)において、
前記Eは、前記イジングモデル式に変換した前記目的関数式であり、
前記wijは、i番目のビットとj番目のビットとの間の相互作用を表す数値であり、
前記bは、前記i番目のビットに対するバイアスを表す数値であり、
前記xは、前記i番目のビットが0又は1であることを表すバイナリ変数であり、
前記xは、前記j番目のビットが0又は1であることを表すバイナリ変数である。
(付記6)
前記立体構造を作成する工程が、前記イジングモデル式について、焼き鈍し法を用いた基底状態探索を実行することにより、前記イジングモデル式の最小エネルギーを算出することにより行われる、付記5に記載の構造探索プログラム。
(付記7)
前記化合物がタンパク質又はペプチドであり、前記複数の基がアミノ酸残基である、付記1から6のいずれかに記載の構造探索プログラム。
(付記8)
複数の基が連結した化合物の安定構造を探索する構造探索装置であって、
複数の格子点の集合である三次元格子空間の各格子点に前記複数の基を、
前記三次元格子空間における、前記複数の格子点のうちの第1の格子点に配置される前記複数の基のうちの第1の基と、前記複数の格子点のうちの第2の格子点に配置される前記複数の基のうちの一の基であって前記第1の基と連結する第2の基との間の基間距離を、前記複数の格子点の相互間の距離のうちの最短距離を基準とした係数値で表現し、前記係数値が所定値となるようにする制約項を含む目的関数式に基づき、
配置し、前記三次元格子空間に前記化合物の立体構造を作成する部、
を有することを特徴とする構造探索装置。
(付記9)
前記制約項が、下記式(1)で表される、付記8に記載の構造探索装置。
Figure 2022062322000033
ただし、前記式(1)において、
前記Hconnは、前記係数値が所定値となるようにする制約項であり、
前記a(n)は、n番目の基におけるビット番号の集合であり、
前記a(n+1)は、n+1番目の基におけるビット番号の集合であり、
前記dijは、前記複数の格子点のうちのi番目の格子点に配置される基と、前記複数の格子点のうちのj番目の格子点に配置される基との間の前記基間距離であり、
前記dは、前記最短距離であり、
前記abs(dij-d)は、前記dijと前記dとの差の絶対値で表される前記係数値であり、
前記qは、前記i番目の格子点に配置される基の有無を表す0又は1のバイナリ変数であり、
前記qは、前記j番目の格子点に配置される基の有無を表す0又は1のバイナリ変数である。
(付記10)
前記制約項が、下記式(2)で表される、付記8に記載の構造探索装置。
Figure 2022062322000034
ただし、前記式(2)において、
前記Hconnは、前記係数値が所定値となるようにする制約項であり、
前記a(n)は、前記複数の基のうちのn番目の基におけるビット番号の集合であり、
前記a(n+1)は、前記複数の基のうちのn+1番目の基におけるビット番号の集合であり、
前記dijは、前記i番目の格子点に配置される基と、前記j番目の格子点に配置される基との間の前記基間距離であり、
前記dは、前記最短距離であり、
前記abs{(dij/d)-1}は、前記dijと前記dとの比から1を引いた数の絶対値で表される前記係数値であり、
前記qは、前記i番目の格子点に配置される基の有無を表す0又は1のバイナリ変数であり、
前記qは、前記j番目の格子点に配置される基の有無を表す0又は1のバイナリ変数である。
(付記11)
前記立体構造を作成する部が、下記式(3)で表される前記目的関数式に基づく最適化処理を行う、付記9又は10に記載の構造探索装置。
Figure 2022062322000035
ただし、前記式(3)において、
前記Htotalは、前記目的関数式であり、
前記Honeは、前記複数の基のそれぞれは一つしか存在しないという制約を表す制約項であり、
前記λoneは、前記Honeの重み付けのためのパラメータであり、
前記Holapは、前記複数の基のそれぞれは、互いに重ならないという制約を表す制約項であり、
前記λolapは、前記Holapの重み付けのためのパラメータであり、
前記Hconnは、前記複数の基はそれぞれ繋がっているという制約を表し、前記式(1)又は前記式(2)で表される制約項であり、
前記Cは、前記複数の基はそれぞれ繋がっているという制約に関する定数項であり、
前記λconnは、前記Hconn及び前記Cの重み付けのためのパラメータであり、
前記Hpairは、前記複数の基どうしの相互作用を表す項である。
(付記12)
前記立体構造を作成する部が、下記式(4)で表されるイジングモデル式に変換した前記目的関数式に基づく最適化処理を行う、付記8から11のいずれかに記載の構造探索装置。
Figure 2022062322000036
ただし、前記式(4)において、
前記Eは、前記イジングモデル式に変換した前記目的関数式であり、
前記wijは、i番目のビットとj番目のビットとの間の相互作用を表す数値であり、
前記bは、前記i番目のビットに対するバイアスを表す数値であり、
前記xは、前記i番目のビットが0又は1であることを表すバイナリ変数であり、
前記xは、前記j番目のビットが0又は1であることを表すバイナリ変数である。
(付記13)
前記立体構造を作成する部が、前記イジングモデル式について、焼き鈍し法を用いた基底状態探索を実行することにより、前記イジングモデル式の最小エネルギーを算出する、付記12に記載の構造探索装置。
(付記14)
前記化合物がタンパク質又はペプチドであり、前記複数の基がアミノ酸残基である、付記8から13のいずれかに記載の構造探索装置。
(付記15)
複数の基が連結した化合物の安定構造を探索する構造探索方法であって、
複数の格子点の集合である三次元格子空間の各格子点に前記複数の基を、
前記三次元格子空間における、前記複数の格子点のうちの第1の格子点に配置される前記複数の基のうちの第1の基と、前記複数の格子点のうちの第2の格子点に配置される前記複数の基のうちの一の基であって前記第1の基と連結する第2の基との間の基間距離を、前記複数の格子点の相互間の距離のうちの最短距離を基準とした係数値で表現し、前記係数値が所定値となるようにする制約項を含む目的関数式に基づき、
配置し、前記三次元格子空間に前記化合物の立体構造を作成する工程、
を含むことを特徴とする構造探索方法。
(付記16)
前記制約項が、下記式(1)で表される、付記15に記載の構造探索方法。
Figure 2022062322000037
ただし、前記式(1)において、
前記Hconnは、前記係数値が所定値となるようにする制約項であり、
前記a(n)は、n番目の基におけるビット番号の集合であり、
前記a(n+1)は、n+1番目の基におけるビット番号の集合であり、
前記dijは、前記複数の格子点のうちのi番目の格子点に配置される基と、前記複数の格子点のうちのj番目の格子点に配置される基との間の前記基間距離であり、
前記dは、前記最短距離であり、
前記abs(dij-d)は、前記dijと前記dとの差の絶対値で表される前記係数値であり、
前記qは、前記i番目の格子点に配置される基の有無を表す0又は1のバイナリ変数であり、
前記qは、前記j番目の格子点に配置される基の有無を表す0又は1のバイナリ変数である。
(付記17)
前記制約項が、下記式(2)で表される、付記15に記載の構造探索方法。
Figure 2022062322000038
ただし、前記式(2)において、
前記Hconnは、前記係数値が所定値となるようにする制約項であり、
前記a(n)は、前記複数の基のうちのn番目の基におけるビット番号の集合であり、
前記a(n+1)は、前記複数の基のうちのn+1番目の基におけるビット番号の集合であり、
前記dijは、前記i番目の格子点に配置される基と、前記j番目の格子点に配置される基との間の前記基間距離であり、
前記dは、前記最短距離であり、
前記abs{(dij/d)-1}は、前記dijと前記dとの比から1を引いた数の絶対値で表される前記係数値であり、
前記qは、前記i番目の格子点に配置される基の有無を表す0又は1のバイナリ変数であり、
前記qは、前記j番目の格子点に配置される基の有無を表す0又は1のバイナリ変数である。
(付記18)
前記立体構造を作成する工程が、下記式(3)で表される前記目的関数式に基づく最適化処理により行われる、付記16又は17に記載の構造探索方法。
Figure 2022062322000039
ただし、前記式(3)において、
前記Htotalは、前記目的関数式であり、
前記Honeは、前記複数の基のそれぞれは一つしか存在しないという制約を表す制約項であり、
前記λoneは、前記Honeの重み付けのためのパラメータであり、
前記Holapは、前記複数の基のそれぞれは、互いに重ならないという制約を表す制約項であり、
前記λolapは、前記Holapの重み付けのためのパラメータであり、
前記Hconnは、前記複数の基はそれぞれ繋がっているという制約を表し、前記式(1)又は前記式(2)で表される制約項であり、
前記Cは、前記複数の基はそれぞれ繋がっているという制約に関する定数項であり、
前記λconnは、前記Hconn及び前記Cの重み付けのためのパラメータであり、
前記Hpairは、前記複数の基どうしの相互作用を表す項である。
(付記19)
前記立体構造を作成する工程が、下記式(4)で表されるイジングモデル式に変換した前記目的関数式に基づく最適化処理により行われる、付記15から18のいずれかに記載の構造探索方法。
Figure 2022062322000040
ただし、前記式(4)において、
前記Eは、前記イジングモデル式に変換した前記目的関数式であり、
前記wijは、i番目のビットとj番目のビットとの間の相互作用を表す数値であり、
前記bは、前記i番目のビットに対するバイアスを表す数値であり、
前記xは、前記i番目のビットが0又は1であることを表すバイナリ変数であり、
前記xは、前記j番目のビットが0又は1であることを表すバイナリ変数である。
(付記20)
前記立体構造を作成する工程が、前記イジングモデル式について、焼き鈍し法を用いた基底状態探索を実行することにより、前記イジングモデル式の最小エネルギーを算出することにより行われる、付記19に記載の構造探索方法。
(付記21)
前記化合物がタンパク質又はペプチドであり、前記複数の基がアミノ酸残基である、付記15から20のいずれかに記載の構造探索方法。
100 構造探索装置
101 制御部
102 主記憶装置
103 補助記憶装置
104 I/Oインターフェイス
105 通信インターフェイス
106 入力装置
107 出力装置
108 表示装置
109 バス
120 通信機能部
130 入力機能部
140 出力機能部
150 表示機能部
160 記憶機能部
170 制御機能部
171 立体構造作成部
172 目的関数式作成部
173 最適化処理部

Claims (9)

  1. 複数の基が連結した化合物の構造を探索する構造探索プログラムであって、
    複数の格子点の集合である三次元格子空間の各格子点に前記複数の基を、
    前記三次元格子空間における、前記複数の格子点のうちの第1の格子点に配置される前記複数の基のうちの第1の基と、前記複数の格子点のうちの第2の格子点に配置される前記複数の基のうちの一の基であって前記第1の基と連結する第2の基との間の基間距離を、前記複数の格子点の相互間の距離のうちの最短距離を基準とした係数値で表現し、前記係数値が所定値となるようにする制約項を含む目的関数式に基づき、
    配置し、前記三次元格子空間に前記化合物の立体構造を作成する工程、
    をコンピュータに行わせることを特徴とする構造探索プログラム。
  2. 前記制約項が、下記式(1)で表される、請求項1に記載の構造探索プログラム。
    Figure 2022062322000041
    ただし、前記式(1)において、
    前記Hconnは、前記係数値が所定値となるようにする制約項であり、
    前記a(n)は、n番目の基におけるビット番号の集合であり、
    前記a(n+1)は、n+1番目の基におけるビット番号の集合であり、
    前記dijは、前記複数の格子点のうちのi番目の格子点に配置される基と、前記複数の格子点のうちのj番目の格子点に配置される基との間の前記基間距離であり、
    前記dは、前記最短距離であり、
    前記abs(dij-d)は、前記dijと前記dとの差の絶対値で表される前記係数値であり、
    前記qは、前記i番目の格子点に配置される基の有無を表す0又は1のバイナリ変数であり、
    前記qは、前記j番目の格子点に配置される基の有無を表す0又は1のバイナリ変数である。
  3. 前記制約項が、下記式(2)で表される、請求項1に記載の構造探索プログラム。
    Figure 2022062322000042
    ただし、前記式(2)において、
    前記Hconnは、前記係数値が所定値となるようにする制約項であり、
    前記a(n)は、前記複数の基のうちのn番目の基におけるビット番号の集合であり、
    前記a(n+1)は、前記複数の基のうちのn+1番目の基におけるビット番号の集合であり、
    前記dijは、前記i番目の格子点に配置される基と、前記j番目の格子点に配置される基との間の前記基間距離であり、
    前記dは、前記最短距離であり、
    前記abs{(dij/d)-1}は、前記dijと前記dとの比から1を引いた数の絶対値で表される前記係数値であり、
    前記qは、前記i番目の格子点に配置される基の有無を表す0又は1のバイナリ変数であり、
    前記qは、前記j番目の格子点に配置される基の有無を表す0又は1のバイナリ変数である。
  4. 前記立体構造を作成する工程が、下記式(3)で表される前記目的関数式に基づく最適化処理により行われる、請求項2又は3に記載の構造探索プログラム。
    Figure 2022062322000043
    ただし、前記式(3)において、
    前記Htotalは、前記目的関数式であり、
    前記Honeは、前記複数の基のそれぞれは一つしか存在しないという制約を表す制約項であり、
    前記λoneは、前記Honeの重み付けのためのパラメータであり、
    前記Holapは、前記複数の基のそれぞれは、互いに重ならないという制約を表す制約項であり、
    前記λolapは、前記Holapの重み付けのためのパラメータであり、
    前記Hconnは、前記複数の基はそれぞれ繋がっているという制約を表し、前記式(1)又は前記式(2)で表される制約項であり、
    前記Cは、前記複数の基はそれぞれ繋がっているという制約に関する定数項であり、
    前記λconnは、前記Hconn及び前記Cの重み付けのためのパラメータであり、
    前記Hpairは、前記複数の基どうしの相互作用を表す項である。
  5. 前記立体構造を作成する工程が、下記式(4)で表されるイジングモデル式に変換した前記目的関数式に基づく最適化処理により行われる、請求項1から4のいずれかに記載の構造探索プログラム。
    Figure 2022062322000044
    ただし、前記式(4)において、
    前記Eは、前記イジングモデル式に変換した前記目的関数式であり、
    前記wijは、i番目のビットとj番目のビットとの間の相互作用を表す数値であり、
    前記bは、前記i番目のビットに対するバイアスを表す数値であり、
    前記xは、前記i番目のビットが0又は1であることを表すバイナリ変数であり、
    前記xは、前記j番目のビットが0又は1であることを表すバイナリ変数である。
  6. 前記立体構造を作成する工程が、前記イジングモデル式について、焼き鈍し法を用いた基底状態探索を実行することにより、前記イジングモデル式の最小エネルギーを算出することにより行われる、請求項5に記載の構造探索プログラム。
  7. 前記化合物がタンパク質又はペプチドであり、前記複数の基がアミノ酸残基である、請求項1から6のいずれかに記載の構造探索プログラム。
  8. 複数の基が連結した化合物の安定構造を探索する構造探索装置であって、
    複数の格子点の集合である三次元格子空間の各格子点に前記複数の基を、
    前記三次元格子空間における、前記複数の格子点のうちの第1の格子点に配置される前記複数の基のうちの第1の基と、前記複数の格子点のうちの第2の格子点に配置される前記複数の基のうちの一の基であって前記第1の基と連結する第2の基との間の基間距離を、前記複数の格子点の相互間の距離のうちの最短距離を基準とした係数値で表現し、前記係数値が所定値となるようにする制約項を含む目的関数式に基づき、
    配置し、前記三次元格子空間に前記化合物の立体構造を作成する部、
    を有することを特徴とする構造探索装置。
  9. 複数の基が連結した化合物の安定構造を探索する構造探索方法であって、
    複数の格子点の集合である三次元格子空間の各格子点に前記複数の基を、
    前記三次元格子空間における、前記複数の格子点のうちの第1の格子点に配置される前記複数の基のうちの第1の基と、前記複数の格子点のうちの第2の格子点に配置される前記複数の基のうちの一の基であって前記第1の基と連結する第2の基との間の基間距離を、前記複数の格子点の相互間の距離のうちの最短距離を基準とした係数値で表現し、前記係数値が所定値となるようにする制約項を含む目的関数式に基づき、
    配置し、前記三次元格子空間に前記化合物の立体構造を作成する工程、
    を含むことを特徴とする構造探索方法。
JP2020170246A 2020-10-08 2020-10-08 構造探索プログラム、構造探索装置、及び構造探索方法 Withdrawn JP2022062322A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020170246A JP2022062322A (ja) 2020-10-08 2020-10-08 構造探索プログラム、構造探索装置、及び構造探索方法
US17/383,620 US20220115085A1 (en) 2020-10-08 2021-07-23 Non-transitory computer-readable storage medium, structure search device, and structure search method
EP21188468.9A EP3982370A1 (en) 2020-10-08 2021-07-29 Structure search program, structure search device, and structure search method
CN202110929381.1A CN114300037A (zh) 2020-10-08 2021-08-13 结构搜索程序、结构搜索设备和结构搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020170246A JP2022062322A (ja) 2020-10-08 2020-10-08 構造探索プログラム、構造探索装置、及び構造探索方法

Publications (1)

Publication Number Publication Date
JP2022062322A true JP2022062322A (ja) 2022-04-20

Family

ID=77126647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020170246A Withdrawn JP2022062322A (ja) 2020-10-08 2020-10-08 構造探索プログラム、構造探索装置、及び構造探索方法

Country Status (4)

Country Link
US (1) US20220115085A1 (ja)
EP (1) EP3982370A1 (ja)
JP (1) JP2022062322A (ja)
CN (1) CN114300037A (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7176381B2 (ja) * 2018-12-03 2022-11-22 富士通株式会社 環状分子の構造探索方法、及び構造探索装置、並びにプログラム

Also Published As

Publication number Publication date
US20220115085A1 (en) 2022-04-14
EP3982370A1 (en) 2022-04-13
CN114300037A (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
JP7251281B2 (ja) 結合構造探索装置、結合構造探索方法、及び結合構造探索プログラム
JP2021082165A (ja) 構造探索方法、構造探索プログラム、及び構造探索装置
Nepomuceno et al. Biclustering of gene expression data by correlation-based scatter search
JP7139805B2 (ja) 化合物探索装置、化合物探索方法、及び化合物探索プログラム
JP7176381B2 (ja) 環状分子の構造探索方法、及び構造探索装置、並びにプログラム
JP7219402B2 (ja) 最適化装置、最適化装置の制御方法及び最適化装置の制御プログラム
JP2021192199A (ja) 構造探索方法、構造探索装置、構造探索用プログラム、及び相互作用ポテンシャル特定方法
Li et al. Nature-inspired multiobjective epistasis elucidation from genome-wide association studies
JP7323796B2 (ja) 最適化装置、最適化方法及び最適化プログラム
JP2022150078A (ja) 情報処理プログラム、情報処理装置、及び情報処理方法
JP2022062322A (ja) 構造探索プログラム、構造探索装置、及び構造探索方法
JP7268484B2 (ja) 構造探索装置、構造探索方法、及び構造探索プログラム
Gillespie et al. RNA folding on the 3D triangular lattice
Marquez-Chamorro et al. Evolutionary decision rules for predicting protein contact maps
Torres et al. A novel ab-initio genetic-based approach for protein folding prediction
JP2022068606A (ja) 最適化装置、最適化方法、及び最適化プログラム
Tucs et al. Probing conformational dynamics of antibodies with geometric simulations
Madain et al. Computational modeling of proteins based on cellular automata
WO2019198408A1 (ja) 学習装置、学習方法、及び学習プログラム
Joo et al. Profile-based nearest neighbor method for pattern recognition
Bhuva et al. Evolutionary algorithms for cardinality-constrained Ising models
Badura et al. Datasets for Benchmarking RNA Design Algorithms
Topcu et al. A multiobjective evolutionary algorithm approach for map sketch generation
Richardson et al. PIRATE: Plundering AlphaFold Predictions to Automate Protein Engineering
JP2020067931A (ja) 化合物探索装置、化合物探索方法、及び化合物探索プログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20220601

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230707

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20240129