JP2004109053A - Binding part prediction method and apparatus, program, and recording medium - Google Patents

Binding part prediction method and apparatus, program, and recording medium Download PDF

Info

Publication number
JP2004109053A
JP2004109053A JP2002275300A JP2002275300A JP2004109053A JP 2004109053 A JP2004109053 A JP 2004109053A JP 2002275300 A JP2002275300 A JP 2002275300A JP 2002275300 A JP2002275300 A JP 2002275300A JP 2004109053 A JP2004109053 A JP 2004109053A
Authority
JP
Japan
Prior art keywords
amino acid
acid residue
acid sequence
energy
sequence data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002275300A
Other languages
Japanese (ja)
Other versions
JP3990963B2 (en
Inventor
Kazuki Ono
大野 一樹
Mitsuto Wada
和田 光人
Seiji Saito
斎藤 静司
Kensaku Imai
今井 建策
Shinya Hosoki
細木 信也
Takashi Shimada
島田 尚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Celestar Lexico Sciences Inc
Original Assignee
Celestar Lexico Sciences Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Celestar Lexico Sciences Inc filed Critical Celestar Lexico Sciences Inc
Priority to JP2002275300A priority Critical patent/JP3990963B2/en
Priority to PCT/JP2003/006952 priority patent/WO2003107218A1/en
Priority to US10/516,133 priority patent/US20050130224A1/en
Priority to EP03733232A priority patent/EP1510943A4/en
Publication of JP2004109053A publication Critical patent/JP2004109053A/en
Application granted granted Critical
Publication of JP3990963B2 publication Critical patent/JP3990963B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a system etc. for predicting three-dimensional structure information from information on the amino acids of proteins and predicting electrostatically unstable parts from the three-dimensional structure information and electric charge. <P>SOLUTION: In the system, distance data in a space between amino acid residues in the three-dimensional structure of the proteins or bioactive polypeptides is determined from data on the amino acid sequence of the proteins or the bioactive polypeptides (step SA-1), and binding parts are predicted by specifying electrostatically undatable amino acid residues according to the distance data and the electric charge of each amino acid (sep SA-2 to 4). Therefore, it is possible to highly accurately predict the binding parts at a high speed by using that amino acid residues which could become electrostatically unstable easily become binding parts from the amino acid sequence of the proteins or the bioactive polypeptides. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、結合部位予測方法、結合部位予測装置、プログラム、および、記録媒体に関し、特に、アミノ酸配列データから予測された、または、実験的に求められた立体構造情報(アミノ酸残基間の空間上の距離情報)と、電荷の情報とを用いて静電的に不安定な部分を予測することにより、蛋白質または生理活性ポリペプチドの結合部位や結合相手を効率的に予測すること等ができる結合部位予測方法、結合部位予測装置、プログラム、および、記録媒体に関する。
【0002】
【従来の技術】
蛋白質または生理活性ポリペプチドが一定の機能を示すためには、他の蛋白質等と相互作用することが重要である。特定の蛋白質の相互作用を阻害したり、相互作用を強めたりするような物質は医薬品になる可能性を秘めている。したがって、蛋白質の相互作用部位、さらには、蛋白質の相互作用相手を予測することは生物学、医学、薬学上、極めて重要な問題である。このため、バイオインフォマティクスの分野においては、従来から様々な方法により蛋白質の相互作用相手を予測することが試みられている。
【0003】
【発明が解決しようとする課題】
しかしながら、既知のバイオインフォマティクスによる蛋白質の相互作用の予測手法は計算負担が大きく処理時間が長時間かかるものであり、また、予測精度は低いためさらなる精度の高くかつ処理時間が短い手法の開発が望まれているという問題点を有していた。
以下、この問題点の内容について、一層具体的に説明する。
【0004】
例えば、バイオインフォマティクス分野における相互作用部位予測に関しては、モチーフ検索などによる予測技術が開発されてきた。しかし、モチーフ検索は既知の相互作用部位については解析することができるが、未知の相互作用部位については解析できないという問題点がある。
【0005】
他にも、アミノ酸頻度解析を利用して結合部位を予測する方法も開発されている。例えば、特許文献1、特許文献2、特許文献3などがある。しかしながら、これらの予測方法は、予測精度が低いという問題点がある。
【0006】
【特許文献1】
特開平11−213003号公報
【特許文献2】
特開平10−222486号公報
【特許文献3】
特開平10−045795号公報
【0007】
また、この他にも、例えば、2つの蛋白質の立体構造をドッキングさせ、最も安定な複合体構造を得る方法がある。この方法の予測精度は高いが、いくつかの問題点がある。第一に、蛋白質のうちに立体構造が分かっているのはほんの一部に過ぎないので、ほとんどの蛋白質には適応できないことである。第二に、これらの手法は計算負担が大きく処理時間が長時間かかるものであるため、網羅的な計算を行うことが困難であることである。
【0008】
さらに、相互作用部位予測よりも難しい相互作用相手予測については有効な手段が確立されていない。つまり、全く未知の相互作用部位、さらには、相互作用相手を高精度に予測するためには、全く新しいアプローチが必要であるが、有効な手段は未だ確立していない。
【0009】
本発明は上記問題点に鑑みてなされたもので、バイオインフォマティクスによる蛋白質の相互作用の予測を極めて短時間で計算可能にし、網羅的な解析を可能にする、結合部位予測方法、結合部位予測装置、プログラム、および、記録媒体を提供することを目的としている。
【0010】
【課題を解決するための手段】
2つの蛋白質が自発的に相互作用するためには、結合することにより系全体のエネルギーが下がることが必要となる。つまり、蛋白質の中で不安定な部分は、結合によって安定化する可能性を秘めているので、結合しやすい部分と考えることができる。また、相互作用相手は他の蛋白質と比べて結合する能力が高いと考えられる。つまり、相互作用相手を予測するためには、網羅的に相互作用を計算した上で、他よりも相互作用する能力が高いものを探索する必要がある。そのためには、1対1の相互作用だけではなく、多対多の相互作用の計算が必要なので、計算コストを大幅に改善する必要がある。
【0011】
本発明の中心的な概念は、蛋白質の構造上、他の部位よりも不安定な領域が結合部位の可能性が高いというものである。つまり、本発明は、局所的に不安定な領域を比較的簡易な計算によって求めることで、結合部位を予測するものである。
【0012】
すなわち、本発明は、主に、
・基本的に蛋白質の配列情報のみから高精度に結合部位を予測できるようにすること(ただし、必要に応じて立体構造情報を追加できる。)
・極めて短時間で計算可能にし、網羅的な解析を可能にすることの2点を特徴とするものである。
【0013】
本発明は上述した問題点を鑑みてなされたもので、蛋白質のアミノ酸情報から立体構造情報(アミノ酸間の空間上の距離)を予測して、立体構造と電荷の情報から静電的に不安定な部分を予測する、および/または、2つの蛋白質が結合する時の静電的なエネルギーを計算することにより、結合部位、結合相手を予測すること等ができる、結合部位予測方法、結合部位予測装置、プログラム、および、記録媒体に関する。
【0014】
このような目的を達成するため、請求項1に記載の結合部位予測方法は、蛋白質または生理活性ポリペプチドのアミノ酸配列データから当該蛋白質または生理活性ポリペプチドの立体構造における各アミノ酸残基間の空間上の距離データを求め、当該距離データと各アミノ酸の電荷に従って静電的に不安定なアミノ酸残基を特定することにより結合部位を予測することを特徴とする。
【0015】
この方法によれば、蛋白質または生理活性ポリペプチドのアミノ酸配列データから当該蛋白質または生理活性ポリペプチドの立体構造における各アミノ酸残基間の空間上の距離データを求め、当該距離データと各アミノ酸の電荷に従って静電的に不安定なアミノ酸残基を特定することにより結合部位を予測するので、蛋白質または生理活性ポリペプチドのアミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部位になりやすいことを利用して、高速かつ高精度に結合部位を予測することができるようになる。
【0016】
また、請求項2に記載の結合部位予測方法は、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得するアミノ酸配列データ取得ステップと、上記アミノ酸配列データ取得ステップにより取得されたアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を決定する空間距離決定ステップと、上記アミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定ステップと、上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距離と、上記電荷決定ステップにより決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、上記エネルギー計算ステップにより計算された上記エネルギーに従って、結合部位となる候補アミノ酸残基を決定する候補アミノ酸残基決定ステップとを含むことを特徴とする。
【0017】
この方法によれば、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得し、取得されたアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を決定し、アミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定し、決定された各アミノ酸残基間の空間上の距離と、決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算し、計算されたエネルギーに従って、結合部位となる候補アミノ酸残基を決定するので、蛋白質または生理活性ポリペプチドのアミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部位になりやすいことを利用して、高速かつ高精度に結合部位を予測することができるようになる。
【0018】
また、請求項3に記載の結合部位予測方法は、目的の複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得するアミノ酸配列データ取得ステップと、上記目的の複数の蛋白質または生理活性ポリペプチドの結合した複合体の立体構造情報を生成する複合体構造生成ステップと、上記アミノ酸配列データ取得ステップにより取得された複数のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、上記複合体構造生成ステップにより生成した上記複合体の立体構造情報に従って決定する空間距離決定ステップと、上記複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定ステップと、上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距離と、上記電荷決定ステップにより決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、上記複合体構造生成ステップにより上記複合体について結合部位を変えて上記複合体の立体構造情報を生成し、エネルギー計算ステップにより各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求めるエネルギー最小化ステップと、上記エネルギー最小化ステップによりエネルギーの総和が最小となる結合部位を、結合部位の候補アミノ酸残基として決定する候補アミノ酸残基決定ステップとを含むことを特徴とする。
【0019】
この方法によれば、目的の複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得し、目的の複数の蛋白質または生理活性ポリペプチドの結合した複合体の立体構造情報を生成し、取得された複数のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、生成した複合体の立体構造情報に従って決定し、複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定し、決定された各アミノ酸残基間の空間上の距離と、決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算し、複合体について結合部位を変えて複合体の立体構造情報を生成し、各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求め、エネルギーの総和が最小となる結合部位を、結合部位の候補アミノ酸残基として決定するので、蛋白質または生理活性ポリペプチドのアミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部位になりやすいことを利用して、高速かつ高精度に結合部位を予測することができるようになる。
【0020】
また、請求項4に記載の結合部位予測方法は、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データと、結合候補となる1つまたは複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データとを取得するアミノ酸配列データ取得ステップと、上記目的の蛋白質または生理活性ポリペプチドと、上記結合候補となる蛋白質または生理活性ポリペプチドとが結合した複合体の立体構造情報を生成する複合体構造生成ステップと、上記アミノ酸配列データ取得ステップにより取得された目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、上記複合体構造生成ステップにより生成した上記複合体の立体構造情報に従って決定する空間距離決定ステップと、上記目的のアミノ酸配列データと上記結合候補のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定ステップと、上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距離と、上記電荷決定ステップにより決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、上記複合体構造生成ステップにより上記複合体について結合部位を変えて上記複合体の立体構造情報を生成し、エネルギー計算ステップにより各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求めるエネルギー最小化ステップと、全ての結合候補について上記エネルギー最小化ステップを実行した結果、上記エネルギーの総和が最小となる結合部位をもつ結合候補を決定する結合候補決定ステップとを含むことを特徴とする。
【0021】
この方法によれば、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データと、結合候補となる1つまたは複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データとを取得し、目的の蛋白質または生理活性ポリペプチドと、結合候補となる蛋白質または生理活性ポリペプチドとが結合した複合体の立体構造情報を生成し、取得された目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、生成した複合体の立体構造情報に従って決定し、目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定し、決定された各アミノ酸残基間の空間上の距離と、決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算し、複合体について結合部位を変えて複合体の立体構造情報を生成し、各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求め、全ての結合候補についてエネルギー最小化処理を実行した結果、エネルギーの総和が最小となる結合部位をもつ結合候補を決定するので、蛋白質または生理活性ポリペプチドのアミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部位になりやすいことを利用して、高速かつ高精度に最適な結合候補の蛋白質を予測することができるようになる。
【0022】
また、本発明は結合部位予測装置に関するものであり、請求項5に記載の結合部位予測装置は、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得するアミノ酸配列データ取得手段と、上記アミノ酸配列データ取得手段により取得されたアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を決定する空間距離決定手段と、上記アミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定手段と、上記空間距離決定手段により決定された各アミノ酸残基間の空間上の距離と、上記電荷決定手段により決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算手段と、上記エネルギー計算手段により計算された上記エネルギーに従って、結合部位となる候補アミノ酸残基を決定する候補アミノ酸残基決定手段とを備えたことを特徴とする。
【0023】
この装置によれば、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得し、取得されたアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を決定し、アミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定し、決定された各アミノ酸残基間の空間上の距離と、決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算し、計算されたエネルギーに従って、結合部位となる候補アミノ酸残基を決定するので、蛋白質または生理活性ポリペプチドのアミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部位になりやすいことを利用して、高速かつ高精度に結合部位を予測することができるようになる。
【0024】
また、請求項6に記載の結合部位予測装置は、目的の複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得するアミノ酸配列データ取得手段と、上記目的の複数の蛋白質または生理活性ポリペプチドの結合した複合体の立体構造情報を生成する複合体構造生成手段と、上記アミノ酸配列データ取得手段により取得された複数のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、上記複合体構造生成手段により生成した上記複合体の立体構造情報に従って決定する空間距離決定手段と、上記複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定手段と、上記空間距離決定手段により決定された各アミノ酸残基間の空間上の距離と、上記電荷決定手段により決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算手段と、上記複合体構造生成手段により上記複合体について結合部位を変えて上記複合体の立体構造情報を生成し、エネルギー計算手段により各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求めるエネルギー最小化手段と、上記エネルギー最小化手段によりエネルギーの総和が最小となる結合部位を、結合部位の候補アミノ酸残基として決定する候補アミノ酸残基決定手段とを備えたことを特徴とする。
【0025】
この装置によれば、目的の複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得し、目的の複数の蛋白質または生理活性ポリペプチドの結合した複合体の立体構造情報を生成し、取得された複数のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、生成した複合体の立体構造情報に従って決定し、複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定し、決定された各アミノ酸残基間の空間上の距離と、決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算し、複合体について結合部位を変えて複合体の立体構造情報を生成し、各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求め、エネルギーの総和が最小となる結合部位を、結合部位の候補アミノ酸残基として決定するので、蛋白質または生理活性ポリペプチドのアミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部位になりやすいことを利用して、高速かつ高精度に結合部位を予測することができるようになる。
【0026】
また、請求項7に記載の結合部位予測装置は、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データと、結合候補となる1つまたは複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データとを取得するアミノ酸配列データ取得手段と、上記目的の蛋白質または生理活性ポリペプチドと、上記結合候補となる蛋白質または生理活性ポリペプチドとが結合した複合体の立体構造情報を生成する複合体構造生成手段と、上記アミノ酸配列データ取得手段により取得された目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、上記複合体構造生成手段により生成した上記複合体の立体構造情報に従って決定する空間距離決定手段と、上記目的のアミノ酸配列データと上記結合候補のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定手段と、上記空間距離決定手段により決定された各アミノ酸残基間の空間上の距離と、上記電荷決定手段により決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算手段と、上記複合体構造生成手段により上記複合体について結合部位を変えて上記複合体の立体構造情報を生成し、エネルギー計算手段により各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求めるエネルギー最小化手段と、全ての結合候補について上記エネルギー最小化手段を実行した結果、上記エネルギーの総和が最小となる結合部位をもつ結合候補を決定する結合候補決定手段とを備えたことを特徴とする。
【0027】
この装置によれば、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データと、結合候補となる1つまたは複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データとを取得し、目的の蛋白質または生理活性ポリペプチドと、結合候補となる蛋白質または生理活性ポリペプチドとが結合した複合体の立体構造情報を生成し、取得された目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、生成した複合体の立体構造情報に従って決定し、目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定し、決定された各アミノ酸残基間の空間上の距離と、決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算し、複合体について結合部位を変えて複合体の立体構造情報を生成し、各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求め、全ての結合候補についてエネルギー最小化処理を実行した結果、エネルギーの総和が最小となる結合部位をもつ結合候補を決定するので、蛋白質または生理活性ポリペプチドのアミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部位になりやすいことを利用して、高速かつ高精度に最適な結合候補の蛋白質を予測することができるようになる。
【0028】
また、本発明はプログラムに関するものであり、請求項8に記載のプログラムは、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得するアミノ酸配列データ取得ステップと、上記アミノ酸配列データ取得ステップにより取得されたアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を決定する空間距離決定ステップと、上記アミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定ステップと、上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距離と、上記電荷決定ステップにより決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、上記エネルギー計算ステップにより計算された上記エネルギーに従って、結合部位となる候補アミノ酸残基を決定する候補アミノ酸残基決定ステップとを含む結合部位予測方法をコンピュータに実行させることを特徴とする。
【0029】
このプログラムによれば、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得し、取得されたアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を決定し、アミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定し、決定された各アミノ酸残基間の空間上の距離と、決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算し、計算されたエネルギーに従って、結合部位となる候補アミノ酸残基を決定するので、蛋白質または生理活性ポリペプチドのアミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部位になりやすいことを利用して、高速かつ高精度に結合部位を予測することができるようになる。
【0030】
また、請求項9に記載のプログラムは、目的の複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得するアミノ酸配列データ取得ステップと、上記目的の複数の蛋白質または生理活性ポリペプチドの結合した複合体の立体構造情報を生成する複合体構造生成ステップと、上記アミノ酸配列データ取得ステップにより取得された複数のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、上記複合体構造生成ステップにより生成した上記複合体の立体構造情報に従って決定する空間距離決定ステップと、上記複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定ステップと、上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距離と、上記電荷決定ステップにより決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、上記複合体構造生成ステップにより上記複合体について結合部位を変えて上記複合体の立体構造情報を生成し、エネルギー計算ステップにより各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求めるエネルギー最小化ステップと、上記エネルギー最小化ステップによりエネルギーの総和が最小となる結合部位を、結合部位の候補アミノ酸残基として決定する候補アミノ酸残基決定ステップとを含む結合部位予測方法をコンピュータに実行させることを特徴とする。
【0031】
このプログラムによれば、目的の複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得し、目的の複数の蛋白質または生理活性ポリペプチドの結合した複合体の立体構造情報を生成し、取得された複数のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、生成した複合体の立体構造情報に従って決定し、複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定し、決定された各アミノ酸残基間の空間上の距離と、決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算し、複合体について結合部位を変えて複合体の立体構造情報を生成し、各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求め、エネルギーの総和が最小となる結合部位を、結合部位の候補アミノ酸残基として決定するので、蛋白質または生理活性ポリペプチドのアミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部位になりやすいことを利用して、高速かつ高精度に結合部位を予測することができるようになる。
【0032】
また、請求項10に記載のプログラムは、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データと、結合候補となる1つまたは複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データとを取得するアミノ酸配列データ取得ステップと、上記目的の蛋白質または生理活性ポリペプチドと、上記結合候補となる蛋白質または生理活性ポリペプチドとが結合した複合体の立体構造情報を生成する複合体構造生成ステップと、上記アミノ酸配列データ取得ステップにより取得された目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、上記複合体構造生成ステップにより生成した上記複合体の立体構造情報に従って決定する空間距離決定ステップと、上記目的のアミノ酸配列データと上記結合候補のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定ステップと、上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距離と、上記電荷決定ステップにより決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、上記複合体構造生成ステップにより上記複合体について結合部位を変えて上記複合体の立体構造情報を生成し、エネルギー計算ステップにより各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求めるエネルギー最小化ステップと、全ての結合候補について上記エネルギー最小化ステップを実行した結果、上記エネルギーの総和が最小となる結合部位をもつ結合候補を決定する結合候補決定ステップとを含む結合部位予測方法をコンピュータに実行させることを特徴とする。
【0033】
このプログラムによれば、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データと、結合候補となる1つまたは複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データとを取得し、目的の蛋白質または生理活性ポリペプチドと、結合候補となる蛋白質または生理活性ポリペプチドとが結合した複合体の立体構造情報を生成し、取得された目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、生成した複合体の立体構造情報に従って決定し、目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定し、決定された各アミノ酸残基間の空間上の距離と、決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算し、複合体について結合部位を変えて複合体の立体構造情報を生成し、各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求め、全ての結合候補についてエネルギー最小化処理を実行した結果、エネルギーの総和が最小となる結合部位をもつ結合候補を決定するので、蛋白質または生理活性ポリペプチドのアミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部位になりやすいことを利用して、高速かつ高精度に最適な結合候補の蛋白質を予測することができるようになる。
【0034】
また、本発明は記録媒体に関するものであり、請求項11に記載の記録媒体は、上記請求項8から10のいずれか一つに記載されたプログラムを記録したことを特徴とする。
【0035】
この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、請求項8から10のいずれか一つに記載されたプログラムをコンピュータを利用して実現することができ、これら各方法と同様の効果を得ることができる。
【0036】
【発明の実施の形態】
以下に、本発明にかかる結合部位予測方法、結合部位予測装置、プログラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
特に、以下の実施の形態においては、本発明を、蛋白質のアミノ酸配列等に適用した例について説明するが、この場合に限られず、生理活性ポリペプチドのアミノ酸配列を用いた場合においても同様に適用することができる。
【0037】
[本発明の概要]
以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。図1および図2は本発明の基本原理を示す原理構成図である。本発明は、概略的に、以下の基本的特徴を有する。
【0038】
図1は、本発明により1つの蛋白質のアミノ酸配列情報からその蛋白質の結合部位を予測する場合の概念を説明する図である。
図1に示すように、まず、本発明では、蛋白質または生理活性ポリペプチドのアミノ酸配列データから蛋白質の立体構造における各アミノ酸残基間の空間上の距離データを求める(ステップSA−1)。
【0039】
ここで、空間上の距離データを求める手法には、例えば、以下の3通りの手法がある。
【0040】
1)高速計算手法
この手法は、アミノ酸間の配列上の距離から空間的な距離に変換する方法である。図6は、本発明の高速計算手法の概念を示す図である。蛋白質の立体構造がガウス鎖をとると仮定すると、蛋白質のアミノ酸配列上の距離と、蛋白質の立体構造における空間上の距離は以下の式で関係づけることができる。
r = k d n (0<n<1)
ここでrは空間上の距離、dは配列上の距離、kは比例定数である。つまり、配列上の距離dが分かれば、空間上の距離rを計算することができる。kおよびnの値は、例えば、PDB(Protein Data Bank)などの蛋白質構造データベースに収集された立体構造情報データからアミノ酸間の配列上の距離と空間上の距離との関係を統計学的に処理し適切な値を設定してもよい。ここで、nは、0〜1であるが、好ましくは、0.5〜0.6である。また、kは2.8Å〜4.8Åであるが、好ましくは、3.3Å〜4.3Åである。本手法はアルゴリズムが非常にシンプルであり計算負荷も非常に少ないため、例えば数万以上の蛋白質を扱う時などの大量の蛋白質について処理する場合には非常に強力な方法となる。
【0041】
2)構造データ利用計算手法
この手法は、蛋白質構造データベースに登録された立体構造情報データを用いることにより、正確に実際のアミノ酸残基間の空間上の距離を求める手法である。例えばPDBなどの蛋白質構造データベースに目的の蛋白質の立体構造情報データが格納されている場合には、データベースに登録された立体構造情報データを取得することにより、空間上の距離を以下のように正確に計算することができる。
【0042】
例えばアミノ酸残基番号Iとアミノ酸残基番号Jとの空間上の距離RIJは、アミノ酸残基番号Iの重心や特定の主鎖の原子などの座標を(x, y, z)とし、アミノ酸残基番号Jの重心や特定の主鎖の原子などの座標を(x, y, z)とすると、以下のように計算することができる。
IJ  2 = ( x − x )  +( y − y J ) 2+( z − z J ) 2 
(ここで、R IJ > 0)
【0043】
3)シミュレーションデータ利用計算手法
この手法は、構造未知の蛋白質について、既知の構造シミュレーション手法により蛋白質の構造シミュレーションを行い、そのシミュレーションデータ(予想される立体構造情報データ)を用いて空間上の距離を求める手法である。立体構造予測シミュレーション手法に関してはホモロジー・モデリングなど様々な方法がある。例えば、『実践バイオインフォマティクス』(C. Gibas, P.Jambeck著 オライリー・ジャパン 2002年)などに詳しく紹介されている。
【0044】
本手法は、手法1や手法2と比較して計算負荷が大きいという欠点があるが、構造未知の蛋白質についてほぼ正確な空間上の距離を求めることができるという利点がある。
【0045】
本発明の特徴は、このように各ステップで複数の計算方法を可能にしたことである。特に既存のシミュレーション手法による立体構造予測方法は時間がかかるという欠点を補うために、手法1のようにアミノ酸配列データから簡易的に各アミノ酸残基間の空間上の距離データを決定する方法を組み合わせることで、高速な計算を可能にして結合相手予測など大量のデータを処理する予測法を可能にしている。
【0046】
次に、本発明は、当該距離データと各アミノ酸の電荷に従って蛋白質の全エネルギーを計算する(ステップSA−2)。
【0047】
ここで、アミノ酸の電荷の決定方法も様々考えられる。例えば、正に帯電している荷電性アミノ酸(リジン、アルギニン)の電荷を1、負に帯電している荷電性アミノ酸(グルタミン酸、アスパラギン酸)の電荷を−1、それ以外のアミノ酸の電荷は0とするような方法がある。また、蛋白質構造データベースに登録された蛋白質の立体構造情報や、シミュレーション手法により得られた立体構造情報を基にして既存の量子化学計算手法により各アミノ酸残基の電荷を決定することもできる。
【0048】
また、蛋白質の全エネルギーの計算も様々な方法が考えられるが、例えば、「Introduction to Computational Chemistry」(Frank Jensen著 John Wiley & Sons社 1999年)などで説明されている、分子力学、分子動力学、分子軌道法、密度汎関数法などのエネルギー計算法などの手法を用いても実施でき、いずれかの手法から要求される予測精度と実施者の計算環境によって最適なものを選べば良い。他にもFragment MO法(Chemical PhysicsLetters,Volume 336,Issues 1−2,9 March 2001,Pages 163−170)を用いることにより各アミノ酸残基のエネルギーを求めることができる。この方法は計算時間がかかるが、予測精度が高いことが期待される。
【0049】
他に計算時間がかからない方法としては、以下のように静電エネルギーを計算する方法がある。
 total = 1/2 ΣΣqj / rij
(i、jは全アミノ酸残基の任意のアミノ酸残基番号、i not j)
本式において、Etotalは蛋白質の全エネルギーであり、qはアミノ酸残基iの部分電荷であり、qはアミノ酸残基jの部分電荷であり、rijはアミノ酸残基iとアミノ酸残基jとの空間上の距離である。
【0050】
本式による方法は他の手法と比較して計算負荷が極めて少ないため、特に網羅的な計算の時に有効である。
【0051】
次に、本発明は、特定のアミノ酸と蛋白質内のそれ以外のアミノ酸残基との相互作用エネルギーを以下の式により計算することにより、各アミノ酸残基が蛋白質の全エネルギーをどれくらい安定化しているかを求める(ステップSA−3)。
interaction(N) =  qΣq/r
total  = 1/2ΣEinteraction(N)
ここで、Nは任意のアミノ酸残基番号、E interaction (N)はアミノ酸残基Nとそれ以外のアミノ酸残基との相互作用エネルギー、jはN以外のアミノ酸残基番号、qはアミノ酸残基Nの部分電荷、qはアミノ酸残基jの部分電荷、rはアミノ酸残基Nとアミノ酸残基jとの空間上の距離を示す。ここで全てのアミノ酸残基に対する相互作用エネルギーの総和の半分が蛋白質全体のエネルギーEtotalに相当する。
【0052】
次に、本発明は、ステップSA−3で求めた相互作用エネルギーが相対的に高いアミノ酸残基や、予め定めた閾値を超える相互作用エネルギーをもつアミノ酸残基を、エネルギー的に不安定なアミノ酸残基として特定することにより結合部位を予測する(ステップSA−4)。
【0053】
また、図2は、本発明により複数の蛋白質のアミノ酸配列情報からそれらの蛋白質で複合体を形成するときの結合部位を予測する場合の概念を説明する図である。
【0054】
まず、本発明は、複数のアミノ酸配列上で結合部位となるアミノ酸残基(結合残基)を仮定する(ステップSB−1)。ここで、図7は、複数のアミノ酸配列上で結合残基を仮定する場合の概念を示す図である。図7に示す例においては、アミノ酸配列Aの50番目のアミノ酸残基と、アミノ酸配列Bの100番目のアミノ酸残基とを結合残基と仮定している。ここで、結合残基は、図1を用いて上述した本発明の手法により各アミノ酸配列において結合部位であると予測されたアミノ酸残基を用いてもよい。
【0055】
次に、本発明は、異なるアミノ酸配列上に存在する2つのアミノ酸残基間の空間上の距離を決定する(ステップSB−2)。ここで、空間上の距離の決定手法には、上述した3つの手法を用いることができるが、以下に、最も計算負荷が少なく効率的に計算を行うことができる1)高速計算手法を用いた場合について説明する。
【0056】
まず、異なるアミノ酸配列上に存在する2つのアミノ酸残基間の配列上の距離を以下のように定義する。
(着目残基間の配列上の距離d)=(|配列A上の着目残基と結合残基の配列上の距離|+|配列B上の着目残基と結合残基の配列上の距離|)
ここで、図8は、着目残基の概念を説明する図である。図8に示すように、2つのアミノ酸配列(AおよびB)の結合残基と、結合残基以外の任意の着目残基を定義している。
【0057】
ついで、本発明は、異なるアミノ酸配列上に存在する2つのアミノ酸残基間の配列上の距離dから複合体の立体構造の空間上の距離rを推定する(ステップSB−3)。
r = k d n (0<n<1)
ここでrは空間上の距離、dは配列上の距離、kは比例定数である。ここで、nは0〜1であるが、好ましくは、0.5〜0.6である。また、kは2.8Å〜4.8Åであるが、好ましくは、3.3Å〜4.3Åである。つまり、配列上の距離dが分かれば、空間上の距離rを計算することができる。
【0058】
この他に、複合体の立体構造が既知である場合には、上述した2)構造データ利用計算手法を用いて、アミノ酸残基間の空間上の距離を正確に求めることができる。
【0059】
また、上述した3)シミュレーションデータ利用計算手法を用いることにより、複合体の立体構造を予測して、そのシミュレーションデータを利用することにより、アミノ酸残基間の空間上の距離をある程度正確に求めることができる。ここで、図12は、ドッキングシミュレーションを用いて複合体構造を生成する場合の概念を示す図である。図12に示すように、複数の立体構造情報を使って、複合体の構造を生成させるためにドッキングシミュレーションを行う。ドッキングシミュレーションは既知の様々なシミュレーション手法を用いることができる。例えば、図12で示すように、2つの蛋白質の距離と配向を変化させるものが一般的である。さらに具体的な例を挙げるとすると、一方の構造を固定し、もう一方の構造に回転で2つ、並進で2つの自由度を与えて、様々な構造を発生させる。2つの構造が重ならないが接触するという条件の構造を抽出すると、とりうる複合体の構造が得られる。
【0060】
次に、本発明は、空間上の距離データと各アミノ酸の電荷に従って蛋白質の全エネルギーを計算する(ステップSB−4)。
【0061】
ここで、アミノ酸の電荷の決定方法も様々考えられる。例えば、上述したように、正に帯電している荷電性アミノ酸(リジン、アルギニン)の電荷を1、負に帯電している荷電性アミノ酸(グルタミン酸、アスパラギン酸)の電荷を−1、それ以外のアミノ酸の電荷は0とするような方法がある。また、上述したように、蛋白質構造データベースに登録された複合体の立体構造情報や、シミュレーション手法により得られた複合体の立体構造情報を基にして既存の量子化学計算手法により各アミノ酸残基の電荷を決定することもできる。
【0062】
また、蛋白質の全エネルギーの計算も様々な方法が考えられるが、上述したように、例えば、「Introduction to Computational Chemistry」(Frank Jensen著 John Wiley & Sons 社 1999年)などで説明されている、分子力学、分子動力学、分子軌道法、密度汎関数法などのエネルギー計算法などの手法を用いても実施でき、いずれかの手法から要求される予測精度と実施者の計算環境によって最適なものを選べば良い。他にも上述したように、Fragment MO法(Chemical Physics Letters,Volume 336,Issues 1−2,9 March 2001,Pages 163−170)を用いることにより各アミノ酸残基のエネルギーを求めることができる。この方法は計算時間がかかるが、予測精度が高いことが期待される。
【0063】
他に計算時間がかからない方法としては、上述したように、以下のように静電エネルギーを計算する方法がある。
total = 1/2 ΣΣqj / rij
(i、jは全アミノ酸残基の任意のアミノ酸残基番号、i not j)
本式において、E totalは蛋白質の全エネルギーであり、qはアミノ酸残基iの部分電荷であり、qはアミノ酸残基jの部分電荷であり、rijはアミノ酸残基iとアミノ酸残基jとの空間上の距離である。このように本手法は基本的には二重線で示した処理フローと同様の手順で進み、候補蛋白質のアミノ酸配列を変えては繰り返す。その中で最も安定な複合体を形成できるものが相互作用相手の確率が高いと予測する。
【0064】
次に、本発明は、ステップSB−1に戻り、相互作用するアミノ酸残基(結合残基)を変えて、全ての組合せについてEtotal を計算して、最もEtotal が低いときの結合残基を結合部位として予測する(ステップSB−5)。
【0065】
[システム構成]
まず、本システムの構成について説明する。図3は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。本システムは、概略的に、結合部位予測装置100と、配列情報等に関する外部データベースやホモロジー検索等の外部プログラム等を提供する外部システム200とを、ネットワーク300を介して通信可能に接続して構成されている。
【0066】
図3においてネットワーク300は、結合部位予測装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。
【0067】
図3において外部システム200は、ネットワーク300を介して、結合部位予測装置100と相互に接続され、利用者に対してアミノ酸配列情報や蛋白質立体構造情報等に関する外部データベースやホモロジー検索やモチーフ検索等の外部プログラムを実行するウェブサイトを提供する機能を有する。
【0068】
ここで、外部システム200は、WEBサーバやASPサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。
【0069】
図3において結合部位予測装置100は、概略的に、結合部位予測装置100の全体を統括的に制御するCPU等の制御部102、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部104、入力装置112や出力装置114に接続される入出力制御インターフェース部108、および、各種のデータベースやテーブルなどを格納する記憶部106を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、この結合部位予測装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。
【0070】
記憶部106に格納される各種のデータベースやテーブル(アミノ酸配列データベース106a〜処理結果ファイル106g)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0071】
これら記憶部106の各構成要素のうち、アミノ酸配列データベース106aは、アミノ酸配列を格納したデータベースである。アミノ酸配列データベース106aは、インターネットを経由してアクセスする外部のアミノ酸配列データベースであってもよく、また、これらのデータベースをコピーしたり、オリジナルの配列情報を格納したり、さらに独自のアノテーション情報等を付加したりして作成したインハウスデータベースであってもよい。
【0072】
また、蛋白質構造データベース106bは、蛋白質の立体構造情報を格納したデータベースである。蛋白質構造データベース106bは、インターネットを経由してアクセスする外部の立体構造情報データベースであってもよく、また、これらのデータベースをコピーしたり、オリジナルの立体構造情報を格納したり、さらに独自のアノテーション情報等を付加したりして作成したインハウスデータベースであってもよい。
【0073】
また、距離データファイル106cは、アミノ酸配列に含まれる各アミノ酸残基間の距離(配列上の距離、空間上の距離)に関する情報等を格納する距離情報格納手段である。
【0074】
また、全エネルギーデータファイル106dは、蛋白質の全エネルギーに関する情報等を格納する全エネルギーデータ格納手段である。
【0075】
また、相互作用エネルギーデータファイル106eは、各アミノ酸残基の相互作用エネルギーに関する情報等を格納する相互作用エネルギーデータ格納手段である。
【0076】
また、複合体構造データファイル106fは、複数の蛋白質の複合体構造に関する情報等を格納する複合体構造データ格納手段である。
【0077】
また、処理結果ファイル106gは、結合部位予測装置100による各種の処理結果に関する情報等を格納する処理結果格納手段である。
【0078】
また、図3において、通信制御インターフェース部104は、結合部位予測装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。
【0079】
また、図3において、入出力制御インターフェース部108は、入力装置112や出力装置114の制御を行う。ここで、出力装置114としては、モニタ(家庭用テレビを含む)の他、スピーカを用いることができる(なお、以下においては出力装置114をモニタとして記載する場合がある)。また、入力装置112としては、キーボード、マウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。
【0080】
また、図3において、制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、アミノ酸配列データ取得部102a、空間距離決定部102b、電荷決定部102c、エネルギー計算部102d、候補アミノ酸残基決定部102e、複合体構造生成部102f、エネルギー最小化部102g、結合候補データ取得部102h、結合部位予測部102i、および、結合相手候補決定部102jを備えて構成されている。
【0081】
このうち、アミノ酸配列データ取得部102aは、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得するアミノ酸配列データ取得手段、目的の複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得するアミノ酸配列データ取得手段、および、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データと、結合候補となる複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データとを取得するアミノ酸配列データ取得手段である。
【0082】
また、空間距離決定部102bは、アミノ酸配列データ取得手段により取得されたアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を決定する空間距離決定手段、アミノ酸配列データ取得手段により取得された複数のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、複合体構造生成手段により生成した複合体の立体構造情報に従って決定する空間距離決定手段、および、アミノ酸配列データ取得手段により取得された目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、複合体構造生成手段により生成した複合体の立体構造情報に従って決定する空間距離決定手段である。ここで、空間距離決定部102bは、図4に示すように、高速計算部102k、構造データ利用計算部102m、および、シミュレーションデータ利用計算部102nを備えて構成されている。ここで、高速計算部102kは、高速計算手法により空間距離を決定する高速計算手段である。また、構造データ利用計算部102mは、構造データ利用計算手法により空間距離を決定する構造データ利用計算手段である。また、シミュレーションデータ利用計算部102nは、シミュレーションデータ利用計算手法により空間距離を決定するシミュレーションデータ利用計算手段である。
【0083】
また、電荷決定部102cは、アミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定手段、複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定手段、および、目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定手段である。
【0084】
また、エネルギー計算部102dは、空間距離決定手段により決定された各アミノ酸残基間の空間上の距離と、電荷決定手段により決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算手段である。エネルギー計算部102dは、図5に示すように、全エネルギー計算部102p、および、相互作用エネルギー計算部102qを備えて構成される。ここで、全エネルギー計算部102pは、蛋白質の全エネルギーを計算する全エネルギー計算手段である。また、相互作用エネルギー計算部102qは、アミノ酸残基の相互作用エネルギーを計算する相互作用エネルギー計算手段である。
【0085】
また、候補アミノ酸残基決定部102eは、エネルギー計算手段により計算されたエネルギーに従って、結合部位となる候補アミノ酸残基を決定する候補アミノ酸残基決定手段、および、エネルギー最小化手段によりエネルギーの総和が最小となる結合部位を、結合部位の候補アミノ酸残基として決定する候補アミノ酸残基決定手段である。
【0086】
また、複合体構造生成部102fは、目的の複数の蛋白質または生理活性ポリペプチドの結合した複合体の立体構造情報を生成する複合体構造生成手段、および、目的の蛋白質または生理活性ポリペプチドと、結合候補となる蛋白質または生理活性ポリペプチドの結合した複合体の立体構造情報を生成する複合体構造生成手段である。
【0087】
また、エネルギー最小化部102gは、複合体構造生成手段により複合体について結合部位を変えて複合体の立体構造情報を生成し、エネルギー計算手段により各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求めるエネルギー最小化手段である。
【0088】
また、結合候補データ取得部102hは、結合候補となる蛋白質のアミノ酸配列データ等を取得する結合候補データ取得手段である。
【0089】
また、結合部位予測部102iは、結合部位の候補アミノ酸残基から結合部位のアミノ酸残基を予測する結合部位予測手段である。
【0090】
また、結合相手候補決定部102jは、全ての結合候補についてエネルギー最小化手段を実行した結果、エネルギーの総和が最小となる結合部位をもつ結合候補を決定する結合候補決定手段である。
これら各部によって行なわれる処理の詳細については、後述する。
【0091】
[システムの処理]
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に図3〜図21を参照して詳細に説明する。
【0092】
図9は、本実施形態における本システムの処理の一例を示すフローチャートである。図9において、点線で示す処理フローは本システムにより一つの蛋白質の配列中における結合部位を予測する場合の処理フローを示し、また、二重線で示す処理フローは本システムにより相互作用することが既知である複数の蛋白質のアミノ酸配列を用いて結合部位を予測する場合の処理フローを示し、さらに、実線で示す処理フローは本システムにより目的蛋白質に対して最も良く結合する相手側の候補蛋白質を予測する場合の処理フローを示す。これらの3つの処理フローの基本的な考え方、計算の処理のほとんどが共通である。さらには、相互作用情報を解析するという大目的については共通である。
【0093】
[一つの蛋白質の配列中における結合部位を予測する場合の処理]
次に、本システムにより一つの蛋白質の配列中における結合部位を予測する場合の処理の詳細について図9等を参照して説明する。図9の点線で示す処理フローは、本実施形態における本システムにより一つの蛋白質の配列中における結合部位を予測する場合の処理の一例を示すフローチャートである。
【0094】
まず、結合部位予測装置100は、アミノ酸配列データ取得部102aの処理により、Genbankなどの外部システム200の外部データベースやアミノ酸配列データベース106aなどにアクセスして、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得する(ステップSC−1)。
【0095】
そして、結合部位予測装置100は、空間距離決定部102bの処理により、ステップSC−1により取得されたアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を決定する(ステップSC−2)。
【0096】
ここで、空間距離決定部102bは、高速計算部102kの処理により上述した高速計算手法により各アミノ酸残基の間の配列上の距離から空間上の距離を決定してもよく、また、構造データ利用計算部102mの処理により上述した構造データ利用計算手法により既知の構造データを用いて各アミノ酸残基の間の空間上の距離を決定してもよく、さらに、シミュレーションデータ利用計算部102nの処理により上述したシミュレーションデータ利用計算手法により既存の構造シミュレーションプログラムの処理結果による予測構造を用いて各アミノ酸残基の間の空間上の距離を決定してもよい。
【0097】
ついで、結合部位予測装置100は、電荷決定部102cの処理により、アミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する(ステップSC−3)。アミノ酸の電荷の決定方法も様々考えられる。一般的には、正に帯電している荷電性アミノ酸(リジン、アルギニン)を1、負に帯電している荷電性アミノ酸(グルタミン酸、アスパラギン酸)を−1、それ以外は0とするような方法がある。また、得られた立体構造情報を基にして、量子化学計算で電荷を決定することもできる。さらに、実験的に各アミノ酸残基の電荷に関する実験データが分かっている場合は、それを反映することが好ましい。
【0098】
ついで、結合部位予測装置100は、エネルギー計算部102dの処理により、決定された各アミノ酸残基間の空間上の距離と、各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算する(ステップSC−4)。
【0099】
ここで、エネルギー計算には様々な手法があるが、最も計算時間がかからない方法である静電エネルギーを計算する方法について以下に説明する。
まず、全エネルギー計算部102pの処理により、以下の式により蛋白質の全エネルギーを計算する。
 total = 1/2 ΣΣqj / rij
(i、jは全アミノ酸残基の任意のアミノ酸残基番号、i not j)
本式において、Etotalは蛋白質の全エネルギーであり、qはアミノ酸残基iの部分電荷であり、qはアミノ酸残基jの部分電荷であり、rijはアミノ酸残基iとアミノ酸残基jとの空間上の距離である。
【0100】
次に、相互作用エネルギー計算部102qは、特定のアミノ酸と蛋白質内のそれ以外のアミノ酸残基との相互作用エネルギーを以下の式により計算することにより、各アミノ酸残基が蛋白質の全エネルギーをどれくらい安定化しているかを求める。
interaction(N) =  qΣq/r
total  = 1/2ΣEinteraction(N)
ここで、Nは任意のアミノ酸残基番号、E interaction (N)はアミノ酸残基Nとそれ以外のアミノ酸残基との相互作用エネルギー、jはN以外のアミノ酸残基番号、qはアミノ酸残基Nの部分電荷、qはアミノ酸残基jの部分電荷、rはアミノ酸残基Nとアミノ酸残基jとの空間上の距離を示す。ここで全てのアミノ酸残基に対する相互作用エネルギーの総和の半分が蛋白質全体のエネルギーEtotalに相当する。
【0101】
そして、結合部位予測装置100は、候補アミノ酸残基決定部102eの処理により、計算された相互作用エネルギーに従って、結合部位となる候補アミノ酸残基を決定する(ステップSC−5)。すなわち、候補アミノ酸残基決定部102eは、相互作用エネルギーが相対的に高いアミノ酸残基や、予め定めた閾値を超える相互作用エネルギーをもつアミノ酸残基を、エネルギー的に不安定なアミノ酸残基として特定することにより、結合部位となる候補アミノ酸残基を決定する。
【0102】
そして、結合部位予測装置100は、結合部位予測部102iの処理により、候補アミノ酸残基のうち空間的、または、エネルギー的に結合部位とならない候補を除去することにより、結合部位を予測する。例えば、処理結果の候補アミノ酸残基のエネルギーなどの一例として図10のような結果が得られるとすると、結合部位予測部102iは、図10の中で最もエネルギーの高いグルタミン酸(GLU)を一番の結合部位の候補として予測する。また、結合部位予測部102iは、例えば図11に示すように立体構造上で不安定な部分がクラスター化しているもの(黒で示したアミノ酸残基部分)が結合部位である可能性が高いと予測する。
これにて、本システムにより一つの蛋白質の配列中における結合部位を予測する場合の処理が終了する。
【0103】
[相互作用することが既知である複数の蛋白質のアミノ酸配列を用いて結合部位を予測する場合の処理]
次に、本システムにより相互作用することが既知である複数の蛋白質のアミノ酸配列を用いて結合部位を予測する場合の処理の詳細について図9等を参照して説明する。図9の二重線で示す処理フローは、本実施形態における本システムにより相互作用することが既知である複数の蛋白質のアミノ酸配列を用いて結合部位を予測する場合の処理の一例を示すフローチャートである。
【0104】
まず、結合部位予測装置100は、アミノ酸配列データ取得部102aの処理により、Genbankなどの外部システム200の外部データベースやアミノ酸配列データベース106aなどにアクセスして、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得する(ステップSC−1)。
【0105】
ついで、結合部位予測装置100は、複合体構造生成部102fの処理により、目的の複数の蛋白質または生理活性ポリペプチドの結合した複合体の立体構造情報を生成する(ステップSC−7)。ここで、図12を用いて上述したように、複合体構造生成部102fは、シミュレーションデータ利用計算手法を用いることにより、複合体の立体構造を予測してもよい。また、複合体構造生成部102fは、複合体の立体構造が既知である場合には、複合体の立体構造情報を取得してもよい。
【0106】
また、複合体構造生成部102fは、上述したように、複数のアミノ酸配列上で結合部位となるアミノ酸残基(結合残基)を仮定することにより、実際に複合体構造を生成することなく、処理を進めることができる。ここで、図7は、複数のアミノ酸配列上で結合残基を仮定する場合の概念を示す図である。図7に示す例においては、アミノ酸配列Aの50番目のアミノ酸残基と、アミノ酸配列Bの結合部位予測装置100番目のアミノ酸残基とを結合残基と仮定している。ここで、結合残基は、上述した本発明の手法により各アミノ酸配列において結合部位であると予測されたアミノ酸残基を用いてもよい。
【0107】
ついで、結合部位予測装置100は、空間距離決定部102bの処理により、取得された複数のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、複合体の立体構造情報に従って決定する(ステップSC−2)。
【0108】
ここで、空間上の距離の決定手法には、上述した3つの手法を用いることができるが、複合体の立体構造が既知である場合や、ドッキングシミュレーションを行った際には、空間距離決定部102bは、アミノ酸残基間の空間上の距離を正確に求めることができる。以下に、最も計算負荷が少なく効率的に計算を行うことができる1)高速計算手法を用いた場合について説明する。
【0109】
まず、空間距離決定部102bは、異なるアミノ酸配列上に存在する2つのアミノ酸残基間の配列上の距離を以下のように定義する。
(着目残基間の配列上の距離d)=(|配列A上の着目残基と結合残基の配列上の距離|+|配列B上の着目残基と結合残基の配列上の距離|)
ここで、図8は、着目残基の概念を説明する図である。図8に示すように、2つのアミノ酸配列(AおよびB)の結合残基と、結合残基以外の任意の着目残基を定義している。
【0110】
ついで、空間距離決定部102bは、異なるアミノ酸配列上に存在する2つのアミノ酸残基間の配列上の距離dから複合体の立体構造の空間上の距離rを推定する。
r = k d n (0<n<1)
ここでrは空間上の距離、dは配列上の距離、kは比例定数である。ここで、nは0〜1であるが、好ましくは、0.5〜0.6である。また、kは2.8Å〜4.8Åであるが、好ましくは、3.3Å〜4.3Åである。
【0111】
ついで、結合部位予測装置100は、電荷決定部102cの処理により、複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する(ステップSC−3)。
【0112】
ついで、結合部位予測装置100は、エネルギー計算部102dの処理により、ステップSC−2により決定された各アミノ酸残基間の空間上の距離と、ステップSC−3により決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算する(ステップSC−4)。
【0113】
そして、結合部位予測装置100は、候補アミノ酸残基決定部102eの処理により、計算された相互作用エネルギーに従って、結合部位となる候補アミノ酸残基を決定する(ステップSC−5)。
【0114】
そして、結合部位予測装置100は、エネルギー最小化部102gの処理により、ステップSC−7により複合体について結合部位を変えて複合体の立体構造情報を生成し、ステップSC−4により各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求める(ステップSC−7からステップSC−5までの各ステップを適宜繰り返す)。
【0115】
そして、結合部位予測装置100は、候補アミノ酸残基決定部102eの処理により、最終的にエネルギーの総和が最小となる結合部位を、結合部位の候補アミノ酸残基として決定する(ステップSC−5)。ここで、候補アミノ酸残基決定部102eは、蛋白質のエネルギーの総和をアミノ酸配列によりプロットした図を作成して出力装置114に出力してもよい。図13は、蛋白質Aと蛋白質Bの各アミノ酸残基を結合残基とした場合のエネルギーの総和をプロットした図の一例である。このようにプロット図を作成することにより、2つのアミノ酸配列のどのアミノ酸残基を結合残基として選択するとエネルギーの総和が少なくなるかを視覚的に把握することができるようになる。
これにて、本システムにより相互作用することが既知である複数の蛋白質のアミノ酸配列を用いて結合部位を予測する場合の処理が終了する。
【0116】
[目的蛋白質に対して最も良く結合する相手側の候補蛋白質を予測する場合の処理]
次に、本システムにより目的蛋白質に対して最も良く結合する相手側の候補蛋白質を予測する場合の処理の詳細について図9等を参照して説明する。図9の実線で示す処理フローは、本実施形態における本システムにより目的蛋白質に対して最も良く結合する相手側の候補蛋白質を予測する場合の処理の一例を示すフローチャートである。
【0117】
まず、結合部位予測装置100は、アミノ酸配列データ取得部102aの処理により、Genbankなどの外部システム200の外部データベースやアミノ酸配列データベース106aなどにアクセスして、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得する(ステップSC−1)。また、結合部位予測装置100は、結合候補データ取得部102hの処理により、Genbankなどの外部システム200の外部データベースやアミノ酸配列データベース106aなどにアクセスして、目的の蛋白質の結合候補となる1つまたは複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得する(ステップSC−6)。
【0118】
ついで、結合部位予測装置100は、複合体構造生成部102fの処理により、目的の蛋白質または生理活性ポリペプチドと、結合候補となる蛋白質または生理活性ポリペプチドとが結合した複合体の立体構造情報を生成する(ステップSC−7)。
【0119】
ついで、結合部位予測装置100は、空間距離決定部102bの処理により、ステップSC−1より取得された目的のアミノ酸配列データと、ステップSC−6により取得された結合候補のアミノ酸配列データとに含まれる各アミノ酸残基の間の空間上の距離を、ステップSC−7により生成した複合体の立体構造情報に従って決定する(ステップSC−2)。
【0120】
ついで、結合部位予測装置100は、電荷決定部102cの処理により、目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する(ステップSC−3)。
【0121】
ついで、結合部位予測装置100は、エネルギー計算部102dの処理により、ステップSC−2により決定された各アミノ酸残基間の空間上の距離と、ステップSC−3より決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算する(ステップSC−4)。
【0122】
ついで、結合部位予測装置100は、エネルギー最小化部102gの処理により、ステップSC−7により複合体について結合部位を変えて複合体の立体構造情報を生成し、ステップSC−4により各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求める(ステップSC−7からステップSC−5までを適宜繰り返す)。
【0123】
ついで、結合部位予測装置100は、候補アミノ酸残基決定部102eの処理により、全ての結合候補についてステップSC−6からステップSC−5を繰り返して、エネルギー最小化処理を実行した結果、エネルギーの総和が最小となる結合部位をもつ結合候補を決定する(ステップSC−8)。
これにて、本システムにより目的蛋白質に対して最も良く結合する相手側の候補蛋白質を予測する場合の処理が終了する。
【0124】
[本発明の実施例]
次に本発明の実施例の詳細を図14〜図21を参照して説明する。
【0125】
[本発明の実施例1;リボヌクレアーゼA]
次に、本発明の実施例1の詳細について図14〜図16等を参照して説明する。実施例1は単体の蛋白質の結合部位予測に関する。
加水分解酵素であるリボヌクレアーゼAは実験的に良く調べられている蛋白質である。リボヌクレアーゼAは、そのインヒビターとの複合体の構造が分かっているので、アミノ酸配列上で結合部位が特定されている。
まず、リボヌクレアーゼAのアミノ酸配列データを蛋白質シークエンスデータベースGenbankから取得した。
【0126】
そして、リボヌクレアーゼAのアミノ酸配列データからアミノ酸の距離情報を以下の方法により推測した。まず、PDB(Protein Data Bank)に登録されている全ての蛋白質、または、ポリペプチドの立体構造情報から、アミノ酸の種類ごとに配列上の距離と空間上の距離との関連性を求めた。例えば、図14は2つのグルタミン酸の配列上の距離と空間上の距離との関係を示す図である。図14に示すように、例えば、グルタミン酸とグルタミン酸が配列上20残基離れていた時の空間距離の平均は20Åであるということが既知の統計学的手法により分かる。以上のようにして、アミノ酸残基間の配列上の距離と空間上の距離との関連を示す情報を得た。
【0127】
そして、アミノ酸の電荷を決定した。ここではグルタミン酸、アスパラギン酸を−1、アルギニン、リジン、ヒスチジンを+1、その他は0というようにアミノ酸残基ごとに電荷を割り当てた。
【0128】
そして、各アミノ酸残基の相互作用エネルギーを以下のように計算した。
interaction(K) =  qΣq/r
(ここで、Kはアミノ酸残基番号、E interaction (K)はアミノ酸残基Kとそれ以外との相互作用エネルギー、jはK以外の任意のアミノ酸残基、rはアミノ酸残基Kとアミノ酸残基jとの空間上の距離)
【0129】
そして、上式によってリボヌクレアーゼAのアミノ酸残基ごとのエネルギーを計算し、リボヌクレアーゼAの各アミノ酸残基のエネルギーをアミノ酸残基番号に対してプロットした。図15は、リボヌクレアーゼAの各アミノ酸残基のエネルギーをアミノ酸残基番号に対してプロットした図である。
【0130】
そして、リボヌクレアーゼAのアミノ酸残基のエネルギーが0以上のものを結合部位候補として表にまとめた(図16)。図16に示すように結合部位候補18個のうち、実際の結合部位(実験的に求められた結合部位)は12個だった。このように、本発明により、リボヌクレアーゼAのアミノ酸配列情報だけを用いて、非常に高精度で、かつ、高速に結合部位を予測することができた。
これにて、本発明の実施例1が終了する。
【0131】
[本発明の実施例2;アセチルコリン・エステラーゼ・インヒビター]
次に、本発明の実施例2の詳細について図17〜図19等を参照して説明する。実施例2も単体の蛋白質の結合部位予測に関する。
実施例2では、アセチルコリン・エステラーゼ・インヒビターのアミノ酸配列を基にして、結合部位を推定した。ここでは立体構造予測をするのではなく、PDBに含まれる既存の立体構造情報データを利用した。
【0132】
図17は、PDBに格納されたアセチルコリン・エステラーゼ・インヒビターの立体構造情報データの一部を示す図である。図17の2列目からそれぞれ原子番号、原子種、chain名、アミノ酸残基番号、X座標、Y座標、Z座標を示している。
【0133】
例えばアミノ酸残基番号Iとアミノ酸残基番号Jとの空間上の距離RIJは、アミノ酸残基番号Iの重心や特定の主鎖の原子などの座標を(x, y, z)とし、アミノ酸残基番号Jの重心や特定の主鎖の原子などの座標を(x, y, z)とすると、以下のように計算することができる。
IJ  2 = ( x − x )  +( y − y J ) 2+( z − z J ) 2 
(ここで、R IJ > 0 )
【0134】
具体的に説明すると、図17に示すアミノ酸残基番号4のグルタミン酸と、アミノ酸残基番号5のアスパラギン酸との空間上の距離をαカーボンの原子間の距離によって計算すると、以下のようになる。

Figure 2004109053
【0135】
また、図18は本発明により求めたアセチルコリン・エステラーゼ・インヒビターのエネルギーを示す図である。図18からアセチルコリン・エステラーゼ・インヒビターのエネルギーが0以上のもの10個を結合部位候補として取り出し、実際に結合部位かどうかを実験的に調べると、その内に7個は実際に結合部位であった(図19)。
【0136】
以上のように極めて高精度に結合部位を予測することができる。実施例2では既知の立体構造情報を利用した点が実施例1とは異なる点である。つまり、実施例1と実施例2では空間距離の決定手法を変えているが、いずれも良好な結果を与えたことから、どのような空間距離の決定手法を使っても、本発明の効果が期待できると考えられる。
これにて、本発明の実施例2が終了する。
【0137】
[本発明の実施例3;「huntingtin−associtated protein interacting protein」と、「nitric oxide synthase 2A」との複合体]
次に、本発明の実施例3の詳細について図20等を参照して説明する。実施例3は2つの蛋白質が結合する時の結合部位予測に関する。「huntingtin−associtated protein interacting protein」は、「nitric oxide synthase 2A」と結合することが実験的に分かっている。更に、結合部位は「huntingtin−associtated protein interacting protein」はアミノ酸残基番号600付近であり、「nitric oxidesynthase 2A」はアミノ酸残基番号100付近であることが分かっている。
【0138】
ここで、本実施例においても実施例1と同様にして配列情報の獲得、立体構造の予測、電荷の決定を行った。ただし、アミノ酸間の配列上の距離から空間的な距離に変換する方法は、蛋白質がガウス鎖をとると仮定し、配列上の距離と空間上の距離とを以下の式で関係づけた。
r=3.8 d 0.5 
ここでrは空間上の距離、dは配列上の距離である。
【0139】
また、複合体構造生成は上述した高速計算手法を使った。つまり、次式を用いた。
(空間上の距離)= k(|A上の着目残基と結合残基の配列上の距離|+|B上の着目残基と結合残基の配列上の距離|) 
【0140】
そして、それぞれの結合部位を仮定した複合体のエネルギーを計算し、図20を作成することができた。ここで、図20は横軸に、huntingtin−associtated protein interacting proteinの結合部位のアミノ酸残基番号をとり、縦軸にnitric oxide synthase 2Aの結合部位のアミノ酸残基番号をとり、各結合部位で複合体を生成したときのエネルギーの総和を等高線表示したものである。
【0141】
図20によれば、例えば、huntingtin−associtated protein interacting proteinのアミノ酸残基500番と、nitric oxide synthase 2Aのアミノ酸残基150番とが結合部位の場合の複合体のエネルギーは−10というように、結合部位ごとのエネルギーが求められる。
【0142】
図20に示すように、エネルギーの極小部は2つあり、1つはhuntingtin−associtated protein interacting proteinの結合部位がアミノ酸残基600〜950付近で、nitricoxide synthase 2Aの結合部位がアミノ酸残基25〜100付近で結合した場合であり、もう1つはhuntingtin−associtated protein interacting proteinの結合部位がアミノ酸残基650〜900付近で、nitric oxide synthase 2Aの結合部位がアミノ酸残基475〜500付近で結合した場合である。
【0143】
ここで、前者が実際の結合部位に対応している(図中の黒丸で囲んだ部分)。以上のように、2つの蛋白質の結合部位を正確に予測することができた。
これにて、本発明の実施例3が終了する。
【0144】
[本発明の実施例4;E2F transcription factor 1]次に、本発明の実施例4の詳細について図21等を参照して説明する。
実施例4は結合相手予測に関する。E2F transcription factor 1(以下、E2F1)は相互作用相手に関する情報が実験的に良く調べられている蛋白質である。
【0145】
ここで、E2F1と相互作用する相手をHomo Sapiensの遺伝子のデータベース(ここでは無作為に6600個を抽出した)から探し、候補蛋白質のアミノ酸配列データとした。
【0146】
そして、実施例3で計算した手順と同様に、相手の候補蛋白質ごとにE2F1との結合部位を探す。そして、最もエネルギーが安定(最小)になった時のエネルギーを相互作用エネルギーとする。図21は各候補蛋白質の相互作用エネルギーと遺伝子の数のヒストグラムである。
【0147】
図21に示したように、相対的な相互作用エネルギーを計算することができた。例えば、相互作用エネルギーが90よりも大きい(エネルギーが−90よりも小さい)ものは100個あるが、ここにあるものが相互作用相手である可能性が高い。この方法は非常に高速で、相互作用を網羅的に計算することができる。
これにて、本発明の実施例4が終了する。
【0148】
[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
【0149】
例えば、結合部位予測装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、結合部位予測装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
【0150】
また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
【0151】
また、結合部位予測装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
例えば、結合部位予測装置100の各部または各装置が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じて結合部位予測装置100に機械的に読み取られる。
【0152】
すなわち、ROMまたはHDなどの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAM等にロードされることによって実行され、CPUと協働して制御部102を構成する。また、このコンピュータプログラムは、結合部位予測装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
【0153】
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
【0154】
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
【0155】
記憶部106に格納される各種のデータベース等(アミノ酸配列データベース106a〜処理結果ファイル106g)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0156】
また、結合部位予測装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
【0157】
さらに、結合部位予測装置100の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。
【0158】
また、ネットワーク300は、結合部位予測装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC―P方式等の携帯回線交換網/携帯パケット交換網や、無線呼出網や、Bluetooth等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
【0159】
【発明の効果】
以上詳細に説明したように、本発明によれば、蛋白質または生理活性ポリペプチドのアミノ酸配列データから当該蛋白質または生理活性ポリペプチドの立体構造における各アミノ酸残基間の空間上の距離データを求め、当該距離データと各アミノ酸の電荷に従って静電的に不安定なアミノ酸残基を特定することにより結合部位を予測するので、蛋白質または生理活性ポリペプチドのアミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部位になりやすいことを利用して、高速かつ高精度に結合部位を予測することができる結合部位予測方法、結合部位予測装置、プログラム、および、記録媒体を提供することができる。
【0160】
また、本発明によれば、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得し、取得されたアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を決定し、アミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定し、決定された各アミノ酸残基間の空間上の距離と、決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算し、計算されたエネルギーに従って、結合部位となる候補アミノ酸残基を決定するので、蛋白質または生理活性ポリペプチドのアミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部位になりやすいことを利用して、高速かつ高精度に結合部位を予測することができる結合部位予測方法、結合部位予測装置、プログラム、および、記録媒体を提供することができる。
【0161】
また、本発明によれば、目的の複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得し、目的の複数の蛋白質または生理活性ポリペプチドの結合した複合体の立体構造情報を生成し、取得された複数のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、生成した複合体の立体構造情報に従って決定し、複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定し、決定された各アミノ酸残基間の空間上の距離と、決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算し、複合体について結合部位を変えて複合体の立体構造情報を生成し、各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求め、エネルギーの総和が最小となる結合部位を、結合部位の候補アミノ酸残基として決定するので、蛋白質または生理活性ポリペプチドのアミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部位になりやすいことを利用して、高速かつ高精度に結合部位を予測することができる結合部位予測方法、結合部位予測装置、プログラム、および、記録媒体を提供することができる。
【0162】
さらに、本発明によれば、目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データと、結合候補となる1つまたは複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データとを取得し、目的の蛋白質または生理活性ポリペプチドと、結合候補となる蛋白質または生理活性ポリペプチドとが結合した複合体の立体構造情報を生成し、取得された目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、生成した複合体の立体構造情報に従って決定し、目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定し、決定された各アミノ酸残基間の空間上の距離と、決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算し、複合体について結合部位を変えて複合体の立体構造情報を生成し、各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求め、全ての結合候補についてエネルギー最小化処理を実行した結果、エネルギーの総和が最小となる結合部位をもつ結合候補を決定するので、蛋白質または生理活性ポリペプチドのアミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部位になりやすいことを利用して、高速かつ高精度に最適な結合候補の蛋白質を予測することができる結合部位予測方法、結合部位予測装置、プログラム、および、記録媒体を提供することができる。
【図面の簡単な説明】
【図1】本発明により1つの蛋白質のアミノ酸配列情報からその蛋白質の結合部位を予測する場合の概念を説明する図である。
【図2】本発明により複数の蛋白質のアミノ酸配列情報からそれらの蛋白質で複合体を形成するときの結合部位を予測する場合の概念を説明する図である。
【図3】本発明が適用される本システムの構成の一例を示すブロック図である。
【図4】本発明が適用される空間距離決定部102bの構成の一例を示すブロック図である。
【図5】本発明が適用されるエネルギー計算部102dの構成の一例を示すブロック図である。
【図6】本発明の高速計算手法の概念を示す図である。
【図7】複数のアミノ酸配列上で結合残基を仮定する場合の概念を示す図である。
【図8】着目残基の概念を説明する図である。
【図9】本実施形態における本システムの処理の一例を示すフローチャートである。
【図10】処理結果の候補アミノ酸残基のエネルギーなどの一例を示す図である。
【図11】立体構造上で不安定な部分がクラスター化している場合の一例を示す図である。
【図12】ドッキングシミュレーションを用いて複合体構造を生成する場合の概念を示す図である。
【図13】蛋白質Aと蛋白質Bの各アミノ酸残基を結合残基とした場合のエネルギーの総和をプロットした図の一例である。
【図14】2つのグルタミン酸の配列上の距離と空間上の距離との関係を示す図である。
【図15】リボヌクレアーゼAの各アミノ酸残基のエネルギーをアミノ酸残基番号に対してプロットした図である。
【図16】リボヌクレアーゼAのアミノ酸残基のエネルギーが0以上のものを結合部位候補として表にまとめた図である。
【図17】PDBに格納されたアセチルコリン・エステラーゼ・インヒビターの立体構造情報データの一部を示す図である。
【図18】本発明により求めたアセチルコリン・エステラーゼ・インヒビターのエネルギーを示す図である。
【図19】アセチルコリン・エステラーゼ・インヒビターのエネルギーが0以上のもの10個を結合部位候補として取り出し、実際に結合部位かどうかを実験的に調べた結果を示す図である。
【図20】横軸に、huntingtin−associtated protein interacting proteinの結合部位のアミノ酸残基番号をとり、縦軸にnitric oxide synthase 2Aの結合部位のアミノ酸残基番号をとり、各結合部位で複合体を生成したときのエネルギーの総和を等高線表示した図である。
【図21】各候補蛋白質の相互作用エネルギーと遺伝子の数のヒストグラムである。
【符号の説明】
100 結合部位予測装置
102 制御部
102a アミノ酸配列データ取得部
102b 空間距離決定部
102c 電荷決定部
102d エネルギー計算部
102e 候補アミノ酸残基決定部
102f 複合体構造生成部
102g エネルギー最小化部
102h 結合候補データ取得部
102i 結合部位予測部
102j 結合相手候補決定部
102k 高速計算部
102m 構造データ利用計算部
102n シミュレーションデータ利用計算部
102p 全エネルギー計算部
102q 相互作用エネルギー計算部
104 通信制御インターフェース部
106 記憶部
106a アミノ酸配列データベース
106b 蛋白質構造データベース
106c 距離データファイル
106d 全エネルギーデータファイル
106e 相互作用エネルギーデータファイル
106f 複合体構造データファイル
106g 処理結果ファイル
108 入出力制御インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a binding site prediction method, a binding site prediction device, a program, and a recording medium, and particularly to three-dimensional structure information (space between amino acid residues) predicted from amino acid sequence data or experimentally determined. By predicting an electrostatically unstable portion using the above distance information and charge information, it is possible to efficiently predict a binding site or a binding partner of a protein or a bioactive polypeptide, and the like. The present invention relates to a binding site prediction method, a binding site prediction device, a program, and a recording medium.
[0002]
[Prior art]
In order for a protein or a physiologically active polypeptide to exhibit a certain function, it is important that it interacts with another protein or the like. Substances that inhibit or enhance the interaction of certain proteins have the potential to become pharmaceuticals. Therefore, predicting the interaction site of a protein and the interaction partner of the protein is a very important problem in biology, medicine, and pharmacy. For this reason, in the field of bioinformatics, it has been conventionally attempted to predict a protein interacting partner by various methods.
[0003]
[Problems to be solved by the invention]
However, known methods for predicting protein interactions using bioinformatics are computationally intensive and require a long processing time. Also, since the prediction accuracy is low, it is desired to develop a method with higher accuracy and shorter processing time. Had the problem of being rare.
Hereinafter, the content of this problem will be described more specifically.
[0004]
For example, with respect to the interaction site prediction in the field of bioinformatics, a prediction technique by motif search or the like has been developed. However, the motif search has a problem that it can analyze a known interaction site, but cannot analyze an unknown interaction site.
[0005]
In addition, a method for predicting a binding site using amino acid frequency analysis has been developed. For example, there are Patent Literature 1, Patent Literature 2, Patent Literature 3, and the like. However, these prediction methods have a problem that prediction accuracy is low.
[0006]
[Patent Document 1]
JP-A-11-213003
[Patent Document 2]
JP-A-10-222486
[Patent Document 3]
JP-A-10-045795
[0007]
In addition, for example, there is a method of docking the three-dimensional structures of two proteins to obtain the most stable complex structure. Although the prediction accuracy of this method is high, there are some problems. First, most proteins do not have a known three-dimensional structure, so they cannot be applied to most proteins. Second, these methods have a large computational load and require a long processing time, so that it is difficult to perform an exhaustive calculation.
[0008]
In addition, no effective means has been established for the interaction partner prediction, which is more difficult than the interaction site prediction. In other words, a completely new approach is required to predict a completely unknown interaction site and further an interaction partner with high accuracy, but an effective means has not yet been established.
[0009]
SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and a binding site prediction method and a binding site prediction device that enable prediction of protein interaction by bioinformatics in a very short time and enable comprehensive analysis. , A program, and a recording medium.
[0010]
[Means for Solving the Problems]
In order for two proteins to interact spontaneously, binding requires that the energy of the entire system be reduced. That is, an unstable portion in a protein has a possibility of being stabilized by binding, and thus can be considered as a portion that is easily bound. In addition, it is considered that the interaction partner has a higher binding ability than other proteins. In other words, in order to predict an interaction partner, it is necessary to exhaustively calculate an interaction and then search for one having a higher ability to interact than others. To do so, it is necessary to calculate not only one-to-one interactions but also many-to-many interactions, so that it is necessary to greatly reduce the calculation cost.
[0011]
The central concept of the present invention is that a region that is more unstable than other sites in the structure of a protein is more likely to be a binding site. That is, the present invention predicts a binding site by obtaining a locally unstable region by relatively simple calculation.
[0012]
That is, the present invention mainly comprises
-Basically, it should be possible to predict the binding site with high accuracy from only the protein sequence information (however, three-dimensional structure information can be added if necessary).
-It is characterized by the two points that calculation can be performed in a very short time and comprehensive analysis can be performed.
[0013]
The present invention has been made in view of the above-mentioned problems, and predicts three-dimensional structure information (space distance between amino acids) from amino acid information of a protein, and is electrostatically unstable from three-dimensional structure and charge information. Binding site prediction method and / or binding site prediction, which can predict a binding site and / or a binding partner by predicting a proper part and / or calculating electrostatic energy when two proteins bind. The present invention relates to an apparatus, a program, and a recording medium.
[0014]
In order to achieve such an object, the method for predicting a binding site according to claim 1 uses the space between each amino acid residue in the three-dimensional structure of the protein or the biologically active polypeptide from the amino acid sequence data of the protein or the biologically active polypeptide. The above distance data is obtained, and the binding site is predicted by specifying an electrostatically unstable amino acid residue according to the distance data and the charge of each amino acid.
[0015]
According to this method, spatial distance data between each amino acid residue in the three-dimensional structure of the protein or the biologically active polypeptide is obtained from the amino acid sequence data of the protein or the biologically active polypeptide, and the distance data and the charge of each amino acid are determined. The binding site is predicted by specifying an electrostatically unstable amino acid residue according to the formula, so that an amino acid residue that is likely to be electrostatically unstable from the amino acid sequence of the protein or the bioactive polypeptide is added to the binding site. Utilizing the fact that the binding site is likely to be used, the binding site can be quickly and accurately predicted.
[0016]
Further, the method for predicting a binding site according to claim 2 includes the steps of: obtaining an amino acid sequence data for obtaining an amino acid sequence data of a target protein or a physiologically active polypeptide; and obtaining the amino acid sequence data obtained by the amino acid sequence data obtaining step. A spatial distance determining step of determining a spatial distance between each amino acid residue included, a charge determining step of determining the charge of each amino acid residue included in the amino acid sequence data, and the spatial distance determining step An energy calculating step of calculating the energy of each amino acid residue according to the determined spatial distance between each amino acid residue and the charge of each amino acid residue determined in the charge determining step; Candidate binding site according to the energy calculated in step Characterized in that it comprises a candidate amino acid residue determining step of determining a amino acid residues.
[0017]
According to this method, the amino acid sequence data of the target protein or the biologically active polypeptide is obtained, the spatial distance between each amino acid residue contained in the obtained amino acid sequence data is determined, and the amino acid sequence data is obtained. The charge of each amino acid residue included is determined, and the energy of each amino acid residue is calculated according to the determined spatial distance between each amino acid residue and the determined charge of each amino acid residue. Since the candidate amino acid residue serving as the binding site is determined according to the calculated energy, the amino acid residue which is likely to be electrostatically unstable from the amino acid sequence of the protein or the biologically active polypeptide is likely to become the binding site. , It is possible to predict a binding site at high speed and with high accuracy.
[0018]
In addition, the binding site prediction method according to claim 3 includes an amino acid sequence data obtaining step of obtaining amino acid sequence data of a plurality of target proteins or biologically active polypeptides; The complex structure generation step of generating the three-dimensional structure information of the bound complex, and the spatial distance between each amino acid residue included in the plurality of amino acid sequence data obtained in the amino acid sequence data obtaining step, A spatial distance determining step for determining according to the three-dimensional structure information of the complex generated by the complex structure generating step; a charge determining step for determining a charge of each amino acid residue included in the plurality of amino acid sequence data; The spatial distance between each amino acid residue determined in the distance determining step and the charge determination An energy calculation step of calculating the energy of each amino acid residue according to the charge of each amino acid residue determined by TEP, and a binding site of the complex by changing the binding site in the complex in the complex structure generation step Generates structural information, calculates the energy of each amino acid residue by an energy calculation step, and calculates an energy minimization step for finding a binding site where the sum of the energy is minimized. Determining the candidate binding site as a candidate amino acid residue of the binding site.
[0019]
According to this method, amino acid sequence data of a plurality of target proteins or bioactive polypeptides is obtained, and three-dimensional structure information of a complex in which the plurality of target proteins or bioactive polypeptides is bound is obtained. The spatial distance between each amino acid residue contained in the plurality of amino acid sequence data is determined according to the three-dimensional structure information of the generated complex, and the charge of each amino acid residue contained in the plurality of amino acid sequence data is determined. Then, the energy of each amino acid residue is calculated according to the determined spatial distance between each amino acid residue and the determined charge of each amino acid residue, and the binding site of the complex is changed to change the complex. , Calculate the energy of each amino acid residue, find the binding site that minimizes the sum of the energies, and minimize the sum of the energies Since the binding site is determined as a candidate amino acid residue of the binding site, the amino acid residue which is likely to be electrostatically unstable from the amino acid sequence of the protein or the biologically active polypeptide is likely to become the binding site. Thus, the binding site can be predicted at high speed and with high accuracy.
[0020]
The method for predicting a binding site according to claim 4 obtains amino acid sequence data of a protein or a biologically active polypeptide of interest and amino acid sequence data of one or more proteins or biologically active polypeptides as binding candidates. An amino acid sequence data obtaining step, and a complex structure generating step of generating three-dimensional structure information of a complex in which the target protein or bioactive polypeptide and the protein or bioactive polypeptide as the binding candidate are bound, The complex generated in the complex structure generating step is a spatial distance between the target amino acid sequence data obtained in the amino acid sequence data obtaining step and each amino acid residue included in the amino acid sequence data of the binding candidate. A spatial distance determination step determined according to the three-dimensional structure information of A charge determination step of determining the charge of each amino acid residue contained in the sequence data and the amino acid sequence data of the binding candidate, a spatial distance between each amino acid residue determined by the spatial distance determination step, An energy calculating step for calculating the energy of each amino acid residue according to the charge of each amino acid residue determined in the charge determining step; and a complex site by changing a binding site of the complex by the complex structure generating step. And the energy minimizing step of calculating the energy of each amino acid residue by an energy calculating step, and finding a binding site where the sum of the energies is minimized, and the energy minimizing step for all the binding candidates As a result, the binding site where the sum of the above energies is minimized One characterized in that it comprises a binding candidate determining step of determining a binding candidate.
[0021]
According to this method, the amino acid sequence data of the target protein or biologically active polypeptide and the amino acid sequence data of one or more proteins or biologically active polypeptides as binding candidates are obtained, and the target protein or biologically active polypeptide is obtained. The polypeptide and a protein or a bioactive polypeptide as a binding candidate generate steric structure information of a complex bound thereto, and the obtained target amino acid sequence data and each amino acid residue included in the binding candidate amino acid sequence data Was determined according to the three-dimensional structure information of the generated complex, and the charge of each amino acid residue contained in the target amino acid sequence data and the amino acid sequence data of the binding candidate was determined. The energy of each amino acid residue is determined according to the spatial distance between each amino acid residue and the determined charge of each amino acid residue. Energy, calculate the steric structure information of the complex by changing the binding site for the complex, calculate the energy of each amino acid residue, find the binding site that minimizes the sum of the energies, and calculate all binding candidates As a result of performing the energy minimizing process on the amino acid sequence, a binding candidate having a binding site that minimizes the total energy is determined. Therefore, amino acid residues that are likely to be electrostatically unstable from the amino acid sequence of the protein or the biologically active polypeptide are determined. By taking advantage of the fact that the group is likely to be a binding site, it becomes possible to predict an optimal binding candidate protein at high speed and with high accuracy.
[0022]
Further, the present invention relates to a binding site prediction device, wherein the binding site prediction device according to claim 5 comprises an amino acid sequence data acquisition means for acquiring amino acid sequence data of a target protein or a physiologically active polypeptide; A spatial distance determining means for determining a spatial distance between each amino acid residue contained in the amino acid sequence data obtained by the sequence data obtaining means; and a charge possessed by each amino acid residue contained in the amino acid sequence data. Charge determining means, the spatial distance between each amino acid residue determined by the spatial distance determining means, and the charge of each amino acid residue determined by the charge determining means, Energy calculating means for calculating energy; and a coupling unit according to the energy calculated by the energy calculating means. Characterized by comprising a candidate amino acid residue determining means for determining a candidate amino acid residue to be.
[0023]
According to this device, the amino acid sequence data of the target protein or the biologically active polypeptide is obtained, the spatial distance between each amino acid residue contained in the obtained amino acid sequence data is determined, and the amino acid sequence data is obtained. The charge of each amino acid residue included is determined, and the energy of each amino acid residue is calculated according to the determined spatial distance between each amino acid residue and the determined charge of each amino acid residue. Since the candidate amino acid residue serving as the binding site is determined according to the calculated energy, the amino acid residue which is likely to be electrostatically unstable from the amino acid sequence of the protein or the biologically active polypeptide is likely to become the binding site. , It is possible to predict a binding site at high speed and with high accuracy.
[0024]
Further, the binding site predicting apparatus according to claim 6 comprises an amino acid sequence data acquiring means for acquiring amino acid sequence data of a plurality of target proteins or biologically active polypeptides, and a plurality of target proteins or biologically active polypeptides. The complex structure generating means for generating the three-dimensional structure information of the bound complex, and the spatial distance between each amino acid residue included in the plurality of amino acid sequence data obtained by the amino acid sequence data obtaining means, A spatial distance determining means for determining in accordance with the three-dimensional structure information of the complex generated by the complex structure generating means, a charge determining means for determining a charge of each amino acid residue contained in the plurality of amino acid sequence data, The spatial distance between each amino acid residue determined by the distance determining means and each amino acid determined by the charge determining means According to the charge of the residue, energy calculating means for calculating the energy of each amino acid residue, and the complex structure generating means to generate a three-dimensional structure information of the complex by changing the binding site for the complex, Calculating the energy of each amino acid residue by the calculating means, calculating an energy minimizing means for determining a binding site at which the sum of the energy is minimized; and And means for determining a candidate amino acid residue.
[0025]
According to this apparatus, amino acid sequence data of a plurality of target proteins or bioactive polypeptides is obtained, and three-dimensional structure information of a complex in which the plurality of target proteins or bioactive polypeptides is bound is generated. The spatial distance between each amino acid residue contained in the plurality of amino acid sequence data is determined according to the three-dimensional structure information of the generated complex, and the charge of each amino acid residue contained in the plurality of amino acid sequence data is determined. Then, the energy of each amino acid residue is calculated according to the determined spatial distance between each amino acid residue and the determined charge of each amino acid residue, and the binding site of the complex is changed to change the complex. , Calculate the energy of each amino acid residue, find the binding site that minimizes the sum of the energies, and minimize the sum of the energies Since the binding site is determined as a candidate amino acid residue of the binding site, the amino acid residue which is likely to be electrostatically unstable from the amino acid sequence of the protein or the biologically active polypeptide is likely to become the binding site. Thus, the binding site can be predicted at high speed and with high accuracy.
[0026]
Further, the binding site predicting apparatus according to claim 7 obtains amino acid sequence data of a target protein or a biologically active polypeptide and amino acid sequence data of one or more proteins or biologically active polypeptides as binding candidates. An amino acid sequence data obtaining means, and a complex structure generating means for generating three-dimensional structure information of a complex in which the target protein or bioactive polypeptide and the binding candidate protein or bioactive polypeptide are bound, The complex produced by the complex structure producing means is a spatial distance between the target amino acid sequence data acquired by the amino acid sequence data acquiring means and each amino acid residue contained in the amino acid sequence data of the binding candidate. Spatial distance determining means for determining in accordance with the three-dimensional structure information of the target; Charge determination means for determining the charge of each amino acid residue contained in the amino acid sequence data of the candidate, the spatial distance between each amino acid residue determined by the spatial distance determination means, and determined by the charge determination means Energy calculating means for calculating the energy of each amino acid residue according to the charge of each amino acid residue, and the complex structure generating means for changing the binding site of the complex to obtain the three-dimensional structure information of the complex. Generated, the energy of each amino acid residue is calculated by the energy calculation means, the energy minimization means for finding the binding site where the sum of the energy is minimized, and the result of executing the energy minimization means for all the binding candidates, Binding candidate determining means for determining a binding candidate having a binding site that minimizes the sum of the energies And it features.
[0027]
According to this device, the amino acid sequence data of the target protein or biologically active polypeptide and the amino acid sequence data of one or more proteins or biologically active polypeptides as binding candidates are obtained, and the target protein or biologically active polypeptide is obtained. The polypeptide and a protein or a bioactive polypeptide as a binding candidate generate steric structure information of a complex bound thereto, and the obtained target amino acid sequence data and each amino acid residue included in the binding candidate amino acid sequence data Was determined according to the three-dimensional structure information of the generated complex, and the charge of each amino acid residue contained in the target amino acid sequence data and the amino acid sequence data of the binding candidate was determined. The energy of each amino acid residue is determined according to the spatial distance between each amino acid residue and the determined charge of each amino acid residue. Energy, calculate the steric structure information of the complex by changing the binding site for the complex, calculate the energy of each amino acid residue, find the binding site that minimizes the sum of the energies, and calculate all binding candidates As a result of performing the energy minimizing process on the amino acid sequence, a binding candidate having a binding site that minimizes the total energy is determined. Therefore, amino acid residues that are likely to be electrostatically unstable from the amino acid sequence of the protein or the biologically active polypeptide are determined. By taking advantage of the fact that the group is likely to be a binding site, it becomes possible to predict an optimal binding candidate protein at high speed and with high accuracy.
[0028]
The present invention also relates to a program, wherein the program according to claim 8 is obtained by an amino acid sequence data obtaining step of obtaining an amino acid sequence data of a target protein or a physiologically active polypeptide, and the amino acid sequence data obtaining step. A spatial distance determining step of determining a spatial distance between each amino acid residue included in the amino acid sequence data, and a charge determining step of determining the charge of each amino acid residue included in the amino acid sequence data, Energy calculation for calculating the energy of each amino acid residue according to the spatial distance between each amino acid residue determined in the spatial distance determination step and the charge of each amino acid residue determined in the charge determination step And the energy calculated by the energy calculating step. Over accordingly, characterized in that to perform the binding site prediction method including the candidate amino acid residue determining step of determining a candidate amino acid residue to be the binding site to the computer.
[0029]
According to this program, the amino acid sequence data of the target protein or the biologically active polypeptide is obtained, the spatial distance between each amino acid residue included in the obtained amino acid sequence data is determined, and the amino acid sequence data is obtained. The charge of each amino acid residue included is determined, and the energy of each amino acid residue is calculated according to the determined spatial distance between each amino acid residue and the determined charge of each amino acid residue. Since the candidate amino acid residue serving as the binding site is determined according to the calculated energy, the amino acid residue which is likely to be electrostatically unstable from the amino acid sequence of the protein or the biologically active polypeptide is likely to become the binding site. , It is possible to predict a binding site at high speed and with high accuracy.
[0030]
Further, the program according to the ninth aspect of the present invention is a program wherein an amino acid sequence data obtaining step of obtaining amino acid sequence data of a plurality of target proteins or biologically active polypeptides is combined with the plurality of target proteins or biologically active polypeptides. A complex structure generating step of generating three-dimensional structural information of the body, and a spatial distance between each amino acid residue included in the plurality of amino acid sequence data obtained in the amino acid sequence data obtaining step, A spatial distance determining step for determining in accordance with the three-dimensional structure information of the complex generated in the generating step; a charge determining step for determining a charge of each amino acid residue included in the plurality of amino acid sequence data; and the spatial distance determining step The spatial distance between each amino acid residue determined by The energy calculation step of calculating the energy of each amino acid residue according to the charge of each amino acid residue determined by the above, and the three-dimensional structure of the complex by changing the binding site for the complex by the complex structure generating step Generates information, calculates the energy of each amino acid residue by an energy calculation step, and minimizes the energy by the energy minimization step of finding a binding site where the sum of the energy is minimized, and minimizes the energy by the energy minimization step Determining a binding site as a candidate amino acid residue of the binding site by a computer.
[0031]
According to this program, amino acid sequence data of a plurality of target proteins or bioactive polypeptides is obtained, and three-dimensional structure information of a complex in which the plurality of target proteins or bioactive polypeptides is bound is obtained. The spatial distance between each amino acid residue contained in the plurality of amino acid sequence data is determined according to the three-dimensional structure information of the generated complex, and the charge of each amino acid residue contained in the plurality of amino acid sequence data is determined. Then, the energy of each amino acid residue is calculated according to the determined spatial distance between each amino acid residue and the determined charge of each amino acid residue, and the binding site of the complex is changed to change the complex. The three-dimensional structure information is generated, the energy of each amino acid residue is calculated, the binding site where the sum of the energies is minimized is determined, and the sum of the energies is minimized. Is determined as a candidate amino acid residue for the binding site, and the fact that amino acid residues that are likely to be electrostatically unstable from the amino acid sequence of a protein or a biologically active polypeptide tend to become the binding site is used. Thus, the binding site can be predicted with high speed and high accuracy.
[0032]
Further, the program according to claim 10 is an amino acid sequence for obtaining amino acid sequence data of a target protein or biologically active polypeptide and amino acid sequence data of one or more proteins or biologically active polypeptides that are binding candidates. A data acquisition step, a complex structure generating step of generating three-dimensional structure information of a complex in which the target protein or bioactive polypeptide and the binding candidate protein or bioactive polypeptide are bound, and the amino acid sequence The spatial distance between the target amino acid sequence data obtained in the data obtaining step and each amino acid residue contained in the amino acid sequence data of the binding candidate is determined by the three-dimensional structure of the complex generated in the complex structure generating step. Determining a spatial distance determined according to the information; A charge determining step for determining the charge of each amino acid residue contained in the data and the amino acid sequence data of the binding candidate; a spatial distance between each amino acid residue determined by the spatial distance determining step; According to the charge of each amino acid residue determined in the determining step, an energy calculating step of calculating the energy of each amino acid residue, and changing the binding site of the complex by the complex structure generating step, Generate three-dimensional structure information, calculate the energy of each amino acid residue by an energy calculation step, and perform an energy minimization step of finding a binding site where the sum of the energies is minimized, and the energy minimization step of all the binding candidates. As a result of execution, there is a binding site that minimizes the sum of the above energies Possible to execute the binding site prediction method and a binding candidate determination step of determining if a candidate to the computer and said.
[0033]
According to this program, amino acid sequence data of a target protein or biologically active polypeptide and amino acid sequence data of one or more proteins or biologically active polypeptides as binding candidates are obtained, and the target protein or biologically active polypeptide is obtained. The polypeptide and a protein or a bioactive polypeptide as a binding candidate generate steric structure information of a complex bound thereto, and the obtained target amino acid sequence data and each amino acid residue included in the binding candidate amino acid sequence data Was determined according to the three-dimensional structure information of the generated complex, and the charge of each amino acid residue contained in the target amino acid sequence data and the amino acid sequence data of the binding candidate was determined. Each amino acid residue is determined according to the spatial distance between each amino acid residue and the determined charge of each amino acid residue. Calculate the energy, change the binding site for the complex, generate steric structure information of the complex, calculate the energy of each amino acid residue, find the binding site that minimizes the sum of the energies, and determine all binding candidates As a result of performing the energy minimizing process on the amino acid sequence, a binding candidate having a binding site that minimizes the total energy is determined. Therefore, amino acid residues that are likely to be electrostatically unstable from the amino acid sequence of the protein or the biologically active polypeptide are determined. By taking advantage of the fact that the group is likely to be a binding site, it becomes possible to predict an optimal binding candidate protein at high speed and with high accuracy.
[0034]
Further, the present invention relates to a recording medium, wherein a recording medium according to claim 11 records the program according to any one of claims 8 to 10.
[0035]
According to this recording medium, a program recorded in the recording medium is read by a computer and executed, thereby realizing the program described in any one of claims 8 to 10 using a computer. And the same effect as each of these methods can be obtained.
[0036]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of a binding site prediction method, a binding site prediction device, a program, and a recording medium according to the present invention will be described in detail with reference to the drawings. The present invention is not limited by the embodiment.
In particular, in the following embodiments, an example in which the present invention is applied to an amino acid sequence of a protein or the like will be described. However, the present invention is not limited to this, and is similarly applied to a case where an amino acid sequence of a bioactive polypeptide is used. can do.
[0037]
[Summary of the present invention]
Hereinafter, the outline of the present invention will be described, and then the configuration, processing, and the like of the present invention will be described in detail. 1 and 2 are principle configuration diagrams showing the basic principle of the present invention. The present invention generally has the following basic features.
[0038]
FIG. 1 is a diagram illustrating the concept of predicting the binding site of a protein from the amino acid sequence information of the protein according to the present invention.
As shown in FIG. 1, first, in the present invention, spatial distance data between each amino acid residue in the three-dimensional structure of a protein is determined from amino acid sequence data of a protein or a physiologically active polypeptide (step SA-1).
[0039]
Here, for example, the following three methods are available for obtaining distance data in space.
[0040]
1) High-speed calculation method
This method is a method of converting a distance on the sequence between amino acids into a spatial distance. FIG. 6 is a diagram showing the concept of the high-speed calculation method of the present invention. Assuming that the three-dimensional structure of the protein takes a Gaussian chain, the distance in the amino acid sequence of the protein and the distance in space in the three-dimensional structure of the protein can be related by the following formula.
r = k dn(0 <n <1)
Here, r is a distance in space, d is a distance in the array, and k is a proportional constant. That is, if the distance d on the array is known, the distance r on the space can be calculated. The values of k and n are obtained by statistically processing the relationship between the sequence distance and the spatial distance between amino acids from three-dimensional structural information collected in a protein structure database such as PDB (Protein Data Bank). Then, an appropriate value may be set. Here, n is 0 to 1, but preferably 0.5 to 0.6. Also, k is in the range of 2.8 to 4.8, preferably in the range of 3.3 to 4.3. This method is a very powerful method when processing a large amount of protein, for example, when handling tens of thousands of proteins, because the algorithm is very simple and the calculation load is very small.
[0041]
2) Calculation method using structural data
This method is a method of accurately obtaining the actual spatial distance between amino acid residues by using the three-dimensional structure information data registered in the protein structure database. For example, when the three-dimensional structure information data of the target protein is stored in a protein structure database such as a PDB, by obtaining the three-dimensional structure information data registered in the database, the distance in space can be accurately calculated as follows. Can be calculated.
[0042]
For example, the spatial distance R between amino acid residue number I and amino acid residue number JIJRepresents coordinates (x) of the amino acid residue number I such as the center of gravity or a specific main chain atom.I, YI, ZI), And coordinates such as the center of gravity of amino acid residue number J and atoms of a specific main chain are (xJ, YJ, ZJ) Can be calculated as follows.
RIJ 2= (XI-XJ)2+ (YI-YJ)2+ (ZI-ZJ)2
(Where RIJ> 0)
[0043]
3) Calculation method using simulation data
In this method, a protein whose structure is unknown is subjected to a protein structure simulation by a known structure simulation method, and a spatial distance is obtained using the simulation data (expected three-dimensional structure information data). There are various methods for three-dimensional structure prediction simulation, such as homology modeling. For example, it is introduced in detail in "Practical Bioinformatics" (C. Gibas, P. Jambeck, O'Reilly Japan 2002).
[0044]
This method has a drawback that the calculation load is large as compared with the method 1 and the method 2, but has an advantage that an almost accurate spatial distance can be obtained for a protein having an unknown structure.
[0045]
A feature of the present invention is that a plurality of calculation methods are made possible in each step. In particular, in order to compensate for the drawback that the three-dimensional structure prediction method using the existing simulation method is time-consuming, a method of simply determining spatial distance data between amino acid residues from amino acid sequence data as in Method 1 is combined. This enables a high-speed calculation and a prediction method for processing a large amount of data, such as prediction of a coupling partner.
[0046]
Next, the present invention calculates the total energy of the protein according to the distance data and the charge of each amino acid (step SA-2).
[0047]
Here, various methods for determining the charge of the amino acid can be considered. For example, the charge of a positively charged charged amino acid (lysine, arginine) is 1, the charge of a negatively charged charged amino acid (glutamic acid, aspartic acid) is -1, and the other amino acids are 0. There is such a method. In addition, the charge of each amino acid residue can be determined by the existing quantum chemical calculation method based on the three-dimensional structure information of the protein registered in the protein structure database or the three-dimensional structure information obtained by the simulation method.
[0048]
There are various methods for calculating the total energy of a protein. For example, molecular dynamics and molecular dynamics described in "Introduction to Computational Chemistry" (Frank, Jensen, John Wiley & Sons, 1999) and the like are described. It can also be carried out using a method such as an energy calculation method such as a molecular orbital method or a density functional method, and an optimum one may be selected depending on the prediction accuracy required from any of the methods and the calculation environment of the operator. Alternatively, the energy of each amino acid residue can be determined by using the Fragment MO method (Chemical Physics Letters, Volume 336, Issues 1-2, 9 March 2001, Pages 163-170). This method requires a long calculation time, but is expected to have high prediction accuracy.
[0049]
As another method that does not require calculation time, there is a method of calculating electrostatic energy as follows.
Etotal= {1/2} qiqj/ Rij
(I and j are arbitrary amino acid residue numbers of all amino acid residues, i not j)
In this formula, EtotalIs the total energy of the protein, qiIs the partial charge of amino acid residue i, qjIs the partial charge of amino acid residue j, rijIs the spatial distance between amino acid residue i and amino acid residue j.
[0050]
The method according to this formula has a very small calculation load as compared with other methods, and is particularly effective for comprehensive calculation.
[0051]
Next, the present invention calculates the interaction energy between a specific amino acid and other amino acid residues in a protein by the following formula to determine how much each amino acid residue stabilizes the total energy of the protein. (Step SA-3).
Einteraction(N) = qNΣqj/ R
Etotal= 1 / 2ΣEinteraction(N)
Here, N is an arbitrary amino acid residue number, Einteraction(N) is the interaction energy between amino acid residue N and other amino acid residues, j is the amino acid residue number other than N, qNIs the partial charge of amino acid residue N, qjRepresents the partial charge of amino acid residue j, and r represents the spatial distance between amino acid residue N and amino acid residue j. Here, half of the total interaction energy for all amino acid residues is the energy E of the whole protein.totalIs equivalent to
[0052]
Next, the present invention converts amino acid residues having a relatively high interaction energy determined in step SA-3 or amino acid residues having an interaction energy exceeding a predetermined threshold value into energetically unstable amino acids. The binding site is predicted by specifying the residue (Step SA-4).
[0053]
FIG. 2 is a diagram for explaining the concept of predicting a binding site when a complex is formed by a plurality of proteins from the amino acid sequence information of the proteins according to the present invention.
[0054]
First, the present invention assumes amino acid residues (binding residues) to be binding sites on a plurality of amino acid sequences (step SB-1). Here, FIG. 7 is a diagram showing a concept in a case where binding residues are assumed on a plurality of amino acid sequences. In the example shown in FIG. 7, it is assumed that the 50th amino acid residue of the amino acid sequence A and the 100th amino acid residue of the amino acid sequence B are binding residues. Here, as the binding residue, an amino acid residue predicted to be a binding site in each amino acid sequence by the method of the present invention described above with reference to FIG. 1 may be used.
[0055]
Next, the present invention determines a spatial distance between two amino acid residues present on different amino acid sequences (step SB-2). Here, the above three methods can be used as a method of determining the distance in the space, but the following is the method that can perform the calculation efficiently with the least calculation load. 1) The high-speed calculation method is used. The case will be described.
[0056]
First, the sequence distance between two amino acid residues existing on different amino acid sequences is defined as follows.
(Sequence distance d between the residue of interest d) = (| distance on the sequence between the residue of interest on the sequence A and the binding residue | + | distance on the sequence between the residue of interest on the sequence B and the binding residue |)
Here, FIG. 8 is a diagram for explaining the concept of the residue of interest. As shown in FIG. 8, a binding residue of two amino acid sequences (A and B) and an arbitrary residue of interest other than the binding residue are defined.
[0057]
Next, the present invention estimates the spatial distance r of the three-dimensional structure of the complex from the sequence distance d between two amino acid residues present on different amino acid sequences (step SB-3).
r = k dn(0 <n <1)
Here, r is a distance in space, d is a distance in the array, and k is a proportional constant. Here, n is 0 to 1, preferably 0.5 to 0.6. Also, k is in the range of 2.8 to 4.8, preferably in the range of 3.3 to 4.3. That is, if the distance d on the array is known, the distance r on the space can be calculated.
[0058]
In addition, when the three-dimensional structure of the complex is known, the spatial distance between amino acid residues can be accurately obtained by using the above-described 2) calculation method using structural data.
[0059]
In addition, by using the above-mentioned 3) simulation data utilization calculation method, the three-dimensional structure of the complex is predicted, and by using the simulation data, the spatial distance between amino acid residues can be determined to some extent accurately. Can be. Here, FIG. 12 is a diagram showing a concept in a case where a composite structure is generated using docking simulation. As shown in FIG. 12, a docking simulation is performed to generate a complex structure using a plurality of three-dimensional structure information. For the docking simulation, various known simulation methods can be used. For example, as shown in FIG. 12, it is common to change the distance and orientation of two proteins. As a more specific example, one structure is fixed, and the other structure is given two degrees of freedom by rotation and two degrees of translation to generate various structures. Extracting the structure under the condition that the two structures do not overlap but come into contact provides a possible complex structure.
[0060]
Next, the present invention calculates the total energy of the protein according to the distance data in space and the charge of each amino acid (step SB-4).
[0061]
Here, various methods for determining the charge of the amino acid can be considered. For example, as described above, the charge of a positively charged charged amino acid (lysine, arginine) is 1, the charge of a negatively charged charged amino acid (glutamic acid, aspartic acid) is -1, and the other is -1. There is a method in which the charge of an amino acid is set to 0. Further, as described above, based on the three-dimensional structure information of the complex registered in the protein structure database and the three-dimensional structure information of the complex obtained by the simulation method, each amino acid residue can be determined by the existing quantum chemical calculation method. The charge can also be determined.
[0062]
Various methods can be used for calculating the total energy of a protein. As described above, for example, as described above, “Introduction to Computational Chemistry” (Frank, Jensen, John Wiley, Sons, Inc., 1999), etc. It can also be performed using methods such as energy calculation methods such as mechanics, molecular dynamics, molecular orbital method, density functional method, etc., and the most suitable one depends on the prediction accuracy required from either method and the operator's calculation environment You can choose. In addition, as described above, the energy of each amino acid residue can be obtained by using the Fragment MO method (Chemical Physics Letters, Volume 336, Issues 1-2, 9 March 2001, Pages 163-170). This method requires a long calculation time, but is expected to have high prediction accuracy.
[0063]
As another method that does not require calculation time, as described above, there is a method of calculating electrostatic energy as follows.
Etotal= {1/2} qiqj/ Rij
(I and j are arbitrary amino acid residue numbers of all amino acid residues, i not j)
In this formula, EtotalIs the total energy of the protein, qiIs the partial charge of amino acid residue i, qjIs the partial charge of amino acid residue j, rijIs the spatial distance between amino acid residue i and amino acid residue j. As described above, this method basically proceeds in the same procedure as the processing flow indicated by the double line, and repeats while changing the amino acid sequence of the candidate protein. Among them, the one that can form the most stable complex predicts that the probability of the interaction partner is high.
[0064]
Next, the present invention returns to step SB-1 and changes the interacting amino acid residues (binding residues) to obtain E for all combinations.totalAnd calculate the most EtotalIs predicted as the binding site (step SB-5).
[0065]
[System configuration]
First, the configuration of the present system will be described. FIG. 3 is a block diagram showing an example of the configuration of the present system to which the present invention is applied, and conceptually shows only those parts of the configuration related to the present invention. This system is configured by connecting a binding site predicting apparatus 100 and an external system 200 that provides an external database or sequence information or the like for an external program such as homology search via a network 300 so as to be communicable. Have been.
[0066]
In FIG. 3, a network 300 has a function of interconnecting the binding site prediction device 100 and the external system 200, and is, for example, the Internet.
[0067]
In FIG. 3, an external system 200 is interconnected with the binding site predicting apparatus 100 via a network 300, and provides the user with an external database on amino acid sequence information, protein three-dimensional structure information, and the like, such as homology search and motif search. It has a function of providing a website for executing an external program.
[0068]
Here, the external system 200 may be configured as a WEB server, an ASP server, or the like, and its hardware configuration may be configured by an information processing device such as a generally-available workstation, a personal computer, and its accompanying devices. Good. Each function of the external system 200 is realized by a CPU, a disk device, a memory device, an input device, an output device, a communication control device, and the like in a hardware configuration of the external system 200, a program for controlling them, and the like.
[0069]
In FIG. 3, the binding site prediction device 100 includes a control unit 102 such as a CPU that comprehensively controls the entirety of the binding site prediction device 100 and a communication device (not shown) such as a router connected to a communication line or the like. ), An input / output control interface unit 108 connected to the input device 112 and the output device 114, and a storage unit 106 for storing various databases and tables. These units are communicably connected via an arbitrary communication path. Further, the binding site prediction device 100 is communicably connected to the network 300 via a communication device such as a router and a wired or wireless communication line such as a dedicated line.
[0070]
Various databases and tables (amino acid sequence database 106a to processing result file 106g) stored in the storage unit 106 are storage means such as a fixed disk device, and various programs, tables, files, databases, and webs used for various processing. Stores page files and the like.
[0071]
Among these constituent elements of the storage unit 106, the amino acid sequence database 106a is a database that stores amino acid sequences. The amino acid sequence database 106a may be an external amino acid sequence database accessed via the Internet, and may copy these databases, store original sequence information, and store unique annotation information. The database may be an in-house database created by adding.
[0072]
The protein structure database 106b is a database that stores information on the three-dimensional structure of proteins. The protein structure database 106b may be an external three-dimensional structure information database accessed via the Internet, and may copy these databases, store original three-dimensional structure information, and further provide unique annotation information. The database may be an in-house database that is created by adding data or the like.
[0073]
The distance data file 106c is a distance information storage unit that stores information on the distance between each amino acid residue contained in the amino acid sequence (sequence distance, space distance) and the like.
[0074]
The total energy data file 106d is a total energy data storage unit that stores information on the total energy of the protein and the like.
[0075]
The interaction energy data file 106e is an interaction energy data storage unit that stores information on the interaction energy of each amino acid residue.
[0076]
The complex structure data file 106f is a complex structure data storage unit that stores information on a complex structure of a plurality of proteins.
[0077]
The processing result file 106g is a processing result storage unit that stores information on various processing results by the binding site prediction apparatus 100 and the like.
[0078]
In FIG. 3, the communication control interface unit 104 controls communication between the binding site prediction device 100 and the network 300 (or a communication device such as a router). That is, the communication control interface unit 104 has a function of communicating data with another terminal via a communication line.
[0079]
3, the input / output control interface unit 108 controls the input device 112 and the output device 114. Here, as the output device 114, in addition to a monitor (including a home television), a speaker can be used (in the following, the output device 114 may be described as a monitor). As the input device 112, a keyboard, a mouse, a microphone, and the like can be used. The monitor also realizes a pointing device function in cooperation with the mouse.
[0080]
In FIG. 3, the control unit 102 has a control program such as an OS (Operating System), a program defining various processing procedures and the like, and an internal memory for storing required data. And information processing for executing various processes. The control unit 102 functionally includes an amino acid sequence data acquisition unit 102a, a spatial distance determination unit 102b, a charge determination unit 102c, an energy calculation unit 102d, a candidate amino acid residue determination unit 102e, a complex structure generation unit 102f, an energy minimum And a binding candidate data obtaining unit 102h, a binding site predicting unit 102i, and a binding partner candidate determining unit 102j.
[0081]
Among these, the amino acid sequence data acquisition unit 102a includes an amino acid sequence data acquisition unit that acquires amino acid sequence data of a target protein or a physiologically active polypeptide, and an amino acid sequence that acquires amino acid sequence data of a plurality of target proteins or a physiologically active polypeptide. A sequence data obtaining means, and an amino acid sequence data obtaining means for obtaining amino acid sequence data of a target protein or a biologically active polypeptide and amino acid sequence data of a plurality of proteins or biologically active polypeptides as binding candidates.
[0082]
The spatial distance determining unit 102b is configured to determine a spatial distance between each amino acid residue included in the amino acid sequence data obtained by the amino acid sequence data obtaining unit, and to obtain a spatial distance by the amino acid sequence data obtaining unit. Spatial distance determining means for determining a spatial distance between each amino acid residue included in the plurality of amino acid sequence data obtained according to the three-dimensional structure information of the complex generated by the complex structure generating means, and amino acid sequence data The spatial distance between each amino acid residue contained in the target amino acid sequence data obtained by the obtaining means and the amino acid sequence data of the binding candidate is determined according to the three-dimensional structure information of the complex generated by the complex structure generating means. This is a spatial distance determining means. Here, as shown in FIG. 4, the spatial distance determination unit 102b includes a high-speed calculation unit 102k, a structural data use calculation unit 102m, and a simulation data use calculation unit 102n. Here, the high-speed calculation unit 102k is a high-speed calculation unit that determines a spatial distance by a high-speed calculation method. The structural data use calculating unit 102m is a structural data use calculating unit that determines a spatial distance by a structural data use calculation method. The simulation data use calculation unit 102n is a simulation data use calculation unit that determines a spatial distance by a simulation data use calculation method.
[0083]
In addition, the charge determination unit 102c includes a charge determination unit that determines the charge of each amino acid residue included in the amino acid sequence data, a charge determination unit that determines the charge of each amino acid residue included in the plurality of amino acid sequence data, Further, it is a charge determination means for determining the charge of each amino acid residue contained in the target amino acid sequence data and the amino acid sequence data of the binding candidate.
[0084]
In addition, the energy calculation unit 102d calculates the value of each amino acid residue according to the spatial distance between each amino acid residue determined by the spatial distance determining means and the charge of each amino acid residue determined by the charge determining means. Energy calculation means for calculating energy. As shown in FIG. 5, the energy calculator 102d includes a total energy calculator 102p and an interaction energy calculator 102q. Here, the total energy calculation unit 102p is a total energy calculation unit that calculates the total energy of the protein. The interaction energy calculator 102q is an interaction energy calculator that calculates the interaction energy of amino acid residues.
[0085]
In addition, the candidate amino acid residue determining unit 102e determines the sum of the energy by the candidate amino acid residue determining unit that determines the candidate amino acid residue to be a binding site according to the energy calculated by the energy calculating unit, and the energy minimizing unit. This is a candidate amino acid residue determining means for determining the minimum binding site as a candidate amino acid residue of the binding site.
[0086]
Further, the complex structure generating unit 102f includes a complex structure generating means for generating three-dimensional structure information of a complex in which a plurality of target proteins or physiologically active polypeptides are bound, and a target protein or biologically active polypeptide; This is a complex structure generating means for generating three-dimensional structure information of a complex to which a protein or a physiologically active polypeptide as a binding candidate is bound.
[0087]
Also, the energy minimizing unit 102g generates three-dimensional structure information of the complex by changing the binding site of the complex by the complex structure generating means, calculates the energy of each amino acid residue by the energy calculating means, and calculates the energy of the energy. This is energy minimization means for finding a binding site that minimizes the sum.
[0088]
The binding candidate data acquisition unit 102h is a binding candidate data acquiring unit that acquires amino acid sequence data and the like of a protein that is a binding candidate.
[0089]
The binding site prediction unit 102i is a binding site prediction unit that predicts the amino acid residue of the binding site from the candidate amino acid residue of the binding site.
[0090]
The binding partner candidate determining unit 102j is a binding candidate determining unit that determines a binding candidate having a binding site that minimizes the sum of energy as a result of executing the energy minimizing unit for all the binding candidates.
Details of the processing performed by these units will be described later.
[0091]
[System processing]
Next, an example of the processing of the present system configured as described above according to the present embodiment will be described in detail with reference to FIGS.
[0092]
FIG. 9 is a flowchart illustrating an example of processing of the present system in the present embodiment. In FIG. 9, the processing flow indicated by the dotted line indicates the processing flow when the binding site in one protein sequence is predicted by the present system, and the processing flow indicated by the double line may interact with the present system. The processing flow in the case of predicting the binding site using the amino acid sequences of a plurality of known proteins is shown. The processing flow indicated by the solid line shows the candidate protein that binds best to the target protein by this system. The processing flow in the case of prediction is shown. The basic concept of these three processing flows and most of the calculation processing are common. Furthermore, the general purpose of analyzing interaction information is common.
[0093]
[Process for Predicting Binding Site in One Protein Sequence]
Next, details of a process for predicting a binding site in a sequence of one protein by the present system will be described with reference to FIG. 9 and the like. The processing flow indicated by the dotted line in FIG. 9 is a flowchart illustrating an example of processing when the binding site in the sequence of one protein is predicted by the present system in the present embodiment.
[0094]
First, the binding site predicting apparatus 100 accesses the external database of the external system 200 such as Genbank or the amino acid sequence database 106a by the processing of the amino acid sequence data obtaining unit 102a, and obtains the amino acid sequence of the target protein or physiologically active polypeptide. Data is acquired (step SC-1).
[0095]
Then, the binding site prediction device 100 determines the spatial distance between each amino acid residue included in the amino acid sequence data acquired in step SC-1 by the processing of the spatial distance determining unit 102b (step SC- 2).
[0096]
Here, the spatial distance determination unit 102b may determine the spatial distance from the sequence distance between each amino acid residue by the above-described high-speed calculation method by the processing of the high-speed calculation unit 102k. The spatial distance between each amino acid residue may be determined using the known structure data by the above-described structure data use calculation method by the use of the simulation data use calculation unit 102n. The spatial distance between each amino acid residue may be determined using the prediction structure based on the processing result of the existing structure simulation program by the above-described simulation data utilization calculation method.
[0097]
Next, the binding site prediction device 100 determines the charge of each amino acid residue included in the amino acid sequence data by the processing of the charge determining unit 102c (Step SC-3). There are various methods for determining the charge of the amino acid. In general, a method in which a positively charged charged amino acid (lysine, arginine) is 1; a negatively charged charged amino acid (glutamic acid, aspartic acid) is -1; There is. The charge can also be determined by quantum chemical calculation based on the obtained three-dimensional structure information. Furthermore, if experimental data on the charge of each amino acid residue is experimentally known, it is preferable to reflect that.
[0098]
Next, the binding site prediction device 100 calculates the energy of each amino acid residue according to the determined spatial distance between each amino acid residue and the charge of each amino acid residue by the processing of the energy calculation unit 102d. (Step SC-4).
[0099]
Here, there are various methods of energy calculation, and a method of calculating electrostatic energy, which is the method that requires the least calculation time, will be described below.
First, the total energy of the protein is calculated by the following equation by the processing of the total energy calculation unit 102p.
Etotal= {1/2} qiqj/ Rij
(I and j are arbitrary amino acid residue numbers of all amino acid residues, i not j)
In this formula, EtotalIs the total energy of the protein, qiIs the partial charge of amino acid residue i, qjIs the partial charge of amino acid residue j, rijIs the spatial distance between amino acid residue i and amino acid residue j.
[0100]
Next, the interaction energy calculation unit 102q calculates the interaction energy between a specific amino acid and other amino acid residues in the protein according to the following formula, and calculates how much the total energy of each amino acid residue is in the protein. Find out if it has stabilized.
Einteraction(N) = qNΣqj/ R
Etotal= 1 / 2ΣEinteraction(N)
Here, N is an arbitrary amino acid residue number, Einteraction(N) is the interaction energy between amino acid residue N and other amino acid residues, j is the amino acid residue number other than N, qNIs the partial charge of amino acid residue N, qjRepresents the partial charge of amino acid residue j, and r represents the spatial distance between amino acid residue N and amino acid residue j. Here, half of the total interaction energy for all amino acid residues is the energy E of the whole protein.totalIs equivalent to
[0101]
Then, the binding site prediction device 100 determines a candidate amino acid residue to be a binding site according to the calculated interaction energy by the processing of the candidate amino acid residue determination unit 102e (step SC-5). That is, the candidate amino acid residue determining unit 102e regards an amino acid residue having a relatively high interaction energy or an amino acid residue having an interaction energy exceeding a predetermined threshold as an energetically unstable amino acid residue. By specifying, a candidate amino acid residue to be a binding site is determined.
[0102]
Then, the binding site prediction device 100 predicts the binding site by removing candidates that are not spatially or energetically binding sites from the candidate amino acid residues by the processing of the binding site prediction unit 102i. For example, assuming that a result as shown in FIG. 10 is obtained as an example of the energy of the candidate amino acid residue of the processing result, the binding site prediction unit 102i selects glutamic acid (GLU) having the highest energy in FIG. Is predicted as a candidate for the binding site. In addition, the binding site prediction unit 102i, for example, as shown in FIG. 11, indicates that a portion where the three-dimensionally unstable portion is clustered (the amino acid residue portion shown in black) is likely to be a binding site. Predict.
This completes the processing for predicting the binding site in the sequence of one protein by the present system.
[0103]
[Process for Predicting Binding Site Using Amino Acid Sequences of Multiple Proteins Known to Interact]
Next, details of a process for predicting a binding site using amino acid sequences of a plurality of proteins known to interact with the present system will be described with reference to FIG. 9 and the like. The processing flow indicated by the double line in FIG. 9 is a flowchart illustrating an example of processing when predicting a binding site using the amino acid sequences of a plurality of proteins that are known to interact with the system according to the present embodiment. is there.
[0104]
First, the binding site predicting apparatus 100 accesses the external database of the external system 200 such as Genbank or the amino acid sequence database 106a by the processing of the amino acid sequence data obtaining unit 102a, and obtains the amino acid sequence of the target protein or physiologically active polypeptide. Data is acquired (step SC-1).
[0105]
Next, the binding site prediction apparatus 100 generates three-dimensional structure information of the complex in which a plurality of target proteins or physiologically active polypeptides are bound by the processing of the complex structure generating unit 102f (step SC-7). Here, as described above with reference to FIG. 12, the complex structure generating unit 102f may predict the three-dimensional structure of the complex by using a simulation data utilization calculation method. If the three-dimensional structure of the complex is known, the complex structure generating unit 102f may acquire the three-dimensional structure information of the complex.
[0106]
In addition, as described above, the complex structure generation unit 102f assumes the amino acid residues (binding residues) to be the binding sites on the plurality of amino acid sequences, without actually generating the complex structure. Processing can proceed. Here, FIG. 7 is a diagram showing a concept in a case where binding residues are assumed on a plurality of amino acid sequences. In the example shown in FIG. 7, it is assumed that the 50th amino acid residue of the amino acid sequence A and the 100th amino acid residue of the binding site prediction device for the amino acid sequence B are the binding residues. Here, the binding residue may be an amino acid residue predicted to be a binding site in each amino acid sequence by the method of the present invention described above.
[0107]
Next, the binding site prediction device 100 determines the spatial distance between each amino acid residue included in the acquired plurality of amino acid sequence data by the processing of the spatial distance determination unit 102b according to the three-dimensional structure information of the complex. (Step SC-2).
[0108]
Here, the three methods described above can be used as a method of determining the distance in space. However, when the three-dimensional structure of the complex is known or when docking simulation is performed, the spatial distance determination unit is used. 102b can accurately determine the spatial distance between amino acid residues. Hereinafter, a description will be given of a case where the calculation load is the least and the calculation can be performed efficiently.
[0109]
First, the spatial distance determination unit 102b defines a sequence distance between two amino acid residues existing on different amino acid sequences as follows.
(Sequence distance d between the residue of interest d) = (| distance on the sequence between the residue of interest on the sequence A and the binding residue | + | distance on the sequence between the residue of interest on the sequence B and the binding residue |)
Here, FIG. 8 is a diagram for explaining the concept of the residue of interest. As shown in FIG. 8, a binding residue of two amino acid sequences (A and B) and an arbitrary residue of interest other than the binding residue are defined.
[0110]
Next, the spatial distance determination unit 102b estimates the spatial distance r of the three-dimensional structure of the complex from the sequence distance d between two amino acid residues present on different amino acid sequences.
r = k dn(0 <n <1)
Here, r is a distance in space, d is a distance in the array, and k is a proportional constant. Here, n is 0 to 1, preferably 0.5 to 0.6. Also, k is in the range of 2.8 to 4.8, preferably in the range of 3.3 to 4.3.
[0111]
Next, the binding site prediction device 100 determines the charge of each amino acid residue included in the plurality of amino acid sequence data by the processing of the charge determination unit 102c (step SC-3).
[0112]
Next, the binding site prediction apparatus 100 calculates the distance between the amino acid residues determined in step SC-2 and the respective amino acid residues determined in step SC-3 by the processing of the energy calculation unit 102d. The energy of each amino acid residue is calculated according to the charge (step SC-4).
[0113]
Then, the binding site prediction device 100 determines a candidate amino acid residue to be a binding site according to the calculated interaction energy by the processing of the candidate amino acid residue determination unit 102e (step SC-5).
[0114]
Then, the binding site predicting apparatus 100 changes the binding site of the complex in step SC-7 to generate the three-dimensional structure information of the complex by the processing of the energy minimizing unit 102g, and generates each amino acid residue in step SC-4. Is calculated, and the binding site where the sum of the energies is minimized is determined (the steps from Step SC-7 to Step SC-5 are repeated as appropriate).
[0115]
Then, the binding site predicting apparatus 100 determines, by the processing of the candidate amino acid residue determining unit 102e, the binding site that finally has the minimum total energy as the candidate amino acid residue of the binding site (step SC-5). . Here, the candidate amino acid residue determining unit 102e may create a diagram in which the total sum of the energies of the proteins is plotted based on the amino acid sequence, and output the diagram to the output device 114. FIG. 13 is an example of a diagram plotting the total energy when each amino acid residue of protein A and protein B is a binding residue. By creating the plot in this way, it becomes possible to visually grasp which amino acid residue of the two amino acid sequences is selected as the binding residue and the total energy is reduced.
This completes the process of predicting a binding site using the amino acid sequences of a plurality of proteins known to interact with the present system.
[0116]
[Process for Predicting Candidate Protein on the Other Side that Best Binds to Target Protein]
Next, details of a process for predicting a candidate protein on the partner side that best binds to a target protein by the present system will be described with reference to FIG. 9 and the like. The processing flow indicated by the solid line in FIG. 9 is a flowchart illustrating an example of processing in a case where the present system in the present embodiment predicts a candidate protein on the partner side that best binds to a target protein.
[0117]
First, the binding site predicting apparatus 100 accesses the external database of the external system 200 such as Genbank or the amino acid sequence database 106a by the processing of the amino acid sequence data obtaining unit 102a, and obtains the amino acid sequence of the target protein or biologically active polypeptide. Data is acquired (step SC-1). In addition, the binding site prediction apparatus 100 accesses the external database of the external system 200 such as Genbank or the amino acid sequence database 106a by the processing of the binding candidate data acquisition unit 102h, and obtains one or more candidate binding candidates for the target protein. The amino acid sequence data of a plurality of proteins or physiologically active polypeptides is obtained (Step SC-6).
[0118]
Next, the binding site prediction apparatus 100, by the processing of the complex structure generating unit 102f, obtains the three-dimensional structure information of the complex in which the target protein or bioactive polypeptide and the candidate protein or bioactive polypeptide are bound. Generate (Step SC-7).
[0119]
Next, the binding site prediction apparatus 100 includes the target amino acid sequence data obtained in step SC-1 and the amino acid sequence data of the binding candidate obtained in step SC-6 by the processing of the spatial distance determination unit 102b. The spatial distance between each amino acid residue to be determined is determined according to the three-dimensional structure information of the complex generated in step SC-7 (step SC-2).
[0120]
Next, the binding site prediction apparatus 100 determines the charge of each amino acid residue included in the target amino acid sequence data and the amino acid sequence data of the binding candidate by the processing of the charge determining unit 102c (step SC-3).
[0121]
Next, the binding site predicting apparatus 100 calculates, by the processing of the energy calculating unit 102d, the spatial distance between each amino acid residue determined in step SC-2 and each amino acid residue determined in step SC-3. The energy of each amino acid residue is calculated according to the charge (step SC-4).
[0122]
Next, the binding site prediction apparatus 100 generates the three-dimensional structure information of the complex by changing the binding site in the complex in step SC-7 by the processing of the energy minimizing unit 102g, and generates each amino acid residue in step SC-4. Is calculated, and a binding site where the sum of the energies is minimized is obtained (steps SC-7 to SC-5 are repeated as appropriate).
[0123]
Next, the binding site prediction apparatus 100 repeats steps SC-6 to SC-5 for all binding candidates by the processing of the candidate amino acid residue determining unit 102e, and executes the energy minimization processing. Is determined (Step SC-8).
This completes the processing for predicting the candidate protein on the partner side that best binds to the target protein by the present system.
[0124]
[Example of the present invention]
Next, details of the embodiment of the present invention will be described with reference to FIGS.
[0125]
[Example 1 of the present invention; ribonuclease A]
Next, details of the first embodiment of the present invention will be described with reference to FIGS. Example 1 relates to prediction of a binding site of a single protein.
Ribonuclease A, a hydrolase, is a protein that has been well studied experimentally. Since the structure of the complex of ribonuclease A and its inhibitor is known, the binding site is specified on the amino acid sequence.
First, the amino acid sequence data of ribonuclease A was obtained from the protein sequence database Genbank.
[0126]
Then, distance information of amino acids was estimated from the amino acid sequence data of ribonuclease A by the following method. First, the relationship between the distance in sequence and the distance in space was determined for each type of amino acid from the three-dimensional structure information of all the proteins or polypeptides registered in PDB (Protein Data Bank). For example, FIG. 14 is a diagram showing the relationship between the distance in the arrangement of two glutamic acids and the distance in space. As shown in FIG. 14, for example, it is known by a known statistical method that the average of the spatial distance when glutamic acid and glutamic acid are separated by 20 residues on the sequence is 20 °. As described above, information indicating the relationship between the distance in sequence between amino acid residues and the distance in space was obtained.
[0127]
Then, the charge of the amino acid was determined. Here, a charge is assigned to each amino acid residue, such as −1 for glutamic acid and aspartic acid, +1 for arginine, lysine and histidine, and 0 for others.
[0128]
Then, the interaction energy of each amino acid residue was calculated as follows.
Einteraction(K) = qKΣqj/ R
(Where K is the amino acid residue number, Einteraction(K) is the interaction energy between amino acid residue K and the other, j is any amino acid residue other than K, and r is the spatial distance between amino acid residue K and amino acid residue j.
[0129]
Then, the energy of each amino acid residue of ribonuclease A was calculated by the above equation, and the energy of each amino acid residue of ribonuclease A was plotted against the amino acid residue number. FIG. 15 is a diagram in which the energy of each amino acid residue of ribonuclease A is plotted against the amino acid residue number.
[0130]
Then, those in which the amino acid residues of ribonuclease A had an energy of 0 or more were summarized in the table as binding site candidates (FIG. 16). As shown in FIG. 16, of the 18 candidate binding sites, the actual number of binding sites (experimentally determined binding sites) was 12. As described above, according to the present invention, it was possible to predict a binding site with very high accuracy and high speed using only the amino acid sequence information of ribonuclease A.
This ends the first embodiment of the present invention.
[0131]
[Example 2 of the present invention; acetylcholine esterase inhibitor]
Next, the details of the second embodiment of the present invention will be described with reference to FIGS. Example 2 also relates to the prediction of the binding site of a single protein.
In Example 2, the binding site was estimated based on the amino acid sequence of acetylcholine esterase inhibitor. Here, the existing three-dimensional structure information data included in the PDB was used instead of performing the three-dimensional structure prediction.
[0132]
FIG. 17 is a diagram showing a part of the three-dimensional structure information data of the acetylcholine esterase inhibitor stored in the PDB. The atomic numbers, atomic species, chain names, amino acid residue numbers, X coordinates, Y coordinates, and Z coordinates are shown from the second column of FIG.
[0133]
For example, the spatial distance R between amino acid residue number I and amino acid residue number JIJRepresents coordinates (x) of the amino acid residue number I such as the center of gravity or a specific main chain atom.I, YI, ZI), And coordinates such as the center of gravity of amino acid residue number J and atoms of a specific main chain are (xJ, YJ, ZJ) Can be calculated as follows.
RIJ 2= (XI-XJ)2+ (YI-YJ)2+ (ZI-ZJ)2
(Where RIJ> 0)
[0134]
More specifically, when the spatial distance between glutamic acid at amino acid residue number 4 and aspartic acid at amino acid residue number 5 shown in FIG. 17 is calculated from the distance between the atoms of α-carbon, the following is obtained. .
Figure 2004109053
[0135]
FIG. 18 is a diagram showing the energy of acetylcholinesterase inhibitor obtained according to the present invention. From FIG. 18, ten acetylcholine esterase inhibitor energies having an energy of 0 or more were taken out as candidate binding sites, and whether or not they were actually binding sites was experimentally examined. Among them, seven were actually binding sites. (FIG. 19).
[0136]
As described above, the binding site can be predicted with extremely high accuracy. The second embodiment is different from the first embodiment in that known three-dimensional structure information is used. In other words, although the method of determining the spatial distance is changed between the first embodiment and the second embodiment, the effect of the present invention can be obtained by using any method of determining the spatial distance since both have given good results. It can be expected.
Thus, the second embodiment of the present invention is completed.
[0137]
[Example 3 of the present invention; complex of "huntingtin-associated \ protein \ interacting \ protein" and "nitric \ oxide \ synthase \ 2A"]
Next, a third embodiment of the present invention will be described in detail with reference to FIG. Example 3 relates to prediction of a binding site when two proteins bind. It has been experimentally found that "huntingtin-associated @ protein @ interacting @ protein" binds to "nitric @ oxide @ synthase @ 2A". Further, it is known that the binding site "huntingtin-associated @ protein @ interacting @ protein" is around amino acid residue number 600, and "nitric @ oxidase synthesis @ 2A" is around amino acid residue number 100.
[0138]
Here, in the present embodiment, acquisition of sequence information, prediction of a three-dimensional structure, and determination of charges were performed in the same manner as in the first embodiment. However, the method of converting the amino acid sequence distance into the spatial distance is based on the assumption that the protein takes a Gaussian chain, and the sequence distance and the spatial distance are related by the following formula.
r = 3.8 d0.5
Here, r is the distance in space, and d is the distance in the array.
[0139]
The complex structure was generated using the high-speed calculation method described above. That is, the following equation was used.
(Distance in space) = {k (| Distance in sequence between target residue and binding residue on A | + | Distance in sequence between target residue and binding residue on B |)}n
[0140]
Then, the energy of the complex assuming each binding site was calculated, and FIG. 20 could be created. Here, in FIG. 20, the horizontal axis represents the amino acid residue number of the binding site of huntingtin-associated {protein} interacting protein, the vertical axis represents the amino acid residue number of the binding site of nitric oxide synthase 2A, and the complex at each binding site. It is a contour line showing the sum of energy when a body is generated.
[0141]
According to FIG. 20, for example, the energy of the complex in the case where the amino acid residue No. 500 of huntingtin-associated @ protein @ interacting @ protein and the amino acid residue 150 of nitric oxide @ synthase @ 2A are a binding site is -10, The energy for each binding site is determined.
[0142]
As shown in FIG. 20, there are two minimum parts of energy. One is that the binding site of huntingtin-associated {protein} interacting protein is near amino acid residues 600 to 950, and the binding site of nitricoxide side synthase 2A is amino acid residue 25 to In the case of binding at around 100, the other one was at a binding site of huntingtin-associated {protein} interacting protein at around amino acid residues 650 to 900, and at a binding site of nitric oxide, synthase 2A at around amino acid residues 475 to 500. Is the case.
[0143]
Here, the former corresponds to the actual binding site (the portion surrounded by a black circle in the figure). As described above, the binding sites of the two proteins could be accurately predicted.
Thus, the third embodiment of the present invention is completed.
[0144]
[Embodiment 4 of the present invention; E2F transcript factor1] Next, details of Embodiment 4 of the present invention will be described with reference to FIG.
Embodiment 4 relates to the binding partner prediction. E2F transcription description factor 1 (hereinafter, E2F1) is a protein whose information on the interaction partner is well examined experimentally.
[0145]
Here, a partner interacting with E2F1 was searched from the database of Homo @ Sapiens genes (here, 6,600 were randomly extracted) and used as amino acid sequence data of the candidate protein.
[0146]
Then, similarly to the procedure calculated in Example 3, a binding site to E2F1 is searched for each candidate protein of the partner. Then, the energy when the energy is most stable (minimum) is defined as the interaction energy. FIG. 21 is a histogram of the interaction energy of each candidate protein and the number of genes.
[0147]
As shown in FIG. 21, the relative interaction energy could be calculated. For example, there are 100 interaction energies greater than 90 (energy less than -90), but there is a high possibility that the ones here are interaction partners. This method is very fast and can comprehensively calculate the interaction.
This concludes the fourth embodiment of the present invention.
[0148]
[Other embodiments]
Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, but may be applied to various different embodiments within the scope of the technical idea described in the claims. It may be implemented.
[0149]
For example, the case where the binding site prediction apparatus 100 performs the processing in a stand-alone mode has been described as an example, but the processing is performed in response to a request from a client terminal configured in a separate housing from the binding site prediction apparatus 100, The processing result may be returned to the client terminal.
[0150]
Further, among the processes described in the embodiment, all or a part of the processes described as being performed automatically may be manually performed, or all of the processes described as being performed manually may be performed. Alternatively, it can be performed partly automatically by a known method.
In addition, the processing procedures, control procedures, specific names, information including parameters such as various registration data and search conditions, screen examples, and database configurations shown in the above-described documents and drawings, except where otherwise noted, It can be changed arbitrarily.
[0151]
Further, regarding the binding site prediction apparatus 100, each component illustrated is a functional concept and does not necessarily need to be physically configured as illustrated.
For example, with respect to the processing functions included in each unit or each device of the binding site prediction apparatus 100, particularly, each processing function performed by the control unit 102, all or any part of the processing functions are transferred to a CPU (Central Processing Unit) and the CPU. It can be realized by a program that is interpreted and executed, or can be realized as hardware by wired logic. The program is recorded on a recording medium described later, and is mechanically read by the binding site prediction device 100 as necessary.
[0152]
That is, a computer program for giving instructions to the CPU in cooperation with an OS (Operating System) and performing various processes is recorded in the storage unit 106 such as a ROM or an HD. This computer program is executed by being loaded into a RAM or the like, and configures the control unit 102 in cooperation with the CPU. Further, this computer program may be recorded in an application program server connected to the binding site prediction apparatus 100 via an arbitrary network 300, and all or a part of the computer program may be downloaded as necessary. It is.
[0153]
Further, the program according to the present invention can be stored in a computer-readable recording medium. Here, the “recording medium” refers to an arbitrary “portable physical medium” such as a flexible disk, a magneto-optical disk, a ROM, an EPROM, an EEPROM, a CD-ROM, an MO, a DVD, and the like, and a built-in various computer systems. A short-term program such as a communication line or a carrier wave when transmitting the program via an arbitrary "fixed physical medium" such as ROM, RAM, HD, or a network represented by LAN, WAN, or the Internet. "Communications medium" that holds.
[0154]
The “program” is a data processing method described in an arbitrary language or description method, and may be in any format such as a source code or a binary code. The "program" is not necessarily limited to a single program, but may be distributed as a plurality of modules or libraries, or may be operated in cooperation with a separate program represented by an OS (Operating System). Includes those that achieve functions. Note that a known configuration and procedure can be used for a specific configuration, a reading procedure, an installation procedure after reading, and the like in each apparatus described in the embodiments.
[0155]
Various databases and the like (amino acid sequence database 106a to processing result file 106g) stored in the storage unit 106 are storage devices such as a memory device such as a RAM and a ROM, a fixed disk device such as a hard disk, a flexible disk, and an optical disk. Stores various programs, tables, files, databases, web page files, and the like used for various processes and for providing a website.
[0156]
In addition, the binding site prediction apparatus 100 connects a peripheral device such as a printer, a monitor, or an image scanner to an information processing device such as a known personal computer or an information processing terminal such as a workstation, and connects the information processing device of the present invention to the information processing device. May be implemented by implementing software (including programs, data, and the like) for implementing the above.
[0157]
Furthermore, the specific form of the distribution / integration of the binding site prediction device 100 is not limited to the illustrated one, and all or a part thereof may be functionally or physically distributed / integrated in an arbitrary unit corresponding to various loads or the like. Can be integrated and configured. For example, each database may be independently configured as an independent database device, or a part of the processing may be realized by using CGI (Common Gateway Interface).
[0158]
The network 300 has a function of interconnecting the binding site prediction device 100 and the external system 200, and includes, for example, the Internet, an intranet, a LAN (including both wired / wireless), a VAN, and a personal computer. A communication network, a public telephone network (including both analog and digital), a private line network (including both analog and digital), a CATV network, an IMT2000 system, a GSM system, a PDC / PDC-P system, and the like. It may include any of a cellular line switching network / portable packet switching network, a radio paging network, a local radio network such as Bluetooth, a PHS network, and a satellite communication network such as CS, BS or ISDB. That is, the present system can transmit and receive various data via any network regardless of wired or wireless.
[0159]
【The invention's effect】
As described in detail above, according to the present invention, the spatial distance data between each amino acid residue in the three-dimensional structure of the protein or bioactive polypeptide is determined from the amino acid sequence data of the protein or bioactive polypeptide, Since the binding site is predicted by specifying an electrostatically unstable amino acid residue according to the distance data and the charge of each amino acid, it is likely to be electrostatically unstable from the amino acid sequence of the protein or the bioactive polypeptide. It is possible to provide a binding site prediction method, a binding site prediction device, a program, and a recording medium capable of quickly and accurately predicting a binding site by utilizing the fact that various amino acid residues tend to become binding sites. it can.
[0160]
According to the present invention, the amino acid sequence data of the target protein or the biologically active polypeptide is obtained, the spatial distance between each amino acid residue contained in the obtained amino acid sequence data is determined, and the amino acid sequence is determined. Determine the charge of each amino acid residue included in the data, and determine the energy of each amino acid residue according to the determined spatial distance between each amino acid residue and the determined charge of each amino acid residue. Calculate and determine candidate amino acid residues to be binding sites according to the calculated energy, so amino acid residues that are likely to be electrostatically unstable from the amino acid sequence of protein or bioactive polypeptide become binding sites. A binding site prediction method, a binding site prediction device, a program, and a record that can quickly and accurately predict a binding site using the ease of use It is possible to provide the body.
[0161]
Further, according to the present invention, obtaining amino acid sequence data of a plurality of target proteins or bioactive polypeptides, generating three-dimensional structure information of a complex in which the plurality of target proteins or bioactive polypeptides are bound, and obtaining The spatial distance between each amino acid residue contained in the plurality of amino acid sequence data determined is determined according to the three-dimensional structure information of the generated complex, and the charge of each amino acid residue contained in the plurality of amino acid sequence data is determined. According to the determined spatial distance between each amino acid residue and the determined charge of each amino acid residue, calculate the energy of each amino acid residue and change the binding site for the complex. Generates the three-dimensional structure information of the complex, calculates the energy of each amino acid residue, finds the binding site that minimizes the sum of the energies, Is determined as a candidate amino acid residue for the binding site, and the amino acid sequence which is likely to be electrostatically unstable from the amino acid sequence of the protein or the biologically active polypeptide is likely to become the binding site. Thus, it is possible to provide a binding site prediction method, a binding site prediction device, a program, and a recording medium capable of quickly and accurately predicting a binding site.
[0162]
Further, according to the present invention, the amino acid sequence data of the target protein or biologically active polypeptide and the amino acid sequence data of one or more proteins or biologically active polypeptides as binding candidates are obtained, and the target protein or biologically active polypeptide is obtained. Generates three-dimensional structure information of a complex in which a physiologically active polypeptide and a protein or a physiologically active polypeptide as a binding candidate are bound, and obtains each amino acid contained in the obtained target amino acid sequence data and the amino acid sequence data of the binding candidate. The spatial distance between the residues is determined according to the three-dimensional structure information of the generated complex, and the charge of each amino acid residue included in the target amino acid sequence data and the amino acid sequence data of the binding candidate is determined. Each amino acid residue according to the spatial distance between the determined amino acid residues and the determined charge of each amino acid residue. Calculate the energy, change the binding site for the complex, generate steric structure information of the complex, calculate the energy of each amino acid residue, find the binding site that minimizes the sum of the energies, and determine all binding candidates As a result of performing the energy minimizing process on the amino acid sequence, a binding candidate having a binding site that minimizes the total energy is determined. Therefore, amino acid residues that are likely to be electrostatically unstable from the amino acid sequence of the protein or the biologically active polypeptide are determined. Provided are a binding site prediction method, a binding site prediction device, a program, and a recording medium capable of quickly and accurately predicting an optimal binding candidate protein by utilizing the fact that a group easily becomes a binding site. Can be.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating the concept of predicting a binding site of a protein from amino acid sequence information of the protein according to the present invention.
FIG. 2 is a diagram illustrating the concept of predicting a binding site when a complex is formed by a plurality of proteins from the amino acid sequence information of the proteins according to the present invention.
FIG. 3 is a block diagram illustrating an example of a configuration of the present system to which the present invention is applied.
FIG. 4 is a block diagram illustrating an example of a configuration of a spatial distance determination unit 102b to which the present invention is applied.
FIG. 5 is a block diagram illustrating an example of a configuration of an energy calculation unit 102d to which the present invention is applied.
FIG. 6 is a diagram showing the concept of the high-speed calculation method of the present invention.
FIG. 7 is a diagram showing a concept when a binding residue is assumed on a plurality of amino acid sequences.
FIG. 8 is a diagram illustrating the concept of a residue of interest.
FIG. 9 is a flowchart illustrating an example of processing of the present system in the present embodiment.
FIG. 10 is a diagram showing an example of the energy and the like of a candidate amino acid residue as a processing result.
FIG. 11 is a diagram illustrating an example of a case where unstable portions on a three-dimensional structure are clustered.
FIG. 12 is a diagram showing a concept when a composite structure is generated using docking simulation.
FIG. 13 is an example of a diagram plotting the total energy when each amino acid residue of protein A and protein B is a binding residue.
FIG. 14 is a diagram showing the relationship between the distance on the arrangement of two glutamic acids and the distance on the space.
FIG. 15 is a diagram in which the energy of each amino acid residue of ribonuclease A is plotted against the amino acid residue number.
FIG. 16 is a diagram in which ribonuclease A amino acids having an energy of 0 or more are summarized in a table as binding site candidates.
FIG. 17 is a diagram showing a part of steric structure information data of acetylcholine esterase inhibitor stored in PDB.
FIG. 18 is a graph showing the energy of acetylcholinesterase inhibitor obtained according to the present invention.
FIG. 19 is a view showing the results of taking out ten acetylcholine esterase inhibitor having an energy of 0 or more as binding site candidates and experimentally examining whether or not the binding site is an actual binding site.
FIG. 20 shows the amino acid residue number of the binding site of huntingtin-associated protein interacting protein on the horizontal axis, the amino acid residue number of the binding site of nitric oxide synthase 2A on the vertical axis, and forms the complex at each binding site. It is the figure which displayed the sum total of the energy at the time of production | generation with a contour line.
FIG. 21 is a histogram of the interaction energy of each candidate protein and the number of genes.
[Explanation of symbols]
100 binding site prediction device
102 control unit
102a @ amino acid sequence data acquisition unit
102b space distance determination unit
102c Charge determining unit
102d energy calculation unit
102e @ candidate amino acid residue determining unit
102f complex structure generator
102g energy minimizing part
102h combination candidate data acquisition unit
102i binding site prediction unit
102j Binding partner candidate determination unit
102k high-speed calculation unit
102m structure data use calculation unit
102n @ Simulation data utilization calculation unit
102p total energy calculation unit
102q interaction energy calculator
104 Communication control interface unit
106 storage unit
106a amino acid sequence database
106b @ protein structure database
106c distance data file
106d Total energy data file
106e interaction energy data file
106f complex structure data file
106g processing result file
108 I / O control interface
112 input device
114 output device
200 external system
300 network

Claims (11)

蛋白質または生理活性ポリペプチドのアミノ酸配列データから当該蛋白質または生理活性ポリペプチドの立体構造における各アミノ酸残基間の空間上の距離データを求め、当該距離データと各アミノ酸の電荷に従って静電的に不安定なアミノ酸残基を特定することにより結合部位を予測することを特徴とする結合部位予測方法。The spatial distance data between each amino acid residue in the three-dimensional structure of the protein or the biologically active polypeptide is obtained from the amino acid sequence data of the protein or the biologically active polypeptide. A binding site prediction method, wherein a binding site is predicted by specifying a stable amino acid residue. 目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得するアミノ酸配列データ取得ステップと、
上記アミノ酸配列データ取得ステップにより取得されたアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を決定する空間距離決定ステップと、
上記アミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定ステップと、
上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距離と、上記電荷決定ステップにより決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、
上記エネルギー計算ステップにより計算された上記エネルギーに従って、結合部位となる候補アミノ酸残基を決定する候補アミノ酸残基決定ステップと、
を含むことを特徴とする結合部位予測方法。
An amino acid sequence data obtaining step of obtaining amino acid sequence data of a target protein or a biologically active polypeptide,
A spatial distance determining step of determining a spatial distance between each amino acid residue included in the amino acid sequence data obtained by the amino acid sequence data obtaining step,
A charge determination step of determining the charge of each amino acid residue contained in the amino acid sequence data,
Energy calculation for calculating the energy of each amino acid residue according to the spatial distance between each amino acid residue determined in the spatial distance determination step and the charge of each amino acid residue determined in the charge determination step Steps and
According to the energy calculated by the energy calculation step, according to the candidate amino acid residue determining step of determining a candidate amino acid residue serving as a binding site,
A binding site prediction method comprising:
目的の複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得するアミノ酸配列データ取得ステップと、
上記目的の複数の蛋白質または生理活性ポリペプチドの結合した複合体の立体構造情報を生成する複合体構造生成ステップと、
上記アミノ酸配列データ取得ステップにより取得された複数のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、上記複合体構造生成ステップにより生成した上記複合体の立体構造情報に従って決定する空間距離決定ステップと、
上記複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定ステップと、
上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距離と、上記電荷決定ステップにより決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、
上記複合体構造生成ステップにより上記複合体について結合部位を変えて上記複合体の立体構造情報を生成し、エネルギー計算ステップにより各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求めるエネルギー最小化ステップと、
上記エネルギー最小化ステップによりエネルギーの総和が最小となる結合部位を、結合部位の候補アミノ酸残基として決定する候補アミノ酸残基決定ステップと、
を含むことを特徴とする結合部位予測方法。
Amino acid sequence data obtaining step of obtaining amino acid sequence data of a plurality of proteins or biologically active polypeptides of interest,
A complex structure generating step of generating three-dimensional structure information of a complex in which a plurality of proteins or physiologically active polypeptides of interest are bound,
The spatial distance between each amino acid residue included in the plurality of amino acid sequence data obtained in the amino acid sequence data obtaining step is determined according to the three-dimensional structure information of the complex generated in the complex structure generating step. A spatial distance determining step;
A charge determination step of determining the charge of each amino acid residue contained in the plurality of amino acid sequence data,
Energy calculation for calculating the energy of each amino acid residue according to the spatial distance between each amino acid residue determined in the spatial distance determination step and the charge of each amino acid residue determined in the charge determination step Steps and
By changing the binding site for the complex in the complex structure generating step, the three-dimensional structure information of the complex is generated, the energy of each amino acid residue is calculated in the energy calculation step, and the bond in which the sum of the energy is minimized is calculated. An energy minimization step for finding the site;
A candidate amino acid residue determining step of determining a binding site in which the sum of energies is minimized by the energy minimizing step as a candidate amino acid residue of the binding site,
A binding site prediction method comprising:
目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データと、結合候補となる1つまたは複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データとを取得するアミノ酸配列データ取得ステップと、
上記目的の蛋白質または生理活性ポリペプチドと、上記結合候補となる蛋白質または生理活性ポリペプチドとが結合した複合体の立体構造情報を生成する複合体構造生成ステップと、
上記アミノ酸配列データ取得ステップにより取得された目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、上記複合体構造生成ステップにより生成した上記複合体の立体構造情報に従って決定する空間距離決定ステップと、
上記目的のアミノ酸配列データと上記結合候補のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定ステップと、
上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距離と、上記電荷決定ステップにより決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、
上記複合体構造生成ステップにより上記複合体について結合部位を変えて上記複合体の立体構造情報を生成し、エネルギー計算ステップにより各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求めるエネルギー最小化ステップと、
全ての結合候補について上記エネルギー最小化ステップを実行した結果、上記エネルギーの総和が最小となる結合部位をもつ結合候補を決定する結合候補決定ステップと、
を含むことを特徴とする結合部位予測方法。
An amino acid sequence data obtaining step of obtaining an amino acid sequence data of a target protein or a biologically active polypeptide, and one or more amino acid sequence data of a protein or a biologically active polypeptide as a binding candidate;
A complex structure generating step of generating three-dimensional structure information of a complex in which the target protein or bioactive polypeptide and the protein or bioactive polypeptide as the binding candidate are bound,
The complex generated by the complex structure generating step is a spatial distance between the target amino acid sequence data obtained in the amino acid sequence data obtaining step and each amino acid residue included in the amino acid sequence data of the binding candidate. A spatial distance determining step of determining according to the three-dimensional structure information of
A charge determination step of determining the charge of each amino acid residue contained in the amino acid sequence data of the target amino acid sequence data and the binding candidate,
Energy calculation for calculating the energy of each amino acid residue according to the spatial distance between each amino acid residue determined in the spatial distance determination step and the charge of each amino acid residue determined in the charge determination step Steps and
By changing the binding site for the complex in the complex structure generating step, the three-dimensional structure information of the complex is generated, the energy of each amino acid residue is calculated in the energy calculation step, and the bond in which the sum of the energy is minimized is calculated. An energy minimization step for finding the site;
As a result of executing the energy minimizing step for all binding candidates, a binding candidate determining step of determining a binding candidate having a binding site in which the sum of the energies is minimized,
A binding site prediction method comprising:
目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得するアミノ酸配列データ取得手段と、
上記アミノ酸配列データ取得手段により取得されたアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を決定する空間距離決定手段と、
上記アミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定手段と、
上記空間距離決定手段により決定された各アミノ酸残基間の空間上の距離と、上記電荷決定手段により決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算手段と、
上記エネルギー計算手段により計算された上記エネルギーに従って、結合部位となる候補アミノ酸残基を決定する候補アミノ酸残基決定手段と、
を備えたことを特徴とする結合部位予測装置。
Amino acid sequence data obtaining means for obtaining the amino acid sequence data of the protein or biologically active polypeptide of interest,
A spatial distance determining means for determining a spatial distance between each amino acid residue contained in the amino acid sequence data obtained by the amino acid sequence data obtaining means,
Charge determination means for determining the charge of each amino acid residue contained in the amino acid sequence data,
Energy calculation for calculating the energy of each amino acid residue according to the spatial distance between each amino acid residue determined by the spatial distance determining means and the charge of each amino acid residue determined by the charge determining means Means,
According to the energy calculated by the energy calculation means, candidate amino acid residue determining means for determining a candidate amino acid residue serving as a binding site,
A binding site prediction device comprising:
目的の複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得するアミノ酸配列データ取得手段と、
上記目的の複数の蛋白質または生理活性ポリペプチドの結合した複合体の立体構造情報を生成する複合体構造生成手段と、
上記アミノ酸配列データ取得手段により取得された複数のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、上記複合体構造生成手段により生成した上記複合体の立体構造情報に従って決定する空間距離決定手段と、
上記複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定手段と、
上記空間距離決定手段により決定された各アミノ酸残基間の空間上の距離と、上記電荷決定手段により決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算手段と、
上記複合体構造生成手段により上記複合体について結合部位を変えて上記複合体の立体構造情報を生成し、エネルギー計算手段により各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求めるエネルギー最小化手段と、
上記エネルギー最小化手段によりエネルギーの総和が最小となる結合部位を、結合部位の候補アミノ酸残基として決定する候補アミノ酸残基決定手段と、
を備えたことを特徴とする結合部位予測装置。
Amino acid sequence data obtaining means for obtaining amino acid sequence data of a plurality of proteins or biologically active polypeptides of interest,
A complex structure generating means for generating three-dimensional structure information of a complex in which a plurality of proteins or physiologically active polypeptides of interest are bound,
The spatial distance between each amino acid residue included in the plurality of amino acid sequence data obtained by the amino acid sequence data obtaining means is determined according to the three-dimensional structure information of the complex generated by the complex structure generating means. Spatial distance determining means;
Charge determination means for determining the charge of each amino acid residue contained in the plurality of amino acid sequence data,
Energy calculation for calculating the energy of each amino acid residue according to the spatial distance between each amino acid residue determined by the spatial distance determining means and the charge of each amino acid residue determined by the charge determining means Means,
By changing the binding site of the complex by the complex structure generating means, the three-dimensional structure information of the complex is generated, and the energy of each amino acid residue is calculated by the energy calculating means, and the bond having the minimum total energy is calculated. An energy minimizing means for finding a part,
A candidate amino acid residue determining means for determining a binding site at which the total energy is minimized by the energy minimizing means as a candidate amino acid residue of the binding site,
A binding site prediction device comprising:
目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データと、結合候補となる1つまたは複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データとを取得するアミノ酸配列データ取得手段と、
上記目的の蛋白質または生理活性ポリペプチドと、上記結合候補となる蛋白質または生理活性ポリペプチドとが結合した複合体の立体構造情報を生成する複合体構造生成手段と、
上記アミノ酸配列データ取得手段により取得された目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、上記複合体構造生成手段により生成した上記複合体の立体構造情報に従って決定する空間距離決定手段と、
上記目的のアミノ酸配列データと上記結合候補のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定手段と、
上記空間距離決定手段により決定された各アミノ酸残基間の空間上の距離と、上記電荷決定手段により決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算手段と、
上記複合体構造生成手段により上記複合体について結合部位を変えて上記複合体の立体構造情報を生成し、エネルギー計算手段により各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求めるエネルギー最小化手段と、
全ての結合候補について上記エネルギー最小化手段を実行した結果、上記エネルギーの総和が最小となる結合部位をもつ結合候補を決定する結合候補決定手段と、
を備えたことを特徴とする結合部位予測装置。
An amino acid sequence data obtaining means for obtaining the amino acid sequence data of the target protein or the biologically active polypeptide and the amino acid sequence data of one or more proteins or the biologically active polypeptides as binding candidates;
A complex structure generating means for generating three-dimensional structure information of a complex in which the target protein or the biologically active polypeptide is bound to the protein or the biologically active polypeptide as the binding candidate,
The complex produced by the complex structure producing means is a spatial distance between the target amino acid sequence data acquired by the amino acid sequence data acquiring means and each amino acid residue contained in the amino acid sequence data of the binding candidate. Spatial distance determining means for determining according to the three-dimensional structure information of
Charge determination means for determining the charge of each amino acid residue contained in the amino acid sequence data of the target amino acid sequence data and the binding candidate,
Energy calculation for calculating the energy of each amino acid residue according to the spatial distance between each amino acid residue determined by the spatial distance determining means and the charge of each amino acid residue determined by the charge determining means Means,
By changing the binding site of the complex by the complex structure generating means, the three-dimensional structure information of the complex is generated, and the energy of each amino acid residue is calculated by the energy calculating means, and the bond having the minimum total energy is calculated. An energy minimizing means for finding a part,
As a result of executing the energy minimizing means for all the binding candidates, a binding candidate determining means for determining a binding candidate having a binding site that minimizes the sum of the energies,
A binding site prediction device comprising:
目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得するアミノ酸配列データ取得ステップと、
上記アミノ酸配列データ取得ステップにより取得されたアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を決定する空間距離決定ステップと、
上記アミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定ステップと、
上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距離と、上記電荷決定ステップにより決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、
上記エネルギー計算ステップにより計算された上記エネルギーに従って、結合部位となる候補アミノ酸残基を決定する候補アミノ酸残基決定ステップと、
を含む結合部位予測方法をコンピュータに実行させることを特徴とするプログラム。
An amino acid sequence data obtaining step of obtaining amino acid sequence data of a target protein or a biologically active polypeptide,
A spatial distance determining step of determining a spatial distance between each amino acid residue included in the amino acid sequence data obtained by the amino acid sequence data obtaining step,
A charge determination step of determining the charge of each amino acid residue contained in the amino acid sequence data,
Energy calculation for calculating the energy of each amino acid residue according to the spatial distance between each amino acid residue determined in the spatial distance determination step and the charge of each amino acid residue determined in the charge determination step Steps and
According to the energy calculated by the energy calculation step, according to the candidate amino acid residue determining step of determining a candidate amino acid residue serving as a binding site,
A program causing a computer to execute a binding site prediction method including:
目的の複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取得するアミノ酸配列データ取得ステップと、
上記目的の複数の蛋白質または生理活性ポリペプチドの結合した複合体の立体構造情報を生成する複合体構造生成ステップと、
上記アミノ酸配列データ取得ステップにより取得された複数のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、上記複合体構造生成ステップにより生成した上記複合体の立体構造情報に従って決定する空間距離決定ステップと、
上記複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定ステップと、
上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距離と、上記電荷決定ステップにより決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、
上記複合体構造生成ステップにより上記複合体について結合部位を変えて上記複合体の立体構造情報を生成し、エネルギー計算ステップにより各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求めるエネルギー最小化ステップと、
上記エネルギー最小化ステップによりエネルギーの総和が最小となる結合部位を、結合部位の候補アミノ酸残基として決定する候補アミノ酸残基決定ステップと、
を含む結合部位予測方法をコンピュータに実行させることを特徴とするプログラム。
Amino acid sequence data obtaining step of obtaining amino acid sequence data of a plurality of proteins or biologically active polypeptides of interest,
A complex structure generating step of generating three-dimensional structure information of a complex in which a plurality of proteins or physiologically active polypeptides of interest are bound,
The spatial distance between each amino acid residue included in the plurality of amino acid sequence data obtained in the amino acid sequence data obtaining step is determined according to the three-dimensional structure information of the complex generated in the complex structure generating step. A spatial distance determining step;
A charge determination step of determining the charge of each amino acid residue contained in the plurality of amino acid sequence data,
Energy calculation for calculating the energy of each amino acid residue according to the spatial distance between each amino acid residue determined in the spatial distance determination step and the charge of each amino acid residue determined in the charge determination step Steps and
By changing the binding site for the complex in the complex structure generating step, the three-dimensional structure information of the complex is generated, the energy of each amino acid residue is calculated in the energy calculation step, and the bond in which the sum of the energy is minimized is calculated. An energy minimization step for finding the site;
A candidate amino acid residue determining step of determining a binding site in which the sum of energies is minimized by the energy minimizing step as a candidate amino acid residue of the binding site,
A program causing a computer to execute a binding site prediction method including:
目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データと、結合候補となる1つまたは複数の蛋白質または生理活性ポリペプチドのアミノ酸配列データとを取得するアミノ酸配列データ取得ステップと、
上記目的の蛋白質または生理活性ポリペプチドと、上記結合候補となる蛋白質または生理活性ポリペプチドとが結合した複合体の立体構造情報を生成する複合体構造生成ステップと、
上記アミノ酸配列データ取得ステップにより取得された目的のアミノ酸配列データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、上記複合体構造生成ステップにより生成した上記複合体の立体構造情報に従って決定する空間距離決定ステップと、
上記目的のアミノ酸配列データと上記結合候補のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定ステップと、
上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距離と、上記電荷決定ステップにより決定された各アミノ酸残基が持つ電荷とに従って、各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、
上記複合体構造生成ステップにより上記複合体について結合部位を変えて上記複合体の立体構造情報を生成し、エネルギー計算ステップにより各アミノ酸残基のエネルギーを計算し、当該エネルギーの総和が最小となる結合部位を求めるエネルギー最小化ステップと、
全ての結合候補について上記エネルギー最小化ステップを実行した結果、上記エネルギーの総和が最小となる結合部位をもつ結合候補を決定する結合候補決定ステップと、
を含む結合部位予測方法をコンピュータに実行させることを特徴とするプログラム。
An amino acid sequence data obtaining step of obtaining an amino acid sequence data of a target protein or a biologically active polypeptide, and one or more amino acid sequence data of a protein or a biologically active polypeptide as a binding candidate;
A complex structure generating step of generating three-dimensional structure information of a complex in which the target protein or bioactive polypeptide and the protein or bioactive polypeptide as the binding candidate are bound,
The complex generated by the complex structure generating step is a spatial distance between the target amino acid sequence data obtained in the amino acid sequence data obtaining step and each amino acid residue included in the amino acid sequence data of the binding candidate. A spatial distance determining step of determining according to the three-dimensional structure information of
A charge determination step of determining the charge of each amino acid residue contained in the amino acid sequence data of the target amino acid sequence data and the binding candidate,
Energy calculation for calculating the energy of each amino acid residue according to the spatial distance between each amino acid residue determined in the spatial distance determination step and the charge of each amino acid residue determined in the charge determination step Steps and
By changing the binding site for the complex in the complex structure generating step, the three-dimensional structure information of the complex is generated, the energy of each amino acid residue is calculated in the energy calculation step, and the bond in which the sum of the energy is minimized is calculated. An energy minimization step for finding the site;
As a result of executing the energy minimizing step for all binding candidates, a binding candidate determining step of determining a binding candidate having a binding site in which the sum of the energies is minimized,
A program causing a computer to execute a binding site prediction method including:
上記請求項8から10のいずれか一つに記載されたプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。A computer-readable recording medium on which the program according to any one of claims 8 to 10 is recorded.
JP2002275300A 2002-05-31 2002-09-20 Binding site prediction method, binding site prediction apparatus, program, and recording medium Expired - Fee Related JP3990963B2 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2002275300A JP3990963B2 (en) 2002-09-20 2002-09-20 Binding site prediction method, binding site prediction apparatus, program, and recording medium
PCT/JP2003/006952 WO2003107218A1 (en) 2002-05-31 2003-06-02 Interaction predicting device
US10/516,133 US20050130224A1 (en) 2002-05-31 2003-06-02 Interaction predicting device
EP03733232A EP1510943A4 (en) 2002-05-31 2003-06-02 Interaction predicting device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002275300A JP3990963B2 (en) 2002-09-20 2002-09-20 Binding site prediction method, binding site prediction apparatus, program, and recording medium

Publications (2)

Publication Number Publication Date
JP2004109053A true JP2004109053A (en) 2004-04-08
JP3990963B2 JP3990963B2 (en) 2007-10-17

Family

ID=32271540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002275300A Expired - Fee Related JP3990963B2 (en) 2002-05-31 2002-09-20 Binding site prediction method, binding site prediction apparatus, program, and recording medium

Country Status (1)

Country Link
JP (1) JP3990963B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008222574A (en) * 2007-03-08 2008-09-25 Chiba Univ Molecular design device, molecular design method and program
JP2011514509A (en) * 2008-02-05 2011-05-06 ザイムワークス,インコーポレイテッド Method for determining correlated residues in proteins or other biopolymers using molecular dynamics

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008222574A (en) * 2007-03-08 2008-09-25 Chiba Univ Molecular design device, molecular design method and program
JP2011514509A (en) * 2008-02-05 2011-05-06 ザイムワークス,インコーポレイテッド Method for determining correlated residues in proteins or other biopolymers using molecular dynamics

Also Published As

Publication number Publication date
JP3990963B2 (en) 2007-10-17

Similar Documents

Publication Publication Date Title
Wang et al. Analysis of deep learning methods for blind protein contact prediction in CASP12
Durham et al. Solvent accessible surface area approximations for rapid and accurate protein structure prediction
Wang et al. Flexible ligand docking: a multistep strategy approach
EP1510943A1 (en) Interaction predicting device
Heikamp et al. The future of virtual compound screening
Spassov et al. LOOPER: a molecular mechanics-based algorithm for protein loop prediction
Skolnick et al. FINDSITE: a combined evolution/structure-based approach to protein function prediction
Zuckerman Simulation of an ensemble of conformational transitions in a united-residue model of calmodulin
Zhang et al. Biopolymer structure simulation and optimization via fragment regrowth Monte Carlo
Halperin et al. SiteLight: binding‐site prediction using phage display libraries
Martin et al. Using arbitrary trial distributions to improve intramolecular sampling in configurational-bias Monte Carlo
Zhang et al. SDOCK: A global protein‐protein docking program using stepwise force‐field potentials
Marsden et al. Comprehensive genome analysis of 203 genomes provides structural genomics with new insights into protein family space
Saven Designing protein energy landscapes
Fan et al. GPU-accelerated flexible molecular docking
Quignot et al. InterEvDock3: a combined template-based and free docking server with increased performance through explicit modeling of complex homologs and integration of covariation-based contact maps
Xu et al. OPUS-Rota3: improving protein side-chain modeling by deep neural networks and ensemble methods
Tao et al. Efficient 3D conformer generation of cyclic peptides formed by a disulfide bond
Brown et al. Compound Protein Interaction Prediction Within Chemogenomics: Theoretical Concepts, Practical Usage, and Future Directions
Liu et al. Simulating the electrostatic guidance of the vectorial translocations in hexameric helicases and translocases
JP2003330934A (en) Variant sequence analyzer, variant sequence analysis method, program, and recording medium
Chen et al. PepMapper: a collaborative web tool for mapping epitopes from affinity-selected peptides
JP3990963B2 (en) Binding site prediction method, binding site prediction apparatus, program, and recording medium
Takaba et al. Edge expansion parallel cascade selection molecular dynamics simulation for investigating large-amplitude collective motions of proteins
Minervini et al. Massive non-natural proteins structure prediction using grid technologies

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070626

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070723

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110727

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120727

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120727

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130727

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees