JP2005309877A - 機能性生体分子の配列解析方法 - Google Patents

機能性生体分子の配列解析方法 Download PDF

Info

Publication number
JP2005309877A
JP2005309877A JP2004127447A JP2004127447A JP2005309877A JP 2005309877 A JP2005309877 A JP 2005309877A JP 2004127447 A JP2004127447 A JP 2004127447A JP 2004127447 A JP2004127447 A JP 2004127447A JP 2005309877 A JP2005309877 A JP 2005309877A
Authority
JP
Japan
Prior art keywords
hla
functional biomolecule
functional
sequence
biomolecule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004127447A
Other languages
English (en)
Inventor
Kiyoshi Asai
潔 浅井
Daishin Kin
大真 金
Norihito Teramoto
礼仁 寺本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sumitomo Pharmaceuticals Co Ltd
National Institute of Advanced Industrial Science and Technology AIST
Sumitomo Chemical Co Ltd
Original Assignee
Sumitomo Pharmaceuticals Co Ltd
National Institute of Advanced Industrial Science and Technology AIST
Sumitomo Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sumitomo Pharmaceuticals Co Ltd, National Institute of Advanced Industrial Science and Technology AIST, Sumitomo Chemical Co Ltd filed Critical Sumitomo Pharmaceuticals Co Ltd
Priority to JP2004127447A priority Critical patent/JP2005309877A/ja
Publication of JP2005309877A publication Critical patent/JP2005309877A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Peptides Or Proteins (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 機能性生体分子の配列解析において、概機能を高い確度で予測するおよび/または、概機能を有する配列を選別する。
【解決手段】 以下の特徴を有する機能性生体分子の配列解析方法;
(1)既知の機能性生体分子のアミノ配列とその活性データおよび、機能性生体分子候補のアミノ配列データから、周辺化カウントカーネルによる特徴抽出を行う際、
(2)確率モデルを用いて、
(3)機能性生体分子候補のアミノ配列データを教師付学習に適用し、該機能効果の有無を判別分析または回帰分析する。

【選択図】 なし

Description

本発明は、機能性生体分子の機能予測または/および配列の設計方法に関する。詳しくは、(1)3〜100merのアミノ酸で形成される機能性生体分子の機能予測例えば抗原ペプチド等に代表されるHLA結合予測、CTL誘導活性率等の機能性生体分子の配列解析において、(2)機械学習における周辺化カウントカーネル法を用いた設計候補配列の機能の有無を高い確度で予測し、(3)機能制御等の効果を有する機能性生体分子の機能予測または/および配列の設計を行う方法に関する。
近年、バイオインフォマティクスの分野では、機械学習の手法を利用した遺伝子、蛋白質等の機能解析が積極的に行われている。中でも、サポート・ベクター・マシン(SVM)に代表される種々のカーネル法は、例えば、テキスト分類、画像認識および、生物配列情報の解析のような、現実的な多変量解析の諸問題に有用であることから、当該研究分野においても、幅広い問題についてその応用が広がっている。
このような手法の進歩を背景として、最近では機能性生体分子の機能予測研究が精力的になされ、ヒト白血球抗原(HLA)結合予測・細胞傷害性T細胞(CTL)誘導活性予測精度は概ね70-80%以上と、非常に高い確度が得られるようになった(非特許文献1,2,3)。
さらに、癌、ウイルスへの免疫療法に用いる免疫系の調節作用を有する免疫系調節ペプチド医薬品の開発においては、CTL活性を誘導するペプチドを設計することが開発の狙いになっている。
Zhao, Y et. al., "Application of support vector machines for T-cell epitopes prediction", pp1978-1984, number 15, volume 19, Bioinformatics Donnnes,P et.al., "Prediction of MHC class I binding peptides, using SVMHC" , 2002 Sep 11;3(1):25, BMC Bioinformatics Doytchinova,I et.al.," Towards the in silico identification of class II restricted T-cell epitopes: a partial least squares iterative self-consistent algorithm for affinity prediction",pp 2263 2270 ,number 17 ,volume 19, Bioinformatics
従来のHLA結合予測・CTL誘導活性予測の大きな問題点は、配列のどのような性質が、それぞれの属性に寄与するのかが不明瞭な点にある。一般に、予測対象となるペプチド配列の長さは8〜10残基ときわめて短い。さらに、HLA結合能および、CTL誘導活性を有すると確認されている既知の配列間で、配列類似度は概して低い。
生物配列からの特徴抽出法として一般的に用いられてきた隠れマルコフモデル(HMM)や位置特異的重み行列(PWM)を用いた場合、配列の一次元的な特徴のみを捉えることになるが、前述の配列の短さや、配列の多様性が足かせとなって、有意な特徴抽出は困難となる。
そこで、近年多くの応用事例が報告されているSVMが注目されることとなる。SVMの特徴の一つに、高次元の特徴量においても、雑音成分に対する感受性が低いことがあげられる。この特徴がうまく機能すれば、できるだけ高次元の特徴量を対象配列から抽出し、それについてSVMの学習・試験を行うことで、HLA結合予測・CTL誘導活性予測を行えば、高い精度の予測が可能であるとするところまでが、従来手法と本発明が共通する点である。
しかし、それでも高次元の特徴量をどのように抽出するかという問題が解決したわけではない。
即ち(1)短いペプチド配列からでも高次元の特徴量を効果的に抽出する一般的方法。(2)ペプチド配列の長さに依存しない方法。(3)HLA結合予測・CTL誘導活性予測に特化した、より効果的な特徴抽出を可能とする枠組み等に関して解決する必要があった。
本発明では、次に示す独特の手法により、上述の課題を解決した。
前述の課題を解決するためには、従来とはまったく異なる視点にたって、配列からの特徴抽出を考える必要がある。ペプチド配列など、生物配列の特徴とは、進化的に保存された性質を指す。具体的には、ペプチド配列であれば、それを構成する一連のアミノ酸の中で、たとえ別のアミノ酸に置換されたとしても、そのペプチド配列の生体内での性質が変化しないものと、置換によって本質的な違いを生じるものとに分けることができる。後者は当該ペプチド配列において、何がしか本質的な役割を担うと考えることができる。このような配列の特徴を見出すには、同じ性質を有するが、出所の異なるペプチド配列を多数用意し、それぞれの配列が共通して有するアミノ酸を探索する多重アラインメント法が一般に用いられる。
しかし、ペプチドの性質によっては、多重アラインメント法がうまく働かない場合がある。HLA結合機能、CTL誘導活性機能を有するペプチド配列がこの場合にあてはまる。これらの配列は、その機能が確認されている既知配列の本数が少ないうえ、一般的な多重アラインメント法によって、共通するアミノ酸を特定することができない。
そこで、本発明者ら一般的な多重アラインメントを経由しないアルゴリズムを検討し、任意のペプチド長におけるHLA結合、CTL誘導活性またはリガンド分子相互作用等の予測を試み、鋭意検討の結果、既知の機能性生体分子のペプチド配列、活性データおよび、機能性生体分子候補のペプチド配列データから、周辺化カウントカーネルによる特徴抽出を行い、活性予測モデルを構築することを見いだした。
周辺化カウントカーネルでは確率モデルは特に限定しないが、好ましくはマルコフモデル、ベイジアンネットワーク、隠れマルコフモデル(HMM)または、確率文脈自由文法(SCFG)等を用いることが挙げられる。好ましくは隠れマルコフモデル(HMM)または、確率文脈自由文法(SCFG)を用いることが挙げられる。
例えば、抗原ペプチドのような短い配列の場合、高次構造はとらないことが知られているが、離れた位置にあるアミノ酸間の相関関係HLA結合能やCTL誘導活性に関与していると考えられる。このような場合、SCFGを用いるのが適切であると考えられた。
さらに教師付き学習の1つであるサポート・ベクター・マシン(SVM)により、既知の機能性生体分子配列データを訓練パターンとして活性判別モデルを構築させ、標的分子に対して有効な機能活性を有する配列を判別分析または回帰分析することで本発明を完成させた。
即ち本発明の要旨は、以下のとおりである、
[1] 以下の特徴を有する機能性生体分子の配列解析方法;
(1)既知の機能性生体分子のアミノ配列とその活性データおよび、機能性生体分子候補のアミノ配列データから、周辺化カウントカーネルによる特徴抽出を行う際、
(2)確率モデルを用いて、
(3)機能性生体分子候補のアミノ配列データを教師付学習に適用し、該機能効果の有無を判別分析または回帰分析する。
[2] 機能性生体分子が3〜100merである上記1記載の方法。
[3] 機能性生体分子がHLA結合機能を有する抗原ペプチドである上記1〜2いずれかに記載の方法。
[4] HLAが、HLA−A2または、HLA−A24である上記3記載の方法。
[5] 機能性生体分子がCTL誘導活性機能を有する抗原ペプチドである上記1〜4いずれかに記載の方法。
[6] 確率モデルが、隠れマルコフモデルあるいは確率文脈自由文法である上記1〜5いずれかに記載の方法。
[7] 確率文脈自由文法における生成文法がPLR文法およびBPL文法である上記6記載の方法。
[8] 教師付学習がサポート・ベクター・マシン(Support Vector Machine)である上記1〜7いずれかに記載の方法。
[9] 上記1〜8に記載された方法をコンピュータに実行させることを特徴とするコンピュータ読み取り可能なプログラム。
[10] 以下の特徴を有する機能性生体分子の配列解析装置;
(1)既知の機能性生体分子のアミノ配列とその活性データおよび、機能性生体分子候補のアミノ配列データとを入力する入力手段と、
(2)周辺化カウントカーネルによる特徴抽出を行う演算手段と、
(3)上記(2)の演算手段を行う際の確率モデルを用いる手段と、
(4)機能性生体分子候補のアミノ配列データを教師付学習に適用する手段と、
(5)該機能効果の有無を判別分析または回帰分析する手段と、
(6)上記判別結果を出力する出力手段とを有する。
[11] 機能性生体分子が3〜100merのアミノ酸配列で形成される上記10記載の装置。
[12] 機能性生体分子がHLA結合機能を有する抗原ペプチドである上記10〜11いずれかに記載の装置。
[13] HLAが、HLA−A2または、HLA−A24である上記12記載の装置。
[14] 機能性生体分子がCTL誘導活性機能を有する抗原ペプチドである上記10〜13いずれかに記載の装置。
[15] 確率モデルが、隠れマルコフモデルあるいは確率文脈自由文法である上記10〜14いずれかに記載の装置
[16] 確率文脈自由文法における生成文法がPLR文法およびBPL文法である上記15記載の装置。
[17] 教師付学習がポート・ベクター・マシン(Support Vector Machine)である上記10〜16いずれかに記載の装置。
[18] 以下の(1)、(2)または(3)の工程のいずれか1つ以上の工程により選択される機能性生体分子の製造方法;
(1)上記1〜8に記載された配列解析方法、
(2)上記9記載のプログラム
(3)上記10〜17に記載された装置。
[19] 機能性生体分子が3〜100merのアミノ酸配列で形成される上記18の製造方法。
[20] 機能性生体分子がHLA結合機能を有する抗原ペプチドである上記18〜19いずれかに記載の製造方法。
[21] HLAが、HLA−A2または、HLA−A24である上記20記載の製造方法。
[22] 機能性生体分子がCTL誘導活性機能を有する抗原ペプチドである上記18〜21いずれかに記載の製造方法。
本発明の配列解析方法は、異なる残基数であっても扱える方法論であるため、活性予測が可能になる程度のデータ数が無償の公共データのみからでも得られる。さらには、機能性生体分子の機能活性等を予測するプログラムを医薬品の開発に活用することにより、免疫系の調節作用を有する免疫系調節ペプチド医薬品の迅速な開発が可能となった。
以下に、本発明における用語の定義について説明する。
本発明において、
「機能性生体分子」とは、生体内において生体を構成している成分に影響を及ぼす機能を有する分子を指す。例えば、サイトカイン、受容体、酵素、転写因子、リガンド分子等、生体と相互作用を示す等の機能を有する蛋白が挙げられる。
上述の機能性生体分子としては、例えば、癌抗原蛋白質等が挙げられる。例えば、癌抗原蛋白質としては、Immunity, vol.10: 281, 1999 のTable1、あるいは Cancer Immunol. Immunother.,vol.50,3-15,2001のTable1〜Table6に記載のものが代表例として挙げられる。具体的には、例えば、メラノーマ抗原蛋白質として、MAGE(Science ,254:1643,1991)、gp100(J.Exp.Med.,179:1005,1994)、MART−1(Proc.Natl.Acad.Sci.USA,91:3515 ,1994)、チロシナーゼ(J.Exp.Med.,178:489 ,1993);メラノーマ以外の癌抗原蛋白質として、HER2/neu(J.Exp.Med.,181:2109,1995)、CEA(J.Natl.Cancer.Inst. ,87:982,1995)、PSA(J.Natl.Cancer.Inst. ,89:293,1997)等の腫瘍マーカー、または扁平上皮癌由来のSART−1(J.Exp.Med.,vol.187,p277-288, 1998 、国際公開第97/46676号パンフレット)、サイクロフィリンB(Proc. Natl. Acad. Sci., U.S.A. 88: 1903, 1991)、SART−3(Cancer Res.,vol.59,4056(1999)、あるいはWT1(Immunogenetics,vol.51,99,2000, Blood 95:2198-203,2000, Blood 95:286-93,2000)等が挙げられる。
本発明の「配列解析」に用いられる機能性生体分子は、3〜100−merで形成されるアミノ酸配列を有し、その配列が生体内において生体を構成している成分に影響を及ぼす機能を有するアミノ酸配列であればよい。
また本発明の配列解析に用いる「既知の機能性生体分子のアミノ配列とその活性データおよび、機能性生体分子候補のアミノ配列データ」は、予測される機能を有するアミノ酸配列に応じた配列長であればよい。
例えば、CTL誘導活性機能を有するような短いアミノ酸を設計候補とする場合、蛋白をproteasomeによって、断片化される部分配列長を想定しているため、配列長は特に限定しないが、好ましくは6〜20−merの短いアミノ酸配列を有するものが挙げられ、より好ましくは、8〜11−merで形成される短いアミノ酸配列を有するものが挙げられる。
上述のアミノ酸配列を有するものとしては、例えば、細胞傷害性T細胞(CTL)誘導活性機能ペプチド、ヒト白血球抗原(HLA)結合性のペプチド、MHCクラスII結合性の抗原ペプチド(ヘルパーペプチド)、癌抗原ペプチド、ヘルパーペプチドと癌抗原ペプチドとを含有するエピトープペプチド、などが挙げられ、具体例として例えば、Journal of Immnology 1999, 162: 3915-3925には、HBV由来HLA−A2拘束性抗原ペプチド6種類等がイン・ビボでCTLを効果的に誘導したことが記載されている。
「周辺化カウントカーネル(Marginalized Count Kernel 以下、MCK)」とは、配列と確率モデルにおける内部パラメータとの対応における全ての場合について、文字比較の結果をそれぞれの確率で重み付けして足し合わせたものである。カーネル法とは2つの対象間の関係を表現するカーネル関数を用いる手法一般を指し、判別分析においてはサポートベクターマシン(SVM)、多変量解析ではカーネル主成分分析などが代表的な手法として知られている。本発明におけるMCKは、例えば「Koji Tsuda, Taishin Kin and Kiyoshi Asai, Marginalized Kernels for Biological Sequences, Bioinformatics. 2002 Jul;18 Suppl 1:S268-75、 津田宏治、カーネル設計の技術 2002年情報論的学習理論ワークショップ、 Taishin Kin、Koji Tsuda 、Kiyoshi Asai, Genome Informatics 13: 112122 (2002)」に定義されている。
MCKにおいては和をとる順番を入れ替えることによって、すべての隠れ変数に関する和をそれぞれの隠れ変数に関する和に置き換えることができる。例えば、HMMを確率モデルとすると事後確率はforward-backwardアルゴリズムを用いて計算することができる。
本発明で使用する確率モデルとして例えば、ベイジアンネットワーク、マルコフモデル、隠れマルコフモデル(HMM)または、確率文脈自由文法(SCFG)等を用いることが挙げられる。好ましくは隠れマルコフモデル(HMM)または、確率文脈自由文法(SCFG)を用いることが挙げられる。
「隠れマルコフモデル」とは、現在の状態と遷移状態に依存して、次の状態が決定するような確率モデルを指す。例えば、あるアミノ酸が現れたとき、次にどのアミノ酸が現れるかは、状態間の遷移確率によって決まる。このことに基づき、アラインメント中の各位置の状態を20種類のアミノ酸の出現確率として表現したものを、隠れマルコフモデルと呼ぶ。
隠れマルコフモデルは、例えば「生物配列の統計 核酸・蛋白から情報を読む 統計科学のフロンティア 9, 岸野 洋久, 浅井 潔(岩波書店) 」に定義されている。
「確率文脈自由文法(stochastic context-free grammar 以下、SCFG)」とは、個々の生成規則にその適用確率が付加された生成文法である。例えば各生成文法として、PLR文法及びBPL文法を用いて確率モデルを構築することが挙げられる。SCFGの概念は、T Taishin Kin、Koji Tsuda 、Kiyoshi Asai., Genome Informatics 13: 112122 (2002)に記載されている。
「教師付き学習」とは、入出力データが与えられているが、それらを近似する関数が分からない時に、データから関数のパラメータを推定することをいう。学習とは、学習機→学習器のパラメータを適当な学習則を用いることで、変化させることを示し、ここでいう学習器とは入出力関係を持ったもので 、ニューラル・ネットワーク(Neural Network) 、ラジアル・ベーシス・ファンクション・ネットワーク(Radial Basis Function Network)等、神経回路を模倣したもの或いはサポート・ベクター・マシン等、統計モデル全般を示す。
「判別分析」とは、いくつかの変数に基づいて,各データがどの群に所属するかを判定する分析方法で、例えば、線形判別分析、k-近傍法、決定木、カーネル判別分析等が挙げられる。
「回帰分析」とは、順序尺度を含む量的な変数について、複数の独立変数によって1つの従属変数を説明する際に用いる解析方法で、例えば、データの散らばりに対して直線を当てはめることで、二つの変数の関係を要約する手法等が挙げられる。独立変数が1変数の場合の単回帰分析、独立変数が2変数以上の場合の重回帰分析等が挙げられる。
「サポート・ベクター・マシン」(以下SVM)とは、あるカーネル関数によって特徴ベクトルを適切な特徴空間に写像した後に、2つのカテゴリー(クラス)を分離する超平面を2次計画問題の解により求める手法である。
求める超平面は、線形分離を実現するもののうち、超平面と訓練パターンの距離の最小値であるマージンを最大にするものであり、汎化能力の点で優れたものである。SVMの概念は例えば、津田 宏治“サポートベクターマシンとは何か”, 電子情報通信学会誌, 83, 6, pp. 460-466, 2000のFigure 1に示されている。
本発明で使用されるSVMソフトウエアは一般的に無償配布・市販されているものであればよく、TinySVM、LIBSVM、SVM light等が挙げられる。
本発明の第一の態様は、機能性生体分子の配列解析方法に関する。詳しくは、機能性生体分子の機能予測または/および配列の設計方法に関する。
既知の機能性生体分子ペプチド配列、活性データおよび、機能性生体分子候補のペプチド配列データから、周辺化カウントカーネルによる特徴抽出を行い、確率モデルとして、隠れマルコフモデルあるいは確率文脈自由文法を用いて、機能性生体分子候補のペプチド配列データを教師付学習に適用し、コンピュータを用いて該機能効果の有無を判別分析または回帰分析する方法である。
以下に、本発明の方法の手順を図1を参照して説明する。図1は、本発明の請求項1記載の発明の要旨を説明するための図である。
101で蛋白質の配列から既知の機能性生体分子例えば、HLA結合分子または/およびCTL誘導活性を有するアミノ酸配列および、機能予測対象のアミノ酸配列を入力し(ステップ101)、
102で機能既知の訓練データおよび機能予測対象アミノ酸配列データからの確率モデル例えば、HMMあるいはSCFGを用いた周辺化カウントカーネルによる特徴ベクトルの算出を行う(ステップ102)。
本発明における周辺化カウントカーネルは、例えば以下の様に定義される。
特徴ベクトル間のカーネル関数としては例えば、以下のガウシアン・カーネルを使用できる。
Figure 2005309877
2本のペプチド配列をx,yとして1次の周辺化カウントカーネルによって写像された特徴ベクトルを、ΦMCK1(x)ΦMCK1(y)と定義すると、最終的に計算されるガウシアン・カーネルは以下の式で表される。
Figure 2005309877
103で機能既知の訓練データおよび機能予測対象アミノ酸配列データによって構成される特徴空間上の教師付き学習を行う(ステップ103)。
104で、機能予測対象アミノ酸配列の判別分析を行う(ステップ104)本発明における判別分析または回帰分析のアルゴリズムは例えば、ν−SVM(Scholkopf, B., et al. , “New support vector algorithms.” Neural Computation 12, pp.. 1207-1245)、SVM(V.Vapnik , Statistical Learning Theory , Wiley, 1998)等を使用した。
105で判別分析または回帰分析結果の出力を行う(ステップ105)。
SVMモデル構築に用いる解析用モデル構築対象データは既知のアミノ酸配列であれば取得先は限られず、in houseにおける活性データまたは、既存のデータベース(例えば、文献情報からHLA結合ペプチド情報をデータベース化した「MHCBN」、「MHCPEP」等)から取得できる。
本発明の配列解析方法によって解析された、配列の解析データおよび設計されたアミノ酸配列は、紙、磁気、磁気光ディスク、または光ディスク等の記録媒体に記録されていてもよい。
本発明の第2の態様は、本発明の解析方法を実行させるコンピュータで読みとり可能なプログラムである。
図1の101〜105の解析方法を実行させるプログラムで、これらは、図1に示したアルゴリズムの手順にそって1つのモジュールであっても、それぞれのパート毎に書かれたモジュールを組み合わせて使用してもよい。これらは磁気または、磁気光ディスク、光ディスク等の記録媒体に記録されている。
本発明の第3の態様は、本発明の配列解析方法を実行させる装置である。
本発明解析方法を実行させる装置の構成を図2に示す。201〜204は、本発明の方法にてデータ入力、演算、分析、選別に使用するための装置である。205〜207は201〜204の装置の実行結果を出力するおよび/または記録するための装置である。
201の装置で、上記方法に用いる既知の機能性生体分子例えば、HLA結合分子または/およびCTL誘導活性を有するアミノ酸配列データおよび、蛋白質の配列から機能予測対象アミノ酸配列データの入力を行い、
202の装置で機能既知の訓練データおよび機能予測対象アミノ酸配列データからの隠れマルコフモデルあるいは確率文脈自由文法を用いた周辺化カウントカーネルによる特徴ベクトルを算出し、
203の装置で例えば、SVMを用いて、機能既知の訓練データおよび機能予測対象アミノ酸配列データによって構成される特徴空間上の教師付き学習を行う手段を実行し、
204で203の装置で得られた計数結果をもとに機能予測対象アミノ酸配列の判別分析または回帰分析を行い、候補配列の判別分析結果と判別関数を算出し、活性の有無を選別する手段を実行させる。
201〜204の装置の実行結果は205の装置の出力部で紙などの記録媒体に印刷することもでき、206の装置の画像処理部で表示することもでき、207の装置で、FD,MO,CD−RW,DVD−RW等の磁気または、磁気光ディスク、光ディスク等の記録媒体に出力することもできる。
201〜207の装置は、全てが含まれて一体化した装置でも、各々が分離した装置でも、一部の手段を実行させる装置を含んだ装置を複数組み合わせた装置であってもよい。
上記の装置は、電子計算機であればよく、サーバー、パーソナルコンピュータ(以下PC)等が挙げられ、計算機の能力は制限しない。
本発明解析方法を実行させるプログラムを動作させるオペレーションシステムも汎用ソフトウェア例えば、Linux系OS、マイクロソフトウインドウズ(登録商標)シリーズ等でよい。
本発明の第4の態様は以下の(1)、(2)または(3)の工程のいずれか1つ以上の工程により選択される機能性生体分子の製造方法に関する。
(1)本発明の配列解析方法、
(2)前記(1)記載の方法を実行させるコンピュータ読み取り可能なプログラム、
(3)本発明の配列解析方法を実行させる装置。
本発明の製造方法は、(1)〜(3)のいずれか1つ以上の工程であればよく、それらの工程は単独であっても、2つ以上を組み合わせたものでもよい。
前述の工程において製造される機能性生体分子は生体分子に影響を及ぼす機能を有する3〜100merで形成されるアミノ酸配列であればよく、例えば、リガンド分子相互作用機能、HLA結合機能またはCTL結合機能を有していること等が挙げられる。好ましくは、HLA結合機能またはCTL結合機能を有していることが挙げられる。
本発明方法で設計されたペプチドの合成については、通常のペプチド化学において用いられる方法に準じて行うことができる。該合成方法としては文献(ペプタイド・シンセンシス(Peptide Synthensis)、interscience, New York, 1996;ザ・プロテインズ(The Proteins),Vol2, Academic Press INc., New York,1976;ペプチド合成,丸善(株),1975;ペプチド合成の基礎と実験、丸善(株),1985;医薬品の開発 続第14巻・ペプチド合成,広川書店,1991)などに記載されている方法が挙げられる。
本発明の製造方法で製造された機能性生体分子のアミノ配列データおよび解析データは、磁気または、磁気光ディスク、光ディスク等の記録媒体に記録されていてもよい。
以下、本発の解析方法の実施例を挙げる。但し、本実施例によって本発明を限定されるものではない。
HMMによるHLA結合能およびCTL誘導活性予測
(1)
文献情報からHLA結合ペプチド情報をデータベース化した「MHCBN」からHLA−A24結合能、 HLA−A2結合能およびCTL誘導活性能が既知のペプチドを訓練データとして使用した。
具体的にはHLA−A24結合能既知配列374本、CTL誘導活性既知配列233本、HLA−A2結合能既知配列888本、CTL誘導活性既知配列475本を訓練データとした。判別分析アルゴリズムはν-SVM(Scholkopf, B., et al. , “New support vector algorithms.” Neural Computation 12, pp.. 1207-1245)を使用した。カーネル関数としては以下のガウシアン・カーネルを使用した。
Figure 2005309877
2本のペプチド配列をx,yとすると2次のマージナライズド・カーネルによって写像された特徴ベクトルはΦMCK2(x), ΦMCK2(y)と定義できるので、最終的に計算されるガウシアン・カーネルは以下のように表される
Figure 2005309877
gの値を調整することにより、交差検証法での検証実験を行い、活性の有無を検証した。
(2)交差検証法の原理
サンプルをk個に均等に分割し、それぞれを訓練データ・検証データとして、交互に入れ替えて、モデルを構築・評価する方法をk-fold cross validationと呼ぶ。例として、5-fold cross validationのイメージ図を図3示す。
(3)交差検証法による計算機実験結果
gの値ごとの結果を表1に示す。表中、Accuracyは対象活性に対する予測精度(正解率)、TP(True Positive:予測で活性有り、実験でも活性有り)、FP(False Positive:予測で活性有り、実験では活性無し)、FN(False Negative:予測で活性無し、実験では活性有り)、TN(True Negative:予測で活性無し、実験でも活性無し)を表す。交差検証は5-fold で行った。

(HLA-A24結合能 CTL誘導活性)
Figure 2005309877

(HLA-A24 結合活性)
Figure 2005309877

(HLA-A2結合能CTL誘導活性)
Figure 2005309877

(HLA-A2結合活性)
Figure 2005309877

上記のとおり交差検証法の結果から、HLA-A2, HLA-A24共に80-90%の非常に高い予測精度を達成できた。
SCFGによるHLA結合能CTL誘導活性予測
SCFGにおけるPLR文法及びBPL文法を用いて、確率モデルを構築し、周辺化カーネルによる特徴抽出を行って、SVMによる判別分析を行った。対象データはMHCBNデータベース由来のHLA-A24結合能既知ペプチド374本、CTL誘導活性既知ペプチド222本である。
交差検証は10-fold で行った。
表中のAccuracy、TP、FP、FN、TNは実施例1と同じ意味を表す。
CTL誘導活性
(1)PLR文法
Figure 2005309877
(2)BPL文法
Figure 2005309877

上記のとおり交差検証法の結果から、HLA−A24結合CTL誘導活性に関してPLR文法及びBPL文法共に70-80%の非常に高い予測精度を達成できた。
HLA−A2結合能CTL誘導活性ペプチドの交差検証結果
SCFGにおけるPLR文法を用いて、確率モデルを構築し、周辺化カーネルによる特徴抽出を行って、SVMによる判別分析を行った。対象データはMHCBNデータベース由来のHLA-A2結合能CTL誘導活性既知ペプチド602本である。
交差検証は10-fold で行った。表中のAccuracy、TP、FP、FN、TNは実施例1と同じ意味を表す。
HLA−A2結合能CTL誘導活性予測
Figure 2005309877
HLA−A2またはHLA−A24結合能CTL誘導活性誘導活性ペプチドの交差検証結果
SCFGにおけるPLR文法を用いて確率モデルを構築し、MCKによる特徴抽出を行い、SVMによる判別分析を行った。対象データはMHCBNデータベース由来のHLA-A2結合CTL誘導活性既知ペプチド602本、HLA-A24結合CTL誘導活性既知ペプチド222本である。
交差検証は10-fold で行った。表中のAccuracy、TP、FP、FN、TNは実施例1と同じ意味を表す。
PLR文法
Figure 2005309877
本発明の配列解析方法は、異なる残基数であっても扱える方法論であるため、活性予測が可能になる程度のデータ数が無償の公共データのみからでも得られる。さらには、機能性生体分子の機能活性等を予測するプログラムを医薬品の開発に活用することにより、免疫系の調節作用を有する免疫系調節ペプチド医薬品の迅速な開発が可能となった。
本発明方法の原理を説明した図である。 本発明方法およびプログラムを実行させる装置の構成を示す機能ブロック図である。 交差検証法における5-fold cross validationの概念を表した図である。 実施例2におけるPLR文法の予測スコアの相関図 実施例2におけるBPL文法の予測スコアの相関図 実施例3におけるPLR文法の予測スコアの相関図 実施例3におけるBPL文法の予測スコアの相関図
符号の説明
101 設計候補配列データ入力ステップ
102 特徴抽出を行うステップ
103 教師付き学習ステップ
104 分析ステップ
105 設計配列選択ステップ
201 データを入力部および特徴抽出部
202 教師付き学習部
203 判別部
204 候補配列判定部
205 出力部
206 画像処理及び画像出力部
207 記録媒体出力部

Claims (22)

  1. 以下の特徴を有する機能性生体分子の配列解析方法;
    (1)既知の機能性生体分子のアミノ配列とその活性データおよび、機能性生体分子候補のアミノ配列データから、周辺化カウントカーネルによる特徴抽出を行う際、
    (2)確率モデルを用いて、
    (3)機能性生体分子候補のアミノ配列データを教師付学習に適用し、該機能効果の有無を判別分析または回帰分析する。
  2. 機能性生体分子が3〜100merのアミノ酸配列で形成される請求項1の方法。
  3. 機能性生体分子がHLA結合機能を有する抗原ペプチドである請求項1〜2いずれかに記載の方法。
  4. HLAが、HLA−A2または、HLA−A24である請求項3記載の方法。
  5. 機能性生体分子がCTL誘導活性機能を有する抗原ペプチドである請求項1〜4記載の方法。
  6. 確率モデルが、隠れマルコフモデルあるいは確率文脈自由文法である請求項1〜5いずれかに記載の方法
  7. 確率文脈自由文法における生成文法がPLR文法およびBPL文法である請求項6記載の方法。
  8. 教師付学習がサポート・ベクター・マシン(Support Vector Machine)である請求項1〜7いずれかに記載の方法。
  9. 請求項1〜8に記載された方法をコンピュータに実行させることを特徴とするコンピュータ読み取り可能なプログラム。
  10. 以下の特徴を有する機能性生体分子の配列解析装置;
    (1)既知の機能性生体分子のアミノ配列とその活性データおよび、機能性生体分子候補のアミノ配列データとを入力する入力手段と、
    (2)周辺化カウントカーネルによる特徴抽出を行う演算手段と、
    (3)上記(2)の演算手段を行う際の確率モデルを用いる手段と、
    (4)機能性生体分子候補のアミノ配列データを教師付学習に適用する手段と、
    (5)該機能効果の有無を判別分析または回帰分析する手段と、
    (6)上記分析結果を出力する出力手段とを有する。
  11. 機能性生体分子が3〜100merのアミノ酸配列で形成される請求項10の装置。
  12. 機能性生体分子がHLA結合機能を有する抗原ペプチドである請求項10〜11いずれかに記載の装置。
  13. HLAが、HLA−A2または、HLA−A24である請求項12記載の装置。
  14. 機能性生体分子がCTL誘導活性機能を有する抗原ペプチドである請求項10〜13いずれかに記載の装置。
  15. 確率モデルが、隠れマルコフモデルあるいは確率文脈自由文法である請求項10〜14いずれかに記載の装置
  16. 確率文脈自由文法における生成文法がPLR文法およびBPL文法である請求項15記載の装置。
  17. 教師付学習がポート・ベクター・マシン(Support Vector Machine)である請求項10〜16いずれかに記載の装置。
  18. 以下の(1)、(2)または(3)工程のいずれか1つ以上の工程により選択される機能性生体分子の製造方法;
    (1)請求項1〜8に記載された配列解析方法、
    (2)請求項9記載のプログラム
    (3)請求項10〜17に記載された装置。
  19. 機能性生体分子が3〜100merのアミノ酸配列で形成される請求項18の製造方法。
  20. 機能性生体分子がHLA結合機能を有する抗原ペプチドである請求項18〜19いずれかに記載の製造方法。
  21. HLAが、HLA−A2または、HLA−A24である請求項20記載の製造方法。
  22. 機能性生体分子がCTL誘導活性機能を有する抗原ペプチドである請求項18〜21いずれかに記載の製造方法。
JP2004127447A 2004-04-22 2004-04-22 機能性生体分子の配列解析方法 Pending JP2005309877A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004127447A JP2005309877A (ja) 2004-04-22 2004-04-22 機能性生体分子の配列解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004127447A JP2005309877A (ja) 2004-04-22 2004-04-22 機能性生体分子の配列解析方法

Publications (1)

Publication Number Publication Date
JP2005309877A true JP2005309877A (ja) 2005-11-04

Family

ID=35438564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004127447A Pending JP2005309877A (ja) 2004-04-22 2004-04-22 機能性生体分子の配列解析方法

Country Status (1)

Country Link
JP (1) JP2005309877A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006236153A (ja) * 2005-02-25 2006-09-07 Dainippon Sumitomo Pharma Co Ltd 機能性核酸配列解析方法
CN104765979A (zh) * 2015-04-28 2015-07-08 南京信息工程大学 一种基于集成经验模态分解的海杂波去噪方法
JP2016537699A (ja) * 2013-09-27 2016-12-01 コデクシス, インコーポレイテッド 構造ベース予測モデリング
WO2019003441A1 (ja) * 2017-06-30 2019-01-03 日本電気株式会社 予測装置、予測方法、予測プログラムが記録された記録媒体、及び、遺伝子推定装置
US10696964B2 (en) 2013-09-27 2020-06-30 Codexis, Inc. Automated screening of enzyme variants

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006236153A (ja) * 2005-02-25 2006-09-07 Dainippon Sumitomo Pharma Co Ltd 機能性核酸配列解析方法
JP2016537699A (ja) * 2013-09-27 2016-12-01 コデクシス, インコーポレイテッド 構造ベース予測モデリング
US10696964B2 (en) 2013-09-27 2020-06-30 Codexis, Inc. Automated screening of enzyme variants
US11342046B2 (en) 2013-09-27 2022-05-24 Codexis, Inc. Methods and systems for engineering biomolecules
US11535845B2 (en) 2013-09-27 2022-12-27 Codexis, Inc. Automated screening of enzyme variants
CN104765979A (zh) * 2015-04-28 2015-07-08 南京信息工程大学 一种基于集成经验模态分解的海杂波去噪方法
CN104765979B (zh) * 2015-04-28 2018-04-24 南京信息工程大学 一种基于集成经验模态分解的海杂波去噪方法
WO2019003441A1 (ja) * 2017-06-30 2019-01-03 日本電気株式会社 予測装置、予測方法、予測プログラムが記録された記録媒体、及び、遺伝子推定装置
JPWO2019003441A1 (ja) * 2017-06-30 2020-03-26 日本電気株式会社 予測装置、予測方法、予測プログラム、及び、遺伝子推定装置
US11557372B2 (en) 2017-06-30 2023-01-17 Nec Corporation Prediction device, gene estimation device, prediction method, and non-transitory recording medium

Similar Documents

Publication Publication Date Title
Zeebaree et al. Gene selection and classification of microarray data using convolutional neural network
Hira et al. A review of feature selection and feature extraction methods applied on microarray data
Kong et al. A review of independent component analysis application to microarray gene expression data
Cho et al. Cancer classification using ensemble of neural networks with multiple significant gene subsets
Yang Machine learning approaches to bioinformatics
AU1242701A (en) Methods and devices for identifying patterns in biological systems and methods for uses thereof
WO2015173435A1 (en) Method for predicting a phenotype from a genotype
Wang et al. Adaptive sampling using self-paced learning for imbalanced cancer data pre-diagnosis
Kavitha et al. A correlation based SVM-recursive multiple feature elimination classifier for breast cancer disease using microarray
Algamal et al. High dimensional logistic regression model using adjusted elastic net penalty
Benso et al. A cDNA microarray gene expression data classifier for clinical diagnostics based on graph theory
Knudsen et al. Artificial Intelligence in Pathomics and Genomics of Renal Cell Carcinoma
Du et al. Multimodal adversarial representation learning for breast cancer prognosis prediction
Vidovic et al. Opening the black box: Revealing interpretable sequence motifs in kernel-based learning algorithms
Olaolu et al. A comparative analysis of feature selection and feature extraction models for classifying microarray dataset
Al Mamlook et al. Classification of cancer genome atlas glioblastoma multiform (tcga-gbm) using machine learning method
Arowolo et al. A dimensional reduced model for the classification of RNA-seq Anopheles gambiae data
JP2006236151A (ja) 機能性生体分子設計方法
JP2005309877A (ja) 機能性生体分子の配列解析方法
Hassan et al. An integrative machine learning model for the identification of tumor T-cell antigens
Iravani et al. An Interpretable Deep Learning Approach for Biomarker Detection in LC-MS Proteomics Data
Dimitrov et al. Prediction of Bacterial Immunogenicity by Machine Learning Methods
AU2016100563A4 (en) System and method for determining an association of at least one biological feature with a medical condition
US10192642B2 (en) System and method for determining an association of at least one biological feature with a medical condition
Kawale Machine Learning Tool Development And Use In Biological Information Decoding

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20051026