JP2011130677A - 発現予測装置および発現予測方法 - Google Patents

発現予測装置および発現予測方法 Download PDF

Info

Publication number
JP2011130677A
JP2011130677A JP2009290490A JP2009290490A JP2011130677A JP 2011130677 A JP2011130677 A JP 2011130677A JP 2009290490 A JP2009290490 A JP 2009290490A JP 2009290490 A JP2009290490 A JP 2009290490A JP 2011130677 A JP2011130677 A JP 2011130677A
Authority
JP
Japan
Prior art keywords
protein
amino acids
expression
parameter
dna sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009290490A
Other languages
English (en)
Other versions
JP5521236B2 (ja
Inventor
Shuichi Hirose
修一 廣瀬
Tamotsu Noguchi
保 野口
Naoki Goshima
直樹 五島
Yoshifumi Kawamura
義史 河村
Yutaka Kuroda
裕 黒田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Tokyo University of Agriculture and Technology NUC
Tokyo University of Agriculture
Japan Biological Informatics Consortium
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Tokyo University of Agriculture and Technology NUC
Tokyo University of Agriculture
Japan Biological Informatics Consortium
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST, Tokyo University of Agriculture and Technology NUC, Tokyo University of Agriculture, Japan Biological Informatics Consortium filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2009290490A priority Critical patent/JP5521236B2/ja
Publication of JP2011130677A publication Critical patent/JP2011130677A/ja
Application granted granted Critical
Publication of JP5521236B2 publication Critical patent/JP5521236B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】大腸菌発現系での発現を予測する新しい装置を提供する。
【解決手段】発現予測装置1は、DNA配列の発現実験の結果を、(1)DNA配列に含まれるコドン、(2)DNA配列から発現するタンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(3)所定の物理的特徴または化学的特徴のアミノ酸が連続する連続数、(4)ディスオーダ領域の数、長さまたは割合、(5)膜貫通領域の数、(6)表面残基中のアミノ酸の数をパラメータとして機械学習して生成した遺伝子が発現するか否かを決定するための統計モデルを記憶した統計モデル記憶部18と、DNA配列を入力するDNA配列入力部10と、入力されたDNA配列から、(1)〜(6)のパラメータの値を求めるパラメータ値算出部12と、パラメータの値を統計モデルに当てはめて、DNA配列が発現するか否かを判定する発現判定部16と、判定結果を出力する結果出力部20とを備える。
【選択図】図1

Description

本発明は、遺伝子の発現可能性を予測する装置および方法に関する。
タンパク質の機能解析や立体構造解析などの研究や、有用なタンパク質の工業的な利用には、大量の純粋なタンパク質が必要である。タンパク質を大量に調整するために、組換え法によりタンパク質を発現する発現系としては、大腸菌が一般的である。大腸菌の他に、酵母や、コムギ等の無細胞発現系や、昆虫細胞、動物細胞なども用いられる。
大腸菌の発現系では、所望の遺伝子を組み込んだベクターを大腸菌に導入して培養する。発現条件が遺伝子の発現に影響を与える場合があるので、組み換え大腸菌からタンパク質が発現しない場合には、タンパク質が得られるまで最適な発現条件を探索することになる。このような作業は多大な労力を要する一方で、すべての遺伝子が発現するわけではないので、労力が無駄になることがある。
遺伝子が発現するか否かをあらかじめ予測できれば、実験の回数を減らすことができる。特許文献1は、真核生物種の遺伝子の発現効率を塩基配列の一部を用いて発現可能性を予測する方法を開示している。
特開2000−312584号公報
遺伝子の発現を予測する方法について、これまで活発な研究がなされていなかった。本発明は、大腸菌を用いたタンパク質の発現を予測する新しい装置および方法を提供することを目的とする。
大腸菌発現系での遺伝子の発現を予測する本発明の発現予測装置は、遺伝子が発現するか否かを判定するための統計モデルであって、(1)前記DNA配列に含まれるコドン、(2)前記DNA配列から発現するタンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(3)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴のアミノ酸が連続する連続数、(4)前記タンパク質に含まれるディスオーダ領域の数、長さまたは割合、(5)前記タンパク質に含まれる膜貫通領域の数、(6)前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、DNA配列の発現実験結果を機械学習して生成した統計モデルを記憶した記憶部と、DNA配列を入力する入力部と、入力されたDNA配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるパラメータ値算出部と、前記パラメータの値を前記統計モデルに当てはめて、前記DNA配列が発現するか否かを判定する判定部と、判定結果を出力する出力部とを備える。
本発明は、上記した(1)〜(5)のパラメータを用いて機械学習により生成された統計モデルに、予測対象のDNA配列のパラメータの値を当てはめることにより、DNA配列が発現するか否かを精度良く予測できる。
第1の実施の形態の発現予測装置の構成を示す図である。 第1の実施の形態の発現予測装置の動作を示す図である。 第2の実施の形態の発現予測装置の構成を示す図である。 第2の実施の形態の発現予測装置の動作を示す図である。 実施例1の評価結果を示す図である。 実施例2の評価結果を示す図である。
以下、本発明の実施の形態の発現予測装置および発現予測方法について説明する。
(第1の実施の形態)
図1は、本発明の第1の実施の形態の発現予測装置1の構成を示す図である。発現予測装置1は、発現するかどうかを調べたいDNA配列を入力するDNA配列入力部10と、入力されたDNA配列の所定のパラメータの値を算出するパラメータ値算出部12と、DNA配列の所定のパラメータ値を統計モデルに当てはめて発現可能性を判定する発現判定部16と、発現可能性の結果を出力する結果出力部20とを有している。
パラメータ値算出部12には、タンパク質構造計算部14が接続されている。タンパク質構造計算部14は、ディスオーダ領域、膜貫通領域、表面残基のアミノ酸等の構造情報を計算によって求める機能を有する。タンパク質構造計算部14は、公知のプログラムを用いて実現してもよい。例えば、ファルマデザイン社製の「POODE−L」は、ディスオーダ領域を予測するプログラムである。ディスオーダ領域(disorder領域)とは、タンパク質の立体構造のうち、決まった構造をとらない領域を意味する。「TMHMM」「SOSUI」は、膜貫通領域を予測するプログラム、「RVPnet」は表面残基のアミノ酸を予測するプログラムである。これらのプログラムを用いることにより、DNA配列から発現するタンパク質の構造情報を計算できる。
パラメータ値算出部12は、DNA配列からアミノ酸配列を求め、アミノ酸配列中のアミノ酸組成に関するパラメータ値を算出すると共に、タンパク質構造計算部14での計算結果に基づいて、構造情報に関するパラメータ値を算出する。
下記に示す表1は、パラメータ値算出部12にて値を算出するパラメータを示す一覧表である。
上記表1に示されているパラメータは、実験により得られた発現結果から求めたものである。発明者らは、複数回の実験により発現するか否かを確かめた183個のDNA配列を、発現したDNA配列と発現しなかったDNA配列とに分類し、それぞれのグループに有意なパラメータを求めた。具体的には、DNA配列および発現するタンパク質の組成や構造のパラメータが有意であるか否かを、パラメータ毎にt検定を行って検証した。有意水準は、0.05とした。
表1において、パラメータに付した(+)は、発現したDNA配列において値が高くなるパラメータ、(−)は発現しなかったDNA配列において値が高くなるパラメータであることを示す。全長とは、DNA配列またはDNA配列から発現するタンパク質の全長を意味する。N末端領域とは、N末端から60ヌクレオチドの領域、またはこれに対応するタンパク質の領域(すなわち、N末端から20アミノ酸の領域)であり、C末端領域とは、C末端から60ヌクレオチドの領域、またはこれに対応するタンパク質の領域(すなわち、C末端から20アミノ酸の領域)である。
同一グループのアミノ酸の数とは、化学的特徴または物理的性質が同じグループに含まれるアミノ酸の数である。また、同一グループのアミノ酸連続数とは、化学的特徴または物理的性質が同じグループに含まれるアミノ酸が連続する数である。ここで、化学的特徴が同じ、あるいは物理的性質が同じであるとして同じグループに分類されるアミノ酸を表2に示す。
なお、表1に示すすべてのパラメータを用いる必要はなく、示されたパラメータのうちの一部を用いて発現予測を行うことも可能である。例えば、DNA配列の全長に含まれるコドンのパラメータとして、13個のコドンが示されているが、必ずしも13個すべてを用いなければならないわけではない。9個のコドンを用いても発現予測可能なことが確かめられている。
また、全長のディスオーダー領域の割合とは、ディスオーダー領域の長さ/タンパク質の全長である。
図1に戻って、発現予測装置1について説明する。発現判定部16は、DNA配列のパラメータ値を統計モデルに当てはめることによって、DNA配列が発現するか否かを判定する。統計モデル記憶部18には、上記したパラメータの値によって発現するかしないかを判定するための統計モデルが記憶されている。統計モデルは、前述した183個の配列の発現実験結果を事前データとして機械学習を行うことにより生成したものである。機械学習には、Random Forest、adaBoost、Support Vector Machine(SVM)等を用いることができるが、これらに限定されるものではない。結果出力部20は、発現判定部16にて判定された発現予測結果を出力する。
なお、本実施の形態では、実験データを機械学習した結果である統計モデルを記憶しておく例について説明しているが、実験結果のデータ自体を記憶しておいてもよい。発現判定を行う際に機械学習を行って統計モデルを生成して一時的にメモリ等に記憶し、生成した統計モデルを用いて発現判定を行ってもよい。このような構成によれば、新たに得られた実験結果を逐次追加して、統計モデルを生成することができる。
図2は、実施の形態の発現予測装置1の動作を示す図である。発現予測装置1は、まず、発現可能性を予測したい対象のDNA配列を入力する(S10)。次に、発現予測装置1は、DNA配列から発現するタンパク質の構造計算を行う(S12)。発現予測装置1は、DNA配列とタンパク質構造の計算結果から、表1に示すパラメータ値を算出する(S14)。次に、発現予測装置1は、統計モデルにパラメータ値をあてはめて発現可能性の判定を行い(S16)、発現可能性の判定結果を結果出力部20から出力する(S18)。
(第2の実施の形態)
図3は、第2の実施の形態の発現予測装置2の構成を示す図である。第2の実施の形態の発現予測装置2は、発現可能性の予測に加え、発現するタンパク質が可溶性であるか否かを予測する装置である。発現予測装置2は、第1の実施の形態の発現判定部16に代えて、発現と可溶性の両方を判定する発現可溶性判定部22を有している。
第2の実施の形態の発現予測装置2では、パラメータ値算出部12は、DNA配列から、上記した表1のパラメータに加えて、下記の表3に示すパラメータを算出する。
上記表3に示されているパラメータは、発現により得られたタンパク質が可溶性か否かの実験結果に基づいて求めたものである。発明者らは、複数回の実験により発現したタンパク質が可溶か不溶かを確かめた189個のDNA配列を、発現したタンパク質が可溶のDNA配列と不溶のDNA配列に分類し、それぞれのグループに有意なパラメータを求めた。具体的には、DNA配列および発現するタンパク質の組成や構造のパラメータが有意であるか否かを、パラメータ毎にt検定を行って検証した。有意水準は、0.05とした。
表3において、パラメータに付した(+)は、可溶性のタンパク質において値の分布が高くなるパラメータ、(−)は不溶性のタンパク質において値の分布が高くなるパラメータであることを示す。なお、表3に示すすべてのパラメータを用いる必要はなく、示されたパラメータのうちの一部を用いて可溶性の予測を行うことも可能である。
図3に戻って、発現予測装置2について説明する。統計モデル記憶部24には、表1のパラメータによって発現の判定をするための統計モデルに加えて、表3のパラメータによって可溶性か不溶性かを判定するための統計モデル(説明の便宜上、「第2の統計モデル」という。)を記憶している。第2の統計モデルは、前述した189個のDNA配列の発現実験結果を事前データとして機械学習を行うことにより生成したものである。機械学習には、Random Forest、adaBoost、Support Vector Machine(SVM)等を用いることができるが、これらに限定されるものではない。
発現可溶性判定部22は、表1のパラメータ値を統計モデルに当てはめることによって、DNA配列が発現するか否かを判定すると共に、表3のパラメータ値を第2の統計モデルに当てはめることによって発現するタンパク質が可溶性か不溶性かを判定する。結果出力部20は、発現可溶性判定部22にて判定された発現予測結果および可溶性予測結果を出力する。
図4は、第2の実施の形態の発現予測装置2の動作を示す図である。発現予測装置2は、まず、発現可能性および可溶性を予測したい対象のDNA配列を入力する(S10)。次に、発現予測装置2は、DNA配列から発現するタンパク質の構造計算を行う(S12)。発現予測装置2は、DNA配列とタンパク質構造の計算結果から、表1および表3に示すパラメータ値を算出する(S15)。次に、発現予測装置2は、統計モデルに表1のパラメータ値をあてはめて発現可能性の判定を行うと共に、第2の統計モデルに表3のパラメータ値をあてはめて可溶性の判定を行う(S17)。発現予測装置2は、発現および可溶性の判定結果を結果出力部20から出力する(S18)。
本発明の発現予測装置による発現予測と実験による発現結果とを比較し、発現予測装置の予測精度を評価した。
(実施例1)大腸菌発現系での発現予測
[評価方法]
上記の表1に記載したパラメータを用いて、大腸菌発現系での発現予測を行った。
(複数回実験のテストデータ)
複数回の実験を行った183個のDNA配列のうちの147個を事前データとして用いて機械学習を行い、統計モデルを生成した。機械学習の方法は、Random Forest、adaBoost、Support Vector Machineを用い、各方法により生成した統計モデルを用いて発現予測を行った。183個のDNA配列のうちの残りの36個をテストデータとし、発現予測装置による発現予測を行い、実験結果と比較して予測精度を求めた。
(一回実験のテストデータ)
上記の183個のDNA配列のすべてを事前データとして用いて機械学習を行い、統計モデルを作成した。そして、1回だけ実験を行ったDNA配列をテストデータとし、発現予測装置による発現予測を行い、実験結果と比較して予測精度を求めた。
[予測精度の計算方法]
発現予測装置による発現結果と実験による発現結果の一致/不一致に基づいて、結果を下記表4に示す4つのカテゴリに分ける。
全発現数に対する正解数の割合Recall、発現すると予測した数に対する正解数の割合Precision、全体の予測精度ACCを下記の式により求める。
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
ACC=(TP+TN)/(TP+TN+FP+FN)
[評価結果]
図5は、発現予測の評価結果を示す図である。図5に示すように、複数回実験のテストデータでは、約76%の高精度で発現予測できることを確認できた。1回実験のテストデータは、複数回の実験を行った場合に比べ信頼性が低いが、約70%の精度で発現予測できることを確認できた。
(実施例2)大腸菌発現系により発現するタンパク質の可溶性予測
[評価方法]
上記の表3に記載したパラメータを用いて、大腸菌発現系での可溶性予測を行った。
(複数回実験のテストデータ)
複数回の実験を行った189個のDNA配列のうちの152個を事前データとして用いて機械学習を行い、統計モデルを生成した。機械学習の方法は、Random Forest、adaBoost、Support Vector Machineを用い、各方法により生成した統計モデルを用いて可溶性予測を行った。189個のDNA配列のうちの残りの37個をテストデータとし、発現予測装置による可溶性予測を行い、実験結果と比較して予測精度を求めた。
(1回実験のテストデータ)
上記の189個のDNA配列のすべてを事前データとして用いて機械学習を行い、統計モデルを作成した。そして、1回だけ実験を行ったDNA配列をテストデータとし、発現予測装置による発現予測を行い、実験結果と比較して予測精度を求めた。
(比較例)
下記式(1)に示すWilkinson and Harrisonモデルを用いて、上記37個のDNA配列のテストデータについて可溶性予測を行い、実験結果と比較して従来手法による予測精度を求めた。
[予測精度の計算方法]
予測精度の計算方法は、上記した実施例1と同様に、予測結果を下記表5に示す4つのカテゴリに分ける。
全可溶数に対する正解数の割合Recall、可溶すると予測した数に対する正解数の割合Precision、全体の予測精度ACCを下記の式により求める。
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
ACC=(TP+TN)/(TP+TN+FP+FN)
[評価結果]
図6は、可溶性予測の評価結果を示す図である。図6に示すように、複数回実験のテストデータでは、70%以上の高精度で可溶化予測できることを確認できた。また、従来手法に比べて予測精度が10%以上向上することを確認できた。1回実験のテストデータでも、従来手法に比べて精度が向上することを確認できた。
本発明は、大腸菌発現系での遺伝子の発現可能性を予測する装置として有用である。
1,2 発現予測装置
10 DNA配列入力部
12 パラメータ値算出部
14 タンパク質構造計算部
16 発現判定部
18 統計モデル記憶部
20 結果出力部
22 発現可溶性判定部
24 統計モデル記憶部

Claims (28)

  1. 大腸菌発現系での遺伝子の発現を予測する装置であって、
    遺伝子が発現するか否かを判定するための統計モデルであって、(1)前記遺伝子のDNA配列に含まれるコドン、(2)前記DNA配列から発現するタンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(3)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴のアミノ酸が連続する連続数、(4)前記タンパク質に含まれるディスオーダ領域の数、長さまたは割合、(5)前記タンパク質に含まれる膜貫通領域の数、(6)前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、DNA配列の発現実験結果を機械学習して生成した統計モデルを記憶した記憶部と、
    DNA配列を入力する入力部と、
    入力されたDNA配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるパラメータ値算出部と、
    前記パラメータの値を前記統計モデルに当てはめて、前記DNA配列が発現するか否かを判定する判定部と、
    判定結果を出力する出力部と、
    を備える発現予測装置。
  2. 前記統計モデルは、さらに(7)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数をパラメータとして用いて生成した統計モデルである請求項1に記載の発現予測装置。
  3. 前記統計モデルは、さらに(8)前記タンパク質の表面残基中のアスパラギン酸(Asp)、グルタミン酸(Glu)、アルギニン(Arg)の数をパラメータとして用いて生成した統計モデルである請求項1または2に記載の発現予測装置。
  4. 前記統計モデルは、さらに(9)前記タンパク質の表面残基中の酸性、塩基性、アミド基、極性かつ電荷ありの少なくとも1種類のグループに含まれるアミノ酸の数をパラメータとして用いて生成した統計モデルである請求項1〜3のいずれかに記載の発現予測装置。
  5. (1)前記DNA配列に含まれるコドンのパラメータとして、AAG、AGA、AGG、CTC、GAA、GAC、GAG、GAT、GTC、GTG、TCC、TGG、TAAのうちの少なくとも1種類のコドンの個数を用いる請求項1〜4のいずれかに記載の発現予測装置。
  6. (1)前記DNA配列に含まれるコドンのパラメータとして、C末端から60ヌクレオチドの領域に含まれるAAT、CAG、CTA、GAC、GTA、GTGのうちの少なくとも1種類のコドンの個数を用いる請求項1〜5のいずれかに記載の発現予測装置。
  7. (2)前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、アスパラギン酸(Asp)、グルタミン酸(Glu)のうちの少なくとも1種類のアミノ酸の連続数を用いる請求項1〜6のいずれかに記載の発現予測装置。
  8. (2)前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、C末端から20アミノ酸の領域に存在するイソロイシン(Ile)の連続数を用いる請求項1〜7のいずれかに記載の発現予測装置。
  9. (3)前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴のアミノ酸の連続数のパラメータとして、脂肪族のアミノ酸の連続数、酸性のアミノ酸、または非極性のアミノ酸の連続数を用いる請求項1〜8のいずれかに記載の発現予測装置。
  10. (3)前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴のアミノ酸の連続数のパラメータとして、C末端から20アミノ酸の領域に存在する水酸基のアミノ酸の連続数を用いる請求項1〜9のいずれかに記載の発現予測装置。
  11. (4)前記タンパク質に含まれるディスオーダ領域の数、長さまたは割合のパラメータとして、前記タンパク質の全長に含まれるディスオーダ領域の数、長さまたは割合を用いる請求項1〜10のいずれかに記載の発現予測装置。
  12. (7)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、アスパラギン酸(Asp)、グルタミン酸(Glu)、ロイシン(Leu)、トリプトファン(Trp)の数を用いる請求項1〜11のいずれかに記載の発現予測装置。
  13. (7)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在するアスバラギン酸(Asp)のアミノ酸の数を用いる請求項1〜12のいずれかに記載の発現予測装置。
  14. 前記記憶部は、タンパク質が可溶性か否かを判定するための統計モデルであって、(10)前記DNA配列から発現するタンパク質のアミノ酸配列に含まれる所定のアミノ酸の数、(11)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数、(12)前記タンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(13)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴を有するアミノ酸が連続する連続数、(14)前記タンパク質に含まれるディスオーダー領域の割合、(15)前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、DNA配列から発現したタンパク質が可溶性であるか否かの実験結果を機械学習して生成した第2の統計モデルを記憶し、
    前記パラメータ値算出部は、前記第2の統計モデルの生成に用いられた各パラメータの値を求め、
    前記判定部は、前記パラメータの値を前記第2の統計モデルに当てはめて、前記DNA配列から発現するタンパク質が可溶性か否かを判定し、
    前記出力部は、前記可溶性の判定結果を出力する請求項1〜13のいずれかに記載の発現予測装置。
  15. 前記第2の統計モデルは、さらに(16)前記タンパク質に含まれるディスオーダ領域の割合をパラメータとして用いて生成した統計モデルである請求項14に記載の発現予測装置。
  16. (10)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記タンパク質の全長に含まれるアスパラギン酸(Asp)、グルタミン酸(Glu)、グリシン(Gly)、リシン(Lys)、ロイシン(Leu)、メチオニン(Met)、トリプトファン(Trp)、チロシン(Tyr)のうちの少なくとも1種類のアミノ酸の数を用いる請求項14または15に記載の発現予測装置。
  17. (10)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在するアラニン(Ala)、システイン(Cys)、アスパラギン酸(Asp)、フェニルアラニン(Phe)、リシン(Lys)、チロシン(Tyr)のうちの少なくとも1種類のアミノ酸の数を用いる請求項14〜16のいずれかに記載の発現予測装置。
  18. (11)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数のパラメータとして、前記タンパク質の全長に含まれる脂肪族、芳香環、酸性、塩基性、含硫、非極性の少なくとも1種類のグループのアミノ酸の数を用いる請求項14〜17のいずれかに記載の発現予測装置。
  19. (11)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在する芳香環、酸性、塩基性、含硫の少なくとも1種類のグループのアミノ酸の数を用いる請求項14〜18のいずれかに記載の発現予測装置。
  20. (12)前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、前記タンパク質の全長に存在するロイシン(Leu)の連続数を用いる請求項14〜19のいずれかに記載の発現予測装置。
  21. (12)前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在するシステイン(Cys)、フェニルアラニン(Phe)、リシン(Lys)、バリン(Val)のうちの少なくとも1種類のアミノ酸の連続数を用いる請求項14〜20のいずれかに記載の発現予測装置。
  22. (13)前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴を有するアミノ酸の連続数のパラメータとして、前記タンパク質の全長に存在する含硫のアミノ酸の連続数を用いる請求項14〜21のいずれかに記載の発現予測装置。
  23. (13)前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴を有するアミノ酸の連続数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在する芳香環、酸性、含硫のうちの少なくとも1種類のグループのアミノ酸の連続数を用いる請求項14〜22のいずれかに記載の発現予測装置。
  24. (15)前記タンパク質の表面残基中のアミノ酸の数のパラメータとして、リシン(Lys)、グルタミン(Gln)のいずれかの数を用いる請求項14〜23のいずれかに記載の発現予測装置。
  25. (15)前記タンパク質の表面残基中のアミノ酸の数のパラメータとして、塩基性のアミノ酸の数を用いる請求項14〜24のいずれかに記載の発現予測装置。
  26. (14)前記タンパク質に含まれるディスオーダー領域の割合のパラメータとして、前記タンパク質の全長に含まれるディスオーダー領域の割合を用いる請求項14〜25のいずれかに記載の発現予測装置。
  27. 大腸菌発現系での遺伝子の発現を予測する方法であって、
    遺伝子が発現するか否かを判定するための統計モデルであって、(1)前記遺伝子のDNA配列に含まれるコドン、(2)前記DNA配列から発現するタンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(3)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴のアミノ酸が連続する連続数、(4)前記タンパク質に含まれるディスオーダ領域の数、長さまたは割合、(5)前記タンパク質に含まれる膜貫通領域の数、(6)前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、DNA配列の発現実験結果を機械学習して生成した統計モデルを記憶部に記憶するステップと、
    DNA配列を入力するステップと、
    入力されたDNA配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるステップと、
    前記パラメータの値を前記統計モデルに当てはめて、前記DNA配列が発現するか否かを判定するステップと、
    判定結果を出力するステップと、
    を備える発現予測方法。
  28. タンパク質が可溶性か否かを決定するための統計モデルであって、(10)前記DNA配列から発現するタンパク質のアミノ酸配列に含まれる所定のアミノ酸の数、(11)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数、(12)前記タンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(13)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴を有するアミノ酸が連続する連続数、(14)前記タンパク質に含まれるディスオーダー領域の割合、(15)前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、DNA配列から発現したタンパク質が可溶性であるか否かの実験結果を機械学習して生成した第2の統計モデルを記憶部に記憶するステップと、
    前記第2の統計モデルの生成に用いられた各パラメータの値を求めるステップと、
    前記パラメータの値を前記第2の統計モデルに当てはめて、前記DNA配列から発現するタンパク質が可溶性か否かを判定するステップと、
    を備える請求項27に記載の発現予測方法。
JP2009290490A 2009-12-22 2009-12-22 発現予測装置および発現予測方法 Active JP5521236B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009290490A JP5521236B2 (ja) 2009-12-22 2009-12-22 発現予測装置および発現予測方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009290490A JP5521236B2 (ja) 2009-12-22 2009-12-22 発現予測装置および発現予測方法

Publications (2)

Publication Number Publication Date
JP2011130677A true JP2011130677A (ja) 2011-07-07
JP5521236B2 JP5521236B2 (ja) 2014-06-11

Family

ID=44344085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009290490A Active JP5521236B2 (ja) 2009-12-22 2009-12-22 発現予測装置および発現予測方法

Country Status (1)

Country Link
JP (1) JP5521236B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169312A (zh) * 2017-05-27 2017-09-15 南开大学 一种低复杂度的天然无序蛋白质的预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006512649A (ja) * 2002-12-23 2006-04-13 ゲーネアルト ゲゼルシャフト ミット ベシュレンクテル ハフツング タンパク質の発現を目的としてヌクレオチド配列を最適化する方法及び装置
JP2007114937A (ja) * 2005-10-19 2007-05-10 Pharma Design Inc シグナルペプチドの予測方法
JP2007148991A (ja) * 2005-11-30 2007-06-14 National Institute Of Advanced Industrial & Technology 生物学的情報処理装置、生物学的情報処理方法および生物学的情報処理プログラム
JP2009538131A (ja) * 2006-05-25 2009-11-05 インスティチュート フォー アドバンスド スタディ 配列モチーフを同定するための方法、およびその応用
JP2009540845A (ja) * 2006-06-29 2009-11-26 ディーエスエム アイピー アセッツ ビー.ブイ. 改善されたポリペプチド発現を達成する方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006512649A (ja) * 2002-12-23 2006-04-13 ゲーネアルト ゲゼルシャフト ミット ベシュレンクテル ハフツング タンパク質の発現を目的としてヌクレオチド配列を最適化する方法及び装置
JP2007114937A (ja) * 2005-10-19 2007-05-10 Pharma Design Inc シグナルペプチドの予測方法
JP2007148991A (ja) * 2005-11-30 2007-06-14 National Institute Of Advanced Industrial & Technology 生物学的情報処理装置、生物学的情報処理方法および生物学的情報処理プログラム
JP2009538131A (ja) * 2006-05-25 2009-11-05 インスティチュート フォー アドバンスド スタディ 配列モチーフを同定するための方法、およびその応用
JP2009540845A (ja) * 2006-06-29 2009-11-26 ディーエスエム アイピー アセッツ ビー.ブイ. 改善されたポリペプチド発現を達成する方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6014002449; 廣瀬 修一 外9名: '大量発現系におけるタンパク質発現と可溶化に関連した要因を探る' 第82回日本生化学会大会 , 200910, p.2T4a-9 *
JPN6014002451; 廣瀬 修一 外9名: '大腸菌発現系におけるタンパク質発現・可溶化に関連している要因の解析' 第9回 日本蛋白質科学会年会 プログラム・要旨集 , 20090424, p.83 *
JPN6014006990; Hannig, G.: 'Strategies for optimizing heterologous protein expression in Escherichia coli' Trends in Biotechnology Vol.16, No.2, 1998, p.54-60 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169312A (zh) * 2017-05-27 2017-09-15 南开大学 一种低复杂度的天然无序蛋白质的预测方法
CN107169312B (zh) * 2017-05-27 2020-05-08 南开大学 一种低复杂度的天然无序蛋白质的预测方法

Also Published As

Publication number Publication date
JP5521236B2 (ja) 2014-06-11

Similar Documents

Publication Publication Date Title
Neuhaus et al. A Novel Pex14 Protein-interacting Site of Human Pex5 Is Critical for Matrix Protein Import into Peroxisomes*♦
Guo et al. Intrinsic disorder within and flanking the DNA-binding domains of human transcription factors
Aki et al. Kinetics of isomerization and inversion of aspartate 58 of αA-crystallin peptide mimics under physiological conditions
Maffucci et al. An updated test of AMBER force fields and implicit solvent models in predicting the secondary structure of helical, β-hairpin, and intrinsically disordered peptides
Towse et al. Nature versus design: the conformational propensities of D-amino acids and the importance of side chain chirality
JP5509421B2 (ja) 可溶性予測装置および可溶性予測方法
Hedwig et al. Group additivity schemes for the calculation of the partial molar heat capacities and volumes of unfolded proteins in aqueous solution
Li et al. In silico Relationship between Configurational Entropy and Soft Degrees of Freedom<? format?> in Proteins and Peptides
Wang et al. Molecular and structural mechanisms of ZZ domain‐mediated cargo selection by Nbr1
Culka et al. Factors stabilizing β-sheets in protein structures from a quantum-chemical perspective
Borrman et al. High-throughput modeling and scoring of TCR-pMHC complexes to predict cross-reactive peptides
Humphreys et al. Structures of core eukaryotic protein complexes
JP5521236B2 (ja) 発現予測装置および発現予測方法
Bloodworth et al. Rosetta FlexPepDock to predict peptide-MHC binding: An approach for non-canonical amino acids
Das et al. Rational design of protein-specific folding modifiers
Costa et al. Evaluation and comparison of the ability of online available prediction programs to predict true linear B-cell epitopes
Salgado et al. Prediction of the partitioning behaviour of proteins in aqueous two-phase systems using only their amino acid composition
Perez et al. Analysis of secondary structure biases in naturally presented HLA-I ligands
Salgado et al. Prediction of retention times of proteins in hydrophobic interaction chromatography using only their amino acid composition
Juretić et al. The preference functions method for predicting protein helical turns with membrane propensity
Liu et al. A method for determining structure ensemble of large disordered protein: Application to a mechanosensing protein
Brandi et al. A comprehensive in silico analysis of huntingtin and its interactome
Lee et al. Identification of Macrocyclic Peptide Families from Combinatorial Libraries Containing Noncanonical Amino Acids Using Cheminformatics and Bioinformatics Inspired Clustering
Casadei et al. Genome-scale analysis of human mRNA 5′ coding sequences based on expressed sequence tag (EST) database
JP2930851B2 (ja) 蛋白質の立体構造の予測精度演算方法及び予測精度演算装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140319

R150 Certificate of patent or registration of utility model

Ref document number: 5521236

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250