JP5521236B2 - 発現予測装置および発現予測方法 - Google Patents
発現予測装置および発現予測方法 Download PDFInfo
- Publication number
- JP5521236B2 JP5521236B2 JP2009290490A JP2009290490A JP5521236B2 JP 5521236 B2 JP5521236 B2 JP 5521236B2 JP 2009290490 A JP2009290490 A JP 2009290490A JP 2009290490 A JP2009290490 A JP 2009290490A JP 5521236 B2 JP5521236 B2 JP 5521236B2
- Authority
- JP
- Japan
- Prior art keywords
- protein
- amino acids
- expression
- parameter
- amino acid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 title claims description 136
- 238000000034 method Methods 0.000 title claims description 11
- 108090000623 proteins and genes Proteins 0.000 claims description 102
- 150000001413 amino acids Chemical group 0.000 claims description 93
- 102000004169 proteins and genes Human genes 0.000 claims description 92
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 72
- 238000013179 statistical model Methods 0.000 claims description 55
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000002474 experimental method Methods 0.000 claims description 22
- 238000010801 machine learning Methods 0.000 claims description 18
- 239000000126 substance Substances 0.000 claims description 17
- 241000588724 Escherichia coli Species 0.000 claims description 14
- 108020004705 Codon Proteins 0.000 claims description 10
- 210000004899 c-terminal region Anatomy 0.000 claims description 5
- 239000002773 nucleotide Substances 0.000 claims description 3
- 125000003729 nucleotide group Chemical group 0.000 claims description 3
- 235000018102 proteins Nutrition 0.000 claims 53
- 235000001014 amino acid Nutrition 0.000 claims 52
- 229940024606 amino acid Drugs 0.000 claims 52
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 claims 12
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 claims 8
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 claims 8
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 claims 6
- 235000003704 aspartic acid Nutrition 0.000 claims 6
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 claims 6
- 230000002378 acidificating effect Effects 0.000 claims 5
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 claims 4
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 claims 4
- 239000004472 Lysine Substances 0.000 claims 4
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 claims 4
- 235000013922 glutamic acid Nutrition 0.000 claims 4
- 239000004220 glutamic acid Substances 0.000 claims 4
- 229910052717 sulfur Inorganic materials 0.000 claims 4
- 239000011593 sulfur Substances 0.000 claims 4
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 claims 3
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 claims 3
- 125000003118 aryl group Chemical group 0.000 claims 3
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 claims 2
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 claims 2
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 claims 2
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 claims 2
- 235000018417 cysteine Nutrition 0.000 claims 2
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 claims 2
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 claims 2
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 claims 2
- 239000004475 Arginine Substances 0.000 claims 1
- 239000004471 Glycine Substances 0.000 claims 1
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 claims 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 claims 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 claims 1
- 235000004279 alanine Nutrition 0.000 claims 1
- -1 aliphatic amino acids Chemical class 0.000 claims 1
- 125000001931 aliphatic group Chemical group 0.000 claims 1
- 125000003368 amide group Chemical group 0.000 claims 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 claims 1
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 claims 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 claims 1
- 229960000310 isoleucine Drugs 0.000 claims 1
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 claims 1
- 229930182817 methionine Natural products 0.000 claims 1
- 239000004474 valine Substances 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 6
- 125000003275 alpha amino acid group Chemical group 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000000704 physical effect Effects 0.000 description 3
- 238000000692 Student's t-test Methods 0.000 description 2
- 238000012353 t test Methods 0.000 description 2
- 241000238631 Hexapoda Species 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 210000004102 animal cell Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010230 functional analysis Methods 0.000 description 1
- 210000004897 n-terminal region Anatomy 0.000 description 1
- 238000010188 recombinant method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007928 solubilization Effects 0.000 description 1
- 238000005063 solubilization Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
Landscapes
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Description
(第1の実施の形態)
図1は、本発明の第1の実施の形態の発現予測装置1の構成を示す図である。発現予測装置1は、発現するかどうかを調べたいDNA配列を入力するDNA配列入力部10と、入力されたDNA配列の所定のパラメータの値を算出するパラメータ値算出部12と、DNA配列の所定のパラメータ値を統計モデルに当てはめて発現可能性を判定する発現判定部16と、発現可能性の結果を出力する結果出力部20とを有している。
下記に示す表1は、パラメータ値算出部12にて値を算出するパラメータを示す一覧表である。
図3は、第2の実施の形態の発現予測装置2の構成を示す図である。第2の実施の形態の発現予測装置2は、発現可能性の予測に加え、発現するタンパク質が可溶性であるか否かを予測する装置である。発現予測装置2は、第1の実施の形態の発現判定部16に代えて、発現と可溶性の両方を判定する発現可溶性判定部22を有している。
[評価方法]
上記の表1に記載したパラメータを用いて、大腸菌発現系での発現予測を行った。
(複数回実験のテストデータ)
複数回の実験を行った183個のDNA配列のうちの147個を事前データとして用いて機械学習を行い、統計モデルを生成した。機械学習の方法は、Random Forest、adaBoost、Support Vector Machineを用い、各方法により生成した統計モデルを用いて発現予測を行った。183個のDNA配列のうちの残りの36個をテストデータとし、発現予測装置による発現予測を行い、実験結果と比較して予測精度を求めた。
(一回実験のテストデータ)
上記の183個のDNA配列のすべてを事前データとして用いて機械学習を行い、統計モデルを作成した。そして、1回だけ実験を行ったDNA配列をテストデータとし、発現予測装置による発現予測を行い、実験結果と比較して予測精度を求めた。
発現予測装置による発現結果と実験による発現結果の一致/不一致に基づいて、結果を下記表4に示す4つのカテゴリに分ける。
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
ACC=(TP+TN)/(TP+TN+FP+FN)
図5は、発現予測の評価結果を示す図である。図5に示すように、複数回実験のテストデータでは、約76%の高精度で発現予測できることを確認できた。1回実験のテストデータは、複数回の実験を行った場合に比べ信頼性が低いが、約70%の精度で発現予測できることを確認できた。
[評価方法]
上記の表3に記載したパラメータを用いて、大腸菌発現系での可溶性予測を行った。
(複数回実験のテストデータ)
複数回の実験を行った189個のDNA配列のうちの152個を事前データとして用いて機械学習を行い、統計モデルを生成した。機械学習の方法は、Random Forest、adaBoost、Support Vector Machineを用い、各方法により生成した統計モデルを用いて可溶性予測を行った。189個のDNA配列のうちの残りの37個をテストデータとし、発現予測装置による可溶性予測を行い、実験結果と比較して予測精度を求めた。
(1回実験のテストデータ)
上記の189個のDNA配列のすべてを事前データとして用いて機械学習を行い、統計モデルを作成した。そして、1回だけ実験を行ったDNA配列をテストデータとし、発現予測装置による発現予測を行い、実験結果と比較して予測精度を求めた。
(比較例)
下記式(1)に示すWilkinson and Harrisonモデルを用いて、上記37個のDNA配列のテストデータについて可溶性予測を行い、実験結果と比較して従来手法による予測精度を求めた。
予測精度の計算方法は、上記した実施例1と同様に、予測結果を下記表5に示す4つのカテゴリに分ける。
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
ACC=(TP+TN)/(TP+TN+FP+FN)
図6は、可溶性予測の評価結果を示す図である。図6に示すように、複数回実験のテストデータでは、70%以上の高精度で可溶化予測できることを確認できた。また、従来手法に比べて予測精度が10%以上向上することを確認できた。1回実験のテストデータでも、従来手法に比べて精度が向上することを確認できた。
10 DNA配列入力部
12 パラメータ値算出部
14 タンパク質構造計算部
16 発現判定部
18 統計モデル記憶部
20 結果出力部
22 発現可溶性判定部
24 統計モデル記憶部
Claims (28)
- 大腸菌発現系での遺伝子の発現を予測する装置であって、
遺伝子が発現するか否かを判定するための統計モデルであって、(1)前記遺伝子のDNA配列に含まれるコドン、(2)前記DNA配列から発現するタンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(3)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴のアミノ酸が連続する連続数、(4)前記タンパク質に含まれるディスオーダ領域の数、長さまたは割合、(5)前記タンパク質に含まれる膜貫通領域の数、(6)前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、DNA配列の発現実験結果を機械学習して生成した統計モデルを記憶した記憶部と、
DNA配列を入力する入力部と、
入力されたDNA配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるパラメータ値算出部と、
前記パラメータの値を前記統計モデルに当てはめて、前記DNA配列が発現するか否かを判定する判定部と、
判定結果を出力する出力部と、
を備える発現予測装置。 - 前記統計モデルは、さらに(7)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数をパラメータとして用いて生成した統計モデルである請求項1に記載の発現予測装置。
- 前記統計モデルは、さらに(8)前記タンパク質の表面残基中のアスパラギン酸(Asp)、グルタミン酸(Glu)、アルギニン(Arg)の数をパラメータとして用いて生成した統計モデルである請求項1または2に記載の発現予測装置。
- 前記統計モデルは、さらに(9)前記タンパク質の表面残基中の酸性、塩基性、アミド基、極性かつ電荷ありの少なくとも1種類のグループに含まれるアミノ酸の数をパラメータとして用いて生成した統計モデルである請求項1〜3のいずれかに記載の発現予測装置。
- (1)前記DNA配列に含まれるコドンのパラメータとして、AAG、AGA、AGG、CTC、GAA、GAC、GAG、GAT、GTC、GTG、TCC、TGG、TAAのうちの少なくとも1種類のコドンの個数を用いる請求項1〜4のいずれかに記載の発現予測装置。
- (1)前記DNA配列に含まれるコドンのパラメータとして、C末端から60ヌクレオチドの領域に含まれるAAT、CAG、CTA、GAC、GTA、GTGのうちの少なくとも1種類のコドンの個数を用いる請求項1〜5のいずれかに記載の発現予測装置。
- (2)前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、アスパラギン酸(Asp)、グルタミン酸(Glu)のうちの少なくとも1種類のアミノ酸の連続数を用いる請求項1〜6のいずれかに記載の発現予測装置。
- (2)前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、C末端から20アミノ酸の領域に存在するイソロイシン(Ile)の連続数を用いる請求項1〜7のいずれかに記載の発現予測装置。
- (3)前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴のアミノ酸の連続数のパラメータとして、脂肪族のアミノ酸の連続数、酸性のアミノ酸、または非極性のアミノ酸の連続数を用いる請求項1〜8のいずれかに記載の発現予測装置。
- (3)前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴のアミノ酸の連続数のパラメータとして、C末端から20アミノ酸の領域に存在する水酸基のアミノ酸の連続数を用いる請求項1〜9のいずれかに記載の発現予測装置。
- (4)前記タンパク質に含まれるディスオーダ領域の数、長さまたは割合のパラメータとして、前記タンパク質の全長に含まれるディスオーダ領域の数、長さまたは割合を用いる請求項1〜10のいずれかに記載の発現予測装置。
- (7)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、アスパラギン酸(Asp)、グルタミン酸(Glu)、ロイシン(Leu)、トリプトファン(Trp)の数を用いる請求項1〜11のいずれかに記載の発現予測装置。
- (7)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在するアスバラギン酸(Asp)のアミノ酸の数を用いる請求項1〜12のいずれかに記載の発現予測装置。
- 前記記憶部は、タンパク質が可溶性か否かを判定するための統計モデルであって、(10)前記DNA配列から発現するタンパク質のアミノ酸配列に含まれる所定のアミノ酸の数、(11)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数、(12)前記タンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(13)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴を有するアミノ酸が連続する連続数、(14)前記タンパク質に含まれるディスオーダー領域の割合、(15)前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、DNA配列から発現したタンパク質が可溶性であるか否かの実験結果を機械学習して生成した第2の統計モデルを記憶し、
前記パラメータ値算出部は、前記第2の統計モデルの生成に用いられた各パラメータの値を求め、
前記判定部は、前記パラメータの値を前記第2の統計モデルに当てはめて、前記DNA配列から発現するタンパク質が可溶性か否かを判定し、
前記出力部は、前記可溶性の判定結果を出力する請求項1〜13のいずれかに記載の発現予測装置。 - 前記第2の統計モデルは、さらに(16)前記タンパク質に含まれるディスオーダ領域の割合をパラメータとして用いて生成した統計モデルである請求項14に記載の発現予測装置。
- (10)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記タンパク質の全長に含まれるアスパラギン酸(Asp)、グルタミン酸(Glu)、グリシン(Gly)、リシン(Lys)、ロイシン(Leu)、メチオニン(Met)、トリプトファン(Trp)、チロシン(Tyr)のうちの少なくとも1種類のアミノ酸の数を用いる請求項14または15に記載の発現予測装置。
- (10)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在するアラニン(Ala)、システイン(Cys)、アスパラギン酸(Asp)、フェニルアラニン(Phe)、リシン(Lys)、チロシン(Tyr)のうちの少なくとも1種類のアミノ酸の数を用いる請求項14〜16のいずれかに記載の発現予測装置。
- (11)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数のパラメータとして、前記タンパク質の全長に含まれる脂肪族、芳香環、酸性、塩基性、含硫、非極性の少なくとも1種類のグループのアミノ酸の数を用いる請求項14〜17のいずれかに記載の発現予測装置。
- (11)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在する芳香環、酸性、塩基性、含硫の少なくとも1種類のグループのアミノ酸の数を用いる請求項14〜18のいずれかに記載の発現予測装置。
- (12)前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、前記タンパク質の全長に存在するロイシン(Leu)の連続数を用いる請求項14〜19のいずれかに記載の発現予測装置。
- (12)前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在するシステイン(Cys)、フェニルアラニン(Phe)、リシン(Lys)、バリン(Val)のうちの少なくとも1種類のアミノ酸の連続数を用いる請求項14〜20のいずれかに記載の発現予測装置。
- (13)前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴を有するアミノ酸の連続数のパラメータとして、前記タンパク質の全長に存在する含硫のアミノ酸の連続数を用いる請求項14〜21のいずれかに記載の発現予測装置。
- (13)前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴を有するアミノ酸の連続数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在する芳香環、酸性、含硫のうちの少なくとも1種類のグループのアミノ酸の連続数を用いる請求項14〜22のいずれかに記載の発現予測装置。
- (15)前記タンパク質の表面残基中のアミノ酸の数のパラメータとして、リシン(Lys)、グルタミン(Gln)のいずれかの数を用いる請求項14〜23のいずれかに記載の発現予測装置。
- (15)前記タンパク質の表面残基中のアミノ酸の数のパラメータとして、塩基性のアミノ酸の数を用いる請求項14〜24のいずれかに記載の発現予測装置。
- (14)前記タンパク質に含まれるディスオーダー領域の割合のパラメータとして、前記タンパク質の全長に含まれるディスオーダー領域の割合を用いる請求項14〜25のいずれかに記載の発現予測装置。
- 大腸菌発現系での遺伝子の発現を予測する方法であって、
遺伝子が発現するか否かを判定するための統計モデルであって、(1)前記遺伝子のDNA配列に含まれるコドン、(2)前記DNA配列から発現するタンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(3)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴のアミノ酸が連続する連続数、(4)前記タンパク質に含まれるディスオーダ領域の数、長さまたは割合、(5)前記タンパク質に含まれる膜貫通領域の数、(6)前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、DNA配列の発現実験結果を機械学習して生成した統計モデルを記憶部に記憶するステップと、
DNA配列を入力するステップと、
入力されたDNA配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるステップと、
前記パラメータの値を前記統計モデルに当てはめて、前記DNA配列が発現するか否かを判定するステップと、
判定結果を出力するステップと、
を備える発現予測方法。 - タンパク質が可溶性か否かを決定するための統計モデルであって、(10)前記DNA配列から発現するタンパク質のアミノ酸配列に含まれる所定のアミノ酸の数、(11)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数、(12)前記タンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(13)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴を有するアミノ酸が連続する連続数、(14)前記タンパク質に含まれるディスオーダー領域の割合、(15)前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、DNA配列から発現したタンパク質が可溶性であるか否かの実験結果を機械学習して生成した第2の統計モデルを記憶部に記憶するステップと、
前記第2の統計モデルの生成に用いられた各パラメータの値を求めるステップと、
前記パラメータの値を前記第2の統計モデルに当てはめて、前記DNA配列から発現するタンパク質が可溶性か否かを判定するステップと、
を備える請求項27に記載の発現予測方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009290490A JP5521236B2 (ja) | 2009-12-22 | 2009-12-22 | 発現予測装置および発現予測方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009290490A JP5521236B2 (ja) | 2009-12-22 | 2009-12-22 | 発現予測装置および発現予測方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011130677A JP2011130677A (ja) | 2011-07-07 |
JP5521236B2 true JP5521236B2 (ja) | 2014-06-11 |
Family
ID=44344085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009290490A Active JP5521236B2 (ja) | 2009-12-22 | 2009-12-22 | 発現予測装置および発現予測方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5521236B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169312B (zh) * | 2017-05-27 | 2020-05-08 | 南开大学 | 一种低复杂度的天然无序蛋白质的预测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10260805A1 (de) * | 2002-12-23 | 2004-07-22 | Geneart Gmbh | Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines Proteins |
JP2007114937A (ja) * | 2005-10-19 | 2007-05-10 | Pharma Design Inc | シグナルペプチドの予測方法 |
JP2007148991A (ja) * | 2005-11-30 | 2007-06-14 | National Institute Of Advanced Industrial & Technology | 生物学的情報処理装置、生物学的情報処理方法および生物学的情報処理プログラム |
US20090208955A1 (en) * | 2006-05-25 | 2009-08-20 | Institute For Advance Study | Methods for identifying sequence motifs, and applications thereof |
WO2008000632A1 (en) * | 2006-06-29 | 2008-01-03 | Dsm Ip Assets B.V. | A method for achieving improved polypeptide expression |
-
2009
- 2009-12-22 JP JP2009290490A patent/JP5521236B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011130677A (ja) | 2011-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Goh et al. | Co-evolutionary analysis reveals insights into protein–protein interactions | |
Liwo et al. | Prediction of protein conformation on the basis of a search for compact structures: test on avian pancreatic polypeptide | |
Neuhaus et al. | A Novel Pex14 Protein-interacting Site of Human Pex5 Is Critical for Matrix Protein Import into Peroxisomes*♦ | |
Maffucci et al. | An updated test of AMBER force fields and implicit solvent models in predicting the secondary structure of helical, β-hairpin, and intrinsically disordered peptides | |
Chew et al. | Structural characterization of the Saccharomyces cerevisiae autophagy regulatory complex Atg17-Atg31-Atg29 | |
Towse et al. | Nature versus design: the conformational propensities of D-amino acids and the importance of side chain chirality | |
Hodgman | The elucidation of protein function by sequence motif analysis | |
JP5509421B2 (ja) | 可溶性予測装置および可溶性予測方法 | |
Tsutsumi et al. | Parallel and antiparallel β-strands differ in amino acid composition and availability of short constituent sequences | |
Hedwig et al. | Group additivity schemes for the calculation of the partial molar heat capacities and volumes of unfolded proteins in aqueous solution | |
Li et al. | In silico Relationship between Configurational Entropy and Soft Degrees of Freedom<? format?> in Proteins and Peptides | |
Culka et al. | Factors stabilizing β-sheets in protein structures from a quantum-chemical perspective | |
JP5521236B2 (ja) | 発現予測装置および発現予測方法 | |
Borrman et al. | High-throughput modeling and scoring of TCR-pMHC complexes to predict cross-reactive peptides | |
Bloodworth et al. | Rosetta FlexPepDock to predict peptide-MHC binding: An approach for non-canonical amino acids | |
Humphreys et al. | Structures of core eukaryotic protein complexes | |
Costa et al. | Evaluation and comparison of the ability of online available prediction programs to predict true linear B-cell epitopes | |
Salgado et al. | Prediction of the partitioning behaviour of proteins in aqueous two-phase systems using only their amino acid composition | |
Scheck et al. | RosettaSurf—A surface-centric computational design approach | |
Kao et al. | Robust Design of Effective Allosteric Activators for Rsp5 E3 ligase using the machine learning tool ProteinMPNN | |
Heil et al. | Zinc finger binding motifs do not explain recombination rate variation within or between species of Drosophila | |
Dombkowski et al. | Disulfide recognition in an optimized threading potential | |
Juretić et al. | The preference functions method for predicting protein helical turns with membrane propensity | |
Siegert et al. | Identifying Loop-Mediated Protein–Protein Interactions Using LoopFinder | |
Liu et al. | A method for determining structure ensemble of large disordered protein: Application to a mechanosensing protein |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140319 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5521236 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |