JP4911857B2 - Multifunctional nucleotide sequence design method - Google Patents
Multifunctional nucleotide sequence design method Download PDFInfo
- Publication number
- JP4911857B2 JP4911857B2 JP2002380360A JP2002380360A JP4911857B2 JP 4911857 B2 JP4911857 B2 JP 4911857B2 JP 2002380360 A JP2002380360 A JP 2002380360A JP 2002380360 A JP2002380360 A JP 2002380360A JP 4911857 B2 JP4911857 B2 JP 4911857B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- amino acid
- codon
- oligopeptide
- base sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、複数の読み枠に生物機能を関連づけた多機能塩基配列(多機能マイクロ遺伝子)をデザインする計算科学や、該多機能塩基配列を用いて人工タンパク質を作製するタンパク質工学の分野に関する。
【0002】
【従来の技術】
ゲノム生物学、ポストゲノム生物学から得られるタンパク質の構造を機能に関する知識を、人工タンパク質上で人為再構成し積極的に利用することが可能となってきた。人工タンパク質上への合理的な機能の埋め込み方法としては、小さな塩基配列(マイクロ遺伝子)を、まず特定の生物機能を関連させるようにデザインし、しかるのちにこのマイクロ遺伝子をタンデムに重合させるか(例えば、特許文献1、非特許文献1参照。)、あるいは複数のマイクロ遺伝子を連結すること(例えば、特許文献2参照。)から、その生物機能を、マイクロ遺伝子重合体の翻訳産物である人工タンパク質上で再構成することが可能である。マイクロ遺伝子の重合には、例えば、マイクロ遺伝子重合法(例えば、特許文献1、非特許文献1参照。)があるが、この場合、マイクロ遺伝子のもつ異なる翻訳読み枠が同時に利用されるのが特徴である。マイクロ遺伝子重合法のこの特徴を生かして、複数の読み枠に同時に複数の生物機能を埋め込んだ「多機能塩基配列」をデザイン、利用することが高機能人工タンパク質の開発には必須である(例えば、特許文献3参照。)。
【0003】
従来、このような多機能塩基配列をデザインする場合、第1の機能をもつ与えられたペプチド配列を初期値として設定し、そこから遺伝暗号表をもとに1塩基ずつ塩基配列に逆翻訳して、そのペプチド配列をコードすることが可能な全ての塩基配列を計算機内に生成し、次にこの生成した全ての塩基配列がコードする第1のペプチド配列とは別の読み枠でのペプチド配列集団を計算機内に書き出し、最後にこのペプチド配列集団の中から第2、第3の機能をもつペプチドを選び出す、といったプロセスを経てデザインしていた。
【0004】
この場合、第一読み枠のペプチドの残基と残基のつなぎ目で、他の読み枠に翻訳停止コドンが出現してしまうものも同様に計算対象となってしまう。このような他の読み枠で翻訳停止コドンが出現してしまう塩基配列は、実用的な多機能遺伝子としては最終的に除外しなければならない。しかしながら、従来の上記のようなアルゴリズムの場合、予め除外することが難しく、全ての組み合わせを計算しなければならないため、膨大な計算時間が必要であった。例えば、NGNNGNNGNNGNNGNNGNGNNGNNGGというペプチド配列を第1読み枠にコードする塩基配列は約687億種存在し、その中で、第2、第3読み枠に翻訳停止コドンをもたない配列は約4000万種のみである。しかしながら、従来法では約687億種全てについて計算する必要があった。
【0005】
【特許文献1】
特開平9−322775号
【特許文献2】
特開平9−154585号
【特許文献3】
特開2001−352990号
【非特許文献1】
Proc. Natl. Acad. Sci. USA 94, 3805-3810, 1997
【0006】
【発明が解決しようとする課題】
本発明の課題は、最終的に除外されてしまうような第2、第3読み枠に翻訳停止コドンが出現する塩基配列を予め除外した形で計算を行うことにより、計算時間の大幅な短縮、計算機のメモリ使用量を大幅に短縮する多機能塩基配列の設計方法を提供することにある。
【0007】
【課題を解決するための手段】
本発明者らは、上記課題を解決するため鋭意研究し、ジペプチド配列(アミノ酸2残基)、あるいはそれ以上の長さのペプチド配列がすでに第2、第3読み枠の翻訳産物の情報を内包していることに着目し、タンパク質を20種のアミノ酸の連結産物として分析する従来の方法とは異なり、ジペプチド配列(アミノ酸2残基)あるいはそれ以上の長さの短い配列の重複連結産物として分析・計算することによって、第2、第3読み枠の翻訳産物の情報を含んだ形で情報解析し、計算時間の大幅な短縮、計算機のメモリ使用量を大幅に短縮することができることを見い出した。
【0008】
1アミノ酸単位で塩基配列に逆翻訳する処理過程の例を図1に示してある。例えばロイシン(Leu)をコードするコドンは、TTA、TTG、CTT、CTC、CTA、CTGの6種類存在する。同じようにセリン(Ser)をコードするコドンは、TCT、TCC、TCA、TCG、AGT、AGCの6種類存在する。“Leu-Ser”といったジペプチドをコードする可能な全ての塩基配列を逆翻訳する場合には、6×6=36種の塩基配列をまず計算機の中に発生させる。さらに、第3番目にアルギニン(Arg)が位置するような配列“Leu-Ser-Arg”を考えるなら、36×6=216種の塩基配列を計算機の中に発生させる。このようにして、N番目に位置するアミノ酸をコードする可能性のあるコドン(1種〜6種)を乗算して得られる合計に相当する種類の塩基配列を計算機の中に発生させた後に、この中で、他の読み枠に翻訳終止コドン(TAA、TAG、TGA)が含まれるものを除外する作業に入る。このように他の読み枠に翻訳終止コドンを有するものは、最終的に多機能塩基配列として利用できないので、この段階であらかじめ除外しておくと、その後の計算処理の負担が大幅に軽減することができる。
【0009】
ここで、ポリペプチド配列を20種のアミノ酸残基が連結したものと捉えるのではなく、400種のジペプチドの集合として捉えた処理を次に考えてみる。ジペプチドをコードする塩基配列を考える場合、その塩基配列には、すでに、第2、第3読み枠の第1番目のアミノ酸残基の種類が一義的に決められていることになる。したがって、ジペプチドをコードする塩基配列集団の中から、あらかじめ、終止コドンを含むものを除外しておくことが可能となる。上記図1に示されるように、“Leu-Ser”といったジペプチドをコードする可能な全ての塩基配列36種の中で、第2読み枠に終止コドンを含むものが8つ、第3読み枠に終止コドンを含むものが2つ存在する。したがって、“Leu-Ser”に対応するコドンとして、36−10=26種を用意しておくことで、終止コドンをあらかじめ除外した形で、計算機内に塩基配列を発生させることが可能となる。
【0010】
例えば、“Leu-Ser-Arg”といった3残基からなるペプチドを逆翻訳してそれをコードする塩基配列を計算機内に発生する場合、この配列を“Leu-Ser”と“Ser-Arg”の2つのジペプチドが連結した配列として処理をする。“Leu-Ser”に対応したコドンは、上記のとおり、6×6−10=26種として以後計算すればよく、“Ser-Arg”に対応したコドンは、6×6−4=32種(4種が第2読み枠に終止コドンを含む。)として計算すればよい。したがって、“Leu-Ser-Arg”を第1読み枠でコードし、第2、第3読み枠には終止コドンを含まない長さ9-merの全ての塩基配列を求めるためには、図2に示すように、26種の“Leu-Ser”6-merコドンと、32種の“Ser-Arg”6-merコドンを、セリンの同じコドンを用いる組み合わせを選び連結することで可能となる。その結果、従来法によるコドンの組み合わせでは、6×6×6=216種の配列を計算機内に書きだしていた作業を、図2にあるように、(6×4)+(6×6)+(6×6)+(6×6)+(1×4)+(1×6)=142種の配列の処理計算ですむことになる。
【0011】
このようにポリペプチド配列をジペプチド単位の集合として処理し、好ましくは重複アミノ酸残基を有する連続したジペプチド単位の集合として処理し、このジペプチド単位のコドンからあらかじめ第2、第3読み枠に終止コドンをもつものを除いたジペプチドコドン対応表(ジペプチドをコードする核酸配列対応表)をあらかじめ用意しておくことにより、最終的に終止コドンが出現するために除外されてしまうような配列処理を回避した形の演算が可能となる。実際、このようなアルゴリズムを利用することにより、後述するように大幅な計算時間の短縮が可能となる。さらに、必要とするメモリサイズの大幅な軽減も可能となる。
【0012】
また、図3からわかるように、終止コドンをあらかじめ除去したジペプチドコドン表を3つの読み枠で翻訳することにより、第2、第3読み枠の最初のアミノ酸の種類が一義的に決定されていることが分かる。例えば、“Leu-Ser”における配列TTATCTにおける第1読み枠TTAはロイシン(L)であるが、第2読み枠の最初のアミノ酸はTATでコードされるチロシン(Y)、第3読み枠の最初のアミノ酸はATCでコードされるイソロイシン(I)と一義的に決定される。したがって、いちいち塩基配列へと逆翻訳することなしに、ジペプチドが与えられると、その位置での第2、第3読み枠のアミノ酸のとりうる種類が一義的に決まってくる。この「ジペプチド−読み枠別アミノ酸対応表」をあらかじめ準備することにより、塩基配列への逆翻訳処理を回避した、大幅な計算処理の削減を行うことが可能となる。ただし、この場合、図2で見られたような、第1ジペプチド情報と第2ジペプチド情報の連結に必要な情報が含まれていないために、可能な「組み合わせ」の情報を得るためには、別の情報の追加が必要となる。しかしながら、与えられた第1読み枠のペプチド配列から出発した場合の、第2、第3読み枠に出現可能なアミノ酸の種類の割り出しや、その大ざっぱな存在比の知見を得るには、十分な量の情報を与えることができる。
【0013】
上記の「ジペプチド−読み枠別アミノ酸対応表」に、さらに、例えば、その用いているコドンの種類の情報を加えることにより、第2、第3読み枠に出現可能なアミノ酸の組み合わせに関する情報も付与することができる。これは、図2で行った塩基配列に逆翻訳する処理と同じ内容となってしまうが、使用メモリの削減と、コドン使用頻度に対する情報などの、その他の情報も埋め込んだ処理ができるのが特徴である。
本発明は、以上の知見に基づいて完成するに至ったものである。
【0014】
すなわち本発明は、
(1)塩基配列の読み枠を異にした場合、該塩基配列が2以上の機能を有する多機能DNAを設計するためにコンピュータを、
(a)3つの読み枠のうち1つの読み枠の塩基配列によりコードされるタンパク質又はペプチドアミノ酸配列と、
複数種のオリゴペプチド単位の連続であって、互いに隣接するオリゴペプチド単位において、隣接する一方のオリゴペプチド単位の最後のアミノ酸配列が、隣接する他方のオリゴペプチド単位の最初のアミノ酸配列と重複しているオリゴペプチド単位の連続からなるアミノ酸配列とが、
同じアミノ酸配列になるような、オリゴペプチド単位の集合を導き出す手段、
(b)オリゴペプチド単位が内包する他の読み枠の塩基配列の中から、終止コドンを含むものを除外処理する手段、
(c)連続したオリゴペプチド単位をコードする塩基配列のうち、隣接する重複アミノ酸残基に対応する重複コドンの一方のコドンを除いた塩基配列を連結処理する手段、及び
(d)前記連結処理された塩基配列の他の読み枠にコードされるアミノ酸配列の中から、所望の配列を含むものを選択処理する手段、
として機能させるための、多機能DNAの設計プログラムであって、
前記オリゴペプチド単位におけるオリゴペプチドがアミノ酸残基2〜8個が連結したペプチドである、多機能DNAの設計プログラムや、
(2)オリゴペプチド単位が内包する他の読み枠の塩基配列の中から、終止コドンを含むものを除外処理する手段に代えて、
オリゴペプチド配列が内包する他の読み枠の塩基配列の中から、終止コドンを含むものをあらかじめ除外処理しておくことによって、オリゴペプチド配列をコードする核酸配列対応表をあらかじめ作成しておき、この対応表を連結処理手段で用いる手段として、コンピュータを機能させる、上記(1)記載の多機能DNAの設計プログラムに関する。
【0015】
また本発明は、(3)塩基配列が、2本鎖の塩基配列である、上記(1)又は(2)記載の多機能DNAの設計プログラムに関する。
【0016】
さらに本発明は、(4)オリゴペプチド単位が、ジペプチド単位又はトリペプチド単位である、上記(1)〜(3)のいずれか記載の多機能DNAの設計プログラムに関する。
【0017】
【発明の実施の形態】
本発明の多機能塩基配列の設計方法としては、塩基配列の読み枠を異にした場合、該塩基配列が2以上の機能を有する多機能塩基配列の設計方法であって、3つの読み枠のうち1つの読み枠の塩基配列によりコードされるタンパク質又はペプチド(通常、これらのタンパク質又はペプチドは第1読み枠の翻訳産物として与えられている)をオリゴペプチド単位の集合、好ましくはジペプチド単位の集合として処理し、オリゴペプチド配列、好ましくはジペプチド配列が内包する他の読み枠の塩基配列情報を利用する設計方法であれば特に制限されるものではないが、ジペプチド配列をコードする核酸配列対応表(ジペプチドコドン対応表)に代表されるオリゴペプチド配列をコードする核酸配列対応表をあらかじめ作成し、この対応表を用いることが好ましい。ここで、オリゴペプチドとはアミノ酸残基2〜8個が連結したペプチドをいう。
【0018】
ジペプチドのコドンの組み合わせは、64−3の2乗で3721通りあり、第2読み枠、第3読み枠でストップコドンが出現するのは共に192通りであることから、ジペプチドコドン表の作成により、384/3721=10%強があらかじめ計算対象から除外されることになる。例えば、前記のように、“Leu-Ser”では10/36に、“Ser-Arg”では4/36があらかじめ計算対象から除外されることになる。例えば、計算対象から除外される組み合わせが多いジペプチド配列として、ロイシン−トレオニン“Leu-Thr”を挙げることができる。“Leu-Thr”のコドンの組み合わせ6×4=24通りのうち、終止コドンにより計算中止となるものが16種(TTA ACT; TTA ACC; TTA ACA; TTA ACG; TTG ACT; TTG ACC; TTG ACA; TTG ACG; CTAACT; CTAACC; CTAACA; CTAACG; CTGACT; CTGACC; CTGACA; CTGACG)、計算継続になるものが8種(CTT ACT; CTT ACC; CTTACA; CTTACG; CTCACT; CTCACC; CTCACA; CTCACG;)であり、実に2/3が計算対象からあらかじめ除外されることになる。また、メチオニン−イソロイシン“Met-Ile”では3種(ATGATT; ATGATC; ATGATA)すべてが、第2読み枠に終止コドンTGAを有することになり、計算対象から除外されることから、与えられたタンパク質又はペプチドのアミノ酸配列に“Met-Ile”のジペプチド配列が存在するかどうかをあらかじめチェックすることにより、計算時間を大幅に短縮することもできる。
【0019】
上記ジペプチドコドン対応表としては、プログラム上計算中止となる場合のコドンテーブルとすることもできるが、通常、プログラム上計算継続となる場合のコドンテーブルを400種類作成して準備しておけばよく、かかるコドンテーブルとしては、例えば、ジペプチドの最初のアミノ酸ごとに作成しておくことができる。図4には、ジペプチドコドン表のうち、ジペプチドの最初のアミノ酸がA(アラニン)の場合の20種類のコドンテーブルがAA,AC,AD,・・・の順に示されている。
【0020】
本発明の多機能塩基配列の設計方法においては、重複アミノ酸残基を有する連続したオリゴペプチド単位、好ましくはジペプチド単位の集合として処理し、連続したジペプチド単位における重複アミノ酸残基のコドンが一致するジペプチド単位を連結する処理を行うことが好ましい。このアルゴリズムを用いることにより、オリゴペプチドコドン対応表を作成することが可能となる。例えば、前記のように、“Leu-Ser-Arg”といった3残基からなるペプチドを逆翻訳してそれをコードする塩基配列を計算機内に発生する場合、この配列を“Leu-Ser”と“Ser-Arg”の2つのジペプチドが連結した配列とし、重複アミノ酸残基であるセリンのコドンが一致するジペプチド単位を連結して処理をすることにより、トリペプチド“Leu-Ser-Arg”コドン対応表を作成することができ、このトリペプチド“Leu-Ser-Arg”コドン対応表を用いると74種が除外され、処理計算対象が142/216に軽減される。同様に、“Leu-Thr-Lys”の場合は“Leu-Thr”と“Thr-Lys”の2つのジペプチドが連結した配列とし、重複アミノ酸残基であるトレオニンのコドンが一致するジペプチド単位を連結して処理をすることにより12/48に軽減され、“Leu-Arg-Ser”の場合は“Leu-Arg”と“Arg-Ser” の2つのジペプチドが連結した配列とし、重複アミノ酸残基であるアルギニンのコドンが一致するジペプチド単位を連結して処理をすることにより144/216に処理計算対象が軽減される。このようにして、テトラペプチド単位以上のオリゴペプチド単位のコドン対応表を作成することができる。
【0021】
本発明の多機能塩基配列の設計方法においては、オリゴペプチド単位、好ましくはジペプチド単位が内包する他の読み枠の塩基配列によってコードされるアミノ酸残基を連結する処理を行うことができる。例えば、図3に示されるように、ジペプチドの組み合わせ“Leu-Ser”の場合(LSの場合)、与えられた第1読み枠のペプチド配列から出発した場合、第2読み枠に出現可能なアミノ酸の種類はC,F,S,Yとなり、第3読み枠に出現可能なアミノ酸の種類はF,I,L,R,Vとなる。そして、このような「ジペプチド−読み枠別アミノ酸対応表」を用いたアルゴリズムを利用すると、第2読み枠ではC;8(8/26=0.31),F;4(4/26=0.15),S;6(6/26=0.23),Y;8(8/26=0.31)、第3読み枠ではF;4(4/26=0.15),I;8(8/26=0.31),L;4(4/26=0.15),R;2(2/26=0.08),V;8(8/26=0.31)と、第2読み枠や第3読み枠に出現可能なアミノ酸残基のおおよその存在比がわかる。
【0022】
本発明の多機能塩基配列の設計方法においては、オリゴペプチド単位、好ましくはジペプチド単位やトリペプチド単位が内包する他の読み枠の塩基配列の中から、終止コドンを含むものを除外する処理の他に、所望の配列の全部又は一部を含むものを選択する処理を行うこともできる。かかる所望配列選択処理は、終止コドンが除外された塩基配列に対して行うことが好ましいが、終止コドンが除外されていない塩基配列に対しても行うことができる。上記所望の配列としては、所望の機能を有する配列を挙げることができ、かかる所望の機能としては、その塩基配列の全部又は一部の翻訳産物が有する機能と、その全部又は一部の塩基配列自体が有する機能に大別することができる。
【0023】
上記翻訳産物が有する機能としては、αヘリックス形成等の二次構造を形成しやすい機能、ウイルス等の中和抗体を誘導する抗原機能、免疫賦活化する機能(Nature Medicine,3:1266-1270,1997)、細胞増殖を促進又は抑制する機能、癌細胞を特異的に認識する機能、プロテイン・トランスダクション機能、細胞死誘導機能、抗原決定残基呈示機能、金属結合機能、補酵素結合機能、触媒活性機能、蛍光発色活性機能、特定の受容体に結合してその受容体を活性化する機能、信号伝達に関わる特定の因子に結合してその働きをモジュレートする機能、タンパク質,DNA,RNA,糖などの生体高分子を特異的に認識する機能、細胞接着機能、細胞外へタンパク質を局在化させる機能、特定の細胞内小器官(ミトコンドリア、葉緑体、ERなど)にターゲットする機能、細胞膜に埋め込まれる機能、アミロイド繊維形成機能、繊維性タンパク質の形成機能、タンパク質性ゲル形成機能、タンパク質性フィルム形成機能、単分子膜形成機能、自己集合機能、粒子形成機能、他のタンパク質の高次構造形成を補助する機能、無機結晶を認識する機能、無機結晶の成長を制御する機能等を具体的に例示することができる。また、上記塩基配列そのものが有する機能としては、金属結合機能、補酵素結合機能、触媒活性機能、特定の受容体に結合してその受容体を活性化する機能、信号伝達に関わる特定の因子に結合してその働きをモジュレートする機能、タンパク質,DNA,RNA,糖などの生体高分子を特異的に認識する機能、RNAを安定化させる機能、翻訳の効率をモジュレートする機能、特定遺伝子の発現を抑制する機能などを例示することができる。
【0024】
本発明の多機能塩基配列の製造方法としては、本発明の多機能塩基配列の設計方法を用いて、2以上の機能を有する塩基配列を選択する過程を含む塩基配列の製造方法であれば特に制限されるものではなく、その対象となる多機能塩基配列としては、塩基配列の読み枠を異にした場合、該塩基配列が2以上の機能を有する塩基配列であればどのようなものでもよく、塩基配列としては1本鎖又は2本鎖のDNA配列又はRNA配列を具体的に例示することができ、また、これらは線状構造あるいは環状構造のどちらでもよいが、重合方法が確立されている線状構造のものが好ましい。また、上記多機能塩基配列としては、塩基配列の読み枠が1つずつずれた3つの読み枠のすべてにストップコドンが存在しないことが、特に2本鎖からなる塩基配列の場合は塩基配列の6つの読み枠のすべてにストップコドンが存在しないことが好ましい。さらに、かかる多機能塩基配列を重合したときの連結部(結合部)にストップコドンが生起することがない塩基配列が特に好ましい。
【0025】
本発明における多機能塩基配列の大きさとしては特に制限されるものではないが、15〜500の塩基又は塩基対、特に15〜200の塩基又は塩基対、さらに15〜100の塩基又は塩基対の大きさの塩基配列が、DNA合成を安定して行えるという点で好ましい。また、本発明の多機能塩基配列として、前記マイクロ遺伝子のランダム重合体作成方法(特開平9−154585号公報)やマイクロ遺伝子重合法(特開平9−322775号公報)等により重合するための修飾が施されている多機能塩基配列や、天然由来の塩基配列が結合されている多機能塩基配列を用いることもできる。
【0026】
そして、所定の機能と同一又は異なる生物機能を有する塩基配列は、コンピューターを用いる計算科学的手法により選択することができ、より具体的には、生物機能予測プログラムを用いたときのスコアーによって選択する手法を例示することができる。上記生物機能予測プログラムとしては、タンパク質やペプチドの生物機能とタンパク質やペプチドの一次構造との相関を統計的に処理して作成したプログラムを例示することができ、例えば、ペプチドの二次構造形成能力は文献(Structure, Function, and Genetics 27:36-46 ,1997)記載の方法を用いて評価することができる。この方法を用いることにより与えられたペプチド配列の、各残基位置での予想されるαヘリックス、βストランドの形成可能性が数値化される(可能性が高いほど大きな値)。与えられたペプチド配列の全ての残基の、αヘリックス、βストランドの形成可能性値をそれぞれ合計した値を、与えられたペプチド配列のαヘリックスの形成のしやすさ、βストランドの形成のしやすさの値として計算し、評価に用いることができる。その他、機能予測プログラムとして、例えば「PROSITE」(Nucleic Acids Res.,27:215-219,1999)に登録されている既知のモチーフとの類似性を検出する場合における「Motiffindプログラム」(Protein Sci.,5:1991-1999,1996)等のタンパク質ファミリーデータベースや、天然タンパク質との類似性から機能を予測する場合における類似性検索プログラム「blast」(J.Mol.Biol.,215:403-410,1990)や、信号伝達系のいろいろなタンパク質因子との類似性を計算する場合における「SMART」プログラム(Proc.Natl.Acad.Sci.USA,95:5857-5864,1998)や、細胞外や細胞内小器官へタンパク質を局在化させる能力を評価する場合における「PSORT」プログラム(Biochem.Sci.,24:34-35,1999) や、細胞膜に埋め込まれる能力を評価する場合における「SOSUI」プログラム(Bioinformatics,4:378-379,1998)などを挙げることができる。
【0027】
また、種類の異なる2以上の多機能塩基配列をリガーゼ等を用いて結合させることにより、あるいは多機能塩基配列と天然由来の塩基配列とをリガーゼ等を用いて結合させて本発明における多機能塩基配列とすることもできる。また、本発明における多機能塩基配列の一部を個別に作製し、その後これらをリガーゼ等を用いて結合させることにより本発明の多機能塩基配列とすることもできる。そして、以上の本発明の多機能塩基配列の製造方法により製造される2以上の機能を有する多機能塩基配列もまた、本発明における多機能塩基配列に含まれる。
【0028】
本発明の人工タンパク質の製造方法としては、本発明の多機能塩基配列の設計方法を用いて、所定の機能を有するアミノ酸配列をコードする塩基配列のすべての組合せの中から、前記所定の機能を有するアミノ酸配列の読み枠とは異なる第2,第3読み枠において、前記所定の機能と同一又は異なる機能を有する塩基配列からなる人工遺伝子を選択し、かかる人工遺伝子の配列情報をもとに人工タンパク質を製造する方法であれば特に制限されるものではないが、所定の機能としては前述の生物機能が好ましく、また所定の機能と異なる生物機能が多様性を与えうる点で好ましい。上記所定の機能を有するアミノ酸配列としては、所定の機能を有するアミノ酸配列であれば全て包含され、単一のアミノ酸配列に限定されるものではなく、例えば所定の機能を有するアミノ酸配列が3つ存在する場合には、該3つのアミノ酸配列をコードする塩基配列のすべての組合せの中から、多機能塩基配列が選択されることになる。かかる所定の機能を有するアミノ酸配列としては、例えば前記エイズウイルス中和抗原の配列や、白血球に対するサイトカインであるαケモカインがもつGlu−Leu−Arg等のモチーフ構造などの既知の配列の他に、該既知配列に1又は2以上のアミノ酸が欠失、置換又は付加され、かつ該既知配列と同様な機能を有する配列や、各生物間でよく保存されている特定の生物機能に関する共通配列や、既存のヒトタンパク質に忌避されているアミノ酸配列からなるヒト免疫系の監視をすり抜ける可能性がある配列など未知の配列を例示することができる。
【0029】
【実施例】
以下に、実施例を揚げてこの発明を更に具体的に説明するが、この発明の範囲はこれらの例示に限定されるものではない。
(実施例1)
初期配列NGNNGNNGNNGNNGNNGNGNNGNNGG(S1)を与え、このアスパラギン(N)とグリシン(G)からなるペプチド配列をコードする塩基配列のうち、終止コドンを含まない塩基配列の生成を、図5に示される処理フローに従って計算機上で行った。このペプチド配列の第1読み枠にコードする塩基配列の総パターン数は約687億種にのぼり、従来の方法ではこの全てについて処理を行っていたが、本発明の「ジペプチド核酸配列対応表」を用いたアルゴリズムを適応することによって、第2、第3読み枠に翻訳停止コドンをもたない約4000万種に対する処理を行うだけでよいことになり、その結果、従来の手法では計算時間に約2週間程度要していたが、本発明のアルゴリズムを利用したところ、約15分に短縮された。これにより、総パターン数に対し、約99.95%の無駄な計算処理を回避できることができた。なお、計算にはOS:Solaris2.7、CPU:Ultra SPARC-IIの仕様のコンピュータを用いた。
【0030】
(実施例2)
実施例1と同様に、初期配列YNGDNGNNGDNGNNG(S2)を与え、このペプチド配列をコードするDNA配列の生成を計算機上で行ったところ、第1読み枠にコードする塩基配列の総パターン数約100万種が、本発明の「ジペプチド核酸配列対応表」によるアルゴリズムを適応することによって、第2、第3読み枠に翻訳停止コドンをもたない約1万種に対する処理を行うだけでよいことがわかった。
【0031】
(実施例3)
実施例1と同様に、初期配列NGNGNGNGNGLNYLKSLYGGYG(S3)を与え、このペプチド配列をコードするDNA配列の生成を行ったところ、第1読み枠にコードする塩基配列の総パターン数約870億種が、本発明の「ジペプチド核酸配列対応表」によるアルゴリズムを適応することによって、第2、第3読み枠に翻訳停止コドンをもたない約5億7千万種に対する処理を行うだけでよいことがわかった。
【0032】
(実施例4)
さらに具体的なコンピュータプログラムによる塩基配列を生成する処理の例を、図6〜図16を使用して説明する。
【0033】
1)アミノ酸2残基に対応するコドン一覧ファイルを作成する処理。
一覧ファイルは1残基目の各アミノ酸につき、それぞれ2残基目のアミノ酸の種類の数である20ファイルが作成される(ファイルの例を図10に示す。このファイルの内容については後述する。)ため、20種類のアミノ酸残基を2残基ずつ組み合わせ、400通りのアミノ酸2残基の組み合わせを作成する。この処理を、図8〜図11、図15を用いて説明する。
なお、このコドン一覧ファイルの作成過程において、ストップコドンが含まれる組み合わせを削除していく。以下具体的に説明する。
【0034】
図15に示すように一覧ファイル作成処理を実行するコンピュータ1上に、コドンパターン数テーブル13と、アミノ酸−コドン対応テーブル14とを準備する。その上で、制御部(CPU)11が後述する(図8、図9)処理プログラムを記録したプログラムファイル12を読み出して該処理プログラムを実行してゆき、一覧ファイル15を作成する。
なお、このプログラムファイル12は図示しないドライブ装置によって可換記録媒体から読み出され、コンピュータ1にインストールするように構成しても良く、他の実施形態として、コンピュータ1にネットワークを接続して該プログラムファイルをダウンロードする構成としても良い。
【0035】
コドンパターン数テーブル13(図6参照)はアミノ酸毎に通番(No/以下の説明では、この通番(No)を「アミノ酸ナンバー」と表記する)が付与されると共に、それぞれのアミノ酸に存在するコドンのパターン数が対応づけて設定される。またアミノ酸−コドン対応テーブル14(図7参照)は、上記のコドンパターン数テーブルと共通のアミノ酸ナンバーが付与されると共に、それぞれのアミノ酸に対応するコドンが格納される。
なお、本実施形態ではコドンパターン数テーブルと、アミノ酸−コドン対応テーブルを独立したものとしたが、これらをまとめたテーブル(アミノ酸の名称と及びアミノ酸ナンバーごとに、パターン数と、コドンの配列とを対応づけたテーブル)を準備するようにしても良い。
【0036】
次に、これらのテーブルを用いて、20種類のアミノ酸ごとにコドン一覧ファイルを作成する。この作成処理(上記プログラムファイル3により実行される処理)を、図8及び図9のフローチャートを用いて説明する。
(S101)コドン一覧ファイルを作成するアミノ酸1残基目を示す変数amino1Noに、初期値1を代入する。
(S102)アミノ酸ナンバーがaminoNo1番目のアミノ酸に関するコドン一覧ファイルをオープンする。本実施形態では、ファイル名は「アミノ酸1残基目名称+amino_to_codon.dat」とする。また、このコドン一覧ファイルにファイルヘッダ「アミノ酸1残基目名称+2amino to codon library(アミノ酸1残基目名称+is first)」を記入する。
図10に示す例はアミノ酸1残基目が「Y」のコドン一覧ファイルであるので、ファイル名は「Yamino_to_codon.dat」となり、ファイルヘッダは「Y 2amino to codon library(Y is first)となっている。
(S103)つなげる対象であるアミノ酸2残基目のアミノ酸ナンバーを示す変数amino2Noに初期値1を代入する。
(S104)コドンパターン数テーブルより、アミノ酸1残基目のアミノ酸ナンバーaminoNo1のコドンパターン数と、アミノ酸2残基目のアミノ酸ナンバーaminoNo2のコドンパターン数を読み出して、それぞれ変数pattern1,pattern2に代入する。
アミノ酸1残基が「Y」であり(この場合amino1Noは初期値1ではなく、20がセットされている状態である)は、アミノ酸2残基が「A」である(amino2Noは1である)場合は、pattern1には値2が、pattern2には値4がセットされる。
(S105)アミノ酸1残基目のアミノ酸−コドン対応テーブルに格納されたコドンの順番である変数codon1と、アミノ酸2残基目のアミノ酸−コドン対応テーブルに格納されたコドンの順番である変数codon2に、それぞれ初期値1を代入する。
(S106)アミノ酸−コドン対応テーブルから、アミノ酸ナンバーがamino1Noのアミノ酸のレコードにある、codon1番目のコドンを読み出す。これによりアミノ酸1残基目の1コドンが取得される。
アミノ酸1残基が「Y」である場合、codon1が1であれば「TAT」、2であれば「TAC」が読み出される。
(S107)アミノ酸−コドン対応テーブルから、アミノ酸ナンバーがamino2Noのアミノ酸のレコードにある、codon2番目のコドンを読み出す。これによりアミノ酸2残基目の1コドンが取得される。
アミノ酸2残基が「A」である場合、codon2が1であれば「GCT」が読み出される。
(S108)上記S106,S107にて取得された、アミノ酸1残基目のコドンと、アミノ酸2残基目のコドンとを結合する。
(S109)上記S107で結合したコドンにストップコドン「TAA」「TAG」「TGA」が含まれているかを調べる。例えばS108で結合したコドンが「TATAAT」である場合はストップコドン「TAA」が含まれているので、下記S110は実行しない。
(S110)上記S109にてストップコドンがふくまれていなかった結合コドンを、コドン一覧ファイルに書き出す。
【0037】
図10の例はアミノ酸1残基が「Y」である場合であり、アミノ酸2残基が「A」の場合で、上記S110にて結合コドン「TATGCT」を作成したときに、この2残基目が「A」であるレコードに結合コドン「TATGCT」を書き出す。
(S111、S112)変数codon2がpattern2より小さいかをチェックする。codon2がpattern2より小さい場合は、codon2を1つカウントアップさせて上記S105〜S110の処理を実行する。これはアミノ酸−コドンテーブルにおけるアミノ酸2残基のレコードから、次のコドンを読み出してつなげる処理を行うためである。
codon2がpattern2より小さくない(同じになった)場合は、アミノ酸2残基のレコードからコドンを全て読み出してコドン一覧ファイルに書き出す処理が完了したこととなるので、S113に進む。
(S113、S114)変数codon1がpattern1より小さいかをチェックする。codon1がpattern1より小さい場合は、codon1を1つカウントアップさせて上記S105〜S112の処理を実行する。これはアミノ酸−コドンテーブルにおけるアミノ酸1残基のレコードから、次のコドンを読み出してつなげる処理を行うためである。
codon1がpattern1より小さくない(同じになった)場合は、アミノ酸1残基のレコードからコドンを全て読み出してコドン一覧ファイルに書き出す処理が完了したこととなるので、S115に進む。
(S115、S116)変数amino2Noが20より小さいかチェックする。amino1Noが20より小さい場合は、aminoNo2を1つカウントアップさせて上記S104〜S114の処理を実行する。これはアミノ酸1残基目がaminoNo1のアミノ酸のコドン一覧ファイルを作成する過程で、次のアミノ酸2残基のレコードを作成するためのものである。
【0038】
図10の例で、アミノ酸2残基が「A」である結合コドンを全て書き出した場合は、aminoNo2が1から2にカウントアップされるので、アミノ酸ナンバーが2であるアミノ酸「C」に関するレコードを作成する処理に移行することになる。
(S117、S118)変数amino1Noが20より小さいかチェックする。amino1Noが20より小さい場合は、aminoNo2を1つカウントアップさせて上記S102〜S116の処理を実行する。これはアミノ酸1残基目がaminoNo1のアミノ酸のコドン一覧ファイルの作成が終了したので、次のアミノ酸1残基のコドン一覧ファイルを作成するためのものである。
このようにして図10のようなコドン一覧ファイルが、アミノ酸毎に作成される。アミノ酸とコドン一覧ファイルの対応の一覧を図11に示す。このようにアミノ酸の種類は20種類あるので、20ファイルが作成される。
【0039】
2)入力されたペプチド配列から、全DNA配列を生成する処理。
入力がなされたペプチド配列から、上記1の処理にて作成されたコドン一覧ファイルを用いて、全DNA配列を生成する処理(コンピュータプログラム)を、図12〜図14、図16を用いて説明する。
アミノ酸2残基の組み合わせごとにとり得るコドンパターンであって終止コドンは含まないコドンパターンの集合を記録した配列対応表がコンピュータに設定され、入力されたペプチド配列(N個のアミノ酸残基の配列)のi(iは1からN−2の整数)番目からのアミノ酸2残基のコドンパターンと、該ペプチド配列のi+1番目からのアミノ酸2残基のコドンパターンとを前記配列対応表から読み出して、前記ペプチド配列のi番目のアミノ酸2残基のコドンパターンの末尾から3塩基と、前記該ペプチド配列のi+1番目のアミノ酸2残基の前半3塩基とが一致するかを判別し、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半3塩基をつなげる処理を、入力されたペプチド配列のN個のアミノ残基に対応する塩基配列が作成されるまで実行することにより、ペプチド配列に対応する塩基配列を設計するものである。
【0040】
以下、上記の処理を更に詳細に説明する。
図16に示すように入力手段21を有するコンピュータ2上に一覧ファイル24を準備し、その上で、制御部22が後述する(図12、図13に開示する)処理プログラムを記録したプログラムファイル23を読み出して該処理プログラムを実行してゆき、一覧ファイル27を作成する。なお、その過程でコンピュータのメモリ上には、第一ワークメモリ領域25、第二ワークメモリ領域26が確保される。
なお、このコンピュータ11は上述した一覧ファイル作成処理を実行するコンピュータと同一のものを用いてもよく、その場合、一覧ファイル15は図15における一覧ファイル4と同一のものが用いられる。
また、既に(別途)作成された一覧ファイルをコンピュータ11に組み込むように構成しても良い。
プログラムファイル23については図示しないドライブ装置によって可換記録媒体から読み出され、コンピュータ2にインストールがなされるように構成しても良く、他の実施形態として、コンピュータ2にネットワークを接続して該プログラムファイルをダウンロードする構成としても良い。
【0041】
図12、図13は本実施態様の処理を示すフローチャートであり、また図14は入力配列が「YNGDNN」の場合における、処理の流れの一例を説明する図である。
(S201)まず、変数iに初期値1を代入する。
(S202)入力配列のi番目からアミノ酸2残基を取得し、i残基目のコドン一覧ファイルから、i+1残基目のコドンパターンを取得し、第一ワークメモリ領域に書き出す(なお、図12、図13のフローチャートにおいては、第一ワークメモリ領域を第一領域、第二ワークメモリ領域を第二領域と略している。)。
図14の例を用いて説明すると、まずiが初期値1のとき、アミノ酸1残基目は「Y」なので、コドン一覧ファイル「Yamino_to_codon.dat」(図11参照)から、アミノ酸2残基目が「N」のコドンパターンである「TACAAT」と「TACAAC」が読み出され、第一ワークメモリ領域に書き出される(図14▲1▼)。
(S203)入力配列のi+1番目からアミノ酸2残基を取得し、i+1残基目のコドン一覧ファイルから、i+2残基目のコドンパターンを取得し、第二ワークメモリ領域に書き出す。
図14▲1▼の例で、iが初期値1のときはアミノ酸i+1残基目、即ちアミノ酸2残基目が「N」なので、コドン一覧ファイル「Namino_to_codon.dat」(図示は省略するが、上述したようにアミノ酸「N」の場合についても図11に示すようなアミノ酸「Y」の場合と同様なコドン一覧ファイルが作成されている)より、アミノ酸3残基目が「G」のコドンパターンである「AATGGT」など8つのコドンパターンを全て読み出し、第二ワークメモリ領域に書き出される。
(S204)第一ワークメモリ領域、第二ワークメモリ領域に書き出されたコドンパターンをつなげて、DNA配列をDNA配列ファイルに書き出す処理を行う。この処理の詳細は、図13を用いて後述する。
(S205)変数iが入力配列数−1に達したかどうかを判断する。図14の例では入力配列長は6なので、iが5に達していれば入力配列長である6番目のアミノ酸「N」までコドンパターンをつなげる処理が終了したことになるので、処理は終了となり、既に出力ファイルに書き出されたDNA配列が最終的なDNA配列となる。
(S206)変数iが入力配列数−1に達していない場合は、iを1歩進させる。
(S207)続いてDNA配列ファイルに記録されているコドンパターンを取得し、第一ワークメモリ領域に書き出す。
本実施例ではDNA配列ファイルに記録されているコドンパターンは全て第一ワークメモリ領域に書き込んでいるが、配列ファイルに出力されているコドンパターンの数が多くなるとメモリ領域が増大するので、コドンパターンを一つずつ書き出すように構成しても良い。
【0042】
続いて、上記S204の処理を、図13を用いて説明する。
(S301)変数codonNo1,codonNo2に、それぞれ初期値1を代入する。
(S302)第一ワークメモリ領域から、codonNo1番目のコドンパターン(これをコドンパターン1と称する)を読み出す。
図14▲1▼の例では、最初はTACAATが読み出される。
(S303)第二ワークメモリ領域から、codonNo2番目のコドンパターン2(これをコドンパターン2と称する)を読み出す。
図14▲1▼の例では、最初はAATGGTが読み出される。
(S304)上記S302で読み出されたコドンパターン1の後半3塩基と、コドンパターン2の前半3塩基と読み出す。
(S305)上記S304で一致する場合は、コドンパターン1にコドンパターン2の後半3塩基をつなげて、DNA配列ファイルに書き出す。
上述した図14▲1▼における最初の処理の例だと、コドンパターン1は「TACAAT」であり、コドンパターン2は「AATGGT」であるので、前者の後半3塩基と後者の前半3塩基は共に「AAT」であり(下線を付して図示)、一致する。従ってコドンパターン1「TACAAT」に、コドンパターン2の後半3塩基「GGT」をつないだ「TACAATGGT」が得られ、DNA配列ファイルに書き出される。
(S306、S307)現在処理した第二ワークメモリ領域のcodonNo2番目のコドンパターンは第二ワークメモリ領域の最終パターンであるかを判断し(変数codonNo2と第二ワークメモリ領域のコドンパターン数を比較する)、そうでなければcodonNo2を1歩進させて、上記S303〜S305の処理を実行する。最終である場合は、S308に進む。
上述した例においては、第一ワークメモリ領域のコドンパターン1「TACAAT」と、第二ワークメモリ領域のコドンパターン「AATGGT」をつないだので、次にコドンパターン2として「AATGGC」が読み出され、コドンパターン1「TACAAT」とつながるか否かを判断する処理に移行する。ちなみにこの場合も「AAT」がつながるので、コドンパターン「TACAATGGC」が得られる。このように、第二ワークメモリ領域から変数codonNo2でポイントされるコドンパターン2が読み出されてコドンパターン1「TACAAT」とつながるか否かを判断し、つながる場合はDNA配列ファイルに書き出す処理を実行していく。コドンパターン2が第二ワークメモリ領域の最後のコドンパターンである「AATCCC」まで処理したときは、コドンパターン1「TACAAT」とつなげる処理が終了したことになる。
(S308、309)現在処理した第一ワークメモリ領域のcodonNo1番目のコドンパターンは第一ワークメモリ領域の最終パターンであるかを判断し(変数codonNo1と第一ワークメモリ領域のコドンパターン数を比較する)、そうでなければcodonNo1を1歩進させて、上記S303〜S305の処理を実行する。最終である場合は処理を終了する。
【0043】
上述した例で、第二ワークメモリ領域の最終のコドンパターン2である「AACGGG」まで処理が終わっている場合は、今度は第一ワークメモリ領域から次のコドンパターン1「TACAAC」を読み出して、第二ワークメモリ領域にあるコドンパターンとつながるか否かを判断し、つながる場合はDNA配列ファイルに書き出す処理を実行していく。
なお、上述した図14▲1▼の例は、iが1の場合、すなわちアミノ酸2残基YNとNGとをつなげる処理について説明したものであるが、この処理で作成されたDNA配列に対しては、アミノ酸2残基GDとつなげる処理が実行される。
【0044】
この処理について簡単に説明する。上記図12のS205で全ての入力配列に対する接続が完了していないことが判断されるので、S206でiが1歩進される。そして図14▲2▼に示すように、第一ワークメモリ25にDNA配列ファイル27の内容がセットされ、第二ワークメモリ26にアミノ酸2残基GDのコドンパターンがセットされて、図13に示したロジックでDNA配列をつなげ、DNA配列ファイル27に書き出していく。
このような処理を入力配列YNGDNNのすべての接続が完了するまで実行していく。
【0045】
なお、DNA配列ファイルに記録されたDNA配列(塩基配列)は、コンピュータ2の制御のもとで、図示しない出力手段(例えばディスプレイやプリンタ)によって出力することができる。
また上述した実施形態では、つなげる対象の塩基配列は一旦第一ワークメモリ25、第二ワークメモリ26に書き出して処理を行っているが、必ずしもこの方法に限定されるものではない。例えばつなげる対象のアミノ酸2残基は直接コドン一覧ファイルから読み出すように構成しても良い(読み出す順番のカウントを上記実施形態と同様に行う)。またDNA配列ファイル27に書き出された(生成途中の)DNA配列はS207にて一旦第一ワークメモリ25に書き出して処理を行っているが、この書き出し処理は行わず、上記S302においてi>2以上の場合は直接DNA配列ファイル27からコドンパターン2を読み出すようにしても良い。
【0046】
【発明の効果】
本発明によると、最終的に除外されてしまうような第2、第3読み枠に翻訳停止コドンが出現する塩基配列を予め除外した形で計算を行うことにより、計算時間の大幅な短縮、計算機のメモリ使用量を大幅に短縮する多機能塩基配列の設計が可能となる。また、ペプチド配列を、一度塩基配列に逆翻訳することなく第2、第3読み枠の翻訳産物を解析することが可能となり、同一の塩基配列からコードされる読み枠の異なるペプチドのもつ性質を解析するアルゴリズムの計算速度の大幅な削減とメモリの節約が可能となった。
【0047】
【配列表】
【図面の簡単な説明】
【図1】第2読み枠、第3読み枠に終止コドンを含まないジペプチド(Leu-Ser)をコードする塩基配列を設計するアルゴリズムの一例を示す図である。
【図2】第2読み枠、第3読み枠に終止コドンを含まないトリペプチド(Leu-Ser-Arg)をコードする塩基配列を設計するアルゴリズムの一例を示す図である。
【図3】第2読み枠、第3読み枠に終止コドンを含まないジペプチド(Leu-Ser)コドン表を3つの読み枠で翻訳することにより、第2読み枠、第3読み枠の最初のアミノ酸の種類が一義的に決定されることを示す図である。
【図4】ジペプチドコドン表のうち、ジペプチドの最初のアミノ酸がA(アラニン)の場合のコドンテーブルを示す図である。
【図5】本発明の多機能塩基配列の設計方法における処理フローを示す図である。
【図6】本発明のコドンパターン数テーブル13の一例を示す図である。
【図7】本発明のアミノ酸―コドン対応テーブル14の一例を示す図である。
【図8】本発明のコドン一覧ファイルの作成処理の一実施形態を示すフローチャート(その1)である。
【図9】本発明のコドン一覧ファイルの作成処理の一実施形態を示すフローチャート(その2)である。
【図10】本発明のコドン一覧ファイル(配列対応表)15の一例を示す図である。
【図11】本発明のアミノ酸とコドン一覧ファイルの対応の一覧の例を示す図である。
【図12】本発明の入力されたペプチド配列から全DNA配列を生成する処理の一実施形態を示すフローチャート(その1)である。
【図13】本発明の入力されたペプチド配列から全DNA配列を生成する処理の一実施形態を示すフローチャート(その2)である。
【図14】本発明の処理の流れの一例の説明図である。
【図15】本発明のコドン一覧ファイルの作成処理の一実施形態における、コンピュータシステムの構成を示すブロック図である。
【図16】本発明の入力されたペプチド配列から全DNA配列を生成する処理の一実施形態における、コンピュータシステムの構成を示すブロック図である。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to the field of computational science for designing a multifunctional base sequence (multifunctional microgene) in which a biological function is associated with a plurality of reading frames, and the field of protein engineering for producing an artificial protein using the multifunctional base sequence.
[0002]
[Prior art]
Knowledge about the function of protein structure obtained from genomic biology and post-genomic biology can be artificially reconstructed on artificial proteins and used actively. As a method for embedding rational functions on artificial proteins, a small base sequence (microgene) is first designed to relate to a specific biological function, and then this microgene is polymerized in tandem ( For example, refer to
[0003]
Conventionally, when designing such a multifunctional base sequence, a given peptide sequence having the first function is set as an initial value, and then the base sequence is back-translated into the base sequence one by one based on the genetic code table. Then, all base sequences capable of encoding the peptide sequence are generated in a computer, and then the peptide sequence in a reading frame different from the first peptide sequence encoded by all the generated base sequences It was designed through a process of writing out the group in a computer and finally selecting a peptide having the second and third functions from the peptide sequence group.
[0004]
In this case, a residue in which a translation stop codon appears in another reading frame at the connection between the residues of the peptide in the first reading frame is also subject to calculation. Such a base sequence in which a translation stop codon appears in another reading frame must be finally excluded as a practical multifunctional gene. However, in the case of the conventional algorithm as described above, since it is difficult to exclude in advance, and all combinations must be calculated, enormous calculation time is required. For example, there are approximately 68.7 billion nucleotide sequences that encode the peptide sequence NGNNGNNGNNGNNGNNGNGNNGNNGG in the first reading frame, and only about 40 million sequences that do not have a translation stop codon in the second and third reading frames. It is. However, in the conventional method, it was necessary to calculate for all about 68.7 billion types.
[0005]
[Patent Document 1]
JP-A-9-322775
[Patent Document 2]
JP-A-9-154585
[Patent Document 3]
JP 2001-352990 A
[Non-Patent Document 1]
Proc. Natl. Acad. Sci. USA 94, 3805-3810, 1997
[0006]
[Problems to be solved by the invention]
The object of the present invention is to greatly reduce the calculation time by performing calculation in a form that excludes in advance the base sequence in which the translation stop codon appears in the second and third reading frames that will eventually be excluded, An object of the present invention is to provide a method for designing a multifunctional base sequence that greatly reduces the amount of memory used by a computer.
[0007]
[Means for Solving the Problems]
The present inventors have intensively studied to solve the above problems, and a dipeptide sequence (2 amino acid residues) or a peptide sequence of a longer length already contains information on the translation products of the second and third reading frames. In contrast to the conventional method of analyzing a protein as a ligation product of 20 amino acids, it is analyzed as a duplicate ligation product of a dipeptide sequence (2 amino acid residues) or a short sequence longer than that.・ By calculating, information was analyzed including the translation product information of the second and third reading frames, and it was found that the calculation time can be greatly reduced and the memory usage of the computer can be greatly reduced. .
[0008]
An example of the process of back-translating into a base sequence in units of one amino acid is shown in FIG. For example, there are six types of codons encoding leucine (Leu): TTA, TTG, CTT, CTC, CTA, and CTG. Similarly, there are six types of codons encoding serine (Ser): TCT, TCC, TCA, TCG, AGT, and AGC. When all possible base sequences encoding a dipeptide such as “Leu-Ser” are back-translated, 6 × 6 = 36 base sequences are first generated in a computer. Further, when considering the sequence “Leu-Ser-Arg” in which arginine (Arg) is located third, 36 × 6 = 216 types of base sequences are generated in the computer. In this way, after generating in the computer a type of base sequence corresponding to the sum obtained by multiplying the codons (1 type to 6 types) that may encode the Nth amino acid, Among these, work to exclude those that contain translation stop codons (TAA, TAG, TGA) in other reading frames. Those that have translation termination codons in other reading frames cannot be used as multifunctional base sequences in the end, so if they are excluded in advance at this stage, the burden of subsequent calculation processing will be greatly reduced. Can do.
[0009]
Here, let us consider a process in which a polypeptide sequence is not regarded as a combination of 20 types of amino acid residues but as a set of 400 types of dipeptides. When considering a base sequence encoding a dipeptide, the type of the first amino acid residue of the second and third reading frames is already uniquely determined in the base sequence. Therefore, it is possible to exclude in advance a sequence containing a stop codon from a group of base sequences encoding a dipeptide. As shown in FIG. 1 above, of all 36 possible nucleotide sequences encoding a dipeptide such as “Leu-Ser”, 8 that contain a stop codon in the second reading frame, There are two things that contain stop codons. Therefore, by preparing 36-10 = 26 codons corresponding to “Leu-Ser”, it is possible to generate a base sequence in the computer in a form excluding the stop codon in advance.
[0010]
For example, when reverse translation of a 3-residue peptide such as “Leu-Ser-Arg” and the base sequence that encodes it is generated in a computer, this sequence is converted to “Leu-Ser” and “Ser-Arg”. Treated as a linked sequence of two dipeptides. As described above, the codon corresponding to “Leu-Ser” may be calculated as 6 × 6−10 = 26 species, and the codon corresponding to “Ser-Arg” is 6 × 6−4 = 32 species ( 4 types include a stop codon in the second reading frame.) Therefore, to obtain “Leu-Ser-Arg” in the first reading frame and to obtain all the 9-mer length base sequences that do not include the stop codon in the second and third reading frames, FIG. As shown in Fig. 5, it is possible to connect 26 "Leu-Ser" 6-mer codons and 32 "Ser-Arg" 6-mer codons by selecting a combination using the same codon of serine. As a result, in the combination of codons according to the conventional method, the operation of
[0011]
Thus, the polypeptide sequence is processed as a set of dipeptide units, preferably as a set of consecutive dipeptide units having overlapping amino acid residues, and the codons of the dipeptide units are preliminarily placed in the second and third reading frames. By preparing in advance a dipeptide codon correspondence table (a nucleic acid sequence correspondence table encoding a dipeptide) excluding the ones that have, sequence processing that would be excluded due to the appearance of a stop codon was avoided. The calculation of the shape becomes possible. In fact, by using such an algorithm, the calculation time can be greatly reduced as will be described later. Furthermore, the required memory size can be greatly reduced.
[0012]
In addition, as can be seen from FIG. 3, the type of the first amino acid in the second and third reading frames is uniquely determined by translating the dipeptide codon table from which the stop codon has been removed in advance into three reading frames. I understand that. For example, the first reading frame TTA in the sequence TTATCT in “Leu-Ser” is leucine (L), but the first amino acid of the second reading frame is tyrosine encoded by TAT (Y), the first of the third reading frame. These amino acids are uniquely determined as ATC-encoded isoleucine (I). Therefore, when a dipeptide is given without being back-translated into a base sequence, the types of amino acids of the second and third reading frames at that position are uniquely determined. By preparing this “dipeptide-reading frame-specific amino acid correspondence table” in advance, it is possible to greatly reduce the calculation process while avoiding the reverse translation process to the base sequence. However, in this case, since information necessary for linking the first dipeptide information and the second dipeptide information as shown in FIG. 2 is not included, in order to obtain possible “combination” information, Additional information needs to be added. However, when starting from a peptide sequence of a given first reading frame, it is sufficient to determine the types of amino acids that can appear in the second and third reading frames and to obtain a rough knowledge of their abundance. Can give quantity information.
[0013]
In addition to the above "Dipeptide-Amino Acid Correspondence Table by Reading Frame", information on combinations of amino acids that can appear in the second and third reading frames is also given by adding information on the type of codon used, for example. can do. This is the same as the process of back-translating to the base sequence performed in FIG. 2, but it is possible to perform processing that embeds other information, such as information on the frequency of codon usage and reduction of memory used. It is.
The present invention has been completed based on the above findings.
[0014]
That is, the present invention
(1) When the reading frame of the base sequence is different, a computer is designed to design a multifunctional DNA having the base sequence having two or more functions.
(A) a protein or peptide amino acid sequence encoded by the base sequence of one of the three reading frames;
A sequence of a plurality of types of oligopeptide units, in the adjacent oligopeptide units, the last amino acid sequence of one adjacent oligopeptide unit overlaps the first amino acid sequence of the other adjacent oligopeptide unit. An amino acid sequence consisting of a series of oligopeptide units
A means of deriving a set of oligopeptide units that result in the same amino acid sequence;
(B) means for excluding those containing a stop codon from the base sequences of other reading frames contained in the oligopeptide unit;
(C) a means for ligating a base sequence excluding one codon of an overlapping codon corresponding to an adjacent overlapping amino acid residue, among base sequences encoding successive oligopeptide units; and
(D) From among the amino acid sequences encoded in other reading frames of the ligated base sequence Means for selecting and processing those containing the desired sequence;
A multifunctional DNA design program for functioning as
The multifunctional DNA design program, wherein the oligopeptide in the oligopeptide unit is a peptide in which 2 to 8 amino acid residues are linked,
(2) In place of means for excluding one containing a stop codon from the base sequence of other reading frames contained in the oligopeptide unit,
A nucleic acid sequence correspondence table encoding the oligopeptide sequence is prepared in advance by excluding the nucleotide sequence including the stop codon from the base sequence of other reading frames included in the oligopeptide sequence in advance. The present invention relates to a multifunctional DNA design program described in (1) above, which causes a computer to function as a means for using a correspondence table as a connection processing means.
[0015]
In the present invention, (3) the base sequence is a double-stranded base sequence. , Design of multifunctional DNA according to (1) or (2) above program About.
[0016]
Furthermore, the present invention provides ( 4 ) The oligopeptide unit is a dipeptide unit or a tripeptide unit; Above (1) to ( 3 Multifunctional DNA design according to any one of program About.
[0017]
DETAILED DESCRIPTION OF THE INVENTION
The method for designing a multifunctional base sequence of the present invention is a method for designing a multifunctional base sequence in which the base sequence has two or more functions when different base sequence reading frames are used. A set of oligopeptide units, preferably a set of dipeptide units, preferably a protein or peptide encoded by the base sequence of one reading frame (usually these proteins or peptides are given as translation products of the first reading frame) The nucleic acid sequence correspondence table encoding the dipeptide sequence is not particularly limited as long as it is a design method that uses the nucleotide sequence information of the other reading frame included in the oligopeptide sequence, preferably the dipeptide sequence. Prepare a nucleic acid sequence correspondence table that encodes oligopeptide sequences represented by dipeptide codon correspondence table) in advance and use this correspondence table. It is preferable. Here, the oligopeptide refers to a peptide in which 2 to 8 amino acid residues are linked.
[0018]
There are 3721 combinations of dipeptide codons in the square of 64-3, and there are 192 stop codons appearing in the second reading frame and the third reading frame, so by creating a dipeptide codon table, 384/3721 = over 10% is excluded from the calculation target in advance. For example, as described above, “Leu-Ser” is excluded from 10/36 and “Ser-Arg” is excluded from 4/36 in advance. For example, leucine-threonine “Leu-Thr” can be mentioned as a dipeptide sequence that has many combinations excluded from the calculation target. Of the 6 × 4 = 24 combinations of “Leu-Thr” codons, there are 16 types that can be stopped by a stop codon (TTA ACT; TTA ACC; TTA ACA; TTA ACG; TTG ACT; TTG ACC; TTG ACA) CTGA, CTAACA; CTAACG; CTGACT; CTGACC; CTGACA; CTGACG) Yes, 2/3 is actually excluded from the calculation target in advance. In addition, all three types (ATGATT; ATGATC; ATGATA) in methionine-isoleucine “Met-Ile” have a stop codon TGA in the second reading frame and are excluded from the calculation target. Alternatively, the calculation time can be significantly shortened by checking beforehand whether the amino acid sequence of the peptide contains the “Met-Ile” dipeptide sequence.
[0019]
As the above-mentioned dipeptide codon correspondence table, it can be a codon table when the calculation is stopped on the program, but usually it is only necessary to prepare and prepare 400 types of codon tables when the calculation is continued on the program, Such a codon table can be prepared for each first amino acid of a dipeptide, for example. FIG. 4 shows 20 types of codon tables in the order of AA, AC, AD,... When the first amino acid of the dipeptide is A (alanine) in the dipeptide codon table.
[0020]
In the method for designing a multifunctional base sequence of the present invention, a dipeptide in which codons of overlapping amino acid residues in consecutive dipeptide units are processed by processing as a set of consecutive oligopeptide units having overlapping amino acid residues, preferably dipeptide units. It is preferable to perform the process which connects a unit. By using this algorithm, it is possible to create an oligopeptide codon correspondence table. For example, as described above, when a peptide consisting of three residues such as “Leu-Ser-Arg” is reverse translated and a base sequence encoding it is generated in a computer, this sequence is called “Leu-Ser” and “ Tripeptide “Leu-Ser-Arg” codon correspondence table by connecting two dipeptides of “Ser-Arg” linked to each other and processing dipeptide units with the same serine codon as the overlapping amino acid residue. When this tripeptide “Leu-Ser-Arg” codon correspondence table is used, 74 types are excluded, and the processing calculation target is reduced to 142/216. Similarly, in the case of “Leu-Thr-Lys”, two dipeptides of “Leu-Thr” and “Thr-Lys” are linked, and dipeptide units with the same threonine codon as the overlapping amino acid residue are linked. In the case of “Leu-Arg-Ser”, it is a sequence in which two dipeptides of “Leu-Arg” and “Arg-Ser” are linked. The processing calculation object is reduced to 144/216 by processing by connecting dipeptide units in which codons of a certain arginine match. In this way, a codon correspondence table of oligopeptide units equal to or greater than tetrapeptide units can be created.
[0021]
In the method for designing a multifunctional base sequence of the present invention, an amino acid residue encoded by a base sequence of another reading frame contained in an oligopeptide unit, preferably a dipeptide unit can be linked. For example, as shown in FIG. 3, in the case of the combination of dipeptides “Leu-Ser” (in the case of LS), when starting from a given peptide sequence of the first reading frame, amino acids that can appear in the second reading frame Are C, F, S, and Y, and the types of amino acids that can appear in the third reading frame are F, I, L, R, and V. Then, using such an algorithm using the “dipeptide-reading frame-specific amino acid correspondence table”, C; 8 (8/26 = 0.31), F; 4 (4/26 = 0.15), S; 6 (6/26 = 0.23), Y; 8 (8/26 = 0.31), F in third reading frame; 4 (4/26 = 0.15), I; 8 (8/26 = 0.31), L ; 4 (4/26 = 0.15), R; 2 (2/26 = 0.08), V; 8 (8/26 = 0.31), and amino acid residues that can appear in the second and third reading frames. You can see the approximate abundance ratio.
[0022]
In the method for designing a multifunctional base sequence of the present invention, in addition to the process of excluding those containing a stop codon from the base sequences of other reading frames contained in oligopeptide units, preferably dipeptide units or tripeptide units. In addition, it is possible to perform processing for selecting a sequence including all or part of a desired sequence. Such a desired sequence selection process is preferably performed on a base sequence from which a stop codon is excluded, but can also be performed on a base sequence from which a stop codon is not excluded. Examples of the desired sequence include a sequence having a desired function. Examples of the desired function include a function possessed by all or part of the translation product of the base sequence and a part or all of the base sequence. It can be roughly divided into the functions of itself.
[0023]
The functions of the translation product include a function that easily forms a secondary structure such as α-helix formation, an antigen function that induces neutralizing antibodies such as viruses, and a function that activates immune (Nature Medicine, 3: 1266-1270, 1997), function to promote or suppress cell growth, function to specifically recognize cancer cells, protein transduction function, cell death induction function, antigen-determining residue presentation function, metal binding function, coenzyme binding function, catalyst Active function, Fluorogenic activity function, Function to bind to specific receptor and activate that receptor, Function to bind to specific factor related to signal transmission and modulate its function, Protein, DNA, RNA, Functions that specifically recognize biopolymers such as sugars, cell adhesion functions, functions to localize proteins outside the cell, and target specific organelles (mitochondria, chloroplasts, ER, etc.) Function, embedded in cell membrane, amyloid fiber formation function, fibrous protein formation function, proteinaceous gel formation function, proteinaceous film formation function, monomolecular film formation function, self-assembly function, particle formation function, etc. Specific examples include a function for assisting formation of a higher-order structure of protein, a function for recognizing inorganic crystals, a function for controlling growth of inorganic crystals, and the like. The functions of the base sequence itself include metal binding function, coenzyme binding function, catalytic activity function, function of binding to a specific receptor and activating that receptor, and specific factors involved in signal transmission. Functions that bind and modulate their functions, functions that specifically recognize biopolymers such as proteins, DNA, RNA, and sugars, functions that stabilize RNA, functions that modulate the efficiency of translation, and specific genes The function etc. which suppress expression can be illustrated.
[0024]
The method for producing a multifunctional base sequence of the present invention is particularly a method for producing a base sequence including a process of selecting a base sequence having two or more functions using the method for designing a multifunctional base sequence of the present invention. The target multifunctional base sequence is not limited, and any base sequence having two or more functions may be used as long as the base sequence has two or more functions when the reading frame of the base sequence is different. As the base sequence, a single-stranded or double-stranded DNA sequence or RNA sequence can be specifically exemplified, and these may be either a linear structure or a circular structure, but a polymerization method has been established. The linear structure is preferable. In addition, as the above-mentioned multifunctional base sequence, the fact that there is no stop codon in all of the three reading frames shifted by one in the base sequence, especially in the case of a double-stranded base sequence, It is preferred that there are no stop codons in all six reading frames. Furthermore, a base sequence in which a stop codon does not occur at the linking part (bonding part) when such a multifunctional base sequence is polymerized is particularly preferred.
[0025]
The size of the multifunctional base sequence in the present invention is not particularly limited, but is 15 to 500 bases or base pairs, particularly 15 to 200 bases or base pairs, and further 15 to 100 bases or base pairs. A large base sequence is preferable in that DNA synthesis can be stably performed. Further, as a multifunctional base sequence of the present invention, a modification for polymerizing by the microgene random polymer preparation method (Japanese Patent Laid-Open No. 9-154585), the microgene polymerization method (Japanese Patent Laid-Open No. 9-322775), etc. Or a multifunctional base sequence to which a naturally derived base sequence is bound can be used.
[0026]
A base sequence having the same or different biological function as the predetermined function can be selected by a computational scientific method using a computer, and more specifically, selected by a score when using a biological function prediction program. A technique can be exemplified. Examples of the biological function prediction program include a program created by statistically processing the correlation between the biological function of a protein or peptide and the primary structure of the protein or peptide. For example, the ability to form a secondary structure of a peptide Can be evaluated using the method described in the literature (Structure, Function, and Genetics 27: 36-46, 1997). By using this method, the possibility of formation of the predicted α helix and β strand at each residue position of a given peptide sequence is quantified (the higher the possibility, the larger the value). The sum of the α-helix and β-strand formation potential values of all the residues of a given peptide sequence is used to determine the ease of forming an α-helix and β-strand formation for a given peptide sequence. It can be calculated as a value of ease and used for evaluation. In addition, as a function prediction program, for example, `` Motiffind program '' (Protein Sci.) When detecting similarity to known motifs registered in `` PROSITE '' (Nucleic Acids Res., 27: 215-219, 1999). , 5: 1991-1999, 1996), and similarity search program `` blast '' (J. Mol. Biol., 215: 403-410, 1990), the `` SMART '' program (Proc. Natl. Acad. Sci. USA, 95: 5857-5864, 1998) for calculating similarity to various protein factors in the signal transmission system, extracellular and cellular "PSORT" program (Biochem.Sci., 24: 34-35, 1999) for evaluating the ability to localize proteins to internal organelles, and "SOSUI" program for evaluating the ability to be embedded in cell membranes (Bioinformatics, 4: 378-379, 1998).
[0027]
Also, the multifunctional base in the present invention can be obtained by linking two or more different types of multifunctional base sequences using ligase or the like, or by linking a multifunctional base sequence and a naturally occurring base sequence using ligase or the like. It can also be an array. In addition, a part of the multifunctional base sequence of the present invention can be individually prepared and then combined with ligase or the like to obtain the multifunctional base sequence of the present invention. And the multifunctional base sequence which has two or more functions manufactured by the manufacturing method of the above-mentioned multifunctional base sequence of this invention is also contained in the multifunctional base sequence in this invention.
[0028]
As a method for producing an artificial protein of the present invention, the predetermined function is selected from all combinations of base sequences encoding amino acid sequences having a predetermined function using the method for designing a multifunctional base sequence of the present invention. In the second and third reading frames different from the reading frame of the amino acid sequence possessed, an artificial gene consisting of a base sequence having the same or different function as the predetermined function is selected, and the artificial gene based on the sequence information of the artificial gene Although it is not particularly limited as long as it is a method for producing a protein, the aforementioned biological function is preferable as the predetermined function, and a biological function different from the predetermined function is preferable in that it can provide diversity. The amino acid sequence having a predetermined function includes all amino acid sequences having a predetermined function, and is not limited to a single amino acid sequence. For example, there are three amino acid sequences having a predetermined function. In this case, a multifunctional base sequence is selected from all combinations of base sequences encoding the three amino acid sequences. Examples of the amino acid sequence having such a predetermined function include, in addition to known sequences such as the above-mentioned AIDS virus neutralizing antigen sequence and the motif structure of Glu-Leu-Arg etc. of α chemokine which is a cytokine for leukocytes. A sequence in which one or more amino acids are deleted, substituted or added to a known sequence, and have a function similar to that of the known sequence, a common sequence related to a specific biological function well conserved among organisms, an existing sequence An unknown sequence such as a sequence that may pass through the surveillance of the human immune system consisting of an amino acid sequence that is repelled by the human protein is exemplified.
[0029]
【Example】
Hereinafter, the present invention will be described more specifically with reference to examples. However, the scope of the present invention is not limited to these examples.
Example 1
The initial sequence NGNNGNNGNNGNNGNNGNGNNGNNGG (S1) is given, and the generation of a base sequence that does not include a stop codon among the base sequences encoding the peptide sequence consisting of this asparagine (N) and glycine (G) is performed according to the process flow shown in FIG. Performed on a computer. The total number of base sequences encoded in the first reading frame of this peptide sequence is about 68.7 billion types, and the conventional method has processed all of them, but the “dipeptide nucleic acid sequence correspondence table” of the present invention is By adapting the algorithm used, it is only necessary to process about 40 million types that do not have translation stop codons in the second and third reading frames. As a result, in the conventional method, the calculation time is reduced. Although it took about two weeks, when the algorithm of the present invention was used, the time was reduced to about 15 minutes. As a result, about 99.95% of unnecessary calculation processing with respect to the total number of patterns can be avoided. In the calculation, a computer having specifications of OS: Solaris 2.7 and CPU: Ultra SPARC-II was used.
[0030]
(Example 2)
As in Example 1, the initial sequence YNGDNGNNGDNGNNG (S2) was given, and the DNA sequence encoding this peptide sequence was generated on a computer. The total number of base sequences encoded in the first reading frame was about 1 million. By applying the algorithm according to the “dipeptide nucleic acid sequence correspondence table” of the present invention, it is understood that it is only necessary to process about 10,000 species having no translation stop codon in the second and third reading frames. It was.
[0031]
Example 3
As in Example 1, the initial sequence NGNGNGNGNGLNYLKSLYGGYG (S3) was given, and a DNA sequence encoding this peptide sequence was generated. By applying the algorithm according to the “dipeptide nucleic acid sequence correspondence table” of the present invention, it is understood that it is only necessary to process about 570 million species having no translation stop codon in the second and third reading frames. It was.
[0032]
Example 4
Further, an example of processing for generating a base sequence by a specific computer program will be described with reference to FIGS.
[0033]
1) Processing for creating a codon list file corresponding to two amino acid residues.
As for the list file, 20 files are created for each amino acid at the first residue, which is the number of types of amino acids at the second residue (an example of the file is shown in FIG. 10. The contents of this file will be described later). Therefore, 20 types of amino acid residues are combined 2 by 2 to create 400 combinations of 2 amino acid residues. This process will be described with reference to FIGS.
In the process of creating the codon list file, combinations including stop codons are deleted. This will be specifically described below.
[0034]
As shown in FIG. 15, a codon pattern number table 13 and an amino acid-codon correspondence table 14 are prepared on the
The
[0035]
In the codon pattern number table 13 (see FIG. 6), a serial number (No / in the following description, this serial number (No) is expressed as “amino acid number”) is assigned to each amino acid, and codons present in each amino acid. The number of patterns is set in association with each other. The amino acid-codon correspondence table 14 (see FIG. 7) is given an amino acid number common to the above-mentioned codon pattern number table, and stores codons corresponding to the respective amino acids.
In this embodiment, the codon pattern number table and the amino acid-codon correspondence table are independent, but a table in which these tables are compiled (the number of patterns and the sequence of codons for each amino acid name and amino acid number). Corresponding tables) may be prepared.
[0036]
Next, using these tables, a codon list file is created for every 20 types of amino acids. This creation process (process executed by the program file 3) will be described with reference to the flowcharts of FIGS.
(S101) The
(S102) The codon list file for the amino acid whose amino acid number is amino No. 1 is opened. In this embodiment, the file name is “amino acid first residue name + amino_to_codon.dat”. In addition, the file header “amino acid first residue name + 2 amino to codon library (amino acid first residue name + is first)” is entered in this codon list file.
Since the example shown in FIG. 10 is a codon list file whose first amino acid residue is “Y”, the file name is “Yamino_to_codon.dat” and the file header is “Y2amino to codon library (Y is first)”. Yes.
(S103) The
(S104) From the codon pattern number table, the number of codon patterns of amino acid number aminoNo1 of the first amino acid residue and the number of codon patterns of amino acid number aminoNo2 of the second amino acid residue are read and substituted into variables pattern1 and pattern2, respectively.
1 amino acid residue is “Y” (in this case, amino1No is not the
(S105) A variable codon1 which is the order of codons stored in the amino acid-codon correspondence table of the first amino acid residue and a variable codon2 which is the order of codons stored in the amino acid-codon correspondence table of the second amino acid residue , Each with an initial value of 1.
(S106) The codon 1st codon in the amino acid record whose amino acid number is amino1No is read from the amino acid-codon correspondence table. Thereby, 1 codon of the 1st amino acid residue is acquired.
When one amino acid residue is “Y”, “TAT” is read if
(S107) The codon 2nd codon in the amino acid record with amino acid number amino2No is read from the amino acid-codon correspondence table. Thereby, 1 codon of the 2nd amino acid residue is acquired.
If the
(S108) The first amino acid codon and the second amino acid codon acquired in S106 and S107 are combined.
(S109) It is checked whether the codons bound in S107 include stop codons “TAA”, “TAG”, and “TGA”. For example, when the codon bound in S108 is “TATAAT”, the stop codon “TAA” is included, so S110 below is not executed.
(S110) The binding codons in which the stop codon was not included in S109 are written in the codon list file.
[0037]
The example of FIG. 10 is a case where one amino acid residue is “Y”, and when two amino acid residues are “A”, when the binding codon “TATGCT” is created in S110, the two residues The binding codon “TATGCT” is written in the record whose eye is “A”.
(S111, S112) It is checked whether the variable codon2 is smaller than pattern2. If codon2 is smaller than pattern2, the process of S105 to S110 is executed after counting up codon2. This is because the next codon is read and connected from the record of two amino acid residues in the amino acid-codon table.
If codon2 is not smaller than pattern2 (becomes the same), the process of reading all the codons from the record of 2 amino acid residues and writing them in the codon list file is completed, and the process proceeds to S113.
(S113, S114) It is checked whether the variable codon1 is smaller than pattern1. When codon1 is smaller than pattern1, the process of S105 to S112 is executed by incrementing codon1 by one. This is because the next codon is read and connected from the record of one amino acid residue in the amino acid-codon table.
If codon1 is not smaller than pattern1 (becomes the same), the process of reading all the codons from the record of one amino acid residue and writing them in the codon list file is completed, and the process proceeds to S115.
(S115, S116) It is checked whether the variable amino2No is smaller than 20. If amino1No is smaller than 20, aminoNo2 is incremented by one and the processes of S104 to S114 are executed. This is for creating a record of the next two amino acid residues in the process of creating a codon list file of amino acid whose first amino acid residue is aminoNo1.
[0038]
In the example of FIG. 10, when all the binding codons whose
(S117, S118) It is checked whether the variable amino1No is smaller than 20. When amino1No is smaller than 20, aminoNo2 is counted up by one and the processes of S102 to S116 are executed. This is for creating a codon list file for the
In this way, a codon list file as shown in FIG. 10 is created for each amino acid. FIG. 11 shows a list of correspondence between amino acids and codon list files. Thus, since there are 20 types of amino acids, 20 files are created.
[0039]
2) Processing for generating a total DNA sequence from the inputted peptide sequence.
A process (computer program) for generating a total DNA sequence from the input peptide sequence using the codon list file created in the
A sequence correspondence table that records a set of codon patterns that can be taken for each combination of two amino acid residues and does not include a stop codon is set in the computer, and the entered peptide sequence (sequence of N amino acid residues) Reading out the codon pattern of
[0040]
Hereinafter, the above processing will be described in more detail.
As shown in FIG. 16, a
The
Further, a list file that has already been created (separately) may be incorporated into the
The
[0041]
FIGS. 12 and 13 are flowcharts showing the processing of this embodiment, and FIG. 14 is a diagram for explaining an example of the processing flow when the input array is “YNGDNN”.
(S201) First, the
(S202) Obtain two amino acid residues from the i-th of the input sequence, obtain the codon pattern of the (i + 1) th residue from the codon list file of the i-th residue, and write it to the first work memory area (Note that FIG. 12). In the flowchart of FIG. 13, the first work memory area is abbreviated as the first area, and the second work memory area is abbreviated as the second area.)
Referring to the example of FIG. 14, when i is the
(S203) Obtain two amino acid residues from the (i + 1) th of the input sequence, obtain the codon pattern of the (i + 2) th residue from the codon list file of the (i + 1) th residue, and write it to the second work memory area.
In the example of FIG. 14 (1), when i is the
(S204) A process of writing the DNA sequence to the DNA sequence file by connecting the codon patterns written in the first work memory area and the second work memory area is performed. Details of this processing will be described later with reference to FIG.
(S205) It is determined whether or not the variable i has reached the number of input arrays -1. In the example of FIG. 14, since the input sequence length is 6, if i has reached 5, the process of connecting the codon pattern to the 6th amino acid “N” which is the input sequence length is completed. The DNA sequence already written in the output file becomes the final DNA sequence.
(S206) If the variable i has not reached the number of input arrays minus 1, i is incremented by one.
(S207) Subsequently, the codon pattern recorded in the DNA sequence file is acquired and written in the first work memory area.
In this embodiment, all the codon patterns recorded in the DNA sequence file are written in the first work memory area. However, as the number of codon patterns output to the sequence file increases, the memory area increases. May be configured to be written one by one.
[0042]
Next, the process of S204 will be described with reference to FIG.
(S301) The
(S302) The codon No. 1 codon pattern (referred to as codon pattern 1) is read from the first work memory area.
In the example of FIG. 14 (1), TACAAT is read out first.
(S303) The second codon No. 2 codon pattern 2 (referred to as codon pattern 2) is read from the second work memory area.
In the example of FIG. 14 (1), AATGGT is read out at first.
(S304) Read out the last 3 bases of
(S305) If they match in S304, the latter 3 bases of
In the above example of the first processing in FIG. 14 (1), since
(S306, S307) It is determined whether the codon No. 2 codon pattern in the second work memory area currently processed is the final pattern in the second work memory area (the variable codon No. 2 is compared with the number of codon patterns in the second work memory area. If not, codonNo2 is incremented by 1 and the processes of S303 to S305 are executed. If it is final, the process proceeds to S308.
In the above example, since the
(S308, 309) It is determined whether the codon No1 codon pattern of the first work memory area currently processed is the final pattern of the first work memory area (the variable codon No1 is compared with the number of codon patterns in the first work memory area). If not, codonNo1 is incremented by 1 and the processes of S303 to S305 are executed. If it is final, the process ends.
[0043]
In the example described above, when the processing is completed up to “AACGGG” which is the
The example of FIG. 14 (1) described above describes the process of connecting
[0044]
This process will be briefly described. Since it is determined in S205 of FIG. 12 that the connection to all input arrays has not been completed, i is incremented by 1 in S206. 14 (2), the contents of the
Such processing is executed until all connections of the input array YNGDNN are completed.
[0045]
The DNA sequence (base sequence) recorded in the DNA sequence file can be output by an output means (for example, a display or a printer) (not shown) under the control of the
In the above-described embodiment, the base sequences to be connected are once written to the
[0046]
【Effect of the invention】
According to the present invention, calculation is performed in a form in which base sequences in which translation stop codons appear in the second and third reading frames that are finally excluded are excluded in advance. It is possible to design a multifunctional base sequence that greatly reduces the amount of memory used. In addition, it is possible to analyze the translation products of the second and third reading frames without back-translating the peptide sequence into a base sequence once, and the properties of peptides with different reading frames encoded from the same base sequence. The computational speed of the analysis algorithm can be greatly reduced and memory can be saved.
[0047]
[Sequence Listing]
[Brief description of the drawings]
FIG. 1 shows an example of an algorithm for designing a base sequence encoding a dipeptide (Leu-Ser) that does not contain a stop codon in the second and third reading frames.
FIG. 2 is a diagram showing an example of an algorithm for designing a base sequence encoding a tripeptide (Leu-Ser-Arg) that does not contain a stop codon in the second reading frame and the third reading frame.
[Fig. 3] Translating a dipeptide (Leu-Ser) codon table that does not include a stop codon in the second reading frame and the third reading frame into three reading frames, thereby converting the first reading frame to the first reading frame. It is a figure which shows that the kind of amino acid is determined uniquely.
FIG. 4 is a diagram showing a codon table when the first amino acid of a dipeptide is A (alanine) in the dipeptide codon table.
FIG. 5 is a diagram showing a processing flow in the method for designing a multifunctional base sequence of the present invention.
FIG. 6 is a diagram showing an example of a codon pattern number table 13 according to the present invention.
FIG. 7 is a diagram showing an example of an amino acid-codon correspondence table 14 of the present invention.
FIG. 8 is a flowchart (No. 1) showing an embodiment of a process for creating a codon list file of the present invention.
FIG. 9 is a flowchart (No. 2) showing an embodiment of a process for creating a codon list file of the present invention.
FIG. 10 is a diagram showing an example of a codon list file (sequence correspondence table) 15 of the present invention.
FIG. 11 is a diagram showing an example of a list of correspondence between amino acids and codon list files of the present invention.
FIG. 12 is a flowchart (No. 1) showing an embodiment of a process for generating an entire DNA sequence from an inputted peptide sequence of the present invention.
FIG. 13 is a flow chart (No. 2) showing an embodiment of a process for generating an entire DNA sequence from an inputted peptide sequence of the present invention.
FIG. 14 is an explanatory diagram of an example of a processing flow of the present invention.
FIG. 15 is a block diagram showing a configuration of a computer system in an embodiment of a process for creating a codon list file according to the present invention.
FIG. 16 is a block diagram showing a configuration of a computer system in an embodiment of a process for generating an entire DNA sequence from an inputted peptide sequence of the present invention.
Claims (4)
(a)3つの読み枠のうち1つの読み枠の塩基配列によりコードされるタンパク質又はペプチドアミノ酸配列と、
複数種のオリゴペプチド単位の連続であって、互いに隣接するオリゴペプチド単位において、隣接する一方のオリゴペプチド単位の最後のアミノ酸配列が、隣接する他方のオリゴペプチド単位の最初のアミノ酸配列と重複しているオリゴペプチド単位の連続からなるアミノ酸配列とが、
同じアミノ酸配列になるような、オリゴペプチド単位の集合を導き出す手段、
(b)オリゴペプチド単位が内包する他の読み枠の塩基配列の中から、終止コドンを含むものを除外処理する手段、
(c)連続したオリゴペプチド単位をコードする塩基配列のうち、隣接する重複アミノ酸残基に対応する重複コドンの一方のコドンを除いた塩基配列を連結処理する手段、及び
(d)前記連結処理された塩基配列の他の読み枠にコードされるアミノ酸配列の中から、所望の配列を含むものを選択処理する手段、
として機能させるための、多機能DNAの設計プログラムであって、
前記オリゴペプチド単位におけるオリゴペプチドがアミノ酸残基2〜8個が連結したペプチドである、多機能DNAの設計プログラム。When the reading frame of the base sequence is different, a computer is used to design a multifunctional DNA having the base sequence having two or more functions.
(A) a protein or peptide amino acid sequence encoded by the base sequence of one of the three reading frames;
A sequence of a plurality of types of oligopeptide units, in the adjacent oligopeptide units, the last amino acid sequence of one adjacent oligopeptide unit overlaps the first amino acid sequence of the other adjacent oligopeptide unit. An amino acid sequence consisting of a series of oligopeptide units
A means of deriving a set of oligopeptide units that result in the same amino acid sequence;
(B) means for excluding those containing a stop codon from the base sequences of other reading frames contained in the oligopeptide unit;
(C) means for ligating a base sequence excluding one codon of overlapping codons corresponding to adjacent overlapping amino acid residues, among base sequences encoding consecutive oligopeptide units, and (d) the ligation process A means for selecting and processing a sequence containing a desired sequence from amino acid sequences encoded in other reading frames of the base sequence ;
A multifunctional DNA design program for functioning as
A multifunctional DNA design program, wherein the oligopeptide in the oligopeptide unit is a peptide in which 2 to 8 amino acid residues are linked.
オリゴペプチド配列が内包する他の読み枠の塩基配列の中から、終止コドンを含むものをあらかじめ除外処理しておくことによって、オリゴペプチド配列をコードする核酸配列対応表をあらかじめ作成しておき、この対応表を連結処理手段で用いる手段として、コンピュータを機能させる、請求項1記載の多機能DNAの設計プログラム。Instead of means for excluding those containing a stop codon from the base sequence of other reading frames contained in the oligopeptide unit,
A nucleic acid sequence correspondence table encoding the oligopeptide sequence is prepared in advance by excluding the nucleotide sequence including the stop codon from the base sequence of other reading frames included in the oligopeptide sequence in advance. 2. The multifunctional DNA design program according to claim 1, which causes a computer to function as means for using the correspondence table in the linking processing means.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002380360A JP4911857B2 (en) | 2001-12-27 | 2002-12-27 | Multifunctional nucleotide sequence design method |
US10/746,036 US7243031B2 (en) | 2001-12-27 | 2003-12-29 | Method of designing multifunctional base sequence |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001397390 | 2001-12-27 | ||
JP2001397390 | 2001-12-27 | ||
JP2001-397390 | 2001-12-27 | ||
JP2002380360A JP4911857B2 (en) | 2001-12-27 | 2002-12-27 | Multifunctional nucleotide sequence design method |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008246800A Division JP4989600B2 (en) | 2001-12-27 | 2008-09-25 | Multifunctional nucleotide sequence design method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003250548A JP2003250548A (en) | 2003-09-09 |
JP4911857B2 true JP4911857B2 (en) | 2012-04-04 |
Family
ID=28677289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002380360A Expired - Fee Related JP4911857B2 (en) | 2001-12-27 | 2002-12-27 | Multifunctional nucleotide sequence design method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4911857B2 (en) |
-
2002
- 2002-12-27 JP JP2002380360A patent/JP4911857B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003250548A (en) | 2003-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rooman et al. | Automatic definition of recurrent local structure motifs in proteins | |
Burton | Phage display | |
US20110295858A1 (en) | Method and apparatus for searching nucleic acid sequence | |
WO2004044123A2 (en) | Bioinformatically detectable group of novel regulatory genes and uses thereof | |
US20210061870A1 (en) | Method and system for extracting neoantigens for immunotherapy | |
WO2021059066A1 (en) | Method for generating functional protein sequences with generative adversarial networks | |
JP2002504820A (en) | Rapid cloning of full-length cDNA | |
EP1982992B1 (en) | Hla-binding peptide, precursor thereof, dna fragment encoding the same and recombinant vector | |
Bassett Jr et al. | Exploiting the complete yeast genome sequence | |
Kettman et al. | Proteome, transcriptome and genome: top down or bottom up analysis? | |
JP4911857B2 (en) | Multifunctional nucleotide sequence design method | |
JP4989600B2 (en) | Multifunctional nucleotide sequence design method | |
JP2004512529A (en) | Method for in vivo identification of intracellular epitopes | |
Rothnagel et al. | Short open reading frames and their encoded peptides | |
US7243031B2 (en) | Method of designing multifunctional base sequence | |
Mckie et al. | Cloning and mapping of murine Nfe2l1 | |
EP2559763A1 (en) | HLA-binding peptides, precursors thereof, DNA fragments and recombinant vectors that code for those peptide sequences | |
Lefkovits et al. | A strategy for founding a global lymphocyte proteinpaedia and gene catalogue | |
EP0871889A1 (en) | Anchor libraries and identification of peptide binding sequences | |
US6721663B1 (en) | Method for manipulating protein or DNA sequence data in order to generate complementary peptide ligands | |
RU2003109439A (en) | MIMETIC PEPTIDES FOR THE EPITOP APOLIPOPROTEIN B-100, THEIR CONCATEMER AND MODIFIED PEPTIDES AND THE VACCINE CONTAINING THEM | |
Hodgman | The elucidation of protein function from its amino acid sequence | |
US20050095648A1 (en) | Method for designing linear epitopes and algorithm therefor and polypeptide epitopes | |
JP2005531290A5 (en) | ||
Steinmetz et al. | Gene function on a genomic scale |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080728 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080925 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090304 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090403 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090424 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090619 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20091016 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111111 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111206 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120117 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150127 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |