JP4457546B2

JP4457546B2 - 人工プロモーター候補の選択方法

Info

Publication number: JP4457546B2
Application number: JP2001530464A
Authority: JP
Inventors: 徹彦吉田
Original assignee: Toagosei Co Ltd
Current assignee: Toagosei Co Ltd
Priority date: 1999-10-13
Filing date: 2000-10-12
Publication date: 2010-04-28
Anticipated expiration: 2020-10-12
Also published as: EP1245672B1; US6907393B1; EP1245672A1; DE60040928D1; WO2001027259A1; EP1245672A4

Description

技術分野
本発明は、人工プロモーター候補の選択技術に係り、さらに詳しくは仮想的に作成したプロモーター候補の中から有効な人工プロモーター候補を選択する、人工プロモータ候補の選択技術に関する。
背景技術
生命科学の発展に伴い染色体の構造が分子レベルで解明されている。それによると染色体中に存在するＤＮＡ（デオキシリボ核酸）分子は、ＤＮＡの連続する一本の糸のようなものであることが判明している。このＤＮＡには、アデニン（ａ）、グアニン（ｇ）、シトシン（ｃ）、チミン（ｔ）という主として４種類の塩基があり、染色体中に存在するＤＮＡ分子はそれらの組み合わせからなり、糖、リン酸とが結合して構成されており、染色体中に存在するＤＮＡ分子は塩基配列が異なることにより種々の情報を有することになる。
そして、ＤＮＡを解析することにより、ＤＮＡ分子を構成する一部分が遺伝情報を担う構造単位で遺伝形質を規定する因子、即ち遺伝子であることが判明しており、特にタンパク質やｔＲＮＡ、ｒＲＮＡなどの一次構造を規定している遺伝子が構造遺伝子として定義されている。遺伝子によるタンパク質合成のメカニズムについて図１８に基づいて説明する。
図１８に示すように遺伝子は、プロモーター領域と、転写領域（タンパク質のアミノ酸配列情報を有する構造遺伝子の領域）と、ターミネーター領域の３つの領域に区分けされる。プロモーター領域は、転写の開始をコントロールする役割を持ち、転写領域は実際に転写される領域であり、ターミネーター領域は転写の終了を制御する役割を持っている。なお、転写が開始される部位を転写開始点という。
このような構造を有する遺伝子においてタンパク質の合成は以下の手順で行われる。まず、ＲＮＡポリメレース（ＤＮＡ配列を転写する酵素）が、プロモーター領域の少し手前のＤＮＡ配列に結合し、プロモーター領域に向かって移動する。そして、ＲＮＡポリメレースが、プロモーター領域を越えて転写領域側に移動すると、転写領域のＤＮＡ配列に対応したメッセンジャーＲＮＡを合成する。そして、ＲＮＡポリメレースがターミネーター領域にくるとＤＮＡ配列の転写を終了する。その後、このメッセンジャーＲＮＡは、核から細胞質へ移動し、リボゾームと結合する。リボゾームは、メッセンジャーＲＮＡに基づいてタンパク質の合成を行う。このように、遺伝子のＤＮＡ配列が転写され、その転写されたものに従って所定のタンパク質が合成される。
ここで、上述したタンパク質の合成を行う頻度は、ＲＮＡポリメレースがメッセンジャーＲＮＡを転写する頻度に係り、メッセンジャーＲＮＡが転写される頻度は遺伝子のプロモーター領域により制御される。
したがって、プロモーター領域のＤＮＡ配列を人工的に操作することにより、タンパク質合成頻度の高いプロモーターや、タンパク質合成頻度の遅いプロモーターを得ることが理論的に可能となる。
このため、近年このプロモーター領域のＤＮＡ配列を人工的に作り替えてタンパク質合成頻度を積極的に制御しようとする試みが盛んに行なわれるようになっている。なぜなら、タンパク質の合成頻度を制御することができれば、例えば転写活性の高いプロモーターの利用によって特定のタンパク質を人工的に大量発現することが可能になるからである。さらに、人工的に特定のタンパク質を大量発現することが可能となれば、例えば遺伝子治療において、がん細胞に十分なウイルスを感染させ（遺伝子治療においては、弱毒されたウイルスが正常遺伝子を細胞内に運搬するウイルスベクターとして使用される）、導入した正常遺伝子（強力な人工プロモーターを組み込んだもの）から、がんを抑えるのに十分な量のタンパク質を特異的に発現させるという分子レベルでの治療が可能になる。
しかしながら、現在のところ、このような転写活性の高い人工プロモーター、すなわち、その様な特性を発揮するＤＮＡ配列を有する人工プロモーターを設計する手法は確立されておらず、構造遺伝子（検定用遺伝子）の前にランダムに塩基を配列させて合成したもの（プロモーター候補）を結合して、検定用遺伝子が発現したかどうかで、プロモーター候補の有効性を見ることが行われている。
このような方法では、実験を行なう人工プロモーター候補の塩基配列をランダムに決定するため、無限とも考えられる塩基配列（４の階乗）のなかから、効果の高い人工プロモーターに適した塩基配列を見つけることは困難なことである。
そこで、本発明は上述した問題を解決するためになされたものであり、その目的は、実験を行なう前に、考えられる塩基配列の中から予めプロモーターとして有効に機能する可能性の高い塩基配列を選出することにより、実際に実験を行なう塩基配列の数を少なくすることができる人工プロモーター候補の選択方法を提供することを目的とする。
発明の開示
本発明者は、今までに知られているプロモーターについてその塩基配列に関する特徴を検討した結果、プロモーターと構造遺伝子を結合させた塩基配列から所定のパターンで抽出して得た仮想アミノ酸配列における個々のアミノ酸に基づくインデックス値による曲線を作成すると、その曲線は転写開始点近傍で正負の逆転を起こす傾向が非常に高いことを見出し、本発明を完成したのである。
すなわち、本発明の人工プロモーター候補の選択方法は、構造遺伝子の転写領域における転写開始点近傍の仮想アミノ酸配列から得られるアミノ酸インデックス曲線に対し、正負が逆転したアミノ酸インデックス曲線となる仮想アミノ酸配列から得られる塩基配列を有するＤＮＡを人工プロモーター候補として選択することを特徴とする。
本発明の人工プロモーター候補の選択方法は、プロモーターと構造遺伝子を含む所与の塩基配列の転写開始点近傍における構造遺伝子の転写領域における転写開始点近傍の仮想アミノ酸配列から得られるアミノ酸インデックス曲線とプロモーターの塩基配列から得られる仮想アミノ酸配列のアミノ酸インデックス曲線が、転写開始点近傍で正負が逆転する傾向が極めて高いという新規な事実に基づくものであり、例えば、構造遺伝子の転写開始点近傍における仮想アミノ酸配列のアミノ酸のインデックス値から構造遺伝子側の曲線を求めておき、転写開始点近傍で正負が反転するようにプロモーター領域の仮想アミノ酸配列を求めて塩基配列を決定することもでき、また、例えば、予め任意に設定された塩基配列を構造遺伝子の上流に結合し、その結合した塩基配列から求められる仮想アミノ酸配列のインデックス曲線が転写開始点近傍における構造遺伝子側の曲線と正負が反転しているかどうかで、任意に設定した仮想アミノ酸配列の有効性を判定することもできる。
また、本発明の他の人工プロモーター候補の選択方法は、選択対象の人工プロモーターの塩基配列を人工プロモーターが接続される構造遺伝子の塩基配列の上流に結合し、その結合した塩基配列から得られる仮想アミノ酸配列に基づくアミノ酸インデックス曲線が転写開始点近傍で正負が逆転するようなものであるとき、前記人工プロモーターを当該構造遺伝子のプロモーター候補として選択することを特徴とする。
すなわち、塩基配列の判明している構造遺伝子に対する有効な人工プロモーター候補を選択する際には、任意に設定された塩基配列を前記構造遺伝子の上流に結合し、その結合した塩基配列の少なくとも転写開始点近傍を含む所定の領域における塩基配列から所定のパターンで抽出して得た仮想アミノ酸配列に基づくインデックス曲線が転写開始点近傍で正負が逆転するようなものであるとき、前記任意に設定された塩基配列を人工プロモーター候補として選択するというものである。
なお、所与の塩基配列から仮想アミノ酸配列を抽出する方法及びその仮想アミノ酸配列に基づくインデックス曲線の表現方法は、転写開始点における変化を見やすくする目的で適宜設定することができる。
例えば、所与の塩基配列から仮想アミノ酸配列を抽出する一つの方法としては、選択対象である人工プロモーターの塩基配列から得られる仮想アミノ酸配列が、当該塩基配列から１塩基ずつずらしながら得られる３塩基から形成されるアミノ酸単位により作成されていても良い。
ただし、仮想アミノ酸配列を抽出する方法としては、上記した塩基配列から１塩基ずつずらしながら３塩基単位を抽出する方法以外にも様々な方法で抽出することができ、例えば、塩基配列の中から連続して隣合う３塩基を抽出したり、１塩基ずつ飛ばして３塩基を抽出したり、または２塩基ずつ飛ばして３塩基を抽出するようにしても良い。
また、本発明の他の人工プロモーター候補の選択方法は、有効な人工プロモーター候補を選択するに際して、選択対象の人工プロモーターの塩基配列と構造遺伝子の上流の塩基配列とを結合して塩基配列を得る工程、当該塩基配列の先頭部分に存在する人工プロモーターの塩基配列から１塩基ずつずらしながら３塩基単位を抽出し、それにより形成される仮想アミノ酸配列における個々のアミノ酸のインデックス値からなる第１の数列を得る工程、前記第１の数列をスムージング化することにより第２の数列を得る工程、および、前記第２の数列が転写開始点近傍で正負の反転をしている場合に、前記人工プロモーターを有効な人工プロモーター候補として選択する工程を有する。
この人工プロモーター候補を選択する方法では、まず仮想的に作成した人工プロモーターの塩基配列を構造遺伝子の塩基配列の上流に結合した塩基配列を作成する。具体的には、転写対象とする構造遺伝子の塩基配列の上流に人工プロモーターの塩基配列を結合することにより一定の塩基配列が得られる。
既に説明したように人工プロモーターとして考えられる塩基配列の数は非常に多くの数となるため、この作業はコンピュータを利用して行なうことが好ましい。コンピュータにより自動的に人工プロモーターの塩基配列を作成することにより効率的に作業を進めることができる。ただし、ある程度効果がありそうな人工プロモーターの塩基配列が予測されるときには、研究者等が手作業にて塩基配列を設計しても良い。例えば、既知のプロモーターの塩基配列の一部を修正して、人工プロモーターの塩基配列を設計する場合である。
次に、この塩基配列の先頭部分に存在する人工プロモータの塩基配列から一定の方式で３塩基単位づつ抽出して仮想アミノ酸配列を作成し、それらの個々のアミノ酸のインデックス値を求めてアミノ酸インデックス値からなる第１の数列を作成する。
ここで、アミノ酸インデックス値（例えば、ｔｒａｎｓｆｅｒｆｒｅｅｅｎｅｒｇｙｔｏｌｉｐｏｐｈｉｌｉｃｐｈａｓｅｖｏｎＨｅｉｊｎｅ−Ｂｌｏｍｂｅｒｇ１９７９等）とは、アミノ酸の物性を様々な角度から計測し、数値化したものであり、その種類は現在４３４種あり、インターネット上で公開されている。このようにアミノ酸インデックス値に変換するのは、塩基配列のみの解析からではわからない何らかの高次の情報が事象の背後に潜んでいると推察されるためである。
次に、この第１の数列をスムージング化することにより第２の数列を作成する。スムージング化は、例えばその数値の後ろに続く所定個数（例えば、３〜６個）の数値を足し合わせその平均を採る方法、又はその数値の前に続く所定個数（例えば、３〜６個）の数値を足し合わせその平均を採る方法、さらにその数値の前後に連続する所定の個数（３〜６個）の数値を足し合わせその平均を採る方法等を採用することができる。また、上述した各方法においては、足し合わせた数値の和を足し合わせた数値の数で割ることにより平均を求めたが、足し合わせた数値をそのまま採用しても良い。このようにしても、後述するグラフ化の段階で、グラフの縮尺を調整することにより、そのグラフは同一のパターンを有するためである。さらに、スムージング化は、上述した方法に限られず、データのスムージング化に関する種々の数学的手法をも使用することができ、例えば移動平均法等により行うこともできる。すなわち、後述するスムージング化された数列をグラフ化した際に、そのグラフのパターン（変動の様子）が認識できる程度にスムージング化できればどのような手法であっても良い。
そして、この第２の数列が転写開始点近傍で正負の反転をしているか否かを判定し、正負の反転をしている場合に、前記人工プロモーターを有効な人工プロモーター候補として選出する。
なお、第２の数列が転写開始点近傍で正負の反転をしているか否かを判定する際、数列とそれに対応する数値を図式化してインデックス曲線を作成すると、転写開始点近傍の領域でインデックス曲線の正負が逆転（反転）する傾向が明瞭になり判定が容易になる。
上述した本発明の人工プロモータ候補の選択方法によれば、数多くの仮想人工プロモーターの中からプロモーターとして機能する可能性の高い人工プロモーター候補を選出することができ、これにより、実際に効果を確認するために実験しなければならないプロモーターの数を少なくすることができる。
すなわち、従来のプロモーターの設計方法では、図１の下段に示すようにプロモーター候補をランダムな塩基配列の基に合成し（Ｓ１）、そのプロモーター候補を構造遺伝子（検定用遺伝子）と結合し（Ｓ２）、その結合したものを細胞内に導入し、その遺伝子発現を確認することによりそのプロモーター候補の有用性を決定していた。一方、本発明によれば、図１の上段に示すように、ステップＳ１で上述したプロモーター候補の選出をした後に、プロモーター候補の合成（Ｓ２）・構造遺伝子（検定用遺伝子）の結合（Ｓ３）・実験（Ｓ４）というステップで行うことができ、実際に合成し実験するプロモーター候補の数を少なくすることができる。
発明を実施するための最良の形態
以下、本発明の人工プロモーター候補の選択方法を具現化した実施の形態について説明する。図２に人工プロモーター候補を選択するための手順を示す。
図２に示すように本発明に係る人工プロモーター候補選択方法では、まず仮想人工プロモーターの塩基配列と構造遺伝子（検定遺伝子）の塩基配列とを結合した塩基配列を作成する（Ｓ１）。
図３に基づいてさらに具体的に説明する。図３に示すように、仮想的に作成した人工プロモーターの塩基配列をｇａｔｃｔ・・ｃａとし、構造遺伝子の塩基配列をｃｃｃｇｔｃｃａｇ・・とする。このステップＳ１の工程では、構造遺伝子の塩基配列ｃｃｃｇｔｃｃａｇ・・の前に、人工プロモーターの塩基配列ｇａｔｃｔ・・ｃａを結合し、塩基配列ｇａｔｃｔ・・ｃａｃｃｃｇｔｃｃａｇ・・を作成する。
次に、この塩基配列の先頭の塩基から所定のパターンで３塩基単位ずつ抽出して得られる仮想アミノ酸配列から、それらを構成するアミノ酸のインデックス値からなる第１の数列を作成する（Ｓ２）。
塩基配列から３塩基単位を連続して抽出する方法を例に説明する。まずパターン１は上述した塩基配列ｇａｔｃｔ・・の先頭から１塩基づつずらしながら３塩基単位を連続して抽出する方法で、１番目の３塩基はｇａｔ、２番目の３塩基はａｔｃ、３番目の３塩基はｔｃｔ、・・というように抽出する方法である。
ここで、図４（遺伝コード表）に示すように、ｇａｔという３つの塩基は、アスパラギン酸（Ｄ：以下、アミノ酸をアミノ酸の一文字記号で表す。）に対応し、ａｔｃはイソロイシン（Ｉ）に対応し、同様にｔｃｔはセリン（Ｓ）に対応する。したがって、塩基配列から１塩基づつずらしながら３塩基単位で抽出したものは、Ｄ，Ｉ，Ｓ，Ｌ，Ｓ・・という仮想アミノ酸配列で表すことができる。
仮想アミノ酸配列を作成したら、次にこの仮想アミノ酸配列を形成する個々のアミノ酸をそれぞれのインデックス値に変換した数列を作成する。各アミノ酸（２０種類）のアミノ酸インデックス値の一例としてｖｏｎＨｅｉｊｎｅ−Ｂｌｏｍｂｅｒｇのｔｒａｎｓｆｅｒｆｒｅｅｅｎｅｒｇｙｔｏｌｉｐｏｐｈｉｌｉｃｐｈａｓｅを、図５に例示した。したがって、上記のように作成したアミノ酸配列から、２３．２２，−１８．３２，−１．５４，−１７．７９，−１．５４，………という数列（第１数列）が形成される。これが、請求項にいう第１の数列に相当する。
ここで、アミノ酸配列において終止コドン（Ｘ）が存在する場合には、アミノ酸に対応せずアミノ酸インデックス値が存在しないため、本実施の形態では、アミノ酸インデックス値を０として第１数列を作成した。終止コドン（Ｘ）を取り除いてしまうと、結果的に塩基配列からある塩基を取り除くこととなり、アミノ酸インデックス値が変わってしまうからである。
次に、この第１数列（２３．２２，−１８．３２，−１．５４，−１７．７９，−１．５４，………）のスムージング化を行う（Ｓ３）。ここで、第１数列のスムージング化を行うのは、第１数列のアミノ酸インデックス値は、隣接する数値の変動が激しいためアミノ酸インデックス値の変化の様子（パターン）が認識し難いためである。したがって、スムージング化は、スムージング化された数値をグラフ化した際に、そのグラフがある一定のパターンを有することが判別できる程度に行えば良い。
スムージング化の手法としては、データ処理の分野で既知の様々な手法を使用することができるが、ここでは、上述した第１数列の数値を、その数値から後ろにある所定の個数（３個）の数値の平均値に置き換えることによりスムージング化した数列を得る場合を例に説明する。
第１数列（（２３．２２，−１８．３２，−１．５４，−１７．７９，−１．５４，………）最初の３つの数値の平均は｛２３．２２＋（−１８．３２）＋（−１．５４）｝／３＝１．１２であり、次の３つの数値の平均は｛−１８．３２＋（−１．５４）＋（−１７．７９）｝／３＝−１２．５５であり、その次の３つの数値の平均は｛（−１．５４）＋（−１７．７９）＋（−１．５４）｝／３＝−６．９６である。これ以降も同様の手順により平均値を求めることができる。
このように第１数列を所定個数毎に平均値化し置換することにより、第１数列をスムージング化した第２数列（１．１２，−１２．５５，−６．９６，………）を得る。これが、請求項の第２の数列に相当する。
次いで、第２数列が転写開始点近傍で正負の反転をしているか否かを判定し、正負の反転をしている場合に、前記人工プロモーターを有効な人工プロモータ候補として選出する。
好ましい判定方法は、この第２数列をグラフ化することによりインデックス曲線を得て、そのインデックス曲線のパターンにより、その人工プロモーターを評価する方法である（Ｓ４）。
即ち、上述した第２数列（１．１２，−１２．５５，−６．９６，………）に基づいて、横軸に数列の番号、縦軸にスムージング化されたアミノ酸インデックス値をプロットすることによりインデックス曲線を得るのである。図６に転写開始点近傍におけるインデックス曲線の例を概念的に示している。
プロモーターとして機能する可能性が高い人工プロモーター候補を選出する際には、転写開始点近傍の仮想アミノ酸配列のインデックス曲線パターンで判定することできる。
すなわち、既に説明したように、既知のプロモーターのインデックス曲線は転写開始点近傍において、後述する図１５に認められる様にその正負が反転している傾向が極めて高い。したがって、仮想人工プロモーターの塩基配列と構造遺伝子の塩基配列を結合してできる仮想アミノ酸配列のインデックス曲線を作成した際に、転写開始点近傍でインデックス曲線の正負が反転している場合、その塩基配列を有する仮想人工プロモーターは、当該構造遺伝子に有効な人工プロモーター候補として選出することができる。
以上説明した人工プロモーター候補の選択方法が有効であることを塩基配列既知の遺伝子（プロモーター領域部位）を用いて以下に説明する。
既知の遺伝子（プロモータ領域部位）として、Ｊ０１５６７ＰｌａｓｍｉｄＣｏｌｉｃｉｎＥ１（ｆｒｏｍＥ．ｃｏｌｉ）ｓｔｒｏｎｇｐｒｏｍｏｔｅｒｒｅｇｉｏｎＤＮＡ、Ｘ８７９９４Ｃ．ｘｙｌｉＤＮＡｆｏｒｓｔｒｏｎｇｐｒｏｍｏｔｅｒ（５６９ｂｐ）、ＥＰＤ３１００５（＋）ＰｈＥＰＳＰｓｙｎｔｈａｓｅＰ２＋及びＥＰＤ３５０３８（＋）ＬｅＬＡＴ５２；ｒａｎｇｅ−４９９ｔｏ１００を選択した。
Ｊ０１５６７とＸ８７９９４の塩基配列についてはＤＤＢＪ（ＤＮＡＤａｔａＢａｎｋｏｆＪａｐａｎ）に登録されているデータを利用し、他の塩基配列についてはＥＰＤ（ＥｕｋａｒｙｏｔｉｃＰｒｏｍｏｔｅｒＤａｔａｂａｓｅ）に登録されているデータを利用した（但し、Ｘ８７９９４については４８１番目以降の配列データを用いた。）。
それらの塩基配列は図７〜図１０に示す通りである。すなわち、Ｊ０１５６７は、図７に示す塩基配列を有し、その転写開始点は８４番目である。また、Ｘ８７９９４は、図８に示す塩基配列を有し、その転写開始点は５４２番目である（但し、後述の図１５では４８１番目以降が示されているので、図１５（ｂ）において転写開始点は６２番目である）。また、ＥＰＤ３１００５は、図９に示す塩基配列を有し、その転写開始点は１４０番目である。さらに、ＥＰＤ３５０３８は、図１０に示す塩基配列を有し、その転写開始点は１４０番目である。
上記の塩基配列からインデックス曲線を上記記載の手順で作成した。具体的な手順を図７に示される塩基配列を有するＪ０１５６７を例に、図１１〜図１４を用いて説明する。なお、以下に説明するインデックス曲線の作成方法は単なる例示であって、本発明を限定するものではない。
（１）図１１に示したＪ０１５６７の塩基配列の先頭から、連続する３個の塩基を単位として抽出する操作を１塩基ずつずらしながら最後の塩基まで繰り返して３個の塩基を単位とする図１２に示される配列を作成する。
（２）上記（１）で得られた配列（図１２）から、３個の塩基からなる単位をアミノ酸に変換して仮想アミノ酸配列を作成する。
（３）上記（２）で得られた配列における各アミノ酸に対して疎水性アミノ酸インデックス値を対応させたアミノ酸インデックス値からなる図１３に示される数列を作成する。
（４）上記（３）で得られた数列（図１３）において各数値の前方５個の数値を合計した値を対応させた図１４で示される数列を作成する。
（５）上記（４）で得られた数列（図１４）を塩基の先頭からの位置を横軸にしてその位置に対応するアミノ酸インデックス値を縦軸に表わすことによりインデックス曲線を得る。
作成したインデックス曲線を図１５に示す（但し、これらの図は正負の逆転を見やすくするために棒グラフ形式で示してある）。
図１５には上記４種の遺伝子の塩基配列から求めたインデックス曲線をそれぞれ示すが、いずれも転写開始点近傍で正負が反転していることを示している。
以上のことからも明らかな様に、仮想人工プロモーターの塩基配列と構造遺伝子の塩基配列を結合してできる仮想アミノ酸配列のインデックス曲線を作成した際に、転写開始点近傍でインデックス曲線の正負が反転している場合、その塩基配列を有する仮想人工プロモーターを当該構造遺伝子の有効な人工プロモーター候補として選出することができる。そして、選出された人工プロモーター候補については、実際にそのＤＮＡを合成し、構造遺伝子と結合して実験を行い最終的な評価を行うこととなる。
以上詳述したように、上述した手順により人工プロモーター候補を選出すれば、実際に合成して実験を行う人工プロモーター候補の数を格段に減らすことができ、また、有効な人工プロモーター候補延いてはその塩基配列を効率良く設計することが可能となる。
また、有効な人工プロモーター候補の塩基配列を設計する場合、判定すべき領域を転写開始点近傍の領域のインデックス曲線に限定できるため、その判定を容易に行うことができる。
本発明の方法により、転写活性の高い人工プロモーター候補を効率良く設計することができれば、例えば遺伝子治療の分野において有用なプロモーターを効率的に設計することができる。例えば、ガン細胞に十分なウイルス（正常な遺伝子を運ぶベクターウイルス）を感染させ、導入した正常遺伝子からガンを抑えるのに十分な量のタンパク質を特異的に発現させる治療に応用することができる。これは、正常遺伝子を特異的かつ強力に発現させるためには、人工的に強いプロモーターを設計することが必要となるからである。
上述した本発明に係る人工プロモーター候補の選出を、好適に実施することができる人工プロモーター候補選出装置の一実施の形態について説明する。図１６に本実施の形態に係る人工プロモーター候補選出装置のハードウェア構成図を示す。
本実施の形態に係る人工プロモーター候補選出装置は、図１６に示すように人工プロモーター候補選出装置全体を統括的に制御するプログラムされた主制御部（以下、主制御部という）１０と、主制御部１０に接続され各種データを記憶する記憶装置２０と、入出力制御部１４を介して主制御部１０に接続されるキーボードやマウス等のポインティングデバイスからなる入力装置１１と、インデックス曲線等の画像を表示するディスプレイ等の表示装置１２と、選出されたプロモーター候補の塩基配列をプリントアウトするプリンター等の出力装置１３を備える。
主制御部１０は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、入力された塩基配列からアミノ酸インデックス値に変換した第１の数列を作成するための変換プログラム、第１の数列をスムージング化するためのプログラム、スムージング化されたデータを表示装置１２に表示するための画像処理プログラムや所要データを格納するための内部メモリを有している。
記憶装置２０は、ハードディスクやフレキシブルディスク、あるいは光ディスク等の記憶手段であり、塩基配列ファイル２１と、塩基−アミノ酸ファイル２２、アミノ酸インデックス値ファイル２３と、選出された人工プロモーター候補の塩基配列を記憶する人工プロモーター候補ファイル２４が格納されている。
塩基配列ファイル２１は、仮想的に作成した人工プロモーター候補の塩基配列と構造遺伝子の塩基配列とを結合した塩基配列を記憶するファイルである。すなわち、入力装置１１のキーボード等からオペレータにより入力された塩基配列のデータが、記憶装置２２の中に格納される。
塩基−アミノ酸ファイル２２は、３塩基を組み合わせることにより、どのようなアミノ酸が合成されるかのデータを記憶したファイルであり、具体的には図４に示すようなデータが記憶されている。
アミノ酸インデックス値ファイル２３は、アラニン，アルギニン等の各種アミノ酸のアミノ酸インデックス値を記憶するファイルである。具体的には、図５に示すようなデータにより、アミノ酸インデックス値ファイル２３が構成される。
人工プロモータ候補ファイル２４は、インデックス曲線を判定した結果、人工プロモーターとして有効に機能する可能性が高いものとして選出された人工プロモーターの塩基配列を記憶するファイルである。
次に、本実施の形態の人工プロモーター候補選出装置を使用して入力された塩基配列から人工プロモーター候補を選出する手順を図１７に基づいて説明する。図１７は人工プロモーター候補を選出する時の手順を説明するためのフローチャートである。
まず、オペレータは、入力装置１１から、仮想プロモーターの塩基配列と構造遺伝子の塩基配列を結合した仮想塩基配列を入力する（Ｓ１）。なお、オペレータにより入力された塩基は表示装置１２上に、例えば、ａ，ｇ，ｃ，ｔ等と表示され、オペレータは入力内容を確認しながら入力作業を行うことができる。この塩基配列は、入出力制御部１４及び主制御部１０を介して記憶装置２０内の塩基配列ファイル２１の中に格納される。ここでは入力された塩基配列が１つ（人工プロモーター候補が一つ）である場合を例に説明する。
次に、オペレータは、入力装置１１から、ステップＳ１で入力した塩基配列から３塩基単位を抽出する方式を入力する（Ｓ２）。本実施の形態のプロモーター候補選出装置では、図３に示すように、連続して３塩基を抽出する方式１と、１塩基づつ飛ばして３塩基を抽出する方式２と、２塩基づつ飛ばして３塩基を抽出する方式３が選択できるようになっている（図３参照）。
さらに、オペレータは、入力装置１１から、スムージングパターンを入力する（Ｓ３）。本実施の形態の人工プロモーター候補選出装置においては、平均値を取るための数値の数（３〜１０個）を入力するようになっている。
ステップＳ１〜Ｓ３により入力事項が入力されると、主制御部１０は、ステップＳ２で入力された抽出パターンに従って、ステップＳ１で入力された塩基配列から３塩基を抽出し、その塩基配列から形成される仮想アミノ酸配列をアミノ酸インデックス値に変換することにより第１の数列を作成する（Ｓ４）。すなわち、塩基配列ファイル２１に格納されている塩基配列から３塩基単位ずつ抽出し、その塩基配列に対応するアミノ酸を塩基−アミノ酸ファイル２２のデータに基づいて判断し、アミノ酸インデックス値ファイル２２のデータを基に、第１の数列に変換する。作成された第１の数列は、主制御部１０内の内部メモリに格納される。
次に、主制御部１０は、内部メモリに格納している第１の数列に対してスムージングを行う（Ｓ５）。そして、主制御部１０は、スムージング化された数値に基づいて表示装置１２上にインデックス曲線を表示する（Ｓ６）。本実施の形態のスムージングは、Ｓ３で入力された個数（例えば、３個）の数値の平均値を取ることにより行っている。具体的な手順に付いては、既に説明した通りである。
そして、表示装置１２上に表示されたインデックス曲線に基づいて、オペレータが、その仮想塩基配列を有するプロモーターの有効性を判定する（Ｓ７）。具体的には、入力された塩基配列のインデックス曲線を表示装置１２上に表示し、オペレータが表示されているインデックス曲線を見て、転写開始点近傍で正負が反転しているか否かを判断する。
Ｓ７のステップで、人工プロモーターとして機能する可能性が高いと判断された場合には、その塩基配列を有するものを人工プロモーター候補として選出される（Ｓ８）。選出された人工プロモーター候補の塩基配列は、記憶装置２０内の人工プロモータ候補ファイル２４内に格納され、オペレータの要求により随時、表示装置１２上に表示、又は出力装置（プリンター）に出力されるようになっている。
以上、詳述したように、本実施形態に係る人工プロモーター候補選出装置では、オペレータにより仮想プロモーター候補の塩基配列と目的とする構造遺伝子の塩基配列とを結合した塩基配列を入力するだけで、その仮想プロモーター候補の塩基配列が人工プロモーターとして機能する可能性を有するか否かを判断できる。したがって、実際に合成して実験する人工プロモーター候補をある程度絞り込むことができるので、これにより効率的に人工プロモーターの設計を行うことができる。
なお、上述した実施の形態では、塩基配列を一つ（人工プロモーター候補が一つ）だけ入力する例について説明したが、複数の塩基配列（人工プロモーター候補が複数）を一度に入力して記憶装置２０の塩基配列ファイル２１に格納するようにしても良い。この場合には、塩基配列ファイル２１内に格納されている各塩基配列について、図１７のステップＳ２〜Ｓ８を繰り返すこととなる。
また、上述した実施の形態のように塩基配列をオペレータにより入力するのではなく、人工プロモーター候補選出装置への入力事項は、仮想プロモーターを構成する塩基の数と構造遺伝子の塩基配列のみとし、主制御部１０により考え得る塩基配列の全てを作成するようにしても良い。
すなわち、ＤＮＡはａ，ｇ，ｃ，ｔの四種類の塩基により構成されるため、プロモーター領域の塩基の数（ｎ）が決まれば、考え得る塩基配列（４^ｎ個）を全て作成することができ、自動的に作成されたものと構造遺伝子の塩基配列を結合すれば良い。このようないわゆる塩基配列自動作成手段を人工プロモーター候補選出装置内に設ければ、効率的に人工プロモーター候補を作成し、その有効性を判断することができるため、従来の人工プロモーターをランダムに作成したときと比較して漏れのない塩基配列の評価を行うことができる。
また、上述した実施の形態では、インデックス曲線の判定をオペレータ（研究者）が、表示装置１２上に表示されたインデックス曲線を見て行うようにしたが、このような形態をとることなく、コンピュータによるパターン認識技術を利用して、主制御部１０により自動的に行うようにしても良い。また、塩基配列を主制御部１０により自動的に作成する塩基配列自動作成手段と組み合わせ、主制御部１０により自動的にインデックス曲線の判定を行うことにより、塩基配列の数が多くなっても、全ての塩基配列について自動的に評価することができる。
以上、本発明の実施の形態について詳細に説明したが、これらは例示に過ぎず、本発明は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。
【配列表】

【図面の簡単な説明】
図１は、本発明の効果を説明するための図面である。
図２は、本発明の人工プロモーター候補を選出するための手順を説明するためのフローチャートである。
図３は、塩基配列からアミノ酸インデックス配列に変換する手順を説明するための図面である。
図４は、遺伝コード表を示す図面である。
図５は、アミノ酸インデックス値の一例を示す図面である。
図６は、インデックス曲線を概念的に説明するための図面である。
図７は、遺伝子Ｊ０１５６７のプロモータ領域部位における塩基配列を示す図面である。
図８は、遺伝子Ｘ８７９９４のプロモータ領域部位における塩基配列を示す図面である。
図９は、遺伝子ＥＰＤ３１００５のプロモータ領域部位における塩基配列を示す図面である。
図１０は、遺伝子ＥＰＤ３５０３８のプロモータ領域における塩基配列を示す図面である。
図１１は、遺伝子Ｊ０１５６７のプロモータ領域部位における塩基配列を上流から順に１塩基ずつ示した図面である。
図１２は、図１１に示す塩基配列から３塩基を１単位として抽出することで作成した配列を示す図面である。
図１３は、図１２に示す配列の各３塩基をアミノ酸インデックス値に変換した数列を示す図面である。
図１４は、図１３に示す数列をスムージング化した数列を示す図面である。
図１５は、既知のプロモーターのインデックス曲線の一例を示す図面である。
図１６は、本発明の一実施の形態に係る人工プロモーター候補選出装置のハードウェア構成図を示す図面である。
図１７は、図１６に示す人工プロモーター候補選出装置において、人工プロモーター候補を選出する手順を示したフローチャートである。
図１８は、ＤＮＡの転写からタンパク質合成までを説明するための図面である。

Claims

選択対象の人口プロモーターの塩基配列を人口プロモーターが接続される構造遺伝子の塩基配列の上流に結合し、
その結合された塩基配列から１塩基ずつずらしながら得られる３塩基から形成されるアミノ酸単位により仮想アミノ酸配列を作成し、
その作成された仮想アミノ酸配列に対して、「ｔｒａｎｓｆｅｒｆｒｅｅｅｎｅｒｇｙｔｏｌｉｐｏｐｈｉｌｉｃｐｈａｓｅ」のアミノ酸インデックス値を用いて、当該仮想アミノ酸配列における個々のアミノ酸のアミノ酸インデックス値からなるアミノ酸インデックス曲線を作成し、
その作成されたアミノ酸インデックス曲線が転写開始点近傍で正負が逆転するようなものであるとき、前記人工プロモーターを当該構造遺伝子のプロモーター候補として選択することを特徴とする人工プロモーター候補の選択方法。
有効な人工プロモーター候補を選択するに際して、選択対象の人工プロモーターの塩基配列と構造遺伝子の上流の塩基配列とを結合して塩基配列を得る工程、
当該塩基配列の先頭部分に存在する人工プロモーターの塩基配列から１塩基ずつずらしながら３塩基単位を抽出して仮想アミノ酸配列を作成し、「ｔｒａｎｓｆｅｒｆｒｅｅｅｎｅｒｇｙｔｏｌｉｐｏｐｈｉｌｉｃｐｈａｓｅ」のアミノ酸インデックス値を用いて、その仮想アミノ酸配列の個々のアミノ酸のインデックス値からなる第１の数列を得る工程、
前記第１の数列をスムージング化することにより第２の数列を得る工程、
および、
前記第２の数列が転写開始点近傍で正負の反転をしている場合に、前記人工プロモーターを有効な人工プロモーター候補として選択する工程を有する人工プロモーター候補の選択方法。
選択対象の人口プロモーターの塩基配列と人口プロモーターが接続される構造遺伝子の上流の塩基配列とを結合して得られた塩基配列から１塩基ずつずらしながら得られる３塩基から形成されるアミノ酸単位により作成した仮想アミノ酸配列に対して、「ｔｒａｎｓｆｅｒｆｒｅｅｅｎｅｒｇｙｔｏｌｉｐｏｐｈｉｌｉｃｐｈａｓｅ」のアミノ酸インデックス値を用いて、その仮想アミノ酸配列における個々のアミノ酸のアミノ酸インデックス値からなるアミノ酸インデックス曲線を得る手段と、
そのアミノ酸インデックス曲線取得手段で得られたアミノ酸インデックス曲線が転写開始点近傍で正負が逆転するようなものであるとき、前記人工プロモーターを当該構造遺伝子のプロモーター候補として選択するプロモータ候補選択手段とを備えた人工プロモーターの選択装置。
有効な人工プロモーター候補を選択するに際して、選択対象の人工プロモーターの塩基配列と構造遺伝子の上流の塩基配列とを結合した塩基配列を得る塩基配列取得手段、
その塩基配列取得手段で得られた塩基配列の先頭部分に存在する人工プロモーターの塩基配列から１塩基ずつずらしながら３塩基単位で抽出して仮想アミノ酸配列を形成し、「ｔｒａｎｓｆｅｒｆｒｅｅｅｎｅｒｇｙｔｏｌｉｐｏｐｈｉｌｉｃｐｈａｓｅ」のアミノ酸インデックス値を用いて、その仮想アミノ酸配列の個々のアミノ酸のインデックス値からなる第１の数列を得る第１数列取得手段、
その第１数列取得手段で得られた第１の数列をスムージング化することにより第２の数列を得る第２数列取得手段、
および、
前記第２数列取得手段で得られた第２の数列が転写開始点近傍で正負の反転をしている場合に、前記人工プロモーターを有効な人工プロモーター候補として選択する選択手段とを有する人工プロモーター候補の選択装置。
コンピュータに、選択対象の人口プロモーターの塩基配列と人口プロモーターが接続される構造遺伝子の上流の塩基配列とを結合した塩基配列を入力装置から得る工程、
入力装置から得た塩基配列から１塩基ずつずらしながら得られる３塩基から形成されるアミノ酸単位により仮想アミノ酸配列を作成する工程、
その作成された仮想アミノ酸配列に対して、「ｔｒａｎｓｆｅｒｆｒｅｅｅｎｅｒｇｙｔｏｌｉｐｏｐｈｉｌｉｃｐｈａｓｅ」のアミノ酸インデックス値を用いて、当該仮想アミノ酸配列における個々のアミノ酸のアミノ酸インデックス値からなるアミノ酸インデックス曲線を作成する工程、
その作成されたアミノ酸インデックス曲線が転写開始点近傍で正負が逆転するようなものであるとき、前記人工プロモーターを当該構造遺伝子のプロモーター候補として選択する工程、を実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
コンピュータに、有効な人工プロモーター候補を選択するに際して、選択対象の人工プロモーターの塩基配列と構造遺伝子の上流の塩基配列と結合した塩基配列を入力装置から得る工程、
入力装置から得た塩基配列の先頭部分に存在する人工プロモーターの塩基配列から１塩基ずつずらしながら３塩基単位で抽出し、「ｔｒａｎｓｆｅｒｆｒｅｅｅｎｅｒｇｙｔｏｌｉｐｏｐｈｉｌｉｃｐｈａｓｅ」のアミノ酸インデックス値を用いて、抽出した３塩基単位により形成されるアミノ酸配列の個々のアミノ酸のインデックス値からなる第１の数列を得る工程、
前記第１の数列をスムージング化することにより第２の数列を得る工程、
および
前記第２の数列が転写開始点近傍で正負の反転をしている場合に、前記人工プロモーターを有効な人工プロモーター候補として選択する工程、を実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体。