JP3102957B2

JP3102957B2 - 遺伝子突然変異予測装置

Info

Publication number: JP3102957B2
Application number: JP19040792A
Authority: JP
Inventors: 洋文土居
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1992-07-17
Filing date: 1992-07-17
Publication date: 2000-10-23
Anticipated expiration: 2015-10-23
Also published as: JPH0630759A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、遺伝子の突然変異を予
測する遺伝子突然変異予測装置に関するものである。

【０００２】

【従来の技術】従来、遺伝子の点突然変異は、ランダム
に起こり、予測が不可能であると考えられてきた。

【０００３】

【発明が解決しようとする課題】しかし、点突然変異が
ノンランダムで遺伝子ＤＮＡの局所的な部分配列に依存
しているならば、点突然変異の予測が可能となる。

【０００４】実際、当発明者はエイズウイルス遺伝子の
点突然変異がノンランダムで局所的な部分配列に依存し
ていることを示してきた（文献１）。また、多くのガン
遺伝子は正常遺伝子の突然変異であることがわかってき
ている。更に、先天異常をもたらす遺伝子も正常遺伝子
の突然変異である。したがって、ヒトゲノム計画（ヒト
の全遺伝子ＤＮＡの文字列を解析しようとする計画）が
推進されている今日、遺伝子の点突然変異予測が可能に
なれば、新しいガン遺伝子の同定、エイジングに伴う遺
伝子の変異、先天異常をもたらす遺伝子の同定などが、
可能となる。そればかりか、エイズウイルスのような急
速に遺伝子が変異していく寄生体の遺伝子の変異の予測
が可能となり、マルチ合成ワクチン系の構築が可能とな
る。

【０００５】本発明は、これらの問題を解決するため、
ＤＮＡ部分配列の各塩基の変異確率の組であるエラース
ペクトルを、予測したい遺伝子の文字列（Ａ、Ｃ、Ｇ、
Ｔの４つの文字の組み合わせ）について合成し、合成後
の変異確率の和を求めて高い塩基を突然変異を起こす確
率が高いと予測し、遺伝子の突然変異の予測を可能にす
ることを目的としている。

【０００６】文献1:Hirofumi Doi,Importance of purin
e and pyrimidine content of local nucleotide seque
nces (six bases long) for evolution of the human i
mmunodeficiency virus type 1, Proc. Natl. Acad, Sc
i. USA, Vol. 88, pp. 9282-9286, October 1991.

【０００７】

【課題を解決するための手段】図１および図８を参照し
て課題を解決するための手段を説明する。図１および図
８において、アライメント処理２は、入力された関連す
る、複数の遺伝子のＤＮＡ配列を比較して可及的に一致
するようにアライメントするものである。

【０００８】コンセンサス配列抽出処理３は、アライン
メトしたＤＮＡ配列から、各塩基位置に共通に存在する
塩基あるいは最も多く含まれる塩基を抽出したコンセン
サス配列を生成するものである。

【０００９】エラースペクトル算出処理４は、コンセン
サス配列中で出現しているＤＮＡ部分配列を求め、この
求めたＤＮＡ部分配列についてアライメントしたＤＮＡ
配列を参照して各塩基の変異確率を求めてエラースペク
トルを算出するものである。

【００１０】エラースペクトル合成処理５は、ＤＮＡ部
分配列の各塩基（Ａ、Ｃ、Ｇ、Ｔ）の変異確率の判明し
ているエラースペクトルあるいは算出したエラースペク
トルをもとに、予測したい遺伝子の文字列について合成
し、この合成したエラースペクトルの各塩基の変異確率
の和を求めるものである。

【００１１】比較集計処理６は、合成したエラースペク
トルの塩基の和の変異確率が高い塩基を見つけるもので
ある。

【００１２】

【作用】本発明は、図１に示すように、エラースペクト
ル合成処理５がＤＮＡ部分配列の各塩基（Ａ、Ｃ、Ｇ、
Ｔ）の変異確率の判明しているエラースペクトルをもと
に、予測したい遺伝子の文字列について合成し、この合
成したエラースペクトルの各塩基の変異確率の和を求
め、比較集計処理６がこの合成したエラースペクトルの
塩基の変異確率が高い塩基を見つけ、変異確率が高い塩
基を突然変異を起こす確率が高いと予測するようにして
いる。

【００１３】また、図８に示すように、アライメント処
理２が入力された関連する、複数の遺伝子のＤＮＡ配列
を比較して可及的に一致するようにアライメントし、コ
ンセンサス配列抽出処理３がこれらアラインメトしたＤ
ＮＡ配列から、各塩基位置に共通に存在する塩基あるい
は最も多く含まれる塩基を抽出してコンセンサス配列を
生成し、エラースペクトル算出処理４がコンセンサス配
列中で出現しているＤＮＡ部分配列を求め、この求めた
ＤＮＡ部分配列についてアライメントしたＤＮＡ配列を
参照して各塩基の変異確率を求めてエラースペクトルを
算出し、エラースペクトル合成処理５がこれら算出した
エラースペクトルをもとに、予測したい遺伝子の文字列
について合成し、この合成したエラースペクトルの各塩
基の変異確率の和を求め、比較集計処理６がこの合成し
たエラースペクトルの塩基の変異確率が高い塩基を見つ
け、変異確率が高い塩基を突然変異を起こす確率が高い
と予測するようにしている。

【００１４】また、変異確率の判明しているエラースペ
クトルあるいは変異確率を算出したエラースペクトルの
当該変異確率として、他の塩基への変異確率をそれぞれ
持ち、合成時に当該他の塩基への変異確率毎に和を求め
るようにしている。

【００１５】この際、変異確率が高い塩基を突然変異を
起こす確率が高いと予測した塩基について、画面上のＤ
ＮＡ部分配列の該当する塩基にマーク付けするようにし
ている。また、変異確率が高い塩基を突然変異を起こす
確率が高いと予測した塩基について、画面上のＤＮＡ部
分配列の該当する塩基にいずれの塩基（Ａ、Ｃ、Ｇ、
Ｔ）へ突然変異し易いかを表示するようにしている。

【００１６】従って、ＤＮＡ部分配列の各塩基の変異確
率の組であるエラースペクトルを、予測したい遺伝子の
文字列（Ａ、Ｃ、Ｇ、Ｔの４つの文字の組み合わせ）に
ついて合成し、合成後の合計した変異確率を求めて高い
塩基を突然変異を起こす確率が高いと予測したり、更に
いずれの塩基に突然変異し易いかを予測したりすること
により、遺伝子の突然変異を予測することが可能とな
る。

【００１７】

【実施例】まず、図１から図７を用いて本発明の実施例
の構成および動作を順次詳細に説明する。

【００１８】図１は、本発明の１実施例構成図を示す。
この実施例は、ＤＮＡ部分配列のエラースペクトルが分
かっている場合のものである。図１において、遺伝子突
然変異予測装置１は、遺伝子の突然変異を予測するもの
であって、エラースペクトル合成処理５、比較集計処理
６、予測表示処理７、および制御部８などから構成され
るものである。

【００１９】エラースペクトル合成処理５は、ＤＮＡ部
分配列の各塩基（Ａ、Ｃ、Ｇ、Ｔ）の変異確率の判明し
ているエラースペクトルをもとに、予測したい遺伝子の
文字列について合成し、この合成したエラースペクトル
の各塩基の変異確率の総和を求めるものである。例えば
後述する図４に示すように、塩基の変異確率の判明して
いるエラースペクトルを合成し、合成したエラースペク
トルの各塩基の変異確率の総和を求めたり、更に図７に
示すように、各塩基の他の塩基への変異確率毎にその総
和を求めたりするものである。

【００２０】比較集計処理６は、エラースペクトル合成
処理５によって合成した後のエラースペクトルの塩基の
変異確率が高い塩基を見つけたりなどするものである。
例えば後述する図６に示すように、合成後のエラースペ
クトルの変異確率が他よりも高い塩基（図中＃付与した
塩基）を見つけるものである。

【００２１】予測表示処理７は、比較集計処理６によっ
て変異確率が他よりも高いと見つけた塩基について、画
面上の合成後のエラースペクトルの該当する塩基に他よ
りも変異確率が高い旨を表すマーク（例えば＃）を表示
したり、更に、突然変異し易い塩基（Ａ、Ｃ、Ｇ、Ｔ）
を表示したりなどするものである。

【００２２】制御部８は、全体を統括制御したりなどの
各種制御を行うものである。遺伝子文字列９は、点突然
変異を予測したい遺伝子の文字列である。ディスプレイ
１１は、遺伝子配列などを表示するものである。

【００２３】キーボード１２は、各種指示や、データを
入力するものである。外部データ１３は、各塩基の変異
確率が判明しているＤＮＡ部分配列のエラースペクトル
を外部記憶装置に格納したものである。

【００２４】次に、図２のＳ１からＳ４の順序で、図１
の構成における動作について、図３から図７を参照して
具体的に説明する。ここで、左側などに記載する（１−
１）、（１−３）などは、後述する明細書中で詳細に説
明した当該項目で処理を行うことを表す。ここでは、Ｄ
ＮＡ部分配列（長さｎ）のエラースペクトルが分かって
おり、図１の外部データ１３として外部記憶装置に予め
記憶されているとする。この分かっているエラースペク
トルとしては、遺伝子ＤＮＡのデータベース（GenBan
k、EMBL、DDBJなどのパブリックのデータベース、ある
いは独自の実験系のデータなど）である。

【００２５】Ｓ１は、エラースペクトル合成処理とし
て、予測したい遺伝子の文字列において、長さｎのＤＮ
Ａ部分配列のエラースペクトルを合成表示する（長さｎ
の部分配列から文字列における各塩基の突然変異予測パ
ラメータ値を求める）（（１−１）、（１−３）の説明
参照）。これは、右側に記載したように、予測したい遺
伝子の文字列において、変異確率の判明しているＤＮＡ
部分配列のエラースペクトルを合成し、合成後のエラー
スペクトルの各塩基の変異確率の総和の変異確率（突然
変異予測パラメータ値）を１．５３４として求める（即
ち、合成前のエラースペクトルの塩基Ｇの変異確率の和
として、合成後のエラースペクトルの塩基Ｇの変異確率
１．５３４として求める）。

【００２６】Ｓ２は、比較集計処理として、合成エラー
スペクトルから、予測したい遺伝子の文字列の各塩基に
ついて、塩基間で突然変異予測パラメータ値を比較する
（（１−２）の説明参照）。

【００２７】Ｓ３は、予測表示処理として、予測したい
遺伝子の文字列において変異し易い塩基を予測し、表示
する（（１−２）の説明参照）。これは、右側に記載し
たように、この例では＃や＊マークのついた塩基が変異
し易いことを示している（即ち、Ｓ２で突然変異予測パ
ラメータを比較し、変異確率の高い塩基に当該＃や＊の
マークを付与して予測者に知らせるように表示する）。

【００２８】Ｓ４は、予測表示処理として、予測したい
遺伝子において、高い頻度で変異を起こす塩基が他の塩
基にどれくらいの割合で変異するかを、合成エラースペ
クトルの結果から予測表示する（（１−３）の説明参
照）。これは、右側に記載したように、画面上に表示し
た点突然変異を予測したい遺伝子の文字列・・・ＡＣＣ
ＴＴＡＡＧＣＴＴＣＣＡＧ・・・について、合成後のエ
ラースペクトルの和の変異確率（突然変異予測パラメー
タ値）の各塩基の変異確率から他の塩基にどのくらいの
割合で変異するかを上方向に並べて表示する（図１６参
照）。

【００２９】以上によって、変異確率の判明している複
数のＤＮＡ部分配列のエラースペクトルを用いて、予測
したい遺伝子の文字列を合成してエラースペクトルを生
成すると共に各塩基の総和の変異確率（突然変異予測パ
ラメータ値）を求め、このうちの変異確率の高い塩基に
マーク＃や＊を表示したり、更に塩基がいずれの他の塩
基に突然変異し易いかを縦方向に合わせて表示したりす
る。これらにより、予測者が予測しようとする遺伝子の
文字列を入力および関連するエラースペクトルを遺伝子
データベースから指定などするのみで、自動的にエラー
スペクトルを合成し、合成後のエラースペクトルの各塩
基の変異確率を求めて画面上の予測したい遺伝子の文字
列にうち突然変異し易い塩基に＃、＊を表示したり、更
に各塩基から突然変異し易い他の塩基を表示することが
可能となる。

【００３０】次に、（１−１）から（１−３）について
詳細に説明する。（１−１）ＤＮＡ部分配列（長さｎ）のエラースペク
トル（図３、図５）はＤＮＡ部分配列の各塩基の変異確
率の組である。エラースペクトルについて点突然変異を
予測したい遺伝子の文字列について合成する（図４、図
６）。例えば解析したい遺伝子の配列が・・・ＴＡＡＧ
ＣＴＴ・・・のとき、Ｇの突然変異を起こすポテンシャ
ルを、長さが４の部分配列についてみる。

【００３１】ＴＡＡＧＡＡＧＣＡＧＣＴＧＣＴＴの各部分配列のエラースペクトルにおけるＧの変異確率
の合計値（１．０よりも大きいことがある）で、このＧ
の突然変異の予測パラメータ値を定義する。

【００３２】（１−２）（１−１）で求めた予測パラ
メータ値（変異確率の合計値）が点突然変異を予測した
い遺伝子の文字列のある塩基について他の塩基と比較し
て高いとき、この塩基は突然変異を起こす確率が高いと
予測する（図６の＃）。（１−３）ＤＮＡ部分配列（長さｎ）のエラースペク
トルにおいてＤＮＡ部分配列の各塩基の他の各３種類の
塩基への変異確率をそれぞれ分かっている場合、例えばＴＡＡＧＡＡＧＣＡＧＣＴＧＣＴＴの各部分配列のＧにおいて、これらのＧがＡ、Ｃ、Ｔに
変異する確率が分かっている場合（図７）、これらのエ
ラースペクトルを点突然変異を予測したい遺伝子の文字
列について合成するとき、各３種類の塩基ごとに変異確
率を合計することにより、各３種類の塩基への突然変異
の予測パラメータ値を求めることができる（図７）。

【００３３】図３は、本発明のＤＮＡ部分配列のエラー
スペクトル例を示す。これは、ＤＮＡ部分配列のエラー
スペクトル“ＡＡＧＣ”の例である。ここで、・ＡＡＧＣの初めのＡの変異確率は０．４６７である。

【００３４】・ＡＡＧＣの２番目のＡの変異確率は０．
２６７である。・ＡＡＧＣの３番目のＧの変異確率は０．４００であ
る。・ＡＡＧＣの４番目のＣの変異確率は０．４００であ
る。

【００３５】図４は、本発明の長さ４の部分配列による
エラースペクトルの合成例を示す。ここで、図４の
（ａ）から（ｄ）の４つの変異確率の判明しているエラ
ースペクトルＧＣＴＴＡＧＣＴＡＡＧＣＴＡＡＧについて、図４の（ｅ）に示すように、塩基Ｇの部分が
同じになるように図示した下記のように配置し、これらを合成してを得る（全てに含まれる塩基、あるいは最も多く含まれ
る塩基に合成して得る）。この際、この塩基Ｇについ
て、図４の（ｆ）に示すように、合成前の各塩基の変異
確率を合計した突然変異の予測パラメータ（変異確率）
を求めて棒グラフで表すようになる。

【００３６】以上の手順によって、塩基Ｇについて合成
されたこととなる。同様に、他の塩基について合成およ
びそのときの変異確率の合計を求める。図５は、本発明
の長さ４のＤＮＡ部分配列のエラースペクトルの例を示
す。ＤＮＡ配列の塩基は、Ａ、Ｃ、Ｇ、Ｔの４つである
から、全ての組み合わせとして４⁴＝２５６通りある
が、ここでは、１２通りを取り出したものである。

【００３７】図６は、図４のＤＮＡ部分配列のエラース
ペクトルを用いて文字列ＴＴＡＡＧＣＴＴＣについて合
成されたエラースペクトルの例を示す。これは、図４の
（ｆ）の合成した後のエラースペクトルを用いて合成さ
れた後のエラースペクトルであって、ここでは、予測パ
ラメータ値が１．５よりも高い塩基について、＃を付与
したものである。この＃マークのついたＴとＧが他の塩
基と比較して突然変異予測パラメータ値が高く、突然変
異を起こし易い塩基であると表示したものである。

【００３８】図７は、本発明の長さ４の部分配列による
エラースペクトルの合成例を示す。ここでは、図７の
（ａ）から（ｄ）の合成前のエラースペクルは、各塩基
について他の塩基にどのくらい突然変異し易いかの変異
確率がそれぞれ判明している。例えば図７の（ｃ）に記
載したように、塩基はＡ、Ｃ、Ｇ、Ｔの４つであるか
ら、各塩基が他の３つの塩基への変異確率をそれぞれ棒
グラフで示す。

【００３９】図７の（ｅ）は、図７の（ａ）から（ｄ）
のエラースペクトルのＧが一致するようにして合成した
様子を示す。この際、各塩基について、それぞれ他の塩
基への変異確率毎に合計値を求める。

【００４０】図７の（ｆ）は、図７の（ｅ）の合成後の
エラースペクトルを示す。ここでは、塩基Ｇが合成され
たこととなる。この際、各塩基について、それぞれ他の
塩基への変異確率毎に合計値を求めているので、合成後
のエラースペクトルにおいても、同様に、他の塩基への
変異確率が図示のように求まる。ここは、合成した塩基
Ｇは、塩基Ａへの突然変異予測パラメータ値（合成後の
変異確率）が高いと判明する。

【００４１】次に、図８から図１６を用いて本発明の他
の実施例の構成および動作を詳細に説明する。図８は、
本発明の他の実施例構成図を示す。この他の実施例は、
ＤＮＡ部分配列のエラースペクトルが分かっていない場
合のものである。ここで、エラースペクトル合成処理
５、比較集計処理６、予測表示処理７は、図１の構成と
同一であるので、説明を省略する。

【００４２】図８において、遺伝子突然変異予測装置１
は、遺伝子の突然変異を予測するものであって、アライ
メント処理２、コンセンサス配列抽出処理３、エラース
ペクトル算出処理４、エラースペクトル合成処理５、比
較集計処理６、予測表示処理７、および制御部８などか
ら構成されるものである。

【００４３】アライメント処理２は、入力された関連す
る、複数の遺伝子のＤＮＡ配列を比較して可及的に一致
するようにアライメントするものである。例えば後述す
る図１０の（ａ）のＧＥＮＥ１からＧＥＮＥ７に示すよ
うにアライメントするものである。

【００４４】コンセンサス抽出処理３は、アラインメト
したＤＮＡ配列から、各塩基位置に共通に存在する塩基
あるいは最も多く含まれる塩基であるコンセンサス配列
を抽出するものであって、例えば後述する図１０の
（ａ）のＣＯＮＳＥＮに示すようなコンセンサス配列を
抽出するものである。

【００４５】エラースペクトル算出処理４は、コンセン
サス配列中で出現しているＤＮＡ部分配列を求め、この
求めたＤＮＡ部分配列について、アライメントしたＤＮ
Ａ配列を参照して各塩基の変異確率を求めてエラースペ
クトルを算出するものであって、例えば後述する図１２
に示すようなエラースペクトルを算出するものである。

【００４６】遺伝子データベース１０は、予測しようと
する遺伝子の文字列に、関連する遺伝子のＤＮＡ配列を
抽出するめの遺伝子のデータベースであって、既述した
ように、GenBank、EMBL、DDBJなどのパブリックのデー
タベースや独自の実験系のデータベースである。

【００４７】次に、図９のＳ１１からＳ１７の順序で、
図８の構成による動作について、図１０から図１６を参
照して具体的に説明する。ここで、左側などに記載する
（２−１）、（２−２）などは、後述する明細書中で詳
細に説明した当該項目によって処理を行うことを表す。
ここでは、ＤＮＡ部分配列（長さｎ）のエラースペクト
ルが分かっていなく、図８の遺伝子データベース１０か
ら関連するＤＮＡ配列を抽出してアライメント、コンセ
ンサス配列の生成、エラースペクトル算出を行った後、
既述した図２のＳ１からＳ４を適用して遺伝子の突然変
異の予測を行うものである。以下順次説明する。

【００４８】図９において、Ｓ１１は、データベースを
参照する。データベースとしては、GenBank、EMBL、DDB
Jなどがある。Ｓ１２は、解析したい遺伝子の関連した
遺伝子の抽出を行う。これは、点突然変異を予測したい
遺伝子のＤＮＡ配列、例えば・・・ＡＣＣＴＴＡＡＧＣＴＴＣＣＡＧ・・・に関連する遺伝子のＤＮＡ配列を、Ｓ１１で参照した遺
伝子データベース１０から予測者が指定して抽出する。

【００４９】Ｓ１３は、配列比較によるアライメント処
理を行う。これは、例えば後述する図１０の（ａ）に示
すように、Ｓ１１で予測者が抽出した関連する複数の遺
伝子のＤＮＡ配列を比較して可及的に一致するようにア
ライメントする。

【００５０】Ｓ１４は、アライメントからコンセンサス
配列を構成する。これは、後述する図１０の（ａ）のＣ
ＯＮＳＥＮ（コンセンサス配列）に示すように、アライ
メントした複数の配列から各塩基位置に共通に存在する
塩基あるいは最も多く含まれる塩基を抽出し、コンセン
サス配列を得る。

【００５１】Ｓ１５は、コンセンサス配列におけるＤＮ
Ａ部分配列（長さ３〜９）の出現回数を求める。これ
は、後述する図１０の（ｃ）に示すように、コンセンサ
ス配列に出現しているＤＮＡ部分配列の出現回数を求め
る。

【００５２】Ｓ１６は、配列比較によるアライメントと
コンセンサス配列からＤＮＡ部分配列の変異の仕方を求
める。Ｓ１７は、ＤＮＡ部分配列のエラースペクトルを
求め表示する。これらＳ１６およびＳ１７は、Ｓ１５で
求めたコンセンサス配列に出現しているＤＮＡ部分配列
の出現回数をもとに、ＤＮＡ部分配列について、後述す
る図１０から図１２に示すように、各塩基の変異確率を
求めたエラースペクトルを算出して表示する。

【００５３】以上の手順によって、解析したい遺伝子に
関連する遺伝子のＤＮＡ配列をデータベースから抽出し
たことに対応して、抽出した配列のアライメント処理を
行ってコンセンサス配列を得て、このコンセンサス配列
におけるＤＮＡ部分配列のアライメント中の出現回数を
求めて各塩基が他の塩基への変異確率を求めたエラース
ペクトルを算出することが可能となる。そして、これら
変異確率を求めたエラースペクトルについて、既述した
図２のＳ１からＳ４の手順によって、画面上に予測した
い遺伝子の文字列上に変異確率の高い塩基に＃や、＊マ
ークを表示したり、更に他の塩基に突然変異する確率の
高いに塩基を表示したりする。以下順次説明する。

【００５４】まず、図９中に記載した（２−１）から
（２−４）について詳細に説明する。これら（２−１）
から（２−４）は、ＤＮＡ部分配列（長さｎ）のエラー
スペクトルが分かっていないときに、（１−１）から
（１−３）の前準備としてエラースペクトルを求めると
きの手順である。

【００５５】（２−１）予測者が遺伝子ＤＮＡのデー
タベース(GenBank、EMBL、DDBJなど）から関連する遺伝
子のＤＮＡ配列を抽出する。（２−２）（２−１）で抽出された遺伝子ＤＮＡを配
列比較によりアライメントする（図１０の（ａ））。こ
れは、関連する抽出された複数の遺伝子ＤＮＡの配列に
ついて可及的に一致するようにアライメントする。

【００５６】（２−３）（２−２）のアライメントか
ら関連遺伝子のコンセンサス配列を求める。これは、
（２−２）のアラインメトしたＤＮＡ配列から、各塩基
位置に共通に存在する塩基あるいは最も多く含まれる塩
基を抽出してコンセンサス配列を求める（図１０の
（ａ））。

【００５７】（２−４）アライメントとコンセンサス
配列から、長さが３から９のＤＮＡ部分配列のエラース
ペクトルを求め表示する（図１１および図１２）。注：ＤＮＡはＡ、Ｃ、Ｇ、Ｔの４種類の文字から成るの
で、長さが３の部分配列は４³＝６４通りあり、長さが
９の部分配列は４⁹＝２６２，１４４通りある。従っ
て、長さが９の部分配列のエラースペクトルを求めるに
は長さが２６２，１４４以上の遺伝子が必要となり現実
的に９というのは非常に大きな数字である。

【００５８】（２−４−１）コンセンサス配列の部分
配列（ここでは例えばＡＡＧＣとする）が何回出現した
か、その計数をカウントする（図１０の（ｃ））。ここ
では、その回数がＫ回とする。

【００５９】（２−４−２）アライメントの中でＡＡ
ＧＣのＧが何回、どのような塩基に変異したかをカウン
トする。このＧは、Ａ、Ｃ、Ｔに変異できるので、その
うちＡに変異したものがａ回、Ｃに変異したものがｃ
回、Ｔに変異したものがｔ回とする（図１０の
（ｃ））。

【００６０】（２−４−３）（２−４−２）で求めた
変異の回数（ａ＋ｃ＋ｔ）を（２−４−１）で求めた出
現回数Ｋで割れば、ＡＡＧＣのＧの変異確率が求まる
（図１０、図１１）。

【００６１】（２−４−４）ＡＡＧＣがＡ、Ｃ、Ｔに
変異した頻度もそれぞれａ／Ｋ、ｃ／Ｋ、ｔ／Ｋと求め
る（図１２）。（２−５）以下既述した（１−１）から（１−３）の
手順を行う。

【００６２】図１０は、本発明のアライメント／コンセ
ンサス配列の説明図である。ＧＥＮＥ１から７は、アラ
イメントである。これは、予測者が遺伝子データベース
１０から、予測しようとする遺伝子の文字列に関連する
遺伝子を指定して抽出し、アライメントした後の状態を
示す。

【００６３】ＣＯＮＳＥＮは、コンセンサス配列であ
る。このコンセンサス配列は、関連する遺伝子ＤＮＡに
ついて可及的に一致するようにアライメントして図示状
態にした後、各塩基位置について共通に存在する塩基あ
るいは最も多く含まれる塩基を抽出したものである。

【００６４】図１０の（ａ）は、アライメントしてコン
センサス配列を生成した状態を示す。図１０の（ｂ）
は、上側の（ａ）のアライメントにおいてどこが変異し
ているかを解かり易く示したものである。変異している
部分を表示し、変異していない部分に＊を表示する。

【００６５】図１０の（ｃ）は、図１０の（ｂ）をもと
に、ＡＡＧＣの出現回数、変異の数をカウントしたとき
の結果を示す。・この例では、コンセンサス配列にＡＡＧＣが１５回出
現している（２−４−１）。

【００６６】・ＡＡＧＣのはじめのＡがＧに２回変異
し、Ｃに４回、Ｔに１回変異している。・ＡＡＧＣの２番目のＡがＣに４回変異している。

【００６７】・ＡＡＧＣの３番目のＧがＡに５回、Ｃに
１回変異している。・ＡＡＧＣの４番目のＣがＧに５回、Ｔに１回変異して
いる。図１１は、図１０のアライメントとコンセンサス配列か
ら求めたＤＮＡ部分配列のエラースペクトルの例を示
す。このＡＡＧＣのエラースペクトルは、記載したよう
に、・ＡＡＧＣのはじめのＡの変異確率は７／１５＝０．４
６７・ＡＡＧＣの２番目のＡの変異確率は４／１５＝０．２
６７・ＡＡＧＣの３番目のＧの変異確率は６／１５＝０．４
００・ＡＡＧＣの４番目のＣの変異確率は６／１５＝０．４
００となる。ここで、分母の１５は図１０の（ｃ）のＡＡＧ
Ｃが１５回出現したこに対応し、分子の７、４、６、６
は図１０の（ｃ）のＡＡＧＣの初めのＡ、２番目のＡ、
３番目のＧ、４番目のＣについてそれぞれの変異の総数
に対応している。例えばＡＡＧＣの初めのＡは、Ｇに２
回変異、Ｃに４回、Ｔに１回変異しているので、変異の
総数は（２＋４＋１）＝７である。同様に２番目から４
番目についてその総数を求める。

【００６８】図１２は、図１０のアライメントとコンセ
ンサス配列から求めたＤＮＡ部分配列のエラースペクト
ルの例を示す。図１２の（ａ）は、ＡＡＧＣのエラース
ペクトルであって、部分配列の各塩基の他の３種類の塩
基への変異確率をイメージ的に分かり易く示したもので
ある。

【００６９】図１２の（ｂ）は、各塩基への変異確率の
計算を示したものである。即ち、・ＡＡＧＣのはじめのＡがＧに変異する確率は２／１５
＝０．１３３、Ｃに変異する確率は４／１５＝０．２６
７、Ｔに変異する確率は１／１５＝０．０６７となる。

【００７０】・ＡＡＧＣの２番目のＡがＣに変異する確
率は４／１５＝０．２６７となる。・ＡＡＧＣの３番目のＧがＡに変異する確率は５／１５
＝０．３３３、Ｃに変異する確率は１／１５＝０．０６
７となる。

【００７１】・ＡＡＧＣの４番目のＣがＧに変異する確
率は５／１５＝０．３３３、Ｔに変異する確率は１／１
５＝０．０６７となる。図１３は、本発明の長さ４のＤＮＡ部分配列のエラース
ペクトルの例を示す。このエラースペクトルは、図１２
に既述したように、当該エラースペクトルの各塩基が他
の塩基に変異する変異確率を算出した様子をイメージ的
に棒グラフで表したものである。ここでは、４のＤＮＡ
部分配列の組み合わせは、４⁴＝６４通りあるが、ここ
では１２通りの例を示す。

【００７２】図１４は、図１３のエラースペクトルを文
字列ＡＣＣＴＴＡＡＧＣＴＴＣＣＡＧについて合成した
合成エラースペクトルの例を示す。ここで、網かけの部
分の配列ＴＴＡＡＧＣＴＴＣの部分のスペクトルが合成
エラースペクトルになっている。また、変異確率が１．
５以上の塩基について＃を表示し、１．０以上１．５以
下の塩基について＊を表示し、他の塩基の変異確率より
も高い旨を表示する。

【００７３】図１５は、図１４のＴＴＡＡＧＣＴＴＣに
ついて合成エラースペクトルを基に変異の起こりやすい
塩基を表示した例を示す。ここでは、合成値が１．５よ
りも大きい塩基を＃、１．０よりも大きい塩基を＊で示
している。

【００７４】図１６は、図１４と図１５のＴＴＡＡＧＣ
ＴＴＣについての合成エラースペクトルを基に変異の起
こりやすい塩基が他のどの塩基に変異しやすいかを縦並
びの文字列ヒストグラムで表示した例を示す。ここで
は、図示したように下記のように表示する。

【００７５】

【００７６】

【発明の効果】以上説明したように、本発明によれば、
ＤＮＡ部分配列の各塩基の変異確率の組であるエラース
ペクトルを、予測したい遺伝子の文字列（Ａ、Ｃ、Ｇ、
Ｔの４つの文字の組み合わせ）について合成し、合成後
の合計した変異確率を求めて高い塩基を突然変異を起こ
す確率が高いと予測する構成を採用しているため、遺伝
子の突然変異を予測することができる。これらにより、
各塩基の変異確率が判明しているエラースペクルをもと
に予測したい遺伝子のＤＮＡ配列中の突然変異の起こり
易い塩基にマーク付けしたり、更にいずれの塩基に突然
変異する確率が高いかを合わせて表示することが可能と
なる。また、遺伝子データベースから関連する遺伝子Ｄ
ＮＡを抽出してこれらをアライメントしてコンセンサス
配列を求め、出現頻度の高いＤＮＡ部分配列の出現回数
や各塩基の変異回数を求めてエラースペクトルを算出
し、これをもとに予測したい遺伝子の文字列を合成して
その突然変異を予測することも可能となる。

【００７７】これらの遺伝子の突然変異の予測により、
ヒトゲノム計画が推進されている今日、遺伝子の点突然
変異予測ができ、新しいガン遺伝子の同定、エイジング
に伴う遺伝子の変異、先天異常をもたらす遺伝子の同定
などが可能となる。更に、エイズウイルスのような急速
に遺伝子が変異していく寄生体の遺伝子の変異の予測が
可能となり。マルチ合成ワクチン系の構築が可能とな
る。また、蛋白工学において、起こりやすい変異を予測
することにより、蛋白質の機能向上につながる。

【図面の簡単な説明】

【図１】本発明の１実施例構成図である。

【図２】本発明の動作説明図である。

【図３】本発明のＤＮＡ部分配列のエラースペクトルの
例である。

【図４】本発明の長さ４の部分配列によるエラースペク
トルの合成例である。

【図５】本発明の長さ４のＤＮＡ部分配列のエラースペ
クトルの例である。。

【図６】図４のＤＮＡ部分配列のエラースペクトルを用
いた文字列ＴＴＡＡＧＣＴＴＣについて合成されたエラ
ースペクトルの例である。

【図７】本発明の長さ４の部分配列によるエラースペク
トルの合成例である。

【図８】本発明の他の実施例構成図である。

【図９】本発明の他の動作説明図である。

【図１０】本発明のアライメント／コンセンサス配列の
説明図である。

【図１１】図１０のアライメントとコンセンサス配列か
ら求めたＤＮＡ部分配列のエラースペクトルの例であ
る。

【図１２】図１０のアライメントとコンセンサス配列か
ら求めたＤＮＡ部分配列のエラースペクトルの例であ
る。

【図１３】本発明の長さ４のＤＮＡ部分配列のエラース
ペクトルの例である。

【図１４】図１３のエラースペクトルを文字列ＡＣＣＴ
ＴＡＡＧＣＴＴＣＣＡＧについて合成した合成エラース
ペクトルの例である。

【図１５】図１４のＴＴＡＡＧＣＴＴＣについて合成エ
ラースペクトルを基に変異の起こりやすい塩基を表示し
た例である。

【図１６】図１４と図１５のＴＴＡＡＧＣＴＴＣについ
ての合成エラースペクトルを基に変異の起こりやすい塩
基が他のどの塩基に変異しやすいかを縦並びの文字ヒス
トグラムで表示した例である。

【符号の説明】

１：遺伝子突然変異予測装置２：アライメント処理３：コンセンサス配列抽出処理４：エラースペクトル算出処理５：エラースペクトル合成処理６：比較集計処理７：予測表示処理８：制御部９：遺伝子文字列１０：遺伝子データベース１１：ディスプレイ１２：キーボード１３：外部データＡ、Ｃ、Ｇ、Ｔ：遺伝子の塩基

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/00 C12M 1/00 G06F 19/00 ＩＮＳＰＥＣ（ＤＩＡＬＯＧ) ＪＩＣＳＴファイル（ＪＯＩＳ) ＷＰＩ（ＤＩＡＬＯＧ)

Claims

(57)【特許請求の範囲】

【請求項１】遺伝子の突然変異を予測する遺伝子突然変
異予測装置において、予測対象の遺伝子の文字列を、それぞれの配列中の各塩
基（Ａ、Ｃ、Ｇ、Ｔ）の変異確率の判明している複数の
ＤＮＡ部分配列の和で表現し、各ＤＮＡ部分配列の変異
確率の和を求めることによりエラースペクトルを合成す
るエラースペクトル合成処理手段と、この合成したエラースペクトルに基づいて、変異確率が
高い塩基を見つける比較集計処理手段とを備え、変異確率が高い塩基を突然変異を起こす確率が高いと予
測するように構成したことを特徴とする遺伝子突然変異
予測装置。
【請求項２】遺伝子の突然変異を予測する遺伝子突然変
異予測装置において、入力された関連する、複数の遺伝子のＤＮＡ配列を比較
して可及的に一致するようにアライメントするアライメ
ント処理手段と、これらアライメントしたＤＮＡ配列から、各塩基位置に
共通に存在する塩基あるいは最も多く含まれる塩基を抽
出してコンセンサス配列を生成するコンセンサス配列抽
出処理手段と、このコンセンサス配列中で出現しているＤＮＡ部分配列
を求め、この求めたＤＮＡ部分配列について上記アライ
メントしたＤＮＡ配列を参照して各塩基の変異確率を求
めてエラースペクトルを算出するエラースペクトル算出
処理手段とを備え、この算出した、関連するエラースペクトルを、上記変異
確率の判明しているエラースペクトルとし、変異確率が高い塩基を突然変異を起こす確率が高いと予
測するように構成したことを特徴とする請求項１記載の
遺伝子突然変異予測装置。
【請求項３】上記変異確率の判明しているエラースペク
トルあるいは変異確率を算出したエラースペクトルの当
該変異確率として、他の塩基への変異確率をそれぞれ持
ち、合成時に当該他の塩基への変異確率毎に和を求める
ように構成したことを特徴とする請求項１あるいは請求
項２記載の遺伝子突然変異予測装置。
【請求項４】上記変異確率が高い塩基を突然変異を起こ
す確率が高いと予測した塩基について、画面上のＤＮＡ
部分配列の該当する塩基にマーク付けするように構成し
たことを特徴とする請求項１あるいは請求項２記載の遺
伝子突然変異予測装置。
【請求項５】上記変異確率が高い塩基を突然変異を起こ
す確率が高いと予測した塩基について、画面上のＤＮＡ
部分配列の該当する塩基にいずれの塩基（Ａ、Ｃ、Ｇ、
Ｔ）への突然変異がし易いかを表示するように構成した
ことを特徴とする請求項１から請求項３のいずれかに記
載の遺伝子突然変異予測装置。