JP3102957B2 - 遺伝子突然変異予測装置 - Google Patents

遺伝子突然変異予測装置

Info

Publication number
JP3102957B2
JP3102957B2 JP19040792A JP19040792A JP3102957B2 JP 3102957 B2 JP3102957 B2 JP 3102957B2 JP 19040792 A JP19040792 A JP 19040792A JP 19040792 A JP19040792 A JP 19040792A JP 3102957 B2 JP3102957 B2 JP 3102957B2
Authority
JP
Japan
Prior art keywords
mutation
base
probability
error spectrum
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19040792A
Other languages
English (en)
Other versions
JPH0630759A (ja
Inventor
洋文 土居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP19040792A priority Critical patent/JP3102957B2/ja
Publication of JPH0630759A publication Critical patent/JPH0630759A/ja
Application granted granted Critical
Publication of JP3102957B2 publication Critical patent/JP3102957B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、遺伝子の突然変異を予
測する遺伝子突然変異予測装置に関するものである。
【0002】
【従来の技術】従来、遺伝子の点突然変異は、ランダム
に起こり、予測が不可能であると考えられてきた。
【0003】
【発明が解決しようとする課題】しかし、点突然変異が
ノンランダムで遺伝子DNAの局所的な部分配列に依存
しているならば、点突然変異の予測が可能となる。
【0004】実際、当発明者はエイズウイルス遺伝子の
点突然変異がノンランダムで局所的な部分配列に依存し
ていることを示してきた(文献1)。また、多くのガン
遺伝子は正常遺伝子の突然変異であることがわかってき
ている。更に、先天異常をもたらす遺伝子も正常遺伝子
の突然変異である。したがって、ヒトゲノム計画(ヒト
の全遺伝子DNAの文字列を解析しようとする計画)が
推進されている今日、遺伝子の点突然変異予測が可能に
なれば、新しいガン遺伝子の同定、エイジングに伴う遺
伝子の変異、先天異常をもたらす遺伝子の同定などが、
可能となる。そればかりか、エイズウイルスのような急
速に遺伝子が変異していく寄生体の遺伝子の変異の予測
が可能となり、マルチ合成ワクチン系の構築が可能とな
る。
【0005】本発明は、これらの問題を解決するため、
DNA部分配列の各塩基の変異確率の組であるエラース
ペクトルを、予測したい遺伝子の文字列(A、C、G、
Tの4つの文字の組み合わせ)について合成し、合成後
の変異確率の和を求めて高い塩基を突然変異を起こす確
率が高いと予測し、遺伝子の突然変異の予測を可能にす
ることを目的としている。
【0006】文献1:Hirofumi Doi,Importance of purin
e and pyrimidine content of local nucleotide seque
nces (six bases long) for evolution of the human i
mmunodeficiency virus type 1, Proc. Natl. Acad, Sc
i. USA, Vol. 88, pp. 9282-9286, October 1991.
【0007】
【課題を解決するための手段】図1および図8を参照し
て課題を解決するための手段を説明する。図1および図
8において、アライメント処理2は、入力された関連す
る、複数の遺伝子のDNA配列を比較して可及的に一致
するようにアライメントするものである。
【0008】コンセンサス配列抽出処理3は、アライン
メトしたDNA配列から、各塩基位置に共通に存在する
塩基あるいは最も多く含まれる塩基を抽出したコンセン
サス配列を生成するものである。
【0009】エラースペクトル算出処理4は、コンセン
サス配列中で出現しているDNA部分配列を求め、この
求めたDNA部分配列についてアライメントしたDNA
配列を参照して各塩基の変異確率を求めてエラースペク
トルを算出するものである。
【0010】エラースペクトル合成処理5は、DNA部
分配列の各塩基(A、C、G、T)の変異確率の判明し
ているエラースペクトルあるいは算出したエラースペク
トルをもとに、予測したい遺伝子の文字列について合成
し、この合成したエラースペクトルの各塩基の変異確率
の和を求めるものである。
【0011】比較集計処理6は、合成したエラースペク
トルの塩基の和の変異確率が高い塩基を見つけるもので
ある。
【0012】
【作用】本発明は、図1に示すように、エラースペクト
ル合成処理5がDNA部分配列の各塩基(A、C、G、
T)の変異確率の判明しているエラースペクトルをもと
に、予測したい遺伝子の文字列について合成し、この合
成したエラースペクトルの各塩基の変異確率の和を求
め、比較集計処理6がこの合成したエラースペクトルの
塩基の変異確率が高い塩基を見つけ、変異確率が高い塩
基を突然変異を起こす確率が高いと予測するようにして
いる。
【0013】また、図8に示すように、アライメント処
理2が入力された関連する、複数の遺伝子のDNA配列
を比較して可及的に一致するようにアライメントし、コ
ンセンサス配列抽出処理3がこれらアラインメトしたD
NA配列から、各塩基位置に共通に存在する塩基あるい
は最も多く含まれる塩基を抽出してコンセンサス配列を
生成し、エラースペクトル算出処理4がコンセンサス配
列中で出現しているDNA部分配列を求め、この求めた
DNA部分配列についてアライメントしたDNA配列を
参照して各塩基の変異確率を求めてエラースペクトルを
算出し、エラースペクトル合成処理5がこれら算出した
エラースペクトルをもとに、予測したい遺伝子の文字列
について合成し、この合成したエラースペクトルの各塩
基の変異確率の和を求め、比較集計処理6がこの合成し
たエラースペクトルの塩基の変異確率が高い塩基を見つ
け、変異確率が高い塩基を突然変異を起こす確率が高い
と予測するようにしている。
【0014】また、変異確率の判明しているエラースペ
クトルあるいは変異確率を算出したエラースペクトルの
当該変異確率として、他の塩基への変異確率をそれぞれ
持ち、合成時に当該他の塩基への変異確率毎に和を求め
るようにしている。
【0015】この際、変異確率が高い塩基を突然変異を
起こす確率が高いと予測した塩基について、画面上のD
NA部分配列の該当する塩基にマーク付けするようにし
ている。また、変異確率が高い塩基を突然変異を起こす
確率が高いと予測した塩基について、画面上のDNA部
分配列の該当する塩基にいずれの塩基(A、C、G、
T)へ突然変異し易いかを表示するようにしている。
【0016】従って、DNA部分配列の各塩基の変異確
率の組であるエラースペクトルを、予測したい遺伝子の
文字列(A、C、G、Tの4つの文字の組み合わせ)に
ついて合成し、合成後の合計した変異確率を求めて高い
塩基を突然変異を起こす確率が高いと予測したり、更に
いずれの塩基に突然変異し易いかを予測したりすること
により、遺伝子の突然変異を予測することが可能とな
る。
【0017】
【実施例】まず、図1から図7を用いて本発明の実施例
の構成および動作を順次詳細に説明する。
【0018】図1は、本発明の1実施例構成図を示す。
この実施例は、DNA部分配列のエラースペクトルが分
かっている場合のものである。図1において、遺伝子突
然変異予測装置1は、遺伝子の突然変異を予測するもの
であって、エラースペクトル合成処理5、比較集計処理
6、予測表示処理7、および制御部8などから構成され
るものである。
【0019】エラースペクトル合成処理5は、DNA部
分配列の各塩基(A、C、G、T)の変異確率の判明し
ているエラースペクトルをもとに、予測したい遺伝子の
文字列について合成し、この合成したエラースペクトル
の各塩基の変異確率の総和を求めるものである。例えば
後述する図4に示すように、塩基の変異確率の判明して
いるエラースペクトルを合成し、合成したエラースペク
トルの各塩基の変異確率の総和を求めたり、更に図7に
示すように、各塩基の他の塩基への変異確率毎にその総
和を求めたりするものである。
【0020】比較集計処理6は、エラースペクトル合成
処理5によって合成した後のエラースペクトルの塩基の
変異確率が高い塩基を見つけたりなどするものである。
例えば後述する図6に示すように、合成後のエラースペ
クトルの変異確率が他よりも高い塩基(図中#付与した
塩基)を見つけるものである。
【0021】予測表示処理7は、比較集計処理6によっ
て変異確率が他よりも高いと見つけた塩基について、画
面上の合成後のエラースペクトルの該当する塩基に他よ
りも変異確率が高い旨を表すマーク(例えば#)を表示
したり、更に、突然変異し易い塩基(A、C、G、T)
を表示したりなどするものである。
【0022】制御部8は、全体を統括制御したりなどの
各種制御を行うものである。遺伝子文字列9は、点突然
変異を予測したい遺伝子の文字列である。ディスプレイ
11は、遺伝子配列などを表示するものである。
【0023】キーボード12は、各種指示や、データを
入力するものである。外部データ13は、各塩基の変異
確率が判明しているDNA部分配列のエラースペクトル
を外部記憶装置に格納したものである。
【0024】次に、図2のS1からS4の順序で、図1
の構成における動作について、図3から図7を参照して
具体的に説明する。ここで、左側などに記載する(1−
1)、(1−3)などは、後述する明細書中で詳細に説
明した当該項目で処理を行うことを表す。ここでは、D
NA部分配列(長さn)のエラースペクトルが分かって
おり、図1の外部データ13として外部記憶装置に予め
記憶されているとする。この分かっているエラースペク
トルとしては、遺伝子DNAのデータベース(GenBan
k、EMBL、DDBJなどのパブリックのデータベース、ある
いは独自の実験系のデータなど)である。
【0025】S1は、エラースペクトル合成処理とし
て、予測したい遺伝子の文字列において、長さnのDN
A部分配列のエラースペクトルを合成表示する(長さn
の部分配列から文字列における各塩基の突然変異予測パ
ラメータ値を求める)((1−1)、(1−3)の説明
参照)。これは、右側に記載したように、予測したい遺
伝子の文字列において、変異確率の判明しているDNA
部分配列のエラースペクトルを合成し、合成後のエラー
スペクトルの各塩基の変異確率の総和の変異確率(突然
変異予測パラメータ値)を1.534として求める(即
ち、合成前のエラースペクトルの塩基Gの変異確率の和
として、合成後のエラースペクトルの塩基Gの変異確率
1.534として求める)。
【0026】S2は、比較集計処理として、合成エラー
スペクトルから、予測したい遺伝子の文字列の各塩基に
ついて、塩基間で突然変異予測パラメータ値を比較する
((1−2)の説明参照)。
【0027】S3は、予測表示処理として、予測したい
遺伝子の文字列において変異し易い塩基を予測し、表示
する((1−2)の説明参照)。これは、右側に記載し
たように、この例では#や*マークのついた塩基が変異
し易いことを示している(即ち、S2で突然変異予測パ
ラメータを比較し、変異確率の高い塩基に当該#や*の
マークを付与して予測者に知らせるように表示する)。
【0028】S4は、予測表示処理として、予測したい
遺伝子において、高い頻度で変異を起こす塩基が他の塩
基にどれくらいの割合で変異するかを、合成エラースペ
クトルの結果から予測表示する((1−3)の説明参
照)。これは、右側に記載したように、画面上に表示し
た点突然変異を予測したい遺伝子の文字列・・・ACC
TTAAGCTTCCAG・・・について、合成後のエ
ラースペクトルの和の変異確率(突然変異予測パラメー
タ値)の各塩基の変異確率から他の塩基にどのくらいの
割合で変異するかを上方向に並べて表示する(図16参
照)。
【0029】以上によって、変異確率の判明している複
数のDNA部分配列のエラースペクトルを用いて、予測
したい遺伝子の文字列を合成してエラースペクトルを生
成すると共に各塩基の総和の変異確率(突然変異予測パ
ラメータ値)を求め、このうちの変異確率の高い塩基に
マーク#や*を表示したり、更に塩基がいずれの他の塩
基に突然変異し易いかを縦方向に合わせて表示したりす
る。これらにより、予測者が予測しようとする遺伝子の
文字列を入力および関連するエラースペクトルを遺伝子
データベースから指定などするのみで、自動的にエラー
スペクトルを合成し、合成後のエラースペクトルの各塩
基の変異確率を求めて画面上の予測したい遺伝子の文字
列にうち突然変異し易い塩基に#、*を表示したり、更
に各塩基から突然変異し易い他の塩基を表示することが
可能となる。
【0030】次に、(1−1)から(1−3)について
詳細に説明する。 (1−1) DNA部分配列(長さn)のエラースペク
トル(図3、図5)はDNA部分配列の各塩基の変異確
率の組である。エラースペクトルについて点突然変異を
予測したい遺伝子の文字列について合成する(図4、図
6)。例えば解析したい遺伝子の配列が・・・TAAG
CTT・・・のとき、Gの突然変異を起こすポテンシャ
ルを、長さが4の部分配列についてみる。
【0031】 TAAG AAGC AGCT GCTT の各部分配列のエラースペクトルにおけるGの変異確率
の合計値(1.0よりも大きいことがある)で、このG
の突然変異の予測パラメータ値を定義する。
【0032】(1−2) (1−1)で求めた予測パラ
メータ値(変異確率の合計値)が点突然変異を予測した
い遺伝子の文字列のある塩基について他の塩基と比較し
て高いとき、この塩基は突然変異を起こす確率が高いと
予測する(図6の#)。 (1−3) DNA部分配列(長さn)のエラースペク
トルにおいてDNA部分配列の各塩基の他の各3種類の
塩基への変異確率をそれぞれ分かっている場合、例えば TAAG AAGC AGCT GCTT の各部分配列のGにおいて、これらのGがA、C、Tに
変異する確率が分かっている場合(図7)、これらのエ
ラースペクトルを点突然変異を予測したい遺伝子の文字
列について合成するとき、各3種類の塩基ごとに変異確
率を合計することにより、各3種類の塩基への突然変異
の予測パラメータ値を求めることができる(図7)。
【0033】図3は、本発明のDNA部分配列のエラー
スペクトル例を示す。これは、DNA部分配列のエラー
スペクトル“AAGC”の例である。ここで、 ・AAGCの初めのAの変異確率は0.467である。
【0034】・AAGCの2番目のAの変異確率は0.
267である。 ・AAGCの3番目のGの変異確率は0.400であ
る。 ・AAGCの4番目のCの変異確率は0.400であ
る。
【0035】図4は、本発明の長さ4の部分配列による
エラースペクトルの合成例を示す。ここで、図4の
(a)から(d)の4つの変異確率の判明しているエラ
ースペクトル GCTT AGCT AAGC TAAG について、図4の(e)に示すように、塩基Gの部分が
同じになるように図示した下記のように配置し、 これらを合成して を得る(全てに含まれる塩基、あるいは最も多く含まれ
る塩基に合成して得る)。この際、この塩基Gについ
て、図4の(f)に示すように、合成前の各塩基の変異
確率を合計した突然変異の予測パラメータ(変異確率)
を求めて棒グラフで表すようになる。
【0036】以上の手順によって、塩基Gについて合成
されたこととなる。同様に、他の塩基について合成およ
びそのときの変異確率の合計を求める。図5は、本発明
の長さ4のDNA部分配列のエラースペクトルの例を示
す。DNA配列の塩基は、A、C、G、Tの4つである
から、全ての組み合わせとして44=256通りある
が、ここでは、12通りを取り出したものである。
【0037】図6は、図4のDNA部分配列のエラース
ペクトルを用いて文字列TTAAGCTTCについて合
成されたエラースペクトルの例を示す。これは、図4の
(f)の合成した後のエラースペクトルを用いて合成さ
れた後のエラースペクトルであって、ここでは、予測パ
ラメータ値が1.5よりも高い塩基について、#を付与
したものである。この#マークのついたTとGが他の塩
基と比較して突然変異予測パラメータ値が高く、突然変
異を起こし易い塩基であると表示したものである。
【0038】図7は、本発明の長さ4の部分配列による
エラースペクトルの合成例を示す。ここでは、図7の
(a)から(d)の合成前のエラースペクルは、各塩基
について他の塩基にどのくらい突然変異し易いかの変異
確率がそれぞれ判明している。例えば図7の(c)に記
載したように、塩基はA、C、G、Tの4つであるか
ら、各塩基が他の3つの塩基への変異確率をそれぞれ棒
グラフで示す。
【0039】図7の(e)は、図7の(a)から(d)
のエラースペクトルのGが一致するようにして合成した
様子を示す。この際、各塩基について、それぞれ他の塩
基への変異確率毎に合計値を求める。
【0040】図7の(f)は、図7の(e)の合成後の
エラースペクトルを示す。ここでは、塩基Gが合成され
たこととなる。この際、各塩基について、それぞれ他の
塩基への変異確率毎に合計値を求めているので、合成後
のエラースペクトルにおいても、同様に、他の塩基への
変異確率が図示のように求まる。ここは、合成した塩基
Gは、塩基Aへの突然変異予測パラメータ値(合成後の
変異確率)が高いと判明する。
【0041】次に、図8から図16を用いて本発明の他
の実施例の構成および動作を詳細に説明する。図8は、
本発明の他の実施例構成図を示す。この他の実施例は、
DNA部分配列のエラースペクトルが分かっていない場
合のものである。ここで、エラースペクトル合成処理
5、比較集計処理6、予測表示処理7は、図1の構成と
同一であるので、説明を省略する。
【0042】図8において、遺伝子突然変異予測装置1
は、遺伝子の突然変異を予測するものであって、アライ
メント処理2、コンセンサス配列抽出処理3、エラース
ペクトル算出処理4、エラースペクトル合成処理5、比
較集計処理6、予測表示処理7、および制御部8などか
ら構成されるものである。
【0043】アライメント処理2は、入力された関連す
る、複数の遺伝子のDNA配列を比較して可及的に一致
するようにアライメントするものである。例えば後述す
る図10の(a)のGENE1からGENE7に示すよ
うにアライメントするものである。
【0044】コンセンサス抽出処理3は、アラインメト
したDNA配列から、各塩基位置に共通に存在する塩基
あるいは最も多く含まれる塩基であるコンセンサス配列
を抽出するものであって、例えば後述する図10の
(a)のCONSENに示すようなコンセンサス配列を
抽出するものである。
【0045】エラースペクトル算出処理4は、コンセン
サス配列中で出現しているDNA部分配列を求め、この
求めたDNA部分配列について、アライメントしたDN
A配列を参照して各塩基の変異確率を求めてエラースペ
クトルを算出するものであって、例えば後述する図12
に示すようなエラースペクトルを算出するものである。
【0046】遺伝子データベース10は、予測しようと
する遺伝子の文字列に、関連する遺伝子のDNA配列を
抽出するめの遺伝子のデータベースであって、既述した
ように、GenBank、EMBL、DDBJなどのパブリックのデー
タベースや独自の実験系のデータベースである。
【0047】次に、図9のS11からS17の順序で、
図8の構成による動作について、図10から図16を参
照して具体的に説明する。ここで、左側などに記載する
(2−1)、(2−2)などは、後述する明細書中で詳
細に説明した当該項目によって処理を行うことを表す。
ここでは、DNA部分配列(長さn)のエラースペクト
ルが分かっていなく、図8の遺伝子データベース10か
ら関連するDNA配列を抽出してアライメント、コンセ
ンサス配列の生成、エラースペクトル算出を行った後、
既述した図2のS1からS4を適用して遺伝子の突然変
異の予測を行うものである。以下順次説明する。
【0048】図9において、S11は、データベースを
参照する。データベースとしては、GenBank、EMBL、DDB
Jなどがある。S12は、解析したい遺伝子の関連した
遺伝子の抽出を行う。これは、点突然変異を予測したい
遺伝子のDNA配列、例えば ・・・ACCTTAAGCTTCCAG・・・ に関連する遺伝子のDNA配列を、S11で参照した遺
伝子データベース10から予測者が指定して抽出する。
【0049】S13は、配列比較によるアライメント処
理を行う。これは、例えば後述する図10の(a)に示
すように、S11で予測者が抽出した関連する複数の遺
伝子のDNA配列を比較して可及的に一致するようにア
ライメントする。
【0050】S14は、アライメントからコンセンサス
配列を構成する。これは、後述する図10の(a)のC
ONSEN(コンセンサス配列)に示すように、アライ
メントした複数の配列から各塩基位置に共通に存在する
塩基あるいは最も多く含まれる塩基を抽出し、コンセン
サス配列を得る。
【0051】S15は、コンセンサス配列におけるDN
A部分配列(長さ3〜9)の出現回数を求める。これ
は、後述する図10の(c)に示すように、コンセンサ
ス配列に出現しているDNA部分配列の出現回数を求め
る。
【0052】S16は、配列比較によるアライメントと
コンセンサス配列からDNA部分配列の変異の仕方を求
める。S17は、DNA部分配列のエラースペクトルを
求め表示する。これらS16およびS17は、S15で
求めたコンセンサス配列に出現しているDNA部分配列
の出現回数をもとに、DNA部分配列について、後述す
る図10から図12に示すように、各塩基の変異確率を
求めたエラースペクトルを算出して表示する。
【0053】以上の手順によって、解析したい遺伝子に
関連する遺伝子のDNA配列をデータベースから抽出し
たことに対応して、抽出した配列のアライメント処理を
行ってコンセンサス配列を得て、このコンセンサス配列
におけるDNA部分配列のアライメント中の出現回数を
求めて各塩基が他の塩基への変異確率を求めたエラース
ペクトルを算出することが可能となる。そして、これら
変異確率を求めたエラースペクトルについて、既述した
図2のS1からS4の手順によって、画面上に予測した
い遺伝子の文字列上に変異確率の高い塩基に#や、*マ
ークを表示したり、更に他の塩基に突然変異する確率の
高いに塩基を表示したりする。以下順次説明する。
【0054】まず、図9中に記載した(2−1)から
(2−4)について詳細に説明する。これら(2−1)
から(2−4)は、DNA部分配列(長さn)のエラー
スペクトルが分かっていないときに、(1−1)から
(1−3)の前準備としてエラースペクトルを求めると
きの手順である。
【0055】(2−1) 予測者が遺伝子DNAのデー
タベース(GenBank、EMBL、DDBJなど)から関連する遺伝
子のDNA配列を抽出する。 (2−2) (2−1)で抽出された遺伝子DNAを配
列比較によりアライメントする(図10の(a))。こ
れは、関連する抽出された複数の遺伝子DNAの配列に
ついて可及的に一致するようにアライメントする。
【0056】(2−3) (2−2)のアライメントか
ら関連遺伝子のコンセンサス配列を求める。これは、
(2−2)のアラインメトしたDNA配列から、各塩基
位置に共通に存在する塩基あるいは最も多く含まれる塩
基を抽出してコンセンサス配列を求める(図10の
(a))。
【0057】(2−4) アライメントとコンセンサス
配列から、長さが3から9のDNA部分配列のエラース
ペクトルを求め表示する(図11および図12)。 注:DNAはA、C、G、Tの4種類の文字から成るの
で、長さが3の部分配列は43=64通りあり、長さが
9の部分配列は49=262,144通りある。従っ
て、長さが9の部分配列のエラースペクトルを求めるに
は長さが262,144以上の遺伝子が必要となり現実
的に9というのは非常に大きな数字である。
【0058】(2−4−1) コンセンサス配列の部分
配列(ここでは例えばAAGCとする)が何回出現した
か、その計数をカウントする(図10の(c))。ここ
では、その回数がK回とする。
【0059】(2−4−2) アライメントの中でAA
GCのGが何回、どのような塩基に変異したかをカウン
トする。このGは、A、C、Tに変異できるので、その
うちAに変異したものがa回、Cに変異したものがc
回、Tに変異したものがt回とする(図10の
(c))。
【0060】(2−4−3) (2−4−2)で求めた
変異の回数(a+c+t)を(2−4−1)で求めた出
現回数Kで割れば、AAGCのGの変異確率が求まる
(図10、図11)。
【0061】(2−4−4) AAGCがA、C、Tに
変異した頻度もそれぞれa/K、c/K、t/Kと求め
る(図12)。 (2−5) 以下既述した(1−1)から(1−3)の
手順を行う。
【0062】図10は、本発明のアライメント/コンセ
ンサス配列の説明図である。GENE1から7は、アラ
イメントである。これは、予測者が遺伝子データベース
10から、予測しようとする遺伝子の文字列に関連する
遺伝子を指定して抽出し、アライメントした後の状態を
示す。
【0063】CONSENは、コンセンサス配列であ
る。このコンセンサス配列は、関連する遺伝子DNAに
ついて可及的に一致するようにアライメントして図示状
態にした後、各塩基位置について共通に存在する塩基あ
るいは最も多く含まれる塩基を抽出したものである。
【0064】図10の(a)は、アライメントしてコン
センサス配列を生成した状態を示す。図10の(b)
は、上側の(a)のアライメントにおいてどこが変異し
ているかを解かり易く示したものである。変異している
部分を表示し、変異していない部分に*を表示する。
【0065】図10の(c)は、図10の(b)をもと
に、AAGCの出現回数、変異の数をカウントしたとき
の結果を示す。 ・この例では、コンセンサス配列にAAGCが15回出
現している(2−4−1)。
【0066】・AAGCのはじめのAがGに2回変異
し、Cに4回、Tに1回変異している。 ・AAGCの2番目のAがCに4回変異している。
【0067】・AAGCの3番目のGがAに5回、Cに
1回変異している。 ・AAGCの4番目のCがGに5回、Tに1回変異して
いる。 図11は、図10のアライメントとコンセンサス配列か
ら求めたDNA部分配列のエラースペクトルの例を示
す。このAAGCのエラースペクトルは、記載したよう
に、 ・AAGCのはじめのAの変異確率は7/15=0.4
67 ・AAGCの2番目のAの変異確率は4/15=0.2
67 ・AAGCの3番目のGの変異確率は6/15=0.4
00 ・AAGCの4番目のCの変異確率は6/15=0.4
00 となる。ここで、分母の15は図10の(c)のAAG
Cが15回出現したこに対応し、分子の7、4、6、6
は図10の(c)のAAGCの初めのA、2番目のA、
3番目のG、4番目のCについてそれぞれの変異の総数
に対応している。例えばAAGCの初めのAは、Gに2
回変異、Cに4回、Tに1回変異しているので、変異の
総数は(2+4+1)=7である。同様に2番目から4
番目についてその総数を求める。
【0068】図12は、図10のアライメントとコンセ
ンサス配列から求めたDNA部分配列のエラースペクト
ルの例を示す。図12の(a)は、AAGCのエラース
ペクトルであって、部分配列の各塩基の他の3種類の塩
基への変異確率をイメージ的に分かり易く示したもので
ある。
【0069】図12の(b)は、各塩基への変異確率の
計算を示したものである。即ち、 ・AAGCのはじめのAがGに変異する確率は2/15
=0.133、Cに変異する確率は4/15=0.26
7、Tに変異する確率は1/15=0.067となる。
【0070】・AAGCの2番目のAがCに変異する確
率は4/15=0.267となる。 ・AAGCの3番目のGがAに変異する確率は5/15
=0.333、Cに変異する確率は1/15=0.06
7となる。
【0071】・AAGCの4番目のCがGに変異する確
率は5/15=0.333、Tに変異する確率は1/1
5=0.067となる。 図13は、本発明の長さ4のDNA部分配列のエラース
ペクトルの例を示す。このエラースペクトルは、図12
に既述したように、当該エラースペクトルの各塩基が他
の塩基に変異する変異確率を算出した様子をイメージ的
に棒グラフで表したものである。ここでは、4のDNA
部分配列の組み合わせは、44=64通りあるが、ここ
では12通りの例を示す。
【0072】図14は、図13のエラースペクトルを文
字列ACCTTAAGCTTCCAGについて合成した
合成エラースペクトルの例を示す。ここで、網かけの部
分の配列TTAAGCTTCの部分のスペクトルが合成
エラースペクトルになっている。また、変異確率が1.
5以上の塩基について#を表示し、1.0以上1.5以
下の塩基について*を表示し、他の塩基の変異確率より
も高い旨を表示する。
【0073】図15は、図14のTTAAGCTTCに
ついて合成エラースペクトルを基に変異の起こりやすい
塩基を表示した例を示す。ここでは、合成値が1.5よ
りも大きい塩基を#、1.0よりも大きい塩基を*で示
している。
【0074】図16は、図14と図15のTTAAGC
TTCについての合成エラースペクトルを基に変異の起
こりやすい塩基が他のどの塩基に変異しやすいかを縦並
びの文字列ヒストグラムで表示した例を示す。ここで
は、図示したように下記のように表示する。
【0075】
【0076】
【発明の効果】以上説明したように、本発明によれば、
DNA部分配列の各塩基の変異確率の組であるエラース
ペクトルを、予測したい遺伝子の文字列(A、C、G、
Tの4つの文字の組み合わせ)について合成し、合成後
の合計した変異確率を求めて高い塩基を突然変異を起こ
す確率が高いと予測する構成を採用しているため、遺伝
子の突然変異を予測することができる。これらにより、
各塩基の変異確率が判明しているエラースペクルをもと
に予測したい遺伝子のDNA配列中の突然変異の起こり
易い塩基にマーク付けしたり、更にいずれの塩基に突然
変異する確率が高いかを合わせて表示することが可能と
なる。また、遺伝子データベースから関連する遺伝子D
NAを抽出してこれらをアライメントしてコンセンサス
配列を求め、出現頻度の高いDNA部分配列の出現回数
や各塩基の変異回数を求めてエラースペクトルを算出
し、これをもとに予測したい遺伝子の文字列を合成して
その突然変異を予測することも可能となる。
【0077】これらの遺伝子の突然変異の予測により、
ヒトゲノム計画が推進されている今日、遺伝子の点突然
変異予測ができ、新しいガン遺伝子の同定、エイジング
に伴う遺伝子の変異、先天異常をもたらす遺伝子の同定
などが可能となる。更に、エイズウイルスのような急速
に遺伝子が変異していく寄生体の遺伝子の変異の予測が
可能となり。マルチ合成ワクチン系の構築が可能とな
る。また、蛋白工学において、起こりやすい変異を予測
することにより、蛋白質の機能向上につながる。
【図面の簡単な説明】
【図1】本発明の1実施例構成図である。
【図2】本発明の動作説明図である。
【図3】本発明のDNA部分配列のエラースペクトルの
例である。
【図4】本発明の長さ4の部分配列によるエラースペク
トルの合成例である。
【図5】本発明の長さ4のDNA部分配列のエラースペ
クトルの例である。。
【図6】図4のDNA部分配列のエラースペクトルを用
いた文字列TTAAGCTTCについて合成されたエラ
ースペクトルの例である。
【図7】本発明の長さ4の部分配列によるエラースペク
トルの合成例である。
【図8】本発明の他の実施例構成図である。
【図9】本発明の他の動作説明図である。
【図10】本発明のアライメント/コンセンサス配列の
説明図である。
【図11】図10のアライメントとコンセンサス配列か
ら求めたDNA部分配列のエラースペクトルの例であ
る。
【図12】図10のアライメントとコンセンサス配列か
ら求めたDNA部分配列のエラースペクトルの例であ
る。
【図13】本発明の長さ4のDNA部分配列のエラース
ペクトルの例である。
【図14】図13のエラースペクトルを文字列ACCT
TAAGCTTCCAGについて合成した合成エラース
ペクトルの例である。
【図15】図14のTTAAGCTTCについて合成エ
ラースペクトルを基に変異の起こりやすい塩基を表示し
た例である。
【図16】図14と図15のTTAAGCTTCについ
ての合成エラースペクトルを基に変異の起こりやすい塩
基が他のどの塩基に変異しやすいかを縦並びの文字ヒス
トグラムで表示した例である。
【符号の説明】
1:遺伝子突然変異予測装置 2:アライメント処理 3:コンセンサス配列抽出処理 4:エラースペクトル算出処理 5:エラースペクトル合成処理 6:比較集計処理 7:予測表示処理 8:制御部 9:遺伝子文字列 10:遺伝子データベース 11:ディスプレイ 12:キーボード 13:外部データ A、C、G、T:遺伝子の塩基
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 17/00 C12M 1/00 G06F 19/00 INSPEC(DIALOG) JICSTファイル(JOIS) WPI(DIALOG)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】遺伝子の突然変異を予測する遺伝子突然変
    異予測装置において、予測対象の遺伝子の文字列を、それぞれの配列中の各塩
    基(A、C、G、T)の変異確率の判明している複数の
    DNA部分配列の和で表現し、各DNA部分配列の変異
    確率の和を求めることによりエラースペクトルを合成す
    るエラースペクトル合成処理手段と、 この合成したエラースペクトルに基づいて、変異確率が
    高い塩基を見つける比較集計処理手段とを備え、 変異確率が高い塩基を突然変異を起こす確率が高いと予
    測するように構成したことを特徴とする遺伝子突然変異
    予測装置。
  2. 【請求項2】遺伝子の突然変異を予測する遺伝子突然変
    異予測装置において、 入力された関連する、複数の遺伝子のDNA配列を比較
    して可及的に一致するようにアライメントするアライメ
    ント処理手段と、 これらアライメントしたDNA配列から、各塩基位置に
    共通に存在する塩基あるいは最も多く含まれる塩基を抽
    出してコンセンサス配列を生成するコンセンサス配列抽
    出処理手段と、 このコンセンサス配列中で出現しているDNA部分配列
    を求め、この求めたDNA部分配列について上記アライ
    メントしたDNA配列を参照して各塩基の変異確率を求
    めてエラースペクトルを算出するエラースペクトル算出
    処理手段とを備え、 この算出した、関連するエラースペクトルを、上記変異
    確率の判明しているエラースペクトルとし、 変異確率が高い塩基を突然変異を起こす確率が高いと予
    測するように構成したことを特徴とする請求項1記載の
    遺伝子突然変異予測装置。
  3. 【請求項3】上記変異確率の判明しているエラースペク
    トルあるいは変異確率を算出したエラースペクトルの当
    該変異確率として、他の塩基への変異確率をそれぞれ持
    ち、合成時に当該他の塩基への変異確率毎に和を求める
    ように構成したことを特徴とする請求項1あるいは請求
    項2記載の遺伝子突然変異予測装置。
  4. 【請求項4】上記変異確率が高い塩基を突然変異を起こ
    す確率が高いと予測した塩基について、画面上のDNA
    部分配列の該当する塩基にマーク付けするように構成し
    たことを特徴とする請求項1あるいは請求項2記載の遺
    伝子突然変異予測装置。
  5. 【請求項5】上記変異確率が高い塩基を突然変異を起こ
    す確率が高いと予測した塩基について、画面上のDNA
    部分配列の該当する塩基にいずれの塩基(A、C、G、
    T)への突然変異がし易いかを表示するように構成した
    ことを特徴とする請求項1から請求項3のいずれかに
    載の遺伝子突然変異予測装置。
JP19040792A 1992-07-17 1992-07-17 遺伝子突然変異予測装置 Expired - Fee Related JP3102957B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19040792A JP3102957B2 (ja) 1992-07-17 1992-07-17 遺伝子突然変異予測装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19040792A JP3102957B2 (ja) 1992-07-17 1992-07-17 遺伝子突然変異予測装置

Publications (2)

Publication Number Publication Date
JPH0630759A JPH0630759A (ja) 1994-02-08
JP3102957B2 true JP3102957B2 (ja) 2000-10-23

Family

ID=16257634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19040792A Expired - Fee Related JP3102957B2 (ja) 1992-07-17 1992-07-17 遺伝子突然変異予測装置

Country Status (1)

Country Link
JP (1) JP3102957B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005301523A (ja) * 2004-04-08 2005-10-27 Celestar Lexico-Sciences Inc ワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、mhc結合部分配列予測装置、mhc結合部分配列予測方法、プログラムおよび記録媒体
WO2015146852A1 (ja) * 2014-03-24 2015-10-01 株式会社 東芝 基準ゲノムデータを生成する方法、装置及びプログラム、差分ゲノムデータを生成する方法、装置及びプログラム、データを復元する方法、装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
館野「分子進化とシミュレーション」情報処理,Vol.31,No.7,p.865−874,1990

Also Published As

Publication number Publication date
JPH0630759A (ja) 1994-02-08

Similar Documents

Publication Publication Date Title
US11560598B2 (en) Systems and methods for analyzing circulating tumor DNA
JP6768815B2 (ja) マルチプレックスpcrに供するプライマーの設計方法
AU2015331621B2 (en) Ancestral human genomes
US12046327B1 (en) Identity-by-descent relatedness based on focal and reference segments
US20200251183A1 (en) Deep Learning-Based Framework for Identifying Sequence Patterns that Cause Sequence-Specific Errors (SSEs)
US8280640B2 (en) System and method for pattern recognition in sequential data
CA2930597A1 (en) Methods for the graphical representation of genomic sequence data
AU2021203538B2 (en) Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors (SSEs)
US20220414597A1 (en) Methods for Analysis of Digital Data
US20080172209A1 (en) Identifying associations using graphical models
JP2003021630A (ja) 臨床診断サービスを提供するための方法
KR102425673B1 (ko) 시퀀싱 데이터 리드 재정렬 방법
US20220254444A1 (en) Systems and methods for detecting recombination
Huo et al. Optimizing genetic algorithm for motif discovery
WO2018060365A1 (en) Genomic variant ranking system for clinical trial matching
CN115631789A (zh) 一种基于泛基因组的群体联合变异检测方法
JP3102957B2 (ja) 遺伝子突然変異予測装置
Chaley et al. Model of perfect tandem repeat with random pattern and empirical homogeneity testing poly-criteria for latent periodicity revelation in biological sequences
WO2016205767A1 (en) String graph assembly for polyploid genomes
US20170132361A1 (en) Sequence assembly method
Lee et al. Protein secondary structure prediction using BLAST and exhaustive RT-RICO, the search for optimal segment length and threshold
EP4158062B1 (en) Sequence alignment systems and methods to identify short motifs in high-error single-molecule reads
NL2021473B1 (en) DEEP LEARNING-BASED FRAMEWORK FOR IDENTIFYING SEQUENCE PATTERNS THAT CAUSE SEQUENCE-SPECIFIC ERRORS (SSEs)
TWI650664B (zh) 建立蛋白質功能缺失評估模型的方法以及利用上述模型的風險評估方法與系統
Anderson INCLUSION OF 48 PACIFIC ISLANDERS WITHIN A COSMOPOLITAN REFERENCE PANEL IS SUFFICIENT FOR HIGH ACCURACY GENOTYPE IMPUTATION OF SAMOANS

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000808

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080825

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090825

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090825

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100825

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees