JP2001155009A - エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法 - Google Patents

エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法

Info

Publication number
JP2001155009A
JP2001155009A JP33856099A JP33856099A JP2001155009A JP 2001155009 A JP2001155009 A JP 2001155009A JP 33856099 A JP33856099 A JP 33856099A JP 33856099 A JP33856099 A JP 33856099A JP 2001155009 A JP2001155009 A JP 2001155009A
Authority
JP
Japan
Prior art keywords
sequence
organism
yij
bases
regions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP33856099A
Other languages
English (en)
Other versions
JP3584275B2 (ja
Inventor
Yoshihide Hayashizaki
崎 良 英 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RIKEN Institute of Physical and Chemical Research
Original Assignee
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RIKEN Institute of Physical and Chemical Research filed Critical RIKEN Institute of Physical and Chemical Research
Priority to JP33856099A priority Critical patent/JP3584275B2/ja
Priority to CA002395055A priority patent/CA2395055A1/en
Priority to EP00977998A priority patent/EP1258811A1/en
Priority to US10/148,322 priority patent/US20040219522A1/en
Priority to PCT/JP2000/008402 priority patent/WO2001040969A1/ja
Publication of JP2001155009A publication Critical patent/JP2001155009A/ja
Application granted granted Critical
Publication of JP3584275B2 publication Critical patent/JP3584275B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Complex Calculations (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

(57)【要約】 【課題】 エキソンイントロンジャンクションを効率よ
く、かつ高精度で決定する装置およびその決定方法の提
供。 【解決手段】 ゲノム上の遺伝子領域内においてエキソ
ンイントロンジャンクションを決定する装置であって、
生物1のcDNAと、それに対応する生物2の遺伝子領
域とを入力する入力部と、生物2の遺伝子領域において
重複しない塩基数10以上の2つの配列iおよびjを抽
出するジャンクション候補抽出部と、抽出された配列i
および配列jについてs(i,j)=s(x,yij)-C{(b-j)+(i-a)-
(B-A)}2 を計算する演算部と、s(i,j)が最大とな
るように配列iおよび配列jの組合せを選択するジャン
クション決定部と、決定されたエキソンイントロンジャ
ンクションの位置を出力する出力部とを含んでなる装
置。

Description

【発明の詳細な説明】
【0001】
【発明の背景】発明の分野 本発明はエキソンイントロンジャンクションを決定する
装置およびゲノム上の遺伝子配列、具体的にはcDNA
領域、を決定する装置並びにこれらの決定方法に関す
る。
【0002】関連技術 DNAの塩基配列の中からエキソンを予測するプログラ
ムとして、Grail、Grail2、Genscan
が知られている。これらの予測プログラムによるとある
遺伝子配列の一部のヌクレオチド配列を予測することが
できるが、遺伝子全体のヌクレオチド配列あるいはアミ
ノ酸配列を予測することは困難であった。更にこれらの
プログラムは計算機による学習方法を利用しており、ヌ
クレオチド配列のデータ量が多くなれば予測に要する時
間も増加する。また、エキソンの予測率は70%程度、
特に遺伝子の中のタンパク質の生成に関わる開始コドン
の予測率は40%程度と低いのが現状であった。
【0003】一方、ヒトゲノムプロジェクトが進行する
につれヒトゲノムからヒト遺伝子、具体的にはcDNA
配列、を効率的かつ高精度で同定する方法が求められて
いる。
【0004】
【発明の概要】本発明者らは、今般、ゲノム上の遺伝子
領域においてエキソンイントロンジャンクションを効率
的かつ高精度で同定する方法を見いだした。本発明者ら
は、また、ある生物の完全長cDNAのヌクレオチド情
報に基づいて、遺伝子領域が不明な生物のDNA配列中
において相同性領域を決定する方法を見いだした。
【0005】本発明は、ゲノム上の遺伝子領域内におい
て効率よく、かつ高精度でエキソンイントロンジャンク
ションを予測し、同定し、または決定する装置の提供を
その目的とする。
【0006】本発明は、ゲノム上のcDNA領域を効率
よく、かつ高精度で予測し、同定し、および決定する装
置の提供をその目的とする。
【0007】本発明は、ゲノム上の遺伝子領域内におい
て効率よく、かつ高精度でエキソンイントロンジャンク
ションを予測し、同定し、または決定するプログラムを
実行させるコンピュータ読み取り可能な記録媒体の提供
をその目的とする。
【0008】本発明は、ゲノム上のcDNA領域を効率
よく、かつ高精度で予測し、同定し、および決定するプ
ログラムを実行させるコンピュータ読み取り可能な記録
媒体の提供をその目的とする。
【0009】本発明は、ゲノム上の遺伝子領域内におい
て効率よく、かつ高精度でエキソンイントロンジャンク
ションを予測し、同定し、または決定する方法の提供を
その目的とする。
【0010】本発明は、ゲノム上のcDNA領域を効率
よく、かつ高精度で予測し、同定し、および決定する方
法の提供をその目的とする。
【0011】本発明の第一の態様によれば、ゲノム上の
遺伝子領域内においてエキソンイントロンジャンクショ
ンを予測し、同定し、または決定する装置であって、生
物1の全長cDNA配列またはその一部分(断片AB)
と、それに対応する生物2のゲノム上の遺伝子領域(断
片ab)とを入力する入力部と、入力された断片abに
おいて重複しない塩基数10以上の2つの配列を抽出す
るジャンクション候補抽出部(ここで、断片ab中にお
いて5’末端側に存在する配列をiとし、3’末端側に
存在する配列をjとする)と、抽出された配列iおよび
配列jについて下記式で表されるs(i,j)を計算す
る演算部と、 s(i,j)=s(x,yij)-C{(b-j)+(i-a)-(B-A)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b−jは、生物2の遺伝子領域の3’末端から配列jの
5’末端までの塩基数を表し、i−aは、生物2の遺伝
子領域の5’末端から配列iの3’末端までの塩基数を
表し、B−Aは、生物1のcDNAの塩基数を表し、C
は、比例係数であり、0〜10であり、v(k)は、x
およびyijのオーバーラップスコアを表し、ここで、
xは生物1のcDNA配列であり、yijは配列iおよ
びjを連続してなる断片であり、kは1〜myijの整
数を表し、Mはxとyijとのマトリックスを表し、こ
こで、xのa番目の塩基がyijのb番目の塩基と同じ
ときにはM(a,b)=1であり、xのa番目の塩基が
yijのb番目の塩基と異なるときにはM(a,b)=
0であり、miは配列iの塩基数を表し、mi≧10で
あり、mjは配列jの塩基数を表し、mj≧10であ
り、myijは配列yijの塩基数を表し、myij≧
20である。) 得られたs(i,j)が最大となるように配列iおよび
配列jの組合せを選択するジャンクション決定部と決定
されたエキソンイントロンジャンクションの位置を出力
する出力部とを含んでなる装置が提供される。
【0012】本発明の第二の態様によれば、ゲノム上の
遺伝子領域内においてエキソン−イントロンジャンクシ
ョンを予測し、同定し、または決定する装置であって、
生物1の全長cDNA配列またはその一部分(断片A
B)と、それに対応する生物2のゲノム上の遺伝子領域
(断片ab)とを入力する入力部と(ここで、生物1の
cDNA配列またはその一部分と、それに対応する生物
2のゲノム上の遺伝子領域とが、それぞれ対応する二つ
の相同性領域に挟まれており、生物1のcDNA配列に
おける相同性領域がA1A2、B1B2であり、生物2
のゲノム上の相同性領域がa1a2、b1b2であり、
A1A2はa1a2と、B1B2はb1b2とそれぞれ
相同性を有する)、生物2の遺伝子領域内のa1a2と
b1b2とに挟まれる領域内において、重複しない塩基
数10以上の2つの配列を抽出するジャンクション候補
抽出部と(ここで、断片ab中において5’末端側に存
在する配列をiとし、3’末端側に存在する配列をjと
する)、抽出された配列iおよび配列jについて下記式
で表されるs(i,j)を計算する演算部と、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
までの塩基数を表し、i−a2は、a1a2の5’末端
から配列iの3’末端までの塩基数を表し、B1−A2
は、A1A2の3’末端からB1B2の5’末端までの
塩基数を表し、Cは、比例係数であり、0〜10であ
り、v(k)は、xおよびyijのオーバーラップスコ
アを表し、ここで、xは生物1のcDNA配列であり、
yijは配列iおよびjを連続してなる断片であり、k
は1〜myijの整数を表し、Mはxとyijとのマト
リックスを表し、ここで、xのa番目の塩基がyijの
b番目の塩基と同じときにはM(a,b)=1であり、
xのa番目の塩基がyijのb番目の塩基と異なるとき
にはM(a,b)=0であり、miは配列iの塩基数を
表し、mi≧10であり、mjは配列jの塩基数を表
し、mj≧10であり、myijは配列yijの塩基数
を表し、myij≧20である。) 得られたs(i,j)が最大となるように配列iおよび
配列jの組合せを選択するジャンクション決定部と決定
されたエキソンイントロンジャンクションの位置を出力
する出力部とを含んでなる装置が提供される。
【0013】本発明の第三の態様によれば、ゲノム上の
cDNA領域を予測し、同定し、または決定する装置で
あって、生物1から得られた全長cDNAまたはその一
部の配列データと、生物2の全ゲノムまたはその一部の
配列データと、生物1のcDNA配列および生物2のゲ
ノム配列上における相同性領域の位置リストとを入力す
る入力部(ここで、生物1のcDNA配列またはその一
部分および生物2のゲノム上の遺伝子領域上には、それ
ぞれ対応する二以上の相同性領域が存在し、隣り合う相
同性領域それぞれにおいて、生物1のcDNA配列にお
ける相同性領域がA1A2、B1B2であり、生物2の
ゲノム上の相同性領域がa1a2、b1b2であり、A
1A2はa1a2と、B1B2はb1b2とそれぞれ相
同性を有する)と、隣り合う相同性領域に挟まれた領域
それぞれにおいて、重複しない塩基数10以上の2つの
配列を抽出するジャンクション候補抽出部(ここで、隣
り合う相同性領域に挟まれた領域中それぞれにおいて
5’末端側に存在する配列をiとし、3’末端側に存在
する配列をjとする)と、隣り合う相同性領域に挟まれ
た領域それぞれについて、抽出された配列iおよび配列
jについて下記式で表されるs(i,j)を計算する演
算部と、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
までの塩基数を表し、i−a2は、a1a2の5’末端
から配列iの3’末端までの塩基数を表し、B1−A2
は、A1A2の3’末端からB1B2の5’末端までの
塩基数を表し、Cは、比例係数であり、0〜10であ
り、v(k)は、xおよびyijのオーバーラップスコ
アを表し、ここで、xは生物1のcDNA配列であり、
yijは配列iおよびjを連続してなる断片であり、k
は1〜myijの整数を表し、Mはxとyijとのマト
リックスを表し、ここで、xのa番目の塩基がyijの
b番目の塩基と同じときにはM(a,b)=1であり、
xのa番目の塩基がyijのb番目の塩基と異なるとき
にはM(a,b)=0であり、miは配列iの塩基数を
表し、mi≧10であり、mjは配列jの塩基数を表
し、mj≧10であり、myijは配列yijの塩基数
を表し、myij≧20である。) 隣り合う相同性領域に挟まれた領域それぞれについて、
得られたs(i,j)が最大となるように配列iおよび
配列jの組合せを選択するジャンクション決定部と隣り
合う相同性領域に挟まれた領域それぞれについて決定さ
れたエキソンイントロンジャンクションの位置に従って
生物2のゲノム配列からイントロン配列を切り出し、残
った配列を連結してcDNA配列として出力する出力部
とを含んでなる装置が提供される。
【0014】本発明の第四の態様によれば、ゲノム上の
cDNA領域を予測し、同定し、または決定する装置で
あって、生物1から得られた全長cDNAまたはその一
部の配列データと、生物2の全ゲノムまたはその一部の
配列データとを入力する入力部と、生物1の全長cDN
Aまたはその一部に相同な生物2のゲノム上の領域を相
同性検索する相同検索部と、得られた生物2のゲノム上
の相同性領域について組合せを作成する組合せ候補作成
部と、得られた組合せからcDNA配列として存在し得
ない組合せを除く組合せ絞り込み部と、得られた組合せ
のうち組合せがカバーするゲノム上の範囲が最大のもの
を選択し、相同性領域の位置リストを作成する組合せ選
定部(ここで、生物1のcDNA配列またはその一部分
および生物2のゲノム上の遺伝子領域上には、それぞれ
対応する二以上の相同性領域が存在し、隣り合う相同性
領域それぞれにおいて、生物1のcDNA配列における
相同性領域がA1A2、B1B2であり、生物2のゲノ
ム上の相同性領域がa1a2、b1b2であり、A1A
2はa1a2と、B1B2はb1b2とそれぞれ相同性
を有する)と、隣り合う相同性領域に挟まれた領域それ
ぞれにおいて、重複しない塩基数10以上の2つの配列
を抽出するジャンクション候補抽出部(ここで、隣り合
う相同性領域に挟まれた領域中それぞれにおいて5’末
端側に存在する配列をiとし、3’末端側に存在する配
列をjとする)と、隣り合う相同性領域に挟まれた領域
それぞれについて、抽出された配列iおよび配列jにつ
いて下記式で表されるs(i,j)を計算する演算部
と、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
までの塩基数を表し、i−a2は、a1a2の5’末端
から配列iの3’末端までの塩基数を表し、B1−A2
は、A1A2の3’末端からB1B2の5’末端までの
塩基数を表し、Cは、比例係数であり、0〜10であ
り、v(k)は、xおよびyijのオーバーラップスコ
アを表し、ここで、xは生物1のcDNA配列であり、
yijは配列iおよびjを連続してなる断片であり、k
は1〜myijの整数を表し、Mはxとyijとのマト
リックスを表し、ここで、xのa番目の塩基がyijの
b番目の塩基と同じときにはM(a,b)=1であり、
xのa番目の塩基がyijのb番目の塩基と異なるとき
にはM(a,b)=0であり、miは配列iの塩基数を
表し、mi≧10であり、mjは配列jの塩基数を表
し、mj≧10であり、myijは配列yijの塩基数
を表し、myij≧20である。) 隣り合う相同性領域に挟まれた領域それぞれについて、
得られたs(i,j)が最大となるように配列iおよび
配列jの組合せを選択するジャンクション決定部と隣り
合う相同性領域に挟まれた領域それぞれについて決定さ
れたエキソンイントロンジャンクションの位置に従って
生物2のゲノム配列からイントロン配列を切り出し、残
った配列を連結してcDNA配列として出力する出力部
とを含んでなる装置が提供される。
【0015】本発明の第五の態様によれば、ゲノム上の
遺伝子領域内においてエキソンイントロンジャンクショ
ンを予測し、同定し、または決定するプログラムを記録
したコンピュータ読みとり可能な記録媒体であって、生
物1の全長cDNA配列またはその一部分(断片AB)
に対応する生物2のゲノム上の遺伝子領域(断片ab)
において、重複しない塩基数10以上の2つの配列を抽
出する手順と(ここで、断片ab中において5’末端側
に存在する配列をiとし、3’末端側に存在する配列を
jとする)、抽出された配列iおよび配列jについて下
記式で表されるs(i,j)を計算する手順と、 s(i,j)=s(x,yij)-C{(b-j)+(i-a)-(B-A)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b−jは、生物2の遺伝子領域の3’末端から配列jの
5’末端までの塩基数を表し、i−aは、生物2の遺伝
子領域の5’末端から配列iの3’末端までの塩基数を
表し、B−Aは、生物1のcDNAの塩基数を表し、C
は、比例係数であり、0〜10であり、v(k)は、x
およびyijのオーバーラップスコアを表し、ここで、
xは生物1のcDNA配列であり、yijは配列iおよ
びjを連続してなる断片であり、kは1〜myijの整
数を表し、Mはxとyijとのマトリックスを表し、こ
こで、xのa番目の塩基がyijのb番目の塩基と同じ
ときにはM(a,b)=1であり、xのa番目の塩基が
yijのb番目の塩基と異なるときにはM(a,b)=
0であり、miは配列iの塩基数を表し、mi≧10で
あり、mjは配列jの塩基数を表し、mj≧10であ
り、myijは配列yijの塩基数を表し、myij≧
20である。) 得られたs(i,j)が最大となるように配列iおよび
配列jの組合せを選択し、エキソンイントロンジャンク
ションの位置を決定する手順とを実行させるプログラム
を記録したコンピュータ読みとり可能な記録媒体が提供
される。
【0016】本発明の第六の態様によれば、ゲノム上の
遺伝子領域内においてエキソンイントロンジャンクショ
ンを予測し、同定し、または決定するプログラムを記録
したコンピュータ読みとり可能な記録媒体であって、生
物1の全長cDNA配列またはその一部分(断片AB)
に対応する生物2のゲノム上の遺伝子領域(断片ab)
(ここで、生物1のcDNA配列またはその一部分と、
それに対応する生物2のゲノム上の遺伝子領域とが、そ
れぞれ対応する二つの相同性領域に挟まれており、生物
1のcDNA配列における相同性領域がA1A2、B1
B2であり、生物2のゲノム上の相同性領域がa1a
2、b1b2であり、A1A2はa1a2と、B1B2
はb1b2とそれぞれ相同性を有する)内のa1a2と
b1b2とに挟まれる領域内において、重複しない塩基
数10以上の2つの配列を抽出する手順と(ここで、断
片ab中において5’末端側に存在する配列をiとし、
3’末端側に存在する配列をjとする)、抽出された配
列iおよび配列jについて下記式で表されるs(i,
j)を計算する手順と、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
までの塩基数を表し、i−a2は、a1a2の5’末端
から配列iの3’末端までの塩基数を表し、B1−A2
は、A1A2の3’末端からB1B2の5’末端までの
塩基数を表し、Cは、比例係数であり、0〜10であ
り、v(k)は、xおよびyijのオーバーラップスコ
アを表し、ここで、xは生物1のcDNA配列であり、
yijは配列iおよびjを連続してなる断片であり、k
は1〜myijの整数を表し、Mはxとyijとのマト
リックスを表し、ここで、xのa番目の塩基がyijの
b番目の塩基と同じときにはM(a,b)=1であり、
xのa番目の塩基がyijのb番目の塩基と異なるとき
にはM(a,b)=0であり、miは配列iの塩基数を
表し、mi≧10であり、mjは配列jの塩基数を表
し、mj≧10であり、myijは配列yijの塩基数
を表し、myij≧20である。) 得られたs(i,j)が最大となるように配列iおよび
配列jの組合せを選択し、エキソンイントロンジャンク
ションの位置を決定する手順とを実行させるプログラム
を記録したコンピュータ読みとり可能な記録媒体が提供
される。
【0017】本発明の第七の態様によれば、ゲノム上の
cDNA領域を予測し、同定し、または決定するプログ
ラムを記録したコンピュータ読みとり可能な記録媒体で
あって、生物1から得られた全長cDNAまたはその一
部の配列データと、生物2の全ゲノムまたはその一部の
配列データと、生物1のcDNA配列および生物2のゲ
ノム配列上における相同性領域の位置リストとに基づい
て(ここで、生物1のcDNA配列またはその一部分お
よび生物2のゲノム上の遺伝子領域上には、それぞれ対
応する二以上の相同性領域が存在し、隣り合う相同性領
域それぞれにおいて、生物1のcDNA配列における相
同性領域がA1A2、B1B2であり、生物2のゲノム
上の相同性領域がa1a2、b1b2であり、A1A2
はa1a2と、B1B2はb1b2とそれぞれ相同性を
有する)、生物2のゲノム上において隣り合う相同性領
域に挟まれた領域それぞれにおいて、重複しない塩基数
10以上の2つの配列を抽出する手順と(ここで、隣り
合う相同性領域に挟まれた領域中それぞれにおいて5’
末端側に存在する配列をiとし、3’末端側に存在する
配列をjとする)、隣り合う相同性領域に挟まれた領域
それぞれについて、抽出された配列iおよび配列jにつ
いて下記式で表されるs(i,j)を計算する手順と、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
までの塩基数を表し、i−a2は、a1a2の5’末端
から配列iの3’末端までの塩基数を表し、B1−A2
は、A1A2の3’末端からB1B2の5’末端までの
塩基数を表し、Cは、比例係数であり、0〜10であ
り、v(k)は、xおよびyijのオーバーラップスコ
アを表し、ここで、xは生物1のcDNA配列であり、
yijは配列iおよびjを連続してなる断片であり、k
は1〜myijの整数を表し、Mはxとyijとのマト
リックスを表し、ここで、xのa番目の塩基がyijの
b番目の塩基と同じときにはM(a,b)=1であり、
xのa番目の塩基がyijのb番目の塩基と異なるとき
にはM(a,b)=0であり、miは配列iの塩基数を
表し、mi≧10であり、mjは配列jの塩基数を表
し、mj≧10であり、myijは配列yijの塩基数
を表し、myij≧20である。) 隣り合う相同性領域に挟まれた領域それぞれについて、
得られたs(i,j)が最大となるように配列iおよび
配列jの組合せを選択する手順と、隣り合う相同性領域
に挟まれた領域それぞれについて決定されたエキソンイ
ントロンジャンクションの位置に従って生物2のゲノム
配列からイントロン配列を切り出し、残った配列を連結
することによりcDNA配列を決定する手順とを実行さ
せるプログラムを記録したコンピュータ読みとり可能な
記録媒体が提供される。
【0018】本発明の第八の態様によれば、ゲノム上の
cDNA領域を予測し、同定し、または決定するプログ
ラムを記録したコンピュータ読みとり可能な記録媒体で
あって、生物1から得られた全長cDNAまたはその一
部の配列データと、生物2の全ゲノムまたはその一部の
配列データとに基づいて、生物1の全長cDNAまたは
その一部に相同な生物2のゲノム上の領域を相同性検索
する手順と、得られた生物2のゲノム上の相同性領域に
ついて組合せを作成する手順と、得られた組合せからc
DNA配列として存在し得ない組合せを除く手順と、得
られた組合せのうち組合せがカバーするゲノム上の範囲
が最大のものを選択し、相同性領域の位置リストを作成
する手順と(ここで、生物1のcDNA配列またはその
一部分および生物2のゲノム上の遺伝子領域上には、そ
れぞれ対応する二以上の相同性領域が存在し、隣り合う
相同性領域それぞれにおいて、生物1のcDNA配列に
おける相同性領域がA1A2、B1B2であり、生物2
のゲノム上の相同性領域がa1a2、b1b2であり、
A1A2はa1a2と、B1B2はb1b2とそれぞれ
相同性を有する)、生物2のゲノム上において隣り合う
相同性領域に挟まれた領域それぞれにおいて、重複しな
い塩基数10以上の2つの配列を抽出する手順と(ここ
で、隣り合う相同性領域に挟まれた領域中それぞれにお
いて5’末端側に存在する配列をiとし、3’末端側に
存在する配列をjとする)、隣り合う相同性領域に挟ま
れた領域それぞれについて、抽出された配列iおよび配
列jについて下記式で表されるs(i,j)を計算する
手順と、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
までの塩基数を表し、i−a2は、a1a2の5’末端
から配列iの3’末端までの塩基数を表し、B1−A2
は、A1A2の3’末端からB1B2の5’末端までの
塩基数を表し、Cは、比例係数であり、0〜10であ
り、v(k)は、xおよびyijのオーバーラップスコ
アを表し、ここで、xは生物1のcDNA配列であり、
yijは配列iおよびjを連続してなる断片であり、k
は1〜myijの整数を表し、Mはxとyijとのマト
リックスを表し、ここで、xのa番目の塩基がyijの
b番目の塩基と同じときにはM(a,b)=1であり、
xのa番目の塩基がyijのb番目の塩基と異なるとき
にはM(a,b)=0であり、miは配列iの塩基数を
表し、mi≧10であり、mjは配列jの塩基数を表
し、mj≧10であり、myijは配列yijの塩基数
を表し、myij≧20である。) 隣り合う相同性領域に挟まれた領域それぞれについて、
得られたs(i,j)が最大となるように配列iおよび
配列jの組合せを選択する手順と、隣り合う相同性領域
に挟まれた領域それぞれについて決定されたエキソンイ
ントロンジャンクションの位置に従って生物2のゲノム
配列からイントロン配列を切り出し、残った配列を連結
することによりcDNA配列を決定する手順とを実行さ
せるプログラムを記録したコンピュータ読みとり可能な
記録媒体が提供される。
【0019】本発明の第九の態様によれば、ゲノム上の
遺伝子領域内においてエキソンイントロンジャンクショ
ンを予測し、同定し、または決定する方法であって、生
物1の全長cDNA配列またはその一部分(断片AB)
と、それに対応する生物2のゲノム上の遺伝子領域(断
片ab)とを準備し、断片abにおいて重複しない塩基
数10以上の2つの配列を抽出し(ここで、断片ab中
において5’末端側に存在する配列をiとし、3’末端
側に存在する配列をjとする)、抽出された配列iおよ
び配列jについて下記式で表されるs(i,j)を計算
し、 s(i,j)=s(x,yij)-C{(b-j)+(i-a)-(B-A)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b−jは、生物2の遺伝子領域の3’末端から配列jの
5’末端までの塩基数を表し、i−aは、生物2の遺伝
子領域の5’末端から配列iの3’末端までの塩基数を
表し、B−Aは、生物1のcDNAの塩基数を表し、C
は、比例係数であり、0〜10であり、v(k)は、x
およびyijのオーバーラップスコアを表し、ここで、
xは生物1のcDNA配列であり、yijは配列iおよ
びjを連続してなる断片であり、kは1〜myijの整
数を表し、Mはxとyijとのマトリックスを表し、こ
こで、xのa番目の塩基がyijのb番目の塩基と同じ
ときにはM(a,b)=1であり、xのa番目の塩基が
yijのb番目の塩基と異なるときにはM(a,b)=
0であり、miは配列iの塩基数を表し、mi≧10で
あり、mjは配列jの塩基数を表し、mj≧10であ
り、myijは配列yijの塩基数を表し、myij≧
20である。) 得られたs(i,j)が最大となるように配列iおよび
配列jの組合せを選択し、エキソンイントロンジャンク
ションの位置を決定する工程を含んでなる方法が提供さ
れる。
【0020】本発明の第十の態様によれば、ゲノム上の
遺伝子領域内においてエキソン−イントロンジャンクシ
ョンを予測し、同定し、または決定する方法であって、
生物1の全長cDNA配列またはその一部分(断片A
B)と、それに対応する生物2のゲノム上の遺伝子領域
(断片ab)とを準備し(ここで、生物1のcDNA配
列またはその一部分と、それに対応する生物2のゲノム
上の遺伝子領域とが、それぞれ対応する二つの相同性領
域に挟まれており、生物1のcDNA配列における相同
性領域がA1A2、B1B2であり、生物2のゲノム上
の相同性領域がa1a2、b1b2であり、A1A2は
a1a2と、B1B2はb1b2とそれぞれ相同性を有
する)、生物2の遺伝子領域内のa1a2とb1b2と
に挟まれる領域内において、重複しない塩基数10以上
の2つの配列を抽出し(ここで、断片ab中において
5’末端側に存在する配列をiとし、3’末端側に存在
する配列をjとする)、抽出された配列iおよび配列j
について下記式で表されるs(i,j)を計算し、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
までの塩基数を表し、i−a2は、a1a2の5’末端
から配列iの3’末端までの塩基数を表し、B1−A2
は、A1A2の3’末端からB1B2の5’末端までの
塩基数を表し、Cは、比例係数であり、0〜10であ
り、v(k)は、xおよびyijのオーバーラップスコ
アを表し、ここで、xは生物1のcDNA配列であり、
yijは配列iおよびjを連続してなる断片であり、k
は1〜myijの整数を表し、Mはxとyijとのマト
リックスを表し、ここで、xのa番目の塩基がyijの
b番目の塩基と同じときにはM(a,b)=1であり、
xのa番目の塩基がyijのb番目の塩基と異なるとき
にはM(a,b)=0であり、miは配列iの塩基数を
表し、mi≧10であり、mjは配列jの塩基数を表
し、mj≧10であり、myijは配列yijの塩基数
を表し、myij≧20である。) 得られたs(i,j)が最大となるように配列iおよび
配列jの組合せを選択し、エキソンイントロンジャンク
ションの位置を決定する工程を含んでなる方法が提供さ
れる。
【0021】本発明の第十一の態様によれば、ゲノム上
のcDNA領域を予測し、同定し、または決定する方法
であって、生物1から得られた全長cDNAまたはその
一部の配列データと、生物2の全ゲノムまたはその一部
の配列データと、生物1のcDNA配列および生物2の
ゲノム配列上における相同性領域の位置リストと準備し
(ここで、生物1のcDNA配列またはその一部分およ
び生物2のゲノム上の遺伝子領域上には、それぞれ対応
する二以上の相同性領域が存在し、隣り合う相同性領域
それぞれにおいて、生物1のcDNA配列における相同
性領域がA1A2、B1B2であり、生物2のゲノム上
の相同性領域がa1a2、b1b2であり、A1A2は
a1a2と、B1B2はb1b2とそれぞれ相同性を有
する)、隣り合う相同性領域に挟まれた領域それぞれに
おいて、重複しない塩基数10以上の2つの配列を抽出
し(ここで、隣り合う相同性領域に挟まれた領域中それ
ぞれにおいて5’末端側に存在する配列をiとし、3’
末端側に存在する配列をjとする)、隣り合う相同性領
域に挟まれた領域それぞれについて、抽出された配列i
および配列jについて下記式で表されるs(i,j)を
計算し、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
までの塩基数を表し、i−a2は、a1a2の5’末端
から配列iの3’末端までの塩基数を表し、B1−A2
は、A1A2の3’末端からB1B2の5’末端までの
塩基数を表し、Cは、比例係数であり、0〜10であ
り、v(k)は、xおよびyijのオーバーラップスコ
アを表し、ここで、xは生物1のcDNA配列であり、
yijは配列iおよびjを連続してなる断片であり、k
は1〜myijの整数を表し、Mはxとyijとのマト
リックスを表し、ここで、xのa番目の塩基がyijの
b番目の塩基と同じときにはM(a,b)=1であり、
xのa番目の塩基がyijのb番目の塩基と異なるとき
にはM(a,b)=0であり、miは配列iの塩基数を
表し、mi≧10であり、mjは配列jの塩基数を表
し、mj≧10であり、myijは配列yijの塩基数
を表し、myij≧20である。) 隣り合う相同性領域に挟まれた領域それぞれについて、
得られたs(i,j)が最大となるように配列iおよび
配列jの組合せを選択し、隣り合う相同性領域に挟まれ
た領域それぞれについて決定されたエキソンイントロン
ジャンクションの位置に従って生物2のゲノム配列から
イントロン配列を切り出し、残った配列を連結すること
によりcDNA配列を決定する工程を含んでなる方法が
提供される。
【0022】本発明の第十二の態様によれば、ゲノム上
のcDNA領域を予測し、同定し、または決定する装置
であって、生物1から得られた全長cDNAまたはその
一部の配列データと、生物2の全ゲノムまたはその一部
の配列データとを準備し、生物1の全長cDNAまたは
その一部に相同な生物2のゲノム上の領域を相同性検索
し、得られた生物2のゲノム上の相同性領域について組
合せを作成し、得られた組合せからcDNA配列として
存在し得ない組合せを除き、得られた組合せのうち組合
せがカバーするゲノム上の範囲が最大のものを選択し、
相同性領域の位置リストを作成し(ここで、生物1のc
DNA配列またはその一部分および生物2のゲノム上の
遺伝子領域上には、それぞれ対応する二以上の相同性領
域が存在し、隣り合う相同性領域それぞれにおいて、生
物1のcDNA配列における相同性領域がA1A2、B
1B2であり、生物2のゲノム上の相同性領域がa1a
2、b1b2であり、A1A2はa1a2と、B1B2
はb1b2とそれぞれ相同性を有する)、隣り合う相同
性領域に挟まれた領域それぞれにおいて、重複しない塩
基数10以上の2つの配列を抽出し(ここで、隣り合う
相同性領域に挟まれた領域中それぞれにおいて5’末端
側に存在する配列をiとし、3’末端側に存在する配列
をjとする)、隣り合う相同性領域に挟まれた領域それ
ぞれについて、抽出された配列iおよび配列jについて
下記式で表されるs(i,j)を計算し、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
までの塩基数を表し、i−a2は、a1a2の5’末端
から配列iの3’末端までの塩基数を表し、B1−A2
は、A1A2の3’末端からB1B2の5’末端までの
塩基数を表し、Cは、比例係数であり、0〜10であ
り、v(k)は、xおよびyijのオーバーラップスコ
アを表し、ここで、xは生物1のcDNA配列であり、
yijは配列iおよびjを連続してなる断片であり、k
は1〜myijの整数を表し、Mはxとyijとのマト
リックスを表し、ここで、xのa番目の塩基がyijの
b番目の塩基と同じときにはM(a,b)=1であり、
xのa番目の塩基がyijのb番目の塩基と異なるとき
にはM(a,b)=0であり、miは配列iの塩基数を
表し、mi≧10であり、mjは配列jの塩基数を表
し、mj≧10であり、myijは配列yijの塩基数
を表し、myij≧20である。) 隣り合う相同性領域に挟まれた領域それぞれについて、
得られたs(i,j)が最大となるように配列iおよび
配列jの組合せを選択し、隣り合う相同性領域に挟まれ
た領域それぞれについて決定されたエキソンイントロン
ジャンクションの位置に従って生物2のゲノム配列から
イントロン配列を切り出し、残った配列を連結すること
によりcDNA配列を決定する工程を含んでなる方法が
提供される。
【0023】本発明の第一および第二の態様の装置によ
れば、ゲノム上の遺伝子領域内において効率よく、かつ
高精度でエキソンイントロンジャンクションを予測し、
同定し、または決定することができる。
【0024】本発明の第三および第四の態様の装置によ
れば、ゲノム上のcDNA領域を効率よく、かつ高精度
で予測し、同定し、および決定することができ、特に遺
伝子の一部ではなく、遺伝子領域全体を正確に決定でき
る点で有利である。
【0025】本発明の第五および第六の態様の記録媒体
によれば、ゲノム上の遺伝子領域内において効率よく、
かつ高精度でエキソンイントロンジャンクションを予測
し、同定し、または決定することができる。
【0026】本発明の第七および第八の態様の記録媒体
によれば、ゲノム上のcDNA領域を効率よく、かつ高
精度で予測し、同定し、および決定することができ、特
に遺伝子の一部ではなく、遺伝子領域全体を正確に決定
できる点で有利である。
【0027】本発明の第九および第十の態様の方法によ
れば、ゲノム上の遺伝子領域内において効率よく、かつ
高精度でエキソンイントロンジャンクションを予測し、
同定し、または決定することができる。
【0028】本発明の第十一および第十二の態様の方法
によれば、ゲノム上のcDNA領域を効率よく、かつ高
精度で予測し、同定し、および決定することができ、特
に遺伝子の一部ではなく、遺伝子領域全体を正確に決定
できる点で有利である。
【0029】
【発明の具体的説明】第一の態様および第二の態様 本発明の第一の態様および第二の態様によれば、エキソ
ンイントロンジャンクションを同定する装置が提供され
る。本発明による装置の第一の態様および第二の態様は
図1に示される通りである。これらの装置は、具体的に
は、コンピュータに基づく装置、すなわちコンピュータ
システム、であることができる。
【0030】まず、入力部においては、生物1の全長c
DNA配列またはその一部分(断片AB)と、それに対
応する生物2のゲノム上の遺伝子領域(断片ab)を入
力する。この点で第一の態様と第二の態様は共通する
が、第二の態様においては、入力される生物1のcDN
A配列またはその一部分と、それに対応する生物2のゲ
ノム上の遺伝子領域とが、それぞれ対応する二つの相同
性領域に挟まれており、生物1のcDNA配列における
相同性領域がA1A2、B1B2であり、生物2のゲノ
ム上の相同性領域がa1a2、b1b2であり、A1A
2はa1a2と、B1B2はb1b2とそれぞれ相同性
を有する点で、第一の態様と異なる。それぞれの態様に
ついて、入力される生物1のcDNA配列と生物2のゲ
ノム配列との関係を示すと図2および図3の通りであ
る。
【0031】生物1および生物2は、遺伝子の存在およ
び/または相同性に関して高度な相関関係にあるものか
ら選択でき、生物1および生物2が真核生物(具体的に
は、哺乳動物)である場合が挙げられる。より具体的に
は、生物1がマウスであり、生物2がハエである場合、
生物1がハエであり、生物2がヒトである場合が挙げら
れる。生物1および生物2がほ乳類同士の場合には、生
物1がマウスであり、生物2がヒトである場合、生物1
がヒトであり、生物2がマウスである場合が挙げられ
る。
【0032】第二の態様の場合、断片abは生物1に対
応する相同性領域に挟まれているが、これらの相同性領
域は隣り合っていることが好ましい。隣り合っている生
物1に対応する相同性領域に挟まれている場合には、そ
の間にイントロンが一つ存在する可能性が高い。図3は
相同性領域が隣り合っており、その間に他の相同性領域
が介在しない場合を示している。
【0033】次にジャンクション候補抽出部において
は、生物2のゲノム上において(第一の態様においては
断片abにおいて、第二の態様においてはa1a2とb
1b2とに挟まれる領域において)、重複しない塩基数
10以上(例えば、塩基数10〜30)、好ましくは塩
基数20以上、の2つの配列を選択する。ここで、生物
2のゲノム上において、5’末端側に存在する配列をi
とし、3’末端側に存在する配列をjとする(図1およ
び図2参照)。好ましくは、それぞれ20塩基対の配列
を選択することができる。
【0034】配列iおよび配列jはGT−AGルール
(Mount, S.M., Nucleic Acid Res. 10:459-472(198
2))に従って選択できる。
【0035】演算部においては、配列iおよび配列jに
ついての関数であるs(i,j)を計算する。
【0036】式(I)中に存在するs(x,yij)
は、s(x,yij)=max(v(k)) (II)で算出され、v(k)
で算出される。
【0037】以下、xがaagctggagactctctであり、yi
jがggagaである場合を例にしてs(x,yij)の算出を説明
する。この場合、得られるマトリックスは下記の通りで
ある。
【0038】 Mはxとyijとのマトリックスを表し、ここで、xの
a番目の塩基がyijのb番目の塩基と同じときにはM
(a,b)=1であり、xのa番目の塩基がyijのb
番目の塩基と異なるときにはM(a,b)=0である。
【0039】例えば、k=2の場合には下記の●印で表
される部分のスコアを計算する。
【0040】 v(k)の値は次の通りである。
【0041】v(1)=0、v(2)=1、v(3)=
2、v(4)=2、v(5)=1、v(6)=5、v
(7)=1、v(8)=2、v(9)=1、v(10)
=0、v(11)=0、v(12)=0。
【0042】よって、s(x,yij)=max{0,
1,2,2,1,5,1,2,1,0,0,0}であ
り、s(x,yij)=5となる。
【0043】v(k)は好ましくは式(IV)であること
ができる。
【0044】 修正項「max(ΣM(k-n+p,p)×0.5;n=-6〜6)」を式(II
I)に挿入することにより、v(k)の値をなめらかに
して、配列xあるいはyijに塩基の欠失あるいは挿入
が生じた場合でも真の最大値を検出することができる。
nは重複領域のギャップの数を表し、好ましくは−1〜
1であることができる。この場合、v’(k)はv
(k)に両隣の項の値のうち大きい方の値の半分を足し
た値となる。
【0045】式(I)において、Cは比例係数である。
生物1および生物2の同一種の全長配列が既知であるc
DNAの組合せおよびそのcDNAを含む生物2のゲノ
ムがはっきりしている組合せを複数準備し、本発明によ
る方法による予測精度が最大となるようにCを決定でき
る。具体的には、Cは、0〜10、好ましくは、0.5
であることができる。
【0046】式(I)において、myijはmiとmj
とを足した値である。myijは、20以上(例えば、
20〜60)、好ましくは40以上、の整数である。
【0047】ジャンクション決定部においては、式
(I)で表されるs(i,j)が最大になるように配列
iおよび配列jの組合せを選択する。出力部において
は、選択された配列iおよび配列jの組合せに基づいて
エキソンイントロンジャンクションの位置を出力する。
【0048】第三の態様 本発明の第三の態様によれば、ゲノム上のcDNA領域
を同定する装置が提供される。本発明による装置の第三
の態様は図4に示される通りである。この装置は、具体
的には、コンピュータに基づく装置、すなわちコンピュ
ータシステム、であることができる。
【0049】まず入力部において生物1から得られた全
長cDNAまたはその一部の配列データと、生物2の全
ゲノムまたはその一部の配列データと、生物1のcDN
A配列および生物2のゲノム配列上における相同性領域
の位置リストとが入力される。相同性領域の位置リスト
は後述するように相同性検索を実施することにより作成
することができる。生物1および生物2は前記と同様に
して選択できる。
【0050】ジャンクション候補抽出部においては、入
力された相同性領域の位置リストに基づき、隣り合う相
同性領域に挟まれた領域それぞれにおいて、重複しない
塩基数10以上の2つの配列を抽出する。隣り合う相同
性領域に挟まれた領域が2以上ある場合には、それぞれ
の領域についてジャンクション候補を抽出する。第三の
態様においては、ジャンクション候補抽出部において抽
出されたジャンクション候補を一時的に保存する記憶部
を備えていてもよい。ある領域におけるジャンクション
候補それぞれについてs(i,j)が演算部において計
算され、計算されたs(i,j)に基づいてジャンクシ
ョン決定部において好ましいジャンクションが選択され
る。ある領域についてジャンクションが特定されると、
他の領域について同様にジャンクション候補が抽出さ
れ、s(i,j)が計算され、ジャンクションが決定さ
れるステップが繰り返される。
【0051】エキソンイントロンジャンクションを決定
した後、必要であれば、末端部分決定部において5’側
の一番上流に位置する相同性領域(例えば、図5の領域
I)の更に5’側上流にある遺伝子領域や、3’側の一
番下流に位置する相同性領域(例えば、図5の領域IV)
の更に3’側下流にある遺伝子領域を決定することによ
りcDNAの5’末端および3’末端を決定する。cD
NAの5’末端および3’末端は、それぞれ生物1の
5’側の最上流および3’側の最下流のcDNA上の相
同性領域(例えば、図5の領域Iと領域IV)と同じ長さ
を取り、ベースコールエラー等を除いて生物1のcDN
A長と生物2のcDNA長とが異ならないようにするこ
とで決定できる。
【0052】第三の態様による装置におけるデータ処理
をNSチャートにより更に詳しく説明すると図6および
図7の通りである。
【0053】本発明によるcDNAの同定法によれば、
ある生物由来の全長cDNAをもとにして、別の生物の
全長cDNA配列を決定できる。
【0054】第四の態様 本発明の第四の態様によれば、ゲノム上のcDNA領域
を同定する装置が提供される。本発明による装置の第四
の態様は図8に示される通りである。この装置は、具体
的には、コンピュータに基づく装置、すなわちコンピュ
ータシステム、であることができる。
【0055】第四の態様は、第三の態様の入力部が、入
力部、相同性検索部、組合せ候補作成部、組合せ候補絞
り込み部、および組合せ選定部に置き換わっていること
を特徴とする。
【0056】まず入力部においては、生物1から得られ
た全長cDNAまたはその一部の配列データと生物2の
全ゲノムまたはその一部の配列データが入力される。生
物1および生物2は前記と同様にして選択できる。
【0057】次に相同性検索部においては、生物1の全
長cDNAまたはその一部に相同な生物2のゲノム上の
領域を相同性検索する。相同性検索の確率は10−50
以下、好ましくは、10−100以下 、更に好ましく
は、10−200以下、で行うことができる。
【0058】相同性検索部は、BLAST、LALIG
N、ALIGN、またはFASTAから選択される検索
システムそのものであっても、これらの検索システムと
通信回線等により接続された装置であってもよい。
【0059】組合せ候補作成部においては、生物1の全
長cDNAまたはその一部に相同な生物2のゲノム上の
領域を相同性検索して得られた生物2のゲノム上の相同
性領域について組合せが作成される。具体的には、それ
ぞれの相同性領域につき存在する場合としない場合を想
定して組合せが作成される。相同性領域がq個存在する
場合には組合せが2個作成される。
【0060】ここで、生物1のcDNA配列と生物2の
ゲノム配列との間で二つの相同性領域が見いだされたと
仮定して、組合せの作成について説明する。図9にある
ように、生物2において四種類の相同性領域が見いださ
れた場合、以下のような16通りの組合せが作成でき
る。
【0061】 組合せ 領域1 領域2 領域3 領域4 カバー範囲(bp) (1) 1 0 0 0 300 (2) 0 1 0 0 900 (3) 1 1 0 0 1200 (4) 0 0 1 0 600 (5) 1 0 1 0 NG (6) 0 1 1 0 NG (7) 1 1 1 0 NG (8) 0 0 0 1 900 (9) 1 0 0 1 NG (10) 0 1 0 1 NG (11) 1 1 0 1 NG (12) 0 0 1 1 NG (13) 1 0 1 1 NG (14) 0 1 1 1 NG (15) 1 1 1 1 NG (16) 0 0 0 0 NG NG:存在し得ない組合せ 組合せ候補絞り込み部においては、作成された組合せか
らcDNA配列として存在し得ない組合せが除かれる。
cDNA配列として存在し得ない組合せとしては下記の
ものが挙げられる。
【0062】・2以上の生物2の相同性領域が対応する
生物1の相同性領域が同一である組合せ(例えば、上記
組合せ(5)および(7))、 ・生物2の2以上の相同性領域の順序が生物1の相同性
領域のそれと逆になっている組合せ(例えば、上記組合
せ(6)および(7))、および ・生物2の2以上の相同性領域の向きが逆になっている
組合せ(例えば、上記組合せ(9)〜(15))。
【0063】DNA配列として存在し得ない組合せとし
ては、更にまた、複数の相同性領域の間が30bp〜3
0kbp(高等生物では、例えば、5kbp〜30kb
p)離れている組合せが挙げられる。具体的な塩基数
は、生物2のゲノム上の遺伝子密度から見積もられる遺
伝子間の平均的な間隔より短く(高等生物では30kb
pあたり1遺伝子)、イントロンの最短長よりも長くな
るように決定できる。
【0064】組合せ選定部においては、得られた組合せ
のうち組合せがカバーするゲノム上の範囲が最大のもの
が選択され、選択された相同性領域の位置リストが作成
される。上記例では組合せ(3)が好ましい相同性領域
の組合せとして選択できる。
【0065】ジャンクション候補選定部においては、組
合せ選定部において作成された相同性領域の位置リスト
が入力され、既に入力されている生物1のcDNA配列
および生物2のゲノム配列に基づいてジャンクションの
候補が抽出される。
【0066】ジャンクション候補抽出部、演算部、ジャ
ンクション決定部、および出力部における処理は第三の
態様と同様である。
【0067】第五の態様ないし第八の態様 上述した第一の態様ないし第三の態様における入力部、
ジャンクション候補抽出部、演算部、ジャンクション決
定部、出力部、および場合によっては記憶部、並びに第
四の態様の入力部、相同性検索部、組合せ候補作成部、
組合せ候補絞り込み部、組合せ選定部、ジャンクション
候補抽出部、演算部、ジャンクション決定部、出力部、
および場合によっては記憶部はいずれも図10に示すよ
うなコンピュータシステム20上で稼働するプログラム
モジュールとして実現することができる。このようなプ
ログラムモジュールを含むエキソンイントロンジャンク
ション決定プログラムあるいはゲノム上のcDNA領域
決定プログラムは、記録媒体であるフロッピーディスク
またはCD−ROM(Compact Disk-Read Only Memor
y)等に記録され、コンピュータシステム20により読
み出されて上述したようなエキソンイントロンジャンク
ションの決定あるいはゲノム上のcDNA領域の決定が
行われる。
【0068】コンピュータシステム20は、図10に示
すようにミニタワー等の筐体に収納されたコンピュータ
本体21と、CRT(Cathode Ray Tube−陰極線管−)
等の表示装置22と、記録出力装置としてのプリンタ2
3と、入力装置としてのキーボード24aおよびマウス
24bと、記録媒体としてのフロッピーディスク31内
の情報を読み出すためのフロッピーディスクドライブ装
置26と、記録媒体としてのCD−ROM32内の情報
を読み出すためのCD−ROMドライブ装置27とを備
えている。
【0069】これらの構成をブロック図として示すと、
図11に示すように、コンピュータ本体21が収納され
た筐体内には、RAM(Random Access Memory)等から
なる内部メモリ25と、ハードディスクユニット28等
の外部記憶装置がさらに設けられている。なお、エキソ
ンイントロンジャンクション決定プログラムあるいはゲ
ノム上のcDNA領域決定プログラムを記録したフロッ
ピーディスク(記録媒体)31は、図10に示すよう
に、フロッピーディスクドライブ装置26のスロットに
挿入されて所定の手順によりコンピュータ本体21にイ
ンストールされる。本発明によるプログラムを記録する
記録媒体は、フロッピーディスク31に限られず、CD
−ROM32や内部メモリ25、ハードディスクユニッ
ト28等の他、図示されていないMO(Magnet Optica
l)ディスクや光ディスク、DVD(Digital Versatile
Disk)等であってもよい。
【0070】 以下、本発明によりマウスcDNAからヒトゲノム上の
cDNA領域を決定した例を示す。
【0071】20のマウスcDNAをマウスの脳、腎臓
細胞、およびC57BL/6マウス18日齢胎児から調
製し、配列決定した。
【0072】相同性検索はBLASTを用いた。相同性
検索の確率は10−50に設定した。
【0073】相同性領域の組合せのうちあり得ない組合
せとして下記の組合せを除外した。
【0074】2以上の生物2の相同性領域が対応する生
物1の相同性領域が同一である組合せ、生物2の2以上
の相同性領域の順序が生物1の相同性領域のそれと逆に
なっている組合せ、生物2の2以上の相同性領域の向き
が逆になっている組合せ、複数の相同性領域の間が5k
bp以上離れている組合せ。
【0075】エキソンイントロンジャンクションの検出
は下記式に従って行った。
【0076】 s(i,j)=s(x,yij)-0.5×{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v'(k)) (II)であり、 mi=20、mj=20、myij=40であった。) 配列iおよび配列jはGT−AGルールによって選択し
た。
【0077】結果は表1および表2の通りであった。
【0078】
【表1】 表1は、マウスタンパク質と決定されたヒトタンパク質
との比較を示した図である。aはヒトタンパク質のアミ
ノ酸残基数を、bは予測されたヒトタンパク質のアミノ
酸残基数を、cはヒトタンパク質と予測されたヒトタン
パク質との間の整列したアミノ酸残基数を、dはマウス
タンパク質のアミノ酸残基数を、それぞれ表す。局所的
配列の同一性はLALIGN(Huang, X., Hardison,
R. C., and Miller, W., 1990, Comput. Appl. Biosci.
6, 373-381)により算出した。
【0079】20のタンパク質のうち5つのヒト全長タ
ンパク質が本発明による方法により正確に決定された。
一方、Genscanは3つのヒト全長タンパク質を正
確に決定できただけであり、Grail2は全長タンパ
ク質を正確に決定できなかった(データ省略)。
【0080】
【表2】 表2は、本発明による方法による予測の正確性と、Ge
nscanおよびGrail2による予測の正確性とを
比較したものである。表中の正確性(%)は、正確に決
定されたアミノ酸残基数を決定された全アミノ酸残基数
で割った数であり、不正確性(%)は誤って決定された
アミノ酸残基数を決定された全アミノ酸残基数で割った
数である。
【0081】また、本発明による方法の正確性は83.
3%、不正確性は16.7%であり、本発明の方法は、
GenscanおよびGrail2と比較して高い正確
性および低い不正確性を有する。
【図面の簡単な説明】
【図1】本発明の第一の態様および第二の態様(エキソ
ンイントロンジャンクションの決定)を示した図であ
る。
【図2】準備される生物1のcDNA配列と生物2のゲ
ノム配列との関係を示した図である。
【図3】準備される生物1のcDNA配列と生物2のゲ
ノム配列との関係を示した図である。A1A2とa1a
2とは対応する相同性領域である。B1B2とb1b2
とは対応する相同性領域である。GT−AGルールに従
って配列iおよび配列jを選択している。
【図4】本発明の第三の態様(相同性領域のリストを入
力することを特徴とするcDNA領域の決定)を示した
図である。
【図5】決定された相同性領域の組合せの例を示した図
である。生物2のゲノム上に4個の相同性領域が見いだ
されている。I〜IVは相同性領域を示す。
【図6】本発明の第三の態様の手順をより具体的に示し
たNSチャートである。各相同性領域(1〜N)のスプ
ライスサイトの候補、すなわちジャンクション候補、の
リストは、図7に記載の手順に用いられる。
【図7】本発明の第三の態様の手順をより具体的に示し
たNSチャートである。各相同性領域I(I=1〜N)
の5’側のスプライスサイトの候補の数をn(I)、
3’側のスプライスサイトの候補の数をn(I)、
5’側のスプライスサイトの候補の位置をm(I,
j)(j=1〜n(I))、3’側のスプライスサイ
トの候補の位置をn(I,i)(i=1〜n
(I))とした。
【図8】本発明の第四の態様(相同性検索ステップを含
むことを特徴とするcDNA領域の決定)を示した図で
ある。
【図9】生物1のcDNA配列をもとに生物2のゲノム
配列を相同性検索した例を模式的に示した図である。相
同性領域は二種類であるが、生物2のゲノム上には4つ
の相同性領域が見いだされている。
【図10】エキソンイントロンジャンクション決定プロ
グラムあるいはゲノム上のcDNA領域決定プログラム
を記録したコンピュータ読み取り可能な記録媒体が用い
られるコンピュータシステムを示す斜視図である。
【図11】図10のコンピュータシステムのハードウェ
ア構成を示すブロック図である。
【符号の説明】
20 コンピュータシステム 21 コンピュータ本体 22 表示装置 23 プリンタ 24a 入力装置 24b マウス 25 記録媒体(内部メモリ) 26 フロッピーディスクドライブ装置 27 CD−ROMドライブ装置 28 記録媒体(ハードディスクユニット) 31 記録媒体(フロッピーディスク) 32 記録媒体(CD−ROM)

Claims (36)

    【特許請求の範囲】
  1. 【請求項1】ゲノム上の遺伝子領域内においてエキソン
    イントロンジャンクションを予測し、同定し、または決
    定する装置であって、 生物1の全長cDNA配列またはその一部分(断片A
    B)と、それに対応する生物2のゲノム上の遺伝子領域
    (断片ab)とを入力する入力部と、 入力された断片abにおいて重複しない塩基数10以上
    の2つの配列を抽出するジャンクション候補抽出部(こ
    こで、断片ab中において5’末端側に存在する配列を
    iとし、3’末端側に存在する配列をjとする)と、 抽出された配列iおよび配列jについて下記式で表され
    るs(i,j)を計算する演算部と、 s(i,j)=s(x,yij)-C{(b-j)+(i-a)-(B-A)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b−jは、生物2の遺伝子領域の3’末端から配列jの
    5’末端までの塩基数を表し、 i−aは、生物2の遺伝子領域の5’末端から配列iの
    3’末端までの塩基数を表し、 B−Aは、生物1のcDNAの塩基数を表し、 Cは、比例係数であり、0〜10であり、 v(k)は、xおよびyijのオーバーラップスコアを
    表し、ここで、xは生物1のcDNA配列であり、yi
    jは配列iおよびjを連続してなる断片であり、kは1
    〜myijの整数を表し、 Mはxとyijとのマトリックスを表し、ここで、xの
    a番目の塩基がyijのb番目の塩基と同じときにはM
    (a,b)=1であり、xのa番目の塩基がyijのb
    番目の塩基と異なるときにはM(a,b)=0であり、 miは配列iの塩基数を表し、mi≧10であり、 mjは配列jの塩基数を表し、mj≧10であり、 myijは配列yijの塩基数を表し、myij≧20
    である。) 得られたs(i,j)が最大となるように配列iおよび
    配列jの組合せを選択するジャンクション決定部と決定
    されたエキソンイントロンジャンクションの位置を出力
    する出力部とを含んでなる装置。
  2. 【請求項2】ゲノム上の遺伝子領域内においてエキソン
    −イントロンジャンクションを予測し、同定し、または
    決定する装置であって、 生物1の全長cDNA配列またはその一部分(断片A
    B)と、それに対応する生物2のゲノム上の遺伝子領域
    (断片ab)とを入力する入力部と(ここで、生物1の
    cDNA配列またはその一部分と、それに対応する生物
    2のゲノム上の遺伝子領域とが、それぞれ対応する二つ
    の相同性領域に挟まれており、生物1のcDNA配列に
    おける相同性領域がA1A2、B1B2であり、生物2
    のゲノム上の相同性領域がa1a2、b1b2であり、
    A1A2はa1a2と、B1B2はb1b2とそれぞれ
    相同性を有する)、 生物2の遺伝子領域内のa1a2とb1b2とに挟まれ
    る領域内において、重複しない塩基数10以上の2つの
    配列を抽出するジャンクション候補抽出部と(ここで、
    断片ab中において5’末端側に存在する配列をiと
    し、3’末端側に存在する配列をjとする)、 抽出された配列iおよび配列jについて下記式で表され
    るs(i,j)を計算する演算部と、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
    までの塩基数を表し、 i−a2は、a1a2の5’末端から配列iの3’末端
    までの塩基数を表し、 B1−A2は、A1A2の3’末端からB1B2の5’
    末端までの塩基数を表し、 Cは、比例係数であり、0〜10であり、 v(k)は、xおよびyijのオーバーラップスコアを
    表し、ここで、xは生物1のcDNA配列であり、yi
    jは配列iおよびjを連続してなる断片であり、kは1
    〜myijの整数を表し、 Mはxとyijとのマトリックスを表し、ここで、xの
    a番目の塩基がyijのb番目の塩基と同じときにはM
    (a,b)=1であり、xのa番目の塩基がyijのb
    番目の塩基と異なるときにはM(a,b)=0であり、 miは配列iの塩基数を表し、mi≧10であり、 mjは配列jの塩基数を表し、mj≧10であり、 myijは配列yijの塩基数を表し、myij≧20
    である。) 得られたs(i,j)が最大となるように配列iおよび
    配列jの組合せを選択するジャンクション決定部と決定
    されたエキソンイントロンジャンクションの位置を出力
    する出力部とを含んでなる装置。
  3. 【請求項3】ゲノム上のcDNA領域を予測し、同定
    し、または決定する装置であって、 生物1から得られた全長cDNAまたはその一部の配列
    データと、生物2の全ゲノムまたはその一部の配列デー
    タと、生物1のcDNA配列および生物2のゲノム配列
    上における相同性領域の位置リストとを入力する入力部
    (ここで、生物1のcDNA配列またはその一部分およ
    び生物2のゲノム上の遺伝子領域上には、それぞれ対応
    する二以上の相同性領域が存在し、隣り合う相同性領域
    それぞれにおいて、生物1のcDNA配列における相同
    性領域がA1A2、B1B2であり、生物2のゲノム上
    の相同性領域がa1a2、b1b2であり、A1A2は
    a1a2と、B1B2はb1b2とそれぞれ相同性を有
    する)と、 隣り合う相同性領域に挟まれた領域それぞれにおいて、
    重複しない塩基数10以上の2つの配列を抽出するジャ
    ンクション候補抽出部(ここで、隣り合う相同性領域に
    挟まれた領域中それぞれにおいて5’末端側に存在する
    配列をiとし、3’末端側に存在する配列をjとする)
    と、 隣り合う相同性領域に挟まれた領域それぞれについて、
    抽出された配列iおよび配列jについて下記式で表され
    るs(i,j)を計算する演算部と、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
    までの塩基数を表し、 i−a2は、a1a2の5’末端から配列iの3’末端
    までの塩基数を表し、 B1−A2は、A1A2の3’末端からB1B2の5’
    末端までの塩基数を表し、 Cは、比例係数であり、0〜10であり、 v(k)は、xおよびyijのオーバーラップスコアを
    表し、ここで、xは生物1のcDNA配列であり、yi
    jは配列iおよびjを連続してなる断片であり、kは1
    〜myijの整数を表し、 Mはxとyijとのマトリックスを表し、ここで、xの
    a番目の塩基がyijのb番目の塩基と同じときにはM
    (a,b)=1であり、xのa番目の塩基がyijのb
    番目の塩基と異なるときにはM(a,b)=0であり、 miは配列iの塩基数を表し、mi≧10であり、 mjは配列jの塩基数を表し、mj≧10であり、 myijは配列yijの塩基数を表し、myij≧20
    である。) 隣り合う相同性領域に挟まれた領域それぞれについて、
    得られたs(i,j)が最大となるように配列iおよび
    配列jの組合せを選択するジャンクション決定部と隣り
    合う相同性領域に挟まれた領域それぞれについて決定さ
    れたエキソンイントロンジャンクションの位置に従って
    生物2のゲノム配列からイントロン配列を切り出し、残
    った配列を連結してcDNA配列として出力する出力部
    とを含んでなる装置。
  4. 【請求項4】ゲノム上のcDNA領域を予測し、同定
    し、または決定する装置であって、 生物1から得られた全長cDNAまたはその一部の配列
    データと、生物2の全ゲノムまたはその一部の配列デー
    タとを入力する入力部と、 生物1の全長cDNAまたはその一部に相同な生物2の
    ゲノム上の領域を相同性検索する相同検索部と、 得られた生物2のゲノム上の相同性領域について組合せ
    を作成する組合せ候補作成部と、 得られた組合せからcDNA配列として存在し得ない組
    合せを除く組合せ絞り込み部と、 得られた組合せのうち組合せがカバーするゲノム上の範
    囲が最大のものを選択し、相同性領域の位置リストを作
    成する組合せ選定部(ここで、生物1のcDNA配列ま
    たはその一部分および生物2のゲノム上の遺伝子領域上
    には、それぞれ対応する二以上の相同性領域が存在し、
    隣り合う相同性領域それぞれにおいて、生物1のcDN
    A配列における相同性領域がA1A2、B1B2であ
    り、生物2のゲノム上の相同性領域がa1a2、b1b
    2であり、A1A2はa1a2と、B1B2はb1b2
    とそれぞれ相同性を有する)と、 隣り合う相同性領域に挟まれた領域それぞれにおいて、
    重複しない塩基数10以上の2つの配列を抽出するジャ
    ンクション候補抽出部(ここで、隣り合う相同性領域に
    挟まれた領域中それぞれにおいて5’末端側に存在する
    配列をiとし、3’末端側に存在する配列をjとする)
    と、 隣り合う相同性領域に挟まれた領域それぞれについて、
    抽出された配列iおよび配列jについて下記式で表され
    るs(i,j)を計算する演算部と、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
    までの塩基数を表し、 i−a2は、a1a2の5’末端から配列iの3’末端
    までの塩基数を表し、 B1−A2は、A1A2の3’末端からB1B2の5’
    末端までの塩基数を表し、 Cは、比例係数であり、0〜10であり、 v(k)は、xおよびyijのオーバーラップスコアを
    表し、ここで、xは生物1のcDNA配列であり、yi
    jは配列iおよびjを連続してなる断片であり、kは1
    〜myijの整数を表し、 Mはxとyijとのマトリックスを表し、ここで、xの
    a番目の塩基がyijのb番目の塩基と同じときにはM
    (a,b)=1であり、xのa番目の塩基がyijのb
    番目の塩基と異なるときにはM(a,b)=0であり、 miは配列iの塩基数を表し、mi≧10であり、 mjは配列jの塩基数を表し、mj≧10であり、 myijは配列yijの塩基数を表し、myij≧20
    である。) 隣り合う相同性領域に挟まれた領域それぞれについて、
    得られたs(i,j)が最大となるように配列iおよび
    配列jの組合せを選択するジャンクション決定部と隣り
    合う相同性領域に挟まれた領域それぞれについて決定さ
    れたエキソンイントロンジャンクションの位置に従って
    生物2のゲノム配列からイントロン配列を切り出し、残
    った配列を連結してcDNA配列として出力する出力部
    とを含んでなる装置。
  5. 【請求項5】組合せ絞り込み部においてcDNA配列と
    して存在し得ない組合せが下記からなる、請求項4に記
    載の装置。 ・2以上の生物2の相同性領域が対応する生物1の相同
    性領域が同一である組合せ、 ・生物2の2以上の相同性領域の順序が生物1の相同性
    領域のそれと逆になっている組合せ、および ・生物2の2以上の相同性領域の向きが逆になっている
    組合せ
  6. 【請求項6】相同性検索部において相同性検索が確率1
    −50以下で実施される、請求項4に記載の装置。
  7. 【請求項7】相同性検索部が、BLAST、LALIG
    N、ALIGN、およびFASTAから選択される検索
    システムまたはその検索システムと通信回線により接続
    された検索部である、請求項4に記載の装置。
  8. 【請求項8】生物2のゲノム上において、5’側の一番
    上流に位置する相同性領域の更に5’側上流にある領域
    および3’側の一番下流に位置する相同性領域の更に
    3’側下流にある領域を決定する末端部分決定部を更に
    含んでなる、請求項3または4に記載の装置。
  9. 【請求項9】演算部において、v(k)が下記式で表さ
    れる、請求項1〜8のいずれか一項に記載の装置。
  10. 【請求項10】ジャンクション候補抽出部において、配
    列iおよび配列jがGT−AGルールに従って抽出され
    る、請求項の1〜9のいずれか一項に記載の装置。
  11. 【請求項11】miおよびmjがそれぞれ20であり、
    myijが40である、請求項の1〜10のいずれか一
    項に記載の装置。
  12. 【請求項12】生物1および生物2が、遺伝子の存在お
    よび/または相同性に関して高度な相関関係にある、請
    求項1〜11のいずれか一項に記載の装置。
  13. 【請求項13】生物1および生物2が真核生物である、
    請求項12に記載の装置。
  14. 【請求項14】生物1および生物2が哺乳動物である、
    請求項12に記載の装置。
  15. 【請求項15】生物1がマウスであり、生物2がヒトで
    ある、請求項14に記載の装置。
  16. 【請求項16】生物1がヒトであり、生物2がマウスで
    ある、請求項14に記載の装置。
  17. 【請求項17】ゲノム上の遺伝子領域内においてエキソ
    ンイントロンジャンクションを予測し、同定し、または
    決定するプログラムを記録したコンピュータ読みとり可
    能な記録媒体であって、 生物1の全長cDNA配列またはその一部分(断片A
    B)に対応する生物2のゲノム上の遺伝子領域(断片a
    b)において、重複しない塩基数10以上の2つの配列
    を抽出する手順と(ここで、断片ab中において5’末
    端側に存在する配列をiとし、3’末端側に存在する配
    列をjとする)、 抽出された配列iおよび配列jについて下記式で表され
    るs(i,j)を計算する手順と、 s(i,j)=s(x,yij)-C{(b-j)+(i-a)-(B-A)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b−jは、生物2の遺伝子領域の3’末端から配列jの
    5’末端までの塩基数を表し、 i−aは、生物2の遺伝子領域の5’末端から配列iの
    3’末端までの塩基数を表し、 B−Aは、生物1のcDNAの塩基数を表し、 Cは、比例係数であり、0〜10であり、 v(k)は、xおよびyijのオーバーラップスコアを
    表し、ここで、xは生物1のcDNA配列であり、yi
    jは配列iおよびjを連続してなる断片であり、kは1
    〜myijの整数を表し、 Mはxとyijとのマトリックスを表し、ここで、xの
    a番目の塩基がyijのb番目の塩基と同じときにはM
    (a,b)=1であり、xのa番目の塩基がyijのb
    番目の塩基と異なるときにはM(a,b)=0であり、 miは配列iの塩基数を表し、mi≧10であり、 mjは配列jの塩基数を表し、mj≧10であり、 myijは配列yijの塩基数を表し、myij≧20
    である。) 得られたs(i,j)が最大となるように配列iおよび
    配列jの組合せを選択し、エキソンイントロンジャンク
    ションの位置を決定する手順とを実行させるプログラム
    を記録したコンピュータ読みとり可能な記録媒体。
  18. 【請求項18】ゲノム上の遺伝子領域内においてエキソ
    ンイントロンジャンクションを予測し、同定し、または
    決定するプログラムを記録したコンピュータ読みとり可
    能な記録媒体であって、 生物1の全長cDNA配列またはその一部分(断片A
    B)に対応する生物2のゲノム上の遺伝子領域(断片a
    b)(ここで、生物1のcDNA配列またはその一部分
    と、それに対応する生物2のゲノム上の遺伝子領域と
    が、それぞれ対応する二つの相同性領域に挟まれてお
    り、生物1のcDNA配列における相同性領域がA1A
    2、B1B2であり、生物2のゲノム上の相同性領域が
    a1a2、b1b2であり、A1A2はa1a2と、B
    1B2はb1b2とそれぞれ相同性を有する)内のa1
    a2とb1b2とに挟まれる領域内において、重複しな
    い塩基数10以上の2つの配列を抽出する手順と(ここ
    で、断片ab中において5’末端側に存在する配列をi
    とし、3’末端側に存在する配列をjとする)、 抽出された配列iおよび配列jについて下記式で表され
    るs(i,j)を計算する手順と、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
    までの塩基数を表し、 i−a2は、a1a2の5’末端から配列iの3’末端
    までの塩基数を表し、 B1−A2は、A1A2の3’末端からB1B2の5’
    末端までの塩基数を表し、 Cは、比例係数であり、0〜10であり、 v(k)は、xおよびyijのオーバーラップスコアを
    表し、ここで、xは生物1のcDNA配列であり、yi
    jは配列iおよびjを連続してなる断片であり、kは1
    〜myijの整数を表し、 Mはxとyijとのマトリックスを表し、ここで、xの
    a番目の塩基がyijのb番目の塩基と同じときにはM
    (a,b)=1であり、xのa番目の塩基がyijのb
    番目の塩基と異なるときにはM(a,b)=0であり、 miは配列iの塩基数を表し、mi≧10であり、 mjは配列jの塩基数を表し、mj≧10であり、 myijは配列yijの塩基数を表し、myij≧20
    である。) 得られたs(i,j)が最大となるように配列iおよび
    配列jの組合せを選択し、エキソンイントロンジャンク
    ションの位置を決定する手順とを実行させるプログラム
    を記録したコンピュータ読みとり可能な記録媒体。
  19. 【請求項19】ゲノム上のcDNA領域を予測し、同定
    し、または決定するプログラムを記録したコンピュータ
    読みとり可能な記録媒体であって、 生物1から得られた全長cDNAまたはその一部の配列
    データと、生物2の全ゲノムまたはその一部の配列デー
    タと、生物1のcDNA配列および生物2のゲノム配列
    上における相同性領域の位置リストとに基づいて(ここ
    で、生物1のcDNA配列またはその一部分および生物
    2のゲノム上の遺伝子領域上には、それぞれ対応する二
    以上の相同性領域が存在し、隣り合う相同性領域それぞ
    れにおいて、生物1のcDNA配列における相同性領域
    がA1A2、B1B2であり、生物2のゲノム上の相同
    性領域がa1a2、b1b2であり、A1A2はa1a
    2と、B1B2はb1b2とそれぞれ相同性を有す
    る)、生物2のゲノム上において隣り合う相同性領域に
    挟まれた領域それぞれにおいて、重複しない塩基数10
    以上の2つの配列を抽出する手順と(ここで、隣り合う
    相同性領域に挟まれた領域中それぞれにおいて5’末端
    側に存在する配列をiとし、3’末端側に存在する配列
    をjとする)、 隣り合う相同性領域に挟まれた領域それぞれについて、
    抽出された配列iおよび配列jについて下記式で表され
    るs(i,j)を計算する手順と、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
    までの塩基数を表し、 i−a2は、a1a2の5’末端から配列iの3’末端
    までの塩基数を表し、 B1−A2は、A1A2の3’末端からB1B2の5’
    末端までの塩基数を表し、 Cは、比例係数であり、0〜10であり、 v(k)は、xおよびyijのオーバーラップスコアを
    表し、ここで、xは生物1のcDNA配列であり、yi
    jは配列iおよびjを連続してなる断片であり、kは1
    〜myijの整数を表し、 Mはxとyijとのマトリックスを表し、ここで、xの
    a番目の塩基がyijのb番目の塩基と同じときにはM
    (a,b)=1であり、xのa番目の塩基がyijのb
    番目の塩基と異なるときにはM(a,b)=0であり、 miは配列iの塩基数を表し、mi≧10であり、 mjは配列jの塩基数を表し、mj≧10であり、 myijは配列yijの塩基数を表し、myij≧20
    である。) 隣り合う相同性領域に挟まれた領域それぞれについて、
    得られたs(i,j)が最大となるように配列iおよび
    配列jの組合せを選択する手順と、 隣り合う相同性領域に挟まれた領域それぞれについて決
    定されたエキソンイントロンジャンクションの位置に従
    って生物2のゲノム配列からイントロン配列を切り出
    し、残った配列を連結することによりcDNA配列を決
    定する手順とを実行させるプログラムを記録したコンピ
    ュータ読みとり可能な記録媒体。
  20. 【請求項20】ゲノム上のcDNA領域を予測し、同定
    し、または決定するプログラムを記録したコンピュータ
    読みとり可能な記録媒体であって、 生物1から得られた全長cDNAまたはその一部の配列
    データと、生物2の全ゲノムまたはその一部の配列デー
    タとに基づいて、生物1の全長cDNAまたはその一部
    に相同な生物2のゲノム上の領域を相同性検索する手順
    と、 得られた生物2のゲノム上の相同性領域について組合せ
    を作成する手順と、 得られた組合せからcDNA配列として存在し得ない組
    合せを除く手順と、 得られた組合せのうち組合せがカバーするゲノム上の範
    囲が最大のものを選択し、相同性領域の位置リストを作
    成する手順と(ここで、生物1のcDNA配列またはそ
    の一部分および生物2のゲノム上の遺伝子領域上には、
    それぞれ対応する二以上の相同性領域が存在し、隣り合
    う相同性領域それぞれにおいて、生物1のcDNA配列
    における相同性領域がA1A2、B1B2であり、生物
    2のゲノム上の相同性領域がa1a2、b1b2であ
    り、A1A2はa1a2と、B1B2はb1b2とそれ
    ぞれ相同性を有する)、 生物2のゲノム上において隣り合う相同性領域に挟まれ
    た領域それぞれにおいて、重複しない塩基数10以上の
    2つの配列を抽出する手順と(ここで、隣り合う相同性
    領域に挟まれた領域中それぞれにおいて5’末端側に存
    在する配列をiとし、3’末端側に存在する配列をjと
    する)、 隣り合う相同性領域に挟まれた領域それぞれについて、
    抽出された配列iおよび配列jについて下記式で表され
    るs(i,j)を計算する手順と、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
    までの塩基数を表し、 i−a2は、a1a2の5’末端から配列iの3’末端
    までの塩基数を表し、 B1−A2は、A1A2の3’末端からB1B2の5’
    末端までの塩基数を表し、 Cは、比例係数であり、0〜10であり、 v(k)は、xおよびyijのオーバーラップスコアを
    表し、ここで、xは生物1のcDNA配列であり、yi
    jは配列iおよびjを連続してなる断片であり、kは1
    〜myijの整数を表し、 Mはxとyijとのマトリックスを表し、ここで、xの
    a番目の塩基がyijのb番目の塩基と同じときにはM
    (a,b)=1であり、xのa番目の塩基がyijのb
    番目の塩基と異なるときにはM(a,b)=0であり、 miは配列iの塩基数を表し、mi≧10であり、 mjは配列jの塩基数を表し、mj≧10であり、 myijは配列yijの塩基数を表し、myij≧20
    である。) 隣り合う相同性領域に挟まれた領域それぞれについて、
    得られたs(i,j)が最大となるように配列iおよび
    配列jの組合せを選択する手順と、 隣り合う相同性領域に挟まれた領域それぞれについて決
    定されたエキソンイントロンジャンクションの位置に従
    って生物2のゲノム配列からイントロン配列を切り出
    し、残った配列を連結することによりcDNA配列を決
    定する手順とを実行させるプログラムを記録したコンピ
    ュータ読みとり可能な記録媒体。
  21. 【請求項21】得られた組合せのうちcDNA配列とし
    て存在し得ない組合せが下記からなる、請求項20に記
    載の記録媒体。 ・2以上の生物2の相同性領域が対応する生物1の相同
    性領域が同一である組合せ、 ・生物2の2以上の相同性領域の順序が生物1の相同性
    領域のそれと逆になっている組合せ、および ・生物2の2以上の相同性領域の向きが逆になっている
    組合せ
  22. 【請求項22】生物2のゲノム上の領域の相同性検索す
    る手順において、相同性検索が確率10−50以下で実
    施される、請求項20に記載の記録媒体。
  23. 【請求項23】生物2のゲノム上の領域の相同性検索す
    る手順が、BLAST、LALIGN、ALIGN、お
    よびFASTAから選択される検索システムにより相同
    性検索する手順を含んでなることを特徴とする、請求項
    20に記載の記録媒体。
  24. 【請求項24】生物2のゲノム上において、5’側の一
    番上流に位置する相同性領域の更に5’側上流にある領
    域および3’側の一番下流に位置する相同性領域の更に
    3’側下流にある領域を決定する手順を更に含んでな
    る、請求項19または20に記載の記録媒体。
  25. 【請求項25】v(k)が下記式で表される、請求項1
    7〜24のいずれか一項に記載の記録媒体。
  26. 【請求項26】配列iおよび配列jの抽出手順におい
    て、配列iおよび配列jがGT−AGルールに従って抽
    出される、請求項の17〜25のいずれか一項に記載の
    記録媒体。
  27. 【請求項27】s(i,j)の計算手順において、mi
    およびmjがそれぞれ20であり、myijが40であ
    る、請求項の17〜26のいずれか一項に記載の記録媒
    体。
  28. 【請求項28】生物1および生物2が、遺伝子の存在お
    よび/または相同性に関して高度な相関関係にある、請
    求項17〜27のいずれか一項に記載の記録媒体。
  29. 【請求項29】生物1および生物2が真核生物である、
    請求項28に記載の記録媒体。
  30. 【請求項30】生物1および生物2が哺乳動物である、
    請求項28に記載の記録媒体。
  31. 【請求項31】生物1がマウスであり、生物2がヒトで
    ある、請求項30に記載の記録媒体。
  32. 【請求項32】生物1がヒトであり、生物2がマウスで
    ある、請求項30に記載の記録媒体。
  33. 【請求項33】ゲノム上の遺伝子領域内においてエキソ
    ンイントロンジャンクションを予測し、同定し、または
    決定する方法であって、 生物1の全長cDNA配列またはその一部分(断片A
    B)と、それに対応する生物2のゲノム上の遺伝子領域
    (断片ab)とを準備し、 断片abにおいて重複しない塩基数10以上の2つの配
    列を抽出し(ここで、断片ab中において5’末端側に
    存在する配列をiとし、3’末端側に存在する配列をj
    とする)、 抽出された配列iおよび配列jについて下記式で表され
    るs(i,j)を計算し、 s(i,j)=s(x,yij)-C{(b-j)+(i-a)-(B-A)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b−jは、生物2の遺伝子領域の3’末端から配列jの
    5’末端までの塩基数を表し、 i−aは、生物2の遺伝子領域の5’末端から配列iの
    3’末端までの塩基数を表し、 B−Aは、生物1のcDNAの塩基数を表し、 Cは、比例係数であり、0〜10であり、 v(k)は、xおよびyijのオーバーラップスコアを
    表し、ここで、xは生物1のcDNA配列であり、yi
    jは配列iおよびjを連続してなる断片であり、kは1
    〜myijの整数を表し、 Mはxとyijとのマトリックスを表し、ここで、xの
    a番目の塩基がyijのb番目の塩基と同じときにはM
    (a,b)=1であり、xのa番目の塩基がyijのb
    番目の塩基と異なるときにはM(a,b)=0であり、 miは配列iの塩基数を表し、mi≧10であり、 mjは配列jの塩基数を表し、mj≧10であり、 myijは配列yijの塩基数を表し、myij≧20
    である。) 得られたs(i,j)が最大となるように配列iおよび
    配列jの組合せを選択し、エキソンイントロンジャンク
    ションの位置を決定する工程を含んでなる方法。
  34. 【請求項34】ゲノム上の遺伝子領域内においてエキソ
    ン−イントロンジャンクションを予測し、同定し、また
    は決定する方法であって、 生物1の全長cDNA配列またはその一部分(断片A
    B)と、それに対応する生物2のゲノム上の遺伝子領域
    (断片ab)とを準備し(ここで、生物1のcDNA配
    列またはその一部分と、それに対応する生物2のゲノム
    上の遺伝子領域とが、それぞれ対応する二つの相同性領
    域に挟まれており、生物1のcDNA配列における相同
    性領域がA1A2、B1B2であり、生物2のゲノム上
    の相同性領域がa1a2、b1b2であり、A1A2は
    a1a2と、B1B2はb1b2とそれぞれ相同性を有
    する)、 生物2の遺伝子領域内のa1a2とb1b2とに挟まれ
    る領域内において、重複しない塩基数10以上の2つの
    配列を抽出し(ここで、断片ab中において5’末端側
    に存在する配列をiとし、3’末端側に存在する配列を
    jとする)、 抽出された配列iおよび配列jについて下記式で表され
    るs(i,j)を計算し、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
    までの塩基数を表し、 i−a2は、a1a2の5’末端から配列iの3’末端
    までの塩基数を表し、 B1−A2は、A1A2の3’末端からB1B2の5’
    末端までの塩基数を表し、 Cは、比例係数であり、0〜10であり、 v(k)は、xおよびyijのオーバーラップスコアを
    表し、ここで、xは生物1のcDNA配列であり、yi
    jは配列iおよびjを連続してなる断片であり、kは1
    〜myijの整数を表し、 Mはxとyijとのマトリックスを表し、ここで、xの
    a番目の塩基がyijのb番目の塩基と同じときにはM
    (a,b)=1であり、xのa番目の塩基がyijのb
    番目の塩基と異なるときにはM(a,b)=0であり、 miは配列iの塩基数を表し、mi≧10であり、 mjは配列jの塩基数を表し、mj≧10であり、 myijは配列yijの塩基数を表し、myij≧20
    である。) 得られたs(i,j)が最大となるように配列iおよび
    配列jの組合せを選択し、エキソンイントロンジャンク
    ションの位置を決定する工程を含んでなる方法。
  35. 【請求項35】ゲノム上のcDNA領域を予測し、同定
    し、または決定する方法であって、 生物1から得られた全長cDNAまたはその一部の配列
    データと、生物2の全ゲノムまたはその一部の配列デー
    タと、生物1のcDNA配列および生物2のゲノム配列
    上における相同性領域の位置リストと準備し(ここで、
    生物1のcDNA配列またはその一部分および生物2の
    ゲノム上の遺伝子領域上には、それぞれ対応する二以上
    の相同性領域が存在し、隣り合う相同性領域それぞれに
    おいて、生物1のcDNA配列における相同性領域がA
    1A2、B1B2であり、生物2のゲノム上の相同性領
    域がa1a2、b1b2であり、A1A2はa1a2
    と、B1B2はb1b2とそれぞれ相同性を有する)、 隣り合う相同性領域に挟まれた領域それぞれにおいて、
    重複しない塩基数10以上の2つの配列を抽出し(ここ
    で、隣り合う相同性領域に挟まれた領域中それぞれにお
    いて5’末端側に存在する配列をiとし、3’末端側に
    存在する配列をjとする)、 隣り合う相同性領域に挟まれた領域それぞれについて、
    抽出された配列iおよび配列jについて下記式で表され
    るs(i,j)を計算し、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
    までの塩基数を表し、 i−a2は、a1a2の5’末端から配列iの3’末端
    までの塩基数を表し、 B1−A2は、A1A2の3’末端からB1B2の5’
    末端までの塩基数を表し、 Cは、比例係数であり、0〜10であり、 v(k)は、xおよびyijのオーバーラップスコアを
    表し、ここで、xは生物1のcDNA配列であり、yi
    jは配列iおよびjを連続してなる断片であり、kは1
    〜myijの整数を表し、 Mはxとyijとのマトリックスを表し、ここで、xの
    a番目の塩基がyijのb番目の塩基と同じときにはM
    (a,b)=1であり、xのa番目の塩基がyijのb
    番目の塩基と異なるときにはM(a,b)=0であり、 miは配列iの塩基数を表し、mi≧10であり、 mjは配列jの塩基数を表し、mj≧10であり、 myijは配列yijの塩基数を表し、myij≧20
    である。) 隣り合う相同性領域に挟まれた領域それぞれについて、
    得られたs(i,j)が最大となるように配列iおよび
    配列jの組合せを選択し、 隣り合う相同性領域に挟まれた領域それぞれについて決
    定されたエキソンイントロンジャンクションの位置に従
    って生物2のゲノム配列からイントロン配列を切り出
    し、残った配列を連結することによりcDNA配列を決
    定する工程を含んでなる方法。
  36. 【請求項36】ゲノム上のcDNA領域を予測し、同定
    し、または決定する方法であって、 生物1から得られた全長cDNAまたはその一部の配列
    データと、生物2の全ゲノムまたはその一部の配列デー
    タとを準備し、 生物1の全長cDNAまたはその一部に相同な生物2の
    ゲノム上の領域を相同性検索し、 得られた生物2のゲノム上の相同性領域について組合せ
    を作成し、 得られた組合せからcDNA配列として存在し得ない組
    合せを除き、 得られた組合せのうち組合せがカバーするゲノム上の範
    囲が最大のものを選択し、相同性領域の位置リストを作
    成し(ここで、生物1のcDNA配列またはその一部分
    および生物2のゲノム上の遺伝子領域上には、それぞれ
    対応する二以上の相同性領域が存在し、隣り合う相同性
    領域それぞれにおいて、生物1のcDNA配列における
    相同性領域がA1A2、B1B2であり、生物2のゲノ
    ム上の相同性領域がa1a2、b1b2であり、A1A
    2はa1a2と、B1B2はb1b2とそれぞれ相同性
    を有する)、 隣り合う相同性領域に挟まれた領域それぞれにおいて、
    重複しない塩基数10以上の2つの配列を抽出し(ここ
    で、隣り合う相同性領域に挟まれた領域中それぞれにお
    いて5’末端側に存在する配列をiとし、3’末端側に
    存在する配列をjとする)、 隣り合う相同性領域に挟まれた領域それぞれについて、
    抽出された配列iおよび配列jについて下記式で表され
    るs(i,j)を計算し、 s(i,j)=s(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I) (上記式中、s(x,yij)=max(v(k)) (II)であり、 b1−jは、b1b2の5’末端から配列jの5’末端
    までの塩基数を表し、 i−a2は、a1a2の5’末端から配列iの3’末端
    までの塩基数を表し、 B1−A2は、A1A2の3’末端からB1B2の5’
    末端までの塩基数を表し、 Cは、比例係数であり、0〜10であり、 v(k)は、xおよびyijのオーバーラップスコアを
    表し、ここで、xは生物1のcDNA配列であり、yi
    jは配列iおよびjを連続してなる断片であり、kは1
    〜myijの整数を表し、 Mはxとyijとのマトリックスを表し、ここで、xの
    a番目の塩基がyijのb番目の塩基と同じときにはM
    (a,b)=1であり、xのa番目の塩基がyijのb
    番目の塩基と異なるときにはM(a,b)=0であり、 miは配列iの塩基数を表し、mi≧10であり、 mjは配列jの塩基数を表し、mj≧10であり、 myijは配列yijの塩基数を表し、myij≧20
    である。) 隣り合う相同性領域に挟まれた領域それぞれについて、
    得られたs(i,j)が最大となるように配列iおよび
    配列jの組合せを選択し、 隣り合う相同性領域に挟まれた領域それぞれについて決
    定されたエキソンイントロンジャンクションの位置に従
    って生物2のゲノム配列からイントロン配列を切り出
    し、残った配列を連結することによりcDNA配列を決
    定する工程を含んでなる方法。
JP33856099A 1999-11-29 1999-11-29 エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法 Expired - Fee Related JP3584275B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP33856099A JP3584275B2 (ja) 1999-11-29 1999-11-29 エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法
CA002395055A CA2395055A1 (en) 1999-11-29 2000-11-29 Exson-intron junction determining device, genetic region determining device, and determining method for them
EP00977998A EP1258811A1 (en) 1999-11-29 2000-11-29 Exson-intron junction determining device, genetic region determining device, and determining method for them
US10/148,322 US20040219522A1 (en) 1999-11-29 2000-11-29 Exson-intron junction determining device, genetic region determining device, and determining method for them
PCT/JP2000/008402 WO2001040969A1 (fr) 1999-11-29 2000-11-29 Dispositif de determination de jonctions exson-introns, dispositif de determination de regions genetiques, et procedes de determination associes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33856099A JP3584275B2 (ja) 1999-11-29 1999-11-29 エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法

Publications (2)

Publication Number Publication Date
JP2001155009A true JP2001155009A (ja) 2001-06-08
JP3584275B2 JP3584275B2 (ja) 2004-11-04

Family

ID=18319337

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33856099A Expired - Fee Related JP3584275B2 (ja) 1999-11-29 1999-11-29 エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法

Country Status (5)

Country Link
US (1) US20040219522A1 (ja)
EP (1) EP1258811A1 (ja)
JP (1) JP3584275B2 (ja)
CA (1) CA2395055A1 (ja)
WO (1) WO2001040969A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10308940B2 (en) 2014-06-10 2019-06-04 Erasmus University Medical Center Rotterdam Antisense oligonucleotides useful in treatment of Pompe disease
EP3155128B1 (en) 2014-06-10 2019-05-15 Erasmus University Medical Center Rotterdam Methods for characterizing alternatively or aberrantly spliced mrna isoforms
AU2015416656B2 (en) 2015-12-07 2023-02-23 Erasmus University Medical Center Rotterdam Enzymatic replacement therapy and antisense therapy for Pompe disease
NL2017295B1 (en) 2016-08-05 2018-02-14 Univ Erasmus Med Ct Rotterdam Antisense oligomeric compound for Pompe disease
NL2017294B1 (en) 2016-08-05 2018-02-14 Univ Erasmus Med Ct Rotterdam Natural cryptic exon removal by pairs of antisense oligonucleotides.
NL2019517B1 (en) 2017-09-08 2019-03-19 Univ Erasmus Med Ct Rotterdam New therapy for Pompe disease

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324738A (ja) * 1992-05-20 1993-12-07 Fujitsu Ltd 遺伝子データベースの相同性分類方法
JPH10222486A (ja) * 1997-01-31 1998-08-21 Kagaku Gijutsu Shinko Jigyodan 蛋白質の機能部位予測方法と機能部位予測装置 並びに蛋白質の機能改良方法
JPH10334104A (ja) * 1997-03-31 1998-12-18 Hitachi Ltd Dna塩基配列比較方法
JPH11187885A (ja) * 1997-12-26 1999-07-13 Mitsubishi Kagaku Bio Clinical Laboratories Inc 新規なdna及びその検出方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324738A (ja) * 1992-05-20 1993-12-07 Fujitsu Ltd 遺伝子データベースの相同性分類方法
JPH10222486A (ja) * 1997-01-31 1998-08-21 Kagaku Gijutsu Shinko Jigyodan 蛋白質の機能部位予測方法と機能部位予測装置 並びに蛋白質の機能改良方法
JPH10334104A (ja) * 1997-03-31 1998-12-18 Hitachi Ltd Dna塩基配列比較方法
JPH11187885A (ja) * 1997-12-26 1999-07-13 Mitsubishi Kagaku Bio Clinical Laboratories Inc 新規なdna及びその検出方法

Also Published As

Publication number Publication date
US20040219522A1 (en) 2004-11-04
JP3584275B2 (ja) 2004-11-04
EP1258811A1 (en) 2002-11-20
WO2001040969A1 (fr) 2001-06-07
CA2395055A1 (en) 2001-06-07

Similar Documents

Publication Publication Date Title
De Coster et al. Towards population-scale long-read sequencing
US10600217B2 (en) Methods for the graphical representation of genomic sequence data
Salamov et al. Ab initio gene finding in Drosophila genomic DNA
Nagaraj et al. A hitchhiker's guide to expressed sequence tag (EST) analysis
US20170198351A1 (en) Systems and methods for analyzing circulating tumor dna
US20180143914A1 (en) Method and system for genomic visualization
US20040236518A1 (en) Method and apparatus for comining gene predictions using bayesian networks
WO2015123269A1 (en) System and methods for analyzing sequence data
Voshall et al. Next-generation transcriptome assembly: strategies and performance analysis
Han et al. Novel algorithms for efficient subsequence searching and mapping in nanopore raw signals towards targeted sequencing
US20220254444A1 (en) Systems and methods for detecting recombination
CN112592969A (zh) 一种遗传性主动脉疾病及相关基因的检测方法、装置和存储介质
WO2018060365A1 (en) Genomic variant ranking system for clinical trial matching
JP3584275B2 (ja) エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法
JP2016224865A (ja) 系統樹を構築する装置、方法およびシステム
JP2005176730A (ja) cDNA配列をゲノム配列にマッピングする方法
JP2005176730A6 (ja) cDNA配列をゲノム配列にマッピングする方法
JP2022549823A (ja) キットおよびキットの使用方法
Cui et al. Homology search for genes
US20170132361A1 (en) Sequence assembly method
Roddy et al. nail: software for high-speed, high-sensitivity protein sequence annotation
Li et al. Prediction and functional analysis of single nucleotide polymorphisms
Marth Computational SNP discovery in DNA sequence data
US20220223228A1 (en) Method and device for predicting genotype using ngs data
Cottrell Advantages and Drawbacks of Next Generation Sequencing

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040706

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees