JP3584275B2 - エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法 - Google Patents
エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法 Download PDFInfo
- Publication number
- JP3584275B2 JP3584275B2 JP33856099A JP33856099A JP3584275B2 JP 3584275 B2 JP3584275 B2 JP 3584275B2 JP 33856099 A JP33856099 A JP 33856099A JP 33856099 A JP33856099 A JP 33856099A JP 3584275 B2 JP3584275 B2 JP 3584275B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- organism
- yij
- bases
- regions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Complex Calculations (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Description
【0001】
【発明の背景】
発明の分野
本発明はエキソンイントロンジャンクションを決定する装置およびゲノム上の遺伝子配列、具体的にはcDNA領域、を決定する装置並びにこれらの決定方法に関する。
【0002】
関連技術
DNAの塩基配列の中からエキソンを予測するプログラムとして、Grail、Grail2、Genscanが知られている。これらの予測プログラムによるとある遺伝子配列の一部のヌクレオチド配列を予測することができるが、遺伝子全体のヌクレオチド配列あるいはアミノ酸配列を予測することは困難であった。更にこれらのプログラムは計算機による学習方法を利用しており、ヌクレオチド配列のデータ量が多くなれば予測に要する時間も増加する。また、エキソンの予測率は70%程度、特に遺伝子の中のタンパク質の生成に関わる開始コドンの予測率は40%程度と低いのが現状であった。
【0003】
一方、ヒトゲノムプロジェクトが進行するにつれヒトゲノムからヒト遺伝子、具体的にはcDNA配列、を効率的かつ高精度で同定する方法が求められている。
【0004】
【発明の概要】
本発明者らは、今般、ゲノム上の遺伝子領域においてエキソンイントロンジャンクションを効率的かつ高精度で同定する方法を見いだした。本発明者らは、また、ある生物の完全長cDNAのヌクレオチド情報に基づいて、遺伝子領域が不明な生物のDNA配列中において相同性領域を決定する方法を見いだした。
【0005】
本発明は、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定する装置の提供をその目的とする。
【0006】
本発明は、ゲノム上のcDNA領域を効率よく、かつ高精度で予測し、同定し、および決定する装置の提供をその目的とする。
【0007】
本発明は、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定するプログラムを実行させるコンピュータ読み取り可能な記録媒体の提供をその目的とする。
【0008】
本発明は、ゲノム上のcDNA領域を効率よく、かつ高精度で予測し、同定し、および決定するプログラムを実行させるコンピュータ読み取り可能な記録媒体の提供をその目的とする。
【0009】
本発明は、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定する方法の提供をその目的とする。
【0010】
本発明は、ゲノム上のcDNA領域を効率よく、かつ高精度で予測し、同定し、および決定する方法の提供をその目的とする。
【0011】
本発明の第一の態様によれば、
ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定する装置であって、
生物1の全長cDNA配列またはその一部分(断片AB)と、それに対応する生物2のゲノム上の遺伝子領域(断片ab)とを入力する入力部と、
入力された断片abにおいて重複しない塩基数10以上の2つの配列を抽出するジャンクション候補抽出部(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)と、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b-j)+(i-a)-(B-A)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b−jは、生物2の遺伝子領域の3’末端から配列jの5’末端までの塩基数を表し、
i−aは、生物2の遺伝子領域の5’末端から配列iの3’末端までの塩基数を表し、
B−Aは、生物1のcDNAの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択するジャンクション決定部と
決定されたエキソンイントロンジャンクションの位置を出力する出力部と
を含んでなる装置が提供される。
【0012】
本発明の第二の態様によれば、
ゲノム上の遺伝子領域内においてエキソン−イントロンジャンクションを予測し、同定し、または決定する装置であって、
生物1の全長cDNA配列またはその一部分(断片AB)と、それに対応する生物2のゲノム上の遺伝子領域(断片ab)とを入力する入力部と(ここで、生物1のcDNA配列またはその一部分と、それに対応する生物2のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、
生物2の遺伝子領域内のa1a2とb1b2とに挟まれる領域内において、重複しない塩基数10以上の2つの配列を抽出するジャンクション候補抽出部と(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択するジャンクション決定部と
決定されたエキソンイントロンジャンクションの位置を出力する出力部と
を含んでなる装置が提供される。
【0013】
本発明の第三の態様によれば、
ゲノム上のcDNA領域を予測し、同定し、または決定する装置であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データと、生物1のcDNA配列および生物2のゲノム配列上における相同性領域の位置リストとを入力する入力部(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)と、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出するジャンクション候補抽出部(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)と、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択するジャンクション決定部と
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結してcDNA配列として出力する出力部と
を含んでなる装置が提供される。
【0014】
本発明の第四の態様によれば、
ゲノム上のcDNA領域を予測し、同定し、または決定する装置であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データとを入力する入力部と、
生物1の全長cDNAまたはその一部に相同な生物2のゲノム上の領域を相同性検索する相同検索部と、
得られた生物2のゲノム上の相同性領域について組合せを作成する組合せ候補作成部と、
得られた組合せからcDNA配列として存在し得ない組合せを除く組合せ絞り込み部と、
得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものを選択し、相同性領域の位置リストを作成する組合せ選定部(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)と、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出するジャンクション候補抽出部(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)と、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択するジャンクション決定部と
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結してcDNA配列として出力する出力部と
を含んでなる装置が提供される。
【0015】
本発明の第五の態様によれば、
ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物1の全長cDNA配列またはその一部分(断片AB)に対応する生物2のゲノム上の遺伝子領域(断片ab)において、重複しない塩基数10以上の2つの配列を抽出する手順と(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する手順と、
s(i,j)=s'(x,yij)-C{(b-j)+(i-a)-(B-A)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b−jは、生物2の遺伝子領域の3’末端から配列jの5’末端までの塩基数を表し、
i−aは、生物2の遺伝子領域の5’末端から配列iの3’末端までの塩基数を表し、
B−Aは、生物1のcDNAの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、エキソンイントロンジャンクションの位置を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体が提供される。
【0016】
本発明の第六の態様によれば、
ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物1の全長cDNA配列またはその一部分(断片AB)に対応する生物2のゲノム上の遺伝子領域(断片ab)(ここで、生物1のcDNA配列またはその一部分と、それに対応する生物2のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)内のa1a2とb1b2とに挟まれる領域内において、重複しない塩基数10以上の2つの配列を抽出する手順と(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する手順と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、エキソンイントロンジャンクションの位置を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体が提供される。
【0017】
本発明の第七の態様によれば、
ゲノム上のcDNA領域を予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データと、生物1のcDNA配列および生物2のゲノム配列上における相同性領域の位置リストとに基づいて(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、生物2のゲノム上において隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出する手順と(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する手順と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択する手順と、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりcDNA配列を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体が提供される。
【0018】
本発明の第八の態様によれば、
ゲノム上のcDNA領域を予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データとに基づいて、生物1の全長cDNAまたはその一部に相同な生物2のゲノム上の領域を相同性検索する手順と、
得られた生物2のゲノム上の相同性領域について組合せを作成する手順と、
得られた組合せからcDNA配列として存在し得ない組合せを除く手順と、
得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものを選択し、相同性領域の位置リストを作成する手順と(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、
生物2のゲノム上において隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出する手順と(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する手順と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択する手順と、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりcDNA配列を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体が提供される。
【0019】
本発明の第九の態様によれば、
ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定する方法であって、
生物1の全長cDNA配列またはその一部分(断片AB)と、それに対応する生物2のゲノム上の遺伝子領域(断片ab)とを準備し、
断片abにおいて重複しない塩基数10以上の2つの配列を抽出し(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算し、
s(i,j)=s'(x,yij)-C{(b-j)+(i-a)-(B-A)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b−jは、生物2の遺伝子領域の3’末端から配列jの5’末端までの塩基数を表し、
i−aは、生物2の遺伝子領域の5’末端から配列iの3’末端までの塩基数を表し、
B−Aは、生物1のcDNAの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、エキソンイントロンジャンクションの位置を決定する
工程を含んでなる方法が提供される。
【0020】
本発明の第十の態様によれば、
ゲノム上の遺伝子領域内においてエキソン−イントロンジャンクションを予測し、同定し、または決定する方法であって、
生物1の全長cDNA配列またはその一部分(断片AB)と、それに対応する生物2のゲノム上の遺伝子領域(断片ab)とを準備し(ここで、生物1のcDNA配列またはその一部分と、それに対応する生物2のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、
生物2の遺伝子領域内のa1a2とb1b2とに挟まれる領域内において、重複しない塩基数10以上の2つの配列を抽出し(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算し、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、エキソンイントロンジャンクションの位置を決定する
工程を含んでなる方法が提供される。
【0021】
本発明の第十一の態様によれば、
ゲノム上のcDNA領域を予測し、同定し、または決定する方法であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データと、生物1のcDNA配列および生物2のゲノム配列上における相同性領域の位置リストと準備し(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出し(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算し、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりcDNA配列を決定する
工程を含んでなる方法が提供される。
【0022】
本発明の第十二の態様によれば、
ゲノム上のcDNA領域を予測し、同定し、または決定する装置であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データとを準備し、
生物1の全長cDNAまたはその一部に相同な生物2のゲノム上の領域を相同性検索し、
得られた生物2のゲノム上の相同性領域について組合せを作成し、
得られた組合せからcDNA配列として存在し得ない組合せを除き、
得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものを選択し、相同性領域の位置リストを作成し(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出し(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算し、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりcDNA配列を決定する
工程を含んでなる方法が提供される。
【0023】
本発明の第一および第二の態様の装置によれば、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定することができる。
【0024】
本発明の第三および第四の態様の装置によれば、ゲノム上のcDNA領域を効率よく、かつ高精度で予測し、同定し、および決定することができ、特に遺伝子の一部ではなく、遺伝子領域全体を正確に決定できる点で有利である。
【0025】
本発明の第五および第六の態様の記録媒体によれば、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定することができる。
【0026】
本発明の第七および第八の態様の記録媒体によれば、ゲノム上のcDNA領域を効率よく、かつ高精度で予測し、同定し、および決定することができ、特に遺伝子の一部ではなく、遺伝子領域全体を正確に決定できる点で有利である。
【0027】
本発明の第九および第十の態様の方法によれば、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定することができる。
【0028】
本発明の第十一および第十二の態様の方法によれば、ゲノム上のcDNA領域を効率よく、かつ高精度で予測し、同定し、および決定することができ、特に遺伝子の一部ではなく、遺伝子領域全体を正確に決定できる点で有利である。
【0029】
【発明の具体的説明】
第一の態様および第二の態様
本発明の第一の態様および第二の態様によれば、エキソンイントロンジャンクションを同定する装置が提供される。本発明による装置の第一の態様および第二の態様は図1に示される通りである。これらの装置は、具体的には、コンピュータに基づく装置、すなわちコンピュータシステム、であることができる。
【0030】
まず、入力部においては、生物1の全長cDNA配列またはその一部分(断片AB)と、それに対応する生物2のゲノム上の遺伝子領域(断片ab)を入力する。この点で第一の態様と第二の態様は共通するが、第二の態様においては、入力される生物1のcDNA配列またはその一部分と、それに対応する生物2のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する点で、第一の態様と異なる。それぞれの態様について、入力される生物1のcDNA配列と生物2のゲノム配列との関係を示すと図2および図3の通りである。
【0031】
生物1および生物2は、遺伝子の存在および/または相同性に関して高度な相関関係にあるものから選択でき、生物1および生物2が真核生物(具体的には、哺乳動物)である場合が挙げられる。より具体的には、生物1がマウスであり、生物2がハエである場合、生物1がハエであり、生物2がヒトである場合が挙げられる。生物1および生物2がほ乳類同士の場合には、生物1がマウスであり、生物2がヒトである場合、生物1がヒトであり、生物2がマウスである場合が挙げられる。
【0032】
第二の態様の場合、断片abは生物1に対応する相同性領域に挟まれているが、これらの相同性領域は隣り合っていることが好ましい。隣り合っている生物1に対応する相同性領域に挟まれている場合には、その間にイントロンが一つ存在する可能性が高い。図3は相同性領域が隣り合っており、その間に他の相同性領域が介在しない場合を示している。
【0033】
次にジャンクション候補抽出部においては、生物2のゲノム上において(第一の態様においては断片abにおいて、第二の態様においてはa1a2とb1b2とに挟まれる領域において)、重複しない塩基数10以上(例えば、塩基数10〜30)、好ましくは塩基数20以上、の2つの配列を選択する。ここで、生物2のゲノム上において、5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする(図1および図2参照)。好ましくは、それぞれ20塩基対の配列を選択することができる。
【0034】
配列iおよび配列jはGT−AGルール(Mount, S.M., Nucleic Acid Res. 10:459-472(1982))に従って選択できる。
【0035】
演算部においては、配列iおよび配列jについての関数であるs(i,j)を計算する。
【0036】
式(I)中に存在するs'(x,yij)は、s'(x,yij)=max(v(k)) (II)で算出され、v(k)は
で算出される。
【0037】
以下、xがaagctggagactctctであり、yijがggagaである場合を例にしてs(x,yij)の算出を説明する。この場合、得られるマトリックスは下記の通りである。
【0038】
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0である。
【0039】
例えば、k=2の場合には下記の●印で表される部分のスコアを計算する。
【0040】
v(k)の値は次の通りである。
【0041】
v(1)=0、v(2)=1、v(3)=2、v(4)=2、v(5)=1、v(6)=5、v(7)=1、v(8)=2、v(9)=1、v(10)=0、v(11)=0、v(12)=0。
【0042】
よって、s'(x,yij)=max{0,1,2,2,1,5,1,2,1,0,0,0}であり、s'(x,yij)=5となる。
【0043】
v(k)は好ましくは式(IV)であることができる。
【0044】
修正項「max(ΣM(k-n+p-1,p)×0.5;n=-6〜6)」を式(III)に挿入することにより、v(k)の値をなめらかにして、配列xあるいはyijに塩基の欠失あるいは挿入が生じた場合でも真の最大値を検出することができる。nは重複領域のギャップの数を表し、好ましくは−1〜1であることができる。この場合、v’(k)はv(k)に両隣の項の値のうち大きい方の値の半分を足した値となる。
【0045】
式(I)において、Cは比例係数である。生物1および生物2の同一種の全長配列が既知であるcDNAの組合せおよびそのcDNAを含む生物2のゲノムがはっきりしている組合せを複数準備し、本発明による方法による予測精度が最大となるようにCを決定できる。具体的には、Cは、0〜10、好ましくは、0.5であることができる。
【0046】
式(I)において、myijはmiとmjとを足した値である。myijは、20以上(例えば、20〜60)、好ましくは40以上、の整数である。
【0047】
ジャンクション決定部においては、式(I)で表されるs(i,j)が最大になるように配列iおよび配列jの組合せを選択する。出力部においては、選択された配列iおよび配列jの組合せに基づいてエキソンイントロンジャンクションの位置を出力する。
【0048】
第三の態様
本発明の第三の態様によれば、ゲノム上のcDNA領域を同定する装置が提供される。本発明による装置の第三の態様は図4に示される通りである。この装置は、具体的には、コンピュータに基づく装置、すなわちコンピュータシステム、であることができる。
【0049】
まず入力部において生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データと、生物1のcDNA配列および生物2のゲノム配列上における相同性領域の位置リストとが入力される。相同性領域の位置リストは後述するように相同性検索を実施することにより作成することができる。生物1および生物2は前記と同様にして選択できる。
【0050】
ジャンクション候補抽出部においては、入力された相同性領域の位置リストに基づき、隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出する。隣り合う相同性領域に挟まれた領域が2以上ある場合には、それぞれの領域についてジャンクション候補を抽出する。第三の態様においては、ジャンクション候補抽出部において抽出されたジャンクション候補を一時的に保存する記憶部を備えていてもよい。ある領域におけるジャンクション候補それぞれについてs(i,j)が演算部において計算され、計算されたs(i,j)に基づいてジャンクション決定部において好ましいジャンクションが選択される。ある領域についてジャンクションが特定されると、他の領域について同様にジャンクション候補が抽出され、s(i,j)が計算され、ジャンクションが決定されるステップが繰り返される。
【0051】
エキソンイントロンジャンクションを決定した後、必要であれば、末端部分決定部において5’側の一番上流に位置する相同性領域(例えば、図5の領域I)の更に5’側上流にある遺伝子領域や、3’側の一番下流に位置する相同性領域(例えば、図5の領域IV)の更に3’側下流にある遺伝子領域を決定することによりcDNAの5’末端および3’末端を決定する。cDNAの5’末端および3’末端は、それぞれ生物1の5’側の最上流および3’側の最下流のcDNA上の相同性領域(例えば、図5の領域Iと領域IV)と同じ長さを取り、ベースコールエラー等を除いて生物1のcDNA長と生物2のcDNA長とが異ならないようにすることで決定できる。
【0052】
第三の態様による装置におけるデータ処理をNSチャートにより更に詳しく説明すると図6および図7の通りである。
【0053】
本発明によるcDNAの同定法によれば、ある生物由来の全長cDNAをもとにして、別の生物の全長cDNA配列を決定できる。
【0054】
第四の態様
本発明の第四の態様によれば、ゲノム上のcDNA領域を同定する装置が提供される。本発明による装置の第四の態様は図8に示される通りである。この装置は、具体的には、コンピュータに基づく装置、すなわちコンピュータシステム、であることができる。
【0055】
第四の態様は、第三の態様の入力部が、入力部、相同性検索部、組合せ候補作成部、組合せ候補絞り込み部、および組合せ選定部に置き換わっていることを特徴とする。
【0056】
まず入力部においては、生物1から得られた全長cDNAまたはその一部の配列データと生物2の全ゲノムまたはその一部の配列データが入力される。生物1および生物2は前記と同様にして選択できる。
【0057】
次に相同性検索部においては、生物1の全長cDNAまたはその一部に相同な生物2のゲノム上の領域を相同性検索する。相同性検索の確率は10−50以下、好ましくは、10−100以下 、更に好ましくは、10−200以下、で行うことができる。
【0058】
相同性検索部は、BLAST、LALIGN、ALIGN、またはFASTAから選択される検索システムそのものであっても、これらの検索システムと通信回線等により接続された装置であってもよい。
【0059】
組合せ候補作成部においては、生物1の全長cDNAまたはその一部に相同な生物2のゲノム上の領域を相同性検索して得られた生物2のゲノム上の相同性領域について組合せが作成される。具体的には、それぞれの相同性領域につき存在する場合としない場合を想定して組合せが作成される。相同性領域がq個存在する場合には組合せが2q個作成される。
【0060】
ここで、生物1のcDNA配列と生物2のゲノム配列との間で二つの相同性領域が見いだされたと仮定して、組合せの作成について説明する。図9にあるように、生物2において四種類の相同性領域が見いだされた場合、以下のような16通りの組合せが作成できる。
【0061】
NG:存在し得ない組合せ
組合せ候補絞り込み部においては、作成された組合せからcDNA配列として存在し得ない組合せが除かれる。cDNA配列として存在し得ない組合せとしては下記のものが挙げられる。
【0062】
・2以上の生物2の相同性領域が対応する生物1の相同性領域が同一である組合せ(例えば、上記組合せ(5)および(7))、
・生物2の2以上の相同性領域の順序が生物1の相同性領域のそれと逆になっている組合せ(例えば、上記組合せ(6)および(7))、および
・生物2の2以上の相同性領域の向きが逆になっている組合せ(例えば、上記組合せ(9)〜(15))。
【0063】
DNA配列として存在し得ない組合せとしては、更にまた、複数の相同性領域の間が30bp〜30kbp(高等生物では、例えば、5kbp〜30kbp)離れている組合せが挙げられる。具体的な塩基数は、生物2のゲノム上の遺伝子密度から見積もられる遺伝子間の平均的な間隔より短く(高等生物では30kbpあたり1遺伝子)、イントロンの最短長よりも長くなるように決定できる。
【0064】
組合せ選定部においては、得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものが選択され、選択された相同性領域の位置リストが作成される。上記例では組合せ(3)が好ましい相同性領域の組合せとして選択できる。
【0065】
ジャンクション候補選定部においては、組合せ選定部において作成された相同性領域の位置リストが入力され、既に入力されている生物1のcDNA配列および生物2のゲノム配列に基づいてジャンクションの候補が抽出される。
【0066】
ジャンクション候補抽出部、演算部、ジャンクション決定部、および出力部における処理は第三の態様と同様である。
【0067】
第五の態様ないし第八の態様
上述した第一の態様ないし第三の態様における入力部、ジャンクション候補抽出部、演算部、ジャンクション決定部、出力部、および場合によっては記憶部、並びに第四の態様の入力部、相同性検索部、組合せ候補作成部、組合せ候補絞り込み部、組合せ選定部、ジャンクション候補抽出部、演算部、ジャンクション決定部、出力部、および場合によっては記憶部はいずれも図10に示すようなコンピュータシステム20上で稼働するプログラムモジュールとして実現することができる。このようなプログラムモジュールを含むエキソンイントロンジャンクション決定プログラムあるいはゲノム上のcDNA領域決定プログラムは、記録媒体であるフロッピーディスクまたはCD−ROM(Compact Disk-Read Only Memory)等に記録され、コンピュータシステム20により読み出されて上述したようなエキソンイントロンジャンクションの決定あるいはゲノム上のcDNA領域の決定が行われる。
【0068】
コンピュータシステム20は、図10に示すようにミニタワー等の筐体に収納されたコンピュータ本体21と、CRT(Cathode Ray Tube−陰極線管−)等の表示装置22と、記録出力装置としてのプリンタ23と、入力装置としてのキーボード24aおよびマウス24bと、記録媒体としてのフロッピーディスク31内の情報を読み出すためのフロッピーディスクドライブ装置26と、記録媒体としてのCD−ROM32内の情報を読み出すためのCD−ROMドライブ装置27とを備えている。
【0069】
これらの構成をブロック図として示すと、図11に示すように、コンピュータ本体21が収納された筐体内には、RAM(Random Access Memory)等からなる内部メモリ25と、ハードディスクユニット28等の外部記憶装置がさらに設けられている。なお、エキソンイントロンジャンクション決定プログラムあるいはゲノム上のcDNA領域決定プログラムを記録したフロッピーディスク(記録媒体)31は、図10に示すように、フロッピーディスクドライブ装置26のスロットに挿入されて所定の手順によりコンピュータ本体21にインストールされる。本発明によるプログラムを記録する記録媒体は、フロッピーディスク31に限られず、CD−ROM32や内部メモリ25、ハードディスクユニット28等の他、図示されていないMO(Magnet Optical)ディスクや光ディスク、DVD(Digital Versatile Disk)等であってもよい。
【0070】
例
以下、本発明によりマウスcDNAからヒトゲノム上のcDNA領域を決定した例を示す。
【0071】
20のマウスcDNAをマウスの脳、腎臓細胞、およびC57BL/6マウス18日齢胎児から調製し、配列決定した。
【0072】
相同性検索はBLASTを用いた。相同性検索の確率は10−50に設定した。
【0073】
相同性領域の組合せのうちあり得ない組合せとして下記の組合せを除外した。
【0074】
2以上の生物2の相同性領域が対応する生物1の相同性領域が同一である組合せ、生物2の2以上の相同性領域の順序が生物1の相同性領域のそれと逆になっている組合せ、生物2の2以上の相同性領域の向きが逆になっている組合せ、複数の相同性領域の間が5kbp以上離れている組合せ。
【0075】
エキソンイントロンジャンクションの検出は下記式に従って行った。
【0076】
s(i,j)=s'(x,yij)-0.5×{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v'(k)) (II)であり、
mi=20、mj=20、myij=40であった。)
配列iおよび配列jはGT−AGルールによって選択した。
【0077】
結果は表1および表2の通りであった。
【0078】
【表1】
表1は、マウスタンパク質と決定されたヒトタンパク質との比較を示した図である。aはヒトタンパク質のアミノ酸残基数を、bは予測されたヒトタンパク質のアミノ酸残基数を、cはヒトタンパク質と予測されたヒトタンパク質との間の整列したアミノ酸残基数を、dはマウスタンパク質のアミノ酸残基数を、それぞれ表す。局所的配列の同一性はLALIGN(Huang, X., Hardison, R. C., and Miller, W., 1990, Comput. Appl. Biosci. 6, 373-381)により算出した。
【0079】
20のタンパク質のうち5つのヒト全長タンパク質が本発明による方法により正確に決定された。一方、Genscanは3つのヒト全長タンパク質を正確に決定できただけであり、Grail2は全長タンパク質を正確に決定できなかった(データ省略)。
【0080】
【表2】
表2は、本発明による方法による予測の正確性と、GenscanおよびGrail2による予測の正確性とを比較したものである。表中の正確性(%)は、正確に決定されたアミノ酸残基数を決定された全アミノ酸残基数で割った数であり、不正確性(%)は誤って決定されたアミノ酸残基数を決定された全アミノ酸残基数で割った数である。
【0081】
また、本発明による方法の正確性は83.3%、不正確性は16.7%であり、本発明の方法は、GenscanおよびGrail2と比較して高い正確性および低い不正確性を有する。
【図面の簡単な説明】
【図1】本発明の第一の態様および第二の態様(エキソンイントロンジャンクションの決定)を示した図である。
【図2】準備される生物1のcDNA配列と生物2のゲノム配列との関係を示した図である。
【図3】準備される生物1のcDNA配列と生物2のゲノム配列との関係を示した図である。A1A2とa1a2とは対応する相同性領域である。B1B2とb1b2とは対応する相同性領域である。GT−AGルールに従って配列iおよび配列jを選択している。
【図4】本発明の第三の態様(相同性領域のリストを入力することを特徴とするcDNA領域の決定)を示した図である。
【図5】決定された相同性領域の組合せの例を示した図である。生物2のゲノム上に4個の相同性領域が見いだされている。I〜IVは相同性領域を示す。
【図6】本発明の第三の態様の手順をより具体的に示したNSチャートである。各相同性領域(1〜N)のスプライスサイトの候補、すなわちジャンクション候補、のリストは、図7に記載の手順に用いられる。
【図7】本発明の第三の態様の手順をより具体的に示したNSチャートである。各相同性領域I(I=1〜N)の5’側のスプライスサイトの候補の数をn5(I)、3’側のスプライスサイトの候補の数をn3(I)、5’側のスプライスサイトの候補の位置をm5(I,j)(j=1〜n5(I))、3’側のスプライスサイトの候補の位置をn3(I,i)(i=1〜n3(I))とした。
【図8】本発明の第四の態様(相同性検索ステップを含むことを特徴とするcDNA領域の決定)を示した図である。
【図9】生物1のcDNA配列をもとに生物2のゲノム配列を相同性検索した例を模式的に示した図である。相同性領域は二種類であるが、生物2のゲノム上には4つの相同性領域が見いだされている。
【図10】エキソンイントロンジャンクション決定プログラムあるいはゲノム上のcDNA領域決定プログラムを記録したコンピュータ読み取り可能な記録媒体が用いられるコンピュータシステムを示す斜視図である。
【図11】図10のコンピュータシステムのハードウェア構成を示すブロック図である。
【符号の説明】
20 コンピュータシステム
21 コンピュータ本体
22 表示装置
23 プリンタ
24a 入力装置
24b マウス
25 記録媒体(内部メモリ)
26 フロッピーディスクドライブ装置
27 CD−ROMドライブ装置
28 記録媒体(ハードディスクユニット)
31 記録媒体(フロッピーディスク)
32 記録媒体(CD−ROM)
【発明の背景】
発明の分野
本発明はエキソンイントロンジャンクションを決定する装置およびゲノム上の遺伝子配列、具体的にはcDNA領域、を決定する装置並びにこれらの決定方法に関する。
【0002】
関連技術
DNAの塩基配列の中からエキソンを予測するプログラムとして、Grail、Grail2、Genscanが知られている。これらの予測プログラムによるとある遺伝子配列の一部のヌクレオチド配列を予測することができるが、遺伝子全体のヌクレオチド配列あるいはアミノ酸配列を予測することは困難であった。更にこれらのプログラムは計算機による学習方法を利用しており、ヌクレオチド配列のデータ量が多くなれば予測に要する時間も増加する。また、エキソンの予測率は70%程度、特に遺伝子の中のタンパク質の生成に関わる開始コドンの予測率は40%程度と低いのが現状であった。
【0003】
一方、ヒトゲノムプロジェクトが進行するにつれヒトゲノムからヒト遺伝子、具体的にはcDNA配列、を効率的かつ高精度で同定する方法が求められている。
【0004】
【発明の概要】
本発明者らは、今般、ゲノム上の遺伝子領域においてエキソンイントロンジャンクションを効率的かつ高精度で同定する方法を見いだした。本発明者らは、また、ある生物の完全長cDNAのヌクレオチド情報に基づいて、遺伝子領域が不明な生物のDNA配列中において相同性領域を決定する方法を見いだした。
【0005】
本発明は、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定する装置の提供をその目的とする。
【0006】
本発明は、ゲノム上のcDNA領域を効率よく、かつ高精度で予測し、同定し、および決定する装置の提供をその目的とする。
【0007】
本発明は、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定するプログラムを実行させるコンピュータ読み取り可能な記録媒体の提供をその目的とする。
【0008】
本発明は、ゲノム上のcDNA領域を効率よく、かつ高精度で予測し、同定し、および決定するプログラムを実行させるコンピュータ読み取り可能な記録媒体の提供をその目的とする。
【0009】
本発明は、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定する方法の提供をその目的とする。
【0010】
本発明は、ゲノム上のcDNA領域を効率よく、かつ高精度で予測し、同定し、および決定する方法の提供をその目的とする。
【0011】
本発明の第一の態様によれば、
ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定する装置であって、
生物1の全長cDNA配列またはその一部分(断片AB)と、それに対応する生物2のゲノム上の遺伝子領域(断片ab)とを入力する入力部と、
入力された断片abにおいて重複しない塩基数10以上の2つの配列を抽出するジャンクション候補抽出部(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)と、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b-j)+(i-a)-(B-A)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b−jは、生物2の遺伝子領域の3’末端から配列jの5’末端までの塩基数を表し、
i−aは、生物2の遺伝子領域の5’末端から配列iの3’末端までの塩基数を表し、
B−Aは、生物1のcDNAの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択するジャンクション決定部と
決定されたエキソンイントロンジャンクションの位置を出力する出力部と
を含んでなる装置が提供される。
【0012】
本発明の第二の態様によれば、
ゲノム上の遺伝子領域内においてエキソン−イントロンジャンクションを予測し、同定し、または決定する装置であって、
生物1の全長cDNA配列またはその一部分(断片AB)と、それに対応する生物2のゲノム上の遺伝子領域(断片ab)とを入力する入力部と(ここで、生物1のcDNA配列またはその一部分と、それに対応する生物2のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、
生物2の遺伝子領域内のa1a2とb1b2とに挟まれる領域内において、重複しない塩基数10以上の2つの配列を抽出するジャンクション候補抽出部と(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択するジャンクション決定部と
決定されたエキソンイントロンジャンクションの位置を出力する出力部と
を含んでなる装置が提供される。
【0013】
本発明の第三の態様によれば、
ゲノム上のcDNA領域を予測し、同定し、または決定する装置であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データと、生物1のcDNA配列および生物2のゲノム配列上における相同性領域の位置リストとを入力する入力部(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)と、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出するジャンクション候補抽出部(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)と、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択するジャンクション決定部と
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結してcDNA配列として出力する出力部と
を含んでなる装置が提供される。
【0014】
本発明の第四の態様によれば、
ゲノム上のcDNA領域を予測し、同定し、または決定する装置であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データとを入力する入力部と、
生物1の全長cDNAまたはその一部に相同な生物2のゲノム上の領域を相同性検索する相同検索部と、
得られた生物2のゲノム上の相同性領域について組合せを作成する組合せ候補作成部と、
得られた組合せからcDNA配列として存在し得ない組合せを除く組合せ絞り込み部と、
得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものを選択し、相同性領域の位置リストを作成する組合せ選定部(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)と、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出するジャンクション候補抽出部(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)と、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択するジャンクション決定部と
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結してcDNA配列として出力する出力部と
を含んでなる装置が提供される。
【0015】
本発明の第五の態様によれば、
ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物1の全長cDNA配列またはその一部分(断片AB)に対応する生物2のゲノム上の遺伝子領域(断片ab)において、重複しない塩基数10以上の2つの配列を抽出する手順と(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する手順と、
s(i,j)=s'(x,yij)-C{(b-j)+(i-a)-(B-A)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b−jは、生物2の遺伝子領域の3’末端から配列jの5’末端までの塩基数を表し、
i−aは、生物2の遺伝子領域の5’末端から配列iの3’末端までの塩基数を表し、
B−Aは、生物1のcDNAの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、エキソンイントロンジャンクションの位置を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体が提供される。
【0016】
本発明の第六の態様によれば、
ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物1の全長cDNA配列またはその一部分(断片AB)に対応する生物2のゲノム上の遺伝子領域(断片ab)(ここで、生物1のcDNA配列またはその一部分と、それに対応する生物2のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)内のa1a2とb1b2とに挟まれる領域内において、重複しない塩基数10以上の2つの配列を抽出する手順と(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する手順と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、エキソンイントロンジャンクションの位置を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体が提供される。
【0017】
本発明の第七の態様によれば、
ゲノム上のcDNA領域を予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データと、生物1のcDNA配列および生物2のゲノム配列上における相同性領域の位置リストとに基づいて(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、生物2のゲノム上において隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出する手順と(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する手順と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択する手順と、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりcDNA配列を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体が提供される。
【0018】
本発明の第八の態様によれば、
ゲノム上のcDNA領域を予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データとに基づいて、生物1の全長cDNAまたはその一部に相同な生物2のゲノム上の領域を相同性検索する手順と、
得られた生物2のゲノム上の相同性領域について組合せを作成する手順と、
得られた組合せからcDNA配列として存在し得ない組合せを除く手順と、
得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものを選択し、相同性領域の位置リストを作成する手順と(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、
生物2のゲノム上において隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出する手順と(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する手順と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択する手順と、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりcDNA配列を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体が提供される。
【0019】
本発明の第九の態様によれば、
ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定する方法であって、
生物1の全長cDNA配列またはその一部分(断片AB)と、それに対応する生物2のゲノム上の遺伝子領域(断片ab)とを準備し、
断片abにおいて重複しない塩基数10以上の2つの配列を抽出し(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算し、
s(i,j)=s'(x,yij)-C{(b-j)+(i-a)-(B-A)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b−jは、生物2の遺伝子領域の3’末端から配列jの5’末端までの塩基数を表し、
i−aは、生物2の遺伝子領域の5’末端から配列iの3’末端までの塩基数を表し、
B−Aは、生物1のcDNAの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、エキソンイントロンジャンクションの位置を決定する
工程を含んでなる方法が提供される。
【0020】
本発明の第十の態様によれば、
ゲノム上の遺伝子領域内においてエキソン−イントロンジャンクションを予測し、同定し、または決定する方法であって、
生物1の全長cDNA配列またはその一部分(断片AB)と、それに対応する生物2のゲノム上の遺伝子領域(断片ab)とを準備し(ここで、生物1のcDNA配列またはその一部分と、それに対応する生物2のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、
生物2の遺伝子領域内のa1a2とb1b2とに挟まれる領域内において、重複しない塩基数10以上の2つの配列を抽出し(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算し、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、エキソンイントロンジャンクションの位置を決定する
工程を含んでなる方法が提供される。
【0021】
本発明の第十一の態様によれば、
ゲノム上のcDNA領域を予測し、同定し、または決定する方法であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データと、生物1のcDNA配列および生物2のゲノム配列上における相同性領域の位置リストと準備し(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出し(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算し、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりcDNA配列を決定する
工程を含んでなる方法が提供される。
【0022】
本発明の第十二の態様によれば、
ゲノム上のcDNA領域を予測し、同定し、または決定する装置であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データとを準備し、
生物1の全長cDNAまたはその一部に相同な生物2のゲノム上の領域を相同性検索し、
得られた生物2のゲノム上の相同性領域について組合せを作成し、
得られた組合せからcDNA配列として存在し得ない組合せを除き、
得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものを選択し、相同性領域の位置リストを作成し(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出し(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算し、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりcDNA配列を決定する
工程を含んでなる方法が提供される。
【0023】
本発明の第一および第二の態様の装置によれば、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定することができる。
【0024】
本発明の第三および第四の態様の装置によれば、ゲノム上のcDNA領域を効率よく、かつ高精度で予測し、同定し、および決定することができ、特に遺伝子の一部ではなく、遺伝子領域全体を正確に決定できる点で有利である。
【0025】
本発明の第五および第六の態様の記録媒体によれば、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定することができる。
【0026】
本発明の第七および第八の態様の記録媒体によれば、ゲノム上のcDNA領域を効率よく、かつ高精度で予測し、同定し、および決定することができ、特に遺伝子の一部ではなく、遺伝子領域全体を正確に決定できる点で有利である。
【0027】
本発明の第九および第十の態様の方法によれば、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定することができる。
【0028】
本発明の第十一および第十二の態様の方法によれば、ゲノム上のcDNA領域を効率よく、かつ高精度で予測し、同定し、および決定することができ、特に遺伝子の一部ではなく、遺伝子領域全体を正確に決定できる点で有利である。
【0029】
【発明の具体的説明】
第一の態様および第二の態様
本発明の第一の態様および第二の態様によれば、エキソンイントロンジャンクションを同定する装置が提供される。本発明による装置の第一の態様および第二の態様は図1に示される通りである。これらの装置は、具体的には、コンピュータに基づく装置、すなわちコンピュータシステム、であることができる。
【0030】
まず、入力部においては、生物1の全長cDNA配列またはその一部分(断片AB)と、それに対応する生物2のゲノム上の遺伝子領域(断片ab)を入力する。この点で第一の態様と第二の態様は共通するが、第二の態様においては、入力される生物1のcDNA配列またはその一部分と、それに対応する生物2のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する点で、第一の態様と異なる。それぞれの態様について、入力される生物1のcDNA配列と生物2のゲノム配列との関係を示すと図2および図3の通りである。
【0031】
生物1および生物2は、遺伝子の存在および/または相同性に関して高度な相関関係にあるものから選択でき、生物1および生物2が真核生物(具体的には、哺乳動物)である場合が挙げられる。より具体的には、生物1がマウスであり、生物2がハエである場合、生物1がハエであり、生物2がヒトである場合が挙げられる。生物1および生物2がほ乳類同士の場合には、生物1がマウスであり、生物2がヒトである場合、生物1がヒトであり、生物2がマウスである場合が挙げられる。
【0032】
第二の態様の場合、断片abは生物1に対応する相同性領域に挟まれているが、これらの相同性領域は隣り合っていることが好ましい。隣り合っている生物1に対応する相同性領域に挟まれている場合には、その間にイントロンが一つ存在する可能性が高い。図3は相同性領域が隣り合っており、その間に他の相同性領域が介在しない場合を示している。
【0033】
次にジャンクション候補抽出部においては、生物2のゲノム上において(第一の態様においては断片abにおいて、第二の態様においてはa1a2とb1b2とに挟まれる領域において)、重複しない塩基数10以上(例えば、塩基数10〜30)、好ましくは塩基数20以上、の2つの配列を選択する。ここで、生物2のゲノム上において、5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする(図1および図2参照)。好ましくは、それぞれ20塩基対の配列を選択することができる。
【0034】
配列iおよび配列jはGT−AGルール(Mount, S.M., Nucleic Acid Res. 10:459-472(1982))に従って選択できる。
【0035】
演算部においては、配列iおよび配列jについての関数であるs(i,j)を計算する。
【0036】
式(I)中に存在するs'(x,yij)は、s'(x,yij)=max(v(k)) (II)で算出され、v(k)は
で算出される。
【0037】
以下、xがaagctggagactctctであり、yijがggagaである場合を例にしてs(x,yij)の算出を説明する。この場合、得られるマトリックスは下記の通りである。
【0038】
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0である。
【0039】
例えば、k=2の場合には下記の●印で表される部分のスコアを計算する。
【0040】
v(k)の値は次の通りである。
【0041】
v(1)=0、v(2)=1、v(3)=2、v(4)=2、v(5)=1、v(6)=5、v(7)=1、v(8)=2、v(9)=1、v(10)=0、v(11)=0、v(12)=0。
【0042】
よって、s'(x,yij)=max{0,1,2,2,1,5,1,2,1,0,0,0}であり、s'(x,yij)=5となる。
【0043】
v(k)は好ましくは式(IV)であることができる。
【0044】
修正項「max(ΣM(k-n+p-1,p)×0.5;n=-6〜6)」を式(III)に挿入することにより、v(k)の値をなめらかにして、配列xあるいはyijに塩基の欠失あるいは挿入が生じた場合でも真の最大値を検出することができる。nは重複領域のギャップの数を表し、好ましくは−1〜1であることができる。この場合、v’(k)はv(k)に両隣の項の値のうち大きい方の値の半分を足した値となる。
【0045】
式(I)において、Cは比例係数である。生物1および生物2の同一種の全長配列が既知であるcDNAの組合せおよびそのcDNAを含む生物2のゲノムがはっきりしている組合せを複数準備し、本発明による方法による予測精度が最大となるようにCを決定できる。具体的には、Cは、0〜10、好ましくは、0.5であることができる。
【0046】
式(I)において、myijはmiとmjとを足した値である。myijは、20以上(例えば、20〜60)、好ましくは40以上、の整数である。
【0047】
ジャンクション決定部においては、式(I)で表されるs(i,j)が最大になるように配列iおよび配列jの組合せを選択する。出力部においては、選択された配列iおよび配列jの組合せに基づいてエキソンイントロンジャンクションの位置を出力する。
【0048】
第三の態様
本発明の第三の態様によれば、ゲノム上のcDNA領域を同定する装置が提供される。本発明による装置の第三の態様は図4に示される通りである。この装置は、具体的には、コンピュータに基づく装置、すなわちコンピュータシステム、であることができる。
【0049】
まず入力部において生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データと、生物1のcDNA配列および生物2のゲノム配列上における相同性領域の位置リストとが入力される。相同性領域の位置リストは後述するように相同性検索を実施することにより作成することができる。生物1および生物2は前記と同様にして選択できる。
【0050】
ジャンクション候補抽出部においては、入力された相同性領域の位置リストに基づき、隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出する。隣り合う相同性領域に挟まれた領域が2以上ある場合には、それぞれの領域についてジャンクション候補を抽出する。第三の態様においては、ジャンクション候補抽出部において抽出されたジャンクション候補を一時的に保存する記憶部を備えていてもよい。ある領域におけるジャンクション候補それぞれについてs(i,j)が演算部において計算され、計算されたs(i,j)に基づいてジャンクション決定部において好ましいジャンクションが選択される。ある領域についてジャンクションが特定されると、他の領域について同様にジャンクション候補が抽出され、s(i,j)が計算され、ジャンクションが決定されるステップが繰り返される。
【0051】
エキソンイントロンジャンクションを決定した後、必要であれば、末端部分決定部において5’側の一番上流に位置する相同性領域(例えば、図5の領域I)の更に5’側上流にある遺伝子領域や、3’側の一番下流に位置する相同性領域(例えば、図5の領域IV)の更に3’側下流にある遺伝子領域を決定することによりcDNAの5’末端および3’末端を決定する。cDNAの5’末端および3’末端は、それぞれ生物1の5’側の最上流および3’側の最下流のcDNA上の相同性領域(例えば、図5の領域Iと領域IV)と同じ長さを取り、ベースコールエラー等を除いて生物1のcDNA長と生物2のcDNA長とが異ならないようにすることで決定できる。
【0052】
第三の態様による装置におけるデータ処理をNSチャートにより更に詳しく説明すると図6および図7の通りである。
【0053】
本発明によるcDNAの同定法によれば、ある生物由来の全長cDNAをもとにして、別の生物の全長cDNA配列を決定できる。
【0054】
第四の態様
本発明の第四の態様によれば、ゲノム上のcDNA領域を同定する装置が提供される。本発明による装置の第四の態様は図8に示される通りである。この装置は、具体的には、コンピュータに基づく装置、すなわちコンピュータシステム、であることができる。
【0055】
第四の態様は、第三の態様の入力部が、入力部、相同性検索部、組合せ候補作成部、組合せ候補絞り込み部、および組合せ選定部に置き換わっていることを特徴とする。
【0056】
まず入力部においては、生物1から得られた全長cDNAまたはその一部の配列データと生物2の全ゲノムまたはその一部の配列データが入力される。生物1および生物2は前記と同様にして選択できる。
【0057】
次に相同性検索部においては、生物1の全長cDNAまたはその一部に相同な生物2のゲノム上の領域を相同性検索する。相同性検索の確率は10−50以下、好ましくは、10−100以下 、更に好ましくは、10−200以下、で行うことができる。
【0058】
相同性検索部は、BLAST、LALIGN、ALIGN、またはFASTAから選択される検索システムそのものであっても、これらの検索システムと通信回線等により接続された装置であってもよい。
【0059】
組合せ候補作成部においては、生物1の全長cDNAまたはその一部に相同な生物2のゲノム上の領域を相同性検索して得られた生物2のゲノム上の相同性領域について組合せが作成される。具体的には、それぞれの相同性領域につき存在する場合としない場合を想定して組合せが作成される。相同性領域がq個存在する場合には組合せが2q個作成される。
【0060】
ここで、生物1のcDNA配列と生物2のゲノム配列との間で二つの相同性領域が見いだされたと仮定して、組合せの作成について説明する。図9にあるように、生物2において四種類の相同性領域が見いだされた場合、以下のような16通りの組合せが作成できる。
【0061】
NG:存在し得ない組合せ
組合せ候補絞り込み部においては、作成された組合せからcDNA配列として存在し得ない組合せが除かれる。cDNA配列として存在し得ない組合せとしては下記のものが挙げられる。
【0062】
・2以上の生物2の相同性領域が対応する生物1の相同性領域が同一である組合せ(例えば、上記組合せ(5)および(7))、
・生物2の2以上の相同性領域の順序が生物1の相同性領域のそれと逆になっている組合せ(例えば、上記組合せ(6)および(7))、および
・生物2の2以上の相同性領域の向きが逆になっている組合せ(例えば、上記組合せ(9)〜(15))。
【0063】
DNA配列として存在し得ない組合せとしては、更にまた、複数の相同性領域の間が30bp〜30kbp(高等生物では、例えば、5kbp〜30kbp)離れている組合せが挙げられる。具体的な塩基数は、生物2のゲノム上の遺伝子密度から見積もられる遺伝子間の平均的な間隔より短く(高等生物では30kbpあたり1遺伝子)、イントロンの最短長よりも長くなるように決定できる。
【0064】
組合せ選定部においては、得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものが選択され、選択された相同性領域の位置リストが作成される。上記例では組合せ(3)が好ましい相同性領域の組合せとして選択できる。
【0065】
ジャンクション候補選定部においては、組合せ選定部において作成された相同性領域の位置リストが入力され、既に入力されている生物1のcDNA配列および生物2のゲノム配列に基づいてジャンクションの候補が抽出される。
【0066】
ジャンクション候補抽出部、演算部、ジャンクション決定部、および出力部における処理は第三の態様と同様である。
【0067】
第五の態様ないし第八の態様
上述した第一の態様ないし第三の態様における入力部、ジャンクション候補抽出部、演算部、ジャンクション決定部、出力部、および場合によっては記憶部、並びに第四の態様の入力部、相同性検索部、組合せ候補作成部、組合せ候補絞り込み部、組合せ選定部、ジャンクション候補抽出部、演算部、ジャンクション決定部、出力部、および場合によっては記憶部はいずれも図10に示すようなコンピュータシステム20上で稼働するプログラムモジュールとして実現することができる。このようなプログラムモジュールを含むエキソンイントロンジャンクション決定プログラムあるいはゲノム上のcDNA領域決定プログラムは、記録媒体であるフロッピーディスクまたはCD−ROM(Compact Disk-Read Only Memory)等に記録され、コンピュータシステム20により読み出されて上述したようなエキソンイントロンジャンクションの決定あるいはゲノム上のcDNA領域の決定が行われる。
【0068】
コンピュータシステム20は、図10に示すようにミニタワー等の筐体に収納されたコンピュータ本体21と、CRT(Cathode Ray Tube−陰極線管−)等の表示装置22と、記録出力装置としてのプリンタ23と、入力装置としてのキーボード24aおよびマウス24bと、記録媒体としてのフロッピーディスク31内の情報を読み出すためのフロッピーディスクドライブ装置26と、記録媒体としてのCD−ROM32内の情報を読み出すためのCD−ROMドライブ装置27とを備えている。
【0069】
これらの構成をブロック図として示すと、図11に示すように、コンピュータ本体21が収納された筐体内には、RAM(Random Access Memory)等からなる内部メモリ25と、ハードディスクユニット28等の外部記憶装置がさらに設けられている。なお、エキソンイントロンジャンクション決定プログラムあるいはゲノム上のcDNA領域決定プログラムを記録したフロッピーディスク(記録媒体)31は、図10に示すように、フロッピーディスクドライブ装置26のスロットに挿入されて所定の手順によりコンピュータ本体21にインストールされる。本発明によるプログラムを記録する記録媒体は、フロッピーディスク31に限られず、CD−ROM32や内部メモリ25、ハードディスクユニット28等の他、図示されていないMO(Magnet Optical)ディスクや光ディスク、DVD(Digital Versatile Disk)等であってもよい。
【0070】
例
以下、本発明によりマウスcDNAからヒトゲノム上のcDNA領域を決定した例を示す。
【0071】
20のマウスcDNAをマウスの脳、腎臓細胞、およびC57BL/6マウス18日齢胎児から調製し、配列決定した。
【0072】
相同性検索はBLASTを用いた。相同性検索の確率は10−50に設定した。
【0073】
相同性領域の組合せのうちあり得ない組合せとして下記の組合せを除外した。
【0074】
2以上の生物2の相同性領域が対応する生物1の相同性領域が同一である組合せ、生物2の2以上の相同性領域の順序が生物1の相同性領域のそれと逆になっている組合せ、生物2の2以上の相同性領域の向きが逆になっている組合せ、複数の相同性領域の間が5kbp以上離れている組合せ。
【0075】
エキソンイントロンジャンクションの検出は下記式に従って行った。
【0076】
s(i,j)=s'(x,yij)-0.5×{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v'(k)) (II)であり、
mi=20、mj=20、myij=40であった。)
配列iおよび配列jはGT−AGルールによって選択した。
【0077】
結果は表1および表2の通りであった。
【0078】
【表1】
表1は、マウスタンパク質と決定されたヒトタンパク質との比較を示した図である。aはヒトタンパク質のアミノ酸残基数を、bは予測されたヒトタンパク質のアミノ酸残基数を、cはヒトタンパク質と予測されたヒトタンパク質との間の整列したアミノ酸残基数を、dはマウスタンパク質のアミノ酸残基数を、それぞれ表す。局所的配列の同一性はLALIGN(Huang, X., Hardison, R. C., and Miller, W., 1990, Comput. Appl. Biosci. 6, 373-381)により算出した。
【0079】
20のタンパク質のうち5つのヒト全長タンパク質が本発明による方法により正確に決定された。一方、Genscanは3つのヒト全長タンパク質を正確に決定できただけであり、Grail2は全長タンパク質を正確に決定できなかった(データ省略)。
【0080】
【表2】
表2は、本発明による方法による予測の正確性と、GenscanおよびGrail2による予測の正確性とを比較したものである。表中の正確性(%)は、正確に決定されたアミノ酸残基数を決定された全アミノ酸残基数で割った数であり、不正確性(%)は誤って決定されたアミノ酸残基数を決定された全アミノ酸残基数で割った数である。
【0081】
また、本発明による方法の正確性は83.3%、不正確性は16.7%であり、本発明の方法は、GenscanおよびGrail2と比較して高い正確性および低い不正確性を有する。
【図面の簡単な説明】
【図1】本発明の第一の態様および第二の態様(エキソンイントロンジャンクションの決定)を示した図である。
【図2】準備される生物1のcDNA配列と生物2のゲノム配列との関係を示した図である。
【図3】準備される生物1のcDNA配列と生物2のゲノム配列との関係を示した図である。A1A2とa1a2とは対応する相同性領域である。B1B2とb1b2とは対応する相同性領域である。GT−AGルールに従って配列iおよび配列jを選択している。
【図4】本発明の第三の態様(相同性領域のリストを入力することを特徴とするcDNA領域の決定)を示した図である。
【図5】決定された相同性領域の組合せの例を示した図である。生物2のゲノム上に4個の相同性領域が見いだされている。I〜IVは相同性領域を示す。
【図6】本発明の第三の態様の手順をより具体的に示したNSチャートである。各相同性領域(1〜N)のスプライスサイトの候補、すなわちジャンクション候補、のリストは、図7に記載の手順に用いられる。
【図7】本発明の第三の態様の手順をより具体的に示したNSチャートである。各相同性領域I(I=1〜N)の5’側のスプライスサイトの候補の数をn5(I)、3’側のスプライスサイトの候補の数をn3(I)、5’側のスプライスサイトの候補の位置をm5(I,j)(j=1〜n5(I))、3’側のスプライスサイトの候補の位置をn3(I,i)(i=1〜n3(I))とした。
【図8】本発明の第四の態様(相同性検索ステップを含むことを特徴とするcDNA領域の決定)を示した図である。
【図9】生物1のcDNA配列をもとに生物2のゲノム配列を相同性検索した例を模式的に示した図である。相同性領域は二種類であるが、生物2のゲノム上には4つの相同性領域が見いだされている。
【図10】エキソンイントロンジャンクション決定プログラムあるいはゲノム上のcDNA領域決定プログラムを記録したコンピュータ読み取り可能な記録媒体が用いられるコンピュータシステムを示す斜視図である。
【図11】図10のコンピュータシステムのハードウェア構成を示すブロック図である。
【符号の説明】
20 コンピュータシステム
21 コンピュータ本体
22 表示装置
23 プリンタ
24a 入力装置
24b マウス
25 記録媒体(内部メモリ)
26 フロッピーディスクドライブ装置
27 CD−ROMドライブ装置
28 記録媒体(ハードディスクユニット)
31 記録媒体(フロッピーディスク)
32 記録媒体(CD−ROM)
Claims (36)
- ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定する装置であって、
生物1の全長cDNA配列またはその一部分(断片AB)と、それに対応する生物2のゲノム上の遺伝子領域(断片ab)とを入力する入力部と、
入力された断片abにおいて重複しない塩基数10以上の2つの配列を抽出するジャンクション候補抽出部(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)と、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b-j)+(i-a)-(B-A)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b−jは、生物2の遺伝子領域の3’末端から配列jの5’末端までの塩基数を表し、
i−aは、生物2の遺伝子領域の5’末端から配列iの3’末端までの塩基数を表し、
B−Aは、生物1のcDNAの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択するジャンクション決定部と
決定されたエキソンイントロンジャンクションの位置を出力する出力部と
を含んでなる装置。 - ゲノム上の遺伝子領域内においてエキソン−イントロンジャンクションを予測し、同定し、または決定する装置であって、
生物1の全長cDNA配列またはその一部分(断片AB)と、それに対応する生物2のゲノム上の遺伝子領域(断片ab)とを入力する入力部と(ここで、生物1のcDNA配列またはその一部分と、それに対応する生物2のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、
生物2の遺伝子領域内のa1a2とb1b2とに挟まれる領域内において、重複しない塩基数10以上の2つの配列を抽出するジャンクション候補抽出部と(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択するジャンクション決定部と
決定されたエキソンイントロンジャンクションの位置を出力する出力部と
を含んでなる装置。 - ゲノム上のcDNA領域を予測し、同定し、または決定する装置であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データと、生物1のcDNA配列および生物2のゲノム配列上における相同性領域の位置リストとを入力する入力部(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)と、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出するジャンクション候補抽出部(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)と、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択するジャンクション決定部と
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結してcDNA配列として出力する出力部と
を含んでなる装置。 - ゲノム上のcDNA領域を予測し、同定し、または決定する装置であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データとを入力する入力部と、
生物1の全長cDNAまたはその一部に相同な生物2のゲノム上の領域を相同性検索する相同検索部と、
得られた生物2のゲノム上の相同性領域について組合せを作成する組合せ候補作成部と、
得られた組合せからcDNA配列として存在し得ない組合せを除く組合せ絞り込み部と、
得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものを選択し、相同性領域の位置リストを作成する組合せ選定部(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)と、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出するジャンクション候補抽出部(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)と、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択するジャンクション決定部と
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結してcDNA配列として出力する出力部と
を含んでなる装置。 - 組合せ絞り込み部においてcDNA配列として存在し得ない組合せが下記からなる、請求項4に記載の装置。
・2以上の生物2の相同性領域が対応する生物1の相同性領域が同一である組合せ、
・生物2の2以上の相同性領域の順序が生物1の相同性領域のそれと逆になっている組合せ、および
・生物2の2以上の相同性領域の向きが逆になっている組合せ - 相同性検索部において相同性検索が確率10−50以下で実施される、請求項4に記載の装置。
- 相同性検索部が、BLAST、LALIGN、ALIGN、およびFASTAから選択される検索システムまたはその検索システムと通信回線により接続された検索部である、請求項4に記載の装置。
- 生物2のゲノム上において、5’側の一番上流に位置する相同性領域の更に5’側上流にある領域および3’側の一番下流に位置する相同性領域の更に3’側下流にある領域を決定する末端部分決定部を更に含んでなる、請求項3または4に記載の装置。
- ジャンクション候補抽出部において、配列iおよび配列jがGT−AGルールに従って抽出される、請求項の1〜9のいずれか一項に記載の装置。
- miおよびmjがそれぞれ20であり、myijが40である、請求項の1〜10のいずれか一項に記載の装置。
- 生物1および生物2が、遺伝子の存在および/または相同性に関して高度な相関関係にある、請求項1〜11のいずれか一項に記載の装置。
- 生物1および生物2が真核生物である、請求項12に記載の装置。
- 生物1および生物2が哺乳動物である、請求項12に記載の装置。
- 生物1がマウスであり、生物2がヒトである、請求項14に記載の装置。
- 生物1がヒトであり、生物2がマウスである、請求項14に記載の装置。
- ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物1の全長cDNA配列またはその一部分(断片AB)に対応する生物2のゲノム上の遺伝子領域(断片ab)において、重複しない塩基数10以上の2つの配列を抽出する手順と(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する手順と、
s(i,j)=s'(x,yij)-C{(b-j)+(i-a)-(B-A)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b−jは、生物2の遺伝子領域の3’末端から配列jの5’末端までの塩基数を表し、
i−aは、生物2の遺伝子領域の5’末端から配列iの3’末端までの塩基数を表し、
B−Aは、生物1のcDNAの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、エキソンイントロンジャンクションの位置を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体。 - ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物1の全長cDNA配列またはその一部分(断片AB)に対応する生物2のゲノム上の遺伝子領域(断片ab)(ここで、生物1のcDNA配列またはその一部分と、それに対応する生物2のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)内のa1a2とb1b2とに挟まれる領域内において、重複しない塩基数10以上の2つの配列を抽出する手順と(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する手順と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、エキソンイントロンジャンクションの位置を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体。 - ゲノム上のcDNA領域を予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データと、生物1のcDNA配列および生物2のゲノム配列上における相同性領域の位置リストとに基づいて(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、生物2のゲノム上において隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出する手順と(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する手順と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択する手順と、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりcDNA配列を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体。 - ゲノム上のcDNA領域を予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データとに基づいて、生物1の全長cDNAまたはその一部に相同な生物2のゲノム上の領域を相同性検索する手順と、
得られた生物2のゲノム上の相同性領域について組合せを作成する手順と、
得られた組合せからcDNA配列として存在し得ない組合せを除く手順と、
得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものを選択し、相同性領域の位置リストを作成する手順と(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、
生物2のゲノム上において隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出する手順と(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算する手順と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択する手順と、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりcDNA配列を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体。 - 得られた組合せのうちcDNA配列として存在し得ない組合せが下記からなる、請求項20に記載の記録媒体。
・2以上の生物2の相同性領域が対応する生物1の相同性領域が同一である組合せ、
・生物2の2以上の相同性領域の順序が生物1の相同性領域のそれと逆になっている組合せ、および
・生物2の2以上の相同性領域の向きが逆になっている組合せ - 生物2のゲノム上の領域の相同性検索する手順において、相同性検索が確率10−50以下で実施される、請求項20に記載の記録媒体。
- 生物2のゲノム上の領域の相同性検索する手順が、BLAST、LALIGN、ALIGN、およびFASTAから選択される検索システムにより相同性検索する手順を含んでなることを特徴とする、請求項20に記載の記録媒体。
- 生物2のゲノム上において、5’側の一番上流に位置する相同性領域の更に5’側上流にある領域および3’側の一番下流に位置する相同性領域の更に3’側下流にある領域を決定する手順を更に含んでなる、請求項19または20に記載の記録媒体。
- 配列iおよび配列jの抽出手順において、配列iおよび配列jがGT−AGルールに従って抽出される、請求項の17〜25のいずれか一項に記載の記録媒体。
- s(i,j)の計算手順において、miおよびmjがそれぞれ20であり、myijが40である、請求項の17〜26のいずれか一項に記載の記録媒体。
- 生物1および生物2が、遺伝子の存在および/または相同性に関して高度な相関関係にある、請求項17〜27のいずれか一項に記載の記録媒体。
- 生物1および生物2が真核生物である、請求項28に記載の記録媒体。
- 生物1および生物2が哺乳動物である、請求項28に記載の記録媒体。
- 生物1がマウスであり、生物2がヒトである、請求項30に記載の記録媒体。
- 生物1がヒトであり、生物2がマウスである、請求項30に記載の記録媒体。
- ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定する方法であって、
生物1の全長cDNA配列またはその一部分(断片AB)と、それに対応する生物2のゲノム上の遺伝子領域(断片ab)とを準備し、
断片abにおいて重複しない塩基数10以上の2つの配列を抽出し(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算し、
s(i,j)=s ’ (x,yij)-C{(b-j)+(i-a)-(B-A)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b−jは、生物2の遺伝子領域の3’末端から配列jの5’末端までの塩基数を表し、
i−aは、生物2の遺伝子領域の5’末端から配列iの3’末端までの塩基数を表し、
B−Aは、生物1のcDNAの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、エキソンイントロンジャンクションの位置を決定する
工程を含んでなる方法。 - ゲノム上の遺伝子領域内においてエキソン−イントロンジャンクションを予測し、同定し、または決定する方法であって、
生物1の全長cDNA配列またはその一部分(断片AB)と、それに対応する生物2のゲノム上の遺伝子領域(断片ab)とを準備し(ここで、生物1のcDNA配列またはその一部分と、それに対応する生物2のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、
生物2の遺伝子領域内のa1a2とb1b2とに挟まれる領域内において、重複しない塩基数10以上の2つの配列を抽出し(ここで、断片ab中において5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算し、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、エキソンイントロンジャンクションの位置を決定する
工程を含んでなる方法。 - ゲノム上のcDNA領域を予測し、同定し、または決定する方法であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データと、生物1のcDNA配列および生物2のゲノム配列上における相同性領域の位置リストと準備し(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出し(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算し、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりcDNA配列を決定する
工程を含んでなる方法。 - ゲノム上のcDNA領域を予測し、同定し、または決定する方法であって、
生物1から得られた全長cDNAまたはその一部の配列データと、生物2の全ゲノムまたはその一部の配列データとを準備し、
生物1の全長cDNAまたはその一部に相同な生物2のゲノム上の領域を相同性検索し、
得られた生物2のゲノム上の相同性領域について組合せを作成し、
得られた組合せからcDNA配列として存在し得ない組合せを除き、
得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものを選択し、相同性領域の位置リストを作成し(ここで、生物1のcDNA配列またはその一部分および生物2のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物1のcDNA配列における相同性領域がA1A2、B1B2であり、生物2のゲノム上の相同性領域がa1a2、b1b2であり、A1A2はa1a2と、B1B2はb1b2とそれぞれ相同性を有する)、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数10以上の2つの配列を抽出し(ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて5’末端側に存在する配列をiとし、3’末端側に存在する配列をjとする)、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列iおよび配列jについて下記式で表されるs(i,j)を計算し、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}2 (I)
(上記式中、
s'(x,yij)=max(v(k)) (II)であり、
b1−jは、b1b2の5’末端から配列jの5’末端までの塩基数を表し、
i−a2は、a1a2の3’末端から配列iの3’末端までの塩基数を表し、
B1−A2は、A1A2の3’末端からB1B2の5’末端までの塩基数を表し、
Cは、比例係数であり、0〜10であり、
v(k)は、xおよびyijのオーバーラップスコアを表し、ここで、xは生物1のcDNA配列であり、yijは配列iおよびjを連続してなる断片であり、kは1〜myijの整数を表し、
Mはxとyijとのマトリックスを表し、ここで、xのa番目の塩基がyijのb番目の塩基と同じときにはM(a,b)=1であり、xのa番目の塩基がyijのb番目の塩基と異なるときにはM(a,b)=0であり、
miは配列iの塩基数を表し、mi≧10であり、
mjは配列jの塩基数を表し、mj≧10であり、
myijは配列yijの塩基数を表し、myij≧20である。)
隣り合う相同性領域に挟まれた領域それぞれについて、得られたs(i,j)が最大となるように配列iおよび配列jの組合せを選択し、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物2のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりcDNA配列を決定する
工程を含んでなる方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33856099A JP3584275B2 (ja) | 1999-11-29 | 1999-11-29 | エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法 |
CA002395055A CA2395055A1 (en) | 1999-11-29 | 2000-11-29 | Exson-intron junction determining device, genetic region determining device, and determining method for them |
EP00977998A EP1258811A1 (en) | 1999-11-29 | 2000-11-29 | Exson-intron junction determining device, genetic region determining device, and determining method for them |
US10/148,322 US20040219522A1 (en) | 1999-11-29 | 2000-11-29 | Exson-intron junction determining device, genetic region determining device, and determining method for them |
PCT/JP2000/008402 WO2001040969A1 (fr) | 1999-11-29 | 2000-11-29 | Dispositif de determination de jonctions exson-introns, dispositif de determination de regions genetiques, et procedes de determination associes |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33856099A JP3584275B2 (ja) | 1999-11-29 | 1999-11-29 | エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001155009A JP2001155009A (ja) | 2001-06-08 |
JP3584275B2 true JP3584275B2 (ja) | 2004-11-04 |
Family
ID=18319337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP33856099A Expired - Fee Related JP3584275B2 (ja) | 1999-11-29 | 1999-11-29 | エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20040219522A1 (ja) |
EP (1) | EP1258811A1 (ja) |
JP (1) | JP3584275B2 (ja) |
CA (1) | CA2395055A1 (ja) |
WO (1) | WO2001040969A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10308940B2 (en) | 2014-06-10 | 2019-06-04 | Erasmus University Medical Center Rotterdam | Antisense oligonucleotides useful in treatment of Pompe disease |
EP3155128B1 (en) | 2014-06-10 | 2019-05-15 | Erasmus University Medical Center Rotterdam | Methods for characterizing alternatively or aberrantly spliced mrna isoforms |
AU2015416656B2 (en) | 2015-12-07 | 2023-02-23 | Erasmus University Medical Center Rotterdam | Enzymatic replacement therapy and antisense therapy for Pompe disease |
NL2017295B1 (en) | 2016-08-05 | 2018-02-14 | Univ Erasmus Med Ct Rotterdam | Antisense oligomeric compound for Pompe disease |
NL2017294B1 (en) | 2016-08-05 | 2018-02-14 | Univ Erasmus Med Ct Rotterdam | Natural cryptic exon removal by pairs of antisense oligonucleotides. |
NL2019517B1 (en) | 2017-09-08 | 2019-03-19 | Univ Erasmus Med Ct Rotterdam | New therapy for Pompe disease |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05324738A (ja) * | 1992-05-20 | 1993-12-07 | Fujitsu Ltd | 遺伝子データベースの相同性分類方法 |
JP3801714B2 (ja) * | 1997-01-31 | 2006-07-26 | 独立行政法人科学技術振興機構 | 蛋白質の機能部位予測方法と機能部位予測装置 並びに蛋白質の機能改良方法 |
JP3395633B2 (ja) * | 1997-03-31 | 2003-04-14 | 株式会社日立製作所 | Dna塩基配列比較方法 |
JPH11187885A (ja) * | 1997-12-26 | 1999-07-13 | Mitsubishi Kagaku Bio Clinical Laboratories Inc | 新規なdna及びその検出方法 |
-
1999
- 1999-11-29 JP JP33856099A patent/JP3584275B2/ja not_active Expired - Fee Related
-
2000
- 2000-11-29 WO PCT/JP2000/008402 patent/WO2001040969A1/ja not_active Application Discontinuation
- 2000-11-29 EP EP00977998A patent/EP1258811A1/en not_active Withdrawn
- 2000-11-29 CA CA002395055A patent/CA2395055A1/en not_active Abandoned
- 2000-11-29 US US10/148,322 patent/US20040219522A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20040219522A1 (en) | 2004-11-04 |
JP2001155009A (ja) | 2001-06-08 |
EP1258811A1 (en) | 2002-11-20 |
WO2001040969A1 (fr) | 2001-06-07 |
CA2395055A1 (en) | 2001-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alser et al. | Technology dictates algorithms: recent developments in read alignment | |
Salamov et al. | Ab initio gene finding in Drosophila genomic DNA | |
US10600217B2 (en) | Methods for the graphical representation of genomic sequence data | |
US8165821B2 (en) | System and methods for indel identification using short read sequencing | |
US20180143914A1 (en) | Method and system for genomic visualization | |
WO2015123269A1 (en) | System and methods for analyzing sequence data | |
JP5710572B2 (ja) | 標的ゲノム配列内の新規配列生成装置及びその方法 | |
JP2008547080A (ja) | ダイタグ配列の処理および/またはゲノムマッピングの方法 | |
Voshall et al. | Next-generation transcriptome assembly: strategies and performance analysis | |
US20190362807A1 (en) | Genomic variant ranking system for clinical trial matching | |
Muller et al. | OutLyzer: software for extracting low-allele-frequency tumor mutations from sequencing background noise in clinical practice | |
US20220254444A1 (en) | Systems and methods for detecting recombination | |
CN115083521B (zh) | 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统 | |
Han et al. | Novel algorithms for efficient subsequence searching and mapping in nanopore raw signals towards targeted sequencing | |
JP3584275B2 (ja) | エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法 | |
US20190267110A1 (en) | System and method for sequence identification in reassembly variant calling | |
US20160078169A1 (en) | Method of and apparatus for providing information on a genomic sequence based personal marker | |
EP1608786B1 (en) | Genomic profiling of regulatory factor binding sites | |
Lim et al. | BatAlign: an incremental method for accurate alignment of sequencing reads | |
Cui et al. | Homology search for genes | |
CN110476215A (zh) | 用于多序列文件的签名-散列 | |
US20170132361A1 (en) | Sequence assembly method | |
CN114175170A (zh) | 使用ngs数据预测基因型的方法及装置 | |
US20030092053A1 (en) | Storage medium, method for designing genotyping-microarray and computer system containing the same | |
KR20170064260A (ko) | 표적 시퀀싱 영역 선정 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040402 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040706 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |