JP3584275B2

JP3584275B2 - エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法

Info

Publication number: JP3584275B2
Application number: JP33856099A
Authority: JP
Inventors: 崎良英林
Original assignee: RIKEN Institute of Physical and Chemical Research
Current assignee: RIKEN Institute of Physical and Chemical Research
Priority date: 1999-11-29
Filing date: 1999-11-29
Publication date: 2004-11-04
Anticipated expiration: 2019-11-29
Also published as: US20040219522A1; JP2001155009A; EP1258811A1; WO2001040969A1; CA2395055A1

Description

【０００１】
【発明の背景】
発明の分野
本発明はエキソンイントロンジャンクションを決定する装置およびゲノム上の遺伝子配列、具体的にはｃＤＮＡ領域、を決定する装置並びにこれらの決定方法に関する。
【０００２】
関連技術
ＤＮＡの塩基配列の中からエキソンを予測するプログラムとして、Ｇｒａｉｌ、Ｇｒａｉｌ２、Ｇｅｎｓｃａｎが知られている。これらの予測プログラムによるとある遺伝子配列の一部のヌクレオチド配列を予測することができるが、遺伝子全体のヌクレオチド配列あるいはアミノ酸配列を予測することは困難であった。更にこれらのプログラムは計算機による学習方法を利用しており、ヌクレオチド配列のデータ量が多くなれば予測に要する時間も増加する。また、エキソンの予測率は７０％程度、特に遺伝子の中のタンパク質の生成に関わる開始コドンの予測率は４０％程度と低いのが現状であった。
【０００３】
一方、ヒトゲノムプロジェクトが進行するにつれヒトゲノムからヒト遺伝子、具体的にはｃＤＮＡ配列、を効率的かつ高精度で同定する方法が求められている。
【０００４】
【発明の概要】
本発明者らは、今般、ゲノム上の遺伝子領域においてエキソンイントロンジャンクションを効率的かつ高精度で同定する方法を見いだした。本発明者らは、また、ある生物の完全長ｃＤＮＡのヌクレオチド情報に基づいて、遺伝子領域が不明な生物のＤＮＡ配列中において相同性領域を決定する方法を見いだした。
【０００５】
本発明は、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定する装置の提供をその目的とする。
【０００６】
本発明は、ゲノム上のｃＤＮＡ領域を効率よく、かつ高精度で予測し、同定し、および決定する装置の提供をその目的とする。
【０００７】
本発明は、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定するプログラムを実行させるコンピュータ読み取り可能な記録媒体の提供をその目的とする。
【０００８】
本発明は、ゲノム上のｃＤＮＡ領域を効率よく、かつ高精度で予測し、同定し、および決定するプログラムを実行させるコンピュータ読み取り可能な記録媒体の提供をその目的とする。
【０００９】
本発明は、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定する方法の提供をその目的とする。
【００１０】
本発明は、ゲノム上のｃＤＮＡ領域を効率よく、かつ高精度で予測し、同定し、および決定する方法の提供をその目的とする。
【００１１】
本発明の第一の態様によれば、
ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定する装置であって、
生物１の全長ｃＤＮＡ配列またはその一部分（断片ＡＢ）と、それに対応する生物２のゲノム上の遺伝子領域（断片ａｂ）とを入力する入力部と、
入力された断片ａｂにおいて重複しない塩基数１０以上の２つの配列を抽出するジャンクション候補抽出部（ここで、断片ａｂ中において５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）と、
抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b-j)+(i-a)-(B-A)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ−ｊは、生物２の遺伝子領域の３’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａは、生物２の遺伝子領域の５’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ−Ａは、生物１のｃＤＮＡの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択するジャンクション決定部と
決定されたエキソンイントロンジャンクションの位置を出力する出力部と
を含んでなる装置が提供される。
【００１２】
本発明の第二の態様によれば、
ゲノム上の遺伝子領域内においてエキソン−イントロンジャンクションを予測し、同定し、または決定する装置であって、
生物１の全長ｃＤＮＡ配列またはその一部分（断片ＡＢ）と、それに対応する生物２のゲノム上の遺伝子領域（断片ａｂ）とを入力する入力部と（ここで、生物１のｃＤＮＡ配列またはその一部分と、それに対応する生物２のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）、
生物２の遺伝子領域内のａ１ａ２とｂ１ｂ２とに挟まれる領域内において、重複しない塩基数１０以上の２つの配列を抽出するジャンクション候補抽出部と（ここで、断片ａｂ中において５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択するジャンクション決定部と
決定されたエキソンイントロンジャンクションの位置を出力する出力部と
を含んでなる装置が提供される。
【００１３】
本発明の第三の態様によれば、
ゲノム上のｃＤＮＡ領域を予測し、同定し、または決定する装置であって、
生物１から得られた全長ｃＤＮＡまたはその一部の配列データと、生物２の全ゲノムまたはその一部の配列データと、生物１のｃＤＮＡ配列および生物２のゲノム配列上における相同性領域の位置リストとを入力する入力部（ここで、生物１のｃＤＮＡ配列またはその一部分および生物２のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）と、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数１０以上の２つの配列を抽出するジャンクション候補抽出部（ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）と、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
隣り合う相同性領域に挟まれた領域それぞれについて、得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択するジャンクション決定部と
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物２のゲノム配列からイントロン配列を切り出し、残った配列を連結してｃＤＮＡ配列として出力する出力部と
を含んでなる装置が提供される。
【００１４】
本発明の第四の態様によれば、
ゲノム上のｃＤＮＡ領域を予測し、同定し、または決定する装置であって、
生物１から得られた全長ｃＤＮＡまたはその一部の配列データと、生物２の全ゲノムまたはその一部の配列データとを入力する入力部と、
生物１の全長ｃＤＮＡまたはその一部に相同な生物２のゲノム上の領域を相同性検索する相同検索部と、
得られた生物２のゲノム上の相同性領域について組合せを作成する組合せ候補作成部と、
得られた組合せからｃＤＮＡ配列として存在し得ない組合せを除く組合せ絞り込み部と、
得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものを選択し、相同性領域の位置リストを作成する組合せ選定部（ここで、生物１のｃＤＮＡ配列またはその一部分および生物２のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）と、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数１０以上の２つの配列を抽出するジャンクション候補抽出部（ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）と、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
隣り合う相同性領域に挟まれた領域それぞれについて、得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択するジャンクション決定部と
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物２のゲノム配列からイントロン配列を切り出し、残った配列を連結してｃＤＮＡ配列として出力する出力部と
を含んでなる装置が提供される。
【００１５】
本発明の第五の態様によれば、
ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物１の全長ｃＤＮＡ配列またはその一部分（断片ＡＢ）に対応する生物２のゲノム上の遺伝子領域（断片ａｂ）において、重複しない塩基数１０以上の２つの配列を抽出する手順と（ここで、断片ａｂ中において５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する手順と、
s(i,j)=s'(x,yij)-C{(b-j)+(i-a)-(B-A)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ−ｊは、生物２の遺伝子領域の３’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａは、生物２の遺伝子領域の５’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ−Ａは、生物１のｃＤＮＡの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択し、エキソンイントロンジャンクションの位置を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体が提供される。
【００１６】
本発明の第六の態様によれば、
ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物１の全長ｃＤＮＡ配列またはその一部分（断片ＡＢ）に対応する生物２のゲノム上の遺伝子領域（断片ａｂ）（ここで、生物１のｃＤＮＡ配列またはその一部分と、それに対応する生物２のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）内のａ１ａ２とｂ１ｂ２とに挟まれる領域内において、重複しない塩基数１０以上の２つの配列を抽出する手順と（ここで、断片ａｂ中において５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する手順と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択し、エキソンイントロンジャンクションの位置を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体が提供される。
【００１７】
本発明の第七の態様によれば、
ゲノム上のｃＤＮＡ領域を予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物１から得られた全長ｃＤＮＡまたはその一部の配列データと、生物２の全ゲノムまたはその一部の配列データと、生物１のｃＤＮＡ配列および生物２のゲノム配列上における相同性領域の位置リストとに基づいて（ここで、生物１のｃＤＮＡ配列またはその一部分および生物２のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）、生物２のゲノム上において隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数１０以上の２つの配列を抽出する手順と（ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する手順と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
隣り合う相同性領域に挟まれた領域それぞれについて、得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択する手順と、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物２のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりｃＤＮＡ配列を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体が提供される。
【００１８】
本発明の第八の態様によれば、
ゲノム上のｃＤＮＡ領域を予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物１から得られた全長ｃＤＮＡまたはその一部の配列データと、生物２の全ゲノムまたはその一部の配列データとに基づいて、生物１の全長ｃＤＮＡまたはその一部に相同な生物２のゲノム上の領域を相同性検索する手順と、
得られた生物２のゲノム上の相同性領域について組合せを作成する手順と、
得られた組合せからｃＤＮＡ配列として存在し得ない組合せを除く手順と、
得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものを選択し、相同性領域の位置リストを作成する手順と（ここで、生物１のｃＤＮＡ配列またはその一部分および生物２のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）、
生物２のゲノム上において隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数１０以上の２つの配列を抽出する手順と（ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する手順と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
隣り合う相同性領域に挟まれた領域それぞれについて、得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択する手順と、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物２のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりｃＤＮＡ配列を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体が提供される。
【００１９】
本発明の第九の態様によれば、
ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定する方法であって、
生物１の全長ｃＤＮＡ配列またはその一部分（断片ＡＢ）と、それに対応する生物２のゲノム上の遺伝子領域（断片ａｂ）とを準備し、
断片ａｂにおいて重複しない塩基数１０以上の２つの配列を抽出し（ここで、断片ａｂ中において５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算し、
s(i,j)=s'(x,yij)-C{(b-j)+(i-a)-(B-A)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ−ｊは、生物２の遺伝子領域の３’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａは、生物２の遺伝子領域の５’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ−Ａは、生物１のｃＤＮＡの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択し、エキソンイントロンジャンクションの位置を決定する
工程を含んでなる方法が提供される。
【００２０】
本発明の第十の態様によれば、
ゲノム上の遺伝子領域内においてエキソン−イントロンジャンクションを予測し、同定し、または決定する方法であって、
生物１の全長ｃＤＮＡ配列またはその一部分（断片ＡＢ）と、それに対応する生物２のゲノム上の遺伝子領域（断片ａｂ）とを準備し（ここで、生物１のｃＤＮＡ配列またはその一部分と、それに対応する生物２のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）、
生物２の遺伝子領域内のａ１ａ２とｂ１ｂ２とに挟まれる領域内において、重複しない塩基数１０以上の２つの配列を抽出し（ここで、断片ａｂ中において５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算し、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択し、エキソンイントロンジャンクションの位置を決定する
工程を含んでなる方法が提供される。
【００２１】
本発明の第十一の態様によれば、
ゲノム上のｃＤＮＡ領域を予測し、同定し、または決定する方法であって、
生物１から得られた全長ｃＤＮＡまたはその一部の配列データと、生物２の全ゲノムまたはその一部の配列データと、生物１のｃＤＮＡ配列および生物２のゲノム配列上における相同性領域の位置リストと準備し（ここで、生物１のｃＤＮＡ配列またはその一部分および生物２のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数１０以上の２つの配列を抽出し（ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算し、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
隣り合う相同性領域に挟まれた領域それぞれについて、得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択し、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物２のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりｃＤＮＡ配列を決定する
工程を含んでなる方法が提供される。
【００２２】
本発明の第十二の態様によれば、
ゲノム上のｃＤＮＡ領域を予測し、同定し、または決定する装置であって、
生物１から得られた全長ｃＤＮＡまたはその一部の配列データと、生物２の全ゲノムまたはその一部の配列データとを準備し、
生物１の全長ｃＤＮＡまたはその一部に相同な生物２のゲノム上の領域を相同性検索し、
得られた生物２のゲノム上の相同性領域について組合せを作成し、
得られた組合せからｃＤＮＡ配列として存在し得ない組合せを除き、
得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものを選択し、相同性領域の位置リストを作成し（ここで、生物１のｃＤＮＡ配列またはその一部分および生物２のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数１０以上の２つの配列を抽出し（ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算し、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
隣り合う相同性領域に挟まれた領域それぞれについて、得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択し、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物２のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりｃＤＮＡ配列を決定する
工程を含んでなる方法が提供される。
【００２３】
本発明の第一および第二の態様の装置によれば、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定することができる。
【００２４】
本発明の第三および第四の態様の装置によれば、ゲノム上のｃＤＮＡ領域を効率よく、かつ高精度で予測し、同定し、および決定することができ、特に遺伝子の一部ではなく、遺伝子領域全体を正確に決定できる点で有利である。
【００２５】
本発明の第五および第六の態様の記録媒体によれば、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定することができる。
【００２６】
本発明の第七および第八の態様の記録媒体によれば、ゲノム上のｃＤＮＡ領域を効率よく、かつ高精度で予測し、同定し、および決定することができ、特に遺伝子の一部ではなく、遺伝子領域全体を正確に決定できる点で有利である。
【００２７】
本発明の第九および第十の態様の方法によれば、ゲノム上の遺伝子領域内において効率よく、かつ高精度でエキソンイントロンジャンクションを予測し、同定し、または決定することができる。
【００２８】
本発明の第十一および第十二の態様の方法によれば、ゲノム上のｃＤＮＡ領域を効率よく、かつ高精度で予測し、同定し、および決定することができ、特に遺伝子の一部ではなく、遺伝子領域全体を正確に決定できる点で有利である。
【００２９】
【発明の具体的説明】
第一の態様および第二の態様
本発明の第一の態様および第二の態様によれば、エキソンイントロンジャンクションを同定する装置が提供される。本発明による装置の第一の態様および第二の態様は図１に示される通りである。これらの装置は、具体的には、コンピュータに基づく装置、すなわちコンピュータシステム、であることができる。
【００３０】
まず、入力部においては、生物１の全長ｃＤＮＡ配列またはその一部分（断片ＡＢ）と、それに対応する生物２のゲノム上の遺伝子領域（断片ａｂ）を入力する。この点で第一の態様と第二の態様は共通するが、第二の態様においては、入力される生物１のｃＤＮＡ配列またはその一部分と、それに対応する生物２のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する点で、第一の態様と異なる。それぞれの態様について、入力される生物１のｃＤＮＡ配列と生物２のゲノム配列との関係を示すと図２および図３の通りである。
【００３１】
生物１および生物２は、遺伝子の存在および／または相同性に関して高度な相関関係にあるものから選択でき、生物１および生物２が真核生物（具体的には、哺乳動物）である場合が挙げられる。より具体的には、生物１がマウスであり、生物２がハエである場合、生物１がハエであり、生物２がヒトである場合が挙げられる。生物１および生物２がほ乳類同士の場合には、生物１がマウスであり、生物２がヒトである場合、生物１がヒトであり、生物２がマウスである場合が挙げられる。
【００３２】
第二の態様の場合、断片ａｂは生物１に対応する相同性領域に挟まれているが、これらの相同性領域は隣り合っていることが好ましい。隣り合っている生物１に対応する相同性領域に挟まれている場合には、その間にイントロンが一つ存在する可能性が高い。図３は相同性領域が隣り合っており、その間に他の相同性領域が介在しない場合を示している。
【００３３】
次にジャンクション候補抽出部においては、生物２のゲノム上において（第一の態様においては断片ａｂにおいて、第二の態様においてはａ１ａ２とｂ１ｂ２とに挟まれる領域において）、重複しない塩基数１０以上（例えば、塩基数１０〜３０）、好ましくは塩基数２０以上、の２つの配列を選択する。ここで、生物２のゲノム上において、５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする（図１および図２参照）。好ましくは、それぞれ２０塩基対の配列を選択することができる。
【００３４】
配列ｉおよび配列ｊはＧＴ−ＡＧルール（Mount, S.M., Nucleic Acid Res. 10:459-472(1982)）に従って選択できる。
【００３５】
演算部においては、配列ｉおよび配列ｊについての関数であるｓ（ｉ，ｊ）を計算する。
【００３６】
式（Ｉ）中に存在するs'(x,yij)は、s'(x,yij)=max(v(k)) （II）で算出され、ｖ（ｋ）は

で算出される。
【００３７】
以下、ｘがaagctggagactctctであり、ｙｉｊがggagaである場合を例にしてs(x,yij)の算出を説明する。この場合、得られるマトリックスは下記の通りである。
【００３８】

Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０である。
【００３９】
例えば、ｋ＝２の場合には下記の●印で表される部分のスコアを計算する。
【００４０】

ｖ（ｋ）の値は次の通りである。
【００４１】
ｖ（１）＝０、ｖ（２）＝１、ｖ（３）＝２、ｖ（４）＝２、ｖ（５）＝１、ｖ（６）＝５、ｖ（７）＝１、ｖ（８）＝２、ｖ（９）＝１、ｖ（１０）＝０、ｖ（１１）＝０、ｖ（１２）＝０。
【００４２】
よって、s'(x,yij)＝ｍａｘ｛０，１，２，２，１，５，１，２，１，０，０，０｝であり、s'(x,yij)＝５となる。
【００４３】
ｖ（ｋ）は好ましくは式（IV）であることができる。
【００４４】

修正項「max(ΣM(k-n+p-1,p)×0.5;n=-6〜6)」を式（III）に挿入することにより、ｖ（ｋ）の値をなめらかにして、配列ｘあるいはｙｉｊに塩基の欠失あるいは挿入が生じた場合でも真の最大値を検出することができる。ｎは重複領域のギャップの数を表し、好ましくは−１〜１であることができる。この場合、ｖ’（ｋ）はｖ（ｋ）に両隣の項の値のうち大きい方の値の半分を足した値となる。
【００４５】
式（Ｉ）において、Ｃは比例係数である。生物１および生物２の同一種の全長配列が既知であるｃＤＮＡの組合せおよびそのｃＤＮＡを含む生物２のゲノムがはっきりしている組合せを複数準備し、本発明による方法による予測精度が最大となるようにＣを決定できる。具体的には、Ｃは、０〜１０、好ましくは、０．５であることができる。
【００４６】
式（Ｉ）において、ｍｙｉｊはｍｉとｍｊとを足した値である。ｍｙｉｊは、２０以上（例えば、２０〜６０）、好ましくは４０以上、の整数である。
【００４７】
ジャンクション決定部においては、式（Ｉ）で表されるｓ（ｉ，ｊ）が最大になるように配列ｉおよび配列ｊの組合せを選択する。出力部においては、選択された配列ｉおよび配列ｊの組合せに基づいてエキソンイントロンジャンクションの位置を出力する。
【００４８】
第三の態様
本発明の第三の態様によれば、ゲノム上のｃＤＮＡ領域を同定する装置が提供される。本発明による装置の第三の態様は図４に示される通りである。この装置は、具体的には、コンピュータに基づく装置、すなわちコンピュータシステム、であることができる。
【００４９】
まず入力部において生物１から得られた全長ｃＤＮＡまたはその一部の配列データと、生物２の全ゲノムまたはその一部の配列データと、生物１のｃＤＮＡ配列および生物２のゲノム配列上における相同性領域の位置リストとが入力される。相同性領域の位置リストは後述するように相同性検索を実施することにより作成することができる。生物１および生物２は前記と同様にして選択できる。
【００５０】
ジャンクション候補抽出部においては、入力された相同性領域の位置リストに基づき、隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数１０以上の２つの配列を抽出する。隣り合う相同性領域に挟まれた領域が２以上ある場合には、それぞれの領域についてジャンクション候補を抽出する。第三の態様においては、ジャンクション候補抽出部において抽出されたジャンクション候補を一時的に保存する記憶部を備えていてもよい。ある領域におけるジャンクション候補それぞれについてｓ（ｉ，ｊ）が演算部において計算され、計算されたｓ（ｉ，ｊ）に基づいてジャンクション決定部において好ましいジャンクションが選択される。ある領域についてジャンクションが特定されると、他の領域について同様にジャンクション候補が抽出され、ｓ（ｉ，ｊ）が計算され、ジャンクションが決定されるステップが繰り返される。
【００５１】
エキソンイントロンジャンクションを決定した後、必要であれば、末端部分決定部において５’側の一番上流に位置する相同性領域（例えば、図５の領域Ｉ）の更に５’側上流にある遺伝子領域や、３’側の一番下流に位置する相同性領域（例えば、図５の領域IV）の更に３’側下流にある遺伝子領域を決定することによりｃＤＮＡの５’末端および３’末端を決定する。ｃＤＮＡの５’末端および３’末端は、それぞれ生物１の５’側の最上流および３’側の最下流のｃＤＮＡ上の相同性領域（例えば、図５の領域Ｉと領域IV）と同じ長さを取り、ベースコールエラー等を除いて生物１のｃＤＮＡ長と生物２のｃＤＮＡ長とが異ならないようにすることで決定できる。
【００５２】
第三の態様による装置におけるデータ処理をＮＳチャートにより更に詳しく説明すると図６および図７の通りである。
【００５３】
本発明によるｃＤＮＡの同定法によれば、ある生物由来の全長ｃＤＮＡをもとにして、別の生物の全長ｃＤＮＡ配列を決定できる。
【００５４】
第四の態様
本発明の第四の態様によれば、ゲノム上のｃＤＮＡ領域を同定する装置が提供される。本発明による装置の第四の態様は図８に示される通りである。この装置は、具体的には、コンピュータに基づく装置、すなわちコンピュータシステム、であることができる。
【００５５】
第四の態様は、第三の態様の入力部が、入力部、相同性検索部、組合せ候補作成部、組合せ候補絞り込み部、および組合せ選定部に置き換わっていることを特徴とする。
【００５６】
まず入力部においては、生物１から得られた全長ｃＤＮＡまたはその一部の配列データと生物２の全ゲノムまたはその一部の配列データが入力される。生物１および生物２は前記と同様にして選択できる。
【００５７】
次に相同性検索部においては、生物１の全長ｃＤＮＡまたはその一部に相同な生物２のゲノム上の領域を相同性検索する。相同性検索の確率は１０^−５０以下、好ましくは、１０^−１００以下、更に好ましくは、１０^−２００以下、で行うことができる。
【００５８】
相同性検索部は、ＢＬＡＳＴ、ＬＡＬＩＧＮ、ＡＬＩＧＮ、またはＦＡＳＴＡから選択される検索システムそのものであっても、これらの検索システムと通信回線等により接続された装置であってもよい。
【００５９】
組合せ候補作成部においては、生物１の全長ｃＤＮＡまたはその一部に相同な生物２のゲノム上の領域を相同性検索して得られた生物２のゲノム上の相同性領域について組合せが作成される。具体的には、それぞれの相同性領域につき存在する場合としない場合を想定して組合せが作成される。相同性領域がｑ個存在する場合には組合せが２^ｑ個作成される。
【００６０】
ここで、生物１のｃＤＮＡ配列と生物２のゲノム配列との間で二つの相同性領域が見いだされたと仮定して、組合せの作成について説明する。図９にあるように、生物２において四種類の相同性領域が見いだされた場合、以下のような１６通りの組合せが作成できる。
【００６１】

ＮＧ：存在し得ない組合せ
組合せ候補絞り込み部においては、作成された組合せからｃＤＮＡ配列として存在し得ない組合せが除かれる。ｃＤＮＡ配列として存在し得ない組合せとしては下記のものが挙げられる。
【００６２】
・２以上の生物２の相同性領域が対応する生物１の相同性領域が同一である組合せ（例えば、上記組合せ（５）および（７））、
・生物２の２以上の相同性領域の順序が生物１の相同性領域のそれと逆になっている組合せ（例えば、上記組合せ（６）および（７））、および
・生物２の２以上の相同性領域の向きが逆になっている組合せ（例えば、上記組合せ（９）〜（１５））。
【００６３】
ＤＮＡ配列として存在し得ない組合せとしては、更にまた、複数の相同性領域の間が３０ｂｐ〜３０ｋｂｐ（高等生物では、例えば、５ｋｂｐ〜３０ｋｂｐ）離れている組合せが挙げられる。具体的な塩基数は、生物２のゲノム上の遺伝子密度から見積もられる遺伝子間の平均的な間隔より短く（高等生物では３０ｋｂｐあたり１遺伝子）、イントロンの最短長よりも長くなるように決定できる。
【００６４】
組合せ選定部においては、得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものが選択され、選択された相同性領域の位置リストが作成される。上記例では組合せ（３）が好ましい相同性領域の組合せとして選択できる。
【００６５】
ジャンクション候補選定部においては、組合せ選定部において作成された相同性領域の位置リストが入力され、既に入力されている生物１のｃＤＮＡ配列および生物２のゲノム配列に基づいてジャンクションの候補が抽出される。
【００６６】
ジャンクション候補抽出部、演算部、ジャンクション決定部、および出力部における処理は第三の態様と同様である。
【００６７】
第五の態様ないし第八の態様
上述した第一の態様ないし第三の態様における入力部、ジャンクション候補抽出部、演算部、ジャンクション決定部、出力部、および場合によっては記憶部、並びに第四の態様の入力部、相同性検索部、組合せ候補作成部、組合せ候補絞り込み部、組合せ選定部、ジャンクション候補抽出部、演算部、ジャンクション決定部、出力部、および場合によっては記憶部はいずれも図１０に示すようなコンピュータシステム２０上で稼働するプログラムモジュールとして実現することができる。このようなプログラムモジュールを含むエキソンイントロンジャンクション決定プログラムあるいはゲノム上のｃＤＮＡ領域決定プログラムは、記録媒体であるフロッピーディスクまたはＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）等に記録され、コンピュータシステム２０により読み出されて上述したようなエキソンイントロンジャンクションの決定あるいはゲノム上のｃＤＮＡ領域の決定が行われる。
【００６８】
コンピュータシステム２０は、図１０に示すようにミニタワー等の筐体に収納されたコンピュータ本体２１と、ＣＲＴ（Cathode Ray Tube−陰極線管−）等の表示装置２２と、記録出力装置としてのプリンタ２３と、入力装置としてのキーボード２４ａおよびマウス２４ｂと、記録媒体としてのフロッピーディスク３１内の情報を読み出すためのフロッピーディスクドライブ装置２６と、記録媒体としてのＣＤ−ＲＯＭ３２内の情報を読み出すためのＣＤ−ＲＯＭドライブ装置２７とを備えている。
【００６９】
これらの構成をブロック図として示すと、図１１に示すように、コンピュータ本体２１が収納された筐体内には、ＲＡＭ（Random Access Memory）等からなる内部メモリ２５と、ハードディスクユニット２８等の外部記憶装置がさらに設けられている。なお、エキソンイントロンジャンクション決定プログラムあるいはゲノム上のｃＤＮＡ領域決定プログラムを記録したフロッピーディスク（記録媒体）３１は、図１０に示すように、フロッピーディスクドライブ装置２６のスロットに挿入されて所定の手順によりコンピュータ本体２１にインストールされる。本発明によるプログラムを記録する記録媒体は、フロッピーディスク３１に限られず、ＣＤ−ＲＯＭ３２や内部メモリ２５、ハードディスクユニット２８等の他、図示されていないＭＯ（Magnet Optical）ディスクや光ディスク、ＤＶＤ（Digital Versatile Disk）等であってもよい。
【００７０】
例
以下、本発明によりマウスｃＤＮＡからヒトゲノム上のｃＤＮＡ領域を決定した例を示す。
【００７１】
２０のマウスｃＤＮＡをマウスの脳、腎臓細胞、およびＣ５７ＢＬ／６マウス１８日齢胎児から調製し、配列決定した。
【００７２】
相同性検索はＢＬＡＳＴを用いた。相同性検索の確率は１０^−５０に設定した。
【００７３】
相同性領域の組合せのうちあり得ない組合せとして下記の組合せを除外した。
【００７４】
２以上の生物２の相同性領域が対応する生物１の相同性領域が同一である組合せ、生物２の２以上の相同性領域の順序が生物１の相同性領域のそれと逆になっている組合せ、生物２の２以上の相同性領域の向きが逆になっている組合せ、複数の相同性領域の間が５ｋｂｐ以上離れている組合せ。
【００７５】
エキソンイントロンジャンクションの検出は下記式に従って行った。
【００７６】
s(i,j)=s'(x,yij)-0.5×{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v'(k)) （II）であり、

ｍｉ＝２０、ｍｊ＝２０、ｍｙｉｊ＝４０であった。）
配列ｉおよび配列ｊはＧＴ−ＡＧルールによって選択した。
【００７７】
結果は表１および表２の通りであった。
【００７８】
【表１】

表１は、マウスタンパク質と決定されたヒトタンパク質との比較を示した図である。ａはヒトタンパク質のアミノ酸残基数を、ｂは予測されたヒトタンパク質のアミノ酸残基数を、ｃはヒトタンパク質と予測されたヒトタンパク質との間の整列したアミノ酸残基数を、ｄはマウスタンパク質のアミノ酸残基数を、それぞれ表す。局所的配列の同一性はＬＡＬＩＧＮ（Huang, X., Hardison, R. C., and Miller, W., 1990, Comput. Appl. Biosci. 6, 373-381）により算出した。
【００７９】
２０のタンパク質のうち５つのヒト全長タンパク質が本発明による方法により正確に決定された。一方、Ｇｅｎｓｃａｎは３つのヒト全長タンパク質を正確に決定できただけであり、Ｇｒａｉｌ２は全長タンパク質を正確に決定できなかった（データ省略）。
【００８０】
【表２】

表２は、本発明による方法による予測の正確性と、ＧｅｎｓｃａｎおよびＧｒａｉｌ２による予測の正確性とを比較したものである。表中の正確性（％）は、正確に決定されたアミノ酸残基数を決定された全アミノ酸残基数で割った数であり、不正確性（％）は誤って決定されたアミノ酸残基数を決定された全アミノ酸残基数で割った数である。
【００８１】
また、本発明による方法の正確性は８３．３％、不正確性は１６．７％であり、本発明の方法は、ＧｅｎｓｃａｎおよびＧｒａｉｌ２と比較して高い正確性および低い不正確性を有する。
【図面の簡単な説明】
【図１】本発明の第一の態様および第二の態様（エキソンイントロンジャンクションの決定）を示した図である。
【図２】準備される生物１のｃＤＮＡ配列と生物２のゲノム配列との関係を示した図である。
【図３】準備される生物１のｃＤＮＡ配列と生物２のゲノム配列との関係を示した図である。Ａ１Ａ２とａ１ａ２とは対応する相同性領域である。Ｂ１Ｂ２とｂ１ｂ２とは対応する相同性領域である。ＧＴ−ＡＧルールに従って配列ｉおよび配列ｊを選択している。
【図４】本発明の第三の態様（相同性領域のリストを入力することを特徴とするｃＤＮＡ領域の決定）を示した図である。
【図５】決定された相同性領域の組合せの例を示した図である。生物２のゲノム上に４個の相同性領域が見いだされている。Ｉ〜IVは相同性領域を示す。
【図６】本発明の第三の態様の手順をより具体的に示したＮＳチャートである。各相同性領域（１〜Ｎ）のスプライスサイトの候補、すなわちジャンクション候補、のリストは、図７に記載の手順に用いられる。
【図７】本発明の第三の態様の手順をより具体的に示したＮＳチャートである。各相同性領域Ｉ（Ｉ＝１〜Ｎ）の５’側のスプライスサイトの候補の数をｎ^５（Ｉ）、３’側のスプライスサイトの候補の数をｎ^３（Ｉ）、５’側のスプライスサイトの候補の位置をｍ^５（Ｉ，ｊ）（ｊ＝１〜ｎ^５（Ｉ））、３’側のスプライスサイトの候補の位置をｎ^３（Ｉ，ｉ）（ｉ＝１〜ｎ^３（Ｉ））とした。
【図８】本発明の第四の態様（相同性検索ステップを含むことを特徴とするｃＤＮＡ領域の決定）を示した図である。
【図９】生物１のｃＤＮＡ配列をもとに生物２のゲノム配列を相同性検索した例を模式的に示した図である。相同性領域は二種類であるが、生物２のゲノム上には４つの相同性領域が見いだされている。
【図１０】エキソンイントロンジャンクション決定プログラムあるいはゲノム上のｃＤＮＡ領域決定プログラムを記録したコンピュータ読み取り可能な記録媒体が用いられるコンピュータシステムを示す斜視図である。
【図１１】図１０のコンピュータシステムのハードウェア構成を示すブロック図である。
【符号の説明】
２０コンピュータシステム
２１コンピュータ本体
２２表示装置
２３プリンタ
２４ａ入力装置
２４ｂマウス
２５記録媒体（内部メモリ）
２６フロッピーディスクドライブ装置
２７ＣＤ−ＲＯＭドライブ装置
２８記録媒体（ハードディスクユニット）
３１記録媒体（フロッピーディスク）
３２記録媒体（ＣＤ−ＲＯＭ）

Claims

ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定する装置であって、
生物１の全長ｃＤＮＡ配列またはその一部分（断片ＡＢ）と、それに対応する生物２のゲノム上の遺伝子領域（断片ａｂ）とを入力する入力部と、
入力された断片ａｂにおいて重複しない塩基数１０以上の２つの配列を抽出するジャンクション候補抽出部（ここで、断片ａｂ中において５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）と、
抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b-j)+(i-a)-(B-A)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ−ｊは、生物２の遺伝子領域の３’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａは、生物２の遺伝子領域の５’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ−Ａは、生物１のｃＤＮＡの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択するジャンクション決定部と
決定されたエキソンイントロンジャンクションの位置を出力する出力部と
を含んでなる装置。
ゲノム上の遺伝子領域内においてエキソン−イントロンジャンクションを予測し、同定し、または決定する装置であって、
生物１の全長ｃＤＮＡ配列またはその一部分（断片ＡＢ）と、それに対応する生物２のゲノム上の遺伝子領域（断片ａｂ）とを入力する入力部と（ここで、生物１のｃＤＮＡ配列またはその一部分と、それに対応する生物２のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）、
生物２の遺伝子領域内のａ１ａ２とｂ１ｂ２とに挟まれる領域内において、重複しない塩基数１０以上の２つの配列を抽出するジャンクション候補抽出部と（ここで、断片ａｂ中において５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択するジャンクション決定部と
決定されたエキソンイントロンジャンクションの位置を出力する出力部と
を含んでなる装置。
ゲノム上のｃＤＮＡ領域を予測し、同定し、または決定する装置であって、
生物１から得られた全長ｃＤＮＡまたはその一部の配列データと、生物２の全ゲノムまたはその一部の配列データと、生物１のｃＤＮＡ配列および生物２のゲノム配列上における相同性領域の位置リストとを入力する入力部（ここで、生物１のｃＤＮＡ配列またはその一部分および生物２のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）と、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数１０以上の２つの配列を抽出するジャンクション候補抽出部（ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）と、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
隣り合う相同性領域に挟まれた領域それぞれについて、得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択するジャンクション決定部と
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物２のゲノム配列からイントロン配列を切り出し、残った配列を連結してｃＤＮＡ配列として出力する出力部と
を含んでなる装置。
ゲノム上のｃＤＮＡ領域を予測し、同定し、または決定する装置であって、
生物１から得られた全長ｃＤＮＡまたはその一部の配列データと、生物２の全ゲノムまたはその一部の配列データとを入力する入力部と、
生物１の全長ｃＤＮＡまたはその一部に相同な生物２のゲノム上の領域を相同性検索する相同検索部と、
得られた生物２のゲノム上の相同性領域について組合せを作成する組合せ候補作成部と、
得られた組合せからｃＤＮＡ配列として存在し得ない組合せを除く組合せ絞り込み部と、
得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものを選択し、相同性領域の位置リストを作成する組合せ選定部（ここで、生物１のｃＤＮＡ配列またはその一部分および生物２のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）と、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数１０以上の２つの配列を抽出するジャンクション候補抽出部（ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）と、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する演算部と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
隣り合う相同性領域に挟まれた領域それぞれについて、得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択するジャンクション決定部と
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物２のゲノム配列からイントロン配列を切り出し、残った配列を連結してｃＤＮＡ配列として出力する出力部と
を含んでなる装置。
組合せ絞り込み部においてｃＤＮＡ配列として存在し得ない組合せが下記からなる、請求項４に記載の装置。
・２以上の生物２の相同性領域が対応する生物１の相同性領域が同一である組合せ、
・生物２の２以上の相同性領域の順序が生物１の相同性領域のそれと逆になっている組合せ、および
・生物２の２以上の相同性領域の向きが逆になっている組合せ
相同性検索部において相同性検索が確率１０^−５０以下で実施される、請求項４に記載の装置。
相同性検索部が、ＢＬＡＳＴ、ＬＡＬＩＧＮ、ＡＬＩＧＮ、およびＦＡＳＴＡから選択される検索システムまたはその検索システムと通信回線により接続された検索部である、請求項４に記載の装置。
生物２のゲノム上において、５’側の一番上流に位置する相同性領域の更に５’側上流にある領域および３’側の一番下流に位置する相同性領域の更に３’側下流にある領域を決定する末端部分決定部を更に含んでなる、請求項３または４に記載の装置。
演算部において、ｖ（ｋ）が下記式で表される、請求項１〜８のいずれか一項に記載の装置。
ジャンクション候補抽出部において、配列ｉおよび配列ｊがＧＴ−ＡＧルールに従って抽出される、請求項の１〜９のいずれか一項に記載の装置。
ｍｉおよびｍｊがそれぞれ２０であり、ｍｙｉｊが４０である、請求項の１〜１０のいずれか一項に記載の装置。
生物１および生物２が、遺伝子の存在および／または相同性に関して高度な相関関係にある、請求項１〜１１のいずれか一項に記載の装置。
生物１および生物２が真核生物である、請求項１２に記載の装置。
生物１および生物２が哺乳動物である、請求項１２に記載の装置。
生物１がマウスであり、生物２がヒトである、請求項１４に記載の装置。
生物１がヒトであり、生物２がマウスである、請求項１４に記載の装置。
ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物１の全長ｃＤＮＡ配列またはその一部分（断片ＡＢ）に対応する生物２のゲノム上の遺伝子領域（断片ａｂ）において、重複しない塩基数１０以上の２つの配列を抽出する手順と（ここで、断片ａｂ中において５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する手順と、
s(i,j)=s'(x,yij)-C{(b-j)+(i-a)-(B-A)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ−ｊは、生物２の遺伝子領域の３’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａは、生物２の遺伝子領域の５’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ−Ａは、生物１のｃＤＮＡの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択し、エキソンイントロンジャンクションの位置を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体。
ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物１の全長ｃＤＮＡ配列またはその一部分（断片ＡＢ）に対応する生物２のゲノム上の遺伝子領域（断片ａｂ）（ここで、生物１のｃＤＮＡ配列またはその一部分と、それに対応する生物２のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）内のａ１ａ２とｂ１ｂ２とに挟まれる領域内において、重複しない塩基数１０以上の２つの配列を抽出する手順と（ここで、断片ａｂ中において５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する手順と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択し、エキソンイントロンジャンクションの位置を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体。
ゲノム上のｃＤＮＡ領域を予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物１から得られた全長ｃＤＮＡまたはその一部の配列データと、生物２の全ゲノムまたはその一部の配列データと、生物１のｃＤＮＡ配列および生物２のゲノム配列上における相同性領域の位置リストとに基づいて（ここで、生物１のｃＤＮＡ配列またはその一部分および生物２のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）、生物２のゲノム上において隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数１０以上の２つの配列を抽出する手順と（ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する手順と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
隣り合う相同性領域に挟まれた領域それぞれについて、得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択する手順と、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物２のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりｃＤＮＡ配列を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体。
ゲノム上のｃＤＮＡ領域を予測し、同定し、または決定するプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
生物１から得られた全長ｃＤＮＡまたはその一部の配列データと、生物２の全ゲノムまたはその一部の配列データとに基づいて、生物１の全長ｃＤＮＡまたはその一部に相同な生物２のゲノム上の領域を相同性検索する手順と、
得られた生物２のゲノム上の相同性領域について組合せを作成する手順と、
得られた組合せからｃＤＮＡ配列として存在し得ない組合せを除く手順と、
得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものを選択し、相同性領域の位置リストを作成する手順と（ここで、生物１のｃＤＮＡ配列またはその一部分および生物２のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）、
生物２のゲノム上において隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数１０以上の２つの配列を抽出する手順と（ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算する手順と、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
隣り合う相同性領域に挟まれた領域それぞれについて、得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択する手順と、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物２のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりｃＤＮＡ配列を決定する手順と
を実行させるプログラムを記録したコンピュータ読みとり可能な記録媒体。
得られた組合せのうちｃＤＮＡ配列として存在し得ない組合せが下記からなる、請求項２０に記載の記録媒体。
・２以上の生物２の相同性領域が対応する生物１の相同性領域が同一である組合せ、
・生物２の２以上の相同性領域の順序が生物１の相同性領域のそれと逆になっている組合せ、および
・生物２の２以上の相同性領域の向きが逆になっている組合せ
生物２のゲノム上の領域の相同性検索する手順において、相同性検索が確率１０^−５０以下で実施される、請求項２０に記載の記録媒体。
生物２のゲノム上の領域の相同性検索する手順が、ＢＬＡＳＴ、ＬＡＬＩＧＮ、ＡＬＩＧＮ、およびＦＡＳＴＡから選択される検索システムにより相同性検索する手順を含んでなることを特徴とする、請求項２０に記載の記録媒体。
生物２のゲノム上において、５’側の一番上流に位置する相同性領域の更に５’側上流にある領域および３’側の一番下流に位置する相同性領域の更に３’側下流にある領域を決定する手順を更に含んでなる、請求項１９または２０に記載の記録媒体。
ｖ（ｋ）が下記式で表される、請求項１７〜２４のいずれか一項に記載の記録媒体。
配列ｉおよび配列ｊの抽出手順において、配列ｉおよび配列ｊがＧＴ−ＡＧルールに従って抽出される、請求項の１７〜２５のいずれか一項に記載の記録媒体。
ｓ（ｉ，ｊ）の計算手順において、ｍｉおよびｍｊがそれぞれ２０であり、ｍｙｉｊが４０である、請求項の１７〜２６のいずれか一項に記載の記録媒体。
生物１および生物２が、遺伝子の存在および／または相同性に関して高度な相関関係にある、請求項１７〜２７のいずれか一項に記載の記録媒体。
生物１および生物２が真核生物である、請求項２８に記載の記録媒体。
生物１および生物２が哺乳動物である、請求項２８に記載の記録媒体。
生物１がマウスであり、生物２がヒトである、請求項３０に記載の記録媒体。
生物１がヒトであり、生物２がマウスである、請求項３０に記載の記録媒体。
ゲノム上の遺伝子領域内においてエキソンイントロンジャンクションを予測し、同定し、または決定する方法であって、
生物１の全長ｃＤＮＡ配列またはその一部分（断片ＡＢ）と、それに対応する生物２のゲノム上の遺伝子領域（断片ａｂ）とを準備し、
断片ａｂにおいて重複しない塩基数１０以上の２つの配列を抽出し（ここで、断片ａｂ中において５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算し、
s(i,j)=s ’ (x,yij)-C{(b-j)+(i-a)-(B-A)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ−ｊは、生物２の遺伝子領域の３’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａは、生物２の遺伝子領域の５’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ−Ａは、生物１のｃＤＮＡの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択し、エキソンイントロンジャンクションの位置を決定する
工程を含んでなる方法。
ゲノム上の遺伝子領域内においてエキソン−イントロンジャンクションを予測し、同定し、または決定する方法であって、
生物１の全長ｃＤＮＡ配列またはその一部分（断片ＡＢ）と、それに対応する生物２のゲノム上の遺伝子領域（断片ａｂ）とを準備し（ここで、生物１のｃＤＮＡ配列またはその一部分と、それに対応する生物２のゲノム上の遺伝子領域とが、それぞれ対応する二つの相同性領域に挟まれており、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）、
生物２の遺伝子領域内のａ１ａ２とｂ１ｂ２とに挟まれる領域内において、重複しない塩基数１０以上の２つの配列を抽出し（ここで、断片ａｂ中において５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算し、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択し、エキソンイントロンジャンクションの位置を決定する
工程を含んでなる方法。
ゲノム上のｃＤＮＡ領域を予測し、同定し、または決定する方法であって、
生物１から得られた全長ｃＤＮＡまたはその一部の配列データと、生物２の全ゲノムまたはその一部の配列データと、生物１のｃＤＮＡ配列および生物２のゲノム配列上における相同性領域の位置リストと準備し（ここで、生物１のｃＤＮＡ配列またはその一部分および生物２のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数１０以上の２つの配列を抽出し（ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算し、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
隣り合う相同性領域に挟まれた領域それぞれについて、得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択し、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物２のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりｃＤＮＡ配列を決定する
工程を含んでなる方法。
ゲノム上のｃＤＮＡ領域を予測し、同定し、または決定する方法であって、
生物１から得られた全長ｃＤＮＡまたはその一部の配列データと、生物２の全ゲノムまたはその一部の配列データとを準備し、
生物１の全長ｃＤＮＡまたはその一部に相同な生物２のゲノム上の領域を相同性検索し、
得られた生物２のゲノム上の相同性領域について組合せを作成し、
得られた組合せからｃＤＮＡ配列として存在し得ない組合せを除き、
得られた組合せのうち組合せがカバーするゲノム上の範囲が最大のものを選択し、相同性領域の位置リストを作成し（ここで、生物１のｃＤＮＡ配列またはその一部分および生物２のゲノム上の遺伝子領域上には、それぞれ対応する二以上の相同性領域が存在し、隣り合う相同性領域それぞれにおいて、生物１のｃＤＮＡ配列における相同性領域がＡ１Ａ２、Ｂ１Ｂ２であり、生物２のゲノム上の相同性領域がａ１ａ２、ｂ１ｂ２であり、Ａ１Ａ２はａ１ａ２と、Ｂ１Ｂ２はｂ１ｂ２とそれぞれ相同性を有する）、
隣り合う相同性領域に挟まれた領域それぞれにおいて、重複しない塩基数１０以上の２つの配列を抽出し（ここで、隣り合う相同性領域に挟まれた領域中それぞれにおいて５’末端側に存在する配列をｉとし、３’末端側に存在する配列をｊとする）、
隣り合う相同性領域に挟まれた領域それぞれについて、抽出された配列ｉおよび配列ｊについて下記式で表されるｓ（ｉ，ｊ）を計算し、
s(i,j)=s'(x,yij)-C{(b1-j)+(i-a2)-(B1-A2)}² （Ｉ）
（上記式中、
s'(x,yij)=max(v(k)) （II）であり、

ｂ１−ｊは、ｂ１ｂ２の５’末端から配列ｊの５’末端までの塩基数を表し、
ｉ−ａ２は、ａ１ａ２の３’末端から配列ｉの３’末端までの塩基数を表し、
Ｂ１−Ａ２は、Ａ１Ａ２の３’末端からＢ１Ｂ２の５’末端までの塩基数を表し、
Ｃは、比例係数であり、０〜１０であり、
ｖ（ｋ）は、ｘおよびｙｉｊのオーバーラップスコアを表し、ここで、ｘは生物１のｃＤＮＡ配列であり、ｙｉｊは配列ｉおよびｊを連続してなる断片であり、ｋは１〜ｍｙｉｊの整数を表し、
Ｍはｘとｙｉｊとのマトリックスを表し、ここで、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と同じときにはＭ（ａ，ｂ）＝１であり、ｘのａ番目の塩基がｙｉｊのｂ番目の塩基と異なるときにはＭ（ａ，ｂ）＝０であり、
ｍｉは配列ｉの塩基数を表し、ｍｉ≧１０であり、
ｍｊは配列ｊの塩基数を表し、ｍｊ≧１０であり、
ｍｙｉｊは配列ｙｉｊの塩基数を表し、ｍｙｉｊ≧２０である。）
隣り合う相同性領域に挟まれた領域それぞれについて、得られたｓ（ｉ，ｊ）が最大となるように配列ｉおよび配列ｊの組合せを選択し、
隣り合う相同性領域に挟まれた領域それぞれについて決定されたエキソンイントロンジャンクションの位置に従って生物２のゲノム配列からイントロン配列を切り出し、残った配列を連結することによりｃＤＮＡ配列を決定する
工程を含んでなる方法。