JP4716651B2

JP4716651B2 - スプライシングバリアントの特定方法

Info

Publication number: JP4716651B2
Application number: JP2003368422A
Authority: JP
Inventors: 春信湯野川; 陽司三上
Original assignee: MAZE, INC.
Current assignee: MAZE, INC.
Priority date: 2003-10-29
Filing date: 2003-10-29
Publication date: 2011-07-06
Anticipated expiration: 2023-10-29
Also published as: JP2005135053A

Description

本発明は、転写配列断片のデータベースおよびゲノム配列のデータベースから、スプライシングバリアントの遺伝子候補配列を特定する方法に関する。

ヒトやマウスなど真核生物の遺伝子には、タンパク質に翻訳されない領域（イントロン）が含まれており、DNA中の遺伝子から転写によってメッセンジャーRNA（ｍＲＮＡ）が作られる際に、スプライシングという処理によってタンパク質に翻訳される領域のみ（エキソン）が作られる。この過程で同一遺伝子から、異なったスプライシングによって異なった複数のｍＲＮＡが作られることがある。この場合には結果としてｍRNAから翻訳される蛋白質も異なる。このように同一遺伝子に由来する、異なるスプライシングに起因して産生される異なったｍＲＮＡをスプライシングバリアントという。

近年ゲノム解析の成果として、ゲノム上の遺伝子の数は約3万2000であるのに、蛋白質の種類が約10万と遺伝子数より多い理由として、このスプライシングバリアントが注目されており、これに関するデータを収集することが蛋白質の機能解析に有用であると考えられるようになった。

スプライシングバリアントが生じるパターンを、図２に基づいて説明する。まずゲノム配列のパターンでは蛋白質に翻訳される塩基配列部分すなわちエキソンを矩形で表し、蛋白質に翻訳されない塩基配列部分すなわちイントロンを線で表す。次にｍＲＮＡのパターンでは上記ゲノム配列の図にマッピングした状態で表現しており、ゲノムの図と上下関係で一致する位置のエキソンは転写された状態を表す。また線は転写されないイントロンを表す。塗りつぶしの矩形は見かけ上転写されたエキソンであるが、内容はイントロン部分である。エキソンの欠けた部分は二重線で表す。１から４までのパターンはイントロン部分が混入するパターンであり、５から７はエキソン部分が欠けるパターンである。実際にはこの基本パターンの単独または組み合わせによりスプライシングバリアントが生じる。ここで示した図によってスプライシングバリアントの生じる全てのケースを網羅したはずである。

従来、このスプライシングバリアントを研究・収集する試みはいくつかあり、ゲノム上にＥＳＴ（Expressed Sequence Tag)の塩基配列を配置するプログラム（Genome Res., 11, 889 2001）では各アライメントの接続状況をスコアにして、スコアの最大値をとるパスを発見して、スプライシングバリアントを見つける。しかしこの方法では末端エキソンが考慮されない。ＥＳＴおよびｍＲＮＡ配列同士をアライメントする方法（Nucleic Acids Res., 30, 186, 2002）ではわずかな変異が無視される。

Genome Res., 11, 889 2001 Nucleic Acids Res., 30, 186 2002

本発明の目的は、転写配列断片のデータベースおよびゲノムデータベスから、既知遺伝子のスプライシングバリアントを、比較的簡単な操作により網羅的に効率良く発見・収集することができる、スプライシングバリアントの特定方法を提供することである。

コンピューターにより自動的に行う方法であって、(1) 既知遺伝子ごとの転写産物の塩基配列断片のデータをデータベースから集めるステップ、
(2) ゲノムデータベースより該既知遺伝子の配列を切り出し、参照配列とするステップ、
(3) 転写産物の塩基配列断片を参照配列に相同性検索し、ヒットした配列をゲノム配列上にマッピングするステップ、
(4) 得られた配列断片の集まりの中の、２つの配列を比較し、ゲノム位置が一致し、かつ方向が一致し、かつ一方の配列のエキソンと他方の配列のイントロンがゲノム上の位置で重複する部分がない場合には、２つの配列は同一のスプライシング産物とみなし、マージしてひとつの配列とするステップ、
(5) マージした配列と次の別の配列に対して以上の操作を繰り返し、すべての配列断片に対して以上の操作を繰り返すステップ、
(6) 最後までマージされない配列はスプライシングバリアントと特定するステップ、を含むスプライシングバリアントの特定方法であって、
(1) 既知遺伝子ごとの転写産物の塩基配列断片である、ESTのデータを集めるステップ、
(2) 既知遺伝子の属する染色体番号とそのゲノム上の位置リストを作成するステップ、
(3) ゲノムコンティグ配列より該既知遺伝子の５’側上流域から３’側下流域までの配列を切り出し、参照配列とするステップ、
(4) ESTのデータから、ベクター由来配列除去プログラムにより、不要なベクター由来配列を除くステップ、
(5) EST配列をステップ(3)で作成した参照配列に相同性検索するステップ、
(6) 既知遺伝子ごとに、EST配列を、ステップ(3)で求めた参照配列に対してマッピングプログラムで処理し、それによってEST配列をエキソン単位に分割して、既知遺伝子のゲノム配列にマッピングするステップ、
(7) ステップ(6)の出力結果を分析し、全てのイントロンが同一方向で、ゲノムにマップされないイントロンを含まない、および全長の９０％以上がゲノムにマップされ、シングルエキソンではないという条件を満足する配列のみを対象としてエキソン末端単位の位置情報リストを作成するステップ、
(8) 位置情報リストを元に、以下の(i)〜(vi)の６段階の詳細ステップでスプライシングバリアントを作製するステップ、
(i) ESTをその中のエキソン数で降順に並べるステップ（リスト先頭のESTを基準配列、二番目のESTを対照配列と呼ぶ）、
(ii) 両 EST の位置情報リストを比較し、下記の条件を満たすとき、これらは同一のスプライシング産物に由来すると見なし、両者のエキソンーイントロン境界の位置を保ったまま両配列をマージし、仮想 mRNA配列を作製するステップ、
条件(a)基準配列と対照配列がゲノム上で重複する。かつ基準配列と対照配列の方向が一致する、(b)かつ基準配列のエキソンが、対照配列のイントロンとゲノム位置で重複部分を持たない、(c)かつ基準配列のイントロンが、対照配列のエキソンと、ゲノム位置で重複部分を持たない
(iii) マージ操作では、基準配列に対し対照配列の一部を追加することにより基準配列の末端を伸長させるステップ、
(iv) マージされる配列がなくなった基準配列を位置情報リストから除くステップ、
(v) リストに更に EST がある場合、これを新たな対照配列として基準配列と比較し、条件を満たす場合にはマージ作業を行なうステップ、
(vi) 上記作業を、新たにマージされる配列がなくなるまで繰り返し、残ったリストで示される配列をスプライシングバリアントとするステップ、
を含むスプライシングバリアントの特定方法を提供する。

本発明により、ヒトその他の種のゲノムデータ、転写産物の遺伝子塩基配列断片のデータベースから網羅的にスプライシングバリアントの塩基配列を特定し、収集することができる。同一遺伝子から翻訳される異なった生理活性を持つ蛋白質についての情報が得られる。遺伝子発現調節機構の解明や、新規バリアント遺伝子の観点から、ゲノム情報をもとにした医薬品開発に貢献できる。

上記の通り、本発明のスプライシングバリアントの特定方法では、まず既知遺伝子ごとの転写産物の塩基配列断片のデータベースを集める。次にゲノムデータベースより該既知遺伝子の配列を切り出し、参照配列とする。次に転写産物の塩基配列断片を参照配列に相同性検索し、ヒットした配列をゲノム配列上にマッピングする。ここでゲノムとのマッピング状況を解析し、適切な配列断片のみを対象とする（詳細は後述）。次にこうして得られた配列断片の集まりの中の、２つの配列を比較し、ゲノム位置が一致し、かつ方向が一致し、かつ一方の配列のエキソンと他方の配列のイントロンがゲノム上の位置で重複する部分がない場合には、２つの配列は同一のスプライシング産物とみなし、マージしてひとつの配列とする。このマージした配列と次の別の配列に対して以上の操作を繰り返す。すべての配列断片に対して以上の操作を繰り返す。最後までマージされない配列はスプライシングバリアントとする。

以上の方法で、図２で示した全てのパターンが検出可能であることは明らかである。また配列をゲノムにマッピングするので、末端のエキソンまで正確であると推定されるので、網羅性が確保されることになる。

以下に、本発明の実施の形態を図１に沿って、具体的により詳細に説明する。

工程１：
まず既知遺伝子ごとの転写産物の塩基配列断片である、ESTのデータを集める。これはNCBI GenBank dbEST等から得ることができる(URL:ftp://ftp.ncbi.nih.gov/repository/dbEST/)。さらに既知遺伝子およびゲノムコンティグ配列とその配列情報を集める。これは例えばNCBIのRefSeq等を利用することができる(URL: ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/)。

工程２:
既知遺伝子の属する染色体番号とそのゲノム上の位置リストを作成する。

工程３：
ゲノムコンティグ配列より該既知遺伝子の５’側２０ｋｂ上流から３’側２０ｋｂ下流までの配列を切り出し、参照配列とする。

工程４:
次にESTのデータから、ベクター由来配列除去プログラムにより、不要なベクター由来配列を除く。この処理は、例えばNCBIにより公開されている周知のベクター配列データのUnivec（ftp://ftp.ncbi.nih.gov/pub/UniVec/.）に対して行う。この処理を行うプログラムは周知であり、例えばVecScreenを利用することができる。（ftp://ftp.ncbi.nih.gov/toolbox/ncbi_tools/ より無償公開）。

工程５:
次にEST配列を工程３で作成した参照配列に相同性検索する。相同性検索は周知のプログラムを用いて行うことができ、例えば、BLASTプログラムが使用できる。（ftp://ftp.ncbi.nih.gov/toolbox/ncbi_tools/ より無償公開）。こうしてEST配列がトップヒットする既知遺伝子を検索する。

工程６:
既知遺伝子ごとに、EST配列を、工程３で求めた参照配列に対してマッピングする。マッピングは、例えば周知のsim4プログラムを用いて行うことができる（sim4はhttp://globin.cse.psu.edu/ より無償公開）。こうしてEST配列をエキソン単位に分割して、既知遺伝子のゲノム配列にマッピングする。

工程７:
sim4等のマッピングプログラムの出力結果を分析して、エキソン末端単位の位置情報リストを作成する。位置情報リストは図３参照。ここでは、次の条件に合う配列のみを対象にする。すなわち全てのイントロンが同一方向で、ゲノムにマップされないイントロンを含まない、および全長の９０％以上がゲノムにマップされ、シングルエキソンではない。

なお、図３には、位置情報リスト（一部）が示されており、その意味するところは次の通りである。
・一行が一箇所のエキソンイントロン境界、またはエキソン末端
（これらを“ボーダー”と称す）を表す。
・１レコード目：ボーダーの属する既知遺伝子のアクセッション番号
・２レコード目：ボーダーの属するEST配列のアクセッション番号
・３レコード目：ボーダーのゲノムコンティグ上位置
・４レコード目：ボーダーのEST配列上の位置
・５レコード目：ボーダーの種類識別記号（＊）
・６レコード目：ボーダーの属する既知遺伝子の転写方向（＊＊）

（＊）ボーダーの種類識別記号・凡例
A：エキソンのアクセプター側境界
D：エキソンのドナー側境界
L：エキソン末端（ゲノム位置座標の小さい側）
U：エキソン末端（ゲノム位置座標の大きい側）
（＊＊）ボーダーの属する既知遺伝子の転写方向・凡例
1：ボーダーの属する既知遺伝子の転写がゲノムコンティグに対して順方向
-1：ボーダーの属する既知遺伝子の転写がゲノムコンティグに対して逆方向
0：ボーダー種類が U または L のとき

工程８：
位置情報リストを元に、以下の５段階の詳細工程でスプライシングバリアントを作製する。

工程８−１：
ESTをその中のエキソン数で降順に並べる。リスト先頭のESTを基準配列、二番目のESTを対照配列と呼ぶ。

工程８−２:
両ESTの位置情報リストを比較し、下記の条件を満たすとき、これらは同一のスプライシング産物に由来すると見なすことができる。よって両者のエキソンーイントロン境界の位置を保ったま両配列を統合し（以下マージと呼ぶ）、仮想 mRNA配列を作製する。
条件：基準配列と対照配列がゲノム上で重複する。かつ基準配列と対照配列の方向が一致する。かつ基準配列のエキソンが、対照配列のイントロンとゲノム位置で重複部分を持たない。かつ基準配列のイントロンが、対照配列のエキソンと、ゲノム位置で重複部分を持たない。

仮想ｍＲＮＡリスト（一部）の例を図４に示す。図４の意味するところは次の通りである。
・一行が一箇所のエキソンイントロン境界、またはエキソン末端
（これらを“ボーダー”と称す）を表す。
・１レコード目：ボーダーの属する既知遺伝子のアクセッション番号
・２レコード目：ボーダーの属する既知遺伝子のスプライシングバリアント番号
・３レコード目：ボーダーのゲノムコンティグ上位置
・４レコード目：ボーダーの配列上の位置（当面不要なため、全て "0"）
・５レコード目：ボーダーの種類識別記号（＊）
・６レコード目：ボーダーの属する既知遺伝子の転写方向（＊＊）

工程８−３：
マージ操作では、基準配列に対し対照配列の一部を追加することにより基準配列の末端を伸長させる。具体的には以下の作業を行なう。ゲノム位置上で基準配列の外側に存在する、対照配列のエクソン端の位置情報を基準配列の位置情報に加える。次いで位置情報が加わった側の基準配列の配列末端位置情報を削除する。マージ後の配列を新たな基準配列とする。マージを行なった対照配列は、リストから除く。以下にマージによる位置情報リストの操作を例示する。ある既知遺伝子 X について、EST が以下のようにマップされたとする。 "==" はエキソンを、"-" はイントロンをそれぞれ示す。

a b c d e f g h i j エキソン端のゲノム位置座標（bp）
====--=====----===== 基準配列（アクセッション番号 A）
===--======--=== 対照配列（アクセッション番号 B）
===--======--=====----===== 仮想mRNA

マージ以前の位置情報リストは、下記のようになる。位置情報リストの（凡例）は図３について上記した通りである。
Aの位置情報リスト：
X A d 0 L 0
X A e 0 D 1
X A f 0 A 1
X A h 0 D 1
X A i 0 A 1
X A j 0 U 0
Bの位置情報リスト：
X B a 0 L 0
X B b 0 D 1
X B c 0 A 1
X B e 0 D 1
X B f 0 A 1
X B g 0 U 0

８−３の工程により、Bの１-３行目のエキソン端位置情報を、基準配列の位置情報に加え、Aのリスト１行目の基準配列の末端位置情報を削除する。その結果、マージされた位置情報リストは次のようになる。

X A a 0 L 0 ←加えられた情報
X A b 0 D 1 ←加えられた情報
X A c 0 A 1 ←加えられた情報
X A e 0 D 1
X A f 0 A 1
X A h 0 D 1
X A i 0 A 1
X A j 0 U 0
リストから削除された情報：
X A d 0 L 0

既知遺伝子 X に対してマップされたEST が、A, B 以外にも存在する場合は、これを新たな対照配列として同様の操作をリストに対して行なう。

工程８−４:
リストに更に EST がある場合、これを新たな対照配列として基準配列と比較し、条件を満たす場合にはマージ作業を行なう。

工程８−５：
上記作業を、新たにマージされる配列がなくなるまで繰り返し、残ったリストで示される配列をスプライシングバリアントとする。

以下、本発明を２１番染色体について、上記工程に沿って実施した例に基づきより具体的に説明する。もっとも、本発明は下記実施例に限定されるものではない。

工程１：
既知遺伝子ごとの転写産物の塩基配列断片である、ESTのデータを集める。さらに既知遺伝子およびゲノムコンティグ配列とその配列情報を集める。
インターネット経由でNCBI ftp サイトより収集する。
EST配列 . . . . NCBI GenBank dbEST
(URL: ftp://ftp.ncbi.nih.gov/blast/db/FASTA/est_human.Z)
既知遺伝子 . . . . NCBI RefSeq NM エントリ
(URL: ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/RNA/rna.fa.gz)
ゲノムコンティグ配列 . . . NCBI RefSeq
(URL: ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/CHR_21/hs_chr21.fa.gz)

工程２：
既知遺伝子の属する染色体番号とそのゲノム上の位置リストを作成する。インターネット経由でNCBI ftp サイトより、NCBI map データベースファイル hs_esttrn.md.gz
(URL:ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/maps/mapview/BUILD.30/hs_esttrn.md.gz)を取得する。データベースファイルから、既知配列のアクセッション、染色体番号、染色体上の位置情報等を抽出して、下記表１のように各遺伝子のエキソンごとに一行ずつのテーブルを作成する。

表１既知遺伝子のエキソン情報テーブル

工程３：
工程２で作製したテーブルを使用して、該既知遺伝子の５'側２０ｋｂ上流から３'側２０ｋｂ下流までのゲノム位置座標を計算し、既知遺伝子ごとに一行の下記表２に示すリストを作製する。

表２参照配列の位置情報リスト

表２のリストに記された位置に相当する配列を、コンティグ配列より切り出し、fasta 形式ファイルを作成する。既知遺伝子NM_145033.1 に対して実行した例を図５に示す。

工程４：
ESTのデータから、ベクター由来配列除去プログラムにより、不要なベクター由来配列を除く。すなわち、次のコマンドによりvecscreenプログラムを実行し、EST 配列に対して、ベクター配列ファイルUniVec_Coreに記された配列を参照しながら、EST 配列中のベクター部分を同定する。EST 配列ファイルは、工程１で取得したものを使用する。
cat est_human.fa |vecscreen -i stdin -d UniVec_Core

この結果、図６のようなファイルを得る。出力結果ファイルから、"Strong match" 部分、及びその周辺の Moderate mach, Weak match, Suspect origin と記された配列部分を除く。その結果例えば図６に示すベクター配列ヒット部分をもつEST 配列AI434078.1 は、下記表３のように加工される。

表３ EST 配列の加工（EST配列AI434078.1 の例）

工程５：
次にEST配列を工程３で作成した参照配列に相同性検索する。相同性検索はBLASTプログラムでEST配列がトップヒットする既知遺伝子を検索する。EST 配列は工程４で作製したものを使用する。この結果、図７のようなファイルを得る。blast 結果ファイルより、各EST がトップヒットする既知遺伝子のアクセッション番号を抽出した後、これを既知遺伝子に対してグループ化し、以下のような既知遺伝子ごとのヒットEST リストを作製する。

（既知遺伝子NM_145033.1 の例）
AA126210.1
AA126706.1
AA128167.1
AA136052.1
AA224248.1
AA357518.1
AA360531.1
AI810934.1
AI818180.1
AU136703.1
BE646296.1
BF437079.1
BF476806.1

次いで、既知遺伝子ごとに、EST 番号リストに記されたEST 配列のマルチ fasta形式ファイルを作成する。このファイルには既知遺伝子の配列も付け加える。図８参照。

工程６：
既知遺伝子ごとに、EST配列を、工程３で求めた参照配列に対してsim4プログラムで処理する。こうしてEST配列をエキソン単位に分割して、既知遺伝子のゲノム配列にマッピングする。すなわち、以下のコマンドにより sim4プログラムを実行し、EST 配列を参照配列にエキソン単位でマッピングすると同時に、EST の転写方向を決定する。EST 配列は工程５で、参照配列は工程３でそれぞれ作製したものを使用した。
sim4 .. NM_145033.1.fa est_NM_145033.1.fa
（既知遺伝子NM_145033.1 の場合）
NM_145033.1.faは工程３で作製した参照配列ファイル。
est_NM_145033.1.faは工程５で作製した、NM_145033.1 にヒットするEST配列ファイル。この結果、図９のようなファイルを得る。

工程７：
図９の、sim4の出力結果を分析して、エキソン末端単位の位置情報リストを作成する。ここでは、次の条件に合う配列のみを対象にする。すなわち全てのイントロンが同一方向で、ゲノムにマップされないイントロンを含まず、全長の９０％以上がゲノムにマップされ、シングルエキソンではない。

sim4 結果ファイルより、次の条件を満たす配列のみをピックアップし、その位置情報、転写方向等の情報を抽出する。これら情報はエキソン端ごとに一行にまとめ、下記表４に示す形式でリスト化する。

表４位置情報リスト（既知遺伝子NM_145033.1の例）

工程８：
位置情報リストを元に、既知遺伝子ごとに以下の手順でスプライシングバリアントを検出する。まず既知配列とゲノム位置が重複し、かつ転写方向が一致する配列に対して、配列の持つエキソン数で、位置情報リストを降順に並べる。次に先頭と２番目の２つの配列を比較し、一方の配列のエキソンと他方の配列のイントロンがゲノム上の位置で重複する部分がない、かつイントロンと他方の配列のエキソンがゲノム上の位置で重複する部分がない場合には、２つの配列は同一のスプライシング産物とみなし、マージする。さらに、マージした配列と次の配列に対して上記の方法で比較とマージを実施する。すべてのESTに対して以上の操作を繰り返す。新しくマージされる配列がなくなれば、最後までマージされない配列をスプライシングバリアントとして、仮想ｍRNAリストに書き出す。

表４の位置情報リストに記された配列で例示する。このリストに記された配列は、下記表５のような位置関係にある。

表５ NM_145033.1の位置情報リストに記された配列のマッピング概念図

始めに、位置情報リスト記載配列は全てゲノム上で重複し、かつ既知遺伝子の転写方向と同一である。まずAI810934.1 を基準配列、 BF437079.1 を対照配列として比較する。エキソンン-イントロンが重複するため、マージされない。次にBE646296.1 を対照配列として比較する。エキソンン-イントロンが重複するため、マージされない。次にNM_145033.1 を対照配列として比較する。エキソンン-イントロンが重複するため、マージされない。AI810934.1 はどの配列ともマージされず、この配列単独でスプライシングバリアントとみなし、位置情報リストから除き、位置情報リストと同じ書式で仮想mRNA リストに書き出す。次にBF437079.1 を基準配列、BE646296.1 を対照配列として比較する。エキソンン-イントロンが重複しないためマージを行い、BF437079.1の位置情報を次のように書き換える。BE646296.1 の位置情報はリストから除く。
NM_145033.1 BE646296.1 20394 0 L 0 ←伸長した末端。
NM_145033.1 BE646296.1 20567 0 D 1
NM_145033.1 BE646296.1 20736 0 A 1
NM_145033.1 BE646296.1 21038 0 U 0

これを新たな基準配列として、NM_145033.1と比較する。エキソンン-イントロンが重複しないためマージされ、BF437079.1の位置情報を次のように書き換える。NM_145033.1の位置情報はリストから除く。
NM_145033.1 BE646296.1 20001 0 L 0 ←伸長した末端。
NM_145033.1 BE646296.1 20567 0 D 1
NM_145033.1 BE646296.1 20736 0 A 1
NM_145033.1 BE646296.1 21038 0 U 0

比較するべき配列がリストより無くなったため、比較・マージ処理を終了し、残ったBF437079.1の位置情報を仮想 mRNA リストに書き出す。この結果、入力配列は、スプライスパターンの異なる下記の２つの配列に収束した。
NM_145033.1 AI810934.1 20074 0 L 0
NM_145033.1 AI810934.1 20211 0 D 1
NM_145033.1 AI810934.1 20736 0 A 1
NM_145033.1 AI810934.1 21038 0 U 0
NM_145033.1 BE646296.1 20001 0 L 0
NM_145033.1 BE646296.1 20567 0 D 1
NM_145033.1 BE646296.1 20736 0 A 1
NM_145033.1 BE646296.1 21038 0 U 0

以上に示す処理を実行した結果、２１番染色体中の位置が独立した既知遺伝子（RefSeq で先頭がNMのアクセッション番号を持つもの）157個を抽出し、EST 情報は GenBank dbEST より２１番染色体に属するもの27,510個を取得した。ゲノム配列は、NCBI RefSeq Build 30 のゲノムコンティグを使用した。これらのデータを処理した結果、1,142 個のスプライシングバリアント候補が抽出された。遺伝子あたりスプライシングバリアント数が最大のものは遺伝子NM_000454.1 で、スプライシングバリアント数 41個であった。また、スプライシングバリアント作成時に、末端エキソンを無視した場合には、456個のスプライシングバリアント候補が抽出され、遺伝子あたりスプライシングバリアント数が最大のものは遺伝子NM_021941.1で、スプライシングバリアント数 14個であった。

本発明の方法の全体の流れを模式的に示すフローチャートである。スプライシングバリアントの種々のパターンを模式的に示す図である。本発明の方法の中途段階で得られた位置情報リスト（一部）を示す図である。本発明の方法の中途段階で得られた仮想ｍRNAリスト（一部）を示す図である。既知遺伝子NM_145033.1 のFASTA形式ファイルを示す図である。本発明の中途段階で行なったVecScreen 処理結果ファイル（EST配列AI434078.1 の場合）を示す図である。図６．１の続きを示す図である。本発明の方法の中途段階で得られたblast 結果ファイル（EST配列 AI434078.1 の例）を示す図である。本発明の方法の中途段階で得られたヒットEST 配列ファイルを示す図である。本発明の方法の中途段階で得られたsim4 結果ファイル（既知遺伝子NM_145033.1の例）を示す図である。図９．１の続きを示す図である。

Claims

コンピューターにより自動的に行う方法であって、(1) 既知遺伝子ごとの転写産物の塩基配列断片のデータをデータベースから集めるステップ、
(2) ゲノムデータベースより該既知遺伝子の配列を切り出し、参照配列とするステップ、
(3) 転写産物の塩基配列断片を参照配列に相同性検索し、ヒットした配列をゲノム配列上にマッピングするステップ、
(4) 得られた配列断片の集まりの中の、２つの配列を比較し、ゲノム位置が一致し、かつ方向が一致し、かつ一方の配列のエキソンと他方の配列のイントロンがゲノム上の位置で重複する部分がない場合には、２つの配列は同一のスプライシング産物とみなし、マージしてひとつの配列とするステップ、
(5) マージした配列と次の別の配列に対して以上の操作を繰り返し、すべての配列断片に対して以上の操作を繰り返すステップ、
(6) 最後までマージされない配列はスプライシングバリアントと特定するステップ、を含むスプライシングバリアントの特定方法であって、
(1) 既知遺伝子ごとの転写産物の塩基配列断片である、ESTのデータを集めるステップ、
(2) 既知遺伝子の属する染色体番号とそのゲノム上の位置リストを作成するステップ、
(3) ゲノムコンティグ配列より該既知遺伝子の５’側上流域から３’側下流域までの配列を切り出し、参照配列とするステップ、
(4) ESTのデータから、ベクター由来配列除去プログラムにより、不要なベクター由来配列を除くステップ、
(5) EST配列をステップ(3)で作成した参照配列に相同性検索するステップ、
(6) 既知遺伝子ごとに、EST配列を、ステップ(3)で求めた参照配列に対してマッピングプログラムで処理し、それによってEST配列をエキソン単位に分割して、既知遺伝子のゲノム配列にマッピングするステップ、
(7) ステップ(6)の出力結果を分析し、全てのイントロンが同一方向で、ゲノムにマップされないイントロンを含まない、および全長の９０％以上がゲノムにマップされ、シングルエキソンではないという条件を満足する配列のみを対象としてエキソン末端単位の位置情報リストを作成するステップ、
(8) 位置情報リストを元に、以下の(i)〜(vi)の６段階の詳細ステップでスプライシングバリアントを作製するステップ、
(i) ESTをその中のエキソン数で降順に並べるステップ（リスト先頭のESTを基準配列、二番目のESTを対照配列と呼ぶ）、
(ii) 両 EST の位置情報リストを比較し、下記の条件を満たすとき、これらは同一のスプライシング産物に由来すると見なし、両者のエキソンーイントロン境界の位置を保ったまま両配列をマージし、仮想 mRNA配列を作製するステップ、
条件(a)基準配列と対照配列がゲノム上で重複する。かつ基準配列と対照配列の方向が一致する、(b)かつ基準配列のエキソンが、対照配列のイントロンとゲノム位置で重複部分を持たない、(c)かつ基準配列のイントロンが、対照配列のエキソンと、ゲノム位置で重複部分を持たない
(iii) マージ操作では、基準配列に対し対照配列の一部を追加することにより基準配列の末端を伸長させるステップ、
(iv) マージされる配列がなくなった基準配列を位置情報リストから除くステップ、
(v) リストに更に EST がある場合、これを新たな対照配列として基準配列と比較し、条件を満たす場合にはマージ作業を行なうステップ、
(vi) 上記作業を、新たにマージされる配列がなくなるまで繰り返し、残ったリストで示される配列をスプライシングバリアントとするステップ、
を含むスプライシングバリアントの特定方法。
請求項１記載の方法を行なうコンピュータープログラム。
請求項１記載の方法を行なうコンピュータープログラムを記録したコンピューターで読み取り可能な記録媒体。