JP4716651B2 - スプライシングバリアントの特定方法 - Google Patents

スプライシングバリアントの特定方法 Download PDF

Info

Publication number
JP4716651B2
JP4716651B2 JP2003368422A JP2003368422A JP4716651B2 JP 4716651 B2 JP4716651 B2 JP 4716651B2 JP 2003368422 A JP2003368422 A JP 2003368422A JP 2003368422 A JP2003368422 A JP 2003368422A JP 4716651 B2 JP4716651 B2 JP 4716651B2
Authority
JP
Japan
Prior art keywords
sequence
genome
est
exon
reference sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003368422A
Other languages
English (en)
Other versions
JP2005135053A (ja
Inventor
春信 湯野川
陽司 三上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MAZE, INC.
Original Assignee
MAZE, INC.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MAZE, INC. filed Critical MAZE, INC.
Priority to JP2003368422A priority Critical patent/JP4716651B2/ja
Publication of JP2005135053A publication Critical patent/JP2005135053A/ja
Application granted granted Critical
Publication of JP4716651B2 publication Critical patent/JP4716651B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、転写配列断片のデータベースおよびゲノム配列のデータベースから、スプライシングバリアントの遺伝子候補配列を特定する方法に関する。
ヒトやマウスなど真核生物の遺伝子には、タンパク質に翻訳されない領域(イントロン)が含まれており、DNA中の遺伝子から転写によってメッセンジャーRNA(mRNA)が作られる際に、スプライシングという処理によってタンパク質に翻訳される領域のみ(エキソン)が作られる。この過程で同一遺伝子から、異なったスプライシングによって異なった複数のmRNAが作られることがある。この場合には結果としてmRNAから翻訳される蛋白質も異なる。このように同一遺伝子に由来する、異なるスプライシングに起因して産生される異なったmRNAをスプライシングバリアントという。
近年ゲノム解析の成果として、ゲノム上の遺伝子の数は約3万2000であるのに、蛋白質の種類が約10万と遺伝子数より多い理由として、このスプライシングバリアントが注目されており、これに関するデータを収集することが蛋白質の機能解析に有用であると考えられるようになった。
スプライシングバリアントが生じるパターンを、図2に基づいて説明する。まずゲノム配列のパターンでは蛋白質に翻訳される塩基配列部分すなわちエキソンを矩形で表し、蛋白質に翻訳されない塩基配列部分すなわちイントロンを線で表す。次にmRNAのパターンでは上記ゲノム配列の図にマッピングした状態で表現しており、ゲノムの図と上下関係で一致する位置のエキソンは転写された状態を表す。また線は転写されないイントロンを表す。塗りつぶしの矩形は見かけ上転写されたエキソンであるが、内容はイントロン部分である。エキソンの欠けた部分は二重線で表す。1から4までのパターンはイントロン部分が混入するパターンであり、5から7はエキソン部分が欠けるパターンである。実際にはこの基本パターンの単独または組み合わせによりスプライシングバリアントが生じる。ここで示した図によってスプライシングバリアントの生じる全てのケースを網羅したはずである。
従来、このスプライシングバリアントを研究・収集する試みはいくつかあり、ゲノム上にEST(Expressed Sequence Tag)の塩基配列を配置するプログラム(Genome Res., 11, 889 2001)では各アライメントの接続状況をスコアにして、スコアの最大値をとるパスを発見して、スプライシングバリアントを見つける。しかしこの方法では末端エキソンが考慮されない。ESTおよびmRNA配列同士をアライメントする方法(Nucleic Acids Res., 30, 186, 2002)ではわずかな変異が無視される。
Genome Res., 11, 889 2001 Nucleic Acids Res., 30, 186 2002
本発明の目的は、転写配列断片のデータベースおよびゲノムデータベスから、既知遺伝子のスプライシングバリアントを、比較的簡単な操作により網羅的に効率良く発見・収集することができる、スプライシングバリアントの特定方法を提供することである。
コンピューターにより自動的に行う方法であって、(1) 既知遺伝子ごとの転写産物の塩基配列断片のデータをデータベースから集めるステップ、
(2) ゲノムデータベースより該既知遺伝子の配列を切り出し、参照配列とするステップ、
(3) 転写産物の塩基配列断片を参照配列に相同性検索し、ヒットした配列をゲノム配列上にマッピングするステップ、
(4) 得られた配列断片の集まりの中の、2つの配列を比較し、ゲノム位置が一致し、かつ方向が一致し、かつ一方の配列のエキソンと他方の配列のイントロンがゲノム上の位置で重複する部分がない場合には、2つの配列は同一のスプライシング産物とみなし、マージしてひとつの配列とするステップ、
(5) マージした配列と次の別の配列に対して以上の操作を繰り返し、すべての配列断片に対して以上の操作を繰り返すステップ、
(6) 最後までマージされない配列はスプライシングバリアントと特定するステップ、を含むスプライシングバリアントの特定方法であって、
(1) 既知遺伝子ごとの転写産物の塩基配列断片である、ESTのデータを集めるステップ、
(2) 既知遺伝子の属する染色体番号とそのゲノム上の位置リストを作成するステップ、
(3) ゲノムコンティグ配列より該既知遺伝子の5’側上流域から3’側下流域までの配列を切り出し、参照配列とするステップ、
(4) ESTのデータから、ベクター由来配列除去プログラムにより、不要なベクター由来配列を除くステップ、
(5) EST配列をステップ(3)で作成した参照配列に相同性検索するステップ、
(6) 既知遺伝子ごとに、EST配列を、ステップ(3)で求めた参照配列に対してマッピングプログラムで処理し、それによってEST配列をエキソン単位に分割して、既知遺伝子のゲノム配列にマッピングするステップ、
(7) ステップ(6)の出力結果を分析し、全てのイントロンが同一方向で、ゲノムにマップされないイントロンを含まない、および全長の90%以上がゲノムにマップされ、シングルエキソンではないという条件を満足する配列のみを対象としてエキソン末端単位の位置情報リストを作成するステップ、
(8) 位置情報リストを元に、以下の(i)〜(vi)の段階の詳細ステップでスプライシングバリアントを作製するステップ、
(i) ESTをその中のエキソン数で降順に並べるステップ(リスト先頭のESTを基準配列、二番目のESTを対照配列と呼ぶ)、
(ii) 両 EST の位置情報リストを比較し、下記の条件を満たすとき、これらは同一のスプライシング産物に由来すると見なし、両者のエキソンーイントロン境界の位置を保ったまま両配列をマージし、仮想 mRNA配列を作製するステップ、
条件(a)基準配列と対照配列がゲノム上で重複する。かつ基準配列と対照配列の方向が一致する、(b)かつ基準配列のエキソンが、対照配列のイントロンとゲノム位置で重複部分を持たない、(c)かつ基準配列のイントロンが、対照配列のエキソンと、ゲノム位置で重複部分を持たない
(iii) マージ操作では、基準配列に対し対照配列の一部を追加することにより基準配列の末端を伸長させるステップ、
(iv) マージされる配列がなくなった基準配列を位置情報リストから除くステップ、
(v) リストに更に EST がある場合、これを新たな対照配列として基準配列と比較し、条件を満たす場合にはマージ作業を行なうステップ、
(vi) 上記作業を、新たにマージされる配列がなくなるまで繰り返し、残ったリストで示される配列をスプライシングバリアントとするステップ、
を含むスプライシングバリアントの特定方法を提供する。
本発明により、ヒトその他の種のゲノムデータ、転写産物の遺伝子塩基配列断片のデータベースから網羅的にスプライシングバリアントの塩基配列を特定し、収集することができる。同一遺伝子から翻訳される異なった生理活性を持つ蛋白質についての情報が得られる。遺伝子発現調節機構の解明や、新規バリアント遺伝子の観点から、ゲノム情報をもとにした医薬品開発に貢献できる。
上記の通り、本発明のスプライシングバリアントの特定方法では、まず既知遺伝子ごとの転写産物の塩基配列断片のデータベースを集める。次にゲノムデータベースより該既知遺伝子の配列を切り出し、参照配列とする。次に転写産物の塩基配列断片を参照配列に相同性検索し、ヒットした配列をゲノム配列上にマッピングする。ここでゲノムとのマッピング状況を解析し、適切な配列断片のみを対象とする(詳細は後述)。次にこうして得られた配列断片の集まりの中の、2つの配列を比較し、ゲノム位置が一致し、かつ方向が一致し、かつ一方の配列のエキソンと他方の配列のイントロンがゲノム上の位置で重複する部分がない場合には、2つの配列は同一のスプライシング産物とみなし、マージしてひとつの配列とする。このマージした配列と次の別の配列に対して以上の操作を繰り返す。すべての配列断片に対して以上の操作を繰り返す。最後までマージされない配列はスプライシングバリアントとする。
以上の方法で、図2で示した全てのパターンが検出可能であることは明らかである。また配列をゲノムにマッピングするので、末端のエキソンまで正確であると推定されるので、網羅性が確保されることになる。
以下に、本発明の実施の形態を図1に沿って、具体的により詳細に説明する。
工程1:
まず既知遺伝子ごとの転写産物の塩基配列断片である、ESTのデータを集める。これはNCBI GenBank dbEST等から得ることができる(URL:ftp://ftp.ncbi.nih.gov/repository/dbEST/)。さらに既知遺伝子およびゲノムコンティグ配列とその配列情報を集める。これは例えばNCBIのRefSeq等を利用することができる(URL: ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/)。
工程2:
既知遺伝子の属する染色体番号とそのゲノム上の位置リストを作成する。
工程3:
ゲノムコンティグ配列より該既知遺伝子の5’側20kb上流から3’側20kb下流までの配列を切り出し、参照配列とする。
工程4:
次にESTのデータから、ベクター由来配列除去プログラムにより、不要なベクター由来配列を除く。この処理は、例えばNCBIにより公開されている周知のベクター配列データのUnivec(ftp://ftp.ncbi.nih.gov/pub/UniVec/.)に対して行う。この処理を行うプログラムは周知であり、例えばVecScreenを利用することができる。(ftp://ftp.ncbi.nih.gov/toolbox/ncbi_tools/ より無償公開)。
工程5:
次にEST配列を工程3で作成した参照配列に相同性検索する。相同性検索は周知のプログラムを用いて行うことができ、例えば、BLASTプログラムが使用できる。(ftp://ftp.ncbi.nih.gov/toolbox/ncbi_tools/ より無償公開)。こうしてEST配列がトップヒットする既知遺伝子を検索する。
工程6:
既知遺伝子ごとに、EST配列を、工程3で求めた参照配列に対してマッピングする。マッピングは、例えば周知のsim4プログラムを用いて行うことができる(sim4はhttp://globin.cse.psu.edu/ より無償公開)。こうしてEST配列をエキソン単位に分割して、既知遺伝子のゲノム配列にマッピングする。
工程7:
sim4等のマッピングプログラムの出力結果を分析して、エキソン末端単位の位置情報リストを作成する。位置情報リストは図3参照。ここでは、次の条件に合う配列のみを対象にする。すなわち全てのイントロンが同一方向で、ゲノムにマップされないイントロンを含まない、および全長の90%以上がゲノムにマップされ、シングルエキソンではない。
なお、図3には、位置情報リスト(一部)が示されており、その意味するところは次の通りである。
・一行が一箇所のエキソンイントロン境界、またはエキソン末端
(これらを“ボーダー”と称す)を表す。
・1レコード目:ボーダーの属する既知遺伝子のアクセッション番号
・2レコード目:ボーダーの属するEST配列のアクセッション番号
・3レコード目:ボーダーのゲノムコンティグ上位置
・4レコード目:ボーダーのEST配列上の位置
・5レコード目:ボーダーの種類識別記号(*)
・6レコード目:ボーダーの属する既知遺伝子の転写方向 (**)
(*)ボーダーの種類識別記号・凡例
A:エキソンのアクセプター側境界
D:エキソンのドナー側境界
L:エキソン末端(ゲノム位置座標の小さい側)
U:エキソン末端(ゲノム位置座標の大きい側)
(**)ボーダーの属する既知遺伝子の転写方向・凡例
1:ボーダーの属する既知遺伝子の転写がゲノムコンティグに対して順方向
-1:ボーダーの属する既知遺伝子の転写がゲノムコンティグに対して逆方向
0:ボーダー種類が U または L のとき
工程8:
位置情報リストを元に、以下の5段階の詳細工程でスプライシングバリアントを作製する。
工程8−1:
ESTをその中のエキソン数で降順に並べる。リスト先頭のESTを基準配列、二番目のESTを対照配列と呼ぶ。
工程8−2:
両ESTの位置情報リストを比較し、下記の条件を満たすとき、これらは同一のスプライシング産物に由来すると見なすことができる。よって両者のエキソンーイントロン境界の位置を保ったま両配列を統合し(以下マージと呼ぶ)、仮想 mRNA配列を作製する。
条件:基準配列と対照配列がゲノム上で重複する。かつ基準配列と対照配列の方向が一致する。かつ基準配列のエキソンが、対照配列のイントロンとゲノム位置で重複部分を持たない。かつ基準配列のイントロンが、対照配列のエキソンと、ゲノム位置で重複部分を持たない。
仮想mRNAリスト(一部)の例を図4に示す。図4の意味するところは次の通りである。
・一行が一箇所のエキソンイントロン境界、またはエキソン末端
(これらを“ボーダー”と称す)を表す。
・1レコード目:ボーダーの属する既知遺伝子のアクセッション番号
・2レコード目:ボーダーの属する既知遺伝子のスプライシングバリアント番号
・3レコード目:ボーダーのゲノムコンティグ上位置
・4レコード目:ボーダーの配列上の位置(当面不要なため、全て "0")
・5レコード目:ボーダーの種類識別記号(*)
・6レコード目:ボーダーの属する既知遺伝子の転写方向 (**)
(*)ボーダーの種類識別記号・凡例
A:エキソンのアクセプター側境界
D:エキソンのドナー側境界
L:エキソン末端(ゲノム位置座標の小さい側)
U:エキソン末端(ゲノム位置座標の大きい側)
(**)ボーダーの属する既知遺伝子の転写方向・凡例
1:ボーダーの属する既知遺伝子の転写がゲノムコンティグに対して順方向
-1:ボーダーの属する既知遺伝子の転写がゲノムコンティグに対して逆方向
0:ボーダー種類が U または L のとき
工程8−3:
マージ操作では、基準配列に対し対照配列の一部を追加することにより基準配列の末端を伸長させる。具体的には以下の作業を行なう。ゲノム位置上で基準配列の外側に存在する、対照配列のエクソン端の位置情報を基準配列の位置情報に加える。次いで位置情報が加わった側の基準配列の配列末端位置情報を削除する。マージ後の 配列を新たな基準配列とする。マージを行なった対照配列は、リストから除く。以下にマージによる位置情報リストの操作を例示する。ある既知遺伝子 X について、EST が以下のようにマップされたとする。 "==" はエキソンを、"-" はイントロンをそれぞれ示す。
a b c d e f g h i j エキソン端のゲノム位置座標(bp)
====--=====----===== 基準配列(アクセッション番号 A)
===--======--=== 対照配列(アクセッション番号 B)
===--======--=====----===== 仮想mRNA
マージ以前の位置情報リストは、下記のようになる。位置情報リストの(凡例)は図3について上記した通りである。
Aの位置情報リスト:
X A d 0 L 0
X A e 0 D 1
X A f 0 A 1
X A h 0 D 1
X A i 0 A 1
X A j 0 U 0
Bの位置情報リスト:
X B a 0 L 0
X B b 0 D 1
X B c 0 A 1
X B e 0 D 1
X B f 0 A 1
X B g 0 U 0
8−3の工程により、Bの1-3行目のエキソン端位置情報を、基準配列の位置情報に加え、Aのリスト1行目の基準配列の末端位置情報を削除する。その結果、マージされた位置情報リストは次のようになる。
X A a 0 L 0 ←加えられた情報
X A b 0 D 1 ←加えられた情報
X A c 0 A 1 ←加えられた情報
X A e 0 D 1
X A f 0 A 1
X A h 0 D 1
X A i 0 A 1
X A j 0 U 0
リストから削除された情報:
X A d 0 L 0
既知遺伝子 X に対してマップされたEST が、A, B 以外にも存在する場合は、これを新たな対照配列として同様の操作をリストに対して行なう。
工程8−4:
リストに更に EST がある場合、これを新たな対照配列として基準配列と比較し、条件を満たす場合にはマージ作業を行なう。
工程8−5:
上記作業を、新たにマージされる配列がなくなるまで繰り返し、残ったリストで示される配列をスプライシングバリアントとする。
以下、本発明を21番染色体について、上記工程に沿って実施した例に基づきより具体的に説明する。もっとも、本発明は下記実施例に限定されるものではない。
工程1:
既知遺伝子ごとの転写産物の塩基配列断片である、ESTのデータを集める。さらに既知遺伝子およびゲノムコンティグ配列とその配列情報を集める。
インターネット経由でNCBI ftp サイトより収集する。
EST配列 . . . . NCBI GenBank dbEST
(URL: ftp://ftp.ncbi.nih.gov/blast/db/FASTA/est_human.Z)
既知遺伝子 . . . . NCBI RefSeq NM エントリ
(URL: ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/RNA/rna.fa.gz)
ゲノムコンティグ配列 . . . NCBI RefSeq
(URL: ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/CHR_21/hs_chr21.fa.gz)
工程2:
既知遺伝子の属する染色体番号とそのゲノム上の位置リストを作成する。インターネット経由でNCBI ftp サイトより、NCBI map データベースファイル hs_esttrn.md.gz
(URL:ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/maps/mapview/BUILD.30/hs_esttrn.md.gz)を取得する。データベースファイルから、既知配列のアクセッション、染色体番号、染色体上の位置情報等を抽出して、下記表1のように各遺伝子のエキソンごとに一行ずつのテーブルを作成する。
表1 既知遺伝子のエキソン情報テーブル
Figure 0004716651
工程3:
工程2で作製したテーブルを使用して、該既知遺伝子の5'側20kb上流から3'側20kb下流までのゲノム位置座標を計算し、既知遺伝子ごとに一行の下記表2に示すリストを作製する。
表2 参照配列の位置情報リスト
Figure 0004716651
表2のリストに記された位置に相当する配列を、コンティグ配列より切り出し、fasta 形式ファイルを作成する。既知遺伝子NM_145033.1 に対して実行した例を図5に示す。
工程4:
ESTのデータから、ベクター由来配列除去プログラムにより、不要なベクター由来配列を除く。すなわち、次のコマンドによりvecscreenプログラムを実行し、EST 配列に対して、ベクター配列ファイルUniVec_Coreに記された配列を参照しながら、EST 配列中のベクター部分を同定する。EST 配列ファイルは、工程1で取得したものを使用する。
cat est_human.fa |vecscreen -i stdin -d UniVec_Core
この結果、図6のようなファイルを得る。出力結果ファイルから、"Strong match" 部分、及びその周辺の Moderate mach, Weak match, Suspect origin と記された配列部分を除く。その結果例えば図6に示すベクター配列ヒット部分をもつEST 配列AI434078.1 は、下記表3のように加工される。
表3 EST 配列の加工(EST配列AI434078.1 の例)
Figure 0004716651
工程5:
次にEST配列を工程3で作成した参照配列に相同性検索する。相同性検索はBLASTプログラムでEST配列がトップヒットする既知遺伝子を検索する。EST 配列は工程4で作製したものを使用する。この結果、図7のようなファイルを得る。blast 結果ファイルより、各EST がトップヒットする既知遺伝子のアクセッション番号を抽出した後、これを既知遺伝子に対してグループ化し、以下のような既知遺伝子ごとのヒットEST リストを作製する。
(既知遺伝子NM_145033.1 の例)
AA126210.1
AA126706.1
AA128167.1
AA136052.1
AA224248.1
AA357518.1
AA360531.1
AI810934.1
AI818180.1
AU136703.1
BE646296.1
BF437079.1
BF476806.1
次いで、既知遺伝子ごとに、EST 番号リストに記されたEST 配列のマルチ fasta形式ファイルを作成する。このファイルには既知遺伝子の配列も付け加える。図8参照。
工程6:
既知遺伝子ごとに、EST配列を、工程3で求めた参照配列に対してsim4プログラムで処理する。こうしてEST配列をエキソン単位に分割して、既知遺伝子のゲノム配列にマッピングする。すなわち、以下のコマンドにより sim4プログラムを実行し、EST 配列を参照配列にエキソン単位でマッピングすると同時に、EST の転写方向を決定する。EST 配列は工程5で、参照配列は工程3でそれぞれ作製したものを使用した。
sim4 .. NM_145033.1.fa est_NM_145033.1.fa
(既知遺伝子NM_145033.1 の場合)
NM_145033.1.faは工程3で作製した参照配列ファイル。
est_NM_145033.1.faは工程5で作製した、NM_145033.1 にヒットするEST配列ファイル。この結果、図9のようなファイルを得る。
工程7:
図9の、sim4の出力結果を分析して、エキソン末端単位の位置情報リストを作成する。ここでは、次の条件に合う配列のみを対象にする。すなわち全てのイントロンが同一方向で、ゲノムにマップされないイントロンを含まず、全長の90%以上がゲノムにマップされ、シングルエキソンではない。
sim4 結果ファイルより、次の条件を満たす配列のみをピックアップし、その位置情報、転写方向等の情報を抽出する。これら情報はエキソン端ごとに一行にまとめ、下記表4に示す形式でリスト化する。
表4 位置情報リスト(既知遺伝子NM_145033.1の例)
Figure 0004716651
工程8:
位置情報リストを元に、既知遺伝子ごとに以下の手順でスプライシングバリアントを検出する。まず既知配列とゲノム位置が重複し、かつ転写方向が一致する配列に対して、配列の持つエキソン数で、位置情報リストを降順に並べる。次に先頭と2番目の2つの配列を比較し、一方の配列のエキソンと他方の配列のイントロンがゲノム上の位置で重複する部分がない、かつイントロンと他方の配列のエキソンがゲノム上の位置で重複する部分がない場合には、2つの配列は同一のスプライシング産物とみなし、マージする。さらに、マージした配列と次の配列に対して上記の方法で比較とマージを実施する。すべてのESTに対して以上の操作を繰り返す。新しくマージされる配列がなくなれば、最後までマージされない配列をスプライシングバリアントとして、仮想mRNAリストに書き出す。
表4の位置情報リストに記された配列で例示する。このリストに記された配列は、下記表5のような位置関係にある。
表5 NM_145033.1の位置情報リストに記された配列のマッピング概念図
Figure 0004716651
始めに、位置情報リスト記載配列は全てゲノム上で重複し、かつ既知遺伝子の転写方向と同一である。まずAI810934.1 を基準配列、 BF437079.1 を対照配列として比較する。エキソンン-イントロンが重複するため、マージされない。次にBE646296.1 を対照配列として比較する。エキソンン-イントロンが重複するため、マージされない。次にNM_145033.1 を対照配列として比較する。エキソンン-イントロンが重複するため、マージされない。AI810934.1 はどの配列ともマージされず、この配列単独でスプライシングバリアントとみなし、位置情報リストから除き、位置情報リストと同じ書式で仮想mRNA リストに書き出す。次にBF437079.1 を基準配列、BE646296.1 を対照配列として比較する。エキソンン-イントロンが重複しないためマージを行い、BF437079.1の位置情報を次のように書き換える。BE646296.1 の位置情報はリストから除く。
NM_145033.1 BE646296.1 20394 0 L 0 ←伸長した末端。
NM_145033.1 BE646296.1 20567 0 D 1
NM_145033.1 BE646296.1 20736 0 A 1
NM_145033.1 BE646296.1 21038 0 U 0
これを新たな基準配列として、NM_145033.1と比較する。エキソンン-イントロンが重複しないためマージされ、BF437079.1の位置情報を次のように書き換える。NM_145033.1の位置情報はリストから除く。
NM_145033.1 BE646296.1 20001 0 L 0 ←伸長した末端。
NM_145033.1 BE646296.1 20567 0 D 1
NM_145033.1 BE646296.1 20736 0 A 1
NM_145033.1 BE646296.1 21038 0 U 0
比較するべき配列がリストより無くなったため、比較・マージ処理を終了し、残ったBF437079.1の位置情報を仮想 mRNA リストに書き出す。この結果、入力配列は、スプライスパターンの異なる下記の2つの配列に収束した。
NM_145033.1 AI810934.1 20074 0 L 0
NM_145033.1 AI810934.1 20211 0 D 1
NM_145033.1 AI810934.1 20736 0 A 1
NM_145033.1 AI810934.1 21038 0 U 0
NM_145033.1 BE646296.1 20001 0 L 0
NM_145033.1 BE646296.1 20567 0 D 1
NM_145033.1 BE646296.1 20736 0 A 1
NM_145033.1 BE646296.1 21038 0 U 0
以上に示す処理を実行した結果、21番染色体中の位置が独立した既知遺伝子(RefSeq で先頭がNMのアクセッション番号を持つもの)157個を抽出し、EST 情報は GenBank dbEST より21番染色体に属するもの27,510個 を取得した。ゲノム配列は、NCBI RefSeq Build 30 のゲノムコンティグを使用した。これらのデータを処理した結果、1,142 個のスプライシングバリアント候補が抽出された。遺伝子あたりスプライシングバリアント数が最大のものは遺伝子NM_000454.1 で、スプライシングバリアント数 41個であった。また、スプライシングバリアント作成時に、末端エキソンを無視した場合には、456個のスプライシングバリアント候補が抽出され、遺伝子あたりスプライシングバリアント数が最大のものは遺伝子NM_021941.1で、スプライシングバリアント数 14個であった。
本発明の方法の全体の流れを模式的に示すフローチャートである。 スプライシングバリアントの種々のパターンを模式的に示す図である。 本発明の方法の中途段階で得られた位置情報リスト(一部)を示す図である。 本発明の方法の中途段階で得られた仮想mRNAリスト(一部)を示す図である。 既知遺伝子NM_145033.1 のFASTA形式ファイルを示す図である。 本発明の中途段階で行なったVecScreen 処理結果ファイル(EST配列AI434078.1 の場合)を示す図である。 図6.1の続きを示す図である。 本発明の方法の中途段階で得られたblast 結果ファイル(EST配列 AI434078.1 の例)を示す図である。 本発明の方法の中途段階で得られたヒットEST 配列ファイルを示す図である。 本発明の方法の中途段階で得られたsim4 結果ファイル(既知遺伝子NM_145033.1の例)を示す図である。 図9.1の続きを示す図である。

Claims (3)

  1. コンピューターにより自動的に行う方法であって、(1) 既知遺伝子ごとの転写産物の塩基配列断片のデータをデータベースから集めるステップ、
    (2) ゲノムデータベースより該既知遺伝子の配列を切り出し、参照配列とするステップ、
    (3) 転写産物の塩基配列断片を参照配列に相同性検索し、ヒットした配列をゲノム配列上にマッピングするステップ、
    (4) 得られた配列断片の集まりの中の、2つの配列を比較し、ゲノム位置が一致し、かつ方向が一致し、かつ一方の配列のエキソンと他方の配列のイントロンがゲノム上の位置で重複する部分がない場合には、2つの配列は同一のスプライシング産物とみなし、マージしてひとつの配列とするステップ、
    (5) マージした配列と次の別の配列に対して以上の操作を繰り返し、すべての配列断片に対して以上の操作を繰り返すステップ、
    (6) 最後までマージされない配列はスプライシングバリアントと特定するステップ、を含むスプライシングバリアントの特定方法であって、
    (1) 既知遺伝子ごとの転写産物の塩基配列断片である、ESTのデータを集めるステップ、
    (2) 既知遺伝子の属する染色体番号とそのゲノム上の位置リストを作成するステップ、
    (3) ゲノムコンティグ配列より該既知遺伝子の5’側上流域から3’側下流域までの配列を切り出し、参照配列とするステップ、
    (4) ESTのデータから、ベクター由来配列除去プログラムにより、不要なベクター由来配列を除くステップ、
    (5) EST配列をステップ(3)で作成した参照配列に相同性検索するステップ、
    (6) 既知遺伝子ごとに、EST配列を、ステップ(3)で求めた参照配列に対してマッピングプログラムで処理し、それによってEST配列をエキソン単位に分割して、既知遺伝子のゲノム配列にマッピングするステップ、
    (7) ステップ(6)の出力結果を分析し、全てのイントロンが同一方向で、ゲノムにマップされないイントロンを含まない、および全長の90%以上がゲノムにマップされ、シングルエキソンではないという条件を満足する配列のみを対象としてエキソン末端単位の位置情報リストを作成するステップ、
    (8) 位置情報リストを元に、以下の(i)〜(vi)の段階の詳細ステップでスプライシングバリアントを作製するステップ、
    (i) ESTをその中のエキソン数で降順に並べるステップ(リスト先頭のESTを基準配列、二番目のESTを対照配列と呼ぶ)、
    (ii) 両 EST の位置情報リストを比較し、下記の条件を満たすとき、これらは同一のスプライシング産物に由来すると見なし、両者のエキソンーイントロン境界の位置を保ったまま両配列をマージし、仮想 mRNA配列を作製するステップ、
    条件(a)基準配列と対照配列がゲノム上で重複する。かつ基準配列と対照配列の方向が一致する、(b)かつ基準配列のエキソンが、対照配列のイントロンとゲノム位置で重複部分を持たない、(c)かつ基準配列のイントロンが、対照配列のエキソンと、ゲノム位置で重複部分を持たない
    (iii) マージ操作では、基準配列に対し対照配列の一部を追加することにより基準配列の末端を伸長させるステップ、
    (iv) マージされる配列がなくなった基準配列を位置情報リストから除くステップ、
    (v) リストに更に EST がある場合、これを新たな対照配列として基準配列と比較し、条件を満たす場合にはマージ作業を行なうステップ、
    (vi) 上記作業を、新たにマージされる配列がなくなるまで繰り返し、残ったリストで示される配列をスプライシングバリアントとするステップ、
    を含むスプライシングバリアントの特定方法。
  2. 請求項1記載の方法を行なうコンピュータープログラム。
  3. 請求項1記載の方法を行なうコンピュータープログラムを記録したコンピューターで読み取り可能な記録媒体。
JP2003368422A 2003-10-29 2003-10-29 スプライシングバリアントの特定方法 Expired - Fee Related JP4716651B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003368422A JP4716651B2 (ja) 2003-10-29 2003-10-29 スプライシングバリアントの特定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003368422A JP4716651B2 (ja) 2003-10-29 2003-10-29 スプライシングバリアントの特定方法

Publications (2)

Publication Number Publication Date
JP2005135053A JP2005135053A (ja) 2005-05-26
JP4716651B2 true JP4716651B2 (ja) 2011-07-06

Family

ID=34646092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003368422A Expired - Fee Related JP4716651B2 (ja) 2003-10-29 2003-10-29 スプライシングバリアントの特定方法

Country Status (1)

Country Link
JP (1) JP4716651B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761453B (zh) * 2013-12-09 2017-10-27 天津工业大学 一种基于簇图结构的并行基因拼接方法
JP6208622B2 (ja) * 2014-05-21 2017-10-04 株式会社日立製作所 解析装置、データベース作成方法、およびシステム
CN104951673B (zh) * 2015-06-19 2018-03-30 中国科学院计算技术研究所 一种基因组酶切图谱拼接方法及系统
CN108965805A (zh) * 2018-07-10 2018-12-07 深圳市巨龙创视科技有限公司 一种基于嵌入式深度学习算法的拼接联动系统

Also Published As

Publication number Publication date
JP2005135053A (ja) 2005-05-26

Similar Documents

Publication Publication Date Title
Wheelan et al. Spidey: a tool for mRNA-to-genomic alignments
Wang et al. An evaluation of new criteria for CpG islands in the human genome as gene markers
JP6314091B2 (ja) Dna配列のデータ分析
Sun et al. LTR retrotransposons contribute to genomic gigantism in plethodontid salamanders
Town et al. Comparative genomics of Brassica oleracea and Arabidopsis thaliana reveal gene loss, fragmentation, and dispersal after polyploidy
Ayele et al. Whole genome shotgun sequencing of Brassica oleracea and its application to gene discovery and annotation in Arabidopsis
Mullikin et al. The phusion assembler
Glaubitz et al. TASSEL-GBS: a high capacity genotyping by sequencing analysis pipeline
Brendel et al. Gene structure prediction from consensus spliced alignment of multiple ESTs matching the same genomic locus
JP6762932B2 (ja) シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス
Pavy et al. Automated SNP detection from a large collection of white spruce expressed sequences: contributing factors and approaches for the categorization of SNPs
JP2008547080A (ja) ダイタグ配列の処理および/またはゲノムマッピングの方法
Scherf et al. First pass annotation of promoters on human chromosome 22
Ojeda et al. Utilization of tissue ploidy level variation in de novo transcriptome assembly of Pinus sylvestris
Seixas et al. Synteny-based genome assembly for 16 species of Heliconius butterflies, and an assessment of structural variation across the genus
JP4716651B2 (ja) スプライシングバリアントの特定方法
CN108710782A (zh) 基因型转换方法、装置及电子设备
CN111161797A (zh) 一种基于三代测序检测多样本量比较转录组分析方法
Scheetz et al. Generation of a high-density rat EST map
CN110959178A (zh) 用于靶向基因组编辑的系统和方法
Lim et al. BatAlign: an incremental method for accurate alignment of sequencing reads
JP2000060553A (ja) 遺伝子のモチーフ抽出処理装置及び遺伝子のモチーフ抽出処理方法並びに遺伝子のモチーフ抽出処理プログラムを記録した記録媒体
Bai et al. Chromosome-level assembly of the southern rock bream (Oplegnathus fasciatus) genome using PacBio and hi-C technologies
JP3584275B2 (ja) エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法
Li et al. Prediction and functional analysis of single nucleotide polymorphisms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110315

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110329

R150 Certificate of patent or registration of utility model

Ref document number: 4716651

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees