JP2002176980A

JP2002176980A - 転写配列を取得する方法

Info

Publication number: JP2002176980A
Application number: JP2000377888A
Authority: JP
Inventors: Atsushi Hattori; 篤服部; Shinji Sato; 伸司佐藤; Koji Kasama; 康次笠間; Toshiyuki Saito; 俊行齋藤
Original assignee: MAZE KK; Aisin Seiki Co Ltd
Current assignee: MAZE KK; Aisin Corp
Priority date: 2000-12-12
Filing date: 2000-12-12
Publication date: 2002-06-25

Abstract

(57)【要約】【課題】既知の遺伝子配列データ、ESTデータ、ゲノム
データを利用して未知の遺伝子配列を暫定的に決定する
こと。【解決手段】既知遺伝子配列のデータベース、既知EST
配列のデータベース、およびゲノム配列のデータベース
に含まれる既知の遺伝子配列および既知のEST配列から
相同検索することにより第一のコンセンサス配列を得、
該第一のコンセンサス配列のデータベース（Ａ）を構築
する。一方、前記データベースの既知のゲノム配列から
mRNAに転写される領域を予測して予測遺伝子配列を抽出
し、該予測遺伝子配列のデータベース（Ｂ）を構築す
る。前記データベース（Ｂ）に含まれる特定の予測遺伝
子配列について、前記データベース（Ａ）に含まれるコ
ンセンサス配列と相同検索することにより、未知遺伝子
の配列データとしての第二のコンセンサス配列を得る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、既知遺伝子配列の
データベース、帰属の不明なｃＤＮＡ断片（EST：expre
ssed sequence tag）のデータベースおよびゲノム配列
のデータベースから、未知の遺伝子配列データを含むデ
ータベースを構築するための方法に関する。

【０００２】

【従来の技術】近年、遺伝子に関する研究は爆発的に進
歩しており、ヒト染色体の全てのＤＮＡ塩基配列を解明
しようとするヒトゲノム計画さえ完成間近といわれてい
る。しかし、このようなゲノム解析で得られてくる情報
は、特定の遺伝子と関連付けられていない単なるＤＮＡ
塩基配列にすぎない。特に、現在のヒトゲノム計画で使
用されている解析手法では、相互の繋がりが不明な単な
るｃＤＮＡ断片の配列（expressed sequence tag；EST
と略称される）が多く含まれている。染色体研究の最終
的な目的は、染色体に含まれる遺伝子、即ち、特定のタ
ンパク質をコードする一つの纏まりをもったＤＮＡ配列
を見つけることにあるのは言うまでもない。しかし、ゲ
ノム解析の進展に比較して、ＤＮＡ配列が解明された遺
伝子は未だそれほど多くはない。

【０００３】一方、従来から遺伝子関係のデータベース
が多く使用されており、また種々のデータベースが提案
されている。しかし、それらの遺伝子データベースの殆
どは、既知の遺伝子配列、EST配列を保存および検索す
る用途でのみ使用することができ、未知の遺伝子配列を
類推構築する用途で用いることはできない。

【０００４】従って、これらの膨大なデータを未知の遺
伝子配列の決定に利用できれば、遺伝子の研究は急速に
進展すると思われる。

【０００５】

【発明が解決しようとする課題】本発明は上記事情に鑑
みてなされたもので、既知の遺伝子配列データ、ESTデ
ータ、ゲノムデータを利用して未知の遺伝子配列を暫定
的に決定し、これにより得られた可能性の高い暫定遺伝
子配列データに基づいて、未知の遺伝子の発見および研
究を容易にすることを目的とする。

【０００６】

【課題を解決するための手段】本発明は、既知遺伝子配
列のデータベース、既知EST配列のデータベース、およ
びゲノム配列のデータベースから未知遺伝子の配列デー
タを暫定的に決定するための方法であって：前記データ
ベースに含まれる既知の遺伝子配列および既知のEST配
列から相同検索することにより第一のコンセンサス配列
を得、該第一のコンセンサス配列のデータベース（Ａ）
を構築するステップと；前記データベースの既知のゲノ
ム配列からmRNAに転写される領域を予測して予測遺伝子
配列を抽出し、該予測遺伝子配列のデータベース（Ｂ）
を構築するステップと；前記データベース（Ｂ）に含ま
れる特定の予測遺伝子配列について、前記データベース
（Ａ）に含まれるコンセンサス配列と相同検索すること
により、未知遺伝子の配列データとしての第二のコンセ
ンサス配列を得るステップとを具備したことを特徴とす
るものである。

【０００７】こうして得られた第二のコンセンサス配列
は、実際に存在する遺伝子配列である可能性がきわめて
高く、従って、この配列を未知遺伝子の配列として暫定
的に決定することができる。

【０００８】上記の手順により、可能な未知遺伝子の遺
伝子配列としての第二のコンセンサス配列を多数作製
し、これら配列のデータベース（Ｃ）を構築することが
できる。未知遺伝子と思われる配列の一部が見つかった
ときには、このデータベース（Ｃ）から相同検索するこ
とにより、見つかった未知遺伝子の一部について、その
全体の遺伝子像を比較的高い信頼性で暫定的に決定する
ことができる。

【０００９】

【実施の形態】＜未知遺伝子の暫定配列の決定＞図１
は、本発明による未知遺伝子の配列データを類推構築す
る方法を一般的に示す図である。同図に示すように、本
発明の方法では、既知の遺伝子配列データベース、既知
のEST配列データベースおよびゲノム配列データベース
の三つのデータベースを使用する。これらのデータベー
スとしては、公共のデータベース（GenBank、EMBL、DDB
J等）、インサイト等の商業的データベース、独自に構
築されたデータベースまたはそれらの組合せを用いるこ
とができる。

【００１０】先ず、既知遺伝子配列データベースに含ま
れる特定の配列と、既知EST配列データベースに含まれ
る全配列との間で相同検索を行うことにより第一のコン
センサス配列を得る。このステップでは、得られたコン
センサス配列と前記ESTデータベースとの間で更に相同
検索を行う操作を繰り返すことにより、全ての可能なコ
ンセンサス配列群を求める。次に、既知遺伝子配列デー
タベースに含まれる別の特定の配列について、上記と同
様の手順を行うことにより、全ての可能なコンセンサス
配列群を求める。こうして得られたコンセンサス配列群
と、元の既知遺伝子配列および既知EST配列とを含んだ
第一のコンセンサス配列データベース（Ａ）を構築す
る。

【００１１】ここで、「コンセンサス配列」とは、相同
性の高い複数のDNA配列を、相同性の高い配列部分を揃
えて並べ、相同性の高い部分についてはそれらの共通配
列をとることにより、前記複数の配列を繋ぎあわせるこ
とにより得られた配列を意味する。その場合、共通部分
について全部のDNA配列の間で完全に一致しない塩基が
あるときは、頻度の高い塩基を選択する。

【００１２】これとは別に、既知のゲノム配列データベ
ースから、遺伝子予測プログラムを用いて、遺伝子のタ
ンパク質コード領域（ORF：オープンリーディングフレ
ーム）を予測する。この予測プログラムは、主にゲノム
配列に含まれるエキソン境界の検出に基づいてORFを予
測するものである。ゲノム配列データベースとしては既
述した公共のデータベース、独自に構築したデータベー
スまたはこれらの組合せを用いることができる。この予
測された遺伝子配列について、公共の遺伝子データバン
クで公開されている既知タンパク質のアミノ酸配列との
間で類似性検索を行い、その類似性の高さに従って分類
する。こうして分類された予測遺伝子配列からデータベ
ース（Ｂ）を構築する。

【００１３】次に、上記で構築されたデータベース
（Ｂ）に含まれる特定の予測遺伝子と、上記で構築され
たデータベース（Ａ）の全ての配列との間で相同検索を
行って、未知遺伝子の暫定配列としての第二のコンセン
サス配列を得る。こうして得られた第二のコンセンサス
配列は、未知遺伝子について、ORFのみならず、その5’
-側上流領域および／または3’-側下流領域の配列をも
含んでおり、従って当該遺伝子のm-RNAの全体像を示し
ている可能性が高い。

【００１４】また、図１に示すように、第二のコンセン
サス配列について、最初のEST＋既知遺伝子の配列との
間で再度相同検索を行って、第三のコンセンサス配列を
作製し、これを未知遺伝子の暫定配列として決定しても
よい。

【００１５】＜暫定配列の確認＞上記のようにして暫定
的に決定された配列の予測された未知遺伝子が現実に生
物の中に存在しているかどうかは、実際に検証してみな
ければ確認することができない。このような確認方法と
しては、例えば次のような方法が可能である。

【００１６】先ず、上記で得られた暫定配列に基づい
て、この予測未知遺伝子を増幅するためのPCRプライマ
ーを設計および合成する。次に、このプライマーを用い
て、実際に生物から得られたcDNAライブラリー（PCRに
よる）またはm-RNAライブラリー（RT-PCRによる）の増
幅を行う。その結果、実際に増幅されたcDNAなどが存在
すれば、予測された未知遺伝子が現実に生物の中に存在
することが確認される。従って、PCR反応後に増幅され
たDNAをクローニングし、シーケンシングを行うことに
より、暫定的に決定された配列が正しいか否かも確認す
ることもできる。

【００１７】＜未知遺伝子の暫定配列データベースの構
築＞データベース（Ｂ）に含まれる多くの予測遺伝子ま
たは全ての予測遺伝子について、上記で述べた暫定配列
を得る手順を繰り返すことにより、未知遺伝子に関する
暫定配列データベース（Ｃ）を構築することができる。
未知遺伝子に関する部分配列が見つかったときに、この
データベース（Ｃ）から相同検索することにより、その
全体の遺伝子像を得ることができる。

【００１８】なお、このデータベース（Ｃ）は、既知の
遺伝子配列に関するデータベース（Ａ）を包含する形で
構築してもよい。また、個々の第二のコンセンサス配列
について既知の遺伝子データの全部との間で類似検索を
行い、これにより得られた情報に基づいて分類して、デ
ータベース（Ｃ）を構築してもよい。

【００１９】＜本発明により得られる暫定配列の特徴＞
データベース（Ａ）に含まれるコンセンサス配列は、発
現が確認された遺伝子転写産物に基づいて得られたデー
タであり、従って生物中に実在することが既に確認され
ている。しかし、逆に言えば、このデータベース（Ａ）
には、発現が確認できていないcDNA、例えば、転写され
る量が少ないために検出が困難または未だ不能な遺伝子
（そのmRNA）についてはデータ量が乏しく、またはデー
タが存在しない。一方、データベース（Ｂ）に含まれる
データは、ゲノムデータのみから可能な遺伝子の配列を
予測したものであるから、遺伝子の発現量とは無関係で
ある。しかし、このデータベース（Ｂ）に含まれる遺伝
子データはあくまで予測であり、存在の有無については
実証実験を行わなければ殆ど分からない。これに対し
て、データベース（Ａ）とデータベース（Ｂ）とを組合
わせた第二にのコンセンサス配列（Ｃ）は、両者の欠点
を補うことができる。

【００２０】より詳細に言えば、データベース（Ａ）に
含まれる配列データの殆どはESTのデータであるため、m
RNAの全体が不明であることが多い。特に、ESTの特性と
して、これらはORFの3’-末端よりも下流の配列である
ことが多く、mRNAの中央部のデータが少ない。上流側お
よび下流側のデータが存在しても、中央部のデータがな
いので、未知遺伝子に関してはこれらを繋げることがで
きない。しかし、本発明のようにデータベースＢを含め
ることにより、中央部および5’-末端領域のデータが加
わるので、mRNAの全体像を構築できることになる。一
方、データベース（Ｂ）の中の予測遺伝子配列データに
ついてみると、データベース（Ａ）と組合わせた結果、
予測された遺伝子が現実に存在するかどうかの確認がコ
ンピュータ上で行われ、ORF以外の5’-側および3’-側
の非翻訳領域についても確認できることを意味する。

【００２１】こうして、データベース（Ｃ）に含まれる
遺伝子配列データには、現存する可能性が高く、且つよ
り完全なcDNA配列データが蓄積されることになり、更に
ゲノムデータを溯ってプロモータ領域の推定も可能にな
る。従って、データベース（Ｃ）を構築することによ
り、全遺伝子のカタログ化が可能になり、更に、包括的
な遺伝子研究のための全mRNAの配列を提供することがで
きる。

【００２２】

【実施例】実施例１：未知遺伝子の完全cDNA配列の構築既知の遺伝子配列および既知のEST配列を含む一般に利
用可能なデータベースを利用して、既述の手順により予
測遺伝子のデータベース（Ｂ）を構築した。このデータ
ベース（Ｂ）から、Transcript 117637という名称の予
測遺伝子配列（配列番号１）を選んだ。この配列につい
て、データベース（Ａ）との間で相同検索を行い、既述
の手法により第二のコンセンサス配列（配列番号２）を
得た。配列番号１と配列番号２の比較から、この手法に
よって、Transcript 117637の5’-末端の上流側配列
（配列番号３）および3’-末端の下流側配列（配列番号
４）が加わったことが分かる。

【００２３】この結果から、ゲノムデータから予測され
た未知遺伝子Transcript 117637が現存する可能性が高
いことが分かり、またかなりの確率で、その全体のcDNA
配列が推定された。

【００２４】実施例２：本発明による推定未知遺伝子の
確認実施例１に記載したデータベース（Ｂ）から、Transcri
pt 64911という名称の予測遺伝子配列（配列番号５）を
選択した。この配列は、3’-側の配列が完全に予測され
ていないことが推定された。この未知遺伝子について、
実施例１で説明した第一のコンセンサス配列データベー
ス（Ａ）から推定アミノ酸配列ベースで相同検索を行い
（検索にはBlastpを使用）、ホモロジーの高いデータ
（unid 255432）が見つかった（配列番号６）。そこ
で、Transcript 64911の配列およびunid 255432の配列
から、既述の手順に従ってそれらのコンセンサス配列を
得た（配列番号７）。この第二のコンセンサス配列はポ
リＡテイルを含んでいることから、完全な遺伝子配列で
あることが推定された。

【００２５】次に、上記で得た第二のコンセンサス配列
に基づいて、RT-PCRを行うためのオリゴプライマー
［５'−CATGGGCAACAAGCAGACAGT−３'（配列番号８）、
および５'−TCAGAAACCAGAGTCCACAGC−３'（配列番号
９）］を合成した。ヒトの様々な組織から抽出したmRNA
をAMV Reverse Transcriptase （タカラ）を用いてｃDN
A合成した。このｃDNAに対して、次のようにしてRT−PC
Rを行った。

【００２６】先ず、下記の成分 cDNA： 1.0μｇ、 10×LAバッファー（タカラ）： 2.0μL、 2.5 mM ｄNTP： 3.2μL、各プライマー（10μM）： 2.0μL、 LA−Taq（5U/μL：タカラ）： 0.2μL を混合し、滅菌蒸留水を加えて20μLのPCR反応溶液を作
製した。次に、サーマルサイクラー（バイオメトラ）を
用いてPCR反応液を95℃、1分間加熱した後、95℃で20
秒、62℃で2分のサイクルを40回おこなった。

【００２７】上記で増幅されたDNAに、ベクターDNA（pG
EM-T Easy：Promega）およびT4 DNAライゲース（DNA Li
gation kit Ver. 2のI液：タカラ）を加え、4℃で12時
間インキュベーションした後、16℃で1時間インキュベ
ーションした。次いで、反応液にコンピテントセル（MV
1184：ニッポンジーン）を加え、形質転換を行った。得
られた形質転換細胞を、L-broth寒天培地に塗布し培養
した。得られたコロニーからプラスミドDNAをコンサー
ト・ハイピュリティ・プラスミドミニプレップ・システ
ム(Gibco BRL)を用いて抽出した。

【００２８】抽出したプラスミドDNAをABI ３７７シー
ケンサー（パーキンエルマー）を用いて塩基配列の決定
をしたところ、図２に示す配列（配列番号１０）に示す
配列が得られた。この配列は、開始メチオニンからポリ
Ａテイルまで連続した一つの完全なcDNA配列の形態を備
えている。また、Transcript 64911と比較すると、塩基
番号347以降の配列が加わっていること、塩基番号51〜8
1の部分はコードされるアミノ酸が変化するほど大幅に
変更されていることが分かるが、それ以外の配列は略共
通しており、コンピュータ上で予測された未知遺伝子の
配列がかなりの信頼性を有することが分かる。

【００２９】なお、図２の配列では、第二のコンセンサ
ス配列と異なる塩基配列は小文字で、共通の塩基は大文
字で記載されている。

【００３０】

【配列表】 SEQUENCE LISTING <110> AISIN SEIKI CO., LTD. MAZE INC. <120> A METHOD FOR PROVISIONARY DETERMINING A NUCLEOTIDE SEQUENCE OF AN UNKNOWN GENE <130> A000007294 <140> <141> <160> 10 <170> <210> 1 <211> 1071 <212> DNA <213> human <220> <221> CDS <222> (1)..(1071) <400> 1 atg cgg ggg agc ccg ggc gac gcg gag cgg cgg cag cgc tgg ggt cgc 48 Met Arg Gly Ser Pro Gly Asp Ala Glu Arg Arg Gln Arg Trp Gly Arg 1 5 10 15 ctg ttc gag gag ctg gac agt aac aag gat ggc cgc gtg gac gtg cac 96 Leu Phe Glu Glu Leu Asp Ser Asn Lys Asp Gly Arg Val Asp Val His 20 25 30 gag ttg cgc cag ggg ctg gcc agg ctg ggc ggg ggc aac cca gac ccc 144 Glu Leu Arg Gln Gly Leu Ala Arg Leu Gly Gly Gly Asn Pro Asp Pro 35 40 45 ggc gcc caa cag ggt atc tcc tct gag ggt gat gct gac cca gat ggc 192 Gly Ala Gln Gln Gly Ile Ser Ser Glu Gly Asp Ala Asp Pro Asp Gly 50 55 60 ggg ctc gac ctg gag gaa ttt tcc cgc tat ctg cag gag cgg gaa cag 240 Gly Leu Asp Leu Glu Glu Phe Ser Arg Tyr Leu Gln Glu Arg Glu Gln 65 70 75 80 cgt ctg ctg ctc atg ttt cac agt ctt gac cgg aac cag gat ggt cac 288 Arg Leu Leu Leu Met Phe His Ser Leu Asp Arg Asn Gln Asp Gly His 85 90 95 att gat gtc tct gag atc caa cag agt ttc cga gct ctg ggc att tcc 336 Ile Asp Val Ser Glu Ile Gln Gln Ser Phe Arg Ala Leu Gly Ile Ser 100 105 110 atc tcg ctg gag cag gct gag aaa att ttg cac agc atg gac cga gac 384 Ile Ser Leu Glu Gln Ala Glu Lys Ile Leu His Ser Met Asp Arg Asp 115 120 125 ggc aca atg acc att gac tgg caa gaa tgg cgc gac cac ttc ctg ttg 432 Gly Thr Met Thr Ile Asp Trp Gln Glu Trp Arg Asp His Phe Leu Leu 130 135 140 cat tcg ctg gaa aat gtg gag gac gtg ctg tat ttc tgg aag cat tcc 480 His Ser Leu Glu Asn Val Glu Asp Val Leu Tyr Phe Trp Lys His Ser 145 150 155 160 acg gtc ctg gac att ggc gag tgc ctg aca gtg ccg gac gag ttc tca 528 Thr Val Leu Asp Ile Gly Glu Cys Leu Thr Val Pro Asp Glu Phe Ser 165 170 175 aag caa gag aag ctg acg ggc atg tgg tgg aaa cag ctg gtg gcc ggc 576 Lys Gln Glu Lys Leu Thr Gly Met Trp Trp Lys Gln Leu Val Ala Gly 180 185 190 gca gtg gca ggt gcc gtg tca cgg aca ggc acg gcc cct ctg gac cgc 624 Ala Val Ala Gly Ala Val Ser Arg Thr Gly Thr Ala Pro Leu Asp Arg 195 200 205 ctc aag gtc ttc atg cag gtc cat gcc tca aag acc aac cgg ctg aac 672 Leu Lys Val Phe Met Gln Val His Ala Ser Lys Thr Asn Arg Leu Asn 210 215 220 atc ctt ggg ggg ctt cga agc atg gtc ctt gag gga ggc atc cgc tcc 720 Ile Leu Gly Gly Leu Arg Ser Met Val Leu Glu Gly Gly Ile Arg Ser 225 230 235 240 ctg tgg cgc ggc aat ggt att aat gta ctc aag att gcc ccc gag tca 768 Leu Trp Arg Gly Asn Gly Ile Asn Val Leu Lys Ile Ala Pro Glu Ser 245 250 255 gct atc aag ttc atg gcc tat gaa cag atc aag agg gcc atc ctg ggg 816 Ala Ile Lys Phe Met Ala Tyr Glu Gln Ile Lys Arg Ala Ile Leu Gly 260 265 270 cag cag gag aca ctg cat gtg cag gag cgc ttc gtg gct ggc tcc ctg 864 Gln Gln Glu Thr Leu His Val Gln Glu Arg Phe Val Ala Gly Ser Leu 275 280 285 gct ggt gcc aca gcc caa acc atc att tac cct atg gag gtg ctg aag 912 Ala Gly Ala Thr Ala Gln Thr Ile Ile Tyr Pro Met Glu Val Leu Lys 290 295 300 acg cgg ctg acc ttg cgc cgg acg ggc cag tat aag ggg ctg ctg gac 960 Thr Arg Leu Thr Leu Arg Arg Thr Gly Gln Tyr Lys Gly Leu Leu Asp 305 310 315 320 tgc gcc agg cgt atc ctg gag agg gag ggg ccc cgt gcc ttc tac cgc 1008 Cys Ala Arg Arg Ile Leu Glu Arg Glu Gly Pro Arg Ala Phe Tyr Arg 325 330 335 ggc tac ctc ccc aac gtg ctg ggc atc atc ccc tat gcg ggc atc gac 1056 Gly Tyr Leu Pro Asn Val Leu Gly Ile Ile Pro Tyr Ala Gly Ile Asp 340 345 350 ctg gcc gtc tac gag 1071 Leu Ala Val Tyr Glu 355 <210> 2 <211> 1739 <212> DNA <213> human <220> <221> CDS <222> (114)..(1481) <400> 2 aggcttgcgg ccgcgggagc tgaccctgcg gggtcccggg gggggagggg gagccgcgaa 60 gcccccactg aggccgccgc tgccgggcct cccctccccc ccgggcgggc gcc atg 116 Met 1 cgg ggg agc ccg ggc gac gcg gag cgg cgg cag cgc tgg ggt cgc ctg 164 Arg Gly Ser Pro Gly Asp Ala Glu Arg Arg Gln Arg Trp Gly Arg Leu 5 10 15 ttc gag gag ctg gac agt aac aag gat ggc cgc gtg gac gtg cac gag 212 Phe Glu Glu Leu Asp Ser Asn Lys Asp Gly Arg Val Asp Val His Glu 20 25 30 ttg cgc cag ggg ctg gcc agg ctg ggc ggg ggc aac cca gac ccc ggc 260 Leu Arg Gln Gly Leu Ala Arg Leu Gly Gly Gly Asn Pro Asp Pro Gly 35 40 45 gcc caa cag ggt atc tcc tct gag ggt gat gct gac cca gat ggc ggg 308 Ala Gln Gln Gly Ile Ser Ser Glu Gly Asp Ala Asp Pro Asp Gly Gly 50 55 60 65 ctc gac ctg gag gaa ttt tcc cgc tat ctg cag gag cgg gaa cag cgt 356 Leu Asp Leu Glu Glu Phe Ser Arg Tyr Leu Gln Glu Arg Glu Gln Arg 70 75 80 ctg ctg ctc atg ttt cac agt ctt gac cgg aac cag gat ggt cac att 404 Leu Leu Leu Met Phe His Ser Leu Asp Arg Asn Gln Asp Gly His Ile 85 90 95 gat gtc tct gag atc caa cag agt ttc cga gct ctg ggc att tcc atc 452 Asp Val Ser Glu Ile Gln Gln Ser Phe Arg Ala Leu Gly Ile Ser Ile 100 105 110 tcg ctg gag cag gct gag aaa att ttg cac agc atg gac cga gac ggc 500 Ser Leu Glu Gln Ala Glu Lys Ile Leu His Ser Met Asp Arg Asp Gly 115 120 125 aca atg acc att gac tgg caa gaa tgg cgc gac cac ttc ctg ttg cat 548 Thr Met Thr Ile Asp Trp Gln Glu Trp Arg Asp His Phe Leu Leu His 130 135 140 145 tcg ctg gaa aat gtg gag gac gtg ctg tat ttc tgg aag cat tcc acg 596 Ser Leu Glu Asn Val Glu Asp Val Leu Tyr Phe Trp Lys His Ser Thr 150 155 160 gtc ctg gac att ggc gag tgc ctg aca gtg ccg gac gag ttc tca aag 644 Val Leu Asp Ile Gly Glu Cys Leu Thr Val Pro Asp Glu Phe Ser Lys 165 170 175 caa gag aag ctg acg ggc atg tgg tgg aaa cag ctg gtg gcc ggc gca 692 Gln Glu Lys Leu Thr Gly Met Trp Trp Lys Gln Leu Val Ala Gly Ala 180 185 190 gtg gca ggt gcc gtg tca cgg aca ggc acg gcc cct ctg gac cgc ctc 740 Val Ala Gly Ala Val Ser Arg Thr Gly Thr Ala Pro Leu Asp Arg Leu 195 200 205 aag gtc ttc atg cag gtc cat gcc tca aag acc aac cgg ctg aac atc 788 Lys Val Phe Met Gln Val His Ala Ser Lys Thr Asn Arg Leu Asn Ile 210 215 220 225 ctt ggg ggg ctt cga agc atg gtc ctt gag gga ggc atc cgc tcc ctg 836 Leu Gly Gly Leu Arg Ser Met Val Leu Glu Gly Gly Ile Arg Ser Leu 230 235 240 tgg cgc ggc aat ggt att aat gta ctc aag att gcc ccc gag tca gct 884 Trp Arg Gly Asn Gly Ile Asn Val Leu Lys Ile Ala Pro Glu Ser Ala 245 250 255 atc aag ttc atg gcc tat gaa cag atc aag agg gcc atc ctg ggg cag 932 Ile Lys Phe Met Ala Tyr Glu Gln Ile Lys Arg Ala Ile Leu Gly Gln 260 265 270 cag gag aca ctg cat gtg cag gag cgc ttc gtg gct ggc tcc ctg gct 980 Gln Glu Thr Leu His Val Gln Glu Arg Phe Val Ala Gly Ser Leu Ala 275 280 285 ggt gcc aca gcc caa acc atc att tac cct atg gag gtg ctg aag acg 1028 Gly Ala Thr Ala Gln Thr Ile Ile Tyr Pro Met Glu Val Leu Lys Thr 290 295 300 305 cgg ctg acc ttg cgc cgg acg ggc cag tat aag ggg ctg ctg gac tgc 1076 Arg Leu Thr Leu Arg Arg Thr Gly Gln Tyr Lys Gly Leu Leu Asp Cys 310 315 320 gcc agg cgt atc ctg gag agg gag ggg ccc cgt gcc ttc tac cgc ggc 1124 Ala Arg Arg Ile Leu Glu Arg Glu Gly Pro Arg Ala Phe Tyr Arg Gly 325 330 335 tac ctc ccc aac gtg ctg ggc atc atc ccc tat gcg ggc atc gac ctg 1172 Tyr Leu Pro Asn Val Leu Gly Ile Ile Pro Tyr Ala Gly Ile Asp Leu 340 345 350 gcc gtc tac gag act ctg aag aac tgg tgg ctt cag cag tac agc cac 1220 Ala Val Tyr Glu Thr Leu Lys Asn Trp Trp Leu Gln Gln Tyr Ser His 355 360 365 gac tcg gca gac cca ggc atc ctc gtg ctc ctg gcc tgc ggt acc ata 1268 Asp Ser Ala Asp Pro Gly Ile Leu Val Leu Leu Ala Cys Gly Thr Ile 370 375 380 385 tcc agc acc tgc ggc cag ata gcc agt tac ccg ctg gcc ctg gtc cgg 1316 Ser Ser Thr Cys Gly Gln Ile Ala Ser Tyr Pro Leu Ala Leu Val Arg 390 395 400 acc cgc atg cag gca caa gga agc cgg tgg tca tgc cat gag cag cct 1364 Thr Arg Met Gln Ala Gln Gly Ser Arg Trp Ser Cys His Glu Gln Pro 405 410 415 tat gga gag gac cat gtg gta agg aac tca gcc aat agc cat gta act 1412 Tyr Gly Glu Asp His Val Val Arg Asn Ser Ala Asn Ser His Val Thr 420 425 430 gag ctt gga aga gga tct tgc tgt cct ggc caa cat ctc act gca att 1460 Glu Leu Gly Arg Gly Ser Cys Cys Pro Gly Gln His Leu Thr Ala Ile 435 440 445 cta tca gtt gaa ttc cct gga tagtccaagc tttgtggatc cctccaccag 1511 Leu Ser Val Glu Phe Pro Gly 450 455 aacaactgga tcccagtacc tgaatcctga atcttagact cttatacttc aaacactgat 1571 cacgggaaca gccggctcag cagctcctga gttcctaatg ctcagaacat ggatgagatg 1631 ataaatgttt gttgtgttaa gctgccaacc tttggcgggg gggtaattcg tcacatggca 1691 acagctggct aatacatata tacctacatg taaaaaaaaa aaaaaaaa 1739 <210> 3 <211> 113 <212> DNA <213> human <400> 3 aggcttgcgg ccgcgggagc tgaccctgcg gggtcccggg gggggagggg gagccgcgaa 60 gcccccactg aggccgccgc tgccgggcct cccctccccc ccgggcgggc gcc 113 <210> 4 <211> 555 <212> DNA <213> human <400> 4 actctgaaga actggtggct tcagcagtac agccacgact cggcagaccc aggcatcctc 60 gtgctcctgg cctgcggtac catatccagc acctgcggcc agatagccag ttacccgctg 120 gccctggtcc ggacccgcat gcaggcacaa ggaagccggt ggtcatgcca tgagcagcct 180 tatggagagg accatgtggt aaggaactca gccaatagcc atgtaactga gcttggaaga 240 ggatcttgct gtcctggcca acatctcact gcaattctat cagttgaatt ccctggatag 300 tccaagcttt gtggatccct ccaccagaac aactggatcc cagtacctga atcctgaatc 360 ttagactctt atacttcaaa cactgatcac gggaacagcc ggctcagcag ctcctgagtt 420 cctaatgctc agaacatgga tgagatgata aatgtttgtt gtgttaagct gccaaccttt 480 ggcggggggg taattcgtca catggcaaca gctggctaat acatatatac ctacatgtaa 540 aaaaaaaaaa aaaaa 555 <210> 5 <211> 331 <212> DNA <213> human <220> <221> CDS <222> (1)..(330) <400> 5 atg ggc aac aag cag aca gtc ttc aca cac gag cag ctg gaa gcg tat 48 Met Gly Asn Lys Gln Thr Val Phe Thr His Glu Gln Leu Glu Ala Tyr 1 5 10 15 cag ctt ttt cct ccc cac atc agg ctc ttc tat cgc tac cag gac ctg 96 Gln Leu Phe Pro Pro His Ile Arg Leu Phe Tyr Arg Tyr Gln Asp Leu 20 25 30 gcc cca cag ctc gtg ccc ctc gac tat acc acc tgc ccc gat gtg aag 144 Ala Pro Gln Leu Val Pro Leu Asp Tyr Thr Thr Cys Pro Asp Val Lys 35 40 45 gtg ccc tac gag ctc att ggc agc atg ccc gag ctg aag gac aac ccc 192 Val Pro Tyr Glu Leu Ile Gly Ser Met Pro Glu Leu Lys Asp Asn Pro 50 55 60 ttc cgc cag agg att gcc cag gta ttc tct gag gat ggg gat ggc cac 240 Phe Arg Gln Arg Ile Ala Gln Val Phe Ser Glu Asp Gly Asp Gly His 65 70 75 80 atg acc ctg gac aac ttt ttg gac atg ttt tcc gtg atg agt gaa atg 288 Met Thr Leu Asp Asn Phe Leu Asp Met Phe Ser Val Met Ser Glu Met 85 90 95 gct ccc cgc gac ctc aag gct tac tat gct ttt aaa att tat g 331 Ala Pro Arg Asp Leu Lys Ala Tyr Tyr Ala Phe Lys Ile Tyr 100 105 110 <210> 6 <211> 510 <212> DNA <213> human <400> 6 tacgagttca ttggcagcat gcccgagctg aaggacaacc ccttccgcca gaggattgcc 60 caggtattct ctgaggatgg ggatggccac atgaccctgg acaacttttt ggacatgttt 120 tccgtgatga gtgaaatggc tccccgcgac ctcaaggctt actatgcttt taaaatttat 180 gattttaaca acgacgacta catttgtgcg tgggacctgg agcagacggt gaccaaactg 240 acgcgggggg agctgagtgc cgaggaggtg agcctggtat gtgagaaggt gctggatgag 300 gctgatggag accatgatgg gcggctgtcc ctggaagatt tccagaacat gatcctccgg 360 gcaccagact tcctcagcac cttccacatc cgaatctgat ggcaccacag aggagccgag 420 ctataggagg gcggggtgac ccctcacccg ctgtggactc tggtttctga gaataaacac 480 aagtcactga gtcacaaaaa aaaaaaaaaa 510 <210> 7 <211> 660 <212> DNA <213> human <220> <221> CDS <222> (1)..(660) <400> 7 atg ggc aac aag cag aca gtc ttc aca cac gag cag ctg gaa gcg tat 48 Met Gly Asn Lys Gln Thr Val Phe Thr His Glu Gln Leu Glu Ala Tyr 1 5 10 15 cag ctt ttt cct ccc cac atc agg ctc ttc tat cgc tac cag gac ctg 96 Gln Leu Phe Pro Pro His Ile Arg Leu Phe Tyr Arg Tyr Gln Asp Leu 20 25 30 gcc cca cag ctc gtg ccc ctc gac tat acc acc tgc ccc gat gtg aag 144 Ala Pro Gln Leu Val Pro Leu Asp Tyr Thr Thr Cys Pro Asp Val Lys 35 40 45 gtg ccc tac gag ctc att ggc agc atg ccc gag ctg aag gac aac ccc 192 Val Pro Tyr Glu Leu Ile Gly Ser Met Pro Glu Leu Lys Asp Asn Pro 50 55 60 ttc cgc cag agg att gcc cag gta ttc tct gag gat ggg gat ggc cac 240 Phe Arg Gln Arg Ile Ala Gln Val Phe Ser Glu Asp Gly Asp Gly His 65 70 75 80 atg acc ctg gac aac ttt ttg gac atg ttt tcc gtg atg agt gaa atg 288 Met Thr Leu Asp Asn Phe Leu Asp Met Phe Ser Val Met Ser Glu Met 85 90 95 gct ccc cgc gac ctc aag gct tac tat gct ttt aaa att tat gat ttt 336 Ala Pro Arg Asp Leu Lys Ala Tyr Tyr Ala Phe Lys Ile Tyr Asp Phe 100 105 110 aac aac gac gac tac att tgt gcg tgg gac ctg gag cag acg gtg acc 384 Asn Asn Asp Asp Tyr Ile Cys Ala Trp Asp Leu Glu Gln Thr Val Thr 115 120 125 aaa ctg acg cgg ggg gag ctg agt gcc gag gag gtg agc ctg gta tgt 432 Lys Leu Thr Arg Gly Glu Leu Ser Ala Glu Glu Val Ser Leu Val Cys 130 135 140 gag aag gtg ctg gat gag gct gat gga gac cat gat ggg cgg ctg tcc 480 Glu Lys Val Leu Asp Glu Ala Asp Gly Asp His Asp Gly Arg Leu Ser 145 150 155 160 ctg gaa gat ttc cag aac atg atc ctc cgg gca cca gac ttc ctc agc 528 Leu Glu Asp Phe Gln Asn Met Ile Leu Arg Ala Pro Asp Phe Leu Ser 165 170 175 acc ttc cac atc cga atc tga tgg cac cac aga gga gcc gag cta tag 576 Thr Phe His Ile Arg Ile Trp His His Arg Gly Ala Glu Leu 180 185 190 gag ggc ggg gtg acc cct cac ccg ctg tgg act ctg gtt tct gag aat 624 Glu Gly Gly Val Thr Pro His Pro Leu Trp Thr Leu Val Ser Glu Asn 195 200 205 aaa cac aag tca ctg agt cac aaa aaa aaa aaa aaa 660 Lys His Lys Ser Leu Ser His Lys Lys Lys Lys Lys 210 215 220 <210> 8 <211> 21 <212> DNA <213> synthetic <400> 8 catgggcaac aagcagacag t 21 <210> 9 <211> 21 <212> DNA <213> synthetic <400> 9 tcagaaacca gagtccacag c 21 <210> 10 <211> 635 <212> DNA <213> human <220> <221> CDS <222> (1)..(600) <400> 10 atg ggc aac aag cag aca gtc ttc aca cac gag cag ctg gaa gcg tat 48 Met Gly Asn Lys Gln Thr Val Phe Thr His Glu Gln Leu Glu Ala Tyr 1 5 10 15 cag gac tgc aca ttt ttc aca agg aag gag atc atg agg ctc ttc tat 96 Gln Asp Cys Thr Phe Phe Thr Arg Lys Glu Ile Met Arg Leu Phe Tyr 20 25 30 cgc tac cag gac ctg gcc cca cag ctc gtg ccc ctc gac tat acc acc 144 Arg Tyr Gln Asp Leu Ala Pro Gln Leu Val Pro Leu Asp Tyr Thr Thr 35 40 45 tgc ccc gat gtg aag gtg ccc tac gag ctc att ggc agc atg ccc gag 192 Cys Pro Asp Val Lys Val Pro Tyr Glu Leu Ile Gly Ser Met Pro Glu 50 55 60 ctg aag gac aac ccc ttc cgc cag agg att gcc cag gta ttc tct gag 240 Leu Lys Asp Asn Pro Phe Arg Gln Arg Ile Ala Gln Val Phe Ser Glu 65 70 75 80 gat ggg gat ggc cac atg acc ctg gac aac ttt ttg gac atg ttt tcc 288 Asp Gly Asp Gly His Met Thr Leu Asp Asn Phe Leu Asp Met Phe Ser 85 90 95 gtg atg agt gaa atg gct ccc cgc gac ctc aag gct tac tat gct ttt 336 Val Met Ser Glu Met Ala Pro Arg Asp Leu Lys Ala Tyr Tyr Ala Phe 100 105 110 aaa att tat gat ttt aac aac gac gac tac att tgt gcg tgg gac ctg 384 Lys Ile Tyr Asp Phe Asn Asn Asp Asp Tyr Ile Cys Ala Trp Asp Leu 115 120 125 gag cag acg gtg acc aaa ctg acg cgg ggg gag ctg agt gcc gag gag 432 Glu Gln Thr Val Thr Lys Leu Thr Arg Gly Glu Leu Ser Ala Glu Glu 130 135 140 gtg agc ctg gta tgt gag aag gtg ctg gat gag gct gat gga gac cat 480 Val Ser Leu Val Cys Glu Lys Val Leu Asp Glu Ala Asp Gly Asp His 145 150 155 160 gat ggg cgg ctg tcc ctg gaa gat ttc cag aac atg atc ctc cgg gca 528 Asp Gly Arg Leu Ser Leu Glu Asp Phe Gln Asn Met Ile Leu Arg Ala 165 170 175 cca gac ttc ctc agc acc ttc cac atc cga atc tga tgg cac cac aga 576 Pro Asp Phe Leu Ser Thr Phe His Ile Arg Ile 180 185 190 gga gcc gag cta tag gag ggc ggg gtgacccctc acccgctgtg gactctggtt 630 tctga 635

【図面の簡単な説明】

【図１】本発明による方法を概念的に示すブロック図で
ある。

【図２】本発明の方法で予測された未知遺伝子の配列に
基づいて、その存在が実証された遺伝子の配列を示す図
である。

フロントページの続き (72)発明者佐藤伸司千葉県長生郡長生村岩沼918−２株式会社メイズ八積開発室内 (72)発明者笠間康次千葉県長生郡長生村岩沼918−２株式会社メイズ八積開発室内 (72)発明者齋藤俊行千葉県船橋市宮本２−10−１Ｆターム(参考） 4B024 AA11 AA20 CA20 HA19 4B063 QA13 QQ43 QQ53 QR08 QR32 QR38 QR42 QR62 QS25 QS39 QX10 5B075 ND20 UU19

Claims

【特許請求の範囲】

【請求項１】既知遺伝子配列のデータベース、既知ES
T配列のデータベース、およびゲノム配列のデータベー
スから未知遺伝子の暫定配列を決定するための方法であ
って：前記データベースに含まれる既知の遺伝子配列お
よび既知のEST配列から相同検索することにより第一の
コンセンサス配列を得、該第一のコンセンサス配列のデ
ータベース（Ａ）を構築するステップと；前記データベ
ースの既知のゲノム配列からmRNAに転写される領域を予
測して予測遺伝子配列を抽出し、該予測遺伝子配列のデ
ータベース（Ｂ）を構築するステップと；前記データベ
ース（Ｂ）に含まれる特定の予測遺伝子配列について、
前記データベース（Ａ）に含まれるコンセンサス配列と
相同検索することにより、未知遺伝子の配列データとし
ての第二のコンセンサス配列を得るステップとを具備し
たことを特徴とする方法。
【請求項２】前記データベース（Ａ）に含まれる複数
の予測遺伝子配列の夫々について請求項１に記載の方法
を適用し、得られた複数の第二のコンセンサス配列から
なる未知遺伝子の配列を含むデータベース（Ｃ）を構築
する方法。
【請求項３】請求項１に記載の方法により得られた第
二のコンセンサス配列を有する未知遺伝子が現実に存在
するか否かを確認する方法であって：前記第二のコンセ
ンサス配列に基づいて遺伝子増幅反応のためのプライマ
ーを得る工程と；該プライマーを用いた遺伝子増幅反応
により、生物由来のcDNAまたはmRNAライブラリーに対し
て遺伝子増幅反応を行なう工程と；前記遺伝子増幅反応
で増幅された遺伝子の存在を検出する工程とを具備し、
該増幅された遺伝子の存在によって、前記第二のコンセ
ンサス配列を有する遺伝子が現実に存在することを確認
する方法。