JP2004229642A - Protein and dna encoding the same - Google Patents

Protein and dna encoding the same Download PDF

Info

Publication number
JP2004229642A
JP2004229642A JP2003115847A JP2003115847A JP2004229642A JP 2004229642 A JP2004229642 A JP 2004229642A JP 2003115847 A JP2003115847 A JP 2003115847A JP 2003115847 A JP2003115847 A JP 2003115847A JP 2004229642 A JP2004229642 A JP 2004229642A
Authority
JP
Japan
Prior art keywords
protein
dna
seq
sequence
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003115847A
Other languages
Japanese (ja)
Inventor
Yoshihide Hayashizaki
良英 林崎
Mamoru Kamiya
守 神谷
Hideo Kubodera
英夫 久保寺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Chemical Corp
Dnaform KK
RIKEN Institute of Physical and Chemical Research
Original Assignee
Mitsubishi Chemical Corp
Dnaform KK
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Chemical Corp, Dnaform KK, RIKEN Institute of Physical and Chemical Research filed Critical Mitsubishi Chemical Corp
Priority to JP2003115847A priority Critical patent/JP2004229642A/en
Publication of JP2004229642A publication Critical patent/JP2004229642A/en
Pending legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Peptides Or Proteins (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a protein based on a physiological activity by analyzing base sequences of cDNA clones contained in a catalogued full-length cDNA library and specifying the physiological activity of the protein encoded with the cDNA clones for those having new sequence and to provide a method for utilizing the DNA encoding the protein. <P>SOLUTION: The protein is (a) a protein comprising a specific amino acid sequence or (b) a protein comprising an amino acid sequence in which one or several amino acids are deleted, substituted and/or added in the amino acid sequence and having a DNA-binding activity. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、新規なタンパク質、該タンパク質をコードするDNA、該タンパク質をコードする完全長cDNA、該DNAを有する組換えベクター、該DNAの部分配列から成るオリゴヌクレオチド、該DNAを導入した遺伝子導入細胞、及び該タンパク質に特異的に結合する抗体等に関する。
【0002】
【従来の技術】
cDNAの取得及びその塩基配列解析は、生体内に発現するタンパク質の生理活性を解析し、その活性に基づくタンパク質の利用方法を開発するうえで不可欠である。さらに、全遺伝子種に対応する完全長cDNAをカタログ化したライブラリーの作製は、ヒトゲノムプロジェクトの重要な課題の一つである。カタログ化したライブラリーとは、ライブラリーに含まれるcDNAに重複がないという意味であり、各cDNAが1種類ずつ含まれているライブラリーのことである。
【0003】
完全長cDNAクローニング法については、特開平9−248187号公報及び特開平10−127291号公報に記載されている。この方法は、mRNAの5’キャップサイトに存在するジオール構造にタグになる分子を結合させる工程、前記タグ分子を結合させたmRNAを鋳型とし、oligo dTをプライマーとして逆転写によりRNA−DNA複合体を作製し、この複合体の内、mRNAの完全長に対応するDNAを有するものをタグ分子の機能を利用して分離する工程を含むことを特徴とする方法である。
【0004】
また効率のよい逆転写法として、鋳型が高次構造を形成しないような高温で行うための方法も開発されている(特開平10−84961号公報)。さらに、合成された完全長cDNAライブラリーに含まれるDNA断片についてその鎖長に関わらず一律にクローニングすることができるクローニングベクターも開発されている(特開平11−9273号公報)。
【0005】
このような技術により作製された完全長cDNAライブラリーは、ライブラリーの個々の要素として全て均等に異なるものが含まれている訳ではなく、存在割合の高いクローンや逆に極微量にしか存在しないクローンもある。この極微量にしか存在しないクローンは新規である可能性が高いため、このようなクローンを濃縮するためのサブトラクション法やノーマライゼーション法も開発されている(特開2000−325080号公報;Carninci, P. et al.,Genomics, 37, 327−336(1996))。
【0006】
かくして得られるカタログ化された完全長cDNAライブラリーの各クローンについて、公知の方法により塩基配列の解析を行えばその塩基配列は同定されるが、該cDNAがコードするタンパク質の生理活性は依然不明のままである。
【0007】
【発明が解決しようとする課題】
本発明は、カタログ化された完全長cDNAライブラリーに含まれるcDNAクローンの塩基配列を解析し、このうち配列が新規なものについては、これがコードするタンパク質の生理活性を特定し、該生理活性に基づくタンパク質およびそれをコードするDNAの利用方法を提案することを目的とする。
【0008】
【課題を解決するための手段】
本発明者らは、マウス完全長cDNAライブラリー中のcDNAクローンが有する塩基配列を解析し、該配列の相同性に基づきデータベースを検索したところ、該配列にDNA結合活性を有するタンパク質に特異的な配列を見出し、これらのcDNAがコードするタンパク質がDNA結合活性を有すると同定した。さらに、これらのcDNAの各組織における発現量や、該cDNAがコードするタンパク質を実際に取得してその相互作用を解析した。また、これらのcDNAがコードするタンパク質のDNA結合活性または転写制御活性を解析した。さらには、該cDNAの塩基配列をもとにヒトホモログDNAを取得し、得られたヒトホモログDNAの各組織における発現量を解析した。本発明は、これらの知見に基づいて成し遂げられたものである。
【0009】
すなわち本発明によれば、以下の(1)〜(15)に記載の発明が提供される。
(1) 以下の (a) または (b) のタンパク質。
(a)配列番号14〜26または36のいずれかに記載のアミノ酸配列からなるタンパク質。
(b)配列番号14〜26または36のいずれかに記載のアミノ酸配列において1若しくは数個のアミノ酸が欠失、置換及び/または付加されたアミノ酸配列からなり、かつDNA結合活性を有するタンパク質。
【0010】
(2) 上記(1)に記載のタンパク質をコードするDNA。
(3) 上記(1)に記載のタンパク質をコードする完全長cDNA。
(4) 以下の (a) 、 (b)又は(c) の何れかのDNA。
(a)配列番号1〜13または35のいずれかに記載の塩基配列を有するDNA。
(b)配列番号1〜13または35のいずれかに記載の塩基配列において、1若しくは数個の塩基が欠失、置換及び/または付加された塩基配列を有し、かつDNA結合活性を有するタンパク質をコードするDNA。
(c)配列番号1〜13または35のいずれかに記載の塩基配列あるいはその相補配列を有するDNAとストリンジェントな条件下でハイブリダイズすることができる塩基配列を有し、かつDNA結合活性を有するタンパク質をコードするDNA。
【0011】
(5) 上記(2)〜(4)のいずれかに記載のDNAを含む組換えベクター。
(6) 上記(2)〜(4)のいずれかに記載のDNAまたは上記(5)に記載の組み換えベクターを導入した遺伝子導入細胞または該細胞からなる個体。
(7) 上記(6)に記載の細胞により産生される、上記(1)に記載のタンパク質。
【0012】
(8) 上記(2)から(4)の何れかに記載のDNAの塩基配列中の連続した5〜100塩基と同じ配列を有するセンスオリゴヌクレオチド、当該センスオリゴヌクレオチドと相補的な配列を有するアンチセンスオリゴヌクレオチド、及び、当該センス又はアンチセンスオリゴヌクレオチドのオリゴヌクレオチド誘導体から成る群から選ばれるオリゴヌクレオチド。
【0013】
(9) 上記(1)または(7)に記載のタンパク質に特異的に結合する抗体あるいはその部分フラグメント。
(10) 抗体がモノクローナル抗体である上記(9)に記載の抗体。
(11) モノクローナル抗体が上記(1)または(7)に記載のタンパク質のDNA結合活性を中和する作用を有することを特徴とする上記(10)に記載の抗体。
【0014】
(12) 上記(1)または(7)に記載のタンパク質と被検物質を接触させ、該被検物質による該タンパク質が有する活性の変化を測定することを特徴とする、該タンパク質の活性調節物質のスクリーニング方法。
(13) 上記(6)に記載の遺伝子導入細胞と被検物質を接触させ、該細胞に導入されているDNAの発現レベルの変化を検出することを特徴とする、該DNAの発現調節物質のスクリーニング方法。
(14) 上記(1)に記載のタンパク質のアミノ酸配列から選択される少なくとも1以上のアミノ配列情報、および/または上記(2)〜(4)のいずれかに記載のDNAの塩基配列から選択される少なくとも1以上の塩基配列情報を保存したコンピュータ読み取り可能記録媒体。
(15) 上記(1)に記載のタンパク質、および/または上記(2)〜(4)のいずれかに記載のDNAを結合させた担体。
【0015】
【発明の実施の形態】
以下、本発明をさらに詳細に説明する。
(1)完全長cDNAの取得及び塩基配列の解析
本発明のDNAは、配列番号14〜26または36に記載のアミノ酸配列からなるタンパク質、または該アミノ酸配列において、1若しくは数個(ここで言う数個の数は特には限定されないが、例えば20個以下、好ましくは15個以下、より好ましくは10個以下、さらに好ましくは5個以下を意味する)のアミノ酸残基の置換、欠失、挿入、付加、若しくは逆位を含むアミノ酸配列からなり、かつDNA結合活性を有するタンパク質をコードし得るものであれば如何なるものであってもよい。具体的には、該アミノ酸配列をコードする翻訳領域のみでも、あるいはそのcDNAの全長を含むものでもよい。
【0016】
具体的には、cDNAの全長を含むDNAとしては、例えば配列番号1〜13または35に記載の塩基配列からなるDNA等が挙げられる。また、その翻訳領域としては、配列番号1の塩基番号134〜1690、配列番号2の塩基番号1751〜2197、配列番号3の塩基番号662〜3259、配列番号4の塩基番号661〜1476、配列番号5の塩基番号213〜1703、配列番号6の塩基番号122〜1612、配列番号7の塩基番号156〜560、配列番号8の塩基番号149〜1591、配列番号9の塩基番号597〜1982、配列番号10の塩基番号230〜907、配列番号11の塩基番号566〜1228、配列番号12の塩基番号487〜2127、配列番号13の塩基番号167〜2950、配列番号35の塩基番号1〜2904に示される配列を有するものが挙げられる。さらに上記のcDNAの全長でなくても、上記翻訳領域とその3’及び/または5’端に隣接する、翻訳領域の発現に最低限必要な部分を含むもの等も本発明のDNAに含まれる。
【0017】
本発明のDNAは、これを取得できる方法であれば如何なる方法により取得したものでもよいが、具体的には、例えば、下述の方法により取得することができる。まず、適当な動物、好ましくは哺乳動物の組織等からそれ自体既知の通常用いられる方法によりmRNAを調製する。次に、このmRNAを鋳型としてcDNAを合成するが、このとき完全長のcDNAを合成するために5’キャップ(7MepppN)サイトに特異的なジオール構造にタグになる分子を化学結合させ、このmRNAを鋳型としてoligo dTをプライマーとして逆転写した後に、タグ分子の機能を利用して完全長のcDNAのみを分離する方法(特開平9−248187号公報;特開平10−127291号公報)を用いることが好ましい。また、逆転写の際には、鋳型が高次構造を形成して逆転写の効率が低下することを阻止するために、トレハロース等の存在下で、耐熱性逆転写酵素を用いて高温下で逆転写を行う方法(特開平10−84961号公報)を用いるのが好ましい。ここで、高温下とは40〜80℃を意味する。
【0018】
このようにして取得されたcDNAは、これを適当なクローニングベクターに挿入してクローニングを行う。ここで用いられるベクターとしては、様々な鎖長のDNAを一律にクローニングすることが可能な、クローニングサイトの両末端にリコンビナーゼ認識配列を有し、感染以外の方法で宿主に挿入される直鎖状のベクター(特開平11−9273号公報)が好ましく用いられる。かくして得られるcDNAライブラリーは、全てのクローンが均一に存在している(以下、これを「カタログ化されている」と称することがある)訳ではなく、このライブラリー中に極微量にしか存在しないクローンこそ新規である確率が高い。そこで、このようなクローンを濃縮するためのサブトラクション法やノーマライゼーション法(特開2000−325080号公報;Carninci, P. et al.,Genomics, 37, 327−336(1996))を用いることが好ましい。
【0019】
カタログ化されたcDNAライブラリーは、それ自体既知の通常用いられる方法により塩基配列の解析を行う。本発明のDNAは、cDNA全長の場合にはその末端100ベースの配列について得られた塩基配列をNCBIのGenBank、EMBL、DDBJ、PDB等のデータベースについてBLAST(http://www.ncbi.nlm.nih.gov/BLAST/;National Center of Biotechnology Information)を用いて検索し、最も高い相同性を示す配列でも相同性が30%以下であり、かつ該DNAの翻訳領域の全長について最も高い相同性を示す配列でもその相同性が40%以下であるものを新規として以下の解析に供することとした。
【0020】
このような完全長cDNAの塩基配列を有するDNAとしては、例えば、配列番号1〜13または35に記載の塩基配列を有するものが挙げられる。また、その翻訳領域としては、配列番号1の塩基番号134〜1690、配列番号2の塩基番号1751〜2197、配列番号3の塩基番号662〜3259、配列番号4の塩基番号661〜1476、配列番号5の塩基番号213〜1703、配列番号6の塩基番号122〜1612、配列番号7の塩基番号156〜560、配列番号8の塩基番号149〜1591、配列番号9の塩基番号597〜1982、配列番号10の塩基番号230〜907、配列番号11の塩基番号566〜1228、配列番号12の塩基番号487〜2127、配列番号13の塩基番号167〜2950、配列番号35の塩基番号1〜2904に示される配列に示される配列を有するものが挙げられる。
【0021】
かくして取得された新規な塩基配列を、BLAST(Basic local alignment search tool;Altschul, S.F., et al.,J. Mol. Biol., 215, 403−410(1990)) による相同性検索 (homology search)や、HMMER(隠れMarkovモデルによる配列解析手法; Eddy, S. R., Bioinformatics 14, 755−763 (1998)) の機能群のひとつである HMMPFAMによるタンパク質特徴検索 (profile search:http://pfam.wustl.edu)等を行うことにより、該塩基配列がコードするタンパク質の機能を推定することができる。
【0022】
BLASTによる相同性検索においては、検索の結果得られた相同性が十分有意なヒット配列に付随する種々のアノテーション情報から、解析対象としているクローンの機能を推定することができる。ここで、十分有意なヒット配列とは、登録されている配列の触媒ドメイン部分と本発明のDNAのこれに対応する部分とのidentityがe−valueとして10−4以下のものか、あるいは30%以上のものを示す。
【0023】
例えば、上位にヒットした触媒ドメイン配列の多くがDNA結合タンパク質としての機能を確認されたものであるならば、それと配列上類似である解析対象クローンもまた同じ機能、即ち、DNA結合活性を持つであろうという予測が成り立つ。
【0024】
HMMPFAMでは、Pfamというタンパク質プロファイルを集積したデータベース中にあるエントリーが有する塩基配列の特徴を、解析対象である塩基配列が有するかどうかを洗い出す方法による解析が行われる。プロファイルは一連の同一特徴を持つタンパク質群から抽出されており、一配列対一配列の全長に亘る比較では明確化できない機能でも、配列中にその特徴領域があればこれを見出し、機能予測ができる。かくして行われるタンパク質の機能予測の具体的な例として以下に説明する。
【0025】
配列番号1に記載の塩基配列がコードするアミノ酸配列は、BLASTサーチにより、RIKEN full−length enriched library, clone:9530049C15, SCAN domain containing protein と、e−value:5×10−171、100%の相同性を、またZinc finger protein 192 (LD5−1)は、SCAN box domainをもつKruppel gene familyであるが、e−value:2×10−94、42%の相同性を、さらにHomo sapiens zinc finger protein (ZFP)と、e−value:4×10−93、41%の相同性を有する。これらの結果より、配列番号1に記載の塩基配列がコードするタンパク質はZinc finger proteinであることが推測できる。
また、配列番号1に示す塩基配列がコードするアミノ酸配列には、HMMPFAMによる蛋白質特徴検索により、ZF−C2H2の特徴を示す配列(PfamにLIMとしてエントリーされる塩基配列)が7回見出される。
これらのことから、配列番号1に示す塩基配列がコードするタンパク質はzinc finger型の転写因子であることが推測できる。
【0026】
配列番号2に記載の塩基配列がコードするアミノ酸配列は、BLASTサーチにより、RIKEN cDNA 2810411K16と、e−value:2×10−76、139アミノ酸にわたって100%の相同性を、RIKEN full−length enriched library, clone:2810411K16:SCAN domain containing proteinと、e−value:6×10−76、139アミノ酸にわたって99%の相同性を、Homo sapiens cDNA FLJ14478 fis, clone MAMMA1001633と、e−value:1×10−61、140アミノ酸にわたって86%の相同性を有する。
また、HMMPFAMによる蛋白質特徴検索により塩基番号1880〜2167にSCAN配列が見出され、これらのことから、配列番号2に示す塩基配列がコードするタンパク質はDNA結合蛋白質であることが推測できる。
【0027】
配列番号3に記載の塩基配列がコードするアミノ酸配列は、BLASTサーチにより、Homo sapiens, clone MGC:13310 IMAGE:4110431と、e−value:5×10−145、919アミノ酸にわたって40%の相同性を、また、Zinc finger protein 180 (HHZ168)と、e−value:2×10−63、231アミノ酸にわたって51%の相同性を、さらに、Rattus norvegicus Cys2/His2 zinc finger protein (rKr1)と、e−value:6×10−63、192アミノ酸にわたって56%の相同性を有する。
また、HMMPFAMによる蛋白質特徴検索により塩基番号786〜3275にzf−C2H2が6箇所見出され、この特徴から、配列番号3に記載の塩基配列がコードするタンパク質がDNA結合蛋白質であることが推測できる。
【0028】
配列番号4に記載の塩基配列がコードするアミノ酸配列は、BLASTサーチにより、Macaca fascicularis brain cDNA, clone:QccE−18103.と、e−value:2×10−95、220アミノ酸にわたって79%の相同性を、またHomo sapiens putative transcription factor CR53と、e−value:1×10−32、56%の相同性を、さらに、Homo sapiens, Similar to zinc finger protein 202, clone MGC:15660 IMAGE:3347511と、e−value:1×10−32、134アミノ酸にわたって56%の相同性を有する。
また、配列番号4に示す塩基配列がコードするアミノ酸配列について、HMMPFAMによる蛋白質特徴検索を行うと、SCAN配列(PfamにSCANとしてエントリーされる塩基配列)が見出される。
これらのことから、配列番号4に示す塩基配列がコードするタンパク質は転写因子であることが推測できる。
【0029】
配列番号5に記載の塩基配列がコードするアミノ酸配列は、BLASTサーチにより、Mus musculus, zinc finger proliferation 1と、e−value:6×10−97、491アミノ酸にわたって41%の相同性を、mouse Zinc finger protein 38 (Zfp−38) (CtFIN51) (Transcription factor RU49)と、e−value:2×10−96、491アミノ酸にわたって41%の相同性を、さらに、Hypothetical zinc finger protein KIAA0426と、e−value:2×10−95、532アミノ酸にわたって44%の相同性を有する。
また、HMMPFAMによる蛋白質特徴検索により塩基番号929〜1585にzf−C2H2が8回見出され、これらの特徴から、配列番号5に記載の塩基配列がコードするタンパク質がDNA結合蛋白質であることが推測できる。
【0030】
配列番号6に記載の塩基配列がコードするアミノ酸配列は、BLASTサーチにより、Mus musculus, zinc finger proliferation 1, clone MGC:18498 IMAGE:3981599と、e−value:6×10−97、491アミノ酸にわたって41%の相同性を、また、mouse Zinc finger protein 38 (Zfp−38) (CtFIN51) (Transcription factor RU49)と、e−value:2×10−96、491アミノ酸にわたって41%の相同性を、さらに、Hypothetical zinc finger protein KIAA0426と、e−value:2×10−95、532アミノ酸にわたって44%の相同性を有する。
また、HMMPFAMによる蛋白質特徴検索により塩基番号929〜1585にzf−C2H2が8回見出され、この特徴から、配列番号6に記載の塩基配列がコードするタンパク質がDNA結合蛋白質であることが推測できる。
【0031】
配列番号7に記載の塩基配列がコードするアミノ酸配列は、BLASTサーチにより、STATc transcriptional repressorと、e−value:4×10−28で、127アミノ酸にわたって53%の相同性を、また、forkhead−related transcription factor 2と、e−value:4×10−23で、109アミノ酸にわたって58%の相同性を、さらに、Transcription regulatory protein SNF5と、e−value:2×10−24で、118アミノ酸にわたって61%のの相同性を有する。
また、STATc transcriptional repressorは、データベース中の文献情報(Mol. Cell, 7(4), 779−88(2001))から初期の発生速度と末端分化のタイミングの制御に関ること、および、ecmA遺伝子の発現を制御するリプレッサーとして機能することが、またforkhead−related transcription factor 2は、データベース中の文献情報(J. Biol. Chem. 1998, 273 (36):23335−43)から肺および胎盤に発現されている転写因子でいくつかの肺特異的遺伝子のcis因子に結合することが、さらにTranscription regulatory protein SNF5は、データベース中の文献情報(Mol. Cell. Biol., 1990, 10 (11):5616−25)からグルコースおよびリン酸により制御される遺伝子の転写制御に関わることがそれぞれわかる。
これらの特徴より、配列番号7に記載の塩基配列がコードするタンパク質は転写因子であることが推測できる。
【0032】
配列番号8に記載の塩基配列がコードするアミノ酸配列は、BLASTサーチにより、zinc finger protein 151 (pHZ−67)と、e−value:1×10−25で、121アミノ酸にわたって48%の相同性を、また、Myc−interacting zinc finger proteinと、e−value:2×10−25で、121アミノ酸にわたって48%の相同性を有する。これらの結果より、配列番号8に記載の塩基配列がコードするアミノ酸配列からなるタンパク質はZinc finger型DNA結合蛋白質であることが推測できる。
また、上記Myc−interacting zinc finger proteinタンパク質は、データベース中の文献情報(Curr Top Microbiol Immunol 1997;224:137−46)から、Myc−interacting zinc finger proteinであることがわかる。
また、HMMPFAMによる蛋白質特徴検索により、配列番号8に記載の塩基配列がコードするアミノ酸配列に蛋白質二量化に関わる特徴を示す配列(PfamにBTBとしてエントリーされるアミノ酸配列)が見出される。また、Zinc finger domain (Pfamにzf−C2H2としてエントリーされるアミノ酸配列)も1ヶ所見出される。
これらの特徴から、配列番号8に示す塩基配列がコードするタンパク質はZinc finger型DNA結合蛋白質であることが推測できる。
【0033】
配列番号9に記載の塩基配列がコードするアミノ酸配列は、BLASTサーチにより、Hypothetical zinc finger protein KIAA1473と、e−value:1×10−59で、295アミノ酸にわたって37%の相同性を、また、Zinc finger protein 135と、e−value:2×10−58で、277アミノ酸にわたって39%の相同性を有している。これらの結果より、配列番号9に記載の塩基配列がコードするアミノ酸配列からなるタンパク質はZinc finger型DNA結合蛋白質であることが推測できる。
また、上記Zinc finger protein 135タンパク質は、データベース中の文献情報(Genomics 1995 May 20;27(2):259−64)から、zinc finger Kruppel familyであることが明らかとなっており、発達障害などに関わることが分かる。
また、HMMPFAMによる蛋白質特徴検索により配列番号9に記載の塩基配列がコードするアミノ酸配列にZinc finger domain (Pfamにzf−C2H2としてエントリーされるアミノ酸配列)が9ヶ所で見出される。
これらの特徴から、配列番号9に示す塩基配列がコードするタンパク質はZinc finger型DNA結合蛋白質であることが推測できる。
【0034】
配列番号10に記載の塩基配列がコードするアミノ酸配列は、BLASTサーチの結果、PR−domain zinc finger protein 5と、e−value:3×10−13で、62アミノ酸にわたって50%の相同性を、また、zinc finger protein with interaction domainと、e−value:2×10−12で、81アミノ酸にわたって43%の相同性を有している。これらの結果より、配列番号10に記載の塩基配列がコードするアミノ酸配列からなるタンパク質はZinc finger型DNA結合蛋白質であることが推測できる。
また、上記zinc finger protein with interaction domainタンパク質は、データベース中の文献情報(Genes Dev 1994 Jul 15;8(14):1664−77)から、zinc finger protein with interaction domainであることが分かる。
また、HMMPFAMによる蛋白質特徴検索により、配列番号10に記載の塩基配列がコードするアミノ酸配列にZinc finger domain (Pfamにzf−C2H2としてエントリーされるアミノ酸配列)が2ヶ所見出される。
これらの特徴から、配列番号10に示す塩基配列がコードするタンパク質はZinc finger型DNA結合蛋白質であることが推測できる。
【0035】
配列番号11に記載の塩基配列がコードするアミノ酸配列は、BLASTサーチにより、PR−domain zinc finger protein 5と、e−value:4×10−13で、62アミノ酸にわたって50%の相同性を、また、zinc finger protein with interaction domainと、e−value:3×10−11で、81アミノ酸にわたって41%の相同性を有している。これらの結果より、配列番号11に記載の塩基配列がコードするアミノ酸配列からなるタンパク質はZinc finger型DNA結合蛋白質であることが推測できる。
また、HMMPFAMによる蛋白質特徴検索を行ったところ配列番号11に記載の塩基配列がコードするアミノ酸配列にはZinc finger domain (Pfamにzf−C2H2としてエントリーされるアミノ酸配列)が2ヶ所見出される。
これらの特徴から、配列番号11に示す塩基配列がコードするタンパク質はZinc finger型DNA結合蛋白質であることが推測できる。
【0036】
配列番号12に記載の塩基配列がコードするアミノ酸配列は、BLASTサーチにより、Mus musculus zinc finger transcription factor Kaisoと、e−value:2×10−27で、94アミノ酸にわたって58%の相同性を、また、Xenopus laevis BTB/POZ zinc finger transcription factor XKaisoが、e−value:2×10−29で、136アミノ酸にわたって48%の相同性を有している。
また、HMMPFAMによる蛋白質特徴検索により、配列番号12に記載の塩基配列がコードするアミノ酸配列にBTB (for BR−C, ttk and bab) or POZ(for Pox virus and Zinc finger)ドメインの特徴を示す配列(PfamにBTBとしてエントリーされるアミノ酸配列)、Msx−interacting−zinc fingerの特徴を示す配列(Pfamにzf−MIZとしてエントリーされるアミノ酸配列)、Zinc finger, C2H2 type の特徴を示す配列(Pfamにzf−C2H2としてエントリーされるアミノ酸配列)が見出される。
これらの特徴より、配列番号12に示す塩基配列がコードするタンパク質はzinc fingerを持ったKaiso様の転写因子であることが推測できる。
【0037】
配列番号13に記載の塩基配列がコードするアミノ酸配列は、BLASTサーチにより、Xenopus laevis DNA−methylation dependent transcriptional repressor Kaiso−like protein(Kaiso)と、e−value:4×10−32で、137アミノ酸にわたって48%の相同性を、また、Xenopus laevis BTB/POZ zinc finger transcription factor XKaisoと、e−value:4×10−32で、137アミノ酸にわたって48%の相同性を有する。
また、HMMPFAMによる蛋白質特徴検索により、配列番号13に記載の塩基配列がコードするアミノ酸配列にBTB (BR−C, ttk and bab) or POZ(Pox virus and Zinc finger)ドメインの特徴を示す配列(PfamにBTBとしてエントリーされるアミノ酸配列)、Msx−interacting−zinc fingerの特徴を示す配列(Pfamにzf−MIZとしてエントリーされるアミノ酸配列)、Zinc finger, C2H2 typeの特徴を示す配列(Pfamにzf−C2H2としてエントリーされるアミノ酸配列)が見出される。
これらの特徴より、配列番号13に示す塩基配列はzinc fingerを持ったKaiso様の転写因子遺伝子配列の一部分であることが推測できる。
【0038】
かくして取得され、塩基配列が決定され、また機能が推定される本発明のDNAは上記の配列番号1〜13または35に記載の塩基配列、あるいはその翻訳領域として上記に示した塩基配列を有するものだけでなく、これらの塩基配列において、1若しくは数個(ここで言う数個の数は特には限定されないが、例えば60個以下、好ましく30個以下、より好ましくは20個以下、さらに好ましくは10個以下、特に好ましくは5個以下を意味する。)の塩基が欠失、置換及び/または付加された塩基配列を有し、かつDNA結合活性を有するタンパク質をコードするDNA、並びに、これらとストリンジェントな条件下でハイブリダイズし、かつDNA結合活性を有するタンパク質をコードするDNA等も含まれる。これらDNAには前記したとおり、配列番号14〜26または36に記載のタンパク質のアミノ酸配列において1若しくは数個のアミノ酸配列が欠失、置換及び/または付加されたアミノ酸配列からなり、かつDNA結合活性を有するタンパク質をコードするものが含まれる。
【0039】
ここで、ストリンジェントな条件でハイブリダイズするDNAとは、配列番号1〜13または35に示される塩基配列またはその相補配列とBLAST解析で80%以上、好ましくは90%以上、さらに好ましくは95%以上の相同性を有する塩基配列を含むDNA等が挙げられる。また、ストリンジェントな条件下のハイブリダイゼーションとは、通常のハイブリダイゼーション緩衝液中で、温度が40〜70℃、好ましくは60〜65℃等で反応を行い、塩濃度が15mM〜300mM、好ましくは15mM〜60mM等の洗浄液中で洗浄を行う方法に従って行うことができる。
【0040】
さらに、本発明のDNAは、上述の方法により取得されたものでも、また合成されたものでもよい。DNAの塩基配列の置換は、例えばサイトダイレクテッドミュータジェネシスキット(宝酒造社製)や、クイックチェンジサイトダイレクテッドミュータジェネシスキット(ストラタジーン社製)等の市販キットで容易に行うことができる。
【0041】
また、配列番号1〜13に記載の塩基配列は、マウスを由来とするものであるが、上記したcDNAライブラリーの作製法に従ってヒトのcDNAライブラリーを作製し、該ライブラリーに対して配列番号1〜13の塩基配列を有するDNA断片をプローブとしたハイブリダイゼーションを行うことにより、配列番号1〜13に記載の塩基配列がコードするタンパク質のヒトのホモログタンパク質をコードするDNAを取得することもできる。本発明の配列番号1〜13に記載の塩基配列またはその相補配列を有するDNAとストリンジェントな条件でハイブリダイズするDNAには、このようなヒトのホモログをコードするDNAも含まれる。
【0042】
また、インフォマティックスを利用して、ヒトホモログDNAが有する塩基配列を予測し、該塩基配列を基に上記のヒトcDNAライブラリーなどからヒトホモログDNAを取得することもできる。
一般的に、インフォマティックスを利用して目的とするタンパク質のホモログタンパク質をコードする塩基配列を予測する方法としては、例えば、(i)目的とするcDNAの塩基配列をクエリーとして、ヒト等のcDNAデータベース(インフォマティックスにより予測されるcDNAデータベースを含む)に対しBLASTなどを用いて相同性検索を行う方法や、(ii)目的とするcDNAをクエリーとしてヒト等のESTデータベースに対しBLASTなどを用いて相同性検索を行い、ヒットしたESTが有する配列を目的とするcDNAの塩基配列を参照して連結する方法、さらに(iii)目的とするcDNAの塩基配列をクエリーとして、ヒトなどのゲノムデータベースに対しBLASTなどを用いて相同性検索を行い、目的とするcDNAの遺伝子が存在するゲノム上の位置を特定し、そのゲノム領域に対してGenscan(http://genes.mit.edu/GENSCAN.html)やSim4(Genome Res., 8: 976−74 (1998))等を用いて、該ゲノム中の遺伝子部分の塩基配列を予測する方法等が挙げられる。
【0043】
マウス由来のcDNAのヒトホモログDNAの塩基配列を予測する場合、上記の方法のいずれも用いることができるが、本発明の配列番号1〜13に記載の塩基配列を有するcDNAはいずれも新規であり、上記(i)の方法では、ヒトホモログDNAの塩基配列を取得できないと考えられるため、(ii)あるいは(iii)に記載の方法などが好ましく用いられる。
【0044】
かくして予測されたヒトホモログDNAの塩基配列を基に、上記のヒトcDNAライブラリーから、配列番号1〜13に記載の塩基配列がコードするタンパク質のヒトのホモログタンパク質をコードするDNAを取得することもできる。具体的な取得方法としては、例えば、予測されたヒトホモログDNAの5’端、および3’端の塩基配列に相補的な塩基配列を有するプライマーを用いて、上記ヒトcDNAライブラリーを鋳型としてPCRを行う方法や、予測されたヒトホモログDNAの一部の配列をプローブとして、上記ヒトcDNAライブラリーに対してハイブリダイゼーションを行う方法等が挙げられる。
【0045】
一般的に、目的遺伝子が有する塩基配列とホモロジーの高い塩基配列を有する類似遺伝子を「ホモログ」と呼び、上記の方法においてもヒトホモログの取得を目的としているが、遺伝子の機能解析においては、塩基配列が類似していることだけではなく、ホモログとして取得された遺伝子が、目的遺伝子のファミリーメンバーであることを確認することが重要である。2種類の生物間で「ホモログ」として取得された遺伝子は、共通の祖先遺伝子から進化した同一の遺伝子である「オルソログ」である可能性と、また、共通の祖先遺伝子からの重複によって生じた異なる遺伝子である「パラログ」である可能性がある。
【0046】
つまり、上記でホモログとして取得されたヒト由来のDNAは、これを、本発明のタンパク質と同一の機能を有すると解するには、また、該ヒト由来のDNAがコードするタンパク質の機能を、本発明のタンパク質のマウスにおける機能として推定検証するには、上記ヒトホモログが本発明のマウス遺伝子の近縁種のオルソログであることを確認することが好ましい。
【0047】
オルソログであることの確認方法は、例えば、以下の方法などが用いられる。
(1)まず、本発明のcDNAの塩基配列と、取得されたヒトホモログDNAの塩基配列について相同性を解析する。次に、本発明のcDNAの塩基配列をクエリーとして、DDBJ、EMBL、GenBankなどの国際塩基配列データベースや、特許データベースに含まれるヒト塩基配列について相同性検索を行い、取得されたヒトホモログDNAとクエリーの塩基配列の一致度が、データベースから得られた塩基配列とクエリーの塩基配列の一致度より高いことを確認する。さらに、(2)取得されたヒトホモログDNAの塩基配列と、対応する本発明のcDNAの塩基配列について相同性を解析する。次に、取得されたヒトホモログDNAの塩基配列をクエリーとして、DDBJ、EMBL、GenBankなどの国際塩基配列データベースや、特許データベースに含まれるマウス塩基配列について相同性検索を行い、本発明のcDNAとクエリーの塩基配列の一致度が、データベースから得られた塩基配列とクエリーの塩基配列との一致度より高いことを確認する。上記(1)および(2)を確認することにより、取得されたヒトホモログが、本発明のcDNAに対応するヒトオルソログであると同定することができる。上記(1)および(2)に記載した相同性の解析はアミノ酸配列の比較を用いても良く、また、分子進化系統樹を描いて検討することもできる。また、上記(1)および(2)に記載した相同性解析による一致度は、クエリーの全長にわたる一致度として解析することが好ましい。
【0048】
かくして取得されたヒトホモログDNA、あるいはオルソログDNAの塩基配列を、BLASTによる相同性検索やHMMPFAMによる蛋白質特徴検索等を行うことにより、該塩基配列がコードするタンパク質の機能を推定および確認することができる。本発明のcDNAのヒトオルソログとして、例えば配列番号35に記載の塩基配列を有するDNAが挙げられ、また本発明のタンパク質のヒトオルソログタンパク質として、配列番号36に記載のアミノ酸配列を有するタンパク質等が挙げられる。
本発明の配列番号1〜13に記載の塩基配列またはその相補配列を有するDNAとストリンジェントな条件でハイブリダイズするDNAには、このようなヒトホモログ、あるいはオルソログタンパク質をコードするDNAも含まれる。
【0049】
(2)新規cDNAがコードするタンパク質
本発明のDNAがコードするタンパク質の翻訳領域は、例えば、該DNAが有する塩基配列について3種類の読み枠によりアミノ酸に変換していき、最も長いポリペプチドをコードする範囲を本発明の翻訳領域としてそのアミノ酸配列を決めること等ができる。このようなアミノ酸配列として例えば、配列番号14〜26または36に記載のもの等が挙げられる。また、本発明のタンパク質は、上記のアミノ酸配列に限られるものではなく、該アミノ酸配列において1若しくは数個のアミノ酸が置換、欠失、及び/または付加されたアミノ酸配列からなり、かつDNA結合活性を有するものも含まれる。
【0050】
本発明のタンパク質の取得方法としては、上記(1)に記載の本発明のDNAを適当な方法により転写/翻訳する方法が好ましく用いられる。具体的には、適当な発現用ベクター若しくは適当なベクターに適当なプロモーターとともに挿入した組換えベクターを作製し、この組換えベクターで適当な宿主微生物を形質転換したり、適当な培養細胞に導入することにより発現させ、これを精製することにより取得することができる。
【0051】
かくして得られるタンパク質が遊離体で得られた場合には、公知の方法あるいはそれに準じる方法によって塩に変換することができ、逆に塩で得られた場合には遊離体、又は他の塩に変換することができる。この様な本発明のタンパク質の塩も本発明のタンパク質に含まれる。また、上記形質転換体が産生するタンパク質を、精製前、又は後に適当なタンパク質修飾酵素を作用させることにより、任意に修飾を加えたり、ポリペプチドを部分的に除去することにより修飾タンパク質とすることができる。これらの修飾タンパク質も上記したDNA結合活性を有するものであれば本発明の範囲に含まれる。
【0052】
本発明のタンパク質の産生を行う際、本発明のDNAを含む組換えベクターの作製に用いるベクターとしては、形質転換体内で該DNAが発現されるものであれば特に制限はなく、プラスミドベクター、ファージベクターのいずれでもよい。これらのうち通常は、該DNAが導入される宿主に適したプロモーター等の発現制御領域DNAが既に挿入されている市販のタンパク質発現用ベクターを用いる。このようなタンパク質発現用ベクターとして、具体的には例えば、宿主が大腸菌の場合では、pET3、pET11(ストラタジーン社製)pGEX(アマシャムファルマシアバイオテク社製)等が挙げられ、酵母の場合ではpESP−Iエクスプレッションベクター(ストラタジーン社製)等が挙げられ、さらに昆虫細胞の場合ではBacPAK6(クロンテック社製)等が用いられる。また宿主が動物細胞の場合では、ZAP Express(ストラタジーン社製)、pSVK3(アマシャムファルマシアバイオテク社製)等が挙げられる。
【0053】
発現制御領域が挿入されていないベクターを用いる場合には、発現制御領域として少なくともプロモーターを挿入する必要がある。ここでプロモーターとしては、宿主微生物、または培養細胞が保有するプロモーターを用いることができるが、これに限られるものではなく、具体的には例えば、宿主が大腸菌の場合にはT3、T7、tac、lacプロモーター等を用いることができ、酵母の場合にはnmt1プロモーター、Gal1プロモーター等を用いることができる。また宿主が動物細胞の場合にはSV40プロモーター、CMVプロモーター等が好ましく用いられる。
【0054】
また哺乳動物由来のプロモーターが機能可能な宿主を用いる場合には、本発明の遺伝子に固有のプロモーターを用いることもできる。これらのベクターへの本発明のDNAの挿入は、該DNAまたはこれを含むDNA断片をベクター中のプロモーターの下流に該遺伝子DNAがコードするタンパク質のアミノ酸配列を連結して行えばよい。
【0055】
このようにして作製した組換えベクターは、それ自体既知の方法により後述する宿主を形質転換して、DNA導入体を作製することができる。宿主への該ベクターの導入方法として、具体的には、ヒートショック法(J. Mol.Biol.,53,154, (1970))、リン酸カルシウム法(Science,221,551, (1983))、DEAEデキストラン法(Science,215,166,(1982))、インビトロパッケージング法(Proc.Natl.Acad. Sci.USA,72,581,(1975))、ウィルスベクター法(Cell,37,1053,(1984))、および電気パルス法(Chu.et al.,Nuc.Acids Res.,15,1331(1987))等が挙げられる。
【0056】
DNA導入体を作製するための宿主としては、本発明のDNAが体内で発現するものであれば特に限定されないが、例えば大腸菌、酵母、バキュロウィルス(節足動物多角体ウイルス)−昆虫細胞、あるいは動物細胞等が挙げられる。具体的には、大腸菌ではBL21、XL−2Blue(ストラタジーン社製)等、酵母ではSP−Q01(ストラタジーン社製)等、バキュロウィルスではAcNPV(J.Biol.Chem.,263,7406,(1988))とその宿主であるSf−9(J.Biol.Chem.,263,7406,(1988))等が挙げられる。また動物細胞としてはマウス繊維芽細胞C127(J.Viol.,26,291,(1978))やチャイニーズハムスター卵巣細胞CHO細胞(Proc.Natl.Acad. Sci. USA,77,4216, (1980))等が挙げられるが、発現量やスクリーニングの簡便さから好ましくはアフリカミドリザル腎臓由来COS−7(ATCC CRL1651:アメリカン タイプ カルチャー コレクション保存細胞)が用いられる。
【0057】
上記したようなタンパク質発現用ベクターを用いる発現方法の他に、プロモーターを連結した本発明のDNA断片を宿主微生物の染色体中に直接挿入する相同組換え技術(A. A. Vertes et al., Biosci. Biotechnol. Biochem., 57, 2036, (1993))、あるいはトランスポゾンや挿入配列(A. A. Vertes et al., Molecular Microbiol., 11, 739, (1994))等を用いてDNA導入体を作製することもできる。
【0058】
得られた培養物は、細胞あるいは菌体を遠心分離等の方法により収集し、これを適当な緩衝液に懸濁し、超音波、リゾチーム、および/または凍結融解等のそれ自体既知の適当な方法により破壊した後、遠心分離や濾過等によりタンパク質粗精製液を得、さらに適当な精製方法を組み合わせることにより精製することができる。かくして、本発明のタンパク質が取得される。上記したタンパク質発現組換えベクターを用いる発現方法の他に、上記(1)で取得された本発明のDNAを無細胞転写翻訳系に供することによりタンパク質発現を誘導し、本発明のタンパク質を取得することができる。本発明で用いられる無細胞転写翻訳系とは、DNAからmRNAへの転写、およびmRNAからタンパク質への翻訳に必要な全ての要素を含む系であり、そこにDNAを加えることによってそのDNAがコードしているタンパク質が合成されるようなあらゆる系を指す。無細胞転写翻訳系の具体例としては、真核細胞、およびバクテリア細胞、又はそれらの一部からの抽出液に基づいて調製された転写翻訳系が挙げられ、特に好ましい具体例としては、ウサギ網状赤血球、小麦胚芽、大腸菌からの抽出液(大腸菌S30抽出液)に基づいて調製された転写翻訳系が挙げられる。
【0059】
得られた無細胞転写翻訳系の転写翻訳産物からの、本発明のタンパク質の分離、および精製は、それ自体既知の通常用いられる方法で行うことができる。具体的には、例えばエピトープペプチド、ポリヒスチジンペプチド、グルタチオン−S−トランスフェラーゼ(GST)、マルトース結合タンパク質等をコードするDNA領域を、前記した転写翻訳されるべきDNAに導入し、前記の通り発現させ、該タンパク質と親和性を有する物質とのアフィニティーを利用して精製することができる。
【0060】
目的とするタンパク質の発現は、SDS−ポリアクリルアミドゲル電気泳動等で分離し、クマシーブリリアントブルー(シグマ社製)等で染色するか、または後述する本発明のタンパク質に特異的に結合する抗体により検出する方法等によって確認できる。また一般的に、発現されたタンパク質は生体内に存在するタンパク質分解酵素により切断されること(プロセッシング)が知られている。本発明のタンパク質も当然のことながら切断されたアミノ酸配列の部分断片であっても、DNA結合活性を有するものであれば、本発明のタンパク質に含まれる。
【0061】
かくして得られたタンパク質は、他のタンパク質、DNAとの相互作用等を解析することにより、生体内における多面的な機能を知ることができる。上記相互作用の解析法としては、それ自体既知の常法を用いることができるが、具体的には、例えば、酵母ツーハイブリッド法、蛍光偏光解消法、表面プラズモン法、ファージディスプレイ法、リボソーマルディスプレイ法等が挙げられる。
【0062】
(3)オリゴヌクレオチドの調製及び該オリゴヌクレオチドを用いる機能解析
上記(1)に記載の方法で取得した本発明のDNAまたはその断片を用いて、DNA合成機などを用いる常法により、本発明のDNAの一部の配列を有するアンチセンス・オリゴヌクレオチド、センス・オリゴヌクレオチド等のオリゴヌクレオチドを調製することができる。
【0063】
該オリゴヌクレオチドとしては、上記DNAの有する塩基配列中の連続した5〜100塩基と同じ配列を有するDNAまたは該DNAと相補的な配列を有するDNAを挙げることができる。具体例としては、配列番号1〜13または35のいずれかで表される塩基配列中の連続した5〜100塩基と同じ配列を有するDNAまたは該DNAと相補的な配列を有するDNAを挙げることができる。センスプライマーおよびアンチセンスプライマーとして用いる場合には、両者の融解温度(Tm)および塩基数が極端に変わることのない上記のオリゴヌクレオチドが好ましい。また、配列の長さは、一般的には5〜100塩基であり、好ましくは10〜60塩基であり、より好ましくは15〜50塩基である。
【0064】
また、これらオリゴヌクレオチドの誘導体も本発明のオリゴヌクレオチドとして利用することができる。該オリゴヌクレオチド誘導体としては、オリゴヌクレオチド中のリン酸ジエステル結合がホスホロチオエート結合に変換されたオリゴヌクレオチド誘導体、オリゴヌクレオチド中のリン酸ジエステル結合がN3’−P5’ホスフォアミデート結合に変換されたオリゴヌクレオチド誘導体、オリゴヌクレオチド中のリボースとリン酸ジエステル結合がペプチド核酸結合に変換されたオリゴヌクレオチド誘導体、オリゴヌクレオチド中のウラシルがC−5プロピニルウラシルで置換されたオリゴヌクレオチド誘導体、オリゴヌクレオチド中のウラシルがC−5チアゾールウラシルで置換されたオリゴヌクレオチド誘導体、オリゴヌクレオチド中のシトシンがC−5プロピニルシトシンで置換されたオリゴヌクレオチド誘導体、オリゴヌクレオチド中のシトシンがフェノキサジン修飾シトシン(phenoxazine−modified cytosine)で置換されたオリゴヌクレオチド誘導体、オリゴヌクレオチド中のリボースが2’−O−プロピルリボースで置換されたオリゴヌクレオチド誘導体、あるいはオリゴヌクレオチド中のリボースが2’−メトキシエトキシリボースで置換されたオリゴヌクレオチド誘導体等を挙げることができる。
【0065】
また、本発明のオリゴヌクレオチドは、これを2本鎖RNAとして調製し、被導入体へ導入し、標的遺伝子の発現を阻害するRNAインターフェアレンス法(以下、これを「RNAi法」と称することがある)に用いることができる。RNAインターフェアレンス法については、例えば、(Elbashir, S., et al., Nature, 411, 494−498(2001))に記載の方法等を用いることができる。また、上記2本鎖RNAは必ずしも全てがRNAである必要はなく、例えば、WO02/10374号公報に記載のもの等も用いることができる。
【0066】
ここで、標的遺伝子としては、本発明のDNAであれば、如何なるものであってもよい。これらDNAの少なくとも一部の塩基配列と実質的に同一な配列からなる2本鎖RNA(以下、これを「2本鎖ポリヌクレオチド」と称することがある)とは、標的遺伝子の塩基配列のうち、いずれの部分でもよい15bp以上の配列と実質的に同一な配列からなるものである。ここで、実質的に同一とは、標的遺伝子の配列と80%以上の相同性を有することを意味する。ヌクレオチドの鎖長は15bpから標的遺伝子のオープンリーディングフレーム(ORF)の全長までの如何なる長さでもよいが、15〜500bp程度のものが好ましく用いられる。ただし、哺乳類動物由来の細胞おいては、30bp以上の長い2本鎖RNAに反応して活性化するシグナル伝達系の存在が知られている。これはインターフェロン反応と呼ばれており(Mareus, P. I., et al., Interferon, 5, 115−180(1983))、該2本鎖RNAが細胞内に侵入すると、PKR(dsRNA−responsive protein kinase:Bass, B.L., Nature, 411, 428−429(2001))を介して多くの遺伝子の翻訳開始が非特異的に阻害され、それと同時に2’、5’oligoadenylate synthetase(Bass, B.L., Nature, 411, 428−429(2001))を介してRNaseLの活性化が起こり、細胞内のRNAの非特異的な分解が惹起される。これらの非特異的な反応のために、標的遺伝子の特異的反応が隠蔽されてしまう。従って哺乳類動物、または該動物由来の細胞、あるいは組織を被導入体として用いる場合には15〜30bp、好ましくは19〜24bp、最も好ましくは21bpの2本鎖ポリヌクレオチドを用いることが好ましい。2本鎖ポリヌクレオチドはその全体が2本鎖である必要はなく、5’、または3’末端が一部突出したものも含むが、3’末端が2塩基突出したものを用いることが好ましい。2本鎖ポリヌクレオチドは相補性を有する2本鎖のポリヌクレオチドを意味するが、自己相補性を有する1本鎖ポリヌクレオチドが自己アニーリングしたものでもよい。自己相補性を有する1本鎖ポリヌクレオチドとしては、例えば、逆方向反復配列を有するもの等が挙げられる。
【0067】
2本鎖ポリヌクレオチドの調製方法としては、特に制限はないが、それ自体既知の化学合成方法を用いることが好ましい。化学合成は、相補性を有する1本鎖ポリヌクレオチドを別個に合成し、これを適当な方法で会合させることにより2本鎖とすることができる。会合の方法として具体的には、例えば、合成した1本鎖ポリヌクレオチドを混合し、2本鎖が解離する温度にまで加熱し、その後徐々に冷却する方法等が挙げられる。会合した2本鎖ポリヌクレオチドは、アガロースゲル等を用いて確認し、残存する1本鎖ポリヌクレオチドを適当な酵素により分解する等して除去する。
【0068】
このようにして調製した2本鎖ポリヌクレオチドを導入する被導入体としては、標的遺伝子がその細胞内でRNAに転写、またはタンパク質に翻訳を受け得るものであれば如何なるものであってもよいが、具体的には、植物、動物、原生動物、ウィルス、バクテリア、または真菌種に属するものが挙げられる。植物は単子葉植物、双子葉植物または裸子植物であってよく、動物は、脊椎動物または無脊椎動物であってよい。好ましい微生物は、農業または工業で使用されるものであり、そして植物または動物に対して病原性のものである。真菌には、カビ及び酵母形態両方での生物体が含まれる。脊椎動物の例には、魚類、ウシ、ヤギ、ブタ、ヒツジ、ハムスター、マウス、ラット及びヒトを含む哺乳動物が含まれ、無脊椎動物には、線虫類及び他の虫類、キイロショウジョウバエ(Drosophila)、及び他の昆虫が含まれる。好ましくは、細胞は脊椎動物細胞である。
【0069】
被導入体は、細胞、組織、あるいは個体を意味する。ここで細胞とは、生殖系列または体性、分化全能、または多分化能、分割または非分割、実質組織または上皮、不滅化したものまたは形質転換したもの等からであってよい。細胞は、配偶子または胚であってよく、胚の場合、単一細胞胚または構成性細胞、または多重細胞胚からの細胞であり、胎児組織を含む。さらには、幹細胞のような未分化細胞、または胎児組織を含む器官または組織の細胞からのような分化細胞、または生物内に存在する任意の他の細胞であってよい。分化している細胞型には、脂肪細胞、繊維芽細胞、筋細胞、心筋細胞、内皮細胞、神経細胞、グリア、血液細胞、巨核球、リンパ球、マクロファージ、好中球、好酸球、好塩基球、マスト細胞、白血球、顆粒球、ケラチン生成細胞、軟骨細胞、骨芽細胞、破骨細胞、肝細胞及び内分泌腺または外分泌腺の細胞が含まれる。
【0070】
被導入体への2本鎖ポリヌクレオチドの導入法としては、被導入体が細胞、あるいは組織の場合は、カルシウムフォスフェート法、エレクトロポレーション法、リポフェクション法、ウィルス感染、2本鎖ポリヌクレオチド溶液への浸漬、あるいは形質転換法等が用いられる。また、胚に導入する方法としては、マイクロインジェクション、エレクトロポレーション法、あるいはウィルス感染等が挙げられる。被導入体が植物の場合には、植物体の体腔または間質細胞等への注入または灌流、あるいは噴霧による方法が用いられる。また、動物個体の場合には、経口、局所、非経口(皮下、筋肉内及び静脈内投与を含む)、経膣、経直腸、経鼻、経眼、腹膜内投与等によって全身的に導入する方法、あるいはエレクトロポレーション法やウィルス感染等が用いられる。経口導入のための方法には、2本鎖ポリヌクレオチドを生物の食物と直接混合することができる。さらに、個体に導入する場合には、例えば埋め込み長期放出製剤等として投与することや、2本鎖ポリヌクレオチドを導入した導入体を摂取させることにより行うこともできる。
【0071】
導入する2本鎖ポリヌクレオチドの量は、導入体や、標的遺伝子によって適宜選択することができるが、細胞あたり少なくとも1コピー導入されるに充分量を導入することが好ましい。具体的には、例えば、被導入体がヒト培養細胞で、カルシウムフォスフェート法により2本鎖ポリヌクレオチドを導入する場合、0.1〜1000nMが好ましい。
RNAインターフェアレンスによる本発明の遺伝子の導入体内での発現抑制により、本発明の遺伝子がコードするタンパク質の機能の確認、あるいは新たな機能の解析等を行うことができる。
【0072】
(4)本発明のタンパク質に特異的に結合する抗体
本発明のタンパク質と特異的に結合する抗体の調製方法としては、通常用いられる公知の方法を用いることができ、抗原として用いられるポリペプチドについても、公知の方法に従って抗原性が高くエピトープ(抗原決定基)として適した配列を選択して用いることができる。エピトープの選択方法としては、例えばEpitope Adviser(富士通九州システムエンジニアリング社製)等の市販のソフトウェアを用いることができる。
【0073】
上記の抗原として用いるポリペプチドは、公知の方法に従って合成した合成ペプチドでも、また本発明のタンパク質そのものを用いることもできる。抗原となるポリペプチドは、公知の方法に従って適当な溶液等に調製して、哺乳動物、例えばウサギ、マウス、ラット等に免疫を行えばよいが、安定的な免疫を行ったり抗体価を高めるために抗原ペプチドを適当なキャリアタンパク質とのコンジュゲートにして用いたり、アジュバント等を加えて免疫を行うのが好ましい。
【0074】
免疫に際しての抗原の投与経路は特に限定されず、例えば皮下、腹腔内、静脈内、あるいは筋肉内等のいずれの経路を用いてもよい。具体的には、例えばBALB/cマウスに抗原ポリペプチドを数日〜数週間おきに数回接種する方法等が用いられる。また、抗原の摂取量としては、抗原がポリペプチドの場合0.3〜0.5mg/1回程度が好ましいが、ポリペプチドの種類、また免疫する動物種によっては適宜調節される。
【0075】
免疫後、適宜試験的に採血を行って固相酵素免疫検定法(以下、これを「ELISA法」と称することがある)やウエスタンブロッティング等の方法で抗体価の上昇を確認し、十分に抗体価の上昇した動物から採血を行う。これに抗体の調製に用いられる適当な処理を行えばポリクローナル抗体を得ることができる。具体的には、例えば、公知の方法に従い血清から抗体成分を精製した精製抗体を取得する方法等が挙げられる。抗体成分の精製は、遠析、イオン交換クロマトグラフィー、アフィニティークロマトグラフィー等の方法を用いることができる。
【0076】
また、該動物の脾臓細胞とミエローマ細胞とを用いて公知の方法に従って融合させたハイブリドーマを用いる(Milstein,et al.,Nature,256, 495(1975))ことによりモノクローナル抗体を作製することもできる。モノクローナル抗体は、例えば以下の方法により取得することができる。
【0077】
まず、上記した抗原の免疫により抗体価の高まった動物から抗体産生細胞を取得する。抗体産生細胞は、形質細胞、及びその前駆細胞であるリンパ球であり、これは個体の何れから取得してもよいが、好ましくは脾臓、リンパ節、末梢血等から取得する。これらの細胞と融合させるミエローマとしては、一般的にはマウスから得られた株化細胞、例えば8−アザグアニン耐性マウス(BALB/c由来等)ミエローマ細胞株であるP3X63−Ag8.653(ATCC:CRL−1580)、P3−NS1/1Ag4.1(理研セルバンク:RCB0095)等が好ましく用いられる。細胞の融合は、抗体産生細胞とミエローマ細胞を適当な割合で混合し、適当な細胞融合培地、例えばRPMI1640やイスコフ改変ダルベッコ培地(IMDM)、あるいはダルベッコ改変イーグル培地(DMEM)等に、50%ポリエチレングリコール(PEG)を溶解したもの等を用いることにより行うことができる。また電気融合法(U. Zimmer− mann. et al., Naturwissenschaften,68, 577(1981))によっても行うことができる。
【0078】
ハイブリドーマは、用いたミエローマ細胞株が8−アザグアニン耐性株であることを利用して適量のヒポキサンチン・アミノプテリン・チミジン(HAT)液を含む正常培地(HAT培地)中で5%CO、37℃で適当時間培養することにより選択することができる。この選択方法は用いるミエローマ細胞株によって適宜選択して用いることができる。選択されたハイブリドーマが産生する抗体の抗体価を上記した方法により解析し、抗体価の高い抗体を産生するハイブリドーマを限界希釈法等により分離し、分離した融合細胞を適当な培地で培養して得られる培養上清から硫安分画、アフィニティクロマトググラフィー等の適当な方法により精製してモノクローナル抗体を得ることができる。また精製には市販のモノクローナル抗体精製キットを用いることもできる。さらには、免疫した動物と同系統の動物、またはヌードマウス等の腹腔内で上記で得られた抗体産生ハイブリドーマを増殖させることにより、本発明のモノクローナル抗体を大量に含む腹水を得ることもできる。
【0079】
また、本発明のタンパク質としてヒト由来のものを取得した場合には、かかるポリペプチド、あるいはその部分ペプチドを抗原として、ヒト末梢血リンパ球を移植したSevere combined immune deficiency(SCID)マウスに上記した方法と同様にして免疫し、該免疫動物の抗体産生細胞とヒトのミエローマ細胞とのハイブリドーマを作製することによってもヒト型抗体を作製することができる(Mosier, D. E., et al. Nature, 335, 256−259 (1988); Duchosal, M. A., et al., Nature, 355, 258−262(1992))。
【0080】
また、取得したヒト型抗体を産生するハイブリドーマからRNAを抽出し、目的のヒト型抗体をコードする遺伝子をクローニングして、この遺伝子を適当なベクターに挿入し、これを適当な宿主に導入して発現させることにより、さらに大量にヒト型抗体を作製することができる。ここで、抗原との結合性の低い抗体は、それ自体既知の進化工学的手法を用いることによりさらに結合性の高い抗体として取得することもできる。一価性抗体等の部分フラグメントは、例えばパパイン等を用いてFab部分とFc部分を切断し、アフィニティカラム等を用いてFab部分を回収することによって作製することができる。
【0081】
かくして得られる本発明のタンパク質と特異的に結合する抗体は、本発明のタンパク質に特異的に結合することによって該タンパク質が有するDNA結合活性を阻害する中和抗体として用いることもできる。タンパク質が有する活性を阻害するものの選択方法としては特に制限はないが、例えば、上記(2)で作製したDNA導入体に抗体を接触させ、導入体中の目的タンパク質の機能が阻害されるか否かを解析する方法等が挙げられる。
【0082】
かかる中和抗体は、臨床へ応用するに際し、上記有効成分を単独で用いることも可能であるが、薬学的に許容され得る担体と配合して医薬品組成物として用いることもできる。この時の有効成分の担体に対する割合は、1〜90重量%の間で変動され得る。また、かかる薬剤は種々の形態で投与することができ、それらの投与形態としては、錠剤、カプセル剤、顆粒剤、散剤、あるいはシロップ剤等による経口投与、または注射剤、点滴剤、リポソーム剤、坐薬剤等による非経口投与を挙げることができる。また、その投与量は、症状、年齢、体重等によって適宜選択することができる。
【0083】
(5)本発明のタンパク質が有する活性の確認および解析
本発明のタンパク質は、これを上記(2)に記載のとおり組み換えタンパク質として作製し、これを解析することにより上記(1)で推測した活性を有していることを確認することができる。さらに上記(4)のとおりに作製した抗体等との組み合わせにより解析することもできる。
本発明のタンパク質が、DNA結合活性を有することは、例えば、適当な二本鎖DNAを該組み換えタンパク質に接触させ、該組み換えタンパク質の該DNA鎖への結合性を測定することにより確認することができる。具体的な方法としては、例えば、以下に説明する方法等が挙げられる。
【0084】
反応液としては、60mM塩化カリウム、1mMジチオトレイトール、10%グリセロール、1μg poly(dI−dC)を含む中性から弱塩基性緩衝液、例えば20mMトリス−塩酸或いはHEPES緩衝液(pH7〜8)を用い、適当な長さの二本鎖DNAと本発明の組み換えタンパク質を加えることにより反応を開始する。一定条件下で反応後、該組み換えタンパク質とDNAの結合物を検出することによりタンパク質の二本鎖DNA結合活性を判断する。
【0085】
組み換えタンパク質とDNAの結合は、分子の大きさとして検出する方法、電荷の差異として検出する方法、両者の親和性を測定する方法等を用いて検出することが可能である。
分子の大きさを検出する方法としては、分子ふるいクロマトグラフィーによる測定が挙げられる。上記反応液を、生理食塩水或いは0.1Mリン酸緩衝液(pH7.4)、0.1M HEPES(pH7.5)で平衡化した分子ふるいクロマトグラフィー用カラムに添加し、同溶液にて展開する。組み換えタンパク質、DNAそれぞれの溶出位置と比較して、より高分子量側に両者の結合物が溶出される。
【0086】
電荷の差として検出する方法としては、イオン交換クロマトグラフィー、ゲル電気泳動法、キャピラリー電気泳動法を含む電気泳動法が挙げられる。ゲル電気泳動法は、電荷の差と分子の大きさの差が移動度の差として現れる。上記反応液を、ポリアクリルアミドゲル中で電気泳動し、泳動後のゲルを銀染色、クマーシーブリリアントブルー染色、或いは蛍光染色し、組み換えタンパク質単独の場合と比較して、結合物は移動度の異なるバンドとして確認される。この2法の場合、DNAの一方の末端を蛍光ラベルしておくことによって、DNAの溶出位置、移動度の差として、より高感度で検出することも可能である。
【0087】
両者の親和性を測定する方法としては、アフィニティークロマトグラフィー、表面プラズモン共鳴法等が挙げられる。これらの方法では、DNAを担体に固定しておき、そこに組み換えタンパク質を接触させ、その結合量を測定し活性の強さとする。アフィニティークロマトグラフィーでは、結合した組み換えタンパク質を高濃度の塩溶液、変性剤、遊離のDNA等で溶出し、溶出したタンパク質量を測定する。表面プラズモン共鳴法では、固定化DNAに結合したタンパク質量を、表面プラズモン共鳴で測定し、結合したタンパク質濃度で親和性の強さを測定することができる。
【0088】
また、DNA・RNAに結合し転写に関連するタンパク質では、一般的に、既知の転写関連因子が認識し標的とするプロモーターやエンハンサー等の遺伝子転写調節領域(以下、「標的転写調節領域」と称する)のDNAおよびその部分断片を用いて、これらに対する結合能を測定することにより網羅的に転写制御活性を解析する方法が知られている(特開2001−314190号公報)。解析に使用する標的転写調節領域のDNAおよびその部分断片として、既知の標的転写調節領域の塩基配列(以下、これを「標的配列」と称することがある)を有するものだけでなく、既知の標的転写調節領域の塩基配列をデーターベース解析し分類してそれぞれ設計した、転写関連因子が共通して認識する標的転写調節領域の共通塩基配列(以下、これを「コンセンサス標的配列」と称することがある)を有するものを使用してもよい。既知の転写関連因子としては、例えば、v−jun, c−jun, junB, junD, dJRA, c−fos, fosB1, fosB2, Fra−1, LRF−1, v−maf, mafG, NF−E2 p45, aNF−E2, fNF−E2, Nrf short form, GCN4, yAP−1, CREB−2, ATF−3, CRE−BP1, CRE−BP3, ATF−a, CREB−341, CREB−327, CREM, dCREB2, dCREB2−b, dCREB2−c, dCREB2−d, dCREB2−q, dCREB2−r, dCREB2−s, C/EBPalpha, C/EBPbeta, p34C/EBPbeta, CHOP−10, VBP, Hlf, CPRF−2, EmBP−1b, EmBP−1b, GBF1, GBF2, GBF3, CPRF−1, TAF−1, HBP−1a, GBF9, GBF1, GBF12, CPRF−3, TGA1a, TGA1b, O2, STE4, OPI1, E2A, E47, ITF−2/SEF2−1B, SEF−1A, MyoD, p42Tal−1, HEN−1, AhR, Arnt, USF, NF−1A1, NF−1A1.1, NF−1A6, NF−1B1, NF−1B1, NF−1B2, NF−1C2/CTF−2, CTF−4, CTF−6, RF−X1, AP2alphaA/AP−2alpha1, AP2alpha2, AP2alpha3, AP2alpha4, AP2alphaB, AP2beta, AP2gamma, GR, AR, ER, RXR−alpha, PPARalpha, PPARgamma, COUP−TF1,HNF−4alpha1, HNF−4alpha2, CF1, GATA−1, GATA−2, GATA−3, GATA−4, AREA/NIT−2, Sp1, YY1, Egr−1, Egr−2, Egr−3, Snail, CF2−II, Evi−1, Ikaros, MZF−1, Tramtrack69K, HOX9, CDP, HNF−1A, Nkx−2.2, Nkx−2.5, TTF−1, Oct−1A, Oct−1B, Oct−1C, Oct−2, Oct−2.1/Oct−2B, Pax−3, Pax−6, Pax−1, HSF1(short), HSF2, dHSF, fungalHSF, c−Myb, A−Myb, v−Myb, P(long), P(short), C1(long), C1(short), c−Ets−1#p54, Ets−1#deltaiV/VII, Ets−2, Elk−1, SAP−1, SAP−1b, Erg−1, p55erg, Fli−1b, E4TF1−60/GABP−alpha, E74A, IRF−1, IRF−2, p50, NF−ATc, NF−Atp, p91, p84, STAT2, STAT3, STAT4, STAT5A, STAT5B, STAT6, p53, MEF−2A, SRF, E2, TBP, SRY, Sox−5, Sox−9, mat−Mc, CP1A, CP1B, CBF−C, AML1a, 等が知られており、これらの転写関連因子の標的転写調節領域の塩基配列もそれぞれ報告されている(田村隆明、外2名編、「Bio Science 実験医学別冊 新用語ライブラリー 転写因子」、第2版、株式会社羊土社、1999年12月)。
【0089】
本発明のDNA結合活性を有するタンパク質と標的転写調節領域のDNAおよびその部分断片との結合は、それ自体公知の測定系を使用して検出することができる。例えば、標的転写調節領域のDNAおよびその部分断片を固定化したプレートに本発明のタンパク質を含む被検試料を添加し、両者の直接的な結合をSPR(Surface Plasmon Resonance, 表面プラズモン共鳴)法を用いて検出することができる。その場合には、前記したような転写に関連するタンパク質が認識する標的転写調節領域のDNAまたはその部分断片をセンサーチップに固定化する。DNA及びその部分断片は、アニーリングさせたものを固定化する。また、前記のように、本発明のタンパク質または標的転写調節領域のDNAおよびその部分断片を蛍光標識したものを用いて、両者の結合を検出することもできる。
【0090】
本発明のタンパク質を含む解析用の被検試料は、前述のように本発明のDNAを適当な方法により転写/翻訳する方法により調製することができる。具体的には、例えば、本発明のDNAを無細胞転写翻訳系に供することにより蛋白質発現を誘導し、本発明のタンパク質を取得することができる。
【0091】
また、転写に関連するタンパク質は、疾患に関与する種々の遺伝子の転写を調節する転写因子(以下、「疾患関連転写因子」と称する)への作用を解析することにより、該タンパク質が特定の疾患に直接的または間接的に関与しているか否かを解析することも有用である。疾患関連転写因子としては、例えば、PPAR, p53, NFκB, AP−1, HIF−1, CREB等が知られており、これら既知の因子への作用を上記と同様の方法等を用いて解析すればよい。
【0092】
例えば、SPR法を用いて解析を行う場合には、前記疾患関連転写因子が有する標的転写調節領域のDNAまたはその部分断片が特に好ましく用いられる。このようなDNAまたは部分断片が固定化されたセンサーチップに本発明のタンパク質を含む被検試料を適宜添加し、センサーチップ表面のDNAと被検試料中に含まれる該タンパク質との間の相互作用を解析する。固定化DNAと親和性を有する場合、コントロールに比較してSPR応答値が上がり、転写関連因子が固定化DNAと親和性を有していることが推定できる。このような解析により、本発明のタンパク質が特定の疾患においてどのような機能を有しているかを解析することができる。
【0093】
ここで、本発明のタンパク質を含む解析用の被検試料は、前述のように本発明のDNAを適当な方法により転写/翻訳する方法により調製することができる。具体的には、例えば、本発明のDNAを無細胞転写翻訳系に供することにより蛋白質発現を誘導し、本発明のタンパク質を取得することができる。
【0094】
疾患関連転写因子は、該疾患関連転写因子が含まれている細胞抽出液または細胞核抽出液から取得することができる。また、前述のように、疾患関連転写因子をコードするDNAを適当な方法により転写/翻訳する方法により調製することができる。具体的には、例えば、疾患関連転写因子をコードするcDNAを使用し、その全長または一部を適当な発現ベクターに挿入し、これを大腸菌などの微生物、昆虫細胞、酵母、動物細胞または動物に導入し、疾患関連転写因子が発現したこれらの遺伝子導入細胞の培養上清または細胞内、組織、体液より、組換え蛋白質である疾患関連転写因子を取得することができる。
【0095】
なお、本発明のタンパク質が有する活性の確認は、上記した方法に限定されるものではない。また、これらの機能アッセイ系は、後述する本発明のタンパク質の機能賦活物質や機能阻害物質のスクリーニングや本発明のタンパク質の発現調節物質のスクリーニングにも用いることができる。
【0096】
本発明のタンパク質の機能解析の方法として一般的には、例えば、(i)各組織、疾患、あるいは発生段階における発現状態を比較解析する方法、(ii)他のタンパク質、DNAとの相互作用を解析する方法、(iii)適当な細胞あるいは個体へ導入し、表現型の変化を解析する方法、(iv)適当な細胞あるいは個体において該タンパク質の発現を阻害して表現型の変化を解析する方法などが挙げられる。このような方法によれば、対象タンパク質に特異的な活性を多面的に解析することができる。
【0097】
(i)の方法においては、本発明のタンパク質の発現を、mRNAレベルあるいはタンパク質レベルで解析することができる。mRNAレベルで発現量を解析する場合は、例えば、in situハイブリダイゼーション法(In situ hybridization: Application to Developmental Biology & Medicine., Ed. by Harris, N. and Wilkinson, D. G., Cambridge University Press (1990))、DNAチップを利用したハイブリダイゼーション法、定量PCR法等が用いられる。また、タンパク質レベルで解析する場合には、後述する本発明のタンパク質に特異的に結合する抗体を用いた組織染色法、ELISA法、ウエスタンブロット法などが挙げられる。ここで、解析の対象タンパク質が公知のバリアントが存在するスプライシングバリアントである場合には、解析対象タンパク質をコードするcDNAにのみ存在し、公知のバリアントをコードするcDNAとはハイブリダイズしないプローブを用いることが好ましい。定量PCR法の場合には、対象バリアントと公知バリアント間で異なる長さの増幅断片ができるプライマーを選択して行う方法(Wong, Y., Neuroscience Let., 320: 141−145 (2002))等が挙げられる。また、タンパク質レベルで解析する場合にも、対象タンパク質にのみ反応し、公知のバリアントには反応しない抗体を用いることが好ましい。
【0098】
(ii)の方法においては、本発明のタンパク質と既知のタンパク質との相互作用の有無を調べて、本発明のタンパク質の機能を解析することができる。相互作用の解析法としては、それ自体既知の常法を用いることができるが、具体的には、例えば、酵母ツーハイブリッド法、蛍光偏光解消法、表面プラズモン法、ファージディスプレイ法、リボソーマルディスプレイ法等が挙げられる。該方法においても、解析対象タンパク質が公知のバリアントが存在するスプライシングバリアントの場合には、公知のバリアントも同様にして相互作用する物質を解析し、対象タンパク質特異的に相互作用する物質を同定することが好ましい。
【0099】
(iii)の方法では、本発明のcDNAを導入する細胞は特に制限はないが、ヒト培養細胞等が特に好ましく用いられる。DNAの細胞への導入法としては、上記(2)に記載のものが挙げられる。さらに導入細胞の表現型としては、細胞の生死、細胞の増殖速度、細胞の分化、細胞が神経細胞の場合には神経突起の伸長度、細胞内タンパク質の局在や移行など顕微鏡等で観察可能なものや、細胞内の特定タンパク質の発現変化など生化学的実験により解析可能なものも含む。これらの表現型は、公知のバリアントが存在するスプライシングバリアントの場合には、公知のものも同様に細胞へ導入し、比較解析することにより解析対象バリアントに関連する表現型を同定することができる。また、本発明のタンパク質はDNA結合活性を有するものであることがわかっているので、DNA結合タンパク質が関連する疾患に見られる表現型等に注目して解析することも好ましい。
【0100】
(iv)の方法では、後述するオリゴヌクレオチドを用いた方法や、RNAインターフェアレンス法により効率的に行うことができる。この方法においても、解析する対象タンパク質に公知のバリアントが存在する場合には、公知のバリアントやその他のバリアントについても同様の解析を行い、比較解析することにより対象タンパク質特異的な機能を同定することができる。
【0101】
(6)本発明のタンパク質が有する活性を調節する分子のスクリーニング
本発明のタンパク質に特異的に結合し、かつ本発明のタンパク質の機能(活性)を阻害、拮抗または増強する作用を有する物質をスクリーニングすることにより本発明のタンパク質の機能調節物質(以下、これを「調節物質」と称することがある)を得ることができる。
【0102】
この調節物質のスクリーニング方法は、本発明のタンパク質に特異的に結合し、且つ該タンパク質の活性を阻害、拮抗または増強する作用を有する物質が得られる方法であれば如何なるものであってもよい。例えば、まずはじめに本発明のタンパク質と被検物質とを接触させ、該タンパク質との結合性を指標として選抜した後に、本発明のタンパク質が有する活性の変化を指標として被検物質を選抜する方法を用いることができる。
【0103】
被検物質としては、本発明のタンパク質と相互作用して、該タンパク質が有する活性に影響を及ぼす可能性のある物質であれば如何なるものであってもよいが、具体的には、例えば、ペプチド、タンパク質、非ペプチド性化合物、低分子化合物、合成化合物、発酵生産物、細胞抽出液、動物組織抽出液等が挙げられる。これらの物質は新規な物質であってもよいし、公知の物質であってもよい。被検物質と本発明のタンパク質の相互作用の解析法としては、それ自体既知の常法を用いることができるが、具体的には、例えば、酵母ツーハイブリッド法、蛍光偏光解消法、表面プラズモン法、ファージディスプレイ法、リボソーマルディスプレイ法、あるいは上記(4)に記載した抗体との競合解析法等が挙げられる。このような方法により、本発明のタンパク質に結合する活性を見いだされた物質は、次に該物質の存在下で本発明のタンパク質が有する活性がどのような影響を受けるかを解析することによって、調節物質として用いられるか否かが同定される。
【0104】
具体的な解析方法としては、例えば、DNA結合活性を調節する物質を解析する場合には、上記(5)に記載の方法等を用いて行うことができる。二本鎖DNAとの結合性が、物質の非存在下の場合と比べて増加した場合には、該物質はDNA結合活性化物質として機能する可能性があり、また低下、または阻害された場合には物質はDNA結合阻害物質として機能する可能性があると同定できる。ここで、医薬活性成分のスクリーニングを目的とするため、用いる本発明のDNA、あるいは組み換えタンパク質については、上記したヒトのホモログタンパク質またはオルソログタンパク質を用いることが好ましい。さらに上記方法によってスクリーニングされた物質は、これらの生体内でのスクリーニングによって医薬候補としての選択を行ってもよい。
【0105】
本発明のタンパク質が有するDNA結合活性としては、例えば、DNA構造に変化を与えて遺伝子発現を調節する機能が挙げられ、遺伝子発現調節タンパク質、あるいは、転写因子などが属する。転写因子は、癌に関連するパスウェイ上のシグナル伝達機能、心筋発達に関連するパスウェイ上のシグナル伝達機能、精子の分化・運動性を制御するパスウェイ上のシグナル伝達機能、生殖細胞分化を制御するパスウェイ上のシグナル伝達機能、細胞分化を制御するパスウェイ上のシグナル伝達機能、グリセロール3燐酸を生成する機能、神経細胞の発生・分化・増殖・生存維持を制御するパスウェイ上のシグナル伝達機能、アルツハイマー病発症を制御するパスウェイ上のシグナル伝達機能他、各種細胞の発生、分化、成長、増殖、生存、再生、および、細胞機能等を制御するパスウェイのシグナル伝達機能等、各種シグナル伝達において最終的にDNAに結合して遺伝子の発現制御に関わる因子である。従って、これらシグナル伝達に関わる各種疾患治療剤のスクリーニングの標的とすることができる。本スクリーニング方法により同定できる化合物は、抗ガン剤、糖尿病治療剤、抗炎症剤、神経変性疾患治療剤、心疾患治療剤、不妊治療剤、再生組織誘導剤、アルツハイマー病治療剤、肥満治療剤、糖尿病治療剤、心臓血管疾患治療剤、代謝異常治療剤、食欲不振、過食症などの治療剤等として用いられ得るものである。
【0106】
かかる調節物質は、臨床へ応用するに際し、上記有効成分を単独で用いることも可能であるが、薬学的に許容され得る担体と配合して医薬品組成物として用いることもできる。この時の有効成分の担体に対する割合は、1〜90重量%の間で変動され得る。また、かかる薬剤は種々の形態で投与することができ、それらの投与形態としては、錠剤、カプセル剤、顆粒剤、散剤、あるいはシロップ剤等による経口投与、または注射剤、点滴剤、リポソーム剤、坐薬剤等による非経口投与を挙げることができる。また、その投与量は、症状、年齢、体重等によって適宜選択することができる。
【0107】
(7)本発明のDNAの発現調節物質のスクリーニング
スクリーニングの方法としては、被検物質の存在下で本発明のタンパク質、あるいはそれをコードするmRNAの発現量を解析する方法等が挙げられる。具体的には、例えば、上記(2)に記載した本発明のタンパク質を発現する細胞を被検物質を含む適当な培地で培養し、該細胞内に発現している本発明のタンパク質量をELISA等の常法を用いて解析するか、あるいは該細胞内の本発明のタンパク質をコードするmRNA量を、定量的逆転写PCR法や、ノーザンブロット法等により解析することにより行うことができる。
【0108】
被検物質としては、上記(6)に記載のものを用いることができる。この解析により、被検物質の非存在下で培養された当該細胞内で発現されたタンパク質、あるいはmRNA量と比べてその量が増加すれば、物質は本発明のDNAの発現促進物質として機能する可能性があり、逆に減少した場合には、物質は本発明のDNAの発現阻害物質として用いられ得ると判断することができる。
【0109】
かかる発現調節物質は、臨床へ応用するに際し、上記有効成分を単独で用いることも可能であるが、薬学的に許容され得る担体と配合して医薬品組成物として用いることもできる。この時の有効成分の担体に対する割合は、1〜90重量%の間で変動され得る。また、かかる薬剤は種々の形態で投与することができ、それらの投与形態としては、錠剤、カプセル剤、顆粒剤、散剤、あるいはシロップ剤等による経口投与、または注射剤、点滴剤、リポソーム剤、坐薬剤等による非経口投与を挙げることができる。また、その投与量は、症状、年齢、体重等によって適宜選択することができる。
【0110】
(8)本発明のDNA導入動物
上記(1)に記載の、本発明のDNAを含む導入DNAを構築し、ヒト以外の哺乳動物の受精卵に導入して、これを雌個体子宮に移植して発生させることにより、本発明のDNAが導入された非ヒト哺乳動物を作製することができる。より、具体的には、例えば、雌個体をホルモン投与により過剰排卵させた後、雄と交配し、交配後1日目の卵管から受精卵を摘出し、該受精卵に導入DNAをマイクロインジェクション等の方法により導入する。この後、適当な方法で培養した後、生存している受精卵を、偽妊娠させた雌個体(仮親)の子宮に移植して出産させる。新生仔に目的のDNAが導入されているか否かは、該個体の細胞から抽出したDNAのサザンブロット解析を行うことにより同定することができる。ヒト以外の哺乳動物としては、例えばマウス、ラット、モルモット、ハムスター、ウサギ、ヤギ、ブタ、イヌ、ネコ等が挙げられる。
【0111】
かくして得られた本発明のDNA導入動物は、この個体を交配し、導入されたDNAが安定的に保持されていることを確認しながら通常の飼育環境で継代飼育することによりその子孫を得ることができる。また、体外受精を繰り返すことによりその子孫を得て、系統を維持することもできる。
本発明のDNAが導入された非ヒト哺乳動物は、本発明のDNAの生体内における機能の解析や、またこれを調節する物質のスクリーニング系等として用いることができる。
【0112】
(9)本発明のタンパク質及びそれをコードする塩基配列を含むDNAの他の利用
本発明のタンパク質は、それを基盤上に結合させた担体として利用することができる。また、本発明のタンパク質をコードする塩基配列、例えば、配列番号1〜13または35のいずれかに記載の塩基配列を有するDNA及びその部分断片は、配列番号14〜26または36のいずれかに記載のアミノ酸配列を有するタンパク質及びその部分断片は、それらを基盤上に結合させた担体としてもちいられ得る。これらを、以下、「プロテインチップ」、「DNAチップ」または「DNAアレイ」(DNAマイクロアレイ及びDNAマクロアレイ)と称することがある。これらのプロテインチップ、又はDNAチップもしくはアレイには、本発明のタンパク質やDNA以外に、他のタンパク質やDNAが含まれていてもよい。
【0113】
ここで、タンパク質やDNAを結合させる基盤としては、ナイロン膜、ポリプロピレン膜等の樹脂基板、ニトロセルロース膜、ガラスプレート、シリコンプレート等が用いられるが、ハイブリダイゼーションの検出を非RI的に、例えば、蛍光物質等を用いて行う場合には、蛍光物質を含まないガラスプレート、シリコンプレート等が好適に用いられる。また該基盤へのタンパク質、あるいはDNAの結合は、それ自体公知の通常用いられる方法により容易に行うことができる。これらのプロテインチップ、DNAチップ、あるいはDNAアレイも、本発明の範囲に含まれる。
【0114】
また、本発明のタンパク質のアミノ酸配列及びDNAの塩基配列は、配列情報としても用いることができる。ここで、DNAの塩基配列には、対応するRNAの塩基配列も含まれる。すなわち、得られたアミノ酸配列や塩基配列をコンピューターが読みとり可能な所定の形式で適当な記録媒体に格納することにより、アミノ酸配列や塩基配列のデータベースが構築できる。このデータベースには、他の種類のタンパク質やそれをコードするDNAの塩基配列が含まれていてもよい。また、本発明においてデータベースとは、上記配列を適当な記録媒体に書き込み、所定のプログラムに従って検索を行うコンピューターシステムをも意味する。ここで適当な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、磁気テープ等の磁気媒体、CD−ROM、MO、CD−R、CD−RW、DVD−R、DVD−RAM等の光ディスク、半導体メモリ等を挙げることができる。
【0115】
【実施例】
以下、実施例を挙げて本発明を詳細に説明するが、本発明の範囲はこれらの実施例により限定されるものではない。
実施例1 cDNAライブラリーの調製
(1)mRNAの調製
mRNA調製マウス(C57BL/6)各器官または組織0.5〜1gを10mlの懸濁液でホモジェナイズし、pH4.0 の2M 酢酸ナトリウム1ml と、同量のフェノール/ クロロホルム(体積比5:1)混液を加え抽出した。抽出後水層に同量のイソプロパノールを加えると、RNAが水相から分離沈澱した。この試料を氷の上で1時間インキュベーションした後、15分間4,000rpmで冷却遠心機にかけ、沈澱物を回収した。この検体を70%エタノールで洗い、8mlの水に溶解後、2mlの5M NaCl、1 % CTAB(cetyltrimethy− lammonium bromide)、4M尿素、50mM Trisを含むpH7.0 の水溶液16mlを加えることでRNAを沈澱させ、ポリサッカライドを除いた(CTAB沈澱)。
【0116】
続いて室温で4,000rpm、15分間遠心機にかけ、RNAを4mlの7Mグアニジン−C1に溶解した。そして2倍量のエタノールを加えた後、氷上で1時間インキュベーションし、4,000rpm、15分間遠心機にかけ、生じた沈澱物を70%エタノールで洗いRNAを回収した、これを再度水に溶解し、RNAの純度をOD比260/280(>1.8)と230/260(<0.45)を読むことによって計測した。
【0117】
(2)第1鎖cDNAの調製
上記(1)で調製したmRNA 15μgを使って逆転写酵素3,000unit により、最終容量165μlの反応液中で、5−メチル−dCTP、dATP、dTTP、dGTPを各々0.54mM、0.6Mトレハロース、50mM Tris−HCl(pH8.3)、75mM KCl、3mM MgCl2、10mM DTT、52ng/μl BSA、RNaseインヒビター 5unitの条件下で逆転写反応を行った。制限酵素XhoIの認識配列を含むオリゴヌクレオチド(配列番号27)(配列中、VはA,G,又はCを示し、NはA, G, C,又はTを示す)12.6μlをプライマーとして用いた。
【0118】
この反応を始める際、反応液の1/4を採取し、それに1.5μlの[α−32P]−dGTP(3000Ci/mmol、10μCi/μl;Amersham社製)を加えるこことにより、第1鎖cDNAの合成効率を測定した。RI標識した反応液の0.5μlをDE−81ペーパー上にスポットし、0.5Mリン酸ナトリウム緩衝液(pH7.0)で3回洗った前後のRI活性を測定し、計算した。その後、RI標識した反応液と非標識の反応液を混合し、0.5M EDTA 8μl、10%SDS 2μl、プロテイナーゼ(Proteinase)K 20μgを加え、45℃で15分間加熱した。フェノール/クロロホルムによる抽出、エタノール沈澱後、沈澱をRNaseフリーに処理してある水(以下RNaseフリー水とする)47μlに溶解した。
【0119】
(3)5’キャップ構造及び3’末端へのビオチン付加
RNAジオールのビオチン化RNAのジオール部位(Cap構造のある5’末端と、ポリA鎖のある3’末端のリボースの双方に存在)にビオチンを結合させるために、2段階の反応を行った。それらは、ジオール基の酸化とそれに続くビオチンヒドラジドと酸化RNA体のカップリング反応である。まず、逆転写反応で得られたRNA−第1鎖cDNA複合体15μgを、6.6mM酢酸ナトリウム緩衝液(pH4.5)と、酸化剤として過ヨウ素酸ナトリウムを用いて50μlの反応液中で処理した。この酸化反応は遮光条件の下、氷上で45分間行った。
【0120】
続いて、5M塩化ナトリウム11μl、10% SDS 0.5μl、そして同量のイソプロパノールを加え、60分間氷上に放置した後、4℃で15分間15,000rpm遠心し沈澱を取得した。沈澱物は70%エタノールで洗い、RNaseフリー水50μlに再溶解させた。その試料に1M酢酸ナトリウム(pH6.1)5μl、10% SDS 5μl、10mMビオチンヒドラジド(Sigma社製)150μlを加え、室温(22〜26℃)で終夜反応させた。最後に、5μlの5M NaCl、1M酢酸ナトリウム(pH6.1)75μl、及び2.5倍量のエタノールを加え、1時間の氷上冷却後、4℃において15分間遠心し、ビオチン化した。反応後、反応液を15分間遠心し、再度RNA−DNA複合体を沈澱させた。沈澱物は70%エタノールで1回、更に80%エタノールで1回洗い、RNaseフリー水70μlに溶解した。
【0121】
(4)RNase Iによる完全長cDNAの選択
上記(3)で取得したビオチン化RNA−DNA複合体について、1本鎖RNAを消化するRNase Iで処理することにより、逆転写反応時に完全なcDNAの伸長が得られなかったmRNA、およびmRNAの3’末端に標識されたビオチン残基を取り除いた。具体的には、上記(3)で得られた試料70μlに10×RNase Iバッファー(100mM Tris−HCl(pH7.5)、50mM EDTA、2M NaOAc)10μl、RNase I(RNase OneTM;Promega社製)200unitを加えて、37℃で15分間1本鎖RNAを消化した。
【0122】
(5)完全長cDNAの採取
ストレプトアビジンコートしたマグネティックビーズにcDNAが非特異的吸着するのを防止するため、100μgの酵母tRNA(DNaseI処理したもの)を5mg(500μl)のマグネティックビーズ(magnetic porous glass(MPG)particles coated withstreptavidin(CPG,NJ))に加え、1時間氷上に放置した後、50mM EDTA、2M NaClの溶液にて洗った。
【0123】
このビーズを50mM EDTA、2M NaClの溶液500μl中に懸濁し、上記(4)で取得したRNase I処理を施されたcDNAを加えた。室温にて30分間撹拌することで、マグネティックビーズと完全長cDNAを結合させた。完全長cDNAを捕獲したビーズを50mM EDTA、2M NaClの溶液で4回、0.4%SDS、50μg/μl酵母tRNAで1回、10mM NaCl、0.2mM EDTA、10mMTris−HCl(pH7.5)、20% グリセロールで1回、50μg/μl酵母tRNA水溶液で1回、RNase H用バッファー(20mMTris−HCl(pH7.5)、10mM MgCl、20mM KCl、0.1mM EDTA、0.1mM ジチオスレイトール(DTT))で1回洗浄した後、RNase H用バッファー100μlに懸濁し、RNase H 3unitを加え、37℃下30分間加温した。その後、10%SDS 1μl、0.5M EDTA 2μlを加えて、10分間、65℃に曝し、その上清を回収した。
【0124】
このようにして回収された1本鎖完全長cDNAはフェノール/クロロホルムで抽出され、スピードバッグにて液量を100μl以下に減じてからG25/G100Sephadexクロマトグラフィーに付した。RI活性を持った分画はシリコン処理したマイクロチューブに収集するとともに、グリコーゲン2μgを加え、エタノール沈澱にて得られた沈澱物を30μlの超純水に溶解した。
【0125】
(6)1本鎖cDNAへのオリゴdG付加
上記(5)で回収された1本鎖cDNA30μlは、最終容量50μlの反応液中で、200mMカコジル酸ナトリウム(pH6.9)、1mM MgCl、1mM CoCl、1mM 2−メルカプトエタノール、100μM dGTPの条件のもと、ターミナルデオキシヌクレオチジルトランスフェラーゼ(TaKaRa社製)32unitを用いて37℃で30分間のオリゴdG付加反応に付した。反応終了時にEDTAを50mMとなるように加え、一連のフェノール/クロロホルムによる抽出、エタノール沈澱を経て、31μlの超純水に溶解した。
【0126】
(7)第2鎖cDNA合成
第1鎖cDNAを鋳型にした第2鎖cDNAの合成は以下のように行った。最終容量60μlの反応系で、第2鎖低バッファー(200mM Tris−HCl(pH8.75)、100mM KCl、100mM (NHSO、20mM MgSO、1%Triton X−100、1mg/μl BSA)3μl、第2鎖高バッファー(200mM Tris−HCl(pH9.2)、600mM KCl、20mM MgCl)3μl、dCTP、dATP、dTTP、dGTP各々0.25mM、β−NADH 6μl、オリゴdG付加された第1鎖cDNA31μl、第2鎖プライマー−アダプター(配列番号28)600ng を加え、Ex Taq DNAポリメラーゼ(TaKaRa ExTaq;TaKaRa社製)15unit、耐熱性DNAリガーゼ(Ampligase;Epicentre社製)150unit、耐熱性RNase H(Hybridase;Epicentre社製)3unitによって第2鎖cDNAを合成した。
【0127】
0.5M EDTAを1μl加えることで反応を停止させ、更にタンパク成分を溶解するために、10%SDS 1μl、プロテイナーゼ(Proteinase) K 10μgの存在下に45℃で15分間加熱し、最終的にフェノール/クロロホルムによる抽出、エタノール沈澱にて精製した2本鎖完全長cDNAを得た。
【0128】
(8)ライブラリーの調製
以上の方法により得られた二本鎖完全長cDNAは、λZAPIIIベクターに挿入し、ライブラリーとして回収した。λZAPIIIベクターはλZAPII(STRATAGENE社製)ベクターのマルチクローニングサイトの一部の配列である配列番号29を配列番号30に改変し、二つのSfiIサイトを新たに導入したものである。
【0129】
さらにλPS(RIKEN)ベクターを作製し、cDNAを挿入した。λPS(RIKEN)(λ−FLC−1と命名(FLCとはFULL−LENGTH cDNAを意味する))とは、MoBiTec社(ドイツ)のλPSベクターをcDNA用に改変したものである。即ち10kbp stufferの両側に存在するクローニングサイトにcDNA挿入に便利なBamHIならびにSalIを各々導入するとともに、0.5kbから13kb程度までのcDNAがクローニングできるようにXbaIサイトに6kbのDNA断片を挿入したものである(特開2000−325080号公報)。このλ−FLC−1を用いると、例えば肺臓cDNAライブラリーの場合には、インサートの平均鎖長は2.57kbとなり、実際に0.5kbから12kbまでのインサートをクローニングすることが出来た。従来法のλZAPの場合には、インサートの平均鎖長は0.97kbであったことから、λ−FLC−1を用いることによって、サイズの大きなcDNAもλZAPに比べて効率よくクローニングできることがわかる。
【0130】
実施例2 完全長cDNAライブラリーのノーマライゼーション/サブトラクション
(1)ドライバーの調製
実施例1(1)で作製したmRNA(以下、これを「(a)RNAドライバー」と称することがある)、及びin vitro転写反応で作成したRNAをドライバーとして用いた。後者のRNAはさらに2種類(以下、これを「(b)RNAドライバー」、及び「(c)RNAドライバー」と称する)に分けられる。1つはノーマライゼーションにより除かれたRNA−cDNAからcDNAを回収し、ファージベクターにクローニングしたものである。大腸菌に感染後1つの出発材料あたり1000から2000プラークを混ぜ合わせて1つのライブラリー(ミニライブラリー)とし、常法によりプラスミドDNAに変換する(ファージをヘルパーファージとともに再度大腸菌に感染させ、ファージミドとし、さらにもう一度感染させてプラスミドDNAを得る)。
【0131】
得られたDNAについてin vitro転写反応(T3RNAポリメラーゼまたはT7RNAポリメラーゼを用いる)を行い、DNase I(RQ1−RNase free;Promega社製)、Proteinase K処理後、フェノール/クロロホルム抽出をしてRNA(b)RNAドライバーを得た。この際、通常出発材料としては9種類(すい臓、肝臓、肺、腎臓、脳、脾臓、睾丸、小腸、胃)の組織からそれぞれミニライブラリーを作成して、9種類のミニライブラリーを混合してRNAを得る。もう一つのRNAはすでに重複のないクローンとして保存されているライブラリー(クローン数約2万個)を培養し、得られたDNAについて(b)RNAドライバーと同様にin vitro転写反応を行い(c)RNAドライバーとした。
【0132】
これら3種のRNAは、Label−IT Biotin LabelingKit(Mirus Corporation製)を用いてビオチン化標識を行ったあと、1:1:1の割合でテスターcDNAに添加し、Rot10での反応(42℃)を行い、ストレプトアビジンビーズ(CPG)処理を行って回収した上清について、第2鎖の合成を行った。
【0133】
実施例3 完全長cDNAクローンの塩基配列決定
(1)クローンのrearray
各クラスタからひとつの代表クローンを選んだ。代表クローンはQ−bot(GENETIX LIMITED製)で選択し、384穴プレートにarray化した。その際、大腸菌は30℃で18〜24時間、50μlのLB培地で培養した。このとき、cDNAライブラリーがPSベクターに導入され大腸菌DH10Bを形質転換している場合には100mg/mlのアンピシリン及び50mg/mlのカナマイシンを添加し、Zapベクターに導入し、SOLRシステムに導入している場合には100mg/mlのアンピシリン及び25mg/mlのストレプトアビジンを添加して行った。
【0134】
(2)プラスミドの抽出とInsSizing
上記(1)で培養した各クローンは、さらに100mg/mlのアンピシリンを含む1.3mlのHT液中で培養され、遠心分離により菌体を回収した後、QIAprep 96 Turbo(QIAGEN社製)を用いてプラスミドDNAを回収、精製した。取得されたプラスミド中に挿入されているcDNAの鎖長を調べるために、上記で取得したプラスミドDNAの1/30を制限酵素PvuIIで消化し、1%のagaroseゲル電気泳動を行った。
【0135】
(3)配列決定
かくして取得されたプラスミド中に挿入された完全長cDNAの全長の塩基配列解析には、3種類のシークエンサを用いた。また、プラスミドは挿入配列の長さが2.5kbより短いものと長いものの2つのカテゴリに分けた。このうち2.5kbより短い挿入配列を有するクローンについては両端から塩基配列を解析した。その際、プラスミドはベクターがPSの場合には配列番号31(センス鎖)、及び32(アンチセンス鎖)に記載のプライマーを用いて、またベクターがZapの場合には配列番号33(センス鎖)、及び34(アンチセンス鎖)に記載のプライマーを用いてThermosequenase Primer Cycle Sequencing Kit(Amersham Pharmacia Biotech社製)で反応し、Licor DNA4200(long read sequencer)を用いて解析した。
【0136】
上記塩基配列解析により解析ができなかったギャップは、プライマウォーキング法により決定した。その際、ABI Prism377及び/またはABI Prism3700(Applied Biosystems Inc.製)とBigDye terminator kitとCycle Sequencing FS ready Reaction Kit(Applied Biosystems Inc.製)を用いた。
【0137】
また、挿入されているcDNAが2.5kbより長いクローンの配列決定は、ショットガン法によった。その際、Shimadzu RISA 384とDYEnamic ET terminator cycle sequencing kit(Amersham Pharmacia Biotech社製)を用いた。ショットガンライブラリを作製するために、48の独立な代表クローンからPCRで増殖した48のDNAフラグメントを用いた。増幅されたDNA断片の末端をT4 DNAポリメラーゼによって平滑化した。
このDNA断片を、pUC18ベクターへ挿入し、更に該組み換えベクターにより大腸菌DH10Bを形質転換した。この大腸菌から上記(2)と同様にしてプラスミドを調製した。
【0138】
それらの代表クローンについては、両末端からの塩基配列解析によって塩基配列を決定し、該塩基配列をコンピューター上で連結した後、Double Stroke Shearing Device(Fiore Inc.製)によるshearingを行った。ショットガン法による塩基配列決定は、12〜15クローンの重複をもって行った。この塩基配列決定により配列が決定できなかったギャップは、上記と同様にプライマウォーキングによって決定した。
【0139】
実施例4 塩基配列の解析
(1)dnaform34837(配列番号1、14)
dnaform34837は、配列番号1に示すように、3717塩基から成り、そのうち塩基番号134から1690までがオープンリーディングフレーム (終止コドンを含む) になっていた。オープンリーディングフレームから予測されるアミノ酸配列は、518アミノ酸残基から成る (配列番号14)。配列番号1がコードするアミノ酸配列についてBLASTを用いて相同性検索を行ったところ、SPTR蛋白質データベース (SWISS−PROT蛋白質配列データベースとTrEMBL核酸翻訳データベースを統合したもの) 中に、(i)データベース登録記号trembl|AK020600|AK020600_1、RIKEN full−length enriched library, clone:9530049C15, SCAN domain containing protein が、e−value:5×10−171、100%の一致度で、また(ii)データベース登録記号trembl|U88080|U88080_1、 Zinc finger protein 192 (LD5−1)は、SCAN box domainをもつKruppel gene familyであり、e−value:2×10−94、42%の一致度である。さらに、(iii)データベース登録記号gp|AF154846|8099348、Homo sapiens zinc finger protein (ZFP)が、e−value:4×10−93、41%の一致度でヒットした。これらの結果より配列番号14に示したアミノ酸配列からなるタンパク質はZinc finger proteinであることが推測された。
また、配列番号1に示す塩基配列がコードするアミノ酸配列について、HMMPFAMによる蛋白質特徴検索を行ったところ、ZF−C2H2の特徴を示す配列(PfamにLIMとしてエントリーされる塩基配列)が7回見出された。
これらのことから、配列番号1に示す塩基配列がコードするタンパク質はzinc finger型の転写因子であることが推測された。
【0140】
(2)dnaform63166(配列番号2、15)
dnaform63166は、配列番号2に示すように、3607塩基から成り、そのうち塩基番号612から2126までがオープンリーディングフレーム (終止コドンを含む) になっていた。オープンリーディングフレームから予測されるアミノ酸配列は、504アミノ酸残基から成る (配列番号15)。配列番号2がコードするアミノ酸配列についてBLASTを用いて相同性検索を行ったところ、SPTR蛋白質データベース (SWISS−PROT蛋白質配列データベースとTrEMBL核酸翻訳データベースを統合したもの) 中に、(i)データベース登録記号gpnew|BC021456|18204788、RIKEN cDNA 2810411K16、e−value:2×10−76、139アミノ酸にわたって100%の一致度で、また(ii)データベース登録記号trembl|AK013086|AK013086_1、RIKEN full−length enriched library, clone:2810411K16:SCAN domain containing proteinが、e−value:6×10−76、139アミノ酸にわたって99%の一致度で、さらに(iii)データベース登録記号gp|AK027384|14042023、Homo sapiens cDNA FLJ14478 fis, clone MAMMA1001633が、e−value:1×10−61、140アミノ酸にわたって86%の一致度でヒットした。
また、HMMPFAMによる蛋白質特徴検索を行ったところ、塩基番号1880〜2167にSCAN配列が見出され、この特徴からDNA結合蛋白質であることが推測された。
【0141】
(3)dnaform33383(配列番号3、16)
dnaform33383は、配列番号3に示すように、3704塩基から成り、そのうち塩基番号662から3259までがオープンリーディングフレーム (終止コドンを含む) になっていた。オープンリーディングフレームから予測されるアミノ酸配列は865アミノ酸残基から成る (配列番号16)。配列番号3がコードするアミノ酸配列についてBLASTを用いて相同性検索を行ったところ、SPTR蛋白質データベース (SWISS−PROT蛋白質配列データベースとTrEMBL核酸翻訳データベースを統合したもの) 中に、(i)データベース登録記号gp|BC008827|14250716、Homo sapiens, clone MGC:13310 IMAGE:4110431、e−value:5×10−145、919アミノ酸にわたって40%の一致度で、また(ii)データベース登録記号trembl|AF192913|AF192913_1、Zinc finger protein 180 (HHZ168)が、e−value:2×10−63、231アミノ酸にわたって51%の一致度で、さらに(iii)データベース登録記号gp|U41164|1127843、Rattus norvegicus Cys2/His2 zinc finger protein (rKr1)が、e−value:6×10−63、192アミノ酸にわたって56%の一致度でヒットした。
また、HMMPFAMによる蛋白質特徴検索を行ったところ、塩基番号2786〜3275にzf−C2H2が6箇所見出され、この特徴からDNA結合蛋白質であることが推測された。
【0142】
(4)dnaform39530(配列番号4、17)
dnaform39530は、配列番号4に示すように、2397塩基から成り、そのうち塩基番号661から1476までがオープンリーディングフレーム (終止コドンを含む) になっていた。オープンリーディングフレームから予測されるアミノ酸配列は、271アミノ酸残基から成る (配列番号17)。配列番号4がコードするアミノ酸配列についてBLASTを用いて相同性検索を行ったところ、SPTR蛋白質データベース (SWISS−PROT蛋白質配列データベースとTrEMBL核酸翻訳データベースを統合したもの) 中に、(i)データベース登録記号gp|AB052171|11611589、Macaca fascicularis brain cDNA, clone:QccE−18103.が、e−value:2×10−95、220アミノ酸にわたって79%の一致度で、また(ii)データベース登録記号trembl|AF017433|AF017433_1,Homo sapiens putative transcription factor CR53は、e−value:1×10−32、56%の一致度である。さらに(iii)データベース登録記号gp|BC007287|13938317、Homo sapiens, Similar to zinc finger protein 202, clone MGC:15660 IMAGE:3347511が、e−value:1×10−32、134アミノ酸にわたって56%の一致度でヒットした。
また、配列番号4に示す塩基配列がコードするアミノ酸配列について、HMMPFAMによる蛋白質特徴検索を行ったところ、塩基番号775〜1062にSCAN配列(PfamにSCANとしてエントリーされる配列)を見出した。
これらのことから、配列番号4に示す塩基配列がコードするタンパク質は転写因子であることが推測された。
【0143】
(5)dnaform38861(配列番号5、18)
dnaform38861は、配列番号5に示すように、2621塩基から成り、そのうち塩基番号213から1703までがオープンリーディングフレーム (終止コドンを含む) になっていた。オープンリーディングフレームから予測されるアミノ酸配列は496アミノ酸残基から成る (配列番号18)。配列番号5がコードするアミノ酸配列についてBLASTを用いて相同性検索を行ったところ、SPTR蛋白質データベース (SWISS−PROT蛋白質配列データベースとTrEMBL核酸翻訳データベースを統合したもの) 中に、(i)データベース登録記号gp|BC010591|14714873、Mus musculus, zinc finger proliferation 1、e−value:6×10−97、491アミノ酸にわたって41%の一致度で、また(ii)データベース登録記号trembl|D10630|MMZFP51_1、mouse Zinc finger protein 38 (Zfp−38) (CtFIN51) (Transcription factor RU49)が、e−value:2×10−96、491アミノ酸にわたって41%の一致度で、さらに(iii)データベース登録記号trembl|AB007886|AB007886_1、Hypothetical zinc finger protein KIAA0426が、e−value:2×10−95、532アミノ酸にわたって44%の一致度でヒットした。
また、HMMPFAMによる蛋白質特徴検索を行ったところ、塩基番号929〜1585に zf−C2H2が8回見出され、この特徴からDNA結合蛋白質であることが推測された。
【0144】
(6)dnaform60441(配列番号6、19)
dnaform60441は、配列番号6に示すように、1830塩基から成り、そのうち塩基番号122から1612までがオープンリーディングフレーム (終止コドンを含む) になっていた。オープンリーディングフレームから予測されるアミノ酸配列は496アミノ酸残基から成る (配列番号19)。配列番号6がコードするアミノ酸配列についてBLASTを用いて相同性検索を行ったところ、SPTR蛋白質データベース (SWISS−PROT蛋白質配列データベースとTrEMBL核酸翻訳データベースを統合したもの) 中に、(i)データベース登録記号gp|BC010591|14714873、Mus musculus, zinc finger proliferation 1, clone MGC:18498 IMAGE:3981599、e−value:6×10−97、491アミノ酸にわたって41%の一致度で、また(ii)データベース登録記号trembl|D10630|MMZFP51_1、mouse Zinc finger protein 38 (Zfp−38) (CtFIN51) (Transcription factor RU49)が、e−value:2×10−96、491アミノ酸にわたって41%の一致度で、さらに(iii)データベース登録記号trembl|AB007886|AB007886_1、Hypothetical zinc finger protein KIAA0426が、e−value:2×10−95、532アミノ酸にわたって44%の一致度でヒットした。
また、HMMPFAMによる蛋白質特徴検索を行ったところ、塩基番号929〜1585に zf−C2H2が8回見出され、この特徴からDNA結合蛋白質であることが推測された。
【0145】
(7)dnaform42515(配列番号7、20)
dnaform42515は、配列番号7に示すように、2311塩基から成り、そのうち塩基番号156から560までがオープンリーディングフレーム (終止コドンを含む) になっていた。オープンリーディングフレームから予測されるアミノ酸配列は、134アミノ酸残基から成る (配列番号20)。配列番号7がコードするアミノ酸配列についてBLASTを用いて相同性検索を行ったところ、SPTR蛋白質データベース (SWISS−PROT蛋白質配列データベースとTrEMBL核酸翻訳データベースを統合したもの) 中に、(i)データベース登録記号AJ301670,STATc transcriptional repressorが、e−value:4×10−28で、また127アミノ酸にわたって53%の一致度で、また(ii)データベース登録記号P58463、forkhead−related transcription factor 2が、e−value:4×10−23で、109アミノ酸にわたって58%の一致度で、さらに(iii)データベース登録記号P18480、Transcription regulatory protein SNF5が、e−value:2×10−24で、118アミノ酸にわたって61%の一致度でヒットした。
また、上記(i)のタンパク質は、データベース中の文献情報(Mol. Cell, 7(4), 779−88(2001))から初期の発生速度と末端分化のタイミングの制御に関ること、および、ecmA遺伝子の発現を制御するリプレッサーとして機能することが、また上記(ii)のタンパク質は、データベース中の文献情報(J. Biol. Chem. 1998, 273 (36):23335−43)から肺および胎盤に発現されている転写因子でいくつかの肺特異的遺伝子のcis因子に結合することが、さらに上記(iii)のタンパク質は、データベース中の文献情報(Mol. Cell. Biol., 1990, 10 (11):5616−25)からグルコースおよびリン酸により制御される遺伝子の転写制御に関わることがそれぞれ明らかとなった。
これらの結果より、配列番号7に記載の塩基配列がコードするタンパク質は転写因子であることが推測された。
【0146】
(8)dnaform41143(配列番号8、21)
dnaform41143は、配列番号8に示すように、2646塩基から成り、そのうち塩基番号149から1591までがオープンリーディングフレーム (終止コドンを含む) になっていた。オープンリーディングフレームから予測されるアミノ酸配列は、480アミノ酸残基から成る (配列番号21)。配列番号8がコードするアミノ酸配列についてBLASTを用いて相同性検索を行ったところ、SPTR蛋白質データベース (SWISS−PROT蛋白質配列データベースとTrEMBL核酸翻訳データベースを統合したもの) 中に、(i)データベース登録記号AL034555、zinc finger protein 151 (pHZ−67)が、e−value:1×10−25で、また121アミノ酸にわたって48%の一致度で、また(ii)データベース登録記号Q13105、Myc−interacting zinc finger proteinが、e−value:2×10−25で、121アミノ酸にわたって48%の一致度でヒットした。これらの結果より、配列番号21に示したアミノ酸配列からなるタンパク質はZinc finger型DNA結合蛋白質であることが推測された。
また、上記(ii)のタンパク質は、データベース中の文献情報(Curr Top Microbiol Immunol 1997;224:137−46)から、Myc−interacting zinc finger proteinであることが明らかとなった。
また、配列番号8に示す塩基配列がコードするアミノ酸配列について、HMMPFAMによる蛋白質特徴検索を行ったところ、アミノ酸番号9−121に蛋白質二量化に関わる特徴を示す配列(PfamにBTBとしてエントリーされるアミノ酸配列)が見出された。また、Zinc finger domain(Pfamにzf−C2H2としてエントリーされるアミノ酸配列)も1ヶ所で見出された。
これらのことから配列番号8に示す塩基配列がコードするタンパク質はZinc finger型DNA結合蛋白質であることが推測された。
【0147】
(9)dnaform34196(配列番号9、22)
dnaform34196は、配列番号9に示すように、2796塩基から成り、そのうち塩基番号597から1982までがオープンリーディングフレーム (終止コドンを含む) になっていた。オープンリーディングフレームから予測されるアミノ酸配列は、461アミノ酸残基から成る (配列番号22)。配列番号9がコードするアミノ酸配列についてBLASTを用いて相同性検索を行ったところ、SPTR蛋白質データベース (SWISS−PROT蛋白質配列データベースとTrEMBL核酸翻訳データベースを統合したもの) 中に、(i)データベース登録記号Q9P255、Hypothetical zinc finger protein KIAA1473が、e−value:1×10−59で、また295アミノ酸にわたって37%の一致度で、また(ii)データベース登録記号P52742、Zinc finger protein 135が、e−value:2×10−58で、277アミノ酸にわたって39%の一致度でヒットした。これらの結果より、配列番号22に示したアミノ酸配列からなるタンパク質はZinc finger型DNA結合蛋白質であることが推測された。
また、上記(ii)のタンパク質は、データベース中の文献情報(Genomics 1995 May 20;27(2):259−64)から、zinc finger Kruppel familyであることが明らかとなっており、発達障害などに関わることが分かった。
また、配列番号9に示す塩基配列がコードするアミノ酸配列について、HMMPFAMによる蛋白質特徴検索を行ったところ、アミノ酸番号43〜299にZinc finger domain (Pfamにzf−C2H2としてエントリーされる配列)が9ヶ所で見出された。
これらのことから、配列番号9に示す塩基配列がコードするタンパク質はZinc finger型DNA結合蛋白質であることが推測された。
【0148】
(10)dnaform37479(配列番号10、23)
dnaform37479は、配列番号10に示すように、2717塩基から成り、そのうち塩基番号230から907までがオープンリーディングフレーム (終止コドンを含む) になっていた。オープンリーディングフレームから予測されるアミノ酸配列は、225アミノ酸残基から成る (配列番号23)。配列番号10がコードするアミノ酸配列についてBLASTを用いて相同性検索を行ったところ、SPTR蛋白質データベース (SWISS−PROT蛋白質配列データベースとTrEMBL核酸翻訳データベースを統合したもの) 中に、(i)データベース登録記号Q9NQX1、PR−domain zinc finger protein 5が、e−value:3×10−13で、62アミノ酸にわたって50%の一致度で、また(ii)データベース登録記号X82018、zinc finger protein with interaction domainが、e−value:2×10−12で、81アミノ酸にわたって43%の一致度でヒットした。これらの結果より、配列番号23に示したアミノ酸配列からなるタンパク質はZinc finger型DNA結合蛋白質であることが推測された。
また、上記(ii)のタンパク質は、データベース中の文献情報(Genes Dev 1994 Jul 15;8(14):1664−77)から、(zinc finger protein with interaction domainであることが分かった。
また、配列番号10に示す塩基配列がコードするアミノ酸配列について、HMMPFAMによる蛋白質特徴検索を行ったところ、アミノ酸番号12−34と40−63にZinc finger domain (Pfamにzf−C2H2としてエントリーされる配列)が2ヶ所で見出された。
これらのことから、配列番号10に示す塩基配列がコードするタンパク質はZinc finger型DNA結合蛋白質であることが推測された。
【0149】
(11)dnaform59635(配列番号11、24)
dnaform59635は、配列番号11に示すように、2709塩基から成り、そのうち塩基番号566から1228までがオープンリーディングフレーム (終止コドンを含む) になっていた。オープンリーディングフレームから予測されるアミノ酸配列は、220アミノ酸残基から成る (配列番号24)。配列番号11がコードするアミノ酸配列についてBLASTを用いて相同性検索を行ったところ、SPTR蛋白質データベース (SWISS−PROT蛋白質配列データベースとTrEMBL核酸翻訳データベースを統合したもの) 中に、(i)データベース登録記号Q9NQX1、PR−domain zinc finger protein 5が、e−value:4×10−13で、62アミノ酸にわたって50%の一致度で、また(ii)データベース登録記号X82018、zinc finger protein with interaction domainが、e−value:3×10−11で、81アミノ酸にわたって41%の一致度でヒットした。これらの結果より、配列番号24に示したアミノ酸配列からなるタンパク質はZinc finger型DNA結合蛋白質であることが推測された。
また、上記(ii)のタンパク質は、データベース中の文献情報(Genes Dev 1994 Jul 15;8(14):1664−77)から、(zinc finger protein with interaction domainであることが分かった。
また、配列番号11に示す塩基配列がコードするアミノ酸配列について、HMMPFAMによる蛋白質特徴検索を行ったところ、アミノ酸番号12−34と40−63にZinc finger domain (Pfamにzf−C2H2としてエントリーされる配列)を見出した。
これらのことから、配列番号11に示す塩基配列がコードするタンパク質はZinc finger型DNA結合蛋白質であることが推測された。
【0150】
(12)dnaform33773(配列番号12、25)
dnaform33773は、配列番号12に示すように、3249塩基から成り、そのうち塩基番号487から2127までがオープンリーディングフレーム (終止コドンを含む) になっていた。オープンリーディングフレームから予測されるアミノ酸配列は、546アミノ酸残基から成る (配列番号25)。配列番号12がコードするアミノ酸配列についてBLASTを用いて相同性検索を行ったところ、SPTR蛋白質データベース (SWISS−PROT蛋白質配列データベースとTrEMBL核酸翻訳データベースを統合したもの) 中に、(i)データベース登録記号AF097416、Mus musculus zinc finger transcription factor Kaisoが、e−value:2×10−27で、また94アミノ酸にわたって58%の一致度で、また(ii)データベース登録記号AF420316、Xenopus laevis BTB/POZ zinc finger transcription factor XKaiso が、e−value:2×10−29で、136アミノ酸にわたって48%の一致度でヒットした。
また、配列番号12に示す塩基配列がコードするアミノ酸配列について、HMMPFAMによる蛋白質特徴検索を行ったところ、配列番号25のアミノ酸番号17−131の領域にBTB(for BR−C, ttk and bab) or POZ(for Pox virus and Zinc finger)ドメインの特徴を示す配列(PfamにBTBとしてエントリーされるアミノ酸配列)を見出し、アミノ酸番号337−380の領域にMsx−interacting−zinc finger の特徴を示す配列(Pfamにzf−MIZとしてエントリーされるアミノ酸配列)を見い出し、アミノ酸番号340−508の領域に4カ所にわたってZinc finger, C2H2 typeの特徴を示す配列(Pfamにzf−C2H2としてエントリーされるアミノ酸配列)を見いだした。
これらの結果より、配列番号12に示す塩基配列がコードするタンパク質はzinc fingerを持ったKaiso様の転写因子であることが推測された。
【0151】
(13)dnaform51218(配列番号13、26)
dnaform51218は、配列番号13に示すように、2950塩基から成り、そのうち塩基番号167から続くフレームで2950(配列の最後の塩基)まで終止コドン以外のアミノ酸のコドンが続く。167から2950の領域がコードするアミノ酸配列は、927アミノ酸残基から成る (配列番号26)。配列番号13がコードするアミノ酸配列についてBLASTを用いて相同性検索を行ったところ、SPTR蛋白質データベース (SWISS−PROT蛋白質配列データベースとTrEMBL核酸翻訳データベースを統合したもの) 中に、(i)データベース登録記号AY044336、Xenopus laevis DNA−methylation dependent transcriptional repressor Kaiso−like protein (Kaiso) が、e−value:4×10−32で、また137アミノ酸にわたって48%の一致度で、また(ii)データベース登録記号AF420316、Xenopus laevis BTB/POZ zinc finger transcription factor XKaiso が、e−value:4×10−32で、137アミノ酸にわたって48%の一致度でヒットした。
また、配列番号13に示す塩基配列がコードするアミノ酸配列について、HMMPFAMによる蛋白質特徴検索を行ったところ、配列番号26のアミノ酸番号17−131の領域にBTB(BR−C, ttk and bab) or POZ(Pox virus and Zinc finger)ドメインの特徴を示す配列(PfamにBTBとしてエントリーされるアミノ酸配列)を見出し、アミノ酸番号337−380の領域にMsx−interacting−zinc fingerの特徴を示す配列(Pfamにzf−MIZとしてエントリーされるアミノ酸配列)を見い出し、アミノ酸番号340−537の領域に5カ所にわたってZinc finger, C2H2 typeの特徴を示す配列(Pfamにzf−C2H2としてエントリーされるアミノ酸配列)を見いだした。
これらの結果より、配列番号13に示す塩基配列はzinc fingerを持ったKaiso様の転写因子遺伝子配列の一部分であることが推測された。
【0152】
実施例5 DNAマイクロアレーを用いた組織発現解析
組織発現解析は、Miki, R., et al., Proc. Natl. Acad. Sci. USA, 98, 2199−2204 (2001)の記載に従って行った。
(1)DNAマイクロアレーの作成
2種類のマウス全長cDNAの塩基配列(dnaform33383、dnaform34196)および解析対象のマウス全長cDNAと同じクラスタに属する(該cDNAと相同な塩基配列を有する)1種類のマウスcDNAライブラリーFANTOM( HYPERLINK http://fantom.gsc.riken.go.jp/ http://fantom.gsc.riken.go.jp/)由来のcDNAの塩基配列(FANTOM NO:9530049C15)を、M13フォワードおよびリバースプライマーを用いて増幅後、このPCR産物をイソプロパノールにて沈澱させ15μlの3×SSC液に溶解した。これらの3種類のDNA溶液をポリLリジンコートしたガラススライドに、16チップ(SMP3、TeleChem International、Sunnyvale、CA)のDNAアレイヤーを用いてスポットし、DNAマイクロアレーを作成した(方法の詳細はhttp://cmgm.stanford.edu/pbrown/mguide/index.htmlに記載されている)。マウスβアクチンとグリセルアルデヒド‐3‐フォスフェートデヒドロゲナーゼのcDNAをポジティブコントロールとし、シロイヌナズナのcDNAをネガティブコントロールとして用いた。
【0153】
このDNAマイクロアレーの検出感度は、1細胞当たりmRNA1ないし3コピーであった。ターゲット配列との一致度がおよそ80%のクローンのシグナル強度は、完全に配列が一致するクローンの10分の1であった。ターゲット配列との一致度が80%未満のクローンのシグナル強度は、バックグランドレベルであった。
【0154】
(2)プローブの調製
C57BL/6Jマウスの胎児、新生仔、アダルトの22組織(腎臓、脳、脾臓、肺、肝臓、精巣、膵臓、胃、小腸、結腸、胎盤、心臓、胸腺、小脳、子宮、骨、筋肉、背側腎臓由来脂肪細胞、副精巣由来脂肪細胞、内臓脂肪、10日齢新生児小脳、10日齢新生児皮膚)から抽出したmRNA1μgを定法に従いランダムプライム逆転写反応を行い蛍光色素Cy3(Amersham Pharmacia社)を取りこませた。他方、17.5日齢の胎児全身から抽出したmRNA1μgをランダムプライム逆転写反応を行い、蛍光色素Cy5を取りこませ発現解析のリファレンスとした。CyDye標識cDNAプローブは、CyScribe GFX Purification Kit(Amersham Pharmacia社)を用いて精製し、滅菌水17μlにてカラムから溶出した。これに3μlの10μg/μl oligo(dA),3μlの酵母tRNA 20μg/μl,1μlの20μg/μlマウスCot1 DNA,5.1μlの20XSSC,および0.9μlの10%SDSからなるブロッキング溶液を混和してCyDye標識cDNAプローブを調製した。
【0155】
(3)DNAマイクロアレーのハイブリダイゼイション
発現解析対象組織由来cDNAプローブ(Cy3標識)とリファレンスの17.5日齢胎児由来cDNAプローブ(Cy5標識)を混和した溶液30μlを95℃にて1分間熱処理を行い室温にて冷却した。DNAマイクロアレーに上記プローブ溶液を添加しカバースリップを被せ、Hybricasette(ArrayIt社)中にて65℃一晩ハイブリダイズさせた。次に、DNAマイクロアレーを2XSSC,0.1%SDSを用いて洗浄し、続いて1XSSCにて2分間、0.1XSSCにて2分間リンスした。マイクロアレーはScanArray5000共焦点レーザースキャナーを用いてスキャンし、画像をIMAGENE(BioDiscovery社)で解析した。
【0156】
(4)データ解析
各組織中のmRNA量(Cy3標識)は、リファレンスの17.5日齢の胎児全身mRNA量(Cy5標識)との比(Cy3/Cy5)を対数(log)で表示した。すなわち、解析対象とする各マウス全長cDNAに対応するmRNA発現量が、リファレンス組織中よりも各組識中の方が多い場合は正の数値で、少ない場合は負の数値で、等しい場合は0で示される。データの正確性を増すために実験は独立に2回行い、再現性の有る結果を採用した。結果を以下の表1に示す。
【0157】
一般的に、DNAアレーを使用した発現解析では、2倍程度の増減は実験誤差とみなされる。このことから、表1に示す結果の数値が1以上の場合にはある組織中のmRNA量が対照である17.5日齢の胎児全身のmRNA量と比較して2倍以上であり、有意に増加していると解釈した。逆に、結果の数値が−1以下の場合は、ある組織中のmRNA量が対照である17.5日齢の胎児全身のmRNA量と比較して2分の1以下であり、有意に減少していると解釈した。また、任意の組織間のmRNA発現量を比較検討する際は、各組織における数値の差が1であればmRNA量は2倍、2であればmRNA量は4倍であり、逆に、組織間の数値の差が−1であればmRNA量は1/2倍、−2であればmRNA量は1/4倍であることを意味する。
【0158】
なお、マイクロアレイにスポットしたDNAと同じクラスタに属し、該DNAと少なくとも200塩基に亘り80%以上の塩基配列の一致度を有する領域を有するマウスcDNAクローンについても、表1に解析対象cDNAとして記載し、マイクロアレイにスポットした該DNAの測定結果の数値を代用して記載した。
【0159】
【表1】

Figure 2004229642
【0160】
dnaform34837は、FANTOM No:9530049C15をプローブとした発現解析により、膵臓でのみ発現が増加していることがわかった。dnaform33383は、それ自身をプローブとした発現解析により、広い組織範囲で発現が低下していることがわかった。dnaform39530は、dnaform33383をプローブとした発現解析により、広い組織範囲で発現が低下していることがわかった。dnaform34916は、それ自身をプローブとした発現解析により、精巣でのみ発現が低下していることがわかった。
【0161】
実施例6 PCR法を用いた組織発現解析
本発明のタンパク質をコードするmRNAの正常マウスおよび疾患マウスでの組織発現変動を検討するために、定法(Higuchi R, et al., Biotechnology, 11: 1026−30 (1993))に従い、PCR法を用いた組織発現解析を行った。
【0162】
(1)cDNA合成
以下のマウス(森脇和郎、外1名編、Molecular Medicine別冊、Vol. 36「自然発症疾患モデル動物 」、中山書店、1999年)の19組織からトータルRNAを抽出し、オリゴdTをプライマーとして逆転写酵素を用いてcDNA合成を行った。
(a)正常マウスの組織および糖尿病モデルマウスの組織
▲1▼対照マウスC57BL/KsJ − +m/+m Jcl(メス、8週齢)の全脳、視床、肺、腎臓、骨髄、膵臓、脂肪細胞、肝臓、眼
▲2▼糖尿病モデルマウスC57BL/KsJ − db/db Jcl(メス、8週齢)の膵臓、脂肪細胞、肝臓、眼
(b)老化促進マウスの組織
▲1▼正常老化マウス SAM R1/TA Slc(オス、13週齢)の海馬、前頭葉皮質
▲2▼老化促進マウス SAM P8/Ta Slc(オス、15週齢)の海馬、前頭葉皮質
(c) 癌転移モデルマウスの組織
▲1▼対照マウスBalb/c(メス、5週齢)の正常結腸
▲2▼癌転移モデルマウスBalb/c(メス、6週齢)の結腸癌(マウス腹腔に結腸癌細胞Colon26を移植し、2週間後に結腸癌を摘出)
【0163】
(2)PCR法による定量
下記の6個の、本発明のタンパク質をコードしているmRNAの発現は、ライトサイクラー定量PCR装置(ロシュ・ダイアグノスティクス社)とLightCycler−FastStart DNAマスターSYBR Green I試薬を用いて、製品に添付されているプロトコールに従い定量した。定量PCRに用いた合成DNA配列を以下に示す。
【0164】
(a)dnaform33773
5’側プライマー:AGGATTGGCGAACTATCCAG(配列番号37)
3’側プライマー:CCACGAGTGAACATTTGCAT(配列番号38)
(b)dnaform38861
5’側プライマー:ACTCAGAGAGCCAGCCAGAA(配列番号39)
3’側プライマー:TGTTGGAACCGTTTCCTGAG(配列番号40)
(c)dnaform41143
5’側プライマー:GCTGCACAAACGGTCTCATA(配列番号41)
3’側プライマー:ACCAAGAGGTGCAACAGAGG(配列番号42)
(d)dnaform42515
5’側プライマー:TGTGCTGTCATCTGAGACTTGA(配列番号43)
3’側プライマー:CCTTGTACACAACCAAGGGTAGA(配列番号44)
(e)dnaform51218
5’側プライマー:AGGATTGGCGAACTATCCAG(配列番号45)
3’側プライマー:CTCCACGAGTGAACATTTGC(配列番号46)
(f)dnaform60441
5’側プライマー:TCAGGAAACGGTTCCAACAT(配列番号47)
3’側プライマー:TCCTTGGAGGATTTCTTCTCTG(配列番号48)
【0165】
定量結果はGlyceraldehyde 3−phosphate dehydrogenase(GAPDH)を内部標準として、補正した。即ち、各組織での対象遺伝子の発現量(コピー数/μl)をGAPDHの発現量(コピー数/μl)で除し、定数(1×10)(注:10の6乗)を乗して表示した。
【0166】
結果をまとめると、dnaform33773は全身で強く発現するが、特に肺、膵臓、脂肪、脳で強力に発現した。dnaform38861は全身で強く発現するが、特に膵臓、肺で強力に発現した。dnaform41143は全身で発現するが、膵臓、肺、脂肪で比較的強く発現した。dnaform42515は脳に特異的に発現し、特に前頭様皮質で強力に発現した。dnaform51218は全身で強く発現するが、特に肺、膵臓、脂肪、脳で強力に発現した。dnaform60441は全身で発現するが、特に膵臓、肺で強く発現した。上記クローンのcDNAおよび該cDNAによってコードされるタンパク質は、糖尿病や癌などの治療や診断に応用できる。また該cDNAによってコードされるタンパク質は、上記のようなmRNA発現の変動が見られる組織あるいはmRNA発現量の多い組織に関わる疾患に関与している可能性がある。
【0167】
【表2】
Figure 2004229642
【0168】
実施例7 タンパク質−タンパク質相互作用解析
哺乳動物細胞におけるtwo−hybrid法(Suzuki, H., et al., Genome Research, 11, 1758−1765 (2001))を用いて、2種類のマウス全長cDNAの塩基配列(dnaform33773、dnaform34837)のタンパク質コード配列がコードするタンパク質のタンパク質−タンパク質相互作用を網羅的に解析した。
(1)PCR法を用いた迅速なサンプル調製
哺乳動物細胞でのtwo−hybrid実験は、CheckMate mammalian two−hybrid system(Promega社製)を利用した。タンパク質−タンパク質相互解析用のサンプルは、CMVプロモーターの下流にGal4遺伝子のDNA結合領域を挿入したプラスミドベクターpBIND、CMVプロモーターの下流にVP16遺伝子の転写活性化領域を挿入したプラスミドベクターpACT,および5個のGal4結合領域とTATAボックスの下流にレポーターであるルシフェラーゼ遺伝子を挿入したプラスミドベクターpG5lucを鋳型として調製した。Gal4遺伝子と2種類のマウス全長cDNAの塩基配列(dnaform33773、dnaform34837)のタンパク質コード配列との融合遺伝子、並びにVP16遺伝子とマウスcDNAライブラリーFANTOM(http://fantom.gsc.riken.go.jp/)の各クローンが有する完全長cDNAのタンパク質コード配列との融合遺伝子は、基本的にPromega社のプロトコールに従い共通配列部分を用いた連結と2段階PCR法を組み合わせて作成した(Suzuki, H., et al., Genome Research, 11, 1758−1765 (2001) )。マウスcDNAのタンパク質コード配列を、5’側に共通配列をもち3’側に遺伝子特異的な配列をもつフォワードプライマーおよびM13ユニバーサルプライマーとを用いてPCR増幅した後、上記増幅産物とpBINDまたはpACTのPCR増幅産物(3’側に共通配列を付加した)とを混和し、それぞれネスティドプライマーを用いて第2段のPCR増幅を行い、Gal4とマウスタンパク質の融合タンパク質を発現させるベクター(BINDサンプル)またはVP16とマウスタンパク質の融合タンパク質を発現させるベクター(ACTサンプル)を構築した。
【0169】
(2)ハイスループットな哺乳動物細胞でのtwo−hybrid実験
PCR法で調製したBINDおよびACTサンプルは、それ以上の精製を行わずに直接使用した。BINDサンプルおよびACTサンプルのそれぞれ0.25μl、30ngのpG5luc、および9.5μlのOpti−MEM培地(Lifetech社製)を384ウェルプレートに分注した。Opti−MEM培地にて32倍希釈したLF2000トランスフェクション試薬(Lifetech社製)10μlをウェルに加えて混和し20分間インキュベーション後、F12培地にて1,300細胞/μlに懸濁したCHO−K1チャイニーズハムスター細胞液20μlを加えて良く懸濁した。アッセイサンプルをCOインキュベーター内で20時間培養後、ルシフェラーゼ活性はSteady−Glo Luciferase Assay System(Promega社製)を用いて測定し、相互作用を確認した。
【0170】
この結果、2種類のマウス全長cDNAの塩基配列(dnaform33773、dnaform34837)のタンパク質コード配列がコードするタンパク質は、以下に示す特定のタンパク質(マウスcDNAライブラリーFANTOMの特定のクローンが有するcDNAのタンパク質コード配列がコードする特定のタンパク質)との相互作用をそれぞれ有していることが明らかとなった。
【0171】
【表3】
Figure 2004229642
【0172】
(3)考察
Dnaform33773にコードされる本発明のタンパク質は、SRP40と分子間相互作用することがわかった。SRP40は、mRNA前駆体のスプライシング反応に関与する蛋白質の一群であるSR蛋白質のひとつであって、phosphatidylinositol 3−kinaseが関与するprotein kinase C beta II mRNAのスプライシング経路に必要な蛋白質である。このSRP40がprotein kinase C beta IIの発現を調節し、この働きによりinsulin依存的な糖代謝が制御されていることが知られている(J.Biol.Chem., 276(25):22648−54, 2001) 。したがって、SRP40の異常は糖尿病の原因となりうる。Dnaform33773にコードされる本発明のタンパク質は、Zincfingerをもち、転写制御活性を有することが予想されており、これらの結果を総合的に解析すると、糖尿病の原因となりうるSRP40と結合するDnaform33773にコードされるタンパク質は、糖尿病の原因となりうる蛋白質であると推測できる。
Dnaform34837にコードされる本発明のタンパク質は、Pregnane X receptor 2(PXR2)と相互作用することがわかった。PXR2は核内ステロイド受容体の1つで、ステロイド化合物を介する情報伝達系に複合的に関与する核内受容体の1つである。肝臓においては細胞質に存在し、リガンドに曝露されることによりRXR(Retinoid X receptor)とヘテロ二量体を形成して核に移行し、特異的遺伝子発現に関与していることで知られている。具体的には、例えば、PXRは医薬品に応答してチトクロームP450(CYP)酵素等の薬物代謝系を誘導することが知られており、生体内での異物(医薬品)センサーとして機能していると推測されている。また、このPXRの異常は、糖尿病、高脂血症、高血圧、虚血性心疾患といったいわゆる生活習慣病の原因となり、様々な内分泌疾患を引き起こすことが知られている。Dnaform34837にコードされる本発明のタンパク質はZinc−finger proteinであり、転写制御活性を有する蛋白質であることが予測されており、核内に存在して特定のDNA配列に結合することによって情報伝達系に関与していることが予想される。以上の結果を総合的に解析すると、Dnaform34837は、PXR2と共存する条件でヘテロ二量体を形成し、転写制御に関与する可能性があるタンパク質であると推測できる。
【0173】
実施例8 ヒトオルソログDNAの取得
(1)dnaform33383のヒトオルソログDNAの予測
dnaform33383の塩基配列(配列番号3)を問い合わせとして、ヒトゲノムドラフト配列(NCBI Build 30;http://www.ncbi.nlm.nih.gov/About/Doc/hs#genomeintro.html)に対してBLAST検索を行ったところ、相同性の高い領域として16番染色体の6p12.1の24.62Mbから24.66Mbの領域を見出した。
該ゲノム配列領域に対して、遺伝子予測プログラムGenscan(http://genes.mit.edu/GENSCAN.html) を用いて遺伝子領域予測を行い、得られた予測転写産物配列に対して相同性検索を行ったところ、3520塩基よりなる配列(配列番号49)を得た。この塩基配列は、塩基番号319−3219に2904塩基のオープンリーディングフレーム(配列番号35)を含んでいた。配列番号3のマウス塩基配列は、配列番号35のヒト塩基配列と約2580塩基対の長さに渡って81%の相同性をもつことがわかった。
【0174】
また、配列番号35の塩基配列から配列番号36のヒトアミノ酸配列に翻訳されると予測された。配列番号36のアミノ酸配列とdnaform33383のオープンリーディングフレームから予測されるアミノ酸配列(配列番号16)との間には、864アミノ酸配列に渡って81%の相同性があった。
さらに、配列番号36のアミノ酸配列を問い合わせとして、マウスcDNAライブラリー FANTOMデータベース(http://fantom.gsc.riken.go.jp/)に対してBLASTによる相同性検索を行ったところ、配列番号16のアミノ酸配列が最も相同性が高かった。
【0175】
なお、公開塩基配列データベースであるembleデータベースと特許データベースであるGenseqデータベースに対してのBLAST相同性検索においては、配列番号35の塩基配列よりも相同性の高いヒト塩基配列は検索できなかった。
従って、配列番号35が、配列番号3に対する新規なヒトオルソログDNAであると考えられた。
(2)取得されたヒトオルソログDNAの塩基配列の解析
上記(1)で予測されたヒトオルソログDNAの塩基配列および該塩基配列によりコードされるアミノ酸配列について、さらなる解析を行った。
まず、配列番号36に示されるアミノ酸配列についてBLASTを用いて相同性検索を行ったところ、NRDBタンパク質データベース (SWISS−PROT、PIR、TREMBLE、GENPEPT、PDBから作成された重複のないアミノ酸配列のデータベース)および特許配列のデータベース中には、配列番号16に記載のマウスのアミノ酸配列以上に相同性を示す配列はなかった。このことからも、配列番号36に記載のアミノ酸配列を有するタンパク質は、配列番号16に記載のアミノ酸配列配列を有するマウスタンパク質のヒトオルソログタンパク質であることが推測された。
配列番号36に記載のヒトアミノ酸配列について、HMMPFAMによるタンパク質特徴検索を行ったところ、アミノ酸番号39−134にSCAN domain(PfamにSCANとしてエントリーされるアミノ酸配列)を、アミノ酸番号229−269にKRAB box region(PfamにKRABとしてエントリーされるアミノ酸配列)を、アミノ酸番号775−797、803−825、831−853、859−881、887−909、915−937にZinc Finger,C2H2 type domainの特徴を示す配列(Pfamにzf−C2H2としてエントリーされるアミノ酸配列)を見出した。
SCAN domainは一部のC2H2タイプのZnフィンガータンパク質のN末端に見られる保存されたモチーフで、オリゴマー形成の調節と転写制御の役割をもつことが知られている。またKruppel−associated box(KRAB)はC2H2タイプのZnフィンガータンパク質の約1/3に見られ、N末端部分に存在し、DNAとの結合の際には転写の抑制にはたらき、Znフィンガードメインとともに細胞分化・発生に関与することが知られている。
以上のことから、配列番号36に記載のアミノ酸配列を有するタンパク質は、Kruppel−associated box(KRAB)を持つC2H2タイプのZnフィンガータンパク質で、転写の抑制にかかわる転写因子であることが推測された。
【0176】
(3)dnaform33383のヒトオルソログDNAの取得
上記(1)および(2)において新規なヒトオルソログDNAが予測されたことから、以下のとおり、このcDNAのクローニングをおこなった。
まず、このcDNAを取得する遺伝資源となる組織を選択するために、フォワードプライマー1(配列番号50)とリバースプライマー1(配列番号51)を用いてヒト組織由来cDNA(Clontech社製)を鋳型としたPCRを行ったところ、子宮、前立腺、脳下垂体、脳、胎児脳、海馬、視床で目的とする約150bpのDNAの増幅が確認された。フォワードプライマー1は配列番号35の塩基番号1294−1313に相当し、リバースプライマー1は配列番号35の塩基番号1443−1424に相当する。
【0177】
次に、オープンリーディングフレーム全長を取得するために、これら組織由来のcDNAを鋳型としてフォワードプライマー2(配列番号52)とリバースプライマー2(配列番号53)を用いたPCRを行った。これらのプライマーは、配列番号49のヒト塩基配列においてオープンリーディングフレームの外側に位置する配列を用いて設計されたプライマーであって、フォワードプライマー2は配列番号49の塩基番号253−272に相当し、リバースプライマー2は配列番号49の塩基番号3256−3237に相当する。
【0178】
PCRの結果、子宮、前立腺、脳下垂体、胎児脳、海馬、視床で予測値と一致する2.9kbのDNAが増幅した。これらのうち子宮、前立腺、胎児脳に由来するPCR増幅DNA断片を鋳型に直接シークエンスを行ったところ、3種とも同じ配列を有しており、PCRによるミスはないことがわかった。そこで、子宮由来のPCR増幅DNA断片をpCR4Blunting−TOPOベクター(Invitrogen社製)にライゲーションして、得られた独立のコロニー3個から由来するプラスミドのシークエンスをおこなったところ、3つとも配列番号49の塩基番号253−3256(配列番号35に記載された、ヒトのオープンリーディングフレーム全長に相当する塩基配列を含む)と全く同じ配列が挿入されていた。
以上のことから、予想されたヒト転写物(タンパク質)が実際に発現していることが示され、そのcDNAを取得することができたことがわかった。かくして取得されたヒトホモログDNAを、ZG1001と名付けた。
【0179】
このヒト塩基配列に由来するアミノ酸配列(配列番号36)とマウス塩基配列に由来するアミノ酸配列(配列番号16)とを比較すると、ヒトアミノ酸配列上のアミノ酸番号64−913と、マウスアミノ酸配列上のアミノ酸番号7−856の部分で一致度が高く、N末端はヒトアミノ酸配列の方が59アミノ酸長く、C末端は36アミノ酸長かった。
さらに、ヒト塩基配列(配列番号35)とマウス塩基配列(配列番号3)をそれぞれヒトゲノム、マウスゲノムにマッピングすると、両者とも7つのエクソンにコードされていた。それぞれのN末端、C末端をコードする部分は、一致度が高い部分から一致度が低い部分にかけてひとつのエクソンであった。すなわち、これらの配列のN末端及びC末端の違いは、エクソンの使い分けではなく種による違いであることがわかった。
【0180】
実施例9 標的転写調節領域に対する結合能の解析
(1)無細胞蛋白質合成系を用いた本発明の蛋白質の調製
本発明のタンパク質をコードするDNAを含むプラスミドに対して、Proc.Natl.Acad.Sci.USA,99,14652−14657 (2002)に記載されている方法に準じてPCR反応を行い、転写用のDNA断片を調製した。このDNAを鋳型としてSP6 RNA Polymerase(Promega社製)を用いて転写反応を行ない、mRNAを合成し、エタノール沈殿操作により得られたmRNAを精製した。このmRNAを用いたタンパク合成は、特開2002−204689号公報、およびProc.Natl.Acad.Sci.USA,99:14652−14657(2002)に準じた重層法による無細胞蛋白質合成系を用いて行った。重層法無細胞蛋白質合成系にて使用する翻訳溶液(25μl)には、Proc.Natl.Acad.Sci.USA,97:559−564(2000)に従って調製された6μlの小麦胚芽抽出液および上述したmRNA(0.02nmol)を添加して用い、その組成は24 mM Hepes/KOH(pH 7.8), 1.2 mM ATP, 0.25 mM GTP, 16 mM creatine phosphate, 10 μg creatine kinase, ribonuclease inhibitor(20units), 2 mM DTT, 0.4 mM spermidine, 0.3 mM L型アミノ酸(20種), 2.7 mM magnesium acetate, 100 mM potassium acetate, 5 μg 小麦胚芽由来tRNA, 0.05% Nonidet P−40および0.005% NaN3から成る。また翻訳用緩衝液は31.3mM HEPES/KOH(pH7.8) , 2.67mM Mg(OAc)2 , 93mM KOAc , 1.2mM ATP, 0.257mM GTP , 16mM creatine phosphate, 2.1mM DTT, 0.41mM spermidine, 0.3mML型アミノ酸(20種), 1μM E−64 , 0.005% NaN3 , 0.05% NP−40から成る。重層法による無細胞蛋白質合成は、まず96穴プレートに翻訳用緩衝液を125μlずつ加えて、この翻訳用緩衝液が入ったそれぞれの穴に底からゆっくりと翻訳溶液を重層し、このプレートを26℃インキュベーターで保温して16時間反応させることにより行った。
【0181】
(2)標的配列を固定化したセンサーチップを用いたSPR測定方法
BIAapplications handbook, chapter4.4の記載に従い、センサーチップ表面にビオチン化した以下の53種類の二重鎖DNAを別々に固定化した。センサーチップはSAタイプ(ビアコア社製)を用い、SPR測定および解析は、BIACORE3000(ビアコア社製)を用いた。
【0182】
公知の転写因子と、設計した標的転写調節領域のDNAまたはDNA断片の塩基配列(以下、これを「標的配列」と称することがある)、または、複数の転写因子が共通して認識する標的転写調節領域のDNAまたはDNA断片の塩基配列(以下、これを「コンセンサス標的配列」と称することがある)の関係は、次の通りである。
[1]v−jun, c−jun, junB, junD, dJRA, c−fos, fosB1, fosB2, Fra−1, LRF−1, v−maf, mafG, NF−E2 p45, aNF−E2, fNF−E2, Nrf short form, GCN4, yAP−1, CREB−2, ATF−3, CRE−BP1, CRE−BP3, ATF−a, CREB−341, CREB−327, CREM, dCREB2, dCREB2−b, dCREB2−c, dCREB2−d, dCREB2−q, dCREB2−r, dCREB2−sのコンセンサス標的配列:TGATGACGT(配列番号54)
[2]C/EBPalpha, C/EBPbeta, p34C/EBPbeta, CHOP−10のコンセンサス標的配列:AAGTGGCGAAAGAGACA(配列番号55)
[3]VBP, Hlf, CPRF−2, EmBP−1b, EmBP−1b, GBF1, GBF2, GBF3, CPRF−1, TAF−1, HBP−1a, GBF9, GBF1, GBF12, CPRF−3, TGA1a, TGA1b, O2, STE4のコンセンサス標的配列:AGAAGCACGTGG(配列番号56)
[4]OPI1, E2A, E47, ITF−2/SEF2−1B, SEF−1A, MyoD, p42Tal−1のコンセンサス標的配列:AACAGATGGT(配列番号57)
[5]HEN−1の標的配列:GGGGCGCAGCTGCGGCCC(配列番号58)
[6]AhR, Arnt のコンセンサス標的配列:GGGGATTGCGTG(配列番号59)
[7]USFの標的配列:GTCACGTGGT(配列番号60)
[8]NF−1A1, NF−1A1.1, NF−1A6, NF−1B1, NF−1B1, NF−1B2, NF−1C2/CTF−2, CTF−4, CTF−6のコンセンサス標的配列:CTGTGGGGTTTGGCACGGGGCCA(配列番号61)
[9]RF−X1の標的配列:GGTAACATAGCAAC(配列番号62)
[10]AP2alphaA/AP−2alpha1, AP2alpha2, AP2alpha3, AP2alpha4, AP2alphaB, AP2beta, AP2gammaのコンセンサス標的配列:CGCCCCCCGGCG(配列番号63)
[11]GRの標的配列:GGTACAAAATGTTCT(配列番号64)
[12]ARの標的配列:AACATTATGTTCT(配列番号65)
[13]ERの標的配列:AAGGGAAAATGACCCCC(配列番号66)
[14]RXR−alphaの標的配列:GGTCATAGGGGT(配列番号67)
[15]PPARalphaの標的配列:CTAGGGCAAAGGTCA(配列番号68)
[16]PPARgammaの標的配列:GGTCAAAGGTCA(配列番号69)
[17]COUP−TF1,HNF−4alpha1, HNF−4alpha2の標的配列:TGAACTTTGA(配列番号70)
[18]CF1の標的配列:GGGGTCACC(配列番号71)
[19]GATA−1, GATA−2, GATA−3, GATA−4のコンセンサス標的配列:CCAGATAAGG(配列番号72)
[20]AREA/NIT−2の標的配列:TATCTC(配列番号73)
[21]Sp1の標的配列:GGGGGGGGGG(配列番号74)
[22]YY1の標的配列:CGGCCATCTTGGCT(配列番号75)
[23]Egr−1, Egr−2, Egr−3のコンセンサス標的配列:TGCGTGGGCG(配列番号76)
[24]Snailの標的配列:CACCTGTTTTCA(配列番号77)
[25]CF2−IIの標的配列:GTATATATA(配列番号78)
[26]Evi−1の標的配列:AGATAAGATAA(配列番号79)
[27]Ikaros, MZF−1のコンセンサス標的配列:TTGGGAGG(配列番号80)
[28]Tramtrack69Kの標的配列:GGACCTGC(配列番号81)
[29]HOX9の標的配列:TGACAGTTTAACGA(配列番号82)
[30]CDPの標的配列:CCAATAATCGAT(配列番号83)
[31]HNF−1Aの標的配列:GGTTAATGATTAACCAC(配列番号84)
[32]Nkx−2.2, Nkx−2.5, TTF−1のコンセンサス標的配列:TTAAGTGGTT(配列番号85)
[33]Oct−1A, Oct−1B, Oct−1C のコンセンサス標的配列:ATGCAAAT(配列番号86)
[34]Oct−2, Oct−2.1/Oct−2Bのコンセンサス標的配列:TATTTGCAT(配列番号87)
[35]Pax−3, Pax−6のコンセンサス標的配列:CGTCACGCTTGA(配列番号88)
[36]Pax−1の標的配列:CCGTTCCGCTCTAGATAT(配列番号89)
[37]HSF1(short), HSF2, dHSF, fungalHSFのコンセンサス標的配列:AGAAAAGAAAAGAAA(配列番号90)
[38]c−Myb, A−Myb, v−Myb, P(long), P(short), C1(long), C1(short)のコンセンサス標的配列:AACGGGCCC(配列番号91)
[39]c−Ets−1#p54, Ets−1#deltaiV/VII, Ets−2, Elk−1, SAP−1, SAP−1b, Erg−1, p55erg, Fli−1b, E4TF1−60/GABP−alpha, E74Aのコンセンサス標的配列:GACAGGAAGTG(配列番号92)
[40]IRF−1, IRF−2の標的配列:GAAAAGCGAAACC(配列番号93)
[41]p50の標的配列:GGGGACTTTCC(配列番号94)
[42]NF−ATc, NF−Atpのコンセンサス標的配列:AGGAAAA(配列番号95)
[43]p91, p84のコンセンサス標的配列:GAATTCCGGGAAATGG(配列番号96)
[44]STAT2, STAT3, STAT4, STAT5A, STAT5B, STAT6のコンセンサス標的配列:TTTCCCGGGAAATG(配列番号97)
[45]p53の標的配列:GGACATGCCCGGGCATGTC(配列番号98)
[46]MEF−2Aの標的配列:CTCTAAAAATA(配列番号99)
[47]SRFの標的配列:CCATATATGGACAT(配列番号100)
[48]E2の標的配列:AACCAAAAACGGTAA(配列番号101)
[49]TBPの標的配列:TATAAAA(配列番号102)
[50]SRY, Sox−5, Sox−9の標的配列:AAAAAACAATAGGG(配列番号103)
[51]mat−Mcの標的配列:TCATTGTT(配列番号104)
[52]CP1A, CP1B, CBF−Cのコンセンサス標的配列:CTGATTGGCTACC(配列番号105)
[53]AML1aの標的配列:TGTGGT(配列番号106)
【0183】
まず、上記53種類の標的配列(配列番号54〜配列番号106)を有するDNAに関し、それぞれの5’側にビオチンが付加したDNAとその相補な塩基配列を有するDNAを定法により個別にアニーリングさせ、合計53種類の二本鎖化したDNAを調製した。一方、解析に用いるセンサーチップは、1枚に付きフローセルが4分割されている。フローセル1は何も固定化せずコントロール区として用い、フローセル2、3および4はそれぞれ上記で調製した二本鎖DNAを3種類ずつ固定化した。センサーチップのDNAの固定化密度を一定にするため、DNA固定化によるSPR応答値の上昇(ΔRU−DNA)をDNA分子量(MW)で割った値(D)が各フローセルで一定になるようにΔRU−DNAを調節した。同様の要領で、残りのDNAについても固定化を行った。
【0184】
以上のようにセンサーチップの作製ができた後、クローンのcDNAがコードする本発明のタンパク質との結合活性解析を行った。SPR法によるDNAとタンパク質間の結合活性解析は既に多数報告がある。本実施例では、Molecular Microbiology, 36(3), 557−569(2000)の測定条件を参考にして行った。まず、フローセル1−2−3−4が直列につながった流路に設定しておく。そこにランニングバッファーを一定流量(5μL/min)で流しておき、SPR測定値を安定させた後、各フローセルのベースライン値(SPR−baseline)を測定する。次に、蛋白質溶液を同流量で流し、蛋白質分子とDNA鎖との間で特異的結合を形成させる。一定時間注入後、各フローセルのSPR応答値(SPR−bound)を測定した。
【0185】
(4)SPR法により得られた測定結果の解析方法
SPR応答値からベースライン値を差し引き([SPR−bound]−[SPR−baseline])することにより、真の結合量(B)を求め、さらに、標準化した値(nB)を求めた。
測定結果より、dnaform33383,33733,34196,34837,37479,38861,39530,41143,42515,51218,59635,60441,63166の13クローンのcDNAによってコードされる本発明のタンパク質は、前記[1]〜[53]の計53種類の標的配列(配列番号54〜配列番号106)を有するDNAの少なくとも一つに対して結合活性を有していることがわかった。
【0186】
実施例10 ヒト組織発現解析
上記実施例8において、dnaform33383についてはヒトオルソログ(ZG1001)が取得された。そこで、本発明のヒトタンパク質をコードするmRNAの正常ヒトおよび疾患患者での組織発現変動を検討するために、定法(Higuchi R, et al., Biotechnology, 11: 1026−30 (1993))に従い、PCR法を用いた組織発現解析を行った。
【0187】
(1)cDNA合成
以下のヒトの9組織のmRNAはClontech社から購入し、オリゴdTをプライマーとした逆転写反応を行いcDNAを合成した。
正常脳、正常海馬、正常視床、正常腎臓、正常肝臓、正常膵臓、正常骨格筋、正常脂肪、正常脾臓
以下のヒトの8組織のcDNAはClontech社から購入した。
正常乳房、乳癌、正常結腸、結腸癌、正常肺、肺癌、正常胃、胃癌
以下のヒトの2組織のcDNAはBiochain社から購入した。
正常前頭葉、アルツハイマー病前頭葉
以下のヒトの1組織の全RNAはユニーテック社から購入し、mRNAを抽出後、cDNA合成を行った。
正常末梢血白血球
【0188】
(2)PCR法による定量
本発明のヒトタンパク質をコードしているmRNA(dnaform33383のヒトオルソログ ZG1001のmRNA)の発現は、ライトサイクラー定量PCR装置(ロシュ・ダイアグノスティクス社製)とLightCycler−FastStart DNAマスターSYBR Green I試薬を用いて、製品に添付されているプロトコールに従い定量した。定量PCRに用いた合成DNA配列を以下に示す。
5’側プライマー:GCTCCGTCCACTGATAAACC(配列番号107)
3’側プライマー:GCGGATAAATTCGATGCCTA(配列番号108)
定量結果は、Glyceraldehyde 3−phosphate dehydrogenase(GAPDH)を内部標準として、補正した。即ち、各組織での対象遺伝子の発現量(コピー数/μl)をGAPDHの発現量(コピー数/μl)で除し、定数(1×10)(注:10の5乗)を乗して表示した。その結果を表4に示す。
【0189】
【表4】
Figure 2004229642
【0190】
表4から明らかな通り、ZG1001のmRNAは膵臓、脾臓、および脳で発現し、乳癌で発現が増加した。
この結果より、上記cDNAおよび該cDNAによってコードされるタンパク質は、癌やアルツハイマー病などの治療や診断に応用できる。また該cDNAによってコードされるタンパク質は、上記のようなmRNA発現の変動が見られる組織あるいはmRNA発現量の多い組織に関わる疾患に関与している可能性がある。
【0191】
実施例11 各完全長cDNAがコードするタンパク質の総合解析
(1)dnaform34837(配列番号1、14)
dnaform34837のcDNAにコードされるタンパク質は、前記実施例9に記載のSPR測定装置(BIACORE社製)を用いた53種の標的配列を有するDNAに対する結合実験の結果、該標的配列の少なくとも1つに結合し、該蛋白質が結合した標的配列に選択性を持ったDNA結合蛋白質であることが示された。また、発現解析からは、膵臓および副精巣由来脂肪細胞で強く発現することが分かった。さらに、タンパク質−タンパク質相互作用解析では、該cDNAにコードされるタンパク質が核内ステロイド受容体の一つであるPXR2と相互作用することが確認された。
前記実施例4に記載の解析およびこれらの実験結果から、この蛋白質は核に存在し、多量体あるいは他の蛋白質との相互作用をする可能性のあるDNA結合蛋白質であると考えられる。したがって、該cDNAおよび該cDNAによってコードされる蛋白質は、上記のようなmRNA発現の変動が見られる組織あるいはmRNA発現量の多い組織に関わる疾患に関与している可能性があり、たとえば糖尿病や癌などの治療や診断に応用できる。
【0192】
(2)dnaform63166(配列番号2、15)
dnaform63166のcDNAにコードされるタンパク質は、前記実施例9に記載のSPR測定装置(BIACORE社製)を用いた53種の標的配列を有するDNAに対する結合実験の結果、該標的配列の少なくとも1つに結合し、該蛋白質が結合した標的配列に選択性を持ったDNA結合蛋白質であることが示された。また、発現解析からは、延髄および乳腺で強く発現することが分かった。
前記実施例4に記載の解析およびこれらの実験結果から、この蛋白質は核に存在し、多量体あるいは他の蛋白質との相互作用をする可能性のあるDNA結合蛋白質であると考えられる。したがって、該cDNAおよび該cDNAによってコードされる蛋白質は、上記のようなmRNA発現の変動が見られる組織あるいはmRNA発現量の多い組織に関わる疾患に関与している可能性があり、たとえば糖尿病や癌などの治療や診断に応用できる
【0193】
(3)dnaform33383(配列番号3、16)
dnaform33383のcDNAにコードされるタンパク質は、前記実施例9に記載のSPR測定装置(BIACORE社製)を用いた53種の標的配列を有するDNAに対する結合実験の結果、該標的配列の少なくとも1つに結合し、該蛋白質が結合した標的配列に選択性を持ったDNA結合蛋白質であることが示された。前記実施例4に記載したPFAM検索の結果によると、本タンパク質はC末端に6個のC2H2 type Zinc Finger構造をもち、N末端側に蛋白相互作用にかかわるSCAN domain, KRAB domainをもつ蛋白質である。また、PreLocによる蛋白質細胞内局在予測によると、核局在が強く示唆される。
前記実施例4に記載の解析およびこれらの実験結果から、この蛋白質は核での存在が予想される多量体あるいは他の蛋白質との相互作用をする可能性のあるDNA結合蛋白質であると考えられる。従って、該cDNAおよび該cDNAによってコードされる蛋白質は、mRNA発現の変動が見られる組織あるいはmRNA発現量の多い組織に関わる疾患に関与している可能性があり、たとえば糖尿病や癌などの治療や診断に応用できる
【0194】
(4)dnaform39530(配列番号4、17)
dnaform39530のcDNAにコードされるタンパク質は、前記実施例9に記載のSPR測定装置(BIACORE社製)を用いた53種の標的配列を有するDNAに対する結合実験の結果、該標的配列の少なくとも1つに結合し、該蛋白質が結合した標的配列に選択性を持ったDNA結合蛋白質であることを示された。
前記実施例4に記載の解析およびこれらの実験結果から、この蛋白質は核での存在が予想され、多量体あるいは他の蛋白質との相互作用をする可能性のあるDNA結合蛋白質であると考えられる。したがって、該cDNAおよび該cDNAによってコードされる蛋白質は、mRNA発現の変動が見られる組織あるいはmRNA発現量の多い組織に関わる疾患に関与している可能性があり、たとえば糖尿病や癌などの治療や診断に応用できる。
【0195】
(5)dnaform38861(配列番号5、18)
dnaform38861のcDNAにコードされるタンパク質は、前記実施例9に記載のSPR測定装置(BIACORE社製)を用いた53種の標的配列を有するDNAに対する結合実験の結果、該標的配列の少なくとも1つに結合し、該蛋白質が結合した標的配列に選択性を持ったDNA結合蛋白質であることが示された。また、発現解析からは、全身で強く発現し、特に膵臓、肺で強力に発現することが分かった。
前記実施例4に記載の解析およびこれらの実験結果から、この蛋白質は核での存在が予想され、多量体あるいは他の蛋白質との相互作用をする可能性のあるDNA結合蛋白質であると考えられる。したがって、該cDNAおよび該cDNAによってコードされる蛋白質は、上記のようなmRNA発現の変動が見られる組織あるいはmRNA発現量の多い組織に関わる疾患に関与している可能性があり、たとえば糖尿病や癌などの治療や診断に応用できる。
【0196】
(6)dnaform60441(配列番号6、19)
dnaform60441のcDNAにコードされるタンパク質は、前記実施例9に記載のSPR測定装置(BIACORE社製)を用いた53種の標的配列を有するDNAに対する結合実験の結果、該標的配列の少なくとも1つに結合し、該蛋白質が結合した標的配列に選択性を持ったDNA結合蛋白質であることが示された。また、発現解析からは、全身で強く発現し、特に膵臓、肺で強力に発現することが分かった。
前記実施例4に記載の解析およびこれらの実験結果から、この蛋白質は核での存在が予想され、多量体あるいは他の蛋白質との相互作用をする可能性のあるDNA結合蛋白質であると考えられる。したがって、該cDNAおよび該cDNAによってコードされる蛋白質は、上記のようなmRNA発現の変動が見られる組織あるいはmRNA発現量の多い組織に関わる疾患に関与している可能性があり、たとえば糖尿病や癌などの治療や診断に応用できる。
【0197】
(7)dnaform42515(配列番号7、20)
dnaform42515のcDNAにコードされるタンパク質は、前記実施例9に記載のSPR測定装置(BIACORE社製)を用いた53種の標的配列を有するDNAに対する結合実験の結果、該標的配列の少なくとも1つに結合し、該蛋白質が結合した標的配列に選択性を持ったDNA結合蛋白質であることが示された。また、発現解析からは、脳に特異的に発現し、特に前頭様皮質で強力に発現することが分かった。
前記実施例4に記載の解析およびこれらの実験結果から、この蛋白質は核での存在が予想され、多量体あるいは他の蛋白質との相互作用をする可能性のあるDNA結合蛋白質であると考えられる。したがって、該cDNAおよび該cDNAによってコードされる蛋白質は、上記のようなmRNA発現の変動が見られる組織あるいはmRNA発現量の多い組織に関わる疾患に関与している可能性があり、たとえば糖尿病や癌や神経疾患などの治療や診断に応用できる。
【0198】
(8)dnaform41143(配列番号8、21)
dnaform41143のcDNAにコードされるタンパク質は、前記実施例9に記載のSPR測定装置(BIACORE社製)を用いた53種の標的配列を有するDNAに対する結合実験の結果、該標的配列の少なくとも1つに結合し、該蛋白質が結合した標的配列に選択性を持ったDNA結合蛋白質であることが示された。また、発現解析からは、全身で発現するが、膵臓、肺、脂肪で比較的強く発現した。
前記実施例4に記載の解析およびこれらの実験結果から、この蛋白質は核での存在が予想され、多量体あるいは他の蛋白質との相互作用をする可能性のあるDNA結合蛋白質であると考えられる。したがって、該cDNAおよび該cDNAによってコードされる蛋白質は、上記のようなmRNA発現の変動が見られる組織あるいはmRNA発現量の多い組織に関わる疾患に関与している可能性があり、たとえば糖尿病や癌などの治療や診断に応用できる。
【0199】
(9)dnaform34196(配列番号9、22)
dnaform34196のcDNAにコードされるタンパク質は、前記実施例9に記載のSPR測定装置(BIACORE社製)を用いた53種の標的配列を有するDNAに対する結合実験の結果、該標的配列の少なくとも1つに結合し、該蛋白質が結合した標的配列に選択性を持ったDNA結合蛋白質であることが示された。
前記実施例4に記載の解析およびこれらの実験結果から、この蛋白質は核での存在が予想され、多量体あるいは他の蛋白質との相互作用をする可能性のあるDNA結合蛋白質であると考えられる。したがって、該cDNAおよび該cDNAによってコードされる蛋白質は、mRNA発現の変動が見られる組織あるいはmRNA発現量の多い組織に関わる疾患に関与している可能性があり、たとえば糖尿病や癌などの治療や診断に応用できる。
【0200】
(10)dnaform37479(配列番号10、23)
dnaform37479のcDNAにコードされるタンパク質は、前記実施例9に記載のSPR測定装置(BIACORE社製)を用いた53種の標的配列を有するDNAに対する結合実験の結果、該標的配列の少なくとも1つに結合し、該蛋白質が結合した標的配列に選択性を持ったDNA結合蛋白質であることが示された。
前記実施例4に記載の解析およびこれらの実験結果から、この蛋白質は核での存在が予想され、多量体あるいは他の蛋白質との相互作用をする可能性のあるDNA結合蛋白質であると考えられる。したがって、該cDNAおよび該cDNAによってコードされる蛋白質は、mRNA発現の変動が見られる組織あるいはmRNA発現量の多い組織に関わる疾患に関与している可能性があり、たとえば糖尿病や癌などの治療や診断に応用できる
【0201】
(11)dnaform59635(配列番号11、24)
dnaform59635のcDNAにコードされるタンパク質は、前記実施例9に記載のSPR測定装置(BIACORE社製)を用いた53種の標的配列を有するDNAに対する結合実験の結果、該標的配列の少なくとも1つに結合し、該蛋白質が結合した標的配列に選択性を持ったDNA結合蛋白質であることが示された。
前記実施例4に記載の解析およびこれらの実験結果から、この蛋白質は核での存在が予想され、多量体あるいは他の蛋白質との相互作用をする可能性のあるDNA結合蛋白質であると考えられる。したがって、該cDNAおよび該cDNAによってコードされる蛋白質は、mRNA発現の変動が見られる組織あるいはmRNA発現量の多い組織に関わる疾患に関与している可能性があり、たとえば糖尿病や癌などの治療や診断に応用できる。
【0202】
(12)dnaform33773(配列番号12、25)
dnaform33773のcDNAにコードされるタンパク質は、前記実施例9に記載のSPR測定装置(BIACORE社製)を用いた53種の標的配列を有するDNAに対する結合実験の結果、該標的配列の少なくとも1つに結合し、該蛋白質が結合した標的配列に選択性を持ったDNA結合蛋白質であることが示された。また、発現解析からは、全身で強く発現するが、特に肺、膵臓、脂肪、脳で強力に発現することが分かった。さらに、タンパク質−タンパク質相互作用解析では、該cDNAにコードされるタンパク質が糖尿病の原因となりうるSRP40と相互作用することも確認された。
前記実施例4に記載の解析およびこれらの実験結果から、この蛋白質は核での存在が予想され、多量体あるいは他の蛋白質との相互作用をする可能性のあるDNA結合蛋白質であると考えられる。したがって、該cDNAおよび該cDNAによってコードされる蛋白質は、上記のようなmRNA発現の変動が見られる組織あるいはmRNA発現量の多い組織に関わる疾患に関与している可能性があり、たとえば糖尿病や癌および神経疾患などの治療や診断に応用できる。
【0203】
(13)dnaform51218(配列番号13、26)
dnaform51218のcDNAにコードされるタンパク質は、前記実施例9に記載のSPR測定装置(BIACORE社製)を用いた53種の標的配列を有するDNAに対する結合実験の結果、該標的配列の少なくとも1つに結合し、該蛋白質が結合した標的配列に選択性を持ったDNA結合蛋白質であることが示された。また、発現解析からは、全身で強く発現するが、特に肺、膵臓、脂肪、脳で強力に発現することが分かった。
前記実施例4に記載の解析およびこれらの実験結果から、この蛋白質は核での存在が予想され、多量体あるいは他の蛋白質との相互作用をする可能性のあるDNA結合蛋白質であると考えられる。したがって、該cDNAおよび該cDNAによってコードされる蛋白質は、上記のようなmRNA発現の変動が見られる組織あるいはmRNA発現量の多い組織に関わる疾患に関与している可能性があり、たとえば糖尿病や癌および神経疾患などの治療や診断に応用できる。
【0204】
【発明の効果】
本発明のタンパク質およびそれをコードするDNAはDNA結合活性等を有することから、該タンパク質あるいはそれをコードするDNAを用いて該活性を調節する物質をスクリーニングすることができ、該タンパク質が関連する疾患等に作用し得る医薬の開発に有用である。
本出願は、2002年4月19日付けの日本特許出願(特願2002−117840)、2002年4月30日付けの日本特許出願(特願2002−128418)、および2002年12月4日付けの日本特許出願(特願2002−352469)に基づくものであり、その内容はここに参照として取り込まれる。また、本明細書にて引用した文献の内容もここに参照として取り込まれる。
【0205】
【配列表】
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a novel protein, a DNA encoding the protein, a full-length cDNA encoding the protein, a recombinant vector having the DNA, an oligonucleotide comprising a partial sequence of the DNA, and a transgenic cell into which the DNA has been introduced. And antibodies that specifically bind to the protein.
[0002]
[Prior art]
Obtaining cDNA and analyzing its base sequence are indispensable for analyzing the physiological activity of a protein expressed in a living body and developing a method for utilizing the protein based on the activity. Furthermore, creating a library in which full-length cDNAs corresponding to all gene types are cataloged is one of the important issues of the human genome project. The cataloged library means that there is no duplication in the cDNAs contained in the library, and refers to a library containing one type of each cDNA.
[0003]
The full-length cDNA cloning method is described in JP-A-9-248187 and JP-A-10-127291. This method comprises the steps of binding a molecule serving as a tag to a diol structure present at the 5 'cap site of mRNA, using the mRNA bound with the tag molecule as a template, oligo dT as a primer, and reverse transcription to an RNA-DNA complex. And separating the complex having a DNA corresponding to the full length of the mRNA using the function of the tag molecule.
[0004]
As an efficient reverse transcription method, a method for performing the transcription at a high temperature such that the template does not form a higher-order structure has been developed (Japanese Patent Laid-Open No. Hei 10-84661). Furthermore, a cloning vector has been developed which can uniformly clone a DNA fragment contained in a synthesized full-length cDNA library regardless of its chain length (Japanese Patent Application Laid-Open No. H11-9273).
[0005]
A full-length cDNA library produced by such a technique does not necessarily include all the elements that are different evenly as individual elements of the library, and is present only in clones with a high abundance ratio or, conversely, in very small amounts. There are clones. Since a clone existing only in such a trace amount is highly likely to be novel, a subtraction method and a normalization method for enriching such a clone have also been developed (Japanese Patent Application Laid-Open No. 2000-325080; Carnini, P. et al. et al., Genomics, 37, 327-336 (1996)).
[0006]
The nucleotide sequence of each clone of the cataloged full-length cDNA library thus obtained can be identified by a known method, but the physiological activity of the protein encoded by the cDNA is still unknown. Remains.
[0007]
[Problems to be solved by the invention]
The present invention analyzes the nucleotide sequence of a cDNA clone contained in a cataloged full-length cDNA library, and among those having a novel sequence, identifies the biological activity of the protein encoded by the cDNA sequence and determines the biological activity. It is an object of the present invention to propose a method of using a protein based thereon and DNA encoding the same.
[0008]
[Means for Solving the Problems]
The present inventors analyzed the nucleotide sequence of a cDNA clone in a mouse full-length cDNA library, and searched a database based on the homology of the sequence. The sequence was found and the proteins encoded by these cDNAs were identified as having DNA binding activity. Furthermore, the expression levels of these cDNAs in each tissue and the proteins encoded by the cDNAs were actually obtained and analyzed for their interaction. In addition, the DNA binding activity or transcription control activity of the proteins encoded by these cDNAs was analyzed. Furthermore, human homolog DNA was obtained based on the nucleotide sequence of the cDNA, and the expression level of the obtained human homolog DNA in each tissue was analyzed. The present invention has been achieved based on these findings.
[0009]
That is, according to the present invention, the following inventions (1) to (15) are provided.
(1) The following protein of (a) or (b):
(A) a protein consisting of the amino acid sequence of any one of SEQ ID NOs: 14 to 26 or 36;
(B) a protein comprising an amino acid sequence in which one or several amino acids have been deleted, substituted, and / or added to the amino acid sequence of any of SEQ ID NOs: 14 to 26 or 36, and which has DNA binding activity.
[0010]
(2) DNA encoding the protein of (1).
(3) A full-length cDNA encoding the protein according to (1).
(4) Any one of the following DNAs (a), (b) or (c):
(A) DNA having the nucleotide sequence of any one of SEQ ID NOs: 1 to 13 or 35.
(B) a protein having a base sequence in which one or several bases are deleted, substituted and / or added in the base sequence set forth in any one of SEQ ID NOs: 1 to 13 or 35, and having a DNA binding activity DNA encoding.
(C) having a base sequence capable of hybridizing under stringent conditions to a DNA having the base sequence of any one of SEQ ID NOs: 1 to 13 or 35 or a sequence complementary thereto, and having a DNA binding activity DNA encoding a protein.
[0011]
(5) A recombinant vector containing the DNA according to any one of (2) to (4).
(6) A gene-introduced cell into which the DNA according to any of (2) to (4) or the recombinant vector according to (5) is introduced, or an individual comprising the cell.
(7) The protein according to (1), which is produced by the cell according to (6).
[0012]
(8) A sense oligonucleotide having the same sequence as 5 to 100 consecutive nucleotides in the base sequence of the DNA according to any of (2) to (4), and an antisense having a sequence complementary to the sense oligonucleotide. An oligonucleotide selected from the group consisting of a sense oligonucleotide and an oligonucleotide derivative of the sense or antisense oligonucleotide.
[0013]
(9) An antibody or a partial fragment thereof that specifically binds to the protein of (1) or (7).
(10) The antibody according to the above (9), wherein the antibody is a monoclonal antibody.
(11) The antibody according to (10), wherein the monoclonal antibody has an action of neutralizing the DNA binding activity of the protein according to (1) or (7).
[0014]
(12) An activity-regulating substance for a protein according to (1) or (7), wherein the substance is brought into contact with a test substance and a change in the activity of the protein caused by the test substance is measured. Screening method.
(13) A method for regulating the expression of a DNA, wherein the test substance is brought into contact with the gene-introduced cell according to (6) and a change in the expression level of the DNA introduced into the cell is detected. Screening method.
(14) at least one amino acid sequence information selected from the amino acid sequence of the protein described in the above (1) and / or selected from the DNA base sequence described in any of the above (2) to (4) A computer-readable recording medium storing at least one or more base sequence information.
(15) A carrier to which the protein according to (1) and / or the DNA according to any of (2) to (4) are bound.
[0015]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, the present invention will be described in more detail.
(1) Acquisition of full-length cDNA and analysis of nucleotide sequence
The DNA of the present invention is a protein consisting of the amino acid sequence of SEQ ID NOS: 14 to 26 or 36, or one or several amino acids in the amino acid sequence (the number is not particularly limited; Or less, preferably 15 or less, more preferably 10 or less, and still more preferably 5 or less) amino acid residue substitution, deletion, insertion, addition, or inversion, and Any substance can be used as long as it can encode a protein having DNA binding activity. Specifically, it may be only the translation region encoding the amino acid sequence or may include the full length of the cDNA.
[0016]
Specifically, examples of the DNA containing the full-length cDNA include a DNA having the nucleotide sequence of SEQ ID NOS: 1 to 13 or 35, and the like. In addition, as the translation regions, base numbers 134 to 1690 of SEQ ID NO: 1, base numbers 1751 to 2197 of SEQ ID NO: 2, base numbers 662 to 3259 of SEQ ID NO: 3, base numbers 661 to 1476 of SEQ ID NO: 4, SEQ ID NO: 4 Nucleotide Nos. 213 to 1703 of No. 5, Nucleotide Nos. 122 to 1612 of SEQ ID No. 6, 156 to 560 of SEQ ID No. 7, 149 to 1591 of SEQ ID No. 8, 597 to 1982 of SEQ ID No. 9, SEQ ID NO. SEQ ID NOs: 230 to 907, 566 to 1228 of SEQ ID NO: 11, 487 to 2127 of SEQ ID NO: 12, 167 to 2950 of SEQ ID NO: 13, and 1 to 2904 of SEQ ID NO: 35 And those having a sequence. Further, the DNA of the present invention includes not only the full length of the above-mentioned cDNA but also those containing the above-mentioned translation region and a portion adjacent to the 3 'and / or 5' end thereof, which is the minimum necessary for the expression of the translation region. .
[0017]
The DNA of the present invention may be obtained by any method as long as it can be obtained, but specifically, for example, can be obtained by the method described below. First, mRNA is prepared from a suitable animal, preferably a mammalian tissue or the like by a method known per se and generally used. Next, cDNA is synthesized using this mRNA as a template. At this time, a 5 ′ cap (7MeGpppN) A molecule serving as a tag is chemically bonded to a diol structure specific to a site, and reverse transcription is performed using this mRNA as a template and oligo dT as a primer. Then, only the full-length cDNA is separated using the function of the tag molecule. It is preferable to use the method (JP-A-9-248187; JP-A-10-127291). In addition, in the case of reverse transcription, in order to prevent the template from forming a higher-order structure and lowering the efficiency of reverse transcription, in the presence of trehalose or the like, use a thermostable reverse transcriptase at a high temperature. It is preferable to use a method of performing reverse transfer (Japanese Patent Laid-Open No. 10-84661). Here, high temperature means 40-80 degreeC.
[0018]
The thus obtained cDNA is cloned by inserting it into an appropriate cloning vector. The vector used herein has a recombination recognition sequence at both ends of a cloning site capable of uniformly cloning DNAs of various chain lengths, and is a linear vector inserted into a host by a method other than infection. (JP-A-11-9273) is preferably used. In the cDNA library thus obtained, not all clones exist uniformly (hereinafter, this may be referred to as "cataloged"), but only a very small amount exists in this library. A clone that does not have a high probability of being new. Therefore, it is preferable to use a subtraction method or a normalization method for enriching such clones (Japanese Patent Laid-Open No. 2000-325080; Carinci, P. et al., Genomics, 37, 327-336 (1996)).
[0019]
The nucleotide sequence of the cataloged cDNA library is analyzed by a commonly used method known per se. In the case of the full-length cDNA, the DNA of the present invention is obtained by converting the base sequence obtained from the sequence based on the terminal 100 into BLAST (http://www.ncbi.nlm.nl) using NCBI databases such as GenBank, EMBL, DDBJ, and PDB. nih.gov/BLAST/; National Center of Biotechnology Information), the sequence showing the highest homology has a homology of 30% or less and the highest homology with respect to the full length of the translation region of the DNA. Even the sequences shown whose homology is 40% or less are newly subjected to the following analysis.
[0020]
Examples of the DNA having the nucleotide sequence of such a full-length cDNA include those having the nucleotide sequence of SEQ ID NOS: 1 to 13 or 35. In addition, as the translation regions, base numbers 134 to 1690 of SEQ ID NO: 1, base numbers 1751 to 2197 of SEQ ID NO: 2, base numbers 662 to 3259 of SEQ ID NO: 3, base numbers 661 to 1476 of SEQ ID NO: 4, SEQ ID NO: 4 Nucleotide Nos. 213 to 1703 of No. 5, Nucleotide Nos. 122 to 1612 of SEQ ID No. 6, 156 to 560 of SEQ ID No. 7, 149 to 1591 of SEQ ID No. 8, 597 to 1982 of SEQ ID No. 9, SEQ ID NO. SEQ ID NOs: 230 to 907, 566 to 1228 of SEQ ID NO: 11, 487 to 2127 of SEQ ID NO: 12, 167 to 2950 of SEQ ID NO: 13, and 1 to 2904 of SEQ ID NO: 35 And those having the sequence shown in the sequence.
[0021]
The thus obtained novel nucleotide sequence was subjected to homology search by BLAST (Basic local alignment search tool; Altschul, SF, et al., J. Mol. Biol., 215, 403-410 (1990)). protein feature search by HPMMPFAM, which is one of the functional groups of homology search and HMMER (sequence analysis method using hidden Markov model; Eddy, SR, Bioinformatics 14, 755-763 (1998)). //Pfam.wustl.edu) or the like, the function of the protein encoded by the nucleotide sequence can be estimated.
[0022]
In the homology search by BLAST, the function of the clone to be analyzed can be estimated from various kinds of annotation information associated with hit sequences having sufficiently significant homology obtained as a result of the search. Here, a sufficiently significant hit sequence means that the identity between the catalytic domain portion of the registered sequence and the corresponding portion of the DNA of the present invention is 10 as an e-value.-4Show the following or 30% or more.
[0023]
For example, if many of the catalytic domain sequences hit in the top rank have been confirmed to function as DNA binding proteins, clones to be analyzed that are similar in sequence to those also have the same function, that is, DNA binding activity. The expectation holds.
[0024]
In HMMPFAM, analysis is performed by a method of checking whether or not a base sequence to be analyzed has a feature of a base sequence of an entry in a database in which a protein profile called Pfam is accumulated. Profiles are extracted from a series of proteins with the same characteristics, and even if a function cannot be clarified by comparing the full length of one sequence to one sequence, if there is a characteristic region in the sequence, it can be found and its function can be predicted. . A specific example of the function prediction of the protein thus performed will be described below.
[0025]
The amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 1 was obtained by BLAST search using RIKEN full-length enriched library, clone: 9530049C15, SCAN domain containing protein, and e-value: 5 × 10-171, 100% homology, and Zinc finger protein 192 (LD5-1) is a Kruppel gene family with SCAN box domain, but e-value: 2 × 10−94, 42% homology with Homo sapiens zinc finger protein (ZFP) and e-value: 4 × 10−93, With 41% homology. From these results, it can be inferred that the protein encoded by the nucleotide sequence of SEQ ID NO: 1 is Zinc finger protein.
In the amino acid sequence encoded by the nucleotide sequence shown in SEQ ID NO: 1, a protein characteristic search by HMMPFAM finds seven times a sequence (a nucleotide sequence entered as LIM in Pfam) exhibiting ZF-C2H2 characteristics.
From these facts, it can be inferred that the protein encoded by the nucleotide sequence shown in SEQ ID NO: 1 is a zinc finger type transcription factor.
[0026]
The amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 2 was obtained by BLAST search from RIKEN cDNA 2810411K16 and e-value: 2 × 10-76100% homology over 139 amino acids, RIKEN full-length enriched library, clone: 2810411K16: SCAN domain containing protein, and e-value: 6 × 10-76And 99% homology over 139 amino acids with Homo sapiens cDNA FLJ14478 fis, clone MAMMA1001633, e-value: 1 × 10−61, With 86% homology over 140 amino acids.
In addition, the SCAN sequence was found at base numbers 1880 to 2167 by protein characteristic search using HMMPFAM. From these facts, it can be inferred that the protein encoded by the base sequence shown in SEQ ID NO: 2 is a DNA-binding protein.
[0027]
The amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 3 was determined by BLAST search as Homo sapiens, clone MGC: 13310 IMAGE: 4110431 and e-value: 5 × 10-145, 40% homology over 919 amino acids, and Zinc finger protein 180 (HHZ168), e-value: 2 × 10−63, 51% homology over 231 amino acids, further with Rattus norvegicus Cys2 / His2 zinc finger protein (rKr1) and e-value: 6 × 10−63, With 56% homology over 192 amino acids.
In addition, a protein characteristic search by HMMPFAM found six places of zf-C2H2 at base numbers 786 to 3275, and from these characteristics, it can be inferred that the protein encoded by the base sequence described in SEQ ID NO: 3 is a DNA-binding protein. .
[0028]
The amino acid sequence encoded by the nucleotide sequence set forth in SEQ ID NO: 4 was obtained by BLAST search using Macaca fascicularis brain cDNA, clone: QccE-18103. And e-value: 2 × 10-95, With 79% homology over 220 amino acids, and with Homo sapiens putative transcription factor CR53, e-value: 1 × 10−32, 56% homology, and further homologous to Homo sapiens, Simulator to zinc finger protein 202, clone MGC: 15660 IMAGE: 3347511 and e-value: 1 × 10−32, With 56% homology over 134 amino acids.
In addition, when a protein characteristic search is performed on the amino acid sequence encoded by the nucleotide sequence shown in SEQ ID NO: 4 by using HMMPFAM, a SCAN sequence (a nucleotide sequence that is entered as SCAN in Pfam) is found.
From these facts, it can be inferred that the protein encoded by the nucleotide sequence shown in SEQ ID NO: 4 is a transcription factor.
[0029]
The amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 5 was obtained by BLAST search using Mus musculus, zinc finger proliferation 1, and e-value: 6 × 10−97, 41% homology over 491 amino acids with mouse Zinc finger protein 38 (Zfp-38) (CtFIN51) (Transscription factor RU49) and e-value: 2 × 10-96, 41% homology over 491 amino acids, as well as Hypothetical zinc finger protein KIAA0426, e-value: 2 × 10-95With 44% homology over 532 amino acids.
Further, zf-C2H2 was found eight times at base numbers 929 to 1585 by protein characteristic search using HMMPFAM, and from these characteristics, it is presumed that the protein encoded by the base sequence of SEQ ID NO: 5 is a DNA-binding protein. it can.
[0030]
The amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 6 was determined by BLAST search to be Mus musculus, zinc finger proferation 1, clone MGC: 18498 IMAGE: 3981599, and e-value: 6 × 10−97, 41% homology over 491 amino acids, and e-value: 2 × 10 with mouse Zinc finger protein 38 (Zfp-38) (CtFIN51) (Transscription factor RU49).-96, 41% homology over 491 amino acids, as well as Hypothetical zinc finger protein KIAA0426, e-value: 2 × 10-95With 44% homology over 532 amino acids.
Further, zf-C2H2 was found eight times at base numbers 929 to 1585 by protein characteristic search using HMMPFAM. From these characteristics, it can be inferred that the protein encoded by the base sequence of SEQ ID NO: 6 is a DNA-binding protein. .
[0031]
The amino acid sequence encoded by the nucleotide sequence set forth in SEQ ID NO: 7 was analyzed by BLAST search with a STATc transcriptional repressor and an e-value: 4 × 10-28With 53% homology over 127 amino acids, and a forkhead-related transcription factor 2 and e-value: 4 × 10-23With a homology of 58% over 109 amino acids, and with Transcription regulatory protein SNF5, e-value: 2 × 10−24And has 61% homology over 118 amino acids.
STATc transcriptional repressor is based on the literature information (Mol. Cell, 7 (4), 779-88 (2001)) in the database and relates to the control of the initial development rate and the timing of terminal differentiation, and the ecmA gene. Can function as a repressor that regulates the expression of, and forkhead-related transcription description 2 can be expressed in the lung and placenta from literature information (J. Biol. Chem. 1998, 273 (36): 23335-43) in a database. Binding of the cis factor of some lung-specific genes with the expressed transcription factor, and in addition Transcription regulatory protein SNF5, is a statement in the database. Information (Mol Cell Biol, 1990, 10 (11):... 5616-25) seen each be involved in transcriptional regulation of genes regulated by glucose and phosphate from.
These characteristics suggest that the protein encoded by the nucleotide sequence of SEQ ID NO: 7 is a transcription factor.
[0032]
The amino acid sequence encoded by the nucleotide sequence set forth in SEQ ID NO: 8 was analyzed by BLAST search to find the zinc finger protein 151 (pHZ-67) and e-value: 1 × 10-25At 48% homology over 121 amino acids, and with Myc-interacting zinc finger protein, e-value: 2 × 10-25With 48% homology over 121 amino acids. From these results, it can be inferred that the protein consisting of the amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 8 is a Zinc finger-type DNA binding protein.
The Myc-interacting zinc finger protein is known to be Myc-interacting zinc finger protein from literature information (Curr Top Microbiol Immunol 1997; 224: 137-46) in the database.
In addition, a protein characteristic search using HMMPFAM finds a sequence (an amino acid sequence that is entered as BTB in Pfam) showing characteristics relating to protein dimerization in the amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 8. In addition, one Zinc finger domain (an amino acid sequence entered as zf-C2H2 in Pfam) is also found.
From these characteristics, it can be inferred that the protein encoded by the nucleotide sequence shown in SEQ ID NO: 8 is a Zinc finger type DNA binding protein.
[0033]
The amino acid sequence encoded by the nucleotide sequence set forth in SEQ ID NO: 9 was obtained by BLAST search using Hypothetical zinc finger protein KIAA1473 and e-value: 1 × 10−59With a homology of 37% over 295 amino acids, and Zinc finger protein 135 and e-value: 2 × 10-58With 39% homology over 277 amino acids. From these results, it can be inferred that the protein consisting of the amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 9 is a Zinc finger type DNA binding protein.
The above-mentioned Zinc finger protein 135 protein is known to be a zinc finger Kruppel family from literature information (Genomics 1995 May 20; 27 (2): 259-64) in a database, and it is known that the protein is a developmental disorder. We understand that we are involved.
In addition, a protein feature search using HMMPFAM reveals that Zinc finger domain (an amino acid sequence entered as zf-C2H2 in Pfam) is found at nine positions in the amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 9.
From these characteristics, it can be inferred that the protein encoded by the nucleotide sequence shown in SEQ ID NO: 9 is a Zinc finger type DNA binding protein.
[0034]
As a result of a BLAST search, the amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 10 was found to be PR-domain zinc finger protein 5 and e-value: 3 × 10-13And a homology of 50% over 62 amino acids, and an e-value: 2 × 10 5 with the zinc finger protein with interaction domain.-12And has 43% homology over 81 amino acids. From these results, it can be inferred that the protein consisting of the amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 10 is a Zinc finger-type DNA binding protein.
Further, the above-mentioned zinc finger protein with interaction domain protein is known to be a zinc finger protein with interaction from literature information (Genes Dev 1994 Jul 15: 8 (14): 1664-77) in the database.
In addition, a protein feature search using HMMPFAM finds two Zinc finger domain (an amino acid sequence that is entered as Pfam as zf-C2H2) in the amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 10.
From these characteristics, it can be inferred that the protein encoded by the nucleotide sequence shown in SEQ ID NO: 10 is a Zinc finger type DNA binding protein.
[0035]
The amino acid sequence encoded by the nucleotide sequence set forth in SEQ ID NO: 11 was obtained by BLAST search using PR-domain zinc finger protein 5 and e-value: 4 × 10-13And 50% homology over 62 amino acids, and e-value: 3 × 10 5 with zinc finger protein with interaction domain.-11And has 41% homology over 81 amino acids. From these results, it can be inferred that the protein consisting of the amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 11 is a Zinc finger type DNA binding protein.
Further, when a protein characteristic search was performed by HMMPFAM, Zinc finger domain (an amino acid sequence entered as zf-C2H2 in Pfam) was found in the amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 11.
From these characteristics, it can be inferred that the protein encoded by the nucleotide sequence shown in SEQ ID NO: 11 is a Zinc finger type DNA binding protein.
[0036]
The amino acid sequence encoded by the nucleotide sequence set forth in SEQ ID NO: 12 was obtained by BLAST search using Mus musculus zinc finger transcription factor Kaiso and e-value: 2 × 10−27With a homology of 58% over 94 amino acids, and a Xenopus laevis BTB / POZ zinc finger transscription factor XKaiso with e-value: 2 × 10−29And has 48% homology over 136 amino acids.
In addition, by a protein characteristic search using HMMPFAM, the amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 12 shows a sequence showing the characteristics of BTB (for BR-C, ttk and bab) or POZ (for Pox virus and Zinc finger) domain. (An amino acid sequence entered as BTB in Pfam), a sequence exhibiting characteristics of Msx-interacting-zinc finger (an amino acid sequence entered as zf-MIZ in Pfam), and a sequence exhibiting characteristics of Zinc finger, C2H2 type (Pfam amino acid sequence entered as zf-C2H2).
From these characteristics, it can be inferred that the protein encoded by the nucleotide sequence shown in SEQ ID NO: 12 is a Kaiso-like transcription factor having a zinc finger.
[0037]
The amino acid sequence encoded by the nucleotide sequence of SEQ ID NO: 13 was analyzed by BLAST search with Xenopus laevis DNA-methylation dependent transcriptional repressor Kaiso-like protein (Kaiso) and e-value: 4 × 10−32And 48% homology over 137 amino acids, and e-value: 4 × 10 with Xenopus laevis BTB / POZ zinc finger transcription factor XKaiso.−32With 48% homology over 137 amino acids.
In addition, by a protein characteristic search using HMMPFAM, the amino acid sequence encoded by the base sequence described in SEQ ID NO: 13 shows a sequence (Pfam) showing the characteristics of the BTB (BR-C, ttk and bab) or POZ (Pox virus and Zinc finger) domain. An amino acid sequence entered as BTB), a sequence exhibiting characteristics of Msx-interacting-zinc finger (an amino acid sequence entered as zf-MIZ in Pfam), and a sequence exhibiting characteristics of Zinc finger, C2H2 type (zf-in Pfam). Amino acid sequence entered as C2H2).
From these characteristics, it can be inferred that the nucleotide sequence shown in SEQ ID NO: 13 is a part of the sequence of a gene for a transcription factor of Kaiso-like having zinc finger.
[0038]
The DNA of the present invention thus obtained, whose base sequence is determined, and whose function is estimated, has the base sequence of SEQ ID NOS: 1 to 13 or 35 or the base sequence shown above as its translation region. In addition, in these base sequences, one or several (the number is not particularly limited, but is, for example, 60 or less, preferably 30 or less, more preferably 20 or less, still more preferably 10 or less). Or less, particularly preferably 5 or less), a DNA encoding a protein having a base sequence with deletion, substitution, and / or addition of DNA, and having a DNA binding activity; DNA that hybridizes under gentle conditions and encodes a protein having DNA binding activity is also included. As described above, these DNAs comprise an amino acid sequence in which one or several amino acid sequences have been deleted, substituted and / or added in the amino acid sequence of the protein shown in SEQ ID NO: 14 to 26 or 36, and have a DNA binding activity. And those encoding proteins having the formula:
[0039]
Here, the DNA that hybridizes under stringent conditions refers to the nucleotide sequence shown in SEQ ID NOS: 1 to 13 or 35 or its complementary sequence in a BLAST analysis of 80% or more, preferably 90% or more, and more preferably 95% or more. DNAs containing the base sequence having the above homology are exemplified. Further, the hybridization under stringent conditions means that the reaction is carried out in a normal hybridization buffer at a temperature of 40 to 70 ° C, preferably 60 to 65 ° C, and a salt concentration of 15 mM to 300 mM, preferably The washing can be performed according to a method of washing in a washing solution of 15 mM to 60 mM or the like.
[0040]
Further, the DNA of the present invention may be obtained by the above-described method or may be synthesized. The DNA base sequence can be easily replaced with a commercially available kit such as a site-directed mutagenesis kit (Takara Shuzo) or a quick change site-directed mutagenesis kit (Stratagene).
[0041]
The nucleotide sequences described in SEQ ID NOs: 1 to 13 are derived from mouse. A human cDNA library was prepared according to the above-described method for preparing a cDNA library, and the library was subjected to SEQ ID NO: By performing hybridization using a DNA fragment having the nucleotide sequence of 1 to 13 as a probe, a DNA encoding a human homolog protein of the protein encoded by the nucleotide sequence of SEQ ID NOS: 1 to 13 can also be obtained. . DNAs that hybridize under stringent conditions to DNAs having the nucleotide sequences of SEQ ID NOs: 1 to 13 or their complementary sequences also include DNAs encoding such human homologs.
[0042]
Further, it is also possible to predict the base sequence of the human homolog DNA by using informatics, and to obtain the human homolog DNA from the above-mentioned human cDNA library or the like based on the base sequence.
In general, as a method for predicting a base sequence encoding a homolog protein of a target protein using informatics, for example, (i) using a base sequence of a target cDNA as a query, A method of performing homology search using a BLAST or the like on a database (including a cDNA database predicted by informatics), or (ii) using a BLAST or the like on a human or other EST database using a target cDNA as a query A method in which the sequence of the hit EST is linked to the base sequence of the target cDNA by referring to the base sequence of the target cDNA, and (iii) the base sequence of the target cDNA is used as a query in a genome database such as human. Perform a homology search using BLAST, etc. The position on the genome where the cDNA gene is located is specified, and Genscan (http://genes.mit.edu/GENSCAN.html) or Sim4 (Genome Res., 8: 976-74) is determined for the genomic region. 1998)) and the like, and a method of predicting the nucleotide sequence of the gene portion in the genome.
[0043]
When predicting the nucleotide sequence of human homolog DNA of mouse-derived cDNA, any of the above methods can be used, but any cDNA having the nucleotide sequence of SEQ ID NOS: 1 to 13 of the present invention is novel, In the above method (i), it is considered that the nucleotide sequence of the human homolog DNA cannot be obtained, so the method described in (ii) or (iii) is preferably used.
[0044]
Based on the predicted nucleotide sequence of the human homolog DNA, a DNA encoding a human homolog protein of the protein encoded by the nucleotide sequence of SEQ ID NOS: 1 to 13 can be obtained from the above human cDNA library. . As a specific acquisition method, for example, using a primer having a nucleotide sequence complementary to the nucleotide sequence at the 5 ′ end and 3 ′ end of the predicted human homolog DNA, PCR is performed using the above human cDNA library as a template. And a method of performing hybridization with the above human cDNA library using a partial sequence of the predicted human homolog DNA as a probe.
[0045]
Generally, a similar gene having a nucleotide sequence having a high homology with the nucleotide sequence of the target gene is referred to as a “homolog”, and the above-described method also aims to obtain a human homolog. It is important to confirm that not only the similarity but also that the gene obtained as a homolog is a family member of the target gene. Genes acquired as "homologs" between two species of organisms are likely to be "orthologs", the same gene evolved from a common ancestral gene, and differ from each other caused by duplication from a common ancestral gene It may be a "paralog" that is a gene.
[0046]
That is, in order for the human-derived DNA obtained as a homologue to have the same function as the protein of the present invention, the function of the protein encoded by the human-derived DNA must be In order to verify the function of the protein of the present invention as a mouse, it is preferable to confirm that the human homolog is an ortholog of a closely related species of the mouse gene of the present invention.
[0047]
For example, the following method is used as a method for confirming the ortholog.
(1) First, the homology between the nucleotide sequence of the cDNA of the present invention and the nucleotide sequence of the obtained human homolog DNA is analyzed. Next, using the base sequence of the cDNA of the present invention as a query, a homology search was performed for human base sequences contained in international base sequence databases such as DDBJ, EMBL, and GenBank, and patent databases. Confirm that the degree of matching of the base sequence is higher than the degree of matching between the base sequence obtained from the database and the base sequence of the query. Further, (2) homology is analyzed between the obtained nucleotide sequence of the human homolog DNA and the corresponding nucleotide sequence of the cDNA of the present invention. Next, using the base sequence of the obtained human homolog DNA as a query, a homology search was performed for the mouse base sequence contained in the international base sequence database such as DDBJ, EMBL, and GenBank, and in the patent database. Confirm that the degree of matching of the base sequence is higher than the degree of matching between the base sequence obtained from the database and the base sequence of the query. By confirming the above (1) and (2), the obtained human homolog can be identified as a human ortholog corresponding to the cDNA of the present invention. The homology analysis described in (1) and (2) above may be performed by comparing amino acid sequences, or by drawing a molecular evolutionary phylogenetic tree and examining it. In addition, it is preferable that the degree of coincidence by the homology analysis described in the above (1) and (2) be analyzed as the degree of coincidence over the entire length of the query.
[0048]
By performing a homology search by BLAST or a protein feature search by HMMPFAM on the nucleotide sequence of the thus obtained human homologous DNA or orthologous DNA, the function of the protein encoded by the nucleotide sequence can be estimated and confirmed. The human ortholog of the cDNA of the present invention includes, for example, a DNA having the base sequence of SEQ ID NO: 35, and the human ortholog of the protein of the present invention includes a protein having the amino acid sequence of SEQ ID NO: 36, and the like. Can be
DNAs that hybridize under stringent conditions to DNAs having the nucleotide sequences of SEQ ID NOs: 1 to 13 or their complementary sequences include DNAs encoding such human homologues or orthologous proteins.
[0049]
(2) Protein encoded by the novel cDNA
The translation region of the protein encoded by the DNA of the present invention is, for example, a base sequence of the DNA which is converted into amino acids by three types of reading frames, and the range encoding the longest polypeptide is defined as the translation region of the present invention. The amino acid sequence can be determined. Examples of such an amino acid sequence include those described in SEQ ID NOs: 14 to 26 or 36. The protein of the present invention is not limited to the above-mentioned amino acid sequence, but comprises an amino acid sequence in which one or several amino acids have been substituted, deleted and / or added, and has a DNA binding activity. And those having the following.
[0050]
As a method for obtaining the protein of the present invention, the method of transcription / translation of the DNA of the present invention described in the above (1) by an appropriate method is preferably used. Specifically, a recombinant vector inserted into a suitable expression vector or a suitable vector together with a suitable promoter is prepared, and this recombinant vector is used to transform a suitable host microorganism or introduced into a suitable cultured cell. Thus, it can be obtained by purifying this.
[0051]
When the protein thus obtained is obtained in a free form, it can be converted to a salt by a known method or a method analogous thereto, and conversely, when the protein is obtained in a salt form, it can be converted to a free form or another salt. can do. Such salts of the protein of the present invention are also included in the protein of the present invention. Further, a protein produced by the transformant may be modified before or after purification by applying an appropriate protein modifying enzyme to modify the protein arbitrarily or partially removing the polypeptide. Can be. These modified proteins are also included in the scope of the present invention as long as they have the above-mentioned DNA binding activity.
[0052]
When producing the protein of the present invention, the vector used for the production of the recombinant vector containing the DNA of the present invention is not particularly limited as long as the DNA is expressed in the transformant. Any of vectors may be used. Of these, usually, a commercially available protein expression vector into which an expression control region DNA such as a promoter suitable for a host into which the DNA is introduced has already been inserted is used. Specific examples of such a protein expression vector include pET3 and pET11 (manufactured by Stratagene) and pGEX (manufactured by Amersham Pharmacia Biotech) when the host is Escherichia coli, and pESP- when the host is yeast. I expression vector (Stratagene) and the like. In the case of insect cells, BacPAK6 (Clontech) and the like are used. When the host is an animal cell, ZAP Express (manufactured by Stratagene), pSVK3 (manufactured by Amersham Pharmacia Biotech) and the like can be mentioned.
[0053]
When using a vector into which the expression control region has not been inserted, it is necessary to insert at least a promoter as the expression control region. Here, as the promoter, a promoter contained in a host microorganism or a cultured cell can be used. However, the promoter is not limited thereto. For example, when the host is Escherichia coli, T3, T7, tac, A lac promoter or the like can be used. In the case of yeast, an nmt1 promoter, a Gal1 promoter, or the like can be used. When the host is an animal cell, SV40 promoter, CMV promoter and the like are preferably used.
[0054]
When a host capable of functioning with a mammalian-derived promoter is used, a promoter specific to the gene of the present invention can also be used. Insertion of the DNA of the present invention into these vectors may be performed by linking the DNA or a DNA fragment containing the DNA to the amino acid sequence of the protein encoded by the gene DNA downstream of the promoter in the vector.
[0055]
The recombinant vector thus prepared can be used to transform a host described below by a method known per se to prepare a DNA transductant. As a method for introducing the vector into a host, specifically, a heat shock method (J. Mol. Biol., 53, 154 (1970)), a calcium phosphate method (Science, 221, 551, (1983)), DEAE Dextran method (Science, 215, 166, (1982)), in vitro packaging method (Proc. Natl. Acad. Sci. USA, 72, 581, (1975)), virus vector method (Cell, 37, 1053, (1984)). )), And the electric pulse method (Chu. Et al., Nuc. Acids Res., 15, 1331 (1987)).
[0056]
The host for preparing the DNA transfectant is not particularly limited as long as the DNA of the present invention is expressed in the body. For example, Escherichia coli, yeast, baculovirus (arthropod polyhedrosis virus) -insect cells, or Animal cells and the like can be mentioned. Specifically, BL21 and XL-2Blue (manufactured by Stratagene) and the like for Escherichia coli, SP-Q01 (manufactured by Stratagene) and the like for yeast, and AcNPV (J. Biol. Chem., 263, 7406, and the like) for baculovirus. 1988)) and its host Sf-9 (J. Biol. Chem., 263, 7406, (1988)). Examples of animal cells include mouse fibroblast C127 (J. Viol., 26, 291, (1978)) and Chinese hamster ovary cell CHO cells (Proc. Natl. Acad. Sci. USA, 77, 4216, (1980)). Of these, African green monkey kidney-derived COS-7 (ATCC CRL1651: American Type Culture Collection-preserved cell) is preferably used because of its expression level and simplicity of screening.
[0057]
In addition to the above-described expression method using a protein expression vector, a homologous recombination technique (AA Vertes et al., Biosci) in which a DNA fragment of the present invention linked to a promoter is directly inserted into a chromosome of a host microorganism. Biotechnol. Biochem., 57, 2036 (1993)) or a transposon or an insertion sequence (A.A. Vertes et al., Molecular Microbiol., 11, 739, (1994)). It can also be made.
[0058]
The obtained culture is obtained by collecting cells or cells by a method such as centrifugation, suspending the cells or cells in a suitable buffer, and sonicating, lysozyme, and / or freezing and thawing. After the disruption, a crude protein solution is obtained by centrifugation, filtration, or the like, and further purified by a combination of appropriate purification methods. Thus, the protein of the present invention is obtained. In addition to the above-described expression method using the protein expression recombinant vector, protein expression is induced by subjecting the DNA of the present invention obtained in (1) to a cell-free transcription / translation system to obtain the protein of the present invention. be able to. The cell-free transcription / translation system used in the present invention is a system containing all the elements necessary for transcription from DNA to mRNA and translation from mRNA to protein. Refers to any system in which the protein being synthesized is synthesized. Specific examples of the cell-free transcription / translation system include a transcription / translation system prepared based on an eukaryotic cell and a bacterial cell, or an extract from a part thereof. A transcription / translation system prepared based on an extract from Erythrocytes, wheat germ and Escherichia coli (Escherichia coli S30 extract) may be mentioned.
[0059]
Separation and purification of the protein of the present invention from the obtained transcription / translation product of the cell-free transcription / translation system can be carried out by a commonly used method known per se. Specifically, for example, a DNA region encoding an epitope peptide, a polyhistidine peptide, glutathione-S-transferase (GST), a maltose binding protein, or the like is introduced into the DNA to be transcribed and translated, and expressed as described above. The protein can be purified by utilizing the affinity of the protein with a substance having affinity.
[0060]
The expression of the target protein is separated by SDS-polyacrylamide gel electrophoresis or the like, and stained with Coomassie Brilliant Blue (manufactured by Sigma) or detected by an antibody that specifically binds to the protein of the present invention described later. It can be confirmed by the method of performing. In general, it is known that an expressed protein is cleaved (processed) by a proteolytic enzyme present in a living body. The protein of the present invention is naturally included in the protein of the present invention as long as it has a DNA binding activity, even if it is a partial fragment of the amino acid sequence that has been cleaved.
[0061]
By analyzing the interaction between the thus obtained protein and other proteins and DNA, it is possible to know the multifaceted functions in the living body. As a method for analyzing the interaction, a conventional method known per se can be used. Specifically, for example, yeast two-hybrid method, fluorescence depolarization method, surface plasmon method, phage display method, ribosomal method Display method and the like can be mentioned.
[0062]
(3) Preparation of oligonucleotide and functional analysis using the oligonucleotide
Using the DNA of the present invention or a fragment thereof obtained by the method described in (1) above, an antisense oligonucleotide having a partial sequence of the DNA of the present invention, a sense -An oligonucleotide such as an oligonucleotide can be prepared.
[0063]
Examples of the oligonucleotide include a DNA having the same sequence as 5 to 100 consecutive bases in the base sequence of the DNA or a DNA having a sequence complementary to the DNA. Specific examples include a DNA having the same sequence as 5 to 100 consecutive nucleotides in the base sequence represented by any of SEQ ID NOS: 1 to 13 or 35, or a DNA having a sequence complementary to the DNA. it can. When used as a sense primer and an antisense primer, the above-mentioned oligonucleotides in which the melting temperature (Tm) and the number of bases of both do not extremely change are preferable. The length of the sequence is generally 5 to 100 bases, preferably 10 to 60 bases, and more preferably 15 to 50 bases.
[0064]
In addition, derivatives of these oligonucleotides can also be used as the oligonucleotide of the present invention. Examples of the oligonucleotide derivative include an oligonucleotide derivative in which a phosphoric diester bond in an oligonucleotide is converted to a phosphorothioate bond, and an oligonucleotide in which a phosphoric diester bond in an oligonucleotide is converted to an N3′-P5 ′ phosphoramidate bond. Nucleotide derivative, oligonucleotide derivative in which ribose and phosphodiester bond in oligonucleotide are converted to peptide nucleic acid bond, oligonucleotide derivative in which uracil in oligonucleotide is substituted with C-5 propynyluracil, uracil in oligonucleotide is Oligonucleotide derivatives substituted with C-5 thiazole uracil, oligonucleotide derivatives substituted with cytosine in the oligonucleotide with C-5 propynylcytosine, oligonucleotides Is an oligonucleotide derivative in which cytosine is substituted by phenoxazine-modified cytosine, an oligonucleotide derivative in which ribose in the oligonucleotide is substituted by 2′-O-propyl ribose, or ribose in the oligonucleotide is 2 Oligonucleotide derivatives substituted with '-methoxyethoxyribose can be mentioned.
[0065]
In addition, the oligonucleotide of the present invention is prepared as a double-stranded RNA, introduced into a recipient, and inhibited by the RNA interference method for inhibiting the expression of a target gene (hereinafter referred to as the “RNAi method”). There is). As the RNA interference method, for example, a method described in (Elbashir, S., et al., Nature, 411, 494-498 (2001)) can be used. The double-stranded RNA does not necessarily have to be all RNA, and for example, those described in WO 02/10374 can be used.
[0066]
Here, the target gene may be any DNA as long as it is the DNA of the present invention. A double-stranded RNA consisting of a sequence substantially identical to at least a part of the base sequence of these DNAs (hereinafter sometimes referred to as “double-stranded polynucleotide”) is defined as a part of the base sequence of the target gene. And a sequence substantially the same as a sequence of 15 bp or more, which may be any part. Here, “substantially the same” means that it has 80% or more homology with the sequence of the target gene. The nucleotide length of the nucleotide may be any length from 15 bp to the entire length of the open reading frame (ORF) of the target gene, but a length of about 15 to 500 bp is preferably used. However, it is known that mammalian-derived cells have a signal transduction system activated in response to a long double-stranded RNA of 30 bp or more. This is called an interferon reaction (Mareus, PI, et al., Interferon, 5, 115-180 (1983)), and when the double-stranded RNA enters a cell, PKR (dsRNA-responsive) is obtained. Protein kinase: Non-specifically inhibits the initiation of translation of many genes via Bass, BL, Nature, 411, 428-429 (2001)), and at the same time, 2 ', 5' oligoadenylate synthetase (Bass, B.L., Nature, 411, 428-429 (2001)), RNaseL is activated, and non-specific degradation of intracellular RNA is caused. These non-specific reactions mask the specific response of the target gene. Therefore, when a mammal, or a cell or tissue derived from the animal is used as a recipient, a double-stranded polynucleotide of 15 to 30 bp, preferably 19 to 24 bp, and most preferably 21 bp is preferably used. The double-stranded polynucleotide does not need to be entirely double-stranded, and includes those in which the 5 'or 3' end is partially protruded, but those in which the 3 'end is protruded by two bases are preferably used. The double-stranded polynucleotide means a double-stranded polynucleotide having complementarity, but may be a self-annealed single-stranded polynucleotide having self-complementarity. The single-stranded polynucleotide having self-complementarity includes, for example, one having an inverted repeat sequence.
[0067]
The method for preparing the double-stranded polynucleotide is not particularly limited, but a known chemical synthesis method is preferably used. In chemical synthesis, a single-stranded polynucleotide having complementarity can be separately synthesized, and can be converted into a double-stranded strand by associating them by an appropriate method. Specific examples of the method of association include a method in which the synthesized single-stranded polynucleotide is mixed, heated to a temperature at which the double-strand is dissociated, and then gradually cooled. The associated double-stranded polynucleotide is confirmed using an agarose gel or the like, and the remaining single-stranded polynucleotide is removed by, for example, decomposing it with an appropriate enzyme.
[0068]
The transfectant into which the double-stranded polynucleotide thus prepared is introduced may be any as long as the target gene can be transcribed into RNA or translated into protein in the cell. Specific examples include those belonging to plant, animal, protozoan, virus, bacterial, or fungal species. The plant may be a monocotyledonous, dicotyledonous or gymnosperm, and the animal may be a vertebrate or invertebrate. Preferred microorganisms are those used in agriculture or industry, and those that are pathogenic for plants or animals. Fungi include organisms in both mold and yeast forms. Examples of vertebrates include mammals, including fish, cows, goats, pigs, sheep, hamsters, mice, rats, and humans, and invertebrates include nematodes and other reptiles, Drosophila melanogaster ( Drosophila), and other insects. Preferably, the cells are vertebrate cells.
[0069]
The transductant means a cell, tissue, or individual. Here, the cell may be from germline or somatic, totipotent, or pluripotent, split or undivided, parenchymal tissue or epithelium, immortalized or transformed, and the like. The cells may be gametes or embryos, in the case of embryos, single-cell or constitutive cells, or cells from multi-cell embryos, including fetal tissue. Furthermore, they may be undifferentiated cells, such as stem cells, or differentiated cells, such as from cells of an organ or tissue, including fetal tissue, or any other cells present in an organism. Differentiating cell types include adipocytes, fibroblasts, muscle cells, cardiomyocytes, endothelial cells, nerve cells, glial, blood cells, megakaryocytes, lymphocytes, macrophages, neutrophils, eosinophils, eosinophils, Includes basophils, mast cells, leukocytes, granulocytes, keratinocytes, chondrocytes, osteoblasts, osteoclasts, hepatocytes and cells of the endocrine or exocrine glands.
[0070]
As a method for introducing a double-stranded polynucleotide into a transfectant, when the transfectant is a cell or tissue, calcium phosphate method, electroporation method, lipofection method, virus infection, double-stranded polynucleotide solution Immersion, transformation, or the like. Examples of the method for introducing the gene into an embryo include microinjection, electroporation, and virus infection. When the recipient is a plant, a method of injecting or perfusing the plant into a body cavity or stromal cells, or spraying is used. In the case of an individual animal, it is introduced systemically by oral, topical, parenteral (including subcutaneous, intramuscular and intravenous administration), vaginal, rectal, nasal, ocular and intraperitoneal administration. A method, an electroporation method, a virus infection, or the like is used. For methods for oral introduction, the double-stranded polynucleotide can be mixed directly with the food of the organism. Furthermore, when introduced into an individual, it can be administered, for example, by administration as an implanted long-term release preparation or the like, or by ingesting an introduced body into which a double-stranded polynucleotide has been introduced.
[0071]
The amount of the double-stranded polynucleotide to be introduced can be appropriately selected depending on the introduced substance and the target gene, but it is preferable to introduce an amount sufficient to introduce at least one copy per cell. Specifically, for example, when the transfectant is a human cultured cell and the double-stranded polynucleotide is introduced by the calcium phosphate method, 0.1 to 1000 nM is preferable.
By suppressing the expression of the gene of the present invention in the transfectant by RNA interference, the function of the protein encoded by the gene of the present invention can be confirmed, or a new function can be analyzed.
[0072]
(4) Antibodies that specifically bind to the protein of the present invention
As a method for preparing an antibody that specifically binds to the protein of the present invention, a commonly used known method can be used. For a polypeptide used as an antigen, an epitope (antigen determination An appropriate sequence can be selected and used as the group. As a method for selecting an epitope, commercially available software such as Epitope Adviser (manufactured by Fujitsu Kyushu System Engineering Co., Ltd.) can be used.
[0073]
As the polypeptide used as the above antigen, a synthetic peptide synthesized according to a known method or the protein of the present invention itself can be used. The polypeptide serving as an antigen may be prepared in an appropriate solution or the like according to a known method and immunized to a mammal, for example, a rabbit, a mouse, a rat, or the like. It is preferable to use an antigen peptide as a conjugate with a suitable carrier protein or to add an adjuvant or the like for immunization.
[0074]
The route of administration of the antigen upon immunization is not particularly limited, and any route such as subcutaneous, intraperitoneal, intravenous, or intramuscular may be used. Specifically, for example, a method of inoculating BALB / c mice several times every several days to several weeks with an antigen polypeptide is used. The amount of the antigen to be taken is preferably about 0.3 to 0.5 mg / time when the antigen is a polypeptide, but is appropriately adjusted depending on the type of the polypeptide and the animal species to be immunized.
[0075]
After immunization, blood is appropriately collected as a test, and an increase in the antibody titer is confirmed by a method such as enzyme-linked immunosorbent assay (hereinafter sometimes referred to as “ELISA”) or Western blotting. Blood is collected from animals with increased titers. A polyclonal antibody can be obtained by subjecting this to an appropriate treatment used for antibody preparation. Specifically, for example, there is a method of obtaining a purified antibody obtained by purifying an antibody component from serum according to a known method. For purification of the antibody component, methods such as centrifugation, ion exchange chromatography, and affinity chromatography can be used.
[0076]
In addition, a monoclonal antibody can be prepared by using a hybridoma fused with spleen cells and myeloma cells of the animal according to a known method (Milstein, et al., Nature, 256, 495 (1975)). . The monoclonal antibody can be obtained, for example, by the following method.
[0077]
First, antibody-producing cells are obtained from an animal whose antibody titer has increased due to immunization with the above-described antigen. The antibody-producing cells are plasma cells and lymphocytes which are precursor cells thereof, which may be obtained from any of the individuals, but is preferably obtained from the spleen, lymph nodes, peripheral blood and the like. As a myeloma to be fused with these cells, generally, a cell line obtained from a mouse, for example, a P3X63-Ag8.653 (ATCC: CRL) which is an 8-azaguanine-resistant mouse (derived from BALB / c) myeloma cell line is used. -1580), P3-NS1 / 1Ag4.1 (RIKEN cell bank: RCB0095) and the like are preferably used. For cell fusion, antibody-producing cells and myeloma cells are mixed at an appropriate ratio, and 50% polyethylene is added to an appropriate cell fusion medium such as RPMI1640 or Iskov's modified Dulbecco's medium (IMDM) or Dulbecco's modified Eagle's medium (DMEM). It can be carried out by using a solution in which glycol (PEG) is dissolved. It can also be carried out by the electrofusion method (U. Zimmer-mann. Et al., Naturewissenschaften, 68, 577 (1981)).
[0078]
Hybridomas were prepared using a myeloma cell line that was resistant to 8-azaguanine, using 5% CO2 in a normal medium (HAT medium) containing an appropriate amount of hypoxanthine / aminopterin / thymidine (HAT) solution.2At 37 ° C. for an appropriate time. This selection method can be appropriately selected and used depending on the myeloma cell line to be used. The antibody titer of the antibody produced by the selected hybridoma is analyzed by the above-described method, the hybridoma producing the antibody having a high antibody titer is separated by a limiting dilution method or the like, and the separated fused cells are cultured in an appropriate medium. The monoclonal supernatant can be obtained by purifying the resulting culture supernatant by an appropriate method such as ammonium sulfate fractionation and affinity chromatography. For purification, a commercially available monoclonal antibody purification kit can also be used. Furthermore, ascites containing a large amount of the monoclonal antibody of the present invention can be obtained by growing the antibody-producing hybridoma obtained above in the abdominal cavity of an animal of the same strain as the immunized animal or a nude mouse.
[0079]
When a human-derived protein is obtained as the protein of the present invention, the above-described method is applied to a Severe combined immunodeficiency (SCID) mouse transplanted with human peripheral blood lymphocytes using the polypeptide or a partial peptide thereof as an antigen. A humanized antibody can also be prepared by immunization in the same manner as described above and preparing a hybridoma of the antibody-producing cells of the immunized animal and human myeloma cells (Mosier, DE, et al. Nature, 335, 256-259 (1988); Duchosal, MA, et al., Nature, 355, 258-262 (1992)).
[0080]
Further, RNA is extracted from the obtained hybridoma producing the human antibody, a gene encoding the target human antibody is cloned, this gene is inserted into an appropriate vector, and this is introduced into an appropriate host. By expression, human antibodies can be produced in larger quantities. Here, an antibody with low binding to an antigen can be obtained as an antibody with even higher binding by using an evolutionary engineering technique known per se. A partial fragment such as a monovalent antibody can be prepared by cleaving the Fab and Fc portions using, for example, papain or the like, and collecting the Fab portion using an affinity column or the like.
[0081]
The thus-obtained antibody that specifically binds to the protein of the present invention can also be used as a neutralizing antibody that specifically binds to the protein of the present invention and thereby inhibits the DNA binding activity of the protein. There is no particular limitation on the method of selecting a substance that inhibits the activity of the protein. For example, it is possible to contact an antibody with the DNA transfectant prepared in (2) above and determine whether the function of the target protein in the transfectant is inhibited. And a method of analyzing the above.
[0082]
Such a neutralizing antibody may be used alone when the clinical application is performed, or may be used as a pharmaceutical composition by mixing with a pharmaceutically acceptable carrier. At this time, the ratio of the active ingredient to the carrier can be varied between 1 and 90% by weight. Such drugs can be administered in various forms, such as tablets, capsules, granules, powders, orally administered by syrup or the like, or injections, drops, liposomes, Parenteral administration with suppositories and the like can be mentioned. In addition, the dose can be appropriately selected depending on symptoms, age, body weight, and the like.
[0083]
(5) Confirmation and analysis of the activity of the protein of the present invention
The protein of the present invention is prepared as a recombinant protein as described in the above (2), and by analyzing this, it can be confirmed that it has the activity estimated in the above (1). Furthermore, analysis can also be performed by combining the antibody and the like prepared as described in (4) above.
The fact that the protein of the present invention has DNA binding activity can be confirmed, for example, by contacting an appropriate double-stranded DNA with the recombinant protein and measuring the binding property of the recombinant protein to the DNA chain. it can. Specific methods include, for example, the methods described below.
[0084]
As a reaction solution, a neutral to weakly basic buffer containing 60 mM potassium chloride, 1 mM dithiothreitol, 10% glycerol, and 1 μg poly (dI-dC), for example, 20 mM Tris-HCl or HEPES buffer (pH 7 to 8) The reaction is started by adding a double-stranded DNA of an appropriate length and the recombinant protein of the present invention. After the reaction under certain conditions, the double-stranded DNA binding activity of the protein is determined by detecting the binding product of the recombinant protein and DNA.
[0085]
The binding between the recombinant protein and DNA can be detected using a method of detecting as a molecular size, a method of detecting as a difference in electric charge, a method of measuring the affinity of both, and the like.
As a method for detecting the size of a molecule, measurement by molecular sieve chromatography can be mentioned. The reaction solution is added to a column for molecular sieve chromatography equilibrated with physiological saline or 0.1 M phosphate buffer (pH 7.4) and 0.1 M HEPES (pH 7.5), and developed with the same solution. I do. Compared to the elution position of each of the recombinant protein and DNA, the bound product is eluted on the higher molecular weight side.
[0086]
Examples of the method for detecting the difference in charge include an electrophoresis method including ion exchange chromatography, gel electrophoresis, and capillary electrophoresis. In gel electrophoresis, a difference in charge and a difference in molecular size appear as a difference in mobility. The above reaction solution is electrophoresed in a polyacrylamide gel, and the gel after electrophoresis is silver-stained, Coomassie brilliant blue-stained, or fluorescent-stained. Confirmed as a band. In the case of these two methods, by labeling one end of the DNA with a fluorescent label, it is possible to detect the elution position of the DNA and the difference in mobility with higher sensitivity.
[0087]
Methods for measuring the affinity of both include affinity chromatography, surface plasmon resonance, and the like. In these methods, DNA is immobilized on a carrier, and a recombinant protein is brought into contact with the DNA, and the amount of binding is measured to determine the strength of the activity. In affinity chromatography, the bound recombinant protein is eluted with a high-concentration salt solution, denaturant, free DNA, and the like, and the amount of the eluted protein is measured. In the surface plasmon resonance method, the amount of protein bound to immobilized DNA is measured by surface plasmon resonance, and the strength of affinity can be measured based on the concentration of the bound protein.
[0088]
In addition, for proteins that bind to DNA and RNA and are involved in transcription, generally, gene transcription regulatory regions such as promoters and enhancers that are recognized and targeted by known transcription-related factors (hereinafter, referred to as “target transcription regulatory regions”). ), And a method for comprehensively analyzing transcription control activity by measuring the binding ability to the DNA and partial fragments thereof (JP-A-2001-314190). The DNA of the target transcription control region and its partial fragments used in the analysis include not only those having a known base sequence of the target transcription control region (hereinafter, this may be referred to as “target sequence”), but also known targets. The base sequence of the transcription regulatory region is analyzed and classified into a database, and each is designed. The common base sequence of the target transcription regulatory region that is commonly recognized by transcription-related factors (hereinafter, this may be referred to as a “consensus target sequence” ) May be used. Known transcription-related factors include, for example, v-jun, c-jun, junB, junD, dJRA, c-fos, fosB1, fosB2, Fra-1, LRF-1, v-maf, mafG, NF-E2 p45. , ANF-E2, fNF-E2, Nrf short form, GCN4, yAP-1, CREB-2, ATF-3, CRE-BP1, CRE-BP3, ATF-a, CREB-341, CREB-327, CREM, dCREB2 , DCREB2-b, dCREB2-c, dCREB2-d, dCREB2-q, dCREB2-r, dCREB2-s, C / EBPalpha, C / EBPbeta, p34C / EBPbeta, CHOP-10, VBP, Hlf, CPR −2, EmBP-1b, EmBP-1b, GBF1, GBF2, GBF3, CPRF-1, TAF-1, HBP-1a, GBF9, GBF1, GBF12, CPRF-3, TGA1a, TGA1b, O2, STE4, OPI1, E2A , E47, ITF-2 / SEF2-1B, SEF-1A, MyoD, p42Tal-1, HEN-1, AhR, Arnt, USF, NF-1A1, NF-1A1.1, NF-1A6, NF-1B1, NF -1B1, NF-1B2, NF-1C2 / CTF-2, CTF-4, CTF-6, RF-X1, AP2alphaA / AP-2alpha1, AP2alpha2, AP2alpha3, AP2alpha4, AP2alphaB, AP2b eta, AP2gamma, GR, AR, ER, RXR-alpha, PPARalpha, PPARgamma, COUP-TF1, HNF-4alpha1, HNF-4alpha2, CF1, GATA-1, GATA-2, GATA-3, GATA-4, AREA / NIT-2, Sp1, YY1, Egr-1, Egr-2, Egr-3, Snail, CF2-II, Evi-1, Ikaros, MZF-1, Tramtrack 69K, HOX9, CDP, HNF-1A, Nkx-2. 2, Nkx-2.5, TTF-1, Oct-1A, Oct-1B, Oct-1C, Oct-2, Oct-2.1 / Oct-2B, Pax-3, Pax-6, Pax-1, HSF1 (shor t), HSF2, dHSF, fungalHSF, c-Myb, A-Myb, v-Myb, P (long), P (short), C1 (long), C1 (short), c-Ets-1 # p54, Ets -1 # deltaV / VII, Ets-2, Elk-1, SAP-1, SAP-1b, Erg-1, p55erg, Fli-1b, E4TF1-60 / GABP-alpha, E74A, IRF-1, IRF-2 , P50, NF-ATc, NF-Atp, p91, p84, STAT2, STAT3, STAT4, STAT5A, STAT5B, STAT6, p53, MEF-2A, SRF, E2, TBP, SRY, Sox-5, Sox-9 -Mc, CP1A, P1B, CBF-C, AML1a, and the like are known, and the nucleotide sequences of target transcriptional regulatory regions of these transcription-related factors have also been reported (Takaaki Tamura, et al., 2nd Ed., "BioScience Experimental Medicine Supplement New. Term Library Transcription Factors ", 2nd edition, Yodosha Co., Ltd., December 1999).
[0089]
The binding between the protein having the DNA binding activity of the present invention and the DNA of the target transcription regulatory region and its partial fragments can be detected using a measurement system known per se. For example, a test sample containing the protein of the present invention is added to a plate on which DNA of a target transcription regulatory region and a partial fragment thereof are immobilized, and direct binding between the two is determined by SPR (Surface Plasmon Resonance) method. Can be used for detection. In this case, the DNA of the target transcription regulatory region recognized by the transcription-related protein or a partial fragment thereof is immobilized on the sensor chip. The annealed DNA and its partial fragments are immobilized. As described above, the binding of the protein of the present invention or the DNA of the target transcriptional regulatory region and its partial fragments can be detected using fluorescent labels.
[0090]
The test sample for analysis containing the protein of the present invention can be prepared by the method of transcribing / translating the DNA of the present invention by an appropriate method as described above. Specifically, for example, protein expression can be induced by subjecting the DNA of the present invention to a cell-free transcription / translation system to obtain the protein of the present invention.
[0091]
In addition, a protein associated with transcription is analyzed for its effect on a transcription factor that regulates the transcription of various genes involved in a disease (hereinafter, referred to as “disease-related transcription factor”). It is also useful to analyze whether or not they are directly or indirectly involved. Known disease-related transcription factors include, for example, PPAR, p53, NFκB, AP-1, HIF-1, CREB, and the like. The effects on these known factors can be analyzed using the same method as described above. Just fine.
[0092]
For example, when analysis is performed using the SPR method, DNA of the target transcription regulatory region of the disease-related transcription factor or a partial fragment thereof is particularly preferably used. The test sample containing the protein of the present invention is appropriately added to the sensor chip on which such DNA or partial fragment is immobilized, and the interaction between the DNA on the sensor chip surface and the protein contained in the test sample is performed. Is analyzed. When it has an affinity with the immobilized DNA, the SPR response value is higher than that of the control, and it can be estimated that the transcription-related factor has an affinity with the immobilized DNA. By such an analysis, it is possible to analyze what function the protein of the present invention has in a specific disease.
[0093]
Here, the test sample for analysis containing the protein of the present invention can be prepared by the method of transcription / translation of the DNA of the present invention by an appropriate method as described above. Specifically, for example, protein expression can be induced by subjecting the DNA of the present invention to a cell-free transcription / translation system to obtain the protein of the present invention.
[0094]
The disease-related transcription factor can be obtained from a cell extract or a cell nucleus extract containing the disease-related transcription factor. In addition, as described above, it can be prepared by a method of transcription / translation of a DNA encoding a disease-related transcription factor by an appropriate method. Specifically, for example, a cDNA encoding a disease-related transcription factor is used, and its full length or a part thereof is inserted into an appropriate expression vector, and this is inserted into microorganisms such as Escherichia coli, insect cells, yeast, animal cells or animals. The disease-related transcription factor, which is a recombinant protein, can be obtained from the culture supernatant of these transfected cells into which the disease-related transcription factor has been expressed, or from cells, tissues, or body fluids.
[0095]
Note that confirmation of the activity of the protein of the present invention is not limited to the method described above. In addition, these functional assay systems can also be used for screening of a function activator or a function inhibitor of the protein of the present invention described later, and a screening of a protein expression regulator of the present invention.
[0096]
In general, the method for analyzing the function of the protein of the present invention includes, for example, (i) a method for comparatively analyzing the expression state of each tissue, disease, or developmental stage, and (ii) an interaction with another protein or DNA. A method of analyzing, (iii) a method of introducing into a suitable cell or individual, and analyzing a phenotypic change, and (iv) a method of analyzing the phenotypic change by inhibiting the expression of the protein in a suitable cell or individual. And the like. According to such a method, the activity specific to the target protein can be analyzed from multiple aspects.
[0097]
In the method (i), the expression of the protein of the present invention can be analyzed at the mRNA level or the protein level. When the expression level is analyzed at the mRNA level, for example, an in situ hybridization method (In situ hybridization: Application to Developmental Biology & Medicine., Ed. by Harry, N. ed. 1990)), a hybridization method using a DNA chip, a quantitative PCR method, and the like. In the case of analysis at the protein level, a tissue staining method using an antibody that specifically binds to the protein of the present invention described later, an ELISA method, a Western blot method, and the like can be mentioned. Here, when the protein to be analyzed is a splicing variant in which a known variant is present, a probe that is present only in the cDNA encoding the protein to be analyzed and does not hybridize with the cDNA encoding the known variant should be used. Is preferred. In the case of the quantitative PCR method, a method of selecting and performing a primer capable of producing an amplified fragment having a different length between the target variant and the known variant (Wong, Y., Neuroscience Let., 320: 141-145 (2002)), etc. Is mentioned. Also, when analyzing at the protein level, it is preferable to use an antibody that reacts only with the target protein and does not react with a known variant.
[0098]
In the method (ii), the function of the protein of the present invention can be analyzed by examining the presence or absence of interaction between the protein of the present invention and a known protein. As a method for analyzing the interaction, a conventional method known per se can be used, and specifically, for example, yeast two-hybrid method, fluorescence depolarization method, surface plasmon method, phage display method, ribosomal display And the like. In the method, when the protein to be analyzed is a splicing variant in which a known variant is present, the known variant is similarly analyzed for interacting substances, and a substance that specifically interacts with the target protein is identified. Is preferred.
[0099]
In the method (iii), the cells into which the cDNA of the present invention is introduced are not particularly limited, but human cultured cells and the like are particularly preferably used. Methods for introducing DNA into cells include those described in (2) above. In addition, the phenotype of the introduced cells can be observed with a microscope, such as cell viability, cell growth rate, cell differentiation, neurite outgrowth when cells are neurons, localization and migration of intracellular proteins, etc. And those that can be analyzed by biochemical experiments, such as changes in the expression of specific proteins in cells. In the case of a splicing variant in which a known variant exists, these phenotypes can be similarly introduced into cells, and a phenotype related to the variant to be analyzed can be identified by comparative analysis. In addition, since it is known that the protein of the present invention has a DNA binding activity, it is also preferable to analyze by paying attention to the phenotype and the like found in diseases associated with the DNA binding protein.
[0100]
The method (iv) can be efficiently performed by a method using an oligonucleotide described below or an RNA interference method. In this method, if a known variant is present in the target protein to be analyzed, a similar analysis is performed for the known variant and other variants, and a function specific to the target protein is identified by comparative analysis. Can be.
[0101]
(6) Screening for a molecule that regulates the activity of the protein of the present invention
By screening for a substance that specifically binds to the protein of the present invention and has an action of inhibiting, antagonizing, or enhancing the function (activity) of the protein of the present invention, a function modulator of the protein of the present invention (hereinafter, referred to as (Sometimes referred to as "modulators").
[0102]
This method of screening for a regulatory substance may be any method as long as it can obtain a substance that specifically binds to the protein of the present invention and has an activity of inhibiting, antagonizing or enhancing the activity of the protein. For example, a method of first contacting a protein of the present invention with a test substance and selecting the test substance based on the binding property to the protein as an index, and then selecting a test substance using the change in the activity of the protein of the present invention as an index. Can be used.
[0103]
The test substance may be any substance as long as it interacts with the protein of the present invention and may affect the activity of the protein. , Proteins, non-peptidic compounds, low molecular weight compounds, synthetic compounds, fermentation products, cell extracts, animal tissue extracts and the like. These substances may be novel substances or known substances. As a method for analyzing the interaction between the test substance and the protein of the present invention, a conventional method known per se can be used. Specifically, for example, yeast two-hybrid method, fluorescence depolarization method, surface plasmon method Phage display method, ribosomal display method, or the competition analysis method with the antibody described in the above (4). A substance found to bind to the protein of the present invention by such a method is then analyzed by analyzing how the activity of the protein of the present invention is affected in the presence of the substance. Whether it is used as a modulator is identified.
[0104]
As a specific analysis method, for example, when analyzing a substance that regulates DNA binding activity, the method described in the above (5) can be used. If the binding to double-stranded DNA is increased as compared to the absence of the substance, the substance may function as a DNA-binding activator, and may be reduced or inhibited. Can identify that the substance may function as a DNA binding inhibitor. Here, for the purpose of screening for a pharmaceutically active ingredient, it is preferable to use the above-mentioned human homologous protein or orthologous protein for the DNA or recombinant protein of the present invention to be used. Furthermore, the substances screened by the above method may be selected as drug candidates by screening in vivo.
[0105]
The DNA-binding activity of the protein of the present invention includes, for example, a function of regulating gene expression by changing the DNA structure, and includes a gene expression regulating protein, a transcription factor, and the like. Transcription factors are signaling pathways on pathways related to cancer, signaling pathways on myocardial development, signaling pathways controlling sperm differentiation and motility, pathways controlling germ cell differentiation Signaling function, signaling function on pathways that regulate cell differentiation, function to generate glycerol triphosphate, signaling function on pathways that control the development, differentiation, proliferation, and survival of neurons, onset of Alzheimer's disease In addition to signal transduction functions on pathways that control DNA, various signaling pathways that control the development, differentiation, growth, proliferation, survival, regeneration, and cell functions of various cells It is a factor that binds to and regulates gene expression. Therefore, it can be used as a target for screening for therapeutic agents for various diseases related to these signal transductions. Compounds that can be identified by the present screening method include anticancer agents, therapeutic agents for diabetes, anti-inflammatory agents, therapeutic agents for neurodegenerative diseases, therapeutic agents for heart diseases, therapeutic agents for infertility, agents for regenerating tissue, therapeutic agents for Alzheimer's disease, therapeutic agents for obesity, It can be used as a therapeutic agent for diabetes, a therapeutic agent for cardiovascular diseases, a therapeutic agent for metabolic disorders, a therapeutic agent for anorexia, bulimia, and the like.
[0106]
Such modulators can be used alone for the clinical application, but can also be used as pharmaceutical compositions by mixing with a pharmaceutically acceptable carrier. At this time, the ratio of the active ingredient to the carrier can be varied between 1 and 90% by weight. Such drugs can be administered in various forms, such as tablets, capsules, granules, powders, orally administered by syrup or the like, or injections, drops, liposomes, Parenteral administration with suppositories and the like can be mentioned. In addition, the dose can be appropriately selected depending on symptoms, age, body weight, and the like.
[0107]
(7) Screening of the DNA expression regulator of the present invention
Examples of the screening method include a method of analyzing the expression level of the protein of the present invention or the mRNA encoding the same in the presence of a test substance. Specifically, for example, cells expressing the protein of the present invention described in (2) above are cultured in an appropriate medium containing a test substance, and the amount of the protein of the present invention expressed in the cells is determined by ELISA. And the like, or by analyzing the amount of mRNA encoding the protein of the present invention in the cells by quantitative reverse transcription PCR, Northern blotting, or the like.
[0108]
As the test substance, those described in the above (6) can be used. According to this analysis, if the amount of the protein or mRNA expressed in the cells cultured in the absence of the test substance increases as compared with the amount of the test substance, the substance functions as a substance for promoting the expression of the DNA of the present invention. If it is possible and, on the contrary, decreases, it can be determined that the substance can be used as a substance inhibiting the expression of the DNA of the present invention.
[0109]
The above-mentioned active ingredient can be used alone for clinical application, but can also be used as a pharmaceutical composition by blending it with a pharmaceutically acceptable carrier. At this time, the ratio of the active ingredient to the carrier can be varied between 1 and 90% by weight. Such drugs can be administered in various forms, such as tablets, capsules, granules, powders, orally administered by syrup or the like, or injections, drops, liposomes, Parenteral administration with suppositories and the like can be mentioned. In addition, the dose can be appropriately selected depending on symptoms, age, body weight, and the like.
[0110]
(8) The DNA-introduced animal of the present invention
The transfected DNA containing the DNA of the present invention described in the above (1) is constructed, introduced into a fertilized egg of a mammal other than a human, and this is transplanted into a female individual uterus to generate the DNA. A non-human mammal into which DNA has been introduced can be produced. More specifically, for example, after superovulation of a female individual by hormone administration, it is mated with a male, a fertilized egg is extracted from an oviduct on the first day after mating, and the introduced DNA is microinjected into the fertilized egg. And so on. Thereafter, after culturing by an appropriate method, the surviving fertilized eggs are transplanted into the uterus of a pseudopregnant female individual (foster parent) to give birth. Whether or not the target DNA has been introduced into the newborn can be identified by performing Southern blot analysis on DNA extracted from cells of the individual. Examples of mammals other than humans include mice, rats, guinea pigs, hamsters, rabbits, goats, pigs, dogs, cats, and the like.
[0111]
The thus-obtained DNA-introduced animal of the present invention obtains its offspring by crossing this individual and subculturing it in a normal breeding environment while confirming that the introduced DNA is stably retained. be able to. In addition, the offspring can be obtained by repeating in vitro fertilization, and the strain can be maintained.
The non-human mammal into which the DNA of the present invention has been introduced can be used as an analysis of the function of the DNA of the present invention in a living body, or as a screening system for a substance regulating the function.
[0112]
(9) Other uses of the protein of the present invention and DNA containing a nucleotide sequence encoding the same
The protein of the present invention can be used as a carrier having it bound on a substrate. In addition, the nucleotide sequence encoding the protein of the present invention, for example, a DNA having the nucleotide sequence of any one of SEQ ID NOs: 1 to 13 or 35 and a partial fragment thereof are described in any of SEQ ID NOs: 14 to 26 or 36. And its partial fragments can be used as a carrier on which they are bound on a substrate. These may be hereinafter referred to as “protein chips”, “DNA chips” or “DNA arrays” (DNA microarrays and DNA macroarrays). These protein chips or DNA chips or arrays may contain other proteins and DNAs in addition to the proteins and DNAs of the present invention.
[0113]
Here, a resin substrate such as a nylon film or a polypropylene film, a nitrocellulose film, a glass plate, a silicon plate, or the like is used as a substrate for binding proteins and DNA. When using a fluorescent substance or the like, a glass plate or a silicon plate containing no fluorescent substance is preferably used. The binding of the protein or DNA to the base can be easily carried out by a commonly used method known per se. These protein chips, DNA chips, or DNA arrays are also included in the scope of the present invention.
[0114]
In addition, the amino acid sequence of the protein of the present invention and the nucleotide sequence of DNA can also be used as sequence information. Here, the nucleotide sequence of the DNA includes the nucleotide sequence of the corresponding RNA. That is, a database of amino acid sequences and nucleotide sequences can be constructed by storing the obtained amino acid sequences and nucleotide sequences in an appropriate recording medium in a computer-readable predetermined format. This database may contain the base sequences of other types of proteins and DNAs encoding them. Further, in the present invention, the database also means a computer system that writes the above-mentioned sequence on an appropriate recording medium and performs a search according to a predetermined program. Suitable recording media include, for example, magnetic media such as flexible disks, hard disks, and magnetic tapes; optical disks such as CD-ROM, MO, CD-R, CD-RW, DVD-R, and DVD-RAM; and semiconductor memories. And the like.
[0115]
【Example】
Hereinafter, the present invention will be described in detail with reference to examples, but the scope of the present invention is not limited to these examples.
Example 1  Preparation of cDNA library
(1) Preparation of mRNA
mRNA-prepared mouse (C57BL / 6) 0.5 to 1 g of each organ or tissue is homogenized with 10 ml of a suspension, and 1 ml of 2M sodium acetate at pH 4.0 and the same amount of phenol / chloroform (5: 1 by volume). The mixture was added and extracted. When the same amount of isopropanol was added to the aqueous layer after the extraction, RNA separated and precipitated from the aqueous phase. After incubating the sample on ice for 1 hour, the precipitate was collected in a refrigerated centrifuge at 4,000 rpm for 15 minutes. The sample was washed with 70% ethanol, dissolved in 8 ml of water, and added with 2 ml of 5 M NaCl, 1% of CTAB (cetyltrimethy-lammonium bromide), 4 ml of urea, and 16 ml of an aqueous solution of pH 7.0 containing 50 mM Tris to remove RNA. The precipitate was removed to remove the polysaccharide (CTAB precipitation).
[0116]
Subsequently, the RNA was centrifuged at 4,000 rpm for 15 minutes at room temperature to dissolve the RNA in 4 ml of 7M guanidine-C1. After adding twice the volume of ethanol, the mixture was incubated on ice for 1 hour, centrifuged at 4,000 rpm for 15 minutes, and the resulting precipitate was washed with 70% ethanol to collect RNA, which was dissolved again in water. RNA purity was measured by reading the OD ratios 260/280 (> 1.8) and 230/260 (<0.45).
[0117]
(2) Preparation of first strand cDNA
Using 15 μg of the mRNA prepared in (1) above, 5-methyl-dCTP, dATP, dTTP, and dGTP were converted to 0.54 mM and 0.6 M trehalose in a reaction volume of 165 μl using reverse transcriptase 3,000 units. The reverse transcription reaction was performed under the following conditions: 50 mM Tris-HCl (pH 8.3), 75 mM KCl, 3 mM MgCl 2, 10 mM DTT, 52 ng / μl BSA, and RNase inhibitor 5 units. Oligonucleotide (SEQ ID NO: 27) containing a recognition sequence for restriction enzyme XhoI (wherein V represents A, G, or C, and N represents A, G, C, or T) 12.6 μl is used as a primer. Was.
[0118]
At the start of the reaction, 1/4 of the reaction solution is collected and 1.5 μl of [α-32By adding P] -dGTP (3000 Ci / mmol, 10 μCi / μl; manufactured by Amersham), the synthesis efficiency of the first strand cDNA was measured. 0.5 μl of the RI-labeled reaction solution was spotted on DE-81 paper, and the RI activity before and after washing three times with 0.5 M sodium phosphate buffer (pH 7.0) was measured and calculated. Thereafter, the RI-labeled reaction solution and the non-labeled reaction solution were mixed, 8 μl of 0.5 M EDTA, 2 μl of 10% SDS, and 20 μg of proteinase K were added, and the mixture was heated at 45 ° C. for 15 minutes. After extraction with phenol / chloroform and ethanol precipitation, the precipitate was dissolved in 47 μl of RNase-free water (hereinafter referred to as RNase-free water).
[0119]
(3) 5 'cap structure and addition of biotin to 3' end
Biotinylated RNA Diol In order to bind biotin to the diol site (present at both the 5 'end of the Cap structure and the ribose at the 3' end of the poly A chain), a two-step reaction was performed. They are the oxidation of a diol group followed by the coupling reaction of biotin hydrazide with an oxidized RNA. First, 15 μg of the RNA-first strand cDNA complex obtained by the reverse transcription reaction was placed in a 50 μl reaction mixture using a 6.6 mM sodium acetate buffer (pH 4.5) and sodium periodate as an oxidizing agent. Processed. This oxidation reaction was performed on ice under light-shielding conditions for 45 minutes.
[0120]
Subsequently, 11 μl of 5 M sodium chloride, 0.5 μl of 10% SDS, and the same amount of isopropanol were added, left on ice for 60 minutes, and centrifuged at 4 ° C. for 15 minutes at 15,000 rpm to obtain a precipitate. The precipitate was washed with 70% ethanol and redissolved in 50 μl of RNase-free water. 5 μl of 1 M sodium acetate (pH 6.1), 5 μl of 10% SDS, and 150 μl of 10 mM biotin hydrazide (manufactured by Sigma) were added to the sample, and reacted overnight at room temperature (22 to 26 ° C.). Finally, 5 μl of 5 M NaCl, 75 μl of 1 M sodium acetate (pH 6.1) and 2.5 volumes of ethanol were added, and the mixture was cooled on ice for 1 hour, centrifuged at 4 ° C. for 15 minutes, and biotinylated. After the reaction, the reaction solution was centrifuged for 15 minutes to precipitate the RNA-DNA complex again. The precipitate was washed once with 70% ethanol and once with 80% ethanol, and dissolved in 70 μl of RNase-free water.
[0121]
(4) Selection of full-length cDNA by RNase I
By treating the biotinylated RNA-DNA complex obtained in the above (3) with RNase I that digests single-stranded RNA, mRNA whose mRNA was not completely elongated during the reverse transcription reaction, and mRNA of mRNA The biotin residue labeled at the 3 'end was removed. Specifically, 10 μl of 10 × RNase I buffer (100 mM Tris-HCl (pH 7.5), 50 mM EDTA, 2 M NaOAc) was added to 70 μl of the sample obtained in (3), and RNase I (RNase One).TM200 units (Promega), and the single-stranded RNA was digested at 37 ° C. for 15 minutes.
[0122]
(5) Collection of full-length cDNA
To prevent non-specific adsorption of cDNA to magnetic beads coated with streptavidin, 100 μg of yeast tRNA (treated with DNase I) was added to 5 mg (500 μl) of magnetic beads glass (MPG) particles coated with CPT. , NJ)) and left on ice for 1 hour, followed by washing with a solution of 50 mM EDTA and 2 M NaCl.
[0123]
The beads were suspended in 500 μl of a solution of 50 mM EDTA and 2 M NaCl, and the RNase I-treated cDNA obtained in (4) above was added. By stirring for 30 minutes at room temperature, the magnetic beads and the full-length cDNA were bound. The beads capturing the full-length cDNA were washed 4 times with a solution of 50 mM EDTA and 2 M NaCl, and once with 0.4% SDS, 50 μg / μl yeast tRNA, 10 mM NaCl, 0.2 mM EDTA, and 10 mM Tris-HCl (pH 7.5). Once with 20% glycerol, once with a 50 μg / μl aqueous solution of yeast tRNA, a buffer for RNase H (20 mM Tris-HCl (pH 7.5), 10 mM MgCl 22, 20 mM KCl, 0.1 mM EDTA, 0.1 mM dithiothreitol (DTT)), suspended in 100 μl of RNase H buffer, added with 3 units of RNase H, and heated at 37 ° C. for 30 minutes. Thereafter, 1 μl of 10% SDS and 2 μl of 0.5 M EDTA were added, and the mixture was exposed to 65 ° C. for 10 minutes, and the supernatant was collected.
[0124]
The thus recovered single-stranded full-length cDNA was extracted with phenol / chloroform, and the volume of the solution was reduced to 100 μl or less using a speed bag, and then subjected to G25 / G100 Sephadex chromatography. The fraction having RI activity was collected in a silicon-treated microtube, and 2 μg of glycogen was added, and the precipitate obtained by ethanol precipitation was dissolved in 30 μl of ultrapure water.
[0125]
(6) Addition of oligo dG to single-stranded cDNA
30 μl of the single-stranded cDNA recovered in the above (5) was mixed with 200 mM sodium cacodylate (pH 6.9), 1 mM MgCl 2 in a final volume of 50 μl of the reaction solution.2, 1 mM CoCl2Under the conditions of 1 mM 2-mercaptoethanol and 100 μM dGTP, oligo dG addition reaction was carried out at 37 ° C. for 30 minutes using 32 units of terminal deoxynucleotidyl transferase (TaKaRa). At the end of the reaction, EDTA was added to 50 mM and dissolved in 31 μl of ultrapure water through a series of extractions with phenol / chloroform and ethanol precipitation.
[0126]
(7) Second strand cDNA synthesis
The synthesis of the second-strand cDNA using the first-strand cDNA as a template was performed as follows. In a reaction system having a final volume of 60 μl, a second strand low buffer (200 mM Tris-HCl (pH 8.75), 100 mM KCl, 100 mM (NH4)2SO4, 20 mM MgSO43%, 1% Triton X-100, 1 mg / μl BSA, second strand high buffer (200 mM Tris-HCl (pH 9.2), 600 mM KCl, 20 mM MgCl2) 3 μl, 0.25 mM each of dCTP, dATP, dTTP, and dGTP, 6 μl of β-NADH, 31 μl of oligo dG-added first-strand cDNA, 600 ng of second-strand primer-adapter (SEQ ID NO: 28), and Ex Taq DNA polymerase ( Second-strand cDNA was synthesized using 15 units of TaKaRa ExTaq (TaKaRa), 150 units of thermostable DNA ligase (Ampligase; Epicentre), and 3 units of heat-resistant RNase H (Hybridase; Epicentre).
[0127]
The reaction was stopped by adding 1 μl of 0.5 M EDTA, and further heated at 45 ° C. for 15 minutes in the presence of 1 μl of 10% SDS and 10 μg of proteinase K to finally dissolve the protein components. A double-stranded full-length cDNA purified by extraction with ethanol / chloroform and ethanol precipitation was obtained.
[0128]
(8) Preparation of library
The double-stranded full-length cDNA obtained by the above method was inserted into a λZAPIII vector and recovered as a library. The λZAPIII vector is obtained by modifying SEQ ID NO: 29, which is a partial sequence of the multiple cloning site of λZAPII (manufactured by STRATAGENE) vector, to SEQ ID NO: 30 and newly introducing two SfiI sites.
[0129]
Further, a λPS (RIKEN) vector was prepared, and cDNA was inserted. λPS (RIKEN) (named λ-FLC-1 (FLC means FULL-LENGTH cDNA)) is a λPS vector of MoBiTec (Germany) modified for cDNA. That is, BamHI and SalI convenient for cDNA insertion are respectively introduced into cloning sites existing on both sides of a 10 kbp stuffer, and a 6 kb DNA fragment is inserted into an XbaI site so that a cDNA of about 0.5 kb to about 13 kb can be cloned. (JP-A-2000-325080). Using this λ-FLC-1, for example, in the case of a lung cDNA library, the average chain length of the insert was 2.57 kb, and it was possible to actually clone an insert of 0.5 kb to 12 kb. In the case of the conventional method λZAP, the average chain length of the insert was 0.97 kb, indicating that the use of λ-FLC-1 enables the cloning of a large-sized cDNA more efficiently than λZAP.
[0130]
Example 2  Normalization / subtraction of full-length cDNA library
(1) Preparation of driver
The mRNA prepared in Example 1 (1) (hereinafter sometimes referred to as “(a) RNA driver”) and the RNA prepared by in vitro transcription reaction were used as drivers. The latter RNA is further divided into two types (hereinafter referred to as "(b) RNA driver" and "(c) RNA driver"). One is obtained by recovering cDNA from RNA-cDNA removed by normalization and cloning into a phage vector. After infection with Escherichia coli, 1000 to 2000 plaques per starting material are mixed to form one library (mini-library), which is converted into plasmid DNA by a conventional method (the phage is infected again with Escherichia coli together with helper phage to form a phagemid). , And another infection to obtain plasmid DNA).
[0131]
The obtained DNA was subjected to an in vitro transcription reaction (using T3 RNA polymerase or T7 RNA polymerase), treated with DNase I (RQ1-RNase free; manufactured by Promega) and Proteinase K, and then extracted with phenol / chloroform to obtain RNA (b). An RNA driver was obtained. At this time, as a starting material, a mini-library is prepared from each of nine types of tissues (pancreas, liver, lung, kidney, brain, spleen, testes, small intestine, stomach), and the nine types of mini-libraries are mixed. To obtain RNA. As another RNA, a library (about 20,000 clones) already stored as a non-overlapping clone is cultured, and the obtained DNA is subjected to in vitro transcription reaction in the same manner as (b) RNA driver (c). ) RNA driver.
[0132]
These three kinds of RNAs were labeled with biotin using Label-IT Biotin Labeling Kit (manufactured by Mirus Corporation), added to tester cDNA at a ratio of 1: 1: 1, and reacted with Rot10 (42 ° C.). The second strand was synthesized with respect to the supernatant collected after the treatment with streptavidin beads (CPG).
[0133]
Example 3  Nucleotide sequencing of full-length cDNA clones
(1) clone rearray
One representative clone was selected from each cluster. Representative clones were selected with Q-bot (GENETIX LIMITED) and arrayed on a 384-well plate. At that time, E. coli was cultured in 50 μl of LB medium at 30 ° C. for 18 to 24 hours. At this time, when the cDNA library was introduced into the PS vector and transformed Escherichia coli DH10B, 100 mg / ml ampicillin and 50 mg / ml kanamycin were added, introduced into the Zap vector, and introduced into the SOLR system. If so, 100 mg / ml ampicillin and 25 mg / ml streptavidin were added.
[0134]
(2) Extraction of plasmid and InsSizing
Each of the clones cultured in the above (1) is further cultured in 1.3 ml of an HT solution containing 100 mg / ml of ampicillin, and the cells are collected by centrifugation. Then, QIAprep 96 Turbo (manufactured by QIAGEN) is used. To recover and purify the plasmid DNA. In order to examine the chain length of the cDNA inserted in the obtained plasmid, 1/30 of the plasmid DNA obtained above was digested with the restriction enzyme PvuII and subjected to 1% agarose gel electrophoresis.
[0135]
(3) Sequencing
Three types of sequencers were used to analyze the full-length nucleotide sequence of the full-length cDNA inserted into the thus obtained plasmid. In addition, plasmids were divided into two categories: those having insertion sequences shorter than 2.5 kb and those having longer insertion sequences. Among these, the nucleotide sequence of the clone having an insertion sequence shorter than 2.5 kb was analyzed from both ends. At this time, the plasmid was prepared using the primers described in SEQ ID NOS: 31 (sense strand) and 32 (antisense strand) when the vector was PS, and SEQ ID NO: 33 (sense strand) when the vector was Zap. , And 34 (antisense strand), and reacted with a Thermosequenase Primer Cycle Sequencing Kit (manufactured by Amersham Pharmacia Biotech), and analyzed using a Licor DNA4200 (long read sequencer).
[0136]
Gaps that could not be analyzed by the above nucleotide sequence analysis were determined by the primer walking method. At this time, ABI Prism 377 and / or ABI Prism 3700 (manufactured by Applied Biosystems Inc.), BigDye terminator kit and Cycle Sequencing FS Ready Reaction Kit (Applied Systems, Inc.) were used.
[0137]
In addition, the sequence of a clone in which the inserted cDNA was longer than 2.5 kb was determined by the shotgun method. At that time, Shimadzu RISA 384 and DYEnamic ET terminator cycle sequencing kit (manufactured by Amersham Pharmacia Biotech) were used. To generate a shotgun library, 48 DNA fragments grown by PCR from 48 independent representative clones were used. The ends of the amplified DNA fragment were blunt-ended with T4 DNA polymerase.
This DNA fragment was inserted into a pUC18 vector, and Escherichia coli DH10B was transformed with the recombinant vector. A plasmid was prepared from this E. coli in the same manner as in the above (2).
[0138]
About those representative clones, the base sequence was determined by base sequence analysis from both ends, and the base sequences were ligated on a computer, and then subjected to sharing using Double Stroke Sharing Device (manufactured by Fire Inc.). Nucleotide sequence determination by the shotgun method was performed with duplication of 12 to 15 clones. The gaps whose sequence could not be determined by this nucleotide sequence determination were determined by primer walking in the same manner as described above.
[0139]
Example 4  Analysis of nucleotide sequence
(1) dnaform 34837 (SEQ ID NOS: 1, 14)
As shown in SEQ ID NO: 1, dnaform 34837 was composed of 3717 bases, of which base numbers 134 to 1690 were open reading frames (including a stop codon). The amino acid sequence predicted from the open reading frame consists of 518 amino acid residues (SEQ ID NO: 14). A homology search was performed on the amino acid sequence encoded by SEQ ID NO: 1 using BLAST, and the result was that (i) a database registration symbol was found in the SPTR protein database (integrated SWISS-PROT protein sequence database and TrEMBL nucleic acid translation database). trebl | AK020600 | AK020600_1, RIKEN full-length enriched library, clone: 9530049C15, SCAN domain containing protein, e-value: 5 × 10-171And (ii) the database registration symbol trembl | U88080 | U88080_1, Zinc finger protein protein 192 (LD5-1) is a Kruppel gene family with a SCAN box domain, and e-value: 2x10:−94, 42%. In addition, (iii) the database registration symbol gp | AF154846 | 8099348, and the Homo sapiens zinc finger protein (ZFP) is e-value: 4 × 10−93, 41% match. From these results, it was inferred that the protein consisting of the amino acid sequence shown in SEQ ID NO: 14 was Zinc finger protein.
In addition, a protein characteristic search was performed on the amino acid sequence encoded by the nucleotide sequence shown in SEQ ID NO: 1 by using HMMPFAM. As a result, a sequence exhibiting the characteristics of ZF-C2H2 (a nucleotide sequence entered as LIM in Pfam) was found seven times. Was done.
From these facts, it was presumed that the protein encoded by the nucleotide sequence shown in SEQ ID NO: 1 was a zinc finger type transcription factor.
[0140]
(2) dnaform 63166 (SEQ ID NOs: 2, 15)
As shown in SEQ ID NO: 2, dnform 63166 was composed of 3607 bases, of which base numbers 612 to 2126 were open reading frames (including a stop codon). The amino acid sequence predicted from the open reading frame consists of 504 amino acid residues (SEQ ID NO: 15). A homology search was performed on the amino acid sequence encoded by SEQ ID NO: 2 using BLAST. As a result, (i) a database registration symbol was found in the SPTR protein database (integrating the SWISS-PROT protein sequence database and the TrEMBL nucleic acid translation database). gpnew | BC021456 | 18204788, RIKEN cDNA 2810411K16, e-value: 2 × 10-76100% identity over 139 amino acids, and (ii) the database registration symbol trembl | AK013086 | AK013086_1, RIKEN full-length enriched library, clone: 2810411K16: SCAN domain containing protein: 6 × -e:-7699% identity over 139 amino acids, and (iii) the database accession gp | AK027384 | 14042023, Homo sapiens cDNA FLJ14478 fis, clone MAMMA1001633, e-value: 1 × 10−61, With 86% identity over 140 amino acids.
Further, when a protein characteristic search was performed by using HMMPFAM, a SCAN sequence was found at base numbers 1880 to 2167, and it was presumed from this characteristic that the protein was a DNA-binding protein.
[0141]
(3) dnaform 33383 (SEQ ID NOs: 3, 16)
As shown in SEQ ID NO: 3, dnform 33383 consists of 3704 bases, of which base numbers 662 to 3259 constitute an open reading frame (including a stop codon). The amino acid sequence predicted from the open reading frame consists of 865 amino acid residues (SEQ ID NO: 16). A homology search was performed on the amino acid sequence encoded by SEQ ID NO: 3 using BLAST. As a result, (i) a database registration symbol was found in the SPTR protein database (integrating the SWISS-PROT protein sequence database and the TrEMBL nucleic acid translation database). gp | BC008827 | 14250716, Homo sapiens, clone MGC: 13310 IMAGE: 4110431, e-value: 5 × 10-145, 919 amino acids with a 40% identity, and (ii) the database entry symbol trembl | AF192913 | AF192913_1, Zinc finger protein 180 (HHZ168), e-value: 2 × 10−63And (iii) the database registration symbol gp | U41164 | 1127843, Rattus norvegicus Cys2 / His2 zinc finger protein (rKr1), e-value: 6 × 10−63, 56% identity over 192 amino acids.
In addition, a protein characteristic search by HMMPFAM was performed. As a result, six places of zf-C2H2 were found at base numbers 2786 to 3275, and it was inferred from these characteristics that the protein was a DNA-binding protein.
[0142]
(4) dnaform 39530 (SEQ ID NOs: 4, 17)
As shown in SEQ ID NO: 4, dnaform 39530 was composed of 2397 bases, of which base numbers 661 to 1476 were an open reading frame (including a stop codon). The amino acid sequence predicted from the open reading frame consists of 271 amino acid residues (SEQ ID NO: 17). A homology search was performed on the amino acid sequence encoded by SEQ ID NO: 4 using BLAST, and the result was that (i) a database registration symbol was found in the SPTR protein database (integrated SWISS-PROT protein sequence database and TrEMBL nucleic acid translation database). gp | AB05217 | 11611589, Macaca fascicularis brain cDNA, clone: QccE-18103. But e-value: 2 × 10-95And 79% identity over 220 amino acids, and (ii) the database registration symbol trembl | AF017433 | AF017433_1, Homo sapiens putative transcription factor CR53 has an e-value of 1 × 10−32, 56%. (Iii) Database registration symbol gp | BC007287 | 13938317, Homo sapiens, Similar to zinc finger protein 202, clone MGC: 15660 IMAGE: 3347511, e-value: 1 × 10−32, With 56% identity over 134 amino acids.
In addition, a protein characteristic search was performed on the amino acid sequence encoded by the nucleotide sequence shown in SEQ ID NO: 4 by using HMMPFAM. As a result, an SCAN sequence was found at nucleotide numbers 775 to 1062 (a sequence to be entered as SCAN in Pfam).
From these, it was inferred that the protein encoded by the nucleotide sequence shown in SEQ ID NO: 4 was a transcription factor.
[0143]
(5) dnaform 38861 (SEQ ID NOS: 5, 18)
As shown in SEQ ID NO: 5, dnform 38861 was composed of 2621 bases, of which base numbers 213 to 1703 were open reading frames (including a stop codon). The amino acid sequence predicted from the open reading frame consists of 496 amino acid residues (SEQ ID NO: 18). A homology search was performed on the amino acid sequence encoded by SEQ ID NO: 5 using BLAST. The homology search was performed in the SPTR protein database (integrating the SWISS-PROT protein sequence database and the TrEMBL nucleic acid translation database) into (i) a database registration symbol. gp | BC010591 | 14714873, Mus musculus, zinc finger proliferation 1, e-value: 6 × 10−97, 491 amino acids with 41% identity, and (ii) the database registration symbol trmbl | D10630 | MMZFP51_1, mouse Zinc finger protein 38 (Zfp-38) (CtFIN51) (Transscription factor RU49), e-value: 10-96And 41% identity over 491 amino acids, and (iii) the database entry symbol trembl | AB007886 | AB007886_1, Hypothetical zinc finger protein KIAA0426, e-value: 2 × 10-95Hit with 44% identity over 532 amino acids.
Further, when protein characteristics were searched by HMMPFAM, zf-C2H2 was found eight times at base numbers 929 to 1585, and it was inferred from these characteristics that it was a DNA-binding protein.
[0144]
(6) dnaform 60441 (SEQ ID NOs: 6, 19)
As shown in SEQ ID NO: 6, dnform 60441 was composed of 1830 bases, of which base numbers 122 to 1612 were open reading frames (including a stop codon). The amino acid sequence predicted from the open reading frame consists of 496 amino acid residues (SEQ ID NO: 19). A homology search was performed on the amino acid sequence encoded by SEQ ID NO: 6 using BLAST. As a result, (i) a database registration symbol was found in the SPTR protein database (integrated SWISS-PROT protein sequence database and TrEMBL nucleic acid translation database). gp | BC010591 | 14714873, Mus musculus, zinc finger proferation 1, clone MGC: 18498 IMAGE: 3981599, e-value: 6 × 10−97, 491 amino acids with 41% identity, and (ii) the database registration symbol trmbl | D10630 | MMZFP51_1, mouse Zinc finger protein 38 (Zfp-38) (CtFIN51) (Transscription factor RU49), e-value: 10-96And 41% identity over 491 amino acids, and (iii) the database entry symbol trembl | AB007886 | AB007886_1, Hypothetical zinc finger protein KIAA0426, e-value: 2 × 10-95Hit with 44% identity over 532 amino acids.
Further, when protein characteristics were searched by HMMPFAM, zf-C2H2 was found eight times at base numbers 929 to 1585, and it was inferred from these characteristics that it was a DNA-binding protein.
[0145]
(7) dnaform 42515 (SEQ ID NOs: 7, 20)
As shown in SEQ ID NO: 7, dnform 42515 consists of 2311 bases, of which base numbers 156 to 560 constitute an open reading frame (including a stop codon). The amino acid sequence predicted from the open reading frame consists of 134 amino acid residues (SEQ ID NO: 20). A homology search was performed on the amino acid sequence encoded by SEQ ID NO: 7 using BLAST. As a result, (i) a database registration symbol was found in the SPTR protein database (integrating the SWISS-PROT protein sequence database and the TrEMBL nucleic acid translation database). AJ301670, STATc transcriptional repressor, e-value: 4 × 10-28And 53% identity over 127 amino acids, and (ii) the database registration code P58463, forkhead-related transcription factor 2, e-value: 4 × 10-23And (iii) the database registration symbol P18480 and the Transcription regulatory protein SNF5 were e-value: 2 × 10−24, With 61% identity over 118 amino acids.
Further, the protein of the above (i) is related to the control of the initial development rate and the timing of terminal differentiation from literature information (Mol. Cell, 7 (4), 779-88 (2001)) in the database, and , Can function as a repressor that regulates the expression of the ecmA gene. The protein of (ii) can be obtained from the literature information in the database (J. Biol. Chem. 1998, 273 (36): 23335-43). And that the transcription factor expressed in the placenta binds to the cis factor of several lung-specific genes. Furthermore, the protein of (iii) is described in the literature information (Mol. Cell. Biol., 1990, 10 (11): Transformation of genes regulated by glucose and phosphate from 5616-25) Be involved in the control has been revealed, respectively.
These results suggest that the protein encoded by the nucleotide sequence of SEQ ID NO: 7 is a transcription factor.
[0146]
(8) dnaform 41143 (SEQ ID NOs: 8, 21)
As shown in SEQ ID NO: 8, dnform 41143 consists of 2646 bases, and among them, base numbers 149 to 1591 constitute an open reading frame (including a stop codon). The amino acid sequence predicted from the open reading frame consists of 480 amino acid residues (SEQ ID NO: 21). A homology search was performed on the amino acid sequence encoded by SEQ ID NO: 8 using BLAST, and it was found that (i) a database registration symbol was obtained in the SPTR protein database (integrating the SWISS-PROT protein sequence database and the TrEMBL nucleic acid translation database). AL03455, zinc finger protein 151 (pHZ-67), e-value: 1 × 10-25And (ii) the database registration symbol Q13105, Myc-interacting zinc finger protein, with e-value: 2 × 10-25Hit with 48% identity over 121 amino acids. From these results, it was inferred that the protein consisting of the amino acid sequence shown in SEQ ID NO: 21 was a Zinc finger type DNA binding protein.
In addition, the above-mentioned protein (ii) was found to be Myc-interacting zinc finger protein from literature information (Curr Top Microbiol Immunol 1997; 224: 137-46) in the database.
When a protein characteristic search was performed on the amino acid sequence encoded by the base sequence shown in SEQ ID NO: 8 by HMMPFAM, a sequence showing characteristics related to protein dimerization at amino acids 9 to 121 (an amino acid entered as BTB in Pfam) Sequence) was found. In addition, Zinc finger domain (an amino acid sequence entered as zf-C2H2 in Pfam) was also found at one place.
From these facts, it was inferred that the protein encoded by the nucleotide sequence shown in SEQ ID NO: 8 was a Zinc finger type DNA binding protein.
[0147]
(9) dnaform 34196 (SEQ ID NOS: 9, 22)
As shown in SEQ ID NO: 9, dnaform 34196 was composed of 2796 bases, of which base numbers 597 to 1982 were open reading frames (including a stop codon). The amino acid sequence predicted from the open reading frame consists of 461 amino acid residues (SEQ ID NO: 22). A homology search was performed on the amino acid sequence encoded by SEQ ID NO: 9 using BLAST. As a result, the SPTR protein database (a combination of the SWISS-PROT protein sequence database and the TrEMBL nucleic acid translation database) contained (i) a database registration symbol. Q9P255, Hypothetical zinc finger protein KIAA1473, e-value: 1 × 10−59And with 37% identity over 295 amino acids, and (ii) database entry P52742, Zinc finger protein 135 with e-value: 2 × 10-58With 39% identity over 277 amino acids. From these results, it was inferred that the protein consisting of the amino acid sequence shown in SEQ ID NO: 22 was a Zinc finger type DNA binding protein.
The protein (ii) is known to be a zinc finger Kruppel family from literature information (Genomics 1995 May 20; 27 (2): 259-64) in a database, and is considered to be a developmental disorder. I found it involved.
In addition, a protein characteristic search was performed on the amino acid sequence encoded by the nucleotide sequence shown in SEQ ID NO: 9 by using HMMPFAM. As a result, Ninc finger domain (sequence entered as zf-C2H2 in Pfam) was found at 9 positions in amino acids 43 to 299. Found in.
From these facts, it was presumed that the protein encoded by the nucleotide sequence shown in SEQ ID NO: 9 was a Zinc finger type DNA binding protein.
[0148]
(10) dnaform 37479 (SEQ ID NOs: 10, 23)
As shown in SEQ ID NO: 10, dnform 37479 was composed of 2717 bases, of which base numbers 230 to 907 were open reading frames (including a stop codon). The amino acid sequence predicted from the open reading frame consists of 225 amino acid residues (SEQ ID NO: 23). A homology search was performed on the amino acid sequence encoded by SEQ ID NO: 10 using BLAST, and the result was that (i) a database registration symbol was found in the SPTR protein database (integrated SWISS-PROT protein sequence database and TrEMBL nucleic acid translation database). Q9NQX1, PR-domain zinc finger protein 5 is e-value: 3 × 10-13And (ii) the database registration symbol X82018, zinc finger protein with interaction domain, e-value: 2 × 10-12, With 43% identity over 81 amino acids. From these results, it was inferred that the protein consisting of the amino acid sequence shown in SEQ ID NO: 23 was a Zinc finger type DNA binding protein.
The protein (ii) was found to be (zinc finger protein with interaction domain) from the literature information (Genes Dev 1994 Jul 15; 8 (14): 1664-77) in the database.
When the amino acid sequence encoded by the nucleotide sequence shown in SEQ ID NO: 10 was searched for protein characteristics by HMMPFAM, Zinc finger domain at amino acids 12-34 and 40-63 (sequence to be entered as zf-C2H2 in Pfam) ) Were found in two places.
From these facts, it was presumed that the protein encoded by the nucleotide sequence shown in SEQ ID NO: 10 was a Zinc finger type DNA binding protein.
[0149]
(11) dnaform 59635 (SEQ ID NOS: 11, 24)
As shown in SEQ ID NO: 11, dnform 59635 was composed of 2709 bases, of which base numbers 566 to 1228 were open reading frames (including a stop codon). The amino acid sequence predicted from the open reading frame consists of 220 amino acid residues (SEQ ID NO: 24). A homology search was performed on the amino acid sequence encoded by SEQ ID NO: 11 using BLAST. As a result, (i) a database registration symbol was found in the SPTR protein database (integrated SWISS-PROT protein sequence database and TrEMBL nucleic acid translation database). Q9NQX1, PR-domain zinc finger protein 5 is e-value: 4 × 10-13And (ii) the database registration symbol X82018, zinc finger protein with interaction domain, e-value: 3 × 10-11, With 41% identity over 81 amino acids. From these results, it was inferred that the protein consisting of the amino acid sequence shown in SEQ ID NO: 24 was a Zinc finger type DNA binding protein.
The protein (ii) was found to be (zinc finger protein with interaction domain) from the literature information (Genes Dev 1994 Jul 15; 8 (14): 1664-77) in the database.
In addition, when a protein characteristic search was performed on the amino acid sequence encoded by the base sequence shown in SEQ ID NO: 11 by HMMPFAM, amino acid numbers 12-34 and 40-63 showed Zinc finger domain (sequence to be entered as zf-C2H2 in Pfam). ) Was found.
From these facts, it was presumed that the protein encoded by the nucleotide sequence shown in SEQ ID NO: 11 was a Zinc finger type DNA binding protein.
[0150]
(12) dnaform 33773 (SEQ ID NOs: 12, 25)
As shown in SEQ ID NO: 12, dnform 33773 consists of 3249 bases, of which base numbers 487 to 2127 constitute an open reading frame (including a stop codon). The amino acid sequence predicted from the open reading frame consists of 546 amino acid residues (SEQ ID NO: 25). A homology search was performed on the amino acid sequence encoded by SEQ ID NO: 12 using BLAST. As a result, (i) a database registration symbol was found in the SPTR protein database (integrating the SWISS-PROT protein sequence database and the TrEMBL nucleic acid translation database). AF097416, Mus musculus zinc finger transcription factor Kaiso has e-value: 2 × 10−27And (ii) the database registration number AF420316, Xenopus laevis BTB / POZ zinc finger transcription factor XKaiso, with an e-value of 2 × 10−29Hit with 48% identity over 136 amino acids.
In addition, when a protein characteristic search was performed on the amino acid sequence encoded by the nucleotide sequence shown in SEQ ID NO: 12 by using HMMPFAM, BTB (for BR-C, ttk and bab) or was found in the region of amino acid numbers 17 to 131 in SEQ ID NO: 25. A sequence (amino acid sequence entered as BTB in Pfam) showing the characteristics of the POZ (for Pox virus and Zinc finger) domain was found, and a sequence (Pfam) showing the characteristics of Msx-interacting-zinc finger in the region of amino acids 337-380. An amino acid sequence that is entered as zf-MIZ in the region of amino acid Nos. 340-508 was found at four positions showing the characteristics of Zinc finger, C2H2 type (Pfam). (An amino acid sequence entered as zf-C2H2).
From these results, it was inferred that the protein encoded by the nucleotide sequence shown in SEQ ID NO: 12 is a Kaiso-like transcription factor having a zinc finger.
[0151]
(13) dnaform 51218 (SEQ ID NOs: 13, 26)
As shown in SEQ ID NO: 13, dnaform 51218 is composed of 2950 bases, of which a codon of an amino acid other than the stop codon continues up to 2950 (the last base of the sequence) in the frame following base number 167. The amino acid sequence encoded by the region from 167 to 2950 consists of 927 amino acid residues (SEQ ID NO: 26). A homology search was performed on the amino acid sequence encoded by SEQ ID NO: 13 using BLAST, and as a result, (i) a database registration symbol was found in the SPTR protein database (integrated SWISS-PROT protein sequence database and TrEMBL nucleic acid translation database). AY044336, Xenopus laevis DNA-methylation dependent transcriptional repressor Kaiso-like protein (Kaiso) has e-value: 4 × 10−32And with 48% identity over 137 amino acids, and (ii) the database registration number AF420316, Xenopus laevis BTB / POZ zinc finger transcription factor XKaiso, with an e-value of 4 × 10−32Hit with a 48% match over 137 amino acids.
Further, a protein characteristic search was performed on the amino acid sequence encoded by the nucleotide sequence shown in SEQ ID NO: 13 by using HMMPFAM. As a result, BTB (BR-C, ttk and bab) or POZ was found in the region of amino acid numbers 17 to 131 in SEQ ID NO: 26. (Pox virus and Zinc finger) A sequence showing the characteristics of the domain (an amino acid sequence entered as BTB in Pfam) was found, and a sequence showing the characteristics of Msx-interacting-zinc finger in the region of amino acid numbers 337 to 380 (Pfam was zf) An amino acid sequence entered as MIZ) was found, and a sequence exhibiting the characteristics of Zinc finger, C2H2 type at five positions in the amino acid number 340-537 region (zf-C2H2 in Pfam) It has been found amino acid sequence), which is an entry in.
From these results, it was inferred that the nucleotide sequence shown in SEQ ID NO: 13 was a part of the sequence of the gene for a transcription factor of Kaiso-like having zinc finger.
[0152]
Example 5  Tissue expression analysis using DNA microarray
Tissue expression analysis is described in Miki, R .; , Et al. , Proc. Natl. Acad. Sci. USA, 98, 2199-2204 (2001).
(1) Preparation of DNA microarray
Nucleotide sequences of two types of mouse full-length cDNAs (dnaform 33383, dnaform 34196) and one type of mouse cDNA library FANTOM (HYPERLINK http: // hyperlink: http: //hyperlink.com) belonging to the same cluster as the mouse full-length cDNA to be analyzed (having a base sequence homologous to the cDNA). After amplifying the base sequence (FANTOM NO: 9530049C15) of cDNA derived from /fantom.gsc.riken.go.jp/http://fantom.gsc.riken.go.jp/ using M13 forward and reverse primers, The PCR product was precipitated with isopropanol and dissolved in 15 μl of 3 × SSC solution. These three DNA solutions were spotted on a glass slide coated with poly-L-lysine using a DNA arrayer of 16 chips (SMP3, TeleChem International, Sunnyvale, Calif.) To prepare a DNA microarray (for details of the method, see http ///Cmgm.stanford.edu/pbrown/mgide/index.html). Mouse β-actin and glyceraldehyde-3-phosphate dehydrogenase cDNA were used as a positive control, and Arabidopsis thaliana cDNA was used as a negative control.
[0153]
The detection sensitivity of this DNA microarray was 1 to 3 copies of mRNA per cell. The signal intensity of clones having approximately 80% identity with the target sequence was one-tenth that of clones with perfect sequence identity. The signal intensity of clones with less than 80% match with the target sequence was at the background level.
[0154]
(2) Preparation of probe
22 tissues of fetal, neonatal and adult C57BL / 6J mice (kidney, brain, spleen, lung, liver, testis, pancreas, stomach, small intestine, colon, placenta, heart, thymus, cerebellum, uterus, bone, muscle, spine 1 μg of mRNA extracted from side kidney-derived adipocytes, epididymal-derived adipocytes, visceral fat, 10-day-old neonatal cerebellum, 10-day-old neonatal skin) was subjected to a random prime reverse transcription reaction according to a standard method to obtain a fluorescent dye Cy3 (Amersham Pharmacia). I took it in. On the other hand, 1 μg of mRNA extracted from a whole body of a 17.5-day-old fetus was subjected to a random prime reverse transcription reaction, and the fluorescent dye Cy5 was taken in as a reference for expression analysis. The CyDye-labeled cDNA probe was purified using a CyScribe GFX Purification Kit (Amersham Pharmacia) and eluted from the column with 17 μl of sterile water. This was mixed with a blocking solution consisting of 3 μl of 10 μg / μl oligo (dA), 3 μl of yeast tRNA 20 μg / μl, 1 μl of 20 μg / μl mouse Cot1 DNA, 5.1 μl of 20 × SSC, and 0.9 μl of 10% SDS. Thus, a CyDye-labeled cDNA probe was prepared.
[0155]
(3) Hybridization of DNA microarray
A 30 μl solution obtained by mixing a cDNA probe (Cy3 label) derived from a tissue to be subjected to expression analysis and a reference cDNA probe (Cy5 label) derived from a 17.5-day-old fetus was heat-treated at 95 ° C. for 1 minute, and cooled at room temperature. The probe solution was added to the DNA microarray, covered with a cover slip, and hybridized at 65 ° C. overnight in Hybridasette (ArrayIt). Next, the DNA microarray was washed with 2 × SSC, 0.1% SDS, and subsequently rinsed with 1 × SSC for 2 minutes and 0.1 × SSC for 2 minutes. The microarray was scanned using a ScanArray 5000 confocal laser scanner, and the images were analyzed with IMAGENE (BioDiscovery).
[0156]
(4) Data analysis
The amount of mRNA (Cy3-labeled) in each tissue is expressed as a logarithm (log) of the ratio (Cy3 / Cy5) to the amount of fetal whole-body mRNA at 17.5 days of age (Cy5-labeled).2). That is, if the mRNA expression level corresponding to each mouse full-length cDNA to be analyzed is larger in each tissue than in the reference tissue, it is a positive value; Indicated by Experiments were performed twice independently to increase the accuracy of the data and reproducible results were employed. The results are shown in Table 1 below.
[0157]
Generally, in expression analysis using a DNA array, an increase or decrease of about 2 times is regarded as an experimental error. From this, when the numerical value of the result shown in Table 1 is 1 or more, the amount of mRNA in a certain tissue is more than twice as large as the amount of mRNA of the whole body of a fetal 17.5-day-old control, which is significant. Was interpreted as increasing. Conversely, when the numerical value of the result is -1 or less, the amount of mRNA in a certain tissue is less than one-half that of the whole fetal mRNA at 17.5 days of age as a control, and is significantly reduced. I interpreted that. When comparing the mRNA expression levels between any tissues, if the difference between the values in each tissue is 1, the mRNA level is 2 times, and if it is 2, the mRNA level is 4 times. If the difference between the numerical values is -1, the amount of mRNA is 1/2 times, and if it is -2, the amount of mRNA is 1/4 times.
[0158]
Mouse cDNA clones belonging to the same cluster as the DNA spotted on the microarray and having a region having a nucleotide sequence identity of 80% or more over at least 200 bases are also described in Table 1 as cDNAs to be analyzed. And the numerical value of the measurement result of the DNA spotted on the microarray is described instead.
[0159]
[Table 1]
Figure 2004229642
[0160]
Expression analysis of dnaform 34837 was found to increase only in the pancreas by expression analysis using FANTOM No: 9530049C15 as a probe. Expression analysis of dnaform 33383 using itself as a probe revealed that expression was reduced in a wide range of tissues. Expression analysis of dnaform 39530 was found to be reduced in a wide range of tissues by expression analysis using dnaform 33383 as a probe. Expression analysis of dnaform 34916 using itself as a probe revealed that expression was reduced only in testis.
[0161]
Example 6  Tissue expression analysis using PCR method
In order to examine the change in tissue expression of mRNA encoding the protein of the present invention in normal mice and diseased mice, a PCR method is used according to a standard method (Higuchi R, et al., Biotechnology, 11: 1026-30 (1993)). The tissue expression analysis used was performed.
[0162]
(1) cDNA synthesis
Total RNA was extracted from 19 tissues of the following mice (Kazuo Moriwaki, one other edition, Molecular Medicine, separate volume, Vol. 36, “Spontaneous Disease Model Animals”, Nakayama Shoten, 1999), and reverse transcription was performed using oligo dT as a primer. CDNA synthesis was performed using the enzyme.
(A) Tissue of normal mouse and tissue of diabetic model mouse
{Circle around (1)} Control mouse C57BL / KsJ − + m / + m Jcl (female, 8 weeks old) whole brain, thalamus, lung, kidney, bone marrow, pancreas, fat cells, liver, eyes
(2) Diabetes model mouse C57BL / KsJ-db / db Jcl (female, 8 weeks old) pancreas, adipocyte, liver, eye
(B) Tissue of senescence accelerating mouse
(1) Normally aged mouse SAM R1 / TA Slc (male, 13 weeks old) hippocampus, frontal cortex
(2) Senescence-accelerated mouse SAM P8 / Ta Slc (male, 15 weeks old) hippocampus, frontal cortex
(C) Tissue of cancer metastasis model mouse
(1) Normal colon of control mouse Balb / c (female, 5 weeks old)
(2) Colon metastasis model mouse Balb / c (female, 6 weeks old) colon cancer (colon cancer cells Colon 26 are transplanted into the mouse abdominal cavity, and colon cancer is removed 2 weeks later)
[0163]
(2) Quantification by PCR method
The expression of the following six mRNAs encoding the protein of the present invention was attached to the product using a LightCycler quantitative PCR device (Roche Diagnostics) and a LightCycler-FastStart DNA master SYBR Green I reagent. Quantification was performed according to the protocol provided. The synthetic DNA sequences used for quantitative PCR are shown below.
[0164]
(A) dnaform 33773
5'-side primer: AGGATTGGCGAACTATCCAG (SEQ ID NO: 37)
3'-side primer: CCACGAGTGAACATTTGCAT (SEQ ID NO: 38)
(B) dnaform 38861
5'-side primer: ACTCAGAGAGCCACGCCAAAA (SEQ ID NO: 39)
3'-side primer: TGTTGGAACCGTTTCCTGAG (SEQ ID NO: 40)
(C) dnaform 41143
5'-side primer: GCTGCACAAACGGTCTCATA (SEQ ID NO: 41)
3'-side primer: ACCAAGAGGGGCAACAGGAG (SEQ ID NO: 42)
(D) dnaform 42515
5'-side primer: TGTGCTGTCATCTGAGACTTTGA (SEQ ID NO: 43)
3'-side primer: CCTTGTTACAACCAAGGGTAGA (SEQ ID NO: 44)
(E) dnaform 51218
5'-side primer: AGGATTGGCGAACTATCCAG (SEQ ID NO: 45)
3'-side primer: CTCCACGAGTGAACATTTGC (SEQ ID NO: 46)
(F) dnaform 60441
5'-side primer: TCAGGAAACGGTTCCAACAT (SEQ ID NO: 47)
3'-side primer: TCCTTGGAGGATTTCTTTCTCTG (SEQ ID NO: 48)
[0165]
The quantitative results were corrected using Glyceraldehyde 3-phosphate dehydrogenase (GAPDH) as an internal standard. That is, the expression amount (copy number / μl) of the target gene in each tissue was divided by the expression amount of GAPDH (copy number / μl) to obtain a constant (1 × 106) (Note: 10 to the sixth power).
[0166]
To summarize the results, dnaform 33773 was strongly expressed in the whole body, but was particularly strongly expressed in lung, pancreas, fat and brain. Although dnaform 38861 was strongly expressed in the whole body, it was particularly strongly expressed in pancreas and lung. Dnaform 41143 was expressed systemically, but was relatively strongly expressed in pancreas, lung and fat. dnaform42515 was specifically expressed in the brain, especially in the frontal cortex. Although dnaform51218 is strongly expressed in the whole body, it was particularly strongly expressed in lung, pancreas, fat and brain. Although dnaform 60441 was expressed systemically, it was particularly strongly expressed in pancreas and lung. The cDNA of the clone and the protein encoded by the cDNA can be applied to the treatment and diagnosis of diabetes, cancer and the like. Further, the protein encoded by the cDNA may be involved in a disease relating to a tissue in which the expression of mRNA is fluctuated as described above or a tissue having a high mRNA expression level.
[0167]
[Table 2]
Figure 2004229642
[0168]
Example 7  Protein-protein interaction analysis
Using the two-hybrid method in mammalian cells (Suzuki, H., et al., Genome Research, 11, 1758-1765 (2001)), two types of mouse full-length cDNA base sequence (dnaform33773, dnaform34837) proteins The protein-protein interaction of the protein encoded by the coding sequence was comprehensively analyzed.
(1) Rapid sample preparation using PCR method
In a two-hybrid experiment using mammalian cells, a CheckMate mammarian two-hybrid system (manufactured by Promega) was used. Samples for protein-protein interaction analysis were a plasmid vector pBIND having a Gal4 gene DNA binding region inserted downstream of a CMV promoter, a plasmid vector pACT having a VP16 gene transcription activation region inserted downstream of a CMV promoter, and 5 Was prepared using a plasmid vector pG5luc in which a reporter luciferase gene was inserted downstream of the Gal4 binding region and the TATA box. A fusion gene of the Gal4 gene and the protein coding sequence of the nucleotide sequence (dnaform 33773, dnaform 34837) of the two types of mouse full-length cDNAs, and the VP16 gene and the mouse cDNA library FANTOM (http://fantom.gsc.liken.go.jp/). ), A fusion gene with the protein coding sequence of the full-length cDNA of each clone was prepared basically by a combination of ligation using a common sequence and a two-step PCR method according to the protocol of Promega (Suzuki, H., et al.). et al., Genome Research, 11, 1758-1765 (2001)). The protein coding sequence of the mouse cDNA was PCR-amplified using a forward primer having a common sequence on the 5 ′ side and a gene-specific sequence on the 3 ′ side and an M13 universal primer, and then the above amplification product and pBIND or pACT were amplified. A PCR amplification product (with a common sequence added to the 3 ′ side) is mixed, and a second-stage PCR amplification is performed using nested primers to express a fusion protein of Gal4 and mouse protein (BIND sample) Alternatively, a vector (ACT sample) for expressing a fusion protein of VP16 and mouse protein was constructed.
[0169]
(2) Two-hybrid experiments on high-throughput mammalian cells
BIND and ACT samples prepared by the PCR method were used directly without further purification. 0.25 μl of each of the BIND sample and the ACT sample, 30 ng of pG5luc, and 9.5 μl of Opti-MEM medium (Lifetech) were dispensed into a 384-well plate. 10 μl of LF2000 transfection reagent (manufactured by Lifetech) diluted 32 times with Opti-MEM medium was added to the wells, mixed, incubated for 20 minutes, and then suspended in F12 medium at 1,300 cells / μl CHO-K1 Chinese. 20 μl of a hamster cell solution was added and well suspended. The assay sample is2After culturing for 20 hours in an incubator, luciferase activity was measured using Steady-Glo Luciferase Assay System (Promega) to confirm the interaction.
[0170]
As a result, the proteins encoded by the protein coding sequences of the nucleotide sequences (dnaform 33773 and dnaform 34837) of the two types of mouse full-length cDNAs are the following specific proteins (protein coding sequences of cDNAs contained in specific clones of the mouse cDNA library FANTOM): Has a specific protein encoded by the protein.
[0171]
[Table 3]
Figure 2004229642
[0172]
(3) Consideration
The protein of the present invention encoded by Dnaform 33773 was found to have an intermolecular interaction with SRP40. SRP40 is one of the SR proteins which are a group of proteins involved in the splicing reaction of the pre-mRNA, and is a protein necessary for the splicing pathway of protein kinase C beta II mRNA involving phosphatidylinositol 3-kinase. It is known that this SRP40 regulates the expression of protein kinase C beta II, and this action regulates insulin-dependent glucose metabolism (J. Biol. Chem., 276 (25): 22648-54). , 2001). Therefore, an abnormality in SRP40 may cause diabetes. The protein of the present invention encoded by Dnaform 33773 is expected to have a Zinfinger and to have a transcription control activity, and when these results are analyzed comprehensively, it is encoded by Dnaform 33773 that binds to SRP40 that can cause diabetes. Can be presumed to be a protein that can cause diabetes.
The protein of the present invention encoded by Dnaform 34837 was found to interact with Pregnane X receptor 2 (PXR2). PXR2 is one of the nuclear steroid receptors and one of the nuclear receptors that is involved in the steroid compound-mediated signal transduction system in a complex manner. In the liver, it is known to be present in the cytoplasm and form a heterodimer with RXR (Retinoid X receptor) upon exposure to a ligand to translocate to the nucleus and to be involved in specific gene expression. . Specifically, for example, PXR is known to induce a drug metabolism system such as a cytochrome P450 (CYP) enzyme in response to a drug, and it is known that the PXR functions as a foreign substance (drug) sensor in a living body. Is speculated. It is known that this PXR abnormality causes so-called lifestyle-related diseases such as diabetes, hyperlipidemia, hypertension, and ischemic heart disease, and causes various endocrine diseases. The protein of the present invention encoded by Dnaform 34837 is a Zinc-finger protein, which is predicted to be a protein having a transcription control activity, and which is present in the nucleus and binds to a specific DNA sequence to transmit information. Is expected to be involved. Comprehensive analysis of the above results suggests that Dnaform 34837 is a protein that may form a heterodimer under conditions coexisting with PXR2 and may be involved in transcriptional control.
[0173]
Example 8  Obtaining human ortholog DNA
(1) Prediction of DNA ortholog DNA of dnaform33383
BLAST search for the human genome draft sequence (NCBI Build 30; http://www.ncbi.nlm.nih.gov/About/Doc/hs#genomeintro.html) using the base sequence of dnaform33383 (SEQ ID NO: 3) as a query. As a result, a region from 24.62 Mb to 24.66 Mb of 6p12.1 on chromosome 16 was found as a region of high homology.
Gene region prediction was performed on the genomic sequence region using a gene prediction program Genscan (http://genes.mit.edu/GENSCAN.html), and homology search was performed on the obtained predicted transcript sequence. As a result, a sequence consisting of 3520 bases (SEQ ID NO: 49) was obtained. This nucleotide sequence contained an open reading frame (SEQ ID NO: 35) of 2904 nucleotides at nucleotides 319-3219. The mouse nucleotide sequence of SEQ ID NO: 3 was found to have 81% homology to the human nucleotide sequence of SEQ ID NO: 35 over a length of about 2580 base pairs.
[0174]
It was predicted that the nucleotide sequence of SEQ ID NO: 35 would be translated into the human amino acid sequence of SEQ ID NO: 36. There was 81% homology over the 864 amino acid sequence between the amino acid sequence of SEQ ID NO: 36 and the amino acid sequence predicted from the open reading frame of dnaform 33383 (SEQ ID NO: 16).
Further, when the amino acid sequence of SEQ ID NO: 36 was queried, a homology search by BLAST was performed on the mouse cDNA library FANTOM database (http://fantom.gsc.ricken.go.jp/), and the result was SEQ ID NO: 16. Has the highest homology.
[0175]
In addition, in the BLAST homology search with respect to the public database “emble” database and the patent database “Genseq” database, a human base sequence having a higher homology than the base sequence of SEQ ID NO: 35 could not be searched.
Therefore, SEQ ID NO: 35 was considered to be a novel human orthologous DNA for SEQ ID NO: 3.
(2) Analysis of the nucleotide sequence of the obtained human ortholog DNA
Further analysis was performed on the nucleotide sequence of the human ortholog DNA predicted in (1) above and the amino acid sequence encoded by the nucleotide sequence.
First, a homology search was performed on the amino acid sequence represented by SEQ ID NO: 36 using BLAST, and the NRDB protein database (a database of non-overlapping amino acid sequences created from SWISS-PROT, PIR, TREMBLE, GENPEPT, PDB) In addition, there was no sequence showing homology to the amino acid sequence of the mouse described in SEQ ID NO: 16 in the database of patent sequences. From this, it was inferred that the protein having the amino acid sequence of SEQ ID NO: 36 was a human ortholog protein of a mouse protein having the amino acid sequence of SEQ ID NO: 16.
The human amino acid sequence described in SEQ ID NO: 36 was subjected to protein characteristic search using HMMPFAM. As a result, SCAN domain (amino acid sequence entered as SCAN in Pfam) was substituted for amino acids 39 to 134, and KRAB box was substituted for amino acids 229 to 269. The region (amino acid sequence entered as KRAB in Pfam) is described in amino acid numbers 775-797, 803-825, 831-853, 859-881, 887-909, and 915-937, which show the characteristics of Zinc Finger, C2H2 type domain. A sequence (an amino acid sequence entered as Pfam as zf-C2H2) was found.
SCAN domain is a conserved motif found at the N-terminus of some C2H2-type Zn finger proteins, and is known to have a role in regulating oligomer formation and controlling transcription. Kruppel-associated box (KRAB) is found in about one-third of C2H2-type Zn finger proteins, is present at the N-terminal part, and acts to suppress transcription upon binding to DNA, and acts together with the Zn finger domain in cells. It is known to be involved in differentiation and development.
From the above, it was presumed that the protein having the amino acid sequence of SEQ ID NO: 36 was a C2H2-type Zn finger protein having a Kruppel-associated box (KRAB) and was a transcription factor involved in the suppression of transcription.
[0176]
(3) Obtaining human ortholog DNA of dnaform33383
Since a novel human ortholog DNA was predicted in the above (1) and (2), the cDNA was cloned as follows.
First, in order to select a tissue serving as a genetic resource for obtaining the cDNA, a human tissue-derived cDNA (manufactured by Clontech) was used as a template by using forward primer 1 (SEQ ID NO: 50) and reverse primer 1 (SEQ ID NO: 51). When the PCR was performed, amplification of the target DNA of about 150 bp was confirmed in the uterus, prostate, pituitary gland, brain, fetal brain, hippocampus, and thalamus. Forward primer 1 corresponds to base numbers 1294-1313 of SEQ ID NO: 35, and reverse primer 1 corresponds to base numbers 1443-1424 of SEQ ID NO: 35.
[0177]
Next, in order to obtain the full length of the open reading frame, PCR using forward primer 2 (SEQ ID NO: 52) and reverse primer 2 (SEQ ID NO: 53) was performed using cDNAs derived from these tissues as templates. These primers are primers designed using a sequence located outside the open reading frame in the human base sequence of SEQ ID NO: 49, and forward primer 2 corresponds to base numbers 253-272 of SEQ ID NO: 49, Reverse primer 2 corresponds to base numbers 3256-3237 of SEQ ID NO: 49.
[0178]
As a result of the PCR, 2.9 kb of DNA was amplified in the uterus, prostate, pituitary gland, fetal brain, hippocampus, and thalamus, which was consistent with the expected value. Of these, direct sequencing was performed using PCR-amplified DNA fragments derived from the uterus, prostate, and fetal brain as templates, and it was found that all three had the same sequence and that there was no mistake due to PCR. Therefore, the PCR amplified DNA fragment derived from the uterus was ligated to the pCR4Blunting-TOPO vector (manufactured by Invitrogen), and the plasmids derived from the three independent colonies obtained were sequenced. Exactly the same sequence as base Nos. 253-1256 (including the base sequence corresponding to the full length of the human open reading frame described in SEQ ID No. 35) was inserted.
From the above, it was shown that the expected human transcript (protein) was actually expressed, and it was found that the cDNA could be obtained. The thus obtained human homolog DNA was designated as ZG1001.
[0179]
When the amino acid sequence derived from the human base sequence (SEQ ID NO: 36) and the amino acid sequence derived from the mouse base sequence (SEQ ID NO: 16) are compared, amino acid numbers 64-913 on the human amino acid sequence are compared with those on the mouse amino acid sequence. The degree of identity was high at amino acid numbers 7-856, the human amino acid sequence was 59 amino acids longer at the N-terminus, and 36 amino acids longer at the C-terminus.
Furthermore, when the human base sequence (SEQ ID NO: 35) and the mouse base sequence (SEQ ID NO: 3) were mapped to the human genome and the mouse genome, respectively, both were encoded in seven exons. Each of the N-terminal and C-terminal-encoding portions was one exon from a portion with high coincidence to a portion with low coincidence. That is, it was found that the difference between the N-terminus and the C-terminus of these sequences was not the proper use of exons but the difference between species.
[0180]
Example 9  Analysis of binding ability to target transcription regulatory region
(1) Preparation of the protein of the present invention using a cell-free protein synthesis system
For a plasmid containing DNA encoding the protein of the present invention, Proc. Natl. Acad. Sci. USA, 99, 14652-14657 (2002), and a PCR reaction was performed to prepare a DNA fragment for transcription. Using this DNA as a template, a transcription reaction was performed using SP6 RNA Polymerase (manufactured by Promega) to synthesize mRNA, and the mRNA obtained by ethanol precipitation was purified. Protein synthesis using this mRNA is described in JP-A-2002-204689 and Proc. Natl. Acad. Sci. USA, 99: 14652-14657 (2002), using a cell-free protein synthesis system by an overlay method. The translation solution (25 μl) used in the overlay cell-free protein synthesis system includes Proc. Natl. Acad. Sci. USA, 97: 559-564 (2000), 6 μl of wheat germ extract and the above-mentioned mRNA (0.02 nmol) were added and used, and the composition was 24 mM Hepes / KOH (pH 7.8), 1.2 mM ATP, 0.25 mM GTP, 16 mM creatine phosphate, 10 μg creatine kinase, ribonuclease inhibitor (20 units), 2 mM DTT, 0.4 mM spermidine, 0.3 mM amino acid type, 0.3 mM spermidine L 2.7 mM magnesium acetate, 100 mM potassium acetate, 5 μg wheat germ-derived tRNA, 0.05% Nonidet P-40 and 0.0 Consisting of 5% NaN3. The translation buffer was 31.3 mM HEPES / KOH (pH 7.8), 2.67 mM Mg (OAc) 2, 93 mM KOAc, 1.2 mM ATP, 0.257 mM GTP, 16 mM creatine phosphate, 2.1 mM DTT, 0 mM .41 mM spermidine, 0.3 mM L-type amino acid (20 kinds), 1 μM E-64, 0.005% NaN 3, 0.05% NP-40. In the cell-free protein synthesis by the overlay method, first, 125 μl of the translation buffer was added to a 96-well plate, and the translation solution was slowly overlaid from the bottom into each of the holes containing the translation buffer. The reaction was carried out by keeping the temperature in an incubator at 16 ° C for 16 hours.
[0181]
(2) SPR measurement method using sensor chip with immobilized target sequence
According to the description in BIAapplications handbook, chapter 4.4, the following 53 types of double-stranded DNAs biotinylated were separately immobilized on the sensor chip surface. The sensor chip used was an SA type (manufactured by Biacore), and the BIPRORE3000 (manufactured by Biacore) was used for SPR measurement and analysis.
[0182]
A known transcription factor, a designed base sequence of DNA or DNA fragment of a target transcription regulatory region (hereinafter, this may be referred to as a “target sequence”), or a target transcription commonly recognized by a plurality of transcription factors The relationship between the base sequence of the regulatory region DNA or DNA fragment (hereinafter, this may be referred to as “consensus target sequence”) is as follows.
[1] v-jun, c-jun, junB, junD, dJRA, c-fos, fosB1, fosB2, Fra-1, LRF-1, v-maf, mafG, NF-E2 p45, aNF-E2, fNF- E2, Nrf short form, GCN4, yAP-1, CREB-2, ATF-3, CRE-BP1, CRE-BP3, ATF-a, CREB-341, CREB-327, CREM, dCREB2, dCREB2-b, dCREB2- Consensus target sequence of c, dCREB2-d, dCREB2-q, dCREB2-r, dCREB2-s: TGATGACGT (SEQ ID NO: 54)
[2] Consensus target sequence of C / EBPalpha, C / EBPbeta, p34C / EBPbeta, CHOP-10: AAGTGGCGAAAGAGACA (SEQ ID NO: 55)
[3] VBP, Hlf, CPRF-2, EmBP-1b, EmBP-1b, GBF1, GBF2, GBF3, CPRF-1, TAF-1, HBP-1a, GBF9, GBF1, GBF12, CPRF-3, TGA1a, TGA1b , O2, STE4 consensus target sequence: AGAAGCACGTGGG (SEQ ID NO: 56)
[4] Consensus target sequence of OPI1, E2A, E47, ITF-2 / SEF2-1B, SEF-1A, MyoD, p42Tal-1: AACAGATGGGT (SEQ ID NO: 57)
[5] Target sequence of HEN-1: GGGGCGCAGCTGCGGCCC (SEQ ID NO: 58)
[6] AhR, Arnt consensus target sequence: GGGGATTGCCGTG (SEQ ID NO: 59)
[7] USF target sequence: GTCACGTGGT (SEQ ID NO: 60)
[8] Consensus target sequence of NF-1A1, NF-1A1.1, NF-1A6, NF-1B1, NF-1B1, NF-1B2, NF-1C2 / CTF-2, CTF-4, CTF-6: CTGTGGGGTTTTGCACGGGGCCA (SEQ ID NO: 61)
[9] RF-X1 target sequence: GGTAACATAGCAAC (SEQ ID NO: 62)
[10] Consensus target sequence of AP2alphaA / AP-2alpha1, AP2alpha2, AP2alpha3, AP2alpha4, AP2alphaB, AP2beta, AP2gamma: CGCCCCCCGGCG (SEQ ID NO: 63)
[11] GR target sequence: GGTACAAAATGTTCT (SEQ ID NO: 64)
[12] AR target sequence: AACATTATGTTTCT (SEQ ID NO: 65)
[13] Target sequence of ER: AAGGGGAAATGACCCCCC (SEQ ID NO: 66)
[14] Target sequence of RXR-alpha: GGTCATAGGGGT (SEQ ID NO: 67)
[15] PPARalpha target sequence: CTAGGGCAAAGGTCA (SEQ ID NO: 68)
[16] PPARgamma target sequence: GGTCAAAGGTCA (SEQ ID NO: 69)
[17] Target sequence of COUP-TF1, HNF-4alpha1, and HNF-4alpha2: TGAACTTTGA (SEQ ID NO: 70)
[18] Target sequence of CF1: GGGGTCACC (SEQ ID NO: 71)
[19] Consensus target sequence of GATA-1, GATA-2, GATA-3, GATA-4: CCAGATAAGG (SEQ ID NO: 72)
[20] AREA / NIT-2 target sequence: TATCTC (SEQ ID NO: 73)
[21] Sp1 target sequence: GGGGGGGGGGG (SEQ ID NO: 74)
[22] Target sequence of YY1: CGGCCATCTTGGGCT (SEQ ID NO: 75)
[23] Consensus target sequence of Egr-1, Egr-2, Egr-3: TGCGTGGGCG (SEQ ID NO: 76)
[24] Target sequence of Snail: CACCTGTTTTCA (SEQ ID NO: 77)
[25] Target sequence of CF2-II: GTATATATA (SEQ ID NO: 78)
[26] Evi-1 target sequence: AGATAAGATAA (SEQ ID NO: 79)
[27] Ikaros, consensus target sequence of MZF-1: TTGGGAGG (SEQ ID NO: 80)
[28] Target sequence of Tramtrack 69K: GGACCTGC (SEQ ID NO: 81)
[29] HOX9 target sequence: TGACAGTTTAACGA (SEQ ID NO: 82)
[30] Target sequence of CDP: CCAATAATCGAT (SEQ ID NO: 83)
[31] Target sequence of HNF-1A: GGTTAATGAATTAACCAC (SEQ ID NO: 84)
[32] Consensus target sequence of Nkx-2.2, Nkx-2.5, TTF-1: TTAAGTGGTT (SEQ ID NO: 85)
[33] Consensus target sequence of Oct-1A, Oct-1B, Oct-1C: ATGCAAAT (SEQ ID NO: 86)
[34] Consensus target sequence of Oct-2, Oct-2.1 / Oct-2B: TATTTGCAT (SEQ ID NO: 87)
[35] Pax-3, Pax-6 consensus target sequence: CGTCACGCTTTGA (SEQ ID NO: 88)
[36] Pax-1 target sequence: CCGTTCCCGCTCTAGATAT (SEQ ID NO: 89)
[37] Consensus target sequence of HSF1 (short), HSF2, dHSF, fungal HSF: AGAAAAGAAAAAGAAA (SEQ ID NO: 90)
[38] Consensus target sequence of c-Myb, A-Myb, v-Myb, P (long), P (short), C1 (long), C1 (short): AACGGGCCC (SEQ ID NO: 91)
[39] c-Ets-1 # p54, Ets-1 # deltaiV / VII, Ets-2, Elk-1, SAP-1, SAP-1b, Erg-1, p55erg, Fli-1b, E4TF1-60 / GABP -Alpha, consensus target sequence of E74A: GACAGGAAGTG (SEQ ID NO: 92)
[40] Target sequence of IRF-1, IRF-2: GAAAAGCGAAACC (SEQ ID NO: 93)
[41] Target sequence of p50: GGGGACTTTCC (SEQ ID NO: 94)
[42] Consensus target sequence of NF-ATc and NF-Atp: AGGAAAA (SEQ ID NO: 95)
[43] Consensus target sequence of p91, p84: GAATTCCGGGAAATGG (SEQ ID NO: 96)
[44] Consensus target sequence of STAT2, STAT3, STAT4, STAT5A, STAT5B, STAT6: TTTCCCGGGAAATG (SEQ ID NO: 97)
[45] Target sequence of p53: GGACATGCCCGGGGCATGTC (SEQ ID NO: 98)
[46] Target sequence of MEF-2A: CCTTAAAAAATA (SEQ ID NO: 99)
[47] SRF target sequence: CCATATATGGACAT (SEQ ID NO: 100)
[48] Target sequence of E2: AACCAAAAACGGTAA (SEQ ID NO: 101)
[49] Target sequence of TBP: TATAAAA (SEQ ID NO: 102)
[50] Target sequence of SRY, Sox-5, Sox-9: AAAAAACAATAGGG (SEQ ID NO: 103)
[51] Target sequence of mat-Mc: TCATTGTT (SEQ ID NO: 104)
[52] Consensus target sequence of CP1A, CP1B, CBF-C: CTGATTGGCTACC (SEQ ID NO: 105)
[53] Target sequence of AML1a: TTGTGGT (SEQ ID NO: 106)
[0183]
First, with respect to DNAs having the above-mentioned 53 types of target sequences (SEQ ID NOS: 54 to 106), a DNA having biotin added to its 5 ′ side and a DNA having a base sequence complementary thereto are individually annealed by a standard method, A total of 53 types of double-stranded DNA were prepared. On the other hand, each sensor chip used for analysis has a flow cell divided into four parts. Flow cell 1 was used as a control without any immobilization, and flow cells 2, 3 and 4 each immobilized three types of the double-stranded DNA prepared above. In order to keep the immobilization density of the DNA on the sensor chip constant, the value (D) obtained by dividing the increase in the SPR response value (ΔRU-DNA) by the DNA immobilization by the DNA molecular weight (MW) is constant in each flow cell. ΔRU-DNA was regulated. In the same manner, the remaining DNA was immobilized.
[0184]
After the preparation of the sensor chip as described above, the binding activity to the protein of the present invention encoded by the cloned cDNA was analyzed. Many reports have been made on the analysis of the binding activity between DNA and protein by the SPR method. In this example, the measurement was performed with reference to the measurement conditions of Molecular Microbiology, 36 (3), 557-569 (2000). First, a flow path in which the flow cells 1-2-3-4 are connected in series is set. The running buffer is allowed to flow therethrough at a constant flow rate (5 μL / min), and after the SPR measurement value is stabilized, the baseline value (SPR-baseline) of each flow cell is measured. Next, the protein solution is flowed at the same flow rate to form a specific bond between the protein molecule and the DNA chain. After the injection for a certain period of time, the SPR response value (SPR-bound) of each flow cell was measured.
[0185]
(4) Method of analyzing measurement results obtained by SPR method
The true binding amount (B) was obtained by subtracting the baseline value from the SPR response value ([SPR-bound]-[SPR-baseline]), and further, a standardized value (nB) was obtained.
From the measurement results, the proteins of the present invention encoded by cDNAs of 13 clones of dnaform 33383, 33733, 34196, 34837, 37479, 38861, 39530, 41143, 42515, 51218, 59635, 60441, and 63166 are the aforementioned [1] to [1] to [ 53] has binding activity to at least one of the DNAs having a total of 53 types of target sequences (SEQ ID NOS: 54 to 106).
[0186]
Example 10  Human tissue expression analysis
In Example 8, a human ortholog (ZG1001) was obtained for dnaform33383. Therefore, in order to examine the tissue expression variation of the mRNA encoding the human protein of the present invention in normal humans and disease patients, a standard method (Higuchi R, et al., Biotechnology, 11: 1026-30 (1993)) is used. Tissue expression analysis using the PCR method was performed.
[0187]
(1) cDNA synthesis
The following mRNAs of 9 human tissues were purchased from Clontech, and cDNA was synthesized by performing a reverse transcription reaction using oligo dT as a primer.
Normal brain, normal hippocampus, normal thalamus, normal kidney, normal liver, normal pancreas, normal skeletal muscle, normal fat, normal spleen
The following cDNAs of the eight human tissues were purchased from Clontech.
Normal breast, breast cancer, normal colon, colon cancer, normal lung, lung cancer, normal stomach, gastric cancer
The following two human cDNAs were purchased from Biochain.
Normal frontal lobe, Alzheimer's disease frontal lobe
The following total RNA of one human tissue was purchased from Unitech, and mRNA was extracted before cDNA synthesis.
Normal peripheral blood leukocytes
[0188]
(2) Quantification by PCR method
Expression of mRNA encoding the human protein of the present invention (mRNA of human ortholog ZG1001 of dnaform 33383) was performed using a light cycler quantitative PCR device (manufactured by Roche Diagnostics) and a LightCycler-FastStart DNA master SYBR Green I reagent. And quantified according to the protocol attached to the product. The synthetic DNA sequences used for quantitative PCR are shown below.
5'-side primer: GCTCCGTCCACTGATAAACC (SEQ ID NO: 107)
3'-side primer: GCGGATAAAATTCGATGCCCTA (SEQ ID NO: 108)
The quantification results were corrected using Glyceraldehyde 3-phosphate dehydrogenase (GAPDH) as an internal standard. That is, the expression amount (copy number / μl) of the target gene in each tissue was divided by the expression amount of GAPDH (copy number / μl) to obtain a constant (1 × 105) (Note: 10 to the fifth power). Table 4 shows the results.
[0189]
[Table 4]
Figure 2004229642
[0190]
As is clear from Table 4, ZG1001 mRNA was expressed in pancreas, spleen, and brain, and increased in breast cancer.
From these results, the above cDNA and the protein encoded by the cDNA can be applied to treatment and diagnosis of cancer, Alzheimer's disease, and the like. Further, the protein encoded by the cDNA may be involved in a disease relating to a tissue in which the expression of mRNA is fluctuated as described above or a tissue having a high mRNA expression level.
[0191]
Example 11  Comprehensive analysis of proteins encoded by each full-length cDNA
(1) dnaform 34837 (SEQ ID NOS: 1, 14)
The protein encoded by the dnaform 34837 cDNA was identified as at least one of the target sequences as a result of a binding experiment using the SPR measurement device (manufactured by BIACORE) described in Example 9 for DNA having 53 target sequences. After binding, the protein was shown to be a DNA-binding protein having selectivity for the bound target sequence. Expression analysis revealed that the gene was strongly expressed in adipocytes derived from pancreas and epididymis. Furthermore, protein-protein interaction analysis confirmed that the protein encoded by the cDNA interacted with PXR2, one of the nuclear steroid receptors.
From the analysis described in Example 4 and the results of these experiments, it is considered that this protein is a DNA-binding protein that exists in the nucleus and may interact with multimers or other proteins. Therefore, the cDNA and the protein encoded by the cDNA may be involved in a disease relating to a tissue in which mRNA expression is fluctuated or a tissue expressing a large amount of mRNA, such as diabetes or cancer. It can be applied to treatments and diagnoses.
[0192]
(2) dnaform 63166 (SEQ ID NOs: 2, 15)
The protein encoded by the cDNA of dnaform 63166 was identified as at least one of the target sequences as a result of a binding experiment with DNA having 53 types of target sequences using the SPR measurement device (manufactured by BIACORE) described in Example 9 above. After binding, the protein was shown to be a DNA-binding protein having selectivity for the bound target sequence. Expression analysis revealed that the gene was strongly expressed in medulla oblongata and mammary gland.
From the analysis described in Example 4 and the results of these experiments, it is considered that this protein is a DNA-binding protein that exists in the nucleus and may interact with multimers or other proteins. Therefore, the cDNA and the protein encoded by the cDNA may be involved in a disease relating to a tissue in which mRNA expression is fluctuated or a tissue expressing a large amount of mRNA, such as diabetes or cancer. Can be applied to treatment and diagnosis
[0193]
(3) dnaform 33383 (SEQ ID NOs: 3, 16)
The protein encoded by the dnaform 33383 cDNA was identified as at least one of the target sequences as a result of a binding experiment to DNA having 53 types of target sequences using the SPR measurement apparatus (manufactured by BIACORE) described in Example 9 above. After binding, the protein was shown to be a DNA-binding protein having selectivity for the bound target sequence. According to the results of the PFAM search described in Example 4, the present protein is a protein having six C2H2 type Zinc Finger structures at the C-terminal and having SCAN domain and KRAB domain involved in protein interaction at the N-terminal. . PreLoc localization prediction of protein intracellularly suggests nuclear localization.
From the analysis described in Example 4 and the results of these experiments, it is considered that this protein is a DNA-binding protein that may interact with multimers or other proteins expected to be present in the nucleus. . Therefore, the cDNA and the protein encoded by the cDNA may be involved in a disease relating to a tissue in which mRNA expression is fluctuated or a tissue having a high mRNA expression level. Applicable to diagnosis
[0194]
(4) dnaform 39530 (SEQ ID NOs: 4, 17)
The protein encoded by the cDNA of dnaform 39530 was identified as at least one of the target sequences as a result of a binding experiment to DNA having 53 types of target sequences using the SPR measurement device (manufactured by BIACORE) described in Example 9 above. After binding, the protein was shown to be a DNA-binding protein having selectivity for the bound target sequence.
Based on the analysis described in Example 4 and the results of these experiments, this protein is expected to be present in the nucleus, and is considered to be a DNA-binding protein that may interact with multimers or other proteins. . Therefore, the cDNA and the protein encoded by the cDNA may be involved in a disease relating to a tissue in which mRNA expression is fluctuated or a tissue having a high mRNA expression level. Applicable for diagnosis.
[0195]
(5) dnaform 38861 (SEQ ID NOS: 5, 18)
The protein encoded by the cDNA of dnaform 38861 was found to bind to at least one of the target sequences as a result of a binding experiment using the SPR measurement device (manufactured by BIACORE) described in Example 9 to DNA having 53 target sequences. After binding, the protein was shown to be a DNA-binding protein having selectivity for the bound target sequence. Expression analysis revealed that the gene was strongly expressed in the whole body, especially in the pancreas and lung.
Based on the analysis described in Example 4 and the results of these experiments, this protein is expected to be present in the nucleus, and is considered to be a DNA-binding protein that may interact with multimers or other proteins. . Therefore, the cDNA and the protein encoded by the cDNA may be involved in a disease relating to a tissue in which mRNA expression is fluctuated or a tissue expressing a large amount of mRNA, such as diabetes or cancer. It can be applied to treatments and diagnoses.
[0196]
(6) dnaform 60441 (SEQ ID NOs: 6, 19)
The protein encoded by the cDNA of dnaform 60441 contained at least one of the target sequences as a result of a binding experiment to DNA having 53 types of target sequences using the SPR measurement device (manufactured by BIACORE) described in Example 9 above. After binding, the protein was shown to be a DNA-binding protein having selectivity for the bound target sequence. Expression analysis revealed that the gene was strongly expressed in the whole body, especially in the pancreas and lung.
Based on the analysis described in Example 4 and the results of these experiments, this protein is expected to be present in the nucleus, and is considered to be a DNA-binding protein that may interact with multimers or other proteins. . Therefore, the cDNA and the protein encoded by the cDNA may be involved in a disease relating to a tissue in which mRNA expression is fluctuated or a tissue expressing a large amount of mRNA, such as diabetes or cancer. It can be applied to treatments and diagnoses.
[0197]
(7) dnaform 42515 (SEQ ID NOs: 7, 20)
The protein encoded by the dnaform42515 cDNA was found to bind to at least one of the target sequences as a result of a binding experiment for DNA having 53 target sequences using the SPR measurement device (manufactured by BIACORE) described in Example 9 above. After binding, the protein was shown to be a DNA-binding protein having selectivity for the bound target sequence. Expression analysis also revealed that it was specifically expressed in the brain, especially in the frontal cortex.
Based on the analysis described in Example 4 and the results of these experiments, this protein is expected to be present in the nucleus, and is considered to be a DNA-binding protein that may interact with multimers or other proteins. . Therefore, the cDNA and the protein encoded by the cDNA may be involved in a disease relating to a tissue in which mRNA expression is fluctuated or a tissue expressing a large amount of mRNA, such as diabetes or cancer. And treatment and diagnosis of neurological diseases.
[0198]
(8) dnaform 41143 (SEQ ID NOs: 8, 21)
The protein encoded by the cDNA of dnaform 41143 was identified as at least one of the target sequences as a result of a binding experiment to DNA having 53 types of target sequences using the SPR measurement device (manufactured by BIACORE) described in Example 9 above. After binding, the protein was shown to be a DNA-binding protein having selectivity for the bound target sequence. From expression analysis, it was expressed in the whole body, but relatively strongly expressed in pancreas, lung and fat.
Based on the analysis described in Example 4 and the results of these experiments, this protein is expected to be present in the nucleus, and is considered to be a DNA-binding protein that may interact with multimers or other proteins. . Therefore, the cDNA and the protein encoded by the cDNA may be involved in a disease relating to a tissue in which mRNA expression is fluctuated or a tissue expressing a large amount of mRNA, such as diabetes or cancer. It can be applied to treatments and diagnoses.
[0199]
(9) dnaform 34196 (SEQ ID NOS: 9, 22)
The protein encoded by the cDNA of dnaform34196 was found to bind to at least one of the target sequences as a result of a binding experiment to DNA having 53 types of target sequences using the SPR measurement device (manufactured by BIACORE) described in Example 9 above. After binding, the protein was shown to be a DNA-binding protein having selectivity for the bound target sequence.
Based on the analysis described in Example 4 and the results of these experiments, this protein is expected to be present in the nucleus, and is considered to be a DNA-binding protein that may interact with multimers or other proteins. . Therefore, the cDNA and the protein encoded by the cDNA may be involved in a disease relating to a tissue in which mRNA expression is fluctuated or a tissue having a high mRNA expression level. Applicable for diagnosis.
[0200]
(10) dnaform 37479 (SEQ ID NOs: 10, 23)
The protein encoded by the cDNA of dnaform 37479 was identified as at least one of the target sequences as a result of a binding experiment to DNA having 53 target sequences using the SPR measurement device (manufactured by BIACORE) described in Example 9 above. After binding, the protein was shown to be a DNA-binding protein having selectivity for the bound target sequence.
Based on the analysis described in Example 4 and the results of these experiments, this protein is expected to be present in the nucleus, and is considered to be a DNA-binding protein that may interact with multimers or other proteins. . Therefore, the cDNA and the protein encoded by the cDNA may be involved in a disease relating to a tissue in which mRNA expression is fluctuated or a tissue having a high mRNA expression level. Applicable to diagnosis
[0201]
(11) dnaform 59635 (SEQ ID NOS: 11, 24)
The protein encoded by the cDNA of dnaform 59635 was identified as at least one of the target sequences as a result of a binding experiment to DNA having 53 types of target sequences using the SPR measurement device (manufactured by BIACORE) described in Example 9 above. After binding, the protein was shown to be a DNA binding protein with selectivity for the bound target sequence.
Based on the analysis described in Example 4 and the results of these experiments, this protein is expected to be present in the nucleus, and is considered to be a DNA-binding protein that may interact with multimers or other proteins. . Therefore, the cDNA and the protein encoded by the cDNA may be involved in a disease relating to a tissue in which mRNA expression is fluctuated or a tissue having a high mRNA expression level. Applicable for diagnosis.
[0202]
(12) dnaform 33773 (SEQ ID NOs: 12, 25)
The protein encoded by the cDNA of dnaform 33773 was found to bind to at least one of the target sequences as a result of a binding experiment to DNA having 53 types of target sequences using the SPR measurement device (manufactured by BIACORE) described in Example 9 above. After binding, the protein was shown to be a DNA binding protein with selectivity for the bound target sequence. Expression analysis revealed that the protein was strongly expressed in the whole body, but was particularly strongly expressed in lung, pancreas, fat, and brain. Furthermore, the protein-protein interaction analysis confirmed that the protein encoded by the cDNA interacted with SRP40, which can cause diabetes.
Based on the analysis described in Example 4 and the results of these experiments, this protein is expected to be present in the nucleus, and is considered to be a DNA-binding protein that may interact with multimers or other proteins. . Therefore, the cDNA and the protein encoded by the cDNA may be involved in a disease relating to a tissue in which the expression of mRNA is fluctuated or a tissue expressing a large amount of mRNA, such as diabetes or cancer. It can be applied to treatment and diagnosis of neurological diseases and the like.
[0203]
(13) dnaform 51218 (SEQ ID NOs: 13, 26)
The protein encoded by the cDNA of dnaform51218 was found to bind to at least one of the target sequences as a result of a binding experiment to DNA having 53 types of target sequences using the SPR measurement device (manufactured by BIACORE) described in Example 9 above. After binding, the protein was shown to be a DNA binding protein with selectivity for the bound target sequence. Expression analysis revealed that the protein was strongly expressed in the whole body, but was particularly strongly expressed in lung, pancreas, fat, and brain.
Based on the analysis described in Example 4 and the results of these experiments, this protein is expected to be present in the nucleus, and is considered to be a DNA-binding protein that may interact with multimers or other proteins. . Therefore, the cDNA and the protein encoded by the cDNA may be involved in a disease relating to a tissue in which the expression of mRNA is fluctuated or a tissue expressing a large amount of mRNA, such as diabetes or cancer. It can be applied to treatment and diagnosis of neurological diseases and the like.
[0204]
【The invention's effect】
Since the protein of the present invention and the DNA encoding the same have a DNA binding activity and the like, a substance that regulates the activity can be screened using the protein or the DNA encoding the same, and diseases associated with the protein can be screened. It is useful for the development of medicines that can act on the like.
This application discloses a Japanese patent application filed on April 19, 2002 (Japanese Patent Application No. 2002-117840), a Japanese patent application filed on April 30, 2002 (Japanese Patent Application No. 2002-128418), and a Japanese Patent Application No. 2002-128418. (Japanese Patent Application No. 2002-352469), the contents of which are incorporated herein by reference. The contents of the documents cited in the present specification are also incorporated herein by reference.
[0205]
[Sequence list]
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642
Figure 2004229642

Claims (15)

以下の (a) または (b) のタンパク質。
(a)配列番号14〜26または36のいずれかに記載のアミノ酸配列からなるタンパク質。
(b)配列番号14〜26または36のいずれかに記載のアミノ酸配列において1若しくは数個のアミノ酸が欠失、置換及び/または付加されたアミノ酸配列からなり、かつDNA結合活性を有するタンパク質。
The following protein (a) or (b):
(A) a protein consisting of the amino acid sequence of any one of SEQ ID NOs: 14 to 26 or 36;
(B) a protein comprising an amino acid sequence in which one or several amino acids have been deleted, substituted, and / or added to the amino acid sequence of any of SEQ ID NOs: 14 to 26 or 36, and which has DNA binding activity.
請求項1に記載のタンパク質をコードするDNA。A DNA encoding the protein according to claim 1. 請求項1に記載のタンパク質をコードする完全長cDNA。A full-length cDNA encoding the protein according to claim 1. 以下の (a) 、 (b)又は(c) の何れかのDNA。
(a)配列番号1〜13または35のいずれかに記載の塩基配列を有するDNA。
(b)配列番号1〜13または35のいずれかに記載の塩基配列において、1若しくは数個の塩基が欠失、置換及び/または付加された塩基配列を有し、かつDNA結合活性を有するタンパク質をコードするDNA。
(c)配列番号1〜13または35のいずれかに記載の塩基配列あるいはその相補配列を有するDNAとストリンジェントな条件下でハイブリダイズすることができる塩基配列を有し、かつDNA結合活性を有するタンパク質をコードするDNA。
A DNA according to any one of the following (a), (b) or (c):
(A) a DNA having the nucleotide sequence of any one of SEQ ID NOs: 1 to 13 or 35;
(B) a protein having a base sequence in which one or several bases are deleted, substituted and / or added in the base sequence set forth in any one of SEQ ID NOs: 1 to 13 or 35, and having a DNA binding activity DNA encoding.
(C) having a base sequence capable of hybridizing under stringent conditions to a DNA having the base sequence of any one of SEQ ID NOs: 1 to 13 or 35 or a sequence complementary thereto, and having a DNA binding activity DNA encoding a protein.
請求項2〜4のいずれかに記載のDNAを含む組換えベクター。A recombinant vector comprising the DNA according to claim 2. 請求項2〜4のいずれかに記載のDNAまたは請求項5に記載の組み換えベクターを導入した遺伝子導入細胞または該細胞からなる個体。A gene-introduced cell into which the DNA according to any one of claims 2 to 4 or the recombinant vector according to claim 5 has been introduced, or an individual comprising the cell. 請求項6に記載の細胞により産生される、請求項1に記載のタンパク質。A protein according to claim 1, which is produced by the cell according to claim 6. 請求項2から4の何れかに記載のDNAの塩基配列中の連続した5〜100塩基と同じ配列を有するセンスオリゴヌクレオチド、当該センスオリゴヌクレオチドと相補的な配列を有するアンチセンスオリゴヌクレオチド、及び、当該センス又はアンチセンスオリゴヌクレオチドのオリゴヌクレオチド誘導体から成る群から選ばれるオリゴヌクレオチド。A sense oligonucleotide having the same sequence as 5 to 100 consecutive nucleotides in the base sequence of the DNA according to any one of claims 2 to 4, an antisense oligonucleotide having a sequence complementary to the sense oligonucleotide, and An oligonucleotide selected from the group consisting of oligonucleotide derivatives of the sense or antisense oligonucleotide. 請求項1または7に記載のタンパク質に特異的に結合する抗体あるいはその部分フラグメント。An antibody or a partial fragment thereof that specifically binds to the protein according to claim 1. 抗体がモノクローナル抗体である請求項9に記載の抗体。The antibody according to claim 9, wherein the antibody is a monoclonal antibody. モノクローナル抗体が請求項1または7に記載のタンパク質のDNA結合活性を中和する作用を有することを特徴とする請求項10に記載の抗体。The antibody according to claim 10, wherein the monoclonal antibody has an action of neutralizing the DNA binding activity of the protein according to claim 1 or 7. 請求項1または7に記載のタンパク質と被検物質を接触させ、該被検物質による該タンパク質が有する活性の変化を測定することを特徴とする、該タンパク質の活性調節物質のスクリーニング方法。A method for screening for an activity-regulating substance of a protein, comprising bringing the protein according to claim 1 or 7 into contact with a test substance, and measuring a change in the activity of the protein due to the test substance. 請求項6に記載の遺伝子導入細胞と被検物質を接触させ、該細胞に導入されているDNAの発現レベルの変化を検出することを特徴とする、該DNAの発現調節物質のスクリーニング方法。A method for screening a substance regulating the expression of a DNA, comprising bringing the test substance into contact with the gene-transfected cell according to claim 6, and detecting a change in the expression level of the DNA introduced into the cell. 請求項1に記載のタンパク質のアミノ酸配列から選択される少なくとも1以上のアミノ酸配列情報、および/または請求項2〜4のいずれかに記載のDNAの塩基配列から選択される少なくとも1以上の塩基配列情報を保存したコンピュータ読み取り可能記録媒体。At least one or more amino acid sequence information selected from the amino acid sequence of the protein according to claim 1 and / or at least one or more nucleotide sequence selected from the nucleotide sequence of the DNA according to any one of claims 2 to 4. A computer-readable recording medium that stores information. 請求項1に記載のタンパク質、および/または請求項2〜4のいずれかに記載のDNAを結合させた担体。A carrier to which the protein according to claim 1 and / or the DNA according to any one of claims 2 to 4 are bound.
JP2003115847A 2002-04-19 2003-04-21 Protein and dna encoding the same Pending JP2004229642A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003115847A JP2004229642A (en) 2002-04-19 2003-04-21 Protein and dna encoding the same

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2002117840 2002-04-19
JP2002128418 2002-04-30
JP2002352469 2002-12-04
JP2003115847A JP2004229642A (en) 2002-04-19 2003-04-21 Protein and dna encoding the same

Publications (1)

Publication Number Publication Date
JP2004229642A true JP2004229642A (en) 2004-08-19

Family

ID=32966618

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003115847A Pending JP2004229642A (en) 2002-04-19 2003-04-21 Protein and dna encoding the same

Country Status (1)

Country Link
JP (1) JP2004229642A (en)

Similar Documents

Publication Publication Date Title
JPWO2004003198A1 (en) Methods for testing allergic diseases and drugs for treatment
US7172867B2 (en) Methods of testing for allergic diseases, and therapeutic agents for treating same
JP2004229642A (en) Protein and dna encoding the same
US20050123966A1 (en) Diagnostic and prognostic methods and compositions for seizure- and plasticity-related disorders
US7148011B2 (en) Method of testing for allergic diseases
JP2004041179A (en) New protein and dna encoding the same
WO2003089466A1 (en) Novel proteins and dnas encoding the same
JP2004229646A (en) New protein and dna encoding the same
JP2004229650A (en) New protein and dna encoding the same
JP2004229643A (en) Protein and dna encoding the same
JP2004229651A (en) New protein and dna encoding the same
JP2004229648A (en) New protein and dna encoding the same
JP2004229649A (en) New protein and dna encoding the same
JP2005052101A (en) New protein and dna encoding the same
JP2004229644A (en) New protein and dna encoding the same
JP2004229653A (en) New protein and dna encoding the same
JP2004041180A (en) New protein and dna encoding the same
JP2005021093A (en) New protein and dna encoding the same
JP2004041178A (en) New protein and dna encoding the same
JP2004041181A (en) New protein and dna encoding the same
JP2004261179A (en) New protein and dna encoding the same
JP2004229640A (en) New protein and dna encoding the same
JP2004229652A (en) New protein and dna encoding the same
JP2004229641A (en) New protein and dna encoding the same
JP2004229639A (en) New protein and dna encoding the same