JP2008516590A - 真核生物ゲノムにおけるオーソログローカスについての機能的に対応する調節配列の同定及び割り当て - Google Patents

真核生物ゲノムにおけるオーソログローカスについての機能的に対応する調節配列の同定及び割り当て Download PDF

Info

Publication number
JP2008516590A
JP2008516590A JP2007536097A JP2007536097A JP2008516590A JP 2008516590 A JP2008516590 A JP 2008516590A JP 2007536097 A JP2007536097 A JP 2007536097A JP 2007536097 A JP2007536097 A JP 2007536097A JP 2008516590 A JP2008516590 A JP 2008516590A
Authority
JP
Japan
Prior art keywords
sequence
transcript
conserved
transcripts
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007536097A
Other languages
English (en)
Inventor
アンドレアス・クリンゲンホフ
Original Assignee
ゲノマティックス・ソフトウェア・ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ゲノマティックス・ソフトウェア・ゲーエムベーハー filed Critical ゲノマティックス・ソフトウェア・ゲーエムベーハー
Publication of JP2008516590A publication Critical patent/JP2008516590A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6811Selection methods for production or design of target specific oligonucleotides or binding molecules
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

本発明は、真核生物のゲノム内の転写産物の調節配列を同定及び/または規定するための、及び/または各種の真核生物におけるオーソログ転写産物の機能的に対応する調節配列の群の同定のための方法及びコンピュータープログラムに関する。

Description

本発明は、真核生物のゲノム内の転写産物の調節配列を同定及び/または規定するための、及び/または各種の真核生物におけるオーソログ転写産物の機能的に対応する調節配列の群の同定のための方法及びコンピュータープログラムに関する。
ますます数量的に増大する各種の生物から得られる今日のゲノム配列のデータが利用可能となっている(非特許文献5;非特許文献7)。前記データの質は、WGS(全ゲノムショットガン)プロジェクトから得られる数千塩基対の短い配列断片から、染色体全体の連続したアセンブリー化配列まで様々である。
ゲノム配列の注釈(例えば遺伝子、プロモーター、ゲノムリピートの位置等)は、同様な広範囲の質と量をカバーする。第一の工程では、ゲノム配列はin silico法によって通常解析され、エクソン/イントロン構造を予測し(遺伝子予測)、反復配列パターンを予測する。次いで短い発現化配列(EST)を使用して、当該遺伝子予測についての証拠のサポートを構築する。
しかしながら、遺伝子予測は高い不確定性に悩まされており、特に遺伝子開始部位予測の場合にそうである。更にESTは通常、数百塩基対の長さのみを有し、転写産物の5’末端までをカバーしない。従って遺伝子開始部位の正確は予測は、依然として今日でも難しい課題である。
プロモーターは転写開始部位(TSS)の上流配列として規定されるため、その注釈は対応する遺伝子開始部位の正確な注釈に厳密に依存する。
遺伝子開始部位の高品質の注釈のための唯一の方法は、5’全長cDNAを介するものである(非特許文献3)。全長cDNAは、コード配列(CDS)をカバーするだけではなく、CDSの5’及び3’に位置する非翻訳領域(UTR)をも含む。理想的にはそれらは、真の転写開始部位(TSS)で開始し、ポリAテールで終結する。ゲノム配列に対するこれらの全長cDNAのマッピングのみが、遺伝子ローカスのために存在する転写産物の信頼できる注釈を導く。それ故それは、プロモーター領域を正確に注釈するための唯一の方法である。しかしながら、今までのところ、数個のゲノムプロジェクトについて、全長cDNAの限られたコレクションが利用可能であるのみである(非特許文献9;非特許文献8;非特許文献6)。
Needleman SB, Wunsch CD. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol. 1970 Mar; 48(3): 443-53 Smith TF, Waterman MS. Identification of common molecular subsequences. J Mol Biol. 1981 Mar 25; 147(1): 195-7 Suzuki Y. et al. DBTSS: DataBase of human Transcriptional Start Sites and full-length cDNAs. Nucleic Acids Res. 2002 Jan 1; 30(1): 328-31 Suzuki Y. et al. Diverse transcriptional initiation revealed by fine, large-scale mapping of mRNA start sites. EMBO Rep. 2001 May; 2(5): 388-93 Waterston RH et al. Mouse Genome Sequencing Consortium. Initial sequencing and comparative analysis of the mouse genome. Nature. 2002 Dec 5; 420(6915): 520-62 Okazaki Y. et al. FANTOM Consortium; RIKEN Genome Exploration Research Group Phase I & II Team. Analysis of the mouse transcriptome based on functional annotation of 60,770 full-length cDNAs. Nature. 2002 Dec 5; 420(6915): 563-73 Lander ES, et al. International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature. 2001 Feb 15; 409(6822): 860-921 Imanishi T. et al. Integrative Annotation of 21,037 Human Genes Validated by Full-Length cDNA Clones. PLoS Biol. 2004 Apr 20. Ota T. et al. Complete sequencing and characterization of 21,243 full-length human cDNAs. Nat Genet. 2004 Jan; 36(1): 40-5
5’の完全な遺伝子注釈の質における有意な問題を解決するための唯一の方法は、オーソログローカスについて利用可能な注釈の比較である(即ち各種の生物由来の)。不幸にも、緊密に関連する生物(例えばラットとマウス)でさえ、ゲノム配列の多様性は、ある種の生物由来の全長cDNAの広範にマッピングされたゲノムを、他種のゲノムに可能とはしない。特に、cDNAの非コードUTRは、生物間で散在されてのみ保存されているものである。これらの配列領域のマッピングについての相同性の閾値が低下すると、転写産物のリーディングエキソンについてのみ多義的な結果が生ずる。従って、当該結果は、プロモーター領域の正確な注釈のために利用することはできない
長さ制限の態様としての配列の単純なスキャニングウィンドウは作用しない。交差種エキソンマッピングによる制限は、当該技術分野の専門家に対してでさえ明確ではなく、その最上位のものも質のある結果を得るために上述の正確な規則の応用を必要とする。短いエキソンの長さと比較的低い配列保存性のため、種間の証拠の移し替えも自明ではない。
ここに記載されたアプローチは、存在する注釈を評価することが可能であり、ある種の生物から、この情報が不完全または不明である他種へ高品質の注釈を移し替えることが可能である。
本発明は、
(a)真核生物のゲノム内の複数のオーソログ転写産物の配列をマッピングする工程;
(b)(a)のオーソログ転写産物間で保存されている少なくとも一つの配列を同定する工程;
(c)工程(b)で同定された保存配列の位置に基づいて、各真核生物のゲノムにおける保存配列について標的領域を規定する工程;
(d)前記標的領域内の調節配列を同定及び/または規定する工程;並びに
(e)機能的に対応する調節配列の群に対して前記調節配列を任意に割り当てる工程
を含む、真核生物のゲノム内のオーソログ転写産物の機能的に対応する調節配列を同定するための方法に関する。
更に本発明は、
(a)複数の真核生物のゲノム内の複数のオーソログ転写産物の配列をマッピングするための手段;
(b)(a)のオーソログ転写産物間で保存されている少なくとも一つの配列を同定するための手段;
(c)手段(b)によって同定された保存配列の位置に基づいて、各真核生物のゲノムにおける保存配列について標的領域を規定するための手段;
(d)前記標的領域内の調節配列を同定及び/または規定するための手段;並びに
(e)機能的に対応する調節配列の群に対して前記調節配列を割り当てるための任意の手段
を含む、真核生物のゲノム内の機能的に対応する調節配列を同定するためのコンピュータープログラム製品に関する。
本発明は、真核生物のゲノム内のオーソログ転写産物の機能的に対応する調節配列の群の同定を可能にする。更に本発明は、転写産物の未知の調節配列の同定を可能にする。
本発明の方法及びコンピュータープログラム製品は、真核生物の群から由来する一連のオーソログローカスについて注釈された転写産物を比較して分析する。前記転写産物の好ましくは5’に位置する機能的に対応する調節配列を同定し、及び/または特徴付けして群に割り当てる。調節配列は、好ましくはプロモーター、エンハンサー、及び/またはリプレッサー領域から選択され、より好ましくはプロモーター領域から選択される。転写産物は、タンパク質コード配列を含んでも良い。しかしながら転写産物は、機能的なRNA分子であってもよく、それを含んでも良い。
機能的に対応する調節配列の同定は、保存エクソン/イントロン構造についてオーソログ転写産物をチェックすることによって達成される。オーソログローカスのいずれかにおける注釈が5’不完全であれば、これは潜在的に保存されたプロモーター領域(CompGenプロモーターと称される)によって伸長できる。これは一つのエクソンをマッピングすることによって実施され、好ましくは標的生物の対応するオーソログゲノム配列にある種の生物から由来する転写産物の第一のエクソンをマッピングすることによって実施される。
この目的のため、ゲノム配列における潜在的な標的領域は、マッピングのために使用される転写産物のエクソン/イントロン構造の事前の分析によって、所定の長さ、例えば数千塩基対に制限される。標的領域のこの制限のため、不明確な結果を得ることなく、あまり保存されていないUTRの交差種マッピングに必要なレベルに相同性の閾値を低めることが可能である。
オーソログローカスを有するホモロジー群の生成
第一の工程では、選択される生物について利用可能なmRNA配列の排他的ペア様比較によって、オーソログローカスを同定する。二つ以上の真核生物から由来する転写産物、例えば調節領域が同定される一つまたはいくつかの生物から由来する転写産物と、調節領域が既知である一つまたはいくつかの第二の生物から由来する転写産物のマッチングによって、オーソログローカスを規定する。関連する転写産物がペア様のベストマッチを示すのであれば、好ましくは二つのローカスはオーソログとして記載される。このデータについての潜在的なソースは、National Center for Biotechnology Information (NCBI)によって提供されるHomoloGeneデータベースである。
これらのペア様関連に基づいて、ローカスを緊密な群(ホモロジー群)に割り当てる。二つのローカスが共通の第三のローカスに割り当てられるが、必ずしも直接的な関係によって結び付けられないのであれば、二つのローカスはホモロジー群に結び付けられる。各ローカスは、一つのホモロジー群のメンバーでのみあることができる
分析された真核生物は好ましくは、同じ界の真核生物、例えば動物、植物、または菌類に属する。より好ましくは真核生物は、同じ目に属し、例えばそれらは哺乳類、鳥類、両生類、魚類、昆虫類等である。一般的に、第一と第二の生物の間の緊密な関係が好ましい。
ホモロジー群におけるローカスの転写産物の分析
ホモロジー群におけるローカスについての可変転写産物の全ての利用可能なエクソン/イントロン注釈を、ゲノム注釈から集積する。可変転写産物は、そのエクソン/イントロン構造が異なるが、各種の転写開始部位から開始してもよく、その結果各種の調節領域、例えばプロモーター領域を有していても良い。好ましくは、全ての転写産物のエクソンは、保存について、即ち保存配列の存在について分析される。二つのエクソンが同一の長さを有し、十分な配列相同性(<10%のギャップ)を示すのであれば、保存されていると考慮される。配列相同性は好ましくは、Smith-Watermanアライメント(非特許文献2)を使用して測定される。好ましくは、最も5’に位置する保存エクソンは、共通のスケールで各種のローカス由来(即ち各種の生物由来)の転写産物をアレンジするために使用される。それらは、更なる距離の計算のためのアンカーを示す。これらのエクソンは第一のエクソンであることは必ずしも必要ではなく、それは5’完全ESTアセンブリーアルゴリズムとの主たる差異であることに注意すべきである。
ホモロジー群におけるローカス間の注釈の垂直方向の移し替え
各注釈転写産物の第一のエクソンは、ホモロジー群における全ての他のオーソロガスローカス(標的)のゲノム配列にマッピングされる。好ましくはこれは、全てのローカスについて網羅的に実施される。
マッピングは好ましくは、エクソン配列とゲノム配列をアライメントすることによって実施される(非特許文献1)。種間の高品質のマッピングを可能にするために、マッピングのための潜在的な標的領域を制限する。アンカー点と、ソース転写産物、即ち少なくとも転写開始部位と好ましくは同定される調節領域が既知である転写産物の転写開始部位(TSS)との間の距離を、潜在的な位置、即ち好ましくは約20000bp、より好ましくは約10000bpまで上流及び下流まで伸長されるゲノム標的配列に対するアライメントのための標的またはマッピング領域を決定するために使用し、各種のローカスのエクソン/イントロン構造の可変性をカバーする。アンカー点とソース転写産物の第一のエクソンとの間の非常に距離が非常に長い場合(>100000bp)、ゲノム配列の標的またはマッピング領域の長さは、当該距離(好ましくは前記距離の約20%まで)に相対的に伸長される。
少なくとも一つの以下の基準を実現する各マッピングのために、単一のエクソンからなる偽の転写産物を標的ローカスに対して生成する。
(i)アライメントは好ましくは≧70%同一のヌクレオチド、≦20%のギャップを含み、≧20bpの長さを有する。
(ii)アライメントの長さによって標準化されたアライメントについて計算されたスコアは、好ましくは2の値を超える。
エクソンの伸長と位置は、マッピングの結果から由来する。かくしてローカスの注釈は、潜在的な保存調節領域、例えばプロモーター領域を示すオーソログローカス由来の保存された第一のエクソンによって一時的に伸長される。
対応する調節領域の同定
次の工程では、ホモロジー群における各種のローカスから得られる全ての第一のエクソンの配列を、互いに対してアライメントする。これらの第一のエクソンは、ゲノムの注釈、または上述のマッピング工程によって生成した偽の転写産物のいずれかから由来して良い。適切なアライメントは、以下の基準によって選択される:
(i)アライメントは≧70%同一のヌクレオチド、≦20%のギャップを含み、≧50bpの長さを有する。
(ii)アライメントは≧60%同一のヌクレオチド、≦5%のギャップを含み、≧50bpの長さを有する。
(iii)アライメントは≦25%のギャップを含み、アライメントについて計算されたスコアは300の値を超える。
(iv)アライメントは≧60bpの長さを有し、アライメントの長さによって標準化されたアライメントについて計算されたスコアは、少なくとも2の値を有する。
60bpより短い第一のエクソンで開始する転写産物については、二つの更なる基準を使用する。
(v)アライメントは≧90%同一のヌクレオチド、≦20%のギャップを含み、≧200bpの長さを有する。
(vi)アライメントは≧75%同一のヌクレオチド、≦10%のギャップを含み、≧20bpの長さを有する。
少なくとも一つの基準を実現する各アライメントについて、二つの対応する転写産物を、ペア様対応パターンとして割り当てる。次いでペア様割り当てのリストを使用し、関連転写産物の閉ざした群を構築する。
ローカスについて一つより多い転写産物を含むこれらの群について、調節領域、例えばプロモーター領域を計算してよく、それらは全ての潜在的な部位、例えば転写開始工程の既知の可変性を反映する転写開始部位をカバーする(非特許文献4)。関連転写産物の群に唯一の偽の転写産物が割り当てられているローカスについて、オーソログローカスから得られる注釈によってサポートされる新たな潜在的なプロモーター領域(CompGenプロモーター)を注釈に加える。詳細なエクソン/イントロン構造がこの方法によっては決定されないため、これらのプロモーターに割り当てられる転写産物は存在しない。
次いで、機能的に対応する調節領域、即ち共通のまたは少なくとも同等な生物学的機能が割り当てられて良い調節領域を含む群またはセットに、調節領域、例えばプロモーター領域を割り当てて良い。
特にいくつかのペア様マッチングパターンが分析される配列について同定されたならば、調節配列のいくつかの群またはセットが単一のローカスに割り当てられて良いことに注意すべきである。
更に本発明は、以下の実施例によってより詳細に説明されるであろう。
本発明の方法を、各種の群の真核生物のゲノムに適用した。第一の群は、3種の脊椎動物、Homo sapiens、Mus musculus、及びRattus norvegicusを含む。第二の群は、2種の昆虫、Drosophila melanogaster及びAnopheles gambiaeのゲノムを含む。
図1の例は、4種の転写産物を含む(H. sapiens(T1及びT2)から得た2種の可変転写産物、M. musculus(T3)から得た1種、及びR. norvegicus(T4)から得た1種)。各種のローカスの間で保存されたエクソンを点線によって結ぶ。エクソン2は最も5’に位置する保存エクソンであり、それ故共通のアンカーとして選択される。
図2は、H. sapiens(T1)のゲノム配列におけるアンカーとTSSの間の距離(nbp)に基づく、M. musculus(T3)のゲノム配列における標的(マッピング)領域の規定を示す。
図3は、げっ歯類ローカス(T3)のゲノム配列に対する転写産物T1及びT2(ヒト)のマッピングの結果を示す。図1に含まれた転写産物の網羅的なマッピングは、8種の偽の転写産物を生成する(H. sapiensについてP1-3、P1-4、M. musculusについてP3-1、P3-2、P3-4、並びにR. norvegicusについてP4-1、P4-2、P4-3)。
図4a及び4bは、配列T1、T2、T3、及びT4に基づく転写産物の閉ざした群の構築を示す。図4aでは、プロモーター領域の計算が、ローカスについて一つより多い転写産物(P2-4とP2-5;P3-2とP3-5;またはP4-2とP4-4)を含むホモロジー群について示されている。図4bでは、唯一の偽の転写産物が関連転写産物のホモロジー群に割り当てられているプロモーター領域のマッピングが示されている。
それ故、図5においてプロモーターセット1(P1)に属するM. musculus(T3)及びR. norvegicus(T4)についてのプロモーター領域は、ヒトゲノム(T1)から入手可能な注釈、及び二つの標的配列で検出された配列相同性によってサポートされる。
図6aは、Homo sapiens、Mus musculus、及びRattus norvegicusから得られるオーソログELK1転写産物についての、本発明の方法によって生成した結果を模式図を示す。この例では、第一のヒト転写産物(1)と二つのげっ歯類転写産物(3,4)についてのプロモーターが、転写産物のそれぞれの第一のエクソンの配列相同性のため、一つの群(プロモーターセット群)に割り当てられる。プロモーターセットはまた、転写産物がこれまで知られていないラットのゲノム由来のプロモーター配列を含む。このプロモーター配列の位置を、Homo sapiens(1)及びMus musculus(3,4)から由来する対応する転写産物の第一のエクソンのマッピングによって測定した。プロモーターセット2及び3は、唯一の生物(2,5)で注釈された単一のプロモーター配列に両者とも基づく。対応する転写産物の第一のエクソンを、二つの残存する生物のゲノム配列に対してマッピングでき、対応するプロモーター配列の位置を決定するために使用される。これらのプロモーター配列のそれぞれは、各生物について注釈されたエクソンの5’末端に位置し、それ故機能的な調節配列を最も可能性高く表す。
図6bは、二つのホモロジー群CGA及びIRF6について生成した結果を示す。CGA遺伝子については、各生物についての一つの転写産物が利用可能である。ラットについて注釈された転写産物は、5’リーディングエクソンを明らかに欠いている。元々注釈されたプロモーター(プロモーターセット2に割り当てられた)は、二つの他の生物について注釈されたプロモーター(プロモーターセット1に割り当てられた)に対応しない。更なるプロモーターの注釈、及びプロモーターセットへの割り当てのため、各生物から由来する機能的に対応するプロモーター領域、即ちそれぞれプロモーターセット1および2のメンバーは、更なる分析のために利用可能である。
IRF6ローカスについて得られた結果は比較可能である。ヒトゲノムに注釈されたプロモーター領域のみがプロモーターセットから排除され、生物間での低い度合いの保存、または注釈における誤差のいずれかを示す。
図1の例は、4種の転写産物を含む(H. sapiens(T1及びT2)から得た2種の可変転写産物、M. musculus(T3)から得た1種、及びR. norvegicus(T4)から得た1種)。各種のローカスの間で保存されたエクソンを点線によって結ぶ。エクソン2は最も5’に位置する保存エクソンであり、それ故共通のアンカーとして選択される。 図2は、H. sapiens(T1)のゲノム配列におけるアンカーとTSSの間の距離(nbp)に基づく、M. musculus(T3)のゲノム配列における標的(マッピング)領域の規定を示す。 図3は、げっ歯類ローカス(T3)のゲノム配列に対する転写産物T1及びT2(ヒト)のマッピングの結果を示す。図1に含まれた転写産物の網羅的なマッピングは、8種の偽の転写産物を生成する(H. sapiensについてP1-3、P1-4、M. musculusについてP3-1、P3-2、P3-4、並びにR. norvegicusについてP4-1、P4-2、P4-3)。 図4aは、配列T1、T2、T3、及びT4に基づく転写産物の閉ざした群の構築を示す。図4aでは、プロモーター領域の計算が、ローカスについて一つより多い転写産物(P2-4とP2-5;P3-2とP3-5;またはP4-2とP4-4)を含むホモロジー群について示されている。 図4bは、配列T1、T2、T3、及びT4に基づく転写産物の閉ざした群の構築を示す。図4bでは、唯一の偽の転写産物が関連転写産物のホモロジー群に割り当てられているプロモーター領域のマッピングが示されている。 図5においてプロモーターセット1(P1)に属するM. musculus(T3)及びR. norvegicus(T4)についてのプロモーター領域は、ヒトゲノム(T1)から入手可能な注釈、及び二つの標的配列で検出された配列相同性によってサポートされる。 図6aは、Homo sapiens、Mus musculus、及びRattus norvegicusから得られるオーソログELK1転写産物についての、本発明の方法によって生成した結果を模式図を示す。この例では、第一のヒト転写産物(1)と二つのげっ歯類転写産物(3,4)についてのプロモーターが、転写産物のそれぞれの第一のエクソンの配列相同性のため、一つの群(プロモーターセット群)に割り当てられる。プロモーターセットはまた、転写産物がこれまで知られていないラットのゲノム由来のプロモーター配列を含む。このプロモーター配列の位置を、Homo sapiens(1)及びMus musculus(3,4)から由来する対応する転写産物の第一のエクソンのマッピングによって測定された。プロモーターセット2及び3は、唯一の生物(2,5)で注釈された単一のプロモーター配列に両者とも基づく。対応する転写産物の第一のエクソンを、二つの残存する生物のゲノム配列に対してマッピングでき、対応するプロモーター配列の位置を決定するために使用される。これらのプロモーター配列のそれぞれは、各生物について注釈されたエクソンの5’末端に位置し、それ故機能的な調節配列を最も可能性高く表す。 図6bは、二つのホモロジー群CGA及びIRF6について生成した結果を示す。CGA遺伝子については、各生物についての一つの転写産物が利用可能である。ラットについて注釈された転写産物は、5’リーディングエクソンを明らかに欠いている。元々注釈されたプロモーター(プロモーターセット2に割り当てられた)は、二つの他の生物について注釈されたプロモーター(プロモーターセット1に割り当てられた)に対応しない。更なるプロモーターの注釈、及びプロモーターセットへの割り当てのため、各生物から由来する機能的に対応するプロモーター領域、即ちそれぞれプロモーターセット1および2のメンバーは、更なる分析のために利用可能である。

Claims (20)

  1. (a)真核生物のゲノム内の複数のオーソログ転写産物の配列をマッピングする工程;
    (b)(a)のオーソログ転写産物間で保存されている少なくとも一つの配列を同定する工程;
    (c)工程(b)で同定された保存配列の位置に基づいて、各真核生物のゲノムにおける保存配列について標的領域を規定する工程;
    (d)前記マッピング領域内の調節配列を同定及び/または規定する工程;並びに
    (e)機能的に対応する調節配列の群に対して前記調節配列を任意に割り当てる工程
    を含む、真核生物のゲノム内のオーソログ転写産物の機能的に対応する調節配列を同定するための方法。
  2. 前記調節配列が、プロモーター、エンハンサー、及びリプレッサー、並びにそれらの組合せからなる群から選択される、請求項1に記載の方法。
  3. 前記調節配列がプロモーターである、請求項2に記載の方法。
  4. 前記真核生物が同じ目に属する、請求項1に記載の方法。
  5. 前記生物が哺乳類である、請求項4に記載の方法。
  6. 前記転写産物が、各生物内でペア様のベストマッチである場合に、オーソログとして記載される、請求項1に記載の方法。
  7. 工程(a)が、各真核生物のゲノムにおける複数のオーソログローカスを含むホモロジー群を生成することを含む、請求項1に記載の方法。
  8. 工程(b)が、ホモローグ群のオーソログローカスから転写産物配列を分析することを含む、請求項7に記載の方法。
  9. 工程(b)が、転写産物配列における保存エキソンを同定することを含む、請求項8に記載の方法。
  10. 二つのエキソンが、同一の長さを有する場合に保存されているとして同定される、請求項9に記載の方法。
  11. 工程(c)が、標的領域を規定するためのアンカーとして、保存配列を選択することを含む、請求項1に記載の方法。
  12. 最も5’に位置する保存配列がアンカーとして選択される、請求項11に記載の方法。
  13. 前記標的領域の位置が、アンカーとソース転写産物の転写開始部位との間の距離によって規定される、請求項11に記載の方法。
  14. 前記第一の生物のゲノムにおけるマッピング領域が、約20000bpまでの長さを有する、請求項11に記載の方法。
  15. 前記第一の生物のゲノムにおけるマッピング領域が、アンカーとソース転写産物の翻訳開始部位との間の距離の約20%までの長さを有する、請求項11に記載の方法。
  16. 工程(d)が前記標的ローカスについての偽の転写産物配列を生成することを含む、請求項1に記載の方法。
  17. 偽の転写産物が、前記標的領域における配列と、ソース転写産物の第一のエクソンの配列との間のマッピングに基づいて生成され、前記マッピングが、少なくとも一つの以下の基準:
    (i)アライメントが≧70%同一のヌクレオチド、≦20%のギャップを含み、≧20bpの長さを有する;及び
    (ii)アライメントの長さによって標準化されたアライメントについて計算されたスコアが2の値を超える
    を実現しなければならない、請求項16に記載の方法。
  18. 工程(d)が、転写産物または偽の転写産物配列からの第一のエクソンのアライメント、ペア様マッチングパターンとしての所定のアライメント基準を実現する転写産物の割り当て、及び調節領域の位置の計算を含む、請求項8に記載の方法。
  19. 計算が、第一のエキソン配列の上流の潜在的な転写開始部位の位置に基づく、請求項18に記載の方法。
  20. (a)複数の真核生物のゲノム内の複数のオーソログ転写産物の配列をマッピングするための手段;
    (b)(a)のオーソログ転写産物間で保存されている少なくとも一つの配列を同定するための手段;
    (c)手段(b)によって同定された保存配列の位置に基づいて、各真核生物のゲノムにおける保存配列について標的領域を規定するための手段;
    (d)前記標的領域内の調節配列を同定及び/または規定するための手段;並びに
    (e)機能的に対応する調節配列の群に対して前記調節配列を割り当てるための任意の手段
    を含む、真核生物のゲノム内の機能的に対応する調節配列を同定するためのコンピュータープログラム製品。
JP2007536097A 2004-10-15 2005-10-13 真核生物ゲノムにおけるオーソログローカスについての機能的に対応する調節配列の同定及び割り当て Pending JP2008516590A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/964,812 US20060085138A1 (en) 2004-10-15 2004-10-15 Identification and assignment of functionally corresponding regulatory sequences for orthologous loci in eukaryotic genomes
PCT/EP2005/011029 WO2006040161A1 (en) 2004-10-15 2005-10-13 Identification and assignment of functionally corresponding regulatory sequences for orthologous loci in eukaryotic genomes

Publications (1)

Publication Number Publication Date
JP2008516590A true JP2008516590A (ja) 2008-05-22

Family

ID=35811546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007536097A Pending JP2008516590A (ja) 2004-10-15 2005-10-13 真核生物ゲノムにおけるオーソログローカスについての機能的に対応する調節配列の同定及び割り当て

Country Status (6)

Country Link
US (1) US20060085138A1 (ja)
EP (1) EP1800232B1 (ja)
JP (1) JP2008516590A (ja)
AT (1) ATE425502T1 (ja)
DE (1) DE602005013259D1 (ja)
WO (1) WO2006040161A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014506456A (ja) * 2011-01-25 2014-03-17 シンプロミクス リミテッド 特異的プロモーターの構築のための方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101278652B1 (ko) * 2010-10-28 2013-06-25 삼성에스디에스 주식회사 협업 기반 염기서열 데이터의 관리, 디스플레이 및 업데이트 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014506456A (ja) * 2011-01-25 2014-03-17 シンプロミクス リミテッド 特異的プロモーターの構築のための方法
KR101902526B1 (ko) 2011-01-25 2018-09-28 신프로믹스 엘티디 특이적 프로모터의 작제 방법
US10508275B2 (en) 2011-01-25 2019-12-17 Synpromics Ltd. Method for the construction of specific promoters
US11268089B2 (en) 2011-01-25 2022-03-08 Asklepios Biopharmaceutical, Inc. Method for the construction of specific promoters

Also Published As

Publication number Publication date
WO2006040161A1 (en) 2006-04-20
ATE425502T1 (de) 2009-03-15
US20060085138A1 (en) 2006-04-20
EP1800232B1 (en) 2009-03-11
EP1800232A1 (en) 2007-06-27
DE602005013259D1 (de) 2009-04-23

Similar Documents

Publication Publication Date Title
Lanciano et al. Measuring and interpreting transposable element expression
Spielmann et al. Structural variation in the 3D genome
Zhang et al. Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long
Narlikar et al. Identifying regulatory elements in eukaryotic genomes
Li et al. A hidden Markov model for analyzing ChIP-chip experiments on genome tiling arrays and its application to p53 binding sequences
Nitsche et al. Evolutionary clues in lncRNAs
Godoy et al. Improved protein‐binding microarrays for the identification of DNA‐binding specificities of transcription factors
Messina et al. An ORFeome-based analysis of human transcription factor genes and the construction of a microarray to interrogate their expression
Aerts et al. Robust target gene discovery through transcriptome perturbations and genome-wide enhancer predictions in Drosophila uncovers a regulatory basis for sensory specification
Loots et al. ECRbase: database of evolutionary conserved regions, promoters, and transcription factor binding sites in vertebrate genomes
Moore et al. Global analysis of mRNA splicing
Baranasic et al. Multiomic atlas with functional stratification and developmental dynamics of zebrafish cis-regulatory elements
Aerts Computational strategies for the genome-wide identification of cis-regulatory elements and transcriptional targets
Plessy et al. Promoter architecture of mouse olfactory receptor genes
Nguyen et al. Mammalian genomic regulatory regions predicted by utilizing human genomics, transcriptomics, and epigenetics data
Bitton et al. An integrated mass-spectrometry pipeline identifies novel protein coding-regions in the human genome
Quang et al. Motif signatures in stretch enhancers are enriched for disease-associated genetic variants
Gommans et al. Screening of human SNP database identifies recoding sites of A-to-I RNA editing
Tetko et al. Spatiotemporal expression control correlates with intragenic scaffold matrix attachment regions (S/MARs) in Arabidopsis thaliana
Shen et al. MAGGIE: leveraging genetic variation to identify DNA sequence motifs mediating transcription factor binding and function
Coetzee et al. A systematic approach to understand the functional consequences of non-protein coding risk regions
Duttke et al. Position-dependent function of human sequence-specific transcription factors
JP2008516590A (ja) 真核生物ゲノムにおけるオーソログローカスについての機能的に対応する調節配列の同定及び割り当て
Khan et al. Computational tools and resources for prediction and analysis of gene regulatory regions in the chick genome
Fang et al. Using GRO-seq to measure circadian transcription and discover circadian enhancers