JP2008516590A

JP2008516590A - 真核生物ゲノムにおけるオーソログローカスについての機能的に対応する調節配列の同定及び割り当て

Info

Publication number: JP2008516590A
Application number: JP2007536097A
Authority: JP
Inventors: アンドレアス・クリンゲンホフ
Original assignee: ゲノマティックス・ソフトウェア・ゲーエムベーハー
Priority date: 2004-10-15
Filing date: 2005-10-13
Publication date: 2008-05-22
Also published as: WO2006040161A1; ATE425502T1; US20060085138A1; EP1800232B1; EP1800232A1; DE602005013259D1

Abstract

本発明は、真核生物のゲノム内の転写産物の調節配列を同定及び／または規定するための、及び／または各種の真核生物におけるオーソログ転写産物の機能的に対応する調節配列の群の同定のための方法及びコンピュータープログラムに関する。

Description

ますます数量的に増大する各種の生物から得られる今日のゲノム配列のデータが利用可能となっている(非特許文献５；非特許文献７)。前記データの質は、ＷＧＳ（全ゲノムショットガン）プロジェクトから得られる数千塩基対の短い配列断片から、染色体全体の連続したアセンブリー化配列まで様々である。

ゲノム配列の注釈（例えば遺伝子、プロモーター、ゲノムリピートの位置等）は、同様な広範囲の質と量をカバーする。第一の工程では、ゲノム配列はin silico法によって通常解析され、エクソン／イントロン構造を予測し（遺伝子予測）、反復配列パターンを予測する。次いで短い発現化配列（ＥＳＴ）を使用して、当該遺伝子予測についての証拠のサポートを構築する。

しかしながら、遺伝子予測は高い不確定性に悩まされており、特に遺伝子開始部位予測の場合にそうである。更にＥＳＴは通常、数百塩基対の長さのみを有し、転写産物の５’末端までをカバーしない。従って遺伝子開始部位の正確は予測は、依然として今日でも難しい課題である。

プロモーターは転写開始部位（ＴＳＳ）の上流配列として規定されるため、その注釈は対応する遺伝子開始部位の正確な注釈に厳密に依存する。

遺伝子開始部位の高品質の注釈のための唯一の方法は、５’全長ｃＤＮＡを介するものである(非特許文献３)。全長ｃＤＮＡは、コード配列（ＣＤＳ）をカバーするだけではなく、ＣＤＳの５’及び３’に位置する非翻訳領域（ＵＴＲ）をも含む。理想的にはそれらは、真の転写開始部位（ＴＳＳ）で開始し、ポリＡテールで終結する。ゲノム配列に対するこれらの全長ｃＤＮＡのマッピングのみが、遺伝子ローカスのために存在する転写産物の信頼できる注釈を導く。それ故それは、プロモーター領域を正確に注釈するための唯一の方法である。しかしながら、今までのところ、数個のゲノムプロジェクトについて、全長ｃＤＮＡの限られたコレクションが利用可能であるのみである(非特許文献９；非特許文献８；非特許文献６)。
Needleman SB, Wunsch CD. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol. 1970 Mar; 48(3): 443-53 Smith TF, Waterman MS. Identification of common molecular subsequences. J Mol Biol. 1981 Mar 25; 147(1): 195-7 Suzuki Y. et al. DBTSS: DataBase of human Transcriptional Start Sites and full-length cDNAs. Nucleic Acids Res. 2002 Jan 1; 30(1): 328-31 Suzuki Y. et al. Diverse transcriptional initiation revealed by fine, large-scale mapping of mRNA start sites. EMBO Rep. 2001 May; 2(5): 388-93 Waterston RH et al. Mouse Genome Sequencing Consortium. Initial sequencing and comparative analysis of the mouse genome. Nature. 2002 Dec 5; 420(6915): 520-62 Okazaki Y. et al. FANTOM Consortium; RIKEN Genome Exploration Research Group Phase I & II Team. Analysis of the mouse transcriptome based on functional annotation of 60,770 full-length cDNAs. Nature. 2002 Dec 5; 420(6915): 563-73 Lander ES, et al. International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature. 2001 Feb 15; 409(6822): 860-921 Imanishi T. et al. Integrative Annotation of 21,037 Human Genes Validated by Full-Length cDNA Clones. PLoS Biol. 2004 Apr 20. Ota T. et al. Complete sequencing and characterization of 21,243 full-length human cDNAs. Nat Genet. 2004 Jan; 36(1): 40-5

５’の完全な遺伝子注釈の質における有意な問題を解決するための唯一の方法は、オーソログローカスについて利用可能な注釈の比較である（即ち各種の生物由来の）。不幸にも、緊密に関連する生物（例えばラットとマウス）でさえ、ゲノム配列の多様性は、ある種の生物由来の全長ｃＤＮＡの広範にマッピングされたゲノムを、他種のゲノムに可能とはしない。特に、ｃＤＮＡの非コードＵＴＲは、生物間で散在されてのみ保存されているものである。これらの配列領域のマッピングについての相同性の閾値が低下すると、転写産物のリーディングエキソンについてのみ多義的な結果が生ずる。従って、当該結果は、プロモーター領域の正確な注釈のために利用することはできない

長さ制限の態様としての配列の単純なスキャニングウィンドウは作用しない。交差種エキソンマッピングによる制限は、当該技術分野の専門家に対してでさえ明確ではなく、その最上位のものも質のある結果を得るために上述の正確な規則の応用を必要とする。短いエキソンの長さと比較的低い配列保存性のため、種間の証拠の移し替えも自明ではない。

ここに記載されたアプローチは、存在する注釈を評価することが可能であり、ある種の生物から、この情報が不完全または不明である他種へ高品質の注釈を移し替えることが可能である。

本発明は、
（ａ）真核生物のゲノム内の複数のオーソログ転写産物の配列をマッピングする工程；
（ｂ）（ａ）のオーソログ転写産物間で保存されている少なくとも一つの配列を同定する工程；
（ｃ）工程（ｂ）で同定された保存配列の位置に基づいて、各真核生物のゲノムにおける保存配列について標的領域を規定する工程；
（ｄ）前記標的領域内の調節配列を同定及び／または規定する工程；並びに
（ｅ）機能的に対応する調節配列の群に対して前記調節配列を任意に割り当てる工程
を含む、真核生物のゲノム内のオーソログ転写産物の機能的に対応する調節配列を同定するための方法に関する。

更に本発明は、
（ａ）複数の真核生物のゲノム内の複数のオーソログ転写産物の配列をマッピングするための手段；
（ｂ）（ａ）のオーソログ転写産物間で保存されている少なくとも一つの配列を同定するための手段；
（ｃ）手段（ｂ）によって同定された保存配列の位置に基づいて、各真核生物のゲノムにおける保存配列について標的領域を規定するための手段；
（ｄ）前記標的領域内の調節配列を同定及び／または規定するための手段；並びに
（ｅ）機能的に対応する調節配列の群に対して前記調節配列を割り当てるための任意の手段
を含む、真核生物のゲノム内の機能的に対応する調節配列を同定するためのコンピュータープログラム製品に関する。

本発明は、真核生物のゲノム内のオーソログ転写産物の機能的に対応する調節配列の群の同定を可能にする。更に本発明は、転写産物の未知の調節配列の同定を可能にする。

本発明の方法及びコンピュータープログラム製品は、真核生物の群から由来する一連のオーソログローカスについて注釈された転写産物を比較して分析する。前記転写産物の好ましくは５’に位置する機能的に対応する調節配列を同定し、及び／または特徴付けして群に割り当てる。調節配列は、好ましくはプロモーター、エンハンサー、及び／またはリプレッサー領域から選択され、より好ましくはプロモーター領域から選択される。転写産物は、タンパク質コード配列を含んでも良い。しかしながら転写産物は、機能的なＲＮＡ分子であってもよく、それを含んでも良い。

機能的に対応する調節配列の同定は、保存エクソン／イントロン構造についてオーソログ転写産物をチェックすることによって達成される。オーソログローカスのいずれかにおける注釈が５’不完全であれば、これは潜在的に保存されたプロモーター領域（ＣｏｍｐＧｅｎプロモーターと称される）によって伸長できる。これは一つのエクソンをマッピングすることによって実施され、好ましくは標的生物の対応するオーソログゲノム配列にある種の生物から由来する転写産物の第一のエクソンをマッピングすることによって実施される。

この目的のため、ゲノム配列における潜在的な標的領域は、マッピングのために使用される転写産物のエクソン／イントロン構造の事前の分析によって、所定の長さ、例えば数千塩基対に制限される。標的領域のこの制限のため、不明確な結果を得ることなく、あまり保存されていないＵＴＲの交差種マッピングに必要なレベルに相同性の閾値を低めることが可能である。

オーソログローカスを有するホモロジー群の生成
第一の工程では、選択される生物について利用可能なｍＲＮＡ配列の排他的ペア様比較によって、オーソログローカスを同定する。二つ以上の真核生物から由来する転写産物、例えば調節領域が同定される一つまたはいくつかの生物から由来する転写産物と、調節領域が既知である一つまたはいくつかの第二の生物から由来する転写産物のマッチングによって、オーソログローカスを規定する。関連する転写産物がペア様のベストマッチを示すのであれば、好ましくは二つのローカスはオーソログとして記載される。このデータについての潜在的なソースは、National Center for Biotechnology Information (NCBI)によって提供されるHomoloGeneデータベースである。

これらのペア様関連に基づいて、ローカスを緊密な群（ホモロジー群）に割り当てる。二つのローカスが共通の第三のローカスに割り当てられるが、必ずしも直接的な関係によって結び付けられないのであれば、二つのローカスはホモロジー群に結び付けられる。各ローカスは、一つのホモロジー群のメンバーでのみあることができる

分析された真核生物は好ましくは、同じ界の真核生物、例えば動物、植物、または菌類に属する。より好ましくは真核生物は、同じ目に属し、例えばそれらは哺乳類、鳥類、両生類、魚類、昆虫類等である。一般的に、第一と第二の生物の間の緊密な関係が好ましい。

ホモロジー群におけるローカスの転写産物の分析
ホモロジー群におけるローカスについての可変転写産物の全ての利用可能なエクソン／イントロン注釈を、ゲノム注釈から集積する。可変転写産物は、そのエクソン／イントロン構造が異なるが、各種の転写開始部位から開始してもよく、その結果各種の調節領域、例えばプロモーター領域を有していても良い。好ましくは、全ての転写産物のエクソンは、保存について、即ち保存配列の存在について分析される。二つのエクソンが同一の長さを有し、十分な配列相同性（＜１０％のギャップ）を示すのであれば、保存されていると考慮される。配列相同性は好ましくは、Smith-Watermanアライメント（非特許文献２）を使用して測定される。好ましくは、最も５’に位置する保存エクソンは、共通のスケールで各種のローカス由来（即ち各種の生物由来）の転写産物をアレンジするために使用される。それらは、更なる距離の計算のためのアンカーを示す。これらのエクソンは第一のエクソンであることは必ずしも必要ではなく、それは５’完全ＥＳＴアセンブリーアルゴリズムとの主たる差異であることに注意すべきである。

ホモロジー群におけるローカス間の注釈の垂直方向の移し替え
各注釈転写産物の第一のエクソンは、ホモロジー群における全ての他のオーソロガスローカス（標的）のゲノム配列にマッピングされる。好ましくはこれは、全てのローカスについて網羅的に実施される。

マッピングは好ましくは、エクソン配列とゲノム配列をアライメントすることによって実施される（非特許文献１）。種間の高品質のマッピングを可能にするために、マッピングのための潜在的な標的領域を制限する。アンカー点と、ソース転写産物、即ち少なくとも転写開始部位と好ましくは同定される調節領域が既知である転写産物の転写開始部位（ＴＳＳ）との間の距離を、潜在的な位置、即ち好ましくは約２００００ｂｐ、より好ましくは約１００００ｂｐまで上流及び下流まで伸長されるゲノム標的配列に対するアライメントのための標的またはマッピング領域を決定するために使用し、各種のローカスのエクソン／イントロン構造の可変性をカバーする。アンカー点とソース転写産物の第一のエクソンとの間の非常に距離が非常に長い場合（＞１０００００ｂｐ）、ゲノム配列の標的またはマッピング領域の長さは、当該距離（好ましくは前記距離の約２０％まで）に相対的に伸長される。

少なくとも一つの以下の基準を実現する各マッピングのために、単一のエクソンからなる偽の転写産物を標的ローカスに対して生成する。
（ｉ）アライメントは好ましくは≧７０％同一のヌクレオチド、≦２０％のギャップを含み、≧２０ｂｐの長さを有する。
（ｉｉ）アライメントの長さによって標準化されたアライメントについて計算されたスコアは、好ましくは２の値を超える。

エクソンの伸長と位置は、マッピングの結果から由来する。かくしてローカスの注釈は、潜在的な保存調節領域、例えばプロモーター領域を示すオーソログローカス由来の保存された第一のエクソンによって一時的に伸長される。

対応する調節領域の同定
次の工程では、ホモロジー群における各種のローカスから得られる全ての第一のエクソンの配列を、互いに対してアライメントする。これらの第一のエクソンは、ゲノムの注釈、または上述のマッピング工程によって生成した偽の転写産物のいずれかから由来して良い。適切なアライメントは、以下の基準によって選択される：
（ｉ）アライメントは≧７０％同一のヌクレオチド、≦２０％のギャップを含み、≧５０ｂｐの長さを有する。
（ｉｉ）アライメントは≧６０％同一のヌクレオチド、≦５％のギャップを含み、≧５０ｂｐの長さを有する。
（ｉｉｉ）アライメントは≦２５％のギャップを含み、アライメントについて計算されたスコアは３００の値を超える。
（ｉｖ）アライメントは≧６０ｂｐの長さを有し、アライメントの長さによって標準化されたアライメントについて計算されたスコアは、少なくとも２の値を有する。

６０ｂｐより短い第一のエクソンで開始する転写産物については、二つの更なる基準を使用する。
（ｖ）アライメントは≧９０％同一のヌクレオチド、≦２０％のギャップを含み、≧２００ｂｐの長さを有する。
（ｖｉ）アライメントは≧７５％同一のヌクレオチド、≦１０％のギャップを含み、≧２０ｂｐの長さを有する。

少なくとも一つの基準を実現する各アライメントについて、二つの対応する転写産物を、ペア様対応パターンとして割り当てる。次いでペア様割り当てのリストを使用し、関連転写産物の閉ざした群を構築する。

ローカスについて一つより多い転写産物を含むこれらの群について、調節領域、例えばプロモーター領域を計算してよく、それらは全ての潜在的な部位、例えば転写開始工程の既知の可変性を反映する転写開始部位をカバーする（非特許文献４）。関連転写産物の群に唯一の偽の転写産物が割り当てられているローカスについて、オーソログローカスから得られる注釈によってサポートされる新たな潜在的なプロモーター領域（ＣｏｍｐＧｅｎプロモーター）を注釈に加える。詳細なエクソン／イントロン構造がこの方法によっては決定されないため、これらのプロモーターに割り当てられる転写産物は存在しない。

次いで、機能的に対応する調節領域、即ち共通のまたは少なくとも同等な生物学的機能が割り当てられて良い調節領域を含む群またはセットに、調節領域、例えばプロモーター領域を割り当てて良い。

特にいくつかのペア様マッチングパターンが分析される配列について同定されたならば、調節配列のいくつかの群またはセットが単一のローカスに割り当てられて良いことに注意すべきである。

更に本発明は、以下の実施例によってより詳細に説明されるであろう。

本発明の方法を、各種の群の真核生物のゲノムに適用した。第一の群は、３種の脊椎動物、Homo sapiens、Mus musculus、及びRattus norvegicusを含む。第二の群は、２種の昆虫、Drosophila melanogaster及びAnopheles gambiaeのゲノムを含む。

図１の例は、４種の転写産物を含む（H. sapiens（Ｔ１及びＴ２）から得た２種の可変転写産物、M. musculus（Ｔ３）から得た１種、及びR. norvegicus（Ｔ４）から得た１種）。各種のローカスの間で保存されたエクソンを点線によって結ぶ。エクソン２は最も５’に位置する保存エクソンであり、それ故共通のアンカーとして選択される。

図２は、H. sapiens（Ｔ１）のゲノム配列におけるアンカーとＴＳＳの間の距離（ｎｂｐ）に基づく、M. musculus（Ｔ３）のゲノム配列における標的（マッピング）領域の規定を示す。

図３は、げっ歯類ローカス（Ｔ３）のゲノム配列に対する転写産物Ｔ１及びＴ２（ヒト）のマッピングの結果を示す。図１に含まれた転写産物の網羅的なマッピングは、８種の偽の転写産物を生成する（H. sapiensについてP1-3、P1-4、M. musculusについてP3-1、P3-2、P3-4、並びにR. norvegicusについてP4-1、P4-2、P4-3）。

図４ａ及び４ｂは、配列Ｔ１、Ｔ２、Ｔ３、及びＴ４に基づく転写産物の閉ざした群の構築を示す。図４ａでは、プロモーター領域の計算が、ローカスについて一つより多い転写産物（P2-4とP2-5；P3-2とP3-5；またはP4-2とP4-4）を含むホモロジー群について示されている。図４ｂでは、唯一の偽の転写産物が関連転写産物のホモロジー群に割り当てられているプロモーター領域のマッピングが示されている。

それ故、図５においてプロモーターセット１（Ｐ１）に属するM. musculus（Ｔ３）及びR. norvegicus（Ｔ４）についてのプロモーター領域は、ヒトゲノム（Ｔ１）から入手可能な注釈、及び二つの標的配列で検出された配列相同性によってサポートされる。

図６ａは、Homo sapiens、Mus musculus、及びRattus norvegicusから得られるオーソログＥＬＫ１転写産物についての、本発明の方法によって生成した結果を模式図を示す。この例では、第一のヒト転写産物（１）と二つのげっ歯類転写産物（３，４）についてのプロモーターが、転写産物のそれぞれの第一のエクソンの配列相同性のため、一つの群（プロモーターセット群）に割り当てられる。プロモーターセットはまた、転写産物がこれまで知られていないラットのゲノム由来のプロモーター配列を含む。このプロモーター配列の位置を、Homo sapiens（１）及びMus musculus（３，４）から由来する対応する転写産物の第一のエクソンのマッピングによって測定した。プロモーターセット２及び３は、唯一の生物（２，５）で注釈された単一のプロモーター配列に両者とも基づく。対応する転写産物の第一のエクソンを、二つの残存する生物のゲノム配列に対してマッピングでき、対応するプロモーター配列の位置を決定するために使用される。これらのプロモーター配列のそれぞれは、各生物について注釈されたエクソンの５’末端に位置し、それ故機能的な調節配列を最も可能性高く表す。

図６ｂは、二つのホモロジー群ＣＧＡ及びＩＲＦ６について生成した結果を示す。ＣＧＡ遺伝子については、各生物についての一つの転写産物が利用可能である。ラットについて注釈された転写産物は、５’リーディングエクソンを明らかに欠いている。元々注釈されたプロモーター（プロモーターセット２に割り当てられた）は、二つの他の生物について注釈されたプロモーター（プロモーターセット１に割り当てられた）に対応しない。更なるプロモーターの注釈、及びプロモーターセットへの割り当てのため、各生物から由来する機能的に対応するプロモーター領域、即ちそれぞれプロモーターセット１および２のメンバーは、更なる分析のために利用可能である。

ＩＲＦ６ローカスについて得られた結果は比較可能である。ヒトゲノムに注釈されたプロモーター領域のみがプロモーターセットから排除され、生物間での低い度合いの保存、または注釈における誤差のいずれかを示す。

図１の例は、４種の転写産物を含む（H. sapiens（Ｔ１及びＴ２）から得た２種の可変転写産物、M. musculus（Ｔ３）から得た１種、及びR. norvegicus（Ｔ４）から得た１種）。各種のローカスの間で保存されたエクソンを点線によって結ぶ。エクソン２は最も５’に位置する保存エクソンであり、それ故共通のアンカーとして選択される。図２は、H. sapiens（Ｔ１）のゲノム配列におけるアンカーとＴＳＳの間の距離（ｎｂｐ）に基づく、M. musculus（Ｔ３）のゲノム配列における標的（マッピング）領域の規定を示す。図３は、げっ歯類ローカス（Ｔ３）のゲノム配列に対する転写産物Ｔ１及びＴ２（ヒト）のマッピングの結果を示す。図１に含まれた転写産物の網羅的なマッピングは、８種の偽の転写産物を生成する（H. sapiensについてP1-3、P1-4、M. musculusについてP3-1、P3-2、P3-4、並びにR. norvegicusについてP4-1、P4-2、P4-3）。図４ａは、配列Ｔ１、Ｔ２、Ｔ３、及びＴ４に基づく転写産物の閉ざした群の構築を示す。図４ａでは、プロモーター領域の計算が、ローカスについて一つより多い転写産物（P2-4とP2-5；P3-2とP3-5；またはP4-2とP4-4）を含むホモロジー群について示されている。図４ｂは、配列Ｔ１、Ｔ２、Ｔ３、及びＴ４に基づく転写産物の閉ざした群の構築を示す。図４ｂでは、唯一の偽の転写産物が関連転写産物のホモロジー群に割り当てられているプロモーター領域のマッピングが示されている。図５においてプロモーターセット１（Ｐ１）に属するM. musculus（Ｔ３）及びR. norvegicus（Ｔ４）についてのプロモーター領域は、ヒトゲノム（Ｔ１）から入手可能な注釈、及び二つの標的配列で検出された配列相同性によってサポートされる。図６ａは、Homo sapiens、Mus musculus、及びRattus norvegicusから得られるオーソログＥＬＫ１転写産物についての、本発明の方法によって生成した結果を模式図を示す。この例では、第一のヒト転写産物（１）と二つのげっ歯類転写産物（３，４）についてのプロモーターが、転写産物のそれぞれの第一のエクソンの配列相同性のため、一つの群（プロモーターセット群）に割り当てられる。プロモーターセットはまた、転写産物がこれまで知られていないラットのゲノム由来のプロモーター配列を含む。このプロモーター配列の位置を、Homo sapiens（１）及びMus musculus（３，４）から由来する対応する転写産物の第一のエクソンのマッピングによって測定された。プロモーターセット２及び３は、唯一の生物（２，５）で注釈された単一のプロモーター配列に両者とも基づく。対応する転写産物の第一のエクソンを、二つの残存する生物のゲノム配列に対してマッピングでき、対応するプロモーター配列の位置を決定するために使用される。これらのプロモーター配列のそれぞれは、各生物について注釈されたエクソンの５’末端に位置し、それ故機能的な調節配列を最も可能性高く表す。図６ｂは、二つのホモロジー群ＣＧＡ及びＩＲＦ６について生成した結果を示す。ＣＧＡ遺伝子については、各生物についての一つの転写産物が利用可能である。ラットについて注釈された転写産物は、５’リーディングエクソンを明らかに欠いている。元々注釈されたプロモーター（プロモーターセット２に割り当てられた）は、二つの他の生物について注釈されたプロモーター（プロモーターセット１に割り当てられた）に対応しない。更なるプロモーターの注釈、及びプロモーターセットへの割り当てのため、各生物から由来する機能的に対応するプロモーター領域、即ちそれぞれプロモーターセット１および２のメンバーは、更なる分析のために利用可能である。

Claims

（ａ）真核生物のゲノム内の複数のオーソログ転写産物の配列をマッピングする工程；
（ｂ）（ａ）のオーソログ転写産物間で保存されている少なくとも一つの配列を同定する工程；
（ｃ）工程（ｂ）で同定された保存配列の位置に基づいて、各真核生物のゲノムにおける保存配列について標的領域を規定する工程；
（ｄ）前記マッピング領域内の調節配列を同定及び／または規定する工程；並びに
（ｅ）機能的に対応する調節配列の群に対して前記調節配列を任意に割り当てる工程
を含む、真核生物のゲノム内のオーソログ転写産物の機能的に対応する調節配列を同定するための方法。
前記調節配列が、プロモーター、エンハンサー、及びリプレッサー、並びにそれらの組合せからなる群から選択される、請求項１に記載の方法。
前記調節配列がプロモーターである、請求項２に記載の方法。
前記真核生物が同じ目に属する、請求項１に記載の方法。
前記生物が哺乳類である、請求項４に記載の方法。
前記転写産物が、各生物内でペア様のベストマッチである場合に、オーソログとして記載される、請求項１に記載の方法。
工程（ａ）が、各真核生物のゲノムにおける複数のオーソログローカスを含むホモロジー群を生成することを含む、請求項１に記載の方法。
工程（ｂ）が、ホモローグ群のオーソログローカスから転写産物配列を分析することを含む、請求項７に記載の方法。
工程（ｂ）が、転写産物配列における保存エキソンを同定することを含む、請求項８に記載の方法。
二つのエキソンが、同一の長さを有する場合に保存されているとして同定される、請求項９に記載の方法。
工程（ｃ）が、標的領域を規定するためのアンカーとして、保存配列を選択することを含む、請求項１に記載の方法。
最も５’に位置する保存配列がアンカーとして選択される、請求項１１に記載の方法。
前記標的領域の位置が、アンカーとソース転写産物の転写開始部位との間の距離によって規定される、請求項１１に記載の方法。
前記第一の生物のゲノムにおけるマッピング領域が、約２００００ｂｐまでの長さを有する、請求項１１に記載の方法。
前記第一の生物のゲノムにおけるマッピング領域が、アンカーとソース転写産物の翻訳開始部位との間の距離の約２０％までの長さを有する、請求項１１に記載の方法。
工程（ｄ）が前記標的ローカスについての偽の転写産物配列を生成することを含む、請求項１に記載の方法。
偽の転写産物が、前記標的領域における配列と、ソース転写産物の第一のエクソンの配列との間のマッピングに基づいて生成され、前記マッピングが、少なくとも一つの以下の基準：
（ｉ）アライメントが≧７０％同一のヌクレオチド、≦２０％のギャップを含み、≧２０ｂｐの長さを有する；及び
（ｉｉ）アライメントの長さによって標準化されたアライメントについて計算されたスコアが２の値を超える
を実現しなければならない、請求項１６に記載の方法。
工程（ｄ）が、転写産物または偽の転写産物配列からの第一のエクソンのアライメント、ペア様マッチングパターンとしての所定のアライメント基準を実現する転写産物の割り当て、及び調節領域の位置の計算を含む、請求項８に記載の方法。
計算が、第一のエキソン配列の上流の潜在的な転写開始部位の位置に基づく、請求項１８に記載の方法。
（ａ）複数の真核生物のゲノム内の複数のオーソログ転写産物の配列をマッピングするための手段；
（ｂ）（ａ）のオーソログ転写産物間で保存されている少なくとも一つの配列を同定するための手段；
（ｃ）手段（ｂ）によって同定された保存配列の位置に基づいて、各真核生物のゲノムにおける保存配列について標的領域を規定するための手段；
（ｄ）前記標的領域内の調節配列を同定及び／または規定するための手段；並びに
（ｅ）機能的に対応する調節配列の群に対して前記調節配列を割り当てるための任意の手段
を含む、真核生物のゲノム内の機能的に対応する調節配列を同定するためのコンピュータープログラム製品。