JP2008097189A

JP2008097189A - 塩基配列断片の転写物特異性又は遺伝子特異性を判定する方法

Info

Publication number: JP2008097189A
Application number: JP2006276412A
Authority: JP
Inventors: Tadashi Imanishi; 規今西; Mitsuyoshi Hishiki; 光良日紫喜; Motohiko Yano; 元彦谷野; Junichi Takeda; 淳一武田
Original assignee: National Institute of Advanced Industrial Science and Technology AIST; Japan Biological Informatics Consortium
Current assignee: National Institute of Advanced Industrial Science and Technology AIST; Japan Biological Informatics Consortium
Priority date: 2006-10-10
Filing date: 2006-10-10
Publication date: 2008-04-24

Abstract

【課題】特定の転写物にのみ特異的な塩基配列を有する塩基配列断片情報を高精度に取得すること。
【解決手段】コンピュータを利用して、まず、単一生物種のゲノム１の所定遺伝子（例えば、２１）の塩基配列情報と、この遺伝子から産生され得る転写物グループ（例えば、３１）に属する各転写物（例えば、３１ａ〜３１ｄ）に対応する塩基配列情報をコンピュータに格納しておく。そして、コンピュータに入力された塩基配列断片の塩基配列情報と前記塩基配列情報を自動的に照合する手順を行うことによって、前記塩基配列断片が、特定の転写物（例えば、３１ａ）にのみ特異的な塩基配列（例えば、３１４２）であるか否か、あるいは特定の遺伝子（例えば、２１）に特異的な塩基配列であるか否かを自動的に判定する。
【選択図】図４

Description

本発明は、塩基配列断片の転写物特異性を判定する技術に関する。より詳細には、遺伝子から産生される転写物群に属する特定の転写物にのみ特異的な塩基配列を有する塩基配列断片や特定の遺伝子に特異的な塩基配列を有する塩基配列断片に係わる情報を取得するための技術に関する。

真核生物の遺伝子内にはイントロンと呼ばれる介在配列が存在し、アミノ酸をコードする塩基配列部分（エクソン）を分断している。このため、前記イントロンの除去が行われないと正規のアミノ酸配列に翻訳することができない。

このイントロンの除去過程は、ＤＮＡそれ自体に対して行われるではなく、遺伝子の一次転写物に対して行われる。この一次転写物からイントロン部分が除去され、エクソン部分が再結合される過程は、「スプライシング（pre-ｍRNAスプライシング）」と称される。

また、幾つかのエクソンを有する遺伝子においては、該遺伝子由来の一つの一次転写物（ｍＲＮＡ前駆体：ｈｎＲＮＡ）に対して、スプライシングの位置やエクソンの個数等を適宜選択することによって、配列の異なる多様な成熟ｍＲＮＡが作られる機構が知られている。

この機構は、一般に、「選択的スプライシング（alternative splicing）」と呼ばれており、この機構によって同一の遺伝子から複数種のタンパク質が翻訳産生されることになる。一例を挙げると、トロポニンは、速筋型、遅筋型、心筋型のスプライシング・バリアント（splicing variant）が存在するが、このようなスプライシング・バリアントは、選択的スプライシング機構によって産生される。

発生段階や臓器において特異的な選択的スプライシングが行われることによって、遺伝子の発現の制御又は調節が行われる。また、少数の遺伝子から様々な組織を作り出し、多様な機能を発揮できるのも、選択的スプライシング機構の結果から生じるスプライシング・バリアントに基づいている。

ところで、現在、網羅的な生体情報のデータベース化が進展している。例えば、網羅的に遺伝子情報を収集したデータベース（例えば、EntrezGene）、網羅的に転写物情報を収集したデータベース（例えば、dbEST、H-InvDB）、網羅的にタンパク質情報を収集したデータベース（例えば、ORFeome）などが知られている。

このようなデータベースを利用する方法又はシステムも開発されている。一例を挙げると、特許文献１には、既知遺伝子ごとの転写物の塩基配列断片をデータベースから集め、該転写物の塩基配列断片をゲノムデータベースから得られる既知遺伝子配列と相同性検索してゲノム配列上にマッピングし、さらに、転写物の塩基配列を比較等することによって、スプライシング産物の同一性を判定する方法が開示されている。
特開２００５−１３５０５３号公報。

遺伝子から選択的スプライシング機構を介して産生（発現）され得る転写物の種類を特定したり、その発現様式を正確に理解したりすることは、複雑な生体機構の解明に重要である。また、スプライシング・バリアントを考慮することによって、遺伝子レベルのより正確な発現解析を行うことも重要である。

そこで、本発明は、（１）所定の転写物にのみ特異的に存在する塩基配列部分が一又は複数存在し得ることを手がかりに、特定の転写物にのみ特異的な塩基配列を有する塩基配列断片情報を取得すること、（２）また、同一遺伝子由来の全転写物に共通であって、かつ、他の遺伝子由来の転写物に存在しない塩基配列部分が一又は複数存在することを手がかりに、特定の遺伝子にのみ特異的な塩基配列を有する塩基配列断片情報を取得すること、（３）さらには、このようにして取得された塩基配列断片情報を利用して遺伝子種、転写物種の特定や発現様式などを理解し、前記生体機構の解明に役立てること、を主な目的とする。

本発明は、プログラム（ソフトウエア）がコンピュータにおいてハードウエア資源と協働して実行されることによって、上記目的に応じた情報の演算又は加工を実現する特有の方法を構築するものである。具体的には、コンピュータの格納部に対して所定の塩基配列情報を格納しておき、塩基配列同士を照合するプログラムに基づいて、格納された塩基配列情報と入力された塩基配列とが一致するか否かを判定することにより、目的の結果を得るものである。

本発明は、まず、単一生物種のゲノム由来の遺伝子情報と、前記遺伝子情報に含まれる遺伝子のいずれに対応するかでグループ分けがなされている、配列構造の異なる転写物の塩基配列情報と、をコンピュータに格納しておくようにする。そして、コンピュータに入力された塩基配列断片の塩基配列情報と前記転写物の塩基配列情報と、をコンピュータで自動照合する手順を行うことによって、（１）前記塩基配列断片が、特定の転写物にのみ特異的に存在する転写物特異的塩基配列であるか否か、（２）特定の遺伝子から生産され得る全ての転写物群に共通して存在し、かつ、他の遺伝子から生産され得る転写物群には存在しない遺伝子特異的塩基配列であるか否か、これら（１）、（２）のいずれか又は両方の自動判定を行う。なお、自動照合の対象となる前記塩基配列断片は、単一のもでも、二以上の塩基配列断片の組からなるものでもよい。なお、また、本発明における遺伝子情報とは、当該遺伝子の塩基配列情報のことであり、既知の遺伝子情報や特定の実験において観測された遺伝子情報も採用できる。

本発明では、さらに、上記（１）によって取得された「転写物特異的塩基配列情報」を利用して、所定の転写物の発現の有無や発現量を確実に測定したり、上記（２）によって取得された「遺伝子特異的塩基配列情報」を利用して、所定遺伝子の発現の有無や発現量を確実に測定したりすることができる。

本発明に関係する技術用語を簡潔に説明すると、まず、「ゲノム」とは、生物が持つ遺伝子群の完全なセットを意味し、「遺伝子」とは、遺伝情報を決定する機能的・物理的構造単位であり、本発明では特に、ゲノム上の１遺伝子座に存在し、転写・翻訳される構造遺伝子を意味し、「転写物」とは、前記構造遺伝子からスプライシング機構を介して産生（発現）されるｍＲＮＡ（成熟ｍＲＮＡ）を意味する。「塩基配列断片」は、数塩基から数十塩基程度のオリゴヌクレオチド鎖（ｍＲＮＡ、ｃＤＮＡを含む。）を意味し、使用目的によって「プローブ」と同義である。

本発明に係る方法によれば、所定の遺伝子と対応付けがなされた特定の転写物にのみ特異的な塩基配列を有する塩基配列断片情報、あるいは、特定の遺伝子にのみ特異的な塩基配列を有する塩基配列断片情報を高精度に取得することができる。さらに、取得された転写物又は遺伝子特異的塩基配列断片情報を利用すれば、転写物単位の発現確認や発現量の確認、遺伝子単位の総発現量の確認などを確実に行うことができる。

以下、本発明の概念及びその実施形態例について、添付図面を参照しながら説明する。なお、本発明に係わる計算や判定等のステップ（手順）は、すべてコンピュータにおいてハードウエア資源と協働して実行されるものである。また、本発明に係る方法は、遺伝子や転写物の塩基配列情報や照合及び判定等のプログラムなどが格納されているサーバ（あるいは、ホストコンピュータ）と情報を入力等する側のコンピュータ端末とがインターネット等の通信ネットワークを介して接続されているコンピュータネットワークシステムにより実行する形態例も含まれている。また、コンピュータによる塩基配列照合のプログラム自体は、公知一般のものを利用できる。

まず、図１は、本発明に係る「塩基配列断片の転写物特異性判定方法」の概念を説明するための図である。

この図１に示す符号１は、対象とする単一生物の全ゲノム（ミトコンドリアを含む。）を示している。これに対して、符号２は、当該生物の前記ゲノム１に存在している遺伝子群を示している。この遺伝子群２のうち、符号２１〜２３は、前記ゲノム１にマッピングされている遺伝子、符号２４は、前記ゲノム１にマッピングされない遺伝子（遺伝子座が未知の遺伝子）を示している。

次に、図１に示す符号３は、当該対象生物における転写物群を示している。この転写物群３に包含されている符号３１は、遺伝子２１から転写及びスプライシング（選択的スプライシング）の過程を経て産生され得る配列構造の異なる転写物グループを示している。

同様に、符号３２は、遺伝子２２から転写及びスプライシングの過程を経て産生され得る転写物グループ、符号３３は、遺伝子２３から転写及びスプライシング（選択的スプライシング）の過程を経て産生され得る転写物グループ、符号３４は、遺伝子２４から転写及びスプライシング（選択的スプライシング）の過程を経て産生され得る転写物グループ、をそれぞれ示している。

本発明では、特定の対象生物の転写物群３に包含されている転写物においては、配列構造が異なる転写物の塩基配列情報、即ち、塩基配列が同一である転写物が重複して存在していない塩基配列情報を利用することを前提とする。具体的には、転写物グループ３１,３２,３３,３４のそれぞれのグループ内において、さらには、転写物群３全体においても塩基配列が同一である転写物が存在しないようにコレクションされた情報を利用する。なお、この転写物群３には、由来である遺伝子が不明の転写物は含まれていないものとする。

これに対して、図１中に比較対照の目的で示した別の転写物群４は、塩基配列が一致している転写物が重複して含まれたコレクション情報となっている。例えば、転写物群４のコレクション情報では、符号４０ａ,４０ｂ,４０ｃ,４０ｄ,４０ｅで示されたような、塩基配列が一致している転写物群が含まれている。

本発明では、塩基配列が同一の転写物が重複して存在しないように予めコレクションされた転写物群３のような塩基配列情報を用いて、所定のコンピュータ情報処理を行うことを特徴の一つとしている。なお、
転写物のコレクション塩基配列情報は、公共データベース等の塩基配列データベースから網羅的に集めたものを対象とすることも可能である。また、特定の実験プロジェクトにおいて所得された塩基配列情報セットをコレクションとして用いる場合においても、同等の実験を対象として本発明を用いることにより、期待される転写物の網羅性をカバーすることができるので、本発明を有効に適用できる。

ここで、図２を参照すると、この図２には転写物グループ３１に属する一つの転写物３１ａを拡大して示している。この転写物３１ａは、スプライシング機構によって、計四つのエクソンの塩基配列３１１,３１１,３１１,３１１が連結された塩基配列構成を備えていることを模式的に表現している。また、符号３１２は、同スプライシング機構によってイントロンが切り取られたことを模式的に表現している。このような模式的な図示方法は、図１や他の図面において示されている転写物群にすべて共通であるので、以後、都度の説明を割愛する。

次に、図３は、本発明が利用する転写物群３に属する一つの転写物グループ３４を拡大して示している。

この図３に示された転写物グループ３４は、二つの転写物３４ａと転写物３４ｂから構成されている（図１、図３参照）。このうち、転写物３４ａは、エクソンの塩基配列３４１、３４２、３４３が連結された塩基配列構成を有しており、もう一方の転写物３４ｂは、エクソンの塩基配列３４１と３４３が連結された塩基配列構成を備えている。

ここで、エクソンの塩基配列３４２は、転写物３４ａと３４ｂを区別することが可能な塩基配列であり、かつ、転写物群３に属する他のすべての転写物と転写物３４ａを区別することが可能な塩基配列である。さらに、この塩基配列が、他の転写物群においても存在しない場合では、エクソンの塩基配列３４２は、全転写物において転写物３４ａにのみ特異的な塩基配列である。このように、所定の転写物にのみ存在する塩基配列を、説明の便宜上、以下では、「転写物特異的塩基配列」と称する。

符号３４２に例示されるような「転写物特異的塩基配列」の情報を利用すると、当該転写物特異的塩基配列３４２と所定の転写物の塩基配列とを比較したり、あるいは、当該転写物特異的塩基配列３４２と複数の転写物のそれぞれの塩基配列情報とを照合したりすることによって、その転写物が転写物３４ａであるか否か、あるいは、複数の転写物（の情報）が混在している系の中に転写物３４ａ（の情報）が含まれているか否かを、コンピュータにより自動的に判定することができる。また、符号３４２に例示されるような転写物特異的塩基配列断片それ自体は、前記した内容の判定実験を実施できるプローブとして有効に活用することもできる。

ここで、エクソンの塩基配列３４３は、転写物３４ａと転写物３４ｂに共通な塩基配列部分であり、この塩基配列部分が、他の転写物群において存在しない場合、エクソンの塩基配列３４３は、全遺伝子において、遺伝子２４にのみ特異的な塩基配列となる。このように、所定の遺伝子から産生され得る転写物にだけ存在しており、かつ、当該遺伝子の全転写物に共通して存在する塩基配列を、説明の便宜上、以下では、「遺伝子特異的塩基配列」と称する。

符号３４３に例示されるような「遺伝子特異的塩基配列」の情報を利用すると、当該遺伝子特異的塩基配列３４３と所定の転写物の塩基配列とを比較したり、あるいは、当該遺伝子特異的塩基配列３４３と複数の転写物のそれぞれの塩基配列情報とをコンピュータで自動照合したりすることによって、当該転写物が遺伝子２４に由来するものであるか否か、あるいは、複数の転写物情報が混在している系の中に遺伝子２４に由来する転写物（の情報）が含まれているか否かなどを、コンピュータにより自動的に判定することができる。また、符号３４３に例示されるような転写物特異的塩基配列断片それ自体は、前記した内容の判定実験を実施できるプローブとして活用することもできる。

また、「転写物特異的塩基配列」や「遺伝子特異的塩基配列」を利用すると、転写物の発現頻度の測定を行うことも可能である。このことを転写物グループ３４を例として簡単に説明する。まず、遺伝子特異的塩基配列３４３の情報を利用することによって、転写物３４ａと３４ｂの両方の発現量Ｖ_１を測定することができる。さらに、転写物特異的塩基配列３４２の情報を利用することによって、転写物３４ａだけの発現量Ｖ_２を測定することができる。なお、発現量Ｖ_１とＶ_２の差分（Ｖ_１−Ｖ_２）は、転写物３４ｂの発現量に相当する。

このような方法によって、転写物３４ａと転写物３４ｂのそれぞれの発現量や両転写物３４ａ，３４ｂの総発現量を知ることができる結果、例えば、発生段階や臓器別（組織別）の遺伝子２４の選択的スプライシング機構や発現様式を知ることができる。

次に、図４は、転写物群３に包含される転写物グループ３１の塩基配列構成を拡大して示す図（模式図）である。

転写物グループ３１には、四種の転写物３１ａ,３１ｂ,３１ｃ,３１ｄが含まれている。まず、転写物３１ａは、エクソンの塩基配列３１１〜３１４が連結された塩基配列構成であり、転写物３１ｂは、エクソンの塩基配列３１１〜３１３と３１４１（エクソン３１４の部分配列）が連結された塩基配列構成であり、転写物３１ｃは、エクソンの塩基配列３１１,３１２,３１４１が連結された塩基配列構成であり、転写物３１ｄは、エクソンの塩基配列３１１２（エクソン３１１の部分配列）と３１４１が連結された塩基配列構成である。

ここで、この図４からわかるように、転写物グループ３１を構成する四種の転写物３１ａ,３１ｂ,３１ｃ,３１ｄには、これら全部に共通する塩基配列の組み合わせが存在する。即ち、その組み合わせは、塩基配列３１１２と塩基配列３１４１である（図４再参照）。

また、この組み合わせ配列（３１１２＋３１４１）が、他の転写物グループ３２〜３４のいずれにも存在しないならば、この組み合わせ配列（３１１２＋３１４１）は、転写物グループ３１にのみ特異的な組み合わせ配列、即ち、「遺伝子特異的塩基配列（遺伝子２１に特異的な塩基配列）」と言える。

次に、図５は、転写物群３に含まれる転写物グループ３５（図１では示さず。）の塩基配列構成及びプローブの配列構成を拡大して示す図である。

まず、この図５に示す符号２５は、当該対象生物における遺伝子群２（図１参照）のうち、ゲノム１（図１参照）にマッッピングされている遺伝子を示している。符号３５で示す転写物グループは、同じ遺伝子２５から産生された四種の転写物３５ａ，３５ｂ，３５ｃ，３５ｄから構成されている。

ここで、図５に示す符号３５１は、他の転写物グループ３１〜３４には存在せず、かつ、転写物３５ｂにのみ特異的に存在する塩基配列であり、符号３５２は、他の転写物グループ３１〜３４には存在せず、かつ、転写物３５ａ，３５ｃ，３５ｄにのみ特異的に存在する塩基配列である。

この場合、例えば、塩基配列３５１に相補的な塩基配列断片（ｃＤＮＡプローブ）Ｐ_１と塩基配列３５２に相補的な塩基配列断片（ｃＤＮＡプローブ）Ｐ_２の組を利用することによって（図５参照）、転写物グループ３５に属する全ての転写物３５ａ〜３５ｄを網羅的に捕捉することができ、あるいは、対象の転写物が転写物グループ３５に属するものか否か、即ち、遺伝子２５由来の転写物か否かを判定することができる。

次に、図６は、転写物群３に含まれる転写物グループ３６（図１では示さず。）の塩基配列構成及びプローブの配列構成を拡大して示す図である。

まず、この図６に示されている符号２６は、当該対象生物における遺伝子群２（図１参照）のうち、ゲノム１（図１参照）にマッピングされている遺伝子を示している。符号３６で示す転写物グループは、同じ遺伝子２６から産生され得る四種の転写物３６ａ，３６ｂ，３６ｃ，３６ｄから構成されている。

ここで、符号３６１は、他の転写物グループには存在せず、かつ、三つの転写物３６ａ，３６ｂ，３６ｄに特異的に存在する塩基配列であり、符号３６２は、他の転写物グループには存在せず、かつ、二つの転写物３６ａ，３６ｂに特異的に存在する塩基配列であり、符号３６３は、他の転写物グループには存在せず、かつ、三つの転写物３６ａ，３６ｃ，３６ｄに特異的に存在する塩基配列であり、符号３６４は、他の転写物グループには存在せず、かつ、一つの転写物３６ａにのみ特異的に存在する塩基配列である（図６参照）。

このような塩基配列構成を有する転写物群からなる転写物グループの例を想定すると、塩基配列３６１，３６２，３６３，３６４にそれぞれに相補的な塩基配列を有する塩基配列断片、例えば、プロープＰ_１１，Ｐ_１２，Ｐ_１３，Ｐ_１４（図６参照）を用いることによって、遺伝子２６由来の転写物３６ａ〜３６ｄの発現頻度などを調べることが可能となる。

具体的には、次の「表１」に示すように、実験によって得られたプロープＰ_１１，Ｐ_１２，Ｐ_１３，Ｐ_１４のそれぞれと相補的な塩基配列を有する各転写物の総量に関する実験データを、仮にＡ、Ｂ、Ｃ、Ｄとする。

この結果を例に説明すると、まず、「転写物３６ａ」の発現量は、当該転写物３６ａのみを捕捉するプローブＰ_１４の測定量Ｄによって求めることができる（表１参照）。

次に、「転写物３６ｂ」の量は、転写物３６ａと３６ｂを捕捉するプローブＰ_１１の測定量Ｂから転写物３６ａの前記測定量Ｄを差し引くことによって求めることができる。即ち、転写物３６ｂの量は、Ｂ−Ｄを計算することによって求めることができる（表１再参照）。

次に、「転写物３６ｄの量」は、転写物３６ａ，３６ｂ，３６ｄを捕捉するプローブＰ_１１の測定量Ａから転写物３６ａと３６ｂを捕捉するプローブＰ_１２の測定量Ｂを差し引くことによって求めることができる。即ち、転写物３６ｄの量は、Ａ−Ｂをコンピュータで計算することによって求めることができる（表１再参照）。

最後に、「転写物３６ｃの量」は、転写物３６ａ，３６ｃ，３６ｄを捕捉するプローブＰ_１３の測定量Ｃから転写物３６ａのみを捕捉するプローブＰ_１４の測定量Ｄと転写物３６ｄの前記測定量Ａ−Ｂの合計[Ｄ＋（Ａ−Ｂ）]を差し引くことによって求めることができる。即ち、転写物３６ｄの量は、Ｃ−[Ｄ＋（Ａ−Ｂ）]をコンピュータで計算することによって求めることができる（表１再参照）。

以上をまとめると、転写物３６ａ〜３６ｄのそれぞれの発現量は次の「表２」のようになる。なお、これらの転写物３６ａ〜３６ｄの総発現量、対応する遺伝子の総発現量は、各転写物の発現量を合計することにより求めることができる。

続いて、本発明において利用可能なデータの構成例、並びに該データを用いた情報処理例について説明する。図７は、本発明に係わるデータの基本的な構成を示す図、図８は、同データの記載例を示す図、図９は、本発明に係る情報処理例のプログラムフローチャートを示す図である。

まず、図７、図８に基づいて、各データＤ_１〜Ｄ_６の構成（構造）例について説明する。なお、図８中に示されている塩基配列は、データ表記上の記載例であるので、本願明細書には、配列表を特に添付しないことを確認する。

＜データＤ_１＞。
このデータＤ_１は、一生物種に情報を１レコードに記載している。「生物種ＩＤ」は、生物種に係わる情報をＩＤ化して記載しておくもので、例えば、国際ＤＮＡデータバンクのＴａｘＩＤを生物種ＩＤとして用いる。図８に示す例のように、「学名」は、当該生物種の学名（例えば、Homo sapiens）を記載し、「一般名」は、セミコロン区切りによって、複数記載を可能とする（例えば、Human;Hito）。また、「ゲノム塩基配列」は、染色体単位に塩基配列を記載したマルチfasta形式のテキスト情報として格納する（例えば、>chr1\nACGGT・・・）。

＜データＤ_２＞。
このデータＤ_２は、一遺伝子の情報を１レコードに記載する。例えば、「遺伝子ＩＤ」は、Ｈ-ＩｎｖＤＢ（1160456356103_0）のクラスターＩＤを遺伝子ＩＤとして採用する。例えば、図８に示すように、HIX0009354の如きに記載する。「遺伝子名称」は、遺伝子の名称を記載する。例えば、ヒト遺伝子名称として、HUGO Gene Nomenclature Committee(http://www.gene.ucl.ac.uk/nomenclature/)の定める遺伝子名を記載する。「遺伝子情報」は、アプリケーションの必要に応じて例えば定義情報、遺伝子座情報、分子の機能、生体応答、細胞内局在など、遺伝子に関するアノテーションを記載する。

＜データＤ_３＞。
このデータＤ_３は、一転写物の情報を１レコードに記載する。一例を挙げると、転写物種を代表する転写物の国際ＤＮＡデータバンクにおけるＤＮＡ配列エントリーＩＤ（Accession番号）を転写物種ＩＤとする（その例は、図８参照）。

＜データＤ_４＞。
このデータＤ_４は、一転写物の情報を１レコードに記載する。例えば、転写物の国際ＤＮＡデータバンクにおけるＤＮＡ配列エントリーＩＤ（Accession番号）を転写物ＩＤとする（その例は、図８参照）。

＜データＤ_５＞。
このデータＤ_５は、遺伝子に特異的な塩基配列断片、又は遺伝子に特異的な塩基配列の組み合わせの一つを１レコードに記載する。例えば、一つの塩基配列が当該遺伝子の全転写物グループに属しており、その他の転写物グループには存在しないことを表す。塩基配列は、マルチfasta形式のテキスト情報として格納している。その記載例を図８に示す。

＜データＤ_６＞。
このデータＤ_６は、転写物種に特異的な塩基配列断片、又は転写物種に特異的な塩基配列の組み合わせの一つを１レコードに記載する。例えば、二つの塩基配列で、当該転写物種を転写物種と識別できることを表す。塩基配列は、マルチfasta形式のテキスト情報として格納している。識別の条件としては、図８の例では、当該転写物種「AJ437024.1」が、転写物種「BC006499」に包含されることを示す「Part_of」識別子が記載され、塩基配列断片のうち、２番目の配列がBC006499に存在し、かつ、AJ437024.1に存在しない塩基配列であることが記載されている。

次に、図９に示すプログラムフローチャートに基づいて、本発明に係るコンピュータ情報処理方法の一例について説明する。この情報処理方法は、塩基配列断片（プローブ）の集合の中から、転写物、転写物グループ、あるいは遺伝子を特異的に特定可能な塩基配列断片又は塩基配列断片の組み合わせを見出すことを目的としている。

＜ステップＳ_１，Ｓ_２＞
与えられた（入力された）すべての塩基配列断片データを、コンピュータに予め格納されているすべての配列構造が異なる転写物の塩基配列データにマッピングする（ステップＳ_１）。なお、「マッピング」とは、一致する塩基配列の有無を探し、その存在位置を特定することである。このマッピングを前記転写物の各々について繰り返す。

＜ステップＳ_３，Ｓ_４＞
特定の転写物のみにマッピングされる塩基配列断片が存在するか否かを判定する（Ｓ_３）。この判定の結果が「ＹＥＳ」の場合は、当該塩基配列断片は、単一の転写物に特異的な塩基配列断片であると判断し、分類した上でコンピュータに格納する（Ｓ_４）。

＜ステップＳ_５，Ｓ_６＞
前記ステップＳ_３において「ＮＯ」の判定が出た場合は、続いて、特定の転写物に対して特異的な塩基配列断片の組み合わせが存在するか否かを判定する（Ｓ_５）。この判定の結果が「ＹＥＳ」の場合は、当該塩基配列断片の組み合わせは、単一の転写物に特異的な塩基配列断片の組（セット）であると判断し、分類した上でコンピュータに格納する（Ｓ_６）。

＜ステップＳ_７＞
前記ステップＳ_７において「ＮＯ」の判定が出た場合は、与えられた（入力された）塩基配列断片では特異的に特定できない転写物であると判断して分類する。なお、目的に応じて、この段階でプログラムをエンドとしてもよい（図９再参照）。

＜ステップＳ_８，Ｓ_９，Ｓ_１０＞
次に、与えられた（入力された）すべての塩基配列断片の中に、コンピュータに予め格納されている遺伝子の転写物であることが判明している全ての転写物に対してマッピングされ、かつ、他の転写物にマッピングされない塩基配列断片が存在するか否かを判定する（Ｓ_９）。この判定の結果が「ＹＥＳ」の場合は、当該塩基配列断片は、単一の遺伝子に特異的な塩基配列断片であると判断し、分類した上でコンピュータに格納する（Ｓ_１０）。

＜ステップＳ_８＞
前記ステップＳ_７において「ＮＯ」の判定が出た場合は、続いて、コンピュータに予め格納されている遺伝子の転写物であることが判明している全ての転写物に対してマッピングされ、かつ、他の転写物にマッピングされない特異的な塩基配列断片の組み合わせが存在するか否かを判定する（Ｓ_１１）。この判定の結果が「ＹＥＳ」の場合は、当該塩基配列断片の組み合わせは、単一の遺伝子に特異的な塩基配列断片の組（セット）であると判断し、分類した上でコンピュータに格納する（Ｓ_１２）。

＜ステップＳ_１３＞
前記ステップＳ_７において「ＮＯ」の判定が出た場合は、与えられた（入力された）塩基配列断片では特異的に特定できない遺伝子であると判断し、分類して格納する。以上のステップＳ_８〜Ｓ_１３を各遺伝子に対して実行して、完了とする（ＥＮＤ）。

以上のステップを実行することによって、塩基配列断片と転写物又は遺伝子が対応する情報（対比情報）を作成して、これをデータベース化する。このデータベースは、上記ステップの実行に反映させることができる（図９の曲線矢印参照）。

以上のような情報処理方法によって、塩基配列断片（プローブ）の集合から、転写物、転写物グループ、あるいは遺伝子を特異的に特定可能な塩基配列断片又は塩基配列断片の組み合わせを確実に見出すことができる。

本発明は、特定の転写物にのみ特異的な塩基配列を有する塩基配列断片情報の取得に利用することができる。転写物特異的な塩基配列断片情報を利用すると、遺伝子から産生される転写物の特定や発現頻度の測定、転写物の由来となった遺伝子の特定など、さらには、遺伝子の転写物やタンパク質の発現様式の理解、ひいては、生体機構の解明に利用することができる。

本発明に係る塩基配列断片の転写物特異性判定方法の概念を説明するための図である。転写物グループ３１に属する一つの転写物３１ａを拡大して示す図である。本発明が利用する転写物群３に属する一つの転写物グループ３４を拡大して示す図である。転写物群３に包含される転写物グループ３１の塩基配列構成を拡大して示す図である。転写物群３に含まれる転写物グループ３５の塩基配列構成及びプローブの配列構成を拡大して示す図である。転写物群３に含まれる転写物グループ３６の塩基配列構成及びプローブの配列構成を拡大して示す図である。本発明に係わるデータの基本的な構成を示す図である。同データの記載例を示す図である。本発明に係る情報処理例のプログラムフローチャートを示す図である。

Claims

単一生物種のゲノム由来の遺伝子情報と、
前記遺伝子情報に含まれる遺伝子のいずれに対応するかでグループ分けがなされている、配列構造の異なる転写物の塩基配列情報と、をコンピュータに格納しておき、
コンピュータに入力された塩基配列断片の塩基配列情報と前記転写物の塩基配列情報と、をコンピュータで自動照合する手順を行うことによって、次の（１）、（２）のいずれか又は両方の自動判定を行うことを特徴とする塩基配列断片の特異性判定方法。
（１）前記塩基配列断片が、特定の転写物にのみ特異的に存在する転写物特異的塩基配列であるか否か。
（２）特定の遺伝子から生産され得る全ての転写物群に共通して存在し、かつ、他の遺伝子から生産され得る転写物群には存在しない遺伝子特異的塩基配列であるか否か。
前記塩基配列断片は、二以上の塩基配列断片の組からなることを特徴とする請求項１記載の塩基配列断片の特異性判定方法。
請求項１記載の方法により取得された「転写物特異的塩基配列情報」を利用して、所定転写物の発現又は発現量を測定する方法。
請求項１記載の方法により取得された「遺伝子特異的塩基配列情報」を利用して、所定遺伝子の発現又は発現量を測定する方法。