JP2008097189A - 塩基配列断片の転写物特異性又は遺伝子特異性を判定する方法 - Google Patents
塩基配列断片の転写物特異性又は遺伝子特異性を判定する方法 Download PDFInfo
- Publication number
- JP2008097189A JP2008097189A JP2006276412A JP2006276412A JP2008097189A JP 2008097189 A JP2008097189 A JP 2008097189A JP 2006276412 A JP2006276412 A JP 2006276412A JP 2006276412 A JP2006276412 A JP 2006276412A JP 2008097189 A JP2008097189 A JP 2008097189A
- Authority
- JP
- Japan
- Prior art keywords
- base sequence
- transcript
- gene
- specific
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】特定の転写物にのみ特異的な塩基配列を有する塩基配列断片情報を高精度に取得すること。
【解決手段】コンピュータを利用して、まず、単一生物種のゲノム1の所定遺伝子(例えば、21)の塩基配列情報と、この遺伝子から産生され得る転写物グループ(例えば、31)に属する各転写物(例えば、31a〜31d)に対応する塩基配列情報をコンピュータに格納しておく。そして、コンピュータに入力された塩基配列断片の塩基配列情報と前記塩基配列情報を自動的に照合する手順を行うことによって、前記塩基配列断片が、特定の転写物(例えば、31a)にのみ特異的な塩基配列(例えば、3142)であるか否か、あるいは特定の遺伝子(例えば、21)に特異的な塩基配列であるか否かを自動的に判定する。
【選択図】 図4
【解決手段】コンピュータを利用して、まず、単一生物種のゲノム1の所定遺伝子(例えば、21)の塩基配列情報と、この遺伝子から産生され得る転写物グループ(例えば、31)に属する各転写物(例えば、31a〜31d)に対応する塩基配列情報をコンピュータに格納しておく。そして、コンピュータに入力された塩基配列断片の塩基配列情報と前記塩基配列情報を自動的に照合する手順を行うことによって、前記塩基配列断片が、特定の転写物(例えば、31a)にのみ特異的な塩基配列(例えば、3142)であるか否か、あるいは特定の遺伝子(例えば、21)に特異的な塩基配列であるか否かを自動的に判定する。
【選択図】 図4
Description
本発明は、塩基配列断片の転写物特異性を判定する技術に関する。より詳細には、遺伝子から産生される転写物群に属する特定の転写物にのみ特異的な塩基配列を有する塩基配列断片や特定の遺伝子に特異的な塩基配列を有する塩基配列断片 に係わる情報を取得するための技術に関する。
真核生物の遺伝子内にはイントロンと呼ばれる介在配列が存在し、アミノ酸をコードする塩基配列部分(エクソン)を分断している。このため、前記イントロンの除去が行われないと正規のアミノ酸配列に翻訳することができない。
このイントロンの除去過程は、DNAそれ自体に対して行われるではなく、遺伝子の一次転写物に対して行われる。この一次転写物からイントロン部分が除去され、エクソン部分が再結合される過程は、「スプライシング(pre-mRNAスプライシング)」と称される。
また、幾つかのエクソンを有する遺伝子においては、該遺伝子由来の一つの一次転写物(mRNA前駆体:hnRNA)に対して、スプライシングの位置やエクソンの個数等を適宜選択することによって、配列の異なる多様な成熟mRNAが作られる機構が知られている。
この機構は、一般に、「選択的スプライシング(alternative splicing)」と呼ばれており、この機構によって同一の遺伝子から複数種のタンパク質が翻訳産生されることになる。一例を挙げると、トロポニンは、速筋型、遅筋型、心筋型のスプライシング・バリアント(splicing variant)が存在するが、このようなスプライシング・バリアントは、選択的スプライシング機構によって産生される。
発生段階や臓器において特異的な選択的スプライシングが行われることによって、遺伝子の発現の制御又は調節が行われる。また、少数の遺伝子から様々な組織を作り出し、多様な機能を発揮できるのも、選択的スプライシング機構の結果から生じるスプライシング・バリアントに基づいている。
ところで、現在、網羅的な生体情報のデータベース化が進展している。例えば、網羅的に遺伝子情報を収集したデータベース(例えば、EntrezGene)、網羅的に転写物情報を収集したデータベース(例えば、dbEST、H-InvDB)、網羅的にタンパク質情報を収集したデータベース(例えば、ORFeome)などが知られている。
このようなデータベースを利用する方法又はシステムも開発されている。一例を挙げると、特許文献1には、既知遺伝子ごとの転写物の塩基配列断片をデータベースから集め、該転写物の塩基配列断片をゲノムデータベースから得られる既知遺伝子配列と相同性検索してゲノム配列上にマッピングし、さらに、転写物の塩基配列を比較等することによって、スプライシング産物の同一性を判定する方法が開示されている。
特開2005−135053号公報。
遺伝子から選択的スプライシング機構を介して産生(発現)され得る転写物の種類を特定したり、その発現様式を正確に理解したりすることは、複雑な生体機構の解明に重要である。また、スプライシング・バリアントを考慮することによって、遺伝子レベルのより正確な発現解析を行うことも重要である。
そこで、本発明は、(1)所定の転写物にのみ特異的に存在する塩基配列部分が一又は複数存在し得ることを手がかりに、特定の転写物にのみ特異的な塩基配列を有する塩基配列断片情報を取得すること、(2)また、同一遺伝子由来の全転写物に共通であって、かつ、他の遺伝子由来の転写物に存在しない塩基配列部分が一又は複数存在することを手がかりに、特定の遺伝子にのみ特異的な塩基配列を有する塩基配列断片情報を取得すること、(3)さらには、このようにして取得された塩基配列断片情報を利用して遺伝子種、転写物種の特定や発現様式などを理解し、前記生体機構の解明に役立てること、を主な目的とする。
本発明は、プログラム(ソフトウエア)がコンピュータにおいてハードウエア資源と協働して実行されることによって、上記目的に応じた情報の演算又は加工を実現する特有の方法を構築するものである。具体的には、コンピュータの格納部に対して所定の塩基配列情報を格納しておき、塩基配列同士を照合するプログラムに基づいて、格納された塩基配列情報と入力された塩基配列とが一致するか否かを判定することにより、目的の結果を得るものである。
本発明は、まず、単一生物種のゲノム由来の遺伝子情報と、前記遺伝子情報に含まれる遺伝子のいずれに対応するかでグループ分けがなされている、配列構造の異なる転写物の塩基配列情報と、をコンピュータに格納しておくようにする。そして、コンピュータに入力された塩基配列断片の塩基配列情報と前記転写物の塩基配列情報と、をコンピュータで自動照合する手順を行うことによって、(1)前記塩基配列断片が、特定の転写物にのみ特異的に存在する転写物特異的塩基配列であるか否か、(2)特定の遺伝子から生産され得る全ての転写物群に共通して存在し、かつ、他の遺伝子から生産され得る転写物群には存在しない遺伝子特異的塩基配列であるか否か、これら(1)、(2)のいずれか又は両方の自動判定を行う。なお、自動照合の対象となる前記塩基配列断片は、単一のもでも、二以上の塩基配列断片の組からなるものでもよい。なお、また、本発明における遺伝子情報とは、当該遺伝子の塩基配列情報のことであり、既知の遺伝子情報や特定の実験において観測された遺伝子情報も採用できる。
本発明では、さらに、上記(1)によって取得された「転写物特異的塩基配列情報」を利用して、所定の転写物の発現の有無や発現量を確実に測定したり、上記(2)によって取得された「遺伝子特異的塩基配列情報」を利用して、所定遺伝子の発現の有無や発現量を確実に測定したりすることができる。
本発明に関係する技術用語を簡潔に説明すると、まず、「ゲノム」とは、生物が持つ遺伝子群の完全なセットを意味し、「遺伝子」とは、遺伝情報を決定する機能的・物理的構造単位であり、本発明では特に、ゲノム上の1遺伝子座に存在し、転写・翻訳される構造遺伝子を意味し、「転写物」とは、前記構造遺伝子からスプライシング機構を介して産生(発現)されるmRNA(成熟mRNA)を意味する。「塩基配列断片」は、数塩基から数十塩基程度のオリゴヌクレオチド鎖(mRNA、cDNAを含む。)を意味し、使用目的によって「プローブ」と同義である。
本発明に係る方法によれば、所定の遺伝子と対応付けがなされた特定の転写物にのみ特異的な塩基配列を有する塩基配列断片情報、あるいは、特定の遺伝子にのみ特異的な塩基配列を有する塩基配列断片情報を高精度に取得することができる。さらに、取得された転写物又は遺伝子特異的塩基配列断片情報を利用すれば、転写物単位の発現確認や発現量の確認、遺伝子単位の総発現量の確認などを確実に行うことができる。
以下、本発明の概念及びその実施形態例について、添付図面を参照しながら説明する。なお、本発明に係わる計算や判定等のステップ(手順)は、すべてコンピュータにおいてハードウエア資源と協働して実行されるものである。また、本発明に係る方法は、遺伝子や転写物の塩基配列情報や照合及び判定等のプログラムなどが格納されているサーバ(あるいは、ホストコンピュータ)と情報を入力等する側のコンピュータ端末とがインターネット等の通信ネットワークを介して接続されているコンピュータネットワークシステムにより実行する形態例も含まれている。また、コンピュータによる塩基配列照合のプログラム自体は、公知一般のものを利用できる。
まず、図1は、本発明に係る「塩基配列断片の転写物特異性判定方法」の概念を説明するための図である。
この図1に示す符号1は、対象とする単一生物の全ゲノム(ミトコンドリアを含む。)を示している。これに対して、符号2は、当該生物の前記ゲノム1に存在している遺伝子群を示している。この遺伝子群2のうち、符号21〜23は、前記ゲノム1にマッピングされている遺伝子、符号24は、前記ゲノム1にマッピングされない遺伝子(遺伝子座が未知の遺伝子)を示している。
次に、図1に示す符号3は、当該対象生物における転写物群を示している。この転写物群3に包含されている符号31は、遺伝子21から転写及びスプライシング(選択的スプライシング)の過程を経て産生され得る配列構造の異なる転写物グループを示している。
同様に、符号32は、遺伝子22から転写及びスプライシングの過程を経て産生され得る転写物グループ、符号33は、遺伝子23から転写及びスプライシング(選択的スプライシング)の過程を経て産生され得る転写物グループ、符号34は、遺伝子24から転写及びスプライシング(選択的スプライシング)の過程を経て産生され得る転写物グループ、をそれぞれ示している。
本発明では、特定の対象生物の転写物群3に包含されている転写物においては、配列構造が異なる転写物の塩基配列情報、即ち、塩基配列が同一である転写物が重複して存在していない塩基配列情報を利用することを前提とする。具体的には、転写物グループ31,32,33,34のそれぞれのグループ内において、さらには、転写物群3全体においても塩基配列が同一である転写物が存在しないようにコレクションされた情報を利用する。なお、この転写物群3には、由来である遺伝子が不明の転写物は含まれていないものとする。
これに対して、図1中に比較対照の目的で示した別の転写物群4は、塩基配列が一致している転写物が重複して含まれたコレクション情報となっている。例えば、転写物群4のコレクション情報では、符号40a,40b,40c,40d,40eで示されたような、塩基配列が一致している転写物群が含まれている。
本発明では、塩基配列が同一の転写物が重複して存在しないように予めコレクションされた転写物群3のような塩基配列情報を用いて、所定のコンピュータ情報処理を行うことを特徴の一つとしている。なお、
転写物のコレクション塩基配列情報は、公共データベース等の塩基配列データベースから網羅的に集めたものを対象とすることも可能である。また、特定の実験プロジェクトにおいて所得された塩基配列情報セットをコレクションとして用いる場合においても、同等の実験を対象として本発明を用いることにより、期待される転写物の網羅性をカバーすることができるので、本発明を有効に適用できる。
転写物のコレクション塩基配列情報は、公共データベース等の塩基配列データベースから網羅的に集めたものを対象とすることも可能である。また、特定の実験プロジェクトにおいて所得された塩基配列情報セットをコレクションとして用いる場合においても、同等の実験を対象として本発明を用いることにより、期待される転写物の網羅性をカバーすることができるので、本発明を有効に適用できる。
ここで、図2を参照すると、この図2には転写物グループ31に属する一つの転写物31aを拡大して示している。この転写物31aは、スプライシング機構によって、計四つのエクソンの塩基配列311,311,311,311が連結された塩基配列構成を備えていることを模式的に表現している。また、符号312は、同スプライシング機構によってイントロンが切り取られたことを模式的に表現している。このような模式的な図示方法は、図1や他の図面において示されている転写物群にすべて共通であるので、以後、都度の説明を割愛する。
次に、図3は、本発明が利用する転写物群3に属する一つの転写物グループ34を拡大して示している。
この図3に示された転写物グループ34は、二つの転写物34aと転写物34bから構成されている(図1、図3参照)。このうち、転写物34aは、エクソンの塩基配列341、342、343が連結された塩基配列構成を有しており、もう一方の転写物34bは、エクソンの塩基配列341と343が連結された塩基配列構成を備えている。
ここで、エクソンの塩基配列342は、転写物34aと34bを区別することが可能な塩基配列であり、かつ、転写物群3に属する他のすべての転写物と転写物34aを区別することが可能な塩基配列である。さらに、この塩基配列が、他の転写物群においても存在しない場合では、エクソンの塩基配列342は、全転写物において転写物34aにのみ特異的な塩基配列である。このように、所定の転写物にのみ存在する塩基配列を、説明の便宜上、以下では、「転写物特異的塩基配列」と称する。
符号342に例示されるような「転写物特異的塩基配列」の情報を利用すると、当該転写物特異的塩基配列342と所定の転写物の塩基配列とを比較したり、あるいは、当該転写物特異的塩基配列342と複数の転写物のそれぞれの塩基配列情報とを照合したりすることによって、その転写物が転写物34aであるか否か、あるいは、複数の転写物(の情報)が混在している系の中に転写物34a(の情報)が含まれているか否かを、コンピュータにより自動的に判定することができる。また、符号342に例示されるような転写物特異的塩基配列断片それ自体は、前記した内容の判定実験を実施できるプローブとして有効に活用することもできる。
ここで、エクソンの塩基配列343は、転写物34aと転写物34bに共通な塩基配列部分であり、この塩基配列部分が、他の転写物群において存在しない場合、エクソンの塩基配列343は、全遺伝子において、遺伝子24にのみ特異的な塩基配列となる。このように、所定の遺伝子から産生され得る転写物にだけ存在しており、かつ、当該遺伝子の全転写物に共通して存在する塩基配列を、説明の便宜上、以下では、「遺伝子特異的塩基配列」と称する。
符号343に例示されるような「遺伝子特異的塩基配列」の情報を利用すると、当該遺伝子特異的塩基配列343と所定の転写物の塩基配列とを比較したり、あるいは、当該遺伝子特異的塩基配列343と複数の転写物のそれぞれの塩基配列情報とをコンピュータで自動照合したりすることによって、当該転写物が遺伝子24に由来するものであるか否か、あるいは、複数の転写物情報が混在している系の中に遺伝子24に由来する転写物(の情報)が含まれているか否かなどを、コンピュータにより自動的に判定することができる。また、符号343に例示されるような転写物特異的塩基配列断片それ自体は、前記した内容の判定実験を実施できるプローブとして活用することもできる 。
また、「転写物特異的塩基配列」や「遺伝子特異的塩基配列」を利用すると、転写物の発現頻度の測定を行うことも可能である。このことを転写物グループ34を例として簡単に説明する。まず、遺伝子特異的塩基配列343の情報を利用することによって、転写物34aと34bの両方の発現量V1を測定することができる。さらに、転写物特異的塩基配列342の情報を利用することによって、転写物34aだけの発現量V2を測定することができる。なお、発現量V1とV2の差分(V1−V2)は、転写物34bの発現量に相当する。
このような方法によって、転写物34aと転写物34bのそれぞれの発現量や両転写物34a,34bの総発現量を知ることができる結果、例えば、発生段階や臓器別(組織別)の遺伝子24の選択的スプライシング機構や発現様式を知ることができる。
次に、図4は、転写物群3に包含される転写物グループ31の塩基配列構成を拡大して示す図(模式図)である。
転写物グループ31には、四種の転写物31a,31b,31c,31dが含まれている。まず、転写物31aは、エクソンの塩基配列311〜314が連結された塩基配列構成であり、転写物31bは、エクソンの塩基配列311〜313と3141(エクソン314の部分配列)が連結された塩基配列構成であり、転写物31cは、エクソンの塩基配列311,312,3141が連結された塩基配列構成であり、転写物31dは、エクソンの塩基配列3112(エクソン311の部分配列)と3141が連結された塩基配列構成である。
ここで、この図4からわかるように、転写物グループ31を構成する四種の転写物31a,31b,31c,31dには、これら全部に共通する塩基配列の組み合わせが存在する。即ち、その組み合わせは、塩基配列3112と塩基配列3141である(図4再参照)。
また、この組み合わせ配列(3112+3141)が、他の転写物グループ32〜34のいずれにも存在しないならば、この組み合わせ配列(3112+3141)は、転写物グループ31にのみ特異的な組み合わせ配列、即ち、「遺伝子特異的塩基配列(遺伝子21に特異的な塩基配列)」と言える。
次に、図5は、転写物群3に含まれる転写物グループ35(図1では示さず。)の塩基配列構成及びプローブの配列構成を拡大して示す図である。
まず、この図5に示す符号25は、当該対象生物における遺伝子群2(図1参照)のうち、ゲノム1(図1参照)にマッッピングされている遺伝子を示している。符号35で示す転写物グループは、同じ遺伝子25から産生された四種の転写物35a,35b,35c,35dから構成されている。
ここで、図5に示す符号351は、他の転写物グループ31〜34には存在せず、かつ、転写物35bにのみ特異的に存在する塩基配列であり、符号352は、他の転写物グループ31〜34には存在せず、かつ、転写物35a,35c,35dにのみ特異的に存在する塩基配列である。
この場合、例えば、塩基配列351に相補的な塩基配列断片(cDNAプローブ)P1と塩基配列352に相補的な塩基配列断片(cDNAプローブ)P2の組を利用することによって(図5参照)、転写物グループ35に属する全ての転写物35a〜35dを網羅的に捕捉することができ、あるいは、対象の転写物が転写物グループ35に属するものか否か、即ち、遺伝子25由来の転写物か否かを判定することができる。
次に、図6は、転写物群3に含まれる転写物グループ36(図1では示さず。)の塩基配列構成及びプローブの配列構成を拡大して示す図である。
まず、この図6に示されている符号26は、当該対象生物における遺伝子群2(図1参照)のうち、ゲノム1(図1参照)にマッピングされている遺伝子を示している。符号36で示す転写物グループは、同じ遺伝子26から産生され得る四種の転写物36a,36b,36c,36dから構成されている。
ここで、符号361は、他の転写物グループには存在せず、かつ、三つの転写物36a,36b,36dに特異的に存在する塩基配列であり、符号362は、他の転写物グループには存在せず、かつ、二つの転写物36a,36bに特異的に存在する塩基配列であり、符号363は、他の転写物グループには存在せず、かつ、三つの転写物36a,36c,36dに特異的に存在する塩基配列であり、符号364は、他の転写物グループには存在せず、かつ、一つの転写物36aにのみ特異的に存在する塩基配列である(図6参照)。
このような塩基配列構成を有する転写物群からなる転写物グループの例を想定すると、塩基配列361,362,363,364にそれぞれに相補的な塩基配列を有する塩基配列断片、例えば、プロープP11,P12,P13,P14(図6参照)を用いることによって、遺伝子26由来の転写物36a〜36dの発現頻度などを調べることが可能となる。
具体的には、次の「表1」に示すように、実験によって得られたプロープP11,P12,P13,P14のそれぞれと相補的な塩基配列を有する各転写物の総量に関する実験データを、仮にA、B、C、Dとする。
この結果を例に説明すると、まず、「転写物36a」の発現量は、当該転写物36aのみを捕捉するプローブP14の測定量Dによって求めることができる(表1参照)。
次に、「転写物36b」の量は、転写物36aと36bを捕捉するプローブP11の測定量Bから転写物36aの前記測定量Dを差し引くことによって求めることができる。即ち、転写物36bの量は、B−Dを計算することによって求めることができる(表1再参照)。
次に、「転写物36dの量」は、転写物36a,36b,36dを捕捉するプローブP11の測定量Aから転写物36aと36bを捕捉するプローブP12の測定量Bを差し引くことによって求めることができる。即ち、転写物36dの量は、A−Bをコンピュータで計算することによって求めることができる(表1再参照)。
最後に、「転写物36cの量」は、転写物36a,36c,36dを捕捉するプローブP13の測定量Cから転写物36aのみを捕捉するプローブP14の測定量Dと転写物36dの前記測定量A−Bの合計[D+(A−B)]を差し引くことによって求めることができる。即ち、転写物36dの量は、C−[D+(A−B)]をコンピュータで計算することによって求めることができる(表1再参照)。
以上をまとめると、転写物36a〜36dのそれぞれの発現量は次の「表2」のようになる。なお、これらの転写物36a〜36dの総発現量、対応する遺伝子の総発現量は、各転写物の発現量を合計することにより求めることができる。
続いて、本発明において利用可能なデータの構成例、並びに該データを用いた情報処理例について説明する。図7は、本発明に係わるデータの基本的な構成を示す図、図8は、同データの記載例を示す図、図9は、本発明に係る情報処理例のプログラムフローチャートを示す図である。
まず、図7、図8に基づいて、各データD1〜D6の構成(構造)例について説明する。なお、図8中に示されている塩基配列は、データ表記上の記載例であるので、本願明細書には、配列表を特に添付しないことを確認する。
<データD1>。
このデータD1は、一生物種に情報を1レコードに記載している。「生物種ID」は、生物種に係わる情報をID化して記載しておくもので、例えば、国際DNAデータバンクのTaxIDを生物種IDとして用いる。図8に示す例のように、「学名」は、当該生物種の学名(例えば、Homo sapiens)を記載し、「一般名」は、セミコロン区切りによって、複数記載を可能とする(例えば、Human;Hito)。また、「ゲノム塩基配列」は、染色体単位に塩基配列を記載したマルチfasta形式のテキスト情報として格納する(例えば、>chr1\nACGGT・・・)。
このデータD1は、一生物種に情報を1レコードに記載している。「生物種ID」は、生物種に係わる情報をID化して記載しておくもので、例えば、国際DNAデータバンクのTaxIDを生物種IDとして用いる。図8に示す例のように、「学名」は、当該生物種の学名(例えば、Homo sapiens)を記載し、「一般名」は、セミコロン区切りによって、複数記載を可能とする(例えば、Human;Hito)。また、「ゲノム塩基配列」は、染色体単位に塩基配列を記載したマルチfasta形式のテキスト情報として格納する(例えば、>chr1\nACGGT・・・)。
<データD2>。
このデータD2は、一遺伝子の情報を1レコードに記載する。例えば、「遺伝子ID」は、H-InvDB(1160456356103_0)のクラスターIDを遺伝子IDとして採用する。例えば、図8に示すように、HIX0009354の如きに記載する。「遺伝子名称」は、遺伝子の名称を記載する。例えば、ヒト遺伝子名称として、HUGO Gene Nomenclature Committee(http://www.gene.ucl.ac.uk/nomenclature/)の定める遺伝子名を記載する。「遺伝子情報」は、アプリケーションの必要に応じて例えば定義情報、遺伝子座情報、分子の機能、生体応答、細胞内局在など、遺伝子に関するアノテーションを記載する。
このデータD2は、一遺伝子の情報を1レコードに記載する。例えば、「遺伝子ID」は、H-InvDB(1160456356103_0)のクラスターIDを遺伝子IDとして採用する。例えば、図8に示すように、HIX0009354の如きに記載する。「遺伝子名称」は、遺伝子の名称を記載する。例えば、ヒト遺伝子名称として、HUGO Gene Nomenclature Committee(http://www.gene.ucl.ac.uk/nomenclature/)の定める遺伝子名を記載する。「遺伝子情報」は、アプリケーションの必要に応じて例えば定義情報、遺伝子座情報、分子の機能、生体応答、細胞内局在など、遺伝子に関するアノテーションを記載する。
<データD3>。
このデータD3は、一転写物の情報を1レコードに記載する。一例を挙げると、転写物種を代表する転写物の国際DNAデータバンクにおけるDNA配列エントリーID(Accession番号)を転写物種IDとする(その例は、図8参照)。
このデータD3は、一転写物の情報を1レコードに記載する。一例を挙げると、転写物種を代表する転写物の国際DNAデータバンクにおけるDNA配列エントリーID(Accession番号)を転写物種IDとする(その例は、図8参照)。
<データD4>。
このデータD4は、一転写物の情報を1レコードに記載する。例えば、転写物の国際DNAデータバンクにおけるDNA配列エントリーID(Accession番号)を転写物IDとする(その例は、図8参照)。
このデータD4は、一転写物の情報を1レコードに記載する。例えば、転写物の国際DNAデータバンクにおけるDNA配列エントリーID(Accession番号)を転写物IDとする(その例は、図8参照)。
<データD5>。
このデータD5は、遺伝子に特異的な塩基配列断片、又は遺伝子に特異的な塩基配列の組み合わせの一つを1レコードに記載する。例えば、一つの塩基配列が当該遺伝子の全転写物グループに属しており、その他の転写物グループには存在しないことを表す。塩基配列は、マルチfasta形式のテキスト情報として格納している。その記載例を図8に示す。
このデータD5は、遺伝子に特異的な塩基配列断片、又は遺伝子に特異的な塩基配列の組み合わせの一つを1レコードに記載する。例えば、一つの塩基配列が当該遺伝子の全転写物グループに属しており、その他の転写物グループには存在しないことを表す。塩基配列は、マルチfasta形式のテキスト情報として格納している。その記載例を図8に示す。
<データD6>。
このデータD6は、転写物種に特異的な塩基配列断片、又は転写物種に特異的な塩基配列の組み合わせの一つを1レコードに記載する。例えば、二つの塩基配列で、当該転写物種を転写物種と識別できることを表す。塩基配列は、マルチfasta形式のテキスト情報として格納している。識別の条件としては、図8の例では、当該転写物種「AJ437024.1」が、転写物種「BC006499」に包含されることを示す「Part_of」識別子が記載され、塩基配列断片のうち、2番目の配列がBC006499に存在し、かつ、AJ437024.1に存在しない塩基配列であることが記載されている。
このデータD6は、転写物種に特異的な塩基配列断片、又は転写物種に特異的な塩基配列の組み合わせの一つを1レコードに記載する。例えば、二つの塩基配列で、当該転写物種を転写物種と識別できることを表す。塩基配列は、マルチfasta形式のテキスト情報として格納している。識別の条件としては、図8の例では、当該転写物種「AJ437024.1」が、転写物種「BC006499」に包含されることを示す「Part_of」識別子が記載され、塩基配列断片のうち、2番目の配列がBC006499に存在し、かつ、AJ437024.1に存在しない塩基配列であることが記載されている。
次に、図9に示すプログラムフローチャートに基づいて、本発明に係るコンピュータ情報処理方法の一例について説明する。この情報処理方法は、塩基配列断片(プローブ)の集合の中から、転写物、転写物グループ、あるいは遺伝子を特異的に特定可能な塩基配列断片又は塩基配列断片の組み合わせを見出すことを目的としている。
<ステップS1,S2>
与えられた(入力された)すべての塩基配列断片データを、コンピュータに予め格納されているすべての配列構造が異なる転写物の塩基配列データにマッピングする(ステップS1)。なお、「マッピング」とは、一致する塩基配列の有無を探し、その存在位置を特定することである。このマッピングを前記転写物の各々について繰り返す。
与えられた(入力された)すべての塩基配列断片データを、コンピュータに予め格納されているすべての配列構造が異なる転写物の塩基配列データにマッピングする(ステップS1)。なお、「マッピング」とは、一致する塩基配列の有無を探し、その存在位置を特定することである。このマッピングを前記転写物の各々について繰り返す。
<ステップS3,S4>
特定の転写物のみにマッピングされる塩基配列断片が存在するか否かを判定する(S3)。この判定の結果が「YES」の場合は、当該塩基配列断片は、単一の転写物に特異的な塩基配列断片であると判断し、分類した上でコンピュータに格納する(S4)。
特定の転写物のみにマッピングされる塩基配列断片が存在するか否かを判定する(S3)。この判定の結果が「YES」の場合は、当該塩基配列断片は、単一の転写物に特異的な塩基配列断片であると判断し、分類した上でコンピュータに格納する(S4)。
<ステップS5,S6>
前記ステップS3において「NO」の判定が出た場合は、続いて、特定の転写物に対して特異的な塩基配列断片の組み合わせが存在するか否かを判定する(S5)。この判定の結果が「YES」の場合は、当該塩基配列断片の組み合わせは、単一の転写物に特異的な塩基配列断片の組(セット)であると判断し、分類した上でコンピュータに格納する(S6)。
前記ステップS3において「NO」の判定が出た場合は、続いて、特定の転写物に対して特異的な塩基配列断片の組み合わせが存在するか否かを判定する(S5)。この判定の結果が「YES」の場合は、当該塩基配列断片の組み合わせは、単一の転写物に特異的な塩基配列断片の組(セット)であると判断し、分類した上でコンピュータに格納する(S6)。
<ステップS7>
前記ステップS7において「NO」の判定が出た場合は、与えられた(入力された)塩基配列断片では特異的に特定できない転写物であると判断して分類する。なお、目的に応じて、この段階でプログラムをエンドとしてもよい(図9再参照)。
前記ステップS7において「NO」の判定が出た場合は、与えられた(入力された)塩基配列断片では特異的に特定できない転写物であると判断して分類する。なお、目的に応じて、この段階でプログラムをエンドとしてもよい(図9再参照)。
<ステップS8,S9,S10>
次に、与えられた(入力された)すべての塩基配列断片の中に、コンピュータに予め格納されている遺伝子の転写物であることが判明している全ての転写物に対してマッピングされ、かつ、他の転写物にマッピングされない塩基配列断片が存在するか否かを判定する(S9)。この判定の結果が「YES」の場合は、当該塩基配列断片は、単一の遺伝子に特異的な塩基配列断片であると判断し、分類した上でコンピュータに格納する(S10)。
次に、与えられた(入力された)すべての塩基配列断片の中に、コンピュータに予め格納されている遺伝子の転写物であることが判明している全ての転写物に対してマッピングされ、かつ、他の転写物にマッピングされない塩基配列断片が存在するか否かを判定する(S9)。この判定の結果が「YES」の場合は、当該塩基配列断片は、単一の遺伝子に特異的な塩基配列断片であると判断し、分類した上でコンピュータに格納する(S10)。
<ステップS8>
前記ステップS7において「NO」の判定が出た場合は、続いて、コンピュータに予め格納されている遺伝子の転写物であることが判明している全ての転写物に対してマッピングされ、かつ、他の転写物にマッピングされない特異的な塩基配列断片の組み合わせが存在するか否かを判定する(S11)。この判定の結果が「YES」の場合は、当該塩基配列断片の組み合わせは、単一の遺伝子に特異的な塩基配列断片の組(セット)であると判断し、分類した上でコンピュータに格納する(S12)。
前記ステップS7において「NO」の判定が出た場合は、続いて、コンピュータに予め格納されている遺伝子の転写物であることが判明している全ての転写物に対してマッピングされ、かつ、他の転写物にマッピングされない特異的な塩基配列断片の組み合わせが存在するか否かを判定する(S11)。この判定の結果が「YES」の場合は、当該塩基配列断片の組み合わせは、単一の遺伝子に特異的な塩基配列断片の組(セット)であると判断し、分類した上でコンピュータに格納する(S12)。
<ステップS13>
前記ステップS7において「NO」の判定が出た場合は、与えられた(入力された)塩基配列断片では特異的に特定できない遺伝子であると判断し、分類して格納する。以上のステップS8〜S13を各遺伝子に対して実行して、完了とする(END)。
前記ステップS7において「NO」の判定が出た場合は、与えられた(入力された)塩基配列断片では特異的に特定できない遺伝子であると判断し、分類して格納する。以上のステップS8〜S13を各遺伝子に対して実行して、完了とする(END)。
以上のステップを実行することによって、塩基配列断片と転写物又は遺伝子が対応する情報(対比情報)を作成して、これをデータベース化する。このデータベースは、上記ステップの実行に反映させることができる(図9の曲線矢印参照)。
以上のような情報処理方法によって、塩基配列断片(プローブ)の集合から、転写物、転写物グループ、あるいは遺伝子を特異的に特定可能な塩基配列断片又は塩基配列断片の組み合わせを確実に見出すことができる。
本発明は、特定の転写物にのみ特異的な塩基配列を有する塩基配列断片情報の取得に利用することができる。転写物特異的な塩基配列断片情報を利用すると、遺伝子から産生される転写物の特定や発現頻度の測定、転写物の由来となった遺伝子の特定など、さらには、遺伝子の転写物やタンパク質の発現様式の理解、ひいては、生体機構の解明に利用することができる。
Claims (4)
- 単一生物種のゲノム由来の遺伝子情報と、
前記遺伝子情報に含まれる遺伝子のいずれに対応するかでグループ分けがなされている、配列構造の異なる転写物の塩基配列情報と、をコンピュータに格納しておき、
コンピュータに入力された塩基配列断片の塩基配列情報と前記転写物の塩基配列情報と、をコンピュータで自動照合する手順を行うことによって、次の(1)、(2)のいずれか又は両方の自動判定を行うことを特徴とする塩基配列断片の特異性判定方法。
(1)前記塩基配列断片が、特定の転写物にのみ特異的に存在する転写物特異的塩基配列であるか否か。
(2)特定の遺伝子から生産され得る全ての転写物群に共通して存在し、かつ、他の遺伝子から生産され得る転写物群には存在しない遺伝子特異的塩基配列であるか否か。 - 前記塩基配列断片は、二以上の塩基配列断片の組からなることを特徴とする請求項1記載の塩基配列断片の特異性判定方法。
- 請求項1記載の方法により取得された「転写物特異的塩基配列情報」を利用して、所定転写物の発現又は発現量を測定する方法。
- 請求項1記載の方法により取得された「遺伝子特異的塩基配列情報」を利用して、所定遺伝子の発現又は発現量を測定する方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006276412A JP2008097189A (ja) | 2006-10-10 | 2006-10-10 | 塩基配列断片の転写物特異性又は遺伝子特異性を判定する方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006276412A JP2008097189A (ja) | 2006-10-10 | 2006-10-10 | 塩基配列断片の転写物特異性又は遺伝子特異性を判定する方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008097189A true JP2008097189A (ja) | 2008-04-24 |
Family
ID=39379993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006276412A Pending JP2008097189A (ja) | 2006-10-10 | 2006-10-10 | 塩基配列断片の転写物特異性又は遺伝子特異性を判定する方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008097189A (ja) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11185837B2 (en) | 2013-08-05 | 2021-11-30 | Twist Bioscience Corporation | De novo synthesized gene libraries |
US11263354B2 (en) | 2016-09-21 | 2022-03-01 | Twist Bioscience Corporation | Nucleic acid based data storage |
US11332738B2 (en) | 2019-06-21 | 2022-05-17 | Twist Bioscience Corporation | Barcode-based nucleic acid sequence assembly |
US11332740B2 (en) | 2017-06-12 | 2022-05-17 | Twist Bioscience Corporation | Methods for seamless nucleic acid assembly |
US11377676B2 (en) | 2017-06-12 | 2022-07-05 | Twist Bioscience Corporation | Methods for seamless nucleic acid assembly |
US11407837B2 (en) | 2017-09-11 | 2022-08-09 | Twist Bioscience Corporation | GPCR binding proteins and synthesis thereof |
US11492665B2 (en) | 2018-05-18 | 2022-11-08 | Twist Bioscience Corporation | Polynucleotides, reagents, and methods for nucleic acid hybridization |
US11492728B2 (en) | 2019-02-26 | 2022-11-08 | Twist Bioscience Corporation | Variant nucleic acid libraries for antibody optimization |
US11512347B2 (en) | 2015-09-22 | 2022-11-29 | Twist Bioscience Corporation | Flexible substrates for nucleic acid synthesis |
US11550939B2 (en) | 2017-02-22 | 2023-01-10 | Twist Bioscience Corporation | Nucleic acid based data storage using enzymatic bioencryption |
US11691118B2 (en) | 2015-04-21 | 2023-07-04 | Twist Bioscience Corporation | Devices and methods for oligonucleic acid library synthesis |
US11697668B2 (en) | 2015-02-04 | 2023-07-11 | Twist Bioscience Corporation | Methods and devices for de novo oligonucleic acid assembly |
US11745159B2 (en) | 2017-10-20 | 2023-09-05 | Twist Bioscience Corporation | Heated nanowells for polynucleotide synthesis |
US11807956B2 (en) | 2015-09-18 | 2023-11-07 | Twist Bioscience Corporation | Oligonucleic acid variant libraries and synthesis thereof |
-
2006
- 2006-10-10 JP JP2006276412A patent/JP2008097189A/ja active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11185837B2 (en) | 2013-08-05 | 2021-11-30 | Twist Bioscience Corporation | De novo synthesized gene libraries |
US11452980B2 (en) | 2013-08-05 | 2022-09-27 | Twist Bioscience Corporation | De novo synthesized gene libraries |
US11559778B2 (en) | 2013-08-05 | 2023-01-24 | Twist Bioscience Corporation | De novo synthesized gene libraries |
US11697668B2 (en) | 2015-02-04 | 2023-07-11 | Twist Bioscience Corporation | Methods and devices for de novo oligonucleic acid assembly |
US11691118B2 (en) | 2015-04-21 | 2023-07-04 | Twist Bioscience Corporation | Devices and methods for oligonucleic acid library synthesis |
US11807956B2 (en) | 2015-09-18 | 2023-11-07 | Twist Bioscience Corporation | Oligonucleic acid variant libraries and synthesis thereof |
US11512347B2 (en) | 2015-09-22 | 2022-11-29 | Twist Bioscience Corporation | Flexible substrates for nucleic acid synthesis |
US11263354B2 (en) | 2016-09-21 | 2022-03-01 | Twist Bioscience Corporation | Nucleic acid based data storage |
US11562103B2 (en) | 2016-09-21 | 2023-01-24 | Twist Bioscience Corporation | Nucleic acid based data storage |
US11550939B2 (en) | 2017-02-22 | 2023-01-10 | Twist Bioscience Corporation | Nucleic acid based data storage using enzymatic bioencryption |
US11377676B2 (en) | 2017-06-12 | 2022-07-05 | Twist Bioscience Corporation | Methods for seamless nucleic acid assembly |
US11332740B2 (en) | 2017-06-12 | 2022-05-17 | Twist Bioscience Corporation | Methods for seamless nucleic acid assembly |
US11407837B2 (en) | 2017-09-11 | 2022-08-09 | Twist Bioscience Corporation | GPCR binding proteins and synthesis thereof |
US11745159B2 (en) | 2017-10-20 | 2023-09-05 | Twist Bioscience Corporation | Heated nanowells for polynucleotide synthesis |
US11492665B2 (en) | 2018-05-18 | 2022-11-08 | Twist Bioscience Corporation | Polynucleotides, reagents, and methods for nucleic acid hybridization |
US11732294B2 (en) | 2018-05-18 | 2023-08-22 | Twist Bioscience Corporation | Polynucleotides, reagents, and methods for nucleic acid hybridization |
US11492728B2 (en) | 2019-02-26 | 2022-11-08 | Twist Bioscience Corporation | Variant nucleic acid libraries for antibody optimization |
US11332738B2 (en) | 2019-06-21 | 2022-05-17 | Twist Bioscience Corporation | Barcode-based nucleic acid sequence assembly |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008097189A (ja) | 塩基配列断片の転写物特異性又は遺伝子特異性を判定する方法 | |
Gorkin et al. | An atlas of dynamic chromatin landscapes in mouse fetal development | |
Wang et al. | An evaluation of new criteria for CpG islands in the human genome as gene markers | |
Mielczarek et al. | Review of alignment and SNP calling algorithms for next-generation sequencing data | |
Messina et al. | An ORFeome-based analysis of human transcription factor genes and the construction of a microarray to interrogate their expression | |
Coop et al. | The role of geography in human adaptation | |
Tran et al. | Objective and comprehensive evaluation of bisulfite short read mapping tools | |
Yang et al. | ScanIndel: a hybrid framework for indel detection via gapped alignment, split reads and de novo assembly | |
Hoffmann et al. | Accurate mapping of tRNA reads | |
Xuan et al. | Genome-wide promoter extraction and analysis in human, mouse, and rat | |
WO2012168815A2 (en) | Method for assembly of nucleic acid sequence data | |
Gao et al. | TideHunter: efficient and sensitive tandem repeat detection from noisy long-reads using seed-and-chain | |
Okoniewski et al. | High correspondence between Affymetrix exon and standard expression arrays | |
Becker et al. | A comprehensive hybridization model allows whole HERV transcriptome profiling using high density microarray | |
Zhang et al. | A cautionary note for retrocopy identification: DNA-based duplication of intron-containing genes significantly contributes to the origination of single exon genes | |
Risueño et al. | A robust estimation of exon expression to identify alternative spliced genes applied to human tissues and cancer samples | |
Djedatin et al. | DuplicationDetector, a light weight tool for duplication detection using NGS data | |
Schon et al. | Bookend: precise transcript reconstruction with end-guided assembly | |
Klee | Data mining for biomarker development: a review of tissue specificity analysis | |
Huang et al. | Pathway and network analysis of differentially expressed genes in transcriptomes | |
Hansen et al. | Human gene regulatory evolution is driven by the divergence of regulatory element function in both cis and trans | |
Zhao et al. | Analyses of m6A regulatory genes and subtype classification in atrial fibrillation | |
Park | Segmentation-free inference of cell types from in situ transcriptomics data | |
O’Grady et al. | Analysis of EBV transcription using high-throughput RNA sequencing | |
Laochareonsuk et al. | Establishing an automated graphical genome analysis platform |