JP2004005319A - 遺伝子データベース作成方法、遺伝子データベース作成装置、遺伝子データベース作成プログラム、および遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

遺伝子データベース作成方法、遺伝子データベース作成装置、遺伝子データベース作成プログラム、および遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2004005319A
JP2004005319A JP2002168894A JP2002168894A JP2004005319A JP 2004005319 A JP2004005319 A JP 2004005319A JP 2002168894 A JP2002168894 A JP 2002168894A JP 2002168894 A JP2002168894 A JP 2002168894A JP 2004005319 A JP2004005319 A JP 2004005319A
Authority
JP
Japan
Prior art keywords
sequence
gene database
gene
information
homology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002168894A
Other languages
English (en)
Inventor
Toshibumi Tsukahara
塚原 俊文
Osamu Arai
新井 理
Yasuhiro Kuroda
黒田 康弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KOKURITSU SEISHIN SHINKEI CENTER
KOKURITSU SEISHIN SHINKEI CT
Japan Science and Technology Agency
Original Assignee
KOKURITSU SEISHIN SHINKEI CENTER
KOKURITSU SEISHIN SHINKEI CT
Japan Science and Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KOKURITSU SEISHIN SHINKEI CENTER, KOKURITSU SEISHIN SHINKEI CT, Japan Science and Technology Corp filed Critical KOKURITSU SEISHIN SHINKEI CENTER
Priority to JP2002168894A priority Critical patent/JP2004005319A/ja
Publication of JP2004005319A publication Critical patent/JP2004005319A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】特異性が高いプローブ、特にマイクロアレイ用として好適なプローブ、およびプローブを得るためのプライマの作製するための遺伝子データベースを作成する。
【解決手段】プライマ・プローブ設計部32が決定した候補配列と、遺伝子データベース10内に格納されている塩基配列であってその決定された候補配列を含んでいたものとは別の塩基配列との相同性を、相同性検索部34が検索し、相同性検索の結果に基づき、決定された候補配列の相同性の有無を判定して、相同性なしと判定された候補配列を増幅するための増幅用配列を、候補配列が選択された塩基配列と対応づけて、遺伝子データベース10に保存する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、遺伝子データベース作成方法、特にマイクロアレイ作製に有用な遺伝子データベース作成方法、遺伝子データベース作成装置、遺伝子データベース作成プログラム、および遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。
【0002】
【従来の技術】
生物の組織および細胞において発現している遺伝子産物の総和を解析することにより、その生物の生理的または病理的状態を推定することが可能である。そのような遺伝子産物の発現量を検定するための探索子として、多くのプローブを固定化したマイクロアレイの需要が高まっている。
【0003】
マイクロアレイを作製するには、莫大な種類のプローブが必要である。また、マイクロアレイのプローブは、DNA(deoxyribonucleic acid:デオキシリボ核酸)鎖またはペプチド鎖で構成されている。そのため、マイクロアレイを作製するには、プローブとして用いるDNA鎖またはペプチド鎖の収集が第一の課題となる。
【0004】
従来のマイクロアレイ用のプローブの作製方法は、下記のような方法である。プローブを作製するには、遺伝子を増幅させる必要がある。その遺伝子の増幅にはPCR(polymerase chain reaction:ポリメラーゼ連鎖反応)が用いられる。また、そのPCRのテンプレートとしては、ベクターに挿入されたcDNA(complementary DNA:相補DNA)クローンやEST(expressed sequence tag:発現配列タグ)クローンの全挿入配列を用いる。また、そのPCRに用いたcDNAおよびESTのソースは、例えば、公共の遺伝子バンク、UniGene、IMAGEコンソーシアム、研究者、および企業で保存されている遺伝子資産である。
【0005】
マイクロアレイの先駆けとも言えるアメリカのスタンフォード大学、およびNIH(国立衛生研究所)におけるマイクロアレイプロジェクトの中心的研究所であるNHGRIにおいても、マイクロアレイの作製には、ベクターに挿入された全長cDNAクローンやESTクローンの全挿入配列を用いている。なお、スタンフォード大学においてマイクロアレイ作製に用いた配列のソースは、web上(http://genome−www5.stanford.edu/cgi−bin/SMD/source/sourceSearch)に公開されている。また、NHGRIにおいてマイクロアレイ作製に用いた配列のソースも、web上(http://www.nhgri.nih.gov/DIR/Microarray/about_cdna_library.html)に公開されている。また、マイクロアレイの作製方法については、文献(SCIENCE, VOL.270, p467−470(1995))に記載の方法が知られている。
【0006】
【発明が解決しようとする課題】
しかしながら、マイクロアレイ用のプローブを作製する従来の方法では、特異性が低いプローブしか作製できないという問題点がある。そのため、従来のマイクロアレイでは、信頼性の低い解析データしか得られなかった。
【0007】
上記のようにプローブの特異性が低いことは、変性ゲル、プローブなどを用いてRNAを検出するノーザンハイブリダイゼーションにおいても問題となる。しかし、ノーザンハイブリダイゼーションと違って、マイクロアレイにおいては、分子量による分子種の違いを検出することができない。そのため、マイクロアレイに用いるプローブの特異性が低いことは、より深刻な問題となる。
【0008】
上記問題点が顕著となった例としては、イネゲノムプロジェクトで行われた研究の結果が挙げられる。この研究においては、全長cDNAクローンを用いて作製されたマイクロアレイによる試験と、配列がより特異的である3’非翻訳領域部分を用いて作製されたマイクロアレイによる試験とでは、それら試験の結果が大きく異なっていた。つまり、全長cDNAクローンを用いて作製されたマイクロアレイでは、3’非翻訳領域部分を用いて作製されたマイクロアレイで得られたシグナルの数倍の強度を持つものが多く見られた。この結果は、全長cDNAクローンを用いて作製されたマイクロアレイが実際の遺伝子の発現量を反映していないことを示していると考えられる。また、上記のように2種のマイクロアレイから得られた実験結果が異なるのは、全長cDNAクローンを用いて作製されたマイクロアレイのプローブと3’非翻訳領域部分を用いて作製されたマイクロアレイのプローブとでは、プローブの特異性が大きく異なるからである。
【0009】
本発明は、上記の問題点を解決するためになされたものであって、その目的は、特異性が高いプローブ、特にマイクロアレイ用として好適なプローブ、およびそのようなプローブを得るためのプライマを作製するための遺伝子データベースの作成方法と、その遺伝子データベースの作成方法を実行する遺伝子データベース作成装置と、遺伝子データベースの作成方法をコンピュータに実行させるための遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体とを提供することにある。
【0010】
【課題を解決するための手段】
本発明の遺伝子データベース作成方法は、上記課題を解決するために、塩基配列を格納した第1の遺伝子データベースから、1つの塩基配列を選択配列として選択し、当該選択配列の一部を候補配列として決定する候補配列決定ステップと、上記候補配列と、第2の遺伝子データベース内に格納されている塩基配列であって当該選択配列以外の塩基配列との相同性を検索する相同性検索ステップと、上記相同性検索ステップでの相同性検索の結果に基づき、上記候補配列の相同性の有無を判定する相同性判定ステップと、上記相同性判定ステップによって相同性なしと判定されたとき、その判定を受けた候補配列を増幅するための増幅用配列を、当該候補配列を含む選択配列と対応づけて、上記第1の遺伝子データベースに保存する増幅用配列保存ステップと、を含むことを特徴としている。
【0011】
上記方法によれば、まず、第1の遺伝子データベースに格納されている塩基配列から、1つの塩基配列を選択配列として選択し、その選択配列の一部を候補配列として決定する。その候補配列は、第2の遺伝子データベース内に格納されている塩基配列との相同性が判断される。また、この相同性の判断においては、候補配列と、選択配列以外の塩基配列との相同性が検索され、相同性の有無が判定される。なお、ここで言う「選択配列以外の塩基配列」の「選択配列」とは、候補配列を決定するときに用いた(候補配列を含んでいた)塩基配列のことである。
【0012】
また、上記判定において、相同性がないと判定されたときは、その判定を受けた候補配列を増幅するための増幅用配列を、当該候補配列を含む選択配列と対応づけて、第1の遺伝子データベースに保存する。その増幅用配列は、例えば、PCRなどの遺伝子を増幅させる反応におけるプライマの作製に利用することができる。また、相同性なしと判定を受けた候補配列は、例えば、増幅用配列とともに、プローブ、特にマイクロアレイ用のプローブの作製に利用することができる。
【0013】
その結果、特異性が高いプローブ、特にマイクロアレイ用として好適なプローブ、およびそのようなプローブを得るためのプライマを作製するための遺伝子データベースの作成方法を提供することができる。
【0014】
なお、第2の遺伝子データベースとしては、例えば、GenBank、EMBL、DDBJ、RefSeq、UniGene、Expressed Gene Anatomy Database(EGAD)、Human Gene Index(HGI)、およびSTACK−DBなどの公知の遺伝子データベースが挙げられる。また、第2の遺伝子データベースとしては、例えば、研究機関などで独自に作成した遺伝子データベースも用いることができる。また、第2の遺伝子データベースとして、第1の遺伝子データベースを用いてもよい。つまり、第2の遺伝子データベースと第1の遺伝子データベースとを、同じ遺伝子データベースとしてもよい。
【0015】
また、本発明の遺伝子データベース作成方法は、上記課題を解決するために、塩基配列を格納した遺伝子データベースから、1つの塩基配列を選択配列として選択し、当該選択配列の一部を候補配列として決定する候補配列決定ステップと、上記候補配列と、上記遺伝子データベース内に格納されている塩基配列であって当該選択配列以外の塩基配列との相同性を検索する相同性検索ステップと、上記相同性検索ステップでの相同性検索の結果に基づき、上記候補配列の相同性の有無を判定する相同性判定ステップと、上記相同性判定ステップによって相同性なしと判定されたとき、その判定を受けた候補配列を増幅するための増幅用配列を、当該候補配列を含む選択配列と対応づけて、上記遺伝子データベースに保存する増幅用配列保存ステップと、を含むことを特徴としている。
【0016】
上記方法によれば、まず、遺伝子データベースに格納されている塩基配列から、1つの塩基配列を選択配列として選択し、その選択配列の一部を候補配列として決定する。その候補配列は、データベース内に格納されている塩基配列との相同性が判断される。また、この相同性の判断においては、候補配列と、選択配列以外の塩基配列との相同性が検索され、相同性の有無が判定される。なお、ここで言う「選択配列以外の塩基配列」の「選択配列」とは、候補配列を決定するときに用いた(候補配列を含んでいた)塩基配列のことである。
【0017】
また、上記判定において、相同性がないと判定されたときは、その判定を受けた候補配列を増幅するための増幅用配列を、当該候補配列を含む選択配列と対応づけて、遺伝子データベースに保存する。その増幅用配列は、例えば、PCRなどの遺伝子を増幅させる反応におけるプライマの作製に利用することができる。また、相同性なしと判定を受けた候補配列は、例えば、増幅用配列とともに、プローブ、特にマイクロアレイ用のプローブの作製に利用することができる。
【0018】
その結果、特異性が高いプローブ、特にマイクロアレイ用として好適なプローブ、およびそのようなプローブを得るためのプライマを作製するための遺伝子データベースの作成方法を提供することができる。
【0019】
また、本発明の遺伝子データベース作成方法は、上記方法に加えて、上記塩基配列には当該塩基配列を説明する注釈情報が対応づけられており、候補配列決定ステップの前に、上記注釈情報に基づいて、上記塩基配列をグループ化するグループ化ステップと、上記グループ化ステップで得られたグループごとに、グループを代表する塩基配列であるグループ代表塩基配列を決定する代表配列決定ステップとを含み、上記候補配列決定ステップでは、グループ代表塩基配列から選択配列を選択し、上記相同性検索ステップでは、候補配列と、当該候補配列の決定に用いた選択配列が属するグループとは別のグループのグループ代表塩基配列との相同性を検索することを特徴としている。
【0020】
上記方法によれば、候補配列決定ステップの前に、注釈情報に基づいて、塩基配列をグループ化する。この遺伝子情報のグループ化とは、その遺伝子情報の間で関連づけがなされている場合に、同じ関連づけがなされているものを1つのグループとすることである。このような関連づけは、情報提供サイトからの遺伝子情報において行われており、例えば、ある情報提供サイト遺伝子情報に振られた番号が、違う情報提供サイトの遺伝子情報にもその番号が記録されている場合などが挙げられる。
【0021】
また、上記方法によれば、グループ化で得られたグループごとに、グループを代表する塩基配列であるグループ代表塩基配列を決定する。
【0022】
以下に、グループ化の例を示す。例えば、遺伝子情報Aにはa001という番号が、遺伝子情報Bにはb001という番号が、遺伝子情報Cにはa001という番号が振られているとする。この場合、番号に基づくグループ化により、遺伝子情報Aおよび遺伝子情報Cをグループ1に属する情報、遺伝子情報Bをグループ2に属する情報とすることができる。そのとき、遺伝子情報A、B、およびCのグループ化が分かるように、例えば、グループIDを与える。例えば、遺伝子情報Aおよび遺伝子情報CのグループIDを1とし、遺伝子情報BのグループIDを2とすることが挙げられる。
【0023】
なお、上記のようにグループ化した場合、グループ1を代表する塩基配列であるグループ代表塩基配列は、遺伝子情報Aおよび遺伝子情報Cの塩基配列に基づいて決定される。また、グループ2のグループ代表塩基配列は、遺伝子情報Bの塩基配列に基づいて決定される。
【0024】
また、上記相同性検索ステップにおいて、グループ化をしなかった場合は、候補配列と、その候補配列が存在していた塩基配列(選択配列)とは別の塩基配列とを用いて、相同性の検索をしていた。しかし、グループ化によりグループを代表する塩基配列を決定した場合は、候補配列と、当該候補配列の決定に用いた選択配列が属するグループとは別のグループのグループ代表塩基配列との相同性の有無を判定させる。つまり、グループ化をしなかったときよりも、決定された候補配列との相同性が検索される対象となる塩基配列の数を少なくすることができ、迅速な相同性の判定が可能となる。
【0025】
その結果、特異性が高いプローブを備えたマイクロアレイの作製を可能とする遺伝子データベースを、迅速に作成することができる。
【0026】
また、本発明の遺伝子データベース作成方法は、上記方法に加えて、上記代表配列決定ステップにおいてグループ代表塩基配列を決定する際に、グループ内のいずれの塩基配列もグループ代表塩基配列となるための条件を満たしていない場合、グループ内の塩基配列を加工して、仮想塩基配列を作成する仮想配列作成ステップをさらに含むことを特徴としている。
【0027】
上記方法によれば、上記グループ化において、グループ代表塩基配列となるための条件を塩基配列が満たしているかを確認する。ここで言うグループ代表塩基配列となるための条件とは、例えば、グループ代表塩基配列の塩基数が一定以上の数であるかなどが挙げられる。一定以上の塩基数がなければ候補配列と増幅用配列との決定が困難となるため、この例の塩基配列の塩基数は重要な条件である。
【0028】
また、グループ代表塩基配列となるための条件を満たしていないとき、同じグループ内にある塩基配列を加工して、仮想塩基配列を作成する。
【0029】
例えば、グループ代表塩基配列となるための条件を、グループ代表塩基配列の塩基数が一定以上の数であることとする。また、同じグループ内にある塩基配列の塩基数がすべて一定以上の数よりも少なかったとする。このとき、同じグループ内にある塩基配列を加工、例えばアライメント解析、アセンブルなどによって、一定の数より多いまたは一定の数に近い仮想塩基配列を作成することができる。
【0030】
その結果、プローブ作製、特にマイクロアレイのプローブ作製のための塩基配列の効率よい取得を可能にする遺伝子データベースの作成方法を提供することができる。
【0031】
また、本発明の遺伝子データベース作成方法は、上記方法に加えて、選択配列から候補配列を決定する際、候補配列として不適当な塩基配列であるマスク配列を、選択配列から除くマスクステップをさらに含むことを特徴としている。
【0032】
上記方法によれば、まず、候補配列の決定に使用する塩基配列、つまり選択配列が、候補配列として不適当な塩基配列を含んでいるかを検索する。ここで言う候補配列として不適当な塩基配列(マスク配列)とは、例えば、解析対象とは異なる塩基配列、プローブとして使用するのに好ましくない配列(繰り返し配列)などが挙げられる。
【0033】
また、上記方法によれば、選択配列にマスク配列が含まれているとき、そのマスク配列を除く。なお、ここで言う「マスク配列を除く」とは、選択配列にマスク配列が含まれているとき、その候補配列の決定の対象からマスク配列を除くという意味である。つまり、選択配列にマスク配列が含まれているとき、そのマスク配列を含まないように、候補配列を決定する。
【0034】
その結果、解析対象に合致した、性能のよいプローブを備えたマイクロアレイの作製を可能とする遺伝子データベースの作成方法を提供することができる。
【0035】
また、本発明の遺伝子データベース作成装置は、上記遺伝子データベース作成方法を実行することによって、プローブおよび/またはプライマの設計を支援することを特徴としている。
【0036】
その結果、特異性が高いプローブ、特にマイクロアレイ用として好適なプローブ、およびプローブを得るためのプライマを作製することができる。
【0037】
また、本発明の遺伝子データベース作成装置は、上記遺伝子データベース作成方法を実行することによって、マイクロアレイの設計を支援することを特徴としている。
【0038】
その結果、信頼性が高い解析データを得ることが可能なマイクロアレイを作製することができる。
【0039】
また、本発明の遺伝子データベース作成プログラムは、上記遺伝子データベース作成方法をコンピュータに実行させるためのプログラムであることを特徴としている。
【0040】
また、本発明の記録媒体は、上記遺伝子データベース作成方法をコンピュータに実行させるための遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴としている。
【0041】
上記の構成により、コンピュータで上記遺伝子データベース作成装置の各手段を実現することによって、上記遺伝子データベース作成装置を実現することができる。したがって、上記した遺伝子データベース作成装置の効果である、特異性が高いプローブ、特にマイクロアレイ用として好適なプローブ、およびプローブを得るためのプライマと、信頼性が高い解析データを得ることが可能なマイクロアレイとを作製することができる。
【0042】
【発明の実施の形態】
本発明の実施の形態について、図1から図18に基づいて説明すれば、以下の通りである。
【0043】
現在、遺伝子産物の発現量を検定するための探索子として、多くのプローブを固定化したマイクロアレイの需要が高まっている。しかし、従来のマイクロアレイにおいては、プローブの特異性が低いという問題点と、生物種、組織、細胞、および疾患別に、正確な結果を得ることができるマイクロアレイが存在しないという問題点とがある。
【0044】
ところで、ゲノムプロジェクトの成果によって蓄積された塩基配列(遺伝子配列)と、その塩基配列を説明する注釈情報との量は、現在、膨大な量となっている。さらに、ヒトに関する塩基配列は、断片の情報も含めれば、既にすべての遺伝子産物種をカバーするものとなっていると推定される。したがって、塩基配列に付随する注釈情報をもとに、解析対象に発現すると推定される遺伝子産物の情報を網羅することが可能であると考えられる。
【0045】
また、遺伝子産物の多くは、本来、生物の進化の過程において、遺伝子の重複と変異との結果として派生したものである。また、遺伝子の配列には、相同的部分が多く存在している。
【0046】
上記のように、遺伝子情報は多く蓄積されているけれども、遺伝子の配列には相同的部分が多く存在しているために、従来の方法では、特異性が低いプローブしか得られない。
【0047】
そこで、発明者らは、蓄積された遺伝子の塩基配列を相互に比較して、遺伝子の塩基配列から相同性の高い部位を排除すれば、冗長性を最小化したユニークな遺伝子セットが得られると考えた。そして、そのユニークな遺伝子セットを用いると、プローブとしての塩基配列の特異性を高めることができると考えた。
【0048】
また、生物種、組織、細胞、および疾患などの分野別に正確な解析結果が得られるマイクロアレイを作製するには、分野別に情報を収集しなければならない。そこで、発明者らは、蓄積された遺伝子情報を注釈情報に従って集積すれば、分野別の情報収集が可能であると考えた。さらに、発明者らは、蓄積された塩基配列を注釈情報に従って集積すると、解析対象に発現する遺伝子産物の情報を網羅することが可能であると考えた。その結果、下記に示すマイクロアレイ作製に有用な遺伝子データベースを作成する方法を見出し、本発明を完成させるに至った。
【0049】
(遺伝子データベース作成方法の概略)
それでは、マイクロアレイ作製に有用な遺伝子データベース作成方法の概略を、図2を用いて説明する。図2に示すように、遺伝子データベース作成方法は、大きく分けると、情報収集工程とプライマ設計工程とからなる。
【0050】
遺伝子データベース10には、遺伝子情報と、PCRなどの増幅反応に用いる増幅用配列であるプライマとが保存されている。なお、ここで言う遺伝子データベース10に保存されているプライマとは、実物のプライマではなく、プライマの塩基配列情報のことである。また、遺伝子データベース10に保存されているプライマとその物性値を利用して、マイクロアレイのプローブを単離することができる。
【0051】
遺伝子情報は、情報収集工程によって遺伝子データベース10に保存される。情報収集工程では、まず、情報提供サイトから情報を得る。次に、その情報提供サイトからの情報は編集・整理されて、遺伝子情報として遺伝子データベース10に保存される。また、プライマは、プライマ設計工程によって設計処理がされ、遺伝子データベース10に保存される。
【0052】
(遺伝子データベース作成装置)
次に、マイクロアレイ作製を支援する遺伝子データベース作成装置について説明する。図3は、本実施の形態に係る遺伝子データベース作成装置を含む遺伝子データベース作成システムを示している。
【0053】
遺伝子データベース作成システム1は、遺伝子データベース作成装置2と通信ネットワークNと通信ネットワークNに接続されている情報提供サイトとによって構成されている。
【0054】
遺伝子データベース作成装置2は、外部記憶装置7と、入力装置8と、コンピュータ9とで構成されている。コンピュータ9には、データベース作成部3と、遺伝子配列設計部4と、インターフェース5と、インターフェース6とが設けられている。また、コンピュータ9には、外部記憶装置7と入力装置8とが接続されている。また、外部記憶装置7には、マイクロアレイ作製用の遺伝子データベース10、遺伝子データベース作成プログラム、繰り返し配列データベース、不要配列データベースなどが格納されている。なお、外部記憶装置7は、インターフェース6を介してコンピュータ9に接続されている。
【0055】
コンピュータ9において、データベース作成部3と遺伝子配列設計部4とは互いに接続されている。また、データベース作成部3および遺伝子配列設計部4は、入力装置8と外部記憶装置7とに接続されている。さらに、データベース作成部3および遺伝子配列設計部4は、マイクロアレイ作製用の遺伝子データベース10を共用している。
【0056】
また、コンピュータ9は、インターフェース5を介して、インターネット等の通信ネットワークNに接続されている。通信ネットワークNには、GenBank、RefSeq、UniGene、Expressed Gene Anatomy Database(EGAD)、Human Gene Index(HGI)、およびSTACK−DBなどの情報提供サイト(遺伝子情報データベース)が接続されている。つまり、遺伝子データベース作成装置2は、通信ネットワークNを介して、情報提供サイトからの遺伝子情報を取得することができる。
【0057】
なお、コンピュータ9としては、例えば、汎用のパーソナルコンピュータ、ワークステーションなどが挙げられる。また、外部記憶装置7としては、ハードディスク(36Gバイト)を利用できる。また、インターフェース5としてはネットワークインターフェース(100BASE−TX)を、インターフェース6としてはUltraSCSIインターフェースを利用できる。
【0058】
遺伝子データベース作成装置2は、上記のように、インターネットなどの通信ネットワークNを介して、情報提供サイトから遺伝子情報を取得するように構成されている。このように通信ネットワークNを介して情報提供サイトから遺伝子情報を取得する構成とすることによって、例えば、タイマーなどを設置して、一定の時間が経過したときに、自動で遺伝子情報を取得することができる。
【0059】
しかし、遺伝子情報の取得を、このような通信ネットワークNを介したものだけに限定するものではない。例えば、遺伝子情報が記録されたCD−ROMなどの記録媒体を情報提供サイトが配布している場合は、そのような記録媒体から遺伝子情報を取得してもよい。
【0060】
なお、本実施の形態では、コンピュータ9は、データベース作成部3および遺伝子配列設計部の機能を実現するプログラムの命令を実行するCPU(central processing unit )、ブートロジックを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するハードディスク等の記憶装置(記録媒体)、キーボードやマウス等の入力機器、モニタ、プリンタ等の出力機器、他の機器と通信する通信機器などを備えて構成されている。
【0061】
次に、図4を用いて、データベース作成装置2に含まれているデータベース作成部3について説明する。図4は、データベース作成部3の機能を示している。つまり、データベース作成部3には、生情報取得部21と、検索抽出部22と、HTML取得部23と、整形部24と、インデックス作成・グループ化部25と、アセンブル部26とが設けられている。
【0062】
データベース作成部3は、情報提供サイトからの遺伝子情報を注釈情報に基づいて検索し、検索条件に合致した遺伝子情報(一次情報)を抽出する。また、データベース作成部3は、遺伝子情報を注釈情報に基づいて検索し、検索条件に合致した遺伝子情報を抽出して、その抽出した遺伝子情報を編集および保存することによって、遺伝子データベースを作成する。具体的に言うと、遺伝子情報を注釈情報に基づいて検索するときに、キーワードによる検索を行う。このキーワードによる検索によって、分野別に情報を収集することができ、さらに、分野別の遺伝子データベースの作成が可能となる。さらに、データベース作成部3は、遺伝子情報のグループ化も行っている。
【0063】
次に、データベース作成部3の各構成について説明する。生情報取得部21は、情報提供サイトであるftpサーバにアクセスして、情報提供サイトに保存されているすべての遺伝子情報を、一括してダウンロードする。本実施の形態においては、情報提供サイトに保存されているすべての遺伝子情報のことを生情報と呼ぶ。
【0064】
検索抽出部22は、得られた生情報に含まれている遺伝子情報を、注釈情報に基づいて検索する。また、検索抽出部22は、遺伝子情報の注釈情報をキーワードにより検索し、検索条件(キーワード)に合致した情報を抽出して一次情報を作成する。
【0065】
HTML取得部23は、生情報を一括してダウンロードできない情報提供サイトから、インターネットなどの通信ネットワーク上の情報を得るシステム、例えばWWW(World Wide Web)などのシステムを利用して、HTML(Hyper TextMarkup Language)文書を取得する。そのHTML文書の取得において、HTML取得部23は、まず、キーワードを用いた検索によってそのキーワードをもつエントリの一覧を取得して、次に、そのエントリの一覧を基にして遺伝子情報(塩基配列および注釈情報)をHTML文書として取得する。整形部24は、上記の取得したHTML文書の書式を変換して、一次情報を作成する。
【0066】
インデックス作成グループ化部25は、候補配列を決定する前に、上記注釈情報に基づいて、上記塩基配列をグループ化する。また、インデックス作成グループ化部25は、上記グループ化ステップで得られたグループごとに、グループを代表する塩基配列であるグループ代表塩基配列を決定する。さらに、インデックス作成グループ化部25は、その各グループを代表するグループ代表塩基配列を遺伝子データベース10に保存する。
【0067】
また、インデックス作成グループ化部25は、グループ代表塩基配列を決定するとき、グループ内の塩基配列が、グループ代表塩基配列となるための条件を満たしているかを確認する。その条件の確認後、条件を満たしている塩基配列があれば、それをグループ代表塩基配列として、遺伝子データベース10に保存する。なお、グループ内のいずれの塩基配列もグループ代表塩基配列となるための条件を満たしていない場合、インデックス作成グループ化部25は、それらグループ内のすべての塩基配列をアセンブル部26に送る。さらに、インデックス作成グループ化部25は、各情報源から得た一次情報を相互参照できるように、インデックスを作成する。
【0068】
アセンブル部26は、インデックス作成グループ化部25から送られてきた1グループ内の塩基配列を加工、具体的に言うとアセンブルして、仮想塩基配列を作成する。さらに、アセンブル部26は、作成した仮想塩基配列をインデックス作成グループ化部25に送る。なお、このアセンブルには、例えば、phrap(P.Green,Univ.Washington,USA)を用いることができる。
【0069】
次に、図1を用いて、データベース作成装置2の遺伝子配列設計部4を説明する。図1は、遺伝子配列設計部4の機能を示している。つまり、遺伝子配列設計部4には、マスク部31と、プライマ・プローブ設計部32と、相同性検索部34と、採択保存部35とが設けられている。また、プライマ・プローブ設計部32には、プライマ設計用条件入力部33が接続されている。マスク部31には、繰り返し配列データベース36および不要配列データベース37が接続されている。なお、プライマ設計用条件入力部33は、図3の入力装置8に設けられている。
【0070】
遺伝子配列設計部4は、塩基配列を格納した遺伝子データベース10から、1つの塩基配列を選択配列として選択し、当該選択配列の一部を、候補配列であるプローブ候補配列として決定する。また、遺伝子配列設計部4は、プローブ候補配列を増幅するための増幅用配列であるプライマとを決定する。さらに、遺伝子配列設計部4は、決定されたプローブ候補配列の相同性を検索し、プローブ候補配列の相同性の有無を判定する。さらに、プローブ候補配列が相同性なしと判定されたとき、遺伝子配列設計部4は、その判定を受けたプローブ候補配列を増幅するプライマを、遺伝子データベース10に保存する。
【0071】
次に、遺伝子配列設計部4の各構成について説明する。マスク部31は、繰り返し配列データベース36および不要配列データベース37を用いて、プローブ候補配列の決定に使用する選択配列が、プローブ候補配列として不適当な塩基配列であるマスク配列を含んでいるかを確認する。その確認により、プローブ候補配列として不適当な塩基配列であるマスク配列を含んでいることが分かったとき、マスク部31は、選択配列に含まれているマスク配列の部分をマスクする。そのマスクされた部分は、プローブ候補配列に含まれないように処理される。なお、本実施の形態において、マスク処理には、例えば、cross_match(P.Green, Univ Washington,USA)を用いることができる。
【0072】
繰り返し配列データベース36および不要配列データベース37には、「プローブ候補配列として不適当な塩基配列であるマスク配列」が保存されている。具体的には、繰り返し配列データベース36には、繰り返し配列などのプローブとして望ましくない塩基配列が保存されている。また、不要配列データベース37には、解析対象ではない塩基配列が保存されている。
【0073】
プライマ・プローブ設計部32は、マスク部処理後の選択配列を用いて、候補配列であるプローブ候補配列と、プローブ候補配列を増幅するための増幅用配列であるプライマとを設計する。さらに、プライマ・プローブ設計部32は、プローブ候補配列を相同性検索部34へ送り、プライマを採択保存部35へ送る。
【0074】
プライマ設計用条件入力部33では、プライマ設計者がプライマ設計の条件を入力する。その入力された条件を、プライマ設計用条件入力部33はプライマ・プローブ設計部32に伝える。プライマ設計用条件入力部33は、その条件に合わせてプライマを設計する。なお、上記プローブ候補配列とプライマとの決定には、例えば、primer3(S.Rozen,MIT,USA)を用いることができる。
【0075】
相同性検索部34は、プライマ・プローブ設計部32が決定したプローブ候補配列と、遺伝子データベース10内に格納されている塩基配列であってプローブ候補配列を含んでいたものとは別の塩基配列(選択配列以外の塩基配列)との相同性を検索し、相同性の有無を判定する。なお、上記相同性の検索には、ソフトウェア(BLAST(S.Altschl,NCBI,USA))を用いることができる。
【0076】
採択保存部35は、上記相同性検索部34での相同性の有無の判定により、相同性なしと判定されたとき、その判定を受けたプローブ候補配列を増幅するためのプライマを、遺伝子データベース10に保存する。
【0077】
(遺伝子データベースの作成方法)
次に、遺伝子データベースの作成方法について説明する。遺伝子データベースの作成方法は、上記のように、情報収集工程とプライマ設計工程との2つの工程からなる。なお、本実施の形態では、この情報収集工程およびプライマ設計工程の2つの工程は、定期的に自動で実行される。したがって、遺伝子データベース10は自動的に更新される。
【0078】
(情報収集工程)
まず、情報収集工程について説明する。情報収集工程は、情報提供サイトからの遺伝子情報を、注釈情報に基づいて検索する遺伝子情報検索ステップと、検索条件に合致した遺伝子情報を抽出して一次情報を取得する一次情報取得ステップと、取得した一次情報に含まれている遺伝子情報を遺伝子データベース10に保存する遺伝子情報保存ステップとを含んでいる。
【0079】
図3に示したように、遺伝子データベース作成装置2は、インターネットなどの通信ネットワークNと接続されている。そのため、情報収集工程の遺伝子情報検索ステップにおいては、通信ネットワークNを介して、全世界の情報提供サイトから遺伝子情報を取得することができる。
【0080】
遺伝子情報検索ステップにおける遺伝子情報の検索は、遺伝子情報の注釈情報を、1語以上のキーワードで検索する。つまり、注釈情報にキーワードが含まれている遺伝子情報を、情報提供サイトにより蓄積され公開されている遺伝子情報の中から検索する。さらに、一次情報取得ステップでは、キーワードを含む遺伝子情報を抽出して一次情報とした。
【0081】
上記遺伝子情報の検索により、蓄積され公開されている遺伝子情報の中から、生物種、組織、細胞、および疾患などの分野別の遺伝子情報を取得することができる。このように分野別の遺伝子情報を取得することによって、分野別の遺伝子データベースの作成が可能となる。
【0082】
次に、情報提供サイトからの遺伝子情報の取得について説明する。情報提供サイトからの遺伝子情報の取得方法は、次の(1)(2)に大別することができる。
【0083】
(1)情報提供サイトに保存されているすべての遺伝子情報を一括してダウンロードできる場合は、図4の生情報取得部21を用いて、情報提供サイトのftpサーバから、生情報としてダウンロードする。さらに、生情報の取得後、検索抽出部22を用いて、キーワードによる生情報の検索と、検索条件に合致した遺伝子情報つまりキーワードを含む遺伝子情報の抽出による一次情報の作成とを行う。
【0084】
(2)WWWを経由した検索および情報表示のみ可能な場合は、図4に記載したように、まず、HTML取得部23を用いて、htmlサーバの検索機能に直接アクセスして遺伝子情報を取得する。そして、HTML取得部23と上記キーワードとを用いて検索し、検索条件に合致した遺伝子情報を、上記キーワードを含むエントリの一覧として取得する。なお、図示していないけれども、HTML取得部23と検索抽出部22とを用いて検索し、検索条件に合致した遺伝子情報を、上記キーワードを含むエントリの一覧として取得してもよい。さらに、その取得したエントリとHTML取得部23とを用いて、遺伝子情報をHTML文書として取得する。次に、HTML取得部23から整形部24に、HTML文書の遺伝子情報を送信し、さらに、整形部24を用いて、そのHTML文書を書式変換して、一次情報を作成する。
【0085】
図5は、生情報をキーワード検索することによって、一次情報を得る例を示している。図5に示す生情報は、ACCESSION、LOCUS、KEYWORDなどの項目の注釈情報と、配列情報とからなる。また、配列情報には、配列1の項目の塩基配列、配列2のアミノ酸配列などが格納されている。
【0086】
ACCESSIONがAAxxxxx1の行においては、LOCUSおよびKEYWORDの項目にさまざまなデータが格納されており、配列1の項目に「aa・・・・・・」の塩基配列が格納されている。しかし、AAxxxxx1の行における配列2の項目は「−」となっており、アミノ酸配列は格納されていない。ACCESSIONがAAxxxxx2の行においては、LOCUSおよびKEYWORDの項目にさまざまなデータが格納されており、配列1の項目に「tt・・・・・・」の塩基配列が格納されている。しかし、AAxxxxx2の行における配列2の項目は「−」となっており、アミノ酸配列は格納されていない。また、ACCESSIONがAB035541の行には、LOCUSの項目に「AB035541 1584・・・・」の情報が、KEYWORDの項目に「・・・・・・membrane associated・・・・・・」の情報が、配列1の項目に「atggt・・・・・・」の塩基配列が、配列2の項目に「MVGS・・・・・・」のアミノ酸配列が格納されている。また、ACCESSIONがAXxxxxx1の行には、LOCUSの項目にさまざまな情報が、KEYWORDの項目に「・・・・・・muscle・・・・・・」の情報が、配列1の項目に「aa・・・・・・」の塩基配列が格納されており、配列2の項目にはアミノ酸配列が格納されていない。また、生情報には、その他多くの行のデータが格納されているとする。
【0087】
上記の表のような生情報から一次情報を取得するには、キーワードによる検索をする。その検索においては、生情報の注釈情報をキーワードによって検索する。例えば、「muscle、sarcomere、myoblast、myotube、cardiac、membrane associated、extracellular、ECM、nuclear−lamina」の9つをキーワードとする。
【0088】
上記9つをキーワードとすると、ACCESSIONがAB035541の行のデータは、KEYWORDの項目に「・・・・・・membrane associated・・・・・・」の情報があり、キーワードを含んでいる。そのため、作成される一次情報に、ACCESSIONがAB035541の行のデータは含まれることになる。また、ACCESSIONがAXxxxxx1の行のデータには、KEYWORDの項目に「・・・・・・muscle・・・・・・」の情報があり、キーワードを含んでいる。そのため、作成される一次情報に、ACCESSIONがAXxxxxx1の行のデータは含まれることになる。図5は、生情報の注釈情報をキーワードによって検索した結果、ACCESSIONがAB035541およびAXxxxxx1の行のデータだけがキーワードを含んでいて、それらAB035541およびAXxxxxx1の行のデータを含む一次情報が作成されたことを示している。
【0089】
図6は、GenBankより得ることができる遺伝子情報の例を示している。つまり、GenBankより得られる生情報には、図6のような情報が含まれている。GenBankより得ることができる遺伝子情報は、ORIGINの項目に記載されている塩基配列と、LOCUS、KEYWORDSなどの項目に記載されている注釈情報とからなる。図6の例では、KEYWORDSの項目には、「membrane associated」の語句がある。そのため、キーワードを上記9つの語とした場合、検索抽出部22は、「membrane associated」の語句を検出して、図5に示すような遺伝子情報を、生情報の中から抽出することができる。さらに、検索抽出部22は、検索条件に合致した図6の情報を抽出して、図6の情報を含む一次情報を作成することができる。
【0090】
なお、条件に合致したデータを抽出して一次情報を作成するとき、すべての項目の情報を一次情報とするか、ある項目のデータを省略して一次情報とするかを、データベース作成者が決定して、検索抽出部22にその決定を実行させることも可能である。例えば、図6の情報を生情報の一部と仮定して、図6の情報から一次情報を抽出する場合、図6のデータをすべて一次情報として保存してもよい。また、REFERENCEのAUTHORSの項目はマイクロアレイ作製に不必要な項目であるとデータベースの作成者が判断した場合、REFERENCEのAUTHORSの項目にあるデータを、一次情報として保存しないということも可能である。
【0091】
図7および図8は、RefSeqから得られる遺伝子情報の例を示している。RefSeqから得られる遺伝子情報は、ORIGINの項目の塩基配列と、LOCUS、COMMENTなどの項目の注釈情報とからなる。上記9つのキーワードにより検索すると、COMMENTの項目にある「muscle」の語句が検索条件に合致している。そのため、キーワードを上記9つの語とした場合、検索抽出部22は、「muscle」の語句を検出して、図7および図8に示すような遺伝子情報を、生情報の中から抽出することができる。さらに、検索抽出部22は、図7および図8の情報を含む一次情報を作成することができる。
【0092】
図9は、UniGene(National Center for Biotechnology Information,USA)から得られる遺伝子情報を示している。EXPRESSの項目にmuscleの語句があるため、上記9つのキーワードにより検索すると、図9に示すような一次情報が得られる。なお、UniGeneの遺伝子情報の場合、塩基配列は、SEQUENCEの項目にあるデータから取得可能となっている。
【0093】
図10は、STACK−DBから得られる遺伝子情報の一部を示している。図10に示す情報のうち、Z19308、Z28752などと記載されているデータにより、塩基配列を取得することができる。
【0094】
図11〜図13は、情報提供サイトであるTIGR(The Institute for Genomic Research, USA)のHGI(Human Gene Index)から得ることができるHTML文書の例を示している。図11〜図13の例では、「EXTRACELLULAR」の語句が含まれており、上記9つの語のキーワードを含んでいることが分かる。
【0095】
図14は、情報提供サイトであるTIGRのEGAD(Expressed Gene Anatomy Database)から得ることができるHTML文書の例を示している。図14に示すHTML文書は、次のようにして得ることができる。例えば、上記に記載したようなmuscle、sarcomere、myoblast、myotube、cardiac、membrane associated、extracellular、ECM、およびnuclear−laminaの9つの語をキーワードとして選んだとする。HTML取得部23は、それらキーワードを用いて検索し、そのキーワードをもつエントリの一覧を取得する。さらに、HTML取得部23は、そのエントリの一覧を基にして、図14のような遺伝子情報をHTML文書として取得することができる。
【0096】
なお、本実施の形態の情報収集工程には、候補配列決定ステップの前に、上記注釈情報に基づいて、上記塩基配列をグループ化するグループ化ステップと、上記グループ化ステップで得られたグループごとに、グループを代表する塩基配列であるグループ代表塩基配列を決定する代表配列決定ステップとが含まれている。
【0097】
また、本実施の形態の情報収集工程には、代表配列決定ステップにおいてグループ代表塩基配列を決定する際に、グループ内のいずれの塩基配列もグループ代表塩基配列となるための条件を満たしていない場合、グループ内の塩基配列を加工して、仮想塩基配列を作成する仮想配列作成ステップが含まれている。
【0098】
上記グループ化は、図4に記載のインデックス作成グループ化部25が行う。また、上記グループ化をするときには、遺伝子情報がどのグループに属するのかと、グループを代表するグループ代表塩基配列とを決定する。さらに、上記代表配列決定ステップにおいてグループ代表塩基配列を決定するとき、グループ内の塩基配列がグループ代表塩基配列となるための条件を満たしているかを確認する必要がある。その条件は、インデックス作成グループ化部25が確認する。塩基配列が上記条件を満たしているとき、その条件を満たしている塩基配列を、グループ代表塩基配列として、遺伝子データベース10に保存する。
【0099】
また、上記条件を満たしていない場合は、同じグループ内にある塩基配列を加工(アセンブル)して仮想塩基配列を生成して、グループ代表塩基配列として仮想塩基配列を遺伝子データベース10に保存する。なお、生成した仮想塩基配列をグループ代表塩基配列として遺伝子データベース10に保存するとき、別途閾値を設定して特定の長さ(塩基数)以上の仮想塩基配列のみを保存するか、生成した仮想塩基配列の長さによらず仮想塩基配列を保存するかを選択することができる。
【0100】
図15、図16および図17は、上記グループ化の例を示している。データベース1から得た一次情報1は、ACCESSION(アクセッション番号:図中には「ACN」と記す)を主キーとして、データが管理されている。また、一次情報1には、アクセッション番号Axxx1、Axxx2、Axxx5のデータなど、複数のデータが保存されている。また、一次情報1はグループ化の前であるので、グループIDの項目にはまだデータが存在しない。
【0101】
また、一次情報1において、アクセッション番号Axxx1の行には配列IDの項目に1−1のデータが、アクセッション番号Axxx2の行には配列IDの項目に1−2のデータが、アクセッション番号Axxx5の行には配列IDの項目に1−3のデータが格納されている。なお、配列IDは、図17に示すようなデータと対応づけられている。例えば、配列IDが1−1の行には、塩基配列が「aattcc・・・・・・・・gg」で、塩基数が1500という塩基配列の情報が格納されている。
【0102】
また、一次情報2は、データベース2から得られたものである。その一次情報2は、アクセッション番号が格納されている。また、一次情報2には、アクセッション番号がBxxx3のデータ、アクセッション番号がAxxx1のデータ、アクセッション番号がAxxx5のデータ、アクセッション番号が空白(−)を示すデータ、などが保存されている。また、一次情報2において、アクセッション番号がBxxx3の行には配列IDの項目に2−1のデータが、アクセッション番号がAxxx1の行には配列IDの項目に2−2のデータが、アクセッション番号がAxxx5の行には配列IDの項目に2−3のデータが、アクセッション番号が空白(−)の行には配列IDの項目に2−4のデータが、アクセッション番号がAxxx2の行には配列IDの項目に2−5のデータが格納されている。また、一次情報2はまだグループ化されていないため、グループIDの項目は空白である。
【0103】
また、一次情報nは、データベースnから得られたものである。また、この一次情報nには、1つの行に複数の塩基配列の情報が格納されている。また、一次情報nは、アクセッション番号ごとに塩基配列が格納されている。また、一次情報nには、1つの行に、アクセッション番号がBxxx3のデータとアクセッション番号がAxxx2のデータとが格納されている。また、次の行に、アクセッション番号がAxxx5のデータが保存されている。さらに、アクセッション番号がBxxx3には配列IDがn1−5のデータ、アクセッション番号がAxxx2には配列IDがn1−6のデータ、アクセッション番号がAxxx5には配列IDがn1−7のデータが対応している。なお、一次情報nはまだグループ化されていないため、グループIDの項目は空白である。
【0104】
上記一次情報1、2、およびnをグループ化すると、図15に示すように、グループ化された一次情報1、2、およびnが得られる。グループ化は、図15に示すように、アクセッション番号に基づいて行われる。
【0105】
例えば、アクセッション番号がAxxx1のデータが、一次情報1と一次情報2とに含まれている。それらアクセッション番号がAxxx1のデータには、グループIDとして0001が振られている。また、アクセッション番号がAxxx2のデータは、一次情報1、一次情報2および一次情報nに含まれている。それらアクセッション番号がAxxx2のデータには、グループIDとして0002が振られている。また、アクセッション番号がAxxx5のデータが、一次情報1と一次情報2と一次情報nとに含まれている。それらアクセッション番号がAxxx5のデータには、グループIDとして0003が振られている。また、アクセッション番号がBxxx3のデータが、一次情報2と一次情報nとに含まれている。それらアクセッション番号がBxxx3のデータには、グループIDとして0004が振られている。また、一次情報2においてアクセッション番号が空白であったデータには、アクセッション番号の項目に識別子001が振られて、グループIDとして0005が振られている。
【0106】
次に、それらグループ化された情報1、2およびnの塩基配列の確認と、グループを代表する塩基配列の決定とを行い、それらグループの遺伝子情報を遺伝子データベース10に保存する。なお、この例においては、塩基配列の確認において、塩基配列の塩基数が1000塩基以上という条件を、グループ代表塩基配列となるための条件とした。
【0107】
図16に、グループ化された情報1、2およびnの塩基配列の確認後、グループを代表する塩基配列の決定とを行い、それらグループの遺伝子情報を遺伝子データベース10に保存した例(テーブル1)を示す。図16のテーブル1によると、遺伝子データベースには、0001から0005の5つのグループのデータが保存されている。
【0108】
グループIDが0001のデータは、アクセッション番号がAxxx1であって、グループを代表する配列の候補としては、1−1と2−2とがある。そのうち、グループIDが0001のグループを代表する配列として、1−1が選ばれた。図17によると、1−1および2−2の塩基配列は、塩基数が1500であり、両者とも塩基数は1000以上であって、遺伝子データベースに保存するための条件を満たしている。また、1−1の塩基配列と、2−2の塩基配列とはほぼ同じである。このように、グループを代表する塩基配列となり得るものがグループ内に複数存在する場合、(1)タイムスタンプの最も新しい(最新のエントリ)ものを選ぶ、(2)最長の配列のものを選ぶ、(3)データの由来に優先順位をつけて選ぶの(1)から(3)のいずれかの方法によって、グループを代表する塩基配列を決定する。
【0109】
また、グループ化されたデータ0001には、DB1、DB2というインデックスが作成されている。このDB1とは、データベース1からの一次情報を用いたことを示している。また、DB2とは、データベース2からの一次情報を用いたことを示している。
【0110】
グループIDが0002のデータは、アクセッション番号がAxxx2であって、グループを代表する配列の候補としては、1−2と、2−5と、n1−6とがある。しかし、図17によると、1−2、2−5、およびn1−6の塩基数はそれぞれ600であり、どれも塩基数が1000以上ではない。そのため、この例では、1−2、2−5、およびn1−6の配列を加工、つまりアセンブルして、X−1という仮想塩基配列を作成した。そして、このX−1という仮想塩基配列を、グループIDが0002のグループを代表する塩基配列とした。また、グループ化されたデータ0002にはインデックスが作成されており、そのインデックスを利用して、一次情報間で相互参照が可能となっている。
【0111】
また、グループ化されたデータ0002には、DB1、DB2、DBnというインデックスが作成されている。このDB1とはデータベース1からの一次情報を、DB2とはデータベース2からの一次情報を、DBnとはデータベースnからの一次情報を用いたことを示している。
【0112】
グループIDが0003のデータは、アクセッション番号がAxxx5であって、グループを代表する塩基配列の候補としては、1−3と、2−3と、n1−7とがある。これら塩基配列は、図17によると、1−3の塩基数は900、2−3の塩基数は1200である。また、n1−7の塩基数は300である。塩基数が1000以上なのは2−3であり、この2−3をグループ代表塩基配列とした。
【0113】
また、グループ化されたデータ0003には、DB1、DB2、DBnというインデックスが作成されており、そのインデックスを利用して、一次情報間で相互参照が可能となっている。
【0114】
グループIDが0004のデータは、アクセッション番号がBxxx3であって、グループを代表する塩基配列の候補としては、2−1と、n1−5とがある。図17によると、2−1の塩基数は1400であり、n1−5の塩基数は400である。塩基数が1000以上なのは2−1であり、この2−1を、グループID0004のグループを代表する配列とする。
【0115】
また、グループ化されたデータ0004には、DB2、DBnというインデックスが作成されており、そのインデックスを利用して、一次情報間で相互参照が可能となっている。
【0116】
グループIDが0005のデータは、アクセッション番号が識別子001であって、グループを代表する塩基配列の候補としては、2−4がある。図17によると、2−4の塩基数は1600である。2−4の塩基数は1000以上であるため、この2−4を、グループID0005のグループを代表する配列とした。
【0117】
また、グループ化されたデータ0005には、DB2というインデックスが作成されており、そのインデックスを利用して、一次情報間で相互参照が可能となっている。
【0118】
(プライマ設計工程)
次に、プライマ設計工程について説明する。プライマ設計工程は、塩基配列を格納した遺伝子データベース(第1の遺伝子データベース)10から、1つの塩基配列を選択配列として選択し、当該選択配列の一部をプローブ候補配列(候補配列)として決定する候補配列決定ステップと、上記プローブ候補配列と、第2の遺伝子データベースに格納されている塩基配列であって当該選択配列以外の塩基配列との相同性を検索する相同性検索ステップと、上記相同性検索ステップでの相同性検索の結果に基づき、上記プローブ候補配列の相同性の有無を判定する相同性判定ステップと、上記相同性判定ステップによって相同性なしと判定されたとき、その判定を受けたプローブ候補配列を増幅するための増幅用配列(プライマ)を、当該候補配列を含む選択配列と対応づけて、上記遺伝子データベース10に保存する増幅用配列保存ステップと、を含んでいる。
【0119】
なお、本実施の形態では、第2の遺伝子データベースとして、第1の遺伝子データベースを用いる。ただし、上記第2の遺伝子データベースとして、例えば、GenBank、EMBL、DDBJ、RefSeq、UniGene、Expressed Gene Anatomy Database(EGAD)、Human Gene Index(HGI)、およびSTACK−DBなどの公知の遺伝子データベースを用いることもできる。また、第2の遺伝子データベースとして、例えば、研究機関などで独自に作成した遺伝子データベースも用いることができる。つまり、第2の遺伝子データベースと第1の遺伝子データベースとを、異なる遺伝子データベースとしてもよい。
【0120】
第2の遺伝子データベースとして、第1の遺伝子データベースを用いるとき、プライマ設計工程は、塩基配列を格納した遺伝子データベース10から、1つの塩基配列を選択配列として選択し、当該選択配列の一部をプローブ候補配列(候補配列)として決定する候補配列決定ステップと、上記プローブ候補配列と、上記遺伝子データベース10内に格納されている塩基配列であって当該選択配列以外の塩基配列との相同性を検索する相同性検索ステップと、上記相同性検索ステップでの相同性検索の結果に基づき、上記プローブ候補配列の相同性の有無を判定する相同性判定ステップと、上記相同性判定ステップによって相同性なしと判定されたとき、その判定を受けたプローブ候補配列を増幅するための増幅用配列(プライマ)を、当該候補配列を含む選択配列と対応づけて、上記遺伝子データベース10に保存する増幅用配列保存ステップと、を含むものとなる。
【0121】
次に、図1を用いて、プライマ設計工程の各ステップについて説明する。候補配列決定ステップでは、情報収集工程で遺伝子データベース10に格納した塩基配列から選択した選択配列をプライマ・プローブ設計部32に送って、候補配列であるプローブ候補配列と、そのプローブ候補配列を増幅するための増幅用配列であるプライマとを決定する。
【0122】
なお、本実施の形態では、塩基配列のグループ化を行っているので、グループ代表塩基配列をプライマ・プローブ設計部32に送って、そのグループ代表塩基配列から、プローブ候補配列とプライマとを決定している。つまり、グループ化を行っている場合、選択配列は、あるグループのグループ代表塩基配列である。
【0123】
また、本実施の形態のプライマ設計工程は、選択配列から候補配列を決定する際、選択配列から、候補配列として不適当な塩基配列であるマスク配列を除くマスクステップをさらに含んでいる。つまり、選択配列をプライマ・プローブ設計部32に送る前に、選択配列をマスク部31に送って、候補配列として不適当な塩基配列であるマスク配列、つまり、プローブとして望ましくない配列にマスクする処理を行う。
【0124】
候補配列として不適当な塩基配列であるマスク配列は、繰り返し配列データベース36および不要配列データベース37に保存されている。繰り返し配列データベース36には、既知の繰り返し塩基配列が保存されている。また、不要配列データベース37には、解析の対象ではない遺伝子のデータが保存されている。
【0125】
マスク部31は、送られてきた選択配列と、繰り返し配列データベース36および不要配列データベース37に保存されている塩基配列とを比較して、送られてきた選択配列にマスク配列があれば、その選択配列に含まれるマスク配列の部分にマスク処理をする。さらに、マスク部31は、マスク処理後の塩基配列をプライマ・プローブ設計部32に送る。
【0126】
また、プライマ・プローブ設計部32は、マスク部31から受け取ったマスク処理後の選択配列を用いて、プローブ候補配列および増幅用配列(プライマ)を決定する。さらに、プライマ設計用条件入力部33で入力された決定の条件に基づいて、プライマ・プローブ設計部32は、プローブ候補配列および増幅用配列を決定する。
【0127】
このプローブ候補配列を決定するとき、プライマ・プローブ設計部32は、マスク部31から受け取ったマスク処理後の選択配列の中にあるマスクされていない部分から、プローブ候補配列を決定する。また、プライマ・プローブ設計部32は、そのマスクされていない部分から決定されたプローブ候補配列を増幅するように、プライマを決定する。さらに、プライマ・プローブ設計部32は、決定されたプローブ候補配列を相同性検索部34に送る。また、プライマ・プローブ設計部32は、その決定されたプローブ候補配列を増幅するためのプライマを、選択保存部35に送る。
【0128】
次に、相同性検索ステップについて説明する。相同性検索ステップでは、プライマ・プローブ設計部32から送られてきたプローブ候補配列と、第2の遺伝子データベース内に格納されている塩基配列との相同性を検索する。この相同性検索ステップで言う「第2の遺伝子データベース内に格納されている塩基配列」は、プローブ候補配列が選ばれた選択配列以外の塩基配列を指している。
【0129】
本実施の形態においては、相同性検索に要する時間を短縮するために、第2の遺伝子データベースとして、第1の遺伝子データベースを用いており、相同性検索ステップでは、プライマ・プローブ設計部32から送られてきたプローブ候補配列と、遺伝子データベース10内に格納されている塩基配列との相同性を検索することになる。このとき、「遺伝子データベース10内に格納されている塩基配列」は、プローブ候補配列が選ばれた選択配列以外の塩基配列を指している。
【0130】
なお、上記でも述べたように、第2の遺伝子データベースとして、例えば、GenBank、EMBL、DDBJ、RefSeq、UniGene、Expressed Gene Anatomy Database(EGAD)、Human Gene Index(HGI)、およびSTACK−DBなどの公知の遺伝子データベースを用いることもできる。また、第2の遺伝子データベースとして、例えば、研究機関などで独自に作成した遺伝子データベースも用いることができる。
【0131】
また、本実施の形態では、塩基配列のグループ化を行っているので、上記相同性検索ステップでは、プライマ・プローブ設計部32から送られてきたプローブ候補配列と、そのプローブ候補配列を含むグループ代表塩基配列とは別のグループ代表塩基配列との相同性を検索する。
【0132】
次に、相同性判定ステップについて説明する。相同性判定ステップでは、相同性検索ステップでの相同性検索の結果と相同性の判定の基準とに基づき、上記プローブ候補配列の相同性の有無を判定する。なお、相同性の検索にBLASTを用いた場合、相同性の判定の基準として、E値、P値などを用いることができる。
【0133】
次に、増幅用配列保存ステップについて説明する。このステップでは、相同性判定ステップによって相同性なしと判定されたとき、その判定を受けたプローブ候補配列を増幅するためのプライマを、当該候補配列を含む選択配列と対応づけて、遺伝子データベース10に保存する。
【0134】
上記プライマの遺伝子データベース10への保存は、次のように行われる。つまり、プローブ候補配列が相同性なしと判定されたとき、相同性検索部34は、相同性なしと判定されたプローブ候補配列を増幅させるプライマを、遺伝子データベース10に保存するよう、選択保存部35に指示を出す。その指示を受けた選択保存部35は、相同性なしと判定されたプローブ候補配列を増幅させるプライマを、プローブ候補配列が選択された塩基配列と対応づけて(グループ化を行っている場合は各グループと関連づけて)、その物性値と共に遺伝子データベース10に保存する。
【0135】
また、相同性ありと判定された場合は、その判定を受けたプローブ候補配列およびそのプローブ候補配列を増幅させるプライマを破棄する。そして、異なる領域を対象に、新たなプローブ候補配列とその新たなプローブ候補配列を増幅させるプライマとを設計する。その新たなプローブ候補配列についても、もちろん上記ステップにより相同性の検索および判定を行う。
【0136】
なお、本実施の形態では、プローブ候補配列およびプライマのうち、プライマだけを遺伝子データベース10に保存している。塩基配列とプライマとがあれば、その2つからプローブ候補配列を見つけることができるからである。しかし、もちろん、プライマを保存するときに、あわせて、プローブ候補配列を遺伝子データベース10に保存してもよい。
【0137】
また、上記遺伝子データベース作成方法により作成された遺伝子データベース10の構造を、図18に示す。なお、図18において二重線で囲まれている項目は独自形式のデータを、一本の線で囲まれている項目はオリジナルと同じ形式のデータを示している。
【0138】
なお、素材の項目に含まれる利用頻度が少ないデータおよびサイズが大きいデータを用いる場合、遺伝子データベース10に素材の項目のデータに関するインデックスを作成して、素材の項目のデータが必要なときに、インデックスを用いて一次情報から必要なデータを取り出すようにしてもよい。
【0139】
図18に示す素材の項目のデータは、生情報および一次情報からのデータである。また、図18に示す代表配列セットの項目にはグループ代表塩基配列が、クロスリファレンス(全体)の項目には遺伝子データベース10全体のリファレンスが、プライマ設計結果の項目には作成したプライマが、制限酵素解析結果の項目には上記制限酵素解析の結果と制限酵素マップとが、ログの項目には繰り返し配列の出現位置と配列重複の位置(不要配列の位置)とが格納されている。
【0140】
なお、遺伝子データベースの作成方法により格納した塩基配列の情報は、例えば、次のような方法により、マイクロアレイの作製に利用することができる。まず、遺伝子データベース10に保存されたプライマ(プライマの塩基配列情報)を用いて、プライマの実物を合成する。なお、遺伝子データベース10に保存されたプライマの塩基配列情報からプライマを作製する方法は、周知の方法でよい。次に、cDNAライブラリ等のDNAをテンプレートとして、上記合成したプライマを用いてPCRを行い、対応する遺伝子断片を得ることができる。さらに、クローン化によりクローンを集積し、そのクローンをテンプレートにしてcDNAを増幅してもよい。その増幅したcDNAを用いれば、マイクロアレイを作製することが容易である。
【0141】
(プログラム・記録媒体)
次に、上記遺伝子データベース作成方法をコンピュータに実行させるための遺伝子データベース作成プログラム、および上記遺伝子データベース作成方法をコンピュータに実行させるための遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体について説明する。
【0142】
上記に説明した遺伝子データベース作成方法は、上記の各処理を機能させるためのプログラムで実現される。この上記遺伝子データベース作成方法をコンピュータに実行させるための遺伝子データベース作成プログラムは、フロッピィーディスク、ハードディスク、磁気テープ、CD−ROM/光ディスク/光磁気ディスク/MDなどのメディア、およびROM/RAMメモリなどの記録媒体にコンピュータで読み取り可能に記録されている。
【0143】
上記プログラムコードを供給するための記録媒体は、システムあるいは装置と分離可能に構成することができる。また、上記記録媒体は、プログラムコードを供給可能であるように固定的に担持する媒体であってもよい。そして、上記記録媒体は、記録したプログラムコードをコンピュータが直接読み取ることができるようにシステムあるいは装置に装着されるものであっても、外部記憶装置としてシステムあるいは装置に接続されたプログラム読み取り装置を介して読み取ることができるように装着されるものであってもよい。
【0144】
例えば、上記記録媒体としては、磁気テープやカセットテープ等のテープ系、フロッピーディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
【0145】
また、上記プログラムコードは、コンピュータが記録媒体から読み出して直接実行できるように記録されていてもよいし、記録媒体から主記憶のプログラム記憶領域へ転送された後コンピュータが主記憶から読み出して実行できるように記録されていてもよい。
【0146】
なお、上記実施の形態は本発明の範囲を限定するものではなく、本発明の範囲内で種々の変更が可能である。
【0147】
【実施例】
筋疾患の分子病理学的解析を目的とした、主にヒト筋肉組織で発現する遺伝子を解析するマイクロアレイの作製のための遺伝子データベースを作成した。その遺伝子データベースは、情報収集工程およびプライマ設計工程によって作成された。
【0148】
(情報収集工程)
情報収集工程は下記の(a)〜(g)の手順で行った。
【0149】
(a)キーワードとして「muscle、sarcomere、myoblast、myotube、cardiac、membrane associated、extracellular、ECM、nuclear−lamina」の9つのキーワードを選択した。
【0150】
(b)インターネットを経由して、情報提供サイトから遺伝子情報を取得した。なお、本実施例では、情報提供サイトとして、GenBank(National Center for Biotechnology Information,USA)、RefSeq(LocusLink/RefSeq(National Center for Biotechnology Information,USA))、UniGene(National Center for Biotechnology Information,USA)、Expressed Gene Anatomy Database(EGAD)(The Institute for Genomic Research, USA)、Human Gene Index(HGI)(The Institute for Genomic Research, USA)、およびSTACK−DB(South Africa National Bioinformatics Institute, South Africa)を用いた。
【0151】
(c)上記情報提供サイトのうち、GenBank、RefSeq、UniGene、STACK−DBの遺伝子情報は、情報提供サイトのftpサーバから、一括して生情報をダウンロードした。さらに、生情報の取得後、上記9つのキーワードによる生情報の検索と、検索条件に合致した遺伝子情報つまりキーワードを含む遺伝子情報の抽出による一次情報の作成とを行った。
【0152】
(d)上記情報提供サイトのうち、Expressed Gene Anatomy Database(EGAD)およびHuman Gene Index(HGI)の遺伝子情報は、WWWを経由した検索および情報表示のみ可能である。そのためhtmlサーバの検索機能に直接アクセスして、上記9つのキーワードとを用いて遺伝子情報を検索した。また、検索条件に合致した遺伝子情報を、上記9つのキーワードを含むエントリの一覧として取得した。さらに、その取得したエントリを用いて、遺伝子情報をHTML文書として取得した。また、そのHTML文書を書式変換して、一次情報を作成した。場合によっては、取得したHTML文書を精査して、目的の詳細情報へのリンク情報を取得し、さらに、その情報に基づいて上記処理によって一次情報を作成した。
【0153】
なお、本実施例では、EGADに対して上記9つのキーワードを用いて検索を行い、得られたデータ(エントリ)のIDの一覧を、HGIのIDに変換した。さらに、HGIの各IDに対して、その塩基配列およびその注釈情報をHGIよりHTML文書として取得した。さらに、そのHTML文書を書式変換して、一次情報を得た。また、本実施例では、EGADに対して上記9つのキーワードを用いて検索を行い、得られたデータ(エントリ)のIDの一覧を、HGIのIDに変換した。さらに、HGIの各IDに対して、その塩基配列およびその注釈情報をHGIよりHTML文書として取得した。さらに、そのHTML文書を書式変換して、一次情報を得た。
【0154】
(e)一次情報の各データについて、DDBJ/EMBL/GenBankで割り振られたID(アクセッション番号)を調べ、このアクセッション番号を基に、塩基配列をグループ化する。なお、アクセッション番号が付与されていないデータについては、仮の識別子を付与して、単独のグループとした。
【0155】
上記のようにグループ化すると、その各グループは、個別の遺伝子に対応することが推定される。そこで、各グループに独自のID(グループID)を付与して、以降は、このグループIDですべての処理手順を実行した。
【0156】
(f)各グループの塩基配列について、塩基配列がグループ代表塩基配列となるための条件を満たしているかを確認した。なお、「塩基配列がグループ代表塩基配列となるための条件」とは、塩基配列の塩基数が一定の数以上であるか、具体的には、塩基配列の塩基数が1000塩基以上であるかを条件とした。条件を満たすものが存在する場合は、その塩基配列をそのグループの遺伝子配列として遺伝子データベースに保存した。また、グループ代表塩基配列となり得るものがグループ内に複数存在する場合、本実施例では、データの由来に優先順位をつけて、グループ代表塩基配列を決定した。その優先順位は、HGI、STACK−DB、RefSeq、GenBank、UniGeneの順とした。
【0157】
(g)上記(f)において、条件を満たす十分な長さの塩基配列がない場合、そのグループに属する塩基配列断片をまとめ、アセンブルを行った。その結果、入手される仮想遺伝子配列を、そのグループの遺伝子配列として遺伝子データベースに保存した。なお、本実施例では、入手した仮想塩基配列は、その長さ(塩基数)によらず、グループ代表塩基配列として遺伝子データベースに保存した。また、本実施例では、6211グループについて、解析対象として十分な遺伝子情報を得ることができた。
【0158】
プライマ設計工程は下記の(1)〜(7)の手順で行った。
【0159】
(1)情報収集工程で構築した遺伝子データベースより、各グループのグループ代表塩基配列を選択した。
【0160】
(2)上記(1)で選択した塩基配列が、候補配列として不適当な塩基配列であるマスク配列を含まないかを確認した。なお、マスク配列である繰り返し配列の情報は、繰り返しデータベースに保存されており、その情報は、RepBase(Genetic Information Research,USA)から取得した。
【0161】
また、マスク配列である不要配列は、不要配列データベースに保存されている。また、その不要配列とは、解析の対象ではない遺伝子の配列であって、ヒトのミトコンドリア塩基配列、ヒトのリボソームRNAをコードする塩基配列などである。なお、ヒトのミトコンドリア塩基配列の情報およびヒトのリボソームRNAをコードする塩基配列の情報は、GenBankより取得した。
【0162】
(3)マスク処理後の塩基配列について、プローブとしての用件を満たし、かつマスクされない領域を増幅するPCRプライマを設計した。
【0163】
なお、本実施例では、プライマ設計用条件入力部から、プライマ設計の条件として、各配列について、プローブ領域の長さが塩基数450−550、プライマの長さが塩基数15−27(最適値は塩基数20)、その位置がグループ代表塩基配列の3’寄りであることを優先的にプローブ領域になるような条件を入力した。
【0164】
(4)上記(3)で設計したPCRプライマで増幅される部分配列(候補配列)を問い合わせ配列として、遺伝子データベースに保存されている塩基配列全体を相同性検索した。有意な相同性が存在しない場合は、その候補配列は一意であると考えられるので、その候補配列を増幅するPCRプライマを採択した。なお、本実施例では、上記相同性の検索にBLASTを用いたので、相同性の有無の判定にはE値を用いた。具体的には、E値が1.0×10−50以下のものが見つかったとき、相同性ありと判定した。
【0165】
(5)上記(4)で有意な相同性が発見された場合は、そのプライマを破棄して、(3)に戻り、異なる領域を対象にPCRプライマを設計した。
【0166】
(6)上記(4)で採択したPCRプライマは、その物性値と共に、各グループと関連づけてデータベースに保存した。本実施例では、この時点で、6128グループについて、有効なプライマを設計および保存することができた。
【0167】
(7)保存したPCRプライマによるPCRプロダクツの妥当性をチェックするために、制限酵素解析を行った。また、制限酵素解析には比較対照が必要であるので、その解析の比較対照として、プライマで増幅される部分の塩基配列(プローブ候補配列)に対して計算機上で制限酵素マップを作成し、その制限酵素マップを遺伝子データベースに保存した。なお、本実施例では、遺伝子データベースに保存されたプライマで増幅されるプローブ候補配列に対して制限酵素解析を行い、さらに、実際の制限酵素解析による制限酵素マップも作成し、そのマップも保存した。
【0168】
次に、遺伝子データベースを作成することによって得られた、遺伝子およびそれを特徴づけるプローブを増幅するためのPCRプライマの例を、結果1から3に示す。
【0169】
(結果1)
遺伝子:ARPP−19 Homo sapiens okadaic acid−inducible and cAMP−regulated phosphoprotein 19(ARPP−19)mRNA, complete cds. okadaic acid−inducible and AMP−regulated phosphoprotein 19(アクセッション番号:AF08455)
プライマ:
GCCATTCAAGTTCAAGCACA
CTGGCTGGCTGATTAAGAGG
(結果2)
遺伝子:PTPRU 1p35.3−p35.1 PTP−J;PCP−2;PTP−PI;PTPRO;GLEPP1;PTPU2;HPTP−J;FMI;R−PTP−PSI;protein tyrosine phosphatase J; Homo sapiens protein tyrosine phosphatase,receptor type, U(PTPRU),mRNA. protein tyrosine phosphatase, receptor type,U (アクセッション番号:X97198)
プライマ:
ACTATCCCTCCCCACTTGCT
GGCATTCAGAGAGCACGTTT
(結果3)
遺伝子:C11orf2 11q13 ANG2;chromosome 11 open reading frame 2 ;Homo sapiens chromosome 11 open reading frame2(C11orf2), mRNA. chromosome 11 open reading frame2(アクセッション番号:AF024631、BC007198、BC010540、BC017438)
プライマ:
CACGGAGAAAGTCCTCTTGC
TGAGTTCTGCAGTCAGGGTG
なお、結果3では、アクセッション番号が複数記載されている。これは、プライマ設計に使用した配列がアセンブル配列(UniGeneアセンブル配列)であるために、アセンブルに利用された複数のアクセッション番号を記載したものである。詳しく説明すると、プライマ設計に使用した配列がUniGeneアセンブル配列で、そのクラスタに該当の4エントリ(EST)が含まれていたということである。つまり、結果3のプライマは、4つのESTをアセンブルした結果として想定された遺伝子配列(仮想cDNA)を対象として設計されたものである。
【0170】
上記結果1ないし3で分かるように、本発明の方法で遺伝子データベースを作成すれば、全長cDNAクローンおよびESTクローンをプローブの作製に用いても、特異性が高いプローブ、特にマイクロアレイ用として好適なプローブ、およびプローブを得るためのプライマの作製を支援することができる。
【0171】
なお、上記結果1ないし3を利用したマイクロアレイの作製は、次のように行った。まず、遺伝子データベースに保存したプライマの塩基配列情報を用いて、プライマの実物を作製した。次に、その作製したプライマを用いて、ヒト筋cDNAライブラリから得たcDNAをテンプレートとしてPCRを行い、対応する遺伝子断片を得た。さらに、クローン化とシークエンスとによって、目的とするプローブ候補配列であると確認されたクローンを集積した。さらに、これらクローンをテンプレートにしてcDNAを増幅し、その増幅したcDNAを用いてcDNAマイクロアレイを作製した。
【0172】
これまでに、筋ジストロフィーに共通の病態像を特徴づける遺伝子発現プロフィールを明らかにするには、cDNAマイクロアレイによる遺伝子発現の網羅的解析が有効であることが分かっている。しかしながら、これまでにヒト筋に発現する遺伝子を集めたマイクロアレイはなく問題となっていた。また、マイクロアレイには、相同な遺伝子とクロスハイブリダイゼイションが発生するという問題点もあった。
【0173】
本発明を利用して作製したcDNAマイクロアレイは、クロスハイブリダイゼイションが少ないためバックグラウンドが低く、また再現性も高かった。このように、本発明によって、分野別のマイクロアレイ、例えば、本実施例で作製したような筋発現遺伝子の解析に有効なマイクロアレイを作製することが可能となる。さらに、本発明によって信頼度の高い遺伝子産物発現の解析が実現すると、オーダーメイド医療の基盤的技術を提供することができ、新しい治療法の確立も可能となる。
【0174】
【発明の効果】
本発明の遺伝子データベース作成方法は、以上のように、塩基配列を格納した第1の遺伝子データベースから、1つの塩基配列を選択配列として選択し、当該選択配列の一部を候補配列として決定する候補配列決定ステップと、上記候補配列と、第2の遺伝子データベース内に格納されている塩基配列であって当該選択配列以外の塩基配列との相同性を検索する相同性検索ステップと、上記相同性検索ステップでの相同性検索の結果に基づき、上記候補配列の相同性の有無を判定する相同性判定ステップと、上記相同性判定ステップによって相同性なしと判定されたとき、その判定を受けた候補配列を増幅するための増幅用配列を、当該候補配列を含む選択配列と対応づけて、上記第1の遺伝子データベースに保存する増幅用配列保存ステップと、を含むという方法である。
【0175】
その結果、特異性が高いプローブ、特にマイクロアレイ用として好適なプローブ、およびそのようなプローブを得るためのプライマを作製するための遺伝子データベースの作成方法を提供することができるという効果を奏する。
【0176】
また、本発明の遺伝子データベース作成方法は、塩基配列を格納した遺伝子データベースから、1つの塩基配列を選択配列として選択し、当該選択配列の一部を候補配列として決定する候補配列決定ステップと、上記候補配列と、上記遺伝子データベース内に格納されている塩基配列であって当該選択配列以外の塩基配列との相同性を検索する相同性検索ステップと、上記相同性検索ステップでの相同性検索の結果に基づき、上記候補配列の相同性の有無を判定する相同性判定ステップと、上記相同性判定ステップによって相同性なしと判定されたとき、その判定を受けた候補配列を増幅するための増幅用配列を、当該候補配列を含む選択配列と対応づけて、上記遺伝子データベースに保存する増幅用配列保存ステップと、を含むという方法である。
【0177】
それゆえ、特異性が高いプローブ、特にマイクロアレイ用として好適なプローブ、およびそのようなプローブを得るためのプライマを作製するための遺伝子データベースの作成方法を提供することができるという効果を奏する。
【0178】
また、本発明の遺伝子データベース作成方法は、上記方法に加えて、上記塩基配列には当該塩基配列を説明する注釈情報が対応づけられており、候補配列決定ステップの前に、上記注釈情報に基づいて、上記塩基配列をグループ化するグループ化ステップと、上記グループ化ステップで得られたグループごとに、グループを代表する塩基配列であるグループ代表塩基配列を決定する代表配列決定ステップとを含み、上記候補配列決定ステップでは、グループ代表塩基配列から選択配列を選択し、上記相同性検索ステップでは、候補配列と、当該候補配列の決定に用いた選択配列が属するグループとは別のグループのグループ代表塩基配列との相同性を検索するという方法である。
【0179】
それゆえ、上記効果に加えて、特異性が高いプローブを備えたマイクロアレイの作製を可能とする遺伝子データベースを、迅速に作成することができるという効果を奏する。
【0180】
また、本発明の遺伝子データベース作成方法は、上記方法に加えて、上記代表配列決定ステップにおいてグループ代表塩基配列を決定する際に、グループ内のいずれの塩基配列もグループ代表塩基配列となるための条件を満たしていない場合、グループ内の塩基配列を加工して、仮想塩基配列を作成する仮想配列作成ステップをさらに含むという方法である。
【0181】
それゆえ、上記効果に加えて、プローブ作製、特にマイクロアレイのプローブ作製のための塩基配列の効率よい取得を可能にする遺伝子データベースの作成方法を提供することができるという効果を奏する。
【0182】
また、本発明の遺伝子データベース作成方法は、上記方法に加えて、選択配列から候補配列を決定する際、候補配列として不適当な塩基配列であるマスク配列を、選択配列から除くマスクステップをさらに含むという方法である。
【0183】
それゆえ、上記効果に加えて、解析対象に合致した、性能のよいプローブを備えたマイクロアレイの作製を可能とする遺伝子データベースの作成方法を提供することができるという効果を奏する。
【0184】
また、本発明の遺伝子データベース作成装置は、上記遺伝子データベース作成方法を実行することによって、プローブおよび/またはプライマの設計を支援するという構成である。
【0185】
それゆえ、特異性が高いプローブ、特にマイクロアレイ用として好適なプローブ、およびプローブを得るためのプライマを作製することができるという効果を奏する。
【0186】
また、本発明の遺伝子データベース作成装置は、上記遺伝子データベース作成方法を実行することによって、マイクロアレイの設計を支援するという構成である。
【0187】
それゆえ、信頼性が高い解析データを得ることが可能なマイクロアレイを作製することができるという効果を奏する。
【0188】
また、本発明の遺伝子データベース作成プログラムは、上記遺伝子データベース作成方法をコンピュータに実行させるためのプログラムである。
【0189】
また、本発明の記録媒体は、上記遺伝子データベース作成方法をコンピュータに実行させるための遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体という構成である。
【0190】
それゆえ、上記した遺伝子データベース作成装置の効果である、特異性が高いプローブ、特にマイクロアレイ用として好適なプローブ、およびプローブを得るためのプライマと、信頼性が高い解析データを得ることが可能なマイクロアレイとを作製することができるという効果を奏する。
【図面の簡単な説明】
【図1】図3に示した遺伝子データベース作成装置が備える遺伝子配列設計部の構成の概略を示す機能ブロック図である。
【図2】図3に示した遺伝子データベース作成装置による遺伝子データベース作成方法における情報収集工程およびプライマ設計工程を説明する模式図である。
【図3】本発明の一実施の形態に係る遺伝子データベース作成装置の構成の概略を示す機能ブロック図である。
【図4】図3に示した遺伝子データベース作成装置が備えるデータベース作成部の構成の概略を示す機能ブロック図である。
【図5】図3に示した遺伝子データベース作成装置による遺伝子データベース作成方法におけるグループ化を説明する模式図である。
【図6】図3に示した遺伝子データベース作成装置による遺伝子データベース作成方法で利用する遺伝子情報であって、GenBankより取得した遺伝子情報の例を示す図である。
【図7】図3に示した遺伝子データベース作成装置による遺伝子データベース作成方法で利用する遺伝子情報であって、Refseqより取得した遺伝子情報の例を示す図である。
【図8】図7に示すRefseqより取得した遺伝子情報の例の続きを示す図である。
【図9】図3に示した遺伝子データベース作成装置による遺伝子データベース作成方法で利用する遺伝子情報であって、UniGeneより取得した遺伝子情報の例を示す図である。
【図10】図3に示した遺伝子データベース作成装置による遺伝子データベース作成方法で利用する遺伝子情報であって、STACK−DBより取得した遺伝子情報の例を示す図である。
【図11】図3に示した遺伝子データベース作成装置による遺伝子データベース作成方法で利用する遺伝子情報であって、HGIより取得した遺伝子情報の例を示す図である。
【図12】図11に示すHGIより取得した遺伝子情報の例の続きを示す図である。
【図13】図12に示すHGIより取得した遺伝子情報の例の続きを示す図である。
【図14】図3に示した遺伝子データベース作成装置による遺伝子データベース作成方法で利用する遺伝子情報であって、EGADより取得した遺伝子情報の例を示す図である。
【図15】図3に示した遺伝子データベース作成装置による遺伝子データベース作成方法における、注釈情報に含まれているアクセッション番号に基づくグループ化を説明する模式図である。
【図16】図3に示した遺伝子データベース作成装置による遺伝子データベース作成方法によって、塩基配列の確認後、グループ代表塩基配列を決定して、グループID、インデックス、代表配列などの情報を遺伝子データベースに保存したことを示す図である。
【図17】図3に示した遺伝子データベース作成装置による遺伝子データベース作成方法における、配列IDと塩基配列と塩基数との対応づけを示す図である。
【図18】図3に示した遺伝子データベース作成装置による遺伝子データベース作成方法によって取得可能な遺伝子データベースの構造を示す図である。
【符号の説明】
1 遺伝子データベース作成システム
2 遺伝子データベース作成装置
3 データベース作成部
4 遺伝子配列設計部
7 外部記憶装置
8 入力装置
9 コンピュータ
10 遺伝子データベース(第1の遺伝子データベース)
21 生情報取得部
22 検索抽出部
23 HTML取得部
24 整形部
25 インデックス作成グループ化部
26 アセンブル部
31 マスク部
32 プライマ・プローブ設計部
33 プライマ設計用条件入力部
34 相同性検索部
35 採択保存部
36 繰り返し配列データベース
37 不要配列データベース

Claims (9)

  1. 塩基配列を格納した第1の遺伝子データベースから、1つの塩基配列を選択配列として選択し、当該選択配列の一部を候補配列として決定する候補配列決定ステップと、
    上記候補配列と、第2の遺伝子データベース内に格納されている塩基配列であって当該選択配列以外の塩基配列との相同性を検索する相同性検索ステップと、上記相同性検索ステップでの相同性検索の結果に基づき、上記候補配列の相同性の有無を判定する相同性判定ステップと、
    上記相同性判定ステップによって相同性なしと判定されたとき、その判定を受けた候補配列を増幅するための増幅用配列を、当該候補配列を含む選択配列と対応づけて、上記第1の遺伝子データベースに保存する増幅用配列保存ステップと、を含むことを特徴とする遺伝子データベース作成方法。
  2. 塩基配列を格納した遺伝子データベースから、1つの塩基配列を選択配列として選択し、当該選択配列の一部を候補配列として決定する候補配列決定ステップと、
    上記候補配列と、上記遺伝子データベース内に格納されている塩基配列であって当該選択配列以外の塩基配列との相同性を検索する相同性検索ステップと、
    上記相同性検索ステップでの相同性検索の結果に基づき、上記候補配列の相同性の有無を判定する相同性判定ステップと、
    上記相同性判定ステップによって相同性なしと判定されたとき、その判定を受けた候補配列を増幅するための増幅用配列を、当該候補配列を含む選択配列と対応づけて、上記遺伝子データベースに保存する増幅用配列保存ステップと、を含むことを特徴とする遺伝子データベース作成方法。
  3. 上記塩基配列には当該塩基配列を説明する注釈情報が対応づけられており、候補配列決定ステップの前に、上記注釈情報に基づいて、上記塩基配列をグループ化するグループ化ステップと、
    上記グループ化ステップで得られたグループごとに、グループを代表する塩基配列であるグループ代表塩基配列を決定する代表配列決定ステップとを含み、
    上記候補配列決定ステップでは、グループ代表塩基配列から選択配列を選択し、
    上記相同性検索ステップでは、候補配列と、当該候補配列の決定に用いた選択配列が属するグループとは別のグループのグループ代表塩基配列との相同性を検索することを特徴とする請求項1または2に記載の遺伝子データベース作成方法。
  4. 上記代表配列決定ステップにおいてグループ代表塩基配列を決定する際に、グループ内のいずれの塩基配列もグループ代表塩基配列となるための条件を満たしていない場合、グループ内の塩基配列を加工して、仮想塩基配列を作成する仮想配列作成ステップをさらに含むことを特徴とする請求項3に記載の遺伝子データベース作成方法。
  5. 選択配列から候補配列を決定する際、候補配列として不適当な塩基配列であるマスク配列を、選択配列から除くマスクステップをさらに含むことを特徴とする請求項1から4のいずれか1項に記載の遺伝子データベース作成方法。
  6. 請求項1から5のいずれか1項に記載の遺伝子データベース作成方法を実行することによって、プローブおよび/またはプライマの設計を支援することを特徴とする遺伝子データベース作成装置。
  7. 請求項1から5のいずれか1項に記載の遺伝子データベース作成方法を実行することによって、マイクロアレイの設計を支援することを特徴とする遺伝子データベース作成装置。
  8. 請求項1から5のいずれか1項に記載の遺伝子データベース作成方法をコンピュータに実行させるための遺伝子データベース作成プログラム。
  9. 請求項1から5のいずれか1項に記載の遺伝子データベース作成方法をコンピュータに実行させるための遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2002168894A 2002-04-24 2002-06-10 遺伝子データベース作成方法、遺伝子データベース作成装置、遺伝子データベース作成プログラム、および遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体 Pending JP2004005319A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002168894A JP2004005319A (ja) 2002-04-24 2002-06-10 遺伝子データベース作成方法、遺伝子データベース作成装置、遺伝子データベース作成プログラム、および遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002123176 2002-04-24
JP2002168894A JP2004005319A (ja) 2002-04-24 2002-06-10 遺伝子データベース作成方法、遺伝子データベース作成装置、遺伝子データベース作成プログラム、および遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2004005319A true JP2004005319A (ja) 2004-01-08

Family

ID=30447398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002168894A Pending JP2004005319A (ja) 2002-04-24 2002-06-10 遺伝子データベース作成方法、遺伝子データベース作成装置、遺伝子データベース作成プログラム、および遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2004005319A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1950222A1 (de) * 2007-01-26 2008-07-30 GA Generic Assays GmbH Verfahren zum Nachweis von Antikörpern aus Körperflüssigkeiten durch eine Immunreaktion mit Glykoprotein 2 (GP2) aus zymogenen Granula des Pankreas zur Differentialdiagnose von entzündlichen Darmerkrankungen und chronischer Pankreatitis
WO2008089756A2 (de) * 2007-01-26 2008-07-31 Ga Generic Assays Gmbh Verfahren zum nachweis von antikörpern aus körperflüssigkeiten durch eine immunreaktion mit glykoprotein 2 (gp2) aus zymogenen granula des pankreas zur differentialdiagnose von entzündlichen darmerkrankungen und chronischer pankreatitis
JP2010157231A (ja) * 2008-12-30 2010-07-15 Samsung Electronics Co Ltd 個人ゲノム統合管理方法及び装置
JP2012146066A (ja) * 2011-01-11 2012-08-02 Nippon Software Management Kk 核酸情報処理装置およびその処理方法
JP5079694B2 (ja) * 2006-07-04 2012-11-21 株式会社島津製作所 核酸増幅用プライマー設計装置、プライマー設計プログラム、及びプライマー設計サーバ装置
JP2014525080A (ja) * 2011-07-05 2014-09-25 コーニンクレッカ フィリップス エヌ ヴェ バイオインフォマティクス文字セット及びマップされたバイオインフォマティクスフォントを用いたゲノム/プロテオミクス配列の表現、視覚化、比較及びレポーティング

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5079694B2 (ja) * 2006-07-04 2012-11-21 株式会社島津製作所 核酸増幅用プライマー設計装置、プライマー設計プログラム、及びプライマー設計サーバ装置
EP1950222A1 (de) * 2007-01-26 2008-07-30 GA Generic Assays GmbH Verfahren zum Nachweis von Antikörpern aus Körperflüssigkeiten durch eine Immunreaktion mit Glykoprotein 2 (GP2) aus zymogenen Granula des Pankreas zur Differentialdiagnose von entzündlichen Darmerkrankungen und chronischer Pankreatitis
WO2008089756A2 (de) * 2007-01-26 2008-07-31 Ga Generic Assays Gmbh Verfahren zum nachweis von antikörpern aus körperflüssigkeiten durch eine immunreaktion mit glykoprotein 2 (gp2) aus zymogenen granula des pankreas zur differentialdiagnose von entzündlichen darmerkrankungen und chronischer pankreatitis
WO2008089756A3 (de) * 2007-01-26 2008-10-16 Ga Generic Assays Gmbh Verfahren zum nachweis von antikörpern aus körperflüssigkeiten durch eine immunreaktion mit glykoprotein 2 (gp2) aus zymogenen granula des pankreas zur differentialdiagnose von entzündlichen darmerkrankungen und chronischer pankreatitis
US8058019B2 (en) 2007-01-26 2011-11-15 Ga Generic Assays Gmbh Method for assaying antibodies in body fluids by immune reaction with glycoprotein 2 (GP2) from zymogenic granules of the pancreas for the differential diagnosis of inflammatory intestinal diseases and chronic pancreatitis
JP2010157231A (ja) * 2008-12-30 2010-07-15 Samsung Electronics Co Ltd 個人ゲノム統合管理方法及び装置
JP2012146066A (ja) * 2011-01-11 2012-08-02 Nippon Software Management Kk 核酸情報処理装置およびその処理方法
JP2014525080A (ja) * 2011-07-05 2014-09-25 コーニンクレッカ フィリップス エヌ ヴェ バイオインフォマティクス文字セット及びマップされたバイオインフォマティクスフォントを用いたゲノム/プロテオミクス配列の表現、視覚化、比較及びレポーティング

Similar Documents

Publication Publication Date Title
US11814678B2 (en) Universal short adapters for indexing of polynucleotide samples
US11788139B2 (en) Optimal index sequences for multiplex massively parallel sequencing
Marchant et al. The C-Fern (Ceratopteris richardii) genome: insights into plant genome evolution with the first partial homosporous fern genome assembly
US20210269874A1 (en) Sequence assembly
JP7051900B2 (ja) 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム
Tsai et al. RESOURCERER: a database for annotating and linking microarray resources within and across species
Yang et al. Normalization for cDNA microarray data: a robust composite method addressing single and multiple slide systematic variation
JPH11501741A (ja) 微生物学的データを保存し解析するコンピュータシステム
Aury et al. Long-read and chromosome-scale assembly of the hexaploid wheat genome achieves high resolution for research and breeding
Schreiber et al. Transcriptome-scale homoeolog-specific transcript assemblies of bread wheat
US8725418B2 (en) Data mining of SNP databases for the selection of intragenic SNPs
WO2009155443A2 (en) Method and apparatus for sequencing data samples
US20020029113A1 (en) Method and system for predicting splice variant from DNA chip expression data
JP2004005319A (ja) 遺伝子データベース作成方法、遺伝子データベース作成装置、遺伝子データベース作成プログラム、および遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体
Meera et al. Leaf tissue specific transcriptome sequence and de novo assembly datasets of Asiatic mangrove Rhizophora mucronata Lam.
CN105224824A (zh) 基于宏基因组学的鸭坦布苏病毒非诊断性检测方法
Lockhart et al. DNA arrays and gene expression analysis in the brain
TW201920682A (zh) 多型之檢測方法
KR100474840B1 (ko) 디렉토리를 이용한 유전자 분석용 마이크로어레이 탐침설계 방법 및 시스템
Grigoryev et al. Exon-based mapping of microarray probes: recovering differential gene expression signal in underpowered hypoxia experiment
Marazzi et al. Transcriptome dataset for RNA-seq analysis of axolotl embryonic oropharyngeal endoderm explants
Shmakov Improving the quality of barley transcriptome de novo assembling by using a hybrid approach for lines with varying spike and stem coloration
Marth Computational SNP discovery in DNA sequence data
Díaz et al. Phylogenomic study and classification of mitochondrial DNA through virtual genomic fingerprints
Vita et al. De novo transcriptome assembly of the Italian white truffle (Tuber magnatum Pico)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20020610

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20020723

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20020626

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20020723

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20031031

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20031210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040426

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041124

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050124

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050124

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050127

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050218

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080328