JP5247009B2 - 配列抽出装置、配列抽出方法、プログラムおよび記録媒体 - Google Patents

配列抽出装置、配列抽出方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP5247009B2
JP5247009B2 JP2006168100A JP2006168100A JP5247009B2 JP 5247009 B2 JP5247009 B2 JP 5247009B2 JP 2006168100 A JP2006168100 A JP 2006168100A JP 2006168100 A JP2006168100 A JP 2006168100A JP 5247009 B2 JP5247009 B2 JP 5247009B2
Authority
JP
Japan
Prior art keywords
sequence
information
predetermined length
comparison
appearance frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006168100A
Other languages
English (en)
Other versions
JP2007334769A (ja
Inventor
義治 山本
裕之 市田
知子 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RIKEN Institute of Physical and Chemical Research
Original Assignee
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RIKEN Institute of Physical and Chemical Research filed Critical RIKEN Institute of Physical and Chemical Research
Priority to JP2006168100A priority Critical patent/JP5247009B2/ja
Publication of JP2007334769A publication Critical patent/JP2007334769A/ja
Application granted granted Critical
Publication of JP5247009B2 publication Critical patent/JP5247009B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、配列抽出装置、配列抽出方法、プログラムおよび記録媒体に関するものである。
ゲノム情報から遺伝子構造やプロモーター構造や転写制御様式などを推測することは、ポストゲノム研究の大きな課題であり、ヒト遺伝病の理解や、動植物遺伝子のゲノム配列からの予測、未知遺伝子の機能予測などに直結する。遺伝子構造やプロモーター構造に関する情報は、ヒト遺伝病やSNPの解釈、動植物遺伝子のマイニング、有用なプロモーター合成などに利用される。
プロモーター構造を予測するには、プロモーターの構成因子やプロモーターの特徴を理解することが必要である。しかし、これまでの知見では、プロモーターを構成する塩基配列についてのものは極めて乏しかった。このことは、現在知られている転写制御配列が非常に限られたものであったことが一因である。
ここで、コンピュータを用いてプロモーターから転写制御配列を抽出するには、非特許文献1や、非特許文献2および非特許文献3や、非特許文献4および非特許文献5で開示されている方法などがこれまで用いられている。非特許文献1には、マイクロアレイの結果から共発現している遺伝子プロモーターのグループにおいて頻出する短い配列を抽出する方法が開示されている。非特許文献2および非特許文献3には、特定の転写因子が結合しているDNA断片を多数同定し、それらに頻出する短い配列を抽出する方法が開示されている。非特許文献4および非特許文献5には、異なるゲノム間での比較を行い、プロモーター上においてよく保存されている短い配列を検出する方法が開示されている。
また、非特許文献6で開示されているGibbs Sampler法や非特許文献7に開示されているMEME法などの方法も用いられている。これら方法はいずれも、与えられた配列セットの中に共通に出現するモチーフを抽出するものである。具体的には、これら方法では、与えられた配列の中に出現する配列の類似度を評価して、与えられた配列セットの多くに保存されている配列を「機能性モチーフ候補」として抽出する。ただし、与えられた配列セットの中での保存性が、候補を絞り込む指標となっているので、この配列セット中の各配列は互いに機能的に類似したものであることが必須である。
また、最近では、いくつかの転写制御配列に関して、それらがプロモーター上の特定の位置に頻出するという報告がなされている(非特許文献8や非特許文献9など参照)。
Roth et al.,「Finding DNA regulatory motifs within unaligned noncoding sequences clustered by whole−genome mRNA quantitation」,Nature Biotechnology,16,939−945,1998 Ren et al.,「Genome−wide location and function of DNA binding proteins」,Science,290,2306−2309,2000 Lieb et al.,「Promoter−specific binding of Rap1 revealed by genome−wide maps of protein−DNA association」,Nature Genetics,28,327−334,2001 Manson McGuire and Church,「Predicting regulons and their cis−regulatory motifs by comparative genomics」,Nucleic Acids Research,28,4523−4530,2000 Kellis et al.,「Sequencing and comparison of yeast species to identify genes and regulatory elements」,Nature,423,241−254,2003 Lawrence et al.,「Detecting subtle sequence signals:a Gibbs sampling strategy for multipie alignment」,Science,262,208−214,1993 Bailey et al.,「The value of prior knowledge in discovering motiefs with MEME」,Proc Int Conf Intell Syst Mol Biol,3,21−29,1995 Ohler et al.,「Computational analysis of core promoters in the Drosophila genome」,Genome Biology,3,RESEARCH0087,2002 Elkon et al.,「Genome−wide in siloco identification of transcriptional regulators controlling the cell cycle in human cells」,Genome Research,13,773−780,2003
しかしながら、非特許文献1、非特許文献2および非特許文献3に記載の方法によれば、共発現しているグループや特定の転写因子が結合するDNA断片のグループを実験的に同定する必要があるので、実験上可能な限られた数のグループについてしか同定することができないという問題点があった。
また、非特許文献4および非特許文献5に記載の方法によれば、近縁種数種類のゲノムだけを比較しているので、検出した配列中に擬陽性の配列を含む可能性があり、その結果、擬陽性の配列を排除して正確に配列を検出するためには、他の方法と併用する必要があるという問題点があった。
また、非特許文献6および非特許文献7に記載の方法によれば、実際にモチーフを抽出するのに、例えばマイクロアレイで共発現する遺伝子を絞り込み、その結果を基にして配列を選択することで配列セットを準備するという事前の作業が必要になるので、コンピュータ解析だけでモチーフを抽出することができないという問題点があった。すなわち、非特許文献6および非特許文献7に記載の方法によれば、実際にモチーフを抽出するのに、遺伝子の機能や分類についての情報を別の方法で事前に取得しておく必要があるので、コンピュータ解析だけでモチーフを抽出することができないという問題点があった。
本発明は上記問題点に鑑みてなされたもので、入力データの制限を受けずに、コンピュータ解析だけで、特定の場所(位置)に局在する配列を効率よく且つ効果的に抽出することができる配列抽出装置、配列抽出方法、プログラムおよび記録媒体を提供することを目的とする。
上記目的を達成するために、本発明にかかる配列抽出装置は、塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および前記配列であって前記所定長配列の比較対象となる前記所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得する取得手段と、前記取得手段で取得した前記所定長配列情報および複数の前記比較配列情報に基づいて、前記比較配列ごとに、前記所定長配列が当該比較配列中に出現する位置である出現位置を検索する検索手段と、前記検索手段で検索した前記出現位置に関する出現位置情報に基づいて、前記比較配列中の前記位置ごとに、当該位置で前記所定長配列が出現する頻度である出現頻度を算出する算出手段と、前記算出手段で算出した前記出現頻度に関する出現頻度情報および閾値に関する予め設定した閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値との大小関係を比較する比較手段と、を備えたことを特徴とする。
また、本発明にかかる配列抽出装置は、前記の配列抽出装置において、前記検索手段は、前記所定長配列を前記比較配列中で移動する移動手段と、前記移動手段で移動した前記位置において、前記所定長配列とこれに対応する前記比較配列の部分とが完全に又は部分的に一致するか否かを判定する判定手段と、前記判定手段での判定結果が完全に又は部分的に一致するというものであった場合、前記移動した前記位置を前記出現位置として決定する決定手段と、をさらに備え、前記移動手段、前記判定手段および前記決定手段を繰り返し実行することを特徴とする。
また、本発明にかかる配列抽出装置は、前記の配列抽出装置において、前記出現頻度情報に基づいて前記閾値情報を設定する設定手段をさらに備え、前記比較手段は、前記出現頻度情報および前記設定手段で設定した前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較することを特徴とする。また、本発明にかかる配列抽出装置は、前記の配列抽出装置において、前記設定手段は、前記出現頻度の極大値が全体の前記出現頻度から算出した標準偏差の1以上の実数倍以上であるという条件が満たされる場合において、前記極大値が前記閾値の1以上の実数倍以上であり且つ2つの領域の面積の比が1以上の実数倍以上または1以下の実数倍以下であるという条件を満たす前記閾値を設定し、前記2つの領域は、前記出現頻度を縦軸とし前記位置を横軸とするグラフにおいて、前記出現頻度の極小値に対応する前記位置で挟まれた領域を前記閾値を表す直線で仕切ることで形成されたものであり、前記極小値に対応する前記位置は、前記極大値に対応する前記位置から最も近く且つ当該位置の両側に存在するものであること、を特徴とする。
また、本発明にかかる配列抽出装置は、前記の配列抽出装置において、前記出現頻度情報を表示する表示手段をさらに備え、前記設定手段は、前記表示手段で表示した前記出現頻度情報について前記閾値情報を設定させ、前記比較手段は、前記設定手段で前記閾値情報が設定された場合、前記出現頻度情報および前記設定された前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較することを特徴とする。
また、本発明にかかる配列抽出装置は、前記の配列抽出装置において、前記取得手段で取得した前記所定長配列情報に基づいて、前記所定長配列と同じ長さで且つそれを構成する前記塩基または前記アミノ酸が前記所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成する生成手段をさらに備え、前記生成手段で生成した前記同一長異種配列情報について、少なくとも前記検索手段、前記算出手段および前記比較手段を実行することを特徴とする。
また、本発明は配列抽出方法に関するものであり、本発明にかかる配列抽出方法は、塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および前記配列であって前記所定長配列の比較対象となる前記所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得する取得ステップと、前記取得ステップで取得した前記所定長配列情報および複数の前記比較配列情報に基づいて、前記比較配列ごとに、前記所定長配列が当該比較配列中に出現する位置である出現位置を検索する検索ステップと、前記検索ステップで検索した前記出現位置に関する出現位置情報に基づいて、前記比較配列中の前記位置ごとに、当該位置で前記所定長配列が出現する頻度である出現頻度を算出する算出ステップと、前記算出ステップで算出した前記出現頻度に関する出現頻度情報および閾値に関する予め設定した閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値との大小関係を比較する比較ステップと、を含むことを特徴とする。
また、本発明にかかる配列抽出方法は、前記の配列抽出方法において、前記検索ステップは、前記所定長配列を前記比較配列中で移動する移動ステップと、前記移動ステップで移動した前記位置において、前記所定長配列とこれに対応する前記比較配列の部分とが完全に又は部分的に一致するか否かを判定する判定ステップと、前記判定ステップでの判定結果が完全に又は部分的に一致するというものであった場合、前記移動した前記位置を前記出現位置として決定する決定ステップと、をさらに含み、前記移動ステップ、前記判定ステップおよび前記決定ステップを繰り返し実行することを特徴とする。
また、本発明にかかる配列抽出方法は、前記の配列抽出方法において、前記出現頻度情報に基づいて前記閾値情報を設定する設定ステップをさらに含み、前記比較ステップは、前記出現頻度情報および前記設定ステップで設定した前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較することを特徴とする。また、本発明にかかる配列抽出方法は、前記の配列抽出方法において、前記設定ステップは、前記出現頻度の極大値が全体の前記出現頻度から算出した標準偏差の1以上の実数倍以上であるという条件が満たされる場合において、前記極大値が前記閾値の1以上の実数倍以上であり且つ2つの領域の面積の比が1以上の実数倍以上または1以下の実数倍以下であるという条件を満たす前記閾値を設定し、前記2つの領域は、前記出現頻度を縦軸とし前記位置を横軸とするグラフにおいて、前記出現頻度の極小値に対応する前記位置で挟まれた領域を前記閾値を表す直線で仕切ることで形成されたものであり、前記極小値に対応する前記位置は、前記極大値に対応する前記位置から最も近く且つ当該位置の両側に存在するものであること、を特徴とする。
また、本発明にかかる配列抽出方法は、前記の配列抽出方法において、前記出現頻度情報を表示する表示ステップをさらに含み、前記設定ステップは、前記表示ステップで表示した前記出現頻度情報について前記閾値情報を設定させ、前記比較ステップは、前記設定ステップで前記閾値情報が設定された場合、前記出現頻度情報および前記設定された前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較することを特徴とする。
また、本発明にかかる配列抽出方法は、前記の配列抽出方法において、前記取得ステップで取得した前記所定長配列情報に基づいて、前記所定長配列と同じ長さで且つそれを構成する前記塩基または前記アミノ酸が前記所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成する生成ステップをさらに含み、前記生成ステップで生成した前記同一長異種配列情報について、少なくとも前記検索ステップ、前記算出ステップおよび前記比較ステップを実行することを特徴とする。
また、本発明はプログラムに関するものであり、本発明にかかるプログラムは、塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および前記配列であって前記所定長配列の比較対象となる前記所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得する取得ステップと、前記取得ステップで取得した前記所定長配列情報および複数の前記比較配列情報に基づいて、前記比較配列ごとに、前記所定長配列が当該比較配列中に出現する位置である出現位置を検索する検索ステップと、前記検索ステップで検索した前記出現位置に関する出現位置情報に基づいて、前記比較配列中の前記位置ごとに、当該位置で前記所定長配列が出現する頻度である出現頻度を算出する算出ステップと、前記算出ステップで算出した前記出現頻度に関する出現頻度情報および閾値に関する予め設定した閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値との大小関係を比較する比較ステップと、を含む配列抽出方法をコンピュータに実行させることを特徴とする。
また、本発明にかかるプログラムは、前記のプログラムにおいて、前記検索ステップは、前記所定長配列を前記比較配列中で移動する移動ステップと、前記移動ステップで移動した前記位置において、前記所定長配列とこれに対応する前記比較配列の部分とが完全に又は部分的に一致するか否かを判定する判定ステップと、前記判定ステップでの判定結果が完全に又は部分的に一致するというものであった場合、前記移動した前記位置を前記出現位置として決定する決定ステップと、をさらに含み、前記移動ステップ、前記判定ステップおよび前記決定ステップを繰り返し実行することを特徴とする。
また、本発明にかかるプログラムは、前記のプログラムにおいて、前記出現頻度情報に基づいて前記閾値情報を設定する設定ステップをさらに含み、前記比較ステップは、前記出現頻度情報および前記設定ステップで設定した前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較することを特徴とする。また、本発明にかかるプログラムは、前記のプログラムにおいて、前記設定ステップは、前記出現頻度の極大値が全体の前記出現頻度から算出した標準偏差の1以上の実数倍以上であるという条件が満たされる場合において、前記極大値が前記閾値の1以上の実数倍以上であり且つ2つの領域の面積の比が1以上の実数倍以上または1以下の実数倍以下であるという条件を満たす前記閾値を設定し、前記2つの領域は、前記出現頻度を縦軸とし前記位置を横軸とするグラフにおいて、前記出現頻度の極小値に対応する前記位置で挟まれた領域を前記閾値を表す直線で仕切ることで形成されたものであり、前記極小値に対応する前記位置は、前記極大値に対応する前記位置から最も近く且つ当該位置の両側に存在するものであること、を特徴とする。
また、本発明にかかるプログラムは、前記のプログラムにおいて、前記出現頻度情報を表示する表示ステップをさらに含み、前記設定ステップは、前記表示ステップで表示した前記出現頻度情報について前記閾値情報を設定させ、前記比較ステップは、前記設定ステップで前記閾値情報が設定された場合、前記出現頻度情報および前記設定された前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較することを特徴とする。
また、本発明にかかるプログラムは、前記のプログラムにおいて、前記取得ステップで取得した前記所定長配列情報に基づいて、前記所定長配列と同じ長さで且つそれを構成する前記塩基または前記アミノ酸が前記所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成する生成ステップをさらに含み、前記生成ステップで生成した前記同一長異種配列情報について、少なくとも前記検索ステップ、前記算出ステップおよび前記比較ステップを実行することを特徴とする。
また、本発明は記録媒体に関するものであり、本発明にかかるコンピュータ読み取り可能な記録媒体は、前記のいずれか1つのプログラムを記録したことを特徴とする。
本発明にかかる配列抽出装置よれば、塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および配列であって所定長配列の比較対象となる所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得し、取得した所定長配列情報および複数の比較配列情報に基づいて、比較配列ごとに、所定長配列が当該比較配列中に出現する位置である出現位置を検索し、検索した出現位置に関する出現位置情報に基づいて、比較配列中の位置ごとに、当該位置で所定長配列が出現する頻度である出現頻度を算出し、算出した出現頻度に関する出現頻度情報および閾値に関する予め設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較するので、入力データの制限を受けずに、コンピュータ解析だけで、特定の場所(位置)に局在する配列を効率よく且つ効果的に抽出することができるという効果を奏する。また、本発明にかかる配列抽出装置よれば、所定長配列が出現する場所に注目し、特定の場所に局在することを指標とすることで、機能性配列の候補を効率よく且つ効果的に抽出することができるという効果を奏する。これにより、入力データである複数の比較配列情報は互いに機能的に関連性を持っている必要が無く、その結果、本発明では、従来のように入力データを事前に実験などで取得しておく必要は無い。つまり、本発明にかかる配列抽出装置よれば、所定長配列情報および複数の比較配列情報に関するテキストデータのみで、機能性配列の候補を効率よく且つ効果的に抽出することができるという効果を奏する。
本発明にかかる配列抽出装置よれば、出現位置の検索において、所定長配列を比較配列中で移動し、移動した位置において、所定長配列とこれに対応する比較配列の部分とが完全に又は部分的に一致するか否かを判定し、その判定結果が完全に又は部分的に一致するというものであった場合、移動した位置を出現位置として決定し、所定長配列の移動、一致の判定および出現位置の決定を繰り返し実行するので、出現位置の検索を、複雑なアルゴリズムを用いず簡単に行うことができるという効果を奏する。
本発明にかかる配列抽出装置よれば、出現頻度情報に基づいて閾値情報を設定し、出現頻度情報および設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較するので、入力データ(所定長配列情報および比較配列情報)に対応した最適な閾値を設定することができ、結果的に出現頻度と閾値との比較結果の精度を高めることができるという効果を奏する。
本発明にかかる配列抽出装置よれば、出現頻度情報を表示し、表示した出現頻度情報について閾値情報を設定させ、閾値情報が設定された場合、出現頻度情報および設定された閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較するので、入力データ(所定長配列情報および比較配列情報)に対応した最適な閾値を利用者に設定させることができ、結果的に出現頻度と閾値との比較結果の精度を高めることができるという効果を奏する。
本発明にかかる配列抽出装置よれば、取得した所定長配列情報に基づいて、所定長配列と同じ長さで且つそれを構成する塩基またはアミノ酸が所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成し、生成した同一長異種配列情報について、少なくとも出現位置の検索、出現頻度の算出および出現頻度と閾値との比較を実行するので、所定長配列情報と共に同一長異種配列情報についても、コンピュータ解析だけで、特定の場所(位置)に局在する配列を効率よく且つ効果的に抽出することができるという効果を奏する。すなわち、所定長配列情報に基づいて生成され得る全ての配列情報について、特定の場所(位置)に局在する配列を網羅的に且つさらに効率よく抽出することができるという効果を奏する。
本発明にかかる配列抽出方法よれば、塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および配列であって所定長配列の比較対象となる所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得し、取得した所定長配列情報および複数の比較配列情報に基づいて、比較配列ごとに、所定長配列が当該比較配列中に出現する位置である出現位置を検索し、検索した出現位置に関する出現位置情報に基づいて、比較配列中の位置ごとに、当該位置で所定長配列が出現する頻度である出現頻度を算出し、算出した出現頻度に関する出現頻度情報および閾値に関する予め設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較するので、入力データの制限を受けずに、コンピュータ解析だけで、特定の場所(位置)に局在する配列を効率よく且つ効果的に抽出することができるという効果を奏する。また、本発明にかかる配列抽出方法よれば、所定長配列が出現する場所に注目し、特定の場所に局在することを指標とすることで、機能性配列の候補を効率よく且つ効果的に抽出することができるという効果を奏する。これにより、入力データである複数の比較配列情報は互いに機能的に関連性を持っている必要が無く、その結果、本発明では、従来のように入力データを事前に実験などで取得しておく必要は無い。つまり、本発明にかかる配列抽出方法よれば、所定長配列情報および複数の比較配列情報に関するテキストデータのみで、機能性配列の候補を効率よく且つ効果的に抽出することができるという効果を奏する。
本発明にかかる配列抽出方法よれば、出現位置の検索において、所定長配列を比較配列中で移動し、移動した位置において、所定長配列とこれに対応する比較配列の部分とが完全に又は部分的に一致するか否かを判定し、その判定結果が完全に又は部分的に一致するというものであった場合、移動した位置を出現位置として決定し、所定長配列の移動、一致の判定および出現位置の決定を繰り返し実行するので、出現位置の検索を、複雑なアルゴリズムを用いず簡単に行うことができるという効果を奏する。
本発明にかかる配列抽出方法よれば、出現頻度情報に基づいて閾値情報を設定し、出現頻度情報および設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較するので、入力データ(所定長配列情報および比較配列情報)に対応した最適な閾値を設定することができ、結果的に出現頻度と閾値との比較結果の精度を高めることができるという効果を奏する。
本発明にかかる配列抽出方法よれば、出現頻度情報を表示し、表示した出現頻度情報について閾値情報を設定させ、閾値情報が設定された場合、出現頻度情報および設定された閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較するので、入力データ(所定長配列情報および比較配列情報)に対応した最適な閾値を利用者に設定させることができ、結果的に出現頻度と閾値との比較結果の精度を高めることができるという効果を奏する。
本発明にかかる配列抽出方法よれば、取得した所定長配列情報に基づいて、所定長配列と同じ長さで且つそれを構成する塩基またはアミノ酸が所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成し、生成した同一長異種配列情報について、少なくとも出現位置の検索、出現頻度の算出および出現頻度と閾値との比較を実行するので、所定長配列情報と共に同一長異種配列情報についても、コンピュータ解析だけで、特定の場所(位置)に局在する配列を効率よく且つ効果的に抽出することができるという効果を奏する。すなわち、所定長配列情報に基づいて生成され得る全ての配列情報について、特定の場所(位置)に局在する配列を網羅的に且つさらに効率よく抽出することができるという効果を奏する。
本発明にかかるプログラムよれば、塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および配列であって所定長配列の比較対象となる所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得し、取得した所定長配列情報および複数の比較配列情報に基づいて、比較配列ごとに、所定長配列が当該比較配列中に出現する位置である出現位置を検索し、検索した出現位置に関する出現位置情報に基づいて、比較配列中の位置ごとに、当該位置で所定長配列が出現する頻度である出現頻度を算出し、算出した出現頻度に関する出現頻度情報および閾値に関する予め設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較するので、入力データの制限を受けずに、コンピュータ解析だけで、特定の場所(位置)に局在する配列を効率よく且つ効果的に抽出することができるという効果を奏する。また、本発明にかかるプログラムよれば、所定長配列が出現する場所に注目し、特定の場所に局在することを指標とすることで、機能性配列の候補を効率よく且つ効果的に抽出することができるという効果を奏する。これにより、入力データである複数の比較配列情報は互いに機能的に関連性を持っている必要が無く、その結果、本発明では、従来のように入力データを事前に実験などで取得しておく必要は無い。つまり、本発明にかかるプログラムよれば、所定長配列情報および複数の比較配列情報に関するテキストデータのみで、機能性配列の候補を効率よく且つ効果的に抽出することができるという効果を奏する。
本発明にかかるプログラムよれば、出現位置の検索において、所定長配列を比較配列中で移動し、移動した位置において、所定長配列とこれに対応する比較配列の部分とが完全に又は部分的に一致するか否かを判定し、その判定結果が完全に又は部分的に一致するというものであった場合、移動した位置を出現位置として決定し、所定長配列の移動、一致の判定および出現位置の決定を繰り返し実行するので、出現位置の検索を、複雑なアルゴリズムを用いず簡単に行うことができるという効果を奏する。
本発明にかかるプログラムよれば、出現頻度情報に基づいて閾値情報を設定し、出現頻度情報および設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較するので、入力データ(所定長配列情報および比較配列情報)に対応した最適な閾値を設定することができ、結果的に出現頻度と閾値との比較結果の精度を高めることができるという効果を奏する。
本発明にかかるプログラムよれば、出現頻度情報を表示し、表示した出現頻度情報について閾値情報を設定させ、閾値情報が設定された場合、出現頻度情報および設定された閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較するので、入力データ(所定長配列情報および比較配列情報)に対応した最適な閾値を利用者に設定させることができ、結果的に出現頻度と閾値との比較結果の精度を高めることができるという効果を奏する。
本発明にかかるプログラムよれば、取得した所定長配列情報に基づいて、所定長配列と同じ長さで且つそれを構成する塩基またはアミノ酸が所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成し、生成した同一長異種配列情報について、少なくとも出現位置の検索、出現頻度の算出および出現頻度と閾値との比較を実行するので、所定長配列情報と共に同一長異種配列情報についても、コンピュータ解析だけで、特定の場所(位置)に局在する配列を効率よく且つ効果的に抽出することができるという効果を奏する。すなわち、所定長配列情報に基づいて生成され得る全ての配列情報について、特定の場所(位置)に局在する配列を網羅的に且つさらに効率よく抽出することができるという効果を奏する。
本発明にかかる記録媒体によれば、コンピュータ読み取り可能なものであり、本発明にかかるプログラムを記録するので、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行させることによって本発明にかかるプログラムをコンピュータを利用して実現することができ、本発明にかかるプログラムと同様の効果を得ることができる。
以下に、本発明にかかる配列抽出装置、配列抽出方法、プログラムおよび記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、本実施の形態により本発明が限定されるものではない。
[本発明の概要]
まず、本発明の概要について図1を参照して説明する。図1は、本発明の基本原理を示す原理構成図である。
本発明は、「機能を持たない配列はランダムに分布する」ことを仮定することにより、任意の長さの配列の局在を指標として、機能を持った配列候補を抽出することを特徴とし、概略的に以下の基本的特徴を有する。
まず、本発明は、所定長配列情報および複数の比較配列情報を取得し、取得した所定長配列情報を所定長配列情報ファイルの所定の記憶領域に格納すると共に、取得した複数の比較配列情報を比較配列情報データベースの所定の記憶領域に格納する(ステップS−1)。なお、所定長配列情報は、塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する情報である。比較配列情報は、塩基またはアミノ酸で構成される配列であって所定長配列の比較対象となる所定の長さ以上の長さを有する比較配列に関する情報である。
つぎに、本発明は、ステップS−1で取得した所定長配列情報および複数の比較配列情報に基づいて、比較配列ごとに、所定長配列が当該比較配列中に出現する位置である出現位置を検索し、検索した出現位置に関する出現位置情報を出現位置情報ファイルの所定の記憶領域に格納する(ステップS−2)。
ここで、本発明は、ステップS−2において、以下の(1)から(4)の処理を、比較配列ごとに行ってもよい。
(1)所定長配列を比較配列中で、或る位置に移動する。
(2)(1)で移動した位置において、所定長配列とこれに対応する比較配列の部分とが完全に又は部分的に一致するか否かを判定する。
(3)(2)での判定結果が完全に又は部分的に一致するというものであった場合には、(1)で移動した位置を出現位置として決定する。
(4)(1)、(2)および(3)の処理を、比較配列中の全ての位置で網羅的に実行する。
なお、上述した(2)の処理においては、所定長配列とこれに対応する比較配列の部分とが完全に一致している場合に、これらが一致すると判定してもよく、また、所定長配列とこれに対応する比較配列の部分とが完全に一致していない場合であっても、これらの不一致の程度に応じて(例えば1つの塩基又は1つのアミノ酸の相違といった程度の不一致であれば)これらの配列が一致すると判定してもよい。具体的には、所定長配列および比較配列が塩基配列である場合、上述した(2)の処理においては、例えば「GACTC」で表される所定長配列を「GANTC」のような配列(Nは任意の塩基を表す。)に置き換え、この置き換えた配列とこれに対応する比較配列の部分とが完全に一致するか否かを判定してもよい。つまり、Nに対応する塩基以外の塩基が完全に一致するか否かを判定してもよい。
つぎに、本発明は、ステップS−2で検索した出現位置情報に基づいて、比較配列中の位置ごとに、当該位置で所定長配列が出現する頻度である出現頻度を算出し、算出した出現頻度に関する情報である出現頻度情報を出現頻度情報ファイルの所定の記憶領域に格納する(ステップS−3)。
つぎに、本発明は、ステップS−3で算出した出現頻度情報および閾値に関する予め設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較し、その比較結果に関する情報である比較結果情報を比較結果情報ファイルの所定の記憶領域に格納する(ステップS−4)。
ここで、本発明は、ステップS−3で算出した出現頻度情報に基づいて閾値情報を設定してもよい。具体的には、本発明は、閾値を、以下の(A)から(C)の条件を全て満たすようなものに設定してもよい。そして、本発明は、閾値情報を設定した場合、ステップS−4において、出現頻度情報および設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較してもよい。
(A)極大ピーク値(出現頻度の極大値)が閾値のN0倍以上である。N0は実数であり、例えば5などである。
(B)極大ピーク値が、全体の出現頻度から算出した標準偏差(SD)のN1倍以上である。N1は実数であり、例えば5などである。
(C)出現頻度を縦軸とし位置を横軸とするグラフにおいて、極大ピーク位置(極大ピーク値に対応する位置)から最も近くに存在する当該極大ピーク位置の両側の極小ピーク位置(極小ピーク値(出現頻度の極小値)に対応する位置)で挟まれた領域(出現頻度に関する領域)を閾値を表す直線で仕切ることで形成された2つの領域の面積の比が、N2以上または1/N2倍以下である。N2は実数であり、例えば5などである。
また、本発明は、ステップS−3で算出した出現頻度情報をモニタなどの出力装置に例えばグラフ(例えば出現頻度を縦軸とし位置を横軸とするグラフ(例えば折れ線グラフや棒グラフなど))などで表示し、表示した出現頻度情報について閾値情報を利用者に設定させてもよい。そして、本発明は、利用者により閾値情報が設定された場合、ステップS−4において、ステップS−3で算出した出現頻度情報および利用者により設定された閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較してもよい。
また、本発明は、ステップS−1で取得した所定長配列情報に基づいて、1つまたは複数の同一長異種配列情報を生成し、生成した同一長異種配列情報を所定長配列情報ファイル106aの所定の記憶領域に格納してもよい。そして、本発明は、1つまたは複数の同一長異種配列情報を生成した場合、生成した同一長異種配列情報について、少なくともステップS−2、ステップS−3およびステップS−4を実行してもよい。なお、同一長異種配列情報は、所定長配列と同じ長さで且つそれを構成する塩基またはアミノ酸が所定長配列と異なる同一長異種配列に関するものである。ここで、本明細書では、同一長異種配列情報を、所定長配列情報と区別せずに、所定長配列情報という場合がある。
[システム構成]
つぎに、本実施の形態にかかる配列抽出装置100の構成について、図2から図7を参照して説明する。図2は、配列抽出装置100の構成を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
配列抽出装置100は、当該配列抽出装置を統括的に制御するCPU(Central Processing Unit)等の制御部102と、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して当該配列抽出装置をネットワーク300に通信可能に接続する通信インターフェース部104と、各種のデータベースやテーブルやファイルなどを格納する記憶部106と、入力装置110や出力装置112に接続する入出力インターフェース部108と、で構成されており、これら各部は任意の通信路を介して通信可能に接続されている。
記憶部106は、ストレージ手段であり、例えば、RAM(Random Access Memory)やROM(Read Only Memory)等のメモリ装置や、HD(Hard Disk:ハードディスク)のような固定ディスク装置や、フレキシブルディスクや、光ディスク等を用いることができる。そして、記憶部106は、図示の如く、所定長配列情報ファイル106aと、比較配列情報データベース106bと、出現位置情報ファイル106cと、出現頻度情報ファイル106dと、比較結果情報ファイル106eと、を格納する。なお、記憶部106は、各種のファイル(所定長配列情報ファイル106a〜比較結果情報ファイル106e)を格納する他、制御部102で実行する各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
所定長配列情報ファイル106aは複数の所定長配列情報(同一長異種配列情報を含む)を格納する。ここで、所定長配列情報ファイル106aに格納される情報について図3を参照して説明する。図3は、所定長配列情報ファイル106aに格納される情報の一例を示す図である。図3に示すように、所定長配列情報ファイル106aは、所定長配列を一意に識別するための所定長配列識別情報(例えば番号やIDなど)と所定長配列情報とを相互に関連付けて格納する。なお、例えば図3に示すように所定長配列が塩基配列でありその長さが6である場合、同一長異種配列情報も含めた所定長配列情報の数の最大値は、4種類の塩基(A、G、C、T)を6個並べた際の順列の総数と一致し、4096(=46)である。
図2に戻り、比較配列情報データベース106bは複数の比較配列情報を格納する。ここで、比較配列情報データベース106bに格納される情報について図4を参照して説明する。図4は、比較配列情報データベース106bに格納される情報の一例を示す図である。図4に示すように、比較配列情報データベース106bは、比較配列を一意に識別するための比較配列識別情報(例えば番号やIDなど)と比較配列情報とを相互に関連付けて格納する。なお、比較配列情報データベース106bは、インターネットを経由してアクセスする外部の配列情報データベースであってもよく、また、これらのデータベースをコピーしたり、オリジナルの配列情報を格納したり、さらに独自のアノテーション情報等を付加したりして作成したインハウスデータベースであってもよい。
図2に戻り、出現位置情報ファイル106cは所定長配列情報ごとに複数の出現位置情報を格納する。ここで、出現位置情報ファイル106cに格納される情報について図5を参照して説明する。図5は、出現位置情報ファイル106cに格納される情報の一例を示す図である。図5に示すように、出現位置情報ファイル106cは、所定長配列識別情報をタグとして、比較配列識別情報と出現位置情報とを相互に関連付けて格納する。なお、比較配列がプロモーター配列である場合には、出現位置情報は、図5に示すように、負数で表してもよい。
図2に戻り、出現頻度情報ファイル106dは所定長配列情報ごとに複数の出現頻度情報を格納する。ここで、出現頻度情報ファイル106dに格納される情報について図6を参照して説明する。図6は、出現頻度情報ファイル106dに格納される情報の一例を示す図である。図6に示すように、出現頻度情報ファイル106dは、所定長配列識別情報をタグとして、比較配列中の位置を一意に識別するための比較配列位置識別情報(例えば番号やIDなど)と出現頻度情報とを相互に関連付けて格納する。
図2に戻り、比較結果情報ファイル106eは所定長配列情報ごとに複数の比較結果情報を格納する。ここで、比較結果情報ファイル106eに格納される情報について図7を参照して説明する。図7は、比較結果情報ファイル106eに格納される情報の一例を示す図である。図7に示すように、比較結果情報ファイル106eは、所定長配列識別情報をタグとして、比較配列位置識別情報と比較結果情報とを相互に関連付けて格納する。なお、比較結果情報の欄には、比較結果を識別することができるように、例えば図7に示すように「Positive」や「Negative」などで表してもよい。
図2に戻り、通信インターフェース部104は配列抽出装置100とネットワーク300(またはルータ等の通信装置)との間における通信を媒介する。すなわち、通信インターフェース部104は他の端末と通信回線を介してデータを通信する機能を有する。
入出力インターフェース部108は入力装置110や出力装置112に接続する。ここで、出力装置112には、モニタ(家庭用テレビを含む)の他、スピーカやプリンタを用いることができる(なお、以下で、出力装置112をモニタとして記載する場合がある。)。また、入力装置110には、キーボードやマウスやマイクの他、マウスと協働してポインティングデバイス機能を実現するモニタを用いることができる。
制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラムおよび所要データを格納するための内部メモリを有し、これらのプログラムに基づいて種々の処理を実行するための情報処理を行う。そして、制御部102は、図示の如く、大別して、取得部102aと生成部102bと検索部102cと算出部102dと比較部102eと表示部102fと設定部102gとを備えている。
取得部102aは所定長配列情報および複数の比較配列情報を取得し、取得した所定長配列情報を所定長配列情報ファイル106aの所定の記憶領域に格納すると共に、取得した複数の比較配列情報を比較配列情報データベース106bの所定の記憶領域に格納する。
生成部102bは、取得部102aで取得した所定長配列情報に基づいて1つまたは複数の同一長異種配列情報を生成し、生成した同一長異種配列情報を所定長配列情報ファイル106aの所定の記憶領域に格納する。なお、例えば図3に示すように所定長配列が塩基配列でありその長さが6である場合、所定長配列情報に基づいて、4種類の塩基(A、G、C、T)を6個並べた際の順列の総数である4096(=46)個の同一長異種配列情報(入力された所定長配列情報を含む)を生成してもよい。
検索部102cは、取得部102aで取得した所定長配列情報(生成部102bで生成した同一長異種配列情報を含む)および複数の比較配列情報に基づいて、比較配列ごとに、所定長配列が当該比較配列中に出現する位置である出現位置を検索し、その検索結果としての出現位置情報を出現位置情報ファイル106cの所定の記憶領域に格納する。ここで、検索部102cは、移動部102c1と判定部102c2と決定部102c3とをさらに備えている。移動部102c1は、所定長配列を比較配列中で或る位置に移動する。判定部102c2は、移動部102c1で移動した位置において、所定長配列とこれに対応する比較配列の部分とが完全に又は部分的に一致するか否かを判定する。決定部102c3は、判定部102c2での判定結果が完全に又は部分的に一致するというものであった場合には、移動部102c1で移動した位置を出現位置として決定する。
算出部102dは、検索部102cで検索した出現位置情報に基づいて、比較配列中の位置ごとに、当該位置で所定長配列が出現する頻度である出現頻度を算出し、その算出結果としての出現頻度情報を出現頻度情報ファイル106dの所定の記憶領域に格納する。
比較部102eは、算出部102dで算出した出現頻度情報および予め設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較し、その比較結果としての比較結果情報を比較結果情報ファイル106eの所定の記憶領域に格納する。
設定部102fは、出現頻度情報に基づいて閾値情報を設定する。なお、設定部102fで閾値情報を設定した場合、比較部102eは、出現頻度情報および当該設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較してもよい。
表示部102gは出現頻度情報を出力装置112に例えばグラフなどで表示する。なお、表示部102gで出現頻度情報を出力装置112に表示した場合、設定部102fは、当該表示した出現頻度情報について利用者に入力装置110を介して閾値情報を設定させてもよい。そして、設定部102fで利用者により閾値情報が設定された場合、比較部102eは、出現頻度情報および当該設定された閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較してもよい。
外部システム200は、ネットワーク300を介して配列抽出装置100と相互に通信可能に接続され、例えば比較配列情報等に関する外部データベースや、例えば上述した出現位置の検索や出現頻度の算出や出現頻度と閾値との比較や閾値情報の設定や出現頻度情報の表示や同一長異種配列情報の生成などの処理を実行するための外部プログラム等を提供する機能などを有する。ここで、外部システム200は、WEBサーバやASPサーバ等として構成してもよく、そのハードウェアは一般に市販されるワークステーションやパーソナルコンピュータ等の情報処理装置およびその付属装置で構成してもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPUやディスク装置やメモリ装置や入力装置や出力装置や通信制御装置等、およびそれらを制御するプログラム等で実現される。
ネットワーク300は、配列抽出装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC−P方式等の携帯回線交換網/携帯パケット交換網や、無線呼出網や、Bluetooth(登録商標)等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。これにより、配列抽出装置100は、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
[システムの処理]
つぎに、配列抽出装置100の制御部102で行うメイン処理を、図8等を参照して説明する。図8は、配列抽出装置100の制御部102で行うメイン処理の一例を示すフローチャートである。
まず、制御部102は、取得部102aの処理により、所定長配列情報および複数の比較配列情報を取得し、取得した所定長配列情報を所定長配列情報ファイル106aの所定の記憶領域に格納すると共に、取得した複数の比較配列情報を比較配列情報データベース106bの所定の記憶領域に格納する(ステップSA−1)。
つぎに、制御部102は、生成部102bの処理により、所定長配列情報ファイル106aに格納した所定長配列情報に基づいて、当該所定長配列情報から生成され得る全種類の同一長異種配列情報を生成し、生成した全ての同一長異種配列情報を所定長配列情報ファイル106aの所定の記憶領域に格納する(ステップSA−2)。なお、例えば図3に示すように所定長配列が塩基配列でありその長さが6である場合、ステップSA−2では、所定長配列情報に基づいて、4種類の塩基(A、G、C、T)を6個並べた際の順列の総数である4096(=46)個の同一長異種配列情報(入力された所定長配列情報を含む)を生成してもよい。
つぎに、制御部102は、検索部102cの処理により、所定長配列情報ファイル106aに格納した全ての所定長配列情報(同一長異種配列情報を含む)および比較配列情報データベース106bに格納した複数の比較配列情報に基づいて、比較配列ごとに、所定長配列の出現位置を検索し、検索した出現位置に関する出現位置情報を出現位置情報ファイル106cの所定の記憶領域に格納する(ステップSA−3:検索処理)。ここで、検索部102cで行う検索処理について図9を参照して説明する。図9は、検索部102cで行う検索処理の一例を示すフローチャートである。
まず、検索部102cは、移動部102c1の処理により、所定長配列の一つの末端が比較配列のいずれかの末端に揃うように、所定長配列を比較配列中で移動する(ステップSB−1)。
つぎに、検索部102cは、判定部102c1の処理により、ステップSB−1で移動した位置において、所定長配列とこれに対応する比較配列の部分とが完全に又は部分的に一致するか否かを判定する(ステップSB−2)。換言すると、所定長配列とこれに対応する比較配列の部分とが完全に一致している場合に、これらが一致すると判定してもよく、また、所定長配列とこれに対応する比較配列の部分とが完全に一致していない場合であっても、これらの不一致の程度に応じて(例えば1つの塩基又は1つのアミノ酸の相違といった程度の不一致であれば)これらの配列が一致すると判定してもよい。具体的には、所定長配列および比較配列が塩基配列である場合、ステップSB−2においては、例えば「GACTC」で表される所定長配列を「GANTC」のような配列(Nは任意の塩基を表す。)に置き換え、この置き換えた配列とこれに対応する比較配列の部分とが完全に一致するか否かを判定してもよい。つまり、Nに対応する塩基以外の塩基が完全に一致するか否かを判定してもよい。
つぎに、検索部102cは、ステップSB−2での判定結果が「完全に又は部分的に一致する」というものであった場合(ステップSB−3:Yes)、決定部102c2の処理により、ステップSB−1で移動した位置を出現位置として決定し、その決定した出現位置に関する出現位置情報を出現位置情報ファイル106cの所定の記憶領域に格納し(ステップSB−4)、ステップSB−2での判定結果が「完全に又は部分的に一致する」というものでなかった場合(ステップSB−3:No)、ステップSB−5へ進む。
つぎに、検索部102cは、所定長配列の残りの末端が比較配列の残りの末端に到達したか否かを確認し、その確認結果が「比較配列の残りの末端に到達した」というものでなかった場合(ステップSB−5:No)、移動部102c1の処理により所定長配列を例えば一塩基又は一アミノ酸だけ移動し(ステップSB−6)、ステップSB−2へ戻り、その確認結果が「比較配列の残りの末端に到達した」というものであった場合(ステップSB−5:Yes)、ステップSB−7へ進む。
つぎに、検索部102cは、比較配列が残っているか否かを確認し、その確認結果が「残っている」というものであった場合(ステップSB−7:Yes)、残りの比較配列についてステップSB−1からステップSB−6の処理を実行し、その確認結果が「残っている」というものでなかった場合(ステップSB−7:No)、ステップSB−8へ進む。
つぎに、検索部102cは、所定長配列が残っているか否かを確認し、その確認結果が「残っている」というものであった場合(ステップSB−8:Yes)、残りの所定長配列についてステップSB−1からステップSB−6の処理を実行し、その確認結果が「残っている」というものでなかった場合(ステップSB−8:No)、図9に示す検索処理を終了する。
図8に戻り、制御部102は、算出部102dの処理により、出現位置情報ファイル106cに格納した出現位置情報に基づいて、比較配列中の位置ごとに、所定長配列の出現頻度を算出し、算出した出現頻度に関する情報である出現頻度情報を出現頻度情報ファイル106dの所定の記憶領域に格納する(ステップSA−4)。
つぎに、制御部102は、設定部102fの処理により、出現頻度情報ファイル106dに格納した出現頻度情報に基づいて、閾値情報を設定する(ステップSA−5)。ここで、設定部102fは、閾値を、以下の(I)から(III)の条件を全て満たすようなものに設定してもよい。
(I)極大ピーク値(出現頻度の極大値)が閾値のN0倍以上である。N0は実数であり、例えば5などである。
(II)極大ピーク値が、全体の出現頻度から算出した標準偏差(SD)のN1倍以上である。N1は実数であり、例えば5などである。
(III)出現頻度を縦軸とし位置を横軸とするグラフにおいて、極大ピーク位置(極大ピーク値に対応する位置)から最も近くに存在する当該極大ピーク位置の両側の極小ピーク位置(極小ピーク値(出現頻度の極小値)に対応する位置)で挟まれた領域(出現頻度に関する領域)を閾値を表す直線で仕切ることで形成された2つの領域の面積の比が、N2以上または1/N2倍以下である。N2は実数であり、例えば5などである。
つぎに、制御部102は、比較部102eの処理により、出現頻度情報ファイル106dに格納された出現頻度情報およびステップSA−5で設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較し、その比較結果に関する情報である比較結果情報を比較結果情報ファイル106eの所定の記憶領域に格納する(ステップSA−6)。
以上、図8に示すメイン処理の一例についての説明を終了する。なお、図10に示すように、制御部102は、表示部102gの処理により、出現頻度情報ファイル106dに格納した出現頻度情報を出力装置112に例えばグラフ(例えば出現頻度を縦軸とし位置を横軸とするグラフ(例えば折れ線グラフや棒グラフなど))などで表示してもよい(図10のステップSA−4’)。そして、出現頻度情報を出力装置112に表示した場合、ステップSA−5では、制御部102は、設定部102fの処理により、ステップSA−4’で表示した出現頻度情報について閾値情報を利用者に設定させ、ステップSA−6では、制御部102は、比較部102eの処理により、出現頻度情報ファイル106dに格納された出現頻度情報および利用者により設定された閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較してもよい。
[本実施の形態のまとめ、及び他の実施の形態]
以上説明したように、配列抽出装置100は、所定長配列情報および複数の比較配列情報を取得し、取得した所定長配列情報および複数の比較配列情報に基づいて、比較配列ごとに、所定長配列が当該比較配列中に出現する位置である出現位置を検索し、検索した記出現位置に関する出現位置情報に基づいて、比較配列中の位置ごとに、当該位置で所定長配列が出現する頻度である出現頻度を算出し、算出した出現頻度に関する出現頻度情報に基づいて閾値に関する閾値情報を設定し、出現頻度情報および設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較する。これにより、入力データの制限を受けずに、コンピュータ解析だけで、特定の場所(位置)に局在する配列を効率よく且つ効果的に抽出することができる。また、配列抽出装置100よれば、所定長配列が出現する場所に注目し、特定の場所に局在することを指標とすることで、機能性配列の候補を効率よく且つ効果的に抽出することができる。これにより、入力データである複数の比較配列情報は互いに機能的に関連性を持っている必要が無く、その結果、配列抽出装置100では、従来のように入力データを事前に実験などで取得しておく必要は無い。つまり、配列抽出装置100よれば、所定長配列情報および複数の比較配列情報に関するテキストデータのみで、機能性配列の候補を効率よく且つ効果的に抽出することができる。また、配列抽出装置100よれば、入力データ(所定長配列情報および比較配列情報)に対応した最適な閾値を設定することができ、結果的に出現頻度と閾値との比較結果の精度を高めることができる。
また、配列抽出装置100は、出現位置の検索の処理において、比較配列ごとに、以下の(a)から(d)の処理を実行してもよい。これにより、出現位置の検索を、複雑なアルゴリズムを用いず簡単に行うことができる。
(a)所定長配列を比較配列中で移動する。
(b)(a)で移動した位置において、所定長配列とこれに対応する比較配列の部分とが完全に又は部分的に一致するか否かを判定する。
(c)(b)での判定結果が完全に又は部分的に一致するというものであった場合、(a)で移動した位置を出現位置として決定する。
(d)(a)から(c)の処理を、比較配列中の全ての位置で網羅的に実行する。
また、配列抽出装置100は、出現頻度情報を出力装置112に表示し、表示した出現頻度情報について閾値情報を設定させてもよい。そして、配列抽出装置100は、利用者により閾値情報が設定された場合、出現頻度情報および利用者により設定された閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較してもよい。これにより、入力データ(所定長配列情報および比較配列情報)に対応した最適な閾値を利用者に設定させることができ、結果的に出現頻度と閾値との比較結果の精度を高めることができる。
また、配列抽出装置100は、ゲノム配列中に含まれるプロモーター配列を、それらの発現様式などを事前に知ること無しに統計的に解析するので、転写制御配列を含むプロモーター上の機能性配列を多数抽出することができる。換言すると、配列抽出装置100は、マイクロアレイ実験などで共発現する遺伝子をグルーピングする必要がなく、また比較ゲノムの手法も必要なく、単一のゲノムのプロモーター配列のみから有用情報を抽出することができる。また、配列抽出装置100は、既知のプロモーターデータベースを材料として、例えば理論上可能な全ての6から8の長さの塩基配列の出現頻度をプロモーター上の位置ごとに決定することができる。これにより、プロモーター上の特定の位置に局在する配列を全て同定することができる。なお、プロモーターの局在を見ることによりプロモーターの構成因子を同定する本方法を、本発明者らはLDSS(Local Distribution Short Sequences)と名付けた。本発明にかかる配列抽出方法に含まれる当該LDSS法は、短い配列の局在を指標として、機能を持った配列(例えばタンパク質が結合するDNA領域など)の候補を提示する方法である。LDSS法は、「配列に意味がなく、単に、スペーサー的な存在であれば、特定の位置に局在せずにランダムに分布する。」との考えに基づくものであり、任意の長さの配列の特定領域への局在を調べることで、機能を持った配列を抽出することができる。なお、本発明は、DNAやRNAなどの塩基配列やアミノ酸配列などの他、文字の並びとして表現することができる配列であって特定の領域への局在に意味があるものを対象とすることができる。例えば、DNAの場合であれば、プロモーター以外にも、遺伝子をコードする領域(コーディング領域)やイントロンなどを対象とすることができる。また、ある遺伝子(RNAやタンパク質でもよい)ファミリーの配列群を対象として本発明を適用すれば、ピークの位置が何か特定の機能の発現に関与していると推測することができる。
また、Gibbs Sampler法やMEME法では、グループ内でのコンセンサスとして認識できない存在比の低い有用配列を抽出する場合には、実験による共発現データを用いてサブグループを設定し、当該有用配列をその中で主要な配列として抽出する。ところが、配列抽出装置100は、配列間の頻度を比較するこれら方法とは異なり、配列の挙動(出現場所)を解析するので、存在比の少ない有用配列であっても確実に抽出することが可能である。
また、配列抽出装置100で抽出した塩基配列は、未知のプロモーターの予測や未知遺伝子の発現様式の推定や、未知遺伝子のクラスタリングなどに好適に利用することができる。配列抽出装置100で抽出した塩基配列は、プロモーター予測の基本となるデータとなる。例えば、プロモーターとして実験的に同定されている配列については、その機能的な構造を同定するデータとすることができる。また、特定の転写制御配列を共有するグループを検索することで、実験による発現データを用いずとも、共発現する遺伝子グループを予測することが可能である。また、同一グループに存在する機能既知の遺伝子を参照すれば、未知遺伝子の機能予測を行うことができる。また、比較ゲノムのツールとして、異種間のプロモーター構造がどのように保存されているか(又は保存されていないか)を解析するツールとしても有用である。
また、これまでは既知の転写制御配列の数が少なかったため、プロモーターのアノテーションをゲノム上の全ての遺伝子についてカバーするのは不可能に近かったが、配列抽出装置100で抽出した塩基配列(プロモーターを構成する配列)はゲノムあたり1,000個程度に及ぶので、これらの配列を用いれば、ほぼ全てのプロモーターに関して何らかのアノテーションを付けることができる。プロモーター上の特定の位置に局在するというのは、その配列がその位置に存在するような淘汰圧が存在してきた(換言すると、その配列がその位置で機能することで個体に生物学的な有利さが与えられた)ということであるので、局在はその特定の位置での機能を強く示唆するものと考えられる。また、配列抽出装置100で抽出した塩基配列を基にして、ゲノムに含まれるプロモーター全体のクラスタリングも可能になる。クラスタリングができることは、プロモーターを予測する上でも必須である。
また、配列抽出装置100において実現されるLDSS法で実際に植物ゲノムから、短い配列を抽出すると、局在位置に従い、TATAボックスや転写制御配列などを含む3つのタイプのグループに分類することができた。しかも、各グループ内の配列は、TATAボックスや転写制御配列としての特徴を備えていた。このことから、配列抽出装置100において実現されるLDSS法で転写制御配列のグループに分類された配列は、既知又は未知の転写制御配列であると考えることができる。配列抽出装置100において実現されるLDSS法により、植物からは100個から200個程度の新規の転写制御配列の候補を抽出することができた。なお、本発明は、原理的に、植物ゲノムのみならず、バクテリアなどの微生物や動物ゲノムなどにも適用可能である。
また、例えば図11に示すように、配列抽出装置100で抽出した塩基配列を、プロモーターのアノテーションに利用することができる。具体的には、プロモーター領域のDNA配列を基に、コアプロモーターを構成するシス因子が存在する位置や転写制御を担うシス因子が存在する位置を推定することができる。つまり、プロモーター配列に付加情報を加えることができる。なお、プロモーターとは、遺伝子の上流に存在するDNA領域で、遺伝子を、「いつ」・「どのような状況下で」・「どの程度の量」発現させるのかを決定する。また、プロモーター領域には多数のシス制御配列が存在しており、それを認識する多様な転写因子の作用によって遺伝子の転写活性が制御されている。シス制御配列の中には、細胞内外のシグナルに応答した転写調節に関与するものなどがある。
また、例えば図12に示すように、配列抽出装置100で抽出した塩基配列を、プロモーターと機能性配列との2次元クラスタリングに利用することができる。具体的には、プロモーターのアノテーションを指標として、アノテーションが似ているプロモーター同士は近い関係にあるものとし、また近い関係にあるプロモーターに共通して現れるシス配列は近い関係にあるものとして整理(クラスタリング)する。クラスター化された各グループ(プロモーター遺伝子、シス配列)は、似通った機能や発現パターンを示すと予想できるため、遺伝子発現パターン、遺伝子機能、シス配列機能の予測に役立てることができる。
また、例えば図13に示すように、配列抽出装置100で抽出した塩基配列を、プロモーター配列の予測に利用することができる。具体的には、ゲノム配列上に抽出したモチーフをマッピングし、転写制御配列の密度やコアプロモーター因子の位置などを指標としてプロモーターの位置を予測することができる。
また、本発明は、上述した実施の形態以外にも、特許請求の範囲の書類に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。例えば、配列抽出装置100は、当該配列抽出装置とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。また、本実施の形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
また、配列抽出装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、配列抽出装置100の各部または各装置が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部または任意の一部を、CPUおよび当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、本発明にかかるプログラムは、後述する記録媒体に記録されており、必要に応じて配列抽出装置100に機械的に読み取られる。すなわち、ROMまたはHDなどの記憶部106などには、OSと協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAM等にロードされることによって実行され、CPUと協働して制御部102を構成する。また、このコンピュータプログラムは、配列抽出装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OSに代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
また、配列抽出装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明にかかる配列抽出方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
さらに、配列抽出装置100の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。
ここでは、上述したLDSS法を実現する配列抽出装置100を用いた実施例1について図14を参照して説明する。
まず、既知のゲノム情報などに基づいてデータベース(上述した実施の形態における比較配列情報データベース106bに相当)を用意した。具体的には、シロイヌナズナおよびイネのゲノムDNA配列から、転写開始点の上流の1,000bpの領域を切り出した。その内、シロイヌナズナで約13,000個、イネで約20,400個の互いに重複しない配列を、上述した実施の形態における比較配列情報として使用した。また、長さが6の塩基配列を、上述した実施の形態における所定長配列として使用した。なお、所定長配列として使用した塩基配列の総数は、4種類の塩基(A、G、C、T)の組み合わせで得られる4,096(=46)種類である。
つぎに、これら用意したデータを配列抽出装置100に入力した。なお、配列抽出装置100では、所定長配列として用意した4,096個の塩基配列について、比較配列として用意したシロイヌナズナの約13,000個の塩基配列上における出現位置を検索して(当該検索は、配列同士が完全に一致する場合のみに限定して行った。)、その位置での出現回数を算出し、出現回数を集計して特定の位置に局在があるものを抽出した。また、配列抽出装置100では、所定長配列として用意した4,096個の塩基配列について、比較配列として用意したイネの約20,400個の塩基配列上における出現位置を検索して出現回数を算出し、出現回数を集計して特定の位置に局在があるものを抽出した。なお、抽出の際の閾値の設定の仕方については上述した実施の形態における設定の仕方と同様である。
そして、配列抽出装置100で抽出した結果、機能性配列の候補として、シロイヌナズナで328種類、イネで443種類が抽出された。ここで、イネにおける抽出結果の一例について図14に示す。図14は、イネにおける抽出結果の一例を示す図である。
さらに、328種類の機能性配列の候補、443種類の機能性配列の候補について、これまでに報告されている機能性配列との一致を調査した。その結果、シロイヌナズナで173種類、イネで255種類の配列が既知の機能性配列と一致していた。このことから、配列抽出装置100により、実験データが全く無い状態で、配列データだけを利用して、機能性配列の候補を高精度に抽出できることが示された。
ここでは、上述した実施例1で抽出した機能性配列の候補の有効性を検討するため、既知の実験データとの比較を行った。
図15は、実施例1でのシロイヌナズナにおける抽出結果を表示した図である。グラフのX軸は転写開始点からの距離(数字が小さくなるほど転写開始点から遠い)を示し、グラフのY軸は出現頻度を示す。図16は、Tremousaygueらが報告したシロイヌナズナの根における遺伝子発現を可視化した例を示す図である(「Tremousaygue et al.,Plant J.,33,967,2003」参照)。図16に示すように、TGGGCCを有する配列を導入した場合には遺伝子が発現しており(青く染まっている領域)、この配列を2塩基変異させた配列(TGAACC)を導入した場合には機能を失い、遺伝子が発現しなくなっている。
実施例1でのシロイヌナズナにおける抽出結果と比較すると、遺伝子発現が見られた「TGGGCC」では図15に示すように−200から0の位置の間に顕著なピークが存在することが目視で確認できる。なお、配列抽出装置100において自動的に閾値を設定して配列を抽出した場合にも、目視での確認結果と同様、同じピークがあることを示す「Positive」という結果で抽出された。一方、実験で遺伝子の発現が見られなかった「TGAACC」のグラフを見ると、図15に示すように平坦なグラフとなっており、ピークが存在しないことが目視で確認できる。なお、配列抽出装置100において自動的に閾値を設定して配列を抽出した場合にも、目視での確認結果と同様、ピークがないことを示す「Negative」という結果で抽出された。
このことから、配列抽出装置100でのピークの有無は、実験による遺伝子発現の有無とよく対応しており、本発明の有効性が実証された。なお、図15における「random genome」についてのグラフは、ゲノム配列からランダムに切り出した配列(1,000bpの領域)を上述した実施の形態の比較配列とした場合における配列抽出装置100での抽出結果を表示したものである。図15における「random genome」についてのグラフは、「TGGGCC」のグラフや「CTCTTC」のグラフや「CTATAA」のグラフでのピークが、プロモーター領域に特異的なものであることを証明するために示した。「random genome」についてのグラフでは、いずれもピークが確認できないので、これら配列の−200の位置の近傍におけるピークがプロモーター領域に特有のものであることが示された。
ここでは、LDSS法を実現する配列抽出装置100の特徴である「配列の局在性の有無を指標とした」ことについて従来法と比較して、本方法の有効性を検討した。
LDSS法では、「機能を持たない配列はランダムに分布する」ことを仮定して、任意の長さの配列の局在を指標として、機能性配列の候補を抽出する。そこで、当該方法の有効性を検討した。
ゲノム配列上には、反復配列のような、特に意味は無いと考えられているが頻繁に出現する配列が存在する。このような配列は、プロモーター領域にも存在し、例えばイネのプロモーター領域を対象として8塩基の配列の出現頻度を比較した例では、最大で600倍程度の差が見られた。
もし、LDSS法の特徴である「配列の局在性の有無を指標とした」抽出が機能しておらず、単に出現頻度の高い配列を抽出しているとすれば、図17に示すグラフにおいて、LDSS法による抽出結果(図17のY軸)は、短い配列の出現回数を数えた結果(図17のX軸)と直線的に対応するはずである。なお、図17のグラフのX軸には、実施例1で示したイネのプロモーターのデータベースを対象として、8塩基からなる配列(計65,536(=48)種類)の出現回数を数え、データベースに含まれる全配列における出現回数を合計した値を「Motif count」としてプロットしており、図17のグラフのY軸には、LDSS法での抽出結果をプロットしている。なお、LDSS法での抽出において、出現位置の検索は、配列同士が完全に一致する場合のみに限定して行った。
しかし、両者の抽出結果を比較すると、図17に示すように直線的な対応関係がない。よって、LDSS法の特徴である「配列の局在性の有無を指標とした」抽出が有効に機能していることが示唆された。つまり、LDSS法は、「配列の局在性の有無」という新しい指標を用いて、機能性配列の候補を抽出する方法であり、単に出現頻度で抽出する方法とは全く異なるものであるといえる。
以上のように、本発明にかかる配列抽出装置、配列抽出方法、プログラムおよび記録媒体は、入力データの制限を受けずに、コンピュータ解析だけで、特定の場所(位置)に局在する配列を効率よく且つ効果的に抽出することができ、医療や製薬や創薬や生物学研究や臨床検査などの様々な分野において極めて有用である。
本発明の基本原理を示す原理構成図である。 配列抽出装置100の構成を示すブロック図である。 所定長配列情報ファイル106aに格納される情報の一例を示す図である。 比較配列情報データベース106bに格納される情報の一例を示す図である。 出現位置情報ファイル106cに格納される情報の一例を示す図である。 出現頻度情報ファイル106dに格納される情報の一例を示す図である。 比較結果情報ファイル106eに格納される情報の一例を示す図である。 配列抽出装置100の制御部102で行うメイン処理の一例を示すフローチャートである。 検索部102cで行う検索処理の一例を示すフローチャートである。 配列抽出装置100の制御部102で行うメイン処理の別の一例を示すフローチャートである。 プロモーターのアノテーションへの適用例を示す図である。 プロモーターと機能性配列との2次元クラスタリングへの適用例を示す図である。 プロモーター配列の予測への適用例を示す図である。 イネにおける抽出結果の一例を示す図である。 実施例1でのシロイヌナズナにおける抽出結果を表示した図である。 Tremousaygueらが報告したシロイヌナズナの根における遺伝子発現を可視化した例を示す図である。 従来法との比較結果を示す図である。
符号の説明
100 配列抽出装置
102 制御部
102a 取得部
102b 生成部
102c 検索部
102c1 移動部
102c2 判定部
102c3 決定部
102d 算出部
102e 比較部
102f 設定部
102g 表示部
104 通信インターフェース部
106 記憶部
106a 所定長配列情報ファイル
106b 比較配列情報データベース
106c 出現位置情報ファイル
106d 出現頻度情報ファイル
106e 比較結果情報ファイル
108 入出力インターフェース部
110 入力装置
112 出力装置
200 外部システム
300 ネットワーク

Claims (13)

  1. 塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および前記配列であって前記所定長配列の比較対象となる前記所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得する取得手段と、
    前記取得手段で取得した前記所定長配列情報および複数の前記比較配列情報に基づいて、前記比較配列ごとに、前記所定長配列が当該比較配列中に出現する位置である出現位置を検索する検索手段と、
    前記検索手段で検索した前記出現位置に関する出現位置情報に基づいて、前記比較配列中の前記位置ごとに、当該位置で前記所定長配列が出現する頻度である出現頻度を算出する算出手段と、
    前記算出手段で算出した前記出現頻度に関する出現頻度情報に基づいて、閾値に関する閾値情報を設定する設定手段と、
    前記算出手段で算出した前記出現頻度情報および前記設定手段で設定した前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値との大小関係を比較する比較手段と、
    を備え
    前記設定手段は、前記出現頻度の極大値が全体の前記出現頻度から算出した標準偏差の1以上の実数倍以上であるという条件が満たされる場合において、前記極大値が前記閾値の1以上の実数倍以上であり且つ2つの領域の面積の比が1以上の実数倍以上または1以下の実数倍以下であるという条件を満たす前記閾値を設定し、
    前記2つの領域は、前記出現頻度を縦軸とし前記位置を横軸とするグラフにおいて、前記出現頻度の極小値に対応する前記位置で挟まれた領域を前記閾値を表す直線で仕切ることで形成されたものであり、
    前記極小値に対応する前記位置は、前記極大値に対応する前記位置から最も近く且つ当該位置の両側に存在するものであること、
    を特徴とする配列抽出装置。
  2. 前記出現頻度情報を表示する表示手段
    をさらに備え、
    前記設定手段は、前記表示手段で表示した前記出現頻度情報について前記閾値情報を設定させ、
    前記比較手段は、前記設定手段で前記閾値情報が設定された場合、前記出現頻度情報および前記設定された前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較すること
    を特徴とする請求項1に記載の配列抽出装置。
  3. 前記検索手段は、
    前記所定長配列を前記比較配列中で移動する移動手段と、
    前記移動手段で移動した前記位置において、前記所定長配列とこれに対応する前記比較配列の部分とが完全に又は部分的に一致するか否かを判定する判定手段と、
    前記判定手段での判定結果が完全に又は部分的に一致するというものであった場合、前記移動した前記位置を前記出現位置として決定する決定手段と、
    をさらに備え、
    前記移動手段、前記判定手段および前記決定手段を繰り返し実行すること
    を特徴とする請求項1または2に記載の配列抽出装置。
  4. 前記取得手段で取得した前記所定長配列情報に基づいて、前記所定長配列と同じ長さで且つそれを構成する前記塩基または前記アミノ酸が前記所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成する生成手段
    をさらに備え、
    前記生成手段で生成した前記同一長異種配列情報について、少なくとも前記検索手段、前記算出手段および前記比較手段を実行すること
    を特徴とする請求項1からのいずれか1つに記載の配列抽出装置。
  5. コンピュータで実行される、
    塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および前記配列であって前記所定長配列の比較対象となる前記所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得する取得ステップと、
    前記取得ステップで取得した前記所定長配列情報および複数の前記比較配列情報に基づいて、前記比較配列ごとに、前記所定長配列が当該比較配列中に出現する位置である出現位置を検索する検索ステップと、
    前記検索ステップで検索した前記出現位置に関する出現位置情報に基づいて、前記比較配列中の前記位置ごとに、当該位置で前記所定長配列が出現する頻度である出現頻度を算出する算出ステップと、
    前記算出ステップで算出した前記出現頻度に関する出現頻度情報に基づいて、閾値に関する閾値情報を設定する設定ステップと、
    前記算出ステップで算出した前記出現頻度情報および前記設定ステップで設定した前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値との大小関係を比較する比較ステップと、
    を含み、
    前記設定ステップは、前記出現頻度の極大値が全体の前記出現頻度から算出した標準偏差の1以上の実数倍以上であるという条件が満たされる場合において、前記極大値が前記閾値の1以上の実数倍以上であり且つ2つの領域の面積の比が1以上の実数倍以上または1以下の実数倍以下であるという条件を満たす前記閾値を設定し、
    前記2つの領域は、前記出現頻度を縦軸とし前記位置を横軸とするグラフにおいて、前記出現頻度の極小値に対応する前記位置で挟まれた領域を前記閾値を表す直線で仕切ることで形成されたものであり、
    前記極小値に対応する前記位置は、前記極大値に対応する前記位置から最も近く且つ当該位置の両側に存在するものであること、
    を特徴とする配列抽出方法。
  6. 前記コンピュータで実行される、前記出現頻度情報を表示する表示ステップ
    をさらに含み、
    前記設定ステップは、前記表示ステップで表示した前記出現頻度情報について前記閾値情報を設定させ、
    前記比較ステップは、前記設定ステップで前記閾値情報が設定された場合、前記出現頻度情報および前記設定された前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較すること
    を特徴とする請求項に記載の配列抽出方法。
  7. 前記検索ステップは、
    前記所定長配列を前記比較配列中で移動する移動ステップと、
    前記移動ステップで移動した前記位置において、前記所定長配列とこれに対応する前記比較配列の部分とが完全に又は部分的に一致するか否かを判定する判定ステップと、
    前記判定ステップでの判定結果が完全に又は部分的に一致するというものであった場合、前記移動した前記位置を前記出現位置として決定する決定ステップと、
    をさらに含み、
    前記移動ステップ、前記判定ステップおよび前記決定ステップを繰り返し実行すること
    を特徴とする請求項5または6に記載の配列抽出方法。
  8. 前記コンピュータで実行される、前記取得ステップで取得した前記所定長配列情報に基づいて、前記所定長配列と同じ長さで且つそれを構成する前記塩基または前記アミノ酸が前記所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成する生成ステップ
    をさらに含み、
    前記コンピュータは、前記生成ステップで生成した前記同一長異種配列情報について、少なくとも前記検索ステップ、前記算出ステップおよび前記比較ステップを実行すること
    を特徴とする請求項からのいずれか1つに記載の配列抽出方法。
  9. 塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および前記配列であって前記所定長配列の比較対象となる前記所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得する取得ステップと、
    前記取得ステップで取得した前記所定長配列情報および複数の前記比較配列情報に基づいて、前記比較配列ごとに、前記所定長配列が当該比較配列中に出現する位置である出現位置を検索する検索ステップと、
    前記検索ステップで検索した前記出現位置に関する出現位置情報に基づいて、前記比較配列中の前記位置ごとに、当該位置で前記所定長配列が出現する頻度である出現頻度を算出する算出ステップと、
    前記算出ステップで算出した前記出現頻度に関する出現頻度情報に基づいて、閾値に関する閾値情報を設定する設定ステップと、
    前記算出ステップで算出した前記出現頻度情報および前記設定ステップで設定した前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値との大小関係を比較する比較ステップと、
    を含む配列抽出方法をコンピュータに実行させ
    前記設定ステップは、前記出現頻度の極大値が全体の前記出現頻度から算出した標準偏差の1以上の実数倍以上であるという条件が満たされる場合において、前記極大値が前記閾値の1以上の実数倍以上であり且つ2つの領域の面積の比が1以上の実数倍以上または1以下の実数倍以下であるという条件を満たす前記閾値を設定し、
    前記2つの領域は、前記出現頻度を縦軸とし前記位置を横軸とするグラフにおいて、前記出現頻度の極小値に対応する前記位置で挟まれた領域を前記閾値を表す直線で仕切ることで形成されたものであり、
    前記極小値に対応する前記位置は、前記極大値に対応する前記位置から最も近く且つ当該位置の両側に存在するものであること、
    を特徴とするプログラム。
  10. 前記出現頻度情報を表示する表示ステップ
    をさらに含み、
    前記設定ステップは、前記表示ステップで表示した前記出現頻度情報について前記閾値情報を設定させ、
    前記比較ステップは、前記設定ステップで前記閾値情報が設定された場合、前記出現頻度情報および前記設定された前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較すること
    を特徴とする請求項に記載のプログラム。
  11. 前記検索ステップは、
    前記所定長配列を前記比較配列中で移動する移動ステップと、
    前記移動ステップで移動した前記位置において、前記所定長配列とこれに対応する前記比較配列の部分とが完全に又は部分的に一致するか否かを判定する判定ステップと、
    前記判定ステップでの判定結果が完全に又は部分的に一致するというものであった場合、前記移動した前記位置を前記出現位置として決定する決定ステップと、
    をさらに含み、
    前記移動ステップ、前記判定ステップおよび前記決定ステップを繰り返し実行すること
    を特徴とする請求項9または10に記載のプログラム。
  12. 前記取得ステップで取得した前記所定長配列情報に基づいて、前記所定長配列と同じ長さで且つそれを構成する前記塩基または前記アミノ酸が前記所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成する生成ステップ
    をさらに含み、
    前記生成ステップで生成した前記同一長異種配列情報について、少なくとも前記検索ステップ、前記算出ステップおよび前記比較ステップを実行すること
    を特徴とする請求項から11のいずれか1つに記載のプログラム。
  13. 前記請求項から12のいずれか1つに記載のプログラムを記録したこと
    を特徴とするコンピュータ読み取り可能な記録媒体。
JP2006168100A 2006-06-16 2006-06-16 配列抽出装置、配列抽出方法、プログラムおよび記録媒体 Expired - Fee Related JP5247009B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006168100A JP5247009B2 (ja) 2006-06-16 2006-06-16 配列抽出装置、配列抽出方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006168100A JP5247009B2 (ja) 2006-06-16 2006-06-16 配列抽出装置、配列抽出方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2007334769A JP2007334769A (ja) 2007-12-27
JP5247009B2 true JP5247009B2 (ja) 2013-07-24

Family

ID=38934169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006168100A Expired - Fee Related JP5247009B2 (ja) 2006-06-16 2006-06-16 配列抽出装置、配列抽出方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP5247009B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2479278A1 (en) * 2011-01-25 2012-07-25 Synpromics Ltd. Method for the construction of specific promoters
WO2019187100A1 (ja) * 2018-03-30 2019-10-03 株式会社Rhelixa データ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体
CN113454727A (zh) * 2019-02-07 2021-09-28 生物钥匙公司 生物序列信息处理

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT728015E (pt) * 1992-06-18 2006-07-31 Creagen Inc Antigenes polipeptidicos combinatoriais
JP3476310B2 (ja) * 1996-08-01 2003-12-10 富士通株式会社 蛋白質データベース・システム並びに蛋白質の名前および機能の表示方法
WO2003014960A2 (en) * 2001-08-03 2003-02-20 Medical Research Council Method of identifying a consensus sequence for intracellular antibodies
JP3530842B2 (ja) * 2001-11-19 2004-05-24 株式会社日立製作所 核酸塩基配列アセンブル装置及びその動作方法
JP4034740B2 (ja) * 2002-04-18 2008-01-16 北海道ティー・エル・オー株式会社 Dna合成用のプライマーの選定方法
JP4250554B2 (ja) * 2003-04-02 2009-04-08 キヤノン株式会社 Dnaプローブ設計装置及びdnaプローブ設計のための情報処理方法
JP4385119B2 (ja) * 2003-09-08 2009-12-16 国立大学法人九州大学 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法
JP3976331B2 (ja) * 2004-08-10 2007-09-19 学校法人早稲田大学 特徴パターン認識システムおよびその方法、並びにプログラム

Also Published As

Publication number Publication date
JP2007334769A (ja) 2007-12-27

Similar Documents

Publication Publication Date Title
Farré et al. Identification of patterns in biological sequences at the ALGGEN server: PROMO and MALGEN
Down et al. NestedMICA: sensitive inference of over-represented motifs in nucleic acid sequence
Lin et al. iPro54-PseKNC: a sequence-based predictor for identifying sigma-54 promoters in prokaryote with pseudo k-tuple nucleotide composition
CN106068330B (zh) 将已知等位基因用于读数映射中的系统和方法
Gan et al. A comparison study on feature selection of DNA structural properties for promoter prediction
Baek et al. Quantitative analysis of genome-wide chromatin remodeling
Kucherov Evolution of biosequence search algorithms: a brief survey
JP5247009B2 (ja) 配列抽出装置、配列抽出方法、プログラムおよび記録媒体
Katara et al. Phylogenetic footprinting: a boost for microbial regulatory genomics
Wang et al. A steganalysis-based approach to comprehensive identification and characterization of functional regulatory elements
Sacan et al. LFM-Pro: a tool for detecting significant local structural sites in proteins
CA2519674A1 (en) Genomic profiling of regulatory factor binding sites
Yang et al. DNA motif discovery based on ant colony optimization and expectation maximization
Kann et al. A structure-based method for protein sequence alignment
Vingron et al. Integrating sequence, evolution and functional genomics in regulatory genomics
Prohaska et al. The use and abuse of-omes
Pavesi et al. Using Weeder for the discovery of conserved transcription factor binding sites
Zhao et al. DTA-SiST: de novo transcriptome assembly by using simplified suffix trees
JP2004295606A (ja) 遺伝子機能推定装置、遺伝子機能推定方法、および、プログラム
Osborne et al. Capturing genomic relationships that matter
Brejová et al. Pattern discovery: Methods and software
JP2007108949A (ja) 遺伝子発現制御配列の推定方法
Taneda An efficient genetic algorithm for structural RNA pairwise alignment and its application to non-coding RNA discovery in yeast
Gunewardena et al. Enhancing the prediction of transcription factor binding sites by incorporating structural properties and nucleotide covariations
Chan et al. Generic spaced DNA motif discovery using Genetic Algorithm

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130409

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees