JP5247009B2

JP5247009B2 - 配列抽出装置、配列抽出方法、プログラムおよび記録媒体

Info

Publication number: JP5247009B2
Application number: JP2006168100A
Authority: JP
Inventors: 義治山本; 裕之市田; 知子阿部
Original assignee: RIKEN Institute of Physical and Chemical Research
Current assignee: RIKEN Institute of Physical and Chemical Research
Priority date: 2006-06-16
Filing date: 2006-06-16
Publication date: 2013-07-24
Anticipated expiration: 2026-06-16
Also published as: JP2007334769A

Description

本発明は、配列抽出装置、配列抽出方法、プログラムおよび記録媒体に関するものである。

ゲノム情報から遺伝子構造やプロモーター構造や転写制御様式などを推測することは、ポストゲノム研究の大きな課題であり、ヒト遺伝病の理解や、動植物遺伝子のゲノム配列からの予測、未知遺伝子の機能予測などに直結する。遺伝子構造やプロモーター構造に関する情報は、ヒト遺伝病やＳＮＰの解釈、動植物遺伝子のマイニング、有用なプロモーター合成などに利用される。

プロモーター構造を予測するには、プロモーターの構成因子やプロモーターの特徴を理解することが必要である。しかし、これまでの知見では、プロモーターを構成する塩基配列についてのものは極めて乏しかった。このことは、現在知られている転写制御配列が非常に限られたものであったことが一因である。

ここで、コンピュータを用いてプロモーターから転写制御配列を抽出するには、非特許文献１や、非特許文献２および非特許文献３や、非特許文献４および非特許文献５で開示されている方法などがこれまで用いられている。非特許文献１には、マイクロアレイの結果から共発現している遺伝子プロモーターのグループにおいて頻出する短い配列を抽出する方法が開示されている。非特許文献２および非特許文献３には、特定の転写因子が結合しているＤＮＡ断片を多数同定し、それらに頻出する短い配列を抽出する方法が開示されている。非特許文献４および非特許文献５には、異なるゲノム間での比較を行い、プロモーター上においてよく保存されている短い配列を検出する方法が開示されている。

また、非特許文献６で開示されているＧｉｂｂｓＳａｍｐｌｅｒ法や非特許文献７に開示されているＭＥＭＥ法などの方法も用いられている。これら方法はいずれも、与えられた配列セットの中に共通に出現するモチーフを抽出するものである。具体的には、これら方法では、与えられた配列の中に出現する配列の類似度を評価して、与えられた配列セットの多くに保存されている配列を「機能性モチーフ候補」として抽出する。ただし、与えられた配列セットの中での保存性が、候補を絞り込む指標となっているので、この配列セット中の各配列は互いに機能的に類似したものであることが必須である。

また、最近では、いくつかの転写制御配列に関して、それらがプロモーター上の特定の位置に頻出するという報告がなされている（非特許文献８や非特許文献９など参照）。

Ｒｏｔｈｅｔａｌ．，「ＦｉｎｄｉｎｇＤＮＡｒｅｇｕｌａｔｏｒｙｍｏｔｉｆｓｗｉｔｈｉｎｕｎａｌｉｇｎｅｄｎｏｎｃｏｄｉｎｇｓｅｑｕｅｎｃｅｓｃｌｕｓｔｅｒｅｄｂｙｗｈｏｌｅ−ｇｅｎｏｍｅｍＲＮＡｑｕａｎｔｉｔａｔｉｏｎ」，ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ，１６，９３９−９４５，１９９８Ｒｅｎｅｔａｌ．，「Ｇｅｎｏｍｅ−ｗｉｄｅｌｏｃａｔｉｏｎａｎｄｆｕｎｃｔｉｏｎｏｆＤＮＡｂｉｎｄｉｎｇｐｒｏｔｅｉｎｓ」，Ｓｃｉｅｎｃｅ，２９０，２３０６−２３０９，２０００Ｌｉｅｂｅｔａｌ．，「Ｐｒｏｍｏｔｅｒ−ｓｐｅｃｉｆｉｃｂｉｎｄｉｎｇｏｆＲａｐ１ｒｅｖｅａｌｅｄｂｙｇｅｎｏｍｅ−ｗｉｄｅｍａｐｓｏｆｐｒｏｔｅｉｎ−ＤＮＡａｓｓｏｃｉａｔｉｏｎ」，ＮａｔｕｒｅＧｅｎｅｔｉｃｓ，２８，３２７−３３４，２００１ＭａｎｓｏｎＭｃＧｕｉｒｅａｎｄＣｈｕｒｃｈ，「Ｐｒｅｄｉｃｔｉｎｇｒｅｇｕｌｏｎｓａｎｄｔｈｅｉｒｃｉｓ−ｒｅｇｕｌａｔｏｒｙｍｏｔｉｆｓｂｙｃｏｍｐａｒａｔｉｖｅｇｅｎｏｍｉｃｓ」，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ，２８，４５２３−４５３０，２０００Ｋｅｌｌｉｓｅｔａｌ．，「Ｓｅｑｕｅｎｃｉｎｇａｎｄｃｏｍｐａｒｉｓｏｎｏｆｙｅａｓｔｓｐｅｃｉｅｓｔｏｉｄｅｎｔｉｆｙｇｅｎｅｓａｎｄｒｅｇｕｌａｔｏｒｙｅｌｅｍｅｎｔｓ」，Ｎａｔｕｒｅ，４２３，２４１−２５４，２００３Ｌａｗｒｅｎｃｅｅｔａｌ．，「Ｄｅｔｅｃｔｉｎｇｓｕｂｔｌｅｓｅｑｕｅｎｃｅｓｉｇｎａｌｓ：ａＧｉｂｂｓｓａｍｐｌｉｎｇｓｔｒａｔｅｇｙｆｏｒｍｕｌｔｉｐｉｅａｌｉｇｎｍｅｎｔ」，Ｓｃｉｅｎｃｅ，２６２，２０８−２１４，１９９３Ｂａｉｌｅｙｅｔａｌ．，「ＴｈｅｖａｌｕｅｏｆｐｒｉｏｒｋｎｏｗｌｅｄｇｅｉｎｄｉｓｃｏｖｅｒｉｎｇｍｏｔｉｅｆｓｗｉｔｈＭＥＭＥ」，ＰｒｏｃＩｎｔＣｏｎｆＩｎｔｅｌｌＳｙｓｔＭｏｌＢｉｏｌ，３，２１−２９，１９９５Ｏｈｌｅｒｅｔａｌ．，「ＣｏｍｐｕｔａｔｉｏｎａｌａｎａｌｙｓｉｓｏｆｃｏｒｅｐｒｏｍｏｔｅｒｓｉｎｔｈｅＤｒｏｓｏｐｈｉｌａｇｅｎｏｍｅ」，ＧｅｎｏｍｅＢｉｏｌｏｇｙ，３，ＲＥＳＥＡＲＣＨ００８７，２００２Ｅｌｋｏｎｅｔａｌ．，「Ｇｅｎｏｍｅ−ｗｉｄｅｉｎｓｉｌｏｃｏｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｔｒａｎｓｃｒｉｐｔｉｏｎａｌｒｅｇｕｌａｔｏｒｓｃｏｎｔｒｏｌｌｉｎｇｔｈｅｃｅｌｌｃｙｃｌｅｉｎｈｕｍａｎｃｅｌｌｓ」，ＧｅｎｏｍｅＲｅｓｅａｒｃｈ，１３，７７３−７８０，２００３

しかしながら、非特許文献１、非特許文献２および非特許文献３に記載の方法によれば、共発現しているグループや特定の転写因子が結合するＤＮＡ断片のグループを実験的に同定する必要があるので、実験上可能な限られた数のグループについてしか同定することができないという問題点があった。

また、非特許文献４および非特許文献５に記載の方法によれば、近縁種数種類のゲノムだけを比較しているので、検出した配列中に擬陽性の配列を含む可能性があり、その結果、擬陽性の配列を排除して正確に配列を検出するためには、他の方法と併用する必要があるという問題点があった。

また、非特許文献６および非特許文献７に記載の方法によれば、実際にモチーフを抽出するのに、例えばマイクロアレイで共発現する遺伝子を絞り込み、その結果を基にして配列を選択することで配列セットを準備するという事前の作業が必要になるので、コンピュータ解析だけでモチーフを抽出することができないという問題点があった。すなわち、非特許文献６および非特許文献７に記載の方法によれば、実際にモチーフを抽出するのに、遺伝子の機能や分類についての情報を別の方法で事前に取得しておく必要があるので、コンピュータ解析だけでモチーフを抽出することができないという問題点があった。

本発明は上記問題点に鑑みてなされたもので、入力データの制限を受けずに、コンピュータ解析だけで、特定の場所（位置）に局在する配列を効率よく且つ効果的に抽出することができる配列抽出装置、配列抽出方法、プログラムおよび記録媒体を提供することを目的とする。

上記目的を達成するために、本発明にかかる配列抽出装置は、塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および前記配列であって前記所定長配列の比較対象となる前記所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得する取得手段と、前記取得手段で取得した前記所定長配列情報および複数の前記比較配列情報に基づいて、前記比較配列ごとに、前記所定長配列が当該比較配列中に出現する位置である出現位置を検索する検索手段と、前記検索手段で検索した前記出現位置に関する出現位置情報に基づいて、前記比較配列中の前記位置ごとに、当該位置で前記所定長配列が出現する頻度である出現頻度を算出する算出手段と、前記算出手段で算出した前記出現頻度に関する出現頻度情報および閾値に関する予め設定した閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値との大小関係を比較する比較手段と、を備えたことを特徴とする。

また、本発明にかかる配列抽出装置は、前記の配列抽出装置において、前記検索手段は、前記所定長配列を前記比較配列中で移動する移動手段と、前記移動手段で移動した前記位置において、前記所定長配列とこれに対応する前記比較配列の部分とが完全に又は部分的に一致するか否かを判定する判定手段と、前記判定手段での判定結果が完全に又は部分的に一致するというものであった場合、前記移動した前記位置を前記出現位置として決定する決定手段と、をさらに備え、前記移動手段、前記判定手段および前記決定手段を繰り返し実行することを特徴とする。

また、本発明にかかる配列抽出装置は、前記の配列抽出装置において、前記出現頻度情報に基づいて前記閾値情報を設定する設定手段をさらに備え、前記比較手段は、前記出現頻度情報および前記設定手段で設定した前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較することを特徴とする。また、本発明にかかる配列抽出装置は、前記の配列抽出装置において、前記設定手段は、前記出現頻度の極大値が全体の前記出現頻度から算出した標準偏差の１以上の実数倍以上であるという条件が満たされる場合において、前記極大値が前記閾値の１以上の実数倍以上であり且つ２つの領域の面積の比が１以上の実数倍以上または１以下の実数倍以下であるという条件を満たす前記閾値を設定し、前記２つの領域は、前記出現頻度を縦軸とし前記位置を横軸とするグラフにおいて、前記出現頻度の極小値に対応する前記位置で挟まれた領域を前記閾値を表す直線で仕切ることで形成されたものであり、前記極小値に対応する前記位置は、前記極大値に対応する前記位置から最も近く且つ当該位置の両側に存在するものであること、を特徴とする。

また、本発明にかかる配列抽出装置は、前記の配列抽出装置において、前記出現頻度情報を表示する表示手段をさらに備え、前記設定手段は、前記表示手段で表示した前記出現頻度情報について前記閾値情報を設定させ、前記比較手段は、前記設定手段で前記閾値情報が設定された場合、前記出現頻度情報および前記設定された前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較することを特徴とする。

また、本発明にかかる配列抽出装置は、前記の配列抽出装置において、前記取得手段で取得した前記所定長配列情報に基づいて、前記所定長配列と同じ長さで且つそれを構成する前記塩基または前記アミノ酸が前記所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成する生成手段をさらに備え、前記生成手段で生成した前記同一長異種配列情報について、少なくとも前記検索手段、前記算出手段および前記比較手段を実行することを特徴とする。

また、本発明は配列抽出方法に関するものであり、本発明にかかる配列抽出方法は、塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および前記配列であって前記所定長配列の比較対象となる前記所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得する取得ステップと、前記取得ステップで取得した前記所定長配列情報および複数の前記比較配列情報に基づいて、前記比較配列ごとに、前記所定長配列が当該比較配列中に出現する位置である出現位置を検索する検索ステップと、前記検索ステップで検索した前記出現位置に関する出現位置情報に基づいて、前記比較配列中の前記位置ごとに、当該位置で前記所定長配列が出現する頻度である出現頻度を算出する算出ステップと、前記算出ステップで算出した前記出現頻度に関する出現頻度情報および閾値に関する予め設定した閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値との大小関係を比較する比較ステップと、を含むことを特徴とする。

また、本発明にかかる配列抽出方法は、前記の配列抽出方法において、前記検索ステップは、前記所定長配列を前記比較配列中で移動する移動ステップと、前記移動ステップで移動した前記位置において、前記所定長配列とこれに対応する前記比較配列の部分とが完全に又は部分的に一致するか否かを判定する判定ステップと、前記判定ステップでの判定結果が完全に又は部分的に一致するというものであった場合、前記移動した前記位置を前記出現位置として決定する決定ステップと、をさらに含み、前記移動ステップ、前記判定ステップおよび前記決定ステップを繰り返し実行することを特徴とする。

また、本発明にかかる配列抽出方法は、前記の配列抽出方法において、前記出現頻度情報に基づいて前記閾値情報を設定する設定ステップをさらに含み、前記比較ステップは、前記出現頻度情報および前記設定ステップで設定した前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較することを特徴とする。また、本発明にかかる配列抽出方法は、前記の配列抽出方法において、前記設定ステップは、前記出現頻度の極大値が全体の前記出現頻度から算出した標準偏差の１以上の実数倍以上であるという条件が満たされる場合において、前記極大値が前記閾値の１以上の実数倍以上であり且つ２つの領域の面積の比が１以上の実数倍以上または１以下の実数倍以下であるという条件を満たす前記閾値を設定し、前記２つの領域は、前記出現頻度を縦軸とし前記位置を横軸とするグラフにおいて、前記出現頻度の極小値に対応する前記位置で挟まれた領域を前記閾値を表す直線で仕切ることで形成されたものであり、前記極小値に対応する前記位置は、前記極大値に対応する前記位置から最も近く且つ当該位置の両側に存在するものであること、を特徴とする。

また、本発明にかかる配列抽出方法は、前記の配列抽出方法において、前記出現頻度情報を表示する表示ステップをさらに含み、前記設定ステップは、前記表示ステップで表示した前記出現頻度情報について前記閾値情報を設定させ、前記比較ステップは、前記設定ステップで前記閾値情報が設定された場合、前記出現頻度情報および前記設定された前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較することを特徴とする。

また、本発明にかかる配列抽出方法は、前記の配列抽出方法において、前記取得ステップで取得した前記所定長配列情報に基づいて、前記所定長配列と同じ長さで且つそれを構成する前記塩基または前記アミノ酸が前記所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成する生成ステップをさらに含み、前記生成ステップで生成した前記同一長異種配列情報について、少なくとも前記検索ステップ、前記算出ステップおよび前記比較ステップを実行することを特徴とする。

また、本発明はプログラムに関するものであり、本発明にかかるプログラムは、塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および前記配列であって前記所定長配列の比較対象となる前記所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得する取得ステップと、前記取得ステップで取得した前記所定長配列情報および複数の前記比較配列情報に基づいて、前記比較配列ごとに、前記所定長配列が当該比較配列中に出現する位置である出現位置を検索する検索ステップと、前記検索ステップで検索した前記出現位置に関する出現位置情報に基づいて、前記比較配列中の前記位置ごとに、当該位置で前記所定長配列が出現する頻度である出現頻度を算出する算出ステップと、前記算出ステップで算出した前記出現頻度に関する出現頻度情報および閾値に関する予め設定した閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値との大小関係を比較する比較ステップと、を含む配列抽出方法をコンピュータに実行させることを特徴とする。

また、本発明にかかるプログラムは、前記のプログラムにおいて、前記検索ステップは、前記所定長配列を前記比較配列中で移動する移動ステップと、前記移動ステップで移動した前記位置において、前記所定長配列とこれに対応する前記比較配列の部分とが完全に又は部分的に一致するか否かを判定する判定ステップと、前記判定ステップでの判定結果が完全に又は部分的に一致するというものであった場合、前記移動した前記位置を前記出現位置として決定する決定ステップと、をさらに含み、前記移動ステップ、前記判定ステップおよび前記決定ステップを繰り返し実行することを特徴とする。

また、本発明にかかるプログラムは、前記のプログラムにおいて、前記出現頻度情報に基づいて前記閾値情報を設定する設定ステップをさらに含み、前記比較ステップは、前記出現頻度情報および前記設定ステップで設定した前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較することを特徴とする。また、本発明にかかるプログラムは、前記のプログラムにおいて、前記設定ステップは、前記出現頻度の極大値が全体の前記出現頻度から算出した標準偏差の１以上の実数倍以上であるという条件が満たされる場合において、前記極大値が前記閾値の１以上の実数倍以上であり且つ２つの領域の面積の比が１以上の実数倍以上または１以下の実数倍以下であるという条件を満たす前記閾値を設定し、前記２つの領域は、前記出現頻度を縦軸とし前記位置を横軸とするグラフにおいて、前記出現頻度の極小値に対応する前記位置で挟まれた領域を前記閾値を表す直線で仕切ることで形成されたものであり、前記極小値に対応する前記位置は、前記極大値に対応する前記位置から最も近く且つ当該位置の両側に存在するものであること、を特徴とする。

また、本発明にかかるプログラムは、前記のプログラムにおいて、前記出現頻度情報を表示する表示ステップをさらに含み、前記設定ステップは、前記表示ステップで表示した前記出現頻度情報について前記閾値情報を設定させ、前記比較ステップは、前記設定ステップで前記閾値情報が設定された場合、前記出現頻度情報および前記設定された前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較することを特徴とする。

また、本発明にかかるプログラムは、前記のプログラムにおいて、前記取得ステップで取得した前記所定長配列情報に基づいて、前記所定長配列と同じ長さで且つそれを構成する前記塩基または前記アミノ酸が前記所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成する生成ステップをさらに含み、前記生成ステップで生成した前記同一長異種配列情報について、少なくとも前記検索ステップ、前記算出ステップおよび前記比較ステップを実行することを特徴とする。

また、本発明は記録媒体に関するものであり、本発明にかかるコンピュータ読み取り可能な記録媒体は、前記のいずれか１つのプログラムを記録したことを特徴とする。

本発明にかかる配列抽出装置よれば、塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および配列であって所定長配列の比較対象となる所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得し、取得した所定長配列情報および複数の比較配列情報に基づいて、比較配列ごとに、所定長配列が当該比較配列中に出現する位置である出現位置を検索し、検索した出現位置に関する出現位置情報に基づいて、比較配列中の位置ごとに、当該位置で所定長配列が出現する頻度である出現頻度を算出し、算出した出現頻度に関する出現頻度情報および閾値に関する予め設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較するので、入力データの制限を受けずに、コンピュータ解析だけで、特定の場所（位置）に局在する配列を効率よく且つ効果的に抽出することができるという効果を奏する。また、本発明にかかる配列抽出装置よれば、所定長配列が出現する場所に注目し、特定の場所に局在することを指標とすることで、機能性配列の候補を効率よく且つ効果的に抽出することができるという効果を奏する。これにより、入力データである複数の比較配列情報は互いに機能的に関連性を持っている必要が無く、その結果、本発明では、従来のように入力データを事前に実験などで取得しておく必要は無い。つまり、本発明にかかる配列抽出装置よれば、所定長配列情報および複数の比較配列情報に関するテキストデータのみで、機能性配列の候補を効率よく且つ効果的に抽出することができるという効果を奏する。

本発明にかかる配列抽出装置よれば、出現位置の検索において、所定長配列を比較配列中で移動し、移動した位置において、所定長配列とこれに対応する比較配列の部分とが完全に又は部分的に一致するか否かを判定し、その判定結果が完全に又は部分的に一致するというものであった場合、移動した位置を出現位置として決定し、所定長配列の移動、一致の判定および出現位置の決定を繰り返し実行するので、出現位置の検索を、複雑なアルゴリズムを用いず簡単に行うことができるという効果を奏する。

本発明にかかる配列抽出装置よれば、出現頻度情報に基づいて閾値情報を設定し、出現頻度情報および設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較するので、入力データ（所定長配列情報および比較配列情報）に対応した最適な閾値を設定することができ、結果的に出現頻度と閾値との比較結果の精度を高めることができるという効果を奏する。

本発明にかかる配列抽出装置よれば、出現頻度情報を表示し、表示した出現頻度情報について閾値情報を設定させ、閾値情報が設定された場合、出現頻度情報および設定された閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較するので、入力データ（所定長配列情報および比較配列情報）に対応した最適な閾値を利用者に設定させることができ、結果的に出現頻度と閾値との比較結果の精度を高めることができるという効果を奏する。

本発明にかかる配列抽出装置よれば、取得した所定長配列情報に基づいて、所定長配列と同じ長さで且つそれを構成する塩基またはアミノ酸が所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成し、生成した同一長異種配列情報について、少なくとも出現位置の検索、出現頻度の算出および出現頻度と閾値との比較を実行するので、所定長配列情報と共に同一長異種配列情報についても、コンピュータ解析だけで、特定の場所（位置）に局在する配列を効率よく且つ効果的に抽出することができるという効果を奏する。すなわち、所定長配列情報に基づいて生成され得る全ての配列情報について、特定の場所（位置）に局在する配列を網羅的に且つさらに効率よく抽出することができるという効果を奏する。

本発明にかかる配列抽出方法よれば、塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および配列であって所定長配列の比較対象となる所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得し、取得した所定長配列情報および複数の比較配列情報に基づいて、比較配列ごとに、所定長配列が当該比較配列中に出現する位置である出現位置を検索し、検索した出現位置に関する出現位置情報に基づいて、比較配列中の位置ごとに、当該位置で所定長配列が出現する頻度である出現頻度を算出し、算出した出現頻度に関する出現頻度情報および閾値に関する予め設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較するので、入力データの制限を受けずに、コンピュータ解析だけで、特定の場所（位置）に局在する配列を効率よく且つ効果的に抽出することができるという効果を奏する。また、本発明にかかる配列抽出方法よれば、所定長配列が出現する場所に注目し、特定の場所に局在することを指標とすることで、機能性配列の候補を効率よく且つ効果的に抽出することができるという効果を奏する。これにより、入力データである複数の比較配列情報は互いに機能的に関連性を持っている必要が無く、その結果、本発明では、従来のように入力データを事前に実験などで取得しておく必要は無い。つまり、本発明にかかる配列抽出方法よれば、所定長配列情報および複数の比較配列情報に関するテキストデータのみで、機能性配列の候補を効率よく且つ効果的に抽出することができるという効果を奏する。

本発明にかかる配列抽出方法よれば、出現位置の検索において、所定長配列を比較配列中で移動し、移動した位置において、所定長配列とこれに対応する比較配列の部分とが完全に又は部分的に一致するか否かを判定し、その判定結果が完全に又は部分的に一致するというものであった場合、移動した位置を出現位置として決定し、所定長配列の移動、一致の判定および出現位置の決定を繰り返し実行するので、出現位置の検索を、複雑なアルゴリズムを用いず簡単に行うことができるという効果を奏する。

本発明にかかる配列抽出方法よれば、出現頻度情報に基づいて閾値情報を設定し、出現頻度情報および設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較するので、入力データ（所定長配列情報および比較配列情報）に対応した最適な閾値を設定することができ、結果的に出現頻度と閾値との比較結果の精度を高めることができるという効果を奏する。

本発明にかかる配列抽出方法よれば、出現頻度情報を表示し、表示した出現頻度情報について閾値情報を設定させ、閾値情報が設定された場合、出現頻度情報および設定された閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較するので、入力データ（所定長配列情報および比較配列情報）に対応した最適な閾値を利用者に設定させることができ、結果的に出現頻度と閾値との比較結果の精度を高めることができるという効果を奏する。

本発明にかかる配列抽出方法よれば、取得した所定長配列情報に基づいて、所定長配列と同じ長さで且つそれを構成する塩基またはアミノ酸が所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成し、生成した同一長異種配列情報について、少なくとも出現位置の検索、出現頻度の算出および出現頻度と閾値との比較を実行するので、所定長配列情報と共に同一長異種配列情報についても、コンピュータ解析だけで、特定の場所（位置）に局在する配列を効率よく且つ効果的に抽出することができるという効果を奏する。すなわち、所定長配列情報に基づいて生成され得る全ての配列情報について、特定の場所（位置）に局在する配列を網羅的に且つさらに効率よく抽出することができるという効果を奏する。

本発明にかかるプログラムよれば、塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および配列であって所定長配列の比較対象となる所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得し、取得した所定長配列情報および複数の比較配列情報に基づいて、比較配列ごとに、所定長配列が当該比較配列中に出現する位置である出現位置を検索し、検索した出現位置に関する出現位置情報に基づいて、比較配列中の位置ごとに、当該位置で所定長配列が出現する頻度である出現頻度を算出し、算出した出現頻度に関する出現頻度情報および閾値に関する予め設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較するので、入力データの制限を受けずに、コンピュータ解析だけで、特定の場所（位置）に局在する配列を効率よく且つ効果的に抽出することができるという効果を奏する。また、本発明にかかるプログラムよれば、所定長配列が出現する場所に注目し、特定の場所に局在することを指標とすることで、機能性配列の候補を効率よく且つ効果的に抽出することができるという効果を奏する。これにより、入力データである複数の比較配列情報は互いに機能的に関連性を持っている必要が無く、その結果、本発明では、従来のように入力データを事前に実験などで取得しておく必要は無い。つまり、本発明にかかるプログラムよれば、所定長配列情報および複数の比較配列情報に関するテキストデータのみで、機能性配列の候補を効率よく且つ効果的に抽出することができるという効果を奏する。

本発明にかかるプログラムよれば、出現位置の検索において、所定長配列を比較配列中で移動し、移動した位置において、所定長配列とこれに対応する比較配列の部分とが完全に又は部分的に一致するか否かを判定し、その判定結果が完全に又は部分的に一致するというものであった場合、移動した位置を出現位置として決定し、所定長配列の移動、一致の判定および出現位置の決定を繰り返し実行するので、出現位置の検索を、複雑なアルゴリズムを用いず簡単に行うことができるという効果を奏する。

本発明にかかるプログラムよれば、出現頻度情報に基づいて閾値情報を設定し、出現頻度情報および設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較するので、入力データ（所定長配列情報および比較配列情報）に対応した最適な閾値を設定することができ、結果的に出現頻度と閾値との比較結果の精度を高めることができるという効果を奏する。

本発明にかかるプログラムよれば、出現頻度情報を表示し、表示した出現頻度情報について閾値情報を設定させ、閾値情報が設定された場合、出現頻度情報および設定された閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較するので、入力データ（所定長配列情報および比較配列情報）に対応した最適な閾値を利用者に設定させることができ、結果的に出現頻度と閾値との比較結果の精度を高めることができるという効果を奏する。

本発明にかかるプログラムよれば、取得した所定長配列情報に基づいて、所定長配列と同じ長さで且つそれを構成する塩基またはアミノ酸が所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成し、生成した同一長異種配列情報について、少なくとも出現位置の検索、出現頻度の算出および出現頻度と閾値との比較を実行するので、所定長配列情報と共に同一長異種配列情報についても、コンピュータ解析だけで、特定の場所（位置）に局在する配列を効率よく且つ効果的に抽出することができるという効果を奏する。すなわち、所定長配列情報に基づいて生成され得る全ての配列情報について、特定の場所（位置）に局在する配列を網羅的に且つさらに効率よく抽出することができるという効果を奏する。

本発明にかかる記録媒体によれば、コンピュータ読み取り可能なものであり、本発明にかかるプログラムを記録するので、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行させることによって本発明にかかるプログラムをコンピュータを利用して実現することができ、本発明にかかるプログラムと同様の効果を得ることができる。

以下に、本発明にかかる配列抽出装置、配列抽出方法、プログラムおよび記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、本実施の形態により本発明が限定されるものではない。

［本発明の概要］
まず、本発明の概要について図１を参照して説明する。図１は、本発明の基本原理を示す原理構成図である。

本発明は、「機能を持たない配列はランダムに分布する」ことを仮定することにより、任意の長さの配列の局在を指標として、機能を持った配列候補を抽出することを特徴とし、概略的に以下の基本的特徴を有する。

まず、本発明は、所定長配列情報および複数の比較配列情報を取得し、取得した所定長配列情報を所定長配列情報ファイルの所定の記憶領域に格納すると共に、取得した複数の比較配列情報を比較配列情報データベースの所定の記憶領域に格納する（ステップＳ−１）。なお、所定長配列情報は、塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する情報である。比較配列情報は、塩基またはアミノ酸で構成される配列であって所定長配列の比較対象となる所定の長さ以上の長さを有する比較配列に関する情報である。

つぎに、本発明は、ステップＳ−１で取得した所定長配列情報および複数の比較配列情報に基づいて、比較配列ごとに、所定長配列が当該比較配列中に出現する位置である出現位置を検索し、検索した出現位置に関する出現位置情報を出現位置情報ファイルの所定の記憶領域に格納する（ステップＳ−２）。

ここで、本発明は、ステップＳ−２において、以下の（１）から（４）の処理を、比較配列ごとに行ってもよい。
（１）所定長配列を比較配列中で、或る位置に移動する。
（２）（１）で移動した位置において、所定長配列とこれに対応する比較配列の部分とが完全に又は部分的に一致するか否かを判定する。
（３）（２）での判定結果が完全に又は部分的に一致するというものであった場合には、（１）で移動した位置を出現位置として決定する。
（４）（１）、（２）および（３）の処理を、比較配列中の全ての位置で網羅的に実行する。
なお、上述した（２）の処理においては、所定長配列とこれに対応する比較配列の部分とが完全に一致している場合に、これらが一致すると判定してもよく、また、所定長配列とこれに対応する比較配列の部分とが完全に一致していない場合であっても、これらの不一致の程度に応じて（例えば１つの塩基又は１つのアミノ酸の相違といった程度の不一致であれば）これらの配列が一致すると判定してもよい。具体的には、所定長配列および比較配列が塩基配列である場合、上述した（２）の処理においては、例えば「ＧＡＣＴＣ」で表される所定長配列を「ＧＡＮＴＣ」のような配列（Ｎは任意の塩基を表す。）に置き換え、この置き換えた配列とこれに対応する比較配列の部分とが完全に一致するか否かを判定してもよい。つまり、Ｎに対応する塩基以外の塩基が完全に一致するか否かを判定してもよい。

つぎに、本発明は、ステップＳ−２で検索した出現位置情報に基づいて、比較配列中の位置ごとに、当該位置で所定長配列が出現する頻度である出現頻度を算出し、算出した出現頻度に関する情報である出現頻度情報を出現頻度情報ファイルの所定の記憶領域に格納する（ステップＳ−３）。

つぎに、本発明は、ステップＳ−３で算出した出現頻度情報および閾値に関する予め設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較し、その比較結果に関する情報である比較結果情報を比較結果情報ファイルの所定の記憶領域に格納する（ステップＳ−４）。

ここで、本発明は、ステップＳ−３で算出した出現頻度情報に基づいて閾値情報を設定してもよい。具体的には、本発明は、閾値を、以下の（Ａ）から（Ｃ）の条件を全て満たすようなものに設定してもよい。そして、本発明は、閾値情報を設定した場合、ステップＳ−４において、出現頻度情報および設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較してもよい。
（Ａ）極大ピーク値（出現頻度の極大値）が閾値のＮ₀倍以上である。Ｎ₀は実数であり、例えば５などである。
（Ｂ）極大ピーク値が、全体の出現頻度から算出した標準偏差（ＳＤ）のＮ₁倍以上である。Ｎ₁は実数であり、例えば５などである。
（Ｃ）出現頻度を縦軸とし位置を横軸とするグラフにおいて、極大ピーク位置（極大ピーク値に対応する位置）から最も近くに存在する当該極大ピーク位置の両側の極小ピーク位置（極小ピーク値（出現頻度の極小値）に対応する位置）で挟まれた領域（出現頻度に関する領域）を閾値を表す直線で仕切ることで形成された２つの領域の面積の比が、Ｎ₂以上または１／Ｎ₂倍以下である。Ｎ₂は実数であり、例えば５などである。

また、本発明は、ステップＳ−３で算出した出現頻度情報をモニタなどの出力装置に例えばグラフ（例えば出現頻度を縦軸とし位置を横軸とするグラフ（例えば折れ線グラフや棒グラフなど））などで表示し、表示した出現頻度情報について閾値情報を利用者に設定させてもよい。そして、本発明は、利用者により閾値情報が設定された場合、ステップＳ−４において、ステップＳ−３で算出した出現頻度情報および利用者により設定された閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較してもよい。

また、本発明は、ステップＳ−１で取得した所定長配列情報に基づいて、１つまたは複数の同一長異種配列情報を生成し、生成した同一長異種配列情報を所定長配列情報ファイル１０６ａの所定の記憶領域に格納してもよい。そして、本発明は、１つまたは複数の同一長異種配列情報を生成した場合、生成した同一長異種配列情報について、少なくともステップＳ−２、ステップＳ−３およびステップＳ−４を実行してもよい。なお、同一長異種配列情報は、所定長配列と同じ長さで且つそれを構成する塩基またはアミノ酸が所定長配列と異なる同一長異種配列に関するものである。ここで、本明細書では、同一長異種配列情報を、所定長配列情報と区別せずに、所定長配列情報という場合がある。

［システム構成］
つぎに、本実施の形態にかかる配列抽出装置１００の構成について、図２から図７を参照して説明する。図２は、配列抽出装置１００の構成を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。

配列抽出装置１００は、当該配列抽出装置を統括的に制御するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の制御部１０２と、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して当該配列抽出装置をネットワーク３００に通信可能に接続する通信インターフェース部１０４と、各種のデータベースやテーブルやファイルなどを格納する記憶部１０６と、入力装置１１０や出力装置１１２に接続する入出力インターフェース部１０８と、で構成されており、これら各部は任意の通信路を介して通信可能に接続されている。

記憶部１０６は、ストレージ手段であり、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）やＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等のメモリ装置や、ＨＤ（ＨａｒｄＤｉｓｋ：ハードディスク）のような固定ディスク装置や、フレキシブルディスクや、光ディスク等を用いることができる。そして、記憶部１０６は、図示の如く、所定長配列情報ファイル１０６ａと、比較配列情報データベース１０６ｂと、出現位置情報ファイル１０６ｃと、出現頻度情報ファイル１０６ｄと、比較結果情報ファイル１０６ｅと、を格納する。なお、記憶部１０６は、各種のファイル（所定長配列情報ファイル１０６ａ〜比較結果情報ファイル１０６ｅ）を格納する他、制御部１０２で実行する各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。

所定長配列情報ファイル１０６ａは複数の所定長配列情報（同一長異種配列情報を含む）を格納する。ここで、所定長配列情報ファイル１０６ａに格納される情報について図３を参照して説明する。図３は、所定長配列情報ファイル１０６ａに格納される情報の一例を示す図である。図３に示すように、所定長配列情報ファイル１０６ａは、所定長配列を一意に識別するための所定長配列識別情報（例えば番号やＩＤなど）と所定長配列情報とを相互に関連付けて格納する。なお、例えば図３に示すように所定長配列が塩基配列でありその長さが６である場合、同一長異種配列情報も含めた所定長配列情報の数の最大値は、４種類の塩基（Ａ、Ｇ、Ｃ、Ｔ）を６個並べた際の順列の総数と一致し、４０９６（＝４⁶）である。

図２に戻り、比較配列情報データベース１０６ｂは複数の比較配列情報を格納する。ここで、比較配列情報データベース１０６ｂに格納される情報について図４を参照して説明する。図４は、比較配列情報データベース１０６ｂに格納される情報の一例を示す図である。図４に示すように、比較配列情報データベース１０６ｂは、比較配列を一意に識別するための比較配列識別情報（例えば番号やＩＤなど）と比較配列情報とを相互に関連付けて格納する。なお、比較配列情報データベース１０６ｂは、インターネットを経由してアクセスする外部の配列情報データベースであってもよく、また、これらのデータベースをコピーしたり、オリジナルの配列情報を格納したり、さらに独自のアノテーション情報等を付加したりして作成したインハウスデータベースであってもよい。

図２に戻り、出現位置情報ファイル１０６ｃは所定長配列情報ごとに複数の出現位置情報を格納する。ここで、出現位置情報ファイル１０６ｃに格納される情報について図５を参照して説明する。図５は、出現位置情報ファイル１０６ｃに格納される情報の一例を示す図である。図５に示すように、出現位置情報ファイル１０６ｃは、所定長配列識別情報をタグとして、比較配列識別情報と出現位置情報とを相互に関連付けて格納する。なお、比較配列がプロモーター配列である場合には、出現位置情報は、図５に示すように、負数で表してもよい。

図２に戻り、出現頻度情報ファイル１０６ｄは所定長配列情報ごとに複数の出現頻度情報を格納する。ここで、出現頻度情報ファイル１０６ｄに格納される情報について図６を参照して説明する。図６は、出現頻度情報ファイル１０６ｄに格納される情報の一例を示す図である。図６に示すように、出現頻度情報ファイル１０６ｄは、所定長配列識別情報をタグとして、比較配列中の位置を一意に識別するための比較配列位置識別情報（例えば番号やＩＤなど）と出現頻度情報とを相互に関連付けて格納する。

図２に戻り、比較結果情報ファイル１０６ｅは所定長配列情報ごとに複数の比較結果情報を格納する。ここで、比較結果情報ファイル１０６ｅに格納される情報について図７を参照して説明する。図７は、比較結果情報ファイル１０６ｅに格納される情報の一例を示す図である。図７に示すように、比較結果情報ファイル１０６ｅは、所定長配列識別情報をタグとして、比較配列位置識別情報と比較結果情報とを相互に関連付けて格納する。なお、比較結果情報の欄には、比較結果を識別することができるように、例えば図７に示すように「Ｐｏｓｉｔｉｖｅ」や「Ｎｅｇａｔｉｖｅ」などで表してもよい。

図２に戻り、通信インターフェース部１０４は配列抽出装置１００とネットワーク３００（またはルータ等の通信装置）との間における通信を媒介する。すなわち、通信インターフェース部１０４は他の端末と通信回線を介してデータを通信する機能を有する。

入出力インターフェース部１０８は入力装置１１０や出力装置１１２に接続する。ここで、出力装置１１２には、モニタ（家庭用テレビを含む）の他、スピーカやプリンタを用いることができる（なお、以下で、出力装置１１２をモニタとして記載する場合がある。）。また、入力装置１１０には、キーボードやマウスやマイクの他、マウスと協働してポインティングデバイス機能を実現するモニタを用いることができる。

制御部１０２は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、各種の処理手順等を規定したプログラムおよび所要データを格納するための内部メモリを有し、これらのプログラムに基づいて種々の処理を実行するための情報処理を行う。そして、制御部１０２は、図示の如く、大別して、取得部１０２ａと生成部１０２ｂと検索部１０２ｃと算出部１０２ｄと比較部１０２ｅと表示部１０２ｆと設定部１０２ｇとを備えている。

取得部１０２ａは所定長配列情報および複数の比較配列情報を取得し、取得した所定長配列情報を所定長配列情報ファイル１０６ａの所定の記憶領域に格納すると共に、取得した複数の比較配列情報を比較配列情報データベース１０６ｂの所定の記憶領域に格納する。

生成部１０２ｂは、取得部１０２ａで取得した所定長配列情報に基づいて１つまたは複数の同一長異種配列情報を生成し、生成した同一長異種配列情報を所定長配列情報ファイル１０６ａの所定の記憶領域に格納する。なお、例えば図３に示すように所定長配列が塩基配列でありその長さが６である場合、所定長配列情報に基づいて、４種類の塩基（Ａ、Ｇ、Ｃ、Ｔ）を６個並べた際の順列の総数である４０９６（＝４⁶）個の同一長異種配列情報（入力された所定長配列情報を含む）を生成してもよい。

検索部１０２ｃは、取得部１０２ａで取得した所定長配列情報（生成部１０２ｂで生成した同一長異種配列情報を含む）および複数の比較配列情報に基づいて、比較配列ごとに、所定長配列が当該比較配列中に出現する位置である出現位置を検索し、その検索結果としての出現位置情報を出現位置情報ファイル１０６ｃの所定の記憶領域に格納する。ここで、検索部１０２ｃは、移動部１０２ｃ１と判定部１０２ｃ２と決定部１０２ｃ３とをさらに備えている。移動部１０２ｃ１は、所定長配列を比較配列中で或る位置に移動する。判定部１０２ｃ２は、移動部１０２ｃ１で移動した位置において、所定長配列とこれに対応する比較配列の部分とが完全に又は部分的に一致するか否かを判定する。決定部１０２ｃ３は、判定部１０２ｃ２での判定結果が完全に又は部分的に一致するというものであった場合には、移動部１０２ｃ１で移動した位置を出現位置として決定する。

算出部１０２ｄは、検索部１０２ｃで検索した出現位置情報に基づいて、比較配列中の位置ごとに、当該位置で所定長配列が出現する頻度である出現頻度を算出し、その算出結果としての出現頻度情報を出現頻度情報ファイル１０６ｄの所定の記憶領域に格納する。

比較部１０２ｅは、算出部１０２ｄで算出した出現頻度情報および予め設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較し、その比較結果としての比較結果情報を比較結果情報ファイル１０６ｅの所定の記憶領域に格納する。

設定部１０２ｆは、出現頻度情報に基づいて閾値情報を設定する。なお、設定部１０２ｆで閾値情報を設定した場合、比較部１０２ｅは、出現頻度情報および当該設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較してもよい。

表示部１０２ｇは出現頻度情報を出力装置１１２に例えばグラフなどで表示する。なお、表示部１０２ｇで出現頻度情報を出力装置１１２に表示した場合、設定部１０２ｆは、当該表示した出現頻度情報について利用者に入力装置１１０を介して閾値情報を設定させてもよい。そして、設定部１０２ｆで利用者により閾値情報が設定された場合、比較部１０２ｅは、出現頻度情報および当該設定された閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値とを比較してもよい。

外部システム２００は、ネットワーク３００を介して配列抽出装置１００と相互に通信可能に接続され、例えば比較配列情報等に関する外部データベースや、例えば上述した出現位置の検索や出現頻度の算出や出現頻度と閾値との比較や閾値情報の設定や出現頻度情報の表示や同一長異種配列情報の生成などの処理を実行するための外部プログラム等を提供する機能などを有する。ここで、外部システム２００は、ＷＥＢサーバやＡＳＰサーバ等として構成してもよく、そのハードウェアは一般に市販されるワークステーションやパーソナルコンピュータ等の情報処理装置およびその付属装置で構成してもよい。また、外部システム２００の各機能は、外部システム２００のハードウェア構成中のＣＰＵやディスク装置やメモリ装置や入力装置や出力装置や通信制御装置等、およびそれらを制御するプログラム等で実現される。

ネットワーク３００は、配列抽出装置１００と外部システム２００とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、ＬＡＮ（有線／無線の双方を含む）や、ＶＡＮや、パソコン通信網や、公衆電話網（アナログ／デジタルの双方を含む）や、専用回線網（アナログ／デジタルの双方を含む）や、ＣＡＴＶ網や、ＩＭＴ２０００方式、ＧＳＭ方式またはＰＤＣ／ＰＤＣ−Ｐ方式等の携帯回線交換網／携帯パケット交換網や、無線呼出網や、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の局所無線網や、ＰＨＳ網や、ＣＳ、ＢＳまたはＩＳＤＢ等の衛星通信網等のうちいずれかを含んでもよい。これにより、配列抽出装置１００は、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。

［システムの処理］
つぎに、配列抽出装置１００の制御部１０２で行うメイン処理を、図８等を参照して説明する。図８は、配列抽出装置１００の制御部１０２で行うメイン処理の一例を示すフローチャートである。

まず、制御部１０２は、取得部１０２ａの処理により、所定長配列情報および複数の比較配列情報を取得し、取得した所定長配列情報を所定長配列情報ファイル１０６ａの所定の記憶領域に格納すると共に、取得した複数の比較配列情報を比較配列情報データベース１０６ｂの所定の記憶領域に格納する（ステップＳＡ−１）。

つぎに、制御部１０２は、生成部１０２ｂの処理により、所定長配列情報ファイル１０６ａに格納した所定長配列情報に基づいて、当該所定長配列情報から生成され得る全種類の同一長異種配列情報を生成し、生成した全ての同一長異種配列情報を所定長配列情報ファイル１０６ａの所定の記憶領域に格納する（ステップＳＡ−２）。なお、例えば図３に示すように所定長配列が塩基配列でありその長さが６である場合、ステップＳＡ−２では、所定長配列情報に基づいて、４種類の塩基（Ａ、Ｇ、Ｃ、Ｔ）を６個並べた際の順列の総数である４０９６（＝４⁶）個の同一長異種配列情報（入力された所定長配列情報を含む）を生成してもよい。

つぎに、制御部１０２は、検索部１０２ｃの処理により、所定長配列情報ファイル１０６ａに格納した全ての所定長配列情報（同一長異種配列情報を含む）および比較配列情報データベース１０６ｂに格納した複数の比較配列情報に基づいて、比較配列ごとに、所定長配列の出現位置を検索し、検索した出現位置に関する出現位置情報を出現位置情報ファイル１０６ｃの所定の記憶領域に格納する（ステップＳＡ−３：検索処理）。ここで、検索部１０２ｃで行う検索処理について図９を参照して説明する。図９は、検索部１０２ｃで行う検索処理の一例を示すフローチャートである。

まず、検索部１０２ｃは、移動部１０２ｃ１の処理により、所定長配列の一つの末端が比較配列のいずれかの末端に揃うように、所定長配列を比較配列中で移動する（ステップＳＢ−１）。

つぎに、検索部１０２ｃは、判定部１０２ｃ１の処理により、ステップＳＢ−１で移動した位置において、所定長配列とこれに対応する比較配列の部分とが完全に又は部分的に一致するか否かを判定する（ステップＳＢ−２）。換言すると、所定長配列とこれに対応する比較配列の部分とが完全に一致している場合に、これらが一致すると判定してもよく、また、所定長配列とこれに対応する比較配列の部分とが完全に一致していない場合であっても、これらの不一致の程度に応じて（例えば１つの塩基又は１つのアミノ酸の相違といった程度の不一致であれば）これらの配列が一致すると判定してもよい。具体的には、所定長配列および比較配列が塩基配列である場合、ステップＳＢ−２においては、例えば「ＧＡＣＴＣ」で表される所定長配列を「ＧＡＮＴＣ」のような配列（Ｎは任意の塩基を表す。）に置き換え、この置き換えた配列とこれに対応する比較配列の部分とが完全に一致するか否かを判定してもよい。つまり、Ｎに対応する塩基以外の塩基が完全に一致するか否かを判定してもよい。

つぎに、検索部１０２ｃは、ステップＳＢ−２での判定結果が「完全に又は部分的に一致する」というものであった場合（ステップＳＢ−３：Ｙｅｓ）、決定部１０２ｃ２の処理により、ステップＳＢ−１で移動した位置を出現位置として決定し、その決定した出現位置に関する出現位置情報を出現位置情報ファイル１０６ｃの所定の記憶領域に格納し（ステップＳＢ−４）、ステップＳＢ−２での判定結果が「完全に又は部分的に一致する」というものでなかった場合（ステップＳＢ−３：Ｎｏ）、ステップＳＢ−５へ進む。

つぎに、検索部１０２ｃは、所定長配列の残りの末端が比較配列の残りの末端に到達したか否かを確認し、その確認結果が「比較配列の残りの末端に到達した」というものでなかった場合（ステップＳＢ−５：Ｎｏ）、移動部１０２ｃ１の処理により所定長配列を例えば一塩基又は一アミノ酸だけ移動し（ステップＳＢ−６）、ステップＳＢ−２へ戻り、その確認結果が「比較配列の残りの末端に到達した」というものであった場合（ステップＳＢ−５：Ｙｅｓ）、ステップＳＢ−７へ進む。

つぎに、検索部１０２ｃは、比較配列が残っているか否かを確認し、その確認結果が「残っている」というものであった場合（ステップＳＢ−７：Ｙｅｓ）、残りの比較配列についてステップＳＢ−１からステップＳＢ−６の処理を実行し、その確認結果が「残っている」というものでなかった場合（ステップＳＢ−７：Ｎｏ）、ステップＳＢ−８へ進む。

つぎに、検索部１０２ｃは、所定長配列が残っているか否かを確認し、その確認結果が「残っている」というものであった場合（ステップＳＢ−８：Ｙｅｓ）、残りの所定長配列についてステップＳＢ−１からステップＳＢ−６の処理を実行し、その確認結果が「残っている」というものでなかった場合（ステップＳＢ−８：Ｎｏ）、図９に示す検索処理を終了する。

図８に戻り、制御部１０２は、算出部１０２ｄの処理により、出現位置情報ファイル１０６ｃに格納した出現位置情報に基づいて、比較配列中の位置ごとに、所定長配列の出現頻度を算出し、算出した出現頻度に関する情報である出現頻度情報を出現頻度情報ファイル１０６ｄの所定の記憶領域に格納する（ステップＳＡ−４）。

つぎに、制御部１０２は、設定部１０２ｆの処理により、出現頻度情報ファイル１０６ｄに格納した出現頻度情報に基づいて、閾値情報を設定する（ステップＳＡ−５）。ここで、設定部１０２ｆは、閾値を、以下の（Ｉ）から（ＩＩＩ）の条件を全て満たすようなものに設定してもよい。
（Ｉ）極大ピーク値（出現頻度の極大値）が閾値のＮ₀倍以上である。Ｎ₀は実数であり、例えば５などである。
（ＩＩ）極大ピーク値が、全体の出現頻度から算出した標準偏差（ＳＤ）のＮ₁倍以上である。Ｎ₁は実数であり、例えば５などである。
（ＩＩＩ）出現頻度を縦軸とし位置を横軸とするグラフにおいて、極大ピーク位置（極大ピーク値に対応する位置）から最も近くに存在する当該極大ピーク位置の両側の極小ピーク位置（極小ピーク値（出現頻度の極小値）に対応する位置）で挟まれた領域（出現頻度に関する領域）を閾値を表す直線で仕切ることで形成された２つの領域の面積の比が、Ｎ₂以上または１／Ｎ₂倍以下である。Ｎ₂は実数であり、例えば５などである。

つぎに、制御部１０２は、比較部１０２ｅの処理により、出現頻度情報ファイル１０６ｄに格納された出現頻度情報およびステップＳＡ−５で設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較し、その比較結果に関する情報である比較結果情報を比較結果情報ファイル１０６ｅの所定の記憶領域に格納する（ステップＳＡ−６）。

以上、図８に示すメイン処理の一例についての説明を終了する。なお、図１０に示すように、制御部１０２は、表示部１０２ｇの処理により、出現頻度情報ファイル１０６ｄに格納した出現頻度情報を出力装置１１２に例えばグラフ（例えば出現頻度を縦軸とし位置を横軸とするグラフ（例えば折れ線グラフや棒グラフなど））などで表示してもよい（図１０のステップＳＡ−４’）。そして、出現頻度情報を出力装置１１２に表示した場合、ステップＳＡ−５では、制御部１０２は、設定部１０２ｆの処理により、ステップＳＡ−４’で表示した出現頻度情報について閾値情報を利用者に設定させ、ステップＳＡ−６では、制御部１０２は、比較部１０２ｅの処理により、出現頻度情報ファイル１０６ｄに格納された出現頻度情報および利用者により設定された閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較してもよい。

［本実施の形態のまとめ、及び他の実施の形態］
以上説明したように、配列抽出装置１００は、所定長配列情報および複数の比較配列情報を取得し、取得した所定長配列情報および複数の比較配列情報に基づいて、比較配列ごとに、所定長配列が当該比較配列中に出現する位置である出現位置を検索し、検索した記出現位置に関する出現位置情報に基づいて、比較配列中の位置ごとに、当該位置で所定長配列が出現する頻度である出現頻度を算出し、算出した出現頻度に関する出現頻度情報に基づいて閾値に関する閾値情報を設定し、出現頻度情報および設定した閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較する。これにより、入力データの制限を受けずに、コンピュータ解析だけで、特定の場所（位置）に局在する配列を効率よく且つ効果的に抽出することができる。また、配列抽出装置１００よれば、所定長配列が出現する場所に注目し、特定の場所に局在することを指標とすることで、機能性配列の候補を効率よく且つ効果的に抽出することができる。これにより、入力データである複数の比較配列情報は互いに機能的に関連性を持っている必要が無く、その結果、配列抽出装置１００では、従来のように入力データを事前に実験などで取得しておく必要は無い。つまり、配列抽出装置１００よれば、所定長配列情報および複数の比較配列情報に関するテキストデータのみで、機能性配列の候補を効率よく且つ効果的に抽出することができる。また、配列抽出装置１００よれば、入力データ（所定長配列情報および比較配列情報）に対応した最適な閾値を設定することができ、結果的に出現頻度と閾値との比較結果の精度を高めることができる。

また、配列抽出装置１００は、出現位置の検索の処理において、比較配列ごとに、以下の（ａ）から（ｄ）の処理を実行してもよい。これにより、出現位置の検索を、複雑なアルゴリズムを用いず簡単に行うことができる。
（ａ）所定長配列を比較配列中で移動する。
（ｂ）（ａ）で移動した位置において、所定長配列とこれに対応する比較配列の部分とが完全に又は部分的に一致するか否かを判定する。
（ｃ）（ｂ）での判定結果が完全に又は部分的に一致するというものであった場合、（ａ）で移動した位置を出現位置として決定する。
（ｄ）（ａ）から（ｃ）の処理を、比較配列中の全ての位置で網羅的に実行する。

また、配列抽出装置１００は、出現頻度情報を出力装置１１２に表示し、表示した出現頻度情報について閾値情報を設定させてもよい。そして、配列抽出装置１００は、利用者により閾値情報が設定された場合、出現頻度情報および利用者により設定された閾値情報に基づいて、比較配列中の位置ごとに、出現頻度と閾値との大小関係を比較してもよい。これにより、入力データ（所定長配列情報および比較配列情報）に対応した最適な閾値を利用者に設定させることができ、結果的に出現頻度と閾値との比較結果の精度を高めることができる。

また、配列抽出装置１００は、ゲノム配列中に含まれるプロモーター配列を、それらの発現様式などを事前に知ること無しに統計的に解析するので、転写制御配列を含むプロモーター上の機能性配列を多数抽出することができる。換言すると、配列抽出装置１００は、マイクロアレイ実験などで共発現する遺伝子をグルーピングする必要がなく、また比較ゲノムの手法も必要なく、単一のゲノムのプロモーター配列のみから有用情報を抽出することができる。また、配列抽出装置１００は、既知のプロモーターデータベースを材料として、例えば理論上可能な全ての６から８の長さの塩基配列の出現頻度をプロモーター上の位置ごとに決定することができる。これにより、プロモーター上の特定の位置に局在する配列を全て同定することができる。なお、プロモーターの局在を見ることによりプロモーターの構成因子を同定する本方法を、本発明者らはＬＤＳＳ（ＬｏｃａｌＤｉｓｔｒｉｂｕｔｉｏｎＳｈｏｒｔＳｅｑｕｅｎｃｅｓ）と名付けた。本発明にかかる配列抽出方法に含まれる当該ＬＤＳＳ法は、短い配列の局在を指標として、機能を持った配列（例えばタンパク質が結合するＤＮＡ領域など）の候補を提示する方法である。ＬＤＳＳ法は、「配列に意味がなく、単に、スペーサー的な存在であれば、特定の位置に局在せずにランダムに分布する。」との考えに基づくものであり、任意の長さの配列の特定領域への局在を調べることで、機能を持った配列を抽出することができる。なお、本発明は、ＤＮＡやＲＮＡなどの塩基配列やアミノ酸配列などの他、文字の並びとして表現することができる配列であって特定の領域への局在に意味があるものを対象とすることができる。例えば、ＤＮＡの場合であれば、プロモーター以外にも、遺伝子をコードする領域（コーディング領域）やイントロンなどを対象とすることができる。また、ある遺伝子（ＲＮＡやタンパク質でもよい）ファミリーの配列群を対象として本発明を適用すれば、ピークの位置が何か特定の機能の発現に関与していると推測することができる。

また、ＧｉｂｂｓＳａｍｐｌｅｒ法やＭＥＭＥ法では、グループ内でのコンセンサスとして認識できない存在比の低い有用配列を抽出する場合には、実験による共発現データを用いてサブグループを設定し、当該有用配列をその中で主要な配列として抽出する。ところが、配列抽出装置１００は、配列間の頻度を比較するこれら方法とは異なり、配列の挙動（出現場所）を解析するので、存在比の少ない有用配列であっても確実に抽出することが可能である。

また、配列抽出装置１００で抽出した塩基配列は、未知のプロモーターの予測や未知遺伝子の発現様式の推定や、未知遺伝子のクラスタリングなどに好適に利用することができる。配列抽出装置１００で抽出した塩基配列は、プロモーター予測の基本となるデータとなる。例えば、プロモーターとして実験的に同定されている配列については、その機能的な構造を同定するデータとすることができる。また、特定の転写制御配列を共有するグループを検索することで、実験による発現データを用いずとも、共発現する遺伝子グループを予測することが可能である。また、同一グループに存在する機能既知の遺伝子を参照すれば、未知遺伝子の機能予測を行うことができる。また、比較ゲノムのツールとして、異種間のプロモーター構造がどのように保存されているか（又は保存されていないか）を解析するツールとしても有用である。

また、これまでは既知の転写制御配列の数が少なかったため、プロモーターのアノテーションをゲノム上の全ての遺伝子についてカバーするのは不可能に近かったが、配列抽出装置１００で抽出した塩基配列（プロモーターを構成する配列）はゲノムあたり１，０００個程度に及ぶので、これらの配列を用いれば、ほぼ全てのプロモーターに関して何らかのアノテーションを付けることができる。プロモーター上の特定の位置に局在するというのは、その配列がその位置に存在するような淘汰圧が存在してきた（換言すると、その配列がその位置で機能することで個体に生物学的な有利さが与えられた）ということであるので、局在はその特定の位置での機能を強く示唆するものと考えられる。また、配列抽出装置１００で抽出した塩基配列を基にして、ゲノムに含まれるプロモーター全体のクラスタリングも可能になる。クラスタリングができることは、プロモーターを予測する上でも必須である。

また、配列抽出装置１００において実現されるＬＤＳＳ法で実際に植物ゲノムから、短い配列を抽出すると、局在位置に従い、ＴＡＴＡボックスや転写制御配列などを含む３つのタイプのグループに分類することができた。しかも、各グループ内の配列は、ＴＡＴＡボックスや転写制御配列としての特徴を備えていた。このことから、配列抽出装置１００において実現されるＬＤＳＳ法で転写制御配列のグループに分類された配列は、既知又は未知の転写制御配列であると考えることができる。配列抽出装置１００において実現されるＬＤＳＳ法により、植物からは１００個から２００個程度の新規の転写制御配列の候補を抽出することができた。なお、本発明は、原理的に、植物ゲノムのみならず、バクテリアなどの微生物や動物ゲノムなどにも適用可能である。

また、例えば図１１に示すように、配列抽出装置１００で抽出した塩基配列を、プロモーターのアノテーションに利用することができる。具体的には、プロモーター領域のＤＮＡ配列を基に、コアプロモーターを構成するシス因子が存在する位置や転写制御を担うシス因子が存在する位置を推定することができる。つまり、プロモーター配列に付加情報を加えることができる。なお、プロモーターとは、遺伝子の上流に存在するＤＮＡ領域で、遺伝子を、「いつ」・「どのような状況下で」・「どの程度の量」発現させるのかを決定する。また、プロモーター領域には多数のシス制御配列が存在しており、それを認識する多様な転写因子の作用によって遺伝子の転写活性が制御されている。シス制御配列の中には、細胞内外のシグナルに応答した転写調節に関与するものなどがある。

また、例えば図１２に示すように、配列抽出装置１００で抽出した塩基配列を、プロモーターと機能性配列との２次元クラスタリングに利用することができる。具体的には、プロモーターのアノテーションを指標として、アノテーションが似ているプロモーター同士は近い関係にあるものとし、また近い関係にあるプロモーターに共通して現れるシス配列は近い関係にあるものとして整理（クラスタリング）する。クラスター化された各グループ（プロモーター遺伝子、シス配列）は、似通った機能や発現パターンを示すと予想できるため、遺伝子発現パターン、遺伝子機能、シス配列機能の予測に役立てることができる。

また、例えば図１３に示すように、配列抽出装置１００で抽出した塩基配列を、プロモーター配列の予測に利用することができる。具体的には、ゲノム配列上に抽出したモチーフをマッピングし、転写制御配列の密度やコアプロモーター因子の位置などを指標としてプロモーターの位置を予測することができる。

また、本発明は、上述した実施の形態以外にも、特許請求の範囲の書類に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。例えば、配列抽出装置１００は、当該配列抽出装置とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。また、本実施の形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。

また、配列抽出装置１００に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、配列抽出装置１００の各部または各装置が備える処理機能、特に制御部１０２にて行なわれる各処理機能については、その全部または任意の一部を、ＣＰＵおよび当該ＣＰＵにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、本発明にかかるプログラムは、後述する記録媒体に記録されており、必要に応じて配列抽出装置１００に機械的に読み取られる。すなわち、ＲＯＭまたはＨＤなどの記憶部１０６などには、ＯＳと協働してＣＰＵに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、ＲＡＭ等にロードされることによって実行され、ＣＰＵと協働して制御部１０２を構成する。また、このコンピュータプログラムは、配列抽出装置１００に対して任意のネットワーク３００を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。

また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるＲＯＭ、ＲＡＭ、ＨＤ等の任意の「固定用の物理媒体」、あるいは、ＬＡＮ、ＷＡＮ、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、ＯＳに代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。

また、配列抽出装置１００は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明にかかる配列抽出方法を実現させるソフトウェア（プログラム、データ等を含む）を実装することにより実現してもよい。

さらに、配列抽出装置１００の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をＣＧＩ（ＣｏｍｍｏｎＧａｔｅｗａｙＩｎｔｅｒｆａｃｅ）を用いて実現してもよい。

ここでは、上述したＬＤＳＳ法を実現する配列抽出装置１００を用いた実施例１について図１４を参照して説明する。

まず、既知のゲノム情報などに基づいてデータベース（上述した実施の形態における比較配列情報データベース１０６ｂに相当）を用意した。具体的には、シロイヌナズナおよびイネのゲノムＤＮＡ配列から、転写開始点の上流の１，０００ｂｐの領域を切り出した。その内、シロイヌナズナで約１３，０００個、イネで約２０，４００個の互いに重複しない配列を、上述した実施の形態における比較配列情報として使用した。また、長さが６の塩基配列を、上述した実施の形態における所定長配列として使用した。なお、所定長配列として使用した塩基配列の総数は、４種類の塩基（Ａ、Ｇ、Ｃ、Ｔ）の組み合わせで得られる４，０９６（＝４⁶）種類である。

つぎに、これら用意したデータを配列抽出装置１００に入力した。なお、配列抽出装置１００では、所定長配列として用意した４，０９６個の塩基配列について、比較配列として用意したシロイヌナズナの約１３，０００個の塩基配列上における出現位置を検索して（当該検索は、配列同士が完全に一致する場合のみに限定して行った。）、その位置での出現回数を算出し、出現回数を集計して特定の位置に局在があるものを抽出した。また、配列抽出装置１００では、所定長配列として用意した４，０９６個の塩基配列について、比較配列として用意したイネの約２０，４００個の塩基配列上における出現位置を検索して出現回数を算出し、出現回数を集計して特定の位置に局在があるものを抽出した。なお、抽出の際の閾値の設定の仕方については上述した実施の形態における設定の仕方と同様である。

そして、配列抽出装置１００で抽出した結果、機能性配列の候補として、シロイヌナズナで３２８種類、イネで４４３種類が抽出された。ここで、イネにおける抽出結果の一例について図１４に示す。図１４は、イネにおける抽出結果の一例を示す図である。

さらに、３２８種類の機能性配列の候補、４４３種類の機能性配列の候補について、これまでに報告されている機能性配列との一致を調査した。その結果、シロイヌナズナで１７３種類、イネで２５５種類の配列が既知の機能性配列と一致していた。このことから、配列抽出装置１００により、実験データが全く無い状態で、配列データだけを利用して、機能性配列の候補を高精度に抽出できることが示された。

ここでは、上述した実施例１で抽出した機能性配列の候補の有効性を検討するため、既知の実験データとの比較を行った。

図１５は、実施例１でのシロイヌナズナにおける抽出結果を表示した図である。グラフのＸ軸は転写開始点からの距離（数字が小さくなるほど転写開始点から遠い）を示し、グラフのＹ軸は出現頻度を示す。図１６は、Ｔｒｅｍｏｕｓａｙｇｕｅらが報告したシロイヌナズナの根における遺伝子発現を可視化した例を示す図である（「Ｔｒｅｍｏｕｓａｙｇｕｅｅｔａｌ．，ＰｌａｎｔＪ．，３３，９６７，２００３」参照）。図１６に示すように、ＴＧＧＧＣＣを有する配列を導入した場合には遺伝子が発現しており（青く染まっている領域）、この配列を２塩基変異させた配列（ＴＧＡＡＣＣ）を導入した場合には機能を失い、遺伝子が発現しなくなっている。

実施例１でのシロイヌナズナにおける抽出結果と比較すると、遺伝子発現が見られた「ＴＧＧＧＣＣ」では図１５に示すように−２００から０の位置の間に顕著なピークが存在することが目視で確認できる。なお、配列抽出装置１００において自動的に閾値を設定して配列を抽出した場合にも、目視での確認結果と同様、同じピークがあることを示す「Ｐｏｓｉｔｉｖｅ」という結果で抽出された。一方、実験で遺伝子の発現が見られなかった「ＴＧＡＡＣＣ」のグラフを見ると、図１５に示すように平坦なグラフとなっており、ピークが存在しないことが目視で確認できる。なお、配列抽出装置１００において自動的に閾値を設定して配列を抽出した場合にも、目視での確認結果と同様、ピークがないことを示す「Ｎｅｇａｔｉｖｅ」という結果で抽出された。

このことから、配列抽出装置１００でのピークの有無は、実験による遺伝子発現の有無とよく対応しており、本発明の有効性が実証された。なお、図１５における「ｒａｎｄｏｍｇｅｎｏｍｅ」についてのグラフは、ゲノム配列からランダムに切り出した配列（１，０００ｂｐの領域）を上述した実施の形態の比較配列とした場合における配列抽出装置１００での抽出結果を表示したものである。図１５における「ｒａｎｄｏｍｇｅｎｏｍｅ」についてのグラフは、「ＴＧＧＧＣＣ」のグラフや「ＣＴＣＴＴＣ」のグラフや「ＣＴＡＴＡＡ」のグラフでのピークが、プロモーター領域に特異的なものであることを証明するために示した。「ｒａｎｄｏｍｇｅｎｏｍｅ」についてのグラフでは、いずれもピークが確認できないので、これら配列の−２００の位置の近傍におけるピークがプロモーター領域に特有のものであることが示された。

ここでは、ＬＤＳＳ法を実現する配列抽出装置１００の特徴である「配列の局在性の有無を指標とした」ことについて従来法と比較して、本方法の有効性を検討した。

ＬＤＳＳ法では、「機能を持たない配列はランダムに分布する」ことを仮定して、任意の長さの配列の局在を指標として、機能性配列の候補を抽出する。そこで、当該方法の有効性を検討した。

ゲノム配列上には、反復配列のような、特に意味は無いと考えられているが頻繁に出現する配列が存在する。このような配列は、プロモーター領域にも存在し、例えばイネのプロモーター領域を対象として８塩基の配列の出現頻度を比較した例では、最大で６００倍程度の差が見られた。

もし、ＬＤＳＳ法の特徴である「配列の局在性の有無を指標とした」抽出が機能しておらず、単に出現頻度の高い配列を抽出しているとすれば、図１７に示すグラフにおいて、ＬＤＳＳ法による抽出結果（図１７のＹ軸）は、短い配列の出現回数を数えた結果（図１７のＸ軸）と直線的に対応するはずである。なお、図１７のグラフのＸ軸には、実施例１で示したイネのプロモーターのデータベースを対象として、８塩基からなる配列（計６５，５３６（＝４⁸）種類）の出現回数を数え、データベースに含まれる全配列における出現回数を合計した値を「Ｍｏｔｉｆｃｏｕｎｔ」としてプロットしており、図１７のグラフのＹ軸には、ＬＤＳＳ法での抽出結果をプロットしている。なお、ＬＤＳＳ法での抽出において、出現位置の検索は、配列同士が完全に一致する場合のみに限定して行った。

しかし、両者の抽出結果を比較すると、図１７に示すように直線的な対応関係がない。よって、ＬＤＳＳ法の特徴である「配列の局在性の有無を指標とした」抽出が有効に機能していることが示唆された。つまり、ＬＤＳＳ法は、「配列の局在性の有無」という新しい指標を用いて、機能性配列の候補を抽出する方法であり、単に出現頻度で抽出する方法とは全く異なるものであるといえる。

以上のように、本発明にかかる配列抽出装置、配列抽出方法、プログラムおよび記録媒体は、入力データの制限を受けずに、コンピュータ解析だけで、特定の場所（位置）に局在する配列を効率よく且つ効果的に抽出することができ、医療や製薬や創薬や生物学研究や臨床検査などの様々な分野において極めて有用である。

本発明の基本原理を示す原理構成図である。配列抽出装置１００の構成を示すブロック図である。所定長配列情報ファイル１０６ａに格納される情報の一例を示す図である。比較配列情報データベース１０６ｂに格納される情報の一例を示す図である。出現位置情報ファイル１０６ｃに格納される情報の一例を示す図である。出現頻度情報ファイル１０６ｄに格納される情報の一例を示す図である。比較結果情報ファイル１０６ｅに格納される情報の一例を示す図である。配列抽出装置１００の制御部１０２で行うメイン処理の一例を示すフローチャートである。検索部１０２ｃで行う検索処理の一例を示すフローチャートである。配列抽出装置１００の制御部１０２で行うメイン処理の別の一例を示すフローチャートである。プロモーターのアノテーションへの適用例を示す図である。プロモーターと機能性配列との２次元クラスタリングへの適用例を示す図である。プロモーター配列の予測への適用例を示す図である。イネにおける抽出結果の一例を示す図である。実施例１でのシロイヌナズナにおける抽出結果を表示した図である。Ｔｒｅｍｏｕｓａｙｇｕｅらが報告したシロイヌナズナの根における遺伝子発現を可視化した例を示す図である。従来法との比較結果を示す図である。

符号の説明

１００配列抽出装置
１０２制御部
１０２ａ取得部
１０２ｂ生成部
１０２ｃ検索部
１０２ｃ１移動部
１０２ｃ２判定部
１０２ｃ３決定部
１０２ｄ算出部
１０２ｅ比較部
１０２ｆ設定部
１０２ｇ表示部
１０４通信インターフェース部
１０６記憶部
１０６ａ所定長配列情報ファイル
１０６ｂ比較配列情報データベース
１０６ｃ出現位置情報ファイル
１０６ｄ出現頻度情報ファイル
１０６ｅ比較結果情報ファイル
１０８入出力インターフェース部
１１０入力装置
１１２出力装置
２００外部システム
３００ネットワーク

Claims

塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および前記配列であって前記所定長配列の比較対象となる前記所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得する取得手段と、
前記取得手段で取得した前記所定長配列情報および複数の前記比較配列情報に基づいて、前記比較配列ごとに、前記所定長配列が当該比較配列中に出現する位置である出現位置を検索する検索手段と、
前記検索手段で検索した前記出現位置に関する出現位置情報に基づいて、前記比較配列中の前記位置ごとに、当該位置で前記所定長配列が出現する頻度である出現頻度を算出する算出手段と、
前記算出手段で算出した前記出現頻度に関する出現頻度情報に基づいて、閾値に関する閾値情報を設定する設定手段と、
前記算出手段で算出した前記出現頻度情報および前記設定手段で設定した前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値との大小関係を比較する比較手段と、
を備え、
前記設定手段は、前記出現頻度の極大値が全体の前記出現頻度から算出した標準偏差の１以上の実数倍以上であるという条件が満たされる場合において、前記極大値が前記閾値の１以上の実数倍以上であり且つ２つの領域の面積の比が１以上の実数倍以上または１以下の実数倍以下であるという条件を満たす前記閾値を設定し、
前記２つの領域は、前記出現頻度を縦軸とし前記位置を横軸とするグラフにおいて、前記出現頻度の極小値に対応する前記位置で挟まれた領域を前記閾値を表す直線で仕切ることで形成されたものであり、
前記極小値に対応する前記位置は、前記極大値に対応する前記位置から最も近く且つ当該位置の両側に存在するものであること、
を特徴とする配列抽出装置。
前記出現頻度情報を表示する表示手段
をさらに備え、
前記設定手段は、前記表示手段で表示した前記出現頻度情報について前記閾値情報を設定させ、
前記比較手段は、前記設定手段で前記閾値情報が設定された場合、前記出現頻度情報および前記設定された前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較すること
を特徴とする請求項１に記載の配列抽出装置。
前記検索手段は、
前記所定長配列を前記比較配列中で移動する移動手段と、
前記移動手段で移動した前記位置において、前記所定長配列とこれに対応する前記比較配列の部分とが完全に又は部分的に一致するか否かを判定する判定手段と、
前記判定手段での判定結果が完全に又は部分的に一致するというものであった場合、前記移動した前記位置を前記出現位置として決定する決定手段と、
をさらに備え、
前記移動手段、前記判定手段および前記決定手段を繰り返し実行すること
を特徴とする請求項１または２に記載の配列抽出装置。
前記取得手段で取得した前記所定長配列情報に基づいて、前記所定長配列と同じ長さで且つそれを構成する前記塩基または前記アミノ酸が前記所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成する生成手段
をさらに備え、
前記生成手段で生成した前記同一長異種配列情報について、少なくとも前記検索手段、前記算出手段および前記比較手段を実行すること
を特徴とする請求項１から３のいずれか１つに記載の配列抽出装置。
コンピュータで実行される、
塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および前記配列であって前記所定長配列の比較対象となる前記所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得する取得ステップと、
前記取得ステップで取得した前記所定長配列情報および複数の前記比較配列情報に基づいて、前記比較配列ごとに、前記所定長配列が当該比較配列中に出現する位置である出現位置を検索する検索ステップと、
前記検索ステップで検索した前記出現位置に関する出現位置情報に基づいて、前記比較配列中の前記位置ごとに、当該位置で前記所定長配列が出現する頻度である出現頻度を算出する算出ステップと、
前記算出ステップで算出した前記出現頻度に関する出現頻度情報に基づいて、閾値に関する閾値情報を設定する設定ステップと、
前記算出ステップで算出した前記出現頻度情報および前記設定ステップで設定した前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値との大小関係を比較する比較ステップと、
を含み、
前記設定ステップは、前記出現頻度の極大値が全体の前記出現頻度から算出した標準偏差の１以上の実数倍以上であるという条件が満たされる場合において、前記極大値が前記閾値の１以上の実数倍以上であり且つ２つの領域の面積の比が１以上の実数倍以上または１以下の実数倍以下であるという条件を満たす前記閾値を設定し、
前記２つの領域は、前記出現頻度を縦軸とし前記位置を横軸とするグラフにおいて、前記出現頻度の極小値に対応する前記位置で挟まれた領域を前記閾値を表す直線で仕切ることで形成されたものであり、
前記極小値に対応する前記位置は、前記極大値に対応する前記位置から最も近く且つ当該位置の両側に存在するものであること、
を特徴とする配列抽出方法。
前記コンピュータで実行される、前記出現頻度情報を表示する表示ステップ
をさらに含み、
前記設定ステップは、前記表示ステップで表示した前記出現頻度情報について前記閾値情報を設定させ、
前記比較ステップは、前記設定ステップで前記閾値情報が設定された場合、前記出現頻度情報および前記設定された前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較すること
を特徴とする請求項５に記載の配列抽出方法。
前記検索ステップは、
前記所定長配列を前記比較配列中で移動する移動ステップと、
前記移動ステップで移動した前記位置において、前記所定長配列とこれに対応する前記比較配列の部分とが完全に又は部分的に一致するか否かを判定する判定ステップと、
前記判定ステップでの判定結果が完全に又は部分的に一致するというものであった場合、前記移動した前記位置を前記出現位置として決定する決定ステップと、
をさらに含み、
前記移動ステップ、前記判定ステップおよび前記決定ステップを繰り返し実行すること
を特徴とする請求項５または６に記載の配列抽出方法。
前記コンピュータで実行される、前記取得ステップで取得した前記所定長配列情報に基づいて、前記所定長配列と同じ長さで且つそれを構成する前記塩基または前記アミノ酸が前記所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成する生成ステップ
をさらに含み、
前記コンピュータは、前記生成ステップで生成した前記同一長異種配列情報について、少なくとも前記検索ステップ、前記算出ステップおよび前記比較ステップを実行すること
を特徴とする請求項５から７のいずれか１つに記載の配列抽出方法。
塩基またはアミノ酸で構成される配列であって所定の長さを有する所定長配列に関する所定長配列情報、および前記配列であって前記所定長配列の比較対象となる前記所定の長さ以上の長さを有する比較配列に関する複数の比較配列情報を取得する取得ステップと、
前記取得ステップで取得した前記所定長配列情報および複数の前記比較配列情報に基づいて、前記比較配列ごとに、前記所定長配列が当該比較配列中に出現する位置である出現位置を検索する検索ステップと、
前記検索ステップで検索した前記出現位置に関する出現位置情報に基づいて、前記比較配列中の前記位置ごとに、当該位置で前記所定長配列が出現する頻度である出現頻度を算出する算出ステップと、
前記算出ステップで算出した前記出現頻度に関する出現頻度情報に基づいて、閾値に関する閾値情報を設定する設定ステップと、
前記算出ステップで算出した前記出現頻度情報および前記設定ステップで設定した前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値との大小関係を比較する比較ステップと、
を含む配列抽出方法をコンピュータに実行させ、
前記設定ステップは、前記出現頻度の極大値が全体の前記出現頻度から算出した標準偏差の１以上の実数倍以上であるという条件が満たされる場合において、前記極大値が前記閾値の１以上の実数倍以上であり且つ２つの領域の面積の比が１以上の実数倍以上または１以下の実数倍以下であるという条件を満たす前記閾値を設定し、
前記２つの領域は、前記出現頻度を縦軸とし前記位置を横軸とするグラフにおいて、前記出現頻度の極小値に対応する前記位置で挟まれた領域を前記閾値を表す直線で仕切ることで形成されたものであり、
前記極小値に対応する前記位置は、前記極大値に対応する前記位置から最も近く且つ当該位置の両側に存在するものであること、
を特徴とするプログラム。
前記出現頻度情報を表示する表示ステップ
をさらに含み、
前記設定ステップは、前記表示ステップで表示した前記出現頻度情報について前記閾値情報を設定させ、
前記比較ステップは、前記設定ステップで前記閾値情報が設定された場合、前記出現頻度情報および前記設定された前記閾値情報に基づいて、前記比較配列中の前記位置ごとに、前記出現頻度と前記閾値とを比較すること
を特徴とする請求項９に記載のプログラム。
前記検索ステップは、
前記所定長配列を前記比較配列中で移動する移動ステップと、
前記移動ステップで移動した前記位置において、前記所定長配列とこれに対応する前記比較配列の部分とが完全に又は部分的に一致するか否かを判定する判定ステップと、
前記判定ステップでの判定結果が完全に又は部分的に一致するというものであった場合、前記移動した前記位置を前記出現位置として決定する決定ステップと、
をさらに含み、
前記移動ステップ、前記判定ステップおよび前記決定ステップを繰り返し実行すること
を特徴とする請求項９または１０に記載のプログラム。
前記取得ステップで取得した前記所定長配列情報に基づいて、前記所定長配列と同じ長さで且つそれを構成する前記塩基または前記アミノ酸が前記所定長配列と異なる同一長異種配列に関する同一長異種配列情報を生成する生成ステップ
をさらに含み、
前記生成ステップで生成した前記同一長異種配列情報について、少なくとも前記検索ステップ、前記算出ステップおよび前記比較ステップを実行すること
を特徴とする請求項９から１１のいずれか１つに記載のプログラム。
前記請求項９から１２のいずれか１つに記載のプログラムを記録したこと
を特徴とするコンピュータ読み取り可能な記録媒体。