JP3370787B2

JP3370787B2 - 文字配列検索方法

Info

Publication number: JP3370787B2
Application number: JP17798994A
Authority: JP
Inventors: 直子笠原; 哲夫西川; 進平岡; 啓一永井; 川口　　久光; 勝己多田; 寛次加藤; 秀記神原; 克二村川; 一夫相坂; 充長坂
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-08-10
Filing date: 1994-07-29
Publication date: 2003-01-27
Anticipated expiration: 2018-01-27
Also published as: JPH07105224A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は文字配列、特にＤＮＡ、
ＲＮＡやアミノ酸の配列自身のデータベースに対する検
索方法に関する。

【０００２】

【従来の技術】第１の従来技術として、文字配列、特に
ＤＮＡ、ＲＮＡやアミノ酸の配列自身のデータベースに
対する誤りを許容した検索を行う場合、ダイナミックプ
ログラミング（ＤＰ）法に基づいたスミス−ウォータマ
ン（Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎ）の方法による比較
がデータベース内の全ての配列に対して行われていた。
（蛋白質核酸酵素、１９８３年、第２８巻、第１０号、
１１６５頁−１１８６頁）。Ｓｍｉｔｈ−Ｗａｔｅｒｍ
ａｎの方法は、二つの文字配列を比較する際に、文字の
一致にプラスのスコアを、不一致、欠失、挿入にマイナ
スのスコアを与えた上で、二つの文字配列の並置を行
い、スコアの総計が最大になるような並置を求める方法
である。ＤＮＡの公共データベースであるジェンバンク
（ＧｅｎＢａｎｋ）への塩基配列の登録件数は年々増大
しており、現在では全体の塩基数が１×１０⁸に達して
いる。ＧｅｎＢａｎｋのデータベース全体をＳｍｉｔｈ
−Ｗａｔｅｒｍａｎの方法で検索する時間は大型計算機
数を用いても数時間以上かかることが知られている。

【０００３】そこで、第２の従来技術として、検索時間
を短縮するために、ファストエー（ＦＡＳＴＡ）と呼ば
れる方法が一般に用いられるようになってきた（プロシ
ーディングオブナショナルアカデミィーサイエ
ンスユーエスエー（Ｐｒｏｃ．Ｎａｔｌ．Ａｃａ
ｄ．Ｓｃｉ．ＵＳＡ）、１９８８、Ｖｏｌ．８５、ｐｐ
２４４４−２４４８）。この方法は２段階の検索からな
る。第１段階の検索では、データベース内の全ての配列
と簡略化した比較を行う。二つの配列間で一定文字長
（１〜６）の部分文字列の一致部分を抽出し、それらの
一致文字列間に重なりがあれば延長していき、得られた
最大の一致部分の長さに応じてスコア値を与える。この
スコア値が設定された閾値を越えた配列のみに対して第
２段階の検索を行う。第２段階の検索では、前述したＳ
ｍｉｔｈ−Ｗａｔｅｒｍａｎの方法を用いてスコア値を
厳密に計算する。このスコア値に基づいて塩基配列間の
相同性や類似性の判定を行う。ここで用いられるＳｍｉ
ｔｈ−Ｗａｔｅｒｍａｎの方法では、第１段階の検索で
得られた最大一致部分を中心にした限られた範囲での比
較を行うことによって、検索時間の短縮を行っている。

【０００４】一方、第３の従来技術として、一般的な文
書データベースの検索においては、登録されたキーワー
ドの検索に代わるフルテキストサーチが近年行われるよ
うになっている。フルテキストサーチは検索時間が膨大
になるので、高速化の試みがなされており、有効な方法
としてプリサーチ式の多段階の検索方式がある（特開平
０４−２７４５５７号公報）。この方法においては、あ
らかじめデータベース中の各文書にどういう文字が含ま
れるかを記述した文字成分表、及び各文書から助詞を除
いた凝縮本文を作成しておき、検索時には、最初に文字
成分表による絞り込み、次に凝縮本文に対する検索によ
って絞り込みを行い、最後に絞り込んだ文書に対してオ
ートマトンを用いて厳密検索を行う。

【０００５】

【発明が解決しようとする課題】上記第１の従来技術で
あるＳｍｉｔｈ−Ｗａｔｅｒｍａｎの方法による検索の
特徴は、閾値として設けたスコアの値を変化させること
によって、誤り許容の範囲を変化させることができる点
である。閾値のスコア値を小さめにとれば、例えば全く
異なる種類のＤＮＡ間の類似度に基づいた検索が可能で
ある。逆に閾値のスコア値を大きめにとれば、ＤＮＡ配
列の精度程度の誤りを許容した検索、すなわち同一性検
索が可能になる。本方法においては、文字の一致や不一
致、欠失、挿入を考慮した類似度検索が可能である。欠
点としては、一回の配列どうしの比較において、配列長
の二乗に比例した回数の文字の比較が行われ、大規模な
データベースに対しては検索時間が膨大になるという問
題があることである。

【０００６】上記第２の従来技術であるＦＡＳＴＡ法に
おいても、第１段階の検索におけるスコア閾値の大小を
調整することによって、類似度検索と相同性検索の両方
に使用が可能である。ＦＡＳＴＡでは、第１段階の検索
で部分的な一致も存在しない無関係な配列をふるい落と
して、厳密に検索する配列数を絞り込むことによって高
速化を達成している。ＦＡＳＴＡによるＧｅｎＢａｎｋ
全体の検索速度は大型計算機数を用いた場合数分程度で
ある。このようにＦＡＳＴＡでは、かなり実用的に高速
な検索が達成されているが、不十分な点として第１段階
の検索においてある程度の検索もれがあることが知られ
ている。ＦＡＳＴＡでは、部分的な一致度が平均的に悪
くても全体的には一致度が高いような配列を落とす可能
性がある。もれをなくすためにスコア閾値を下げると、
絞り込みの効率が悪くなり全体の検索速度が遅くなると
いう問題があった。

【０００７】上記第３の従来技術の方法の特徴の一つ
は、各段階の絞り込みにおいて検索もれがないというこ
とである。また、各段階の絞り込みによって関係のない
多くの文書を振り落とし、時間のかかる厳密な検索を行
う回数を削減することによって、高速な検索を可能にし
ている。しかし、この方法は一般的な文書に対して、検
索文あるいは検索文から一定の規則で派生させた文が完
全一致するものしか検索が行えないという問題があっ
た。従って、ＤＮＡ塩基配列等の実験誤差に基づく確率
的な誤りを含む文字列からなるデータベースに対して
は、それらの誤りを許容した上での検索を行うことがで
きなかった。

【０００８】本発明の目的は、上記で説明した問題を解
決し、実用規模の文字配列データベース、特にＤＮＡ塩
基配列やアミノ酸配列の公共データベースを対象とした
場合でも、実用上許容し得る充分短い検索時間で、検索
もれのない検索結果が得られ、配列の全文字列を検索対
象とする、誤りを許容する文字配列検索方法を提供する
ことにある。

【０００９】

【課題を解決するための手段】本発明の特徴は、以下の
（１）から（６）の各処理ステップを含む第１の文字配
列検索方法にある。

【００１０】（１）文字配列データを格納するステッ
プ。

【００１１】（２）前記登録文字配列中に含まれる所
定の長さ（ｋとする）の連続する部分文字配列を重複な
く含み、これら部分文字配列に関する情報を表す文字配
列成分表を作成するステップ。

【００１２】（３）登録文字配列と文字配列成分表を
合わせて文字配列データベースへ登録するステップ。

【００１３】（４）検索者が指定した検索文字配列中
に含まれる所定の長さ（ｋ）の文字配列から、所定の方
法により検索文字配列の部分集合を抽出するステップ。

【００１４】（５）所定の誤り許容率によって定めら
れる一定数よりも多く部分集合の中の文字配列を含む登
録文字配列を、文字配列成分表を参照して、誤り許容率
の以内の文字配列を抽出するための文字配列成分表をサ
ーチするステップ。

【００１５】（６）文字配列成分表をサーチするステ
ップにより得られた登録文字配列を参照して、誤り許容
率の以内の登録文字配列を抽出するための文字配列をサ
ーチするステップ。

【００１６】また、本発明の特徴は、以下の（１）から
（６）の各処理ステップを含む第２の文字配列検索方法
にある。

【００１７】（１）文字配列データを格納するステッ
プ。

【００１８】（２）登録文字配列中に含まれる所定の
長さ（ｋとする）の連続する部分文字配列を重複なく含
み、これら部分文字配列に関する情報を表す文字配列成
分表を作成するステップ。

【００１９】（３）登録文字配列と文字配列成分表を
合わせて文字配列データベースへ登録するステップ。

【００２０】（４）検索者が指定した検索文字配列か
ら、所定の長さ（ｋ）の部分文字配列を所定の方法に基
づいて抽出し、要素の異なる複数の部分集合を作成する
ステップ。

【００２１】（５）所定の誤り許容率によって定めら
れる一定数よりも多く各部分集合中の部分文字配列を含
む登録文字配列を、文字配列データベースから抽出する
ために、複数の部分集合の全てにおいて予め作成された
文字配列成分表をサーチするステップ。

【００２２】（６）文字配列成分表をサーチするステ
ップにより得られた登録文字配列を参照して、誤り許容
率の以内の登録文字配列を抽出するための文字配列をサ
ーチするステップ。

【００２３】さらに、本発明の特徴は、以下の（１）か
ら（６）の各処理ステップを含む第３の文字配列検索方
法にある。

【００２４】（１）文字配列データを格納するステッ
プ。

【００２５】（２）登録文字配列から抽出した所定の
長さ（ｋとする）の連続する部分文字配列毎の出現情報
を表す、長さｋの異なる複数の文字配列成分表を作成す
るステップ。

【００２６】（３）登録文字配列と文字配列成分表を
合わせて文字配列データベースへ登録するステップ。

【００２７】（４）検索者が指定した検索文字配列か
ら、複数の所定の長さ（ｋ）の部分文字配列を所定の方
法に基づいて抽出し、要素の異なる複数個の部分集合を
作成するステップ。

【００２８】（５）所定の誤り許容率によって定めら
れる一定数よりも多く各部分集合中の部分文字配列を含
む登録文字配列を、文字配列データベースから抽出する
ために、複数の部分集合の全てにおいて予め作成された
文字配列成分表をサーチするステップ。

【００２９】（６）文字配列成分表をサーチするステ
ップにより得られた登録文字配列を参照して、誤り許容
率の以内の登録文字配列を抽出するための文字配列をサ
ーチするステップ。

【００３０】以上の、第１から第３の文字配列検索方法
において、上記ステップ中の（１）、（２）において文
字配列の両末端を接続した環状の文字配列に対して同様
の処理を行い、（３）から（６）のステップを同様に行
うことにも特徴がある。

【００３１】

【作用】所定の長さの文字配列が登録された文字配列成
分表の検索によって絞り込みを行い、その後文字配列検
索を行う階層型プリサーチ手段を設けること、また、文
字配列成分表の検索による絞り込みのさい、検索文字配
列中の文字配列の中から部分集合を抽出し、部分集合を
用いて文字配列成分表をサーチする際のヒット配列成分
数の基準として、検索者が予め与える誤り許容率を基に
決定される数を用いることによって、与えられた検索文
字配列から誤り許容率を超えて異なった文字配列を、文
字配列を参照する以前に切り捨てて、検索対象の文字配
列を検索する量を少なくすることができる。すなわち、
検索処理時間に占める割合が高い文字配列の検索に要す
る処理時間を減らすことによって、全体の検索に要する
処理時間を短縮し、与えられた検索文字配列から誤り許
容率以内の文字配列をもれなく検索することが可能であ
る。また、検索文字配列の両末端を接続した環状の文字
配列を、文字配列の両末端を接続した環状の文字配列に
対して作成した文字成分表に対してサーチすることによ
って、絞り込み率をさらに向上させ、検索時間を短縮す
ることが可能である。

【００３２】また、文字配列成分表を参照した検索を行
う際に、所定の方法によって要素の異なる部分集合を複
数個作成して、それぞれの部分集合を用いて検索を行な
い、その全ての部分集合に対して検索条件を満たす登録
文字配列を選びだす方法を用いることにより、文字配列
成分表検索において文字配列をより絞り込むことがで
き、文字配列自体を参照する検索を行う文字配列数を減
少できる。従って、複数個の部分集合を作成して検索に
用いる方法では、検索処理時間をより短縮できる。ま
た、検索文字配列の両末端を接続した環状の文字配列か
ら作成した要素の異なる複数の部分文字配列からなる部
分集合を、文字配列の両末端を接続した文字配列から作
成した文字配列成分表に対して検索を行うことによっ
て、さらに絞り込み率を改善させ、検索時間を短縮でき
る。

【００３３】

【実施例】以下、本発明の文字配列検索方法が適用され
る文字配列検索装置と実施例について説明する。（実施例１）以下、本発明の第１の実施例について図１
を用いて説明する。本装置は、ディスプレイ１００、キ
ーボード１０１、中央制御装置ＣＰＵ１０２、文字配列
成分表１０４と文字配列１０３の格納用ファイル１０
６、フロッピーディスクドライバ１０５、主メモリ２０
０から構成される。

【００３４】主メモリ２００には、文字配列登録プログ
ラム２０１、文字配列成分表作成登録プログラム２０
２、誤り許容文字配列成分表サーチプログラム２０３、
誤り許容文字配列サーチプログラム２０４、階層検索制
御プログラム２０６が格納されると共に、データエリア
２０５が確保されている。これらのプログラムはＣＰＵ
１０２で実行される。

【００３５】文字配列の登録の際には、キーボード１０
１から入力されるコマンドにより、ＣＰＵ１０２がフロ
ッピーディスクドライバ１０５に挿入されるフロッピー
ディスク１０７から文字配列を読み込み、文字配列登録
プログラム２０１を実行して読み込んだ文字配列データ
を文字配列１０３としてファイル１０６へ格納する。次
にＣＰＵ１０２は、文字配列成分表作成登録プログラム
２０２を実行して、文字配列１０３中で用いられている
所定の長さの文字成分を重複なく集めた文字配列成分表
を作成し、これを文字配列成分表１０４としてファイル
１０６へ格納する。

【００３６】検索の際には、キーボード１０１から入力
された検索文字配列、及び検索誤りの許容率が、ＣＰＵ
１０２に送られる。ＣＰＵ１０２では、まず階層検索制
御プログラム２０６を実行し、その制御に基づいて文字
配列成分表サーチプログラム２０３、文字配列サーチプ
ログラム２０４を順次実行する。文字配列成分表サーチ
では、検索誤りの許容率に基づいて検索文字配列中の文
字配列成分が所定の数以上含まれる文字配列のみを抽出
する。そして、文字配列成分表サーチで抽出された文字
配列に対する文字配列サーチを行い、検索誤りの許容率
を満たすもののみを抽出し、検索結果として出力する。
以上が本発明の文字配列検索方法を実行する文字配列検
索装置の概略である。

【００３７】以下、本発明の特徴である誤りを許容した
文字配列成分表サーチと文字配列サーチ及びそれらの階
層型プリサーチ方式の登録及び検索方法について、誤り
許容検索が重要になる典型的な例として、ＤＮＡ塩基配
列の検索を例にとって説明する。図２にＤＮＡ塩基配列
の登録、及び文字配列成分表の作成登録の処理内容を示
す。まず、ＤＮＡ塩基配列１、２、…ＮのＤＮＡ塩基配
列自体の登録３００を行う。ＤＮＡの塩基配列は、図２
に示したようにアデニンＡ、シトシンＣ、グアニンＧ、
チミンＴの４種類の塩基文字の並びで表わせられる。次
に、登録したＤＮＡ塩基配列からの文字配列成分の抽出
３０１を行う。ＤＮＡ塩基配列からの文字配列成分の抽
出は、図２中に示したように、所定の一定の長さ（この
場合６塩基長とする）の塩基配列成分を、ＤＮＡ塩基配
列の一方の末端からもう一方の末端に達するまで、１塩
基ずつずらして抽出していくことによって行われる。次
に、このように抽出した塩基配列成分を用いてＤＮＡ塩
基配列文字成分表作成３０２を行う。ＤＮＡ塩基配列文
字成分表は、可能な全ての塩基配列成分種（この場合は
６塩基長文字配列成分であるから、成分種の数は４の６
乗＝４０９６）に対する１ビットの情報で表現される。
すなわち、ＤＮＡ塩基配列文字成分表中で抽出された塩
基配列成分に対応する項に’１’を設定し、それ以外の
項に’０’を設定する。図２中の例では、ＤＮＡ塩基配
列ｉには塩基配列成分ＡＡＡＡＡＡは存在しないので、
塩基配列文字成分表中のＡＡＡＡＡＡの項には’０’が
設定される。また、塩基配列成分ＡＡＡＡＡＣ、ＡＡＡ
ＡＣＣ、ＴＴＴＴＴＴは存在するので、ＤＮＡ塩基配列
文字成分表中のＡＡＡＡＡＣ、ＡＡＡＡＣＣ、ＴＴＴＴ
ＴＴの項には’１’が設定される。最後に、このように
して作成されたＤＮＡ塩基配列文字成分表のデータベー
スへの登録３０４を行う。

【００３８】検索時には、図３に示したように作成した
ＤＮＡ塩基配列文字成分表を参照して検索を行う。ま
ず、検索塩基配列と検索時の誤り許容率ｍの入力４００
を行う。検索時の誤り許容率ｍは、入力された検索塩基
配列、及びデータベース中の塩基配列の精度に応じて設
定する。塩基配列決定時の実験データの読み取り誤差に
よって、実際の塩基配列と決定された塩基配列の間に相
違が存在することが知られている。塩基配列の精度は、
この相違の度合いによって決定される。従って、予め塩
基配列の精度情報を実験によって得ておき、それを用い
て検索時の誤り許容率を決定すればよい。塩基配列の精
度は塩基配列決定実験の方法等に依存するが、同一性の
判定を行うには、誤り許容率として５〜１０％以下の値
を設定すればよい。次に、検索配列からの配列成分の抽
出４０１を行う。配列長がＮ_kの検索配列に対して、ｋ
塩基長（図中では６塩基長）の配列成分を一方の末端を
出発点としてｋ塩基長ずつずらしながら、すなわち重複
や間隙を許さずに、もう一方の末端までｋ塩基長の文字
配列成分が得られる限り抽出を行う。抽出配列成分に
は、抽出の順に番号（ｉ＝１からｉ＝Ｎ_eまで）を付与
する。次に抽出された配列成分を用いて、すでに登録さ
れているＤＮＡ塩基配列成分表に対する検索４０２を行
う。この検索は次のようにして行う。まず図３に示すよ
うに、ＤＮＡ塩基配列成分表において、検索配列から抽
出された配列成分種に対応する項の値ｆiを、抽出配列
成分の全てについて（すなわちｉ＝１からｉ＝Ｎ_eま
で）和をとったものをＳとする。検索ヒット条件は、Ｓ
の値がＮ_e−ｍ・Ｎ_kと等しいか大きい場合と表現され
る。検索誤りの個数が一定として、検索配列から抽出さ
れた配列成分種の内ｆiが０の文字成分の個数が最大に
なるのは、各文字成分上に誤りが一個ずつ分布した場合
である。これから、誤り許容率以下の分だけすなわちｍ
・Ｎ_k個以下の誤りがある場合には、ｆiが０の配列成分
個数の最大値は、ｍ・Ｎ_k個になる。従って、配列成分
種の個数Ｎ_eからｍ・Ｎ_kを引いた値を検索ヒットの閾値
に設定しておけば、誤り許容率以下の誤りがある場合は
全て検索ヒット条件を満たし、もれなく検索できること
になる。

【００３９】このようにしてＤＮＡ塩基配列成分表によ
って検索された塩基配列は、次にその配列自身による検
索４０３が行われ、検索結果４０４が出力される。ここ
では、ダイナミックプログラミングに基づいたＳｍｉｔ
ｈ−Ｗａｔｅｒｍａｎの方法による配列間のスコア計算
を用いるのが適当である。Ｓｍｉｔｈ−Ｗａｔｅｒｍａ
ｎの方法は、配列文字の欠失、挿入、置換、マッチに対
して適当なスコア値を与えて配列間の並置を行い、スコ
ア値の総計が最大になるような並置を求める方法であ
る。そのような並置におけるスコア値を二つの配列間の
類似度の指標に用いることによって、誤り許容率以下の
塩基配列を正しく検索することができる。このように本
実施例においては、検索塩基配列とデータベース中塩基
配列の配列成分間の一致度を基準にした塩基配列成分表
による検索がまず行われ、一定の誤りを許容した上で関
係のない多くの塩基配列がふるいにかけられる。こうし
て絞り込まれた塩基配列のみを、時間はかかるが正確な
検索が可能なＳｍｉｔｈ−Ｗａｔｅｒｍａｎの方法によ
って検索を行う。こうすることによって、高速で、かつ
誤りを許容したもれのない検索が実現可能である。以下
では、どの程度の高速化が可能かを見積るために、検索
速度を決定する大きな因子であるＤＮＡ塩基配列成分表
検索による絞り込み率の評価を行う。同一の塩基配列が
多数含まれているようなデータベースを検索する場合
は、絞り込み率はデータベース中の同一塩基配列の個数
に依存する。そこでここでは、データベースが互いに無
関係な塩基配列で構成されており、検索塩基配列とヒッ
トする塩基配列はデータベース中に存在しない場合を考
える。こうすることによって、無関係な塩基配列が塩基
配列成分表による検索で偶然ヒットする、すなわち検索
ノイズが生じる確率を評価することが可能となる。この
ような系のモデルとして次のような系を考える。

【００４０】（１）データベース中の塩基配列は長さ
が一定長Ｎ_dでランダムな配列を考える。

【００４１】（２）検索配列は長さが一定長Ｎ_kでラ
ンダムな配列を考える。

【００４２】この場合の絞り込み率Ｒ_Sは、以下のよう
に計算される。塩基配列成分表中の各配列における’
１’が設定されている配列成分種の数が最大になるの
は、各配列中の配列成分間に重複が全くない場合であ
り、この最大値は塩基配列から抽出される配列成分数Ｎ
_pで与えられる。Ｎ_p＝Ｎ_d−ｋ＋１であるから、Ｎ_d＝２
５０（通常塩基配列決定で得られる塩基配列長は２５０
以上の場合が多い）、ｋ＝６の場合は、Ｎ_p＝２４５に
なる。一方、塩基配列成分表中の配列成分種の総数、Ｎ
_aは４のｋ乗であり、ｋ＝６の場合はＮ_a＝４０９６であ
る。従って、ランダムな検索塩基配列から抽出された１
個の配列成分が配列成分表中の’１’に偶然ヒットする
確率Ｐは、高々Ｎ_p／Ｎ_aであり、この場合はＰ≦Ｎ_p／
Ｎ_a＝２４５／４０９６≒０．０６となる。Ｎ_p≪Ｎ_aの
場合は塩基配列中の配列成分間の重複がほとんどないと
考えられるから、Ｐ≒Ｎ_p／Ｎ_a＝０．０６とみなしてよ
い。絞り込み率Ｒ_Sは、検索塩基配列から抽出される配
列成分（個数Ｎ_e）の内、検索閾値であるＮ_e−ｍ・Ｎ_k
個以上の配列成分が配列成分表中の’１’に偶然ヒット
する確率として与えられる。これは、確率Ｐの事象がＮ
_e回の試行の内Ｎ_e−ｍ・Ｎ_k回以上生じる確率であるか
ら、次のようなポアソン分布の和で表すことができる。

【００４３】

【数１】

【００４４】検索塩基配列から抽出される配列成分数Ｎ
_eは、Ｎ_kをｋで割った商で与えられるので、Ｎ_k＝２５
０、ｋ＝６の場合は、Ｎ_e＝２５０／６＝４１となる。
誤り許容率ｍを１０％として、Ｐ＝０．０６、Ｎ_e＝４
１、Ｎ_k＝２５０、ｋ＝６を（数１）に代入するとＲ_S≒
６．５×１０^-10となる。この場合の検索時間を見積る
と、以下のようになる。Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎ
の方法による検索時間ｔ_dpは、（数２）に示すように、
ｔ_dp0を比例定数としてＮ_kとＮ_d、及びデータベース中
の塩基配列数Ｎの積に比例する。

【００４５】

【数２】

【００４６】一方、本方法における検索時間ｔは、配列
成分表による検索時間ｔ_tbと、絞り込まれた配列に対す
る、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎの方法による検索時
間、ｔ_dp’の和で表すことができる。ここで、ｔ_tbはｔ
₀を比例定数としてＮ_k／ｋとＮに比例すること、及びｔ
_dp’がｔ_dpと絞り込み率Ｒ_Sの積であることを考慮すれ
ば、ｔは（数３）で表すことができる。

【００４７】

【数３】

【００４８】ここで、ｔ_dp0≒ｔ₀と仮定すれば、Ｒ_Sが
１／ｋ・Ｎ_dより小さい場合は、ｔ≒ｔ₀・Ｎ・Ｎ_k／ｋ
と近似することが可能である。今考えている状況では１
／ｋ・Ｎ_d≒１／６・２５０≒０．００１で、Ｒ_S≒６．
５×１０^-10であるからこの近似が成立し、ｔとｔ_dpの
比は（数４）で表すことができる。

【００４９】

【数４】

【００５０】このように、本方法を用いれば、Ｓｍｉｔ
ｈ−Ｗａｔｅｒｍａｎの方法に比べて１０００分の１程
度の検索時間でデータベースの検索が可能である。この
高速化は、主に配列成分表検索による絞り込みに依存し
ている。絞り込み率が１／ｋ・Ｎ_dより大きくなると、
ｔ／ｔ_dp≒Ｒ_Sとなり、検索時間は絞り込み率に比例し
て増大する。

【００５１】次に、Ｎ_k＝Ｎ_d＝Ｎ_kd、ｍ＝１０％とし
て、Ｎ_kd＝１００〜１０００に対して、ｋ＝４〜８と変
化させた場合のＲ_Sの計算結果を図４に示した。このよ
うに塩基長Ｎ_kdのそれぞれに対して絞り込み率を最小に
するｋの値ｋ_mが存在することがわかる。Ｎ_kd＝１０
０、Ｎ_kd＝２５０、Ｎ_kd＝５００、Ｎ_kd＝１０００に対
するｋ_mは、それぞれｋ＝６、７、７、８である。Ｎ_kd
＝１００、Ｎ_kd＝２５０に対してはｋ＝５、６、７、８
でＲ_Sが０．００１以下になることがわかる。一方、Ｎ
_kd＝５００、Ｎ_kd＝１０００に対してはｋ＝６、７、８
でＲ_Sが０．００１以下になることがわかる。ｋの値を
大きくすると、配列成分表検索時間がそれに比例して短
くなるが、必要なメモリ量が増大する。従って、データ
ベースの規模に応じて上記の範囲内でｋを設定すればよ
い。

【００５２】ＦＡＳＴＡ法を用いた場合も、Ｓｍｉｔｈ
−Ｗａｔｅｒｍａｎの方法による検索の前に部分配列の
比較によって、絞り込みを行っている。この時のスコア
閾値を大きく選べば絞り込みを充分行うことが可能であ
るが、この場合は絞り込みによる検索もれが生じること
が知られている。本方法によれば、こうした検索もれが
生じることなしに、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎの方
法と比べて１０００倍程度の高速な検索を実行すること
が可能になる。

【００５３】（実施例２）以下、本発明の第２の実施例
について図５を用いて説明する。本実施例においては、
検索塩基配列が持つ配列情報をより活用するために検索
塩基配列から配列成分を抽出する方法を一般化する。検
索配列からの配列成分の抽出５００は図５中に示したよ
うに、（１）検索配列の一方の末端から、ｋ塩基長の配
列成分を抽出し、（２）検索配列中で、開始点をｋs塩
基長ずらして、ｋ塩基長の配列成分を抽出する操作を、
（３）配列成分の末端が検索配列中に収まる間繰り返
す。次に配列成分表検索における検索５０１が行われ
る。検索条件は以下のように設定する。検索ヒット条件
は、Ｓの値がＮ_e−ｆ（ｋ、ｋs）・ｍ・Ｎ_kと等しいか
大きい場合と表現される。ここでＳ、Ｎ_e、Ｎ_k、ｍの定
義は第１の実施例における定義と同一である。ｆ（ｋ、
ｋs）は、隣り合ったｋ塩基長配列成分間の重なりの部
分を考慮した因子であり、ｋとｋsの関数として（数
５）で表現される。

【００５４】

【数５】

【００５５】関数ｆ（ｋ、ｋs）をこのように設定する
ことによって、隣り合ったｋ塩基長配列成分間の重なり
の部分に配列誤りが存在した場合にも、もれなく誤り許
容率ｍ以下の塩基配列を検索することが可能になる。図
６にｋがｋsよりも小さい場合に第１の実施例と同様な
方法で絞り込み率Ｒ_Sを計算した結果を示す。ｋ＝６で
ｋs＝１〜６の各場合のＲ_Sについて誤り許容率依存性を
示した。ｋs＝６の場合、すなわち第１の実施例と同様
の場合、誤り許容率が１０％ではＲ_S〜１０^-9である
が、誤り許容率が大きくなっていくとＲ_Sは急速に増大
し、誤り許容率が１３％以上ではＲ_Sは０．００１より
も大きくなり、検索速度が減少する。図６に示すように
ｋs＝１、５の場合は、絞り込み率は非常に増大しｋsを
ｋよりも小さくした効果は得られない。しかし、ｋs＝
２、３の場合は、絞り込み率は各誤り許容率において減
少している。ｋs＝２では、ｍ＝１４％でも０．００１
以下の絞り込み率が得られている。ただしｋsが小さく
なると判定すべき配列成分数が増大し検索速度はその分
だけ減少するので、これと絞り込み率の増大率との兼ね
合いでｋsの値は決定すればよい。またｋよりも大きな
ｋsを用いれば、検索ヒット条件におけるＮ_eの値が小さ
くなり絞り込み率が大きくなるが、成分表検索速度は速
くなる。従ってこの場合、小さな誤り許容率（５％程度
以下）が使用可能であれば、絞り込み率の増大の割合も
小さいので全体としての検索速度を向上させることが可
能である。このように、本実施例においては、誤り許容
率の値に応じてｋsの値を適当な値に選ぶことにより、
絞り込み率を第１の実施例の場合よりも向上させるか、
あるいは成分表検索速度を向上させることによって全体
の検索速度を向上させることが可能である。

【００５６】（実施例３）以下、本発明の第３の実施例
について図７を用いて説明する。本実施例においては、
データベース中の塩基配列の重複を許した分割６００を
行い、分割された配列に対して、ＤＮＡ塩基配列成分表
を作成している。図７に示すように、配列長Ｎ_dのデー
タベース中の塩基配列に対して、所定の一定の長さＮ_f
の配列を配列長Ｎ_sの重複を許しながら一方の末端から
抽出していき、もう一方の末端まで（最後は配列長
Ｎ_fe）繰り返す。ここでＮ_sは使用する検索塩基配列の
配列長よりも大きい値に設定する。次に分割抽出した各
塩基配列に対する塩基配列成分表の作成６０１を行い、
分割抽出した各塩基配列にそれぞれの塩基配列中での通
し番号を付加して、データベースへの登録６０２を行
う。以下、本実施例の効果について説明する。本発明に
よってＧｅｎＢａｎｋ等の公共のＤＮＡデータベースを
検索する場合、一般にデータベース中の塩基配列の配列
長の平均値は１０００塩基長程度である。一方、検索に
用いる塩基配列は、ＤＮＡシーケンサーによって一度に
配列決定可能な配列の長さ程度であり、これは、２００
〜４００塩基長である。このように、データベース中の
塩基配列長が検索塩基配列長よりもかなり大きい場合
は、塩基配列成分表中の”１”の数が多くなり、絞り込
み率が増大することが考えられる。第１の実施例と同様
の計算方法で、絞り込み率のデータベース中塩基配列長
依存性を計算した結果を図８に示す。検索塩基配列とし
て２５０塩基長の場合を考え、データベース中の塩基配
列長Ｎ_dを２５０から１５００まで変化させた。図に示
されるようにＮ_dが７５０以下では絞り込み率は０．０
０１程度以下であるが、Ｎ_dが１０００以上では絞り込
み率は０．０１以上の値になり検索時間が増大する。そ
こで本実施例に示したように、データベース中の塩基配
列をあらかじめ分割して短くしたものに対して塩基配列
成分表を作成しておけば、分割された塩基配列に対する
絞り込み率を小さく維持することが可能である。分割数
に比例して検索時間は増大するが、分割しないことによ
る絞り込み率の増大が引き起こす検索時間の増大に比べ
ると、それは非常に小さい。図８から、検索配列長が２
５０以下の場合には、データベース中塩基配列の分割配
列長Ｎ_fとして例えば５００〜７５０を設定し、重複配
列長として２５０〜３７５を設定すればよい。このよう
に設定することによって、検索配列の全体を分割された
配列の中に含ませることが可能であり、かつその際に絞
り込み率を０．００１以下にすることが可能である。ヒ
ットする場合は、必ず隣り合った配列がヒットしてくる
ので、それらの元の塩基配列中の通し番号を出力すれば
よい。

【００５７】（実施例４）以下、本発明の第４の実施例
について図９を用いて説明する。本実施例においては、
検索塩基配列、及びデータベース中の塩基配列から配列
成分を抽出する際に、配列末端の情報を有効に利用して
いる。検索塩基配列からの抽出の場合は図９（ａ）に示
すように、検索塩基配列の一方の末端から出発して配列
成分を抽出していく際に、もう一方の末端に検索塩基配
列の最初の末端を接続した塩基配列を考え、この接続点
を含む全ての成分を含めて配列成分の抽出を行う。デー
タベース中の塩基配列からの抽出の場合も図９（ｂ）に
示すように、塩基配列の一方の末端から出発して１塩基
ずつずらしながら配列成分を抽出していく際に、もう一
方の末端に検索塩基配列の最初の末端を接続した塩基配
列を考え、この接続点を含む全ての成分を含めて配列成
分の抽出を行う。

【００５８】本実施例の方法を用いることによって、検
索塩基配列としてデータベース中の塩基配列と同一のも
のだけを考えてよい場合、すなわち、検索塩基配列がデ
ータベース中の塩基配列に部分的に含まれることがない
場合において、第１、第２の実施例の方法では用いられ
ていなかった塩基配列の末端の情報を有効に活用するこ
とが可能である。例えば、Ｎ_k＝２５０、Ｎ_d＝２５０、
ｋ＝６、ｋs＝６、ｍ＝１０％の場合、実施例１の方法
における絞り込み率は第１の実施例で示したようにＲ_S
≒６．５×１０^-10となる。一方、本実施例を用いる
と、一個の成分がヒットする確率ＰはＰ＝２５０／４０
９６＝０．０６１であり、検索塩基配列からの抽出成分
数は４２、ヒット判定成分数は１７であることから、
（数１）を用いて計算するとＲ_S≒１．４×１０^-10とな
る。このように、第１の実施例の方法と比べると絞り込
み率が約５分の１に改善していることがわかる。

【００５９】（実施例５）以下、本発明の第５の実施例
について図１０を用いて説明する。本実施例において
は、配列成分表の容量を頻度情報を用いたハッシング手
法によって削減している。頻度情報を利用するハッシン
グ型の配列成分表を作成するには、データベースに登録
してある塩基配列内の配列成分の使用頻度を調べ、頻度
情報によりハッシュ関数を決定する。頻度の大きい成分
については同一エントリに対応する成分数を少なくし、
頻度の小さい成分については同一エントリに対応する成
分数を多くする。具体的には、図１０に示すように、各
配列成分種のデータベース中での頻度分布７００を調
べ、その頻度の順に配列成分種を並べ換えた頻度分布７
０１を作成する。そして、ハッシング法７０２に示すよ
うに、頻度の小さい成分種を例えば図中の矢印で示すよ
うに頻度の高い成分種に対応させ、同じエントリー番号
を持たせる。こうすることによって、各エントリーの頻
度がほぼ一定になり常に一定の絞り込み率が得られる結
果、安定な検索時間が保証される。また、配列成分表の
容量がハッシングによって削減されることによって次の
二つの効果がある。まず、同じｋの値を用いている場合
は、より多い塩基配列を配列成分表で扱えるようになる
ことである。また、同じ数の塩基配列を配列成分表で扱
う場合は、より大きなｋの値を用いることが可能にな
る。より大きなｋは、配列成分表検索における検索時間
を短縮しより高速な検索を実現可能にする。

【００６０】ハッシングの一つの例は次のような場合で
ある。塩基配列データベース中の塩基文字にはＡ、Ｃ、
Ｇ、Ｔ以外にも１１種類の塩基文字が使用されている。
これは、塩基配列決定時に塩基文字がＡ、Ｃ、Ｇ、Ｔの
どれかに確定できない場合に使用され、不確定さの度合
いに応じて区別されている。通常の塩基配列決定におい
ては、これらの塩基文字の出現頻度は非常に小さく、
Ａ、Ｃ、Ｇ、Ｔの出現頻度に比べると１００分の一程度
である。そこで、Ａ、Ｃ、Ｇ、Ｔ以外の塩基文字が配列
成分中に出現した場合、それらをＡ、Ｃ、Ｇ、Ｔのいず
れかに変換した配列成分を作成し配列成分表を作成すれ
ば、絞り込み率をほとんど増大させることなく配列成分
表の容量を格段に小さくすることが可能である。検索時
には、検索塩基配列中から抽出した配列成分をこの変換
によって変換した後、配列成分表によって検索を行う。

【００６１】（実施例６）本発明の第６の実施例につい
て、図１１を用いて説明する。ここでは、検索配列から
所定の長さｋの配列成分からなる複数の部分集合を作成
する方法を、一般化する。本実施例では、検索配列から
の配列成分の抽出８０１は、図１２に示すように行な
う。即ち、長さｋの配列成分からなる要素の異なる複数
（ｎとする）の部分集合の作成は次の手順に従う。

【００６２】（１）検索配列の一方の末端から、ｋ塩基
長の配列成分を抽出する。

【００６３】（２）検索配列中のｋ塩基長の配列成分の
抽出を開始した位置をｋｓ塩基長ずらして、ｋ塩基長の
配列成分を抽出する。

【００６４】（３）（２）の手順操作を配列成分の末端
が検索配列中に含まれる間繰り返して、一つの部分集合
を作成する。

【００６５】（４）検索配列中のｋ塩基長の配列成分を
抽出を開始した位置から、ｋｎ塩基長ずらして、（１）
から（３）までの手順操作を繰り返して、新たな部分集
合を作成する。

【００６６】（５）３つ目以降の部分集合を作成すると
きには、直前に作成した部分集合におけるｋ塩基長の配
列成分の抽出を開始した検索配列中の位置から、ｋｎ塩
基長ずらして（１）から（３）までの一連の手順操作を
繰り返す。

【００６７】この手順操作を指定された回数ｎ回だけ行
ない、異なる配列成分からなるｎ個の部分集合が作成さ
れる。更に作成された部分集合を使用する検索方法を一
般化する。このｎ（部分集合の数）の値の上限は次のよ
うに設定する。部分集合の要素である塩基長ｋの配列成
分が、既に作成されている部分集合の要素に全て含まれ
るようになった時点で、部分集合の作成を停止する。即
ち、塩基長ｋの配列成分からなるｎ番目の部分集合の配
列成分の抽出開始位置は、検索配列の一方の端からｋｎ
×（ｎ−１）文字ずれた個所の位置が、ｋ×ｄ−ｋｎ
（ｄは正数）文字目であるならば、ｎ番目の部分集合は
最初の部分集合中に含まれるので、この時点で部分集合
の作成を停止する。言い換えると、ｋｎ×ｎ文字目がｋ
の倍数となるような最小のｎの数だけ、部分集合を作成
する。例えば、ｋが６文字、ｋｎが４文字の場合には、
部分集合は３個作られる。またｋｎが１文字なら、部分
集合はｋ個作られ、ｋが６文字ならば６個作成される。
このように、配列成分の抽出８０１は、ｎ回行われる。

【００６８】次に、作成されたｎ個の異なる部分集合を
用いる検索８０２について説明する。各部分集合に対し
て検索を行なう方法は、実施例２に記載の方法を用い
る。ｎ個の部分集合を作成し、検索する際の検索ヒット
条件は以下の（数６）で示される。

【００６９】

【数６】

【００７０】ここで、ｎ番目の部分集合における検索配
列から抽出される配列成分数Ｎ_e（ｎ）と、同部分集合
における検索配列長Ｎ_k（ｎ）を、Ｎ_k（ｎ）＝Ｎ_k−ｋ
ｎ×（ｎ−１）、Ｎ_e（ｎ）＝Ｎ_k（ｎ）／ｋで定義す
る。以上の検索ヒット条件において、部分集合ごとに判
定８０３を行ない、全ての部分集合に対してヒット条件
を満たす配列のみを、配列成分表検索において抽出し、
抽出された配列に対して次段階の検索である配列検索８
０４を行ない、検索結果８０５を得る。

【００７１】本実施例によるｎ個の部分集合を用いた検
索処理時間ｔ（ｎ）は、以下に示す式（数７）で表わさ
れる。ここで、Ｒｓ（ｎ）は本実施例を用いたときの絞
り込み率を表し、（数７）中の他の変数は実施例１の中
で定義されたものと同じである。

【００７２】

【数７】

【００７３】本実施例では、作成されたｎ個の部分集合
ごとに配列成分表を検索するため、配列成分表検索の時
間ｔ_tbは実施例２に記載の方法と比べてｎ倍になる。本
実施例における検索時間が、実施例１における検索時間
よりも短縮される、即ち、ｔ（ｎ）がｔよりも小さくな
る時には、本実施例における検索の絞り込み率が以下の
（数８）で与えられる条件を満たしている。（数８）で
示される絞り込み率の条件を満たしていれば、検索処理
時間は短縮される。

【００７４】

【数８】

【００７５】次に本実施例における絞り込み率を示す。
本実施例において、絞り込み率は以下のように表され
る。即ち、単純に考えると、それぞれｎ個の部分集合に
おいて検索した結果得られた絞り込み率Ｒｓ（ｎ）は、
（数１）で表される値と同様であり、各部分集合におい
て求められた絞り込み率Ｒｓ（ｎ）の積が、ｎ個の部分
集合を用いて検索した場合の絞り込み率となる。図１３
に本実施例の検索方法である、複数の異なる部分集合を
用いた検索における絞り込み率と、実施例２に記載の検
索方法における絞り込み率とを比較した結果を示す。図
１３では、以下に示す条件で検索を行った結果を表して
いる。

【００７６】使用した文字配列は実際のデ−タベ−ス中
の配列データを利用した。デ−タベ−スは、公共デ−タ
ベ−スであるＧｅｎＢａｎｋ（ｒｅｌｅａｓｅ７４．
０）の中の霊長類の遺伝子配列を集めたＧＢＰＲＩ．Ｓ
ＥＱを利用した。ＧＢＰＲＩ．ＳＥＱには、全体で２０
×１０⁶塩基数が登録されており、配列数にして約２万
配列が登録されている。このデ−タベ−スの配列に対し
て配列の長さが１０００塩基に満たないものは省き、１
０００塩基よりも長い配列に関しては、１０００塩基に
長さをそろえ、５００個の配列を検索の対象とした。こ
の様な配列デ−タベ−スに対し、３文字から１０文字ま
での長さの塩基成分に対して配列成分表を作成した。こ
の配列成分表作成の方法は、実施例１に記載の方法に基
づく。

【００７７】また、検索を行なう配列として同じＧＢＰ
ＲＩ．ＳＥＱのデ−タベ−スから前述のデ−タベ−ス中
の配列とは重複しない配列を４００個使用した。各配列
について計算されたしぼり込み率の平均値を求めた。

【００７８】検索時には、以下の条件のもとに検索配列
から配列成分を抽出した。デ−タベ−スの配列長Ｎ_dは
１０００塩基とし、検索配列長は１００塩基とした。ま
た、検索配列から一定長の配列成分を抽出する際の変数
を以下のように設定する。実施例２に記載の方法も本実
施例のいずれも、一定長ｋの配列成分を切り取る際にｋ
ｓ文字だけずらす。実際の検索時には、これらの値をｋ
＝ｋｓとした。また、本実施例においてのみ、使用され
るｋｎの値は１文字とした。これは、ｋｎが他の一般的
な値をとる場合に比べて、作成する部分集合の数が最大
であり、もっとも細かな検索が出来ると考えたためであ
る。ｋｎの値を１文字と設定すると、ｋ文字の配列成分
に関する部分集合の数は、ｋ個となる。従って、本実施
例においては３〜１０個の部分集合のすべてにおいて検
索ヒット条件を満たした配列の割合を計算する。また検
索ヒット条件を決定する誤り許容率ｍは５％とした。

【００７９】以上の変数を使用して、検索した結果を図
１３に示す。絞り込み率は実施例２に記載の方法よりも
改善されている。配列成分長ｋが５、６、７、８、９文
字の時に絞り込み率が非常に改善され、実施例２に記載
の方法よりも検索時間が短縮する。従って、本実施例は
配列成分表検索においての絞り込み率を改善し、検索時
間を短縮するのに有効である。図１３の結果では、予測
されたほど本実施例による絞り込み率の改善が見られな
かったが、これは検索に実デ−タを用いたために、繰返
し配列が多いなどの理由で、デ−タベ−スがランダムで
はなかったためと考えられる。

【００８０】（実施例７）次に、本発明における第４の
実施例について図１１及び図１４を用いて説明する。本
実施例においては、図１１中の検索配列からの配列成分
の抽出８０１を図１４に示された方法によって行なう。
即ち、ｉ個の異なる長さのｋ_iについて配列成分の抽出
８０１を行い、長さの異なる配列成分からなる部分集合
を作成する方法である。つまり、まず指定された長さｋ
₁に対して、（１）検索配列の一方の末端から、ｋ₁塩基長の配列成
分を抽出する。

【００８１】（２）検索配列中で、配列成分抽出開始点
をｋｓ₁塩基長ずらして、ｋ₁塩基長の配列成分を抽出す
る。

【００８２】（３）（２）の手順操作を配列成分の末端
が検索配列中に収まる間中繰り返す。以上の手順操作に
より、塩基長ｋ₁の配列成分に対する部分集合を作成す
る。次に、予め指定されていたｋ₁とは異なる塩基長ｋ₂
に対して、（１）〜（３）までの手順操作を行ない、塩
基長ｋ₂に対する配列成分からなる部分集合を作成す
る。このように指定されたそれぞれの長さに対応する配
列成分からなる部分集合を作成する。

【００８３】作成された部分集合に対する検索方法は、
実施例２で既に説明した手順に従うが、各部分集合によ
ってその要素である配列成分の塩基長が異なるので、予
め配列成分表も各塩基長ごとに複数作成しておく必要が
ある。つまり、部分集合の配列成分の長さがそれぞれｋ
₁、ｋ₂、ｋ₃塩基長とするとき、配列成分表もそれぞれ
ｋ₁、ｋ₂、ｋ₃塩基長の配列成分に対して予め作成する
必要がある。それぞれの塩基長に対する配列成分表の作
成方法については、実施例１に記載したとおりである。
また、配列成分表検索を行なう場合には、各部分集合の
要素の配列成分の長さに対応する配列成分表を検索す
る。即ち、塩基長ｋ₁の配列成分からなる部分集合を参
照して配列成分表検索を行なうときには、やはり塩基長
ｋ₁の配列成分表を用いて検索する。

【００８４】ｉ個の部分集合を作成した後、配列成分表
検索８０２を行い、全ての場合において検索ヒット条件
を満たす配列の選択８０３を行い、配列検索８０４を行
なう。ここで、各部分集合における検索ヒット条件は以
下に示すように、配列成分長ｋ_iに対応して変化した変
数の値を、（数６）のそれぞれに対応する値に代入した
ものとして表わせる。また、検索時間も実施例６と同様
に（数７）の各変数に対応する値を代入してもとめられ
る。

【００８５】以下、本実施例の検索結果を図１５に表
す。ここでは、検索時には以下の条件を用いた。まず、
デ−タベ−スは実施例６と同じ、公共デ−タベ−スであ
るＧｅｎＢａｎｋの中の霊長類の塩基配列を集めたＧＢ
ＰＲＩ．ＳＥＱであり、配列長Ｎ_dは１０００文字にそ
ろえた。検索配列長Ｎ_kは１００文字とし、デ−タベ−
ス中の配列とは重複しないように選んだ。配列成分の長
さとして、３文字から１０文字までのそれぞれ連続する
３つの値を用いた。つまり、配列成分長として３、４、
５文字の組、４、５、６文字の組、…、８、９、１０文
字の組を用いた。また、配列成分の抽出を行なう際のず
らし文字数ｋｓはそれぞれ配列成分の長さと一致する
値、ｋ＝ｋｓを用いた。また、誤り許容率は１０％とし
た。以上の条件のもとで検索を行った結果を、同条件で
検索を行った実施例２に記載の方法の結果と比較して図
１５に示す。

【００８６】図１５に示す結果より、配列成分の組が
５、６、７文字、６、７、８文字、７、８、９文字、
８、９、１０文字の組では、絞り込み率が非常に改善さ
れている。本実施例の検索では部分集合は指定した配列
成分長の数だけ作成され、３つ部分集合が作成される。
これら数値から、本実施例の絞り込み率で検索時間が短
縮されるかを（数８）を用いて計算する。上記４つの組
の場合では、本実施例の絞り込み率は（数８）に表され
た条件を満たすので検索時間が短縮される。従って、本
実施例は絞り込み率を改善し、検索時間を短縮するのに
効果的である。

【００８７】（実施例８）以下、本発明の第８の実施例
について図１１及び図１６を用いて説明する。本実施例
では、図１１中の検索配列からの配列成分の抽出８０１
において、実施例６及び実施例７で説明した方法を組み
合わせて検索する。即ち、長さの違う複数のｋに対し
て、それぞれ実施例６の方法に基づき複数の異なる部分
集合を作成する。本実施例の配列成分の抽出８０１で
は、図１６に示すように以下の手順を指定された複数の
異なる長さｋに対して行なう。まず、一つの長さｋ₁の
配列成分について、（１）検索文字配列の一方の末端から長さｋ₁の配列成
分を切り出す。

【００８８】（２）配列成分を切りだした位置からｋｓ
₁文字ずらして長さｋ₁の配列成分を切り出す。

【００８９】（３）配列成分の末端が検索文字配列中に
含まれている間中、（１）（２）の手順操作を繰り返
す。

【００９０】（４）更に検索文字配列中の配列成分の切
り出し開始位置からｋｎ文字ずらしてから、（１）〜
（３）の手順操作を繰り返す。

【００９１】（５）新たに抽出した配列成分が、既に作
成されていた部分集合の配列成分と一致するようになる
まで、（１）〜（４）の手順操作を繰り返す。

【００９２】以上の手順に従い、ｋ₁塩基長の配列成分
の複数の部分集合を作成する。本実施例では、更に指定
されていた異なる長さｋ₂の配列成分に対しても、
（１）〜（５）の手順操作を繰り返して複数の部分集合
を作成する。この手順操作を指定されたｉ個の塩基長に
対して行なう。このようにして、複数の異なる配列成分
からなる部分集合を作成する。この時部分集合の数は以
下のように設定される。まず、指定された異なった塩基
長がｉ個とし、それぞれの塩基長をｋ₁、…、ｋ_iと表
す。それぞれの塩基長に対応した配列成分の部分集合を
作成する際に、部分集合ごとに配列成分の抽出開始位置
をｋｎ_i文字ずらす。各塩基長における部分集合の数Ｎ
（ｋ_i、ｋｎ_i）は、ｋｎ_i×Ｎ（ｋ_i、ｋｎ_i）がｋ_iの倍
数になるような最小の値として定義される。例えば、ｋ
_iが６文字、ｋｎ_iが２文字の場合には、Ｎ（ｋ_i、ｋ
ｎ_i）は３となる。全体として部分集合の個数Ｇ_nは以下
の（数９）で与えられる。

【００９３】

【数９】

【００９４】こうして作成されたＧ_n個の部分集合に対
してそれぞれの塩基長ｋ_iに対応する配列成分表を参照
した検索８０３を行なう。検索時には、それぞれの塩基
長ｋ_iにおけるＮ（ｋ_i、ｋｎ_i）個の部分集合に対して
それぞれに対応する検索ヒット条件に基づいて検索を行
なう。検索ヒット条件はそれぞれの塩基長ｋ_iについて
求められたスコアＳが、各部分集合の全ての場合におい
て（数６）で表わされる値よりも大きいかもしくは等し
いならば、文字配列を参照する検索８０４を行ない、検
索結果８０５を得る。

【００９５】本実施例における絞り込み率を図１７に表
す。本実施例においても検索時には、実施例６及び、実
施例７において検索に用いられたものと同様のデ−タベ
−スを用いる。また、配列成分抽出時の変数はｋｓ＝ｋ
とし、各部分集合作成時の変数ｋｎ＝１とした。さら
に、複数の配列成分の長さは、実施例７と同様に３文字
から１０文字までのそれぞれ３つの連続する長さを用い
た。また、配列の長さに関しては実施例６、７と同様に
デ−タベ−ス中の配列長Ｎ_dを１０００塩基、検索配列
長Ｎ_kを１００塩基とした。

【００９６】以上の条件のもとで、検索を行った結果を
図１７に表す。本実施例における絞り込み率は、実施例
６及び実施例７に表された検索方法における絞り込み率
の積になる。図１７より、本実施例における絞り込み率
の方が、実施例７に記載の方法よりも改善されている。
本実施例における検索時間は、（数９）と（数７）によ
り、表わすことができ、（数９）によって求められた部
分集合数Ｇ_nを（数７）に代入し、検索時間を計算でき
る。また、検索時間を短縮するための絞り込み率の条件
は同様に部分集合の数Ｇ_nを（数８）に代入すればよ
い。このようにして調べた結果では、検索を行った配列
成分の組の全ての場合において、検索時間が実施例２に
記載の方法よりも短縮している。また、図１７に示しさ
れるように、実施例７に記載の方法と比較しても、配列
成分の組３、４、５文字、４、５、６文字の組について
は絞り込み率の著しい改善が見られ、本実施例は絞り込
み率を改善し、検索時間を短縮するのに効果的である。

【００９７】（実施例９）以下、本発明の第９の実施例
について図１１を用いて説明する。本実施例では、図１
１中の各部分集合における検索条件の判定８０３を一般
化する。即ち、検索配列からの配列成分の抽出８０１に
よって作成された複数の部分集合に対して、配列成分表
を用いた検索８０２を行い、それぞれの部分集合に対し
て得られた検索結果を用いて判定８０３を行い、選ばれ
た配列に対して配列検索８０４を行なう。

【００９８】複数の部分集合を用いて検索を行なう場合
には、それぞれの部分集合に対する検索ヒット条件を考
慮し、すべての部分集合において、算出されたスコアが
検索ヒット条件を満たす配列を抽出する。この検索方法
を以下のように一般化する。まず、実施例６、７、８で
説明したように、一つの検索配列からは複数の要素の異
なる部分集合が作成される。この部分集合の要素は、各
々部分集合の作成方法に従って要素である配列成分数が
異なりうる。そこで、各部分集合に対して、検索ヒット
条件がそれぞれ設定される。検索では、全ての部分集合
において検索ヒット条件を満たしている配列を抽出す
る。ここでは、各部分集合において、スコアがその部分
集合の（数６）で表される検索ヒット条件を満たすなら
ば１、満たさないならば０のビットフラグを与える。こ
のフラグの数は部分集合の数だけ存在する。このフラグ
の論理積を計算し、この計算結果が１になる配列を配列
成分表検索において抽出する。

【００９９】以上の各実施例ではＤＮＡ塩基配列の検索
を例にとり、本発明の文字配列検索方法を説明したが、
本発明はこれに限らずＲＮＡ塩基配列の検索、アミノ酸
配列の検索、さらには一般の文書の検索にも適用できる
ことは言うまでもない。また文書検索では記号文字、絵
文字等を含む場合にも適用可能である。

【０１００】

【発明の効果】本発明によれば、所定の長さの文字配列
が登録された文字配列成分表の検索によって絞り込みを
行い、その後、文字配列検索を行う階層型プリサーチ手
段を設けること、また、文字配列成分表の検索による絞
り込みのさい、検索文字配列中の所定の長さの文字配列
の中から部分集合を選び出し、部分集合を用いて文字配
列成分表をサーチする際のヒット成分数の基準として、
検索者が予め与える誤り許容率を基に決定される数を用
いることによって、与えられた検索文字配列から誤り許
容率を超えて異なった文字配列を、文字配列を参照する
以前に切り捨てて、検索対象の文字配列を検索する量を
少なくできる。これによって、与えられた検索文字配列
から誤り許容率以内の文字配列をもれなく検索し、かつ
大規模な文字配列データベースでも実用的な応答速度で
検索することが可能となる。

【図面の簡単な説明】

【図１】本発明の第１の実施例であり文字配列検索方法
が適用される文字配列検索装置の構成を示す図。

【図２】本発明の第１の実施例における階層型プリサー
チでの文字配列（ＤＮＡ塩基配列の例）及び文字配列成
分表の作成登録の処理内容を示す図。

【図３】本発明の第１の実施例における階層型プリサー
チでの文字配列（ＤＮＡ塩基配列の例）の検索方法を示
す図。

【図４】本発明の第１の実施例における絞り込み率（Ｒ
_S）（計算値）の各塩基配列長に対する文字配列長
（ｋ）値依存性を示す図。

【図５】本発明の第２の実施例である、重複分割法への
一般化を行なった、検索配列からの配列成分の抽出方法
及び検索方法を示す図。

【図６】本発明の第２の実施例において、文字配列長、
ｋ=６とするときの絞り込み率（Ｒ_S）（計算値）の誤り
許容率（ｍ）依存性を示す図。

【図７】本発明の第３の実施例であり、データベース中
の塩基配列の重複を許した分割を行い、分割された配列
に対して塩基配列成分表を作成する、重複分割塩基配列
成分表の作成登録方法を示す図。

【図８】絞り込み率（Ｒ_S）（計算値）のデータベース
中の塩基配列長（Ｎ_d）依存性を示す図。

【図９】本発明の第４の実施例である配列末端の情報を
利用する塩基配列成分の抽出方法を示す図。

【図１０】本発明の第５の実施例である頻度情報を利用
するハッシング型の配列成分表の作成方法を示す図。

【図１１】本発明の第６の実施例である検索文字配列か
ら複数の部分集合を使用する検索方法を示す図。

【図１２】本発明の第６の実施例である検索文字配列か
らの複数の部分集合の作成方法を示す図。

【図１３】本発明の第６の実施例における絞り込み率
（Ｒ_S）の各文字配列長（ｋ）値依存性を示す図。

【図１４】本発明の第７の実施例である検索文字配列か
らの複数の部分集合の作成方法を示す図。

【図１５】本発明の第７の実施例における絞り込み率
（Ｒ_S）の各文字配列長（ｋ）値依存性を示す図。

【図１６】本発明の第８の実施例である検索文字配列か
らの複数の部分集合の作成方法を示す図。

【図１７】本発明の第８の実施例における絞り込み率
（Ｒ_S）の各文字配列長（ｋ）値依存性を示す図。

【符号の説明】

１００…ディスプレイ、１０１…キーボード、１０２…
中央制御装置ＣＰＵ、１０３…文字配列、１０４…文字
配列成分表、１０５…フロッピーディスクドライバ、１
０６…文字配列の格納用ファイル、１０７…フロッピー
ディスク、２００…主メモリ、２０１…文字配列登録プ
ログラム、２０２…文字配列成分表作成登録プログラ
ム、２０３…誤り許容文字配列成分表サーチプログラ
ム、２０４…誤り許容文字配列サーチプログラム、２０
５…データエリア、２０６…階層検索制御プログラム、
３００…ＤＮＡ塩基配列登録プロセス、３０１…ＤＮＡ
塩基配列からの文字配列成分の抽出プロセス、３０２…
ＤＮＡ塩基配列成分表作成プロセス、３０３…ＤＮＡ塩
基配列成分表登録プロセス、４００…誤り許容率ｍ、及
び検索ＤＮＡ塩基配列の入力プロセス、４０１…検索Ｄ
ＮＡ塩基配列からの配列成分の抽出プロセス、４０２…
ＤＮＡ塩基配列成分表による検索プロセス、４０３…Ｄ
ＮＡ塩基配列の検索プロセス、４０４…検索結果出力プ
ロセス、５００…検索ＤＮＡ塩基配列からの重複分割法
による配列成分の抽出プロセス、５０１…ＤＮＡ塩基配
列成分表による検索プロセス、６００…データベース塩
基配列の重複分割プロセス、６０１…重複分割塩基配列
成分表の作成プロセス、６０２…重複分割塩基配列成分
表の登録プロセス、７００…各配列成分種のデータベー
ス中での頻度分布、７０１…頻度の順に配列成分種を並
べ換えた頻度分布、７０２…ハッシング法、８００…誤
り許容率ｍ、及び検索ＤＮＡ塩基配列の入力プロセス、
８０１…検索ＤＮＡ塩基配列からの配列成分の抽出、及
び内容の異なる複数個の部分集合の作成プロセス、８０
２…各部分集合を用いたＤＮＡ塩基配列成分表による検
索プロセス、８０３…ＤＮＡ塩基配列成分表検索の結果
を用いた検索条件の判定プロセス、８０４…ＤＮＡ塩基
配列の検索プロセス、８０５…検索結果出力プロセス。

───────────────────────────────────────────────────── フロントページの続き (72)発明者永井啓一東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者川口久光東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者多田勝己東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者加藤寛次東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者神原秀記東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者村川克二東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者相坂一夫東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者長坂充東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (56)参考文献特開平３−174652（ＪＰ，Ａ) 三宅輝久、宮本定明、中山和彦，核酸配列分析へのファジィマッチング関数の応用，ファジィシステムシンポジウム講演論文集，日本，日本ファジィ学会, 1990年９月６日，第６回，ｐ．307 −310 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】複数の文字配列が登録された文字配列デー
タベースの中から指定された検索文字配列を検索する文
字配列検索方法において、（１）前記登録文字配列中に
含まれる所定の長さ（ｋとする）の連続する部分文字配
列を重複なく含み、これら部分文字配列について、全て
の塩基配列成分種に対して１ビットの情報で表現された
文字配列成分表を作成するステップと、（２）前記登録
文字配列と前記文字配列成分表を合わせて文字配列デー
タベースへ登録するステップと、（３）前記検索文字配
列中に含まれる前記所定の長さ（ｋ）の文字配列から、
所定の方法により検索文字配列の部分集合を抽出するス
テップと、（４）所定の誤り許容率によって定められる
一定数よりも多く前記部分集合の中の文字配列を含む前
記登録文字配列について、前記誤り許容率の以内の文字
配列を抽出するために前記文字配列成分表をサーチする
ステップと、（５）前記文字配列成分表をサーチするス
テップによりえられた前記登録文字配列を参照して、前
記誤り許容率の以内の前記登録文字配列を抽出するため
の文字配列をサーチするステップとを有することを特徴
とする文字配列検索方法。
【請求項２】複数の文字配列が登録された文字配列デー
タベースの中から指定された検索文字配列を検索する文
字配列検索方法において、（１）前記登録文字配列の両
末端を接続した環状の登録環状文字配列を想定し、前記
登録環状文字配列中に含まれる所定の長さ（ｋとする）
の部分文字配列を重複なく含む文字配列成分表を作成す
るステップと、（２）前記登録文字配列と前記文字配列
成分表を合わせて文字配列データベースへ登録するステ
ップと、（３）前記検索文字配列の両末端を接続した環
状の検索環状文字配列を想定し、前記検索環状検索文字
配列に含まれる前記所定の長さ（ｋ）の文字配列から、
所定の方法により検索文字配列の部分集合を抽出するス
テップと、（４）所定の誤り許容率によって定められる
一定数よりも多く前記部分集合の中の文字配列を含む前
記登録文字配列を、前記文字配列成分表を参照して、前
記誤り許容率の以内の文字配列を抽出するための文字配
列成分表をサーチするステップと、（５）前記文字配列
成分表をサーチするステップによりえられた前記登録文
字配列を参照して、前記誤り許容率の以内の前記登録文
字配列を抽出するための文字配列をサーチするステップ
とを有することを特徴とする文字配列検索方法。
【請求項３】前記文字配列が、ＤＮＡまたはＲＮＡの塩
基配列を表わすことを特徴とする請求項１または２に記
載の文字配列検索方法。
【請求項４】前記文字配列が、アミノ酸配列を表わすこ
とを特徴とする請求項１または２に記載の文字配列検索
方法。