JPH0793370A

JPH0793370A - 遺伝子データベース検索システム

Info

Publication number: JPH0793370A
Application number: JP5260403A
Authority: JP
Inventors: Hitoshi Fujimiya; 仁藤宮; Shinichiro Yamamoto; 真一郎山元; Norio Maru; 典生丸; Toshiji Okayama; 利次岡山; Naganori Nasu; 永典奈須
Original assignee: Hitachi Device Engineering Co Ltd; Hitachi Software Engineering Co Ltd; Hitachi Consumer Electronics Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd; Hitachi Consumer Electronics Co Ltd; Japan Display Inc
Priority date: 1993-09-27
Filing date: 1993-09-27
Publication date: 1995-04-07
Also published as: EP0646883A1; US5706498A

Abstract

(57)【要約】【目的】遺伝子データベースからその配列データの類
似の配列を有する遺伝子配列を検索する遺伝子データベ
ース検索システムを提供する。【構成】遺伝子データベース検索システムは、構造が
解析された遺伝子の配列データを蓄積する遺伝子データ
ベースと、遺伝子データベースからの塩基配列データを
ターゲットデータとし、検索キーとなる塩基配列データ
をキーデータとして、ターゲットデータとキーデータと
の類似度を求める動的計画法演算ユニットと、遺伝子デ
ータベースと動的計画法演算ユニットを制御し、遺伝子
データベースに対するアクセス処理と、遺伝子データベ
ースからの塩基配列データをターゲットデータとして動
的計画法演算ユニットに順次に入力して類似度を求める
演算処理とを並行して動作させる中央処理装置ユニット
とを備える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、遺伝子データベース検
索システムに関し、特に、構造が解析された遺伝子の少
なくとも核酸塩基配列および蛋白質のアミノ酸残基のい
ずれかの配列データを蓄積している遺伝子データベース
から、遺伝子配列に対しその類似の配列データを抽出す
る候補として検索する場合に、その検索のための演算を
効率的に実行し、能率よく遺伝子データベースの配列デ
ータを検索することができる遺伝子データベース検索シ
ステムに関するものである。

【０００２】

【従来の技術】現在、ヒトゲノムプロジェクトや、イネ
ゲノムプロジェクトなどに代表されるように、動物およ
び植物の特性を遺伝子レベルで解明しようとした研究開
発の動きが活発となっている。これは、それぞれの生物
の持つ特徴を遺伝子レベルの配列と対応づけることによ
り、人間にとって有用な機能を別の生物体内に発生させ
ることが、遺伝子組み替え技術の確立によって実現可能
となることが理解され始めたからである。

【０００３】従来から、遺伝子配列の構造の解析は一部
で進められており、これらの既に解析された遺伝子配列
の情報は、データベースに登録されて、共通に利用可能
なように提供されている。一般の研究者が、このような
データベースにアクセスすることにより遺伝子配列の情
報が利用できる。このような遺伝子配列のデータベース
としては、例えば、米国におけるＧｅｎＢａｎｋ、欧州
におけるＥＭＢＬ、日本国における国立遺伝学研究所な
どの遺伝子データベースがある。

【０００４】なお、ここでの以下の説明において、特に
断わらない限り遺伝子とは、生物体の遺伝情報を有する
核酸塩基の配列やそれらの組み合わせであるアミノ酸残
基の配列を意味するものとする。

【０００５】遺伝子データベースからの遺伝子配列の検
索は、研究者が実験によって決定した遺伝子配列の生体
内における機能を推定したり、同種の配列を有する生体
をグルーピングすることにより遺伝系統樹を作成した
り、また、実験によって決定した遺伝子配列の配列その
ものの構造および遺伝子情報が、既に発見済のものであ
るか否かなどを知ることを目的として行なわれる。

【０００６】まず、従来から利用可能な遺伝子データベ
ースを利用し、遺伝子データベースから遺伝子配列の検
索を行う場合の操作例について説明する。各研究者は、
特定の生物にしかない機能などを解明するため、その生
体を制御しているメカニズムを探る。多くの場合、この
ようなメカニズムは、蛋白質や周辺の糖鎖などが介在し
たメカニズムとなっていることが多い。

【０００７】このようにして求められたメカニズムにお
ける生体高分子から、次に、その遺伝情報を有する核酸
塩基などの配列を決定する。例えば、蛋白質の場合はア
ミノ酸残基の配列である。これらのアミノ酸の配列から
遺伝子のコドンとの対応がつけられる。核酸の塩基配列
が蛋白質に翻訳される場合、若干の修飾などが加わるこ
とや、一つのアミノ酸残基に複数のコドンが対応するた
め、推定した遺伝子配列は完全に解明されたとは言えな
い場合もある。

【０００８】しかし、このようにして求められた遺伝子
の推定配列を基にして、遺伝子データベースを検索す
る。これにより、同種の遺伝子配列を有する生体などを
検索することが可能となる。また、ここでの遺伝子デー
タベースから検索された結果により、その検索後の確度
の高い遺伝子の配列を基にして、遺伝子プローブなどを
作成し、対象生物体の染色体に結合させることにより、
染色体のどの部分に前記遺伝情報が存在するかを明らか
にすることが可能となる。

【０００９】更に、対象の生物体の染色体に結合させた
部分を抽出して最終的な塩基配列を決定することが可能
となり、場合によっては、直接的にアミノ酸配列によっ
て、遺伝子データベースを検索する場合もある。このよ
うに、核酸塩基配列やアミノ酸残基の配列に対する遺伝
子データベースによる配列データの検索は、生体のメカ
ニズムを解析する場合において必須の作業となる。

【００１０】この種の遺伝子データベースの検索は、通
常の意味でのデータベースの検索とは異なり、検索のキ
ーとなる配列データに対して類似性の高い配列を、遺伝
子データベースから検索結果の候補として抽出すること
を意味する。このような形態の遺伝子データベースの検
索は相同性検索（ホモロジー検索）と呼ばれる。

【００１１】ところで、遺伝子などの生体高分子におい
ては、世代を経るごとに遺伝子配列が徐々に変化し、複
数の世代を経ると、遺伝子の配列に欠落や挿入が生じて
いる場合がある。このような遺伝子の配列に対して行う
遺伝子配列相互の類似性の評価は、任意の位置において
挿入や欠落を想定した評価とするため、直接的な評価の
解法では、評価の結果を得るまでに膨大な計算量を必要
とする。したがって、このような膨大な計算量を低減す
るため、通常の場合、動的計画法の解法に従った近似的
な計算の手法が用いられる。

【００１２】典型的な遺伝子配列相互の類似性を得る評
価の解法では、動的計画法の解法の手法を利用し、全体
的な最適解を求めるため、次に説明するようなステップ
をとることにより、膨大なデータの組み合わせの量を低
減して、演算を効率的に進める。すなわち、この手法に
よると、まず、微小な部分（遺伝子の場合は１塩基ず
つ）を対象として、その部分（塩基）が一致しているか
どうかに応じて加点し、また、微小な部分の挿入や欠落
が発生するごとに減点しながら、演算開始点からの累積
値を求めて、それまでの各々の組み合わせごとに局所的
な最適なルートを求める。それを最終の組み合わせまで
実行し、累積値の最大となるポイントから、逆に前に求
めた局所的な選択パスをさかのぼる（バックトレースす
る）ことによって全体の最適な組み合わせを求めること
になる。

【００１３】次に、遺伝子データベースの検索に動的計
画法の解法の手法を用いてデータ検索を行う場合の具体
例について説明する。図７は動的計画法の手法による類
似度算出の演算方法の原理を説明する図である。図７ａ
に動的計画法の全体の演算フローの説明図を示し、図７
ｂに動的計画法の基本演算セルの演算原理を説明する図
を示している。

【００１４】検索のキーとなる塩基配列データ（キーデ
ータ）と遺伝子データベースから取り出した塩基配列デ
ータの一つのターゲットデータは、図７ａに示すよう
に、マトリクス両辺の直交する位置に配置され、各々の
配列データの組み合わせが、マトリクス状になるように
配置される。配列データの両者の要素データが、一致す
る場合、または異なっていても遺伝子の置換と考えられ
る場合は、斜線を入れて、その斜線のパスのスコアを高
めるため、高いスコア値を設定する。

【００１５】また、挿入や欠損によって対となるものが
ないと推定される場合は、各々の要素データの間の直交
する格子がその場合のパスを表現していると見なし、こ
の格子のパスのスコアではスコア値を減算する。このよ
うに表現することにより、マトリクス内の直交する格子
と斜線の組み合わせのパスにより、両者の任意の組み合
わせを表現することができる。そして、その組み合せの
パスを通るスコアの値の累算により、最も一致している
組み合わせ（これを最適並置と言う）を求めることが可
能となる。したがって、最適パスは各々の格子点のスコ
ア値を求め、最も高いスコア値の格子点を順次に通るパ
スを求めることにより求められ、最適並置を求めること
は、この最適パスを求める問題に帰着される。

【００１６】このような問題の解法において、動的計画
法を使用する場合と使用しない場合との比較のため、ま
ず、動的計画法を使用しないで直接的に最適パスを求め
た場合に、どの程度の計算量となるかの概略を次に計算
してみると、直接的に求める場合には、すべてのパスの
組み合わせの数だけ計算量を要するため、次に示す「式
１」による数Ｓだけの組み合わせが発生する。ここで、
第１の配列データの要素の数と、第２の配列データの要
素の数とをそれぞれＭ，Ｎとする。

【式１】

【００１７】この「式１」で、例えば、Ｍ＝Ｎ＝１０と
しても、その組み合せの数Ｓは、約８００万程度の数と
なり、配列データの要素の数がわずかに増加しても爆発
的に演算量が増大することがわかる。動的計画法用いた
遺伝子データベース検索では、実用的な種々の条件を設
定することによって類似度の計算をＭ×Ｎのオーダー
（Ｍ＝Ｎ＝１０として１００のオーダー）まで低減して
処理を行う。

【００１８】次に、動的計画法を用いた場合の計算方法
について説明する。配列Ａ＝ａ１，ａ２，…，ａｍと、
配列Ｂ＝ｂ１，ｂ２，…，ｂｎとの間の類似度Ｄ（Ａ，
Ｂ）は、以下のようにして、帰納的に求められる。ここ
での配列Ａの部分配列Ａｓ＝ａ１，ａ２，…，ａｉと、
配列Ｂの部分配列Ｂｓ＝ｂ１，ｂ２，…，ｂｊとの間の
最適並置は、次の３通りの並置方法のうちの１つをと
る。［第１の並置方法］部分配置ａ１，ａ２，…，ａ（ｉ−
ｋ）と、部分配置ｂ１，ｂ２，…，ｂｊとを最適並置さ
せた上で、ｂｊの後にｋ個の空白を挿入し、続いて、ａ
（ｉ−ｋ＋１），…，ａｉと相対させる並置方法。［第２の並置方法］部分配置ａ１，ａ２，…，ａ（ｉ−
１）と、部分配置ｂ１，ｂ２，…，ｂ（ｊ−１）とを最
適並置させた上で、次に、ａｉとｂｊを相対させる並置
方法。［第３の並置方法］部分配置ａ１，ａ２，…，ａｉと部
分配置ｂ１，ｂ２，…，ｂ（ｊ−ｋ）とを最適並置させ
た上で、続いて、ａｉの後にｋ個の空白を挿入して、ｂ
（ｊ−ｋ＋１），…，ｂｊと相対させる並置方法。

【００１９】したがって、配列Ａの部分配列Ａｓ＝ａ
１，ａ２，…，ａｉと、配列Ｂの部分配列Ｂｓ＝ｂ１，
ｂ２，…，ｂｊとの間の類似度（累積値）のＤ（ａｉ，
ｂｊ）は、一度に挿入や欠失される塩基配列の最大の長
さをαとすると、初期条件のスコアの値によるＤ（０，
０）＝０のもとに、次の漸化式を解くことによって求め
られる。なお、以下の説明において、類似度を求める対
象の２つの配列は変かわない場合には混同しないので、
Ｄ（ａｉ，ｂｊ）を単にＤ（ｉ，ｊ）と略記し、類積値
の演算マトリクスの夫々の要素の位置（行列）をも示す
ものとする。

【００２０】ここでは類似度の数値の大きいときが「類
似している」ものと記述する。したがって、以下の漸化
式の数式においては、動的計画法の演算の関数ｍｉｎが
関数ｍａｘに置き換わっている。Ｄ（０，０）＝０１≦ｋ≦αの場合において、Ｄ（ｉ，ｊ）＝ｍａｘ［ｍａｘ｛Ｄ（ｉ−ｋ，ｊ）＋ｖ
（ｋ）｝，Ｄ（ｉ−１，ｊ−１）＋δ（ａｉ，ｂｊ），
ｍａｘ｛Ｄ（ｉ，ｊ−ｋ）＋ｖ（ｋ）｝］（ただし、０≦ｉ≦Ｍ，０≦ｊ≦Ｎ）この漸化式を解くために必要なパラメータは、αと、挿
入欠失のスコアｖ（ｋ）の値と、置換のスコアδ（ａ
ｉ，ｂｊ）の値である。

【００２１】ここでは、更に計算量を低減するため、α
＝１に限定する。すなわち、一度に１個の挿入欠失しか
発生しないとしても、実用上の問題はないため、α＝１
とすることにより、ｋ＝１となるので、次の漸化式によ
って類似度の計算を行う。Ｄ（０，０）＝０Ｄ（ｉ，ｊ）＝ｍａｘ［Ｄ（ｉ−１，ｊ）＋ｖ（１），
Ｄ（ｉ−１，ｊ−１）＋δ（ａｉ，ｂｊ），Ｄ（ｉ，
ｊ−１）＋ｖ（１）］（ただし、０≦ｉ≦Ｍ，０≦ｊ≦Ｎ）

【００２２】この演算は、模式的には、図７ｂに示すよ
うに、表現することができる。すなわち、Ｄ（ｉ，ｊ）
の演算は、３つのルートの内で最大のスコア（累積値）
の値となるパスを選択して、該当の格子点のスコアとす
る基本演算となる。この図７ｂの基本演算セルの内容
は、図７ａの一つの格子点にかかるセルの基本演算を取
り出したものに他ならない。すなわち、図７ｂに示す基
本演算セルにおいて、上方からの矢印線のパス（縦格
子）と左方からの矢印線のパス（横格子）が遺伝子の挿
入欠落の場合を意味し、対角線方向の矢印線のパス（斜
線）は、置換または一致の場合を意味している。

【００２３】実際の計算は次の手順で行われる。まず、
３つのノードにおける類似度のＤ（ｉ−１，ｊ）、Ｄ
（ｉ−１，ｊ−１）、Ｄ（ｉ，ｊ−１）の値にそれぞれ
のルートにおけるスコアの値（負の場合もある）を加算
する。次に、これら３本のルートから得られたスコアの
加算値の中から最も大きなものを選択して、累積値マト
リクスの当該ノード（格子点）のＤ（ｉ，ｊ）のスコア
とする。これを図７ａの原点（左上）側からから列（ま
たは行）方向に順に適用し、マトリクス全体の各々のノ
ードのスコアの計算を行う。

【００２４】次に、全体の最適並置を求めるため、基本
演算が終了した後に、図７ａのパス７１に示すように、
右下の最後の要素の格子点（ノード）から、各々の格子
点を演算したときに選択したパス（各基本演算セルの格
子線または斜線のパス）を逆に辿りながら、原点の格子
点方向の左上方向に進む（バックトレースする）ことに
より、スコアマトリクスの値の累積値が最大となる全体
のパス７１を求めることができる。また、部分最適並置
を求める場合は、各格子点の位置で求めた類似度のＤ
（ｉ，ｊ）のスコア値の最も大きな格子点（ノード）を
求め、そこから同様にバックトレースをすることによっ
て求めることができる。

【００２５】このように類似度を表わす累積値マトリク
スの値は、各々の格子点（ノード）におけるＤ（ｉ，
ｊ）のスコア値の計算から順次に求めることにより演算
を行うことができる。その計算量は、基本演算のステッ
プ数のＭ×Ｎ倍のオーダーとなる。ここで、実際に用い
られる遺伝子配列データの記号と、そのスコア表の一例
を図８に示している。図８に示すスコア表は、各々の塩
基コードが一致した場合のスコア値または置換した場合
のスコアδ（ａｉ，ｂｊ）の値である。

【００２６】図８は、動的計画法を用いて遺伝子データ
ベース検索を行う場合の類似度を求めるスコア表の一例
を示す図となっており、図８に示すように、スコア表８
１はターゲット側の配列要素データ（ＡＣＧＴＲＹＭＷ
ＳＫＤＨＶＢＮ）を列方向に配置し、キー側の配列要素
データ（ＡＣＧＴＲＹＭＷＳＫＤＨＶＢＮ）を行方向に
配置した２次元マトリクス形式の表となっている。な
お、ここでのターゲット側およびキー側の配列要素デー
タのＡ〜Ｎは、それぞれの塩基コードを示しており、ス
コア表の値は、各々の塩基コードが一致した場合または
置換された場合に加算されるスコアの点数を示してい
る。

【００２７】以上に説明したように、動的計画法の解法
の手法を用いることにより、評価に必要とされる演算量
は、基本演算のＭ×Ｎのオーダーまで低減できる。しか
し、これでも実際に遺伝子データベースの検索を行う上
での類似度の評価の結果を得る場合には、かなりの演算
時間を必要とする。

【００２８】特に、上記の計算方法の説明で述べたよう
に、ここでの動的計画法の演算においては、スコア値の
加減算の演算と共に、その後にパス選のための各ルート
の３方向からの比較演算が入るため、通常の数値演算用
プロセッサを用いても、その処理速度を向上させにく
い。例えば、前述のＧｅｎＢａｎｋに登録されている約
７万件のエントリの遺伝子データを１つのキーデータに
ついて検索する場合、データ処理速度が数十ＭＩＰＳ程
度の処理能力を有するエンジニアリングワークステーシ
ョンクラスのコンピュータを使用しても、１０数時間か
ら２０時間程度は必要である。このため、演算時間を短
縮するための簡略化の手法が種々検討されている。

【００２９】簡略化の手法の一例として、計算量を更に
低減するために、例えば、遺伝子の挿入欠損を無視する
ことで、動的計画法を直接には適用しないですませ、単
なる文字列の一致する部分を求め、文字列の一致する部
分長さを点数として、候補を絞り込み、その絞り込まれ
た配列部分のみを対象として、局所的に動的計画法を適
用するという簡略化手法がある。

【００３０】しかし、このように簡略化され変更された
方法では、初めの段階での演算に遺伝子配列における塩
基要素の挿入欠失が考慮されていないため、例えば、挿
入欠失が飛び飛びに数ヵ所で発生している場合には一致
する部位が連続しないため、一致部分の長さとしては、
短くなり、最終的な候補として残らない場合がある。そ
の場合は、実際に類似しているにもかかわらず検索でき
ないことになる。

【００３１】また、候補の絞り込みに続いて行われる最
適並置を求める最適化の評価の段階においても、例え
ば、図９に示すように、計算マトリクス９１の対角線９
２に沿って、被検索対象の候補を挟む前後１６塩基程度
の範囲９３に対してのみ、局所的に動的計画法を適用す
ることになる。しかし、累積して１６塩基以上の挿入欠
損を有する場合のような並置も歪を受けることがあり、
キーデータとターゲットデータを入れ替えても本来同じ
スコアであるべきものが異なってしまうなどの問題を有
している。ただし、演算する対象の候補の数が非常に減
少するため演算時間は短い。

【００３２】このように変更されたアルゴリズムでは、
精度を犠牲にして処理時間の短縮を図るものとなってい
る。具体的には、動的計画法を実行して類似度の評価を
行う場合には、１０数時間から２０時間程度の計算の処
理時間を必要とするのに対して、変更されたアルゴリズ
ムでは、１０数分程度の処理時間で済んでいる。

【００３３】次に、このような遺伝子データベースの検
索を行うシステムのハードウェア構成について説明す
る。まず、システムの基本構成を図１０を用いて説明す
る。図１０は遺伝子データベース検索システムの基本構
成を示すブロック図である。図１０において、１０１は
ワークステーション、１０２は外部記憶装置、１０３は
モデム、１０４はネットワーク、１０５は研究機関のデ
ータベースである。このシステムでは、ワークステーシ
ョン１０１が、マンマシンインタフェースとなる部分で
あり、研究者の居るサイトに設置され、ローカルな遺伝
子データベースでのデータ検索（相同性検索）の処理を
実行する。

【００３４】ここでのワークステーション１０１には、
遺伝子データベースとしての外部記憶装置１０２が接続
され、外部記憶装置１０２により遺伝子情報の配列デー
タが蓄積されているＣＤ−ＲＯＭまたはハードディスク
などの記憶媒体から、遺伝子配列データのターゲットデ
ータを得て、検索キーのキーデータに対する類似度の評
価と、ターゲットデータの中から候補として抽出する遺
伝子配列の相同性検索を行う。また、ワークステーショ
ン１０１は、他の遺伝子データベースとしてモデム１０
３によりネットワーク１４を介して研究機関のデータベ
ース１０５に接続されており、研究機関のデータベース
１０５から遺伝子データベースの情報を得て、それをタ
ーゲットデータとして、ローカルな遺伝子データベース
でのデータ検索の処理と同様に、検索キーのキーデータ
に対する遺伝子情報の配列データの相同性検索を行う。

【００３５】実験などによって求められた遺伝子配列の
配列データは、キーボードから直接に、または、フロッ
ピーディスクなどの記録媒体を介して、ワークステーシ
ョン１０１に入力される。この配列データを検索キーの
キーデータとして、遺伝子データベースの検索処理（相
同性検索）を実施する。各研究者が所有するローカルな
遺伝子データベースに対して、データ検索する場合は、
前述のように、変更され簡略化されたアルゴリズムを用
いて、類似している配列を検索（相同性検索）する。検
索処理はすべてソフトウェアで記述されているプログラ
ムの処理により行なわれる。その場合、ＣＤ−ＲＯＭに
よる配布データは、アップデートされる期間が比較的に
長く、その間隔が離れていることが多いため、新しく解
明された遺伝子配列の配列データに関する最新情報を利
用できるまでに遅れが生ずる。そのため、研究者は、確
実に検索を行うため公衆回線のネットワーク１０４を経
由して公共用の大型のデータベース機関にアクセスし
て、最終的なデータ検索を行い、自己が解明した遺伝子
配列が新規な遺伝子配列であると判断される場合は、そ
のまま登録する手続きなどをとることが多い。

【００３６】

【発明が解決しようとする課題】ところで、従来におけ
る遺伝子データベース検索システムにおいては、上述し
たように、動的計画法を実行するためには、膨大な計算
量に対する処理能力のある大型計算機を用いるのが必須
である。このため、そのような大型計算機が手軽に使用
できない状態では遺伝子配列データベースに対するデー
タ検索（相同性検索）を進めることができず、また、経
済的な制約のため、膨大な計算量に対する処理能力のあ
る大型計算機の使用制限などを受けるという問題があ
る。

【００３７】このような遺伝子データベースに対するデ
ータ検索処理を実用的な検索時間とするため、変更した
アルゴリズムが開発されてきたが、演算時間を短縮する
ために採用したこれまでの方法では、遺伝子の複数の世
代交代で普通に発生しうる挿入欠落を考慮に入れない方
法で絞り込みを行っているため、類似性が高い配列が存
在するにもかかわらず、検索結果として得られない場合
があるなどの問題がある。

【００３８】本発明は、上記のような問題点を解決する
ためになされたものであり、本発明の目的は、アルゴリ
ズムを変更した計算方法と同程度の実用的な処理時間で
高精度な検索（相同性検索）を行うことができる遺伝子
データベース検索システムを提供することにある。

【００３９】

【課題を解決するための手段】上記のような目的を達成
するため、本発明の遺伝子データベース検索システムに
おいては、専用のハードウェア回路の演算部ユニットと
して、動的計画法の演算を行う動的計画法演算ユニット
を設ける。そして、第１の特徴として、構造が解析され
た遺伝子の少なくとも核酸塩基配列および蛋白質のアミ
ノ酸残基のいずれかの配列データを蓄積する遺伝子デー
タベースと、遺伝子データベースからの塩基配列データ
をターゲットデータとし、検索キーとなる塩基配列デー
タをキーデータとして、ターゲットデータとキーデータ
との類似度を求める動的計画法演算ユニットと、遺伝子
データベースと動的計画法演算ユニットを制御し、遺伝
子データベースに対するアクセス処理と、遺伝子データ
ベースからの塩基配列データをターゲットデータとして
動的計画法演算ユニットに順次に入力して類似度を求め
る演算処理とを並行して動作させる中央処理装置ユニッ
トとを備えることを特徴とする。

【００４０】また、本発明の遺伝子データベース検索シ
ステムは、第２の特徴として、動的計画法演算ユニット
に対する制御を行う中央処理装置ユニットは、キーデー
タに対して、ターゲットデータを順次に変えて、ターゲ
ットデータとキーデータとの類似度の演算を実行させ、
該演算時に発生する各ターゲットデータの配列データに
対する累積値を得て、最大累積値のみを保存する第１演
算制御手段と、前記第１演算制御手段で求められた各タ
ーゲットデータの配列データに対する最大累積値を分類
し、抽出する対象となる配列データの順位を決定する第
２演算制御手段と、抽出する対象となる配列データの順
位に応じて、該対象となる配列データをターゲットデー
タとし、ターゲットデータとキーデータとの類似度の再
演算を行い、該演算時に発生するターゲットデータの配
列データに対する累積値を保存する演算を行い、演算中
において生成される方向選択データを取得して、前記キ
ーデータに対する配列データの最適並置を得る第３演算
制御手段とを備えることを特徴とする。

【００４１】本発明の遺伝子データベース検索システム
は、第３の特徴として、前記動的計画法演算ユニット
は、検索キーとなる塩基配列データのキーデータを格納
するキーメモリと、遺伝子データベースからの配列デー
タのターゲットデータを格納するターゲットメモリと、
塩基配列データの個々の塩基要素間の類似度を定義した
スコアメモリと、動的計画法の基本演算を実行する基本
演算処理部と、基本演算処理部による基本演算実行時に
発生する局所的な最適値の選択方向を記録する方向選択
メモリと、動的計画法の演算の累積値を記憶する累積値
メモリと、前記メモリおよび演算処理部を制御して動的
計画法の演算制御を行う制御部とを備えていることを特
徴とする。

【００４２】更に、本発明の遺伝子データベース検索シ
ステムは、第４の特徴として、動的計画法演算ユニット
は、類似度のスコア値を格納する書き換え可能なスコア
メモリを備えており、中央処理装置ユニットは、該スコ
アメモリに類似度のスコア値を格納して、前記第１演算
制御手段による演算制御処理を終了した後、該スコア値
の一部または全てを変更して、第３演制御手段による演
算制御処理を実行することを特徴とする。

【００４３】本発明の遺伝子データベース検索システム
は、第５の特徴として、動的計画法演算ユニットは、類
似度のスコア値を格納する書き換え可能なスコアメモリ
を備え、キーデータ側の配列要素に応じて、該スコアメ
モリにスコア値を配列要素のマトリクス構成の非対称な
形式で保有し、中央処理装置ユニットは、前記スコアメ
モリのスコア値を用いて、第１演算制御手段または第３
演算制御手段の演算制御を行うことを特徴とする。

【００４４】第６の特徴として、本発明の遺伝子データ
ベース検索システムは、動的計画法演算ユニットは、デ
ータ形式を所定形式に変換するデータ変換部を備えてお
り、遺伝子データベースに蓄積されている配列データが
圧縮または変形されたものであり、前記中央処理装置ユ
ニットは、遺伝子データベースの配列データをそのまま
の形式で読み出し、動的計画法演算ユニットに送り、動
的計画法演算ユニットの側でデータ変換部により所定形
式に変換して、動的計画法の演算を実行することを特徴
とする。

【００４５】また、同様に、本発明の遺伝子データベー
ス検索システムは、第７の特徴として、動的計画法演算
ユニットは、データ形式を所定形式に変換するデータ変
換部を備えており、ここでは、遺伝子データベースから
読み出した配列データは、中央処理装置ユニットにおい
て圧縮または変形して、動的計画法演算ユニットに送
り、動的計画法演算ユニットの側でデータ変換部により
所定形式に変換して、動的計画法の演算を実行すること
を特徴とする。

【００４６】また、本発明の遺伝子データベース検索シ
ステムは、第８の特徴として、配列データの最適並置を
得る第３演算制御手段が、予め指定のキー長およびター
ゲット長に達するまで一列ごとに演算を実行し、該一列
ごとに累積値の最大値を取得し、前記第１演算制御手段
による演算で求めてある最大累積値と一致する列が求ま
ったところで演算を中断し、該列の累積値メモリの内容
と方向選択データを取得し、該累積値メモリの中から前
記累積値の最大値の位置を求め、該位置に相当する方向
選択データを取得し、該方向選択データに基づき少なく
とも該位置と同じか１つ以上の範囲において動的計画法
演算を再度実施しながら方向選択データを取得する演算
制御を行うことを特徴とする。

【００４７】また、同様に、本発明の遺伝子データベー
ス検索システムは、配列データの最適並置を得る第３演
算制御手段が、第９の特徴としては、行方向に演算制御
を行って、予め指定のキー長およびターゲット長に達す
るまで一行ごとに演算を実行し、該一行ごとに累積値の
最大値を取得し、前記第１演算制御手段による演算で求
めてある累積値の最大値と一致する行が求まったところ
で演算を中断し、該行の累積値メモリの内容と方向選択
データを取得し、該累積値メモリの中から前記累積値の
最大値の位置を求め、該位置に相当する方向選択データ
を取得し、該方向選択データに基づき少なくとも該位置
と同じか１つ以上の範囲において動的計画法演算を再度
実施しながら方向選択データを取得する演算制御を行う
ことを特徴とする。

【００４８】第１０の特徴として、本発明の遺伝子デー
タベース検索システムには、更に、検索キーの塩基配列
データを出力する遺伝子配列決定装置が備えられ、前記
遺伝子配列決定装置から出力された塩基配列データをキ
ーデータとして前記動的計画法演算ユニットに入力する
ことを特徴とする。

【００４９】また、第１１の特徴として、本発明の遺伝
子データベース検索システムにおいては、中央処理装置
ユニットによる遺伝子データベースのアクセス処理と、
動的計画法演算ユニットの演算処理とを、少なくとも一
部の時間同時並行的に動作させ、該動的計画法演算ユニ
ットの演算実行中に、中央処理装置ユニットが遺伝子デ
ータベースから次のターゲットデータの読み出しを先行
して行うことを特徴とする。

【００５０】また、本発明の遺伝子データベース検索シ
ステムは、第１２の特徴として、前記動的計画法演算ユ
ニットには、更に、動的計画法演算の累積値と比較する
定数値を格納する定数レジスタと、該定数レジスタの定
数値に対して累積値が所定の関係となった場合に、該定
数値と累積値を置き換える演算要素とを有することを特
徴とする。

【００５１】そして、本発明の遺伝子データベース検索
システムは、第１３の特徴として、前記動的計画法演算
ユニットには、更に、動的計画法演算の演算結果の累積
値と比較する定数値を格納する定数レジスタと、該定数
レジスタの定数値に対して演算結果の累積値が所定の関
係となった場合に演算を停止させる信号を生成する演算
要素とを有することを特徴とする。

【００５２】

【作用】このように、様々な特徴を有するように構成さ
れた本発明の遺伝子データベース検索システムは、シス
テムの基本構成として、遺伝子データベースと、専用の
演算部ユニットの動的計画法演算ユニットと、中央処理
装置ユニットとが備えられている。遺伝子データベース
は、構造が解析された遺伝子の少なくとも核酸塩基配列
および蛋白質のアミノ酸残基のいずれかの配列データを
蓄積しており、動的計画法演算ユニットが、遺伝子デー
タベースからの塩基配列データをターゲットデータと
し、検索キーとなる塩基配列データをキーデータとし
て、ターゲットデータとキーデータとの類似度を求める
演算を行う。中央処理装置ユニットは、遺伝子データベ
ースおよび動的計画法演算ユニットを制御し、遺伝子デ
ータベースに対するアクセス処理と、動的計画法演算ユ
ニットに遺伝子データベースからの塩基配列データをタ
ーゲットデータとして動的計画法演算ユニットに順次に
入力して類似度を求める演算処理とを並行して動作させ
る。

【００５３】ここでは、遺伝子データベース検索システ
ムに、動的計画法の演算を行う専用演算部の動的計画法
演算ユニットを設けて、高速に、動的計画法の演算を実
行させると共に、更に、この演算動作と、中央処理装置
ユニットによる遺伝子データベースのアクセス処理の動
作と並行させて行うので、動的計画法演算ユニットによ
るターゲットデータに対する類似度の演算中に、中央処
理装置ユニットが、例えば次のターゲットデータに対す
る遺伝子データベースのアクセス処理を行う。このた
め、全体として、高いスループットで遺伝子データベー
スに対する相同性検索のデータ検索が行える。

【００５４】また、本発明の遺伝子データベース検索シ
ステムにおいては、動的計画法演算ユニットを用いて、
中央処理装置ユニットが遺伝子データベースの検索処理
を行う場合に、第１演算制御手段と、第２演算制御手段
と、第３演算制御手段とによる演算制御を行って、動的
計画法による遺伝子配列の類似度の計算を行い、最適な
候補を抽出するための演算を実行する。

【００５５】このため、第１演算制御手段では、キーデ
ータに対して、ターゲットデータを順次に変えて、ター
ゲットデータとキーデータとの類似度の演算を行い、該
演算時に発生する各ターゲットデータの配列データに対
する最大累積値のみを保存する。次の第２演算制御手段
では、前の第１演算制御手段で求められた各ターゲット
データの配列データに対する最大累積値を分類し、抽出
する対象となる配列データの順位を決定する。そして、
更に次の第３演算制御手段において、抽出する対象とな
る配列データの順位に応じて、該対象となる配列データ
をターゲットデータとして、ターゲットデータとキーデ
ータとの類似度の再演算を行って、該演算時に発生する
各ターゲットデータの配列データに対する累積値を保存
する演算を行い、演算中において生成される方向選択デ
ータを取得し、前記キーデータの配列データに対する配
列データの最適並置を得る。

【００５６】このように、本発明の遺伝子データベース
検索システムでは、動的計画法演算ユニットに順次にタ
ーゲットデータの配列データが入力され、ターゲットデ
ータの配列データに対する類似度が求められ、演算時に
発生する類似度の最大累積値のみを保持して、各ターゲ
ットデータに対応して最大累積値のみを取り出す。そし
て、最大累積値によりターゲットデータの絞り込みを行
う。演算の途中では、動的計画法演算ユニットからは最
大累積値のみを得るだけなので、動的計画法演算ユニッ
トと中央処理装置ユニットとの間で不必要なデータ転送
を行なわなくて済み、動的計画法演算ユニットは連続し
て演算を実行でき、演算処理速度が向上する。また、タ
ーゲットデータの絞り込みも、動的計画法の演算による
最大累積値により判定するので、簡略化手法による場合
のように、残すベき候補がもれることが無い。

【００５７】すなわち、最終的に最適並置を取り出す場
合には、バックトレースのための演算マトリクスの累積
値および方向選択データを中央処理装置ユニットの側に
必要とするが、最初の段階では、動的計画法演算ユニッ
トでは、遺伝子データベースから取り出した１つのエン
トリ（ターゲットデータ）に対して類似度の計算を行
い、類似度の累算値の最大値のみを中央処理装置ユニッ
トの側に取り出す。各々のエントリに対して類似度の最
大値を求め終えた段階で、これらを分類し、その分類結
果からホモロジー度の高い配列データに対してのみ、動
的計画法演算ユニットで再度の類似度の計算を行う。こ
の再計算でバックトレース用の方向選択データなどを各
演算マトリクスごとに全てのデータを、動的計画法演算
ユニットから中央処理装置ユニットの側に取り出す。こ
のため、ここでの演算制御では、動的計画法演算ユニッ
トと中央処理装置ユニットとの間の全体のデータ転送量
が大幅に減少して、演算時間が短縮される。

【００５８】また、本発明の遺伝子データ検索システム
においては、動的計画法演算ユニットが、類似度のスコ
ア値を格納する書き換え可能なスコアメモリを備えてい
る。このスコアメモリに対して、中央処理装置ユニット
が、各々の動的計画法の演算制御に先立ち、スコアメモ
リに格納するスコア値を変更する。これにより、初期段
階の候補の抽出と、演算の途中での候補の絞り込みなど
の類似度の算出の評価の基準を変えて、動的計画法によ
る類似度の評価を行うことができる。

【００５９】また、更に、本発明の遺伝子データ検索シ
ステムにおいては、動的計画法演算ユニットが、データ
形式を所定形式に変換するデータ変換部を備えている。
このため、中央処理装置ユニットは、遺伝子データベー
スからの配列データを直接にまたは変形（圧縮）して転
送し、動的計画法演算ユニットの側で所望の所定形式に
変換して遺伝子データの配列データを得て、動的計画法
の演算を行う。これにより、動的計画法演算ユニットに
対するデータ転送時間を実質的に短縮して、演算時間を
短縮させることができる。

【００６０】すなわち、動的計画法演算ユニットの処理
速度は、演算の並列度を上げることや高速動作する素子
を用いて動作速度を上げることにより高速化できるが、
ここでの動的計画法演算ユニットおよび中央処理装置ユ
ニットの間のデータ転送においては、標準規格となって
いるバス形式を用いるため、転送レートに制約を受け
る。例えば、ＳＣＳＩ方式では同期転送で最大４Ｍバイ
ト／秒であり、非同期転送で最大１Ｍバイト／秒であ
る。機器の互換性から汎用バス形式を採用する場合に転
送レートに制約を受ける。この転送ネックを解消するた
めに、データを圧縮して転送する。遺伝子データベース
で用いられているデータ表現形式は、一般的なテキスト
形式のＡＳＣＩＩコードで表現されており、このコード
は８ビットで構成されている。８ビットでは２５６個の
データ表現が可能であるが、ＤＮＡの場合には１５種類
のコードで十分である。したがって、最低必要なビット
数は４ビットであるため、単純に４ビットをパッキング
して８ビットのコード単位で転送するだけで、実質的に
２倍の転送量とすることができる。このように、本発明
の遺伝子データ検索システムにおいては、中央処理装置
ユニットが、遺伝子データベースからの配列データを変
形して動的計画法演算ユニットに転送することにより、
各ユニット間でのデータ転送を実質的に高速化すること
ができる。

【００６１】また、本発明の遺伝子データベース検索シ
ステムでは、配列データの最適並置を得る第３演算制御
手段が類似度の再計算を行う場合、予め指定のキー長お
よびターゲット長に達するまで一列ごとに演算を実行
し、該一列ごとに累積値の最大値を取得し、第１演算制
御手段による演算で求めてある累積値の最大値と一致す
る列が求まったところで演算を中断する。そして、該列
の累積値メモリの内容と方向選択データを取得し、該累
積値メモリの中から前記累積値の最大値の位置を求め、
該位置に相当する方向選択データを取得し、該方向選択
データに基づき少なくとも該位置と同じか１つ以上の範
囲において動的計画法演算を再度実施しながら方向選択
データを取得する。

【００６２】このように、先の第１演算制御手段による
演算で既に求めてある最大累積値を利用することによ
り、全ての累算値の演算を行なわなくても、部分最適並
置を求めるための最大累積値が存在する位置を求めるこ
とができ、また、配列データの最適並置を得るために必
要な方向選択データを得ることができる。これにより、
演算時間が短縮できる。

【００６３】また、このような演算は、演算マトリクス
の列方向に各々の累積値の演算を進めているが、行方向
に演算を進めても良い。この場合も同様に、先の第１演
算制御手段による演算で既に求めてある最大累積値を利
用することにより、全ての累算種の演算を行なわなくて
も、部分最適並置を求めるため最大累積値が存在する位
置を求めることができ、演算時間が短縮できる。

【００６４】また、本発明の遺伝子データベース検索シ
ステムにおいては、更に、検索キーの塩基配列データを
出力する遺伝子配列決定装置を備えており、前記遺伝子
配列決定装置から出力された塩基配列データを前記動的
計画法演算ユニットに転送する。これにより、遺伝子配
列決定装置で得た配列データをそのまま検索キーとして
遺伝子データベースの検索を行うことができ、能率よく
遺伝子配列を求める実験を進行させられる。

【００６５】

【実施例】以下、本発明の実施例を図面を用いて具体的
に説明する。図１は、本発明の一実施例にかかる遺伝子
データベース検索システムの全体の装置構成を説明する
ブロック図である。図１において、１１は中央処理装置
ユニット（ワークステーション）、１２は外部記憶媒体
装置ユニット（外部記憶媒体と略称する）、１３は通信
用モデム、１４は公衆通信網のネットワーク、１５は外
部データベースシステム、１６は動的計画法演算ユニッ
ト（適宜に演算ユニットと略称する）、１７は核酸塩基
配列自動決定装置である。

【００６６】まず、図１を参照して、システムを構成す
る各々装置の構成から説明する。中央処理装置ユニット
１１は、システム全体の制御およびマンマシン・インタ
フェースの処理機能を受け持つ。この中央処理装置ユニ
ット１１に対して、遺伝子配列の類似度を求める演算ユ
ニット１６と、遺伝子データベースとしての遺伝子配列
のデータの格納場所である外部記憶媒体１２と、検索キ
ーとなる配列データを生成する核酸塩基配列自動決定装
置１７と、通信用モデム１３とが、それぞれ所定のイン
タフェースのデータ転送方式（バス方式）により、その
データバスを介して、互いに接続されている。

【００６７】この実施例の遺伝子データベースシステム
では、演算ユニット１６と中央処理装置ユニット１１と
の間、遺伝子データベースの外部記憶媒体１２と中央処
理装置ユニット１１との間をそれぞれ結ぶインタフェー
スには、ＳＣＳＩ（ＳmallＣomputer Ｓystem Ｉnterfa
ce）バスが使用される。また、ここでの演算ユニット１
６は、Ｅthernetなどのローカルエリアネットワーク形
式のインタフェースで接続することもでき、後述する他
の実施例で説明するように内部バス形式で接続する構成
とすることもできる。内部バス形式を用いて結合する
と、データの転送レートを高く保つことができ、データ
転送速度の制約によるスループットの低下を避けること
ができる。また、ここでの遺伝子データベースとなる外
部記憶媒体１２としては、例えば、ＣＤ−ＲＯＭ，ハー
ドディスク，光磁気ディスクなどの記録媒体が使用でき
る装置ユニットとすることができる。

【００６８】核酸塩基配列自動決定装置１７は、検索キ
ーの遺伝子配列のキーデータを発生し、中央処理装置ユ
ニット１１にのキーデータの配列データを入力する。ま
た、核酸塩基配列自動決定装置１７は、このシステム構
成によると、ＧＰＩＢインタフェース（Ｇeneral Ｐurp
ose Ｉnterface Ｂus：ＩＥＥＥ４８８）を用いて接続
される。核酸塩基自動決定装置１７の構成については、
例えば、特開昭６１−６２８４３公報などに記載されて
いるものであるので、ここでの詳細な説明は省略する。
このような検索キーとなるキーデータの配列データを発
生する装置としては、核酸塩基配列自動決定装置１７の
ほかに、アミノ酸残基配列決定装置や、Ｘ線フィルムを
用いて塩基配列を読み取るためのディジタイザやイメー
ジスキャナなどを接続することもできる。また、これに
替えて、キーボードから直接的に検索のキーデータを入
力することが可能なことは言うまでもない。

【００６９】通信用モデム１３は、リモートの研究機関
の外部データベース１５を用いて遺伝子データを検索す
る場合に接続される。通信用モデム１３から公衆通信網
のネットワーク１４に接続され、ネットワーク１４を通
じて各データベース機関に接続される。ここではディジ
タル信号を音響信号に変換して送受するアナログ回線用
モデムを使用しているが、ディジタル回線を用いる場合
には、専用の端末装置を用いることにより接続する。

【００７０】次に、演算ユニット１６の構成を説明す
る。図２は動的計画法演算ユニットの構成を示すブロッ
ク図である。図２に示すように、動的計画法演算ユニッ
ト１６は、演算ユニットの全体を制御するマイクロプロ
セッサ２１、その動作プログラムを格納するリードオン
リーメモリのプログラムメモリ（ＲＯＭ）２２、および
転送データを格納するためのワークメモリ（ＲＡＭ）２
３、メモリの転送データに対して直接メモリアクセス
（ＤＭＡ）転送を実行するためのＤＭＡコントローラ２
６、中央処理装置部ユニット１１とインタフェースする
ためのＳＣＳＩコントローラ２４、動的計画法の演算を
実行する演算処理部２５を含んで構成されている。

【００７１】演算処理部２５は、動的計画法の演算をハ
ードウェアロジック回路で実行する専用の演算回路部と
なっている。このため、演算処理部２５においては、更
に、送り込まれたデータを所定のデータ形式に変換する
第１データ変換部３２および第２データ変換部３４、演
算処理部におけるタイミングなどの演算制御を行う制御
部３１、キーデータを格納するキーメモリ３５、ターゲ
ットデータを格納するターゲットメモリ３３、動的計画
法の演算のためのスコアを格納するスコアメモリ３８、
演算の中間結果の累積値を格納する累積値メモリ３７、
演算の中間結果の方向選択データを格納する方向選択メ
モリ３６、および動的計画法の基本演算を実行する基本
演算部（ＤＰカーネル）３０の処理要素が備えられ、こ
れの処理要素がデータの流れに沿った位置関係に配置さ
れ結線された構成となっている。

【００７２】この演算処理部２５の回路構成における各
処理要素のデータ幅の構成は、キーメモリ３５およびタ
ーゲットメモリ３３が３２ｋ×８ビット構成であり、ス
コアメモリ３８が６４ｋ×８ビットの４セット（基本演
算部のＤＰカーネルが４個の演算ＬＳＩ構成となってい
る）構成であり、累積値メモリ３７が３２ｋ×１６ビッ
ト構成であり、方向選択メモリ３６が３２ｋ×４ビット
構成となっている。

【００７３】この演算ユニット１６は、中央処理装置ユ
ニット１１からＳＣＳＩインタフェース経由で送られた
動作パラメータとデータを基づいて演算を実行する。演
算パラメータにより、ブロック／シングル，列／行，最
大／最小演算などの動作モード指定と演算実行時の類似
度算出のためのスコア表の設定が行なわれる。ここでの
「ブロック／シングル」の演算モードの指定で、ブロッ
ク演算を指定した場合には、指定した範囲の演算マトリ
クスの各要素を連続的に一括して演算する。また、シン
グル演算を指定した場合、一行または一列ずつ演算を実
行する。「列／行」の指定では、演算マトリクスを列方
向に演算を進めるか行方向に演算を進めるかを指定す
る。また、「最大／最小演算」の指定では、動的計画法
の演算時における漸化式のＭＡＸ／ＭＩＮの指定を行
う。

【００７４】演算パラメータの指定データは、マイクロ
プロセッサ２１を経由して、演算処理部２５の制御部３
１および基本演算部３０に設定されて、その演算モード
による演算制御が行なわれる。演算実行時のスコアの値
は、演算開始前にスコアメモリ３８に書き込まれ、検索
のキーとなる配列データは、キーメモリ３５に書き込ま
れる。また、ターゲットデータの配列データはターゲッ
トメモリ３３にそれぞれ書き込まれる。

【００７５】動作開始のコマンドが中央処理装置ユニッ
ト１１から、演算ユニット１６に送られると、マイクロ
プロセッサ２１がこれを判定して、演算スタート信号を
制御部３１に送出する。制御部３１内には、カウンタで
構成された１５ビットのアドレス生成回路（図示せず）
が設けられており、キーメモリ３５とターゲットメモリ
３３に対するアドレスを発生する。これにより、発生さ
れたアドレスに対するデータを順次に読み出される。
「行／列」の指定で演算が列方向のモードに指定されて
いる場合は、列方向でメモリ（この例ではキーメモリ）
のカウンタがカウントアップして行き、指定したアドレ
スまで演算した時点で、行側のメモリ（この例ではター
ゲットメモリ）のアドレスが１インクリメントされる。
また、演算モードの指定が行方向モードとなっている場
合には、前述の説明において、行と列が入れ替わる内容
となる。

【００７６】制御部３１からのアドレス指定により、キ
ーメモリ３５およびターゲットメモリ３３から、それぞ
れに読み出されたキーデータとターゲットデータは、各
々８ビットが単純に組み合されて１６ビットとされ、ス
コアメモリ３８に対するアドレスとして与えられ、スコ
アメモリ３８からスコア値が読み出される。読み出され
たスコア値は基本演算部３０に加えられる。基本演算部
３０では、スコアメモリ３８，累算値メモリ３７，方向
選択メモリ３６からの各データをもとにして動的計画法
の基本演算を実行して、その演算結果を再び累積値メモ
リ３７および方向選択メモリ３６に格納する。累積値メ
モリ３７および方向選択メモリ３６は、それぞれ共に２
面構成となっており、シーソー式に演算結果の参照およ
び格納に使用される。演算時にオーバーフローが発生し
た場合は、制御部３１にオーバーフロー信号が送られて
演算は中止され、マイクロプロセッサ２１に割り込み信
号が入る。シングルモードで動作した場合は、各列（ま
たは行）ごとに演算動作が停止するため、累積値メモリ
の内容など参照しながら、そのデータ書換などが可能と
なっている。

【００７７】次に、基本演算部３０の構成について説明
する。図３は、基本演算部を構成する演算ＬＳＩの回路
構成を示すブロック図である。基本演算部３０は４つの
演算ＬＳＩにより構成されており、その１つの演算ＬＳ
Ｉの回路構成が図３に示されている。基本演算部３０の
４つの演算ＬＳＩは、それぞれに演算を行うので、各演
算をパラレルに実行することができる。１つの演算ＬＳ
Ｉは、図３に示すように、累積値レジスタ３００〜３０
２、加算器３０３〜３０５、セレクタ３０６、比較器３
０７、定数レジスタ３０８〜３０９、最大値保持レジス
タ３１０、Ｌ側ペナルティレジスタ３１１、スコアレジ
スタ３１２、Ｕ側ペナルティレジスタ３１３、モードレ
ジスタ３１４から構成されている。

【００７８】基本演算部３０の演算ＬＳＩは、入出力ピ
ン数などをできるだけ少なくし、かつ高速に動作させる
ため、累積値データについては、Ｄ（ｉ，ｊ−１）のデ
ータのみを外部から入力する構成とする。他のＤ（ｉ−
１，ｊ−１）およびＤ（ｉ−１，ｊ）のデータは内部の
転送処理により設定する。すなわち、Ｄ（ｉ，ｊ−１）
を格納する累積値レジスタ３００のみに外部からそのデ
ータを入力し、このデータは、内部の転送処理により、
次の演算サイクルで用いるＤ（ｉ−１，ｊ−１）として
も用いる。

【００７９】１つ前の位置の演算サイクルで利用され、
累積値レジスタ３００に格納されているＤ（ｉ，ｊ−
１）は内部の転送処理により、次の位置の演算サイクル
で累積値レジスタ３０１に転送し、Ｄ（ｉ−１，ｊ−
１）として用いる。また、残りの１つのＤ（ｉ−１，
ｊ）についても、前の位置の演算サイクルで最終的に演
算結果として得られたＤ（ｉ，ｊ）を、次の位置の演算
サイクルにおいて累積値レジスタ３０２に転送して用い
る。これにより、行方向に進む各々の位置の演算サイク
ルで、累積値レジスタ３００，３０１，３０２にはそれ
ぞれＤ（ｉ，ｊ−１），Ｄ（ｉ−１，ｊ−１），Ｄ（ｉ
−１，ｊ）が順次に設定される。

【００８０】セレクタ３０６は、各パスにおけるスコア
の値を計算した各加算器３０３〜３０５からの演算結果
と、定数レジスタ３０８からのデータとが入力される
と、その中から最大のものを選択して出力する。この定
数レジスタ３０８は、後述するように累積値の足切り用
として用いられる。比較器３０７は、セレクタ３０６か
ら出力される累積値の最大のものと、定数レジスタ３０
９に設定されたデータとを比較して、比較結果が一致ま
たは累積値のデータが大きい場合に、外部に演算打ち切
り信号を出力する。この信号は、後述するように、動的
計画法の演算実行時に任意の累積値において、演算を停
止させる機能を持たせる場合に有効に利用できる。

【００８１】また、ここでは最大値保持レジスタ３１０
が設けられており、最大値保持レジスタ３１０は、常に
セレクタ３０６からの出力されるデータと保持中のデー
タとの比較を行い、大きいほうのデータを再格納する。
これにより、最大値保持レジスタ３１０は、リセットさ
れるまで、これまでにセレクタ３０６から出力されたデ
ータの中で最大ものが格納されている状態となってい
る。

【００８２】スコアレジスタ３１２は、配列データの各
々の要素同士の一致または置換に関するスコア値をスコ
ア表に基づいて外部から入力する。Ｌ側ペナルティレジ
スタ３１１およびＵ側ペナルティレジスタ３１３は、挿
入欠失による減点するスコアを設定するレジスタであ
る。遺伝子データの類似度の評価を行う場合、そのスコ
アの値は、挿入欠失が初めて発生した場合、大きく減点
し（この例では−６点を減点する）、挿入欠失が連続し
て２つ以上発生した場合ついては、次の挿入欠失からは
挿入欠失が１個増加するごとに少なく減点する（この例
では次回以降は−４点を減点する）。このため、挿入欠
失のスコア値として２つの値を保持できるように構成さ
れている。挿入欠失の最初であるか否かのデータを方向
選択メモリ（３６：図２）のデータから得て、その値を
切り変えて用いる。すなわち、Ｌ側ペナルティレジスタ
３１１およびＵ側ペナルティレジスタ３１３における減
点スコア値の切り替えは、前の列（または行）における
演算で求められた方向選択データを用いて行う。

【００８３】ブロック演算時は、カスケード接続された
次の演算ＬＳＩに、演算結果のデータ（セレクタ３０６
から出力される累積値データおよび選択パスを指示する
方向選択データ）を送り、そして最終的に得られた結果
（シングル演算時は第１の演算ＬＳＩの出力）は、累積
値データが累積値メモリ３７に格納され、選択したパス
を指示する方向選択データが方向選択メモリ３６に格納
される。

【００８４】なお、ここでの実施例の基本演算部３０に
おいては、すべて最大値を選択する動作で説明している
が、モードレジスタ３１４の設定を変えることによっ
て、比較器３０７，セレクタ３０６，および最大値保持
レジスタの動作をすべて最小値を選択するように切り変
えることもできる。これにより、動的計画法の演算を累
積値の最小値により最適パスを求める演算とすることが
できる。ここでの基本演算部３０の回路構成は、ハード
ウェアロジック回路で構成され、ＬＳＩ化されており、
５０ｎｓ程度の演算速度で動的計画法の１基本演算（演
算マトリクスの配列要素の演算）を実行できる。更に、
総合的な実行速度を向上させるためには、回路構成上で
は各々の基本演算の演算ＬＳＩのパイプライン化を行
い、また、高速半導体デバイスを用いてＬＳＩを構成す
ることにより、更に演算速度を高速化することができ
る。

【００８５】次に、上述のような動的計画法演算ユニッ
トの演算制御により実行される遺伝子データの相同性検
索の演算処理の流れを説明する。この演算処理は、中央
処理装置ユニット１１が動的計画法演算ユニット１６に
対する演算制御を行って実行する。図４は、遺伝子デー
タベース検索システムの中央処理装置ユニットにおける
演算制御の処理フローを説明するフローチャートであ
る。通常の使用における全体の動作例を、図４を用いて
説明する。全体的な処理の流れとしては、初期データ設
定段階のキーデータの設定（ステップ４１）、第１段階
の各ターゲットデータに対する類似度の算出（ステップ
４２）、第２段階の類似度の分類による対象の配列デー
タの絞り込み（ステップ４３）、第３段階の絞り込んだ
配列データに対する最適並置の算出（ステップ４４）の
処理となる。各々の段階の演算制御は、中央処理装置ユ
ニットにおける第１演算制御部、第２演算制御部、およ
び第３演算制御部がそれぞれに行う。

【００８６】まず、第１演算制御部による第１段階にお
けるターゲットデータに対する類似度の演算実行につい
て説明する。第１段階の処理では、演算ユニット１６の
動作モードの設定、スコアメモリのスコア表の設定、各
ターゲットデータに対する累積値の最大値の算出を行
う。

【００８７】演算モードの設定では、演算ユニット１６
をブロック演算モードに設定する。このブロック演算モ
ードでは、与えられたキーデータとターゲットデータに
対して次の列（または次の行）の演算に必要な中間デー
タのみ演算ユニット１６内の記憶エリアに残し、中央処
理装置ユニット１１の側には中間的なデータを渡さない
で連続的に演算を行う。このような設定とすることによ
り、演算ユニット１６は中央処理装置ユニット１１と独
立して連続して演算動作を進められる。

【００８８】また、キーデータとターゲットデータの配
列要素の先行する不一致部分によって累積値が大きく低
下し、後に発生する一致部分での累積値を低下させてし
まうことが無いように、ここでは、例えばスコア値が負
の累積値になった場合には、累積値を“０”に置換す
る。そのため、基本演算部３０の定数レジスタ３０８に
は、その定数値として足切り値“０”を設定する。この
定数レジスタ３０８には、演算条件によって任意の値を
設定することができる。

【００８９】次に、スコアメモリにスコア表の設定を行
う。スコア表の設定は、検索する条件として抽出する候
補に対応して、スコア値を任意に設定できる。ここで用
いるスコア値は、例えば、図８で説明したようなスコア
表が原則として用いられる。しかし、このスコア表で
は、不明な塩基コードを表す“Ｎ”と、明確に判明して
いる塩基コードの“Ａ”，“Ｃ”，“Ｇ”，“Ｔ”との
組み合わせに、２点のスコア値がついている。このた
め、例えば、核酸塩基配列自動決定装置などから読み取
られた配列データがそのまま遺伝子データベースに登録
されている場合のように、３００以上の“Ｎ”の配列が
生じたままデータベースに登録されているものがあるの
で、検索の条件によって、キーデータの長さが同程度で
ある場合は、ノイズとして検索されることが多い。その
ため、ここで用いるスコアテーブルでは、図５ａに示す
ように、ターゲット側の不明の塩基コード“Ｎ”に対す
る組み合わせの部分のみ、スコア値を“０”として非対
称な形式にして、これにより、不明な塩基“Ｎ”の長い
配列を持つノイズを防ぐようにしている。

【００９０】スコア表の設定に続く次の処理は、キーデ
ータとターゲットデータの送り込みである。キーデータ
は、前述の通り、核酸塩基配列自動決定装置１７などか
ら入力される配列データや、別の実験などで得られた結
果から推定される配列データなどである。ターゲットデ
ータは、中央処理装置ユニット１１が遺伝子データベー
スとしての外部記憶媒体１２から、または通信用モデム
１３，ネットワーク１４を介して外部データベースシス
テム１５から順次に読み出して、動的計画法演算ユニッ
ト１６に順次に送る。動的計画法演算ユニット１６に送
られたキーデータおよびターゲットデータは、それぞれ
マイクロプロセッサ２１の管理下において第２データ変
換部３４および第１データ変換部３２を経由して、キー
メモリ３５とターゲットメモリ３３に書き込まれる。

【００９１】第１データ変換部３２および第２データ変
換部３４では、遺伝子データベースからの各種表現形式
のデータを内部処理用のフォーマットに合わせるための
データ変換を行う。ここでのデータ変換方法は、予じめ
変換前のデータに対応するメモリアドレスに変換後のデ
ータを書き込んでおき、そのメモリをアクセスすること
によって行っている。また、例えば、中央処理装置ユニ
ット１１より所定形式にパッキングしたデータとして送
り込み、このデータ変換部において元の形式のデータフ
ォーマットに戻すようにも構成できる。この場合には、
ＳＣＳＩバスによる転送レートを等価的に向上させるこ
とができる。

【００９２】次に、演算ユニット１６に対して、演算実
行開始コマンドを送ることにより、演算を開始する。演
算ユニット１６においては、マイクロプロセッサ２１が
制御部３１に対して動作開始信号を送る。演算が開始さ
れると、演算ユニット１６と中央処理装置ユニット１１
との間のＳＣＳＩバスは、解放状態となる。ＳＣＳＩバ
スが解放状態となると、中央処理装置ユニット１１は、
外部記憶媒体１２のアクセス処理より次のターゲットデ
ータの読み取りを開始する。一方、演算ユニット１６の
マイクロプロセッサ２１は、演算が終了すると、ＳＣＳ
Ｉバスの状態をモニタし、非使用状態であることを確認
して、中央処理装置ユニット１１に対して演算の終了を
知らせるサービスコールを発行する。

【００９３】中央処理装置ユニット１１では、外部記憶
媒体１２のアクセス処理により、ターゲットデータの読
み出しが終了しだい、次に、演算ユニット１６をアクセ
スして、演算された結果の累積値の最大値（最大値保持
レジスタ３１０に格納されてるデータ）を読み取って保
存する。その後、次の新規のターゲットデータを演算ユ
ニット１６に送り込んで、同様に演算を実行させる。こ
の演算を外部記憶媒体１２の遺伝子データベースに該当
のターゲットデータがなくなるまで繰り返す。これによ
り、第１段階の演算制御の終了時点では、遺伝子データ
ベースにエントリしている全てのデータに対応して、そ
の累積値の最大値が保存されている状態となる。また、
新規のキーデータに対して相同性検索を行う場合は、こ
の結果を遺伝子データベースの検索範囲の条件と併せて
記憶しておくことにより、次回のデータ検索時の検索範
囲を限定して効率を向上させ、また、登録したデータや
所有するデータの類似度によるグルーピングなどが容易
に行える。

【００９４】次に、第２演算制御部による第２段階の絞
り込みの処理について説明する。抽出する対象となる候
補の絞り込みでは、第１段階で得られた各々のターゲッ
トデータに対応する類似度の最大値を分類し、類似度の
高い順に並べて表示する。この表示の後、ユーザーから
指示を受けて、最適並置を求めるデータベース側の配列
データ（ターゲットデータ）の条件の指定を行う。

【００９５】更に、次の第３演算制御部による第３段階
の処理について説明する。第３段階の処理においては、
第２段階の処理において、その最大累積値の順位に応じ
て絞り込んだターゲットデータに対し、そのターゲット
データを１つずつ（遺伝子データベースから読み出し
て）演算ユニット１６に送って、動的計画法の演算を再
実行し、対象となる配列データをターゲットデータとし
て、ターゲットデータとキーデータとの類似度の演算を
行って、該演算時に発生する各ターゲットデータの配列
データに対する累積値を保存する演算を行い、演算中に
おいて生成される方向選択データを取得し、バックトレ
ースを行い、前記キーデータの配列データに対する配列
データの最適並置を得る。

【００９６】また、この配列データの最適並置を得る演
算では、先に求められている当該ターゲットデータの最
大累積値を用いて、例えば、次のような演算方法を行っ
ても良い。まず、演算ユニット１６に対して演算モード
をシングルに設定し、１列または１行毎に演算結果の累
積値データと方向選択データを中央処理装置ユニット１
１の側に読み出し、全体の累積値データの行列および方
向選択データの行列を中央処理装置部内のメモリ上に展
開する。そして、累積値データの最大値の座標を求め、
そこから方向選択データを基にして、バックトレースを
行うようにしても良い。ただし、この方法では、大型の
配列データのキーデータとターゲットデータの組み合わ
せの場合、それぞれ配列データの長さをＭ、Ｎとすると
Ｍ×Ｎの配列のメモリ領域が、累積値データ用と方向選
択データ用に必要となるため、演算ユニット１６内かま
たは中央処理装置ユニット１１に大きなメモリエリアを
確保する必要がある。

【００９７】このため、この実施例では、次のような方
法をとる。まず、動的計画法演算の基本演算部（ＤＰカ
ーネル）３０には、第１段階の演算と同様に、ブロック
演算モードの設定を行う。そして、演算打ち切りのため
の定数を定数レジスタ３０９に設定する。定数レジスタ
３０９に演算打ち切りの定数が設定された場合、比較器
３０７において常に、この定数がセレクタ３０６からの
累積値と比較されて、同じかまたは超えたときに、演算
停止信号を制御部３１に送られ、強制的に計算が停止さ
せられる。したがって、ここでは、この演算打ち切りの
定数に、第１段階で求めた各ターゲットデータに対する
累積値の最大値を設定する。続いて、スコア表の設定値
を元に戻す処理を行う。なお、ここでスコアメモリのス
コア表に設定するスコア値は、図８に示したようなもの
に戻す。第１段階の演算で用いたスコア表のスコア値が
非対称に変更された図５ａに示したようなものである場
合は、この段階において元に戻す。これは、相同性検索
の候補として絞り込まれた配列には“Ｎ”が連続するよ
うなノイズが含まれていないためである。

【００９８】次に、第２段階で絞り込まれたターゲット
データの最初のものを設定して、第３段階の演算で、再
度の類似度を求める計算を実行する。ここでの演算で
は、キーデータについては、第１段階から同じものを対
象としているため再設定する必要はない。演算ユニット
１６においては、第１段階の演算時と同様に演算を実行
するが、ここでは演算打ち切り定数として該当するター
ゲットデータに対する累積値の最大が設定されているた
め、最大値と一致する列（または行）において演算が終
了する。

【００９９】演算の終了と同時に、マイクロプロセッサ
２１に対して割り込み信号を発行する。割り込みを受け
たマイクロプロセッサ２１は、累積値メモリ３７に残っ
ている最終の列（または行）のデータを参照して、演算
マトリクスの最大累積値の存在する位置を求める。これ
により、部分最適並置の最終ポイントが求められたこと
になる。更に、方向選択データを方向選択メモリ３６か
ら取得して、その位置からバックトレースを行う。この
ようにして求められた演算マトリクスの累積値データと
その方向選択データの具体例を図５ｂに示す。図５ｂに
おいては、破線が選択されたルートのパスを示してお
り、部分最適並置の位置から、方向選択データにより選
択パスをバックトレースして最適並置を求める。このバ
ックトレースのパスを図５ｂでは実線の矢印線で示して
いる。この結果、最適部分並置がキーデータの配列「Ａ
ＧＣＴＡＧＣ」に対して、ターゲットデータの配列「Ａ
ＧＣ−ＡＧＣ」として求められる。

【０１００】この方法により最適並置を求める場合は、
部分最適並置の最終ポイントが求められた位置から演算
範囲を狭めながら方向選択データを逆に辿って取得し、
定数レジスタ３０８に設定された足切り値に置換される
位置までの部分的な最適並置を求めることになる。全体
の最適並置を求める場合でも、同様に演算マトリクスの
最終ポイントから同様にバックトレースをすればよい。
この方法によれば、決定される方向選択データのみを記
憶すれば良いので、それぞれの配列の長い方の配列数だ
けのメモリを容量を設けるだけで十分である。

【０１０１】また、この実施例においては、１列（また
は１行）ごとにバックトレースをかけているが、ブロッ
ク演算する範囲を１列よりも大きな列数ｎで減少させて
演算し、残るｎ列の演算をシングルモードに設定して、
図９に示すように、一列ずつ概ね対角方向に沿った領域
の累積値と方向選択データを取得するようにしても良
い。これにより、必要メモリ量と実行時間のとバランス
をとって演算を実行することもできる。

【０１０２】次に、演算ユニット１６における演算処理
部２５を演算ボードとして、ワークステーション（中央
処理装置ユニット）の内部バスに直接に接続する場合の
別の実施例について説明する。図６は、動的計画法の演
算を行う演算部を内部バスに直接接続するタイプの演算
ボードの構成を中心に示すブロック図である。図６にお
いては、前述した図２の説明で参照した共通の同じ処理
要素のブロックについては、同一の参照番号を付与して
示している。この内部バスに接続するタイプの実施例で
は、演算処理ボード６５のデータ転送は内部バスを介し
て直接に実行できるので、ＳＣＳＩバスにより接続する
インタフェース処理のためのマイクロプロセッサ，ＤＭ
Ａコントローラ、ＲＯＭ、ＲＡＭ、ＳＣＳＩコントロー
ラなどが不要となる。

【０１０３】このような演算処理部（演算処理ボード６
５）に対するデータ入出力のデータ転送にかかる処理
は、中央処理装置ユニットの本体部分を構成する中央処
理装置部６１のＣＰＵ，ＲＯＭ，ＲＡＭの処理要素で行
う。すなわち、演算ユニットにおける演算処理部２５
は、ここでは、そのまま演算処理ボード６５として、ワ
ークステーション（中央処理装置ユニット）の内部バス
に直接に接続される構成なので、容易に、中央処理装置
ユニットの本体部分のＣＰＵからキーやターゲットメモ
リなどをアクセスすることが可能となる。

【０１０４】動的計画法の演算の実行時は、前述の実施
例と同様に、キーメモリ，ターゲットメモリ，スコアメ
モリなどの各メモリは、本体部分のＣＰＵの内部バスか
ら切り放された状態で動作するため、次のターゲットデ
ータの読み取り処理は同時に並行して実行可能である。
内部バスに直接に接続するタイプでは、データ転送のビ
ット幅がたとえば３２ビットなどに容易に大きくとるこ
とができ、演算処理ボード６５に対するデータ転送速度
を向上させられる。また、オンボードタイプとなるため
に省スペース化が可能である。

【０１０５】このように、本実施例による専用の演算処
理部を設けることによるホモロジー検索の演算時間の短
縮の具体例を説明すると、図３で説明したような基本演
算部を構成する演算ＬＳＩ（４個）のＤＰカーネルを搭
載した演算処理ボードをパソコンに実装し、キーデータ
長が２５０でＧｅｎＢａｎｋの約７万件のエントリを検
索した結果は、約１５分の演算時間であった。この時間
は、ＣＤ−ＲＯＭなどのデータベースアクセスなどを含
めたトータルの時間である。したがって、従来のワーク
ステーション上において１０数時間から２０時間を要し
た演算時間が、本実施例による演算処理部を用いること
により、約６０分の１程度に短縮されたことになる。

【０１０６】以上説明したように、本実施例の遺伝子デ
ータベース検索システムによれば、システムの基本構成
として、遺伝子データベース，動的計画法演算ユニッ
ト，および中央処理装置ユニットを備えており、中央処
理装置ユニットが、遺伝子データベースおよび動的計画
法演算ユニットとを制御し、遺伝子データベースに対す
るアクセス処理と、動的計画法演算ユニットに遺伝子デ
ータベースからの塩基配列データをターゲットデータと
して動的計画法演算ユニットに順次に入力して類似度を
求める演算処理とを並行して動作させる。このため、動
的計画法を演算するための専用演算ユニットの動的計画
法演算ユニットにより、高速に動的計画法の演算を実行
できると共に、この演算動作と、中央処理装置ユニット
との動作を並行させて行うことができる。例えば、動的
計画法演算ユニットによるターゲットデータに対する類
似度の演算中に、中央処理装置ユニットが次のターゲッ
トデータに対する遺伝子データベースのアクセス処理を
行える。このため、全体として、高いスループットで遺
伝子データベースに対する相同性検索でのデータ検索が
行える。

【０１０７】動的計画法演算ユニットにより動的計画法
の演算を行う場合、第１段階で、キーデータに対して、
ターゲットデータを順次に変えて、ターゲットデータと
キーデータとの類似度の演算を行い、該演算時に発生す
る各ターゲットデータの配列データに対する最大累積値
のみを保存し、次の第２段階で、前の第１段階で求めら
れた各ターゲットデータの配列データに対する最大累積
値を分類し、抽出する対象となる配列データの順位を決
定する。そして、第３段階で、抽出する対象となる配列
データの順位に応じて、該対象となる配列データをター
ゲットデータとし、ターゲットデータとキーデータとの
類似度の再演算を行って、該演算時に発生するターゲッ
トデータの配列データに対する累積値を保存する演算を
行い、演算中において生成される方向選択データを取得
し、キーデータの配列データに対する配列データの最適
並置を得ることができる。これにより、効率よく動的計
画法の演算を行い、更に効果的にターゲットデータを絞
り込んで、更に能率よくその配列データの最適並置を得
ることができる。

【０１０８】また、動的計画法演算ユニットの側にはデ
ータ変換の機能を備えているため、種々のデータベース
のデータ表現形式でデータが送られてきても、容易に対
応して処理を実行できる。

【０１０９】

【発明の効果】以上に説明したように、本発明の遺伝子
データベース検索システムによれば、遺伝子データベー
スに対するデータ検索を行う場合、対象のキーデータに
対するターゲットデータとの間の類似度を専用の演算部
ユニットの動的計画法演算ユニットを用いて高速処理で
求め、動的計画法をすべての演算に適用しながら抽出す
る候補の対象を絞り込むことができる。このため、従来
の方法によって発生していた絞り込み時の検索漏れを無
くしながら高速に演算することができる。また、従来の
アルゴリズムを変更した計算方法と同程度の実用的な処
理時間で高精度な検索（相同性検索）を行うことができ
る

【図面の簡単な説明】

【図１】図１は本発明の一実施例にかかる遺伝子データ
ベース検索システムの全体の装置構成を説明するブロッ
ク図、

【図２】図２は動的計画法演算ユニットの構成を示すブ
ロック図、

【図３】図３は基本演算部を構成する要素となる演算Ｌ
ＳＩの回路構成を示すブロック図、

【図４】図４は遺伝子データベース検索システムにおけ
る中央処理装置ユニットの演算制御の処理フローを説明
するフローチャート、

【図５】図５は演算実行時の各メモリの内容を示す図で
あり、図５ａはターゲット側の“Ｎ”に対するスコア値
を“０”に変更した非対称のスコアメモリのスコア表を
示す図であり、図５ｂは演算結果の累算値メモリおよび
方向選択メモリのデータを示す図である。

【図６】図６は動的計画法演算の演算部を内部バスに直
接接続するタイプの演算処理ボードの構成を中心に示す
ブロック図、

【図７】図７は動的計画法の手法による類似度算出の演
算方法の原理を説明する図であり、図７ａは動的計画法
の全体の演算フローの説明図であり、図７ｂは動的計画
法の基本演算セルの演算原理を説明する図である。

【図８】図８は動的計画法を用いて遺伝子データベース
検索を行う場合の類似度を求めるスコア表の一例を示す
図、

【図９】図９は簡略化手法により変更されたアルゴリズ
ムによる動的計画法の演算方法を説明する図、

【図１０】図１０は遺伝子データベース検索システムの
基本のシステム構成を示すブロック図である。

【符号の説明】

１１…中央処理装置ユニット（ワークステーション）、１２…外部記憶媒体装置ユニット、１３…通信用モデム、１４…公衆通信網のネットワーク、１５…外部データベースシステム、１６…動的計画法演算ユニット、１７…核酸塩基配列自動決定装置、２１…マイクロプロセッサ、２２…プログラムメモリ（ＲＯＭ）、２３…ワークメモリ（ＲＡＭ）、２４…ＳＣＳＩコントローラ、２５…演算処理部、２６…ＤＭＡコントローラ、３０…基本演算部、３１…制御部、３２…第１データ変換部、３３…ターゲットメモリ、３４…第２データ変換部、３５…キーメモリ、３６…方向選択メモリ３７…累積値メモリ、３８…スコアメモリ、６５…演算処理ボード、３００〜３０２…累積値レジスタ、３０３〜３０５…加算器、３０６…セレクタ、３０７…比較器、３０８〜３０９…定数レジスタ、３１０…最大値保持レジスタ、３１１…Ｌ側ペナルティレジスタ、３１２…スコアレジスタ、３１３…Ｕ側ペナルティレジスタ、３１４…モードレジスタ，１０１…ワークステーション、１０２…外部記憶装置、１０３…モデム、１０４…ネットワーク、１０５…研究機関のデータベース

───────────────────────────────────────────────────── フロントページの続き (72)発明者山元真一郎千葉県茂原市早野3681番地日立デバイスエンジニアリング株式会社内 (72)発明者丸典生千葉県茂原市早野3681番地日立デバイスエンジニアリング株式会社内 (72)発明者岡山利次神奈川県横浜市中区尾上町６丁目81番地日立ソフトウェアエンジニアリング株式会社内 (72)発明者奈須永典神奈川県横浜市中区尾上町６丁目81番地日立ソフトウェアエンジニアリング株式会社内

Claims

【特許請求の範囲】

【請求項１】構造が解析された遺伝子の少なくとも核
酸塩基配列および蛋白質のアミノ酸残基のいずれかの配
列データを蓄積する遺伝子データベースと、遺伝子データベースからの塩基配列データをターゲット
データとし、検索キーとなる塩基配列データをキーデー
タとして、ターゲットデータとキーデータとの類似度を
求める動的計画法演算ユニットと、遺伝子データベースと動的計画法演算ユニットを制御
し、遺伝子データベースに対するアクセス処理と、遺伝
子データベースからの塩基配列データをターゲットデー
タとして動的計画法演算ユニットに順次に入力して類似
度を求める演算処理とを並行して動作させる中央処理装
置ユニットとを備えることを特徴とする遺伝子データベ
ース検索システム。
【請求項２】請求項１に記載の遺伝子データベース検
索システムにおいて、動的計画法演算ユニットに対する
制御を行う中央処理装置ユニットは、キーデータに対して、ターゲットデータを順次に変え
て、ターゲットデータとキーデータとの類似度の演算を
実行させ、該演算時に発生する各ターゲットデータの配
列データに対する累積値を得て、最大累積値のみを保存
する第１演算制御手段と、前記第１演算制御手段で求められた各ターゲットデータ
の配列データに対する最大累積値を分類し、抽出する対
象となる配列データの順位を決定する第２演算制御手段
と、抽出する対象となる配列データの順位に応じて、該対象
となる配列データをターゲットデータとし、ターゲット
データとキーデータとの類似度の再演算を行い、該演算
時に発生するターゲットデータの配列データに対する累
積値を保存する演算を行い、演算中において生成される
方向選択データを取得して、前記キーデータに対する配
列データの最適並置を得る第３演算制御手段とを備える
ことを特徴とする遺伝子データベース検索システム。
【請求項３】請求項１に記載の遺伝子データベース検
索システムにおいて、前記動的計画法演算ユニットは、検索キーとなる塩基配列データのキーデータを格納する
キーメモリと、遺伝子データベースからの配列データのターゲットデー
タを格納するターゲットメモリと、塩基配列データの個々の塩基要素間の類似度を定義した
スコアメモリと、動的計画法の基本演算を実行する基本演算処理部と、基本演算処理部による基本演算実行時に発生する局所的
な最適値の選択方向を記録する方向選択メモリと、動的計画法の演算の累積値を記憶する累積値メモリと、前記メモリおよび演算処理部を制御して動的計画法の演
算制御を行う制御部とを備えていることを特徴とする遺
伝子データベース検索システム。
【請求項４】請求項２に記載の遺伝子データベース検
索システムにおいて、動的計画法演算ユニットは、類似
度のスコア値を格納する書き換え可能なスコアメモリを
備えており、中央処理装置ユニットは、該スコアメモリに類似度のス
コア値を格納して、前記第１演算制御手段による演算制
御処理を終了した後、該スコア値の一部または全てを変
更して、第３演制御手段による演算制御処理を実行する
ことを特徴とする遺伝子データベース検索システム。
【請求項５】請求項２に記載の遺伝子データベース検
索システムにおいて、動的計画法演算ユニットは、類似
度のスコア値を格納する書き換え可能なスコアメモリを
備え、キーデータ側の配列要素に応じて、該スコアメモ
リにスコア値を配列要素のマトリクス構成の非対称な形
式で保有し、中央処理装置ユニットは、前記スコアメモ
リのスコア値を用いて、第１演算制御手段または第３演
算制御手段の演算制御を行うことを特徴とする遺伝子デ
ータベース検索システム。
【請求項６】請求項１に記載の遺伝子データベース検
索システムにおいて、動的計画法演算ユニットは、デー
タ形式を所定形式に変換するデータ変換部を備えてお
り、遺伝子データベースに蓄積されている配列データが圧縮
または変形されたものであり、前記中央処理装置ユニットは、遺伝子データベースの配
列データをそのままの形式で読み出し、動的計画法演算
ユニットに送り、動的計画法演算ユニットの側でデータ変換部により所定
形式に変換して、動的計画法の演算を実行することを特
徴とする遺伝子データベース検索システム。
【請求項７】請求項１に記載の遺伝子データベース検
索システムにおいて、動的計画法演算ユニットは、デー
タ形式を所定形式に変換するデータ変換部を備えてお
り、遺伝子データベースから読み出した配列データは、中央
処理装置ユニットにおいて圧縮または変形して、動的計
画法演算ユニットに送り、動的計画法演算ユニットの側でデータ変換部により所定
形式に変換して、動的計画法の演算を実行することを特
徴とする遺伝子データベース検索システム。
【請求項８】請求項２に記載の遺伝子データベース検
索システムにおいて、第３演算制御手段は、予め指定のキー長およびターゲット長に達するまで一列
ごとに演算を実行し、該一列ごとに累積値の最大値を取得し、前記第１演算制
御手段による演算で求めてある最大累積値と一致する列
が求まったところで演算を中断し、該列の累積値メモリの内容と方向選択データを取得し、該累積値メモリの中から前記累積値の最大値の位置を求
め、該位置に相当する方向選択データを取得し、該方向選択データに基づき少なくとも該位置と同じか１
つ以上の範囲において動的計画法演算を再度実施しなが
ら方向選択データを取得する演算制御を行うことを特徴
とする遺伝子データベース検索システム。
【請求項９】請求項２に記載の遺伝子データベース検
索システムにおいて、第３演算制御手段は、予め指定のキー長およびターゲット長に達するまで一行
ごとに演算を実行し、該一行ごとに累積値の最大値を取得し、前記第１演算制
御手段による演算で求めてある最大累積値と一致する行
が求まったところで演算を中断し、該行の累積値メモリの内容と方向選択データを取得し、該累積値メモリの中から前記累積値の最大値の位置を求
め、該位置に相当する方向選択データを取得し、該方向選択データに基づき少なくとも該位置と同じか１
つ以上の範囲において動的計画法演算を再度実施しなが
ら方向選択データを取得する演算制御を行うことを特徴
とする遺伝子データベース検索システム。
【請求項１０】請求項１に記載の遺伝子データベース
検索システムにおいて、更に、検索キーの塩基配列デー
タを出力する遺伝子配列決定装置を備え、前記遺伝子配列決定装置から出力された塩基配列データ
をキーデータとして前記動的計画法演算ユニットに入力
することを特徴とする遺伝子データベース検索システ
ム。
【請求項１１】請求項１に記載の遺伝子データベース
検索システムにおいて、中央処理装置ユニットによる遺
伝子データベースのアクセス処理と、動的計画法演算ユ
ニットの演算処理とを、少なくとも一部の時間同時並行
的に動作させ、該動的計画法演算ユニットの演算実行中
に、中央処理装置ユニットが遺伝子データベースから次
のターゲットデータの読み出しを先行して行うことを特
徴とする遺伝子データベース検索システム。
【請求項１２】請求項３に記載の遺伝子データベース
検索システムにおいて、前記動的計画法演算ユニット
は、更に、動的計画法演算の累積値と比較する定数値を格納する定
数レジスタと、該定数レジスタの定数値に対して累積値が所定の関係と
なった場合に、該定数値と累積値を置き換える演算要素
とを有することを特徴とする遺伝子データベース検索シ
ステム。
【請求項１３】請求項３に記載の遺伝子データベース
検索システムにおいて、前記動的計画法演算ユニット
は、更に、動的計画法演算の演算結果の累積値と比較する定数値を
格納する定数レジスタと、該定数レジスタの定数値に対して演算結果の累積値が所
定の関係となった場合に演算を停止させる信号を生成す
る演算要素とを有することを特徴とする遺伝子データベ
ース検索システム。