JPH0793370A - 遺伝子データベース検索システム - Google Patents

遺伝子データベース検索システム

Info

Publication number
JPH0793370A
JPH0793370A JP5260403A JP26040393A JPH0793370A JP H0793370 A JPH0793370 A JP H0793370A JP 5260403 A JP5260403 A JP 5260403A JP 26040393 A JP26040393 A JP 26040393A JP H0793370 A JPH0793370 A JP H0793370A
Authority
JP
Japan
Prior art keywords
data
dynamic programming
calculation
gene database
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5260403A
Other languages
English (en)
Inventor
Hitoshi Fujimiya
仁 藤宮
Shinichiro Yamamoto
真一郎 山元
Norio Maru
典生 丸
Toshiji Okayama
利次 岡山
Naganori Nasu
永典 奈須
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Hitachi Consumer Electronics Co Ltd
Japan Display Inc
Original Assignee
Hitachi Device Engineering Co Ltd
Hitachi Software Engineering Co Ltd
Hitachi Consumer Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Device Engineering Co Ltd, Hitachi Software Engineering Co Ltd, Hitachi Consumer Electronics Co Ltd filed Critical Hitachi Device Engineering Co Ltd
Priority to JP5260403A priority Critical patent/JPH0793370A/ja
Priority to US08/312,689 priority patent/US5706498A/en
Priority to EP94115216A priority patent/EP0646883A1/en
Publication of JPH0793370A publication Critical patent/JPH0793370A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【目的】 遺伝子データベースからその配列データの類
似の配列を有する遺伝子配列を検索する遺伝子データベ
ース検索システムを提供する。 【構成】 遺伝子データベース検索システムは、構造が
解析された遺伝子の配列データを蓄積する遺伝子データ
ベースと、遺伝子データベースからの塩基配列データを
ターゲットデータとし、検索キーとなる塩基配列データ
をキーデータとして、ターゲットデータとキーデータと
の類似度を求める動的計画法演算ユニットと、遺伝子デ
ータベースと動的計画法演算ユニットを制御し、遺伝子
データベースに対するアクセス処理と、遺伝子データベ
ースからの塩基配列データをターゲットデータとして動
的計画法演算ユニットに順次に入力して類似度を求める
演算処理とを並行して動作させる中央処理装置ユニット
とを備える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、遺伝子データベース検
索システムに関し、特に、構造が解析された遺伝子の少
なくとも核酸塩基配列および蛋白質のアミノ酸残基のい
ずれかの配列データを蓄積している遺伝子データベース
から、遺伝子配列に対しその類似の配列データを抽出す
る候補として検索する場合に、その検索のための演算を
効率的に実行し、能率よく遺伝子データベースの配列デ
ータを検索することができる遺伝子データベース検索シ
ステムに関するものである。
【0002】
【従来の技術】現在、ヒトゲノムプロジェクトや、イネ
ゲノムプロジェクトなどに代表されるように、動物およ
び植物の特性を遺伝子レベルで解明しようとした研究開
発の動きが活発となっている。これは、それぞれの生物
の持つ特徴を遺伝子レベルの配列と対応づけることによ
り、人間にとって有用な機能を別の生物体内に発生させ
ることが、遺伝子組み替え技術の確立によって実現可能
となることが理解され始めたからである。
【0003】従来から、遺伝子配列の構造の解析は一部
で進められており、これらの既に解析された遺伝子配列
の情報は、データベースに登録されて、共通に利用可能
なように提供されている。一般の研究者が、このような
データベースにアクセスすることにより遺伝子配列の情
報が利用できる。このような遺伝子配列のデータベース
としては、例えば、米国におけるGenBank、欧州
におけるEMBL、日本国における国立遺伝学研究所な
どの遺伝子データベースがある。
【0004】なお、ここでの以下の説明において、特に
断わらない限り遺伝子とは、生物体の遺伝情報を有する
核酸塩基の配列やそれらの組み合わせであるアミノ酸残
基の配列を意味するものとする。
【0005】遺伝子データベースからの遺伝子配列の検
索は、研究者が実験によって決定した遺伝子配列の生体
内における機能を推定したり、同種の配列を有する生体
をグルーピングすることにより遺伝系統樹を作成した
り、また、実験によって決定した遺伝子配列の配列その
ものの構造および遺伝子情報が、既に発見済のものであ
るか否かなどを知ることを目的として行なわれる。
【0006】まず、従来から利用可能な遺伝子データベ
ースを利用し、遺伝子データベースから遺伝子配列の検
索を行う場合の操作例について説明する。各研究者は、
特定の生物にしかない機能などを解明するため、その生
体を制御しているメカニズムを探る。多くの場合、この
ようなメカニズムは、蛋白質や周辺の糖鎖などが介在し
たメカニズムとなっていることが多い。
【0007】このようにして求められたメカニズムにお
ける生体高分子から、次に、その遺伝情報を有する核酸
塩基などの配列を決定する。例えば、蛋白質の場合はア
ミノ酸残基の配列である。これらのアミノ酸の配列から
遺伝子のコドンとの対応がつけられる。核酸の塩基配列
が蛋白質に翻訳される場合、若干の修飾などが加わるこ
とや、一つのアミノ酸残基に複数のコドンが対応するた
め、推定した遺伝子配列は完全に解明されたとは言えな
い場合もある。
【0008】しかし、このようにして求められた遺伝子
の推定配列を基にして、遺伝子データベースを検索す
る。これにより、同種の遺伝子配列を有する生体などを
検索することが可能となる。また、ここでの遺伝子デー
タベースから検索された結果により、その検索後の確度
の高い遺伝子の配列を基にして、遺伝子プローブなどを
作成し、対象生物体の染色体に結合させることにより、
染色体のどの部分に前記遺伝情報が存在するかを明らか
にすることが可能となる。
【0009】更に、対象の生物体の染色体に結合させた
部分を抽出して最終的な塩基配列を決定することが可能
となり、場合によっては、直接的にアミノ酸配列によっ
て、遺伝子データベースを検索する場合もある。このよ
うに、核酸塩基配列やアミノ酸残基の配列に対する遺伝
子データベースによる配列データの検索は、生体のメカ
ニズムを解析する場合において必須の作業となる。
【0010】この種の遺伝子データベースの検索は、通
常の意味でのデータベースの検索とは異なり、検索のキ
ーとなる配列データに対して類似性の高い配列を、遺伝
子データベースから検索結果の候補として抽出すること
を意味する。このような形態の遺伝子データベースの検
索は相同性検索(ホモロジー検索)と呼ばれる。
【0011】ところで、遺伝子などの生体高分子におい
ては、世代を経るごとに遺伝子配列が徐々に変化し、複
数の世代を経ると、遺伝子の配列に欠落や挿入が生じて
いる場合がある。このような遺伝子の配列に対して行う
遺伝子配列相互の類似性の評価は、任意の位置において
挿入や欠落を想定した評価とするため、直接的な評価の
解法では、評価の結果を得るまでに膨大な計算量を必要
とする。したがって、このような膨大な計算量を低減す
るため、通常の場合、動的計画法の解法に従った近似的
な計算の手法が用いられる。
【0012】典型的な遺伝子配列相互の類似性を得る評
価の解法では、動的計画法の解法の手法を利用し、全体
的な最適解を求めるため、次に説明するようなステップ
をとることにより、膨大なデータの組み合わせの量を低
減して、演算を効率的に進める。すなわち、この手法に
よると、まず、微小な部分(遺伝子の場合は1塩基ず
つ)を対象として、その部分(塩基)が一致しているか
どうかに応じて加点し、また、微小な部分の挿入や欠落
が発生するごとに減点しながら、演算開始点からの累積
値を求めて、それまでの各々の組み合わせごとに局所的
な最適なルートを求める。それを最終の組み合わせまで
実行し、累積値の最大となるポイントから、逆に前に求
めた局所的な選択パスをさかのぼる(バックトレースす
る)ことによって全体の最適な組み合わせを求めること
になる。
【0013】次に、遺伝子データベースの検索に動的計
画法の解法の手法を用いてデータ検索を行う場合の具体
例について説明する。図7は動的計画法の手法による類
似度算出の演算方法の原理を説明する図である。図7a
に動的計画法の全体の演算フローの説明図を示し、図7
bに動的計画法の基本演算セルの演算原理を説明する図
を示している。
【0014】検索のキーとなる塩基配列データ(キーデ
ータ)と遺伝子データベースから取り出した塩基配列デ
ータの一つのターゲットデータは、図7aに示すよう
に、マトリクス両辺の直交する位置に配置され、各々の
配列データの組み合わせが、マトリクス状になるように
配置される。配列データの両者の要素データが、一致す
る場合、または異なっていても遺伝子の置換と考えられ
る場合は、斜線を入れて、その斜線のパスのスコアを高
めるため、高いスコア値を設定する。
【0015】また、挿入や欠損によって対となるものが
ないと推定される場合は、各々の要素データの間の直交
する格子がその場合のパスを表現していると見なし、こ
の格子のパスのスコアではスコア値を減算する。このよ
うに表現することにより、マトリクス内の直交する格子
と斜線の組み合わせのパスにより、両者の任意の組み合
わせを表現することができる。そして、その組み合せの
パスを通るスコアの値の累算により、最も一致している
組み合わせ(これを最適並置と言う)を求めることが可
能となる。したがって、最適パスは各々の格子点のスコ
ア値を求め、最も高いスコア値の格子点を順次に通るパ
スを求めることにより求められ、最適並置を求めること
は、この最適パスを求める問題に帰着される。
【0016】このような問題の解法において、動的計画
法を使用する場合と使用しない場合との比較のため、ま
ず、動的計画法を使用しないで直接的に最適パスを求め
た場合に、どの程度の計算量となるかの概略を次に計算
してみると、直接的に求める場合には、すべてのパスの
組み合わせの数だけ計算量を要するため、次に示す「式
1」による数Sだけの組み合わせが発生する。ここで、
第1の配列データの要素の数と、第2の配列データの要
素の数とをそれぞれM,Nとする。
【式1】
【0017】この「式1」で、例えば、M=N=10と
しても、その組み合せの数Sは、約800万程度の数と
なり、配列データの要素の数がわずかに増加しても爆発
的に演算量が増大することがわかる。動的計画法用いた
遺伝子データベース検索では、実用的な種々の条件を設
定することによって類似度の計算をM×Nのオーダー
(M=N=10として100のオーダー)まで低減して
処理を行う。
【0018】次に、動的計画法を用いた場合の計算方法
について説明する。配列A=a1,a2,…,amと、
配列B=b1,b2,…,bnとの間の類似度D(A,
B)は、以下のようにして、帰納的に求められる。ここ
での配列Aの部分配列As=a1,a2,…,aiと、
配列Bの部分配列Bs=b1,b2,…,bjとの間の
最適並置は、次の3通りの並置方法のうちの1つをと
る。 [第1の並置方法]部分配置a1,a2,…,a(i−
k)と、部分配置b1,b2,…,bjとを最適並置さ
せた上で、bjの後にk個の空白を挿入し、続いて、a
(i−k+1),…,aiと相対させる並置方法。 [第2の並置方法]部分配置a1,a2,…,a(i−
1)と、部分配置b1,b2,…,b(j−1)とを最
適並置させた上で、次に、aiとbjを相対させる並置
方法。 [第3の並置方法]部分配置a1,a2,…,aiと部
分配置b1,b2,…,b(j−k)とを最適並置させ
た上で、続いて、aiの後にk個の空白を挿入して、b
(j−k+1),…,bjと相対させる並置方法。
【0019】したがって、配列Aの部分配列As=a
1,a2,…,aiと、配列Bの部分配列Bs=b1,
b2,…,bjとの間の類似度(累積値)のD(ai,
bj)は、一度に挿入や欠失される塩基配列の最大の長
さをαとすると、初期条件のスコアの値によるD(0,
0)=0のもとに、次の漸化式を解くことによって求め
られる。なお、以下の説明において、類似度を求める対
象の2つの配列は変かわない場合には混同しないので、
D(ai,bj)を単にD(i,j)と略記し、類積値
の演算マトリクスの夫々の要素の位置(行列)をも示す
ものとする。
【0020】ここでは類似度の数値の大きいときが「類
似している」ものと記述する。したがって、以下の漸化
式の数式においては、動的計画法の演算の関数minが
関数maxに置き換わっている。 D(0,0)=0 1≦k≦αの場合において、 D(i,j)=max[max{D(i−k,j)+v
(k)},D(i−1,j−1)+δ(ai,bj),
max{D(i,j−k)+v(k)}] (ただし、0≦i≦M, 0≦j≦N) この漸化式を解くために必要なパラメータは、αと、挿
入欠失のスコアv(k)の値と、置換のスコアδ(a
i,bj)の値である。
【0021】ここでは、更に計算量を低減するため、α
=1に限定する。すなわち、一度に1個の挿入欠失しか
発生しないとしても、実用上の問題はないため、α=1
とすることにより、k=1となるので、次の漸化式によ
って類似度の計算を行う。 D(0,0)=0 D(i,j)=max[D(i−1,j)+v(1),
D(i−1,j−1)+δ(ai, bj),D(i,
j−1)+v(1)] (ただし、0≦i≦M, 0≦j≦N)
【0022】この演算は、模式的には、図7bに示すよ
うに、表現することができる。すなわち、D(i,j)
の演算は、3つのルートの内で最大のスコア(累積値)
の値となるパスを選択して、該当の格子点のスコアとす
る基本演算となる。この図7bの基本演算セルの内容
は、図7aの一つの格子点にかかるセルの基本演算を取
り出したものに他ならない。すなわち、図7bに示す基
本演算セルにおいて、上方からの矢印線のパス(縦格
子)と左方からの矢印線のパス(横格子)が遺伝子の挿
入欠落の場合を意味し、対角線方向の矢印線のパス(斜
線)は、置換または一致の場合を意味している。
【0023】実際の計算は次の手順で行われる。まず、
3つのノードにおける類似度のD(i−1,j)、D
(i−1,j−1)、D(i,j−1)の値にそれぞれ
のルートにおけるスコアの値(負の場合もある)を加算
する。次に、これら3本のルートから得られたスコアの
加算値の中から最も大きなものを選択して、累積値マト
リクスの当該ノード(格子点)のD(i,j)のスコア
とする。これを図7aの原点(左上)側からから列(ま
たは行)方向に順に適用し、マトリクス全体の各々のノ
ードのスコアの計算を行う。
【0024】次に、全体の最適並置を求めるため、基本
演算が終了した後に、図7aのパス71に示すように、
右下の最後の要素の格子点(ノード)から、各々の格子
点を演算したときに選択したパス(各基本演算セルの格
子線または斜線のパス)を逆に辿りながら、原点の格子
点方向の左上方向に進む(バックトレースする)ことに
より、スコアマトリクスの値の累積値が最大となる全体
のパス71を求めることができる。また、部分最適並置
を求める場合は、各格子点の位置で求めた類似度のD
(i,j)のスコア値の最も大きな格子点(ノード)を
求め、そこから同様にバックトレースをすることによっ
て求めることができる。
【0025】このように類似度を表わす累積値マトリク
スの値は、各々の格子点(ノード)におけるD(i,
j)のスコア値の計算から順次に求めることにより演算
を行うことができる。その計算量は、基本演算のステッ
プ数のM×N倍のオーダーとなる。ここで、実際に用い
られる遺伝子配列データの記号と、そのスコア表の一例
を図8に示している。図8に示すスコア表は、各々の塩
基コードが一致した場合のスコア値または置換した場合
のスコアδ(ai,bj)の値である。
【0026】図8は、動的計画法を用いて遺伝子データ
ベース検索を行う場合の類似度を求めるスコア表の一例
を示す図となっており、図8に示すように、スコア表8
1はターゲット側の配列要素データ(ACGTRYMW
SKDHVBN)を列方向に配置し、キー側の配列要素
データ(ACGTRYMWSKDHVBN)を行方向に
配置した2次元マトリクス形式の表となっている。な
お、ここでのターゲット側およびキー側の配列要素デー
タのA〜Nは、それぞれの塩基コードを示しており、ス
コア表の値は、各々の塩基コードが一致した場合または
置換された場合に加算されるスコアの点数を示してい
る。
【0027】以上に説明したように、動的計画法の解法
の手法を用いることにより、評価に必要とされる演算量
は、基本演算のM×Nのオーダーまで低減できる。しか
し、これでも実際に遺伝子データベースの検索を行う上
での類似度の評価の結果を得る場合には、かなりの演算
時間を必要とする。
【0028】特に、上記の計算方法の説明で述べたよう
に、ここでの動的計画法の演算においては、スコア値の
加減算の演算と共に、その後にパス選のための各ルート
の3方向からの比較演算が入るため、通常の数値演算用
プロセッサを用いても、その処理速度を向上させにく
い。例えば、前述のGenBankに登録されている約
7万件のエントリの遺伝子データを1つのキーデータに
ついて検索する場合、データ処理速度が数十MIPS程
度の処理能力を有するエンジニアリングワークステーシ
ョンクラスのコンピュータを使用しても、10数時間か
ら20時間程度は必要である。このため、演算時間を短
縮するための簡略化の手法が種々検討されている。
【0029】簡略化の手法の一例として、計算量を更に
低減するために、例えば、遺伝子の挿入欠損を無視する
ことで、動的計画法を直接には適用しないですませ、単
なる文字列の一致する部分を求め、文字列の一致する部
分長さを点数として、候補を絞り込み、その絞り込まれ
た配列部分のみを対象として、局所的に動的計画法を適
用するという簡略化手法がある。
【0030】しかし、このように簡略化され変更された
方法では、初めの段階での演算に遺伝子配列における塩
基要素の挿入欠失が考慮されていないため、例えば、挿
入欠失が飛び飛びに数ヵ所で発生している場合には一致
する部位が連続しないため、一致部分の長さとしては、
短くなり、最終的な候補として残らない場合がある。そ
の場合は、実際に類似しているにもかかわらず検索でき
ないことになる。
【0031】また、候補の絞り込みに続いて行われる最
適並置を求める最適化の評価の段階においても、例え
ば、図9に示すように、計算マトリクス91の対角線9
2に沿って、被検索対象の候補を挟む前後16塩基程度
の範囲93に対してのみ、局所的に動的計画法を適用す
ることになる。しかし、累積して16塩基以上の挿入欠
損を有する場合のような並置も歪を受けることがあり、
キーデータとターゲットデータを入れ替えても本来同じ
スコアであるべきものが異なってしまうなどの問題を有
している。ただし、演算する対象の候補の数が非常に減
少するため演算時間は短い。
【0032】このように変更されたアルゴリズムでは、
精度を犠牲にして処理時間の短縮を図るものとなってい
る。具体的には、動的計画法を実行して類似度の評価を
行う場合には、10数時間から20時間程度の計算の処
理時間を必要とするのに対して、変更されたアルゴリズ
ムでは、10数分程度の処理時間で済んでいる。
【0033】次に、このような遺伝子データベースの検
索を行うシステムのハードウェア構成について説明す
る。まず、システムの基本構成を図10を用いて説明す
る。図10は遺伝子データベース検索システムの基本構
成を示すブロック図である。図10において、101は
ワークステーション、102は外部記憶装置、103は
モデム、104はネットワーク、105は研究機関のデ
ータベースである。このシステムでは、ワークステーシ
ョン101が、マンマシンインタフェースとなる部分で
あり、研究者の居るサイトに設置され、ローカルな遺伝
子データベースでのデータ検索(相同性検索)の処理を
実行する。
【0034】ここでのワークステーション101には、
遺伝子データベースとしての外部記憶装置102が接続
され、外部記憶装置102により遺伝子情報の配列デー
タが蓄積されているCD−ROMまたはハードディスク
などの記憶媒体から、遺伝子配列データのターゲットデ
ータを得て、検索キーのキーデータに対する類似度の評
価と、ターゲットデータの中から候補として抽出する遺
伝子配列の相同性検索を行う。また、ワークステーショ
ン101は、他の遺伝子データベースとしてモデム10
3によりネットワーク14を介して研究機関のデータベ
ース105に接続されており、研究機関のデータベース
105から遺伝子データベースの情報を得て、それをタ
ーゲットデータとして、ローカルな遺伝子データベース
でのデータ検索の処理と同様に、検索キーのキーデータ
に対する遺伝子情報の配列データの相同性検索を行う。
【0035】実験などによって求められた遺伝子配列の
配列データは、キーボードから直接に、または、フロッ
ピーディスクなどの記録媒体を介して、ワークステーシ
ョン101に入力される。この配列データを検索キーの
キーデータとして、遺伝子データベースの検索処理(相
同性検索)を実施する。各研究者が所有するローカルな
遺伝子データベースに対して、データ検索する場合は、
前述のように、変更され簡略化されたアルゴリズムを用
いて、類似している配列を検索(相同性検索)する。検
索処理はすべてソフトウェアで記述されているプログラ
ムの処理により行なわれる。その場合、CD−ROMに
よる配布データは、アップデートされる期間が比較的に
長く、その間隔が離れていることが多いため、新しく解
明された遺伝子配列の配列データに関する最新情報を利
用できるまでに遅れが生ずる。そのため、研究者は、確
実に検索を行うため公衆回線のネットワーク104を経
由して公共用の大型のデータベース機関にアクセスし
て、最終的なデータ検索を行い、自己が解明した遺伝子
配列が新規な遺伝子配列であると判断される場合は、そ
のまま登録する手続きなどをとることが多い。
【0036】
【発明が解決しようとする課題】ところで、従来におけ
る遺伝子データベース検索システムにおいては、上述し
たように、動的計画法を実行するためには、膨大な計算
量に対する処理能力のある大型計算機を用いるのが必須
である。このため、そのような大型計算機が手軽に使用
できない状態では遺伝子配列データベースに対するデー
タ検索(相同性検索)を進めることができず、また、経
済的な制約のため、膨大な計算量に対する処理能力のあ
る大型計算機の使用制限などを受けるという問題があ
る。
【0037】このような遺伝子データベースに対するデ
ータ検索処理を実用的な検索時間とするため、変更した
アルゴリズムが開発されてきたが、演算時間を短縮する
ために採用したこれまでの方法では、遺伝子の複数の世
代交代で普通に発生しうる挿入欠落を考慮に入れない方
法で絞り込みを行っているため、類似性が高い配列が存
在するにもかかわらず、検索結果として得られない場合
があるなどの問題がある。
【0038】本発明は、上記のような問題点を解決する
ためになされたものであり、本発明の目的は、アルゴリ
ズムを変更した計算方法と同程度の実用的な処理時間で
高精度な検索(相同性検索)を行うことができる遺伝子
データベース検索システムを提供することにある。
【0039】
【課題を解決するための手段】上記のような目的を達成
するため、本発明の遺伝子データベース検索システムに
おいては、専用のハードウェア回路の演算部ユニットと
して、動的計画法の演算を行う動的計画法演算ユニット
を設ける。そして、第1の特徴として、構造が解析され
た遺伝子の少なくとも核酸塩基配列および蛋白質のアミ
ノ酸残基のいずれかの配列データを蓄積する遺伝子デー
タベースと、遺伝子データベースからの塩基配列データ
をターゲットデータとし、検索キーとなる塩基配列デー
タをキーデータとして、ターゲットデータとキーデータ
との類似度を求める動的計画法演算ユニットと、遺伝子
データベースと動的計画法演算ユニットを制御し、遺伝
子データベースに対するアクセス処理と、遺伝子データ
ベースからの塩基配列データをターゲットデータとして
動的計画法演算ユニットに順次に入力して類似度を求め
る演算処理とを並行して動作させる中央処理装置ユニッ
トとを備えることを特徴とする。
【0040】また、本発明の遺伝子データベース検索シ
ステムは、第2の特徴として、動的計画法演算ユニット
に対する制御を行う中央処理装置ユニットは、キーデー
タに対して、ターゲットデータを順次に変えて、ターゲ
ットデータとキーデータとの類似度の演算を実行させ、
該演算時に発生する各ターゲットデータの配列データに
対する累積値を得て、最大累積値のみを保存する第1演
算制御手段と、前記第1演算制御手段で求められた各タ
ーゲットデータの配列データに対する最大累積値を分類
し、抽出する対象となる配列データの順位を決定する第
2演算制御手段と、抽出する対象となる配列データの順
位に応じて、該対象となる配列データをターゲットデー
タとし、ターゲットデータとキーデータとの類似度の再
演算を行い、該演算時に発生するターゲットデータの配
列データに対する累積値を保存する演算を行い、演算中
において生成される方向選択データを取得して、前記キ
ーデータに対する配列データの最適並置を得る第3演算
制御手段とを備えることを特徴とする。
【0041】本発明の遺伝子データベース検索システム
は、第3の特徴として、前記動的計画法演算ユニット
は、検索キーとなる塩基配列データのキーデータを格納
するキーメモリと、遺伝子データベースからの配列デー
タのターゲットデータを格納するターゲットメモリと、
塩基配列データの個々の塩基要素間の類似度を定義した
スコアメモリと、動的計画法の基本演算を実行する基本
演算処理部と、基本演算処理部による基本演算実行時に
発生する局所的な最適値の選択方向を記録する方向選択
メモリと、動的計画法の演算の累積値を記憶する累積値
メモリと、前記メモリおよび演算処理部を制御して動的
計画法の演算制御を行う制御部とを備えていることを特
徴とする。
【0042】更に、本発明の遺伝子データベース検索シ
ステムは、第4の特徴として、動的計画法演算ユニット
は、類似度のスコア値を格納する書き換え可能なスコア
メモリを備えており、中央処理装置ユニットは、該スコ
アメモリに類似度のスコア値を格納して、前記第1演算
制御手段による演算制御処理を終了した後、該スコア値
の一部または全てを変更して、第3演制御手段による演
算制御処理を実行することを特徴とする。
【0043】本発明の遺伝子データベース検索システム
は、第5の特徴として、動的計画法演算ユニットは、類
似度のスコア値を格納する書き換え可能なスコアメモリ
を備え、キーデータ側の配列要素に応じて、該スコアメ
モリにスコア値を配列要素のマトリクス構成の非対称な
形式で保有し、中央処理装置ユニットは、前記スコアメ
モリのスコア値を用いて、第1演算制御手段または第3
演算制御手段の演算制御を行うことを特徴とする。
【0044】第6の特徴として、本発明の遺伝子データ
ベース検索システムは、動的計画法演算ユニットは、デ
ータ形式を所定形式に変換するデータ変換部を備えてお
り、遺伝子データベースに蓄積されている配列データが
圧縮または変形されたものであり、前記中央処理装置ユ
ニットは、遺伝子データベースの配列データをそのまま
の形式で読み出し、動的計画法演算ユニットに送り、動
的計画法演算ユニットの側でデータ変換部により所定形
式に変換して、動的計画法の演算を実行することを特徴
とする。
【0045】また、同様に、本発明の遺伝子データベー
ス検索システムは、第7の特徴として、動的計画法演算
ユニットは、データ形式を所定形式に変換するデータ変
換部を備えており、ここでは、遺伝子データベースから
読み出した配列データは、中央処理装置ユニットにおい
て圧縮または変形して、動的計画法演算ユニットに送
り、動的計画法演算ユニットの側でデータ変換部により
所定形式に変換して、動的計画法の演算を実行すること
を特徴とする。
【0046】また、本発明の遺伝子データベース検索シ
ステムは、第8の特徴として、配列データの最適並置を
得る第3演算制御手段が、予め指定のキー長およびター
ゲット長に達するまで一列ごとに演算を実行し、該一列
ごとに累積値の最大値を取得し、前記第1演算制御手段
による演算で求めてある最大累積値と一致する列が求ま
ったところで演算を中断し、該列の累積値メモリの内容
と方向選択データを取得し、該累積値メモリの中から前
記累積値の最大値の位置を求め、該位置に相当する方向
選択データを取得し、該方向選択データに基づき少なく
とも該位置と同じか1つ以上の範囲において動的計画法
演算を再度実施しながら方向選択データを取得する演算
制御を行うことを特徴とする。
【0047】また、同様に、本発明の遺伝子データベー
ス検索システムは、配列データの最適並置を得る第3演
算制御手段が、第9の特徴としては、行方向に演算制御
を行って、予め指定のキー長およびターゲット長に達す
るまで一行ごとに演算を実行し、該一行ごとに累積値の
最大値を取得し、前記第1演算制御手段による演算で求
めてある累積値の最大値と一致する行が求まったところ
で演算を中断し、該行の累積値メモリの内容と方向選択
データを取得し、該累積値メモリの中から前記累積値の
最大値の位置を求め、該位置に相当する方向選択データ
を取得し、該方向選択データに基づき少なくとも該位置
と同じか1つ以上の範囲において動的計画法演算を再度
実施しながら方向選択データを取得する演算制御を行う
ことを特徴とする。
【0048】第10の特徴として、本発明の遺伝子デー
タベース検索システムには、更に、検索キーの塩基配列
データを出力する遺伝子配列決定装置が備えられ、前記
遺伝子配列決定装置から出力された塩基配列データをキ
ーデータとして前記動的計画法演算ユニットに入力する
ことを特徴とする。
【0049】また、第11の特徴として、本発明の遺伝
子データベース検索システムにおいては、中央処理装置
ユニットによる遺伝子データベースのアクセス処理と、
動的計画法演算ユニットの演算処理とを、少なくとも一
部の時間同時並行的に動作させ、該動的計画法演算ユニ
ットの演算実行中に、中央処理装置ユニットが遺伝子デ
ータベースから次のターゲットデータの読み出しを先行
して行うことを特徴とする。
【0050】また、本発明の遺伝子データベース検索シ
ステムは、第12の特徴として、前記動的計画法演算ユ
ニットには、更に、動的計画法演算の累積値と比較する
定数値を格納する定数レジスタと、該定数レジスタの定
数値に対して累積値が所定の関係となった場合に、該定
数値と累積値を置き換える演算要素とを有することを特
徴とする。
【0051】そして、本発明の遺伝子データベース検索
システムは、第13の特徴として、前記動的計画法演算
ユニットには、更に、動的計画法演算の演算結果の累積
値と比較する定数値を格納する定数レジスタと、該定数
レジスタの定数値に対して演算結果の累積値が所定の関
係となった場合に演算を停止させる信号を生成する演算
要素とを有することを特徴とする。
【0052】
【作用】このように、様々な特徴を有するように構成さ
れた本発明の遺伝子データベース検索システムは、シス
テムの基本構成として、遺伝子データベースと、専用の
演算部ユニットの動的計画法演算ユニットと、中央処理
装置ユニットとが備えられている。遺伝子データベース
は、構造が解析された遺伝子の少なくとも核酸塩基配列
および蛋白質のアミノ酸残基のいずれかの配列データを
蓄積しており、動的計画法演算ユニットが、遺伝子デー
タベースからの塩基配列データをターゲットデータと
し、検索キーとなる塩基配列データをキーデータとし
て、ターゲットデータとキーデータとの類似度を求める
演算を行う。中央処理装置ユニットは、遺伝子データベ
ースおよび動的計画法演算ユニットを制御し、遺伝子デ
ータベースに対するアクセス処理と、動的計画法演算ユ
ニットに遺伝子データベースからの塩基配列データをタ
ーゲットデータとして動的計画法演算ユニットに順次に
入力して類似度を求める演算処理とを並行して動作させ
る。
【0053】ここでは、遺伝子データベース検索システ
ムに、動的計画法の演算を行う専用演算部の動的計画法
演算ユニットを設けて、高速に、動的計画法の演算を実
行させると共に、更に、この演算動作と、中央処理装置
ユニットによる遺伝子データベースのアクセス処理の動
作と並行させて行うので、動的計画法演算ユニットによ
るターゲットデータに対する類似度の演算中に、中央処
理装置ユニットが、例えば次のターゲットデータに対す
る遺伝子データベースのアクセス処理を行う。このた
め、全体として、高いスループットで遺伝子データベー
スに対する相同性検索のデータ検索が行える。
【0054】また、本発明の遺伝子データベース検索シ
ステムにおいては、動的計画法演算ユニットを用いて、
中央処理装置ユニットが遺伝子データベースの検索処理
を行う場合に、第1演算制御手段と、第2演算制御手段
と、第3演算制御手段とによる演算制御を行って、動的
計画法による遺伝子配列の類似度の計算を行い、最適な
候補を抽出するための演算を実行する。
【0055】このため、第1演算制御手段では、キーデ
ータに対して、ターゲットデータを順次に変えて、ター
ゲットデータとキーデータとの類似度の演算を行い、該
演算時に発生する各ターゲットデータの配列データに対
する最大累積値のみを保存する。次の第2演算制御手段
では、前の第1演算制御手段で求められた各ターゲット
データの配列データに対する最大累積値を分類し、抽出
する対象となる配列データの順位を決定する。そして、
更に次の第3演算制御手段において、抽出する対象とな
る配列データの順位に応じて、該対象となる配列データ
をターゲットデータとして、ターゲットデータとキーデ
ータとの類似度の再演算を行って、該演算時に発生する
各ターゲットデータの配列データに対する累積値を保存
する演算を行い、演算中において生成される方向選択デ
ータを取得し、前記キーデータの配列データに対する配
列データの最適並置を得る。
【0056】このように、本発明の遺伝子データベース
検索システムでは、動的計画法演算ユニットに順次にタ
ーゲットデータの配列データが入力され、ターゲットデ
ータの配列データに対する類似度が求められ、演算時に
発生する類似度の最大累積値のみを保持して、各ターゲ
ットデータに対応して最大累積値のみを取り出す。そし
て、最大累積値によりターゲットデータの絞り込みを行
う。演算の途中では、動的計画法演算ユニットからは最
大累積値のみを得るだけなので、動的計画法演算ユニッ
トと中央処理装置ユニットとの間で不必要なデータ転送
を行なわなくて済み、動的計画法演算ユニットは連続し
て演算を実行でき、演算処理速度が向上する。また、タ
ーゲットデータの絞り込みも、動的計画法の演算による
最大累積値により判定するので、簡略化手法による場合
のように、残すベき候補がもれることが無い。
【0057】すなわち、最終的に最適並置を取り出す場
合には、バックトレースのための演算マトリクスの累積
値および方向選択データを中央処理装置ユニットの側に
必要とするが、最初の段階では、動的計画法演算ユニッ
トでは、遺伝子データベースから取り出した1つのエン
トリ(ターゲットデータ)に対して類似度の計算を行
い、類似度の累算値の最大値のみを中央処理装置ユニッ
トの側に取り出す。各々のエントリに対して類似度の最
大値を求め終えた段階で、これらを分類し、その分類結
果からホモロジー度の高い配列データに対してのみ、動
的計画法演算ユニットで再度の類似度の計算を行う。こ
の再計算でバックトレース用の方向選択データなどを各
演算マトリクスごとに全てのデータを、動的計画法演算
ユニットから中央処理装置ユニットの側に取り出す。こ
のため、ここでの演算制御では、動的計画法演算ユニッ
トと中央処理装置ユニットとの間の全体のデータ転送量
が大幅に減少して、演算時間が短縮される。
【0058】また、本発明の遺伝子データ検索システム
においては、動的計画法演算ユニットが、類似度のスコ
ア値を格納する書き換え可能なスコアメモリを備えてい
る。このスコアメモリに対して、中央処理装置ユニット
が、各々の動的計画法の演算制御に先立ち、スコアメモ
リに格納するスコア値を変更する。これにより、初期段
階の候補の抽出と、演算の途中での候補の絞り込みなど
の類似度の算出の評価の基準を変えて、動的計画法によ
る類似度の評価を行うことができる。
【0059】また、更に、本発明の遺伝子データ検索シ
ステムにおいては、動的計画法演算ユニットが、データ
形式を所定形式に変換するデータ変換部を備えている。
このため、中央処理装置ユニットは、遺伝子データベー
スからの配列データを直接にまたは変形(圧縮)して転
送し、動的計画法演算ユニットの側で所望の所定形式に
変換して遺伝子データの配列データを得て、動的計画法
の演算を行う。これにより、動的計画法演算ユニットに
対するデータ転送時間を実質的に短縮して、演算時間を
短縮させることができる。
【0060】すなわち、動的計画法演算ユニットの処理
速度は、演算の並列度を上げることや高速動作する素子
を用いて動作速度を上げることにより高速化できるが、
ここでの動的計画法演算ユニットおよび中央処理装置ユ
ニットの間のデータ転送においては、標準規格となって
いるバス形式を用いるため、転送レートに制約を受け
る。例えば、SCSI方式では同期転送で最大4Mバイ
ト/秒であり、非同期転送で最大1Mバイト/秒であ
る。機器の互換性から汎用バス形式を採用する場合に転
送レートに制約を受ける。この転送ネックを解消するた
めに、データを圧縮して転送する。遺伝子データベース
で用いられているデータ表現形式は、一般的なテキスト
形式のASCIIコードで表現されており、このコード
は8ビットで構成されている。8ビットでは256個の
データ表現が可能であるが、DNAの場合には15種類
のコードで十分である。したがって、最低必要なビット
数は4ビットであるため、単純に4ビットをパッキング
して8ビットのコード単位で転送するだけで、実質的に
2倍の転送量とすることができる。このように、本発明
の遺伝子データ検索システムにおいては、中央処理装置
ユニットが、遺伝子データベースからの配列データを変
形して動的計画法演算ユニットに転送することにより、
各ユニット間でのデータ転送を実質的に高速化すること
ができる。
【0061】また、本発明の遺伝子データベース検索シ
ステムでは、配列データの最適並置を得る第3演算制御
手段が類似度の再計算を行う場合、予め指定のキー長お
よびターゲット長に達するまで一列ごとに演算を実行
し、該一列ごとに累積値の最大値を取得し、第1演算制
御手段による演算で求めてある累積値の最大値と一致す
る列が求まったところで演算を中断する。そして、該列
の累積値メモリの内容と方向選択データを取得し、該累
積値メモリの中から前記累積値の最大値の位置を求め、
該位置に相当する方向選択データを取得し、該方向選択
データに基づき少なくとも該位置と同じか1つ以上の範
囲において動的計画法演算を再度実施しながら方向選択
データを取得する。
【0062】このように、先の第1演算制御手段による
演算で既に求めてある最大累積値を利用することによ
り、全ての累算値の演算を行なわなくても、部分最適並
置を求めるための最大累積値が存在する位置を求めるこ
とができ、また、配列データの最適並置を得るために必
要な方向選択データを得ることができる。これにより、
演算時間が短縮できる。
【0063】また、このような演算は、演算マトリクス
の列方向に各々の累積値の演算を進めているが、行方向
に演算を進めても良い。この場合も同様に、先の第1演
算制御手段による演算で既に求めてある最大累積値を利
用することにより、全ての累算種の演算を行なわなくて
も、部分最適並置を求めるため最大累積値が存在する位
置を求めることができ、演算時間が短縮できる。
【0064】また、本発明の遺伝子データベース検索シ
ステムにおいては、更に、検索キーの塩基配列データを
出力する遺伝子配列決定装置を備えており、前記遺伝子
配列決定装置から出力された塩基配列データを前記動的
計画法演算ユニットに転送する。これにより、遺伝子配
列決定装置で得た配列データをそのまま検索キーとして
遺伝子データベースの検索を行うことができ、能率よく
遺伝子配列を求める実験を進行させられる。
【0065】
【実施例】以下、本発明の実施例を図面を用いて具体的
に説明する。図1は、本発明の一実施例にかかる遺伝子
データベース検索システムの全体の装置構成を説明する
ブロック図である。図1において、11は中央処理装置
ユニット(ワークステーション)、12は外部記憶媒体
装置ユニット(外部記憶媒体と略称する)、13は通信
用モデム、14は公衆通信網のネットワーク、15は外
部データベースシステム、16は動的計画法演算ユニッ
ト(適宜に演算ユニットと略称する)、17は核酸塩基
配列自動決定装置である。
【0066】まず、図1を参照して、システムを構成す
る各々装置の構成から説明する。中央処理装置ユニット
11は、システム全体の制御およびマンマシン・インタ
フェースの処理機能を受け持つ。この中央処理装置ユニ
ット11に対して、遺伝子配列の類似度を求める演算ユ
ニット16と、遺伝子データベースとしての遺伝子配列
のデータの格納場所である外部記憶媒体12と、検索キ
ーとなる配列データを生成する核酸塩基配列自動決定装
置17と、通信用モデム13とが、それぞれ所定のイン
タフェースのデータ転送方式(バス方式)により、その
データバスを介して、互いに接続されている。
【0067】この実施例の遺伝子データベースシステム
では、演算ユニット16と中央処理装置ユニット11と
の間、遺伝子データベースの外部記憶媒体12と中央処
理装置ユニット11との間をそれぞれ結ぶインタフェー
スには、SCSI(SmallComputer System Interfa
ce)バスが使用される。また、ここでの演算ユニット1
6は、Ethernetなどのローカルエリアネットワーク形
式のインタフェースで接続することもでき、後述する他
の実施例で説明するように内部バス形式で接続する構成
とすることもできる。内部バス形式を用いて結合する
と、データの転送レートを高く保つことができ、データ
転送速度の制約によるスループットの低下を避けること
ができる。また、ここでの遺伝子データベースとなる外
部記憶媒体12としては、例えば、CD−ROM,ハー
ドディスク,光磁気ディスクなどの記録媒体が使用でき
る装置ユニットとすることができる。
【0068】核酸塩基配列自動決定装置17は、検索キ
ーの遺伝子配列のキーデータを発生し、中央処理装置ユ
ニット11にのキーデータの配列データを入力する。ま
た、核酸塩基配列自動決定装置17は、このシステム構
成によると、GPIBインタフェース(General Purp
ose Interface Bus:IEEE488)を用いて接続
される。核酸塩基自動決定装置17の構成については、
例えば、特開昭61−62843公報などに記載されて
いるものであるので、ここでの詳細な説明は省略する。
このような検索キーとなるキーデータの配列データを発
生する装置としては、核酸塩基配列自動決定装置17の
ほかに、アミノ酸残基配列決定装置や、X線フィルムを
用いて塩基配列を読み取るためのディジタイザやイメー
ジスキャナなどを接続することもできる。また、これに
替えて、キーボードから直接的に検索のキーデータを入
力することが可能なことは言うまでもない。
【0069】通信用モデム13は、リモートの研究機関
の外部データベース15を用いて遺伝子データを検索す
る場合に接続される。通信用モデム13から公衆通信網
のネットワーク14に接続され、ネットワーク14を通
じて各データベース機関に接続される。ここではディジ
タル信号を音響信号に変換して送受するアナログ回線用
モデムを使用しているが、ディジタル回線を用いる場合
には、専用の端末装置を用いることにより接続する。
【0070】次に、演算ユニット16の構成を説明す
る。図2は動的計画法演算ユニットの構成を示すブロッ
ク図である。図2に示すように、動的計画法演算ユニッ
ト16は、演算ユニットの全体を制御するマイクロプロ
セッサ21、その動作プログラムを格納するリードオン
リーメモリのプログラムメモリ(ROM)22、および
転送データを格納するためのワークメモリ(RAM)2
3、メモリの転送データに対して直接メモリアクセス
(DMA)転送を実行するためのDMAコントローラ2
6、中央処理装置部ユニット11とインタフェースする
ためのSCSIコントローラ24、動的計画法の演算を
実行する演算処理部25を含んで構成されている。
【0071】演算処理部25は、動的計画法の演算をハ
ードウェアロジック回路で実行する専用の演算回路部と
なっている。このため、演算処理部25においては、更
に、送り込まれたデータを所定のデータ形式に変換する
第1データ変換部32および第2データ変換部34、演
算処理部におけるタイミングなどの演算制御を行う制御
部31、キーデータを格納するキーメモリ35、ターゲ
ットデータを格納するターゲットメモリ33、動的計画
法の演算のためのスコアを格納するスコアメモリ38、
演算の中間結果の累積値を格納する累積値メモリ37、
演算の中間結果の方向選択データを格納する方向選択メ
モリ36、および動的計画法の基本演算を実行する基本
演算部(DPカーネル)30の処理要素が備えられ、こ
れの処理要素がデータの流れに沿った位置関係に配置さ
れ結線された構成となっている。
【0072】この演算処理部25の回路構成における各
処理要素のデータ幅の構成は、キーメモリ35およびタ
ーゲットメモリ33が32k×8ビット構成であり、ス
コアメモリ38が64k×8ビットの4セット(基本演
算部のDPカーネルが4個の演算LSI構成となってい
る)構成であり、累積値メモリ37が32k×16ビッ
ト構成であり、方向選択メモリ36が32k×4ビット
構成となっている。
【0073】この演算ユニット16は、中央処理装置ユ
ニット11からSCSIインタフェース経由で送られた
動作パラメータとデータを基づいて演算を実行する。演
算パラメータにより、ブロック/シングル,列/行,最
大/最小演算などの動作モード指定と演算実行時の類似
度算出のためのスコア表の設定が行なわれる。ここでの
「ブロック/シングル」の演算モードの指定で、ブロッ
ク演算を指定した場合には、指定した範囲の演算マトリ
クスの各要素を連続的に一括して演算する。また、シン
グル演算を指定した場合、一行または一列ずつ演算を実
行する。「列/行」の指定では、演算マトリクスを列方
向に演算を進めるか行方向に演算を進めるかを指定す
る。また、「最大/最小演算」の指定では、動的計画法
の演算時における漸化式のMAX/MINの指定を行
う。
【0074】演算パラメータの指定データは、マイクロ
プロセッサ21を経由して、演算処理部25の制御部3
1および基本演算部30に設定されて、その演算モード
による演算制御が行なわれる。演算実行時のスコアの値
は、演算開始前にスコアメモリ38に書き込まれ、検索
のキーとなる配列データは、キーメモリ35に書き込ま
れる。また、ターゲットデータの配列データはターゲッ
トメモリ33にそれぞれ書き込まれる。
【0075】動作開始のコマンドが中央処理装置ユニッ
ト11から、演算ユニット16に送られると、マイクロ
プロセッサ21がこれを判定して、演算スタート信号を
制御部31に送出する。制御部31内には、カウンタで
構成された15ビットのアドレス生成回路(図示せず)
が設けられており、キーメモリ35とターゲットメモリ
33に対するアドレスを発生する。これにより、発生さ
れたアドレスに対するデータを順次に読み出される。
「行/列」の指定で演算が列方向のモードに指定されて
いる場合は、列方向でメモリ(この例ではキーメモリ)
のカウンタがカウントアップして行き、指定したアドレ
スまで演算した時点で、行側のメモリ(この例ではター
ゲットメモリ)のアドレスが1インクリメントされる。
また、演算モードの指定が行方向モードとなっている場
合には、前述の説明において、行と列が入れ替わる内容
となる。
【0076】制御部31からのアドレス指定により、キ
ーメモリ35およびターゲットメモリ33から、それぞ
れに読み出されたキーデータとターゲットデータは、各
々8ビットが単純に組み合されて16ビットとされ、ス
コアメモリ38に対するアドレスとして与えられ、スコ
アメモリ38からスコア値が読み出される。読み出され
たスコア値は基本演算部30に加えられる。基本演算部
30では、スコアメモリ38,累算値メモリ37,方向
選択メモリ36からの各データをもとにして動的計画法
の基本演算を実行して、その演算結果を再び累積値メモ
リ37および方向選択メモリ36に格納する。累積値メ
モリ37および方向選択メモリ36は、それぞれ共に2
面構成となっており、シーソー式に演算結果の参照およ
び格納に使用される。演算時にオーバーフローが発生し
た場合は、制御部31にオーバーフロー信号が送られて
演算は中止され、マイクロプロセッサ21に割り込み信
号が入る。シングルモードで動作した場合は、各列(ま
たは行)ごとに演算動作が停止するため、累積値メモリ
の内容など参照しながら、そのデータ書換などが可能と
なっている。
【0077】次に、基本演算部30の構成について説明
する。図3は、基本演算部を構成する演算LSIの回路
構成を示すブロック図である。基本演算部30は4つの
演算LSIにより構成されており、その1つの演算LS
Iの回路構成が図3に示されている。基本演算部30の
4つの演算LSIは、それぞれに演算を行うので、各演
算をパラレルに実行することができる。1つの演算LS
Iは、図3に示すように、累積値レジスタ300〜30
2、加算器303〜305、セレクタ306、比較器3
07、定数レジスタ308〜309、最大値保持レジス
タ310、L側ペナルティレジスタ311、スコアレジ
スタ312、U側ペナルティレジスタ313、モードレ
ジスタ314から構成されている。
【0078】基本演算部30の演算LSIは、入出力ピ
ン数などをできるだけ少なくし、かつ高速に動作させる
ため、累積値データについては、D(i,j−1)のデ
ータのみを外部から入力する構成とする。他のD(i−
1,j−1)およびD(i−1,j)のデータは内部の
転送処理により設定する。すなわち、D(i,j−1)
を格納する累積値レジスタ300のみに外部からそのデ
ータを入力し、このデータは、内部の転送処理により、
次の演算サイクルで用いるD(i−1,j−1)として
も用いる。
【0079】1つ前の位置の演算サイクルで利用され、
累積値レジスタ300に格納されているD(i,j−
1)は内部の転送処理により、次の位置の演算サイクル
で累積値レジスタ301に転送し、D(i−1,j−
1)として用いる。また、残りの1つのD(i−1,
j)についても、前の位置の演算サイクルで最終的に演
算結果として得られたD(i,j)を、次の位置の演算
サイクルにおいて累積値レジスタ302に転送して用い
る。これにより、行方向に進む各々の位置の演算サイク
ルで、累積値レジスタ300,301,302にはそれ
ぞれD(i,j−1),D(i−1,j−1),D(i
−1,j)が順次に設定される。
【0080】セレクタ306は、各パスにおけるスコア
の値を計算した各加算器303〜305からの演算結果
と、定数レジスタ308からのデータとが入力される
と、その中から最大のものを選択して出力する。この定
数レジスタ308は、後述するように累積値の足切り用
として用いられる。比較器307は、セレクタ306か
ら出力される累積値の最大のものと、定数レジスタ30
9に設定されたデータとを比較して、比較結果が一致ま
たは累積値のデータが大きい場合に、外部に演算打ち切
り信号を出力する。この信号は、後述するように、動的
計画法の演算実行時に任意の累積値において、演算を停
止させる機能を持たせる場合に有効に利用できる。
【0081】また、ここでは最大値保持レジスタ310
が設けられており、最大値保持レジスタ310は、常に
セレクタ306からの出力されるデータと保持中のデー
タとの比較を行い、大きいほうのデータを再格納する。
これにより、最大値保持レジスタ310は、リセットさ
れるまで、これまでにセレクタ306から出力されたデ
ータの中で最大ものが格納されている状態となってい
る。
【0082】スコアレジスタ312は、配列データの各
々の要素同士の一致または置換に関するスコア値をスコ
ア表に基づいて外部から入力する。L側ペナルティレジ
スタ311およびU側ペナルティレジスタ313は、挿
入欠失による減点するスコアを設定するレジスタであ
る。遺伝子データの類似度の評価を行う場合、そのスコ
アの値は、挿入欠失が初めて発生した場合、大きく減点
し(この例では−6点を減点する)、挿入欠失が連続し
て2つ以上発生した場合ついては、次の挿入欠失からは
挿入欠失が1個増加するごとに少なく減点する(この例
では次回以降は−4点を減点する)。このため、挿入欠
失のスコア値として2つの値を保持できるように構成さ
れている。挿入欠失の最初であるか否かのデータを方向
選択メモリ(36:図2)のデータから得て、その値を
切り変えて用いる。すなわち、L側ペナルティレジスタ
311およびU側ペナルティレジスタ313における減
点スコア値の切り替えは、前の列(または行)における
演算で求められた方向選択データを用いて行う。
【0083】ブロック演算時は、カスケード接続された
次の演算LSIに、演算結果のデータ(セレクタ306
から出力される累積値データおよび選択パスを指示する
方向選択データ)を送り、そして最終的に得られた結果
(シングル演算時は第1の演算LSIの出力)は、累積
値データが累積値メモリ37に格納され、選択したパス
を指示する方向選択データが方向選択メモリ36に格納
される。
【0084】なお、ここでの実施例の基本演算部30に
おいては、すべて最大値を選択する動作で説明している
が、モードレジスタ314の設定を変えることによっ
て、比較器307,セレクタ306,および最大値保持
レジスタの動作をすべて最小値を選択するように切り変
えることもできる。これにより、動的計画法の演算を累
積値の最小値により最適パスを求める演算とすることが
できる。ここでの基本演算部30の回路構成は、ハード
ウェアロジック回路で構成され、LSI化されており、
50ns程度の演算速度で動的計画法の1基本演算(演
算マトリクスの配列要素の演算)を実行できる。更に、
総合的な実行速度を向上させるためには、回路構成上で
は各々の基本演算の演算LSIのパイプライン化を行
い、また、高速半導体デバイスを用いてLSIを構成す
ることにより、更に演算速度を高速化することができ
る。
【0085】次に、上述のような動的計画法演算ユニッ
トの演算制御により実行される遺伝子データの相同性検
索の演算処理の流れを説明する。この演算処理は、中央
処理装置ユニット11が動的計画法演算ユニット16に
対する演算制御を行って実行する。図4は、遺伝子デー
タベース検索システムの中央処理装置ユニットにおける
演算制御の処理フローを説明するフローチャートであ
る。通常の使用における全体の動作例を、図4を用いて
説明する。全体的な処理の流れとしては、初期データ設
定段階のキーデータの設定(ステップ41)、第1段階
の各ターゲットデータに対する類似度の算出(ステップ
42)、第2段階の類似度の分類による対象の配列デー
タの絞り込み(ステップ43)、第3段階の絞り込んだ
配列データに対する最適並置の算出(ステップ44)の
処理となる。各々の段階の演算制御は、中央処理装置ユ
ニットにおける第1演算制御部、第2演算制御部、およ
び第3演算制御部がそれぞれに行う。
【0086】まず、第1演算制御部による第1段階にお
けるターゲットデータに対する類似度の演算実行につい
て説明する。第1段階の処理では、演算ユニット16の
動作モードの設定、スコアメモリのスコア表の設定、各
ターゲットデータに対する累積値の最大値の算出を行
う。
【0087】演算モードの設定では、演算ユニット16
をブロック演算モードに設定する。このブロック演算モ
ードでは、与えられたキーデータとターゲットデータに
対して次の列(または次の行)の演算に必要な中間デー
タのみ演算ユニット16内の記憶エリアに残し、中央処
理装置ユニット11の側には中間的なデータを渡さない
で連続的に演算を行う。このような設定とすることによ
り、演算ユニット16は中央処理装置ユニット11と独
立して連続して演算動作を進められる。
【0088】また、キーデータとターゲットデータの配
列要素の先行する不一致部分によって累積値が大きく低
下し、後に発生する一致部分での累積値を低下させてし
まうことが無いように、ここでは、例えばスコア値が負
の累積値になった場合には、累積値を“0”に置換す
る。そのため、基本演算部30の定数レジスタ308に
は、その定数値として足切り値“0”を設定する。この
定数レジスタ308には、演算条件によって任意の値を
設定することができる。
【0089】次に、スコアメモリにスコア表の設定を行
う。スコア表の設定は、検索する条件として抽出する候
補に対応して、スコア値を任意に設定できる。ここで用
いるスコア値は、例えば、図8で説明したようなスコア
表が原則として用いられる。しかし、このスコア表で
は、不明な塩基コードを表す“N”と、明確に判明して
いる塩基コードの“A”,“C”,“G”,“T”との
組み合わせに、2点のスコア値がついている。このた
め、例えば、核酸塩基配列自動決定装置などから読み取
られた配列データがそのまま遺伝子データベースに登録
されている場合のように、300以上の“N”の配列が
生じたままデータベースに登録されているものがあるの
で、検索の条件によって、キーデータの長さが同程度で
ある場合は、ノイズとして検索されることが多い。その
ため、ここで用いるスコアテーブルでは、図5aに示す
ように、ターゲット側の不明の塩基コード“N”に対す
る組み合わせの部分のみ、スコア値を“0”として非対
称な形式にして、これにより、不明な塩基“N”の長い
配列を持つノイズを防ぐようにしている。
【0090】スコア表の設定に続く次の処理は、キーデ
ータとターゲットデータの送り込みである。キーデータ
は、前述の通り、核酸塩基配列自動決定装置17などか
ら入力される配列データや、別の実験などで得られた結
果から推定される配列データなどである。ターゲットデ
ータは、中央処理装置ユニット11が遺伝子データベー
スとしての外部記憶媒体12から、または通信用モデム
13,ネットワーク14を介して外部データベースシス
テム15から順次に読み出して、動的計画法演算ユニッ
ト16に順次に送る。動的計画法演算ユニット16に送
られたキーデータおよびターゲットデータは、それぞれ
マイクロプロセッサ21の管理下において第2データ変
換部34および第1データ変換部32を経由して、キー
メモリ35とターゲットメモリ33に書き込まれる。
【0091】第1データ変換部32および第2データ変
換部34では、遺伝子データベースからの各種表現形式
のデータを内部処理用のフォーマットに合わせるための
データ変換を行う。ここでのデータ変換方法は、予じめ
変換前のデータに対応するメモリアドレスに変換後のデ
ータを書き込んでおき、そのメモリをアクセスすること
によって行っている。また、例えば、中央処理装置ユニ
ット11より所定形式にパッキングしたデータとして送
り込み、このデータ変換部において元の形式のデータフ
ォーマットに戻すようにも構成できる。この場合には、
SCSIバスによる転送レートを等価的に向上させるこ
とができる。
【0092】次に、演算ユニット16に対して、演算実
行開始コマンドを送ることにより、演算を開始する。演
算ユニット16においては、マイクロプロセッサ21が
制御部31に対して動作開始信号を送る。演算が開始さ
れると、演算ユニット16と中央処理装置ユニット11
との間のSCSIバスは、解放状態となる。SCSIバ
スが解放状態となると、中央処理装置ユニット11は、
外部記憶媒体12のアクセス処理より次のターゲットデ
ータの読み取りを開始する。一方、演算ユニット16の
マイクロプロセッサ21は、演算が終了すると、SCS
Iバスの状態をモニタし、非使用状態であることを確認
して、中央処理装置ユニット11に対して演算の終了を
知らせるサービスコールを発行する。
【0093】中央処理装置ユニット11では、外部記憶
媒体12のアクセス処理により、ターゲットデータの読
み出しが終了しだい、次に、演算ユニット16をアクセ
スして、演算された結果の累積値の最大値(最大値保持
レジスタ310に格納されてるデータ)を読み取って保
存する。その後、次の新規のターゲットデータを演算ユ
ニット16に送り込んで、同様に演算を実行させる。こ
の演算を外部記憶媒体12の遺伝子データベースに該当
のターゲットデータがなくなるまで繰り返す。これによ
り、第1段階の演算制御の終了時点では、遺伝子データ
ベースにエントリしている全てのデータに対応して、そ
の累積値の最大値が保存されている状態となる。また、
新規のキーデータに対して相同性検索を行う場合は、こ
の結果を遺伝子データベースの検索範囲の条件と併せて
記憶しておくことにより、次回のデータ検索時の検索範
囲を限定して効率を向上させ、また、登録したデータや
所有するデータの類似度によるグルーピングなどが容易
に行える。
【0094】次に、第2演算制御部による第2段階の絞
り込みの処理について説明する。抽出する対象となる候
補の絞り込みでは、第1段階で得られた各々のターゲッ
トデータに対応する類似度の最大値を分類し、類似度の
高い順に並べて表示する。この表示の後、ユーザーから
指示を受けて、最適並置を求めるデータベース側の配列
データ(ターゲットデータ)の条件の指定を行う。
【0095】更に、次の第3演算制御部による第3段階
の処理について説明する。第3段階の処理においては、
第2段階の処理において、その最大累積値の順位に応じ
て絞り込んだターゲットデータに対し、そのターゲット
データを1つずつ(遺伝子データベースから読み出し
て)演算ユニット16に送って、動的計画法の演算を再
実行し、対象となる配列データをターゲットデータとし
て、ターゲットデータとキーデータとの類似度の演算を
行って、該演算時に発生する各ターゲットデータの配列
データに対する累積値を保存する演算を行い、演算中に
おいて生成される方向選択データを取得し、バックトレ
ースを行い、前記キーデータの配列データに対する配列
データの最適並置を得る。
【0096】また、この配列データの最適並置を得る演
算では、先に求められている当該ターゲットデータの最
大累積値を用いて、例えば、次のような演算方法を行っ
ても良い。まず、演算ユニット16に対して演算モード
をシングルに設定し、1列または1行毎に演算結果の累
積値データと方向選択データを中央処理装置ユニット1
1の側に読み出し、全体の累積値データの行列および方
向選択データの行列を中央処理装置部内のメモリ上に展
開する。そして、累積値データの最大値の座標を求め、
そこから方向選択データを基にして、バックトレースを
行うようにしても良い。ただし、この方法では、大型の
配列データのキーデータとターゲットデータの組み合わ
せの場合、それぞれ配列データの長さをM、Nとすると
M×Nの配列のメモリ領域が、累積値データ用と方向選
択データ用に必要となるため、演算ユニット16内かま
たは中央処理装置ユニット11に大きなメモリエリアを
確保する必要がある。
【0097】このため、この実施例では、次のような方
法をとる。まず、動的計画法演算の基本演算部(DPカ
ーネル)30には、第1段階の演算と同様に、ブロック
演算モードの設定を行う。そして、演算打ち切りのため
の定数を定数レジスタ309に設定する。定数レジスタ
309に演算打ち切りの定数が設定された場合、比較器
307において常に、この定数がセレクタ306からの
累積値と比較されて、同じかまたは超えたときに、演算
停止信号を制御部31に送られ、強制的に計算が停止さ
せられる。したがって、ここでは、この演算打ち切りの
定数に、第1段階で求めた各ターゲットデータに対する
累積値の最大値を設定する。続いて、スコア表の設定値
を元に戻す処理を行う。なお、ここでスコアメモリのス
コア表に設定するスコア値は、図8に示したようなもの
に戻す。第1段階の演算で用いたスコア表のスコア値が
非対称に変更された図5aに示したようなものである場
合は、この段階において元に戻す。これは、相同性検索
の候補として絞り込まれた配列には“N”が連続するよ
うなノイズが含まれていないためである。
【0098】次に、第2段階で絞り込まれたターゲット
データの最初のものを設定して、第3段階の演算で、再
度の類似度を求める計算を実行する。ここでの演算で
は、キーデータについては、第1段階から同じものを対
象としているため再設定する必要はない。演算ユニット
16においては、第1段階の演算時と同様に演算を実行
するが、ここでは演算打ち切り定数として該当するター
ゲットデータに対する累積値の最大が設定されているた
め、最大値と一致する列(または行)において演算が終
了する。
【0099】演算の終了と同時に、マイクロプロセッサ
21に対して割り込み信号を発行する。割り込みを受け
たマイクロプロセッサ21は、累積値メモリ37に残っ
ている最終の列(または行)のデータを参照して、演算
マトリクスの最大累積値の存在する位置を求める。これ
により、部分最適並置の最終ポイントが求められたこと
になる。更に、方向選択データを方向選択メモリ36か
ら取得して、その位置からバックトレースを行う。この
ようにして求められた演算マトリクスの累積値データと
その方向選択データの具体例を図5bに示す。図5bに
おいては、破線が選択されたルートのパスを示してお
り、部分最適並置の位置から、方向選択データにより選
択パスをバックトレースして最適並置を求める。このバ
ックトレースのパスを図5bでは実線の矢印線で示して
いる。この結果、最適部分並置がキーデータの配列「A
GCTAGC」に対して、ターゲットデータの配列「A
GC−AGC」として求められる。
【0100】この方法により最適並置を求める場合は、
部分最適並置の最終ポイントが求められた位置から演算
範囲を狭めながら方向選択データを逆に辿って取得し、
定数レジスタ308に設定された足切り値に置換される
位置までの部分的な最適並置を求めることになる。全体
の最適並置を求める場合でも、同様に演算マトリクスの
最終ポイントから同様にバックトレースをすればよい。
この方法によれば、決定される方向選択データのみを記
憶すれば良いので、それぞれの配列の長い方の配列数だ
けのメモリを容量を設けるだけで十分である。
【0101】また、この実施例においては、1列(また
は1行)ごとにバックトレースをかけているが、ブロッ
ク演算する範囲を1列よりも大きな列数nで減少させて
演算し、残るn列の演算をシングルモードに設定して、
図9に示すように、一列ずつ概ね対角方向に沿った領域
の累積値と方向選択データを取得するようにしても良
い。これにより、必要メモリ量と実行時間のとバランス
をとって演算を実行することもできる。
【0102】次に、演算ユニット16における演算処理
部25を演算ボードとして、ワークステーション(中央
処理装置ユニット)の内部バスに直接に接続する場合の
別の実施例について説明する。図6は、動的計画法の演
算を行う演算部を内部バスに直接接続するタイプの演算
ボードの構成を中心に示すブロック図である。図6にお
いては、前述した図2の説明で参照した共通の同じ処理
要素のブロックについては、同一の参照番号を付与して
示している。この内部バスに接続するタイプの実施例で
は、演算処理ボード65のデータ転送は内部バスを介し
て直接に実行できるので、SCSIバスにより接続する
インタフェース処理のためのマイクロプロセッサ,DM
Aコントローラ、ROM、RAM、SCSIコントロー
ラなどが不要となる。
【0103】このような演算処理部(演算処理ボード6
5)に対するデータ入出力のデータ転送にかかる処理
は、中央処理装置ユニットの本体部分を構成する中央処
理装置部61のCPU,ROM,RAMの処理要素で行
う。すなわち、演算ユニットにおける演算処理部25
は、ここでは、そのまま演算処理ボード65として、ワ
ークステーション(中央処理装置ユニット)の内部バス
に直接に接続される構成なので、容易に、中央処理装置
ユニットの本体部分のCPUからキーやターゲットメモ
リなどをアクセスすることが可能となる。
【0104】動的計画法の演算の実行時は、前述の実施
例と同様に、キーメモリ,ターゲットメモリ,スコアメ
モリなどの各メモリは、本体部分のCPUの内部バスか
ら切り放された状態で動作するため、次のターゲットデ
ータの読み取り処理は同時に並行して実行可能である。
内部バスに直接に接続するタイプでは、データ転送のビ
ット幅がたとえば32ビットなどに容易に大きくとるこ
とができ、演算処理ボード65に対するデータ転送速度
を向上させられる。また、オンボードタイプとなるため
に省スペース化が可能である。
【0105】このように、本実施例による専用の演算処
理部を設けることによるホモロジー検索の演算時間の短
縮の具体例を説明すると、図3で説明したような基本演
算部を構成する演算LSI(4個)のDPカーネルを搭
載した演算処理ボードをパソコンに実装し、キーデータ
長が250でGenBankの約7万件のエントリを検
索した結果は、約15分の演算時間であった。この時間
は、CD−ROMなどのデータベースアクセスなどを含
めたトータルの時間である。したがって、従来のワーク
ステーション上において10数時間から20時間を要し
た演算時間が、本実施例による演算処理部を用いること
により、約60分の1程度に短縮されたことになる。
【0106】以上説明したように、本実施例の遺伝子デ
ータベース検索システムによれば、システムの基本構成
として、遺伝子データベース,動的計画法演算ユニッ
ト,および中央処理装置ユニットを備えており、中央処
理装置ユニットが、遺伝子データベースおよび動的計画
法演算ユニットとを制御し、遺伝子データベースに対す
るアクセス処理と、動的計画法演算ユニットに遺伝子デ
ータベースからの塩基配列データをターゲットデータと
して動的計画法演算ユニットに順次に入力して類似度を
求める演算処理とを並行して動作させる。このため、動
的計画法を演算するための専用演算ユニットの動的計画
法演算ユニットにより、高速に動的計画法の演算を実行
できると共に、この演算動作と、中央処理装置ユニット
との動作を並行させて行うことができる。例えば、動的
計画法演算ユニットによるターゲットデータに対する類
似度の演算中に、中央処理装置ユニットが次のターゲッ
トデータに対する遺伝子データベースのアクセス処理を
行える。このため、全体として、高いスループットで遺
伝子データベースに対する相同性検索でのデータ検索が
行える。
【0107】動的計画法演算ユニットにより動的計画法
の演算を行う場合、第1段階で、キーデータに対して、
ターゲットデータを順次に変えて、ターゲットデータと
キーデータとの類似度の演算を行い、該演算時に発生す
る各ターゲットデータの配列データに対する最大累積値
のみを保存し、次の第2段階で、前の第1段階で求めら
れた各ターゲットデータの配列データに対する最大累積
値を分類し、抽出する対象となる配列データの順位を決
定する。そして、第3段階で、抽出する対象となる配列
データの順位に応じて、該対象となる配列データをター
ゲットデータとし、ターゲットデータとキーデータとの
類似度の再演算を行って、該演算時に発生するターゲッ
トデータの配列データに対する累積値を保存する演算を
行い、演算中において生成される方向選択データを取得
し、キーデータの配列データに対する配列データの最適
並置を得ることができる。これにより、効率よく動的計
画法の演算を行い、更に効果的にターゲットデータを絞
り込んで、更に能率よくその配列データの最適並置を得
ることができる。
【0108】また、動的計画法演算ユニットの側にはデ
ータ変換の機能を備えているため、種々のデータベース
のデータ表現形式でデータが送られてきても、容易に対
応して処理を実行できる。
【0109】
【発明の効果】以上に説明したように、本発明の遺伝子
データベース検索システムによれば、遺伝子データベー
スに対するデータ検索を行う場合、対象のキーデータに
対するターゲットデータとの間の類似度を専用の演算部
ユニットの動的計画法演算ユニットを用いて高速処理で
求め、動的計画法をすべての演算に適用しながら抽出す
る候補の対象を絞り込むことができる。このため、従来
の方法によって発生していた絞り込み時の検索漏れを無
くしながら高速に演算することができる。また、従来の
アルゴリズムを変更した計算方法と同程度の実用的な処
理時間で高精度な検索(相同性検索)を行うことができ
【図面の簡単な説明】
【図1】図1は本発明の一実施例にかかる遺伝子データ
ベース検索システムの全体の装置構成を説明するブロッ
ク図、
【図2】図2は動的計画法演算ユニットの構成を示すブ
ロック図、
【図3】図3は基本演算部を構成する要素となる演算L
SIの回路構成を示すブロック図、
【図4】図4は遺伝子データベース検索システムにおけ
る中央処理装置ユニットの演算制御の処理フローを説明
するフローチャート、
【図5】図5は演算実行時の各メモリの内容を示す図で
あり、図5aはターゲット側の“N”に対するスコア値
を“0”に変更した非対称のスコアメモリのスコア表を
示す図であり、図5bは演算結果の累算値メモリおよび
方向選択メモリのデータを示す図である。
【図6】図6は動的計画法演算の演算部を内部バスに直
接接続するタイプの演算処理ボードの構成を中心に示す
ブロック図、
【図7】図7は動的計画法の手法による類似度算出の演
算方法の原理を説明する図であり、図7aは動的計画法
の全体の演算フローの説明図であり、図7bは動的計画
法の基本演算セルの演算原理を説明する図である。
【図8】図8は動的計画法を用いて遺伝子データベース
検索を行う場合の類似度を求めるスコア表の一例を示す
図、
【図9】図9は簡略化手法により変更されたアルゴリズ
ムによる動的計画法の演算方法を説明する図、
【図10】図10は遺伝子データベース検索システムの
基本のシステム構成を示すブロック図である。
【符号の説明】
11…中央処理装置ユニット(ワークステーション)、 12…外部記憶媒体装置ユニット、 13…通信用モデム、 14…公衆通信網のネットワーク、 15…外部データベースシステム、 16…動的計画法演算ユニット、 17…核酸塩基配列自動決定装置、 21…マイクロプロセッサ、 22…プログラムメモリ(ROM)、 23…ワークメモリ(RAM)、 24…SCSIコントローラ、 25…演算処理部、 26…DMAコントローラ、 30…基本演算部、 31…制御部、 32…第1データ変換部、 33…ターゲットメモリ、 34…第2データ変換部、 35…キーメモリ、 36…方向選択メモリ 37…累積値メモリ、 38…スコアメモリ、 65…演算処理ボード、 300〜302…累積値レジスタ、 303〜305…加算器、 306…セレクタ、 307…比較器、 308〜309…定数レジスタ、 310…最大値保持レジスタ、 311…L側ペナルティレジスタ、 312…スコアレジスタ、 313…U側ペナルティレジスタ、 314…モードレジスタ, 101…ワークステーション、 102…外部記憶装置、 103…モデム、 104…ネットワーク、 105…研究機関のデータベース
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山元 真一郎 千葉県茂原市早野3681番地 日立デバイス エンジニアリング株式会社内 (72)発明者 丸 典生 千葉県茂原市早野3681番地 日立デバイス エンジニアリング株式会社内 (72)発明者 岡山 利次 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウェアエンジニアリング株式会 社内 (72)発明者 奈須 永典 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウェアエンジニアリング株式会 社内

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 構造が解析された遺伝子の少なくとも核
    酸塩基配列および蛋白質のアミノ酸残基のいずれかの配
    列データを蓄積する遺伝子データベースと、 遺伝子データベースからの塩基配列データをターゲット
    データとし、検索キーとなる塩基配列データをキーデー
    タとして、ターゲットデータとキーデータとの類似度を
    求める動的計画法演算ユニットと、 遺伝子データベースと動的計画法演算ユニットを制御
    し、遺伝子データベースに対するアクセス処理と、遺伝
    子データベースからの塩基配列データをターゲットデー
    タとして動的計画法演算ユニットに順次に入力して類似
    度を求める演算処理とを並行して動作させる中央処理装
    置ユニットとを備えることを特徴とする遺伝子データベ
    ース検索システム。
  2. 【請求項2】 請求項1に記載の遺伝子データベース検
    索システムにおいて、動的計画法演算ユニットに対する
    制御を行う中央処理装置ユニットは、 キーデータに対して、ターゲットデータを順次に変え
    て、ターゲットデータとキーデータとの類似度の演算を
    実行させ、該演算時に発生する各ターゲットデータの配
    列データに対する累積値を得て、最大累積値のみを保存
    する第1演算制御手段と、 前記第1演算制御手段で求められた各ターゲットデータ
    の配列データに対する最大累積値を分類し、抽出する対
    象となる配列データの順位を決定する第2演算制御手段
    と、 抽出する対象となる配列データの順位に応じて、該対象
    となる配列データをターゲットデータとし、ターゲット
    データとキーデータとの類似度の再演算を行い、該演算
    時に発生するターゲットデータの配列データに対する累
    積値を保存する演算を行い、演算中において生成される
    方向選択データを取得して、前記キーデータに対する配
    列データの最適並置を得る第3演算制御手段とを備える
    ことを特徴とする遺伝子データベース検索システム。
  3. 【請求項3】 請求項1に記載の遺伝子データベース検
    索システムにおいて、前記動的計画法演算ユニットは、 検索キーとなる塩基配列データのキーデータを格納する
    キーメモリと、 遺伝子データベースからの配列データのターゲットデー
    タを格納するターゲットメモリと、 塩基配列データの個々の塩基要素間の類似度を定義した
    スコアメモリと、 動的計画法の基本演算を実行する基本演算処理部と、 基本演算処理部による基本演算実行時に発生する局所的
    な最適値の選択方向を記録する方向選択メモリと、 動的計画法の演算の累積値を記憶する累積値メモリと、 前記メモリおよび演算処理部を制御して動的計画法の演
    算制御を行う制御部とを備えていることを特徴とする遺
    伝子データベース検索システム。
  4. 【請求項4】 請求項2に記載の遺伝子データベース検
    索システムにおいて、動的計画法演算ユニットは、類似
    度のスコア値を格納する書き換え可能なスコアメモリを
    備えており、 中央処理装置ユニットは、該スコアメモリに類似度のス
    コア値を格納して、前記第1演算制御手段による演算制
    御処理を終了した後、該スコア値の一部または全てを変
    更して、第3演制御手段による演算制御処理を実行する
    ことを特徴とする遺伝子データベース検索システム。
  5. 【請求項5】 請求項2に記載の遺伝子データベース検
    索システムにおいて、動的計画法演算ユニットは、類似
    度のスコア値を格納する書き換え可能なスコアメモリを
    備え、キーデータ側の配列要素に応じて、該スコアメモ
    リにスコア値を配列要素のマトリクス構成の非対称な形
    式で保有し、中央処理装置ユニットは、前記スコアメモ
    リのスコア値を用いて、第1演算制御手段または第3演
    算制御手段の演算制御を行うことを特徴とする遺伝子デ
    ータベース検索システム。
  6. 【請求項6】 請求項1に記載の遺伝子データベース検
    索システムにおいて、動的計画法演算ユニットは、デー
    タ形式を所定形式に変換するデータ変換部を備えてお
    り、 遺伝子データベースに蓄積されている配列データが圧縮
    または変形されたものであり、 前記中央処理装置ユニットは、遺伝子データベースの配
    列データをそのままの形式で読み出し、動的計画法演算
    ユニットに送り、 動的計画法演算ユニットの側でデータ変換部により所定
    形式に変換して、動的計画法の演算を実行することを特
    徴とする遺伝子データベース検索システム。
  7. 【請求項7】 請求項1に記載の遺伝子データベース検
    索システムにおいて、動的計画法演算ユニットは、デー
    タ形式を所定形式に変換するデータ変換部を備えてお
    り、 遺伝子データベースから読み出した配列データは、中央
    処理装置ユニットにおいて圧縮または変形して、動的計
    画法演算ユニットに送り、 動的計画法演算ユニットの側でデータ変換部により所定
    形式に変換して、動的計画法の演算を実行することを特
    徴とする遺伝子データベース検索システム。
  8. 【請求項8】 請求項2に記載の遺伝子データベース検
    索システムにおいて、第3演算制御手段は、 予め指定のキー長およびターゲット長に達するまで一列
    ごとに演算を実行し、 該一列ごとに累積値の最大値を取得し、前記第1演算制
    御手段による演算で求めてある最大累積値と一致する列
    が求まったところで演算を中断し、 該列の累積値メモリの内容と方向選択データを取得し、 該累積値メモリの中から前記累積値の最大値の位置を求
    め、 該位置に相当する方向選択データを取得し、 該方向選択データに基づき少なくとも該位置と同じか1
    つ以上の範囲において動的計画法演算を再度実施しなが
    ら方向選択データを取得する演算制御を行うことを特徴
    とする遺伝子データベース検索システム。
  9. 【請求項9】 請求項2に記載の遺伝子データベース検
    索システムにおいて、第3演算制御手段は、 予め指定のキー長およびターゲット長に達するまで一行
    ごとに演算を実行し、 該一行ごとに累積値の最大値を取得し、前記第1演算制
    御手段による演算で求めてある最大累積値と一致する行
    が求まったところで演算を中断し、 該行の累積値メモリの内容と方向選択データを取得し、 該累積値メモリの中から前記累積値の最大値の位置を求
    め、 該位置に相当する方向選択データを取得し、 該方向選択データに基づき少なくとも該位置と同じか1
    つ以上の範囲において動的計画法演算を再度実施しなが
    ら方向選択データを取得する演算制御を行うことを特徴
    とする遺伝子データベース検索システム。
  10. 【請求項10】 請求項1に記載の遺伝子データベース
    検索システムにおいて、更に、検索キーの塩基配列デー
    タを出力する遺伝子配列決定装置を備え、 前記遺伝子配列決定装置から出力された塩基配列データ
    をキーデータとして前記動的計画法演算ユニットに入力
    することを特徴とする遺伝子データベース検索システ
    ム。
  11. 【請求項11】 請求項1に記載の遺伝子データベース
    検索システムにおいて、中央処理装置ユニットによる遺
    伝子データベースのアクセス処理と、動的計画法演算ユ
    ニットの演算処理とを、少なくとも一部の時間同時並行
    的に動作させ、該動的計画法演算ユニットの演算実行中
    に、中央処理装置ユニットが遺伝子データベースから次
    のターゲットデータの読み出しを先行して行うことを特
    徴とする遺伝子データベース検索システム。
  12. 【請求項12】 請求項3に記載の遺伝子データベース
    検索システムにおいて、前記動的計画法演算ユニット
    は、更に、 動的計画法演算の累積値と比較する定数値を格納する定
    数レジスタと、 該定数レジスタの定数値に対して累積値が所定の関係と
    なった場合に、該定数値と累積値を置き換える演算要素
    とを有することを特徴とする遺伝子データベース検索シ
    ステム。
  13. 【請求項13】 請求項3に記載の遺伝子データベース
    検索システムにおいて、前記動的計画法演算ユニット
    は、更に、 動的計画法演算の演算結果の累積値と比較する定数値を
    格納する定数レジスタと、 該定数レジスタの定数値に対して演算結果の累積値が所
    定の関係となった場合に演算を停止させる信号を生成す
    る演算要素とを有することを特徴とする遺伝子データベ
    ース検索システム。
JP5260403A 1993-09-27 1993-09-27 遺伝子データベース検索システム Pending JPH0793370A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP5260403A JPH0793370A (ja) 1993-09-27 1993-09-27 遺伝子データベース検索システム
US08/312,689 US5706498A (en) 1993-09-27 1994-09-26 Gene database retrieval system where a key sequence is compared to database sequences by a dynamic programming device
EP94115216A EP0646883A1 (en) 1993-09-27 1994-09-27 Gene database retrieval system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5260403A JPH0793370A (ja) 1993-09-27 1993-09-27 遺伝子データベース検索システム

Publications (1)

Publication Number Publication Date
JPH0793370A true JPH0793370A (ja) 1995-04-07

Family

ID=17347434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5260403A Pending JPH0793370A (ja) 1993-09-27 1993-09-27 遺伝子データベース検索システム

Country Status (3)

Country Link
US (1) US5706498A (ja)
EP (1) EP0646883A1 (ja)
JP (1) JPH0793370A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH105000A (ja) * 1996-06-27 1998-01-13 Hitachi Ltd Dnaアミノ酸配列比較方法
WO1999041362A1 (fr) * 1998-02-10 1999-08-19 Toyo Kohan Co., Ltd. Appareil pour preparation de genotheque immobilisee, appareil pour amplification de gene, procede de regulation de temperature et procede de comparaison systematique des genes
KR20030008384A (ko) * 2001-07-18 2003-01-29 이경호 인터넷을 이용한 무연고묘의 가족 검색시스템
KR20030072863A (ko) * 2002-03-07 2003-09-19 주식회사 마크로젠 온라인망을 기반으로 하는 유전자 의료정보 통합 관리 방법
KR100481878B1 (ko) * 2000-07-19 2005-04-11 주식회사 바이오그랜드 혈연관계 검색 시스템 및 검색 방법
WO2008108297A1 (ja) 2007-03-02 2008-09-12 Research Organization Of Information And Systems 相同性検索システム
JP2012032975A (ja) * 2010-07-30 2012-02-16 Hitachi Ltd 最適アラインメント計算装置及びプログラム
JP2012059100A (ja) * 2010-09-10 2012-03-22 Hitachi Ltd 局所対応抽出装置及び局所対応抽出方法

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1223831A (en) 1982-06-23 1987-07-07 Dean Engelhardt Modified nucleotides, methods of preparing and utilizing and compositions containing the same
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
US6537773B1 (en) 1995-06-07 2003-03-25 The Institute For Genomic Research Nucleotide sequence of the mycoplasma genitalium genome, fragments thereof, and uses thereof
US5799301A (en) * 1995-08-10 1998-08-25 International Business Machines Corporation Apparatus and method for performing adaptive similarity searching in a sequence database
US5972693A (en) * 1995-10-24 1999-10-26 Curagen Corporation Apparatus for identifying, classifying, or quantifying DNA sequences in a sample without sequencing
US6418382B2 (en) 1995-10-24 2002-07-09 Curagen Corporation Method and apparatus for identifying, classifying, or quantifying DNA sequences in a sample without sequencing
US5871697A (en) 1995-10-24 1999-02-16 Curagen Corporation Method and apparatus for identifying, classifying, or quantifying DNA sequences in a sample without sequencing
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
US6023659A (en) * 1996-10-10 2000-02-08 Incyte Pharmaceuticals, Inc. Database system employing protein function hierarchies for viewing biomolecular sequence data
US6189013B1 (en) 1996-12-12 2001-02-13 Incyte Genomics, Inc. Project-based full length biomolecular sequence database
US5953727A (en) * 1996-10-10 1999-09-14 Incyte Pharmaceuticals, Inc. Project-based full-length biomolecular sequence database
US5873052A (en) * 1996-11-06 1999-02-16 The Perkin-Elmer Corporation Alignment-based similarity scoring methods for quantifying the differences between related biopolymer sequences
US5970500A (en) * 1996-12-12 1999-10-19 Incyte Pharmaceuticals, Inc. Database and system for determining, storing and displaying gene locus information
US6519583B1 (en) 1997-05-15 2003-02-11 Incyte Pharmaceuticals, Inc. Graphical viewer for biomolecular sequence data
US5966712A (en) * 1996-12-12 1999-10-12 Incyte Pharmaceuticals, Inc. Database and system for storing, comparing and displaying genomic information
US6553317B1 (en) * 1997-03-05 2003-04-22 Incyte Pharmaceuticals, Inc. Relational database and system for storing information relating to biomolecular sequences and reagents
US5966711A (en) * 1997-04-15 1999-10-12 Alpha Gene, Inc. Autonomous intelligent agents for the annotation of genomic databases
AUPO680897A0 (en) * 1997-05-15 1997-06-05 Macquarie Research Limited Constitutional analysis of protein domains
US6611828B1 (en) 1997-05-15 2003-08-26 Incyte Genomics, Inc. Graphical viewer for biomolecular sequence data
DE19745665C1 (de) * 1997-10-17 1999-05-12 Deutsches Krebsforsch Verfahren zur Eingruppierung von Sequenzen in Familien
US6223175B1 (en) * 1997-10-17 2001-04-24 California Institute Of Technology Method and apparatus for high-speed approximate sub-string searches
US6408308B1 (en) * 1998-01-29 2002-06-18 Incyte Pharmaceuticals, Inc. System and method for generating, analyzing and storing normalized expression datasets from raw expression datasets derived from microarray includes nucleic acid probe sequences
US6223186B1 (en) * 1998-05-04 2001-04-24 Incyte Pharmaceuticals, Inc. System and method for a precompiled database for biomolecular sequence information
US6112288A (en) * 1998-05-19 2000-08-29 Paracel, Inc. Dynamic configurable system of parallel modules comprising chain of chips comprising parallel pipeline chain of processors with master controller feeding command and data
US7769620B1 (en) 1998-09-01 2010-08-03 Dennis Fernandez Adaptive direct transaction for networked client group
CN1110761C (zh) * 1998-10-30 2003-06-04 国际商业机器公司 用于完成序列同源性检测的方法和装置
US6282570B1 (en) 1998-12-07 2001-08-28 International Business Machines Corporation Monitoring a large parallel database through dynamic grouping and sequential sampling
US6556984B1 (en) 1999-01-19 2003-04-29 International Business Machines Corporation Hierarchical string matching using multi-path dynamic programming
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US6507788B1 (en) 1999-02-25 2003-01-14 Société de Conseils de Recherches et D'Applications Scientifiques (S.C.R.A.S.) Rational selection of putative peptides from identified nucleotide, or peptide sequences, of unknown function
AU774662B2 (en) 1999-04-20 2004-07-01 Target Discovery, Inc. Polypeptide fingerprinting methods, metabolic profiling, and bioinformatics database
US6941317B1 (en) 1999-09-14 2005-09-06 Eragen Biosciences, Inc. Graphical user interface for display and analysis of biological sequence data
US7700838B1 (en) * 1999-09-17 2010-04-20 Monsanto Technology Llc Bacillus thuringiensis chromosomal genome sequences and uses thereof
GB2363874B (en) * 1999-11-06 2004-08-04 Dennis Sunga Fernandez Bioinformatic transaction scheme
US7366719B2 (en) 2000-01-21 2008-04-29 Health Discovery Corporation Method for the manipulation, storage, modeling, visualization and quantification of datasets
US20050026199A1 (en) * 2000-01-21 2005-02-03 Shaw Sandy C. Method for identifying biomarkers using Fractal Genomics Modeling
US20050079524A1 (en) * 2000-01-21 2005-04-14 Shaw Sandy C. Method for identifying biomarkers using Fractal Genomics Modeling
EP1252588B1 (en) * 2000-01-21 2007-06-27 Health Discovery Corporation Method for the manipulation, storage, modeling, visualization and quantification of datasets
US20050158736A1 (en) * 2000-01-21 2005-07-21 Shaw Sandy C. Method for studying cellular chronomics and causal relationships of genes using fractal genomics modeling
EP1152349A1 (en) * 2000-05-06 2001-11-07 Deutsches Krebsforschungszentrum Stiftung des öffentlichen Rechts Method for aligning sequences
US7231390B2 (en) * 2000-06-14 2007-06-12 Parabon Computation, Inc. Apparatus and method for providing sequence database comparison
US20050060102A1 (en) * 2000-10-12 2005-03-17 O'reilly David J. Interactive correlation of compound information and genomic information
US7024391B2 (en) * 2000-12-04 2006-04-04 Kraft Foods Holdings, Inc. System, method and program product for sharing information
US7155453B2 (en) * 2002-05-22 2006-12-26 Agilent Technologies, Inc. Biotechnology information naming system
US20020178150A1 (en) * 2001-05-12 2002-11-28 X-Mine Analysis mechanism for genetic data
JP3871301B2 (ja) * 2001-05-15 2007-01-24 インターナショナル・ビジネス・マシーンズ・コーポレーション データベース検索装置、及びプログラム
CA2349265A1 (en) * 2001-05-30 2002-11-30 Andrew Emili Protein expression profile database
WO2002103513A1 (en) * 2001-06-15 2002-12-27 Chiron Corporation Essential and important genes of pseudomonas aeruginosa and the use thereof to design or identify antibacterial agents
US7842498B2 (en) 2001-11-08 2010-11-30 Bio-Rad Laboratories, Inc. Hydrophobic surface chip
MXPA04008414A (es) * 2002-02-28 2005-06-08 Iconix Pharm Inc Indicaciones de farmacos.
EP1499732A4 (en) * 2002-04-15 2005-11-16 Chiron Corp ESSENTIAL AND IMPORTANT GENES OF PSEUDOMONAS AEROGINOSA, AND THEIR USE FOR THE DESIGN OR IDENTIFICATION OF ANTIBACTERIAL AGENTS
US6983274B2 (en) * 2002-09-23 2006-01-03 Aaron Thomas Patzer Multiple alignment genome sequence matching processor
US9740817B1 (en) 2002-10-18 2017-08-22 Dennis Sunga Fernandez Apparatus for biological sensing and alerting of pharmaco-genomic mutation
AU2003284921A1 (en) * 2002-10-22 2004-05-13 Iconix Pharmaceuticals, Inc. Reticulocyte depletion signatures
US7778782B1 (en) 2002-12-17 2010-08-17 Entelos, Inc. Peroxisome proliferation activated receptor alpha (PPARα) signatures
US7396645B1 (en) 2002-12-17 2008-07-08 Entelos, Inc. Cholestasis signature
US7422854B1 (en) 2002-12-20 2008-09-09 Entelos, Inc. Cholesterol reduction signature
US7519519B1 (en) 2002-12-20 2009-04-14 Entelos, Inc. Signature projection score
KR20040071993A (ko) * 2003-02-07 2004-08-16 학교법인대우학원 Dna 서열 부호화 방법 및 dna 서열 압축 방법
JP2004259119A (ja) * 2003-02-27 2004-09-16 Internatl Business Mach Corp <Ibm> 塩基配列のスクリーニングを行うためのコンピュータ・システム、そのための方法、該方法をコンピュータに対して実行させるためのプログラムおよび該プログラムを記憶したコンピュータ可読な記録媒体
US20040249791A1 (en) * 2003-06-03 2004-12-09 Waters Michael D. Method and system for developing and querying a sequence driven contextual knowledge base
WO2004114191A2 (en) * 2003-06-20 2004-12-29 Helix Genomics Pvt. Ltd. Method and apparatus for object based biological information, manipulation and management
CN1864068B (zh) * 2003-08-18 2010-10-13 特提斯生物科学公司 用小表位抗体降低样品复杂度的方法
US8346482B2 (en) 2003-08-22 2013-01-01 Fernandez Dennis S Integrated biosensor and simulation system for diagnosis and therapy
WO2006001896A2 (en) * 2004-04-26 2006-01-05 Iconix Pharmaceuticals, Inc. A universal gene chip for high throughput chemogenomic analysis
US7937413B2 (en) 2004-05-04 2011-05-03 International Business Machines Corporation Self-adaptive prefix encoding for stable node identifiers
US9012150B2 (en) * 2004-05-26 2015-04-21 Anima Cell Metrology Methods for evaluating ribonucleotide sequences
WO2005124650A2 (en) * 2004-06-10 2005-12-29 Iconix Pharmaceuticals, Inc. Sufficient and necessary reagent sets for chemogenomic analysis
US20230229950A1 (en) * 2005-05-16 2023-07-20 Panvia Future Technologies, Inc. Programmable quantum computer
US8832139B2 (en) * 2005-05-16 2014-09-09 Roger Selly Associative memory and data searching system and method
US10438690B2 (en) 2005-05-16 2019-10-08 Panvia Future Technologies, Inc. Associative memory and data searching system and method
US11561951B2 (en) * 2005-05-16 2023-01-24 Panvia Future Technologies, Inc. Multidimensional associative memory and data searching
US8543614B2 (en) * 2005-08-22 2013-09-24 International Business Machines Corporation Packing nodes into records to store XML XQuery data model and other hierarchically structured data
US7529726B2 (en) * 2005-08-22 2009-05-05 International Business Machines Corporation XML sub-document versioning method in XML databases using record storages
WO2008076139A1 (en) * 2006-03-10 2008-06-26 Tethys Bioscience, Inc. Multiplex protein fractionation
US20080281819A1 (en) * 2007-05-10 2008-11-13 The Research Foundation Of State University Of New York Non-random control data set generation for facilitating genomic data processing
WO2009047760A2 (en) * 2007-10-09 2009-04-16 Anima Cell Metrology, Inc. Systems and methods for measuring translation activity in viable cells
KR101025848B1 (ko) * 2008-12-30 2011-03-30 삼성전자주식회사 개인 유전체 통합 관리 방법 및 장치
US20100173791A1 (en) * 2009-01-05 2010-07-08 Bio-Rad Laboratories, Inc. Process design using mass spectrometry
CA2775231C (en) 2009-09-24 2018-06-05 Anima Cell Metrology, Inc. Systems and methods for measuring translation of target proteins in cells
WO2011137368A2 (en) 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences
KR101638594B1 (ko) 2010-05-26 2016-07-20 삼성전자주식회사 Dna 서열 검색 방법 및 장치
US9268903B2 (en) 2010-07-06 2016-02-23 Life Technologies Corporation Systems and methods for sequence data alignment quality assessment
US8898149B2 (en) 2011-05-06 2014-11-25 The Translational Genomics Research Institute Biological data structure having multi-lateral, multi-scalar, and multi-dimensional relationships between molecular features and other data
JP6981249B2 (ja) * 2017-12-28 2021-12-15 富士通株式会社 生体認証装置、生体認証プログラム、及び生体認証方法
CN112579809A (zh) * 2019-09-27 2021-03-30 深圳云天励飞技术有限公司 一种数据处理方法和相关装置
CN111584007A (zh) * 2020-05-25 2020-08-25 北京理工大学 基因功能序列权利范围认定、检索及侵权判定方法与系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4939666A (en) * 1987-09-02 1990-07-03 Genex Corporation Incremental macromolecule construction methods
US5496938A (en) * 1990-06-11 1996-03-05 Nexstar Pharmaceuticals, Inc. Nucleic acid ligands to HIV-RT and HIV-1 rev
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
EP0583559B1 (en) * 1992-07-31 2004-02-25 International Business Machines Corporation Finding token sequences in a database of token strings
CA2092455A1 (en) * 1993-03-25 1994-09-26 Johanna M. Rommens Process for isolating genes and the gene causative of huntington disease

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH105000A (ja) * 1996-06-27 1998-01-13 Hitachi Ltd Dnaアミノ酸配列比較方法
WO1999041362A1 (fr) * 1998-02-10 1999-08-19 Toyo Kohan Co., Ltd. Appareil pour preparation de genotheque immobilisee, appareil pour amplification de gene, procede de regulation de temperature et procede de comparaison systematique des genes
KR100481878B1 (ko) * 2000-07-19 2005-04-11 주식회사 바이오그랜드 혈연관계 검색 시스템 및 검색 방법
KR20030008384A (ko) * 2001-07-18 2003-01-29 이경호 인터넷을 이용한 무연고묘의 가족 검색시스템
KR20030072863A (ko) * 2002-03-07 2003-09-19 주식회사 마크로젠 온라인망을 기반으로 하는 유전자 의료정보 통합 관리 방법
WO2008108297A1 (ja) 2007-03-02 2008-09-12 Research Organization Of Information And Systems 相同性検索システム
JP2012032975A (ja) * 2010-07-30 2012-02-16 Hitachi Ltd 最適アラインメント計算装置及びプログラム
JP2012059100A (ja) * 2010-09-10 2012-03-22 Hitachi Ltd 局所対応抽出装置及び局所対応抽出方法

Also Published As

Publication number Publication date
EP0646883A1 (en) 1995-04-05
US5706498A (en) 1998-01-06

Similar Documents

Publication Publication Date Title
JPH0793370A (ja) 遺伝子データベース検索システム
US10210308B2 (en) Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
Eddy A memory-efficient dynamic programming algorithm for optimal alignment of a sequence to an RNA secondary structure
US5964860A (en) Sequence information signal processor
Jacob et al. Mercury BLASTP: Accelerating protein sequence alignment
WO2014186604A1 (en) Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US20030200033A1 (en) High-throughput alignment methods for extension and discovery
JP6691871B2 (ja) 融合遺伝子解析装置、融合遺伝子解析方法、及びプログラム
Al Junid et al. Optimization of DNA sequences data to accelerate DNA sequence alignment on FPGA
Abbas et al. Bioinformatics and management science: Some common tools and techniques
Varma et al. Architecture exploration of FPGA based accelerators for BioInformatics applications
Bautista et al. Bit-vector-based hardware accelerator for dna alignment tools
KR100538451B1 (ko) 분산 컴퓨팅 환경에서의 유전자 및 단백질 유사서열 검색시스템 및 그 방법
Roddy et al. nail: software for high-speed, high-sensitivity protein sequence annotation
Sebastião et al. Hardware accelerator architecture for simultaneous short-read DNA sequences alignment with enhanced traceback phase
CN108470113B (zh) 多物种未出现k-mer子序列计算和特征分析方法及系统
Puthiyedth et al. Performance Comparison of LASSO Variants with Genome-Wide Association Studies (GWAS)
Ramírez-Rafael¹ et al. Check for updates
Peterson et al. Sequence information signal processor
Chung et al. QTLEMM: An R Package for QTL mapping and hotspot detection
Xeni Study, analysis and implementation of gene alignment algorithm on a platform based on reconfigurable hardware
WO2003065247A2 (en) Analysis of biochemical sequence data
Sebastiao et al. Scalable Accelerator Architecture for Local Alignment of DNA Sequences
Liu regulatory networks by data integration
Smith et al. Development of the SMART Coprocessor for Fuzzy Matching in Bioinformatics Applications