JP3283193B2 - 配列データ類似度演算装置 - Google Patents

配列データ類似度演算装置

Info

Publication number
JP3283193B2
JP3283193B2 JP27526396A JP27526396A JP3283193B2 JP 3283193 B2 JP3283193 B2 JP 3283193B2 JP 27526396 A JP27526396 A JP 27526396A JP 27526396 A JP27526396 A JP 27526396A JP 3283193 B2 JP3283193 B2 JP 3283193B2
Authority
JP
Japan
Prior art keywords
data
array
similarity
array element
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP27526396A
Other languages
English (en)
Other versions
JPH10105574A (ja
Inventor
仁 藤宮
敏正 渡辺
昭弘 浅井
永典 奈須
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP27526396A priority Critical patent/JP3283193B2/ja
Publication of JPH10105574A publication Critical patent/JPH10105574A/ja
Application granted granted Critical
Publication of JP3283193B2 publication Critical patent/JP3283193B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、配列データの間の類似
度を算出する配列データ類似度演算装置に関し、特に、
遺伝子配列のデータなどの冗長度が高く多様なデータ表
現となっている配列データの相互の類似度を算出する配
列データ類似度演算装置に関するものである。
【0002】
【従来の技術】従来より、バイオテクノロジーの分野に
おいては、遺伝的系統樹の作成や類似の生物種を分類
し、また、同定するために、遺伝子やアミノ酸レベルで
比較することが多く行われる。
【0003】このような遺伝子やアミノ酸の配列を適切
に比較するためには、その配列データの要素数が数百〜
数千である配列データの比較を行わなければならない。
その場合、通常、生体内で起こりうる遺伝子やアミノ酸
の配列要素の欠落や挿入などの現象を考慮に入れて比較
を行うため、動的計画法を基本とした類似度比較のアル
ゴリズムを用いて、その配列の全体の類似度を算出し、
類似度の高いものとの関係を推定する研究が進められて
いる。
【0004】例えば、この種の類似度比較のアルゴリズ
ムとしては、既に、GOTOHらによる「“An Improved Alg
orithm for Matching Biological Sequences”J. Mol.
Biol. (1982)162, 705-708」の類似度算出のアルゴリズ
ムが知られており、この類似度算出のアルゴリズムを用
いて、遺伝子やアミノ酸の配列を比較し、その配列の類
似度の高いものを求めることが行われている。
【0005】ここで比較される遺伝子およびアミノ酸の
配列の各々の要素データは、基本の塩基コードおよびア
ミノ酸コードと、それらの複合コードとを合わせたもの
であり、それぞれ16種と24種のコードデータであ
る。
【0006】すなわち、図7に示すように、遺伝子の配
列要素の塩基コード71は、DNA/RNAを構成する
基本要素の塩基であるA(アデシン),C(シトシ
ン),G(グアニン),T(チミン),U(ウラシル)
の5種類の塩基コードと、これらの基本要素の塩基のそ
れぞれの組合せを示すR(A/G),Y(C/T/
U),S(C/G),W(A/T/U),K(G/T/
U),M(A/C),B(C/G/T/U),V(A/
C/G),D(A/G/T/U),H(A/C/T/
U)の10種類の複合コードと、更に、塩基が不明であ
る状態を表わすためのコードとしてN(A/C/G/T
/U)のコードを合わせた16種類のコードとなってい
る。なお、ここでの組み合わせコード、例えば、第6番
目の“R”は、“A”の塩基または“G”の塩基のいず
れかに該当する塩基であることを意味している。他の組
み合わせの複合コードも同様であり、複数の塩基のいず
れかであることを意味している。
【0007】また、アミノ酸の配列の各々の要素のデー
タについても、同様に、その各々のアミノ酸の組み合わ
せの複合コードを含めて、図8に示すように、24種の
コードとなっている。これらのコードは、いずれのコー
ドも、アルファベットの各々の1文字(または3文字)
が割り当てられたコードとなっており、したがって、こ
こでの配列の各々の要素データは、このような文字コー
ドによる配列データの間の類似度の比較となる。
【0008】遺伝子の配列の要素となる塩基のコード
は、上述したように、16種類のコードであるので、4
ビットのデータで表現されうる。また、アミノ酸の配列
の要素となるコードは、24種類のコードのデータであ
るので、5ビットのデータで表現可能である。
【0009】したがって、データ保存の立場から見た場
合、できるだけ占有するデータ容量が小さい方が良いた
め、上述のように、4ビットデータまたは5ビットデー
タの表現形式でパッキングしてから保存する場合がある
が、文字コードによるテキスト表現の方が扱いやすいの
で、多くの場合、一つの配列データの要素毎にISO規
格による8ビットデータ(英数文字コード)のテキスト
表現で、そのまま保存される。
【0010】このため、従来のソフトウェアによる配列
データの類似度比較の処理においては、それぞれのデー
タ形式(英数文字コード)において、配列データを直接
比較して、それらの類似度を算出するようにしていた。
【0011】しかしながら、前述した動的計画法を用い
た類似度比較のアルゴリズムでは、動的計画法の演算内
容が、比較を含む漸化式で表現されているため、毎回比
較演算を行わなければならず、更に、その比較の結果に
よって、次に採用される値が異なる形態の演算であるた
め、このような比較演算中心のアルゴリズムでは、比較
内容の判定結果によって、次の処理内容が頻繁に変わる
ことになる。
【0012】このため、通常の計算機で用いられている
逐次処理型のプロセッサにおいて高速に演算処理を実行
するためのパイプライン処理のような機能は、全く効果
を発揮することができない。したがって、延べ数億の配
列が登録されている現状の遺伝子配列データベースを対
象にして、登録されている全ての配列との類似度の計算
を行うと、400塩基程度の遺伝子配列に対してワーク
ステーションでも20時間程度の時間を必要とする。
【0013】また、これらの逐次処理型プロセッサの多
数個を組み合わせて、パラレルプロセスを行うように構
成された計算機システムも開発されているが、その計算
機システムを構成する要素の一つ一つの逐次処理型プロ
セッサの演算処理装置が高価であり、また、並列処理を
行うための制御ソフトウェアも特殊であるので、計算機
システムが高価となるという問題点があった。
【0014】
【発明が解決しようとする課題】上述したように、従
来、遺伝子の配列データの類似度を算出する演算装置
は、汎用の逐次処理型プロセッサをベースとして類似度
演算を行う演算装置であるため、比較演算の結果に応じ
て、加算または減算を繰り返す演算処理が中心となる動
的計画法の演算を高速に実行できないという問題があっ
た。また、逐次処理型プロセッサの多数個のプロセッサ
を使用して並列処理をさせても、非常に高価になってし
まうという問題点があった。
【0015】本発明は、上記のような問題点を解決する
ためになされたものであり、本発明の目的は、動的計画
法を基本として類似度を求める配列データ間の類似度演
算のため、高速かつ安価に配列データの類似度を求める
演算処理専用の配列データ類似度演算装置を提供するこ
とにある。
【0016】また、本発明の他の目的は、類似度を求め
る配列データと比較されるデータベース内配列データの
データ表現形式が異なっていても、高速に類似度の演算
が可能な配列データの類似度演算装置を提供することに
ある。
【0017】
【課題を解決するための手段】上記の目的を達成するた
め、本発明による配列データ類似度演算装置は、第1の
特徴として、第1配列データから一つの配列要素を取り
込み保持する第1配列要素保持手段(11)と、前記第
1配列要素保持手段に保持された配列要素のデータを所
定のデータ幅に正規化した第1配列要素表現に変換する
第1データ正規化手段(13)と、第2配列データから
一つの配列要素を取り込み保持する第2配列要素保持手
段(12)と、前記第2配列要素保持手段に保持された
配列要素のデータを前記第1配列要素表現のデータ幅と
同じデータ幅に正規化した第2配列要素表現に変換する
第2データ正規化手段(14)と、前記第1配列要素表
現のデータと前記第2配列要素表現のデータとを参照し
て配列要素の間の類似度を出力する配列要素間類似度算
出手段(15)と、前記配列要素の間の類似度に基づい
て配列全体としての類似度を算出する配列データ間類似
度算出手段(16)とを備えることを特徴とする。
【0018】また、本発明の配列データ類似度演算装置
において、第2の特徴として、前記第1データ正規化手
段は、第1配列データに対応したデータ表現の表現形式
に正規化し、前記第2データ正規化手段は、前記第1配
列データに対応したデータ表現の表現形式と同一形式
に、第2配列データを正規化することを特徴とする。
【0019】このような特徴を有する本発明の配列デー
タ類似度演算装置においては、第1配列データと第2配
列データとの間の配列の類似度を算出する場合に、第1
配列要素保持手段が、第1配列データから一つの配列要
素を取り込み保持すると、第1データ正規化手段は、前
記第1配列要素保持手段に保持された配列要素のデータ
を所定のデータ幅に正規化した第1配列要素表現に変換
する。また、第2配列要素保持手段が、第2配列データ
から一つの配列要素を取り込み保持するので、第2デー
タ正規化手段は、前記第2配列要素保持手段に保持され
た配列要素のデータを前記第1配列要素表現のデータ幅
と同じデータ幅に正規化した第2配列要素表現に変換す
る。そして、配列要素間類似度算出手段が、前記第1配
列要素表現のデータと前記第2配列要素表現のデータと
を参照して配列要素の間の類似度を出力する。続いて、
配列データ間類似度算出手段は、前記配列要素の間の類
似度に基づいて配列全体としての類似度を算出する。こ
のようにして、本発明の配列データ類似度演算装置にお
いては、第1配列データと第2配列データとの間の配列
の類似度を算出する。
【0020】すなわち、本発明の配列データ類似度演算
装置においては、比較する配列データと比較される配列
データの各々の要素のデータを逐次取り込み保持し、保
持された各データのデータ幅が所定値となるように、デ
ータを正規化し、正規化した要素データ相互の類似度を
算定する。そして、求められた各要素間の類似度に基づ
いて、動的計画法の演算アルゴリズムによる漸化式に従
って全体の類似度を算出する。このようにして、比較す
る配列データと比較される配列データの双方の要素を逐
次取り込み保持し、それぞれの配列データが、異なった
データ表現であっても、所定のデータ幅に正規化して共
通の表現形式に変換し、正規化された表現形式に変換さ
れたデータから、各要素の類似度を算定し、更に、それ
ら要素間の算定データを基づいて全体の類似度を漸化式
に合わせて求める。このため、異なる表現形式の配列デ
ータの類似度を求める場合であっても、高速に変換して
比較することができる。
【0021】
【発明の実施の形態】以下、本発明を実施する場合の一
形態について、図面を参照して具体的に説明する。図1
は、本発明の一実施例の配列データ類似度演算装置の要
部の構成を示すブロック図である。図1において、10
は遺伝子配列データベース、11はキー配列メモリ、1
2はターゲット配列メモリ、13はキーデータ正規化
部、14はターゲットデータ正規化部、15は要素デー
タ類似度算定部、16は全体類似度積算処理部、17は
演算結果保存部、18は表示部、19は専用LSI化し
た動的計画法基本演算部、20は全体制御部である。
【0022】遺伝子配列データベース10は、比較対象
となる遺伝子配列が多数登録されている遺伝子配列デー
タベースであり、この遺伝子配列データベースとして
は、例えば、米国のGenbankなどのデータベース機関の
持つデータベースや、研究者自身の作成したライブラリ
などのデータベースが利用される。
【0023】キー配列メモリ11は、類似度を算出する
ための基準とする配列データ(第1配列データ、以下キ
ー配列という)を保持するためのメモリである。ターゲ
ット配列メモリ12は、キー配列との類似度を算出する
ために比較される側の配列データ(第2配列データ、以
下ターゲット配列という)を、遺伝子データベース10
から取り込み保存するためのメモリである。
【0024】キーデータ正規化部13は、キー配列メモ
リ11からのキー配列データの表現形式を所定のデータ
幅のデータとする変換を行う。また、同じく、ターゲッ
トデータ正規化部14は、ターゲット配列メモリ12か
らのターゲット側の配列データの表現形式を所定のデー
タ幅とする正規化のための変換を行う。
【0025】キーデータ正規化部13およびターゲット
データ正規化部14により、正規化さけた各データは、
要素データ類似度算定部15に供給され、要素データ類
似度算定部15において、両配列データの要素の類似度
を算定する処理を行い、求められた要素の類似度は、全
体類似度積算処理部16に入力される。全体類似度積算
処理部16では、それぞれに求められた要素の類似度に
基づいて、例えば、特開平7−93370号公報に開示
されているような動的計画法のアルゴリズムによって、
配列データの全体の類似度を算出する。そして、全体類
似度積算処理部16において求められた配列データの全
体の類似度の演算結果は、演算結果保存部17において
保存される。
【0026】この場合に、保存された演算結果は、表示
部18において表示される。なお、図1のブロック図に
おいて、参照番号19の波線で囲った部分に含まれるキ
ーデータ正規化部13,ターゲットデータ正規化部1
4,要素データ類似度算定部15および全体類似度積算
処理部16は、専用のLSIで構成したLSI化演算部
である。全体制御部20は、上述した各々の演算部に対
する演算処理の制御を行うと共に、全体の制御を行う。
【0027】次に、このように構成される配列データ類
似度演算装置の動作について説明する。図2は、全体制
御部による演算制御処理の処理フローを示すフローチャ
ートである。図2を参照して説明する。処理を開始する
と、まず、ステップ21において、各演算部の初期設定
処理を行う。
【0028】ここでの初期設定としては、キー及びター
ゲット配列のデータ形式を正規化するためのデータ正規
化テーブル(キーデータ正規化部13およびターゲット
データ正規化部14に設けられる演算テーブル)の設定
および各配列要素の類似度を定義した類似度定義テーブ
ル(要素データ類似度算定部15に設けられる演算テー
ブル)の設定、その他の全体のレジスタ等の初期化を行
う。
【0029】次に、ステップ22において、類似の配列
を調査したい基準となるキー配列をキー配列メモリ11
に書き込む。次のステップ23において、比較対象とな
るターゲット配列をデータベース10からターゲット配
列メモリ12に読み込む。
【0030】比較するキー配列およびターゲット配列の
各データが、それぞれキー配列メモリおよびターゲット
配列メモリに取り込まれると、次のステップ24におい
て、キーデータ正規化部13およびターゲットデータ正
規化部14を制御して、それぞれのデータの正規化処理
を行う。キー配列については、キーデータ正規化部13
が正規化を行い、ターゲット配列については、ターゲッ
トデータ正規化部14が正規化を行う。それぞれの配列
データの変換が行われると、変換後のデータを要素デー
タ類似度算定部15に送る。
【0031】次に、ステップ25に進み、要素データ類
似度算定部15を制御して、前記両配列データから送ら
れてきた要素を比較し、その要素の間の類似度を求め、
求めた要素の間の類似度のデータを、全体類似度積算処
理部16に送る。そして、次のステップ26において、
全体類似度積算処理部16を制御し、先に求めた要素の
間の類似度データを、配列全体の類似度を算出するため
のデータとして用いて、配列全体の類似度を求め、ここ
での演算処理を終了する。なお、この類似度の算定は、
前述した文献に示される動的計画法の演算アルゴリズム
による漸化式に従って演算処理を行う。
【0032】演算を行った結果は、演算結果保存部17
に保存される。この演算処理フローを終了すると、これ
で、データベースから取り出したターゲット配列に対す
るキー配列の類似度の算出が完了となる。そして、後
は、必要に応じて続いてターゲット配列のデータを取り
替え、そのターゲット配列に対するキー配列の類似度の
演算を行う。
【0033】例えば、類似度の最も高い配列データを検
索する場合は、次々にデータベースに登録されている配
列データをターゲット配列のデータとして読み出し、比
較した結果を演算結果保存部17に保存し、その結果を
ソートして、上位から順に表示部18に送り表示させ
る。
【0034】図3は、キーデータ正規化部のハードウェ
ア構成の一例を説明するブロック図であり、図4は、キ
ーデータ正規化部に初期データとして読み込まれるデー
タコードを格納しているDNA/RNAコードパッキン
グテーブルを説明する図である。図3において、13は
キーデータ正規化部、31はRAMで構成される正規化
処理用演算テーブル、32はバススイッチである。33
は8ビットの入力データを入力するアドレスライン、3
4は5ビットの正規化データ出力ライン、35は5ビッ
トの変換データ書き込みライン、36は制御線である。
図4において、40はDNA/RNAコードパッキング
テーブル、41はアスキーコードフィールド、42はパ
ッキングコードフィールドである。
【0035】次に、図3を参照して、キーデータ正規化
部13の動作について説明する。前述したように、遺伝
子のデータは、その要素の核酸の記号を文字データとし
てテキスト表現できることから、また、データ処理を行
う計算機においては8ビットのn倍のデータが取り扱い
やすいことから、8ビットの表現形式をとっているもの
が多く存在する。また、必要に応じて、遺伝子データの
データベースの全体の容量を低減するために、必要なビ
ット数(4ビット表現、5ビット表現)でパッキングし
て保存している場合もある。そのため、遺伝子の配列の
類似度の演算に当たっては、比較しやすいように、デー
タ(幅)を正規化する。
【0036】ハードウェア回路で正規化を行うために
は、正規化後のビット数をできるだけ減らすことが、必
要なハードウェア回路の回路規模を減少させるため望ま
しい。このため、本実施例の配列データ類似度演算装置
においては、正規化されているデータの場合には、その
まま使用し、8ビット幅の文字データなどで送られてく
るデータの場合においては、DNAの場合は4ビット、
アミノ酸の場合は5ビットに変換する。このため、初期
化処理時に、図4に示すようなDNA/RNAコードパ
ッキングテーブル40から、コードデータの正規化のた
めのパッキングコード42を読み込む。
【0037】動作開始時においては、全体制御部20か
ら制御線36を介して制御信号が供給される。この制御
信号は、バススイッチ32を変換データ書き込みライン
35を選択するように制御する。そして、続いて、正規
化処理用演算テーブル31のアドレスライン33に使用
するデータの表現形式の8ビットデータをアドレスデー
タとして入力し、この時のアドレスに対するデータとし
て、正規化処理後に期待するデータを、すなわち、DN
A/RNAコードパッキングテーブル40のパッキング
コード42のデータを、変換データ書き込みライン35
からバススイッチ32を介して正規化処理用演算テーブ
ル31に送り、書き込みを実行することで正規化処理用
演算テーブル31の初期化処理を完了する。これによ
り、正規化処理のための演算テーブルの作成が完了す
る。
【0038】このようにして演算開始時において、初期
化処理が行われ、データ変換のための演算テーブルが作
成されると、続いて演算が開始される。この場合、全体
制御部20から制御線36を介して制御信号が供給さ
れ、この制御信号によりバススイッチ32が切り替えら
れ、バススイッチ32は変換データ出力ライン34を選
択するように制御される。この制御信号は、正規化処理
用演算テーブル31にも供給されており、これにより、
正規化処理用演算テーブル31は読み出しモードとな
る。
【0039】正規化処理用演算テーブル31が読み出し
モードとなると、正規化処理用演算テーブル31のアド
レスライン33に、8ビット幅の文字データなどの被変
換データを入力すると、その対応の変換データが読み出
され、正規化データ出力ライン34から出力される。つ
まり、キー配列の要素のデータに応じて、正規化された
データが正規化データ出力ライン34に出力される。
【0040】ターゲットデータ正規化部14は、上述し
たキーデータ正規化部13の構成と同様に、演算テーブ
ルによるデータ変換処理部であり、図3に示すキーデー
タ正規化部と同様な回路構成により構成される。このよ
うなデータ正規化部を設けることによって、演算するビ
ット数が減少し、後続の演算回路でもビット幅が減少
し、回路規模をかなり低減できる。
【0041】次に、要素データ類似度算定部15の構成
を説明する。図5は、要素データ類似度算定部のハード
ウェア構成の一例を説明するブロック図である。図5に
おいて、15は要素データ類似度算定部、51は類似度
算定用演算テーブル、52はバススイッチである。53
は5ビットの入力データを入力する第1正規化データ入
力ライン、54は5ビットの入力データを入力する第2
正規化データ入力ラインである。55は8ビットの類似
度データ設定ライン、56は要素データ間類似度出力ラ
イン、57は制御線である。
【0042】要素データ類似度算定部15は、正規化さ
れた2つの比較データに基づき、演算テーブルを検索し
て相互の類似度を出力する。本実施例では、キーデータ
正規化部13(図3)と同様に、演算テーブルによる演
算を行う構成としている。つまり、要素データ類似度算
定部15は、図5に示すように、求める類似度を記憶し
ている類似度スコア演算テーブル51、演算テーブルの
書き換え,演算テーブルの参照結果の出力を行うデータ
バスを切り替えるバススイッチ52を中心に構成されて
いる。
【0043】要素データ類似度算定部15においては、
前述したキーデータ正規化部13と同様に、まず、初期
設定において、全体制御部20からの制御線57の信号
によりバススイッチ52が類似度データ設定ライン55
の側に接続される。これにより、第1正規化データ入力
ライン53および第2正規化データ入力ライン54から
擬似的なデータを正規化データとして送り込み、その組
み合わせに応じた類似度データを類似度データ設定ライ
ン55から送り込んで、類似度スコアRAMを構成する
類似度算定用演算テーブル51に書き込むことで、類似
度の演算テーブルを作成する。
【0044】通常の演算の動作時は、制御線57の信号
が切り替わる。これにより、類似度算定用演算テーブル
51は読み出しモードとなり、バススイッチ52は、要
素データ間類似度出力ライン56の側に設定される。こ
の状態で、正規化データが類似度算定用演算テーブル5
1のアドレスデータとして入力されると、相互の類似度
は、その該当するアドレスに記憶された類似度スコア
が、要素データ間類似度出力ライン56から出力され、
後続の全体類似度積算処理部16へと渡される。
【0045】図6は、要素データ類似度算定部15に初
期データとして読み込まれる類似度スコアデータの一例
を説明する図である。ここでの図6には、実際に用いら
れる遺伝子配列データの記号と、そのスコア表の一例を
示している。図6に示すスコア表は、各々の塩基コード
が一致した場合のスコア値または置換した場合のスコア
δ(ai,bj)の値である。
【0046】図6のスコアデータは、動的計画法を用い
て遺伝子データベース検索を行う場合の類似度となって
おり、スコア表61は、ターゲット側の配列要素データ
(ACGTRYMWSKDHVBN)を列方向に配置
し、キー側の配列要素データ(ACGTRYMWSKD
HVBN)を行方向に配置した2次元マトリクス形式の
表となっている。ターゲット側およびキー側の配列要素
データのA〜Nは、それぞれの塩基コードを示してお
り、スコア表の値は、各々の塩基コードが一致した場合
または置換された場合に加算されるスコアの点数を示し
ている。
【0047】
【発明の効果】以上、説明したように、本発明の配列デ
ータ間類似度演算装置によれば、比較する対象となる相
互の配列データを、演算テーブルを参照して正規化し、
更に、同じく演算テーブルを参照して類似度スコアを求
めるため、異なる表現形式の配列データのデータベース
に対して配列の類似度を求める場合であっても、高速に
変換して演算を行うことができる。また、演算テーブル
のメモリを利用した方式であるため、集積回路など組み
込むことにより、小型かつ低価格化が容易に図れる。更
に、演算対象のデータ幅を一定にする正規化回路を備え
ることにより、後続の演算回路ブロックの必要な論理回
路数が減少するため、ハードウェア化するのに好適であ
る。
【図面の簡単な説明】
【図1】図1は本発明の一実施例の配列データ類似度演
算装置の要部の構成を示すブロック図、
【図2】図2は全体制御部による演算制御処理の処理フ
ローを示すフローチャート、
【図3】図3はキーデータ正規化部のハードウェア構成
を説明するブロック図、
【図4】図4はキーデータ正規化部に初期データとして
読み込まれるデータコードを格納しているDNA/RN
Aコードパッキングテーブルを説明する図、
【図5】図5は要素データ類似度算定部のハードウェア
構成の一例を説明するブロック図、
【図6】図6は要素データ類似度算定部に初期データと
して読み込まれる類似度スコアデータの一例を説明する
図、
【図7】図7は遺伝子の配列要素の塩基コードを説明す
る図、
【図8】図8は遺伝子の配列要素のアミノ酸のコードを
説明する図である。
【符号の説明】
10…遺伝子配列データベース、11…キー配列メモ
リ、12…ターゲット配列メモリ、13…キーデータ正
規化部、14…ターゲットデータ正規化部、15…要素
データ類似度算定部、16…全体類似度積算処理部、1
7…結果表示部、18…表示部、19…専用LSI化し
た動的計画法基本演算部、20…全体制御部、31…正
規化処理用演算テーブル、32…バススイッチ、33…
アドレスライン、34…正規化データ出力ライン、35
…変換データ書き込みライン、36…制御線、40…D
NA/RNAコードパッキングテーブル、41…アスキ
ーコードフィールド、42…パッキングコードフィール
ド、51…類似度算定用演算テーブル、52…バススイ
ッチ、53…第1正規化データ入力ライン、54…第2
正規化データ入力ライン、55…類似度データ設定ライ
ン、56…要素データ間類似度出力ライン、57…制御
線。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 浅井 昭弘 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウェアエンジニアリング株 式会社内 (72)発明者 奈須 永典 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウェアエンジニアリング株 式会社内 (56)参考文献 特開 平4−7785(JP,A) 特開 平5−67157(JP,A) 特開 平6−175893(JP,A) 特開 平7−192013(JP,A) 特開 平4−238571(JP,A) 特開 平7−105224(JP,A) 特開 平6−98770(JP,A) 特開 平8−137914(JP,A) 特開 昭60−27938(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 C12N 15/00 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 第1配列データから一つの配列要素を取
    り込み保持する第1配列要素保持手段と、 前記第1配列要素保持手段に保持された配列要素のデー
    タを所定のデータ幅に正規化した第1配列要素表現に変
    換する第1データ正規化手段と、 第2配列データから一つの配列要素を取り込み保持する
    第2配列要素保持手段と、 前記第2配列要素保持手段に保持された配列要素のデー
    タを前記第1配列要素表現のデータ幅と同じデータ幅に
    正規化した第2配列要素表現に変換する第2データ正規
    化手段と、 前記第1配列要素表現のデータと前記第2配列要素表現
    のデータとを参照して配列要素の間の類似度を出力する
    配列要素間類似度算出手段と、 前記配列要素の間の類似度に基づいて配列全体としての
    類似度を算出する配列データ間類似度算出手段とを備え
    ることを特徴とする配列データ類似度演算装置。
  2. 【請求項2】 請求項1に記載の配列データ類似度演算
    装置において、 前記第1データ正規化手段は、第1配列データに対応し
    たデータ表現の表現形式に正規化し、 前記第2データ正規化手段は、前記第1配列データに対
    応したデータ表現の表現形式と同一形式に、第2配列デ
    ータを正規化することを特徴とする配列データ類似度演
    算装置。
JP27526396A 1996-09-27 1996-09-27 配列データ類似度演算装置 Expired - Lifetime JP3283193B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27526396A JP3283193B2 (ja) 1996-09-27 1996-09-27 配列データ類似度演算装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27526396A JP3283193B2 (ja) 1996-09-27 1996-09-27 配列データ類似度演算装置

Publications (2)

Publication Number Publication Date
JPH10105574A JPH10105574A (ja) 1998-04-24
JP3283193B2 true JP3283193B2 (ja) 2002-05-20

Family

ID=17552988

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27526396A Expired - Lifetime JP3283193B2 (ja) 1996-09-27 1996-09-27 配列データ類似度演算装置

Country Status (1)

Country Link
JP (1) JP3283193B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3324594B2 (ja) * 1999-12-20 2002-09-17 株式会社日立製作所 バイオ製品の品質保証方法及びバイオ情報の配信方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6027938A (ja) * 1983-07-26 1985-02-13 Fujitsu Ltd 文字列比較装置
JPH047785A (ja) * 1990-04-26 1992-01-13 Nec Corp 文字コード処理装置
JPH04238571A (ja) * 1991-01-22 1992-08-26 Fujitsu Ltd パターン検索処理方式
JPH0567157A (ja) * 1991-09-06 1993-03-19 Nec Corp 文字列検索方式
EP0583559B1 (en) * 1992-07-31 2004-02-25 International Business Machines Corporation Finding token sequences in a database of token strings
JP3455981B2 (ja) * 1992-12-07 2003-10-14 株式会社日立製作所 文字コード変換方法および装置
JP3370787B2 (ja) * 1993-08-10 2003-01-27 株式会社日立製作所 文字配列検索方法
JP2755146B2 (ja) * 1993-12-27 1998-05-20 日本電気株式会社 文書データ処理装置
JP2768921B2 (ja) * 1994-09-13 1998-06-25 株式会社東芝 データ検索装置、データ処理装置、データ検索方法及びデータ処理方法

Also Published As

Publication number Publication date
JPH10105574A (ja) 1998-04-24

Similar Documents

Publication Publication Date Title
Castelo et al. TROLL—tandem repeat occurrence locator
US5706498A (en) Gene database retrieval system where a key sequence is compared to database sequences by a dynamic programming device
US5964860A (en) Sequence information signal processor
US7016896B2 (en) Pattern search method, pattern search apparatus and computer program therefor, and storage medium thereof
US8798936B2 (en) Methods and systems for data analysis using the Burrows Wheeler transform
JP2010092490A (ja) データ整理のための方法及びシステム
JP2006172452A (ja) データ整理のための方法及びシステム
US20050228595A1 (en) Processors for multi-dimensional sequence comparisons
JP7341866B2 (ja) 情報処理システムおよび検索方法
JP3283193B2 (ja) 配列データ類似度演算装置
US7047137B1 (en) Computer method and apparatus for uniform representation of genome sequences
US8031942B2 (en) Matching device
JP2609196B2 (ja) 類似度計算装置
US10867134B2 (en) Method for generating text string dictionary, method for searching text string dictionary, and system for processing text string dictionary
JPH11213004A (ja) データ処理装置及びその方法、及びそのプログラムを記憶した記憶媒体
Pesole et al. [17] Linguistic analysis of nucleotide sequences: Algorithms for pattern recognition and analysis of codon strategy
JP3237606B2 (ja) 複数文字列アライメント方法およびシステム
JP4721344B2 (ja) 単語検索装置、単語検索方法及びプログラム
JP2004234297A (ja) 生物学的な配列情報処理装置
JP5256799B2 (ja) 文字認識装置
JP2772125B2 (ja) 辞書検索方式
Boutros An Introduction to Effective BLASTing
WO2022208500A1 (en) System and method for performing fast statistical pattern hints detection
JPH08110910A (ja) 文字配列検索方法
Law et al. qValue-A program to calculate comparative measures of genomic reorganisation from cytogenetic and/or linkage information

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080301

Year of fee payment: 6

S631 Written request for registration of reclamation of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313631

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080301

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110301

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110301

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140301

Year of fee payment: 12

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term