JP2003216615A - 生物学的な配列情報処理方法および装置 - Google Patents

生物学的な配列情報処理方法および装置

Info

Publication number
JP2003216615A
JP2003216615A JP2001377632A JP2001377632A JP2003216615A JP 2003216615 A JP2003216615 A JP 2003216615A JP 2001377632 A JP2001377632 A JP 2001377632A JP 2001377632 A JP2001377632 A JP 2001377632A JP 2003216615 A JP2003216615 A JP 2003216615A
Authority
JP
Japan
Prior art keywords
sequence information
data
collation
processing device
collated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001377632A
Other languages
English (en)
Other versions
JP3723767B2 (ja
Inventor
Hiroki Arakawa
宏樹 荒川
浩輔 ▲たか▼木
Kosuke Takagi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OPEN LOOP KK
Original Assignee
OPEN LOOP KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OPEN LOOP KK filed Critical OPEN LOOP KK
Priority to JP2001377632A priority Critical patent/JP3723767B2/ja
Priority to PCT/JP2002/012944 priority patent/WO2003054744A1/ja
Priority to AU2002366918A priority patent/AU2002366918A1/en
Publication of JP2003216615A publication Critical patent/JP2003216615A/ja
Application granted granted Critical
Publication of JP3723767B2 publication Critical patent/JP3723767B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90339Query processing by using parallel associative memories or content-addressable memories
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 塩基配列、アミノ酸配列等の生物学的配列情
報の解析処理を高速化する。 【解決手段】 並列照合機能をもつ記憶処理装置、典型
的にはCAM、すなわち、Content Addre
ssable Memoryが用いられる。記憶処理装
置に、配列情報が、被照合データとして用いるために記
憶される。照合データと被照合データを並列処理にて記
憶処理装置に照合させて、照合データと被照合データの
一致を示す情報を得ることにより、配列解析情報を得
る。好ましい態様では、複数の配列が、記憶処理装置で
あるCAMに、照合方向と交差する方向を向けて、照合
方向に並ぶように記憶される。照合データとしては同一
文字列が用いられる。CAMの照合により、複数の配列
が一致するか否かが判定される。複数の配列を一つずつ
照合対象から除外すると、どの配列が異なるのかが分か
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、塩基配列、アミノ
酸配列等の生物学的な配列情報を解析のために処理する
方法および装置に関し、特に、処理の高速化に関する。
【0002】
【従来の技術】分子生物学の分野では、DNA、遺伝
子、タンパク質等の解析のための情報処理技術の有用性
が高まっている。この分野では、配列情報を解析するた
めに情報処理技術が用いられる。この種の技術はバイオ
インフォマティクスといわれる。
【0003】例えば、SNPs(スニプッス、単一塩基
多型)解析は、ほぼ同一の多数の塩基配列を解析して、
局所的に異なる部分をもつ塩基配列を求める。
【0004】また例えば、ホモロジー検索は、複数の配
列情報が似ているか、そしてどのように似ているかの情
報を求める。ホモロジー検索方法としては、例えば、ブ
ラスト(BLAST)法およびファスタ(FastA)
法が知られている。
【0005】ブラスト法は、ギャップの挿入を行わずに
局所的によく一致する部位を探索する。このような部位
を高スコア断片と呼ぶ。そして、高スコア断片が前後に
伸長される。
【0006】ファスタ法においては、配列が長く一致す
る部分を求める。この処理のために、従来は、複数の配
列情報の一致する要素をプロットしたドットマトリック
ス情報が利用される。そして、一致部分の周囲に対して
動的計画法によるアライメントが行われる。
【0007】
【発明が解決しようとする課題】配列解析では、大量の
情報を高速に処理することが求められる。非常に長い配
列が処理され、また、多数の配列が処理されるからであ
る。しかし、従来は、配列解析の大量の情報処理は、専
ら大型コンピュータの大きな処理能力に頼って実現され
ており、配列情報の高速処理技術は十分に確立していな
い。そして、配列解析の研究が進み、創薬および医療な
どの現場での分子生物学の実用化が進展するのにつれ
て、配列情報処理の高速化の重要性も高まると考えられ
る。また、大型コンピュータではなく、パーソナルコン
ピュータ程度の比較的小型なコンピュータによっても、
大量の配列情報を高速に処理することが求められる。
【0008】本発明は上記課題に鑑みてなされたもので
あり、その目的は、配列情報の処理を高速化する方法お
よび装置を提供することにある。
【0009】本発明の一つの目的は、SNPS解析で見
られるような複数の配列情報の比較を高速に行うことが
可能な方法および装置を提供することにある。
【0010】本発明の一つの目的は、ブラスト解析で見
られるような配列情報中の特定配列の検索を高速に行う
ことが可能な方法および装置を提供することにある。
【0011】本発明の一つの目的は、ファスタ解析で見
られるような複数の配列情報の連続一致部分の探索を高
速に行うことが可能な方法および装置を提供することに
ある。
【0012】
【課題を解決するための手段】(1)上記目的を達成す
るため、本発明の配列情報処理方法は、並列照合機能を
もつ記憶処理装置に、配列情報を被照合データとして用
いるために記憶させて、照合データと被照合データを並
列処理にて記憶処理装置に照合させて、照合データと被
照合データの一致を示す情報を得ることにより、配列解
析情報を得る。並列照合機能を利用することで、配列情
報の処理における、大量のデータの比較を高速に行うこ
とができ、配列解析を高速化できる。
【0013】好ましくは、並列照合機能をもつ記憶処理
装置は、CAMである。従来、CAMは、インターネッ
トルータの部品として用いられている。本発明は、CA
Mのもつ並列照合機能が配列情報の処理に適しているこ
とに着目し、大量のデータの比較をCAMに行わせてい
る。これにより、配列解析処理のうちで大きなウエイト
を占める部分が、CAMにより大幅に高速化され、配列
解析の高速化が可能となる。
【0014】また、CAMは、インターネットのルータ
用の部品として普及しており、比較的安価に、容易に入
手できる。さらに、通常のパーソナルコンピュータのよ
うなコンピュータとの接続が容易な点でもCAMは有利
である。したがって、本発明は、ルータ用部品として普
及しているCAMの特性が、配列情報の処理にも適して
いることに着目し、CAMを使って配列情報処理装置を
構成したことで、高速性という利点に加えて、低コスト
で容易に配列情報処理装置を提供できるという利点も得
られる。
【0015】(2)本発明の一態様は、並列照合機能を
もつ記憶処理装置に、複数の配列情報を、被照合データ
として用いるために、照合方向と交差する方向を向け
て、照合方向に並ぶように記憶させる。そして、本発明
は、照合方向に並んで隣接する複数の配列情報のデータ
を被照合データとして用いて、配列要素を表す文字等の
コードとして同一のものが並ぶ同一コード列に対応する
データを照合データとして用いて、照合データと被照合
データを並列処理にて記憶処理装置に照合させる。
【0016】このように、本発明は、照合方向と交差す
る方向を向けて配列情報を記憶させるという、記憶処理
装置の特徴的な使い方をしている。したがって、被照合
データは、照合方向に並んだ複数配列のデータで構成さ
れる。そして、照合データとして、同一コード列に対応
するデータが用いられる。これら被照合データと照合デ
ータの並列照合処理により、複数の配列が一致するか否
かが高速に求められる。
【0017】本発明は、CAMで見られるように、記憶
処理装置の照合方向の幅が、配列の長さより狭いとき
に、特に有利である。実際に処理される配列は長いこと
が多いので、このような場合は頻繁にあり得る。本発明
によれば、記憶処理装置の照合方向と交差する方向に配
列情報を記憶させるので、長大な配列も記憶処理装置に
収容できる。そして、同一コード列に対応する照合デー
タを用いることで、交差方向に記憶される配列の一致性
を求められる。そして、この処理が、並列照合処理によ
り高速に行われる。このようにして、本発明によれば、
並列照合処理機能をもつ記憶処理装置を利用し、配列解
析を好適に高速化できる。
【0018】好ましくは、本態様は、上述の処理によ
り、SNPs解析に用いる情報を得る。SNPs解析で
は、多くの配列を迅速に処理することが求められる。特
に、今後、ゲノム創薬およびオーダーメード医療が実用
化され、多数のサンプルのSNPs解析が必要になると
考えられる。そして、大型コンピュータを使わないで
も、高速にSNPs解析を行えることが望ましい。本発
明によれば、このようなニーズに適切に応えることが可
能である。
【0019】(3)本発明の一態様は、並列照合機能を
もつ記憶処理装置に、生物学的な配列情報を、被照合デ
ータとして用いるために、照合方向を向けて記憶させ
る。さらに本発明は、照合対象の配列情報を照合データ
として用いて、照合データと被照合データを並列処理に
て記憶処理装置に照合させる。この態様では、上述の態
様と異なり、配列情報が照合方向を向けて記憶される。
したがって、上述の態様に関して説明したような、記憶
の方向を異ならせることによる利点は得られない。しか
し、本態様でも、並列照合機能を利用した並列処理によ
る高速化という利点が得られる。以下は、本発明のさら
に詳細な態様である。
【0020】(4)本発明の一態様は、並列照合機能を
もつ記憶処理装置に、塩基配列、アミノ酸配列等の生物
学的な複数の配列情報を、被照合データとして用いるた
めに、照合方向を向けて記憶させる。そして本発明は、
参照配列を照合データとして用いて、照合データと被照
合データを並列処理にて記憶処理装置に照合させる。典
型的には、部分配列からなる参照配列を用いて、ブラス
ト検索で行われるような、局所的一致箇所が求められ
る。本発明によれば、並列照合機能を利用して、複数の
配列の各々が参照配列を含むか否かが、高速に求められ
る。
【0021】好ましくは、本発明は、参照配列に相当す
る長さをもつ照合対象部分と残りの照合除外部分とを設
定して照合処理を行い、照合除外部分の位置を異ならせ
た複数回の照合処理を行う。本発明によれば、照合除外
部分を異ならせて照合処理を行うことで、参照配列が、
被照合データたる配列のどの部分と一致する場合でも、
その一致を適切に検出できる。また、一致する部分の特
定も可能となる。
【0022】好ましくは、本発明は、一連の配列を複数
の分割配列情報に分けて、複数の分割配列情報を、照合
方向と交差する方向に並ぶように、並列照合機能をもつ
記憶処理装置に記憶させて、各分割配列情報の一部が参
照配列と一致するか否かを並列処理により求める。
【0023】本発明は、CAMで見られるように、記憶
処理装置の照合方向の幅が狭く、交差方向の長さが大き
いときに、特に有利である。本発明によれば、照合方向
の幅が狭い場合でも、配列を分割することで、交差方向
の長さを活かして、長い配列を記憶可能である。交差方
向の長さを利用して、大量の配列を同時に記憶させ、並
列して処理することもできる。
【0024】さらに、本態様の配列分割は、計算の高速
化にとって有利である。分割により、照合方向の配列長
さが小さくなる。これにより計算量が少なくなる。上述
の複数種類の照合除外部分を設定するとき、照合方向の
配列長さが小さい方が、計算量が少なくなる。したがっ
て本発明は、記憶処理装置が照合方向に狭く、交差方向
に長いとき、このことを障害とせず、むしろ、配列分割
と並列処理により計算量を削減し、配列解析の一層の高
速化を可能としている。
【0025】好ましくは、本態様は、上述の処理によ
り、ブラスト法等のホモロジー解析に用いる情報を得
る。例えば、データベースの大量の配列を使ってブラス
ト検索を行うような場合、本発明の高速化は特に有用と
考えられる。
【0026】(5)本発明の一態様は、並列照合機能を
もつ記憶処理装置に、同一の配列情報を少しずつずらし
て、被照合データとして用いるために、照合方向を向け
て記憶させる。配列情報は所定文字数ずつ、通常は一文
字ずつずらされる。そして、本発明は、比較対象の別の
配列情報を照合データとして用いて、少しずつずらして
記憶された同一の配列情報を被照合データとして用い
て、照合データと被照合データを並列処理にて記憶処理
装置に照合させる。
【0027】本発明によれば、複数の配列情報が連続し
て一致する部分が、並列処理を利用して高速に求められ
る。最長一致部分を求めることも可能であり、また、連
続一致部分の位置を特定することも可能である。並列照
合機能をもつ記憶処理装置を利用し、少しずつずらして
配列を記憶させるという特徴的な使い方により、例えば
ファスタ検索においてドットマトリックスを用いて得ら
れるのと同様の、連続一致部分の情報を得ることができ
る。
【0028】好ましくは、本態様は、上述の処理によ
り、ファスタ法等のホモロジー解析に用いる情報を得
る。例えば、データベースの大量の配列を使ってファス
タ検索を行うような場合、本発明の高速化は特に有用と
考えられる。
【0029】本発明は、上述の方法の態様には限定され
ない。本発明の別の態様は、例えば、配列情報処理装置
である。この装置は、ネットワークを経由してアクセス
されるシステムを構成してもよい。分散配置された複数
のコンピュータにより本装置および上記方法が実現され
てもよい。また、本発明の別の態様は、例えば、上記処
理方法をコンピュータに実現させるプログラムであり、
また例えば、そのようなプログラムを記録した媒体であ
る。
【0030】
【発明の実施の形態】以下、本発明の好適な実施の形態
(以下、実施形態という)を図面を参照して説明する。
【0031】本実施形態では、配列情報の一形態である
塩基配列が処理される。ただし、アミノ酸配列等の他の
任意の生物学的配列情報にも本実施形態は同様に適用可
能である。
【0032】図1は、本実施形態の生物学的配列情報処
理装置のハードウエア構成を示す。配列情報処理装置1
0は、CPU12、ROM14、RAM16、CAM1
8、ハードディスク20、入力装置22および出力装置
24を含む。
【0033】ハードディスク20は、配列情報処理装置
10の機能を実現するためのプログラムを記憶してい
る。このプログラムがCPU12により実行される。ま
た、ハードディスク20は、解析対象の配列情報を記憶
している。CPU12は、ハードディスク20から配列
情報を取得する。配列情報は、他の構成から取得されて
もよい。例えば、配列情報は、図示されない記録媒体装
着部を介して、CD−ROM、DVD等の記録媒体から
取得されてもよい。また、配列情報は、通信装置を介し
て取得されてもよい。通信装置は、インターネット等の
ネットワークから配列情報を取得してもよい。
【0034】入力装置22は、キーボード、ポインティ
ングデバイス等である。ユーザは、入力装置22を操作
して、各種の指示を入力し、また、配列情報処理装置1
0が要求する情報等を入力する。出力装置24は、ディ
スプレイ、プリンタ等である。出力装置24には、解析
結果の情報が表示される。また、ディスプレイには、ユ
ーザへの案内画面、例えば入力装置22を操作するのに
必要な画面が表示される。上述のように配列情報を通信
装置で取得する場合には、通信装置を出力装置として機
能させ、解析結果等の情報も通信装置を介して出力する
ことが好適である。
【0035】上述の説明からも明らかなように、配列情
報処理装置10は通常のパーソナルコンピュータの機能
を備える。ただし、通常のパーソナルコンピュータとの
相違点として、配列情報処理装置10はCAM18を備
える。配列情報処理装置10は、CAM18を好適に利
用して、配列情報の解析を高速に行う。
【0036】CAM(Content Address
able Memory)は、本発明の並列照合機能を
もつ記憶処理装置の典型的かつ好適な一形態である。C
AMは連想記憶装置ともいわれる。CAMは、名前、ア
ドレス、相対位置ではなく、情報内容により記憶場所が
識別されるデータ記憶装置であり、これにより高速なデ
ータ検索ができる。CAMは、通常はインターネットの
ルータにて用いられている。
【0037】図2は、インターネットのルータにおける
CAMの機能を示している。CAMは、ルーティングテ
ーブルを記憶する。ルーティングテーブルは、複数のI
Pアドレスとルータ名を対応付ける。各IPアドレス
は、そのIPアドレスが付されたデータが転送されるべ
きルータ名と対応づけられる。照合データとしてIPア
ドレスが入力されたとき、CAMは、照合データと一致
するIPアドレスを検索する。この検索は、並列処理に
て行われる。そして、CAMは、照合データと一致する
IPアドレスと対応付けられたルータ名を出力する。
【0038】このように、CAMは、照合データと被照
合データの照合を並列処理にて行い、照合結果を出力す
ることができる。この機能を本発明では並列照合機能と
いう。一方、配列処理では、配列に関する多数のデータ
比較が行われる。この種の処理にはCAMの機能が適し
ている。本発明はこの点に着目し、配列に関する多数の
データの比較をCAMに行わせる。これにより、配列解
析処理のうちで大きなウエイトを占める部分が、CAM
により大幅に高速化され、配列解析の高速化が可能とな
る。
【0039】さらに、CAMは、インターネットのルー
タ用の部品として普及しており、比較的安価に入手でき
る。また、通常のパーソナルコンピュータとの接続が容
易な点でもCAMは有利である。したがって、本発明に
よれば、通常はルータに用いられるCAMの特性が配列
情報の処理に適していることに着目し、CAMを使って
配列情報処理装置を構成したことで、高速性という利点
に加えて、低コストで容易に配列情報処理装置を提供で
きるという利点も得られる。
【0040】CAMは、並列照合機能をもつ記憶処理装
置の典型的かつ好適な一形態である。並列照合機能をも
つ他の記憶処理装置が適用されてもよく、同様の高速化
が可能である。従来は大量のデータの比較をRAM上で
ソフトウエアによって実現していたのと比較して、大幅
な高速化が可能となる。
【0041】図3は、配列情報処理装置10の機能ブロ
ック図である。配列処理制御部30の各種機能は、図1
のCPU18がプログラムを実行することにより実現さ
れる。配列処理制御部30は、配列情報取得部32、被
照合データ投入部34、照合データ投入部36、照合結
果取得部38、照合結果処理部40、解析情報出力部4
2を有する。
【0042】配列情報取得部32は、解析対象の配列情
報を取得する。配列情報は、上述のようにハードディス
ク20等から取得される。被照合データ投入部34は、
CAM18に被照合データ(被参照データ)を投入す
る。被照合データはCAM18に記憶される。照合デー
タ投入部36は、照合データ(参照データ)をCAM1
8に投入する。CAM18は、照合データと被照合デー
タを照合し、照合結果を出力する。照合結果は、照合結
果取得部38により取得される。照合結果処理部40
は、照合結果に基づく各種判定等の配列解析のための処
理を行う。解析情報出力部42は、照合結果処理部40
によって得られた配列解析に関する情報を出力するため
の処理を行う。
【0043】以下、配列情報処理装置10による各種の
配列情報処理を説明する。
【0044】(1−1)SNPs解析 図4は、本実施形態のSNPs解析を示している。遺伝
子配列は、平均して1000個の塩基配列に1塩基の割
合で、個人によって異なるといわれる。SNPsは、複
数のサンプル配列を比較して、この異なる配列があるの
を検出する。
【0045】図4を参照すると、CAM18には、配列
処理制御部30から送られた複数の配列が記憶される。
ここで、通常のインターネットルータ等におけるCAM
の使用法では、照合されるべきデータは、CAMの照合
方向に記憶される(図2)。本発明では、図示のよう
に、配列情報が、照合方向と交差する方向を向けて、照
合方向に並ぶように記憶される。
【0046】なお、記憶の順番は任意である。1本目の
配列の第1文字が記憶され、2本目の配列の第1文字が
記憶され、というように照合方向に順次データが記憶さ
れてもよい。また、1本目の配列の第1文字、第2文
字、というように、交差方向に順次データが記憶されて
もよい。結果的に、図4に示されるように、各配列が交
差方向を向いていればよい。
【0047】現在提供されているCAMの照合方向の幅
には、144bitタイプ、288bitタイプという
ように、幾つかのタイプがある。一度に処理できる配列
の数は、CAMの幅に制約される。通常のCAM、例え
ば上記の144bitタイプのCAMを用いる場合、1
00程度の配列を入力可能である。
【0048】次に、照合データとして、同一文字列のデ
ータが入力される。周知のように、塩基は、A(アデニ
ン)、T(チミン)、G(グアニン)、C(シトシン)
の4文字で表される。まず、照合データ(AAAA・・
・)が入力される。
【0049】CAM18は、照合データと各被照合デー
タの照合を行う。被照合データは、照合方向に並んだ文
字列である。上述のように、本実施形態では、照合方向
と交差する方向を向けて配列が入力されている。したが
って、被照合データは、各配列の一つの文字が並んだデ
ータである。
【0050】CAM18は、照合データと被照合データ
が完全に一致したとき、一致を示す情報を出力する。本
実施形態では「1」が出力される。本実施形態では、C
AM18が、インターネットのルーティングテーブルの
ルータ名に相当する位置に「1」を記憶しており、この
「1」が出力される。一致しない場合には、「0」が出
力される。
【0051】ここでは、照合データが「AAA・・・」
であるから、被照合データの文字がすべて「A」である
とき、「1」が出力される。他の文字「T」「G」
「C」についても順次同様の処理が行われる。
【0052】図4の右側部分は、照合結果を示してい
る。被照合データが同一文字のみで構成されるときは、
いずれかの照合データ(A、T、GまたはC)を用いた
照合結果として「1」が出力される。しかし、被照合デ
ータが異なる文字を含むときは、すべての照合データを
用いた処理にて「0」が出力される。これは、入力され
た複数の配列が、多型により異なる配列を含むことを意
味する。このようにして、異なる配列の有無が検出され
る。
【0053】異なる配列の有無を判定するためには、照
合結果の論理演算(bit演算)が好適に行われる。こ
こでの論理演算は、1*0=1、0*1=1、1*1=
1、0*0=0である。この演算は、各列ごとに、4回
の照合結果に対して行われる。2つの照合結果が演算さ
れ、それにもう一つの照合結果が加えられ、さらにもう
一つの照合結果が加えられる。この演算結果は、図4の
左方に示すように、被照合データが同一文字のみで構成
されるときは「1」であり、異なる文字を含むときは
「0」である。このようにして、異なる配列の有無が特
定され、さらに、異なる塩基の位置が特定される。
【0054】次に、複数の塩基配列のどれが他の配列と
異なるのかを特定する処理を説明する。この処理では、
被照合データにDon’t Care bit(以下、
DCbit)を設定する。
【0055】ここで、DCbitは、被照合データのう
ちで特定の位置のデータを無視した部分データによって
一致検索を行うためのものである。本実施形態では、D
Cbitは、無視されるべき文字の位置、または、無視
されるべき文字そのものである。この無視により、被照
合データが部分的に照合から除外される。
【0056】図5は、DCbitの設定のパターンを示
している。DCbitが設定された位置の配列は、照合
対象から除外される。図示のように、DCbitを順次
ずらしていき、上述の図4の処理を行う。他の配列と異
なる配列がある位置にDCbitが設定されたときは、
図4の処理の結果として、すべての配列が完全に一致す
るとの判定が得られる。すなわち、左方の論理演算の結
果が、すべて「1」になる。このとき、DCbitが設
定された位置の配列が、異なる配列として特定される。
【0057】例えば、図4の例では、3本目の配列が、
他の配列と異なる。この場合、図5に矢印で示すよう
に、3番目のbitをDCbitに設定したとき、すべ
ての配列が完全一致する。これにより、3本目の配列が
他と異なることが分かる。
【0058】図6は、上述したSNPs解析の処理を示
すフローチャートである。まず、配列処理制御部30の
被照合データ投入部34は、配列情報取得部32により
取得された配列情報をCAM18に投入する(S1
0)。配列情報は、照合方向と交差する方向を向けて記
憶される。次に、照合データが照合データ投入部36に
より投入される(S12)。AAA・・・というよう
に、同一文字列が投入される。
【0059】CAMでは、照合データと被照合データの
照合が行われ、その結果が出力される。照合データと被
照合データが完全に一致すれば「1」が出力され、そう
でなければ「0」が出力される。照合結果は、照合結果
取得部38により取得される(S14)。
【0060】次に、配列処理制御部30は、全文字
(A、T、G、C)についての照合処理が行われたか否
かを判定する(S16)。終了していなければ、S12
に戻り、次の文字に関して、同一文字列を照合データと
して用いた処理が行われる。
【0061】S16がYESであれば、S18に進み、
照合結果処理部40によりSNPs判定が行われる。こ
こでは、図4の右側に示される演算処理が行われ、異な
る配列の有無と、異なる塩基の位置が特定される。
【0062】次に、異なる配列があるか否かが判定され
(S20)、NOであれば処理を終了する。YESの場
合、S22に進んで、異なる配列がどれかが特定され
る。
【0063】S22では、DCbitが設定される。ま
ず、被照合データの1番目のbitが、DCbitに設
定される(図5の最上段)。S24、S26、S28の
処理は、上述のS12、S14、S16と同様でよい。
すなわち、照合データとして同一文字列がCAM18に
投入され(S24)、CAM18から照合結果が取得さ
れ(S26)、全文字の照合処理が行われる(S2
8)。
【0064】次に、図5に示されるDCbitの全パタ
ーンに関して、S22〜S28の処理が行われたか否か
が判定される(S30)。NOであれば、S22に戻
り、DCbitの設定が変更される。DCbitの位置
は、一つずつずらされる。このようにして、DCbit
を異なる位置に設定したときの照合結果が得られる。す
なわち、配列を一つずつ照合対象から除外したときの照
合結果が得られる。
【0065】S30がYESであれば、S32に進み、
照合結果処理部40により異なる配列が特定される。完
全一致が得られたときのDCbitの位置が、異なる配
列を示している。
【0066】以上においては、本発明を分かりやすく説
明するため、塩基配列を表現するのに通常用いられる
「文字A、T、G、C」を使用した。しかし、本発明の
範囲内で、塩基等の要素を表すものであれば、他のコー
ドが用いられてもよいことはもちろんである。
【0067】実際のコンピュータでの処理では、文字そ
のものを扱わず、文字を少ないデータで表現するべきで
ある。塩基は4種類であるので、少なくとも2bitの
データによりすべての塩基が表現される。このとき、図
4のCAM18上では、交差方向に、1文字につき2b
itのデータが並ぶ。照合方向の列をbitレベルで考
えると、2列が、AAA・・・といった被照合データを
表す。本発明では、照合処理において、この2列のデー
タがまとめて処理されてもよい。また、1列ずつ照合処
理が行われ、その結果がさらに処理されてもよい。後者
のデータ処理も、本発明の同一コード列に対応するデー
タを照合データとして用いる処理に含まれる。
【0068】DCbitについても、上述の説明では、
文字に対してDCbitが設定されていた。実際の処理
では、例えば4種類の塩基が2bitで表されるとき、
上述の説明における1つのDCbit(*)がコンピュ
ータ上の2bitに対応することはもちろんである。
【0069】また、上記においては、本発明を分かりや
すく説明するため、通常のCAM等を表現する形式に従
い、図2、図4に示されるように、四角形の図に基づい
て本発明を説明した。しかし、実際のCAM上での物理
的なデータの位置は図4等には限定されないことはもち
ろんである。この点は、他の実施形態においても、もち
ろん同様である。
【0070】また、図6の処理では、異なる配列を見つ
けるために、DCbit設定の全パターンに関して照合
処理が行われている。しかし、DCbitの全パターン
を使い終わる前に、異なる配列が見つかった時点で処理
を終了してもよい。この場合、一つのパターンの処理を
行うたびに、異なる配列が見つかったか否かが判定され
る。
【0071】また、上記の処理では、DCbitを設定
したときの照合は、最初の照合と同じであった。これに
対して、より狭い部分を対象として、DCbitを使っ
た照合が行われてもよい。例えば、異なる塩基のある位
置を対象として、照合が行われてもよい。異なる塩基の
ある位置は、図4の処理で特定可能である(演算結果が
0)。
【0072】(1−2)欠損・挿入検出 次に、本実施形態の配列解析技術を利用した欠損・挿入
検出処理を説明する。周知のように、欠損とは、複数の
配列を比較したときに、ある配列に、欠けている塩基が
あることをいう。また、挿入とは、複数の配列を比較し
たときに、ある配列が、他の配列にない塩基をもつこと
をいう。
【0073】図7は、本実施形態の処理を示している。
図7の処理は、全体的には図4のSNPs解析と同様で
ある。ただし、照合結果の判定処理が異なる。
【0074】すなわち、図7では、比較対象の複数の配
列は、CAM18により、照合方向と交差する方向を向
けて、照合方向に並ぶように、記憶される。したがっ
て、被照合データは、各配列の一つの文字が並んだデー
タである。照合データは、AAA・・・といった同一文
字列である。照合データが、それぞれの被照合データと
比較される。CAM18は、照合データと被照合データ
が一致すれば「1」を出力し、一致しなければ「0」を
出力するようにプログラミングされている。
【0075】図7の例では、n列において、3本目の配
列に欠損がある。このとき、n−1列およびその前の列
では、4文字の照合処理のいずれかにおいて「1」が出
力される。一方、n列およびその後の列では、「0」が
出力される。
【0076】このように、本実施形態の照合処理を行う
と、欠損がある位置を境界として、照合データと被照合
データが連続して一致する部分と、照合データと被照合
データが連続して一致しない部分とが隣接する。挿入が
ある場合にも、同様の結果が得られる。
【0077】したがって、本実施形態によれば、上記の
ような結果が得られるとき、すなわち、照合データと被
照合データが連続して一致する部分と、照合データと被
照合データが連続して一致しない部分とが隣接すると
き、欠損または挿入があることが分かる。
【0078】欠損または挿入に関する判定は、図7の左
方に示す論理演算を使って好適に行われる。この論理演
算も、図4と同様に、1*0=1、0*1=1、1*1
=1、0*0=0である。欠損または挿入がある場合、
図示のように、論理演算結果は、・・・111000・
・・となる。すなわち、照合データと被照合データの連
続一致部分と、連続不一致部分とが隣接する。この境界
部分に欠損または挿入があることが分かる。
【0079】どの配列が欠損または挿入をもつかは、D
Cbitを用いて検出可能である。DCbitを用いた
処理は、SNPs解析と同様でよい。DCbitを設定
することにより、一つの配列が照合対象から除外され
る。ある位置にDCbitを設定したときに論理演算結
果が変わり、連続一致部分が延長された場合、そのDC
bitの位置に対応する配列が欠損または挿入を有す
る。
【0080】すなわち、図7の例では、被照合データの
3番目のbitがDCbitに設定されたとき、論理演
算結果が変わり、連続一致部分がn列を越えて延長され
る。これにより、3本目の配列が欠損または挿入をもつ
ことが分かる。
【0081】さらに、欠損と挿入のどちらがあるかの判
定も可能である。この判定を行うためには、欠損または
挿入がある配列情報を、CAM18上で、照合方向と交
差する方向に1文字分だけずらす。そして、上述の照合
および論理演算を行う。
【0082】ここでは、1文字分だけ、図7の下方にシ
フトしたとする。このとき、n+1列以降では、照合結
果として「1」が出力され、その演算結果も1になる。
n列およびその前の列は、結果が逆転し、「0」が得ら
れる。仮に挿入がある場合、上記のような結果は得られ
ない。すなわち、シフトした状態でも、照合結果として
は、「1」は出力されない。演算結果も0が連続する。
このようにして、シフト状態での照合結果から、欠損と
挿入のいずれがあるのかが判明する。
【0083】上記の処理と反対に、配列が、図7の上方
にシフトされてもよい。この場合、挿入があったとする
と、演算結果が変わり、n列以降で1が連続し、n−1
列およびその前では0が連続する。欠損の場合には、n
列以降も0が連続する。この結果の相違により、欠損と
挿入のどちらが発生したかが分かる。
【0084】上記の2つのシフト処理では、配列全体が
シフトされた。しかし、配列の一部がシフトされてもよ
い。欠損または挿入がある箇所およびその後の配列部分
だけがシフトされてもよい。
【0085】また、上記の処理では、1文字の欠損また
は挿入が検出された。2文字以上の欠損または挿入も同
様に検出可能である。文字数分だけ、配列が交差方向に
ずらされればよい。例えば2文字の欠損等を判定するた
めには、2文字分、配列が交差方向にずらされる。
【0086】図8は、上述の欠損・挿入検出処理のフロ
ーチャートを示している。基本的な処理は、図6のSN
Ps解析と同様であるので、適宜、説明を簡略化する。
被照合データ投入部34が配列情報をCAM18に投入
する(S40)。配列情報は、照合方向と交差する方向
を向けて記憶される。そして、同一文字列に対応する照
合データが照合データ投入部36により投入される(S
42)。CAM18での照合結果が照合結果取得部38
により取得される(S44)。そして、配列処理制御部
30は、全文字(A、T、G、C)についての照合処理
が行われたか否かを判定する(S46)。終了していな
ければ、S12に戻る。
【0087】S46がYESであれば、S48に進み、
照合結果処理部40により、欠損または配列があるか否
かが判定される。ここでは、図7を用いて説明したよう
に、照合結果処理部40は、照合データと被照合データ
が連続して一致する部分と、照合データと被照合データ
が連続して一致しない部分とが隣接するとき、欠損また
は挿入があると判定する。欠損または挿入がないとき、
S50の判定がNOになり処理が終了する。
【0088】欠損または挿入があるとき、S52に進ん
で、欠損または挿入をもつ配列が特定される。S52で
は、DCbitが設定される。S54、S56、S58
の処理は、上述のS42、S44、S46と同様でよ
い。そして、DCbitの全パターンに関して、S52
〜S58の処理が行われたか否かが判定される(S6
0)。NOであれば、S52に戻り、DCbitの設定
が変更される。S60がYESであれば、S62に進
み、欠損または挿入をもつ配列が特定される。
【0089】なお、図6に関して説明した通り、すべて
のDCbitのパターンに関して照合処理が行われなく
てもよい。すなわち、1つのパターンに対する照合結果
に基づき、欠損または挿入をもつ配列が見つかったか否
かが判定され、見つかった時点でこの特定処理を終了し
てもよい。
【0090】次に、S64に進み、欠損と挿入のどちら
があるのかが判定される。S64では、欠損または挿入
をもつ配列が、CAM18上で、照合方向と交差する方
向にシフトされる。そして、S66〜S70の照合処理
が行われる。S66、S68、S70の処理は、それぞ
れ、S42、S44、S46と同様でよい。この照合結
果に基づき、上述のようにして、欠損と挿入のどちらが
あるのかが判定される(S72)。
【0091】(1−3)置換検出 図9は、本実施形態の配列解析技術を利用した置換検出
処理のフローチャートを示している。この処理は、基本
的にSNPsと同様である。元々、SNPsは、複数の
配列における1塩基の置換を求めるものである。したが
って、SNPsに関して説明した処理を適用することに
より置換を検出できる。置換がある場合には、図4に示
されるように、照合データと被照合データが連続して一
致し、照合データと被照合データが一致しない部分があ
り、再び照合データと被照合データが連続して一致す
る。このような照合結果が得られたとき、置換があるこ
とと、その位置が特定される。以上のようにして、本発
明によれば置換の検出が可能である。
【0092】図9は、基本的に図6とほぼ同様なので、
その説明は省略する。ただし、置換検出の場合、あらか
じめ、欠損などの配列長が異なるサンプルを特定し、デ
ータ中から排除することが好適である。そこで、S80
では、同じ配列長をもつ複数の配列が被照合データとし
て用いるためにCAM18に投入される。
【0093】以上、SNPs解析および変異(欠損、挿
入および置換)検出を取り上げて、CAMを有効に利用
した本発明の配列解析処理を説明した。CAMは、通
常、照合方向の幅が比較的狭い。例えば、144bit
および288bitが、通常のCAMの幅である。この
ような狭い幅には、遺伝子等の比較的長い配列情報は収
まらない。そこで、本発明では、CAMに、照合方向と
交差する方向を向けて配列情報を記憶させる。この交差
方向の長さは、通常のCAMでも非常に長い。これによ
り、長い配列をCAMに収容することを可能としてい
る。さらに、同一文字列に対応する照合データを用いる
ことで、CAMによる配列比較を実現している。このよ
うにして、本発明は、CAMの並列処理による高速照合
機能の配列解析への活用を可能とし、配列解析の高速化
を可能としている。
【0094】なお、本発明の配列処理は、本発明の範囲
内で実現可能な限り、SNPs解析および変異検出以外
の配列解析に適用されてもよい。
【0095】本発明の処理の計算量と、従来の配列処理
の計算量を、単純化された例を使って比較する。塩基は
4種類の文字で表される。n文字の配列を比較すると
き、従来の処理の計算量は、概略的には、4のn乗で表
される。文字数nが増えると、大幅に計算量が増大す
る。
【0096】一方、本発明では、記憶処理装置(CAM
を含む)の並列照合機能が適切に利用され、同一文字列
に対応する照合データが記憶処理装置に投入される。4
種類の文字に対応して、4つの照合データが順次、投入
される。したがって、本発明の処理の計算量は、4回の
照合に相当する。文字数nが増えたときにも計算量があ
まり増大しない。したがって、本発明は、従来の処理と
比較して、計算量を大幅に低減できる。
【0097】ここで、本発明は、既に述べたように、塩
基配列に限らず、アミノ酸配列等の、他の生物学的配列
情報の処理にも同様に適用可能である。そして、本発明
の利点は、特に、配列要素の種類(一般には文字の種
類)が多い場合ほど、顕著に得られる。以下、この利点
について詳細に説明する。
【0098】上記の単純化された例を再び用いる。塩基
は4種類の文字で表され、天然のアミノ酸は20種類の
文字で表される。n文字の配列を従来の処理で比較する
とき、塩基配列比較の計算量は4のn乗で表される。ア
ミノ酸配列比較の計算量は20のn乗で表される。した
がって、アミノ酸配列の計算量は、塩基配列の計算量
の、「5のn乗」倍である。このように、従来の処理で
は、配列要素の種類が増えると、計算量が大幅に増加す
る。
【0099】一方、本発明は、記憶処理装置(CAMを
含む)の並列照合機能を利用しているので、上記の例に
おいて、アミノ酸配列の計算量は、塩基配列の計算量の
5倍(20÷4)にしかならない。
【0100】すなわち、本発明では、同一文字列に対応
するデータが照合データとして記憶処理装置に投入され
る。塩基の場合、4種類の文字に対応して、4つの照合
データが投入される。アミノ酸の場合、20種類の文字
に対応して、20の照合データが投入される。したがっ
て、計算量は5倍にしかならない。このように、配列要
素の種類数に応じた計算量の増大に関して、本発明の方
が従来処理より明らかに増大の程度が小さい。
【0101】上記の例は単純化されており、精密な計算
量は表してはいない。それでも、上記の例から明らかな
ように、本発明の処理の計算量は従来の処理より大幅に
少ない。したがって本発明は、従来の処理配列処理を有
利に高速化できる。
【0102】(2)ブラスト検索 次に、本発明のもう一つの実施形態を説明する。上述の
実施形態では、配列情報が、CAMの照合方向と交差す
る方向を向けて、CAMに記憶された。本実施形態で
は、照合方向を向けて配列情報が記憶される。ただし、
配列情報は、CAMの照合方向の幅よりも長いことが多
い。そこで、このような場合に、本実施形態では、配列
が複数に分割され、CAMの複数の列を使って配列情報
が記憶される。これにより、本発明は、長い配列をCA
Mで処理可能としている。
【0103】本実施形態では、本発明の配列処理が、ブ
ラスト検索へと適用される。ブラスト検索は、ホモロジ
ー検索の一つである。ブラスト検索では、ギャップの挿
入を行わずに局所的によく一致する部位が探索される。
このような部位を高スコア断片と呼ぶ。そして、高スコ
ア断片が前後に伸長される。本実施形態では、一連のブ
ラスト検索のうちで、高スコア断片を検索する処理に、
本発明が適用される。
【0104】図10は、ホモロジー検索の比較対象であ
る2つの配列の例を示している。配列の全長は相当に長
く、CAMの照合方向の幅を越えている。
【0105】図11は、CAM18に配列を記憶させた
状態を示している。各配列は、複数の分割配列へと分割
され、各分割配列が、CAMの1つの列に記憶されてい
る。塩基は4種類であるから、2bitで表現される。
図11の例では、一つの分割配列が60の塩基を含むの
で、一つの分割配列の長さは120bitである。した
がって、例えば、144bitの幅をもつCAMを使う
ことで、図11の状態での配列の記憶が可能である。
【0106】ブラスト検索では、高スコア断片を探すと
き、部分配列からなる参照配列が用いられる。参照配列
は比較的短く、例えば図示のように9文字で構成され
る。参照配列と一致する部分配列が、サンプル配列に含
まれるか否かが問い合わされる。この処理が、本実施形
態では、CAMを用いて行われる。
【0107】すなわち、図11に示すように、本実施形
態では、照合データとして、参照配列がCAM18に投
入される。CAM18は、照合データと各列の被照合デ
ータとを並列処理にて比較する。照合データと被照合デ
ータが一致するとき、CAM18は「1」を出力し、一
致しなければ、CAM18は「0」を出力する。この照
合結果より、検索対象の各配列に参照配列が含まれるか
否かが分かる。
【0108】参照配列を照合データとして用いる照合処
理は、CAM18の特性に基づき、DCbitを用いて
行われる。
【0109】図12を参照すると、本実施形態では、被
照合データに、図示のようなDCbit(*)が与えら
れる。すなわち、参照配列の長さに相当する部分を除い
た残りの部分にDCbitが与えられる。DCbitが
与えられた部分は、照合の対象から除外される。DCb
itが与えられない部分が、照合の対象になる。
【0110】DCbitの位置は、順次ずらされてい
く。言い換えれば、DCbitが与えられない部分(照
合対象部分)が順次、1文字ずつシフトされる。このよ
うにして、本発明によれば、照合除外部分の位置を異な
らせた複数回の照合処理が行われて、被照合データのど
の部分が参照配列と一致するときでも、その一致を検出
できる。また、参照配列と一致する場所を特定すること
も可能である。
【0111】DCbitをずらしたときの複数回の照合
結果は、論理演算を用いて好適に処理される。
【0112】図13の上方部分を参照する。本実施形態
では、上述のように、DCbit設定の各パターンを使
って複数回の照合が行われる。照合の度に、1または0
がCAM18から出力される。1は、照合データと被照
合データが一致するとき、0は一致しないときに出力さ
れる。
【0113】全パターンの照合結果に対して、論理演算
が行われる。論理演算は、1*0=1、0*1=1、1
*1=1、0*0=0である。2つの照合結果が演算さ
れ、さらにもう一つの演算結果が加えれば、これが繰り
返される。最終的な演算結果が1であれば、いずれかの
パターンを使った照合にて、完全一致が得られている。
そうでなければ、最終的な演算結果は0である。したが
って、演算結果が1であれば、被照合データに参照配列
が含まれることが分かる。
【0114】図13の下方は、複数の参照配列がサンプ
ル配列に含まれるか否かを判定するための好適な処理を
示している。
【0115】参照配列は、A、B、Cの3つであるとす
る。各参照配列に関して、図13の上方の処理により、
CAM18の各列が参照配列と一致する部分配列をもつ
か否かの情報が得られる。一致部分があれば「1」、な
ければ「0」である。この各列の結果が、論理演算にか
けられる。すなわち、図13では、縦方向に演算が進め
られる。演算は、上述と同様に、1*0=1、0*1=
1、1*1=1、0*0=0である。これにより、いず
れか一つの列が参照配列を含むと、演算結果が1にな
る。そして、全部の参照配列の演算結果が1であれば、
すなわち、図示のように1が並べば、すべての参照配列
がサンプル配列に含まれる。演算結果として0が得られ
るとき、該当する参照配列は含まれない。
【0116】上記の処理の利点を説明する。図13の例
では、参照配列が比較的少ない。しかし、ブラスト検索
では、より多くの参照配列が使われることがある。この
とき、多数の照合結果を、一連の処理途中で保持してお
く必要が生じ、保持するデータが多くなる傾向がある。
本発明によれば、上述の処理により、データ量が多くな
るという問題に好適に対処できる。
【0117】本発明は、並列処理を好適に利用したこと
で、参照配列の検索処理を高速化可能である。この点に
ついて、通常の処理の計算量と本発明の処理の計算量を
概略的に比較する。
【0118】ここでは、数万から数十万といった大量の
遺伝子配列を格納したデータベースを用いてブラスト検
索を行う場合を考える。データベースの遺伝子配列の数
をNc、一つの配列の塩基数をLc、参照配列の塩基数
をRlとすると、従来の処理の計算量は、Nc*(Lc
−Rl)で表される。
【0119】一方、本発明においては、各分割配列のデ
ータ長をCcとし、参照配列の塩基数をRlとすると、
計算量は、Cc−Rlで表される。この式には、配列全
体のデータ長Lcが含まれていない。本発明では、遺伝
子配列を分割した分割配列が検索対象となるからであ
る。また、上記の式には、配列の数Ncが含まれていな
い。これは以下の理由による。CAMは、通常はインタ
ーネットのルータの部品として用いられ、大量のIPア
ドレスを並列検索が可能な状態で記憶するように構成さ
れる。したがって、CAMは、照合方向の幅は比較的短
いが、それに交差する方向には非常に長い。この点を利
用することにより、数万以上の遺伝子配列を、交差方向
に並べて同時に記憶し、同時に並列処理できる。したが
って、本発明の計算量の式には、遺伝子配列の数Ncは
含まれていない。
【0120】上述のように、概略的には、従来の処理の
計算量は、Nc*(Lc−Rl)で表され、本発明の処
理の計算量はCc−Rlで表される。遺伝子配列の数N
cは、通常、数万から数十万である。また、一配列の塩
基数Lcは、1000〜10000個程度である。ま
た、参照配列の塩基数Rlは20程度である。さらに、
分割配列のデータ長Ccは100程度(図11の例では
60)とする。この場合、両者の計算量を比較すると、
本発明の処理の計算量は、概略的には、例えば約100
00分の1である。
【0121】このようにして、本発明によれば、配列検
索の高速化が可能になる。そして、上記説明から明らか
なように、本発明は、CAMの特性を好適に利用してい
る。すなわち、照合方向と交差する方向の長さを利用し
て、大量の遺伝子が同時に被照合データとして格納され
る。さらに、照合方向の幅が短いことを不利とせずに、
むしろ、複数の分割配列を並列にて処理することで計算
量を削減している。こうして、上述の大幅な高速化が可
能となる。
【0122】図14は、上述のブラスト検索の処理を示
すフローチャートである。まず、配列処理制御部30の
被照合データ投入部34は、配列情報取得部32により
取得された配列情報をCAM18に投入する(S11
0)。配列情報は、前述のように複数の分割配列情報に
分割され、各分割配列情報がCAMの一つの列に記憶さ
れる。DCbitが設定され(S112)、照合データ
が照合データ投入部36により投入される(S11
4)。ここでは、まず、一つ目のパターンのDCbit
が設定される。また、照合データは、参照配列である。
CAM18では、照合データと各列の被照合データの照
合が行われ、その結果が出力される。照合データと被照
合データが完全に一致すれば「1」が出力され、そうで
なければ「0」が出力される。照合結果は、照合結果取
得部38により取得される(S116)。
【0123】次に、配列処理制御部30は、DCbit
の全パターンについての照合が行われたか否かを判定す
る(S118)。NOであれば、S112に戻り、DC
bitのパターンが変更される。本実施形態では、前述
のように、DCbitの位置が順次シフトされる。
【0124】S118がYESであれば、S120に進
み、配列処理制御部30は、すべての参照配列に関して
照合処理が終了したか否かを判定する。例えば、図13
の参照配列A、B、Cの全部が処理されたか否かが判定
される。S120がNOであれば、S112に戻り、次
の参照配列を使って照合が行われる。S120がYES
であれば、S122に進む。S122では、図13を用
いて説明したように、照合結果処理部40が、照合結果
を使った論理演算を行い、各参照配列がサンプル配列に
含まれるか、そして、全部の参照配列がサンプル配列に
含まれるかを判定する。なお、上記の処理は、複数のサ
ンプル配列の各々に対して行われる。
【0125】好ましくは、本実施形態の配列情報処理装
置10は、上記の参照配列の問合せ結果を利用して、そ
の後の処理、すなわちブラスト検索の残りの処理を行う
ように構成される。この残りの処理は、別の装置で行わ
れてもよい。
【0126】ところで、本実施形態は、上述のように、
一つの配列を複数の分割配列に分けている。したがっ
て、分割箇所にて、参照配列(参照配列と一致する部分
配列を意味する)が複数の分割配列に跨ることがあり得
る。このような参照配列は、以下の処理により好適に検
出される。
【0127】図15を参照する。本実施形態では、参照
配列の端の部分を照合データとして用いた照合処理が行
われる。参照配列の後方の部分が、被照合データである
分割配列の前方部分と一致するか否かが、求められる。
図示のように、参照配列の後方の1文字を使う照合、2
文字を使う照合・・・i−1文字を使う照合が行われ
る。iは、参照配列の文字数である。照合対象以外の部
分には、上述の処理で説明したのと同様に、DCbit
が設定される。実際の処理では、DCbitのパターン
を増やせばよい。すなわち、図2において、参照配列が
被照合データの前方部分からはみ出る場合についてもD
Cbitのパターンが設定されればよい。これにより、
上述の照合処理をそのまま適用可能となる。
【0128】また、同様にして、参照配列の前方の部分
が、被照合データである分割配列の前方部分と一致する
か否かが、求められる。
【0129】そして、上記の処理により、第n+1列の
前方部分に、参照配列の後方部分があったとする。ま
た、第n列の後方部分に、参照配列の前方部分があった
とする。両部分を連結すると、参照配列が得られるか否
かが判定される。ここでは、2つの部分の文字数が参照
配列の文字数と一致するか否かが判定されてもよい。参
照配列が得られるとき、参照配列と同じ部分配列がサン
プル配列に含まれると判定される。
【0130】この判定処理は、実際のプログラムでは、
以下のようにして好適に行われる。ここでも論理演算を
利用する。参照配列の一部を使った照合により、被照合
データと照合データが一致するとき、CAM18は
「1」を出力し、そうでなければCAM18は「0」を
出力する。以下の2つの照合結果が論理演算にかけられ
る。
【0131】(1)第n列の後方部分を、参照配列の前
方のk文字と照合した結果 (2)第n+1列の前方部分を、参照配列の後方のi−
k文字と照合した結果 論理演算は、1*1=1、1*0=0、0*1=0、0
*0=0である。演算結果が1であれば、参照配列と同
じ部分配列がサンプル配列に含まれる。演算結果が0で
あれば、参照配列と同じ部分配列はサンプル配列に含ま
れない。1≦k≦i−1の範囲で、上記の処理が行われ
る。このようにして、2つの分割配列に跨る参照配列が
好適に検出される。
【0132】図16は、分割箇所の参照配列を検出する
もう一つの処理を示している。この処理は、隣接する分
割配列を部分的に重複させる。重複文字数は、i−1で
ある。ここで、iは、参照配列の文字数である。この状
態で、上述の照合処理を行えば、分割箇所の参照配列
が、漏れることなく検出される。
【0133】図16の処理では、参照配列の長さに応じ
て、重複部分の文字数を変更する必要がある。この点に
関しては、DCbitを利用することで対応可能であ
る。すなわち、過剰な重複を避けるために、過剰な部分
にDCbitを設定する。例えば、20文字の参照配列
Aと、15文字の参照配列を使うとする。重複部分の文
字数は、適当に、例えば30文字に設定される。参照配
列Aを使うときは、被照合データの後方部分の11文字
に対してDCbitが設定される。参照配列Bを使うと
きは、被参照データの後方部分の16文字に対してDC
bitが設定される。このようにして、参照配列の長さ
に応じた処理が実現される。
【0134】ただし、上記のような対応が不要な点で
は、図16の処理よりも、図15の処理が有利と考えら
れる。
【0135】以上、本実施形態の配列処理を説明した。
本実施形態では、本発明が、ブラスト検索に適用され
た。本発明は、他の配列解析に適用されてもよい。本発
明は、例えば、コンセンサス配列検索、遺伝子地図、S
NPs配列検出に適用されてよい。各解析に応じて、上
述の実施形態の処理が変更されることはもちろんであ
る。例えば、SNPsの場合、DCbitは設定されな
くてよい。
【0136】(3)ファスタ検索 次に、本発明のもう一つの実施形態を説明する。本実施
形態でも、上述の実施形態と同様、配列情報は、CAM
の照合方向を向けて記憶される。本実施形態では、CA
Mの特性を利用し、並列処理により、複数の配列が連続
して一致する部分を求める。この連続一致部分の検出
は、ファスタ検索に適している。
【0137】まず、従来のファスタ検索を概略的に説明
する。
【0138】図17、図18は、ドットマトリックス画
像を示している。ドットマトリックス画像は、従来のフ
ァスタ検索において、複数の配列の連続一致部分を求め
るために用いられる。図17は概念図であり、図18は
実際のドットマトリックス画像の例である。
【0139】ドットマトリックス画像では、2つの配列
が直交して配置される。2つの配列の文字(要素)が一
致する箇所には点が打たれる。45度方向に点が連続す
るとき、その部分では、配列の文字が連続して一致して
いる。この特徴を利用して、最も長く連続して一致する
部分が求められる。そして、一致部分の周囲に対して動
的計画法によるアライメントが行われる。
【0140】本実施形態は、CAMを利用し、上述のド
ットマトリックス画像を利用したときと同様の情報を得
る。
【0141】図19は、本実施形態の処理を示してい
る。ここでは、説明を簡単にするために、配列は分割さ
れていない。しかし、実際には、後述するように、CA
Mの幅が狭いことを考慮して、配列を複数に分割するこ
とが好適である。
【0142】図19の例では、比較対象の配列は2本、
すなわち配列1および配列2である。配列1は、被照合
データとしてCAM18に記憶される。配列2は、照合
データとしてCAM18に投入される。
【0143】配列1は、図示のように、CAM18の複
数の列に記憶される。すなわち、同一の配列が、CAM
18上の複数の列に記憶される。ただし、列によって、
配列1が照合方向にずらされる。配列1は、1文字ずつ
ずらされる。
【0144】このように配列1が記憶された状態で、配
列2が照合データとして入力される。CAM18は、照
合データと、各列の被照合データとを比較する。両者が
一致するとき、「1」が出力され、一致しないとき、
「0」が出力される。
【0145】上記の処理では、配列全体が一致する場合
が検出される。各種の長さの連続一致部分は、以下のよ
うにして検出される。
【0146】図20は、各種の長さの連続一致部分を検
出する処理を示す。図示のように、DCbit(*)が
利用される。DCbitは、照合除外部分をつくるため
に利用される。
【0147】最上段では、DCbitが設定されていな
い。2段目では、被照合データの後端にDCbitが1
つ設定される。3段目では、被照合データの前端にDC
bitが1つ設定される。2段目および3段目のパター
ンを用いて照合を行うと、配列の長さより1文字分短い
連続一致部分の有無が検出される。
【0148】同様にして、配列の長さよりn文字分短い
連続一致部分を検出するためには、n個のDCbitが
設定される。n個のDCbitは、図20に示されるよ
うに、配列の両端に振り分けられる。振分けの全組合せ
が、DCbitの設定パターンとして用いられる。
【0149】このようにして、本実施形態によれば、配
列を部分的に照合対象から除外することで、各種の長さ
の連続一致部分が検出される。そして、最も長く配列が
連続する部分も求めることができる。
【0150】上記の処理において、最長一致部分を見つ
けるためには、すべての種類の長さの連続一致部分を検
出する処理が行われなくてもよい。DCbitを順次変
えていき、最長一致部分が見つかるまで、検出対象の一
致長さを順次短縮していく。ここでは、図20のDCb
itのパターンを、上方から下方へ順番に使用する。そ
して、照合データと被照合データが一致したとき、最も
長い配列が見つかったので、処理を終了する。このよう
な処理も好適である。
【0151】図21は、配列を複数に分割するときの処
理を示している。配列1は、CAM18の幅より短く分
割され、そして、CAM18の複数の列に分けて記憶さ
れる。同一の配列が、1文字ずつずらして、CAM18
上の複数の領域に記憶される。ずらし量の最大値は、
(分割配列の長さ−1)に設定される。それ以上ずらす
と、同じ被照合データが重複するからである。
【0152】配列2は、配列1と同様に分割される。そ
して、各分割配列が、順次、照合データとしてCAM1
8に入力される。したがって、CAM18は、配列2の
各分割配列を用いて、照合処理を行う。一つの分割配列
を用いるときの処理は、図19および図20を参照して
説明した処理でよい。
【0153】なお、図21にX印で示すように、配列を
ずらすと、CAMの列上で、文字データのない部分が生
じる。この部分は適当に処理対象から除外される。X印
をもつ列全体が削除されてもよい。この削除を行ったと
しても、図18の隅の領域が検索対象から除外されるだ
けなので、問題はないと考えられる。
【0154】また、分割処理に関しては、各分割配列に
分けて処理が行われてもよい。すなわち、まず、配列
1、2の一つ目の分割配列が選択される。配列1の分割
配列が、図19のようにCAM18に配置される。配列
2の分割配列を用いて、図19に関して説明した処理が
行われる。次に、配列1、2の2つ目の分割配列が選択
され、同様の処理が行われる。このような処理でも同様
の結果が得られる。
【0155】ところで、配列の連続一致部分が、複数の
分割配列に跨ることがある。この点については、以下の
ようにして対応する。
【0156】図22を参照すると、n列の後方部分およ
びn+1列の前方部分に、連続一致部分が存在すると
き、それらが連結される。連結状態での配列部分が、配
列1の最も長い連続一致部分であるか否かが判定され
る。この処理をより正確に行うためには、ある分割配列
の端部が1文字のみ一致する場合も、その分割配列を連
結の対象とすることが好適である。また、図示されない
が、連続一致部分が、3本以上の分割配列に跨ることも
あり得る。この場合には、それら分割配列がすべて連結
される。両側の連続一致部分(分割配列長より短い、1
本または0本の場合もある)と、それらの間の連続一致
部分(分割配列長と同じ長さ、1本または複数本)とが
連結される。
【0157】図23は、上述した本実施形態の処理を示
すフローチャートである。まず、配列処理制御部30の
被照合データ投入部34は、配列情報取得部32により
取得された配列情報をCAM18に投入する(S13
0)。配列情報は、図21に示されるように、複数に分
割されて投入される。また、同一の配列が、少しずつず
らして、投入される。次に、照合データが照合データ投
入部36により投入される(S132)。照合データ
は、配列2の分割配列である。そして、CAM18によ
り、照合データと被照合データの照合が行われる。ま
ず、DCbitを設定しないで、照合が行われる。照合
データと被照合データが完全に一致すれば「1」が出力
され、そうでなければ「0」が出力される。照合結果
は、照合結果取得部38により取得される(S13
4)。
【0158】次に、配列処理制御部30は、全長さに関
する照合を終了したか否かを判定する(S136)。そ
して、NOであれば、長さを変更して(S138)、S
132に戻る。S136では、図20のDCbitの全
パターンが処理されたか否かが判定される。全パターン
が処理されていないとき、S138で、次のパターンが
選択される。S136がYESであれば、S140に進
む。
【0159】なお、既に述べたように、本実施形態で
は、すべての長さに関して、連続一致の判定が行われな
くてもよい。この場合、1文字ずつ、順次、検出対象の
長さが短縮される。すなわち、図20のDCbitのパ
ターンが、上から順番に使用される。照合データと一致
する被照合データが得られた時点で、S140へ進む。
【0160】S140では、配列処理制御部30が、配
列2の全部の分割配列を処理したか否かを判定する。S
140がNOであれば、S132に戻り、次の分割配列
が処理される。S140がYESであれば、S142に
進み、照合結果処理部40が、これまでの照合結果を基
に、最長一致部分(配列が最も長く一致する部分)を特
定する。好ましくは、本実施形態の配列情報処理装置1
0は、特定された最長一致部分を使って、その後の処
理、すなわちファスタ検索の残りの処理を行うように構
成される。この残りの処理は、別の装置で行われてもよ
い。
【0161】以上のように、本実施形態によれば、CA
Mを使って、ドットマトリックスを使うのと同様に、配
列の連続一致部分が検出可能であり、最長一致部分も検
出可能である。そして、CAMの並列処理機能を利用し
て、高速な検索が可能である。
【0162】本実施形態では、2つの配列が比較され
た。しかし、本発明の範囲内で3つ以上の配列が比較さ
れてもよい。この場合、好ましくは、CAMの照合方向
と交差する方向に、複数の配列が、並べられる。各配列
については、図21に示したように、同一の配列が、す
こしずつシフトして、複数箇所に記憶される。そして、
照合データとして用いる配列(図21の配列2)が入力
される。これにより、照合データの配列を、複数の配列
と同時に比較することができる。
【0163】また、本実施形態では、本発明の情報処理
がファスタ解析に適用された。他の配列解析にも本発明
が適用されてよい。他の解析においても、配列の連続一
致部分を求めるときに、本発明が有利に適用可能であ
る。
【0164】以上、本発明の好適な各種の実施形態を説
明した。本実施形態は、本発明の範囲内で変形可能なこ
とはもちろんである。例えば、本実施形態では、塩基配
列が処理された。これに対し、本発明の範囲内で、既に
述べたように、アミノ酸等の他の配列が処理されてもよ
い。また、本発明の配列情報処理装置は、ネットワーク
を介してアクセスされるシステムを構成してもよい。
【0165】
【発明の効果】(1)以上に説明したように、本発明
は、並列照合機能をもつ記憶処理装置に、配列情報を被
照合データとして用いるために記憶させて、照合データ
と被照合データを並列処理にて記憶処理装置に照合させ
て、照合データと被照合データの一致を示す情報を得る
ことにより、配列解析情報を得る。並列照合機能を利用
することで、配列情報の処理における、大量のデータの
比較を高速に行うことができ、配列解析を高速化でき
る。
【0166】好ましくは、並列照合機能をもつ記憶処理
装置は、CAMである。従来、CAMは、インターネッ
トルータの部品として用いられている。本発明は、CA
Mのもつ並列照合機能が配列情報の処理に適しているこ
とに着目し、大量のデータの比較をCAMに行わせてい
る。これにより、配列解析処理のうちで大きなウエイト
を占める部分が、CAMにより大幅に高速化され、配列
解析の高速化が可能となる。
【0167】また、CAMは、インターネットのルータ
用の部品として普及しており、比較的安価に、容易に入
手できる。さらに、通常のパーソナルコンピュータのよ
うなコンピュータとの接続が容易な点でもCAMは有利
である。したがって、本発明は、ルータ用部品として普
及しているCAMの特性が、配列情報の処理にも適して
いることに着目し、CAMを使って配列情報処理装置を
構成したことで、高速性という利点に加えて、低コスト
で容易に配列情報処理装置を提供できるという利点も得
られる。
【0168】本発明の並列照合機能付き記憶処理装置は
CAMには限定されない。また、通常のCAMは、一つ
の照合データを、記憶された全部の被照合データと同時
に比較するように構成されている。上述の実施形態で
も、主としてこのような処理が行われた。これに対し、
CAMまたは他の記憶処理装置は、複数の照合データを
同時に利用するように構成されてもよい。そして、照合
データによって、相手の被照合データを異ならせる処理
が行われてもよい。この構成は、複数の照合データの同
時処理を可能とすることでさらなる高速化に寄与する。
例えば上述の実施形態のブラスト検索において複数の分
割配列を照合データとして用いる場合に有利である。
【0169】本発明の並列照合機能付き記憶処理装置
(CAMを含む)は、プロセッサの一部であってもよ
い。このプロセッサを利用し、その記憶処理部に本発明
の処理を行わせることも、本発明の範囲に含まれる。こ
の種のプロセッサには、図3を用いて説明したような、
記憶処理装置を利用するための本発明の処理機能の一部
または全部が備えられてもよい。この場合には、プロセ
ッサは本発明の配列情報処理装置(少なくとも一部)を
構成する。
【0170】(2)本発明の一態様は、並列照合機能を
もつ記憶処理装置に、複数の配列情報を、被照合データ
として用いるために、照合方向と交差する方向を向け
て、照合方向に並ぶように記憶させる。そして、本発明
は、照合方向に並んで隣接する複数の配列情報のデータ
を被照合データとして用いて、配列要素を表す文字等の
コードとして同一のものが並ぶ同一コード列に対応する
データを照合データとして用いて、照合データと被照合
データを並列処理にて記憶処理装置に照合させる。
【0171】このように、本発明は、照合方向と交差す
る方向を向けて配列情報を記憶させるという、記憶処理
装置の特徴的な使い方をしている。したがって、被照合
データは、照合方向に並んだ複数配列のデータで構成さ
れる。そして、照合データとして、同一コード列に対応
するデータが用いられる。これら被照合データと照合デ
ータの並列照合処理により、複数の配列が一致するか否
かが高速に求められる。
【0172】計算量を検討すると、本発明では並列処理
機能が適切に利用され、同一文字列に対応する照合デー
タが用いられるので、本発明の処理の計算量は従来の処
理よりも大幅に低減される。塩基を想定した単純化され
た例では、n文字の配列が処理されるとき、従来の処理
の計算量は、「4のn乗」で表される。「4」は、塩基
の種類数である。一方、本発明では、4つの同一文字列
の各々を使って照合が行われる。したがって、本発明の
処理の計算量は、4回の照合に相当し、従来の処理より
も大幅に少ない。文字数nが増大するほど、計算量の差
が大きくなる。
【0173】さらに、本発明の利点は、配列要素の種類
が多いときに顕著である。上記の例において、天然のア
ミノ酸を想定したとき、従来の処理の計算量は「20の
n乗」で表される。20は、アミノ酸の種類数である。
塩基の例(「4のn乗」)と比べると、計算量は、「5
のn乗」倍である。一方、本発明では、アミノ酸を想定
したときは、同一文字列に対応する照合データの数が、
20である。塩基の例と比べると、計算量は、5倍(2
0÷4)にしかならない。このように、配列要素の種類
数に応じた計算量の増大に関して、本発明の方が従来処
理より明らかに増大の程度が小さい。この点でも、本発
明は、従来の処理配列処理を有利に高速化できる。
【0174】本発明は、CAMの例を用いて説明したよ
うに、記憶処理装置の照合方向の幅が、配列の長さより
狭いときに、特に有利である。実際に処理される配列は
長いことが多いので、このような場合は頻繁にあり得
る。本発明によれば、記憶処理装置の照合方向と交差す
る方向に配列情報を記憶させるので、長大な配列も記憶
処理装置に収容できる。そして、同一コード列に対応す
る照合データを用いることで、交差方向に記憶される配
列の一致性を求められる。そして、この処理が、並列照
合処理により高速に行われる。このようにして、本発明
によれば、並列照合処理機能をもつ記憶処理装置を利用
し、配列解析を好適に高速化できる。
【0175】好ましくは、本発明は、配列情報を構成す
る複数種類のコードの各々について、同一コード列に対
応するデータを照合データとして用いた照合を行い、複
数回の照合結果を処理して、複数の配列情報の一致に関
する情報を得る。例えば、塩基配列の場合、上述の実施
形態で説明したように、A、G、T、Cの各コードが照
合にかけられる。さらに、好ましくは、上述の実施形態
で説明したように、論理演算を用いた処理が行われる。
本発明によれば、複数種類の同一コード列を使って照合
が行われ、いずれかの同一コード列を使ったときに被照
合データと照合データが一致したか否かが判定される。
したがって、配列中の各位置のコードが何であるかを意
識することなく、同様の処理により、配列が一致するか
否かを求められ、処理が簡単になる。
【0176】好ましくは、本発明は、複数の配列情報の
一部を照合対象から除外して、照合処理を行う。これに
より、他の配列情報と一致しない配列情報を特定するこ
とができる。
【0177】好ましくは、本発明は、照合データと被照
合データが一致しないとき、多型により他の配列と異な
る配列があると判定する。これにより、SNPs等の多
型解析ができる。さらに、好ましくは、本発明は、複数
の配列情報の一部を照合対象から除外して、照合処理を
行う。これにより、SNPs等の多型解析にて、他の配
列と異なる配列を特定できる。
【0178】好ましくは、本発明は、照合データと被照
合データが連続して一致する部分と、照合データと被照
合データが連続して一致しない部分とが隣接するとき、
それら部分の境界に欠損または挿入があると判定する。
このようにして、本発明によれば、欠損または挿入を検
出できる。さらに、好ましくは、本発明は、複数の配列
情報の一部を照合対象から除外して、照合処理を行う。
これにより、欠損または挿入がある配列情報を特定する
ことができる。
【0179】また、好ましくは、本発明は、欠損または
挿入がある配列情報を、照合方向と交差する方向にずら
して記憶させて、照合処理を行う。これにより、欠損と
挿入のどちらがあるかを判定できる。上述の実施形態を
用いて説明したように、欠損がある場合と、挿入がある
場合では、シフト時の照合結果が特徴的に異なるからで
ある。
【0180】なお、本発明の範囲内で、欠損または挿入
のいずれか一方を検出するために本発明が適用されても
よい。すなわち欠損または挿入のいずれか一方が配列情
報処理により検出されてもよい。
【0181】好ましくは、本発明は、照合データと被照
合データが連続して一致し、照合データと被照合データ
が一致しない部分があり、再び照合データと被照合デー
タが連続して一致するとき、一致しない部分に置換があ
ると判定する。このようにして、本発明によれば、置換
が検出できる。好ましくは、同一長さの配列のみが比較
される。これにより正確な結果が得られる。さらに好ま
しくは、本発明は、複数の配列情報の一部を照合対象か
ら除外して、照合処理を行う。これにより、置換がある
配列情報を特定することができる。
【0182】好ましくは、本態様、すなわち、交差方向
に配列を記憶する態様において、並列照合機能をもつ記
憶処理装置は、CAMである。CAMは、既に述べたよ
うに、並列照合機能をもつ点で、配列情報の処理に適し
た特性をもち、配列解析を高速化できる。また、CAM
は、これまで配列情報処理には用いられていないが、イ
ンターネットルータ部品として普及しており、安価であ
る。したがって、CAMを使うことで、低コストで高速
な配列解析が可能となる。さらに、通常のCAMは、照
合方向の幅が比較的狭いにも拘わらず、本発明によれ
ば、配列の記憶する方向を照合方向と交差させること
で、そして、同一コード列に対応するデータを照合デー
タとして用いることで、長い配列の照合を可能としてい
る。しかも、CAMの並列照合機能が活かされ、高速な
解析が可能となる。
【0183】好ましくは、本態様、すなわち、交差方向
に配列を記憶する態様は、上述の処理により、SNPs
解析に用いる情報を得る。SNPs解析では、多くの配
列を迅速に処理することが求められる。特に、今後、ゲ
ノム創薬およびオーダーメード医療が実用化され、多数
のサンプルのSNPs解析が必要になると考えられる。
そして、大型コンピュータを使わないでも、高速にSN
Ps解析を行えることが望ましい。本発明によれば、こ
のようなニーズに適切に応えることが可能である。
【0184】(3)本発明の一態様は、並列照合機能を
もつ記憶処理装置に、生物学的な配列情報を、被照合デ
ータとして用いるために、照合方向を向けて記憶させ
る。さらに本発明は、照合対象の配列情報を照合データ
として用いて、照合データと被照合データを並列処理に
て記憶処理装置に照合させる。この態様では、上述の態
様と異なり、配列情報が照合方向を向けて記憶される。
したがって、上述の態様に関して説明したような、記憶
の方向を異ならせることによる利点は得られない。しか
し、本態様でも、並列照合機能を利用した並列処理によ
る高速化という利点が得られる。以下は、本発明のさら
に詳細な態様である。
【0185】(4)本発明の一態様は、並列照合機能を
もつ記憶処理装置に、塩基配列、アミノ酸配列等の生物
学的な複数の配列情報を、被照合データとして用いるた
めに、照合方向を向けて記憶させる。そして本発明は、
参照配列を照合データとして用いて、照合データと被照
合データを並列処理にて記憶処理装置に照合させる。典
型的には、部分配列からなる参照配列を用いて、ブラス
ト検索で行われるような、局所的一致箇所が求められ
る。本発明によれば、並列照合機能を利用して、複数の
配列の各々が参照配列を含むか否かが、高速に求められ
る。
【0186】好ましくは、本発明は、参照配列に相当す
る長さをもつ照合対象部分と残りの照合除外部分とを設
定して照合処理を行い、照合除外部分の位置を異ならせ
た複数回の照合処理を行う。上述の実施形態では、DC
bitを用いて、照合除外部分が設定された。本発明に
よれば、照合除外部分を異ならせて照合処理を行うこと
で、参照配列が、被照合データたる配列のどの部分と一
致する場合でも、その一致を適切に検出できる。また、
一致する部分の特定も可能となる。
【0187】好ましくは、本発明は、一連の配列を複数
の分割配列情報に分けて、複数の分割配列情報を、照合
方向と交差する方向に並ぶように、並列照合機能をもつ
記憶処理装置に記憶させて、各分割配列情報の一部が参
照配列と一致するか否かを並列処理により求める。
【0188】本発明は、CAMの例を用いて説明したよ
うに、記憶処理装置の照合方向の幅が狭く、交差方向の
長さが大きいときに、特に有利である。本発明によれ
ば、照合方向の幅が狭い場合でも、配列を分割すること
で、交差方向の長さを活かして、長い配列を記憶可能で
ある。交差方向の長さを利用して、大量の配列を同時に
記憶させ、並列して処理することもできる。
【0189】さらに、本態様の配列分割は、計算の高速
化にとって有利である。分割により、照合方向の配列長
さが小さくなる。これにより計算量が少なくなる。上述
の複数種類の照合除外部分を設定するとき、すなわち、
上述の実施形態ではDCbitの複数のパターンを用い
るとき、照合方向の配列長さが小さい方が、計算量が少
なくなる。したがって本発明は、記憶処理装置が照合方
向に狭く、交差方向に長いとき、このことを障害とせ
ず、むしろ、配列分割と並列処理により計算量を削減
し、配列解析の一層の高速化を可能としている。
【0190】なお、本発明の範囲内で、連続する分割配
列は、記憶処理装置上で隣合わせに並べられなくてもよ
い。それらが離れていても構わない。
【0191】好ましくは、本発明は、複数の分割配列情
報の照合結果を処理して、配列情報が参照配列を含むか
否かを判定する。ここでは、典型的には、上述の実施形
態で説明したような論理演算が行われる。これにより、
簡単な処理で、参照配列が含まれるか否かが求められ
る。
【0192】好ましくは、本発明は、参照配列の端の部
分を照合データとして用いた照合を行って、隣接する分
割配列情報に跨る参照配列を検出する。これにより、複
数の分割配列に、参照配列と一致する部分配列が跨ると
きでも、すなわち、記憶処理装置上の複数の列に、参照
配列と一致する部分配列が跨るときでも、そのような部
分配列を検出できる。また、そのような部分配列の位置
を特定することも可能となる。
【0193】好ましくは、本発明は、隣接する分割配列
情報を部分的に重複させる。この処理によっても、分割
箇所の参照配列を、漏らすことなく検出可能である。
【0194】好ましくは、本態様、すなわち、照合方向
に配列を記憶させる態様において、並列照合機能をもつ
記憶処理装置は、CAMである。CAMは、既に述べた
ように、並列照合機能をもつ点で、配列情報の処理に適
した特性をもち、配列解析を高速化できる。また、CA
Mは、これまで配列情報処理には用いられていないが、
インターネットルータ部品として普及しており、安価で
ある。したがって、CAMを使うことで、低コストで高
速な配列解析が可能となる。さらに、通常のCAMは、
照合方向の幅が比較的狭いにも拘わらず、本発明によれ
ば、配列の分割記憶により、長い配列をCAMに記憶で
きる。CAMの長さを利用して、大量の配列を記憶させ
て同時に処理することもできる。さらに、配列分割によ
り照合方向の配列長さを縮めることで、計算量を実質的
に削減し、さらなる高速化も図れる。このようにして、
本発明によれば、CAMの特性を利用して、配列解析を
好適に高速化できる。
【0195】好ましくは、本態様、すなわち、照合方向
に配列を記憶させる態様において、上述の処理により、
ブラスト法等のホモロジー解析に用いる情報が得られ
る。例えば、データベースの大量の配列を使ってブラス
ト検索を行うような場合、本発明の高速化は特に有用と
考えられる。
【0196】(5)本発明の一態様は、並列照合機能を
もつ記憶処理装置に、同一の配列情報を少しずつずらし
て、被照合データとして用いるために、照合方向を向け
て記憶させる。配列情報は所定文字数ずつ、通常は一文
字ずつずらされる。そして、本発明は、比較対象の別の
配列情報を照合データとして用いて、少しずつずらして
記憶された同一の配列情報を被照合データとして用い
て、照合データと被照合データを並列処理にて記憶処理
装置に照合させる。本発明によれば、複数の配列情報が
連続して一致する部分が、並列処理を利用して高速に求
められる。最長一致部分を求めることも可能であり、ま
た、連続一致部分の位置を特定することも可能である。
並列照合機能をもつ記憶処理装置を利用し、少しずつず
らして配列を記憶させるという特徴的な使い方により、
例えばファスタ検索においてドットマトリックスを用い
て得られるのと同様の、連続一致部分の情報を得ること
ができる。
【0197】好ましくは、本発明は、配列情報の部分的
な照合を行うことで、配列の部分一致を求める。好まし
くは、本発明は、配列情報の部分的な照合を行うため
に、照合除外部分を設定する。上述の実施形態では、C
AMの特性に基づき、DCbitを設定することで、照
合除外部分が好適に設定された。さらに、好ましくは、
本発明は、配列情報の部分的な照合を、複数種類の部分
照合パターンで行うことにより、複数種類の長さの配列
一致部分を検索する。複数種類の部分照合パターンは、
図20に例示されている。本発明によれば、各種の長さ
の連続一致部分の情報が得られる。最長一致部分も適切
に検出される。
【0198】好ましくは、本発明は、同一の配列情報
を、並列処理機能をもつ記憶処理装置の異なる領域に、
少しずつずらして記憶させる。これにより、少しずつず
らされた同一配列が並列処理され、高速に検索結果が得
られる。
【0199】好ましくは、本発明は、一連の配列を複数
の分割配列情報に分ける。本発明は、複数の分割配列情
報を、照合方向と交差する方向に並ぶように、並列照合
機能をもつ記憶処理装置に記憶させる。記憶処理装置の
照合方向の幅が狭い場合でも、長い配列を記憶処理装置
に記憶させて、並列処理による配列解析ができる。
【0200】なお、本発明の範囲内で、連続する分割配
列は、記憶処理装置上で隣合わせに並べられなくてもよ
い。それらが離れていても構わない。
【0201】好ましくは、本発明は、隣接する分割配列
情報に跨って配列が一致する部分を、連続して配列が一
致する部分として求める。本発明によれば、連続一致部
分が複数の分割配列、すなわち記憶処理装置の複数の列
に跨るときでも、そのような連続一致部分を検出でき
る。
【0202】好ましくは、本態様において、並列照合機
能をもつ記憶処理装置は、CAMである。CAMは、既
に述べたように、並列照合機能をもつ点で、配列情報の
処理に適した特性をもち、配列解析を高速化できる。ま
た、CAMは、これまで配列情報処理には用いられてい
ないが、インターネットルータ部品として普及してお
り、安価である。したがって、CAMを使うことで、低
コストで高速な配列解析が可能となる。さらに、通常の
CAMは、照合方向の幅が比較的狭いにも拘わらず、本
発明によれば、配列の分割記憶により、長い配列をCA
Mに記憶できる。また、CAMの長さを利用して、大量
の配列を記憶させて同時に処理することもできる。この
ようにして、本発明によれば、CAMの特性を利用し
て、配列解析を好適に高速化できる。
【0203】好ましくは、本態様において、上述の処理
により、ファスタ法等のホモロジー解析に用いる情報が
得られる。例えば、データベースの大量の配列を使って
ファスタ検索を行うような場合、本発明の高速化は特に
有用と考えられる。
【図面の簡単な説明】
【図1】本発明の好適な本実施形態における生物学的配
列情報処理装置のハードウエア構成を示す図である。
【図2】インターネットのルータに用いるときのCAM
の通常の機能を示す図である。
【図3】本実施形態の生物学的配列情報処理装置の機能
ブロック図である。
【図4】図3の装置によるSNPs解析処理を示す図で
ある。
【図5】SNPs解析におけるDCbitの設定のパタ
ーンを示す図である。
【図6】図4の処理に対応するフローチャートである。
【図7】図3の装置による欠損または挿入の検出処理を
示す図である。
【図8】図7の処理に対応するフローチャートである。
【図9】図3の装置による置換検出処理のフローチャー
トである。
【図10】図3の装置によるブラスト検索の対象になる
配列の例を示す図である。
【図11】図3の装置によるブラスト検索処理を示す図
であり、図10の配列をCAMに記憶させた状態を示す
図である。
【図12】図11の処理で設定されるDCbitを示す
図である。
【図13】図11の照合結果を処理して参照配列の有無
の判定を行う論理演算処理を示す図である。
【図14】図11の処理に対応するフローチャートであ
る。
【図15】参照配列の端の部分を照合データとして用い
ることにより、複数の分割配列に跨る参照配列を求める
処理を示す図である。
【図16】隣接する分割配列を重複させることにより、
分割箇所の参照配列を検出可能とした形態を示す図であ
る。
【図17】ファスタ検索で用いられるドットマトリック
スを概念的に示す図である。
【図18】ファスタ検索で実際に用いられるドットマト
リックスの例を示す図である。
【図19】図3の装置によるファスタ検索処理を示す図
である。
【図20】図19の処理にて、各種の長さの連続一致部
分を検出する処理を示す図であって、DCbitの各種
の設定パターンを示す図である。
【図21】図19の処理で配列を複数に分割するときの
処理を示す図である。
【図22】図21の処理に関して、複数の分割配列に跨
った連続一致部分の検出処理を示す図である。
【図23】図21の処理に対応するフローチャートであ
る。
【符号の説明】
10 配列情報処理装置 12 CPU 18 CAM 20 ハードディスク 30 配列処理制御部 32 配列情報取得部 34 被照合データ投入部 36 照合データ投入部 38 照合結果取得部 40 照合結果処理部 42 解析情報出力部
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 4B024 AA20 CA01 HA19 5B075 ND20 UU18

Claims (97)

    【特許請求の範囲】
  1. 【請求項1】 並列照合機能をもつ記憶処理装置に、塩
    基配列、アミノ酸配列等の生物学的な配列情報を被照合
    データとして用いるために記憶させて、照合データと被
    照合データを並列処理にて前記記憶処理装置に照合させ
    て、照合データと被照合データの一致を示す情報を得る
    ことにより配列解析情報を得ることを特徴とする生物学
    的配列情報処理方法。
  2. 【請求項2】 請求項1に記載の生物学的配列情報処理
    方法において、 前記並列照合機能をもつ記憶処理装置は、CAM(Co
    ntent Addressable Memory)
    であり、一つの照合データと複数の被照合データを並列
    処理にて比較し、照合データと各被照合データの一致を
    示す情報を出力することを特徴とする生物学的配列情報
    処理方法。
  3. 【請求項3】 並列照合機能をもつ記憶処理装置に、塩
    基配列、アミノ酸配列等の生物学的な複数の配列情報
    を、被照合データとして用いるために、照合方向と交差
    する方向を向けて、照合方向に並ぶように記憶させる被
    照合データ記憶ステップと、 照合方向に並んで隣接する前記複数の配列情報のデータ
    を被照合データとして用いて、配列要素を表す文字等の
    コードとして同一のものが並ぶ同一コード列に対応する
    データを照合データとして用いて、照合データと被照合
    データを並列処理にて前記記憶処理装置に照合させる照
    合ステップと、 を含むことを特徴とする生物学的配列情報処理方法。
  4. 【請求項4】 請求項3に記載の生物学的配列情報処理
    方法において、 配列情報を構成する複数種類のコードの各々について、
    同一コード列に対応するデータを照合データとして用い
    た照合を行い、複数回の照合結果を処理して、前記複数
    の配列情報の一致に関する情報を得ることを特徴とする
    生物学的配列情報処理方法。
  5. 【請求項5】 請求項3に記載の生物学的配列情報処理
    方法において、 複数の配列情報の一部を照合対象から除外して、照合処
    理を行うことにより、他の配列情報と一致しない配列情
    報を特定することを特徴とする生物学的配列情報処理方
    法。
  6. 【請求項6】 請求項3に記載の生物学的配列情報処理
    方法において、 照合データと被照合データが一致しないとき、多型によ
    り他の配列と異なる配列があると判定することを特徴と
    する生物学的配列情報処理方法。
  7. 【請求項7】 請求項6に記載の生物学的配列情報処理
    方法において、 複数の配列情報の一部を照合対象から除外して、照合処
    理を行うことにより、他の配列と異なる配列を特定する
    ことを特徴とする生物学的配列情報処理方法。
  8. 【請求項8】 請求項3に記載の生物学的配列情報処理
    方法において、 照合データと被照合データが連続して一致する部分と、
    照合データと被照合データが連続して一致しない部分と
    が隣接するとき、それら部分の境界に欠損または挿入が
    あると判定することを特徴とする生物学的配列情報処理
    方法。
  9. 【請求項9】 請求項8に記載の生物学的配列情報処理
    方法において、 複数の配列情報の一部を照合対象から除外して、照合処
    理を行うことにより、欠損または挿入がある配列情報を
    特定することを特徴とする生物学的配列情報処理方法。
  10. 【請求項10】 請求項9に記載の生物学的配列情報処
    理方法において、 前記欠損または挿入がある配列情報を、前記照合方向と
    交差する方向にずらして記憶させて、照合処理を行うこ
    とにより、欠損と挿入のどちらがあるかを判定すること
    を特徴とする生物学的配列情報処理方法。
  11. 【請求項11】 請求項3に記載の生物学的配列情報処
    理方法において、 照合データと被照合データが連続して一致し、照合デー
    タと被照合データが一致しない部分があり、再び照合デ
    ータと被照合データが連続して一致するとき、前記一致
    しない部分に置換があると判定することを特徴とする生
    物学的配列情報処理方法。
  12. 【請求項12】 請求項11に記載の生物学的配列情報
    処理方法において、 複数の配列情報の一部を照合対象から除外して、照合処
    理を行うことにより、置換がある配列情報を特定するこ
    とを特徴とする生物学的配列情報処理方法。
  13. 【請求項13】 請求項3〜12のいずれかに記載の生
    物学的配列情報処理方法において、 前記並列照合機能をもつ記憶処理装置は、CAM(Co
    ntent Addressable Memory)
    であり、同一コード列に対応するデータで構成される照
    合データを、複数の被照合データの各々と並列処理にて
    比較し、照合データと各被照合データの一致を示す情報
    を出力することを特徴とする生物学的配列情報処理方
    法。
  14. 【請求項14】 請求項3〜13のいずれかに記載の生
    物学的配列情報処理方法において、 SNPs解析に用いる情報を得ることを特徴とする生物
    学的配列情報処理方法。
  15. 【請求項15】 並列照合機能をもつ記憶処理装置に、
    塩基配列、アミノ酸配列等の生物学的な配列情報を、被
    照合データとして用いるために、照合方向を向けて記憶
    させる被照合データ記憶ステップと、 照合対象の配列情報を照合データとして用いて、照合デ
    ータと被照合データを並列処理にて前記記憶処理装置に
    照合させる照合ステップと、 を含むことを特徴とする生物学的配列情報処理方法。
  16. 【請求項16】 並列照合機能をもつ記憶処理装置に、
    塩基配列、アミノ酸配列等の生物学的な複数の配列情報
    を、被照合データとして用いるために、照合方向を向け
    て記憶させる被照合データ記憶ステップと、 参照配列を照合データとして用いて、照合データと被照
    合データを並列処理にて前記記憶処理装置に照合させる
    照合ステップと、 を含むことを特徴とする生物学的配列情報処理方法。
  17. 【請求項17】 請求項16に記載の生物学的配列情報
    処理方法において、 参照配列に相当する長さをもつ照合対象部分と残りの照
    合除外部分とを設定して照合処理を行い、照合除外部分
    の位置を異ならせた複数回の照合処理を行うことを特徴
    とする生物学的配列情報処理方法。
  18. 【請求項18】 請求項16または17に記載の生物学
    的配列情報処理方法において、 一連の配列を複数の分割配列情報に分けて、前記複数の
    分割配列情報を、照合方向と交差する方向に並ぶよう
    に、前記並列照合機能をもつ記憶処理装置に記憶させ
    て、各分割配列情報の一部が前記参照配列と一致するか
    否かを並列処理により求めることを特徴とする生物学的
    配列情報処理方法。
  19. 【請求項19】 請求項18に記載の生物学的配列情報
    処理方法において、 複数の分割配列情報の照合結果を処理して、前記配列情
    報が前記参照配列を含むか否かを判定することを特徴と
    する生物学的配列情報処理方法。
  20. 【請求項20】 請求項18に記載の生物学的配列情報
    処理方法において、 参照配列の端の部分を照合データとして用いた照合を行
    って、隣接する分割配列情報に跨る参照配列を検出する
    ことを特徴とする生物学的配列情報処理方法。
  21. 【請求項21】 請求項18に記載の生物学的配列情報
    処理方法において、 隣接する分割配列情報を部分的に重複させることによ
    り、分割箇所の参照配列を検出可能としたことを特徴と
    する生物学的配列情報処理方法。
  22. 【請求項22】 請求項16〜21のいずれかに記載の
    生物学的配列情報処理方法において、 前記並列照合機能をもつ記憶処理装置は、CAM(Co
    ntent Addressable Memory)
    であり、参照配列に対応するデータで構成される照合デ
    ータを、複数の被照合データの各々と並列処理にて比較
    し、照合データと各被照合データの一致を示す情報を出
    力することを特徴とする生物学的配列情報処理方法。
  23. 【請求項23】 請求項16〜22のいずれかに記載の
    生物学的配列情報処理方法において、 ブラスト法等のホモロジー解析に用いる情報を得ること
    を特徴とする生物学的配列情報処理方法。
  24. 【請求項24】 塩基配列、アミノ酸配列等の複数の生
    物学的な配列情報を比較するための生物学的配列情報処
    理方法であって、 並列照合機能をもつ記憶処理装置に、同一の配列情報を
    少しずつずらして、被照合データとして用いるために、
    照合方向を向けて記憶させる被照合データ記憶ステップ
    と、 比較対象の別の配列情報を照合データとして用いて、少
    しずつずらして記憶された同一の配列情報を被照合デー
    タとして用いて、照合データと被照合データを並列処理
    にて前記記憶処理装置に照合させる照合ステップと、を
    含むことを特徴とする生物学的配列情報処理方法。
  25. 【請求項25】 請求項24に記載の生物学的配列情報
    処理方法において、 配列情報の部分的な照合を行うことで、配列の部分一致
    を求めることを特徴とする生物学的配列情報処理方法。
  26. 【請求項26】 請求項25に記載の生物学的配列情報
    処理方法において、 配列情報の部分的な照合を行うために、照合除外部分を
    設定することを特徴とする生物学的配列情報処理方法。
  27. 【請求項27】 請求項25または26に記載の生物学
    的配列情報処理方法において、 配列情報の部分的な照合を、複数種類の部分照合パター
    ンで行うことにより、複数種類の長さの配列一致部分を
    検索することを特徴とする生物学的配列情報処理方法。
  28. 【請求項28】 請求項24〜27のいずれかに記載の
    生物学的配列情報処理方法において、 同一の配列情報を、前記並列処理機能をもつ記憶処理装
    置の異なる領域に、少しずつずらして記憶させることを
    特徴とする生物学的配列情報処理方法。
  29. 【請求項29】 請求項24〜28のいずれかに記載の
    生物学的配列情報処理方法において、 一連の配列を複数の分割配列情報に分けて、前記複数の
    分割配列情報を、照合方向と交差する方向に並ぶよう
    に、前記並列照合機能をもつ記憶処理装置に記憶させる
    ことを特徴とする生物学的配列情報処理方法。
  30. 【請求項30】 請求項29に記載の生物学的配列情報
    処理方法において、 隣接する分割配列情報に跨って配列が一致する部分を、
    連続して配列が一致する部分として求めることを特徴と
    する生物学的配列情報処理方法。
  31. 【請求項31】 請求項24〜30のいずれかに記載の
    生物学的配列情報処理方法において、 前記並列照合機能をもつ記憶処理装置は、CAM(Co
    ntent Addressable Memory)
    であり、少しずつずらして記憶される同一の配列情報を
    被照合データとして、比較対象の別の配列情報を照合デ
    ータとして用いて、被照合データと照合データを並列処
    理にて比較し、照合データと各被照合データの一致を示
    す情報を出力することを特徴とする生物学的配列情報処
    理方法。
  32. 【請求項32】 請求項24〜31のいずれかに記載の
    生物学的配列情報処理方法において、 ファスタ法等のホモロジー解析に用いる情報を得ること
    を特徴とする生物学的配列情報処理方法。
  33. 【請求項33】 塩基配列、アミノ酸配列等の生物学的
    な配列情報を処理する生物学的配列情報処理装置であっ
    て、 並列照合機能をもつ記憶処理装置と、解析対象の配列情
    報を取得する手段と、前記記憶処理装置に被照合データ
    を記憶させる手段と、前記記憶処理装置に照合データを
    投入して、前記記憶処理装置に照合データと被照合デー
    タを照合させる手段と、前記記憶処理装置から照合結果
    を取得する手段と、取得された照合結果を処理する手段
    と、 を含み、 前記並列照合機能をもつ記憶処理装置に、配列情報を被
    照合データとして用いるために記憶させて、照合データ
    と被照合データを並列処理にて前記記憶処理装置に照合
    させて、照合データと被照合データの一致を示す情報を
    得ることにより配列解析情報を得ることを特徴とする生
    物学的配列情報処理装置。
  34. 【請求項34】 請求項33に記載の生物学的配列情報
    処理装置において、 前記並列照合機能をもつ記憶処理装置は、CAM(Co
    ntent Addressable Memory)
    であり、一つの照合データと複数の被照合データを並列
    処理にて比較し、照合データと各被照合データの一致を
    示す情報を出力することを特徴とする生物学的配列情報
    処理装置。
  35. 【請求項35】 塩基配列、アミノ酸配列等の生物学的
    な配列情報を処理する生物学的配列情報処理装置であっ
    て、 並列照合機能をもつ記憶処理装置と、解析対象の配列情
    報を取得する手段と、前記記憶処理装置に被照合データ
    を記憶させる手段と、前記記憶処理装置に照合データを
    投入して、前記記憶処理装置に照合データと被照合デー
    タを照合させる手段と、前記記憶処理装置から照合結果
    を取得する手段と、取得された照合結果を処理する手段
    と、 を含み、 前記並列照合機能をもつ記憶処理装置に、複数の配列情
    報を、被照合データとして用いるために、照合方向と交
    差する方向を向けて、照合方向に並ぶように記憶させ、
    照合方向に並んで隣接する前記複数の配列情報のデータ
    を被照合データとして用いて、配列要素を表す文字等の
    コードとして同一のものが並ぶ同一コード列に対応する
    データを照合データとして用いて、照合データと被照合
    データを並列処理にて前記記憶処理装置に照合させるこ
    とを特徴とする生物学的配列情報処理装置。
  36. 【請求項36】 請求項35に記載の生物学的配列情報
    処理装置において、 配列情報を構成する複数種類のコードの各々について、
    同一コード列に対応するデータを照合データとして用い
    た照合を行い、複数回の照合結果を処理して、前記複数
    の配列情報の一致に関する情報を得ることを特徴とする
    生物学的配列情報処理装置。
  37. 【請求項37】 請求項35に記載の生物学的配列情報
    処理装置において、 複数の配列情報の一部を照合対象から除外して、照合処
    理を行うことにより、他の配列情報と一致しない配列情
    報を特定することを特徴とする生物学的配列情報処理装
    置。
  38. 【請求項38】 請求項35に記載の生物学的配列情報
    処理装置において、 照合データと被照合データが一致しないとき、多型によ
    り他の配列と異なる配列があると判定することを特徴と
    する生物学的配列情報処理装置。
  39. 【請求項39】 請求項38に記載の生物学的配列情報
    処理装置において、 複数の配列情報の一部を照合対象から除外して、照合処
    理を行うことにより、他の配列と異なる配列を特定する
    ことを特徴とする生物学的配列情報処理装置。
  40. 【請求項40】 請求項35に記載の生物学的配列情報
    処理装置において、 照合データと被照合データが連続して一致する部分と、
    照合データと被照合データが連続して一致しない部分と
    が隣接するとき、それら部分の境界に欠損または挿入が
    あると判定することを特徴とする生物学的配列情報処理
    装置。
  41. 【請求項41】 請求項40に記載の生物学的配列情報
    処理装置において、 複数の配列情報の一部を照合対象から除外して、照合処
    理を行うことにより、欠損または挿入がある配列情報を
    特定することを特徴とする生物学的配列情報処理装置。
  42. 【請求項42】 請求項41に記載の生物学的配列情報
    処理装置において、 前記欠損または挿入がある配列情報を、前記照合方向と
    交差する方向にずらして記憶させて、照合処理を行うこ
    とにより、欠損と挿入のどちらがあるかを判定すること
    を特徴とする生物学的配列情報処理装置。
  43. 【請求項43】 請求項35に記載の生物学的配列情報
    処理装置において、 照合データと被照合データが連続して一致し、照合デー
    タと被照合データが一致しない部分があり、再び照合デ
    ータと被照合データが連続して一致するとき、前記一致
    しない部分に置換があると判定することを特徴とする生
    物学的配列情報処理装置。
  44. 【請求項44】 請求項43に記載の生物学的配列情報
    処理装置において、 複数の配列情報の一部を照合対象から除外して、照合処
    理を行うことにより、置換がある配列情報を特定するこ
    とを特徴とする生物学的配列情報処理装置。
  45. 【請求項45】 請求項35〜44のいずれかに記載の
    生物学的配列情報処理装置において、 前記並列照合機能をもつ記憶処理装置は、CAM(Co
    ntent Addressable Memory)
    であり、同一コード列に対応するデータで構成される照
    合データを、複数の被照合データの各々と並列処理にて
    比較し、照合データと各被照合データの一致を示す情報
    を出力することを特徴とする生物学的配列情報処理装
    置。
  46. 【請求項46】 請求項35〜45のいずれかに記載の
    生物学的配列情報処理装置において、 SNPs解析に用いる情報を得ることを特徴とする生物
    学的配列情報処理装置。
  47. 【請求項47】 塩基配列、アミノ酸配列等の生物学的
    な配列情報を処理する生物学的配列情報処理装置であっ
    て、 並列照合機能をもつ記憶処理装置と、解析対象の配列情
    報を取得する手段と、前記記憶処理装置に被照合データ
    を記憶させる手段と、前記記憶処理装置に照合データを
    投入して、前記記憶処理装置に照合データと被照合デー
    タを照合させる手段と、前記記憶処理装置から照合結果
    を取得する手段と、取得された照合結果を処理する手段
    と、 を含み、 前記並列照合機能をもつ記憶処理装置に配列情報を被照
    合データとして用いるために照合方向を向けて記憶さ
    せ、照合対象の配列情報を照合データとして用いて、照
    合データと被照合データを並列処理にて前記記憶処理装
    置に照合させることを特徴とする生物学的配列情報処理
    装置。
  48. 【請求項48】 塩基配列、アミノ酸配列等の生物学的
    な配列情報を処理する生物学的配列情報処理装置であっ
    て、 並列照合機能をもつ記憶処理装置と、解析対象の配列情
    報を取得する手段と、前記記憶処理装置に被照合データ
    を記憶させる手段と、前記記憶処理装置に照合データを
    投入して、前記記憶処理装置に照合データと被照合デー
    タを照合させる手段と、前記記憶処理装置から照合結果
    を取得する手段と、取得された照合結果を処理する手段
    と、 を含み、 前記並列照合機能をもつ記憶処理装置に複数の配列情報
    を被照合データとして用いるために照合方向を向けて記
    憶させ、参照配列を照合データとして用いて、照合デー
    タと被照合データを並列処理にて前記記憶処理装置に照
    合させることを特徴とする生物学的配列情報処理装置。
  49. 【請求項49】 請求項48に記載の生物学的配列情報
    処理装置において、 参照配列に相当する長さをもつ照合対象部分と残りの照
    合除外部分とを設定して照合処理を行い、照合除外部分
    の位置を異ならせた複数回の照合処理を行うことを特徴
    とする生物学的配列情報処理装置。
  50. 【請求項50】 請求項48または49に記載の生物学
    的配列情報処理装置において、 一連の配列を複数の分割配列情報に分けて、前記複数の
    分割配列情報を、照合方向と交差する方向に並ぶよう
    に、前記並列照合機能をもつ記憶処理装置に記憶させ
    て、各分割配列情報の一部が前記参照配列と一致するか
    否かを並列処理により求めることを特徴とする生物学的
    配列情報処理装置。
  51. 【請求項51】 請求項50に記載の生物学的配列情報
    処理装置において、 複数の分割配列情報の照合結果を処理して、前記配列情
    報が前記参照配列を含むか否かを判定することを特徴と
    する生物学的配列情報処理装置。
  52. 【請求項52】 請求項50に記載の生物学的配列情報
    処理装置において、 参照配列の端の部分を照合データとして用いた照合を行
    って、隣接する分割配列情報に跨る参照配列を検出する
    ことを特徴とする生物学的配列情報処理装置。
  53. 【請求項53】 請求項50に記載の生物学的配列情報
    処理装置において、 隣接する分割配列情報を部分的に重複させることによ
    り、分割箇所の参照配列を検出可能としたことを特徴と
    する生物学的配列情報処理装置。
  54. 【請求項54】 請求項48〜53のいずれかに記載の
    生物学的配列情報処理装置において、 前記並列照合機能をもつ記憶処理装置は、CAM(Co
    ntent Addressable Memory)
    であり、参照配列に対応するデータで構成される照合デ
    ータを、複数の被照合データの各々と並列処理にて比較
    し、照合データと各被照合データの一致を示す情報を出
    力することを特徴とする生物学的配列情報処理装置。
  55. 【請求項55】 請求項48〜54のいずれかに記載の
    生物学的配列情報処理装置において、 ブラスト法等のホモロジー解析に用いる情報を得ること
    を特徴とする生物学的配列情報処理装置。
  56. 【請求項56】 塩基配列、アミノ酸配列等の複数の生
    物学的な配列情報を比較するための生物学的配列情報処
    理装置であって、 並列照合機能をもつ記憶処理装置と、解析対象の配列情
    報を取得する手段と、前記記憶処理装置に被照合データ
    を記憶させる手段と、前記記憶処理装置に照合データを
    投入して、前記記憶処理装置に照合データと被照合デー
    タを照合させる手段と、前記記憶処理装置から照合結果
    を取得する手段と、取得された照合結果を処理する手段
    と、 を含み、 前記並列照合機能をもつ記憶処理装置に、同一の配列情
    報を少しずつずらして、被照合データとして用いるため
    に、照合方向を向けて記憶させる被照合データ記憶さ
    せ、比較対象の別の配列情報を照合データとして用い
    て、少しずつずらして記憶された同一の配列情報を被照
    合データとして用いて、照合データと被照合データを並
    列処理にて前記記憶処理装置に照合させることを特徴と
    する生物学的配列情報処理装置。
  57. 【請求項57】 請求項56に記載の生物学的配列情報
    処理装置において、 配列情報の部分的な照合を行うことで、配列の部分一致
    を求めることを特徴とする生物学的配列情報処理装置。
  58. 【請求項58】 請求項57に記載の生物学的配列情報
    処理装置において、 配列情報の部分的な照合を行うために、照合除外部分を
    設定することを特徴とする生物学的配列情報処理装置。
  59. 【請求項59】 請求項57または58に記載の生物学
    的配列情報処理装置において、 配列情報の部分的な照合を、複数種類の部分照合パター
    ンで行うことにより、複数種類の長さの配列一致部分を
    検索することを特徴とする生物学的配列情報処理装置。
  60. 【請求項60】 請求項56〜59のいずれかに記載の
    生物学的配列情報処理装置において、 同一の配列情報を、前記並列処理機能をもつ記憶処理装
    置の異なる領域に、少しずつずらして記憶させることを
    特徴とする生物学的配列情報処理装置。
  61. 【請求項61】 請求項56〜60のいずれかに記載の
    生物学的配列情報処理装置において、 一連の配列を複数の分割配列情報に分けて、前記複数の
    分割配列情報を、照合方向と交差する方向に並ぶよう
    に、前記並列照合機能をもつ記憶処理装置に記憶させる
    ことを特徴とする生物学的配列情報処理装置。
  62. 【請求項62】 請求項61に記載の生物学的配列情報
    処理装置において、 隣接する分割配列情報に跨って配列が一致する部分を、
    連続して配列が一致する部分として求めることを特徴と
    する生物学的配列情報処理装置。
  63. 【請求項63】 請求項56〜62のいずれかに記載の
    生物学的配列情報処理装置において、 前記並列照合機能をもつ記憶処理装置は、CAM(Co
    ntent Addressable Memory)
    であり、少しずつずらして記憶される同一の配列情報を
    被照合データとして、比較対象の別の配列情報を照合デ
    ータとして用いて、被照合データと照合データを並列処
    理にて比較し、照合データと各被照合データの一致を示
    す情報を出力することを特徴とする生物学的配列情報処
    理装置。
  64. 【請求項64】 請求項56〜63のいずれかに記載の
    生物学的配列情報処理装置において、 ファスタ法等のホモロジー解析に用いる情報を得ること
    を特徴とする生物学的配列情報処理装置。
  65. 【請求項65】 塩基配列、アミノ酸配列等の生物学的
    な配列情報の処理をコンピュータに行わせる、コンピュ
    ータにて実行可能なプログラムであって、 並列照合機能をもつ記憶処理装置に配列情報を被照合デ
    ータとして用いるために記憶させて、照合データと被照
    合データを並列処理にて前記記憶処理装置に照合させ
    て、照合データと被照合データの一致を示す情報を得る
    ことにより配列解析情報を得る処理を前記コンピュータ
    に実行させることを特徴とするプログラム。
  66. 【請求項66】 請求項65に記載のプログラムにおい
    て、 前記並列照合機能をもつ記憶処理装置は、CAM(Co
    ntent Addressable Memory)
    であり、前記CAMに、一つの照合データと複数の被照
    合データを並列処理にて比較させ、照合データと各被照
    合データの一致を示す情報を出力させることを特徴とす
    るプログラム。
  67. 【請求項67】 塩基配列、アミノ酸配列等の生物学的
    な配列情報の処理をコンピュータに行わせる、コンピュ
    ータにて実行可能なプログラムであって、 並列照合機能をもつ記憶処理装置に、複数の配列情報
    を、被照合データとして用いるために、照合方向と交差
    する方向を向けて、照合方向に並ぶように記憶させる被
    照合データ記憶ステップと、 照合方向に並んで隣接する前記複数の配列情報のデータ
    を被照合データとして用いて、配列要素を表す文字等の
    コードとして同一のものが並ぶ同一コード列に対応する
    データを照合データとして用いて、照合データと被照合
    データを並列処理にて前記記憶処理装置に照合させる照
    合ステップと、を前記コンピュータに実行させることを
    特徴とするプログラム。
  68. 【請求項68】 請求項67に記載のプログラムにおい
    て、 配列情報を構成する複数種類のコードの各々について、
    同一コード列に対応するデータを照合データとして用い
    た照合を行い、複数回の照合結果を処理して、前記複数
    の配列情報の一致に関する情報を得る処理を前記コンピ
    ュータに実行させることを特徴とするプログラム。
  69. 【請求項69】 請求項67に記載のプログラムにおい
    て、 複数の配列情報の一部を照合対象から除外して、照合処
    理を行うことにより、他の配列情報と一致しない配列情
    報を特定する処理を前記コンピュータに実行させること
    を特徴とするプログラム。
  70. 【請求項70】 請求項67に記載のプログラムにおい
    て、 照合データと被照合データが一致しないとき、多型によ
    り他の配列と異なる配列があると判定する処理を前記コ
    ンピュータに実行させることを特徴とするプログラム。
  71. 【請求項71】 請求項70に記載のプログラムにおい
    て、 複数の配列情報の一部を照合対象から除外して、照合処
    理を行うことにより、他の配列と異なる配列を特定する
    処理を前記コンピュータに実行させることを特徴とする
    プログラム。
  72. 【請求項72】 請求項67に記載のプログラムにおい
    て、 照合データと被照合データが連続して一致する部分と、
    照合データと被照合データが連続して一致しない部分と
    が隣接するとき、それら部分の境界に欠損または挿入が
    あると判定する処理を前記コンピュータに実行させるこ
    とを特徴とするプログラム。
  73. 【請求項73】 請求項72に記載のプログラムにおい
    て、 複数の配列情報の一部を照合対象から除外して、照合処
    理を行うことにより、欠損または挿入がある配列情報を
    特定する処理を前記コンピュータに実行させることを特
    徴とするプログラム。
  74. 【請求項74】 請求項73に記載のプログラムにおい
    て、 前記欠損または挿入がある配列情報を、前記照合方向と
    交差する方向にずらして記憶させて、照合処理を行うこ
    とにより、欠損と挿入のどちらがあるかを判定する処理
    を前記コンピュータに実行させることを特徴とするプロ
    グラム。
  75. 【請求項75】 請求項67に記載のプログラムにおい
    て、 照合データと被照合データが連続して一致し、照合デー
    タと被照合データが一致しない部分があり、再び照合デ
    ータと被照合データが連続して一致するとき、前記一致
    しない部分に置換があると判定する処理を前記コンピュ
    ータに実行させることを特徴とするプログラム。
  76. 【請求項76】 請求項75に記載のプログラムにおい
    て、 複数の配列情報の一部を照合対象から除外して、照合処
    理を行うことにより、置換がある配列情報を特定する処
    理を前記コンピュータに実行させることを特徴とするプ
    ログラム。
  77. 【請求項77】 請求項67〜76のいずれかに記載の
    プログラムにおいて、 前記並列照合機能をもつ記憶処理装置は、CAM(Co
    ntent Addressable Memory)
    であり、前記CAMに、同一コード列に対応するデータ
    で構成される照合データを、複数の被照合データの各々
    と並列処理にて比較させ、照合データと各被照合データ
    の一致を示す情報を出力させる処理を前記コンピュータ
    に実行させることを特徴とするプログラム。
  78. 【請求項78】 請求項67〜77のいずれかに記載の
    プログラムにおいて、 SNPs解析に用いる情報を得る処理を前記コンピュー
    タに実行させることを特徴とするプログラム。
  79. 【請求項79】 塩基配列、アミノ酸配列等の生物学的
    な配列情報の処理をコンピュータに行わせる、コンピュ
    ータにて実行可能なプログラムであって、 並列照合機能をもつ記憶処理装置に配列情報を被照合デ
    ータとして用いるために照合方向を向けて記憶させる被
    照合データ記憶ステップと、 照合対象の配列情報を照合データとして用いて、照合デ
    ータと被照合データを並列処理にて前記記憶処理装置に
    照合させる照合ステップと、 を前記コンピュータに実行させることを特徴とするプロ
    グラム。
  80. 【請求項80】 塩基配列、アミノ酸配列等の生物学的
    な配列情報の処理をコンピュータに行わせる、コンピュ
    ータにて実行可能なプログラムであって、 並列照合機能をもつ記憶処理装置に複数の配列情報を被
    照合データとして用いるために照合方向を向けて記憶さ
    せる被照合データ記憶ステップと、 参照配列を照合データとして用いて、照合データと被照
    合データを並列処理にて前記記憶処理装置に照合させる
    照合ステップと、 を前記コンピュータに実行させることを特徴とするプロ
    グラム。
  81. 【請求項81】 請求項80に記載のプログラムにおい
    て、 参照配列に相当する長さをもつ照合対象部分と残りの照
    合除外部分とを設定して照合を行い、照合除外部分の位
    置を異ならせた複数回の照合を行う処理を前記コンピュ
    ータに実行させることを特徴とするプログラム。
  82. 【請求項82】 請求項80または81に記載のプログ
    ラムにおいて、 一連の配列を複数の分割配列情報に分けて、前記複数の
    分割配列情報を、照合方向と交差する方向に並ぶよう
    に、前記並列照合機能をもつ記憶処理装置に記憶させ
    て、各分割配列情報の一部が前記参照配列と一致するか
    否かを並列処理により求める処理を前記コンピュータに
    実行させることを特徴とするプログラム。
  83. 【請求項83】 請求項82に記載のプログラムにおい
    て、 複数の分割配列情報の照合結果を処理して、前記配列情
    報が前記参照配列を含むか否かを判定する処理を前記コ
    ンピュータに実行させることを特徴とするプログラム。
  84. 【請求項84】 請求項82に記載のプログラムにおい
    て、 参照配列の端の部分を照合データとして用いた照合を行
    って、隣接する分割配列情報に跨る参照配列を検出する
    処理を前記コンピュータに実行させることを特徴とする
    プログラム。
  85. 【請求項85】 請求項82に記載のプログラムにおい
    て、 隣接する分割配列情報を部分的に重複させる処理を前記
    コンピュータに実行させることにより、分割箇所の参照
    配列を検出可能としたことを特徴とするプログラム。
  86. 【請求項86】 請求項80〜85のいずれかに記載の
    プログラムにおいて、 前記並列照合機能をもつ記憶処理装置は、CAM(Co
    ntent Addressable Memory)
    であり、前記CAMに、参照配列に対応するデータで構
    成される照合データを、複数の被照合データの各々と並
    列処理にて比較させ、照合データと各被照合データの一
    致を示す情報を出力させる処理を前記コンピュータに実
    行させることを特徴とするプログラム。
  87. 【請求項87】 請求項80〜86のいずれかに記載の
    プログラムにおいて、 ブラスト法等のホモロジー解析に用いる情報を得る処理
    を前記コンピュータに実行させることを特徴とするプロ
    グラム。
  88. 【請求項88】 塩基配列、アミノ酸配列等の生物学的
    な配列情報を比較する処理をコンピュータに行わせる、
    コンピュータにて実行可能なプログラムであって、 並列照合機能をもつ記憶処理装置に、同一の配列情報を
    少しずつずらして、被照合データとして用いるために、
    照合方向を向けて記憶させる被照合データ記憶ステップ
    と、 比較対象の別の配列情報を照合データとして用いて、少
    しずつずらして記憶された同一の配列情報を被照合デー
    タとして用いて、照合データと被照合データを並列処理
    にて前記記憶処理装置に照合させる照合ステップと、 を前記コンピュータに実行させることを特徴とするプロ
    グラム。
  89. 【請求項89】 請求項88に記載のプログラムにおい
    て、 配列情報の部分的な照合を行うことで、配列の部分一致
    を求める処理を前記コンピュータに実行させることを特
    徴とするプログラム。
  90. 【請求項90】 請求項89に記載のプログラムにおい
    て、 配列情報の部分的な照合を行うために、照合除外部分を
    設定する処理を前記コンピュータに実行させることを特
    徴とするプログラム。
  91. 【請求項91】 請求項89または90に記載のプログ
    ラムにおいて、 配列情報の部分的な照合を、複数種類の部分照合パター
    ンで行うことにより、複数種類の長さの配列一致部分を
    検索する処理を前記コンピュータに実行させることを特
    徴とするプログラム。
  92. 【請求項92】 請求項88〜91のいずれかに記載の
    プログラムにおいて、 同一の配列情報を、前記並列処理機能をもつ記憶処理装
    置の異なる領域に、少しずつずらして記憶させる処理を
    前記コンピュータに実行させることを特徴とするプログ
    ラム。
  93. 【請求項93】 請求項88〜92のいずれかに記載の
    プログラムにおいて、 一連の配列を複数の分割配列情報に分けて、前記複数の
    分割配列情報を、照合方向と交差する方向に並ぶよう
    に、前記並列照合機能をもつ記憶処理装置に記憶させる
    処理を前記コンピュータに実行させることを特徴とする
    プログラム。
  94. 【請求項94】 請求項93に記載のプログラムにおい
    て、 隣接する分割配列情報に跨って配列が一致する部分を、
    連続して配列が一致する部分として求める処理を前記コ
    ンピュータに実行させることを特徴とするプログラム。
  95. 【請求項95】 請求項88〜94のいずれかに記載の
    プログラムにおいて、 前記並列照合機能をもつ記憶処理装置は、CAM(Co
    ntent Addressable Memory)
    であり、前記CAMに、少しずつずらして記憶される同
    一の配列情報を被照合データとして、比較対象の別の配
    列情報を照合データとして用いて、被照合データと照合
    データを並列処理にて比較させ、照合データと各被照合
    データの一致を示す情報を出力させる処理を前記コンピ
    ュータに実行させることを特徴とするプログラム。
  96. 【請求項96】 請求項88〜95のいずれかに記載の
    プログラムにおいて、 ファスタ法等のホモロジー解析に用いる情報を得る処理
    を前記コンピュータに実行させることを特徴とするプロ
    グラム。
  97. 【請求項97】 請求項65〜96のいずれかに記載の
    プログラムを格納した、コンピュータにて読取可能な記
    録媒体。
JP2001377632A 2001-12-11 2001-12-11 生物学的な配列情報処理方法および装置 Expired - Fee Related JP3723767B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2001377632A JP3723767B2 (ja) 2001-12-11 2001-12-11 生物学的な配列情報処理方法および装置
PCT/JP2002/012944 WO2003054744A1 (fr) 2001-12-11 2002-12-11 Procede et dispositif pour traiter une information de sequence biologique
AU2002366918A AU2002366918A1 (en) 2001-12-11 2002-12-11 Biological sequence information processing method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001377632A JP3723767B2 (ja) 2001-12-11 2001-12-11 生物学的な配列情報処理方法および装置

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP2005043118A Division JP2005251192A (ja) 2005-02-18 2005-02-18 生物学的な配列情報処理方法および装置
JP2005043127A Division JP2005216320A (ja) 2005-02-18 2005-02-18 生物学的な配列情報処理方法および装置

Publications (2)

Publication Number Publication Date
JP2003216615A true JP2003216615A (ja) 2003-07-31
JP3723767B2 JP3723767B2 (ja) 2005-12-07

Family

ID=19185547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001377632A Expired - Fee Related JP3723767B2 (ja) 2001-12-11 2001-12-11 生物学的な配列情報処理方法および装置

Country Status (3)

Country Link
JP (1) JP3723767B2 (ja)
AU (1) AU2002366918A1 (ja)
WO (1) WO2003054744A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023504375A (ja) * 2020-03-17 2023-02-03 ウェスタン デジタル テクノロジーズ インコーポレーテッド 参照誘導ゲノム配列決定

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6270974A (ja) * 1985-09-24 1987-04-01 Nec Corp テキスト・サ−チ・エンジンとその制御方式
JP2715465B2 (ja) * 1988-08-31 1998-02-18 日本電気株式会社 記号列照合装置
JPH03296169A (ja) * 1990-04-13 1991-12-26 Nec Corp 配列検索装置
JP2865831B2 (ja) * 1990-08-31 1999-03-08 株式会社日立製作所 並列ストリング・サーチ装置
JPH04259068A (ja) * 1991-02-14 1992-09-14 Fujitsu Ltd データベースのパターン照合装置
JPH06110927A (ja) * 1992-09-28 1994-04-22 Nec Corp 超大レコード内データの並列検索方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023504375A (ja) * 2020-03-17 2023-02-03 ウェスタン デジタル テクノロジーズ インコーポレーテッド 参照誘導ゲノム配列決定
JP7439258B2 (ja) 2020-03-17 2024-02-27 ウェスタン デジタル テクノロジーズ インコーポレーテッド 参照誘導ゲノム配列決定

Also Published As

Publication number Publication date
AU2002366918A1 (en) 2003-07-09
WO2003054744A1 (fr) 2003-07-03
JP3723767B2 (ja) 2005-12-07

Similar Documents

Publication Publication Date Title
JP3672242B2 (ja) パターン検索方法、パターン検索装置、コンピュータプログラム及び記憶媒体
AU2005255348B2 (en) Data collection cataloguing and searching method and system
JPH0698770A (ja) トークン列データベースにおけるトークンシーケンスの探索
JPH11232291A (ja) 蛋白質立体構造データベース検索方法
Carvalho et al. A highly scalable algorithm for the extraction of cis-regulatory regions
JP3611601B2 (ja) リスト処理システムとその方法
Baeza-Yates et al. Multiple approximate string matching
US8965935B2 (en) Sequence matching algorithm
Kim et al. A review on sequence alignment algorithms for short reads based on next-generation sequencing
CN103793625A (zh) 碱基序列比对系统及方法
Wei et al. A branch elimination-based efficient algorithm for large-scale multiple longest common subsequence problem
Zhang et al. SMOTIF: efficient structured pattern and profile motif search
US20200364229A1 (en) Parallelizable sequence alignment systems and methods
JP3723767B2 (ja) 生物学的な配列情報処理方法および装置
US8014955B2 (en) Method of identifying unique target sequence
JP2005251192A (ja) 生物学的な配列情報処理方法および装置
JP3370787B2 (ja) 文字配列検索方法
KR20040036691A (ko) 분산 컴퓨팅 환경에서의 유전자 및 단백질 유사서열 검색시스템 및 그 방법
JP2004234297A (ja) 生物学的な配列情報処理装置
JP2005216320A (ja) 生物学的な配列情報処理方法および装置
KR100537636B1 (ko) 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그방법
KR20230152172A (ko) K-부정합 검색을 위한 필터를 생성하는 시스템 및 방법
Li et al. Seeding with minimized subsequence
Chang et al. A tool for structure alignment of molecules
JP2004234296A (ja) 生物学的な配列情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050907

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050916

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees