JP4638721B2 - 生物情報の検索装置 - Google Patents
生物情報の検索装置 Download PDFInfo
- Publication number
- JP4638721B2 JP4638721B2 JP2004353237A JP2004353237A JP4638721B2 JP 4638721 B2 JP4638721 B2 JP 4638721B2 JP 2004353237 A JP2004353237 A JP 2004353237A JP 2004353237 A JP2004353237 A JP 2004353237A JP 4638721 B2 JP4638721 B2 JP 4638721B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- sequence data
- key
- data
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
(生物情報について)
ここで、本発明で検索対象とする生物情報の構造について説明しておく。本発明では、生物情報として、塩基配列、アミノ酸配列等を利用することができる。本実施形態では、塩基配列を検索対象とする場合について説明する。図1(a)は、代表的なデータ形式であるFASTA形式で表現した原塩基配列ファイルを示す図である。図1において、t、c、a、g(大文字T、C、A、Gも同一)は、それぞれチミン、シトニン、アデニン、グアニンの4種類の塩基を示している。なお、ここでは、塩基を示す4文字以外の注釈情報は、<ANNOTATION>として省略して示してあるが、実際には、塩基配列を説明するための注釈情報が記されている。注釈情報を構成する文字、および各塩基は、ASCIIコードで記録されており、1文字の記録に8ビットを要している。
本発明第1の実施形態について説明する。まず、上記のような原塩基配列ファイルを基に、本発明で検索対象とする検索配列データの準備を行う。まず、原塩基配列ファイル注釈情報を除去して塩基部分だけを抽出する。この時点において、塩基部分は1塩基1バイトで記録されている。この塩基部分の配列データの再配置を行う。具体的には、1塩基1バイトで記録されている塩基配列データの配列構成を、3塩基1バイトで記録される構成に再配置する。すなわち、本実施形態では、配列要素である塩基を3つまとめて1つの配列単位である1バイトに格納することにより再配置を行う。上述のように、塩基は、a、g、c、tの4種類であるため、図2に示した塩基変換テーブルを利用して、それぞれに「00」「01」「10」「11」を割り当てることにすれば、2ビットで表現できる。例えば、agcの連続する3塩基は、図3に示すようなビット構成の1バイトデータとして記録することができる。図3において、各枠内の0、1の数字は各ビットの値を示しており、右端が最下位ビット、左端が最上位ビットである。本実施形態では、再配置後の1バイトの構成において、2ビット単位で塩基を記録している。図3の例では、上位から順に、ダミー、C、G、Aとなっている。最上位2ビットのダミーは「00」であり、これは全てのバイトにおいて同一である。下位6ビットにおいては、最下位から順に3つの塩基が記録されることになる。したがって、agcの連続する3塩基は、図3に示すような記録順で記録されることになる。同様の処理を実行していくことにより、1塩基1バイトで構成された配列データを、3塩基1バイトの検索配列データに変換する。例えば、図4(a)に示したような203塩基203バイトの塩基配列データ(図1(c)に示したものと同一)は、図4(b)に示したような203塩基68バイトの統合配列データに変換されることになる。
次に、本発明第1の実施形態に係る生物情報の検索装置の構成について説明する。図5は、本発明第1の実施形態に係る生物情報の検索装置の構成図である。図5において、10は検索配列データ記憶手段、20はキー配列入力手段、30は配列再配置手段、40は参照配列作成手段、50は配列探索手段、60は出力手段である。
次に、図5に示した検索装置の処理動作について説明する。まず、目的とする配列であるキー配列データをキー配列入力手段20から入力する。すると、配列再配置手段30が、入力された1塩基1バイト形式のキー配列データを3塩基1バイト形式のキー統合配列データに再配置する処理を行う。
続いて、本発明第2の実施形態について説明する。本発明第2の実施形態では、第1の実施形態よりもさらに圧縮したデータを検索する。生物情報の中で、DNA配列については、各種の特徴配列が存在することが知られており、特に個人差があるタンデムリピート(縦方向反復)については、解明が進んでおり、本人鑑定(DNA鑑定)、遺伝子診断などに使われている。このように、反復(繰り返し)配列を解析することは生物学的な知見を得る上で重要であり、かつデータ圧縮にも活用することが期待できる。
まず、検索対象とする圧縮検索配列データの準備を行う。これは、第1の実施形態のように、原塩基配列ファイルから注釈データを分離して、さらに1塩基1バイトの形式を3塩基1バイトの形式に再配置した統合配列データ形式から、さらに以下のような処理を行う。まず、このような統合配列データに対して、上記図7に示したような9通りの参照配列データを作成する。続いて、作成された複数セットの参照配列データを利用して、部分配列と一致する重複配列を探索する。なお、部分配列とは、統合配列データ中の一部分の配列を意味し、重複配列とは部分配列の一部もしくは全部と重複する配列を意味する。部分配列と重複配列の対応関係は、上記図6に示した対象配列と対応配列の関係と同様となっている。具体的な探索処理としては、統合配列データ内の対象とする部分配列より2バイト以上前方に位置し、かつ部分配列と一致する参照配列データ内の重複配列を探索する。例えば、図7に示したように統合配列データにおいてアドレスが「3」である「GCT」を対象とする部分配列とした場合、参照配列データモード0内において、アドレスが「0」である「AGC」と、アドレスが「1」である「TAG」までは比較を行うが、アドレスが「2」である「CTA」との比較は行わない。また、参照配列データモード1内において、アドレスが「0」である「GCT」と、アドレスが「1」である「AGC」までは比較を行うが、アドレスが「2」である「TAG」との比較は行わない。また、参照配列データモード2内において、アドレスが「0」である「CTA」と、アドレスが「1」である「GCT」までは比較を行うが、アドレスが「2」である「AGC」との比較は行わない。ここで、1バイト前の配列との比較を行わないのは、1バイト前であると、対象とする部分配列に含まれる塩基と同じものを含むからである。例えば、統合配列データのアドレス「3」の「GCT」における「G」と、参照配列データモード1のアドレス「3」の「TAG」における「G」は共に、元の塩基配列の10番目の「G」であり、同じものである。本発明の目的は、自身と同じ配列をもつ自身以外の配列を探すことであるため、1バイト前との比較は行わないことにしている。
図14は、第2の実施形態に係る生物情報の検索装置の構成図である。図14において、100は圧縮検索配列データ記憶手段、110は圧縮キー配列入力手段、120は部分配列照合手段、130は出力手段である。
続いて、図14に示した装置の処理動作について説明する。まず、圧縮キー配列入力手段110から圧縮キー配列データを入力する。圧縮キー配列データの入力は、例えば、記録媒体に記録された圧縮キー配列データファイルを指定して、実行指示を与えることにより行うことができる。圧縮キー配列データが入力されたら、部分配列照合手段120が、入力された圧縮キー配列データ内の部分配列符号化データを抽出する。さらに、部分配列照合手段120は、圧縮検索配列データ記憶手段100に記録された各圧縮検索配列データ内の部分配列符号化データを抽出する。続いて、部分配列照合手段120は、圧縮キー配列データ内の部分配列符号化データと、各圧縮検索配列データ内の部分配列符号化データの照合を行う。
20・・・キー配列入力手段
30・・・配列再配置手段
40・・・参照配列作成手段
50・・・配列探索手段
60・・・出力手段
100・・・圧縮検索配列データ記憶手段
110・・・圧縮キー配列入力手段
120・・・部分配列照合手段
130・・・出力手段
Claims (3)
- A、G、C、Tの4種類の塩基から構成される塩基配列データに対して、隣接する複数の塩基を1つの配列単位に格納した形式である検索配列データを記憶した検索配列データ記憶手段と、
検索キーとする塩基配列データであるキー配列データを入力するキー配列入力手段と、
前記キー配列入力手段から入力されたキー配列データに対して、隣接する複数の塩基を1つの配列単位に格納してキー統合配列データを作成する配列再配置手段と、
前記キー統合配列データにおける塩基を、順序をそのままに1以上移動させたキー参照配列データと、前記キー統合配列データと同一の配列であるキー参照配列データと、前記キー統合配列データの各配列単位内における隣接する塩基の配列順位を逆転させた参照配列データと、塩基Aと塩基Tを相互に、塩基Gと塩基Cを相互に変換した参照配列データと、を含む複数のキー参照配列データを作成する参照配列作成手段と、
前記検索配列データを構成する配列単位と、前記各キー参照配列データの配列単位との照合を行い、いずれかのキー参照配列データと一致する配列を探索する配列探索手段と、
前記探索の結果、いずれかのキー参照配列データと一致する配列が前記検索配列データに存在した場合に、その存在位置を出力する出力手段と、
を有することを特徴とする生物情報の検索装置。 - 請求項1において、
前記配列探索手段は、前記検索配列データを構成する配列単位と、前記各キー参照配列データの配列単位との照合を行う際、各配列単位に含まれる複数の塩基同士の一致する数に基づいて一致度を求め、全配列単位について前記一致度を合計した全体一致度を算出するものであり、
前記出力手段は、完全一致する配列が存在しない場合は、前記全体一致度の高い配列の存在位置、およびその全体一致度を出力するものであることを特徴とする生物情報の検索装置。 - 請求項2において、
前記複数の塩基は3つの塩基であり、前記1つの配列単位は1バイトであり、
前記参照配列作成手段は、前記塩基を、順序をそのままに1以上移動させた参照配列データを、1塩基もしくは2塩基分移動させた位置から3つの隣接する塩基を1バイトに格納して作成し、さらに、前記統合配列データの各バイト内における3つの隣接する塩基の配列順位を逆転させた参照配列データと、塩基Aと塩基Tを相互に、塩基Gと塩基Cを相互に変換した参照配列データを作成するものであり、
前記配列探索手段は、前記配列単位として1バイト単位で照合を行い、1バイト内における3つの塩基が全て一致する場合は100%、1バイト内における2つの塩基が一致する場合は50%を基準として前記一致度を求めることを特徴とする生物情報の検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004353237A JP4638721B2 (ja) | 2004-12-06 | 2004-12-06 | 生物情報の検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004353237A JP4638721B2 (ja) | 2004-12-06 | 2004-12-06 | 生物情報の検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006163734A JP2006163734A (ja) | 2006-06-22 |
JP4638721B2 true JP4638721B2 (ja) | 2011-02-23 |
Family
ID=36665694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004353237A Expired - Fee Related JP4638721B2 (ja) | 2004-12-06 | 2004-12-06 | 生物情報の検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4638721B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5187670B2 (ja) * | 2007-03-02 | 2013-04-24 | 大学共同利用機関法人情報・システム研究機構 | 相同性検索システム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH105000A (ja) * | 1996-06-27 | 1998-01-13 | Hitachi Ltd | Dnaアミノ酸配列比較方法 |
JP2002041528A (ja) * | 2000-04-19 | 2002-02-08 | Satoshi Omori | ヌクレオチド等の配列情報の記録方法及び装置、前記配列情報の供給方法、前記配列情報を記録した記録媒体、並びに要約値の計算方法 |
JP2003188735A (ja) * | 2001-12-13 | 2003-07-04 | Ntt Data Corp | データ圧縮装置及び方法並びにプログラム |
JP2003256433A (ja) * | 2002-02-27 | 2003-09-12 | Japan Science & Technology Corp | 遺伝子構造解析方法およびその装置 |
JP2004240975A (ja) * | 2003-02-03 | 2004-08-26 | Samsung Electronics Co Ltd | Dna配列符号化装置及び方法 |
-
2004
- 2004-12-06 JP JP2004353237A patent/JP4638721B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH105000A (ja) * | 1996-06-27 | 1998-01-13 | Hitachi Ltd | Dnaアミノ酸配列比較方法 |
JP2002041528A (ja) * | 2000-04-19 | 2002-02-08 | Satoshi Omori | ヌクレオチド等の配列情報の記録方法及び装置、前記配列情報の供給方法、前記配列情報を記録した記録媒体、並びに要約値の計算方法 |
JP2003188735A (ja) * | 2001-12-13 | 2003-07-04 | Ntt Data Corp | データ圧縮装置及び方法並びにプログラム |
JP2003256433A (ja) * | 2002-02-27 | 2003-09-12 | Japan Science & Technology Corp | 遺伝子構造解析方法およびその装置 |
JP2004240975A (ja) * | 2003-02-03 | 2004-08-26 | Samsung Electronics Co Ltd | Dna配列符号化装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2006163734A (ja) | 2006-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4538449B2 (ja) | 文字列検索の方法および設備 | |
US8554492B2 (en) | Method and apparatus for searching nucleic acid sequence | |
Rizzi et al. | Overlap graphs and de Bruijn graphs: data structures for de novo genome assembly in the big data era | |
JP3871301B2 (ja) | データベース検索装置、及びプログラム | |
CN109712674B (zh) | 注释数据库索引结构、快速注释遗传变异的方法及系统 | |
KR20070083641A (ko) | 전사 맵핑을 위한 유전자 식별 기호 분석방법 | |
JP2008533619A (ja) | 非バイナリ配列比較のためのシステム、方法及びコンピュータプログラム | |
US8965935B2 (en) | Sequence matching algorithm | |
JP4638721B2 (ja) | 生物情報の検索装置 | |
Vaddadi et al. | Read mapping on genome variation graphs | |
JP4770163B2 (ja) | 生物情報の解析装置および圧縮装置 | |
WO2005093632A1 (ja) | Rna配列情報処理方法、プログラムおよび装置 | |
Gagie et al. | Compressing and indexing aligned readsets | |
Ferragina et al. | Computational biology | |
JP4334955B2 (ja) | 生物情報のロスレス符号化装置 | |
Pizzi et al. | Efficient algorithms for sequence analysis with entropic profiles | |
Wan et al. | Rnall: an efficient algorithm for predicting RNA local secondary structural landscape in genomes | |
Alatabbi et al. | On the repetitive collection indexing problem | |
Kosters | Bioinformatics: Fragment Assembly | |
Mounsef et al. | A low-complexity probabilistic genome assembly based on hashing functions with SNP detection | |
Abdilla | The Malta Human Genome Project | |
Matroud et al. | An algorithm to solve the motif alignment Problem for approximate nested tandem repeats | |
Whiteford | String Matching in DNA Sequences: Implications for Short Read Sequencing and Repeat Visualisation | |
Kaniwa et al. | Repeat finding techniques, data structures and algorithms in DNA sequences: a survey | |
Mallavarapu et al. | Context based compression of FASTQ data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100525 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100722 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101116 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101126 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131203 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4638721 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |