JP2006163546A - 生物情報の解析装置および圧縮装置 - Google Patents
生物情報の解析装置および圧縮装置 Download PDFInfo
- Publication number
- JP2006163546A JP2006163546A JP2004350575A JP2004350575A JP2006163546A JP 2006163546 A JP2006163546 A JP 2006163546A JP 2004350575 A JP2004350575 A JP 2004350575A JP 2004350575 A JP2004350575 A JP 2004350575A JP 2006163546 A JP2006163546 A JP 2006163546A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- data
- array
- partial
- sequence data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】 1塩基1バイトで記録された塩基配列データに対して、再配置を行い、3塩基1バイトで記録された統合配列データ(a)を作成した後、複数の反復パターンに応じて、統合配列データの配列を若干変化させた参照配列データを作成し、統合配列データと各参照配列データを比較することにより、重複する部分配列を探索する。統合配列データ中の一部分の配列である部分配列と重複する配列である重複配列が見つかると、部分配列のアドレスPt、幅Wt、重複配列のアドレスPs、幅Ws等を抽出する。
【選択図】 図11
Description
(生物情報の分離)
ここで、本発明で解析・圧縮の対象とする生物情報の構造について説明しておく。本発明では、生物情報として、塩基配列、アミノ酸配列等を利用することができる。本実施形態では、塩基配列について説明する。図1(a)は、代表的なデータ形式であるFASTA形式で表現した原塩基配列ファイルを示す図である。図1において、t、c、a、g(大文字T、C、A、Gも同一)は、それぞれチミン、シトニン、アデニン、グアニンの4種類の塩基を示している。なお、ここでは、塩基を示す4文字以外の注釈情報は、<ANNOTATION>として省略して示してあるが、実際には、塩基配列を説明するための注釈情報が記されている。注釈情報を構成する文字、および各塩基は、ASCIIコードで記録されており、1文字の記録に8ビットを要している。
図2は、本発明に係る生物情報の解析装置の構成を示す機能ブロック図である。図2において、10は配列再配置手段、20は参照配列作成手段、30は重複配列探索手段、40は部分配列符号化手段である。配列再配置手段10は、1塩基1バイトで記録されている塩基配列データの配列構成を、3塩基1バイトで記録される構成に、再配置する機能を有している。参照配列作成手段20は、配列の再配置により得られた統合配列データを基に、複数セットの参照配列データを作成する機能を有している。重複配列探索手段30は、複数セットの参照配列データに対して、統合配列データ内の部分配列よりアドレス上前方に位置し、かつ部分配列と一致する重複配列を探索する機能を有している。なお、部分配列とは、統合配列データ中の一部分の配列を意味し、重複配列とは部分配列の一部もしくは全部と重複する配列を意味する。部分配列符号化手段40は、探索により得られた部分配列および重複配列を、部分配列および重複配列のアドレスおよびデータ幅を所定の形式に符号化して出力する機能を有している。図2に示した装置は、現実には、コンピュータに専用のソフトウェアを搭載することにより実現される。また、処理過程において作成される配列データは、コンピュータが管理するメモリの記憶領域に作成される。
上記のようにして圧縮した生物情報を検索に用いる場合、生物情報を復元した後、検索するようにしても良いが、圧縮ファイルの構造を利用して検索することも可能である。その場合、上記のような圧縮ファイルをデータベースとして蓄積しておく。そして、検索キーとする塩基配列も、上記圧縮装置で実行したのと同様の処理により、圧縮配列データと圧縮部分配列符号化データに符号化しておく。そして、検索する際には、圧縮部分配列符号化データを可変長符号化に対応する処理のみ復号して部分配列符号化データを得ると共に、データベースに記録された各圧縮ファイルの圧縮部分配列符号化データからも部分配列符号化データを復元する。そして、検索キーとする側の部分配列符号化データと、データベースに記録された各圧縮ファイルから得られた部分配列符号化データの照合を行う。
20・・・参照配列作成手段
30・・・重複配列探索手段
40・・・部分配列符号化手段
50・・・データ分離手段
60・・・可変長符号化手段
100・・・配列本体符号化手段
Claims (8)
- 生物情報を表現した配列データに対して、隣接する複数の配列要素を1つの配列単位に格納して統合配列データを作成する配列再配置手段と、
前記統合配列データに対して、所定の方法により変化を加え、1セットは前記統合配列データと同一の配列データである、複数セットの参照配列データを作成する参照配列作成手段と、
前記複数セットの参照配列データに対して、前記統合配列データ内の部分配列よりアドレス上前方に位置し、かつ前記部分配列と一致する重複配列を複数対探索する重複配列探索手段と、
前記探索した複数対の部分配列および重複配列の中で、データ幅が所定の条件を満足するものに対して、前記部分配列および重複配列のアドレスおよびデータ幅を所定の規則で符号化する部分配列符号化手段と、
を有することを特徴とする生物情報の解析装置。 - 請求項1において、
前記部分配列符号化手段は、アドレス上連続する複数の同一データ幅の部分配列に対して、同一の重複配列が探索された場合、これらを一対にまとめて符号化するものであることを特徴とする生物情報の解析装置。 - 請求項1において、
前記配列データは、A、G、C、Tの4種類の文字から構成される塩基配列データであり、前記配列再配置手段は、3つの隣接する塩基を前記隣接する複数の配列要素とし、1バイトを前記1つの配列単位として、前記統合配列データを作成するものであり、前記参照配列作成手段は、前記統合配列データに対して所定の方法により変化を加え、1セットは前記統合配列データと同一の配列データである、複数セットの参照配列データを作成するものであることを特徴とする生物情報の解析装置。 - 請求項3において、
前記参照配列作成手段は、前記統合配列データに対して、1塩基もしくは2塩基分移動させた位置から3つの隣接する塩基を1バイトに格納して、参照配列データを作成するものであることを特徴とする生物情報の解析装置。 - 請求項3において、
前記参照配列作成手段は、前記参照配列データを作成する際に、前記統合配列データの各バイト内における3つの隣接する塩基の配列順位を逆転させるものであることを特徴とする生物情報の解析装置。 - 請求項3において、
前記参照配列作成手段は、前記参照配列データを作成する際に、塩基Aと塩基Tを相互に、塩基Gと塩基Cを相互に変換するものであることを特徴とする生物情報の解析装置。 - 所定の範囲内で定義された文字の配列情報と前記配列情報の特定の範囲の情報を注釈する注釈情報で構成される生物情報ファイルに対して、
前記注釈情報と配列情報を分離して、注釈データ、配列データ本体とするとともに、前記生物情報ファイルを復元できるように、前記注釈データに前記配列データ本体へのリンク情報を追加するためのデータ分離手段と、
所定の範囲内で定義された文字または数値の配列情報で構成される生物情報に対して、前記各配列情報に対して、隣接する複数の配列要素を1つの配列単位に格納して統合配列データを作成する配列再配置手段と、
前記統合配列データに対して、所定の方法により変化を加え、1セットは前記統合配列データと同一の配列データである、複数セットの参照配列データを作成する参照配列作成手段と、
前記複数セットの参照配列データに対して、前記統合配列データ内の部分配列よりアドレス上前方に位置し、かつ前記部分配列と一致する重複配列を複数対探索する重複配列探索手段と、
前記探索した複数対の部分配列および重複配列の中で、データ幅が所定の条件を満足するものに対して、前記部分配列および重複配列のアドレスおよびデータ幅を所定の規則で符号化する部分配列符号化手段と、
を有することを特徴とする生物情報の圧縮装置。 - 請求項7において、
前記部分配列符号化手段より出力される部分配列符号化データ、および前記注釈データそれぞれに対して、可変ビット長でデータ圧縮を行う可変長符号化手段をさらに有することを特徴とする生物情報の圧縮装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004350575A JP4770163B2 (ja) | 2004-12-03 | 2004-12-03 | 生物情報の解析装置および圧縮装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004350575A JP4770163B2 (ja) | 2004-12-03 | 2004-12-03 | 生物情報の解析装置および圧縮装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006163546A true JP2006163546A (ja) | 2006-06-22 |
JP4770163B2 JP4770163B2 (ja) | 2011-09-14 |
Family
ID=36665525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004350575A Expired - Fee Related JP4770163B2 (ja) | 2004-12-03 | 2004-12-03 | 生物情報の解析装置および圧縮装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4770163B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014047646A1 (en) * | 2012-09-24 | 2014-03-27 | Cb Biotechnologies, Inc. | Multiplex pyrosequencing using non-interfering noise cancelling polynucleotide identification tags |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11110390A (ja) * | 1997-09-29 | 1999-04-23 | Hitachi Ltd | アミノ酸配列比較方法 |
JP2002041528A (ja) * | 2000-04-19 | 2002-02-08 | Satoshi Omori | ヌクレオチド等の配列情報の記録方法及び装置、前記配列情報の供給方法、前記配列情報を記録した記録媒体、並びに要約値の計算方法 |
JP2003188735A (ja) * | 2001-12-13 | 2003-07-04 | Ntt Data Corp | データ圧縮装置及び方法並びにプログラム |
JP2003242153A (ja) * | 2002-02-14 | 2003-08-29 | International Medical Center Of Japan | 塩基配列からrnaの機能性部位を同定する方法 |
JP2004240975A (ja) * | 2003-02-03 | 2004-08-26 | Samsung Electronics Co Ltd | Dna配列符号化装置及び方法 |
-
2004
- 2004-12-03 JP JP2004350575A patent/JP4770163B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11110390A (ja) * | 1997-09-29 | 1999-04-23 | Hitachi Ltd | アミノ酸配列比較方法 |
JP2002041528A (ja) * | 2000-04-19 | 2002-02-08 | Satoshi Omori | ヌクレオチド等の配列情報の記録方法及び装置、前記配列情報の供給方法、前記配列情報を記録した記録媒体、並びに要約値の計算方法 |
JP2003188735A (ja) * | 2001-12-13 | 2003-07-04 | Ntt Data Corp | データ圧縮装置及び方法並びにプログラム |
JP2003242153A (ja) * | 2002-02-14 | 2003-08-29 | International Medical Center Of Japan | 塩基配列からrnaの機能性部位を同定する方法 |
JP2004240975A (ja) * | 2003-02-03 | 2004-08-26 | Samsung Electronics Co Ltd | Dna配列符号化装置及び方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014047646A1 (en) * | 2012-09-24 | 2014-03-27 | Cb Biotechnologies, Inc. | Multiplex pyrosequencing using non-interfering noise cancelling polynucleotide identification tags |
CN104685062A (zh) * | 2012-09-24 | 2015-06-03 | Cb生物技术公司 | 使用非干扰性噪音消除性多核苷酸鉴定标签的多重焦磷酸测序 |
GB2521570A (en) * | 2012-09-24 | 2015-06-24 | Cb Biotechnologies Inc | Multiplex pyrosequencing using non-interfering noise-canceling polynucleotide identification tags |
US9938578B2 (en) | 2012-09-24 | 2018-04-10 | iRepertoire, Inc. | Multiplex pyrosequencing using non-interfering noise cancelling polynucleotide identification tags |
GB2521570B (en) * | 2012-09-24 | 2021-01-06 | Irepertoire Inc | Multiplex pyrosequencing using non-interfering noise cancelling polynucleotide identification tags |
Also Published As
Publication number | Publication date |
---|---|
JP4770163B2 (ja) | 2011-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11404143B2 (en) | Method and systems for the indexing of bioinformatics data | |
Chikhi et al. | On the representation of de Bruijn graphs | |
Korodi et al. | An efficient normalized maximum likelihood algorithm for DNA sequence compression | |
Do et al. | Fast relative Lempel–Ziv self-index for similar sequences | |
Apostolico et al. | Compression of biological sequences by greedy off-line textual substitution | |
Rizzi et al. | Overlap graphs and de Bruijn graphs: data structures for de novo genome assembly in the big data era | |
KR20110129628A (ko) | Dna 서열 검색 방법 및 장치 | |
US7467047B2 (en) | Method of discovering patterns in symbol sequences | |
Kumar et al. | Fast and memory efficient approach for mapping NGS reads to a reference genome | |
JP2005165598A (ja) | 可変長文字列検索装置及び可変長文字列検索方法並びにプログラム | |
Navarro | Indexing highly repetitive string collections | |
Haubold et al. | Exact matching | |
JP4770163B2 (ja) | 生物情報の解析装置および圧縮装置 | |
JP4334955B2 (ja) | 生物情報のロスレス符号化装置 | |
JP4638721B2 (ja) | 生物情報の検索装置 | |
US11250064B2 (en) | System and method for generating filters for K-mismatch search | |
Ferragina et al. | Computational biology | |
Huo et al. | CIndex: compressed indexes for fast retrieval of FASTQ files | |
Pathak et al. | RETRACTED: LFQC: a lossless compression algorithm for FASTQ files | |
Petri et al. | Efficient indexing algorithms for approximate pattern matching in text | |
US7479905B2 (en) | Apparatus, system and method for data compression using irredundant patterns | |
Mridula et al. | Lossless segment based DNA compression | |
Delgrange et al. | Location of repetitive regions in sequences by optimizing a compression method | |
CN115691683A (zh) | 一种基因型信息压缩方法、装置及计算机可读存储介质 | |
Jammula et al. | ParRefCom: Parallel Reference-based Compression of Paired-end Genomics Read Datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100525 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101116 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110606 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140701 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4770163 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |