JP5985040B2 - データ解析装置、及びその方法 - Google Patents
データ解析装置、及びその方法 Download PDFInfo
- Publication number
- JP5985040B2 JP5985040B2 JP2015502715A JP2015502715A JP5985040B2 JP 5985040 B2 JP5985040 B2 JP 5985040B2 JP 2015502715 A JP2015502715 A JP 2015502715A JP 2015502715 A JP2015502715 A JP 2015502715A JP 5985040 B2 JP5985040 B2 JP 5985040B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- data
- lead
- data analysis
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24575—Query processing with adaptation to user needs using context
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Description
q(A, y) + q(C, y) + q(G, y) + q(T, y) + q(N, y) ‐‐‐(式8)
個の要素(末尾にA, C, G, T, N何れかの文字をもつ)に関しては、シフトした要素の末尾文字は未だ何れのQ(y)にも登録されていない。そこで、後続の処理のために、各y = A, C, G, T, Nに対して、リストP’(y)の後ろにリストp(y)を連結したものを新たなリストP’(y)とする(なお、図9中の905内の式で、リストの連結は+で表す)。
q($, y) , - ( q(A, y) + q(C, y) + q(G, y) + q(T, y) + q(N, y))‐‐‐(式9)
を追加する。ここで、正の数は、登録が済んだ要素の数、負の数は後続の処理で登録が必要な要素の数の符号を反転させたものを表す。
Next(A) = C, Next(C) = G, Next(G) = T, Next(T) = N‐‐‐(式10)
である。
k(x) = 2 x + L(x) - 1 ‐‐‐(式11)
として、二進符号化データのk(x) 番目の要素を1にセットする。但し、先頭要素は0番目の要素と数える。
l - 1 < L(x + 1) ∴ L(x) - 1 = l ≦ L(x + 1) ‐‐‐(式12)
となり、その結果
k(x) = 2 x+L(x) -1≦2 x +L(x +1)< 2 x+1+L(x + 1) = k(x +1)‐(式13)
となる。
二進符号化データの中でx番目に1が現れる位置を求める関数k(x) = select(x) はセレクト関数と呼ばれており、補助テーブルを用いて効率的に計算する方法が知られている(非特許文献7)。1105は二進符号化データ(1104)上でセレクト関数を高速に計算する際に用いる補助テーブルである。
ここで、maxは最大値をとることを意味する。従って、一意性を保証できる配列長(MLU, minimum length for uniqueness)は、1206内に示した式によって計算できる。
S[z0, z1] : 位置座標が z0 以上 z1 以下の S の部分配列
Occ(s, G) : 塩基配列 s が G の部分配列として現れる回数(出現数)
(ゲノム配列データにおける s の深度)
Occ(s, R) : 塩基配列 s が R の部分配列として現れる回数(出現数)
(リード配列データにおける s の深度)
Loc(s, G) : 塩基配列 s が G の部分配列として一意的に現れる
ときの出現位置座標 (Occ(s, G) = 1のとき)‐‐‐(式16)
101 DNAサンプル
102 超並列型DNAシーケンサ
103 リード配列データ
104 リード配列データベース(DB)化処理
105 リード配列データベース(DB)
106 参照ゲノム配列データ
107 ゲノム配列データベース(DB)化処理
108 ゲノム配列データベース(DB)
123 ディスク
407 ソート済み巡回置換文字列リスト(SLCP)
408 リード配列データのBWT
501 ソート済み巡回置換文字列リスト(SLCP)
1104 ゲノム配列のMLU(minimum length for uniqueness)の二進符号化データ
1700 解析装置
1701 処理部(CPU)
1702 メモリ
1703 表示部
1704 記憶装置(HDD)
1705 入力部
1706 ネットワークインタフェース(NIF)
1707 バス
Claims (15)
- 処理部と記憶部を備えたデータ解析装置であって、
前記記憶部は、ゲノム配列データがデータベース化されたゲノム配列データベースと、リード配列データがデータベース化されたリード配列データベースを記憶し、
前記処理部は、
特定された解析対象のゲノム領域の配列に基づいて検索用の塩基配列であるキー配列を選択し、
前記リード配列データベースの中にある前記キー配列の深度を求め、
前記リード配列データベースの中にある前記キー配列を含むリード配列データを抽出し、抽出された前記リード配列データと前記ゲノム領域の配列とを比較してデータ解析を行う、
ことを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記ゲノム配列データベースは、問合せを受けた位置座標を始点とする部分配列が、ゲノム配列内で相補鎖も考慮して一意的となる最小の長さ(MLU, minimum length for uniqueness)を出力でき、
前記処理部は、
選択する前記キー配列として、前記解析対象のゲノム領域の部分配列であって、前記MLUの長さをもつものを選択する、
ことを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記処理部は、
ゲノム領域内をスキャンして、前記リード配列データベースの中での前記キー配列の深度が局所的に低下する位置を変異がある可能性が高い位置として推定し、
推定した前記位置で前記キー配列を含むリード配列データを前記リード配列データベースの中から抽出し、
抽出された前記リード配列データと前記ゲノム領域の配列を比較して変異解析を行う、
ことを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記処理部は、
ゲノム領域内をスキャンして、前記リード配列データベースの中での前記キー配列の深度が前方に比較して後方で局所的に低下する位置をスプライシングが生じている可能性が高い位置として推定し、
前記スプライシングが生じている可能性が高いと推定された位置で、前記キー配列を含む前記リード配列データを前記リード配列データベースの中から抽出し、
抽出された前記リード配列データとゲノム領域の配列を比較してスプライシング解析を行う、
ことを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
解析パラメータを入力する入力部を更に備え、
前記処理部は、
前記キー配列を含む前記リード配列データを前記リード配列データベースの中から抽出するか否かの判断を、前記リード配列データベースの中での前記キー配列の深度に基づいて行い、
前記入力部から入力される解析パラメータにより、当該判断の基準を調整可能である、
ことを特徴とするデータ解析装置。 - 請求項5に記載のデータ解析装置であって、
前記処理部は、
ゲノム領域内をスキャンして、前記リード配列データベースの中での前記キー配列の深度が局所的に低下する位置を変異がある可能性が高い位置として推定し、
推定した前記位置で前記キー配列を含むリード配列データを前記リード配列データベースの中から抽出し、
抽出された前記リード配列データと前記ゲノム領域の配列を比較して変異解析を行い、
前記解析パラメータにより、前記推定の基準を調整可能である、
ことを特徴とするデータ解析装置。 - 請求項5に記載のデータ解析装置であって、
前記処理部は、
ゲノム領域内をスキャンして、前記リード配列データベースの中での前記キー配列の深度が前方に比較して後方で局所的に低下する位置をスプライシングが生じている可能性が高い位置として推定し、
前記スプライシングが生じている可能性が高いと推定された位置で、前記キー配列を含む前記リード配列データを前記リード配列データベースの中から抽出し、
抽出された前記リード配列データとゲノム領域の配列を比較してスプライシング解析を行い、
前記解析パラメータにより、前記推定の基準を調整可能である、
ことを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記処理部による前記データ解析の結果を表示する表示部を更に備える、
ことを特徴とするデータ解析装置。 - データ解析装置の処理部によるデータ解析方法であって、
ゲノム配列データが検索可能な形式にデータベース化されたゲノム配列データベースと、リード配列データが検索可能な形式にデータベース化されたリード配列データベースを用い、
特定された解析対象のゲノム領域の配列に基づいて検索用の塩基配列であるキー配列を選択し、
前記リード配列データベースの中にある前記キー配列の深度を求め、
前記リード配列データベースの中にある前記キー配列を含むリード配列データを抽出し、抽出された前記リード配列データと前記ゲノム領域の配列とを比較してデータ解析を行う、
ことを特徴とするデータ解析方法。 - 請求項9に記載のデータ解析方法であって、
前記ゲノム配列データベースは、問合せを受けた位置座標を始点とする部分配列が、ゲノム配列内で相補鎖も考慮して一意的となる最小の長さ(MLU, minimum length for uniqueness)を出力可能であり、
選択する前記キー配列として、前記解析対象のゲノム領域の部分配列であって、前記MLUの長さをもつものを選択する、
ことを特徴とするデータ解析方法。 - 請求項9に記載のデータ解析方法であって、
ゲノム領域内をスキャンして、前記リード配列データベースの中での前記キー配列の深度が局所的に低下する位置を変異がある可能性が高い位置として推定し、
推定した前記位置で前記キー配列を含むリード配列データを前記リード配列データベースの中から抽出し、
抽出された前記リード配列データと前記ゲノム領域の配列を比較して変異解析を行う、
ことを特徴とするデータ解析方法。 - 請求項9に記載のデータ解析方法であって、
ゲノム領域内をスキャンして、前記リード配列データベースの中での前記キー配列の深度が前方に比較して後方で局所的に低下する位置をスプライシングが生じている可能性が高い位置として推定し、
前記スプライシングが生じている可能性が高いと推定された位置で、前記キー配列を含む前記リード配列データを前記リード配列データベースの中から抽出し、
抽出された前記リード配列データとゲノム領域の配列を比較してスプライシング解析を行う、
ことを特徴とするデータ解析方法。 - 請求項9に記載のデータ解析方法であって、
前記キー配列を含む前記リード配列データを前記リード配列データベースの中から抽出するか否かの判断を、前記リード配列データベースの中での前記キー配列の深度に基づいて行い、
ユーザから指示される解析パラメータにより、当該判断の基準を調整する、
ことを特徴とするデータ解析方法。 - 請求項13に記載のデータ解析方法であって、
ゲノム領域内をスキャンして、前記リード配列データベースの中での前記キー配列の深度が局所的に低下する位置を変異がある可能性が高い位置として推定し、
推定した前記位置で前記キー配列を含むリード配列データを前記リード配列データベースの中から抽出し、
抽出された前記リード配列データと前記ゲノム領域の配列を比較して変異解析を行い、
前記解析パラメータにより、前記推定の基準を調整する、
ことを特徴とするデータ解析方法。 - 請求項13に記載のデータ解析方法であって、
ゲノム領域内をスキャンして、前記リード配列データベースの中での前記キー配列の深度が前方に比較して後方で局所的に低下する位置をスプライシングが生じている可能性が高い位置として推定し、
前記スプライシングが生じている可能性が高いと推定された位置で、前記キー配列を含む前記リード配列データを前記リード配列データベースの中から抽出し、
抽出された前記リード配列データとゲノム領域の配列を比較してスプライシング解析を行い、
前記解析パラメータにより、前記推定の基準を調整する、
ことを特徴とするデータ解析方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013038919 | 2013-02-28 | ||
JP2013038919 | 2013-02-28 | ||
PCT/JP2013/081233 WO2014132497A1 (ja) | 2013-02-28 | 2013-11-20 | データ解析装置、及びその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5985040B2 true JP5985040B2 (ja) | 2016-09-06 |
JPWO2014132497A1 JPWO2014132497A1 (ja) | 2017-02-02 |
Family
ID=51427788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015502715A Active JP5985040B2 (ja) | 2013-02-28 | 2013-11-20 | データ解析装置、及びその方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10192028B2 (ja) |
EP (1) | EP2963575B1 (ja) |
JP (1) | JP5985040B2 (ja) |
CN (1) | CN104937599B (ja) |
WO (1) | WO2014132497A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9824068B2 (en) | 2013-12-16 | 2017-11-21 | 10X Genomics, Inc. | Methods and apparatus for sorting data |
JP6198659B2 (ja) * | 2014-04-03 | 2017-09-20 | 株式会社日立ハイテクノロジーズ | 配列データ解析装置、dna解析システムおよび配列データ解析方法 |
MX2017010142A (es) * | 2015-02-09 | 2017-12-11 | 10X Genomics Inc | Sistemas y metodos para determinar variacion estructural y ajuste de fases con datos de recuperacion de variantes. |
WO2016143062A1 (ja) * | 2015-03-10 | 2016-09-15 | 株式会社日立ハイテクノロジーズ | 配列データ解析装置、dna解析システムおよび配列データ解析方法 |
US10395759B2 (en) | 2015-05-18 | 2019-08-27 | Regeneron Pharmaceuticals, Inc. | Methods and systems for copy number variant detection |
JP6648549B2 (ja) * | 2016-02-19 | 2020-02-14 | 富士通株式会社 | 変異情報処理装置、方法及びプログラム |
US10867134B2 (en) * | 2016-09-02 | 2020-12-15 | Hitachi High-Tech Corporation | Method for generating text string dictionary, method for searching text string dictionary, and system for processing text string dictionary |
WO2019022019A1 (ja) * | 2017-07-24 | 2019-01-31 | 国立研究開発法人農業・食品産業技術総合研究機構 | 挿入・欠失・逆位・転座・置換検出法 |
WO2019108851A1 (en) | 2017-11-30 | 2019-06-06 | 10X Genomics, Inc. | Systems and methods for nucleic acid preparation and analysis |
WO2020182172A1 (en) * | 2019-03-14 | 2020-09-17 | Huawei Technologies Co., Ltd. | Method and system for memory allocation to optimize computer operations of seeding for burrows wheeler alignment |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039867A (ja) * | 2004-07-26 | 2006-02-09 | Hitachi Software Eng Co Ltd | cDNA配列のマッピング方法 |
JP2009116559A (ja) * | 2007-11-06 | 2009-05-28 | Hitachi Ltd | 大量配列の一括検索方法及び検索システム |
WO2010119783A1 (ja) * | 2009-04-13 | 2010-10-21 | 株式会社日立製作所 | ペア文字列検索システム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9522217B2 (en) | 2000-03-15 | 2016-12-20 | Orbusneich Medical, Inc. | Medical device with coating for capturing genetically-altered cells and methods for using same |
JP2003330934A (ja) | 2002-05-10 | 2003-11-21 | Celestar Lexico-Sciences Inc | 変異体配列解析装置、変異体配列解析方法、プログラム、および、記録媒体 |
GB0329681D0 (en) * | 2003-12-23 | 2004-01-28 | Delta Biotechnology Ltd | Gene expression technique |
CN102363051B (zh) * | 2004-04-30 | 2014-07-02 | 祥丰医疗有限公司 | 具有可捕获遗传改变的细胞的涂层的医疗装置及其使用方法 |
EP1831375B1 (en) | 2004-12-23 | 2014-07-16 | Novozymes Biopharma DK A/S | Gene expression technique |
EP2394164A4 (en) * | 2009-02-03 | 2014-01-08 | Complete Genomics Inc | ASSIGNMENT OF OLIGOMER SEQUENCES |
-
2013
- 2013-11-20 EP EP13876221.6A patent/EP2963575B1/en active Active
- 2013-11-20 US US14/762,897 patent/US10192028B2/en active Active
- 2013-11-20 WO PCT/JP2013/081233 patent/WO2014132497A1/ja active Application Filing
- 2013-11-20 CN CN201380071119.1A patent/CN104937599B/zh active Active
- 2013-11-20 JP JP2015502715A patent/JP5985040B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039867A (ja) * | 2004-07-26 | 2006-02-09 | Hitachi Software Eng Co Ltd | cDNA配列のマッピング方法 |
JP2009116559A (ja) * | 2007-11-06 | 2009-05-28 | Hitachi Ltd | 大量配列の一括検索方法及び検索システム |
WO2010119783A1 (ja) * | 2009-04-13 | 2010-10-21 | 株式会社日立製作所 | ペア文字列検索システム |
Also Published As
Publication number | Publication date |
---|---|
EP2963575B1 (en) | 2021-11-10 |
WO2014132497A1 (ja) | 2014-09-04 |
JPWO2014132497A1 (ja) | 2017-02-02 |
CN104937599A (zh) | 2015-09-23 |
US10192028B2 (en) | 2019-01-29 |
US20150363549A1 (en) | 2015-12-17 |
EP2963575A4 (en) | 2016-10-26 |
CN104937599B (zh) | 2018-01-23 |
EP2963575A1 (en) | 2016-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5985040B2 (ja) | データ解析装置、及びその方法 | |
US10192026B2 (en) | Systems and methods for genomic pattern analysis | |
US10600217B2 (en) | Methods for the graphical representation of genomic sequence data | |
Li et al. | Fast and accurate long-read alignment with Burrows–Wheeler transform | |
US8271206B2 (en) | DNA sequence assembly methods of short reads | |
Schbath et al. | Mapping reads on a genomic sequence: an algorithmic overview and a practical comparative analysis | |
JP5183155B2 (ja) | 大量配列の一括検索方法及び検索システム | |
WO2018218788A1 (zh) | 一种基于全局种子打分优选的三代测序序列比对方法 | |
US20200201905A1 (en) | Methods of automatically and self-consistently correcting genome databases | |
JP5187670B2 (ja) | 相同性検索システム | |
US20180137387A1 (en) | Systems and Methods for Aligning Sequences to Graph References | |
US11809498B2 (en) | Optimizing k-mer databases by k-mer subtraction | |
JP2008533619A (ja) | 非バイナリ配列比較のためのシステム、方法及びコンピュータプログラム | |
Sogabe et al. | An acceleration method of short read mapping using FPGA | |
JP2013172709A (ja) | 塩基配列分析のための参照配列処理システム及び方法 | |
KR101394339B1 (ko) | 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법 | |
KR20210082390A (ko) | 시퀀싱 리드 그루핑 및 콜랩싱을 위한 시스템 및 방법 | |
Thankachan et al. | An efficient algorithm for finding all pairs k-mismatch maximal common substrings | |
JP5582358B2 (ja) | 文書検索システム、文書検索方法、及びプログラム | |
KR20190139227A (ko) | K-부정합 검색을 위한 필터를 생성하는 시스템 및 방법 | |
Sun et al. | PhyLAT: a phylogenetic local alignment tool | |
Xin | Methods for reducing unnecessary computation on false mappings in read mapping | |
Eißler et al. | PTPan—overcoming memory limitations in oligonucleotide string matching for primer/probe design | |
JP5586334B2 (ja) | 文字列入力支援装置、文字列入力支援方法およびプログラム | |
Oehl | A combinatorial approach for reconstructing rDNA repeats |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160802 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5985040 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |