JP2008506165A - データ集合の目録作成および探索のための方法およびシステム - Google Patents
データ集合の目録作成および探索のための方法およびシステム Download PDFInfo
- Publication number
- JP2008506165A JP2008506165A JP2007516418A JP2007516418A JP2008506165A JP 2008506165 A JP2008506165 A JP 2008506165A JP 2007516418 A JP2007516418 A JP 2007516418A JP 2007516418 A JP2007516418 A JP 2007516418A JP 2008506165 A JP2008506165 A JP 2008506165A
- Authority
- JP
- Japan
- Prior art keywords
- data
- inventory
- creating
- search
- array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Abstract
Description
(1)前記データ集合内に存在する記号の配列の最初から第1データ要素を構成するステップを有し、前記最初のデータ要素は記憶アドレスを有する前記データ集合内の記憶位置において記憶され、
(2)前記第1データ要素を第1データ項目に変換するステップをさらに有し、前記データ項目は他のデータ項目に対する順位付けが可能であり、
(3)複数の順次的に配置される記憶位置を定義する順序付けられた目録データ構造を用いて前記第1データ項目を記憶するステップと、
(4)前記第1データ要素が検索された記憶アドレスを前記第1データ項目に対応付けるステップと、
(5)前記データ集合からの要求された各データ要素についてステップ(1)から(4)を繰り返すステップと、
(6)前記目録データ構造内に記憶された前記データ項目を順位付けることによって順序付けられた目録データ構造を整列するステップと、
をさらに有することを特徴とするデータ集合の目録を作成する方法が提供される。
(7)存在しうる固有のデータ要素の最大数に等しいか、またはより小さい多数の記憶位置を定義する少なくとも1つの順序付けられた内容データ構造を構成するステップと、
(8)少なくとも1つのデータ要素を各記憶位置と対応付けるステップと、
(9)前記記憶位置に対応付けられた前記少なくとも1つのデータ要素が前記データ集合内に存在するか否かに応じて正または負の表示を、前記内容データ構造の各記憶位置内に記憶するステップと、
をさらに有することを特徴とする実質的に説明されたデータ集合の目録を作成する方法が提供される。
(1)探索パターン配列を受信するステップと、
(2)前記受信した探索パターン配列にわたってスライドするウィンドウ処理を実行することによって複数の探索クエリーを構成するステップと、
(3)前記目録データ構造から複数の記憶アドレスを検索するステップと、を有し、前記記憶アドレスは、構成された前記探索クエリーと合致するデータ要素と対応付けられ、
(4)受信した前記記憶アドレスの間の空間的な関係を検査することによって受信した前記探索パターン配列の存在を検出するステップと、
をさらに有する探索パターンの存在を検出する方法が提供される。
“A T C G T C G T T C A G C A T A C C G T”を具備するヌクレオチド配列である元の入力パターンについて探索が実行される。図1の実例10に表わされているように、入力パターン12は、それにわたって適用されるk=5の重複しない隣接するウィンドウを有する。入力配列パターンは、4つのデータ領域14“ATCGT,CGTTC,AGCAT,ACCGT”に区分される。4つの領域の各々は、図2に表わされているように、並列アレイ表20のindex[ ] アレイ16において10進数のインデックス、例えば32、56、45、19に変換される。location[ ] アレイ18は、元のファイルにおける各データ領域の位置を表わすデータを含む。この例において、インデックス32を有するデータ領域は位置0に存在し、インデックス56を有する領域は位置5に存在し、インデックス45を有する領域は位置10に存在し、インデックス19を有する領域は位置15に存在する。
現在の探索技術と比較して大きなデータ集合について性能が評価された。ゲノム配列の比較は、本発明を用いておよび現在の探索標準のBLASTを用いて行われた。バルサムポプラの亜種トリコカーパのゲノム5百万HTGの読み出しの各々が互いに比較された(事実上、25百万の比較)。結果として、本方法は、全ての配列の比較においてBLAST法の探索時間より10,782倍高速であった。実験は、2つの64ビット1.8GHzプロセッサおよび12GBのRAMを有し、Linuxが動作するAMD Opteron 244で実行された。本発明を用いると、作業が大きくなるほど、他の現在の探索方法との差が大きくなる。
この処理の次のステップBは、各データ要素についてのデータ項目となるように構成された各要素に変換関数が適用される。好ましくは、この変換は直接のハッシュ関数によって実現される。
ステップCにおいて、各データ項目は、順序付けられた目録データ構造内に記憶され、好ましくはアレイによって構成される。
ステップDにおいて、各々の記憶されたデータ項目は、データ項目を構成するために用いられるデータ要素の開始メモリアドレスに対応付けられる。好ましくは、このステップは、これらのアドレスを並列アドレスデータ構造に記憶することによって遂行される。
この処理の最後のステップEにおいて、目録データ構造および(好ましい実施形態において提供される)対応付けられた並列アドレスデータ構造の両方は、各データ項目の形態によって与えられる順位付け表示に基づいて整列される。
この処理の最初のステップ100において、探索パターン配列は、このパターンの存在が目録作成されたデータ集合内で検出される場合に受信される。
次のステップ101において、受信された探索パターンにスライドするウィンドウ処理を適用することによって、受信された探索パターンから複数の探索クエリーが構成される。構成される探索クエリーの数は、このスライドするウィンドウ処理に割り当てられた変位値に依存する。
次のステップ102において、与えられた目録データ構造から複数の記憶アドレスが検索され、検索されたアドレスの各々は、ステップ101において構成された探索クエリーと合致するデータ要素に対応付けられる。
最後のステップ103において、検索された記憶アドレスの間の空間的関係を検査することによってパターンを検出するために、検索された記憶アドレスにわたってパターン配列検出処理が実行される。
本発明の態様は単なる例によって説明され、特許請求の範囲において定義される範囲から逸脱することなく、変形および付加を行うことが可能であると理解すべきである。
12 入力パターン
14 データ領域
16 index[ ] アレイ
18 location[ ] アレイ
20 並列アレイ表
22 整列されたアレイ
26 テンプレート
Claims (26)
- 複数のデータ記号で構成されるデータ集合の目録を作成する方法であって、
前記データ記号は前記データ集合内で互いに対する定義された順序を有し、
前記方法は、
(1)前記データ集合内に存在する記号の配列の最初から第1データ要素を構成するステップを有し、前記最初のデータ要素は記憶アドレスを有する前記データ集合内の記憶位置において記憶され、
(2)前記第1データ要素を第1データ項目に変換するステップをさらに有し、前記データ項目は他のデータ項目に対する順位付けが可能であり、
(3)複数の順次的に配置される記憶位置を定義する順序付けられた目録データ構造を用いて前記第1データ項目を記憶するステップと、
(4)前記第1データ要素が検索された記憶アドレスを前記第1データ項目に対応付けるステップと、
(5)前記データ集合からの要求された各データ要素についてステップ(1)から(4)を繰り返すステップと、
(6)前記目録データ構造内に記憶された前記データ項目を順位付けることによって順序付けられた目録データ構造を整列するステップと、
をさらに有することを特徴とするデータ集合の目録を作成する方法。 - 前記目録データ構造のサイズは、前記データ集合のサイズに実質的に等しい請求項1に記載のデータ集合の目録を作成する方法。
- 前記目録データ構造はアレイ(array)で構成される請求項1または2に記載のデータ集合の目録を作成する方法。
- 前記データ項目は、並列アドレスデータ構造によって記憶アドレスと対応付けられる請求項1から3のいずれか1項に記載のデータ集合の目録を作成する方法。
- 前記並列アドレスデータ構造はアレイで構成される請求項4に記載のデータ集合の目録を作成する方法。
- 前記データ項目は、前記目録データ構造内の記憶アドレスの記憶によって記憶アドレスと対応付けられる請求項1から3のいずれか1項に記載のデータ集合の目録を作成する方法。
- 前記データ項目は、重複に基づくデータ構造によって記憶アドレスと対応付けられる請求項1から6のいずれか1項に記載のデータ集合の目録を作成する方法。
- 前記データ要素に適用される前記変換処理は、数値形式のデータ要素を提供する請求項1から7のいずれか1項に記載のデータ集合の目録を作成する方法。
- 前記データ要素に適用される前記変換は、直接のハッシュ関数によって実現される請求項1から8のいずれか1項に記載のデータ集合の目録を作成する方法。
- 前記データ要素に適用される前記変換は、損失の多いハッシュ関数によって実現される請求項1から8のいずれか1項に記載のデータ集合の目録を作成する方法。
- 前記目録データ構造を用いる探索において検索検証処理が実行される請求項10に記載のデータ集合の目録を作成する方法。
- 前記データ要素の最上位の記号は、整列された結果の前記目録データ構造内に記憶されない請求項1から11のいずれか1項に記載のデータ集合の目録を作成する方法。
- クラスデータ構造が提供される請求項1から12のいずれか1項に記載のデータ集合の目録を作成する方法。
- 前記クラスデータ構造は、データ項目内に存在する固有の最上位の記号の数に等しい多数の記憶位置を定義するアレイによって提供される請求項13に記載のデータ集合の目録を作成する方法。
- (7)存在しうる固有のデータ要素の最大数に等しいか、またはより小さい多数の記憶位置を定義する少なくとも1つの順序付けられた内容データ構造を構成するステップと、
(8)少なくとも1つのデータ要素を各記憶位置と対応付けるステップと、
(9)前記記憶位置に対応付けられた前記少なくとも1つのデータ要素が前記データ集合内に存在するか否かに応じて正または負の表示を、前記内容データ構造の各記憶位置内に記憶するステップと、
をさらに有することを特徴とする請求項1から14のいずれか1項に記載のデータ集合の目録を作成する方法。 - 前記内容データ構造はアレイで構成される請求項15に記載のデータ集合の目録を作成する方法。
- 前記目録データ構造は、データ要素の記号配列から生成された複数の探索クエリーを処理することによって特定のデータ要素の記号配列を発見するために用いられる請求項1から16のいずれか1項に記載のデータ集合の目録を作成する方法。
- 前記処理される複数の探索クエリーは、スライドするウィンドウ処理を用いて生成される請求項17に記載のデータ集合の目録を作成する方法。
- 前記複数の探索クエリーの処理によって生成される結果は、探索パターン配列検出処理によって処理される請求項18に記載のデータ集合の目録を作成する方法。
- 前記探索パターン配列検出処理は、前記探索クエリーによって発見されたデータ要素に対応付けられた記憶アドレスの間の空間的な関係の検査においてパターンの存在を検出する請求項19に記載のデータ集合の目録を作成する方法。
- 合致するパターン配列が検出されたか否かを検査するためにエラー許容閾値が用いられる請求項20に記載のデータ集合の目録を作成する方法。
- 請求項1から21のいずれか1項に記載の方法によって目録が作成されたデータ集合内の探索パターンの存在を検出する方法であって、
(1)探索パターン配列を受信するステップと、
(2)前記受信した探索パターン配列にわたってスライドするウィンドウ処理を実行することによって複数の探索クエリーを構成するステップと、
(3)前記目録データ構造から複数の記憶アドレスを検索するステップと、を有し、前記記憶アドレスは、構成された前記探索クエリーと合致するデータ要素と対応付けられ、
(4)受信した前記記憶アドレスの間の空間的な関係を検査することによって受信した前記探索パターン配列の存在を検出するステップと、
をさらに有する探索パターンの存在を検出する方法。 - 合致するパターン配列が検出されたか否かを検査するためにエラー許容閾値が用いられる請求項22に記載の探索パターンの存在を検出する方法
- 請求項1から23のいずれか1項に記載のデータ集合の目録を作成する方法を実行するために使用されるコンピュータ読み取り可能な媒体に記憶されたコンピュータが実行可能な命令。
- 請求項1から21のいずれか1項に記載のデータ集合の目録を作成する方法を実行するために使用される、コンピュータが実行可能な命令が記憶されたコンピュータ読み取り可能な媒体。
- 添付図面および/または例を参照して実質的に説明され、かつ表わされたデータ集合の目録を作成する方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US58115604P | 2004-06-18 | 2004-06-18 | |
PCT/NZ2005/000134 WO2005124596A1 (en) | 2004-06-18 | 2005-06-17 | Data collection cataloguing and searching method and system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008506165A true JP2008506165A (ja) | 2008-02-28 |
Family
ID=35509906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007516418A Pending JP2008506165A (ja) | 2004-06-18 | 2005-06-17 | データ集合の目録作成および探索のための方法およびシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US7640256B2 (ja) |
EP (1) | EP1769398A4 (ja) |
JP (1) | JP2008506165A (ja) |
AU (1) | AU2005255348B2 (ja) |
WO (1) | WO2005124596A1 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010091023A2 (en) * | 2009-02-03 | 2010-08-12 | Complete Genomics, Inc. | Indexing a reference sequence for oligomer sequence mapping |
WO2010091021A2 (en) * | 2009-02-03 | 2010-08-12 | Complete Genomics, Inc. | Oligomer sequences mapping |
EP2394165A4 (en) * | 2009-02-03 | 2013-12-11 | Complete Genomics Inc | ASSIGNMENT OF OLIGOMER SEQUENCES |
DK2511843T3 (en) * | 2009-04-29 | 2017-03-27 | Complete Genomics Inc | METHOD AND SYSTEM FOR DETERMINING VARIATIONS IN A SAMPLE POLYNUCLEOTIDE SEQUENCE IN TERMS OF A REFERENCE POLYNUCLEOTIDE SEQUENCE |
WO2011145955A1 (en) * | 2010-05-20 | 2011-11-24 | Real Time Genomics, Inc. | Method and system for sequence correlation |
EP2500837A1 (en) * | 2011-03-11 | 2012-09-19 | Qlucore AB | Method for robust comparison of data |
US20130091266A1 (en) | 2011-10-05 | 2013-04-11 | Ajit Bhave | System for organizing and fast searching of massive amounts of data |
WO2013096620A1 (en) * | 2011-12-20 | 2013-06-27 | Baym Michael H | Compressing, storing and searching sequence data |
US9600625B2 (en) | 2012-04-23 | 2017-03-21 | Bina Technologies, Inc. | Systems and methods for processing nucleic acid sequence data |
US20130297624A1 (en) * | 2012-05-07 | 2013-11-07 | Microsoft Corporation | Interoperability between Map-Reduce and Distributed Array Runtimes |
GB2506523A (en) | 2012-08-31 | 2014-04-02 | Real Time Genomics Inc | A computerised assignment of genomic sequence values based on multiple reads and probabilistic analysis |
US10726942B2 (en) | 2013-08-23 | 2020-07-28 | Complete Genomics, Inc. | Long fragment de novo assembly using short reads |
US20150169682A1 (en) * | 2013-10-18 | 2015-06-18 | Google Inc. | Hash Learning |
EP3189478A4 (en) * | 2014-09-03 | 2018-03-07 | The Dun and Bradstreet Corporation | System and process for analyzing, qualifying and ingesting sources of unstructured data via empirical attribution |
US9811391B1 (en) * | 2016-03-04 | 2017-11-07 | Color Genomics, Inc. | Load balancing and conflict processing in workflow with task dependencies |
US10853130B1 (en) | 2015-12-02 | 2020-12-01 | Color Genomics, Inc. | Load balancing and conflict processing in workflow with task dependencies |
CN106202154B (zh) * | 2016-06-21 | 2019-04-02 | 南开大学 | 一种基于重复数据删除架构的倒排索引表示方法及系统 |
US11550751B2 (en) * | 2016-11-18 | 2023-01-10 | Microsoft Technology Licensing, Llc | Sequence expander for data entry/information retrieval |
KR102594625B1 (ko) * | 2017-03-19 | 2023-10-25 | 오펙-에슈콜롯 리서치 앤드 디벨롭먼트 엘티디 | K-부정합 검색을 위한 필터를 생성하는 시스템 및 방법 |
US11183270B2 (en) * | 2017-12-07 | 2021-11-23 | International Business Machines Corporation | Next generation sequencing sorting in time and space complexity using location integers |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5799299A (en) * | 1994-09-14 | 1998-08-25 | Kabushiki Kaisha Toshiba | Data processing system, data retrieval system, data processing method and data retrieval method |
US5742807A (en) * | 1995-05-31 | 1998-04-21 | Xerox Corporation | Indexing system using one-way hash for document service |
US6023659A (en) * | 1996-10-10 | 2000-02-08 | Incyte Pharmaceuticals, Inc. | Database system employing protein function hierarchies for viewing biomolecular sequence data |
US5966712A (en) * | 1996-12-12 | 1999-10-12 | Incyte Pharmaceuticals, Inc. | Database and system for storing, comparing and displaying genomic information |
GB9811574D0 (en) * | 1998-05-30 | 1998-07-29 | Ibm | Indexed file system and a method and a mechanism for accessing data records from such a system |
US6261782B1 (en) * | 1999-04-06 | 2001-07-17 | Yale University | Fixed address analysis of sequence tags |
EP1316023A2 (en) | 1999-08-11 | 2003-06-04 | Institute of Medicinal Molecular Design, Inc. | Specific identifiers of amino-acid and base sequences |
ATE318932T1 (de) * | 1999-08-13 | 2006-03-15 | Univ Yale | Binär kodierte sequenzmarker |
EP1387292A1 (en) | 2002-07-26 | 2004-02-04 | LION Bioscience AG | Method and apparatus for combining data of biological sequences into a non-redundant data source |
US6977153B2 (en) * | 2002-12-31 | 2005-12-20 | Qiagen Gmbh | Rolling circle amplification of RNA |
US7158999B2 (en) * | 2004-02-20 | 2007-01-02 | Mainstar Software Corporation | Reorganization and repair of an ICF catalog while open and in-use in a digital data storage system |
US7618778B2 (en) * | 2004-06-02 | 2009-11-17 | Kaufman Joseph C | Producing, cataloging and classifying sequence tags |
-
2005
- 2005-06-17 JP JP2007516418A patent/JP2008506165A/ja active Pending
- 2005-06-17 EP EP05757526A patent/EP1769398A4/en not_active Withdrawn
- 2005-06-17 AU AU2005255348A patent/AU2005255348B2/en not_active Ceased
- 2005-06-17 WO PCT/NZ2005/000134 patent/WO2005124596A1/en active Application Filing
- 2005-06-17 US US11/630,155 patent/US7640256B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
AU2005255348B2 (en) | 2009-12-17 |
WO2005124596A1 (en) | 2005-12-29 |
EP1769398A4 (en) | 2009-01-21 |
US7640256B2 (en) | 2009-12-29 |
EP1769398A1 (en) | 2007-04-04 |
US20080256070A1 (en) | 2008-10-16 |
AU2005255348A1 (en) | 2005-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008506165A (ja) | データ集合の目録作成および探索のための方法およびシステム | |
KR101153033B1 (ko) | 사본 탐지 및 삭제 방법 | |
Drew et al. | Polymorphic malware detection using sequence classification methods | |
CN106295250B (zh) | 二代测序短序列快速比对分析方法及装置 | |
US10649997B2 (en) | Method, system and computer program product for performing numeric searches related to biometric information, for finding a matching biometric identifier in a biometric database | |
US10521441B2 (en) | System and method for approximate searching very large data | |
CA2395327A1 (en) | Sequence database search with sequence search trees | |
US7822700B2 (en) | Method for using lengths of data paths in assessing the morphological similarity of sets of data by using equivalence signatures | |
US20140188396A1 (en) | Oligomer sequences mapping | |
Vaddadi et al. | Read mapping on genome variation graphs | |
WO2011073680A1 (en) | Improvements relating to hash tables | |
Giuliani et al. | Computing maximal unique matches with the r-index | |
Giladi et al. | SST: An algorithm for searching sequence databases in time proportional to the logarithm of the database size | |
Esmat et al. | A parallel hash‐based method for local sequence alignment | |
Somayajulu | Index based multiple pattern matching algorithm using DNA sequence and pattern count | |
CN109727645B (zh) | 生物序列指纹 | |
Bonnici et al. | A k-mer based sequence similarity for pangenomic analyses | |
US20170323050A1 (en) | Structural analysis of proteins by structural representation and comparison of proteins | |
KR102614401B1 (ko) | 생물학적 서열 정보 핸들링 | |
Xu et al. | Covariant evolutionary event analysis for base interaction prediction using a relational database management system for RNA | |
Kim et al. | Metabuli: sensitive and specific metagenomic classification via joint analysis of amino-acid and DNA | |
Du | Chemical molecules search based on graph similarity measure | |
Jaber et al. | Adapting decision tree-based method to index large DNA-protein sequence datasets | |
Boža et al. | Fishing in Read Collections: Memory Efficient Indexing for Sequence Assembly | |
Bhavsar | Search-Optimized Disk Layouts for Suffix-Tree Genomic Indexes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080613 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20091208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20091208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110621 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111115 |