JP5175381B2 - 遺伝情報管理システムおよび遺伝情報管理方法 - Google Patents

遺伝情報管理システムおよび遺伝情報管理方法 Download PDF

Info

Publication number
JP5175381B2
JP5175381B2 JP2011231857A JP2011231857A JP5175381B2 JP 5175381 B2 JP5175381 B2 JP 5175381B2 JP 2011231857 A JP2011231857 A JP 2011231857A JP 2011231857 A JP2011231857 A JP 2011231857A JP 5175381 B2 JP5175381 B2 JP 5175381B2
Authority
JP
Japan
Prior art keywords
genetic information
information management
management system
data
primary key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011231857A
Other languages
English (en)
Other versions
JP2012094141A (ja
Inventor
パク、ミンソ
キム、ウー‐ヨン
Original Assignee
サムソン エスディーエス カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by サムソン エスディーエス カンパニー リミテッド filed Critical サムソン エスディーエス カンパニー リミテッド
Publication of JP2012094141A publication Critical patent/JP2012094141A/ja
Application granted granted Critical
Publication of JP5175381B2 publication Critical patent/JP5175381B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2423Interactive query statement specification based on a database schema
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、バイオインフォマティクス(Bioinformatics)技術に関するものであって、より詳細には、膨大な量のリードデータおよびリードデータから得られた遺伝情報を効率的に管理する、遺伝情報管理システムおよび遺伝情報管理方法に関するものである。
最近、バイオ産業分野におけるゲノム産業分野の割合が増加しつつある。代表的な例としては「Genome Quest社」、「Knome社」、「Complete Genomics社」などの世界的な企業は次世代シーケンス技術(Next Generation Sequencing:NGS)と呼ばれる遺伝子配列解読技術(DNA sequencing techniques)を商用化してサービスしている。最近では韓国の「Terasen社」も同様のサービスを始めた。NGS技術は、NGSにより抽出したデータを表示するゲノム分野、ゲノム解析サービスをするバイオ産業分野、データを提供のためのゲノム研究分野、診断および治療の際にゲノムデータを活用する医学分野など多様な分野で活用できる潜在力を有している。
ところが、このようなNGSを利用してDNS配列解読技術により得られるデータは、ヒトの場合、一つのサンプル当たり約35億件ほどであるため、得られたデータの有効な分析、検索および表示をするためのデータベースの構築およびデータ処理技術(すなわち、遺伝情報管理技法)の開発もまた非常に重要である。
現在まで知らされている遺伝情報管理技法としては、SAM(Sequence Alignment/Map) ツール、GBrowse(Generic Genome Browser)、IGV(Integrative Genomics Viewer)などがある。
SAM ツールは、2009年Bioinformaticsという学術誌に発表された。NGSにより算出したリードデータを有効に格納するための方法を提案している。SAMとBAM(Binary Alignment/Map)形式のファイルフォーマットを提案し、全体データの容量を減らすと共にデータを高速に抽出できる方案まで提案している。
SAMファイルフォーマットでは、ヘッダー部分は「@」文字で示し、実際のデータはタブ区切りであり、次の表1に示すとおり合計11個の必須コラムを有する。
Figure 0005175381
前記SAMフォーマットはバイナリフォーマットであるBAMフォーマットに変換することができる。これはデータからの情報を迅速に抽出し、データサイズを減らすことができるからである。実際にデータにアクセスするためには特別に考案されたSAMツールというソフトを利用しなければならない。
一方、世界の多くの研究機関で活用されている遺伝情報ブラウザとしてはGBrowseがある。GBrowse自体はmysqlというデータベースを基盤とし、同時にファイル基盤のデータも管理が可能である。しかし、リードデータをデータベースに格納/管理することができない。さらに、一般的な遺伝情報とは異なり、NGSデータに対してはあまりにも大容量データであるため、GBrowse方式をそのまま適用することができない。したがって、2009年にNGSデータを表示するための試みが行われた。その結果、現在リードデータを表示できるように修正が行われた。
最後に、遺伝情報をローカルコンピュータで表示するために開発されたブラウザとしてIGVが知られている。これはNGSデータだけではなく、マイクロアレイなどの実験データを共に含めることができるように設計されている。NGSデータの場合にはSAMあるいはBAMファイル形式のデータを入力データとして格納することができる。ユーザはこのツールをユーザのコンピュータにインストールし、必要なファイルを呼び出した後、前記ファイルをツールでインポート(import)して駆動する方式である。
しかし、現在まで知らされている従来の技術では次のような問題点がいくつかある。
第一に、従来の技術で使用するデータでは、所望する部分のみを変更することがほぼ不可能である。一部のデータを変更するためにはデータ全体を改めて生成しなければならないため、データ自体をSAM形式で作成、これを再びバイナリフォーマットのBAMファイルに変換しなければならない。すなわち、データを変更するためには全体ファイルを再生成しなければならない。
第二に、従来の技術ではデータの生成、追加、削除などの機能で全体データの重複性を判断することが難しい。一つのデータを変更する際、全体データの重複性を確認するためには全体データをチェックしなければならない問題点が生じる。また全体データから必要なデータの取り出す際にも一々重複をチェックしなければならないという難点がある。
第三に、従来の技術は、多数のユーザを対象とするサービス形態ではない。したがって、多数のユーザが同じデータにアクセスする場合、これをコントロールしたり、または必要な規則を適用したりすることができないため、別途のプログラムを構築しなければならい。
第四に、従来の技術ではデータの完全性保証することが難しい。データの完全性は、認証されていないユーザ、認証されていない方式によってデータが変更されたり、削除されたりすることを防止することをいう。このためにはデータの一つ一つをシステムアカウントと繋ぐか、あるいはこのようなデータを管理する別途のツールを開発しなければならない。生命体の遺伝情報は、保安が非常に重要であり、特にヒトの遺伝情報は個人情報以上に保安を強化することが要求される。したがって、安全性保証の困難は明らかな問題点といえる。
最後に、従来の技術は、様々な要因によりデータが損傷する場合、これを復旧できる機能がない。したがって、これに関連するまた他の機能を実現したり、別途のソフト利用しなければならない。産業の側面からデータの完全性に加え、データの安全性は極めて重要な課題である。
本発明は、上記従来の問題点に鑑みてなされたものであって、本発明の目的は、NGSのリードデータのような大容量の遺伝情報の迅速かつ安定した処理を行うためのデータベース設計を提供することにある。特に、ゲノムブラウザでデータを表示する際、データベースを有効に応用できるようにすることを目的とする。
本発明の技術的課題は、以上で言及した技術的課題に制限されず、言及されていないまた他の技術的課題は次の記載から当業者に明確に理解できるであろう。
前記技術的課題を達成するための、本発明の一実施形態による遺伝子解析装置から得られるリードデータを処理し、リードデータとそれから得られる遺伝情報に関するデータベースを構築し、ユーザの命令に応じて前記データベースの検索結果を出力する遺伝情報管理システムは、前記リードデータを読み込み、テーブル埋め込みインデックス(table−embedded index)の形式に変換する構文解析部と、前記テーブル埋め込みインデックスを、遺伝情報に関する基本項目を含むマスターテーブルと、遺伝情報に関する追加項目を含むスレーブテーブルに分類して管理するテーブル管理部、およびユーザの命令に応じて前記マスターテーブルおよび/または前記スレーブテーブルを検索して検索されたデータを出力する検索部を含む。
本発明の他の実施形態による遺伝情報管理システムは、前記リードデータを読み込み、テーブル埋め込みインデックスの形式に変換する構文解析部、およびユーザの命令と関連する主キー(primary key)を基準に前記テーブル埋め込みインデックスのデータを検索する検索部を含み、前記主キーはアスキーコードの少なくとも一部で構成される。
前記技術的課題を達成するための本発明の一実施形態による遺伝情報管理システムが遺伝子解析装置から得られるリードデータを処理し、遺伝情報に関するデータベースを構築し、ユーザの命令に応じて前記データベースの検索結果を出力する遺伝情報管理方法は、前記遺伝情報管理システムが前記リードデータから遺伝情報に関する基本項目を含むマスターテーブルを生成するステップと、前記遺伝情報管理システムが前記リードデータから遺伝情報に関する追加項目を含むスレーブテーブルを生成するステップ、および前記遺伝情報管理システムが前記マスターテーブルおよび/または前記スレーブテーブルを検索して検索されたデータを出力するステップを含む。ただし、前記マスターテーブルおよび前記スレーブテーブルはテーブル埋め込みインデックスの形式で構成されることが好ましい。
前記テーブル埋め込みインデックスは、IOT(Index−Organized Table)、Clustered IndexまたはInnodbでありうる。
前記基本項目は、遺伝情報のID、染色体番号、開始位置、類型およびモードを含み、前記追加項目は遺伝情報のクォリティ、配列および差異を含みうる。
前記マスターテーブルおよび前記スレーブテーブルは主キー(primary key)を各々含みうる。この場合、本実施形態による遺伝情報管理方法は、前記遺伝情報管理システムが前記ユーザ命令と関連する前記主キーを基準に前記マスターテーブルおよび前記スレーブテーブルを検索するステップをさらに含みうる。また、前記遺伝情報管理方法は前記ユーザの命令がズームアウト(ZoomOut)であれば、前記遺伝情報管理システムが前記主キーに該当する前記マスターテーブルのデータを出力するステップ、および前記ユーザの命令がズームイン(ZoomIn)であれば、前記遺伝情報管理システムが前記主キーに該当する前記マスターテーブルと前記主キーに該当する前記スレーブテーブルを結合したデータを出力するステップをさらに含みうる。また、前記主キーはアスキーコードの少なくとも一部で構成することができ、特に前記アスキーコードの少なくとも一部はコード33〜126の範囲のアスキーコードを含みうる。また、前記主キーは33〜126の範囲のアスキーコードを組み合わせた5バイトで表示されるものでありうる。
本発明によれば、NGSのリードデータのような大容量の遺伝情報の処理性能を改善することができる。特に、大容量の遺伝情報に対してテーブル埋め込みインデックスを応用するため、格納空間およびデータ処理速度を向上させることができ、テーブル分割機能により検索時間を短縮することができる。のみならず、アスキーコードを利用する識別子を利用することによりデータ検索およびテーブル結合時間を短縮することができる。
したがって、ゲノムシーケンスを行った後、ゲノムブラウザを介してその結果を表示するゲノム解析サービス、多様なサンプルからDNAを抽出してそのデータを解析する研究分野、診断および治療を目的とする医療分野、のみならず、その他大容量データを処理することを目的とする場合など、広く活用することができる。
本発明の一実施形態による遺伝情報管理システムを図示するブロック図である。 本発明の一実施形態による遺伝子解析装置を図示するブロック図である。 インデックスとテーブルが分離する一般テーブル構造を図示する図である。 図3Aと対比されるテーブル埋め込みインデックスの例を示す図である。 マスターテーブルに格納される基本項目とスレーブテーブルに格納される追加項目の例を図示する図である。 5バイトのアスキー文字で73億個を識別できる識別子を生成できること図示する図である。
遺伝情報を表示するブラウザの開発において、NGSにより抽出したリードデータの効果的な格納方法が要求される。ヒトを対象とする場合、一つのサンプル(ヒトゲノム)をNGSによりDNAシクォンシンを行うと、約800GBを越えるリードデータが生成される。ブラウザでこのような膨大なデータをリアルタイムで表示する場合、膨大なデータ量の有効な処理が重要である。これを解決するため、本発明ではデータベースを基盤にリードデータおよびそれから得られた遺伝情報を格納/検索する方法を提示する。
以下、本発明の好ましく実施するための形態の具体例を、図面を参照しながら説明する。本発明の利点、特徴、及びそれらを達成する方法は、図面と共に詳細に後述する実施形態を参照すれば明確になるであろう。しかし、本発明は、以下で開示する実施形態に限定されるものではなく、異なる多様な形態で具現することが可能である。本実施形態は、単に本発明の開示が完全になるように、本発明が属する技術分野で通常の知識を有する者に対して発明の範疇を完全に知らしめるために提供するものである。本発明は請求項の範囲によってのみ定義される。明細書全体において、同一参照符号は同一構成要素を指す。
図1は、本発明の一実施形態による遺伝情報管理システム100を図示するブロック図である。遺伝情報管理システム100は、構文解析部110、テーブル管理部120、検索部140およびユーザインターフェース150を含み構成される。図1の実施形態では、遺伝子解析装置50は遺伝情報管理システム100の外部に別途備えるものと説明するが、遺伝子解析装置50が遺伝情報管理システム100内に含まれても本発明の思想から外れないことはもちろんである。
遺伝情報管理システム100は、遺伝子解析装置50から得られるリードデータ(read data)を処理して遺伝情報に関するデータベースを構築し、ユーザの命令に応じて前記データベースの検索結果を出力する。
遺伝子解析装置50は、図2に図示するように、遺伝子サンプルから遺伝情報管理システム100に提供するリードデータを提供する。遺伝子解析装置50は、遺伝子シーケンサ51、マッピング部52、ペアリング部53およびマージ(merging)部54を含み構成される。
先に、遺伝子シーケンサ51は、遺伝子サンプルからテキスト結果物を生成する。このようなテキスト結果物としては、リード配列データ、リードクォリティデータなどがある。遺伝子シーケンサ51は例えば、分析しようとする遺伝子をフローセル(flow cell)に存在するビード(bead)に付着し、フローセルに化学物質(蛍光物質など)の処理を行い、塩基(A、T、G、C)によって色相の変化を行わせた後、光学顕微鏡でビードの色相を撮影する方式により前記テキスト結果物を生成することができる。
マッピング部52は、前記テキスト結果物をレファレンスゲノム(reference genome)にマッピングする。前記レファレンスゲノムは既に公開されたゲノム配列であって、ヒトゲノムの場合にはNCBIに公開されているデータを利用することができる。
ペアリング部53は、互いに対をなすリードデータを互いに連結する。最後に、マージ部54は生成したペアリングデータを、サンプル別に一つのファイルに併合する。一個のサンプルは正確性のため、数回のテストを行う。マージ部54は、このように数回のテストにより生成されたデータを併合する。このようなマージ過程は必要に応じて省略してもよい。以上の過程により、遺伝子解析装置の出力データ(遺伝情報管理システム100に提供されているリードデータ)が得られる。
再び図1を参照すると、構文解析部110は遺伝子解析装置50から提供されるリードデータを読み込み、データベースを基盤とするテーブル埋め込みインデックス形式に変換する。前記テーブル埋め込みインデックスはオラクルデータベースではIOT(Index−Organized Table)、mssqlとsybaseではClustered Index、そしてmysqlではInnodbで各々表現される。
本発明は、従来のファイル基盤システムの代りにデータベース基盤のシステムを利用する。データベース基盤のシステムは、ファイル基盤システムに比べ、データの構造変更、データ重複の回避、並行処理制御の容易性、完全性保証の容易性、回復処理の容易性など多様な長所がある。ゲノムブラウザは多くのゲノム情報を表示するブラウザであるため、データの重複が生じてはならず、並行処理制御とデータ構造変更が頻繁に生じる。また、遺伝情報は固有情報であり、保安が重要であるため、完全性保証を行いやすいデータベース基盤のシステムがより適する。また、ゲノムブラウザは大量のデータ作業がユーザの命令に応じて追加生成される可能性があり、これによりデータ構造が変更されうる。したがって、このような観点からもデータ構造変更が可能なデータベース基盤のシステムがより効果的である。
本発明はこのようなデータベース基盤のシステムの導入と共に、データベースを構築において通常のテーブルの代りにテーブル埋め込みインデックスを使用する。
リードデータをテーブルにすると、通常の場合、列(column)数は少なく、行(row)数(ヒトをサンプルにする場合35億個)は非常に多い特性を有する。次の表2は通常のゲノムブラウザに使用されるリードデータを通常のテーブルにしたものである。ここで括弧内の数字はバイトである
Figure 0005175381
このようなデータの特性を考慮して本発明ではテーブル埋め込みインデックスを提案する。テーブル埋め込みインデックスは通常のテーブルの短所(すなわち、インデックスによりレコードにアクセスする際、テーブルを二回読むプロセス)であるインデックスによりレコードにアクセスする際、テーブルを二回読むプロセスを補完する。
図3Aは、インデックスとテーブルが分離している一般テーブル構造の例を図示する図である。図3Bは、図3Aと対比されるテーブル埋め込みインデックスの例を図示する図である。図3Aの通常のテーブルの場合には、主キー(primary key)を利用してインデックスを検索してROWIDを得た後、ROWIDを利用してテーブルを読み込む。したがって、キー列の主キーがインデックスとテーブルに重複して格納されるためディスク浪費をもたらし、検索時間が長くなる。
これに比べ、図3Bに示すテーブル埋め込みインデックスの場合、主キーを重複して格納する必要がない。特に、記録される行の数が多いほどより効果的である。ヒトゲノムの場合、リードデータは最大60億件(30X基準)を上回るデータ数がある。したがって、行の数が非常に多く、したがって記録する主キーの数もその分多くなる。しかし、一般テーブル構造は、ゲノムデータの場合、主キーにより二回検索して重複格納空間を有するため、ゲノムブラウザの性能を深刻に低下させる。したがって、インデックス内にデータテーブルを含めた構造、すなわちテーブル埋め込みインデックスの必要性が高まる。このような前記テーブル埋め込みインデックスの例としては、オラクルデータベースのIOT(Index−Organized Table)、mssqlとsybaseのClustered Index、mysqlのInnodbなどがある。
再び、図1を参照すれば、テーブル管理部120は、構文解析部110から得られた前記テーブル埋め込みインデックスを、遺伝情報に関する基本項目を含むマスターテーブルと、遺伝情報に関する追加項目を含むスレーブテーブルに分類して管理する。
格納空間を減らし、有効なインデックスにより性能を改善できるテーブル埋め込みインデックスにも短所がある。テーブル埋め込みインデックスで一列(column)のサイズがあまりにも大きい場合、または列の数があまりにも多い場合、効率性が急激に低下する。したがって、現在の遺伝情報のうち、クォリティデータのようにバイト数が大きいデータは別途分類する必要がある。またクォリティデータはメインブラウザページでは省略できる情報、すなわち詳細ブラウザページでのみ表示してもよいデータである。
図4は、マスターテーブルに格納される基本項目と、スレーブテーブルに格納される追加項目の例を図示する図である。前記追加項目は相対的にデータのサイズが大きいか、またはメインブラウザでは省略しもよいデータ項目を意味する。前記マスターテーブルおよび前記スレーブテーブルは同一主キー(primary key)を各々含むが、前記主キーを基準に前記マスターテーブルおよび前記スレーブテーブルの検索および結合が行われうる。
再び図1を参照すると、ユーザインターフェース150はユーザの命令を受信して検索部140に伝達し、検索部140で処理した結果をユーザに表示する。ユーザインターフェース150は例えば、ゲノムブラウザとして実現できるが、これに限定されるものではない。
検索部140はユーザの命令に応じて前記マスターテーブルおよび/または前記スレーブテーブルを検索して検索されたデータを出力する。前記検索部140は前記ユーザの命令がズームアウト(ZoomOut)であれば、前記主キーに該当する前記マスターテーブルのデータを出力し、前記ユーザの命令がズームイン(ZoomIn)であれば、前記主キーに該当する前記マスターテーブルと前記主キーに該当する前記スレーブテーブルを結合したデータを出力する。
ゲノムブラウザ(ユーザインターフェース150に含まれる)では、データ検索範囲の区間によって整列するデータの量が異なる。したがって、区間に別に異なるテーブル設定をすることが効果的でありうる。ゲノムブラウザは通常のズームイン(Zoom In)およびズームアウト(Zoom Out)機能を有する。例えば、ゲノムブラウザでズームインは、遺伝情報を詳細に見ることができるように、表示する領域を100KB(kilo base)と限定する。したがって、多くのリードデータの遺伝情報が表示されないが、一リードデータに対し、より詳細な情報、すなわちマスターテーブルおよびスレーブテーブルが結合した結果を表示する。
一方、ズームアウトによっては通常表示する領域が10MB(mega base)であるために、相対的に多くのリードデータの遺伝情報が表示される。したがって、この場合には基本項目を表示するためにマスターテーブルのみを参照してもよい。
仮に、このような遺伝情報がマスターテーブル/スレーブテーブルの構造を有しなければ、ユーザがズームインおよびズームアウト機能を頻繁に使用する場合にも、一つに統合されたテーブルを参照するが、このような一つのテーブルは前述したようにバイトが大きい項目を多数含むため、テーブル埋め込みインデックスの効率が劣るであろう。
一方、このようにマスターテーブルおよびスレーブテーブルを結合することにより生じる非効率的な面も考慮しなければならない。しかし、マスターテーブルおよびスレーブテーブルをテーブル埋め込みインデックスに生成することによって検索時間が短縮される点、より小さい範囲の処理(例えば、100KB)を前提とするため、多くの行を考慮する必要がない点などから結合過程よる大きな非効率は生じない。
前述したように、マスターテーブルおよびスレーブテーブルを含む二重化したテーブル構成においては、二つのテーブルの検索および結合のための共通キー(主キー)が要求される。しかし、リードデータ自体が一つのサンプル当たり約35億件に達するため、一つの主キーに1バイトだけ追加しても約3.5ギガバイトが追加される結果をもたらす。これを解決するため、35億件を越えるデータを短いキーに納める方案が要求される。
これに、本発明では前記共通の主キーはアスキーコードの少なくとも一部で構成することを提案する。例えば、アスキーコードのうち33〜126に該当するアスキー文字を組み合わせて主キーを表現することができる。次の表3はアスキーコードおよびこれに対応する10進数値で表す。
Figure 0005175381
このようなアスキーコードのうち33〜126は一般的な文字であり、これを除く34個のアスキーコードは制御文字である。したがって、アスキーコードのうち33〜126に該当するアスキー文字を組み合わせて主キーを表現することができる。
図5に図示するように、前記範囲のアスキーコードを総5バイトで主キーを表示すると、わずか5バイトだけで73億個を識別できる識別子を生成することができる。このように、わずかなバイト数でできるだけ多くの識別子を表示することは、マスターテーブルとスレーブテーブルを含む二重化したテーブル構成でのみ要求されるものではない。例えば、図1で構文解析部110から得られたテーブル埋め込みインデックスの形式のみで構成される単一のテーブルを検索部140によって検索する実施形態でもテーブルに含まれたマスターキーのサイズを減らすことに有用に使用されうる。
今まで図1に示す各構成要素はFPGA(field−programmable gate array)やASIC(application−specific integrated circuit)のようなハードウェア(hardware)を意味する。しかし、前記構成要素はアドレッシング(addressing)できる格納媒体にあるように構成することもでき、一つまたはそれ以上のプロセッサを実行するように構成することもできる。前記構成要素から提供される機能はさらに細分化した構成要素によって実現することができ、複数の構成要素を組合わせて特定の機能を行う一つの構成要素として実現することもできる。
以上添付する図面を参照して本発明の実施形態について説明したが、本発明が属する技術分野で通常の知識を有する者は、本発明がその技術的思想や必須の特徴を変更しない範囲で他の具体的な形態で実施されうることを理解することができる。したがって、上述の実施形態はすべての面で例示的なものであり、限定されるものではないと理解しなければならない。
50 遺伝子解析装置
100 遺伝情報管理システム
110 構文解析部
120 テーブル管理部
140 検索部
150 ユーザインターフェース

Claims (20)

  1. 遺伝子解析装置から得られるリードデータを処理して遺伝情報に関するデータベースを構築し、ユーザの命令に応じて前記データベースの検索結果を出力する遺伝情報管理システムであって、
    前記リードデータを読み込み、テーブル埋め込みインデックスの形式に変換する構文解析部と、
    前記テーブル埋め込みインデックスを、遺伝情報に関する基本項目を含むマスターテーブルと、遺伝情報に関する追加項目を含むスレーブテーブルと、に分類して管理するテーブル管理部と、
    前記マスターテーブルおよび前記スレーブテーブルのうち少なくとも一つを検索して、検索されたデータを出力する検索部と、を含む遺伝情報管理システム。
  2. 前記テーブル埋め込みインデックスは、
    IOT(Index−Organized Table)、Clustered IndexまたはInnodbである請求項1に記載の遺伝情報管理システム。
  3. 前記基本項目は、遺伝情報のID(Identification)、染色体番号、開始位置、類型およびモードを含み、
    前記追加項目は、遺伝情報のクォリティ、配列および差異を含む請求項1に記載の遺伝情報管理システム。
  4. 前記マスターテーブルおよび前記スレーブテーブルは、主キー(primary key)を各々含み、
    前記検索部は、前記ユーザの命令と関連する前記主キーを基準に、前記マスターテーブルおよび前記スレーブテーブルを検索する請求項1に記載の遺伝情報管理システム。
  5. 前記検索部は、
    前記ユーザの命令がズームアウト(ZoomOut)であれば、前記主キーに該当する前記マスターテーブルのデータを出力し、前記ユーザの命令がズームイン(ZoomIn)であれば、前記主キーに該当する前記マスターテーブルと前記主キーに該当する前記スレーブテーブルとを結合したデータを出力する請求項4に記載の遺伝情報管理システム。
  6. 前記主キーは、
    アスキーコードの少なくとも一部で構成される請求項4に記載の遺伝情報管理システム。
  7. 前記アスキーコードの少なくとも一部は、
    コード33〜126の範囲のアスキーコードを含む請求項6に記載の遺伝情報管理システム。
  8. 前記主キーは、
    前記範囲のアスキーコードを組み合わせた5バイトで表示される請求項7に記載の遺伝情報管理システム。
  9. 遺伝子解析装置から得られるリードデータを処理して遺伝情報に関するデータベースを構築し、ユーザの命令に応じて前記データベースの検索結果を出力する遺伝情報管理システムであって、
    前記リードデータを読み込み、テーブル埋め込みインデックスの形式に変換する構文解析部と、
    ユーザの命令と関連する主キー(primary key)を基準に、前記テーブル埋め込みインデックスのデータを検索する検索部と、を含み、
    前記主キーは、アスキーコードの少なくとも一部で構成される遺伝情報管理システム。
  10. 前記アスキーコードの少なくとも一部は、
    コード33〜126の範囲のアスキーコードを含む請求項9に記載の遺伝情報管理システム。
  11. 前記主キーは、
    前記範囲のアスキーコードを組み合わせた5バイトで表示される請求項10に記載の遺伝情報管理システム。
  12. 遺伝子解析装置から得られるリードデータを処理して遺伝情報に関するデータベースを構築し、ユーザの命令に応じて前記データベースの検索結果を出力する遺伝情報管理システムであって、
    前記リードデータを読み込み、テーブル埋め込みインデックス形式のデータフォーマットに変換する構文解析部と、
    前記データフォーマットを格納して管理するテーブル管理部と、
    主キー(primary key)を基準に、前記データフォーマットのデータを検索して出力する検索部と、を含む遺伝情報管理システム。
  13. 遺伝情報管理システムが遺伝子解析装置から得られるリードデータを処理して遺伝情報に関するデータベースを構築し、ユーザの命令に応じて前記データベースの検索結果を出力する遺伝情報管理方法であって、
    前記遺伝情報管理システムが、前記リードデータから遺伝情報に関する基本項目を含むマスターテーブルを生成するステップと、
    前記遺伝情報管理システムが、前記リードデータから遺伝情報に関する追加項目を含むスレーブテーブルを生成するステップと、
    前記遺伝情報管理システムが、前記マスターテーブルおよび/または前記スレーブテーブルのデータを検索して出力するステップと、を含み、
    前記マスターテーブルおよび前記スレーブテーブルは、テーブル埋め込みインデックスの形式で構成される遺伝情報管理方法。
  14. 前記テーブル埋め込みインデックスは、
    IOT(Index−Organized Table)、Clustered IndexまたはInnodbである請求項13に記載の遺伝情報管理方法。
  15. 前記基本項目は、遺伝情報のID(Identification)、染色体番号、開始位置、類型およびモードを含み、
    前記追加項目は、遺伝情報のクォリティ、配列および差異を含む請求項13に記載の遺伝情報管理方法。
  16. 前記マスターテーブルおよび前記スレーブテーブルは、主キー(primary key)を各々含み、
    前記遺伝情報管理システムが、前記ユーザ命令と関連する前記主キーを基準に、前記マスターテーブルおよび前記スレーブテーブルを検索するステップをさらに含む請求項13に記載の遺伝情報管理方法。
  17. 前記ユーザの命令がズームアウト(ZoomOut)であれば、前記遺伝情報管理システムが、前記主キーに該当する前記マスターテーブルのデータを出力するステップと、
    前記ユーザの命令がズームイン(ZoomIn)であれば、前記遺伝情報管理システムが、前記主キーに該当する前記マスターテーブルと前記主キーに該当する前記スレーブテーブルとを結合したデータを出力するステップと、をさらに含む請求項16に記載の遺伝情報管理方法。
  18. 前記主キーは、
    アスキーコードの少なくとも一部で構成される請求項16に記載の遺伝情報管理方法。
  19. 前記アスキーコードの少なくとも一部は、
    コード33〜126の範囲のアスキーコードを含む請求項18に記載の遺伝情報管理方法。
  20. 前記主キーは、
    前記範囲のアスキーコードを組み合わせた5バイトで表示される請求項19に記載の遺伝情報管理方法。
JP2011231857A 2010-10-22 2011-10-21 遺伝情報管理システムおよび遺伝情報管理方法 Expired - Fee Related JP5175381B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20100103538A KR101188886B1 (ko) 2010-10-22 2010-10-22 유전 정보 관리 시스템 및 방법
KR10-2010-0103538 2010-10-22

Publications (2)

Publication Number Publication Date
JP2012094141A JP2012094141A (ja) 2012-05-17
JP5175381B2 true JP5175381B2 (ja) 2013-04-03

Family

ID=44993487

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011231857A Expired - Fee Related JP5175381B2 (ja) 2010-10-22 2011-10-21 遺伝情報管理システムおよび遺伝情報管理方法

Country Status (5)

Country Link
US (1) US9098490B2 (ja)
EP (1) EP2444914A3 (ja)
JP (1) JP5175381B2 (ja)
KR (1) KR101188886B1 (ja)
CN (1) CN102456101B (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9773091B2 (en) 2011-10-31 2017-09-26 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
CN104246689B (zh) 2011-12-08 2020-06-02 凡弗3基因组有限公司 提供基因组数据的动态索引和可视化的分布式系统
US9600625B2 (en) 2012-04-23 2017-03-21 Bina Technologies, Inc. Systems and methods for processing nucleic acid sequence data
CA2873902A1 (en) * 2012-05-18 2013-11-21 Georgetown University Methods and systems for populating and searching a drug informatics database
US9678948B2 (en) 2012-06-26 2017-06-13 International Business Machines Corporation Real-time message sentiment awareness
US9104656B2 (en) * 2012-07-03 2015-08-11 International Business Machines Corporation Using lexical analysis and parsing in genome research
KR101525584B1 (ko) 2012-12-03 2015-06-03 주식회사 케이티 바이오 데이터 검증 방법 및 이를 위한 장치
US9690775B2 (en) 2012-12-27 2017-06-27 International Business Machines Corporation Real-time sentiment analysis for synchronous communication
US9460083B2 (en) 2012-12-27 2016-10-04 International Business Machines Corporation Interactive dashboard based on real-time sentiment analysis for synchronous communication
US8937564B2 (en) 2013-01-10 2015-01-20 Infinidat Ltd. System, method and non-transitory computer readable medium for compressing genetic information
US20140236897A1 (en) * 2013-01-10 2014-08-21 Jacob Brodio System, method and non-transitory computer readable medium for compressing genetic information
US10847251B2 (en) 2013-01-17 2020-11-24 Illumina, Inc. Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis
US9679104B2 (en) 2013-01-17 2017-06-13 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10691775B2 (en) 2013-01-17 2020-06-23 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9792405B2 (en) 2013-01-17 2017-10-17 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9418203B2 (en) 2013-03-15 2016-08-16 Cypher Genomics, Inc. Systems and methods for genomic variant annotation
US11342048B2 (en) 2013-03-15 2022-05-24 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US10235496B2 (en) 2013-03-15 2019-03-19 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US9594777B1 (en) * 2013-08-15 2017-03-14 Pivotal Software, Inc. In-database single-nucleotide genetic variant analysis
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
CA2971589C (en) 2014-12-18 2021-09-28 Edico Genome Corporation Chemically-sensitive field effect transistor
EP3329491A2 (en) 2015-03-23 2018-06-06 Edico Genome Corporation Method and system for genomic visualization
US10419020B2 (en) 2015-06-18 2019-09-17 International Business Machines Corporation Increasing storage capacity and data transfer speed in genome data backup
EP3608913A1 (en) * 2015-07-02 2020-02-12 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
EP3338211A1 (en) 2015-08-17 2018-06-27 Koninklijke Philips N.V. Multi-level architecture of pattern recognition in biological data
US20170270245A1 (en) 2016-01-11 2017-09-21 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
US10068183B1 (en) 2017-02-23 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on a quantum processing platform
EP3459115A4 (en) 2016-05-16 2020-04-08 Agilome, Inc. GRAPHEN-FET DEVICES, SYSTEMS AND METHODS FOR USE THEREOF FOR SEQUENCING NUCLEIC ACIDS
US10522241B2 (en) 2016-09-08 2019-12-31 International Business Machines Corporation Accelerating genomic data parsing on field programmable gate arrays
BR112019007296A2 (pt) * 2016-10-11 2019-09-17 Genomsys Sa estruturas de dados eficazes para representação de informações de bioinformática
US20180314842A1 (en) * 2017-04-27 2018-11-01 Awakens, Inc. Computing system with genomic information access mechanism and method of operation thereof
RU2659025C1 (ru) * 2017-06-14 2018-06-26 Общество с ограниченной ответственностью "ЛЭНДИГРАД" Способы кодирования и декодирования информации

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6266378A (ja) * 1985-09-19 1987-03-25 Mitsubishi Electric Corp 文書デ−タ処理装置
US5204663A (en) * 1990-05-21 1993-04-20 Applied Systems Institute, Inc. Smart card access control system
US6519583B1 (en) * 1997-05-15 2003-02-11 Incyte Pharmaceuticals, Inc. Graphical viewer for biomolecular sequence data
US6317750B1 (en) * 1998-10-26 2001-11-13 Hyperion Solutions Corporation Method and apparatus for accessing multidimensional data
US6941317B1 (en) 1999-09-14 2005-09-06 Eragen Biosciences, Inc. Graphical user interface for display and analysis of biological sequence data
US6484179B1 (en) * 1999-10-25 2002-11-19 Oracle Corporation Storing multidimensional data in a relational database management system
US6795821B2 (en) * 2001-07-17 2004-09-21 Trendium, Inc. Database systems, methods and computer program products including primary key and super key indexes for use with partitioned tables
US7529685B2 (en) * 2001-08-28 2009-05-05 Md Datacor, Inc. System, method, and apparatus for storing, retrieving, and integrating clinical, diagnostic, genomic, and therapeutic data
KR100453517B1 (ko) 2002-05-31 2004-10-20 주식회사 이노티브 인터넷을 통한 대용량 고품질 디지털 이미지의 실시간서비스 방법
US7634498B2 (en) * 2003-10-24 2009-12-15 Microsoft Corporation Indexing XML datatype content system and method
US7925555B2 (en) * 2003-11-05 2011-04-12 Wells Fargo Bank N.A. Master system of record
KR100601941B1 (ko) 2004-02-17 2006-07-14 삼성전자주식회사 서열 색인 방법 및 그 시스템
JP4433289B2 (ja) * 2004-04-27 2010-03-17 日鉄日立システムエンジニアリング株式会社 ゲノム情報表示システム
WO2006002234A2 (en) * 2004-06-22 2006-01-05 Coras, Inc. Systems and methods for software based on business concepts
US20060074735A1 (en) * 2004-10-01 2006-04-06 Microsoft Corporation Ink-enabled workflow authoring
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
JP2006244189A (ja) * 2005-03-04 2006-09-14 Hitachi Software Eng Co Ltd 遺伝情報検索プログラム
US7734619B2 (en) * 2005-05-27 2010-06-08 International Business Machines Corporation Method of presenting lineage diagrams representing query plans
US20070061365A1 (en) * 2005-09-07 2007-03-15 Ablaze Development Corporation Event participant image locating, retrieving, editing and printing system
CN100343852C (zh) * 2005-09-27 2007-10-17 南方医科大学 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法
US7472140B2 (en) * 2005-12-20 2008-12-30 Oracle International Corporation Label-aware index for efficient queries in a versioning system
KR100737359B1 (ko) * 2006-10-04 2007-07-10 (주)이글로벌시스템 암호화된 컬럼의 인덱스 구축방법
CN101780070B (zh) 2009-01-16 2012-08-22 广州康臣药物研究有限公司 一种治疗糖尿病肾病的药物组合物及其制备方法
US9704129B2 (en) * 2009-08-31 2017-07-11 Thomson Reuters Global Resources Method and system for integrated professional continuing education related services

Also Published As

Publication number Publication date
KR101188886B1 (ko) 2012-10-09
EP2444914A3 (en) 2016-01-27
KR20120042058A (ko) 2012-05-03
US9098490B2 (en) 2015-08-04
CN102456101B (zh) 2015-07-08
US20120102041A1 (en) 2012-04-26
JP2012094141A (ja) 2012-05-17
CN102456101A (zh) 2012-05-16
EP2444914A2 (en) 2012-04-25

Similar Documents

Publication Publication Date Title
JP5175381B2 (ja) 遺伝情報管理システムおよび遺伝情報管理方法
US11649495B2 (en) Systems and methods for mitochondrial analysis
Wen et al. PepQuery enables fast, accurate, and convenient proteomic validation of novel genomic alterations
US9354922B2 (en) Metadata-driven workflows and integration with genomic data processing systems and techniques
Li Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences
Durbin Efficient haplotype matching and storage using the positional Burrows–Wheeler transform (PBWT)
JP6141335B2 (ja) コンパクトな次世代シーケンシングデータセット及び該データセットを使用した効率的な配列の処理
Janin et al. BEETL-fastq: a searchable compressed archive for DNA reads
US20160306919A1 (en) Genome compression and decompression
Kozanitis et al. Using Genome Query Language to uncover genetic variation
CN112420202A (zh) 数据的处理方法、装置及设备
US9886561B2 (en) Efficient encoding and storage and retrieval of genomic data
Neuwald Rapid detection, classification and accurate alignment of up to a million or more related protein sequences
Han et al. Novel algorithms for efficient subsequence searching and mapping in nanopore raw signals towards targeted sequencing
Chubb et al. Sequencing delivers diminishing returns for homology detection: implications for mapping the protein universe
Mendoza et al. Flexible and fast mapping of peptides to a proteome with ProteoMapper
Palatnick et al. iGenomics: Comprehensive DNA sequence analysis on your Smartphone
Bonizzoni et al. LSG: an external-memory tool to compute string graphs for next-generation sequencing data assembly
Loka et al. PriLive: privacy-preserving real-time filtering for next-generation sequencing
Catanho et al. BioParser: a tool for processing of sequence similarity analysis reports
Olexiouk et al. proBAMconvert: a conversion tool for proBAM/proBed
Kredens et al. Vertical lossless genomic data compression tools for assembled genomes: A systematic literature review
Lima et al. An evaluation of data replication for bioinformatics workflows on NoSQL systems
Teichman et al. Analyzing microbial evolution through gene and genome phylogenies
US20190050531A1 (en) Dna sequence processing method and device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130104

R150 Certificate of patent or registration of utility model

Ref document number: 5175381

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees