JP2012094141A

JP2012094141A - 遺伝情報管理システムおよび遺伝情報管理方法

Info

Publication number: JP2012094141A
Application number: JP2011231857A
Authority: JP
Inventors: Min-So Park; パク、ミンソ; Woo-Yong Kim; キム、ウー‐ヨン
Original assignee: Samsung SDS Co Ltd
Current assignee: Samsung SDS Co Ltd
Priority date: 2010-10-22
Filing date: 2011-10-21
Publication date: 2012-05-17
Anticipated expiration: 2031-10-21
Also published as: EP2444914A3; EP2444914A2; KR20120042058A; KR101188886B1; CN102456101B; CN102456101A; JP5175381B2; US20120102041A1; US9098490B2

Abstract

【課題】本発明は、膨大な量のリードデータおよびリードデータから得られた遺伝情報を有効に管理するシステムおよび方法に関するものである。
【解決手段】本発明による遺伝情報管理システムは、リードデータを読み込み、テーブル埋め込みインデックスの形式に変換する構文解析部と、テーブル埋め込みインデックスを、遺伝情報に関する基本項目を含むマスターテーブルと、遺伝情報に関する追加項目を含むスレーブテーブルに分類して管理するテーブル管理部と、マスターテーブルおよび／またはスレーブテーブルのデータを検索して出力する検索部と、からなる。
【選択図】図１

Description

本発明は、バイオインフォマティクス（Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ）技術に関するものであって、より詳細には、膨大な量のリードデータおよびリードデータから得られた遺伝情報を効率的に管理する、遺伝情報管理システムおよび遺伝情報管理方法に関するものである。

最近、バイオ産業分野におけるゲノム産業分野の割合が増加しつつある。代表的な例としては「ＧｅｎｏｍｅＱｕｅｓｔ社」、「Ｋｎｏｍｅ社」、「ＣｏｍｐｌｅｔｅＧｅｎｏｍｉｃｓ社」などの世界的な企業は次世代シーケンス技術（ＮｅｘｔＧｅｎｅｒａｔｉｏｎＳｅｑｕｅｎｃｉｎｇ：ＮＧＳ）と呼ばれる遺伝子配列解読技術（ＤＮＡｓｅｑｕｅｎｃｉｎｇｔｅｃｈｎｉｑｕｅｓ）を商用化してサービスしている。最近では韓国の「Ｔｅｒａｓｅｎ社」も同様のサービスを始めた。ＮＧＳ技術は、ＮＧＳにより抽出したデータを表示するゲノム分野、ゲノム解析サービスをするバイオ産業分野、データを提供のためのゲノム研究分野、診断および治療の際にゲノムデータを活用する医学分野など多様な分野で活用できる潜在力を有している。

ところが、このようなＮＧＳを利用してＤＮＳ配列解読技術により得られるデータは、ヒトの場合、一つのサンプル当たり約３５億件ほどであるため、得られたデータの有効な分析、検索および表示をするためのデータベースの構築およびデータ処理技術（すなわち、遺伝情報管理技法）の開発もまた非常に重要である。

現在まで知らされている遺伝情報管理技法としては、ＳＡＭ（ＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ／Ｍａｐ）ツール、ＧＢｒｏｗｓｅ（ＧｅｎｅｒｉｃＧｅｎｏｍｅＢｒｏｗｓｅｒ）、ＩＧＶ（ＩｎｔｅｇｒａｔｉｖｅＧｅｎｏｍｉｃｓＶｉｅｗｅｒ）などがある。

ＳＡＭツールは、２００９年Ｂｉｏｉｎｆｏｒｍａｔｉｃｓという学術誌に発表された。ＮＧＳにより算出したリードデータを有効に格納するための方法を提案している。ＳＡＭとＢＡＭ（ＢｉｎａｒｙＡｌｉｇｎｍｅｎｔ／Ｍａｐ）形式のファイルフォーマットを提案し、全体データの容量を減らすと共にデータを高速に抽出できる方案まで提案している。

ＳＡＭファイルフォーマットでは、ヘッダー部分は「＠」文字で示し、実際のデータはタブ区切りであり、次の表１に示すとおり合計１１個の必須コラムを有する。

前記ＳＡＭフォーマットはバイナリフォーマットであるＢＡＭフォーマットに変換することができる。これはデータからの情報を迅速に抽出し、データサイズを減らすことができるからである。実際にデータにアクセスするためには特別に考案されたＳＡＭツールというソフトを利用しなければならない。

一方、世界の多くの研究機関で活用されている遺伝情報ブラウザとしてはＧＢｒｏｗｓｅがある。ＧＢｒｏｗｓｅ自体はｍｙｓｑｌというデータベースを基盤とし、同時にファイル基盤のデータも管理が可能である。しかし、リードデータをデータベースに格納／管理することができない。さらに、一般的な遺伝情報とは異なり、ＮＧＳデータに対してはあまりにも大容量データであるため、GBrowse方式をそのまま適用することができない。したがって、２００９年にＮＧＳデータを表示するための試みが行われた。その結果、現在リードデータを表示できるように修正が行われた。

最後に、遺伝情報をローカルコンピュータで表示するために開発されたブラウザとしてＩＧＶが知られている。これはＮＧＳデータだけではなく、マイクロアレイなどの実験データを共に含めることができるように設計されている。ＮＧＳデータの場合にはＳＡＭあるいはＢＡＭファイル形式のデータを入力データとして格納することができる。ユーザはこのツールをユーザのコンピュータにインストールし、必要なファイルを呼び出した後、前記ファイルをツールでインポート（ｉｍｐｏｒｔ）して駆動する方式である。

しかし、現在まで知らされている従来の技術では次のような問題点がいくつかある。

第一に、従来の技術で使用するデータでは、所望する部分のみを変更することがほぼ不可能である。一部のデータを変更するためにはデータ全体を改めて生成しなければならないため、データ自体をＳＡＭ形式で作成、これを再びバイナリフォーマットのＢＡＭファイルに変換しなければならない。すなわち、データを変更するためには全体ファイルを再生成しなければならない。

第二に、従来の技術ではデータの生成、追加、削除などの機能で全体データの重複性を判断することが難しい。一つのデータを変更する際、全体データの重複性を確認するためには全体データをチェックしなければならない問題点が生じる。また全体データから必要なデータの取り出す際にも一々重複をチェックしなければならないという難点がある。

第三に、従来の技術は、多数のユーザを対象とするサービス形態ではない。したがって、多数のユーザが同じデータにアクセスする場合、これをコントロールしたり、または必要な規則を適用したりすることができないため、別途のプログラムを構築しなければならい。

第四に、従来の技術ではデータの完全性保証することが難しい。データの完全性は、認証されていないユーザ、認証されていない方式によってデータが変更されたり、削除されたりすることを防止することをいう。このためにはデータの一つ一つをシステムアカウントと繋ぐか、あるいはこのようなデータを管理する別途のツールを開発しなければならない。生命体の遺伝情報は、保安が非常に重要であり、特にヒトの遺伝情報は個人情報以上に保安を強化することが要求される。したがって、安全性保証の困難は明らかな問題点といえる。

最後に、従来の技術は、様々な要因によりデータが損傷する場合、これを復旧できる機能がない。したがって、これに関連するまた他の機能を実現したり、別途のソフト利用しなければならない。産業の側面からデータの完全性に加え、データの安全性は極めて重要な課題である。

本発明は、上記従来の問題点に鑑みてなされたものであって、本発明の目的は、ＮＧＳのリードデータのような大容量の遺伝情報の迅速かつ安定した処理を行うためのデータベース設計を提供することにある。特に、ゲノムブラウザでデータを表示する際、データベースを有効に応用できるようにすることを目的とする。

本発明の技術的課題は、以上で言及した技術的課題に制限されず、言及されていないまた他の技術的課題は次の記載から当業者に明確に理解できるであろう。

前記技術的課題を達成するための、本発明の一実施形態による遺伝子解析装置から得られるリードデータを処理し、リードデータとそれから得られる遺伝情報に関するデータベースを構築し、ユーザの命令に応じて前記データベースの検索結果を出力する遺伝情報管理システムは、前記リードデータを読み込み、テーブル埋め込みインデックス（ｔａｂｌｅ−ｅｍｂｅｄｄｅｄｉｎｄｅｘ）の形式に変換する構文解析部と、前記テーブル埋め込みインデックスを、遺伝情報に関する基本項目を含むマスターテーブルと、遺伝情報に関する追加項目を含むスレーブテーブルに分類して管理するテーブル管理部、およびユーザの命令に応じて前記マスターテーブルおよび／または前記スレーブテーブルを検索して検索されたデータを出力する検索部を含む。

本発明の他の実施形態による遺伝情報管理システムは、前記リードデータを読み込み、テーブル埋め込みインデックスの形式に変換する構文解析部、およびユーザの命令と関連する主キー（ｐｒｉｍａｒｙｋｅｙ）を基準に前記テーブル埋め込みインデックスのデータを検索する検索部を含み、前記主キーはアスキーコードの少なくとも一部で構成される。

前記技術的課題を達成するための本発明の一実施形態による遺伝情報管理システムが遺伝子解析装置から得られるリードデータを処理し、遺伝情報に関するデータベースを構築し、ユーザの命令に応じて前記データベースの検索結果を出力する遺伝情報管理方法は、前記遺伝情報管理システムが前記リードデータから遺伝情報に関する基本項目を含むマスターテーブルを生成するステップと、前記遺伝情報管理システムが前記リードデータから遺伝情報に関する追加項目を含むスレーブテーブルを生成するステップ、および前記遺伝情報管理システムが前記マスターテーブルおよび／または前記スレーブテーブルを検索して検索されたデータを出力するステップを含む。ただし、前記マスターテーブルおよび前記スレーブテーブルはテーブル埋め込みインデックスの形式で構成されることが好ましい。

前記テーブル埋め込みインデックスは、ＩＯＴ（Ｉｎｄｅｘ−ＯｒｇａｎｉｚｅｄＴａｂｌｅ）、ＣｌｕｓｔｅｒｅｄＩｎｄｅｘまたはＩｎｎｏｄｂでありうる。

前記基本項目は、遺伝情報のＩＤ、染色体番号、開始位置、類型およびモードを含み、前記追加項目は遺伝情報のクォリティ、配列および差異を含みうる。

前記マスターテーブルおよび前記スレーブテーブルは主キー（ｐｒｉｍａｒｙｋｅｙ）を各々含みうる。この場合、本実施形態による遺伝情報管理方法は、前記遺伝情報管理システムが前記ユーザ命令と関連する前記主キーを基準に前記マスターテーブルおよび前記スレーブテーブルを検索するステップをさらに含みうる。また、前記遺伝情報管理方法は前記ユーザの命令がズームアウト（ＺｏｏｍＯｕｔ）であれば、前記遺伝情報管理システムが前記主キーに該当する前記マスターテーブルのデータを出力するステップ、および前記ユーザの命令がズームイン（ＺｏｏｍＩｎ）であれば、前記遺伝情報管理システムが前記主キーに該当する前記マスターテーブルと前記主キーに該当する前記スレーブテーブルを結合したデータを出力するステップをさらに含みうる。また、前記主キーはアスキーコードの少なくとも一部で構成することができ、特に前記アスキーコードの少なくとも一部はコード３３〜１２６の範囲のアスキーコードを含みうる。また、前記主キーは３３〜１２６の範囲のアスキーコードを組み合わせた５バイトで表示されるものでありうる。

本発明によれば、ＮＧＳのリードデータのような大容量の遺伝情報の処理性能を改善することができる。特に、大容量の遺伝情報に対してテーブル埋め込みインデックスを応用するため、格納空間およびデータ処理速度を向上させることができ、テーブル分割機能により検索時間を短縮することができる。のみならず、アスキーコードを利用する識別子を利用することによりデータ検索およびテーブル結合時間を短縮することができる。

したがって、ゲノムシーケンスを行った後、ゲノムブラウザを介してその結果を表示するゲノム解析サービス、多様なサンプルからＤＮＡを抽出してそのデータを解析する研究分野、診断および治療を目的とする医療分野、のみならず、その他大容量データを処理することを目的とする場合など、広く活用することができる。

本発明の一実施形態による遺伝情報管理システムを図示するブロック図である。本発明の一実施形態による遺伝子解析装置を図示するブロック図である。インデックスとテーブルが分離する一般テーブル構造を図示する図である。図３Ａと対比されるテーブル埋め込みインデックスの例を示す図である。マスターテーブルに格納される基本項目とスレーブテーブルに格納される追加項目の例を図示する図である。５バイトのアスキー文字で７３億個を識別できる識別子を生成できること図示する図である。

遺伝情報を表示するブラウザの開発において、ＮＧＳにより抽出したリードデータの効果的な格納方法が要求される。ヒトを対象とする場合、一つのサンプル（ヒトゲノム）をＮＧＳによりＤＮＡシクォンシンを行うと、約８００ＧＢを越えるリードデータが生成される。ブラウザでこのような膨大なデータをリアルタイムで表示する場合、膨大なデータ量の有効な処理が重要である。これを解決するため、本発明ではデータベースを基盤にリードデータおよびそれから得られた遺伝情報を格納／検索する方法を提示する。

以下、本発明の好ましく実施するための形態の具体例を、図面を参照しながら説明する。本発明の利点、特徴、及びそれらを達成する方法は、図面と共に詳細に後述する実施形態を参照すれば明確になるであろう。しかし、本発明は、以下で開示する実施形態に限定されるものではなく、異なる多様な形態で具現することが可能である。本実施形態は、単に本発明の開示が完全になるように、本発明が属する技術分野で通常の知識を有する者に対して発明の範疇を完全に知らしめるために提供するものである。本発明は請求項の範囲によってのみ定義される。明細書全体において、同一参照符号は同一構成要素を指す。

図１は、本発明の一実施形態による遺伝情報管理システム１００を図示するブロック図である。遺伝情報管理システム１００は、構文解析部１１０、テーブル管理部１２０、検索部１４０およびユーザインターフェース１５０を含み構成される。図１の実施形態では、遺伝子解析装置５０は遺伝情報管理システム１００の外部に別途備えるものと説明するが、遺伝子解析装置５０が遺伝情報管理システム１００内に含まれても本発明の思想から外れないことはもちろんである。

遺伝情報管理システム１００は、遺伝子解析装置５０から得られるリードデータ（ｒｅａｄｄａｔａ）を処理して遺伝情報に関するデータベースを構築し、ユーザの命令に応じて前記データベースの検索結果を出力する。

遺伝子解析装置５０は、図２に図示するように、遺伝子サンプルから遺伝情報管理システム１００に提供するリードデータを提供する。遺伝子解析装置５０は、遺伝子シーケンサ５１、マッピング部５２、ペアリング部５３およびマージ（ｍｅｒｇｉｎｇ）部５４を含み構成される。

先に、遺伝子シーケンサ５１は、遺伝子サンプルからテキスト結果物を生成する。このようなテキスト結果物としては、リード配列データ、リードクォリティデータなどがある。遺伝子シーケンサ５１は例えば、分析しようとする遺伝子をフローセル（ｆｌｏｗｃｅｌｌ）に存在するビード（ｂｅａｄ）に付着し、フローセルに化学物質（蛍光物質など）の処理を行い、塩基（Ａ、Ｔ、Ｇ、Ｃ）によって色相の変化を行わせた後、光学顕微鏡でビードの色相を撮影する方式により前記テキスト結果物を生成することができる。

マッピング部５２は、前記テキスト結果物をレファレンスゲノム（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅ）にマッピングする。前記レファレンスゲノムは既に公開されたゲノム配列であって、ヒトゲノムの場合にはＮＣＢＩに公開されているデータを利用することができる。

ペアリング部５３は、互いに対をなすリードデータを互いに連結する。最後に、マージ部５４は生成したペアリングデータを、サンプル別に一つのファイルに併合する。一個のサンプルは正確性のため、数回のテストを行う。マージ部５４は、このように数回のテストにより生成されたデータを併合する。このようなマージ過程は必要に応じて省略してもよい。以上の過程により、遺伝子解析装置の出力データ（遺伝情報管理システム１００に提供されているリードデータ）が得られる。

再び図１を参照すると、構文解析部１１０は遺伝子解析装置５０から提供されるリードデータを読み込み、データベースを基盤とするテーブル埋め込みインデックス形式に変換する。前記テーブル埋め込みインデックスはオラクルデータベースではＩＯＴ（Ｉｎｄｅｘ−ＯｒｇａｎｉｚｅｄＴａｂｌｅ）、ｍｓｓｑｌとｓｙｂａｓｅではＣｌｕｓｔｅｒｅｄＩｎｄｅｘ、そしてｍｙｓｑｌではＩｎｎｏｄｂで各々表現される。

本発明は、従来のファイル基盤システムの代りにデータベース基盤のシステムを利用する。データベース基盤のシステムは、ファイル基盤システムに比べ、データの構造変更、データ重複の回避、並行処理制御の容易性、完全性保証の容易性、回復処理の容易性など多様な長所がある。ゲノムブラウザは多くのゲノム情報を表示するブラウザであるため、データの重複が生じてはならず、並行処理制御とデータ構造変更が頻繁に生じる。また、遺伝情報は固有情報であり、保安が重要であるため、完全性保証を行いやすいデータベース基盤のシステムがより適する。また、ゲノムブラウザは大量のデータ作業がユーザの命令に応じて追加生成される可能性があり、これによりデータ構造が変更されうる。したがって、このような観点からもデータ構造変更が可能なデータベース基盤のシステムがより効果的である。

本発明はこのようなデータベース基盤のシステムの導入と共に、データベースを構築において通常のテーブルの代りにテーブル埋め込みインデックスを使用する。

リードデータをテーブルにすると、通常の場合、列（ｃｏｌｕｍｎ）数は少なく、行（ｒｏｗ）数（ヒトをサンプルにする場合３５億個）は非常に多い特性を有する。次の表２は通常のゲノムブラウザに使用されるリードデータを通常のテーブルにしたものである。ここで括弧内の数字はバイトである

このようなデータの特性を考慮して本発明ではテーブル埋め込みインデックスを提案する。テーブル埋め込みインデックスは通常のテーブルの短所（すなわち、インデックスによりレコードにアクセスする際、テーブルを二回読むプロセス）であるインデックスによりレコードにアクセスする際、テーブルを二回読むプロセスを補完する。

図３Ａは、インデックスとテーブルが分離している一般テーブル構造の例を図示する図である。図３Ｂは、図３Ａと対比されるテーブル埋め込みインデックスの例を図示する図である。図３Ａの通常のテーブルの場合には、主キー（ｐｒｉｍａｒｙｋｅｙ）を利用してインデックスを検索してＲＯＷＩＤを得た後、ＲＯＷＩＤを利用してテーブルを読み込む。したがって、キー列の主キーがインデックスとテーブルに重複して格納されるためディスク浪費をもたらし、検索時間が長くなる。

これに比べ、図３Ｂに示すテーブル埋め込みインデックスの場合、主キーを重複して格納する必要がない。特に、記録される行の数が多いほどより効果的である。ヒトゲノムの場合、リードデータは最大６０億件（３０Ｘ基準）を上回るデータ数がある。したがって、行の数が非常に多く、したがって記録する主キーの数もその分多くなる。しかし、一般テーブル構造は、ゲノムデータの場合、主キーにより二回検索して重複格納空間を有するため、ゲノムブラウザの性能を深刻に低下させる。したがって、インデックス内にデータテーブルを含めた構造、すなわちテーブル埋め込みインデックスの必要性が高まる。このような前記テーブル埋め込みインデックスの例としては、オラクルデータベースのＩＯＴ（Ｉｎｄｅｘ−ＯｒｇａｎｉｚｅｄＴａｂｌｅ）、ｍｓｓｑｌとｓｙｂａｓｅのＣｌｕｓｔｅｒｅｄＩｎｄｅｘ、ｍｙｓｑｌのＩｎｎｏｄｂなどがある。

再び、図１を参照すれば、テーブル管理部１２０は、構文解析部１１０から得られた前記テーブル埋め込みインデックスを、遺伝情報に関する基本項目を含むマスターテーブルと、遺伝情報に関する追加項目を含むスレーブテーブルに分類して管理する。

格納空間を減らし、有効なインデックスにより性能を改善できるテーブル埋め込みインデックスにも短所がある。テーブル埋め込みインデックスで一列（ｃｏｌｕｍｎ）のサイズがあまりにも大きい場合、または列の数があまりにも多い場合、効率性が急激に低下する。したがって、現在の遺伝情報のうち、クォリティデータのようにバイト数が大きいデータは別途分類する必要がある。またクォリティデータはメインブラウザページでは省略できる情報、すなわち詳細ブラウザページでのみ表示してもよいデータである。

図４は、マスターテーブルに格納される基本項目と、スレーブテーブルに格納される追加項目の例を図示する図である。前記追加項目は相対的にデータのサイズが大きいか、またはメインブラウザでは省略しもよいデータ項目を意味する。前記マスターテーブルおよび前記スレーブテーブルは同一主キー（ｐｒｉｍａｒｙｋｅｙ）を各々含むが、前記主キーを基準に前記マスターテーブルおよび前記スレーブテーブルの検索および結合が行われうる。

再び図１を参照すると、ユーザインターフェース１５０はユーザの命令を受信して検索部１４０に伝達し、検索部１４０で処理した結果をユーザに表示する。ユーザインターフェース１５０は例えば、ゲノムブラウザとして実現できるが、これに限定されるものではない。

検索部１４０はユーザの命令に応じて前記マスターテーブルおよび／または前記スレーブテーブルを検索して検索されたデータを出力する。前記検索部１４０は前記ユーザの命令がズームアウト（ＺｏｏｍＯｕｔ）であれば、前記主キーに該当する前記マスターテーブルのデータを出力し、前記ユーザの命令がズームイン（ＺｏｏｍＩｎ）であれば、前記主キーに該当する前記マスターテーブルと前記主キーに該当する前記スレーブテーブルを結合したデータを出力する。

ゲノムブラウザ（ユーザインターフェース１５０に含まれる）では、データ検索範囲の区間によって整列するデータの量が異なる。したがって、区間に別に異なるテーブル設定をすることが効果的でありうる。ゲノムブラウザは通常のズームイン（ＺｏｏｍＩｎ）およびズームアウト（ＺｏｏｍＯｕｔ）機能を有する。例えば、ゲノムブラウザでズームインは、遺伝情報を詳細に見ることができるように、表示する領域を１００ＫＢ（ｋｉｌｏｂａｓｅ）と限定する。したがって、多くのリードデータの遺伝情報が表示されないが、一リードデータに対し、より詳細な情報、すなわちマスターテーブルおよびスレーブテーブルが結合した結果を表示する。

一方、ズームアウトによっては通常表示する領域が１０ＭＢ（ｍｅｇａｂａｓｅ）であるために、相対的に多くのリードデータの遺伝情報が表示される。したがって、この場合には基本項目を表示するためにマスターテーブルのみを参照してもよい。

仮に、このような遺伝情報がマスターテーブル／スレーブテーブルの構造を有しなければ、ユーザがズームインおよびズームアウト機能を頻繁に使用する場合にも、一つに統合されたテーブルを参照するが、このような一つのテーブルは前述したようにバイトが大きい項目を多数含むため、テーブル埋め込みインデックスの効率が劣るであろう。

一方、このようにマスターテーブルおよびスレーブテーブルを結合することにより生じる非効率的な面も考慮しなければならない。しかし、マスターテーブルおよびスレーブテーブルをテーブル埋め込みインデックスに生成することによって検索時間が短縮される点、より小さい範囲の処理（例えば、１００ＫＢ）を前提とするため、多くの行を考慮する必要がない点などから結合過程よる大きな非効率は生じない。

前述したように、マスターテーブルおよびスレーブテーブルを含む二重化したテーブル構成においては、二つのテーブルの検索および結合のための共通キー（主キー）が要求される。しかし、リードデータ自体が一つのサンプル当たり約３５億件に達するため、一つの主キーに１バイトだけ追加しても約３．５ギガバイトが追加される結果をもたらす。これを解決するため、３５億件を越えるデータを短いキーに納める方案が要求される。

これに、本発明では前記共通の主キーはアスキーコードの少なくとも一部で構成することを提案する。例えば、アスキーコードのうち３３〜１２６に該当するアスキー文字を組み合わせて主キーを表現することができる。次の表３はアスキーコードおよびこれに対応する１０進数値で表す。

このようなアスキーコードのうち３３〜１２６は一般的な文字であり、これを除く３４個のアスキーコードは制御文字である。したがって、アスキーコードのうち３３〜１２６に該当するアスキー文字を組み合わせて主キーを表現することができる。

図５に図示するように、前記範囲のアスキーコードを総５バイトで主キーを表示すると、わずか５バイトだけで７３億個を識別できる識別子を生成することができる。このように、わずかなバイト数でできるだけ多くの識別子を表示することは、マスターテーブルとスレーブテーブルを含む二重化したテーブル構成でのみ要求されるものではない。例えば、図１で構文解析部１１０から得られたテーブル埋め込みインデックスの形式のみで構成される単一のテーブルを検索部１４０によって検索する実施形態でもテーブルに含まれたマスターキーのサイズを減らすことに有用に使用されうる。

今まで図１に示す各構成要素はＦＰＧＡ（ｆｉｅｌｄ−ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）やＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）のようなハードウェア（ｈａｒｄｗａｒｅ）を意味する。しかし、前記構成要素はアドレッシング（ａｄｄｒｅｓｓｉｎｇ）できる格納媒体にあるように構成することもでき、一つまたはそれ以上のプロセッサを実行するように構成することもできる。前記構成要素から提供される機能はさらに細分化した構成要素によって実現することができ、複数の構成要素を組合わせて特定の機能を行う一つの構成要素として実現することもできる。

以上添付する図面を参照して本発明の実施形態について説明したが、本発明が属する技術分野で通常の知識を有する者は、本発明がその技術的思想や必須の特徴を変更しない範囲で他の具体的な形態で実施されうることを理解することができる。したがって、上述の実施形態はすべての面で例示的なものであり、限定されるものではないと理解しなければならない。

５０遺伝子解析装置
１００遺伝情報管理システム
１１０構文解析部
１２０テーブル管理部
１４０検索部
１５０ユーザインターフェース

Claims

遺伝子解析装置から得られるリードデータを処理して遺伝情報に関するデータベースを構築し、ユーザの命令に応じて前記データベースの検索結果を出力する遺伝情報管理システムであって、
前記リードデータを読み込み、テーブル埋め込みインデックスの形式に変換する構文解析部と、
前記テーブル埋め込みインデックスを、遺伝情報に関する基本項目を含むマスターテーブルと、遺伝情報に関する追加項目を含むスレーブテーブルと、に分類して管理するテーブル管理部と、
前記マスターテーブルおよび前記スレーブテーブルのうち少なくとも一つを検索して、検索されたデータを出力する検索部と、を含む遺伝情報管理システム。
前記テーブル埋め込みインデックスは、
ＩＯＴ（Ｉｎｄｅｘ−ＯｒｇａｎｉｚｅｄＴａｂｌｅ）、ＣｌｕｓｔｅｒｅｄＩｎｄｅｘまたはＩｎｎｏｄｂである請求項１に記載の遺伝情報管理システム。
前記基本項目は、遺伝情報のＩＤ（Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）、染色体番号、開始位置、類型およびモードを含み、
前記追加項目は、遺伝情報のクォリティ、配列および差異を含む請求項１に記載の遺伝情報管理システム。
前記マスターテーブルおよび前記スレーブテーブルは、主キー（ｐｒｉｍａｒｙｋｅｙ）を各々含み、
前記検索部は、前記ユーザの命令と関連する前記主キーを基準に、前記マスターテーブルおよび前記スレーブテーブルを検索する請求項１に記載の遺伝情報管理システム。
前記検索部は、
前記ユーザの命令がズームアウト（ＺｏｏｍＯｕｔ）であれば、前記主キーに該当する前記マスターテーブルのデータを出力し、前記ユーザの命令がズームイン（ＺｏｏｍＩｎ）であれば、前記主キーに該当する前記マスターテーブルと前記主キーに該当する前記スレーブテーブルとを結合したデータを出力する請求項４に記載の遺伝情報管理システム。
前記主キーは、
アスキーコードの少なくとも一部で構成される請求項４に記載の遺伝情報管理システム。
前記アスキーコードの少なくとも一部は、
コード３３〜１２６の範囲のアスキーコードを含む請求項６に記載の遺伝情報管理システム。
前記主キーは、
前記範囲のアスキーコードを組み合わせた５バイトで表示される請求項７に記載の遺伝情報管理システム。
遺伝子解析装置から得られるリードデータを処理して遺伝情報に関するデータベースを構築し、ユーザの命令に応じて前記データベースの検索結果を出力する遺伝情報管理システムであって、
前記リードデータを読み込み、テーブル埋め込みインデックスの形式に変換する構文解析部と、
ユーザの命令と関連する主キー（ｐｒｉｍａｒｙｋｅｙ）を基準に、前記テーブル埋め込みインデックスのデータを検索する検索部と、を含み、
前記主キーは、アスキーコードの少なくとも一部で構成される遺伝情報管理システム。
前記アスキーコードの少なくとも一部は、
コード３３〜１２６の範囲のアスキーコードを含む請求項９に記載の遺伝情報管理システム。
前記主キーは、
前記範囲のアスキーコードを組み合わせた５バイトで表示される請求項１０に記載の遺伝情報管理システム。
遺伝子解析装置から得られるリードデータを処理して遺伝情報に関するデータベースを構築し、ユーザの命令に応じて前記データベースの検索結果を出力する遺伝情報管理システムであって、
前記リードデータを読み込み、テーブル埋め込みインデックス形式のデータフォーマットに変換する構文解析部と、
前記データフォーマットを格納して管理するテーブル管理部と、
主キー（ｐｒｉｍａｒｙｋｅｙ）を基準に、前記データフォーマットのデータを検索して出力する検索部と、を含む遺伝情報管理システム。
遺伝情報管理システムが遺伝子解析装置から得られるリードデータを処理して遺伝情報に関するデータベースを構築し、ユーザの命令に応じて前記データベースの検索結果を出力する遺伝情報管理方法であって、
前記遺伝情報管理システムが、前記リードデータから遺伝情報に関する基本項目を含むマスターテーブルを生成するステップと、
前記遺伝情報管理システムが、前記リードデータから遺伝情報に関する追加項目を含むスレーブテーブルを生成するステップと、
前記遺伝情報管理システムが、前記マスターテーブルおよび／または前記スレーブテーブルのデータを検索して出力するステップと、を含み、
前記マスターテーブルおよび前記スレーブテーブルは、テーブル埋め込みインデックスの形式で構成される遺伝情報管理方法。
前記テーブル埋め込みインデックスは、
ＩＯＴ（Ｉｎｄｅｘ−ＯｒｇａｎｉｚｅｄＴａｂｌｅ）、ＣｌｕｓｔｅｒｅｄＩｎｄｅｘまたはＩｎｎｏｄｂである請求項１３に記載の遺伝情報管理方法。
前記基本項目は、遺伝情報のＩＤ（Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）、染色体番号、開始位置、類型およびモードを含み、
前記追加項目は、遺伝情報のクォリティ、配列および差異を含む請求項１３に記載の遺伝情報管理方法。
前記マスターテーブルおよび前記スレーブテーブルは、主キー（ｐｒｉｍａｒｙｋｅｙ）を各々含み、
前記遺伝情報管理システムが、前記ユーザ命令と関連する前記主キーを基準に、前記マスターテーブルおよび前記スレーブテーブルを検索するステップをさらに含む請求項１３に記載の遺伝情報管理方法。
前記ユーザの命令がズームアウト（ＺｏｏｍＯｕｔ）であれば、前記遺伝情報管理システムが、前記主キーに該当する前記マスターテーブルのデータを出力するステップと、
前記ユーザの命令がズームイン（ＺｏｏｍＩｎ）であれば、前記遺伝情報管理システムが、前記主キーに該当する前記マスターテーブルと前記主キーに該当する前記スレーブテーブルとを結合したデータを出力するステップと、をさらに含む請求項１６に記載の遺伝情報管理方法。
前記主キーは、
アスキーコードの少なくとも一部で構成される請求項１６に記載の遺伝情報管理方法。
前記アスキーコードの少なくとも一部は、
コード３３〜１２６の範囲のアスキーコードを含む請求項１８に記載の遺伝情報管理方法。
前記主キーは、
前記範囲のアスキーコードを組み合わせた５バイトで表示される請求項１９に記載の遺伝情報管理方法。