JP6472798B2 - 配列決定データの伝送および前処理のためのシステムおよび方法 - Google Patents

配列決定データの伝送および前処理のためのシステムおよび方法 Download PDF

Info

Publication number
JP6472798B2
JP6472798B2 JP2016531069A JP2016531069A JP6472798B2 JP 6472798 B2 JP6472798 B2 JP 6472798B2 JP 2016531069 A JP2016531069 A JP 2016531069A JP 2016531069 A JP2016531069 A JP 2016531069A JP 6472798 B2 JP6472798 B2 JP 6472798B2
Authority
JP
Japan
Prior art keywords
annotation
group
omics
engine
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016531069A
Other languages
English (en)
Other versions
JP2017504093A (ja
Inventor
チャールズ ベンズ,ステファン
チャールズ ベンズ,ステファン
ザキャリー サンボーン,ジョン
ザキャリー サンボーン,ジョン
ジョゼフ ヴァスク,チャールズ
ジョゼフ ヴァスク,チャールズ
Original Assignee
ファイヴ3 ゲノミクス,エルエルシー
ファイヴ3 ゲノミクス,エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ファイヴ3 ゲノミクス,エルエルシー, ファイヴ3 ゲノミクス,エルエルシー filed Critical ファイヴ3 ゲノミクス,エルエルシー
Publication of JP2017504093A publication Critical patent/JP2017504093A/ja
Application granted granted Critical
Publication of JP6472798B2 publication Critical patent/JP6472798B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

本出願は、2013年11月13日に出願された通し番号第61/903903号を有する米国特許仮出願の優先権を主張するものである。米国特許仮出願第61/903903号および本明細書で言及される他の外的参考文献は全て、それらの全体が参照によって組み込まれる。
本発明の技術分野は、ゲノム配列決定データを伝送および前処理するシステムおよび方法であり、特に、注釈、キューイング、および1または複数のシーケンサから配列解析エンジンへのゲノム配列決定ファイルの大量転送に関する。
背景技術の説明は、本発明を理解する際に役立ち得る情報を含む。本明細書に提供されるいかなる情報も先行技術や本特許請求の範囲に関連すると認めるものではなく、明示または暗示されるいかなる開示も先行技術と認めるものではない。
配列決定装置における試料スループットの増加に伴い、ゲノムデータの量および伝送速度は、全ゲノムの解析における制限要因になることが避けられない。たとえば、昨今の多くの配列決定装置は1〜20Gbp/日のスループットを有しており、新たな配列決定技術はこのスループットをさらに増加させるであろうことが当然予想され得る。残念ながら、配列解析エンジンへのデータ配送のための現在のプロトコルは、少なくとも場合によっては、もはやそのようなデータ量を効率的に処理することができず、結局は処理速度を落とすことになり、それによって配列解析を遅らせ、患者治療を遅らせる可能性がある。
生物学的配列情報のルーティングに関連する困難を克服するために、1または複数のネットワークノードは、US2012/0236861号およびUS2012/0233201号において説明されるような、ネットワークルーティング情報を含む第1のヘッダと、生物学的配列データの見本となる既存知識の階層型データモデルに関連する属性を伴う第2のヘッダとを含むデータパケットを生成するパケット生成器を含み得る。設備内の大量の配列情報を処理することは、US2014/0278461号において説明される。しかし、既知のシステムおよび方法のいずれも、後続する解析、特にそのような解析が医療専門家による特定の解析ニーズまたは要件に関連する場合、それらを合理化するような方法で膨大な量のデータを管理することに適したものではない。
配列情報を処理する多数の方法が当該技術において知られているが、明らかに、配列決定技術における昨今の進歩を最大限に生かすことができるデータ処理の新たなモードが必要である。
本発明の主題事項は、1または複数のデータソース(たとえば配列決定装置)からの複数のオミクス配列が、配列を前処理し、かつ配列解析エンジンへその後送付される移送グループにグループ化する移送サーバに供給される様々なシステムおよび方法に関する。特に好適な態様において、前処理およびグループ化は、オミクス配列における機械固有注釈およびユーザによって入力される注釈に基づいて行われる。この方法では、オミクス配列はリアルタイムでグループ化され、下流の配列解析エンジンに送付され得る。オミクス配列は好適には、配列解析に必要な全ての配列が1つの移送グループに(すなわち1つの論理ユニットに)なるようにグループ化されるので、(たとえば、解析のための1または複数の配列の欠如や、欠落した配列のローディングにかかる時間に起因する)中断された配列解析に関連する遅延が低減され、さらに典型的には完全に回避される。そのような利点は、配列解析エンジンが、多数のユーザおよび/または患者試料から得た多数のオミクスデータを処理するために用いられる場合、特に都合が良い。異なる観点から見ると、本明細書で考えられるシステムおよび方法は、配列解析エンジンによる解析タスクに関連する全てのデータが1つのグループおよび/または整合/一致するグループで提供されるので、配列解析エンジンが最高速度で動作することを可能にする。
本発明の主題事項の一態様において、発明者は、移行エンジンおよび注釈エンジンを備える移送サーバを含む、複数のオミクス配列を配送するための移行システムを考える。最も好適には、移送サーバは、複数のオミクス出力ファイルを移送サーバへ提供する1または複数の配列決定装置に結合され、この場合オミクス出力ファイルの各々は配列データおよび機械固有注釈を備え、移送サーバは、移送サーバから移送グループを受け取る配列解析エンジン(たとえばBAMサーバ)にさらに結合される。特に好適な態様において、注釈エンジンは、ユーザによって入力される注釈を用いてオミクス出力ファイルに注釈を付け、注釈付きオミクス出力ファイルを形成し、移行エンジンは、機械固有注釈およびユーザによって入力される注釈の両方に基づいて注釈付きオミクス出力ファイルを移送グループにグループ化する。移行エンジンはその後、配列解析エンジンへ移送グループを転送する。
本発明の主題事項を限定するものではないが、オミクス出力ファイルはゲノム出力ファイル(たとえば全ゲノムまたはエクソーム)、RNAオミクス出力ファイル、またはプロテオミクス出力ファイルであることが一般的に好適であり、出力ファイルがヌクレオチド配列である場合、ゲノム出力ファイルはSAM形式、BAM形式、VCF形式、FASTQ形式、およびFASTA形式であることが望ましい。さらに、システムは、複数の配列決定装置と移送サーバとの間に結合された一時データ記憶装置も含むこと、および配列決定装置は一時データ記憶装置を介して移送サーバへオミクス出力ファイルを提供することが考えられる。所望される場合、配列決定装置の少なくとも1つは、移送サーバおよび/または配列解析エンジンからのフィードバック信号を受け取るように構成されることも考えられる。
さらに考えられる態様において、機械固有注釈は、日付および/または時間識別子、配列決定装置識別子、レーン識別子、品質スコア、および/またはペアメンバ識別子を含む注釈を備え、ユーザによって入力される注釈は一般的に、解析型注釈(たとえば全ゲノム解析、エクソーム濃縮解析、トランスクリプトーム解析、およびプロテオーム解析)および/または患者固有注釈(たとえば患者識別子、組織識別子、組織状態識別子、および健康記録識別子)を含む。
必須ではないが最も好適には、移行エンジンは、注釈付きオミクス出力ファイルをリアルタイムでグループ化すること、および/または移行エンジンは、注釈付きオミクス出力ファイル内の実際の配列とは無関係に注釈付きオミクス出力ファイルをグループ化することが考えられる。さらに考えられる態様において、移行エンジンは、移送グループの形成が完了すると移送グループを伝送するか、あるいは機械固有注釈のための既定のグループ化モードを用いてよい。所望される場合、移行エンジンは移送グループを暗号化し、および/または移送グループに固有のIDを設ける、すなわち付加することも考えられる。したがって移送サーバは、配列決定装置への要求があると任意選択的に、配列決定装置からのオミクス出力ファイルを暗号化形式で受け取り得る。
したがって、発明者はまた、移行エンジンおよび注釈エンジンを有する移送サーバが提供される、複数のオミクス配列を転送する方法も考える。移送サーバはその後、それぞれの複数の配列決定装置からの複数のオミクス出力ファイルを受け取り、オミクス出力ファイルの各々は配列データおよび機械固有注釈を含む。注釈エンジンはその後、オミクス出力ファイルに注釈を付けて注釈付きオミクス出力ファイルを形成するためにユーザによって用いられ、移行エンジンはその後、好適にはリアルタイムで、注釈付きオミクス出力ファイルを移送グループにグループ化する。最も好適には、グループ化は、機械固有注釈およびユーザによって入力される注釈の両方に基づく。最後に、移送サーバは、配列解析エンジン(たとえばBAMサーバ)へ移送グループを配送する。
上述したように、オミクス出力ファイルは多数の種類のコンテンツを有し得るが、一般的にはゲノム出力ファイル(たとえばエクソーム、全ゲノムなど)、RNAオミクス出力ファイル(たとえばトランスクリプトーム)、またはプロテオミクス出力ファイルであり、それらは生の形式からSAM形式やBAM形式に好適に変換される。所望される場合、オミクス出力ファイルは、移送サーバによって複数のオミクス出力ファイルを受け取るステップの前にデータ記憶装置内に一時的に記憶され得る。さらに、移送サーバは、1または複数の配列決定装置および/または配列解析エンジンへフィードバック信号を提供し得ることが考えられる。
さらに、機械固有注釈は、日付および/または時間識別子、配列決定装置識別子、レーン識別子、品質スコア、および/またはペアメンバ識別子を含むこと、および/または、ユーザによって入力される注釈は、解析型注釈(たとえば全ゲノム解析、エクソーム濃縮解析、トランスクリプトーム解析、およびプロテオーム解析)および/または患者固有注釈(たとえば患者識別子、組織識別子、組織状態識別子、および健康記録識別子)を含むことが一般的に望ましい。さらに、移送グループは、移送グループの形成が完了すると、あるいは既定の配送スケジュールまたはプロトコルで配送されることが考えられる。所望される場合、移行エンジンは、移送グループに固有のIDを設ける、すなわち付加することも考えられる。
したがって、別の観点から見ると、発明者は、各々が配列データおよび機械固有注釈を備える複数のオミクス出力ファイルを移送サーバが受け取る、オミクス配列の転送方法も考える。オミクス出力ファイルはその後、機械固有注釈に加えてユーザによって入力される注釈を用いて移送グループにグループ化される。移送グループはその後、移送サーバから下流の解析装置(たとえばBAMサーバ)へ転送される。
本発明の主題事項を限定するものではないが、グループ化は、配列データとは無関係に、さらに好適にはリアルタイムで実行されることが望ましい。さらに、ユーザによって入力される注釈は、解析型注釈(たとえば全ゲノム解析、エクソーム濃縮解析、トランスクリプトーム解析、およびプロテオーム解析)および患者固有注釈(たとえば患者識別子、組織識別子、組織状態識別子、および健康記録識別子)を含むことが考えられる。上述したように、移送グループは、移送グループが完了すると移送サーバから下流の解析装置へ転送されることが一般的に望ましい。所望される場合、オミクス出力ファイルは、オミクス出力ファイルを記憶するデータベースによって、または複数の配列決定装置によって提供され得る。
また別の観点から見ると、発明者は、配列解析エンジンにおけるゲノム解析にかかる処理時間を低減する方法も考える。特に好適な方法において、移送サーバは、複数のオミクス出力ファイルから移送グループを生成し、オミクス出力ファイルは、機械固有注釈およびユーザによって入力される注釈に従ってグループ化される。配列解析エンジン(たとえばBAMサーバ)はその後、移送グループを受け取り、論理ユニットとして移送グループを処理する。
最も典型的には、移送グループ内のオミクス出力ファイルはSAM形式またはBAM形式を有し、ユーザによって入力される注釈は、解析型注釈(たとえば全ゲノム解析、エクソーム濃縮解析、トランスクリプトーム解析、およびプロテオーム解析)および/または患者固有注釈(たとえば患者識別子、組織識別子、組織状態識別子、および健康記録識別子)を含む。
本発明の主題事項の様々な目的、特徴、態様、および利点は、同様の番号が同様の構成要素を表す添付図面と併せて、以下に続く好適な実施形態の詳細な説明によってさらに明らかになるであろう。
本発明の主題事項に係るオミクス配列に関する伝送および前処理システムの典型的な図である。
コンピュータに関連する言葉は全て、サーバ、インタフェース、システム、データベース、エージェント、ピア、エンジン、コントローラ、モジュール、または独立的あるいは集合的に動作する他の種類の演算装置を含む、演算装置の任意の適切な組み合わせを含むように解釈すべきであることを留意すべきである。演算装置は、有形非一時的コンピュータ読取可能記憶媒体(たとえば、ハードドライブ、FPGA、PLA、ソリッドステートドライブ、RAM、フラッシュ、ROMなど)に記憶されるソフトウェア命令を実行するように構成されたプロセッサを備えることを理解すべきである。ソフトウェア命令は好適には、開示された装置について以下で説明されるような役割、責務、または他の機能を提供するように演算装置を構成またはプログラムする。さらに、開示された技術は、開示されたステップをプロセッサに実行させるソフトウェア命令を記憶する非一時的コンピュータ読取可能媒体を含むコンピュータプログラム製品として具現化され得る。いくつかの実施形態において、様々なサーバ、システム、データベース、またはインタフェースは、HTTP、HTTPS、AES、公開私有鍵交換、ウェブサービスAPI、既知の金融取引プロトコル、または他の電子情報交換方法に場合によって基づく標準化されたプロトコルやアルゴリズムを用いてデータを交換する。装置間のデータ交換は、パケット交換ネットワーク、インターネット、LAN、WAN、VPN、または他の種類のパケット交換ネットワーク、すなわち回路交換ネットワーク、セル交換ネットワーク、または他の種類のネットワークを介して実行され得る。
本明細書における記述およびそれに続く特許請求の範囲を通して用いられる際、システム、エンジン、サーバ、装置、モジュール、または他の演算素子がメモリ内のデータにおいて機能を実行または遂行するように構成されると説明される場合、「構成される」または「プログラムされる」の意味は、演算素子の1または複数のプロセッサまたはコアが、メモリ内に記憶されたターゲットデータまたはデータオブジェクトにおいて機能のセットを実行するように、演算素子のメモリ内に記憶されたソフトウェア命令のセットによってプログラムされることとして定義される。
開示される技術は、オミクスデータを演算論理ユニットに編成することによってオミクスデータを効率的に処理するように1または複数の演算装置を構成することを含む多くの有利な技術効果を提供することを理解すべきである。
以下の説明は、本発明の主題事項の多くの実施形態の例を提供する。各実施形態は、発明の要素の1つの組み合わせを表すが、本発明の主題事項は、開示される要素の可能な全ての組み合わせを含むと考えられる。したがって、1つの実施形態が要素A、B、およびCを備え、第2の実施形態が要素BおよびDを備える場合、本発明の主題事項は、明記されずとも、A、B、C、またはDのその他の組み合わせを含むとも考えられる。
発明者は、1または複数のデータソースによって提供され配列解析エンジンに配送される多数のオミクス配列のための配列解析は、論理ユニットを形成するためにオミクス配列を前処理および/またはグループ化することによって容易に改善され得ることを発見し、この論理ユニットはその後配列解析エンジンに供給され、同じ解析のために必要な追加の配列の検索を必要とせず処理される。そのような前処理および/またはグループ化は、配列解析エンジンによって必要とされる処理時間を大幅に低減し、配列解析が無効データおよび/または欠落データによって損なわれた場合も、そのようなデータが要求され、効率的かつ組織的な方法で配列解析エンジンに伝送され得るので、完了までの時間を大幅に低減し得ることに特に留意すべきである。
本発明の主題事項の特に好適な態様において、前処理および/またはグループ化は、機械固有注釈およびユーザ注釈の両方を用いて実行される。別の観点から見ると、発明者は、伝送される実際のオミクス配列とは無関係にユーザおよび(配列決定)装置パラメータに基づいて解析のための複数のオミクス配列を列挙および/またはグループ化する移送サーバを考える。したがって、異なる観点から見ると、ユーザは、配列解析のためのユーザ定義規則を設定することができ、この規則は、オミクス出力ファイルの1または複数の移送グループへのリアルタイムグループ化を決定する。
たとえば、図1は、複数の配列決定装置から配列解析エンジンへ複数のオミクス配列を配送するための移行システム100を典型的に示す。最も典型的には、オミクス配列は、配列データ(たとえば核酸配列)および機械固有注釈を備える。ここでは、システム100は、同一の患者または様々な患者(不図示)から得られ得る複数の患者試料から、複数のオミクス出力ファイル112a、112b、および112cを生成する複数の配列決定装置110a、110b、および110cを備える。ほとんどの場合、配列決定装置110a、110b、および110cは、広域ネットワーク102を介して移送サーバ120に情報的に結合され、オミクス出力ファイル112dの全てが(たとえば一時データ記憶装置150を介して)移送サーバ120に直接的または間接的に送付される。配列決定装置の例は、オックスフォード・ナノポア社のミニオン、またはイルミナ(登録商標)社のMiseqまたはHiseq装置のいずれかを含む。
最も好適には、考えられるシステムは、注釈エンジン122および移行エンジン124を含む移送サーバ120を含み、移送サーバ120は、配列決定装置がそれぞれのオミクス出力ファイルを移送サーバに提供することができるように広域ネットワーク102を介して配列決定装置110a〜110cに結合される。移送サーバはまた、移送サーバ120から広域ネットワーク102を介して移送サーバからの移送グループ126を受け取る配列解析エンジン140にも広域ネットワーク102を介して結合される。注釈エンジン122は好適には、ユーザ(たとえば医療専門家)の入力装置130による注釈入力を用いてオミクス出力ファイルに注釈を付け、注釈付きオミクス出力ファイル126を形成するように構成される。移行エンジン124は、(最も典型的には1または複数の既定の規則を介して)機械固有注釈およびユーザによって入力される注釈に基づいて注釈付きオミクス出力ファイルを移送グループにグループ化するように構成される。グループ化されると、移行エンジンは、移送グループを配列解析エンジン140(たとえばBAMサーバ)へ転送する。
移送サーバ120、配列解析エンジン140、および入力装置130は個別の演算装置として図示されるが、各装置は様々な形態をとってよいことを理解すべきである。いくつかの実施形態において、装置の集合がクラウドベースのサービス、場合によっては無料のサービスとして実装されてよい。ステークホルダ(たとえば保険会社、医師、がん専門医、製薬会社、患者、他の解析エンジンなど)がサービスに加入することができる。サービスは、場合によってはネットワークアクセス可能APIによってウェブサービスインタフェース(たとえばWSDL、SOAP、HTTP、REST、BEEPなど)を介して提供され得る。他の実施形態において、装置は、演算装置にインストールされた1または複数のアプリケーションを有する特異装置であってよい。またさらに他の実施形態において、装置は、3つの装置に関する全ての役割や責務を提供する1つの統一された装置を備え得る。
本発明の主題事項の典型的な一態様において、ユーザは、全ゲノム解析のための1または複数の試料(たとえば同一患者から得る腫瘍試料およびマッチした正常試料)を配列決定設備に(直接的または間接的に)提供した。ユーザはその後、ダウンロードのために配列決定設備にアクセスするために適切なセキュリティ対策(たとえば配列読込みに好適にリンクされる単回使用鍵)を用い、一方、配列決定設備は通常、ユーザにアップロードするための対応するセキュリティ対策(たとえば同一の、すなわち整合する鍵)を用いる。最も典型的には、配列情報は、少なくとも1つの移送セグメント内で暗号化される。たとえば、配列情報は、配列決定装置の暗号化モジュール、または配列決定装置に情報的に結合された暗号化装置によって暗号化され得る。配列決定装置は1つの配列決定設備内で同一場所に配置されることが一般的に考えられるが、同一場所での配置は本発明の主題事項にとって重要ではないことを認識すべきである。
適切な配列決定装置に関して、特定の種類の配列決定装置が本発明の主題事項を限定することはなく、オミクス出力を生成する全ての装置が本明細書における使用に適するとみなされることを理解すべきである。しかし、特に好適な装置は、ゲノム生データ、あるいはSAM形式、BAM形式、VCF形式、FASTQ形式、またはFASTA形式に変換されるゲノムデータを提供する核酸配列決定装置を含む。さらに、プロテオミクスハイスループット装置およびRNA解析装置も本明細書において考えられる。患者試料はもっぱら1つの配列決定装置で解析され得ることが考えられる一方、試料は2つ以上の異なる配列決定装置を用いて解析され得ることも考えられる。またさらに、配列決定装置は、移送サーバ、配列解析エンジン、および/またはユーザ入力装置を介したユーザからの1または複数のフィードバック信号を受け取るようにも構成され得ることが考えられる。たとえば、配列解析エンジンが、ゲノム内の特定の領域がより高い読込み閾値を必要とすると判定した場合、配列解析エンジンは、その領域に関する追加の解析を実行するために移送サーバおよび/または配列決定装置にフィードバックを提供し得る。一方、移送エンジンは、特定の配列決定装置の装置パラメータが特定の既定レベルを満たすことができないこと(たとえば、既定の品質スコアを下回る1または複数のレーンのデータ)を判定した場合、動作パラメータを変更するか、またはオフラインにするように配列決定装置に命令を提供し得る。したがって、配列決定装置の特定の種類に関わらず、装置は、機械固有注釈をオミクス出力ファイルに(好適には自動的に)付加することが考えられる。たとえば、適切な機械固有注釈は、日付および/または時間識別子、配列決定装置識別子、レーン識別子、品質スコア、および/またはペアメンバ識別子を含む。
セキュリティに関して、移行システム100を流れるデータは、複数の技術によって保護され得る。いくつかの実施形態において、オミクスデータは、場合によっては安全なFTP、HTTPS、SSL、または他のプロトコルによる安全な通信リンクを介して伝送され得る。概して、暗号プロトコルまたはアルゴリズムのより高い強度での実装がより望ましい。しかし、暗号プロトコルに関連する演算オーバヘッドや他のコストは、暗号プロトコルまたはアルゴリズムのより低い安全性での実装を用いることを要求し得る。たとえば、AES−128は大半の消費者を満足させ得るが、AES−256や、より高いレベルのAESは、演算費用よりも秘密性がより重要である状況で用いられ得る。さらに、オミクスデータは、場合によってはFIPS−140の1または複数のレベルを順守するメモリまたは記憶モジュールである安全なメモリ内に記憶され得る。他の追加の適切なアルゴリズムは、3DES、Twofish、Blowfish、XXTEA、PGP、または他の既知のアルゴリズムや未開発のアルゴリズムを含む。オミクスファイルからの少なくとも一部のデータ、患者のゲノムの配列は、暗号プロトコルまたはアルゴリズムの実装に関してトークンまたは鍵の基礎となり得ることを理解すべきである。したがって、患者のオミクスデータへのアクセスを有するエンティティのみがデータをロック解除し、またはデータへのアクセスを得ることができる。
このように、オミクスデータを提供するデータソースは、ほとんどの場合、装置固有パラメータを用いて自動的にオミクスデータに注釈を付けること、およびそのような注釈は既定の形式であることを認識すべきである。たとえば、典型的な配列決定装置は、配列決定データをFASTQまたはFASTA形式で提供し、それらは、機器名、フローセルIDおよび/または名、多重化試料に関する指数、(ペアエンドまたはメイトペア読込みのための)ペアのメンバに関する指示などを含む。さらに、装置固有パラメータは、読込みに関する精度、および所望の場合、任意選択的な配列注釈(たとえば配列識別子および/または記述)も含み得る。もちろん、データソースは、ストリーミング形式で直接的に、または仲介データ記憶装置から、またあるいは配列決定装置と移送サーバとの間に結合された一時データ記憶装置からオミクスデータを提供し得る。
オミクスデータソースの種類およびデータ配送の方式に関わらず、生配列データ出力ファイルは、配列解析エンジンによる解析に適したファイル形式に変換されることが一般的に望ましい。本発明の主題事項の特に好適な態様において、配列解析エンジンのためのファイル形式はSAMまたはBAMファイルである。当該技術において知られている多数のファイル変換器/アライナがあるが、FASTQをSAMまたはBAMファイルに変換するための典型的な変換器/アライナは、Bowtie、BWA、GAR、Bfast、Maq、Mosaik、Novoalign、またはSsaha2などを含む。出力がSAMファイルである場合、そのようなファイルは、SAMツールを用いて対応するBAMファイルに変換され得ることを理解すべきである。もちろん、配列決定装置生データからSAMまたはBAMファイルへの変換は、配列解析エンジンの上流のあらゆる場所で行われ得ることにも留意すべきである。しかし、生データのSAMまたはBAMファイルへの変換は、移送グループがSAMまたはBAMファイルのグループであるように移送サーバの上流で実行されることが一般的に望ましい。
典型的な例において、ユーザは、ユーザと同じ場所に存在し得る、あるいは遠隔に存在し、端末または他の適切なインタフェースを介してユーザによってアクセスされ得るユーザ入力装置(たとえば、広域ネットワークに接続されたコンピュータやモバイル装置)を介して専用移送サーバを操作する。移送サーバの場所に関わらず、ユーザは、オミクスデータのアップロードに固有である注釈入力を用いてデータソース(たとえば配列決定装置)からオミクス出力ファイル(たとえば配列読込み)に注釈を付けることが考えられる。大半の事例では、移送サーバは、ユーザがそのような注釈を実行することが可能になるような注釈エンジンを含む。しかし注釈は、その後移送サーバに結合される別個の注釈モジュールを介して提供されてもよい。注釈入力の種類は本発明の主題事項を限定するものではないが、注釈入力は一般的に、試料および/または患者に少なくとも何らかの意味を持たせるものであり、最も典型的には解析型注釈および患者固有注釈を含むことを理解すべきである。
たとえば、解析型注釈は、試料調製、試料手順などのために用いられる特定のプロトコルまたは技術に固有であってよく、ゆえに、全ゲノム解析、エクソーム濃縮解析、トランスクリプトーム解析、プロテオーム解析などへの言及を含み得る。同様に、患者固有注釈は概して、少なくともある程度は患者に関連する何らかの情報に関する。たとえば、患者固有注釈は一般的に、患者識別子、組織識別子、組織状態識別子(たとえばマッチした正常、罹患、原発腫瘍、再発性腫瘍、転移性腫瘍など)、健康記録識別子(たとえば疾患の種類、患者の状態)、電子機器による医療記録識別子などを含む。ユーザ注釈はさらに、所望の解析の型(たとえば、腫瘍対マッチした正常の比較、または腫瘍対早期腫瘍試料や他のリファレンスの比較の要求)を含み得る。
このように、ユーザは、患者、患者試料の特定の種類(たとえば罹患状態か抑制か、または医薬品による治療の前と治療中/後)、指定された解析の型(たとえば全ゲノム解析やエクソームまたはトランスクリプトーム解析)に独自に関連する情報とオミクス情報とを関連付けることができる情報の第2層をオミクスデータに提供する。そのような二重情報コンテンツ(すなわち、機械固有注釈およびユーザによって入力される注釈)は、多数の配列決定の実行が後続の解析のために調整されなければならない場合、特に都合が良い。適切にグループ化されると、解析は、欠落したまたは不完全なオミクス情報の原因となり得る中断を最小限にして実行され得る。最も典型的には、移行エンジンは、ユーザ(およびグループ化機能を律する適切な規則)によって定義されるような移送グループの形成が完了すると、移送グループを伝送するように構成される。一方、機械固有注釈に関する既定のグループ化モードに従うグループ化も考えられる。
グループ化は通常、配列解析エンジンによる特定の解析タスクに関して配列の完全グループである配列のグループが形成されるように、移行エンジンとユーザ注釈および機械固有注釈の両方とを用いて移送サーバで実行される。したがって、本発明の主題事項の少なくとも一態様において、グループ化は、正常試料と罹患試料とを照合することによって駆動され、これは、試料間のゲノム領域の照合、または特定の患者や患者病歴、ならびに様々な患者試料を用いる病型によって精密化され得る。照合はさらに、オミクス出力ファイルの品質測度および他の機械固有注釈(たとえば、特定のレーンや装置から到来するオミクスファイルの排除)によって駆動され得る。さらに、グループ化は、機械固有注釈に基づく先験的すなわち初期設定のグループ化を用いて実行され、後にユーザ注釈に基づいて修正または調整され得ることも考えられる。このように、注釈付きオミクス出力ファイルのグループ化は、注釈付きオミクス出力ファイル内の実際の配列とは無関係に、ユーザによる特定の要件に応じて(たとえば、所望の解析型、患者病歴、病型などに応じて)実行され得ることを理解すべきである。
さらに、グループ化は、配列解析エンジンおよび/またはオミクスデータソースからのフィードバック信号によって駆動または修正され得ることも考えられる。たとえば、配列解析エンジンは、特定のゲノム領域に関する追加のオミクスデータを含むように移送サーバにフィードバックを提供してよく、あるいはオミクスデータソースは、追加のオミクスデータが配送されることはないというフィードバックを移送サーバに提供してよい。一方、移送サーバは、特定の解析を反復するようにオミクスデータソースにフィードバックを提供し、あるいは特定のデータの存在または不在を示すように配列解析エンジンにフィードバックを提供し得る。グループ化および/または情報のフローに関わらず、オミクスデータの移送グループへのグループ化は、実際の配列コンテンツとは無関係に実行され、単に機械固有注釈およびユーザ注釈(およびSAMまたはBAMファイル内の非配列情報)に基づいて行われることに留意すべきである。さらに、グループ化は好適にはほぼリアルタイムで(すなわち、オミクスデータが配送され、または使用可能になると同時に)実行されること、グループはグループ固有IDを伴って配列解析エンジンへ伝送されること、およびグループは移送サーバによるグループ化が完了した場合のみ伝送されることに留意すべきである。移送グループは、好適には配列解析エンジンへの配送の前に暗号化されることに留意すべきである。
ユーザ注釈は、当面の解析プロジェクトの性質に依存して、多くの様々な形式をとり、または幅広いスペクトルの情報であってよい。さらに、ユーザ注釈の性質は、解析エコシステムに関するユーザの役割または責務に依存し得る。たとえば、ユーザが、移送サーバ120または配列解析エンジン140のシステム管理者の役割を有する場合を考える。システム管理者は、使用可能なネットワーク帯域幅や記憶容量を示す注釈を生成し得る。移送サーバ120は、結果として生じる論理ユニットがそのような制限を順守することが確実になるようにオミクスデータをパッケージし得る。あるいは、ユーザは医師であってもよい。そのような場合、医師は、医師固有の識別子(たとえば医師登録識別子、国家医療提供者認証(NPI)など)、診断コード(たとえばICD−9、ICD−10、DSMなど)、治療コード(たとえばCPTなど)、または他の医師関連情報を備えるユーザ注釈を含み得る。そのような情報は、その後、共通の属性を有するようにオミクスデータをグループ化するために用いられてよく、医師は、彼らの患者全員が、システム100によって提供されるサービスへの医師の加入プランに従って一括で処理されることを要求し得る。追加のユーザ注釈は、保険適用範囲、緊急情報、優先情報、データ所有権情報、または他の属性を含んでよい。いくつかの実施形態において、ユーザ注釈は、先験的に定義されたユーザ注釈名前空間またはオントロジに従って標準化され、この場合、各種のユーザ注釈は、特定の値(すなわち、寸法に関するメトリック)をとる属性(すなわち、名前空間における寸法)を備え得る。
機械固有注釈もまた、ユーザ注釈と同様の傾向で、1または複数の特定の機械の性質やそれらの対応する状態を反映する値の幅広いスペクトルをとってよい。したがって、機械固有注釈は、配列決定装置110a〜110c、移送サーバ120、入力装置130、またさらに配列解析エンジン140を含むエコシステム100内の1または複数の装置に関連し得る。機械固有注釈の例は、装置識別子(たとえばIPアドレス、MACアドレス、製造番号、型番号など)、装置帯域幅(たとえばGpb/秒、ネットワーク帯域幅など)、解析メトリック、使用可能な機械学習または解析アルゴリズム、装置所在地、処理費用、CPU稼働率(たとえばMELOP、使用可能なスレッド、使用可能なコアなど)、または他の機械関連属性を含んでよい。ユーザ注釈がユーザ注釈名前空間またはオントロジを順守し得るのと同様に、機械固有注釈は機械属性名前空間を順守し得る。機械固有注釈は、機械固有注釈データ構造(たとえばベクトル、タプルなど)として機械属性名前空間に従ってコンパイルされ得る。したがって注釈エンジン122は、場合によってはXMLファイル形式のメタデータとして、データ構造に出力ファイルをタグ付けまたは結び付け得る。いくつかの実施形態において、注釈エンジン122の役割または責務は、場合によってはアフターマーケットアダプタとしても、配列決定装置110a〜110aに統合され得る。
移行エンジン124は、規則を具現化する1または複数のソフトウェア命令を実行するように構成され、その規則に従って出力ファイルがまとめてグループ化される。規則は、入力装置130を介してユーザによって提供され得るか、または移送サーバ120内にインストールされ得る。規則は、ユーザ注釈および機械固有注釈に基づいて動作するスクリプトまたは他のコードとして実装され得る。たとえば、移行エンジン125は、出力ファイル112a〜112cおよびそれらの対応する注釈にアクセスすることができるAPIを提供するスクリプトベースランタイム(たとえばPython、Ruby、Java、.NETなど)を備えてよい。ユーザはその後スクリプトを書くことができ、あるいは、移送グループ126を形成するために出力ファイルを処理するようにAPIを介してスクリプトを実行させることができる。規則は、場合によっては先験的に定義された名前空間に基づく、注釈やそれらの値に依存する要件、条件、または他の基準を含んでよい。単純な例は、特定の医師に対応する全ての出力ファイルを結び付けようとする規則を含み得る。移行エンジン124は、医師ベースの規則に従って、医師の識別子を有する全ての出力ファイルに関して問い合わせする。その後結果のセットはまとめてコンパイルされ、医師が作業結果を要求したことを表す1つの論理ユニットを形成する。規則またはスクリプトは、出力ファイルの移送グループ126へのグループ化を律する非常に複雑な規則を備え得ることを理解すべきである。
移送グループ126は、出力ファイルの処理に関する1つの論理ユニットであると考えられることを理解すべきである。このアプローチは、演算装置が、(たとえば全てのファイルに関する)グローバルな観点および各自のローカルな効率性(たとえば非常に限定された要求)の両方で、演算リソースを最適化することが可能になるため、非常に有利であると考えられる。したがって、移行エンジン124が動作する規則またはスクリプトは、注釈に関して定義されるような論理ユニット処理の定義とみなされ得る。一例として、システム100が、がん専門医が利用できる無料ゲノム処理サービスを備えるシナリオを考える。がん専門医は、患者の緊急処置に好影響を及ぼし得る既知の医薬品を特定するためにシステムに緊急の要求(すなわち、緊急レベル、ドル高値要求、期限などを伴うユーザ注釈)を提示し得る。それに応じて、移行エンジン124は、患者識別子を有する出力ファイルおよび1または複数の既知の医薬品に関連するリファレンスゲノムに関する出力ファイルの全てを特定し得る。さらに、移行エンジン124は、どのファイルが追加の読込みまたはデータベースの配列決定装置注釈を必要とし得るかを判定することができる。またさらに、移行エンジン124は、装置稼働率または容量を含み得る、配列解析エンジン140の1または複数に関連する装置属性を用いることができる。十分な容量が使用可能である場合、移行エンジン124は、場合によっては緊急レベルにタグ付けされる関連出力ファイルを論理ユニットとしてまとめてグループ化し、緊急処理のために配列解析エンジン140に論理ユニットを提出する。論理ユニットは、バイナリファイル、テキストファイル、またはシリアル化ファイル(たとえばXML、YAML、JSONなど)や他の形式として伝送され得る。
移行エンジン124はシステム100またはステークホルダの最適化ニーズに対処するために出力ファイルをまとめて論理ユニットとして結合させ得ることを考えると、論理ユニットは起こり得る無数の最適化メトリックに対処するように構成され得ることをさらに理解すべきである。移送グループ126の処理に関する目標や懸案事項を表し得るメトリックの例は、貨幣原価、帯域幅、ネットワークまたは処理待ち時間、地理的制約、安全性または秘密性レベル、電力消費コスト、優先度、緊急度、重要度、患者の余命、または他のメトリックを含む。
配列解析エンジンに関して、既知の配列解析エンジンは全て、本明細書における使用に適するとみなされることが概ね考えられる。しかし、配列解析エンジンは、入力ファイルとしてSAMまたはBAMファイルを用いるように構成されること(たとえばBAMサーバ)が特に望ましく、特に好適な配列解析エンジンは、複数の対応するサブストリングの少なくとも1つの既知の位置を用いて第1および第2の配列ストリングを漸増的に同期させることによってローカルアライメントを生成するものを含み、この場合ローカルアライメントは、ローカルアライメント内の第1および第2の配列ストリングの間のローカル差分ストリングを生成するために用いられる。そのようなローカル差分ストリングはその後、差分配列データベース内の差分遺伝子配列オブジェクトを更新するために用いられる。そのような配列解析エンジンの例は、US2012/0066001号、WO2013/074058号、およびWO2014/058987号において説明され、それら全てが参照によって本明細書に組み込まれる。
本明細書に提示されるシステムおよび方法は、連続またはストリーミング形式で実行されることが一般的に望ましいが、移行中のオミクス情報の少なくとも一部がデータ記憶装置に(典型的には過渡的すなわち一時的に)記憶され得ることも明白に考えられる。たとえば、患者試料が様々な装置や場所で処理される場合、または、1または複数の配列決定装置が修理中または一時的に使用不可能である場合、一時的データ記憶装置は、バッファリングを可能にするために配列決定装置と移送サーバとの間に結合され得る。一時バッファの1つの可能な例は、大容量メモリ(たとえば好適には200GB、500GB、1TB、2TB、あるいはそれ以上)およびプロセッサを有する個人用ゲノムデータカードを含み得る。個人用データカードは、カードを所有する患者の1または複数のオミクス出力ファイルを記憶し得る。たとえば、患者のカードは、クレジットカードコンタクトパッドを有するソリッドステートディスクドライブを備え得る。患者が健康管理システム内を移動すると、彼らは、彼らの車上のゲノムデータにアクセスするために移送サーバや他のエンティティを承認し得る。一方、より長期間の記憶は、同一の患者が長期(たとえば治療前および治療後/フォローアップ)にわたって検査を受ける場合に実行され得る。長期記憶ソリューションの例は、SAN、NAS、RAID、クラウドベースストレージ、臨床オペレーティングシステムデータ管理者、または他の種類の記憶装置を含む。いくつかの例において、移行システム100は、場合によってはファイルシステムを含む、患者試料の配列を記憶するように構成された1または複数の試料データベースを含んでよい。
したがって、発明者は、複数のオミクス配列(典型的にはDNA、RNA、またはプロテイン)を配送するための移行システムが、移行エンジンおよび注釈エンジンを有する移送サーバを含むことを考えることを認識すべきである。移送サーバは通常、移送サーバに(配列データおよび機械固有注釈を備える)オミクス出力ファイルを提供する1または複数の配列決定装置、および移送サーバから移送グループを受け取る配列解析エンジンに(直接的または間接的に)結合される。特に好適なシステムにおいて、注釈エンジンは、結果として注釈付きオミクス出力ファイルを形成するためにユーザによって入力される注釈を用いて複数のオミクス出力ファイルに注釈を付けるように構成され、移行エンジンは、機械固有注釈およびユーザによって入力される注釈に基づいて注釈付きオミクス出力ファイルを移送グループにグループ化するように構成される。移行エンジンは、移送グループを配列解析エンジンへ転送するように構成される。
異なる観点から見ると、結果的に発明者は、移行エンジンおよび注釈エンジンを有する移送サーバを用いてオミクス配列を転送する方法も考える。特に考えられている方法は、移送サーバによって、配列決定装置からのオミクス出力ファイル(たとえばゲノム出力ファイル、RNAオミクス出力ファイル、またはプロテオミクス出力ファイル)を受け取るステップを含み、オミクス出力ファイルの各々は、配列データおよび機械固有注釈を備える。別のステップで、注釈エンジンは、ユーザによって入力される注釈を用いてオミクス出力ファイルに注釈を付けて注釈付きオミクス出力ファイルを形成し、移行エンジンは、注釈付きオミクス出力ファイルを移送グループにグループ化し、グループ化は、機械固有注釈およびユーザによって入力される注釈に基づく。最終的に、移送サーバは、移送グループを配列解析エンジンへ配送する。
このように、発明者は、配列データおよび機械固有注釈を備える複数のオミクス出力ファイルを移送サーバが受け取る、オミクス配列を転送する方法を考えることも認識すべきである。オミクス出力ファイルはその後、ユーザによって入力される注釈および機械固有注釈を用いて移送グループにグループ化され、その後移送グループは、移送サーバから下流の解析装置へ転送される。
そのようなグループ転送は、移送サーバが複数のオミクス出力ファイルから移送グループを生成する配列解析エンジンにおいてゲノム解析にかかる処理時間を低減する方法を有利にもたらし、オミクス出力ファイルは、機械固有注釈およびユーザによって入力される注釈に従ってグループ化される。配列解析エンジンはその後、移送グループを受け取り、移送グループを論理ユニットとして処理する。
上述されたものに加えてさらに多数の変形例が本明細書の発明の概念から逸脱することなく可能であることが当業者には明らかであるはずである。したがって本発明の主題事項は、添付の特許請求の範囲の主旨以外で限定されるものではない。さらに、本明細書および特許請求の範囲の両方の解釈において、全ての用語は、文脈と整合が取れた可能な最も広い方法で解釈されるべきである。特に、「備える」および「備えている」という用語は、非排他的な方法で要素、構成要素、またはステップに言及し、言及される要素、構成要素、またはステップが、明示的に言及されていない他の要素、構成要素、またはステップとともに存在し、用いられ、あるいは組み合わせられ得ることを示すものとして解釈されるべきである。本明細書が、A、B、C、・・・およびNからなるグループから選択された何らかの少なくとも1つに言及する場合、本文は、AおよびNやBおよびNなどではなくグループから1つの要素のみを必要とするものとして解釈されるべきである。

Claims (40)

  1. 複数のオミクス配列を配送するための移行システムであって、前記移行システムは移送サーバを備え、
    前記移送サーバが、移行エンジンおよび注釈エンジンを備え、かつ前記移送サーバが
    (a)各々が配列データおよび機械固有注釈を備える複数のオミクス出力ファイルを移送サーバに提供するように構成される複数の配列決定装置、
    (b)前記移送サーバから移送グループを受け取るように構成される配列解析エンジン、および
    (c)前記注釈エンジンにユーザ注釈入力を提供するように構成されるユーザ入力装置
    に結合され、
    前記注釈エンジンは、ユーザによって入力される注釈を用いて前記複数のオミクス出力ファイルに注釈を付け、それによって注釈付きオミクス出力ファイルを形成するように構成され、
    前記移行エンジンは、前記機械固有注釈および前記ユーザによって入力される前記注釈に基づいて、前記注釈付きオミクス出力ファイルを前記移送グループにグループ化するように構成され、
    前記移行エンジンは、前記注釈付きオミクス出力ファイルをリアルタイムでグループ化するように構成され、
    前記移行エンジンは、前記移送グループを前記配列解析エンジンへ転送するように構成される、移行システム。
  2. 前記オミクス出力ファイルは、ゲノム出力ファイル、RNAオミクス出力ファイル、またはプロテオミクス出力ファイルである、請求項1に記載の移行システム。
  3. 前記複数のゲノム出力ファイルは、SAM形式、BAM形式、VCF形式、FASTQ形式、およびFASTA形式のグループから選択されるファイル形式を有する、請求項2に記載の移行システム。
  4. 前記複数の配列決定装置の少なくとも1つと前記移送サーバとの間に結合される一時データ記憶装置をさらに備え、前記複数の配列決定装置は、前記一時データ記憶装置を介して前記移送サーバに前記複数のオミクス出力ファイルを提供するように構成される、請求項1〜3のいずれか1項に記載の移行システム。
  5. 前記複数の配列決定装置の少なくとも1つは、前記移送サーバおよび前記配列解析エンジンの少なくとも1つからのフィードバック信号を受け取るように構成される、請求項1〜4のいずれか1項に記載の移行システム。
  6. 前記機械固有注釈は、日付および/または時間識別子、配列決定装置識別子、レーン識別子、品質スコア、およびペアメンバ識別子からなるグループから選択される注釈を備える、請求項1〜5のいずれか1項に記載の移行システム。
  7. 前記ユーザによって入力される前記注釈は、解析型注釈および患者固有注釈からなるグループから選択される注釈を備える、請求項1〜6のいずれか1項に記載の移行システム。
  8. 前記解析型注釈が、全ゲノム解析、エクソーム濃縮解析、トランスクリプトーム解析、およびプロテオーム解析からなるグループから選択される、請求項7に記載の移行システム。
  9. 前記患者固有注釈は、患者識別子、組織識別子、組織状態識別子、および健康記録識別子からなるグループから選択される、請求項7に記載の移行システム。
  10. 前記移行エンジンは、前記注釈付きオミクス出力ファイル内の実際の配列とは無関係に前記注釈付きオミクス出力ファイルをグループ化するように構成される、請求項1〜のいずれか1項に記載の移行システム。
  11. 前記移行エンジンは、前記移送グループの形成が完了すると前記移送グループを伝送するように構成される、請求項1〜10のいずれか1項に記載の移行システム。
  12. 前記移行エンジンは、機械固有注釈に関する既定のグループ化モードを用いるように構成される、請求項1〜11のいずれか1項に記載の移行システム。
  13. 前記移行エンジンは、前記移送グループを暗号化するように構成される、請求項1〜12のいずれか1項に記載の移行システム。
  14. 前記移行エンジンは、前記移送グループに固有のIDを設けるように構成される、請求項1〜13に記載の移行システム。
  15. 前記移送サーバは、前記配列決定装置へ要求すると、暗号化形式で、前記複数の配列決定装置から前記複数のオミクス出力ファイルを受け取るように構成される、請求項1〜14のいずれか1項に記載の移行システム。
  16. 前記配列解析エンジンはBAMサーバを備える、請求項1〜15のいずれか1項に記載の移行システム。
  17. 複数のオミクス配列を転送する方法であって、
    移行エンジンおよび注釈エンジンを備える移送サーバを設けることと、
    前記移送サーバによって、複数の各配列決定装置から、各々が配列データおよび機械固有注釈を備える複数のオミクス出力ファイルを受け取ることと、
    前記注釈エンジンによって、ユーザ注釈装置によって入力される注釈を用いて前記複数のオミクス出力ファイルに注釈を付け、それによって注釈付きオミクス出力ファイルを形成することと、
    前記移行エンジンによって、前記機械固有注釈およびユーザによって入力される前記注釈に基づいて、前記注釈付きオミクス出力ファイルを移送グループにグループ化することであって、前記グループ化はリアルタイムで実行される、ことと、
    前記移送サーバによって、前記移送グループを配列解析エンジンへ配送することと
    を備える方法。
  18. 前記オミクス出力ファイルは、ゲノム出力ファイル、RNAオミクス出力ファイル、またはプロテオミクス出力ファイルである、請求項17に記載の方法。
  19. 前記複数のオミクス出力ファイルを生の形式からSAM形式またはBAM形式へ変換するステップをさらに備える、請求項17〜18のいずれか1項に記載の方法。
  20. 前記移送サーバによって前記複数のオミクス出力ファイルを受け取る前記ステップの前に、前記複数のオミクス出力ファイルをデータ記憶装置に一時的に記憶するステップをさらに備える、請求項19に記載の方法。
  21. 前記移送サーバによって、前記配列解析エンジンおよび/または前記複数の配列決定装置の少なくとも1つへフィードバック信号を提供するステップをさらに備える、請求項17〜20のいずれか1項に記載の方法。
  22. 前記機械固有注釈は、日付および/または時間識別子、配列決定装置識別子、レーン識別子、品質スコア、およびペアメンバ識別子からなるグループから選択される注釈を備える、請求項17〜21のいずれか1項に記載の方法。
  23. ーザによって入力される前記注釈は、解析型注釈および患者固有注釈からなるグループから選択される注釈を備える、請求項17〜22のいずれか1項に記載の方法。
  24. 前記解析型注釈は、全ゲノム解析、エクソーム濃縮解析、トランスクリプトーム解析、およびプロテオーム解析からなるグループから選択される、請求項23に記載の移行システム。
  25. 前記患者固有注釈は、患者識別子、組織識別子、組織状態識別子、および健康記録識別子からなるグループから選択される、請求項23に記載の移行システム。
  26. 前記移送グループを配送するステップは、前記移送グループの形成が完了すると実行される、請求項19〜21のいずれか1項に記載の方法。
  27. 前記移行エンジンによって、前記移送グループに固有のIDを設けるステップをさらに備える、請求項17〜26のいずれか1項に記載の方法。
  28. 複数のオミクス配列を転送する方法であって、
    移送サーバによって、各々が配列データおよび機械固有注釈を備える複数のオミクス出力ファイルを受け取ることと、
    ユーザ注釈装置によって入力される注釈および前記機械固有注釈を用いて前記複数のオミクス出力ファイルを移送グループにグループ化することであって、前記グループ化はリアルタイムで実行される、ことと、
    前記移送グループを前記移送サーバから下流の解析装置へ転送することと
    を備える方法。
  29. 前記グループ化するステップは前記配列データとは無関係に実行される、請求項28に記載の方法。
  30. ーザによって入力される前記注釈は、解析型注釈および患者固有注釈からなるグループから選択される注釈を備える、請求項28〜29のいずれか1項に記載の方法。
  31. 前記解析型注釈は、全ゲノム解析、エクソーム濃縮解析、トランスクリプトーム解析、およびプロテオーム解析からなるグループから選択される、請求項30に記載の方法。
  32. 前記患者固有注釈は、患者識別子、組織識別子、組織状態識別子、および健康記録識別子からなるグループから選択される、請求項30に記載の方法。
  33. 前記移送グループを前記移送サーバから前記下流の解析装置へ転送する前記ステップは、前記移送グループが完了すると実行される、請求項29に記載の方法。
  34. 前記複数のオミクス出力ファイルは、オミクス出力ファイルを記憶するデータベースによって、または複数の配列決定装置によって提供される、請求項28〜33のいずれか1項に記載の方法。
  35. 配列解析エンジンにおけるゲノム解析にかかる処理時間を低減する方法であって、
    機械固有注釈およびユーザ注釈装置によって入力される注釈に従ってリアルタイムでグループ化される、複数のオミクス出力ファイルから、移送サーバによって、移送グループを生成することと、
    前記配列解析エンジンによって、前記移送グループを受け取ることと、
    前記配列解析エンジンによって、前記移送グループを論理ユニットとして処理することと
    を備える方法。
  36. 前記移送グループ内の前記複数のオミクス出力ファイルは、SAM形式またはBAM形式を有する、請求項35に記載の方法。
  37. ーザによって入力される前記注釈は、解析型注釈および患者固有注釈からなるグループから選択される注釈を備える、請求項35〜36のいずれか1項に記載の方法。
  38. 前記解析型注釈は、全ゲノム解析、エクソーム濃縮解析、トランスクリプトーム解析、およびプロテオーム解析からなるグループから選択される、請求項37に記載の方法。
  39. 前記患者固有注釈は、患者識別子、組織識別子、組織状態識別子、および健康記録識別子からなるグループから選択される、請求項37に記載の方法。
  40. 前記解析型注釈は、全ゲノム解析、エクソーム濃縮解析、トランスクリプトーム解析、およびプロテオーム解析からなるグループから選択される、請求項37に記載の方法。
JP2016531069A 2013-11-13 2014-11-13 配列決定データの伝送および前処理のためのシステムおよび方法 Expired - Fee Related JP6472798B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361903903P 2013-11-13 2013-11-13
US61/903,903 2013-11-13
PCT/US2014/065562 WO2015073735A1 (en) 2013-11-13 2014-11-13 Systems and methods for transmission and pre-processing of sequencing data

Publications (2)

Publication Number Publication Date
JP2017504093A JP2017504093A (ja) 2017-02-02
JP6472798B2 true JP6472798B2 (ja) 2019-02-20

Family

ID=53044715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016531069A Expired - Fee Related JP6472798B2 (ja) 2013-11-13 2014-11-13 配列決定データの伝送および前処理のためのシステムおよび方法

Country Status (8)

Country Link
US (2) US10193956B2 (ja)
EP (1) EP3069285A4 (ja)
JP (1) JP6472798B2 (ja)
KR (1) KR20160133400A (ja)
CN (2) CN106687965B (ja)
AU (2) AU2014348566B2 (ja)
CA (1) CA2932556A1 (ja)
WO (1) WO2015073735A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8666760B2 (en) * 2005-12-30 2014-03-04 Carefusion 303, Inc. Medication order processing and reconciliation
KR101874390B1 (ko) * 2013-09-26 2018-07-04 파이브3 제노믹스, 엘엘씨 바이러스-연관 종양을 위한 시스템, 방법, 및 조성물
US10380645B2 (en) * 2014-03-07 2019-08-13 DO-THEDOC Inc. System for securely transmitting medical records and for providing a sponsorship opportunity
EP3602361A4 (en) * 2017-03-29 2020-12-16 Nantomics, LLC SIGNATURE HASH FOR MULTI-SEQUENCE FILES
KR102304544B1 (ko) 2018-04-30 2021-09-24 서울대학교 산학협력단 정밀의료 게놈 데이터 모델 관리 장치 및 이의 관리 방법
CN112037866A (zh) * 2020-09-15 2020-12-04 中国科学院微生物研究所 菌株基因组测序信息查询方法、装置、电子设备及介质
CN112185460B (zh) * 2020-09-23 2022-07-08 谱度众合(武汉)生命科技有限公司 一种异构数据不依赖型蛋白质组学质谱分析系统及方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030211486A1 (en) 2001-05-25 2003-11-13 Frudakis Tony N. Compositions and methods for detecting polymorphisms associated with pigmentation
US7235358B2 (en) * 2001-06-08 2007-06-26 Expression Diagnostics, Inc. Methods and compositions for diagnosing and monitoring transplant rejection
US20030211504A1 (en) 2001-10-09 2003-11-13 Kim Fechtel Methods for identifying nucleic acid polymorphisms
US20060210967A1 (en) * 2004-07-02 2006-09-21 Agan Brian K Re-sequencing pathogen microarray
US7743233B2 (en) 2005-04-05 2010-06-22 Intel Corporation Sequencer address management
WO2011032725A1 (en) * 2009-09-18 2011-03-24 Kinogea, Inc. Method and system for building and using a centralised and harmonised relational protein and peptide database
US20110288785A1 (en) 2010-05-18 2011-11-24 Translational Genomics Research Institute (Tgen) Compression of genomic base and annotation data
CA2797645C (en) * 2010-05-25 2020-09-22 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
US9177101B2 (en) * 2010-08-31 2015-11-03 Annai Systems Inc. Method and systems for processing polymeric sequence data and related information
JP6420543B2 (ja) * 2011-01-19 2018-11-07 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ゲノムデータ処理方法
US8913552B2 (en) * 2011-01-24 2014-12-16 International Business Machines Corporation Spatiotemporal annotation of data packets in wireless networks
US9215162B2 (en) 2011-03-09 2015-12-15 Annai Systems Inc. Biological data networks and methods therefor
EP2718866B1 (en) * 2011-06-07 2020-09-09 Koninklijke Philips N.V. Providing nucleotide sequence data
EP2732423A4 (en) * 2011-07-13 2014-11-26 Multiple Myeloma Res Foundation Inc METHOD FOR DETECTING AND DISTRIBUTING DATA
US20130091126A1 (en) * 2011-10-11 2013-04-11 Life Technologies Corporation Systems and methods for analysis and interpretation of nucleic acid sequence data
WO2013070802A1 (en) * 2011-11-07 2013-05-16 Finitiv Corporation System and method for indexing and annotation of video content
KR20190016149A (ko) * 2011-12-08 2019-02-15 파이브3 제노믹스, 엘엘씨 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템
US20140278461A1 (en) 2013-03-15 2014-09-18 Memorial Sloan-Kettering Cancer Center System and method for integrating a medical sequencing apparatus and laboratory system into a medical facility

Also Published As

Publication number Publication date
US20150134662A1 (en) 2015-05-14
US20190124135A1 (en) 2019-04-25
KR20160133400A (ko) 2016-11-22
EP3069285A1 (en) 2016-09-21
EP3069285A4 (en) 2017-08-30
CN110570906A (zh) 2019-12-13
US10193956B2 (en) 2019-01-29
WO2015073735A1 (en) 2015-05-21
AU2019203427A1 (en) 2019-06-06
AU2014348566A1 (en) 2016-06-09
CN106687965A (zh) 2017-05-17
CN106687965B (zh) 2019-10-01
CA2932556A1 (en) 2015-05-21
JP2017504093A (ja) 2017-02-02
AU2014348566B2 (en) 2019-02-28

Similar Documents

Publication Publication Date Title
JP6472798B2 (ja) 配列決定データの伝送および前処理のためのシステムおよび方法
US10957429B2 (en) Healthcare analysis stream management
CN110520853B (zh) 直接存储器访问的队列管理
Liu et al. Big data as an e-health service
JP6576957B2 (ja) 安全な携帯ゲノムブラウジングデバイスおよびその方法
US20140365241A1 (en) System for pre-hospital patient information exchange and methods of using same
US11468097B2 (en) Virtual research platform
Vossberg et al. DICOM image communication in globus-based medical grids
Schapranow et al. A federated in-memory database system for life sciences
Pinthong et al. A simple grid implementation with Berkeley Open Infrastructure for Network Computing using BLAST as a model
WO2022012129A1 (zh) 云服务系统的模型处理方法及云服务系统
Akhter et al. An EDGE Supported Ambulance Management System for Smart Cities
US10749913B2 (en) Techniques for multiply-connected messaging endpoints
Park et al. OctoFAS: A Two-Level Fair Scheduler That Increases Fairness in Network-Based Key-Value Storage
Sánchez-Reolid et al. Generic Architecture for Multisource Physiological Signal Acquisition, Processing and Classification Based on Microservices
US20130326122A1 (en) Distributed memory access in a network
TW200532470A (en) Embedded computer system for data transmission between multiple micro-processors and method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190123

R150 Certificate of patent or registration of utility model

Ref document number: 6472798

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees