JP2017532699A - 起源の判定のためのシステムと方法 - Google Patents

起源の判定のためのシステムと方法 Download PDF

Info

Publication number
JP2017532699A
JP2017532699A JP2017531989A JP2017531989A JP2017532699A JP 2017532699 A JP2017532699 A JP 2017532699A JP 2017531989 A JP2017531989 A JP 2017531989A JP 2017531989 A JP2017531989 A JP 2017531989A JP 2017532699 A JP2017532699 A JP 2017532699A
Authority
JP
Japan
Prior art keywords
idiosyncratic
predetermined
genomic sequence
idiosyncratic marker
marker profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2017531989A
Other languages
English (en)
Other versions
JP2017532699A5 (ja
Inventor
ラビザデー,シャールーズ
ソーン‐シオン,パトリック
サンボーン,ジョン・ザッカリー
ヴァスケ,チャールズ・ジョーゼフ
ベンツ,スティーヴン・チャールズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JP2017532699A publication Critical patent/JP2017532699A/ja
Publication of JP2017532699A5 publication Critical patent/JP2017532699A5/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

ゲノム配列を特徴づけ比較するために特異体質性マーカ又はマーカ群を使用するゲノム分析用のシステムと方法が企図される。特に好適な態様において、前記特異体質性マーカは、所定のSNPであり、他の配列の他のマーカプロファイルに対する相互参照を可能にするべくサンプル記録中にマーカプロファイルが使用される。

Description

本出願は、2014年9月5日に出願された米国仮出願第62/046737号の優先権を主張するものである。
発明の分野
本発明の分野は、ゲノムデータのコンピュータ分析に関し、特に、一塩基多型(SNP)フィンガープリンティングの様々な態様と利用とに関する。
発明の背景
背景の説明は、本発明を理解するに当たって有用でありうる情報を含む。但し、このことは、ここに提供されるなんらかの情報がここにクレームされる発明の従来技術であるとか関連技術であるとか、或いは、具体的又は暗示的に参照されるなんらかの公報が従来技術であるということを認めるものではない。
一塩基多型とは、異なる個人のゲノム間における単一のDNA塩基対位置での変異又は変化の発生をいう。とりわけ、SNPは、ヒトにおいては、約1:1000の頻度で比較的に普通であって、転写および調節/非コード配列の両方において無差別的に存在する。それらの比較的高い頻度と既知の位置とにより、SNPは、多くの分野で利用可能であり、ゲノムワイド関連研究、集団遺伝学、進化研究等の複数の用途で利用されている。しかしながら、情報量が膨大であるため様々な問題が生じている。
たとえば、SNPがゲノムワイド関連研究に利用される場合、SNP又はSNPパターンを有するマーカ又は疾患の十分な関連解析を得るためには、多数の個人に関して少なくとも二つの別々のグループから全ゲノムをシークエンシングする必要がある。反対に、ゲノム又は選択されたSNPの一部のみが分析される場合は、SNPは全ゲノム全体に渡って広く分布しているので、潜在的関連性は失われる可能性がある。更に、患者組織の標的化SNP分析は、多くの場合、専用の器具(高スループットPCR)又は材料(SNPアレイ)を必要とする。加えて、塩基対位置が、SNPの座として同定された後、そのような情報は、通常、特定のSNPが単数又は複数の臨床的特徴に関連付けられる場合にのみ有用であると考えられる。従って、条件や特徴が知られていない多くのSNPは、単に無関係であるとして無視される。
従って、SNPに関して様々な態様および方法が知られてはいるが、情報源としてSNPを活用するための更に改善されたシステムと方法とが未だに求められている。
本発明の要約
本発明は、他のゲノムサンプルに対して生物サンプルの一致(congruence)を確認又は除外する、および/又は、その起源(provenance)を決定するために特異体質性(idiosyncratic)マーカ又はマーカ群(constellation)が使用されるゲノム分析のための様々な構成、システムおよび方法に関する。最も好適には、前記特異体質性マーカはSNPであり、複数の所定のSNPが、その座における読み取り(read)の臨床的又は生理学的結果と全く無関係にそれらの塩基の読み取りを利用するサンプル特異的識別子として使用される。
別構成として、種々のその他の特異体質性マーカも適当であると考えられ、それは、様々なゲノム反復配列(たとえば、SINE配列、LINE配列、Alu反復)、ウイルス性又は非ウイルス性要素のLTR配列、様々な選択された遺伝子の複製数、更に、トランスポゾン配列、の長さ/数を含む。同様に、特異体質性マーカは、ゲノムの予め選択された領域上の、ある種の認識部位間の核酸区間の予め選択されたセット(たとえば、4-塩基認識配列、6-塩基認識配列、6-塩基認識配列、6-塩基認識配列等)によって定義されるRFLPのインシリコ決定されたセットをも含むことができる。
従って、本発明の一態様において、本発明者等は、哺乳動物の標的組織のゲノム配列を分析するシステムと方法とを企図する。特に好適なシステムと方法において、前記哺乳動物の前記標的組織のゲノム配列を格納している配列データベースに分析エンジンが接続される。その後、当該分析エンジンは、前記標的組織の前記ゲノム配列中の複数の所定の特異体質性マーカを特徴付け、デジタルデータとして格納された特徴付けられた特異体質性マーカを使用して特異体質性マーカプロファイルを生成する。更に別の工程において、次に前記分析エンジンは、前記特異体質性マーカプロファイルを使用して前記標的組織の第1サンプル記録を生成又は更新する。その後、このようにして確立された前記第1サンプル記録の特異体質性マーカプロファイルは、前記分析エンジンによって、第2サンプル記録の第2特異体質性マーカプロファイルと比較されて、それによって、マッチングスコアを生成し、これは、好ましくは、前記第1サンプル記録に注釈添付するのに使用される。
本発明を限定するものではないが、好適な所定の特異体質性マーカは、SNP、後生的修飾、反復配列の反復の数、および/又は、所定の制限エンドヌクレアーゼ部位対間の塩基の数を含む。より一般的には、一つ以上の所定特異体質性マーカが、通常は、統計学的に有意な結果を作り出すのに十分な数で使用される。従って、所定の特異体質性マーカの適当な数は、100〜10,000となる。
前記所定の特異体質性マーカ(たとえばSNP)は、多くのケースにおいて、ゲノム配列内のそれらの既知の位置に基づいて予め決定されているか、および/又は、ランダムに選択することも可能である。尚、前記所定の特異体質性マーカの選択は、通常は、そのマーカに関連する疾患又は状態に対して不可知又は無知であることが銘記される。従って、別の観点から見ると、前記所定特異体質性マーカの少なくとも一部は、異なる又は無関係な疾患又は状態と関連しているかもしれない。更に、そして、SNP又はその他の特異体質性マーカの通常の利用法と異なり、前記マーカおよび/又はプロファイルは、その特異体質性マーカに通常関連している疾患又は状態の同定や可能性は含まない。前記特異体質性マーカの性質に応じて、前記特異体質性マーカプロファイルは、特徴付けられた特異体質性マーカのヌクレオチド塩基情報を含むものであっても、含まないものであってもよく、種々のデジタルフォーマット(たとえば、特異体質性マーカ、マーカプロファイル、又は、VCFフォーマットのサンプル記録)で、格納、処理および/又は提示することができる。
前記サンプル記録も、様々なフォーマットとすることが可能ではあるが、通常は、このサンプル記録はゲノム配列を含むこと、および/又は、前記マッチングスコアが同一性比率値であることが好ましい。たとえは、前記マッチングスコアは、同じ哺乳動物から得られた以前のサンプルに対するマッチング値、人種グループに特徴的な特異体質性マーカプロファイルに対するマッチング値、年齢グループに特徴的な特異体質性マーカプロファイルに対するマッチング値、および/又は、ある疾患に特徴的な特異体質性マーカプロファイル、に対するマッチング値を含むことができる。
哺乳動物の標的組織のための適当なゲノム配列は、その哺乳動物の少なくとも1つの染色体、より典型的には、その哺乳動物のゲノム又はエクソームの少なくとも70%をカバーするものとすることができる。更に、哺乳動物の標的組織が疾患組織である場合、前記第2サンプル記録は、その哺乳動物の第2のサンプル(たとえば、その哺乳動物の非疾患組織又は以前にテストされた同じ組織からのもの)から得ることができる。
従って、本発明者等は、配列データベースにおいてゲノム配列を選択する方法を企図する。特に、個人に関して、第1ゲノム配列と、関連する第1特異体質性マーカプロファイルとを格納する配列データベースに分析エンジンを接続する工程を含む方法が企図される。最も典型的には、前記第1特異体質性マーカプロファイルは、前記個人の第1ゲノム配列における複数の所定の特異体質性マーカの特徴に基づく。別の工程において、前記分析エンジンは、次に、関連する第2特異体質性マーカプロファイル(たとえば、同じ又は異なる配列データベースから取り出された第2の個人からのもの)を有する第2ゲノム配列を選択し、ここで、当該選択工程は、前記第1および第2特異体質性マーカプロファイルと、これら第1特異体質性マーカプロファイルと第2特異体質性マーカプロファイルとの間の所望のマッチング値とを使用する。
前に述べたように、多数の代替の特異体質性マーカが適当であると考えられるが、好適な特定特異体質性マーカは、SNP、後生的修飾、反復配列の反復の数、および/又は、所定の制限エンドヌクレアーゼ部位対間の塩基の数を含み、好適な分析は比較的多数(たとえば100〜10,000)を使用する。本発明において特異体質性マーカプロファイルの具体的なフォーマットは特に限定されるものではないが、その他多数のプロファイルに対して迅速な処理が可能なフォーマット(たとえば、ビット列形式、および/又は、排他的論理和決定に基づく処理)であることが好ましい。前記所望のマッチングスコアは、好ましくは、前記第1ゲノム配列と第2ゲノム配列との間の差を反映するユーザ定義カットオフスコアであるが、但し、その他の様々な要素(たとえば、配列分析のタイプ)に基づく所定のものとすることも可能である。
別の観点から見ると、本発明者等は、第1ゲノム配列を第2ゲノム配列とマッチングする方法における特異体質性マーカプロファイルの利用法を企図するものであることが銘記される。このような利用法において、特異体質性マーカプロファイルが、前記第1および第2ゲノム配列に関して確立され(又は予め確立されており)、ここで、前記特異体質性マーカプロファイルは、前記特異体質性マーカに関連する疾患又は状態に対して不可知又は無知である複数の特徴付けられた特異体質性マーカを使用して作り出される。前記と同様に、適当な特異体質性マーカは、通常、比較的大きな数(たとえば、100〜10,000のSNP)でSNP、後生的修飾、反復配列の反復の数、および/又は、所定の制限エンドヌクレアーゼ部位対間の塩基の数を含む。尚、そのような利用法において、関連する状態または疾患に関していなかる情報も要求されないことが銘記される。従って、前記特異体質性マーカは、ゲノム配列内におけるそれらの既知の位置に基づいて決めることができ、かつ、特徴付けられた特異体質性マーカに関するヌクレオチド塩基情報を含むものであっても、含まないものであってもよい。更に、上記した教示に類似して、企図される利用法におけるゲノム配列のマッチングは、前記第1および第2ゲノム配列の特異体質性マーカプロファイル間の所望又は所定の同一性比率値に基づくものとすることができる。
本発明の更に別の企図される態様において、本発明者等は、個人の性別を判定するためにゲノム情報を分析する方法を企図する。この方法は、好ましくは、その個人のゲノム配列を格納する配列データベースに分析エンジンを接続する工程を含む。別の工程において、前記分析エンジンは、少なくとも1つのX染色体上に位置する単数又は複数の対立遺伝子の接合性(zygosity)を判定して、前記対立遺伝子の接合性プロファイルを作り、前記分析エンジンは、前記対立遺伝子に対する前記接合性プロファイルを使用して性別判定を導出する。所望の場合、前記ゲノム情報を、前記性別判定によって注釈付けすることができる。例えば、Y染色体上の少なくとも1つの他の対立遺伝子に関しても接合性を判定することができ、および/又は、前記接合性を判定する工程は、更に、性染色体の異数性(aneuploidy)の判定も含むことができる。
本発明の様々な課題、特徴、態様、および利点は、類似の番号によって類似の構成要素が示されている添付の図面を参照して、好適実施例に関する以下の詳細説明からより明らかになるであろう。
図1Aは、類似性の関数としての累積サンプルフラクションを示す例示的グラフである。 図1Bは、類似性の関数としての累積サンプル数を示す例示的グラフである。 図2は、本発明による配列分析システムの例示である。
詳細説明
本発明者等は、そのゲノムにおけるそれらの役割又は機能とは無関係にそのゲノム中の特徴を使用してゲノム配列情報を分析することが可能であること、そして、これらの特徴が、前記ゲノムにおけるそれらの特異体質性存在により特に好適である、ことを見出した。これらの特異体質性特徴を使用することによって、迅速で信頼性の高いサンプルマッチング、および/又は、ソーティング、および/又は、サンプル起源又は関連性の度合いの判定が可能となる。
例えば、SNPは、ゲノムを通して大まかに統計学的/ランダムな分布で比較的高い頻度で発生するのでSNPは特異体質性特徴の特に好適な具体例として機能することができる。従って、別の観点から見ると、SNPのサブセットを、所望の統計的検出力に適合させることが可能な数で、全ゲノム全体を通して統計学的ビーコンとしての利用のために選択することができる。最も好適には、そして、ここに提供される本発明の内容において、前記選択されるSNPは、全ゲノムを通して分布するものではあるが、その全ゲノムの小さなフラクションのみを表すものとなる。例えば、ゲノム分析を、既知のSNPの非常に限定されたサブセット、例えば、全既知SNPの10%〜1%、又は1%〜0.1%、更には0.1%〜0.01%、更にはそれ以下に基づくものとすることができる。従って、使用されるSNPの数は、10〜100、100〜500、500〜5,000又は5,000〜10,000とすることができる。但し、他のケースにおいては、SNPは、SNPが単数又は複数の選択された染色体上、又は、単数又は複数の染色体上の座にのみ位置するものであってもよく、特定の分析の必要性と使用法とによってSNPの数と位置の適切な選択が決まるであろうことが理解される。
前記SNPは予め選択され、かつ、関連する病理的および/又は生理的特徴から独立したものであるので、SNPの群を、特定の目的のために適当な任意の方式で選択/配置することができる。更に、そして以下に更に説明するようにSNP特徴は、マーカプロファイル中に配置することができ、例えば、その後に、他の記録に対する迅速な比較に好適な統一記録を形成するために使用可能なデジタルファイルとして保存することができる。更に、企図されるマーカプロファイル又は記録は、検索特徴、データファイル組織化のためのパラメータ、或いは、個人的識別子として利用することが可能である。従って、前記分析は、通常は、診断の目的のために実行されるものではなく、その代わりに、二つの連続する記録(たとえば、疾患組織と正常組織由来のもの)が実際に正しくマッチングしているか(すなわち、同じ患者由来のものであるか) 否かを確かめるために、同じ患者の二つ以上のサンプル(たとえば、疾患組織とマッチした正常組織由来)に対して行うことができる。更に、以下に説明するように、企図されるマーカプロファイル、又は、記録は、例えば、前記ゲノム配列情報に対して追加のメタ情報を提供するため等のために、特定の人種に関連付けることができる。
勿論、SNPが好適な特異体質性マーカではあるが、その他さまざまな代替又は追加の特異体質性マーカも、そのようなマーカが患者のゲノムの固有の特徴を表すものである限り、同様にここでの利用法のために適したものである。例えば、様々な反復配列の長さおよび/又は数を特異体質性マーカとして使用することが企図される。他の配列の内、散在する反復配列が、これらの配列は、ゲノム全体を通しての実質的にランダムな分布と長さにおける高い可変性との両方を提供するため、適切であると考えられる。例えば、SINE配列長および/又はSINE間配列距離を使用することができる。同様に、LINE配列長および/又はLINE配列距離は、特異体質性マーカとしての利用に好適でありうる。同様に、ウイルス性又は非ウイルス性要素のLTR配列の位置及び長さ、種々の選択された遺伝子の複製数、更に、トランスポゾン配列もそれらの遺伝子的および/又は生理学的機能から独立した方式で使用可能な患者/サンプル特異的代理手段を提供するために利用することが可能である。
更に別の企図される態様において、前記特異体質性マーカは、更に、ゲノム上の予め選択された領域、又は、全ゲノム上の、単数又は複数の制限エンドヌクレアーゼ(たとえば、4、6又は8の塩基認識配列を有する)のある種の認識部位間の予め選択されたセットの核酸区間によって定義されるRFLPのインシリコで決定されたセットを含むことができる。従って、「静的」代理手段が一般に好適である。但し、本発明の別の企図される態様において、「動的」な代理手段も企図され、特に、エピジェネティックな修飾(たとえば、CpGアイランドメチル化)を含む。更に、特異体質性マーカは同じタイプのものであることが好適ではあるが、様々なタイプの特異体質性マーカの種々の組み合わせも、マーカの総数を制限しながら、統計的検出力を増大させるためには特に有利であることが理解される。
従って、前記特異体質性マーカの性質によって、マーカの情報内容が少なくとも部分的に決まることになる。例えば、特異体質性マーカがSNPである場合、その情報内容は、通常、ベースコール(base call)と共に、ゲノムにおける特定の位置を含む。他方、特異体質性マーカが反復配列である場合、その情報内容は、通常、反復の数と共に配列のタイプを含むものとなる。同様に、特異体質性マーカがRFLP(制限酵素断片長多型)である場合、その情報内容は、通常、その断片の計算されたサイズと共に配列の位置を含むものとなる。別の観点から見ると、特異体質性マーカの決定のための出発材料は患者組織ではなく、全ゲノムシークエンシング、エクソームシークエンシング、RNAシークエンシング等の核酸配列決定からの既に確立された配列記録(たとえば、SAM、BAM、FASTA、FASTQ又はVCFファイル)であることが理解される。従って、前記出発材料は、単数又は複数のデジタルフォーマットに従って格納されたベースライン配列を格納するデジタルファイルによって表すことができる。例えば、ベースライン配列は、FASTAフォーマットで格納されたポピュレーションの全ゲノム参照配列を含むことができる。
例えば、患者の腫瘍サンプル配列記録が同じ患者の正常組織の対応のサンプル配列記録と正確にマッチングことを可能にするために特異体質性マーカプロファイルを使用するという概念を検証するために、本発明者等は1000SNP以上をアプリオリにランダム選択し、すべてのサンプルに対して標準プロトコルで全配列ゲノムシークエンシングを実行した。すべての配列記録はBAMフォーマットでありSNPが前記1000SNP位置以上のそれぞれに関して特徴付けられた。下記の表1は、サンプル例とそれらのそれぞれの由来とを示している。
Figure 2017532699
上述のサンプルおよび標準シークエンシングプロトコルを使用して、以下のマッチング構成を、下記の表2にアウトラインされているように使用した(BL:血液由来マッチング正常、LoD:検出の限界)
Figure 2017532699
この例では、起源類似性メトリック(provenance similarity metric)によって、二つのサンプル間の%類似性に基づいてマッチ/ミスマッチを判定する。ここでマッチは>90%の類似性、そしてミスマッチは<90%の類似性である。下記の表3に示す以下のマトリックスによって正確さを評価する(ここで、TPは真陽性、FPは偽陽性、TNは真陰性、FNは偽陰性である)。従って、正確さは、(TP+TN)/(TP+TN+FP+FN)として定義される。
Figure 2017532699
各コントラストのサンプル1とサンプル2との間の類似性又は互換遺伝子型に関して上述したようにして起源を判定した。%類似性スコアが計算され、少なくとも90%類似性の任意のサンプル対をマッチとして(同じ人に属するサンプル)、その他の場合にはミスマッチ(同じ人に属さないサンプル)として分類する。下記の表4〜6は、二つの互いに独立的に行われた分析における11のマッチング対と11のミスマッチ対との間の分析結果を示している。
Figure 2017532699
Figure 2017532699
Figure 2017532699
マッチの判定のための適当なカットオフ値に関しては、多くの任意の値又は目的を持った値が使用可能であることが銘記される。例えば、任意のカットオフ値は、配列間で85%、90%、92%、94%、96%、又は98%の最小類似性とすることができる。他方、カットオフ値は、人種プロファイル、利用可能なサンプルの質又はタイプ、テストされるSNPの数、組織又はその他のprepサンプル中の核酸の希釈等、も考慮に入れることができる。例えば、FFPE起源の希釈サンプルに対する防御として、前記カットオフ値は、90%が選択された(表4を参照、 HCC1954-LoD-25%対HCC1954BL)。
企図されるシステムと方法の高い選択性と感度を示す別の例において、本発明者等は、上述したシステムを使用して固有の患者に属するThe Cancer Genome Atlasのデータベースから得られた以前にシークエンシングされた腫瘍および正常エキソーム配列の対を比較した。下記の表7−1及び表7−2からわかるように、全部で4,756のマッチした腫瘍-正常配列(BAMファイルとしての9,512の配列)に関して、かなり高い類似性スコア(たとえば、98%類似性)の場合でも類似性のフラクションは比較的低く、非常に高い類似性スコア(たとえば、99.5%類似性)を超えて初めて指数関数的に上昇しはじめる。
Figure 2017532699
Figure 2017532699
従って、本発明の一態様例において、本発明者等は、単数又は複数の特異体質性マーカを使用して哺乳動物の標的組織のゲノム配列を分析する様々な方法を企図する。より一般的には、企図される方法は、複数の哺乳動物の各標的組織のゲノム配列を格納している配列データベースに情報接続された分析エンジンを使用する。勿論、前記ゲノム配列は、様々なフォーマットのものであってよく、かつ、フォーマットの特定の性質はここに提示される本発明に対して限定的なものではないことが銘記される。但し、特に好適なフォーマットは、少なくもある程度にフォーマットされるものであり、特に、好適なフォーマットはSAM、BAM又はVCFフォーマットを含む。
次に、前記分析エンジンは、前記標的組織のゲノム配列中の、複数の所定の特異体質性マーカを特徴付ける。勿論、この特徴付けは、使用される特異体質性マーカのタイプに応じて変わるものであること銘記される。例えば、マーカがSNPである場合、前記特徴付けは、特定の位置の特定の塩基(たとえば、chr:bp、特定の対立遺伝子中の塩基数、又は特定のSNP designationとしてあらわされる)を含む。他方、前記マーカが反復配列である場合、前記特徴付けは、その配列の特定の識別子及び反復の数、好ましくは、位置情報ととともに、を含む。勿論、前記分析/特徴付けは、複数の特異体質性マーカ(たとえば、100〜10,000のマーカのグループ)に関して行われる。
全てのマーカの特徴付けが完了すると、前記分析エンジンが、以前に特徴付けられたマーカを使用して特異体質性マーカプロファイルを作り出すことが企図される。このようなプロファイルは、生データフォーマットであってもよいし、或いは、特定のルールによって処理してもよい。フォーマットの如何に拘らず、一般に、前記分析エンジンによって単一の記録が作成されるか更新されることが好ましく、ここで、前記サンプル記録は、前記標的組織に対して特異的なものであり、生又は処理済み形態で前記特異体質性マーカプロファイルを含む。本発明を限定するものではないが、前記特異体質性マーカプロファイルは、ゲノム配列情報に添付(又は、それ以外の方法で一体化)することができる。これは、前記分析エンジンが、更に、前記サンプル記録中の前記特異体質性マーカプロファイルを別のサンプル記録の別の特異体質性マーカプロファイルと比較して、マッチングスコアを生成する場合に特に有用である。その後、前記マッチングスコアを、様々な方法で使用することができる(たとえば、サンプル記録の注釈のため)。更に、特異体質性マーカプロファイルを、特異体質性マーカ、特にSNP、とその他の点で関連する状態又は疾患に関して不可知(情報が入手不能)又は無知(利用可能な情報が使用されない)であるように使用することにより、非常に可変的ではあるが位置に関しては不変の情報を、二つの特定の配列が事実同じ患者からのものであることを確認するべくビーコンとして使用することができる。そのようなコントロールは、臨床検査におけるサンプルの同定ミスによって完全に有効で高品質ではあるが割り当てが不適切な配列記録が生成されうる場合のゲノム配列の電子記録にとって特に有利である。別の観点から見ると、ここに企図されるシステムと方法は、同じ患者からの二つの配列の対合のコンフォーメーション、或いは、同じ患者から発生したかもしれない(又は、直接に関連しているか、又は、同じ人種グループ)配列のコレクションにおけるマッチング配列の発見を可能にする。
哺乳動物の標的細胞のゲノム配列の分析のためのシステムの一例が、図2に略示され、ここでは、システム200は、ネットワーク215を介して、複数の患者の標的組織に対するゲノム配列を格納する配列データベース220に接続された分析エンジン210を有する。勿論、多くの追加的なゲノム配列のソース(たとえば、シークエンシングサービスラボラトリ、参照データベース、患者所有の装置のメモリ232等)があり、これらのすべてが、ここでの使用に適したものと考えられる。典型的なシステムにおいて、前記分析エンジンは、前記標的組織の前記ゲノム配列中の複数の所定の特異体質性マーカを特徴付け、その特徴付けられた特異体質性マーカを使用して特異体質性マーカプロファイルを作成し、当該特異体質性マーカプロファイルを使用して標的組織に対する第1サンプル記録を作成又は更新し、前記第1サンプル記録中の前記特異体質性マーカプロファイルを、第2サンプル記録中の第2特異体質性マーカプロファイルと比較し、それによって、マッチングスコアを提供し、そして当該マッチングスコアを使用して前記第1サンプル記録を注釈するように構成される。
尚、コンピュータに関する任意の文言は、サーバ、インターフェース、システム、データベース、エージェント、ピア、エンジン、コントローラ、およびその他の個別的または集合的に作動するコンピュータ関係装置(computing device)を含むコンピュータ関係装置の任意の好適な組み合わせを含むものとして読み取られなければならない。また、前記コンピュータ関係装置は、有形で非過渡的なコンピュータ読み取り可能なストレージ媒体(たとえば、ハードドライブ、ソリッドステートドライブ、RAM、フラッシュ、ROM等)に格納されたソフトウエアインストラクションを実行するように構成されたプロセッサを含むものであることが理解される。前記ソフトウエアインストラクションは、好ましくは、ここに開示の器具に関して以下に説明するように、役割、責任、又はその他の機能を提供するように前記コンピュータ関係装置が設計される。特に好適な実施例において、前記種々のサーバ、システム、データベース又はインターフェースは、可能であれば、HTTP、HTTPS AES、パブリック-プライベートキー交換、ウェブサービスAPI、公知の金融取引プロトコル、又は、その他の電子情報交換法に基づき標準化されたプロトコル又はアルゴリズムを使用してデータを交換する。データ交換は、好ましくは、パケット交換網(packet-switched network)、インターネット、LAN、WAN、VPN又はその他のタイプのパケット交換網を介して行われる。前記特異体質性マーカに関して、一般に、好ましくは、これらマーカは、ゲノム中において利用可能なすべてのマーカの全体よりも少ない所定の特異体質性マーカのユーザ選択又は所定のセットである。例えば、特異体質性マーカは、SNP、反復配列の定量化的測定、短反復配列(short tandem repeat、STR)、所定の制限部位間の塩基の数、および/又は後生的修飾を含むことができる。ユーザ選択又は事前決定は、大半のケースにおいては、それらのマーカが哺乳動物のゲノム中全体を通してランダムに分布するように、或いは、それらマーカが哺乳動物のゲノム全体を通して統計学的な均一に分布するように行われる。マーカは好ましくはゲノム全体を表すものではあるが、哺乳動物の標的組織に対するゲノム配列が哺乳動物の少なくとも1つの染色体、又は、その哺乳動物のゲノムの少なくとも70%をカバーするように構成することも企図される。
容易に理解されるように、ここに企図される前記分析は、多くの用途に適したものではあるが、特に、哺乳動物の標的組織が疾患組織であり、第2サンプル記録が同じ(又は関連する又は関連しない)哺乳動物の非疾患サンプルから得られる分析が企図される。従って、前記第2サンプルが同じ哺乳動物の参照組織である場合、企図される分析は、疾患サンプルと非疾患サンプルとが同じ患者/哺乳動物からの適切にマッチングされたサンプルである憲章において特に好適であり、或いは、互いのパラメータ(たとえば、人種、門地(familial origin)等)に対して適切にマッチングされる。そのようなプロファイリングは、サンプルが、異なる人種集団間で異なる処置をされた疾患を有する患者由来である場合に特に有利でありうる。SNPのセットを使用して、本発明者等は、体細胞突然変異のタイプにおける決定因子である可能性のある個人の人種又は集団的先祖を確立することが可能である、と企図される。例えば、肺がんにおけるEGFR突然変異は、北アメリカ白色人種においては比較的まれであるが、アジアの肺がん集団においてはかなり一般的である。これらは、特定のEGFR治療法に対してある程度反応する可能性があり、従って、人種による階層化が使用可能であるかもしれない。この目的のために、別のサンプル、例えば、同じ哺乳動物由来の以前のサンプルに対するマッチング値、人種グループに対して特徴的な特異体質性マーカプロファイルに対するマッチング値、年齢グループに対して特徴的な特異体質性マーカプロファイルに対するマッチング値、疾患に対して特徴的な特異体質性マーカプロファイルに対するマッチング値を有するマッチングスコアを実行することができる。
本発明の更に別の企図される態様において、本発明者等は、更に、対応する関連又は類似のその他の遺伝子配列のマッチング又は選択のための特異体質性マーカおよび特異体質性マーカプロファイルのその他の種々の利用法を企図する。例えば、本発明者等は、ゲノム配列と個人の関連する特異体質性マーカプロファイルとを格納する配列データベースに接続された分析エンジンを使用して配列データベース中の遺伝子配列を選択する方法を企図する。前述したように、一般に、前記特異体質性マーカプロファイルは、個人のゲノム配列中の多数の所定の特異体質性マーカの単数又は複数の特徴に基づくものであることが好ましく、前記特異体質性マーカプロファイルは、比較を容易にするために処理された形態であることが更に好ましい。例えば、前記処理形態は、ビット列形態とすることができる。そのようなシステムにおいて、次に前記分析エンジンは、関連する第2の特異体質性マーカプロファイルを有する第2のゲノム配列を選択することができる。最も一般的には、前記選択は、前記特異体質性マーカプロファイルと、当該特異体質性マーカプロファイルと第2の特異体質性マーカプロファイルとの間の所望のマッチングスコア(たとえば、それらプロファイル間で少なくとも90%の同一性を有するものでなければならない等)とを利用するものとなる。
前記で既に述べたように、一般に、前記所定の特異体質性マーカはSNP、反復配列の数/位置、所定の制限エンドヌクレアーゼ部位対間の塩基の数、および/又は、後生的修飾であり、前記所定の特異体質性マーカの適当な数は、コンピュータ分析を促進するため100〜10,000マーカであることが好ましい。前記所望のマッチングスコアに関して、一般に、前記マッチングスコアは、排他的論理和決定に基づく、および/又は、前記所望のマッチングスコアは、前記第1ゲノム配列と第2ゲノム配列との間の「距離」を反映するユーザ定義カットオフスコアであることが好ましい。
本発明の更に別の企図される態様に於いて、本発明者等は、更に、個人の性別を判定するためにゲノム情報を分析する方法を企図する。その様な方法において、分析エンジンを、個人のゲノム配列を格納する配列データベースと共に使用することができ、ここで、前記分析エンジンは、少なくともX染色体(より一般的にはXおよびY染色体)上に位置する少なくとも1つの対立遺伝子の接合性を判定して前記対立遺伝子(単数又は複数)に対する接合性プロファイルを作る。判定が完了すると、次に、前記分析エンジンは、その前記対立遺伝子に対する前記接合性プロファイルを使用して性別判定を行う。所望の場合、前記ゲノム情報を、前記性別判定に注釈をつけることができる。特に注目すべきことに、そのような性別判定は、単純であって、これは更に、クラインフェルト症候群、ターナー症候群、XXY症候群、またはXp22欠損等を有する患者に属するゲノム配列を容易に評価するべく性染色体に対する異数性を考慮に入れることができる。
尚、ここでの発明の概念から逸脱することなく既に記載したもの以外のその他多数の改造が可能であることは当業者にとって明白であろう。従って、本発明は、添付の請求項に記載されているもの以外に限定されるものではない。特に、「有する(含む)」”comprises”, “comprising”というような用語は、要素、成分、又は工程を非限定的に記載するものであって、記載されもの以外の、要素、成分、又は工程が明示的に記載されない他の要素とともに、存在、利用又は組み合わせ可能であることを示している。A, B, C…およびNから成るグループから選択される少なくとも一つの何かについて言及する場合、その内容は、AがなくNが有り、又は、BとN等の一つの要素のみを要件とするものと解釈されなければならない。

Claims (83)

  1. 哺乳動物の標的組織のゲノム配列を分析する方法であって、以下の工程、
    前記哺乳動物の前記標的組織のゲノム配列を格納する配列データベースに分析エンジンを接続する工程、
    前記分析エンジンによって、前記標的組織の前記ゲノム配列中の複数の所定の特異体質性マーカを特徴付け、特徴付けられた前記特異体質性マーカを使用して特異体質性マーカプロファイルを作成する工程
    前記分析エンジンによって、前記特異体質性マーカプロファイルを利用して、前記標的組織の第1サンプル記録を作成又は更新する、
    前記分析エンジンによって、前記第1サンプル記録中の前記特異体質性マーカプロファイルと、第2サンプル記録中の第2特異体質性マーカプロファイルとを使用し、それによってマッチングスコアを作成する工程、
    ここで、前記特異体質性マーカプロファイルを利用する工程は、特異体質性マーカにその他において関連する状態又は疾患に関して不可知又は無知である、そして、
    前記マッチングスコアを使用して前記第1サンプル記録に注釈添付する工程、を有する方法。
  2. 前記所定の特異体質性マーカは、SNP、後生的修飾、反復配列の反復の数、および、所定の制限エンドヌクレアーゼ部位対間の塩基の数から成るグループから選択される請求項1に記載の方法。
  3. 前記複数の所定の特異体質性マーカは、100〜10,000の所定の特異体質性マーカを含む請求項1又は2に記載の方法。
  4. 前記所定の特異体質性マーカは、SNPである請求項1〜3の何れか一項に記載の方法。
  5. 前記所定の特異体質性マーカは、前記ゲノム配列内のそれらの既知の位置に基づいて予め決定される請求項1〜4の何れか一項に記載の方法。
  6. 前記所定の特異体質性マーカは、ランダム選択に基づいて予め決定され、ここで、前記ランダム選択は、前記特異体質性マーカに関連する疾患又は状態に関して不可知又は無知である、請求項1〜5の何れか一項に記載の方法。
  7. 前記所定の特異体質性マーカの少なくとも一部は、各疾患又は状態に関連し、そして、ここで、前記疾患又は状態は互いに無関係の疾患又は状態である、請求項1〜6の何れか一項に記載の方法。
  8. 前記特異体質性マーカプロファイルは、特徴付けられた前記特異体質性マーカの少なくとも一部に関連する疾患又は状態の同定を含まない請求項1〜7の何れか一項に記載の方法。
  9. 前記特異体質性マーカプロファイルは、特徴付けられた前記特異体質性マーカに対するヌクレオチド塩基情報を含む請求項1〜8の何れか一項に記載の方法。
  10. 前記サンプル記録は、VCFフォーマットを有する請求項1〜9の何れか一項に記載の方法。
  11. 前記サンプル記録は、前記ゲノム配列を含む請求項1〜10の何れか一項に記載の方法。
  12. 前記マッチングスコアは、同一性比率値を含む請求項1〜11の何れか一項に記載の方法。
  13. 前記マッチングスコアは、同じ哺乳動物から得られた以前のサンプルの少なくとも一つに対するマッチング値、人種グループに特徴的な特異体質性マーカプロファイルに対するマッチング値、年齢グループに特徴的な特異体質性マーカプロファイルに対するマッチング値、および、ある疾患に特徴的な特異体質性マーカプロファイルに対するマッチング値を含む請求項1〜12の何れか一項に記載の方法。
  14. 前記哺乳動物の前記標的組織に対する前記ゲノム配列は、前記哺乳動物の少なくとも1つの染色体をカバーする請求項1〜13の何れか一項に記載の方法。
  15. 前記哺乳動物の前記標的組織の前記ゲノム配列は、前記哺乳動物の前記ゲノムの少なくとも70%をカバーする請求項1〜14の何れか一項に記載の方法。
  16. 前記哺乳動物の前記標的組織は疾患組織であり、前記第2サンプル記録は、前記哺乳動物の第2サンプルから得られる請求項1〜15の何れか一項に記載の方法。
  17. 前記哺乳動物の前記第2サンプルは、前記哺乳動物の非疾患組織由来である請求項16に記載の方法。
  18. 前記複数の所定の特異体質性マーカは、100〜10,000の所定の特異体質性マーカを含む請求項1に記載の方法。
  19. 前記所定の特異体質性マーカはSNPである請求項1に記載の方法。
  20. 前記所定の特異体質性マーカは、前記ゲノム配列内のそれらの既知の位置に基づいて予め決定される請求項1に記載の方法。
  21. 前記所定の特異体質性マーカはランダム選択に基づいて予め決定され、前記ランダム選択は、前記特異体質性マーカに関連する疾患又は状態に対して不可知又は無知である請求項1に記載の方法。
  22. 前記所定の特異体質性マーカの少なくとも一部は、各疾患又は状態に関連し、前記疾患又は状態は無関係の疾患又は状態である請求項1に記載の方法。
  23. 前記特異体質性マーカプロファイルは、特徴付けられた前記特異体質性マーカの少なくとも一部に関連する疾患又は状態の同定を含まない請求項1に記載の方法。
  24. 前記特異体質性マーカプロファイルは、特徴付けられた前記特異体質性マーカに対するヌクレオチド塩基情報を含む請求項1に記載の方法。
  25. 前記サンプル記録は、VCFフォーマットを有する請求項1に記載の方法。
  26. 前記サンプル記録は、前記ゲノム配列を含む請求項1に記載の方法。
  27. 前記マッチングスコアは、同一性比率値を含む請求項1に記載の方法。
  28. 前記マッチングスコアは、同じ哺乳動物から得られた以前のサンプルの少なくとも一つに対するマッチング値、人種グループに特徴的な特異体質性マーカプロファイルに対するマッチング値、年齢グループに特徴的な特異体質性マーカプロファイルに対するマッチング値、および、疾患に特徴的な特異体質性マーカプロファイルに対するマッチング値を含む請求項1に記載の方法。
  29. 前記哺乳動物の前記標的組織に対する前記ゲノム配列は、前記哺乳動物の少なくとも1つの染色体をカバーする請求項1に記載の方法。
  30. 前記哺乳動物の前記標的組織に対する前記ゲノム配列は、前記哺乳動物のゲノムの少なくとも70%をカバーする請求項1に記載の方法。
  31. 前記哺乳動物の前記標的組織は疾患組織であり、前記第2サンプル記録は前記哺乳動物の第2サンプルから得られる請求項1に記載の方法。
  32. 前記哺乳動物の前記第2サンプルは、前記哺乳動物の非疾患組織由来である請求項31に記載の方法。
  33. 配列データベースにおいてゲノム配列を選択する方法であって、以下の工程、
    個人に関して、第1ゲノム配列と、関連する第1特異体質性マーカプロファイルとを格納する配列データベースに分析エンジンを接続する工程、
    ここで、前記第1特異体質性マーカプロファイルは、前記個人の第1ゲノム配列における複数の所定の特異体質性マーカに対する特徴に基づく、
    前記分析エンジンによって、関連する第2特異体質性マーカプロファイルを有する第2ゲノム配列を選択する工程、
    ここで、前記選択する工程は、前記第1特異体質性マーカプロファイルと前記第2特異体質性マーカプロファイル、前記第1特異体質性マーカプロファイルと第2特異体質性マーカプロファイルとの間の所望のマッチングスコアとを使用する、そして、
    ここで、前記特異体質性マーカプロファイルは、前記特異体質性マーカにその他において関連する状態又は疾患に関して不可知又は無知であるように使用される、を有する方法。
  34. 前記所定の特異体質性マーカは、SNP、後生的修飾、反復配列の反復の数、および、所定の制限エンドヌクレアーゼ部位対間の塩基の数、から成るグループから選択される請求項33に記載の方法。
  35. 前記複数の所定の特異体質性マーカは、100〜10,000の所定の特異体質性マーカを含む請求項33又は34に記載の方法。
  36. 前記特異体質性マーカプロファイルは、ビット列形式である請求項33〜35の何れか一項に記載の方法。
  37. 前記所望のマッチングスコアは、排他的論理和決定に基づく請求項33〜36の何れか一項に記載の方法。
  38. 前記所望のマッチングスコアは、前記第1ゲノム配列と前記第2ゲノム配列との間の差に対するユーザ定義のカットオフスコアである請求項33〜37の何れか一項に記載の方法。
  39. 前記関連第2特異体質性マーカプロファイルを有する前記第2ゲノム配列は、第2の個人由来である請求項33〜38の何れか一項に記載の方法。
  40. 前記関連第2特異体質性マーカプロファイルを有する前記第2ゲノム配列は、前記配列データベースから取り出される請求項33〜39の何れか一項に記載の方法。
  41. 前記複数の所定の特異体質性マーカは、100〜10,000の所定の特異体質性マーカを含む請求項33に記載の方法。
  42. 前記特異体質性マーカプロファイルは、ビット列形式である請求項33に記載の方法。
  43. 前記所望のマッチングスコアは、排他的論理和決定に基づく請求項33に記載の方法。
  44. 前記所望のマッチングスコアは、前記第1ゲノム配列と第2ゲノム配列との間の差に対するユーザ定義カットオフスコアである請求項33に記載の方法。
  45. 前記関連第2特異体質性マーカプロファイルを有する前記第2ゲノム配列は、第2の個人由来である請求項33に記載の方法。
  46. 前記関連第2特異体質性マーカプロファイルを有する前記第2ゲノム配列は、前記配列データベースから取り出される請求項33に記載の方法。
  47. 第1ゲノム配列と第2ゲノム配列とが同じヒトに属することを確認する方法における特異体質性マーカプロファイルの使用であって、
    ここで、前記特異体質性マーカプロファイルは、前記第1ゲノム配列と前記第2ゲノム配列に対して確立され、
    ここで、前記特異体質性マーカプロファイルは、前記特異体質性マーカに関連する疾患又は状態に対して不可知又は無知である複数の特徴付けられた特異体質性マーカを使用して作り出され、そして、
    ここで、前記第1ゲノム配列と第2ゲノム配列とが同じヒトに属する確認は、類似性スコアの閾値に基づいて確立される、使用。
  48. 前記特異体質性マーカは、SNP、後生的修飾、反復配列の反復の数、および、所定の制限エンドヌクレアーゼ部位対間の塩基の数、から成るグループから選択される請求項47に記載の使用。
  49. 前記複数の特異体質性マーカは、100〜10,000のSNPである請求項47又は48に記載の使用。
  50. 前記特異体質性マーカは、前記ゲノム配列内のそれらの既知の位置に基づいて予め決定される請求項47〜49の何れか一項に記載の使用。
  51. 前記特異体質性マーカプロファイルは、特徴付けられた前記特異体質性マーカに対するヌクレオチド塩基情報を含む請求項47〜50の何れか一項に記載の使用。
  52. 前記ゲノム配列のマッチングは、前記第1ゲノム配列および前記第2ゲノム配列に対する前記特異体質性マーカプロファイル間の同一性比率値に基づく請求項47〜51の何れか一項に記載の使用。
  53. 前記複数の特異体質性マーカは、100〜10,000のSNPである請求項47に記載の使用。
  54. 前記特異体質性マーカは、前記ゲノム配列内のそれらの既知の位置に基づいて予め決定される請求項47に記載の使用。
  55. 前記特異体質性マーカプロファイルは、特徴付けられた前記特異体質性マーカに対するヌクレオチド塩基情報を含む請求項47に記載の使用。
  56. 前記ゲノム配列のマッチングは、前記第1ゲノム配列および第2ゲノム配列に対する前記特異体質性マーカプロファイル間の同一性比率値に基づく請求項47に記載の使用。
  57. 哺乳動物の標的組織のゲノム配列の分析のためのシステムであって、以下、
    前記哺乳動物の前記標的組織に対するゲノム配列を格納する配列データベースに接続された分析エンジン、
    ここで、前記分析エンジンは、
    前記標的組織の前記ゲノム配列中の複数の所定の特異体質性マーカを特徴付け、特徴付けられた前記特異体質性マーカを使用して特異体質性マーカプロファイルを作成し、
    前記特異体質性マーカプロファイルを利用して、前記標的組織の第1サンプル記録を作成又は更新し、
    前記第1サンプル記録中の前記特異体質性マーカプロファイルと、第2サンプル記録中の第2特異体質性マーカプロファイルとを比較してマッチングスコアを作成し、
    ここで、前記特異体質性マーカプロファイルは、前記特異体質性マーカにその他において関連する状態又は疾患に関して不可知又は無知であるように使用される、そして
    前記マッチングスコアを使用して前記第1サンプル記録に注釈添付する、ように構成されている、システム。
  58. 前記所定の特異体質性マーカは、SNP、後生的修飾、反復配列の反復の数、および、所定の制限エンドヌクレアーゼ部位対間の塩基の数から成るグループから選択される請求項57に記載のシステム。
  59. 前記複数の所定の特異体質性マーカは、100〜10,000の所定の特異体質性マーカを含む請求項57又は58に記載のシステム。
  60. 前記所定の特異体質性マーカは、SNPである請求項57〜59の何れか一項に記載のシステム。
  61. 前記所定の特異体質性マーカは、前記ゲノム配列内のそれらの既知の位置に基づいて予め決定される請求項57〜60の何れか一項に記載のシステム。
  62. 前記所定の特異体質性マーカは、ランダム選択に基づいて予め決定され、そして、ここで、前記ランダム選択は、前記特異体質性マーカに関連する疾患又は状態に関して不可知又は無知である請求項57〜61の何れか一項に記載のシステム。
  63. 前記所定の特異体質性マーカの少なくとも一部は、各疾患又は状態に関連し、そして、ここで、前記疾患又は状態は無関係の疾患又は状態である請求項57〜62の何れか一項に記載のシステム。
  64. 前記特異体質性マーカプロファイルは、特徴付けられた前記特異体質性マーカに対するヌクレオチド塩基情報を含む請求項57〜63の何れか一項に記載のシステム。
  65. 前記サンプル記録は、VCFフォーマットを有する請求項57〜64の何れか一項に記載のシステム。
  66. 前記サンプル記録は、前記ゲノム配列を含む請求項57〜65の何れか一項に記載のシステム。
  67. 前記マッチングスコアは、同一性比率値を含む請求項57〜66の何れか一項に記載のシステム。
  68. 前記マッチングスコアは、同じ哺乳動物から得られた以前のサンプルの少なくとも一つに対するマッチング値、人種グループに特徴的な特異体質性マーカプロファイルに対するマッチング値、年齢グループに特徴的な特異体質性マーカプロファイルに対するマッチング値、および、ある疾患に特徴的な特異体質性マーカプロファイルに対するマッチング値を含む請求項57〜67の何れか一項に記載のシステム。
  69. 前記哺乳動物の前記標的組織の前記ゲノム配列は、その哺乳動物の少なくとも1つの染色体をカバーする請求項57〜68の何れか一項に記載のシステム。
  70. 前記複数の所定の特異体質性マーカは、100〜10,000の所定の特異体質性マーカを含む請求項57に記載のシステム。
  71. 前記所定の特異体質性マーカは、SNPである請求項57に記載のシステム。
  72. 前記所定の特異体質性マーカは、前記ゲノム配列内のそれらの既知の位置に基づいて予め決定される請求項57に記載のシステム。
  73. 前記所定の特異体質性マーカは、ランダム選択に基づいて予め決定され、そして、ここで、前記ランダム選択は、前記特異体質性マーカに関連する疾患又は状態に関して不可知又は無知である請求項57に記載のシステム。
  74. 前記所定の特異体質性マーカの少なくとも一部は、各疾患又は状態に関連し、そして、ここで、前記疾患又は状態は無関係の疾患又は状態である請求項57に記載のシステム。
  75. 前記特異体質性マーカプロファイルは、特徴付けられた前記特異体質性マーカに対するヌクレオチド塩基情報を含む請求項57に記載のシステム。
  76. 前記サンプル記録は、VCFフォーマットを有する請求項57に記載のシステム。
  77. 前記サンプル記録は、ゲノム配列を含む請求項57に記載のシステム。
  78. 前記マッチングスコアは、同一性比率値を含む請求項57に記載のシステム。
  79. 前記マッチングスコアは、同じ哺乳動物から得られた以前のサンプルの少なくとも一つに対するマッチング値、人種グループに特徴的な特異体質性マーカプロファイルに対するマッチング値、年齢グループに特徴的な特異体質性マーカプロファイルに対するマッチング値、および、ある疾患に特徴的な特異体質性マーカプロファイルに対するマッチング値を含む請求項57に記載のシステム。
  80. 前記哺乳動物の前記標的組織の前記ゲノム配列は、前記哺乳動物の少なくとも1つの染色体をカバーする請求項57に記載のシステム。
  81. 個人の性別を判定するためにゲノム情報を分析する方法であって、以下の工程、
    前記個人に対するゲノム配列を格納する配列データベースに分析エンジンを接続する工程、
    前記分析エンジンによって、少なくとも1つのX染色体上に位置する複数の対立遺伝子に対する接合性を判定して前記対立遺伝子に対する接合性プロファイルを作成する工程、
    前記分析エンジンによって、前記複数の対立遺伝子に対して前記接合性プロファイルを使用して性別判定を導出する工程、そして
    前記ゲノム情報を、前記性別判定によって注釈付けする工程、を有する方法。
  82. 前記接合性は、更に、Y染色体上の少なくとも1つの他の対立遺伝子に関して判定される請求項81に記載の方法。
  83. 前記判定は、性染色体の異数性の判定も含む請求項81に記載の方法。
JP2017531989A 2014-09-05 2015-09-04 起源の判定のためのシステムと方法 Withdrawn JP2017532699A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462046737P 2014-09-05 2014-09-05
US62/046,737 2014-09-05
PCT/US2015/048690 WO2016037134A1 (en) 2014-09-05 2015-09-04 Systems and methods for determination of provenance

Publications (2)

Publication Number Publication Date
JP2017532699A true JP2017532699A (ja) 2017-11-02
JP2017532699A5 JP2017532699A5 (ja) 2018-02-08

Family

ID=55437733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017531989A Withdrawn JP2017532699A (ja) 2014-09-05 2015-09-04 起源の判定のためのシステムと方法

Country Status (8)

Country Link
US (1) US20160070855A1 (ja)
EP (1) EP3189457A4 (ja)
JP (1) JP2017532699A (ja)
KR (1) KR20170126846A (ja)
CN (1) CN107735787A (ja)
AU (1) AU2015311677A1 (ja)
CA (1) CA2963785A1 (ja)
WO (1) WO2016037134A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US10445099B2 (en) 2016-04-19 2019-10-15 Xiaolin Wang Reconfigurable microprocessor hardware architecture
SG11201908893UA (en) * 2017-03-29 2019-10-30 Nantomics Llc Signature-hash for multi-sequence files

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004516455A (ja) * 2000-07-21 2004-06-03 アプレラ コーポレイション 生物学的データを評価するための方法、システム、および製品
US20040175700A1 (en) * 2002-05-15 2004-09-09 Elixir Pharmaceuticals, Inc. Method for cohort selection
KR20110021095A (ko) * 2009-08-25 2011-03-04 울산대학교 산학협력단 성별 판별 및/또는 개체 식별용 snp 마커
US20110311998A1 (en) * 2009-02-20 2011-12-22 Gang Zeng A+ Biomarker Assays
US20120021427A1 (en) * 2009-05-06 2012-01-26 Ibis Bioscience, Inc Methods For Rapid Forensic DNA Analysis
JP2013511989A (ja) * 2009-11-25 2013-04-11 ライフ テクノロジーズ コーポレーション アレリックラダー遺伝子座
WO2013067001A1 (en) * 2011-10-31 2013-05-10 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US20130178376A1 (en) * 2010-08-06 2013-07-11 Rutgers, The State University Of New Jersey Compositions and Methods for High-Throughput Nucleic Acid Analysis and Quality Control
WO2014085826A2 (en) * 2012-11-30 2014-06-05 Applied Proteomics, Inc. Method for evaluation of presence of or risk of colon tumors

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040101903A1 (en) * 2002-11-27 2004-05-27 International Business Machines Corporation Method and apparatus for sequence annotation
US8271201B2 (en) 2006-08-11 2012-09-18 University Of Tennesee Research Foundation Methods of associating an unknown biological specimen with a family
US8069044B1 (en) * 2007-03-16 2011-11-29 Adobe Systems Incorporated Content matching using phoneme comparison and scoring
US8637655B2 (en) * 2009-08-13 2014-01-28 Life Technologies Corporation Amelogenin SNP on chromosome X
US9646134B2 (en) * 2010-05-25 2017-05-09 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
CN101894211B (zh) * 2010-06-30 2012-08-22 深圳华大基因科技有限公司 一种基因注释方法和系统
JP6420543B2 (ja) * 2011-01-19 2018-11-07 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ゲノムデータ処理方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004516455A (ja) * 2000-07-21 2004-06-03 アプレラ コーポレイション 生物学的データを評価するための方法、システム、および製品
US20040175700A1 (en) * 2002-05-15 2004-09-09 Elixir Pharmaceuticals, Inc. Method for cohort selection
US20110311998A1 (en) * 2009-02-20 2011-12-22 Gang Zeng A+ Biomarker Assays
US20120021427A1 (en) * 2009-05-06 2012-01-26 Ibis Bioscience, Inc Methods For Rapid Forensic DNA Analysis
KR20110021095A (ko) * 2009-08-25 2011-03-04 울산대학교 산학협력단 성별 판별 및/또는 개체 식별용 snp 마커
JP2013511989A (ja) * 2009-11-25 2013-04-11 ライフ テクノロジーズ コーポレーション アレリックラダー遺伝子座
US20130178376A1 (en) * 2010-08-06 2013-07-11 Rutgers, The State University Of New Jersey Compositions and Methods for High-Throughput Nucleic Acid Analysis and Quality Control
WO2013067001A1 (en) * 2011-10-31 2013-05-10 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
WO2014085826A2 (en) * 2012-11-30 2014-06-05 Applied Proteomics, Inc. Method for evaluation of presence of or risk of colon tumors

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
平成20年 警察白書, JPN6018050303, 2008, JP, pages 33, ISSN: 0004254224 *

Also Published As

Publication number Publication date
US20160070855A1 (en) 2016-03-10
EP3189457A1 (en) 2017-07-12
AU2015311677A1 (en) 2017-04-27
KR20170126846A (ko) 2017-11-20
WO2016037134A1 (en) 2016-03-10
CN107735787A (zh) 2018-02-23
EP3189457A4 (en) 2018-04-11
CA2963785A1 (en) 2016-03-10

Similar Documents

Publication Publication Date Title
Clark et al. Recurrent somatic mutations in POLR2A define a distinct subset of meningiomas
Evrony et al. Resolving rates of mutation in the brain using single-neuron genomics
Niu et al. MSIsensor: microsatellite instability detection using paired tumor-normal sequence data
DK2823062T5 (en) SIZE-BASED ANALYSIS OF Fetal DNA FRACTION IN MOTHER PLASMA
Pavlicev et al. Detecting endogenous retrovirus-driven tissue-specific gene transcription
Alkodsi et al. Comparative analysis of methods for identifying somatic copy number alterations from deep sequencing data
JP2019531700A5 (ja)
KR101945093B1 (ko) 다중 종양 및 생식세포 유전자 엑솜에 걸친 분자 프로파일의 종합 분석을 위한 시스템 및 방법
Margulies et al. Identification and prevention of a GC content bias in SAGE libraries
CN105378110A (zh) 与癌症相关的基因融合体和基因变异体
Sun et al. A comprehensive evaluation of alignment software for reduced representation bisulfite sequencing data
Lange et al. Analysis pipelines for cancer genome sequencing in mice
US20190121937A1 (en) Systems and Methods For RNA Analysis In Functional Confirmation Of Cancer Mutations
JP2017532699A (ja) 起源の判定のためのシステムと方法
Kroon et al. Detecting dispersed duplications in high-throughput sequencing data using a database-free approach
WO2019242445A1 (zh) 病原体操作组的检测方法、装置、计算机设备和存储介质
Fortier et al. Detection of CNVs in NGS data using VS-CNV
US20180106806A1 (en) Tumor Analytical Methods
Hiemenz et al. Building a robust tumor profiling program: synergy between next-generation sequencing and targeted single-gene testing
US20200104285A1 (en) Signature-hash for multi-sequence files
JP2020517304A (ja) Dna分析のためのオフターゲット配列の使用
Shen et al. FirstSV: Fast and Accurate Approach of Structural Variations Detection for Short DNA fragments
Lanzos Camaioni et al. Discovery of Cancer Driver Long Noncoding RNAs across 1112 Tumour Genomes: New Candidates and Distinguishing Features
Csernák et al. Application of Targeted Next-generation Sequencing, TruSeq Custom Amplicon Assay for Molecular Pathology Diagnostics on Formalin-fixed and Paraffin-embedded Samples.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191120

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200421

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20200514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200811