JP6533011B2 - 高正確度変異体コールのためのシステムおよび方法 - Google Patents

高正確度変異体コールのためのシステムおよび方法 Download PDF

Info

Publication number
JP6533011B2
JP6533011B2 JP2018510056A JP2018510056A JP6533011B2 JP 6533011 B2 JP6533011 B2 JP 6533011B2 JP 2018510056 A JP2018510056 A JP 2018510056A JP 2018510056 A JP2018510056 A JP 2018510056A JP 6533011 B2 JP6533011 B2 JP 6533011B2
Authority
JP
Japan
Prior art keywords
hla
patient
allele
alleles
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018510056A
Other languages
English (en)
Other versions
JP2018533111A (ja
Inventor
ザキャリー サンボーン,ジョン
ザキャリー サンボーン,ジョン
Original Assignee
ナントミクス,エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ナントミクス,エルエルシー filed Critical ナントミクス,エルエルシー
Publication of JP2018533111A publication Critical patent/JP2018533111A/ja
Application granted granted Critical
Publication of JP6533011B2 publication Critical patent/JP6533011B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physiology (AREA)
  • Ecology (AREA)
  • Biochemistry (AREA)
  • Library & Information Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

本出願は、2015年8月25日出願の米国仮出願第62/209,858号に対する優先権を主張する。
本発明の分野は、ヌクレオチド配列のインシリコ解析のシステムおよび方法であり、特にSNP、マルチヌクレオチド変異体、インデル、構造変異体、およびHLAタイピングの高正確度コールに関する。
本背景技術の記載は、本発明を理解に役立ち得る情報を含む。本明細書で提供する情報のいずれかが従来技術であるもしくは現在主張している発明に関連していること、または具体的もしくは黙示的に参照されたいずれの刊行物が従来技術であることを認めるものではない。
本明細書のすべての刊行物および特許出願は、それぞれ個々の刊行物または特許出願が参照により具体的におよび個別に組み入れられた場合と同程度に、参照により組み入れられる。組み入れられた参考文献における用語の定義または使用が本明細書に示すその用語の定義と一致しないまたは相反する場合、本明細書に示すその用語の定義が適用され、参考文献でのその用語の定義は適用されないものとする。
配列リード中の小さい変化に起因して正しく整列されないことが多く、変異体情報の不正確さまたは消失のいずれかを引き起こす、関連が高いゲノム配列セグメントを正確にアライメントするために、ハイスループットシーケンシングデータについての変異体検出は、ますます重要になってきた。関連が高い配列のアライメントを改善するためにいくつかの試みが行われてきた。例えば、「Platypus」(The Wellcome Trust Centre for Human Genetics)は、ハイスループットシーケンシングデータ中の比較的効率的で正確な変異体検出のために設計されたツールである。リードのローカルリアライメントおよびローカルアセンブリーを用いることにより、Platypusは、数kbまでのSNP、MNP、短いインデル、置換および欠失の検出のための比較的高い感受性と高い特異性を達成する。Platypusは従来のアライメントシステムとしてより正確であることが多いが、それにもかかわらず種々の問題点が残されている。特に、全ゲノムをカバーするゲノムデータの処理は問題であなり、類似度が高い複数の配列が存在する場合、所望の正確度に満たないこともある。同様に、DISCOVAR(Broad Institute)は、配列を構築し変異体を識別するための比較的正確なツールである。しかし、DISCOVARは概して大量のデータ量の処理に適していない。
別の手法において、Big Genomics Inference Engine(BIGGIE;Bioinformatics,vol.25,pp.2078−9,2009)では、最初にゲノムを複雑性が高い領域と低い領域に分類し、続いてそれに応じて情報資源を割り当てることによって、処理速度が上昇する。そのような手法は計算資源に対する要求を減少させる傾向があるが、複雑性が低い領域で変異が起こる場合、変異体コールはそれほど好ましくないことが多い。加えて、次世代のシーケンシングデータのための既知の変異体コーラーの大部分は、変異体を検出しその信頼度を評価するために、確率的フレームワーク(例えば、Bayesian Statisticsを使用する)を利用する。そのような手法は、通常、十分に機能するが、種々の因子、例えば高度のリード深度、プールサンプル、および混入サンプルまたは不純サンプルは、解析を混乱させる傾向がある。そのような問題を解決するために、VarScan(Genome Res.2012 22:568−576)は、ヒューリスティク/統計的手法を利用して、リード深度、塩基品質、変異体対立遺伝子頻度、および統計的有意性の所望の閾値を満たす変異体コールを行なう。しかし、そのような手法は、通常、単一リードが及ばないゲノム中のより大きな変化を識別しない。
さらなる既知の方法では、DeBruijnカラーグラフは、比較的長いk−mer(例えばkは少なくとも55)と、グラフを暗黙にコードするハッシュテーブルとを使用して(Nat Genet.2012;44(2):226−232)シーケンシングデータから作成される。しかし、単離されたSNP、短いインデル(1〜100bp)およびSNPとインデル(1〜100bp)の小複合体の組み合わせの場合、わずか80%の検出力でヘテロ接合部位を検出し、90%の検出力でホモ接合変異体部位を検出したことを著者らは報告した。さらに、中等度のサイズ(100〜1000bp)のインデルと複合体変異体の場合、ヘテロ接合部位とホモ接合部位に対する検出力はそれぞれ50%と75〜80%であり、大きな変異体(1〜50kb)の場合、わずかな検出力(35%)でホモ接合変異体部位を検出したことを著者らは報告した。したがって、記載のようにDeBruijnカラーグラフは、SNPおよびインデルの解析を少なくともある程度まで容易にするが、正確度と検出力は望ましいものより低い。したがって、その手法の主要な強さは複数のゲノムの同時解析にあり、それは参照ゲノムを必要とせずに変異体検出への強力で正確な手法を可能にする。
このように、変異体コールのための多数のシステムおよび方法が当技術分野で既知であるが、正確度の高い変異体コールのため、特にインシリコHLAタイピングに関するシステムおよび方法の改善の必要性が依然として存在する。
本発明の主題は、患者の配列データからの正確度の高い変異体コールのための種々のシステム、方法および装置に関し、特にシーケンシング装置からのDNAおよび/またはRNA配列を使用するHLAタイピングを対象とする。特に好ましい態様において、複数のHLA対立遺伝子を含む患者配列リードおよび参照配列は、De Bruijnグラフ手法で処理される。各患者配列リードは種々の対立遺伝子に対する重み付き投票を提供し、各対立遺伝子に対する投票総数を次いで使用して対立遺伝子のランクを付ける。ランク付けにおける最上の対立遺伝子が第1のHLA型であり、第1のHLA型にマッチするk−merに対するバイアスを伴う残りの対立遺伝子の再ランク付けが次いで第2のHLA型を与える。
本発明の主題の一態様において、本発明者は患者についてHLA型をインシリコ予測する方法を検討し、方法では、既知のおよび異なるHLA対立遺伝子の複数の配列を含む参照配列を提供し、および複数の患者配列リードを提供し、ここで患者配列リードの少なくともいくつかは患者特異的HLAをコードする配列を含む。さらなるステップにおいて、患者配列リードは複数のk−merのそれぞれのセットへと分解され、参照配列および複数のk−merのそれぞれのセットを使用して複合de Bruijnグラフが次いで作成される。既知のおよび異なるHLA対立遺伝子のそれぞれが、複数の患者配列リードのそれぞれの投票から算出される複合マッチスコアを使用してランク付けられることがさらに考えられ、ここで各投票は、既知のおよび異なるHLA対立遺伝子中の対応するセグメントにマッチするk−merを使用する。
最も一般的に、参照配列は少なくとも1%の対立遺伝子頻度を有する少なくとも1つのHLA型についての対立遺伝子を含み、または参照配列は少なくとも1つのHLA型について少なくもとも10の異なる対立遺伝子、および/もしくは少なくとも2つの異なるHLA型についての対立遺伝子を含む。HLA型に関して、適切なHLA型はHLA−A型、HLA−B型、HLA−C型、HLA−DRB−1型、および/またはHLA−DQB−1型を含むことが考えられる。
患者配列リードは、複数のDNAシーケンシングリードおよびRNAシーケンシングリードの少なくとも1つを一般的に含み、染色体6p21.3に一般的に位置する。最も一般的には、患者配列リードは次世代シーケンシングリードであり、メタデータをさらに含み、および/または50塩基と250塩基の間の長さである。k−merに関して、好ましいk−merは10〜20の長さであり、および/または患者配列リード長の5%と15%の間の長さであることが考えられる。本発明の主題に限定されないが、複合マッチスコアは複数の患者配列リードからのすべての投票の合計であることが一般に好ましく、ここで投票は一般的に患者配列リード当たりのk−merの合計数に対するマッチングk−merの割合を表す値である。
したがって、複合マッチスコアを使用して、意図される方法は、患者の第1のHLA型として最上位HLA対立遺伝子を識別するステップを含み得る。所望される場合、調節された複合マッチスコアを使用して残りの非最上位の既知のおよび異なるHLA対立遺伝子を再ランク付けする追加のステップを実行して、患者の第2のHLA型として調節された最上位HLA対立遺伝子を識別し得る。最も一般的に、調節された複合マッチスコアは複数の患者配列リードのそれぞれの調節された投票から算出されてよく、および調節された投票は第1のHLA型にマッチするk−merの重みを切り下げることによって算出されてよい。
上記を考慮して、本発明者は、したがって、患者についてHLA型をインシリコン予測するためのコンピュータシステムも検討する。異なる観点から見て、本発明者はまた、参照配列データベースおよび患者配列データソースが解析エンジンに情報的に連結されるコンピュータシステムに実行させるプログラム命令を含む非一時的なコンピュータ可読媒体も検討する。適切な参照配列、患者配列リード、HLA型、k−mer、複合マッチスコア、および追加の再ランク付けステップに関して、上記と同じ考慮が適用される。
発明の主題の種々の目的、特徴、態様および利点は、同様の符号は同様の構成成分を表す添付の図面に加えて、以下の発明を実施するための形態からさらに明らかになる。
本発明の主題による1つの例示的な方法の概念図である。 本発明の主題による1つの例示的なコンピュータシステムの概念図である。
本発明者は、既知の配列情報を有する参照配列、および統計解析とヒューリスティク解析と組み合わせてde Bruijnグラフに基づく方法を使用して配列が処理される手法において、種々の密接に関連している配列の高度に正確なアライメントが容易に達成できることを見いだした。各HLA型は多数のしばしば極めて類似した対立遺伝子を有するため、および配列が高い類似度を有する場合に従来のアライメント方法は有意な分別能を有することが一般的にできないので、そのような解析は、DNAおよび/またはRNAシーケンシング情報からHLAを決定するために、特に有利である。
本発明の主題の1つの例示的な態様において、染色体6p21.3(またはそこで/あるいはその近くでHLA対立遺伝子が見いだされるいずれかの他の位置)に位置する比較的多数の患者配列リードは、データベースまたはシーケンシング装置によって提供される。最も一般的に、配列リードは約100〜300塩基の長さであり、リード品質、アライメント情報、配向、位置などを包含するメタデータを含む。例えば、適切な形式としては、SAM、BAM、FASTA、GARなどが挙げられる。本発明の主題に限定されないが、患者配列リードは少なくとも5×、より一般的に少なくとも10×、より一般的に少なくとも20×、最も一般的に少なくとも30×の深度カバレッジを提供することが一般に好ましい。
患者配列リードに加えて、意図される方法は、複数の既知のおよび異なるHLA対立遺伝子の複数の配列を含む1または複数の参照配列をさらに利用する。例えば、一般的な参照配列は、そのHLA型の複数のHLA対立遺伝子を有する少なくとも1つのHLA型の配列セグメントを含む合成の(ヒトまたは他の哺乳類対応物に対応しない)配列であり得る。例えば、適切な参照配列は、HLA−Aの少なくとも50の異なる対立遺伝子に関する既知のゲノム配列の一群を含む。または、あるいはさらに、参照配列はHLA−Aの少なくとも50の異なる対立遺伝子に関する既知のRNA配列の一群も含む。もちろん、以下に詳述するように、参照配列はHLA−Aの50の対立遺伝子に限定されないが、HLA型および対立遺伝子の数/組成に関して代替の組成を有することもある。最も一般的に、参照配列はコンピュータ可読形式であり、データベースまたは他のデータ記憶装置から提供される。例えば、適切な参照配列形式としては、FASTA、FASTQ、EMBL、GCG、またはGenBank形式が挙げられ、公開データリポジトリ(例えば、IMGT、International ImMunoGeneTics情報システム、またはThe Allele Frequency Net Database,EUROSTAM,www.allelefrequencies.net)のデータから直接取得するまたは構築することができる。または、参照配列は、対立遺伝子頻度、対立遺伝子頻度、民族別対立遺伝子分布、一般的なまたはまれな対立遺伝子型などの1または複数の所定の基準に基づいて、個々の既知のHLA対立遺伝子から構築されてもよい。
参照配列を使用して、患者配列リードは、現在、de Bruijnグラフを通して、最良の適合で対立遺伝子を識別できる。この文脈において、各個人がHLA型について2つの対立遺伝子を保有し、これらの対立遺伝子は極めて類似している、または場合によって同一さえあり得ることに留意する必要がある。そのような高類似度は、従来のアライメントスキームに関して重大な問題を提起する。本発明者は、現在、HLA対立遺伝子、および極めて密接に関連している対立遺伝子さえ、配列リードを比較的小さいk−mer(一般的に10〜20塩基の長さを有する)へと分解することにより、および各患者配列リードが対立遺伝子の配列にマッチするその配列リードのk−merに基づいてそれぞれの対立遺伝子についての投票(「定量的リードサポート」)を提供する重み付き投票処理を実行することによりde Bruijnグラフが構築される手法を使用して、解決され得ることを見いだした。対立遺伝子についての累積的に最も高い投票は次いで、最も高い可能性で予測されるHLA対立遺伝子を示す。加えて、以下でまた詳細に示すように、対立遺伝子にマッチする各フラグメントも用いて全体のカバレッジおよびその対立遺伝子のカバレッジ深度を算出することが一般に好ましい。
同じHLA型についての第2の対立遺伝子の識別に関して、本発明者は、比較的類似した第2の対立遺伝子でさえ、最上位HLA対立遺伝子をさらなる考慮から外し、および残りの対立遺伝子を調節された(「スケーリングされた」)投票を使用して再ランク付ける、よりヒューリスティックな手法で分離できることを見いだした。より具体的には、最上位対立遺伝子とマッチしたk−merの投票値が再ランク付け投票で減少するように再ランク付けが行われる。そのような調節された投票は、最上位対立遺伝子に類似する遺伝子型の重み付け投票を減少させ(しかし削除しない)、したがって遺伝的により関連の少ない対立遺伝子により重みを置く。同時に、類似の対立遺伝子は、無視されない。ランク付けは、全体のカバレッジおよびカバレッジ深度を考慮に入れることによって、さらに改善される。例えば、第1の再ランク付け対立遺伝子は、実質的に低い全体的なカバレッジおよびカバレッジ深度で第2の再ランク付け対立遺伝子よりも高いスコアになり得る。このような場合、第2の再ランク付け対立遺伝子が正しい対立遺伝子である可能性が高い。それゆえ、最上位の再ランク付け対立遺伝子は、同じHLA型の第2の対立遺伝子である。もちろん、上述のように、再ランク付けは全体的なカバレッジおよびカバレッジ深度を考慮に入れることができ、全体的なカバレッジおよび/またはカバレッジ深度が、ユーザが規定する閾値(例えば、94%未満の全体的なカバレッジ、および/または10×未満のカバレッジ深度)を下回るような、対立遺伝子の不適合をもたらすこともあり得る。加えて、投票としてマッチするk−merを使用することで、特定の投票でのユニークなk−merの識別が可能になり、これはその特定の投票が正しい予測でありそうか、そうでないかのさらなるガイダンスとして役立ち得る。下記の表1は、de Bruijnグラフ手法と、1000 the Genomes Project (IGSR: The International Genome Sample Resource)からの単一ゲノム(YRI)とを使用する、種々のHLA型(HLA−A、HLA−B、HLA−C、DRB1、DQB1)の対立遺伝子の例示的な予測を示す。
Figure 0006533011
例示的な解析から容易に分かるように、各型の最上位HLA対立遺伝子は容易に区別され、特に重み付けスコアが観察される場合、同じHLA型において第2のランク付け対立遺伝子は残りの対立遺伝子と実質的に異なっている。HLA型の第1と第2のHLA対立遺伝子の選択もまた、有意に高いカバレッジ深度によって、ある程度のカバレッジまで十分にサポートされている。%ユニークなk−mer(最上位と比較して)もまた、本明細書に示すシステムおよび方法の類似性および識別性の良好な指標を提供することも認識すべきである。
もちろん、解析およびHLA予測が上記の特定のHLA型に限定される必要はないが、HLA−E、HLA−F、HLA−G、HLA−H、HLA−J、HLA−K、HLA−L、HLA−V、HLA−DQA1、HLA−DMA、HLA−DMB、HLA−DOA、HLA−DOB、HLA−DPA1、HLA−DPB1、HLA−DRA、HLA−DRB345、HLA−MICA、HLA−MICB、HLA−TAP1、HLA−TAP2、およびさらに新たに発見されるHLA型ならびにそれらの対応する対立遺伝子を含む、すべてのHLA型と対立遺伝子変異体が本明細書で検討されることを認識すべきである。さらに、解析が単一HLA型に限定される必要はないが、複数のHLA型が本明細書での使用に適していることを認識すべきである。したがって、それぞれのHLA型についての対立遺伝子の一群とともに、参照配列は2、3、4、またはより多くのHLA型を含み得る。各HLA型はかなりの数の対立遺伝子を有するので、既知の対立遺伝子のすべてを参照配列に包含する必要はないと考えられる。例えば、参照配列は、特定の閾値を上回る対立遺伝子頻度、例えば、少なくとも0.1%、もしくは少なくとも0.5%、もしくは少なくとも1%、もしくは少なくとも2%、もしくは少なくとも5%の対立遺伝子頻度を有する対立遺伝子を含み得る。したがって、異なる観点から見て、適切な参照配列は、少なくとも1つのHLA型について少なくとも10、もしくは少なくとも30、もしくは少なくとも50、もしくは少なくとも100、もしくは少なくとも200もしくは少なくとも500、またはさらに多くの対立遺伝子を含み得る。
同様に、患者配列リードの性質および型がかなり変化し得ることを認識すべきである。
例えば、検討される患者配列リードはDNA配列とRNA配列を含み、それぞれの配列は当技術分野で既知のすべての方法を使用して取得できる。さらに、そのような配列リードは、データ記憶装置(例えばデータベース)から、またはシーケンシング装置から提供され得る。例えば、DNA配列リードはNGSシーケンシング装置から導き出され、RNA配列はrtPCRシーケンシング装置から導き出され得る。したがって、患者配列リードの長さは、一般的に20塩基超、より一般的に50塩基超、最も一般的に100塩基超であるが、通常は5,000塩基未満、もしくは3,000塩基未満、もしくは1,000塩基未満である。したがって、検討される患者配列リードは、100塩基と500塩基の間または150塩基と1,000塩基の間の長さであり得る。
計算時間とデータ記憶および/または必要メモリを減らすために、患者配列リードをHLA型遺伝子が位置するゲノム領域にあらかじめ選択しておくことがさらに好ましい。例えば、染色体6p21.3に位置する患者配列リードが特に検討される。同様に、患者配列リードはまた、HLA対立遺伝子座が知られているゲノムに対してありそうな位置を示す1または複数のアノテーションに基づいて選択され得る。代替方法として、アノテーションはまた、HLA対立遺伝子であるという配列の可能性を直接参照することもできる。
患者配列リードの長さに関係なく、患者配列リードが比較的短い長さのk−merに分解されることが一般に好ましく、特に好ましい長さは一般的に10と30の間である。注目すべきことに、そのような短いk−merの長さは、特にそのようなk−merを含有するフラグメントについての重み付き投票のために、変異体コールにおいてより高度な分解能と正確度を可能にする。したがって、k−mer長は一般的に10〜30の間、もしくは15〜35の間、もしくは20〜40の間である。異なる観点から見て、k−merは、好ましくは60未満の、より好ましくは50未満の、最も好ましくは40未満の、しかし5より長い、より一般的に8より長い、および最も一般的に10より長い長さを有する。例えば、適切なk−merは、したがって、患者配列リードの長さの5%と15%の間の長さである。
ランク付けおよび複合マッチスコアに関して、最も好ましい態様においてマッチスコアが患者配列リード中に存在するすべてのk−merに基づいて作成され、および各投票(すなわち、マッチング)k−merが同じ投票力を有することに留意する必要がある。その結果、患者配列リードは、参照配列中のそれぞれの対立遺伝子に対して特定の定量的リードサポートを有する。さらに、ほとんどの場合、ゲノム中の各位置は>1のシーケンシング深度を有し、および各患者配列リードは対立遺伝子の全長の一部分だけをカバーするので、各対立遺伝子は複数の患者配列リードから複数の投票を受け取ることができる。最も一般的に、対立遺伝子についての投票のすべては、その対立遺伝子の複合マッチスコアに達するように加えられる。それぞれの対立遺伝子の複合マッチスコアは次いで、ランク付けおよびさらなる解析のために使用される。
しかし、本発明の主題の別の態様において、複合スコアのスコアリングおよび算出は1または複数の特定の目的を達成するように修正されてもよいことに留意する必要がある。例えば、あるフラグメントのマッチスコアは、マッチングk−merのすべてから算出される必要はないが、k−merの無作為な数または選択だけを計数できる。一方では、完全なマッチに満たないk−mer(例えば14/15マッチング)は、おそらく投票重みが低い投票権を与えられる。同様に、特にメタデータが利用できる場合、投票重みは、k−merに対して減少されてよく、および/またはリード品質が特定の閾値を下回る場合は患者配列リードに対して軽減されてよい。一方では、低いシーケンシング深度が存在する場合、投票は特定のフラグメントに対して多すぎることがあり得る。さらに別の意図される態様において、特にリード深度が比較的高い(例えば、少なくとも15×、もしくは少なくとも20×、もしくは少なくとも30×)場合、同じ位置に対する患者配列リードは投票に基づいて除外され得る、または含まれ得る。したがって、複合マッチスコアは、利用できる投票のすべてに基づいてもよく、または対立遺伝子について利用できる投票の一部分のみに基づいてもよい。
ランク付けは累積のマッチスコアに一般的に依存するが、ランク付けは少なくとも1つの因子を使用して補正され得ることも認識すべきである。そのような補正因子としては、カバーされる割合、シーケンシング深度、ユニークなk−merの量、および利用できるフラグメントのメタデータが挙げられる。例えば、投票重みは、対立遺伝子のカバレッジが所定の閾値を下回る(例えば、96%未満、もしくは94%未満、もしくは92%未満など)場合および/またはシーケンシング深度が所定の閾値を下回る(例えば、15×未満、もしくは12×未満、もしくは10×未満など)場合、対立遺伝子について軽減され得る。一方では、投票重みは、例えば、ユニークなk−merのパーセンテージが所定の閾値を上回る(例えば、2%超、もしくは5%超、もしくは10%超)場合、対立遺伝子について増加されてもよい。
最上位対立遺伝子は、一般的に所与のHLA型の第1の予測対立遺伝子であり、一方第2のランク付け対立遺伝子は、同じHLA型についての第2の対立遺伝子であり得る。しかし、最上位に続くランクの多くが類似の複合マッチスコアを有する場合(例えば、それのスコアのかなりの部分がk−merの高度に共有されるセットに由来する場合)特に、スコアリングは必要に応じてさらに改善または改良されてもよいことに留意する必要がある。好ましい一例において、スコア改良手法が実行されてよく、それは、最上位k−merとマッチした(完全に、または少なくとも90%、もしくは少なくとも95%、もしくは少なくとも97%、もしくは少なくとも99%の類似度のいずれかで)k−merの重みが補正因子によって軽減される再算出を含む。そのような補正因子は、任意の所定の量によって投票を低減できる。最も一般的に、補正因子は投票を10%、もしくは20〜40%、もしくは40〜60%、もしくはさらに低減させる。これは最上位対立形質と類似している遺伝子型についての重み付き投票を軽減する効果を有し、異なっている遺伝子型を相対的により重要にする。したがって、第1の対立遺伝子は、すべてのシーケンシングデータからの最高のサポートに基づいて識別され、一方第2の対立遺伝子は、第2の対立遺伝子がデータセット中にサポートを有する(例えば、高いスケーリングされた重み付き投票および遺伝子型カバレッジ)かどうか、またはゲノムが第1の遺伝子型についてホモ接合性であるか(例えば、高い未処理の重み付き投票、極めて低いスケーリングされた重み付き投票、適切なカバレッジを有する他の対立遺伝子がない)を決定するために、未処理の重み付き投票、スケーリングされた重み付き投票の両方と、カバレッジを使用する、よりヒューリスティックスに基づく手法で識別されることを認識すべきである。異なる観点から見て、再ランク付けは、最上位対立遺伝子と類似している対立遺伝子の存在下でも、第2の対立遺伝子のより正確な判別を有利に可能にする。さらに、そのような方法は、ホモ接合HLA型の迅速な識別も可能にする。加えて、そのような方法はハッシュテーブルの使用を必要とせず、配列リードをHLA型へと構築することなく適当なHLA対立遺伝子の識別を可能にすることを認識すべきである。さらに、意図されるシステムおよび方法は、DNAおよび/またはRNAデータの使用も可能にする。
意図される方法の一代表実施形態を、図1に例示的に示す。ここで、方法100はステップ110を含み、複数の既知のおよび異なるHLA対立遺伝子の配列を含む参照配列が提供される。ステップ120において、複数の患者配列リードが提供され、患者配列の少なくともいくつかは患者特異的HLAをコードする配列を包含し、一方ステップ130において、複数の患者配列リードは複数のk−merのそれぞれのセットに分解される(一般的に、各k−merは1塩基(またはそれほど好ましくないが2塩基、もしくは3塩基、もしくは4塩基)の増分で進む)。ステップ140において、deBruijnグラフは、参照配列と、複数のk−merのそれぞれのセットとを使用して作成され、およびステップ150において、既知のおよび異なるHLA対立遺伝子のそれぞれは、複数の患者配列リードのそれぞれの投票から算出される複合マッチスコアを使用してランク付けされ、ここで各投票は、既知のおよび異なるHLA対立遺伝子中の対応するセグメントとマッチするk−merを使用する。
そのような方法のための例示的なシステムを図2に示す。ここで、システム200は、参照配列データベース202(例えば、複数の既知のおよび異なるHLA対立遺伝子の配列を含む参照配列を格納するデータベースまたはファイル)を含み、ならびに患者配列データソース204(例えば、複数の患者配列リードを格納もしくは提供する配列データベースまたはシーケンシング装置であって、患者配列リードの少なくともいくつかは患者特異的HLAをコードする配列を含む)も含み、ここで両者はネットワーク206(例えば、LAN、WAN、イーサネット、インターネット)を介して解析エンジン208に情報的に連結されており、解析エンジンは、(i)複数の患者配列リードを複数のk−merのそれぞれのセットへと分解する;(ii)参照配列とk−merの複数のそれぞれのセットを使用して複合体de Bruijnグラフを作成する;および(iii)複数の患者配列リードのそれぞれの投票から算出される複合マッチスコアを使用して既知のおよび異なるHLA対立遺伝子のそれぞれのランク付けを行うようにプログラムされており、ここで各投票は既知のおよび異なるHLA対立遺伝子中の対応するセグメントとマッチするk−merを使用する。
コンピュータに向けられるいずれかの言語は、サーバ、インターフェイス、システム、データベース、エージェント、ピア、エンンジン、コントローラ、または個々にもしくは集合的に作動する他の種類の計算装置を包含する、計算装置の任意の適切な組み合わせを含むように読み取られる必要があることに留意すべきである。計算装置が有形の、非一時的なコンピュータ可読記憶媒体(例えば、ハードドライブ、ソリッドステートドライブ、RAM、フラッシュ、ROMなど)に格納されるソフトウェア命令を実行するように構成されるプロセッサを含むことを認識すべきである。ソフトウェア命令は、開示される装置に関して後述のとおり、役割、責任、または他の機能性を提供するように計算装置を好ましく構成する。特に好ましい実施形態において、種々のサーバ、システム、データベース、またはインターフェイスは、おそらくHTTP、HTTPS、AES、公開鍵/秘密鍵交換、ウェブサービスAPI、既知の金融取引プロトコル、または他の電子情報交換方法に基づく、標準化プロトコルまたはアルゴリズムを使用してデータを交換する。データ交換は好ましくは、パッケト交換ネットワーク、インターネット、LAN、WAN、VPN、または他の種類のパッケト交換ネットワーク上で行なわれる。
さらに、本明細書に提示されるシステムおよび方法は、従来のデータ形式および処理方式と比較して、de Bruijnグラフエレメントの構築およびランク付け(および重み付け)が正確度および速度を大幅に上昇させるので、コンピュータ機能を改善することに留意すべきである。さらに、本発明者によって解決される問題はバイオインフォマティクス分野に特異的であり、オミクス情報のコンピューティングなしでは存在さえしないことを認識されたい。最後に、解析エンジンによって実行されるタスクは、コンピュータシステムの支援なしに人の一生のうちに合理的に遂行され得ないことを認識すべきである。
上記から容易にわかるように、意図されるシステムおよび方法は、各HLA型に、第2位のスコアとして実質的により高く格付け/重み付けされる最上位スコアを提供する。したがって、De Bruijnグラフ型解析に基づき、HLA型は非常に高い正確度で予測され得ることを認識すべきである。さらに、本明細書に提示するシステムおよび方法は、種々の他のタスク、例えば、病原体変異体が参照配列の一部を形成する場合の病原体(例えば、HPVなどのウイルス病原体、マイコバクテリアなどの細菌性病原体、または熱帯熱マラリア原虫などの寄生性病原体)のタイピング、または腫瘍の多様性のタイピングなどにも適していることを認識すべきである。
本発明の主題のさらなる態様において、de Bruijnグラフに基づく意図されるシステムおよび方法を利用して、構造変異体を識別し分類することもできる。ここでは、参照および未処理のシーケンシングデータを2つのゲノム領域(例えば、推定上の構造的変異の両側、例えば、bcr−abl融合)から取得し、これを使用してグラフを構築する。バブルが次いで、境界参照エッジがユーザ定義の最小ゲノム距離を超えて分離されるようなまたは境界参照エッジが異なる染色体上に位置するような、可能な構造的変異として識別される。そのような手法はほとんどの場合、疑われる構造的変異についての先験的な位置の知識(参照エッジの位置は、構造的変異が疑われるゲノム中の正確な位置を提供する)を必要とするが、そのような知識は通常、境界での正確な配列の識別に役立たない。現在De Bruijnグラフ手法を使用することで、構造的変異のさらに多くの正確な再構築が可能になり、かつ分岐点近くのまたは分岐点内の何らかの新規の配列に役立つ。そのような方法は構造的変異(例えば、挿入、重複など)が同じ鎖上に位置する場合に機能するだけでなく、グラフの構築が算出された逆相補k−merの使用も含む場合に反転を識別するのにもまた同様に有用であることに留意すべきである。すでに前述したように、そのように識別された構造的変異は、続いてvcf形式または他の適切な形式で報告され得る。
例えば、腫瘍からの収集された配列情報はDe Bruijnカラーグラフで表わされ、そこではエッジが、k−merが見いだされる入力ソース(例えば、参照、正常サンプル、および/または腫瘍サンプル、様々な時期または年齢で採取されたサンプル、異なる患者または対象群由来のサンプルなど)を識別する「カラー」を有するk−mer(例えば、k=15)であり、および各エッジが隣接するエッジに連結される。もちろん、配列はDNA配列ならびにRNA配列であってよく、このことは発現された体細胞変異、RNA編集および選択的スプライシング(例えば、DNAとRNAが同じ組織に由来する場合)の識別を有利に可能にすることに留意すべきである。最も一般的には、本発明の主題の好ましい一態様において、ゲノム中にk−mer位置を保管するために第1のグラフが参照配列から構築される。好ましくは、必要とされる特定のタスクに応じて、k−merは3塩基と300塩基との間、より好ましくは10〜100塩基の長さを有する。例えば、インデル解析が所望される場合、k−mer長は20〜50の間(例えばk=30)であり得る。したがって、別の観点から見て、k−mer長は、配列リードの平均長の5%から15%の間であり得る。一旦第1のグラフが確立されると、ゲノムの所与の領域(マップされていないアンカーリードを含む)に位置する腫瘍のおよび正常な未処理シーケンシングデータからのk−merが加えられる。必要に応じて、そのための最大サポートがユーザ定義の特定の閾値(例えば、k=13の場合、閾値は8である)を下回る弱いエッジをグラフから剪定してリードを除去できる。そのような剪定は、配列予測/アライメントの正確度を一般的に高める。
de Bruijnグラフ(k=5)内の2つの隣接するエッジについてのデータ構造の例を後述する。
Edge0.配列 = ATATC
Edge0.外向き = [TATCG, TATCC]
Edge0.内向き = [TATAT]
Edge0.サポート = {‘参照’: 1, ‘腫瘍’: T0, ‘正常’: N0}
Edge0.quality_sum = {‘tumor’: TQ0, ‘normal’: NQ0}
Edge1.配列 = TATCG
Edge1.外向き = [ATCGG]
Edge1.内向き = [ATATC]
Edge1.support = {‘reference’: 0, ‘tumor’: T1, ‘normal’: N1}
Edge1.品質_sum = {‘腫瘍’: TQ1, ‘正常’: NQ1}
この例において、Edge0データ構造は、それらのkmer配列TATCGとTATCCによって定義される2つの外向きエッジを有し、配列の前者は、後のEdge1データ構造中に記載される。Edge1の内向きエッジはEdge0へ戻って連結する。上記のデータ構造に記載されるサポートは、シーケンシングデータ(「腫瘍」または「正常」)または参照ゲノム(「参照」)中にエッジ配列が見られた回数をまとめる。上記のエッジ中のサポートに基づいて、Edge0は参照ゲノム中にサポートを有するが、一方Edge1に連結される外向きエッジはサポートをもたない。これは、Edge1が非参照変異体の始まりであり得ることを示すが、その接続形態が真の変異体(例えば、SNVに起因する、または参照ゲノム中に存在するエッジに囲まれている小さい挿入/欠失に起因するde Bruijnグラフ中の「バブル」)または人為的変異体(例えば、ジャンクまたはランダムなシーケンシングデータに起因することもあり得る、参照ゲノム中のエッジに再連結しないグラフ中の「チップ」)と一致するかどうかを決定するために、後続のエッジのさらなる内観が必要である。「腫瘍」および「正常」シーケンシングデータ(例えばT0、N0、T1、およびN1)中のサポートのレベルに応じて、非参照変異体の体細胞のまたは生殖系列の分類が決定され得る。分類の1つの単純な方法では、変異体は、T1>0およびN1>0ならば生殖系列として、T1>0およびN1=0ならば体細胞として、またはT1=0およびN1>0ならばLOHとして分類されるが、ほとんどすべての実際の形では、体細胞または生殖系列の状態は、非参照変異体を記述するパス全体の概略分析(すなわち、非参照パス内の平均/最小/最大サポートおよびエッジの塩基品質)を介して決定される。
さらなるステップでは、そのように構築された複合グラフが次いで、腫瘍および参照が分岐する分岐点について解析される。各分岐について、深さ優先探索を使用して、参照に収束する腫瘍をもたらす腫瘍エッジを介するすべてのユニークなパスを識別し、これはde Bruijnグラフ中のバブルとして一般的に示される。ブレッドクラムを用いてループを回避できる。複合グラフが次いで、追加の配列で確立される。ここでは、一配列は、同じ患者のマッチする正常組織を表わすことがあり、そこから2つの他の配列、腫瘍DNAおよび腫瘍RNAを取得する。そのような例において、腫瘍DNAおよび腫瘍RNAは、同一である(これは必ずしもいつもそうとは限らない)。分岐点および収束点は、k−merを使用する配列情報での相違によって決定される。上述の通り、分岐の領域は、グラフ中で「バブル」を生成する。したがって、別の観点から見て、腫瘍配列は分岐点と再収束点の両方を有し得ることを認識すべきである。また留意すべきであるが、腫瘍DNAおよびRNAグラフは互いに同等であってよく、このことはDNAとその対応する転写物の配列同一性を示す。
各バブル解の終わりから統計解析を次いで利用して、最も可能性の高いアライメントおよび/または配列を識別できる。最も一般的な実施形態において、配列は単なる未処理配列リードではなくアノテーション付きのSAMまたはBAMファイルであるので、統計解析は各リードについてのメタベースに基づくリード特異的パラメータを含み得る。したがって、統計解析は、最大のサポート、k−merのマッピング/塩基品質、マッチした正常でのサポートなどを含み得る。結果として、参照配列を再構築するための参照エッジに沿ったバックトラッキングおよびゲノム中の位置の決定は、一般的にユーザ定義の基準(例えば、最小サポート>Xリード、正常での最大サポート<Yリードなど)を満たすグラフにおけるパスについて実行され得ることを認識すべきである。そのように構築された配列および/または構造を次いで使用して、特定の変異体を分類できる。好ましくは、変異体分類はvcf形式で提示されるが、他の形式も考えられる。
HLA予測を確証するために、3種の独立した既知の患者記録とサンプルを1000 Genome project(NA19238、NA19239およびNA19240)から取得し、次いで上述のようにHLA型を予測した。注目すべきことに、かつ予想外に、上述のようにDe Bruijnグラフ方法を使用するHLAの決定および予測は、以下の表2Aおよび2Bに見られるように、HLA−C(NA19238について)、DRB1(NA19239について)およびHLA−C(NA19240について)を除いてほぼ完全にマッチした。
Figure 0006533011
ここでは、不明瞭な数字を上記の対立遺伝子から除いた。例えば、予測がA04:02:01とA04:02:02の場合、最後の不明瞭な数字(ここでは01または02)を除き、したがって予測A04:02を得た。
予測されたHLA型と実験に基づいて決定されたHLA型(「真実」)との間の相違をさらに調査することにより、以下にさらに詳細に検討するように、NA19238とNA19239がNA19240の両親であった場合、実験に基づいて決定されたHLAは予想された遺伝パターンと一致しなかったことが驚くべきことに明らかになった。
18:01と決定される「真実」および予測されるC18:02に関して、これらの2つの対立遺伝子形態間にわずか一塩基の変化があることが注目される。特に、C18:01は、WGSデータ中にリードサポートがゼロであるCTGGTGTC(関連する配列部分のみ)の配列を有するが、C18:02はWGSデータ中にそれをサポートする33のリードがあるCTGGTGTC(関連する配列部分のみ)の配列を有する。このデータによれば、「真実」C18:01に対するサポートはないが、予測されるC18:02に対しては多数のサポートがある。
DRB113:01と決定される「真実」および予測されるDRB112:01に関して:NA19240は両親NA19238とNA19239の子供であることが注目される。子供は各親から各HLA型についての対立遺伝子を1つだけ受け継ぐので、真の対立遺伝子は単純な基本的メンデル遺伝から決定できる:
親1(NA19238): 16:02、 11:01
親2(NA19239): 13:01、 ? ←問題の対立遺伝子
子供(NA19240): 16:02、 12:01
上記からわかるように、子供は親1から16:02を受け継がなければならず、このことは対立遺伝子12:01が親2から来なければならないことを意味する。特に、「真実」は13:01として親2についての第2の対立遺伝子を記載するが、これは遺伝に基づくと不可能である。親2の予測される対立遺伝子は12:01である。しかし、これは、まさに遺伝に基づいて予想するものである。したがって、上記の例に基づいて、「不正確な」予測は、実際のところ「真実」における誤りに起因していた。このように、本明細書に示すHLA予測方法は、3つの個々のデータセットにおいて5つのHLAのそれぞれ異なるパネルにわたり100%の正確度を示した。上記の予測が平均的カバレッジのWGSサンプルを用いて行われたことを、さらに認識すべきである。本方法の正確度は、腫瘍によって発現される対立遺伝子の識別を可能にするRNS配列データを用いてさらにかなり改善され得る。これは、時には、DNAに存在する2つの対立遺伝子の1つだけであり得る。意図されるシステムおよび方法のさらなる有利な態様において、DNAもしくはRNA、またはDNAとRNAの両方の組み合わせを処理して高度に正確であるHLA予測を行うことができ、かつそれらを腫瘍または血液のDNAもしくはRNAから得ることができる。さらに、意図される方法は、26のすべてのHLA型についての予測を極めて迅速に(実行時間は一般的に5分未満)取得し、かつ新たに発見された、または極めてまれなHLA対立遺伝子が自明な方法で追加できる。最後に、集団に基づくヒューリスティクスは正確な結果を出すために必要とされないことに留意する必要がある。
したがって、本明細書に示すシステムおよび方法を用いて、ゲノム解析で明らかにされる異なるオブジェクトを確証または確認できることを認識すべきである。さらに、同じグラフでRNA情報を使用する場合、変異対立遺伝子発現を直ちに識別できる。さらに、上記の結果と考察に基づいて、システムおよび方法が、RNA−Seqを使用して遺伝子融合を、特に「実施可能な融合」(例えばBCR−ABL)または発癌遺伝子のアイソフォーム(例えばEGFRvIII)をコールできるであろうとも考えられる。
本明細書で用いる場合、文脈が明らかに指示しない限り、「に連結される」という用語は、直接連結(互いに連結される2つのエレメントが互いに接触する)および間接連結(少なくとも1つの追加のエレメントが2つのエレメント間に位置する)の両方を含むと意図される。したがって、「に連結される」および「と連結される」という用語は同義的に使用される。さらに、本明細書に開示される本発明の代替エレメントまたは実施形態のグループ化は、限定として解釈されるべきではない。各グループメンバーは、個別に、または本明細書に見られるグループの他のメンバーもしくは他のエレメントとの任意の組み合わせで参照され、または主張され得る。グループの1または複数のメンバーは、利便性および/または特許性の理由から、グループに包含され、もしくはグループから削除され得る。そのような包含または削除が行なわれた場合、本明細書は、修正されたグループを含み、したがって、添付の特許請求の範囲に使用されるすべてのマーカッシュグループの記載を満たすと本明細書ではみなされる。
すでに記述されているものの他にさらに多くの修正が本明細書の発明概念を逸脱しない範囲で可能であることは当業者にとって明らかである。したがって、本発明の主題は、添付の特許請求の範囲を除いて限定されるべきではない。さらに、本明細書および特許請求の範囲の両方を解釈する際に、すべての用語は、文脈と一致する最も広い可能な方法で解釈されなければならない。特に、「含む」および「含んでいる」という用語は、エレメント、成分、またはステップを参照して、非排他的方法で解釈すべきであり、言及するエレメント、成分、またはステップが、明白に参照していない他のエレメント、成分、またはステップとともに存在し、もしくは利用され、もしくは組み合わされてもよいことを指示している。本明細書、特許請求の範囲がA、B、C....、およびNからなる群から選択されるもののうちの少なくとも1つを指す場合、本文は、A+NまたはB+Nなどではないその群からの唯一のエレメントを要求していると解釈すべきである。

Claims (32)

  1. 患者についてHLA型をインシリコ予測する方法であって、
    複数の既知のおよび異なるHLA対立遺伝子の配列を含む参照配列を提供すること;
    複数の患者配列リードを提供することであって、前記患者配列リードの少なくともいくつかが患者特異的HLAをコードする配列を含む、複数の患者配列リードを提供すること;
    前記複数の患者配列リードを複数のk−merのそれぞれのセットへと分解すること;
    前記参照配列および前記複数のk−merのそれぞれのセットを用いてde Bruijnグラフを作成すること
    1つの対立遺伝子についてのそれぞれの投票を全て加えることによって前記1つの対立遺伝子に対する前記複数の患者配列リードのそれぞれの投票から算出される複合マッチスコアを使用して前記既知のおよび異なるHLA対立遺伝子のそれぞれをランク付けることであって、各投票が前記既知のおよび異なるHLA対立遺伝子中の対応するセグメントにマッチするk−merを使用する、前記既知のおよび異なるHLA対立遺伝子のそれぞれをランク付けること;
    最上位HLA対立遺伝子を前記患者の第1の対立遺伝子のHLA型として識別すること;および
    調節された最上位HLA対立遺伝子を前記患者の第2の対立遺伝子のHLA型として識別するために、調節された複合マッチスコアを使用して残りの非最上位の既知のおよび異なるHLA対立遺伝子を再びランク付けること;
    を含
    前記調節された複合マッチスコアは、第1のHLA対立遺伝子とマッチするk−merの重みを削除するのではなく減少させることによって算出される、
    方法。
  2. 前記参照配列が、少なくとも1%の対立遺伝子頻度を有する少なくとも1つのHLA型についての対立遺伝子を含む、請求項1に記載の方法。
  3. 前記参照配列が、少なくとも1つのHLA型についての少なくとも10の異なる対立遺伝子を含む、請求項1に記載の方法。
  4. 前記参照配列が、少なくとも2つの異なるHLA型についての対立遺伝子を含む、請求項1に記載の方法。
  5. 前記HLA型が、HLA−A型、HLA−B型、HLA−C型、HLA−DRB−1型、および/またはHLA−DQB−1型である、請求項1に記載の方法。
  6. 前記複数の患者配列リードが、複数のDNAシーケンシングリードとRNAシーケンシングリードの少なくとも1つを含む、請求項1に記載の方法。
  7. 前記患者配列リードが、染色体6p21.3に位置する、請求項1に記載の方法。
  8. 前記患者配列リードが、次世代シーケンシングリードであり、且つメタデータをさらに含む、請求項1に記載の方法。
  9. 前記患者配列リードが、50塩基と250塩基の間の長さを有する、請求項1に記載の方法。
  10. 前記k−merが、10〜20の長さを有する、請求項1に記載の方法。
  11. 前記k−merが、前記患者配列リードの長さの5%と15%の間の長さを有する、請求項1に記載の方法。
  12. 前記投票が、患者配列リード当たりのk−merの合計数に対するマッチングk−merの割合を表す値である、請求項1に記載の方法。
  13. 最上位HLA対立遺伝子を前記患者の第1のHLA型として識別するステップをさらに含む、請求項1に記載の方法。
  14. 前記参照配列が、少なくとも1%の対立遺伝子頻度を有する少なくとも1つのHLA型についての対立遺伝子を含むか、または前記参照配列が、少なくとも1つのHLA型についての少なくとも10の異なる対立遺伝子を含むか、または前記参照配列が、少なくとも2つの異なるHLA型についての対立遺伝子を含む、請求項1〜13のいずれか1項に記載の方法。
  15. 前記k−merが、10〜20の長さを有するか、または前記k−merが、患者配列リードの長さの5%と15%の間の長さを有する、請求項1〜14のいずれか1項に記載の方法。
  16. 前記複合マッチスコアが、前記複数の患者配列リードからのすべての投票の合計である、および/または前記投票が、患者配列リード当たりのk−merの合計数に対するマッチングk−merの割合を表す値である、請求項1〜15のいずれか1項に記載の方法。
  17. 患者についてHLA型をインシリコ予測するためのコンピュータシステムであって、
    複数の既知のおよび異なるHLA対立遺伝子の配列を含む参照配列を格納する参照配列データベースと;
    複数の患者配列リードを格納するもしくは提供する患者配列データソースであって、前記患者配列リードの少なくともいくつかが、患者特異的HLAをコードする配列を含む、患者配列データソースと;
    (i)前記複数の患者配列リードを複数のk−merのそれぞれのセットに分解する;
    (ii)前記参照配列と前記複数のk−merのそれぞれのセットとを使用してde Bruijnグラフを作成する
    (iii)1つの対立遺伝子についてのそれぞれの投票を全て加えることによって前記1つの対立遺伝子に対する前記複数の患者配列リードのそれぞれの投票から算出される複合マッチスコアを使用して前記既知のおよび異なるHLA対立遺伝子のそれぞれをランク付ける
    (iv)最上位HLA対立遺伝子を前記患者の第1の対立遺伝子のHLA型として識別する;および
    (v)調節された最上位HLA対立遺伝子を前記患者の第2の対立遺伝子のHLA型として識別するために、調節された複合マッチスコアを使用して残りの非最上位の既知のおよび異なるHLA対立遺伝子を再びランク付ける;
    ようにプログラムされた解析エンジンと、
    を含み、
    各投票が、前記既知のおよび異なるHLA対立遺伝子内の対応するセグメントとマッチするk−merを使用
    前記調節された複合マッチスコアは、第1のHLA対立遺伝子とマッチするk−merの重みを削除するのではなく減少させることによって算出される、
    コンピュータシステム。
  18. 前記参照配列が、少なくとも1%の対立遺伝子頻度を有する少なくとも1つのHLA型についての対立遺伝子を含むか、または前記参照配列が、少なくとも1つのHLA型についての少なくとも10の異なる対立遺伝子を含むか、または前記参照配列が、少なくとも2つの異なるHLA型についての対立遺伝子を含む、請求項17に記載のコンピュータシステム。
  19. 前記HLA型が、HLA−A型、HLA−B型、HLA−C型、HLA−DRB−1型、および/またはHLA−DQB−1型である、請求項17に記載のコンピュータシステム。
  20. 前記複数の患者配列リードが、複数のDNAシーケンシングリードおよびRNAシーケンシングリードの少なくとも1つを含む、請求項17に記載のコンピュータシステム。
  21. 前記患者配列リードが、染色体6p21.3に位置する、請求項17に記載のコンピュータシステム。
  22. 前記患者配列リードが、次世代シーケンシングリードであり、且つメタデータをさらに含む、または
    前記患者配列リードが、50塩基と250塩基の間の長さを有する、
    請求項17に記載のコンピュータシステム。
  23. 前記k−merが、10〜20の長さを有するか、または前記k−merが、前記患者配列リードの長さの5%と15%の間の長さを有する、請求項17に記載のコンピュータシステム。
  24. 前記投票が、患者配列リード当たりのk−merの合計数に対するマッチングk−merの割合を表す値である、請求項17に記載のコンピュータシステム。
  25. 前記解析エンジンが、最上位HLA対立遺伝子を前記患者の第1のHLA型として識別するようにさらにプログラムされている、請求項17に記載のコンピュータシステム。
  26. 参照配列データベースおよび患者配列データソースが解析エンジンに情報的に連結されているコンピュータシステムに、
    複数の既知のおよび異なるHLA対立遺伝子の配列を含む参照配列を前記参照配列データベースから前記解析エンジンに提供するステップと;
    複数の患者配列リードを患者配列データソースから前記解析エンジンに提供するステップであって、前記患者配列リードの少なくともいくつかが、患者特異的HLAをコードする配列を含む、ステップと;
    前記解析エンジンによって前記複数の患者配列リードを複数のk−merのそれぞれのセットへと分解するステップと;
    前記参照配列および前記複数のk−merのそれぞれのセットを使用してde Bruijnグラフを前記解析エンジンによって作成するステップと;
    1つの対立遺伝子についてのそれぞれの投票を全て加えることによって前記1つの対立遺伝子に対する前記複数の患者配列リードのそれぞれの投票から算出される複合マッチスコアを使用して前記解析エンジンによって前記既知のおよび異なるHLA対立遺伝子のそれぞれをランク付けるステップであって、各投票が、前記既知のおよび異なるHLA対立遺伝子内の対応するセグメントとマッチするk−merを使用する、ステップと
    最上位HLA対立遺伝子を前記患者の第1の対立遺伝子のHLA型として識別するステップと;
    調節された最上位HLA対立遺伝子を前記患者の第2の対立遺伝子のHLA型として識別するために、調節された複合マッチスコアを使用して残りの非最上位の既知のおよび異なるHLA対立遺伝子を再びランク付けるステップであって、前記調節された複合マッチスコアは、第1のHLA対立遺伝子とマッチするk−merの重みを削除するのではなく減少させることによって算出される、ステップと;
    を含む方法を実施させるためのプログラム命令を含む非一時的なコンピュータ可読媒体。
  27. 前記参照配列が、少なくとも1%の対立遺伝子頻度を有する少なくとも1つのHLA型についての対立遺伝子を含むか、または前記参照配列が、少なくとも1つのHLA型についての少なくとも10の異なる対立遺伝子を含むか、または前記参照配列が、少なくとも2つの異なるHLA型についての対立遺伝子を含む、請求項26に記載のコンピュータ可読媒体。
  28. 前記HLA型がHLA−A型、HLA−B型、HLA−C型、HLA−DRB−1型、および/またはHLA−DQB−1型である、請求項26に記載のコンピュータ可読媒体。
  29. 前記複数の患者配列リードが、複数のDNAシーケンシングリードおよびRNAシーケンシングリードの少なくとも1つを含む、請求項26に記載のコンピュータ可読媒体。
  30. 前記患者配列リードが、染色体6p21.3に位置する、または
    前記患者配列リードが、次世代シーケンシングリードであり、且つメタデータをさらに含む、または
    前記患者配列リードが、50塩基と250塩基の間の長さを有する、
    請求項26に記載のコンピュータ可読媒体。
  31. 前記k−merが、10〜20の長さを有するか、または前記k−merが、前記患者配列リードの長さの5%と15%の間の長さを有する、請求項26に記載のコンピュータ可読媒体。
  32. 前記投票が、患者配列リード当たりのk−merの合計数に対するマッチングk−merの割合を表す値である、請求項26に記載のコンピュータ可読媒体。
JP2018510056A 2015-08-25 2016-08-25 高正確度変異体コールのためのシステムおよび方法 Active JP6533011B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562209858P 2015-08-25 2015-08-25
US62/209,858 2015-08-25
PCT/US2016/048768 WO2017035392A1 (en) 2015-08-25 2016-08-25 Systems and methods for high-accuracy variant calling

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019095951A Division JP6883180B2 (ja) 2015-08-25 2019-05-22 高正確度変異体コールのためのシステムおよび方法

Publications (2)

Publication Number Publication Date
JP2018533111A JP2018533111A (ja) 2018-11-08
JP6533011B2 true JP6533011B2 (ja) 2019-06-19

Family

ID=58101056

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018510056A Active JP6533011B2 (ja) 2015-08-25 2016-08-25 高正確度変異体コールのためのシステムおよび方法
JP2019095951A Active JP6883180B2 (ja) 2015-08-25 2019-05-22 高正確度変異体コールのためのシステムおよび方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019095951A Active JP6883180B2 (ja) 2015-08-25 2019-05-22 高正確度変異体コールのためのシステムおよび方法

Country Status (13)

Country Link
US (2) US11393557B2 (ja)
EP (1) EP3341877B1 (ja)
JP (2) JP6533011B2 (ja)
KR (2) KR102211461B1 (ja)
CN (1) CN108351917B (ja)
AU (2) AU2016311444B2 (ja)
BR (1) BR112018003631A2 (ja)
CA (1) CA2996702C (ja)
HK (1) HK1257052A1 (ja)
IL (2) IL257724B (ja)
MX (1) MX2018002293A (ja)
RU (1) RU2018106934A (ja)
WO (1) WO2017035392A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190099475A1 (en) 2015-04-08 2019-04-04 Nantomics, Llc Cancer neoepitopes
MX2018002293A (es) 2015-08-25 2018-09-05 Nantomics Llc Sistemas y métodos para las llamadas variantes de alta precisión.
KR20180087244A (ko) 2015-10-12 2018-08-01 난토믹스, 엘엘씨 체크포인트 억제제에 대한 감도를 예측하는 msi 및 네오에피토프를 발견하기 위한 위한 시스템, 조성물 및 방법
JP2018535202A (ja) 2015-10-12 2018-11-29 ナントミクス,エルエルシー ネオエピトープの反復発見と適応可能な免疫療法およびその方法
KR20180091119A (ko) 2016-02-12 2018-08-14 난토믹스, 엘엘씨 암 면역요법을 위한 치료 표적으로 환자 특이적 네오에피토프의 높은 스루풋 식별 (high-throughput identification of patient-specific neoepitopes as therapeutic targets for cancer immunotherapies)
US11154597B2 (en) 2016-03-24 2021-10-26 Nantcell, Inc. Sequence arrangements and sequences for neoepitope presentation
CA3027911A1 (en) 2016-06-30 2018-01-04 Nant Holdings Ip, Llc Coordinated treatment regimen to treat a tumor
US10319465B2 (en) * 2016-11-16 2019-06-11 Seven Bridges Genomics Inc. Systems and methods for aligning sequences to graph references
US11564944B2 (en) 2016-11-21 2023-01-31 Nant Holdings Ip, Llc Fractal combination therapy
WO2018102613A2 (en) 2016-12-01 2018-06-07 Nantomics, Llc Tumor antigenicity processing and presentation
JP7051898B2 (ja) 2017-04-24 2022-04-11 ナントセル,インコーポレイテッド 標的型ネオエピトープベクター及びそのための方法
EP3631471A4 (en) 2017-05-30 2021-06-30 Nant Holdings IP, LLC ENRICHMENT OF CIRCULATING TUMOR CELLS USING NEO-EPITOPIA
WO2019050958A2 (en) * 2017-09-06 2019-03-14 Nant Holdings Ip, Llc CORRESPONDENCE OF HLA FABRIC AND ASSOCIATED METHODS
US11823773B2 (en) 2018-04-13 2023-11-21 Nant Holdings Ip, Llc Nant cancer vaccine strategies
US11564980B2 (en) 2018-04-23 2023-01-31 Nantcell, Inc. Tumor treatment method with an individualized peptide vaccine
TW202345890A (zh) 2018-04-23 2023-12-01 美商南特細胞公司 新抗原表位疫苗及免疫刺激組合物及方法
EP3935638A4 (en) * 2019-03-08 2023-01-25 Nantomics, LLC SYSTEM AND PROCEDURES FOR VARIANT CALLING
CN112885406B (zh) * 2020-04-16 2023-01-31 深圳裕策生物科技有限公司 检测hla杂合性缺失的方法及系统
CN112289376B (zh) * 2020-10-26 2021-07-06 北京吉因加医学检验实验室有限公司 一种检测体细胞突变的方法及装置
CN114496077B (zh) * 2022-04-15 2022-06-21 北京贝瑞和康生物技术有限公司 用于检测单核苷酸变异和插入缺失的方法、设备和介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100261189A1 (en) * 2008-10-03 2010-10-14 Roche Molecular Systems, Inc. System and method for detection of HLA Variants
CN102460155B (zh) 2009-04-29 2015-03-25 考利达基因组股份有限公司 用于关于参考多核苷酸序列标注样本多核苷酸序列中的变异的方法和系统
US20130267429A1 (en) * 2009-12-21 2013-10-10 Lawrence Livermore National Security, Llc Biological sample target classification, detection and selection methods, and related arrays and oligonucleotide probes
US20140228223A1 (en) 2010-05-10 2014-08-14 Andreas Gnirke High throughput paired-end sequencing of large-insert clone libraries
WO2014058890A1 (en) * 2012-10-08 2014-04-17 Spiral Genetics Inc. Methods and systems for identifying, from read symbol sequences, variations with respect to a reference symbol sequence
US9181583B2 (en) 2012-10-23 2015-11-10 Illumina, Inc. HLA typing using selective amplification and sequencing
JP6433913B2 (ja) 2012-12-13 2018-12-05 サイトレックス コーポレイション アントラサイクリン製剤
US9562269B2 (en) 2013-01-22 2017-02-07 The Board Of Trustees Of The Leland Stanford Junior University Haplotying of HLA loci with ultra-deep shotgun sequencing
JP2016521705A (ja) 2013-06-05 2016-07-25 サイトレックス コーポレイション がんを処置するための細胞傷害剤
JP2015035212A (ja) * 2013-07-29 2015-02-19 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. ターゲットシークエンシングパネルから変異を見つける方法
JP6491651B2 (ja) 2013-10-15 2019-03-27 リジェネロン・ファーマシューティカルズ・インコーポレイテッドRegeneron Pharmaceuticals, Inc. 高解像度での対立遺伝子の同定
CN103699819B (zh) 2013-12-10 2016-09-07 深圳先进技术研究院 基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法
KR20230076867A (ko) 2013-12-20 2023-05-31 더 브로드 인스티튜트, 인코퍼레이티드 신생항원 백신과의 병용 요법
US20190099475A1 (en) 2015-04-08 2019-04-04 Nantomics, Llc Cancer neoepitopes
MX2018002293A (es) 2015-08-25 2018-09-05 Nantomics Llc Sistemas y métodos para las llamadas variantes de alta precisión.
CN108700566A (zh) 2016-02-19 2018-10-23 河谷控股Ip有限责任公司 免疫原性调节的方法
EP3430148A4 (en) 2016-03-18 2020-01-01 Nantcell, Inc. MULTIMODAL VECTOR FOR DENDRITIC CELL INFECTION
CA3027911A1 (en) 2016-06-30 2018-01-04 Nant Holdings Ip, Llc Coordinated treatment regimen to treat a tumor
WO2019050926A1 (en) 2017-09-06 2019-03-14 Nantcell, Inc. METHODS AND POLY THERAPIES BASED ON ALDOXORUBICIN

Also Published As

Publication number Publication date
JP2019169177A (ja) 2019-10-03
JP6883180B2 (ja) 2021-06-09
MX2018002293A (es) 2018-09-05
KR102011440B1 (ko) 2019-08-16
KR20190090022A (ko) 2019-07-31
CA2996702A1 (en) 2017-03-02
AU2019201869A1 (en) 2019-04-11
KR20180058718A (ko) 2018-06-01
EP3341877A4 (en) 2018-10-03
IL263115B (en) 2020-06-30
US20180237949A1 (en) 2018-08-23
IL257724B (en) 2018-11-29
IL263115A (en) 2018-12-31
JP2018533111A (ja) 2018-11-08
CA2996702C (en) 2020-07-14
WO2017035392A1 (en) 2017-03-02
AU2016311444A1 (en) 2018-03-15
KR102211461B1 (ko) 2021-02-03
RU2018106934A (ru) 2019-09-26
AU2016311444B2 (en) 2019-02-07
EP3341877A1 (en) 2018-07-04
CN108351917B (zh) 2022-03-08
EP3341877B1 (en) 2023-05-10
CN108351917A (zh) 2018-07-31
HK1257052A1 (zh) 2019-10-11
US11393557B2 (en) 2022-07-19
BR112018003631A2 (pt) 2018-09-25
RU2018106934A3 (ja) 2019-09-26
US20220319640A1 (en) 2022-10-06

Similar Documents

Publication Publication Date Title
JP6533011B2 (ja) 高正確度変異体コールのためのシステムおよび方法
Cameron et al. GRIDSS: sensitive and specific genomic rearrangement detection using positional de Bruijn graph assembly
Nguyen et al. Definition of high-risk type 1 diabetes HLA-DR and HLA-DQ types using only three single nucleotide polymorphisms
Naslavsky et al. Whole-genome sequencing of 1,171 elderly admixed individuals from Brazil
Shi et al. Winner's curse correction and variable thresholding improve performance of polygenic risk modeling based on genome-wide association study summary-level data
JP4437050B2 (ja) 診断支援システム、診断支援方法および診断支援サービスの提供方法
Staples et al. PRIMUS: rapid reconstruction of pedigrees from genome-wide estimates of identity by descent
US9773091B2 (en) Systems and methods for genomic annotation and distributed variant interpretation
DK2773954T3 (en) SYSTEMS AND PROCEDURES FOR GENOMIC ANNOTATION AND INTERPRETATION OF DISTRIBUTED VARIETIES
US10741291B2 (en) Systems and methods for genomic annotation and distributed variant interpretation
Moltke et al. A method for detecting IBD regions simultaneously in multiple individuals—with applications to disease genetics
Ullah et al. Comparison and assessment of family-and population-based genotype imputation methods in large pedigrees
Kapplinger et al. Enhancing the predictive power of mutations in the C-terminus of the KCNQ1-encoded Kv7. 1 voltage-gated potassium channel
Huang et al. Sequencing strategies and characterization of 721 vervet monkey genomes for future genetic analyses of medically relevant traits
Sun et al. On the use of dense SNP marker data for the identification of distant relative pairs
Pazhenkova et al. Genomic introgression from a distant congener in the Levant fritillary butterfly, Melitaea acentria
Setty et al. HLA type inference via haplotypes identical by descent
Yorgov et al. Use of admixture and association for detection of quantitative trait loci in the Type 2 Diabetes Genetic Exploration by Next-Generation Sequencing in Ethnic Samples (T2D-GENES) study
Aissani et al. The major histocompatibility complex conserved extended haplotype 8.1 in AIDS-related non-Hodgkin lymphoma
Setty et al. HLA type inference via haplotypes identical by descent
JP2008152592A (ja) 個体間の遺伝的非類似度の解析方法およびシステム
Fues Comparison of logistic and ridge regression in genetic association studies
JP2008125390A (ja) 逆ホモ接合マッピング法による同祖領域の抽出方法および遺伝子スクリーニング方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190522

R150 Certificate of patent or registration of utility model

Ref document number: 6533011

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250