JP7366129B2 - ゲノムデータを次世代シーケンシングする際のバリアント検出方法 - Google Patents

ゲノムデータを次世代シーケンシングする際のバリアント検出方法 Download PDF

Info

Publication number
JP7366129B2
JP7366129B2 JP2021518999A JP2021518999A JP7366129B2 JP 7366129 B2 JP7366129 B2 JP 7366129B2 JP 2021518999 A JP2021518999 A JP 2021518999A JP 2021518999 A JP2021518999 A JP 2021518999A JP 7366129 B2 JP7366129 B2 JP 7366129B2
Authority
JP
Japan
Prior art keywords
sample
optimal
variant
model
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021518999A
Other languages
English (en)
Other versions
JP2021528099A (ja
Inventor
チェンユ、シュ
リン、ソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sophia Genetics SA
Original Assignee
Sophia Genetics SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sophia Genetics SA filed Critical Sophia Genetics SA
Publication of JP2021528099A publication Critical patent/JP2021528099A/ja
Application granted granted Critical
Publication of JP7366129B2 publication Critical patent/JP7366129B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

本明細書に記載される方法は一般にゲノム解析に関し、より具体的には次世代シーケンシングアプリケーションに関する。
次世代シーケンシング
ハイスループット次世代シーケンシング(NGS)技術または超並列シーケンシング(MPS)技術により、過去10年間でDNAシーケンシングのコストが大幅に削減された。NGSは生物学に幅広く応用されており、研究の方法や診断方法論を劇的に変えた。例えば、RNA発現プロファイリングまたはDNAシーケンシングは、定量PCRやサンガーシーケンシングなどの従来の方法では少数の遺伝子でしか実行することができない。マイクロアレイを使用しても、遺伝子発現のプロファイリングまたは全ゲノムレベルでの変異の特定は、ゲノムサイズが比較的小さい生物種に対してしか実施することはできない。NGS技術により、RNAプロファイリングまたは全ゲノムシーケンシングは、生物学研究において日常的な慣行となっている。一方、NGSのスループットが高いため、より多くの領域をシーケンシングするだけでなく、より多くのサンプルをシーケンシングするための多重化された方法が開発されている。従来のサンガーシーケンシング技術と比較して、NGSは、異なる遺伝子のはるかに多くのサンプルの変異を並行して検出することを可能にする。従来のシーケンシング方法よりも優れているため、NGSシーケンサは現在、日常的な診断においてサンガーに取って代わりつつある。特に、個体(生殖細胞系列)または癌性組織(体細胞)のゲノム変異を、遺伝子疾患の診断から精密医療の実践における薬物の薬理ゲノミクスの微調整に至るまで、多くの医療用途で日常的に分析することができる。NGSは、複数のフラグメント化されたDNA配列リード、通常は短いリード(300ヌクレオチド塩基ペア未満)の処理で構成されている。結果として得られたリードを次に、いくつかのバイオインフォマティクス法を使用して、参照ゲノムと比較し、単一ヌクレオチド置換に対応する一塩基多型(SNP)や、その参照と比較したDNA配列のヌクレオチドにおける短い挿入および欠失(INDEL)などの小さなバリアントを識別できる。
ターゲットエンリッチメント
一部の病理では、特定の形態の遺伝性乳がんおよび卵巣がんのBRCA1およびBRCA2遺伝子、または嚢胞性線維症のCFTR遺伝子など、特定の遺伝子バリアントが病気に関連している。ゲノム解析では、個々のサンプルから全ゲノム(WGS)をシーケンシングするのではなく、領域固有のDNAプライマーまたはプローブのセットをターゲットにして、例えばPCR(ポリメラーゼ連鎖反応)を使用して、DNA鎖に沿った遺伝子に対応するサブ領域に特化した生物学的DNAサンプルを濃縮または増幅することにより、病気に関連するゲノム領域に焦点を当てることができる。現在、例えばMultiplicom MASTR(商標)やIlluminaTruSeq(登録商標)Ampliconアッセイキットなど、すぐに使用できる生物学的キットとして、これらの原則に沿って多くの次世代シーケンシングアッセイが開発されており、医学研究や臨床診療における、例えば、Illumina MiSeq(登録商標)シーケンサなど、次世代シーケンサによるDNAベースの診断が容易になっている。
ターゲットエンリッチメントは、プローブベースのハイブリダイゼーション(アレイ上または溶液中)または高度に多重化されたPCRベースのターゲットエクソンエンリッチメントを利用して、DNAの小さなサンプルから達成され得るため、遺伝子カバレッジ/リード深度と、増幅特異性(所望されるターゲット領域へのさらなるアラインメントによって測定される、正しい領域の増幅)が最大化される。市販のターゲットエンリッチメントシステムの例には、Agilent SureSelect(商標)ターゲットエンリッチメントシステム、Roche NimbleGen SeqCap EZ、Illumina Nextera Rapid Capture、Agilent Haloplex(商標)およびMultiplicom MASTR(商標)などが挙げられる。
超並列処理NGSシーケンサを最大限に活用するために、ターゲットNGS実験では多数のサンプルが多重化され、例えば、48以上のターゲットエンリッチメントサンプルのプールを同時に Illumina MiSeqシーケンサに入力できる。次に、NGSシーケンサからの生のシーケンシングデータを分析して、例えば参照ゲノムへのアラインメントによって、固有のサブシーケンスを識別してよい。その結果、増幅により、患者サンプル内の所与のアンプリコンに対して1,000を超えるリードが生成されてよい。
次世代シーケンシングワークフローの自動化
次世代シーケンシング(NGS)は、特に、シーケンシングリードアラインメント、バリアント呼び出し、およびバリアント注釈などのバイオインフォマティクス法を通じて、参照ゲノムと比較して、一塩基多型(SNP)、挿入または欠失(INDEL)などのDNA配列の小さな変化を検出し報告することを可能にする。NGSワークフローとは、エンドツーエンドのゲノム解析アプリケーションへのそのような方法の構成および組み合わせを指す。ゲノム研究の実践では、NGSワークフローは、例えば、UNIXオペレーティングシステム上の専用スクリプト、Galaxyプロジェクトなどのグラフィカルパイプライン表現を含む専用プラットフォーム、および/またはそれらの組み合わせを使用して、手動で設定され、最適化される場合が多い。臨床診療が発展するにつれて、NGSワークフローはもはやケースバイケースで実験的に設定されるのではなく、サードパーティプロバイダによるSaaS(サービスとしてのソフトウェア)、PaaS(サービスとしてのプラットフォーム)、またはIaaS(サービスとしてのインフラストラクチャ)提供品に統合される。その状況では、NGSワークフローのさらなる自動化は、これらのサービスの臨床診療への日常的な統合を促進するための鍵である。
次世代シーケンシングワークフローの最適化
次世代シーケンシング法は、SNPおよびINDELの検出において、従来のサンガーシーケンシングよりも効率的であることが示されているが、それらの特異性(所与のゲノムバリアントの真陽性の検出率)および感度(所与のゲノムバリアントの真陰性の排除率)は、臨床診療ではなお一層改善される可能性がある。NGSゲノム解析の特異性と感度は、以下のいくつかの要因の影響を受ける可能性がある:
シーケンシング技術によって導入されたバイアス、
例えば、次に理由による、
フラグメントの長さに対するリードの長さ、
リードの数が少なすぎる(リード深度)、
シーケンシング中に導入されたエラーまたは低品質の塩基、
特にパイロシーケンシング(Roche 454プラットフォームのように)または半導体シーケンシング(Ion Torrentプラットフォームのように、例えば米国特許出願2009/0026082号のRothbergによって説明されているような)では、ホモポリマーストレッチをカウントする際の固有の問題であり、これにより生じる挿入および欠失エラー、
DNA濃縮技術によって導入されたバイアス、例えば
プライマーまたはプローブの非特異的結合、例えば、アッセイを低温で長時間保存しすぎたり、サンプル中のDNAの量が少なすぎたりするために起こるもの、
不完全なPCR増幅およびサイクリングによって引き起こされる配列エラーの取り込み、例えば、温度変化が原因であるもの、
プローブまたはプライマーの次善の設計によるものである。例えば、変異はプローブまたはプライマーの領域内にある場合がある。
濃縮方法の制限。例えば、長い欠失が増幅された領域にまたがる場合がある;
データセットの相互汚染、
バーコード、アダプタ、および様々な事前定義されたシーケンスタグによるフラグメントのタグ付けによる、データセットの相互汚染、リード損失、およびリード品質の低下、
長い挿入ペアエンド読み取り値におけるキメラリード、
サンプル自体によって導入されたバイアス、例えば、次の理由によるもの、
特に腫瘍サンプルシーケンシングに基づく癌診断における身体的特徴、
生物学的サンプルのタイプ、例えば血液、尿、唾液、および関連するサンプル準備の問題、例えば、DNAの分解、外来DNAの汚染、または少なすぎるDNA入力を生じさせる問題、
特定の領域のゲノムデータ構造によって固有に導入されたバイアス、例えば、次の理由によるもの、
対象領域でのGC含量の高い比率、
ホモポリマーおよび/またはヘテロポリマーの存在、つまり特定の領域での1つ以上のヌクレオチドの部分的なゲノムシーケンスの反復であり、初期アラインメントに曖昧さが生じ、特にRoche 454およびIon Torrentシーケンサテクノロジーに固有のシーケンスエラーを発生させるもの、
相同領域と低複雑度領域の存在、
DNAフラグメントがリード長と比較して十分に長くない場合、特にヒトゲノムの高反復ゲノム領域において、機能的遺伝子と混同される可能性のある非機能的偽遺伝子の存在。
これにより、ルーチンのゲノム解析アプリケーションでのNGSの効率的な導入が制限され、これは、特異性と感度の観点から臨床上の期待に応えるために、アプリケーションごとに、高度な専門家が異なるゲノムデータ分析ワークフローを手動で編成し、様々なパラメーターセットで構成する必要があるためである。ゲノムデータ処理ワークフローの自動化は、ワークフローが一方では上流のNGS生物学的プロセスによって導入された特定のデータバイアスを考慮し、他方では現在のアプリケーションに固有のゲノムデータ構造を考慮する必要があるため、特に困難である。ゲノム検査の初期の展開では、限られた数の検査と設定が専用のプラットフォームによって処理され、高度なスキルを持つ専門スタッフが手動で設定、構成および保守することができた。単一の多目的ゲノム解析プラットフォームによって日常業務で実行する必要のある検査がますます増えているため、このようなアプローチはコストがかかり、十分に拡張することができない。
NGS分析の自動化に関しては、特に実験室でパイロシーケンシング(Roche 454プラットフォームのように)、または半導体シーケンシング(Ion Torrentプラットフォームのように)を採用している場合、参照ヒトゲノムのホモポリマー領域および/またはヘテロポリマー領域のインデルバリアントを特徴付ける際の固有の難しさに特別な注意を払う必要がある。いくつかのホモポリマーまたはヘテロポリマーバリアントの誤った特性評価は、例えばSingh等による、「Clinical validation of a Next-Generation Sequencing Screen for Mutational Hotspots in 46 Cancer-Related Genes」,The Journal of Molecular Diagnostics、Vol.15、No.5、2013年9月によって強調されているように、例えば癌関連遺伝子のいくつかの遺伝的変異に基づいて、多様な診断アプリケーションで特定の形質および疾患の偽陽性検出をもたらす可能性がある。この制限を克服するために、Singh等は、シーケンシングプロセスによってバイアスがかけられている可能性が最も高いため、配列されたサンプルの20%を超える母集団頻度を持つバリアントを除外することを提案した。現在のNGSの実践では、出願人のゲノムアナライザプラットフォームSophia DDM(登録商標)は、London South West RGC St George’sによる(https://ukgtn.nhs.uk/uploads/tx_ukgtn/Primary_Lymphoedema_15_GP_GD_Sept_2017.pdf-承認日2018年1月)または「Performance characteristics-BRCA MASTR Dx with drMID Dx for Illumina NGS Systems」 2017年7月-https://www.agilent.com/cs/library/datasheets/public/Performance%20characteristics%20BRCA%20MASTR%20Dx%205991-8424ENE.pdfによる、例えば15遺伝子のパネルによる原発性リンパ浮腫の遺伝子検査の評価の提案に記載されているように、10bpを超えるホモポリマー領域にあるINDELを無視するように構成されてよい。
ドイツ、キッペンハイムのJSI Medical Systems GmbHのSequence Pilot SeqNextモジュールなどの他のバイオインフォマティクスソリューションは、Nunziato等によって、「Fast Detection of a BRCA2 Large Genomic Duplication by Next Generation Sequencing as a Single Procedure」、Intl J Mol Sci v.18(11)、2017年11月で説明されているように、バリアント頻度がリードの20%を超える場合にのみ、少なくとも6bpのホモポリマーのバリアントを呼び出すように構成されてもよい。したがって、NGS遺伝子パネル検査の現在の慣行は、NGSプラットフォームがそれらにバイアスをかけることが知られている場合、ヒトゲノムのホモポリマーまたはヘテロポリマー領域でのバリアント検出を無視するか、注意深くパラメーター化することで成り立っている。ただし、これらのアプローチは、偽陰性の特性評価をもたらす可能性がある。
「Improved efficiency and reliability of NGS amplicon sequencing data analysis for genetic diagnostic procedures using AGSA software」、Biomed Research International、Vol.2016、Art ID 5623089において、Poulet等は、家族性乳がんおよび卵巣がんのリスクに関連するBRCA遺伝子バリアントを検出するためのCORAL、HECTOR、AmpliconNoiseなどの様々なソフトウェア分析ワークフローの制限を特定しており、
SFFファイルを解析し、対象のサンプルの各リードのフローグラム値を収集し、そしてエンドユーザがさらに検査することができるヒストグラム画像を導き出すことに基づいた改善方法(著者がAGSAソフトウェアとして実装)を提案している。ヘテロ接合挿入または欠失の場合、リード値の分布は2つの母集団に分割され、一部のリード(1つの対立遺伝子から)はn個の同一の塩基を有し、他のリード(他の対立遺伝子から)はn+1(挿入)またはn-1(欠失)の同一の塩基を有することを示している。逆に、バイアスアーティファクトの配列決定の場合、ヒストグラムのnとn+1(またはn-1)のピークの間に単一の母集団が観察される。ホモ接合性変異の場合、単一の母集団はn+1(またはn-1)を中心とし、すべてのリードがホモポリマー内の同じ数の塩基を有し、この数が野生型とは異なることを示している。
Poulet等はまた、ヒストグラム値の単峰性または二峰性の分布も統計的に評価できることを示唆しているが、これを達成する方法は開示していない。さらに、彼らのアプローチでは、シーケンサから直接フローファイルを分析する必要があり、これにより、ネットワーク化されたコンピューティング環境において、特に、ゲノム解析ソリューションが実験装置から独立して展開される場合、例えばSophia DDM(Data Driven Medicine)SAAS(Software As A Service)プラットフォームのような場合、自動ゲノムアナライザワークフロープラットフォームの設計および展開が複雑になる。
Poulet等の提案と同様に、ホモポリマー領域での挿入と欠失をより適切に検出し、対応するヘテロ接合性を検出する統計的方法も、Utirametur等による米国特許出願第2014/0052381号に記載されている。彼らは、NGSゲノムアナライザのワークフローでは、リードアラインメントが必ずしも正しいとは限らないことを観察したが、ホモ接合性領域は単峰性の分布を持つ傾向があるのに対し、ヘテロ接合領域は単峰性の分布を持つ傾向があるため、ベイジアンピーク検出アプローチおよび最適モデルを使用することにより、ホモポリマー領域の測定値とモデル予測値に基づいて、塩基呼び出し残差の分布からヘテロ接合性を決定できる可能性がある。
最適モデルから、ホモ接合性(単峰性分布)の場合は両方の対立遺伝子のホモポリマー長の値を、ヘテロ接合性(二峰性分布)の場合は各対立遺伝子に1つずつ、2つの異なるホモポリマー長の値を導出することも可能である。関連する流動空間密度が明らかにピーク値を示すため、この方法は短いホモポリマー領域の長さの識別を容易にする可能性があるが、より長いホモポリマーとヘテロポリマーを分類することは非常に困難であることが観察された。
米国特許出願2009/002608号 米国特許出願第2014/005238号
「Clinical validation of a Next-Generation Sequencing Screen for Mutational Hotspots in 46 Cancer-Related Genes」,The Journal of Molecular Diagnostics、Vol.15、No.5, Sept 2013 「Fast Detection of a BRCA2 Large Genomic Duplication by Next Generation Sequencing as a Single Procedure」、Intl J Mol Sci v.18(11)、Nov 2017 「Improved efficiency and reliability of NGS amplicon sequencing data analysis for genetic diagnostic procedures using AGSA software」、Biomed Research International、Vol.2016、Art ID 5623089
したがって、ホモポリマーおよび/またはヘテロポリマー反復パターンバリアントの困難な特性評価を伴うゲノムデータコンテキストにおいて、従来の方法に対して、研究と臨床実践を改善するためにバリアント呼び出し結果の特異性と感度を最適化しつつ、同じゲノムデータ処理プラットフォームが、異なる次世代シーケンシング実験室設定から生成され得る、多様なゲノムデータに作用できるように、データ駆動型医療アプリケーションのゲノムデータ処理バリアント呼び出しワークフローを自動化するためのより優れたソリューションが必要である。
プロセッサを用いて、患者サンプルのゲノムシーケンスにおける少なくとも2つのヌクレオチドパターンの反復としてのバリアントを検出および報告するための方法が提案されており、この方法は以下の、
(a)参照反復パターンPref=N*lを、ヒトゲノム参照シーケンスのゲノム領域におけるl(l>=2)ゲノムパターンNの反復として識別することと、
(b)次世代シーケンサを使用して、n個の濃縮されたゲノム患者サンプルのプールから参照反復パターンゲノム領域をカバーする次世代シーケンシングデータリードのn個の患者セットS={S、S、...、S、…、S}を取得することであって、各セットSは患者サンプルに関連付けられており、濃縮されたゲノム患者サンプルの数nは少なくとも4であることと、
(c)患者サンプルのセットS内の各患者サンプルiについて、次世代シーケンシングリードのセットS内の反復パターンの長さの分布Pを測定することと、
(d)患者サンプルiとjの可能なペアについて、j>iであり、信頼水準Lijで、サンプルjに対するサンプルiの2つの対立遺伝子バリアントの最適モデル
を推定することと、
(e)患者サンプルi、j>i、k>jの可能なトリプレットごとに、そのそれぞれの最適モデル


を比較し、一致する最適モデルを増加させた信頼水準で最適バリアントモデルのグループにグループ化し、そして最適バリアントモデルの安定したグループが形成されるまで比較を繰り返すことと、
(f)野生型バリアントを保有する可能性が最も高いグループを識別することと、
(g)野生型バリアントを保有するグループ内の各サンプルについて、サンプルバリアントを野生型参照反復パターンPref=N*lとして報告することと、
(h)野生型バリアントを保有するグループからの各サンプルについて、識別された野生型グループの最適バリアントモデルの関数として、このサンプルを含むグループの最適バリアントモデルのバイアスを解除し、バイアスのないバリアントとしてサンプルバリアントを報告することとを含む。
先行技術の次世代シーケンシングシステムを表す図である。 次世代シーケンシングゲノム解析ワークフローのフローチャートである。 変異のないサンプル(上の表)と、対立遺伝子1にヘテロ接合欠失があるサンプル(下の表)のそれぞれについて、実験誤差のないヒトゲノム参照(0を中心とする)に対する反復パターンバリアントの予想される相対的な長さの確率分布を示す図である。 変異を持たないサンプル(上の表)と、対立遺伝子1のヘテロ接合欠失があるサンプル(下の表)のそれぞれについて、それぞれ実験誤差を受けて測定され得る、ヒトゲノム参照(0を中心とする)に対する反復パターンバリアントの測定された相対的な長さの確率分布を示す図である。 変異はないが実験誤差のバイアスの影響を受ける対照データの相対的な長さの確率分布から導出され得る、様々な欠失と挿入のシナリオの反復パターンの相対的な長さのすべての可能な予想される確率分布のグラフ表示の図である。 最も近い予想される確率分布シナリオに一致する、患者データの測定された確率分布のグラフ表示を示す図である。 サンプル1と2のペアについての反復パターンの長さの測定された確率分布の例、ならびに参照として想定された他のサンプルに対する各サンプルの反復パターンの長さの予想される確率分布を示す図である。 サンプル1および2のペアについての反復パターンの長さの測定された確率分布の別の例、ならびに参照として想定された他のサンプルに対する各サンプルの反復パターンの長さの予想される確率分布を示す図である。 サンプル1と2のペアについての反復パターンの長さの測定された確率分布の別の例、ならびに参照として想定された他のサンプルに対する各サンプルの反復パターンの長さの予想確率分布を示す図である。 本開示による洗練されたバリアント呼び出し方法の可能な全体的なフローチャートであり、これにより、感度および特異性が向上した反復パターンバリアントを正確に特定することが可能になる図である。 参照として想定された8つのサンプルをそれぞれ互いに一致させる例示的な表を示しており、ここで、サンプルS1、S2、およびS3は、変異(0/0)を保有しないものとして互いに一致する。 参照として想定された8つのサンプルをそれぞれ互いに一致させる別の例示的な表を示しており、ここで、サンプルS2、S7、およびS8は部分的にのみ互いに一致し、S2とS7およびS7とS8は変異はないが(0/0)、S2とS8はヘテロ接合性変異(-1/0)を保有している。 参照として想定される8つのサンプルをそれぞれ互いに一致させる別の例示的な表を示しており、ここで、サンプルS1、S2およびS6は互いに一致せず、S2とS6との間に関連する一致(NA/NA)は見出されない。 提案されたマッチング方法を繰り返した後、参照として想定される8つのサンプルをそれぞれ互いに一致させる別の例示的な表を示す図である。 参照として想定される8つのサンプルをそれぞれ互いに一致させる例示的な表におけるサンプルの可能なグループ化を示す図である。 サンプルのプール内の野生型ヒトゲノム参照に対応するサンプルのグループを識別するための提案された方法の論理フローチャートである。 変異した患者サンプルと野生型サンプルの混合物を含む実験プールからのCHEK2遺伝子での例示的な反復ホモポリマーパターンのNGSデータカバレッジを示す図である。 パターン長の対応する測定分布を示す図である。 変異した患者サンプルと野生型サンプルの混合物を含む実験プールからのRAD54L遺伝子上の例示的な反復ホモポリマーパターンのNGSデータカバレッジを示す図である。 パターン長の対応する測定された分布を示す図である。 変異した患者サンプルと野生型サンプルの混合物を含む実験プールからのATM遺伝子での例示的な反復ホモポリマーパターンのNGSデータカバレッジの図である。 パターン長の対応する測定された分布を示す図である。 異なる変異を有する患者サンプルの混合物を含む実験プールからのATM遺伝子での例示的な反復ヘテロポリマーパターンのNGSデータカバレッジの図である。 パターン長の対応する測定された分布を示す図である。
次世代シーケンシング解析システム
図1は、DNA濃縮アッセイ100、次世代シーケンサ110、およびゲノムデータアナライザ120を含む例示的なゲノム解析システムを示す。
NGS実験室では、DNAサンプルのプールがDNA濃縮アッセイ100によって処理され、次世代シーケンサ110に入力されるDNAフラグメントとして、プールされたアンプリコン(アンプリコンベースの濃縮の場合)またはフラグメント(プローブベースの濃縮の場合)のライブラリを生成し、アンプリコン/フラグメントの各セットは異なるサンプルに対応している。アンプリコン/フラグメントの数は、アプリケーションによって異なる。一部のゲノム解析実験では、サンプルゲノムからターゲットとなる75の異なる領域を濃縮するために、ターゲットエンリッチメントは150のプライマーを必要とする場合があり、各サンプルに対して75のアンプリコンのセットが生成される結果となる。サンプルの数はまた、次世代シーケンシングシーケンサ110の並列処理能力に適合させることができ、例えば、プールされたアンプリコンのライブラリの形態の48サンプルは、Illumina MiSeqシーケンサによって並列に配列決定されてよい。Roche 454(商標)GS JuniorまたはGS FLX、Illumina MiSeq(登録商標)、Life Technologies Ion PGM(商標)シーケンサなどの他のNGSシーケンサ技術が使用されてもよい。
次世代シーケンサ110は、入力サンプルを分析し、生のNGSシーケンシングデータを表すコンピュータ可読ファイル形式でシーケンスリードを生成する。NGS技術に応じて、1つまたは複数のファイルが、NGSシーケンサ110によって出力されてよい。いくつかの実施形態では、例えば Illuminaシーケンサを使用して、FASTQファイル形式は、順方向および逆方向のリードのために2つの異なるファイルで使用されてよい、または単一の結合ファイルとして使用されてもよい。このテキストファイルは通常、「@」の開始文字でマークされたシーケンスヘッダーで始まり、その後に「A」、「T」、「C」、「G」ヌクレオチド文字の文字列として表される1行のシーケンス情報が続き、その後に「+」の開始文字でマークされた品質ヘッダーが続き、1行の品質メトリック、読み取られた各ヌクレオチドに一致する1つの品質スコアが続く。シーケンス情報文字列内の各ヌクレオチドの品質メトリックの形式は、シーケンサによって異なる場合がある。一部のレガシーシーケンサは、生のシーケンシングデータをSFF(Standard Flowgram Format)バイナリファイル形式で出力し、これは、有益なヘッダーとリードデータで構成される。他の実施形態も可能であり、例えば、いくつかの従来の Rocheシーケンサは、単一の患者分析のために複数のFASTQファイルを出力し、他のシーケンサ、例えば、Ion Torrent PGMシーケンサは、.basecaller.bamファイル拡張子から認識され得るように、圧縮されたマッピングされていないBAMファイル形式に移行した。通信システムの当業者に知られているように、実験室は、結果として得られた生のNGSシーケンシングデータファイルを実験室バイオバンクに保存するためにコンピューティングインフラストラクチャを稼働させる。実験室コンピューティングインフラストラクチャは、認証資格情報を用いて、通信ネットワークを介してゲノムデータアナライザ120に接続し、生のNGSシーケンシングファイルを含むゲノム解析要求をゲノムデータアナライザ120に送信する。
ゲノムデータアナライザ120コンピュータシステム(本明細書では「システム」でもある)120は、シーケンシングデータの受信および/または結合および/またはシーケンシングデータへの注釈付けなどの、異なるゲノムデータ解析法を実施するようにプログラムされる、または他の方法でそのように構成される。
ゲノムデータアナライザ120は、中央処理装置(CPU、本明細書では「プロセッサ」または「コンピュータプロセッサ」)、RAMなどのメモリおよびハードディスクなどの記憶装置、ならびに例えばインターネットやローカルネットワークなどの通信ネットワークを介して他のコンピュータシステムと通信するための通信インターフェイスを含むコンピュータシステムであってよい、またはそのようなコンピュータシステムの一部であってもよい。ゲノムデータアナライザコンピューティングシステム、環境、および/または構成の例には、これらに限定されないが、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータシステム、メインフレームコンピュータシステムなどが含まれる。いくつかの実施形態では、コンピュータシステムは、1つまたは複数のコンピュータサーバを含んでよく、これらは、他の多数の汎用または特殊目的のコンピューティングシステムで動作可能であり、例えば、ゲノムデータファームにおけるクラウドコンピューティングなどの分散コンピューティングを可能にし得る。いくつかの実施形態では、ゲノムデータアナライザ120は、超並列システムに統合されてもよい。いくつかの実施形態では、ゲノムデータアナライザ120は、次世代シーケンシングシステムに直接統合されてもよい。
ゲノムデータアナライザ120コンピュータシステムは、コンピュータシステムによって実行されるプログラムモジュールなどのコンピュータシステム実行可能命令の一般的な状況に適合させることができる。一般に、プログラムモジュールには、特定のタスクを実行したり、特定の抽象データ型を実装したりするルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などが含まれてよい。コンピュータプログラミングの当業者によく知られているように、プログラムモジュールは、ネイティブオペレーティングシステムおよび/またはファイルシステム機能、スタンドアロンアプリケーション、ブラウザまたはアプリケーションのプラグイン、アプレットなど、Python、Biopython、C/C++、またはその他のプログラミング言語でプログラミングできる商用またはオープンソースのライブラリおよび/またはライブラリツール、PerlまたはBioperlスクリプトなどのカスタムスクリプトを使用してよい。
命令は、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散型クラウドコンピューティング環境で実行されてよい。分散型クラウドコンピューティング環境では、プログラムモジュールは、メモリストレージデバイスを含むローカルおよびリモート両方のコンピュータシステムストレージ媒体に配置されてよい。
図1に示されるように、ゲノムデータアナライザ120は、生のNGSシーケンシングデータを参照ゲノムと比較する配列アラインメントモジュール121を含んでよい。配列アラインメントモジュール121は、異なるアラインメントアルゴリズムを実行するように構成されてよい。多数のゲノムデータシーケンシングリードの高速処理用に最適化されたBowtie2またはBWAなどの標準的な生データアライメントアルゴリズムが使用されてよいが、他の実施形態も可能である。アラインメントの結果は、バイオインフォマティクスの当業者に知られているように、BAMまたはSAM形式の1つまたは複数のファイルとして表すことができるが、ストレージの最適化および/またはゲノムデータプライバシー施行に関するゲノムデータアナライザ120の要件に応じて、圧縮形式や、順序保持暗号化用に最適化された形式など他の形式が使用されてもよい。
得られたアラインメントデータは、SNPおよびINDEL多型情報などのバリアント情報を検索するために、バリアント呼び出しモジュール122によってさらにフィルタリングされ分析されてよい。バリアント呼び出しモジュール122は、異なるバリアント呼び出しアルゴリズムを実行するように構成されてよい。次に、結果として検出されたバリアント情報は、ゲノムデータアナライザモジュール120によって、例えば視覚化ツールを用いてエンドユーザによるさらなる処理のためのゲノムバリアントレポートとして、および/またはさらなるバリアント注釈処理モジュール(図示せず)によって出力されてよい。
ゲノムデータアナライザ120は、プロセッサを用いて、入力シーケンシングデータおよび対応する遺伝的状況、サンプルタイプまたは実験室プロセス特性などのDNA濃縮状況、ターゲットエンリッチメントターゲットキットまたはキャプチャプローブアッセイ特性などのDNA濃縮技術、および/またはNGSシーケンシング技術を一意に決定する特性のセットを自動的に検出するように適合されてよい。次世代シーケンシングの当業者に明らかであるように、これらの実験的特性は、配列アラインメントおよび/またはバリアント呼び出し結果に特定のバイアスを引き起こす可能性がある。
したがって、提案されたゲノムデータアナライザシステム120は、異なる遺伝子の異なるサンプルに対して異なるシーケンサ技術および異なるDNA濃縮技術を独立して作用させる、異なる研究室からの次世代シーケンシングゲノム解析要求に役立つことができる。提案されたゲノムデータアナライザシステム120は、実験室から受信した入力データおよび要求から特性のセットを自動的に検出し、そして、それぞれの異なる生物学的ワークフローによって引き起こされる可能性のあるデータのバイアスを最小限に抑えるために時間を消費し、コストがかかる手動の設定を必要とせずに、配列アラインメントモジュール121およびバリアント呼び出しモジュール122の構成をそれに応じて適合させることができる。
当業者には明らかであるように、同じゲノムアナライザ120で機能している複数の調達実験室のために数十または数百の異なる臨床検査室の設定が存在する場合があり、この数および多様性は、NGSベースの個別化された医療の臨床診療が発展するにつれて、追加の技術およびアッセイの展開とともにさらに増大する可能性が高い。
検出されたゲノム実験特性に応じて、ゲノムデータアナライザ120は、追加のデータ処理ステップを作動するように、および/またはゲノム実験特性によって引き起こされるデータバイアスが最小限に抑えられるように構成パラメーターの異なるセットを使用するように配列アラインメントモジュール121を構成してよい。
検出された入力特性に応じて、ゲノムデータアナライザは、追加のデータ処理ステップを作動するように、および/またはゲノム実験特性によって引き起こされるデータバイアスが最小限に抑えられるように構成パラメーターの異なるセットを使用するように、バリアント呼び出しモジュール122をさらに構成することができる。
配列アラインメントモジュール121による初期の配列アラインメントの結果に応じて、ゲノムデータアナライザ120は、アラインメントデータを分析するときに明らかになる次世代シーケンシングデータアラインメントバイアスを識別するようにさらに適合されてよい。したがって、ゲノムデータアナライザは、生のNGSシーケンシングデータのリアライメントの追加のステップを実行するように配列アライメントモジュール121を構成することができる。このリアライメントは、初期のアライメント結果から決定され得る、追加のパラメーターによって制約される可能性がある。可能な実施形態では、リアラインメントは、特にゲノムシーケンスのサブ領域に適用される。結果として生じるリアライメントデータは、バリアント呼び出しモジュール122によってさらにフィルタリングおよび分析されて、バリアント検出のための感度および特異性が向上した状態で、より関連性の高いゲノムバリアントレポートを出力することができる。
バリアント呼び出しモジュール122によるバリアント呼び出しの結果に応じて、ゲノムデータアナライザ120は、アラインメントデータ上でバリアントを呼び出すときに明らかになるバリアント呼び出しバイアスを識別するようにさらに適合されてよい。ゲノムデータアナライザは、アラインメントデータのすべてまたは一部に対してバリアントを再度呼び出す追加のステップを実行するように、バリアント呼び出しモジュール122をそれに応じて構成することができる。この洗練されたバリアント呼び出しステップは、以前のアラインメントおよび/またはリアラインメントおよび/またはバリアント呼び出し結果から決定され得る追加のパラメーターによって制約される場合がある。可能な実施形態では、バリアントは特に、整列されたゲノムデータのサブセットに対して呼び出される。結果として得られる洗練されたバリアント呼び出しデータは、バリアント呼び出しモジュール122による標準のバリアント呼び出し結果とさらに組み合わされて、バリアント検出の感度および特異性が向上した状態で、より関連性の高いゲノムバリアントレポートを出力することができる。可能な実施形態では、バリアント呼び出しモジュール122によって、バイアスされている可能性があると識別されたいくつかのバリアント呼び出し結果はゲノムバリアントレポートから除外されてもよく、その結果、バリアント検出の感度および特異性が向上した状態で、より関連性の高いゲノムバリアントレポートが、ゲノムデータアナライザ120によって生成される。
図2はそれに応じて、ゲノムデータアナライザ120の可能なゲノム解析ワークフローを示しており、これは、
-次世代シーケンシング分析要求を受信すること200と、
-次世代シーケンシング分析要求に関連付けられた特性の第1のセットを識別し211、特性の第1セットは少なくとも、ターゲット濃縮技術識別子、シーケンシング技術識別子、およびゲノムコンテキスト識別子を含むことと、
-特性の第1のセットの少なくとも1つの特性に従って入力シーケンシングデータを整列させるようにデータアライメントモジュール121を構成すること231と、
-構成されたデータアラインメントモジュール121を用いて、入力シーケンシングデータをゲノムシーケンスに整列させ232、アラインメントデータを生のアラインメントデータファイルに報告することと、
-生のアラインメントデータファイルからアラインメントデータに関連付けられた特性の第2のセットを識別し212、特性の第2のセットは、少なくともデータアラインメントパターン識別子を含むことと、
-特性の第1のセットの少なくとも1つの特性および特性の第2のセットの少なくとも1つの特性に従って、入力シーケンシングデータの少なくとも1つのサブセットを洗練するようにデータアラインメントモジュール121を構成すること233と、
-構成されたデータアラインメントモジュール121を用いて、入力シーケンシングデータのサブセットを洗練して234、洗練されたアラインメントデータファイルを生成することと、
-洗練されたアラインメントデータファイルからのリアラインメントデータに関連付けられた特性の第3のセットを識別し213、特性の第3のセットは、少なくともゲノムコンテキスト識別子を含むことと、
-特性の第1のセットの少なくとも1つの特性、特性の第2のセットの少なくとも1つの特性、および特性の第3のセットの少なくとも1つの特性に従って、洗練されたアラインメントデータに関連付けられたバリアントを検出するようにバリアント呼び出しモジュール122を構成すること241と、
-洗練されたアラインメントデータにおいて、構成されたバリアント呼び出しモジュール122を用いて、ゲノムバリアントの第1のセットを検出すること242と、
-検出されたゲノムバリアントに関連付けられた特性の第4のセットを識別し214、特性の第4のセットは、少なくともバリアント呼び出し洗練識別子を含むことと、
-特性の第1のセットの少なくとも1つの特性、特性の第2のセットの少なくとも1つの特性、特性の第3のセットの少なくとも1つの特性、および特性の第4のセットの少なくとも1つの特性に従って、洗練されたアラインメントデータに関連付けられたバリアントを検出するようにバリアント呼び出しモジュール122を構成すること243と、
-洗練されたアラインメントデータおよび検出されたゲノムバリアントにおいて、構成されたバリアント呼び出しモジュール122を用いて、洗練されたゲノムバリアントを検出して244、ゲノムバリアントの洗練されたセットを生成することと、
-洗練されたゲノムバリアントのセットを報告すること250と
を含む。
したがって、汎用の多目的ゲノムデータアナライザ120は、
各臨床分析の生物学的設定と診断状況の各組み合わせに適合するために、専用の手動の構成または包括的なメタデータ文書化を必要とせずに、複数の調達研究所によって運営される多様な臨床設定から受け取った生の次世代シーケンシングデータからの複数の異なるゲノムバリアントの分析および報告を容易にする。
洗練されたバリアント呼び出し方法-例示的なワークフロー
より正確な反復パターン(ホモポリマーおよび/またはヘテロポリマー)バリアント識別のための提案された洗練されたバリアント呼び出し方法244の例示的な実施形態を、ここでより詳細に説明する。図2の完全に自動化されたゲノムデータ分析ワークフローは、少なくとも1つの次世代シーケンシング実験室から供給されたゲノムデータで作用する。
一例として、実験室は、Ion TorrentシーケンサおよびIntegrated DNA TechnologiesのxGen Lockdown Probesを操作して、乳がん、卵巣がん、胃腸の遺伝性がんに関連する可能性のある最大27個の遺伝子のゲノムバリアントを識別することができる。ヒトゲノミクスの当業者に明らかなように、それらのゲノムバリアントのいくつかは、例えば(非網羅的リスト)22番染色体の29130814位にあるCHEK2ゲノム領域の13Aヌクレオチドの反復、1番染色体の46739975位にあるRAD54Lゲノム領域の14Tヌクレオチドの反復、または11番染色体の108195977位にあるATMゲノム領域の19Tヌクレオチドの反復などの野生型ヒト参照染色体のかなり長いホモポリマー領域に対応する。
別の例として、実験室は、この特定のアンプリコンベースのキットでカバーされるCFTR遺伝子のゲノムバリアントを識別するためのターゲット濃縮技術として「Multiplicom CFTR MASTR(商標)Dxアッセイ」を備えた Illumina MiSeq(登録商標)シーケンサを操作する場合がある。TGジヌクレオチド(ヘテロポリマー)の反復の数は、通常、ヒト7番染色体のCFTR遺伝子では11であるが、9(2つの欠失)から14(3つの挿入)の反復まで様々である。後者のバリアントは、CFTR遺伝子のエクソン9のスプライシングに影響を及ぼし、CFTR遺伝子がまたポリチミジントラクト上に5Tホモポリマーのみの短縮バリアントを保持している場合、嚢胞性線維症に関連しており、これは、典型的には7Tヌクレオチド反復のものであり、5から9Tヌクレオチドの反復まで変化する可能性がある。さらに、12または13のTGヘテロポリマーの反復は、あまり一般的ではない嚢胞性線維症の病状にも関連するが、11のTGジヌクレオチドの反復は疾患との関連性が低い(Hefferon等、「A variable dinucleotide repeat in the CFTR gene contributes to phenotype diversity by forming RNA secondary structures that alter splicing」、Proc Natl Acad Sci USA 101:3504-3509、2004-http://www.pnas.org/content/101/10/3504.long)。
第1の特性、すなわち、ターゲット濃縮技術識別子、シーケンシング技術識別子、および/またはゲノムコンテキスト識別子の少なくとも1つの関数として、ゲノムデータアナライザ120は、第1の生のデータアライメントを実行する232ようにデータアラインメントモジュール121を構成する231。データアラインメントモジュール121はまた、リードからアッセイ特異的アダプタを除去するなどの前処理ステップを実行してもよい232。
データアラインメントモジュール121は、バイオインフォマティクスの当業者に知られている生データアラインメントアルゴリズムを用いて、前処理された生のシーケンシングデータを参照ゲノムシーケンスにアラインメントして232、データアラインメントファイルを生成する。多数のゲノムデータシーケンシングリードの高速処理用に最適化されたBowtie2またはBWAなどの標準アルゴリズムが使用されてよいが、他の実施形態も可能である。結果として得られるデータアラインメントファイルは、BAMまたはSAM形式の1つまたは複数のファイルとして表されてもよいが、他の実施形態も可能であり、特に、データアラインメントモジュール121は、ゲノム解析ワークフロー処理に沿ったストレージの最適化および/またはゲノムデータプライバシー施行に関するゲノムデータアナライザ120の要件に応じて、例えば、順序保存暗号化、同形暗号化、対称暗号化および/または非対称暗号化スキームおよび/またはそれらの組み合わせによって、アラインメントの圧縮および/または暗号化などの後処理ステップを実行することもできる232。
次に、ゲノムデータアナライザ120は、データアラインメント232の結果から、アラインメントおよび/またはバリアント呼び出しアルゴリズムの洗練を必要とする特定のデータアラインメントパターンなどの特性の第2のセットを自動的に導出することができる212。ゲノムデータアナライザは、例えば、プライマーのミスプライミングが原因である可能性があるため、特にリードの開始時および/または終了時にアラインメントの不一致の存在を検出する場合がある(「ソフトクリッピング」)。アンプリコンベースの技術におけるこの頻繁なバイアスは、実際に次のいずれかを引き起こす可能性があり、
偽陽性、参照ゲノムにミスアライメントされるのに十分なリードにミスプライミングアーティファクトが存在し、これにより、DNAサンプルのSNPとして誤ったバリアント呼び出し242解釈が発生する場合、
偽陰性、アラインメントモジュール121が特定のリードでのミスプライミングアーティファクトと、他のリードでの正しいアンプリコンデータを区別できず、対応する領域がデータアラインメントモジュール121によってソフトクリップされ、これにより、バリアント呼び出し242が正しいアンプリコンデータで病理学的関連性の可能性のある変異を見逃すことになる場合である。
ソフトクリップパターンは、データアラインメントモジュール121の生のアラインメントアルゴリズム232によって適切にアラインメントできなかったリードの5’または3’境界でのシーケンシングデータに対応する。ソフトクリップされたアライメントは、アライメントデータファイルのCIGAR文字列で明確にマークされているため、データアライメント232の後で、対応するパターンを簡単に識別することができる。次世代シーケンシングの当業者に知られているように、ソフトクリッピング情報はその後、潜在的な臨床的関連性の構造的バリアントをさらに検出するために、特定のアルゴリズムを用いてゲノム解析ワークフローに再マッピングされてよい。
したがって、ゲノムデータアナライザ120は、データアラインメント232の結果から、ソフトクリッピング領域を有するリードを自動的に識別し212、アライメントアルゴリズムで、特に、特定のDNA濃縮技術に対応するプライマーアンカー情報を考慮することによって、これらのリードに対してさらなるデータリアライメントを操作する234ようにデータアライメントモジュール121を構成してよい233。バイオインフォマティクスの当業者には明らかであるように、たとえ計算効率が低くても、Bowtie2またはBWAよりも堅牢なアルゴリズムが、とりわけこれらの領域で使用されてもよい。実際、NGSデータ全体のサブセットのみをこのようにリアラインさせる必要があり、提案されたワークフローは完全に自動化されるため、ゲノムデータアナライザ120の全体的な計算効率性能は大きな影響を受けることがなく、その一方で、データリアライメント洗練の自動化により、ゲノムデータアナライザ120の特異性および感度を、従来技術の研究の実施の手動の試行錯誤の設定で得られるものに匹敵するように高めることが可能である。このようなアルゴリズムの例は、例えばSuzuki等による「ClipCrop:a tool for detecting structural variations with single-base resolution using soft-clipping information」、BMC Bioinformatics 2011 12(Suppl 14):S7、およびSchroder等による 「Socrates:identification of genomic rearrangements in tumour genomes by re-aligning soft clipped reads」、Bioinformatics(2014)に記載されているが、他の実施形態も可能である。特に、最も効率的なリアライメントアルゴリズムは、提案されたゲノムデータアナライザ120によって、ゲノムコンテキストおよび生のアライメントデータソフトクリップパターンの両方の関数として自動的に構成されてよい233。
ゲノムコンテキスト識別子に応じて、ゲノムデータアナライザ120はまた、アラインメントデータから、ホモポリマー領域、ヘテロポリマー領域、またはより一般的には特定の反復パターンを有する任意の領域など、アラインメントが特に困難ないくつかの領域の存在を識別してもよい。対応する次世代シーケンシングリードの適切なアラインメントは、これらの複数の反復によってアラインメントの曖昧さが生じるため、特に困難である。したがって、ゲノムデータアナライザ120は、生データアラインメント232の結果から、それらの曖昧な領域と重複するリードの洗練を必要とする特定のゲノムコンテキストを自動的に識別してよい212。ゲノムデータアナライザ120はこれに従って、例えば、PCRエラー率を考慮し、リードを互いに比較することなどによって、他の可能なアラインメントソリューションを特定するために、それらのリードに対してさらなるデータリアラインメント234を操作するようにデータアラインメントモジュール121を構成してよい233。
次に、ゲノムデータアナライザ120は、ターゲット濃縮技術識別子を使用して、最初に識別されたゲノムコンテキスト識別子(例えば、CHEK2、ATM、BRCA2、CFTR…)および生アライメント結果(例えばデータ中の特定のホモポリマー反復パターンの存在)から識別された特定のゲノムコンテキストの洗練に従って、異なるバリアント呼び出しアルゴリズムを実行するようにバリアント呼び出しモジュール122を構成してよい241。バリアント呼び出しモジュール122は、洗練されたアラインメントデータに対してバリアントを呼び出して242、第1のVCFファイルを生成する。場合によっては、結果として生じるバリアントは、ゲノムデータアナライザ120によって報告されるほど十分に正確ではない場合がある。
次に、反復パターントラクトをより最適に識別するのに適した、洗練されたバリアント呼び出し方法244の可能な実施形態を、より詳細に説明する。バイオインフォマティクスの当業者に知られているように、ゲノムデータアナライザ120は、サンプルが、同じ配列決定実行でプールされた多様な患者に対応する生のNGSシーケンシングデータを実験室から受け取ることができる。ホモポリマーまたはヘテロポリマーのヌクレオチドの反復が存在する場合、DNA配列決定実験の精度が低くなるため、サンプルに実際に変異がない場合でも、誤った挿入や欠失が検出される可能性がある。最先端の実験室での実践では、ホモポリマーの最大30%が欠落し、よってこれらの領域のシーケンシングエラーによる欠失として分析される場合があり、これは有意な統計的バイアスを導入し、これによりゲノム解析の精度を低下させる。一部の実験室では、患者データに加えて野生型サンプルの対照データを配列決定することもあり、これらはすべて同じ実験プロセス(DNAキャプチャ100およびNGシーケンサ110)で生成されるため、対照データ参照を使用してデータのバイアスをなくし、そして、例えば、同時係属中の欧州特許出願WO/2018/104466号に記載されているように、特徴付けが特に困難である反復ゲノムコンテキストにおいてさえ、バリアント呼び出しを容易にすることができる。ただし、実験室の設定によっては、対照データが利用できない場合がある。このような設定では、潜在的に測定にバイアスをかける根本的なシーケンシングエラーについての何の手がかりもなしに、例えばCHEK2遺伝子でのAホモポリマートラクト、RAD54L遺伝子でのTホモポリマートラクト、ATM遺伝子でのTホモポリマートラクト、CFTR遺伝子でのTGヘテロポリマートラクトなど、反復配列パターンの長さを適切に推定することが難しいため、正確なバリアント呼び出しは困難である。実際、反復パターンの測定された長さは、実験バイアスと実際のゲノムバリアントの両方に依存する可能性のある反復パターンの長さの離散確率分布(「分布長」)に従っている。ゲノム解析ワークフローの感度と特異性を高めるために、測定データにおける実験バイアスの寄与を可能な限り減らすことが望ましい。これは、サンプル測定値の1つがヒトゲノム参照に対応する(つまり、いかなるバリアントも保有していない)という仮定の下で、サンプル測定値をクロス分析することによって達成されてよい。次に、推定された参照サンプル測定値を参照データとして使用して、バリアントモデルを予測することができ、これに対して、洗練されたバリアント呼び出し方法244は次に、互いのサンプルの測定値を一致させ、これによりこれらのサンプルのより正確なバリアント識別を可能にする。
例えば、係属中の欧州特許出願EP16202691.8に記載されているように、長さの分布は、十分なカバレッジを有するゲノムシーケンスデータリードのセットにおける反復パターンの絶対的な長さの離散確率分布として測定されてよい。別の可能な実施形態では、分布長は、理論上のヒトゲノム参照パターンに対して(これはまた変異なしで最も一般的に見られる野生型サンプルに対応する)、十分なカバレッジを有するゲノムシーケンスデータリードのセットにおける反復パターンの相対的な長さ(欠失または挿入を示す)の離散正規化確率分布として測定されてもよい。本開示を通して、相対的な長さは、提案された方法の理解を容易にするために考慮されるが、当業者に明らかであるように、提案された方法は、相対的な長さ測定の単純なシフトとして絶対的な長さ測定にも適用される。
ゲノムの状況に応じて、反復パターンは、単一ヌクレオチドの反復として、ホモポリマーであってもよい。CHEK2ゲノム解析アプリケーションでは、ホモポリマーはポリAパターンである場合があり、このパターンの絶対的な長さは通常11~15の反復の範囲で測定されるか、相対的な長さは-2(2つの欠失)から+2(2つの挿入)の範囲内で測定されてもよく、0は、変異のない13Aヌクレオチドの野生型反復パターンを表している。RAD54Lゲノム解析アプリケーションでは、ホモポリマーはポリTパターンである場合があり、このパターンの絶対的な長さは通常9~13の範囲で測定されるか、相対的な長さは-2(2つの欠失)から+2(2つの挿入)の範囲内で測定されてもよく、0は、変異のない11Tヌクレオチドの野生型反復パターンを表している。ATMゲノム解析アプリケーションでは、ホモポリマーはポリTパターンである場合があり、このパターンの絶対的な長さは通常17~21の範囲で測定されるか、相対的な長さは-2(2つの欠失)から+2(2つの挿入)の範囲内で測定されてもよく、0は、変異のない19Tヌクレオチドの野生型反復パターンを表している。
ゲノムの状況に応じて、反復パターンは、ペアまたはトリプレットまたはそれ以上のヌクレオチドの反復として、ヘテロポリマーであってもよい。CFTRの例では、反復パターンはTGヘテロポリマー反復である場合があり、このパターンの絶対的な長さの範囲は11であり得る。CFTRゲノム解析アプリケーションでは、ヘテロポリマーはジヌクレオチドTGパターンであってよく、このパターンの絶対的な長さは通常、9から14の範囲で測定されるか、相対的長は-2(2つの欠失)から+3(3つの挿入)の範囲内で測定されてもよく、0は変異のない11TGジヌクレオチドの野生型反復パターンを表している。
それぞれ、CHEK2、RAD54LまたはATM、およびCFTRゲノム解析の例示的な用途において、洗練されたバリアント呼び出し方法244は、対応するゲノムバリアントをより最適に特徴付けるために、ポリAホモポリマートラクト、ポリTホモポリマートラクト、またはポリTGヘテロポリマートラクトの長さをそれぞれ評価してよい。パターン反復の長さを正確に推定するために、バリアント呼び出し方法244は、実験エラーによって引き起こされるバイアスを最小限に抑える必要がある。これは、入力データの様々な仮説について、考えられる各反復配列パターンで様々な挿入および欠失シナリオの予想される分布の長さを推定し、かつ最適な一致(「最適なバリアントモデル」)を選択することによって実現されてよい。
バイオインフォマティクスの当業者に明らかであるように、この方法は、次世代シーケンシングリードが十分に大きな統計的カバレッジを有する場合、反復パターン長の推定の精度を大幅に改善するであろう。生物学の当業者には、人間の操作者が、野生型参照および/または患者のDNAサンプル中の反復パターントラクトの実際の長さを識別するための簡単な方法がなく、したがって次世代シーケンサで配列決定された患者のDNAサンプルデータの実際の分析を容易にするために、1つまたは複数のコンピュータプロセッサを使用して信号処理自動化方法を採用することに大きな利点があることも明らかである。
バイアスがサンプルのプール内のすべてのサンプルに等しく適用されるという仮定の下で、それは特に野生型サンプルにも適用される。したがって、野生型サンプルに対応すると想定される、プール内の別のサンプルに対して、サンプルデータにバリアントモデルを最適化することを提案する。同時係属中の欧州特許出願EP16202691.8の方法では、野生型サンプルが対照データサンプルである。対照データサンプルがプールに存在しない場合、以下でさらに詳細に開示されるように、他のサンプルに対して各サンプルをクロス分析することによって、異なる仮説が実行され検証されてもよい。
バリアントモデルのサンプル間の最適なフィッティング
ヒトゲノム参照の反復パターントラクトに対する患者サンプルの反復パターントラクトの長さの理論的分布は、変異および実験エラーバイアスのない対照データサンプルについて、および単一の塩基性モチーフ欠失変異のシナリオ、例えば、ホモポリマーゲノム領域CHEK2(参照ホモポリマーパターン長REF=13)またはATM(参照ホモポリマーパターン長REF=19)における単一対立遺伝子の1つのヌクレオチドの欠失、あるいはヘテロポリマーゲノム領域CFTR(参照ヘテロポリマーパターン長REF=11)における単一の対立遺伝子の1つのジヌクレオチド(2つのヌクレオチド)の欠失などのシナリオについて、それぞれ図3に示されている。このヘテロ接合欠失は、参照に対する一方の対立遺伝子での-1反復パターン長の差、およびもう一方の対立遺伝子での0反復パターン長の差として表される。これは、各対立遺伝子が分布長測定の50%に寄与する理想的な理論的ケースに対応しており、したがって、それぞれ(REF-1)反復パターンの長さとREF反復の長さがリアライメントデータから測定されると予想され、反復パターントラクトの長さの正規化された離散確率分布でそれぞれ0.5の等しい確率を有する。
ヒトゲノム参照における反復パターントラクトに対する患者サンプルにおける同じ反復パターントラクトの長さの例示的な測定された分布がそれぞれ、変異を伴わないが実験誤差バイアスの影響を受ける実験データセットについて図4に示されており、これにより(図4の上の表)2つの欠失(対照カバレッジデータの10%)または1つの欠失(対照カバレッジデータの20%)の誤ったより短い長さの測定、および1つの挿入(対照カバレッジデータの10%)の誤ったより長い長さの測定が生じ、その結果、カバレッジデータの60%しか反復する領域の実際の長さに対応せず、例えば、ヒトゲノム参照のCHEK2遺伝子に変異がない標準的なホモ接合13-AパターンのREF=13Aヌクレオチドの実際の長さ、またはヒトゲノム参照ののATM遺伝子に変異がない標準的なホモ接合性19-TパターンのREF=19Tヌクレオチドの実際の長さに応する。患者データのパターン長の測定された離散確率分布はそれに従ってバイアスされることになり、この実験によって誘発されたバイアスをこれにより、感度と特異性を向上させるための考えられる各変異バリアントシナリオのパターン長の予想される離散確率分布を推定する際に考慮に入れることができる。一例として、図4の下の表は、ヒトゲノム参照に対する単一の塩基性モチーフ欠失のシナリオ、例えば、CHEK2遺伝子ポリAホモポリマートラクトあるいはATMまたはRAD54L遺伝子ポリTホモポリマートラクトの単一の対立遺伝子の1つのヌクレオチドの欠失のシナリオについての(ヘテロ接合欠失-パターン長=一方の対立遺伝子のREF-1、およびもう一方の対立遺伝子のパターン長=REF)、パターン長推定の結果として予想される離散確率分布を示している。変異した対立遺伝子1では、ヌクレオチドの塩基性モチーフの実際の欠失のために、パターン長の確率分布全体が左にシフトされる可能性がある。両方の対立遺伝子が全体の測定データに等しく寄与するため、野生型データからの実験誤差バイアスを考慮しながら、それらの寄与を単純に合計して平均し、この単一欠失変異シナリオのパターン長の予想される確率分布を提供することができ、この例の図では、単一欠失変異患者データの5%が3つの欠失を保持している、15%が2つの欠失を保持している、40%が1つの欠失を保持している(正しい結果)、35%が変異なし、および5%が塩基モチーフの単一の挿入を保持している、例えば、RAD54LまたはATM遺伝子のポリTホモポリマートラクトのTヌクレオチド、またはCFTR遺伝子のポリーTGヘテロポリマートラクトのTGジヌクレオチドなどとして測定されることを予測することができる。
図5a)は、実験バイアスにより、変異のない(0/0シナリオ)野生型データでも次の誤った確率分布測定、すなわち、変異なしの40%の測定、単一欠失の30%の測定(0を中心とする参照と比較した-1の長さ)、単一挿入の30%の測定(0を中心とする参照と比較した+1の長さ)が発生する場合の、ホモ接合性二重欠失(左上-0を中心とする参照と比較した-2の長さ)からホモ接合型二重挿入(右下-0を中心とする参照と比較して+2の長さ)に及ぶ多様なゲノムバリアントシナリオモデルについてのゲノム参照反復パターン長に対する反復パターン長の例示的な予想される離散確率分布を示す。
したがって、統計学の当業者に明らかなように、バリアント呼び出しモジュール122はこれにより、例えば図5a)によって示されるように、各シナリオの長さの予想される正規化された離散確率分布で、例えば図5b)によって示されるように、患者データの長さの測定された正規化離散確率分布を比較するために、例えば統計的距離測定などの異なる方法を適用することができる。次に、バリアント呼び出しモジュール122は、最小の推定距離をもたらすバリアントシナリオ(最適モデル)として最も近い比較シナリオを選択することができる。
相対的な長さ(ヒトゲノム参照における野生型反復長lに対する挿入または欠失の数)または絶対的な長さのいずれかを使用して分布を表すことができ、一方は、他方と比較した参照座標の単純なシフトである。最初の対立遺伝子のヌクレオチドパターンのR反復と、2番目の対立遺伝子のR反復のバリアントシナリオはこれにより、絶対座標でバリアントシナリオ[R|R]として、または相対座標では[V|V]=[R-l|R-l]として表されてよく、ここで、lはヒトゲノム参照の反復の数である。
したがって、可能な実施形態では、患者データ内の長さの測定された離散確率分布と、最初の対立遺伝子のヌクレオチドパターンのR反復と2番目の対立遺伝子のRの反復のバリアントシナリオ[R|R]の長さの予想される離散確率分布との間の統計的距離は、それぞれの正規化された離散確率分布を表すベクトル間のユークリッド距離として計算されてよい。あるいは、可能な実施形態では、ヒトゲノム参照に対する患者データ内の長さの測定された離散確率分布と、最初の対立遺伝子のヌクレオチドパターンのR反復と2番目の対立遺伝子のRの反復のバリアントシナリオ[V|V]=[R-l|R-l]の長さの予想される離散確率分布との間の統計的距離は、
それぞれの確率分布を表すベクトル間のユークリッド距離として計算されてもよい。
統計分析の当業者に明らかであるように、様々な方法を適用して、最適モデルを決定することができる。可能な実施形態では、測定された統計分布と予想される統計分布との間の平均二乗誤差の最小化が使用されてもよい。より一般的には、ユークリッド距離や1-ノルム距離などのn-ノルム距離を最小化することが可能である。バイオインフォマティクスの当業者には明らかであるように、他の統計的適合方法を使用して、例えば、Utirametur等による米国特許出願第2014/0052381号に記載されている方法のいくつかなど、最適モデルを決定することができる。
図5の例示的な例(相対的な長さ座標を使用する)では、[0/1]バリアントシナリオが、ヒトゲノム参照に対する反復パターンゲノムバリアントの最適モデルとして、それに応じて選択されることになる(ヘテロ接合単一挿入、例えばCHEK2[13A/14A]の例では、一方の対立遺伝子に13-A、もう一方の対立遺伝子に14-Aがある)。
上記の提案された方法は、実験対照データカバレッジが、野生型の実験測定バイアスを表すように利用可能である場合、つまり、対照データサンプルが実験室プールに含まれている場合、患者サンプルデータにおける反復パターン(例えば、CホモポリマーまたはTGヘテロポリマー塩基性モチーフの反復)の長さのバイアスされないそれぞれの確率分布を確実に推定することを可能にする。ただし、すべてのゲノム解析設定がそのような対照の野生型データを提供するわけではない。したがって、実際のサンプル(複数可)が患者プール内の野生型(「参照」)データを表す可能性がある様々な仮説をさらに検討する必要がある。これは、場合によっては反復パターンの変異を誤認している測定バイアスで、それらのうちの1つが野生型サンプルに対応するかどうかを判断するという試みにおいて(野生型サンプルバリアントは、最初にバイアスされた観測に関係なく、洗練されたバリアント呼び出し244の後に[0|0]と呼ばれる必要がある)、患者1と患者2それぞれの2つのサンプルを互いに比較する最も単純なケースにおいて、このような仮説の例をプロットした図6、図7、および図8の例証でよりよく理解されるであろう。
図6では、サンプル1の相対的反復パターン長の測定された分布は、0(変異なし)を中心とする単峰性であるが、サンプル2の相対反復パターン長の測定された分布は、それぞれ-2(2つの欠失)および+1(1つの挿入)を有する二峰性である。サンプル1の測定された分布が実験バイアスのある野生型の測定に対応するという仮説では、サンプル2の測定された分布と、サンプル1に対するサンプル2の1つの対立遺伝子の2つの欠失と、1つの対立遺伝子の1つの挿入のバリアントモデル[-2|1]の予測された分布との間の最小の可能な距離d=0として、完全な一致を見い出すことができる。サンプル2の測定された分布が実験バイアスのある野生型の測定に対応するという仮説では、サンプル1の測定された分布と、サンプル2に対するサンプル1の1つの対立遺伝子の1つの欠失と、1つの対立遺伝子の2つの欠失のバリアントモデル[-1|2]の予測された分布との間に一致を見つけることはできない(d=0.95)。この例では、バリアント呼び出し方法244により、ゲノムデータアナライザ120は、反復パターン長が、野生型(例えば、CHEK2での13Aヌクレオチド、RAD54Lでの11Tヌクレオチド、ATMでの19TまたはCFTR13Aでの11TG)に対応する、両方の対立遺伝子での患者1のヒト参照ゲノムと同じであることを十分に確信して識別することが可能になり、一方で、患者2に関して、反復パターン長は、1つの対立遺伝子で2ヌクレオチド短くなり(例えばCHEK2での11Aヌクレオチド、RAD54Lでの9Tヌクレオチド、ATMでの17T、またはCFTRでの9TG)、また他方の対立遺伝子でのヒト参照ゲノムと比較して1ヌクレオチドだけ長くなる(例えばCHEK2での14Aヌクレオチド、RAD54Lでの12Tヌクレオチド、ATMでの20T、または12TGでのCFTR)。
図7において、サンプル1の相対的反復パターン長の測定された分布は、0(変異なし)を中心とする単峰性であり、一方、サンプル2の相対的反復パターン長の測定された分布は、1(1つのホモ接合性欠失)を中心とする単峰性である。サンプル1の測定された分布が実験的バイアスのない野生型の測定に対応するという仮説(0を中心としているため)では、サンプル2の測定された分布と、サンプル1に対するサンプル2の単一ヌクレオチドホモ接合性欠失のバリアントモデル[-1|-1]の予測分布との間の可能な最小距離d=0として、完全な一致を見い出すことができる。サンプル2の測定された分布が、ホモ接合性欠失の実験的バイアスを伴う野生型測定に対応するという仮説では(-1を中心としているため)、サンプル1の測定された分布と、サンプル2に対するサンプル1の単一ヌクレオチドホモ接合性挿入のバリアントモデル[+1|+1]の予測分布との間の可能な最小距離d=0としても完全な一致を見い出すことができる。この例では、サンプル1またはサンプル2が野生型に対応するかどうかを区別することが可能であり、ゲノムデータアナライザ120がサンプル1とサンプル2に対して確信を持って実際のバリアントを識別することを可能にするために、他のサンプルとのさらなるクロス分析がバリアント呼び出し方法244にとって必要となる。
図8では、サンプル1の相対的反復パターン長の測定された分布は、-1(1つの欠失)と+2(2つの挿入)にそれぞれ2つのピークがある二峰性であるのに対して、サンプル2の相対的な反復パターン長の測定された分布は、-1(1つの欠失)と+1(1つの挿入)との間を中心とする単峰性である。サンプル1の測定された分布が、実験的バイアスのある野生型の測定に対応するという仮説では、サンプル2の測定された分布と、サンプル1に対するサンプル2の単一ヌクレオチドヘテロ接合欠失のバリアントモデル[-1|0]の予測された分布との間の距離d=0.467で最適な一致を見い出すことができる。サンプル2の測定された分布が、実験的バイアスのある野生型測定に対応するという仮説では、サンプル1の測定された分布と、サンプル2に対するサンプル1の1つの対立遺伝子での1つのヌクレオチドの欠失と2番目の対立遺伝子での2つのヌクレオチドの挿入のバリアントモデル[-1|+2] の予測された分布との間の可能な最小距離d=0.363で最適な一致を見い出すことができるこの例では、どのサンプルが野生型に対応するかに関係なく、バリアント呼び出し方法244では、ゲノムデータアナライザ120が患者1と患者2の反復パターン長を十分な信頼性で識別できないことが分かる。ただし、さらに詳細に説明するように、より多くの患者サンプルをクロス分析することで、なおもそれを識別できる場合がある。
マルチサンプルクロス分析
図9のワークフローによって示されるように、本明細書で提案される一般的なアプローチは、サンプルのプール内の各サンプルを、作業仮説として可能性のある野生型(WT)参照サンプルとして連続して考察することで成り立っている。この方法は、前のセクションで説明したように、サンプルの各ペアの信頼水準を使用して最適モデルを計算することから始めることができる。図6、図7および図8の例によって以前に示されたように、サンプルの各ペアの分析は、特定のレベルの信頼性を備えた最適モデルを提供し得る。サンプル間の最適モデルが最初に特定されると、さらなるサンプルのクロス分析が可能な各トリプレットで進行して、それらに最適に一致する最適モデルならびに対応する信頼水準を特定してよい。各作業仮説の全体的な信頼水準は、反復パターンの長さの測定された分布と、それらが各クロス分析の反復において洗練されたときに一致する最適なバリアントモデルとの間の距離の関数として繰り返し計算されてよい。上記の仮定の下で複数のサンプルをクロス分析するように様々なアルゴリズムを設計することで、それらは限られた回数繰り返した後に収束するようになる。次に、野生型に対応するサンプルを識別する(洗練されたバリアント呼び出し方法244によって、変異なしのホモ接合性として識別される必要がある)ことで、プール測定での実験的バイアスの可能性(これにより、反復パターンゲノム領域の測定データに非洗練バリアント呼び出しを適用する場合の変異の誤った検出が生じることになり得る)を考慮に入れることが可能になる。
サンプルのプールには、野生型パターンを保有するサンプルがいくつか存在する場合がある。したがって、サンプルをクロス分析した後、それらをグループ化してみると有利である。次に、特定のヒューリスティックを適用して、野生型に対応する可能性が最も高いグループを特定することができ、例えば、
ほとんどの実験的バイアスは両方の対立遺伝子に無差別に適用されるため、ホモ接合型バリアントを含むサンプルは、ヘテロ接合型バリアントを含むサンプルよりも野生型サンプルである可能性が高くなる。
複数の欠失バリアントを持つサンプルは野生型サンプルである可能性があるが(次世代シーケンサがヌクレオチドをスキップすることが原因であり得る)、この仮説に従って洗練されたバリアント呼び出し244の後、他のすべてのサンプルにはまだ既知の可能な範囲のバリアントが含まれているはずである(例えばCFTRの場合、ヒトゲノム参照と比較してTGパターンの欠失は2つ以下である)。言い換えると、この作業上の仮定は、他のサンプルに、もっともらしいバリアントモデルをそれらに最適に適合させるのに十分な観測されたパターン長がある場合にのみ考慮することができる。
クロスサンプル統計分析に基づいてサンプルのプール内の、野生型に対応するサンプルのグループを特定することにより、洗練されたバリアント呼び出し方法244は、これにより、プール内の各サンプルの反復パターンバリアントを、最も高い信頼水準での野生型バイアスの作業仮説から導出されるバリアントとしてより正確に特徴付けることができる。したがって、提案されたゲノムデータアナライザ120は、複数の患者サンプルの反復パターンバリアントをより正確に検出し244、より正確に報告する250ことになる。
可能な実施形態において、反復パターンバリアントを、患者サンプルのゲノムシーケンスの少なくとも2つのヌクレオチド(ホモポリマーの場合)または少なくとも2つのヌクレオチド群(ヘテロポリマーの場合:ジヌクレオチド、ヌクレオチドのトリプレットなど)の反復パターンとして識別するための洗練されたバリアント呼び出し方法244は、これにより、
(a)参照反復パターンPref=N*lを、ヒトゲノム参照シーケンスのゲノム領域におけるl(l>=2)ゲノムパターンNの反復として識別することと、
(b)次世代シーケンサを使用して、n個の濃縮されたゲノム患者サンプルのプールから、参照反復パターンゲノム領域をカバーする次世代シーケンシングデータリードのn個の患者セットS={S、S、...、S、…、S}を取得し、各セットSは患者サンプルに関連付けられており、濃縮されたゲノム患者サンプルの数nは少なくとも4であることと、
(c)患者サンプルのセットS内の各患者サンプルiについて、次世代シーケンシングリードのセットS内の反復パターンの長さの分布Pを測定することと、
(d)患者サンプルiとjの可能なペアについて、j>iであり、
(d1)サンプルjについて、サンプルiが、各対立遺伝子について野生型ヒトゲノム参照ホモポリマーパターンPref=N*lを保有するという仮定の下で、信頼水準Lj|iでのサンプルjの2つの対立遺伝子バリアントの最適モデル
、ならびにサンプルjの測定された分布Pと最適なバリアントモデル
の予測された単峰性または二峰性分布との間の最小距離Dj|iを推定することと、
(d2)サンプルiについて、サンプルjが各対立遺伝子について野生型ヒトゲノム参照ホモポリマーパターンPref=N*lを保有するという仮定の下で、信頼水準Lj|iでのサンプルiの2つの対立遺伝子バリアントの最適モデル
、ならびにサンプルiの測定された分布Pと最適バリアントモデル
の予測された単峰性または二峰性分布との間の最小距離Di|jを推定することと、
(d3)Di|j≧Dj|iの場合、サンプルのペア(i、j)について、2つの対立遺伝子バリアントの最適なバリアントモデルとして最適モデル
を選択し、サンプルiをペア(i、j)の参照サンプルとして、この最適な一致の信頼水準値として信頼水準Lij=Lj|iを選択することと、
(d4)それ以外のDi|j<Dj|iである場合、サンプルのペア(i、j)について、2つの対立遺伝子バリアントの最適バリアントモデルとしてモデル
を選択し、サンプルjをペア(i、j)の参照サンプルとして、この最適な一致についての信頼水準値として信頼水準Lij=Li|jを選択することと、
(e)患者サンプルi、j>i、k>jの可能なトリプレットごとに、それぞれの最適モデル


を比較することであって、
(e1)患者サンプルのトリプレットの3つの最適モデルがすべて互いに一致する場合、信頼水準Lij、Ljk、Likを増加させ、
(e2)それ以外の場合、3つの最適モデルが互いに一致せず、サブセットの中で最も信頼水準が低い最適モデルを、サブセットの他の2つのサンプルから計算された最適モデルに置き換え、患者サンプルのトリプレットのすべての最適モデルの信頼水準Lij、Ljk、Likを低下させることと、
(f)結果が変化しなくなるまでステップ(e)を繰り返すことと、
(g)同一の最適なバリアントモデルのグループを一致させ、野生型バリアントを保有する可能性が最も高いグループを識別することと、
(h)野生型バリアントを保有するグループからの各サンプルについて、識別された野生型グループの最適なバリアントモデルの関数として、このサンプルを含むグループの最適なバリアントモデルのバイアスを解除し、サンプルについてバイアスのないバリアントを報告することとを含む。
統計学の当業者に明らかなように、信頼水準は、最初に推定され、異なる数学的方法によってさらに洗練されてよい。可能な実施形態では、患者サンプルiおよびj、j>iの任意のペアについて、推定の信頼水準Lij
は、最初に
のように計算され、
ここで、Dj|iは最小距離であり、Dj|iはステップd1)で計算された2番目に小さい距離であり、Di|jは最小距離であり、Di|j’はステップd2)で計算された2番目に小さい距離である。Lij信頼水準値はこれにより、[0,1]の範囲の浮動値であり、値1はiまたはjのいずれかの最大信頼水準を参照として定量化しており、値0は、例えば参照としてiとjを区別することが不可能な場合の最小信頼水準を定量化している。
可能な実施形態では、一致する最適モデルのトリプレットサブセットi、j、kの各ペアの信頼水準は、ステップe1)において、以下のようにそれぞれ増加されてよい。
ij’=1-(1-Lij)(1-Ljk*Lik
jk’=1-(1-Ljk)(1-Lij*Lik
ik’=1-(1-Lik)(1-Lij*Ljk
可能な実施形態では、最小の初期信頼水準がLikである一致しない最適モデルのトリプレットサブセットi、j、kの各ペアの信頼水準は、ステップe2)でそれぞれ以下のように低下されてよく、
ij’=Lij-(1-Ljk)*Lik
jk’=Ljk-(1-Lij)*Lik
ik’=max(0、Lij*Ljk-Lik
また、サブセットの中で信頼水準が最も低いペアj、kの最適モデルは、
のように、トリプレット内のサンプル間推移性を仮定することにより、サブセットjの他の2つのサンプルから計算された最適モデルに置き換えることができる。
特に、異なるタイプのヘテロ接合性変異を比較できない場合、
の結果は、クロス分析から除外される場合があり([NA|NA]):
1.
(サンプルiまたはサンプルkのいずれかでヘテロ接合性変異を示す)およびDi|k>Dk|i(サンプルkがホモ接合性であることを示す)および
(サンプルjまたはサンプルkのいずれかでヘテロ接合性変異を示す)およびDj|k>Dk|j(サンプルkがホモ接合性であることを示す)および
または
(サンプルiとサンプルkにおいて同じタイプのヘテロ接合性変異がないことを示す)、
2.
は[NA|NA]に等しい、または
は[NA|NA]に等しい。
別の特定のケースでは、
は[NA|NA]に等しい場合、この結果はサンプルiまたはサンプルjのシーケンシングノイズが原因である可能性があるため、トリプレットの他の2つのサンプルから上記と同じ式で結果を再測定することができる。
に対応する信頼水準は、それ以外の場合は次のように推定されてよい。
ij.k=Lik*Lkj
iとjのペアごとに、
およびLij.k値の最大でn-2の結果が、こうしてトリプレットから導出されてよく、ここで、nは患者サンプルの数である。また、
およびLij.0=Lij、から始まり、各ペアiおよびjについて、k=0からn、k≠i、k≠jで、
およびLij.kの最大でn-1の結果が存在する。
上記のステップa)からf)により、サンプルのプールからのデータをクロス分析することにより、最も可能性の高い最適なバリアントモデルを識別することが可能になる。次に、図10から図13に示されるように、上記で提案されたクロスサンプル比較方法の例示的な適用について説明する。
図10では、サンプルi=1とサンプルj=2は、信頼水準L12=0.46で、相互に変異がない最適なバリアントモデル、
に関連付けられており、サンプルi=1とサンプルj=3は、信頼水準L13=0.60で、相互に変異がない最適なバリアントモデル
に関連付けられており、サンプルi=2とサンプルj=3は、信頼水準L23=0.32で、相互に変異がない最適なバリアントモデル
に関連付けられている。患者サンプルのトリプレット(1,2,3)の最適モデルは互いに一致するため、対応する信頼水準L12、L13、L23は、L12’=0.564、L23’=0.518、およびL13’=0.659としてそれぞれ増加する可能性がある。
図11では、サンプルi=2とサンプルj=7は、信頼水準L27=0.18で、相互に変異がない最適なバリアントモデル
に関連付けられており、サンプルi=2とサンプルj=8は、信頼水準L28=0.10で、サンプル8に対するサンプル2の1つのヘテロ接合欠失の最適なバリアントモデル
に関連付けられており、サンプルi=7とサンプルj=8は、信頼水準L78=0.68で、相互に変異がない最適なバリアントモデル
に関連付けられている。クロスサンプル2と7および7と8および2と8のサブセットの最適モデルは互いに一致せず、信頼水準L28=0.10はトリプレットの最低値であるため、サンプル2とサンプル8の最適モデル
は、一致するサブセットの
のもので置き換えることができ、対応する信頼水準L27、L28、L78はそれに応じて、それぞれL27’=0.148、L78’=0.598、L28’=0.022として低下される。
図12では、サンプルi=1とサンプルj=2は、信頼水準L12=0.46で、相互に変異がない最適なバリアントモデルに関連付けられており
、サンプルi=1とサンプルj=6は、信頼水準L16=0.67で、相互に変異がない最適なバリアントモデル
に関連付けられており、ただし、サンプルi=2とサンプルj=6は、前のステップで信頼性が低い(NA)ものとして分類されている。サンプル2とサンプル6の最適モデル
は、一致するサブセットのもの
、信頼水準L26.1=0.308に置き換えることができる。サンプル2とサンプル6の間の[NA|NA]はトリプレットに対するいかなる情報にも寄与しないため、信頼水準L12とL16は変更されないままである。
図13は、最も可能性の高い最適なバリアントモデルと、提案された方法を4回繰り返した後に収束した値に対応する修正された信頼水準の例示的な表を表す。繰り返しの回数は、入力データの品質とプール内のサンプル数によって異なる場合があり得るが、一般には、方法がプール内の一貫した結果に収束するには、数回の繰り返しで十分である。
より一般的には、ステップ(f)からの最適モデルは、サンプルG(1≦r≦q)の各グループ内で、すべての結果が互いに一致するような
値に基づいてサンプルのq個の異なるグループ(1≦q≦n-1)にグループ化されてよい。したがって、結果が[NA|NA]のサンプルは、このステップでは考慮されない。このグループの全体的な信頼水準はその後、次のように計算されてよい。Lij.Gr=1-ΠkεGr(1-Lij.k
例えば、グループ1にクロス分析の信頼水準がそれぞれ0.5、0.4、0.3の3つのサンプルが含まれている場合、このときLij.G1=1-(1-0.5)(1-0.4)(1-0.3)=0.79である。
ステップe)から複数のグループ(q>1)が存在する場合、信頼水準Lij.Ghが最も高いグループGを選択し、ステップf)のp回目の繰り返しの前に、
の繰り返しpでの新しい値として、このグループの値
を設定することができる。
次に、ペアiとjの新しい信頼水準は、次のように増加または低下されて計算されてよい。
ij.new=max(0、1-(1-Lij.Gh)*Π1≦r≦q、r≠h(1-Lij.Gr-1
例えば、信頼水準0.9、0.8、0.7に対応して3つのグループG、G、Gがある場合、グループGの信頼水準は0.9が最も高いため、
の新しい結果として
を設定する。そして、新しい信頼水準は次のようになってよい、
ij.p=max(0,1-(1-0.9)(1-0.8)-1(1-0.7)-1)=max(0、-0.67)=0。
繰り返しステップf)による上記のすべてのステップによってすべてのクロスサンプル最適モデル
および対応する一致レベルLijは、すべてのサンプルペアiおよびjの新しい結果に更新されてよい。次に、任意のペアiとjに複数のグループ(q>1)がある場合(つまり、結果に矛盾があることを意味する)、繰り返し全体を反復すべきであるが、すべてのiとjのペアが1つのグループのみを生成する場合(つまり、すべての結果は互いに一致し、安定した値に達することを意味する)、繰り返しはステップf)で停止されてよい。
野生型に対応するサンプルの最も可能性の高いグループの選択
すべてのサンプルのデータのバイアスを解除するには、識別された最適なバリアントモデルのグループのどのサブセットが野生型参照に対応するかを特定する必要があり、これらのサブセットには変異はないが、次世代シーケンシングワークフロープロセスによって単独でバイアスされている可能性がある。図13の例では、すべての収束モデルが[0|0]として互いに一致している、つまり、相互に変異がないため、すべてのサンプルが同じ野生型参照であることを容易に導き出すことができる(報告するバリアント変異は識別されてい)。ただし、図14の例では、クロス分析を繰り返した後の最適なバリアントモデルは、サンプルの2つのグループ、つまりグループ1={S1、S3、S4、S5、S6、S7、S8}と、グループ3={S2}において一致させることができる。後者の場合、どのグループが野生型を持っている可能性が最も高いかを特定する必要がある。
可能な実施形態では、患者サンプルのゲノムシーケンスにおける反復パターンバリアントを検出および特徴付けるための洗練されたバリアント呼び出し方法244およびゲノムデータアナライザ120は、サンプルのプールのクロス分析から、最大数のサンプルi、j、…が関連付けられているホモ接合性の最適なバリアントモデルグループ[V|V]を野生型として選択することによって、患者サンプルのプール内で野生型参照に対応する1つまたは複数のサンプルのサブセットを識別することを含んでよい。
より一般的には、患者サンプルのゲノムシーケンスにおける少なくとも2つのヌクレオチドの反復パターンとしてホモポリマーバリアントを検出および報告する250ための洗練されたバリアント呼び出し方法244およびゲノムデータアナライザ120は、追加の仮説が満たされている、ホモ接合性の最適なバリアントモデル[V|V]を野生型として選択することにより、患者サンプルのプール内で野生型参照に対応する1つまたは複数のサンプルのサブセットを識別することを含んでよい。
例えば、グループGが野生型参照に関連付けられており、V=-1である場合、洗練されたバリアント呼び出し方法244およびゲノムデータアナライザ120は、例えば、シーケンシングエラーのために最初はより短く測定された可能性がある、次世代シーケンシングリードでグループG[-1|-1]についての実際に測定されたホモポリマー長の最適モデルに関係なく、ヒトゲノム参照(相対的な長さ[0|0])に対応するものとしてグループGのサンプル中の反復パターンバリアントを識別してよい。
図14の例では、1つのグループ(グループ1)のみが、ホモ接合性の最適なバリアントモデルに関連付けられている。したがって、このグループは、ここでは観測バイアスなしで、野生型に一致するものとして識別されることになる([0|0]最適なバリアントモデル)。他のグループ2では、単一のサンプル2は、洗練されたバリアント呼び出し方法244によって特徴付けられ、ゲノムデータアナライザ120によって、ヒトゲノム参照に対するヘテロ接合性挿入を保有するものとして報告される250(バイアスのない野生型バリアントモデル[0|0]に対する[0|1]最適バリアントモデル)。
可能な実施形態では、そのホモ接合状態および/またはそれらのサイズに従って分類した後、3つ以上の野生型グループ候補が存在する場合、結果が可能な限り統計的にロバストであることを保証するために、さらなる仮説が検討されてもよい。例えば、サンプルのプールで識別されたすべてのバリアントは生物学的に可能である必要がある。したがって、可能な実施形態では、患者サンプルのゲノムシーケンス中の少なくとも2つのヌクレオチドの反復パターンとしてホモポリマーバリアントを検出するための洗練されたバリアント呼び出し方法244およびゲノムデータアナライザ120は、したがって、患者サンプルのプール内で野生型参照に対応する1つまたは複数のサンプルのサブセットを識別することをさらに含んでよく、これは、
(g1)1つまたは複数のサンプルペアのグループGについて識別された可能な各最適なバリアントモデル
について、バリアントがホモ接合性であるかどうかを識別し
、そうでなければ、サンプルのプールについての野生型参照として、最適なバリアントモデル
を排除することと、
(g2)ホモ接合性の最適なバリアントモデル
の各グループGについて、最適なバリアントモデル
のグループG’の互いについて、
ホモ接合性の最適なバリアントモデル
が野生型であるという仮説の下で、
が可能なバリアントであるかどうかを検証する、
例えば、
および/または
の場合、
の最適バリアントモデルでの反復パターンの長さが、もっともらしい欠失バリアントとして検出されるには十分長いことを検証する、または、
および/または
である場合、
の最適バリアントモデルでの反復パターンの長さが、もっともらしい挿入バリアントとして検出されるには十分短いことを検証する、それ以外の場合は、最適なバリアントモデル
を野生型参照として排除することと、
(g3)ホモ接合性の最適なバリアントモデル
の残りの各グループについて、各グループにおける平均ホモポリマー長
と標準偏差SDに基づいてエラー率を推定し、
が最も近い整数
に十分に近い場合(事前定義されたしきい値 しきい値_hの範囲、例えば0~0.1の範囲内)、つまりabs(
)<しきい値_hであり、かつSDが事前定義されたしきい値 しきい値_sd(例えば、0から0.1の範囲で選択された)を下回るのに十分小さい場合、つまり、SD<しきい値_sdの場合、ホモ接合性の最適なバリアントモデル
を、エラー率の低い野生型参照として選択し、このグループGに関連するすべてのサンプルi、j、…をヒトゲノム参照反復パターンを保有するものとして報告し、それ以外の場合は、サンプル数が最も多いホモ接合性の最適バリアントモデル
のグループを野生型として選択することとによって行われる。
図15は、提案されたバリアント呼び出し洗練方法244によって、プロセッサを用いて適用され得るような、上記の野生型グループ選択論理の単純化された可能なワークフローを示している。
提案されたゲノムデータアナライザ120は、数千の調達実験室の機能を果たすことが可能であり、複数の濃縮技術で処理され、多様な次世代シーケンシング(NGS)プラットフォームで配列決定された数十万の臨床サンプルからのデータを処理する。提案されたゲノムデータ分析方法と組み合わせたこの豊富なデータセットを利用することにより、バイオインフォマティクスの専門家による手動のアルゴリズムの構成および微調整に匹敵する提案された自動ワークフローの感度および特異性で、堅牢で正確なバリアント呼び出し結果に到達することができる。さらに、提案された完全自動のゲノムデータアナライザ120システムはこれにより、調達実験室によるその特定のNGSゲノム解析ワークフローの個別の設定や微調整を必要とせずに展開、テスト、検証できるため、ヨーロッパおよび世界中の何千人もの患者の個別化された精密医療へのアクセスを加速することになる。
実験データ
提案されたゲノムデータアナライザ120は、ソフィア・ジェネティクスデータ駆動型医療(DDM)ゲノム解析ソフトウェアプラットフォームに適合されて、従来のNGSワークフローに対して、ヒト遺伝子中のホモポリマーバリアントの改善された検出244および報告250ための補足的方法として提案された方法を実施する。
図16)は、変異した患者サンプルと野生型サンプルの混合物を含む実験プールからのCHEK2遺伝子上の例示的な反復ホモポリマーパターンのNGSデータカバレッジを示し、図17)は、パターン長の対応する測定分布を示している。シーケンシングワークフローでは1つの欠失のバイアスが導入されるため、野生型のCHEK2反復パターン長は13回ではなく12回の反復を中心とする。実験プールには、10回の反復を中心としたサンプルも含まれる。提案された方法のおかげで、バイアスが修正され、ゲノムデータアナライザは野生型バリアント(変異なし)ならびに修正されたバリアント(11回の反復、つまり野生型と比較してパターンの2つの欠失)を正しく報告する。
図18)は、変異した患者サンプルと野生型サンプルの混合物を含む実験プールからのRAD54L遺伝子上の例示的な反復ホモポリマーパターンのNGSデータカバレッジを示し、図19)は、パターン長の対応する測定分布を示している。シーケンシングワークフローでは、2つの欠失のバイアスが導入されるため、野生型のRAD54L反復パターン長は14回ではなく12回の反復を中心とする。実験プールには、11回の反復を中心としたサンプルも含まれる。提案された方法のおかげで、バイアスが修正され、ゲノムデータアナライザは野生型バリアント(変異なし)ならびに修正されたバリアント(12回の反復、つまり野生型と比較してパターンの1つの欠失)を正しく報告する。
図20)は、変異した患者サンプルと野生型サンプルの混合物を含む実験プールからのATM遺伝子上の例示的な反復ホモポリマーパターンのNGSデータカバレッジの図を示し、図21)は、パターン長の対応する測定分布を示している。シーケンシングワークフローでは、1つの欠失のバイアスが導入されるため、野生型のATM反復パターン長は19回ではなく15回の反復を中心とする。実験プールには、13回の反復を中心としたサンプルも含まれる。提案された方法のおかげで、バイアスが修正され、ゲノムデータアナライザは野生型バリアント(変異なし)ならびに修正されたバリアント(17回の反復、つまり野生型と比較してパターンの2つの欠失)を正しく報告する。
図22)は、異なる変異を有する患者サンプルの混合物を含む実験プールからのCFTR遺伝子上の例示的な反復ヘテロポリマーパターンのNGSデータカバレッジの図を示し、図23)は、パターン長の対応する測定された分布を示している。野生型のCFTR TG反復パターン長は、ヒトゲノムの参照長と同じ11回の反復を中心としているが、シーケンシングワークフローは、シーケンスの約30%に1つの欠失のバイアスを導入しており、これは、ヘテロ接合性欠失と同様である。実験プールには、各対立遺伝子が10~12回の反復を中心とするサンプルのすべての組み合わせも含まれる。提案された方法のおかげで、バイアスが修正され、ゲノムデータアナライザは野生型バリアント(変異なし)ならびにバリアントのすべての組み合わせを正しく報告する。
したがって、提案されたバイオインフォマティクス法を用いて変異パネルに基づくNGSアッセイを最適化することにより、ゲノム解析にとって大幅に低いコストで、サンガーシーケンシングの標準的な方法に匹敵する改善された感度と特異性を提供することが可能である。提案された方法はまた、次世代シーケンシングプラットフォームによって導入される実験的バイアスに関係なく、これらの変異を検出する際の従来技術のNGSワークフローの性能も改善する。現在の用途には、様々な遺伝性疾患および癌などの体細胞疾患の診断、新生児および保因者のスクリーニングが含まれる。
他の実施形態および用途
様々な実施形態が上で説明されてきたが、それらは例示として提示されたものであり、限定ではないことを理解されたい。関連技術の当業者には、精神および範囲から逸脱することなく、形態および詳細の様々な変更を行うことができることが明らかであろう。実際、上記の説明を読んだ後、関連技術の当業者には、代替の実施形態をどのように実施するかが明らかになるであろう。
特に、ゲノミクスおよび個別化医療の当業者に明らかであるように、提案された方法は、本開示全体を通して特定の例に記載されるような短いヌクレオチド反復(ホモポリマーまたはヘテロポリマー)遺伝子構築物の特性に限定されない。CHEK2、RAD54L、ATM、BRCA、およびCFTR遺伝子の分析の例が本明細書に記載されているが、医療ゲノミクスの実践の他の分野では、特定の遺伝子領域のゲノム解析を特定の病状に関連付ける研究はいまだ進行中である。したがって、これらの例示的な遺伝子以外のゲノム領域が反復パターンによって特徴付けられ、将来の医学研究活動によって異なる診断に関連付けられるのであれば、提案された洗練されたバリアント呼び出し方法244は、したがってそのような領域においてバリアント検出を改善するために適用されてもよい。これは、例えば、ゲノム編集された動物モデルの最近の開発が複数の変異の研究を加速している神経疾患の分野の場合である可能性があるが、例えばハンチントンおよび運動失調症におけるCAGポリグルタミン(polyQ)反復バリアントなど、特定のヘテロポリマー反復トと特定の疾患との間には既に既知の関連がある。
デジタルデータ通信の当業者に明らかであるように、本明細書に記載の方法は、データファイルまたはデータストリームなどの様々なデータ構造に無差別に適用されてよい。したがって、「データ」、「データ構造」、「データフィールド」、「ファイル」、または「ストリーム」という用語は、本明細書全体を通して無差別に使用されてよい。
当業者には明らかであるように、本明細書に記載の方法は、確率表現および統計的測定などの様々な統計的方法に無差別に適用されてよい。したがって、「分布」、「可能性」、「確率」という用語は、本明細書全体を通して無差別に使用されてよい。
上記の詳細な説明は多くの特定の詳細を含むが、これらは実施形態の範囲を限定するものとして解釈されるべきではなく、単にいくつかの実施形態の一部の例示を提供するものとして解釈されるべきである。
様々な実施形態が上で説明されてきたが、それらは例示として提示されたものであり、限定ではないことを理解されたい。関連技術の当業者には、精神および範囲から逸脱することなく、形態および詳細の様々な変更を行うことができることが明らかであろう。実際、上記の説明を読んだ後、関連技術の当業者には、代替の実施形態をどのように実施するかが明らかになるであろう。
さらに、機能性および利点を強調する図は、例示のみを目的として提示されていることを理解されたい。開示された方法は、示されている以外の方法で利用され得るように、十分に順応性があり、そのように構成することが可能である。
「少なくとも1つ」という用語は、明細書、特許請求の範囲、および図面でしばしば使用され得るが、「1つの(a)」、「1つの(an)」、「その(the)」、「前記(said)」などの用語もまた、明細書、特許請求の範囲、および図面において「少なくとも1つ」または「その少なくとも1つ」を表す。
この明細書全体を通して、複数の例は、単一の例として記述された構成要素、操作、または構造を実装してよい。1つまたは複数の方法の個々の操作は、別個の操作として図示され説明されているが、1つまたは複数の個々の操作は同時に実行されてもよく、例示される順序で操作を実行する必要はない。例示的な構成において別個の構成要素として提示される構造および機能は、組み合わされた構造または構成要素として実施されてもよい。同様に、単一の構成要素として提示される構造および機能は、別個の構成要素として実装されてもよい。これらの、および他の変形形態、修正形態、追加、および改良は、本明細書の主題の範囲内にある。
特定の実施形態は、論理またはいくつかのコンポーネント、モジュール、ユニット、またはメカニズムを含むものとして本明細書に記載されている。モジュールまたはユニットは、ソフトウェアモジュール(例えば、機械可読媒体または送信信号で具体化されたコード)またはハードウェアモジュールのいずれかを構成してよい。「ハードウェアモジュール」は、特定の操作を実行できる有形のユニットであり、特定の物理的な方法で構成または配置されてよい。様々な例示的な実施形態では、1つまたは複数のコンピュータシステム(例えば、スタンドアロンコンピュータシステム、クライアントコンピュータシステム、またはサーバコンピュータシステム)あるいはコンピュータシステムの1つまたは複数のハードウェアモジュール(例えば、プロセッサまたはプロセッサのグループ)は、本明細書に記載される特定の操作を実行するように動作するハードウェアモジュールとして、ソフトウェア(例えば、アプリケーションまたはアプリケーション部分)によって構成されてよい。
いくつかの実施形態では、ハードウェアモジュールは、機械的に、電子的に、またはそれらの任意の適切な組み合わせで実装されてよい。例えば、ハードウェアモジュールには、特定の操作を実行するように永続的に構成された専用の回路またはロジックが含まれてもよい。例えば、ハードウェアモジュールは、フィールドプログラマブルゲートアレイ(FPGA)やASICなどの専用プロセッサである場合がある。ハードウェアモジュールはまた、特定の操作を実行するためにソフトウェアによって一時的に構成されるプログラマブルロジックまたは回路を含む場合もある。例えば、ハードウェアモジュールは、汎用プロセッサまたは他のプログラム可能なプロセッサ内に含まれるソフトウェアを含んでもよい。ハードウェアモジュールを機械的に、専用の恒久的に構成された回路に、または一時的に構成された回路(例えば、ソフトウェアによって構成された)に実装する決定は、コストおよび時間の考慮によって決められてよいことが理解されよう。
本明細書に記載の例示的な方法の様々な動作は、関連する動作を実行するように一時的に(例えば、ソフトウェアによって)または恒久的に構成された1つまたは複数のプロセッサによって、少なくとも部分的に実行されてよい。一時的または恒久的に構成されているかどうかにかかわらず、そのようなプロセッサは、本明細書に記載の1つまたは複数の操作または機能を実行するように動作するプロセッサ実装モジュールを構成してよい。本明細書で使用される場合、「プロセッサ実装モジュール」は、1つまたは複数のプロセッサを使用して実装されたハードウェアモジュールを指す。
同様に、本明細書に記載の方法は、少なくとも部分的にプロセッサで実装されてよく、プロセッサはハードウェアの一例である。例えば、方法の動作の少なくともいくつかは、1つまたは複数のプロセッサまたはプロセッサ実装モジュールによって実行されてよい。
本明細書で論じられる主題のいくつかの部分は、機械メモリ(例えば、コンピュータメモリ)内にビットまたはバイナリデジタル信号として格納されたデータに対する操作のアルゴリズムまたは記号表現に関して提示されてよい。そのようなアルゴリズムまたは記号表現は、データ処理技術の当業者が彼らの仕事の実体を当業者に伝えるために使用する技術の例である。本明細書で使用される場合、「アルゴリズム」は、所望の結果につながる、首尾一貫した一連の操作または同様の処理である。この文脈において、アルゴリズムと操作には、物理量の物理操作が含まれる。
本発明の主題の概要は、特定の例示的な実施形態を参照して説明されてきたが、本発明の実施形態のより広い精神および範囲から逸脱することなく、これらの実施形態に対して様々な修正および変更を行うことができる。例えば、様々な実施形態またはその特徴は、当業者によって組み合わされる、適合される、または任意選択にされてもよい。本発明の主題のそのような実施形態は、単に便宜のために、そして本出願の範囲を、複数のものが実際に開示されている場合、任意の単一の発明または発明の概念に自発的に限定することを意図することなく、「発明」という用語によって、個別にまたは集合的に本明細書において言及されてよい。
本明細書に示される実施形態は、当業者が、開示された教示を実践することを可能にするのに十分詳細に説明されると考えられている。本開示の範囲から逸脱することなく、構造的および論理的置換および変更を行うことができるように、他の実施形態が使用され、そこから導き出すことができる。したがって、詳細な説明は限定的な意味で解釈されるべきではなく、様々な実施形態の範囲は、そのような請求項が権利を与えられる等価物の全範囲とともに、添付の特許請求の範囲によってのみ定義される。
さらに、本明細書で単一の例として説明されるリソース、操作、または構造のために、複数の例が提供されてもよい。さらに、様々なリソース、操作、モジュール、エンジン、およびデータストア間の境界はやや恣意的であり、特定の操作は特定の例示的な構成の文脈で示されている。機能の他の割り当てが想定され、本発明の様々な実施形態の範囲内に含まれてよい。一般に、例示的な構成において別個のリソースとして提示される構造および機能は、組み合わされた構造またはリソースとして実装されてもよい。同様に、単一のリソースとして提示される構造および機能は、個別のリソースとして実装されてもよい。これらおよび他の変形形態、修正形態、追加、および改良は、添付の特許請求の範囲によって表される本発明の実施形態の範囲内にある。したがって、明細書および図面は、限定的な意味ではなく例示的な意味で見なされるべきである。
最後に、「~のための手段」または「~のステップ」という表現言語を含む請求項のみが米国特許法第112条のパラグラフ6に基づいて解釈されることが出願人の意図である。「手段」または「ステップ」という句を明示的に含まない請求項は、米国特許法第112条のパラグラフ6に基づいて解釈されるべきではない。

Claims (17)

  1. プロセッサを用いて、患者サンプルのゲノムシーケンスにおける少なくとも2つのヌクレオチドパターンの反復としてのバリアントを検出および報告するための方法であって、
    (a)参照反復パターンPref=N*lを、ヒトゲノム参照シーケンスのゲノム領域におけるl(l>=2)ゲノムパターンNの前記反復として識別することと、
    (b)次世代シーケンサを使用して、n個の濃縮されたゲノム患者サンプルのプールから参照反復パターンゲノム領域をカバーする次世代シーケンシングデータリードのn個の患者セットS={S、S、...、S、...、S}を取得することであって、各セットSは患者サンプルに関連付けられており、濃縮されたゲノム患者サンプルの数nは少なくとも4であることと、
    (c)患者サンプルの前記セットS内の各患者サンプルiについて、次世代シーケンシングリードのセットS内の反復パターンの長さの分布Pを測定することと、
    (d)患者サンプルiとjの可能なペアについて、j>iであり、信頼水準Lijで、サンプルjに対するサンプルiの2つの対立遺伝子バリアントの最適モデル
    、すなわち、サンプルjに対するサンプルiの2つの対立遺伝子バリアントの相対的反復パターン長を推定することと、
    (e)患者サンプルi、j>i、k>jの可能なトリプレットごとに、そのそれぞれの最適モデル


    を比較し、一致する最適モデルを増加させた信頼水準で最適バリアントモデルのグループにグループ化し、そして最適バリアントモデルの安定したグループが形成されるまで前記比較を繰り返すことと、
    (f)野生型バリアントを保有する可能性が最も高いグループを識別することと、
    (g)前記野生型バリアントを保有する前記グループ内の各サンプルについて、サンプルバリアント野生型参照反復パターンref=N*lとして報告することと、
    (h)前記野生型バリアントを保有する前記グループからの各サンプルについて、前記識別された野生型グループの前記最適バリアントモデルの関数として、このサンプルを含む前記グループの前記最適バリアントモデルのバイアスを解除し、バイアスのない最適モデルバリアントとして前記サンプルバリアントを報告することと、
    を含む方法。
  2. サンプルjに対するサンプルiの前記2つの対立遺伝子バリアントの最適モデル
    を推定することは、
    (d1)サンプルjについて、サンプルiが、各対立遺伝子について野生型ヒトゲノム参照ホモポリマーパターンref=N*lを保有するという仮定の下で、信頼水準Lj|iでのサンプルjの前記2つの対立遺伝子バリアントの最適モデル
    、ならびにサンプルjの前記測定された分布Pと前記最適バリアントモデル
    予測された単峰性または二峰性分布との間の最小距離Dj|iを推定することと、
    (d2)サンプルiについて、サンプルjが各対立遺伝子について前記野生型ヒトゲノム参照ホモポリマーパターンPref=N*lを保有するという仮定の下で、信頼水準Lj|iでのサンプルiの前記2つの対立遺伝子バリアントの最適モデル
    、ならびにサンプルiの前記測定された分布Pと前記最適バリアントモデル
    の前記予測された単峰性または二峰性分布との間の最小距離Di|jを推定することと、
    (d3)Di|j≧Dj|iの場合、サンプルの前記ペア(i、j)について、前記2つの対立遺伝子バリアントの前記最適バリアントモデルとして最適モデル
    を選択し、サンプルiをペア(i、j)の参照サンプルとして、この最適な一致の信頼水準値として前記信頼水準Lij=Lj|iを選択することと、
    (d4)それ以外のDi|j<Dj|iである場合、サンプルの前記ペア(i、j)について、前記2つの対立遺伝子バリアントの前記最適バリアントモデルとしてモデル
    を選択し、サンプルjを前記ペア(i、j)の参照サンプルとして、この最適な一致についての前記信頼水準値として前記信頼水準Lij=Li|jを選択することと、
    を含む請求項1に記載の方法。
  3. 前記サンプルiが、各対立遺伝子の前記野生型ヒトゲノム参照ホモポリマーパターンPref=N*lを保有しているという仮定の下の、サンプルjの前記2つの対立遺伝子バリアントの二次最適バリアントモデル
    、ならびにサンプルjの前記測定された分布Pと前記二次最適バリアントモデル
    の前記予測された単峰性または二峰性分布との間の二番目に短い距離Di|j’を推定することと、
    サンプルjが、各対立遺伝子の前記野生型ヒトゲノム参照ホモポリマーパターンPref=N*lを保有しているという仮定の下の、サンプルiの前記2つの対立遺伝子バリアントの二次最適バリアントモデル
    、ならびにサンプルiの前記測定された分布Pと前記二次最適バリアントモデル
    の前記予測された単峰性または二峰性分布との間の二番目に短い距離Di|j’を推定することと、
    推定
    の前記信頼水準L ij
    として計算することと、
    をさらに含む請求項2に記載の方法。
  4. サンプルの各グループG(1≦r≦q)内ですべての最適モデルが互いに一致するように、
    の値に基づいて、
    q個の異なるサンプルのグループ(1≦q≦n-1)に一緒にグループ化することと、
    このグループの全体の信頼水準をLij.Gr=1-ΠkεGr(1-Lij.k)として計算することと、
    をさらに含む請求項1、2、または3の方法。
  5. 異なるタイプのヘテロ接合性変異に対応する前記最適モデル
    が、一致する最適モデルの前記グループ化から除外される、請求項4に記載の方法。
  6. 信頼水準Lij.Ghが最も高いグループG を選択することと、
    このグループにおけるすべてのサンプルの最適モデル
    を設定することと、
    ペアi、jの新たな信頼水準をLij.new=max(0、1-(1-Lij.Gh)*Π1≦r≦q、r≠h(1-Lij.Gr-1として計算することと、
    を含む請求項4または5に記載の方法。
  7. 前記最適モデルが安定するまでサンプルのグループを一緒にグループ化することをさらに含む、請求項4から6のいずれかに記載の方法。
  8. 患者サンプルi、j>i、k>jの可能な各トリプレットごとに、それぞれの最適モデル


    を比較し、そして、患者サンプルの前記トリプレットの3つの最適モデルすべてが互いに一致する場合、その信頼水準Lij、Ljk、Likを増加させ、それ以外の場合、前記3つの最適モデルは互いに一致せず、前記サブセットの中で最も信頼水準が低い前記最適モデルを、前記サブセットの他の2つのサンプルから計算された最適モデルに置き換え、患者サンプルの前記トリプレットのすべての前記最適モデルの前記信頼水準Lij、Ljk、Likを低下させ、前記最適モデルが変化しなくなるまで、考えられるすべてのトリプレットの前記比較を繰り返すことを含む、請求項1から7のいずれかに記載の方法。
  9. 一致する最適モデルのトリプレットサブセットi、j、kの各ペアの前記信頼水準が、Lij’=1-(1-Lij)(1-Ljk*Lik)、Ljk’=1-(1-Ljk)(1-Lij*Lik)およびLik’=1-(1-Lik)(1-Lij*Ljk)として増加される、請求項8に記載の方法。
  10. 最も低い初期信頼水準Likが、前記トリプレット内のペアj、kについてLikであり、一致しない最適モデルのトリプレットサブセットi、j、kの各ペアの前記信頼水準は、Lij’=Lij-(1-Ljk)*Lik、Lj’=Ljk-(1-Lij)*LikおよびLik’=max(0、Lij*Ljk-Lik)のように低下され、そして、前記サブセットからの最も低い信頼水準でのペアj、kの前記最適モデルは、
    によって置き換えられる、請求項8または9に記載の方法。
  11. 患者サンプルの前記プール内の野生型参照に対応する1つまたは複数のサンプルの前記サブセットを識別することは、サンプルの前記プールのクロス分析から、最大数のサンプルi、j、…が関連付けられているホモ接合性最適バリアントモデルグループ[V|V]を野生型として選択することで構成される、請求項10に記載の方法。
  12. 患者サンプルの前記プール内の野生型参照に対応する1つまたは複数のサンプルの前記サブセットを識別することは、ホモ接合性の最適バリアントモデル
    の各グループGについて、前記ホモ接合性の最適バリアントモデル
    野生型であるという仮説の下で、
    が、最適バリアントモデル
    のグループGの互いに可能なバリアントであるかどうかを検証し、またそうでない場合は、グループGを野生型パターンを保有するものとして除外することを含む、請求項10または11に記載の方法。
  13. および/または
    である場合、前記
    の最適バリアントモデルでの前記反復パターンの前記長さは、もっともらしい欠失バリアントとして検出されるのに十分に長いことを検証することを含む、請求項12に記載の方法。
  14. および/または
    である場合、前記
    の最適バリアントモデルでの前記反復パターンの前記長さは、もっともらしい挿入バリアントとして検出されるのに十分に短いことを検証することを含む、請求項12または13に記載の方法。
  15. ホモ接合性の最適バリアントモデル
    のもっともらしい各グループについての平均ホモポリマー長
    と標準偏差SDに基づいてエラー率を推定し、
    が、最も近い整数
    に対する事前定義されたしきい値 しきい値_hの範囲内である場合、つまりabs(
    )<しきい値_hである場合、かつSDが事前定義されたしきい値 しきい値_sdを下回るのに十分小さい場合、つまり、SD<しきい値_sdの場合、前記ホモ接合性の最適バリアントモデル
    を、エラー率の最も低い野生型参照として選択することをさらに含む、請求項10、12、13または14に記載の方法。
  16. しきい値_hは、0から0.1の範囲で選択される、請求項15に記載の方法。
  17. しきい値_sdは、0から0.1の範囲で選択される、請求項15または16に記載の方法。
JP2021518999A 2018-06-14 2019-06-14 ゲノムデータを次世代シーケンシングする際のバリアント検出方法 Active JP7366129B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18177876 2018-06-14
EP18177876.2 2018-06-14
PCT/EP2019/065777 WO2019238963A1 (en) 2018-06-14 2019-06-14 Methods for detecting variants in next-generation sequencing genomic data

Publications (2)

Publication Number Publication Date
JP2021528099A JP2021528099A (ja) 2021-10-21
JP7366129B2 true JP7366129B2 (ja) 2023-10-20

Family

ID=62684640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021518999A Active JP7366129B2 (ja) 2018-06-14 2019-06-14 ゲノムデータを次世代シーケンシングする際のバリアント検出方法

Country Status (9)

Country Link
US (1) US20210125689A1 (ja)
EP (1) EP3807885B1 (ja)
JP (1) JP7366129B2 (ja)
KR (1) KR20210021354A (ja)
AU (1) AU2019287364B2 (ja)
BR (1) BR112020025478B1 (ja)
CA (1) CA3103176A1 (ja)
ES (1) ES2923142T3 (ja)
WO (1) WO2019238963A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010517539A (ja) 2007-02-05 2010-05-27 アプライド バイオシステムズ, エルエルシー ショートリード配列決定を用いたインデル識別のためのシステムおよび方法
JP2012032975A (ja) 2010-07-30 2012-02-16 Hitachi Ltd 最適アラインメント計算装置及びプログラム
US20140052381A1 (en) 2012-08-14 2014-02-20 Life Technologies Corporation Systems and Methods for Detecting Homopolymer Insertions/Deletions
JP2017521078A (ja) 2014-07-18 2017-08-03 キャンサー・リサーチ・テクノロジー・リミテッドCancer Research Technology Limited 遺伝的多様体を検出する方法
WO2018104466A1 (en) 2016-12-07 2018-06-14 Sophia Genetics S.A. Methods for detecting variants in next-generation sequencing genomic data

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010517539A (ja) 2007-02-05 2010-05-27 アプライド バイオシステムズ, エルエルシー ショートリード配列決定を用いたインデル識別のためのシステムおよび方法
JP2012032975A (ja) 2010-07-30 2012-02-16 Hitachi Ltd 最適アラインメント計算装置及びプログラム
US20140052381A1 (en) 2012-08-14 2014-02-20 Life Technologies Corporation Systems and Methods for Detecting Homopolymer Insertions/Deletions
JP2017521078A (ja) 2014-07-18 2017-08-03 キャンサー・リサーチ・テクノロジー・リミテッドCancer Research Technology Limited 遺伝的多様体を検出する方法
WO2018104466A1 (en) 2016-12-07 2018-06-14 Sophia Genetics S.A. Methods for detecting variants in next-generation sequencing genomic data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BioMed Research International,2016年,Volume 2016, Article ID 5623089, p.1-11

Also Published As

Publication number Publication date
AU2019287364A1 (en) 2021-01-28
EP3807885A1 (en) 2021-04-21
WO2019238963A1 (en) 2019-12-19
BR112020025478B1 (pt) 2023-01-10
ES2923142T3 (es) 2022-09-23
AU2019287364B2 (en) 2024-05-02
EP3807885B1 (en) 2022-06-08
US20210125689A1 (en) 2021-04-29
BR112020025478A2 (pt) 2021-03-16
JP2021528099A (ja) 2021-10-21
CA3103176A1 (en) 2019-12-19
KR20210021354A (ko) 2021-02-25

Similar Documents

Publication Publication Date Title
US20240105282A1 (en) Methods for detecting bialllic loss of function in next-generation sequencing genomic data
US11923049B2 (en) Methods for processing next-generation sequencing genomic data
AU2018375008B2 (en) Methods and systems for determining somatic mutation clonality
US20220130488A1 (en) Methods for detecting copy-number variations in next-generation sequencing
JP2023156402A (ja) ターゲットシーケンシングのためのモデル
SoRelle et al. Assembling and validating bioinformatic pipelines for next-generation sequencing clinical assays
EP3724882B1 (en) Methods for detecting variants in next-generation sequencing genomic data
JP7366129B2 (ja) ゲノムデータを次世代シーケンシングする際のバリアント検出方法
US11990206B2 (en) Methods for detecting variants in next-generation sequencing genomic data
US20220223226A1 (en) Methods for detecting and characterizing microsatellite instability with high throughput sequencing
Maruzani et al. Benchmarking UMI-aware and standard variant callers on synthetic and real ctDNA datasets
TW202330933A (zh) 用於癌症分類之汙染片段之樣品汙染偵測
Corbett Assessment of Alignment Algorithms, Variant Discovery and Genotype Calling Strategies in Exome Sequencing Data
Irizarry et al. Model-Based Quality Assessment and Base-Calling for Second-Generation Sequencing Data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220509

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231010

R150 Certificate of patent or registration of utility model

Ref document number: 7366129

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150